JP2020052961A - コンテンツ提供システム、コンテンツ提供方法、情報処理装置、及びプログラム - Google Patents

コンテンツ提供システム、コンテンツ提供方法、情報処理装置、及びプログラム Download PDF

Info

Publication number
JP2020052961A
JP2020052961A JP2018184591A JP2018184591A JP2020052961A JP 2020052961 A JP2020052961 A JP 2020052961A JP 2018184591 A JP2018184591 A JP 2018184591A JP 2018184591 A JP2018184591 A JP 2018184591A JP 2020052961 A JP2020052961 A JP 2020052961A
Authority
JP
Japan
Prior art keywords
content
partial data
document
information processing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018184591A
Other languages
English (en)
Other versions
JP7134814B2 (ja
JP2020052961A5 (ja
Inventor
宗士 大志万
Soshi Oshima
宗士 大志万
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018184591A priority Critical patent/JP7134814B2/ja
Priority to US16/565,929 priority patent/US20200104342A1/en
Publication of JP2020052961A publication Critical patent/JP2020052961A/ja
Publication of JP2020052961A5 publication Critical patent/JP2020052961A5/ja
Application granted granted Critical
Publication of JP7134814B2 publication Critical patent/JP7134814B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Abstract

【課題】編集されている部分データの内容と類似するデータをユーザに提供することができるコンテンツ提供システム、コンテンツ提供方法、情報処理装置、及びプログラムを提供する。【解決手段】コンテンツ提供システム100は、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、端末装置101でユーザが作業をしている表示ページデータが分類されるクラスタに対応付けされたページデータを、端末装置101に提供する。【選択図】図1

Description

本発明は、コンテンツ提供システム、コンテンツ提供方法、情報処理装置、及びプログラムに関する。
ユーザがOfficeソフト等によってドキュメントを編集している際に、編集の参考となる別のドキュメントを提供するコンテンツ提供システムが知られている。コンテンツ提供システムは、ユーザが入力したドキュメント(以下、「入力ドキュメント」という。)が分類されるクラスタを判別し、データベースに予め登録されたドキュメントの中から、判別したクラスタと類似度が高いドキュメントをユーザに提供する(例えば、特許文献1参照)。これにより、入力ドキュメントと内容が類似するドキュメントをユーザに提供してドキュメントの編集の手助けをすることができる。
特開2008−158590号公報
しかしながら、従来のコンテンツ提供システムでは、分類されるクラスタの判別がドキュメント単位で行われるので、ユーザが編集しているページや章といった部分データの内容と類似するデータをユーザに提供することができない。
本発明の目的は、編集されている部分データの内容と類似するデータをユーザに提供することができるコンテンツ提供システム、コンテンツ提供方法、情報処理装置、及びプログラムを提供することにある。
上記目的を達成するために、本発明のコンテンツ提供システムは、ユーザが操作する情報処理装置に予め登録されたコンテンツを提供するコンテンツ提供システムであって、前記登録されたコンテンツを構成する複数の部分データを解析する解析手段と、各前記部分データを予め定められた複数のクラスタの何れかに対応付けして管理する管理手段と、前記情報処理装置に表示された表示部分データが分類されるクラスタを判別するクラスタ判別手段と、前記登録されたコンテンツを構成する複数の部分データのうち、前記判別したクラスタに対応付けされた部分データを前記情報処理装置に提供するコンテンツ提供手段とを備えることを特徴とする。
本発明によれば、編集されている部分データの内容と類似するデータをユーザに提供することができる。
本発明の実施の形態に係るコンテンツ提供システムの構成を概略的に示すブロック図である。 図1のコンテンツ解析サーバに設けられる制御装置及び端末装置に設けられる制御装置の各ハードウェア構成を概略的に示すブロック図である。 図1のコンテンツ解析サーバ及び端末装置の各機能構成を示すブロック図である。 図1の端末装置におけるレコメンド画像の表示について説明するための図である。 図3のドキュメント解析部によって実行されるクラスタリング処理の手順を示すフローチャートである。 図5の処理におけるページデータの特徴のベクトル化について説明するための図である。 図1のコンテンツ解析サーバによって管理される部分データ情報管理テーブルの一例を示す図である。 図1の端末装置によって実行される表示制御処理の手順を示すフローチャートである。 図1のコンテンツ解析サーバによって実行されるレコメンド画像生成処理の手順を示すフローチャートである。 図9のステップS903におけるクラスタの判別を説明するための図である。 図9のステップS904におけるレコメンド対象の選択を説明するための図である。 図1の端末装置におけるレコメンド画像の表示例を示す図である。 図5のクラスタリング処理の変形例の手順を示すフローチャートである。 図1のコンテンツ解析サーバによって管理されるドキュメント情報管理テーブルの一例を示す図である。 図9のレコメンド画像生成処理の変形例の手順を示すフローチャートである。
以下、本発明の実施の形態について図面を参照しながら詳述する。
図1は、本発明の実施の形態に係るコンテンツ提供システム100の構成を概略的に示すブロック図である。図1において、コンテンツ提供システム100は、情報処理装置としての端末装置101、コンテンツ管理サーバ102、及びコンテンツ解析サーバ103を備える。なお、本実施の形態では、説明を容易にするために、端末装置101、コンテンツ管理サーバ102、及びコンテンツ解析サーバ103を1台ずつ備える構成について説明するが、各装置の台数はこれに限られない。例えば、コンテンツ提供システム100は、端末装置101やコンテンツ管理サーバ102を複数台備えても良い。端末装置101、コンテンツ管理サーバ102、及びコンテンツ解析サーバ103は、ネットワーク104を介してデータ通信可能である。ネットワーク104は、インターネット、有線LAN、無線LAN、又はこれらの組み合わせである。端末装置101、コンテンツ管理サーバ102、及びコンテンツ解析サーバ103は、ネットワーク104と直接、又は接続機器(不図示)を介して接続されている。接続機器は、例えば、ルータ、ゲートウェイ、及びプロキシサーバである。
端末装置101は、ユーザが直接操作する端末である。ユーザは、端末装置101を操作して、Officeソフト等によってドキュメントを編集する。コンテンツ管理サーバ102は、登録された複数のコンテンツを管理する。コンテンツ管理サーバ102は、例えば、複数ページからなるドキュメント、複数の章からなるドキュメント、複数の節からなるドキュメント、及び複数の段落からなるドキュメントのように様々なデータ構造のコンテンツを管理する。コンテンツ解析サーバ103は、コンテンツ管理サーバ102で管理されたドキュメントや、端末装置101から送信されたドキュメントを解析する。コンテンツ提供システム100では、コンテンツ管理サーバ102で管理されたドキュメントのうち、端末装置101でユーザが作業しているドキュメントと類似性が高いドキュメントが端末装置101に提供される。以下では、端末装置101に提供されるために選択されるデータをレコメンドデータと称する。
図2は、図1のコンテンツ解析サーバ103に設けられる制御装置200及び端末装置101に設けられる制御装置210の各ハードウェア構成を概略的に示すブロック図である。図2(a)は、コンテンツ解析サーバ103の制御装置200のハードウェア構成を示す。図2(b)は、端末装置101の制御装置210のハードウェア構成を示す。
図2(a)において、制御装置200は、CPU201、ROM202、RAM203、記憶装置204、ネットワークI/F205、ディスプレイI/F206、操作入力I/F207、及び外部I/O208を備える。CPU201、ROM202、RAM203、記憶装置204、ネットワークI/F205、ディスプレイI/F206、操作入力I/F207、及び外部I/O208はシステムバス209を介して互いに接続されている。
制御装置200は、コンテンツ解析サーバ103全体を統括的に制御する。CPU201は、ROM202に格納されたプログラムを実行することで、各種処理を制御する。ROM202は、CPU201が実行するプログラムや設定データを格納する。RAM203は、CPU201の作業領域として、また、各データの一時格納領域として用いられる。記憶装置204は、後述する図3(a)の各モジュールを制御するためのプログラム等を格納する。ネットワークI/F205は、ネットワーク104を介して接続された外部装置、例えば、端末装置101やコンテンツ管理サーバ102とのデータ通信を制御する。ディスプレイI/F206には、液晶ディスプレイ等の外部ディスプレイ(不図示)が接続される。操作入力I/F207には、キーボード、マウス、及びタッチパネル等の操作入力機器(不図示)が接続される。外部I/O208には、USBメモリや外付けの記憶デバイス等が接続される。
図2(b)において、制御装置210は、CPU211、ROM212、RAM213、記憶装置214、ネットワークI/F215、ディスプレイI/F216、操作入力I/F217、及び外部I/O218を備える。CPU211、ROM212、RAM213、記憶装置214、ネットワークI/F215、ディスプレイI/F216、操作入力I/F217、及び外部I/O218はシステムバス219を介して互いに接続されている。
制御装置210は、端末装置101全体を統括的に制御する。CPU211は、ROM212に格納されたプログラムを実行することで、各種処理を制御する。ROM212は、CPU211が実行するプログラムや設定データを格納する。RAM213は、CPU211の作業領域として、また、各データの一時格納領域として用いられる。記憶装置214は、後述する図3(b)の各モジュールを制御するためのプログラム等を格納する。ネットワークI/F215は、ネットワーク114を介して接続された外部装置、例えば、コンテンツ管理サーバ102やコンテンツ解析サーバ103とのデータ通信を制御する。ディスプレイI/F216には、液晶ディスプレイ等の外部ディスプレイ(不図示)が接続される。操作入力I/F217には、キーボード、マウス、及びタッチパネル等の操作入力機器(不図示)が接続される。外部I/O218には、USBメモリや外付けの記憶デバイス等が接続される。
図3は、図1のコンテンツ解析サーバ103及び端末装置101の各機能構成を示すブロック図である。図3(a)は、コンテンツ解析サーバ103の機能構成を示す。図3(b)は、端末装置101の機能構成を示す。
図3(a)において、コンテンツ解析サーバ103は、モジュールとして、データ生成部301、ドキュメント解析部302、制御部303、通信部304、ドキュメントクラスタDB305、及びページクラスタDB306を備える。上述した各モジュールの処理は、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。
データ生成部301は、レコメンドデータを示す画像を端末装置101に表示させるためのレコメンド表示用データを生成する。レコメンド表示用データは、レコメンドデータのサムネイル画像(以下、「レコメンド画像」という。)、レコメンドデータのページ番号、及びレコメンドデータの格納場所を示すアドレスを含む。ドキュメント解析部302は、ドキュメントの構造を解析する。例えば、ドキュメント解析部302は、コンテンツ管理サーバ102で管理された全てのドキュメントのページ情報を解析する。また、ドキュメント解析部302は、ユーザが端末装置101を用いて編集しているドキュメントの構造を解析する。制御部303は、制御装置200及び当該制御装置200に接続された機器を制御する。また、制御部303は、上述したコンテンツ解析サーバ103の各モジュールの処理の実行を制御する。通信部304は、ネットワーク104に接続された外部装置とのデータ通信を制御する。ドキュメントクラスタDB305は、後述する図14のドキュメント情報管理テーブル1400を管理する。ページクラスタDB306は、後述する図7の部分データ情報管理テーブル700を管理する。
図3(b)において、端末装置101は、モジュールとして、通信部311、表示部312、操作部313、制御部314、アプリケーション実行部315、操作検出部316、及びレコメンド実行部317を備える。上述した端末装置101の各モジュールの処理は、CPU211がROM212や記憶装置214に格納されたプログラムを実行することによって行われる。
通信部311は、ネットワーク104に接続された外部装置とのデータ通信を制御する。例えば、通信部311は、コンテンツ解析サーバ103から後述するレコメンド表示用データを受信する(受信手段)。また、通信部311は、コンテンツ管理サーバ102からレコメンドデータを取得する(取得手段)。表示部312は、端末装置101のディスプレイ(不図示)の表示制御を行う。操作部313は、端末装置101に接続されたキーボード、マウス、及びタッチパネル等の操作入力機器(不図示)で入力された指示を受け付ける。制御部314は、制御装置210及び当該制御装置210に接続された機器を制御する。また、制御部314は、上述した端末装置101の各モジュールの処理について制御する。アプリケーション実行部315は、端末装置101にインストールされたアプリケーションを実行する。操作検出部316は、上記操作入力機器で受け付けた指示や、アプリケーション実行部315によるアプリケーションの実行状況等に基づいてユーザによる端末装置101への操作を検出する。レコメンド実行部317は、後述する図8の表示制御処理を実行する。
図4は、図1の端末装置101におけるレコメンド画像の表示について説明するための図である。
図4(a)の画面400は、端末装置101のディスプレイ(不図示)上に表示される画面を模式的に表している。端末装置101では、レコメンドデータを取得するためのレコメンドデータ取得アプリケーションが起動すると、画面400にウインドウ401が表示される。ウインドウ401は、端末装置101上で実行され且つドキュメントの表示や編集を実施可能なアプリケーションソフトウェアのウインドウである。ユーザは、ウインドウ401を介してドキュメントの閲覧や編集を行う。以下では、閲覧や編集を行うためにウインドウ401に表示されるドキュメントを表示ドキュメント(表示コンテンツ)と称する。ユーザがドキュメントを開く操作を行うと、画面400は、ウインドウ401を表示する領域402と、レコメンド画像404〜407を表示する領域403とに分割される。レコメンド画像404〜407は、コンテンツ管理サーバ102で管理されたドキュメントを構成する複数のページに対応するデータ(以下、「ページデータ」という。)のうち、ウインドウ401に表示されているページデータ(以下、「表示ページデータ」という。)(表示部分データ)と類似性が高いページデータのサムネイル画像である。領域403には、複数のレコメンド画像が表示され、マウス(不図示)等の操作でスクロールすることで領域403に収まらないレコメンド画像を表示することも可能である。
図4(b)は、ユーザがマウス等によりレコメンド画像405を選択した状態を表している。選択されたレコメンド画像405の枠線は、例えば、図4(b)に示すように、強調表示される。ウインドウ408は、ユーザがレコメンド画像405を選択した後、レコメンド画像405に対応するページデータ(レコメンドデータ)を表示するためのウインドウである。このように、本実施の形態では、ユーザがレコメンド画像を選択することで、選択したレコメンド画像に対応するページデータ(レコメンドデータ)を画面400に表示することができる。ユーザは、表示ページデータの編集の参考資料又は素材資料として、レコメンドデータを使用する。
図5は、図3のドキュメント解析部302によって実行されるクラスタリング処理の手順を示すフローチャートである。図5の処理は、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。また、図5の処理は、例えば、コンテンツ管理サーバ102に新たなドキュメントが登録された際、若しくは予め設定された所定の時刻に達した際に実行される。
図5において、まず、ドキュメント解析部302は、コンテンツ管理サーバ102で管理された全てのドキュメントのページ情報を解析する(ステップS501)。具体的に、ドキュメント解析部302は、各ドキュメントのページ情報をドキュメントの構造情報から取得し、各ページデータのテキストデータを抽出する。また、ドキュメント解析部302は、抽出したテキストデータに基づいて各ページデータの特徴をベクトル化する。本実施の形態では、Doc2Vec等を用いて各ページデータの特徴のベクトル化が行われる。図6は、ベクトル化した各ページデータの特徴を特徴空間にプロットした様子を模式的に表す図である。なお、特徴空間は、N次元(Nは整数)の基底ベクトルを軸として定義される空間であるが、本実施の形態では、説明を容易にするために、特徴量1、2の2次元として説明する。図6において、ベクトル601等の白丸が各ページデータの特徴をベクトル化した特徴ベクトルである。ページデータとドキュメントとの対応関係は、図7の部分データ情報管理テーブル700で管理される。部分データ情報管理テーブル700は、ベクトルID701、ドキュメントID702、ドキュメントアドレス703、ページ番号704、及びクラスタID705で構成される。ベクトルID701には、各特徴ベクトルを識別するための識別子が記録される。ドキュメントID702には、コンテンツ管理サーバ102によって管理された各ドキュメントを識別するための識別子が記録される。ドキュメントアドレス703には、コンテンツ管理サーバ102によって管理された各ドキュメントの格納場所を示すアドレスが記録される。ページ番号704には、ドキュメントのページ番号が記録される。クラスタID705には、ステップS502におけるクラスタリングの結果、具体的に、ページ番号に対応するページデータが対応付けされたクラスタを識別するための識別子が記録される。
次いで、ドキュメント解析部302は、ステップS501でベクトル化して得られた各ページデータの特徴ベクトルをクラスタリングする(ステップS502)。クラスタリングには、k−means法、X−means法、最短距離法、及びウォード法等の方法が用いられる。図6において、枠602〜604がクラスタを表しており、例えば、枠602内の特徴ベクトルは同じクラスタに属する。クラスタリングした結果が、管理テーブル701のクラスタID705に記録される。このようにして、本実施の形態では、コンテンツ管理サーバ102で管理されるドキュメントの各ページデータが予め定められた複数のクラスタの何れかに対応付けされる。その後、ドキュメント解析部302は、本処理を終了する。
図8は、図1の端末装置101によって実行される表示制御処理の手順を示すフローチャートである。図8の処理は、CPU211がROM212や記憶装置214に格納されたプログラムを実行することによって行われる。
図8において、CPU211は、操作検出部316により、ユーザによるドキュメントに対する操作(以下、「ドキュメント操作」という。)を検出したか否かを判別する(ステップS801)。ドキュメント操作は、具体的に、ドキュメントを開く操作である。このような操作に関する情報は、操作部313から制御部314にリアルタイムで通知され、通知を受信した制御部314は、ドキュメント操作が行われた旨を操作検出部316に通知する。この通知に基づいて操作検出部316がドキュメント操作を検出すると(ステップS801でYES)、CPU211は、ドキュメント操作が検出された表示ドキュメントに関連する情報(以下、「ドキュメント関連情報」という。)を通信部311を介してコンテンツ解析サーバ103へ送信する(ステップS802)。ドキュメント関連情報には、表示ドキュメント、及び表示ページデータのページ番号を示す情報が含まれる。ドキュメント関連情報を受信したコンテンツ解析サーバ103は、後述する図9のレコメンド画像生成処理を実行する。レコメンド画像生成処理では、コンテンツ解析サーバ103は、表示ページデータの特徴量と類似性が高いページデータのレコメンド画像を生成し、レコメンド画像を含むレコメンド表示用データを端末装置101に送信する。レコメンド表示用データには、レコメンド画像の他に、レコメンドデータのページ番号、及びレコメンドデータの格納場所を示すアドレスが含まれる。
次いで、CPU211は、コンテンツ解析サーバ103からレコメンド表示用データを受信し(ステップS803)、当該レコメンド表示用データに含まれるレコメンド画像を画面400の領域403に表示する(ステップS804)。領域403に表示された当該レコメンド画像がユーザに選択されると、CPU211は、レコメンド表示用データに含まれるアドレスにアクセスして、当該アドレスが示すレコメンドデータを取得する。また、CPU211は、取得したレコメンドデータが表示された新たなウインドウ、例えば、ウインドウ408を領域402に表示する。次いで、CPU211は、表示ドキュメントを閉じる操作を検出したか否かを判別する(ステップS805)。
ステップS805の判別の結果、表示ドキュメントを閉じる操作を検出しないとき、CPU211は、ステップS802でドキュメント関連情報を送信してから予め設定された所定の時間が経過したか否かを判別する(ステップS806)。所定の時間は、例えば、数分程度である。
ステップS806の判別の結果、ステップS802でドキュメント関連情報を送信してから所定の時間が経過しないとき、CPU211は、ステップS805の処理に戻る。ステップS806の判別の結果、ステップS802でドキュメント関連情報を送信してから所定の時間が経過したとき、CPU211は、ステップS802の処理に戻る。すなわち、本実施の形態では、ドキュメント関連情報がコンテンツ解析サーバ103に送信されてから予め設定された所定の時間が経過した際に画面400に表示された表示ページデータに関する情報を含む別のドキュメント関連情報がコンテンツ解析サーバ103に送信される。
ステップS805の判別の結果、表示ドキュメントを閉じる操作を検出したとき、CPU211は、本処理を終了する。
図9は、図1のコンテンツ解析サーバ103によって実行されるレコメンド画像生成処理の手順を示すフローチャートである。図9の処理は、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。
図9において、CPU201は、ステップS802で端末装置101から送信されたドキュメント関連情報を受信する(ステップS901)。次いで、CPU201は、ドキュメント関連情報を解析する(ステップS902)。具体的に、CPU201は、ドキュメント解析部302により、受信したドキュメント関連情報に含まれるページ番号から特定した表示ページデータのテキストデータを抽出し、抽出したテキストデータに基づいて表示ページデータの特徴をベクトル化する。なお、CPU201は、ステップS501と同様の方法でベクトル化を行う。次いで、CPU201は、部分データ情報管理テーブル700に基づいて表示ページデータが分類されるクラスタを判別する(ステップS903)(クラスタ判別手段)。例えば、表示ページデータの特徴ベクトルが図10のベクトル1001である場合、CPU201は、図10のようにベクトル1001を含むクラスタ1002を表示ページデータが分類されるクラスタと判別する。また、表示ページデータの特徴ベクトルがクラスタ1002〜1004の何れにも含まれないベクトル1005である場合、CPU201は、各クラスタ1002〜1004の中心までの距離に基づいて表示ページデータが分類されるクラスタを判別する。この場合、CPU201は、クラスタ1002〜1004のうち、中心からベクトル1005までの距離が最も短いクラスタ1002を表示ページデータが分類されるクラスタと判別する。
次いで、CPU201は、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、判別したクラスタに対応付けされたページデータをレコメンド対象として選択する(ステップS904)。ステップS904では、例えば、図11において、判別したクラスタ1101内のベクトル1102〜1110に対応する全てのページデータをレコメンド対象として選択する。若しくは、判別したクラスタ1101内のベクトル1102〜1110のうち、表示ページデータのベクトル1111を中心とする同心円領域1112内のベクトル1108〜1110に対応するページデータをレコメンド対象として選択する。ベクトル1108〜1110に対応するページデータは、表示ページデータとの関連性が極めて高いページデータである。
次いで、CPU201は、レコメンド対象のサムネイル画像であるレコメンド画像を生成する(ステップS905)。具体的に、CPU201は、データ生成部301により、選択したレコメンド対象のアドレス及びページ番号を部分データ情報管理テーブル700から取得する。CPU201は、データ生成部301により、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、取得したアドレスが示すページデータをサムネイル化して、レコメンド画像を生成する。次いで、CPU201は、レコメンド画像、レコメンドデータのページ番号、及びレコメンドデータの格納場所を示すアドレスを含むレコメンド表示用データを端末装置101に送信し(ステップS906)(画像送信手段)、本処理を終了する。
上述した実施の形態によれば、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、表示ページデータが分類されるクラスタに対応付けされたページデータが端末装置101に提供される。これにより、編集されている表示ページデータの内容と類似するレコメンドデータをユーザに提供することができる。
また、上述した実施の形態では、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、表示ページデータが分類されるクラスタに対応付けされたレコメンドデータのサムネイル画像であるレコメンド画像が端末装置101に送信される。これにより、表示されたレコメンド画像から編集の参考資料として適したレコメンドデータをユーザに容易に選択させることができる。
上述した実施の形態では、端末装置101は、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、表示ページデータに関する情報を含むドキュメント関連情報に対応するページデータのレコメンド画像を表示し(例えば、図4(a)のレコメンド画像404〜407を参照)、当該レコメンド画像に対応するページデータ(レコメンドデータ)を取得する。これにより、編集されている表示ページデータの内容と類似するレコメンドデータをユーザに提供することができる。
また、上述した実施の形態では、ドキュメント関連情報がコンテンツ解析サーバ103に送信されてから予め設定された所定の時間が経過した際にウインドウ401に表示される表示ページデータを示す情報を含む別のドキュメント関連情報がコンテンツ解析サーバ103に送信される。これにより、時間の経過に応じて変更された表示ページデータと類似性が高いレコメンドデータをユーザに提供することができる。
以上、本発明について、上述した実施の形態を用いて説明したが、本発明は上述した実施の形態に限定されるものではない。例えば、表示ページデータのベクトルを生成した際に、コンテンツ管理サーバ102で管理される全てのドキュメントのページデータのクラスタリングと表示ページデータのクラスタリングとを実施しても良い。
また、上述した実施の形態では、ステップS801で検出されるドキュメント操作は、ドキュメントを開く操作に限られず、例えば、ページを捲る操作や編集する操作といった表示ページデータの変更操作であっても良い。このような操作を検出すると、CPU211は、ステップS805の判別の結果、表示ドキュメントを閉じる操作を検出しないとき、ステップS806の処理を行わず、ステップS801の処理に戻る。このように処理することで、端末装置101において、表示ページデータの変更操作の検出に応じて、変更後の表示ページデータと類似性が高いページデータをユーザに提供することができる。
上述した実施の形態では、ページデータの特徴をベクトル化する処理量を極力減らして処理速度を上げるために、各ページデータのテキストデータに基づいてページデータの特徴をベクトル化したが、これに限られない。例えば、ページデータを構成する少なくとも一部の画像情報に基づいてページデータの特徴をベクトル化しても良い。画像情報を用いる場合、コンテンツ解析サーバ103は、画像特徴量を取得することでページデータをベクトル化する。
また、上述した実施の形態では、クラスタリング及びレコメンドの対象をページ単位として説明したが、ドキュメントを構成する文章の章、節、段落等の文章構造の単位でクラスタリング及びレコメンドを行っても良く、また、ページ及び文章構造の両方を用いてクラスタリング及びレコメンドを行ってもよい。文章構造の単位でクラスタリング及びレコメンドが行われる場合、部分データ情報管理テーブル700では、ページ番号704の代わりに、文章構造に関する情報が記録される。
上述した実施の形態では、例えば、複数ページからなる章のデータがレコメンド対象に選択された場合、レコメンド対象が複数ページからなるデータであることを示すレコメンド画像が端末装置101に表示されても良い。例えば、図12(a)に示すように、ページ数分のデータが重なっているような画像1201が表示される。図12(b)に示すように、各ページデータの縮小サムネイル画像が並べて表示される。図12(c)に示すように、章の先頭ページのサムネイル画像1203に重畳してレコメンド対象のページ数を示す画像1204が表示される。このような表示により、レコメンド対象が複数ページからなるデータであることをユーザに知らせることができる。
上述した実施の形態では、コンテンツ提供システムの構成に限られず、端末装置101がコンテンツ解析サーバ103の機能を備え、図5及び図9の各処理を端末装置101が実行しても良い。
また、上述した実施の形態では、ページ単位でクラスタリングした結果に基づいて選択したレコメンド対象(提供候補)をドキュメント単位でクラスタリングした結果に基づいて絞り込んでも良い。
例えば、レコメンド対象の選択にページ単位でクラスタリングした結果を用いると、編集の参考資料として適していないデータ、例えば、表示ドキュメントと関連性が薄いドキュメントのページデータがレコメンド対象として選択されてしまうことがある。
これに対応して、本実施の形態では、ページ単位でクラスタリングした結果に基づいて選択したレコメンド対象をドキュメント単位でクラスタリングした結果に基づいて絞り込む。
図13は、図5のクラスタリング処理の変形例の手順を示すフローチャートである。図13の処理も、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。また、図13の処理も、例えば、コンテンツ管理サーバ102に新たなドキュメントが登録された際、若しくは予め設定された所定の時刻に達した際に実行される。
図13において、ドキュメント解析部302は、ステップS501、S502の処理を行う。次いで、ドキュメント解析部302は、ドキュメントの全体の特徴をベクトル化する。具体的に、ドキュメント解析部302は、ドキュメントを構成する全てのテキストデータを取得し、取得した全てのテキストデータに基づいてステップS502と同様の方法でベクトル化する。次いで、ドキュメント解析部302は、上記ドキュメントのクラスタリングを行う(ステップS1301)。クラスタリングした結果は、図14のドキュメント情報管理テーブル1400で管理される。ドキュメント情報管理テーブル1400は、ベクトルID1401、ドキュメントID1402、ドキュメントアドレス1403、及びクラスタID1404で構成される。ベクトルID1401には、各特徴ベクトルを識別するための識別子が記録される。ドキュメントID1402は、部分データ情報管理テーブル700のドキュメントID702と対応し、コンテンツ管理サーバ102によって管理された各ドキュメントを識別するための識別子が記録される。ドキュメントアドレス1403には、コンテンツ管理サーバ102によって管理された各ドキュメントの格納場所を示すアドレスが記録される。クラスタID1404には、コンテンツ管理サーバ102によって管理された各ドキュメントが対応付けされたコンテンツクラスタを識別するための識別子が記録される。なお、本実施の形態では、コンテンツクラスタには、ステップS502で各ページデータが対応付けされるクラスタと区別可能な識別子が割り当てられる。例えば、各ページデータが対応付けされるクラスタには、図7に示すように、頭文字を「C」とした通し番号が識別子として割り当てられ、コンテンツクラスタには、図14に示すように、頭文字を「CD」とした通し番号が識別子として割り当てられる。
図15は、図9のレコメンド画像生成処理の変形例の手順を示すフローチャートである。図15の処理も、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。
図15において、CPU201は、ステップS901〜S904の処理を行う。次いで、CPU201は、ドキュメント解析部302により、表示ドキュメントが分類されるコンテンツクラスタを判別する(ステップS1501)(コンテンツクラスタ判別手段)。ステップS1501では、ステップS903で表示ページデータに対して行った処理と同様の処理を、表示ドキュメントに対して行う。次いで、CPU201は、ドキュメント解析部302により、ステップS1501で判別した結果に基づいてステップS904で選択したレコメンド対象を絞り込む(ステップS1502)。例えば、ステップS903において表示ページデータが分類されるクラスタがC004と判別された場合、部分データ情報管理テーブル700に基づいて、レコメンド対象として、ベクトルID(ドキュメントID)がP00001(D00001)、P00003(D00002)、及びP00006(D00003)に対応するページデータが選択される。これに対し、ステップS1501において表示ドキュメントが分類されるコンテンツクラスタがCD03と判別された場合、ドキュメント情報管理テーブル1400に基づいてレコメンド対象がP00006(D00003)に対応するページデータに絞り込まれる。なお、ステップS1501で判別されたコンテンツクラスタがドキュメント情報管理テーブル1400に含まれていない場合、例えば、レコメンド対象の絞り込みが行われない。若しくは、レコメンド対象を対応付けされたドキュメント数が最も多いコンテンツクラスタに属するドキュメントに絞り込む。次いで、CPU201は、ステップS905以降の処理を行う。
上述した実施の形態では、ページ単位でクラスタリングした結果に基づいて選択したレコメンド対象がドキュメント単位でクラスタリングした結果に基づいて絞り込まれる。これにより、編集の参考資料としてより適したレコメンドデータをユーザに提供することができる。
本発明は、上述の実施の形態の1以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、該システム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 コンテンツ提供システム
101 端末装置
102 コンテンツ管理サーバ
103 コンテンツ解析サーバ
200,210 制御装置
201,211 CPU
302 ドキュメント解析部
404〜407 レコメンド画像
700 部分データ情報管理テーブル
1400 ドキュメント情報管理テーブル

Claims (17)

  1. ユーザが操作する情報処理装置に予め登録されたコンテンツを提供するコンテンツ提供システムであって、
    前記登録されたコンテンツを構成する複数の部分データを解析する解析手段と、
    各前記部分データを予め定められた複数のクラスタの何れかに対応付けして管理する管理手段と、
    前記情報処理装置に表示された表示部分データが分類されるクラスタを判別するクラスタ判別手段と、
    前記登録されたコンテンツを構成する複数の部分データのうち、前記判別したクラスタに対応付けされた部分データを前記情報処理装置に提供するコンテンツ提供手段とを備えることを特徴とするコンテンツ提供システム。
  2. 前記部分データは、複数ページからなるコンテンツを構成する各ページに対応するデータであることを特徴とする請求項1記載のコンテンツ提供システム。
  3. 前記部分データは、複数の章からなるコンテンツを構成する各章に対応するデータであることを特徴とする請求項1又は2記載のコンテンツ提供システム。
  4. 前記部分データは、複数の節からなるコンテンツを構成する各節に対応するデータであることを特徴とする請求項1又は2記載のコンテンツ提供システム。
  5. 前記部分データは、複数の段落からなるコンテンツを構成する各段落に対応するデータであることを特徴とする請求項1又は2記載のコンテンツ提供システム。
  6. 前記登録されたコンテンツを構成する複数の部分データのうち、前記判別したクラスタに対応付けされた部分データのサムネイル画像を前記情報処理装置に送信する画像送信手段を更に備えることを特徴とする請求項1乃至5のいずれか1項に記載のコンテンツ提供システム。
  7. 前記登録されたコンテンツを予め定められた複数のコンテンツクラスタの何れかに対応付けして管理する他の管理手段と、
    前記情報処理装置に表示された表示部分データで構成される表示コンテンツが分類されるコンテンツクラスタを判別するコンテンツクラスタ判別手段とを更に備え、
    前記判別したクラスタに基づいて選択された前記情報処理装置への提供候補を前記コンテンツクラスタに基づいて絞り込むことを特徴とする請求項6記載のコンテンツ提供システム。
  8. 前記コンテンツ提供システムは、前記登録されたコンテンツを管理するコンテンツ管理サーバと、コンテンツ解析サーバとを備え、
    前記コンテンツ解析サーバは、前記解析手段、前記管理手段、前記クラスタ判別手段、前記画像送信手段、前記他の管理手段、及び前記コンテンツクラスタ判別手段を備えることを特徴とする請求項7記載のコンテンツ提供システム。
  9. ユーザが操作する情報処理装置に予め登録されたコンテンツを提供するコンテンツ提供方法であって、
    前記登録されたコンテンツを構成する複数の部分データを解析する解析ステップと、
    各前記部分データを予め定められた複数のクラスタの何れかに対応付けして管理する管理ステップと、
    前記情報処理装置に表示された表示部分データが分類されるクラスタを判別するクラスタ判別ステップと、
    前記登録されたコンテンツを構成する複数の部分データのうち、前記判別したクラスタに対応付けされた部分データを前記情報処理装置に提供するコンテンツ提供ステップとを有することを特徴とするコンテンツ提供方法。
  10. 登録されたコンテンツを管理するコンテンツ管理サーバ及び前記コンテンツを構成する複数の部分データを解析するコンテンツ解析サーバとデータ通信を行う情報処理装置であって、
    ユーザによるドキュメントの操作を検出する検出手段と、
    前記情報処理装置に表示された表示部分データを示す情報を含むドキュメント関連情報を前記コンテンツ解析サーバに送信する送信手段と、
    前記コンテンツを構成する複数の部分データのうち前記ドキュメント関連情報に対応する部分データを示す画像を受信する受信手段と、
    前記画像を表示する表示手段と、
    前記コンテンツを構成する複数の部分データのうち前記画像に対応する部分データを取得する取得手段とを備えることを特徴とする情報処理装置。
  11. 前記部分データは、複数ページからなるコンテンツを構成する各ページに対応するデータであることを特徴とする請求項10記載の情報処理装置。
  12. 前記部分データは、複数の章からなるコンテンツを構成する各章に対応するデータであることを特徴とする請求項10又は11記載の情報処理装置。
  13. 前記部分データは、複数の節からなるコンテンツを構成する各節に対応するデータであることを特徴とする請求項10又は11記載の情報処理装置。
  14. 前記部分データは、複数の段落からなるコンテンツを構成する各段落に対応するデータであることを特徴とする請求項10又は11記載の情報処理装置。
  15. 前記送信手段は、前記ドキュメント関連情報を前記コンテンツ解析サーバに送信してから予め設定された所定の時間が経過した際に前記情報処理装置に表示される表示部分データを示す情報を含む別のドキュメント関連情報を前記コンテンツ解析サーバに送信することを特徴とする請求項10乃至14のいずれか1項に記載の情報処理装置。
  16. 前記送信手段は、前記ユーザによる前記表示部分データの変更操作を検出した際に、変更後の表示部分データを示す情報を含むドキュメント関連情報を前記コンテンツ解析サーバに送信することを特徴とする請求項10乃至15のいずれか1項に記載の情報処理装置。
  17. 登録されたコンテンツを管理するコンテンツ管理サーバ及び前記コンテンツを構成する複数の部分データを解析するコンテンツ解析サーバとデータ通信を行う情報処理装置にインストールされたアプリケーションを実行するためのプログラムであって、
    前記アプリケーションは、
    ユーザによるドキュメントの操作を検出する制御を行い、
    前記情報処理装置に表示された表示部分データを示す情報を含むドキュメント関連情報を前記コンテンツ解析サーバに送信する制御を行い、
    前記コンテンツを構成する複数の部分データのうち前記ドキュメント関連情報に対応する部分データを示す画像を受信する制御を行い、
    前記画像を表示する制御を行い、
    前記コンテンツを構成する複数の部分データのうち前記画像に対応する部分データを取得する制御を行うことを特徴とするプログラム。
JP2018184591A 2018-09-28 2018-09-28 システム、ページデータ出力方法、及びプログラム Active JP7134814B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018184591A JP7134814B2 (ja) 2018-09-28 2018-09-28 システム、ページデータ出力方法、及びプログラム
US16/565,929 US20200104342A1 (en) 2018-09-28 2019-09-10 Content providing system that provides document as reference for editing, content providing method, information processing apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018184591A JP7134814B2 (ja) 2018-09-28 2018-09-28 システム、ページデータ出力方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2020052961A true JP2020052961A (ja) 2020-04-02
JP2020052961A5 JP2020052961A5 (ja) 2021-10-28
JP7134814B2 JP7134814B2 (ja) 2022-09-12

Family

ID=69945474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018184591A Active JP7134814B2 (ja) 2018-09-28 2018-09-28 システム、ページデータ出力方法、及びプログラム

Country Status (2)

Country Link
US (1) US20200104342A1 (ja)
JP (1) JP7134814B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859894A (zh) * 2020-07-24 2020-10-30 北京奇艺世纪科技有限公司 一种情节文本确定方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318219A (ja) * 2005-05-12 2006-11-24 Fujitsu Ltd 類似スライド検索プログラム及び検索方法
JP2008158590A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 文書選択装置及び文書選択プログラム
US20090164567A1 (en) * 2007-12-21 2009-06-25 Ricoh Company, Ltd. Information display system, information display method, and computer program product
WO2009081791A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 情報処理システム、その方法及びプログラム
JP2009237824A (ja) * 2008-03-26 2009-10-15 Ntt Data Corp 情報分析装置、情報分析方法、及び情報分析プログラム
JP2010218209A (ja) * 2009-03-17 2010-09-30 Yahoo Japan Corp 関連情報提供装置、そのシステム、そのプログラム、および、その方法
JP2011076565A (ja) * 2009-10-02 2011-04-14 Fujitsu Toshiba Mobile Communications Ltd 情報処理装置
JP2013084060A (ja) * 2011-10-06 2013-05-09 Ntt Data Corp 類似文書可視化装置、類似文書可視化方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617450B2 (en) * 2004-09-30 2009-11-10 Microsoft Corporation Method, system, and computer-readable medium for creating, inserting, and reusing document parts in an electronic document

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318219A (ja) * 2005-05-12 2006-11-24 Fujitsu Ltd 類似スライド検索プログラム及び検索方法
JP2008158590A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 文書選択装置及び文書選択プログラム
US20090164567A1 (en) * 2007-12-21 2009-06-25 Ricoh Company, Ltd. Information display system, information display method, and computer program product
WO2009081791A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 情報処理システム、その方法及びプログラム
JP2009151642A (ja) * 2007-12-21 2009-07-09 Ricoh Co Ltd 情報表示システム、情報表示方法およびプログラム
JP2009237824A (ja) * 2008-03-26 2009-10-15 Ntt Data Corp 情報分析装置、情報分析方法、及び情報分析プログラム
JP2010218209A (ja) * 2009-03-17 2010-09-30 Yahoo Japan Corp 関連情報提供装置、そのシステム、そのプログラム、および、その方法
JP2011076565A (ja) * 2009-10-02 2011-04-14 Fujitsu Toshiba Mobile Communications Ltd 情報処理装置
JP2013084060A (ja) * 2011-10-06 2013-05-09 Ntt Data Corp 類似文書可視化装置、類似文書可視化方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859894A (zh) * 2020-07-24 2020-10-30 北京奇艺世纪科技有限公司 一种情节文本确定方法及装置
CN111859894B (zh) * 2020-07-24 2024-01-23 北京奇艺世纪科技有限公司 一种情节文本确定方法及装置

Also Published As

Publication number Publication date
JP7134814B2 (ja) 2022-09-12
US20200104342A1 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
US10140314B2 (en) Previews for contextual searches
JP6446971B2 (ja) データ処理装置、データ処理方法、及び、コンピュータ・プログラム
US10169374B2 (en) Image searches using image frame context
US20080275850A1 (en) Image tag designating apparatus, image search apparatus, methods of controlling operation of same, and programs for controlling computers of same
JP6109970B2 (ja) オンライン・ソーシャル・ネットワーク上での画像に対するタグ付けの提案
US20200125481A1 (en) Screen recording preparation method for evaluating software usability, computing system, computer program and computer-readable storage medium implementing the method
US20230205796A1 (en) Method and system for document retrieval and exploration augmented by knowledge graphs
JP2020052961A (ja) コンテンツ提供システム、コンテンツ提供方法、情報処理装置、及びプログラム
CN115701299A (zh) 组合的本地和服务器上下文菜单
JP2019101889A (ja) テスト実行装置及びプログラム
US20170277722A1 (en) Search service providing apparatus, system, method, and computer program
JP2008181218A (ja) 入力支援方法及び装置
JP6780548B2 (ja) 特徴語分類プログラム、特徴語分類方法および情報処理装置
JP2002169637A (ja) ドキュメント表示態様変換装置、ドキュメント表示態様変換方法、記録媒体
JP4981723B2 (ja) 表示処理装置、表示処理方法、表示処理プログラムおよび記録媒体
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
US20230351091A1 (en) Presenting Intelligently Suggested Content Enhancements
JP7398945B2 (ja) 拡張現実の文書編集方法、プログラム及びシステム
KR102485460B1 (ko) 맞춤형 통계 분석 서비스를 제공하는 시스템 및 시스템의 동작 방법
CN107015733B (zh) 选项信息呈现系统及方法
KR102647904B1 (ko) 딥러닝 기반으로 장소 리뷰 이미지를 분류하는 방법, 시스템, 및 컴퓨터 프로그램
KR20180080924A (ko) 빅 데이터 처리 서버의 데이터 처리 결과를 모니터링 하기 위한 장치 및 방법
US9448703B2 (en) Information processing device, method, and storage medium for excluding a region selection in a form
KR102624944B1 (ko) 라이브 커머스 플랫폼에서의 실시간 인스펙터를 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
JP2013054658A (ja) 情報処理装置、制御方法、プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220831

R151 Written notification of patent or utility model registration

Ref document number: 7134814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151