JP7134814B2 - システム、ページデータ出力方法、及びプログラム - Google Patents

システム、ページデータ出力方法、及びプログラム Download PDF

Info

Publication number
JP7134814B2
JP7134814B2 JP2018184591A JP2018184591A JP7134814B2 JP 7134814 B2 JP7134814 B2 JP 7134814B2 JP 2018184591 A JP2018184591 A JP 2018184591A JP 2018184591 A JP2018184591 A JP 2018184591A JP 7134814 B2 JP7134814 B2 JP 7134814B2
Authority
JP
Japan
Prior art keywords
page data
document
data
page
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018184591A
Other languages
English (en)
Other versions
JP2020052961A (ja
JP2020052961A5 (ja
Inventor
宗士 大志万
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018184591A priority Critical patent/JP7134814B2/ja
Priority to US16/565,929 priority patent/US20200104342A1/en
Publication of JP2020052961A publication Critical patent/JP2020052961A/ja
Publication of JP2020052961A5 publication Critical patent/JP2020052961A5/ja
Application granted granted Critical
Publication of JP7134814B2 publication Critical patent/JP7134814B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、ステム、ページデータ出力方法、及びプログラムに関する。
ユーザがOfficeソフト等によってドキュメントを編集している際に、編集の参考となる別のドキュメントを提供するコンテンツ提供システムが知られている。コンテンツ提供システムは、ユーザが入力したドキュメント(以下、「入力ドキュメント」という。)が分類されるクラスタを判別し、データベースに予め登録されたドキュメントの中から、判別したクラスタと類似度が高いドキュメントをユーザに提供する(例えば、特許文献1参照)。これにより、入力ドキュメントと内容が類似するドキュメントをユーザに提供してドキュメントの編集の手助けをすることができる。
特開2008-158590号公報
しかしながら、従来のコンテンツ提供システムでは、分類されるクラスタの判別がドキュメント単位で行われるので、ユーザが編集しているページや章といった部分データの内容と類似するデータをユーザに提供することができない。
本発明の目的は、表示されているページデータに関連するページデータを記憶された分類の結果に基づいて特定して出力することができるシステム、ページデータ出力方法、及びプログラムを提供することにある。
上記目的を達成するために、本発明のシステムは、ステムであって、コンテンツに含まれる複数のページデータを、それぞれのページデータの特徴量に基づいてページ単位で分類する分類手段と、前記分類手段による分類の結果を記憶する記憶手段と、表示されているページデータに関連するページデータを、前記記憶手段に記憶された分類の結果に基づいて特定する特定手段と、前記特定手段によって特定されたページデータを出力する出力手段とを有することを特徴とす
本発明によれば、表示されているページデータに関連するページデータを記憶された分類の結果に基づいて特定して出力することができる。
本発明の実施の形態に係るコンテンツ提供システムの構成を概略的に示すブロック図である。 図1のコンテンツ解析サーバに設けられる制御装置及び端末装置に設けられる制御装置の各ハードウェア構成を概略的に示すブロック図である。 図1のコンテンツ解析サーバ及び端末装置の各機能構成を示すブロック図である。 図1の端末装置におけるレコメンド画像の表示について説明するための図である。 図3のドキュメント解析部によって実行されるクラスタリング処理の手順を示すフローチャートである。 図5の処理におけるページデータの特徴のベクトル化について説明するための図である。 図1のコンテンツ解析サーバによって管理される部分データ情報管理テーブルの一例を示す図である。 図1の端末装置によって実行される表示制御処理の手順を示すフローチャートである。 図1のコンテンツ解析サーバによって実行されるレコメンド画像生成処理の手順を示すフローチャートである。 図9のステップS903におけるクラスタの判別を説明するための図である。 図9のステップS904におけるレコメンド対象の選択を説明するための図である。 図1の端末装置におけるレコメンド画像の表示例を示す図である。 図5のクラスタリング処理の変形例の手順を示すフローチャートである。 図1のコンテンツ解析サーバによって管理されるドキュメント情報管理テーブルの一例を示す図である。 図9のレコメンド画像生成処理の変形例の手順を示すフローチャートである。
以下、本発明の実施の形態について図面を参照しながら詳述する。
図1は、本発明の実施の形態に係るコンテンツ提供システム100の構成を概略的に示すブロック図である。図1において、コンテンツ提供システム100は、情報処理装置としての端末装置101、コンテンツ管理サーバ102、及びコンテンツ解析サーバ103を備える。なお、本実施の形態では、説明を容易にするために、端末装置101、コンテンツ管理サーバ102、及びコンテンツ解析サーバ103を1台ずつ備える構成について説明するが、各装置の台数はこれに限られない。例えば、コンテンツ提供システム100は、端末装置101やコンテンツ管理サーバ102を複数台備えても良い。端末装置101、コンテンツ管理サーバ102、及びコンテンツ解析サーバ103は、ネットワーク104を介してデータ通信可能である。ネットワーク104は、インターネット、有線LAN、無線LAN、又はこれらの組み合わせである。端末装置101、コンテンツ管理サーバ102、及びコンテンツ解析サーバ103は、ネットワーク104と直接、又は接続機器(不図示)を介して接続されている。接続機器は、例えば、ルータ、ゲートウェイ、及びプロキシサーバである。
端末装置101は、ユーザが直接操作する端末である。ユーザは、端末装置101を操作して、Officeソフト等によってドキュメントを編集する。コンテンツ管理サーバ102は、登録された複数のコンテンツを管理する。コンテンツ管理サーバ102は、例えば、複数ページからなるドキュメント、複数の章からなるドキュメント、複数の節からなるドキュメント、及び複数の段落からなるドキュメントのように様々なデータ構造のコンテンツを管理する。コンテンツ解析サーバ103は、コンテンツ管理サーバ102で管理されたドキュメントや、端末装置101から送信されたドキュメントを解析する。コンテンツ提供システム100では、コンテンツ管理サーバ102で管理されたドキュメントのうち、端末装置101でユーザが作業しているドキュメントと類似性が高いドキュメントが端末装置101に提供される。以下では、端末装置101に提供されるために選択されるデータをレコメンドデータと称する。
図2は、図1のコンテンツ解析サーバ103に設けられる制御装置200及び端末装置101に設けられる制御装置210の各ハードウェア構成を概略的に示すブロック図である。図2(a)は、コンテンツ解析サーバ103の制御装置200のハードウェア構成を示す。図2(b)は、端末装置101の制御装置210のハードウェア構成を示す。
図2(a)において、制御装置200は、CPU201、ROM202、RAM203、記憶装置204、ネットワークI/F205、ディスプレイI/F206、操作入力I/F207、及び外部I/O208を備える。CPU201、ROM202、RAM203、記憶装置204、ネットワークI/F205、ディスプレイI/F206、操作入力I/F207、及び外部I/O208はシステムバス209を介して互いに接続されている。
制御装置200は、コンテンツ解析サーバ103全体を統括的に制御する。CPU201は、ROM202に格納されたプログラムを実行することで、各種処理を制御する。ROM202は、CPU201が実行するプログラムや設定データを格納する。RAM203は、CPU201の作業領域として、また、各データの一時格納領域として用いられる。記憶装置204は、後述する図3(a)の各モジュールを制御するためのプログラム等を格納する。ネットワークI/F205は、ネットワーク104を介して接続された外部装置、例えば、端末装置101やコンテンツ管理サーバ102とのデータ通信を制御する。ディスプレイI/F206には、液晶ディスプレイ等の外部ディスプレイ(不図示)が接続される。操作入力I/F207には、キーボード、マウス、及びタッチパネル等の操作入力機器(不図示)が接続される。外部I/O208には、USBメモリや外付けの記憶デバイス等が接続される。
図2(b)において、制御装置210は、CPU211、ROM212、RAM213、記憶装置214、ネットワークI/F215、ディスプレイI/F216、操作入力I/F217、及び外部I/O218を備える。CPU211、ROM212、RAM213、記憶装置214、ネットワークI/F215、ディスプレイI/F216、操作入力I/F217、及び外部I/O218はシステムバス219を介して互いに接続されている。
制御装置210は、端末装置101全体を統括的に制御する。CPU211は、ROM212に格納されたプログラムを実行することで、各種処理を制御する。ROM212は、CPU211が実行するプログラムや設定データを格納する。RAM213は、CPU211の作業領域として、また、各データの一時格納領域として用いられる。記憶装置214は、後述する図3(b)の各モジュールを制御するためのプログラム等を格納する。ネットワークI/F215は、ネットワーク114を介して接続された外部装置、例えば、コンテンツ管理サーバ102やコンテンツ解析サーバ103とのデータ通信を制御する。ディスプレイI/F216には、液晶ディスプレイ等の外部ディスプレイ(不図示)が接続される。操作入力I/F217には、キーボード、マウス、及びタッチパネル等の操作入力機器(不図示)が接続される。外部I/O218には、USBメモリや外付けの記憶デバイス等が接続される。
図3は、図1のコンテンツ解析サーバ103及び端末装置101の各機能構成を示すブロック図である。図3(a)は、コンテンツ解析サーバ103の機能構成を示す。図3(b)は、端末装置101の機能構成を示す。
図3(a)において、コンテンツ解析サーバ103は、モジュールとして、データ生成部301、ドキュメント解析部302、制御部303、通信部304、ドキュメントクラスタDB305、及びページクラスタDB306を備える。上述した各モジュールの処理は、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。
データ生成部301は、レコメンドデータを示す画像を端末装置101に表示させるためのレコメンド表示用データを生成する。レコメンド表示用データは、レコメンドデータのサムネイル画像(以下、「レコメンド画像」という。)、レコメンドデータのページ番号、及びレコメンドデータの格納場所を示すアドレスを含む。ドキュメント解析部302は、ドキュメントの構造を解析する。例えば、ドキュメント解析部302は、コンテンツ管理サーバ102で管理された全てのドキュメントのページ情報を解析する。また、ドキュメント解析部302は、ユーザが端末装置101を用いて編集しているドキュメントの構造を解析する。制御部303は、制御装置200及び当該制御装置200に接続された機器を制御する。また、制御部303は、上述したコンテンツ解析サーバ103の各モジュールの処理の実行を制御する。通信部304は、ネットワーク104に接続された外部装置とのデータ通信を制御する。ドキュメントクラスタDB305は、後述する図14のドキュメント情報管理テーブル1400を管理する。ページクラスタDB306は、後述する図7の部分データ情報管理テーブル700を管理する。
図3(b)において、端末装置101は、モジュールとして、通信部311、表示部312、操作部313、制御部314、アプリケーション実行部315、操作検出部316、及びレコメンド実行部317を備える。上述した端末装置101の各モジュールの処理は、CPU211がROM212や記憶装置214に格納されたプログラムを実行することによって行われる。
通信部311は、ネットワーク104に接続された外部装置とのデータ通信を制御する。例えば、通信部311は、コンテンツ解析サーバ103から後述するレコメンド表示用データを受信する(受信手段)。また、通信部311は、コンテンツ管理サーバ102からレコメンドデータを取得する(取得手段)。表示部312は、端末装置101のディスプレイ(不図示)の表示制御を行う。操作部313は、端末装置101に接続されたキーボード、マウス、及びタッチパネル等の操作入力機器(不図示)で入力された指示を受け付ける。制御部314は、制御装置210及び当該制御装置210に接続された機器を制御する。また、制御部314は、上述した端末装置101の各モジュールの処理について制御する。アプリケーション実行部315は、端末装置101にインストールされたアプリケーションを実行する。操作検出部316は、上記操作入力機器で受け付けた指示や、アプリケーション実行部315によるアプリケーションの実行状況等に基づいてユーザによる端末装置101への操作を検出する。レコメンド実行部317は、後述する図8の表示制御処理を実行する。
図4は、図1の端末装置101におけるレコメンド画像の表示について説明するための図である。
図4(a)の画面400は、端末装置101のディスプレイ(不図示)上に表示される画面を模式的に表している。端末装置101では、レコメンドデータを取得するためのレコメンドデータ取得アプリケーションが起動すると、画面400にウインドウ401が表示される。ウインドウ401は、端末装置101上で実行され且つドキュメントの表示や編集を実施可能なアプリケーションソフトウェアのウインドウである。ユーザは、ウインドウ401を介してドキュメントの閲覧や編集を行う。以下では、閲覧や編集を行うためにウインドウ401に表示されるドキュメントを表示ドキュメント(表示コンテンツ)と称する。ユーザがドキュメントを開く操作を行うと、画面400は、ウインドウ401を表示する領域402と、レコメンド画像404~407を表示する領域403とに分割される。レコメンド画像404~407は、コンテンツ管理サーバ102で管理されたドキュメントを構成する複数のページに対応するデータ(以下、「ページデータ」という。)のうち、ウインドウ401に表示されているページデータ(以下、「表示ページデータ」という。)(表示部分データ)と類似性が高いページデータのサムネイル画像である。領域403には、複数のレコメンド画像が表示され、マウス(不図示)等の操作でスクロールすることで領域403に収まらないレコメンド画像を表示することも可能である。
図4(b)は、ユーザがマウス等によりレコメンド画像405を選択した状態を表している。選択されたレコメンド画像405の枠線は、例えば、図4(b)に示すように、強調表示される。ウインドウ408は、ユーザがレコメンド画像405を選択した後、レコメンド画像405に対応するページデータ(レコメンドデータ)を表示するためのウインドウである。このように、本実施の形態では、ユーザがレコメンド画像を選択することで、選択したレコメンド画像に対応するページデータ(レコメンドデータ)を画面400に表示することができる。ユーザは、表示ページデータの編集の参考資料又は素材資料として、レコメンドデータを使用する。
図5は、図3のドキュメント解析部302によって実行されるクラスタリング処理の手順を示すフローチャートである。図5の処理は、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。また、図5の処理は、例えば、コンテンツ管理サーバ102に新たなドキュメントが登録された際、若しくは予め設定された所定の時刻に達した際に実行される。
図5において、まず、ドキュメント解析部302は、コンテンツ管理サーバ102で管理された全てのドキュメントのページ情報を解析する(ステップS501)。具体的に、ドキュメント解析部302は、各ドキュメントのページ情報をドキュメントの構造情報から取得し、各ページデータのテキストデータを抽出する。また、ドキュメント解析部302は、抽出したテキストデータに基づいて各ページデータの特徴をベクトル化する。本実施の形態では、Doc2Vec等を用いて各ページデータの特徴のベクトル化が行われる。図6は、ベクトル化した各ページデータの特徴を特徴空間にプロットした様子を模式的に表す図である。なお、特徴空間は、N次元(Nは整数)の基底ベクトルを軸として定義される空間であるが、本実施の形態では、説明を容易にするために、特徴量1、2の2次元として説明する。図6において、ベクトル601等の白丸が各ページデータの特徴をベクトル化した特徴ベクトルである。ページデータとドキュメントとの対応関係は、図7の部分データ情報管理テーブル700で管理される。部分データ情報管理テーブル700は、ベクトルID701、ドキュメントID702、ドキュメントアドレス703、ページ番号704、及びクラスタID705で構成される。ベクトルID701には、各特徴ベクトルを識別するための識別子が記録される。ドキュメントID702には、コンテンツ管理サーバ102によって管理された各ドキュメントを識別するための識別子が記録される。ドキュメントアドレス703には、コンテンツ管理サーバ102によって管理された各ドキュメントの格納場所を示すアドレスが記録される。ページ番号704には、ドキュメントのページ番号が記録される。クラスタID705には、ステップS502におけるクラスタリングの結果、具体的に、ページ番号に対応するページデータが対応付けされたクラスタを識別するための識別子が記録される。
次いで、ドキュメント解析部302は、ステップS501でベクトル化して得られた各ページデータの特徴ベクトルをクラスタリングする(ステップS502)。クラスタリングには、k-means法、X-means法、最短距離法、及びウォード法等の方法が用いられる。図6において、枠602~604がクラスタを表しており、例えば、枠602内の特徴ベクトルは同じクラスタに属する。クラスタリングした結果が、管理テーブル701のクラスタID705に記録される。このようにして、本実施の形態では、コンテンツ管理サーバ102で管理されるドキュメントの各ページデータが予め定められた複数のクラスタの何れかに対応付けされる。その後、ドキュメント解析部302は、本処理を終了する。
図8は、図1の端末装置101によって実行される表示制御処理の手順を示すフローチャートである。図8の処理は、CPU211がROM212や記憶装置214に格納されたプログラムを実行することによって行われる。
図8において、CPU211は、操作検出部316により、ユーザによるドキュメントに対する操作(以下、「ドキュメント操作」という。)を検出したか否かを判別する(ステップS801)。ドキュメント操作は、具体的に、ドキュメントを開く操作である。このような操作に関する情報は、操作部313から制御部314にリアルタイムで通知され、通知を受信した制御部314は、ドキュメント操作が行われた旨を操作検出部316に通知する。この通知に基づいて操作検出部316がドキュメント操作を検出すると(ステップS801でYES)、CPU211は、ドキュメント操作が検出された表示ドキュメントに関連する情報(以下、「ドキュメント関連情報」という。)を通信部311を介してコンテンツ解析サーバ103へ送信する(ステップS802)。ドキュメント関連情報には、表示ドキュメント、及び表示ページデータのページ番号を示す情報が含まれる。ドキュメント関連情報を受信したコンテンツ解析サーバ103は、後述する図9のレコメンド画像生成処理を実行する。レコメンド画像生成処理では、コンテンツ解析サーバ103は、表示ページデータの特徴量と類似性が高いページデータのレコメンド画像を生成し、レコメンド画像を含むレコメンド表示用データを端末装置101に送信する。レコメンド表示用データには、レコメンド画像の他に、レコメンドデータのページ番号、及びレコメンドデータの格納場所を示すアドレスが含まれる。
次いで、CPU211は、コンテンツ解析サーバ103からレコメンド表示用データを受信し(ステップS803)、当該レコメンド表示用データに含まれるレコメンド画像を画面400の領域403に表示する(ステップS804)。領域403に表示された当該レコメンド画像がユーザに選択されると、CPU211は、レコメンド表示用データに含まれるアドレスにアクセスして、当該アドレスが示すレコメンドデータを取得する。また、CPU211は、取得したレコメンドデータが表示された新たなウインドウ、例えば、ウインドウ408を領域402に表示する。次いで、CPU211は、表示ドキュメントを閉じる操作を検出したか否かを判別する(ステップS805)。
ステップS805の判別の結果、表示ドキュメントを閉じる操作を検出しないとき、CPU211は、ステップS802でドキュメント関連情報を送信してから予め設定された所定の時間が経過したか否かを判別する(ステップS806)。所定の時間は、例えば、数分程度である。
ステップS806の判別の結果、ステップS802でドキュメント関連情報を送信してから所定の時間が経過しないとき、CPU211は、ステップS805の処理に戻る。ステップS806の判別の結果、ステップS802でドキュメント関連情報を送信してから所定の時間が経過したとき、CPU211は、ステップS802の処理に戻る。すなわち、本実施の形態では、ドキュメント関連情報がコンテンツ解析サーバ103に送信されてから予め設定された所定の時間が経過した際に画面400に表示された表示ページデータに関する情報を含む別のドキュメント関連情報がコンテンツ解析サーバ103に送信される。
ステップS805の判別の結果、表示ドキュメントを閉じる操作を検出したとき、CPU211は、本処理を終了する。
図9は、図1のコンテンツ解析サーバ103によって実行されるレコメンド画像生成処理の手順を示すフローチャートである。図9の処理は、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。
図9において、CPU201は、ステップS802で端末装置101から送信されたドキュメント関連情報を受信する(ステップS901)。次いで、CPU201は、ドキュメント関連情報を解析する(ステップS902)。具体的に、CPU201は、ドキュメント解析部302により、受信したドキュメント関連情報に含まれるページ番号から特定した表示ページデータのテキストデータを抽出し、抽出したテキストデータに基づいて表示ページデータの特徴をベクトル化する。なお、CPU201は、ステップS501と同様の方法でベクトル化を行う。次いで、CPU201は、部分データ情報管理テーブル700に基づいて表示ページデータが分類されるクラスタを判別する(ステップS903)(クラスタ判別手段)。例えば、表示ページデータの特徴ベクトルが図10のベクトル1001である場合、CPU201は、図10のようにベクトル1001を含むクラスタ1002を表示ページデータが分類されるクラスタと判別する。また、表示ページデータの特徴ベクトルがクラスタ1002~1004の何れにも含まれないベクトル1005である場合、CPU201は、各クラスタ1002~1004の中心までの距離に基づいて表示ページデータが分類されるクラスタを判別する。この場合、CPU201は、クラスタ1002~1004のうち、中心からベクトル1005までの距離が最も短いクラスタ1002を表示ページデータが分類されるクラスタと判別する。
次いで、CPU201は、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、判別したクラスタに対応付けされたページデータをレコメンド対象として選択する(ステップS904)。ステップS904では、例えば、図11において、判別したクラスタ1101内のベクトル1102~1110に対応する全てのページデータをレコメンド対象として選択する。若しくは、判別したクラスタ1101内のベクトル1102~1110のうち、表示ページデータのベクトル1111を中心とする同心円領域1112内のベクトル1108~1110に対応するページデータをレコメンド対象として選択する。ベクトル1108~1110に対応するページデータは、表示ページデータとの関連性が極めて高いページデータである。
次いで、CPU201は、レコメンド対象のサムネイル画像であるレコメンド画像を生成する(ステップS905)。具体的に、CPU201は、データ生成部301により、選択したレコメンド対象のアドレス及びページ番号を部分データ情報管理テーブル700から取得する。CPU201は、データ生成部301により、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、取得したアドレスが示すページデータをサムネイル化して、レコメンド画像を生成する。次いで、CPU201は、レコメンド画像、レコメンドデータのページ番号、及びレコメンドデータの格納場所を示すアドレスを含むレコメンド表示用データを端末装置101に送信し(ステップS906)(画像送信手段)、本処理を終了する。
上述した実施の形態によれば、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、表示ページデータが分類されるクラスタに対応付けされたページデータが端末装置101に提供される。これにより、編集されている表示ページデータの内容と類似するレコメンドデータをユーザに提供することができる。
また、上述した実施の形態では、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、表示ページデータが分類されるクラスタに対応付けされたレコメンドデータのサムネイル画像であるレコメンド画像が端末装置101に送信される。これにより、表示されたレコメンド画像から編集の参考資料として適したレコメンドデータをユーザに容易に選択させることができる。
上述した実施の形態では、端末装置101は、コンテンツ管理サーバ102で管理されるドキュメントを構成する複数のページデータのうち、表示ページデータに関する情報を含むドキュメント関連情報に対応するページデータのレコメンド画像を表示し(例えば、図4(a)のレコメンド画像404~407を参照)、当該レコメンド画像に対応するページデータ(レコメンドデータ)を取得する。これにより、編集されている表示ページデータの内容と類似するレコメンドデータをユーザに提供することができる。
また、上述した実施の形態では、ドキュメント関連情報がコンテンツ解析サーバ103に送信されてから予め設定された所定の時間が経過した際にウインドウ401に表示される表示ページデータを示す情報を含む別のドキュメント関連情報がコンテンツ解析サーバ103に送信される。これにより、時間の経過に応じて変更された表示ページデータと類似性が高いレコメンドデータをユーザに提供することができる。
以上、本発明について、上述した実施の形態を用いて説明したが、本発明は上述した実施の形態に限定されるものではない。例えば、表示ページデータのベクトルを生成した際に、コンテンツ管理サーバ102で管理される全てのドキュメントのページデータのクラスタリングと表示ページデータのクラスタリングとを実施しても良い。
また、上述した実施の形態では、ステップS801で検出されるドキュメント操作は、ドキュメントを開く操作に限られず、例えば、ページを捲る操作や編集する操作といった表示ページデータの変更操作であっても良い。このような操作を検出すると、CPU211は、ステップS805の判別の結果、表示ドキュメントを閉じる操作を検出しないとき、ステップS806の処理を行わず、ステップS801の処理に戻る。このように処理することで、端末装置101において、表示ページデータの変更操作の検出に応じて、変更後の表示ページデータと類似性が高いページデータをユーザに提供することができる。
上述した実施の形態では、ページデータの特徴をベクトル化する処理量を極力減らして処理速度を上げるために、各ページデータのテキストデータに基づいてページデータの特徴をベクトル化したが、これに限られない。例えば、ページデータを構成する少なくとも一部の画像情報に基づいてページデータの特徴をベクトル化しても良い。画像情報を用いる場合、コンテンツ解析サーバ103は、画像特徴量を取得することでページデータをベクトル化する。
また、上述した実施の形態では、クラスタリング及びレコメンドの対象をページ単位として説明したが、ドキュメントを構成する文章の章、節、段落等の文章構造の単位でクラスタリング及びレコメンドを行っても良く、また、ページ及び文章構造の両方を用いてクラスタリング及びレコメンドを行ってもよい。文章構造の単位でクラスタリング及びレコメンドが行われる場合、部分データ情報管理テーブル700では、ページ番号704の代わりに、文章構造に関する情報が記録される。
上述した実施の形態では、例えば、複数ページからなる章のデータがレコメンド対象に選択された場合、レコメンド対象が複数ページからなるデータであることを示すレコメンド画像が端末装置101に表示されても良い。例えば、図12(a)に示すように、ページ数分のデータが重なっているような画像1201が表示される。図12(b)に示すように、各ページデータの縮小サムネイル画像が並べて表示される。図12(c)に示すように、章の先頭ページのサムネイル画像1203に重畳してレコメンド対象のページ数を示す画像1204が表示される。このような表示により、レコメンド対象が複数ページからなるデータであることをユーザに知らせることができる。
上述した実施の形態では、コンテンツ提供システムの構成に限られず、端末装置101がコンテンツ解析サーバ103の機能を備え、図5及び図9の各処理を端末装置101が実行しても良い。
また、上述した実施の形態では、ページ単位でクラスタリングした結果に基づいて選択したレコメンド対象(提供候補)をドキュメント単位でクラスタリングした結果に基づいて絞り込んでも良い。
例えば、レコメンド対象の選択にページ単位でクラスタリングした結果を用いると、編集の参考資料として適していないデータ、例えば、表示ドキュメントと関連性が薄いドキュメントのページデータがレコメンド対象として選択されてしまうことがある。
これに対応して、本実施の形態では、ページ単位でクラスタリングした結果に基づいて選択したレコメンド対象をドキュメント単位でクラスタリングした結果に基づいて絞り込む。
図13は、図5のクラスタリング処理の変形例の手順を示すフローチャートである。図13の処理も、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。また、図13の処理も、例えば、コンテンツ管理サーバ102に新たなドキュメントが登録された際、若しくは予め設定された所定の時刻に達した際に実行される。
図13において、ドキュメント解析部302は、ステップS501、S502の処理を行う。次いで、ドキュメント解析部302は、ドキュメントの全体の特徴をベクトル化する。具体的に、ドキュメント解析部302は、ドキュメントを構成する全てのテキストデータを取得し、取得した全てのテキストデータに基づいてステップS502と同様の方法でベクトル化する。次いで、ドキュメント解析部302は、上記ドキュメントのクラスタリングを行う(ステップS1301)。クラスタリングした結果は、図14のドキュメント情報管理テーブル1400で管理される。ドキュメント情報管理テーブル1400は、ベクトルID1401、ドキュメントID1402、ドキュメントアドレス1403、及びクラスタID1404で構成される。ベクトルID1401には、各特徴ベクトルを識別するための識別子が記録される。ドキュメントID1402は、部分データ情報管理テーブル700のドキュメントID702と対応し、コンテンツ管理サーバ102によって管理された各ドキュメントを識別するための識別子が記録される。ドキュメントアドレス1403には、コンテンツ管理サーバ102によって管理された各ドキュメントの格納場所を示すアドレスが記録される。クラスタID1404には、コンテンツ管理サーバ102によって管理された各ドキュメントが対応付けされたコンテンツクラスタを識別するための識別子が記録される。なお、本実施の形態では、コンテンツクラスタには、ステップS502で各ページデータが対応付けされるクラスタと区別可能な識別子が割り当てられる。例えば、各ページデータが対応付けされるクラスタには、図7に示すように、頭文字を「C」とした通し番号が識別子として割り当てられ、コンテンツクラスタには、図14に示すように、頭文字を「CD」とした通し番号が識別子として割り当てられる。
図15は、図9のレコメンド画像生成処理の変形例の手順を示すフローチャートである。図15の処理も、CPU201がROM202や記憶装置204に格納されたプログラムを実行することによって行われる。
図15において、CPU201は、ステップS901~S904の処理を行う。次いで、CPU201は、ドキュメント解析部302により、表示ドキュメントが分類されるコンテンツクラスタを判別する(ステップS1501)(コンテンツクラスタ判別手段)。ステップS1501では、ステップS903で表示ページデータに対して行った処理と同様の処理を、表示ドキュメントに対して行う。次いで、CPU201は、ドキュメント解析部302により、ステップS1501で判別した結果に基づいてステップS904で選択したレコメンド対象を絞り込む(ステップS1502)。例えば、ステップS903において表示ページデータが分類されるクラスタがC004と判別された場合、部分データ情報管理テーブル700に基づいて、レコメンド対象として、ベクトルID(ドキュメントID)がP00001(D00001)、P00003(D00002)、及びP00006(D00003)に対応するページデータが選択される。これに対し、ステップS1501において表示ドキュメントが分類されるコンテンツクラスタがCD03と判別された場合、ドキュメント情報管理テーブル1400に基づいてレコメンド対象がP00006(D00003)に対応するページデータに絞り込まれる。なお、ステップS1501で判別されたコンテンツクラスタがドキュメント情報管理テーブル1400に含まれていない場合、例えば、レコメンド対象の絞り込みが行われない。若しくは、レコメンド対象を対応付けされたドキュメント数が最も多いコンテンツクラスタに属するドキュメントに絞り込む。次いで、CPU201は、ステップS905以降の処理を行う。
上述した実施の形態では、ページ単位でクラスタリングした結果に基づいて選択したレコメンド対象がドキュメント単位でクラスタリングした結果に基づいて絞り込まれる。これにより、編集の参考資料としてより適したレコメンドデータをユーザに提供することができる。
本発明は、上述の実施の形態の1以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、該システム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 コンテンツ提供システム
101 端末装置
102 コンテンツ管理サーバ
103 コンテンツ解析サーバ
200,210 制御装置
201,211 CPU
302 ドキュメント解析部
404~407 レコメンド画像
700 部分データ情報管理テーブル
1400 ドキュメント情報管理テーブル

Claims (8)

  1. ステムであって、
    コンテンツに含まれる複数のページデータを、それぞれのページデータの特徴量に基づいてページ単位で分類する分類手段と、
    前記分類手段による分類の結果を記憶する記憶手段と、
    表示されているページデータに関連するページデータを、前記記憶手段に記憶された分類の結果に基づいて特定する特定手段と、
    前記特定手段によって特定されたページデータを出力する出力手段とを有することを特徴とするシステム。
  2. 前記出力手段は、前記特定手段によって特定されたページデータを表示部に出力することを特徴とする請求項1に記載のシステム。
  3. 前記出力手段は、前記特定手段によって特定されたページデータをサムネイルとして前記表示部に出力することを特徴とする請求項2に記載のシステム。
  4. 前記出力手段は、前記特定手段によって特定されたページデータを含む複数のページデータを出力することを特徴とする請求項1乃至3のいずれか1項に記載のシステム。
  5. 前記コンテンツに含まれる前記複数のページデータのそれぞれからテキスト情報を抽出する抽出手段と、
    前記抽出手段によって抽出されたテキスト情報に基づいて前記複数のページデータのそれぞれをベクトル化するベクトル化手段とをさらに有し、
    前記分類手段は、前記ベクトル化手段によるベクトル化によって得られるそれぞれのページデータの特徴ベクトルに基づいて、前記コンテンツに含まれる前記複数のページデータをページ単位で分類することを特徴とする請求項1乃至4のいずれか1項に記載のシステム。
  6. 前記特定手段は、前記記憶手段に記憶された分類の結果に基づいて、前記表示されているページデータに類似するページデータを特定することを特徴とする請求項1乃至5のいずれか1項に記載のシステム。
  7. コンテンツに含まれる複数のページデータを、それぞれのページデータの特徴量に基づいてページ単位で分類する分類ステップと、
    前記分類ステップにおける分類の結果を記憶する記憶ステップと、
    表示されているページデータに関連するページデータを、前記記憶ステップで記憶された分類の結果に基づいて特定する特定ステップと、
    前記特定ステップにて特定されたページデータを出力する出力ステップとを有することを特徴とするページデータ出力方法。
  8. 請求項7に記載されたページデータ出力方法をコンピュータに実行させるためのプログラム。
JP2018184591A 2018-09-28 2018-09-28 システム、ページデータ出力方法、及びプログラム Active JP7134814B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018184591A JP7134814B2 (ja) 2018-09-28 2018-09-28 システム、ページデータ出力方法、及びプログラム
US16/565,929 US20200104342A1 (en) 2018-09-28 2019-09-10 Content providing system that provides document as reference for editing, content providing method, information processing apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018184591A JP7134814B2 (ja) 2018-09-28 2018-09-28 システム、ページデータ出力方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2020052961A JP2020052961A (ja) 2020-04-02
JP2020052961A5 JP2020052961A5 (ja) 2021-10-28
JP7134814B2 true JP7134814B2 (ja) 2022-09-12

Family

ID=69945474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018184591A Active JP7134814B2 (ja) 2018-09-28 2018-09-28 システム、ページデータ出力方法、及びプログラム

Country Status (2)

Country Link
US (1) US20200104342A1 (ja)
JP (1) JP7134814B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859894B (zh) * 2020-07-24 2024-01-23 北京奇艺世纪科技有限公司 一种情节文本确定方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318219A (ja) 2005-05-12 2006-11-24 Fujitsu Ltd 類似スライド検索プログラム及び検索方法
JP2008158590A (ja) 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 文書選択装置及び文書選択プログラム
US20090164567A1 (en) 2007-12-21 2009-06-25 Ricoh Company, Ltd. Information display system, information display method, and computer program product
WO2009081791A1 (ja) 2007-12-21 2009-07-02 Nec Corporation 情報処理システム、その方法及びプログラム
JP2009237824A (ja) 2008-03-26 2009-10-15 Ntt Data Corp 情報分析装置、情報分析方法、及び情報分析プログラム
JP2010218209A (ja) 2009-03-17 2010-09-30 Yahoo Japan Corp 関連情報提供装置、そのシステム、そのプログラム、および、その方法
JP2011076565A (ja) 2009-10-02 2011-04-14 Fujitsu Toshiba Mobile Communications Ltd 情報処理装置
JP2013084060A (ja) 2011-10-06 2013-05-09 Ntt Data Corp 類似文書可視化装置、類似文書可視化方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617450B2 (en) * 2004-09-30 2009-11-10 Microsoft Corporation Method, system, and computer-readable medium for creating, inserting, and reusing document parts in an electronic document

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006318219A (ja) 2005-05-12 2006-11-24 Fujitsu Ltd 類似スライド検索プログラム及び検索方法
JP2008158590A (ja) 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 文書選択装置及び文書選択プログラム
US20090164567A1 (en) 2007-12-21 2009-06-25 Ricoh Company, Ltd. Information display system, information display method, and computer program product
WO2009081791A1 (ja) 2007-12-21 2009-07-02 Nec Corporation 情報処理システム、その方法及びプログラム
JP2009151642A (ja) 2007-12-21 2009-07-09 Ricoh Co Ltd 情報表示システム、情報表示方法およびプログラム
JP2009237824A (ja) 2008-03-26 2009-10-15 Ntt Data Corp 情報分析装置、情報分析方法、及び情報分析プログラム
JP2010218209A (ja) 2009-03-17 2010-09-30 Yahoo Japan Corp 関連情報提供装置、そのシステム、そのプログラム、および、その方法
JP2011076565A (ja) 2009-10-02 2011-04-14 Fujitsu Toshiba Mobile Communications Ltd 情報処理装置
JP2013084060A (ja) 2011-10-06 2013-05-09 Ntt Data Corp 類似文書可視化装置、類似文書可視化方法およびプログラム

Also Published As

Publication number Publication date
US20200104342A1 (en) 2020-04-02
JP2020052961A (ja) 2020-04-02

Similar Documents

Publication Publication Date Title
JP7289047B2 (ja) ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
JP5469244B2 (ja) 選択的なコンテンツ抽出
CN107729475B (zh) 网页元素采集方法、装置、终端与计算机可读存储介质
US11610066B2 (en) Creation of component templates based on semantically similar content
JP4945813B2 (ja) 印刷構造化文書
US10366154B2 (en) Information processing device, information processing method, and computer program product
KR101773574B1 (ko) 데이터 테이블의 차트 시각화 방법
JP2010061334A (ja) ファイル管理システム、ファイル管理方法、およびプログラム
JP7290391B2 (ja) 情報処理装置及びプログラム
JP5268508B2 (ja) 情報処理装置及び検索方法
JP7134814B2 (ja) システム、ページデータ出力方法、及びプログラム
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP7433068B2 (ja) 文書におけるタイトル及びセクションの推測
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP2020123321A (ja) クリップボードデータに基づく検索処理方法および装置
JP5656230B2 (ja) アプリケーション操作事例の検索方法、装置及びブログラム
JP2007334670A (ja) 画像処理装置、方法及びプログラム
KR102485460B1 (ko) 맞춤형 통계 분석 서비스를 제공하는 시스템 및 시스템의 동작 방법
JP2017162258A (ja) 検索処理プログラム、検索処理方法、及び検索処理装置
JP2009128937A (ja) Web閲覧行動特徴抽出装置及びプログラム
JP2007004429A (ja) 文書処理装置
JP2008083912A (ja) システム構造解析装置および方法、およびそのプログラム
JPH10320409A (ja) 文書情報抽出方法及び装置並びに文書抽出処理プログラムを記憶した記憶媒体
JP2024084371A (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2020197958A (ja) 制御装置、画像形成装置、制御方法および制御プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220831

R151 Written notification of patent or utility model registration

Ref document number: 7134814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151