JP2014186463A - 関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラム - Google Patents

関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラム Download PDF

Info

Publication number
JP2014186463A
JP2014186463A JP2013060032A JP2013060032A JP2014186463A JP 2014186463 A JP2014186463 A JP 2014186463A JP 2013060032 A JP2013060032 A JP 2013060032A JP 2013060032 A JP2013060032 A JP 2013060032A JP 2014186463 A JP2014186463 A JP 2014186463A
Authority
JP
Japan
Prior art keywords
related information
electronic book
extraction
user
book data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013060032A
Other languages
English (en)
Inventor
Yu Miyazaki
祐 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2013060032A priority Critical patent/JP2014186463A/ja
Publication of JP2014186463A publication Critical patent/JP2014186463A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】電子書籍の関連情報として、スポンサーサーバから提供された関連情報だけでなく、Web上で公開されたWebページを関連情報として含めて、多様な関連情報を提供する。
【解決手段】抽出部は、フォルダ11に格納された電子書籍データ12から記載内容の特徴を示す特徴情報を抽出する。格納部は、抽出された特徴情報に基づき、Webページを検索する検索サーバ13によりWebページを検索し、検索結果をフォルダ11に格納する。
【選択図】図1

Description

本発明は、関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラムに関する。
近年、タブレット端末や電子書籍端末等の端末装置の普及に伴い、書籍の情報を電子化した電子書籍が注目されている。電子書籍は、デジタルデータであるため、端末装置から参照でき、紙媒体の書籍のように保存場所にも困らないなどのメリットがある。
ところで、ユーザは、電子書籍を参照し、記載された内容に興味が生じて、さらに記載された内容に関連する関連情報を得たい場合がある。そこで、スポンサーによって運営・管理されるスポンサーサーバに、電子書籍に含まれる情報アイテムに関連する関連情報を記憶し、電子書籍と、スポンサーサーバから提供された関連情報とを基に、電子書籍の情報アイテムが指定された場合に、関連情報が表示されるようにメタデータを付加した電子書籍ユニットを生成する従来技術が提案されている。
特開2010−262441号公報 特開2009−212655号公報
しかしながら、従来技術は、スポンサーから提供される関連情報しか提供できない。
本願は、上記に鑑みてなされたものであって、多様な関連情報を提供できる関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラムを提供することを目的とする。
本願に係る関連情報抽出装置は、所定のフォルダに格納された電子書籍データから記載内容の特徴を示す特徴情報を抽出する抽出手段と、前記抽出手段により抽出された特徴情報に基づき、Webページを検索する検索手段によりWebページを検索し、検索結果を前記所定のフォルダに格納する格納手段と、を有することを特徴とする。
本願に係る関連情報抽出装置によれば、多様な関連情報を提供できるという効果を奏する。
図1は、電子書籍データの関連情報を抽出する流れを模式的に示した図である。 図2は、第1の実施形態に係るシステムの全体の概略構成の一例を示す図である。 図3は、第1の実施形態に係るファイル管理サーバの機能的な構成の一例を示す図である。 図4は、第1の実施形態に係るファイル管理サーバの記憶部の記憶領域の構成の一例を模式的に示した図である。 図5は、キーワードを抽出して検索を行う流れの一例を模式的に示した図である。 図6は、キーワード毎にフォルダを分けて検索結果を格納する流れの一例を模式的に示した図である。 図7は、ユーザ端末で電子書籍データを閲覧した際に表示される画面の一例を示す図である。 図8は、実施形態に係る関連情報抽出処理の手順の一例を示すフローチャートである。 図9は、第2の実施形態に係るファイル管理サーバの機能的な構成の一例を示す図である。 図10は、第2の実施形態に係るユーザ情報のデータ構成の一例を示す図である。 図11は、手書き部分からキーワードを抽出する流れの一例を模式的に示した図である。 図12は、ユーザ端末で電子書籍データを閲覧した際に表示される画面の一例を示す図である。
以下に、本願に係る関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
(第1の実施形態)
[1−1.関連情報の抽出]
まず、図1を用いて、電子書籍データの関連情報を抽出する流れの一例について説明する。なお、図1は、電子書籍データの関連情報を抽出する流れを模式的に示した図である。
関連情報抽出装置10は、データを格納可能なフォルダ11が設けられている。フォルダ11は、外部からアクセス可能とされ、電子書籍データ12が格納される。電子書籍データ12は、文字がコード化されているコードデータであってもよい。また、電子書籍データ12は、紙媒体の書籍を、スキャナー等で読み取った画像データであってもよく、画像データとコードデータを含んだものであってもよい。
関連情報抽出装置10は、フォルダ11にファイルとして電子書籍データ12が格納されると、格納された電子書籍データ12から記載内容の特徴を示す特徴情報を抽出する。例えば、関連情報抽出装置10は、特徴情報としてキーワードを抽出する。例えば、電子書籍データ12が画像データである場合、関連情報抽出装置10は、画像データに対して文字認識等を行って画像内の文字等をコード化し、文字をコード化した電子書籍データ12からキーワードを抽出する。キーワードの抽出の手法は、何れの方式を用いてもよい。例えば、関連情報抽出装置10は、電子書籍データ12の文章を形態素解析や構文解析などの解析手法を用いて単語に分解して単語毎の出現頻度を求め、出現頻度の高い単語をキーワードと抽出してもよい。また、例えば、関連情報抽出装置10は、複数の文書から単語毎の一般的な出現頻度を予め求めて記憶しておき、一般的な出現頻度よりも出現頻度が所定以上高い単語をキーワードと抽出してもよい。図1の例では、電子書籍データ12からキーワードとして「AAA」を抽出している。
関連情報抽出装置10は、抽出された特徴情報に基づき、Webページを検索する検索サーバ13によりWebページを検索する。例えば、関連情報抽出装置10は、抽出されたキーワードを検索クエリとして検索サーバ13によりキーワード検索を行ってWebページ14を検索する。
関連情報抽出装置10は、検索結果をフォルダ11に格納する。例えば、関連情報抽出装置10は、検索されたWebページ14のデータを検索結果としてフォルダ11に格納する。
このフォルダ11に格納された電子書籍データ12およびWebページ14のデータは、ユーザが操作するユーザ端末16から閲覧可能とされており、ユーザ端末16から閲覧する際に併せて提供される。ユーザ端末16では、電子書籍データ12を閲覧する際に、抽出された特徴部分にWebページ14が関連付けされる。図1の例では、ユーザ端末16に電子書籍データ12を表示させた際に、抽出された特徴部分を識別可能なように表示形態を変更しており、特徴部分17を網掛けしている。この特徴部分17には、特徴部分17から検索されたWebページが関連付けされており、特徴部分17を選択すると関連付けされたWebページ14が表示される。
このように、関連情報抽出装置10は、フォルダ11にファイルとして格納された電子書籍データ12から記載内容の特徴を示す特徴情報を抽出する。そして、関連情報抽出装置10は、抽出された特徴情報に基づき、検索サーバ13によりWebページ14を検索し、検索結果をフォルダ11に格納する。このように、関連情報抽出装置10は、電子書籍データ12の記載内容の特徴から検索サーバ13によりWebページ14を検索した検索結果を当該電子書籍データ12のフォルダに格納するため、多様な関連情報を提供できる。以下、紙媒体の書籍を電子化する電子化システム100について詳細に説明する。
[1−2.システムの構成]
実施形態に係るシステムについて説明する。図2は、第1の実施形態に係るシステムの全体の概略構成の一例を示す図である。図2に示すように、電子化システム100は、ユーザ端末101と、電子化サーバ110と、管理システム120とを有する。
ユーザ端末101と電子化サーバ110と管理システム120は、図示しないネットワークを介して通信可能に接続され、各種の情報を交換することが可能とされている。かかるネットワークの一態様としては、有線または無線を問わず、LAN(Local Area Network)やVPN(Virtual Private Network)、移動体通信網などの任意の通信網が挙げられる。
ユーザ端末101は、ユーザが操作する端末装置であり、一例として、デスクトップ型PC(パーソナル・コンピュータ)、タブレット型PC、ノート型PCなどの情報処理装置等である。なお、ユーザ端末101は、スマートフォン、PDA(Personal Digital Assistant)、携帯電話機であってもよい。なお、図2の例では、ユーザ端末101として、デスクトップ型PCとスマートフォンをそれぞれ1つ例示したが、開示のシステムはこれに限定されず、ユーザ端末101は任意の数とすることができる。
電子化サーバ110は、紙媒体の書籍の電子化する事業者111の所有するサーバである。電子化サーバ110は、スキャナー等の機器が接続され、紙媒体の書籍の電子化を行う。
管理システム120は、各種の管理を行うシステムである。例えば、管理システム120は、電子書籍データ112を管理する。管理システム120は、検索サーバ121と、ファイル管理サーバ122と、認証サーバ123と、決済サーバ124とを有する。検索サーバ121とファイル管理サーバ122と認証サーバ123と決済サーバ124は、図示しないネットワークを介して通信可能に接続され、各種の情報を交換することが可能とされている。かかるネットワークの一態様としては、LANなどが挙げられる。なお、実施形態に係る電子化システム100では、ファイル管理サーバ122が本発明の関連情報抽出装置に対応する。
検索サーバ121は、インターネット上のWebページの検索サービスを提供するサーバである。ファイル管理サーバ122は、ユーザ毎に、ユーザのデータを管理するサーバである。また、ファイル管理サーバ122は、事業者111から電子化された電子書籍データ112の納品を受け付ける。認証サーバ123は、ユーザの認証を行うサーバである。決済サーバ124は、ユーザに対して発生した費用の決済を行うサーバである。検索サーバ121、ファイル管理サーバ122、認証サーバ123および決済サーバ124は、それぞれ1台のコンピュータとして実装してもよく、また、複数台のコンピュータとして実装することもできる。なお、本実施形態では、検索サーバ121、ファイル管理サーバ122、認証サーバ123および決済サーバ124をそれぞれ1台のコンピュータとした場合を例として説明する。
管理システム120は、システムの利用を希望するユーザからのユーザ登録を受け付ける。管理システム120は、ユーザ登録の際、ユーザに関する各種の情報を登録させる。各種の情報としては、例えば、利用者の氏名や、クレジットカード番号などの決済情報が挙げられる。登録された各種の情報は、例えば、認証サーバ123でユーザ情報として管理される。ユーザ登録されると、各ユーザには、ユーザIDやパスワードが付与される。
事業者111は、Webページ103を提供しており、Webページ103から書籍の電子化の依頼が可能とされている。ユーザは、紙媒体の書籍を電子化する場合、Webページ103から会員登録を行い、付与された会員番号を用いてWebページ103にログインする(図2(1))。Webページ103には、書籍の電子化に関する料金など各種の情報が表示される(図2(2))。
事業者111は、電子化した書籍のデータを、管理システム120を介してユーザに提供することが可能とされている。Webページ103は、管理システム120のユーザIDおよびパスワードを入力する入力領域が設けられており、書籍の電子化を依頼された場合、ユーザIDおよびパスワードを用いて認証サーバ123によりユーザの認証を行う。ユーザは、Webページ103に管理システム120のユーザIDおよびパスワードを入力して書籍の電子化を依頼する(図2(2))。Webページ103は、入力されたユーザIDおよびパスワードを用いて認証サーバ123によりユーザの認証を行い、認証が得られた場合、書籍の電子化の依頼を受け付ける。ユーザは、Webページ103での書籍の電子化の依頼が完了すると、電子化する紙媒体の書籍をユーザの氏名や会員番号などの情報と共に事業者111へ送付する(図2(3))。なお、Webページ103が受け付けた依頼を識別する受付番号などを表示する場合は、受付番号を紙媒体の書籍と共に事業者111へ送付してもよい。
事業者111は、ユーザから送付された紙媒体の書籍の電子化を行う(図2(4))。例えば、事業者111は、紙媒体の書籍を裁断して個別の用紙に分割し、電子化サーバ110に接続されたイメージスキャナ等の機器により、分割した用紙を読み取ってデジタルの電子書籍データ112に変換する。例えば、事業者111は、紙媒体の書籍を分割した用紙を読み取って、電子書籍データ112として、PDF(Portable Document Format)など所定の形式の電子ファイルに変換する。変換された電子書籍データ112のファイルは、電子化サーバ110に記憶される。また、事業者111は、ユーザから送付された紙媒体の書籍の送付元の氏名や会員番号、受付番号などから電子化を依頼した依頼元のユーザを特定する。
ファイル管理サーバ122には、登録されたユーザ毎に、ユーザ用の記憶領域が設けられている。例えば、ファイル管理サーバ122には、登録されたユーザ毎に、フォルダを分けてユーザ用の記憶領域が設けられている。ユーザは、ユーザ端末101からユーザIDおよびパスワードを用いてログインし、自身のユーザの記憶領域にアクセス可能とされており、ユーザ用の記憶領域に各種データのアップロードおよびユーザ用の記憶領域から各種データのダウンロードが可能とされている。
電子化サーバ110は、電子書籍データ112をファイル管理サーバ122へアップロードして、電子化を依頼した依頼元のユーザの記憶領域に電子書籍データ112を格納する(図2(5))。
電子化サーバ110は、電子書籍データ112の格納が完了すると、決済サーバ124に対して電子化を依頼したユーザへの電子化の費用の課金を要求する(図2(6))。決済サーバ124は、要求に応じて、電子化を依頼したユーザに対して電子化の費用の決済を行う。なお、費用の決済は、金銭によるものに限らず、管理システム120が提供する各種のサービスで付与されるポイント等にて行ってもよい。
依頼元のユーザは、ユーザ端末101を用いてファイル管理サーバ122に設けられた自身のユーザの記憶領域にアクセスすることにより、電子書籍データ112を参照することができる。なお、電子書籍データ112は、ダウンロードされてもよく、また、ユーザ端末101に記憶されたまま、閲覧されるものとしてもよい。例えば、ユーザ端末101では、専用のビューワを介して電子書籍データ112を閲覧する(図2(8))。
[1−3.ファイル管理サーバの構成]
次に、実施形態に係るファイル管理サーバ122について詳細に説明する。図3は、第1の実施形態に係るファイル管理サーバの機能的な構成の一例を示す図である。図3に示すように、ファイル管理サーバ122は、通信I/F(インタフェース)部20と、記憶部21と、制御部22とを有する。
通信I/F部20は、NIC(Network Interface Card)等のインタフェースである。通信I/F部20は、図示しないネットワークを介して他の装置との間で各種のデータを送受信する。例えば、通信I/F部20は、電子化サーバ110から送信された電子書籍データ112などの各種のデータを受信する。また、通信I/F部20は、電子書籍データ112を閲覧の際、ユーザ用の記憶領域に格納された電子書籍データ112をユーザ端末101へ送信する。
記憶部21は、各種情報を記憶するデバイスである。例えば、記憶部21としては、HDD(Hard Disk Drive)やディスクアレイなどの記憶装置が挙げられる。記憶部21は、制御部22で実行されるOS(Operating System)や、後述する関連情報抽出処理を実行するプログラムを含む各種プログラムを記憶する。さらに、記憶部21は、ユーザ用記憶領域30が設けられている。
図4は、第1の実施形態に係るファイル管理サーバの記憶部の記憶領域の構成の一例を模式的に示した図である。図4に示すように、ユーザ用記憶領域30には、フォルダ31で分けてそれぞれのユーザ用の記憶領域が設けられている。図4の例では、ユーザ用記憶領域30には、ユーザAフォルダ、ユーザBフォルダ、ユーザCフォルダがそれぞれのユーザ用の記憶領域として設けられている。このフォルダ31に分けられたユーザ用の記憶領域には、電子書籍データ112が格納される。
図3に戻り、制御部22は、ファイル管理サーバ122を制御するデバイスである。例えば、制御部22としては、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路を採用できる。
制御部22は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部22は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部22は、抽出部40と、格納部41と、提供部42とを有する。
抽出部40は、所定のフォルダにファイルとして格納された電子書籍データ112から記載内容の特徴を示す特徴情報を抽出する。例えば、抽出部40は、記憶部21にユーザ用の記憶領域として設けられた各フォルダ31に格納された電子書籍データ112のファイルから特徴情報として、キーワードを抽出する。例えば、抽出部40は、各フォルダ31を監視しており、電子書籍データ112が格納された場合、格納された電子書籍データ112からキーワードを抽出する。キーワードの抽出の手法は、何れの方式を用いてもよい。抽出するキーワード数は、1つに限定されず、複数であってもよい。
格納部41は、抽出部40により抽出された特徴情報に基づき、検索サーバ121によりWebページを検索する。例えば、格納部41は、抽出された各キーワードについて、それぞれ検索サーバ121によりキーワード検索を行い、各キーワードに関連するWebページを検索する。そして、格納部41は、検索サーバ121による検索結果を所定のフォルダに格納する。例えば、格納部41は、検索結果として、検索されたWebページを一覧表示するページのデータと、検索されたWebページのデータを格納する。すなわち、本発明は、フォルダに電子書籍ファイルを新規に格納した瞬間に関連情報を探しだし、格納するものであり、従来の検索における検索窓の役割をフォルダが果たし、検索クエリの代わりにファイルを活用するものである。
図5は、キーワードを抽出して検索を行う流れの一例を模式的に示した図である。図5の例では、抽出部40は、電子書籍データ112からキーワード「AAA」を抽出する。格納部41は、検索サーバ121によりキーワード「AAA」のWebページの検索を行い、検索結果として、検索されたWebページを一覧表示する一覧表示ページ130のデータと、検索されたWebページ131のデータを格納している。
なお、格納部41は、複数のキーワードが抽出された場合、キーワード毎にフォルダを分けて検索結果を格納してもよい。図6は、キーワード毎にフォルダを分けて検索結果を格納する流れの一例を模式的に示した図である。図6の例では、抽出部40は、電子書籍データ112からキーワード「AAA」、「BBB」を抽出する。格納部41は、検索サーバ121によりキーワード「AAA」、「BBB」のWebページをそれぞれ検索を行う。そして、抽出部40は、フォルダ31内にキーワード「AAA」、「BBB」のフォルダ132を作成し、フォルダ132内に検索されたWebページを一覧表示する一覧表示ページ130のデータと、検索されたWebページ131のデータを格納している。
提供部42は、ユーザ端末101から専用のビューワを用いて電子書籍データ112を閲覧する場合、当該電子書籍データ112の関連情報も併せて提供する。例えば、提供部42は、電子書籍データ112に、当該電子書籍データ112と同じフォルダ以下に格納された、一覧表示ページ130のデータおよび検索されたWebページ131のデータを関連付けて提供する。提供部42は、ユーザ端末101から専用のビューワを用いて電子書籍データ112を閲覧する場合、当該電子書籍データ112の関連情報も併せて提供する。例えば、提供部42は、電子書籍データ112の抽出された特徴部分を識別可能なように表示形態を変更すると共に、特徴部分に関連付けて関連情報を表示可能として提供する。特徴部分の表示形態の変更は、特徴部分が周囲と識別可能であれば何れでもよく、例えば、網掛け、文字種の変更、文字サイズの変更、文字色の変更、背景色の変更、下線やパターン等の付加などが挙げられる。
図7は、ユーザ端末で電子書籍データを閲覧した際に表示される画面の一例を示す図である。図7の例では、ユーザ端末101に電子書籍データ112が表示されており、抽出された特徴部分140が網掛けされている。この特徴部分140には、特徴部分140から検索された関連情報が関連づけされている。図7の例では、特徴部分140を選択すると関連付けされたWebページ131が表示される。なお、特徴部分140に関連付けた関連情報が複数ある場合は、特徴部分140が選択された際に関連情報のリストを表示し、選択された関連情報を表示させてもよい。また、特徴部分140が選択される毎に、表示する関連情報を切替えてもよい。また、特徴部分140が選択された際に関連情報を全て表示させてもよい。
[1−4.関連情報抽出処理]
次に、本実施形態に係るファイル管理サーバ122が電子書籍データ112に関連する関連情報を抽出する関連情報抽出処理の流れを説明する。図8は、実施形態に係る関連情報抽出処理の手順の一例を示すフローチャートである。この関連情報抽出処理は、例えば、何れかのフォルダ31に電子書籍データ112が格納されたタイミングで実行される。
抽出部40は、フォルダ31に格納された電子書籍データ112からキーワードを抽出する(S10)。
格納部41は、抽出されたキーワードについて、それぞれ検索サーバ121によりキーワード検索を行う(S11)。そして、格納部41は、検索サーバ121による検索結果をフォルダ31に格納し(S12)、処理を終了する。
(第2の実施形態)
次に、第2の実施形態について説明する。第2の実施形態に係るユーザ端末101、電子化サーバ110、管理システム120の構成は、図2に示した第1の実施形態に係るユーザ端末101、電子化サーバ110、管理システム120と同一であるため、説明を省略する。
[2−1.ファイル管理サーバの構成]
図9は、第2の実施形態に係るファイル管理サーバの機能的な構成の一例を示す図である。第2の実施形態に係るファイル管理サーバ122の構成は、図3に示した第1の実施形態に係るファイル管理サーバ122と略同一であるため、主に異なる部分について説明する。
図9に示すように、ファイル管理サーバ122の記憶部21は、ユーザ情報32を記憶する。
ユーザ情報32は、システムの利用するユーザの属性などの各種の情報を記憶したデータである。図10は、第2の実施形態に係るユーザ情報のデータ構成の一例を示す図である。図10に示すように、ユーザ情報32は、「ユーザID」、「年齢」、「職業」の各項目を有する。ユーザIDの項目は、ユーザのユーザIDを記憶する領域である。年齢の項目には、ユーザの年齢を記憶する領域である。職業の項目は、ユーザの職業を記憶する領域である。ユーザの年齢や職業などの属性情報は、ユーザ登録の際に登録させてもよく、管理システム120が提供する各種のサービスをユーザが利用した際の情報から推定してもよい。図10の例では、ユーザID「0001」のユーザは、年齢が「18」であり、職業が「高校生」であることを示している。また、ユーザID「0002」のユーザは、年齢が「50」であり、職業が「大学教授」であることを示している。
ところで、電子書籍データ112は、紙媒体の書籍を読み取って生成されたデータであるため、ユーザが手書で記載を行った手書き部分を含む場合がある。手書き部分は、ユーザが意図的に記載を行っているため、記載内容の重要部分を示す場合がある。
そこで、抽出部40は、電子書籍データ112に手書き部分が含まれる場合、手書き部分の記載内容からキーワードを抽出する。例えば、抽出部40は、電子書籍データ112から手書き部分の特定を行う。この手書き部分の手法は、何れの方式を用いてもよい。例えば、電子書籍データ112に対して文字認識を行い、文字を認識できない記載部分を手書き部分と抽出してもよい。また、例えば、電子書籍データ112の文章を文字毎の文字画像に分離して、分離した各文字画像を、予め各文字の文字画像を記憶した文字パターン辞書の文字画像と比較し類似度が低い場合、手書き部分と抽出してもよい。また、例えば、抽出部40は、上述した特許文献2(特開2009−212655)等に開示されている技術により、手書き文字を抽出してもよい。
図11は、手書き部分からキーワードを抽出する流れの一例を模式的に示した図である。図11の例では、電子書籍データ112には、アンダラインが付された手書き部分150と、記載欄外に括弧が付された手書き部分151が含まれている。抽出部40は、手書き部分に対応する記載内容からキーワードを抽出する。例えば、抽出部40は、手書き部分150が付された記載部分152の記載内容からキーワード「AAA」を抽出する。また、抽出部40は、手書き部分151が付された行の範囲153の記載内容からキーワード「BBB」を抽出する。これにより、抽出部40は、電子書籍データ112から、より適切に重要なキーワードを抽出できる。
ところで、電子書籍データ112に含まれる手書き部分は、ユーザによって重要部分を示す場合と、重要部分を示すわけではない場合がある。例えば、比較的年配のユーザは、自身が重要と感じる記載部分に手書きを行う傾向があるため、手書き部分が重要部分を示すことが多い。一方、比較的若年のユーザは、書籍をメモ代わりなどに使用する場合があり、手書き部分が重要部分を示さないことがある。また、ユーザの職業などでも手書き部分が重要部分を示すか否かが異なる。例えば、大学教授の手書き部分は、重要部分を示すことが多い。
そこで、抽出部40は、電子書籍データ112を所有するユーザの属性に応じて、手書き部分の記載内容からキーワードを抽出するか、記載全体からキーワードを抽出するかを決定する。例えば、抽出部40は、ユーザの職業が大学教授など、手書き部分が重要部分を示す傾向が高い所定の職業である場合や、ユーザの年齢が手書き部分が重要部分を示す傾向が高い所定の年齢以上である場合、手書き部分の記載内容からキーワードを抽出する。これにより、抽出部40は、電子書籍データ112を所有するユーザに応じて適切に重要なキーワードを抽出できる。
[3.その他]
上記実施形態において、関連情報抽出装置10は、電子書籍データ12から特徴情報として画像を抽出し、抽出した画像によりWebページの検索を行ってもよい。
また、上記実施形態において、事業者111が電子書籍データ112をファイル管理サーバ122のユーザ用記憶領域30へ格納する場合について説明したが、事業者111が電子書籍データ112を仲介するサーバを介してファイル管理サーバ122のユーザ用記憶領域30へ電子書籍データ112を格納してもよい。これにより、ファイル管理サーバ122のユーザ用記憶領域30に事業者111がアクセスすることを防止できる。
また、上記実施形態において、電子書籍データ112が格納された際にWebページの検索を行うフォルダが関連情報抽出装置10とは別の装置に設けられていてもよい。
また、上記実施形態において、関連情報抽出装置10がWebページを検索する機能を備えてもよい。
また、上記実施形態において、抽出したキーワードに関連する関連語も含めてWebページを検索してもよい。関連語としては、例えば、同義語や類似語が挙げられる。関連語は、予め記憶してもいてもよく、外部のサーバに問い合わせるものとしてもよい。関連語は、例えば、シソーラスを用いて検索してもよい。電子書籍データ112において、関連語により検索されたWebページは、キーワードに関連付けてもよい。また、キーワードが選択された際に、関連語も表示し、関連語を選択された場合に関連語で検索されたWebページを表示させてもよい。図12は、ユーザ端末で電子書籍データを閲覧した際に表示される画面の一例を示す図である。図12の例では、キーワードとして「AAA」が抽出されており、電子書籍データ112の「AAA」が網掛けされている。このキーワード「AAA」には、関連語「aaa」があるものとする。ユーザ端末101は、関連語を表示する表示領域160が設けられており、電子書籍データ112の「AAA」が選択された場合、表示領域160に関連語「aaa」が表示される。この関連語「aaa」が選択された場合、関連語「aaa」で検索されたWebページ131が表示される。このように、ファイル管理サーバ122は、関連語も含めてWebページを検索することにより、多様な関連情報を提供できる。
[4.効果]
このように、ファイル管理サーバ122は、フォルダ31に格納された電子書籍データ112から記載内容の特徴を示す特徴情報を抽出する。そして、ファイル管理サーバ122は、抽出された特徴情報に基づき、検索サーバ121によりWebページを検索し、検索結果をフォルダ31に格納する。これにより、ファイル管理サーバ122は、多様な関連情報を提供できる。
また、ファイル管理サーバ122は、複数の特徴情報を抽出する。ファイル管理サーバ122は、各特徴情報について、それぞれWebページを検索する。ファイル管理サーバ122は、フォルダ31に、特徴情報毎にフォルダを分けて検索結果を格納する。これにより、ファイル管理サーバ122は、特徴情報毎の検索結果を判別しやすくすることができる。
また、ファイル管理サーバ122は、検索結果として、検索されたWebページを一覧表示する一覧表示ページ130のデータと、検索されたWebページ131のデータをフォルダ31に格納する。そして、ユーザは、一覧ページ130からどのようなWebページ131が検索されたかを把握でき、Webページ131から実際の内容を把握できる。
また、ファイル管理サーバ122は、電子書籍データ112に手書き部分が含まれる場合、手書き部分の記載内容から特徴情報を抽出する。これにより、ファイル管理サーバ122は、電子書籍データ112から、より適切に重要な特徴情報を抽出できる。
また、ファイル管理サーバ122は、電子書籍データ112を所有するユーザの属性を記憶する。そして、ファイル管理サーバ122は、記憶された属性に応じて、手書き部分の記載内容から特徴情報を抽出するか、記載全体から特徴情報を抽出するかを決定する。これにより、ファイル管理サーバ122は、電子書籍データ112を所有するユーザに応じて適切に重要な特徴情報を抽出できる。
また、上述したファイル管理サーバ122は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、特許請求の範囲に記載した「手段」は、「部(section、module、unit)」や「回路」などに読み替えることができる。例えば、抽出手段は、抽出部や抽出回路に読み替えることができる。
10 関連情報抽出装置
11 フォルダ
12 電子書籍データ
13 検索サーバ
14 Webページ
21 記憶部
22 制御部
30 ユーザ用記憶領域
31 フォルダ
32 ユーザ情報
40 抽出部
41 格納部
42 提供部
100 電子化システム
101 ユーザ端末
110 電子化サーバ
111 事業者
112 電子書籍データ
120 管理システム
121 検索サーバ
122 ファイル管理サーバ

Claims (7)

  1. 所定のフォルダに格納された電子書籍データから記載内容の特徴を示す特徴情報を抽出する抽出手段と、
    前記抽出手段により抽出された特徴情報に基づき、Webページを検索する検索手段によりWebページを検索し、検索結果を前記所定のフォルダに格納する格納手段と、
    を有することを特徴とする関連情報抽出装置。
  2. 前記抽出手段は、複数の特徴情報を抽出し、
    前記検索手段は、各特徴情報について、それぞれWebページを検索し、
    前記格納手段は、前記所定のフォルダに、特徴情報毎にフォルダを分けて検索結果を格納する
    ことを特徴とする請求項1に記載の関連情報抽出装置。
  3. 前記格納手段は、前記検索結果として、検索されたWebページを一覧表示するページのデータと、検索されたWebページのデータを前記所定のフォルダに格納する
    ことを特徴とする請求項1または2に記載の関連情報抽出装置。
  4. 前記抽出手段は、前記電子書籍データに手書き部分が含まれる場合、手書き部分の記載内容から特徴情報を抽出する
    ことを特徴とする請求項1〜3の何れか1つに記載の関連情報抽出装置。
  5. 電子書籍データを所有するユーザの属性を記憶する記憶手段をさらに備え、
    前記抽出手段は、前記記憶手段に記憶された属性に応じて、手書き部分の記載内容から特徴情報を抽出するか、記載全体から特徴情報を抽出するかを決定する
    ことを特徴とする請求項4に記載の関連情報抽出装置。
  6. コンピュータが実行する関連情報抽出方法であって、
    所定のフォルダに格納された電子書籍データから記載内容の特徴を示す特徴情報を抽出する抽出工程と、
    前記抽出工程により抽出された特徴情報に基づき、Webページを検索する検索工程と、
    前記検索工程による検索結果を前記所定のフォルダに格納する格納工程と、
    を有することを特徴とする関連情報抽出方法。
  7. 所定のフォルダに格納された電子書籍データから記載内容の特徴を示す特徴情報を抽出する抽出手順と、
    前記抽出手順により抽出された特徴情報に基づき、Webページを検索する検索手順と、
    前記検索手順による検索結果を前記所定のフォルダに格納する格納手順と、
    をコンピュータに実行させることを特徴とする関連情報抽出プログラム。
JP2013060032A 2013-03-22 2013-03-22 関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラム Pending JP2014186463A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013060032A JP2014186463A (ja) 2013-03-22 2013-03-22 関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013060032A JP2014186463A (ja) 2013-03-22 2013-03-22 関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラム

Publications (1)

Publication Number Publication Date
JP2014186463A true JP2014186463A (ja) 2014-10-02

Family

ID=51833998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013060032A Pending JP2014186463A (ja) 2013-03-22 2013-03-22 関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP2014186463A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5991704B1 (ja) * 2015-07-10 2016-09-14 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331056A (ja) * 2005-05-26 2006-12-07 Sony Corp 電子書籍表示装置、情報処理方法、記録媒体、および、プログラム
WO2007032142A1 (ja) * 2005-09-16 2007-03-22 Bits Co., Ltd. ドキュメントデータ表示処理方法、ドキュメントデータ表示処理システム及びドキュメントデータ表示処理用のソフトウェアプログラム
JP2009080806A (ja) * 2007-09-04 2009-04-16 Yahoo Japan Corp Webページにリンクを挿入する方法
JP2012181873A (ja) * 2012-01-07 2012-09-20 Patentisland Corp 電子書籍表示制御装置、電子書籍表示制御プログラム、電子書籍表示制御方法、電子書籍

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331056A (ja) * 2005-05-26 2006-12-07 Sony Corp 電子書籍表示装置、情報処理方法、記録媒体、および、プログラム
WO2007032142A1 (ja) * 2005-09-16 2007-03-22 Bits Co., Ltd. ドキュメントデータ表示処理方法、ドキュメントデータ表示処理システム及びドキュメントデータ表示処理用のソフトウェアプログラム
JP2009080806A (ja) * 2007-09-04 2009-04-16 Yahoo Japan Corp Webページにリンクを挿入する方法
JP2012181873A (ja) * 2012-01-07 2012-09-20 Patentisland Corp 電子書籍表示制御装置、電子書籍表示制御プログラム、電子書籍表示制御方法、電子書籍

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5991704B1 (ja) * 2015-07-10 2016-09-14 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム
WO2017009908A1 (ja) * 2015-07-10 2017-01-19 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム

Similar Documents

Publication Publication Date Title
US10904213B2 (en) Computer-based system and computer based method for suggesting domain names based on entity profiles having neural networks of data structures
CN105706080B (zh) 扩增并呈现捕获的数据
US8612475B2 (en) Generating a discussion group in a social network based on metadata
CN109614504B (zh) 一种互联网电子书的管理系统及方法
US9449031B2 (en) Sorting and filtering a table with image data and symbolic data in a single cell
US20150169710A1 (en) Method and apparatus for providing search results
JP5270018B1 (ja) システム及び手書き文書管理方法
US20090132590A1 (en) Image-based data management method and system
US8250466B2 (en) Computer and method for converting a web page
US9639627B2 (en) Method to search a task-based web interaction
US20140245121A1 (en) Creating and Switching a View of a Collection Including Image Data and Symbolic Data
US20190065613A1 (en) Generating a website from digital image metadata
EP3175375A1 (en) Image based search to identify objects in documents
WO2016094101A1 (en) Webpage content storage and review
US20190065614A1 (en) Customer requested website from digital image metadata
KR20120058544A (ko) 이미지 구성요소의 검색
JP5416253B2 (ja) 関連コンテンツ検索装置及び関連コンテンツ検索方法
JP2014186463A (ja) 関連情報抽出装置、関連情報抽出方法および関連情報抽出プログラム
CN113535842A (zh) 兼容性数据导入的线索分析方法、系统及可读存储介质
JP5944338B2 (ja) 情報処理装置、情報処理プログラム、および情報処理方法
US20180300575A1 (en) Physical and digital bookmark syncing
JP5779412B2 (ja) クライアント・サーバシステム、クライアント機器、サーバ機器、クライアント・サーバシステムにおけるコメント画面作成方法、およびクライアント機器のプログラム、サーバ機器のプログラム
JP2014186536A (ja) ソーシャルグラフ作成装置、ソーシャルグラフ作成プログラム、およびソーシャルグラフ作成方法
Satomi et al. New functionality for digital libraries: enhancing discoverability at the National Diet Library
US8832082B2 (en) Presentation of search results with diagrams

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140930

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150303