JP5820320B2 - 情報処理端末及び方法、並びに、情報管理装置及び方法 - Google Patents

情報処理端末及び方法、並びに、情報管理装置及び方法 Download PDF

Info

Publication number
JP5820320B2
JP5820320B2 JP2012072517A JP2012072517A JP5820320B2 JP 5820320 B2 JP5820320 B2 JP 5820320B2 JP 2012072517 A JP2012072517 A JP 2012072517A JP 2012072517 A JP2012072517 A JP 2012072517A JP 5820320 B2 JP5820320 B2 JP 5820320B2
Authority
JP
Japan
Prior art keywords
information
metadata
electronic document
annotation
processing terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012072517A
Other languages
English (en)
Other versions
JP2013205994A (ja
Inventor
布目 光生
光生 布目
鈴木 優
優 鈴木
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012072517A priority Critical patent/JP5820320B2/ja
Priority to CN201380005184.4A priority patent/CN104169912A/zh
Priority to EP13724419.0A priority patent/EP2831775A1/en
Priority to PCT/JP2013/057572 priority patent/WO2013146394A1/en
Publication of JP2013205994A publication Critical patent/JP2013205994A/ja
Priority to US14/483,290 priority patent/US10417267B2/en
Application granted granted Critical
Publication of JP5820320B2 publication Critical patent/JP5820320B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Description

本発明の実施形態は、情報処理端末及び方法、並びに、情報管理装置及び方法に関する。
動画像や電子書籍等のコンテンツの情報をネットワーク上で検索可能なコンテンツサイトを管理する情報管理装置がある。このような情報管理装置では、特定のコンテンツに対して複数のユーザが付加したコメント等の注釈情報を、ユーザ間で共有可能とするものがある。
このようなコンテンツサイト上で、コンテンツに対する注釈情報をユーザ間で共有可能にする場合、情報管理装置は、当該コンテンツと当該注釈情報とを対応付けて、データベースに格納しておく必要がある。
しかしながら、当該コンテンツと当該注釈情報とは一対一に対応付けられているため、データベース内で互いに関連するコンテンツ(例えば、内容は同じだが、バージョンや出版社が異なるコンテンツ等)が複数存在する場合、関連するコンテンツ間で注釈情報を共有することができない場合がある。さらに、著作権切れの書籍データをユーザが各自のローカル環境で、様々なフォーマットや書式により独立して保有している場合には、データベースやファイルシステムが散在していることになり、注釈情報の共有が困難であった。
このため、従来の情報管理装置では、ユーザが知りたいコンテンツの情報やそれに関連する注釈情報を適切に検索することができないとの課題がある。
特開2009−70278号公報
発明が解決しようとする課題は、ユーザが知りたいコンテンツの情報を適切に検索することができる情報処理端末及び方法、並びに、情報管理装置及び方法を提供することである。
上記課題を解決するために、本発明の実施形態に係る情報処理端末は、電子文書に関するメタデータと、当該メタデータに対応付けられた注釈情報とを管理する情報管理装置と接続可能な情報処理端末であって、生成部と、取得部と、出力部とを備える。
生成部は、電子文書を解析し、前記電子文書に含まれるテキスト情報と、前記電子文書の構造情報とを含むメタデータを生成する。取得部は、前記メタデータを前記情報管理装置に送信し、前記メタデータに類似する類似メタデータを推定させ、前記類似メタデータに対応する注釈情報を取得する。出力部は、前記注釈情報を、前記電子文書に対応付けて出力する。
また、本発明の他の実施形態に係る情報管理装置は、電子文書に関するメタデータを情報処理端末から受信可能な情報管理装置であって、格納部と、取得部と、抽出部と、送信部とを備える。
格納部は、電子文書に含まれるテキスト情報と、前記電子文書の構造情報とを含むメタデータ、及び、前記メタデータに対応付けられた注釈情報を格納する。取得部は、前記情報処理端末から、検索対象のメタデータを取得する。抽出部は、前記格納部を検索して、前記メタデータに類似する類似メタデータを推定し、前記類似メタデータに対応する注釈情報を抽出する。送信部は、前記注釈情報を前記情報処理端末に送信する。
第1の実施形態に係る情報処理端末1及び情報管理装置2を表すブロック図。 情報処理端末1及び情報管理装置2の処理を表すフローチャート。 情報処理端末1の生成部11の処理を表すフローチャート。 構造情報の説明図。 メタデータの一例図。 情報処理端末1の取得部12の処理を表すフローチャート。 対応情報の一例図。 注釈情報の説明図。 第3の実施形態における決定部110の処理を表すフローチャート。 格納部23に格納されているメタデータ及び注釈情報の一例図。 類似メタデータの一例図。 類似メタデータの一例図。 抽出部22による注釈情報の抽出後の処理を表すフローチャート。 注釈情報の表示例を表す図。 第2の実施形態に係る情報処理端末10及び情報管理装置2を表すブロック図。
(第1の実施形態)
第1の実施形態に係る情報処理端末1は、電子文書に関するリソース(ファイルやアプリケーション)を処理可能な情報端末(例えば、PCやスマートフォン、ネットブック等)に好適である。本実施形態に係る情報管理装置2は、情報処理端末1と接続可能なサーバに好適である。電子文書に関するリソースには、例えば、電子書籍等がある。
情報処理端末1は、処理対象となる電子文書(以降、対象文書)を解析し、当該対象文書のテキスト情報と構造情報と含むメタデータ(対象メタデータ)を生成し、当該対象メタデータを情報管理装置2に送信する。
テキスト情報は、電子文書に含まれるテキスト自体の情報や、テキストをハッシュ化した情報を含む。構造情報とは、電子文書に含まれる文書の論理構造やレイアウトに関する情報である。例えば、構造情報には、電子文書の各行における、インデント数、テキストの数、記号の数、数詞の数、テキスト集合の数、文字種の数、フォントサイズ、論理要素(題名、見出し、本文等)、レイアウト情報等がある。インデント数とは、行の先頭から最初に出現するテキストまでの間に含まれるスペースの数に相当する。テキスト集合とは、スペースを含まずに連続するテキストの纏まりをいう。
情報管理装置2は、電子文書に関するメタデータと、当該メタデータに関する注釈情報とを対応付けて格納している。注釈情報とは、電子文書に含まれるテキストに付された情報である。例えば、注釈情報は、不特定のユーザが各々の情報処理端末を用いて電子文書に含まれるテキストに対して付加したコメントや、電子文書中のテキストを読み上げた際の音声に関する音声情報等がある。ただし、注釈情報は、電子文書に関連する情報であれば、いかなる情報であっても構わない。
情報管理装置2は、情報処理端末1から受信した対象メタデータに類似する類似メタデータを検索し、類似メタデータに対応する注釈情報を情報処理端末1に送信する。
情報処理端末1は、情報管理装置2から受信した注釈情報を、対象文書に対応付けて出力する。これにより、ユーザが知りたいコンテンツの情報を適切に検索することができる。
図1は、情報処理端末1及び情報管理装置2を表すブロック図である。情報処理端末1は、生成部11と、取得部12と、記憶部13と、出力部14とを備える。
生成部11は、対象文書を取得し、対象文書に含まれるテキスト情報と、前記電子文書の構造情報とを含むメタデータ(対象メタデータ)を生成する。例えば、生成部11は、情報処理端末1に保存されている電子文書や、ユーザがダウンロードした電子文書を対象文書として取得してよい。
取得部12は、対象メタデータに類似する類似メタデータを情報管理装置2に推定させるための検索クエリを生成し、当該検索クエリを情報管理装置2に送信する。このとき、取得部12は、対象文書と対象メタデータとを対応付けて記憶部13に書き込んでもよい。取得部12は、情報管理装置2が推定した類似メタデータに対応する注釈情報を、情報管理装置2から取得する。
出力部14は、取得された注釈情報を、対象文書に対応付けて出力する。
生成部11と取得部12とは、中央演算処理装置(CPU)、及びCPUが用いるメモリにより実現されてよい。記憶部13は、CPUが用いるメモリや補助記憶装置により実現されてよい。出力部14は、液晶ディスプレイや有機ELディスプレイ等の表示部(不図示)や、スピーカ等の音声出力部(不図示)であってよい。
情報管理装置2は、受信部21と、抽出部22と、格納部23と、送信部24とを備える。
受信部21は、情報処理端末1の取得部12から送信された検索クエリを受信する。受信部21は、受信した検索クエリを抽出部22に供給する。
格納部23は、電子文書に関するメタデータと、当該メタデータに関する注釈情報とを対応付けて格納している。例えば、格納部23は、ある電子文書に含まれるテキストについて、不特定のユーザが付加したコメント等を注釈情報とし、当該注釈情報を当該電子文書のメタデータに対応付けて格納していてよい。
抽出部22は、供給された検索クエリに基づき、格納部23を検索して、対象メタデータに対する類似メタデータを推定する。抽出部22は、推定した類似メタデータに対応付けられた注釈情報を格納部23から抽出する。抽出部22は、抽出した注釈情報を送信部24に供給する。
送信部24は、供給された注釈情報を情報処理端末1の取得部12に送信する。
受信部21と、抽出部22と、送信部24とは、CPU、及びCPUが用いるメモリにより実現されてよい。格納部23は、CPUが用いるメモリや補助記憶装置により実現されてよい。
以上、情報処理端末1の構成、及び情報管理装置2の構成について説明した。
図2は、情報処理端末1及び情報管理装置2の処理を表すフローチャートである。図2(a)は、情報処理端末1の処理を表すフローチャートである。図2(b)は、情報管理装置2の処理を表すフローチャートである。
図2(a)に示す情報処理端末1の処理について説明する。
生成部11は、対象文書を取得し、対象メタデータを生成する(S101)。取得部12は、対象メタデータに類似する類似メタデータを情報管理装置2に推定させるための検索クエリを生成する(S102)。取得部12は、生成した検索クエリを情報管理装置2に送信する(S103)。取得部12は、情報管理装置2が推定した類似メタデータに対応する注釈情報を、情報管理装置2から取得する(S104)。出力部14は、取得された注釈情報を、対象文書に対応付けて出力し(S105)、処理を終了する。
以上、情報処理端末1の処理について説明した。
図2(b)に示す情報管理装置2の処理について説明する。情報管理装置2の処理は、情報処理端末1の処理のステップS103と、ステップS104との間に行われる。
受信部21は、情報処理端末1の取得部12から送信された検索クエリを受信する(S01)。抽出部22は、検索クエリに従い、格納部23を検索して、対象メタデータに対する類似メタデータを推定する(S202)。抽出部22は、推定した類似メタデータに対応付けられた注釈情報を格納部23から抽出する(S203)。送信部24は、注釈情報を情報処理端末1の取得部12に送信し(S204)、処理を終了する。
以上、情報管理装置2の処理について説明した。
図3は、情報処理端末1の生成部11の処理を表すフローチャートである。生成部11は、取得した電子文書を形態素解析して、電子文書に含まれるテキストを単語単位に分割する(S301)。生成部11は、分割して得られた単語の中で、出現頻度の高い単語を求める(S302)。例えば、生成部11は、出現頻度が所定の順位以上の単語を求めてよい。生成部11は、出現頻度の高い単語の情報もテキスト情報として保持しておく。
生成部11は、取得した電子文書を解析して、当該電子文書の構造情報を求める(S303)。図4は、構造情報の説明図である。図4に示すように、本実施形態における構造情報は、電子文書の各行における、インデント数や、文字数、記号の数、数詞の数、テキスト集合の数、フォントサイズ、論理要素、レイアウト情報等、その行に含まれるテキストの構造に関する情報である。
図4に示す「イワンの馬鹿」という電子文書の第1行目の構造情報について説明する。第1行目において、行の最初から、「イワンの馬鹿」というテキストの最初の文字である「イ」までにあるスペースの数が「4」であるとき、インデント数は「4」となる。「イワンの馬鹿」の文字数は「6」である。「イワンの馬鹿」に含まれる記号の数は「0」である。「イワンの馬鹿」に含まれる数詞の数は「0」である。「イワンの馬鹿」に含まれるテキスト集合の数は「1」である。「イワンの馬鹿」に含まれる文字種の数は「3」である。「イワンの馬鹿」というテキストのフォントサイズは「20」である。「イワンの馬鹿」の論理要素は、「題名」である。
レイアウト情報とは、その行において、テキストが存在する位置を「1」で表し、存在しない位置を「0」で表すことにより、その行におけるテキストの位置(レイアウト)を示すものである。したがって、図4の電子文書の第1行目のレイアウト情報は「00111000000000」のように表せる。第2行目、第3行目についても、図4に示すような構造情報で表すことができる。他の行についても同様である。
生成部11は、テキスト情報と構造情報とを構造化して対象メタデータを生成する(S304)。図5は、メタデータの一例図である。図5に示すように、本実施形態の対象メタデータは、対象メタデータを識別するためのメタデータID(<matadata id>)が付され、テキスト情報や構造情報が構造化されて記述されたデータである。図5に示す対象メタデータのメタデータIDは、「123」である。
例えば、生成部11は、図5に示すように、テキスト情報と構造情報とに基づいて、著者名の要素(<creator>)に「トルストイ」を記述し、題名(<title>)の要素に「イワンの馬鹿」を記述し、訳者名(<translator>)の要素に「菊池寛」を記述する。このとき、生成部11は、これらの要素を対象文書の識別ID(<description id>)の内容として記述する。図5に示す対象文書の識別IDは、「456」である。なお、生成部11は、対象文書の識別ID(<description id>)に、対象文書の電子文書URL(Uniform Resource Locator)を含めて記述してもよい。図5に示す対象文書の電子文書URLは、「http://www.toshiba.co.jp/ebook/#1298129sw」である。
生成部11は、ステップS303で求めた図4に示す構造情報を「<layout-pattern>」の要素に記述する。また生成部11は、「<text-info>」の要素に、ステップS302で求めたテキストの出現頻度を記述する。ここでは、頻出する単語やフレーズの例として、「年寄った悪魔」の出現頻度が「35」で、「麦わら」の出現頻度が「20」で、「テイブル」の出現頻度が「10」で、「イワン」の出現頻度が「5」であることを示している。生成部11は、対象文書と、生成した対象メタデータとを取得部12に供給する。生成部11は、対象メタデータに対応する対象文書を識別するための電子文書ID、対象文書のURLもう構造情報に含めて記述する。図5に示す対象文書の電子文書IDは、「100」である。
なお、ここでは、簡単のために各行のテキストの内容を、そのままテキスト要素の一行として記述しているが、レイアウト情報等はハッシュ化した情報として記述してもよい。また、構造情報以外にも、書誌情報として抽出可能な要素については、メタデータに含めてよい。例えば、図5の例のような著者名、題名、訳者名の他にも、出版社名、出版年月日、巻番号等をメタデータに含めてよい。
図6は、取得部12の処理を表すフローチャートである。取得部12は、供給された対象文書と対象メタデータとを対応付けた対応情報を記憶部13に書き込む(S401)。取得部12は、対象メタデータに類似する類似メタデータを情報管理装置2に推定させるための検索クエリを生成し、当該検索クエリを情報管理装置2に送信する(S402)。取得部12は、類似メタデータに対応する注釈情報を情報管理装置2から取得する(S403)。情報管理装置2での類似メタデータの推定方法の詳細は後述する。取得部12は、取得した注釈情報を出力部14に供給する。
対応情報について説明する。図7は、対応情報の一例図である。図7に示すように、対応情報は、電子文書のメタデータのメタデータIDと、電子文書の電子文書IDと、電子文書URLと、図5に示すメタデータのURLとを対応付けたものである。メタデータのカラムには、メタデータの内容そのもの、又はメタデータ内容に対するリンク(パス)が記述されていればよい。
情報管理装置2について詳述する。情報管理装置2の格納部23は、電子文書に関連するメタデータと注釈情報とを対応付けて格納している。図8は、注釈情報の説明図である。図8に示す注釈情報は、ユーザが自身の情報処理端末で閲覧中の電子書籍に含まれるテキストを当該ユーザが指定して、当該テキストに対して書き込んだコメントや、当該テキストの音声情報(読みやアクセント)である。
図8に示す例では、「イワンの馬鹿」という電子文書に含まれる「馬鹿のイワンという三人の息子」というテキストに対して、「この表現には、・・・。」というコメントが、あるユーザから書き込まれた場合を示している。また、指定された「馬鹿のイワンという三人の息子」の音声情報は、「バカノ/イ’ワン/トイウ/サンニンノ/ムスコ」である(アポストロフィ(’)は、アクセントの位置を表す)。すなわち、本例における注釈情報は、「この表現には、・・・。」というコメント、及び、「バカノ/イ’ワン/トイウ/サンニンノ/ムスコ」という音声情報である。
図9は、格納部23に格納されている注釈情報の一例図である。例えば、格納されている注釈情報は、XML形式で記述されていてよい。本例では、コメントと音声情報とが注釈情報として「<annotation-info>」の要素に記述されている。
格納部23には、注釈情報を識別するための注釈情報IDと、当該注釈情報が対応する電子文書の電子文書ID「<refid>」と、当該電子文書のどの部分に対応するかを示すためのインデックス位置や、長さ等で示される。
電子文書IDは、予めGUID等、一意に特定可能なIDが付与されているのが望ましい。電子文書に直接アクセス可能な場合は、これらのIDを用いて電子文書から抽出することで、注釈情報が対応する電子文書に部分を特定することができる。
また、図9の上部は、注釈情報がコメントである場合を示している。ここでは、「<commentary>」の要素に、あるユーザが付与したコメントが記述されている。図9の下部には、注釈情報が音声情報である場合を示している。音声情報は、"<midterm>"の要素にテキスト形式で記述されている。
図10は、格納部23に格納されているメタデータ及び注釈情報の一例図である。格納部23は、メタデータと注釈情報とを、メタデータIDと、注釈情報IDと、注釈情報とを用いて対応付けて格納している。
情報管理装置2の抽出部22について説明する。抽出部22には、受信部21から供給された対象メタデータに対する類似メタデータを推定する際に、テキスト情報に基づく第1類似度と、構造情報に基づく第2類似度と、テキスト情報及び構造情報に基づく第3類似度とを算出する。抽出部22は、第1類似度と、第2類似度と、第3類似度とに基づいて、格納部23から類似メタデータを抽出する。
図11は、抽出部22の処理を表すフローチャートである。抽出部22は、第1類似度を算出する(S501)。第1類似度は、テキスト情報に関する類似の程度を表すものである。例えば、抽出部23は、対象メタデータと格納部23に格納されているメタデータとの間において、出現頻度が高い単語や文字のn−gramが一致する程度や、出現するテキスト列のパターンが一致する程度等から、第1類似度を算出してよい。
具体的に、第1類似度は、対象メタデータと格納部23に格納されているメタデータについて、文字や単語の出現頻度の差分を計測したり、キーワード列間の編集距離(レーベンシュタイン距離)を算出し、各キーワード列間の類似度を算出することで求められる。
抽出部22は、第2類似度を算出する(S502)。第2類似度は、構造情報における論理要素の階層を木構造として表した場合における、当該木構造間の類似の程度を表すものである。
具体的に、第2類似度は、木構造データ間の編集距離を算出することにより、求めることができる。
抽出部22は、第2類似度を算出する際、論理要素に相当するノード部分には、論理要素の種類によって重みを変えてもよい。例えば、「章」に相当するノードについては重み付けを大きくし、「参照」や「注釈」等に相当するノードについては重み付けを小さくする等しても構わない。
抽出部22は、第3類似度を算出する(S503)。第3類似度は、例えば、電子文書の題名、著者名・訳者名、出版年等の書誌事項等、テキスト情報と構造情報とを組み合わせた情報の類似の程度である。本例における書誌事項は、電子文書を示す情報として公開や利用がなされているものである。
具体的に、対象メタデータにおける「題名」の文字列が、対象メタデータの<LayoutSim>要素内に、「パス情報:/document/root/chapter[@title="第一章"]」、「テキスト要素:川崎駅で逢いましょう」と記述されているとする。
一方、格納部23に格納されているメタデータの一つには、<LayoutSim>の要素に、「パス情報:/document/chapter/chapter_title」、「テキスト要素:川崎駅(ステーション)で逢いましょう」と記述されているものがあるとする。
このとき、第3類似度は、パス情報の編集距離と、テキスト要素の編集距離のそれぞれの類似度を算出し、それらを合算することで求めることができる。
一般的に、電子文書の本文が同じであっても、構造情報が完全に同一とは限らない。例えば、題名であっても字体等の表記が異なる場合、訳文や訳者が異なる場合、バージョンが異なる場合、出版社が異なる場合等があり、どの程度までを同一の電子文書とするかは、アプリケーション毎に異なる。
例えば、ある外国の著作物について、同じ作品であれば訳者を問わずに注釈情報を抽出したい場合もあれば、訳者の違いにより注釈情報を抽出すべきでない場合もある。
このような違いは、ステップS504における重み係数の設定として反映することができ、重み係数によって上記の観点を考慮した類似度の算出が可能となる。
抽出部22は、供給された対象メタデータに対する類似メタデータを検索する際の第1類似度と、第2類似度と、第3類似度とに用いる重み係数(各々、α、β、γとする)を設定する(S504)。重み係数の設定方法は、予めシステム管理者等が定めた係数を設定する方法でもよいし、対象メタデータが示す電子文書のタイプや種別によって動的に設定する方法でもよい。また、算出された各類似度を用いて各重み係数を設定してもよい。さらに、抽出部22は、各類似度の算定順序を変更してもよい。すなわち、優先度が高い項目についての類似度が算出された結果を受けて、続く処理を省略する等してもよい。
抽出部22は、第1類似度と、第2類似度と、第3類似度とに基づいて、格納部23を検索して類似メタデータを推定する。例えば、抽出部22は、第1類似度と、第2類似度と、第3類似度と、各重み係数(α、β、γ)とから、式1により類似度を算出し、算出した類似度が所定の閾値以上となるメタデータを類似メタデータとして推定してよい。
Figure 0005820320

抽出部22により、例えば図12に示す類似メタデータが推定されたとする。ここでは、図10に示したメタデータ(図12の上の行)と、別ユーザによって、電子文書IDが異なる電子文書に対して付与された注釈情報に対応するメタデータとが、類似メタデータとして推定されたとする。
抽出部22は、類似メタデータのメタデータIDに対応付けられている注釈情報を、格納部23から抽出する(S506)。本例では、抽出部23は、図12に示す2つの注釈情報を抽出する。異なるメタデータに対応付けられている注釈情報に対しては、対象文書との整合性を取る必要がある。なぜならば、検索している電子文書が異なるため、電子文書の本文の内容によっては、全体的に一致していても、細部に関しては一致性が失われる場合があるためである。このため、一致性が確保できる共通構造を見つけることが望ましい。
注釈情報の抽出方法についてさらに詳述する。図13は、抽出部22による注釈情報の抽出後の処理を表すフローチャートである。
抽出部22は、類似メタデータと対応する注釈情報を抽出する(S601)。抽出部22は、注釈情報の参照範囲に関する情報を取得する(S602)。これは、図12の注釈情報に示されるような各種の属性である。具体的には、注釈情報が対応するテキストについて、電子文書の冒頭から何文字目に当該テキストの開始位置があるかを示す「index」、当該テキストの長さを示す「length」、当該テキストの属する章構造を示す「chapter」、節単位の構造を示す「section」、パラグラフ単位の構造を示す「para」、参照範囲に含まれる出現頻度の高いテキストの順位に関する情報等がある。
抽出部22は、これらの参照範囲に関する情報について、大きな構造から順に、対象メタデータの対象部分と、類似メタデータの対象部分とがマッチングを行なう(S603)。
抽出部22は、対象部分どうしのマッチングが取れたか否かを判定する(S604)。現在、注釈情報は、メタデータ間の類似性の一致で取得したものであるため、一番大きな構造単位では一致していることを前提とする。構造間の単位は、ここでは大きな順に、「chapter>section>para>freqterm>index」といった関係が成り立っているとし、抽出部22は、この順で構造間の一致を判定する。
マッチングしている場合には(ステップS604:YES)、より小さい構造単位でマッチングを行ない(S605)、ステップS603に遷移する。マッチングしている場合には(ステップS604:NO)、ステップS606に遷移する。図12の例では、"index"の構造単位を比較した場合に、差異が生じることがわかる。そのため、抽出部22は、"#4"で一致した"freqterm"の構造単位に注釈情報を対応付け、送信部24に供給する(S606)。送信部24は、供給された注釈情報を情報処理端末1の取得部12に送信する。
以上、情報管理装置2について詳述した。
情報処理端末1の出力部14は、取得された注釈情報を、対象文書に対応付けて出力する。図14は、出力部14が情報処理端末1の表示画面に注釈情報を出力する場合の表示例を表す図である。図14(a)に示すように、出力部14は、対象範囲を指したポップアップを表示したり、後続する文書内へインサート表示したり、動的に参照記号(たとえばタガー記号など)を付与した上で、別エリアに表示する等してよい。また、コメントを同時には表示せずに、対象のエリアをハイライトするなどによりコメントがあることのみを知らせ、ユーザの指示に応じて、コメントを表示してもよい。一方、詳細な領域まで一致しない場合は、図14(b)に示すように、閲覧ページと連動させてカラム形式で表示したり、脚注として対象領域が含む領域が表示された場合に、対応して注釈情報を表示してもよい。
本実施形態によれば、同じ内容を有するコンテンツへの関連情報や派生の創作物にも関わらず、コンテンツ同士の対応が付かなかったために分散していた注釈情報を対応づけることができ、特定のサービスプロバイダである書籍販売元などが用意している限られた書籍コンテンツだけでなく、サイト間を跨いだ参照や、ユーザが電子化したコンテンツ同士の注釈情報についても活用・参照が可能となる。

(第2の実施形態)
第2の実施形態の情報処理端末10は、本端末を利用するユーザからも注釈情報の入力を可能とし、入力された注釈情報を情報管理装置2に送信する点が、前実施形態の場合と異なる。
図15は、情報処理端末10及び情報管理装置2を表すブロック図である。情報処理端末10に対し、解析部15をさらに備える。解析部15は、本端末のユーザからの電子文書に対するコメント等の注釈情報を入力する。本実施形態の注釈情報は、電子文書に対してユーザが入力した注釈情報を取得する。ここで、注釈情報は、例えば、電子ブックビューアのプラグイン機能や、電子書籍閲覧サービスサイト上のUI機能等から入力されてよい。
解析部15は、入力された注釈情報を取得部12に供給する。取得部12は、供給された注釈情報と対象メタデータとを対応付けて構造データ化し、記憶部13に書き込む。さらに、取得部12は、注釈情報と対象メタデータとを対応付け、情報管理装置2の受信部21に送信する。情報管理装置2では、抽出部22が、供給された注釈情報と対象メタデータとを格納部23に格納する。
本実施形態の情報処理端末10によれば、対象メタデータに対する類似メタデータの注釈情報を情報管理装置2から取得すると同時に、情報処理端末10のユーザが入力した注釈情報も情報管理装置2に送信することができる。
上述した実施形態によれば、ユーザが知りたいコンテンツの情報を適切に検索することができる。
なお、上述した各実施形態に係る情報処理端末及び情報管理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、情報処理端末及び情報管理装置が備えるべき構成要素は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、情報処理端末及び情報管理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1,10・・・情報処理端末
2・・・情報管理装置
11・・・生成部
12・・・取得部
13・・・記憶部
14・・・出力部
15・・・解析部
21・・・受信部
22・・・抽出部
23・・・格納部
24・・・送信部

Claims (8)

  1. 第1の電子文書に含まれるテキスト自体の情報および当該第1の電子文書の構造情報を含む第1のメタデータと、当該第1のメタデータに対応付けられた第1の注釈情報とを管理する情報管理装置と接続可能な情報処理端末であって、
    第2の電子文書を解析し、当該第2の電子文書に含まれるテキスト自体の情報および当該第2の電子文書の構造情報を含む第2のメタデータを生成する生成部と、
    前記第2のメタデータを前記情報管理装置に送信し、前記第2のメタデータに類似する前記第1のメタデータに対応する前記第1の注釈情報を取得する取得部と、
    取得した前記第1の注釈情報を、前記第2の電子文書に対応付けて出力する出力部と
    を備える、情報処理端末。
  2. 前記第1の注釈情報は、前記第1の電子文書に対してユーザが付加したコメントに関する情報、あるいは、前記第1の電子文書の音声に関する情報である、
    請求項1記載の情報処理端末。
  3. 前記ユーザからの前記コメントに関する情報を解析する解析部をさらに備え、
    前記取得部は、前記コメントに関する情報と前記第2のメタデータとを対応付けて、前記情報管理装置に送信する、
    請求項2記載の情報処理端末。
  4. 前記出力部は、前記第2のメタデータと類似する前記第1のメタデータとの類似の度合に応じて、取得した前記第1の注釈情報の出力形態を変化させる、
    請求項3記載の情報処理端末。
  5. 第1の電子文書に含まれるテキスト自体の情報および当該第1の電子文書の構造情報を含む第1のメタデータと、当該第1のメタデータに対応付けられた第1の注釈情報を格納する格納部と、
    情報処理端末から、第2のメタデータを取得する取得部と、
    前記第2のメタデータに類似する前記第1のメタデータに対応する前記第1の注釈情報を抽出する抽出部と、
    抽出した前記第1の注釈情報を前記情報処理端末に送信する送信部と
    を備える、情報管理装置。
  6. 前記抽出部は、前記第2のメタデータに含まれる前記テキスト自体の情報および前記構造情報が類似する前記第1のメタデータに対応する前記第1の注釈情報を抽出する、
    請求項5記載の情報管理装置。
  7. 第1の電子文書に含まれるテキスト自体の情報および当該第1の電子文書の構造情報を含む第1のメタデータと、当該第1のメタデータに対応付けられた第1の注釈情報とを管理する情報管理装置と接続可能な情報処理端末を制御する情報処理方法であって、
    第2の電子文書を解析し、当該第2の電子文書に含まれるテキスト自体の情報および当該第2の電子文書の構造情報を含む第2のメタデータを生成し、
    前記第2のメタデータを前記情報管理装置に送信し、前記第2のメタデータに類似する前記第1のメタデータに対応する前記第1の注釈情報を取得し、
    取得した前記第1の注釈情報を、前記第2の電子文書に対応付けて出力する、
    情報処理方法。
  8. 第1の電子文書に含まれるテキスト自体の情報および当該第1の電子文書の構造情報を含む第1のメタデータと、当該第1のメタデータに対応付けられた第1の注釈情報とを管理する情報管理装置の情報管理方法であって、
    情報処理端末から、第2のメタデータを取得する取得部と、
    前記第2のメタデータに類似する前記第1のメタデータに対応する前記第1の注釈情報を抽出し、
    抽出した前記第1の注釈情報を前記情報処理端末に送信する、
    情報管理方法。
JP2012072517A 2012-03-27 2012-03-27 情報処理端末及び方法、並びに、情報管理装置及び方法 Expired - Fee Related JP5820320B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012072517A JP5820320B2 (ja) 2012-03-27 2012-03-27 情報処理端末及び方法、並びに、情報管理装置及び方法
CN201380005184.4A CN104169912A (zh) 2012-03-27 2013-03-12 信息处理终端和方法,以及信息管理设备和方法
EP13724419.0A EP2831775A1 (en) 2012-03-27 2013-03-12 Information processing terminal and method, and information management apparatus and method
PCT/JP2013/057572 WO2013146394A1 (en) 2012-03-27 2013-03-12 Information processing terminal and method, and information management apparatus and method
US14/483,290 US10417267B2 (en) 2012-03-27 2014-09-11 Information processing terminal and method, and information management apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012072517A JP5820320B2 (ja) 2012-03-27 2012-03-27 情報処理端末及び方法、並びに、情報管理装置及び方法

Publications (2)

Publication Number Publication Date
JP2013205994A JP2013205994A (ja) 2013-10-07
JP5820320B2 true JP5820320B2 (ja) 2015-11-24

Family

ID=48471071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012072517A Expired - Fee Related JP5820320B2 (ja) 2012-03-27 2012-03-27 情報処理端末及び方法、並びに、情報管理装置及び方法

Country Status (5)

Country Link
US (1) US10417267B2 (ja)
EP (1) EP2831775A1 (ja)
JP (1) JP5820320B2 (ja)
CN (1) CN104169912A (ja)
WO (1) WO2013146394A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104321802B (zh) * 2012-05-24 2017-04-26 株式会社日立制作所 图像分析装置、图像分析系统、图像分析方法
US9141257B1 (en) * 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
JP2014240884A (ja) 2013-06-11 2014-12-25 株式会社東芝 コンテンツ作成支援装置、方法およびプログラム
JP6129977B2 (ja) 2013-09-20 2017-05-17 株式会社東芝 アノテーション共有方法、アノテーション共有装置及びアノテーション共有プログラム
US10606941B2 (en) * 2015-08-10 2020-03-31 Open Text Holdings, Inc. Annotating documents on a mobile device
US11093494B2 (en) * 2016-12-06 2021-08-17 Microsoft Technology Licensing, Llc Joining tables by leveraging transformations
WO2018225576A1 (ja) * 2017-06-06 2018-12-13 オムロン株式会社 スコア算出ユニット、検索装置、スコア算出方法、およびスコア算出プログラム
CN108810025A (zh) * 2018-07-19 2018-11-13 平安科技(深圳)有限公司 一种暗网的安全性评估方法、服务器及计算机可读介质
CN109597621B (zh) * 2018-08-24 2022-10-14 天津字节跳动科技有限公司 封装Dagger的方法、装置、终端设备及存储介质
CN110874527A (zh) * 2018-08-28 2020-03-10 游险峰 一种基于云端的智能释义注音系统
CN109739894B (zh) * 2019-01-04 2022-12-09 深圳前海微众银行股份有限公司 补充元数据描述的方法、装置、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001268449A1 (en) * 2000-06-14 2001-12-24 Vistagen, Inc. Toxicity typing using liver stem cells
US7366979B2 (en) * 2001-03-09 2008-04-29 Copernicus Investments, Llc Method and apparatus for annotating a document
JP4025185B2 (ja) 2002-12-10 2007-12-19 株式会社東芝 メディアデータ視聴装置及びメタデータ共有システム
US7814085B1 (en) * 2004-02-26 2010-10-12 Google Inc. System and method for determining a composite score for categorized search results
EP1730277B1 (en) * 2004-03-22 2009-10-28 Nuevolution A/S Ligational encoding using building block oligonucleotides
US20080005064A1 (en) * 2005-06-28 2008-01-03 Yahoo! Inc. Apparatus and method for content annotation and conditional annotation retrieval in a search context
CA2615659A1 (en) * 2005-07-22 2007-05-10 Yogesh Chunilal Rathod Universal knowledge management and desktop search system
KR101443404B1 (ko) * 2006-09-15 2014-10-02 구글 인코포레이티드 페이퍼 및 전자 문서내의 주석의 캡처 및 디스플레이
EP1962202A3 (en) * 2007-02-16 2009-01-07 Palo Alto Research Center Incorporated System and method for annotating documents
US8276060B2 (en) * 2007-02-16 2012-09-25 Palo Alto Research Center Incorporated System and method for annotating documents using a viewer
JP2009070278A (ja) 2007-09-14 2009-04-02 Toshiba Corp コンテンツ類似性判定装置およびコンテンツ類似性判定方法
US20090254529A1 (en) * 2008-04-04 2009-10-08 Lev Goldentouch Systems, methods and computer program products for content management
CN101571859B (zh) * 2008-04-28 2013-01-02 国际商业机器公司 用于对文档进行标注的方法和设备
US8434001B2 (en) * 2010-06-03 2013-04-30 Rhonda Enterprises, Llc Systems and methods for presenting a content summary of a media item to a user based on a position within the media item
US9262390B2 (en) * 2010-09-02 2016-02-16 Lexis Nexis, A Division Of Reed Elsevier Inc. Methods and systems for annotating electronic documents
US8843852B2 (en) * 2010-12-17 2014-09-23 Orca Health, Inc. Medical interface, annotation and communication systems
JP2012198277A (ja) 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
US9298816B2 (en) * 2011-07-22 2016-03-29 Open Text S.A. Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation

Also Published As

Publication number Publication date
WO2013146394A4 (en) 2013-12-19
US10417267B2 (en) 2019-09-17
US20150006573A1 (en) 2015-01-01
EP2831775A1 (en) 2015-02-04
WO2013146394A1 (en) 2013-10-03
CN104169912A (zh) 2014-11-26
JP2013205994A (ja) 2013-10-07

Similar Documents

Publication Publication Date Title
JP5820320B2 (ja) 情報処理端末及び方法、並びに、情報管理装置及び方法
US10387520B2 (en) Online publication system and method
US9275062B2 (en) Computer-implemented system and method for augmenting search queries using glossaries
US9411790B2 (en) Systems, methods, and media for generating structured documents
US7788262B1 (en) Method and system for creating context based summary
US9323827B2 (en) Identifying key terms related to similar passages
US8868558B2 (en) Quote-based search
US20160098405A1 (en) Document Curation System
US20120233151A1 (en) Generating visual summaries of research documents
US10860638B2 (en) System and method for interactive searching of transcripts and associated audio/visual/textual/other data files
CN107870915B (zh) 对搜索结果的指示
US20120179709A1 (en) Apparatus, method and program product for searching document
US20110252313A1 (en) Document information selection method and computer program product
TWI396983B (zh) 名詞標記裝置、名詞標記方法及其電腦程式產品
US9990444B2 (en) Apparatus and method for supporting visualization of connection relationship
JP2014191777A (ja) 語義解析装置、及びプログラム
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2019204299A (ja) 検索処理装置およびプログラム
US11188549B2 (en) System and method for displaying table search results
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
Owen ProQuest Dissertations & Theses Global Database (PQDT Global)
JP2020095521A (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140129

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151002

R151 Written notification of patent or utility model registration

Ref document number: 5820320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees