JP2013206111A - 文書活用支援方法及び文書活用装置 - Google Patents

文書活用支援方法及び文書活用装置 Download PDF

Info

Publication number
JP2013206111A
JP2013206111A JP2012074199A JP2012074199A JP2013206111A JP 2013206111 A JP2013206111 A JP 2013206111A JP 2012074199 A JP2012074199 A JP 2012074199A JP 2012074199 A JP2012074199 A JP 2012074199A JP 2013206111 A JP2013206111 A JP 2013206111A
Authority
JP
Japan
Prior art keywords
document
search
character string
meta information
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2012074199A
Other languages
English (en)
Inventor
Takeshi Nagasaki
健 永崎
Masakazu Fujio
正和 藤尾
Junichi Hirayama
淳一 平山
Minenobu Seki
峰伸 関
Shoji Kodama
昇司 児玉
Shinya Iguchi
慎也 井口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2012074199A priority Critical patent/JP2013206111A/ja
Publication of JP2013206111A publication Critical patent/JP2013206111A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】十分な検索履歴が無い検索システムにおいて、文書候補を絞り込むための適切な付加情報を適切に提示する。
【解決手段】文書活用装置が実行する文書活用支援方法であって、前記文書活用装置は、演算装置と、前記演算装置に接続され、複数の文書に関する文書データを保持する記憶装置と、前記演算装置に接続される入力装置と、前記演算装置に接続される表示装置と、を有し、前記文書活用支援方法は、前記複数の文書の各々に含まれる文字列間の関連を推定し、推定された文字列間の関連を示す情報を前記記憶装置に格納する第1手順と、前記入力装置を介して検索キーワードとして入力された文字列を含む文書を、前記複数の文書から検索する第2手順と、前記検索の結果として得られた複数の文書に含まれる、前記検索キーワードとして入力された文字列と関連すると推定された一つ以上の文字列を、前記表示装置を介して表示する第3手順と、を含む。
【選択図】図3

Description

本発明は、本発明は文書解析技術及び文書活用支援システムに関し、特に、文書のメタ情報を利用してユーザによる文書の検索を支援する技術に関する。
企業情報システムに格納されるデータは年50%〜60%と年々増加する一方で、データベースに蓄積される構造化データは20%程、残り80%は文書・画像・音声・映像等の非構造化データとされる。企業等の組織内に蓄えられた膨大な文書群は、本来、当該組織にとっての情報資産であるが、現状では完全に活用できているとは言い難い。
情報利活用の効率化に対する社会的関心の高まりに伴って、サーバ又は個人が所有するパーソナルコンピュータ(PC)に格納された大量の電子文書中から、有益な情報を高精度に検索して、整理するための情報活用技術が求められている。
企業内文書活用システムの典型例としては、文書検索システムがある。文書から予め検索時の索引となる単語またはN−Gram文字列を抽出しておくことで、大規模文書に対して高速な検出を実現している。また、別の文書活用の一事例としては、セキュア情報を含む文書を検知して管理するための文書管理システムがある。ここで言うセキュア情報とは、例えば自社の秘密情報、他社の秘密情報又は個人情報のような、機密を保持する必要がある情報である。
このような自動検出の技術として、例えば特許文献1が開示されている。特許文献1に記載された機密文書検出システムは、入力された文書を複数の領域に分割し、各領域に対応する辞書を参照することによって各領域の特徴要素を検出し、検出された特徴要素に基づいて各文書が属する機密情報カテゴリを判定する。
また、別の文書活用技術の一事例として、営業活動支援システムなどがある。例えば、特許文献2は、営業支援システムにおいて、営業の履歴を電子ペンで記入し、これを営業日報データとして管理する手法について述べている。
特開2006−209649号公報 特開2009−211290号公報
従来のテキスト検索を用いた場合、必要とする情報を含む文書を見つけることに苦労することがある。これは関連するキーワードの誤検出が多いことが一つの要因として挙げられる。Google(登録商標)のようにWeb上で公開されている検索エンジンには、探したい情報を絞り込むための補足キーワードを提示することで、ユーザの利便性を向上している。例えばユーザが「特許」というキーワードを入力すると、更に絞り込むための用語として「特許 検索」、「特許 期限」及び「特許 審査請求」などの付加キーワードも加えて提示することで、より検索対象を絞り込みやすくしている。このような機能が実現できるのは、非常に多くのユーザから集めたキーワードの組の中から出現頻度の多いものを選び出して、最初に入力したキーワードに対して、出現頻度に基づいて関連性の高い付加用語を提示できるためである。しかし、企業内文書検索システムにおいて同様のことを実現しようとした場合、ユーザ数がさほど多いとは言えないため、検索時に指定した用語の組合せを過去の履歴から探るだけでは、十分な付加キーワードが提示できない可能性がある。
本発明の代表的な一例を示せば、次の通りである。すなわち、文書活用装置が実行する文書活用支援方法であって、前記文書活用装置は、演算装置と、前記演算装置に接続され、複数の文書に関する文書データを保持する記憶装置と、前記演算装置に接続される入力装置と、前記演算装置に接続される表示装置と、を有し、前記文書活用支援方法は、前記複数の文書の各々に含まれる文字列間の関連を推定し、推定された文字列間の関連を示す情報を前記記憶装置に格納する第1手順と、前記入力装置を介して検索キーワードとして入力された文字列を含む文書を、前記複数の文書から検索する第2手順と、前記検索の結果として得られた複数の文書に含まれる、前記検索キーワードとして入力された文字列と関連すると推定された一つ以上の文字列を、前記表示装置を介して表示する第3手順と、を含むことを特徴とする。
本発明の一実施形態によれば、検索対象とする文書の種類が増えた場合にも、簡易な定義で高精度に文書を検出するために、絞り込みのための適切な付加キーワード及びキーワード間の関係性が提示される。これによって必要とする文書の検索を効率的に行うことができる。
本発明の実施形態のメタ情報利用文書活用装置のハードウェア構成を示すブロック図である。 本発明の別の実施形態のOCR一体型メタ情報利用文書活用装置のハードウェア構成を示すブロック図である。 本発明の実施形態のメタ情報利用文書活用装置が実行する処理を示すフローチャートである。 本発明の実施形態の文書解析部及び関係メタ情報抽出部の詳細な手順を説明するフローチャートである。 本発明の実施形態のメタ情報利用文書活用装置が実行する処理について、解析フェーズと利用フェーズに分けて整理した説明図である。 本発明の実施形態のメタ情報利用文書活用装置によって活用される企業内文書の例を示す説明図である。 本発明の実施形態のメタ情報利用文書活用装置における推奨情報のインタフェースの一例の説明図である。 本発明の実施形態のメタ情報利用文書活用装置のブロック・行順序変換処理部において計算が行われる文書ブロックの説明図である。 本発明の実施形態のメタ情報利用文書活用装置の学習部における自動微分で用いられる演算関数の定義の説明図である。
以下、図面を用いて本発明の実施の形態を説明する。
図1は、本発明の実施形態のメタ情報利用文書活用装置0100のハードウェア構成を示すブロック図である。
メタ情報利用文書活用装置0100は、図3に示す本発明のメタ情報利用文書活用を実現する装置の一例である。本実施形態のメタ情報利用文書活用装置0100は、操作端末装置0101、表示端末装置0102、外部記憶装置0103、メモリ0104、中央演算装置0105、通信装置0107及びこれらを相互に接続する通信線0106を備える。メタ情報利用文書活用装置0100は、例えば一般的なパーソナルコンピュータであってもよい。
操作端末装置0101は、例えばキーボード又はマウス等であり、ユーザが指示又はデータ等をメタ情報利用文書活用装置0100に入力するために使用される。
表示端末装置0102は、例えば液晶表示装置のような、テキスト及び画像等を表示する装置である。
外部記憶装置0103は、例えばハードディスク装置又はフラッシュメモリのような記憶装置であり、入力された文書データ及び出力された文書構造データや検索用データを格納する。さらに、本実施形態を実現するために中央演算装置0105によって実行されるプログラム等が格納されてもよい。
メモリ0104は、例えば半導体メモリであり、中央演算装置0105によって実行されるプログラム及び参照されるデータ等を格納する。外部記憶装置0103に格納されたプログラム及びデータ等の少なくとも一部が必要に応じてメモリ0104にコピーされてもよい。
中央演算装置0105は、メモリ0104に格納されたプログラムを実行し、必要に応じて操作端末装置0101、表示端末装置0102、外部記憶装置0103及び通信装置0107を制御する。以下の説明においてメタ情報利用文書活用装置0100が実行する処理は、実際には中央演算装置0105によって実行される。
通信装置0107は、ネットワーク(図示省略)に接続され、そのネットワークに接続された他の装置(図示省略)と通信するインタフェースである。例えば、通信装置0107は入力データとして文書ファイルの送受信、検索データ又は文書構造データの送受信を行う。
図2は、本発明の別の実施形態のOCR一体型メタ情報利用文書活用装置0200のハードウェア構成を示すブロック図である。
本実施形態のOCR一体型メタ情報利用文書活用装置0200は、操作端末装置0201、表示端末装置0202、外部記憶装置0203、メモリ0204、中央演算装置0205、通信装置0207、画像撮像装置0208、ソータ装置0209及びこれらを相互に接続する通信線0206を備える。
操作端末装置0201、表示端末装置0202、外部記憶装置0203、メモリ0204、中央演算装置0205、通信装置0207及び通信線0206は、それぞれ第1の実施形態の操作端末装置0101、表示端末装置0102、外部記憶装置0103、メモリ0104、中央演算装置0105、通信装置0107及び通信線0106と同様であるため、それらに関する詳細な説明は省略する。
画像撮像装置0208は、入力された紙文書に記載された文字、罫線及び図形等を読み取ってデータ化する光学スキャナを含む。このとき読み取られたデータは、テキストデータ及び画像データを含むファイルとして外部記憶装置0203に格納されてもよい。
ソータ装置0209は、画像撮像装置0208による読み取りが終了した後の紙文書を排出する装置である。例えば、ソータ装置0209は、紙文書の排出先として複数の棚を備えてもよい。この場合、ソータ装置0209は、必要に応じて選択された棚に紙文書を排出することができる。
なお、OCR一体型メタ情報利用文書活用装置0200は、第1の実施形態のメタ情報利用文書活用装置0100に、従来のOCR装置を画像撮像装置0208及びソータ装置0209として追加することによって実現されてもよい。あるいは、OCR一体型メタ情報利用文書活用装置0200全体が一つのOCR装置として実現されてもよい。
OCR一体型メタ情報利用文書活用装置0200の中央演算装置0205は、画像撮像装置0208によって読み取られたデータを用いて、入力された文書が必要とされた文書であるか否かを判定して、文書の絞り込みに必要となる周辺状況を更に提供する。
以下、図1に示したメタ情報利用文書活用装置0100が実行する処理について説明する。図2に示したOCR一体型メタ情報利用文書活用装置0200は、メタ情報利用文書活用装置0100と同様の処理を実行する。
図3は、本発明の実施形態のメタ情報利用文書活用装置0100が実行する処理を示すフローチャートである。
図3に示す処理は、メタ情報利用文書活用装置0100の中央演算装置0105が、必要に応じて操作端末装置0101、表示端末装置0102、外部記憶装置0103、メモリ0104、及び通信装置0107等を制御して実行する。すなわち、図3に示す各部は、中央演算装置0105が実行する処理のステップに相当し、それらの処理によって格納されるデータ及び業務オントロジ0310は、外部記憶装置0103又はメモリ0104に格納される。
メタ情報利用文書活用装置0100は、文書蓄積部0302において、企業内の各PC上に蓄えられた文書0301を走査して、これを外部記憶装置0103等に蓄える。次に、メタ情報利用文書活用装置0100は、文書解析部0303において、蓄積されたデータに対して文書解析を行い、その結果を外部記憶装置0103又はメモリ0104に蓄える。文書解析の結果として、例えば、文書メタ情報、文書構造情報、検索インデックスなどが得られる。
次に、ユーザが、指定したキーワードに基づく検索の実行を指示すると、メタ情報利用文書活用装置0100はキーワード検索部0304においてこれを処理する。すなわち、メタ情報利用文書活用装置0100は、企業内文書0301から、キーワードとして指定された文字列を含む文書を検索結果として取得する。この検索結果は可視化部0307に渡されて、操作端末0308(図1の操作端末装置0101に相当する)を通してユーザに提示される。
しかし、この検索の結果として、指定されたキーワードを含む多数の文書が見つかると、ユーザにとって情報収集がやりにくくなる問題がある。そこで、メタ情報利用文書活用装置0100は、キーワード検索部0304における処理の後で、第1回目のキーワード検索(上記のキーワード検索部0304)で見つかった文書に対して、更に第2回目の文書解析0305を行う。これによって、第1回目に指定したキーワードを含む文書から、当該キーワードの周辺に配置された(すなわち当該キーワードに関連する)キーワード、及び文書情報が抽出される。これらについて、メタ情報利用文書活用装置0100は、関係メタ情報抽出部0306において、キーワードの周辺の文書構造(例えばキーワードの親子関係、係り受け関係)などを、文書の二次元的配置情報を利用して抽出する。第2回目の文書解析部0305及び関係メタ情報抽出部0306において抽出された情報は、外部記憶装置0103又はメモリ0104に格納される。
業務オントロジ0310は、例えば、キーワードと、そのキーワードに関連するキーワードとを対応付ける情報、及び、その関連の強さを示す重みの情報を含む。二つのキーワードの関連の強さを示す重みの値は、例えば、それらのキーワードが同一の文書に含まれる頻度が高いほど大きくなるように決定されてもよい。
さらに、後述するようにメタ情報解析(文書解析部0303、0305及び関係メタ情報抽出部0306)によってキーワード間の関連の種類を推定することができるため、推定された関連の種類に応じた重みが与えられてもよい。関連の種類の例としては、例えば、二つのキーワードの一方が上位概念、もう一方が下位概念である、二つのキーワードが同位概念である、同義語(又は類義語である)、又は、単に隣接して(又は近傍に)配置されている、等が挙げられる。業務オントロジ0310にはこのようなキーワード間の関連の種類を示す情報がさらに含まれてもよい。
文書解析部0303、0305及び関係メタ情報抽出部0306において上記のようなキーワード間の関連の強さを示す重みが抽出される。さらに、後述するように、ユーザによるキーワードの選択結果が重みに反映されてもよい。このようにして抽出されたキーワード間の関連の強さを示す情報は、文書を検索する際の絞込み情報をユーザに提示するために利用することができる(可視化部0307参照)。
上記の文書解析部0303、0305及び関係メタ情報抽出部0306の詳細な手順については図4を参照して後述する。なお、キーワード検索部0304においてユーザが指定したキーワードに関する文書解析が既に文書解析部0303において実行された結果、文書解析部0305及び関係メタ情報抽出部0306によって抽出されるものと同等の情報が既に業務オントロジ0310に蓄積されている場合には、文書解析部0305及び関係メタ情報抽出部0306の手順を省略することができる。
次に、メタ情報利用文書活用装置0100は、上記のような入力されたキーワードを含む文書における当該キーワード周辺の文書構造解析によって抽出した文書絞込み情報を可視化部0307において表示する。具体的には、例えば、メタ情報利用文書活用装置0100は、検索によって得られた文書に含まれる文字列のうち、入力されたキーワードとの間で推定された関連の強さが所定の値を超えるもの又は上位のもの等を、入力されたキーワードに関連する文字列と推定して、それらを表示してもよい。そして、メタ情報利用文書活用装置0100は、ユーザに操作端末0308によって絞り込みのための情報(キーワードなど)0311を選択させる。そして、選択された情報0311を用いた絞り込み検索を行うために、処理をキーワード検索部0304に戻す。
例えば、ユーザがあるキーワードを入力した場合、メタ情報利用文書活用装置0100は、業務オントロジ0310を参照して、第1のキーワードに関連するキーワードを抽出し、それらを表示してもよい。関連するキーワードが複数抽出された場合には、関連の強さ(重み)及び関連の種類に応じてそれらを表示してもよい。
業務オントロジ0310を利用したユーザによる文書検索の支援の具体的な例については、図6及び図7等を参照して後述する。
更に、上記の文書の絞り込みの結果は学習部0309において処理されて、業務の効率的な遂行を支援するための業務オントロジ0310として蓄積される。例えば、メタ情報利用文書活用装置0100は、可視化部0307において表示された文書絞込み情報(すなわち、ユーザによって指定されたキーワードに関連すると推定され、表示されたキーワード)のうち、ユーザに選択されたものについて、それと指定されたキーワードとの関連の強さを示す重みの値を増すように、業務オントロジ0310を更新してもよい。
具体的には、例えば、検索条件に応じて構成される自動微分の目的関数から導かれる導関数によって関連の強さを示す重みの値を更新してもよい。その詳細な方法については後述する(図9参照)。
図4は、本発明の実施形態の文書解析部0303、0305及び関係メタ情報抽出部0306の詳細な手順を説明するフローチャートである。
メタ情報利用文書活用装置0100は、入力された企業内文書0411(図3の企業内文書0301に相当)について、文書要素を抽出する(ステップ0401)。具体的には、メタ情報利用文書活用装置0100は、企業内文書0411から、その電子文書に含まれるテキストの文字情報、その文字が書かれる紙面上の位置、罫線の位置、等を抽出する。これによって、各文字が抽出され、さらに、各文字の位置及び罫線の位置から、各行に相当する文字列が特定される。
次に、メタ情報利用文書活用装置0100は、抽出された文書要素を用いて、文書構造を解析する(ステップ0402)。具体的には、メタ情報利用文書活用装置0100は、抽出された文字及び罫線の位置等に基づいて、文書上の文字をブロックに分ける。例えば、文書がヘッダ、フッタ及び本文からなる場合、ヘッダ、フッタ及び本文がそれぞれ一つのブロックとして識別される。本文が段組みされている場合、各段が一つのブロックとして識別される。文書に表が含まれる場合、その表が一つのブロックとして識別される。メタ情報利用文書活用装置0100は、ステップ0402において文書構造辞書(図示省略)を参照してもよい。これによって、ステップ0401で抽出された各行が属するブロックが特定される。このような文書構造の解析は、公知の方法によって行うことができる。
次に、メタ情報利用文書活用装置0100は、ブロック及び行を、テキストの読み順(言い換えると、それらが文書中に現れる順)に整合するように並べ替える(ステップ0403)。これによって、各ブロック内の行がテキストの読み順に並べ替えられ、さらに、ブロックもテキストの読み順に並べ替えられる。例えば本文が複数のブロックからなる場合、それらのブロックがテキストの読み順に並べ替えられる。この並べ替えも、ステップ0402と同様、公知の方法によって行うことができる。ブロックに関する説明は図8を参照して後述する。
次に、メタ情報利用文書活用装置0100は、文書要素を抽出する(ステップ0404)。具体的には、メタ情報利用文書活用装置0100は、罫線、及び、その罫線等によって形成されたレイアウトを抽出する。さらに、メタ情報利用文書活用装置0100は、ステップ0401において抽出された文字列からキーワードを抽出する。具体的には、メタ情報利用文書活用装置0100は、文書辞書の検索キーワード情報0412に登録されたキーワードを検索キーとして、ステップ0401において抽出された文字列を検索する。検索キーワード情報0412は、図3の操作端末0308を通して入力されるキーワード、その入力されたキーワードを業務オントロジ0310に基づいて展開したもの(言い換えるとその入力されたキーワードとそれに関連するキーワードとの組)、あるいは文書解析0305および関係メタ情報抽出0306の結果として得られた文書絞込み用付加情報に相当する。
次に、メタ情報利用文書活用装置0100は、文書メタ情報を抽出する(ステップ0405)。文書メタ情報とは、入力された文書に関する情報(属性情報等)の総称であり、具体例を挙げれば、文書のタイトル、作成年月日及び作成者などの書誌情報や、罫線表の隣接関係・親子関係などを表す情報である。ここで、隣接関係とは二つの文字列が(文脈上の関係の有無にかかわらず)並んでいる関係、親子関係とは例えば項目名と項目値のような関係である。このような文書メタ情報は、一般には入力された文書に直接書かれていないが、文書のタイトルのように、文書メタ情報と同一の情報が文書に直接書かれている場合もある。文書メタ情報を抽出する際は文書構造辞書0413が用いられる。
文書構造辞書0413には、文書から抽出すべき文書メタ情報の種類を定義する情報が含まれる。例えば、各文書に含まれる罫線、矩形、空白、文字列、文字列が配置された文書上の位置、フォント及び装飾の少なくとも一つに関する各文書のレイアウト、並びに文書構造辞書0413に基づいて、各文書のタイトル、作成者、作成年月日、ヘッダ、フッタ、章節番号、図表名、図表、文書ブロック及び固有名詞の少なくとも一つが文書メタ情報として抽出される。
次に、メタ情報利用文書活用装置0100は、文書中の特定対象に対して関係メタ情報を算出する(ステップ0406)。このときにも、文書構造辞書0413を使用してもよい。
メタ情報利用文書活用装置0100は、ステップ0405及び0406において算出された文書構造情報及びメタ情報に基づいて、入力された電子文書に対する文書構造データ0415を構成し、これを出力する(ステップ0409)。更に、メタ情報利用文書活用装置0100は、出力された文書構造データ0415に対して、更に絞り込みのための情報が要求される場合は、文書の周辺情報(例えば、入力されたキーワードの周囲の、当該キーワードと関連するキーワード)を含む文書絞込みデータ0416を構成し、これを出力する(ステップ0410)。
文書構造データ0415及び文書絞込みデータ0416は、図3の可視化0307、操作端末0308への情報提供に利用され、そこで選択された絞込み情報が文書絞込み用付加情報0311としてキーワード検索部0304に渡される。
図5は、本発明の実施形態のメタ情報利用文書活用装置0100が実行する処理について、解析フェーズと利用フェーズに分けて整理した説明図である。
上記の図3及び図4を参照して説明した、メタ情報利用文書活用装置0100が実行する処理は、学習フェーズ0500と利用フェーズ0510とに分けられる。
学習フェーズ0500において、メタ情報利用文書活用装置0100は、入力された情報に基づいて検索用文書データ0504を作成する。
具体的には、例えば、ユーザが蓄積文書0501(図3の企業内文書0301に相当)をメタ情報利用文書活用装置0100に入力する。このときシステムが持っている文書メタ定義0502(図3の業務オントロジ0310に相当)が解析に使われる。
蓄積文書0501は、文書検索対象としてユーザPCなど企業内に蓄えられた実際の文書ファイルである。蓄積文書0501は、例えば通信装置0107を介してメタ情報利用文書活用装置0100に入力されてもよい。
文書メタ定義0502は、文書解析の際に抽出するべきメタ情報の定義を記したものである。ユーザは、文書を解析した結果、抽出したい文書中のメタ情報のリストを、文書メタ定義0502としてメタ情報利用文書活用装置0100に入力することができる。
例えば「××製作所」のような文書の作成者又は所有者を示す文字列や、「設計書」のような文書の種類を示す文字列との組み合わせを含む文書を、メタ情報として抽出する必要がある場合、ユーザは、このような文字列からなるキーワードの組み合わせ、あるいはメタ情報の種類を文書メタ定義0502としてメタ情報利用文書活用装置0100に入力することができる。文書メタ定義0502は、例えば通信装置0107を介して入力されてもよいし、操作端末装置0101を介して入力されてもよい。
メタ情報利用文書活用装置0100は、入力された蓄積文書0501及び文書メタ定義0502に基づいて、文書メタ解析0503(図3の1回目の文書解析部0303に相当)を実行する。その結果、検索用文書データ0504(図4の文書構造データ0415に相当)が作成される。検索用文書データ0504には、後述するように、文書検索に用いるキーワードのインデックス、ユーザに指定されたキーワードとして登録された文字列の組み合わせ、各キーワードペアに含まれる二つのキーワードの文書上の位置関係、及び、検索対象となる文書の文書構造、等を示す情報が含まれる。
次に、利用フェーズ0510について説明する。ユーザは、メタ情報利用文書活用装置0100に検索したい文字列(キーワード)を入力する。
メタ情報利用文書活用装置0100は、入力されたキーワードについて、文書検索処理0512(図3のキーワード検索部0304に相当)を実行する。これによって検索対象キーワードを含む全ての文書の、各種文書要素、すなわち、テキスト、キーワード(KW)、罫線、キーワードの位置を示す情報、及びブロックの配置を示す情報等が抽出される。なお、キーワード及びその位置を抽出するために、検索用文書データ0504に含まれるインデックス情報0513が参照される。
次に、メタ情報利用文書活用装置0100は、文書検索処理0512によって抽出された文書情報0518について、文書メタ解析0515(図3の2回目の文書解析部0305に相当)を実行する。具体的には、メタ情報利用文書活用装置0100は、文書情報0518と、検索用文書データ0504に含まれる文書構造情報0514と、を参照して、入力されたキーワードを含む文書群に対して、文書メタ解析0515を行い、入力キーワードを更に絞り込むために有用と考えられるキーワードを抽出する。
そして、メタ情報利用文書活用装置0100は、文書メタ解析0515の結果0516を出力する(図3の可視化部0307に相当)。この結果は検索結果の文書が検索キーワードを含むことに関する配置情報などを含み、さらに、絞り込みのために使った付加キーワードの関連情報等を含んでもよい。
なお、検索用文書データ0504を予め保持していれば、メタ情報利用文書活用装置0100は、学習フェーズ0500を実行せずに、利用フェーズ0510のみを実行することができる。例えば、ユーザは、メタ情報利用文書活用装置0100のメーカが作成した検索用文書データ0504を取得してもよいし、他のユーザが学習フェーズ0500を実行することによって作成した検索用文書データ0504を取得してもよい。
図6は、本発明の実施形態のメタ情報利用文書活用装置0100によって活用される企業内文書の例を示す説明図である。各文書例と、それに対する本発明によるメタ情報利用文書活用装置0100の使い方のイメージを以下に述べる。
文書(a)からは、タイトル0601、作成者0602、作成日0603のメタ情報が抽出されているとする。同様に文書(b)についてもタイトル0604、作成者0605、作成日0606、文書(c)についてもタイトル0607、作成者0608、作成日0609が抽出されている。この抽出を行うのは、図3における第1の文書解析部0303である。
ここで、ユーザが操作端末0308を使って「AA機」に関する情報を調べた(すなわち「AA機」をキーとする検索の実行を指示した)とする。メタ情報利用文書活用装置0100は、キーワード検索部0304において「AA機」のキーワードを含む文書群を探し出して、可視化部0307を通して操作端末0308に結果を表示する。この場合、検索された文書としては図6に示す文書(a)から(c)が該当する。
同様に「AA機」のキーワードを含む文書が非常に大量に見つかった場合、ユーザがすべての検索結果を閲覧する事は困難である。そこでメタ情報利用文書活用装置0100は、文書メタ情報を使って絞込み情報を得る。このケースでは第2回目の文書解析部0305の処理は不要であるが、その解析を行ってもよい。次に関係メタ情報を抽出すると(図4のステップ0406)、「AA機」というキーワードが、文書のタイトルメタ情報に含まれていることが多いことが分かる。更に文書メタ情報として、作成者及び作成日があることが分かる。このような情報は業務オントロジ0310から得られる。このとき絞込みに使える情報として、作成者={BB製作所、CC社、DD電機}または作成日={2011年4月1日、2011年6月1日、2011年9月1日}が使えることになる。そこで、これらの文書の絞込みに使える付加情報を、可視化部0307を通して操作端末0308に提示することで、ユーザが自らの所望するデータを探すことを支援する事が出来る。
図6の文書(d)は、「AA工事」に対する報告である。この文書からはタイトル0610が解析済みとする。同様に文書(e)からはフッタから推定されたタイトル0617、文書(f)からはタイトル0618が抽出済とする。
これに対してユーザが「BB氏」という氏名をキーワードとして文書を検索したとする。「BB氏」を含む文書としては、この例で言えば、文書(d)〜(f)が該当する。このような文書が多数存在した場合、ユーザが目的とする文書を探し出すことは困難である。そこでメタ情報利用文書活用装置0100は、可視化部0307を通して操作端末0308に、文書をより絞り込むための情報を提示する。すなわち、メタ情報利用文書活用装置0100は、キーワード検索部0304において「BB氏」のキーワードを含む文書群を探し出す。さらに文書解析部0305の処理を行うと、「BB氏」0612、0616、0620というキーワードについて、表構造中にデータが書かれており、それらが他のキーワードと隣り合っていることが分かる。
次にメタ情報利用文書活用装置0100は、関係メタ情報抽出部0306の処理を実行する。一般に表は、右又は左に、当該表の上位項目が書かれている事がある。また、縦又は横に並ぶ項目が同意概念であるという知識がある。「BB氏」が固有名詞であり、その隣に見つかったキーワードが「点検」0611、「チェック」0615及び「審査責任者」0619などの一般名詞であることを考えると、これらは項目の上位概念に属する可能性が高いと推論できる。更に業務オントロジ0310を使うと「点検」と「チェック」、あるいは「審査」と「審査責任者」が業務上同じ意味で用いられている事が分かる。そこで、「BB氏」に対する絞込み情報として、上位項目={点検、審査}という2つの項目があると推奨できることになる。
また、「BB氏」のキーワードを含む文書のタイトル0610、0617及び0618もまた絞込みに使える情報なので、タイトル={XX工事、YY工事報告、ZZ修理}という情報もまた、これらの文書の絞込みに使える付加情報として、可視化部0307を通して操作端末0308に提示することで、ユーザが自らの所望するデータを探すことを支援する。
更には、業務オントロジ0310に基づいて、「点検」と「審査」という項目が強い相関性がある、業務上有益な結びつきであることを指定することもできる。これによって、図6の例では、文書(d)において「審査」0613及び「CC氏」0614が隣接し、文書(f)において「点検責任者」及び「CC氏」が隣接していることから、同位項目={(審査、CC氏)、(点検、CC氏)}という情報の抽出も可能となる。
図6の文書(g)と文書(h)は部品のスペックについて記した資料である。例えば、スペックの最大、最小値を調べたい場合、「最大」「最小」というキーワードだけでは、例えば「最大」0622及び「最小」0623を含む文書(g)、及び、「最大」0626及び「最小」0627を含む文書(h)のような、多くの文書が検索されてしまう可能性がある。一方で部品名との組合せ、例えば「部品A&最大」というキーワードペアで検索しても、文書(g)及び文書(h)のように、2つのキーワード(「部品A」0621と「最大」0622、又は「部品A」0628と「最大」0626)が離れて配置されている場合、やはり検索順位が落ちることになる。しかし、文書解析0303による文書構造(表構造)のデータを保持しておく事で、両者のキーワードが極めて近い関係にあり、それぞれ上位項目、あるいは下位項目に属することが推定できる。
更には、表構造上で項目の下または右、または二次元データとして交差する箇所に当該データが記されることが多いというヒューリスティックな知識を利用すれば、「部品Aの最大」に対するスペック値として文書(g)からは「BB[kg重]」0624が、文書(h)からは「BB[Pa]」0629が抽出できることになる。従って、「部品A&最大」という検索条件に対しては、推奨情報として、文書タイトルだけでなく、項目に対応するデータ={BB[kg重]、BB[Pa]}を表示することが可能となる。
図7は、本発明の実施形態のメタ情報利用文書活用装置0100における推奨情報のインタフェースの一例の説明図である。
図7に示す文書(a)〜文書(c)は、それぞれ、図6に示した文書(a)〜文書(c)に相当する。
画面0701は従来の検索結果を表示する画面の一例である。この例では、キーワード入力部0711に検索キーワード「AA機」が入力され、検索ボタン0712が操作され、それに応じて検索が実行された結果として、文書(a)〜(c)を含む複数の文書が得られている。検索結果表示部0713には、検索結果として、得られた文書の名称、所在及びその文書の内容(例えば文書に含まれるテキストの先頭の一部分等)が表示される。
画面0702は、本実施形態の検索結果を表示する画面の一例である。画面0702のキーワード入力部0721、検索ボタン0722及び検索結果表示部0724は、それぞれ、画面0701のキーワード入力部0711、検索ボタン0712及び検索結果表示部0713と同様である。
画面0702は、さらに、絞込み情報候補表示部0723を含む。ここには、文書を絞り込むためのキーワードが、幾つかの観点ごとにまとめて表示される。各観点は、例えば、入力されたキーワードと絞り込むためのキーワードとの関連の種類、又は、絞り込むためのキーワード自体の属性等に対応する。
図7の画面0702の例では、観点1に対応する絞込み検索用のキーワードとして、「設計書」、「仕様書」及び「手引」等が表示される。これらは、入力されたキーワード「AA機」を含む文書(a)〜(c)等において、その入力されたキーワードと同じブロックに含まれているキーワードである。なお、ブロックについては図8を参照して後述する。
同様に、図7の画面0702の例では、観点2に対応する絞込み検索用のキーワードとして、「BB製作所」、「CC社」及び「DD」等が表示される。これらは、「AA機」を含む文書(a)〜(c)等から抽出された、作成者の名称と推定される文字列である。
さらに、図7の画面0702の例では、観点3に対応する絞込み検索用のキーワードとして、「4月」、「6月」及び「9月」等が表示される。これらは、「AA機」を含む文書(a)〜(c)等から抽出された、作成の時期と推定される情報である。
なお、文書に含まれる作成者名及び作成年月日等は、これまでに説明した文書解析部及びメタ情報抽出部の処理に基づいて推定することができる。
さらに、例えば、文書中から見つかった図を絞込み情報候補表示部0723に表示することで絞り込みを行うことも可能である。
上記のように、検索によって取得された文書に含まれる、入力されたキーワードに関連すると推定されるキーワードを、関連の種類又はキーワード自体の属性ごとに分類して提示し、それらから絞込み検索用のキーワードをユーザに選択させることによって、過去に行われた検索の実績が乏しい場合であっても、ユーザによる文書の検索を支援することができる。
画面0703は、本実施形態の検索結果を表示する画面のもう一つの例である。画面0703のキーワード入力部0731及び検索ボタン0732は、それぞれ、画面0701のキーワード入力部0711及び検索ボタン0712と同様である。
画面0703は、さらに、検索結果表示部0733及び項目候補表示部0734を含む。検索結果表示部0733には、検索結果が表形式に整理して表示される。画面0702の場合と同様、文書メタ情報に基づいて、文書からタイトル、作成日等を抽出することができるため、それらを表形式で表示することができる。さらに、ユーザは、項目候補表示部0734を使用して、表示される項目を選択することができる。画面0703における項目は画面0702における観点に対応する。
画面0703の例では、列0733A及び列0733Bに表示される項目として、それぞれ「タイトル」及び「作成日」が選択されており、列0733Cに表示される項目はまだ選択されていない。この場合、検索結果表示部0733の各行には、検索によって取得された文書ごとに、その文書に含まれる上記の選択された項目に対応する情報が表示される。例えば、行0733Dは文書(a)に対応し、タイトル及び作成日として、それぞれ、文書(a)から抽出された「設計書」及び「4月」が表示されている。同様に、行0733E及び行0703Fはそれぞれ文書(b)及び文書(c)に対応する。
項目候補表示部0734には、列0733Cに表示される項目の候補として「作成者」、「上位概念」、「同位概念」、「下位概念」及び「近傍文字列」等が表示されており、例えばユーザが「作成者」を選択すると、文書(a)〜(c)等から抽出された作成者と推定される情報等が検索結果表示部0733に表示される。例えば、行0733Dの列0733Cには、文書(a)から抽出された「BB製作所」が表示される。
上記のように、検索によって取得された文書に含まれる、入力されたキーワードに関連すると推定されるキーワードを、文書ごとに分類し、さらにユーザが所望する項目ごとに表示することによって、ユーザが検索結果から所望の文書を発見することを支援することができる。さらに、表示されたキーワードのいずれかがユーザに選択された場合、そのキーワードを用いた絞込み検索を実行することによって、過去に行われた検索の実績が乏しい場合であっても、ユーザによる文書の検索を支援することもできる。
図8は、本発明の実施形態のメタ情報利用文書活用装置0100のブロック・行順序変換処理部0403において計算が行われる文書ブロックの説明図である。
図8(a)に示す文書0820は、タイトル0851、著者名0852及び本文0853からなる。この文書0820が電子文書ファイル0411として入力された場合、メタ情報利用文書活用装置0100は、ブロックB1_0801、ブロックB2_0802及びブロックB3_0803を抽出する。ブロックB1_0801はタイトル0851が表示された領域に、ブロックB2_0802は著者名0852が表示された領域に、ブロックB3_0803は本文0853が表示された領域に相当する。
図8(b)に示す文書0830は、本文0855及び本文0856を含む。この例において本文は段組みされており、本文0855及び本文0856が各段に相当し、本文0856は本文0855の次に読まれるべきものである。この文書0830が電子文書ファイル0411として入力された場合、メタ情報利用文書活用装置0100は、本文0855が表示された領域に相当するブロックB5_0805、及び、本文0856が表示された領域に相当するブロックB6_0806を抽出する(ステップ0402)。さらに、メタ情報利用文書活用装置0100は、本文の読み順と同様、ブロックB6_0806がブロックB5_0805の後に続くようにこれらのブロックを並べ替える(ステップ0403)。
図8(c)に示す文書0840は、本文0857、本文0858、脚注0859、ヘッダ0860及びフッタ0861を含む。この例において本文は段組みされており、本文0857及び本文0858が各段に相当し、本文0858は本文0857の次に読まれるべきものである。
この文書0840が電子文書ファイル0411として入力された場合、メタ情報利用文書活用装置0100は、ブロックB7_0807、ブロックB8_0808、ブロックB9_0809、ブロックB10_0810及びブロックB11_0811を抽出する(ステップ0402)。ブロックB7_0807及びブロックB8_0808はそれぞれ本文0857及び本文0858が表示された領域に、ブロックB9_0809は脚注0859が表示された領域に、ブロックB10_0810及びブロックB11_0811はそれぞれヘッダ0860及びフッタ0861が表示された領域に相当する。
さらに、メタ情報利用文書活用装置0100は、本文の読み順と同様、ブロックB8_0808がブロックB7_0807の後に続くようにこれらのブロックを並べ替える(ステップ0403)。
文書から抽出された文書メタ情報、関係メタ情報及び文書構造情報などはRDF(Resource Description Flamework)形式で蓄えることができる。RDFとは、データを蓄積するための一形式である。今日では、データをある標準化した形式で表現するためにXMLを用いることが当たり前に行われている。RDFもまた、データ形式標準化の一形態として使われる。RDFは極めて単純な形式として、3つの要素、つまり主語(subject)、述語(predicate)、および目的語(object)から成る構造を持つ。このため、データの表現が非常に単純な形式で可能となる。
例えば、「AA製作所はBB特許を申請した」という文をRDF文に変換すると、{主語=AA製作所、述語=〜を申請した、目的語=BB特許}となる。更に、述語や主語、目的語のそれぞれについて、曖昧性がある場合は、それぞれに尤度を付けた拡張RDFを扱う事がある。この例で言えば{主語=(AA製作所、尤度1)、述語=(〜を申請した、尤度2)、目的語=(BB特許、尤度3)}と表す事ができる。
ちなみに、このような自然言語文の変換をどの様な手順で行うかについては、ここでは問題では無い。データの表現形式を伝えるために、この例を用いている。RDFではこれを文(statement)と呼び、このような主張(assertion)は、正式な論理学の分野でも、文法の分野でも、こうして分解できることになる。一群のRDFによって表現されたデータは、いくつかの文から成る有向グラフを定義する。RDF上でのデータ探索、抽出などの操作は、重み付き有向グラフ上での操作で行う。
RDF上でのデータ探索、抽出などの操作は、重み付き有向グラフ上での操作であるが、ここに学習による精度向上の機構を導入することができる。図3の学習部0309に示す処理がそれである。学習においては、自動微分とネットワーク演算との組合せによる手法を適用できる。
学習において、自動微分機構と回帰分析とを併用するための仕組みについて詳しく述べる。自動微分(Automatic Differentiation)では「数」と「演算」を独自に定義する。このとき「数」の構造は次のベクトルで表される。
Figure 2013206111
ここで、vは関数の値を保持する場所である。また、dk(k=1〜n)は関数を第k番目の変数で偏微分した時の値を保持する場所である。自動微分では上記構造を持つもの数をAD数として、これに基づいて各種の演算を行う。自動微分で用いる演算関数の定義を図9に示す。
この機構を導入するのは、学習におけるパラメータ調整を柔軟に構成するためである。RDF推論は有向グラフ上の演算とみなすことができるが、学習による業務適応を考えた場合、特定の推論方向を優先することを意味する。このことは重み付き有向グラフのパスが通りやすいようにすることである。そこで、パスの重みを勾配法によるパラメータ調整を行うことを考える。勾配法では目標関数の偏微分係数が必要になる。メタ情報利用文書活用装置では、推奨した付加情報の何を使ったかが学習における教師信号として用いる事ができる。良くつかわれる付加情報がなるべく上位に上がるよう、業務オントロジの重みや、RDF推論時の重み付けを見直すが、これは固定の関数を扱う訳ではない。RDF推論によって柔軟に変更される重み付き有向グラフ上のパス計算に対して、関係するパラメータだけを調整する必要が生じる。
目標関数を求めるプログラム(関数)は、if文、for文、数学関数・数学演算から成立し、更にRDF推論によって関係するノードとエッジの重みが加わる。これらの内、数学関数・数学演算部分を、自動微分の数構造を利用して記述する。自動微分を用いると定義した関数から値と微分値を同時に求める事ができるため、計算式の変更に対しても容易に微分値の導出が行える。かつ、回帰分析と組み合わせることで、売上げに有効と思われるルールに絞って、パラメータ調整を行うことができる。
一般に、勾配法による学習を実装する場合は、固定の関数の定義式(例えばニューロの中間層の計算式や、多項式識別関数のパラメータ重畳など)から、手計算により偏微分方程式を導き、これを元に学習するプログラムを実装する。しかし、ルールの追加、削除は動的に行われ得る。さらに、目標関数についても業務内容や検索条件によって変わり得る。目標関数の計算式が動的に変更され得て、それに合わせて勾配法によるパラメータ学習を行う必要がある場合は、偏微分方程式も動的に変更しなければならないが、それに対する柔軟な適応能力を自動微分機構の導入により確保することができる。
学習機能を用いる場面として以下の例が挙げられる。まず、図6や図7に示す文書から文書メタ情報を抽出した結果が、RDF文として蓄積されているとする。例えば図6(f)からは、「審査責任者」の「下位概念」として「BB氏」がいるという解釈ができるため、これが主語・述語・目的語で構成される1個のRDF文を構成する。一方、自動的に抽出された文書メタ情報が常に100%正しい訳ではない。この例で言えば、「点検責任者」の「下位概念」の1つとして「BB氏」があり得ることもあるため、これもまた1個のRDF文を構成し得る。このとき2つのRDF文は、文書レイアウトの違いなどから、異なる尤もらしさ(尤度)を持つことになる。この尤度は、他の文書や活用装置の入出力から抽出した情報(「BB氏」とより共起する単語は「審査責任者」か「点検責任者」かといった情報や、検索結果に対してユーザが選択した反応といった情報)を元に、見直しすることができる。あるRDF文の主語・目的語のペアが、別のRDF文の主語・目的語のペアに合致して、かつ2つのRDF文の各述語が同じような意味を持つ場合には尤度を上げる、といった処理は、RDF文を入力としてif文やfor文で処理を行うプログラムとして書けるため、上述の自動微分機構を用いたパラメータ調整が可能となる。これによって検索の際の関連情報として提示するべき関連用語、例えば「点検責任者」という検索キーワードが提示された場合、「AA氏」のほうが「BB氏」より高いため、こちらを優先して関連情報として提示するといった処理が可能となる。また、レイアウト上での共起関係の強さと、多くの文書から集めた共起関係の強さとを、どのように優先するかなど、RDF文を処理するためのルール自身にも尤度を設けて、全体としてどのルールを優先するかといった点を学習することも、検索結果に対してユーザが選択した結果の検索順位などを目的関数として、上記自動微分機構を適用することで、容易に実現可能となる。
0100 メタ情報利用文書活用装置
0101、0201 操作端末装置
0102、0202 表示端末装置
0103、0203 外部記憶装置
0104、0204 メモリ
0105、0205 中央演算装置
0106、0206 通信線
0107、0207 通信装置
0200 OCR一体型メタ情報利用文書活用装置
0208 画像撮像装置
0209 ソータ装置

Claims (14)

  1. 文書活用装置が実行する文書活用支援方法であって、
    前記文書活用装置は、演算装置と、前記演算装置に接続され、複数の文書に関する文書データを保持する記憶装置と、前記演算装置に接続される入力装置と、前記演算装置に接続される表示装置と、を有し、
    前記文書活用支援方法は、
    前記複数の文書の各々に含まれる文字列間の関連を推定し、推定された文字列間の関連を示す情報を前記記憶装置に格納する第1手順と、
    前記入力装置を介して検索キーワードとして入力された文字列を含む文書を、前記複数の文書から検索する第2手順と、
    前記検索の結果として得られた複数の文書に含まれる、前記検索キーワードとして入力された文字列と関連すると推定された一つ以上の文字列を、前記表示装置を介して表示する第3手順と、を含むことを特徴とする文書活用支援方法。
  2. 前記記憶装置は、さらに、前記文書データから抽出すべきメタ情報の種類を定義する辞書情報を保持し、
    前記第1手順は、前記辞書情報に基づいて前記複数の文書に関する文書データからメタ情報を抽出し、前記抽出されたメタ情報に基づいて前記複数の文書の各々に含まれる文字列間の関連の種類を推定する手順を含み、
    前記第3手順は、前記検索の結果として得られた複数の文書に含まれる、前記検索キーワードとして入力された文字列と関連すると推定された複数の文字列を、前記関連の種類と対応付けて表示する手順を含むことを特徴とする請求項1に記載の文書活用支援方法。
  3. 前記第3手順は、前記検索の結果として得られた複数の文書に含まれる、前記検索キーワードとして入力された文字列と関連すると推定された複数の文字列を、前記関連の種類、及び、前記複数の文字列の各々が抽出された文書と対応付けて表示する手順を含むことを特徴とする請求項2に記載の文書活用支援方法。
  4. 前記文書活用支援方法は、さらに、前記検索キーワードとして入力された文字列を含む前記文字列間の関連が前記第1手順によって推定されていない場合、前記辞書情報に基づいて、前記検索の結果として得られた複数の文書に関する文書データからメタ情報を抽出し、前記抽出されたメタ情報に基づいて、前記入力された文字列と、前記検索の結果として得られた複数の文書の各々に含まれる文字列との関連の種類及び関連の強さを推定する第4手順を含むことを特徴とする請求項2に記載の文書活用支援方法。
  5. 前記第1手順は、前記各文書に含まれる罫線、矩形、空白、文字列、文字列が配置された文書上の位置、フォント及び装飾の少なくとも一つに関する前記各文書のレイアウト、並びに、前記辞書情報に含まれるメタ情報の種類に基づいて、前記各文書のタイトル、作成者、作成日、ヘッダ、フッタ、章節番号、図表名、図表、文書ブロック及び固有名詞の少なくとも一つを前記メタ情報として抽出する手順を含み、
    前記第4手順は、前記検索の結果として得られた各文書に含まれる罫線、矩形、空白、文字列、文字列が配置された文書上の位置、フォント及び装飾の少なくとも一つに関する前記各文書のレイアウト、並びに、前記辞書情報に含まれるメタ情報の種類に基づいて、前記入力された文字列に関連すると推定される前記各文書のタイトル、作成者、作成日、ヘッダ、フッタ、章節番号、図表名、図表、文書ブロック及び固有名詞の少なくとも一つを前記メタ情報として抽出する手順を含むことを特徴とする請求項4に記載の文書活用支援方法。
  6. 前記第1手順は、前記メタ情報に基づいて前記複数の文書の各々に含まれる文字列間の関連の強さを推定する手順を含み、
    前記第3手順は、前記推定された関連の強さに基づいて、前記検索キーワードとして入力された文字列と関連する文字列を推定する手順を含み、
    前記前記表示装置を介して表示された前記一つ以上の文字列のいずれかを選択する情報が前記入力装置を介して入力された場合、前記検索キーワードとして入力された文字列と前記選択された文字列との組を新たな検索キーワードとする検索を実行するために前記第2手順が再度実行され、
    前記文書活用支援方法は、さらに、前記検索キーワードとして入力された文字列と前記選択された文字列との関連の強さが増すように、前記推定された文字列間の関連を示す情報を更新する第5手順を含むことを特徴とする請求項1に記載の文書活用支援方法。
  7. 前記第5手順は、検索条件に応じて構成される自動微分の目的関数から導かれる導関数によって前記関連の強さを更新する手順を含むことを特徴とする請求項6に記載の文書活用支援方法。
  8. 演算装置と、前記演算装置に接続され、複数の文書に関する文書データを保持する記憶装置と、前記演算装置に接続される入力装置と、前記演算装置に接続される表示装置と、を有する文書活用装置であって、
    前記演算装置は、
    前記複数の文書の各々に含まれる文字列間の関連を推定し、
    推定された文字列間の関連を示す情報を前記記憶装置に格納し、
    前記入力装置を介して検索キーワードとして入力された文字列を含む文書を前記複数の文書から検索し、
    前記検索の結果として得られた複数の文書に含まれる、前記検索キーワードとして入力された文字列と関連すると推定された一つ以上の文字列を、前記表示装置を介して表示することを特徴とする文書活用装置。
  9. 前記記憶装置は、さらに、前記文書データから抽出すべきメタ情報の種類を定義する辞書情報を保持し、
    前記演算装置は、
    前記辞書情報に基づいて前記複数の文書に関する文書データからメタ情報を抽出し、前記抽出されたメタ情報に基づいて前記複数の文書の各々に含まれる文字列間の関連の種類を推定し、
    前記検索の結果として得られた複数の文書に含まれる、前記検索キーワードとして入力された文字列と関連すると推定された複数の文字列を、前記関連の種類と対応付けて表示することを特徴とする請求項8に記載の文書活用装置。
  10. 前記演算装置は、前記検索の結果として得られた複数の文書に含まれる、前記検索キーワードとして入力された文字列と関連すると推定された複数の文字列を、前記関連の種類、及び、前記複数の文字列の各々が抽出された文書と対応付けて表示することを特徴とする請求項9に記載の文書活用装置。
  11. 前記演算装置は、前記検索キーワードとして入力された文字列を含む前記文字列間の関連がまだ推定されていない場合、前記辞書情報に基づいて、前記検索の結果として得られた複数の文書に関する文書データからメタ情報を抽出し、前記抽出されたメタ情報に基づいて、前記入力された文字列と、前記検索の結果として得られた複数の文書の各々に含まれる文字列との関連の種類及び関連の強さを推定することを特徴とする請求項9に記載の文書活用装置。
  12. 前記演算装置は、
    前記各文書に含まれる罫線、矩形、空白、文字列、文字列が配置された文書上の位置、フォント及び装飾の少なくとも一つに関する前記各文書のレイアウト、並びに、前記辞書情報に含まれるメタ情報の種類に基づいて、前記各文書のタイトル、作成者、作成日、ヘッダ、フッタ、章節番号、図表名、図表、文書ブロック及び固有名詞の少なくとも一つを前記メタ情報として抽出し、
    前記検索キーワードとして入力された文字列を含む前記文字列間の関連がまだ推定されていない場合には、前記検索の結果として得られた各文書に含まれる罫線、矩形、空白、文字列、文字列が配置された文書上の位置、フォント及び装飾の少なくとも一つに関する前記各文書のレイアウト、並びに、前記辞書情報に含まれるメタ情報の種類に基づいて、前記入力された文字列に関連すると推定される前記各文書のタイトル、作成者、作成日、ヘッダ、フッタ、章節番号、図表名、図表、文書ブロック及び固有名詞の少なくとも一つを前記メタ情報として抽出することを特徴とする請求項11に記載の文書活用装置。
  13. 前記演算装置は、
    前記メタ情報に基づいて前記複数の文書の各々に含まれる文字列間の関連の強さを推定し、
    前記推定された関連の強さに基づいて、前記検索キーワードとして入力された文字列と関連する文字列を推定し、
    前記前記表示装置を介して表示された前記一つ以上の文字列のいずれかを選択する情報が前記入力装置を介して入力された場合、前記検索キーワードとして入力された文字列と前記選択された文字列との組を新たな検索キーワードとして前記複数の文書の検索を実行し、
    前記検索キーワードとして入力された文字列と前記選択された文字列との関連の強さが増すように、前記推定された文字列間の関連を示す情報を更新することを特徴とする請求項8に記載の文書活用装置。
  14. 前記演算装置は、検索条件に応じて構成される自動微分の目的関数から導かれる導関数によって前記関連の強さを更新することを特徴とする請求項13に記載の文書活用装置。
JP2012074199A 2012-03-28 2012-03-28 文書活用支援方法及び文書活用装置 Withdrawn JP2013206111A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012074199A JP2013206111A (ja) 2012-03-28 2012-03-28 文書活用支援方法及び文書活用装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012074199A JP2013206111A (ja) 2012-03-28 2012-03-28 文書活用支援方法及び文書活用装置

Publications (1)

Publication Number Publication Date
JP2013206111A true JP2013206111A (ja) 2013-10-07

Family

ID=49525131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012074199A Withdrawn JP2013206111A (ja) 2012-03-28 2012-03-28 文書活用支援方法及び文書活用装置

Country Status (1)

Country Link
JP (1) JP2013206111A (ja)

Similar Documents

Publication Publication Date Title
US9384245B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
US7895595B2 (en) Automatic method and system for formulating and transforming representations of context used by information services
US10108720B2 (en) Automatically providing relevant search results based on user behavior
US10698956B2 (en) Active knowledge guidance based on deep document analysis
US10664530B2 (en) Control of automated tasks executed over search engine results
RU2696305C2 (ru) Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста
Nasr et al. Automated extraction of product comparison matrices from informal product descriptions
JP2010003015A (ja) 文書検索システム
US20120179709A1 (en) Apparatus, method and program product for searching document
US11669556B1 (en) Method and system for document retrieval and exploration augmented by knowledge graphs
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP2021064143A (ja) 文作成装置、文作成方法および文作成プログラム
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
De Virgilio et al. A reverse engineering approach for automatic annotation of Web pages
CN109213830B (zh) 专业性技术文档的文档检索系统
WO2019239543A1 (ja) 質問応答装置、質問応答方法および記録媒体
KR101078966B1 (ko) 문서 분석 시스템
JP2020113048A (ja) 情報処理装置及びプログラム
JP2013206111A (ja) 文書活用支援方法及び文書活用装置
JP2018005759A (ja) 引用マップ生成装置、引用マップ生成方法およびコンピュータプログラム
JP5971571B2 (ja) 構造文書管理システム、構造文書管理方法及びプログラム
Zhang Smart Image Search System Using Personalized Semantic Search Method
WO2019239544A1 (ja) 表示形式決定装置、表示形式決定方法および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140516

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20141023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141028