JP2002108893A - 文書情報管理装置 - Google Patents

文書情報管理装置

Info

Publication number
JP2002108893A
JP2002108893A JP2000296963A JP2000296963A JP2002108893A JP 2002108893 A JP2002108893 A JP 2002108893A JP 2000296963 A JP2000296963 A JP 2000296963A JP 2000296963 A JP2000296963 A JP 2000296963A JP 2002108893 A JP2002108893 A JP 2002108893A
Authority
JP
Japan
Prior art keywords
document
information
document element
classification
fact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000296963A
Other languages
English (en)
Inventor
Masako Nomoto
昌子 野本
Mitsuhiro Sato
光弘 佐藤
Takao Fukushige
貴雄 福重
Naohiko Noguchi
直彦 野口
Hiroyuki Suzuki
浩之 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000296963A priority Critical patent/JP2002108893A/ja
Publication of JP2002108893A publication Critical patent/JP2002108893A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書中の文書要素に適切な分類を与え、文書
要素分類を用いて文書中の主要な情報の記述箇所の特定
を効率化したり、精度の高い情報の抽出や検索を行った
り、未分類の文書に対しても適切な分類を行えるように
する。 【解決手段】 文書集合中における事実を表す名詞的又
は動詞的な表現とそれらの分類を規定した事実表現デー
タベース3を参照し、事実表現抽出手段13により各文
書の文書要素毎に事実表現データベース3に規定された
表現の出現情報を文書要素内事実表現情報6として抽出
する。文書要素の出現位置に関する情報を記述した文書
要素情報5と文書要素内事実表現情報6とを用いて、文
書要素類似度比較手段14により各文書の文書要素間の
類似度を比較し、文書要素分類決定手段15で文書要素
を分類した上で、情報抽出手段16により文書要素分類
及び事実表現情報を用いて精度の高い情報抽出を行う。
また、同様に情報検索や文書分類を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は電子化された文書中
の文、段落などの文書要素を分類し、この文書要素の分
類を用いて、文書情報を管理する文書情報管理装置に関
する。
【0002】
【従来の技術】文書情報の検索システムにおいて、文書
中の文、段落などの文書要素を複数のタイプに分類し、
この分類を用いて文書中の情報を抽出又は検索する方法
としては、例えば特開平8−255172号に開示され
ているようなものがある。これは、文中に現れる特徴的
な表層文字列、あるいは形態素情報、構文情報などの言
語情報と対応する文のタイプ(例:断定文)との対応を
あらかじめパタン化しておき、パタンに該当する文から
必要な情報を抽出するものである。
【0003】図25に従来の文書情報検索システムのブ
ロック図を示す。原文加工部101は、接続詞辞書10
2及び型判定用辞書103を参照しながら、原文データ
を格納した原文データベース104から、例えば意見、
提言等のように文章の内容を識別するための複数種類の
文の型を設定し、各文の型に分類した文単位の抜粋文デ
ータを作成し、抜粋文データベース105として格納す
る。そして、検索部107は、原文データベース104
及び単語インデックス106を参照し、利用者の検索要
求に該当する文書のリストや内容を検索結果としてイン
タフェース部108に渡す。また、抜粋部109は、原
文データベース104及び抜粋文データベース105を
参照し、文書の全文の中から利用者が選択した型の文の
みを抜粋して、文中の接続詞を除去してインタフェース
部108に組み込まれている抜粋インタフェース108
aに渡す。抜粋インタフェース108aは、検索結果と
して提示される個々の文書の中から、利用者の指定した
文の型に対応する文のみを抜粋して表示画面上に表示す
る。
【0004】
【発明が解決しようとする課題】例えば断定文のよう
に、一般的な文のタイプについては、上記のようにあら
かじめパタン化しておくことは可能であるが、新聞記事
から主要な事実に関する情報を抽出しようとする場合の
ように、文書中の主要な内容の記述箇所を特定できるよ
うな文タイプを記述しようとすると、そのパタンは複雑
なものとなり、あらかじめ記述しておくことは困難にな
る。
【0005】例えば、新製品発売の記事から新製品の価
格を表す文を抽出しようとする場合、金額を表す表現は
同一記事中に複数出現することも多いため、単なる金額
表現ではなく、新製品の価格を特徴づける周辺の表現も
含めて、複雑なパタンを記述する必要が生じる。
【0006】本発明は、上記事情に鑑みてなされたもの
で、文書中の文書要素に適切な分類を与え、この文書要
素分類を用いることにより、文書中の主要な情報の記述
箇所の特定を効率化することができ、精度の高い情報の
抽出や検索を行ったり、未分類の文書に対しても適切な
分類を行うことが可能な文書情報管理装置を提供するこ
とを目的とする。
【0007】
【課題を解決するための手段】本発明は、第1に、文書
集合中の各文書の文書要素を検出する文書要素検出手段
と、文書集合中における事実を表す名詞的又は動詞的な
表現である事実表現の分類を規定した事実表現データベ
ースと、前記事実表現データベースを参照して、前記検
出された文書要素ごとに前記事実表現の出現情報を含む
文書要素内事実表現情報を抽出する事実表現抽出手段
と、前記検出された文書要素の出現位置に関する情報を
含む文書要素情報と、前記文書要素内事実表現情報とを
用いて、各文書の文書要素間の類似度を比較する文書要
素類似度比較手段と、前記比較結果に基づき、文書要素
を分類して、各文書要素と文書要素分類との対応を示す
文書要素分類情報を得る文書要素分類決定手段と、前記
文書要素分類に基づいて文書要素から情報を抽出する情
報抽出手段と、を備えたことを特徴とする。また、第2
に、前記情報抽出手段は、前記文書要素分類に基づき、
特定の文書要素分類に属する文書要素から情報を抽出す
ることを特徴とする。或いは、第3に、前記情報抽出手
段は、前記文書要素分類に基づき、特定の文書要素分類
に属し、かつ特定の事実表現情報を持つ文書要素から情
報を抽出することを特徴とする。上記構成により、文書
要素を適切に分類した上で、特定の文書要素分類に属す
る文書要素から、必要に応じて抽出条件を調整しなが
ら、精度の高い情報を抽出することができる、という効
果が得られる。
【0008】第4に、文書集合中の各文書の文書要素を
検出する文書要素検出手段と、文書集合中における事実
を表す名詞的又は動詞的な表現である事実表現の分類を
規定した事実表現データベースと、前記事実表現データ
ベースを参照して、前記検出された文書要素ごとに前記
事実表現の出現情報を含む文書要素内事実表現情報を抽
出するとともに、抽出したい情報に関して任意の文字列
で与えられる利用者要求における前記事実表現の出現情
報を含む利用者要求内事実表現情報を抽出する事実表現
抽出手段と、前記検出された文書要素の出現位置に関す
る情報を含む文書要素情報と、前記文書要素内事実表現
情報及び利用者要求内事実表現情報とを用いて、利用者
要求と各文書要素間の類似度を比較する文書要素類似度
比較手段と、前記比較結果に基づき、文書要素を分類し
て、各文書要素と文書要素分類との対応を示す文書要素
分類情報を得る文書要素分類決定手段と、前記文書要素
分類に基づいて文書要素から情報を抽出する情報抽出手
段と、を備えたことを特徴とする。また、第5に、前記
情報抽出手段は、前記文書要素分類に基づき、利用者要
求との類似度の高い文書要素分類に属する文書要素から
情報を抽出することを特徴とする。上記構成により、文
書要素を適切に分類した上で、利用者要求と類似する文
書要素分類に属する文書要素から情報を抽出すること
で、利用者の求める情報を高精度に抽出することができ
る、という効果が得られる。
【0009】第6に、文書集合中の各文書の文書要素を
検出する文書要素検出手段と、文書集合中における事実
を表す名詞的又は動詞的な表現である事実表現の分類を
規定した事実表現データベースと、前記事実表現データ
ベースを参照して、前記検出された文書要素ごとに前記
事実表現の出現情報を含む文書要素内事実表現情報を抽
出する事実表現抽出手段と、前記検出された文書要素の
出現位置に関する情報を含む文書要素情報と、前記文書
要素内事実表現情報とを用いて、各文書の文書要素間の
類似度を比較する文書要素類似度比較手段と、前記比較
結果に基づき、文書要素を分類して、各文書要素と文書
要素分類との対応を示す文書要素分類情報を得る文書要
素分類決定手段と、前記文書要素分類に基づいて文書要
素から情報を検索する情報検索手段と、を備えたことを
特徴とする。また、第7に、前記情報検索手段は、前記
文書要素分類に基づき、特定の文書要素分類に属する文
書要素に重みをつけて情報を検索することを特徴とす
る。或いは、第8に、前記情報検索手段は、前記文書要
素分類に基づき、特定の文書要素分類に属し、かつ特定
の事実表現情報を持つ文書要素に重みをつけて情報を検
索することを特徴とする。上記構成により、文書要素を
適切に分類した上で、必要に応じて、検索する対象やラ
ンキングで優先する情報を調整することで、精度の高い
情報を検索することができる、という効果が得られる。
【0010】第9に、文書集合中の各文書の文書要素を
検出する文書要素検出手段と、文書集合中における事実
を表す名詞的又は動詞的な表現である事実表現の分類を
規定した事実表現データベースと、前記事実表現データ
ベースを参照して、前記検出された文書要素ごとに前記
事実表現の出現情報を含む文書要素内事実表現情報を抽
出するとともに、抽出したい情報に関して任意の文字列
で与えられる利用者要求における前記事実表現の出現情
報を含む利用者要求内事実表現情報を抽出する事実表現
抽出手段と、前記検出された文書要素の出現位置に関す
る情報を含む文書要素情報と、前記文書要素内事実表現
情報及び利用者要求内事実表現情報とを用いて、利用者
要求と各文書要素間の類似度を比較する文書要素類似度
比較手段と、前記比較結果に基づき、文書要素を分類し
て、各文書要素と文書要素分類との対応を示す文書要素
分類情報を得る文書要素分類決定手段と、前記文書要素
分類に基づいて文書要素から情報を検索する情報検索手
段と、を備えたことを特徴とする。また、第10に、前
記情報検索手段は、前記文書要素分類に基づき、利用者
要求との類似度の高い文書要素分類に属する文書要素に
重みをつけて情報を検索することを特徴とする。上記構
成により、文書要素を適切に分類した上で、利用者要求
と類似する文書要素分類に属する文書要素に重みをつけ
て情報を検索することで、利用者の求める情報を高精度
に検索することができる、という効果が得られる。
【0011】第11に、文書集合中の各文書の文書要素
を検出する文書要素検出手段と、文書集合中における事
実を表す名詞的又は動詞的な表現である事実表現の分類
を規定した事実表現データベースと、前記事実表現デー
タベースを参照して、前記検出された文書要素ごとに前
記事実表現の出現情報を含む文書要素内事実表現情報を
抽出する事実表現抽出手段と、前記検出された文書要素
の出現位置に関する情報を含む文書要素情報と、前記文
書要素内事実表現情報とを用いて、各文書の文書要素間
の類似度を比較する文書要素類似度比較手段と、前記文
書要素の比較結果に基づき、文書要素を分類して、各文
書要素と文書要素分類との対応を示す文書要素分類情報
を得る文書要素分類決定手段と、前記文書要素分類情報
を用いて、文書ごとにまとめて類似度を比較する文書類
似度比較手段と、前記文書の比較結果に基づき、文書を
分類して文書分類情報を得る文書分類決定手段と、を備
えたことを特徴とする。また、第12に、前記文書分類
決定手段は、前記文書類似度比較手段において前記文書
要素分類情報と前記文書要素情報を用いて各文書に含ま
れる文書要素の属する文書要素分類によって文書の類似
度を比較した結果により、文書を分類することを特徴と
する。或いは、第13に、前記文書分類決定手段は、前
記文書類似度比較手段において前記文書要素分類情報と
前記文書要素情報及び文書要素内事実表現情報とを用い
て各文書に含まれる文書要素の属する文書要素分類及び
各文書要素の持つ事実表現情報によって文書の類似度を
比較した結果により、文書を分類することを特徴とす
る。上記構成により、必要に応じて分類の条件を調整
し、適切な文書の分類を行うことができる、という効果
が得られる。
【0012】第14に、文書集合中の各文書の文書要素
を検出する文書要素検出手段と、文書集合中における事
実を表す名詞的又は動詞的な表現である事実表現の分類
を規定した事実表現データベースと、前記事実表現デー
タベースを参照して、前記検出された文書要素ごとに前
記事実表現の出現情報を含む文書要素内事実表現情報を
抽出する事実表現抽出手段と、前記検出された文書要素
の出現位置に関する情報を含む文書要素情報と、前記文
書要素内事実表現情報とを用いて、各文書の文書要素間
の類似度を比較する文書要素類似度比較手段と、前記文
書要素の比較結果に基づき、文書要素を分類して、各文
書要素と文書要素分類との対応を示す文書要素分類情報
を得る文書要素分類決定手段と、前記文書要素分類情報
を用いて、文書ごとにまとめて類似度を比較する文書類
似度比較手段と、前記文書の比較結果に基づき、文書を
分類して文書分類情報を得る文書分類決定手段と、前記
文書分類に基づいて文書要素から情報を抽出する情報抽
出手段と、を備えたことを特徴とする。また、第15
に、前記情報抽出手段は、前記文書分類に基づき、特定
の文書分類を持つ文書に含まれ、かつ特定の文書要素分
類に属する文書要素から情報を抽出することを特徴とす
る。或いは、第16に、前記情報抽出手段は、前記文書
分類に基づき、特定の文書分類を持つ文書に含まれ、か
つ特定の文書要素分類に属し、特定の事実表現情報を持
つ文書要素から情報を抽出することを特徴とする。上記
構成により、文書を適切に分類した上で、特定の文書分
類に属する文書に含まれ、特定の文書要素分類に属する
文書要素から、要求に応じて抽出条件を調整しながら、
さらに精度の高い情報を抽出することができる、という
効果が得られる。
【0013】第17に、文書集合中の各文書の文書要素
を検出する文書要素検出手段と、文書集合中における事
実を表す名詞的又は動詞的な表現である事実表現の分類
を規定した事実表現データベースと、前記事実表現デー
タベースを参照して、前記検出された文書要素ごとに前
記事実表現の出現情報を含む文書要素内事実表現情報を
抽出する事実表現抽出手段と、前記検出された文書要素
の出現位置に関する情報を含む文書要素情報と、前記文
書要素内事実表現情報とを用いて、各文書の文書要素間
の類似度を比較する文書要素類似度比較手段と、前記文
書要素の比較結果に基づき、文書要素を分類して、各文
書要素と文書要素分類との対応を示す文書要素分類情報
を得る文書要素分類決定手段と、前記文書要素分類情報
を用いて、文書ごとにまとめて類似度を比較する文書類
似度比較手段と、前記文書の比較結果に基づき、文書を
分類して文書分類情報を得る文書分類決定手段と、前記
文書分類に基づいて文書要素から情報を検索する情報検
索手段と、を備えたことを特徴とする。また、第18
に、前記情報検索手段は、前記文書分類に基づき、特定
の文書分類を持つ文書に含まれ、かつ特定の文書要素分
類に属する文書要素に重みをつけて情報を検索すること
を特徴とする。或いは、第19に、前記情報検索手段
は、前記文書分類に基づき、特定の文書分類を持つ文書
に含まれ、かつ特定の文書要素分類に属し、特定の事実
表現情報を持つ文書要素に重みをつけて情報を検索する
ことを特徴とする。上記構成により、文書を適切に分類
した上で、特定の文書分類に属する文書に含まれ、特定
の文書要素分類に属する文書要素に重みをつけて、必要
に応じて、検索する対象やランキングで優先する情報を
調整することで、さらに精度の高い情報を検索すること
ができる、という効果が得られる。
【0014】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。 [第1実施形態]図1〜図10を用いて本発明の第1実
施形態を説明する。図1は第1実施形態に係る文書情報
管理装置の構成を示すブロック図である。文書情報管理
装置は、原文の文書を格納する文書データベース1、文
書中に記述される事実を表す表現(例えば人物、組織名
等の表現)の分類を規定した事実表現データベース3、
各種文書管理情報を蓄積する情報蓄積手段9を備えてい
る。この情報蓄積手段9には、各文書から抽出された文
書要素の出現情報を表す文書要素情報5、文書要素情報
5中の各文書要素毎に事実表現データベース3に規定さ
れた表現の出現情報を表す文書要素内事実表現情報6、
文書要素と文書要素分類との対応を表す文書要素分類情
報2がそれぞれ蓄積されるようになっている。
【0015】また、文書から文書要素を検出する文書要
素検出手段12、文書要素ごとの事実表現を抽出する事
実表現抽出手段13、各文書要素間の類似度を比較する
文書要素類似度比較手段14、文書要素に対応する文書
要素分類を決定する文書要素分類決定手段15、利用者
が指定した条件を満たす情報を抽出する情報抽出手段1
6、利用者が指定する文字列の入力及び抽出された情報
の出力や表示等を行う際の入出力を司るインタフェース
手段17、利用者から指定された参照情報に基づいて情
報蓄積手段9に蓄積された各情報を参照し提示する照会
処理手段22を備えている。これらの手段の機能は後で
詳述する。
【0016】上記のような構成の文書情報管理装置にお
いて、文書情報抽出に関する動作を以下に説明する。
【0017】文書要素検出手段12は、文書データベー
ス1に格納された原文中の各文書から文書の一部をなす
文、段落などの文書要素を検出し、各文書要素の出現情
報を文書要素情報5として抽出し、情報蓄積手段9に蓄
積する。ここでは、文書要素としては文を用い、文書要
素情報として文書要素の文字列と識別番号、出現した文
書の識別番号、文書中での位置を用いる場合を例示す
る。図2に文書要素の文字列と識別番号(文書要素番
号)、出現した文書の識別番号(文書番号)、文書中で
の位置を記述した文書要素情報5の抽出例を示す。
【0018】事実表現抽出手段13は、文書中に記述さ
れる事実を表す例えば人物、組織名等の表現に対して、
これらの事実表現の分類を規定した事実表現データベー
ス3を参照し、文書要素情報5中の各文書要素毎に、前
記事実表現データベース3に規定された表現の出現情報
を文書要素内事実表現情報6として抽出し、情報蓄積手
段9に蓄積する。図3に事実表現データベース3の内容
例を示す。なお、図3の例では、事実表現データベース
における事実表現の分類は2階層であるが、例えば、
「名詞的表現」の「会社名」の下に、さらに「電気業界
の会社名」という階層が設けられているなど、分類の階
層はより複雑なものであってもかまわない。また、事実
表現データベースに規定される表現は個々の文字列その
ものである必要はなく、文字列を特定するためのパタン
であってもかまわない。
【0019】また、図4に文書要素内事実表現情報6と
して、事実表現及び対応する事実表現分類を抽出した例
を示す。なお、文書要素内事実表現情報として、さら
に、事実表現の位置情報や、事実表現間の統語的・意味
的関係などの言語情報を抽出してもよい。また、文書中
では省略された主語や日付表現の一部などの補完や、照
応表現の解消を行った上で、事実表現を抽出することが
望ましい。
【0020】文書要素類似度比較手段14は、前記文書
要素情報5及び文書要素内事実表現情報6を用いて、各
文書要素間の類似度を計算する。類似度比較に用いる基
準の例として、ここでは、文書要素情報のうちの文書要
素の文書中での位置と、文書要素内事実表現情報のうち
の動詞的な事実表現の分類とを用いることとする。図5
に類似度比較に用いる情報の例を示す。
【0021】類似度比較の結果、文書要素内の動詞的な
事実表現分類と、本文中での位置の組み合わせは、 (1)動詞グループAの現れる本文第1文の文書要素 文書番号1001の文書要素0001 文書番号1002の文書要素0001 文書番号1003の文書要素0001 文書番号1006の文書要素0001 (2)動詞グループAの現れる本文第2文の文書要素 文書番号1003の文書要素0002 (3)動詞グループBの現れる本文第1文の文書要素 文書番号1001の文書要素0002 (4)動詞グループCの現れる本文第1文の文書要素 文書番号1004の文書要素0001 文書番号1005の文書要素0001 (5)動詞グループCの現れる本文第2文の文書要素 文書番号1005の文書要素0002 (6)いずれの動詞グループも現れない本文第2文の文
書要素 文書番号1002の文書要素0002 文書番号1004の文書要素0002 文書番号1006の文書要素0002 (7)いずれの動詞グループも現れない本文第3文の文
書要素 文書番号1001の文書要素0003 となり、全部で7パタンの文書要素があることがわか
る。
【0022】次に、文書要素分類決定手段15は、文書
要素に対応する文書要素分類を決定し、この文書要素と
文書要素分類との対応を文書要素分類情報2として情報
蓄積手段9に蓄積する。図6に上記の7パタンをそのま
ま文書要素分類として用いた場合の文書要素分類情報2
の例を示す。
【0023】そして、情報抽出手段16は、前記文書要
素分類情報2として蓄積された文書要素分類のうち、特
定の分類に属する文書要素を対象に、文書要素情報5及
び文書要素6を参照して情報を抽出する。ここでは一例
として、図6に示す文書要素分類情報のうち、(1),
(4)に属する文書要素から情報を抽出することとす
る。
【0024】文書要素からの情報の抽出方法はさまざま
な方法が考えられるが、以下に3つの例を示す。
【0025】(I)特定の文書要素分類に属する文書要
素から情報を抽出する場合 ここでは、文書要素分類(1)又は(4)に属する文書
要素に出現する、図5に示した文書要素内事実表現情報
のうち、50%以上の文書要素に出現する事実表現分類
及び該当する事実表現を抽出する場合を例示する。ここ
で、以下の事実表現分類が該当したとする。 ・文書要素分類(1) 名詞的表現:会社名 名詞的表現:日付表現 名詞的表現:製品種別 名詞的表現:商品名 動詞的表現:動詞グループA ・文書要素分類(4) 名詞的表現:会社名 名詞的表現:日付表現 名詞的表現:製品種別 動詞的表現:動詞グループC この場合の情報の抽出結果は、文書要素分類(1)又は
(4)に属する各文書要素に含まれる、上記の事実表現
分類及び該当する事実表現となる。図7にこの場合の情
報の抽出結果を示す。
【0026】(II)特定の文書要素分類に属し、特定の
事実表現情報をもつ文書要素から情報を抽出する場合 上記(I)の例では、特定の文書要素分類に属する文書
要素から情報を抽出したが、文書要素分類だけでなく、
さらに、特定の事実表現情報を持つ文書要素に限定して
情報を抽出してもよい。図8に上記の文書要素分類のグ
ループ(1)から(7)に属する文書要素を、以下のよ
うな条件で限定し、上記と同様に情報を抽出した場合の
抽出結果の例を示す。 文書要素分類…グループ(1) 事実表現分類…名詞的表現:「製品種別」の事実表現
「携帯電話」
【0027】(III)利用者が情報を抽出する文書要素
についての条件を指定する場合 上記(I),(II)の例では、情報を抽出する文書要素
についての条件を、特定の文書要素分類に属する文書要
素、あるいは、特定の文書要素分類に属し特定の事実表
現情報を持つ文書要素としたが、この条件は利用者が指
定するようにしてもよい。文書要素分類決定手段15が
文書要素分類を決定し、文書要素分類情報2として情報
蓄積手段9に蓄積するまでの動作は上記の説明と同様で
ある。
【0028】次に、利用者からの参照情報の指定があれ
ば、照会処理手段22は、情報蓄積手段9に蓄積された
文書要素情報5、文書要素内事実表現情報6、文書要素
分類情報2を参照し、インタフェース手段17を介し
て、利用者から指定された情報を提示する。利用者は、
提示された情報を参照した上で、インタフェース手段1
7を介して情報の抽出に関する条件を指定する。これを
受けて情報抽出手段16は条件を満たす情報を抽出し、
抽出結果をインタフェース手段17を介して利用者に提
示する。
【0029】例えば、利用者が、上記の文書要素分類の
グループ(1)から(7)に属する文書要素から情報を
抽出する条件として、 文書要素分類…グループ(1) 事実表現分類…名詞的表現:「製品種別」の事実表現
「携帯電話」 を指定した場合を例にする。図9にこの場合の情報の抽
出結果の例を示す。
【0030】さらに利用者が、インタフェース手段17
を介して、抽出した情報の中から提示すべき情報及び提
示方法を指定した場合、情報抽出手段16は提示すべき
情報をさらに限定し、インタフェース手段を介して提示
する。図10に、図9の抽出結果に対して、利用者から
以下のように提示すべき情報及び提示方法についての指
定があった場合の提示結果を示す。 ・提示すべき情報 事実表現分類:名詞的表現の「製品種別」及び該当する
事実表現 事実表現分類:名詞的表現の「会社名」及び該当する事
実表現 事実表現分類:名詞的表現の「商品名」及び該当する事
実表現 ・提示方法 事実表現分類「会社名」でまとめる
【0031】なお、上記の例では、まず、利用者が「情
報を抽出する文書要素についての条件」を指定し、いっ
たん抽出結果が提示された後に、「提示すべき情報」と
「提示方法」を改めて指定しているが、これらの指定
は、一度に行ってもよいし、また、繰り返して行っても
構わない。
【0032】以上のように、本実施形態では、事実表現
データベースを参照し、文書中の事実表現やその分類の
出現傾向により、文書要素を適切に分類した上で、特定
の文書要素分類に属し、特定の事実表現情報を持つ文書
要素から、必要に応じて抽出条件を調整しながら、精度
の高い情報を抽出することができる。
【0033】[第2実施形態]図11〜図15を用いて
本発明の第2実施形態を説明する。図11は第2実施形
態に係る文書情報管理装置の構成を示すブロック図であ
る。第2実施形態は、図1に示した第1実施形態の構成
に加えて、情報蓄積手段9に利用者要求内事実表現情報
7を蓄積するようにした例である。インタフェース手段
17を介して利用者要求の文字列を入力し、事実表現抽
出手段13において事実表現に関する情報を利用者要求
内事実表現情報7として抽出し、情報蓄積手段9に蓄積
するようになっている。その他の構成は第1実施形態と
同様であり、説明を省略する。
【0034】上記のような構成の文書情報管理装置にお
いて、文書情報抽出に関する動作を以下に説明する。
【0035】文書要素検出手段12により文書から文書
要素情報5を抽出し、事実表現抽出手段13により文書
要素から文書要素内事実表現情報6を抽出するまでの動
作は前述した第1実施形態と同様である。
【0036】ここで、利用者により、インタフェース手
段17を介して抽出したい情報についての利用者要求と
して、「携帯電話の発売について」という文字列が入力
されたとする。
【0037】事実表現抽出手段13は、同様に、事実表
現データベース3を参照し、利用者要求として入力され
た文字列から、前記事実表現データベース3に規定され
た事実表現に関する出現情報を利用者要求内事実表現情
報7として抽出し、情報蓄積手段9に蓄積する。図12
に利用者要求内事実表現情報7として、事実表現及び対
応する事実表現分類を抽出した例を示す。
【0038】文書要素類似度比較手段14は、前記文書
要素情報5及び文書要素内事実表現情報6と、利用者要
求内事実表現情報7を用いて、利用者要求と各文書要素
間の類似度を比較する。
【0039】利用者要求と類似度の高い文書要素を判定
するための基準として、ここでは、 (1)利用者要求内の事実表現分類及び事実表現に対応
する事実表現分類及び事実表現をもつ文書要素 (2)文書中の位置が本文第1文である文書要素 の2つの基準を用いることとする。図13に類似度比較
に用いる情報の例を示す。なお、ここでは、事実表現の
対応を判定する際には、シソーラスや類義語辞書等を用
いて判定することが望ましい。
【0040】文書要素の判定の際に、利用者要求内に含
まれる、 ・事実表現分類「名詞的表現:製品種別」の事実表現
「携帯電話」 又は ・事実表現分類「動詞表現:動詞グループA」の事実表
現「発売」 が出現する文書要素に、本文第1文ならば5点ずつ、そ
れ以外ならば4点ずつ加算することとすると、図13に
示した各文書要素の得点は、 文書番号1001の文書要素0001の得点:5+5 = 10 文書番号1001の文書要素0002の得点:0+0 = 0 文書番号1001の文書要素0003の得点:0+0 = 0 文書番号1002の文書要素0001の得点:0+5 = 5 文書番号1002の文書要素0002の得点:0+0 = 0 文書番号1003の文書要素0001の得点:5+5 = 10 文書番号1003の文書要素0002の得点:4+4 = 8 文書番号1006の文書要素0001の得点:5+5 = 10 文書番号1006の文書要素0002の得点:4+0 = 4 となる。
【0041】次に、文書要素分類決定手段15は、文書
要素を分類する際、上記の各文書要素の得点を利用者要
求との類似度とみなし、以下のように得点の区切りを設
けて文書要素をグループ化することとする。この場合、 (A)利用者要求に対応するすべての事実表現分類及び
事実表現が本文第1文に現れるもの(=得点10点) 文書番号1001の文書要素0001 文書番号1003の文書要素0001 文書番号1006の文書要素0001 (B)利用者要求に対応するすべての事実表現分類及び
事実表現が本文第1文以外に現れるもの(=得点8点) 文書番号1003の文書要素0002 (C)利用者要求に対応する事実表現分類及び事実表現
の一部が本文第1文に現れるもの(=得点5点) 文書番号1002の文書要素0001 (D)利用者要求に対応する事実表現分類及び事実表現
の一部が本文第1文以外に現れるもの(=得点4点) 文書番号1006の文書要素0002 (E)利用者要求に対応する事実表現分類が現れないも
の(=得点0点) 文書番号1001の文書要素0002 文書番号1001の文書要素0003 文書番号1002の文書要素0002 となる。上記の文書要素は5つのグループに分類され、
各文書要素と文書要素分類の対応が文書要素分類情報2
として、情報蓄積手段9に蓄積される。図14に文書要
素分類情報の例を示す。
【0042】さらに、情報抽出手段16は、前記文書要
素分類情報2に蓄積された文書要素分類のうち、特定の
分類に属する文書要素から情報を抽出し、インタフェー
ス手段17を介して利用者に提示する。例として、図1
4の文書要素分類(1)〜(4)のうち、利用者要求と
の類似度を表す得点のもっとも高いグループ(1)に属
する文書要素から情報を抽出することとする。
【0043】抽出結果として提示する情報として、ここ
では、仮に、グループ(1)に属する文書要素に出現す
る、図13に示した事実表現分類のうち、50%以上の
文書要素に出現する分類及び該当する事実表現を抽出候
補とし、以下の5つの事実表現分類が該当したとする。 名詞的表現:会社名 名詞的表現:日付表現 名詞的表現:製品種別 名詞的表現:商品名 動詞的表現:動詞グループA
【0044】したがって、この場合の情報の抽出結果
は、グループ(1)に属する各文書要素に含まれる、上
記の5つの事実表現分類及び該当する事実表現となる。
図15にこの場合の情報の抽出結果を示す。
【0045】なお、本実施形態においても、第1実施形
態と同様に、参照情報や抽出する情報、結果の提示方法
などについて、利用者から指定を受けたり、また、指定
に応じた情報を提示するようにしてもよい。
【0046】以上のように、本実施形態では、事実表現
データベースを参照し、文書中の事実表現やその分類の
出現傾向により、利用者要求と文書要素分類の類似度を
比較し、利用者要求と類似する文書要素分類に属する文
書要素から情報を抽出することにより、利用者の求める
情報を高精度に抽出することができる。
【0047】[第3実施形態]図16〜図18を用いて
本発明の第3実施形態を説明する。図16は第3実施形
態に係る文書情報管理装置の構成を示すブロック図であ
る。第3実施形態は、図1に示した第1実施形態の構成
における情報抽出手段16の代わりに、情報検出手段2
1を設けた例である。情報検索手段21は、インタフェ
ース手段17を介して利用者からの検索条件を受けて文
書要素の検索を行い、検索結果を提示するようになって
いる。その他の構成は第1実施形態と同様であり、説明
を省略する。
【0048】上記のような構成の文書情報管理装置にお
いて、文書情報検索に関する動作を以下に説明する。
【0049】文書要素分類決定手段15により文書要素
分類を決定し、文書要素分類情報2として情報蓄積手段
9に蓄積するまでの動作は前述した第1実施形態と同様
である。
【0050】利用者からの参照情報の指定があれば、照
会処理手段22は、インタフェース手段17を介して、
利用者からの参照要求に応じて情報蓄積手段9に蓄積さ
れた文書要素情報5、文書要素内事実表現情報6、文書
要素分類情報2を参照し、該当する情報を利用者に提示
する。
【0051】次に、情報検索手段21は、インタフェー
ス手段17を介して、利用者から情報検索の対象につい
ての条件とランキングの条件に関する指定を受けて検索
を行い、検索結果を利用者に提示する。
【0052】例えば、利用者が、図13に示した文書の
文書要素が図14のように分類されている場合に検索の
条件として、 ・情報検索の対象: 文書要素分類:(1) 事実表現分類「製品」の事実表現「携帯電話」 ・ランキングで優先する情報の条件: 事実表現分類「会社」の事実表現「A社」 を指定した場合を例にする。図17にこの場合の情報の
検索結果の例を示す。
【0053】さらに利用者が、インタフェース手段17
を介して、検索した情報の中から提示すべき情報及び提
示方法を指定した場合、情報検索手段21は提示すべき
情報をさらに限定し、インタフェース手段を介して提示
する。図18に、図17の検索結果に対して、利用者か
ら以下のように提示すべき情報についての指定があった
場合の提示結果を示す。 ・提示すべき情報 事実表現情報「会社名」及び該当する事実表現 事実表現情報「商品名」及び該当する事実表現 事実表現情報「日付表現」及び該当する事実表現
【0054】なお、上記の例では、まず、利用者が「情
報検索の対象」と「ランキングで優先する情報の条件」
を指定し、いったん検索結果が提示された後に、「提示
すべき情報」を改めて指定しているが、これらの指定
は、一度に行ってもよいし、また、繰り返して行っても
構わない。
【0055】また、上記の例では、特定の文書要素分類
に属し特定の事実表現情報を持つ文書要素に対象を限定
して検索をしたが、検索対象は全文書とし、これらの情
報はランキングのみに用いてもかまわない。また、ラン
キングで優先する情報については、情報の種類だけでな
く、重みを指定して、既存のランキング方法で類似度計
算を行ってもよい。
【0056】以上のように、本実施形態では、事実表現
データベースを参照し、文書中の事実表現やその分類の
出現傾向により、文書要素を適切に分類した上で、必要
に応じて文書要素分類及び事実表現情報を用いて、検索
する対象を限定したり、ランキングで優先する情報を指
定したりすることで、精度の高い情報を検索することが
できる。
【0057】[第4実施形態]図19〜図21を用いて
本発明の第4実施形態を説明する。図19は第4実施形
態に係る文書情報管理装置の構成を示すブロック図であ
る。第4実施形態は、図1に示した第1実施形態の構成
における情報抽出手段16の代わりに、文書類似度比較
手段18及び文書分類決定手段19を設け、さらに情報
蓄積手段9に文書分類情報8を蓄積するようにした例で
ある。文書類似度比較手段18は、文書要素情報5、文
書要素内事実表現情報6、及び文書要素分類情報2に基
づいて文書毎にまとめて類似度を比較する。文書分類決
定手段19は、前記比較結果を受けて文書の分類を行
い、文書分類情報8として情報蓄積手段9に蓄積した
り、インタフェース手段17を介して出力するようにな
っている。その他の構成は第1実施形態と同様であり、
説明を省略する。
【0058】上記のような構成の文書情報管理装置にお
いて、文書分類に関する動作を以下に説明する。
【0059】文書要素分類決定手段15により文書中の
文書要素分類を決定し、文書要素分類情報2として情報
蓄積手段9に蓄積するまでの動作は前述した第1実施形
態と同様である。
【0060】文書類似度比較手段18は、情報蓄積手段
9に蓄積された文書要素情報5、文書要素内事実表現情
報6、及び文書要素分類情報2を文書毎にまとめて比較
する。ここでは例えば、図5及び図6に示した事実表現
情報及び文書要素分類情報を用いて、これらを文書毎に
まとめ、 ・本文第1文の文書要素分類 ・事実表現分類「製品種別」の事実表現 を比較する場合を例にする。図20にこの場合の類似度
比較に用いる情報の例を示す。
【0061】文書分類決定手段19は、上記の比較結果
を受けて文書を分類し、文書分類情報8として情報蓄積
手段9に蓄積したり、インタフェース手段17を介して
出力する。ここでは、上記の本文第1文の文書要素分類
と、事実表現分類「製品種別」の事実表現により、文書
を分類することとする。図21にこの場合の文書の分類
結果の例を示す。
【0062】なお、本実施形態においても、第1〜3実
施形態と同様に、参照情報や分類する条件について、利
用者から指定を受けたり、また、指定に応じた情報を提
示するようにしてもよい。
【0063】以上のように、本実施形態では、事実表現
データベースを参照し、文書中の文書要素の属する文書
要素分類及び文書要素の持つ事実表現情報を用いて文書
の類似度を比較し分類を行うことにより、必要に応じて
分類の条件を調整し、適切な文書の分類を行うことがで
きる。
【0064】[第5実施形態]図22〜図24を用いて
本発明の第5実施形態を説明する。図22は第5実施形
態に係る文書情報管理装置の構成を示すブロック図であ
る。第5実施形態は、前述した第1実施形態と第4実施
形態を組み合わせたもので、図19の構成に加えて図1
の情報抽出手段16を設けた例である。
【0065】この第5実施形態の文書情報管理装置にお
いて、文書情報抽出に関する動作を以下に説明する。
【0066】文書分類決定手段19により文書ごとの文
書分類を決定し、文書分類情報8として情報蓄積手段9
に蓄積するまでの動作は前述した第4実施形態と同様で
ある。
【0067】利用者からの参照情報の指定があれば、照
会処理手段22は、情報蓄積手段9に蓄積された文書要
素情報5、文書要素内事実表現情報6、文書要素分類情
報2、文書分類情報8を参照し、インタフェース手段1
7を介して、利用者から指定された情報を提示する。
【0068】そして、利用者は、提示された情報を参照
した上で、インタフェース手段17を介して情報の抽出
に関する条件を指定する。これを受けて、情報抽出手段
16は、指定された条件を満たす情報を抽出し、抽出結
果をインタフェース手段17を介して利用者に提示す
る。
【0069】ここで、例えば、図5及び図20に示した
各文書が図21のように分類されている場合に、利用者
が情報を抽出する文書要素についての条件として、 ・文書分類: (1) 本文第1文の文書要素分類が1(動詞グループA)で 事実表現分類「製品種別」の事実表現「携帯電話」 ・事実表現分類「金額表現」又は ・事実表現分類「会社名」 を指定した場合を例にする。図23にこの場合の情報の
抽出結果の例を示す。
【0070】さらに利用者が、インタフェース手段17
を介して、抽出した情報の中から提示すべき情報及び提
示方法を指定した場合、情報抽出手段16は提示すべき
情報をさらに限定し、インタフェース手段を介して提示
する。図24に、図23の抽出結果に対して、利用者か
ら以下のように提示すべき情報及び提示方法についての
指定があった場合の提示結果を示す。 ・提示すべき情報 事実表現分類「会社名」及び該当する事実表現 事実表現分類「金額表現」及び該当する事実表現 ・提示方法 文書毎にまとめ、さらに 会社毎にまとめる
【0071】なお、上記の例では、まず、利用者が「情
報を抽出する文書要素についての条件」を指定し、いっ
たん抽出結果が提示された後に、「提示すべき情報」及
び「提示方法」を改めて指定しているが、これらの指定
は、一度に行ってもよいし、また、繰り返して行っても
構わない。
【0072】以上のように、本実施形態では、事実表現
データベースを参照し、文書中の文書要素分類や事実表
現情報の出現傾向により、文書を適切に分類した上で、
特定の文書分類に属する文書に含まれ、かつ特定の文書
要素分類に属し、特定の事実表現情報をもつ文書要素か
ら、要求に応じて抽出条件を調整しながら、精度の高い
情報を抽出することができる。
【0073】本実施形態によれば、第1に、文書集合か
ら情報を抽出する際に、事実を表す名詞的又は動詞的な
表現とそれらの分類を規定した事実表現データベースを
参照し、各文書の文書要素毎に、前記事実表現データベ
ースに規定された表現の出現情報を文書要素内事実表現
情報として抽出し、文書要素の出現位置に関する情報を
記述した文書要素情報と、前記文書要素内事実表現情報
を用いて、各文書の文書要素間の類似度を比較し、文書
要素を分類して、特定の文書要素分類に属する文書要素
から情報を抽出するようにしたものである。これによ
り、文書要素を適切に分類した上で、特定の文書要素分
類に属する文書要素から、要求に応じて抽出条件を調整
しながら、精度の高い情報を抽出することができる、と
いう効果が得られる。
【0074】また、第2に、抽出したい情報についての
利用者要求が任意の文字列で与えられた場合、同様に事
実表現情報を抽出し、文書要素内事実表現情報と、利用
者要求内事実表現情報を用いて利用者要求と各文書要素
の類似度を比較し、利用者要求と類似度の高い文書要素
の属する文書要素分類を求め、前記文書要素分類に属す
る文書要素から情報を抽出するようにしたものである。
これにより、文書要素を適切に分類した上で、利用者要
求と類似する文書要素分類に属する文書要素から情報を
抽出することで、利用者の求める情報を高精度に抽出す
ることができる、という効果が得られる。
【0075】また、第3に、文書集合中の情報を検索す
る際に、特定の文書要素分類に属する文書要素に重みを
つけて検索するようにしたものである。これにより、文
書要素を適切に分類した上で、必要に応じて、検索する
対象やランキングで優先する情報を調整することで、精
度の高い情報を検索することができる、という効果が得
られる。
【0076】また、第4に、検索したい情報についての
利用者要求が任意の文字列で与えられた場合、利用者要
求から事実表現情報を抽出し、同様に利用者要求と各文
書要素の類似度を比較し、利用者要求と類似度の高い文
書要素の属する文書要素分類を求め、前記文書要素分類
に属する文書要素に重みをつけて、情報を検索するよう
にしたものである。これにより、文書要素を適切に分類
した上で、利用者要求と類似する文書要素分類に属する
文書要素に重みをつけて情報を検索することで、利用者
の求める情報を高精度に検索することができる、という
効果が得られる。
【0077】また、第5に、文書集合中の文書を分類す
る際に、各文書に含まれる文書要素の属する文書要素分
類を用いて文書の類似度を比較し、文書を分類するよう
にしたものである。これにより、必要に応じて分類の条
件を調整し、適切な文書の分類を行うことができる、と
いう効果が得られる。
【0078】また、第6に、文書集合から情報を抽出す
る際に、特定の文書分類をもつ文書に含まれ、かつ、特
定の文書要素分類に属する文書要素から情報を抽出する
ようにしたものである。これにより、文書を適切に分類
した上で、特定の文書分類に属する文書に含まれ、特定
の文書要素分類に属する文書要素から、要求に応じて抽
出条件を調整しながら、精度の高い情報を抽出すること
ができる、という効果が得られる。
【0079】また、第7に、文書集合中の情報を検索す
る際に、特定の文書分類をもつ文書に含まれ、かつ、特
定の文書要素分類に属する文書要素に重みをつけて、情
報を検索するようにしたものである。これにより、文書
を適切に分類した上で、特定の文書分類に属する文書に
含まれ、特定の文書要素分類に属する文書要素に重みを
つけて、必要に応じて、検索する対象やランキングで優
先する情報を調整することで、精度の高い情報を抽出す
ることができる、という効果が得られる。
【0080】
【発明の効果】以上説明したように本発明によれば、文
書中の文書要素に適切な分類を与え、この文書要素分類
を用いることにより、文書中の主要な情報の記述箇所の
特定を効率化することができ、精度の高い情報の抽出や
検索を行ったり、未分類の文書に対しても適切な分類を
行うことが可能となる効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る文書情報管理装置
の構成を示すブロック図。
【図2】本実施形態における文書要素情報の抽出例を示
す説明図。
【図3】本実施形態における事実表現データベースの内
容例を示す説明図。
【図4】第1実施形態における文書要素内事実表現情報
の抽出例を示す説明図。
【図5】第1実施形態における文書要素の類似度比較に
用いる情報の例を示す説明図。
【図6】第1実施形態における文書要素分類情報の例を
示す説明図。
【図7】第1実施形態における情報の抽出結果の例を示
す説明図。
【図8】第1実施形態における情報の抽出結果の例を示
す説明図。
【図9】第1実施形態における情報の抽出結果の例を示
す説明図。
【図10】図9の抽出結果に対する情報の提示結果の例
を示す説明図。
【図11】本発明の第2実施形態に係る文書情報管理装
置の構成を示すブロック図。
【図12】第2実施形態における利用者要求内事実表現
情報の抽出例を示す説明図。
【図13】第2実施形態における文書要素の類似度比較
に用いる情報の例を示す説明図。
【図14】第2実施形態における文書要素分類情報の例
を示す説明図。
【図15】第2実施形態における情報の抽出結果の例を
示す説明図。
【図16】本発明の第3実施形態に係る文書情報管理装
置の構成を示すブロック図。
【図17】第3実施形態における情報の検索結果の例を
示す説明図。
【図18】図17の検索結果に対する情報の提示結果の
例を示す説明図。
【図19】本発明の第4実施形態に係る文書情報管理装
置の構成を示すブロック図。
【図20】第4実施形態における文書の類似度比較に用
いる情報の例を示す説明図。
【図21】第4実施形態における文書の分類結果の例を
示す説明図。
【図22】本発明の第5実施形態に係る文書情報管理装
置の構成を示すブロック図。
【図23】第5実施形態における情報の抽出結果の例を
示す説明図。
【図24】図23の抽出結果に対する情報の提示結果の
例を示す説明図。
【図25】従来の文書情報検索システムの構成例を示す
ブロック図。
【符号の説明】
1 文書データベース 2 文書要素分類情報 3 事実表現データベース 5 文書要素情報 6 文書要素内事実表現情報 7 利用者要求内事実表現情報 8 文書分類情報 9 情報蓄積手段 12 文書要素検出手段 13 事実表現抽出手段 14 文書要素類似度比較手段 15 文書要素分類決定手段 16 情報抽出手段 17 インタフェース手段 18 文書類似度比較手段 19 文書分類決定手段 21 情報検索手段 22 照会処理手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 福重 貴雄 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 野口 直彦 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 鈴木 浩之 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B075 ND03 NR12 UU05

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 文書集合中の各文書の文書要素を検出す
    る文書要素検出手段と、 文書集合中における事実を表す名詞的又は動詞的な表現
    である事実表現の分類を規定した事実表現データベース
    と、 前記事実表現データベースを参照して、前記検出された
    文書要素ごとに前記事実表現の出現情報を含む文書要素
    内事実表現情報を抽出する事実表現抽出手段と、 前記検出された文書要素の出現位置に関する情報を含む
    文書要素情報と、前記文書要素内事実表現情報とを用い
    て、各文書の文書要素間の類似度を比較する文書要素類
    似度比較手段と、 前記比較結果に基づき、文書要素を分類して、各文書要
    素と文書要素分類との対応を示す文書要素分類情報を得
    る文書要素分類決定手段と、 前記文書要素分類に基づいて文書要素から情報を抽出す
    る情報抽出手段と、 を備えたことを特徴とする文書情報管理装置。
  2. 【請求項2】 前記情報抽出手段は、前記文書要素分類
    に基づき、特定の文書要素分類に属する文書要素から情
    報を抽出することを特徴とする請求項1記載の文書情報
    管理装置。
  3. 【請求項3】 前記情報抽出手段は、前記文書要素分類
    に基づき、特定の文書要素分類に属し、かつ特定の事実
    表現情報を持つ文書要素から情報を抽出することを特徴
    とする請求項1記載の文書情報管理装置。
  4. 【請求項4】 文書集合中の各文書の文書要素を検出す
    る文書要素検出手段と、 文書集合中における事実を表す名詞的又は動詞的な表現
    である事実表現の分類を規定した事実表現データベース
    と、 前記事実表現データベースを参照して、前記検出された
    文書要素ごとに前記事実表現の出現情報を含む文書要素
    内事実表現情報を抽出するとともに、抽出したい情報に
    関して任意の文字列で与えられる利用者要求における前
    記事実表現の出現情報を含む利用者要求内事実表現情報
    を抽出する事実表現抽出手段と、 前記検出された文書要素の出現位置に関する情報を含む
    文書要素情報と、前記文書要素内事実表現情報及び利用
    者要求内事実表現情報とを用いて、利用者要求と各文書
    要素間の類似度を比較する文書要素類似度比較手段と、 前記比較結果に基づき、文書要素を分類して、各文書要
    素と文書要素分類との対応を示す文書要素分類情報を得
    る文書要素分類決定手段と、 前記文書要素分類に基づいて文書要素から情報を抽出す
    る情報抽出手段と、 を備えたことを特徴とする文書情報管理装置。
  5. 【請求項5】 前記情報抽出手段は、前記文書要素分類
    に基づき、利用者要求との類似度の高い文書要素分類に
    属する文書要素から情報を抽出することを特徴とする請
    求項4記載の文書情報管理装置。
  6. 【請求項6】 文書集合中の各文書の文書要素を検出す
    る文書要素検出手段と、 文書集合中における事実を表す名詞的又は動詞的な表現
    である事実表現の分類を規定した事実表現データベース
    と、 前記事実表現データベースを参照して、前記検出された
    文書要素ごとに前記事実表現の出現情報を含む文書要素
    内事実表現情報を抽出する事実表現抽出手段と、 前記検出された文書要素の出現位置に関する情報を含む
    文書要素情報と、前記文書要素内事実表現情報とを用い
    て、各文書の文書要素間の類似度を比較する文書要素類
    似度比較手段と、 前記比較結果に基づき、文書要素を分類して、各文書要
    素と文書要素分類との対応を示す文書要素分類情報を得
    る文書要素分類決定手段と、 前記文書要素分類に基づいて文書要素から情報を検索す
    る情報検索手段と、 を備えたことを特徴とする文書情報管理装置。
  7. 【請求項7】 前記情報検索手段は、前記文書要素分類
    に基づき、特定の文書要素分類に属する文書要素に重み
    をつけて情報を検索することを特徴とする請求項6記載
    の文書情報管理装置。
  8. 【請求項8】 前記情報検索手段は、前記文書要素分類
    に基づき、特定の文書要素分類に属し、かつ特定の事実
    表現情報を持つ文書要素に重みをつけて情報を検索する
    ことを特徴とする請求項6記載の文書情報管理装置。
  9. 【請求項9】 文書集合中の各文書の文書要素を検出す
    る文書要素検出手段と、 文書集合中における事実を表す名詞的又は動詞的な表現
    である事実表現の分類を規定した事実表現データベース
    と、 前記事実表現データベースを参照して、前記検出された
    文書要素ごとに前記事実表現の出現情報を含む文書要素
    内事実表現情報を抽出するとともに、抽出したい情報に
    関して任意の文字列で与えられる利用者要求における前
    記事実表現の出現情報を含む利用者要求内事実表現情報
    を抽出する事実表現抽出手段と、 前記検出された文書要素の出現位置に関する情報を含む
    文書要素情報と、前記文書要素内事実表現情報及び利用
    者要求内事実表現情報とを用いて、利用者要求と各文書
    要素間の類似度を比較する文書要素類似度比較手段と、 前記比較結果に基づき、文書要素を分類して、各文書要
    素と文書要素分類との対応を示す文書要素分類情報を得
    る文書要素分類決定手段と、 前記文書要素分類に基づいて文書要素から情報を検索す
    る情報検索手段と、 を備えたことを特徴とする文書情報管理装置。
  10. 【請求項10】 前記情報検索手段は、前記文書要素分
    類に基づき、利用者要求との類似度の高い文書要素分類
    に属する文書要素に重みをつけて情報を検索することを
    特徴とする請求項9記載の文書情報管理装置。
  11. 【請求項11】 文書集合中の各文書の文書要素を検出
    する文書要素検出手段と、 文書集合中における事実を表す名詞的又は動詞的な表現
    である事実表現の分類を規定した事実表現データベース
    と、 前記事実表現データベースを参照して、前記検出された
    文書要素ごとに前記事実表現の出現情報を含む文書要素
    内事実表現情報を抽出する事実表現抽出手段と、 前記検出された文書要素の出現位置に関する情報を含む
    文書要素情報と、前記文書要素内事実表現情報とを用い
    て、各文書の文書要素間の類似度を比較する文書要素類
    似度比較手段と、 前記文書要素の比較結果に基づき、文書要素を分類し
    て、各文書要素と文書要素分類との対応を示す文書要素
    分類情報を得る文書要素分類決定手段と、 前記文書要素分類情報を用いて、文書ごとにまとめて類
    似度を比較する文書類似度比較手段と、 前記文書の比較結果に基づき、文書を分類して文書分類
    情報を得る文書分類決定手段と、 を備えたことを特徴とする文書情報管理装置。
  12. 【請求項12】 前記文書分類決定手段は、前記文書類
    似度比較手段において前記文書要素分類情報と前記文書
    要素情報を用いて各文書に含まれる文書要素の属する文
    書要素分類によって文書の類似度を比較した結果によ
    り、文書を分類することを特徴とする請求項11記載の
    文書情報管理装置。
  13. 【請求項13】 前記文書分類決定手段は、前記文書類
    似度比較手段において前記文書要素分類情報と前記文書
    要素情報及び文書要素内事実表現情報とを用いて各文書
    に含まれる文書要素の属する文書要素分類及び各文書要
    素の持つ事実表現情報によって文書の類似度を比較した
    結果により、文書を分類することを特徴とする請求項1
    1記載の文書情報管理装置。
  14. 【請求項14】 文書集合中の各文書の文書要素を検出
    する文書要素検出手段と、 文書集合中における事実を表す名詞的又は動詞的な表現
    である事実表現の分類を規定した事実表現データベース
    と、 前記事実表現データベースを参照して、前記検出された
    文書要素ごとに前記事実表現の出現情報を含む文書要素
    内事実表現情報を抽出する事実表現抽出手段と、 前記検出された文書要素の出現位置に関する情報を含む
    文書要素情報と、前記文書要素内事実表現情報とを用い
    て、各文書の文書要素間の類似度を比較する文書要素類
    似度比較手段と、 前記文書要素の比較結果に基づき、文書要素を分類し
    て、各文書要素と文書要素分類との対応を示す文書要素
    分類情報を得る文書要素分類決定手段と、 前記文書要素分類情報を用いて、文書ごとにまとめて類
    似度を比較する文書類似度比較手段と、 前記文書の比較結果に基づき、文書を分類して文書分類
    情報を得る文書分類決定手段と、 前記文書分類に基づいて文書要素から情報を抽出する情
    報抽出手段と、 を備えたことを特徴とする文書情報管理装置。
  15. 【請求項15】 前記情報抽出手段は、前記文書分類に
    基づき、特定の文書分類を持つ文書に含まれ、かつ特定
    の文書要素分類に属する文書要素から情報を抽出するこ
    とを特徴とする請求項14記載の文書情報管理装置。
  16. 【請求項16】 前記情報抽出手段は、前記文書分類に
    基づき、特定の文書分類を持つ文書に含まれ、かつ特定
    の文書要素分類に属し、特定の事実表現情報を持つ文書
    要素から情報を抽出することを特徴とする請求項14記
    載の文書情報管理装置。
  17. 【請求項17】 文書集合中の各文書の文書要素を検出
    する文書要素検出手段と、 文書集合中における事実を表す名詞的又は動詞的な表現
    である事実表現の分類を規定した事実表現データベース
    と、 前記事実表現データベースを参照して、前記検出された
    文書要素ごとに前記事実表現の出現情報を含む文書要素
    内事実表現情報を抽出する事実表現抽出手段と、 前記検出された文書要素の出現位置に関する情報を含む
    文書要素情報と、前記文書要素内事実表現情報とを用い
    て、各文書の文書要素間の類似度を比較する文書要素類
    似度比較手段と、 前記文書要素の比較結果に基づき、文書要素を分類し
    て、各文書要素と文書要素分類との対応を示す文書要素
    分類情報を得る文書要素分類決定手段と、 前記文書要素分類情報を用いて、文書ごとにまとめて類
    似度を比較する文書類似度比較手段と、 前記文書の比較結果に基づき、文書を分類して文書分類
    情報を得る文書分類決定手段と、 前記文書分類に基づいて文書要素から情報を検索する情
    報検索手段と、 を備えたことを特徴とする文書情報管理装置。
  18. 【請求項18】 前記情報検索手段は、前記文書分類に
    基づき、特定の文書分類を持つ文書に含まれ、かつ特定
    の文書要素分類に属する文書要素に重みをつけて情報を
    検索することを特徴とする請求項17記載の文書情報管
    理装置。
  19. 【請求項19】 前記情報検索手段は、前記文書分類に
    基づき、特定の文書分類を持つ文書に含まれ、かつ特定
    の文書要素分類に属し、特定の事実表現情報を持つ文書
    要素に重みをつけて情報を検索することを特徴とする請
    求項17記載の文書情報管理装置。
JP2000296963A 2000-09-28 2000-09-28 文書情報管理装置 Pending JP2002108893A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000296963A JP2002108893A (ja) 2000-09-28 2000-09-28 文書情報管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000296963A JP2002108893A (ja) 2000-09-28 2000-09-28 文書情報管理装置

Publications (1)

Publication Number Publication Date
JP2002108893A true JP2002108893A (ja) 2002-04-12

Family

ID=18779153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000296963A Pending JP2002108893A (ja) 2000-09-28 2000-09-28 文書情報管理装置

Country Status (1)

Country Link
JP (1) JP2002108893A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019530063A (ja) * 2016-08-09 2019-10-17 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019530063A (ja) * 2016-08-09 2019-10-17 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法
JP7189125B2 (ja) 2016-08-09 2022-12-13 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法
US11580141B2 (en) 2016-08-09 2023-02-14 Ripcord Inc. Systems and methods for records tagging based on a specific area or region of a record

Similar Documents

Publication Publication Date Title
US7451124B2 (en) Method of analyzing documents
US8402036B2 (en) Phrase based snippet generation
US7809551B2 (en) Concept matching system
JP3099756B2 (ja) 文書処理装置、単語抽出装置及び単語抽出方法
US8983963B2 (en) Techniques for comparing and clustering documents
US20040049499A1 (en) Document retrieval system and question answering system
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
US9754022B2 (en) System and method for language sensitive contextual searching
US20130036076A1 (en) Method for keyword extraction
CN107247743A (zh) 一种司法类案检索方法及系统
JPH03172966A (ja) 類似文書検索装置
CN111611356A (zh) 信息查找方法、装置、电子设备及可读存储介质
CN106951530A (zh) 一种事件类型抽取方法和装置
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
Kallimani et al. Summarizing news paper articles: experiments with ontology-based, customized, extractive text summary and word scoring
CN115292450A (zh) 一种基于信息抽取的数据分类分级领域知识库构建方法
EP0822503A1 (en) Document retrieval system
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
KR101429621B1 (ko) 중복 뉴스 결합 시스템 및 중복 뉴스 결합 방법
CN110688559A (zh) 一种检索方法及装置
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
KR20130113250A (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
JP2002108893A (ja) 文書情報管理装置
Pemawat et al. Hindi-English based cross language information retrieval system for Allahabad Museum

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060324