JP2000259670A - 文書解析システム及び記録媒体 - Google Patents
文書解析システム及び記録媒体Info
- Publication number
- JP2000259670A JP2000259670A JP11067226A JP6722699A JP2000259670A JP 2000259670 A JP2000259670 A JP 2000259670A JP 11067226 A JP11067226 A JP 11067226A JP 6722699 A JP6722699 A JP 6722699A JP 2000259670 A JP2000259670 A JP 2000259670A
- Authority
- JP
- Japan
- Prior art keywords
- document
- related word
- word
- information
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
検索作業効率の高いデータベースを構築する文書解析シ
ステムを提供すること。 【解決手段】 コンピュータ7には文書読取装置5、キ
ーワードデータベース11、関連語情報データベース1
3、及び文書データベース15が設けられる。文書読取
装置5は、紙媒体に印刷された文書3のテキストを読取
る。キーワードデータベース11は概念的に階層構造を
とるキーワード群を保持する。関連語情報13は検索時
の視点の情報となる関連語情報を保持する。CD−RO
M17はコンピュータ7に後述するような文書解析処理
を行わせるためのプログラムを記録する。
Description
及び記録媒体に関するものである。
ク等を通じて、文書情報データベースから情報を検索す
ることが多い。通常の情報検索では、ユーザがキーワー
ド等の条件を入力することで関連情報が出力され、ユー
ザによる条件の追加や条件のAND/ORを採ることに
より、情報が絞り込まれ、ユーザの所望の情報が得られ
る。
うなキーワードによる情報検索では、ユーザがどのよう
な視点でそのキーワードを選択したかが考慮されず、入
力したキーワードに関する膨大な情報が出力され、ユー
ザが所望する情報を得るまでに手間がかかるという問題
がある。
もので、その目的とするところは、検索作業においてユ
ーザの視点が入力でき、検索作業効率の高いデータベー
スを構築する文書解析システムを提供することにある。
ために第1の発明は、文書を解析するための文書解析シ
ステムであって、文書からキーワードを抽出する手段
と、抽出されたキーワードの近傍から関連語の候補とな
る単語を抽出する手段と、前記関連語の候補となる単語
から頻度の高い単語を関連語として抽出する手段と、前
記関連語の候補のうち、関連語として抽出されなかった
単語を類語情報とする手段とを具備することを特徴とす
る文書解析システムである。
キーワードを抽出する手段と、抽出されたキーワードの
近傍から関連語の候補となる単語を抽出する手段と、前
記関連語の候補となる単語から頻度の高い単語を関連語
として抽出する手段と、前記関連語の候補のうち、関連
語として抽出されなかった単語を類語情報とする手段と
して機能させるプログラムが記録された記録媒体であ
る。
施の形態を詳細に説明する。図1は、本実施の形態に係
る文書解析システム1の概略構成を示す図である。
取装置5、キーワードデータベース11、関連語情報デ
ータベース13、及び文書データベース15が設けられ
る。文書読取装置5は、紙媒体に印刷された文書3のテ
キストを読取るものであり、例えば、OCR等である。
層構造をとるキーワード群を保持する。関連語情報デー
タベース13は検索時の視点の情報となる関連語情報を
保持する。文書データベース15は解析未処理の文書ま
たは解析処理済みの文書を保持する。
するような文書解析処理を行わせるためのプログラムを
記録する。尚、このプログラムはCD−ROM17以外
の記録媒体に格納されてもよい。
されるキーワードの構成を示す図である。キーワードデ
ータベース11には、あらゆる分野別に名詞がその概念
ごとに階層型に登録されている。以下の説明は「食材」
を例にとって行う。
材」の内、上位語23は例えば「乳製品」、「肉類」、
…といったものがある。その上位語23の下には、概念
的にその上位語23に属するキーワード25が登録され
る。例えば、上位語「乳製品」には、「チーズ」、「バ
ター」といったキーワード25が登録される。
される関連語情報の一例を示す図である。関連語情報と
は図3に示す関連語33とそれに属する類語情報35で
ある。関連語33は、ユーザがキーワード25に関する
情報を検索する場合に、どのような情報を所望している
か、即ち視点を入力するために設けられるものである。
視点が明確になるように、関連語33には動詞が選ばれ
る。例えば、キーワード25が「チーズ」である場合、
関連語33はユーザが「チーズ」をどうしたいか、即ち
「チーズ」に対する消費行動を示すものであり、図3に
示すように「使う」、「買う」、「食べる」、「知る」
等がある。
情報に適した関連語33を選択するために参照とする情
報であり、関連語33に属する。例えば、関連語「使
う」に対する類語情報35は「料理、調理、切り方、保
存法製品、製法、原材料、原産国、地方、輸入、…」等
がある。このように類語情報35を参照すれば、ユーザ
は関連語「使う」の意味を明確に判断でき、適切な関連
語33を選択することができる。
て、関連語33及び類語情報35はキーワード25に対
応させて登録される。
方法について説明する。図4は関連語33及び類語情報
35の登録作業の手順を示すフローチャートである。文
書3は文書読取装置5によって読み取られ、コンピュー
タ7によって次のような解析が行われる。文書3中のテ
キストを形態素解析して、名詞のみを抽出し(ステップ
401)、抽出した名詞の内一つを取り出して(ステッ
プ402)、以下の処理を行う。
じ分野の文書である。例えば、視点として「食べる事」
に関する関連語33を導きたい場合、グルメ情報やレス
トランガイドブック等の文書を入力する。
11のキーワード25と照合し、キーワードデータベー
ス11に登録されているかどうかを判定する(ステップ
403)。キーワードデータベース11に登録されてい
ない場合、当該名詞が文書中に出現する頻度の高い名詞
であればキーワードデータベース11に登録する(ステ
ップ405)。
11に登録されている場合、文書3において名詞、即ち
キーワードの近傍から関連語候補を抽出し(ステップ4
04)、キーワードの品詞情報を元に、キーワードに対
する係受けパターンを解析する(ステップ406)。
ーンが入力され(ステップ407)、選択された出現パ
ターンの近傍の単語を頻度順に表示する(ステップ40
8)。この中で出現頻度の高い単語が関連語33として
登録され(ステップ409)、その他の単語が類語情報
35として登録される(ステップ410)。
判定し(ステップ411)、抽出された名詞がなくなる
まで、ステップ402からステップ410の作業を繰り
返し、関連語33と類語情報35を登録する。
ここで、キーワード25を「チーズ」としたとき、文書
3−1において「チーズ」の周辺のテキストが関連語候
補として選択され、動詞情報53、名詞情報55、格情
報57等の品詞情報を参照して単語に分けられ、キーワ
ードの「チーズ」とその他の単語の係受けが解析され
る。
報であり、名詞情報55とは名詞に関する情報であり、
格情報57とは主格、目的格等を判別するための情報で
ある。 係受けの解析とは、例えば図5に示す「チーズ
を食べる」というテキストでは、「チーズ」が「食べ
る」という動詞の目的語になるということを明かにする
ことである。
プ409 以上のように、関連語候補の解析が行われ、関連語候補
の出現パターンが登録作業者により入力される。例え
ば、「チーズを食べる」は「チーズを食す」、「チーズ
を味わう」などと同意義であり、このような同義語を考
慮して、関連語候補の単語の出現頻度が数えられる。
ある。分野別に文書を解析し、キーワード「チーズ」に
対して分野ごとの関連語候補の単語群61−1、61−
2、61−3が求められる。例えば、レストランガイド
等の文書を解析した場合、「レストラン、シェフ、店、
美味しく、食べる、…」といった単語が含まれる関連語
候補61−2が得られる。
同義語を含んでカウントした頻度が最も高く、動詞であ
る単語が関連語候補の代表語であり、関連語33として
関連語情報データベース13に登録される。また、関連
語候補61−2の単語の内、代表語以外の単語は類語情
報35として関連語情報データベース13に登録され
る。
ち、「食べる」の出現頻度が最も高ければ「食べる」を
関連語33として登録し、その他の「レストラン、シェ
フ、店、美味しく、…」の単語は類語情報35として登
録される。類語情報35はユーザがキーワード25であ
る「チーズ」に対する目的を判断するために有効であ
る。
うことで、分野ごとの関連語33と類語情報35が登録
され、関連語情報データベース13が構築される。
ば、ユーザがキーワード25に関する情報検索を行う
際、キーワード25に対する目的を明確にできるような
関連語情報データベース13が提供でき、情報検索作業
の効率が高まる。
によってはその他の品詞を関連語33として登録するこ
ともできる。また、解析対象となる文書は外部記憶装置
等に設けられた文書データベース15から読み出しても
構わない。
れば、検索作業においてユーザの視点が入力でき、検索
作業効率の高いデータベースを構築する文書解析システ
ムを提供することができる。
ム1を示す図
フローチャート
図
Claims (4)
- 【請求項1】 文書を解析するための文書解析システム
であって、 文書からキーワードを抽出する手段と、 前記文書において抽出されたキーワードの近傍から関連
語の候補となる単語を抽出する第1の抽出手段と、 前記関連語の候補となる単語から頻度の高い単語を関連
語として抽出する第2の抽出手段と、 前記関連語の候補のうち、関連語として抽出されなかっ
た単語を類語情報とする手段と、 を具備することを特徴とする文書解析システム。 - 【請求項2】 抽出された関連語と類語情報をキーワー
ドに対応させて保持する保持手段を更に具備することを
特徴とする請求項1記載の文書解析システム。 - 【請求項3】 前記第2の抽出手段は、前記関連語の候
補となる単語から頻度の高い単語を関連語として抽出す
る際に、関連語の候補となる単語と抽出されたキーワー
ドとの係り受けの関係を調べ、関連語の候補となる単語
とその同義語に関して、文書中の出現頻度をカウントす
ることを特徴とする請求項1記載の文書解析システム。 - 【請求項4】 コンピュータを、 文書からキーワードを抽出する手段と、 抽出されたキーワードの近傍から関連語の候補となる単
語を抽出する手段と、 前記関連語の候補となる単語から頻度の高い単語を関連
語として抽出する手段と、 前記関連語の候補のうち、関連語として抽出されなかっ
た単語を類語情報とする手段、 として機能させるプログラムが記録された記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06722699A JP4408980B2 (ja) | 1999-03-12 | 1999-03-12 | 文書解析システム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06722699A JP4408980B2 (ja) | 1999-03-12 | 1999-03-12 | 文書解析システム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000259670A true JP2000259670A (ja) | 2000-09-22 |
JP4408980B2 JP4408980B2 (ja) | 2010-02-03 |
Family
ID=13338796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06722699A Expired - Fee Related JP4408980B2 (ja) | 1999-03-12 | 1999-03-12 | 文書解析システム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4408980B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006065366A (ja) * | 2004-08-24 | 2006-03-09 | Nec Corp | キーワード分類装置およびその方法、端末装置ならびにプログラム |
JP2006146586A (ja) * | 2004-11-19 | 2006-06-08 | Pioneer Electronic Corp | 検索データベース作成装置、情報検索装置および情報検索システム |
JP2007011973A (ja) * | 2005-07-04 | 2007-01-18 | Sharp Corp | 情報検索装置及び情報検索プログラム |
WO2016194054A1 (ja) * | 2015-05-29 | 2016-12-08 | 株式会社日立製作所 | 情報抽出システム、情報抽出方法、及び記録媒体 |
-
1999
- 1999-03-12 JP JP06722699A patent/JP4408980B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006065366A (ja) * | 2004-08-24 | 2006-03-09 | Nec Corp | キーワード分類装置およびその方法、端末装置ならびにプログラム |
JP2006146586A (ja) * | 2004-11-19 | 2006-06-08 | Pioneer Electronic Corp | 検索データベース作成装置、情報検索装置および情報検索システム |
JP2007011973A (ja) * | 2005-07-04 | 2007-01-18 | Sharp Corp | 情報検索装置及び情報検索プログラム |
WO2016194054A1 (ja) * | 2015-05-29 | 2016-12-08 | 株式会社日立製作所 | 情報抽出システム、情報抽出方法、及び記録媒体 |
JPWO2016194054A1 (ja) * | 2015-05-29 | 2017-08-31 | 株式会社日立製作所 | 情報抽出システム、情報抽出方法、及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP4408980B2 (ja) | 2010-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7949646B1 (en) | Method and apparatus for building sales tools by mining data from websites | |
JP2002132812A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
JPH10275157A (ja) | データ処理装置 | |
WO2002021324A1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
JP2002245061A (ja) | キーワード抽出 | |
JP2002132811A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
JP2006343925A (ja) | 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム | |
JP4408980B2 (ja) | 文書解析システム及び記録媒体 | |
US7730062B2 (en) | Cap-sensitive text search for documents | |
JP2010198142A (ja) | 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム | |
JPH0944523A (ja) | 関連語提示装置 | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
JP2000259671A (ja) | 情報生成システム、情報検索システム、及び記録媒体 | |
JP2002288189A (ja) | 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体 | |
JPH10307837A (ja) | 検索装置並びに検索プログラムを記録した記録媒体 | |
JP2004287696A (ja) | 検索システム及び検索プログラム | |
KR20080026931A (ko) | 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치 | |
JPH09128402A (ja) | 文書類似度計算装置および文書分類装置 | |
JP2002108888A (ja) | ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 | |
JPH05250416A (ja) | データベースの登録・検索装置 | |
Shinzato et al. | Constructing dictionaries for named entity recognition on specific domains from the Web | |
JP4135467B2 (ja) | 情報処理装置、システムおよびプログラム | |
JPH02289060A (ja) | 文書抄録作成装置 | |
JP2000137718A (ja) | 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体 | |
JP3949874B2 (ja) | 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090602 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091111 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131120 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |