JP2000259670A - 文書解析システム及び記録媒体 - Google Patents

文書解析システム及び記録媒体

Info

Publication number
JP2000259670A
JP2000259670A JP11067226A JP6722699A JP2000259670A JP 2000259670 A JP2000259670 A JP 2000259670A JP 11067226 A JP11067226 A JP 11067226A JP 6722699 A JP6722699 A JP 6722699A JP 2000259670 A JP2000259670 A JP 2000259670A
Authority
JP
Japan
Prior art keywords
document
related word
word
information
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11067226A
Other languages
English (en)
Other versions
JP4408980B2 (ja
Inventor
Takako Fujioka
孝子 藤岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP06722699A priority Critical patent/JP4408980B2/ja
Publication of JP2000259670A publication Critical patent/JP2000259670A/ja
Application granted granted Critical
Publication of JP4408980B2 publication Critical patent/JP4408980B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索作業においてユーザの視点が入力でき、
検索作業効率の高いデータベースを構築する文書解析シ
ステムを提供すること。 【解決手段】 コンピュータ7には文書読取装置5、キ
ーワードデータベース11、関連語情報データベース1
3、及び文書データベース15が設けられる。文書読取
装置5は、紙媒体に印刷された文書3のテキストを読取
る。キーワードデータベース11は概念的に階層構造を
とるキーワード群を保持する。関連語情報13は検索時
の視点の情報となる関連語情報を保持する。CD−RO
M17はコンピュータ7に後述するような文書解析処理
を行わせるためのプログラムを記録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書解析システム
及び記録媒体に関するものである。
【0002】
【従来の技術】昨今、インターネットや通信ネットワー
ク等を通じて、文書情報データベースから情報を検索す
ることが多い。通常の情報検索では、ユーザがキーワー
ド等の条件を入力することで関連情報が出力され、ユー
ザによる条件の追加や条件のAND/ORを採ることに
より、情報が絞り込まれ、ユーザの所望の情報が得られ
る。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うなキーワードによる情報検索では、ユーザがどのよう
な視点でそのキーワードを選択したかが考慮されず、入
力したキーワードに関する膨大な情報が出力され、ユー
ザが所望する情報を得るまでに手間がかかるという問題
がある。
【0004】本発明はこのような問題に鑑みてなされた
もので、その目的とするところは、検索作業においてユ
ーザの視点が入力でき、検索作業効率の高いデータベー
スを構築する文書解析システムを提供することにある。
【0005】
【課題を解決するための手段】前述した目的を達成する
ために第1の発明は、文書を解析するための文書解析シ
ステムであって、文書からキーワードを抽出する手段
と、抽出されたキーワードの近傍から関連語の候補とな
る単語を抽出する手段と、前記関連語の候補となる単語
から頻度の高い単語を関連語として抽出する手段と、前
記関連語の候補のうち、関連語として抽出されなかった
単語を類語情報とする手段とを具備することを特徴とす
る文書解析システムである。
【0006】第2の発明は、コンピュータを、文書から
キーワードを抽出する手段と、抽出されたキーワードの
近傍から関連語の候補となる単語を抽出する手段と、前
記関連語の候補となる単語から頻度の高い単語を関連語
として抽出する手段と、前記関連語の候補のうち、関連
語として抽出されなかった単語を類語情報とする手段と
して機能させるプログラムが記録された記録媒体であ
る。
【0007】
【発明の実施の形態】以下、図面に基づいて本発明の実
施の形態を詳細に説明する。図1は、本実施の形態に係
る文書解析システム1の概略構成を示す図である。
【0008】図1において、コンピュータ7には文書読
取装置5、キーワードデータベース11、関連語情報デ
ータベース13、及び文書データベース15が設けられ
る。文書読取装置5は、紙媒体に印刷された文書3のテ
キストを読取るものであり、例えば、OCR等である。
【0009】キーワードデータベース11は概念的に階
層構造をとるキーワード群を保持する。関連語情報デー
タベース13は検索時の視点の情報となる関連語情報を
保持する。文書データベース15は解析未処理の文書ま
たは解析処理済みの文書を保持する。
【0010】CD−ROM17はコンピュータ7に後述
するような文書解析処理を行わせるためのプログラムを
記録する。尚、このプログラムはCD−ROM17以外
の記録媒体に格納されてもよい。
【0011】図2はキーワードデータベース11に保持
されるキーワードの構成を示す図である。キーワードデ
ータベース11には、あらゆる分野別に名詞がその概念
ごとに階層型に登録されている。以下の説明は「食材」
を例にとって行う。
【0012】図2に示すように、上位概念である「食
材」の内、上位語23は例えば「乳製品」、「肉類」、
…といったものがある。その上位語23の下には、概念
的にその上位語23に属するキーワード25が登録され
る。例えば、上位語「乳製品」には、「チーズ」、「バ
ター」といったキーワード25が登録される。
【0013】図3は関連語情報データベース13に保持
される関連語情報の一例を示す図である。関連語情報と
は図3に示す関連語33とそれに属する類語情報35で
ある。関連語33は、ユーザがキーワード25に関する
情報を検索する場合に、どのような情報を所望している
か、即ち視点を入力するために設けられるものである。
【0014】従って、ユーザのキーワード25に対する
視点が明確になるように、関連語33には動詞が選ばれ
る。例えば、キーワード25が「チーズ」である場合、
関連語33はユーザが「チーズ」をどうしたいか、即ち
「チーズ」に対する消費行動を示すものであり、図3に
示すように「使う」、「買う」、「食べる」、「知る」
等がある。
【0015】類語情報35は、ユーザが自分の所望する
情報に適した関連語33を選択するために参照とする情
報であり、関連語33に属する。例えば、関連語「使
う」に対する類語情報35は「料理、調理、切り方、保
存法製品、製法、原材料、原産国、地方、輸入、…」等
がある。このように類語情報35を参照すれば、ユーザ
は関連語「使う」の意味を明確に判断でき、適切な関連
語33を選択することができる。
【0016】尚、関連語情報データベース13におい
て、関連語33及び類語情報35はキーワード25に対
応させて登録される。
【0017】次に、関連語情報データベース13の作成
方法について説明する。図4は関連語33及び類語情報
35の登録作業の手順を示すフローチャートである。文
書3は文書読取装置5によって読み取られ、コンピュー
タ7によって次のような解析が行われる。文書3中のテ
キストを形態素解析して、名詞のみを抽出し(ステップ
401)、抽出した名詞の内一つを取り出して(ステッ
プ402)、以下の処理を行う。
【0018】ステップ401で解析対象とする文書は同
じ分野の文書である。例えば、視点として「食べる事」
に関する関連語33を導きたい場合、グルメ情報やレス
トランガイドブック等の文書を入力する。
【0019】抽出された名詞をキーワードデータベース
11のキーワード25と照合し、キーワードデータベー
ス11に登録されているかどうかを判定する(ステップ
403)。キーワードデータベース11に登録されてい
ない場合、当該名詞が文書中に出現する頻度の高い名詞
であればキーワードデータベース11に登録する(ステ
ップ405)。
【0020】抽出された名詞がキーワードデータベース
11に登録されている場合、文書3において名詞、即ち
キーワードの近傍から関連語候補を抽出し(ステップ4
04)、キーワードの品詞情報を元に、キーワードに対
する係受けパターンを解析する(ステップ406)。
【0021】登録作業者によって関連語候補の出現パタ
ーンが入力され(ステップ407)、選択された出現パ
ターンの近傍の単語を頻度順に表示する(ステップ40
8)。この中で出現頻度の高い単語が関連語33として
登録され(ステップ409)、その他の単語が類語情報
35として登録される(ステップ410)。
【0022】次に、抽出された名詞がまだ存在するかを
判定し(ステップ411)、抽出された名詞がなくなる
まで、ステップ402からステップ410の作業を繰り
返し、関連語33と類語情報35を登録する。
【0023】以下、ステップ毎に詳細に説明する。ステップ404、406 図5は、キーワードの近傍のテキストを示す図である。
ここで、キーワード25を「チーズ」としたとき、文書
3−1において「チーズ」の周辺のテキストが関連語候
補として選択され、動詞情報53、名詞情報55、格情
報57等の品詞情報を参照して単語に分けられ、キーワ
ードの「チーズ」とその他の単語の係受けが解析され
る。
【0024】ここで、動詞情報53とは動詞に関する情
報であり、名詞情報55とは名詞に関する情報であり、
格情報57とは主格、目的格等を判別するための情報で
ある。 係受けの解析とは、例えば図5に示す「チーズ
を食べる」というテキストでは、「チーズ」が「食べ
る」という動詞の目的語になるということを明かにする
ことである。
【0025】ステップ407、ステップ408、ステッ
プ409 以上のように、関連語候補の解析が行われ、関連語候補
の出現パターンが登録作業者により入力される。例え
ば、「チーズを食べる」は「チーズを食す」、「チーズ
を味わう」などと同意義であり、このような同義語を考
慮して、関連語候補の単語の出現頻度が数えられる。
【0026】図6は関連語候補とその代表語を示す図で
ある。分野別に文書を解析し、キーワード「チーズ」に
対して分野ごとの関連語候補の単語群61−1、61−
2、61−3が求められる。例えば、レストランガイド
等の文書を解析した場合、「レストラン、シェフ、店、
美味しく、食べる、…」といった単語が含まれる関連語
候補61−2が得られる。
【0027】この関連語候補61−2の単語の中から、
同義語を含んでカウントした頻度が最も高く、動詞であ
る単語が関連語候補の代表語であり、関連語33として
関連語情報データベース13に登録される。また、関連
語候補61−2の単語の内、代表語以外の単語は類語情
報35として関連語情報データベース13に登録され
る。
【0028】図6に示す関連語候補61−2の単語のう
ち、「食べる」の出現頻度が最も高ければ「食べる」を
関連語33として登録し、その他の「レストラン、シェ
フ、店、美味しく、…」の単語は類語情報35として登
録される。類語情報35はユーザがキーワード25であ
る「チーズ」に対する目的を判断するために有効であ
る。
【0029】以上のような文書解析を各分野の文書に行
うことで、分野ごとの関連語33と類語情報35が登録
され、関連語情報データベース13が構築される。
【0030】このように、本発明の実施の形態によれ
ば、ユーザがキーワード25に関する情報検索を行う
際、キーワード25に対する目的を明確にできるような
関連語情報データベース13が提供でき、情報検索作業
の効率が高まる。
【0031】尚、関連語33は動詞としたが、検索要件
によってはその他の品詞を関連語33として登録するこ
ともできる。また、解析対象となる文書は外部記憶装置
等に設けられた文書データベース15から読み出しても
構わない。
【0032】
【発明の効果】以上、詳細に説明したように本発明によ
れば、検索作業においてユーザの視点が入力でき、検索
作業効率の高いデータベースを構築する文書解析システ
ムを提供することができる。
【図面の簡単な説明】
【図1】 本発明の1実施の形態に係る文書解析システ
ム1を示す図
【図2】 キーワードデータベース11を示す図
【図3】 関連語情報データベース13を示す図
【図4】 関連語33と類語情報35の登録作業を示す
フローチャート
【図5】 文書3−1におけるキーワードの近傍を示す
【図6】 関連語候補61を示す図
【符号の説明】
1………文書解析システム 3………文書 5………文書読取装置 7………コンピュータ 11………キーワードデータベース 13………関連語情報データベース 15………文書データベース 17………CD−ROM

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書を解析するための文書解析システム
    であって、 文書からキーワードを抽出する手段と、 前記文書において抽出されたキーワードの近傍から関連
    語の候補となる単語を抽出する第1の抽出手段と、 前記関連語の候補となる単語から頻度の高い単語を関連
    語として抽出する第2の抽出手段と、 前記関連語の候補のうち、関連語として抽出されなかっ
    た単語を類語情報とする手段と、 を具備することを特徴とする文書解析システム。
  2. 【請求項2】 抽出された関連語と類語情報をキーワー
    ドに対応させて保持する保持手段を更に具備することを
    特徴とする請求項1記載の文書解析システム。
  3. 【請求項3】 前記第2の抽出手段は、前記関連語の候
    補となる単語から頻度の高い単語を関連語として抽出す
    る際に、関連語の候補となる単語と抽出されたキーワー
    ドとの係り受けの関係を調べ、関連語の候補となる単語
    とその同義語に関して、文書中の出現頻度をカウントす
    ることを特徴とする請求項1記載の文書解析システム。
  4. 【請求項4】 コンピュータを、 文書からキーワードを抽出する手段と、 抽出されたキーワードの近傍から関連語の候補となる単
    語を抽出する手段と、 前記関連語の候補となる単語から頻度の高い単語を関連
    語として抽出する手段と、 前記関連語の候補のうち、関連語として抽出されなかっ
    た単語を類語情報とする手段、 として機能させるプログラムが記録された記録媒体。
JP06722699A 1999-03-12 1999-03-12 文書解析システム及び記録媒体 Expired - Fee Related JP4408980B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06722699A JP4408980B2 (ja) 1999-03-12 1999-03-12 文書解析システム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06722699A JP4408980B2 (ja) 1999-03-12 1999-03-12 文書解析システム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2000259670A true JP2000259670A (ja) 2000-09-22
JP4408980B2 JP4408980B2 (ja) 2010-02-03

Family

ID=13338796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06722699A Expired - Fee Related JP4408980B2 (ja) 1999-03-12 1999-03-12 文書解析システム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4408980B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2006146586A (ja) * 2004-11-19 2006-06-08 Pioneer Electronic Corp 検索データベース作成装置、情報検索装置および情報検索システム
JP2007011973A (ja) * 2005-07-04 2007-01-18 Sharp Corp 情報検索装置及び情報検索プログラム
WO2016194054A1 (ja) * 2015-05-29 2016-12-08 株式会社日立製作所 情報抽出システム、情報抽出方法、及び記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2006146586A (ja) * 2004-11-19 2006-06-08 Pioneer Electronic Corp 検索データベース作成装置、情報検索装置および情報検索システム
JP2007011973A (ja) * 2005-07-04 2007-01-18 Sharp Corp 情報検索装置及び情報検索プログラム
WO2016194054A1 (ja) * 2015-05-29 2016-12-08 株式会社日立製作所 情報抽出システム、情報抽出方法、及び記録媒体
JPWO2016194054A1 (ja) * 2015-05-29 2017-08-31 株式会社日立製作所 情報抽出システム、情報抽出方法、及び記録媒体

Also Published As

Publication number Publication date
JP4408980B2 (ja) 2010-02-03

Similar Documents

Publication Publication Date Title
US7949646B1 (en) Method and apparatus for building sales tools by mining data from websites
JP2002132812A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JPH10275157A (ja) データ処理装置
WO2002021324A1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP2002245061A (ja) キーワード抽出
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JP4408980B2 (ja) 文書解析システム及び記録媒体
US7730062B2 (en) Cap-sensitive text search for documents
JP2010198142A (ja) 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
JPH0944523A (ja) 関連語提示装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP2000259671A (ja) 情報生成システム、情報検索システム、及び記録媒体
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JP2004287696A (ja) 検索システム及び検索プログラム
KR20080026931A (ko) 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
JPH09128402A (ja) 文書類似度計算装置および文書分類装置
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JPH05250416A (ja) データベースの登録・検索装置
Shinzato et al. Constructing dictionaries for named entity recognition on specific domains from the Web
JP4135467B2 (ja) 情報処理装置、システムおよびプログラム
JPH02289060A (ja) 文書抄録作成装置
JP2000137718A (ja) 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090602

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091111

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131120

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees