JPH0490052A - 文書内容検索装置 - Google Patents

文書内容検索装置

Info

Publication number
JPH0490052A
JPH0490052A JP2206030A JP20603090A JPH0490052A JP H0490052 A JPH0490052 A JP H0490052A JP 2206030 A JP2206030 A JP 2206030A JP 20603090 A JP20603090 A JP 20603090A JP H0490052 A JPH0490052 A JP H0490052A
Authority
JP
Japan
Prior art keywords
information
sentence
item
pattern
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2206030A
Other languages
English (en)
Other versions
JP2885489B2 (ja
Inventor
Hiroshi Matsuo
比呂志 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2206030A priority Critical patent/JP2885489B2/ja
Publication of JPH0490052A publication Critical patent/JPH0490052A/ja
Application granted granted Critical
Publication of JP2885489B2 publication Critical patent/JP2885489B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、質問文を入力することによって蓄積された
情報の中から必要な情報を取り出してユーザに提供する
文書内容検索装置に関する。
〔従来の技術〕
従来のこの種の文書内容検索装置では、あらかじめ項目
毎に整理して蓄積したデータベースを検索対象として検
索する装置や、登録された文と入力された文との類似度
を算出して検索するテキスト型データベース装置(例え
ば、特願平1−111626号)が知られている。
〔発明が解決しようとする課題〕
しかしながら 前者の装置では、あらかしめ項目毎に整
理して蓄積したデータベースを検索対象としており1文
章のまま保存された情報を検索することができなかった
。また、データへ〜スを検索するために分野知識を記述
した世界モデル等を用いてデータベース検索用コマンド
に変換する処理を行っており、このような変換を正しく
行うためには、複雑なデータ構造を持った知識ベースを
構築する必要があった。後者の装置では、意味的な類似
性が高い文を検索することはできるが3例えばrNTT
が発売した製品は?」というような質問文形式に対して
的確な回答を行うことはできなかった。
この発明の目的は2文章で記述された情報の中から、入
力された質問文に対して的確な回答を行うことができ、
しかも、複雑なデータ構造を持った知識ベースそのもの
を構築しなくても実現できる文書内容検索装置を提供す
ることにある。
〔課題を解決するための手段〕
入力された文書ファイル中の各情報文について。
情報文パターンを決定し7文書内容テーブル作成部で、
情報文パターンに記述された項目属性に対応する項目内
容を抽出して、各情報文パターンごとに該当する情報文
と項目属性と項目内容の関係を記述した文書内容テーブ
ルを作成して蓄積しておき 入力された質問文の単語情報と文節情報を抽出した後、
質問文パターン判定部でパターン間関係テーブルを参照
して質問文パターンを決定し、質問文パターンに記述さ
れた項目属性に対応する項目内容を抽出し、決定された
質問文パターンに対応する情報文パターンを得、得られ
た情報文パターンに属する情報文の項目内容が、同し項
目属性において、質問文パターンの項目内容と一致する
情報文を文書内容テーブルを参照して決定し。
決定された情報文において、決定された質問文パターン
に対応する回答項目属性と一致する項目属性の項目内容
を抽出して、抽出された内容を基に1回答内容を表示す
るよう構成している。
〔作 用〕
決定された質問文パターンの項目内容と一致する情報文
を得て、その上で当該情報文において上記決定された質
問文に対応する回答項目属性と一致する項目属性の項目
内容を抽出する。したがって5文章で記述された情報の
中から、入力された質問文に対して的確な回答を行うこ
とができる。
〔実施例〕
第1図は本発明の実施例を示すブロック図である。以下
、第1図において1本発明の実施例の動作について説明
する。図中、1は単語辞書部、2は形態素解析部、3は
情報文解析部、4は情報文パターン辞書部、5はパター
ン間関係テーブル部6は情報文パターン判定部、7は項
目内容抽出部。
8は文書内容テーブル作成部、9は文書内容テーブル蓄
積部、10は質問文解析部、11は質問文バクーン判定
部、12は回答抽出部、13は回答表示部を表す。
第2図は4文書ファイルの1例を示す図である。
第2図において1文番号は、情報文解析部3で読み込ま
れるときに各文毎に付与され、各情報文のIDとして以
下の処理で用いられる。なお、ここでは文書ファイル中
の各文を情報文と呼び2文番号iの情報文を情報文iと
記述する。
まず、情報文の解析処理について説明する。
情報文解析部3では1文書ファイル中から情報文を読み
込んで、形態素解析部2へ送り、単語情報と文節情報と
を得る。
形態素解析部2では、単語辞書部1を参照して。
被解析文を構成する単語の表記と該単語の品詞と意味属
性からなる単語情報と1文節情報とを抽出する。
第3図は、単語辞書部1に記述されている表記と意味属
性との関係の1例を示した図である。例えば、「販売」
と「発売」とには同じ意味属性[売〕が付与されている
。この意味属性は後で説明する情報文パターンの判定や
質問文パターンの判定で用いられる。
第4図は、情報文rNTTがハウデイコードレスホンを
5月1日から発売した。」の情報文解析部3の処理結果
の例を示した図である。情報文は単語に分割され1文節
情報として文節番号が付与され、単語情報として品詞、
意味属性が抽出される。文節番号が同し単語は同−文節
内にあることを示している。例えば、rNTTJと「が
」とは同一文節にあり、各々2品詞として“固有名詞”
“助詞”が抽出される。また、「発売」は1品詞として
“動詞語幹”、意味属性として[売コが抽出される。な
お、 「ハウデイコードレスボン」は。
単語辞書部1に登録されてない単語で9前後関係や文字
の種類などにより1単語とみなされた未知語であり5品
詞や意味属性の情報は得られない。
次に、情報文パターンの判定処理について説明する。
情報文パターン判定部6は、情報文解析部3で得られた
単語情報を基に、情報文パターン辞書部4を参照して、
情報文パターンを決定する。
第5図は、情報文パターン辞書部4に蓄積される情報文
パターンの1例を示す図である。情報文パターン辞書部
4には2項目属性、単語、意味属性の列からなる文節パ
ターンの組み合わせで表された情報文パターンを蓄積し
ている。例えば、第5図では、2つの情報文パターンA
I、A2の例を示している。ここで1文パターン中のD
iは。
項目属性を示し9項目属性に続く文字列は品詞が″助詞
″である単語を示し2項目属性と単語で文節パターンの
1つが表されている。また、[]で囲まれたデータは意
味属性を示し、これも1つの文節パターンを表している
。例えば、情報文パターンAIの場合には1項目属性D
1を含む文節パターン゛D1が゛ と項目属性D2を含
む文節パターン゛D2を° と意味属性[売]の組み合
わせで文パターンが表されている。
パターン決定方法には、規定された条件を満たすかにつ
いての判定による決定や類似度を算出しである闇値以上
であるかにより決定するなど多様な方法が適用できる。
ここでは、情報文Tに含まれる意味属性の集合が、情報
文パターンの意味属性の集合を含むような情報文パター
ンPがある場合、情報文Tの情報文パターンはPである
と決定する場合の例について説明する。
例えば、情報文1の意味属性の集合Mtは。
Mt=([時]、[売]) である。
一方、情報文パターンAt、A2の意味属性の集合Ml
、M2は M1=([売]) M2= ([提携コ) である。
MlはMtに含まれるので、情報文1の情報文パターン
はA1であると決定される。
次に1文書内容テーブル作成処理について説明する。
文書内容テーブル作成部8では、まず、各情報文におい
て9項目内容の抽出処理を以下のように行う。
情報文を被抽出文とし、情報文パターン判定部6で決定
された情報文パターンを参照文パターンとして9項目内
容抽出部7を起動して1項目内容を抽出する。
項目内容抽出部7では、被抽出文から抽出された単語情
報と文節情報を基に参照文パターン中の文節パターンと
の照合を行うことにより、参照文パターン中の項目属性
に対応する項目内容を被抽出文中から抽出する。
ここでは5文節パターン中の助詞を手がかりに項目内容
を抽出する方法について説明する。情報文1の場合には
、情報文パターンはA1であるから、情報文1を被抽出
文、情報文パターンAIを参照文パターンとして項目内
容抽出部7を起動する。例えば9項目内容抽出部7では
9項目属性D1に対する項目内容の抽出処理を以下のよ
うに行う。項目属性DIは、助詞「が」を含む文節パタ
ーンrD1が」に属する。情報文1の中で助詞「がjを
含む文節はrNTTが」である。したがって、Dlをr
NTTjと置き換えることによって同一文節となる。こ
のようにして、ある文字列を項目属性き置き換えること
によって文節が一致するような文字列をこの項目属性の
項目内容とする。この例の場合には、情報文1における
項目属性D1の項目内容はrNTT、となる。このよう
にして、各情報文における項目内容が抽出される9なお
、複数の同一助詞が存在する場合には1文節パターン間
の関係を考慮して決定する。
文書内容テーブル作成部8では1次に、情報文パターン
毎に、各情報文パターンに属する情報文と、各情報文毎
に各項目属性の項目内容を記述した文書内容テーブルを
作成する。
第6図は2文書内容テーブルの1例を示す図である。例
えば、情報文パターンA1には、情報文1と情報文2と
が属し、情報文1の項目属性DI。
D2の項目内容は各々rNTT」、rハウデイコードレ
スホン」であり、情報文2の項目属性DI。
D2の項目内容は各々rATT」、r留守番電話」であ
る。なお、「ハウデイコードレスホン」は未知語である
が1文節情報が正しければ、上記のように項目内容を正
しく抽出できる。
このようにして5作成された文書内容テーブルは文書内
容テーブル蓄積部9に蓄積される。
次に1文書内容検索処理について説明する。第8図は文
書内容検索処理の例を示す図であり、以下この図に基づ
いて説明する。
まず、質問文の解析処理について説明する。
質問文解析部10では2人力された質問文を形態素解析
部2へ送り、単語情報と文節情報を得る。
例えば、質問文Q rNTTが販売した製品は?」が入
力されると、第8図における °質問文解析結果゛のよ
うに文節情報および単語情報が抽出される。このとき、
質問文の意味属性の集合をIとすると。
■=([売]、[商品]) である。
次に、質問文パターンの判定処理について説明する。
質問文パターン判定部11では、質問文解析部10で得
られた単語情報と、パターン間関係テーブル部5に蓄積
されたパターン間関係テーブル中の質問文パターンとを
参照して、質問文がどの質問文パターンに属するかを決
定する。次に、質問文パターン中に含まれる項目属性と
、その質問文パターンに対応する情報文パターンと回答
項目属性とを抽出する。
第7図は、パターン間関係テーブル部5に蓄積されるパ
ターン間関係テーブルの1例を示す図である。第7図で
は、3つの質問文パターンQl。
Q2.Q3の例を示している。パターン間関係テーブル
部5には、質問文パターンとして2項目属性、単語、意
味属性の列からなる文節パターンの組み合わせで定義さ
れ、さらに、各質問文パターン毎に、参照すべき情報文
パターンのIDと回答項目属性とが定義されている。こ
のパターン間関係テーブルにより、質問文がどの質問文
パターンに属するかがわかれば、どの情報文パターンに
属する情報文を参照し、どの項目属性(回答項目属性)
を参照すればよいかを表している。例えば質問文パター
ンQlは2文節パターン″D1が′と意味属性[売]、
[商品]との集合で定義され。
参照すべき情報文パターンとしてA1が3回答項目属性
としてD2が定義されている。
ここで、各質問文パターンQl、Q2.Q3の意味属性
の集合Nl、N2.N3とすると。
N1−(E売]、E商品コ) N2= + [提携]、[会社]) N3=([売]、[会社]) である。
質問文パターン判定部11では、情報文パターン判定部
6の処理と同様な処理で質問文パターンが決定される。
質問文Qの意味属性の集合Iは質問文パターンQ1の意
味属性の集合N1を含むから、質問文Qの質問文パター
ンはQlと決定される。さらに、参照すべき情報文パタ
ーンとしてAIが1回答項目属性としてD2が得られる
次に3回答抽出処理について説明する。
回答抽出部12では、まず、質問文の項目内容の抽出を
以下のように行う。
質問文を被抽出文とし、質問文パターン判定部11で決
定された質問文パターンを参照文パターンとして1項目
内容抽出部7を起動して9項目内容を抽出する。
抽出方法は、前に述べた情報文の場合と同様である。例
えば、質問文Qの場合、被抽出文は質問文Qであり、参
照文パターンは質問文パターンQ1である。このとき項
目属性DIの内容としてrNTTJが抽出される(第8
図における ″項目内容抽出結果゛参照)。
次に、質問文パターン中の各項目属性において。
質問文の項目内容が、参照すべき情報文パターンに属す
る情報文の項目内容と一致する情報文を決定する。
例えば質問文Qの場合には、参照すべき情報文パターン
はAIである。A1に属する情報文は。
文書内容テーブルを参照することにより、情報文1およ
び情報文2であることがわかる。各情報文の項目属性D
Iの項目内容は、情報文1では「NTTJ 、情報文2
ではrATT、である。したがって、質問文Qに対して
、質問文Qの項目属性D1の項目内容rNTT」と一致
する情報文1が決定される。
次に、決定された情報文の項目内容の中から。
回答項目属性と一致する項目属性の項目内容を抽出する
。例えば、質問文Qの場合9回答項目属性はD2である
から、決定された情報文1の項目属性D2の項目内容「
ハウデイコードレスボン」が抽出される。
最後に2回答表示部13では、抽出された項目内容を基
に1回答内容を表示する。例えば、質問文Qの場合、「
ハウデイコードレスボン」が表示される。
〔発明の効果〕
以上説明したように1本発明によれば9文章で記述され
た情報を検索対象として、質問文を入力することによっ
て、蓄積された情報の中から必要な情報を容易に取り出
すことができる。従来の装置では、あらかしめ検索対象
とする情報を項目毎に整理して蓄積したデータベースを
構築しなければ検索できなかったが1本発明による装置
では。
文書ファイル中の文を解析し、情報文パターンを決定し
、情報文パターンで定義された項目属性の項目内容を抽
出して1文書内容テーブルを作成しその文書内容テーブ
ルを参照して検索するため。
文章で記述された情報をそのまま検索対象とできる。こ
のため1本発明による装置を用いれば、新聞記事等のよ
うに毎日送られてくる大量の情報に対しても2文書内容
を検索できる情報サービスを短時間で提供できるなどの
効果がある。
また、従来の装置では検索コマンドで検索するため3質
問文を入力して検索する場合には1世界モデルのような
複雑なデータ構造を持った知識ベースを用いて、検索コ
マンドに変換していたが本発明による装置では、パター
ン間関係テーブルにより、質問文パターンと情報文パタ
ーンとの関係を記述しておくことにより、質問文を入力
して検索が行えるため、知識ベース構築のための多大な
労力を必要とセす1文書内容を検索できる装置を容易に
構築できる。
2図は文書ファイルの1例を示す図、第3図は単語辞書
の表記と意味属性の関係の1例を示す同第4図は情報文
解析部の処理結果の1例を示す同第5図は情報文パター
ンの1例を示す図、第6図は文書内容テーブルの1例を
示す図、第7図はパターン間関係テーブルの1例を示す
図、第8図は文書内容検索処理の1例を示す図である。
1・・・単語辞書部、2・・・形態素解析部、3・・・
情報文解析部、4・・・情報文パターン辞書部、5・・
・パターン間関係テーブル部、6・・・情報文パターン
判定部、7・・・項目内容抽出部、8・・・文書内容テ
ーブル作成部、9・・・文書内容テーブル蓄積部、10
・・・質問文解析部、11・・・質問文パターン判定部
、12・・・回答抽出部、13・・・回答表示部。
特許出願人  日本電信電話株式会社

Claims (1)

  1. 【特許請求の範囲】 単語辞書を参照して、被解析文を構成する単語の表記と
    該単語の品詞と意味属性とからなる単語情報および文節
    情報を抽出する形態素解析部と、文書ファイル中の情報
    文を読み出して前記形態素解析部に送って、単語情報を
    得る情報文解析部と、 項目属性と単語と意味属性との列からなる文節パターン
    の組み合わせで表した情報文パターンを蓄積した情報文
    パターン辞書部と、 項目属性と単語と意味属性との列からなる文節パターン
    の組み合わせで表した質問文パターンと該質問文パター
    ンに対応する前記情報文パターンと回答すべき項目属性
    を表す回答項目属性とを定義したパターン間関係テーブ
    ルを蓄積したパターン間関係テーブル部と、前記情報文
    解析部で得られた単語情報と、前記情報文パターン辞書
    部に蓄積された情報文パターンとを参照して、各情報文
    がどの情報文パターンに属するかを決定する情報文パタ
    ーン判定部と、被抽出文から抽出された単語情報と文節
    情報とを基に、参照文パターン中の文節パターンとの照
    合を行うことにより、該参照文パターン中の項目属性に
    対応する項目内容を該被抽出文中から抽出する項目内容
    抽出部と、 各情報文において、該情報文を被抽出文とし、該情報文
    に対して前記情報文パターン判定部で決定された情報文
    パターンを参照文パターンとして、前記項目内容抽出部
    を起動して、項目内容を抽出して、情報文パターン毎に
    、該情報文パターンに属する情報文と、各情報文毎に各
    項目属性の項目内容とを記述した文書内容テーブルを作
    成する文書内容テーブル作成部と、 質問文を前記形態素解析部に送って、該質問文に対する
    単語情報と文節情報とを得る質問文解析部と、 前記質問文解析部で得られた単語情報と、前記パターン
    間関係テーブル部に蓄積されたパターン間関係テーブル
    中の質問文パターンとを参照して、該質問文がどの質問
    文パターンに属するかを決定し、該質問文パターン中に
    含まれる項目属性と該質問文パターンに対応する情報文
    パターンと回答項目属性とを得る質問文パターン判定部
    と、前記質問文を被抽出文とし、前記質問文パターン判
    定部で前記質問文に対して決定された質問文パターンを
    参照文パターンとして、前記項目内容抽出部を起動して
    、該質問文パターン中の各項目属性に対応する項目内容
    を抽出し、前記質問文パターン中の各項目属性において
    、前記質問文パターン判定部で得られた情報文パターン
    に対応する情報文の前記文書内容テーブルの項目内容が
    、前記質問文から抽出された前記項目内容と一致する情
    報文を決定し、該情報文の項目内容の中から、前記回答
    項目属性と一致する項目属性の項目内容を抽出する回答
    抽出部と、 前記回答抽出部で抽出された項目内容を基に、回答内容
    を表示する回答表示部とを、 有することを特徴とする文書内容検索装置。
JP2206030A 1990-08-03 1990-08-03 文書内容検索装置 Expired - Fee Related JP2885489B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2206030A JP2885489B2 (ja) 1990-08-03 1990-08-03 文書内容検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2206030A JP2885489B2 (ja) 1990-08-03 1990-08-03 文書内容検索装置

Publications (2)

Publication Number Publication Date
JPH0490052A true JPH0490052A (ja) 1992-03-24
JP2885489B2 JP2885489B2 (ja) 1999-04-26

Family

ID=16516736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2206030A Expired - Fee Related JP2885489B2 (ja) 1990-08-03 1990-08-03 文書内容検索装置

Country Status (1)

Country Link
JP (1) JP2885489B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162102A (ja) * 1992-11-26 1994-06-10 Nippon Telegr & Teleph Corp <Ntt> 内容抽出装置
JPH07152780A (ja) * 1993-11-30 1995-06-16 Nippon Telegr & Teleph Corp <Ntt> データベース自動作成装置
JP2001101162A (ja) * 1999-09-27 2001-04-13 Just Syst Corp 文書処理装置、及び文書処理プログラムが記憶された記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162102A (ja) * 1992-11-26 1994-06-10 Nippon Telegr & Teleph Corp <Ntt> 内容抽出装置
JPH07152780A (ja) * 1993-11-30 1995-06-16 Nippon Telegr & Teleph Corp <Ntt> データベース自動作成装置
JP2001101162A (ja) * 1999-09-27 2001-04-13 Just Syst Corp 文書処理装置、及び文書処理プログラムが記憶された記憶媒体

Also Published As

Publication number Publication date
JP2885489B2 (ja) 1999-04-26

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
CN1942875B (zh) 对话支援装置
US7343371B2 (en) Queries-and-responses processing method, queries-and-responses processing program, queries-and-responses processing program recording medium, and queries-and-responses processing apparatus
CN101167075B (zh) 专有表现抽取装置、方法以及程序
JP6505421B2 (ja) 情報抽出支援装置、方法およびプログラム
JPH01501977A (ja) 言語翻訳システム
US20070011160A1 (en) Literacy automation software
Hlava The taxobook: Principles and practices of building taxonomies, part 2 of a 3-part series
CN109840255A (zh) 答复文本生成方法、装置、设备及存储介质
JPWO2018221119A1 (ja) 検索用資料情報記憶装置
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP4423004B2 (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
JP3123836B2 (ja) テキスト型データベース装置
JPH0490052A (ja) 文書内容検索装置
CN102207947B (zh) 一种直接引语素材库的生成方法
KR20010092515A (ko) 언어를 학습하기 위한 방법 및 시스템
Karimi et al. Natural language query and control interface for database using afghan language
KR20000036487A (ko) 정보검색기술을 이용한 한영번역 데이터베이스 시스템
JPS63175965A (ja) 文書処理装置
Smeaton et al. Information retrieval in an office filing facility and future work in Project Minstrel
JPH08115330A (ja) 類似文書検索方法および装置
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3501240B2 (ja) 文書作成支援装置
JPH1021265A (ja) データベース装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100212

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees