JPH0454564A - 重み学習型テキストベース検索装置 - Google Patents

重み学習型テキストベース検索装置

Info

Publication number
JPH0454564A
JPH0454564A JP2163154A JP16315490A JPH0454564A JP H0454564 A JPH0454564 A JP H0454564A JP 2163154 A JP2163154 A JP 2163154A JP 16315490 A JP16315490 A JP 16315490A JP H0454564 A JPH0454564 A JP H0454564A
Authority
JP
Japan
Prior art keywords
sentence
weight
search target
similarity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2163154A
Other languages
English (en)
Other versions
JP2885482B2 (ja
Inventor
Hiroshi Matsuo
比呂志 松尾
Koji Tateno
立野 浩司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2163154A priority Critical patent/JP2885482B2/ja
Publication of JPH0454564A publication Critical patent/JPH0454564A/ja
Application granted granted Critical
Publication of JP2885482B2 publication Critical patent/JP2885482B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、自然文または単語列で表現されたデータを
検索対象として、入力される文または単語列との181
性を考慮して検索する重み学習型テキストベース検索装
置に関する。
似度算出で用いる重みを自動的に変更することにより1
次回の入力からは的確な検索結果が得られるよう学習す
るようにすることを目的としている。
〔従来の技術〕
文または単語列で表現された検索対象文を検索対象とす
る従来のデータヘース装置として、検索対象文と入力文
との類似度を算出して検索するテキスト型データベース
装置が知られている(例えば、特願平1−111626
 rテキスト型データベース装置」)。
〔発明が解決しようとする課題〕
しかしながら、*m度の算出はあらかじめ決められた算
出法に基づいて算出されるため、的確な検索結果が得ら
れない入力文に対しては、何度入力しても的確な検索結
果が得られなかった。
この発明は、自然文または単語列で表現された検索対象
文を検索対象とし1表示された候補文の中からユーザが
選択した選択結果に基づいて、W4〔課題を解決するた
めの手段〕 この発明によるテキストベース検索装置は、単語辞書、
形態素解析部、テキストベース蓄積部類似度算出部、候
補文表示部、ユーザ選択部1重み更新部をそなえるよう
に構成されている。そして、上記類似度算出部によって
候補文を抽出し。
上記候補文表示部によって表示する。そして、その結果
をみて1重みを変更するようにする。
〔作 用〕
候補文表示部5で表示された文をユーザが選択した後、
入力文に含まれる表記及び意味カテゴリが1選択された
検索対象文と選択されなかった検索対象文との両方に含
まれるか、一方のみに含まれるかによって、各検索対象
文ごとに重みを増減させて、テキストベース蓄積部3に
蓄積された重みを更新することによって2次回の入力か
ら的確な検索結果が得られるよう学習する。
〔実施例〕
第1図は本発明の実施例を示すブロック図である。以下
、第1図において、1は単語辞書、2は形態素解析部、
3はテキストベース蓄積部、4は類似度算出部、5は候
補文表示部、6はユーザ選択部、7は重み更新部、8は
重み学習型テキストベース検索装置を表している。なお
、以下の説明においては、意味カテゴリごとに重みを付
与する方法について説明するが1表記に対して重みを付
与する方法や意味カテゴリと表記との両方に重みを付与
する方法などにも、同様な方法で実現できる。
第2図は単語辞書1の例を示す図である。単語辞書1に
は、形態素解析処理で必要な単語表記及び意味カテゴリ
を蓄積している。例えば、単語表記rLsE、には2つ
の意味カテゴリ〔信号〕。
〔装!〕が付与されている。
形態素解析部2は、単語辞書1を参照して2人力文を構
成する単語の表記と各単語の意味カテゴリとを抽出する
。第3図は、入力文rLCNEが異常動作する。」を入
力したときの形態素解析結果の例を示す図である。
I!像度算出部4は、形態素解析部2で得られた結果と
テキストベース蓄積部3の情報とを基に各検索対象文と
入力文との間の類伯性を表す評価値を計算する。
テキストベース蓄積部3には、第4図に示すように、検
索対象文に含まれる単語の表記と意味カテゴリと重みと
を蓄積している0文番号1は検索対象文rLsHの動作
が異常、Jに対して保存された情報であり1例えば、意
味カテゴリ〔信号〕には0.5の重みが付与されている
0表記及び意味カテゴリは、形態素解析部2と同様な方
法で得ることができる0重みに対しては1重要度を考慮
して設定することもできるが、ここでは、各単語に対す
る重みの合計が1.0となるよう、各単語に付与されて
いる意味カテゴリの個数で1.0を割った値を与えた場
合について説明する。
1!(14度算出方法には多くの方法があるが、以下で
はその1例について説明する。検索対象文pに対する類
似度をVp、検索対象文p中の意味カテゴリをCpk、
意味カテゴリCpkに対する得点および重みを各々Dp
k、Wpkとする。
ただし、Dpk=  0:Cpkが入力文中に存在しな
い場合 10:Cpkが入力文中に存 在する場合 評価値Vpを以下のように与える。
Vp=Wpl・Dpl+Wp2・Dp2+・・・第5図
は、第3図で用いた入力文と同じ入力文を与えたときの
3文番号1および文番号2の検索対象文に対する類似度
Vl、V2の算出の例を示している。
文番号1に対する。am度真出の例を以下で説明する。
C11= (信号)、Cl2=[装置)、C13=〔動
き)、C14=(異常〕、とすると重みは以下の値がテ
キストベース蓄積部3から与えられる。
W11=0.5.W12=0.5  W13=1.0W
 14 =1.0 人力文中にも含まれる意味カテゴリは、 〔装置〕、〔
動き〕、〔異常〕であるため、得点は次のように与えら
れる。
D11=0.DI2=10  D13=10  D14
=10 その結果1文番号1の類似度は、V1=25となる。
同様に1文番号2の類似度は、V2=15となる、 候補文表示部5は、類似度真出部4で得られたII(I
I度で順位を付けて、検索対象文を表示する。
ここでの例では、1位に文番号1の検索対象文が2位に
文番号2の検索対象文が表示される。
ユーザ選択部6で、ユーザは表示された文の中から自分
の目的に合った文を選択する。一般には検索対象文をこ
れに対応する詳細な内容と関係づけ、目的に合った文を
選択することによって、その詳細な内容を見ることがで
きるよう構成する。
二のため、この選択操作は単に学習のためだけに必要な
操作でなく、ユーザに余分の負担をかけるものではない
ここで、ユーザが2位の文、すなわち2文番号2の文r
LCNEが故障した。」を選択したとする。
重み更新部7では2選択された結果に応じて。
重みを増減させて、テキストベース蓄積部3に蓄積され
た重みを更新する0重みの増減は9選択された文にのI
l像度が高く、それより上位にある検索対象文の類似度
が低くなるよう変更する。第6図は8重み更新部7の処
理フローの1例を示した図である。
入力文中に含まれる意味カテゴリCi(i =L2、−
、  n)の各々に着目しく361. 562) 。
(1)  ユーザが選択した文が意味カテゴリC4を含
み、かつ1文により上位にある候補文(検索対象文)が
意味カテゴリC1を含む場合(S 63゜564)には
1文にのC1に対する重みを増加させる(S65)。
(2)ユーザが選択した文が意味カテゴリC4を含まず
、かつ1文により上位にある候補文(検索対象文)pが
意味カテゴリCiを含む場合(S63、 366)には
2文pのCiに対する重みを減少させる(S67)。た
だし、pは複数存在し得。
その各々に対して同様の処理を行う(S68. 569
)。
第7図は1重みの変更例を示した図である。例えば、入
力文中の意味カテゴリ〔集線〕は1選択された2位の文
(文番号2)には含まれるが、その上位の1位の文には
含まれないため1文番号2における(集線)の重みを増
加させる。一方。
〔動き〕は文番号2の文には含まれないが、1位の文(
文番号1)には含まれるので1文番号1における〔動き
〕の重みを減少させる。第7図に示した例では2重みを
増加させる場合には1元の重みを3倍し、減少させる場
合には0.3倍にする場合の例を示している。また、変
更後の重みを第斗図の「学習後の重み」の欄で示してい
る。
以上の処理で重みの学習が行われた後で、もう−度同じ
入力文が入力された場合には、第8図のように2文番号
1の類似度は1B、文番号2の類似度は25となり1文
番号2が1位に2文番号lが2位になり、順位が逆転す
る0以上の一連の処理を第9図に示す。
〔発明の効果〕
以上説明したように1本発明によれば、入力文と検索対
象文との類似度を、テキストベース蓄積手段に蓄積され
た重みを考慮して算出し、候補文表示手段によって表示
された文の中から、ユーザの目的に合った文を選択させ
、その選択結果に応じて1重みの増減を行うことによっ
て1選択された文のRjQ度が高くなるよう学習するた
め、同一またはI!伯の文を入力した場合には、ユーザ
の目的に合った文がより上位の候補として表示され目的
に合った文を容易に検索することができる。
また、システム設計者にとっては1重みをあらかしめ精
確に付与しなくても、検索を繰り返し行うことによって
、自動的に適切な重みが与えられるため、容易に検索能
力の高いテキストベース検索システムを構築することが
できる。
【図面の簡単な説明】
第1図は本発明の1実施例を示すブロック図。 第2図は単語辞書の例を示す図、第3図は形態素解析結
果の例を示す図、第4図はテキストベース蓄積部に保存
された情報の例を示す図、第5図は学習前の類(以度算
出の例を示す図、第6図は重み更新部の処理フローの例
を示す図、第7図は重み変更の例を示す図、第8図は学
習後の類似度算出の例を示す図、第9図は重み学習の実
行例を示す図である。 1・・・単語辞書、2・・・形態素解析部、3・・・テ
キストベース蓄積部、4・・・類似度算出部、5・・・
候補文表示部、6・・・ユーザ選択部、7・・・重み更
新部、8・・・重み学習型テキストベース検索装置。 入力文 単語辞書の例 第2図 本発明の1実施例を示すブロック圀 第1図 (CA’r:意味カテゴリ) 学習前の類似度算出の例 第5図 第6図 重み更新部 の処理フローの例 1回目 テキストベース検索結果 重み学習の実行例 第 図

Claims (1)

  1. 【特許請求の範囲】  文または単語列で表現された検索対象文を、文または
    単語列で表現された入力文で検索する検索装置において
    、 単語表記と意味カテゴリとを各単語に対して規定した単
    語辞書と、 検索対象文に含まれる単語の表記と意味カテゴリと重み
    とを蓄積したテキストベース蓄積手段と、前記単語辞書
    を参照して、入力文を構成する単語の表記と該単語の意
    味カテゴリとを抽出する形態素解析手段と、 前記形態素解析手段で得られた表記及び意味カテゴリと
    、前記テキストベース蓄積手段で蓄積された、表記,意
    味カテゴリ及び重みとを基に、各検索対象文の入力文と
    の類似性を表した類似度を算出する類似度算出手段と、 前記類似度算出手段で決定された類似度の大きさに基づ
    いて、順位づけして検索対象文を表示する候補文表示手
    段と、 表示された前記検索対象文の中からユーザに自分の意図
    にあった文を選択させるユーザ選択手段と、 前記入力文に含まれる表記及び意味カテゴリが、前記ユ
    ーザ選択手段で選択された検索対象文と選択されなかっ
    た検索対象文との両方に含まれるか、一方のみに含まれ
    るかによって、各検索対象文ごとに重みを増減させて、
    前記テキストベース蓄積手段に蓄積された重みを更新す
    る重み更新手段とを有する ことを特徴とする重み学習型テキストベース検索装置。
JP2163154A 1990-06-21 1990-06-21 重み学習型テキストベース検索装置 Expired - Fee Related JP2885482B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2163154A JP2885482B2 (ja) 1990-06-21 1990-06-21 重み学習型テキストベース検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2163154A JP2885482B2 (ja) 1990-06-21 1990-06-21 重み学習型テキストベース検索装置

Publications (2)

Publication Number Publication Date
JPH0454564A true JPH0454564A (ja) 1992-02-21
JP2885482B2 JP2885482B2 (ja) 1999-04-26

Family

ID=15768254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2163154A Expired - Fee Related JP2885482B2 (ja) 1990-06-21 1990-06-21 重み学習型テキストベース検索装置

Country Status (1)

Country Link
JP (1) JP2885482B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314297A (ja) * 1993-04-30 1994-11-08 Omron Corp 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JPH07297796A (ja) * 1994-04-21 1995-11-10 Matsushita Electric Ind Co Ltd テレビ選局支援装置
JPH0954780A (ja) * 1995-08-10 1997-02-25 Nec Corp 学習装置及び学習方法
JPH09251464A (ja) * 1996-03-18 1997-09-22 Nec Corp 情報検索装置
JPH1097545A (ja) * 1996-09-20 1998-04-14 Sharp Corp 情報処理装置
JPH10228475A (ja) * 1997-02-13 1998-08-25 Mitsubishi Electric Corp 類似検索装置
JPH11338864A (ja) * 1998-05-25 1999-12-10 Sharp Corp 学習機能付き検索装置
JP2007209023A (ja) * 2007-03-20 2007-08-16 Matsushita Electric Ind Co Ltd 番組選択支援装置とその方法
JP2019139577A (ja) * 2018-02-13 2019-08-22 日立Geニュークリア・エナジー株式会社 データ検索方法、データ検索装置及びプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314297A (ja) * 1993-04-30 1994-11-08 Omron Corp 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JPH07297796A (ja) * 1994-04-21 1995-11-10 Matsushita Electric Ind Co Ltd テレビ選局支援装置
JPH0954780A (ja) * 1995-08-10 1997-02-25 Nec Corp 学習装置及び学習方法
JPH09251464A (ja) * 1996-03-18 1997-09-22 Nec Corp 情報検索装置
JPH1097545A (ja) * 1996-09-20 1998-04-14 Sharp Corp 情報処理装置
JPH10228475A (ja) * 1997-02-13 1998-08-25 Mitsubishi Electric Corp 類似検索装置
JPH11338864A (ja) * 1998-05-25 1999-12-10 Sharp Corp 学習機能付き検索装置
JP2007209023A (ja) * 2007-03-20 2007-08-16 Matsushita Electric Ind Co Ltd 番組選択支援装置とその方法
JP4492627B2 (ja) * 2007-03-20 2010-06-30 パナソニック株式会社 番組選択支援装置とその方法
JP2019139577A (ja) * 2018-02-13 2019-08-22 日立Geニュークリア・エナジー株式会社 データ検索方法、データ検索装置及びプログラム

Also Published As

Publication number Publication date
JP2885482B2 (ja) 1999-04-26

Similar Documents

Publication Publication Date Title
JP3981734B2 (ja) 質問応答システムおよび質問応答処理方法
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
CN111611361A (zh) 抽取式机器智能阅读理解问答系统
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
US9514098B1 (en) Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
CN109032375A (zh) 候选文本排序方法、装置、设备及存储介质
JPH04357568A (ja) テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US20100293162A1 (en) Automated Keyword Generation Method for Searching a Database
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
CN112541349A (zh) 输出装置以及记录媒体
JPH0454564A (ja) 重み学習型テキストベース検索装置
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JPH07262217A (ja) テキスト検索装置
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
CN112445887B (zh) 基于检索的机器阅读理解系统的实现方法及装置
JP3499658B2 (ja) 対話支援装置
JP2024501501A (ja) クエリ生成パターンのチューニング
JPH09319767A (ja) 類義語辞書登録方法
JP3656907B2 (ja) 翻訳支援装置
JP2732661B2 (ja) テキスト型データベース装置
Das et al. An improvement of Bengali factoid question answering system using unsupervised statistical methods
CN112732885A (zh) 用于问答系统的答案扩展方法、装置及电子设备
JP6549441B2 (ja) 入力支援装置、プログラムおよび入力支援方法
JP2005056125A (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100212

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees