JP2885482B2 - 重み学習型テキストベース検索装置 - Google Patents

重み学習型テキストベース検索装置

Info

Publication number
JP2885482B2
JP2885482B2 JP2163154A JP16315490A JP2885482B2 JP 2885482 B2 JP2885482 B2 JP 2885482B2 JP 2163154 A JP2163154 A JP 2163154A JP 16315490 A JP16315490 A JP 16315490A JP 2885482 B2 JP2885482 B2 JP 2885482B2
Authority
JP
Japan
Prior art keywords
sentence
weight
search target
notation
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2163154A
Other languages
English (en)
Other versions
JPH0454564A (ja
Inventor
比呂志 松尾
浩司 立野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2163154A priority Critical patent/JP2885482B2/ja
Publication of JPH0454564A publication Critical patent/JPH0454564A/ja
Application granted granted Critical
Publication of JP2885482B2 publication Critical patent/JP2885482B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は,自然文または単語列で表現されたデータ
を検索対象として,入力される文または単語列との類似
性を考慮して検索する重み学習型テキストベース検索装
置に関する。
〔従来の技術〕
文または単語列で表現された検索対象文を検索対象と
する従来のデータベース装置として,検索対象文と入力
文との類似度を算出して検索するテキスト型データベー
ス装置が知られている(例えば,特願平1−111626「テ
キスト型データベース装置」)。
〔発明が解決しようとする課題〕
しかしながら,類似度の算出はあらかじめ決められた
算出法に基づいて算出されるため,的確な検索結果が得
られない入力文に対しては,何度入力しても的確な検索
結果が得られなかった。
この発明は,自然文または単語列で表現された検索対
象文を検索対象とし,表示された候補文の中からユーザ
が選択した選択結果に基づいて,類似度算出で用いる重
みを自動的に変更することにより,次回の入力からは的
確な検索結果が得られるよう学習するようにすることを
目的としている。
〔課題を解決するための手段〕
この発明によるテキストベース検索装置は,単語辞
書,形態素解析部,テキストベース蓄積部,類似度算出
部,候補文表示部,ユーザ選択部,重み更新部をそなえ
るように構成されている。そして,上記類似度算出部に
よって候補文を抽出し,上記候補文表示部によって表示
する。そして,その結果をみて,重みを変更するように
する。
〔作 用〕
候補文表示部5で表示された文をユーザが選択した
後,入力文に含まれる表記及び意味カテゴリが,選択さ
れた選択対象文と選択されなかった検索対象文との両方
に含まれるか,一方のみに含まれるかによって,各検索
対象文ごとに重みを増減させて,テキストベース蓄積部
3に蓄積された重みを更新することによって,次回の入
力から的確な検索結果が得られるよう学習する。
〔実施例〕
第1図は本発明の実施例を示すブロック図である。以
下,第1図において,1は単語辞書,2は形態素解析部,3は
テキストベース蓄積部,4は類似度算出部,5は候補文表示
部,6はユーザ選択部,7は重み更新部,8は重み学習型テキ
ストベース検索装置を表している。なお,以下の説明に
おいては,意味カテゴリごとに重みを付与する方法につ
いて説明するが,表記に対して重みを付与する方法や意
味カテゴリと表記の両方に重みを付与する方法などに
も,同様な方法で実現できる。
第2図は単語辞書1の例を示す図である。単語辞書1
には,形態素解析処理で必要な単語表記及び意味カテゴ
リを蓄積している。例えば,単語表記「LSE」には2つ
の意味カテゴリ〔記号〕,〔装置〕が付与されている。
形態素解析部2は,単語辞書1を参照して,入力文を
構成する単語の表記と各単語の意味カテゴリとを抽出す
る。第3図は,入力文「LCNEが異常動作する。」を入力
したときの形態素解析結果の例を示す図である。
類似度算出部4は,形態素解析部2で得られた結果と
テキストベース蓄積部3の情報とを基に各検索対象文と
入力文との間の類似性を表す評価値を計算する。
テキストベース蓄積部3には,第4図に示すように,
検索対象文に含まれる単語の表記と意味カテゴリと重み
を蓄積している。文番号1は検索対象文「LSEの動作が
異常。」に対して保存された情報であり,例えば,意味
カテゴリ〔信号〕には0.5の重みが付与されている。表
記及び意味カテゴリは,形態素解析部2と同様な方法で
得ることができる。重みに対しては,重要度を考慮して
設定することもできるが,ここでは,各単語に対する重
みの合計が1.0となるよう,各単語に付与されている意
味カテゴリの個数で1.0を割った値を与えた場合につい
て説明する。
類似度算出方法には多くの方法があるが,以下ではそ
の1例について説明する。検索対象文pに対する類似度
をVp,検索対象文p中の意味カテゴリをCpk,意味カテゴ
リCpkに対する得点および重みを各々Dpk,Wpkとする。
ただし,Dpk= 0:Cpkが入力文中に存在しない場合 10:Cpkが入力文中に存在する場合 評価値Vpを以下のように与える。
Vp=Wp1・Dp1+Wp2・Dp2+… 第5図は,第3図で用いた入力文と同じ入力文を与え
たときの,文番号1および文番号2の検索対象文に対す
る類似度V1,V2の算出の例を示している。
文番号1に対する,類似度算出の例を以下で説明す
る。
C11=〔信号〕,C12=〔装置〕,C13=〔動き〕,C14=
〔異常〕,とすると, 重みは以下の値がテキストベース蓄積部3から与えら
れる。
W11=0.5,W12=0.5,W13=1.0,W14=1.0 入力文中にも含まれる意味カテゴリは,〔装置〕,
〔動き〕,〔異常〕であるため,得点は次のように与え
られる。
D11=0,D12=10,D13=10,D14=10 その結果,文番号1の類似度は,V1=25となる。
同様に,文番号2の類似度は,V2=15となる。
候補文表示部5は,類似度算出部4で得られた類似度
で順位を付けて,検索対象文を表示する。ここでの例で
は,1位に文番号1の検索対象文が,2位に文番号2の検索
対象文が表示される。
ユーザ選択部6で,ユーザは表示された文の中から自
分の目的に合った文を選択する。一般には,検索対象文
をこれに対応する詳細な内容と関係づけ,目的に合った
文を選択することによって,その詳細な内容を見ること
ができるよう構成する。このため,この選択操作は単に
学習のためだけに必要な操作でなく,ユーザに余分の負
担をかけるものではない。
ここで,ユーザが2位の文,すなわち,文番号2の文
「LCNEが故障した。」を選択したとする。
重み更新部7では,選択された結果に応じて,重みを
増減させて,テキストベース蓄積部3に蓄積された重み
を更新する。重みの増減は,選択された文kの類似度が
高く,それより上位にある検索対象文の類似度が低くな
るよう変更する。第6図は,重み更新部7の処理フロー
の1例を示した図である。
入力文中に含まれる意味カテゴリCi(i=1,2,…,n)
の各々に着目し(S61,S62), (1)ユーザが選択した文が意味カテゴリCiを含み,か
つ,文kより上位にある候補文(検索対象文)が意味カ
テゴリCiを含む場合(S63,S64)には,文kのCiに対す
る重みを増加させる(S65)。
(2)ユーザが選択した文が意味カテゴリCiを含まず,
かつ,文kより上位にある候補文(検索対象文)pが意
味カテゴリCiを含む場合(S63,S66)には,文pのCiに
対する重みを減少させる(S67)。ただし,pは複数存在
し得,その各々に対して同様の処理を行う(S68,S6
9)。
第7図は,重みの変更例を示した図である。例えば,
入力文中の意味カテゴリ〔集線〕は,選択された2位の
文(文番号2)には含まれるが,その上位の1位の文に
は含まれないため,文番号2における〔集線〕の重みを
増加させる。一方,〔動き〕は文番号2の文には含まれ
ないが,1位の文(文番号1)には含まれるので,文番号
1における〔動き〕の重みを減少させる。第7図に示し
た例では,重みを増加させる場合には,元の重みを3倍
し,減少させる場合には0.3倍にする場合の例を示して
いる。また,変更後の重みを第4図の「学習後の重み」
の欄で示している。
以上の処理で重みの学習が行われた後で,もう一度同
じ入力文が入力された場合には,第8図のように,文番
号1の類似度は18,文番号2の類似度は25となり,文番
号2が1位に,文番号1が2位になり,順位が逆転す
る。以上の一連の処理を第9図に示す。
〔発明の効果〕
以上説明したように,本発明によれば,入力文と検索
対象文との類似度を,テキストベース蓄積手段に蓄積さ
れた重みを考慮して算出し,候補文表示手段によって表
示された文の中から,ユーザの目的に合った文を選択さ
せ,その選択結果に応じて,重みの増減を行うことによ
って,選択された文の類似度が高くなるよう学習するた
め,同一または類似の文を入力した場合には,ユーザの
目的に合った文がより上位の候補として表示され,目的
に合った文を容易に検索することができる。
また,システム設計者にとっては,重みをあらかじめ
精確に付与しなくても,検索を繰り返し行うことによっ
て,自動的に適切な重みが与えられるため,容易に検索
能力の高いテキストベース検索システムを構築すること
ができる。
【図面の簡単な説明】
第1図は本発明の1実施例を示すブロック図,第2図は
単語辞書の例を示す図,第3図は形態素解析結果の例を
示す図,第4図はテキストベース蓄積部に保存された情
報の例を示す図,第5図は学習前の類似度算出の例を示
す図,第6図は重み更新部の処理フローの例を示す図,
第7図は重み変更の例を示す図,第8図は学習後の類似
度算出の例を示す図,第9図は重み学習の実行例を示す
図である。 1……単語辞書,2……形態素解析部,3……テキストベー
ス蓄積部,4……類似度算出部,5……候補文表示部,6……
ユーザ選択部,7……重み更新部,8……重み学習型テキス
トベース検索装置。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 松尾、大山、中川「日本語対話処理の ためのユーザー入力支援」情報処理学会 第38回(昭和64年前期)全国大会講演論 文集(▲I▼)P.400−401(平1−3 −15) 森、外3名「ニューラルネットワーク を用いた適応文献検索システム」人間工 学.第25巻、特別号、P.306−307 1989(平1−4−10) (58)調査した分野(Int.Cl.6,DB名) G06F 17/27 - 17/30 JICST科学技術文献ファイル

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文または単語列で表現された検索対象文
    を,文または単語列で表現された入力文で検索する検索
    装置において, 単語表記と意味カテゴリとを各単語に対して規定した単
    語辞書と, 検索対象文に含まれる単語の表記と意味カテゴリと重み
    とを蓄積したテキストベース蓄積手段と, 前記単語辞書を参照して、入力文を構成する単語の表記
    と該単語の意味カテゴリとを抽出する形態素解析手段
    と, 前記形態素解析手段で得られた表記及び意味カテゴリ
    と,前記テキストベース蓄積手段で蓄積された,表記,
    意味カテゴリ及び重みとを基に,各検索対象文の入力文
    との類似性を表した類似度を算出する類似度算出手段
    と, 前記類似度算出手段で決定された類似度の大きさに基づ
    いて,順位づけして検索対象文を表示する候補文表示手
    段と, 表示された前記検索対象文の中からユーザに自分の意図
    にあった文を選択させるユーザ選択手段と, 前記入力文に含まれる表記及び意味カテゴリが,前記ユ
    ーザ選択手段で選択された検索対象文と選択されなかっ
    た検索対象文との両方に含まれるか,一方のみに含まれ
    るかによって,各検索対象文ごとに重みを増減させて,
    前記テキストベース蓄積手段に蓄積された重みを更新す
    る重み更新手段とを有する ことを特徴とする重み学習型テキストベース検索装置。
JP2163154A 1990-06-21 1990-06-21 重み学習型テキストベース検索装置 Expired - Fee Related JP2885482B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2163154A JP2885482B2 (ja) 1990-06-21 1990-06-21 重み学習型テキストベース検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2163154A JP2885482B2 (ja) 1990-06-21 1990-06-21 重み学習型テキストベース検索装置

Publications (2)

Publication Number Publication Date
JPH0454564A JPH0454564A (ja) 1992-02-21
JP2885482B2 true JP2885482B2 (ja) 1999-04-26

Family

ID=15768254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2163154A Expired - Fee Related JP2885482B2 (ja) 1990-06-21 1990-06-21 重み学習型テキストベース検索装置

Country Status (1)

Country Link
JP (1) JP2885482B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3428068B2 (ja) * 1993-04-30 2003-07-22 オムロン株式会社 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JP3572658B2 (ja) * 1994-04-21 2004-10-06 松下電器産業株式会社 番組選択支援装置と番組選択支援方法
JP2870458B2 (ja) * 1995-08-10 1999-03-17 日本電気株式会社 学習装置及び学習方法
JPH09251464A (ja) * 1996-03-18 1997-09-22 Nec Corp 情報検索装置
JPH1097545A (ja) * 1996-09-20 1998-04-14 Sharp Corp 情報処理装置
JP3664834B2 (ja) * 1997-02-13 2005-06-29 三菱電機株式会社 類似検索装置
JP3495912B2 (ja) * 1998-05-25 2004-02-09 シャープ株式会社 学習機能付き検索装置
JP4492627B2 (ja) * 2007-03-20 2010-06-30 パナソニック株式会社 番組選択支援装置とその方法
JP6852002B2 (ja) * 2018-02-13 2021-03-31 日立Geニュークリア・エナジー株式会社 データ検索方法、データ検索装置及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
松尾、大山、中川「日本語対話処理のためのユーザー入力支援」情報処理学会第38回(昭和64年前期)全国大会講演論文集(▲I▼)P.400−401(平1−3−15)
森、外3名「ニューラルネットワークを用いた適応文献検索システム」人間工学.第25巻、特別号、P.306−307 1989(平1−4−10)

Also Published As

Publication number Publication date
JPH0454564A (ja) 1992-02-21

Similar Documents

Publication Publication Date Title
CN106663125B (zh) 提问句生成装置以及记录介质
CN112527999B (zh) 引入农业领域知识的抽取式智能问答方法及系统
US6205443B1 (en) Overlapping subdocuments in a vector space search process
US6564210B1 (en) System and method for searching databases employing user profiles
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP2943447B2 (ja) テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US20080215565A1 (en) Searching heterogeneous interrelated entities
US20080215541A1 (en) Techniques for searching web forums
US20100325133A1 (en) Determining a similarity measure between queries
US20110264659A1 (en) Training a ranking function using propagated document relevance
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
US9721309B2 (en) Ranking of discussion threads in a question-and-answer forum
US20210103622A1 (en) Information search method, device, apparatus and computer-readable medium
JPH03172966A (ja) 類似文書検索装置
US8458196B1 (en) System and method for determining topic authority
JP2885482B2 (ja) 重み学習型テキストベース検索装置
CN112541349A (zh) 输出装置以及记录媒体
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
JP2022049150A (ja) 文書検索装置、文書検索方法、及びプログラム
Chandu et al. Extractive Approach For Query Based Text Summarization
Hamoud et al. Using an Islamic Question and Answer Knowledge Base to answer questions about the holy Quran
US8745078B2 (en) Control computer and file search method using the same
US6473755B2 (en) Overlapping subdocuments in a vector space search process
Xie et al. Joint entity linking for web tables with hybrid semantic matching
JPH09319767A (ja) 類義語辞書登録方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100212

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees