JPH11250062A - 虫喰い問題解答生成装置および方法と虫喰い問題解答生成プログラムを記録した記録媒体 - Google Patents

虫喰い問題解答生成装置および方法と虫喰い問題解答生成プログラムを記録した記録媒体

Info

Publication number
JPH11250062A
JPH11250062A JP10047696A JP4769698A JPH11250062A JP H11250062 A JPH11250062 A JP H11250062A JP 10047696 A JP10047696 A JP 10047696A JP 4769698 A JP4769698 A JP 4769698A JP H11250062 A JPH11250062 A JP H11250062A
Authority
JP
Japan
Prior art keywords
article
expression
linguistic expression
occurrence
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10047696A
Other languages
English (en)
Inventor
Keisuke Nakamura
圭介 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10047696A priority Critical patent/JPH11250062A/ja
Publication of JPH11250062A publication Critical patent/JPH11250062A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 各記事の冗長性を考慮しながら解候補の評価
に必要な証拠の集中度(情報省略による歪みの少なさ)
を迅速に評価できる新規な虫喰い問題解答生成装置およ
び方法と虫喰い問題解答生成プログラムを記録した記録
媒体を提供する。 【解決手段】 虫喰い問題を最低の一致度および未処理
印とともに唯一の上位解候補として記憶し、以降未処理
印のついている最も一致度の高い上位解候補である最良
未処理候補の未処理印を処理済印に書き換える処理と該
最良未処理候補が虫喰い部分を含んでいる場合に該最良
未処理候補を解候補生成手段に入力して出力される各言
語表現である解候補のうち上位解候補として記憶されて
いない解候補を記事集合一致度計算手段で評価し、各一
致度および各未処理印とともに上位解候補に加えた上で
一致度の高さが所定の範囲以内に入れない上位解候補を
記憶から削除する処理とを未処理印がなくなるまで交互
に繰り返し、記憶に残った上位解候補を一致度が高い順
に出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば新聞記事、
判例、小説、百科辞典等の自然言語テキストを知識源と
して虫喰い部分を含む言葉の並びである虫喰い言語表現
で与えられる虫喰い問題に対する解答を生成する例えば
計算機システムからなる虫喰い問題解答生成装置および
方法と虫喰い問題解答生成プログラムを記録した記録媒
体に関する。
【0002】
【従来の技術】この種の従来の虫喰い問題解答生成装置
としては、例えば特願平9−119575号に記載さ
れ、図2に示すように構成されているものがある。この
虫喰い問題解答生成装置は、連続的または離散的な虫喰
い部分を有する言葉の並びである虫喰い言語表現で与え
られる虫喰い問題Qに対して記事の集合をもとに解答を
生成するものである。
【0003】図2において、11は記事の集合(T)を
蓄積する記事蓄積手段であり、12は言葉の間の意味的
な類似度を格納する意味的類似度格納手段12である。
この意味的類似度格納手段12は例えば次の表1に示す
ような2つの言葉間の意味的類似度(0.0〜1.0)
に関する知識を格納する。
【0004】
【表1】 13は虫喰い言語表現を入力とし、記事集合Tに含まれ
る言葉を1つ、該虫喰い言語表現の連続する虫喰い部分
の全部または一部を埋めるものとして、該言葉と意味的
に類似する言葉が近傍に存在しないように配置すること
により生成しうるあらゆる言語表現を出力する解候補生
成手段であり、14は2個以上であるx個の言葉からな
る言語表現 P=(p1 ,p2 ,…,px ) を入力として、該言語表現を該言語表現中のあらゆる2
つの言葉と該2つの言葉の相対的位置の組である共起組
の集合
【数4】 R(P)={(p1 ,p2 ,1),(p1 ,p3 ,2),…, (p1 ,px ,x−1),(p2 ,p3 ,1), (p2 ,p4 ,2),…,(p2 ,px ,x−2),…, (px-1 ,px ,1)} に分解する分解手段である。
【0005】15は言語表現と該言語表現を前記分解手
段14で分解して得られる共起組とを入力とし、該共起
組の2つの言葉の距離をもとに該言語表現に占める該共
起組の重要性の割合である重みを計算する重み計算手段
であり、16は言語表現を入力とし、該言語表現を前記
分解手段14で分解して得られる各共起組のそれぞれに
ついて重み計算手段15で重みを求め、かつ記事集合T
を記事毎に分解手段14で分解してできる各共起組集合
の和集合に存在するすべての共起組のうちで2つの言葉
の意味の組および相対的位置の類似している度合(以
下、共起組間の元類似度と呼ぶ)が最も大きくなる共起
組との元類似度(以下、最大類似度と呼ぶ)を求め、前
記重みと該最大類似度との積をすべて足し合わせた値で
ある一致度を計算する記事集合一致度計算手段である。
【0006】17は虫喰い問題Qから出発して解候補生
成手段13を再帰的に適用することにより生成しうる言
語表現(解候補)のうち記事集合一致度計算手段16に
よる記事集合Tとの一致度が高いものを近似的に探索
し、上位の解候補を出力する機能を実現する全体制御手
段であり、以下のような操作からなる。
【0007】(1)虫喰い問題Qを最低の一致度および
未処理印とともに唯一の上位解候補として記憶する操
作、(2)未処理印のついている最も一致度の高い上位
解候補(以降、最良未処理候補と呼ぶ)の未処理印を処
理済印に書き換える操作、(3)前記最良未処理候補が
虫喰い部分に含んでいる場合に、該最良未処理候補を解
候補生成手段13に入力し、該解候補生成手段13から
出力される各言語表現(以降、解候補と呼ぶ)のうち上
位解候補として記憶されていない解候補を記事集合一致
度計算手段16で評価し、各一致度および未処理印とと
もに上位解候補に加えた上で一致度の高さが所定の範囲
以内に入れない上位解候補を記憶から削除する操作、お
よび(4)上位解候補に未処理印が存在する場合、前記
操作(2)に戻り、存在しない場合、記憶に残った上位
解候補を一致度が高い順に出力する操作。
【0008】なお、全体制御手段17には入力装置19
aおよび出力装置19bが接続されている。
【0009】次に、上述した従来の虫喰い問題解答生成
装置を使用した場合の具体例について説明する。例え
ば、記事蓄積手段11に蓄積される知識源として4個の
記事を含む次に示すテキストT、すなわち
【表2】 記事1:「太郎 は 常々 犬 が 友達。」 記事2:「次郎 は 常々 猫 が 友達。」 記事3:「太郎 は 猫 に とて も 似て いる。
大人 に なっても やはり 太郎 は 猫 に とて
も 似て いる。」 記事4:「次郎 は 常々 猫 が 友達。大人 に
なっ たらペット ショップ の 店員 に なっ
た。」 が用意され、 「太郎がいつも好きなものは何か?」 「次郎がいつも好きなものは何か?」 という2つの問題意識に基づいて、それぞれ、
【表3】 質問1:「太郎;は;X;が;いつも;好き;。」 質問2:「次郎;は;X;が;いつも;好き;。」 という2つの虫喰い問題(Xが虫喰い部分)を入力した
場合の結果(評価が高い順に上位10個までの解候補の
集合)は以下のようになる。表は、左の桁が評価値であ
り、右の桁が(虫喰い部分の埋まった)解候補である。
ただし、「;」セミコロンは言葉の区切りを示す。
【0010】
【表4】
【0011】
【発明が解決しようとする課題】上述した質問1の結果
では、1位/0.625187:「太郎は猫がいつも好
き。」3位/0.557922:「太郎は犬がいつも好
き。」となっており、「太郎は猫も犬も、いつも好き」
「どちらかというと猫が好き」ということになってい
る。ところが実際の記事では、「犬がいつも好き」とい
う内容に関しては記事1に「太郎は常々犬が友達。」と
いう有力な証拠があるが、「猫がいつも好き」という内
容に関しては記事3「猫にとても似ている、、、」とい
う記述しかなく、とても「犬と同じぐらい好き」とまで
は言われていない。同様の弊害は質問2の結果(3位の
0.535501:「次郎は犬がいつも好き。」)にお
いても生じている。
【0012】この原因は、解候補を評価する上での証拠
となる共起組をどのぐらい集中的に(つまり情報を省略
せずに)抽出したかを評価せず、いろんな記事のいろん
な部分から抽出した証拠(共起組)を一様に扱っている
からである。
【0013】例えば、質問1の解答では、「0.625
187:太郎は猫がいつも好き。」となっている。この
0.625187という評価は、記事3から得られる共
起組:(太郎、猫、距離2)と、記事2から得られる共
起組:(猫、友達、距離2)とを一様に扱うことによっ
て生じたものである。しかし、共起組:(猫、友達、距
離2)は次郎について述べた記事2から得たものであ
り、太郎について述べている記事3から得た共起組:
(太郎、猫、距離2)とは、本来一様に扱うべきでな
い。これらを一様に扱うことにより、記事の情報が歪ん
だまま解釈され、「0.625187:太郎は猫がいつ
も好き。」という不適切な最上位解が生成されてしま
う。
【0014】証拠(共起組)の集中度(省略情報の少な
さ)を近似的に評価する方法の1つとしては、証拠を集
めた記事の長さとして言葉の数(あるいはその合計)を
求め、短いほど信頼できる証拠(解候補)とすることも
考えられる。例えば、記事2(長さ=7)から集めた証
拠の信頼度を記事4(長さ=19)から集めた証拠の信
頼度の19/7倍とすることにより、記事4の不必要な
部分(「大人になったらペットショップの店員になっ
た。」)の、必要な部分(「次郎は常々猫が友達。」)
に対する省略歪み効果を近似するという考え方である。
【0015】しかし、こういった記事の長さによる近似
では、例えば記事3のように同じ内容(「太郎は猫にと
ても似ている」)が繰り返し出てくる(冗長な)記事に
関しては、必要な部分(「太郎は猫にとても似てい
る」)に対する不必要な部分(「大人になっもやは
り」)の省略歪み効果を適切に評価することはできな
い。
【0016】実際、証拠の信頼度をその証拠を抽出した
「個々の」記事の長さ(「合計」ではない)に反比例す
るように設定して計算した結果は以下のようになり、
「犬」の場合と「猫」の場合とで評価値に有意な差が生
じてこない。
【0017】
【表5】 そのうえ、記事の長さの「合計」をとる手法について
は、採用する記事のわずかな組み合わせの違いで解候補
の評価値に大きな変動が生じてしまうため、「合計の少
なさ」と「証拠の網羅性」とのトレードオフの中で
(準)最適解を見つける計算に、記事数に比例する以上
のコストがかかってしまう。
【0018】本発明は、上記に鑑みてなされたもので、
その目的とするところは、各記事の冗長性を考慮しなが
ら解候補の評価に必要な証拠の集中度(情報省略による
歪みの少なさ)を迅速に評価できる新規な虫喰い問題解
答生成装置および方法と虫喰い問題解答生成プログラム
を記録した記録媒体を提供することにある。
【0019】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、言葉の並びである言語表
現を知識源として1つまたは複数の虫喰い部分を含む言
葉の並びである虫喰い言語表現で与えられた虫喰い問題
に対する解答を生成する虫喰い問題解答生成装置であっ
て、知識源となる言語表現である記事の集合を蓄積する
記事蓄積手段と、言葉の間の意味的な類似度を格納した
意味的類似度格納手段と、虫喰い言語表現を入力とし、
前記記事集合に含まれる言葉を1つ、該虫喰い言語表現
のいずれかの虫喰い部分の全部または一部を埋めるもの
として、該言葉と意味的に類似する言葉が近傍に存在し
ないように配置することにより生成しうるあらゆる言語
表現を出力する解候補生成手段と、2個以上であるx個
の言葉からなる言語表現 P=(p1 ,p2 ,…,px ) を入力として、該言語表現を該言語表現中のあらゆる2
つの言葉と該2つの言葉の相対的位置の組である共起組
の集合
【数5】 R(P)={(p1 ,p2 ,1),(p1 ,p3 ,2),…, (p1 ,px ,x−1),(p2 ,p3 ,1), (p2 ,p4 ,2),…,(p2 ,px ,x−2),…, (px-1 ,px ,1)} に分解する分解手段と、言語表現と該言語表現を前記分
解手段で分解して得られる共起組とを入力とし、該共起
組の2つの言葉の距離をもとに該言語表現に占める該共
起組の重要性の割合である重みを計算する重み計算手段
と、記事と言語表現とを入力とし、該記事を前記分解手
段で分解して得られる各共起組のそれぞれについて前記
重み計算手段で重みを求め、前記入力された言語表現を
前記分解手段で分解してできる共起組集合に存在するす
べての共起組のうちで2つの言葉の意味の組および相対
的位置の類似している度合である共起組間の元類似度が
最も大きくなる共起組との元類似度である言語表現最大
類似度を求め、前記重みと該言語表現最大類似度との積
をすべて足し合わせた値である言語表現記事関連度を計
算する言語表現記事関連度計算手段と、言語表現を入力
とし、該言語表現に対する前記記事集合の各記事の言語
表現記事関連度を前記言語表現記事関連度計算手段で求
め、該言語表現を前記分解手段で分解して得られる各共
起組のそれぞれについて前記重み計算手段で重みを求
め、前記記事集合を記事毎に前記分解手段で分解してで
きる各共起組集合の和集合に存在するすべての共起組の
うちで共起組間の元類似度と共起組が属する記事の言語
表現記事関連度との積が最大となる共起組との積である
関連最大類似度を求め、前記重みと該関連最大類似度と
の積をすべて足し合わせた値である一致度を計算する記
事集合一致度計算手段と、前記虫喰い問題を最低の一致
度および未処理印とともに唯一の上位解候補として記憶
し、以降未処理印のついている最も一致度の高い上位解
候補である最良未処理候補の未処理印を処理済印に書き
換える処理と、該最良未処理候補が虫喰い部分を含んで
いる場合に該最良未処理候補を前記解候補生成手段に入
力し、該解候補生成手段から出力される各言語表現であ
る解候補のうち上位解候補として記憶されていない解候
補を前記記事集合一致度計算手段で評価し、各一致度お
よび各未処理印とともに上位解候補に加えた上で一致度
の高さが所定の範囲以内に入れない上位解候補を記憶か
ら削除する処理とを未処理印がなくなるまで交互に繰り
返し行い、記憶に残った上位解候補を一致度が高い順に
出力する制御手段とを有することを要旨とする。
【0020】請求項1記載の本発明にあっては、虫喰い
問題を最低の一致度および未処理印とともに唯一の上位
解候補として記憶し、以降未処理印のついている最も一
致度の高い上位解候補である最良未処理候補の未処理印
を処理済印に書き換える処理と、該最良未処理候補が虫
喰い部分を含んでいる場合に該最良未処理候補を解候補
生成手段に入力し、該解候補生成手段から出力される各
言語表現である解候補のうち上位解候補として記憶され
ていない解候補を記事集合一致度計算手段で評価し、各
一致度および各未処理印とともに上位解候補に加えた上
で一致度の高さが所定の範囲以内に入れない上位解候補
を記憶から削除する処理とを未処理印がなくなるまで交
互に繰り返し行い、記憶に残った上位解候補を一致度が
高い順に出力するため、記事の内容をより正確に反映す
ることができる。
【0021】また、請求項2記載の本発明は、言葉の並
びである言語表現を知識源として1つまたは複数の虫喰
い部分を含む言葉の並びである虫喰い言語表現で与えら
れた虫喰い問題に対する解答を生成する虫喰い問題解答
生成方法であって、知識源となる言語表現である記事の
集合を記事蓄積手段に蓄積しておき、言葉の間の意味的
な類似度を意味的類似度格納手段に格納しておき、虫喰
い言語表現を入力とし、前記記事集合に含まれる言葉を
1つ、該虫喰い言語表現のいずれかの虫喰い部分の全部
または一部を埋めるものとして、該言葉と意味的に類似
する言葉が近傍に存在しないように配置することにより
生成しうるあらゆる言語表現を解候補として出力する解
候補生成処理を設け、2個以上であるx個の言葉からな
る言語表現 P=(p1 ,p2 ,…,px ) を入力として、該言語表現を該言語表現中のあらゆる2
つの言葉と該2つの言葉の相対的位置の組である共起組
の集合
【数6】 R(P)={(p1 ,p2 ,1),(p1 ,p3 ,2),…, (p1 ,px ,x−1),(p2 ,p3 ,1), (p2 ,p4 ,2),…,(p2 ,px ,x−2),…, (px-1 ,px ,1)} に分解する分解処理を設け、言語表現と該言語表現を前
記分解処理で分解して得られる共起組とを入力とし、該
共起組の2つの言葉の距離をともに該言語表現に占める
該共起組の重要性の割合である重みを計算する重み計算
処理を設け、記事と言語表現とを入力とし、該記事を前
記分解処理で分解して得られる各共起組のそれぞれにつ
いて前記重み計算処理で重みを求め、前記入力された言
語表現を前記分解処理で分解してできる共起組集合に存
在するすべての共起組のうちで2つの言葉の意味の組お
よび相対的位置の類似している度合である共起組間の元
類似度が最も大きくなる共起組との元類似度である言語
表現最大類似度を求め、前記重みと該言語表現最大類似
度との積をすべて足し合わせた値である言語表現記事関
連度を計算する言語表現記事関連度計算処理を設け、言
語表現を入力とし、該言語表現に対する前記記事集合の
各記事の言語表現記事関連度を前記言語表現記事関連度
計算処理で求め、該言語表現を前記分解処理で分解して
得られる各共起組のそれぞれについて前記重み計算処理
で重みを求め、前記記事集合を記事毎に前記分解処理で
分解してできる各共起組集合の和集合に存在するすべて
の共起組のうちで共起組間の元類似度と共起組が属する
記事の言語表現記事関連度との積が最大となる共起組と
の積である関連最大類似度を求め、前記重みと該関連最
大類似度との積をすべて足し合わせた値である一致度を
計算する記事集合一致度計算処理を設け、前記虫喰い問
題を最低の一致度および未処理印とともに唯一の上位解
候補として記憶し、以降未処理印のついている最も一致
度の高い上位解候補である最良未処理候補の未処理印を
処理済印に書き換える処理と、該最良未処理候補が虫喰
い部分を含んでいる場合に該最良未処理候補を前記解候
補生成処理で処理して、該解候補生成処理から出力され
る各言語表現である解候補のうち上位解候補として記憶
されていない解候補を前記記事集合一致度計算処理で評
価し、各一致度および各未処理印とともに上位解候補に
加えた上で一致度の高さが所定の範囲以内に入れない上
位解候補を記憶から削除する処理とを未処理印がなくな
るまで交互に繰り返し行い、記憶に残った上位解候補を
一致度が高い順に出力することを要旨とする。
【0022】請求項2記載の本発明にあっては、虫喰い
問題を最低の一致度および未処理印とともに唯一の上位
解候補として記憶し、以降未処理印のついている最も一
致度の高い上位解候補である最良未処理候補の未処理印
を処理済印に書き換える処理と、該最良未処理候補が虫
喰い部分を含んでいる場合に該最良未処理候補を解候補
生成処理で処理して、該解候補生成処理から出力される
各言語表現である解候補のうち上位解候補として記憶さ
れていない解候補を記事集合一致度計算処理で評価し、
各一致度および各未処理印とともに上位解候補に加えた
上で一致度の高さが所定の範囲以内に入れない上位解候
補を記憶から削除する処理とを未処理印がなくなるまで
交互に繰り返し行い、記憶に残った上位解候補を一致度
が高い順に出力するため、記事の内容をより正確に反映
することができる。
【0023】更に、請求項3記載の本発明は、言葉の並
びである言語表現を知識源として1つまたは複数の虫喰
い部分を含む言葉の並びである虫喰い言語表現で与えら
れた虫喰い問題に対する解答を生成する虫喰い問題解答
生成プログラムを記録した記録媒体であって、知識源と
なる言語表現である記事の集合を記事蓄積手段に蓄積し
ておき、言葉の間の意味的な類似度を意味的類似度格納
手段に格納しておき、虫喰い言語表現を入力とし、前記
記事集合に含まれる言葉を1つ、該虫喰い言語表現のい
ずれかの虫喰い部分の全部または一部を埋めるものとし
て、該言葉と意味的に類似する言葉が近傍に存在しない
ように配置することにより生成しうるあらゆる言語表現
を解候補として出力する解候補生成処理を設け、2個以
上であるx個の言葉からなる言語表現 P=(p1 ,p2 ,…,px ) を入力として、該言語表現を該言語表現中のあらゆる2
つの言葉と該2つの言葉の相対的位置の組である共起組
の集合
【数7】 R(P)={(p1 ,p2 ,1),(p1 ,p3 ,2),…, (p1 ,px ,x−1),(p2 ,p3 ,1), (p2 ,p4 ,2),…,(p2 ,px ,x−2),…, (px-1 ,px ,1)} に分解する分解処理を設け、言語表現と該言語表現を前
記分解処理で分解して得られる共起組とを入力とし、該
共起組の2つの言葉の距離をもとに該言語表現に占める
該共起組の重要性の割合である重みを計算する重み計算
処理を設け、記事と言語表現とを入力とし、該記事を前
記分解処理で分解して得られる各共起組のそれぞれにつ
いて前記重み計算処理で重みを求め、前記入力された言
語表現を前記分解処理で分解してできる共起組集合に存
在するすべての共起組のうちで2つの言葉の意味の組お
よび相対的位置の類似している度合である共起組間の元
類似度が最も大きくなる共起組との元類似度である言語
表現最大類似度を求め、前記重みと該言語表現最大類似
度との積をすべて足し合わせた値である言語表現記事関
連度を計算する言語表現記事関連度計算処理を設け、言
語表現を入力とし、該言語表現に対する前記記事集合の
各記事の言語表現記事関連度を前記言語表現記事関連度
計算処理で求め、該言語表現を前記分解処理で分解して
得られる各共起組のそれぞれについて前記重み計算処理
で重みを求め、前記記事集合を記事毎に前記分解処理で
分解してできる各共起組集合の和集合に存在するすべて
の共起組のうちで共起組間の元類似度と共起組が属する
記事の言語表現記事関連度との積が最大となる共起組と
の積である関連最大類似度を求め、前記重みと該関連最
大類似度との積をすべて足し合わせた値である一致度を
計算する記事集合一致度計算処理を設け、前記虫喰い問
題を最低の一致度および未処理印とともに唯一の上位解
候補として記憶し、以降未処理印のついている最も一致
度の高い上位解候補である最良未処理候補の未処理印を
処理済印に書き換える処理と、該最良未処理候補が虫喰
い部分を含んでいる場合に該最良未処理候補を前記解候
補生成処理で処理して、該解候補生成処理から出力され
る各言語表現である解候補のうち上位解候補として記憶
されていない解候補を前記記事集合一致度計算処理で評
価し、各一致度および各未処理印とともに上位解候補に
加えた上で一致度の高さが所定の範囲以内に入れない上
位解候補を記憶から削除する処理とを未処理印がなくな
るまで交互に繰り返し行い、記憶に残った上位解候補を
一致度が高い順に出力する虫喰い問題解答生成プログラ
ムを記録媒体に記録することを要旨とする。
【0024】請求項3記載の本発明にあっては、虫喰い
問題を最低の一致度および未処理印とともに唯一の上位
解候補として記憶し、以降未処理印のついている最も一
致度の高い上位解候補である最良未処理候補の未処理印
を処理済印に書き換える処理と、該最良未処理候補が虫
喰い部分を含んでいる場合に該最良未処理候補を解候補
生成処理で処理して、該解候補生成処理から出力される
各言語表現である解候補のうち上位解候補として記憶さ
れていない解候補を記事集合一致度計算処理で評価し、
各一致度および各未処理印とともに上位解候補に加えた
上で一致度の高さが所定の範囲以内に入れない上位解候
補を記憶から削除する処理とを未処理印がなくなるまで
交互に繰り返し行い、記憶に残った上位解候補を一致度
が高い順に出力する虫喰い問題解答生成プログラムを記
録媒体に記録しているため、該記録媒体を用いて、その
流通性を高めることができる。
【0025】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。
【0026】図1は、本発明の一実施形態に係る虫喰い
問題解答生成装置の構成を示すブロック図である。同図
に示す虫喰い問題解答生成装置は、図2に示した従来の
虫喰い問題解答生成装置における記事蓄積手段11、意
味的類似度格納手段12、解候補生成手段13、分解手
段14、重み計算手段15、記事集合一致度計算手段1
6、全体制御手段17、入力装置19a、出力装置19
bにそれぞれ対応する記事蓄積手段1、意味的類似度格
納手段2、解候補生成手段3、分解手段4、重み計算手
段5、記事集合一致度計算手段6、全体制御手段7、入
力装置9a、出力装置9bを有し、これらのうち記事集
合一致度計算手段6の機能が従来の記事集合一致度計算
手段16と異なるとともに、新たに言語表現記事関連度
計算手段8が追加されている点が異なるものであり、そ
の他の構成および作用は同じであるので、異なる記事集
合一致度計算手段6および言語表現記事関連度計算手段
8についてまず説明する。
【0027】8は、記事と言語表現とを入力とし、該記
事を分解手段4で分解して得られる各共起組のそれぞれ
について重み計算手段5で重みを求め、かつ前記入力さ
れた言語表現を分解手段4で分解してできる共起組集合
に存在するすべての共起組のうちで2つの言葉の意味の
組および相対的位置の類似している度合である共起組間
の元類似度が最も大きくなる共起組との元類似度である
言語表現最大類似度を求め、前記重みと該言語表現最大
類似度との積をすべて足し合わせた値である言語表現記
事関連度を計算する言語表現記事関連度計算手段であ
る。
【0028】また、6は、言語表現を入力とし、該言語
表現に対する前記記事集合の各記事の言語表現記事関連
度を言語表現記事関連度計算手段8で求め、かつ該言語
表現を分解手段4で分解して得られる各共起組のそれぞ
れについて重み計算手段5で重みを求め、前記記事集合
を記事毎に分解手段4で分解してできる各共起組集合の
和集合に存在するすべての共起組のうちで共起組間の元
類似度と共起組が属する記事の言語表現記事関連度との
積が最大となる共起組との積である関連最大類似度を求
め、前記重みと該関連最大類似度との積をすべて足し合
わせた値である一致度を計算する記事集合一致度計算手
段である。
【0029】このように本実施形態の虫喰い問題解答生
成装置では、従来の虫喰い問題解答生成装置に言語表現
記事関連度計算手段8が付加されており、各記事中の共
起組に類似する共起組が解候補中にどのぐらい存在する
かという観点で各記事の解候補に対する関連度を計算
し、これを利用して、全体的な証拠の集中度(情報省略
による歪みの少なさ)を評価している点が従来と異なっ
ている。
【0030】上述したように構成される虫喰い問題解答
生成装置では、言語表現記事関連度計算手段8が、記事
と解候補にあたる言語表現とを入力とし、該記事を分解
手段4で分解して得られる各共起組のそれぞれについ
て、重み計算手段5で重みを求め、かつ入力された該解
候補を分解手段4で分解してできる共起組集合に存在す
るすべての共起組のうちで2つの言葉の意味の組および
相対的位置の類似している度合である共起組間の元類似
度が最も大きくなる共起組との元類似度である言語表現
最大類似度(すなわち、解候補最大類似度)を求め、前
記重みと該解候補最大類似度との積をすべて足し合わせ
た値である言語表現記事関連度(すなわち、解候補記事
関連度)を計算し、これによって、任意の記事の解候補
に対する関連度を近似している。
【0031】重み計算手段5は、記事中において距離が
近い言葉の共起には大きな重みを割り当てている。その
ため、記事中に解候補中の共起組に類似する共起組が分
散してしか存在しない場合には、大きな重みを割り当て
られているにもかかわらず解候補中に類似する共起組が
存在しないような(すなわち、解候補最大類似度が低
い)多くの共起組が存在することになる。このため、関
連度が低くなる。一方、記事中に解候補中の共起組に類
似する共起組が集中して存在する場合には、大きな重み
を与えられた距離の小さい共起組の多くが高い解候補最
大類似度を得ることになり関連度が高くなる。
【0032】この機構は同時に、解候補の共起組に類似
する共起組が記事中に集中してされいれば、高い関連度
を保証することができる。従って、解候補の共起組に類
似する共起組が集中して存在する領域が複数存在する場
合(すなわち、解候補に関連する部分が繰り返され冗長
な場合)にも、記事長のせいで極端に評価が下がるとい
うことはない。
【0033】このように計算された関連度を証拠の信頼
度とすることにより、全体として、証拠となる共起組の
記事における集中度を考慮した解候補評価が可能にな
る。
【0034】計算コスト的にいえば、各関連度計算は記
事長の2乗オーダーであるが、記事の個数に対しては比
例的にしか増大しないため、記事数が増加しても迅速に
処理することができる。
【0035】次に、本実施形態の虫喰い問題解答生成装
置の具体的な実現例について説明し、次いでその動作に
ついて従来の技術と比較しながら説明する。まず、具体
的な実現例について説明する。
【0036】記事蓄積手段1は、言葉の並び(「記
事」)の集合を記憶できるデータベースとして実現す
る。意味的類似度格納手段2は、2つの言葉とその意味
的類似度を格納できるデータベースとして実現する。デ
ータの格納方法、類似度の検索/算出方法は特に問わな
い。通常は2言葉とその意味的類似度を格納するフィー
ルドをもつレコードの集合として実現する。従来法の意
味的類似度格納手段12と同様、例えば以下の表6に示
すような2言葉間の意味的類似度(0.0〜1.0)に
関する知識を格納する。
【0037】
【表6】 解候補生成手段3は、虫喰い言語表現(仮にQ′)を入
力し、記事集合Tに含まれる言葉を1つ該虫喰い言語表
現の連続する虫喰い部分の全部あるいは一部を埋めるも
のとして該言葉と意味的に類似する言葉が近傍に存在し
ないように配置することにより生成しうるあらゆる言語
表現を出力するものである。具体的には、まず、記事集
合T中に含まれるすべての言葉の種類を{w1 ,w2
…,wz}として求められるようにする。あるいは、異
なる記事集合Tを記事蓄積手段1に蓄積するたびに予め
求めておくことにしてもよい。
【0038】また、入力された虫喰い言語表現を
【数8】Q′=(we11 ,we12 ,…,wex1 ,X1
e21 ,we22 ,…,wex2 ,X2 ,…,wek1 ,w
ek2 ,…,wexk ,Xk ,…) として記憶する。{X1 ,X2 ,…,Xk ,…}は虫喰
い言語表現Q′の連続する虫喰い部分の集合である。X
1 から順番にXk までの各Xi について、w1 から順番
にwz までの各wj を対象に以下の3種類の言語表現を
生成する。
【0039】(1)Xi をwj で置き換えた言語表現 (2)Xi を(wj ,Xi )で置き換えた言語表現 (3)Xi を(Xi ,wj )で置き換えた言語表現 ただし、上の各言語表現を生成する際、wj が埋め込ま
れる虫喰い言語表現Q′上の位置の近傍(すぐ後で判別
法を後述)に、意味的類似度格納手段2においてwj
の類似度が閾値(目的に合わせて予め決める)以上にな
っている言葉あるいはwj そのものが存在する場合はそ
の生成に限り行わないことにする。この閾値は通常0.
5程度とすればよいが、大きくすれば大きくした分だけ
解候補あたりの冗長性を許すことになり、小さくすれば
その逆の効果を生じる。
【0040】通常、言語表現上の2言葉が互いの近傍で
あるかどうかは、その2言葉が挟む言葉の数で判断す
る。この数が閾値(目的に合わせて予め決める)以内で
あれば近傍と見なすようにする。この閾値は通常10程
度とすればよいが、大きくすれば大きくした分だけ解候
補あたりの冗長性を抑えることになり、小さくすればそ
の逆の効果を生じる。この際、連続する虫喰い部分も1
言葉としてカウントするのが普通だが、カウントしなく
ても構わない。また、必ずしも上の方法で行う必要はな
く、挟まれる言葉の性質などを考慮することも可能であ
る。
【0041】また場合によっては、上で示した3つの
「生成規則」の他に、(4)Xi を(Xi ,wj
i )で置き換えた言語表現を付け加えてもよい。
【0042】分解手段4は、x(≧2)個の言葉からな
る言語表現 P=(p1 ,p2 ,…,px ) を入力として該言語表現中のあらゆる2言葉と該2言葉
の相対的位置の組である共起組の集合
【数9】 R(P)={(p1 ,p2 ,1),(p1 ,p3 ,2),…, (p1 ,px ,x−1),(p2 ,p3 ,1), (p2 ,p4 ,2),…,(p2 ,px ,x−2),…, (px-1 ,px ,1)} に分解して出力する。
【0043】これは、言語表現中の最初の言葉と次の言
葉を指す2つのポインタを設定して、それらの前後関係
が変わらないようにずらしながら2言葉とその距離を取
得することにより容易に実現できる。
【0044】重み計算手段5は、言語表現と該言語表現
を分解手段4で分解して得られる共起組とを入力とし該
共起組の2言葉の距離をもとに該言語表現に占める該共
起組の重要性の割合(「重み」)を計算する。同一の言
語表現から生成された各共起組の重みの和が1になり、
かつ各共起組おける距離の大きさに応じて重みが小さく
(あるいは等しく)なればよい。例えば、以下の計算式
を計算機プログラムで実装する。
【0045】言語表現(s1 ,s2 ,…,sx )に占め
る共起組(si ,sj ,j−i)の重み
【数10】 記事集合一致度計算手段6は、言語表現を入力とし、該
言語表現に対する前記記事集合の各記事の言語表現記事
関連度を言語表現記事関連度計算手段8で求め、かつ該
言語表現を分解手段4で分解して得られる各共起組のそ
れぞれについて、重み計算手段5で重みを求め、かつ前
記記事集合を記事毎に分解手段4で分解してできる各共
起組集合の和集合に存在するすべての共起組のうちで共
起組間の元類似度と共起組が属する記事の言語表現記事
関連度との積が最大となる共起組との積である関連最大
類似度を求め、前記重みと該関連最大類似度との積をす
べて足し合わせた値である一致度を出力する。
【0046】これは、例えば以下の計算式を計算機プロ
グラムで実装することにより実現できる。入力された言
語表現をSとし、その言葉の並びを(s1 ,s2 ,…,
x)としたとき、
【数11】 ただし、関数MaxInv(si ,sj ,j−i)は
「関連最大類似度」であり、以下のように実現する。
【0047】記事集合Tのあらゆる記事Tu のあらゆる
共起組(tm ,tn ,n−m)に関して(すぐ後で定義
する類似度関数Sim()と後述する言語表現記事関連
度関数Inv()を利用し)、
【数12】 Sim(si ,tm )は、言葉si とtm の意味的な類
似度であり、si =tm のときは1.0を与え、それ以
外の時は意味的類似度格納手段2を参照して類似度を与
える。この手段2に登録されていないときは類似度0.
0を与える。
【0048】上の式でSim(si ,tm )・Sim
(sj ,tn )とSim(si ,tn)・Sim
(sj ,tm )の部分は、共起組(si ,sj ,j−
i)と共起組(tm ,tn ,n−m)との2言葉の意味
の組の類似性を計算する部分である。また、|(j−
i)−(n−m)|(あるいは|(j−i)−(m−
n)|)の部分は、共起組(si ,sj ,j−i)にお
ける言葉の相対的位置(j−i)と共起組(tm
n ,n−m)における言葉の相対的位置(n−m)と
のずれを表わしている。相対的位置のずれが大きくなる
ほど、「元類似度」は低くなる。ただし、ここで虫喰い
部分を含む言語表現を評価する際、連続した各虫喰い部
分(X? )は、それぞれ1つの言葉としてカウントす
る。
【0049】全体制御手段7は、虫喰い言語表現Qから
出発して解候補生成手段3を再帰的に適用することによ
り生成しうる言語表現(解候補)のうち記事集合一致度
計算手段6による記事集合Tとの一致度が高いものを近
似的に探索し、上位の解候補を出力する機能を実現する
ものである。
【0050】この手段は<解候補(虫喰い言語表現)>
・<一致度>・<未処理/処理済フラグ>の組を十分大
きい個数(例えばV個)分記憶する領域(以降、解候補
記憶領域と呼ぶ)をもった計算機プログラムにより容易
に実現することができる。
【0051】以下のような操作手順を実現する。
【0052】(1)虫喰い問題Qを最低の一致度および
未処理印とともに唯一の上位解候補として解候補記憶領
域に記憶する操作。
【0053】(2)解候補記憶領域において未処理印の
ついている最も一致度の高い上位解候補である最良未処
理候補の未処理印を処理済印に書き換える操作。
【0054】(3)上の最良未処理候補が虫喰い部分を
含んでいる場合に、該最良未処理候補を解候補生成手段
3に入力し、この手段から出力された各言語表現である
解候補のうち上位解候補として記憶されていない解候補
を記事集合一致度計算手段6で評価し、各一致度および
各未処理印とともに上位解候補として解候補記憶領域に
記憶した上で一致度の高さがV(≧1)位以内に入れな
い上位解候補を解候補記憶領域から削除する操作。
【0055】(4)解候補記憶領域中の上位解候補に未
処理印が存在したら(2)に戻り、存在しなかったら解
候補記憶領域に残っている上位解候補を一致度が高い順
に出力する操作。
【0056】言語表現記事関連度計算手段8は、記事と
言語表現とを入力とし、該記事を分解手段4で分解して
得られる各共起組のそれぞれについて、重み計算手段5
で重みを求め、かつ入力された該言語表現を分解手段4
で分解してできる共起組集合に存在するすべての共起組
のうちで2つの言葉の意味の組および相対的位置の類似
している度合である共起組間の元類似度が最も大きくな
る共起組との元類似度である言語表現最大類似度を求
め、前記重みと該言語表現最大類似度との積をすべて足
し合わせた値である言語表現記事関連度を計算する。
【0057】例えば、以下のような計算式をプログラム
で実装すればよい。入力された記事をTu とし、その言
葉の並びを(t1 ,t2 ,…,ty )、言語表現、すな
わち解候補をSとし、その言葉の並びを(s1 ,s2
…,sx )としたとき、
【数13】 ただし、関数SMax(ti ,tj ,j−i)は「言語
表現最大類似度」であり、以下のように実現する。
【0058】
【数14】 次に、具体的動作について説明する。まず、全体制御手
段7は質問1、すなわち虫喰い問題Q「太郎はXがいつ
も好き。」を受け付けて最低の一致度(ここでは0.
0)および「未処理印」とともに唯一の上位解候補とし
て解候補記憶領域に記憶する。従って、この直後の状態
は以下のようになる。
【0059】
【表7】 次に、未処理印のついている最も一致度の高い上位解候
補(最良未処理解候補)の未処理印を処理済印に書き換
える操作が行われるが、ここでは、上位解候補として元
の虫喰い問題Qしかないので、この問題Qが最良未処理
解候補となり、この操作の直後の状態は以下のようにな
る。
【0060】
【表8】 そして、最良未処理解候補Q′(この場合は、Q)が解
候補生成手段3に入力される。この手段3では、記事集
合Tに含まれるすべての言葉、すなわち {太郎,は,常々,犬,が,友達,。
【0061】,次郎,猫,に,とても,…} のうち、入力された虫喰い言語表現Q′の虫喰い部分X
の近傍に意味的に類似する言葉(ここでは類似度0.5
以上)が存在しない言葉w {犬,次郎,猫,に,とても,…} を(1)X→w,(2)X→wX,(3)X→Xwとい
う3つの「生成規則」にしたがい配置する。
【0062】そのため、以下のような解候補が生成され
る。
【0063】太郎;は;犬;が;いつも;好き;。 太郎;は;犬;X;が;いつも;好き;。 太郎;は;X;犬;が;いつも;好き;。 太郎;は;次郎;が;いつも;好き;。 太郎;は;次郎;X;が;いつも;好き;。 太郎;は;X;次郎;が;いつも;好き;。 太郎;は;猫;が;いつも;好き;。 太郎;は;猫;X;が;いつも;好き;。 太郎;は;X;猫;が;いつも;好き;。 太郎;は;に;が;いつも;好き;。 太郎;は;に;X;が;いつも;好き;。 太郎;は;X;に;が;いつも;好き;。 太郎;は;とても;が;いつも;好き;。 太郎;は;とても;X;が;いつも;好き;。 太郎;は;X;とても;が;いつも;好き;。 … 全体制御手段7では、これらを返してもらい、それぞれ
を記事集合一致度計算手段6に入力して、記事集合Tと
の一致度を評価し、一致度が上位のV個を最初の上位解
候補として記憶することになる。
【0064】その上位解候補を一致度の高い順に並べる
と以下のようになる。
【0065】
【表9】 これらはすべて、未処理印がついているため上から1つ
ずつその未処理印が処理済印に書き換えられ、しかも虫
喰い部分を含むものについては解候補生成手段3に送ら
れる(入力する)ことになるが、最上位の解候補は虫喰
い部分を含まないので、これらからはより進んだ解候補
は生成されない。
【0066】従って、2つ目の解候補を解候補生成手段
3に送る(入力する)直前の状態は以下のようになる。
【0067】
【表10】 ここから、2つ目の解候補を処理済に書き換えて解候補
生成手段3に送ると返ってくる新しい解候補には以下の
ようなものがある。
【0068】
【表11】 太郎;は;次郎;犬;が;いつも;好き;。 太郎;は;次郎;X;犬;が;いつも;好き;。 太郎;は;X;次郎;犬;が;いつも;好き;。 太郎;は;猫;犬;が;いつも;好き;。 太郎;は;猫;X;犬;が;いつも;好き;。 太郎;は;X;猫;犬;が;いつも;好き;。 太郎;は;に;犬;が;いつも;好き;。 太郎;は;に;X;犬;が;いつも;好き;。 太郎;は;X;に;犬;が;いつも;好き;。 太郎;は;とても;犬;が;いつも;好き;。 太郎;は;とても;X;犬;が;いつも;好き;。 太郎;は;X;とても;犬;が;いつも;好き;。 … これらを評価した上で前記上位解候補に加え、上位V位
以内に入れない解候補を削除した結果は、以下のように
なる。
【0069】
【表12】 このような処理を繰り返すことにより、上位の解候補が
記事集合Tとの一致度のより高いものによって占められ
ていく。一方、一致度の低い解候補は徐々に順位が下げ
られ、V(本例では16)を越えた時点で枝刈の対象に
なる。ただし、上位順位に入らなくても虫喰い部分を残
している有望な解候補については、新たな生成のもとと
なる機会があり、その解候補から生成された(派生し
た)解候補(以降、子の解候補と呼ぶ)が、最上位を占
めることも可能である。ただし、あまりに一致度の低い
解候補については、子の解候補を生成する前に枝刈の対
象となる。
【0070】また、虫喰い部分を埋められる言葉の数が
記事集合Tの言葉の種類および上位解候補中の言葉の類
似度によって制限され、かつ、記事集合Tとの一致度が
高くなるような言葉の並び方も限られるので、新しく上
位に登録される未処理の解候補の数は徐々に少なくな
る。未処理の解候補がなくなった時点で、探索プロセス
は終了し、その時点での上位解候補が一致度の高い順に
出力される。その様子を以下に示す。
【0071】
【表13】 上述した出力結果からわかるように、質問1の上位解に
は、もはや「太郎;は;猫;が;いつも;好き;。」と
いう解候補は出てこない。上位の解はいずれもXの部分
が「犬」を含むフレーズで埋められている。すなわち、
従来法よりも記事の内容を適切に反映したものといえ
る。同様のことは、質問2の上位解についてもいえる。
【0072】詳しく見てみると、例えば、質問1:「太
郎;は;X;が;いつも;好き;。」に対する解候補
「太郎;は;猫;が;いつも;好き;。」の証拠とし
て、記事3から得られる共起組:(太郎、猫、距離2)
と、記事2から得られる共起組:(猫、友達、距離2)
とは一様には評価されていない。
【0073】各共起組の存在する記事Tu から解候補S
「太郎;は;猫;が;いつも;好き;。」への言語表現
記事関連度Inv(Tu ,S)により信頼度が加味され
た上で、評価されている。そのときの各Invの値は以
下のようになる。
【0074】
【表14】 すなわち、「次郎」について述べている記事2から得た
共起組:<猫、好き、距離2>は、「太郎」について述
べている解候補S「太郎;は;猫;が;いつも;好
き;。」に対し信頼度0.396936が加味された上
で適用されている。また、「似ている」という関係につ
いて述べている記事3から得た共起組:<太郎、猫、距
離2>は、「好き」という関係について述べている解候
補S「太郎;は;猫;が;いつも;好き;。」に対し信
頼度0.100965が加味された上で適用されてい
る。こういった信頼度の低さにより、解候補S「太郎;
は;猫;が;いつも;好き;。」(評価値0.2140
59)は上位解には出てこない。
【0075】ちなみに、別の解候補S「太郎;は;犬;
が;いつも;好き;。」についての各Invの値は以下
のようになり、記事1から得られる信頼度0.5555
31の各証拠(共起組)により、内容にふさわしい評価
値0.309943が得られる。
【0076】
【表15】
【0077】
【発明の効果】以上説明したように、本発明によれば、
解候補の評価に必要な証拠の記事中での集中度(情報省
略による歪みの少なさ)を、各記事の冗長性をも吸収し
ながら迅速に評価することができるので、記事の内容を
より正確に反映することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る虫喰い問題解答生成
装置の構成を示すブロック図である。
【図2】従来の虫喰い問題解答生成装置の構成を示すブ
ロック図である。
【符号の説明】
1 記事蓄積手段 2 意味的類似度格納手段 3 解候補生成手段 4 分解手段 5 重み計算手段 6 記事集合一致度計算手段 7 全体制御手段 8 言語表現記事関連度計算手段 9a 入力装置 9b 出力装置

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 言葉の並びである言語表現を知識源とし
    て1つまたは複数の虫喰い部分を含む言葉の並びである
    虫喰い言語表現で与えられた虫喰い問題に対する解答を
    生成する虫喰い問題解答生成装置であって、 知識源となる言語表現である記事の集合を蓄積する記事
    蓄積手段と、 言葉の間の意味的な類似度を格納した意味的類似度格納
    手段と、 虫喰い言語表現を入力とし、前記記事集合に含まれる言
    葉を1つ、該虫喰い言語表現のいずれかの虫喰い部分の
    全部または一部を埋めるものとして、該言葉と意味的に
    類似する言葉が近傍に存在しないように配置することに
    より生成しうるあらゆる言語表現を出力する解候補生成
    手段と、 2個以上であるx個の言葉からなる言語表現 P=(p1 ,p2 ,…,px )を入力として、該言語表
    現を該言語表現中のあらゆる2つの言葉と該2つの言葉
    の相対的位置の組である共起組の集合 【数1】 R(P)={(p1 ,p2 ,1),(p1 ,p3 ,2),…, (p1 ,px ,x−1),(p2 ,p3 ,1), (p2 ,p4 ,2),…,(p2 ,px ,x−2),…, (px-1 ,px ,1)} に分解する分解手段と、 言語表現と該言語表現を前記分解手段で分解して得られ
    る共起組とを入力とし、該共起組の2つの言葉の距離を
    もとに該言語表現に占める該共起組の重要性の割合であ
    る重みを計算する重み計算手段と、 記事と言語表現とを入力とし、該記事を前記分解手段で
    分解して得られる各共起組のそれぞれについて前記重み
    計算手段で重みを求め、前記入力された言語表現を前記
    分解手段で分解してできる共起組集合に存在するすべて
    の共起組のうちで2つの言葉の意味の組および相対的位
    置の類似している度合である共起組間の元類似度が最も
    大きくなる共起組との元類似度である言語表現最大類似
    度を求め、前記重みと該言語表現最大類似度との積をす
    べて足し合わせた値である言語表現記事関連度を計算す
    る言語表現記事関連度計算手段と、 言語表現を入力とし、該言語表現に対する前記記事集合
    の各記事の言語表現記事関連度を前記言語表現記事関連
    度計算手段で求め、該言語表現を前記分解手段で分解し
    て得られる各共起組のそれぞれについて前記重み計算手
    段で重みを求め、前記記事集合を記事毎に前記分解手段
    で分解してできる各共起組集合の和集合に存在するすべ
    ての共起組のうちで共起組間の元類似度と共起組が属す
    る記事の言語表現記事関連度との積が最大となる共起組
    との積である関連最大類似度を求め、前記重みと該関連
    最大類似度との積をすべて足し合わせた値である一致度
    を計算する記事集合一致度計算手段と、 前記虫喰い問題を最低の一致度および未処理印とともに
    唯一の上位解候補として記憶し、以降未処理印のついて
    いる最も一致度の高い上位解候補である最良未処理候補
    の未処理印を処理済印に書き換える処理と、該最良未処
    理候補が虫喰い部分を含んでいる場合に該最良未処理候
    補を前記解候補生成手段に入力し、該解候補生成手段か
    ら出力される各言語表現である解候補のうち上位解候補
    として記憶されていない解候補を前記記事集合一致度計
    算手段で評価し、各一致度および各未処理印とともに上
    位解候補に加えた上で一致度の高さが所定の範囲以内に
    入れない上位解候補を記憶から削除する処理とを未処理
    印がなくなるまで交互に繰り返し行い、記憶に残った上
    位解候補を一致度が高い順に出力する制御手段とを有す
    ることを特徴とする虫喰い問題解答生成装置。
  2. 【請求項2】 言葉の並びである言語表現を知識源とし
    て1つまたは複数の虫喰い部分を含む言葉の並びである
    虫喰い言語表現で与えられた虫喰い問題に対する解答を
    生成する虫喰い問題解答生成方法であって、 知識源となる言語表現である記事の集合を記事蓄積手段
    に蓄積しておき、 言葉の間の意味的な類似度を意味的類似度格納手段に格
    納しておき、 虫喰い言語表現を入力とし、前記記事集合に含まれる言
    葉を1つ、該虫喰い言語表現のいずれかの虫喰い部分の
    全部または一部を埋めるものとして、該言葉と意味的に
    類似する言葉が近傍に存在しないように配置することに
    より生成しうるあらゆる言語表現を解候補として出力す
    る解候補生成処理を設け、 2個以上であるx個の言葉からなる言語表現 P=(p1 ,p2 ,…,px ) を入力として、該言語表現を該言語表現中のあらゆる2
    つの言葉と該2つの言葉の相対的位置の組である共起組
    の集合 【数2】 R(P)={(p1 ,p2 ,1),(p1 ,p3 ,2),…, (p1 ,px ,x−1),(p2 ,p3 ,1), (p2 ,p4 ,2),…,(p2 ,px ,x−2),…, (px-1 ,px ,1)} に分解する分解処理を設け、 言語表現と該言語表現を前記分解処理で分解して得られ
    る共起組とを入力とし、該共起組の2つの言葉の距離を
    ともに該言語表現に占める該共起組の重要性の割合であ
    る重みを計算する重み計算処理を設け、 記事と言語表現とを入力とし、該記事を前記分解処理で
    分解して得られる各共起組のそれぞれについて前記重み
    計算処理で重みを求め、前記入力された言語表現を前記
    分解処理で分解してできる共起組集合に存在するすべて
    の共起組のうちで2つの言葉の意味の組および相対的位
    置の類似している度合である共起組間の元類似度が最も
    大きくなる共起組との元類似度である言語表現最大類似
    度を求め、前記重みと該言語表現最大類似度との積をす
    べて足し合わせた値である言語表現記事関連度を計算す
    る言語表現記事関連度計算処理を設け、 言語表現を入力とし、該言語表現に対する前記記事集合
    の各記事の言語表現記事関連度を前記言語表現記事関連
    度計算処理で求め、該言語表現を前記分解処理で分解し
    て得られる各共起組のそれぞれについて前記重み計算処
    理で重みを求め、前記記事集合を記事毎に前記分解処理
    で分解してできる各共起組集合の和集合に存在するすべ
    ての共起組のうちで共起組間の元類似度と共起組が属す
    る記事の言語表現記事関連度との積が最大となる共起組
    との積である関連最大類似度を求め、前記重みと該関連
    最大類似度との積をすべて足し合わせた値である一致度
    を計算する記事集合一致度計算処理を設け、 前記虫喰い問題を最低の一致度および未処理印とともに
    唯一の上位解候補として記憶し、以降未処理印のついて
    いる最も一致度の高い上位解候補である最良未処理候補
    の未処理印を処理済印に書き換える処理と、該最良未処
    理候補が虫喰い部分を含んでいる場合に該最良未処理候
    補を前記解候補生成処理で処理して、該解候補生成処理
    から出力される各言語表現である解候補のうち上位解候
    補として記憶されていない解候補を前記記事集合一致度
    計算処理で評価し、各一致度および各未処理印とともに
    上位解候補に加えた上で一致度の高さが所定の範囲以内
    に入れない上位解候補を記憶から削除する処理とを未処
    理印がなくなるまで交互に繰り返し行い、記憶に残った
    上位解候補を一致度が高い順に出力することを特徴とす
    る虫喰い問題解答生成方法。
  3. 【請求項3】 言葉の並びである言語表現を知識源とし
    て1つまたは複数の虫喰い部分を含む言葉の並びである
    虫喰い言語表現で与えられた虫喰い問題に対する解答を
    生成する虫喰い問題解答生成プログラムを記録した記録
    媒体であって、 知識源となる言語表現である記事の集合を記事蓄積手段
    に蓄積しておき、 言葉の間の意味的な類似度を意味的類似度格納手段に格
    納しておき、 虫喰い言語表現を入力とし、前記記事集合に含まれる言
    葉を1つ、該虫喰い言語表現のいずれかの虫喰い部分の
    全部または一部を埋めるものとして、該言葉と意味的に
    類似する言葉が近傍に存在しないように配置することに
    より生成しうるあらゆる言語表現を解候補として出力す
    る解候補生成処理を設け、 2個以上であるx個の言葉からなる言語表現 P=(p1 ,p2 ,…,px ) を入力として、該言語表現を該言語表現中のあらゆる2
    つの言葉と該2つの言葉の相対的位置の組である共起組
    の集合 【数3】 R(P)={(p1 ,p2 ,1),(p1 ,p3 ,2),…, (p1 ,px ,x−1),(p2 ,p3 ,1), (p2 ,p4 ,2),…,(p2 ,px ,x−2),…, (px-1 ,px ,1)} に分解する分解処理を設け、 言語表現と該言語表現を前記分解処理で分解して得られ
    る共起組とを入力とし、該共起組の2つの言葉の距離を
    もとに該言語表現に占める該共起組の重要性の割合であ
    る重みを計算する重み計算処理を設け、 記事と言語表現とを入力とし、該記事を前記分解処理で
    分解して得られる各共起組のそれぞれについて前記重み
    計算処理で重みを求め、前記入力された言語表現を前記
    分解処理で分解してできる共起組集合に存在するすべて
    の共起組のうちで2つの言葉の意味の組および相対的位
    置の類似している度合である共起組間の元類似度が最も
    大きくなる共起組との元類似度である言語表現最大類似
    度を求め、前記重みと該言語表現最大類似度との積をす
    べて足し合わせた値である言語表現記事関連度を計算す
    る言語表現記事関連度計算処理を設け、 言語表現を入力とし、該言語表現に対する前記記事集合
    の各記事の言語表現記事関連度を前記言語表現記事関連
    度計算処理で求め、該言語表現を前記分解処理で分解し
    て得られる各共起組のそれぞれについて前記重み計算処
    理で重みを求め、前記記事集合を記事毎に前記分解処理
    で分解してできる各共起組集合の和集合に存在するすべ
    ての共起組のうちで共起組間の元類似度と共起組が属す
    る記事の言語表現記事関連度との積が最大となる共起組
    との積である関連最大類似度を求め、前記重みと該関連
    最大類似度との積をすべて足し合わせた値である一致度
    を計算する記事集合一致度計算処理を設け、 前記虫喰い問題を最低の一致度および未処理印とともに
    唯一の上位解候補として記憶し、以降未処理印のついて
    いる最も一致度の高い上位解候補である最良未処理候補
    の未処理印を処理済印に書き換える処理と、該最良未処
    理候補が虫喰い部分を含んでいる場合に該最良未処理候
    補を前記解候補生成処理で処理して、該解候補生成処理
    から出力される各言語表現である解候補のうち上位解候
    補として記憶されていない解候補を前記記事集合一致度
    計算処理で評価し、各一致度および各未処理印とともに
    上位解候補に加えた上で一致度の高さが所定の範囲以内
    に入れない上位解候補を記憶から削除する処理とを未処
    理印がなくなるまで交互に繰り返し行い、記憶に残った
    上位解候補を一致度が高い順に出力することを特徴とす
    る虫喰い問題解答生成プログラムを記憶した記録媒体。
JP10047696A 1998-02-27 1998-02-27 虫喰い問題解答生成装置および方法と虫喰い問題解答生成プログラムを記録した記録媒体 Pending JPH11250062A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10047696A JPH11250062A (ja) 1998-02-27 1998-02-27 虫喰い問題解答生成装置および方法と虫喰い問題解答生成プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10047696A JPH11250062A (ja) 1998-02-27 1998-02-27 虫喰い問題解答生成装置および方法と虫喰い問題解答生成プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11250062A true JPH11250062A (ja) 1999-09-17

Family

ID=12782459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10047696A Pending JPH11250062A (ja) 1998-02-27 1998-02-27 虫喰い問題解答生成装置および方法と虫喰い問題解答生成プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH11250062A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000268042A (ja) * 1999-03-15 2000-09-29 Toshiba Corp 自然言語対話装置及び自然言語対話方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000268042A (ja) * 1999-03-15 2000-09-29 Toshiba Corp 自然言語対話装置及び自然言語対話方法

Similar Documents

Publication Publication Date Title
Kubat An introduction to machine learning
CN111950285B (zh) 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN111078875B (zh) 一种基于机器学习的从半结构化文档中提取问答对的方法
Xie et al. Deep learning for natural language processing
JP2006293767A (ja) 文章分類装置、文章分類方法および分類辞書作成装置
US20120296895A1 (en) System and method for conducting processor-assisted indexing and searching
US20210397790A1 (en) Method of training a natural language search system, search system and corresponding use
CN111949697B (zh) 基于搜索引擎的数据处理方法、装置、终端及介质
JP2001266060A (ja) アンケート回答分析システム
CN112100398B (zh) 一种专利空白预测方法及系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
Brown Peeking inside the black box: A preliminary survey of technology assisted review (tar) and predictive coding algorithms for ediscovery
JP2019511797A (ja) 情報処理システム、情報処理方法、及び、プログラム
CN112559734A (zh) 简报生成方法、装置、电子设备及计算机可读存储介质
Hao et al. A subgraph-representation-based method for answering complex questions over knowledge bases
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
US20040125131A1 (en) Apparatus and method for structured knowledge sharing and report generation
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN114297351A (zh) 语句问答方法、装置、设备、存储介质及计算机程序产品
CN113571196A (zh) 构建医疗训练样本的方法及装置、医疗文本的检索方法
JPH11250062A (ja) 虫喰い問題解答生成装置および方法と虫喰い問題解答生成プログラムを記録した記録媒体
CN109408808B (zh) 一种文艺作品的评估方法及评估系统
Hassanzadeh et al. A supervised approach to quantifying sentence similarity: with application to evidence based medicine
Yang et al. Cmu livemedqa at trec 2017 liveqa: A consumer health question answering system
CN115270776A (zh) 一种领域知识库中的概念自动获取方法、系统、装置及介质

Legal Events

Date Code Title Description
FPAY Renewal fee payment

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees