JP3628580B2 - 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体 - Google Patents

類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3628580B2
JP3628580B2 JP2000056235A JP2000056235A JP3628580B2 JP 3628580 B2 JP3628580 B2 JP 3628580B2 JP 2000056235 A JP2000056235 A JP 2000056235A JP 2000056235 A JP2000056235 A JP 2000056235A JP 3628580 B2 JP3628580 B2 JP 3628580B2
Authority
JP
Japan
Prior art keywords
sentence
candidate
matching score
word
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000056235A
Other languages
English (en)
Other versions
JP2001243245A (ja
Inventor
成宏 池田
一 内野
蔵 古瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000056235A priority Critical patent/JP3628580B2/ja
Publication of JP2001243245A publication Critical patent/JP2001243245A/ja
Application granted granted Critical
Publication of JP3628580B2 publication Critical patent/JP3628580B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数の自然文を収めた用例集から、自然言語の文である入力文に類似している候補文を検索する類似文検索方法および装置に関する。
【0002】
【従来の技術】
電子技術の発達に伴い、コンピュータを用いて第1自然言語の文を第2自然言語の文に翻訳する実例型自然言語翻訳装置が実用段階にある。実例型自然言語翻訳の例を図8に示す。実例型自然言語翻訳装置では、第1自然言語の文と第2自然言語の文との対からなる用例集から、第1自然言語の入力文に類似した候補文を用例集から検索し、入力文と候補文の単語対応に基づいて候補文の第2自然言語の文を編集することにより、入力文の第2自然言語の訳文を作成する。そのため、実例型自然言語翻訳装置では入力文に対して適切な類似文を検索し、また入力文と類似文の語順の異なりに依らず、適切な単語対応を求める方法が望まれていた。
【0003】
入力文に対する類似文を検索するために用いられる従来の類似文検索方法として、「Nirenburg, S., et al., ”Two Approaches to Matching in Example−Based Machine Translation”, proceedings of TMI−93, pp.47−57 (1993).」に記載されている方法(以下、従来方法1と称す)がある。この従来方法1では、入力文と候補文のどちらか一方にのみ含まれるため対応づけられない単語の数を調べ、対応づけられない単語の数が少ない候補文ほど入力文に類似しているとみなして、類似文として検索する。
【0004】
他に、「Planas, E., Furuse, O., ”Formalizing Translation Memories”, proceedings of MT Summit VII, pp.331−339 (1999)」に記載されている方法(以下、従来方法2と称す)がある。この従来方法2は動的計画法に基づいており、入力文の単語の並びが候補文の単語の並びに一致するように、入力文に対して先頭から漸進的に編集操作が行われる。この編集操作は入力文と候補文とで対応しない単語に対して行われるため、編集操作が少ない文を類似文として検索している。
【0005】
【発明が解決しようとする課題】
上述した従来の類似文検索方法のうち従来方法1では、語順を無視した単語の照合が行われ、語順の異なりを類似度に全く反映しないため、入力文と候補文との語順の違いのために意味が異なる文を検索する可能性がある。また、入力文と候補文に同一の単語が複数個ある場合には、正しい単語対応の組み合せを求めることができないため。実例型自然言語翻訳装置に適用すると入力文の訳文として不適当な訳文が作成される。
【0006】
一方、従来方法2では、入力文と候補文の先頭から漸進的に単語の対応づけが行われるため、入力文と候補文とで単語の出現順序が異なる場合には、入力文と用例文とに同一の単語が存在するにも関わらず、正しい単語対応づけを行うことができない。また、検出される単語対応が少なくなると類似度が低下してしまうため、入力文と語順が異なる候補文は検索されない可能性もある。
【0007】
本発明の目的は、入力文と候補文との語順が異なる場合でも最適な単語対応の組み合せを求め、最適な単語対応の組み合せに基づいて語順の異なりを反映した類似度を算出することによって、類似文を検索する類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体を提供することにある。
【0008】
【課題を解決するための手段】
本発明の類似文検索方法は、用例集格納手段と単語対応表生成手段と文マッチングスコア計算手段と単語対応最適化手段と類似文検索手段を有する類似文検索装置において、複数の自然言語の文である候補文を収めた用例集格納手段から自然言語の文である入力文に類似した類似文を検索する類似文検索方法であって、
単語対応表生成手段が、入力文と候補文の形態素解析を行い、入力文と候補文の各単語同士の類似性を表す単語マッチングスコアを求めて、入力文と候補文のすべての単語間の単語マッチングスコアを格納した単語対応表を作成する単語対応表生成ステップと、
文マッチングスコア計算手段が、入力文と候補文との単語対応の組み合わせについて、入力文と候補文でそれぞれ対応する文節毎に、前記単語間の単語マッチングスコアを加算し、二乗して文節間のマッチングスコアとし、さらに、入力文と候補文で対応する文節が連続する範囲で前記文節間のマッチングスコアを加算し、二乗して連続対応部分のマッチングスコアとし、前記求められる連続対応部分のマッチングスコアを全て加算することによって文マッチングスコアを計算する文マッチングスコア計算ステップと、
単語対応最適化手段が、前記文マッチングスコア計算手段が計算する入力文と候補文の文マッチングスコアを最大化する入力文と候補文の単語対応の組み合わせを決定し、入力文同士、候補文同士でそれぞれ文マッチングスコアの最大値を算出し、前記入力文と候補文の文マッチングスコアを最大化する入力文と候補文の単語対応の組み合わせの文マッチングスコアを前記算出した入力文同士の文マッチングスコアの最大値と前記算出した候補文同士の文マッチングスコアの最大値によって正規化した値、を入力文と候補文の類似度として求める単語対応最適化ステップと、
類似文検索手段が、用例集格納手段に格納された複数の候補文をそれぞれ読み出して前記単語対応最適化手段で入力文と候補文の類似度をそれぞれ求め、前記複数の候補文それぞれに対応する入力文と候補文の類似度のうち、類似度が最も高い候補文を類似文として選択するステップと
を有する。
【0009】
本発明は、入力文と候補文で対応する単語が多いほど入力文と候補文が類似していること、および入力文と候補文で連続する単語同士が対応しているほど入力文と候補文が類似していることを反映した類似度を算出することを特徴としている。そのため、入力文とは語順が異なる候補文でも、語順の異なりの度合いを反映させて候補文を検索することができる。
【0012】
【発明の実施の形態】
次に、本発明の実施の形態を図面を参照して説明する。
【0013】
図1を参照すると、本発明の一実施の形態の類似文検索装置は入力部1と用例集格納部2と類似度計算部3と類似文検索部4と検索結果出力部5で構成されている。
【0014】
入力部1では入力文を読み込む。
【0015】
用例集格納部2には自然言語の文である複数の候補文が用例集として格納されている。
【0016】
類似度計算部3は用例集格納部2に格納されている候補文と入力部1で読み込まれた入力文の類似度を計算するもので、図2に示すように、入力文と候補文の単語対応を調べ、単語対応表を作成する単語対応表生成部11と、単語対応に基づいて入力文と候補文の文マッチングスコアを計算する文マッチングスコア計算部12と、文マッチングスコアから単語対応の組み合せを最適化し、類似文とその類似度(文マッチングスコア)、単語対応情報を出力する単語対応最適化部13から構成されている。
【0017】
類似文検索部4は用例集格納部2から次々と候補文を読みだし、類似度計算部3で各候補文の類似度を計算し、類似度計算部3で計算された類似度のうち最も高い類似度の候補文を類似文として選択する。
【0018】
検索結果出力部5は類似文検索部4で選択された類似文について、文とその類似度、および入力文と単語の対応情報を出力する。
【0019】
次に、本実施形態の動作を説明する。
【0020】
以上のように構成された類似文検索装置において、入力部1から自然言語の文が入力されると、類似文検索部4は用例集格納部2から候補文を読み込み、類似度計算部3で入力文と各候補文の類似度を計算する。
【0021】
類似度計算部3では、まず単語対応表生成部11において、入力文と候補文の形態素解析を行い、形態素解析結果に基づいて、入力文と候補文の単語同士の類似性を表す単語対応表を作成する。単語対応最適化部13では、文マッチングスコア計算部12において単語対応表の単語対応の組み合せから計算される文マッチングスコアを最大化するように、最適な単語対応の組み合せを漸進的に求めていく。最終的に、最適な単語対応の組み合せによって計算される文マッチングスコアが、入力文と候補文の類似度となる。
【0022】
単語対応の組み合せの最適化は、具体的には図3に示される流れ図に基づいて計算される。
【0023】
まず、ステップ21で単語対応の組み合せCを空とし、一組も単語対応がない状態から始まる。ステップ22では、入力文の単語インデックスtの単語と候補文の単語インデックスeの単語の単語マッチングスコアM[t][e]がM[t][e]>0で、Cに含まれない単語対応(t,e)について、Cと(t,e)の組み合せから文マッチングスコアを計算する。ただし、単語対応は一対一に限るため、Cに入力文の単語インデックスtを持つ単語対応がある場合や、候補文の単語インデックスeを持つ単語対応がある場合には、Cからそれらの単語対応を削除した単語対応の組み合せと(t,e)から文マッチングスコアを計算する。ステップ23では、ステップ22において計算された全文マッチングスコアのうち最大の文マッチングスコアが、単語対応の組み合せCの文マッチングスコアよりも増加しているか調べ、増加している場合にはステップ24を実行する。ステップ24では、ステップ22で最大の文マッチングスコアとなる単語対応の組み合せを新たにCとし、再びステップ22に戻り、単語対応の組み合せの最適化処理を継続する。一方、ステップ23において、文マッチングスコアが増加しない場合には、Cが最適な単語対応となり、ステップ25に移る。最後に、ステップ25で、文マッチングスコアが単語数によらないようにするために、文マッチングスコアを正規化し、その値を入力文と候補文の類似度とする。
【0024】
以上のようにして求められた類似度を利用して、類似文検索部4では類似度が高い候補文を類似文として選択する。そして、検索結果出力部5では選択された類似文について、文とその類似度、および入力文との単語対応情報を出力する。
【0025】
なお、単語対応の組み合せCに新しい単語対応(t、e)を追加する際に複数の(t、e)で文マッチングスコアが同点となる場合、▲1▼tが小さい程優先される、▲2▼tが同じ場合にはeが優先される、という優先順位を用いる。
【0026】
次に、本実施形態の動作を具体例により説明する。
具体例1
ここでは、入力文が「5−1でブラジルはスペインに完勝」、候補文が「日本は韓国に3−0で勝利」の場合の類似度の計算例を示す。
【0027】
まず、入力文と候補文の単語対応の候補を調べるために単語対応表生成部11により単語対応表を作成する。ここでは、単語の類似性を表す単語マッチングスコアが表1のように与えられているものとする。
【0028】
【表1】
Figure 0003628580
このとき、単語対応表は表1の単語マッチングスコアに基づき、表2に示すようになる。
【0029】
【表2】
Figure 0003628580
次に、入力文Tと候補文Eに対してある単語対応の組み合せCが与えられたときの文マッチングスコアWTECの計算方法について説明する。
【0030】
今、単語対応の組み合せCが図4のようにC={(3,1),(4,2),(5,3),(6,4),(1,5),(2,6),(7,7)}と与えられたとしよう。このとき、スコアWTECは次のようになる。
【0031】
WTEC={(7+8)^2+(7+8)^2}^2+{(7+8)^2}^2+{4^2}^2
文マッチングスコアWTECは上記のように計算されるため、入力文と候補文の単語同士が連続して対応する程その値が大きくなる。また、全ての単語対応がスコアに寄与しているため、語順の異なりがある場合でも一致する単語が多いほど文マッチングスコアは大きくなる。なお、図4で文節毎に単語マッチングスコアをまとめているのは、文節による文法的な区切りを反映させるためである。ただし、文節のような文法的な区切りを持たない自然言語の場合には図4に示すような文節単位の区切りはない。
【0032】
そして、単語対応最適化部13で表2の単語対応表を利用して文マッチングスコアが最大となるような最適な単語対応が求められる。
【0033】
単語対応の最適化は図3の流れ図に基づいて行われる。まず、ステップ21において単語対応の組み合せCは空に初期化される。次に、ステップ22において、M[t][e]>0の単語対応(t,e)の中から、(t,e)をCに追加した場合の文マッチングスコアを単語マッチングスコアが0のものを除いて、t=1、e=1から順次計算する。このとき、文マッチングスコアが最も大きくなるのは単語マッチングスコアM[t][e]が8となっている単語対応である。ここでは、まずそれらの単語対応の中から、(2,6)が選択されたとしよう。(2,6)が選択されたことによって文マッチングスコアは増加するので、ステップ23からステップ24に処理が移る。ステップ24では、Cに(2,6)を追加し、C={(2,6)}となる。そして、C={(2,6)}で再びステップ22が実行される。C={(2,6)}のとき、1組の単語対応を追加することによって最も文マッチングスコアが大きくなるのは(2,6)と連続する(1,5)である。そのため、ステップ24ではCに(1,5)が追加され、C={(1,5),(2,6)}となる。次に、マッチングスコアが最も大きくなるのはCに(4,2)が追加された場合である。そのため、Cに(4,2)が追加され、C={(1,5),(2,6),(4,2)}となる。そして、再びステップ22が実行される。このとき文マッチングスコアが最も大きくなるのはCに(3,1)が追加された場合であるため、(3,1)がCに追加される。以下同様にして、(5,3),(6,4),(7,7)がCに追加され、最終的には単語対応の組み合せC={(1,5),(2,6),(3,1),(4,2),(5,3),(6,4),(7,7)}が得られる。図4はこのときの文マッチングスコアを示しており、
WTEC={(7+8)^2+(7+8)^2}^2+{(7+8)^2}^2+(4^2)^2
となる。
【0034】
スコアWTECは、1文の単語数が多いほど大きくなる。そこで、単語数に依らないようにWTECを正規化し、それを文マッチングスコアSTECとする。文マッチングスコアSTECは、入力文T同士で文マッチングスコアを計算した場合の最大値WTTmaxと候補文E同士で文マッチングスコアを計算した場合の最大値WEEmaxから
STEC=(WTEC/((WTTmax^1/2)×(WEEmax^1/2)))^1/4・・・・・(1)
と求められる。同一文のスコアの最大値は、同一の単語が全て対応付けられた場合であり、図5に示す入力文T同士のスコアの場合、最大値WTTmaxは、WTTmax={(8+8)^2+(8+8)^2+(8+8)^2+8^2}^2となる。なお、全体に1/4乗しているのは、スケーリングのためである。そして、上記のようにSTECを計算するとSTEC=0.78となる。
具体例2
次に、入力文が「5−1でブラジルはスペインに完勝」、候補文が「日本は4−0で韓国に完勝した」の例について説明する。
【0035】
まず、単語対応表作成部11で表3のような単語対応表が作成される。そして、単語対応最適化部13で、表3の単語対応表を利用して文マッチングスコアが最大となるような最適な単語対応が求められる。
【0036】
【表3】
Figure 0003628580
単語対応最適化部13では、ステップ21において単語対応の組み合せCは空に初期化される。次に、ステップ22ではM[t][e]>0となる各(t,e)についてC={(t,e)}としたときの文マッチングスコアを計算する。ここでは、文マッチングスコアが最も増加する単語対応の中で(2,4)が選ばれたとすると、ステップ24でC={(2,4)}となる。次に文マッチングスコアの増分が最大となるのは、(2,4)と連続する(1,3)である。そのためステップ24において、単語対応CはC={(1,3),(2,4)}となる。その次に選択されるのは、(2,4)と連続しているため文マッチングスコアの増分が最も大きくなる(3,5)であり、C={(1,3),(2,4),(3,5)}となる。
【0037】
再びステップ22を実行すると、(4,2)で文マッチングスコアの増分が最大となるため、ステップ24ではC={(1,3),(2,4),(3,5),(4,2)}となる。次に、(3,1)をCに追加すると、一対一の単語対応の制約に反するため、(3,5)と(3,1)のうち、文マッチングスコアの増分が最大となるのは、(3,1)を追加した場合であるので、(3,5)をCから除去して、(3,1)を新たにCに追加する。その結果、単語対応CはC={(1,3),(2,4),(3,1),(4,2)}となり、誤った単語対応(3,5)は除去される。
【0038】
以上のようにして単語対応を最適化すると、処理の途中で誤った単語対応が一時的に選択されることがあるが、最終的には図6のような最適な単語対応が得られる。そして、この単語対応に基づいて類似度を(1)式により計算すると、類似度(文マッチングスコア)STECはSTEC=0.69となる。
【0039】
図7を参照すると、本発明の他の実施形態の類似文検索装置は入力装置31と記憶装置32,33と出力装置34と記録媒体35とデータ処理装置36で構成されている。
【0040】
入力装置31は入力文を入力するための、キーボード等の入力装置である。記憶装置32には、自然言語の文である複数の候補文が用例集として格納されている。記憶装置33はハードディスクである。出力装置34は類似文とその類似度、および入力文との一致データが出力される、ディスプレイまたはプリンタである。記録媒体35は、図1中の類似度計算部3と類似文検索部4の各処理からなる類似文検索プログラムが記録されている、フロッピィ・ディスク、CD−ROM、光磁気ディスク等の記録媒体である。データ処理装置36はCPU、各種インタフェース等を含み、記録媒体から類似文検索プログラムを記憶装置33に読み込んだ後、これを実行する。
【0041】
【発明の効果】
以上説明したように、本発明によれば、入力文と候補文とで語順が異なる場合でも、語順に依らない最適な単語対応を効率的に求め、語順の異なりを反映した類似度に基づいて類似文を検索することができる。
【0042】
また、本発明を実例型自然言語翻訳装置に適用した場合、入力文とは語順が異なる類似文を検索することができるだけでなく、入力文と類似文の最適な単語対応情報を利用して翻訳処理を行うことができるため、入力文と類似文の単語対応の誤りに起因する誤訳を低減することができるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態の類似文検索装置の構成図である。
【図2】類似度計算部3の構成図である。
【図3】単語対応最適化部13の処理を示す流れ図である。
【図4】入力文「5−1でブラジルはスペインに完勝」と候補文「日本は韓国に3−0で勝利」の最適な単語対応とそのときのスコア計算例を示す図である。
【図5】入力文「5−1でブラジルはスペインに完勝」同士の最適な単語対応を示す図である。
【図6】入力文「5−1でブラジルはスペインに完勝」と候補文「日本は4−0で韓国に完勝した」の最適な単語対応とそのときのスコア計算例を示す図である。
【図7】本発明の他の実施形態の類似文検索装置の構成図である。
【図8】実例型自然言語翻訳方法による翻訳の例を示す図である。
【符号の説明】
1 入力部
2 用例集格納部
3 類似度計算部
4 類似文検索部
5 検索結果出力部
11 単語対応表生成部
12 文マッチングスコア計算部
13 単語対応最適化部
21〜25 ステップ
31 入力装置
32,33 記憶装置
34 出力装置
35 記録媒体
36 データ処理装置

Claims (3)

  1. 用例集格納手段と単語対応表生成手段と文マッチングスコア計算手段と単語対応最適化手段と類似文検索手段を有する類似文検索装置において、複数の自然言語である候補文を収めた用例集格納手段から自然言語の文である入力文に類似した類似文を検索する類似文検索方法であって
    前記単語対応表生成手段が、入力文と候補文の形態素解析を行い、入力文と候補文の各単語同士の類似性を表す単語マッチングスコアを求めて、入力文と候補文のすべての単語間の単語マッチングスコアを格納した単語対応表を作成する単語対応表生成ステップと、
    前記文マッチングスコア計算手段が、入力文と候補文との単語対応の組み合わせについて、入力文と候補文でそれぞれ対応する文節毎に、前記単語間の単語マッチングスコアを加算し、二乗して文節間のマッチングスコアとし、さらに、入力文と候補文で対応する文節が連続する範囲で前記文節間のマッチングスコアを加算し、二乗して連続対応部分のマッチングスコアとし、前記求められる連続対応部分のマッチングスコアを全て加算することによって文マッチングスコアを計算する文マッチングスコア計算ステップと、
    前記単語対応最適化手段が、前記文マッチングスコア計算手段が計算する入力文と候補文の文マッチングスコアを最大化する入力文と候補文の単語対応の組み合わせを決定し、入力文同士、候補文同士でそれぞれ文マッチングスコアの最大値を算出し、前記入力文と候補文の文マッチングスコアを最大化する入力文と候補文の単語対応の組み合わせの文マッチングスコアを前記算出した入力文同士の文マッチングスコアの最大値と前記算出した候補文同士の文マッチングスコアの最大値によって正規化した値、を入力文と候補文の類似度として求める単語対応最適化ステップと、
    前記類似文検索手段が、前記用例集格納手段に格納された複数の候補文をそれぞれ読み出して前記単語対応最適化手段で入力文と候補文の類似度をそれぞれ求め、前記複数の候補文それぞれに対応する入力文と候補文の類似度のうち、類似度が最も高い候補文を類似文として選択するステップと、
    を有することを特徴とする類似文検索方法。
  2. 複数の自然言語である候補文を収めた用例集格納手段から自然言語の文である入力文に類似した類似文を検索する類似文検索装置であって
    入力文と候補文の形態素解析を行い、入力文と候補文の各単語同士の類似性を表す単語マッチングスコアを求めて、入力文と候補文のすべての単語間の単語マッチングスコアを格納した単語対応表を作成する単語対応表生成手段と、
    入力文と候補文との単語対応の組み合わせについて、入力文と候補文でそれぞれ対応する文節毎に、前記単語間の単語マッチングスコアを加算し、二乗して文節間のマッチングスコアとし、さらに、入力文と候補文で対応する文節が連続する範囲で前記文節間のマッチングスコアを加算し、二乗して連続対応部分のマッチングスコアとし、前記求められる連続対応部分のマッチングスコアを全て加算することによって文マッチングスコアを計算する文マッチングスコア計算手段と、
    前記文マッチングスコア計算手段が計算する入力文と候補文のマッチングスコアを最大化する入力文と候補文の単語対応の組み合わせを決定し、入力文同士、候補文同士でそれぞれ文マッチングスコアの最大値を算出し、前記入力文と候補文の文マッチングスコアを最大化する入力文と候補文の単語対応の組み合わせの文マッチングスコアを前記算出した入力文同士の文マッチングスコアの最大値と前記算出した候補文同士の文マッチングスコアの最大値によって正規化した値、を入力文と候補文の類似度として求める単語対応最適化手段と、
    前記用例集格納手段に格納された複数の候補文をそれぞれ読み出して前記単語対応最適化手段で入力文と候補文の類似度をそれぞれ求め、前記複数の候補文それぞれに対応する入力文と候補文の類似度のうち、類似度が最も高い候補文を類似文として選択する手段と、
    を有することを特徴とする類似文検索装置。
  3. コンピュータを用例集格納手段と単語対応表生成手段と文マッチング スコア計算手段と単語対応最適化手段と類似文検索手段を有する類似文検索装置として動作させ、複数の自然言語である候補文を収めた用例集格納手段から自然言語の文である入力文に類似した類似文を検索する類似文検索プログラムを格納したコンピュータ読み取り可能な記録媒体であって
    前記単語対応表生成手段が、入力文と候補文の形態素解析を行い、入力文と候補文の各単語同士の類似性を表す単語マッチングスコアを求めて、入力文と候補文のすべての単語間の単語マッチングスコアを格納した単語対応表を作成
    前記文マッチングスコア計算手段が、入力文と候補文との単語対応の組み合わせについて、入力文と候補文でそれぞれ対応する文節毎に、前記単語間の単語マッチングスコアを加算し、二乗して文節間のマッチングスコアとし、さらに、入力文と候補文で対応する文節が連続する範囲で前記文節間のマッチングスコアを加算し、二乗して連続対応部分のマッチングスコアとし、前記求められた連続対応部分のマッチングスコアを全て加算することによって文マッチングスコアを計算し、
    前記単語対応最適化手段が、前記文マッチングスコア計算手段が計算する入力文と候補文の文マッチングスコアを最大化する入力文と候補文の単語対応の組み合わせを決定し、入力文同士、候補文同士でそれぞれ文マッチングスコアの最大値を算出し、前記入力文と候補文の文マッチングスコアを最大化する入力文と候補文の単語対応の組み合わせの文マッチングスコアを前記算出した入力文同士の文マッチングスコアの最大値と前記算出した候補文同士の文マッチングスコアの最大値によって正規化した値、を入力文と候補文の類似度として求め
    前記類似文検索手段が、前記用例集格納手段に格納された複数の候補文をそれぞれ読み出して前記単語対応最適化手段で入力文と候補文の類似度をそれぞれ求め、前記複数の候補文それぞれに対応する入力文と候補文の類似度のうち、類似度が最も高い候補文を類似文として選択する
    ことを特徴とする類似文検索装置としてコンピュータを機能させるための類似文検索プログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2000056235A 2000-03-01 2000-03-01 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体 Expired - Lifetime JP3628580B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000056235A JP3628580B2 (ja) 2000-03-01 2000-03-01 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000056235A JP3628580B2 (ja) 2000-03-01 2000-03-01 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2001243245A JP2001243245A (ja) 2001-09-07
JP3628580B2 true JP3628580B2 (ja) 2005-03-16

Family

ID=18577223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000056235A Expired - Lifetime JP3628580B2 (ja) 2000-03-01 2000-03-01 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3628580B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
JP4025180B2 (ja) * 2002-11-19 2007-12-19 株式会社山武 文書管理装置
JP5629701B2 (ja) * 2012-01-26 2014-11-26 エヌ・ティ・ティ・コムウェア株式会社 類似度算出装置、類似度算出方法、および類似度算出プログラム
JP7049880B2 (ja) * 2017-03-24 2022-04-07 株式会社Nttドコモ 音声認識結果比較システム
JP7377524B2 (ja) * 2019-12-06 2023-11-10 アイビーリサーチ株式会社 入力支援装置、入力支援システム及びプログラム
EP4017605A1 (en) * 2020-03-13 2022-06-29 Google LLC Natural language dialog system for video game interaction

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2625918B2 (ja) * 1988-06-30 1997-07-02 松下電器産業株式会社 半田付装置の液浄化装置
JPH02158873A (ja) * 1988-12-12 1990-06-19 Ricoh Co Ltd キーワード・マッチング装置
JP2585951B2 (ja) * 1993-04-27 1997-02-26 株式会社富士通ソーシアルサイエンスラボラトリ コードデータ検索装置
JPH0765030A (ja) * 1993-08-27 1995-03-10 Toshiba Corp 文章検索方法及びその装置
JPH07253987A (ja) * 1994-03-16 1995-10-03 Toshiba Corp 文書検索システムと文書検索方法
JPH08278982A (ja) * 1995-04-05 1996-10-22 Fuji Electric Co Ltd 類似語または類似文章の検索方法

Also Published As

Publication number Publication date
JP2001243245A (ja) 2001-09-07

Similar Documents

Publication Publication Date Title
CA2202696C (en) Method and apparatus for language translation
US5895446A (en) Pattern-based translation method and system
JP4911028B2 (ja) 単語翻訳装置、翻訳方法および翻訳プログラム
US5850561A (en) Glossary construction tool
US7054803B2 (en) Extracting sentence translations from translated documents
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP2005507524A (ja) 機械翻訳
JP2005507525A (ja) 機械翻訳
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
Dagan et al. Termight: Coordinating humans and machines in bilingual terminology acquisition
JP3831357B2 (ja) 対訳情報作成装置及び対訳情報検索装置
JP3628580B2 (ja) 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体
JP5386855B2 (ja) 翻訳メモリ翻訳装置および翻訳プログラム
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP3744136B2 (ja) 訳語選択装置と記憶媒体
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP2001357065A (ja) 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体
JP4528818B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
JPH08329059A (ja) 汎用参照装置
Erdağı et al. Comparison of feature-based sentence ranking methods for extractive summarization of turkish news texts
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040927

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040927

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041208

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3628580

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071217

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121217

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121217

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term