JPH06274546A - 情報量一致度計算方式 - Google Patents

情報量一致度計算方式

Info

Publication number
JPH06274546A
JPH06274546A JP5060216A JP6021693A JPH06274546A JP H06274546 A JPH06274546 A JP H06274546A JP 5060216 A JP5060216 A JP 5060216A JP 6021693 A JP6021693 A JP 6021693A JP H06274546 A JPH06274546 A JP H06274546A
Authority
JP
Japan
Prior art keywords
similar
search
similarity
information amount
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5060216A
Other languages
English (en)
Inventor
Takashi Okada
尚 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP5060216A priority Critical patent/JPH06274546A/ja
Publication of JPH06274546A publication Critical patent/JPH06274546A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 同じ類似度を持つ多くの類似候補の中からさ
らに類似なものを効果的に選択する。 【構成】 解析部1は単語辞書2を参照して、入力され
た原言語文を解析し、原言語依存構造を用例検索部3に
与える。用例検索部3の一致用例検索処理部6は入力さ
れた原言語文に基づいて用例データベース4を検索し、
この検索結果に対して類似用例検索処理部7の類似度計
算処理部8はその検索結果に基づいて、シソーラス・デ
ータベース5を参照しながら類似用例の検索処理を行な
い、情報量一致度計算処理部10は比較項目である各種
属性の属性値の持つ情報量が最も近似している検索対象
を最も類似していると見なしてより類似な検索対象を選
び出して変換部9に出力し、変換部9から翻訳データが
出力される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は情報量一致度計算方式
に関し、特に、複数の検索対象の中から1つの検索要求
物に類似している対象を検索するような類似度検索に用
いられる情報量一致度計算方式に関する。
【0002】
【従来の技術】電子計算機による機械翻訳システムは、
ますますその必要性が高まり、研究開発が盛んになって
いる。しかも、最近では、技術文書だけでなく、多様な
分野への適用も始まっており、会議への適用や自動翻訳
電話への応用も始まっている。
【0003】従来の電子計算機を用いた翻訳装置とし
て、用例主導型機械翻訳方式が特開昭3−276367
号公報において提案されている。
【0004】図3は用例主導型機械翻訳装置の概略ブロ
ック図である。図3において、翻訳すべき原言語文とし
てたとえば「N1のN2:(京都の会議)」が解析部1
に入力される。解析部1は単語辞書2を参照しながら、
入力された原言語文を解析するものであって、原言語依
存構造を抽出し、用例検索部3に与える。用例検索部3
には原文とその対訳との対からなる用例データベース4
と、原言語の単語を意味の類似性に基づいて木構造に階
層化したシソーラスと呼ばれるシソーラス・データベー
ス5とが接続されている。
【0005】用例検索部3の一致用例検索処理部6は、
入力された原言語文「京都の会議」に基づいて、用例デ
ータベース4を検索する。用例データベース4からは、
たとえば「大阪の会議」,「東京での滞在」などが検索
される。これらの検索結果に対して、類似用例検索処理
部7は、シソーラス・データベース5を参照しながら、
類似用例の検索処理を行なう。すなわち、類似用例検索
処理部7の類似度計算部8は、用例データベース4から
検索された「大阪の会議」,「東京での滞在」と入力言
語との類似性を数値として計算し、計算された値が最小
の用例に最も類似していると判定する。そして、変換部
9は最も類似していると判断された翻訳語にしたがって
入力された原文を翻訳する。
【0006】
【発明が解決しようとする課題】上述の用例主導型機械
翻訳方式の場合、入力された原言語文と用例との類似性
をいくつかの属性値の一致性に基づく類似度計算により
求め、その類似度が最小の用例すべてを類似用例として
いた。このため、検索結果に同じ類似度を持つ複数個の
類似候補が出現することがあり、これらの類似候補から
どれを選択するかが検索結果の品質に影響を与えるとい
う問題点があった。
【0007】それゆえに、この発明の主たる目的は、同
じ類似度を持つ多くの類似候補の中からさらに類似なも
のを効果的に選択し得る情報量一致度計算方式を提供す
ることである。
【0008】
【課題を解決するための手段】請求項1にかかる発明
は、複数の検索対象の中から1つの検索要求物に類似し
ている対象を検索する類似検索において、比較項目であ
る各種属性の持つ情報量が最も近似している検索対象を
最も類似していると見なす判定基準に基づいて、類似度
を計算する。
【0009】請求項2に係る発明は、検索要求物と検索
対象の各種属性における属性値の近似性を情報量の一致
度計算式により一致度として数値化し、その値が最小で
ある検索対象を最も類似なものと判定する。
【0010】請求項3に係る発明は、検索対象と検索要
求物との比較項目である各種属性に対して、情報量の一
致度計算式が、属性やその値の意味的な解釈を含んだ扱
いを一切せず、すべての属性を一様に取扱う。
【0011】請求項4に係る発明は、類似検索におい
て、特に属性値の値の一致性に基づいた類似度計算で、
同じ類似度のために優劣の判定がつかない場合の類似選
択の方法として利用する。
【0012】
【作用】この発明に係る情報量一致度計算方式は、比較
項目である各種属性の持つ情報量が最も近似している検
索対象を最も類似していると見なす判定基準に基づいて
類似度を計算することにより、同じ類似度のために優劣
の判定がつかない複数個の検索対象が出現した場合に、
同じ類似度を持つ検索対象の中からより類似な検索対象
を選び出すことができる。
【0013】
【実施例】図1はこの発明の一実施例の概略ブロック図
である。この図1に示した実施例は、類似用例検索処理
部7内に情報量一致度計算処理部10を設けた以外は前
述の図3と同様にして構成される。この情報量一致度計
算処理部10は類似度計算処理部8で同じ類似度のため
優劣のつかなかった複数個の用例のみを検索対象として
その一致度を計算する。
【0014】前述の説明のごとく、類似度計算処理部8
は、入力の名詞句「N1のN2」と用例の名詞句「N1
のN2」との各属性値の一致性を計算するが、情報量一
致度計算処理部10は、属性値の持つ情報量の一致性に
基づく類似選択を行なう。すなわち、このシステムにお
ける情報量一致度計算処理部10は、同じ類似度の複数
個の用例の中から、最も類似な用例から順に並んだ最大
m個の類似用例の例を選択するものである。
【0015】図2はこの発明の一実施例の動作を説明す
るためのフローチャートである。この発明の一実施例で
使用する各属性値の情報量は、検索対象をすべて対象と
した出現頻度に基づく情報量を意味する。情報量の計算
方法の一例として、以下のシャノンの自己情報量が挙げ
られる。
【0016】シャノンの自己情報量=−log2 P ここで、Pは出現確率である。
【0017】図1に示した類似度計算処理部8はすべて
の用例を検索対象とするが、情報量一致度計算処理部1
0は類似度計算処理部8では同じ類似度のため優劣のつ
かなかった複数個の用例のみを検索対象とする。そし
て、情報量一致度計算処理部10は同じ類似度の複数個
の用例の中から、最も類似な用例から順に並んだ最大m
個の類似用例の列を選択する。情報量一致度計算処理部
10の一致度計算式S(I,E)は、入力の名詞句「N
1のN2」と用例の名詞句「N1のN2」の各々の7種
類の属性の属性値の情報量をパラメータとする計算式で
あり、それを以下に示す。
【0018】 名詞句「N1のN2」における7種類の属性 (1)「N1」の品詞 (2)「N1」の接辞 (3)「N1」の類語コード (4)「の」の文字列パターン (5)「N2」の品詞 (6)「N2」の接辞 (7)「N2」の類度コード 一致度計算式は次式で表わされる。
【0019】
【数1】
【0020】I:検索要求物としての入力の名詞句「N
1のN2」 E:検索対象としての用例データ内の名詞句「N1のN
2」 ii :検索要求物としての入力の名詞句「N1のN2」
のi番目の属性値の情報量 ei :検索対象としての用例の名詞句「N1のN2」の
i番目の属性値の情報量 上述の計算式を処理するために、情報量一致度計算処理
部10は図2に示す動作を実行する。すなわち、まず、
全用例上での出現確率より計算済みの各属性の属性値の
情報量から、検索要求物Iと検索対象Eの各属性の属性
値の情報量を求める。前述の名詞句「N1のN2」にお
いては、7種類の属性があるため、n=7になる。検索
要求物と検索対象の各情報量に基づいて、一致度計算式
S(I,E)から検索対象の一致度を算出する。
【0021】検索対象の一致度を算出した後、毎回、一
致度の計算済みの検索対象の集合(選択候補の列)に対
して、一致度で昇順に並んだ列を作る。もし、選択候補
の列の検索対象の数が(m+1)個の時、列の先頭から
(m+1)番目(最後)の検索対象をその列から削除す
ることによって選択候補の絞り込みを行なう。そして、
iがNになるまで上述の動作を繰返し、i=Nになると
処理を終了する。
【0022】
【発明の効果】以上のように、この発明によれば、比較
項目である各種属性の持つ情報量が最も近似している検
索対象を最も類似していると見なす判定基準に基づいて
類似度を計算することにより、類似検索において検索結
果の品質を高めることができる。特に、これを利用する
ことによって、用例主導型機械翻訳による翻訳の質を向
上できる。
【図面の簡単な説明】
【図1】この発明の一実施例の概略ブロック図である。
【図2】この発明の一実施例における情報量一致度計算
処理部の動作を説明するためのフローチャートである。
【図3】従来の用例主導型機械翻訳システムの全体のブ
ロック図である。
【符号の説明】
1 解析部 2 単語辞書 3 用例検索部 4 用例データベース 5 シソーラス・データベース 6 一致用例検索処理部 7 類似用例検索処理部 8 類似度計算処理部 9 変換部 10 情報量一致度計算処理部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数の検索対象の中から1つの検索要求
    物に類似している対象を検索する類似検索において、 比較項目である各種属性の持つ情報量が最も近似してい
    る検索対象を最も類似していると見なす判定基準に基づ
    いて類似度を計算することを特徴とする、情報量一致度
    計算方式。
  2. 【請求項2】 前記検索要求物と前記検索対象の各種属
    性における属性値の近似性を情報量の一致度計算式によ
    り一致度として数値化し、その値が最小である検索対象
    を最も類似なものと判定することを特徴とする、請求項
    1の情報量一致度計算方式。
  3. 【請求項3】 前記検索対象と前記検索要求物との比較
    項目である各種属性に対して、情報量の一致度計算式
    が、属性やその値の意味的な解釈を含んだ扱いを一切せ
    ず、すべての属性を一様に取扱うことを特徴とする、請
    求項1の情報量一致度計算方式。
  4. 【請求項4】 さらに、属性値の値の一致性に基づいた
    類似度計算で、同じ類似度のために優劣の判定がつかな
    い場合の類似選択の方法として利用されることを特徴と
    する、請求項1の情報量一致度計算方式。
JP5060216A 1993-03-19 1993-03-19 情報量一致度計算方式 Pending JPH06274546A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5060216A JPH06274546A (ja) 1993-03-19 1993-03-19 情報量一致度計算方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5060216A JPH06274546A (ja) 1993-03-19 1993-03-19 情報量一致度計算方式

Publications (1)

Publication Number Publication Date
JPH06274546A true JPH06274546A (ja) 1994-09-30

Family

ID=13135755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5060216A Pending JPH06274546A (ja) 1993-03-19 1993-03-19 情報量一致度計算方式

Country Status (1)

Country Link
JP (1) JPH06274546A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0805403A2 (en) * 1996-05-02 1997-11-05 Sony Corporation Translating apparatus and translating method
JPH1097286A (ja) * 1996-08-02 1998-04-14 Fujitsu Ltd 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体
EP1146439A1 (en) * 1999-08-31 2001-10-17 Sony Corporation Information processing device and information processing method, and recording medium
JP2002287793A (ja) * 2001-03-28 2002-10-04 Just Syst Corp コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム
KR100441181B1 (ko) * 1995-04-07 2005-04-06 소니 가부시끼 가이샤 음성인식방법및장치
KR100482313B1 (ko) * 1996-12-30 2005-07-21 엘지전자 주식회사 이중유사도비교를통한음성인식방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03276367A (ja) * 1990-03-26 1991-12-06 A T R Jido Honyaku Denwa Kenkyusho:Kk 用例主導型機械翻訳方法
JPH04324499A (ja) * 1991-04-24 1992-11-13 Sharp Corp 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03276367A (ja) * 1990-03-26 1991-12-06 A T R Jido Honyaku Denwa Kenkyusho:Kk 用例主導型機械翻訳方法
JPH04324499A (ja) * 1991-04-24 1992-11-13 Sharp Corp 音声認識装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100441181B1 (ko) * 1995-04-07 2005-04-06 소니 가부시끼 가이샤 음성인식방법및장치
EP0805403A2 (en) * 1996-05-02 1997-11-05 Sony Corporation Translating apparatus and translating method
EP0805403A3 (en) * 1996-05-02 1999-04-07 Sony Corporation Translating apparatus and translating method
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
JPH1097286A (ja) * 1996-08-02 1998-04-14 Fujitsu Ltd 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体
KR100482313B1 (ko) * 1996-12-30 2005-07-21 엘지전자 주식회사 이중유사도비교를통한음성인식방법
EP1146439A1 (en) * 1999-08-31 2001-10-17 Sony Corporation Information processing device and information processing method, and recording medium
EP1146439A4 (en) * 1999-08-31 2002-02-27 Sony Corp COMPUTER METHOD AND DEVICE AND RECORDING MEDIUM
US7010477B1 (en) 1999-08-31 2006-03-07 Sony Corporation Information processing device information processing method, and recording medium
JP2002287793A (ja) * 2001-03-28 2002-10-04 Just Syst Corp コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム

Similar Documents

Publication Publication Date Title
US7567902B2 (en) Generating speech recognition grammars from a large corpus of data
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
CN114266256A (zh) 一种领域新词的提取方法及系统
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JPH06274546A (ja) 情報量一致度計算方式
JPH1145274A (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0844771A (ja) 情報検索装置
JP3123836B2 (ja) テキスト型データベース装置
JP2000259653A (ja) 音声認識装置及び音声認識方法
JP2529418B2 (ja) 文書検索装置
JP2003085181A (ja) 事典システム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JPH06124305A (ja) 文書検索方法
JPH08314969A (ja) 情報検索方法及び装置
KR20010107113A (ko) 자연어 정보 검색 시스템에서 구문 트리를 이용한 자연어질의의 불린 질의 및 벡터 질의 변환 방법
JP2600081B2 (ja) 自然言語対話装置
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JPH05189485A (ja) キーワード検索方式
JPH0540783A (ja) 自然言語解析装置
JPH03229367A (ja) テキストベース検索方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19950516