JP3055545B1 - 関連文検索装置 - Google Patents

関連文検索装置

Info

Publication number
JP3055545B1
JP3055545B1 JP11010228A JP1022899A JP3055545B1 JP 3055545 B1 JP3055545 B1 JP 3055545B1 JP 11010228 A JP11010228 A JP 11010228A JP 1022899 A JP1022899 A JP 1022899A JP 3055545 B1 JP3055545 B1 JP 3055545B1
Authority
JP
Japan
Prior art keywords
sentence
language
search
bilingual
written
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP11010228A
Other languages
English (en)
Other versions
JP2000207416A (ja
Inventor
政之 倉橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP11010228A priority Critical patent/JP3055545B1/ja
Priority to US09/456,980 priority patent/US6321191B1/en
Application granted granted Critical
Publication of JP3055545B1 publication Critical patent/JP3055545B1/ja
Publication of JP2000207416A publication Critical patent/JP2000207416A/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【要約】 【課題】 多種多様な言語文間についても互いに関連す
る文書の検索を実現する。 【解決手段】 関連文検索装置21は、P言語文とn
(nは3以上の自然数)種類の他の言語A〜Fで書かれ
た文との間で双方向に関連文を検索するn個の対訳文検
索装置22a〜22fを備え、各対訳文検索装置のP言
語文入力手段を共通にするとともに、P言語文出力手段
を共通にして、P言語を介して他のn種類の言語文間で
双方向に関連文検索を実現する。すなわち、各対訳文検
索装置間でP言語文の受け渡しを行い、n種類の言語文
間での双方向検索を実現する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、或る言語で書かれ
た文と他の種類の言語で書かれた文との間で、更に他の
種類の言語で書かれた文を中継言語文として、関連する
文を検索する装置に関する。
【0002】
【従来の技術】コンピュータ性能の向上、電子辞書の整
備、自然言語処理技術の進歩等に伴い、これまで多くの
機械翻訳技術の提案がなされてきた。しかしながら、未
だ十分な翻訳精度を持つ機械翻訳システムが実現されて
いるとは言い難い状況にある。
【0003】従来より、翻訳元の言語(第1言語)と翻
訳先の言語(第2言語)の対訳文のペアを多数用意して
おき、対訳文ペアの第1言語文から第1言語入力文に類
似する文を検索し、この検索結果としての第1言語文に
対応する第2言語文を対訳文ペアから出力し、この出力
された第2言語文をユーザに参照させることによって、
第1言語入力文の翻訳の質を高めようとする手法が提案
されている。第1言語入力文と類似する文を対訳文ペア
の第1言語文の集合中から得る方法として、共通に用い
られている語の多いものを類似度の高い文とする方法
や、例えば特開平9−50435号公報に記載されるよ
うに、類似文書検索手法の一つであるベクトル空間モデ
ルに基づいた検索手法を用いて、第1言語入力文に対応
するベクトルと距離の近いベクトルを持つ第1言語文を
類似度の高い文とする方法が提案されている。
【0004】また、上記と同様の効果を得るために、第
1言語の入力文中の各単語を、辞書を用いて第2言語の
単語や熟語に機械的に置き換え、この第2言語による単
語や熟語の集合を用いて第2言語の文集合中から該当す
る文を検索し、得られた第2言語文をユーザに参照させ
ることによって翻訳の質を高める手法が研究されてい
る。
【0005】しかしながら、従来にあっては、第1言語
の入力文中に存在する単語だけを基に類似する第1言語
文を得るものであるため、第1言語入力文の翻訳文とし
て適切な第2言語文が対訳文ペア集合中に存在している
場合であっても、第1言語文の表現が第1言語入力文と
異なる場合には、検索結果として適切な第2言語文を得
ることができない欠点があった。すなわち、効果的であ
るのは、第1言語入力文中に存在する単語集合とほぼ同
一の単語集合を構成要素とする文が対訳文ペア集合中に
存在している場合に限られてしまっていた。このような
欠点は、入力文中に含まれる単語の数が少ない程顕著に
なり、入力が多くの文から構成される文書のような場合
には、対応する文書ベクトルの非零の要素が多くなり
(実質的なベクトルの次元が高くなり)、検索結果の信
頼性は高くなるといえるが、実際に存在する対訳文デー
タは短い文であることがほとんどであるため、参照する
ために適切な関連文(第2言語文)を得ることは事実上
困難である。
【0006】また、従来にあっては、第1言語の入力文
中の個々の単語を、辞書を用いて第2言語の単語や熟語
に置き換えることにより、参照すべき第2言語文を得る
ものであるが、或る第1言語単語を表現することが可能
な第2言語の単語や熟語は極めて多様であり、さらに、
その中からどの第2言語単語で置き換えるのが適切であ
るかは第1言語入力文の文意に依存するため、それらを
予め決定しておくことは事実上不可能である。したがっ
て、第1言語単語と第2言語単語の対応関係を予め網羅
的に辞書の形式で表現することは困難であり、参照する
に適切な関連文を得ることは困難である。
【0007】そこで、本願出願人は、対訳文ペアを用い
て第1言語の検索質問文からより適切な関連文たる第2
言語文を検索することができる対訳文検索装置を既に提
案した(特願平10−202788号)。この対訳文検
索装置では、対訳文ペア格納手段に第1言語で書かれた
文とそれに対応する第2言語で書かれた訳文とのペアを
複数格納しておき、検索文入力手段から第1言語で書か
れた検索質問文を受け付けると、第1の検索手段が当該
検索質問文に基づいて対訳文ペア格納手段に格納されて
いる第1言語で書かれた文の集合を対象として検索処理
する。そして、第1の検索手段により検索された第1言
語で書かれた文に対応して対訳文ペア格納手段に格納さ
れている第2言語で書かれた訳文に類似する文を、第2
の検索手段が対訳文ペア格納手段に格納されている第2
言語で書かれた訳文の集合を対象として検索する。
【0008】すなわち、訳文ペアに対する第1言語入力
文による検索を行い、この検索結果に対応する第2言語
文を用いて、訳文ペアから第2言語文の類似検索を行っ
ている。このように訳文ペアを橋渡しとした第1言語と
第2言語との検索を二重に連続して行うことにより、表
現の相違や単語や熟語の数に大きく影響されることな
く、更には、第1言語入力文が比較的短い場合であって
も、第1言語の検索質問文からより適切な関連文たる第
2言語文を検索することができる。
【0009】
【発明が解決しようとする課題】上記の対訳文検索装置
によれば所期の効果を達成することができるが、社会的
な国際化が加速し、種々多様な言語が日常的に使われる
現代においては、更に多種多様な言語文間についても同
様な効果の実現が要望されている。本発明は、上記の対
訳文検索装置を応用して、種々多様な言語文間について
も参照するに適切な関連文を利用者に提供することがで
きる関連文検索装置を実現することを目的とする。
【0010】
【課題を解決するための手段】本発明に係る関連文検索
装置は、第1言語で書かれた検索質問文に基づいて第2
言語で書かれた関連文を検索する前段対訳文検索装置
と、前段対訳文検索装置から出力された第2言語で書か
れた関連文に基づいて第3言語で書かれた関連文を検索
する後段対訳文検索装置と、を備え、第1言語で書かれ
た検索質問文に関連する第3言語で書かれた文を第2言
語を介して検索する。すなわち、第1言語文から関連す
る第2言語文を検索する前段対訳文検索装置と、第2言
語から関連する第3言語文を検索する後段対訳文検索装
置とを直列に接続している。
【0011】具体的には、前段対訳文検索装置において
は、前段対訳文ペア格納手段に第1言語文とそれに対応
する第2言語文とのペアを複数格納しており、第1言語
文入力手段から第1言語で書かれた検索質問文を受け付
けると、前段1次検索手段がこの検索質問文に基づいて
前段対訳文ペア格納手段に格納されている第1言語文の
集合を対象として検索処理し、更に、前段2次検索手段
が検索された第1言語文に対応して前段対訳文ペア格納
手段に格納されている第2言語文から抽出した自立語に
基づいて、前段対訳文ペア格納手段に格納されている第
2言語文の集合を対象として類似文検索し、第2言語文
出力手段がこの検索された第2言語文を出力する。
【0012】そして、後段対訳文検索装置においては、
後段対訳文ペア格納手段に第2言語文とそれに対応する
第3言語文とのペアを複数格納しており、第2言語文入
力手段が前記第2言語文出力手段から第2言語文を受け
付けると、後段1次検索手段がこの第2言語文に基づい
て後段対訳文ペア格納手段に格納されている第2言語文
の集合を対象として検索処理し、更に、後段2次検索手
段が検索された第2言語文に対応して後段対訳文ペア格
納手段に格納されている第3言語文から抽出した自立語
に基づいて、後段対訳文ペア格納手段に格納されている
第3言語文の集合を対象として類似文検索し、第3言語
文出力手段がこの検索された第3言語文を出力する。
【0013】また、本発明に係る関連文検索装置は、第
1言語文と第2言語文との間で双方向に関連文を検索す
る第1の対訳文検索装置と、第2言語文と第3言語文と
の間で双方向に関連文を検索する第2の対訳文検索装置
と、を備え、一方の対訳文検索装置から出力された第2
言語文を他方の対訳文検索装置へ入力することにより、
第2言語を介して、第1言語文と第3言語文との間で双
方向に関連文検索を実現する。すなわち、第1言語文と
第2言語文との間の双方向検索を行う第1の対訳文検索
装置と、第2言語文と第3言語文との間の双方向検索を
行う第2の対訳文検索装置とを直列に接続し、両装置の
間の情報交換を第2言語文によって行う。
【0014】具体的には、第1の対訳文検索装置におい
ては、第1の対訳文ペア格納手段に第1言語文と第2言
語文との対応訳文ペアを複数格納しており、第1言語文
入力手段は第1言語文を受け付け、第2言語文入力手段
は第2の対訳文検索装置からの第2言語文を受け付け
る。そして、第1の1次検索手段がこれら受け付けた一
方の種類の言語文に基づいて第1の対訳文ペア格納手段
に格納されている当該一方の種類の言語文集合を対象と
して検索処理し、更に、第1の2次検索手段がこの検索
された一方の種類の言語文に対応して第1の対訳文ペア
格納手段に格納されている他方の種類の言語文から抽出
した自立語に基づいて、第1の対訳文ペア格納手段に格
納されている当該他方の種類の言語文集合を対象として
類似文検索し、検索された第1言語文は第1言語文出力
手段が出力し、また、検索された第2言語文は第2言語
文出力手段が第2の対訳文検索装置へ出力する。
【0015】そして、第2の対訳文検索装置において
は、第2の対訳文ペア格納手段に第2言語文と第3言語
文との対応訳文ペアを複数格納しており、第2言語文入
力手段は第1の対訳文検索装置から第2言語文を受け付
け、第3言語文入力手段は第3言語文を受け付ける。そ
して、第2の1次検索手段がこれら受け付けた一方の種
類の言語文に基づいて第2の対訳文ペア格納手段に格納
されている当該一方の種類の言語文集合を対象として検
索処理し、更に、第2の2次検索手段がこの検索された
一方の種類の言語文に対応して第2の対訳文ペア格納手
段に格納されている他方の種類の言語文から抽出した自
立語に基づいて、第2の対訳文ペア格納手段に格納され
ている当該他方の種類の言語文集合を対象として類似文
検索し、検索された第3言語文は第3言語文出力手段が
出力し、また、検索された第2言語文は第2言語文出力
手段が第1の対訳文検索装置へ出力する。
【0016】また、本発明に係る関連文検索装置は、第
1言語で書かれた文とn(nは3以上の自然数)種類の
他の言語で書かれた文との間で双方向に関連文を検索す
るn個の対訳文検索装置を備え、各対訳文検索装置の第
1言語文入力手段を共通にするとともに、第1言語文出
力手段を共通にして、第1言語を介して他のn種類の言
語文間で双方向に関連文検索を実現する。すなわち、各
対訳文検索装置間で第1言語文の受け渡しを行い、n種
類の言語文間での双方向検索を実現する。
【0017】具体的には、各対訳文検索装置において
は、対訳文ペア格納手段に第1言語文とそれれの他の
種類の言語文との対応訳文ペアを複数格納しており、第
1言語文入力手段が第1言語文を受け付け、他種類言語
文入力手段が当該対訳文検索装置固有の他の種類の言語
文を受け付ける。そして、1次検索手段がこれら受け付
けた一方の種類の言語文に基づいて対訳文ペア格納手段
に格納されている当該一方の種類の言語文集合を対象と
して検索処理し、更に、2次検索手段がこの検索された
一方の種類の言語文に対応して対訳文ペア格納手段に格
納されている他方の種類の言語文から抽出した自立語に
基づいて、対訳文ペア格納手段に格納されている当該他
方の種類の言語文集合を対象として類似文検索し、検索
された他の種類の言語文は他言語文出力手段が出力し、
また、検索された第1言語文は第1言語文出力手段が出
力して他の対訳文検索装置へ受け渡す。
【0018】また、上記した関連文検索装置は第1言語
文を媒介として情報の受け渡しを行うサークル構造とな
っているが、本発明では、このような第1言語文を媒介
とするサークルを複数備え、これらサークル間でも第1
言語文入力手段を共通にするとともに、第1言語文出力
手段を共通にして、これら複数のサークル間を第1言語
によって橋渡しして、他の種類の言語文間で双方向に関
連文を検索することもできる。
【0019】
【発明の実施の形態】本発明に係る関連文検索装置を図
に示す実施例を参照して具体的に説明する。図1には、
第1実施例に係る関連文検索装置の構成を示してある。
本実施例の関連文検索装置1は、前段の対訳文検索装置
2と後段の対訳文検索装置3とを直列に接続した構成と
なっており、1次検索を行う前段対訳文検索装置2から
の検索結果が2次検索を行う後段対訳文検索装置3へ検
索質問文として入力される。
【0020】前段対訳文検索装置2は、A言語で書かれ
た文(第1言語文)に基づいてB言語で書かれた関連文
(第2言語文)を検索するプログラムモジュールであ
る。後段対訳文検索装置3は、前段対訳文検索装置2か
ら出力されたB言語文に基づいてC言語で書かれた関連
文(第3言語文)を検索するプログラムモジュールであ
る。したがって、関連文検索装置1にA言語検索質問文
を入力すると、前段対訳文検索装置2がこのA言語文に
基づいてB言語で書かれた関連文を検索して出力し、そ
して、後段対訳文検索装置3がこの出力されたB言語文
に基づいてC言語で書かれた関連文を検索して出力する
ものであり、第1言語で書かれた検索質問文に関連する
第3言語で書かれた文を第2言語を介して検索出力す
る。
【0021】前段対訳文検索装置2と後段対訳文検索装
置3は、それどれ図2に示すような同様な構成となって
いる。すなわち、各々の対訳文検索装置は、或る言語で
書かれた文とそれに対応する他の種類の言語で書かれた
訳文とのペアを複数格納する対訳文ペア格納手段4と、
前記或る言語で書かれた検索質問文を受け付ける検索文
入力手段5と、この検索質問文に基づいて対訳文ペア格
納手段4に格納されている前記或る言語で書かれた文の
集合を対象として検索処理する1次検索手段6と、この
検索された前記或る言語で書かれた文に対応して対訳文
ペア格納手段4に格納されている前記他の種類の言語で
書かれた訳文に類似する文を、対訳文ペア格納手段4に
格納されている当該他の種類の言語で書かれた訳文の集
合を対象として検索する2次検索手段7と、この検索さ
れた前記他の種類の言語で書かれた文を出力する結果出
力手段8と、を備えている。
【0022】但し、本実施例では、前段対訳文検索装置
2における前記或る言語はA言語であり、また、前記他
の種類の言語はB言語である。また、後段対訳文検索装
置3における前記或る言語はB言語であり、また、前記
他の種類の言語はC言語である。また、前段対訳文検索
装置2における検索文入力手段5は検索者からの検索質
問文を受け付け、後段対訳文検索装置3における検索文
入力手段5は前段対訳文検索装置2の結果出力手段8か
ら出力された検索結果を検索質問文として受け付ける。
なお、前段対訳文検索装置2の結果出力手段8と後段対
訳文検索装置3の検索文入力手段5とは両装置のインタ
フェース機能を奏するものであり、これら両手段は一体
的な機能手段として構成するようにしてもよい。
【0023】前段対訳文検索装置2においても、後段対
訳文検索装置3においても、1次検索手段6及び2次検
索手段7は例えば下記のような同様な方法によって類似
文の検索を行う。1次検索手段6と2次検索手段7とに
よる類似文検索はそれぞれ、例えば、或る言語の検索質
問文から自立語を抽出した後、(1)得られた自立語集
合を基にベクトル空間モデルに従って得られる類似文
(当該或る言語の文)の内から距離の値が所定の閾値よ
りも大きい文を検索結果とする、又は、(2)後述する
拡張相互情報量に基づいた計算によって得られる類似文
(当該或る言語の文)の内から拡張相互情報量の合計値
が所定の閾値よりも大きい文を検索結果とする、のいず
れかの方法で行う。但し、1次検索手段6から得られた
文の集合中の各文は、対訳文ペア格納手段4に格納され
ている対応する他の種類の言語文に置き換えられて、2
次検索手段7に入力される。
【0024】なお、複数の文を入力とする場合には、入
力された各文に対応する文ベクトルの総和ベクトルを入
力文ベクトルとみなして、単一文入力の場合と同様の計
算を行えばよい。ベクトル空間モデルを利用する類似文
検索としては、例えば、特開平9−50435号公報に
記載される方法が知られている。
【0025】ここで、対訳文検索装置による拡張相互情
報量を利用した検索処理を、或る言語で書かれた文を日
本語文とし、他の種類の言語で書かれた文を英語文とし
て更に詳細に説明する。図3には、上記構成の対訳文検
索装置によって実行されるアルゴリズムをフローチャー
トで示してあり、当該アルゴリズムを実行することによ
って、入力された日本語検索質問文に類似する英語関連
文が得られる。なお、下記の処理手順において、ステッ
プS2〜S8は1次検索手段6が行い、ステップS9〜
S11は2次検索手段7が行う。
【0026】まず、検索文入力手段5が入力された日本
語入力文(検索質問文)Qを受け付けると(ステップS
1)、日本語検索質問文Qに形態素解析処理を施して、
単語に分割する(ステップS2)。そして、日本語検索
質問文Qから得られた単語の内からストップワード以外
の自立語を抽出し、各自立語を論理和演算子ORで結合
して検索式Sとする(ステップS3)。
【0027】次いで、検索式Sを入力として、対訳文ペ
ア格納手段4に格納されている対訳文ペアの日本語文を
対象に通常の検索(例えば、キーワードマッチング)を
行い、検索式S中のいずれかの単語を含む日本語文を検
索して得られた検索結果数をMとする(ステップS
4)。そして、当該Mが0であるか否かを判断し(ステ
ップS5)、Mが0である場合には、入力された日本語
検索質問文Qに類似する英語文は検索対象のデータ中に
存在しない旨を結果出力手段8から表示出力して処理を
終了する(ステップS14)。なお、検索対象の対訳文
ペア中に入力日本語文Q中の単語すら含んでいない場合
には、当該対訳文ペア中に類似文が存在する可能性はほ
とんど無いと言えるので、本実施形態では、このような
通常の検索(ステップS4)を前処理的に行うことによ
って以後の類似文検索を無駄に行わないようにしてい
る。
【0028】一方、Mが0でない場合には、検索式Sを
入力として、対訳文ペアの日本語文を対象に類似文検索
を行う(ステップS6)。すなわち、後述するアルゴリ
ズム[S01]〜[S04]を実行し、対訳文ペアの日
本語文の集合を文書集合Dとし、メモリに格納されてい
る日本語の自立語集合を自立語集合Wとして、類似文検
索を行う。なお、このメモリには、対訳文ペア格納手段
4に格納されている全ての文の形態素解析結果を受け取
って、該解析結果から自立語(ただしストップワードは
除く)を抽出した上で、各対訳文ペア識別子ごとに格納
されている。そして、この検索結果の内で閾値T(予め
設定した非負の定数)を越える拡張相互情報量の合計値
を持つ対訳文ペア識別子の集合をEとし(ステップS
7)、この識別子集合Eの要素数が0であるか否かを判
断する(ステップS8)。
【0029】この結果、識別子集合Eの要素数が0であ
る場合には、適切な類似文が得られないのでステップS
14へ進んで処理を終了する一方、識別子集合Eの要素
数が0でない場合には、識別子集合E中の各識別子に対
応する全ての英単語を上記のメモリから抽出し、論理和
演算子ORで結合して検索式S’とする(ステップS
9)。そして、検索式S’を入力として、対訳文ペアの
英語文を対象として類似文検索を行う(ステップS1
0)。すなわち、後述するアルゴリズム[S01]〜
[S04]を実行し、対訳文ペアの英語文の集合を文書
集合Dとし、上記のメモリに格納されている英語の自立
語集合を自立語集合Wとして、類似文検索を行う。
【0030】そして、この検索結果の内で閾値T’(予
め設定した非負の定数)を越える拡張相互情報量の合計
値を持つ対訳文ペア識別子の集合をE’とし(ステップ
S11)、この識別子集合E’の要素数が0であるか否
かを判断する(ステップS12)。この結果、識別子集
合E’の要素数が0である場合には、適切な類似文が得
られないのでステップS14へ進んで処理を終了する一
方、識別子集合E’の要素数が0でない場合には、結果
出力手段8が、識別子集合E’に対応する英語文(ある
いは対訳文ペア)を、拡張相互情報量の合計値の大きい
ものから順に日本語入力文Qの類似文として表示出力し
て、処理を終了する(ステップS13)。
【0031】なお、図4には、対訳文ペア格納手段4に
複数格納されている対訳文ペア(ペアデータ)の一例を
示してあり、各対訳文ペアは対訳文ペア識別子で一意に
特定される日本語文とそれに対応する英語文とから成っ
ている。また、図5には、上記のメモリに格納される対
訳文ペアの形態素解析結果の一例を示してあり、対訳文
ペアの日本語文から抽出された日本語自立語とそれに対
応する英語文から抽出された英語自立語とが、元の対訳
文ペアと同一の対訳文ペア識別子で特定されている。す
なわち、このメモリに格納される対訳文ペアと対訳文ペ
ア格納手段12に格納されている対訳文ペアとは、対訳
文ペア識別子によって一意に対応付けられている。な
お、本実施例では、類似文検索を行う前に、上記のメモ
リの格納内容を得るために、対訳文ペア格納手段4に格
納されている全ての対訳文ペアに対して形態素解析処理
を施しておく。
【0032】上記した拡張相互情報量(MI’)を用い
たアルゴリズム[S01]〜[S04]をは下記の通り
である。なお、ここでは、検索対象の文集合をDとし、
検索式をSとしている。 [S01]:検索式Sで文書集合Dを検索し、得られた
文集合中に存在する全ての自立語を形態素解析処理(文
を単語に分割する処理)を施すことにより抽出する。な
お、得られた自立語集合をW=(w1,w2,・・・,w
n)とする。 [S02]:検索式Sと自立語集合W中の各自立語との
間の拡張相互情報量(MI’(S,w1),MI’
(S,w2),・・・,MI’(S, Wn))を求め
る。 [S03]:文集合D中の全ての文を対象として、自立
語集合Wの要素wiを含む文に対してMI’(S,wi)
の値を加える計算を、1≦i≦nを満たすiについて繰
り返す。 [S04]:MI’(S,wi)の合計値の高い文から
順に出力し、検索式Sの類似度文検索の結果とする。
【0033】ここに、検索式Sと単語wordの間の相
互情報量(MI’)は、式1によって定義される。但
し、全検索対象文書数をM、wordを含み且つ検索式
Sから得られる文書の数をa’、検索式Sから得られる
文書の内のwordを含まない文書の数をb’、wor
dを含む文書のうち検索式Sから得られる文書を除いた
文書の数をc’とした場合、それぞれ出現確率は式2で
ある。
【0034】
【数1】
【0035】
【数2】
【0036】図6には、第2実施例に係る関連文検索装
置の構成を示してある。本実施例の関連文検索装置11
は、第1の対訳文検索装置12と第2の対訳文検索装置
13とを直列に接続した構成となっており、双方向への
検索を行うために、第1の対訳文検索装置12から第2
の対訳文検索装置13への検索処理の流れと、これとは
逆に、第2の対訳文検索装置13から第1の対訳文検索
装置12への検索処理の流れとの両方が実施できるよう
になっている。前者の処理の流れでは、検索者から入力
された検索質問文に基づいて第1の対訳文検索装置12
が1次検索を行い、この1次検索の結果が入力される第
2の対訳文検索装置13で2次検索を行う。また、後者
の処理の流れでは、検索者から入力された検索質問文に
基づいて第2の対訳文検索装置13が1次検索を行い、
この1次検索の結果が入力される第1の対訳文検索装置
12で2次検索を行う。
【0037】すなわち、対訳文検索装置12はA言語文
に基づくB言語関連文の検索処理とB言語文に基づくA
言語関連文の検索処理をし、また、対訳文検索装置13
はB言語文に基づくC言語関連文の検索処理とC言語文
に基づくB言語関連文の検索処理とをする。したがっ
て、関連文検索装置11にA言語検索質問文を入力する
と、対訳文検索装置12、13の協働により、B言語文
を介して、C言語で書かれた関連文が検索されて出力さ
れ、これとは逆に、関連文検索装置11にC言語検索質
問文を入力すると、対訳文検索装置12、13の協働に
より、B言語文を介して、A言語で書かれた関連文が検
索されて出力される。
【0038】これら対訳文検索装置12、13は、それ
ぞれ図7に示すような同様な構成となっている。すなわ
ち、各々の対訳文検索装置は、或る言語で書かれた文と
それに対応する他の種類の言語で書かれた訳文とのペア
を複数格納する対訳文ペア格納手段14と、前記或る言
語で書かれた検索質問文を受け付ける第1の検索文入力
手段15aと、この検索質問文に基づいて対訳文ペア格
納手段14に格納されている前記或る言語で書かれた文
の集合を対象として検索処理する第1の1次検索手段1
6aと、この検索された前記或る言語で書かれた文に対
応して対訳文ペア格納手段14に格納されている前記他
の種類の言語で書かれた訳文に類似する文を、対訳文ペ
ア格納手段14に格納されている当該他の種類の言語で
書かれた訳文の集合を対象として検索する第1の2次検
索手段17aと、この検索された前記他の種類の言語で
書かれた文を出力する第1の結果出力手段18aと、前
記他の種類の言語で書かれた検索質問文を受け付ける第
2の検索文入力手段15bと、この検索質問文に基づい
て対訳文ペア格納手段14に格納されている前記他の種
類の言語で書かれた文の集合を対象として検索処理する
第2の1次検索手段16bと、この検索された前記他の
種類の言語で書かれた文に対応して対訳文ペア格納手段
14に格納されている前記或る言語で書かれた訳文に類
似する文を、対訳文ペア格納手段14に格納されている
当該或る言語で書かれた訳文の集合を対象として検索す
る第2の2次検索手段17bと、この検索された前記或
る言語で書かれた文を出力する第2の結果出力手段18
bと、を備えている。
【0039】但し、本実施例では、対訳文検索装置12
における前記或る言語はA言語であり、また、前記他の
種類の言語はB言語である。また、対訳文検索装置13
における前記或る言語はB言語であり、また、前記他の
種類の言語はC言語である。また、対訳文検索装置12
における第1の検索文入力手段15aは検索者からの検
索質問文を受け付け、対訳文検索装置13における第1
の検索文入力手段15aは対訳文検索装置12の第1の
結果出力手段18aから出力された検索結果を検索質問
文として受け付ける。また、対訳文検索装置13におけ
る第2の検索文入力手段15bは検索者からの検索質問
文を受け付け、対訳文検索装置12における第2の検索
文入力手段15bは対訳文検索装置13の第2の結果出
力手段18bから出力された検索結果を検索質問文とし
て受け付ける。
【0040】なお、本実施例における各機能手段は第1
実施例と同様であり、対訳文ペア格納手段14は対訳文
ペア格納手段4と、各検索文入力手段15a、15bは
検索文入力手段5と、各1次検索手段16a、16bは
1次検索手段6と、各2次検索手段17a、17bは2
次検索手段7と、各結果出力手段は18a、18bは結
果出力手段8と同様の構成及び機能であるので説明を割
愛する。したがって、本実施例の関連文検索装置11に
よれば、B言語文を媒介として、A言語文とC言語文と
の間で互いに関連する文書を双方向に検索することがで
きる。
【0041】図8には、第3実施例に係る関連文検索装
置の構成を示してある。本実施例の関連文検索装置21
は、A言語文とP言語文との間で互いに関連する文書を
双方向に検索する対訳文検索装置22a、B言語文とP
言語文との間で互いに関連する文書を双方向に検索する
対訳文検索装置22b、C言語文とP言語文との間で互
いに関連する文書を双方向に検索する対訳文検索装置2
2c、D言語文とP言語文との間で互いに関連する文書
を双方向に検索する対訳文検索装置22d、E言語文と
P言語文との間で互いに関連する文書を双方向に検索す
る対訳文検索装置22e、F言語文とP言語文との間で
互いに関連する文書を双方向に検索する対訳文検索装置
22fを、P言語文を媒介をして放射状に接続した構成
となっている。
【0042】各対訳文検索装置はそれぞれ第2実施例と
同様に双方向への類似文検索を行うが、本実施例では、
各対訳文検索装置のP言語文を受け付ける入力手段を共
通にし、P言語文を出力する出力手段を共通にして、各
対訳文検索装置間をP言語文によって橋渡ししている。
なお、各対訳文検索装置の詳細は第2実施例と同様であ
るので説明を割愛する。
【0043】したがって、例えば、検索者がA言語の検
索質問文を入力すると、このA言語文は対訳文検索装置
22aによってP言語文に変換され、このP言語文が各
対訳文検索装置22b〜22fによってB〜Fの異なる
言語によって書かれた関連文に変換される。なお、この
A言語検索質問文に言語指定情報を付加しておき、各対
訳文検索装置間に当該指定情報に基づくルータを設けて
おけば、対訳文検索装置22aによって変換されたP言
語文を指定された言語の対訳文検索装置のみに処理させ
ることもできる。なお、本実施例では、対訳文検索装置
を6つ設けてP言語文を媒介として、A〜Fの6つの言
語間で互いに関連する文書を双方向に検索する例を示し
たが、対訳文検索装置は3つ以上幾つ放射状に設けても
よい。
【0044】図9には、第4実施例に係る関連文検索装
置の構成を示してある。本実施例の関連文検索装置31
は、第3実施例で示したP言語文を媒介としてA〜Fの
6つの言語間で互いに関連する文書を双方向に検索する
関連文書検索装置21と、これと同様な構成によるP言
語文を媒介としてG〜Lの6つの言語間で互いに関連す
る文書を双方向に検索する関連文書検索装置22とをP
言語文を媒介をして接続した構成となっている。
【0045】各関連文検索装置21、22はそれぞれ第
3実施例と同様にA〜F或いはG〜Lの6つの言語間で
互いに関連する文書を双方向に検索するが、本実施例で
は、各関連文検索装置21、22のP言語文を受け付け
る入力手段を共通にし、P言語文を出力する出力手段を
共通にして、関連文検索装置21、22間をP言語文に
よって橋渡ししている。したがって、本実施例によれ
ば、複数(2つ以上)の関連文書検索装置間を共通する
言語文によって橋渡しすることができ、関連文検索でき
る言語の範囲をユニット単位で容易に拡張することがで
きる。
【0046】
【発明の効果】以上説明したように、本発明によると、
第1言語文とそれに対応する第2言語文との対訳ペアを
用いて、第1言語文に対する第1の検索と第2言語文に
対する第2の検索とを組み合わせて実行することによ
り、(1)比較的短い第1言語の検索質問文からでも、
広範な対訳文ペア情報から検索漏れの少ない対訳文検索
を行うことができ、(2)第1言語の検索質問文の表現
の差異に依存することなしに、適切な対訳文検索を行う
ことができ、(3)予め作成された辞書を必要とせず、
広範な対訳文ペア情報から第1言語単語と第2言語単語
の対応関係を動的に取得することができるため、第1言
語の検索質問文の文意に応じた対訳文検索を行うことが
できるといった効果を得ることができる対訳文検索装置
を応用して、更に異なる種類の言語文間や更に多くの種
類の言語文間への検索に拡張し、更には、双方向での検
索も可能に拡張したたため、社会的要求を満足させ、、
種々多様な言語による文書処理を迅速に実現させること
ができる。
【図面の簡単な説明】
【図1】 本発明の第1実施例に係る関連文検索装置の
構成を示す図である。
【図2】 本発明に用いる対訳文検索装置の構成の一例
を示す図である。
【図3】 本発明の第1実施例に係る検索処理手順を示
すフローチャートである。
【図4】 対訳文ペアの一例を示す図である。
【図5】 対訳文ペアを形態素解析した結果の一例を示
す図である。
【図6】 本発明の第2実施例に係る関連文検索装置の
構成を示す図である。
【図7】 本発明に用いる対訳文検索装置の構成の一例
を示す図である。
【図8】 本発明の第3実施例に係る関連文検索装置の
構成を示す図である。
【図9】 本発明の第4実施例に係る関連文検索装置の
構成を示す図である。
【符号の説明】
1、11、21、22、31・・・関連文検索装置、 22a〜22f・・・対訳文検索装置、 4、14・・・対訳文ペア格納手段、 5、15a、15b・・・検索文入力手段、 6、16a、16b・・・1次検索手段、 7、17a、17b・・・2次検索手段、 8、18a、18b・・・結果出力手段、
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−152765(JP,A) 特開 平3−211665(JP,A) 特開 平9−34895(JP,A) 特開 平10−116286(JP,A) 特開 平6−274546(JP,A) 特開 平10−260972(JP,A) 佐藤理史、「実例に基づく翻訳」、情 報処理、Vol.33、No.6、p673 −p.681(1992) (58)調査した分野(Int.Cl.7,DB名) G06F 17/20 - 17/30 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 第1言語で書かれた検索質問文に基づい
    て第2言語で書かれた関連文を検索する前段対訳文検索
    装置と、前段対訳文検索装置から出力された第2言語で
    書かれた関連文に基づいて第3言語で書かれた関連文を
    検索する後段対訳文検索装置と、を備え、第1言語で書
    かれた検索質問文に関連する第3言語で書かれた文を第
    2言語を介して検索する関連文検索装置であって、 前段対訳文検索装置は、 第1言語で書かれた文とそれに対応する第2言語で書か
    れた訳文とのペアを複数格納する前段対訳文ペア格納手
    段と、 第1言語で書かれた検索質問文を受け付ける第1言語文
    入力手段と、 受け付けた検索質問文に基づいて前段対訳文ペア格納手
    段に格納されている第1言語で書かれた文の集合を対象
    として検索処理する前段1次検索手段と、 前段1次検索手段により検索された第1言語で書かれた
    文に対応して前段対訳文ペア格納手段に格納されている
    第2言語で書かれた訳文から抽出した自立語に基づい
    、当該前段対訳文ペア格納手段に格納されている第2
    言語で書かれた訳文の集合を対象として類似文検索する
    前段2次検索手段と、 前段2次検索手段により検索された第2言語で書かれた
    文を出力する第2言語文出力手段と、を備え、 後段対訳文検索装置は、 第2言語で書かれた文とそれに対応する第3言語で書か
    れた訳文とのペアを複数格納する後段対訳文ペア格納手
    段と、 前段対訳文検索装置の第2言語文出力手段から出力され
    た第2言語で書かれた文を受け付ける第2言語文入力手
    段と、 受け付けた第2言語文に基づいて後段対訳文ペア格納手
    段に格納されている第2言語で書かれた文の集合を対象
    として検索処理する後段1次検索手段と、 後段1次検索手段により検索された第2言語で書かれた
    文に対応して後段対訳文ペア格納手段に格納されている
    第3言語で書かれた訳文から抽出した自立語に基づい
    、当該後段対訳文ペア格納手段に格納されている第3
    言語で書かれた訳文の集合を対象として類似文検索する
    後段2次検索手段と、 後段2次検索手段により検索された第3言語で書かれた
    文を出力する第3言語文出力手段と、を備たことを特徴
    とする関連文検索装置。
  2. 【請求項2】 第1言語で書かれた文と第2言語で書か
    れた文との間で双方向に関連文を検索する第1の対訳文
    検索装置と、第2言語で書かれた文と第3言語で書かれ
    た文との間で双方向に関連文を検索する第2の対訳文検
    索装置と、を備え、一方の対訳文検索装置から出力され
    た第2言語文を他方の対訳文検索装置へ入力することに
    より、第2言語を介して、第1言語文と第3言語文との
    間で双方向に関連文を検索する関連文検索装置であっ
    て、 第1の対訳文検索装置は、 第1言語文と第2言語文との対応訳文ペアを複数格納す
    る第1の対訳文ペア格納手段と、 第1言語文を受け付ける第1言語文入力手段と、 第2の対訳文検索装置から第2言語文を受け付ける第2
    言語文入力手段と、 第1言語文入力手段又は第2言語文入力手段から受け付
    けた一方の種類の言語文に基づいて第1の対訳文ペア格
    納手段に格納されている当該一方の種類の言語文集合を
    対象として検索処理する第1の1次検索手段と、 第1の1次検索手段により検索された前記一方の種類の
    言語文に対応して第1の対訳文ペア格納手段に格納され
    ている他方の種類の言語文から抽出した自立語に基づい
    、当該第1の対訳文ペア格納手段に格納されている当
    該他方の種類の言語文集合を対象として類似文検索する
    第1の2次検索手段と、 第1の2次検索手段により検索された第1言語文を出力
    する第1言語文出力手段と、 第1の2次検索手段により検索された第2言語文を第2
    の対訳文検索装置へ出力する第2言語文出力手段と、を
    備え、 第2の対訳文検索装置は、 第2言語文と第3言語文との対応訳文ペアを複数格納す
    る第2の対訳文ペア格納手段と、 第1の対訳文検索装置から第2言語文を受け付ける第2
    言語文入力手段と、 第3言語文を受け付ける第3言語文入力手段と、 第2言語文入力手段又は第3言語文入力手段から受け付
    けた一方の種類の言語文に基づいて第2の対訳文ペア格
    納手段に格納されている当該一方の種類の言語文集合を
    対象として検索処理する第2の1次検索手段と、 第2の1次検索手段により検索された前記一方の種類の
    言語文に対応して第2の対訳文ペア格納手段に格納され
    ている他方の種類の言語文から抽出した自立語に基づい
    、当該第2の対訳文ペア格納手段に格納されている当
    該他方の種類の言語文集合を対象として類似文検索する
    第2の2次検索手段と、 第2の2次検索手段により検索された第3言語文を出力
    する第3言語文出力手段と、 第2の2次検索手段により検索された第2言語文を第1
    の対訳文検索装置へ出力する第2言語文出力手段と、を
    備えたことを特徴とする関連文検索装置。
  3. 【請求項3】 第1言語で書かれた文とn(nは3以上
    の自然数)種類の他の言語で書かれた文との間で双方向
    に関連文を検索するn個の対訳文検索装置を備え、 各対訳文検索装置は、 第1言語文とそれれの他の種類の言語文との対応訳文
    ペアを複数格納する対訳文ペア格納手段と、 第1言語文を受け付ける第1言語文入力手段と、 他の種類の言語文を受け付ける他種類言語文入力手段
    と、 第1言語文入力手段又は他種類言語文入力手段から受け
    付けた一方の種類の言語文に基づいて対訳文ペア格納手
    段に格納されている当該一方の種類の言語文集合を対象
    として検索処理する1次検索手段と、 1次検索手段により検索された前記一方の種類の言語文
    に対応して対訳文ペア格納手段に格納されている他方の
    種類の言語文から抽出した自立語に基づいて、当該対訳
    文ペア格納手段に格納されている当該他方の種類の言語
    文集合を対象として類似文検索する2次検索手段と、 2次検索手段により検索された第1言語文を出力する第
    1言語文出力手段と、 2次検索手段により検索された他の種類の言語文を出力
    する他言語文出力手段と、を備え、 各対訳文検索装置の第1言語文入力手段を共通にすると
    ともに、第1言語文出力手段を共通にして、第1言語を
    介して他のn種類の言語文間で双方向に関連文を検索す
    ることを特徴とする関連文検索装置。
  4. 【請求項4】 請求項3に記載の第1言語を介して他の
    n種類の言語文間で双方向に関連文を検索する関連文検
    索装置を複数備え、 これら複数の関連文検索装置間でも第1言語文入力手段
    を共通にするとともに、第1言語文出力手段を共通にし
    て、これら複数の関連文検索装置間を第1言語によって
    橋渡しして、他の種類の言語文間で双方向に関連文を検
    索することを特徴とする関連文検索装置。
JP11010228A 1999-01-19 1999-01-19 関連文検索装置 Expired - Lifetime JP3055545B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11010228A JP3055545B1 (ja) 1999-01-19 1999-01-19 関連文検索装置
US09/456,980 US6321191B1 (en) 1999-01-19 1999-12-07 Related sentence retrieval system having a plurality of cross-lingual retrieving units that pairs similar sentences based on extracted independent words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11010228A JP3055545B1 (ja) 1999-01-19 1999-01-19 関連文検索装置

Publications (2)

Publication Number Publication Date
JP3055545B1 true JP3055545B1 (ja) 2000-06-26
JP2000207416A JP2000207416A (ja) 2000-07-28

Family

ID=11744436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11010228A Expired - Lifetime JP3055545B1 (ja) 1999-01-19 1999-01-19 関連文検索装置

Country Status (2)

Country Link
US (1) US6321191B1 (ja)
JP (1) JP3055545B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014083132A (ja) * 2012-10-19 2014-05-12 Kao Corp 吸収性パッド

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US6496844B1 (en) 1998-12-15 2002-12-17 International Business Machines Corporation Method, system and computer program product for providing a user interface with alternative display language choices
US7099876B1 (en) 1998-12-15 2006-08-29 International Business Machines Corporation Method, system and computer program product for storing transliteration and/or phonetic spelling information in a text string class
JP4066600B2 (ja) * 2000-12-20 2008-03-26 富士ゼロックス株式会社 多言語文書検索システム
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US8874431B2 (en) * 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
US7483828B2 (en) * 2001-03-16 2009-01-27 Meaningful Machines, L.L.C. Multilingual database creation system and method
JP3733912B2 (ja) * 2002-01-31 2006-01-11 株式会社日立製作所 検索システム引継方式
US20030172119A1 (en) * 2002-03-06 2003-09-11 International Business Machines Corporation Method and system for dynamically sending email notifications with attachments in different communication languages
JP4121382B2 (ja) * 2003-01-07 2008-07-23 株式会社リコー 情報提供装置、情報表示装置、情報提供システム、及び情報提供方法
US7937396B1 (en) * 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
WO2007133625A2 (en) 2006-05-12 2007-11-22 Eij Group Llc Multi-lingual information retrieval
JP5538898B2 (ja) * 2007-01-04 2014-07-02 シンキング ソリューションズ ピーティーワイ リミテッド 言語分析
US8185375B1 (en) 2007-03-26 2012-05-22 Google Inc. Word alignment with bridge languages
US8799307B2 (en) * 2007-05-16 2014-08-05 Google Inc. Cross-language information retrieval
US8051061B2 (en) * 2007-07-20 2011-11-01 Microsoft Corporation Cross-lingual query suggestion
US7917488B2 (en) * 2008-03-03 2011-03-29 Microsoft Corporation Cross-lingual search re-ranking
US20100070262A1 (en) * 2008-09-10 2010-03-18 Microsoft Corporation Adapting cross-lingual information retrieval for a target collection
US8560298B2 (en) * 2008-10-21 2013-10-15 Microsoft Corporation Named entity transliteration using comparable CORPRA
US8560297B2 (en) 2010-06-07 2013-10-15 Microsoft Corporation Locating parallel word sequences in electronic documents
US8862595B1 (en) 2010-11-23 2014-10-14 Google Inc. Language selection for information retrieval
KR101449551B1 (ko) * 2011-10-19 2014-10-14 한국전자통신연구원 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체
US9465797B2 (en) 2012-02-23 2016-10-11 Google Inc. Translating text using a bridge language
JP2015060458A (ja) * 2013-09-19 2015-03-30 株式会社東芝 機械翻訳装置、方法、及びプログラム
KR101529120B1 (ko) * 2013-12-30 2015-06-29 주식회사 케이티 바이오 문헌 정보의 마이닝을 위한 마이닝 패턴 생성 방법 및 시스템
US9940658B2 (en) * 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
US20170357642A1 (en) * 2016-06-14 2017-12-14 Babel Street, Inc. Cross Lingual Search using Multi-Language Ontology for Text Based Communication
US9792282B1 (en) 2016-07-11 2017-10-17 International Business Machines Corporation Automatic identification of machine translation review candidates

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182062B1 (en) * 1986-03-26 2001-01-30 Hitachi, Ltd. Knowledge based information retrieval system
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
JPH0950435A (ja) 1995-08-04 1997-02-18 Sharp Corp 翻訳装置
EP0856175A4 (en) * 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6993471B1 (en) * 1995-11-13 2006-01-31 America Online, Inc. Integrated multilingual browser
KR980004126A (ko) * 1997-12-16 1998-03-30 양승택 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법
US6151624A (en) * 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
US6077085A (en) * 1998-05-19 2000-06-20 Intellectual Reserve, Inc. Technology assisted learning
GB2337611A (en) * 1998-05-20 1999-11-24 Sharp Kk Multilingual document retrieval system
GB2338089A (en) * 1998-06-02 1999-12-08 Sharp Kk Indexing method
US6381598B1 (en) * 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
佐藤理史、「実例に基づく翻訳」、情報処理、Vol.33、No.6、p673−p.681(1992)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014083132A (ja) * 2012-10-19 2014-05-12 Kao Corp 吸収性パッド

Also Published As

Publication number Publication date
JP2000207416A (ja) 2000-07-28
US6321191B1 (en) 2001-11-20

Similar Documents

Publication Publication Date Title
JP3055545B1 (ja) 関連文検索装置
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
EP1111514B1 (en) Phrase translation method and system
US8027979B2 (en) Document summarization
EP0399533B1 (en) Machine translation system and method of machine translation
US5136503A (en) Machine translation system
US5774845A (en) Information extraction processor
US8682641B2 (en) Method, program and system for finding correspondence between terms
CN110162782B (zh) 基于医学词典的实体提取方法、装置、设备及存储介质
JPH01314373A (ja) 機械翻訳システムにおける訳語選択方式
JPH03278174A (ja) 異言語交信用翻訳方法およびシステム
JP2006252428A (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
WO2020170881A1 (ja) 質問応答装置、学習装置、質問応答方法及びプログラム
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
Chizhikova et al. Multilingual case-insensitive named entity recognition
JPH0855123A (ja) イディオム登録機能を有する機械翻訳装置
JP3752535B2 (ja) 訳語選択装置、及び翻訳装置
JP2006053867A (ja) 対訳辞書作成方法および装置、ならびにコンピュータプログラム
JP2001101186A (ja) 機械翻訳装置
Gamallo The impact of linguistic knowledge in different strategies to learn cross-lingual distributional models
JPH0793345A (ja) 文書検索装置
Khoroshilov et al. Machine phraseological translation of scientific-technical texts based on the model of generalized syntagmas
JP2001282789A (ja) 翻訳システム
JPH05165889A (ja) 文書検索装置
JPH0320866A (ja) テキストベース検索方式