JPH0950435A - Translation device - Google Patents
Translation deviceInfo
- Publication number
- JPH0950435A JPH0950435A JP7199537A JP19953795A JPH0950435A JP H0950435 A JPH0950435 A JP H0950435A JP 7199537 A JP7199537 A JP 7199537A JP 19953795 A JP19953795 A JP 19953795A JP H0950435 A JPH0950435 A JP H0950435A
- Authority
- JP
- Japan
- Prior art keywords
- case
- vector
- translation
- bilingual
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、キーワードや文章
からなる翻訳要求がされると、旅行会話文などの対訳事
例を表示させる翻訳装置に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a translation device for displaying a bilingual translation example such as a travel conversation sentence when a translation request including a keyword or a sentence is made.
【0002】[0002]
【従来の技術】従来、対訳事例の検索によって翻訳を行
う事例ベース翻訳装置には、分類表示方式によるものと
キーワード検索方式によるものに大別できる。2. Description of the Related Art Conventionally, case-based translation apparatuses that perform translation by searching bilingual cases can be roughly classified into a classification display method and a keyword search method.
【0003】分類表示方式は、予め対訳事例を場所や場
面等によって様々なジャンルに分類し、その分類表に基
づいて適切な対訳事例を探す方式である。例えば、旅行
会話文に関する事例では、大分類として、ホテル,空
港,レストラン,道,...等に分類され、大分類
「道」の基に、地下鉄,バス,タクシー,案内,...
等に細分類され、その下に各種の事例が格納される。例
えば、事例「シティーパークへ行くには何という停留所
で降りますか?」は、大分類「道」の基の分類「バス」
の下に格納される。The classification display system is a system in which bilingual translation examples are classified into various genres according to places, scenes and the like in advance, and an appropriate bilingual translation example is searched based on the classification table. For example, in the case of travel conversation sentences, the major categories are hotels, airports, restaurants, roads ,. . . Etc., subway, bus, taxi, guidance ,. . .
Etc., and various cases are stored under it. For example, the example "What stop do you get off at to get to City Park?"
Stored under.
【0004】一方、キーワード検索方式は、各対訳事例
に内容を表現するキーワードを付与したり、例文に含ま
れる全ての単語を対象に適切な対訳事例を探す方式であ
る。例えば、上述の例では、「シティーパーク」,「行
く」,「何」,「停留所」,「降りる」等がキーワード
の候補になる。さらに、キーワード検索方式を拡張した
ものに、特開平3ー276367号の「用例主導型機械
翻訳方式」がある。これは、単語の意味の類似性に基づ
いて木構造に階層化した単語辞書(シソーラス辞書)を
用いて、事例を検索する方式である。On the other hand, the keyword search method is a method in which a keyword expressing the contents is added to each bilingual case, or an appropriate bilingual case is searched for by targeting all the words included in an example sentence. For example, in the above example, “city park”, “go”, “what”, “stop”, “get off”, etc. are candidates for keywords. Further, as an extension of the keyword search method, there is an "example-driven machine translation method" of Japanese Patent Laid-Open No. 3-276367. This is a method for searching a case using a word dictionary (thesaurus dictionary) hierarchized in a tree structure based on the similarity of word meanings.
【0005】[0005]
【発明が解決しようとする課題】しかしながら、上記分
類表示方式に基づく事例ベース翻訳装置では、事例が少
ない間は効果的であるが、事例数が膨大になると、多く
の人の要求を満たすような分類は困難であり、利用者の
要求を満たす事例がどのジャンルに分類されているか容
易に決めることが出来ない。また、同一ジャンルに多く
の事例が分類されるため確認に時間がかかるという欠点
がある。However, the case-based translation apparatus based on the above classification display method is effective while the number of cases is small, but when the number of cases becomes enormous, it meets the needs of many people. Classification is difficult, and it is not possible to easily determine to which genre the cases satisfying the user's request are classified. Further, there is a drawback that it takes time to confirm because many cases are classified into the same genre.
【0006】また、上記キーワード検索方式による事例
検索では、キーワードとして対訳文に付加された単語で
しか検索できず、利用者が入力すると想定される全ての
単語を予めキーワードとして対訳事例に付加しておくこ
とが事実上不可能である。従って、キーワードとして付
加された限られた範囲内での入力文の検索しか出来な
い。同様に事例の全ての文字列を検索対象にするフルテ
キストサーチを用いても、事例中に現れる単語あるいは
文章でしか検索出来ない。つまりどちらの検索方法にお
いても、検索対象事例に明示的に表現された自然言語の
範囲を越えた、検索は不可能である。In the case search by the keyword search method, only words added to the bilingual sentence as keywords can be searched, and all words supposed to be input by the user are added in advance to the bilingual case as keywords. It is virtually impossible to set. Therefore, it is only possible to search for input sentences within the limited range added as keywords. Similarly, even if a full-text search that searches all the character strings of the case is used, only the words or sentences that appear in the case can be searched. In other words, in both search methods, search beyond the range of the natural language explicitly expressed in the search target case is impossible.
【0007】さらに、特開平3ー276367号で提案
された用例主導型機械翻訳方式は、1次元的に言葉の意
味を分類したシソーラスを用いることによって、より柔
軟な対訳事例の検索を実現している。ここでは、形態素
解析の言語解析によって、事例と翻訳要求を構成する単
語の正確な対応を取り、各単語間のシソーラス上の距離
を計算することによって類似事例を検索しているので、
翻訳対象の範囲が拡大されると、翻訳要求の文脈に沿わ
ない、不要な対訳事例が検索される、大規模な対訳事例
の収集が必要である、といった問題点がある。Further, the example-driven machine translation system proposed in Japanese Patent Laid-Open No. 3-276367 realizes more flexible retrieval of parallel translation examples by using a thesaurus in which the meanings of words are classified one-dimensionally. There is. Here, by using linguistic analysis of morphological analysis, an accurate correspondence between the case and the words that make up the translation request is obtained, and similar cases are searched by calculating the distance on the thesaurus between each word.
When the range of translation target is expanded, there are problems that the translation request context is not met, unnecessary translation examples are searched, and large-scale translation examples need to be collected.
【0008】そこで本発明の目的は、上記問題点を解決
するために、少ない事例でも翻訳要求に最も適当な対訳
事例の検索を可能とする翻訳装置を提供することにあ
る。SUMMARY OF THE INVENTION It is therefore an object of the present invention to provide a translation apparatus which can solve the above-mentioned problems by searching for a bilingual case most suitable for a translation request even in a small number of cases.
【0009】[0009]
【課題を解決するための手段】本発明の翻訳装置は、事
例とその対訳文との組が対訳事例として記憶された事例
ベースと、上記事例の特徴を表す事例ベクトルと、該事
例ベクトルと上記対訳事例との対応を示すインデックス
とを格納したインデックス蓄積手段と、単語を含む翻訳
要求を入力する入力手段と、翻訳要求の単語と特徴単語
との関連程度を示す特徴単語ベクトルを保持する単語辞
書と、翻訳要求に対応する上記特徴単語ベクトルの加算
結果に基づいて翻訳要求ベクトルを生成するベクトル生
成手段と、翻訳要求ベクトルと事例ベクトルとの距離に
基づいて事例候補を検索する事例候補検索手段と、検索
された事例候補に対応する対訳文をインデックスを用い
て表示する対訳文表示手段とを備えたことを特徴とす
る。The translation device of the present invention includes a case base in which a set of a case and its bilingual sentence is stored as a bilingual case, a case vector representing the characteristics of the case, the case vector, and the case vector. Index storage means for storing an index indicating the correspondence with the bilingual case, input means for inputting a translation request including a word, and a word dictionary holding a characteristic word vector indicating the degree of association between the translation request word and the characteristic word A vector generation means for generating a translation request vector based on the addition result of the characteristic word vectors corresponding to the translation request; and a case candidate search means for searching for a case candidate based on the distance between the translation request vector and the case vector. And a bilingual sentence display means for displaying a bilingual sentence corresponding to the retrieved case candidate using an index.
【0010】本発明の翻訳装置では、例えば日本語と英
語の対訳文の事例ベースで日本人の利用者を想定する
と、利用者が翻訳要求文を日本語で入力すると、単語辞
書を用いて翻訳要求ベクトルが作成され、事例ベース中
の各事例ベクトルとの距離が計算され、対訳文(英語)
が表示される。In the translation apparatus of the present invention, for example, assuming a Japanese user on the basis of parallel translation sentences in Japanese and English, when the user inputs a translation request sentence in Japanese, translation is performed using a word dictionary. A request vector is created, the distance to each case vector in the case base is calculated, and a bilingual sentence (English)
Is displayed.
【0011】本発明では、対訳事例および翻訳要求ベク
トルは、特徴単語ベクトルを基にして作成され、検索が
ベクトル演算によって実現されるため、形態素解析の言
語解析を必要としない。さらに、対訳事例および翻訳要
求ベクトルは、人間の知識・常識等に応じて特徴付けら
れた特徴単語ベクトルを基に作成されるので、任意に与
えた単語あるいは文章での人間の知識・常識等に応じた
検索が可能になる。In the present invention, the parallel translation example and the translation request vector are created based on the feature word vector, and the search is realized by vector operation, so that the linguistic analysis of the morphological analysis is not required. In addition, parallel translation examples and translation request vectors are created based on characteristic word vectors that are characterized according to human knowledge and common sense. It is possible to search accordingly.
【0012】また、事例候補表示手段を備えているの
で、翻訳要求に類似した事例候補から順に日本語で表示
され、類似した複数の事例候補の中から利用者が一つの
事例を選択する時の自由度が向上し、操作性が向上す
る。Further, since the case candidate display means is provided, the case candidates similar to the translation request are displayed in Japanese in order, and when the user selects one case from a plurality of similar case candidates. The degree of freedom is improved and the operability is improved.
【0013】さらに、日本語の原文の事例と英語の対訳
文からなる新規の対訳事例を登録することができ、対象
の対訳事例の範囲を拡張できる。Furthermore, it is possible to register a new bilingual translation example consisting of a Japanese original text translation and an English bilingual translation, so that the range of the target bilingual translation can be expanded.
【0014】[0014]
【発明の実施の形態】図1に、本発明の実施例に係る事
例ベースの翻訳装置の機能ブロック図を示す。図1にお
いて、事例ベース1,インデックス蓄積手段2,入力手
段3,単語辞書4,ベクトル生成手段5,事例候補検索
手段6,表示手段7,対訳文表示手段8,事例登録手段
9から構成されている。FIG. 1 shows a functional block diagram of a case-based translation apparatus according to an embodiment of the present invention. In FIG. 1, it comprises a case base 1, an index storage means 2, an input means 3, a word dictionary 4, a vector generation means 5, a case candidate search means 6, a display means 7, a translated text display means 8 and a case registration means 9. There is.
【0015】次に、翻訳装置の各構成について説明す
る。事例ベース1には、対訳事例が翻訳要求の言語と対
訳文の言語の組として複数組格納されている。インデッ
クス蓄積手段2は、事例ベース1中の翻訳要求の言語で
の各事例と特徴単語(特徴単語については後述する)と
の関連の強さを示す事例ベクトルと、その事例ベクトル
と対訳事例との対応をとるインデックスとが格納されて
いる。事例ベクトルは、予め与えられていてもよいし、
後述する新規事例の登録で作成された特徴単語ベクトル
の和を用いても良い。Next, each component of the translation apparatus will be described. In the case base 1, a plurality of parallel translation cases are stored as a set of a translation request language and a translation text language. The index storage unit 2 stores a case vector indicating the strength of association between each case in the translation request language in the case base 1 and the characteristic word (the characteristic word will be described later), the case vector, and the bilingual case. The index and the correspondence are stored. The case vector may be given in advance,
You may use the sum of the characteristic word vector created by registration of the new case mentioned later.
【0016】利用者は、キーボードからなる入力手段3
を用いて翻訳要求を入力する。入力は、音声や手書きし
た内容をオンラインで認識させて入力してもよい。単語
辞書4は、自然言語文から単語を抽出するためのオート
マトン(文字の遷移)と各単語の特徴ベクトルとからな
る。この特徴ベクトルとして、後述する特徴単語ベクト
ルを格納している。図2に、単語辞書4を構成するオー
トマトンの一部を示す。ここでは、「レストラン」、
「レストルーム」、「ストライキ」の3単語のみ登録さ
れている例である。ここで、{レ,ス}は、レ、ス以外
の総ての文字を、実線はgoto関数を、破線はfailure関
数(他のすべての状態から初期状態へのfailure関数は
省略されている)を、各単語のベクトル値はその状態に
おける出力であり、抽出単語(ここでは3単語)の特徴
単語ベクトルを示す。 ベクトル生成手段5は、翻訳要求の内容を単語辞書4の
オートマトンに流し、翻訳要求の各単語とその特徴単語
ベクトルを抽出し、特徴単語ベクトルの和から翻訳要求
ベクトルを生成する。事例候補検索手段6は、翻訳要求
ベクトルとインデックス蓄積手段2に格納された各事例
ベクトルとの距離を計算し、類似した事例から順に翻訳
要求の言語で事例候補をディスプレイからなる表示手段
7に表示する。表示手段7は、必ずしも必要ではない
が、表示した方が優先順位が多少低くても、事例の選択
範囲とすることができるので、利用者の使いやすさが向
上する。対訳文表示手段8は、事例候補の中から利用者
が選択した事例候補に対応する対訳文を表示する。な
お、表示手段7、対訳文表示手段8は、同一ディスプレ
イで実現でき、出力手段としてプリンタ等も用いること
ができる。The user uses the input means 3 including a keyboard.
Use to enter a translation request. The input may be made by recognizing voice or handwritten content online. The word dictionary 4 includes an automaton (transition of characters) for extracting a word from a natural language sentence and a feature vector of each word. As the feature vector, a feature word vector described later is stored. FIG. 2 shows a part of the automaton forming the word dictionary 4. Here, "restaurant",
In this example, only three words "rest room" and "strike" are registered. Here, {Les, s} is all the characters except Les and Sus, the solid line is the goto function, and the broken line is the failure function (the failure function from all other states to the initial state is omitted). The vector value of each word is the output in that state, and indicates the characteristic word vector of the extracted word (here, 3 words). The vector generation means 5 sends the content of the translation request to the automaton of the word dictionary 4, extracts each word of the translation request and its characteristic word vector, and generates a translation request vector from the sum of the characteristic word vectors. The case candidate search means 6 calculates the distance between the translation request vector and each case vector stored in the index storage means 2, and displays the case candidates in the translation request language on the display means 7 which is a display in order from similar cases. To do. Although the display means 7 is not always necessary, even if the display means 7 has a slightly lower priority, the display means 7 can be included in the selection range of the case, so that the usability for the user is improved. The bilingual sentence display means 8 displays the bilingual sentence corresponding to the case candidate selected by the user from the case candidates. The display means 7 and the translated text display means 8 can be realized by the same display, and a printer or the like can be used as the output means.
【0017】また、事例登録手段9は、事例ベース1に
入力手段3を用いて入力された新規の対訳事例につい
て、単語辞書4とベクトル生成手段5とから新規の事例
については事例ベクトルを作成し、その事例ベクトルと
対訳事例との対応をとるインデックスとをインデックス
蓄積手段2に追加すると共に、新規の対訳事例(事例と
その対訳文)を事例ベース1に登録する。新規事例の登
録では、事例ベクトルは、事例から抽出された単語の特
徴単語ベクトルの和となる。Further, the case registration means 9 creates a case vector for the new case from the word dictionary 4 and the vector generation means 5 for the new parallel translation case input to the case base 1 using the input means 3. , The index for correlating the case vector and the bilingual case is added to the index storage means 2, and a new bilingual case (case and its bilingual sentence) is registered in the case base 1. When registering a new case, the case vector is the sum of the characteristic word vectors of the words extracted from the case.
【0018】図3に、上記翻訳装置をCPUを利用した
電気的ハードウェアで実現した場合のブロック構成図を
示す。図2において、補助記憶装置21と,各種処理を
行うCPU22,処理結果を記憶する主記憶装置23お
よび各種入出力デバイスとCPUとを接続する入出力C
h(チャネル)24を含む翻訳処理部25,CRTなど
からなる表示装置26、およびキーボード27から構成
されている。FIG. 3 is a block diagram showing a case where the above translation device is realized by electric hardware using a CPU. In FIG. 2, an auxiliary storage device 21, a CPU 22 for performing various processes, a main memory device 23 for storing processing results, and an input / output C for connecting various input / output devices to the CPU.
The translation processing unit 25 includes an h (channel) 24, a display device 26 including a CRT, and a keyboard 27.
【0019】図1の事例ベース1と単語辞書4は、図3
の補助記憶装置21に格納され、図1のインデックス蓄
積手段2,ベクトル生成手段5,事例検索手段6,事例
登録手段9は、図3の翻訳処理部25に対応し、図1の
入力手段3は、図3のキーボード27に対応し、図1の
表示手段7,対訳文表示手段8は、図3の表示装置26
に対応する。The case base 1 and the word dictionary 4 shown in FIG.
The index storage means 2, the vector generation means 5, the case search means 6, and the case registration means 9 stored in the auxiliary storage device 21 of FIG. 1 correspond to the translation processing unit 25 of FIG. 3, and the input means 3 of FIG. Corresponds to the keyboard 27 shown in FIG. 3, and the display means 7 and the translated text display means 8 shown in FIG.
Corresponding to.
【0020】次に、特徴単語ベクトルについて説明す
る。本実施例での単語辞書4、ベクトル生成手段5、事
例検索手段6の具体的構成は、「大規模文書データベー
スからの連想検索(社団法人 電子情報通信学会発行の
信学技法AI92−99,1993−1)」の文脈ベク
トルを利用する。Next, the characteristic word vector will be described. The specific configurations of the word dictionary 4, the vector generation means 5, and the case search means 6 in this embodiment are as follows: −1) ”context vector is used.
【0021】つまり、文脈ベクトルは、文章中での単語
のもつ概念と文脈との関係の程度を示したものであり、
多くの特徴単語との意味的な結合関係の程度をベクトル
表現したもので、n個の概念分類を特徴単語とすると、
各次元が一つの特徴単語に対応したn次元ベクトル空間
上の一点で表現するものである。単語iの文脈ベクトル
Xi=(xi1,xi2,...xin)の各要素の値
は、次のように定義される。That is, the context vector indicates the degree of the relationship between the concept of the word in the sentence and the context,
It is a vector expression of the degree of semantic connection with many characteristic words. If n concept classifications are characteristic words,
Each dimension is represented by one point on the n-dimensional vector space corresponding to one feature word. The value of each element of the context vector Xi = (xi1, xi2, ... Xin) of word i is defined as follows.
【0022】 xij=0 if単語iが特徴単語jと関係なし xij=1 if単語iが特徴単語jと関係あり 例えば、次の6個の特徴単語 (人間,悲しい,芸術,科学,興奮,政治) を選択した場合に、単語「パイロット」の6次元の文脈
ベクトルXは、2値で示すと以下の通りとなる。Xij = 0 if word i is not related to characteristic word j xij = 1 if if i is related to characteristic word j For example, the following six characteristic words (human, sad, art, science, excitement, politics) ) Is selected, the 6-dimensional context vector X of the word “pilot” is expressed as a binary value as follows.
【0023】X=(1,0,0,1,1,0) また、単語iと特徴単語jの関係はその強度に応じて次
のように多値で表現してもよい。X = (1,0,0,1,1,0) Further, the relationship between the word i and the characteristic word j may be expressed by multiple values as follows according to its strength.
【0024】X=(2,0,0,3,1,0) 本実施例では、上記文脈ベクトルを多値の特徴単語ベク
トルとして用いる。X = (2,0,0,3,1,0) In this embodiment, the context vector is used as a multivalued feature word vector.
【0025】ベクトル生成手段5は、自然言語テキスト
である翻訳要求から抽出された特徴単語ベクトルの和を
長さが一定になるように正規化したものを翻訳要求ベク
トルとして生成する。事例検索手段6は、翻訳要求ベク
トルと各事例ベクトルの長さが一定に正規化されている
ので、その距離として内積を用いることができる。The vector generating means 5 generates a translation request vector by normalizing the sum of the characteristic word vectors extracted from the translation request, which is a natural language text, so that the length becomes constant. Since the lengths of the translation request vector and each case vector are normalized to be constant, the case search means 6 can use the inner product as the distance.
【0026】図4を用いて、本発明の処理の流れについ
て説明する。The processing flow of the present invention will be described with reference to FIG.
【0027】ステップS1では、入力手段3によって、
翻訳要求文「セントラルパークに行くには何処で降りれ
ばいいの?」が入力される。ここで、入力は文章でおこ
なっているが、単語のみでもよい。In step S1, the input means 3 causes
The translation request sentence "Where should I get off to go to Central Park?" Is entered. Here, the input is performed in sentences, but only words may be input.
【0028】ステップS2では、ベクトル生成手段5
は、単語辞書4を用いて、入力された翻訳要求文から
「セントラルパーク」「行く」「何処」「降り」の4単
語を抽出し、対応する特徴単語ベクトルを求める。当然
ながら、対応の特徴単語ベクトルが単語辞書4に予め格
納されていない場合は、翻訳要求文の一部については特
徴単語ベクトルを求めない。In step S2, the vector generating means 5
Uses the word dictionary 4 to extract four words "central park", "go", "where" and "down" from the input translation request sentence, and obtains a corresponding feature word vector. Of course, if the corresponding characteristic word vector is not stored in the word dictionary 4 in advance, the characteristic word vector is not obtained for a part of the translation request sentence.
【0029】以上から注出された各単語の特徴単語ベク
トルは、 セントラルパーク(0,2,0,0,1,0,2,0,1) 行く (0,1,0,0,0,1,1,0,0) 何処 (1,0,0,0,0,1,0,0,1) 降り (0,2,0,0,0,2,1,0,0) となる。The characteristic word vector of each word extracted from the above is the central park (0, 2, 0, 0, 1, 0, 2, 0, 1) going (0, 1, 0, 0, 0, Where (1,1,0,0) where (1,0,0,0,0,1,0,0,1) get down (0,2,0,0,0,2,1,0,0) .
【0030】ステップS3では、各々の単語の特徴単語
ベクトルを加えたベクトルCV0=(1,5,0,0,
1,4,4,0,2)を計算した後、ベクトルCV0を
長さ10に正規化したものを翻訳要求ベクトルCV1=
(1,6,6,0,1,5,5,0,3)として、ベク
トル生成手段5が生成する。In step S3, the vector CV0 = (1, 5, 0, 0,
1, 4, 4, 0, 2), and then the translation request vector CV1 = which is obtained by normalizing the vector CV0 to a length of 10.
The vector generating means 5 generates (1, 6, 6, 0, 1, 5, 5, 0, 3).
【0031】図5に、対訳事例の事例ベースと対応する
事例ベクトルの格納の様子を示す。即ち、対訳事例を事
例ベース1に、事例ベクトル及び事例ベクトルとその対
訳事例を対応付けるインデックスをインデックス蓄積手
段2に格納している。例えば、事例1「シャッターを押
すだけ:Just push the butto
n.」は事例ベース1に格納され、その事例ベクトル
(3,1,1,...0)と事例ベース1における格納
場所を指し示すインデックスI1がインデックス蓄積手
段2に格納され、以下同様にして、複数の対訳事例が格
納されている。FIG. 5 shows how the case base corresponding to the bilingual case is stored. That is, the bilingual case is stored in the case base 1, and the case vector and the index associating the case vector with the bilingual case are stored in the index storage unit 2. For example, Case 1 “Just push the shutter: Just push the butto”
n. Is stored in the case base 1, the case vector (3,1,1, ...) and the index I1 indicating the storage location in the case base 1 are stored in the index storage means 2. The parallel translation examples of are stored.
【0032】ステップS4では、事例検索手段6が翻訳
要求ベクトルCV1とインデックス蓄積手段2に格納さ
れた全事例ベクトルの距離を計算する。図3の例では、
事例1「シャッターを押すだけ」と翻訳要求文との距離
は、事例1の事例ベクトル((3,1,1,...0)
と翻訳要求ベクトルCV1(1,6,0,...3)と
の内積となり、3×1+1×6+...3×0=23点
となる。なお、長さ10に正規化されているので、満点
は、100点になる。以下に示すように、同様にして全事
例と距離計算を行う。In step S4, the case retrieval means 6 calculates the distance between the translation request vector CV1 and all the case vectors stored in the index storage means 2. In the example of FIG.
The distance between the case 1 “just press the shutter” and the translation request sentence is the case vector of the case 1 ((3, 1, 1, ... 0)
Becomes the inner product of the translation request vector CV1 (1, 6, 0, ... 3) and 3 × 1 + 1 × 6 +. . . 3 × 0 = 23 points. Since the length is normalized to 10, the maximum score is 100 points. As shown below, all cases and distance calculations are performed in the same manner.
【0033】 事例1: 23点 事例2: 78点 ・ 事例12000:35点 ステップS5では、翻訳要求文との距離が近い(内積値
が大きい)事例から順に数事例,事例ベース1から事例
候補として得点(内積値)と共に表示手段7に表示す
る。Case 1: 23 points Case 2: 78 points • Case 12000: 35 points In step S5, several cases are selected in order from a case close to the translation request sentence (large inner product value), and case base 1 as case candidates. It is displayed on the display means 7 together with the score (inner product value).
【0034】1.(95点)シティパークへ行くには何
という停留所で降りますか? 2.(85点)セントラルパークへ行くのはこの道です
か? 3.(80点)ハイドパークは何処ですか? ステップS6では、利用者が入力手段3から選択した事
例候補の対訳文が対訳文表示手段8に表示される。1. (95 points) What stop do you get off at to go to City Park? 2. (85 points) Is this the road to Central Park? 3. (80 points) Where is Hyde Park? In step S6, the translated text of the case candidate selected by the user from the input means 3 is displayed on the translated text display means 8.
【0035】1.(95点)シティパークへ行くには何
という停留所で降りますか? What bus stop do I get of
f at City Park? 以上のステップにより、適切な対訳文を利用者は得るこ
とができる。1. (95 points) What stop do you get off at to go to City Park? What bus stop do I get of
f at City Park? Through the above steps, the user can obtain an appropriate bilingual sentence.
【0036】また、新規対訳事例の登録も、翻訳要求ベ
クトル生成と同様にして、事例について事例ベクトルが
生成され、図5に示すようにインデックス蓄積手段に新
規事例ベクトルが追加される。例えば、図5の事例1を
登録する場合は、「シャッター」,「押す」の特徴単語
ベクトルを単語辞書4から求め、その和を正規化したベ
クトルを事例ベクトルとして、事例ベース1における事
例1の格納場所を指し示すインデックスI1と共に事例
ベクトルをインデックス蓄積手段2に格納する。Further, when registering a new bilingual case, a case vector is generated for the case in the same manner as the translation request vector generation, and the new case vector is added to the index storage means as shown in FIG. For example, when registering the case 1 of FIG. 5, the characteristic word vectors of “shutter” and “press” are obtained from the word dictionary 4, and a vector obtained by normalizing the sum is used as a case vector, The case vector is stored in the index storage means 2 together with the index I1 indicating the storage location.
【0037】以上、本発明の実施例は、事例ベクトルの
作成に事例を構成する文を用いたが、それ以外にも例え
ば利用者が与えた事例の内容を表す数単語から事例ベク
トルを作成してもよい。また、本発明の実施例では、日
本語と英語の対訳文を用いたが、それに限定されるもの
ではない。例えば、日本語と英語,仏語,中国語,など
複数の言語で事例を構成し、利用者が指定した言語で翻
訳要求文を入力し、翻訳要求文を入力した言語を用いて
事例候補を表示し、利用者が選択した言語の対訳文を表
示させる構成も考えられる。As described above, in the embodiment of the present invention, the sentence forming the case is used to create the case vector, but other than that, for example, the case vector is prepared from several words representing the contents of the case given by the user. May be. Further, in the embodiment of the present invention, the Japanese and English bilingual sentences are used, but the present invention is not limited thereto. For example, the case is composed in multiple languages such as Japanese and English, French, Chinese, etc., the translation request sentence is input in the language specified by the user, and the case candidates are displayed using the language in which the translation request sentence is input. However, a configuration in which the bilingual text in the language selected by the user is displayed is also conceivable.
【0038】[0038]
【発明の効果】本発明の翻訳装置は、従来の翻訳装置が
検索対象事例に明示的に表現された自然言語の範囲を越
えた検索は不可能であるのに比べて、対訳事例に対し人
間の常識が反映された自然言語での検索を可能とし、自
然言語の範囲を大幅に越えた対訳事例の検索が可能にな
り、翻訳支援が効率的になる。EFFECTS OF THE INVENTION The translation device of the present invention is not capable of searching beyond the range of the natural language explicitly expressed in the search target case, whereas the translation device of the present invention is human It is possible to search in natural language that reflects common sense of, and it becomes possible to search for parallel translation examples that greatly exceed the range of natural language, and translation support becomes efficient.
【図1】本発明の実施例に係る翻訳装置の機能ブロック
図である。FIG. 1 is a functional block diagram of a translation device according to an embodiment of the present invention.
【図2】本発明の実施例に係る単語辞書の構成を示す図
である。FIG. 2 is a diagram showing a configuration of a word dictionary according to an embodiment of the present invention.
【図3】本発明の実施例に係る翻訳装置の電気的ブロッ
ク図である。FIG. 3 is an electrical block diagram of a translation device according to an embodiment of the present invention.
【図4】本発明の実施例に係る翻訳装置の処理フローを
示すフローチャートである。FIG. 4 is a flowchart showing a processing flow of the translation device according to the embodiment of the present invention.
【図5】本発明の実施例に係る翻訳装置の対訳事例と対
応の事例ベクトルの格納の様子を示す図である。FIG. 5 is a diagram showing a storage state of parallel translation cases and corresponding case vectors of the translation apparatus according to the embodiment of the present invention.
1 事例ベース 2 インデックス蓄積手段 3 入力手段 4 単語辞書 5 ベクトル生成手段 6 事例検索手段 7 表示手段 8 対訳文表示手段 9 事例登録手段 1 case base 2 index storage means 3 input means 4 word dictionary 5 vector generation means 6 case search means 7 display means 8 bilingual sentence display means 9 case registration means
Claims (3)
て記憶された事例ベースと、 上記事例の特徴を表す事例ベクトルと、該事例ベクトル
と上記対訳事例との対応を示すインデックスとを格納し
たインデックス蓄積手段と、 単語を含む翻訳要求を入力する入力手段と、 翻訳要求の単語と特徴単語との関連程度を示す特徴単語
ベクトルを保持する単語辞書と、 翻訳要求に対応する上記特徴単語ベクトルの加算結果に
基づいて翻訳要求ベクトルを生成するベクトル生成手段
と、 翻訳要求ベクトルと事例ベクトルとの距離に基づいて事
例候補を検索する事例候補検索手段と、 検索された事例候補に対応する対訳文をインデックスを
用いて表示する対訳文表示手段とを備えたことを特徴と
する翻訳装置。1. A case base in which a set of a case and its bilingual sentence is stored as a bilingual case, a case vector representing a characteristic of the case, and an index indicating a correspondence between the case vector and the bilingual case are stored. Index storage means, an input means for inputting a translation request including words, a word dictionary holding a characteristic word vector indicating the degree of association between the translation request word and the characteristic word, and the characteristic word vector corresponding to the translation request Vector generation means for generating a translation request vector based on the result of addition, a case candidate search means for searching a case candidate based on the distance between the translation request vector and the case vector, and a bilingual sentence corresponding to the searched case candidate. And a translated text display means for displaying by using an index.
表示手段をさらに備え、事例候補表示手段に表示された
事例候補から利用者が選択した事例に対応する対訳文を
上記対訳文表示手段に表示することを特徴とする請求項
1に記載の翻訳装置。2. A case candidate display means for displaying the retrieved case candidates is further provided, and the bilingual sentence corresponding to the case selected by the user from the case candidates displayed on the case candidate displaying means is displayed on the bilingual sentence displaying means. The translation device according to claim 1, which is displayed.
事例が入力されると、上記ベクトル生成手段は、上記単
語辞書を用いて新規の事例から新規の事例ベクトルを作
成し、上記事例登録手段は、上記インデックス蓄積手段
に新規インデックスと新規事例ベクトルとを登録すると
共に、上記事例ベースに上記新規の対訳事例を登録する
ことを特徴とする請求項1または請求項2に記載の翻訳
装置。3. A case registration means is further provided, and when a new bilingual case is input, the vector generation means creates a new case vector from the new case using the word dictionary, and the case registration means. 3. The translation device according to claim 1, wherein the translation storage device registers a new index and a new case vector in the index storage means, and also registers the new parallel translation case in the case base.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7199537A JPH0950435A (en) | 1995-08-04 | 1995-08-04 | Translation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7199537A JPH0950435A (en) | 1995-08-04 | 1995-08-04 | Translation device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0950435A true JPH0950435A (en) | 1997-02-18 |
Family
ID=16409489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7199537A Pending JPH0950435A (en) | 1995-08-04 | 1995-08-04 | Translation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0950435A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1111514A1 (en) * | 1999-12-20 | 2001-06-27 | Xerox Corporation | Phrase translation method and system |
US6321189B1 (en) | 1998-07-02 | 2001-11-20 | Fuji Xerox Co., Ltd. | Cross-lingual retrieval system and method that utilizes stored pair data in a vector space model to process queries |
US6321191B1 (en) | 1999-01-19 | 2001-11-20 | Fuji Xerox Co., Ltd. | Related sentence retrieval system having a plurality of cross-lingual retrieving units that pairs similar sentences based on extracted independent words |
CN102163192A (en) * | 2010-02-24 | 2011-08-24 | 英业达股份有限公司 | System and method for generating and playing translation example sentence |
-
1995
- 1995-08-04 JP JP7199537A patent/JPH0950435A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6321189B1 (en) | 1998-07-02 | 2001-11-20 | Fuji Xerox Co., Ltd. | Cross-lingual retrieval system and method that utilizes stored pair data in a vector space model to process queries |
US6321191B1 (en) | 1999-01-19 | 2001-11-20 | Fuji Xerox Co., Ltd. | Related sentence retrieval system having a plurality of cross-lingual retrieving units that pairs similar sentences based on extracted independent words |
EP1111514A1 (en) * | 1999-12-20 | 2001-06-27 | Xerox Corporation | Phrase translation method and system |
US6473729B1 (en) | 1999-12-20 | 2002-10-29 | Xerox Corporation | Word phrase translation using a phrase index |
CN102163192A (en) * | 2010-02-24 | 2011-08-24 | 英业达股份有限公司 | System and method for generating and playing translation example sentence |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
US20020111792A1 (en) | Document storage, retrieval and search systems and methods | |
CN106446018B (en) | Query information processing method and device based on artificial intelligence | |
US20100153396A1 (en) | Name indexing for name matching systems | |
CN102214189B (en) | Data mining-based word usage knowledge acquisition system and method | |
JPH03172966A (en) | Similar document retrieving device | |
KR100396826B1 (en) | Term-based cluster management system and method for query processing in information retrieval | |
KR20210130976A (en) | Device, method and computer program for deriving response based on knowledge graph | |
KR101333485B1 (en) | Method for constructing named entities using online encyclopedia and apparatus for performing the same | |
JP3198932B2 (en) | Document search device | |
CN109298796B (en) | Word association method and device | |
JP4162223B2 (en) | Natural sentence search device, method and program thereof | |
KR100498574B1 (en) | Real-time Natural Language Question-Answering System Using Unit Paragraph Indexing Method | |
JP3617096B2 (en) | Relational expression extraction apparatus, relational expression search apparatus, relational expression extraction method, relational expression search method | |
JPH0950435A (en) | Translation device | |
JP4153843B2 (en) | Natural sentence search device, natural sentence search method, natural sentence search program, and natural sentence search program storage medium | |
Al-Taani et al. | Searching concepts and keywords in the Holy Quran | |
WO2020079749A1 (en) | Case search method | |
JPS63228326A (en) | Automatic key word extracting system | |
JP2002189754A (en) | Device and method for document retrieval | |
JPH06124305A (en) | Document retrieving method | |
KR20000036487A (en) | A Database System for Korean-English Translation Using Information Retrieval Techniques | |
JPH06195371A (en) | Unregistered word acquiring system | |
JP2002278963A (en) | Example translation device |