JP6934621B2 - Methods, equipment, and programs - Google Patents
Methods, equipment, and programs Download PDFInfo
- Publication number
- JP6934621B2 JP6934621B2 JP2017102876A JP2017102876A JP6934621B2 JP 6934621 B2 JP6934621 B2 JP 6934621B2 JP 2017102876 A JP2017102876 A JP 2017102876A JP 2017102876 A JP2017102876 A JP 2017102876A JP 6934621 B2 JP6934621 B2 JP 6934621B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentences
- word
- paraphrase
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本開示は入力文を翻訳する技術に関するものである。 The present disclosure relates to a technique for translating input sentences.
近年、入力文を翻訳するに際して、単に入力文の機械翻訳結果を提示するのではなく、多面的な翻訳結果をユーザに提示する研究が盛んに行われている。 In recent years, when translating an input sentence, research has been actively conducted in which a multifaceted translation result is presented to a user rather than simply presenting the machine translation result of the input sentence.
例えば、特許文献1は、入力されたテキスト文を同じ内容の別の表現で言い換えた複数の言い換え文を生成し、生成した言い換え文を機械翻訳し、生成した言い換え文の中から翻訳信頼度に基づいて翻訳対象言い換え文の候補を抽出し、抽出した翻訳対象言い換え文の中から翻訳対象の言い換え文を特定する技術を開示する。
For example,
特許文献2は、機械翻訳の不確かさを補完するために、入力原文と近い表現を持つ例文を検索し、検索した例文に対応する目的言語の対訳テキストを取得し、取得した対訳テキストを入力原文の機械翻訳結果と合わせて表示する技術を開示する。
In
しかし、上記従来の技術は、翻訳機が備える知識空間を増強しなければ、翻訳信頼度の向上が望めないという課題があるので、更なる改善の必要がある。 However, the above-mentioned conventional technique has a problem that the translation reliability cannot be expected unless the knowledge space provided in the translator is enhanced, and therefore needs to be further improved.
本開示の一態様に係る方法は、翻訳文を提供する方法であって、
ユーザの端末を介して、翻訳対象である第1言語で記述された第1文を取得し、
前記第1言語で記述された文と第2言語で記述された対訳文との対を複数含んだデータベースに前記第1文が含まれているか判定し、
前記データベースに前記第1文が含まれていないと判定された場合は、前記第1文を構成する一つ以上の単語を所定のルールに基づいて置き換えた複数の第2文を生成し、
前記複数の第2文と前記データベースに含まれている前記第1言語で記述された複数の文との構文の一致度をそれぞれ算出し、
算出された一致度が閾値以上である前記データベースに含まれている前記第1言語で記述された一以上の第3文を抽出し、
前記データベースにおいて、前記一以上の第3文の対訳文である前記第2言語で記述された一以上の第4文を、前記第1文の対訳リファレンスとして前記ユーザの端末に表示させるものである。
The method according to one aspect of the present disclosure is a method of providing a translated text.
Obtain the first sentence written in the first language to be translated via the user's terminal,
It is determined whether or not the first sentence is included in the database containing a plurality of pairs of the sentence described in the first language and the bilingual sentence described in the second language.
When it is determined that the first sentence is not included in the database, a plurality of second sentences in which one or more words constituting the first sentence are replaced based on a predetermined rule are generated.
The degree of syntactic matching between the plurality of second sentences and the plurality of sentences described in the first language included in the database is calculated.
One or more third sentences described in the first language included in the database whose calculated degree of matching is equal to or more than the threshold value are extracted.
In the database, one or more fourth sentences described in the second language, which are parallel translations of the one or more third sentences, are displayed on the user's terminal as a translation reference of the first sentence. ..
本開示によれば、入力文又はその類似文の翻訳文を高い信頼度で生成するために知識空間を増強しなくても、ユーザにとって有用な翻訳結果を提示できる。 According to the present disclosure, it is possible to present a translation result useful for a user without enhancing the knowledge space in order to generate a translation of an input sentence or a similar sentence with high reliability.
(本開示の一態様に至る経緯)
翻訳機の翻訳品質を高めるために、入力文を換言し、複数の入力換言文を生成し、生成した複数の入力換言文の翻訳文を提示し、提示した複数の入力換言文の翻訳文の中から最適な翻訳文をユーザに選択させる技術が提案されている(特許文献1)。
(Background to one aspect of this disclosure)
In order to improve the translation quality of the translator, the input sentence is paraphrased, multiple input paraphrases are generated, the translated sentences of the generated multiple input paraphrases are presented, and the translated sentences of the presented multiple input paraphrases are presented. A technique has been proposed in which the user selects the most suitable translation from among them (Patent Document 1).
また、入力文に類似する文や部分一致する文の用例翻訳結果を、機械翻訳結果とともに提示する技術も提案されている(特許文献2)。 Further, a technique has been proposed in which an example translation result of a sentence similar to an input sentence or a sentence having a partial match is presented together with the machine translation result (Patent Document 2).
しかし、特許文献1の技術は、翻訳文を生成するために翻訳機が使用する知識空間において、入力文及び入力換言文の近傍の知識データが存在しない場合、精度の高い翻訳文を提示できないという問題がある。
However, the technique of
また、特許文献2の技術は、翻訳機の所有する用例対訳データベースが、入力文に類似する用例文や部分一致する用例文を含んでいなければ、入力文の機械翻訳の不確かさを補完し得るような用例対訳を提示できないという問題がある。
Further, the technique of
このように、特許文献1、2の技術は知識空間を増強しなければ、翻訳信頼度の向上が望めないという問題がある。また、特許文献1、2の技術は、知識空間を増強したとしても、増強した知識空間の範囲外の表現を持つ入力文が入力された場合、翻訳信頼度の向上は望めない。また、知識空間の増強は、費用対効果の面で課題がある。
As described above, the techniques of
本開示は、入力文又はその類似文の翻訳文を高い信頼度で生成するために知識空間を増強しなくともユーザにとって有用な翻訳文を提示する技術を提供する。 The present disclosure provides a technique for presenting a translation useful for a user without enhancing the knowledge space in order to generate a translation of an input sentence or a similar sentence with high reliability.
本開示の一態様に係る方法は、翻訳文を提供する方法であって、
ユーザの端末を介して、翻訳対象である第1言語で記述された第1文を取得し、
前記第1言語で記述された文と第2言語で記述された対訳文との対を複数含んだデータベースに前記第1文が含まれているか判定し、
前記データベースに前記第1文が含まれていないと判定された場合は、前記第1文を構成する一つ以上の単語を所定のルールに基づいて置き換えた複数の第2文を生成し、
前記複数の第2文と前記データベースに含まれている前記第1言語で記述された複数の文との構文の一致度をそれぞれ算出し、
算出された一致度が閾値以上である前記データベースに含まれている前記第1言語で記述された一以上の第3文を抽出し、
前記データベースにおいて、前記一以上の第3文の対訳文である前記第2言語で記述された一以上の第4文を、前記第1文の対訳リファレンスとして前記ユーザの端末に表示させるものである。
The method according to one aspect of the present disclosure is a method of providing a translated text.
Obtain the first sentence written in the first language to be translated via the user's terminal,
It is determined whether or not the first sentence is included in the database containing a plurality of pairs of the sentence described in the first language and the bilingual sentence described in the second language.
When it is determined that the first sentence is not included in the database, a plurality of second sentences in which one or more words constituting the first sentence are replaced based on a predetermined rule are generated.
The degree of syntactic matching between the plurality of second sentences and the plurality of sentences described in the first language included in the database is calculated.
One or more third sentences described in the first language included in the database whose calculated degree of matching is equal to or more than the threshold value are extracted.
In the database, one or more fourth sentences described in the second language, which are parallel translations of the one or more third sentences, are displayed on the user's terminal as a translation reference of the first sentence. ..
本態様は、単に、翻訳対象である第1文の換言文の翻訳文を提示するのではない。すなわち、本態様は、データベースに記憶された第1言語で記述された複数の文の中から、第1文を所定のルールで置き換えた複数の第2文に対して構文の一致度が閾値以上である一以上の文が、第3文として抽出される。そして、本態様は、抽出された第3文の対訳文である第4文を対訳リファレンスとして表示する。 This aspect does not merely present a translated sentence of the paraphrase sentence of the first sentence to be translated. That is, in this embodiment, the degree of syntactic matching is equal to or greater than the threshold value for a plurality of second sentences in which the first sentence is replaced by a predetermined rule from among a plurality of sentences written in the first language stored in the database. One or more sentences that are are extracted as the third sentence. Then, in this aspect, the fourth sentence, which is a parallel translation of the extracted third sentence, is displayed as a parallel translation reference.
ここで、第1文と内容は異なるが、第1文と文構造が一致又は類似する第3文の用例対訳である第4文を提示した方が、第1文の換言文の翻訳文を提示するよりも、却って、ユーザにとって有用な翻訳結果を提示できる可能性が高まる。 Here, although the content is different from the first sentence, it is better to present the fourth sentence, which is an example parallel translation of the third sentence whose sentence structure is the same as or similar to that of the first sentence. Rather than presenting, it is more likely that a translation result that is useful to the user can be presented.
すなわち、このような第4文を提示した方が、翻訳文を生成する際に用いられる知識空間が広範囲に使用され、ユーザにとって有用な翻訳結果が得られるのである。本態様は、この点に着目しているので、ユーザにとって有用な翻訳結果を提示できる。 That is, when such a fourth sentence is presented, the knowledge space used when generating the translated sentence is widely used, and a translation result useful for the user can be obtained. Since this aspect pays attention to this point, it is possible to present a translation result useful for the user.
また、本態様は、第1文又はその類似文の翻訳文を高信頼度で生成することを要求していないので、その要求に応えられるような、豊富な知識データを備える知識空間を用いる必要はない。したがって、本態様は、知識空間を増強させなくとも、ユーザにとって有用な翻訳結果を提示できる。 Further, since this aspect does not require that a translated sentence of the first sentence or a similar sentence be generated with high reliability, it is necessary to use a knowledge space having abundant knowledge data that can meet the request. There is no. Therefore, this aspect can present translation results that are useful to the user without enhancing the knowledge space.
上記態様において、前記複数の第2文のうち一以上の第2文を前記第2言語に機械翻訳して一以上の第5文を生成し、
前記一以上の第4文と前記一以上の第5文との少なくともいずれか一方を前記ユーザの端末に表示させてもよい。
In the above aspect, one or more second sentences out of the plurality of second sentences are machine-translated into the second language to generate one or more fifth sentences.
At least one of the one or more fourth sentences and the one or more fifth sentences may be displayed on the terminal of the user.
本態様では、第1文を所定のルールで言い換えた複数の第2文のうち一以上の第2文の翻訳文である一以上の第5文が生成され、第4文と第5文との少なくともいずれか一方が提示される。そのため、第5文を提示することで、多様な翻訳結果が提示され、ユーザにとって有用な翻訳結果を提示できる可能性が高められる。 In this embodiment, one or more fifth sentences, which are translations of one or more second sentences out of a plurality of second sentences in which the first sentence is paraphrased according to a predetermined rule, are generated, and the fourth sentence and the fifth sentence are combined. At least one of the above is presented. Therefore, by presenting the fifth sentence, various translation results are presented, and the possibility of presenting useful translation results for the user is increased.
上記態様において、前記一致度は、前記複数の第2文と前記データベースに含まれている複数の文とのテキスト類似度を示す第1指標に基づいて算出されてもよい。 In the above aspect, the degree of agreement may be calculated based on a first index indicating the text similarity between the plurality of second sentences and the plurality of sentences included in the database.
本態様によれば、データベースに記憶された複数の文の中から、複数の第2文に対してテキスト類似度が一致又は類似する文が第3文として抽出される。そのため、知識空間を広範囲に使用しつつも、複数の第2文に対して無関係な文が第3文として抽出されることを防止できる。 According to this aspect, a sentence having the same or similar text similarity to the plurality of second sentences is extracted as the third sentence from the plurality of sentences stored in the database. Therefore, it is possible to prevent a sentence unrelated to the plurality of second sentences from being extracted as the third sentence while using the knowledge space extensively.
上記態様において、前記一致度は、前記データベースに含まれる複数の文のうち、前記複数の第2文に対して文構造が一致又は類似する文であって、前記第1文とのテキスト類似度が小さい文ほど大きな値を示す第2指標に基づいて算出されてもよい。 In the above aspect, the degree of coincidence is a sentence having a sentence structure that matches or is similar to the plurality of second sentences among the plurality of sentences included in the database, and the degree of text similarity with the first sentence. It may be calculated based on the second index which shows a larger value as the sentence has a smaller value.
本態様によれば、データベースに含まれる複数の文のうち、第2文に対して文構造が一致又は類似する文であって、第1文に対して内容が離れた用例文が抽出される。そのため、多様な第3文を抽出でき、知識空間を広範囲に使用できる。 According to this aspect, among a plurality of sentences included in the database, example sentences that have the same or similar sentence structure to the second sentence but have different contents from the first sentence are extracted. .. Therefore, various third sentences can be extracted and the knowledge space can be widely used.
上記態様において、前記一致度は、前記複数の第2文と前記データベースに含まれている複数の文との文構造の類似性を示す第3指標に基づいて算出されてもよい。 In the above aspect, the degree of agreement may be calculated based on a third index indicating the similarity of the sentence structure between the plurality of second sentences and the plurality of sentences included in the database.
本態様によれば、複数の第2文に対して文構造が一致又は類似する文が第3文として抽出される。そのため、知識空間を広範囲に使用しつつも、複数の第2文に対して関連性の低い第3文が抽出されることを防止できる。 According to this aspect, a sentence having a sentence structure that matches or is similar to a plurality of second sentences is extracted as the third sentence. Therefore, it is possible to prevent the extraction of the third sentence, which is less relevant to the plurality of second sentences, while using the knowledge space over a wide range.
上記態様において、前記一致度は、前記複数の第2文と前記データベースに含まれている複数の文とにおいて、品詞の一致数が多いほど大きな値を示す第4指標に基づいて算出されてもよい。 In the above aspect, the degree of matching may be calculated based on a fourth index showing a larger value as the number of matching parts of speech increases in the plurality of second sentences and the plurality of sentences included in the database. good.
本態様によれば、複数の第2文に対して一致する品詞の数が多い文が第3文として抽出される。そのため、知識空間を広範囲に使用しつつも、複数の第2文に対して関連性の低い文が抽出されることを防止できる。 According to this aspect, a sentence having a large number of matching part of speech for a plurality of second sentences is extracted as the third sentence. Therefore, it is possible to prevent sentences having low relevance to a plurality of second sentences from being extracted while using the knowledge space extensively.
また、本態様は、前記第1指標〜第4指標のうち、少なくとも2つを組み合わせて評価値を算出してもよい。これにより、より多様な第3文が抽出され、多様な翻訳結果を提示することができる。その結果、第1文に対して第1言語での類似度は低いが、翻訳結果が第1文の翻訳のヒントになるような第3文を抽出できる。 Further, in this aspect, the evaluation value may be calculated by combining at least two of the first to fourth indexes. As a result, a wider variety of third sentences can be extracted, and various translation results can be presented. As a result, it is possible to extract a third sentence in which the translation result is a hint for translation of the first sentence, although the similarity in the first language is low with respect to the first sentence.
上記態様において、前記第1指標は、置き換え箇所が多い第2文ほど大きな値を示してもよい。 In the above aspect, the first index may show a larger value as the second sentence has more replacement points.
本態様によれば、置き換え箇所が多い第2文ほど第1指標が大きくなるので、置き換え箇所が多い第2文に対して類似する第3文を抽出でき、より多様な翻訳結果を提示できる。 According to this aspect, since the first index becomes larger as the second sentence has many replacement parts, the third sentence similar to the second sentence with many replacement parts can be extracted, and more diverse translation results can be presented.
上記態様において、前記一以上の第2文は、前記複数の第2文と前記一以上の第3文とのテキスト類似度に基づいて前記複数の第2文の中から抽出されしてもよい。 In the above aspect, the one or more second sentences may be extracted from the plurality of second sentences based on the text similarity between the plurality of second sentences and the one or more third sentences. ..
本態様によれば、一致度に基づいて抽出された第3文に対し、複数の第2文の中から、類似する第2文が抽出されるので、知識空間を広範囲に使用しつつも、第1文とは無関係の第2文が抽出されることを防止できる。 According to this aspect, a similar second sentence is extracted from a plurality of second sentences with respect to the third sentence extracted based on the degree of agreement, so that while using the knowledge space extensively, It is possible to prevent the second sentence unrelated to the first sentence from being extracted.
上記態様において、前記所定のルールは、前記第1文を構成する素片に含まれる第1単語を、文脈類似関係にある第2単語で換言する第1換言ルールであってもよい。 In the above aspect, the predetermined rule may be a first paraphrase rule in which the first word included in the element piece constituting the first sentence is paraphrased by the second word having a context-like relationship.
本態様によれば、第1文を構成する第1単語が文脈類似関係にある第2単語で換言された第2文が生成される。そのため、第1文に対して単に同じ意味を持つ第2文を生成する態様を採用する場合に比べて多様な第2文を生成できる。その結果、第1文に対して第1言語での類似度は低いが、翻訳結果が第1文の翻訳のヒントになるような第2文を生成できる。 According to this aspect, a second sentence is generated in which the first word constituting the first sentence is paraphrased by the second word having a context-like relationship. Therefore, it is possible to generate a variety of second sentences as compared with the case of adopting the mode of generating the second sentence having the same meaning with respect to the first sentence. As a result, it is possible to generate a second sentence in which the translation result is a hint for translation of the first sentence, although the similarity in the first language is low with respect to the first sentence.
上記態様において、前記所定のルールは、前記第1文を構成する素片に含まれる第1単語を、共起関係にある第2単語に換言する第2換言ルールであってもよい。 In the above aspect, the predetermined rule may be a second paraphrase rule that paraphrases the first word contained in the element piece constituting the first sentence into the second word having a co-occurrence relationship.
本態様によれば、第1文を構成する第1単語が、共起関係にある第2単語で換言された第2文が生成される。そのため、第1文に対して単に同じ意味を持つ第2文を生成する態様を採用する場合に比べて多様な第2文を生成できる。その結果、第1文に対して第1言語での類似度は低いが、翻訳結果が第1文の翻訳のヒントになるような第2文を生成できる。 According to this aspect, a second sentence is generated in which the first word constituting the first sentence is paraphrased by the second word having a co-occurrence relationship. Therefore, it is possible to generate a variety of second sentences as compared with the case of adopting the mode of generating the second sentence having the same meaning with respect to the first sentence. As a result, it is possible to generate a second sentence in which the translation result is a hint for translation of the first sentence, although the similarity in the first language is low with respect to the first sentence.
上記態様において、前記所定のルールは、前記第1文を構成する素片に含まれる第1単語を、含意関係にある第2単語に換言する第3換言ルールであってもよい。 In the above aspect, the predetermined rule may be a third paraphrase rule that paraphrases the first word contained in the element piece constituting the first sentence into the second word having an implication relationship.
本態様によれば、第1文を構成する第1単語が含意関係にある第2単語で換言された第2文が生成される。そのため、第1文に対して単に同じ意味を持つ第2文を生成する態様を採用する場合に比べて多様な第2文を生成できる。その結果、第1文に対して第1言語での類似度は低いが、翻訳結果が入力文の翻訳のヒントになるような第2文を生成できる。 According to this aspect, a second sentence is generated in which the first word constituting the first sentence is paraphrased by the second word having an implication relationship. Therefore, it is possible to generate a variety of second sentences as compared with the case of adopting the mode of generating the second sentence having the same meaning with respect to the first sentence. As a result, it is possible to generate a second sentence in which the translation result is a hint for translation of the input sentence, although the similarity in the first language is low with respect to the first sentence.
上記態様において、前記所定のルールは、前記第1文を構成する素片に含まれる第1単語を、上位下位関係にある第2単語に換言する第4換言ルールであってもよい。 In the above aspect, the predetermined rule may be a fourth paraphrase rule in which the first word included in the element piece constituting the first sentence is paraphrased into the second word having a higher-lower relationship.
本態様によれば、第1文を構成する第1単語が上位下位関係にある第2単語で換言された第2文が生成される。そのため、第1文に対して単に同じ意味内容を持つ第2文を生成する態様を採用する場合に比べて多様な第2文を生成できる。その結果、第1文に対して第1言語での類似度は低いが、翻訳結果等が第1文の翻訳のヒントになるような第2文を生成できる。 According to this aspect, a second sentence is generated in which the first word constituting the first sentence is paraphrased by the second word having a higher-lower relationship. Therefore, it is possible to generate a variety of second sentences as compared with the case of adopting a mode in which a second sentence having the same meaning and content is simply generated for the first sentence. As a result, it is possible to generate a second sentence in which the translation result or the like is a hint for the translation of the first sentence, although the similarity in the first language is low with respect to the first sentence.
上記態様において、前記一以上の第4文は前記第1文に対する換言箇所が他の箇所と区別して提示されされてもよい。 In the above aspect, the one or more fourth sentences may be presented with a paraphrase part for the first sentence distinguished from other parts.
本態様によれば、第1文に対する換言箇所を容易にユーザに認識させることができる。 According to this aspect, the user can easily recognize the paraphrase part for the first sentence.
(実施の形態)
図1は、本開示の実施の形態に係る装置の一例である翻訳支援装置1の構成を示すブロック図である。翻訳支援装置1は、第1言語で記述された入力文を第2言語に翻訳する装置である。第1言語としては、例えば、日本語、英語、フランス語、ドイツ語というような言語が採用できる。第2言語としては、第1言語とは異なる言語が採用できる。以下の説明では、第1言語として日本語を採用し、第2言語として英語を採用するがこれは一例である。
(Embodiment)
FIG. 1 is a block diagram showing a configuration of a
翻訳支援装置1は、入力部2、用例一致判定部3、用例対訳DB(データベース)4(データベースの一例)、換言文生成部5、抽出部6、機械翻訳部7、信頼度付与部8、及び出力部9(提示部の一例)を備える。図1において、翻訳支援装置1は、例えばCPU、ROM、及びRAMを含むコンピュータで構成される。入力部2は、例えば、タッチパネル等の入力装置、又はキーボード及びマウス等の入力装置で構成される。用例一致判定部3、換言文生成部5、抽出部6、機械翻訳部7、信頼度付与部8は、例えば、CPUがコンピュータを翻訳支援装置1として機能させるプログラムを実行することで実現されてもよいし、専用のハードウェア回路により実現されてもよい。このプログラムはネットワークを介してダウンロードすることで提供されてもよいし、コンピュータ読取可能な非一時的な記録媒体に記録されて提供されてもよい。また、用例対訳DB4は、記憶装置(メモリ)で構成されてもよい。また、出力部9は、表示装置又はスピーカで構成されてもよい。
The
なお、翻訳支援装置1は、スマートフォンやタブレット端末等の携帯情報端末で構成されてもよいし、据え置き型のコンピュータで構成されてもよい。
The
図2は、携帯情報端末で構成された場合の翻訳支援装置1と、据え置き型コンピュータで構成された場合の翻訳支援装置1との一例を示す図である。図2の左図では、翻訳支援装置1はスマートフォン又はタブレット端末等の携帯情報端末で構成されている。図2の右図では、翻訳支援装置1は、据え置き型のコンピュータで構成されている。これらの場合、図1に示す各構成要素は、携帯情報端末又は据え置き型コンピュータ内に集約される。
FIG. 2 is a diagram showing an example of a
或いは、翻訳支援装置1は、クラウドシステムで構成されてもよい。図3は、クラウドシステムで構成された場合の翻訳支援装置1の一例を示す図である。クラウドシステムは、サーバSV1及び1又は複数の端末TE1で構成されている。サーバSV1と端末TE1とはインターネット等のネットワークNTを介して通信可能に接続されている。サーバSV1は、1又は複数のコンピュータで構成されるクラウドサーバである。端末TE1は、スーマートフォンやタブレット端末等の携帯情報端末で構成されてもよいし、据え置き型のコンピュータで構成されてもよい。
Alternatively, the
この場合、図1に示す入力部2及び出力部9は、ユーザが所持する端末TE1で構成される。また、図1に示す、用例一致判定部3、用例対訳DB4、換言文生成部5、抽出部6、機械翻訳部7、及び信頼度付与部8は、サーバSV1で構成される。つまり、翻訳支援機能はサーバSV1に実装され、端末TE1は、ユーザインターフェースを提供する。
In this case, the
図1に参照を戻す。入力部2は、翻訳対象である第1言語で記述された入力文(第1文の一例)を取得する。入力文は、ユーザによって入力された文であって、第1言語で記述された文である。
The reference is returned to FIG. The
用例一致判定部3は、入力部2が取得した入力文と一致する用例文が用例対訳DB4に記憶されているか否かを判定する。そして、用例一致判定部3は、用例対訳DB4に入力文と一致する用例文が記憶されていれば、一致する用例文と、その用例文を含む用例対訳とを出力部9に出力する。ここで、用例一致判定部3は、例えば、用例文と入力文とが完全に一致する場合に一致すると判定すればよい。一方、用例一致判定部3は、入力部2が取得した入力文が用例対訳DB4に記憶されていなければ、その入力文を換言文生成部5及び機械翻訳部7に出力する。
The example
用例対訳DB4は、第1言語で記述された用例文と、用例文を第2言語で記述した用例対訳とを対応付けた1以上の用例対訳を記憶するデータベースである。用例対訳DB4は、第1言語で記述された文と第2言語で記述された対訳文との対を複数含んだデータベースの一例である。詳細には、用例対訳DB4は、例えば、1つの用例対訳に対して1つのレコードが割り当てられたデータベースであり、用例文のフィールドと用例対訳のフィールドとを備える。用例文のフィールドには、用例文が記憶され、用例対訳のフィールドには、用例文に対応する翻訳文が記憶されている。用例文とは使用実績のある文であり、用例対訳とは翻訳実績のある用例文の翻訳文である。用例文と用例対訳との翻訳信頼度は、例えば、100%である。 The example bilingual translation DB4 is a database that stores one or more example bilingual translations in which an example sentence written in a first language and an example bilingual translation described in a second language are associated with each other. The example bilingual translation DB4 is an example of a database including a plurality of pairs of sentences written in the first language and bilingual sentences written in the second language. Specifically, the example bilingual translation DB4 is, for example, a database in which one record is assigned to one example bilingual translation, and includes an example sentence field and an example bilingual translation field. The example sentence is stored in the example sentence field, and the translated sentence corresponding to the example sentence is stored in the example parallel translation field. An example sentence is a sentence that has been used, and an example parallel translation is a translated sentence of an example sentence that has been translated. The translation reliability of the example sentence and the example parallel translation is, for example, 100%.
換言文生成部5は、用例一致判定部3により用例対訳DB4に入力文が記憶されていないと判定された場合は、入力部2が取得した入力文を複数の素片に分割し、複数の素片のうちの1又は複数を所定の換言ルール(所定のルールの一例)を用いて第1言語の他の表現に換言する(置き換える)ことによって、複数の入力換言文(複数の第2文の一例)を生成する。
When the paraphrase
ここで、入力文を複数の素片に分割する手法としては、例えば、入力文を単語ごとに区切る手法が採用される。但し、本実施の形態はこれに限定されず、入力文を品詞ごと区切る手法が採用されてもよいし、入力文を所定文字数(例えば2文字や3文字等)ごとに区切る手法が採用されてもよいし、入力文を句毎に区切る手法が採用されてもよいし、入力文を意味クラスごとに区切る手法が採用されてもよいし、入力文を形態素毎に区切る手法が採用されてもよい。 Here, as a method of dividing the input sentence into a plurality of elementary pieces, for example, a method of dividing the input sentence into words is adopted. However, the present embodiment is not limited to this, and a method of dividing the input sentence by part of speech may be adopted, or a method of dividing the input sentence by a predetermined number of characters (for example, 2 characters or 3 characters) is adopted. Alternatively, a method of separating input sentences by phrase may be adopted, a method of separating input sentences by meaning class may be adopted, or a method of separating input sentences by morpheme may be adopted. good.
また、換言ルールとしては、下記の第1〜第4換言ルールが採用できる。 Further, as the paraphrase rule, the following first to fourth paraphrase rules can be adopted.
第1換言ルールは、入力文を構成する素片に含まれる第1単語を、文脈類似関係にある第2単語で換言するルールである。ここで、文脈類似関係とは、文脈上、類似する関係にある単語同士の関係を指し、例えば、ALAGIN言語資源の文脈類似語データベースに登録された単語同士の関係が採用できる。例えば、「ルパン三世」と文脈類似関係にある単語としては、「名探偵コナン」、「宇宙戦艦ヤマト」等が該当する。また、「チャイコフスキー」と文脈類似関係にある単語としては、「ブラームス」、「シューマン」、「メンデルスゾーン」等が該当する。なお、ALAGIN言語資源の文脈類似語データベースでは、「ルパン三世」と「ルパン3世」とは文脈類似関係にあると判断されるが、本実施の形態では、両者は内容が近すぎるので、文脈類似関係から除外してもよい。 The first paraphrase rule is a rule that paraphrases the first word included in the element piece constituting the input sentence with the second word having a context-like relationship. Here, the context-similar relationship refers to the relationship between words that are similar in context, and for example, the relationship between words registered in the context-similar word database of the ALAGIN language resource can be adopted. For example, words that have a similar context to "Lupin III" include "Detective Conan" and "Space Battleship Yamato". In addition, "Brahms", "Schumann", "Mendelssohn" and the like correspond to words having a context-like relationship with "Tchaikovsky". In the context-similar word database of ALAGIN language resources, it is judged that "Lupin III" and "Lupin III" have a context-similar relationship, but in this embodiment, the contents are too close to each other, so the context. It may be excluded from the similarity.
第2換言ルールは、入力文を構成する素片に含まれる第1単語を、共起関係にある第2単語に換言するルールである。ここで、共起関係とは、同一文書内で出現する頻度が高い単語同士の関係を指し、例えば、ALAGIN言語資源の単語共起頻度データベースに登録された単語同士の関係が該当する。例えば、「海外旅行」と共起関係にある単語としては、DICE係数が高い順に「国内旅行」、「格安航空券」、「ツアー」、「航空券」、「旅行」が該当する。また、「クリスマス」の共起関係にある単語として、DICE係数が高い順に「お正月」、「誕生日」、「サンタ」、「冬」、「年末」が該当する。なお、DICE係数は単語同士の類似性や共起性を数値化した指標である。 The second paraphrase rule is a rule for paraphrasing the first word contained in the element piece constituting the input sentence into the second word having a co-occurrence relationship. Here, the co-occurrence relationship refers to the relationship between words that frequently appear in the same document, and corresponds to, for example, the relationship between words registered in the word co-occurrence frequency database of the ALAGIN language resource. For example, as words co-occurring with "overseas travel", "domestic travel", "cheap airline ticket", "tour", "airline ticket", and "travel" correspond in descending order of DICE coefficient. In addition, as words having a co-occurrence relationship of "Christmas", "New Year", "Birthday", "Santa", "Winter", and "Year-end" correspond in descending order of DICE coefficient. The DICE coefficient is an index that quantifies the similarity and co-occurrence between words.
第3換言ルールは、入力文を構成する素片に含まれる第1単語を、含意関係にある第2単語に換言するルールである。ここで、含意関係とは、第1単語が第2単語を含意する関係を指し、例えば、ALAGIN言語資源の含意関係データベースに登録された単語同士の関係が該当する。第1単語が第2単語を含意するとは、第1単語の表す事態が成立するならば、同時かそれ以前に第2単語の表す事態も成立することを意味する。例えば、「チンする」に対して「加熱する」、「デトックスする」に対して「解毒する」、「銀ブラする」に対して「うろつく」、「アポトーシス」するに対して「死ぬ」、「壊れる」に対して「イカれる」、「酔っぱらう」に対して「飲む」が該当する。なお、含意関係は、上位下位関係が成立する場合もあるが、「チンする」と「加熱する」というように上位下位関係が成立しない場合もある。 The third paraphrase rule is a rule for paraphrasing the first word contained in the element piece constituting the input sentence into the second word having an implication relationship. Here, the implication relationship refers to a relationship in which the first word implies the second word, and for example, the relationship between words registered in the implication relation database of the ALAGIN language resource is applicable. The fact that the first word implies the second word means that if the situation represented by the first word is established, the situation represented by the second word is also established at the same time or before that. For example, "heat" for "tin", "detoxify" for "detox", "prowl" for "silver bra", "die" for "apoptosis", "die", " "Break" corresponds to "squid", and "drunk" corresponds to "drink". As for the implication relationship, the upper-lower relationship may be established, but the upper-lower relationship may not be established, such as "tinning" and "heating".
第4換言ルールは、入力文を構成する素片に含まれる第1単語を、上位下位関係にある第2単語に換言するルールである。ここで、上位下位関係とは、例えば、ALAGIN言語資源の上位語階層データベースに登録された単語同士の関係を指す。第1単語が第2単語を含む、より一般的、より総称的、より抽象的なものを指す場合、第1単語は第2単語に対して上位関係にある。 The fourth paraphrase rule is a rule for paraphrasing the first word contained in the element piece constituting the input sentence into the second word having a higher-lower relationship. Here, the hypernym-lower relationship refers to, for example, the relationship between words registered in the hypernym hierarchy database of the ALAGIN language resource. If the first word refers to something more general, more generic, and more abstract, including the second word, then the first word is superior to the second word.
図4は、換言文生成部5の詳細な構成を示すブロック図である。換言文生成部5は、換言DB(データベース)を記憶する換言DB記憶部51、換言候補生成部52、及び換言文識別部53を備える。換言DBは、第1言語の単語と、第1単語を第1言語の他の表現で表現した第2単語とを互いに対応付けたデータベースである。
FIG. 4 is a block diagram showing a detailed configuration of the paraphrase
本実施の形態では、換言DB記憶部51は、文脈類似語DB511、共起関係DB512、含意関係DB513、及び上位下位関係DB514を記憶する。以下、文脈類似語DB511、共起関係DB512、含意関係DB513、及び上位下位関係DB514を特に区別しない場合、換言DBと記載する。文脈類似語DB511は、入力文を第1換言ルールで換言するためのデータベースであり、文脈類似関係にある単語同士が予め対応付けて記憶するデータベースである。ここで、文脈類似語DB511としては、例えば、ALAGIN言語資源の文脈類似語データベースが採用できる。
In the present embodiment, the paraphrase
共起関係DB512は、入力文を第2換言ルールで換言するためのデータベースであり、共起関係にある単語同士を予め対応付けて記憶するデータベースである。ここで、共起関係DB512としては、例えば、ALAGIN言語資源の単語共起頻度データベースが採用できる。 The co-occurrence relationship DB512 is a database for paraphrasing an input sentence according to the second paraphrase rule, and is a database for storing words having a co-occurrence relationship in advance in association with each other. Here, as the co-occurrence relationship DB512, for example, a word co-occurrence frequency database of ALAGIN language resources can be adopted.
含意関係DB513は、入力文を第3換言ルールで換言するためのデータベースであり、含意関係にある単語同士を予め対応付けて記憶するデータベースである。ここで、含意関係DB513としては、例えば、ALAGIN言語資源の含意関係データベースが採用できる。
The
上位下位関係DB514は、入力文を第4換言ルールで換言するためのデータベースであり、上位下位関係にある単語同士を予め対応付けて記憶するデータベースである。ここで、上位下位関係DB514としては、例えば、ALAGIN言語資源の上位語階層データベースが採用できる。
The upper-
換言候補生成部52は、換言DBを参照することで入力文を第1〜第4換言ルールのそれぞれで換言し、入力換言文を生成する。ここで、換言候補生成部52は、例えば、入力文B1「門真までタクシーにしたい」が入力されたとすると、「門真/まで/タクシー/に/したい」というように入力文B1を単語単位で区分する。そして、換言候補生成部52は、文脈類似語DB511、共起関係DB512、含意関係DB513、及び上位下位関係DB514のそれぞれを参照することで、第1〜第4の換言ルールのそれぞれで入力文を換言し、少なくとも4つの入力換言文を生成する。
The paraphrase
ここで、換言候補生成部52は、第1〜第4換言ルールのうち第i(i=1〜4)換言ルールを用いて入力換言文を生成するに際して、1つの単語を換言して1つの入力換言文を生成してもよいし、複数の箇所の単語を換言して1つの入力換言文を生成してもよい。また、換言候補生成部52は、第i換言ルールを用いて入力文を換言するに際して、単語の換言数が異なる複数の入力換言文を生成してもよい。
Here, the paraphrase
例えば、換言候補生成部52は、区分した入力文から1の単語をランダムに特定し、特定した1の単語と同一の単語が換言DBに登録されていれば、その1の単語を換言DBに登録された換言可能な別の単語で換言すればよい。一方、換言候補生成部52は、特定した1の単語と同一の単語が換言DBに登録されていなければ、その1の単語以外の別の1の単語を入力文からランダムに特定し、特定した別の1の単語と同一の単語が換言DBに登録されていれば、その別の1の単語を換言DBに登録された換言可能な別の単語で換言すればよい。換言候補生成部52は、このような処理を繰り返して、第i換言ルールにより換言された1又は複数の入力換言文を生成すればよい。
For example, the paraphrase
例えば、文脈類似語DB511において、「タクシー」と文脈類似関係にある単語として、「バス」、「トラック」が登録されていたとすると、「バス」、「トラック」の中からランダムに1の単語を決定し、その1の単語で「タクシー」を換言してもよいし、「タクシー」に対して最も類似する単語で、「タクシー」を換言してもよい。 For example, in the context-similar word DB511, if "bus" and "truck" are registered as words having a context-similar relationship with "taxi", one word is randomly selected from "bus" and "truck". You may decide and paraphrase "taxi" with the one word, or you may paraphrase "taxi" with the word most similar to "taxi".
なお、換言候補生成部52は、生成した入力換言文において、換言箇所を示す付加データを加えて換言文識別部53に出力すればよい。
The paraphrase
換言文識別部53は、入力換言文の中から、言葉らしい文を抽出し、抽出部6に出力する。ここで、換言文識別部53は、例えば、N−gram言語モデルを用いて、入力換言文の出現確率を算出し、算出した出現確率が基準値以上の入力換言文を抽出部6に出力する。N−gram言語モデルは、人間が用いるであろう「言葉らしさ」を確率としてモデル化した確率的言語モデルである。例えば、「今日の夕食はカレーです」という文B2と、「今日の夕食は野球です」という文B3とがある場合、文B2は文B3よりも尤もらしいと言うことができる。この場合、N−gram言語モデルでは文B2の出現確率が文B3の出現確率より高くなる。ここで、基準値としては、これ以上出現確率が低下すると不自然な文と判定される値であって経験的に得られた値が採用できる。なお、換言文識別部53は、出力対象となる入力換言文において換言箇所を示す付加データも含めて、抽出部6に出力する。
The paraphrase
図1に参照を戻す。抽出部6は、換言文生成部5から出力された入力換言文と用例対訳DB4に記憶された用例文との関連性を示す総合評価値(一致度の一例)をそれぞれ算出し、算出した総合評価値に基づいて、用例対訳DB4から1以上の用例文(第3文の一例)を抽出する。また、抽出部6は、抽出した用例文と類似する1以上の入力換言文を、換言文生成部5から出力された入力換言文から抽出する。以下、抽出された入力換言文を「換言抽出文」(一以上の第2文の一例)と記述する。なお、関連性とは、入力換言文と用例文とが構文上一定の関係を持つことを指す。
The reference is returned to FIG. The
ここで、抽出部6は、各入力換言文と各用例文との総合評価値を下記の指標A1〜指標A4を用いて算出する。
Here, the
指標A1(第3指標の一例)は、各入力換言文と各用例文との文構造の類似性を示す指標である。図5は、入力換言文と用例文との一例を示す図である。 The index A1 (an example of the third index) is an index showing the similarity of the sentence structure between each input paraphrase sentence and each example sentence. FIG. 5 is a diagram showing an example of an input paraphrase sentence and an example sentence.
図5を参照し、例えば、入力文B1「門真までタクシーにしたい」の入力換言文として、入力換言文C1「門真までタクシーにのりたい」及び入力換言文C2「門真までバスを利用したい」が換言文生成部5により生成されたとする。
With reference to FIG. 5, for example, as input paraphrases of input sentence B1 "I want to take a taxi to Kadoma", input paraphrase C1 "I want to take a taxi to Kadoma" and input paraphrase C2 "I want to use a bus to Kadoma" It is assumed that it is generated by the paraphrase
また、用例対訳DB4には用例文D1「とことんまで話にのりたい」、及び用例文D2「京橋まで電車でいきたい」が記憶されていたとする。 Further, it is assumed that the example sentence D1 "I want to talk to the fullest" and the example sentence D2 "I want to go by train to Kyobashi" are stored in the example bilingual translation DB4.
まず、抽出部6は、入力換言文C1,C2を文節又は単語で区切り、入力換言文C1,C2の文構造を解析し、構文木を生成する。ここでは、入力換言文C1の例では、文節「門真まで」と文節「タクシーに」とが共に文節「のりたい」に係っている。そのため、文節「門真まで」に対応するノードN11と文節「タクシーに」に対応するノードN12とを、文節「のりたい」に対応するノードN13にそれぞれ接続する2本のエッジE11,E12を含む木構造T1が生成されている。
First, the
このような木構造の生成は、例えば、構文解析ツールである「KNP」を用いて実現できる。また、文を構成する単語の品詞の解析は、例えば、形態素解析ツールである「juman」を用いて実現できる。したがって、抽出部6は、「KNP」及び「juman」を利用して文の木構造の生成及び文を構成する単語の品詞の抽出を行えばよい。
The generation of such a tree structure can be realized by using, for example, a parsing tool "KNP". Further, the analysis of the part of speech of the words constituting the sentence can be realized by using, for example, "juman" which is a morphological analysis tool. Therefore, the
入力換言文C2の例では、文節「門真まで」と文節「バスを」とが共に文節「利用したい」に係っている。そのため、文節「門真まで」に対応するノードN21と文節「タクシーに」に対応するノードN22とを、文節「利用したい」に対応するノードN23にそれぞれ接続する2本のエッジE21,E22を含む木構造T2が生成されている。 In the example of the input paraphrase sentence C2, the phrase "to Kadoma" and the phrase "bus" are both related to the phrase "want to use". Therefore, a tree including two edges E21 and E22 that connect the node N21 corresponding to the clause "Kadoma" and the node N22 corresponding to the clause "Taxi" to the node N23 corresponding to the clause "I want to use", respectively. Structure T2 is generated.
用例文D1の例では、文節「とことんまで」と文節「話に」とが共に文節「のりたい」に係っている。そのため、文節「とことんまで」に対応するノードN31と文節「タクシーに」に対応するノードN32とを、文節「のりたい」に対応するノードN33にそれぞれ接続する2本のエッジE31,E32を含む木構造T3が生成されている。 In the example of example sentence D1, the phrase "to the fullest" and the phrase "to talk" are both related to the phrase "Noritai". Therefore, a tree containing two edges E31 and E32 that connect the node N31 corresponding to the clause "Tokonto" and the node N32 corresponding to the clause "Taxi" to the node N33 corresponding to the clause "Noritai", respectively. Structure T3 is generated.
用例文D2の例では、文節「京橋まで」と文節「電車で」とが共に文節「いきたい」に係っている。そのため、文節「京橋まで」に対応するノードN41と文節「電車で」に対応するノードN42とを、文節「いきたい」に対応するノードN43にそれぞれ接続する2本のエッジE41,E42を含む木構造T4が生成されている。 In the example sentence D2, the phrase "to Kyobashi" and the phrase "by train" are both related to the phrase "I want to go". Therefore, a tree including two edges E41 and E42 that connect the node N41 corresponding to the clause "to Kyobashi" and the node N42 corresponding to the clause "by train" to the node N43 corresponding to the clause "I want to go", respectively. Structure T4 is generated.
このように、抽出部6は、入力換言文と用例文との木構造を解析する。そして、抽出部6は、例えば、ツリーマッチングの手法を用いて、入力換言文と用例文との木構造の類似度を指標A1として算出すればよい。なお、用例文の木構造は用例対訳DB4に事前に記憶されていてもよい。本実施の形態では、指標A1は、0〜100%の数値をとり、木構造が一致する度合いが高いほど値が大きくなる。
In this way, the
図5の例では、入力換言文C1,C2と用例文D1,D2との木構造T1〜T4は全て同じ構造である。したがって、抽出部6は、入力換言文C1の用例文D1,D2に対する指標A1を、それぞれ、100%と算出する。また、抽出部6は、入力換言文C2の用例文D1,D2に対する指標A1も、それぞれ、100%と算出する。
In the example of FIG. 5, the tree structures T1 to T4 of the input paraphrases C1 and C2 and the example sentences D1 and D2 all have the same structure. Therefore, the
なお、図5において、<体言>及び<用言:動>等の括弧の記載は、対応する文節の品詞等を説明するために便宜上付したものであり、指標A1の算出にあたって実際に使用されるものではない。 In FIG. 5, the description in parentheses such as <uninflected word> and <phrase: action> is added for convenience to explain the part of speech of the corresponding phrase, and is actually used in the calculation of the index A1. It's not a thing.
指標A2(第4指標の一例)は、各入力換言文と各用例文とにおける品詞の一致数が多いほど大きな値を示す指標である。 The index A2 (an example of the fourth index) is an index showing a larger value as the number of matching parts of speech in each input paraphrase sentence and each example sentence increases.
本実施の形態では、抽出部6は、文構造が一致する入力換言文と用例文とにおいて(指標A1が100%である入力換言文と用例文とにおいて)、同一箇所に位置する文節同士の品詞の一致数により指標A2を算出する。
In the present embodiment, the
図5の例では、抽出部6は、文構造が一致する入力換言文と用例文とにおいて、同一箇所に位置する文節の品詞が名詞で一致するほど値が大きくなるように指標A2を算出する。以下、「同一箇所に位置する文節」を「対応する文節」と記述する。また、「名詞の文節」とは、「名詞を含む文節」を意味する。例えば、文節「門真まで」は単語「門真」と単語「まで」とで構成されているが、単語「門真」は名詞なので、「門真まで」は名詞の文節となる。
In the example of FIG. 5, the
詳細には、指標A2は下記の式(1)により規定される。 In detail, the index A2 is defined by the following equation (1).
指標A2=(1−α/β)×100(%) (1)
α:対応する文節同士が名詞でない数
β:入力換言文の名詞の文節の総数
図5に示す入力換言文C1において、名詞の文節は「門真まで」と「タクシーに」との2つである。また、入力換言文C1の文節「門真まで」に対応する用例文D1の文節「とことんまで」は副詞であり、入力換言文C1の文節「タクシーに」に対応する用例文D1の文節「話に」は名詞である。したがって、入力換言文C1と用例文D1とにおいて、β=2、α=1となり、指標A2は50%になる。
Index A2 = (1-α / β) × 100 (%) (1)
α: Number of corresponding clauses that are not nouns β: Total number of noun clauses in the input paraphrase sentence In the input paraphrase sentence C1 shown in FIG. .. In addition, the phrase "Tokonto" in the example sentence D1 corresponding to the phrase "Kadoma" in the input paraphrase C1 is an adverb, and the phrase "To the story" in the example sentence D1 corresponding to the phrase "Taxi" in the input paraphrase C1. Is a noun. Therefore, in the input paraphrase sentence C1 and the example sentence D1, β = 2 and α = 1, and the index A2 becomes 50%.
また、入力換言文C1の文節「門真まで」に対応する用例文D2の文節「京橋まで」は名詞であり、入力換言文C1の文節「タクシーに」に対応する用例文D2の文節「電車で」は名詞である。したがって、入力換言文C1と用例文D2とにおいて、β=2、α=0となり、指標A2は100%になる。同様に、入力換言文C2と用例文D1,D2との指標A2はそれぞれ50%,100%となる。 In addition, the phrase "to Kyobashi" in the example sentence D2 corresponding to the phrase "to Kadoma" in the input paraphrase C1 is a noun, and the phrase "by train" in the example sentence D2 corresponding to the phrase "to taxi" in the input paraphrase C1. Is a noun. Therefore, in the input paraphrase sentence C1 and the example sentence D2, β = 2 and α = 0, and the index A2 becomes 100%. Similarly, the indexes A2 of the input paraphrase sentence C2 and the example sentences D1 and D2 are 50% and 100%, respectively.
なお、式(1)のαは、対応する文節同士のカテゴリーが異なる数であってもよい。ここで、カテゴリーとは、例えば、地名、交通、抽象物というように名詞の単語が属している種類を指す。図5において、地名としては「門真」及び「京橋」が該当し、交通としては「タクシー」や「バス」が該当し、抽象物としては「話」が該当する。 Note that α in equation (1) may be a number in which the corresponding clauses have different categories. Here, the category refers to a type to which a noun word belongs, such as a place name, traffic, or an abstraction. In FIG. 5, "Kadoma" and "Kyobashi" are applicable as place names, "taxi" and "bus" are applicable as transportation, and "story" is applicable as an abstraction.
この態様を採用する場合、例えば、入力換言文C1の文節「タクシーに」及び用例文D1の文節「話に」は共に名詞の文節であるが、前者のカテゴリーは「交通」であり、後者のカテゴリーは「抽象物」なので、αは1カウントアップされることになり、カテゴリーを考慮しない態様を採用した場合に比べ、指標A2は小さくなる。 When this aspect is adopted, for example, the phrase "taxi" in the input paraphrase C1 and the phrase "talk" in the example sentence D1 are both noun phrases, but the former category is "traffic" and the latter category. Since the category is "abstract", α is incremented by 1 and the index A2 is smaller than when the mode that does not consider the category is adopted.
ここで、抽出部6は、文構造が一致する入力換言文と用例文とに対して指標A2を算出したが、本開示はこれに限定されず、文構造の一致の有無を考慮することなく、すなわち、指標A1とは独立して、指標A2を算出してもよい。また、名詞の文節の一致数に基づいて指標A2は算出されているが、品詞の一致数に基づいて指標A2は算出されてもよい。
Here, the
例えば、「文節C11/文節C12/文節C13/文節C14」からなる入力換言文C1Xがあったとする。また、「文節D11/文節D12/文節D13」からなる用例文D1Xがあったとする。なお、「/」は文節の切れ目を示す。この場合、抽出部6は、入力換言文C1Xと用例文D1Xとにおいて、先頭から数えて同じ順位に位置する文節同士を、対応する文節として抽出し、抽出した文節同士の品詞の一致数に基づいて指標A2を算出すればよい。
For example, suppose that there is an input paraphrase sentence C1X composed of "phrase C11 / clause C12 / clause C13 / clause C14". Further, it is assumed that there is an example sentence D1X composed of "phrase D11 / clause D12 / clause D13". In addition, "/" indicates a break of a phrase. In this case, the
例えば、抽出部6は、「文節C11」及び「文節D11」と、「文節C12」及び「文節D12」と、「文節C13」及び「文節D13」との3つの文節ペアを対応する文節として抽出する。なお、「文節C14」は用例文D1Xに対応する文節がないので、抽出対象から除外される。そして、抽出部6は、品詞が一致しない文節ペアの総数をαとして算出し、入力換言文C1Xから抽出した文節数をβとして、式(1)を用いて指標A2を算出すればよい。
For example, the
指標A3(第2指標の一例)は、入力換言文に対して文構造が一致する用例文と入力文とのテキスト類似度が小さいほど大きな値を示す指標である。 The index A3 (an example of the second index) is an index showing a larger value as the text similarity between the example sentence and the input sentence whose sentence structure matches the input paraphrase sentence is smaller.
詳細には、指標A3は式(2)によって規定される。 In detail, the index A3 is defined by the equation (2).
指標A3=100−入力文と用例文とのテキスト類似度 (2)
まず、抽出部6は、入力換言文と文構造が一致する用例文を用例対訳DB4から抽出する。そして、抽出部6は、抽出した用例文と入力文とのテキスト類似度を算出し、算出したテキスト類似度が小さいほど値が大きくなるように用例文毎に指標A3を算出する。
Index A3 = 100-Text similarity between input sentences and example sentences (2)
First, the
文構造が一致するとは、上述したように木構造が一致すること、すなわち、指標A1が100%であることを意味する。テキスト類似度は、文の表現及び字面というような文同士の内容がどの程度一致しているかを示し、例えば、2つの文字列同士の類似性を算出するPHP言語のsimilar_text関数を用いて算出される。 When the sentence structures match, it means that the tree structures match as described above, that is, the index A1 is 100%. The text similarity indicates how much the contents of sentences such as the expression and the character face of the sentence match, and is calculated using, for example, the similla_text function of the PHP language that calculates the similarity between two character strings. NS.
例えば、入力文B1「門真までタクシーにしたい」に対する入力換言文として、入力換言文C1「門真までタクシーにのりたい」が生成されたとする。この場合、抽出部6は、入力換言文C1と、文構造が一致する用例文を対訳用例DB4から抽出する。ここでは、用例文D2「京橋まで電車でいきたい」、用例文D3「守口まで車を利用したい」、用例文D4「東京まで新幹線で行く」、及び用例文D5「とことんまで話にのりたい」の4つの用例文が抽出されたとする。
For example, suppose that the input paraphrase C1 "I want to take a taxi to Kadoma" is generated as the input paraphrase for the input sentence B1 "I want to take a taxi to Kadoma". In this case, the
この場合、抽出部6は、入力文B1と4つの用例文D2〜D5とのそれぞれの指標A3を、式(2)を用いて算出する。
In this case, the
上記説明では、抽出部6は、指標A3を算出する場合、入力換言文と文構造が一致する用例文を抽出したが、本開示はこれに限定されず、入力換言文と文構造が類似する用例文を抽出してもよい。ここで、文構造が類似するとは、例えば、指標A1が基準値以上の場合が該当する。基準値としては、50%、60%、70%、80%、90%といった少なくとも50%より大きな値が採用できる。
In the above description, when calculating the index A3, the
指標A4(第1指標の一例)は、入力換言文と用例文とのテキスト類似度を示す指標である。テキスト類似度は指標A3を算出する際に用いられたテキスト類似度と同じである。 The index A4 (an example of the first index) is an index indicating the text similarity between the input paraphrase sentence and the example sentence. The text similarity is the same as the text similarity used when calculating the index A3.
本実施の形態では、抽出部6は、入力換言文と文構造が一致する用例文、すなわち、指標A1が100%である用例文を対訳用例DB4から抽出し、抽出した用例文と入力換言文とのそれぞれのテキスト類似度を指標A4として算出する。
In the present embodiment, the
例えば、上記の入力換言文C1「門真までタクシーにのりたい」が生成されたとすると、抽出部6は入力換言文C3と文構造が一致する用例文を対訳用例DB4から抽出する。ここでは、指標A3で説明した4つの用例文D2〜D5が抽出されたする。この場合、抽出部6は、入力換言文C3と用例文D2〜D5とのそれぞれのテキスト類似度を指標A4として算出すればよい。
For example, assuming that the above input paraphrase sentence C1 "I want to take a taxi to Monshin" is generated, the
なお、抽出部6は、換言箇所の多い入力換言文ほど指標A4の値を大きく算出してもよい。例えば、抽出部6は、テキスト類似度に換言率を乗じることで、最終的な指標A4を算出してもよい。換言率としては、例えば、入力換言文における全文字数のうち、換言された文字数の割合が採用できる。
The
そして、抽出部6は、各用例文の指標A1〜A4の例えば積を各用例文の総合評価値として算出する。そして、抽出部6は、総合評価値が大きい順にn(1以上の整数)個の用例文を抽出する。
Then, the
なお、抽出部6は、各用例文のうち、総合評価値が基準値(閾値の一例)より大きい用例文を抽出してもよい。或いは、抽出部6は、各用例文のうち、総合評価値が基準値より大きい用例文を抽出し、抽出した用例文がn個以上であれば、総合評価値が高い順にn個の用例文を抽出してもよい。
In addition, the
そして、抽出部6は、抽出したn個の用例文の用例対訳を用例対訳DB4から抽出し、出力部9に出力する。
Then, the
抽出部6は、用例文を抽出する処理が終了すると、抽出したn個の用例文と類似するn個の換言抽出文を抽出する処理を行う。ここで、抽出部6は抽出したn個の用例文のそれぞれに対して指標A4が最大の入力換言文を抽出することで、n個の換言抽出文として抽出する。
When the process of extracting the example sentences is completed, the
例えば、換言文生成部5から4個の入力換言文C1〜C4が出力され、総合評価値から2個の用例文D1,D2が抽出されたとすると、抽出部6は、用例文D1,D2のそれぞれに対して、入力換言文C1〜C4のそれぞれの指標A4を算出する。そして、抽出部6は、用例文D1,D2のそれぞれにおいて指標A4が最大の入力換言文を換言抽出文として抽出する。
For example, assuming that four input paraphrases C1 to C4 are output from the paraphrase
上記説明では、抽出部6は、指標A1〜A4の全てを用いて総合評価値を算出したが、本開示はこれに限定されず、抽出部6は、指標A1〜A4の少なくとも1つを用いて総合評価値を算出してもよい。また、抽出部6は、指標A1〜A4の積を総合評価値として採用したが、本開示はこれに限定されず、抽出部6は、指標A1〜A4の平均値や重み付け平均値を総合評価値として採用してもよい。
In the above description, the
機械翻訳部7は、抽出部6から出力されたn個の換言抽出文のそれぞれを第2言語に機械翻訳することで、n個の換言翻訳文(第5文の一例)を生成する。ここで、機械翻訳部7では、何らかの翻訳エンジンを利用することで機械翻訳を行う。例えば、機械翻訳部7は、webサイト上で提供されている翻訳エンジンを利用してもよいし、翻訳支援装置1自身が備える翻訳アプリケーションソフトを利用してもよい。また、機械翻訳部7は、用例一致判定部3から出力された入力文を機械翻訳し、入力翻訳文を生成する。
The
信頼度付与部8は、機械翻訳部7により生成されたn個の換言翻訳文の翻訳信頼度を算出する。ここで、信頼度付与部8は、換言翻訳文を第2言語から第1言語に逆翻訳したときの対応する換言抽出文との一致度から翻訳信頼度を算出すればよい。また、信頼度付与部8は、入力翻訳文についても翻訳信頼度を算出する。
The
出力部9は、抽出部6により抽出されたn個の用例対訳(第4文の一例)を表示する。また、出力部9は、機械翻訳部7により生成されたn個の換言翻訳文とそれに対応するn個の入力換言文とを翻訳信頼度と合わせて表示する。更に、出力部9は、入力文と入力翻訳文とを翻訳信頼度と合わせてを表示する。
The
なお、出力部9は、用例一致判定部3により入力文が用例対訳DB4に記憶されたいずれかの用例文と一致すると判定された場合、用例一致判定部3から出力された用例対訳を表示すればよい。
When the
図7は、出力部9が表示する出力画像500の一例を示す図である。出力画像500は、入力文表示欄510と、翻訳支援情報表示欄520とを含む。入力文表示欄510は、入力文511「門真までタクシーにしたい」と、入力文511の機械翻訳結果である入力翻訳文512「I want to taxi to kadoma」とを並べて表示する。また、入力文表示欄510には、入力翻訳文512の翻訳信頼度を表示する信頼度表示欄513も表示されている。ここでは、入力翻訳文512の逆翻訳結果と入力文511との一致度が70%であったので、信頼度表示欄513には「70%」と表示されている。
FIG. 7 is a diagram showing an example of the
翻訳支援情報表示欄520は、入力文511と関連する用例文等を表示する欄である。ここでは、入力文511に対する用例文として2つの用例文が抽出部6により抽出されたので、2つの用例文531a,541aに対応する2つの翻訳支援情報表示欄530,540が表示されている。また、用例文531aの方が用例文541aよりも総合評価値が高かったので、用例文531aに対応する翻訳支援情報表示欄530の方が用例文541aに対応する翻訳支援情報表示欄540よりも上側に表示されている。
The translation support
翻訳支援情報表示欄530には、「参考用例 1」と見出しが付けられた参考用例表示欄531と、「参考翻訳 1」と見出しが付けられた参考翻訳表示欄532とが含まれる。
The translation support
参考用例表示欄531には、総合評価値が1位の用例文531a「京橋まで電車でいきたい」と、それに対応する用例対訳531b「I want to go by train to kyobashi」とが並べて表示されている。
In the reference
参考翻訳表示欄532には、用例文531aに対してテキスト類似度(指標A4)が最大の換言抽出文532a「門真まで電車でいきたい」と、それに対応する換言翻訳文532b「I want to go by train to kadoma」とが並べて表示されている。
In the reference translation display column 532, there is a paraphrase
また、翻訳支援情報表示欄530には、換言翻訳文532bの翻訳信頼度を示す信頼度表示欄533が表示されている。ここでは、換言翻訳文532bの逆翻訳結果と換言抽出文532aとの一致度が95%であったので「95%」と表示されている。
Further, in the translation support
また、換言抽出文532aにおいては、「電車でいきたい」の箇所にアンダーラインが引かれており、入力文511に対する換言箇所が他の箇所と区別可能に表示されている。また、換言翻訳文532bにおいても、「I want to go by train」の箇所にアンダーラインが引かれており、換言箇所の翻訳結果が他の箇所の翻訳結果と区別可能に表示されている。
Further, in the paraphrase
これにより、ユーザは、換言抽出文532a及び換言翻訳文532bにおいて、入力文511に対する換言箇所を一目で認識することができる。
As a result, the user can recognize at a glance the paraphrase portion for the
翻訳支援情報表示欄540も、翻訳支援情報表示欄530と同様、参考用例表示欄541と参考翻訳表示欄542とが表示されている。
Similar to the translation support
参考用例表示欄541には、総合評価値が2位の用例文541a「守口まで車を利用したい」と、それに対応する用例対訳541b「I want to take a car to moriguchi」とが表示されている。 In the reference example display column 541, the example sentence 541a "I want to use the car to Moriguchi" and the corresponding example translation 541b "I want to take a car to moriguchi" are displayed. ..
参考翻訳表示欄542には、用例文541aに対してテキスト類似度(指標A4)が最大の換言抽出文542a「門真までバスを利用したい」と、それに対応する換言翻訳文542b「I want to take the bus to kadoma」とが並べて表示されている。
In the reference
換言抽出文542aにおいて、入力文511に対する換言箇所は「バスを利用したい」であるので、その箇所にアンダーラインが引かれている。また、換言翻訳文542bにおいて、換言箇所に対応する翻訳箇所「I want to take the bus」にアンダーラインが引かれている。更に、換言翻訳文542bの逆翻訳結果と、換言抽出文との一致度が90%であったので、信頼度表示欄には「90%」と表示されている。
In the paraphrase
このように、出力画像500には、総合評価値が高い用例文を含む翻訳支援情報表示欄520ほど上側に表示されるので、ユーザは重要度の高い用例対訳及び換言翻訳文等を含む翻訳支援情報を一目で認識できる。
In this way, since the
なお、図7の例では、2つの翻訳支援情報表示欄520が示されているがこれは一例であり、抽出部6により3つ以上の用例文が抽出されたのであれば、出力画像500は、3つ以上の用例文を含む翻訳支援情報表示欄520を表示すればよい。この場合も、総合評価値が高い用例文ほど上側に位置するように、翻訳支援情報表示欄520は表示されればよい。
In the example of FIG. 7, two translation support information display fields 520 are shown, but this is an example. If three or more example sentences are extracted by the
また、図7の例では、換言箇所(文字列)をアンダーラインを用いてハイライト表示したが、本開示はこれに限定されず、換言箇所の背景にマーカーを付してハイライト表示する態様を採用してもよいし、換言箇所の文字の色を非換言箇所の文字の色と変えてハイライト表示する態様を採用してもよいし、換言箇所を太字でハイライト表示する態様を採用してもよいし、これらの態様を組み合わせた態様を採用してもよい。更に、本開示は、換言箇所をハイライト表示させず、非換言箇所をハイライト表示しても良い。 Further, in the example of FIG. 7, the paraphrase portion (character string) is highlighted by using an underline, but the present disclosure is not limited to this, and a marker is attached to the background of the paraphrase portion to highlight the paraphrase portion. May be adopted, the color of the characters in the paraphrased part may be changed to the color of the characters in the non-paraphrased part and highlighted, or the paraphrased part may be highlighted in bold. Alternatively, a mode in which these modes are combined may be adopted. Further, in the present disclosure, the paraphrased portion may not be highlighted and the non-paraphrased portion may be highlighted.
また、図7の例では、用例文及び用例対訳には特にハイライト表示が付されていないが本開示は、これに限定されず、換言抽出文に対応する用例文及び用例対訳の箇所(文字列)をハイライト表示してもよい。 Further, in the example of FIG. 7, the example sentence and the example translation are not particularly highlighted, but the present disclosure is not limited to this, and the part (character) of the example sentence and the example translation corresponding to the paraphrase extraction sentence is not limited to this. Column) may be highlighted.
次に、翻訳支援装置1における抽出部6の処理の具体例について説明する。ここでは、入力文(I)「門真までタクシーにしたい」が入力されたとし、換言文生成部5により以下の3つの入力換言文が生成されたとする。この例では、(A)〜(C)は、全て同じ文構造、すなわち、同じ木構造を持っているとする。
Next, a specific example of the processing of the
(A)「門真まで電車でいきたい」
(B)「門真までバスを利用したい」
(C)「門真までタクシーにのりたい」
また、指標A1が100%、すなわち、上記の入力換言文(A)〜(C)に対して同一の文構造を持つ下記の4つの用例文(1)〜(4)が用例対訳DB4から抽出されたとする。なお、この具体例では、抽出部6は、入力換言文と文構造が同一の用例文を用例対訳DB4から抽出し、抽出した用例文に対して指標A2〜指標A4を算出するものとする。
(A) "I want to go to Kadoma by train"
(B) "I want to use the bus to Kadoma"
(C) "I want to take a taxi to Kadoma"
Further, the following four example sentences (1) to (4) having the same sentence structure with respect to the above input paraphrase sentences (A) to (C) are extracted from the example bilingual translation DB4 when the index A1 is 100%. Suppose it was done. In this specific example, the
(1)「京橋まで電車でいきたい」
(2)「守口まで車を利用したい」
(3)「東京まで新幹線で行く」
(4)「とことんまで話にのりたい」
次に、抽出部6は、用例文(1)〜(4)のそれぞれについて、上記の式(1)を用いて指標A2を算出する。この具体例では、入力換言文(A)〜(C)は同一の文構造を持っているので、入力換言文(A)を代表させ、用例文(1)〜(4)と入力換言文(A)との指標A2を算出する。
(1) "I want to go to Kyobashi by train"
(2) "I want to use a car to Moriguchi"
(3) "Go to Tokyo by Shinkansen"
(4) "I want to talk to you thoroughly"
Next, the
入力換言文(A)の名詞の文節の総数は、「京橋まで」と「電車で」との2つであるので、β=2である。 Since the total number of noun clauses in the input paraphrase (A) is "to Kyobashi" and "by train", β = 2.
また、用例文(1)〜(3)は、入力換言文(A)に対し、対応する文節同士が名詞でない数は0なのでα=0となり、指標A2=100%となる。一方、用例文(4)は、入力換言文(A)の名詞の文節「電車で」に対応する文節「話に」が名詞であるが、入力換言文(A)の名詞の文節「門真まで」に対応する文節「とことんまで」が名詞ではない。そのため、用例文(4)は、入力換言文(A)に対し、対応する文節同士が名詞でない数は1つになる。よって、用例文(4)は、α=1となり、指標A2=(1−1/2)×100=50%となる。したがって、図6の表H1に示すように、用例文(1)〜(4)の指標A2は、それぞれ、「100%」、「100%」、「100%」、「50%」となっている。図6は、本実施の形態における具体例を纏めた表H1である。表H1では、用例文(1)〜(4)に対する指標A1〜A4が算出されている。 Further, in the example sentences (1) to (3), α = 0 and the index A2 = 100% because the number of corresponding phrases that are not nouns is 0 with respect to the input paraphrase sentence (A). On the other hand, in the example sentence (4), the noun phrase "story" corresponding to the noun phrase "train" in the input paraphrase sentence (A) is the noun, but the noun phrase "Kadoma" in the input paraphrase sentence (A) The phrase "to the fullest" corresponding to "" is not a noun. Therefore, in the example sentence (4), the number of corresponding phrases that are not nouns is one with respect to the input paraphrase sentence (A). Therefore, in the example sentence (4), α = 1 and the index A2 = (1-1 / 2) × 100 = 50%. Therefore, as shown in Table H1 of FIG. 6, the indexes A2 of the example sentences (1) to (4) are "100%", "100%", "100%", and "50%", respectively. There is. FIG. 6 is Table H1 summarizing specific examples in the present embodiment. In Table H1, the indexes A1 to A4 for the example sentences (1) to (4) are calculated.
次に、抽出部6は、上記の式(2)を用いて、用例文(1)〜(4)と、入力文(I)との指標A3をそれぞれ算出する。ここでは、表H1に示すように、用例文(1)〜(4)の指標A3は、それぞれ、「36.8%」、「41.1%」、「61.8%」、「55.8%」と算出された。これにより、用例文(1)〜(4)のうち、用例文(3)「東京まで新幹線で行く」が入力文(I)「門真までタクシーにしたい」に対してテキスト類似度が最も低い、すなわち、意味内容が最も遠いことが分かる。
Next, the
なお、この具体例では、入力換言文(B)、(C)の指標A3は、入力換言文(A)の指標A3と同じ値になる。なぜなら、入力換言文(B)、(C)についても、指標A3を算出する際に、用例文(1)〜(4)が用いられるからである。 In this specific example, the index A3 of the input paraphrases (B) and (C) has the same value as the index A3 of the input paraphrase (A). This is because, for the input paraphrase sentences (B) and (C), the example sentences (1) to (4) are used when calculating the index A3.
このように、指標A3の大きな用例文を抽出することで、入力文とは文構造は類似するが意味内容が離れた用例文を抽出することができる。その結果、多様な用例対訳をユーザに提示できる。 In this way, by extracting a large example sentence of the index A3, it is possible to extract an example sentence having a sentence structure similar to that of the input sentence but having a different meaning and content. As a result, various example translations can be presented to the user.
次に、抽出部6は、入力換言文(A)〜(C)と用例文(1)〜(4)との指標A4をそれぞれ算出する。この具体例では、3×4=12個の指標A4が算出され、それぞれの値は表H1に示す通りである。
Next, the
次に、抽出部6は、指標A1×指標A2×指標A3×指標A4により用例文(1)〜(4)の総合評価値「%」を算出する。この具体例では、用例文(1)〜(4)の順で高い(大きな)総合評価値が得られている。なお、この具体例では、用例文(1)〜(4)は、入力換言文(A)〜(C)と文構造が同じであるので、用例文(1)〜(4)の指標A1は全て100%とされている。
Next, the
次に、抽出部6は、総合評価値が高い順に上位n個の用例文を抽出し、抽出したn個の用例文を含むn個の用例対訳を用例対訳DB4から抽出する。例えば、n=2であるならば、抽出部6は、用例文(1)、(2)を含む2つの用例対訳を抽出する。
Next, the
次に、抽出部6は、抽出した用例文において、指標A4(テキスト類似度)が最大の入力換言文を換言抽出文として抽出する。ここでは、用例文(1)、(2)が抽出されているので、用例文(1)において、指標A4が最大の入力換言文(A)と、用例文(2)において、指標A4が最大の入力換言文(B)とが換言抽出文として抽出される。
Next, the
次に、翻訳支援装置1のフローチャートについて説明する。図8は、本開示の実施の形態に係る翻訳支援装置1の処理の一例を示すフローチャートである。
Next, the flowchart of the
まず、入力部2は、ユーザからの操作を受け付けて、入力文を取得する(S1)。ここでは、例えば入力文(I)「門真までタクシーにする」が取得されたとする。
First, the
次に、用例一致判定部3は、入力文(I)と一致する用例文が用例対訳DB4に記憶されているか否かを判定する(S2)。ここで、入力文(I)に一致する用例文が用例対訳DB4にあれば(S2でYES)、用例一致判定部3は、一致する用例文の用例対訳を用例対訳DB4から抽出し、出力部9は、抽出された用例対訳を表示する(S3)。
Next, the example
一方、入力文(I)に一致する用例文が用例対訳DB4に記憶されていなければ(S2でNO)、処理はS4に進む。 On the other hand, if the example sentence matching the input sentence (I) is not stored in the example bilingual translation DB4 (NO in S2), the process proceeds to S4.
S4では、換言文生成部5は、入力文(I)を上述の第1〜第4換言ルールを用いて換言することで複数の入力換言文を生成する(S4)。これにより、例えば、上述した入力換言文(A)〜(C)が生成される。
In S4, the paraphrase
次に、抽出部6は、入力換言文(A)〜(C)と用例対訳DB4に記憶された用例文とを比較することで、上述した総合評価値を算出し、算出した総合評価値が大きい順にn個の用例文を抽出することで、n個の用例対訳を抽出する(S5)。これにより、例えば、上述した2つの用例文(1)、(2)とそれを含む用例対訳とが抽出される。
Next, the
次に、抽出部6は、S4で生成された入力換言文から、S5で抽出したn個の用例文のそれぞれについてテキスト類似度が最大の入力換言文を抽出することで、n個の換言抽出文を抽出する(S6)。これにより、例えば、上述した2つの入力換言文(A)、(B)が換言抽出文として抽出される。
Next, the
次に、機械翻訳部7は、S6で抽出されたn個の換言抽出文を機械翻訳することで、n個の換言翻訳文を生成すると共に、S1で取得された入力文を機械翻訳することで、入力翻訳文を生成する(S7)。これにより、例えば、上述した2つの入力換言文(A)、(B)の換言翻訳文と入力翻訳文とが生成される。
Next, the
次に、信頼度付与部8は、S7で生成された入力翻訳文及びn個の換言翻訳文の翻訳信頼度を算出する(S8)。次に、出力部9は、S5で抽出された用例対訳と、S7で生成された入力翻訳文及び換言翻訳文と、S8で算出された翻訳信頼度等を含む翻訳結果を出力画像500を表示する(S9)。
Next, the
図9は、図8のS5の処理の詳細の一例を示すフローチャートである。ループL5は、S4で生成された全入力換言文のうちの1の入力換言文と、用例対訳DB4に記憶された全用例対訳のうちの1の用例対訳との組のそれぞれについて、S501の処理を繰り返すループである。ループL5は、S4で生成された全入力換言文と用例対訳DB4に記憶された全用例対訳とについてS501の処理が実行されると終了する。 FIG. 9 is a flowchart showing an example of details of the process of S5 of FIG. In the loop L5, the processing of S501 is performed for each of the pair of the input paraphrase sentence of 1 out of all the input paraphrase sentences generated in S4 and the example parallel translation of 1 of all the example translations stored in the example translation DB4. It is a loop that repeats. The loop L5 ends when the processing of S501 is executed for all the input paraphrases generated in S4 and all the example translations stored in the example translation DB4.
S501では、抽出部6は、1の入力換言文と1の用例文との組に対する指標A1〜A4を算出する。また、S501では、抽出部6は、算出した指標A1〜A4から1の組に対する総合評価値を算出する。
In S501, the
S4で入力換言文(A)〜(C)が生成されたとすると、まず、入力換言文(A)について、用例対訳DB4に記憶された全用例文とのそれぞれの総合評価値が算出され、次に、入力換言文(B)について、用例対訳DB4に記憶された全用例文とのそれぞれの総合評価値が算出され、次に、入力換言文(C)について、用例対訳DB4に記憶された全用例文とのそれぞれの総合評価値が算出される。 Assuming that the input paraphrases (A) to (C) are generated in S4, first, for the input paraphrase (A), the comprehensive evaluation value of each of the input paraphrases (A) and all the example sentences stored in the example parallel translation DB4 is calculated, and then In addition, the comprehensive evaluation value of each of the input paraphrase sentences (B) and all the example sentences stored in the example bilingual translation DB4 is calculated, and then the input paraphrase sentence (C) is all stored in the example bilingual translation DB4. Each comprehensive evaluation value with the example sentence is calculated.
S502では、抽出部6は、総合評価値が上位n個の用例文と、n個の用例文に対応するn個の用例対訳を抽出する。
In S502, the
図10は、図8のS6の処理の詳細の一例を示すフローチャートである。ループL61は、S5で抽出されたn個の用例文のうち1の用例文(i)毎に実行されるループである。iは、n個の用例文のうちの1の用例文を特定するインデックスであり、1以上、n以下の整数である。ループL61の終了条件は、n個の用例文に対する処理が終了したこと、すなわち、i=nになったことである。ループL62は、ループL61の1のループにおいて、1の用例文(i)と全入力換言文のそれぞれとの組についてS601〜S602の処理を繰り返すループである。ループL62の終了条件は、1の用例文(i)と全入力換言文のそれぞれとに対してS601〜S602の処理が終了することである。 FIG. 10 is a flowchart showing an example of details of the process of S6 of FIG. The loop L61 is a loop executed for each example sentence (i) of one of the n example sentences extracted in S5. i is an index that identifies one of the n example sentences, and is an integer of 1 or more and n or less. The end condition of the loop L61 is that the processing for n example sentences is completed, that is, i = n. The loop L62 is a loop in which the processes of S601 to S602 are repeated for each pair of the example sentence (i) of 1 and the all-input paraphrase sentence in the loop of 1 of the loop L61. The termination condition of the loop L62 is that the processing of S601 to S602 is terminated for each of the example sentence (i) of 1 and all the input paraphrase sentences.
S601では、抽出部6は、1の用例文(i)と全入力換言文のうちの1の入力換言文との指標A4を算出する。次に、抽出部6は、算出した指標A4が1の用例文(i)のうちで最大であれば(S601でYES)、その入力換言文を換言抽出文(i)としてメモリに保持する(S602)。
In S601, the
一方、算出した指標A4が1の用例文(i)のうちで最大でなければ(S601でNO)、S602の処理は行われずループL62が継続される。ループL62を繰り返すことにより、1の用例文(i)に対して、指標A4が最大の入力換言文(i)が全入力換言文の中から決定される。そして、ループL61により、n個の用例文(i)に対して指標A4が最大のn個の入力換言文(i)が抽出される。 On the other hand, if the calculated index A4 is not the maximum among the example sentences (i) of 1, the processing of S602 is not performed and the loop L62 is continued. By repeating the loop L62, the input paraphrase sentence (i) having the maximum index A4 is determined from all the input paraphrase sentences for the example sentence (i) of 1. Then, the loop L61 extracts n input paraphrase sentences (i) having the maximum index A4 for n example sentences (i).
例えば、S4で入力換言文(A)〜(C)が生成され、S5で用例文(1)〜(4)が抽出されたとする。この場合、まず、用例文(1)について、入力換言文(A)〜(C)の中から指標A4が最大の入力換言文が換言抽出文(1)として抽出され、次に、用例文(2)について、入力換言文(A)〜(C)の中から指標A4が最大の入力換言文が換言抽出文(2)として抽出されるというようにして、4個の換言抽出文が抽出される。 For example, it is assumed that the input paraphrase sentences (A) to (C) are generated in S4 and the example sentences (1) to (4) are extracted in S5. In this case, first, regarding the example sentence (1), the input paraphrase sentence having the maximum index A4 is extracted as the paraphrase extraction sentence (1) from the input paraphrase sentences (A) to (C), and then the example sentence ( Regarding 2), four paraphrase extraction sentences are extracted so that the input paraphrase sentence having the maximum index A4 is extracted as the paraphrase extraction sentence (2) from the input paraphrase sentences (A) to (C). NS.
このように、本実施の形態によれば、単に入力換言文の翻訳文を提示するのではない。すなわち、本実施の形態では、用例対訳DB4に記憶された用例文のうち入力換言文に対する総合評価値が基準値以上のn個の用例文が抽出されると共に、抽出されたn個の用例文と類似するn個の入力換言文が抽出される。そして、抽出されたn個の入力換言文を機械翻訳したn個の換言翻訳文と、抽出されたn個の用例文のn個の用例対訳とが提示される。 As described above, according to the present embodiment, the translated sentence of the input paraphrase sentence is not simply presented. That is, in the present embodiment, among the example sentences stored in the example bilingual translation DB4, n example sentences whose comprehensive evaluation value for the input paraphrase sentence is equal to or more than the reference value are extracted, and the extracted n example sentences are extracted. N similar input paraphrases are extracted. Then, n paraphrase translations obtained by machine-translating the extracted n input paraphrases and n example parallel translations of the extracted n example sentences are presented.
これにより、入力文又はその類似文の翻訳文を生成する際に用いられる知識空間が広範囲に使用され、ユーザにとって有用な翻訳結果を提示できる。 As a result, the knowledge space used when generating a translated sentence of an input sentence or a similar sentence thereof is widely used, and a translation result useful for the user can be presented.
また、本実施の形態は、入力文又はその類似文の翻訳文を高信頼度で生成することを要求していないので、その要求に応えられるような、幅広く豊富な知識データを備える知識空間を用いる必要はない。したがって、本実施の形態は、知識空間を増強させなくとも、ユーザにとって有用な翻訳結果を提示できる。 Further, since the present embodiment does not require that a translated sentence of an input sentence or a similar sentence is generated with high reliability, a knowledge space having a wide range of abundant knowledge data that can meet the request is provided. There is no need to use it. Therefore, this embodiment can present a translation result useful for the user without enhancing the knowledge space.
また、本実施の形態は、抽出された用例文と類似する入力換言文の翻訳文が提示されるので、入力文とは関連性の低い入力換言文の翻訳結果が提示されることを防止できる。 Further, in the present embodiment, since the translated sentence of the input paraphrase sentence similar to the extracted example sentence is presented, it is possible to prevent the translated result of the input paraphrase sentence which is less related to the input sentence is presented. ..
なお、本開示は、以下の態様が採用できる。 The following aspects can be adopted in the present disclosure.
(1)上記実施の形態では、出力部9は、出力画像500に示すような画像を用いて用例対訳及び入力換言文の翻訳結果等を表示したが、本開示はこれに限定されず、出力部9は、出力画像500に含まれる内容を音声で出力してもよい。この場合、出力部9はスピーカで構成される。
(1) In the above embodiment, the
(2)図7に示す出力画像500は、一例であり、本開示では、図7に示すいずれかの項目が出力画像500から省かれてもよい。例えば、翻訳支援情報表示欄530において、参考用例表示欄531が省かれてもよいし、参考翻訳表示欄532が省かれてもよい。
(2) The
(3)図7に示す出力画像500において、全ての翻訳支援情報表示欄520を一度に表示することができない場合、出力部9は、出力画像500をスクロール表示させればよい。これにより、表示装置の表示面積が小さい場合において、全ての翻訳支援情報表示欄520をユーザが閲覧できなくなることを防止できる。
(3) In the
(4)図7に示す出力画像500において、換言抽出文(一以上の第2文)及び換言翻訳文(第5文)は表示されなくてもよい。
(4) In the
本開示は、知識空間を増強することなく、ユーザにとって有用な翻訳文を提示できるので、自動翻訳サービスを提供する技術分野にとって有用である。 This disclosure is useful for the technical field of providing an automatic translation service because it is possible to present a translated sentence useful to the user without enhancing the knowledge space.
A1,A2,A3,A4 指標
B1 入力文
C1,C2,C3 入力換言文
D1,D2,D3,D4,D5 用例文
511 文脈類似語DB
512 共起関係DB
513 含意関係DB
514 上位下位関係DB
1 翻訳支援装置
2 入力部
3 用例一致判定部
4 用例対訳DB
5 換言文生成部
6 抽出部
7 機械翻訳部
8 信頼度付与部
9 出力部
51 換言DB記憶部
52 換言候補生成部
53 換言文識別部
500 出力画像
510 入力文表示欄
520,530,540 翻訳支援情報表示欄
A1, A2, A3, A4 Index B1 Input sentence C1, C2, C3 Input paraphrase sentence D1, D2, D3, D4,
512 Co-occurrence relational database
513 Implications DB
514 Upper-lower relational database
1
5 Paraphrase
Claims (13)
ユーザの端末を介して、翻訳対象である第1言語で記述された第1文を取得し、
前記第1言語で記述された文と第2言語で記述された対訳文との対を複数含んだデータベースに前記第1文が含まれているか判定し、
前記データベースに前記第1文が含まれていないと判定された場合は、前記第1文を構成する一つ以上の単語を所定のルールに基づいて置き換えた複数の第2文を生成し、
前記複数の第2文と前記データベースに含まれている前記第1言語で記述された複数の文との構文の一致度をそれぞれ算出し、
算出された一致度が閾値以上である前記データベースに含まれている前記第1言語で記述された一以上の第3文を抽出し、
前記データベースにおいて、前記一以上の第3文の対訳文である前記第2言語で記述された一以上の第4文を抽出し、
前記複数の第2文のうち一以上の第2文を前記第2言語に機械翻訳して一以上の第5文を生成し、
前記一以上の第4文と前記一以上の第5文との少なくともいずれか一方を、前記第1文の対訳リファレンスとして前記ユーザの端末に表示させる、
方法。 It ’s a way to provide a translation,
Obtain the first sentence written in the first language to be translated via the user's terminal,
It is determined whether or not the first sentence is included in the database containing a plurality of pairs of the sentence described in the first language and the bilingual sentence described in the second language.
When it is determined that the first sentence is not included in the database, a plurality of second sentences in which one or more words constituting the first sentence are replaced based on a predetermined rule are generated.
The degree of syntactic matching between the plurality of second sentences and the plurality of sentences described in the first language included in the database is calculated.
One or more third sentences described in the first language included in the database whose calculated degree of matching is equal to or more than the threshold value are extracted.
In the database, one or more fourth sentences described in the second language, which is a bilingual sentence of the one or more third sentences, are extracted.
One or more of the second sentences of the plurality of second sentences are machine-translated into the second language to generate one or more fifth sentences.
At least one of the one or more fourth sentences and the one or more fifth sentences is displayed on the user's terminal as a parallel translation reference of the first sentence.
Method.
請求項1記載の方法。 The degree of agreement is calculated based on a first index indicating the text similarity between the plurality of second sentences and the plurality of sentences included in the database.
The method according to claim 1.
請求項1又は2に記載の方法。 The degree of coincidence is a sentence having a sentence structure that matches or is similar to the plurality of second sentences among a plurality of sentences included in the database, and a sentence having a smaller text similarity with the first sentence. Calculated based on a second index that shows a large value,
The method according to claim 1 or 2.
請求項1〜3のいずれかに記載の方法。 The degree of agreement is calculated based on a third index indicating the similarity of the sentence structure between the plurality of second sentences and the plurality of sentences included in the database.
The method according to any one of claims 1 to 3.
請求項1〜4のいずれかに記載の方法。 The degree of matching is calculated based on a fourth index showing a larger value as the number of matching parts of speech increases in the plurality of second sentences and the plurality of sentences included in the database.
The method according to any one of claims 1 to 4.
請求項2記載の方法。 The first index shows a larger value as the second sentence has more replacement points.
The method according to claim 2.
請求項1記載の方法。 The one or more second sentences are extracted from the plurality of second sentences based on the text similarity between the plurality of second sentences and the one or more third sentences.
The method according to claim 1.
前記第1換言ルールは、所定の単語と、前記所定の単語と文脈類似関係にある単語とが対応付けられた文脈類語データベースによって規定され、
前記文脈類語データベースを参照し、前記第1単語が登録されている場合、前記文脈類語データベースにおいて前記第1単語と対応付けられた単語を前記第2単語として特定する、
請求項1〜7のいずれかに記載の方法。 The predetermined rule is a first paraphrase rule in which the first word contained in the element piece constituting the first sentence is paraphrased by the second word having a context-like relationship.
The first paraphrase rule is defined by a context synonym database in which a predetermined word is associated with a word having a context-like relationship with the predetermined word.
When the first word is registered by referring to the context synonym database, the word associated with the first word in the context synonym database is specified as the second word.
The method according to any one of claims 1 to 7.
前記第2換言ルールは、所定の単語と、前記所定の単語と共起関係にある単語とが対応付けられた共起関係データベースによって規定され、
前記共起関係データベースを参照し、前記第1単語が登録されている場合、前記共起関係データベースにおいて前記第1単語と対応付けられた単語を前記第2単語として特定する、
請求項1〜8のいずれかに記載の方法。 The predetermined rule is a second paraphrase rule that paraphrases the first word contained in the element piece constituting the first sentence into the second word having a co-occurrence relationship.
The second paraphrase rule is defined by a co-occurrence relational database in which a predetermined word and a word having a co-occurrence relationship with the predetermined word are associated with each other.
When the first word is registered by referring to the co-occurrence relational database, the word associated with the first word in the co-occurrence relational database is specified as the second word.
The method according to any one of claims 1 to 8.
前記第3換言ルールは、所定の単語と、前記所定の単語と含意関係にある単語とが対応付けられた含意関係データベースによって規定され、
前記含意関係データベースを参照し、前記第1単語が登録されている場合、前記含意関係データベースにおいて前記第1単語と対応付けられた単語を前記第2単語として特定する、
請求項1〜9のいずれかに記載の方法。 The predetermined rule is a third paraphrase rule that paraphrases the first word contained in the element piece constituting the first sentence into the second word having an implication relationship.
The third paraphrase rule is defined by an implication relation database in which a predetermined word is associated with a word having an implication relationship with the predetermined word.
When the first word is registered with reference to the implication relation database, the word associated with the first word in the implication relation database is specified as the second word.
The method according to any one of claims 1 to 9.
前記第4換言ルールは、所定の単語と、前記所定の単語と上位下位関係にある単語とが対応付けられた上位下位関係データベースによって規定され、
前記上位下位関係データベースを参照し、前記第1単語が登録されている場合、前記上位下位関係データベースにおいて前記第1単語と対応付けられた単語を前記第2単語として特定する、
請求項1〜10のいずれかに記載の方法。 The predetermined rule is a fourth paraphrase rule that paraphrases the first word contained in the element piece constituting the first sentence into the second word having a higher-lower relationship.
The fourth paraphrase rule is defined by an upper-lower relational database in which a predetermined word is associated with a word having a higher-lower relationship with the predetermined word.
When the first word is registered by referring to the upper-lower relational database, the word associated with the first word in the upper-lower relational database is specified as the second word.
The method according to any one of claims 1 to 10.
第1言語で記述された文と第2言語で記述された対訳文との対を複数含むデータベースと、
ユーザの端末を介して、翻訳対象である第1言語で記述された第1文を取得する入力部と、
前記データベースに前記第1文が含まれていない場合、前記第1文を構成する一つ以上の単語を所定のルールに基づいて置き換えた複数の第2文を生成する換言文生成部と、
前記複数の第2文と前記データベースに含まれている前記第1言語で記述された複数の文との構文の一致度をそれぞれ算出し、前記一致度が閾値以上である前記データベースに含まれている前記第1言語で記述された一以上の第3文を抽出する抽出部と、
前記データベースにおいて、前記一以上の第3文の対訳文である前記第2言語で記述された一以上の第4文を抽出し、前記複数の第2文のうち一以上の第2文を前記第2言語に機械翻訳して一以上の第5文を生成し、前記一以上の第4文と前記一以上の第5文との少なくともいずれか一方を、前記第1文の対訳リファレンスとして前記ユーザの端末に表示させる提示部と
を備える装置。 A device that provides translated text
A database including a plurality of pairs of the described translated sentence in the description sentence and the second language in a first language,
An input unit that acquires the first sentence written in the first language to be translated via the user's terminal, and
When the first sentence is not included in the database, a paraphrase sentence generation unit that generates a plurality of second sentences in which one or more words constituting the first sentence are replaced based on a predetermined rule, and a paraphrase sentence generation unit.
The degree of syntactic matching between the plurality of second sentences and the plurality of sentences described in the first language included in the database is calculated, and the degree of matching is included in the database having a threshold value or more. An extraction unit that extracts one or more third sentences described in the first language,
In the database, one or more fourth sentences described in the second language, which is a bilingual sentence of the one or more third sentences, are extracted, and one or more second sentences out of the plurality of second sentences are described. Machine translation into a second language is performed to generate one or more fifth sentences, and at least one of the one or more fourth sentences and the one or more fifth sentences is used as a parallel translation reference for the first sentence. A device including a presentation unit to be displayed on the user's terminal.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710669428.9A CN107870900B (en) | 2016-09-27 | 2017-08-08 | Method, apparatus and recording medium for providing translated text |
US15/697,491 US10346545B2 (en) | 2016-09-27 | 2017-09-07 | Method, device, and recording medium for providing translated sentence |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016188456 | 2016-09-27 | ||
JP2016188456 | 2016-09-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018055672A JP2018055672A (en) | 2018-04-05 |
JP6934621B2 true JP6934621B2 (en) | 2021-09-15 |
Family
ID=61836807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017102876A Active JP6934621B2 (en) | 2016-09-27 | 2017-05-24 | Methods, equipment, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6934621B2 (en) |
-
2017
- 2017-05-24 JP JP2017102876A patent/JP6934621B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018055672A (en) | 2018-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10198506B2 (en) | System and method of sentiment data generation | |
US9916304B2 (en) | Method of creating translation corpus | |
US8635061B2 (en) | Language identification in multilingual text | |
US10496756B2 (en) | Sentence creation system | |
US10311113B2 (en) | System and method of sentiment data use | |
JP2017509049A (en) | Coherent question answers in search results | |
US8782049B2 (en) | Keyword presenting device | |
JP6404511B2 (en) | Translation support system, translation support method, and translation support program | |
US10402497B2 (en) | Processing method, processing apparatus, and recording medium | |
JP2015022590A (en) | Character input apparatus, character input method, and character input program | |
Moncla et al. | Automated geoparsing of paris street names in 19th century novels | |
US10346545B2 (en) | Method, device, and recording medium for providing translated sentence | |
Das et al. | The 5w structure for sentiment summarization-visualization-tracking | |
JP2012074087A (en) | Document retrieval system, document retrieval program, and document retrieval method | |
JP6934621B2 (en) | Methods, equipment, and programs | |
JP4953440B2 (en) | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program | |
JP6689466B1 (en) | Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program | |
JP6114090B2 (en) | Machine translation apparatus, machine translation method and program | |
JP2005202924A (en) | Translation determination system, method, and program | |
JP2022002034A (en) | Extraction method, extraction program, and extraction device | |
CN111814025A (en) | Viewpoint extraction method and device | |
JP5187187B2 (en) | Experience information search system | |
JP2010191851A (en) | Article feature word extraction device, article feature word extraction method and program | |
US10909154B2 (en) | Search system, search method and search program | |
Thanadechteemapat et al. | Thai word segmentation for visualization of thai web sites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200915 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210225 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210804 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6934621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |