JP5106431B2 - Machine translation apparatus, program and method - Google Patents
Machine translation apparatus, program and method Download PDFInfo
- Publication number
- JP5106431B2 JP5106431B2 JP2009011763A JP2009011763A JP5106431B2 JP 5106431 B2 JP5106431 B2 JP 5106431B2 JP 2009011763 A JP2009011763 A JP 2009011763A JP 2009011763 A JP2009011763 A JP 2009011763A JP 5106431 B2 JP5106431 B2 JP 5106431B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- similarity
- translation
- sentence
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、第一言語を第二言語に翻訳する機械翻訳装置、プログラム及び方法に関する。 The present invention relates to a machine translation apparatus , a program, and a method for translating a first language into a second language.
第一言語を第二言語に翻訳する機械翻訳装置では、第一言語の文と第二言語の文とを対にした翻訳用例を予め対訳データベースに用意しておき、翻訳用例を用いて翻訳する機能を有したものがある。これは、第一言語の文と対訳データベース内の第一言語の文とを比較し、完全一致した場合に、その対訳データベース内の第二言語の例文を出力するものである。 In a machine translation device that translates a first language into a second language, a translation example in which a sentence in the first language and a sentence in the second language are paired is prepared in advance in a bilingual database, and translated using the translation example. Some have a function. This compares the sentence in the first language with the sentence in the first language in the parallel translation database, and outputs an example sentence in the second language in the parallel translation database when there is a complete match.
また、完全一致しない場合においても、ユーザが訳文を生成する上で、高速に再利用可能である例文を出力させるために、単語解析を行わず、文字ベースあるいは単語ベースで類似する度合い(類似度)を算出し、ユーザが指定した類似度以上の近似した例文を出力するといった機能もある。この場合、ユーザは、より再利用することができる例文を出力させるために類似度を高く設定して使用する。また、一方で、どれだけ近似しているかという類似度を算出するために、シソーラス(Thesaurus)を利用して類似度に重み付けを行うというものがある(例えば、特許文献1参照)。 In addition, even when there is no perfect match, in order to output an example sentence that can be reused at high speed when a user generates a translated sentence, word analysis is not performed, and the degree of similarity (similarity) ) Is calculated, and an approximate example sentence that is equal to or higher than the similarity specified by the user is output. In this case, the user sets the similarity high and uses it to output an example sentence that can be reused more. On the other hand, in order to calculate the degree of similarity of how close it is, there is a method of weighting the degree of similarity using a thesaurus (see, for example, Patent Document 1).
しかしながら、特許文献1のものでは、単語解析を行った上、シソーラスを利用するため、高速に近似した例文を出力するということはできない。また、全体の文字数や単語数が少ない場合には、たとえ、不一致の文字数や単語数が少なくても不一致の割合が高くなるので、類似度が低くなってしまう。このことから、類似度が低くてもユーザが利用しやすい用例があるケースがあり、類似度を高く設定してしまうと、このようなケースの例文が出力できなくなってしまう。 However, in Japanese Patent Application Laid-Open No. H10-228867, it is impossible to output an example sentence approximated at high speed because word analysis is performed and a thesaurus is used. Further, when the total number of characters and words is small, even if the number of mismatched characters and words is small, the mismatch rate is high, and the similarity is low. For this reason, there are cases where the user can easily use even if the degree of similarity is low, and if the degree of similarity is set high, example sentences in such a case cannot be output.
本発明の目的は、全体の文字数や単語数が少ない場合であっても、指定された類似度の下限値を内部で自動補正し、指定された類似度が高い場合においてもユーザが利用しやすい翻訳用例を出力できる機械翻訳装置、プログラム及び方法を提供することである。 An object of the present invention is to automatically correct a lower limit value of a designated similarity level internally even when the number of characters and words is small, and it is easy for a user to use even when a designated similarity level is high. A machine translation apparatus , a program, and a method capable of outputting a translation example.
本発明は、記憶装置内に第一言語の例文と第二言語の例文とが対訳で予め翻訳用例として格納された対訳データベースと、入力装置から入力された第一言語の原文及び翻訳用例の類似度条件を読み込む入力処理部と、前記入力処理部で読み込んだ第一言語の原文と前記対訳データベースの第一言語の例文との一致する単語数の割合を第一言語の原文と第一言語の例文との類似度として算出する類似度算出手段と、前記入力装置から入力された第一言語の原文の単語数に基づいて予め前記類似度の補正値が定義され前記記憶装置内に格納された類似度条件補正テーブルと、前記入力処理部で読み込んだ第一言語の原文の単語数及び前記類似度条件補正テーブルの内容を基に類似度条件を補正する類似度条件補正手段と、前記類似度条件補正手段で補正された類似度条件を満たす第一言語の例文及びその対訳の第二言語の例文を前記対訳データベースから検索する対訳データベース検索手段と、前記対訳データベース検索手段で検索された第一言語の例文及びその対訳の第二言語の例文を出力装置に出力する出力処理部とを備えたことを特徴とする。 The present invention includes a bilingual database and example sentences in the first language and the example sentence in the second language is stored in advance as a translation example in translation in the storage device, similar original and translation examples of the first language inputted from the input device An input processing unit that reads the degree condition, and a ratio of the number of matching words between the original text in the first language read by the input processing unit and the first language example sentence in the parallel translation database. Similarity calculation means for calculating the similarity with an example sentence, and a correction value for the similarity is defined in advance based on the number of words in the original text of the first language input from the input device, and stored in the storage device A similarity condition correction table, a similarity condition correction unit that corrects a similarity condition based on the number of words of the original text in the first language read by the input processing unit and the content of the similarity condition correction table, and the similarity Condition correction means A bilingual database search means for searching an example sentence in a first language satisfying the corrected similarity degree and a bilingual example sentence in the parallel translation from the parallel translation database; an example sentence in the first language searched by the bilingual database search means; And an output processing unit that outputs an example sentence in the second language of the parallel translation to an output device.
本発明によれば、全体の文字数や単語数が少ない場合であっても、指定された類似度の下限値を内部で自動補正し、指定された類似度が高い場合においてもユーザが利用しやすい翻訳用例を出力できる。 According to the present invention, even when the total number of characters and words is small, the lower limit value of the specified similarity is automatically corrected internally, and the user can easily use it even when the specified similarity is high. A translation example can be output.
図1は本発明の実施の形態に係る機械翻訳装置の機能ブロック図、図2は本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図である。図2において、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
FIG. 1 is a functional block diagram of a machine translation apparatus according to an embodiment of the present invention, and FIG. 2 is a block configuration diagram showing a hardware configuration of the machine translation apparatus according to the embodiment of the present invention. In FIG. 2, the
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳に関する機械翻訳プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示出力され、また、通信制御装置19を介して通信ネットワークに出力される。表示装置18は、例えばCRTディスプレイやプラズマ・ディスプレイ、液晶ディスプレイ等が使用できる。
The
入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳対象の文書や翻訳に必要な情報を入力する。
The
すなわち、ディスクドライブ23は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置19は機械翻訳装置11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。
That is, the
図1は本発明の実施の形態に係る機械翻訳装置11の機能ブロック図である。図1に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ24の記憶領域に対応する。
FIG. 1 is a functional block diagram of a
機械翻訳装置11の記憶装置25は、入力装置20から入力され入力処理部31で読み込まれた入力データを記憶する入力データ記憶部37と、演算処理に使用する変数を記憶する変数データ記憶部38と、翻訳処理時に用いる各種翻訳知識を収納した翻訳辞書部26と、第一言語の例文と第二言語の例文とが対訳で予め翻訳用例として格納された対訳データベース27と、対訳データベース27に格納された第一言語の例文の単語数に基づいて予め第一言語の原文と第一言語の例文との類似度の補正値が定義された類似度条件補正テーブル28と、第一言語の原文と第一言語の例文とが類似するとして検索された翻訳用例(第一言語の例文及びその対訳の第二言語の例文)を第一言語の原文とともに格納する類似用例リスト29とを有する。
The
また、機械翻訳装置11の演算制御装置12は、装置全体の制御を行う制御部30と、外部との入力のインターフェースを行う入力処理部31と、外部との出力のインターフェースを行う出力処理部32と、入力処理部31を介して読み込まれた入力文書を翻訳するための翻訳部33と、入力装置20から入力され入力処理部31で読み込んだ第一言語の原文と対訳データベースの第一言語の例文との一致する単語数の割合を類似度として計算する類似度算出手段34と、入力装置20から入力され入力処理部31で読み込んだ第一言語の原文の単語数及び類似度条件補正テーブル28の内容を基に類似度条件を補正する類似度条件補正手段35と、類似度条件補正手段35で補正された類似度条件を満たす第一言語の例文及びその対訳の第二言語の例文を対訳データベース27から検索する対訳データベース検索手段36とを有する。ここで、類似度条件は、対訳データベース27から類似した例文を検索するための閾値であり、例えば、類似度を百分率で表した閾値で指定される。
The
辞書部26は、翻訳部33での翻訳処理に必要な各種の知識・情報を収容するもので、語彙部、形態素解析規則、構文・意味解析規則、変換規則、構文生成規則、形態素解析規則などからなる。語彙部は、第一言語の単語・熟語と第二言語の訳語とを対応づけて記録するとともに、両者の品詞情報、活用情報、概念情報などの各種情報を記録している。
The
対訳データベース27は、第一言語の例文と第二言語の例文とを対にして予め翻訳用例として蓄積するものであり、その一例を表1に示す。
表1に示すように、対訳データベース27は、第一言語の例文と第二言語の例文とが対になって構成されている。例えば、対訳データベース27の1番めの第一言語の例文は「This is a pen.」であり、それと対になる第二言語の例文は「これはペンだ。」である。同様に、2番目の第一言語の例文は「Documents should not be removed from the head office premises.」であり、それと対になる第二言語の例文は「書類は、本社の社屋外に持ち出してはならない。」である。以下、同様にn番めの第一言語の例文と第二言語の例文とが対になって構成されている。
As shown in Table 1, the
類似度条件補正テーブル28は、第一言語の原文ないし翻訳用例の文字数や単語数、原文と翻訳用例の文字数、単語数の差などの属性を元に、ユーザによって入力装置20から指定された類似度条件の値を補正するためのデータを格納しているものである。表2に、属性として第一言語の原文の単語数による補正値を定めた場合の類似度条件補正テーブル28の一例を示す。
表2に示すように、第一言語の原文の単語数が「4」である場合には補正値は−20%、第一言語の原文の単語数が「5」である場合には補正値は−15%、第一言語の原文の単語数が「6−9」である場合には補正値は−10%、第一言語の原文の単語数が「10」である場合には補正値は0%、第一言語の原文の単語数が「11−15」である場合は補正値は+10%に定められている。このように、全体の単語数が少ない場合に補正値をマイナスとしているのは、全体の単語数が少ない場合には不一致の文字数や単語数が少なくても不一致の割合が高くなり類似度が低くなってしまうので、全体の単語数が少ない場合には、類似度が低くても例文の検索を可能とするためである。これにより、類似度が低くてもユーザが利用しやすい用例を検索可能となる。 As shown in Table 2, the correction value is −20% when the number of original language words in the first language is “4”, and the correction value when the number of original language words in the first language is “5”. Is −15%, the correction value is −10% when the number of original language words in the first language is “6-9”, and the correction value is when the number of original language words in the first language is “10”. Is 0%, and when the number of words in the original text in the first language is “11-15”, the correction value is set to + 10%. In this way, when the total number of words is small, the correction value is negative. When the total number of words is small, even if the number of mismatched characters or words is small, the mismatch rate is high and the similarity is low. Therefore, when the total number of words is small, it is possible to search for example sentences even if the degree of similarity is low. Thereby, even if the similarity is low, it is possible to search for an example that can be easily used by the user.
表2では、第一言語の原文の単語数に応じて補正値を定めるにあたり、補正値を百分率の割合で定め、ユーザによって指定された類似度条件に加減算して補正された類似度条件を求める。これに対し、表3に示すように、補正値を補正係数で定め、ユーザによって指定された類似度条件に補正値を乗算して補正された類似度条件を求めるようにしてもよい。表3に、属性として第一言語の原文の単語数による補正値を定めた場合の類似度条件補正テーブル28の他の一例を示す。
表3に示すように、第一言語の原文の単語数が「4」である場合には補正値は0.8、第一言語の原文の単語数が「5」である場合には補正値は0.9、第一言語の原文の単語数が「6−9」である場合には補正値は0.95、第一言語の原文の単語数が「10」である場合には補正値は1、第一言語の原文の単語数が「11−15」である場合は補正値は1.1に定められている。このように、全体の単語数が少ない場合に類似度条件が小さくなる補正値としているのは、全体の単語数が少ない場合であってもユーザが利用しやすい用例を検索可能とするためである。 As shown in Table 3, the correction value is 0.8 when the number of original language words in the first language is “4”, and the correction value when the number of original language words in the first language is “5”. Is 0.9, the correction value is 0.95 when the number of original language words in the first language is “6-9”, and the correction value is when the number of original language words in the first language is “10”. If the number of words in the original text in the first language is “11-15”, the correction value is set to 1.1. Thus, the reason why the similarity value is set to be small when the total number of words is small is to make it possible to search for an example that is easy for the user to use even when the total number of words is small. .
また、表4に示すように、第一言語の原文の単語数と対訳データベース28の第一言語の例文との単語数の差分に応じて補正値を定めるようにしてもよい。
表4に示すように、第一言語の原文と第一言語の例文との単語数の差分が「0」である場合には補正値は0%、第一言語の原文と第一言語の例文との単語数の差分が「1」である場合には補正値は−5%、第一言語の原文と第一言語の例文との単語数の差分が「2」である場合には補正値は−10%、第一言語の原文と第一言語の例文との単語数の差分が「3」である場合には補正値は−15%、第一言語の原文と第一言語の例文との単語数の差分が「4」である場合には補正値は−20%に定められている。 As shown in Table 4, when the difference in the number of words between the first language original sentence and the first language example sentence is “0”, the correction value is 0%, the first language original sentence and the first language example sentence. The correction value is −5% when the difference in the number of words is “1”, and the correction value when the difference in the number of words between the original text in the first language and the example sentence in the first language is “2”. Is −10%, and if the difference in the number of words between the first language original sentence and the first language example sentence is “3”, the correction value is −15%, and the first language original sentence and the first language example sentence When the difference in the number of words is “4”, the correction value is set to −20%.
このように、第一言語の原文と第一言語の例文との単語数の差分が大きい場合に類似度条件が小さくなる補正値としているのは、単語数の差分によって類似度が下がるのを防止するためである。例えば、第一言語の原文が「This is a heavy book.」である場合、対訳データベースの第一言語の例文「This is a pen.」と単語ベースで比較すると、比較する文同士の単語数が異なるため、必ず1単語分の差分が生じてしまうが、この場合の対訳データベースの第一言語の例文「This is a pen.」も検索できるようにするためである。 In this way, when the difference in the number of words between the original text in the first language and the example sentence in the first language is large, the similarity value is set to a correction value that reduces the similarity due to the difference in the number of words. It is to do. For example, if the original text in the first language is “This is a heavy book.”, The number of words in the sentences to be compared is compared with the first language example sentence “This is a pen.” This is because a difference for one word is always generated because of differences, but in this case, the example sentence “This is a pen.” In the first language of the parallel translation database can also be searched.
類似用例リスト29は、対訳データベース検索手段36によって、検索された翻訳用例(第一言語の例文及びその対訳の第二言語の例文)を第一言語の原文とともに格納しておくものである。すなわち、類似度条件補正手段35で補正された類似度条件に合致した翻訳用例を検索し、検索された翻訳用例を第一言語の原文とともに格納しておくものである。例えば、第一言語の原文「This is a book.」に対して、表1の1番めの翻訳用例が検索されたときは、第一言語の例文「This is a pen.」と第二言語の例文「これはペンだ。」とともに第一言語の原文「This is a book.」も類似用例リスト29に保存する。
The
次に、入力処理部31は、入力装置20であるインターネットなどの通信制御装置19やキーボード22等を通じて、翻訳対象の第一言語の原文、対訳データベース27に格納された翻訳用例の中から類似の翻訳用例を検索するための類似度条件、その他の各種のコマンドを受け取り入力処理するものである。入力処理部31で読み込まれた入力データ、第一言語の原文や類似度条件は入力データ記憶部37に記憶される。
Next, the
出力処理部32は、制御部30への各種命令に対する制御部30からの応答を出力装置17に出力するものであり、例えば、翻訳部33での翻訳結果や対訳データベース検索手段36で検索された第一言語の例文及びその対訳の第二言語の例文を表示装置18に表示出力する。
The
制御部30は、装置全体の動きを制御するものであり、例えば、入力処理部31で読み込んだ翻訳対象の第一言語の原文の文章データや類似度条件を入力データ記憶部37から取り出し、翻訳部33、類似度算出手段34、類似度条件補正手段35に送ったり、翻訳部33での翻訳結果や対訳データベース検索手段36の検索結果を出力処理部32に送るなどの全体の制御を司るものである。
The
翻訳部33は、制御部30から送られてきた第一言語の原文による文章データに対して、辞書部26に格納された辞書等を参照しながら翻訳処理を行うものである。
The
類似度算出手段34は、入力処理部31で読み込んだ第一言語の原文と対訳データベース27の第一言語の例文との一致する単語数の割合を類似度として計算し、完全一致した例文(類似度100%の例文)の対訳文を訳文として制御部30へ返したり、完全一致しない例文に対し、辞書部26のデータを用いて単語解析を行って一致する単語数の割合を類似度として計算する。
The similarity calculation means 34 calculates the ratio of the number of matching words between the original text in the first language read by the
類似度条件補正手段35は、入力処理部31で読み込んだ第一言語の原文の単語数及び類似度条件補正テーブル28の内容を基に類似度条件を補正するものである。そして、対訳データベース検索手段36は、類似度条件補正手段35で補正された類似度条件を満たす第一言語の例文及びその対訳の第二言語の例文を対訳データベース27から検索し、検索結果ともに第一言語の原文を類似用例リスト29に保存するものである。
The similarity
次に、本発明の実施の形態に係る機械翻訳装置の動作について説明する。図3は本発明の実施の形態に係る機械翻訳装置の動作を示すフローチャートである。実際の流れを分かりやすくするために、第一言語を英語、第二言語を日本語として説明する。また、類似度条件補正テーブル28の補正値は表2に示すものである場合について説明する。 Next, the operation of the machine translation apparatus according to the embodiment of the present invention will be described. FIG. 3 is a flowchart showing the operation of the machine translation apparatus according to the embodiment of the present invention. To make the actual flow easier to understand, the first language is explained as English and the second language is explained as Japanese. The case where the correction values in the similarity condition correction table 28 are those shown in Table 2 will be described.
まず、ユーザは、入力装置20より翻訳対象の第一言語の原文及び類似度条件を入力する(S1)。類似度条件は、前述したように、対訳データベース27から類似した例文を検索するための閾値であり、例えば、類似度を百分率で表した閾値で指定される。いま、入力された第一言語の原文は「This is a book.」であるとし、類似度条件は80%であるとする。
First, the user inputs the original text of the first language to be translated and the similarity condition from the input device 20 (S1). As described above, the similarity condition is a threshold for searching for similar example sentences from the
入力装置20から、第一言語の原文「This is a book.」及び類似度条件80%が入力されると、入力処理部31は、入力された第一言語の原文「This is a book.」及び類似度条件80%を制御部30に渡す。制御部30では、入力処理部31から受け取った第一言語の原文「This is a book.」及び類似度条件80%を入力データ記憶部に37に記憶し、入力データ記憶部に37に記憶した第一言語の原文「This is a book.」及び類似度条件80%を類似度算出手段34及び類似度条件補正手段35に渡す。
When the original text “This is a book.” And the similarity condition 80% are input from the
類似度算出手段34は、入力された第一言語の原文「This is a book.」及び類似度条件80%を受け取り、類似度条件80%を変数simに代入する(S2)。変数simは類似度算出手段34により制御部30を介して変数データ記憶部38に記憶される。また、類似度算出手段34は、対訳データベース27のインデックス変数nを1に初期化し(S3)、対訳データベース27を検索してn番め(1番め)の第一言語の例文「This is a pen.」を取得する(S4)。インデックス変数nは類似度算出手段34により制御部30を介して変数データ記憶部38に記憶される。
The similarity calculation means 34 receives the input original sentence “This is a book.” And the similarity condition 80% in the first language, and substitutes the similarity condition 80% into the variable sim (S2). The variable sim is stored in the variable
類似度算出手段34は2つの文(第一言語の原文「This is a book.」と第一言語の例文「This is a pen.」)の比較を行い、類似度を算出する(S5)。類似度の算出方法においては、文字数の比較や単語数の比較、句数の比較や単語の品詞の比較による類似度の重み付けなどどのような方法をとってもよい。本発明の実施の形態においては、類似度算出手段34においては、単語数の比較で類似度を算出することとする。第一言語の原文「This is a book.」と第一言語の例文「This is a pen.」との差分は、「pen」と「book」だけであり、4単語中3単語一致となるので、類似度算出手段34は類似度は75%であると算出する。そして、類似度算出手段34は、算出した類似度を変数ruijiに代入する(S6)。変数ruijiは類似度算出手段34により制御部30を介して変数データ記憶部38に記憶される。
The similarity calculation means 34 compares two sentences (the original text “This is a book.” In the first language and the example sentence “This is a pen.” In the first language), and calculates the similarity (S5). As a method of calculating similarity, any method such as comparison of the number of characters, comparison of the number of words, comparison of the number of phrases, comparison of parts of speech of words, and the like may be used. In the embodiment of the present invention, the
次に、類似度条件補正手段35は第一言語の原文「This is a book.」の単語数をカウントし(S7)、変数wordへ単語数「4」を代入する(S8)。変数wordは類似度条件補正手段35により制御部30を介して変数データ記憶部38に記憶される。単語数については、ただ単にスペースで区切ってカウントしてもいいし、辞書部26のデータを用いて、辞書登録されている単位でカウントしてもよい。
Next, the similarity condition correction means 35 counts the number of words in the original text “This is a book.” In the first language (S7), and substitutes the number of words “4” into the variable word (S8). The variable word is stored in the variable
その後、類似度条件補正手段35は、変数データ記憶部38から変数wordを取り出し、表2の類似度条件補正テーブル28から、変数wordと同じ値である「4」に対する補正値 「−20%」を取得し(S9)、その補正値を変数hoseiに代入する(S10)。変数hoseiは類似度条件補正手段35により制御部30を介して変数データ記憶部38に記憶される。そして、類似度条件補正手段35は、変数データ記憶部38から変数hoseiを取り出し、その変数hoseiを用いて(sim=sim+hosei)により変数simの補正を行う(S11)。補正した変数simは類似度条件補正手段35により制御部30を介して変数データ記憶部38に更新記憶される。
Thereafter, the similarity condition correction means 35 extracts the variable word from the variable
すなわち、類似度条件補正手段35は、変数データ記憶部38から変数sim及び変数hoseiを取り出す。変数hoseiには−20%、変数simには80%という値が入っているため、補正後の変数simは、80%−20%で60%となり、補正後の類似度条件は60%となる。この補正後の変数simは類似度条件補正手段35により制御部30を介して変数データ記憶部38に更新記憶される。
That is, the similarity
また、表2の類似度条件補正テーブル28に代えて、表3の類似度条件補正テーブル28を使用した場合は、変数hoseiには×0.8が取得され、補正後のsimは、80%×0.8で64%となり、補正後の類似度条件は64%となる。 When the similarity condition correction table 28 of Table 3 is used instead of the similarity condition correction table 28 of Table 2, x0.8 is acquired for the variable hosei, and the corrected sim is 80%. × 0.8 is 64%, and the similarity condition after correction is 64%.
対訳データベース検索手段36は、類似度算出手段34によって算出された類似度と、類似度条件補正手段35により補正された類似度条件(ステップS11で得られた変数sim)の値とを比較し(S12)、類似度算出手段34によって算出された類似度が補正された類似度条件(ステップS11で得られた変数sim)よりも大きい場合は、n番め(1番め)の第一言語の例文及び第二言語の例文を類似例文リスト29に格納する(S13)。一方、類似度算出手段34によって算出された類似度が補正された類似度条件(ステップS11で得られた変数sim)以下である場合は、対訳データベース検索手段36は、n番め(1番め)の第一言語の例文及び第二言語の例文を類似例文リスト29に格納しない。本発明の実施の形態の場合は、類似度算出手段34によって算出された類似度は75%であり、補正された類似度条件は60%であるので、類似例文リスト29に格納される。
The parallel database search means 36 compares the similarity calculated by the similarity calculation means 34 with the value of the similarity condition (variable sim obtained in step S11) corrected by the similarity condition correction means 35 ( S12) If the similarity calculated by the similarity calculation means 34 is greater than the corrected similarity condition (variable sim obtained in step S11), the nth (first) first language The example sentence and the example sentence in the second language are stored in the similar example sentence list 29 (S13). On the other hand, if the similarity calculated by the similarity calculation means 34 is equal to or less than the corrected similarity condition (variable sim obtained in step S11), the parallel translation database search means 36 is nth (first). ) Are not stored in the similar
その後、対訳データベース検索手段36は、n番め(1番め)の第一言語の例文は最後かどうかを判定し(S14)、最後でないときは、変数simを初期値の80%に戻し(S15)、対訳データベース27のインデックス変数nを加算し(S16)、ステップS4に戻る。
Thereafter, the bilingual database search means 36 determines whether the nth (first) example sentence in the first language is the last (S14), and if not, returns the variable sim to 80% of the initial value ( S15), the index variable n of the
これにより、類似度算出手段34は、対訳データベース27の2番め(n=2)の第一言語の例文「Documents should not be removed from the head office premises.」を取得し、対訳データベース27の第一言語の例文「This is a book.」と比較を行い、類似度を算出する(S5)。第一言語の例文「Documents should not be removed from the head office premises.」は、10単語中いづれの単語も第一言語の例文「This is a book.」に一致しないため、0%の類似度が算出される。そして、類似度算出手段34は、算出した類似度0%を変数ruijiに代入する(S6)。
As a result, the
次に、類似度条件補正手段35は第一言語の原文「Documents should not be removed from the head office premises.」の単語数をカウントし(S7)、変数wordへ単語数「10」を代入する(S8)。その後、類似度条件補正手段35は、表2の類似度条件補正テーブル28から、変数wordの値である「10」に対する補正値 「0%」を取得し(S9)、その補正値を変数hoseiに代入する(S10)。そして、類似度条件補正手段35は、変数hoseiを用いて(sim=sim+hosei)により変数simの補正を行う(S11)。その結果、補正後の類似度条件である変数simは80%である。
Next, the similarity condition correction means 35 counts the number of words in the original document “Documents should not be removed from the head office premises” in the first language (S7), and substitutes the number of words “10” into the variable word ( S8). Thereafter, the similarity condition correction means 35 acquires the correction value “0%” for the value “10” of the variable word from the similarity condition correction table 28 of Table 2 (S9), and uses the correction value as the variable hosei. (S10). Then, the similarity
この場合、類似度算出手段34によって算出された類似度は0%であり、類似度条件補正手段35により補正された類似度条件(ステップS11で得られた変数sim)の値は80%であり、対訳データベース検索手段36は、類似度算出手段34によって算出された類似度が補正された類似度条件よりも小さいので(S12)、n番め(2番め)の第一言語の例文及び第二言語の例文を類似例文リスト29に格納しない(S13)。
In this case, the similarity calculated by the
そして、n番めの第一言語の例文が最後になるまで、ステップS4〜ステップS16の処理を繰り返し行う。これにより、最終的に作成された類似例文リスト29の内容を対訳データベース検索手段36が制御部30へ返し、制御部30は類似例文リスト29の内容を出力する(S17)。すなわち、制御部30は出力処理部32にて出力装置17の例えば表示装置18に類似例文リスト29の内容を表示出力する。その結果、ユーザが80%の類似度条件の指定を行った場合においても、1文字差分で75%になるような短い例文も、翻訳用例として出力することができる。
Then, the processes in steps S4 to S16 are repeated until the nth first language example sentence is the last. As a result, the content of the similar
ここで、類似度算出手段34によって、類似度を算出する際に、入力された原文が「This is a heavy book.」である場合、対訳データベースの第一言語の例文「This is a pen.」と単語ベースで比較すると、比較する文同士の単語数が異なるため、必ず1単語分の差分が生じてしまう。そのため、比較する文同士の単語数が異なるような場合は、表4の類似度条件補正テーブル28に示すように、第一言語の原文の単語数と対訳データベース28の第一言語の例文との単語数の差分に応じて補正値を定め、この類似度条件補正テーブル28により、さらに類似度条件を補正する。 Here, when the similarity is calculated by the similarity calculation means 34, if the input original is “This is a heavy book.”, The example sentence “This is a pen.” In the first language of the parallel translation database. Compared on a word basis, the number of words in the sentences to be compared is different, so a difference for one word is always generated. Therefore, when the number of words in the sentences to be compared is different, as shown in the similarity condition correction table 28 in Table 4, the number of words in the first language and the first language example sentence in the parallel translation database 28 A correction value is determined according to the difference in the number of words, and the similarity condition is further corrected by the similarity condition correction table 28.
なお、本発明の実施の形態の表1乃至表4に示した類似度条件補正テーブル28の定義内容は一例であって、レベル分けの階層数や数値は自由に設定して実施できる。また、単語数について説明したが、その他の属性である文字数や句数などに基づいて、類似度の補正値をもめることも可能である。さらに、レベル分けされた属性値(単語数、文字数、句数など)によって類似度の補正値を変動させず、一律の補正率を定義するものでもよい。 The definition content of the similarity condition correction table 28 shown in Tables 1 to 4 of the embodiment of the present invention is an example, and the number of levels and numerical values for level division can be freely set and implemented. Further, although the number of words has been described, it is also possible to obtain a similarity correction value based on other attributes such as the number of characters and the number of phrases. Furthermore, a uniform correction factor may be defined without changing the similarity correction value according to attribute values (number of words, number of characters, number of phrases, etc.) divided into levels.
また、以上の説明では、ステップS4にて対訳データベース27より第一言語の例文が得られてから、ステップS5に移行して類似度の算出と類似度の補正とを行っているが、対訳データベース27の検索前に、原文の属性(単語数、文字数、句数など)のみ、あるいは対訳データベース27中に蓄積されている第一言語の例文の属性の平均値などと組み合わせて予め類似度条件を補正し、補正された類似度条件とともに対訳データベース27に対する用例の検索を行うことも有効である。この場合、類似度条件を使って検索範囲を限定する(検索範囲の枝がりをする)ことができるため、検索速度の向上の効果も得られる。
In the above description, the first language example sentence is obtained from the
本発明の実施の形態によれば、類似度の補正を定義した類似度条件補正テーブル28と、類似度条件補正テーブル28の内容を基に第一言語の原文ないし翻訳用例の属性に応じて類似度条件を補正する類似度条件補正手段35とを設けたので、第一言語の原文、翻訳用例の状況に応じて指定された類似度を調整することができ、類似翻訳用例の出力の可否を制御することができる。すなわち、属性として第一言語の原文の単語数、文字数、句数による補正値を定めるので、全体の単語数、文字数、句数が少ない場合であってもユーザが利用しやすい用例を検索できる。これにより、1文字差分で指定された類似度に満たないような短い例文も出力することができる。 According to the embodiment of the present invention, the similarity condition correction table 28 in which the correction of the similarity degree is defined, and the contents of the similarity condition correction table 28 are similar based on the original language of the first language or the attribute of the translation example. Since the similarity condition correction means 35 for correcting the degree condition is provided, it is possible to adjust the degree of similarity designated according to the original text of the first language and the situation of the translation example, and whether or not the output of the similar translation example can be determined. Can be controlled. That is, since the correction value is determined as the attribute based on the number of words, characters, and phrases of the original text in the first language, it is possible to search for an example that can be easily used by the user even when the total number of words, characters, and phrases is small. As a result, it is possible to output a short example sentence that does not satisfy the similarity specified by the one-character difference.
また、第一言語の原文ないし翻訳用例の属性を第一言語の原文と翻訳用例の文字数、単語数、句数の差分とすることで、第一言語の原文と翻訳用例の文字数、単語数、句数に差がある場合でも、その差に左右されず類似している翻訳用例の例文を出力することができる。 In addition, the attribute of the original text or translation example in the first language is the difference between the number of characters, the number of words, the number of phrases in the original text in the first language and the translation example, the number of characters, the number of words in the original text in the first language and the translation example, Even when there is a difference in the number of phrases, it is possible to output similar example sentences for translation regardless of the difference.
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ、25…記憶装置、26…辞書部、27…対訳データベース、28…類似度条件補正テーブル、29…類似用例リスト、30…制御部、31…入力処理部、32…出力処理部、33…翻訳部、34…類似度算出手段、35…類似度条件補正手段、36…対訳データベース検索手段、37…入力データ記憶部、38…変数データ記憶部
DESCRIPTION OF
Claims (5)
2. The machine translation device according to claim 1, wherein, instead of the number of words in the original text in the first language, a difference in the number of words, a difference in the number of characters, or a difference in the number of phrases between the example sentence in the first language and the original text. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009011763A JP5106431B2 (en) | 2009-01-22 | 2009-01-22 | Machine translation apparatus, program and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009011763A JP5106431B2 (en) | 2009-01-22 | 2009-01-22 | Machine translation apparatus, program and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010170303A JP2010170303A (en) | 2010-08-05 |
JP5106431B2 true JP5106431B2 (en) | 2012-12-26 |
Family
ID=42702402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009011763A Active JP5106431B2 (en) | 2009-01-22 | 2009-01-22 | Machine translation apparatus, program and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5106431B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014147674A1 (en) * | 2013-03-22 | 2014-09-25 | パナソニック株式会社 | Advertisement translation device, advertisement display device and advertisement translation method |
JP5449633B1 (en) | 2013-03-22 | 2014-03-19 | パナソニック株式会社 | Advertisement translation device, advertisement display device, and advertisement translation method |
CN113377276A (en) * | 2021-05-19 | 2021-09-10 | 深圳云译科技有限公司 | System, method and device for quick recording and translation, electronic equipment and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3831357B2 (en) * | 2003-04-16 | 2006-10-11 | 株式会社東芝 | Parallel translation information creation device and parallel translation information search device |
JP4446749B2 (en) * | 2004-01-13 | 2010-04-07 | 沖電気工業株式会社 | Document correspondence inspection device, translation processing device, document correspondence inspection method, translation processing method, and document correspondence inspection program |
-
2009
- 2009-01-22 JP JP2009011763A patent/JP5106431B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010170303A (en) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9367541B1 (en) | Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms | |
US10303761B2 (en) | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated | |
US5895446A (en) | Pattern-based translation method and system | |
US10496756B2 (en) | Sentence creation system | |
US20150199339A1 (en) | Semantic refining of cross-lingual information retrieval results | |
KR101573854B1 (en) | Method and system for statistical context-sensitive spelling correction using probability estimation based on relational words | |
JP6955963B2 (en) | Search device, similarity calculation method, and program | |
KR20070088687A (en) | System and method for automatic enrichment of documents | |
JP6817556B2 (en) | Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system | |
JP6260294B2 (en) | Information search device, information search method, and information search program | |
CN110678868B (en) | Translation support system, translation support apparatus, translation support method, and computer-readable medium | |
Siklósi et al. | Context-aware correction of spelling errors in Hungarian medical documents | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
JP2944346B2 (en) | Document summarization device | |
US9547645B2 (en) | Machine translation apparatus, translation method, and translation system | |
CN110889292B (en) | Text data viewpoint abstract generating method and system based on sentence meaning structure model | |
JP5106431B2 (en) | Machine translation apparatus, program and method | |
WO2022227166A1 (en) | Word replacement method and apparatus, electronic device, and storage medium | |
CN113743090A (en) | Keyword extraction method and device | |
JP2018072979A (en) | Parallel translation sentence extraction device, parallel translation sentence extraction method and program | |
KR102519955B1 (en) | Apparatus and method for extracting of topic keyword | |
JP2006004366A (en) | Machine translation system and computer program for it | |
JP2003108571A (en) | Document summary device, control method of document summary device, control program of document summary device and recording medium | |
JP4314271B2 (en) | Inter-word relevance calculation device, inter-word relevance calculation method, inter-word relevance calculation program, and recording medium recording the program | |
CN113435188B (en) | Semantic similarity-based allergic text sample generation method and device and related equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111004 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120529 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5106431 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151012 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |