JP6687944B2 - 自動翻訳システム、自動翻訳方法、およびプログラム - Google Patents

自動翻訳システム、自動翻訳方法、およびプログラム Download PDF

Info

Publication number
JP6687944B2
JP6687944B2 JP2016151948A JP2016151948A JP6687944B2 JP 6687944 B2 JP6687944 B2 JP 6687944B2 JP 2016151948 A JP2016151948 A JP 2016151948A JP 2016151948 A JP2016151948 A JP 2016151948A JP 6687944 B2 JP6687944 B2 JP 6687944B2
Authority
JP
Japan
Prior art keywords
data
translation
text data
machine
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016151948A
Other languages
English (en)
Other versions
JP2018022269A (ja
Inventor
将夫 内山
将夫 内山
山内 真樹
真樹 山内
富士 秀
秀 富士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2016151948A priority Critical patent/JP6687944B2/ja
Publication of JP2018022269A publication Critical patent/JP2018022269A/ja
Application granted granted Critical
Publication of JP6687944B2 publication Critical patent/JP6687944B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、第1言語を第2言語に翻訳するための自動翻訳技術に関し、特に自動翻訳を実行するとともに、自動翻訳結果についての評価データをも取得する技術に関する。
近年、コンピュータ、ネットワーク技術を用いて、第1言語の文(原文)を第2言語の文(翻訳文)に翻訳する自動翻訳技術が開発されている。このような技術として、例えば第1言語と第2言語との対訳データを多量に保持した対訳データベースを用いて統計的自動翻訳を行う技術が知られている。
このような自動翻訳技術において、自動翻訳の翻訳結果の精度を把握することが重要であるため、自動翻訳の翻訳結果が正確であるか否かを示す信頼度を測定する技術も種々開発されている。
例えば特許文献1には、第1言語の文(原文)を機械翻訳した機械翻訳文と、当該機械翻訳文を逆翻訳した逆翻訳文との類似度を取得し、取得した類似度に基づいて機械翻訳文を修正した翻訳文を出力する技術についての開示がある。
特開2014−78132号公報
しかしながら特許文献1の技術では、翻訳された言語についての知識を有さないユーザは、特許文献1の技術により出力される翻訳文の評価を正しくできない場合がある。
特許文献1の技術では、原文(例えば、日本語の文)と、機械翻訳文(例えば、英語の文)との類似度に基づいて最終的に出力する翻訳文を取得するので、例えば以下の(1)、(2)の場合、適切な翻訳文を取得できない場合がある。
(1)原文(入力文)と逆翻訳文とが同じであっても(類似度が高い場合であっても)、翻訳文が間違っている場合
例えば特許文献1の技術では原文(入力文)として、「彼らはその議題について議論する。」を入力した場合、以下のような機械翻訳文、逆翻訳文が取得される可能性がある。
(原文):彼らはその議題について議論する。
(機械翻訳文):They discuss about the agenda.
(逆翻訳文):彼らはその議題について議論する。
上記の場合、特許文献1の技術では原文と逆翻訳文とは、完全一致するため、類似度は非常に高いと判定され、上記の機械翻訳文が修正されることなく最終出力される。
しかしながら、動詞「discuss」は他動詞で、「〜について議論する」という意味なので、前置詞「about」を挿入した上記機械翻訳文は文法誤りを含む英文となる。
つまり上記の場合、特許文献1の技術では正しい翻訳文を取得することができない。
(2)原文(入力文)と逆翻訳文とが異なっていても(類似度が低い場合であっても)、翻訳文が正しい場合
例えば特許文献1の技術では、原文(入力文)として、「算術計算として加減乗除がある。」を入力した場合、以下のような機械翻訳文、逆翻訳文が取得される可能性がある。
(原文):算術計算として加減乗除がある。
(機械翻訳文):Arithmetic operations include addition, subtraction, multiplication, and division.
(逆翻訳文):算術計算は、加算、減算、乗算、および割り算を含む。
上記の場合、特許文献1の技術では原文と逆翻訳文とはかなり異なるため、類似度は低いと判定され、正しい翻訳であるにも拘らず上記の機械翻訳文が修正され、最終出力される可能性がある。
上記機械翻訳文は、無生物主語を使用し、「例えば、〜がある」に相当する動詞「include」を用いたSVO文型の英文であり、自然な英語である。しかし日本語では、無生物主語構文が基本的に存在しないため、上記機械翻訳文を逆翻訳した場合、不自然な日本語になる可能性が高い。そして特許文献1の技術では原文と逆翻訳文との類似度が低いと判定し、自然な英語である上記機械翻訳文を改悪した修正翻訳文が最終的に出力される可能性が高い。
このように特許文献1の技術では、翻訳された言語についての知識を有しないユーザが、特許文献1の技術を用いる場合、特許文献1の技術により出力される翻訳文の評価を正しくできない場合がある。つまり特許文献1の技術は、翻訳された言語についての知識を有さないユーザが当該技術を使用する場合、自動翻訳結果の評価を適切に行うことができないという問題がある。
そこで本発明は、上記問題点に鑑み、翻訳された言語についての知識を有さないユーザであっても、自動翻訳結果の評価を適切に行うことができる自動翻訳システム、自動翻訳方法、およびプログラムを実現することを目的とする。
上記課題を解決するために第1の発明は、データ入力部と、機械翻訳部と、対訳コーパスデータ格納部と、対訳コーパス制御部と、出力制御部と、を備える自動翻訳システムである。
データ入力部は、原文データ、属性データ、および評価データを入力するため機能部である。
機械翻訳部は、データ入力部に入力された原文データである入力原文データに対して機械翻訳処理を行うことで、機械翻訳文データを取得する。
対訳コーパスデータ格納部は、原文データ、機械翻訳文データ、属性データ、および機械翻訳文データの評価値を含むレコードを格納する。
対訳コーパス制御部は、
(1)入力原文データと一致又は類似する原文データを含み、かつ、
(2)機械翻訳部により取得された機械翻訳文と一致又は類似する機械翻訳文データを含み、かつ、
(3)データ入力部に入力された属性データと一致又は類似する属性データを含む、
レコードを、対訳コーパスデータ格納部に格納されているデータから検索し、レコードが検索された場合、(1)入力原文データと、(2)機械翻訳部により取得された機械翻訳文と、(3)データ入力部に入力された属性データと、(4)レコードに含まれる機械翻訳文データの評価値とを含むデータ、を出力用データとして取得する。
出力制御部は、対訳コーパス制御部により取得された出力用データを出力する。
この自動翻訳システムでは対訳コーパス制御部が、(1)原文データが一致(または類似)し、かつ、(2)機械翻訳文データが一致(または類似)し、かつ、(3)属性データが一致するレコードを、対訳コーパスデータ格納部から検索し、当該3つの検索条件を満たすレコードを、当該レコードの評価値ともに出力する。これによりユーザが、この自動翻訳システムにより提示された評価値(自動翻訳文データの評価値)を確認することができる。
したがって翻訳先の言語を理解できないユーザであっても、この自動翻訳システムにより提示された評価値(自動翻訳文データの評価値)により、機械翻訳文データの精度を適切に判断することができる。
第2の発明は、第1の発明であって、対訳コーパスデータ格納部に格納されているレコードを用いて機械学習を行い、原文データおよび機械翻訳文データと、機械翻訳文データの評価値とをマッピングすることでマッピングデータを取得し、取得したマッピングデータに基づいて、原文データと、機械翻訳文データとが入力された場合、入力された原文データと、機械翻訳文データとに基づいて、自動評価値を取得する機械学習部をさらに備える。
そして対訳コーパス制御部により、
(1)入力原文データと一致又は類似する原文データを含み、かつ、
(2)機械翻訳部により取得された機械翻訳文と一致又は類似する機械翻訳文データを含み、かつ、
(3)データ入力部に入力された属性データと一致又は類似する属性データを含む、
レコードを、対訳コーパスデータ格納部に格納されているデータから検索できなかった場合、またはレコードに機械翻訳文データの評価値が含まれない場合、
対訳コーパス制御部は、入力原文データと、機械翻訳部により取得された機械翻訳文データと、を出力制御部に出力する。
また上記の場合、機械学習部は、入力原文データと、機械翻訳部により取得された機械翻訳文データとに基づいて自動評価値を取得し、出力制御部は、(1)入力原文データと、(2)機械翻訳部により取得された機械翻訳文データと、(3)機械学習部により取得された自動評価値を出力する。
この自動翻訳システムでは、対訳コーパス制御部が、(1)原文データが一致(または類似)し、かつ、(2)機械翻訳文データが一致(または類似)し、かつ、(3)属性データが一致するレコードを、対訳コーパスデータ格納部から検索できなかった場合(検索ヒットなしの場合)であっても、機械学習部により取得された自動評価値を出力し、ユーザに提示することができる。
そしてユーザは、この自動翻訳システムにより提示された自動評価値により、機械翻訳文データの精度を判断することができる。
このようにこの自動翻訳システムでは、(1)原文データが一致(または類似)し、かつ、(2)機械翻訳文データが一致(または類似)し、かつ、(3)属性データが一致するレコード(データ)が存在しない場合であっても、自動評価値により翻訳先言語を理解できないユーザでも機械翻訳文データの精度を判断することができる。
またこの自動翻訳システムでは、機械翻訳文データの評価値が存在するレコードを取得できなかった場合であっても、自動評価値が出力される(ユーザに提示される)。これにより翻訳先言語を理解できないユーザでも、この自動翻訳システムにより出力される機械翻訳文データの精度を適切に判断することができる。
第3の発明は、第2の発明であって、機械学習部により取得された自動評価値に基づいて優先度を取得する優先度取得部であって、自動評価値が機械翻訳文データの評価が低いことを示す値である程、優先度を高い値に設定する優先度取得部をさらに備える。
これによりこの自動翻訳システムでは、自動評価値に基づいて原文データの人手翻訳の必要性の指標となる優先度を取得することができる。
第4の発明は、第3の発明であって、人手による翻訳を依頼する外部協力者の通信端末装置と通信するため外部インターフェースと、人手翻訳対象データ取得部と、を備える。
人手翻訳対象データ取得部は、外部協力者に対して翻訳を依頼する対象データである人手翻訳対象データを取得する。
人手翻訳対象データ取得部は、優先度取得部により設定された優先度に基づいて優先度が高い原文データを含む人手翻訳対象データから、順番に人手翻訳されるように外部インターフェースを介して人手翻訳対象データを外部協力者の通信端末装置に送信する。
これによりこの自動翻訳システムでは、優先度の高い原文データから優先的に人手翻訳を依頼することができる。
第5の発明は、原文データ、機械翻訳文データ、属性データ、および機械翻訳文データの評価値を含むレコードを格納する対訳コーパスデータ格納部を含む自動翻訳システムに用いられる自動翻訳方法であって、データ入力ステップと、機械翻訳ステップと、対訳コーパス制御ステップと、出力制御ステップと、を備える。
データ入力ステップは、原文データ、属性データ、および評価データを入力するためのステップである。
機械翻訳ステップは、データ入力ステップにおいて入力された原文データである入力原文データに対して機械翻訳処理を行うことで、機械翻訳文データを取得する。
対訳コーパス制御ステップは、
(1)入力原文データと一致又は類似する原文データを含み、かつ、
(2)機械翻訳ステップにより取得された機械翻訳文と一致又は類似する機械翻訳文データを含み、かつ、
(3)データ入力ステップにおいて入力された属性データと一致又は類似する属性データを含む、
レコードを、対訳コーパスデータ格納部に格納されているデータから検索し、レコードが検索された場合、(1)入力原文データと、(2)機械翻訳ステップにより取得された機械翻訳文と、(3)データ入力ステップにおいて入力された属性データと、(4)レコードに含まれる機械翻訳文データの評価値と、を含むデータを出力用データとして取得する。
出力制御ステップは、対訳コーパス制御ステップにより取得された出力用データを出力する。
これにより、第1の発明と同様の効果を奏する自動翻訳方法を実現することができる。
第6の発明は、第5の発明である自動翻訳方法をコンピュータに実行させるためのプログラムである。
これにより、第1の発明と同様の効果を奏する自動翻訳方法をコンピュータに実行させるためのプログラムを実現することができる。
本発明によれば、翻訳された言語についての知識を有しないユーザであっても、自動翻訳結果の評価を適切に行うことができる自動翻訳システム、自動翻訳方法、およびプログラムを実現することができる。
第1実施形態に係る自動翻訳システム1000の概略構成図。 第1実施形態に係る自動翻訳システム1000の処理シーケンスの前半部分を示す図。 第1実施形態に係る自動翻訳システム1000の処理シーケンスの後半部分を示す図。 ユーザにより、自動翻訳システム1000に入力されたデータ(入力データ)と、自動翻訳システム1000により出力されたデータ(出力データ1、出力データ2)を模式的に示した図。 第2実施形態に係る自動翻訳システム2000の概略構成図。 第2実施形態に係る自動翻訳システム2000の処理シーケンスの前半部分を示す図。 第2実施形態に係る自動翻訳システム2000の処理シーケンスの後半部分を示す図。 第3実施形態に係る自動翻訳システム3000の概略構成図。 第3実施形態に係る自動翻訳システム3000の処理シーケンスの前半部分を示す図。 第3実施形態に係る自動翻訳システム3000の処理シーケンスの後半部分を示す図。 CPUバス構成を示す図。
[第1実施形態]
第1実施形態について、図面を参照しながら以下に説明する。
<1.1:自動翻訳システムの構成>
図1は、第1実施形態に係る自動翻訳システム1000の概略構成図である。
自動翻訳システム1000は図1に示すように、データ入力部1と、機械翻訳部2と、MT(Machine Translation)用データ格納部DB1と、対訳コーパス制御部3と、対訳コーパスデータ格納部DB2と、逆翻訳部4と、出力制御部5と、人手翻訳対象データ取得部6と、外部IF(インターフェース)7と、人手翻訳データ取得部8と、を備える。
データ入力部1は図1に示すように、入力IF11と、原文データ取得部12と、属性データ取得部13と、評価データ取得部14と、出力決定データ取得部15と、人手翻訳依頼データ取得部16と、を備える。
入力IF11は、入力データDinを入力するためのインターフェースである。入力データDinは例えば、ユーザの指示に基づいて生成されたデータである。入力IF11は、例えば入力IF11を制御する制御部(不図示)により生成される入出力制御信号に基づいて入力データDinの一部または全部を、原文データ取得部12、属性データ取得部13、評価データ取得部14、および出力決定データ取得部15の1またはそれぞれに出力する。
原文データ取得部12は、入力IF11から出力されるデータを入力とし、当該データから原文データOrg_txtを取得し、機械翻訳部2および対訳コーパス制御部3に出力する。
属性データ取得部13は、入力IF11から出力されるデータを入力とし、当該データから属性データAttr_Dataを取得し、対訳コーパス制御部3に出力する。
評価データ取得部14は、入力IF11から出力されるデータを入力とし、当該データから評価データUsr_Evalを取得し、対訳コーパス制御部3に出力する。
出力決定データ取得部15は、入力IF11から出力されるデータを入力とし、当該データから出力決定データを取得する。そして出力決定データ取得部15は、取得した出力決定データに基づいて、出力制御部5を制御するための制御信号Ctl1を生成し、出力制御部5に出力する。
人手翻訳依頼データ取得部16は、入力IF11から出力されるデータを入力とし、当該データから人手翻訳依頼データを取得し、人手翻訳対象データ取得部6に出力する。
機械翻訳部2は、原文データ取得部12から出力される原文データOrg_txtを入力する。また機械翻訳部2は、MT用データ格納部DB1にアクセスできるように接続されており、所定のタイミングでMT用データ格納部DB1のデータの読み出し、書き込み、更新等を行うことができる。機械翻訳部2は、原文データOrg_txtに対して機械翻訳処理を行い、機械翻訳文データMT_txtを取得し、対訳コーパス制御部3および逆翻訳部4に出力する。
なお機械翻訳処理とは、第1言語のデータである原文データOrg_txtを第1言語とは異なる言語である第2言語のデータに翻訳(変換)する処理のことをいう。
MT用データ格納部DB1は、機械翻訳処理に使用するデータを格納するためのデータ記憶部であり、機械翻訳部2および逆翻訳部4と接続されている。MT用データ格納部DB1では、機械翻訳部2からの指示に従って格納されているデータの読み出し、書き込み、更新等の処理が実行される。またMT用データ格納部DB1では、逆翻訳部4からの指示に従い、格納されているデータの読み出し、書き込み、更新等の処理が実行される。
またMT用データ格納部DB1は、対訳コーパス制御部3にも接続されており、対訳コーパス制御部3の指示に従い、格納されているデータの読み出し、書き込み、更新等の処理が実行される。
対訳コーパス制御部3は、原文データ取得部12から出力される原文データOrg_txtと、属性データ取得部13から出力される属性データAttr_Dataと、評価データ取得部14から出力される評価データUsr_Evalと、機械翻訳部2から出力される機械翻訳文データMT_txtと、を入力する。また対訳コーパス制御部3は、対訳コーパスデータ格納部DB2にアクセスできるように接続されており、所定のタイミングで対訳コーパスデータ格納部DB2のデータの読み出し、書き込み、更新等を行うことができる。
対訳コーパス制御部3は、原文データOrg_txtと、属性データAttr_Dataと、評価データUsr_Evalと、を検索対象データとして、対訳コーパスデータ格納部DB2のデータから、上記検索対象データと一致または類似するデータを検索する。そして対訳コーパス制御部3は、上記検索対象データと一致または類似するデータの検索結果を出力制御部5に出力する。具体的には対訳コーパス制御部3は、上記検索対象データと一致または類似するデータの(1)原文データ、(2)自動翻訳データ、(3)属性データ、(4)評価値と、を含むデータを生成し、生成したデータをデータD_hit_recordとして出力制御部5に出力する。
また対訳コーパス制御部3は、評価データ取得部14から評価データUsr_Evalを入力した場合、当該評価データUsr_Evalを当該評価データUsr_Evalに対応する、(1)原文データOrg_txt、(2)自動翻訳データMT_txt、(3)属性データAttr_Dataとともに、対訳コーパスデータ格納部DB2に格納する。
また対訳コーパス制御部3は、人手翻訳データ取得部8から出力される人手翻訳データを入力する。対訳コーパス制御部3は、人手翻訳データ取得部8から出力される人手翻訳データを入力した場合、当該人手翻訳データを当該人手翻訳データに対応する、(1)原文データOrg_txt、(2)属性データAttr_Dataとともに、対訳コーパスデータ格納部DB2に格納する。
対訳コーパスデータ格納部DB2は、対訳コーパスデータを格納するためのデータ記憶部であり、対訳コーパス制御部3と接続されている。対訳コーパスデータ格納部DB2では、対訳コーパス制御部3からの指示に従い、格納されているデータの読み出し、書き込み、更新等の処理が実行される。
逆翻訳部4は、機械翻訳部2から出力される機械翻訳文データMT_txtを入力する。また逆翻訳部4は、MT用データ格納部DB1にアクセスできるように接続されており、所定のタイミングでMT用データ格納部DB1のデータの読み出し、書き込み、更新等を行うことができる。逆翻訳部4は、機械翻訳文データMT_txtに対して逆機械翻訳処理を行い、逆翻訳文データR−MT_txtを取得し、出力制御部5に出力する。
なお逆機械翻訳処理とは、第2言語(機械翻訳文と同じ言語)のデータである機械翻訳文データMT_txtを第1言語(原文と同じ言語)のデータに翻訳(変換)する処理のことをいう。
出力制御部5は、対訳コーパス制御部3から出力されるデータD_hit_recordと、逆翻訳部4から出力される逆翻訳文データR−MT_txtと、出力決定データ取得部15から出力される制御信号Ctl1と、を入力する。出力制御部5は、制御信号Ctl1に従い、データD_hit_recordと、逆翻訳文データR−MT_txtと、を出力データDoutとして出力する。なお出力制御部5は、制御信号Ctl1に従い所定の出力先に、当該出力先に応じた出力形式に変換して出力データDoutとして出力するようにしてもよい。また制御信号Ctl1は、出力先に関する情報を含むものであってもよい。
人手翻訳対象データ取得部6は、人手翻訳依頼データ取得部16から出力される人手翻訳依頼データを入力する。人手翻訳対象データ取得部6は、人手翻訳依頼データ取得部16から人手翻訳依頼データが入力された場合、外部協力者に翻訳を依頼する翻訳対象データである人手翻訳対象データを生成し、その生成した人手翻訳対象データを外部IF7に出力する。なお人手翻訳対象データは、外部協力者に翻訳を依頼する翻訳対象データ(原文データOrg_txt)の他に付加情報等のデータを含むものであってもよい。
外部インターフェース7は、人手翻訳対象データ取得部6から出力される人手翻訳対象データを入力し、入力した人手翻訳対象データを外部協力者の編集端末装置等に送信する。また外部インターフェース7は、外部協力者の編集端末装置等から送信されるデータを受信する。そして外部インターフェース7は、外部協力者の編集端末装置等から受信したデータを人手翻訳データ取得部8に出力する。
なお外部インターフェース7は、ネットワーク等を介して外部協力者の編集端末装置等とデータ通信を行うものであってもよい。
人手翻訳データ取得部8は、外部インターフェース7から出力されるデータ(外部協力者の編集端末装置等からの受信データ)を入力し、当該データから外部協力者により作成された翻訳文のデータである人手翻訳データを取得する。そして人手翻訳データ取得部8は、取得した人手翻訳データを対訳コーパス制御部3に出力する。
<1.2:自動翻訳システムの動作>
以上のように構成された自動翻訳システム1000の動作について、図1〜図3を参照しながら、以下に説明する。
なお以下の説明では説明便宜のため、第1言語(原文の言語)を日本語とし、第2言語(機械翻訳文の言語)を英語として説明する。
図2、図3は、自動翻訳システム1000の処理シーケンスを示す図である。

まず自動翻訳システム1000で使用するデータ(対訳コーパスデータ格納部DB2に記憶するデータ)のデータ構造について説明する。
自動翻訳システム1000で使用するデータ(対訳コーパスデータ格納部DB2に記憶するデータ)のデータ構造(一例)は以下の通りである。
≪データ構造≫
(1)原文データ
(2)機械翻訳文データ
(2−1)機械翻訳文自体
(2−2)機械翻訳文に対する評価データ
(2−2−1)評価したユーザ
(2−2−2)機械翻訳文の評価値
(2−2−3)原文の人手翻訳
(3)属性データ(原文の属性データ)
(3−1)原文の語用論的属性
(3−1−1)原文が利用される場面
(3−1−2)原文が利用される時間帯
(3−1−3)原文の使用者(発信者、受信者)
(3−2)原文の文法的属性
(3−2−1)肯定文、否定文、疑問文等
(3−2−2)丁寧さの度合い
自動翻訳システム1000で使用するデータは、上記の通り、(1)原文データ、(2)機械翻訳文データ、(3)属性データ(原文の属性データ)、から構成される。
そして「(2)機械翻訳文データ」は、「(2−1)機械翻訳文自体」のデータと、「(2−2)機械翻訳文に対する評価データ」と、を含む。
「(2−2)機械翻訳文に対する評価データ」は、「(2−2−1)評価したユーザ」と、「(2−2−2)機械翻訳文の評価値」と、「(2−2−3)原文の人手翻訳」のデータと、を含む。
また「(3)属性データ」は、「(3−1)原文の語用論的属性」のデータと、「(3−2)原文の文法的属性」と、を含む。
そして「(3)属性データ」には、「(3−1)原文の語用論的属性」のデータとして、例えば「(3−1−1)原文が利用される場面」についてデータと、「(3−1−2)原文が利用される時間帯」についてのデータと、「(3−1−3)原文の使用者(発信者、受信者)」についてのデータと、が含まれる。
また「(3)属性データ」には、「(3−2)原文の文法的属性」のデータとして、例えば「(3−2−1)肯定文、否定文、疑問文等」の区別を示すデータと、「(3−2−2)丁寧さの度合い」を示すデータと、が含まれる。
なお上記データ構造は一例であって、自動翻訳システム1000で使用するデータ(対訳コーパスデータ格納部DB2に記憶するデータ)のデータ構造は、上記に限定されない。
以下の説明では、自動翻訳システム1000で使用するデータ(対訳コーパスデータ格納部DB2に記憶するデータ)のデータ構造が上記のデータ構造である場合について、自動翻訳システム1000の動作を説明する。
(ステップS101):
ユーザは、原文データ(日本語文のデータ)をキーボード、ポインティングデバイス、手書き文字認識、OCR、音声認識等の一般に用いられている技術を用いた入力IF11を介して自動翻訳システム1000に入力する。
データ入力部1の原文データ取得部12は、入力IF11を介して入力されたデータから原文データを取得し、取得した原文データを原文データOrg_txtとして機械翻訳部2および対訳コーパス制御部3に出力する。
(ステップS102):
機械翻訳部2は、原文データOrg_txtに対して機械翻訳処理を行う。例えば統計的機械翻訳技術を用いて機械翻訳処理を行う場合、MT用データ格納部DB1には、原文データと翻訳文データ(英語のデータ)とが対応付けられたコーパスデータが格納されている。この場合機械翻訳部2は、MT用データ格納部DB1に格納されているコーパスデータを用いて原文データOrg_txtに対して統計的機械翻訳処理を行い、機械翻訳文データMT_txtを取得する。
そして機械翻訳部2は、取得した機械翻訳文データMT_txtを対訳コーパス制御部3および逆翻訳部4に出力する。
(ステップS103):
ユーザは、属性データ(原文の属性データ)を入力IF11を介して自動翻訳システム1000に入力する。
データ入力部1の属性データ取得部13は、入力IF11を介して入力されたデータから属性データAttr_Dataを取得し、対訳コーパス制御部3に出力する。
なお説明便宜のため、ステップS103において属性データとして以下のデータが入力されたものとして、以下に説明する。
(3−1−1)原文が利用される場面:接客
(3−1−3)原文の使用者(発信者、受信者):発信者「女」、受信者「男」
(ステップS104):
対訳コーパス制御部3は、原文データOrg_txtと、属性データAttr_Dataと、評価データUsr_Evalと、を検索対象データとして、対訳コーパスデータ格納部DB2のデータから上記検索対象データと一致または類似するデータを検索する。そして対訳コーパス制御部3は、上記検索対象データと一致または類似するデータの検索結果を出力制御部5に出力する。
具体的には対訳コーパス制御部3は、上記検索対象データと一致または類似するデータの(1)原文データ、(2)自動翻訳データ、(3)属性データ、(4)評価値と、を含むデータD_hit_recordを生成し、出力制御部5に出力する。
出力制御部5は対訳コーパス制御部3からデータD_hit_recordが入力された場合、当該データD_hit_recordに含まれる、(1)原文データ、(2)自動翻訳データ、(3)属性データ、(4)評価値を、ユーザに提示する(例えば、ユーザが見ることができる表示装置(不図示)に当該データを表示する)。
図4は、ユーザにより自動翻訳システム1000に入力されたデータ(入力データ)と、自動翻訳システム1000により出力されたデータ(出力データ1、出力データ2)と、を模式的に示した図である。
例えば図4に示すように、ユーザにより入力データとして、
原文データ:「お客様、用件は?」
属性データ:
(3−1−1)原文が利用される場面:接客
(3−1−3)原文の使用者(発信者、受信者):発信者「女」、受信者「男」
(自分の性別:女、相手の性別:男)
が入力された場合であって、機械翻訳部2により取得された機械翻訳文データが、
機械翻訳文データ:May I help you, sir?
である場合、対訳コーパス制御部3は、
(1)上記原文データと一致または類似する原文データを含み、かつ、
(2)上記機械翻訳文データと一致または類似する機械翻訳文データを含み、かつ、
(3)上記属性データと一致する属性データを含む、
レコード(データ)を対訳コーパスデータ格納部DB2から検索する。
そして対訳コーパス制御部3は上記検索条件を満たすレコードを検索した場合、当該検索したレコードに含まれる評価値(「(2−2−2)機械翻訳文の評価値」)を取得する。
そして対訳コーパス制御部3は、出力制御部5に出力するデータD_hit_recordに、
(1)原文データOrg_txt(「お客様、用件は?」)
(2)機械翻訳文データ(「May I help you, sir?」)
(3)属性データ(「(場面)接客、(自分(発信者)の性別)女、(相手(受信者)の性別)男」)
(4)評価値(評価値:76%)
を含める。対訳コーパス制御部3は、このようにして取得したデータD_hit_recordを出力制御部5に出力する。
評価値(「(2−2−2)機械翻訳文の評価値」)は、0〜100%の間の数値により表現されるものであり、値が大きい程、評価が高いことを意味する。なお評価値は、数値により設定されるものに限定されることなく、2値による評価(例えばGood/Badによる評価)や、N値(N:自然数)による評価や、評価対象の事象の生起確率に基づく値等による評価であってもよい。
また検索の結果、ヒットしたレコードにおいて、当該レコードの過去使用頻度が複数であり、複数の評価値を含む場合、当該レコードに含まれる複数の評価値の平均値を、出力制御部5に出力するデータD_hit_recordに含める評価値としてもよい。例えば図4に示した出力データ1の場合、過去使用頻度が365回である。そして、例えば、過去365回使用されたうち18回人手により評価され18個の評価値が上記レコードに含まれるものとする。この場合、図4の出力データ1の表示では当該18個の評価値の平均値が「76%」であることを示している。このようにヒットしたレコードに複数の評価値が含まれる場合、対訳コーパス制御部3は「(4)評価値」を検索条件を満たすレコードの評価値の平均値とし、さらに過去使用頻度に関するデータ(図4では「過去使用頻度:365回」と表示しているデータ)も含めたデータD_hit_recordを取得するようにしてもよい。そして対訳コーパス制御部3は、当該データD_hit_recordを出力制御部5に出力する。
上記のように、過去使用頻度に関するデータも評価値とともにユーザに提示することで、翻訳先の言語を理解できないユーザであっても、機械翻訳文データの精度を適切に判断することができる。つまり評価値が高く、かつ過去使用頻度が多い程、機械翻訳文データの精度が高いことは翻訳先の言語を理解できないユーザであっても容易に推測することができる。
対訳コーパス制御部3における、(1)入力原文データと、対訳コーパスデータ格納部DB2に格納されている原文データとの意味の一致の判定法、(2)機械翻訳部2により取得された機械翻訳文データと、対訳コーパスデータ格納部DB2に格納されている機械翻訳文データとの意味の一致の判定法、および(3)入力属性データと、対訳コーパスデータ格納部DB2に格納されている属性データとの一致の判定法は、以下のようにして行う。
(1)入力原文データと、対訳コーパスデータ格納部DB2に格納されている原文データとの意味の一致の判定法(原文データの一致判定法)
例えば、特開2012−27596号公報に開示された技術を用いて判定すればよい。つまり、
(1−1)入力原文データの文章と、対訳コーパスデータ格納部DB2に格納されている原文データの文章とにおいて字面が一致する場合、
(1−2)入力原文データの文章における一部の語句をそれと同義又は類似の語句に言い換えた文章と、対訳コーパスデータ格納部DB2に格納されている原文データの文章と、において字面が一致する場合、
(1−3)入力原文データの文章における数値や固有名詞等をクラスとして抽象化した文章と、対訳コーパスデータ格納部DB2に格納されている原文データの文章における数値や固有名詞等と、をクラスとして、同様の処理により、抽象化した文章とが一致する場合、
のいずれかに該当するとき、対訳コーパス制御部3は入力原文データと、対訳コーパスデータ格納部DB2に格納されている原文データとは、意味が一致すると判定し、上記の(1A)〜(1C)のいずれにも該当しないときは、入力原文データと、対訳コーパスデータ格納部DB2に格納されている原文データとは、意味が一致しないと判定する。
(2)機械翻訳部2により取得された機械翻訳文データと、対訳コーパスデータ格納部DB2に格納されている機械翻訳文データと、の意味の一致の判定法(機械翻訳文データの一致判定法)
対訳コーパス制御部3は、比較する対象を機械翻訳部2により取得された機械翻訳文データと、対訳コーパスデータ格納部DB2に格納されている機械翻訳文データとにして、上記(1)と同様の方法により、機械翻訳部2により取得された機械翻訳文データと、対訳コーパスデータ格納部DB2に格納されている機械翻訳文データと、の意味の一致の判定を行う。
(3)入力属性データと、対訳コーパスデータ格納部DB2に格納されている属性データと、の一致の判定法(属性データの一致判定法)
対訳コーパス制御部3は、入力属性データの全ての属性値が対訳コーパスデータ格納部DB2に格納されている属性データの対応する属性値と一致したとき、入力属性データと、対訳コーパスデータ格納部DB2に格納されている属性データとが一致すると判定する。
なお、入力属性データにおいて属性値が設定されていないデータについては除外してもよい。
例えば図4に示した入力データの場合、入力属性データにおいて、「(3−1−1)原文が利用される場面」が「接客」に設定されており、「(3−1−3)原文の使用者(発信者、受信者)」が「(自分(発信者)の性別)女、(相手(受信者)の性別)男」に属性値(上記意味に対応する値)が設定されているので、対訳コーパス制御部3は、「(3−1−1)原文が利用される場面」が「接客」であり、「(3−1−3)原文の使用者(発信者、受信者)」が「(自分(発信者)の性別)女、(相手(受信者)の性別)男」であるレコードを検索する。
以上のように対訳コーパス制御部3は、(1)原文データが一致し、かつ、(2)機械翻訳文データが一致し、かつ、(3)属性データが一致するレコードを検索する。
なお対訳コーパス制御部3は、上記(1)〜(3)の3つのデータが一致するレコードを複数検索した場合、当該複数のレコードについてのデータD_hit_recordを出力制御部5に出力する。
図4の場合、上記(1)〜(3)の3つのデータが一致するレコード(出力データ1、出力データ2)が2つ存在する場合を示している。
出力制御部5は図4に示す場合のように、上記(1)〜(3)の3つのデータが一致するレコードが複数存在する場合、当該複数のレコードをユーザが確認できるように、ユーザに提示する(例えば表示装置に当該複数のレコードを同時または順次表示する)。
(ステップS105):
逆翻訳部4は、機械翻訳文データMT_txtに対して逆機械翻訳処理を行い、逆翻訳文データR−MT_txtを取得する。例えば逆翻訳部4は、統計的機械翻訳技術を用いて機械翻訳部2により実行される処理と同様に機械翻訳処理を行う。MT用データ格納部DB1には、原文データと翻訳文データとが対応付けられたコーパスデータが格納されているので、逆翻訳部4は、MT用データ格納部DB1に格納されているコーパスデータを用いて機械翻訳文データMT_txt(英語文のデータ)に対して統計的機械翻訳処理を行い、逆翻訳文データR−MT_txt(日本語文のデータ)を取得する。
そして逆翻訳部4は、取得した逆翻訳文データR−MT_txtを出力制御部5に出力する。
出力制御部5は、逆翻訳部4から逆翻訳文データR−MT_txtが入力されると、ユーザが認識できるように当該逆翻訳文データR−MT_txtを出力する。例えば図4に示すように出力制御部5は、データD_hit_recordとともに、逆翻訳文データR−MT_txtをユーザが認識できるように提示する。
ユーザは上記のようにして提示されたデータを確認する。
(ステップS106):
ユーザは、自動翻訳システム1000により提示されているデータを確認し、最終出力を行って良いか否かの判定を行う。例えばユーザは、タッチパネル付き表示装置のように、入力機能を有する表示装置を操作することで、最終出力を行って良いか否かの判定を行う。最終出力を行って良いと判定された場合、次にステップS107の処理が実行され、最終出力を行って良いと判定されなかった場合、次にステップS108の処理が実行される。
(ステップS107):
ユーザが最終出力を行って良いと判定し、それに対応する操作を例えば入力機能を有する表示装置を用いて行う。この最終出力を行って良いか否かの判定は、出力データに表示されている評価値の値により容易に行うことができる。つまりユーザは、機械翻訳文データの言語(図4の場合、英語)を理解できなくとも、評価値により機械翻訳文データの精度を判断することができる。
さらにユーザは、図4の場合のように出力データが複数存在する場合、評価値の高い出力データを選択することで、機械翻訳文データの言語(図4の場合、英語)が理解できない場合であっても、より精度の高い機械翻訳文データを選択することができる。
図4の場合、出力データ1の評価値「76%」の方が出力データ2の評価値「18%」よりも値が大きいので、ユーザは機械翻訳文データの言語(図4の場合、英語)が理解できない場合であってもより精度の高い機械翻訳文データが出力データ1に含まれる機械翻訳文データ(「May I help you, sir?」)であることを容易に判定することができる。
図4の場合、出力データ2の機械翻訳文データ「May I help you, madam?」は、相手が女性であるときにのみ用いられる単語「madam」を含んでいる。属性データにおいて「相手(受信者)の性別」が「男」に設定されているため、単語「madam」を含む機械翻訳文は適切な文章ではない。一方、出力データ1の機械翻訳文データ「May I help you, sir?」は、相手が男性であるときにのみ用いられる単語「sir」を含んでおり、適切な機械翻訳文データを含んでいる。
このように自動翻訳システム1000では、属性データを考慮した評価値を出力するので、単語「madam」と「sir」のどちらが適切なのかが分からないユーザであっても、評価値により、より適切な機械翻訳文データを含む出力データを選択することができる。
ちなみに図4の場合、逆翻訳文が出力データ1も出力データ2もともに「お客様、ご用件は?」と同じ文章となっているため、逆翻訳文のみでは翻訳先の言語(英語)を理解できないユーザは出力データ1、出力データ2の優劣を判断することができない。
ユーザは上記のように、評価値に基づいて最終出力したいデータを選択する。例えばユーザはタッチパネル付き表示装置のように、入力機能を有する表示装置を操作することでこの選択処理を行う。
そして当該選択処理に対応するデータが入力IF11に入力される。
出力決定データ取得部15は、上記選択処理により選択された出力データが出力されるように制御信号Ctl1を生成し、出力制御部5に出力する。
出力制御部5は、出力決定データ取得部15からの制御信号Ctl1に基づいてユーザが選択した出力データの一部または全部を出力する。
例えば図4の場合、出力制御部5は、ユーザが選択した出力データ1に相当するデータを出力する。出力制御部5は、例えばユーザが選択した出力データ1に含まれる機械翻訳文データ「May I help you, sir?」を受信者(話相手)が音声として聞き取れるように音声出力する、あるいは受信者が認識できる表示装置(不図示)に表示させる。
このように処理することで自動翻訳システム1000では、属性データを考慮した適切な機械翻訳文データを出力することができる。
(ステップS108):
ユーザが人手翻訳依頼を行うと決定した場合、例えばユーザは、タッチパネル付き表示装置のように、入力機能を有する表示装置を操作することで人手翻訳依頼データを入力IF11に入力する。
人手翻訳依頼データ取得部16は、ユーザにより入力IF11を介して入力された人手翻訳依頼データを取得し、人手翻訳対象データ取得部6に出力する。
人手翻訳対象データ取得部6は、人手翻訳依頼データ取得部16から人手翻訳依頼データが入力された場合、人手翻訳対象とする原文データOrg_txtを取得し、人手翻訳対象データとして外部インターフェース7に出力する。なお人手翻訳対象データは、原文データOrg_txtについての付加情報を含んでもよい。
外部インターフェース7は、人手翻訳対象データ取得部6から人手翻訳対象データが入力された場合、当該人手翻訳対象データを外部協力者の編集端末装置に送信する。
そして外部協力者は、外部協力者の編集端末装置により自動翻訳システム1000の外部インターフェース7から送信された人手翻訳対象データを受信する。
(ステップS109):
外部協力者は、人手翻訳対象データに含まれる原文データOrg_txtを翻訳し、翻訳文データを作成する。
(ステップS110):
外部協力者は、自身が翻訳した人手翻訳データを含む送信用データを作成し、作成した送信用データを外部協力者の編集端末装置から自動翻訳システム1000に送信する。
自動翻訳システム1000は外部インターフェース7により、外部協力者の編集端末装置から送信された送信用データを受信する。そして人手翻訳データ取得部8は、外部インターフェース7により受信した送信用データから人手翻訳データを取得し対訳コーパス制御部3に出力する。
(ステップS111):
対訳コーパス制御部3は、人手翻訳データ取得部8から人手翻訳データが入力された場合、当該人手翻訳データを出力制御部5に出力する。
出力制御部5は対訳コーパス制御部3から人手翻訳データが入力された場合、当該人手翻訳データを、例えばユーザが当該人手翻訳データを確認できる表示装置に出力する。
そしてユーザは、自動翻訳システム1000の出力制御部5により提示された(例えば、表示装置に表示された)人手翻訳データを確認する。
(ステップS112):
対訳コーパス制御部3は、人手翻訳データ取得部8から人手翻訳データを入力された場合、当該人手翻訳データを対訳コーパスデータ格納部DB2に出力し、原文データOrg_txtに対応する対訳コーパスデータを更新する。
このとき対訳コーパス制御部3は、「(2−2−3)原文の人手翻訳」のデータ(フィールド)として上記人手翻訳データを格納することで、原文データOrg_txtに対応する対訳コーパスデータを更新する。
(ステップS113):
対訳コーパス制御部3は、人手翻訳データ取得部8から人手翻訳データが入力された場合、当該人手翻訳データをMT用データ格納部DB1に出力しMT用データを更新する。MT用データ格納部DB1が統計的機械翻訳処理用のデータベースである場合、原文と翻訳文とを対応付けたコーパスデータが所定の形式で格納されているので、対訳コーパス制御部3は人手翻訳データをMT用データ格納部DB1に格納できる所定の形式のデータに変換した後、MT用データ格納部DB1に格納するようにすればよい。
(ステップS114〜S116):
ステップS114においてユーザは、自動翻訳システム1000により提示されているデータ(人手翻訳データを含むデータ)を確認し、最終出力を行って良いか否かの判定を行う。例えばユーザは、タッチパネル付き表示装置のように、入力機能を有する表示装置を操作することで最終出力を行って良いか否かの判定を行う。最終出力を行って良いと判定された場合、次にステップS115の処理が実行され、最終出力を行って良いと判定されなかった場合、処理が終了される(ステップS116)。
ステップS115においてユーザが、最終出力を行って良いと判定し、それに対応する操作を例えば入力機能を有する表示装置を用いて行う。
そして上記ユーザの操作に対応するデータが入力IF11に入力される。
出力決定データ取得部15は、上記ユーザの操作に対応するデータに基づいて出力データ(人手翻訳データを含むデータ)が出力されるように制御信号Ctl1を生成し、出力制御部5に出力する。
出力制御部5は、出力決定データ取得部15からの制御信号Ctl1に基づいて人手翻訳データを含む出力データの一部または全部を出力する。
出力制御部5は、例えば、ユーザが最終出力してもよいと判定した出力データに含まれる人手翻訳データを、受信者(話相手)が音声として聞き取れるように音声出力する、あるいは受信者が認識できる表示装置(不図示)に表示させる。
このように処理することで自動翻訳システム1000では、機械翻訳文データの評価値が低くユーザにより当該機械翻訳文データを使用できないと判定した場合であっても、人手翻訳データを取得し取得した人手翻訳データを出力することができる。
以上のように自動翻訳システム1000では、対訳コーパス制御部3が、(1)原文データが一致(または類似)し、かつ、(2)機械翻訳文データが一致(または類似)し、かつ、(3)属性データが一致するレコードを、対訳コーパスデータ格納部DB2から検索し、当該3つの検索条件を満たすレコードを当該レコードの評価値ともにユーザに提示する。
したがって翻訳先の言語を理解できないユーザであっても評価値により、機械翻訳文データの精度を適切に判断することができる。
さらに自動翻訳システム1000では評価値が低いデータしか出力されない場合、ユーザの指示により、外部協力者に人手翻訳文作成を依頼し、外部協力者により作成された人手翻訳文を取得することができる。
そして自動翻訳システム1000では外部協力者により作成された人手翻訳文により、対訳コーパスデータ格納部DB2のデータ、およびMT用データ格納部のデータを更新することができるため、自動翻訳システム1000の自動翻訳精度を向上させることもできる。
なおユーザが翻訳先言語を理解できる場合、例えばステップS107においてユーザは、機械翻訳文データの評価についてのデータを入力IF11に入力するようにしてもよい。そして評価データ取得部14は、機械翻訳文データの評価についてのデータをデータUsr_Evalとして取得し対訳コーパス制御部3に出力する。
対訳コーパス制御部3は、評価データ取得部14からデータをデータUsr_Evalが入力された場合、データUsr_Evalに含まれるユーザの評価データに基づいて、評価値を決定し、決定した評価値により、原文データOrg_txtに対応する対訳コーパスデータを更新する。
このとき対訳コーパス制御部3は、「(2−2−2)機械翻訳文の評価値」のデータ(フィールド)として、上記評価値を格納することで、原文データOrg_txtに対応する対訳コーパスデータを更新する。
ユーザが翻訳先言語を理解できる場合、自動翻訳システム1000においてこのような処理を行うようにしてもよい。
[第2実施形態]
次に、第2実施形態について説明する。
本実施形態において、第1実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。
<2.1:第2実施形態に係る自動翻訳システムの構成>
第2実施形態の自動翻訳システム2000は図5に示すように、第1実施形態の自動翻訳システム1000において、機械学習部9を追加し、対訳コーパス制御部3を対訳コーパス制御部3Aに置換し、出力制御部5を出力制御部5Aに置換した構成を有している。
対訳コーパス制御部3Aは、対訳コーパスデータ格納部DB2に格納されているデータから、(1)原文データ、(2)機械翻訳文データ、(3)評価値(機械翻訳文の評価値)の3つを含むデータを作成し、作成したデータを学習用データとして機械学習部9に出力する。上記以外について、対訳コーパス制御部3Aは、第1実施形態の対訳コーパス制御部3と同様である。
機械学習部9は、対訳コーパス制御部3Aから出力される学習用データを入力し、当該学習用データにより機械学習を行う。具体的には機械学習部9は、(1)原文データ、および(2)機械翻訳文データが入力されたときに、評価値を推定し、推定した評価値を自動評価値Auto_Evalとして出力できるように対訳コーパス制御部3Aから出力される学習用データを用いて機械学習を行う。なお機械学習の手法については、公知の手法を用いればよいので、ここでは詳細な説明を省略する。
また機械学習部9は、原文データ取得部12から出力される原文データOrg_txtと、機械翻訳部2から出力される機械翻訳文データMT_txtと、を入力する。機械学習部9は、原文データOrg_txtと、機械翻訳文データMT_txtと、に基づいて自動評価値Auto_Evalを取得し、取得した自動評価値Auto_Evalを出力制御部5Aに出力する。
出力制御部5Aは、機械学習部9から出力される自動評価値Auto_Evalを入力する。出力制御部5Aは、機械学習部9から自動評価値Auto_Evalが入力された場合、当該自動評価値Auto_Evalに基づいて出力信号Doutを生成し出力する。上記以外について、出力制御部5Aは、第1実施形態の出力制御部5と同様である。
<2.2:第2実施形態に係る自動翻訳システムの動作>
以上のように構成された自動翻訳システム2000の動作について、図5〜図7を参照しながら以下に説明する。
なお以下の説明では説明便宜のため、第1言語(原文の言語)を日本語とし、第2言語(機械翻訳文の言語)を英語として説明する。
図6、図7は、自動翻訳システム2000の処理シーケンスを示す図である。
(ステップS201〜S204):
ステップS201〜S204では、それぞれ第1実施形態のステップS101〜S104の処理と同様の処理が実行される。
(ステップS205、S206):
対訳コーパス制御部3Aが、(1)原文データが一致(または類似)し、かつ、(2)機械翻訳文データが一致(または類似)し、かつ、(3)属性データが一致するレコードを、対訳コーパスデータ格納部DB2から検索できた場合(検索ヒットありの場合)、当該3つの検索条件を満たすレコードを当該レコードの評価値ともにユーザに提示する。つまりこの場合、第1実施形態と同様に、自動翻訳システム2000は、データD_hit_recordをユーザに提示する。これ以降の処理は、第1実施形態と同様であるため、説明を省略する。
以上のように自動翻訳システム2000では、対訳コーパス制御部3Aが、(1)原文データが一致し、かつ、(2)機械翻訳文データが一致し、かつ、(3)属性データが一致するレコードを対訳コーパスデータ格納部DB2から検索できなかった場合(検索ヒットなしの場合)であっても、機械学習部9により取得された自動評価値Auto_Evalをユーザに提示することができる。
そしてユーザは、自動翻訳システム2000により提示された自動評価値Auto_Evalにより、機械翻訳文データの精度を判断することができる。
このように自動翻訳システム2000では、(1)原文データが一致し、かつ、(2)機械翻訳文データが一致し、かつ、(3)属性データが一致するレコードが存在しない場合であっても、自動評価値Auto_Evalにより、翻訳先言語を理解できないユーザでも、機械翻訳文データの精度を判断することができる。
なお自動翻訳システム2000において、対訳コーパス制御部3Aが機械翻訳文データの評価値が存在するレコードを対訳コーパスデータ格納部DB2から検索できなかった場合においても、機械学習部9により取得された自動評価値Auto_Evalをユーザに提示するようにしてもよい。
このようにすることで自動翻訳システム2000では、機械翻訳文データの評価値が存在するレコードを取得できなかった場合であっても、自動評価値Auto_Evalにより翻訳先言語を理解できないユーザでも機械翻訳文データの精度を判断することができる。
[第3実施形態]
次に、第3実施形態について、説明する。
本実施形態において、上記第1、第2の実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。
<3.1:第3実施形態に係る自動翻訳システムの構成>
図8は第3実施形態に係る自動翻訳システム3000の概略構成図である。
図8に示すように自動翻訳システム3000は、データ入力部1Aと、機械翻訳部2と、MT用データ格納部DB1と、対訳コーパス制御部3Aと、対訳コーパスデータ格納部DB2と、人手翻訳対象データ取得部6と、外部IF7と、人手翻訳データ取得部8と、機械学習部9と、優先度取得部10と、を備える。
データ入力部1Aは図8に示すように、第1実施形態のデータ入力部1から、評価データ取得部14と、出力決定データ取得部15と、人手翻訳依頼データ取得部16とを削除し、原文データ取得部12と、属性データ取得部13とのみで構成されている。ただデータ入力部1Aは、第1実施形態のデータ入力部1と同じ構成であってもよい。
機械翻訳部2と、MT用データ格納部DB1と、対訳コーパス制御部3Aと、対訳コーパスデータ格納部DB2と、人手翻訳対象データ取得部6と、外部インターフェース7と、人手翻訳データ取得部8とは、それぞれ第2実施形態と同様の構成を有してる。
機械学習部9は第2実施形態と同様の機能を有している。この機械学習部9は取得した自動評価値Auto_Evalを優先度取得部10に出力する。
優先度取得部10は機械学習部9から出力される自動評価値Auto_Evalを入力する。優先度取得部10は入力された自動評価値Auto_Evalから優先度を含むデータPrty(優先度データPrty)を取得し、人手翻訳対象データ取得部6に出力する。
人手翻訳対象データ取得部6は、原文データ取得部12から出力される原文データOrg_txtと、優先度取得部10から出力される優先度データPrtyと、を入力する。人手翻訳対象データ取得部6は、優先度データPrtyに基づいて人手翻訳対象データを生成し、外部インターフェース7に出力する。
なお、自動翻訳システム3000は、上記の構成(図8の構成)に限定されることなく第1実施形態の自動翻訳システム1000、および/または、第2実施形態の自動翻訳システム2000に含まれる機能部をさらに含む構成であってもよい。
<3.2:第3実施形態に係る自動翻訳システムの動作>
以上のように構成された自動翻訳システム3000の動作について、図8〜図10を参照しながら以下に説明する。
なお、以下では、説明便宜のため、第1言語(原文の言語)を日本語とし、第2言語(機械翻訳文の言語)を英語として、説明する。
図9、図10は、自動翻訳システム3000の処理シーケンスを示す図である。
(ステップS301〜S305):
ステップS301〜S305では、それぞれ、第2実施形態のステップS201〜S205の処理と同様の処理が実行される。
(ステップS306):
対訳コーパス制御部3Aが、(1)原文データが一致し、かつ、(2)機械翻訳文データが一致し、かつ、(3)属性データが一致するレコードを対訳コーパスデータ格納部DB2から検索できた場合(検索ヒットありの場合)、当該3つの検索条件を満たすレコードを、当該レコードの評価値とともに、ユーザに提示する。つまりこの場合、第2実施形態と同様に自動翻訳システム3000は、データD_hit_recordをユーザに提示する。
(ステップS307):
対訳コーパス制御部3Aが、(1)原文データが一致(または類似)し、かつ、(2)機械翻訳文データが一致(または類似)し、かつ、(3)属性データが一致するレコードを対訳コーパスデータ格納部DB2から検索できなかった場合(検索ヒットなしの場合)、機械学習部9は、原文データOrg_txtと、機械翻訳文データMT_txtとから、自動評価値Auto_Evalを取得する。
また対訳コーパス制御部3Aが、機械翻訳文データの評価値が存在するレコードを対訳コーパスデータ格納部DB2から検索できなかった場合も、機械学習部9は原文データOrg_txtと、機械翻訳文データMT_txtとから、自動評価値Auto_Evalを取得する。
そして機械学習部9は取得した自動評価値Auto_Evalを優先度取得部10に出力する。
(ステップS308):
優先度取得部10は、自動評価値Auto_Evalに基づいて優先度を取得する。具体的には優先度取得部10は、自動評価値Auto_Evalの評価が低い(評価値が小さい)程、優先度が高くなるように優先度を決定する。
つまり自動評価値Auto_Evalの評価が低い場合、機械翻訳文データの精度が低いと考えられるため、当該機械翻訳文データに対応する原文データOrg_txtに対して人手による翻訳を行った方が良いと考えられる。
自動翻訳システム3000では上記のように、優先度取得部10が、自動評価値Auto_Evalの評価が低い(評価値が小さい)程優先度を大きな値に設定することで、人手翻訳の必要性が高い原文データを効率良く特定することができる。
優先度取得部10は、上記にようにして取得した優先度を含む優先度データPrtyを人手翻訳対象データ取得部6に出力する。
(ステップS309):
人手翻訳対象データ取得部6は優先度データPrtyに含まれる優先度に基づいて、人手翻訳対象データを生成する。具体的には人手翻訳依頼データ取得部16は、優先度の高い、つまり人手翻訳の必要性の高い原文データから人手翻訳依頼を行うことができるように、人手翻訳対象データを生成する。
人手翻訳対象データ取得部6は、上記のようにして生成した人手翻訳対象データを外部インターフェース7に出力する。なお人手翻訳対象データは、原文データOrg_txtについての付加情報を含んでいてもよい。
外部インターフェース7は、人手翻訳対象データ取得部6から人手翻訳対象データが入力された場合、当該人手翻訳対象データを外部協力者の編集端末装置に送信する。
そして外部協力者は、外部協力者の編集端末装置により、自動翻訳システム3000の外部インターフェース7から送信された人手翻訳対象データを受信する。
ステップS310、S311、S312、S313では、それぞれ、第1実施形態のステップS109、S110、S112、S113の処理と同様の処理が実行される。
そしてステップS314にて、自動翻訳システム3000は処理を終了する。
以上のように自動翻訳システム3000では、対訳コーパス制御部3Aが機械翻訳文データの評価値が存在するレコードを対訳コーパスデータ格納部DB2から検索できなかった場合、機械学習部9は原文データOrg_txtと、機械翻訳文データMT_txtとから、自動評価値Auto_Evalを取得する。そして自動翻訳システム3000では、自動評価値Auto_Evalから取得した優先度に基づいて、人手翻訳の必要性の高い原文データの人手翻訳を効率良く行うことができる。
そして取得した人手翻訳データにより、対訳コーパスデータ格納部DB2、MT用データ格納部DB1のコーパスデータを更新することで、さらに精度の高い機械翻訳文データを取得できる自動翻訳システムを実現することができる。
[他の実施形態]
上記第1、第2、第3各実施形態を適宜組み合わせて自動翻訳システムを構成するようにしてもよい。
また上記実施形態の自動翻訳システムを構成する各機能部は、例えばネットワークを介して接続されるものであってもよい。
また上記実施形態の自動翻訳システムは、複数の装置により実現されるものであってもよい。
例えばデータ入力部1、1Aが、ユーザの情報携帯端末装置内に設けられ、機械翻訳部2、対訳コーパス制御部3、逆翻訳部4が、ユーザの情報携帯端末装置とネットワークを介して接続される外部サーバ内に設けられた構成により、自動翻訳システムを実現してもよい。
またMT用データ格納部DB1、対訳コーパスデータ格納部DB2も、外部サーバ内に、あるいは外部サーバにインターフェースを介して接続されるものであってもよい。
また上記実施形態では、原文データが日本語文データであり、機械翻訳文データが英語文データである場合について説明したが、これに限定されることはなく、原文データ、機械翻訳文データは、他の言語によるデータであってもよい。また原文データの種類、および機械翻訳文データの種類が複数であってもよい。つまり自動翻訳システムが多言語翻訳を行うシステムであってもよい。
また上記実施形態で説明した自動翻訳システムにおいて、各ブロックはLSIなどの半導体装置により個別に1チップ化されても良いし、一部又は全部を含むように1チップ化されても良い。
なおここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
また、上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて中央演算装置(CPU)により行われる。またそれぞれの処理を行うためのプログラムは、ハードディスク、ROMなどの記憶装置に格納されており、ROMにおいて、あるいはRAMに読み出されて実行される。
また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア(OS(オペレーティングシステム)、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。)により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。
例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図11に示したハードウェア構成(例えばCPU、ROM、RAM、入力部、出力部、通信部、記憶部(例えば、HDD、SSD等により実現される記憶部)、外部メディア用ドライブ等をバスBusにより接続したハードウェア構成)を用いて各機能部をソフトウェア処理により実現するようにしてもよい。
また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図11に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。
また上記実施形態における処理方法の実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で実行順序を入れ替えることができるものである。
前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えばフレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、大容量DVD、次世代DVD、半導体メモリなどを挙げることができる。
上記コンピュータプログラムは上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。
なお本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。
本発明によれば、翻訳された言語についての知識を有しないユーザであっても、自動翻訳結果の評価を適切に行うことができる自動翻訳システム、自動翻訳方法、およびプログラムを実現することができる。このため本発明は、自動翻訳関連産業分野において、有用であり当該分野において実施することができる。
1000、2000、3000 自動翻訳システム
1、1A データ入力部
2 機械翻訳部
3、3A 対訳コーパス制御部
4 逆翻訳部
5 出力制御部
6 人手翻訳対象データ取得部
7 外部インターフェース
8 人手翻訳データ取得部
9 機械学習部
10 優先度取得部
DB1 MT用データ格納部
DB2 対訳コーパスデータ格納部

Claims (6)

  1. 原文データ、属性データ、および評価データを入力するためのデータ入力部と、
    前記データ入力部に入力された原文データである入力原文データに対して、機械翻訳処理を行うことで、機械翻訳文データを取得する機械翻訳部と、
    原文データ、機械翻訳文データ、属性データ、および機械翻訳文データの評価値を含むレコードを格納する対訳コーパスデータ格納部と、
    (1)前記入力原文データと一致又は類似する原文データを含み、かつ、
    (2)前記機械翻訳部により取得された前記機械翻訳文と一致又は類似する機械翻訳文データを含み、かつ、
    (3)前記データ入力部に入力された属性データと一致又は類似する属性データを含む、
    レコードを、前記対訳コーパスデータ格納部に格納されているデータから検索し、前記レコードが検索された場合、(1)前記入力原文データと、(2)前記機械翻訳部により取得された前記機械翻訳文と、(3)前記データ入力部に入力された前記属性データと、(4)前記レコードに含まれる機械翻訳文データの評価値と、を含むデータを出力用データとして取得する対訳コーパス制御部と、
    前記対訳コーパス制御部により取得された前記出力用データを出力する出力制御部と、
    を備える自動翻訳システム。
  2. 前記対訳コーパスデータ格納部に格納されているレコードを用いて機械学習を行うことで、原文データおよび機械翻訳文データと、機械翻訳文データの評価値とをマッピングすることでマッピングデータを取得し、取得した前記マッピングデータに基づいて、原文データと、機械翻訳文データと、が入力された場合、入力された原文データと、機械翻訳文データとに基づいて、自動評価値を取得する機械学習部をさらに備え、
    前記対訳コーパス制御部により、
    (1)前記入力原文データと一致又は類似する原文データを含み、かつ、
    (2)前記機械翻訳部により取得された前記機械翻訳文と一致又は類似する機械翻訳文データを含み、かつ、
    (3)前記データ入力部に入力された属性データと一致又は類似する属性データを含む、
    レコードを、前記対訳コーパスデータ格納部に格納されているデータから検索できなかった場合、または、
    前記レコードに機械翻訳文データの評価値が含まれない場合、
    前記対訳コーパス制御部は、
    前記入力原文データと、前記機械翻訳部により取得された前記機械翻訳文データとを前記出力制御部に出力し、
    前記機械学習部は、前記入力原文データと、前記機械翻訳部により取得された前記機械翻訳文データと、に基づいて前記自動評価値を取得し、
    前記出力制御部は、
    (1)前記入力原文データと、(2)前記機械翻訳部により取得された前記機械翻訳文データと、(3)前記機械学習部により取得された前記自動評価値と、を出力する、
    請求項1に記載の自動翻訳システム。
  3. 前記機械学習部により取得された前記自動評価値に基づいて、原文データの人手翻訳の必要性の指標を示す値である優先度を取得する優先度取得部であって、前記自動評価値が、前記機械翻訳文データの評価が低いことを示す値である程、前記優先度を高い値に設定する前記優先度取得部をさらに備える、
    請求項2に記載の自動翻訳システム。
  4. 外部協力者の通信端末装置と通信するための外部インターフェースと、
    外部協力者に対して翻訳を依頼する対象データである人手翻訳対象データを取得する人手翻訳対象データ取得部と、
    をさらに備え、
    前記人手翻訳対象データ取得部は、
    前記優先度取得部により設定された優先度に基づいて前記優先度が高い原文データを含む前記人手翻訳対象データから順番に人手翻訳されるように、前記外部インターフェースを介して前記人手翻訳対象データを前記外部協力者の通信端末装置に送信する、
    請求項3に記載の自動翻訳システム。
  5. 原文データ、機械翻訳文データ、属性データ、および機械翻訳文データの評価値を含むレコードを格納する対訳コーパスデータ格納部を含む自動翻訳システムに用いられる自動翻訳方法であって、
    原文データ、属性データ、および評価データを入力するためのデータ入力ステップと、
    前記データ入力ステップにおいて入力された原文データである入力原文データに対して、機械翻訳処理を行うことで、機械翻訳文データを取得する機械翻訳ステップと、
    (1)前記入力原文データと一致又は類似する原文データを含み、かつ、
    (2)前記機械翻訳ステップにより取得された前記機械翻訳文と一致又は類似する機械翻訳文データを含み、かつ、
    (3)前記データ入力ステップにおいて入力された属性データと一致又は類似する属性データを含む、
    レコードを、前記対訳コーパスデータ格納部に格納されているデータから検索し、前記レコードが検索された場合、(1)前記入力原文データと、(2)前記機械翻訳ステップにより取得された前記機械翻訳文と、(3)前記データ入力ステップにおいて入力された前記属性データと、(4)前記レコードに含まれる機械翻訳文データの評価値とを含むデータを出力用データとして取得する対訳コーパス制御ステップと、
    前記対訳コーパス制御ステップにより取得された前記出力用データを出力する出力制御ステップと、
    を備える自動翻訳方法。
  6. 請求項5に記載の自動翻訳方法をコンピュータに実行させるためのプログラム。
JP2016151948A 2016-08-02 2016-08-02 自動翻訳システム、自動翻訳方法、およびプログラム Expired - Fee Related JP6687944B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016151948A JP6687944B2 (ja) 2016-08-02 2016-08-02 自動翻訳システム、自動翻訳方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016151948A JP6687944B2 (ja) 2016-08-02 2016-08-02 自動翻訳システム、自動翻訳方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018022269A JP2018022269A (ja) 2018-02-08
JP6687944B2 true JP6687944B2 (ja) 2020-04-28

Family

ID=61165612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016151948A Expired - Fee Related JP6687944B2 (ja) 2016-08-02 2016-08-02 自動翻訳システム、自動翻訳方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6687944B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680526B (zh) * 2020-06-09 2023-09-08 语联网(武汉)信息技术有限公司 基于逆向翻译结果比对的人机交互翻译系统与方法
CN111753559B (zh) * 2020-06-28 2024-02-23 语联网(武汉)信息技术有限公司 一种多源输入方式下的大规模翻译语料任务处理系统
KR102409001B1 (ko) * 2020-07-08 2022-06-14 이은숙 번역 및 감수 효율화 기능을 제공하는 컴퓨터 프로그램

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298360A (ja) * 1992-04-17 1993-11-12 Hitachi Ltd 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置
JP4460248B2 (ja) * 2003-09-08 2010-05-12 富士通株式会社 翻訳支援プログラム、翻訳支援装置および翻訳支援方法
JP2007034621A (ja) * 2005-07-26 2007-02-08 Fuji Xerox Co Ltd 翻訳装置及び翻訳方法
JP5398202B2 (ja) * 2008-09-09 2014-01-29 株式会社船井電機新応用技術研究所 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法
US9934203B2 (en) * 2015-03-10 2018-04-03 International Business Machines Corporation Performance detection and enhancement of machine translation

Also Published As

Publication number Publication date
JP2018022269A (ja) 2018-02-08

Similar Documents

Publication Publication Date Title
US10311146B2 (en) Machine translation method for performing translation between languages
CN109564589B (zh) 使用手动用户反馈进行实体识别和链接系统和方法
CN108027823B (zh) 信息处理装置、信息处理方法以及计算机可读取的存储介质
CN109522551B (zh) 实体链接方法、装置、存储介质及电子设备
US9552355B2 (en) Dynamic bi-phrases for statistical machine translation
JP4974445B2 (ja) 確認文を提供する方法およびシステム
US7031911B2 (en) System and method for automatic detection of collocation mistakes in documents
JP4945086B2 (ja) 論理形式のための統計的言語モデル
EP2811414A2 (en) Confidence-driven rewriting of source texts for improved translation
Chen et al. Automatic ICD-10 coding algorithm using an improved longest common subsequence based on semantic similarity
US10140260B2 (en) Intelligent text reduction for graphical interface elements
US20080208566A1 (en) Automated word-form transformation and part of speech tag assignment
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
US7725306B2 (en) Efficient phrase pair extraction from bilingual word alignments
JP6687944B2 (ja) 自動翻訳システム、自動翻訳方法、およびプログラム
US10503808B2 (en) Time user interface with intelligent text reduction
JP2020144421A (ja) 情報処理システム及び情報処理方法
RU2682002C2 (ru) Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка
CN111460117B (zh) 对话机器人意图语料生成方法、装置、介质及电子设备
CN113743090B (zh) 一种关键词提取方法及装置
US20150081273A1 (en) Machine translation apparatus and method
US20210263915A1 (en) Search Text Generation System and Search Text Generation Method
US20220230720A1 (en) Correcting an examination report
KR20210146832A (ko) 토픽 키워드의 추출 장치 및 방법
CN113435188B (zh) 基于语义相似的过敏文本样本生成方法、装置及相关设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190524

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200327

R150 Certificate of patent or registration of utility model

Ref document number: 6687944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees