JP2017138655A

JP2017138655A - 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム

Info

Publication number: JP2017138655A
Application number: JP2016017111A
Authority: JP
Inventors: 菜々美藤原; Nanami Fujiwara; 山内　真樹; Maki Yamauchi; 真樹山内
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-02-01
Filing date: 2016-02-01
Publication date: 2017-08-10
Anticipated expiration: 2036-02-01
Also published as: CN107038158B; US20170220561A1; JP6655788B2; CN107038158A; US9916304B2

Abstract

【課題】本発明は、より改善された対訳コーパス作成方法、該装置および該プログラムならびにこれを用いた機械翻訳システムを提供する。
【解決手段】本発明の対訳コーパス作成方法、該装置および該プログラムならびにこれを用いた機械翻訳システムは、換言候補文生成部２によって、第１言語の第１原文に含まれる複数の素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成し、換言文識別部３ａによって、これら複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別し、対訳コーパス作成部４によって、この識別した１または複数の換言文と前記第１原文を翻訳した第２原文とを対の文とすることによって新たな対の文を生成し、この生成した新たな対の文で対訳コーパスを作成する。
【選択図】図１

Description

本発明は、互いに異なる言語で形成された対の文を集積した対訳コーパスを作成する対訳コーパス作成方法、対訳コーパス作成装置および対訳コーパス作成プログラムならびにこれを用いた機械翻訳システムに関する。

近年、第１言語の文を前記第１言語と異なる第２言語の文に翻訳する機械翻訳が研究、開発されており、例えば、特許文献１ないし特許文献４の特許文献や非特許文献１および非特許文献２の非特許文献等の様々な技術が提案されている。

特許第３９１９７２０号公報特開２００２−２７８９６３号公報特開２００６−１９００７２号公報特開２０１５−１１８４９８号公報

ＧｅｎｅｒａｔｉｎｇＴａｒｇｅｔｅｄＰａｒａｐｈｒａｓｅｓｆｏｒＩｍｐｒｏｖｅｄＴｒａｎｓｌａｔｉｏｎ，ＮＩＴＩＮＭＡＤＮＡＮＩ，ＥｄｕｃａｔｉｏｎａｌＴｅｓｔｉｎｇＳｅｒｖｉｃｅ，ＡＣＭ２０１３ＤｉｓｔｒｉｂｕｔｉｏｎａｌＰｈｒａｓａｌＰａｒａｐｈｒａｓｅＧｅｎｅｒａｔｉｏｎｆｏｒＳｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ，ＹＵＶＡＬＭＡＲＴＯＮ，ＵｎｉｖｅｒｓｉｔｙｏｆＭａｒｒｙｌａｎｄ，ＣｏｌｕｍｂｉａＵｎｉｖｅｒｓｉｔｙ，ＡＣＭ２０１３

ところで、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましい。すなわち、対訳コーパスがより多くの対の文を集積していることが好ましく、対訳コーパスの作成には、改善の余地がある。

本発明は、上述の事情に鑑みて為された発明であり、その目的は、より改善された対訳コーパス作成方法、対訳コーパス作成装置および対訳コーパス作成プログラムならびにこれを用いた機械翻訳システムを提供することである。

本発明にかかる対訳コーパス作成方法、対訳コーパス作成装置および対訳コーパス作成プログラムならびにこれを用いた機械翻訳システムは、第１言語の第１原文に含まれる複数の素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成し、これら複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別し、この識別した１または複数の換言文と前記第１原文を翻訳した第２原文とを対の文とすることによって新たな対の文を生成し、この生成した新たな対の文で対訳コーパスを作成する。

本発明にかかる対訳コーパス作成方法、対訳コーパス作成装置および対訳コーパス作成プログラムならびにこれを用いた機械翻訳システムは、対訳コーパスの作成を改善できる。

第１実施形態における対訳コーパス作成装置の構成を示すブロック図である。前記対訳コーパス作成装置における換言候補文生成部の構成を示すブロック図である。前記換言候補文生成部における換言データベース記憶部に記憶される換言データベースの一例を示す図である。前記対訳コーパス作成装置における換言文識別部の構成を示すブロック図である。前記換言文識別部における学習データ記憶部に記憶される学習データ集の一例を示す図である。前記換言候補文生成部における換言データベース選択部の動作を示すフローチャートである。前記換言候補文生成部における換言部の動作を示すフローチャートである。前記換言文識別部における学習データ選択部の動作を示すフローチャートである。前記換言文識別部におけるモデル生成部の動作を示すフローチャートである。前記換言文識別部における識別部の動作を示すフローチャートである。換言データベースおよび学習データ集の第１態様の選択方法を説明するための図である。換言データベースおよび学習データ集の第２態様の選択方法を説明するための図である。換言データベースおよび学習データ集の第３態様の選択方法を説明するための図である。一具体例を用いて対訳コーパスの作成を説明するための図である。前記対訳コーパス作成装置における換言文識別部の変形形態の構成を示すブロック図である。前記変形形態の換言文識別部の動作を説明するための図である。一具体例を用いて前記対訳コーパス作成装置の変形形態を説明するための図である。第２実施形態における機械翻訳システムの構成を示すブロック図である。前記機械翻訳システムにおける学習部の動作を示すフローチャートである。

以下、本発明にかかる実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。

（第１実施形態；対訳コーパス作成方法、コーパス作成装置、コーパス作成プログラム）
図１は、第１実施形態における対訳コーパス作成装置の構成を示すブロック図である。図２は、前記対訳コーパス作成装置における換言候補文生成部の構成を示すブロック図である。図３は、前記換言候補文生成部における換言データベース記憶部に記憶される換言データベースの一例を示す図である。図４は、前記対訳コーパス作成装置における換言文識別部の構成を示すブロック図である。図５は、前記換言文識別部における学習データ記憶部に記憶される学習データ集の一例を示す図である。図５（Ａ）は、第１態様の学習データ集を示し、図５（Ｂ）は、第２態様の学習データ集を示す。

実施形態における対訳コーパス作成装置Ｍは、第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する装置であり、例えば、図１に示すように、入力部１と、換言候補文生成部２と、換言文識別部３ａと、対訳コーパス作成部４とを備え、さらに、図１に示す例では、その作成した対訳コーパスを記憶する対訳コーパス記憶部５を備える。なお、対訳コーパス記憶部５は、対訳コーパス作成装置Ｍとは別体の外部機器（例えばサーバコンピュータ等）に備えられても良く、この場合、図１に示す対訳コーパス作成装置Ｍは、対訳コーパス記憶部５に代え、外部機器との間でデータを通信するインタフェース部を備え、その作成した対訳コーパスを、前記インタフェース部を介して外部機器へ出力する。前記インタフェース部は、例えば、ＵＳＢ規格を用いたインタフェース回路や、ＩＥＥＥ８０２．１１規格等に従った通信インタフェース回路等である。

このような各部１〜５を備える対訳コーパス作成装置Ｍは、例えば、情報処理装置で構成される。情報処理装置は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）および補助記憶装置を備えるコンピュータと、データを表示することで前記データを出力するディスプレイと、データを入力する入力装置とを備える。このような情報処理装置として、例えば、デスクトップ型コンピュータのように据え置き型の情報処理装置が採用されても良いし、ノート型コンピュータやタブレット型コンピュータ等の携帯型の情報処理装置が採用されても良い。

図１に示す各ブロックは、例えば、ＣＰＵが、補助記憶装置に記憶されている、コンピュータを対訳コーパス作成装置Ｍとして機能させるプログラム（対訳コーパス作成プログラム）を実行することで実現される。したがって、前記コンピュータには、対訳コーパス作成方法が実装されている。図１において、四角形で示すブロックは、主にＣＰＵで機能的に実現され、円筒形で示すブロックは、主に、ＲＯＭ、ＲＡＭおよび補助記憶装置等で構成される記憶装置で機能的に実現される。なお、後述する図２、図４、図１５および図１８も同様である。

入力部（第１入力部）１は、換言候補文生成部２に接続され、例えば、所定の操作を受け付け、当該対訳コーパス作成装置Ｍにデータを入力する回路である。入力部１は、例えば、所定の機能を割り付けられた複数の入力スイッチ等を備えるキーボードやマウス等の入力装置である。また例えば、入力部１は、外部機器との間でデータを通信する、上述と同様なインタフェース部であって良い。前記所定の操作には、例えば、第１言語の第１原文と、前記第１原文を、前記第１言語と異なる第２言語で翻訳した第２原文とを当該対訳コーパス作成装置Ｍに入力する前記第１および第２原文の入力操作や、対訳コーパスの作成を当該対訳コーパス作成装置Ｍに指示する開始コマンドの入力操作等の、当該対訳コーパス作成装置Ｍで対訳コーパスを作成する上で必要な各種操作等が含まれる。

換言候補文生成部２は、換言文識別部３ａに接続され、予め設定した所定の規則に従って文を分割することによって形成される素片であって、入力部１で受け付けた第１原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって（置き換えることによって）、前記第１原文に対する複数の換言候補文を生成するものである。前記所定の規則は、任意の規則であって良い。例えば、前記所定の規則は、複数ｎ文字（例えば２文字や３文字等）ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記複数ｎ文字となる。また例えば、前記所定の規則は、単語ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記単語となる。また例えば、前記所定の規則は、品詞ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記品詞の語となる。また例えば、前記所定の規則は、句ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記句となる。また例えば、前記所定の規則は、意味クラスごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記意味クラスのクラスの語となる。また例えば、前記所定の規則は、形態素解析における形態素ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記形態素となる。第１言語の第１原文に対する換言候補文は、上述のように、前記第１原文に含まれる複数の素片のうちの１または複数を、前記第１言語の他の表現に換言（置換）した文であり、この第１言語の第１原文に対する換言候補文は、必ずしも、前記第１原文の意味と同じであることを保証するものではない。したがって、この第１原文に対する換言候補文は、前記第１原文の意味を参酌すること無く、生成される。なお、第１原文における同一の素片が複数回換言されても良いが、同一の素片を複数回換言すると、その換言候補文は、前記第１原文の意味と異なってしまう可能性が高くなるので、同一の素片に対する換言回数は、例えば１回や２回等の少ない回数に限定されることが好ましい。

このような換言候補文生成部２は、より具体的には、例えば、図２に示すように、換言データベース記憶部（換言ＤＢ記憶部）２１と、換言データベース選択部（換言ＤＢ選択部）２２と、換言部２３とを備える。

換言ＤＢ記憶部２１は、換言ＤＢ選択部２２に接続され、換言データベース（換言ＤＢ）を記憶するものである。換言ＤＢは、第１言語の第１素片と、前記第１素片を前記第１言語の他の表現で表現した第２素片とを互いに対応付けたデータベースである。例えば、図３に示すように、第１言語の第１素片２０１−１と、この第１素片２０１−１に対応付けられ前記第１素片２０１−１を前記第１言語の他の表現で表現した第２素片２０２−１とが換言ＤＢＣＴにおける１つのデータとして換言ＤＢ記憶部２１に記憶される。

そして、本実施形態では、換言ＤＢ記憶部２１は、図２に示すように、予め設定した所定の分類法に従って分類された複数の換言ＤＢを記憶している。前記所定の分類法は、当該対訳コーパス作成装置Ｍの用途に応じた適宜な分類法であって良い。例えば、前記所定の分類法は、ジャンルごとに分類する分類法であって良く、また例えば、産業分野ごとに分類する分類法であって良い。図２に示す例では、前記複数の換言ＤＢは、工場で用いられる素片を言い換えるための工場用の換言ＤＢ、旅行で用いられる素片を言い換えるための旅行用の換言ＤＢ、買い物で用いられる素片を言い換えるための買物用の換言ＤＢ、医療で用いられる素片を言い換えるための医療用の換言ＤＢ、および、鉄道で用いられる素片を言い換えるための鉄道用の換言ＤＢ等を含む。これら各換言ＤＢそれぞれを記憶するために、換言ＤＢ記憶部２１は、前記工場用の換言ＤＢを記憶する工場用換言ＤＢ記憶部２１１、前記旅行用の換言ＤＢを記憶する旅行用換言ＤＢ記憶部２１２、前記買物用の換言ＤＢを記憶する買物用換言ＤＢ記憶部２１３、前記医療用の換言ＤＢを記憶する医療用換言ＤＢ記憶部２１４、および、前記鉄道用の換言ＤＢを記憶する鉄道用換言ＤＢ記憶部２１５等を備える。なお、或る分類の換言ＤＢのデータが他の分類の換言ＤＢのデータであっても良い。そして、本実施形態では、これら複数の換言ＤＢそれぞれには、換言ＤＢを特定し識別するための識別子（ＩＤ）が付与されている。

換言ＤＢ選択部２２は、入力部１および換言部２３それぞれに接続され、換言ＤＢ記憶部２１に記憶された複数の換言ＤＢのうちから、入力部１で受け付けた第１原文に対応する換言ＤＢを所定の選択方法に従って選択するものである。換言ＤＢ選択部２２は、その選択結果を換言部２３へ出力する。前記所定の選択方法は、換言ＤＢ選択部２２に記憶されている複数の換言ＤＢのうちから、入力部１で受け付けた第１原文に最もマッチする換言ＤＢを選択できれば、任意の方法であって良い。例えば、前記所定の選択方法は、前記複数の換言ＤＢのうちから言語モデルが最も近い換言ＤＢを選択する方法である（第１態様の選択方法）。また例えば、前記所定の選択方法は、前記複数の換言ＤＢのうちからクラスが最も似ている換言ＤＢを選択する方法である（第２態様の選択方法）。また例えば、前記所定の選択方法は、前記複数の換言ＤＢのうちから頻出語彙またはユニークな語彙が最も似ている換言ＤＢを選択する方法である（第３態様の選択方法）。これらの選択方法は、後述でより詳細に説明する。

換言部２３は、入力部１および換言文識別部３ａそれぞれに接続され、入力部１で受け付けた第１原文に含まれる複数の素片のうちの１または複数を、換言ＤＢ選択部２２で選択した換言ＤＢに基づいて第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成するものである。例えば、入力部１で受け付けた第１原文に、図３に示す第１言語の第１素片２０１−１、２０１−２が含まれている場合に、この第１原文の第１素片２０１−１は、第１言語の第２素片２０２−１に換言されて第１原文に対する１つの換言候補文が生成され、そして、前記第１原文の第１素片２０１−２は、第１言語の第２素片２０２−２に換言されて前記第１原文に対する他の１つの換言候補文が生成される。したがって、この場合、換言部２３は、第１原文に対する２個の換言候補文を生成する。換言部２３は、これら生成した第１原文に対する複数の換言候補文を換言文識別部３ａへ出力する。

換言文識別部３ａは、対訳コーパス作成部４に接続され、換言候補文生成部２で生成した複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別するものである。例えば、換言文識別部３ａは、換言候補文の意味が第１原文の意味と同じであるか否かを識別（判定、弁別）する識別モデルを用いることで、前記複数の換言候補文から前記１または複数の換言文を識別する。

このような換言文識別部３ａは、より具体的には、例えば、図４に示すように、学習データ記憶部３１ａと、学習データ選択部３２ａと、モデル生成部３３と、識別部３４とを備える。

学習データ記憶部３１ａは、学習データ選択部３２ａに接続され、学習データ集を記憶するものである。学習データ集は、換言候補文の意味が第１原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成る。本実施形態では、モデル生成部３３が教師有りの機械学習で識別モデルを生成するため、例えば、図５（Ａ）に示すように、文３０１−１と、この文３０１−１が前記識別において正解であるか不正解であるかの別を表す正否データ３０２−１とが学習データ集ＬＴａにおける１つのデータとして学習データ記憶部３１ａに記憶される。また例えば、図５（Ｂ）に示すように、互いに異なる複数の素片それぞれに対応して設けられる複数の素片フィールド３０３（３０３−１、３０３−２、３０３−３、３０３−４、３０３−５、３０３−６、３０３−７、３０３−８、・・・）と、正否データを登録する正否データフィールド３０４とを備え、文Ｌｎごとにレコードを持つ学習データ集ＬＴｂが学習データ記憶部３１ａに記憶される（ｎは、正の整数である）。各素片フィールド３０３には、当該レコードの文Ｌｎが当該素片フィール３０３の素片を含むか否かを表す素片フラグが登録される。素片フラグ「１」は、当該レコードの文Ｌｎが当該素片フィール３０３の素片を含むことを表し、素片フラグ「０」は、当該レコードの文Ｌｎが当該素片フィール３０３の素片を含まないことを表す。正否データは、図５（Ｂ）では、正否フラグで表されており、正否フラグ「１」は、当該レコードの文Ｌｎが前記識別において正解であることを表し、正否フラグ「０」は、当該レコードの文Ｌｎが前記識別において不正解であることを表す。例えば、図５（Ｂ）に示す例では、第１番目のレコードの文Ｌ１は、素片フィールド３０３−１、３０３−２、３０３−３、３０３−４、３０３−５に素片フラグ「１」が登録されているので、素片フィールド３０３−１、３０３−２、３０３−３、３０３−４、３０３−５の各素片から構成され、正否データフィールド３０４に正否フラグ「１」が登録されているので、識別モデルの生成における機械学習において正解の文である。

そして、本実施形態では、学習データ記憶部３１ａは、図４に示すように、換言ＤＢ記憶部２１と同様に、予め設定した所定の分類法に従って分類された複数の学習データ集を記憶している。学習データ集における前記所定の分類法は、換言部２３における換言の精度と識別部３４における識別の精度とを同等にできるので、換言ＤＢにおける前記所定の分類法と同じであることが好ましいが、必ずしも同じでなくても良い。図４に示す例では、前記複数の学習データ集は、工場で用いられる文（第１文）において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための工場用の学習データ集、旅行で用いられる文（第１文）において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための旅行用の学習データ集、買物で用いられる文（第１文）において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための買物用の学習データ集、医療で用いられる文（第１文）において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための医療用の学習データ集、および、鉄道で用いられる文（第１文）において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための鉄道用の学習データ集等を含む。これら各学習データ集それぞれを記憶するために、学習データ記憶部３１ａは、前記工場用の学習データ集を記憶する工場用学習データ記憶部３１１、前記旅行用の学習データ集を記憶する旅行用学習データ記憶部３１２、前記買物用の学習データ集を記憶する買物用学習データ記憶部３１３、前記医療用の学習データ集を記憶する医療用学習データ記憶部３１４、および、前記鉄道用の学習データ集を記憶する鉄道用学習データ記憶部３１５等を備える。なお、或る分類の学習データ集のデータが他の分類の学習データ集のデータであっても良い。このように本実施形態では、学習データ集における前記所定の分類法は、換言ＤＢにおける前記所定の分類法と同じであり、各学習データ集それぞれには、当該学習データ集と同種に分類される換言ＤＢに付与されているＩＤが割り付けられている。例えば、前記工場用の学習データ集には、前記工場用の換言ＤＢに付与されているＩＤが割り付けられ、また例えば、前記医療用の学習データ集には、前記医療用の換言ＤＢに付与されているＩＤが割り付けられている。

学習データ選択部３２ａは、入力部１およびモデル生成部３３それぞれに接続され、学習データ記憶部３１ａに記憶された複数の学習データ集のうちから、入力部１で受け付けた第１原文に対応する学習データ集を所定の選択方法に従って選択するものである。学習データ選択部３２ａは、その選択結果をモデル生成部３３へ出力する。前記所定の選択方法は、学習データ記憶部３１ａに記憶された複数の学習データ集のうちから、入力部１で受け付けた第１原文に最もマッチする学習データ集を選択できれば、任意の方法であって良い。本実施形態では、学習データ選択部３２ａには、換言ＤＢ選択部２２と同様の選択方法が採用できる。学習データ集の選択では、さらに、例えば、前記複数の学習データ集から文長が最も似ている学習データ集を選択する方法（第４態様の選択方法）も前記所定の選択方法として採用できる。

モデル生成部３３は、識別部３４に接続され、学習データ選択部３２ａで選択した学習データ集に基づいて前記識別モデルを機械学習によって生成するものである。機械学習には、例えば、深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ、多層構造のニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ））等が用いられる。モデル生成部３３は、この生成した識別モデルを識別部３４へ出力する。

識別部３４は、換言候補文生成部２および対訳コーパス作成部４それぞれに接続され、モデル生成部３３で生成した識別モデルに基づいて、換言候補文生成部２で生成した複数の換言候補文から識別した１または複数の換言文を識別するものである。識別部３４は、この識別によって得られた１または複数の換言文を対訳コーパス作成部４へ出力する。

対訳コーパス作成部４は、対訳コーパス記憶部５に接続され、換言文識別部３ａで識別した１または複数の換言文と入力部１で受け付けた第２原文とを対の文とすることによって新たな対の文を生成し、この生成した新たな対の文で新たな対訳コーパスを作成する、または、この生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成（更新）するものである。より詳しくは、対訳コーパス作成部４は、対訳コーパス記憶部５に対訳コーパスが記憶されていない場合には、前記生成した新たな対の文で新たな対訳コーパスを作成し、この作成した新たな対訳コーパスを対訳コーパス記憶部５に記憶する。一方、対訳コーパス作成部４は、対訳コーパス記憶部５に対訳コーパスが記憶されている場合には、前記生成した新たな対の文を、対訳コーパス記憶部５に記憶されている既存の対訳コーパスに追加することによって対訳コーパスを作成（更新）する。

次に、本実施形態における対訳コーパス作成装置Ｍの動作について説明する。図６は、前記換言候補文生成部における換言データベース選択部の動作を示すフローチャートである。図７は、前記換言候補文生成部における換言部の動作を示すフローチャートである。図８は、前記換言文識別部における学習データ選択部の動作を示すフローチャートである。図９は、前記換言文識別部におけるモデル生成部の動作を示すフローチャートである。図１０は、前記換言文識別部における識別部の動作を示すフローチャートである。図１１は、換言データベースおよび学習データ集の第１態様の選択方法を説明するための図である。図１１（Ａ）は、入力コーパスの言語モデルを用いる場合を示し、図１１（Ｂ）は、入力コーパスの言語モデルを用いない場合を示す。図１２は、換言データベースおよび学習データ集の第２態様の選択方法を説明するための図である。図１３は、換言データベースおよび学習データ集の第３態様の選択方法を説明するための図である。図１４は、一具体例を用いて対訳コーパスの作成を説明するための図である。図１４（Ａ）は、一例として、入力コーパスに含まれる第１および第２原文の対の文を示し、図１４（Ｂ）は、図１４（Ａ）に示す第１原文の素片を示し、図１４（Ｃ）は、図１４（Ａ）に示す第１原文に対する４個の換言候補文を示し、図１４（Ｄ）は、図１４（Ａ）に示す第１原文の意味と同じと判定された２個の換言候補文（正しい文）、および、図１４（Ａ）に示す第１原文の意味と同じと判定されなかった２個の換言候補文（正しくない文）を示し、そして、図１４（Ｅ）は、図１４（Ａ）に示す第１原文に対して作成された対訳コーパスを示す。

本実施形態における対訳コーパス作成装置Ｍは、大略、次の動作によって対訳コーパスを作成している。まず、入力部１は、第１言語の第１原文と、前記第１原文を前記第１言語と異なる第２言語で翻訳した第２原文とを受け付ける（受付工程）。次に、換言候補文生成部２は、入力部１により前記受付工程で受け付けた前記第１原文に含まれる複数の素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成する（換言候補文生成工程）。次に、換言文識別部３ａは、換言候補文生成部２により前記換言候補文生成工程で生成した前記複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別する（換言文識別工程）。次に、対訳コーパス作成部４は、換言文識別部３ａにより前記換言文識別工程で識別した１または複数の換言文と前記受付工程で受け付けた前記第２原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成（更新）する（対訳コーパス作成工程）。そして、この作成された対訳コーパスは、対訳コーパス記憶部５に記憶される。以下、図を用いて、より具体的に説明する。

＜入力コーパスの受付および換言ＤＢの選択＞
本実施形態における対訳コーパス作成装置Ｍは、まず、入力コーパスを受け付ける動作を実行し、換言ＤＢを選択する動作を実行する。この入力コーパスの受付動作および換言ＤＢの選択動作では、図６において、まず、対訳コーパス作成装置Ｍは、入力部１によって入力コーパスを受け付けて入力コーパスを取得する（Ｓ１１）。入力コーパスは、第１言語の互いに異なる複数Ｎの第１原文と、前記複数Ｎの第１原文それぞれを前記第２言語で翻訳した複数の第２原文とをそれぞれ対にした複数Ｎの対の文を集めたコーパスである（Ｎは、正の整数である）。第１および第２原文が１つずつ対訳コーパス作成装置Ｍに入力部１から入力されても良いが、本実施形態では、複数の第１および第２原文を集めた入力コーパスで、効率よく、複数の第１および第２原文が纏めて対訳コーパス作成装置Ｍに入力部１から入力される。

次に、対訳コーパス作成装置Ｍは、換言候補文生成部２によって、所定の基準（選択方法）に基づき入力コーパスと近い換言ＤＢを選択する（Ｓ１２）。より具体的には、換言候補文生成部２の換言ＤＢ選択部２２は、換言ＤＢ記憶部２１に記憶された複数の換言ＤＢのうちから、入力部１で受け付けた入力コーパスにおける複数の第１原文に対応する換言ＤＢを所定の選択方法に従って選択する。

前記所定の選択方法は、上記第１ないし第３態様の選択方法等を用いることができる。各態様の選択方法について、以下に、より具体的に説明する。

第１態様の選択方法は、上述したように、複数の換言ＤＢのうちから言語モデルが最も近い換言ＤＢを選択する方法である。この第１態様の選択方法では、まず、換言ＤＢ記憶部２１に記憶されている各換言ＤＢの各分類ごとに各言語モデルが予め作成される。各分類ごとに各言語モデルが作成されるので、各分類それぞれについて、当該分類をより正確に反映した言語モデルが作成でき、より適した換言ＤＢを選択できる。各言語モデルを作成するために、各換言ＤＢの各分類ごとに各コーパスが用意される。これら各コーパスそれぞれは、上述のように各分類ごとに用意された各学習データ集における正解の文を集めてそれぞれ作成されて良い。その後、この第１態様の選択方法では、例えば、次の第１Ａ態様と第１Ｂ態様の２つの方法が挙げられる。

第１Ａ態様では、換言ＤＢ選択部２２は、入力部１で受け付けた第１原文の言語モデルを、各換言ＤＢの各分類ごとに作成した言語モデルで、各換言ＤＢの各分類ごとに求める。そして、換言ＤＢ選択部２２は、各換言ＤＢの各分類ごとに求めた前記第１原文の言語モデルを比較し、最も近い言語モデルを選択する。

本実施形態では、第１原文は、入力コーパスとして複数あるので、換言ＤＢ選択部２２は、上述の各処理を入力部１で受け付けた入力コーパスにおける複数の第１原文それぞれについて、実行し、前記最も近い言語モデルとして選択された回数が最も多い言語モデルを最終的に選択する。あるいは、換言ＤＢ選択部２２は、入力部１で受け付けた第１原文の言語モデルを、各換言ＤＢの各分類ごとに作成した言語モデルで、各換言ＤＢの各分類ごとに求め、その平均値を各換言ＤＢの各分類ごとに求める。そして、換言ＤＢ選択部２２は、各換言ＤＢの各分類ごとに求めた各平均値を比較し、最も近い言語モデルを最終的に選択する。

そして、換言ＤＢ選択部２２は、この選択された言語モデルに対応する換言ＤＢを選択する。

第１Ｂ態様では、第１原文は、入力コーパスとして複数あるので、まず、換言ＤＢ選択部２２は、入力部１で受け付けた入力コーパスの言語モデルを作成する。次に、換言ＤＢ選択部２２は、入力部１で受け付けた入力コーパスにおける複数の第１原文それぞれについて、当該第１原文の言語モデルを、各換言ＤＢの各分類ごとに作成した言語モデルで、各換言ＤＢの各分類ごとに求める。そして、換言ＤＢ選択部２２は、入力コーパスの言語モデルに最も近い言語モデルを選択する。より詳しくは、換言ＤＢ選択部２２は、入力部１で受け付けた入力コーパスにおける複数の第１原文それぞれについて、入力コーパスの言語モデルと各換言ＤＢの各分類ごとに求めた言語モデルとを比較し、最も近い言語モデルを選択し、この選択された回数が最も多い言語モデルと、入力コーパスの言語モデルに最も近い言語モデルとして最終的に選択する。そして、換言ＤＢ選択部２２は、この選択された言語モデルに対応する換言ＤＢを選択する。この第１Ｂ態様の選択方法は、入力コーパスの言語モデルを、各換言ＤＢの各分類を比較するための基準として作成するので、第１Ａ態様の選択方法に較べて、各換言ＤＢの各分類のうちから、より入力コーパスに近い換言ＤＢの分類（すなわち、換言ＤＢ）を選択できる。

言語モデルは、言語モデル間で比較可能であれば、任意のモデルであって良いが、ここでは、Ｎ−ｇｒａｍ言語モデルを用いた場合について、第１Ａおよび第１Ｂ態様それぞれの一具体例について、図１１を用いて説明する。図１１（Ａ）は、第１Ｂ態様の場合を示し、図１１（Ｂ）は、第１Ａ態様の場合を示す。

Ｎ−ｇｒａｍ言語モデルは、統計的言語モデルの一つとして知られており、Ｎ語の出現確率を求めるものである。例えば、旅行用の換言ＤＢにおける言語モデル（旅行用の言語モデル）が作成される場合、旅行に関連して用いられる複数の文を集めた旅行コーパスがまず用意される。次に、この旅行コーパスを母集団としてＮ−ｇｒａｍの出現確率が求められる。これによって旅行用の言語モデルが作成される。このような言語モデルの作成が各換言ＤＢの各分類ごとに実行され、各換言ＤＢの各分類ごとに言語モデルが作成される。

このような準備の後に、第１Ｂ態様の選択方法では、入力コーパスの言語モデルが作成され、入力コーパスにおける複数の第１原文それぞれについて、当該第１原文の言語モデルが、各換言ＤＢの各分類ごとに作成した言語モデルで、各換言ＤＢの各分類ごとに求められる。その結果の一例が図１１（Ａ）に示されている。なお、第１原文の言語モデルは、この第１原文に含まれるＮ−ｇｒａｍを求め、この求めたＮ−ｇｒａｍの出現確率を全て乗算することによって求められる。そして、換言ＤＢ選択部２２は、入力コーパスの言語モデルに最も近い言語モデルを選択する。図１１（Ａ）に示す例では、入力コーパスの言語モデルに対し、旅行の言語モデルと交通の言語モデルとを、複数の第１原文それぞれについて、確率の数値を比較すると、旅行の言語モデルの方が、入力コーパスの言語モデルに近いと判定される確率の数値を持つ第１原文の数が多い。このため、旅行の言語モデルが選択され、旅行用の換言ＤＢが選択される。

一方、上述の準備の後に、第１Ａ態様の選択方法では、入力コーパスにおける複数の第１原文それぞれについて、当該第１原文の言語モデルが、各換言ＤＢの各分類ごとに作成した言語モデルで、各換言ＤＢの各分類ごとに求められる。その結果の一例が図１１（Ｂ）に示されている。そして、換言ＤＢ選択部２２は、入力コーパスに最も近い言語モデルを選択する。図１１（Ｂ）に示す例では、旅行の言語モデルと交通の言語モデルとを、複数の第１原文それぞれについて、確率の数値を比較すると、旅行の言語モデルの方が、交通の言語モデルより大きな確率の数値を持つ第１原文の数が多い。このため、旅行の言語モデルが選択され、旅行用の換言ＤＢが選択される。なお、上述したように、それらの平均値で比較が行われても良い。

第２態様の選択方法は、上述したように、複数の換言ＤＢのうちからクラスが最も似ている換言ＤＢを選択する方法である。クラス化は、共通な属性で単語をグループ化することであり、クラスは、そのグループに付与された名称である。例えば、意味クラスは、単語の持つ意味でグループ化することによって形成されたグループの名称であり、一例では、＜地名＞クラスは、地名を表す単語から成るグループの名称であり、他の一例では、＜通貨＞クラスは、通貨を表す単語から成るグループの名称である。また例えば、品詞クラスは、単語の持つ品詞でグループ化することによって形成されたグループの名称であり、一例では、＜名詞＞クラスは、名詞の単語から成るグループの名称であり、他の一例では、＜動詞＞クラスは、動詞の単語から成るグループの名称である。

この第２態様の選択方法では、より具体的には、換言ＤＢ選択部２２は、まず、入力部１で受け付けた第１原文に含まれるクラスを抽出する。次に、換言ＤＢ選択部２２は、各換言ＤＢから、あるいは、各換言ＤＢの各分類ごとに予め用意した各コーパスから、前記抽出した前記第１原文に含まれるクラスと同じクラスを抽出し計数する。なお、前記第１原文に複数のクラスが含まれる場合には、各クラスごとに計数する。そして、換言ＤＢ選択部２２は、計数結果に基づいて、第１原文に最も近い換言ＤＢを選択する。例えば、最も大きい計数値を持つ換言ＤＢが選択される。また例えば、前記第１原文に含まれるクラスと同じクラスを最も多く含む換言ＤＢが選択される。また例えば、クラスごとに、最も大きい計数値を持つ換言ＤＢが選択され、この選択された回数が最も大きい換言ＤＢが選択される。

本実施形態では、第１原文は、入力コーパスとして複数あるので、換言ＤＢ選択部２２は、上述の各処理を入力部１で受け付けた入力コーパスにおける複数の第１原文それぞれについて、実行し、前記最も近い換言ＤＢとして選択された回数が最も多い換言ＤＢを最終的に選択する。あるいは、入力部１で受け付けた入力コーパスにおける複数の第１原文を纏めて上述の各処理が実行されても良い。より詳しくは、換言ＤＢ選択部２２は、入力部１で受け付けた入力コーパスにおける複数の第１原文に含まれるクラスを抽出する。次に、換言ＤＢ選択部２２は、各換言ＤＢから、あるいは、各換言ＤＢの各分類ごとに予め用意した各コーパスから、前記抽出した前記複数の第１原文に含まれるクラスと同じクラスを抽出し計数する。なお、前記第１原文に複数のクラスが含まれる場合には、各クラスごとに計数する。そして、換言ＤＢ選択部２２は、計数結果に基づいて、前記複数の第１原文（すなわち入力コーパス）に最も近い換言ＤＢを選択する。例えば、最も大きい計数値を持つ換言ＤＢが選択される。また例えば、前記複数の第１原文に含まれるクラスと同じクラスを最も多く含む換言ＤＢが選択される。また例えば、クラスごとに、最も大きい計数値を持つ換言ＤＢが選択され、この選択された回数が最も大きい換言ＤＢが選択される。

一具体例では、例えば、図１２（Ａ）に示すように、入力コーパスＣＵｉｎにおける４個の第１原文から、２個の＜地名＞クラスＣＬ１および＜通貨＞クラスＣＬ２が抽出される。入力コーパスＣＵｉｎは、＜地名＞クラスＣＬ１を３個含み、＜通貨＞クラスＣＬ２を１個含む。旅行コーパスＣＵｔｒは、図１２（Ｂ）に示すように、＜地名＞クラスＣＬ１を２個含み、＜通貨＞クラスＣＬ２を１個含む。一方、工場コーパスＣＵｆａは、図１２（Ｃ）に示すように、＜地名＞クラスＣＬ１も＜通貨＞クラスＣＬ２も含まず、代わりに、＜道具＞クラスＣＬ３を２個含む。このため、旅行コーパスＣＵｔｒが選択され、旅行用の換言ＤＢが選択される。

第３態様の選択方法は、上述したように、複数の換言ＤＢのうちから頻出語彙またはユニークな語彙が最も似ている換言ＤＢを選択する方法である。ユニークな語彙は、予め設定される。

この第３態様の選択方法では、より具体的には、換言ＤＢ選択部２２は、まず、入力部１で受け付けた第１原文に含まれるユニークな語彙を抽出する。このユニークな語彙の抽出では、好ましくは、抽出前に、例えば自然言語の文を形態素（一例では当該言語で意味を持つ最小単位）の列に分割する形態素解析等が実行される。次に、換言ＤＢ選択部２２は、各換言ＤＢから、あるいは、各換言ＤＢの各分類ごとに予め用意した各コーパスから、前記抽出した前記第１原文に含まれるユニークな語彙と同じ語彙を抽出し計数する。なお、前記第１原文に複数のユニークな語彙が含まれる場合には、各ユニークな語彙ごとに計数する。そして、換言ＤＢ選択部２２は、計数結果に基づいて、第１原文に最も近い換言ＤＢを選択する。例えば、最も大きい計数値を持つ換言ＤＢが選択される。また例えば、前記第１原文に含まれるユニークな語彙と同じユニークな語彙を最も多く含む換言ＤＢが選択される。また例えば、ユニークな語彙ごとに、最も大きい計数値を持つ換言ＤＢが選択され、この選択された回数が最も大きい換言ＤＢが選択される。

本実施形態では、第１原文は、入力コーパスとして複数あるので、換言ＤＢ選択部２２は、上述の各処理を入力部１で受け付けた入力コーパスにおける複数の第１原文それぞれについて、実行し、前記最も近い換言ＤＢとして選択された回数が最も多い換言ＤＢを最終的に選択する。なお、この場合では、ユニークな語彙に代え、入力コーパスから頻出語彙が抽出され、この抽出した頻出語彙が用いられても良い。頻出語彙は、例えば、予め設定された閾値（頻出回数閾値）以上の回数で入力コーパスに出現する語彙である。前記頻出回数閾値は、複数のサンプルを用いることによって、例えば、２、３、５、１０等の換言ＤＢを好適に選択するために、適宜な値に設定される。また例えば、各語彙ごとに出現回数が総計され、出現回数上位２割が頻出語彙に設定されてもよい。あるいは、入力部１で受け付けた入力コーパスにおける複数の第１原文を纏めて上述の各処理が実行されても良い。より詳しくは、換言ＤＢ選択部２２は、入力部１で受け付けた入力コーパスにおける複数の第１原文に含まれるユニークな語彙（または頻出語彙）を抽出する。次に、換言ＤＢ選択部２２は、各換言ＤＢから、あるいは、各換言ＤＢの各分類ごとに予め用意した各コーパスから、前記抽出した前記複数の第１原文に含まれるユニークな語彙（または頻出語彙）と同じユニークな語彙（または頻出語彙）を抽出し計数する。なお、前記第１原文に複数のユニークな語彙（または頻出語彙）が含まれる場合には、各ユニークな語彙（または頻出語彙）ごとに計数する。そして、換言ＤＢ選択部２２は、計数結果に基づいて、前記複数の第１原文（すなわち入力コーパス）に最も近い換言ＤＢを選択する。例えば、最も大きい計数値を持つ換言ＤＢが選択される。また例えば、前記複数の第１原文に含まれるユニークな語彙（または頻出語彙）と同じユニークな語彙（または頻出語彙）を最も多く含む換言ＤＢが選択される。また例えば、ユニークな語彙（または頻出語彙）ごとに、最も大きい計数値を持つ換言ＤＢが選択され、この選択された回数が最も大きい換言ＤＢが選択される。

一具体例では、例えば、図略の入力コーパスが形態素解析され、名詞が抽出され、これら抽出された名詞から２回以上出現する名詞が頻出語彙として抽出される。名詞の抽出結果および頻出語彙が図１３（Ａ）に示されている。前記入力コーパスには、頻出語彙ＦＷ１が４回出現し、頻出語彙ＦＷ２が４回出現し、頻出語彙ＦＷ３が２回出現し、頻出語彙ＦＷ４が２回出現し、頻出語彙ＦＷ５が２回出現し、そして、頻出語彙ＦＷ６が２回出現している。図略の旅行コーパスが形態素解析され、名詞が抽出され、これら抽出された名詞から２回以上出現する名詞が頻出語彙として抽出される。名詞の抽出結果および頻出語彙が図１３（Ｂ）に示されている。同様に、図略の工場コーパスが形態素解析され、名詞が抽出され、これら抽出された名詞から２回以上出現する名詞が頻出語彙として抽出される。名詞の抽出結果および頻出語彙が図１３（Ｃ）に示されている。この結果、旅行コーパスでは、頻出語彙ＦＷ１の出現回数が２回であり、頻出語彙ＦＷ６の出現回数が２回であり、そして、頻出語彙ＦＷ２の出現回数が２回である。一方、工場コーパスには、頻出語彙ＦＷ１〜ＦＷ６が出現されず、工場コーパスでは、頻出語彙ＦＷ６の出現回数が３回であり、頻出語彙ＦＷ７の出現回数が２回であり、そして、頻出語彙ＦＷ８の出現回数が２回である。このため、旅行コーパスが選択され、旅行用の換言ＤＢが選択される。

図６に戻って、次に、対訳コーパス作成装置Ｍは、換言候補文生成部２の換言ＤＢ選択部２２によって、処理Ｓ１２で選択した換言ＤＢに付与されているＩＤを取得し、この取得したＩＤを換言文識別部３ａへ出力し（Ｓ１３）、この入力コーパスの受付動作および換言ＤＢの選択動作を終了する。

このような動作によって、対訳コーパス作成装置Ｍは、入力コーパスを入力部１で受け付け、入力部１で受け付けた入力コーパスに対応する換言ＤＢを選択する。

＜換言候補文の生成＞
次に、本実施形態における対訳コーパス作成装置Ｍは、換言候補文を生成する動作を実行する。この換言候補文の生成動作では、図７において、まず、対訳コーパス作成装置Ｍは、換言候補文生成部２の換言部２３によって、上述の処理Ｓ１１ないし処理Ｓ１３の各処理によって選択された換言ＤＢを換言ＤＢ記憶部２１から取得する（Ｓ２１）。

次に、対訳コーパス作成装置Ｍは、入力部１で受け付けた入力コーパスにおける複数Ｎの第１原文全てに対し、以下の処理Ｓ２２および処理Ｓ２３を行う（Ｎは正の整数）。

処理Ｓ２２では、対訳コーパス作成装置Ｍは、換言部２３によって、入力部１で受け付けた入力コーパスにおける第１原文に含まれる複数の素片のうちに、前記選択された換言ＤＢの第１素片に一致する素片があるか否かを判定し、この判定の結果、一致する素片が有る場合には、前記第１原文に含まれる、前記一致する素片を、前記換言ＤＢの第１素片に対応付けられている第２素片に置き換えて換言する（Ｓ２２）。これによって第１原文に対し１個の換言候補文が生成される。

処理Ｓ２３では、対訳コーパス作成装置Ｍは、換言部２３によって、前記処理Ｓ２２で処理した前記第１原文が素片をまだ置き換えて換言可能であるか否かを判定し、この判定の結果、置き換えて換言可能である場合（Ｙｅｓ）には、処理を処理Ｓ２２に戻し、一方、置き換えて換言できない場合（Ｎｏ）には、この換言候補文の生成動作の処理を終了する。処理Ｓ２３で処理が処理Ｓ２２に戻される場合には、第１原文に対しさらに他の１個の換言候補文が生成される。この結果、第１原文に対し複数の換言候補文が生成される。なお、換言回数が制限されても良い。すなわち、換言可能であっても換言回数が制限値に到達した場合には、換言候補文の生成動作が終了される。換言回数の制限値は、１回を含む任意の値であって良い。

図１４を用いて一具体例を挙げて説明する。図１４では、入力コーパスには、図１４（Ａ）に示すように、第１言語の第１原文ＯＳ１と、この第１原文ＯＳ１を第２言語で翻訳した第２原文ＯＳ２が含まれている。この第１原文ＯＳ１は、図１４（Ｂ）に示すように、５個の素片ＳＤ１１〜ＳＤ１５から構成されている。上述の処理Ｓ１１ないし処理Ｓ１３の各処理によって選択された換言ＤＢには、次のように第１および第２素片ＳＤ１１ｋ、ＳＤ１２ｋが互いに対応付けられている（ｋは、この例では１〜６の整数である）。素片ＳＤ１１に一致する第１素片ＳＤ１１１（不図示）（ＳＤ１１＝ＳＤ１１１）には、第２素片ＳＤ１２２（図１４（Ｃ）参照）が対応付けられている（ＳＤ１１１⇔ＳＤ１２２）。素片ＳＤ１３に一致する第１素片ＳＤ１１２（不図示）には、第２素片ＳＤ１２３（図１４（Ｃ）参照）が対応付けられている。さらに、素片ＳＤ１３に一致する第１素片ＳＤ１１５（不図示）（ＳＤ１３＝ＳＤ１１５）には、ｎｕｌｌ（空値）の第２素片ＳＤ１２５（図１４（Ｃ）参照）が対応付けられている（ＳＤ１１５⇔ＳＤ１２５）。素片ＳＤ１５に一致する第１素片ＳＤ１１１（不図示）（ＳＤ１５＝ＳＤ１１１）には、第２素片ＳＤ１２１（図１４（Ｃ）参照）が対応付けられている（ＳＤ１１１⇔ＳＤ１２１）。さらに、素片ＳＤ１５に一致する第１素片ＳＤ１１４（不図示）には（ＳＤ１５＝ＳＤ１４４）、第２素片ＳＤ１２４（図１４（Ｃ）参照）が対応付けられている（ＳＤ１４４⇔ＳＤ１２４）。さらに、素片ＳＤ１５に一致する第１素片ＳＤ１１６（不図示）（ＳＤ１５＝ＳＤ１１６）には、第２素片ＳＤ１２６（図１４（Ｃ）参照）が対応付けられている（ＳＤ１１６⇔ＳＤ１２６）。

このような場合に、図１４（Ｂ）および図１４（Ｃ）に示すように、第１原文ＯＳ１において、処理Ｓ２２および処理Ｓ２３によって、素片ＳＤ１５が第２素片ＳＤ１２１に置き換えられて換言され、第１原文ＯＳ１から換言候補文ＣＳ１１が生成される。次の処理Ｓ２２および処理Ｓ２３によって、素片ＳＤ１１が第２素片ＳＤ１２２に置き換えられて換言され、第１原文ＯＳ１から換言候補文ＣＳ１２が生成される。次の処理Ｓ２２および処理Ｓ２３によって、素片ＳＤ１３、ＳＤ１５がそれぞれ第２素片ＳＤ１２３、ＳＤ１２４に置き換えられて換言され、第１原文ＯＳ１から換言候補文ＣＳ１３が生成される。そして、次の処理Ｓ２２および処理Ｓ２３によって、素片ＳＤ１３、ＳＤ１５がそれぞれ第２素片ＳＤ１２５、ＳＤ１２６に置き換えられて換言され、第１原文ＯＳ１から換言候補文ＣＳ１４が生成される。このように１個の第１原文ＯＳ１から４個の換言候補文ＣＳ１１〜ＣＳ１４が生成される。

このような動作によって、対訳コーパス作成装置Ｍは、入力部１で受け付けた入力コーパスにおける複数の第１原文それぞれに対し複数の換言候補文を生成する。

＜学習データ集の選択＞
次に、本実施形態における対訳コーパス作成装置Ｍは、学習データ集を選択する動作を実行する。この学習データ集の選択動作では、図８において、まず、対訳コーパス作成装置Ｍは、換言文識別部３ａの学習データ選択部３２ａによって、上述の処理Ｓ１３で換言ＤＢ選択部２２によって取得された換言ＤＢのＩＤを換言ＤＢ選択部２２から取得する（Ｓ３１）。

そして、対訳コーパス作成装置Ｍは、学習データ選択部３２ａによって、学習データ記憶部３１ａに記憶された複数の学習データ集のうちから、この処理Ｓ３１で取得したＩＤを持つ学習データ集を選択し（Ｓ３２）、この学習データ集の選択動作の処理を終了する。

このような動作によって、対訳コーパス作成装置Ｍは、入力部１で受け付けた入力コーパスに対応する学習データ集を選択する。

なお、上述では、互いに対応する同分類の換言ＤＢと学習データ集とに同じＩＤが付与され、換言ＤＢの選択動作で選択された換言ＤＢのＩＤに基づいて学習データ集が選択されたが、ＩＤを用いずに、換言ＤＢの選択動作と同様の処理によって、学習データ記憶部３１ａに記憶された複数の学習データ集のうちから、入力部１で受け付けた入力コーパスに対応する学習データ集が選択されても良い。

すなわち、第１態様の選択方法では、換言ＤＢの選択動作における第１態様の選択方法と同様の処理によって、複数の学習データ集のうちから言語モデルが最も近い学習データ集が選択される。第２態様の選択方法では、換言ＤＢの選択動作における第２態様の選択方法と同様の処理によって、複数の学習データ集のうちからクラスが最も似ている学習データ集が選択される。第３態様の選択方法では、換言ＤＢの選択動作における第３態様の選択方法と同様の処理によって、複数の学習データ集のうちから頻出語彙またはユニークな語彙が最も似ている学習データ集が選択される。

ここで、学習データ集の選択動作では、さらに、次の第４態様の選択方法も採用できる。この第４態様の選択方法は、複数の学習データ集のうちから文長が最も似ている学習データ集を選択する方法である。文長は、例えば、総文字数である。また例えば、文長は、総単語数である。

この第４態様の選択方法では、より具体的には、学習データ選択部３２ａは、まず、入力部１で受け付けた第１原文の文長を求める。そして、学習データ選択部３２ａは、各学習データ集ごとに、前記求めた第１原文の文長との差異を求め、前記求めた第１原文の文長に最も近い文長を持つ学習データ集を選択する。この場合、学習データ集の文長は、例えば、当該学習データ集のうちで最頻出の文長である。あるいは、学習データ選択部３２ａは、各学習データ集ごとに、当該学習データ集における各データそれぞれと前記求めた第１原文の文長との各差異を求めてその平均差異を求め、前記求めた各平均差異のうちの最も小さい平均差異を持つ学習データ集を前記第１原文の文長に最も近い学習データ集として選択する。

本実施形態では、第１原文は、入力コーパスとして複数あるので、学習データ選択部３２ａは、上述の各処理を入力部１で受け付けた入力コーパスにおける複数の第１原文それぞれについて、実行し、前記最も近い学習データ集として選択された回数が最も多い学習データ集を最終的に選択する。あるいは、学習データ選択部３２ａは、入力部１で受け付けた入力コーパスの文長を求め、各学習データ集ごとに、前記求めた入力コーパスの文長との差異を求め、前記求めた入力コーパスの文長に最も近い文長を持つ学習データ集を選択する。この場合、入力コーパスの文長は、例えば、当該入力コーパスのうちで最頻出の文長である。

＜識別モデルの生成＞
次に、本実施形態における対訳コーパス作成装置Ｍは、識別モデルを生成する動作を実行する。この識別モデルの生成動作では、図９において、まず、対訳コーパス作成装置Ｍは、換言文識別部３ａのモデル生成部３３によって、上述の処理Ｓ３１および処理Ｓ３２の各処理によって選択された学習データ集を学習データ記憶部３１ａから取得する（Ｓ４１）。

次に、対訳コーパス作成装置Ｍは、モデル生成部３３によって、学習データ選択部３２ａで選択した学習データ集に基づいて、識別モデルを、所定の基準（素性）に基づく機械学習によって生成する（Ｓ４２）。例えば、形態素解析後、Ｎ−ｇｒａｍ言語モデルやＢａｇ−Ｏｆ−Ｗｏｒｄｓ等の語彙の出現頻度等を素性として深層学習で識別モデルが形成される。

このような動作によって、対訳コーパス作成装置Ｍは、換言文識別部３ａに識別モデルを生成する。

＜換言文の識別および対訳コーパスの作成＞
次に、本実施形態における対訳コーパス作成装置Ｍは、識別モデルに基づいて換言候補文から換言文を識別する動作を実行し、そして、その識別結果に基づいて対訳コーパスを作成する動作を実行する。この換言文の識別動作および対訳コーパスの作成動作では、図１０において、まず、対訳コーパス作成装置Ｍは、換言文識別部３ａの識別部３４によって、モデル生成部３３で生成した識別モデルを取得する（Ｓ５１）。

次に、対訳コーパス作成装置Ｍは、識別部３４によって、上述の処理Ｓ２１ないし処理Ｓ２３の各処理によって生成した複数の換言候補文を取得する（Ｓ５２）。

次に、対訳コーパス作成装置Ｍは、この処理Ｓ５２によって取得した複数Ｍの換言候補文全てに対し、以下の処理Ｓ５３を行う（Ｍは、正の整数）。

この処理Ｓ５３では、対訳コーパス作成装置Ｍは、上述の処理Ｓ４１および処理Ｓ４２によって生成して処理Ｓ５１で取得した識別モデルに基づいて、同じ意味の文として正しい文であるか否かを判定する。この判定の結果、同じ意味の文として正しい文であると判定された場合（Ｙｅｓ）には、識別部３４は、判定対象の換言候補文を換言文とし、一方、同じ意味ではなく正しい文ではないと判定された場合（Ｎｏ）には、識別部３４は、判定対象の換言候補文を換言文としない。

例えば、図１４に示す一具体例では、図１４（Ｃ）に示す４個の換言候補文ＣＳ１１〜ＣＳ１４それぞれについて、処理Ｓ５３が実行され、その結果、図１４（Ｄ）に示すように、２個の換言候補文ＣＳ１１、ＣＳ１３が同じ意味の文として正しい文とされ、換言文とされる一方、２個の換言候補文ＣＳ１２、ＣＳ１４が同じ意味ではなく正しくない文とされる。

このような処理によって、識別部３４は、モデル生成部３３で生成した識別モデルに基づいて、換言候補文生成部２で生成した複数の換言候補文から第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別する。

続いて、対訳コーパス作成装置Ｍは、対訳コーパス作成部４によって、上述の処理Ｓ５３の識別結果に基づいて新コーパスを作成し、この作成した新コーパスを、対訳コーパス記憶部５に記憶されている既存の対訳コーパスと対にして（対応付けて）対訳コーパス記憶部５に記憶して対訳コーパスを作成し（Ｓ５４）、この換言文の識別動作および対訳コーパスの作成動作を終了する。より具体的には、対訳コーパス作成部４は、上述の処理Ｓ５３で識別した１または複数の換言文と上述の処理Ｓ１１で受け付けた第２原文とを対の文とすることによって新たな対の文を生成する。例えば、図１４に示す一具体例では、正しい文とされ換言文とされた図１４（Ｄ）に示す換言候補文ＣＳ１１と図１４（Ａ）に示す第２原文ＯＳ２とが、図１４（Ｅ）の中段に示すように、新たな対の文とされ、正しい文とされ換言文とされた図１４（Ｄ）に示す換言候補文ＣＳ１３と図１４（Ａ）に示す第２原文ＯＳ２とが、図１４（Ｅ）の下段に示すように、新たな対の文とされる。なお、上述では１対１で新たな対とされたが、換言文とされた換言候補文ＣＳ１１、ＣＳ１３と第２原文ＯＳ２とが多対１の新たな対の文とされても良い。そして、このような処理が入力コーパスにおける複数Ｎの第１原文および第２原文それぞれについて実行され、入力コーパスにおける複数Ｎの第１原文および第２原文それぞれに対応する複数の新たな対の文が集められ、新コーパスとされる。なお、この新コーパスには、入力コーパス自体が含まれても良い。そして、対訳コーパス作成部４は、このように作成した新コーパスを、対訳コーパス記憶部５に記憶されている既存の対訳コーパスと対にして（対応付けて）対訳コーパス記憶部５に記憶することで対訳コーパスを作成する。なお、対訳コーパス記憶部５に既存の対訳コーパスが記憶されていない場合には、対訳コーパス作成部４は、このように作成した新コーパスを新たな対訳コーパスとして対訳コーパス記憶部５に記憶しても良い。

このような動作によって、対訳コーパス作成装置Ｍは、対訳コーパスを作成する。

以上説明したように、本実施形態における対訳コーパス作成装置Ｍならびにこれに実装された対訳コーパス作成方法および対訳コーパス作成プログラムは、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成装置Ｍ、該方法および該プログラムは、対訳コーパスの作成を改善できる。特に、通常、より多くの対の文を集積した対訳コーパスの作成には、対の文の収集に手間や時間を要するため、比較的大きなコストがかかる。しかしながら、上記対訳コーパス作成装置Ｍ、該方法および該プログラムは、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、１個の対の文の収集に要する単価が低減できる。

ここで、前記特許文献３には、例えば機械翻訳装置の前処理に使用され、入力された原表現を、意味が同じで後の処理のために好適な別の表現に変換する（換言する）ための自動換言装置、自動換言方法および換言処理プログラムに関する技術が提案されている。より具体的には、前記特許文献３に開示された自動換言装置は、所定言語の第１の用例文群において出現する表現素片を、前記表現素片の各々の前記第１の用例文群における出現度数とともに記憶するための表現素片記憶手段と、前記所定言語の第２の用例文群中の用例文の各々に対する１個又は複数個の換言文を、当該換言文を得る際の換言の態様を示す換言情報とともに記憶するための換言文記憶手段と、前記第２の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶するための換言情報記憶手段と、換言対象となる原文を受け、前記表現素片記憶手段に記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文記憶手段に記憶されている換言文の中から検索するための検索手段と、前記検索手段により検索された換言文の各々に対し、対応する元の用例文との間の換言、及び前記原文との間の換言に関して、前記換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価するための評価手段と、前記換言文記憶手段において、前記評価手段により評価された妥当性スコアが所定の条件を充足する換言文に対応付けられた換言情報を前記原文に対し逆方向に適用することにより、前記原文に対する換言文を生成するための原文換言手段とを含む。

このように前記特許文献３に開示された自動換言装置は、機械翻訳装置に入力された原表現を、前記機械翻訳装置にとって翻訳し易い表現に換言した換言文を生成する装置である。このため、前記特許文献３に開示された自動換言装置は、１個の入力文に対し１個の換言文を生成するだけであり、複数の換言文を生成しない。さらに、前記特許文献３に開示された自動換言装置は、この生成した換言文を対訳コーパスに追加しておらず、対訳コーパスを生成していない。したがって、前記特許文献３は、上述の実施形態を開示も示唆もしていない。

また、前記特許文献４には、音声対話システムのために、類似文を作成する技術が提案されている。より具体的には、前記特許文献４に開示された装置は、同一意図の類似文を作成する装置であって、任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、類義語データベースを用いて、シード語に類似する１つ以上の類義語を検索する類義語検索手段と、前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、シード語と各類義語とが共起する類似文を作成する類似文作成手段としてコンピュータを機能させる。

このように前記特許文献４は、音声対話システムに関する文献であり、機械翻訳を想定していない。したがって、前記特許文献４では、対訳コーパスが作成されない。そして、前記特許文献４に開示された装置は、同一意図の類似文を作成する装置であるので、作成された類似文の意味がその元の文の意味と必ずしも同じであるとは限らない。したがって、前記特許文献４は、上述の実施形態を開示も示唆もしていない。

また、上記対訳コーパス作成装置Ｍ、該方法および該プログラムは、換言ＤＢ記憶部２１に記憶された複数の換言ＤＢのうちから、入力部１で受け付けた第１原文に対応する換言ＤＢを選択し、この選択した換言ＤＢに基づいて前記第１原文に対する複数の換言候補文を生成するので、前記第１原文に対し、より好適な換言候補文を生成でき、より高精度な対訳コーパスを作成できる。

また、上記対訳コーパス作成装置Ｍ、該方法および該プログラムは、学習データ記憶部３１ａに記憶された複数の学習データ集のうちから、入力部１で受け付けた第１原文に対応する学習データ集を選択し、この選択した前記学習データ集に基づいて生成した識別モデルで前記複数の換言候補文から前記１または複数の換言文を識別するので、前記第１原文に対し、より好適な換言文を識別でき、より高精度な対訳コーパスを作成できる。

なお、上述の実施形態では、対訳コーパス作成装置Ｍは、学習データ記憶部３１ａに所定の分類法に従って分類された複数の学習データ集を記憶し、これら複数の学習データ集のうちから、入力部１で受け付けた第１原文に対応する学習データ集を選択したが、分類することなく、様々な分類に属する複数のデータから成る１つの学習データ集を記憶し、この１つの学習データ集から、入力部１で受け付けた第１原文に対応するデータを選択して実際に識別モデルを生成するための学習データ集を作成しても良い。このような変形形態の換言文識別部を備える対訳コーパス作成装置Ｍについて、以下に、より具体的に説明する。

図１５は、前記対訳コーパス作成装置における換言文識別部の変形形態の構成を示すブロック図である。図１６は、前記変形形態の換言文識別部の動作を説明するための図である。

この変形形態では、対訳コーパス作成装置Ｍは、上述の換言文識別部３ａに代え、換言文識別部３ｂを備える。すなわち、この変形形態の換言文識別部３ｂを備える対訳コーパス作成装置Ｍは、図１に示すように、入力部１と、換言候補文生成部２と、換言文識別部３ｂと、対訳コーパス作成部４と、対訳コーパス記憶部５とを備える。これら入力部１、換言候補文生成部２、対訳コーパス作成部４および対訳コーパス記憶部５は、上述と同様であるので、その説明を省略する。

この変形形態の換言文識別部３ｂは、例えば、図１５に示すように、学習データ記憶部３１ｂと、学習データ選択部３２ｂと、モデル生成部３３と、識別部３４とを備える。これらモデル生成部３３および識別部３４は、上述と同様であるので、その説明を省略する。

学習データ記憶部３１ｂは、学習データ選択部３２ｂに接続され、学習データ集を記憶するものである。学習データ集は、換言候補文の意味が第１原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成るが、この変形形態では、分類されることなく、様々な分類に属する複数のデータから成る１つのデータ集である。例えば、この変形形態の学習データ集は、上述した、工場用の学習データ集に含まれる複数のデータ、旅行用の学習データ集に含まれる複数のデータ、買物用の学習データ集に含まれる複数のデータ、医療用の学習データ集に含まれる複数のデータおよび鉄道用の学習データ集に含まれる複数のデータから成る。この変形形態の学習データ集の一具体例が学習データ集ＬＴｃとして図１６に示されている。図１６に示す例では、例えば、データ３０５−１は、旅行の分類に属するデータであり、データ３０５−４は、買物の分類に属するデータであり、データ３０５−８は、工場の分類に属するデータである。

学習データ選択部３２ｂは、入力部１およびモデル生成部３３それぞれに接続され、学習データ記憶部３１ｂに記憶された学習データ集のうちから、入力部１で受け付けた第１原文に対応するデータを所定の選択方法に従って選択するものである。前記所定の選択方法には、例えば、上述した学習データ選択部３２ａで用いられる選択方法と同様の選択方法が採用できる。学習データ選択部３２ｂは、その選択結果をモデル生成部３３へ出力する。

このような変形形態の換言文識別部３ｂを備える対訳コーパス作成装置Ｍは、換言ＤＢの選択動作では、図６に示す上述した処理Ｓ１１および処理Ｓ１２を実行し（処理Ｓ１３は実行されない）、換言候補文の生成動作では、図７に示す上述した処理Ｓ２１ないし処理Ｓ２３を実行する。

続いて、この対訳コーパス作成装置Ｍは、学習データ集からデータを選択するデータ選択動作では、図８に示す上述した処理Ｓ３１および処理Ｓ３２の実行に代え、換言文識別部３ｂの学習データ選択部３２ｂによって、学習データ記憶部３１ｂに記憶された学習データ集のうちから、処理Ｓ１１で取得した入力コーパスの第１原文に対応するデータを所定の選択方法に従って選択する。例えば、図１６に示す例では、学習データ選択部３２ｂによって、入力部１で受け付けた第１原文ＯＳ３に対応するデータとして、太枠で囲った３個のデータ３０５−１、３０５−２、３０５−３が選択される。

そして、この対訳コーパス作成装置Ｍは、識別モデルの生成動作では、上述のように学習データ選択部３２ｂによって選択されたデータを用いて、図９に示す上述した処理Ｓ４１および処理Ｓ４２を実行し、換言文の識別動作および対訳コーパスの作成動作では、図１０に示す上述した処理Ｓ５１ないし処理Ｓ５４を実行する。

この変形形態の換言文識別部３ｂを備える対訳コーパス作成装置Ｍは、このような動作によって、対訳コーパスを作成する。

このような対訳コーパス作成装置Ｍ、該方法および該プログラムは、学習データ記憶部３１ｂに記憶された学習データ集のうちから、入力部１で受け付けた第１原文に対応するデータを選択し、この選択した前記データに基づいて生成した識別モデルで前記複数の換言候補文から前記１または複数の換言文を識別するので、前記第１原文に対し、より好適な換言文を識別でき、より高精度な対訳コーパスを作成できる。また、この対訳コーパス作成装置Ｍ、該方法および該プログラムは、学習データ集のデータを分類する手間や時間を省略できる。

また、上述の実施形態では、対訳コーパス作成装置Ｍは、入力部１から入力された第１および第２原文のうちの前記第１原文から複数の換言候補文を介して１または複数の換言文を求め、この求めた１または複数の換言文と前記第２原文とを新たな対の文とすることによって、対訳コーパスを作成したが、さらに、前記第２原文から複数の第２換言候補文を介して１または複数の第２換言文を求め、この求めた１または複数の第２換言文と前記第１原文とを新たな対の文とすることによって、対訳コーパスを作成しても良い。

図１７は、一具体例を用いて前記対訳コーパス作成装置の変形形態を説明するための図である。このような変形形態の対訳コーパス作成装置Ｍでは、換言候補文生成部２は、入力部１で受け付けた前記第２原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第２原文に対する複数の第２換言候補文をさらに生成する。換言文識別部３ａ（３ｂ）は、換言候補文生成部２で生成した前記複数の第２換言候補文から前記第２原文の意味と同じ意味の１または複数の第２換言候補文を１または複数の第２換言文としてさらに識別する。対訳コーパス作成部４は、換言文識別部３ａ（３ｂ）で識別した１または複数の第２換言文と入力部１で受け付けた前記第１原文とを対の文とすることによって新たな第２対の文をさらに生成し、前記生成した新たな第２対の文で新たな対訳コーパスをさらに作成する、または、前記生成した新たな第２対の文を既存の対訳コーパスに追加することによって対訳コーパスをさらに作成する。なお、この場合において、対訳コーパス作成部４は、前記第１原文に基づいて生成された換言文（第１換言文）と前記第２原文に基づいて生成された第２換言文とを対の文とすることによって新たな第２対の文をさらに生成し、前記生成した新たな第２対の文で新たな対訳コーパスをさらに作成する、または、前記生成した新たな第２対の文を既存の対訳コーパスに追加することによって対訳コーパスをさらに作成しても良い。

上述した図１４に示す第１および第２原文ＯＳ１、ＯＳ２を用いて一具体例を挙げて説明する。この例では、第２原文ＯＳ２は、図１７（Ｂ）下段に示すように、４個の素片ＳＤ２１〜ＳＤ２４から構成されている。上述の処理Ｓ１１ないし処理Ｓ１３の各処理によって選択された換言ＤＢには、次の第１および第２素片ＳＤ２１ｋ、ＳＤ２２ｋが互いに対応付けられている（ｋは、この例では１〜４の整数である）。素片ＳＤ２２に一致する第１素片ＳＤ２１１（不図示）（ＳＤ２２＝ＳＤ２１１）には、第２素片ＳＤ２２１（図１７（Ｃ）下段参照）が対応付けられている（ＳＤ２１１⇔ＳＤ２２１）。そして、素片ＳＤ２２に一致する第１素片ＳＤ２１２（不図示）には、第２素片ＳＤ２２２（図１７（Ｃ）下段参照）が対応付けられている。さらに、素片ＳＤ２２に一致する第１素片ＳＤ２１４（不図示）（ＳＤ２２＝ＳＤ２１４）には、第２素片ＳＤ２２４（図１７（Ｃ）下段参照）が対応付けられている（ＳＤ２１４⇔ＳＤ２２４）。素片ＳＤ２４に一致する第１素片ＳＤ２１３（不図示）（ＳＤ２４＝ＳＤ２１３）には、第２素片ＳＤ２２３（図１７（Ｃ）下段参照）が対応付けられている（ＳＤ２１３⇔ＳＤ２２３）。

このような場合に第２原文ＯＳ２に基づく第２換言候補文の生成では、図１７（Ｂ）および図１７（Ｃ）に示すように、第２原文ＯＳ２において、最初の処理Ｓ２２および処理Ｓ２３によって、素片ＳＤ２２が第２素片ＳＤ２２１に置き換えられて換言され、第２原文ＯＳ２から第２換言候補文ＣＳ２１が生成される。次の処理Ｓ２２および処理Ｓ２３によって、素片ＳＤ２２が第２素片ＳＤ２２２に置き換えられて換言され、第２原文ＯＳ２から第２換言候補文ＣＳ２２が生成される。次の処理Ｓ２２および処理Ｓ２３によって、素片ＳＤ２４が第２素片ＳＤ２２３に置き換えられて換言され、第２原文ＯＳ２から第２換言候補文ＣＳ２３が生成される。そして、次の処理Ｓ２２および処理Ｓ２３によって、素片ＳＤ２２、ＳＤ２４がそれぞれ第２素片ＳＤ２２４、ＳＤ２２３に置き換えられて換言され、第２原文ＯＳ２から第２換言候補文ＣＳ２４が生成される。このように１個の第２原文ＯＳ２から４個の第２換言候補文ＣＳ２１〜ＣＳ２４が生成される。

換言文の識別では、図１７（Ｃ）に示す４個の第２換言候補文ＣＳ２１〜ＣＳ２４それぞれについて、処理Ｓ５３が実行され、その結果、図１７（Ｄ）に示すように、２個の換言候補文ＣＳ２１、ＣＳ２４が同じ意味の文として正しい文とされ、第２換言文とされる一方、２個の換言候補文ＣＳ２２、ＣＳ２３が同じ意味ではなく正しくない文とされる。

対訳コーパスの作成では、前記正しい文とされ第２換言文とされた図１７（Ｄ）３段目に示す第２換言候補文ＣＳ２１と図１７（Ａ）に示す第１原文ＯＳ１とが、図１７（Ｅ）４段目に示すように、新たな対の文とされ、前記正しい文とされ換言文とされた図１７（Ｄ）３段目に示す第２換言候補文ＣＳ２４と図１７（Ａ）に示す第１原文ＯＳ１とが新たな対の文とされる（不図示）。図１７に示す例では、前記正しい文とされ第２換言文とされた図１７（Ｄ）３段目に示す第２換言候補文ＣＳ２１と、前記正しい文とされ換言文（第１換言文）とされた図１７（Ｄ）１段目に示す換言候補文（第１換言候補文）ＣＳ１３とが、図１７（Ｅ）５段目に示すように、新たな対の文とされる。そして、これら新たな対の文で対訳コーパスが作成される。

このような対訳コーパス作成装置Ｍ、該方法および該プログラムは、前記第１および第２原文相互で、自動的に換言文をそれぞれ生成でき、さらにより多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成装置Ｍ、該方法および該プログラムは、対訳コーパスの作成をより改善できる。上記対訳コーパス作成装置Ｍ、該方法および該プログラムは、上述のように、前記第１および第２原文相互で、自動的に文をそれぞれ生成できるので、コストの増加がより抑制でき、１個の対の文の収集に要する単価がより低減できる。

また、上述の実施形態では、換言文識別部３ａ、３ｂは、教師有りの機械学習であったが、例えばクラスタ分析等を用いた教師無しの機械学習でも良い。この教師無しの機械学習を行う場合、学習データ集の各データを、インターネットからいわゆるクローラーによって収集することによって、学習データ記憶部３１ａ、３１ｂは、省略可能となる。

次に、別の実施形態について説明する。

（第２実施形態；機械翻訳システム）
図１８は、第２実施形態における機械翻訳システムの構成を示すブロック図である。図１９は、前記機械翻訳システムにおける学習部の動作を示すフローチャートである。

第１実施形態では、対訳コーパス作成装置Ｍならびにこれに実装された対訳コーパス作成方法および対訳コーパス作成プログラムについて、その変形形態を含めて説明したが、第２実施形態では、この対訳コーパス作成装置Ｍを用いた、すなわち、対訳コーパス作成方法および対訳コーパス作成プログラムを実装した機械翻訳システムについて説明する。

この第２実施形態における機械翻訳システムＳは、例えば、図１８に示すように、対訳コーパス作成装置Ｍと、翻訳装置Ｔとを備える。

対訳コーパス作成装置Ｍは、第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する装置である。この対訳コーパス作成装置Ｍは、第１実施形態で説明した装置（その変形形態を含む）である。すなわち、この対訳コーパス作成装置Ｍは、第１実施形態で説明した対訳コーパス作成方法および対訳コーパス作成プログラムを実装する。

翻訳装置Ｔは、対訳コーパス作成装置Ｍで作成した対訳コーパスに基づいて、翻訳対象である対象文を第１言語と第２言語との間で翻訳する装置である。翻訳装置Ｔは、例えば、学習部６と、翻訳部７と、第２入力部８と、出力部９とを備える。

第２入力部８は、翻訳部７に接続され、例えば、翻訳開始を指示するコマンド等の各種コマンド、および、例えば第１言語の対象文等の翻訳する上で必要な各種データを翻訳装置Ｔに入力する機器であり、例えば、キーボードおよびマウス等である。出力部９は、翻訳部７に接続され、第２入力部８から入力されたコマンドやデータ、および、翻訳部７によって翻訳された第２言語の翻訳文等を出力する機器であり、例えばＣＲＴディスプレイ、ＬＣＤ（液晶ディスプレイ）および有機ＥＬディスプレイ等の表示装置やプリンタ等の印刷装置等である。

なお、第２入力部８および出力部９からタッチパネルが構成されてもよい。このタッチパネルを構成する場合において、第２入力部８は、例えば抵抗膜方式や静電容量方式等の操作位置を検出して入力する位置入力装置であり、出力部９は、表示装置である。このタッチパネルでは、表示装置の表示面上に位置入力装置が設けられ、表示装置に入力可能な１または複数の入力内容の候補が表示され、ユーザが、入力したい入力内容を表示した表示位置を触れると、前記位置入力装置によってその位置が検出され、検出された位置に表示された表示内容がユーザの操作入力内容として翻訳装置Ｔに入力される。このようなタッチパネルでは、ユーザは、入力操作を直感的に理解し易いので、ユーザにとって取り扱い易い翻訳装置Ｔ（機械翻訳システムＳ）が提供される。

学習部６は、翻訳部７に接続され、対訳コーパス作成装置Ｍで作成された対訳コーパスを用いて翻訳部７の翻訳モデルを生成、または学習するものである。

翻訳部７は、第２入力部８で受け付けた第１言語の対象文を第２言語に翻訳して第２言語の翻訳文を生成し、出力部９に出力するものである。

このような各部６〜９を備える翻訳装置Ｔは、例えば、デスクトップ型、ノート型、タブレット型等のコンピュータ等の情報処理装置で構成される。

このような翻訳システムＳでは、対訳コーパス作成装置Ｍは、第１実施形態で説明した各動作によって新たな対訳コーパス（新対訳コーパス）を作成する。続いて、学習部６は、図１９において、この対訳コーパス作成装置Ｍで作成された新対訳コーパスを取得し（Ｓ６１）、この取得した新対訳コーパスで翻訳部７の翻訳モデルを生成、または学習する（Ｓ６２）。本実施形態における対訳コーパス作成装置Ｍは、第１実施形態で説明した通り、より多くの例文を含むので、より精度良く翻訳部７の翻訳モデルを生成、または学習できる。そして、第２入力部８から対象文が受け付けられ、翻訳が指示されると、翻訳部７は、対象文を翻訳し、翻訳文を出力部９に出力する。翻訳部７は、上述の通り、学習部６でより精度良く生成、または学習されるので、より精度良く翻訳できる。

このような機械翻訳システムＳは、第１実施形態で説明した、上述の対訳コーパス作成方法および対訳コーパス作成プログラムを実装する対訳コーパス作成装置Ｍを備えるので、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記機械翻訳システムＳは、対訳コーパスの作成を改善できる。上記機械翻訳システムＳは、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、１個の対の文の収集に要する単価が低減できる。

なお、上述の第２実施形態において、対訳コーパス作成装置Ｍと、翻訳装置Ｔとは、ネットワークを介して互いに通信可能に接続されても良い。また、翻訳装置Ｔは、学習部６を備える第１本体装置と、翻訳部７、第２入力部８および出力部９を備える第２本体装置とで構成され、前記第１本体装置と、前記第２本体装置とは、ネットワークを介して互いに通信可能に接続されても良い。

また、上述の実施形態では、対訳コーパス作成装置Ｍと、翻訳装置Ｔとは、個別の情報処理装置それぞれで構成されたが、一体化され１個の情報処理装置で構成されても良い。

本明細書は、上記のように様々な態様の技術を開示しているが、そのうち主な技術を以下に纏める。

一態様にかかる対訳コーパス作成方法は、第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成方法であって、前記第１言語の第１原文と、前記第１原文を前記第２言語で翻訳した第２原文とを受け付ける受付工程と、予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記第１原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成する換言候補文生成工程と、前記換言候補文生成工程で生成した前記複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別する換言文識別工程と、前記換言文識別工程で識別した１または複数の換言文と前記受付工程で受け付けた前記第２原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成する対訳コーパス作成工程とを備える。

このような対訳コーパス作成方法は、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成方法は、対訳コーパスの作成を改善できる。特に、通常、より多くの対の文を集積した対訳コーパスの作成には、対の文の収集に手間や時間を要するため、比較的大きなコストがかかる。しかしながら、上記対訳コーパス作成方法は、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、１個の対の文の収集に要する単価が低減できる。なお、対の文には、第１言語の文と前記第１言語と異なる第２言語の文との間で、１対１の文、多対１の文および１対多の文が含まれる。

また、他の一態様では、上述の対訳コーパス作成方法において、前記換言候補文生成工程は、前記第１言語の第１素片と、前記第１素片に対応付けられ前記第１素片を前記第１言語の他の表現で表現した第２素片とを備える換言データベースであって、予め設定した所定の分類法に従って分類された複数の換言データベースのうちから、前記受付工程で受け付けた前記第１原文に対応する換言データベースを選択する換言データベース選択工程と、前記受付工程で受け付けた前記第１原文に含まれる複数の前記素片のうちの１または複数を、前記換言データベース選択工程で選択した前記換言データベースに基づいて前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成する換言工程とを備える。

このような対訳コーパス作成方法は、前記複数の換言データベースのうちから、前記受付工程で受け付けた前記第１原文に対応する換言データベースを選択し、この選択した前記換言データベースに基づいて前記第１原文に対する複数の換言候補文を生成するので、前記第１原文に対し、より好適な換言候補文を生成でき、より高精度な対訳コーパスを作成できる。

また、他の一態様では、これら上述の対訳コーパス作成方法において、前記換言文識別工程は、前記換言候補文の意味が前記第１原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成る学習データ集であって、予め設定した所定の分類法に従って分類された複数の前記学習データ集のうちから、前記受付工程で受け付けた前記第１原文に対応する学習データ集を選択する学習データ選択工程と、前記学習データ選択工程で選択した前記学習データ集に基づいて前記識別モデルを生成するモデル生成工程と、前記モデル生成工程で生成した識別モデルに基づいて、前記換言候補文生成工程で生成した前記複数の換言候補文から前記１または複数の換言文を識別する識別工程とを備える。

このような対訳コーパス作成方法は、前記複数の学習データ集のうちから、前記受付工程で受け付けた前記第１原文に対応する学習データ集を選択し、この選択した前記学習データ集に基づいて生成した識別モデルで前記複数の換言候補文から前記１または複数の換言文を識別するので、前記第１原文に対し、より好適な換言文を識別でき、より高精度な対訳コーパスを作成できる。

また、他の一態様では、これら上述の対訳コーパス作成方法において、前記換言文識別工程は、前記換言候補文の意味が前記第１原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成る学習データ集のうちから、前記受付工程で受け付けた前記第１原文に対応するデータを選択する第２学習データ選択工程と、前記第２学習データ選択工程で選択した前記データに基づいて前記識別モデルを生成する第２モデル生成工程と、前記第２モデル生成工程で生成した識別モデルに基づいて、前記換言候補文生成工程で生成した前記複数の換言候補文から前記１または複数の換言文を識別する第２識別工程とを備える。

このような対訳コーパス作成方法は、前記学習データ集のうちから、前記受付工程で受け付けた前記第１原文に対応するデータを選択し、この選択した前記データに基づいて生成した識別モデルで前記複数の換言候補文から前記１または複数の換言文を識別するので、前記第１原文に対し、より好適な換言文を識別でき、より高精度な対訳コーパスを作成できる。

また、他の一態様では、これら上述の対訳コーパス作成方法において、前記換言候補文生成工程は、前記受付工程で受け付けた前記第２原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第２原文に対する複数の第２換言候補文をさらに生成し、前記換言文識別工程は、前記換言候補文生成工程で生成した前記複数の第２換言候補文から前記第２原文の意味と同じ意味の１または複数の第２換言候補文を１または複数の第２換言文としてさらに識別し、前記対訳コーパス作成工程は、前記換言文識別工程で識別した１または複数の第２換言文と前記受付工程で受け付けた前記第１原文とを対の文とすることによって新たな第２対の文をさらに生成し、前記生成した新たな第２対の文で新たな対訳コーパスをさらに作成する、または、前記生成した新たな第２対の文を既存の対訳コーパスに追加することによって対訳コーパスをさらに作成する。

このような対訳コーパス作成方法は、前記第１および第２原文相互で、自動的に換言文をそれぞれ生成でき、さらにより多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成方法は、対訳コーパスの作成をより改善できる。上記対訳コーパス作成方法は、上述のように、前記第１および第２原文相互で、自動的に文をそれぞれ生成できるので、コストの増加がより抑制でき、１個の対の文の収集に要する単価がより低減できる。

また、他の一態様にかかる対訳コーパス生成装置は、第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成装置であって、前記第１言語の第１原文と、前記第１原文を前記第２言語で翻訳した第２原文とを受け付ける入力部と、予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記入力部で受け付けた前記第１原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成する換言候補文生成部と、前記換言候補文生成部で生成した前記複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別する換言文識別部と、前記換言文識別部で識別した１または複数の換言文と前記入力部で受け付けた前記第２原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成する対訳コーパス作成部とを備える。

また、他の一態様にかかる対訳コーパス生成プログラムは、第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成プログラムであって、コンピュータに、前記第１言語の第１原文と、前記第１原文を前記第２言語で翻訳した第２原文とを受け付ける受付工程と、予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記第１原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成する換言候補文生成工程と、前記換言候補文生成工程で生成した前記複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別する換言文識別工程と、前記換言文識別工程で識別した１または複数の換言文と前記受付工程で受け付けた前記第２原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成する対訳コーパス作成工程と、を実行させるためのプログラムである。

このような対訳コーパス作成装置および対訳コーパス作成プログラムは、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成装置および該プログラムは、対訳コーパスの作成を改善できる。特に、通常、より多くの対の文を集積した対訳コーパスの作成には、対の文の収集に手間や時間を要するため、比較的大きなコストがかかる。しかしながら、上記対訳コーパス作成装置および該プログラムは、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、１個の対の文の収集に要する単価が低減できる。

また、他の一態様にかかる機械翻訳システムは、第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成装置と、前記対訳コーパス作成装置で作成した対訳コーパスに基づいて、翻訳対象である対象文を前記第１言語と前記第２言語との間で翻訳する翻訳装置とを備え、前記対訳コーパス作成装置は、これら上述のいずれかの対訳コーパス作成方法を実装する。

このような機械翻訳システムは、これら上述のいずれかの対訳コーパス作成方法を実装する対訳コーパス作成装置を備えるので、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記機械翻訳システムは、対訳コーパスの作成を改善できる。上記機械翻訳システムは、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、１個の対の文の収集に要する単価が低減できる。

本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および／または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。

本発明は、より改善された対訳コーパス作成方法、対訳コーパス作成装置および対訳コーパス作成プログラムならびにこれを用いた機械翻訳システムを提供できる。

Ｍ対訳コーパス作成装置
Ｔ翻訳装置
Ｓ機械翻訳システム
１入力部（第１入力部）
２換言候補文生成部
３ａ、３ｂ換言文識別部
４対訳コーパス作成部
５対訳コーパス記憶部
２１換言データベース記憶部
２２換言データベース選択部
２３換言部
３１ａ、３１ｂ学習データ記憶部
３２ａ、３２ｂ学習データ選択部
３３モデル生成部
３４識別部
２１１工場用換言ＤＢ記憶部
２１２旅行用換言ＤＢ記憶部
２１３買物用換言ＤＢ記憶部
２１４医療用換言ＤＢ記憶部
２１５鉄道用換言ＤＢ記憶部
３１１工場用学習データ記憶部
３１２旅行用学習データ記憶部
３１３買物用学習データ記憶部
３１４医療用学習データ記憶部
３１５鉄道用学習データ記憶部

Claims

第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成方法であって、
前記第１言語の第１原文と、前記第１原文を前記第２言語で翻訳した第２原文とを受け付ける受付工程と、
予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記第１原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成する換言候補文生成工程と、
前記換言候補文生成工程で生成した前記複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別する換言文識別工程と、
前記換言文識別工程で識別した１または複数の換言文と前記受付工程で受け付けた前記第２原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成する対訳コーパス作成工程とを備える、
対訳コーパス作成方法。
前記換言候補文生成工程は、
前記第１言語の第１素片と、前記第１素片に対応付けられ前記第１素片を前記第１言語の他の表現で表現した第２素片とを備える換言データベースであって、予め設定した所定の分類法に従って分類された複数の換言データベースのうちから、前記受付工程で受け付けた前記第１原文に対応する換言データベースを選択する換言データベース選択工程と、
前記受付工程で受け付けた前記第１原文に含まれる複数の前記素片のうちの１または複数を、前記換言データベース選択工程で選択した前記換言データベースに基づいて前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成する換言工程とを備える、
請求項１に記載の対訳コーパス作成方法。
前記換言文識別工程は、
前記換言候補文の意味が前記第１原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成る学習データ集であって、予め設定した所定の分類法に従って分類された複数の前記学習データ集のうちから、前記受付工程で受け付けた前記第１原文に対応する学習データ集を選択する学習データ選択工程と、
前記学習データ選択工程で選択した前記学習データ集に基づいて前記識別モデルを生成するモデル生成工程と、
前記モデル生成工程で生成した識別モデルに基づいて、前記換言候補文生成工程で生成した前記複数の換言候補文から前記１または複数の換言文を識別する識別工程とを備える、
請求項１または請求項２に記載の対訳コーパス作成方法。
前記換言文識別工程は、
前記換言候補文の意味が前記第１原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成る学習データ集のうちから、前記受付工程で受け付けた前記第１原文に対応するデータを選択する第２学習データ選択工程と、
前記第２学習データ選択工程で選択した前記データに基づいて前記識別モデルを生成する第２モデル生成工程と、
前記第２モデル生成工程で生成した識別モデルに基づいて、前記換言候補文生成工程で生成した前記複数の換言候補文から前記１または複数の換言文を識別する第２識別工程とを備える、
請求項１または請求項２に記載の対訳コーパス作成方法。
前記換言候補文生成工程は、前記受付工程で受け付けた前記第２原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第２原文に対する複数の第２換言候補文をさらに生成し、
前記換言文識別工程は、前記換言候補文生成工程で生成した前記複数の第２換言候補文から前記第２原文の意味と同じ意味の１または複数の第２換言候補文を１または複数の第２換言文としてさらに識別し、
前記対訳コーパス作成工程は、前記換言文識別工程で識別した１または複数の第２換言文と前記受付工程で受け付けた前記第１原文とを対の文とすることによって新たな第２対の文をさらに生成し、前記生成した新たな第２対の文で新たな対訳コーパスをさらに作成する、または、前記生成した新たな第２対の文を既存の対訳コーパスに追加することによって対訳コーパスをさらに作成する、
請求項１ないし請求項４のいずれか１項に記載の対訳コーパス作成方法。
第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成装置であって、
前記第１言語の第１原文と、前記第１原文を前記第２言語で翻訳した第２原文とを受け付ける入力部と、
予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記入力部で受け付けた前記第１原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成する換言候補文生成部と、
前記換言候補文生成部で生成した前記複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別する換言文識別部と、
前記換言文識別部で識別した１または複数の換言文と前記入力部で受け付けた前記第２原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成する対訳コーパス作成部とを備える、
対訳コーパス作成装置。
第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成プログラムであって、
コンピュータに、
前記第１言語の第１原文と、前記第１原文を前記第２言語で翻訳した第２原文とを受け付ける受付工程と、
予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記第１原文に含まれる複数の前記素片のうちの１または複数を、前記第１言語の他の表現に換言することによって、前記第１原文に対する複数の換言候補文を生成する換言候補文生成工程と、
前記換言候補文生成工程で生成した前記複数の換言候補文から前記第１原文の意味と同じ意味の１または複数の換言候補文を１または複数の換言文として識別する換言文識別工程と、
前記換言文識別工程で識別した１または複数の換言文と前記受付工程で受け付けた前記第２原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成する対訳コーパス作成工程と、
を実行させるための対訳コーパス作成プログラム。
第１言語の第１文と前記第１言語と異なる第２言語の第２文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成装置と、
前記対訳コーパス作成装置で作成した対訳コーパスに基づいて、翻訳対象である対象文を前記第１言語と前記第２言語との間で翻訳する翻訳装置とを備え、
前記対訳コーパス作成装置は、請求項１ないし請求項５のいずれか１項に記載の対訳コーパス作成方法を実装する、
機械翻訳システム。