以下、本発明にかかる実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。
(第1実施形態;対訳コーパス作成方法、コーパス作成装置、コーパス作成プログラム)
図1は、第1実施形態における対訳コーパス作成装置の構成を示すブロック図である。図2は、前記対訳コーパス作成装置における換言候補文生成部の構成を示すブロック図である。図3は、前記換言候補文生成部における換言データベース記憶部に記憶される換言データベースの一例を示す図である。図4は、前記対訳コーパス作成装置における換言文識別部の構成を示すブロック図である。図5は、前記換言文識別部における学習データ記憶部に記憶される学習データ集の一例を示す図である。図5(A)は、第1態様の学習データ集を示し、図5(B)は、第2態様の学習データ集を示す。
実施形態における対訳コーパス作成装置Mは、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する装置であり、例えば、図1に示すように、入力部1と、換言候補文生成部2と、換言文識別部3aと、対訳コーパス作成部4とを備え、さらに、図1に示す例では、その作成した対訳コーパスを記憶する対訳コーパス記憶部5を備える。なお、対訳コーパス記憶部5は、対訳コーパス作成装置Mとは別体の外部機器(例えばサーバコンピュータ等)に備えられても良く、この場合、図1に示す対訳コーパス作成装置Mは、対訳コーパス記憶部5に代え、外部機器との間でデータを通信するインタフェース部を備え、その作成した対訳コーパスを、前記インタフェース部を介して外部機器へ出力する。前記インタフェース部は、例えば、USB規格を用いたインタフェース回路や、IEEE802.11規格等に従った通信インタフェース回路等である。
このような各部1〜5を備える対訳コーパス作成装置Mは、例えば、情報処理装置で構成される。情報処理装置は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)および補助記憶装置を備えるコンピュータと、データを表示することで前記データを出力するディスプレイと、データを入力する入力装置とを備える。このような情報処理装置として、例えば、デスクトップ型コンピュータのように据え置き型の情報処理装置が採用されても良いし、ノート型コンピュータやタブレット型コンピュータ等の携帯型の情報処理装置が採用されても良い。
図1に示す各ブロックは、例えば、CPUが、補助記憶装置に記憶されている、コンピュータを対訳コーパス作成装置Mとして機能させるプログラム(対訳コーパス作成プログラム)を実行することで実現される。したがって、前記コンピュータには、対訳コーパス作成方法が実装されている。図1において、四角形で示すブロックは、主にCPUで機能的に実現され、円筒形で示すブロックは、主に、ROM、RAMおよび補助記憶装置等で構成される記憶装置で機能的に実現される。なお、後述する図2、図4、図15および図18も同様である。
入力部(第1入力部)1は、換言候補文生成部2に接続され、例えば、所定の操作を受け付け、当該対訳コーパス作成装置Mにデータを入力する回路である。入力部1は、例えば、所定の機能を割り付けられた複数の入力スイッチ等を備えるキーボードやマウス等の入力装置である。また例えば、入力部1は、外部機器との間でデータを通信する、上述と同様なインタフェース部であって良い。前記所定の操作には、例えば、第1言語の第1原文と、前記第1原文を、前記第1言語と異なる第2言語で翻訳した第2原文とを当該対訳コーパス作成装置Mに入力する前記第1および第2原文の入力操作や、対訳コーパスの作成を当該対訳コーパス作成装置Mに指示する開始コマンドの入力操作等の、当該対訳コーパス作成装置Mで対訳コーパスを作成する上で必要な各種操作等が含まれる。
換言候補文生成部2は、換言文識別部3aに接続され、予め設定した所定の規則に従って文を分割することによって形成される素片であって、入力部1で受け付けた第1原文に含まれる複数の前記素片のうちの1または複数を、前記第1言語の他の表現に換言することによって(置き換えることによって)、前記第1原文に対する複数の換言候補文を生成するものである。前記所定の規則は、任意の規則であって良い。例えば、前記所定の規則は、複数n文字(例えば2文字や3文字等)ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記複数n文字となる。また例えば、前記所定の規則は、単語ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記単語となる。また例えば、前記所定の規則は、品詞ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記品詞の語となる。また例えば、前記所定の規則は、句ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記句となる。また例えば、前記所定の規則は、意味クラスごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記意味クラスのクラスの語となる。また例えば、前記所定の規則は、形態素解析における形態素ごとに文を区切って分割する規則であって良く、この場合、前記素片は、前記形態素となる。第1言語の第1原文に対する換言候補文は、上述のように、前記第1原文に含まれる複数の素片のうちの1または複数を、前記第1言語の他の表現に換言(置換)した文であり、この第1言語の第1原文に対する換言候補文は、必ずしも、前記第1原文の意味と同じであることを保証するものではない。したがって、この第1原文に対する換言候補文は、前記第1原文の意味を参酌すること無く、生成される。なお、第1原文における同一の素片が複数回換言されても良いが、同一の素片を複数回換言すると、その換言候補文は、前記第1原文の意味と異なってしまう可能性が高くなるので、同一の素片に対する換言回数は、例えば1回や2回等の少ない回数に限定されることが好ましい。
このような換言候補文生成部2は、より具体的には、例えば、図2に示すように、換言データベース記憶部(換言DB記憶部)21と、換言データベース選択部(換言DB選択部)22と、換言部23とを備える。
換言DB記憶部21は、換言DB選択部22に接続され、換言データベース(換言DB)を記憶するものである。換言DBは、第1言語の第1素片と、前記第1素片を前記第1言語の他の表現で表現した第2素片とを互いに対応付けたデータベースである。例えば、図3に示すように、第1言語の第1素片201−1と、この第1素片201−1に対応付けられ前記第1素片201−1を前記第1言語の他の表現で表現した第2素片202−1とが換言DBCTにおける1つのデータとして換言DB記憶部21に記憶される。
そして、本実施形態では、換言DB記憶部21は、図2に示すように、予め設定した所定の分類法に従って分類された複数の換言DBを記憶している。前記所定の分類法は、当該対訳コーパス作成装置Mの用途に応じた適宜な分類法であって良い。例えば、前記所定の分類法は、ジャンルごとに分類する分類法であって良く、また例えば、産業分野ごとに分類する分類法であって良い。図2に示す例では、前記複数の換言DBは、工場で用いられる素片を言い換えるための工場用の換言DB、旅行で用いられる素片を言い換えるための旅行用の換言DB、買い物で用いられる素片を言い換えるための買物用の換言DB、医療で用いられる素片を言い換えるための医療用の換言DB、および、鉄道で用いられる素片を言い換えるための鉄道用の換言DB等を含む。これら各換言DBそれぞれを記憶するために、換言DB記憶部21は、前記工場用の換言DBを記憶する工場用換言DB記憶部211、前記旅行用の換言DBを記憶する旅行用換言DB記憶部212、前記買物用の換言DBを記憶する買物用換言DB記憶部213、前記医療用の換言DBを記憶する医療用換言DB記憶部214、および、前記鉄道用の換言DBを記憶する鉄道用換言DB記憶部215等を備える。なお、或る分類の換言DBのデータが他の分類の換言DBのデータであっても良い。そして、本実施形態では、これら複数の換言DBそれぞれには、換言DBを特定し識別するための識別子(ID)が付与されている。
換言DB選択部22は、入力部1および換言部23それぞれに接続され、換言DB記憶部21に記憶された複数の換言DBのうちから、入力部1で受け付けた第1原文に対応する換言DBを所定の選択方法に従って選択するものである。換言DB選択部22は、その選択結果を換言部23へ出力する。前記所定の選択方法は、換言DB選択部22に記憶されている複数の換言DBのうちから、入力部1で受け付けた第1原文に最もマッチする換言DBを選択できれば、任意の方法であって良い。例えば、前記所定の選択方法は、前記複数の換言DBのうちから言語モデルが最も近い換言DBを選択する方法である(第1態様の選択方法)。また例えば、前記所定の選択方法は、前記複数の換言DBのうちからクラスが最も似ている換言DBを選択する方法である(第2態様の選択方法)。また例えば、前記所定の選択方法は、前記複数の換言DBのうちから頻出語彙またはユニークな語彙が最も似ている換言DBを選択する方法である(第3態様の選択方法)。これらの選択方法は、後述でより詳細に説明する。
換言部23は、入力部1および換言文識別部3aそれぞれに接続され、入力部1で受け付けた第1原文に含まれる複数の素片のうちの1または複数を、換言DB選択部22で選択した換言DBに基づいて第1言語の他の表現に換言することによって、前記第1原文に対する複数の換言候補文を生成するものである。例えば、入力部1で受け付けた第1原文に、図3に示す第1言語の第1素片201−1、201−2が含まれている場合に、この第1原文の第1素片201−1は、第1言語の第2素片202−1に換言されて第1原文に対する1つの換言候補文が生成され、そして、前記第1原文の第1素片201−2は、第1言語の第2素片202−2に換言されて前記第1原文に対する他の1つの換言候補文が生成される。したがって、この場合、換言部23は、第1原文に対する2個の換言候補文を生成する。換言部23は、これら生成した第1原文に対する複数の換言候補文を換言文識別部3aへ出力する。
換言文識別部3aは、対訳コーパス作成部4に接続され、換言候補文生成部2で生成した複数の換言候補文から前記第1原文の意味と同じ意味の1または複数の換言候補文を1または複数の換言文として識別するものである。例えば、換言文識別部3aは、換言候補文の意味が第1原文の意味と同じであるか否かを識別(判定、弁別)する識別モデルを用いることで、前記複数の換言候補文から前記1または複数の換言文を識別する。
このような換言文識別部3aは、より具体的には、例えば、図4に示すように、学習データ記憶部31aと、学習データ選択部32aと、モデル生成部33と、識別部34とを備える。
学習データ記憶部31aは、学習データ選択部32aに接続され、学習データ集を記憶するものである。学習データ集は、換言候補文の意味が第1原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成る。本実施形態では、モデル生成部33が教師有りの機械学習で識別モデルを生成するため、例えば、図5(A)に示すように、文301−1と、この文301−1が前記識別において正解であるか不正解であるかの別を表す正否データ302−1とが学習データ集LTaにおける1つのデータとして学習データ記憶部31aに記憶される。また例えば、図5(B)に示すように、互いに異なる複数の素片それぞれに対応して設けられる複数の素片フィールド303(303−1、303−2、303−3、303−4、303−5、303−6、303−7、303−8、・・・)と、正否データを登録する正否データフィールド304とを備え、文Lnごとにレコードを持つ学習データ集LTbが学習データ記憶部31aに記憶される(nは、正の整数である)。各素片フィールド303には、当該レコードの文Lnが当該素片フィール303の素片を含むか否かを表す素片フラグが登録される。素片フラグ「1」は、当該レコードの文Lnが当該素片フィール303の素片を含むことを表し、素片フラグ「0」は、当該レコードの文Lnが当該素片フィール303の素片を含まないことを表す。正否データは、図5(B)では、正否フラグで表されており、正否フラグ「1」は、当該レコードの文Lnが前記識別において正解であることを表し、正否フラグ「0」は、当該レコードの文Lnが前記識別において不正解であることを表す。例えば、図5(B)に示す例では、第1番目のレコードの文L1は、素片フィールド303−1、303−2、303−3、303−4、303−5に素片フラグ「1」が登録されているので、素片フィールド303−1、303−2、303−3、303−4、303−5の各素片から構成され、正否データフィールド304に正否フラグ「1」が登録されているので、識別モデルの生成における機械学習において正解の文である。
そして、本実施形態では、学習データ記憶部31aは、図4に示すように、換言DB記憶部21と同様に、予め設定した所定の分類法に従って分類された複数の学習データ集を記憶している。学習データ集における前記所定の分類法は、換言部23における換言の精度と識別部34における識別の精度とを同等にできるので、換言DBにおける前記所定の分類法と同じであることが好ましいが、必ずしも同じでなくても良い。図4に示す例では、前記複数の学習データ集は、工場で用いられる文(第1文)において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための工場用の学習データ集、旅行で用いられる文(第1文)において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための旅行用の学習データ集、買物で用いられる文(第1文)において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための買物用の学習データ集、医療で用いられる文(第1文)において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための医療用の学習データ集、および、鉄道で用いられる文(第1文)において、その換言候補文から換言文を識別可能に学習によって識別モデルを生成するための鉄道用の学習データ集等を含む。これら各学習データ集それぞれを記憶するために、学習データ記憶部31aは、前記工場用の学習データ集を記憶する工場用学習データ記憶部311、前記旅行用の学習データ集を記憶する旅行用学習データ記憶部312、前記買物用の学習データ集を記憶する買物用学習データ記憶部313、前記医療用の学習データ集を記憶する医療用学習データ記憶部314、および、前記鉄道用の学習データ集を記憶する鉄道用学習データ記憶部315等を備える。なお、或る分類の学習データ集のデータが他の分類の学習データ集のデータであっても良い。このように本実施形態では、学習データ集における前記所定の分類法は、換言DBにおける前記所定の分類法と同じであり、各学習データ集それぞれには、当該学習データ集と同種に分類される換言DBに付与されているIDが割り付けられている。例えば、前記工場用の学習データ集には、前記工場用の換言DBに付与されているIDが割り付けられ、また例えば、前記医療用の学習データ集には、前記医療用の換言DBに付与されているIDが割り付けられている。
学習データ選択部32aは、入力部1およびモデル生成部33それぞれに接続され、学習データ記憶部31aに記憶された複数の学習データ集のうちから、入力部1で受け付けた第1原文に対応する学習データ集を所定の選択方法に従って選択するものである。学習データ選択部32aは、その選択結果をモデル生成部33へ出力する。前記所定の選択方法は、学習データ記憶部31aに記憶された複数の学習データ集のうちから、入力部1で受け付けた第1原文に最もマッチする学習データ集を選択できれば、任意の方法であって良い。本実施形態では、学習データ選択部32aには、換言DB選択部22と同様の選択方法が採用できる。学習データ集の選択では、さらに、例えば、前記複数の学習データ集から文長が最も似ている学習データ集を選択する方法(第4態様の選択方法)も前記所定の選択方法として採用できる。
モデル生成部33は、識別部34に接続され、学習データ選択部32aで選択した学習データ集に基づいて前記識別モデルを機械学習によって生成するものである。機械学習には、例えば、深層学習(Deep Learning、多層構造のニューラルネットワーク(Neural Network))等が用いられる。モデル生成部33は、この生成した識別モデルを識別部34へ出力する。
識別部34は、換言候補文生成部2および対訳コーパス作成部4それぞれに接続され、モデル生成部33で生成した識別モデルに基づいて、換言候補文生成部2で生成した複数の換言候補文から識別した1または複数の換言文を識別するものである。識別部34は、この識別によって得られた1または複数の換言文を対訳コーパス作成部4へ出力する。
対訳コーパス作成部4は、対訳コーパス記憶部5に接続され、換言文識別部3aで識別した1または複数の換言文と入力部1で受け付けた第2原文とを対の文とすることによって新たな対の文を生成し、この生成した新たな対の文で新たな対訳コーパスを作成する、または、この生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成(更新)するものである。より詳しくは、対訳コーパス作成部4は、対訳コーパス記憶部5に対訳コーパスが記憶されていない場合には、前記生成した新たな対の文で新たな対訳コーパスを作成し、この作成した新たな対訳コーパスを対訳コーパス記憶部5に記憶する。一方、対訳コーパス作成部4は、対訳コーパス記憶部5に対訳コーパスが記憶されている場合には、前記生成した新たな対の文を、対訳コーパス記憶部5に記憶されている既存の対訳コーパスに追加することによって対訳コーパスを作成(更新)する。
次に、本実施形態における対訳コーパス作成装置Mの動作について説明する。図6は、前記換言候補文生成部における換言データベース選択部の動作を示すフローチャートである。図7は、前記換言候補文生成部における換言部の動作を示すフローチャートである。図8は、前記換言文識別部における学習データ選択部の動作を示すフローチャートである。図9は、前記換言文識別部におけるモデル生成部の動作を示すフローチャートである。図10は、前記換言文識別部における識別部の動作を示すフローチャートである。図11は、換言データベースおよび学習データ集の第1態様の選択方法を説明するための図である。図11(A)は、入力コーパスの言語モデルを用いる場合を示し、図11(B)は、入力コーパスの言語モデルを用いない場合を示す。図12は、換言データベースおよび学習データ集の第2態様の選択方法を説明するための図である。図13は、換言データベースおよび学習データ集の第3態様の選択方法を説明するための図である。図14は、一具体例を用いて対訳コーパスの作成を説明するための図である。図14(A)は、一例として、入力コーパスに含まれる第1および第2原文の対の文を示し、図14(B)は、図14(A)に示す第1原文の素片を示し、図14(C)は、図14(A)に示す第1原文に対する4個の換言候補文を示し、図14(D)は、図14(A)に示す第1原文の意味と同じと判定された2個の換言候補文(正しい文)、および、図14(A)に示す第1原文の意味と同じと判定されなかった2個の換言候補文(正しくない文)を示し、そして、図14(E)は、図14(A)に示す第1原文に対して作成された対訳コーパスを示す。
本実施形態における対訳コーパス作成装置Mは、大略、次の動作によって対訳コーパスを作成している。まず、入力部1は、第1言語の第1原文と、前記第1原文を前記第1言語と異なる第2言語で翻訳した第2原文とを受け付ける(受付工程)。次に、換言候補文生成部2は、入力部1により前記受付工程で受け付けた前記第1原文に含まれる複数の素片のうちの1または複数を、前記第1言語の他の表現に換言することによって、前記第1原文に対する複数の換言候補文を生成する(換言候補文生成工程)。次に、換言文識別部3aは、換言候補文生成部2により前記換言候補文生成工程で生成した前記複数の換言候補文から前記第1原文の意味と同じ意味の1または複数の換言候補文を1または複数の換言文として識別する(換言文識別工程)。次に、対訳コーパス作成部4は、換言文識別部3aにより前記換言文識別工程で識別した1または複数の換言文と前記受付工程で受け付けた前記第2原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成(更新)する(対訳コーパス作成工程)。そして、この作成された対訳コーパスは、対訳コーパス記憶部5に記憶される。以下、図を用いて、より具体的に説明する。
<入力コーパスの受付および換言DBの選択>
本実施形態における対訳コーパス作成装置Mは、まず、入力コーパスを受け付ける動作を実行し、換言DBを選択する動作を実行する。この入力コーパスの受付動作および換言DBの選択動作では、図6において、まず、対訳コーパス作成装置Mは、入力部1によって入力コーパスを受け付けて入力コーパスを取得する(S11)。入力コーパスは、第1言語の互いに異なる複数Nの第1原文と、前記複数Nの第1原文それぞれを前記第2言語で翻訳した複数の第2原文とをそれぞれ対にした複数Nの対の文を集めたコーパスである(Nは、正の整数である)。第1および第2原文が1つずつ対訳コーパス作成装置Mに入力部1から入力されても良いが、本実施形態では、複数の第1および第2原文を集めた入力コーパスで、効率よく、複数の第1および第2原文が纏めて対訳コーパス作成装置Mに入力部1から入力される。
次に、対訳コーパス作成装置Mは、換言候補文生成部2によって、所定の基準(選択方法)に基づき入力コーパスと近い換言DBを選択する(S12)。より具体的には、換言候補文生成部2の換言DB選択部22は、換言DB記憶部21に記憶された複数の換言DBのうちから、入力部1で受け付けた入力コーパスにおける複数の第1原文に対応する換言DBを所定の選択方法に従って選択する。
前記所定の選択方法は、上記第1ないし第3態様の選択方法等を用いることができる。各態様の選択方法について、以下に、より具体的に説明する。
第1態様の選択方法は、上述したように、複数の換言DBのうちから言語モデルが最も近い換言DBを選択する方法である。この第1態様の選択方法では、まず、換言DB記憶部21に記憶されている各換言DBの各分類ごとに各言語モデルが予め作成される。各分類ごとに各言語モデルが作成されるので、各分類それぞれについて、当該分類をより正確に反映した言語モデルが作成でき、より適した換言DBを選択できる。各言語モデルを作成するために、各換言DBの各分類ごとに各コーパスが用意される。これら各コーパスそれぞれは、上述のように各分類ごとに用意された各学習データ集における正解の文を集めてそれぞれ作成されて良い。その後、この第1態様の選択方法では、例えば、次の第1A態様と第1B態様の2つの方法が挙げられる。
第1A態様では、換言DB選択部22は、入力部1で受け付けた第1原文の言語モデルを、各換言DBの各分類ごとに作成した言語モデルで、各換言DBの各分類ごとに求める。そして、換言DB選択部22は、各換言DBの各分類ごとに求めた前記第1原文の言語モデルを比較し、最も近い言語モデルを選択する。
本実施形態では、第1原文は、入力コーパスとして複数あるので、換言DB選択部22は、上述の各処理を入力部1で受け付けた入力コーパスにおける複数の第1原文それぞれについて、実行し、前記最も近い言語モデルとして選択された回数が最も多い言語モデルを最終的に選択する。あるいは、換言DB選択部22は、入力部1で受け付けた第1原文の言語モデルを、各換言DBの各分類ごとに作成した言語モデルで、各換言DBの各分類ごとに求め、その平均値を各換言DBの各分類ごとに求める。そして、換言DB選択部22は、各換言DBの各分類ごとに求めた各平均値を比較し、最も近い言語モデルを最終的に選択する。
そして、換言DB選択部22は、この選択された言語モデルに対応する換言DBを選択する。
第1B態様では、第1原文は、入力コーパスとして複数あるので、まず、換言DB選択部22は、入力部1で受け付けた入力コーパスの言語モデルを作成する。次に、換言DB選択部22は、入力部1で受け付けた入力コーパスにおける複数の第1原文それぞれについて、当該第1原文の言語モデルを、各換言DBの各分類ごとに作成した言語モデルで、各換言DBの各分類ごとに求める。そして、換言DB選択部22は、入力コーパスの言語モデルに最も近い言語モデルを選択する。より詳しくは、換言DB選択部22は、入力部1で受け付けた入力コーパスにおける複数の第1原文それぞれについて、入力コーパスの言語モデルと各換言DBの各分類ごとに求めた言語モデルとを比較し、最も近い言語モデルを選択し、この選択された回数が最も多い言語モデルと、入力コーパスの言語モデルに最も近い言語モデルとして最終的に選択する。そして、換言DB選択部22は、この選択された言語モデルに対応する換言DBを選択する。この第1B態様の選択方法は、入力コーパスの言語モデルを、各換言DBの各分類を比較するための基準として作成するので、第1A態様の選択方法に較べて、各換言DBの各分類のうちから、より入力コーパスに近い換言DBの分類(すなわち、換言DB)を選択できる。
言語モデルは、言語モデル間で比較可能であれば、任意のモデルであって良いが、ここでは、N−gram言語モデルを用いた場合について、第1Aおよび第1B態様それぞれの一具体例について、図11を用いて説明する。図11(A)は、第1B態様の場合を示し、図11(B)は、第1A態様の場合を示す。
N−gram言語モデルは、統計的言語モデルの一つとして知られており、N語の出現確率を求めるものである。例えば、旅行用の換言DBにおける言語モデル(旅行用の言語モデル)が作成される場合、旅行に関連して用いられる複数の文を集めた旅行コーパスがまず用意される。次に、この旅行コーパスを母集団としてN−gramの出現確率が求められる。これによって旅行用の言語モデルが作成される。このような言語モデルの作成が各換言DBの各分類ごとに実行され、各換言DBの各分類ごとに言語モデルが作成される。
このような準備の後に、第1B態様の選択方法では、入力コーパスの言語モデルが作成され、入力コーパスにおける複数の第1原文それぞれについて、当該第1原文の言語モデルが、各換言DBの各分類ごとに作成した言語モデルで、各換言DBの各分類ごとに求められる。その結果の一例が図11(A)に示されている。なお、第1原文の言語モデルは、この第1原文に含まれるN−gramを求め、この求めたN−gramの出現確率を全て乗算することによって求められる。そして、換言DB選択部22は、入力コーパスの言語モデルに最も近い言語モデルを選択する。図11(A)に示す例では、入力コーパスの言語モデルに対し、旅行の言語モデルと交通の言語モデルとを、複数の第1原文それぞれについて、確率の数値を比較すると、旅行の言語モデルの方が、入力コーパスの言語モデルに近いと判定される確率の数値を持つ第1原文の数が多い。このため、旅行の言語モデルが選択され、旅行用の換言DBが選択される。
一方、上述の準備の後に、第1A態様の選択方法では、入力コーパスにおける複数の第1原文それぞれについて、当該第1原文の言語モデルが、各換言DBの各分類ごとに作成した言語モデルで、各換言DBの各分類ごとに求められる。その結果の一例が図11(B)に示されている。そして、換言DB選択部22は、入力コーパスに最も近い言語モデルを選択する。図11(B)に示す例では、旅行の言語モデルと交通の言語モデルとを、複数の第1原文それぞれについて、確率の数値を比較すると、旅行の言語モデルの方が、交通の言語モデルより大きな確率の数値を持つ第1原文の数が多い。このため、旅行の言語モデルが選択され、旅行用の換言DBが選択される。なお、上述したように、それらの平均値で比較が行われても良い。
第2態様の選択方法は、上述したように、複数の換言DBのうちからクラスが最も似ている換言DBを選択する方法である。クラス化は、共通な属性で単語をグループ化することであり、クラスは、そのグループに付与された名称である。例えば、意味クラスは、単語の持つ意味でグループ化することによって形成されたグループの名称であり、一例では、<地名>クラスは、地名を表す単語から成るグループの名称であり、他の一例では、<通貨>クラスは、通貨を表す単語から成るグループの名称である。また例えば、品詞クラスは、単語の持つ品詞でグループ化することによって形成されたグループの名称であり、一例では、<名詞>クラスは、名詞の単語から成るグループの名称であり、他の一例では、<動詞>クラスは、動詞の単語から成るグループの名称である。
この第2態様の選択方法では、より具体的には、換言DB選択部22は、まず、入力部1で受け付けた第1原文に含まれるクラスを抽出する。次に、換言DB選択部22は、各換言DBから、あるいは、各換言DBの各分類ごとに予め用意した各コーパスから、前記抽出した前記第1原文に含まれるクラスと同じクラスを抽出し計数する。なお、前記第1原文に複数のクラスが含まれる場合には、各クラスごとに計数する。そして、換言DB選択部22は、計数結果に基づいて、第1原文に最も近い換言DBを選択する。例えば、最も大きい計数値を持つ換言DBが選択される。また例えば、前記第1原文に含まれるクラスと同じクラスを最も多く含む換言DBが選択される。また例えば、クラスごとに、最も大きい計数値を持つ換言DBが選択され、この選択された回数が最も大きい換言DBが選択される。
本実施形態では、第1原文は、入力コーパスとして複数あるので、換言DB選択部22は、上述の各処理を入力部1で受け付けた入力コーパスにおける複数の第1原文それぞれについて、実行し、前記最も近い換言DBとして選択された回数が最も多い換言DBを最終的に選択する。あるいは、入力部1で受け付けた入力コーパスにおける複数の第1原文を纏めて上述の各処理が実行されても良い。より詳しくは、換言DB選択部22は、入力部1で受け付けた入力コーパスにおける複数の第1原文に含まれるクラスを抽出する。次に、換言DB選択部22は、各換言DBから、あるいは、各換言DBの各分類ごとに予め用意した各コーパスから、前記抽出した前記複数の第1原文に含まれるクラスと同じクラスを抽出し計数する。なお、前記第1原文に複数のクラスが含まれる場合には、各クラスごとに計数する。そして、換言DB選択部22は、計数結果に基づいて、前記複数の第1原文(すなわち入力コーパス)に最も近い換言DBを選択する。例えば、最も大きい計数値を持つ換言DBが選択される。また例えば、前記複数の第1原文に含まれるクラスと同じクラスを最も多く含む換言DBが選択される。また例えば、クラスごとに、最も大きい計数値を持つ換言DBが選択され、この選択された回数が最も大きい換言DBが選択される。
一具体例では、例えば、図12(A)に示すように、入力コーパスCUinにおける4個の第1原文から、2個の<地名>クラスCL1および<通貨>クラスCL2が抽出される。入力コーパスCUinは、<地名>クラスCL1を3個含み、<通貨>クラスCL2を1個含む。旅行コーパスCUtrは、図12(B)に示すように、<地名>クラスCL1を2個含み、<通貨>クラスCL2を1個含む。一方、工場コーパスCUfaは、図12(C)に示すように、<地名>クラスCL1も<通貨>クラスCL2も含まず、代わりに、<道具>クラスCL3を2個含む。このため、旅行コーパスCUtrが選択され、旅行用の換言DBが選択される。
第3態様の選択方法は、上述したように、複数の換言DBのうちから頻出語彙またはユニークな語彙が最も似ている換言DBを選択する方法である。ユニークな語彙は、予め設定される。
この第3態様の選択方法では、より具体的には、換言DB選択部22は、まず、入力部1で受け付けた第1原文に含まれるユニークな語彙を抽出する。このユニークな語彙の抽出では、好ましくは、抽出前に、例えば自然言語の文を形態素(一例では当該言語で意味を持つ最小単位)の列に分割する形態素解析等が実行される。次に、換言DB選択部22は、各換言DBから、あるいは、各換言DBの各分類ごとに予め用意した各コーパスから、前記抽出した前記第1原文に含まれるユニークな語彙と同じ語彙を抽出し計数する。なお、前記第1原文に複数のユニークな語彙が含まれる場合には、各ユニークな語彙ごとに計数する。そして、換言DB選択部22は、計数結果に基づいて、第1原文に最も近い換言DBを選択する。例えば、最も大きい計数値を持つ換言DBが選択される。また例えば、前記第1原文に含まれるユニークな語彙と同じユニークな語彙を最も多く含む換言DBが選択される。また例えば、ユニークな語彙ごとに、最も大きい計数値を持つ換言DBが選択され、この選択された回数が最も大きい換言DBが選択される。
本実施形態では、第1原文は、入力コーパスとして複数あるので、換言DB選択部22は、上述の各処理を入力部1で受け付けた入力コーパスにおける複数の第1原文それぞれについて、実行し、前記最も近い換言DBとして選択された回数が最も多い換言DBを最終的に選択する。なお、この場合では、ユニークな語彙に代え、入力コーパスから頻出語彙が抽出され、この抽出した頻出語彙が用いられても良い。頻出語彙は、例えば、予め設定された閾値(頻出回数閾値)以上の回数で入力コーパスに出現する語彙である。前記頻出回数閾値は、複数のサンプルを用いることによって、例えば、2、3、5、10等の換言DBを好適に選択するために、適宜な値に設定される。また例えば、各語彙ごとに出現回数が総計され、出現回数上位2割が頻出語彙に設定されてもよい。あるいは、入力部1で受け付けた入力コーパスにおける複数の第1原文を纏めて上述の各処理が実行されても良い。より詳しくは、換言DB選択部22は、入力部1で受け付けた入力コーパスにおける複数の第1原文に含まれるユニークな語彙(または頻出語彙)を抽出する。次に、換言DB選択部22は、各換言DBから、あるいは、各換言DBの各分類ごとに予め用意した各コーパスから、前記抽出した前記複数の第1原文に含まれるユニークな語彙(または頻出語彙)と同じユニークな語彙(または頻出語彙)を抽出し計数する。なお、前記第1原文に複数のユニークな語彙(または頻出語彙)が含まれる場合には、各ユニークな語彙(または頻出語彙)ごとに計数する。そして、換言DB選択部22は、計数結果に基づいて、前記複数の第1原文(すなわち入力コーパス)に最も近い換言DBを選択する。例えば、最も大きい計数値を持つ換言DBが選択される。また例えば、前記複数の第1原文に含まれるユニークな語彙(または頻出語彙)と同じユニークな語彙(または頻出語彙)を最も多く含む換言DBが選択される。また例えば、ユニークな語彙(または頻出語彙)ごとに、最も大きい計数値を持つ換言DBが選択され、この選択された回数が最も大きい換言DBが選択される。
一具体例では、例えば、図略の入力コーパスが形態素解析され、名詞が抽出され、これら抽出された名詞から2回以上出現する名詞が頻出語彙として抽出される。名詞の抽出結果および頻出語彙が図13(A)に示されている。前記入力コーパスには、頻出語彙FW1が4回出現し、頻出語彙FW2が4回出現し、頻出語彙FW3が2回出現し、頻出語彙FW4が2回出現し、頻出語彙FW5が2回出現し、そして、頻出語彙FW6が2回出現している。図略の旅行コーパスが形態素解析され、名詞が抽出され、これら抽出された名詞から2回以上出現する名詞が頻出語彙として抽出される。名詞の抽出結果および頻出語彙が図13(B)に示されている。同様に、図略の工場コーパスが形態素解析され、名詞が抽出され、これら抽出された名詞から2回以上出現する名詞が頻出語彙として抽出される。名詞の抽出結果および頻出語彙が図13(C)に示されている。この結果、旅行コーパスでは、頻出語彙FW1の出現回数が2回であり、頻出語彙FW6の出現回数が2回であり、そして、頻出語彙FW2の出現回数が2回である。一方、工場コーパスには、頻出語彙FW1〜FW6が出現されず、工場コーパスでは、頻出語彙FW6の出現回数が3回であり、頻出語彙FW7の出現回数が2回であり、そして、頻出語彙FW8の出現回数が2回である。このため、旅行コーパスが選択され、旅行用の換言DBが選択される。
図6に戻って、次に、対訳コーパス作成装置Mは、換言候補文生成部2の換言DB選択部22によって、処理S12で選択した換言DBに付与されているIDを取得し、この取得したIDを換言文識別部3aへ出力し(S13)、この入力コーパスの受付動作および換言DBの選択動作を終了する。
このような動作によって、対訳コーパス作成装置Mは、入力コーパスを入力部1で受け付け、入力部1で受け付けた入力コーパスに対応する換言DBを選択する。
<換言候補文の生成>
次に、本実施形態における対訳コーパス作成装置Mは、換言候補文を生成する動作を実行する。この換言候補文の生成動作では、図7において、まず、対訳コーパス作成装置Mは、換言候補文生成部2の換言部23によって、上述の処理S11ないし処理S13の各処理によって選択された換言DBを換言DB記憶部21から取得する(S21)。
次に、対訳コーパス作成装置Mは、入力部1で受け付けた入力コーパスにおける複数Nの第1原文全てに対し、以下の処理S22および処理S23を行う(Nは正の整数)。
処理S22では、対訳コーパス作成装置Mは、換言部23によって、入力部1で受け付けた入力コーパスにおける第1原文に含まれる複数の素片のうちに、前記選択された換言DBの第1素片に一致する素片があるか否かを判定し、この判定の結果、一致する素片が有る場合には、前記第1原文に含まれる、前記一致する素片を、前記換言DBの第1素片に対応付けられている第2素片に置き換えて換言する(S22)。これによって第1原文に対し1個の換言候補文が生成される。
処理S23では、対訳コーパス作成装置Mは、換言部23によって、前記処理S22で処理した前記第1原文が素片をまだ置き換えて換言可能であるか否かを判定し、この判定の結果、置き換えて換言可能である場合(Yes)には、処理を処理S22に戻し、一方、置き換えて換言できない場合(No)には、この換言候補文の生成動作の処理を終了する。処理S23で処理が処理S22に戻される場合には、第1原文に対しさらに他の1個の換言候補文が生成される。この結果、第1原文に対し複数の換言候補文が生成される。なお、換言回数が制限されても良い。すなわち、換言可能であっても換言回数が制限値に到達した場合には、換言候補文の生成動作が終了される。換言回数の制限値は、1回を含む任意の値であって良い。
図14を用いて一具体例を挙げて説明する。図14では、入力コーパスには、図14(A)に示すように、第1言語の第1原文OS1と、この第1原文OS1を第2言語で翻訳した第2原文OS2が含まれている。この第1原文OS1は、図14(B)に示すように、5個の素片SD11〜SD15から構成されている。上述の処理S11ないし処理S13の各処理によって選択された換言DBには、次のように第1および第2素片SD11k、SD12kが互いに対応付けられている(kは、この例では1〜6の整数である)。素片SD11に一致する第1素片SD111(不図示)(SD11=SD111)には、第2素片SD122(図14(C)参照)が対応付けられている(SD111⇔SD122)。素片SD13に一致する第1素片SD112(不図示)には、第2素片SD123(図14(C)参照)が対応付けられている。さらに、素片SD13に一致する第1素片SD115(不図示)(SD13=SD115)には、null(空値)の第2素片SD125(図14(C)参照)が対応付けられている(SD115⇔SD125)。素片SD15に一致する第1素片SD111(不図示)(SD15=SD111)には、第2素片SD121(図14(C)参照)が対応付けられている(SD111⇔SD121)。さらに、素片SD15に一致する第1素片SD114(不図示)には(SD15=SD144)、第2素片SD124(図14(C)参照)が対応付けられている(SD144⇔SD124)。さらに、素片SD15に一致する第1素片SD116(不図示)(SD15=SD116)には、第2素片SD126(図14(C)参照)が対応付けられている(SD116⇔SD126)。
このような場合に、図14(B)および図14(C)に示すように、第1原文OS1において、処理S22および処理S23によって、素片SD15が第2素片SD121に置き換えられて換言され、第1原文OS1から換言候補文CS11が生成される。次の処理S22および処理S23によって、素片SD11が第2素片SD122に置き換えられて換言され、第1原文OS1から換言候補文CS12が生成される。次の処理S22および処理S23によって、素片SD13、SD15がそれぞれ第2素片SD123、SD124に置き換えられて換言され、第1原文OS1から換言候補文CS13が生成される。そして、次の処理S22および処理S23によって、素片SD13、SD15がそれぞれ第2素片SD125、SD126に置き換えられて換言され、第1原文OS1から換言候補文CS14が生成される。このように1個の第1原文OS1から4個の換言候補文CS11〜CS14が生成される。
このような動作によって、対訳コーパス作成装置Mは、入力部1で受け付けた入力コーパスにおける複数の第1原文それぞれに対し複数の換言候補文を生成する。
<学習データ集の選択>
次に、本実施形態における対訳コーパス作成装置Mは、学習データ集を選択する動作を実行する。この学習データ集の選択動作では、図8において、まず、対訳コーパス作成装置Mは、換言文識別部3aの学習データ選択部32aによって、上述の処理S13で換言DB選択部22によって取得された換言DBのIDを換言DB選択部22から取得する(S31)。
そして、対訳コーパス作成装置Mは、学習データ選択部32aによって、学習データ記憶部31aに記憶された複数の学習データ集のうちから、この処理S31で取得したIDを持つ学習データ集を選択し(S32)、この学習データ集の選択動作の処理を終了する。
このような動作によって、対訳コーパス作成装置Mは、入力部1で受け付けた入力コーパスに対応する学習データ集を選択する。
なお、上述では、互いに対応する同分類の換言DBと学習データ集とに同じIDが付与され、換言DBの選択動作で選択された換言DBのIDに基づいて学習データ集が選択されたが、IDを用いずに、換言DBの選択動作と同様の処理によって、学習データ記憶部31aに記憶された複数の学習データ集のうちから、入力部1で受け付けた入力コーパスに対応する学習データ集が選択されても良い。
すなわち、第1態様の選択方法では、換言DBの選択動作における第1態様の選択方法と同様の処理によって、複数の学習データ集のうちから言語モデルが最も近い学習データ集が選択される。第2態様の選択方法では、換言DBの選択動作における第2態様の選択方法と同様の処理によって、複数の学習データ集のうちからクラスが最も似ている学習データ集が選択される。第3態様の選択方法では、換言DBの選択動作における第3態様の選択方法と同様の処理によって、複数の学習データ集のうちから頻出語彙またはユニークな語彙が最も似ている学習データ集が選択される。
ここで、学習データ集の選択動作では、さらに、次の第4態様の選択方法も採用できる。この第4態様の選択方法は、複数の学習データ集のうちから文長が最も似ている学習データ集を選択する方法である。文長は、例えば、総文字数である。また例えば、文長は、総単語数である。
この第4態様の選択方法では、より具体的には、学習データ選択部32aは、まず、入力部1で受け付けた第1原文の文長を求める。そして、学習データ選択部32aは、各学習データ集ごとに、前記求めた第1原文の文長との差異を求め、前記求めた第1原文の文長に最も近い文長を持つ学習データ集を選択する。この場合、学習データ集の文長は、例えば、当該学習データ集のうちで最頻出の文長である。あるいは、学習データ選択部32aは、各学習データ集ごとに、当該学習データ集における各データそれぞれと前記求めた第1原文の文長との各差異を求めてその平均差異を求め、前記求めた各平均差異のうちの最も小さい平均差異を持つ学習データ集を前記第1原文の文長に最も近い学習データ集として選択する。
本実施形態では、第1原文は、入力コーパスとして複数あるので、学習データ選択部32aは、上述の各処理を入力部1で受け付けた入力コーパスにおける複数の第1原文それぞれについて、実行し、前記最も近い学習データ集として選択された回数が最も多い学習データ集を最終的に選択する。あるいは、学習データ選択部32aは、入力部1で受け付けた入力コーパスの文長を求め、各学習データ集ごとに、前記求めた入力コーパスの文長との差異を求め、前記求めた入力コーパスの文長に最も近い文長を持つ学習データ集を選択する。この場合、入力コーパスの文長は、例えば、当該入力コーパスのうちで最頻出の文長である。
<識別モデルの生成>
次に、本実施形態における対訳コーパス作成装置Mは、識別モデルを生成する動作を実行する。この識別モデルの生成動作では、図9において、まず、対訳コーパス作成装置Mは、換言文識別部3aのモデル生成部33によって、上述の処理S31および処理S32の各処理によって選択された学習データ集を学習データ記憶部31aから取得する(S41)。
次に、対訳コーパス作成装置Mは、モデル生成部33によって、学習データ選択部32aで選択した学習データ集に基づいて、識別モデルを、所定の基準(素性)に基づく機械学習によって生成する(S42)。例えば、形態素解析後、N−gram言語モデルやBag−Of−Words等の語彙の出現頻度等を素性として深層学習で識別モデルが形成される。
このような動作によって、対訳コーパス作成装置Mは、換言文識別部3aに識別モデルを生成する。
<換言文の識別および対訳コーパスの作成>
次に、本実施形態における対訳コーパス作成装置Mは、識別モデルに基づいて換言候補文から換言文を識別する動作を実行し、そして、その識別結果に基づいて対訳コーパスを作成する動作を実行する。この換言文の識別動作および対訳コーパスの作成動作では、図10において、まず、対訳コーパス作成装置Mは、換言文識別部3aの識別部34によって、モデル生成部33で生成した識別モデルを取得する(S51)。
次に、対訳コーパス作成装置Mは、識別部34によって、上述の処理S21ないし処理S23の各処理によって生成した複数の換言候補文を取得する(S52)。
次に、対訳コーパス作成装置Mは、この処理S52によって取得した複数Mの換言候補文全てに対し、以下の処理S53を行う(Mは、正の整数)。
この処理S53では、対訳コーパス作成装置Mは、上述の処理S41および処理S42によって生成して処理S51で取得した識別モデルに基づいて、同じ意味の文として正しい文であるか否かを判定する。この判定の結果、同じ意味の文として正しい文であると判定された場合(Yes)には、識別部34は、判定対象の換言候補文を換言文とし、一方、同じ意味ではなく正しい文ではないと判定された場合(No)には、識別部34は、判定対象の換言候補文を換言文としない。
例えば、図14に示す一具体例では、図14(C)に示す4個の換言候補文CS11〜CS14それぞれについて、処理S53が実行され、その結果、図14(D)に示すように、2個の換言候補文CS11、CS13が同じ意味の文として正しい文とされ、換言文とされる一方、2個の換言候補文CS12、CS14が同じ意味ではなく正しくない文とされる。
このような処理によって、識別部34は、モデル生成部33で生成した識別モデルに基づいて、換言候補文生成部2で生成した複数の換言候補文から第1原文の意味と同じ意味の1または複数の換言候補文を1または複数の換言文として識別する。
続いて、対訳コーパス作成装置Mは、対訳コーパス作成部4によって、上述の処理S53の識別結果に基づいて新コーパスを作成し、この作成した新コーパスを、対訳コーパス記憶部5に記憶されている既存の対訳コーパスと対にして(対応付けて)対訳コーパス記憶部5に記憶して対訳コーパスを作成し(S54)、この換言文の識別動作および対訳コーパスの作成動作を終了する。より具体的には、対訳コーパス作成部4は、上述の処理S53で識別した1または複数の換言文と上述の処理S11で受け付けた第2原文とを対の文とすることによって新たな対の文を生成する。例えば、図14に示す一具体例では、正しい文とされ換言文とされた図14(D)に示す換言候補文CS11と図14(A)に示す第2原文OS2とが、図14(E)の中段に示すように、新たな対の文とされ、正しい文とされ換言文とされた図14(D)に示す換言候補文CS13と図14(A)に示す第2原文OS2とが、図14(E)の下段に示すように、新たな対の文とされる。なお、上述では1対1で新たな対とされたが、換言文とされた換言候補文CS11、CS13と第2原文OS2とが多対1の新たな対の文とされても良い。そして、このような処理が入力コーパスにおける複数Nの第1原文および第2原文それぞれについて実行され、入力コーパスにおける複数Nの第1原文および第2原文それぞれに対応する複数の新たな対の文が集められ、新コーパスとされる。なお、この新コーパスには、入力コーパス自体が含まれても良い。そして、対訳コーパス作成部4は、このように作成した新コーパスを、対訳コーパス記憶部5に記憶されている既存の対訳コーパスと対にして(対応付けて)対訳コーパス記憶部5に記憶することで対訳コーパスを作成する。なお、対訳コーパス記憶部5に既存の対訳コーパスが記憶されていない場合には、対訳コーパス作成部4は、このように作成した新コーパスを新たな対訳コーパスとして対訳コーパス記憶部5に記憶しても良い。
このような動作によって、対訳コーパス作成装置Mは、対訳コーパスを作成する。
以上説明したように、本実施形態における対訳コーパス作成装置Mならびにこれに実装された対訳コーパス作成方法および対訳コーパス作成プログラムは、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成装置M、該方法および該プログラムは、対訳コーパスの作成を改善できる。特に、通常、より多くの対の文を集積した対訳コーパスの作成には、対の文の収集に手間や時間を要するため、比較的大きなコストがかかる。しかしながら、上記対訳コーパス作成装置M、該方法および該プログラムは、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、1個の対の文の収集に要する単価が低減できる。
ここで、前記特許文献3には、例えば機械翻訳装置の前処理に使用され、入力された原表現を、意味が同じで後の処理のために好適な別の表現に変換する(換言する)ための自動換言装置、自動換言方法および換言処理プログラムに関する技術が提案されている。より具体的には、前記特許文献3に開示された自動換言装置は、所定言語の第1の用例文群において出現する表現素片を、前記表現素片の各々の前記第1の用例文群における出現度数とともに記憶するための表現素片記憶手段と、前記所定言語の第2の用例文群中の用例文の各々に対する1個又は複数個の換言文を、当該換言文を得る際の換言の態様を示す換言情報とともに記憶するための換言文記憶手段と、前記第2の用例文群中の用例文から換言文への換言の態様を示す換言情報を、それらの適用頻度とともに記憶するための換言情報記憶手段と、換言対象となる原文を受け、前記表現素片記憶手段に記憶された表現素片のうち少なくとも一つを前記原文と共有する換言文を、前記換言文記憶手段に記憶されている換言文の中から検索するための検索手段と、前記検索手段により検索された換言文の各々に対し、対応する元の用例文との間の換言、及び前記原文との間の換言に関して、前記換言情報記憶手段に記憶された換言情報の適用頻度に基づき予め定める算出法により算出される妥当性スコアを評価するための評価手段と、前記換言文記憶手段において、前記評価手段により評価された妥当性スコアが所定の条件を充足する換言文に対応付けられた換言情報を前記原文に対し逆方向に適用することにより、前記原文に対する換言文を生成するための原文換言手段とを含む。
このように前記特許文献3に開示された自動換言装置は、機械翻訳装置に入力された原表現を、前記機械翻訳装置にとって翻訳し易い表現に換言した換言文を生成する装置である。このため、前記特許文献3に開示された自動換言装置は、1個の入力文に対し1個の換言文を生成するだけであり、複数の換言文を生成しない。さらに、前記特許文献3に開示された自動換言装置は、この生成した換言文を対訳コーパスに追加しておらず、対訳コーパスを生成していない。したがって、前記特許文献3は、上述の実施形態を開示も示唆もしていない。
また、前記特許文献4には、音声対話システムのために、類似文を作成する技術が提案されている。より具体的には、前記特許文献4に開示された装置は、同一意図の類似文を作成する装置であって、任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、類義語データベースを用いて、シード語に類似する1つ以上の類義語を検索する類義語検索手段と、前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、シード語と各類義語とが共起する類似文を作成する類似文作成手段としてコンピュータを機能させる。
このように前記特許文献4は、音声対話システムに関する文献であり、機械翻訳を想定していない。したがって、前記特許文献4では、対訳コーパスが作成されない。そして、前記特許文献4に開示された装置は、同一意図の類似文を作成する装置であるので、作成された類似文の意味がその元の文の意味と必ずしも同じであるとは限らない。したがって、前記特許文献4は、上述の実施形態を開示も示唆もしていない。
また、上記対訳コーパス作成装置M、該方法および該プログラムは、換言DB記憶部21に記憶された複数の換言DBのうちから、入力部1で受け付けた第1原文に対応する換言DBを選択し、この選択した換言DBに基づいて前記第1原文に対する複数の換言候補文を生成するので、前記第1原文に対し、より好適な換言候補文を生成でき、より高精度な対訳コーパスを作成できる。
また、上記対訳コーパス作成装置M、該方法および該プログラムは、学習データ記憶部31aに記憶された複数の学習データ集のうちから、入力部1で受け付けた第1原文に対応する学習データ集を選択し、この選択した前記学習データ集に基づいて生成した識別モデルで前記複数の換言候補文から前記1または複数の換言文を識別するので、前記第1原文に対し、より好適な換言文を識別でき、より高精度な対訳コーパスを作成できる。
なお、上述の実施形態では、対訳コーパス作成装置Mは、学習データ記憶部31aに所定の分類法に従って分類された複数の学習データ集を記憶し、これら複数の学習データ集のうちから、入力部1で受け付けた第1原文に対応する学習データ集を選択したが、分類することなく、様々な分類に属する複数のデータから成る1つの学習データ集を記憶し、この1つの学習データ集から、入力部1で受け付けた第1原文に対応するデータを選択して実際に識別モデルを生成するための学習データ集を作成しても良い。このような変形形態の換言文識別部を備える対訳コーパス作成装置Mについて、以下に、より具体的に説明する。
図15は、前記対訳コーパス作成装置における換言文識別部の変形形態の構成を示すブロック図である。図16は、前記変形形態の換言文識別部の動作を説明するための図である。
この変形形態では、対訳コーパス作成装置Mは、上述の換言文識別部3aに代え、換言文識別部3bを備える。すなわち、この変形形態の換言文識別部3bを備える対訳コーパス作成装置Mは、図1に示すように、入力部1と、換言候補文生成部2と、換言文識別部3bと、対訳コーパス作成部4と、対訳コーパス記憶部5とを備える。これら入力部1、換言候補文生成部2、対訳コーパス作成部4および対訳コーパス記憶部5は、上述と同様であるので、その説明を省略する。
この変形形態の換言文識別部3bは、例えば、図15に示すように、学習データ記憶部31bと、学習データ選択部32bと、モデル生成部33と、識別部34とを備える。これらモデル生成部33および識別部34は、上述と同様であるので、その説明を省略する。
学習データ記憶部31bは、学習データ選択部32bに接続され、学習データ集を記憶するものである。学習データ集は、換言候補文の意味が第1原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成るが、この変形形態では、分類されることなく、様々な分類に属する複数のデータから成る1つのデータ集である。例えば、この変形形態の学習データ集は、上述した、工場用の学習データ集に含まれる複数のデータ、旅行用の学習データ集に含まれる複数のデータ、買物用の学習データ集に含まれる複数のデータ、医療用の学習データ集に含まれる複数のデータおよび鉄道用の学習データ集に含まれる複数のデータから成る。この変形形態の学習データ集の一具体例が学習データ集LTcとして図16に示されている。図16に示す例では、例えば、データ305−1は、旅行の分類に属するデータであり、データ305−4は、買物の分類に属するデータであり、データ305−8は、工場の分類に属するデータである。
学習データ選択部32bは、入力部1およびモデル生成部33それぞれに接続され、学習データ記憶部31bに記憶された学習データ集のうちから、入力部1で受け付けた第1原文に対応するデータを所定の選択方法に従って選択するものである。前記所定の選択方法には、例えば、上述した学習データ選択部32aで用いられる選択方法と同様の選択方法が採用できる。学習データ選択部32bは、その選択結果をモデル生成部33へ出力する。
このような変形形態の換言文識別部3bを備える対訳コーパス作成装置Mは、換言DBの選択動作では、図6に示す上述した処理S11および処理S12を実行し(処理S13は実行されない)、換言候補文の生成動作では、図7に示す上述した処理S21ないし処理S23を実行する。
続いて、この対訳コーパス作成装置Mは、学習データ集からデータを選択するデータ選択動作では、図8に示す上述した処理S31および処理S32の実行に代え、換言文識別部3bの学習データ選択部32bによって、学習データ記憶部31bに記憶された学習データ集のうちから、処理S11で取得した入力コーパスの第1原文に対応するデータを所定の選択方法に従って選択する。例えば、図16に示す例では、学習データ選択部32bによって、入力部1で受け付けた第1原文OS3に対応するデータとして、太枠で囲った3個のデータ305−1、305−2、305−3が選択される。
そして、この対訳コーパス作成装置Mは、識別モデルの生成動作では、上述のように学習データ選択部32bによって選択されたデータを用いて、図9に示す上述した処理S41および処理S42を実行し、換言文の識別動作および対訳コーパスの作成動作では、図10に示す上述した処理S51ないし処理S54を実行する。
この変形形態の換言文識別部3bを備える対訳コーパス作成装置Mは、このような動作によって、対訳コーパスを作成する。
このような対訳コーパス作成装置M、該方法および該プログラムは、学習データ記憶部31bに記憶された学習データ集のうちから、入力部1で受け付けた第1原文に対応するデータを選択し、この選択した前記データに基づいて生成した識別モデルで前記複数の換言候補文から前記1または複数の換言文を識別するので、前記第1原文に対し、より好適な換言文を識別でき、より高精度な対訳コーパスを作成できる。また、この対訳コーパス作成装置M、該方法および該プログラムは、学習データ集のデータを分類する手間や時間を省略できる。
また、上述の実施形態では、対訳コーパス作成装置Mは、入力部1から入力された第1および第2原文のうちの前記第1原文から複数の換言候補文を介して1または複数の換言文を求め、この求めた1または複数の換言文と前記第2原文とを新たな対の文とすることによって、対訳コーパスを作成したが、さらに、前記第2原文から複数の第2換言候補文を介して1または複数の第2換言文を求め、この求めた1または複数の第2換言文と前記第1原文とを新たな対の文とすることによって、対訳コーパスを作成しても良い。
図17は、一具体例を用いて前記対訳コーパス作成装置の変形形態を説明するための図である。このような変形形態の対訳コーパス作成装置Mでは、換言候補文生成部2は、入力部1で受け付けた前記第2原文に含まれる複数の前記素片のうちの1または複数を、前記第1言語の他の表現に換言することによって、前記第2原文に対する複数の第2換言候補文をさらに生成する。換言文識別部3a(3b)は、換言候補文生成部2で生成した前記複数の第2換言候補文から前記第2原文の意味と同じ意味の1または複数の第2換言候補文を1または複数の第2換言文としてさらに識別する。対訳コーパス作成部4は、換言文識別部3a(3b)で識別した1または複数の第2換言文と入力部1で受け付けた前記第1原文とを対の文とすることによって新たな第2対の文をさらに生成し、前記生成した新たな第2対の文で新たな対訳コーパスをさらに作成する、または、前記生成した新たな第2対の文を既存の対訳コーパスに追加することによって対訳コーパスをさらに作成する。なお、この場合において、対訳コーパス作成部4は、前記第1原文に基づいて生成された換言文(第1換言文)と前記第2原文に基づいて生成された第2換言文とを対の文とすることによって新たな第2対の文をさらに生成し、前記生成した新たな第2対の文で新たな対訳コーパスをさらに作成する、または、前記生成した新たな第2対の文を既存の対訳コーパスに追加することによって対訳コーパスをさらに作成しても良い。
上述した図14に示す第1および第2原文OS1、OS2を用いて一具体例を挙げて説明する。この例では、第2原文OS2は、図17(B)下段に示すように、4個の素片SD21〜SD24から構成されている。上述の処理S11ないし処理S13の各処理によって選択された換言DBには、次の第1および第2素片SD21k、SD22kが互いに対応付けられている(kは、この例では1〜4の整数である)。素片SD22に一致する第1素片SD211(不図示)(SD22=SD211)には、第2素片SD221(図17(C)下段参照)が対応付けられている(SD211⇔SD221)。そして、素片SD22に一致する第1素片SD212(不図示)には、第2素片SD222(図17(C)下段参照)が対応付けられている。さらに、素片SD22に一致する第1素片SD214(不図示)(SD22=SD214)には、第2素片SD224(図17(C)下段参照)が対応付けられている(SD214⇔SD224)。素片SD24に一致する第1素片SD213(不図示)(SD24=SD213)には、第2素片SD223(図17(C)下段参照)が対応付けられている(SD213⇔SD223)。
このような場合に第2原文OS2に基づく第2換言候補文の生成では、図17(B)および図17(C)に示すように、第2原文OS2において、最初の処理S22および処理S23によって、素片SD22が第2素片SD221に置き換えられて換言され、第2原文OS2から第2換言候補文CS21が生成される。次の処理S22および処理S23によって、素片SD22が第2素片SD222に置き換えられて換言され、第2原文OS2から第2換言候補文CS22が生成される。次の処理S22および処理S23によって、素片SD24が第2素片SD223に置き換えられて換言され、第2原文OS2から第2換言候補文CS23が生成される。そして、次の処理S22および処理S23によって、素片SD22、SD24がそれぞれ第2素片SD224、SD223に置き換えられて換言され、第2原文OS2から第2換言候補文CS24が生成される。このように1個の第2原文OS2から4個の第2換言候補文CS21〜CS24が生成される。
換言文の識別では、図17(C)に示す4個の第2換言候補文CS21〜CS24それぞれについて、処理S53が実行され、その結果、図17(D)に示すように、2個の換言候補文CS21、CS24が同じ意味の文として正しい文とされ、第2換言文とされる一方、2個の換言候補文CS22、CS23が同じ意味ではなく正しくない文とされる。
対訳コーパスの作成では、前記正しい文とされ第2換言文とされた図17(D)3段目に示す第2換言候補文CS21と図17(A)に示す第1原文OS1とが、図17(E)4段目に示すように、新たな対の文とされ、前記正しい文とされ換言文とされた図17(D)3段目に示す第2換言候補文CS24と図17(A)に示す第1原文OS1とが新たな対の文とされる(不図示)。図17に示す例では、前記正しい文とされ第2換言文とされた図17(D)3段目に示す第2換言候補文CS21と、前記正しい文とされ換言文(第1換言文)とされた図17(D)1段目に示す換言候補文(第1換言候補文)CS13とが、図17(E)5段目に示すように、新たな対の文とされる。そして、これら新たな対の文で対訳コーパスが作成される。
このような対訳コーパス作成装置M、該方法および該プログラムは、前記第1および第2原文相互で、自動的に換言文をそれぞれ生成でき、さらにより多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成装置M、該方法および該プログラムは、対訳コーパスの作成をより改善できる。上記対訳コーパス作成装置M、該方法および該プログラムは、上述のように、前記第1および第2原文相互で、自動的に文をそれぞれ生成できるので、コストの増加がより抑制でき、1個の対の文の収集に要する単価がより低減できる。
また、上述の実施形態では、換言文識別部3a、3bは、教師有りの機械学習であったが、例えばクラスタ分析等を用いた教師無しの機械学習でも良い。この教師無しの機械学習を行う場合、学習データ集の各データを、インターネットからいわゆるクローラーによって収集することによって、学習データ記憶部31a、31bは、省略可能となる。
次に、別の実施形態について説明する。
(第2実施形態;機械翻訳システム)
図18は、第2実施形態における機械翻訳システムの構成を示すブロック図である。図19は、前記機械翻訳システムにおける学習部の動作を示すフローチャートである。
第1実施形態では、対訳コーパス作成装置Mならびにこれに実装された対訳コーパス作成方法および対訳コーパス作成プログラムについて、その変形形態を含めて説明したが、第2実施形態では、この対訳コーパス作成装置Mを用いた、すなわち、対訳コーパス作成方法および対訳コーパス作成プログラムを実装した機械翻訳システムについて説明する。
この第2実施形態における機械翻訳システムSは、例えば、図18に示すように、対訳コーパス作成装置Mと、翻訳装置Tとを備える。
対訳コーパス作成装置Mは、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する装置である。この対訳コーパス作成装置Mは、第1実施形態で説明した装置(その変形形態を含む)である。すなわち、この対訳コーパス作成装置Mは、第1実施形態で説明した対訳コーパス作成方法および対訳コーパス作成プログラムを実装する。
翻訳装置Tは、対訳コーパス作成装置Mで作成した対訳コーパスに基づいて、翻訳対象である対象文を第1言語と第2言語との間で翻訳する装置である。翻訳装置Tは、例えば、学習部6と、翻訳部7と、第2入力部8と、出力部9とを備える。
第2入力部8は、翻訳部7に接続され、例えば、翻訳開始を指示するコマンド等の各種コマンド、および、例えば第1言語の対象文等の翻訳する上で必要な各種データを翻訳装置Tに入力する機器であり、例えば、キーボードおよびマウス等である。出力部9は、翻訳部7に接続され、第2入力部8から入力されたコマンドやデータ、および、翻訳部7によって翻訳された第2言語の翻訳文等を出力する機器であり、例えばCRTディスプレイ、LCD(液晶ディスプレイ)および有機ELディスプレイ等の表示装置やプリンタ等の印刷装置等である。
なお、第2入力部8および出力部9からタッチパネルが構成されてもよい。このタッチパネルを構成する場合において、第2入力部8は、例えば抵抗膜方式や静電容量方式等の操作位置を検出して入力する位置入力装置であり、出力部9は、表示装置である。このタッチパネルでは、表示装置の表示面上に位置入力装置が設けられ、表示装置に入力可能な1または複数の入力内容の候補が表示され、ユーザが、入力したい入力内容を表示した表示位置を触れると、前記位置入力装置によってその位置が検出され、検出された位置に表示された表示内容がユーザの操作入力内容として翻訳装置Tに入力される。このようなタッチパネルでは、ユーザは、入力操作を直感的に理解し易いので、ユーザにとって取り扱い易い翻訳装置T(機械翻訳システムS)が提供される。
学習部6は、翻訳部7に接続され、対訳コーパス作成装置Mで作成された対訳コーパスを用いて翻訳部7の翻訳モデルを生成、または学習するものである。
翻訳部7は、第2入力部8で受け付けた第1言語の対象文を第2言語に翻訳して第2言語の翻訳文を生成し、出力部9に出力するものである。
このような各部6〜9を備える翻訳装置Tは、例えば、デスクトップ型、ノート型、タブレット型等のコンピュータ等の情報処理装置で構成される。
このような翻訳システムSでは、対訳コーパス作成装置Mは、第1実施形態で説明した各動作によって新たな対訳コーパス(新対訳コーパス)を作成する。続いて、学習部6は、図19において、この対訳コーパス作成装置Mで作成された新対訳コーパスを取得し(S61)、この取得した新対訳コーパスで翻訳部7の翻訳モデルを生成、または学習する(S62)。本実施形態における対訳コーパス作成装置Mは、第1実施形態で説明した通り、より多くの例文を含むので、より精度良く翻訳部7の翻訳モデルを生成、または学習できる。そして、第2入力部8から対象文が受け付けられ、翻訳が指示されると、翻訳部7は、対象文を翻訳し、翻訳文を出力部9に出力する。翻訳部7は、上述の通り、学習部6でより精度良く生成、または学習されるので、より精度良く翻訳できる。
このような機械翻訳システムSは、第1実施形態で説明した、上述の対訳コーパス作成方法および対訳コーパス作成プログラムを実装する対訳コーパス作成装置Mを備えるので、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記機械翻訳システムSは、対訳コーパスの作成を改善できる。上記機械翻訳システムSは、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、1個の対の文の収集に要する単価が低減できる。
なお、上述の第2実施形態において、対訳コーパス作成装置Mと、翻訳装置Tとは、ネットワークを介して互いに通信可能に接続されても良い。また、翻訳装置Tは、学習部6を備える第1本体装置と、翻訳部7、第2入力部8および出力部9を備える第2本体装置とで構成され、前記第1本体装置と、前記第2本体装置とは、ネットワークを介して互いに通信可能に接続されても良い。
また、上述の実施形態では、対訳コーパス作成装置Mと、翻訳装置Tとは、個別の情報処理装置それぞれで構成されたが、一体化され1個の情報処理装置で構成されても良い。
本明細書は、上記のように様々な態様の技術を開示しているが、そのうち主な技術を以下に纏める。
一態様にかかる対訳コーパス作成方法は、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成方法であって、前記第1言語の第1原文と、前記第1原文を前記第2言語で翻訳した第2原文とを受け付ける受付工程と、予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記第1原文に含まれる複数の前記素片のうちの1または複数を、前記第1言語の他の表現に換言することによって、前記第1原文に対する複数の換言候補文を生成する換言候補文生成工程と、前記換言候補文生成工程で生成した前記複数の換言候補文から前記第1原文の意味と同じ意味の1または複数の換言候補文を1または複数の換言文として識別する換言文識別工程と、前記換言文識別工程で識別した1または複数の換言文と前記受付工程で受け付けた前記第2原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成する対訳コーパス作成工程とを備える。
このような対訳コーパス作成方法は、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成方法は、対訳コーパスの作成を改善できる。特に、通常、より多くの対の文を集積した対訳コーパスの作成には、対の文の収集に手間や時間を要するため、比較的大きなコストがかかる。しかしながら、上記対訳コーパス作成方法は、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、1個の対の文の収集に要する単価が低減できる。なお、対の文には、第1言語の文と前記第1言語と異なる第2言語の文との間で、1対1の文、多対1の文および1対多の文が含まれる。
また、他の一態様では、上述の対訳コーパス作成方法において、前記換言候補文生成工程は、前記第1言語の第1素片と、前記第1素片に対応付けられ前記第1素片を前記第1言語の他の表現で表現した第2素片とを備える換言データベースであって、予め設定した所定の分類法に従って分類された複数の換言データベースのうちから、前記受付工程で受け付けた前記第1原文に対応する換言データベースを選択する換言データベース選択工程と、前記受付工程で受け付けた前記第1原文に含まれる複数の前記素片のうちの1または複数を、前記換言データベース選択工程で選択した前記換言データベースに基づいて前記第1言語の他の表現に換言することによって、前記第1原文に対する複数の換言候補文を生成する換言工程とを備える。
このような対訳コーパス作成方法は、前記複数の換言データベースのうちから、前記受付工程で受け付けた前記第1原文に対応する換言データベースを選択し、この選択した前記換言データベースに基づいて前記第1原文に対する複数の換言候補文を生成するので、前記第1原文に対し、より好適な換言候補文を生成でき、より高精度な対訳コーパスを作成できる。
また、他の一態様では、これら上述の対訳コーパス作成方法において、前記換言文識別工程は、前記換言候補文の意味が前記第1原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成る学習データ集であって、予め設定した所定の分類法に従って分類された複数の前記学習データ集のうちから、前記受付工程で受け付けた前記第1原文に対応する学習データ集を選択する学習データ選択工程と、前記学習データ選択工程で選択した前記学習データ集に基づいて前記識別モデルを生成するモデル生成工程と、前記モデル生成工程で生成した識別モデルに基づいて、前記換言候補文生成工程で生成した前記複数の換言候補文から前記1または複数の換言文を識別する識別工程とを備える。
このような対訳コーパス作成方法は、前記複数の学習データ集のうちから、前記受付工程で受け付けた前記第1原文に対応する学習データ集を選択し、この選択した前記学習データ集に基づいて生成した識別モデルで前記複数の換言候補文から前記1または複数の換言文を識別するので、前記第1原文に対し、より好適な換言文を識別でき、より高精度な対訳コーパスを作成できる。
また、他の一態様では、これら上述の対訳コーパス作成方法において、前記換言文識別工程は、前記換言候補文の意味が前記第1原文の意味と同じであるか否かを識別する識別モデルを学習によって生成するための複数のデータから成る学習データ集のうちから、前記受付工程で受け付けた前記第1原文に対応するデータを選択する第2学習データ選択工程と、前記第2学習データ選択工程で選択した前記データに基づいて前記識別モデルを生成する第2モデル生成工程と、前記第2モデル生成工程で生成した識別モデルに基づいて、前記換言候補文生成工程で生成した前記複数の換言候補文から前記1または複数の換言文を識別する第2識別工程とを備える。
このような対訳コーパス作成方法は、前記学習データ集のうちから、前記受付工程で受け付けた前記第1原文に対応するデータを選択し、この選択した前記データに基づいて生成した識別モデルで前記複数の換言候補文から前記1または複数の換言文を識別するので、前記第1原文に対し、より好適な換言文を識別でき、より高精度な対訳コーパスを作成できる。
また、他の一態様では、これら上述の対訳コーパス作成方法において、前記換言候補文生成工程は、前記受付工程で受け付けた前記第2原文に含まれる複数の前記素片のうちの1または複数を、前記第1言語の他の表現に換言することによって、前記第2原文に対する複数の第2換言候補文をさらに生成し、前記換言文識別工程は、前記換言候補文生成工程で生成した前記複数の第2換言候補文から前記第2原文の意味と同じ意味の1または複数の第2換言候補文を1または複数の第2換言文としてさらに識別し、前記対訳コーパス作成工程は、前記換言文識別工程で識別した1または複数の第2換言文と前記受付工程で受け付けた前記第1原文とを対の文とすることによって新たな第2対の文をさらに生成し、前記生成した新たな第2対の文で新たな対訳コーパスをさらに作成する、または、前記生成した新たな第2対の文を既存の対訳コーパスに追加することによって対訳コーパスをさらに作成する。
このような対訳コーパス作成方法は、前記第1および第2原文相互で、自動的に換言文をそれぞれ生成でき、さらにより多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成方法は、対訳コーパスの作成をより改善できる。上記対訳コーパス作成方法は、上述のように、前記第1および第2原文相互で、自動的に文をそれぞれ生成できるので、コストの増加がより抑制でき、1個の対の文の収集に要する単価がより低減できる。
また、他の一態様にかかる対訳コーパス生成装置は、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成装置であって、前記第1言語の第1原文と、前記第1原文を前記第2言語で翻訳した第2原文とを受け付ける入力部と、予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記入力部で受け付けた前記第1原文に含まれる複数の前記素片のうちの1または複数を、前記第1言語の他の表現に換言することによって、前記第1原文に対する複数の換言候補文を生成する換言候補文生成部と、前記換言候補文生成部で生成した前記複数の換言候補文から前記第1原文の意味と同じ意味の1または複数の換言候補文を1または複数の換言文として識別する換言文識別部と、前記換言文識別部で識別した1または複数の換言文と前記入力部で受け付けた前記第2原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成する対訳コーパス作成部とを備える。
また、他の一態様にかかる対訳コーパス生成プログラムは、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成プログラムであって、コンピュータに、前記第1言語の第1原文と、前記第1原文を前記第2言語で翻訳した第2原文とを受け付ける受付工程と、予め設定した所定の規則に従って文を分割することによって形成される素片であって、前記受付工程で受け付けた前記第1原文に含まれる複数の前記素片のうちの1または複数を、前記第1言語の他の表現に換言することによって、前記第1原文に対する複数の換言候補文を生成する換言候補文生成工程と、前記換言候補文生成工程で生成した前記複数の換言候補文から前記第1原文の意味と同じ意味の1または複数の換言候補文を1または複数の換言文として識別する換言文識別工程と、前記換言文識別工程で識別した1または複数の換言文と前記受付工程で受け付けた前記第2原文とを対の文とすることによって新たな対の文を生成し、前記生成した新たな対の文で新たな対訳コーパスを作成する、または、前記生成した新たな対の文を既存の対訳コーパスに追加することによって対訳コーパスを作成する対訳コーパス作成工程と、を実行させるためのプログラムである。
このような対訳コーパス作成装置および対訳コーパス作成プログラムは、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記対訳コーパス作成装置および該プログラムは、対訳コーパスの作成を改善できる。特に、通常、より多くの対の文を集積した対訳コーパスの作成には、対の文の収集に手間や時間を要するため、比較的大きなコストがかかる。しかしながら、上記対訳コーパス作成装置および該プログラムは、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、1個の対の文の収集に要する単価が低減できる。
また、他の一態様にかかる機械翻訳システムは、第1言語の第1文と前記第1言語と異なる第2言語の第2文とを対にした対の文を複数集めた対訳コーパスを作成する対訳コーパス作成装置と、前記対訳コーパス作成装置で作成した対訳コーパスに基づいて、翻訳対象である対象文を前記第1言語と前記第2言語との間で翻訳する翻訳装置とを備え、前記対訳コーパス作成装置は、これら上述のいずれかの対訳コーパス作成方法を実装する。
このような機械翻訳システムは、これら上述のいずれかの対訳コーパス作成方法を実装する対訳コーパス作成装置を備えるので、自動的に換言文を生成でき、より多くの対の文を集積した対訳コーパスを作成できる。したがって、上記機械翻訳システムは、対訳コーパスの作成を改善できる。上記機械翻訳システムは、上述のように、自動的に文を生成できるので、コストの増加が抑制でき、1個の対の文の収集に要する単価が低減できる。
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および/または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。