JP6830226B2

JP6830226B2 - 換言文識別方法、換言文識別装置及び換言文識別プログラム

Info

Publication number: JP6830226B2
Application number: JP2017097489A
Authority: JP
Inventors: 菜々美藤原; 山内　真樹; 真樹山内; 今出　昌宏; 昌宏今出
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-09-21
Filing date: 2017-05-16
Publication date: 2021-02-17
Anticipated expiration: 2037-05-16
Also published as: JP2018055671A

Description

本開示は、原文から作成した換言文の良否を識別し、対訳コーパスをアップデートする換言文識別方法、換言文識別装置及び換言文識別プログラムに関する。

近年、第１言語の文を第１言語と異なる第２言語の文に翻訳する機械翻訳が研究及び開発されており、このような機械翻訳の性能向上には、翻訳に利用可能な多数の例文を収集した対訳コーパスが必要となる。このため、１個の原文から当該原文に類似する１又は複数の換言文を作成することが行われ、換言文の良否が対訳コーパスの良否を決定し、最終的に翻訳の良否を決定することとなる。

上記のような換言文の良し悪しを判断するため、例えば、特許文献１には、文の置き換えを行った変換結果に対して、文の良し悪しに対する評価を、言語モデル（Ｎ−ｇｒａｍ言語モデル）や口語表現の文集合など、複数の評価軸で評価する言語変換処理システムが開示されている。

また、特許文献２には、対象分野のコーパスに含まれる文に類似する文を、当該対象分野のコーパスと異なる分野のコーパスである対象分野外のコーパスから効率よく集めるため、対象分野外コーパスから穴あき単語列を参照することにより、汎用性を広げる言語モデルを学習する方法が開示されている。

特許第４０４１８７６号公報特開２０１６−２４７５９号公報

しかしながら、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、例文として使用可能な換言文の識別には、更なる改善が必要とされていた。

本開示は、上記従来の課題を解決するもので、原文から作成された換言文の良否を効率よく且つ高精度に識別することができる換言文識別方法、換言文識別装置及び換言文識別プログラムを提供することを目的とする。

本開示の一様態による方法は、対訳コーパスをアップデートする方法であって、前記対訳コーパスは第１言語で記述された文と第２言語で記述された対訳文との対を複数含み、前記対訳コーパスは第１言語で記述された第１文と第２言語で記述された第２文との対を含み、前記第２文は前記第１文に対する対訳文であり、前記第１文を構成する複数の語句のうち第１語句が第２語句に置き換えられた第３文を入力し、第３語句が第１データベースに含まれるか否かを判定し、前記第３語句は少なくとも、前記第３文において前記第２語句と前記第２語句の直前の第４語句、もしくは、前記第３文において前記第２語句と前記第２語句の直後の第５語句を含み、前記第１データベースは書き言葉の文章で用いられた語句を少なくとも含み、前記第３語句が前記第１データベースに含まれていないと判定された場合は、前記第１データベースに基づいて、前記第３語句のうち前記第２語句を第６語句に置き換えた第７語句に対して、前記第１データベースにおける第１評価値を算出し、前記第６語句は前記第２語句とは異なり、前記第３語句が第２データベースに含まれるか否かを判定するとともに、前記第１評価値を基に算出した第２評価値が所定の条件を満たすか否かを判定し、前記第２データベースは話し言葉の文章で用いられた語句を少なくとも含み、前記話し言葉の文章で用いられた語句と前記話し言葉の文章で用いられた語句の前記第２データベースにおける出現頻度とを対応付け、前記第３語句が前記第２データベースに含まれ、且つ前記第２評価値が前記所定の条件を満たすと判定された場合は、前記第３文と前記第２文との対を前記対訳コーパスに追加する。

本開示によれば、原文から作成された換言文の良否を効率よく且つ高精度に識別することができる。

本開示の一実施の形態における換言文識別装置を備える換言文識別システムの構成の一例を示すブロック図である。図１に示す換言ＤＢのデータ構成の一例を示す図である。図１に示す汎用Ｎ−ｇｒａｍＤＢのデータ構成の一例を示す図である。図１に示す口語表現Ｎ−ｇｒａｍＤＢのデータ構成の一例を示す図である。図１に示す汎用Ｎ−ｇｒａｍ判定部による汎用Ｎ−ｇｒａｍ判定処理の一例を示すフローチャートである。図１に示す口語表現Ｎ−ｇｒａｍ判定部による口語表現Ｎ−ｇｒａｍ判定処理の一例を示すフローチャートである。

（本開示の基礎となった知見）
上記のように、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、機械翻訳の原文の類似対訳コーパスを自動生成する過程において、原文から換言(言い換
え)により作られた換言文の良否（良し悪し）の判断を効率よく且つ高精度に行うことが
要望されている。

しかしながら、口語表現を多く含むような言語モデルのデータベースの作成には、非常に大きなコストがかかり、逆に、「Ｔｗｉｔｔｅｒ」（登録商標）や「Ｆａｃｅｂｏｏｋ」（登録商標）などの情報を基に言語モデルのデータベースを作成する場合、データの品質が良いものとは言えず、品質の悪いデータも多く含まれることになる。

また、換言文の良否を言語モデル（例えば、汎用Ｎ−ｇｒａｍ言語モデル）のデータベースで評価する場合、換言文の良否の評価がデータベースに保持されているデータの質や量に大きく依存し、特に、換言文に含まれるフレーズ等がデータベースに含まれていない場合や原文からの置き換え部分付近のフレーズそのものがデータベースに含まれない場合、換言文を評価することができない。さらに、方言や口語表現などを多く含むデータベースは、質が保証できないため、これらのみで換言文の良否を判断することはできない。

本開示の一態様では、例えば、換言文の置き換え部分を含むＮ−ｇｒａｍにおいて、Ｎ−ｇｒａｍの全てはヒットしないが、部分的には一致する場合、汎用Ｎ−ｇｒａｍデータベースから一致する部分のみの出現確率を求める。例えば、「その服めっちゃ良い
ね」の文章のうち「めっちゃ」をワイルドカードである「＊」に置き換え、「その服
＊良いね」の出現確率を求め、未知語「＊」については、別に持っている口語表現Ｎ−ｇｒａｍデータベースを参照する。

この口語表現Ｎ−ｇｒａｍデータベースでは、語の一致まで厳しく見るのではなく、「＊」の周辺は、「品詞」レベルでの一致も判定する。例えば、「服」を［名詞］に、「良い」を「形容詞」に置き換え、口語表現Ｎ−ｇｒａｍデータベースにおける「名詞めっちゃ形容詞」の有無を判定する。このように、本開示の一態様では、言語モデルと、口語表現のデータベースとを合わせて、換言文の良否を判断する。

この結果、本開示の一態様では、既存の言語モデル以外のデータを用いる際、追加のデータ自体の量及び精度が十分でない場合でも、換言文の良否を高精度に判断することができる。すなわち、規模が大きく且つ質の良いデータベース（例えば、汎用Ｎ−ｇｒａｍ言語モデルのデータベース）の情報を活かしつつ、口語や最近の表現に対応したデータベース（例えば、口語表現Ｎ−ｇｒａｍデータベース）も併用しながら、換言文の良否を判断することができる。

したがって、本開示の一態様では、規模が大きく且つ質の良いデータベースと、データの質は保証されないが、口語表現や方言などを含むデータベースとの双方の良い部分を効率よく参照することにより、ハイブリットに換言文の良否を評価することができる。すなわち、文法的に破綻が少ない文語表現のデータベースと、文法的に破綻があるが、多様な表現を含む口語表現のデータベースとを併用することにより、原文から作成された換言文の良否を効率よく且つ高精度に識別することができる。

上記の知見に基づき、本願発明者らは、原文から作成された換言文の良否を如何に識別すべきかについて鋭意検討を行った結果、本開示を完成したものである。

本開示の一態様に係る方法は、対訳コーパスをアップデートする方法であって、前記対訳コーパスは第１言語で記述された文と第２言語で記述された対訳文との対を複数含み、前記対訳コーパスは第１言語で記述された第１文と第２言語で記述された第２文との対を含み、前記第２文は前記第１文に対する対訳文であり、前記第１文を構成する複数の語句のうち第１語句が第２語句に置き換えられた第３文を入力し、第３語句が第１データベースに含まれるか否かを判定し、前記第３語句は少なくとも、前記第３文において前記第２語句と前記第２語句の直前の第４語句、もしくは、前記第３文において前記第２語句と前記第２語句の直後の第５語句を含み、前記第１データベースは書き言葉の文章で用いられた語句を少なくとも含み、前記第３語句が前記第１データベースに含まれていないと判定された場合は、前記第１データベースに基づいて、前記第３語句のうち前記第２語句を第６語句に置き換えた第７語句に対して、前記第１データベースにおける第１評価値を算出し、前記第６語句は前記第２語句とは異なり、前記第３語句が第２データベースに含まれるか否かを判定するとともに、前記第１評価値を基に算出した第２評価値が所定の条件を満たすか否かを判定し、前記第２データベースは話し言葉の文章で用いられた語句を少なくとも含み、前記話し言葉の文章で用いられた語句と前記話し言葉の文章で用いられた語句の前記第２データベースにおける出現頻度とを対応付け、前記第３語句が前記第２データベースに含まれ、且つ前記第２評価値が前記所定の条件を満たすと判定された場合は、前記第３文と前記第２文との対を前記対訳コーパスに追加する。

このような構成により、第１文を構成する複数の語句のうち第１語句が第２語句に置き換えられた第３文を入力し、第３語句が第１データベースに含まれるか否かを判定し、第３語句は少なくとも、第３文において第２語句と第２語句の直前の第４語句、もしくは、第３文において第２語句と第２語句の直後の第５語句を含み、第１データベースは書き言葉の文章で用いられた語句を少なくとも含み、第３語句が第１データベースに含まれていないと判定された場合は、第１データベースに基づいて、第３語句のうち第２語句を第６語句に置き換えた第７語句に対して、第１データベースにおける第１評価値を算出し、第６語句は第２語句とは異なり、第３語句が第２データベースに含まれるか否かを判定するとともに、第１評価値を基に算出した第２評価値が所定の条件を満たすか否かを判定し、第２データベースは話し言葉の文章で用いられた語句を少なくとも含み、話し言葉の文章で用いられた語句と話し言葉の文章で用いられた語句の第２データベースにおける出現頻度とを対応付け、第３語句が第２データベースに含まれ、且つ第２評価値が所定の条件を満たすと判定された場合は、第３文と第２文との対を対訳コーパスに追加しているので、原文である第１文から作成された換言文である第３文の良否を効率よく且つ高精度に識別することができる。

前記第３文は、前記第１語句を、第３データベースに含まれる前記第２語句に置き換えることにより生成され、前記第３データベースは語句と前記語句と同じ意味で表現が異なる語句とを対応付けるようにしてもよい。

このような構成により、第３データベースから換言文となる第３文を作成することができる。

前記第２データベースはソーシャル・ネットワーキング・サービスで用いられた語句に基づき生成されるようにしてもよい。

このような構成により、第２データベースは、第１データベースより口語表現を多く含むデータベースとなる。

前記第３語句が前記第１データベースに含まれていると判定された場合は、前記第３文と前記第２文との対を前記対訳コーパスに追加するようにしてもよい。

このような構成により、第１データベースを用いて、原文である第１文から作成された換言文である第３文の良否を効率よく且つ高精度に識別することができる。

前記第３語句が前記第１データベースに含まれていないと判定された場合、前記第７語句のうち前記第６語句を判定対象外にして、前記第７語句が前記第１データベースに存在するか否かを判定し、前記第７語句が前記第１データベースに存在しない場合、前記第３文を前記対訳コーパスに追加しないようにしてもよい。

このような構成により、第３語句が第１データベースに含まれていないと判定された場合、第７語句のうち第６語句を判定対象外にして、第７語句が第１データベースに存在するか否かを判定し、第７語句が第１データベースに存在しない場合、第３文を対訳コーパスに追加しないので、判定基準を緩めて換言文である第３文の良否を判定し、緩めた判定基準を満たさない換言文のみを対訳コーパスに追加しないようにすることができるとともに、緩めた判定基準を満たす換言文に対しては、データの質は保証されないが、口語表現や方言などを含むデータベース等を用いた他の判定基準により換言文の良否をさらに判定することができる。

前記第３語句として、前記第２語句を含むＮ語のＮ−ｇｒａｍを用いるとともに、前記第１データベースとして、Ｎ−ｇｒａｍ言語モデルのデータベースを用い、前記Ｎ−ｇｒａｍが前記Ｎ−ｇｒａｍ言語モデルのデータベースに存在するか否かを判定し、前記Ｎ−ｇｒａｍが前記Ｎ−ｇｒａｍ言語モデルのデータベースに存在する場合、前記第３文と前記第２文との対を前記対訳コーパスに追加するようにしてもよい。

このような構成により、判定対象部分となるＮ−ｇｒａｍがＮ−ｇｒａｍ言語モデルのデータベースに存在する場合、換言文（第３文）と対訳文（第２文）との対を対訳コーパスに追加しているので、より多くの換言文を対訳コーパスに追加することができる。

前記第３語句として、前記第２語句を含むＮ語のＮ−ｇｒａｍを用いるとともに、前記第１データベースとして、Ｎ−ｇｒａｍ言語モデルのデータベースを用い、前記Ｎ−ｇｒａｍ言語モデルのデータベースから前記Ｎ−ｇｒａｍの出現確率又は出現頻度を求め、前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される第３評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加するようにしてもよい。

このような構成により、判定対象部分となるＮ−ｇｒａｍの出現確率又は出現頻度から算出される第３評価値が所定の閾値以上の場合、換言文（第３文）と対訳文（第２文）との対を対訳コーパスに追加と判定しているので、換言文の良否を高精度に判定し、換言文及び対訳文との対を対訳コーパスに追加することができる。

前記第３語句が前記第１データベースに含まれていないと判定された場合、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍが前記Ｎ−ｇｒａｍ言語モデルのデータベースに存在するか否かを判定し、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍが前記Ｎ−ｇｒａｍ言語モデルのデータベースに存在しない場合、前記第３文を前記対訳コーパスに追加しないようにしてもよい。

このような構成により、置き換え部分（第２語句）を判定対象外とするＮ−ｇｒａｍがＮ−ｇｒａｍ言語モデルのデータベースに存在しない場合、換言文（第３文）を対訳コーパスに追加しないので、通常のＮ−ｇｒａｍ言語モデルより緩めた判定基準を満たさない換言文のみを対訳コーパスに追加しないようにすることができるとともに、通常のＮ−ｇｒａｍ言語モデルより緩めた判定基準を満たす換言文に対しては、他の判定基準により換言文の良否を効率的に且つ高精度に判定することができる。

前記第３語句が前記第１データベースに含まれていないと判定された場合、前記Ｎ−ｇｒａｍ言語モデルのデータベースから前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度を求め、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される第４評価値が所定の閾値より低い場合、前記第３文を前記対訳コーパスに追加しないようにしてもよい。

このような構成により、置き換え部分（第２語句）を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される第４評価値が所定の閾値より低い場合、換言文（第３文）を対訳コーパスに追加しないので、通常のＮ−ｇｒａｍ言語モデルより判定基準を緩めたＮ−ｇｒａｍの出現確率又は出現頻度から算出される評価値により換言文を否とする判定を高精度に行うことができるとともに、通常のＮ−ｇｒａｍ言語モデルより緩めたＮ−ｇｒａｍの出現確率又は出現頻度から算出される評価値を満たす換言文に対しては、他の判定基準により換言文の良否を効率的に且つ高精度に判定することができる。

前記第７語句が前記第１データベースに存在する場合、前記Ｎ−ｇｒａｍの前記第２語句、前記第４語句及び前記第５語句とからなる表層表現前後部分が前記第２データベースに存在するか否かを判定し、前記表層表現前後部分が前記第２データベースに存在し、且つ、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される表層表現前後評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加するようにしてもよい。

このような構成により、置き換え部分（第２語句）と前後の語（第４語句及び第５語句）とからなる表層表現前後部分が第２データベースに存在し、且つ、置き換え部分（第２語句）を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される表層表現前後評価値が所定の閾値以上の場合、換言文（第３文）と対訳文（第２文）との対を対訳コーパスに追加しているので、第２データベースのデータ量や精度が十分でない場合でも、置き換え部分と前後の語とからなる表層表現前後部分に基づいて、換言文の良否を効率よく且つ高精度に判断し、換言文及び対訳文との対を対訳コーパスに追加することができる。

前記第７語句が前記第１データベースに存在する場合、前記Ｎ−ｇｒａｍの前記第２語句及び前記第４語句からなる表層表現前語部分、又は、前記第２語句及び前記第５語句からなる表層表現後語部分が、前記第２データベースに存在するか否かを判定し、前記表層表現前語部分又は前記表層表現後語部分が前記第２データベースに存在し、且つ、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される表層表現一方評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加するようにしてもよい。

このような構成により、前の語（第４語句）と置き換え部分（第２語句）とからなる表層表現前語部分又は置き換え部分（第２語句）と後の語（第５語句）とからなる表層表現後語部分が第２データベースに存在し、且つ、置き換え部分（第２語句）を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される表層表現一方評価値が所定の閾値以上の場合、換言文（第３文）と対訳文（第２文）との対を対訳コーパスに追加しているので、第２データベースのデータ量や精度が十分でない場合でも、前の語と置き換え部分とからなる表層表現前語部分又は置き換え部分と後の語とからなる表層表現後語部分に基づいて、換言文の良否を効率よく且つ高精度に判断し、換言文及び対訳文との対を対訳コーパスに追加することができる。

前記表層表現前後評価値は、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から求めた前記第１評価値に所定の第１の重み量を乗算した値であり、前記表層表現一方評価値は、前記第１評価値に前記第１の重み量より小さい第２の重み量を乗算した値であってもよい。

このような構成により、置き換え部分と前後の語とからなる表層表現前後部分、及び、置き換え部分と前の語とからなる表層表現前語部分又は置き換え部分と後の語とからなる表層表現後語部分に基づいて、換言文の良否をより高精度に判断することができる。

前記表層表現前後部分が前記第２データベースに存在しない場合、前記表層表現前後評価値が所定の閾値以上でない場合、前記表層表現前語部分又は前記表層表現後語部分が前記第２データベースに存在しない場合、又は、前記表層表現一方評価値が所定の閾値以上でない場合、前記Ｎ−ｇｒａｍの前記第２語句と、前記第４語句を前記第４語句の品詞に置き換えた前品詞部分と、前記第５語句を前記第５語句の品詞に置き換えた後品詞部分とからなる品詞表現前後部分が前記第２データベースに存在するか否かを判定し、前記品詞表現前後部分が前記第２データベースに存在し、且つ、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される品詞表現前後評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加するようにしてもよい。

このような構成により、前品詞部分と置き換え部分（第２語句）と後品詞部分とからなる品詞表現前後部分が第２データベースに存在し、且つ、置き換え部分（第２語句）を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される品詞表現前後評価値が所定の閾値以上の場合、換言文（第３文）と対訳文（第２文）との対を対訳コーパスに追加しているので、第２データベースのデータ量や精度が十分でない場合でも、前品詞部分と置き換え部分と後品詞部分とからなる品詞表現前後部分に基づいて、換言文の良否を効率よく且つ高精度に判断することができる。

前記表層表現前後部分が前記第２データベースに存在しない場合、前記表層表現前後評価値が所定の閾値以上でない場合、前記表層表現前語部分又は前記表層表現後語部分が前記第２データベースに存在しない場合、又は、前記表層表現一方評価値が所定の閾値以上でない場合、前記Ｎ−ｇｒａｍの前記第２語句と、前記第４語句を前記第４語句の品詞に置き換えた前品詞部分とからなる品詞表現前語部分、又は、前記第２語句と、前記第５語句を前記第５語句の品詞に置き換えた後品詞部分とからなる品詞表現後語部分が前記第２データベースに存在するか否かを判定し、前記品詞表現前語部分又は前記品詞表現後語部分が前記第２データベースに存在し、且つ、前記置き換え部分を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される品詞表現一方評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加するようにしてもよい。

このような構成により、前品詞部分と置き換え部分（第２語句）とからなる品詞表現前語部分又は置き換え部分（第２語句）と後品詞部分とからなる品詞表現後語部分が第２データベースに存在し、且つ、置き換え部分（第２語句）を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される品詞表現一方評価値が所定の閾値以上の場合、換言文（第３文）と対訳文（第２文）との対を対訳コーパスに追加しているので、第２データベースのデータ量や精度が十分でない場合でも、前品詞部分と置き換え部分とからなる品詞表現前語部分又は置き換え部分と後品詞部分とからなる品詞表現後語部分に基づいて、換言文の良否を効率よく且つ高精度に判断することができる。

前記表層表現前後評価値は、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から求めた前記第１評価値に所定の第１の重み量を乗算した値であり、前記表層表現一方評価値は、前記第１評価値に前記第１の重み量より小さい第２の重み量を乗算した値であり、前記品詞表現前後評価値は、前記第１評価値に前記第２の重み量より小さい第３の重み量を乗算した値であり、前記品詞表現一方評価値は、前記第１評価値に前記第３の重み量より小さい第４の重み量を乗算した値であってもよい。

このような構成により、置き換え部分（第２語句）と前後の語とからなる表層表現前後部分、前の語と置き換え部分（第２語句）とからなる表層表現前語部分又は置き換え部分（第２語句）と後の語とからなる表層表現後語部分、前品詞部分と置き換え部分（第２語句）と後品詞部分とからなる品詞表現前後部分、及び、前品詞部分と置き換え部分（第２語句）とからなる品詞表現前語部分又は置き換え部分（第２語句）と後品詞部分とからなる品詞表現後語部分に基づいて、換言文の良否をより高精度に判断することができる。

前記品詞表現前後部分が前記第２データベースに存在しない場合、前記品詞表現前後評価値が所定の閾値以上でない場合、前記品詞表現前語部分又は前記品詞表現後語部分が前記第２データベースに存在しない場合、又は、前記品詞表現一方評価値が所定の閾値以上でない場合、前記第２語句が前記第２データベースに存在するか否かを判定し、前記第２語句が前記第２データベースに存在し、且つ、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される置き換え部分評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加するようにしてもよい。

このような構成により、置き換え部分（第２語句）が第２データベースに存在し、且つ、置き換え部分（第２語句）を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される置き換え部分評価値が所定の閾値以上の場合、換言文（第３文）と対訳文（第２文）との対を対訳コーパスに追加しているので、第２データベースのデータ量や精度が十分でない場合でも、置き換え部分に基づいて、換言文の良否を効率よく且つ高精度に判断することができる。

前記表層表現前後評価値は、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から求めた前記第１評価値に所定の第１の重み量を乗算した値であり、前記表層表現一方評価値は、前記第１評価値に前記第１の重み量より小さい第２の重み量を乗算した値であり、前記品詞表現前後評価値は、前記第１評価値に前記第２の重み量より小さい第３の重み量を乗算した値であり、前記品詞表現一方評価値は、前記第１評価値に前記第３の重み量より小さい第４の重み量を乗算した値であり、前記置き換え部分評価値は、前記第１評価値に前記第４の重み量より小さい第５の重み量を乗算した値であってもよい。

このような構成により、置き換え部分（第２語句）と前後の語とからなる表層表現前後部分、前の語と置き換え部分（第２語句）とからなる表層表現前語部分又は置き換え部分（第２語句）と後の語とからなる表層表現後語部分、前品詞部分と置き換え部分（第２語句）と後品詞部分とからなる品詞表現前後部分、前品詞部分と置き換え部分（第２語句）とからなる品詞表現前語部分又は置き換え部分（第２語句）と後品詞部分とからなる品詞表現後語部分、及び、置き換え部分（第２語句）に基づいて、換言文の良否をより高精度に判断することができる。

前記第２データベースは、前記Ｎ−ｇｒａｍ言語モデルのデータベースより口語表現を多く含むデータベースであってもよい。

このような構成により、文法的に破綻が少ない文語表現のＮ−ｇｒａｍ言語モデルのデータベースと、文法的に破綻があるが、多様な表現を含む口語表現の第２データベースとを併用することにより、原文から作成された換言文の良否を効率よく且つ高精度に識別することができる。

また、本開示は、以上のような特徴的な処理を実行する換言文識別方法として実現することができるだけでなく、換言文識別方法により実行される特徴的な処理に対応する特徴的な構成を備える換言文識別装置などとして実現することもできる。また、このような換言文識別方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。したがって、以下の他の態様でも、上記の換言文識別方法と同様の効果を奏することができる。

本開示の他の態様に係る装置は、対訳コーパスをアップデートする装置であって、前記対訳コーパスは第１言語で記述された文と第２言語で記述された対訳文との対を複数含み、前記対訳コーパスは第１言語で記述された第１文と第２言語で記述された第２文との対を含み、前記第２文は前記第１文に対する対訳文であり、前記第１文を構成する複数の語句のうち第１語句が第２語句に置き換えられた第３文を入力する入力部と、第３語句が第１データベースに含まれるか判定する第１データベース判定部と、前記第３語句は少なくとも、前記第３文において前記第２語句と前記第２語句の直前の第４語句、もしくは、前記第３文において前記第２語句と前記第２語句の直後の第５語句を含み、前記第１データベースは書き言葉の文章で用いられた語句を少なくとも含み、前記第３語句が前記第１データベースに含まれていないと判定された場合は、前記第１データベースに基づいて、前記第３語句のうち前記第２語句を第６語句に置き換えた第７語句に対して、前記第１データベースにおける第１評価値を算出する算出部と、前記第６語句は前記第２語句とは異なり、前記第３語句が第２データベースに含まれるか否かを判定するとともに、前記第１評価値を基に算出した第２評価値が所定の条件を満たすか否かを判定する第２データベース判定部と、前記第２データベースは話し言葉の文章で用いられた語句を少なくとも含み、前記話し言葉の文章で用いられた語句と前記話し言葉の文章で用いられた語句の前記第２データベースにおける出現頻度とを対応付け、前記第３語句が前記第２データベースに含まれ、且つ前記第２評価値が前記所定の条件を満たすと判定された場合は、前記第３文と前記第２文との対を前記対訳コーパスに追加する出力部とを備える。

本開示の他の態様に係るプログラムは、対訳コーパスをアップデートする装置として、コンピュータを機能させるためのプログラムであって、前記対訳コーパスは第１言語で記述された文と第２言語で記述された対訳文との対を複数含み、前記対訳コーパスは第１言語で記述された文と第２言語で記述された対訳文との対を複数含み、前記対訳コーパスは第１言語で記述された第１文と第２言語で記述された第２文との対を含み、前記第２文は前記第１文に対する対訳文であり、前記コンピュータに、前記第１文を構成する複数の語句のうち第１語句が第２語句に置き換えられた第３文を入力し、第３語句が第１データベースに含まれるか否かを判定し、前記第３語句は少なくとも、前記第３文において前記第２語句と前記第２語句の直前の第４語句、もしくは、前記第３文において前記第２語句と前記第２語句の直後の第５語句を含み、前記第１データベースは書き言葉の文章で用いられた語句を少なくとも含み、前記第３語句が前記第１データベースに含まれていないと判定された場合は、前記第１データベースに基づいて、前記第３語句のうち前記第２語句を第６語句に置き換えた第７語句に対して、前記第１データベースにおける第１評価値を算出し、前記第６語句は前記第２語句とは異なり、前記第３語句が第２データベースに含まれるか否かを判定するとともに、前記第１評価値を基に算出した第２評価値が所定の条件を満たすか否かを判定し、前記第２データベースは話し言葉の文章で用いられた語句を少なくとも含み、前記話し言葉の文章で用いられた語句と前記話し言葉の文章で用いられた語句の前記第２データベースにおける出現頻度とを対応付け、前記第３語句が前記第２データベースに含まれ、且つ前記第２評価値が前記所定の条件を満たすと判定された場合は、前記第３文と前記第２文との対を前記対訳コーパスに追加する、処理を実行させる。

そして、上記のようなコンピュータプログラムを、ＣＤ−ＲＯＭ等のコンピュータ読み取り可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

また、本開示の一実施の形態に係る換言文識別装置の構成要素の一部とそれ以外の構成要素とを複数のコンピュータに分散させたシステムとして構成してもよい。

なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すためのものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
以下、本開示の一実施の形態について、図面を参照しながら説明する。図１は、本開示の一実施の形態における換言文識別装置を備える換言文識別システムの構成の一例を示すブロック図である。図１に示す換言文識別システムは、換言文作成装置１及び換言文識別装置２を備える。

換言文作成装置１は、入力部１１、換言部１２、及び換言ＤＢ（データベース）１３を備える。換言文作成装置１は、１個の原文から、その一部又は全部を予め設定された所定の規則に従って換言することによって、原文に類似する（同義の）１又は複数の換言文を作成し、作成した換言文を換言文識別装置２に出力する。

入力部１１は、ユーザによる所定の操作入力を受け付け、ユーザが入力した原文を換言部１２に出力する。換言ＤＢ１３は、種々の規則に従って、第１素片（第１語句）と、第１素片を他の表現で表した第２素片（第２語句）とを互いに対応付け、これらのデータを複数記憶するデータベースである。例えば、換言ＤＢ１３として、インターネット上の所定のウェブから収集した同義語又は類似語や、データの質はそれほど良くないが、データの量は多いデータベースを用いることができる。

図２は、図１に示す換言ＤＢ１３のデータ構成の一例を示す図である。図２に示すように、換言ＤＢ１３には、換言前の語句と、換言後の語句とが保持されている。例えば、「良い」という換言前の語句に対して、「いい」という換言後の語句が対応付けて記憶されている。このように、換言ＤＢ１３は、第３データベースの一例であり、語句と、当該語句と同じ意味で表現が異なる語句とを対応付ける。

換言部１２は、換言ＤＢ１３を参照して、予め設定された所定の規則に従って原文を分割することによって形成される複数の素片のうちの１又は複数の素片を他の表現に換言する（置き換える）こと、すなわち、原文の置き換え部分を類似する意味の単語やフレーズに置き換えることにより、１又は複数の換言文を作成し、作成した換言文を換言文識別装置２に出力する。このように、換言文（第３文）は、原文の置き換え部分（第１語句）を、換言ＤＢ１３（第３データベース）に含まれる置き換え部分（第２語句）に置き換えることにより生成される。

なお、上記の換言文の作成方法として、従来の種々の換言文の作成方法を用いることができ、本実施の形態では、例えば、原文を品詞ごとに区切って分割して、品詞単位の複数の語を作成し、原文内の一つの品詞の語を他の表現の語に書き換えることにより、換言文を作成する。

換言文識別装置２は、汎用Ｎ−ｇｒａｍ判定部２１、汎用Ｎ−ｇｒａｍＤＢ（データベース）２２、口語表現Ｎ−ｇｒａｍ判定部２３、口語表現Ｎ−ｇｒａｍＤＢ（データベース）２４、及び出力部２５を備える。換言文識別装置２は、換言文作成装置１が作成した換言文の良否を識別し、識別結果を出力する。また、換言文識別装置２は、対訳コーパス（図示省略）をアップデートする装置である。対訳コーパスは、第１言語（例えば、日本語）で記述された文と第２言語（例えば、英語）で記述された対訳文との対を複数含む。すなわち、対訳コーパスは、第１言語で記述された原文（第１文）と第２言語で記述された対訳文（第２文）との対を含み、第２文は、第１文に対する対訳文である。

汎用Ｎ−ｇｒａｍＤＢ２２は、大規模且つ質の良いＮ−ｇｒａｍ言語モデルの汎用データベースである。ここで、Ｎ−ｇｒａｍ言語モデルは、人間が用いるであろう「言葉らしさ」を確率としてモデル化した確率的言語モデルである。例えば「今日の夕食はカレーです」という文章Ｓ１と、「今日の夕食は野球です」という文章Ｓ２とがある場合、文章Ｓ１は文章Ｓ２より日本語文として尤もらしいと言うことができ、Ｎ−ｇｒａｍ言語モデルの汎用データベースから取得される文章Ｓ１の出現確率は、文章Ｓ２の出現確率より大きくなる。

図３は、図１に示す汎用Ｎ−ｇｒａｍＤＢ２２のデータ構成の一例を示す図である。図３に示すように、汎用Ｎ−ｇｒａｍＤＢ２２には、表現として、分かち書きされた語と、その語の出現頻度が保持されている。例えば、「その服とても」という表現に対して、本データベース内には、１，０００回出現しているという意味であり、この出現頻度を基にして、例えば、出現確率を求めることができる。

このように、汎用Ｎ−ｇｒａｍＤＢ２２は、第１データベースの一例であり、書き言葉の文章で用いられた語句を少なくとも含み、書き言葉の文章で用いられた語句と、書き言葉の文章で用いられた語句の汎用Ｎ−ｇｒａｍＤＢ２２における出現頻度とを対応付ける。

汎用Ｎ−ｇｒａｍ判定部２１は、換言文作成装置１が作成した換言文を入力され、換言文のうち置き換え部分を含むフレーズの出現確率又は出現頻度を汎用Ｎ−ｇｒａｍＤＢ２２から取得して換言文の良否を判定し、判定結果等を口語表現Ｎ−ｇｒａｍ判定部２３及び出力部２５に出力する。汎用Ｎ−ｇｒａｍ判定部２１は、第１判定部２６、及び第２判定部２７を備える。

第１判定部２６は、換言文のうち、原文から置き換えられた置き換え部分と、置き換え部分の前の部分及び後の部分の少なくとも一方とを含む判定対象部分が、汎用Ｎ−ｇｒａｍＤＢ２２に存在するか否かを判定し、判定結果を基に換言文の良否を判定し、判定結果を第２判定部２７及び出力部２５に出力する。

具体的には、第１判定部２６は、判定対象部分として、置き換え部分を含むＮ語のＮ−ｇｒａｍを用いるとともに、汎用Ｎ−ｇｒａｍＤＢ２２を用い、Ｎ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に存在するか否かを判定し、Ｎ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に存在する場合、換言文を良と判定し、判定結果を出力部２５に出力し、Ｎ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に存在しない場合、判定結果を第２判定部２７に出力する。

なお、第１判定部２６の判定基準は、上記の例に特に限定されず、汎用Ｎ−ｇｒａｍＤＢ２２から上記のＮ−ｇｒａｍの出現確率又は出現頻度を求め、Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される評価値が所定の閾値以上の場合、換言文を良と判定するようにしてもよい。

第２判定部２７は、第１判定部２６が換言文を良と判定できない場合（Ｎ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に存在しない場合）、置き換え部分を判定対象外とするＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に存在するか否かを判定し、置き換え部分を判定対象外とするＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に存在しない場合、換言文を否と判定し、判定結果を出力部２５に出力する。また、第２判定部２７は、置き換え部分を判定対象外にした判定対象部分が汎用Ｎ−ｇｒａｍＤＢ２２に存在する場合、置き換え部分を判定対象外にしたＮ−ｇｒａｍの出現確率又は出現頻度を汎用Ｎ−ｇｒａｍＤＢ２２から取得し、置き換え部分を判定対象外にしたＮ−ｇｒａｍの出現確率又は出現頻度から求めた判定対象外評価値を口語表現Ｎ−ｇｒａｍ判定部２３に出力する。

なお、第２判定部２７の判定基準は、上記の例に特に限定されず、第１判定部２６が換言文を良と判定できない場合、汎用Ｎ−ｇｒａｍＤＢ２２から置き換え部分を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度を求め、置き換え部分を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される評価値が所定の閾値より低い場合、換言文を否と判定したり、評価値が所定の閾値以上の場合、換言文を良と判定するようにしてもよい。

口語表現Ｎ−ｇｒａｍＤＢ２４は、「Ｔｗｉｔｔｅｒ」（登録商標）や「Ｆａｃｅｂｏｏｋ」（登録商標）などの情報を基に作成され、口語表現や方言等を多く含み、必ずしも質が良いとは言えないＮ−ｇｒａｍ言語モデルの口語表現データベースである。

図４は、図１に示す口語表現Ｎ−ｇｒａｍＤＢ２４のデータ構成の一例を示す図である。図４に示すように、口語表現Ｎ−ｇｒａｍＤＢ２４には、表現として、分かち書きされた語と、その語の出現頻度が保持されている。例えば、「その服めっちゃ」という表現に対して、本データベース内には、２００回出現しているという意味であり、この出現頻度を基にして、例えば、出現確率を求めることができる。

このように、口語表現Ｎ−ｇｒａｍＤＢ２４は、第２データベースの一例であり、ＳＮＳ（ソーシャル・ネットワーキング・サービス）で用いられた語句に基づき生成され、話し言葉の文章で用いられた語句を少なくとも含み、話し言葉の文章で用いられた語句と話し言葉の文章で用いられた語句の口語表現Ｎ−ｇｒａｍＤＢ２４における出現頻度とを対応付ける。

口語表現Ｎ−ｇｒａｍ判定部２３は、置き換え部分を含むフレーズに対し、口語表現Ｎ−ｇｒａｍＤＢ２４から情報を取得し、汎用Ｎ−ｇｒａｍ判定部２１からの情報と合わせて換言文の良否を判定し、判定結果を出力部２５に出力する。口語表現Ｎ−ｇｒａｍ判定部２３は、表層表現判定部２８、品詞表現判定部２９、及び置き換え部分判定部３０を備える。

表層表現判定部２８は、第２判定部２７が換言文を否と判定できない場合、置き換え部分と、Ｎ−ｇｒａｍの置き換え部分の前後の語とからなる表層表現前後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを判定し、表層表現前後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在し、且つ、置き換え部分を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される表層表現前後評価値が所定の閾値以上の場合、換言文を良と判定し、判定結果を出力部２５に出力する。

また、表層表現判定部２８は、第２判定部２７が換言文を否と判定できない場合、置き換え部分と、Ｎ−ｇｒａｍの置き換え部分の前の語とからなる表層表現前語部分、又は、置き換え部分と、Ｎ−ｇｒａｍの置き換え部分の後の語とからなる表層表現後語部分が、口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを判定し、表層表現前語部分又は表層表現後語部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在し、且つ、置き換え部分を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される表層表現一方評価値が所定の閾値以上の場合、換言文を良と判定し、判定結果を出力部２５に出力する。

品詞表現判定部２９は、表層表現判定部２８が換言文を良と判定できない場合、置き換え部分と、Ｎ−ｇｒａｍの置き換え部分の前の語を当該前の語の品詞に置き換えた前品詞部分と、Ｎ−ｇｒａｍの置き換え部分の後の語を当該後の語の品詞に置き換えた後品詞部分とからなる品詞表現前後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを判定し、品詞表現前後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在し、且つ、置き換え部分を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される品詞表現前後評価値が所定の閾値以上の場合、換言文を良と判定し、判定結果を出力部２５に出力する。

ここで、本実施の形態では、品詞として、例えば、動詞、形容詞、形容動詞、名詞、代名詞、副詞、連体詞、接続詞、感動詞、助動詞、助詞の１１種類を用いており、置き換え部分の前の語及び後の語を、上記の１１種類のうちの一つに置き換えて判定している。なお、品詞の分類は、上記の例に特に限定されず、代名詞を省略したり、さらに固有名詞を分類したりするようにしてもよい。

また、品詞表現判定部２９は、表層表現判定部２８が換言文を良と判定できない場合、置き換え部分と、Ｎ−ｇｒａｍの置き換え部分の前の語を当該前の語の品詞に置き換えた前品詞部分とからなる品詞表現前語部分、又は、置き換え部分と、Ｎ−ｇｒａｍの置き換え部分の後の語を当該後の語の品詞に置き換えた後品詞部分とからなる品詞表現後語部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを判定し、品詞表現前語部分又は品詞表現後語部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在し、且つ、置き換え部分を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される品詞表現一方評価値が所定の閾値以上の場合、換言文を良と判定し、判定結果を出力部２５に出力する。

置き換え部分判定部３０は、品詞表現判定部２９が換言文を良と判定できない場合、置き換え部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを判定し、置き換え部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在し、且つ、置き換え部分を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度から算出される置き換え部分評価値が所定の閾値以上の場合、換言文を良と判定し、置き換え部分評価値が前記閾値より小さい場合、換言文を否と判定し、判定結果を出力部２５に出力する。

出力部２５は、換言文の良否すなわち換言文として採用又は不採用の判定結果を外部の機器等に出力する。例えば、出力部２５は、良と判定された換言文を類似対訳コーパスに出力し、類似対訳コーパスは、換言文を新たな元の文(原文)として採用してもよい。

なお、換言文識別装置２の構成は、上記のように、機能ごとに専用のハードウエアで構成する例に特に限定されず、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及び補助記憶装置等を備える１台又は複数台のコンピュータ又はサーバ（情報処理装置）が、上記の処理を実行するための換言文識別プログラムをインストールし、換言文識別装置として機能するように構成してもよい。また、汎用Ｎ−ｇｒａｍＤＢ２２及び口語表現Ｎ−ｇｒａｍＤＢ２４は、換言文識別装置２の内部に設ける例に特に限定されず、外部のサーバ等に汎用Ｎ−ｇｒａｍＤＢ２２及び口語表現Ｎ−ｇｒａｍＤＢ２４を設け、所定のネットワークを介して換言文識別装置２が必要な情報を取得するようにしてもよい。

次に、上記のように構成された換言文識別装置２による換言文識別処理について、詳細に説明する。換言文識別装置２による換言文識別処理は、汎用Ｎ−ｇｒａｍ判定部２１による汎用Ｎ−ｇｒａｍ判定処理と、口語表現Ｎ−ｇｒａｍ判定部２３による口語表現Ｎ−ｇｒａｍ判定処理とから構成される。

図５は、図１に示す汎用Ｎ−ｇｒａｍ判定部２１による汎用Ｎ−ｇｒａｍ判定処理の一例を示すフローチャートであり、図６は、図１に示す口語表現Ｎ−ｇｒａｍ判定部２３による口語表現Ｎ−ｇｒａｍ判定処理の一例を示すフローチャートである。なお、以下の処理では、出現確率を用いて種々の評価値を算出しているが、この例に特に限定されず、例えば、出現頻度を用いてもよい。

まず、ステップＳ１０１において、汎用Ｎ−ｇｒａｍ判定部２１の第１判定部２６は、換言部１２から換言文を取得し、置き換え部分を含む汎用Ｎ−ｇｒａｍを汎用Ｎ−ｇｒａｍＤＢ２２から取得する。このように、換言文識別装置２には、原文（第１文）を構成する複数の語句のうち第１語句が置き換え部分（第２語句）に置き換えられた換言文（第３文）が入力される。

例えば、原文が「その服とても良いね」であり、原文の「とても」が「めっちゃ」に換言され、換言文として、「その服めっちゃ良いね」が入力され、Ｎ−ｇｒａｍのＮ（正の整数）を３とした３−ｇｒａｍの場合、第１判定部２６は、「その服めっちゃ良いね」を「その」、「服」、「めっちゃ」、「良い」、「ね」に分割し、「めっちゃ」を置き換え部分として、３−ｇｒａｍの出現確率を汎用Ｎ−ｇｒａｍＤＢ２２から取得する。

ここで、「その」を「Ｗ１」、「服」を「Ｗ２」、「めっちゃ」を「Ｗ３」、「良い」を「Ｗ４」、「ね」を「Ｗ５」で表すと、第１判定部２６は、置き換え部分Ｗ３を含む３−ｇｒａｍの出現確率として、「Ｗ１Ｗ２Ｗ３」の出現確率Ｒ１、「Ｗ２Ｗ３Ｗ４」の出現確率Ｒ２、「Ｗ３Ｗ４Ｗ５」の出現確率Ｒ３を汎用Ｎ−ｇｒａｍＤＢ２２から取得する。

次に、ステップＳ１０２において、第１判定部２６は、置き換え部分を含むＮ−ｇｒａｍの出現確率から、置き換え部分を含むＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有るか否かを判定する。例えば、第１判定部２６は、Ｒ１＝０、Ｒ２＝０、Ｒ３＝０の場合、置き換え部分Ｗ３を含む３−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に無いと判定して、ステップＳ１０３に処理を移行し、Ｒ１、Ｒ２及びＲ３の少なくとも一つが０以外の数値を持つ場合、置き換え部分Ｗ３を含む３−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有ると判定して、ステップＳ１０７に処理を移行する。

このように、ステップＳ１０２において、判定対象部分となる置き換え部分を含むＮ−ｇｒａｍ（第３語句）が汎用Ｎ−ｇｒａｍＤＢ２２（第１データベース）に含まれるか判定する。置き換え部分を含むＮ−ｇｒａｍ（第３語句）は少なくとも、換言文（第３文）において置き換え部分（第２語句）と置き換え部分（第２語句）の直前の第４語句、もしくは、換言文（第３文）において置き換え部分（第２語句）と置き換え部分（第２語句）の直後の第５語句を含む。

なお、置き換え部分を含むＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有るか否かの判定基準は、上記の例に特に限定されず、例えば、出現確率の平均値又は最大値を所定の閾値と比較し、平均値又は最大値が所定の閾値以上の場合に、置き換え部分を含むＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有ると判定してもよい。このように、判定対象部分となる置き換え部分を含むＮ−ｇｒａｍ（第３語句）として、置き換え部分（第２語句）を含むＮ語のＮ−ｇｒａｍを用いるとともに、第１データベースとして、汎用Ｎ−ｇｒａｍＤＢ２２を用い、汎用Ｎ−ｇｒａｍＤＢ２２からＮ−ｇｒａｍの出現確率又は出現頻度を求め、Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される評価値が所定の閾値以上の場合、換言文（第３文）と対訳文（第２文）との対を前記対訳コーパスに追加するようにしてもよい。

置き換え部分を含むＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有る場合（ステップＳ１０２でＹＥＳ）、ステップＳ１０７において、第１判定部２６は、汎用Ｎ−ｇｒａｍＤＢ２２での出現確率又は出現頻度が所定の閾値以上であるか否かを判定する。

汎用Ｎ−ｇｒａｍＤＢ２２での出現確率又は出現頻度が所定の閾値以上でない場合（ステップＳ１０７でＮＯ）、ステップＳ１０８において、第１判定部２６は、汎用Ｎ−ｇｒａｍＤＢ２２のみの判定結果として、換言文を否（良くない文）と判定して出力部２５に出力する。次に、ステップＳ１０９において、出力部２５は、否（良くない文）と判定された換言文を棄却し、処理を終了する。

このように、置き換え部分を含むＮ−ｇｒａｍ（第３語句）が汎用Ｎ−ｇｒａｍＤＢ２２（第１データベース）に含まれていないと判定された場合、置き換え部分を判定対象外にした判定対象部分（第７語句）のうちワイルドカード（第６語句）を判定対象外にして、置き換え部分を判定対象外にした判定対象部分（第７語句）が汎用Ｎ−ｇｒａｍＤＢ２２（第１データベース）に存在するか否かを判定し、置き換え部分を判定対象外にした判定対象部分（第７語句）が汎用Ｎ−ｇｒａｍＤＢ２２（第１データベース）に存在しない場合、換言文（第３文）を対訳コーパスに追加しない。

具体的に例を挙げて説明する。対訳コーパスが、日本語：「その服とても良いね」と、英語：“Ｔｈａｔｃｌｏｔｈｅｓａｒｅｖｅｒｙｇｏｏｄ”とであるとする。原文の「とても」が「非常に」に換言され、換言文として「その服非常に良いね」という文が生成されるとする。この良否判定の際、否（良くない文）と判定された場合は、日本語：「その服非常に良いね」と英語：“Ｔｈａｔｃｌｏｔｈｅｓａｒｅｖｅｒｙｇｏｏｄ”という対訳コーパスが追加されることはなく、棄却される。

一方、汎用Ｎ−ｇｒａｍＤＢ２２での出現確率又は出現頻度が所定の閾値以上である場合（ステップＳ１０７でＹＥＳ）、ステップＳ１１０において、第１判定部２６は、汎用Ｎ−ｇｒａｍＤＢ２２のみの判定結果として、換言文を良（良い文）と判定して出力部２５に出力する。次に、ステップＳ１１１において、出力部２５は、良（良い文）と判定された換言文と、対となる対訳文（日本語の換言文が生成されている場合は、英語の対訳文）とをセットとして、新たな対訳コーパスとして追加し、処理を終了する。

具体的に例を挙げて説明する。対訳コーパスが、日本語：「その服とても良いね」と、英語：“Ｔｈａｔｃｌｏｔｈｅｓａｒｅｖｅｒｙｇｏｏｄ”とであるとする。原文の「とても」が「非常に」に換言され、換言文として「その服非常に良いね」という文が生成されるとする。この良否判定の際、良（良い文）と判定された場合は、日本語：「その服非常に良いね」と、英語：“Ｔｈａｔｃｌｏｔｈｅｓａｒｅｖｅｒｙｇｏｏｄ”とが新たな対訳コーパスとして追加される。

なお、上記の例では、第１判定部２６は、汎用Ｎ−ｇｒａｍＤＢ２２での出現確率等の閾値判定により、換言文の良否を判定したが、この例に特に限定されず、第１判定部２６は、汎用Ｎ−ｇｒａｍＤＢ２２のみの判定結果として、換言文を良と判定し、対訳コーパスに追加してもよい。また、本実施の形態は、判定結果として、良の判定結果又は否の判定結果を出力しているが、この例に特に限定されず、判定結果を数値で出力することにより換言文の良否を判定してもよい。

一方、置き換え部分を含むＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に無い場合（ステップＳ１０２でＮＯ）、ステップＳ１０３において、第２判定部２７は、置き換え部分をワイルドカード（任意の文字）としたＮ−ｇｒａｍの出現確率を汎用Ｎ−ｇｒａｍＤＢ２２から取得する。例えば、ワイルドカードを「＊」で表すと、「Ｗ１Ｗ２＊」の出現確率Ｑ１、「Ｗ２＊Ｗ４」の出現確率Ｑ２、「＊Ｗ４Ｗ５」の出現確率Ｑ３を汎用Ｎ−ｇｒａｍＤＢ２２から取得する。

次に、ステップＳ１０４において、第２判定部２７は、置き換え部分をワイルドカードとしたＮ−ｇｒａｍの出現確率から、置き換え部分をワイルドカードとしたＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有るか否かを判定する。例えば、第２判定部２７は、Ｑ１＝０、Ｑ２＝０、Ｑ３＝０の場合、置き換え部分Ｗ３をワイルドカードとした３−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に無いと判定して、ステップＳ１０６に処理を移行し、Ｑ１、Ｑ２及びＱ３の少なくとも一つが０以外の数値を持つ場合、置き換え部分Ｗ３をワイルドカードとした３−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有ると判定して、ステップＳ１０５に処理を移行する。

なお、置き換え部分をワイルドカードとしたＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有るか否かの判定基準は、上記の例に特に限定されず、例えば、出現確率の平均値又は最大値を所定の閾値と比較し、平均値又は最大値が所定の閾値以上の場合に、置き換え部分をワイルドカードとしたＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有ると判定してもよい。

置き換え部分をワイルドカードとしたＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に無い場合（ステップＳ１０４でＮＯ）、ステップＳ１０６において、第２判定部２７は、汎用Ｎ−ｇｒａｍＤＢ２２のみの判定結果として、換言文を否（良くない文）と判定して出力部２５に出力する。次に、ステップＳ１０９において、出力部２５は、否（良くない文）と判定された換言文を棄却し、処理を終了する。

一方、置き換え部分をワイルドカードとしたＮ−ｇｒａｍが汎用Ｎ−ｇｒａｍＤＢ２２に有る場合（ステップＳ１０４でＹＥＳ）、ステップＳ１０５において、第２判定部２７は、置き換え部分をワイルドカードとしたＮ−ｇｒａｍの出現確率を汎用Ｎ−ｇｒａｍＤＢ２２から取得し、汎用Ｎ−ｇｒａｍの値（判定対象外評価値）として、置き換え部分を判定対象外とするＮ−ｇｒａｍの出現確率又は出現頻度からワイルドカード出現確率Ｑを算出する。第２判定部２７は、ワイルドカード出現確率Ｑを口語表現Ｎ−ｇｒａｍ判定部２３に出力し、処理を図６に示すステップＳ２０１に移行する。

例えば、第２判定部２７は、置き換え部分をワイルドカードとしたＮ−ｇｒａｍの出現確率の平均値又は最大値（例えば、出現確率Ｑ１〜Ｑ３の平均値又は最大値）を求め、求めた平均値又は最大値をワイルドカード出現確率Ｑとする。上記の３−ｇｒａｍの例では、「その服＊」の出現確率が０．０５、「服＊良い」の出現確率が０．１２、「
＊良いね」の出現確率が０．４５であった場合、第２判定部２７は、これらの出現確率の平均値をワイルドカード出現確率Ｑとして算出する。なお、ワイルドカード出現確率Ｑは、上記の平均値又は最大値に特に限定されず、中央値等の他の値であってもよい。

このように、置き換え部分を含むＮ−ｇｒａｍ（第３語句）のうち置き換え部分（第２語句）をワイルドカード（第６語句）に置き換えた、置き換え部分を判定対象外にした判定対象部分（第７語句）に対して、汎用Ｎ−ｇｒａｍＤＢ２２（第１データベース）におけるワイルドカード出現確率Ｑ（第１評価値）を算出し、ワイルドカード（第６語句）は置き換え部分（第２語句）とは異なる。

次に、図６を参照して、ステップＳ２０１において、口語表現Ｎ−ｇｒａｍ判定部２３の表層表現判定部２８は、第２判定部２７からワイルドカード出現確率Ｑを取得し、置き換え部分の両側の表層表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した表層表現前後評価値が所定の閾値以上であるか否かを判定する。

具体的には、表層表現判定部２８は、置き換え部分付近の両側の表層表現での口語表現Ｎ−ｇｒａｍとして、置き換え部分と置き換え部分の前後の語とからなる表層表現前後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを確認し、表層表現前後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑに重み量ｖ１を乗算した表層表現前後評価値を求め、表層表現前後評価値が閾値ｔ１以上であるか否かを判定する。

例えば、置き換え部分が「Ｗ３」の場合、表層表現判定部２８は、「Ｗ２Ｗ３Ｗ４」（置き換え部分の両側）のフレーズが口語表現Ｎ−ｇｒａｍＤＢ２４に存在するかを確認し、「Ｗ２Ｗ３Ｗ４」が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑ（例えば、０．２６）に重み量ｖ１（例えば、０．９）を乗算した表層表現前後評価値が閾値ｔ１（例えば、０．１５）以上であるかを確認する。この場合、表層表現判定部２８は、表層表現前後評価値が０．２３４となるため、閾値ｔ１以上であると判定する。

置き換え部分付近の両側の表層表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した表層表現前後評価値が所定の閾値以上である場合（ステップＳ２０１でＹＥＳ）、ステップＳ２０８において、表層表現判定部２８は、換言文を良（良い文）と判定して出力部２５に出力する。次に、ステップＳ２０９において、出力部２５は、良（良い文）と判定された換言文と、対となる対訳文（日本語の換言文が生成されている場合は、英語の対訳文）とをセットとして、新たな対訳コーパスとして追加し、処理を終了する。

一方、置き換え部分付近の両側の表層表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に無い場合、又は、ワイルドカード出現確率Ｑに所定の重みを付与した表層表現前後評価値が所定の閾値以上でない場合（ステップＳ２０１でＮＯ）、表層表現判定部２８は、処理をステップ２０２に移行する。

次に、ステップＳ２０２において、表層表現判定部２８は、置き換え部分付近の片側の表層表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した表層表現一方評価値が所定の閾値以上であるか否かを判定する。

具体的には、表層表現判定部２８は、置き換え部分付近の片側の表層表現での口語表現Ｎ−ｇｒａｍとして、置き換え部分と置き換え部分の前の語とからなる表層表現前部分、又は、置き換え部分と置き換え部分の後の語とからなる表層表現後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを確認し、表層表現前部分又は表層表現後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑに重み量ｖ２を乗算した表層表現一方評価値を求め、表層表現一方評価値が閾値ｔ１以上であるか否かを判定する。ここで、重み量ｖ２は、重み量ｖ１より小さいことが好ましい。

例えば、置き換え部分が「Ｗ３」の場合、表層表現判定部２８は、「Ｗ２Ｗ３」又は「Ｗ３Ｗ４」（置き換え部分の片側）のフレーズが口語表現Ｎ−ｇｒａｍＤＢ２４に存在するかを確認し、「Ｗ２Ｗ３」又は「Ｗ３Ｗ４」が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑ（例えば、０．２６）に重み量ｖ２（例えば、０．８）を乗算した表層表現一方評価値が閾値ｔ１（例えば、０．１５）以上であるかを確認する。この場合、表層表現判定部２８は、表層表現一方評価値が０．２０８となるため、閾値ｔ１以上であると判定する。

置き換え部分付近の片側の表層表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した表層表現一方評価値が所定の閾値以上である場合（ステップＳ２０２でＹＥＳ）、ステップＳ２０８において、表層表現判定部２８は、換言文を良（良い文）と判定して出力部２５に出力する。次に、ステップＳ２０９において、出力部２５は、良（良い文）と判定された換言文と、対となる対訳文（日本語の換言文が生成されている場合は、英語の対訳文）とをセットとして、新たな対訳コーパスとして追加し、処理を終了する。

上記のように、判定対象部分（第３語句）が口語表現Ｎ−ｇｒａｍＤＢ２４（第２データベース）に含まれるか否かを判定するとともに、ワイルドカード出現確率Ｑ（第１評価値）を基に算出した表層表現前後評価値及び表層表現一方評価値（第２評価値）が所定の条件を満たすか否かを判定する。判定対象部分（第３語句）が口語表現Ｎ−ｇｒａｍＤＢ２４（第２データベース）に含まれ、且つ表層表現前後評価値及び表層表現一方評価値（第２評価値）が所定の条件を満たすと判定された場合は、換言文（第３文）と対訳文（第２文）との対を対訳コーパスに追加する。

一方、置き換え部分付近の片側の表層表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に無い場合、又は、ワイルドカード出現確率Ｑに所定の重みを付与した表層表現一方評価値が所定の閾値以上でない場合（ステップＳ２０２でＮＯ）、表層表現判定部２８は、処理をステップ２０３に移行する。

次に、ステップＳ２０３において、口語表現Ｎ−ｇｒａｍ判定部２３の品詞表現判定部２９は、第２判定部２７からワイルドカード出現確率Ｑを取得し、置き換え部分の両側の品詞表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した品詞表現前後評価値が所定の閾値以上であるか否かを判定する。

具体的には、品詞表現判定部２９は、置き換え部分付近の両側の品詞表現での口語表現Ｎ−ｇｒａｍとして、置き換え部分と置き換え部分の前の語を品詞に置き換えた前品詞部分と置き換え部分の後の語を品詞に置き換えた後品詞部分とからなる品詞表現前後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを確認し、品詞表現前後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑに重み量ｖ３を乗算した品詞表現前後評価値を求め、品詞表現前後評価値が閾値ｔ１以上であるか否かを判定する。ここで、重み量ｖ３は、重み量ｖ２より小さいことが好ましい。

例えば、「Ｗ１」の品詞を「Ｐ１」、「Ｗ２」の品詞を「Ｐ２」、「Ｗ３」の品詞を「Ｐ３」、「Ｗ４」の品詞を「Ｐ４」、「Ｗ５」の品詞を「Ｐ５」で表し、置き換え部分が「Ｗ３」の場合、品詞表現判定部２９は、「Ｐ２Ｗ３Ｐ４」（置き換え部分の両側）のフレーズが口語表現Ｎ−ｇｒａｍＤＢ２４に存在するかを確認し、「Ｐ２Ｗ３Ｐ４」が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑ（例えば、０．２６）に重み量ｖ３（例えば、０．７）を乗算した品詞表現前後評価値が閾値ｔ１（例えば、０．１５）以上であるかを確認する。この場合、品詞表現判定部２９は、品詞表現前後評価値が０．１８２となるため、閾値ｔ１以上であると判定する。

置き換え部分付近の両側の品詞表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した品詞表現前後評価値が所定の閾値以上である場合（ステップＳ２０３でＹＥＳ）、ステップＳ２０８において、品詞表現判定部２９は、換言文を良（良い文）と判定して出力部２５に出力する。次に、ステップＳ２０９において、出力部２５は、良（良い文）と判定された換言文と、対となる対訳文（日本語の換言文が生成されている場合は、英語の対訳文）とをセットとして、新たな対訳コーパスとして追加し、処理を終了する。

一方、置き換え部分付近の両側の品詞表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に無い場合、又は、ワイルドカード出現確率Ｑに所定の重みを付与した品詞表現前後評価値が所定の閾値以上でない場合（ステップＳ２０３でＮＯ）、品詞表現判定部２９は、処理をステップ２０４に移行する。

次に、ステップＳ２０４において、品詞表現判定部２９は、置き換え部分付近の片側の品詞表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した品詞表現一方評価値が所定の閾値以上であるか否かを判定する。

具体的には、品詞表現判定部２９は、置き換え部分付近の片側の品詞表現での口語表現Ｎ−ｇｒａｍとして、置き換え部分と置き換え部分の前の語を品詞に置き換えた前品詞部分とからなる品詞表現前部分、又は、置き換え部分と置き換え部分の後の語を品詞に置き換えた後品詞部分とからなる品詞表現後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを確認し、品詞表現前部分又は品詞表現後部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑに重み量ｖ４を乗算した品詞表現一方評価値を求め、品詞表現一方評価値が閾値ｔ１以上であるか否かを判定する。ここで、重み量ｖ４は、重み量ｖ３より小さいことが好ましい。

例えば、置き換え部分が「Ｗ３」、置き換え部分の前の品詞が「Ｐ２」、置き換え部分の後の品詞が「Ｐ４」の場合、品詞表現判定部２９は、「Ｐ２Ｗ３」又は「Ｗ３Ｐ４」（置き換え部分の片側）のフレーズが口語表現Ｎ−ｇｒａｍＤＢ２４に存在するかを確認し、「Ｐ２Ｗ３」又は「Ｗ３Ｐ４」が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑ（例えば、０．２６）に重み量ｖ４（例えば、０．６）を乗算した品詞表現一方評価値が閾値ｔ１（例えば、０．１５）以上であるかを確認し、この場合、品詞表現判定部２９は、品詞表現一方評価値が０．１５６となるため、閾値ｔ１以上であると判定する。

置き換え部分付近の片側の品詞表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した品詞表現一方評価値が所定の閾値以上である場合（ステップＳ２０４でＹＥＳ）、ステップＳ２０８において、品詞表現判定部２９は、換言文を良（良い文）と判定して出力部２５に出力する。次に、ステップＳ２０９において、出力部２５は、良（良い文）と判定された換言文と、対となる対訳文（日本語の換言文が生成されている場合は、英語の対訳文）とをセットとして、新たな対訳コーパスとして追加し、処理を終了する。

一方、置き換え部分付近の片側の品詞表現での口語表現Ｎ−ｇｒａｍが口語表現Ｎ−ｇｒａｍＤＢ２４に無い場合、又は、ワイルドカード出現確率Ｑに所定の重みを付与した品詞表現一方評価値が所定の閾値以上でない場合（ステップＳ２０４でＮＯ）、品詞表現判定部２９は、処理をステップ２０５に移行する。

次に、ステップＳ２０５において、口語表現Ｎ−ｇｒａｍ判定部２３の置き換え部分判定部３０は、第２判定部２７からワイルドカード出現確率Ｑを取得し、置き換え部分そのものが口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した置き換え部分評価値が所定の閾値以上であるか否かを判定する。

具体的には、置き換え部分判定部３０は、置き換え部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するか否かを確認し、置き換え部分が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑに重み量ｖ５を乗算した置き換え部分評価値を求め、置き換え部分評価値が閾値ｔ１以上であるか否かを判定する。

例えば、置き換え部分が「Ｗ３」の場合、置き換え部分判定部３０は、「Ｗ３」が口語表現Ｎ−ｇｒａｍＤＢ２４に存在するかを確認し、「Ｗ３」が口語表現Ｎ−ｇｒａｍＤＢ２４に存在する場合、ワイルドカード出現確率Ｑ（例えば、０．２６）に重み量ｖ５（例えば、０．５）を乗算した置き換え部分評価値が閾値ｔ１（例えば、０．１５）以上であるかを確認し、この場合、置き換え部分判定部３０は、置き換え部分評価値が０．１３となるため、閾値ｔ１以上でないと判定する。

ここで、重み量ｖ５は、重み量ｖ４より小さいことが好ましい。したがって、重み量ｖ１＞重み量ｖ２＞重み量ｖ３＞重み量ｖ４＞重み量ｖ５であることが好ましい。なお、重み量の大小関係は、上記の例に特に限定されず、他の大小関係を用いてもよい。また、各評価値は、上記の重みの付与に特に限定されず、種々の変更が可能であり、例えば、出現頻度や出現確率などとして求めてもよく、また、それらを汎用Ｎ−ｇｒａｍの値（例えば、ワイルドカード出現確率Ｑ）と合わせて判断してもよい。また、各評価値を閾値ｔ１と比較して判定したが、各評価値の判定基準は、この例に特に限定されず、種々の変更が可能であり、例えば、評価値毎に異なる閾値を用いてもよい。

置き換え部分が口語表現Ｎ−ｇｒａｍＤＢ２４に有り、且つ、ワイルドカード出現確率Ｑに所定の重みを付与した置き換え部分評価値が所定の閾値以上である場合（ステップＳ２０５でＹＥＳ）、ステップＳ２０８において、置き換え部分判定部３０は、換言文を良（良い文）と判定して出力部２５に出力する。次に、ステップＳ２０９において、出力部２５は、良（良い文）と判定された換言文と、対となる対訳文（日本語の換言文が生成されている場合は、英語の対訳文）とをセットとして、新たな対訳コーパスとして追加し、処理を終了する。

一方、置き換え部分が口語表現Ｎ−ｇｒａｍＤＢ２４に無い場合、又は、ワイルドカード出現確率Ｑに所定の重みを付与した置き換え部分評価値が所定の閾値以上でない場合（ステップＳ２０５でＮＯ）、ステップＳ２０６において、置き換え部分判定部３０は、換言文を否（良くない文）と判定して出力部２５に出力する。次に、ステップＳ２０７において、出力部２５は、否（良くない文）と判定された換言文を棄却し、処理を終了する。

上記の処理により、本実施の形態では、規模が大きく且つ質の良い汎用Ｎ−ｇｒａｍＤＢ２２と、データの質は保証されないが、口語表現や方言などを含む口語表現Ｎ−ｇｒａｍＤＢ２４との双方の良い部分を効率よく参照することにより、ハイブリットに換言文の良否を評価することができるので、原文から作成された換言文の良否を効率よく且つ高精度に識別することができる。

なお、本実施の形態では、データベースとして、汎用Ｎ−ｇｒａｍＤＢ２２と、口語表現Ｎ−ｇｒａｍＤＢ２４とを用いたが、データベースはこの例に特に限定されず、種々のデータベースを用いることができ、また、一つのデータベース（例えば、汎用Ｎ−ｇｒａｍＤＢ２２）のみを用いたり、３種類以上のデータベースを用いたりしてもよい。

本開示は、原文から作成された換言文の良否を効率よく且つ高精度に識別することができるので、原文から作成した換言文の良否を識別する換言文識別方法、換言文識別装置及び換言文識別プログラムに有用である。

１換言文作成装置
２換言文識別装置
１１入力部
１２換言部
１３換言ＤＢ
２１汎用Ｎ−ｇｒａｍ判定部
２２汎用Ｎ−ｇｒａｍＤＢ
２３口語表現Ｎ−ｇｒａｍ判定部
２４口語表現Ｎ−ｇｒａｍＤＢ
２５出力部
２６第１判定部
２７第２判定部
２８表層表現判定部
２９品詞表現判定部
３０置き換え部分判定部

Claims

対訳コーパスをアップデートする装置として機能するコンピュータにおける方法であって、前記対訳コーパスは第１言語で記述された文と第２言語で記述された対訳文との対を複数含み、前記対訳コーパスは第１言語で記述された第１文と第２言語で記述された第２文との対を含み、前記第２文は前記第１文に対する対訳文であり、
前記第１文を構成する複数の語句のうち第１語句が第２語句に置き換えられた第３文を入力し、
第３語句が第１データベースに含まれるか否かを判定し、前記第３語句は少なくとも、前記第３文において前記第２語句と前記第２語句の直前の第４語句、もしくは、前記第３文において前記第２語句と前記第２語句の直後の第５語句を含み、前記第１データベースは書き言葉の文章で用いられた語句を少なくとも含み、
前記第３語句が前記第１データベースに含まれていないと判定された場合は、前記第１データベースに基づいて、前記第３語句のうち前記第２語句をワイルドカードを示す第６語句に置き換えた第７語句に対して、前記第１データベースにおける前記第７語句の出現確率を示す第１評価値を算出し、前記第６語句は前記第２語句とは異なり、
前記第３語句が第２データベースに含まれるか否かを判定するとともに、前記第１評価値に所定の重みを付与することにより算出した第２評価値が所定の条件を満たすか否かを判定し、前記第２データベースは話し言葉の文章で用いられた語句を少なくとも含み、前記話し言葉の文章で用いられた語句と前記話し言葉の文章で用いられた語句の前記第２データベースにおける出現頻度とを対応付け、
前記第３語句が前記第２データベースに含まれ、且つ前記第２評価値が前記所定の条件を満たすと判定された場合は、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
方法。
前記第３文は、前記第１語句を、第３データベースに含まれる前記第２語句に置き換えることにより生成され、前記第３データベースは語句と前記語句と同じ意味で表現が異なる語句とを対応付ける、
請求項１に記載の方法。
前記第２データベースはソーシャル・ネットワーキング・サービスで用いられた語句に基づき生成される、
請求項１に記載の方法。
前記第３語句が前記第１データベースに含まれていると判定された場合は、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
請求項１に記載の方法。
前記第３語句が前記第１データベースに含まれていないと判定された場合、前記第７語句のうち前記第６語句を判定対象外にして、前記第７語句が前記第１データベースに存在するか否かを判定し、前記第７語句が前記第１データベースに存在しない場合、前記第３文を前記対訳コーパスに追加しない、
請求項１に記載の方法。
前記第３語句として、前記第２語句を含むＮ語のＮ−ｇｒａｍを用いるとともに、前記第１データベースとして、Ｎ−ｇｒａｍ言語モデルのデータベースを用い、前記Ｎ−ｇｒａｍが前記Ｎ−ｇｒａｍ言語モデルのデータベースに存在するか否かを判定し、前記Ｎ−ｇｒａｍが前記Ｎ−ｇｒａｍ言語モデルのデータベースに存在する場合、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
請求項５に記載の方法。
前記第３語句として、前記第２語句を含むＮ語のＮ−ｇｒａｍを用いるとともに、前記第１データベースとして、Ｎ−ｇｒａｍ言語モデルのデータベースを用い、前記Ｎ−ｇｒａｍ言語モデルのデータベースから前記Ｎ−ｇｒａｍの出現確率又は出現頻度を求め、前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される第３評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
請求項５に記載の方法。
前記第３語句が前記第１データベースに含まれていないと判定された場合、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍが前記Ｎ−ｇｒａｍ言語モデルのデータベースに存在するか否かを判定し、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍが前記Ｎ−ｇｒａｍ言語モデルのデータベースに存在しない場合、前記第３文を前記対訳コーパスに追加しない、
請求項６又は７に記載の方法。
前記第３語句が前記第１データベースに含まれていないと判定された場合、前記Ｎ−ｇｒａｍ言語モデルのデータベースから前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度を求め、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される第４評価値が所定の閾値より低い場合、前記第３文を前記対訳コーパスに追加しない、
請求項６又は７に記載の方法。
前記第７語句が前記第１データベースに存在する場合、前記Ｎ−ｇｒａｍの前記第２語句、前記第４語句及び前記第５語句とからなる表層表現前後部分が前記第２データベースに存在するか否かを判定し、前記表層表現前後部分が前記第２データベースに存在し、且つ、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される表層表現前後評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
請求項６〜９のいずれかに記載の方法。
前記第７語句が前記第１データベースに存在する場合、前記Ｎ−ｇｒａｍの前記第２語句及び前記第４語句からなる表層表現前語部分、又は、前記第２語句及び前記第５語句からなる表層表現後語部分が、前記第２データベースに存在するか否かを判定し、前記表層表現前語部分又は前記表層表現後語部分が前記第２データベースに存在し、且つ、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される表層表現一方評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
請求項１０に記載の方法。
前記表層表現前後評価値は、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から求めた前記第１評価値に所定の第１の重み量を乗算した値であり、
前記表層表現一方評価値は、前記第１評価値に前記第１の重み量より小さい第２の重み量を乗算した値である、
請求項１１に記載の方法。
前記表層表現前後部分が前記第２データベースに存在しない場合、前記表層表現前後評価値が所定の閾値以上でない場合、前記表層表現前語部分又は前記表層表現後語部分が前記第２データベースに存在しない場合、又は、前記表層表現一方評価値が所定の閾値以上でない場合、前記Ｎ−ｇｒａｍの前記第２語句と、前記第４語句を前記第４語句の品詞に置き換えた前品詞部分と、前記第５語句を前記第５語句の品詞に置き換えた後品詞部分とからなる品詞表現前後部分が前記第２データベースに存在するか否かを判定し、前記品詞表現前後部分が前記第２データベースに存在し、且つ、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される品詞表現前後評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
請求項１１に記載の方法。
前記表層表現前後部分が前記第２データベースに存在しない場合、前記表層表現前後評価値が所定の閾値以上でない場合、前記表層表現前語部分又は前記表層表現後語部分が前記第２データベースに存在しない場合、又は、前記表層表現一方評価値が所定の閾値以上でない場合、前記Ｎ−ｇｒａｍの前記第２語句と、前記第４語句を前記第４語句の品詞に置き換えた前品詞部分とからなる品詞表現前語部分、又は、前記第２語句と、前記第５語句を前記第５語句の品詞に置き換えた後品詞部分とからなる品詞表現後語部分が前記第２データベースに存在するか否かを判定し、前記品詞表現前語部分又は前記品詞表現後語部分が前記第２データベースに存在し、且つ、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される品詞表現一方評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
請求項１３に記載の方法。
前記表層表現前後評価値は、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から求めた前記第１評価値に所定の第１の重み量を乗算した値であり、
前記表層表現一方評価値は、前記第１評価値に前記第１の重み量より小さい第２の重み量を乗算した値であり、
前記品詞表現前後評価値は、前記第１評価値に前記第２の重み量より小さい第３の重み量を乗算した値であり、
前記品詞表現一方評価値は、前記第１評価値に前記第３の重み量より小さい第４の重み量を乗算した値である、
請求項１４に記載の方法。
前記品詞表現前後部分が前記第２データベースに存在しない場合、前記品詞表現前後評価値が所定の閾値以上でない場合、前記品詞表現前語部分又は前記品詞表現後語部分が前記第２データベースに存在しない場合、又は、前記品詞表現一方評価値が所定の閾値以上でない場合、前記第２語句が前記第２データベースに存在するか否かを判定し、前記第２語句が前記第２データベースに存在し、且つ、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から算出される置き換え部分評価値が所定の閾値以上の場合、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
請求項１４に記載の方法。
前記表層表現前後評価値は、前記第２語句を判定対象外とする前記Ｎ−ｇｒａｍの出現確率又は出現頻度から求めた前記第１評価値に所定の第１の重み量を乗算した値であり、
前記表層表現一方評価値は、前記第１評価値に前記第１の重み量より小さい第２の重み量を乗算した値であり、
前記品詞表現前後評価値は、前記第１評価値に前記第２の重み量より小さい第３の重み量を乗算した値であり、
前記品詞表現一方評価値は、前記第１評価値に前記第３の重み量より小さい第４の重み量を乗算した値であり、
前記置き換え部分評価値は、前記第１評価値に前記第４の重み量より小さい第５の重み量を乗算した値である、
請求項１６に記載の方法。
前記第２データベースは、前記Ｎ−ｇｒａｍ言語モデルのデータベースより口語表現を多く含むデータベースである、
請求項１０〜１７のいずれかに記載の方法。
対訳コーパスをアップデートする装置であって、前記対訳コーパスは第１言語で記述された文と第２言語で記述された対訳文との対を複数含み、前記対訳コーパスは第１言語で記述された第１文と第２言語で記述された第２文との対を含み、前記第２文は前記第１文に対する対訳文であり、
前記第１文を構成する複数の語句のうち第１語句が第２語句に置き換えられた第３文を入力する入力部と、
第３語句が第１データベースに含まれるか判定する第１データベース判定部と、前記第３語句は少なくとも、前記第３文において前記第２語句と前記第２語句の直前の第４語句、もしくは、前記第３文において前記第２語句と前記第２語句の直後の第５語句を含み、前記第１データベースは書き言葉の文章で用いられた語句を少なくとも含み、
前記第３語句が前記第１データベースに含まれていないと判定された場合は、前記第１データベースに基づいて、前記第３語句のうち前記第２語句をワイルドカードを示す第６語句に置き換えた第７語句に対して、前記第１データベースにおける前記第７語句の出現確率を示す第１評価値を算出する算出部と、前記第６語句は前記第２語句とは異なり、
前記第３語句が第２データベースに含まれるか否かを判定するとともに、前記第１評価値に所定の重みを付与することにより算出した第２評価値が所定の条件を満たすか否かを判定する第２データベース判定部と、前記第２データベースは話し言葉の文章で用いられた語句を少なくとも含み、前記話し言葉の文章で用いられた語句と前記話し言葉の文章で用いられた語句の前記第２データベースにおける出現頻度とを対応付け、
前記第３語句が前記第２データベースに含まれ、且つ前記第２評価値が前記所定の条件を満たすと判定された場合は、前記第３文と前記第２文との対を前記対訳コーパスに追加する出力部とを備える、
装置。
対訳コーパスをアップデートする装置として、コンピュータを機能させるためのプログラムであって、前記対訳コーパスは第１言語で記述された文と第２言語で記述された対訳文との対を複数含み、前記対訳コーパスは第１言語で記述された文と第２言語で記述された対訳文との対を複数含み、前記対訳コーパスは第１言語で記述された第１文と第２言語で記述された第２文との対を含み、前記第２文は前記第１文に対する対訳文であり、
前記コンピュータに、
前記第１文を構成する複数の語句のうち第１語句が第２語句に置き換えられた第３文を入力し、
第３語句が第１データベースに含まれるか否かを判定し、前記第３語句は少なくとも、前記第３文において前記第２語句と前記第２語句の直前の第４語句、もしくは、前記第３文において前記第２語句と前記第２語句の直後の第５語句を含み、前記第１データベースは書き言葉の文章で用いられた語句を少なくとも含み、
前記第３語句が前記第１データベースに含まれていないと判定された場合は、前記第１データベースに基づいて、前記第３語句のうち前記第２語句をワイルドカードを示す第６語句に置き換えた第７語句に対して、前記第１データベースにおける前記第７語句の出現確率を示す第１評価値を算出し、前記第６語句は前記第２語句とは異なり、
前記第３語句が第２データベースに含まれるか否かを判定するとともに、前記第１評価値に所定の重みを付与することにより算出した第２評価値が所定の条件を満たすか否かを判定し、前記第２データベースは話し言葉の文章で用いられた語句を少なくとも含み、前記話し言葉の文章で用いられた語句と前記話し言葉の文章で用いられた語句の前記第２データベースにおける出現頻度とを対応付け、
前記第３語句が前記第２データベースに含まれ、且つ前記第２評価値が前記所定の条件を満たすと判定された場合は、前記第３文と前記第２文との対を前記対訳コーパスに追加する、
処理を実行させるプログラム。