JP6564709B2

JP6564709B2 - 文書き換え装置、方法、及びプログラム

Info

Publication number: JP6564709B2
Application number: JP2016008293A
Authority: JP
Inventors: いつみ斉藤; 九月貞光; 久子浅野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-01-19
Filing date: 2016-01-19
Publication date: 2019-08-21
Anticipated expiration: 2036-01-19
Also published as: JP2017129994A

Description

本発明は、文書き換え装置、方法、及びプログラムに係り、特に、言語処理のために文を書き換える文書き換え装置、方法、及びプログラムに関する。

従来技術では、書き換え規則に基づいて書き換えを行う手法が複数提案されている（非特許文献１、及び非特許文献２参照）。

また、従来より、特定のドメインテキストを用いてモデルを学習する技術が知られている。特定のドメインテキストとは、例えば、翻訳のモデル学習であれば翻訳モデルの学習時に利用した日本語側の目的コーパスを指す。その他、構文解析や情報抽出のシステム構築時にモデル学習用コーパスとして用いた日本語コーパス若しくは、特定のドメイン（例えば、新聞表記や口語調等）の表記に変換する処理の場合はその特定のドメインのテキストを指す。

吉見毅彦，佐田いち子，福持陽士，"頑健な英日機械翻訳システム実現のための原文自動前編集"，自然言語処理，2000 坂本明子，田中浩之，"話し言葉機械翻訳のための日本語前編集"，言語処理学会第21回年次大会，2015

しかし、翻訳などの言語処理において、処理対象の入力文の言語表現と、モデル学習用コーパスとして用いた目的コーパスの言語表現とが一致しないために適切に言語処理ができない現象が存在する。

例えば翻訳処理の場合において、入力文「これおいしーい」を翻訳したとき、翻訳結果が「This Oishi-I」となり、「おいしーい」が正しく解析できず誤った翻訳となってしまう。一方、入力文を書き換えて「これおいしい」を翻訳したとすれば、翻訳結果は「It tastes great」となり、「おいしい」が正しく解析され意味の通る翻訳となる。

本発明は、上記問題点を解決するために成されたものであり、特定のドメインテキストに合わせた文の書き換えができる文書き換え装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る文書き換え装置は、入力された文字列に対して、予め作成された、入力表記と、書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、書き換えを行いたい対象となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するＮｂｅｓｔ解生成部と、を含んで構成されている。

また、第１の発明に係る文書き換え装置において、予め用意したテキストからなるテキスト集合から、入力表記に対する書き換え候補を獲得し、前記書き換え候補テーブルを作成する書き換え候補獲得部を更に含むようにしてもよい。

また、第１の発明に係る文書き換え装置において、前記経路のスコアは、前記経路上の各ノードの部分文字列に対応する前記書き換え候補の意味類似度と前記言語モデルスコアとに基づいて求められるようにしてもよい。

また、第１の発明に係る文書き換え装置において、前記Ｎｂｅｓｔ解生成部によって生成された書き換え文に対し、前記予め定められた言語処理を行う本処理部を更に含むようにしてもよい。

第２の発明に係る文書き換え方法は、ラティス生成部が、入力された文字列に対して、予め作成された、入力表記と、書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、Ｎｂｅｓｔ解生成部が、前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、書き換えを行いたい対象となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するステップと、を含んで実行することを特徴とする。

また、第２の発明に係る文書き換え方法において、書き換え候補獲得部が、予め用意したテキストからなるテキスト集合から、入力表記に対する書き換え候補を獲得し、前記書き換え候補テーブルを作成するステップを更に含むようにしてもよい。

また、第２の発明に係る文書き換え方法において、前記経路のスコアは、前記経路上の各ノードの部分文字列に対応する前記書き換え候補の意味類似度と前記言語モデルスコアとに基づいて求められるようにしてもよい。

第３の発明に係るプログラムは、コンピュータを、第１の発明に係る文書き換え装置の各部として機能させるためのプログラムである。

本発明に係る文書き換え装置、方法、及びプログラムによれば、書き換え候補テーブルを用いて辞書引きを行い、書き換え候補を含む各部分文字列に対応するノードを有するラティスを生成し、ラティスと、意味類似度と、言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成することにより、特定のドメインテキストに合わせた適切な文の書き換えができる、という効果が得られる。

目的コーパスを用いた言語モデルの一例を示す図である。本発明の第１の実施の形態に係る文書き換え装置の構成を示すブロック図である。語彙素「御早う」の見出し語集合の一例を示す図である。「はらへったー」に対する意味類似度が上位の書き換え候補と意味類似度の値の一例を示す図である。書き換え候補テーブルの一例を示す図である。ラティスの生成の一例を示す図である。素性のスコアの計算例を示す図である。本発明の第１の実施の形態に係る文書き換え装置における書き換え候補テーブル作成処理ルーチンを示すフローチャートである。本発明の第１の実施の形態に係る文書き換え装置における文書き換え処理ルーチンを示すフローチャートである。本発明の第１の実施の形態に係る文書き換え装置におけるラティス生成処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る文書き換え装置の構成を示すブロック図である。本発明の第２の実施の形態に係る文書き換え装置における文書き換え処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

まず、本発明の実施の形態における概要を説明する。

本発明の実施の形態で提案する技術は、あらかじめ複数の表記ゆれや言い回しの表現を書き換え候補として獲得し、一つのラティスとして展開する。目的文の学習コーパスである目的コーパスから作成した言語モデルのスコアと、書き換え候補の意味的類似度のスコアを用い最適な書き換え候補を出力する。目的コーパスは、書き換え対象となるテキストを準備し、テキストを形態素解析したものとする。また、予め目的コーパスを用いて作成した、表記及び品詞の組み合わせに対して作成した言語モデルを用意しておくものとする。図１に目的コーパスを用いた言語モデルの一例を示す。また、最適な書き換え候補は、目的コーパスの言語表現と最も近くなる候補である。なお、目的コーパスが特定のドメインテキストの一例である。

なお、本発明の実施の形態では、機械翻訳を行うための書き換え文を獲得する場合について説明するが、これに限定されるものではなく、構文解析、自動要約等のあらゆる言語処理に適用することができる。

＜本発明の第１の実施の形態に係る文書き換え装置の構成＞

次に、本発明の第１の実施の形態に係る文書き換え装置の構成について説明する。図２に示すように、本発明の第１の実施の形態に係る文書き換え装置１００は、ＣＰＵと、ＲＡＭと、後述する書き換え候補テーブル作成処理ルーチン及び文書き換え処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この文書き換え装置１００は、機能的には図２に示すように入力部１０と、演算部２０と、出力部９０とを備えている。

入力部１０は、テキスト集合として、ＵｎｉＤｉｃ（https://osdn.jp/projects/unidic/）やＪＵＭＡＮ（http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN）等の日本語の辞書と、Ｔｗｉｔｔｅｒ（Ｒ）等のＳＮＳから収集した大規模テキストとを受け付け、書き換え候補獲得部２２に出力する。また、入力部１０は、書き換え対象の文字列を受け付ける。

演算部２０は、書き換え候補獲得部２２と、前処理部２４と、言語モデル２６とを含んで構成されている。

書き換え候補獲得部２２は、入力部１０で受け付けた辞書及び大規模テキストから、入力表記に対する書き換え候補を格納した書き換え候補テーブルを作成する。

書き換え候補獲得部２２は、辞書候補獲得部３０と、同義フレーズ獲得部３２と、同義述部獲得部３４と、類似度設定部３６とを含んで構成されている。なお、本実施の形態では、書き換え候補獲得部２２の辞書候補獲得部３０、同義フレーズ獲得部３２、及び同義述部獲得部３４の各々で書き換え候補を獲得する場合を例に説明するが、これに限定されるものではなく、例えば、人手で作成した書き換え候補や、読みの類似度を用いた書き換え候補等、他の手法によって書き換え候補を獲得してもよい。

辞書候補獲得部３０は、入力部１０で受け付けた辞書を用いて、入力表記の各々に対して、複数のレベルの書き換え候補を獲得する。具体的には、辞書の語彙素（ＵｎｉＤｉｃを使用）、代表表記（ＪＵＭＡＮを使用）などを見出し語として用いて、辞書に登録された同一の語彙素、及び代表表記をもつ見出し語集合を書き換え候補グループとして定義する。図３にＵｎｉＤｉｃにおける語彙素「御早う」の見出し語集合の一例を示す。作成した書き換え候補グループの各々について、辞書見出し語の各々を入力表記とし、同一のグループの入力表記以外の見出し語の各々を書き換え候補とすればよい。このように辞書候補獲得部３０によって得た書き換え候補によって、単語レベルの表記揺れを吸収することが可能になる。

同義フレーズ獲得部３２は、入力部１０で受け付けた大規模テキストを用いて、意味類似度を用いた単語レベル及びフレーズレベルの文字列のペアを、入力表記に対する書き換え候補として獲得する。具体的には、Ｔｗｉｔｔｅｒ（Ｒ）上の短文（ｎ文字以内）を、句読点、記号などで分割した際に１０文字以内となる文字列のまとまりを辞書に登録し、解析によって、文字列の各々について意味ベクトルを求める。意味ベクトルの計算にはｗｏｒｄ２ｖｅｃ（参考文献１参照）等を用いればよい。そして、文字列の各々の意味ベクトルに基づいて、文字列の各ペアの意味的類似度を、コサイン類似度等を用いて推定し、入力表記に対する書き換え候補を獲得する。

参考文献１：Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

ここでは、意味類似度が予め定めた閾値以内の文字列のペアを、入力表記に対する書き換え候補として定義する。図４に文字列「はらへったー」に対する意味類似度が上位の書き換え候補と意味類似度の値の一例を示す。同義フレーズ獲得部３２によって得た書き換え候補により、表記が似ていなくても意味的に類似している書き換え候補への書き換えが可能になり、書き換え候補の意味的空間が広がる。

同義述部獲得部３４は、入力部１０で受け付けた大規模テキストを用いて、述語である入力表記に対して、述部の機能語を書き換えた書き換え候補を獲得する。具体的には、大規模テキストに対し、述部正規化解析(参考文献２参照)を行い、同一の意味ラベル、述部を持つ候補を、書き換え候補として定義する。

参考文献２：泉朋子，今村賢治，菊井玄一郎，藤田篤，佐藤理史，"正規化を指向した機能動詞表現の述部言い換え"，第15回言語処理学会年次大会，2009

例えば「みる＋完了」に対して、同一の機能語の意味ラベル及び述語を持つ書き換え候補となる例としては、「みちゃった」、「みた」、「みたよ」、「みちゃいました」が挙げられる。

日本語は特に述部の機能語が冗長で、表現も多様であることから、同義述部獲得部３４によって獲得した書き換え候補によって、このような多様な述部の機能語を書き換え候補として用いることができる。また、機能語の細かな表現は意味類似度のような手法では識別できないことも多いため、述部の機能語に特化したモデルを用いることで、意味的に同一である信頼性が高い多様な述部書き換えバリエーションを取得可能になる。

類似度設定部３６は、辞書候補獲得部３０、同義フレーズ獲得部３２、及び同義述部獲得部３４の各々で獲得した書き換え候補に意味類似度を付与し、入力表記と、書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換えテーブルを書き換え候補ＤＢ３８に格納する。辞書候補獲得部３０、及び同義述部獲得部３４で獲得した書き換え候補には、意味類似度として１の値を付与する。一方、同義フレーズ獲得部３２で獲得した書き換え候補には、意味ベクトルによって算出された意味類似度を付与する。このように類似度設定を行う理由は、辞書候補獲得部３０、及び同義述部獲得部３４では、予め同義判定が人手チェックによってなされた、確実な書き換え候補のみを獲得することになるが、同義フレーズ獲得部３２では、意味類似度の関数によって自動獲得した書き換え候補は必ずしも確実な候補とは限らないためである。意味類似度そのものを素性として用いることで意味の類似の度合いを反映させる。

書き換え候補ＤＢ３８には、書き換え候補獲得部２２で作成された書き換え候補テーブルが格納されている。図５に書き換え候補テーブルの一例を示す。なお、図５のルール１のように、あらかじめ定めたルールを追加することも可能である。また、本実施の形態では、書き換え候補テーブルには、書き換え候補が獲得された由来が更に格納されている。

なお、上記の書き換え候補テーブルでは、表記と品詞をキーとして照合を行うが、品詞は省略可とする。以降の説明では簡単のため品詞を省略した例を示す。

前処理部２４は、ラティス生成部４０と、Ｎｂｅｓｔ解生成部５０とを含んで構成されている。

言語モデル２６は、書き換え先となる特定のドメインテキスト（本実施の形態では、翻訳処理のための学習に用いられる目的コーパス）を用いて表記及び品詞の組み合わせに対して作成したモデルである。ここで、言語モデル２６の言語モデルスコアとは、目的コーパスにおける表記の尤もらしさを表すスコアである。

ラティス生成部４０は、以下の各部の処理によって、入力部１０で受け付けた文字列に対して、書き換え候補獲得部２２によって作成された書き換え候補テーブルを用いて辞書引きを行い、書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

ラティス生成部４０は、形態素解析部４２と、書き換え候補テーブル参照部４４と、書き換え候補ラティス生成部４６とを含んで構成されている。

形態素解析部４２は、入力部１０で受け付けた文字列を形態素解析し、解析により得られた入力形態素を書き換え候補テーブル参照部４４に出力する。

書き換え候補テーブル参照部４４は、形態素解析部４２により得られた入力形態素の各々について、入力形態素を入力表記の参照キーとして書き換え候補ＤＢ３８の書き換え候補テーブルを参照し、書き換え候補集合を取得する。

書き換え候補ラティス生成部４６は、書き換え候補テーブル参照部４４で取得した書き換え候補集合を用いて、入力形態素の各々に対して書き換え候補を展開してラティスを生成する。

具体的には、図６に示すように、左から順に入力形態素とマッチする書き換え候補リストを列挙する。そして、入力形態素と書き換え候補との各々をノードとし、連続するノード間をエッジで結んだグラフ構造を、ラティスとして生成する。

Ｎｂｅｓｔ解生成部５０は、以下の処理によって、ラティス生成部４０によって生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル２６における部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成する。ここで経路のスコアは、経路上の各ノードの部分文字列に対応する書き換え候補の意味類似度と言語モデルスコアとに基づいて求められる。

Ｎｂｅｓｔ解生成部５０は、まず、ラティス生成部４０で生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル２６における部分文字列の各々の言語モデルスコアとに基づいて、生成されたラティスにおける各経路について、言語モデルスコア、意味類似度、及び書き換えフラグを用いた当該経路の各素性のスコアを計算する。そして、計算された各素性のスコアに基づいて、例えば動的計画法を用いて、ラティスにおける、以下に示す総スコアが最大となる最適経路を計算する。

ここで、α、β、及びγは、言語モデルスコア、意味類似度、及び書き換えフラグからなる各素性の重みである。α、及びβの値は、予めデータに基づいて実験的に決定する。書き換えフラグは、書き換えられたノードの場合に１、それ以外のノードの場合に０の値をとる変数である。各素性のスコアを合算することで、総スコアを算出することができる。総スコアは以下（１）式で算出される。

総スコア=Σ_ｉ（α×言語モデルスコア＋β×(-log(意味類似度))
＋γ×書き換えフラグ）
・・・（１）

ただし、ｉは、経路上のノードの部分文字列を表す。例えば、図７に示すように、各ノードのスコアを、αにノードの部分文字列に対応する言語モデルスコアを掛けることにより、計算する。

例えば入力された文字列に対応する経路が「おっはよう/はら/へっ/た/ー」であれば当該経路の総スコアは「1.2+2.3+2.1+1.9+1.7+5.7=14.9」となる。また、書き換え候補を含む経路１が「おはよう/おなか/すい/た/」であれば当該経路１の総スコアは「1.0+2.1+1.9+1.8+3.8+0.5*(-log(1))+0.5*(-log(0.6))=10.86」となる。他の書き換え候補を含む経路も同様に計算する。上記例の経路では、経路１が最もスコアが小さいため経路１が最適経路となる。

なお、複数の経路の総スコアが同じ場合は、優先度に従って選択する。例えば、入力表記を最優先とし、次の優先度を、文字コード順などにすればよい。

＜本発明の第１の実施の形態に係る文書き換え装置の作用＞

次に、本発明の第１の実施の形態に係る文書き換え装置１００の作用について説明する。入力部１０において日本語の辞書と、大規模テキストとを受け付け、書き換え候補獲得部２２に出力すると、文書き換え装置１００は、図８に示す書き換え候補テーブル作成処理ルーチンを実行する。

まず、ステップＳ２００では、入力部１０で受け付けた辞書を用いて、入力表記の各々に対して、複数のレベルの書き換え候補を獲得する。

ステップＳ２０２では、入力部１０で受け付けた大規模テキストを用いて、意味類似度を用いた単語レベル及びフレーズレベルの文字列のペアを、入力表記に対する書き換え候補として獲得する。

ステップＳ２０４では、入力部１０で受け付けた大規模テキストを用いて、述語である入力表記に対して、述部の機能語を書き換えた書き換え候補を獲得する。

ステップＳ２０６では、ステップＳ２００〜Ｓ２０４の各々で獲得した書き換え候補に意味類似度を付与し、入力表記と、書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換えテーブルを作成し、書き換え候補ＤＢ３８に格納し、書き換え候補テーブル作成処理ルーチンを終了する。

そして、入力部１０において書き換え対象の文字列を受け付けると、文書き換え装置１００は、図９に示す文書き換え処理ルーチンを実行する。

まず、ステップＳ１０２では、入力部１０で受け付けた文字列に対して、ステップＳ１００で作成された書き換え候補テーブルを用いて辞書引きを行い、書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

ステップＳ１０４では、ステップＳ１０２で生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル２６における部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成し、出力部９０に出力する。

上記ステップＳ１０２は、図１０に示すラティス生成処理ルーチンによって実現される。

ステップＳ３００では、入力部１０で受け付けた文字列を形態素解析し、解析により得られた入力形態素を書き換え候補テーブル参照部４４に出力する。

ステップＳ３０２では、ステップＳ３００で出力された入力形態素の各々について、入力形態素を入力表記の参照キーとして書き換え候補ＤＢ３８の書き換え候補テーブルを参照し、書き換え候補集合を取得する。

ステップＳ３０４では、ステップＳ３０２で取得した書き換え候補集合を用いて、入力形態素の各々に対して書き換え候補を展開してラティスを生成し、ラティス生成処理ルーチンを終了する。

以上説明したように、第１の実施の形態に係る文書き換え装置によれば、作成された書き換え候補テーブルを用いて辞書引きを行い、ラティスを生成し、生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル２６における部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成することにより、特定のドメインテキストの分布に合わせた文の書き換えができる。

＜本発明の第２の実施の形態に係る文書き換え装置の構成＞

次に、本発明の第２の実施の形態に係る文書き換え装置の構成について説明する。なお、第１の実施の形態と同様となる箇所については同一符号を付して説明を省略する。また、第２の実施の形態では、言語処理として翻訳処理を行う場合を例に説明するが、これに限定されるものではなく、構文解析処理、要約処理等の他の言語処理を行うようにしてもよい。

図１１に示すように、本発明の第２の実施の形態に係る文書き換え装置２００は、ＣＰＵと、ＲＡＭと、書き換え候補テーブル作成処理ルーチン及び文書き換え処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この文書き換え装置２００は、機能的には図１１に示すように入力部１０と、演算部２２０と、出力部９０とを備えている。

演算部２２０は、書き換え候補獲得部２２と、前処理部２４と、言語モデル２６と、本処理モデル２２８と、本処理部２６０とを含んで構成されている。

本処理モデル２２８は、原言語の文を目的言語の文へ翻訳するための予め学習された翻訳モデルである。翻訳モデルは原言語を英語、目的言語を日本語として学習されているものとする。なお、翻訳モデルは外部の翻訳システム等を用いるようにしてもよい。

本処理部２６０は、前処理部２４のＮｂｅｓｔ解生成部５０によって生成された書き換え文に対し、本処理モデル２２８を用いて翻訳処理を行い、翻訳結果を出力部９０に出力する。例えば、書き換え前の文が「おはよーはらへったー」であれば、翻訳結果は「Whoa Hayo belly heh was over」となるが、生成された書き換え文「おはようおなかすいた」であれば、翻訳結果は「Good morning hungry」となり、適切な翻訳が行える。また、書き換え前の文が「テレビみちゃった」であれば、翻訳結果は「I chat Terebimi」となるが、生成された書き換え文「テレビみた」であれば、翻訳結果は「I saw TV」となる。このように言語モデルの表記と一致せず、そのままではうまく翻訳できない文も、書き換えにより読みやすい翻訳結果を得ることが可能となる。

＜本発明の第２の実施の形態に係る文書き換え装置の作用＞

次に、本発明の第２の実施の形態に係る文書き換え装置２００の作用について説明する。なお、第１の実施の形態と同様の作用となる箇所については同一符号を付して説明を省略する。

図１２に示すように、文書き換え処理ルーチンのステップＳ４００では、ステップＳ１０４で生成された書き換え文に対し、本処理モデル２２８を用いて翻訳処理を行い、翻訳結果を出力部９０に出力する。

なお、本発明の第２の実施の形態に係る文書き換え装置２００の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態に係る文書き換え装置によれば、作成された書き換え候補テーブルを用いて辞書引きを行い、ラティスを生成し、生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル２６における部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成し、生成された書き換え文に対し、本処理モデル２２８を用いて翻訳処理を行うことにより、特定のドメインテキストの分布に合わせた文の書き換えを行って、翻訳処理ができる。

また、自動獲得した複数の書き換え候補とその組み合わせの中から、自動評価に基づいて最適な候補を選択することができる。例えばルールで設定する場合、「みちゃった」→「見た」などの一意の書き換えを規定し、複数の候補の順序を付ける場合はそれぞれ順序関数を規定する必要があるが、本実施の形態の技術では、「みちゃった」→「見た」「見ちゃった」「見たよ」などの中から目的コーパスの言語モデルという基準に基づき最も適した候補を出力することができる。

また、目的コーパスを変更することで、入力した文字列を目的にあった表記に書き換えることが可能である。例えば目的コーパスを新聞にすれば新聞表記に最も合った書き換え候補を出力し、口語調のコーパスにすれば口語調の書き換え候補の出力を行うことができる。これらを一つ一つルール化するのではなく、目的コーパスの言語モデルを差し替えるだけで実現することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０入力部
２０、２２０演算部
２２書き換え候補獲得部
２４前処理部
２６言語モデル
３０辞書候補獲得部
３２同義フレーズ獲得部
３４同義述部獲得部
３６類似度設定部
４０ラティス生成部
４２形態素解析部
４４書き換え候補テーブル参照部
４６書き換え候補ラティス生成部
５０Ｎｂｅｓｔ解生成部
９０出力部
１００、２００文書き換え装置
２２８本処理モデル
２６０本処理部

Claims

入力された文字列に対して、予め作成された、入力表記と、該入力表記に対する複数の書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、目的コーパスに含まれ、かつ、書き換え先となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するＮｂｅｓｔ解生成部と、
を含む、予め定められた言語処理に対応する前処理を行うための文書き換え装置であって、前記目的コーパスは、前記書き換え先となる特定のドメインテキストと、該ドメインテキストに対し、前記予め定められた言語処理を行った際の正解出力と、からなるものであり、前記予め定められた言語処理は、前記目的コーパスに基づいて学習されたものである文書き換え装置。
前記Ｎｂｅｓｔ解生成部は、前記ラティスの前記エッジからなる各経路の部分文字列の各々について、前記意味類似度のスコアと、前記言語モデルスコアに基づくスコアと、前記ノードの部分文字列が書き換えられたか否かを表す書き換えフラグに基づくスコアとを足し合わせたスコアを求め、前記各経路について、前記部分文字列の各々のスコアを足し合わせた総スコアを算出し、前記総スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成する請求項１に記載の文書き換え装置。
前記Ｎｂｅｓｔ解生成部によって生成された書き換え文に対し、前記予め定められた言語処理を行う本処理部を更に含む請求項１又は請求項２に記載の文書き換え装置。
ラティス生成部が、入力された文字列に対して、予め作成された、入力表記と、該入力表記に対する複数の書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
Ｎｂｅｓｔ解生成部が、前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、目的コーパスに含まれ、かつ、書き換え先となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するステップと、
を含む、予め定められた言語処理に対応する前処理を行うための文書き換え方法であって、前記目的コーパスは、前記書き換え先となる特定のドメインテキストと、該ドメインテキストに対し、前記予め定められた言語処理を行った際の正解出力と、からなるものであり、前記予め定められた言語処理は、前記目的コーパスに基づいて学習されたものである文書き換え方法。
前記Ｎｂｅｓｔ解生成部が生成するステップは、前記ラティスの前記エッジからなる各経路の部分文字列の各々について、前記意味類似度のスコアと、前記言語モデルスコアに基づくスコアと、前記ノードの部分文字列が書き換えられたか否かを表す書き換えフラグに基づくスコアとを足し合わせたスコアを求め、前記各経路について、前記部分文字列の各々のスコアを足し合わせた総スコアを算出し、前記総スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成する請求項４に記載の文書き換え方法。
コンピュータを、請求項１〜請求項３のいずれか１項に記載の文書き換え装置の各部として機能させるためのプログラム。