JP6564709B2 - 文書き換え装置、方法、及びプログラム - Google Patents

文書き換え装置、方法、及びプログラム Download PDF

Info

Publication number
JP6564709B2
JP6564709B2 JP2016008293A JP2016008293A JP6564709B2 JP 6564709 B2 JP6564709 B2 JP 6564709B2 JP 2016008293 A JP2016008293 A JP 2016008293A JP 2016008293 A JP2016008293 A JP 2016008293A JP 6564709 B2 JP6564709 B2 JP 6564709B2
Authority
JP
Japan
Prior art keywords
sentence
character string
lattice
rewriting
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016008293A
Other languages
English (en)
Other versions
JP2017129994A (ja
Inventor
いつみ 斉藤
いつみ 斉藤
九月 貞光
九月 貞光
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016008293A priority Critical patent/JP6564709B2/ja
Publication of JP2017129994A publication Critical patent/JP2017129994A/ja
Application granted granted Critical
Publication of JP6564709B2 publication Critical patent/JP6564709B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書き換え装置、方法、及びプログラムに係り、特に、言語処理のために文を書き換える文書き換え装置、方法、及びプログラムに関する。
従来技術では、書き換え規則に基づいて書き換えを行う手法が複数提案されている(非特許文献1、及び非特許文献2参照)。
また、従来より、特定のドメインテキストを用いてモデルを学習する技術が知られている。特定のドメインテキストとは、例えば、翻訳のモデル学習であれば翻訳モデルの学習時に利用した日本語側の目的コーパスを指す。その他、構文解析や情報抽出のシステム構築時にモデル学習用コーパスとして用いた日本語コーパス若しくは、特定のドメイン(例えば、新聞表記や口語調等)の表記に変換する処理の場合はその特定のドメインのテキストを指す。
吉見毅彦,佐田いち子,福持陽士,"頑健な英日機械翻訳システム実現のための原文自動前編集",自然言語処理,2000 坂本明子,田中浩之,"話し言葉機械翻訳のための日本語前編集",言語処理学会第21回年次大会,2015
しかし、翻訳などの言語処理において、処理対象の入力文の言語表現と、モデル学習用コーパスとして用いた目的コーパスの言語表現とが一致しないために適切に言語処理ができない現象が存在する。
例えば翻訳処理の場合において、入力文「これおいしーい」を翻訳したとき、翻訳結果が「This Oishi-I」となり、「おいしーい」が正しく解析できず誤った翻訳となってしまう。一方、入力文を書き換えて「これおいしい」を翻訳したとすれば、翻訳結果は「It tastes great」となり、「おいしい」が正しく解析され意味の通る翻訳となる。
本発明は、上記問題点を解決するために成されたものであり、特定のドメインテキストに合わせた文の書き換えができる文書き換え装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る文書き換え装置は、入力された文字列に対して、予め作成された、入力表記と、書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、書き換えを行いたい対象となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するNbest解生成部と、を含んで構成されている。
また、第1の発明に係る文書き換え装置において、予め用意したテキストからなるテキスト集合から、入力表記に対する書き換え候補を獲得し、前記書き換え候補テーブルを作成する書き換え候補獲得部を更に含むようにしてもよい。
また、第1の発明に係る文書き換え装置において、前記経路のスコアは、前記経路上の各ノードの部分文字列に対応する前記書き換え候補の意味類似度と前記言語モデルスコアとに基づいて求められるようにしてもよい。
また、第1の発明に係る文書き換え装置において、前記Nbest解生成部によって生成された書き換え文に対し、前記予め定められた言語処理を行う本処理部を更に含むようにしてもよい。
第2の発明に係る文書き換え方法は、ラティス生成部が、入力された文字列に対して、予め作成された、入力表記と、書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、Nbest解生成部が、前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、書き換えを行いたい対象となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る文書き換え方法において、書き換え候補獲得部が、予め用意したテキストからなるテキスト集合から、入力表記に対する書き換え候補を獲得し、前記書き換え候補テーブルを作成するステップを更に含むようにしてもよい。
また、第2の発明に係る文書き換え方法において、前記経路のスコアは、前記経路上の各ノードの部分文字列に対応する前記書き換え候補の意味類似度と前記言語モデルスコアとに基づいて求められるようにしてもよい。
第3の発明に係るプログラムは、コンピュータを、第1の発明に係る文書き換え装置の各部として機能させるためのプログラムである。
本発明に係る文書き換え装置、方法、及びプログラムによれば、書き換え候補テーブルを用いて辞書引きを行い、書き換え候補を含む各部分文字列に対応するノードを有するラティスを生成し、ラティスと、意味類似度と、言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成することにより、特定のドメインテキストに合わせた適切な文の書き換えができる、という効果が得られる。
目的コーパスを用いた言語モデルの一例を示す図である。 本発明の第1の実施の形態に係る文書き換え装置の構成を示すブロック図である。 語彙素「御早う」の見出し語集合の一例を示す図である。 「はらへったー」に対する意味類似度が上位の書き換え候補と意味類似度の値の一例を示す図である。 書き換え候補テーブルの一例を示す図である。 ラティスの生成の一例を示す図である。 素性のスコアの計算例を示す図である。 本発明の第1の実施の形態に係る文書き換え装置における書き換え候補テーブル作成処理ルーチンを示すフローチャートである。 本発明の第1の実施の形態に係る文書き換え装置における文書き換え処理ルーチンを示すフローチャートである。 本発明の第1の実施の形態に係る文書き換え装置におけるラティス生成処理ルーチンを示すフローチャートである。 本発明の第2の実施の形態に係る文書き換え装置の構成を示すブロック図である。 本発明の第2の実施の形態に係る文書き換え装置における文書き換え処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態で提案する技術は、あらかじめ複数の表記ゆれや言い回しの表現を書き換え候補として獲得し、一つのラティスとして展開する。目的文の学習コーパスである目的コーパスから作成した言語モデルのスコアと、書き換え候補の意味的類似度のスコアを用い最適な書き換え候補を出力する。目的コーパスは、書き換え対象となるテキストを準備し、テキストを形態素解析したものとする。また、予め目的コーパスを用いて作成した、表記及び品詞の組み合わせに対して作成した言語モデルを用意しておくものとする。図1に目的コーパスを用いた言語モデルの一例を示す。また、最適な書き換え候補は、目的コーパスの言語表現と最も近くなる候補である。なお、目的コーパスが特定のドメインテキストの一例である。
なお、本発明の実施の形態では、機械翻訳を行うための書き換え文を獲得する場合について説明するが、これに限定されるものではなく、構文解析、自動要約等のあらゆる言語処理に適用することができる。
<本発明の第1の実施の形態に係る文書き換え装置の構成>
次に、本発明の第1の実施の形態に係る文書き換え装置の構成について説明する。図2に示すように、本発明の第1の実施の形態に係る文書き換え装置100は、CPUと、RAMと、後述する書き換え候補テーブル作成処理ルーチン及び文書き換え処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この文書き換え装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部90とを備えている。
入力部10は、テキスト集合として、UniDic(https://osdn.jp/projects/unidic/)やJUMAN(http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN)等の日本語の辞書と、Twitter(R)等のSNSから収集した大規模テキストとを受け付け、書き換え候補獲得部22に出力する。また、入力部10は、書き換え対象の文字列を受け付ける。
演算部20は、書き換え候補獲得部22と、前処理部24と、言語モデル26とを含んで構成されている。
書き換え候補獲得部22は、入力部10で受け付けた辞書及び大規模テキストから、入力表記に対する書き換え候補を格納した書き換え候補テーブルを作成する。
書き換え候補獲得部22は、辞書候補獲得部30と、同義フレーズ獲得部32と、同義述部獲得部34と、類似度設定部36とを含んで構成されている。なお、本実施の形態では、書き換え候補獲得部22の辞書候補獲得部30、同義フレーズ獲得部32、及び同義述部獲得部34の各々で書き換え候補を獲得する場合を例に説明するが、これに限定されるものではなく、例えば、人手で作成した書き換え候補や、読みの類似度を用いた書き換え候補等、他の手法によって書き換え候補を獲得してもよい。
辞書候補獲得部30は、入力部10で受け付けた辞書を用いて、入力表記の各々に対して、複数のレベルの書き換え候補を獲得する。具体的には、辞書の語彙素(UniDicを使用)、代表表記(JUMANを使用)などを見出し語として用いて、辞書に登録された同一の語彙素、及び代表表記をもつ見出し語集合を書き換え候補グループとして定義する。図3にUniDicにおける語彙素「御早う」の見出し語集合の一例を示す。作成した書き換え候補グループの各々について、辞書見出し語の各々を入力表記とし、同一のグループの入力表記以外の見出し語の各々を書き換え候補とすればよい。このように辞書候補獲得部30によって得た書き換え候補によって、単語レベルの表記揺れを吸収することが可能になる。
同義フレーズ獲得部32は、入力部10で受け付けた大規模テキストを用いて、意味類似度を用いた単語レベル及びフレーズレベルの文字列のペアを、入力表記に対する書き換え候補として獲得する。具体的には、Twitter(R)上の短文(n文字以内)を、句読点、記号などで分割した際に10文字以内となる文字列のまとまりを辞書に登録し、解析によって、文字列の各々について意味ベクトルを求める。意味ベクトルの計算にはword2vec(参考文献1参照)等を用いればよい。そして、文字列の各々の意味ベクトルに基づいて、文字列の各ペアの意味的類似度を、コサイン類似度等を用いて推定し、入力表記に対する書き換え候補を獲得する。
参考文献1:Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
ここでは、意味類似度が予め定めた閾値以内の文字列のペアを、入力表記に対する書き換え候補として定義する。図4に文字列「はらへったー」に対する意味類似度が上位の書き換え候補と意味類似度の値の一例を示す。同義フレーズ獲得部32によって得た書き換え候補により、表記が似ていなくても意味的に類似している書き換え候補への書き換えが可能になり、書き換え候補の意味的空間が広がる。
同義述部獲得部34は、入力部10で受け付けた大規模テキストを用いて、述語である入力表記に対して、述部の機能語を書き換えた書き換え候補を獲得する。具体的には、大規模テキストに対し、述部正規化解析(参考文献2参照)を行い、同一の意味ラベル、述部を持つ候補を、書き換え候補として定義する。
参考文献2:泉朋子,今村賢治,菊井玄一郎,藤田篤,佐藤理史,"正規化を指向した機能動詞表現の述部言い換え",第15回言語処理学会年次大会,2009
例えば「みる+完了」に対して、同一の機能語の意味ラベル及び述語を持つ書き換え候補となる例としては、「みちゃった」、「みた」、「みたよ」、「みちゃいました」が挙げられる。
日本語は特に述部の機能語が冗長で、表現も多様であることから、同義述部獲得部34によって獲得した書き換え候補によって、このような多様な述部の機能語を書き換え候補として用いることができる。また、機能語の細かな表現は意味類似度のような手法では識別できないことも多いため、述部の機能語に特化したモデルを用いることで、意味的に同一である信頼性が高い多様な述部書き換えバリエーションを取得可能になる。
類似度設定部36は、辞書候補獲得部30、同義フレーズ獲得部32、及び同義述部獲得部34の各々で獲得した書き換え候補に意味類似度を付与し、入力表記と、書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換えテーブルを書き換え候補DB38に格納する。辞書候補獲得部30、及び同義述部獲得部34で獲得した書き換え候補には、意味類似度として1の値を付与する。一方、同義フレーズ獲得部32で獲得した書き換え候補には、意味ベクトルによって算出された意味類似度を付与する。このように類似度設定を行う理由は、辞書候補獲得部30、及び同義述部獲得部34では、予め同義判定が人手チェックによってなされた、確実な書き換え候補のみを獲得することになるが、同義フレーズ獲得部32では、意味類似度の関数によって自動獲得した書き換え候補は必ずしも確実な候補とは限らないためである。意味類似度そのものを素性として用いることで意味の類似の度合いを反映させる。
書き換え候補DB38には、書き換え候補獲得部22で作成された書き換え候補テーブルが格納されている。図5に書き換え候補テーブルの一例を示す。なお、図5のルール1のように、あらかじめ定めたルールを追加することも可能である。また、本実施の形態では、書き換え候補テーブルには、書き換え候補が獲得された由来が更に格納されている。
なお、上記の書き換え候補テーブルでは、表記と品詞をキーとして照合を行うが、品詞は省略可とする。以降の説明では簡単のため品詞を省略した例を示す。
前処理部24は、ラティス生成部40と、Nbest解生成部50とを含んで構成されている。
言語モデル26は、書き換え先となる特定のドメインテキスト(本実施の形態では、翻訳処理のための学習に用いられる目的コーパス)を用いて表記及び品詞の組み合わせに対して作成したモデルである。ここで、言語モデル26の言語モデルスコアとは、目的コーパスにおける表記の尤もらしさを表すスコアである。
ラティス生成部40は、以下の各部の処理によって、入力部10で受け付けた文字列に対して、書き換え候補獲得部22によって作成された書き換え候補テーブルを用いて辞書引きを行い、書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。
ラティス生成部40は、形態素解析部42と、書き換え候補テーブル参照部44と、書き換え候補ラティス生成部46とを含んで構成されている。
形態素解析部42は、入力部10で受け付けた文字列を形態素解析し、解析により得られた入力形態素を書き換え候補テーブル参照部44に出力する。
書き換え候補テーブル参照部44は、形態素解析部42により得られた入力形態素の各々について、入力形態素を入力表記の参照キーとして書き換え候補DB38の書き換え候補テーブルを参照し、書き換え候補集合を取得する。
書き換え候補ラティス生成部46は、書き換え候補テーブル参照部44で取得した書き換え候補集合を用いて、入力形態素の各々に対して書き換え候補を展開してラティスを生成する。
具体的には、図6に示すように、左から順に入力形態素とマッチする書き換え候補リストを列挙する。そして、入力形態素と書き換え候補との各々をノードとし、連続するノード間をエッジで結んだグラフ構造を、ラティスとして生成する。
Nbest解生成部50は、以下の処理によって、ラティス生成部40によって生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル26における部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成する。ここで経路のスコアは、経路上の各ノードの部分文字列に対応する書き換え候補の意味類似度と言語モデルスコアとに基づいて求められる。
Nbest解生成部50は、まず、ラティス生成部40で生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル26における部分文字列の各々の言語モデルスコアとに基づいて、生成されたラティスにおける各経路について、言語モデルスコア、意味類似度、及び書き換えフラグを用いた当該経路の各素性のスコアを計算する。そして、計算された各素性のスコアに基づいて、例えば動的計画法を用いて、ラティスにおける、以下に示す総スコアが最大となる最適経路を計算する。
ここで、α、β、及びγは、言語モデルスコア、意味類似度、及び書き換えフラグからなる各素性の重みである。α、及びβの値は、予めデータに基づいて実験的に決定する。書き換えフラグは、書き換えられたノードの場合に1、それ以外のノードの場合に0の値をとる変数である。各素性のスコアを合算することで、総スコアを算出することができる。総スコアは以下(1)式で算出される。
総スコア=Σ(α×言語モデルスコア+β×(-log(意味類似度))
+γ×書き換えフラグ)
・・・(1)
ただし、iは、経路上のノードの部分文字列を表す。例えば、図7に示すように、各ノードのスコアを、αにノードの部分文字列に対応する言語モデルスコアを掛けることにより、計算する。
例えば入力された文字列に対応する経路が「おっはよう/はら/へっ/た/ー」であれば当該経路の総スコアは「1.2+2.3+2.1+1.9+1.7+5.7=14.9」となる。また、書き換え候補を含む経路1が「おはよう/おなか/すい/た/」であれば当該経路1の総スコアは「1.0+2.1+1.9+1.8+3.8+0.5*(-log(1))+0.5*(-log(0.6))=10.86」となる。他の書き換え候補を含む経路も同様に計算する。上記例の経路では、経路1が最もスコアが小さいため経路1が最適経路となる。
なお、複数の経路の総スコアが同じ場合は、優先度に従って選択する。例えば、入力表記を最優先とし、次の優先度を、文字コード順などにすればよい。
<本発明の第1の実施の形態に係る文書き換え装置の作用>
次に、本発明の第1の実施の形態に係る文書き換え装置100の作用について説明する。入力部10において日本語の辞書と、大規模テキストとを受け付け、書き換え候補獲得部22に出力すると、文書き換え装置100は、図8に示す書き換え候補テーブル作成処理ルーチンを実行する。
まず、ステップS200では、入力部10で受け付けた辞書を用いて、入力表記の各々に対して、複数のレベルの書き換え候補を獲得する。
ステップS202では、入力部10で受け付けた大規模テキストを用いて、意味類似度を用いた単語レベル及びフレーズレベルの文字列のペアを、入力表記に対する書き換え候補として獲得する。
ステップS204では、入力部10で受け付けた大規模テキストを用いて、述語である入力表記に対して、述部の機能語を書き換えた書き換え候補を獲得する。
ステップS206では、ステップS200〜S204の各々で獲得した書き換え候補に意味類似度を付与し、入力表記と、書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換えテーブルを作成し、書き換え候補DB38に格納し、書き換え候補テーブル作成処理ルーチンを終了する。
そして、入力部10において書き換え対象の文字列を受け付けると、文書き換え装置100は、図9に示す文書き換え処理ルーチンを実行する。
まず、ステップS102では、入力部10で受け付けた文字列に対して、ステップS100で作成された書き換え候補テーブルを用いて辞書引きを行い、書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。
ステップS104では、ステップS102で生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル26における部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成し、出力部90に出力する。
上記ステップS102は、図10に示すラティス生成処理ルーチンによって実現される。
ステップS300では、入力部10で受け付けた文字列を形態素解析し、解析により得られた入力形態素を書き換え候補テーブル参照部44に出力する。
ステップS302では、ステップS300で出力された入力形態素の各々について、入力形態素を入力表記の参照キーとして書き換え候補DB38の書き換え候補テーブルを参照し、書き換え候補集合を取得する。
ステップS304では、ステップS302で取得した書き換え候補集合を用いて、入力形態素の各々に対して書き換え候補を展開してラティスを生成し、ラティス生成処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る文書き換え装置によれば、作成された書き換え候補テーブルを用いて辞書引きを行い、ラティスを生成し、生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル26における部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成することにより、特定のドメインテキストの分布に合わせた文の書き換えができる。
<本発明の第2の実施の形態に係る文書き換え装置の構成>
次に、本発明の第2の実施の形態に係る文書き換え装置の構成について説明する。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。また、第2の実施の形態では、言語処理として翻訳処理を行う場合を例に説明するが、これに限定されるものではなく、構文解析処理、要約処理等の他の言語処理を行うようにしてもよい。
図11に示すように、本発明の第2の実施の形態に係る文書き換え装置200は、CPUと、RAMと、書き換え候補テーブル作成処理ルーチン及び文書き換え処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この文書き換え装置200は、機能的には図11に示すように入力部10と、演算部220と、出力部90とを備えている。
演算部220は、書き換え候補獲得部22と、前処理部24と、言語モデル26と、本処理モデル228と、本処理部260とを含んで構成されている。
本処理モデル228は、原言語の文を目的言語の文へ翻訳するための予め学習された翻訳モデルである。翻訳モデルは原言語を英語、目的言語を日本語として学習されているものとする。なお、翻訳モデルは外部の翻訳システム等を用いるようにしてもよい。
本処理部260は、前処理部24のNbest解生成部50によって生成された書き換え文に対し、本処理モデル228を用いて翻訳処理を行い、翻訳結果を出力部90に出力する。例えば、書き換え前の文が「おはよーはらへったー」であれば、翻訳結果は「Whoa Hayo belly heh was over」となるが、生成された書き換え文「おはようおなかすいた」であれば、翻訳結果は「Good morning hungry」となり、適切な翻訳が行える。また、書き換え前の文が「テレビみちゃった」であれば、翻訳結果は「I chat Terebimi」となるが、生成された書き換え文「テレビみた」であれば、翻訳結果は「I saw TV」となる。このように言語モデルの表記と一致せず、そのままではうまく翻訳できない文も、書き換えにより読みやすい翻訳結果を得ることが可能となる。
<本発明の第2の実施の形態に係る文書き換え装置の作用>
次に、本発明の第2の実施の形態に係る文書き換え装置200の作用について説明する。なお、第1の実施の形態と同様の作用となる箇所については同一符号を付して説明を省略する。
図12に示すように、文書き換え処理ルーチンのステップS400では、ステップS104で生成された書き換え文に対し、本処理モデル228を用いて翻訳処理を行い、翻訳結果を出力部90に出力する。
なお、本発明の第2の実施の形態に係る文書き換え装置200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係る文書き換え装置によれば、作成された書き換え候補テーブルを用いて辞書引きを行い、ラティスを生成し、生成されたラティスと、ラティスにおける各ノードに対応する書き換え候補の意味類似度と、言語モデル26における部分文字列の各々の言語モデルスコアとに基づいて、ラティスのエッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、入力された文字列の書き換え文として生成し、生成された書き換え文に対し、本処理モデル228を用いて翻訳処理を行うことにより、特定のドメインテキストの分布に合わせた文の書き換えを行って、翻訳処理ができる。
また、自動獲得した複数の書き換え候補とその組み合わせの中から、自動評価に基づいて最適な候補を選択することができる。例えばルールで設定する場合、「みちゃった」→「見た」などの一意の書き換えを規定し、複数の候補の順序を付ける場合はそれぞれ順序関数を規定する必要があるが、本実施の形態の技術では、「みちゃった」→「見た」「見ちゃった」「見たよ」などの中から目的コーパスの言語モデルという基準に基づき最も適した候補を出力することができる。
また、目的コーパスを変更することで、入力した文字列を目的にあった表記に書き換えることが可能である。例えば目的コーパスを新聞にすれば新聞表記に最も合った書き換え候補を出力し、口語調のコーパスにすれば口語調の書き換え候補の出力を行うことができる。これらを一つ一つルール化するのではなく、目的コーパスの言語モデルを差し替えるだけで実現することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20、220 演算部
22 書き換え候補獲得部
24 前処理部
26 言語モデル
30 辞書候補獲得部
32 同義フレーズ獲得部
34 同義述部獲得部
36 類似度設定部
40 ラティス生成部
42 形態素解析部
44 書き換え候補テーブル参照部
46 書き換え候補ラティス生成部
50 Nbest解生成部
90 出力部
100、200 文書き換え装置
228 本処理モデル
260 本処理部

Claims (6)

  1. 入力された文字列に対して、予め作成された、入力表記と、該入力表記に対する複数の書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、目的コーパスに含まれ、かつ、書き換え先となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するNbest解生成部と、
    を含む、予め定められた言語処理に対応する前処理を行うための文書き換え装置であって、前記目的コーパスは、前記書き換え先となる特定のドメインテキストと、該ドメインテキストに対し、前記予め定められた言語処理を行った際の正解出力と、からなるものであり、前記予め定められた言語処理は、前記目的コーパスに基づいて学習されたものである文書き換え装置。
  2. 前記Nbest解生成部は、前記ラティスの前記エッジからなる各経路の部分文字列の各々について、前記意味類似度のスコアと、前記言語モデルスコアに基づくスコアと、前記ノードの部分文字列が書き換えられたか否かを表す書き換えフラグに基づくスコアとを足し合わせたスコアを求め、前記各経路について、前記部分文字列の各々のスコアを足し合わせた総スコアを算出し、前記総スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成する請求項1に記載の文書き換え装置。
  3. 前記Nbest解生成部によって生成された書き換え文に対し、前記予め定められた言語処理を行う本処理部を更に含む請求項1又は請求項2に記載の文書き換え装置。
  4. ラティス生成部が、入力された文字列に対して、予め作成された、入力表記と、該入力表記に対する複数の書き換え候補と、入力表記に対する書き換え候補の意味類似度との組み合わせの各々からなる書き換え候補テーブルを用いて辞書引きを行い、前記書き換え候補を含む各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
    Nbest解生成部が、前記ラティス生成部によって生成された前記ラティスと、前記意味類似度と、目的コーパスに含まれ、かつ、書き換え先となる特定のドメインテキストから作成された言語モデルにおける部分文字列の各々の言語モデルスコアとに基づいて、前記ラティスの前記エッジからなる各経路のうち、スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成するステップと、
    を含む、予め定められた言語処理に対応する前処理を行うための文書き換え方法であって、前記目的コーパスは、前記書き換え先となる特定のドメインテキストと、該ドメインテキストに対し、前記予め定められた言語処理を行った際の正解出力と、からなるものであり、前記予め定められた言語処理は、前記目的コーパスに基づいて学習されたものである文書き換え方法。
  5. 前記Nbest解生成部が生成するステップは、前記ラティスの前記エッジからなる各経路の部分文字列の各々について、前記意味類似度のスコアと、前記言語モデルスコアに基づくスコアと、前記ノードの部分文字列が書き換えられたか否かを表す書き換えフラグに基づくスコアとを足し合わせたスコアを求め、前記各経路について、前記部分文字列の各々のスコアを足し合わせた総スコアを算出し、前記総スコアが最大となる経路が表す文字列を、前記入力された文字列の書き換え文として生成する請求項4に記載の文書き換え方法。
  6. コンピュータを、請求項1〜請求項3のいずれか1項に記載の文書き換え装置の各部として機能させるためのプログラム。
JP2016008293A 2016-01-19 2016-01-19 文書き換え装置、方法、及びプログラム Active JP6564709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016008293A JP6564709B2 (ja) 2016-01-19 2016-01-19 文書き換え装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016008293A JP6564709B2 (ja) 2016-01-19 2016-01-19 文書き換え装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017129994A JP2017129994A (ja) 2017-07-27
JP6564709B2 true JP6564709B2 (ja) 2019-08-21

Family

ID=59396237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016008293A Active JP6564709B2 (ja) 2016-01-19 2016-01-19 文書き換え装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6564709B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121697B (zh) * 2017-11-16 2022-02-25 北京百度网讯科技有限公司 一种文本改写的方法、装置、设备和计算机存储介质
JP7176443B2 (ja) * 2019-03-11 2022-11-22 トヨタ自動車株式会社 レコメンド文生成装置、レコメンド文生成方法、及びレコメンド文生成プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9460708B2 (en) * 2008-09-19 2016-10-04 Microsoft Technology Licensing, Llc Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition
US20130054224A1 (en) * 2011-08-30 2013-02-28 Dublin City University Method and system for enhancing text alignment between a source language and a target language during statistical machine translation

Also Published As

Publication number Publication date
JP2017129994A (ja) 2017-07-27

Similar Documents

Publication Publication Date Title
JP4961755B2 (ja) 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
US20140163951A1 (en) Hybrid adaptation of named entity recognition
Salloum et al. Elissa: A dialectal to standard Arabic machine translation system
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
Alam et al. Sequence to sequence networks for Roman-Urdu to Urdu transliteration
Richter et al. Korektor–a system for contextual spell-checking and diacritics completion
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
JP6535607B2 (ja) 前処理モデル学習装置、方法、及びプログラム
CN109815497B (zh) 基于句法依存的人物属性抽取方法
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム
CN112766002A (zh) 基于动态规划的文本对齐方法及系统
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
Mager et al. Low-resource neural character-based noisy text normalization
JP6478382B2 (ja) 翻訳装置
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Cerón-Guzmán et al. Lexical normalization of Spanish tweets
Astuti et al. Code-Mixed Sentiment Analysis using Transformer for Twitter Social Media Data
CN114896973A (zh) 一种文本处理方法、装置及电子设备
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Saini et al. Relative clause based text simplification for improved english to hindi translation
Béchara Statistical post-editing and quality estimation for machine translation systems
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
Loáiciga et al. It-disambiguation and source-aware language models for cross-lingual pronoun prediction
Jose et al. Lexical normalization model for noisy SMS text

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190729

R150 Certificate of patent or registration of utility model

Ref document number: 6564709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150