JP7327523B2

JP7327523B2 - 生成装置、生成方法及び生成プログラム

Info

Publication number: JP7327523B2
Application number: JP2021572206A
Authority: JP
Inventors: 厚徳小川; 直弘俵; 成樹苅田; マークデルクロア
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2023-08-16
Anticipated expiration: 2040-01-22
Also published as: JPWO2021149206A1; WO2021149206A1; US20230032372A1

Description

本発明は、生成装置、生成方法及び生成プログラムに関する。

ニューラルネットワークによる音声認識が知られている。また、音声認識では、音響モデル及び言語モデルが用いられる。音声認識は本質的にドメイン依存性が高い技術であるため、自然発話やマイナー言語等、利用できる資源が少ないドメインにおいては、特に言語モデルの学習用データとなるテキストの確保が難しい場合がある。

これに対し、言語モデルの学習用データを得るための手法として、例えば、ウェブ検索により対象ドメインに関連するテキストデータを収集する手法や、対象ドメインの少量のテキストデータに加えて、十分な資源のある他のドメインの大量のテキストデータを用いる手法（例えば、非特許文献１又は非特許文献２を参照）が知られている。

A. Stolcke, "SRILM - An extensible language modeling toolkit," in Proc. ICSLP, 2002, pp. 901-904. B.-J. Hsu, "Generalized linear interpolation of language models," in Proc. ASRU, 2007, pp. 549-552.

しかしながら、従来の手法には、言語モデルの精度を高めるような学習用データの増強を行うことが困難な場合があるという問題がある。例えば、ウェブ検索により対象ドメインに関連するテキストデータを収集する手法には、収集したデータを注意深く整形する必要があるという問題がある。また、十分な資源のある他のドメインの大量のテキストデータを用いる手法には、対象ドメインと他のドメインがどの程度近いかに効果が依存するという問題がある。

上述した課題を解決し、目的を達成するために、生成装置は、第１のテキストに含まれる第１の単語に対応する第２の単語を、所定のドメインに属する複数の単語の中から抽出する抽出部と、前記第１の単語の品詞に関する所定の条件が満たされているか否かを判定する判定部と、前記判定部により前記条件が満たされていると判定された場合に、前記第１のテキストの前記第１の単語を前記第２の単語に入れ換えた第２のテキストを生成する生成部と、を有することを特徴とする。

本発明によれば、言語モデルの精度を高めるような学習用データの増強を行うことができる。

図１は、第１の実施形態に係る生成装置の構成例を示す図である。図２は、第１の実施形態に係る生成装置の処理の流れを説明する図である。図３は、双方向LSTMを説明する図である。図４は、条件の判定について説明する図である。図５は、入力文及び出力文の例を示す図である。図６は、第１の実施形態に係る生成装置の処理の流れを示すフローチャートである。図７は、文を生成する処理の流れを示すフローチャートである。図８は、実験結果を示す図である。図９は、データセットの詳細を示す図である。図１０は、第２の実施形態に係る生成装置の構成例を示す図である。図１１は、第２の実施形態に係る生成装置の処理の流れを示すフローチャートである。図１２は、第２の実施形態に係る生成装置の処理の流れを説明する図である。図１３は、生成プログラムを実行するコンピュータの一例を示す図である。

以下に、本願に係る生成装置、生成方法及び生成プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

以下の各実施形態では、単語を並べた単語列を、文又はテキストと呼ぶ。また、文に含まれる単語の数を、文の長さと定義する。また、文において単語が現れる位置を時刻と定義する。例えば、「私は料理が好き」という文は５つの単語からなるため、長さは５である。また、当該文の時刻１の単語は、「私」である。また、当該文の時刻２の単語は「は」である。また、当該文の時刻３の単語は「料理」である。また、文における単語は、形態素解析等により特定される。

ここで、実施形態では、文及び単語は、ドメインに分類されるものとする。例えば、ドメインの分類方法は、主題や分野等の、文の内容を基準とするものであってもよいし、常体（「だ・である調」）、敬体（「です・ます調」）、講義体、口上体、会話体のような文体を基準とするものであってもよい。また、ドメインの分類方法は、上記の基準を組み合わせるものであってもよい。

さらに、ドメインは、「スタイル」及び「カテゴリ」等と言い換えられてもよい。また、ドメインは、人手により分類されたものであってもよいし、分類のためのモデルを使って自動的に分類されたものであってもよい。

実施形態の生成装置は、所定のドメインの学習用データを増強することを目的とするものである。生成装置は、第１のドメインのテキストを入力とし、第２のドメインのテキストを生成する。例えば、生成装置は、第２のドメインのテキストが十分に用意できない場合等に、大量に入手可能な第１のドメインのテキストを使って、第２のドメインのテキストを生成する。さらに、生成装置は、生成したテキストを学習用データに加えることで、学習用データを増強し、第２のドメインの言語モデルの精度向上に資することができる。

実施形態の生成装置は、教師なしでのテキストのドメインを変換する。本明細書では、教師なしとは、変換元のドメインのテキストとペアになる変換先のドメインのテキストを用いないことを意味するものとする。これにより、生成装置によれば、大量のテキストが存在するドメインのテキストを基に、入手が難しいドメインのテキストデータを増強することができる。

なお、言語モデルは、例えばN-gram又はニューラルネットワーク等である。N-gramは、文において、ある時刻の単語の出現確率が、過去のN-1単語に依存して決まると仮定して、大量の電子化された文章を形態素解析した結果を基にある時刻における各単語の出現確率をモデル化したものである。なお、過去の１単語に依存するモデル（N=2）はバイグラムと呼ばれる。また、過去の２単語に依存するモデル（N=3）は、トライグラムと呼ばれる。N-gramは、これらを一般化したものである。

［第１の実施形態］
［第１の実施形態の構成］
まず、図１を用いて、第１の実施形態に係る生成装置の構成について説明する。図１は、第１の実施形態に係る生成装置の構成例を示す図である。図１に示すように、生成装置１０は、インタフェース部１１、記憶部１２及び制御部１３を有する。

インタフェース部１１は、データの入出力のためのインタフェースである。インタフェース部１１は、例えばマウスやキーボード等の入力装置を介してデータの入力を受け付ける。また、インタフェース部１１は、例えばディスプレイ等の出力装置にデータを出力する。

記憶部１２は、HDD（Hard Disk Drive）、SSD（Solid State Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、RAM（Random Access Memory）、フラッシュメモリ、NVSRAM（Non Volatile Static Random Access Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１２は、生成装置１０で実行されるOS（Operating System）や各種プログラムを記憶する。記憶部１２は、変換先ドメインテキストデータ１２１、言語モデル情報１２２、入れ換えモデル情報１２３、辞書情報１２４及び制約条件情報１２５を記憶する。

変換先ドメインテキストデータ１２１は、変換先ドメインに分類されたテキストの集合である。変換先のドメインは、テキストの収集が困難なドメインであってもよい。

言語モデル情報１２２は、N-gram等の言語モデルを構築するためのパラメータ等である。入れ換えモデル情報１２３は、後述する入れ換えモデルを構築するためのパラメータ等である。入れ換えモデルが双方向LSTM（long short-term memory）であれば、入れ換えモデル情報１２３は、各層の重み等である。

辞書情報１２４は、単語にインデックスを付したデータである。辞書情報１２４は、変換元及び変換先の両方のドメインの単語を含む。

制約条件情報１２５は、ある単語を変換先のドメイン文の生成に用いるか否かを判定するための条件である。制約条件情報１２５は、例えば下記の制約Ａ及び制約Ｂを含む。
制約Ａ：変換元の単語の品詞が助詞又は助動詞である。
制約Ｂ：変換元の単語の品詞と変換先の単語の品詞が異なる。

制御部１３は、生成装置１０全体を制御する。制御部１３は、例えば、CPU（Central Processing Unit）、MPU（Micro Processing Unit）等の電子回路や、ASIC（Application Specific Integrated Circuit）、FPGA（Field Programmable Gate Array）等の集積回路である。また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、学習部１３１、抽出部１３２、判定部１３３及び生成部１３４を有する。ここで、図２を参照しつつ制御部１３に含まれる各部の詳細を説明する。図２は、生成装置の処理の流れを説明する図である。

学習部１３１は、変換先ドメインテキストデータ１２１を用いて、言語モデルの学習を行う。学習部１３１は、学習済みの言語モデルのパラメータ等の情報を言語モデル情報１２２として記憶部１２に格納しておく。

抽出部１３２は、第１のテキストに含まれる第１の単語に対応する第２の単語を、所定のドメインに属する複数の単語の中から抽出する。図２に示すように、抽出部１３２は、入れ換えモデル情報１２３を基に構築した入れ換えモデルに変換元ドメインの文を入力する。そして、入れ換えモデルの出力結果を基に、辞書情報１２４に含まれる複数の単語から候補の単語を抽出する。なお、変換元の文は、第１のテキストの一例である。

抽出部１３２は、入れ換えモデルとして双方向LSTMを用いて単語を抽出する（参考文献１：S. Kobayashi, “Contextual augmentation: Data augmentation by words with paradigmatic relations,” in Proc. NAACL-HLT, 2018, pp. 452-457.）。図３は、双方向LSTMを説明する図である。図３に示すように、抽出部１３２は、第１のテキストを、ドメインを指定するラベルとともに双方向LSTMに入力して得られる単語を第２の単語として抽出する。

入れ換えモデルは、長さTのテキストW=w_1:T=w₁;,…,w_Tが与えられたとき、各時刻t=1,…,Tにおける、ドメイン依存の単語確率分布を推定する。まず、抽出部１３２は、与えられたテキストから、時刻tについての、前向きの部分単語列w_1:t-1= w₁,…, w_t-1、及び後向きの部分単語列w_T:t+1= w₁,…, w_t-1を生成し、入れ替えモデルに与える。入れ替えモデルは、fwlstm（前向きLSTM:forward LSTM）層及びbwlstm（後向きLSTM:backward LSTM）層において、前向きの部分単語列及び後向きの部分単語列から隠れ状態ベクトルを再帰的に推定し、時刻t-1及び時刻t+1における隠れ状態ベクトルをそれぞれ（１）式及び（２）式のように得る。

さらに、入れ換えモデルは、concat層において、各隠れ状態ベクトルとスカラ値dを（３）式のように連結する。

ここでdは2値のドメインラベルである。本明細書では、d=0が講義（Lecture）であり、d=1が会話（Conversation）に対応するものとして説明する。また、ここでは、d=0が変換元ドメインを表し、d=1が変換先ドメインを表すものとする。h^d _tは時刻tにおけるドメイン依存隠れ状態ベクトルである。さらに、入れ換えモデルは、h^d _tを1層のlinear層に入力し、（４）式のようにz^d _tを得る。さらに、入れ換えモデルは、z^d _tをsoftmax層に入力し、（５）式のように時刻tにおけるドメイン依存単語確率分布Pを得る。

ここで、^w_tは時刻tにおける予測単語である。また、idx(^w_t)は、辞書情報１２４における^w_tのインデックスである。また、W＼{w_t}は、文Wからw_tを除いた単語列である（ただし、＼はバックスラッシュ）。

入れ換えモデルの学習は変換元及び変換先の両ドメインの学習用データを用いて行うものとする。入れ換えモデルの学習では、まずドメインラベルを用いない事前学習が行われ、次にドメインラベルを用いたfine-tuningが行われる。ドメインラベルを用いた学習により、入れ換えモデルは、ドメイン依存の言葉使いを獲得する。例えば図３に示すように、前向き部分単語列w_1:t-1={…,私,は}と後向き単語列w_T:t+1={…,好き,が}が与えられたとき、d=0（ドメインが講義）であれば、時刻tにおいて、「研究」、「開発」、「DNN」等の単語に高い確率が与えられ、逆にd=1（ドメインが会話）であれば、「映画」、「ゴルフ」、「料理」等の単語に高い確率が与えられる。

抽出部１３２は、講義ドメインの文を会話ドメインの文に変換する際には、講義ドメイン（d=0）である文を入れ換えモデルに入力し、変換先のドメインラベルを会話（d=1）と指定する。これにより、入力された講義ドメインの文を基に、各時刻における単語を講義ドメインのものから会話ドメインのものに置き換えられた文が生成可能になる。

このとき、抽出部１３２が、各時刻において単語確率分布から最尤の単語を選択すると、１つの講義ドメインの文からは１つの会話ドメインの文のみが生成可能であり、データの増強が行えない。そこで１つの講義ドメインの文から複数の会話ドメインの文を生成してデータの増強を行うために、抽出部１３２は、Gumbel-max trickに基づくサンプリング手法を導入する。

具体的には、抽出部１３２は、Gumbel分布から語彙サイズ分の値をサンプルし、それらを入れ換えモデルで推定される単語確率分布に加算して得られた新たな分布から最尤の単語を選択する。抽出部１３２は、このサンプリングを複数回行うことで、１つの講義ドメインの文から複数の会話ドメインの文を生成することが可能になる。

しかし、上記の手順で得られた単語を用いて生成したテキストを言語モデルの学習用データとして使っても、言語モデルのパープレキシティ削減及び音声認識精度の改善が得られないことが予備実験により分かった。さらに、分析の結果、生成した文では文法的な正しさが保証されないことが原因であることが分かった。

そこで、本実施形態の生成装置１０は、生成された文の文法的な正しさを保証するために、判定部１３３によって条件を満たすと判定された単語を使ってテキストを生成する。判定部１３３は、第１の単語の品詞に関する所定の条件が満たされているか否かを判定する。図２に示すように、判定部１３３は、制約条件情報１２５を参照して判定を行う。

判定部１３３は、第１の単語の品詞があらかじめ定められた品詞であり、かつ第１の単語の品詞と第２の単語の品詞が同じである場合に、条件が満たされていると判定する。なお、図３では、変換元の文の時刻tの単語である「研究」は、第１の単語の一例である。また、会話ドメインの単語のうち、確率が高い「映画」、「ゴルフ」、「料理」等が第２の単語になる可能性が高い。ただし、変換元の文の内容や入れ換えモデルの性能によっては、講義ドメインに属するあらゆる品詞のあらゆる単語が第２の単語になり得る。

例えば、前述の制約Ａ及び制約Ｂが採用される場合、判定部１３３は、第１の単語の品詞が助詞及び助動詞のいずれでもなく、かつ第１の単語の品詞と第２の単語の品詞が同じである場合に、条件が満たされていると判定する。例えば、判定部１３３は、変換元の文が日本語である場合にこのような条件を適用することができる。

生成部１３４、判定部１３３により条件が満たされていると判定された場合に、第１のテキストの第１の単語を第２の単語に入れ換えた第２のテキストを生成する。生成部１３４は、第１のテキストの少なくとも一部の単語を入れ換えることにより第２のテキストを生成する。

判定部１３３及び生成部１３４は、制約条件情報１２５の条件を満たさないようなテキストを後処理により戻すようにしてもよい。この場合、まず、生成部１３４は、抽出部１３２によって抽出された単語を使って変換先ドメインのテキストを生成する。そして、判定部１３３は、生成された変換先ドメインのテキストと変換元のテキストとを比較し、単語の入れ換えが発生している箇所について、変換元の単語と変換先の単語が条件を満たすか否かを判定する。そして、判定部１３３が条件を満たさないと判定した場合、生成部１３４は、該当箇所の変換先の単語を変換元の単語に戻す処理を行う。

また、生成部１３４によるテキスト生成の前に判定部１３３が判定を行い、判定部１３３により条件が満たされていないと判定された場合、生成部１３４は単語の入れ換えを行わないようにしてもよい。また、例えば上記の制約Ａ（変換元の単語の品詞が助詞又は助動詞である。）については、変換元の単語を見れば成り立つか否かが明らかなので、抽出部１３２による単語の抽出の前に判定部１３３が判定を行うようにしてもよい。

図４を用いて、制約Ａ及び制約Ｂを用いて実際にテキストの生成を行った場合の例を説明する。図４は、条件の判定について説明する図である。ここでは、制約Ａ又は制約Ｂのいずれかが成り立つ場合、判定部１３３は、単語を入れ換えるための条件が満たされていないと判定する。逆に、制約Ａ及び制約Ｂのいずれも成り立たない場合、判定部１３３は、単語を入れ換えるための条件が満たされていると判定する。

図４に示すように、変換元ドメインの文は、「我々は様々な実験を行いました」である。このとき、抽出部１３２は、「我々」、「は」、「様々な」、「実験」、「を」、「行い」、「まし」、「た」のそれぞれに対し、「私達」、「全く」、「面白い」、「料理」、「を」、「作り」、「です」、「た」という単語を抽出したものとする。

まず、「我々」の品詞は、助詞でも助動詞でもなく代名詞である。また、「我々」と「私達」はいずれも代名詞である。このため、判定部１３３は、「我々」を「私達」に入れ換えることについて、条件が満たされていると判定する。

次に、「は」の品詞は助詞である。このため、制約Ａが成り立ち、判定部１３３は、「は」を「全く」に入れ換えることについて、条件が満たされていないと判定する。

さらに、「様々な」の品詞は、助詞でも助動詞でもなく連体詞である。しかし、「面白い」の品詞は形容詞である。このように、「様々な」と「面白い」では品詞が異なるため、制約Ｂが成り立ち、判定部１３３は、「様々な」を「面白い」に入れ換えることについて、条件が満たされていないと判定する。

この結果、生成部１３４は、判定部１３３による判定結果を受けて、最終的に「私達は様々な料理を作りました」という出力文を生成する。図５は、入力文及び出力文の例を示す図である。図５のSourceは変換元のテキストであり、Generatedは生成部１３４により生成されたテキストである。

［第１の実施形態の処理の流れ］
図６は、第１の実施形態に係る生成装置の処理の流れを示すフローチャートである。まず、生成装置１０は、変換先ドメインのテキストデータを使って言語モデルを学習する（ステップＳ１０）。次に、生成装置１０は、変換元ドメインの文から変換先ドメインの文を生成する（ステップＳ２０）。そして、生成装置１０は、生成した文を出力する（ステップＳ３０）。

図７を用いて、生成装置１０が文を生成する処理（図６のステップＳ２０）の流れを説明する。図７は、文を生成する処理の流れを示すフローチャートである。図７に示すように、まず、生成装置１０は、tの初期値を1とする（ステップＳ２０１）。

次に、生成装置１０は、変換元の文から前向き及び後向きの部分単語列を生成する（ステップＳ２０２）。そして、生成装置１０は、各部分単語列から、時刻ｔ-1及び時刻ｔ+1の隠れ状態ベクトルを計算する（ステップＳ２０３）。さらに、生成装置１０は、各隠れ状態ベクトルから、時刻tの変換先のドメインの単語確率分布を計算する（ステップＳ２０４）。

ここで、生成装置１０は、単語確率分布を基に、候補単語を抽出する（ステップＳ２０５）。そして、生成装置１０は、候補単語のうち、制約条件を満たす単語を生成文中の一単語として出力する（ステップＳ２０６）。さらに、生成装置１０は、tを1だけ増加させる（ステップＳ２０７）。tが変換元の文の長さTに達している場合（ステップＳ２０８、Ｙｅｓ）、生成装置１０は処理を終了する。一方、tがTに達していない場合（ステップＳ２０８、Ｎｏ）、生成装置１０はステップＳ２０２に戻り処理を繰り返す。

［第１の実施形態の効果］
これまで説明してきたように、抽出部１３２は、第１のテキストに含まれる第１の単語に対応する第２の単語を、所定のドメインに属する複数の単語の中から抽出する。判定部１３３は、第１の単語の品詞に関する所定の条件が満たされているか否かを判定する。生成部１３４は、判定部１３３により条件が満たされていると判定された場合に、第１のテキストの第１の単語を第２の単語に入れ換えた第２のテキストを生成する。このように、生成装置１０は、学習用データを増強したいドメインの単語があれば、当該ドメインのテキストデータを自動的に生成することができる。このため、本実施形態によれば、言語モデルの精度を高めるような学習用データの増強を行うことができる。

判定部１３３は、第１の単語の品詞があらかじめ定められた品詞であり、かつ第１の単語の品詞と第２の単語の品詞が同じである場合に、条件が満たされていると判定する。単語の入れ換えの際に不用意に品詞を変更すると、テキストが文法的に破たんしてしまうことが考えられる。本実施形態では、品詞に関する条件を定めておくことで、変換後のテキストが文法的に正しくなくなることを抑止することができる。

判定部１３３は、第１の単語の品詞が助詞及び助動詞のいずれでもなく、かつ第１の単語の品詞と第２の単語の品詞が同じである場合に、条件が満たされていると判定する。特に日本語では、助詞や助動詞を不用意に変更すると、テキストが文法的に破たんしてしまうことが考えられる。本実施形態では、助詞及び助動詞を入れ換えないようにすることで、変換後のテキストが文法的に正しくなくなることを抑止することができる。

抽出部１３２は、所定のドメインに属する複数の単語の確率分布に、Gumbel分布からサンプルした複数の値を加算することにより、１つの第１の単語に対し、複数の単語を第２の単語として抽出する。このため、本実施形態によれば、１つのテキストから、所望するドメインの複数のテキストを生成することができる。

［実験結果］
第１の実施形態の有効性を検証する実験について説明する。実験では、CSJ講義音声コーパス（参考文献２：K. Maekawa, “Corpus of spontaneous Japanese: its design and evaluation,” in Proc. Workshop on Spontaneous Speech Processing and Recognition (SSPR), 2003, pp. 7-12.）（以下、CSJ）が変換元ドメインのテキストデータとして用いられた。また、NTTミーティング（複数人自由会話）音声コーパス（参考文献３：T. Hori, S. Araki, T. Yoshioka, M. Fujimoto, S. Watanabe, T. Oba, A. Ogawa, K. Otsuka, D. Mikami, K. Kinoshita, T. Nakatani, A. Nakamura, and J. Yamato, “Low-latency real-time meeting recognition and understanding using distant microphones and omni-directional camera,” IEEE TASLP, vol. 20, no. 2, pp. 499-513, Feb. 2012.）（以下、NTT）が変換先ドメインのテキストデータとして用いられた。

実験では、実施形態の手法により、CSJをNTTの会話ドメインに変換し、かつ、そのデータ量を1, 10, 20, 50, 100倍とした５つのデータを生成した（GenCSJx{1, 10, 20, 50, 100}と表記）。

また、NTT、CSJ及び、GenCSJx{1, 10, 20, 50, 100}をそれぞれ用いて、７つのtrigram言語モデルを学習した（以下では学習用データ名によりtrigram言語モデルを表記）。加えて、NTTとCSJをNTT開発データに対するPPLを基準に重み加算したtrigram言語モデル(NTT+CSJ、重みは0.3:0.7)、NTT、CSJ、GenCSJx100を重み加算したtrigram言語モデル(NTT+CSJ+GenCSJx100、重みは0.5:0.2:0.3)を作成した（重みの計算手順は非特許文献１及び２を参照）。

以上の９つのtrigram言語モデルのNTT開発、評価両データに対するPPL、OOV（out-of-vocabulary rate：未知語率）、WER（word error rate：単語誤り率）を求めた。なお、PPL、OOV、WERとも小さい値の方が精度が良いことを示す。

図８は、実験結果を示す図である。また、図９は、データセットの詳細を示す図である。図８の、2.CSJと3.～7.GenCSJx{1, 10, 20, 50, 100}の比較により、提案手法の有効性が確認できる（2.と比較して3.～7.の方が低いPPL,OOV,WERを示している）。2.CSJと3.GenCSJx1のデータを比較したところ、22.5%の単語が入れ換えられていることが分かった。さらに3.～7.は、1.NTTと比べてPPLは高いものの、OOVとWERは低い値を示している。また3.～7.内での比較により、大量データを生成することの効果が確認できる。8.NTT+CSJと9.NTT+CSJ+GenCSJx100の比較により、提案手法により最終的なWERの低下が得られることが確認できる。

［第２の実施形態］
第１の実施形態では、例えば図５の３段目に示すように、「何となくペットの恵みを届けさせる」といった、文法的には正しいが、意味的には正しいとはいえないテキストが生成される場合がある。これは、各単語の入れ換えは独立に行われ、その前後関係(文脈)が考慮されないためである。そこで、第２の実施形態では、生成装置は、生成したテキストを、意味的な正しさを考慮してさらに絞り込む。

［第２の実施形態の構成］
図１０を用いて、第２の実施形態に係る生成装置の構成について説明する。図１０は、第２の実施形態に係る生成装置の構成例を示す図である。なお、図１０において、第１の実施形態と同様の部分については、図１等と同様の符号を付し説明を省略する。図１０に示すように、生成装置１０ａは、第１の実施形態と生成装置１０と同様の処理部に加え、計算部１５３及び選択部１３６を有する。

計算部１３５は、生成部１３４によって生成された複数の第２のテキストのそれぞれのPPL（Perplexity）を、言語モデルを用いて計算する。言語モデルは、言語モデル情報１２２から構築されるものであってもよい。そして、選択部１３６は、複数の第２のテキストの中から、計算部よって計算されたPPLの低さが所定の基準を満たすテキストを選択する。例えば、選択部１３６は、PPLが最も低いテキストを選択してもよいし、PPLが低い順に所定の数のテキストを選択してもよい。

図１１は、生成装置の処理の流れを説明する図である。図１１の例では、第１の実施形態と同様に、生成部１３４が100文を生成するものとする。そして、計算部１３５は、100文について、学習済みの言語モデルを用いてPPLを計算する。さらに、選択部１３６は、生成部１３４が生成した100文の中からPPLが低い順に10文を選択する。

［第２の実施形態の処理の流れ］
図１２は、第２の実施形態に係る生成装置の処理の流れを示すフローチャートである。まず、生成装置１０は、変換先ドメインのテキストデータを使って言語モデルを学習する（ステップＳ１０）。次に、生成装置１０は、変換元ドメインの文から変換先ドメインの文を生成する（ステップＳ２０）。

ここで、生成装置１０は、生成された文のPPLを言語モデルを使って計算する（ステップＳ４０）。さらに、生成装置１０は、生成された文の中から、PPLに関する条件を満たす文を選択する（ステップＳ５０）。そして、生成装置１０は、選択した文を出力する（ステップＳ６０）。

［第２の実施形態の効果］
これまで説明してきたように、計算部１３５は、生成部１３４によって生成された複数の第２のテキストのそれぞれのPPL（Perplexity）を、言語モデルを用いて計算する。選択部１３６は、複数の第２のテキストの中から、計算部よって計算されたPPLの低さが所定の基準を満たすテキストを選択する。PPLが低いということは、単語が無理なく繋がっていること、すなわち、意味的に正しいことを示している。このため、本実施形態によれば、文法的に正しく、かつ意味的にも正しいテキストを得ることができる。

［その他の実施形態］
制約条件は、テキストの言語によって異なるものであってもよい。例えば、テキストの言語が英語等である場合、判定部１３３は、第１の単語の品詞がparticle（不変化詞、小辞、接頭辞、接尾辞）及びauxiliary verb（助動詞）のいずれでもなく、かつ第１の単語の品詞と第２の単語の品詞が同じである場合に、条件が満たされていると判定することができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、生成装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の生成処理を実行する生成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の生成プログラムを情報処理装置に実行させることにより、情報処理装置を生成装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal Handyphone System）等の移動体通信端末、さらには、PDA（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、生成装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の生成処理に関するサービスを提供する生成サーバ装置として実装することもできる。例えば、生成サーバ装置は、変換元ドメインのテキストを入力とし、変換先ドメインのテキストを出力とする生成サービスを提供するサーバ装置として実装される。この場合、生成サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の生成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１３は、生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、CPU１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ROM（Read Only Memory）１０１１及びRAM１０１２を含む。ROM１０１１は、例えば、BIOS（BASIC Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、生成装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、生成装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSDにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、CPU１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して、上述した実施形態の処理を実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してCPU１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（LAN（Local Area Network）、WAN（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してCPU１０２０によって読み出されてもよい。

１０、１０ａ生成装置
１１インタフェース部
１２記憶部
１３制御部
１２１変換先ドメインテキストデータ
１２２言語モデル情報
１２３入れ換えモデル情報
１２４辞書情報
１２５制約条件情報
１３１学習部
１３２抽出部
１３３判定部
１３４生成部
１３５計算部
１３６選択部

Claims

変換元のドメインのテキスト、及び指定された変換先のドメインのラベルを基に、前記テキストに含まれる単語のそれぞれに対する、前記変換先のドメインに属する複数の単語、及び前記複数の単語の確率分布を出力する入れ換えモデルに、第１のドメインの第１のテキストを入力し、第２のドメインのラベルを指定して得られた前記第２のドメインに属する複数の単語の中から、前記複数の単語の確率分布を基に、前記第１のテキストに含まれる第１の単語に対応する第２の単語を選択する抽出部と、
前記第１の単語の品詞に関する所定の条件が満たされているか否かを判定する判定部と、
前記判定部により前記条件が満たされていると判定された場合に、前記第１のテキストの前記第１の単語を前記第２の単語に入れ換えた第２のテキストを生成する生成部と、
を有することを特徴とする生成装置。
前記判定部は、前記第１の単語の品詞があらかじめ定められた品詞であり、かつ前記第１の単語の品詞と前記第２の単語の品詞が同じである場合に、前記条件が満たされていると判定することを特徴とする請求項１に記載の生成装置。
前記判定部は、前記第１の単語の品詞が助詞及び助動詞のいずれでもなく、かつ前記第１の単語の品詞と前記第２の単語の品詞が同じである場合に、前記条件が満たされていると判定することを特徴とする請求項１に記載の生成装置。
前記判定部は、前記第１の単語の品詞がparticle及びauxiliary verbのいずれでもなく、かつ前記第１の単語の品詞と前記第２の単語の品詞が同じである場合に、前記条件が満たされていると判定することを特徴とする請求項１に記載の生成装置。
前記抽出部は、前記第２のドメインに属する複数の単語の確率分布に、Gumbel分布からサンプルした複数の値のそれぞれを加算して得られた複数の確率分布のそれぞれを基に、前記第２の単語を選択することを特徴とする請求項１に記載の生成装置。
前記生成部によって生成された複数の前記第２のテキストのそれぞれのPPL（Perplexity）を、言語モデルを用いて計算する計算部と、
前記第２のテキストの中から、前記計算部よって計算されたPPLの低さが所定の基準を満たすテキストを選択する選択部と、
をさらに有することを特徴とする請求項１に記載の生成装置。
生成装置によって実行される生成方法であって、
変換元のドメインのテキスト、及び指定された変換先のドメインのラベルを基に、前記テキストに含まれる単語のそれぞれに対する、前記変換先のドメインに属する複数の単語、及び前記複数の単語の確率分布を出力する入れ換えモデルに、第１のドメインの第１のテキストを入力し、第２のドメインのラベルを指定して得られた前記第２のドメインに属する複数の単語の中から、前記複数の単語の確率分布を基に、前記第１のテキストに含まれる第１の単語に対応する第２の単語を選択する抽出工程と、
前記第１の単語の品詞に関する所定の条件が満たされているか否かを判定する判定工程と、
前記判定工程により前記条件が満たされていると判定された場合に、前記第１のテキストの前記第１の単語を前記第２の単語に入れ換えた第２のテキストを生成する生成工程と、
を含むことを特徴とする生成方法。
コンピュータを、請求項１から６のいずれか１項に記載の生成装置として機能させるための生成プログラム。