JP7327523B2 - 生成装置、生成方法及び生成プログラム - Google Patents

生成装置、生成方法及び生成プログラム Download PDF

Info

Publication number
JP7327523B2
JP7327523B2 JP2021572206A JP2021572206A JP7327523B2 JP 7327523 B2 JP7327523 B2 JP 7327523B2 JP 2021572206 A JP2021572206 A JP 2021572206A JP 2021572206 A JP2021572206 A JP 2021572206A JP 7327523 B2 JP7327523 B2 JP 7327523B2
Authority
JP
Japan
Prior art keywords
word
text
speech
domain
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021572206A
Other languages
English (en)
Other versions
JPWO2021149206A1 (ja
Inventor
厚徳 小川
直弘 俵
成樹 苅田
マーク デルクロア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021149206A1 publication Critical patent/JPWO2021149206A1/ja
Application granted granted Critical
Publication of JP7327523B2 publication Critical patent/JP7327523B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Description

本発明は、生成装置、生成方法及び生成プログラムに関する。
ニューラルネットワークによる音声認識が知られている。また、音声認識では、音響モデル及び言語モデルが用いられる。音声認識は本質的にドメイン依存性が高い技術であるため、自然発話やマイナー言語等、利用できる資源が少ないドメインにおいては、特に言語モデルの学習用データとなるテキストの確保が難しい場合がある。
これに対し、言語モデルの学習用データを得るための手法として、例えば、ウェブ検索により対象ドメインに関連するテキストデータを収集する手法や、対象ドメインの少量のテキストデータに加えて、十分な資源のある他のドメインの大量のテキストデータを用いる手法(例えば、非特許文献1又は非特許文献2を参照)が知られている。
A. Stolcke, "SRILM - An extensible language modeling toolkit," in Proc. ICSLP, 2002, pp. 901-904. B.-J. Hsu, "Generalized linear interpolation of language models," in Proc. ASRU, 2007, pp. 549-552.
しかしながら、従来の手法には、言語モデルの精度を高めるような学習用データの増強を行うことが困難な場合があるという問題がある。例えば、ウェブ検索により対象ドメインに関連するテキストデータを収集する手法には、収集したデータを注意深く整形する必要があるという問題がある。また、十分な資源のある他のドメインの大量のテキストデータを用いる手法には、対象ドメインと他のドメインがどの程度近いかに効果が依存するという問題がある。
上述した課題を解決し、目的を達成するために、生成装置は、第1のテキストに含まれる第1の単語に対応する第2の単語を、所定のドメインに属する複数の単語の中から抽出する抽出部と、前記第1の単語の品詞に関する所定の条件が満たされているか否かを判定する判定部と、前記判定部により前記条件が満たされていると判定された場合に、前記第1のテキストの前記第1の単語を前記第2の単語に入れ換えた第2のテキストを生成する生成部と、を有することを特徴とする。
本発明によれば、言語モデルの精度を高めるような学習用データの増強を行うことができる。
図1は、第1の実施形態に係る生成装置の構成例を示す図である。 図2は、第1の実施形態に係る生成装置の処理の流れを説明する図である。 図3は、双方向LSTMを説明する図である。 図4は、条件の判定について説明する図である。 図5は、入力文及び出力文の例を示す図である。 図6は、第1の実施形態に係る生成装置の処理の流れを示すフローチャートである。 図7は、文を生成する処理の流れを示すフローチャートである。 図8は、実験結果を示す図である。 図9は、データセットの詳細を示す図である。 図10は、第2の実施形態に係る生成装置の構成例を示す図である。 図11は、第2の実施形態に係る生成装置の処理の流れを示すフローチャートである。 図12は、第2の実施形態に係る生成装置の処理の流れを説明する図である。 図13は、生成プログラムを実行するコンピュータの一例を示す図である。
以下に、本願に係る生成装置、生成方法及び生成プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
以下の各実施形態では、単語を並べた単語列を、文又はテキストと呼ぶ。また、文に含まれる単語の数を、文の長さと定義する。また、文において単語が現れる位置を時刻と定義する。例えば、「私 は 料理 が 好き」という文は5つの単語からなるため、長さは5である。また、当該文の時刻1の単語は、「私」である。また、当該文の時刻2の単語は「は」である。また、当該文の時刻3の単語は「料理」である。また、文における単語は、形態素解析等により特定される。
ここで、実施形態では、文及び単語は、ドメインに分類されるものとする。例えば、ドメインの分類方法は、主題や分野等の、文の内容を基準とするものであってもよいし、常体(「だ・である調」)、敬体(「です・ます調」)、講義体、口上体、会話体のような文体を基準とするものであってもよい。また、ドメインの分類方法は、上記の基準を組み合わせるものであってもよい。
さらに、ドメインは、「スタイル」及び「カテゴリ」等と言い換えられてもよい。また、ドメインは、人手により分類されたものであってもよいし、分類のためのモデルを使って自動的に分類されたものであってもよい。
実施形態の生成装置は、所定のドメインの学習用データを増強することを目的とするものである。生成装置は、第1のドメインのテキストを入力とし、第2のドメインのテキストを生成する。例えば、生成装置は、第2のドメインのテキストが十分に用意できない場合等に、大量に入手可能な第1のドメインのテキストを使って、第2のドメインのテキストを生成する。さらに、生成装置は、生成したテキストを学習用データに加えることで、学習用データを増強し、第2のドメインの言語モデルの精度向上に資することができる。
実施形態の生成装置は、教師なしでのテキストのドメインを変換する。本明細書では、教師なしとは、変換元のドメインのテキストとペアになる変換先のドメインのテキストを用いないことを意味するものとする。これにより、生成装置によれば、大量のテキストが存在するドメインのテキストを基に、入手が難しいドメインのテキストデータを増強することができる。
なお、言語モデルは、例えばN-gram又はニューラルネットワーク等である。N-gramは、文において、ある時刻の単語の出現確率が、過去のN-1単語に依存して決まると仮定して、大量の電子化された文章を形態素解析した結果を基にある時刻における各単語の出現確率をモデル化したものである。なお、過去の1単語に依存するモデル(N=2)はバイグラムと呼ばれる。また、過去の2単語に依存するモデル(N=3)は、トライグラムと呼ばれる。N-gramは、これらを一般化したものである。
[第1の実施形態]
[第1の実施形態の構成]
まず、図1を用いて、第1の実施形態に係る生成装置の構成について説明する。図1は、第1の実施形態に係る生成装置の構成例を示す図である。図1に示すように、生成装置10は、インタフェース部11、記憶部12及び制御部13を有する。
インタフェース部11は、データの入出力のためのインタフェースである。インタフェース部11は、例えばマウスやキーボード等の入力装置を介してデータの入力を受け付ける。また、インタフェース部11は、例えばディスプレイ等の出力装置にデータを出力する。
記憶部12は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部12は、生成装置10で実行されるOS(Operating System)や各種プログラムを記憶する。記憶部12は、変換先ドメインテキストデータ121、言語モデル情報122、入れ換えモデル情報123、辞書情報124及び制約条件情報125を記憶する。
変換先ドメインテキストデータ121は、変換先ドメインに分類されたテキストの集合である。変換先のドメインは、テキストの収集が困難なドメインであってもよい。
言語モデル情報122は、N-gram等の言語モデルを構築するためのパラメータ等である。入れ換えモデル情報123は、後述する入れ換えモデルを構築するためのパラメータ等である。入れ換えモデルが双方向LSTM(long short-term memory)であれば、入れ換えモデル情報123は、各層の重み等である。
辞書情報124は、単語にインデックスを付したデータである。辞書情報124は、変換元及び変換先の両方のドメインの単語を含む。
制約条件情報125は、ある単語を変換先のドメイン文の生成に用いるか否かを判定するための条件である。制約条件情報125は、例えば下記の制約A及び制約Bを含む。
制約A:変換元の単語の品詞が助詞又は助動詞である。
制約B:変換元の単語の品詞と変換先の単語の品詞が異なる。
制御部13は、生成装置10全体を制御する。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部13は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部13は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部13は、学習部131、抽出部132、判定部133及び生成部134を有する。ここで、図2を参照しつつ制御部13に含まれる各部の詳細を説明する。図2は、生成装置の処理の流れを説明する図である。
学習部131は、変換先ドメインテキストデータ121を用いて、言語モデルの学習を行う。学習部131は、学習済みの言語モデルのパラメータ等の情報を言語モデル情報122として記憶部12に格納しておく。
抽出部132は、第1のテキストに含まれる第1の単語に対応する第2の単語を、所定のドメインに属する複数の単語の中から抽出する。図2に示すように、抽出部132は、入れ換えモデル情報123を基に構築した入れ換えモデルに変換元ドメインの文を入力する。そして、入れ換えモデルの出力結果を基に、辞書情報124に含まれる複数の単語から候補の単語を抽出する。なお、変換元の文は、第1のテキストの一例である。
抽出部132は、入れ換えモデルとして双方向LSTMを用いて単語を抽出する(参考文献1:S. Kobayashi, “Contextual augmentation: Data augmentation by words with paradigmatic relations,” in Proc. NAACL-HLT, 2018, pp. 452-457.)。図3は、双方向LSTMを説明する図である。図3に示すように、抽出部132は、第1のテキストを、ドメインを指定するラベルとともに双方向LSTMに入力して得られる単語を第2の単語として抽出する。
入れ換えモデルは、長さTのテキストW=w1:T=w1;,…,wTが与えられたとき、各時刻t=1,…,Tにおける、ドメイン依存の単語確率分布を推定する。まず、抽出部132は、与えられたテキストから、時刻tについての、前向きの部分単語列w1:t-1= w1,…, wt-1、及び後向きの部分単語列wT:t+1= w1,…, wt-1を生成し、入れ替えモデルに与える。入れ替えモデルは、fwlstm(前向きLSTM:forward LSTM)層及びbwlstm(後向きLSTM:backward LSTM)層において、前向きの部分単語列及び後向きの部分単語列から隠れ状態ベクトルを再帰的に推定し、時刻t-1及び時刻t+1における隠れ状態ベクトルをそれぞれ(1)式及び(2)式のように得る。
Figure 0007327523000001
Figure 0007327523000002
さらに、入れ換えモデルは、concat層において、各隠れ状態ベクトルとスカラ値dを(3)式のように連結する。
Figure 0007327523000003
ここでdは2値のドメインラベルである。本明細書では、d=0が講義(Lecture)であり、d=1が会話(Conversation)に対応するものとして説明する。また、ここでは、d=0が変換元ドメインを表し、d=1が変換先ドメインを表すものとする。hd tは時刻tにおけるドメイン依存隠れ状態ベクトルである。さらに、入れ換えモデルは、hd tを1層のlinear層に入力し、(4)式のようにzd tを得る。さらに、入れ換えモデルは、zd tをsoftmax層に入力し、(5)式のように時刻tにおけるドメイン依存単語確率分布Pを得る。
Figure 0007327523000004
Figure 0007327523000005
ここで、^wtは時刻tにおける予測単語である。また、idx(^wt)は、辞書情報124における^wtのインデックスである。また、W\{wt}は、文Wからwtを除いた単語列である(ただし、\はバックスラッシュ)。
入れ換えモデルの学習は変換元及び変換先の両ドメインの学習用データを用いて行うものとする。入れ換えモデルの学習では、まずドメインラベルを用いない事前学習が行われ、次にドメインラベルを用いたfine-tuningが行われる。ドメインラベルを用いた学習により、入れ換えモデルは、ドメイン依存の言葉使いを獲得する。例えば図3に示すように、前向き部分単語列w1:t-1={…,私,は}と後向き単語列wT:t+1={…,好き,が}が与えられたとき、d=0(ドメインが講義)であれば、時刻tにおいて、「研究」、「開発」、「DNN」等の単語に高い確率が与えられ、逆にd=1(ドメインが会話)であれば、「映画」、「ゴルフ」、「料理」等の単語に高い確率が与えられる。
抽出部132は、講義ドメインの文を会話ドメインの文に変換する際には、講義ドメイン(d=0)である文を入れ換えモデルに入力し、変換先のドメインラベルを会話(d=1)と指定する。これにより、入力された講義ドメインの文を基に、各時刻における単語を講義ドメインのものから会話ドメインのものに置き換えられた文が生成可能になる。
このとき、抽出部132が、各時刻において単語確率分布から最尤の単語を選択すると、1つの講義ドメインの文からは1つの会話ドメインの文のみが生成可能であり、データの増強が行えない。そこで1つの講義ドメインの文から複数の会話ドメインの文を生成してデータの増強を行うために、抽出部132は、Gumbel-max trickに基づくサンプリング手法を導入する。
具体的には、抽出部132は、Gumbel分布から語彙サイズ分の値をサンプルし、それらを入れ換えモデルで推定される単語確率分布に加算して得られた新たな分布から最尤の単語を選択する。抽出部132は、このサンプリングを複数回行うことで、1つの講義ドメインの文から複数の会話ドメインの文を生成することが可能になる。
しかし、上記の手順で得られた単語を用いて生成したテキストを言語モデルの学習用データとして使っても、言語モデルのパープレキシティ削減及び音声認識精度の改善が得られないことが予備実験により分かった。さらに、分析の結果、生成した文では文法的な正しさが保証されないことが原因であることが分かった。
そこで、本実施形態の生成装置10は、生成された文の文法的な正しさを保証するために、判定部133によって条件を満たすと判定された単語を使ってテキストを生成する。判定部133は、第1の単語の品詞に関する所定の条件が満たされているか否かを判定する。図2に示すように、判定部133は、制約条件情報125を参照して判定を行う。
判定部133は、第1の単語の品詞があらかじめ定められた品詞であり、かつ第1の単語の品詞と第2の単語の品詞が同じである場合に、条件が満たされていると判定する。なお、図3では、変換元の文の時刻tの単語である「研究」は、第1の単語の一例である。また、会話ドメインの単語のうち、確率が高い「映画」、「ゴルフ」、「料理」等が第2の単語になる可能性が高い。ただし、変換元の文の内容や入れ換えモデルの性能によっては、講義ドメインに属するあらゆる品詞のあらゆる単語が第2の単語になり得る。
例えば、前述の制約A及び制約Bが採用される場合、判定部133は、第1の単語の品詞が助詞及び助動詞のいずれでもなく、かつ第1の単語の品詞と第2の単語の品詞が同じである場合に、条件が満たされていると判定する。例えば、判定部133は、変換元の文が日本語である場合にこのような条件を適用することができる。
生成部134、判定部133により条件が満たされていると判定された場合に、第1のテキストの第1の単語を第2の単語に入れ換えた第2のテキストを生成する。生成部134は、第1のテキストの少なくとも一部の単語を入れ換えることにより第2のテキストを生成する。
判定部133及び生成部134は、制約条件情報125の条件を満たさないようなテキストを後処理により戻すようにしてもよい。この場合、まず、生成部134は、抽出部132によって抽出された単語を使って変換先ドメインのテキストを生成する。そして、判定部133は、生成された変換先ドメインのテキストと変換元のテキストとを比較し、単語の入れ換えが発生している箇所について、変換元の単語と変換先の単語が条件を満たすか否かを判定する。そして、判定部133が条件を満たさないと判定した場合、生成部134は、該当箇所の変換先の単語を変換元の単語に戻す処理を行う。
また、生成部134によるテキスト生成の前に判定部133が判定を行い、判定部133により条件が満たされていないと判定された場合、生成部134は単語の入れ換えを行わないようにしてもよい。また、例えば上記の制約A(変換元の単語の品詞が助詞又は助動詞である。)については、変換元の単語を見れば成り立つか否かが明らかなので、抽出部132による単語の抽出の前に判定部133が判定を行うようにしてもよい。
図4を用いて、制約A及び制約Bを用いて実際にテキストの生成を行った場合の例を説明する。図4は、条件の判定について説明する図である。ここでは、制約A又は制約Bのいずれかが成り立つ場合、判定部133は、単語を入れ換えるための条件が満たされていないと判定する。逆に、制約A及び制約Bのいずれも成り立たない場合、判定部133は、単語を入れ換えるための条件が満たされていると判定する。
図4に示すように、変換元ドメインの文は、「我々 は 様々な 実験 を 行い まし た」である。このとき、抽出部132は、「我々」、「は」、「様々な」、「実験」、「を」、「行い」、「まし」、「た」のそれぞれに対し、「私達」、「全く」、「面白い」、「料理」、「を」、「作り」、「です」、「た」という単語を抽出したものとする。
まず、「我々」の品詞は、助詞でも助動詞でもなく代名詞である。また、「我々」と「私達」はいずれも代名詞である。このため、判定部133は、「我々」を「私達」に入れ換えることについて、条件が満たされていると判定する。
次に、「は」の品詞は助詞である。このため、制約Aが成り立ち、判定部133は、「は」を「全く」に入れ換えることについて、条件が満たされていないと判定する。
さらに、「様々な」の品詞は、助詞でも助動詞でもなく連体詞である。しかし、「面白い」の品詞は形容詞である。このように、「様々な」と「面白い」では品詞が異なるため、制約Bが成り立ち、判定部133は、「様々な」を「面白い」に入れ換えることについて、条件が満たされていないと判定する。
この結果、生成部134は、判定部133による判定結果を受けて、最終的に「私達 は 様々な 料理 を 作り まし た」という出力文を生成する。図5は、入力文及び出力文の例を示す図である。図5のSourceは変換元のテキストであり、Generatedは生成部134により生成されたテキストである。
[第1の実施形態の処理の流れ]
図6は、第1の実施形態に係る生成装置の処理の流れを示すフローチャートである。まず、生成装置10は、変換先ドメインのテキストデータを使って言語モデルを学習する(ステップS10)。次に、生成装置10は、変換元ドメインの文から変換先ドメインの文を生成する(ステップS20)。そして、生成装置10は、生成した文を出力する(ステップS30)。
図7を用いて、生成装置10が文を生成する処理(図6のステップS20)の流れを説明する。図7は、文を生成する処理の流れを示すフローチャートである。図7に示すように、まず、生成装置10は、tの初期値を1とする(ステップS201)。
次に、生成装置10は、変換元の文から前向き及び後向きの部分単語列を生成する(ステップS202)。そして、生成装置10は、各部分単語列から、時刻t-1及び時刻t+1の隠れ状態ベクトルを計算する(ステップS203)。さらに、生成装置10は、各隠れ状態ベクトルから、時刻tの変換先のドメインの単語確率分布を計算する(ステップS204)。
ここで、生成装置10は、単語確率分布を基に、候補単語を抽出する(ステップS205)。そして、生成装置10は、候補単語のうち、制約条件を満たす単語を生成文中の一単語として出力する(ステップS206)。さらに、生成装置10は、tを1だけ増加させる(ステップS207)。tが変換元の文の長さTに達している場合(ステップS208、Yes)、生成装置10は処理を終了する。一方、tがTに達していない場合(ステップS208、No)、生成装置10はステップS202に戻り処理を繰り返す。
[第1の実施形態の効果]
これまで説明してきたように、抽出部132は、第1のテキストに含まれる第1の単語に対応する第2の単語を、所定のドメインに属する複数の単語の中から抽出する。判定部133は、第1の単語の品詞に関する所定の条件が満たされているか否かを判定する。生成部134は、判定部133により条件が満たされていると判定された場合に、第1のテキストの第1の単語を第2の単語に入れ換えた第2のテキストを生成する。このように、生成装置10は、学習用データを増強したいドメインの単語があれば、当該ドメインのテキストデータを自動的に生成することができる。このため、本実施形態によれば、言語モデルの精度を高めるような学習用データの増強を行うことができる。
判定部133は、第1の単語の品詞があらかじめ定められた品詞であり、かつ第1の単語の品詞と第2の単語の品詞が同じである場合に、条件が満たされていると判定する。単語の入れ換えの際に不用意に品詞を変更すると、テキストが文法的に破たんしてしまうことが考えられる。本実施形態では、品詞に関する条件を定めておくことで、変換後のテキストが文法的に正しくなくなることを抑止することができる。
判定部133は、第1の単語の品詞が助詞及び助動詞のいずれでもなく、かつ第1の単語の品詞と第2の単語の品詞が同じである場合に、条件が満たされていると判定する。特に日本語では、助詞や助動詞を不用意に変更すると、テキストが文法的に破たんしてしまうことが考えられる。本実施形態では、助詞及び助動詞を入れ換えないようにすることで、変換後のテキストが文法的に正しくなくなることを抑止することができる。
抽出部132は、所定のドメインに属する複数の単語の確率分布に、Gumbel分布からサンプルした複数の値を加算することにより、1つの第1の単語に対し、複数の単語を第2の単語として抽出する。このため、本実施形態によれば、1つのテキストから、所望するドメインの複数のテキストを生成することができる。
[実験結果]
第1の実施形態の有効性を検証する実験について説明する。実験では、CSJ講義音声コーパス(参考文献2:K. Maekawa, “Corpus of spontaneous Japanese: its design and evaluation,” in Proc. Workshop on Spontaneous Speech Processing and Recognition (SSPR), 2003, pp. 7-12.)(以下、CSJ)が変換元ドメインのテキストデータとして用いられた。また、NTTミーティング(複数人自由会話)音声コーパス(参考文献3:T. Hori, S. Araki, T. Yoshioka, M. Fujimoto, S. Watanabe, T. Oba, A. Ogawa, K. Otsuka, D. Mikami, K. Kinoshita, T. Nakatani, A. Nakamura, and J. Yamato, “Low-latency real-time meeting recognition and understanding using distant microphones and omni-directional camera,” IEEE TASLP, vol. 20, no. 2, pp. 499-513, Feb. 2012.)(以下、NTT)が変換先ドメインのテキストデータとして用いられた。
実験では、実施形態の手法により、CSJをNTTの会話ドメインに変換し、かつ、そのデータ量を1, 10, 20, 50, 100倍とした5つのデータを生成した(GenCSJx{1, 10, 20, 50, 100}と表記)。
また、NTT、CSJ及び、GenCSJx{1, 10, 20, 50, 100}をそれぞれ用いて、7つのtrigram言語モデルを学習した(以下では学習用データ名によりtrigram言語モデルを表記)。加えて、NTTとCSJをNTT開発データに対するPPLを基準に重み加算したtrigram言語モデル(NTT+CSJ、重みは0.3:0.7)、NTT、CSJ、GenCSJx100を重み加算したtrigram言語モデル(NTT+CSJ+GenCSJx100、重みは0.5:0.2:0.3)を作成した(重みの計算手順は非特許文献1及び2を参照)。
以上の9つのtrigram言語モデルのNTT開発、評価両データに対するPPL、OOV(out-of-vocabulary rate:未知語率)、WER(word error rate:単語誤り率)を求めた。なお、PPL、OOV、WERとも小さい値の方が精度が良いことを示す。
図8は、実験結果を示す図である。また、図9は、データセットの詳細を示す図である。図8の、2.CSJと3.~7.GenCSJx{1, 10, 20, 50, 100}の比較により、提案手法の有効性が確認できる(2.と比較して3.~7.の方が低いPPL,OOV,WERを示している)。2.CSJと3.GenCSJx1のデータを比較したところ、22.5%の単語が入れ換えられていることが分かった。さらに3.~7.は、1.NTTと比べてPPLは高いものの、OOVとWERは低い値を示している。また3.~7.内での比較により、大量データを生成することの効果が確認できる。8.NTT+CSJと9.NTT+CSJ+GenCSJx100の比較により、提案手法により最終的なWERの低下が得られることが確認できる。
[第2の実施形態]
第1の実施形態では、例えば図5の3段目に示すように、「何と なく ペット の 恵み を 届け させる」といった、文法的には正しいが、意味的には正しいとはいえないテキストが生成される場合がある。これは、各単語の入れ換えは独立に行われ、その前後関係(文脈)が考慮されないためである。そこで、第2の実施形態では、生成装置は、生成したテキストを、意味的な正しさを考慮してさらに絞り込む。
[第2の実施形態の構成]
図10を用いて、第2の実施形態に係る生成装置の構成について説明する。図10は、第2の実施形態に係る生成装置の構成例を示す図である。なお、図10において、第1の実施形態と同様の部分については、図1等と同様の符号を付し説明を省略する。図10に示すように、生成装置10aは、第1の実施形態と生成装置10と同様の処理部に加え、計算部153及び選択部136を有する。
計算部135は、生成部134によって生成された複数の第2のテキストのそれぞれのPPL(Perplexity)を、言語モデルを用いて計算する。言語モデルは、言語モデル情報122から構築されるものであってもよい。そして、選択部136は、複数の第2のテキストの中から、計算部よって計算されたPPLの低さが所定の基準を満たすテキストを選択する。例えば、選択部136は、PPLが最も低いテキストを選択してもよいし、PPLが低い順に所定の数のテキストを選択してもよい。
図11は、生成装置の処理の流れを説明する図である。図11の例では、第1の実施形態と同様に、生成部134が100文を生成するものとする。そして、計算部135は、100文について、学習済みの言語モデルを用いてPPLを計算する。さらに、選択部136は、生成部134が生成した100文の中からPPLが低い順に10文を選択する。
[第2の実施形態の処理の流れ]
図12は、第2の実施形態に係る生成装置の処理の流れを示すフローチャートである。まず、生成装置10は、変換先ドメインのテキストデータを使って言語モデルを学習する(ステップS10)。次に、生成装置10は、変換元ドメインの文から変換先ドメインの文を生成する(ステップS20)。
ここで、生成装置10は、生成された文のPPLを言語モデルを使って計算する(ステップS40)。さらに、生成装置10は、生成された文の中から、PPLに関する条件を満たす文を選択する(ステップS50)。そして、生成装置10は、選択した文を出力する(ステップS60)。
[第2の実施形態の効果]
これまで説明してきたように、計算部135は、生成部134によって生成された複数の第2のテキストのそれぞれのPPL(Perplexity)を、言語モデルを用いて計算する。選択部136は、複数の第2のテキストの中から、計算部よって計算されたPPLの低さが所定の基準を満たすテキストを選択する。PPLが低いということは、単語が無理なく繋がっていること、すなわち、意味的に正しいことを示している。このため、本実施形態によれば、文法的に正しく、かつ意味的にも正しいテキストを得ることができる。
[その他の実施形態]
制約条件は、テキストの言語によって異なるものであってもよい。例えば、テキストの言語が英語等である場合、判定部133は、第1の単語の品詞がparticle(不変化詞、小辞、接頭辞、接尾辞)及びauxiliary verb(助動詞)のいずれでもなく、かつ第1の単語の品詞と第2の単語の品詞が同じである場合に、条件が満たされていると判定することができる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、生成装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の生成処理を実行する生成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の生成プログラムを情報処理装置に実行させることにより、情報処理装置を生成装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、生成装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の生成処理に関するサービスを提供する生成サーバ装置として実装することもできる。例えば、生成サーバ装置は、変換元ドメインのテキストを入力とし、変換先ドメインのテキストを出力とする生成サービスを提供するサーバ装置として実装される。この場合、生成サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の生成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図13は、生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(BASIC Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、生成装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、生成装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10、10a 生成装置
11 インタフェース部
12 記憶部
13 制御部
121 変換先ドメインテキストデータ
122 言語モデル情報
123 入れ換えモデル情報
124 辞書情報
125 制約条件情報
131 学習部
132 抽出部
133 判定部
134 生成部
135 計算部
136 選択部

Claims (8)

  1. 変換元のドメインのテキスト、及び指定された変換先のドメインのラベルを基に、前記テキストに含まれる単語のそれぞれに対する、前記変換先のドメインに属する複数の単語、及び前記複数の単語の確率分布を出力する入れ換えモデルに、第1のドメインの第1のテキストを入力し、第2のドメインのラベルを指定して得られた前記第2のドメインに属する複数の単語の中から、前記複数の単語の確率分布を基に、前記第1のテキストに含まれる第1の単語に対応する第2の単語を選択する抽出部と、
    前記第1の単語の品詞に関する所定の条件が満たされているか否かを判定する判定部と、
    前記判定部により前記条件が満たされていると判定された場合に、前記第1のテキストの前記第1の単語を前記第2の単語に入れ換えた第2のテキストを生成する生成部と、
    を有することを特徴とする生成装置。
  2. 前記判定部は、前記第1の単語の品詞があらかじめ定められた品詞であり、かつ前記第1の単語の品詞と前記第2の単語の品詞が同じである場合に、前記条件が満たされていると判定することを特徴とする請求項1に記載の生成装置。
  3. 前記判定部は、前記第1の単語の品詞が助詞及び助動詞のいずれでもなく、かつ前記第1の単語の品詞と前記第2の単語の品詞が同じである場合に、前記条件が満たされていると判定することを特徴とする請求項1に記載の生成装置。
  4. 前記判定部は、前記第1の単語の品詞がparticle及びauxiliary verbのいずれでもなく、かつ前記第1の単語の品詞と前記第2の単語の品詞が同じである場合に、前記条件が満たされていると判定することを特徴とする請求項1に記載の生成装置。
  5. 前記抽出部は、前記第2のドメインに属する複数の単語の確率分布に、Gumbel分布からサンプルした複数の値のそれぞれを加算して得られた複数の確率分布のそれぞれを基に、前記第2の単語を選択することを特徴とする請求項1に記載の生成装置。
  6. 前記生成部によって生成された複数の前記第2のテキストのそれぞれのPPL(Perplexity)を、言語モデルを用いて計算する計算部と、
    前記第2のテキストの中から、前記計算部よって計算されたPPLの低さが所定の基準を満たすテキストを選択する選択部と、
    をさらに有することを特徴とする請求項1に記載の生成装置。
  7. 生成装置によって実行される生成方法であって、
    変換元のドメインのテキスト、及び指定された変換先のドメインのラベルを基に、前記テキストに含まれる単語のそれぞれに対する、前記変換先のドメインに属する複数の単語、及び前記複数の単語の確率分布を出力する入れ換えモデルに、第1のドメインの第1のテキストを入力し、第2のドメインのラベルを指定して得られた前記第2のドメインに属する複数の単語の中から、前記複数の単語の確率分布を基に、前記第1のテキストに含まれる第1の単語に対応する第2の単語を選択する抽出工程と、
    前記第1の単語の品詞に関する所定の条件が満たされているか否かを判定する判定工程と、
    前記判定工程により前記条件が満たされていると判定された場合に、前記第1のテキストの前記第1の単語を前記第2の単語に入れ換えた第2のテキストを生成する生成工程と、
    を含むことを特徴とする生成方法。
  8. コンピュータを、請求項1から6のいずれか1項に記載の生成装置として機能させるための生成プログラム。
JP2021572206A 2020-01-22 2020-01-22 生成装置、生成方法及び生成プログラム Active JP7327523B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/002193 WO2021149206A1 (ja) 2020-01-22 2020-01-22 生成装置、生成方法及び生成プログラム

Publications (2)

Publication Number Publication Date
JPWO2021149206A1 JPWO2021149206A1 (ja) 2021-07-29
JP7327523B2 true JP7327523B2 (ja) 2023-08-16

Family

ID=76992692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021572206A Active JP7327523B2 (ja) 2020-01-22 2020-01-22 生成装置、生成方法及び生成プログラム

Country Status (3)

Country Link
US (1) US20230032372A1 (ja)
JP (1) JP7327523B2 (ja)
WO (1) WO2021149206A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019021804A1 (ja) 2017-07-24 2019-01-31 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP2019128790A (ja) 2018-01-24 2019-08-01 株式会社リコー 言語処理装置、言語処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019021804A1 (ja) 2017-07-24 2019-01-31 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP2019128790A (ja) 2018-01-24 2019-08-01 株式会社リコー 言語処理装置、言語処理方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
辰巳守祐 他3名,辞書を用いたコーパス拡張による化学ドメインのDistantly Supervised固有表現認識,情報処理学会研究報告[online],日本,情報処理学会,2019年08月22日,Vol.2019-NL-241 No.7,ISSN 2188-8779

Also Published As

Publication number Publication date
JPWO2021149206A1 (ja) 2021-07-29
WO2021149206A1 (ja) 2021-07-29
US20230032372A1 (en) 2023-02-02

Similar Documents

Publication Publication Date Title
US10606946B2 (en) Learning word embedding using morphological knowledge
US6904402B1 (en) System and iterative method for lexicon, segmentation and language model joint optimization
US9588958B2 (en) Cross-language text classification
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US9052748B2 (en) System and method for inputting text into electronic devices
US7275029B1 (en) System and method for joint optimization of language model performance and size
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
JP2020520492A (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
US20060277028A1 (en) Training a statistical parser on noisy data by filtering
EP2643770A2 (en) Text segmentation with multiple granularity levels
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
US8224642B2 (en) Automated identification of documents as not belonging to any language
JP5975938B2 (ja) 音声認識装置、音声認識方法及びプログラム
US10810368B2 (en) Method for parsing natural language text with constituent construction links
CN112232057B (zh) 基于文本扩展的对抗样本生成方法、装置、介质和设备
CN111091001B (zh) 一种词语的词向量的生成方法、装置及设备
CN112835798A (zh) 聚类学习方法、测试步骤聚类方法及相关装置
US20210103608A1 (en) Rare topic detection using hierarchical clustering
JP7327523B2 (ja) 生成装置、生成方法及び生成プログラム
JP5500636B2 (ja) 句テーブル生成器及びそのためのコンピュータプログラム
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN113553398A (zh) 搜索词纠正方法、装置、电子设备及计算机存储介质
Santos-Pérez et al. Topic-dependent language model switching for embedded automatic speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230717

R150 Certificate of patent or registration of utility model

Ref document number: 7327523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150