JP7314079B2

JP7314079B2 - データ生成装置、データ生成方法およびプログラム

Info

Publication number: JP7314079B2
Application number: JP2020027986A
Authority: JP
Inventors: 浩司藤村; 憲治岩田; フイディー; ポンフェイチェン
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2023-07-25
Anticipated expiration: 2040-02-21
Also published as: US20210264895A1; JP2021131514A; US11694028B2; CN113299266A

Description

本発明の実施形態は、データ生成装置、データ生成方法およびプログラムに関する。

発話音声をテキストに変換する音声認識技術が知られている。このような音声認識技術では、例えば、音声入力からそのテキスト出力までをEnd-to-Endのモデルとして学習させ、性能を改善させることができる。一般に、モデルの学習には、膨大な量の音声発話データとその書き起こしテキストが同時に必要となる。モデルの学習に使用される学習データとして、発音情報が付与されたテキストを用いて音声合成を行い、音声発話を模したシミュレーションデータを生成することが考えられる。

しかし、発音情報が付与されていないテキストしかない場合、読み間違いなどにより、合成音声が不正確なものとなる。不正確な合成音声とテキストのペアを含むシミュレーションデータでは、モデルを適切に学習させることができない。

Ueno et al., "Multi-speaker Sequence-to-sequence Speech Synthesis for Data Augmentation in Acoustic-to-word Speech Recognition", ICASSP 2019, May 12-17 2019, p. 6161-6165

本発明が解決しようとする課題は、音声とテキストのペアを含む精度の高い発話シミュレーションデータを生成できるデータ生成装置、データ生成方法、およびプログラムを提供することである。

一実施形態によるデータ生成装置は、音声合成部と、音声認識部と、マッチング処理部と、データセット生成部とを有する。音声合成部は、原テキストから音声データを生成する。音声認識部は、音声合成部により生成された音声データから、音声認識により認識テキストを生成する。マッチング処理部は、原テキストと、音声認識部により生成された認識テキストとのマッチングを行う。データセット生成部は、マッチングの結果に基づき、原テキストに対するマッチング度がある条件を満たす認識テキストの元となった音声データと原テキストとを対応付けて、データセットを生成する。

図１は、一実施形態に係るデータ生成装置の機能構成を例示するブロック図である。図２は、一実施形態に係るデータ生成装置のハードウェア構成を例示するブロック図である。図３は、一実施形態に係るデータ生成装置による処理動作を例示するフローチャートである。図４Ａは、一実施形態に係るデータ生成装置によるマッチング結果の第１の例を示す図である。図４Ｂは、図４Ａの原テキストに対して異なる読みを用いたときのマッチング結果の一例を示す図である。図５は、一実施形態に係るデータ生成装置によるマッチング結果の第２の例を示す図である。図６Ａは、一実施形態に係るデータ生成装置によるマッチング結果の第３の例を示す図である。図６Ｂは、図６Ａの原テキストに対して異なる読みを用いたときのマッチング結果の一例を示す図である。図７は、一実施形態に係るデータ生成装置によるマッチング結果の第４の例を示す図である。図８は、一実施形態に係るデータ生成装置によるマッチング結果の第５の例を示す図である。

以下、図面を参照してこの発明に係わる実施形態を説明する。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。例えば、複数の同一または類似の要素が存在する場合に、各要素を区別せずに説明するために共通の符号を用いることがあるし、各要素を区別して説明するために当該共通の符号に加えて枝番号を用いることもある。

［一実施形態］
（構成）
図１は、一実施形態に係るデータ生成装置としてのシミュレーションデータ生成装置１００の構成を概略的に示すブロック図である。
シミュレーションデータ生成装置１００は、例えば、サーバコンピュータやパーソナルコンピュータ等のコンピュータであり、音声とテキストのペアを含む発話シミュレーションデータを生成する。シミュレーションデータ生成装置１００は、テキスト取得部１０１、音声合成部１０２、音声認識部１０３、マッチング処理部１０４、シミュレーションデータ生成部１０５、およびリスト作成部１０６を処理機能部として備える。シミュレーションデータ生成装置１００は、言語解析辞書記憶部１０７およびリスト記憶部１０８をさらに備え得る。

テキスト取得部１０１は、原テキストの入力を受け付け、原テキストを音声合成部１０２およびマッチング処理部１０４に渡す処理を行う。

音声合成部１０２は、原テキストを解析し、原テキストから読み（発音）およびアクセント、イントネーションなどを推定し、音声合成により音声データを生成する。音声合成部１０２は、読みおよびアクセントの推定のために、言語解析辞書記憶部１０７に記憶された言語解析辞書を使用し得る。言語解析辞書は、例えば、文字、単語、文節または文に割り当て得る読みおよびアクセントを定義する。音声合成部１０２は、言語解析辞書に定義された文字、単語、文節または文と、原テキストに含まれる文字、単語、文節または文との対応に基づいて、読みおよびアクセントを推定する。原テキストをどこで区切るかも含めて、言語解析辞書と原テキストとの対応に複数の可能な組合せが存在する場合、後述するように、音声合成部１０２は、それらの組合せを別候補として音声合成に用いることができる。また後述するように、音声合成部１０２は、マッチング処理部１０４からマッチング結果を受け取ると、原テキストの少なくとも一部分に対して異なる読みまたはアクセントを割り当てて、異なる音声データを生成し得る。音声合成部１０２は、生成した音声データを音声認識部１０３に渡す。

音声認識部１０３は、音声合成部１０２により生成された音声データを受け取り、音声認識により、当該音声データからテキストを生成し、認識結果（「認識テキスト」とも言う）としてマッチング処理部１０４に出力する。

マッチング処理部１０４は、テキスト取得部１０１から原テキストを、音声認識部１０３から認識結果を受け取り、原テキストと認識結果とのマッチングを行い、差異部分（「差分」とも言う）を抽出し、シミュレーションデータ生成部１０５に出力する。マッチング処理部１０４はまた、差異部分を音声合成部１０２にも出力し得る。差異部分を受け取った音声合成部１０２は、上述したように、当該差異部分を含む、原テキストの文字、単語、文節または文に対して別の読みまたはアクセントを割り当て、原テキストから再び音声データを生成する。マッチング処理部１０４はまた、マッチング結果をリスト作成部１０６にも出力し得る。

データセット生成部としてのシミュレーションデータ生成部１０５は、マッチング処理部１０４から受け取った差異部分によりマッチング度合いを算出し、マッチング度合いに基づいて、音声合成部１０２により生成された音声データと原テキストとを対応付けたデータセットとして発話シミュレーションデータを生成する。一実施形態では、シミュレーションデータ生成部１０５は、原テキストと認識結果との差異部分に基づき、原テキストに対するマッチングの度合い（「マッチング度」とも言う）を算出する。そして、マッチングの度合いが所定の条件を満たす認識結果の元となった音声データを用いて、データセットを生成する。マッチングの度合いは、例えば文字正解精度として算出される。文字正解精度は、原テキスト（正解テキスト）との文字の一致率を指す。マッチングの度合いは単語正解精度として算出されてもよい。あるいはマッチングの度合いは、原テキストと一致する文字数または単語数として算出されてもよい。

シミュレーションデータ生成部１０５は、読みまたはアクセントの複数の候補に基づいて複数の音声データが生成され、そのそれぞれから複数の認識結果が生成された場合、最もマッチングの度合いが高い認識結果の元となった音声データだけを用いてデータセットを生成することができる。マッチングの度合いが同じものが複数ある場合、シミュレーションデータ生成部１０５は、いずれかひとつをランダムに選択してもよい。あるいはシミュレーションデータ生成部１０５は、マッチング度が所定のしきい値以上の認識結果の元となったすべての音声データを採用して、それぞれを原テキストと対応付けたデータセットを生成してもよい。

リスト作成部１０６は、マッチング処理部１０４からマッチング結果を受け取り、処理の履歴を記録するためのリストを作成する。

言語解析辞書記憶部１０７は、音声合成部１０２により音声合成に使用され得る、あらかじめ定義された言語解析辞書を記憶する。

リスト記憶部１０８は、リスト作成部１０６により作成されるリストを記憶する。

図２は、上記のようなシミュレーションデータ生成装置１００のハードウェア構成例を概略的に示している。図２に示すように、シミュレーションデータ生成装置１００は、ＣＰＵ（Central Processing Unit）１００１、ＲＡＭ（Random Access Memory）１００２、ＲＯＭ（Read Only Memory）１００３、補助記憶装置１００４、入力装置１００５、出力装置１００６、および通信装置１００７を備える。

シミュレーションデータ生成装置１００の上述した処理機能は、ＣＰＵ１００１がＲＯＭ１００３または補助記憶装置１００４に記憶されたプログラムをＲＡＭ１００２に展開し、このプログラムを実行することにより実現される。ＣＰＵ１００１はハードウェアプロセッサの一例である。ハードウェアプロセッサは、ＣＰＵ１００１などの汎用プロセッサに限らず、ＡＳＩＣ（Application Specific Integrated Circuit）またはＦＰＧＡ（Field-Programmable Gate Array）などの専用プロセッサであってもよい。

補助記憶装置１００４は、データを不揮発的に記憶するコンピュータ読み取り可能な記憶媒体を備えたものであり、例えば、ＨＤＤ（Hard Disk Drive）またはＳＤＤ（Solid State Drive）であり得る。補助記憶装置１００４は、言語解析辞書記憶部１０７およびリスト記憶部１０８を含む記憶部として動作する。

入力装置１００５は、例えば、キーボード、マウス、ジョイスティック、マイクロフォン等を備える。出力装置１００６は、例えば、液晶ディスプレイや有機ＥＬディスプレイ等の表示装置、スピーカ等を備える。入力装置１００５と出力装置１００６は、液晶パネル等の表示デバイスとタッチパッド等の入力デバイスとを組み合わせた一体型のタッチパネル型装置であってもよい。

通信装置１００７は、外部装置に対して無線または有線通信を行う。通信装置１００７は、例えば、ＬＡＮ（Local Area Network）ポートを備え、ＬＡＮケーブルを用いて通信ネットワークに接続され、通信ネットワークを介して外部の装置との間でデータを送受信する。通信装置１００７は、例えば無線ＬＡＮモジュールまたはBluetooth（登録商標）モジュールなどの無線モジュールを備えてよい。通信装置１００７はまた、ＵＳＢポートなどの外部インタフェースを含み得る。

上記のように、End-to-Endモデルをはじめとする音声認識モデルの学習には、音声とテキストのペアを含む膨大なデータが必要である。発音情報が付与されたテキストがあれば、音声合成を利用して音声発話を模したシミュレーションデータを生成することが可能である。しかし、発音情報が付与されていないテキストしかない場合、音声合成の際に読みを間違え、不正確な音声データを含むシミュレーションデータを生成してしまうおそれがある。

例えば、「ｅスポーツを見たい」というテキストがあったときに、本来であれば「イースポーツヲミタイ」という読みを用いて学習を行いたい。しかし、読み推定を誤ると「エスポーツヲミタイ」などの音声が対応付けられたシミュレーションデータとなる。このようなシミュレーションデータを用いた場合、「ｅスポーツを見たい」は「エスポーツヲミタイ」という発音で学習されてしまう。

このように、テキストデータから自動で読み推定をし、シミュレーション音声を生成すると、読み推定を誤った場合に、正しい発音で学習したい発話を学習させることができなくなるおそれがある。

そこで、一実施形態に係るシミュレーションデータ生成装置１００は、与えられたテキストデータから音声合成により音声発話データを生成し、それを音声認識により認識した１次結果と原テキストとのテキストマッチングを行い、マッチング度合いを算出する。完全にマッチした場合にはその音声をシミュレーションデータとして採用する。完全にマッチしなかった場合には、差異部分に対して別の読み候補を与えて、再度音声を合成し、それを認識した２次結果と原テキストとをマッチングする。これを別の読み候補の数だけ繰り返し、マッチング度合の高い音声合成結果をシミュレーション音声データとして採用する。これにより、より正確な発音のシミュレーション音声を用いた、精度の高い発話シミュレーションデータが生成される。

（動作）
次に、以上のように構成された一実施形態に係るシミュレーションデータ生成装置１００の動作について説明する。
図３は、シミュレーションデータ生成装置１００の処理動作の第１の例を概略的に示すフローチャートである。図３に示すように、シミュレーションデータ生成装置１００は、まずステップＳ１０１において、テキストの入力を待ち受ける。テキストの入力は、いずれの方法で行われてもよい。例えば、テキストは、シミュレーションデータ生成装置１００のユーザにより入力装置１００５を介して入力されてもよいし、ＵＳＢなどの外付け記憶媒体やネットワーク上のデータベースサーバ等からテキストデータとして読み込まれてもよい。

ここで、一例として、テキスト取得部１０１により、「ｅスポーツを見たい」というテキストの入力を受け付けるものとする。なお、入力されるテキストは、１文である必要はなく、複数の文であってもよいし、単語など文の一部であってもよい。テキストの入力を受け付けたら（ステップＳ１０１：ＹＥＳ）、後続のステップに進む。

ステップＳ１０２において、シミュレーションデータ生成装置１００は、音声合成部１０２により、テキスト取得部１０１から受け取ったテキストを解析し、読みおよびアクセントを推定し、それらを入力とする音声合成によって合成音声データを生成する。音声合成部１０２による音声合成には、一般的な音声合成器を用いてよい。例えば、音声合成部１０２は、ＨＭＭ音声合成手法や、WaveNetなどのEnd-to-End音声合成手法を用いることができるが、これらに限定されない。

音声合成部１０２による読みおよびアクセントの推定には、上述したような言語解析辞書を用いることができる。音声合成部１０２は、例えば、テキストに含まれる、文字、単語、文節または文ごとに読みを推定する。

ここでは一例として、テキスト「ｅスポーツを見たい」に対する音声合成部１０２による読み推定結果として、「エスポーツヲミタイ」という読みとそれに最適なアクセントが得られたとする。その結果、音声合成部１０２により「エスポーツヲミタイ」という音声データが生成され、音声認識部１０３に出力される。

次いでステップＳ１０３において、シミュレーションデータ生成装置１００は、音声合成部１０２から出力された音声データに基づき、音声認識部１０３により、音声認識処理を行い、その認識結果を出力する。上記の例で、音声合成部１０２により生成され出力された「エスポーツヲミタイ」という音声データが音声認識部１０３に入力されると、音声認識部１０３は、例えば「Ｓポーツを見たい」という認識結果（または認識テキスト）を出力する。音声認識部１０３による音声認識には、一般的な音声認識器を用いてよい。例えば、音声認識部１０３は、音響モデルと言語モデルを用いた音声認識手法や、音響モデルと言語モデルが一体となったEnd-to-End音声認識手法を用いることができるが、これらに限定されない。

ステップＳ１０４において、シミュレーションデータ生成装置１００は、マッチング処理部１０４により、音声認識部１０３により出力された認識結果と原テキストとのマッチングを行い、差異部分（または差分）を抽出し、出力する。上記の例で、マッチング処理部１０４は、原テキスト「ｅスポーツを見たい」と、音声認識部１０３による認識結果「Ｓポーツを見たい」のマッチングを行い、「ｅ－スポーツ」と「Ｓ－ポーツ」という差異部分を含む単語を抽出する。マッチング処理部１０４によるマッチングには、単語単位の一般的なＤＰマッチングを用いてよい。ただしこれらに限定されるものではなく、他の方法を用いて差異部分の抽出を行ってもよい。例えば、マッチング処理部１０４は、文字単位、文節単位、または文単位で差異部分の抽出を行ってもよい。

図４Ａは、そのようなマッチング結果の一例を示す。上記のように原テキスト「ｅスポーツを見たい」から、音声合成１により音声「エスポーツヲミタイ」が得られ、当該音声から音声認識１により認識テキスト「Ｓポーツを見たい」が得られた。音声認識１の認識結果と原テキストは一致していない。

ステップＳ１０５において、シミュレーションデータ生成装置１００は、リスト作成部１０６によりリストを作成し、リスト記憶部１０８に格納された情報を更新する。リスト作成部１０６は、シミュレーションデータの生成における処理履歴として、原テキスト、得られた認識テキスト、そのときの音声データなどをリストとして記録することができる。一例として、リスト作成部１０６は、（原テキスト，認識テキスト，読み）の形式で情報を記録する。図４Ａの例では、差異部分について（ｅスポーツ，Ｓポーツ，エスポーツ）として記録されてもよい。リストには、差異部分だけでなく全文が記録されてもよいし、マッチング結果やアクセントに関する情報がさらに記録されてもよい。

ステップＳ１０５は任意ステップである。リスト作成部１０６は、すべてのマッチング結果を記録してもよいし、特定の結果のみを記録してもよい。例えば、リスト作成部１０６は、１００％のマッチングが得られたケースのみを記録してもよいし、１００％のマッチングが得られなかったケースのみを記録してもよい。また、リスト作成部１０６は、過去の記録を維持してもよいし、上書きしてもよい。例えば、新しいリストが作成されるたびに古いリストを上書きしてもよいし、１００％のマッチングが得られた場合には同じ原テキストに紐づけられた他のリストを削除するようにしてもよい。

次いでステップＳ１０６において、シミュレーションデータ生成装置１００は、読みまたはアクセントの別候補について処理を繰り返すべきか否かを判定する。一実施形態によれば、この判定は、ステップＳ１０４におけるマッチングの結果をもとに判定される。例えば、文字正解精度が１００％でない場合、すなわち、マッチング処理部１０４により原テキストと認識結果の差異部分が抽出された場合に、別候補について処理を繰り返すべきと判定されてもよい。文字正解精度が１００％でなく、かつ、差異部分または差異部分を含む部分（例えば、差異部分を含む文字、単語、文節または文）に関して、すでに音声合成に使用したのとは異なる読みまたはアクセントがある場合に、その読みまたはアクセントを用いて処理を繰り返すべきと判定されてもよい。読みまたはアクセントの別候補の存在は、音声合成部１０２により、言語解析辞書記憶部１０７に記憶された言語解析辞書を検索することにより行われる。あるいは、文字正解精度が１００％であっても、原テキストに含まれる文字、単語、文節または文について異なる読みまたはアクセントの別候補がある場合には、処理を繰り返すべきと判定されてもよい。これにより、同時異音語（heteronym）のように複数の読みが可能な語（例えば、「close」（k-lou-z / k-lou-s）、「上手」（かみて／うわて／じょうず）など）について、特定の読みに限定しない音声データの生成が可能となる。

読みまたはアクセントの別候補について処理を繰り返すべきと判定された場合（ステップＳ１０６：ＹＥＳ）、ステップＳ１０２に戻り、Ｓ１０２～Ｓ１０５を繰り返す。

上記の例で、１回目の処理では、ステップＳ１０２の音声合成において「ｅ－スポーツ」に対して「エ－スポーツ」という読みが付与された。これに対し、２回目の処理では、ステップＳ１０２において、読みの別候補によって「イー－スポーツ」という読みが付与され、これが音声合成器に入力されて音声データが生成されるものとする。そして、この音声データが、ステップＳ１０３の音声認識処理において、音声認識部１０３により音声認識器に入力され、「ｅスポーツが見たい」という認識結果が得られる。この場合、ステップＳ１０４のマッチングでは、原テキスト「ｅスポーツが見たい」と認識テキスト「ｅスポーツが見たい」のマッチングが行われ、すべてのテキストが同じであるので、文字正解精度１００％（差異部分なし）と判定される。

図４Ｂは、そのようなマッチング結果の一例を示す。上記のように原テキスト「ｅスポーツを見たい」に対し、別候補を用いた音声合成２により「イースポーツヲミタイ」、音声認識２により「ｅスポーツを見たい」が得られた。音声認識２の認識結果と原テキストは一致している。

次いでステップＳ１０５において、リスト作成部１０６が任意にリスト更新処理を行う。一例として、リスト作成部１０６は、（原テキスト，認識テキスト，読み）としてリスト（ｅスポーツ，ｅスポーツ，イースポーツ）を作成する。ここでは１００％マッチングが得られたので、１回目の処理で作成されたリスト（ｅスポーツ，Ｓポーツ，エスポーツ）は削除されてもよい。

続いてステップＳ１０６において、再び別候補について処理を繰り返すべきか否かの判定が行われる。上記の例では、２回目の処理で文字正解精度１００％が得られたので処理を終了してもよいし、他に候補がある場合には処理を繰り返してもよい。

ステップＳ１０６において、別候補について処理を繰り返さないと判定された場合（ステップＳ１０６：ＮＯ）、ステップＳ１０７に進む。

ステップＳ１０７において、シミュレーションデータ生成部１０５は、マッチング度合いの高い認識結果の元となった音声データを用いて、原テキストと対応付けたデータセットとして、発話シミュレーションデータを生成する。上記の例では、文字正解精度が高かった２回目の処理で生成された音声データが、発話シミュレーションデータとして採用される。

図５は、マッチング結果の他の例を示す。原テキスト「こんにちは」に対し、音声合成１により音声「コンニチワ」、音声認識１により認識テキスト「こんにちは」が得られた。この場合、１回目の処理で原テキストに完全にマッチし、また別の読み候補もなかったことから、別候補を用いた処理を繰り返さず、音声「コンニチワ」を用いたデータセットが生成される。

図６Ａは、マッチング結果の他の例を示す。原テキスト「九十九の町を見てみたい」に対し、音声合成１により「キュージューキューノマチヲミテミタイ」、音声認識１により「９９の町を見てみたい」が得られた。この例では、原テキストと音声認識１が一致しなかったので、差異部分に関するリスト（九十九，９９，キュージューキュー）が追加され、別候補を用いて再び音声合成が行われた。

図６Ｂは、そのような別候補を用いたマッチング結果の一例を示す。上記のように原テキスト「九十九の町を見てみたい」に対し、音声合成２により「ツクモノマチヲミテミタイ」、音声認識２により「九十九の町を見てみたい」が得られた。この場合、原テキストと音声認識２が一致したので、このときの音声「ツクモノマチヲミテミタイ」がシミュレーション音声として採用される。また、リスト（九十九，九十九，ツクモ）が作成され、音声合成１において作成されたリスト（九十九，９９，キュージューキュー）は削除される。

図７は、原テキストと認識テキストがマッチしないケースの一例を示す。原テキスト「ジタハラって何ですか」に対し、音声合成１により「ジタハラッテナンデスカ」、音声認識１「自田原って何ですか」が得られた。この場合、原テキストと認識テキストは一致していないので、読みの別候補があれば処理を繰り返し、別候補がなければ音声合成１を採用して処理を終了する。このように、マッチングが１００％でない場合にも、得られた音声データの中で最もマッチング度合いが高いものをシミュレーションデータとして採用すれば、膨大な量のデータ全体として見たときに、十分にデータ全体の精度を向上させることができる。マッチングが１００％でなく、別候補も存在しない場合には、音声データにフラグを立てるなどの処理を行ってもよい。

上記のようなシミュレーションデータ生成装置１００は、日本語以外の言語にも適用可能である。一例として中国語で使用される文字には、同一の漢字であっても異なる読みを有する他音字がある。
図８は、マッチング結果の他の例として、中国語の他音字を含む原テキストに対してシミュレーションデータ生成装置１００を適用した例を示す。原テキストに対して、１回目の音声合成１により得られた音声認識１は、原テキストと一致しなかった。この場合、異なる読み候補を用いて再び音声合成を行い、マッチングの度合いがより高い音声データを採用することによって、より正確なデータセットが得られると期待される。

（効果）
以上詳述したように、一実施形態に係るシミュレーションデータ生成装置１００は、与えられた原テキストから音声合成により音声発話データを生成し、それを音声認識により認識した認識結果と原テキストとのテキストマッチングを行い、マッチング度合いを算出する。完全にマッチした場合にはその音声をシミュレーションデータとして採用する。マッチングしなかった場合には、差異部分に別の読み候補を与えて再度音声を合成し、それを認識した２次結果と原テキストとをマッチングする。別の読み候補があれば、その数だけ繰り返されてもよい。そしてシミュレーションデータ生成装置１００は、マッチング度合の高い音声合成結果をシミュレーション音声データとして採用する。

このように、音声合成と音声認識を組み合わせて用いることで、読みが不正確な音声データの数を低減することができ、もとのテキストに読み情報が付与されていない場合でも、音声とテキストのペアを含む、より信頼性の高い、高精度の発話シミュレーションデータを生成することができる。このような発話シミュレーションデータがあれば、膨大なデータを必要とするEnd-to-End音声認識モデルの学習を、より適切かつ効率的に行うことができる。なお、シミュレーションデータ生成装置１００によって生成されるデータは、End-to-Endモデルへの適用に限定されるものではなく、音声とテキストのペアを使用するものであればどのようなモデルに適用されてもよい。

またシミュレーションデータ生成装置１００は、マッチングの結果をリストとして記録することもできる。これにより、処理効率の向上や、データ生成精度の改善に役立てることができる。

以上のとおり、実施形態によれば、読みが付与されていないテキストを用いて、音声とテキストとのペアを含む精度の高い発話シミュレーションデータを生成できる技術が提供される。

［他の実施形態］
なお、この発明は上記実施形態に限定されるものではない。例えば、シミュレーションデータ生成装置１００が備える各機能部を、複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。言語解析辞書記憶部１０７およびリスト記憶部１０８は、外部装置に設けられてもよい。

さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。また、以上で説明した一連の処理は、時間的に連続して実行される必要はなく、各ステップは任意のタイミングで実行されてもよい。

音声合成、音声認識、マッチング処理等についても、上記で説明した具体例に限定されず、同様の効果を奏する他の処理で代替されてもよい。例えば音声合成部１０２は、必ずしも言語解析辞書を使用する必要はなく、他の方法で文字や単語の読みを推定するようにしてもよい。

以上で記載した手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウェア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記録媒体（記憶媒体）に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段（実行プログラムのみならずテーブル、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。上記装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

その他、リストのデータ形式等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…シミュレーションデータ生成装置、１０１…テキスト取得部、１０２…音声合成部、１０３…音声認識部、１０４…マッチング処理部、１０５…シミュレーションデータ生成部、１０６…リスト作成部、１０７…言語解析辞書記憶部、１０８…リスト記憶部、１００４…補助記憶装置、１００５…入力装置、１００６…出力装置、１００７…通信装置。

Claims

原テキストから音声データを生成する音声合成部と、
前記音声データから音声認識により認識テキストを生成する音声認識部と、
前記原テキストと前記認識テキストとのマッチングを行うマッチング処理部と、
前記マッチングの結果に基づき、前記原テキストに対するマッチング度がある条件を満たす認識テキストの元となった音声データと、前記原テキストとを対応付けて、データセットを生成する、データセット生成部と
を備え、
前記音声合成部は、前記原テキストから生成された第１の音声データについて、前記マッチング処理部によるマッチングの結果、前記第１の音声データから生成される第１の認識テキストと前記原テキストとに差分がある場合に、当該差分を含む前記原テキストの文字、単語、文節または文の少なくとも１つに対し、前記第１の音声データの生成時に割り当てたのとは異なる読みまたはアクセントの少なくとも１つを割り当てて、第２の音声データを生成し、
前記データセット生成部は、前記第２の音声データから生成される第２の認識テキストおよび前記第１の認識テキストのうち、前記マッチング度が高い方の認識テキストの元となった前記第１の音声データまたは前記第２の音声データを用いて前記データセットを生成する、
データ生成装置。
前記マッチングの結果、前記原テキストと前記認識テキストとに差分がある場合に、当該差分を含む前記原テキストの文字、単語、文節または文の少なくとも１つと、前記音声データの情報とを対応付けて記録するリスト作成部をさらに備える、
請求項１に記載のデータ生成装置。
前記リスト作成部は、前記音声データの情報として、前記差分を含む前記原テキストの文字、単語、文節または文の少なくとも１つに割り当てられた、読みまたはアクセントの少なくとも１つを記録する、
請求項２に記載のデータ生成装置。
前記音声合成部は、文字、単語、文節または文に対して割り当て得る、読みおよびアクセントを定義する言語解析辞書と、前記原テキストに含まれる文字、単語、文節または文との対応関係に基づき、可能な組合せのうちの少なくとも１つに対応する読みおよびアクセントを用いて前記音声データを生成する、
請求項１に記載のデータ生成装置。
前記音声合成部は、前記可能な組合せの各々について、前記言語解析辞書で定義された対応する読みおよびアクセントを用いて前記音声データを生成する、
請求項４に記載のデータ生成装置。
前記マッチング度は、前記原テキストに対する文字正解精度、単語正解精度、正解文字数または正解単語数の少なくとも１つとして算出される、
請求項１に記載のデータ生成装置。
原テキストから音声データを生成することと、
前記音声データから音声認識により認識テキストを生成することと、
前記原テキストと前記認識テキストとのマッチングを行うことと、
前記マッチングの結果に基づき、前記原テキストに対するマッチング度がある条件を満たす認識テキストの元となった音声データと、前記原テキストとを対応付けて、データセットを生成することと
を備え、
前記音声データを生成することは、前記原テキストから生成された第１の音声データについて、前記マッチングを行うことによるマッチングの結果、前記第１の音声データから生成される第１の認識テキストと前記原テキストとに差分がある場合に、当該差分を含む前記原テキストの文字、単語、文節または文の少なくとも１つに対し、前記第１の音声データの生成時に割り当てたのとは異なる読みまたはアクセントの少なくとも１つを割り当てて、第２の音声データを生成し、
前記データセットを生成することは、前記第２の音声データから生成される第２の認識テキストおよび前記第１の認識テキストのうち、前記マッチング度が高い方の認識テキストの元となった前記第１の音声データまたは前記第２の音声データを用いて前記データセットを生成する、
データ生成方法。
請求項１乃至請求項６のいずれか一項に記載の装置の各部による処理をプロセッサに実行させるプログラム。