JP7314079B2 - データ生成装置、データ生成方法およびプログラム - Google Patents

データ生成装置、データ生成方法およびプログラム Download PDF

Info

Publication number
JP7314079B2
JP7314079B2 JP2020027986A JP2020027986A JP7314079B2 JP 7314079 B2 JP7314079 B2 JP 7314079B2 JP 2020027986 A JP2020027986 A JP 2020027986A JP 2020027986 A JP2020027986 A JP 2020027986A JP 7314079 B2 JP7314079 B2 JP 7314079B2
Authority
JP
Japan
Prior art keywords
data
speech
text
matching
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020027986A
Other languages
English (en)
Other versions
JP2021131514A (ja
Inventor
浩司 藤村
憲治 岩田
フイ ディー
ポンフェイ チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020027986A priority Critical patent/JP7314079B2/ja
Priority to CN202010896712.1A priority patent/CN113299266A/zh
Priority to US17/007,522 priority patent/US11694028B2/en
Publication of JP2021131514A publication Critical patent/JP2021131514A/ja
Application granted granted Critical
Publication of JP7314079B2 publication Critical patent/JP7314079B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、データ生成装置、データ生成方法およびプログラムに関する。
発話音声をテキストに変換する音声認識技術が知られている。このような音声認識技術では、例えば、音声入力からそのテキスト出力までをEnd-to-Endのモデルとして学習させ、性能を改善させることができる。一般に、モデルの学習には、膨大な量の音声発話データとその書き起こしテキストが同時に必要となる。モデルの学習に使用される学習データとして、発音情報が付与されたテキストを用いて音声合成を行い、音声発話を模したシミュレーションデータを生成することが考えられる。
しかし、発音情報が付与されていないテキストしかない場合、読み間違いなどにより、合成音声が不正確なものとなる。不正確な合成音声とテキストのペアを含むシミュレーションデータでは、モデルを適切に学習させることができない。
本発明が解決しようとする課題は、音声とテキストのペアを含む精度の高い発話シミュレーションデータを生成できるデータ生成装置、データ生成方法、およびプログラムを提供することである。
一実施形態によるデータ生成装置は、音声合成部と、音声認識部と、マッチング処理部と、データセット生成部とを有する。音声合成部は、原テキストから音声データを生成する。音声認識部は、音声合成部により生成された音声データから、音声認識により認識テキストを生成する。マッチング処理部は、原テキストと、音声認識部により生成された認識テキストとのマッチングを行う。データセット生成部は、マッチングの結果に基づき、原テキストに対するマッチング度がある条件を満たす認識テキストの元となった音声データと原テキストとを対応付けて、データセットを生成する。
図1は、一実施形態に係るデータ生成装置の機能構成を例示するブロック図である。 図2は、一実施形態に係るデータ生成装置のハードウェア構成を例示するブロック図である。 図3は、一実施形態に係るデータ生成装置による処理動作を例示するフローチャートである。 図4Aは、一実施形態に係るデータ生成装置によるマッチング結果の第1の例を示す図である。 図4Bは、図4Aの原テキストに対して異なる読みを用いたときのマッチング結果の一例を示す図である。 図5は、一実施形態に係るデータ生成装置によるマッチング結果の第2の例を示す図である。 図6Aは、一実施形態に係るデータ生成装置によるマッチング結果の第3の例を示す図である。 図6Bは、図6Aの原テキストに対して異なる読みを用いたときのマッチング結果の一例を示す図である。 図7は、一実施形態に係るデータ生成装置によるマッチング結果の第4の例を示す図である。 図8は、一実施形態に係るデータ生成装置によるマッチング結果の第5の例を示す図である。
以下、図面を参照してこの発明に係わる実施形態を説明する。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。例えば、複数の同一または類似の要素が存在する場合に、各要素を区別せずに説明するために共通の符号を用いることがあるし、各要素を区別して説明するために当該共通の符号に加えて枝番号を用いることもある。
[一実施形態]
(構成)
図1は、一実施形態に係るデータ生成装置としてのシミュレーションデータ生成装置100の構成を概略的に示すブロック図である。
シミュレーションデータ生成装置100は、例えば、サーバコンピュータやパーソナルコンピュータ等のコンピュータであり、音声とテキストのペアを含む発話シミュレーションデータを生成する。シミュレーションデータ生成装置100は、テキスト取得部101、音声合成部102、音声認識部103、マッチング処理部104、シミュレーションデータ生成部105、およびリスト作成部106を処理機能部として備える。シミュレーションデータ生成装置100は、言語解析辞書記憶部107およびリスト記憶部108をさらに備え得る。
テキスト取得部101は、原テキストの入力を受け付け、原テキストを音声合成部102およびマッチング処理部104に渡す処理を行う。
音声合成部102は、原テキストを解析し、原テキストから読み(発音)およびアクセント、イントネーションなどを推定し、音声合成により音声データを生成する。音声合成部102は、読みおよびアクセントの推定のために、言語解析辞書記憶部107に記憶された言語解析辞書を使用し得る。言語解析辞書は、例えば、文字、単語、文節または文に割り当て得る読みおよびアクセントを定義する。音声合成部102は、言語解析辞書に定義された文字、単語、文節または文と、原テキストに含まれる文字、単語、文節または文との対応に基づいて、読みおよびアクセントを推定する。原テキストをどこで区切るかも含めて、言語解析辞書と原テキストとの対応に複数の可能な組合せが存在する場合、後述するように、音声合成部102は、それらの組合せを別候補として音声合成に用いることができる。また後述するように、音声合成部102は、マッチング処理部104からマッチング結果を受け取ると、原テキストの少なくとも一部分に対して異なる読みまたはアクセントを割り当てて、異なる音声データを生成し得る。音声合成部102は、生成した音声データを音声認識部103に渡す。
音声認識部103は、音声合成部102により生成された音声データを受け取り、音声認識により、当該音声データからテキストを生成し、認識結果(「認識テキスト」とも言う)としてマッチング処理部104に出力する。
マッチング処理部104は、テキスト取得部101から原テキストを、音声認識部103から認識結果を受け取り、原テキストと認識結果とのマッチングを行い、差異部分(「差分」とも言う)を抽出し、シミュレーションデータ生成部105に出力する。マッチング処理部104はまた、差異部分を音声合成部102にも出力し得る。差異部分を受け取った音声合成部102は、上述したように、当該差異部分を含む、原テキストの文字、単語、文節または文に対して別の読みまたはアクセントを割り当て、原テキストから再び音声データを生成する。マッチング処理部104はまた、マッチング結果をリスト作成部106にも出力し得る。
データセット生成部としてのシミュレーションデータ生成部105は、マッチング処理部104から受け取った差異部分によりマッチング度合いを算出し、マッチング度合いに基づいて、音声合成部102により生成された音声データと原テキストとを対応付けたデータセットとして発話シミュレーションデータを生成する。一実施形態では、シミュレーションデータ生成部105は、原テキストと認識結果との差異部分に基づき、原テキストに対するマッチングの度合い(「マッチング度」とも言う)を算出する。そして、マッチングの度合いが所定の条件を満たす認識結果の元となった音声データを用いて、データセットを生成する。マッチングの度合いは、例えば文字正解精度として算出される。文字正解精度は、原テキスト(正解テキスト)との文字の一致率を指す。マッチングの度合いは単語正解精度として算出されてもよい。あるいはマッチングの度合いは、原テキストと一致する文字数または単語数として算出されてもよい。
シミュレーションデータ生成部105は、読みまたはアクセントの複数の候補に基づいて複数の音声データが生成され、そのそれぞれから複数の認識結果が生成された場合、最もマッチングの度合いが高い認識結果の元となった音声データだけを用いてデータセットを生成することができる。マッチングの度合いが同じものが複数ある場合、シミュレーションデータ生成部105は、いずれかひとつをランダムに選択してもよい。あるいはシミュレーションデータ生成部105は、マッチング度が所定のしきい値以上の認識結果の元となったすべての音声データを採用して、それぞれを原テキストと対応付けたデータセットを生成してもよい。
リスト作成部106は、マッチング処理部104からマッチング結果を受け取り、処理の履歴を記録するためのリストを作成する。
言語解析辞書記憶部107は、音声合成部102により音声合成に使用され得る、あらかじめ定義された言語解析辞書を記憶する。
リスト記憶部108は、リスト作成部106により作成されるリストを記憶する。
図2は、上記のようなシミュレーションデータ生成装置100のハードウェア構成例を概略的に示している。図2に示すように、シミュレーションデータ生成装置100は、CPU(Central Processing Unit)1001、RAM(Random Access Memory)1002、ROM(Read Only Memory)1003、補助記憶装置1004、入力装置1005、出力装置1006、および通信装置1007を備える。
シミュレーションデータ生成装置100の上述した処理機能は、CPU1001がROM1003または補助記憶装置1004に記憶されたプログラムをRAM1002に展開し、このプログラムを実行することにより実現される。CPU1001はハードウェアプロセッサの一例である。ハードウェアプロセッサは、CPU1001などの汎用プロセッサに限らず、ASIC(Application Specific Integrated Circuit)またはFPGA(Field-Programmable Gate Array)などの専用プロセッサであってもよい。
補助記憶装置1004は、データを不揮発的に記憶するコンピュータ読み取り可能な記憶媒体を備えたものであり、例えば、HDD(Hard Disk Drive)またはSDD(Solid State Drive)であり得る。補助記憶装置1004は、言語解析辞書記憶部107およびリスト記憶部108を含む記憶部として動作する。
入力装置1005は、例えば、キーボード、マウス、ジョイスティック、マイクロフォン等を備える。出力装置1006は、例えば、液晶ディスプレイや有機ELディスプレイ等の表示装置、スピーカ等を備える。入力装置1005と出力装置1006は、液晶パネル等の表示デバイスとタッチパッド等の入力デバイスとを組み合わせた一体型のタッチパネル型装置であってもよい。
通信装置1007は、外部装置に対して無線または有線通信を行う。通信装置1007は、例えば、LAN(Local Area Network)ポートを備え、LANケーブルを用いて通信ネットワークに接続され、通信ネットワークを介して外部の装置との間でデータを送受信する。通信装置1007は、例えば無線LANモジュールまたはBluetooth(登録商標)モジュールなどの無線モジュールを備えてよい。通信装置1007はまた、USBポートなどの外部インタフェースを含み得る。
上記のように、End-to-Endモデルをはじめとする音声認識モデルの学習には、音声とテキストのペアを含む膨大なデータが必要である。発音情報が付与されたテキストがあれば、音声合成を利用して音声発話を模したシミュレーションデータを生成することが可能である。しかし、発音情報が付与されていないテキストしかない場合、音声合成の際に読みを間違え、不正確な音声データを含むシミュレーションデータを生成してしまうおそれがある。
例えば、「eスポーツを見たい」というテキストがあったときに、本来であれば「イースポーツヲミタイ」という読みを用いて学習を行いたい。しかし、読み推定を誤ると「エスポーツヲミタイ」などの音声が対応付けられたシミュレーションデータとなる。このようなシミュレーションデータを用いた場合、「eスポーツを見たい」は「エスポーツヲミタイ」という発音で学習されてしまう。
このように、テキストデータから自動で読み推定をし、シミュレーション音声を生成すると、読み推定を誤った場合に、正しい発音で学習したい発話を学習させることができなくなるおそれがある。
そこで、一実施形態に係るシミュレーションデータ生成装置100は、与えられたテキストデータから音声合成により音声発話データを生成し、それを音声認識により認識した1次結果と原テキストとのテキストマッチングを行い、マッチング度合いを算出する。完全にマッチした場合にはその音声をシミュレーションデータとして採用する。完全にマッチしなかった場合には、差異部分に対して別の読み候補を与えて、再度音声を合成し、それを認識した2次結果と原テキストとをマッチングする。これを別の読み候補の数だけ繰り返し、マッチング度合の高い音声合成結果をシミュレーション音声データとして採用する。これにより、より正確な発音のシミュレーション音声を用いた、精度の高い発話シミュレーションデータが生成される。
(動作)
次に、以上のように構成された一実施形態に係るシミュレーションデータ生成装置100の動作について説明する。
図3は、シミュレーションデータ生成装置100の処理動作の第1の例を概略的に示すフローチャートである。図3に示すように、シミュレーションデータ生成装置100は、まずステップS101において、テキストの入力を待ち受ける。テキストの入力は、いずれの方法で行われてもよい。例えば、テキストは、シミュレーションデータ生成装置100のユーザにより入力装置1005を介して入力されてもよいし、USBなどの外付け記憶媒体やネットワーク上のデータベースサーバ等からテキストデータとして読み込まれてもよい。
ここで、一例として、テキスト取得部101により、「eスポーツを見たい」というテキストの入力を受け付けるものとする。なお、入力されるテキストは、1文である必要はなく、複数の文であってもよいし、単語など文の一部であってもよい。テキストの入力を受け付けたら(ステップS101:YES)、後続のステップに進む。
ステップS102において、シミュレーションデータ生成装置100は、音声合成部102により、テキスト取得部101から受け取ったテキストを解析し、読みおよびアクセントを推定し、それらを入力とする音声合成によって合成音声データを生成する。音声合成部102による音声合成には、一般的な音声合成器を用いてよい。例えば、音声合成部102は、HMM音声合成手法や、WaveNetなどのEnd-to-End音声合成手法を用いることができるが、これらに限定されない。
音声合成部102による読みおよびアクセントの推定には、上述したような言語解析辞書を用いることができる。音声合成部102は、例えば、テキストに含まれる、文字、単語、文節または文ごとに読みを推定する。
ここでは一例として、テキスト「eスポーツを見たい」に対する音声合成部102による読み推定結果として、「エスポーツヲミタイ」という読みとそれに最適なアクセントが得られたとする。その結果、音声合成部102により「エスポーツヲミタイ」という音声データが生成され、音声認識部103に出力される。
次いでステップS103において、シミュレーションデータ生成装置100は、音声合成部102から出力された音声データに基づき、音声認識部103により、音声認識処理を行い、その認識結果を出力する。上記の例で、音声合成部102により生成され出力された「エスポーツヲミタイ」という音声データが音声認識部103に入力されると、音声認識部103は、例えば「Sポーツを見たい」という認識結果(または認識テキスト)を出力する。音声認識部103による音声認識には、一般的な音声認識器を用いてよい。例えば、音声認識部103は、音響モデルと言語モデルを用いた音声認識手法や、音響モデルと言語モデルが一体となったEnd-to-End音声認識手法を用いることができるが、これらに限定されない。
ステップS104において、シミュレーションデータ生成装置100は、マッチング処理部104により、音声認識部103により出力された認識結果と原テキストとのマッチングを行い、差異部分(または差分)を抽出し、出力する。上記の例で、マッチング処理部104は、原テキスト「eスポーツを見たい」と、音声認識部103による認識結果「Sポーツを見たい」のマッチングを行い、「e-スポーツ」と「S-ポーツ」という差異部分を含む単語を抽出する。マッチング処理部104によるマッチングには、単語単位の一般的なDPマッチングを用いてよい。ただしこれらに限定されるものではなく、他の方法を用いて差異部分の抽出を行ってもよい。例えば、マッチング処理部104は、文字単位、文節単位、または文単位で差異部分の抽出を行ってもよい。
図4Aは、そのようなマッチング結果の一例を示す。上記のように原テキスト「eスポーツを見たい」から、音声合成1により音声「エスポーツヲミタイ」が得られ、当該音声から音声認識1により認識テキスト「Sポーツを見たい」が得られた。音声認識1の認識結果と原テキストは一致していない。
ステップS105において、シミュレーションデータ生成装置100は、リスト作成部106によりリストを作成し、リスト記憶部108に格納された情報を更新する。リスト作成部106は、シミュレーションデータの生成における処理履歴として、原テキスト、得られた認識テキスト、そのときの音声データなどをリストとして記録することができる。一例として、リスト作成部106は、(原テキスト,認識テキスト,読み)の形式で情報を記録する。図4Aの例では、差異部分について(eスポーツ,Sポーツ,エスポーツ)として記録されてもよい。リストには、差異部分だけでなく全文が記録されてもよいし、マッチング結果やアクセントに関する情報がさらに記録されてもよい。
ステップS105は任意ステップである。リスト作成部106は、すべてのマッチング結果を記録してもよいし、特定の結果のみを記録してもよい。例えば、リスト作成部106は、100%のマッチングが得られたケースのみを記録してもよいし、100%のマッチングが得られなかったケースのみを記録してもよい。また、リスト作成部106は、過去の記録を維持してもよいし、上書きしてもよい。例えば、新しいリストが作成されるたびに古いリストを上書きしてもよいし、100%のマッチングが得られた場合には同じ原テキストに紐づけられた他のリストを削除するようにしてもよい。
次いでステップS106において、シミュレーションデータ生成装置100は、読みまたはアクセントの別候補について処理を繰り返すべきか否かを判定する。一実施形態によれば、この判定は、ステップS104におけるマッチングの結果をもとに判定される。例えば、文字正解精度が100%でない場合、すなわち、マッチング処理部104により原テキストと認識結果の差異部分が抽出された場合に、別候補について処理を繰り返すべきと判定されてもよい。文字正解精度が100%でなく、かつ、差異部分または差異部分を含む部分(例えば、差異部分を含む文字、単語、文節または文)に関して、すでに音声合成に使用したのとは異なる読みまたはアクセントがある場合に、その読みまたはアクセントを用いて処理を繰り返すべきと判定されてもよい。読みまたはアクセントの別候補の存在は、音声合成部102により、言語解析辞書記憶部107に記憶された言語解析辞書を検索することにより行われる。あるいは、文字正解精度が100%であっても、原テキストに含まれる文字、単語、文節または文について異なる読みまたはアクセントの別候補がある場合には、処理を繰り返すべきと判定されてもよい。これにより、同時異音語(heteronym)のように複数の読みが可能な語(例えば、「close」(k-lou-z / k-lou-s)、「上手」(かみて/うわて/じょうず)など)について、特定の読みに限定しない音声データの生成が可能となる。
読みまたはアクセントの別候補について処理を繰り返すべきと判定された場合(ステップS106:YES)、ステップS102に戻り、S102~S105を繰り返す。
上記の例で、1回目の処理では、ステップS102の音声合成において「e-スポーツ」に対して「エ-スポーツ」という読みが付与された。これに対し、2回目の処理では、ステップS102において、読みの別候補によって「イー-スポーツ」という読みが付与され、これが音声合成器に入力されて音声データが生成されるものとする。そして、この音声データが、ステップS103の音声認識処理において、音声認識部103により音声認識器に入力され、「eスポーツが見たい」という認識結果が得られる。この場合、ステップS104のマッチングでは、原テキスト「eスポーツが見たい」と認識テキスト「eスポーツが見たい」のマッチングが行われ、すべてのテキストが同じであるので、文字正解精度100%(差異部分なし)と判定される。
図4Bは、そのようなマッチング結果の一例を示す。上記のように原テキスト「eスポーツを見たい」に対し、別候補を用いた音声合成2により「イースポーツヲミタイ」、音声認識2により「eスポーツを見たい」が得られた。音声認識2の認識結果と原テキストは一致している。
次いでステップS105において、リスト作成部106が任意にリスト更新処理を行う。一例として、リスト作成部106は、(原テキスト,認識テキスト,読み)としてリスト(eスポーツ,eスポーツ,イースポーツ)を作成する。ここでは100%マッチングが得られたので、1回目の処理で作成されたリスト(eスポーツ,Sポーツ,エスポーツ)は削除されてもよい。
続いてステップS106において、再び別候補について処理を繰り返すべきか否かの判定が行われる。上記の例では、2回目の処理で文字正解精度100%が得られたので処理を終了してもよいし、他に候補がある場合には処理を繰り返してもよい。
ステップS106において、別候補について処理を繰り返さないと判定された場合(ステップS106:NO)、ステップS107に進む。
ステップS107において、シミュレーションデータ生成部105は、マッチング度合いの高い認識結果の元となった音声データを用いて、原テキストと対応付けたデータセットとして、発話シミュレーションデータを生成する。上記の例では、文字正解精度が高かった2回目の処理で生成された音声データが、発話シミュレーションデータとして採用される。
図5は、マッチング結果の他の例を示す。原テキスト「こんにちは」に対し、音声合成1により音声「コンニチワ」、音声認識1により認識テキスト「こんにちは」が得られた。この場合、1回目の処理で原テキストに完全にマッチし、また別の読み候補もなかったことから、別候補を用いた処理を繰り返さず、音声「コンニチワ」を用いたデータセットが生成される。
図6Aは、マッチング結果の他の例を示す。原テキスト「九十九の町を見てみたい」に対し、音声合成1により「キュージューキューノマチヲミテミタイ」、音声認識1により「99の町を見てみたい」が得られた。この例では、原テキストと音声認識1が一致しなかったので、差異部分に関するリスト(九十九,99,キュージューキュー)が追加され、別候補を用いて再び音声合成が行われた。
図6Bは、そのような別候補を用いたマッチング結果の一例を示す。上記のように原テキスト「九十九の町を見てみたい」に対し、音声合成2により「ツクモノマチヲミテミタイ」、音声認識2により「九十九の町を見てみたい」が得られた。この場合、原テキストと音声認識2が一致したので、このときの音声「ツクモノマチヲミテミタイ」がシミュレーション音声として採用される。また、リスト(九十九,九十九,ツクモ)が作成され、音声合成1において作成されたリスト(九十九,99,キュージューキュー)は削除される。
図7は、原テキストと認識テキストがマッチしないケースの一例を示す。原テキスト「ジタハラって何ですか」に対し、音声合成1により「ジタハラッテナンデスカ」、音声認識1「自田原って何ですか」が得られた。この場合、原テキストと認識テキストは一致していないので、読みの別候補があれば処理を繰り返し、別候補がなければ音声合成1を採用して処理を終了する。このように、マッチングが100%でない場合にも、得られた音声データの中で最もマッチング度合いが高いものをシミュレーションデータとして採用すれば、膨大な量のデータ全体として見たときに、十分にデータ全体の精度を向上させることができる。マッチングが100%でなく、別候補も存在しない場合には、音声データにフラグを立てるなどの処理を行ってもよい。
上記のようなシミュレーションデータ生成装置100は、日本語以外の言語にも適用可能である。一例として中国語で使用される文字には、同一の漢字であっても異なる読みを有する他音字がある。
図8は、マッチング結果の他の例として、中国語の他音字を含む原テキストに対してシミュレーションデータ生成装置100を適用した例を示す。原テキストに対して、1回目の音声合成1により得られた音声認識1は、原テキストと一致しなかった。この場合、異なる読み候補を用いて再び音声合成を行い、マッチングの度合いがより高い音声データを採用することによって、より正確なデータセットが得られると期待される。
(効果)
以上詳述したように、一実施形態に係るシミュレーションデータ生成装置100は、与えられた原テキストから音声合成により音声発話データを生成し、それを音声認識により認識した認識結果と原テキストとのテキストマッチングを行い、マッチング度合いを算出する。完全にマッチした場合にはその音声をシミュレーションデータとして採用する。マッチングしなかった場合には、差異部分に別の読み候補を与えて再度音声を合成し、それを認識した2次結果と原テキストとをマッチングする。別の読み候補があれば、その数だけ繰り返されてもよい。そしてシミュレーションデータ生成装置100は、マッチング度合の高い音声合成結果をシミュレーション音声データとして採用する。
このように、音声合成と音声認識を組み合わせて用いることで、読みが不正確な音声データの数を低減することができ、もとのテキストに読み情報が付与されていない場合でも、音声とテキストのペアを含む、より信頼性の高い、高精度の発話シミュレーションデータを生成することができる。このような発話シミュレーションデータがあれば、膨大なデータを必要とするEnd-to-End音声認識モデルの学習を、より適切かつ効率的に行うことができる。なお、シミュレーションデータ生成装置100によって生成されるデータは、End-to-Endモデルへの適用に限定されるものではなく、音声とテキストのペアを使用するものであればどのようなモデルに適用されてもよい。
またシミュレーションデータ生成装置100は、マッチングの結果をリストとして記録することもできる。これにより、処理効率の向上や、データ生成精度の改善に役立てることができる。
以上のとおり、実施形態によれば、読みが付与されていないテキストを用いて、音声とテキストとのペアを含む精度の高い発話シミュレーションデータを生成できる技術が提供される。
[他の実施形態]
なお、この発明は上記実施形態に限定されるものではない。例えば、シミュレーションデータ生成装置100が備える各機能部を、複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。言語解析辞書記憶部107およびリスト記憶部108は、外部装置に設けられてもよい。
さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。また、以上で説明した一連の処理は、時間的に連続して実行される必要はなく、各ステップは任意のタイミングで実行されてもよい。
音声合成、音声認識、マッチング処理等についても、上記で説明した具体例に限定されず、同様の効果を奏する他の処理で代替されてもよい。例えば音声合成部102は、必ずしも言語解析辞書を使用する必要はなく、他の方法で文字や単語の読みを推定するようにしてもよい。
以上で記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウェア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体(記憶媒体)に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段(実行プログラムのみならずテーブル、データ構造も含む)を計算機内に構成させる設定プログラムをも含む。上記装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。
その他、リストのデータ形式等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100…シミュレーションデータ生成装置、101…テキスト取得部、102…音声合成部、103…音声認識部、104…マッチング処理部、105…シミュレーションデータ生成部、106…リスト作成部、107…言語解析辞書記憶部、108…リスト記憶部、1004…補助記憶装置、1005…入力装置、1006…出力装置、1007…通信装置。

Claims (8)

  1. 原テキストから音声データを生成する音声合成部と、
    前記音声データから音声認識により認識テキストを生成する音声認識部と、
    前記原テキストと前記認識テキストとのマッチングを行うマッチング処理部と、
    前記マッチングの結果に基づき、前記原テキストに対するマッチング度がある条件を満たす認識テキストの元となった音声データと、前記原テキストとを対応付けて、データセットを生成する、データセット生成部と
    を備え、
    前記音声合成部は、前記原テキストから生成された第1の音声データについて、前記マッチング処理部によるマッチングの結果、前記第1の音声データから生成される第1の認識テキストと前記原テキストとに差分がある場合に、当該差分を含む前記原テキストの文字、単語、文節または文の少なくとも1つに対し、前記第1の音声データの生成時に割り当てたのとは異なる読みまたはアクセントの少なくとも1つを割り当てて、第2の音声データを生成し、
    前記データセット生成部は、前記第2の音声データから生成される第2の認識テキストおよび前記第1の認識テキストのうち、前記マッチング度が高い方の認識テキストの元となった前記第1の音声データまたは前記第2の音声データを用いて前記データセットを生成する、
    データ生成装置。
  2. 前記マッチングの結果、前記原テキストと前記認識テキストとに差分がある場合に、当該差分を含む前記原テキストの文字、単語、文節または文の少なくとも1つと、前記音声データの情報とを対応付けて記録するリスト作成部をさらに備える、
    請求項1に記載のデータ生成装置。
  3. 前記リスト作成部は、前記音声データの情報として、前記差分を含む前記原テキストの文字、単語、文節または文の少なくとも1つに割り当てられた、読みまたはアクセントの少なくとも1つを記録する、
    請求項に記載のデータ生成装置。
  4. 前記音声合成部は、文字、単語、文節または文に対して割り当て得る、読みおよびアクセントを定義する言語解析辞書と、前記原テキストに含まれる文字、単語、文節または文との対応関係に基づき、可能な組合せのうちの少なくとも1つに対応する読みおよびアクセントを用いて前記音声データを生成する、
    請求項1に記載のデータ生成装置。
  5. 前記音声合成部は、前記可能な組合せの各々について、前記言語解析辞書で定義された対応する読みおよびアクセントを用いて前記音声データを生成する、
    請求項に記載のデータ生成装置。
  6. 前記マッチング度は、前記原テキストに対する文字正解精度、単語正解精度、正解文字数または正解単語数の少なくとも1つとして算出される、
    請求項1に記載のデータ生成装置。
  7. 原テキストから音声データを生成することと、
    前記音声データから音声認識により認識テキストを生成することと、
    前記原テキストと前記認識テキストとのマッチングを行うことと、
    前記マッチングの結果に基づき、前記原テキストに対するマッチング度がある条件を満たす認識テキストの元となった音声データと、前記原テキストとを対応付けて、データセットを生成することと
    を備え、
    前記音声データを生成することは、前記原テキストから生成された第1の音声データについて、前記マッチングを行うことによるマッチングの結果、前記第1の音声データから生成される第1の認識テキストと前記原テキストとに差分がある場合に、当該差分を含む前記原テキストの文字、単語、文節または文の少なくとも1つに対し、前記第1の音声データの生成時に割り当てたのとは異なる読みまたはアクセントの少なくとも1つを割り当てて、第2の音声データを生成し、
    前記データセットを生成することは、前記第2の音声データから生成される第2の認識テキストおよび前記第1の認識テキストのうち、前記マッチング度が高い方の認識テキストの元となった前記第1の音声データまたは前記第2の音声データを用いて前記データセットを生成する、
    データ生成方法。
  8. 請求項1乃至請求項のいずれか一項に記載の装置の各部による処理をプロセッサに実行させるプログラム。
JP2020027986A 2020-02-21 2020-02-21 データ生成装置、データ生成方法およびプログラム Active JP7314079B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020027986A JP7314079B2 (ja) 2020-02-21 2020-02-21 データ生成装置、データ生成方法およびプログラム
CN202010896712.1A CN113299266A (zh) 2020-02-21 2020-08-31 数据生成装置、数据生成方法以及记录介质
US17/007,522 US11694028B2 (en) 2020-02-21 2020-08-31 Data generation apparatus and data generation method that generate recognition text from speech data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020027986A JP7314079B2 (ja) 2020-02-21 2020-02-21 データ生成装置、データ生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2021131514A JP2021131514A (ja) 2021-09-09
JP7314079B2 true JP7314079B2 (ja) 2023-07-25

Family

ID=77318618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020027986A Active JP7314079B2 (ja) 2020-02-21 2020-02-21 データ生成装置、データ生成方法およびプログラム

Country Status (3)

Country Link
US (1) US11694028B2 (ja)
JP (1) JP7314079B2 (ja)
CN (1) CN113299266A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898733A (zh) * 2022-05-06 2022-08-12 深圳妙月科技有限公司 Ai语音数据的分析处理方法及系统
WO2024009890A1 (ja) * 2022-07-04 2024-01-11 日本電気株式会社 学習データ生成装置、音声認識モデル生成装置、学習データ生成方法、音声認識モデル生成方法、および記録媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029776A (ja) 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003108180A (ja) 2001-09-26 2003-04-11 Seiko Epson Corp 音声合成方法および音声合成装置
JP2014240884A (ja) 2013-06-11 2014-12-25 株式会社東芝 コンテンツ作成支援装置、方法およびプログラム
JP2017207546A (ja) 2016-05-16 2017-11-24 日本電信電話株式会社 残響環境判定装置、残響環境判定方法、プログラム
JP2019120841A (ja) 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000764B (zh) * 2006-12-18 2011-05-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
US10088976B2 (en) * 2009-01-15 2018-10-02 Em Acquisition Corp., Inc. Systems and methods for multiple voice document narration
US9002703B1 (en) * 2011-09-28 2015-04-07 Amazon Technologies, Inc. Community audio narration generation
US8996352B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US8768704B1 (en) * 2013-09-30 2014-07-01 Google Inc. Methods and systems for automated generation of nativized multi-lingual lexicons
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
CN108010523B (zh) * 2016-11-02 2023-05-09 松下电器(美国)知识产权公司 信息处理方法以及记录介质
CN107657947B (zh) * 2017-09-20 2020-11-24 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN108597502A (zh) * 2018-04-27 2018-09-28 上海适享文化传播有限公司 基于对抗训练的领域语音识别训练方法
CN110246485B (zh) * 2019-05-21 2024-05-24 平安科技(深圳)有限公司 基于语音识别模型的样本数据获取方法、终端设备及介质
CN110706690B (zh) * 2019-09-16 2024-06-25 平安科技(深圳)有限公司 语音识别方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029776A (ja) 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003108180A (ja) 2001-09-26 2003-04-11 Seiko Epson Corp 音声合成方法および音声合成装置
JP2014240884A (ja) 2013-06-11 2014-12-25 株式会社東芝 コンテンツ作成支援装置、方法およびプログラム
JP2017207546A (ja) 2016-05-16 2017-11-24 日本電信電話株式会社 残響環境判定装置、残響環境判定方法、プログラム
JP2019120841A (ja) 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法

Also Published As

Publication number Publication date
US20210264895A1 (en) 2021-08-26
JP2021131514A (ja) 2021-09-09
US11694028B2 (en) 2023-07-04
CN113299266A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
KR101056080B1 (ko) 음운 기반의 음성 인식 시스템 및 방법
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
McGraw et al. Learning lexicons from speech using a pronunciation mixture model
JP6392012B2 (ja) 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
Ekpenyong et al. Statistical parametric speech synthesis for Ibibio
Reddy et al. Integration of statistical models for dictation of document translations in a machine-aided human translation task
Kurimo et al. Modeling under-resourced languages for speech recognition
JP7314079B2 (ja) データ生成装置、データ生成方法およびプログラム
Proença et al. Automatic evaluation of reading aloud performance in children
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
Serrino et al. Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition.
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
Bettayeb et al. Speech synthesis system for the holy quran recitation.
Schlippe et al. Combining grapheme-to-phoneme converter outputs for enhanced pronunciation generation in low-resource scenarios.
JP7190283B2 (ja) 音声認識結果整形モデル学習装置およびそのプログラム
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
Pietquin et al. Comparing ASR modeling methods for spoken dialogue simulation and optimal strategy learning.
JP6475517B2 (ja) 発音系列拡張装置およびそのプログラム
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Wilkinson et al. Deriving Phonetic Transcriptions and Discovering Word Segmentations for Speech-to-Speech Translation in Low-Resource Settings.
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
WO2017082717A2 (en) Method and system for text to speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221228

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230712

R151 Written notification of patent or utility model registration

Ref document number: 7314079

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151