JP7314079B2 - データ生成装置、データ生成方法およびプログラム - Google Patents
データ生成装置、データ生成方法およびプログラム Download PDFInfo
- Publication number
- JP7314079B2 JP7314079B2 JP2020027986A JP2020027986A JP7314079B2 JP 7314079 B2 JP7314079 B2 JP 7314079B2 JP 2020027986 A JP2020027986 A JP 2020027986A JP 2020027986 A JP2020027986 A JP 2020027986A JP 7314079 B2 JP7314079 B2 JP 7314079B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- speech
- text
- matching
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 31
- 230000015572 biosynthetic process Effects 0.000 claims description 52
- 238000003786 synthesis reaction Methods 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 41
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000004088 simulation Methods 0.000 description 56
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Description
(構成)
図1は、一実施形態に係るデータ生成装置としてのシミュレーションデータ生成装置100の構成を概略的に示すブロック図である。
シミュレーションデータ生成装置100は、例えば、サーバコンピュータやパーソナルコンピュータ等のコンピュータであり、音声とテキストのペアを含む発話シミュレーションデータを生成する。シミュレーションデータ生成装置100は、テキスト取得部101、音声合成部102、音声認識部103、マッチング処理部104、シミュレーションデータ生成部105、およびリスト作成部106を処理機能部として備える。シミュレーションデータ生成装置100は、言語解析辞書記憶部107およびリスト記憶部108をさらに備え得る。
次に、以上のように構成された一実施形態に係るシミュレーションデータ生成装置100の動作について説明する。
図3は、シミュレーションデータ生成装置100の処理動作の第1の例を概略的に示すフローチャートである。図3に示すように、シミュレーションデータ生成装置100は、まずステップS101において、テキストの入力を待ち受ける。テキストの入力は、いずれの方法で行われてもよい。例えば、テキストは、シミュレーションデータ生成装置100のユーザにより入力装置1005を介して入力されてもよいし、USBなどの外付け記憶媒体やネットワーク上のデータベースサーバ等からテキストデータとして読み込まれてもよい。
図8は、マッチング結果の他の例として、中国語の他音字を含む原テキストに対してシミュレーションデータ生成装置100を適用した例を示す。原テキストに対して、1回目の音声合成1により得られた音声認識1は、原テキストと一致しなかった。この場合、異なる読み候補を用いて再び音声合成を行い、マッチングの度合いがより高い音声データを採用することによって、より正確なデータセットが得られると期待される。
以上詳述したように、一実施形態に係るシミュレーションデータ生成装置100は、与えられた原テキストから音声合成により音声発話データを生成し、それを音声認識により認識した認識結果と原テキストとのテキストマッチングを行い、マッチング度合いを算出する。完全にマッチした場合にはその音声をシミュレーションデータとして採用する。マッチングしなかった場合には、差異部分に別の読み候補を与えて再度音声を合成し、それを認識した2次結果と原テキストとをマッチングする。別の読み候補があれば、その数だけ繰り返されてもよい。そしてシミュレーションデータ生成装置100は、マッチング度合の高い音声合成結果をシミュレーション音声データとして採用する。
なお、この発明は上記実施形態に限定されるものではない。例えば、シミュレーションデータ生成装置100が備える各機能部を、複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。言語解析辞書記憶部107およびリスト記憶部108は、外部装置に設けられてもよい。
Claims (8)
- 原テキストから音声データを生成する音声合成部と、
前記音声データから音声認識により認識テキストを生成する音声認識部と、
前記原テキストと前記認識テキストとのマッチングを行うマッチング処理部と、
前記マッチングの結果に基づき、前記原テキストに対するマッチング度がある条件を満たす認識テキストの元となった音声データと、前記原テキストとを対応付けて、データセットを生成する、データセット生成部と
を備え、
前記音声合成部は、前記原テキストから生成された第1の音声データについて、前記マッチング処理部によるマッチングの結果、前記第1の音声データから生成される第1の認識テキストと前記原テキストとに差分がある場合に、当該差分を含む前記原テキストの文字、単語、文節または文の少なくとも1つに対し、前記第1の音声データの生成時に割り当てたのとは異なる読みまたはアクセントの少なくとも1つを割り当てて、第2の音声データを生成し、
前記データセット生成部は、前記第2の音声データから生成される第2の認識テキストおよび前記第1の認識テキストのうち、前記マッチング度が高い方の認識テキストの元となった前記第1の音声データまたは前記第2の音声データを用いて前記データセットを生成する、
データ生成装置。 - 前記マッチングの結果、前記原テキストと前記認識テキストとに差分がある場合に、当該差分を含む前記原テキストの文字、単語、文節または文の少なくとも1つと、前記音声データの情報とを対応付けて記録するリスト作成部をさらに備える、
請求項1に記載のデータ生成装置。 - 前記リスト作成部は、前記音声データの情報として、前記差分を含む前記原テキストの文字、単語、文節または文の少なくとも1つに割り当てられた、読みまたはアクセントの少なくとも1つを記録する、
請求項2に記載のデータ生成装置。 - 前記音声合成部は、文字、単語、文節または文に対して割り当て得る、読みおよびアクセントを定義する言語解析辞書と、前記原テキストに含まれる文字、単語、文節または文との対応関係に基づき、可能な組合せのうちの少なくとも1つに対応する読みおよびアクセントを用いて前記音声データを生成する、
請求項1に記載のデータ生成装置。 - 前記音声合成部は、前記可能な組合せの各々について、前記言語解析辞書で定義された対応する読みおよびアクセントを用いて前記音声データを生成する、
請求項4に記載のデータ生成装置。 - 前記マッチング度は、前記原テキストに対する文字正解精度、単語正解精度、正解文字数または正解単語数の少なくとも1つとして算出される、
請求項1に記載のデータ生成装置。 - 原テキストから音声データを生成することと、
前記音声データから音声認識により認識テキストを生成することと、
前記原テキストと前記認識テキストとのマッチングを行うことと、
前記マッチングの結果に基づき、前記原テキストに対するマッチング度がある条件を満たす認識テキストの元となった音声データと、前記原テキストとを対応付けて、データセットを生成することと
を備え、
前記音声データを生成することは、前記原テキストから生成された第1の音声データについて、前記マッチングを行うことによるマッチングの結果、前記第1の音声データから生成される第1の認識テキストと前記原テキストとに差分がある場合に、当該差分を含む前記原テキストの文字、単語、文節または文の少なくとも1つに対し、前記第1の音声データの生成時に割り当てたのとは異なる読みまたはアクセントの少なくとも1つを割り当てて、第2の音声データを生成し、
前記データセットを生成することは、前記第2の音声データから生成される第2の認識テキストおよび前記第1の認識テキストのうち、前記マッチング度が高い方の認識テキストの元となった前記第1の音声データまたは前記第2の音声データを用いて前記データセットを生成する、
データ生成方法。 - 請求項1乃至請求項6のいずれか一項に記載の装置の各部による処理をプロセッサに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020027986A JP7314079B2 (ja) | 2020-02-21 | 2020-02-21 | データ生成装置、データ生成方法およびプログラム |
CN202010896712.1A CN113299266A (zh) | 2020-02-21 | 2020-08-31 | 数据生成装置、数据生成方法以及记录介质 |
US17/007,522 US11694028B2 (en) | 2020-02-21 | 2020-08-31 | Data generation apparatus and data generation method that generate recognition text from speech data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020027986A JP7314079B2 (ja) | 2020-02-21 | 2020-02-21 | データ生成装置、データ生成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021131514A JP2021131514A (ja) | 2021-09-09 |
JP7314079B2 true JP7314079B2 (ja) | 2023-07-25 |
Family
ID=77318618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020027986A Active JP7314079B2 (ja) | 2020-02-21 | 2020-02-21 | データ生成装置、データ生成方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11694028B2 (ja) |
JP (1) | JP7314079B2 (ja) |
CN (1) | CN113299266A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898733A (zh) * | 2022-05-06 | 2022-08-12 | 深圳妙月科技有限公司 | Ai语音数据的分析处理方法及系统 |
WO2024009890A1 (ja) * | 2022-07-04 | 2024-01-11 | 日本電気株式会社 | 学習データ生成装置、音声認識モデル生成装置、学習データ生成方法、音声認識モデル生成方法、および記録媒体 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003029776A (ja) | 2001-07-12 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2003108180A (ja) | 2001-09-26 | 2003-04-11 | Seiko Epson Corp | 音声合成方法および音声合成装置 |
JP2014240884A (ja) | 2013-06-11 | 2014-12-25 | 株式会社東芝 | コンテンツ作成支援装置、方法およびプログラム |
JP2017207546A (ja) | 2016-05-16 | 2017-11-24 | 日本電信電話株式会社 | 残響環境判定装置、残響環境判定方法、プログラム |
JP2019120841A (ja) | 2018-01-09 | 2019-07-22 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000764B (zh) * | 2006-12-18 | 2011-05-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
JP5326892B2 (ja) * | 2008-12-26 | 2013-10-30 | 富士通株式会社 | 情報処理装置、プログラム、および音響モデルを生成する方法 |
US10088976B2 (en) * | 2009-01-15 | 2018-10-02 | Em Acquisition Corp., Inc. | Systems and methods for multiple voice document narration |
US9002703B1 (en) * | 2011-09-28 | 2015-04-07 | Amazon Technologies, Inc. | Community audio narration generation |
US8996352B2 (en) * | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US8768704B1 (en) * | 2013-09-30 | 2014-07-01 | Google Inc. | Methods and systems for automated generation of nativized multi-lingual lexicons |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
WO2017112813A1 (en) * | 2015-12-22 | 2017-06-29 | Sri International | Multi-lingual virtual personal assistant |
CN108010523B (zh) * | 2016-11-02 | 2023-05-09 | 松下电器(美国)知识产权公司 | 信息处理方法以及记录介质 |
CN107657947B (zh) * | 2017-09-20 | 2020-11-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN108597502A (zh) * | 2018-04-27 | 2018-09-28 | 上海适享文化传播有限公司 | 基于对抗训练的领域语音识别训练方法 |
CN110246485B (zh) * | 2019-05-21 | 2024-05-24 | 平安科技(深圳)有限公司 | 基于语音识别模型的样本数据获取方法、终端设备及介质 |
CN110706690B (zh) * | 2019-09-16 | 2024-06-25 | 平安科技(深圳)有限公司 | 语音识别方法及其装置 |
-
2020
- 2020-02-21 JP JP2020027986A patent/JP7314079B2/ja active Active
- 2020-08-31 US US17/007,522 patent/US11694028B2/en active Active
- 2020-08-31 CN CN202010896712.1A patent/CN113299266A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003029776A (ja) | 2001-07-12 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2003108180A (ja) | 2001-09-26 | 2003-04-11 | Seiko Epson Corp | 音声合成方法および音声合成装置 |
JP2014240884A (ja) | 2013-06-11 | 2014-12-25 | 株式会社東芝 | コンテンツ作成支援装置、方法およびプログラム |
JP2017207546A (ja) | 2016-05-16 | 2017-11-24 | 日本電信電話株式会社 | 残響環境判定装置、残響環境判定方法、プログラム |
JP2019120841A (ja) | 2018-01-09 | 2019-07-22 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210264895A1 (en) | 2021-08-26 |
JP2021131514A (ja) | 2021-09-09 |
US11694028B2 (en) | 2023-07-04 |
CN113299266A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
KR101056080B1 (ko) | 음운 기반의 음성 인식 시스템 및 방법 | |
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
McGraw et al. | Learning lexicons from speech using a pronunciation mixture model | |
JP6392012B2 (ja) | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム | |
Ekpenyong et al. | Statistical parametric speech synthesis for Ibibio | |
Reddy et al. | Integration of statistical models for dictation of document translations in a machine-aided human translation task | |
Kurimo et al. | Modeling under-resourced languages for speech recognition | |
JP7314079B2 (ja) | データ生成装置、データ生成方法およびプログラム | |
Proença et al. | Automatic evaluation of reading aloud performance in children | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
Serrino et al. | Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition. | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
Schlippe et al. | Combining grapheme-to-phoneme converter outputs for enhanced pronunciation generation in low-resource scenarios. | |
JP7190283B2 (ja) | 音声認識結果整形モデル学習装置およびそのプログラム | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
Pietquin et al. | Comparing ASR modeling methods for spoken dialogue simulation and optimal strategy learning. | |
JP6475517B2 (ja) | 発音系列拡張装置およびそのプログラム | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
AbuZeina et al. | Cross-word modeling for Arabic speech recognition | |
Wilkinson et al. | Deriving Phonetic Transcriptions and Discovering Word Segmentations for Speech-to-Speech Translation in Low-Resource Settings. | |
Janyoi et al. | An Isarn dialect HMM-based text-to-speech system | |
WO2017082717A2 (en) | Method and system for text to speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221228 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230712 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7314079 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |