JP2015121760A - 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム - Google Patents
音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム Download PDFInfo
- Publication number
- JP2015121760A JP2015121760A JP2014023070A JP2014023070A JP2015121760A JP 2015121760 A JP2015121760 A JP 2015121760A JP 2014023070 A JP2014023070 A JP 2014023070A JP 2014023070 A JP2014023070 A JP 2014023070A JP 2015121760 A JP2015121760 A JP 2015121760A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- feature
- conversion matrix
- feature amount
- feature quantity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】特徴量変換行列記憶部16には、少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列が記憶されている。特徴量分析部14は、入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する。特徴量変換行列選択部20は、特徴量変換行列から入力音響特徴量に対して適切な特徴量変換行列を音響変動要因それぞれに関して選択する。特徴量変換部21は、入力音響特徴量に対して選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する。認識処理部22は、変換済み音響特徴量を音声認識した認識結果を出力する。
【選択図】図3
Description
実施形態の説明に先立って、この発明のポイントについて説明する。
この発明の第一実施形態は、音響変動要因である話者要因、収録環境要因及び発話スタイル要因に関する特徴量変換行列を学習する特徴量変換行列生成装置である。
この発明の第二実施形態は、第一実施形態に係る特徴量変換行列生成装置により生成された特徴量変換行列を利用して音声認識を行う音声認識装置である。
第一実施形態の特徴量変換行列生成装置は、例えば、話者要因に関する特徴量変換行列を生成する際は収録環境要因及び発話スタイル要因を万遍なく包含するような学習データを選択して実施する。こうすることで、収録環境要因及び発話スタイル要因は相殺され、話者要因に特化した特徴量変換行列を生成する事が可能になっている。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
10 入力端子
11 音声信号取得部
12 音声信号記憶部
13 ラベル付与部
14 特徴量分析部
15、35 特徴量変換行列生成部
16 特徴量変換行列記憶部
2 音声認識装置
20 特徴量変換行列選択部
21 特徴量変換部
22 認識処理部
Claims (9)
- 少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列を記憶する特徴量変換行列記憶部と、
入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する特徴量分析部と、
上記特徴量変換行列から上記入力音響特徴量に対して適切な特徴量変換行列を上記音響変動要因それぞれに関して選択する特徴量変換行列選択部と、
上記入力音響特徴量に対して上記選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する特徴量変換部と、
上記変換済み音響特徴量を音声認識した認識結果を出力する認識処理部と、
を含む音声認識装置。 - 請求項1に記載の音声認識装置であって、
上記特徴量変換行列選択部は、上記音響変動要因のいずれかに関する特徴量変換行列を選択する場合であって、当該音響変動要因が上記入力音響特徴量の音響変動要因と合致する特徴量変換行列があれば、当該特徴量変換行列を選択し、当該音響変動要因が上記入力音響特徴量の音響変動要因と合致する特徴量変換行列がなければ、当該音響変動要因が上記入力音響特徴量の音響変動要因と最も近い特徴量変換行列を選択するものである
音声認識装置。 - 入力音声信号に少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けしてラベル付き音声信号を生成するラベル付与部と、
上記ラベル付き音声信号から音響特徴量を抽出してラベル付き音響特徴量を生成する特徴量分析部と、
上記ラベル付き音響特徴量から上記音響変動要因に関する特徴量変換行列をそれぞれ生成する特徴量変換行列生成部と、
を含む特徴量変換行列生成装置。 - 請求項4に記載の特徴量変換行列生成装置であって、
上記特徴量変換行列生成部は、上記ラベル付き音響特徴量から話者が同一の音響特徴量を抽出し最尤推定により上記話者に関する特徴量変換行列を生成し、上記ラベル付き音響特徴量から収録環境が同一の音響特徴量を抽出し最尤推定により上記収録環境に関する特徴量変換行列を生成し、上記ラベル付き音響特徴量から発話スタイルが同一の音響特徴量を抽出し最尤推定により上記発話スタイルに関する特徴量変換行列を生成する
特徴量変換行列生成装置。 - 請求項4または5に記載の特徴量変換行列生成装置であって、
上記特徴量変換行列生成部は、上記音響変動要因から一つ選択した音響変動要因に関する特徴量変換行列を上記ラベル付き音響特徴量から生成し、上記選択した音響変動要因に関する特徴量変換行列を用いて上記ラベル付き音響特徴量を正規化した上で、上記選択した音響変動要因を除いた残りの音響変動要因に関する特徴量変換行列を生成する
特徴量変換行列生成装置。 - 特徴量分析部が、入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する特徴量分析ステップと、
特徴量変換行列選択部が、少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列から上記入力音響特徴量に対して適切な特徴量変換行列を上記音響変動要因それぞれに関して選択する特徴量変換行列選択ステップと、
特徴量変換部が、上記入力音響特徴量に対して上記選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する特徴量変換ステップと、
認識処理部が、上記変換済み音響特徴量を音声認識した認識結果を出力する認識処理ステップと、
を含む音声認識方法。 - ラベル付与部が、入力音声信号に少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けしてラベル付き音声信号を生成するラベル付与ステップと、
特徴量分析部が、上記ラベル付き音声信号から音響特徴量を抽出しラベル付き音響特徴量を生成する特徴量分析ステップと、
特徴量変換行列生成部が、上記ラベル付き音響特徴量から上記音響変動要因に関する特徴量変換行列をそれぞれ生成する特徴量変換行列生成ステップと、
を含む特徴量変換行列生成方法。 - 請求項1から3のいずれかに記載の音声認識装置もしくは請求項4から6のいずれかに記載の特徴量変換行列生成装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014023070A JP6114210B2 (ja) | 2013-11-25 | 2014-02-10 | 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013242531 | 2013-11-25 | ||
JP2013242531 | 2013-11-25 | ||
JP2014023070A JP6114210B2 (ja) | 2013-11-25 | 2014-02-10 | 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015121760A true JP2015121760A (ja) | 2015-07-02 |
JP6114210B2 JP6114210B2 (ja) | 2017-04-12 |
Family
ID=53533398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014023070A Active JP6114210B2 (ja) | 2013-11-25 | 2014-02-10 | 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6114210B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637519A (zh) * | 2018-11-13 | 2019-04-16 | 百度在线网络技术(北京)有限公司 | 语音交互实现方法、装置、计算机设备及存储介质 |
CN110265021A (zh) * | 2019-07-22 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 个性化语音交互方法、机器人终端、装置及可读存储介质 |
-
2014
- 2014-02-10 JP JP2014023070A patent/JP6114210B2/ja active Active
Non-Patent Citations (1)
Title |
---|
JPN6017008652; 笹木俊幸、森大毅、粕谷英樹: '対話音声認識のための音響モデル作成方法に関する検討' 日本音響学会研究発表会議講演論文集 春I , 20020318, PP.133〜134, 社団法人日本音響会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637519A (zh) * | 2018-11-13 | 2019-04-16 | 百度在线网络技术(北京)有限公司 | 语音交互实现方法、装置、计算机设备及存储介质 |
CN109637519B (zh) * | 2018-11-13 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 语音交互实现方法、装置、计算机设备及存储介质 |
CN110265021A (zh) * | 2019-07-22 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 个性化语音交互方法、机器人终端、装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6114210B2 (ja) | 2017-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11776547B2 (en) | System and method of video capture and search optimization for creating an acoustic voiceprint | |
US11900948B1 (en) | Automatic speaker identification using speech recognition features | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
US9640175B2 (en) | Pronunciation learning from user correction | |
KR102097710B1 (ko) | 대화 분리 장치 및 이에서의 대화 분리 방법 | |
JP2018536905A (ja) | 発話認識方法及び装置 | |
CN106373569A (zh) | 语音交互装置和方法 | |
US20110218805A1 (en) | Spoken term detection apparatus, method, program, and storage medium | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
CN104299623A (zh) | 语音应用中用于自动确认和消歧模块的方法和系统 | |
US9412359B2 (en) | System and method for cloud-based text-to-speech web services | |
JP5274711B2 (ja) | 音声認識装置 | |
JP6189818B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム | |
US11545136B2 (en) | System and method using parameterized speech synthesis to train acoustic models | |
CN112825249A (zh) | 语音处理方法和设备 | |
Gref et al. | Improved transcription and indexing of oral history interviews for digital humanities research | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
JP6114210B2 (ja) | 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム | |
JP2007133413A (ja) | 話者テンプレート圧縮方法および装置、複数の話者テンプレートをマージする方法および装置、ならびに話者認証 | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
Gref | Robust Speech Recognition via Adaptation for German Oral History Interviews | |
US11978431B1 (en) | Synthetic speech processing by representing text by phonemes exhibiting predicted volume and pitch using neural networks | |
CN117334201A (zh) | 一种声音识别方法、装置、设备以及介质 | |
Xu et al. | An unsupervised adaptation approach to leveraging feedback loop data by using i-vector for data clustering and selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170306 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6114210 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |