JP6305955B2 - 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム - Google Patents
音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム Download PDFInfo
- Publication number
- JP6305955B2 JP6305955B2 JP2015065787A JP2015065787A JP6305955B2 JP 6305955 B2 JP6305955 B2 JP 6305955B2 JP 2015065787 A JP2015065787 A JP 2015065787A JP 2015065787 A JP2015065787 A JP 2015065787A JP 6305955 B2 JP6305955 B2 JP 6305955B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic feature
- acoustic
- target
- feature quantity
- phenomenon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第一実施形態では、統計的な変換パラメータによりささやき声の音響特徴量を疑似生成し、その疑似音響特徴量を用いて音響モデルを適応する方法について説明する。
〔参考文献1〕鹿野清宏他、“IT Text 音声認識システム”、オーム社、2001年
〔参考文献2〕S. Desai, A.W. Black, B. Yegnanarayana, K. Prahallad, “Spectral Mapping Using Artificial Neural Networks for Voice Conversion”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 5, pp. 954-964, 2010
〔参考文献3〕T. Toda, A.W. Black, K. Tokuda, “Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 8, pp. 2222-2235, 2007
〔参考文献4〕篠田浩一、“確率モデルによる音声認識のための話者適応化技術”、電子情報通信学会論文誌、J87-D-II(2)、pp. 371-386、2004年
第二実施形態では、統計的な変換パラメータによるボーカルフライの音響特徴量を疑似生成し、その疑似音響特徴量を用いて音響モデルを適応する方法について説明する。
〔参考文献5〕C. T. Ishi, “Analysis of autocorrelation-based parameters for creaky voice detection”, Proceedings of The 2nd International Conference on Speech Prosody, pp. 643-646, 2004
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
2 音響モデル適応装置
11 音声信号取得部
12 音響特徴量抽出部
13 音素ラベル付与部
14 対象ラベル付与部
15 変換モデル生成部
16 疑似音響特徴量生成部
17 音響モデル学習部
21 音声信号記憶部
22 音響特徴量記憶部
23 変換モデル記憶部
24 疑似音響特徴量記憶部
25 音響モデル記憶部
Claims (5)
- 所定の音声現象である対象音声現象を含む音声信号から音響特徴量系列を抽出する音響特徴量抽出部と、
上記音響特徴量系列に音素ラベルを付与する音素ラベル付与部と、
上記音響特徴量系列に上記対象音声現象であるか否かを示す対象ラベルを付与する対象ラベル付与部と、
上記音響特徴量系列のうち上記音素ラベルが等しく上記対象ラベルが異なる音響特徴量同士の対応関係に基づいて、上記対象音声現象以外の音響特徴量を上記対象音声現象の音響特徴量へ変換する変換モデルを学習する変換モデル生成部と、
上記変換モデルを用いて上記音響特徴量系列のうち上記対象音声現象以外の音響特徴量を上記対象音声現象の音響特徴量へ変換した疑似音響特徴量系列を生成する疑似音響特徴量生成部と、
を含み、
上記対象音声現象は、声帯振動を伴わない発声により生成される音声であるささやき声、もしくは声帯声門がわずかに開き緩やかな声帯震動により生成される低周波数の音声であるボーカルフライである
音響特徴量変換装置。 - 請求項1に記載の音響特徴量変換装置であって、
上記対象ラベル付与部は、上記対象音声現象の音響特徴量と上記対象音声現象以外の音響特徴量とを識別するニューラルネットワークを用いて、発話単位、単語単位、フレーム単位のいずれかの単位で上記音響特徴量系列に上記対象ラベルを付与するものである
音響特徴量変換装置。 - 請求項1または2に記載の音響特徴量変換装置により生成した疑似音響特徴量系列を記憶する疑似音響特徴量記憶部と、
所定の音声現象である対象音声現象を含む音声信号から抽出した音響特徴量系列を記憶する音響特徴量記憶部と、
上記音響特徴量系列と上記疑似音響特徴量系列とを用いて音響モデルを学習する音響モデル学習部と、
を含み、
上記対象音声現象は、声帯振動を伴わない発声により生成される音声であるささやき声、もしくは声帯声門がわずかに開き緩やかな声帯震動により生成される低周波数の音声であるボーカルフライである
音響モデル適応装置。 - 音響特徴量抽出部が、所定の音声現象である対象音声現象を含む音声信号から音響特徴量系列を抽出する特徴量抽出ステップと、
音素ラベル付与部が、上記音響特徴量系列に音素ラベルを付与する音素ラベル付与ステップと、
対象ラベル付与部が、上記音響特徴量系列に上記対象音声現象であるか否かを示す対象ラベルを付与する対象ラベル付与ステップと、
変換モデル生成部が、上記音響特徴量系列のうち上記音素ラベルが等しく上記対象ラベルが異なる音響特徴量同士の対応関係に基づいて、上記対象音声現象以外の音響特徴量を上記対象音声現象の音響特徴量へ変換する変換モデルを学習する変換モデル生成ステップと、
疑似音響特徴量生成部が、上記変換モデルを用いて上記音響特徴量系列のうち上記対象音声現象以外の音響特徴量を上記対象音声現象の音響特徴量へ変換した疑似音響特徴量系列を生成する疑似音響特徴量生成ステップと、
を含み、
上記対象音声現象は、声帯振動を伴わない発声により生成される音声であるささやき声、もしくは声帯声門がわずかに開き緩やかな声帯震動により生成される低周波数の音声であるボーカルフライである
音響特徴量変換方法。 - 請求項1または2に記載の音響特徴量変換装置もしくは請求項3に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015065787A JP6305955B2 (ja) | 2015-03-27 | 2015-03-27 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015065787A JP6305955B2 (ja) | 2015-03-27 | 2015-03-27 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016186515A JP2016186515A (ja) | 2016-10-27 |
JP6305955B2 true JP6305955B2 (ja) | 2018-04-04 |
Family
ID=57203708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015065787A Active JP6305955B2 (ja) | 2015-03-27 | 2015-03-27 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6305955B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6626052B2 (ja) * | 2017-08-08 | 2019-12-25 | 日本電信電話株式会社 | 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム |
JP6919990B2 (ja) | 2017-10-17 | 2021-08-18 | 株式会社日立製作所 | オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面 |
CN108520741B (zh) * | 2018-04-12 | 2021-05-04 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
JP7200571B2 (ja) * | 2018-09-26 | 2023-01-10 | 富士通株式会社 | 機械学習方法、機械学習装置および機械学習プログラム |
KR102101627B1 (ko) * | 2018-10-29 | 2020-04-17 | 광운대학교 산학협력단 | 발성 장애 개선 장치 및 방법 |
US20220246137A1 (en) * | 2019-06-10 | 2022-08-04 | Nippon Telegraph And Telephone Corporation | Identification model learning device, identification device, identification model learning method, identification method, and program |
WO2023210149A1 (ja) * | 2022-04-26 | 2023-11-02 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びにコンピュータプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4677548B2 (ja) * | 2005-09-16 | 2011-04-27 | 株式会社国際電気通信基礎技術研究所 | パラ言語情報検出装置及びコンピュータプログラム |
JP2008139573A (ja) * | 2006-12-01 | 2008-06-19 | Oki Electric Ind Co Ltd | 声質変換方法、声質変換プログラム、声質変換装置 |
-
2015
- 2015-03-27 JP JP2015065787A patent/JP6305955B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016186515A (ja) | 2016-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
O’Shaughnessy | Automatic speech recognition: History, methods and challenges | |
Nakamura et al. | Differences between acoustic characteristics of spontaneous and read speech and their effects on speech recognition performance | |
Sinha et al. | Assessment of pitch-adaptive front-end signal processing for children’s speech recognition | |
EP1199708B1 (en) | Noise robust pattern recognition | |
US20070239444A1 (en) | Voice signal perturbation for speech recognition | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
JP6189818B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
O'Shaughnessy | Automatic speech recognition | |
US20240265908A1 (en) | Methods for real-time accent conversion and systems thereof | |
Baljekar et al. | Using articulatory features and inferred phonological segments in zero resource speech processing. | |
JP2018084604A (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
Zealouk et al. | Noise effect on Amazigh digits in speech recognition system | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
Galić et al. | Whispered speech recognition using hidden markov models and support vector machines | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
CN114387950A (zh) | 语音识别方法、装置、设备和存储介质 | |
Lévy et al. | Reducing computational and memory cost for cellular phone embedded speech recognition system | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6305955 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |