JP2016186515A - 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム - Google Patents
音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム Download PDFInfo
- Publication number
- JP2016186515A JP2016186515A JP2015065787A JP2015065787A JP2016186515A JP 2016186515 A JP2016186515 A JP 2016186515A JP 2015065787 A JP2015065787 A JP 2015065787A JP 2015065787 A JP2015065787 A JP 2015065787A JP 2016186515 A JP2016186515 A JP 2016186515A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic feature
- feature quantity
- acoustic
- target
- phenomenon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
第一実施形態では、統計的な変換パラメータによりささやき声の音響特徴量を疑似生成し、その疑似音響特徴量を用いて音響モデルを適応する方法について説明する。
〔参考文献1〕鹿野清宏他、“IT Text 音声認識システム”、オーム社、2001年
〔参考文献2〕S. Desai, A.W. Black, B. Yegnanarayana, K. Prahallad, “Spectral Mapping Using Artificial Neural Networks for Voice Conversion”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 5, pp. 954-964, 2010
〔参考文献3〕T. Toda, A.W. Black, K. Tokuda, “Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 8, pp. 2222-2235, 2007
〔参考文献4〕篠田浩一、“確率モデルによる音声認識のための話者適応化技術”、電子情報通信学会論文誌、J87-D-II(2)、pp. 371-386、2004年
第二実施形態では、統計的な変換パラメータによるボーカルフライの音響特徴量を疑似生成し、その疑似音響特徴量を用いて音響モデルを適応する方法について説明する。
〔参考文献5〕C. T. Ishi, “Analysis of autocorrelation-based parameters for creaky voice detection”, Proceedings of The 2nd International Conference on Speech Prosody, pp. 643-646, 2004
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
2 音響モデル適応装置
11 音声信号取得部
12 音響特徴量抽出部
13 音素ラベル付与部
14 対象ラベル付与部
15 変換モデル生成部
16 疑似音響特徴量生成部
17 音響モデル学習部
21 音声信号記憶部
22 音響特徴量記憶部
23 変換モデル記憶部
24 疑似音響特徴量記憶部
25 音響モデル記憶部
Claims (6)
- 出現頻度が低い音声現象である対象音声現象を含む音声信号から音響特徴量系列を抽出する音響特徴量抽出部と、
上記音響特徴量系列に音素ラベルを付与する音素ラベル付与部と、
上記音響特徴量系列に上記対象音声現象であるか否かを示す対象ラベルを付与する対象ラベル付与部と、
上記音響特徴量系列のうち上記音素ラベルが等しく上記対象ラベルが異なる音響特徴量同士の対応関係に基づいて、上記対象音声現象以外の音響特徴量を上記対象音声現象の音響特徴量へ変換する変換モデルを学習する変換モデル生成部と、
上記変換モデルを用いて上記音響特徴量系列のうち上記対象音声現象以外の音響特徴量を上記対象音声現象の音響特徴量へ変換した疑似音響特徴量系列を生成する疑似音響特徴量生成部と、
を含む音響特徴量変換装置。 - 請求項1に記載の音響特徴量変換装置であって、
上記対象ラベル付与部は、上記対象音声現象の音響特徴量と上記対象音声現象以外の音響特徴量とを識別するニューラルネットワークを用いて、発話単位、単語単位、フレーム単位のいずれかの単位で上記音響特徴量系列に上記対象ラベルを付与するものである
音響特徴量変換装置。 - 請求項1または2に記載の音響特徴量変換装置であって、
上記対象音声現象は、声帯振動を伴わない発声により生成される音声であるささやき声、もしくは声帯声門がわずかに開き緩やかな声帯震動により生成される低周波数の音声であるボーカルフライである
音響特徴量変換装置。 - 請求項1から3のいずれかに記載の音響特徴量変換装置により生成した疑似音響特徴量系列を記憶する疑似音響特徴量記憶部と、
出現頻度が低い音声現象である対象音声現象を含む音声信号から抽出した音響特徴量系列を記憶する音響特徴量記憶部と、
上記音響特徴量系列と上記疑似音響特徴量系列とを用いて音響モデルを学習する音響モデル学習部と、
を含む音響モデル適応装置。 - 音響特徴量抽出部が、出現頻度が低い音声現象である対象音声現象を含む音声信号から音響特徴量系列を抽出する特徴量抽出ステップと、
音素ラベル付与部が、上記音響特徴量系列に音素ラベルを付与する音素ラベル付与ステップと、
対象ラベル付与部が、上記音響特徴量系列に上記対象音声現象であるか否かを示す対象ラベルを付与する対象ラベル付与ステップと、
変換モデル生成部が、上記音響特徴量系列のうち上記音素ラベルが等しく上記対象ラベルが異なる音響特徴量同士の対応関係に基づいて、上記対象音声現象以外の音響特徴量を上記対象音声現象の音響特徴量へ変換する変換モデルを学習する変換モデル生成ステップと、
疑似音響特徴量生成部が、上記変換モデルを用いて上記音響特徴量系列のうち上記対象音声現象以外の音響特徴量を上記対象音声現象の音響特徴量へ変換した疑似音響特徴量系列を生成する疑似音響特徴量生成ステップと、
を含む音響特徴量変換方法。 - 請求項1から3のいずれかに記載の音響特徴量変換装置もしくは請求項4に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015065787A JP6305955B2 (ja) | 2015-03-27 | 2015-03-27 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015065787A JP6305955B2 (ja) | 2015-03-27 | 2015-03-27 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016186515A true JP2016186515A (ja) | 2016-10-27 |
JP6305955B2 JP6305955B2 (ja) | 2018-04-04 |
Family
ID=57203708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015065787A Active JP6305955B2 (ja) | 2015-03-27 | 2015-03-27 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6305955B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019032427A (ja) * | 2017-08-08 | 2019-02-28 | 日本電信電話株式会社 | 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム |
WO2019077854A1 (ja) | 2017-10-17 | 2019-04-25 | 株式会社日立製作所 | オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面 |
JP2020052644A (ja) * | 2018-09-26 | 2020-04-02 | 富士通株式会社 | 学習方法、学習装置および学習プログラム |
KR102101627B1 (ko) * | 2018-10-29 | 2020-04-17 | 광운대학교 산학협력단 | 발성 장애 개선 장치 및 방법 |
JP2020515877A (ja) * | 2018-04-12 | 2020-05-28 | アイフライテック カンパニー,リミテッド | ささやき声変換方法、装置、デバイス及び可読記憶媒体 |
WO2020250266A1 (ja) * | 2019-06-10 | 2020-12-17 | 日本電信電話株式会社 | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム |
WO2023210149A1 (ja) * | 2022-04-26 | 2023-11-02 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びにコンピュータプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079363A (ja) * | 2005-09-16 | 2007-03-29 | Advanced Telecommunication Research Institute International | パラ言語情報検出装置及びコンピュータプログラム |
JP2008139573A (ja) * | 2006-12-01 | 2008-06-19 | Oki Electric Ind Co Ltd | 声質変換方法、声質変換プログラム、声質変換装置 |
-
2015
- 2015-03-27 JP JP2015065787A patent/JP6305955B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079363A (ja) * | 2005-09-16 | 2007-03-29 | Advanced Telecommunication Research Institute International | パラ言語情報検出装置及びコンピュータプログラム |
JP2008139573A (ja) * | 2006-12-01 | 2008-06-19 | Oki Electric Ind Co Ltd | 声質変換方法、声質変換プログラム、声質変換装置 |
Non-Patent Citations (2)
Title |
---|
石井カルロス寿憲: "Vocal Fry発声区間の自動検出法", 電子情報通信学会論文誌D(J89−D), JPN6017049650, 1 December 2006 (2006-12-01), JP, pages 2679 - 2687, ISSN: 0003709261 * |
芦原孝典: "声質変換を用いた音声特徴量疑似生成による話者適応", 電子情報通信学会技術研究報告 VOL.114 NO.411, vol. 第114巻, JPN6017049652, 22 January 2015 (2015-01-22), JP, pages 13 - 18, ISSN: 0003709262 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019032427A (ja) * | 2017-08-08 | 2019-02-28 | 日本電信電話株式会社 | 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム |
WO2019077854A1 (ja) | 2017-10-17 | 2019-04-25 | 株式会社日立製作所 | オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面 |
JP2020515877A (ja) * | 2018-04-12 | 2020-05-28 | アイフライテック カンパニー,リミテッド | ささやき声変換方法、装置、デバイス及び可読記憶媒体 |
US11508366B2 (en) | 2018-04-12 | 2022-11-22 | Iflytek Co., Ltd. | Whispering voice recovery method, apparatus and device, and readable storage medium |
JP2020052644A (ja) * | 2018-09-26 | 2020-04-02 | 富士通株式会社 | 学習方法、学習装置および学習プログラム |
JP7200571B2 (ja) | 2018-09-26 | 2023-01-10 | 富士通株式会社 | 機械学習方法、機械学習装置および機械学習プログラム |
KR102101627B1 (ko) * | 2018-10-29 | 2020-04-17 | 광운대학교 산학협력단 | 발성 장애 개선 장치 및 방법 |
WO2020250266A1 (ja) * | 2019-06-10 | 2020-12-17 | 日本電信電話株式会社 | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム |
JPWO2020250266A1 (ja) * | 2019-06-10 | 2020-12-17 | ||
JP7176629B2 (ja) | 2019-06-10 | 2022-11-22 | 日本電信電話株式会社 | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム |
WO2023210149A1 (ja) * | 2022-04-26 | 2023-11-02 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びにコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6305955B2 (ja) | 2018-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
O’Shaughnessy | Automatic speech recognition: History, methods and challenges | |
EP1199708B1 (en) | Noise robust pattern recognition | |
Sinha et al. | Assessment of pitch-adaptive front-end signal processing for children’s speech recognition | |
JP2016065924A (ja) | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 | |
US20070239444A1 (en) | Voice signal perturbation for speech recognition | |
JP6189818B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム | |
EP4285358A1 (en) | Instantaneous learning in text-to-speech during dialog | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
O'Shaughnessy | Automatic speech recognition | |
Baljekar et al. | Using articulatory features and inferred phonological segments in zero resource speech processing | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
Badhon et al. | State of art research in Bengali speech recognition | |
Zealouk et al. | Noise effect on Amazigh digits in speech recognition system | |
Fauziya et al. | A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling | |
JP2018084604A (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
Galić et al. | Whispered speech recognition using hidden markov models and support vector machines | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
Patlar et al. | Triphone based continuous speech recognition system for turkish language using hidden markov model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6305955 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |