JP6902485B2 - 音声信号解析装置、方法、及びプログラム - Google Patents
音声信号解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6902485B2 JP6902485B2 JP2018028295A JP2018028295A JP6902485B2 JP 6902485 B2 JP6902485 B2 JP 6902485B2 JP 2018028295 A JP2018028295 A JP 2018028295A JP 2018028295 A JP2018028295 A JP 2018028295A JP 6902485 B2 JP6902485 B2 JP 6902485B2
- Authority
- JP
- Japan
- Prior art keywords
- fundamental frequency
- frequency pattern
- audio signal
- pattern
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 64
- 238000000034 method Methods 0.000 title claims description 28
- 238000009826 distribution Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 210000000534 thyroid cartilage Anatomy 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/75—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
まず、音声のF0パターン生成過程モデルについて説明する。
次に、歌声のF0パターン生成過程モデルについて説明する。
本発明の実施の形態の技術は学習処理と推定処理からなる。
学習処理ではF0パターン(例えば音声のF0パターン)とそのF0パターンに内在するパラメータ(例えばフレーズ・アクセント成分)のパラレルデータもしくは一部がパラレルデータであるデータが与えられているものとする。
[非特許文献6] Casper Kaae Sonderby, Tapani Raiko, Lars Maaloe, Soren Kaae Sonderby,and Ole Winther, “Lad-der variational autoencoders,” in Advances in Neural Information Processing Systems, 2016, pp.3738-3746.
とすることができる。なお、sは、上記非特許文献4で述べられている経路制約付きHMM(図1参照)の状態系列である。つまり、経路制約付きHMMがモデル化しているフレーズ・アクセント指令の自然な継続長を考慮して、所与のF0パターンを表現するために自然である潜在変数z が推定されることになる。
所与のF0パターンxからそのF0パターンに内在するパラメータzへの推定処理は、上述のエンコーダQφ(z|x)を用いてzに関する事後分布を求め、そのときの平均系列をzとする。所与のF0パターンに内在するパラメータzからそのF0パターンxへの推定処理は、上述のデコーダPθ(x|z)を用いて求める。各エンコーダ・デコーダはCNNにより記述されているため、従来のような反復施行を必要とせずCNNの各バッチにおいて並列演算が可能であり、高速に推定することが可能である。
図2に示すように、本発明の実施の形態に係る音声信号解析装置は、CPUと、RAMと、各処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
次に、本発明の実施の形態に係る音声信号解析装置100の作用について説明する。まず、入力部10において、音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータを受け付けると、音声信号解析装置100の学習部30は、音声信号における基本周波数パターンから潜在変数を推定するエンコーダQφ(z|x)、及び潜在変数から音声信号における基本周波数パターンを再構成するデコーダPθ(x|z)を含む深層生成モデルを学習し、深層生成モデル記憶部40に格納する。
<効果の例1>
音声信号からF0パターン抽出し、そのF0パターンに対して人手でフレーズ・アクセント成分のデータを作成した。F0パターンとフレーズ・アクセント成分のパラレルデータを用いて、上記のモデル(深層生成モデル)を学習したのちに、推定処理によりF0パターンからフレーズ・アクセント成分を推定し、フレーズ・アクセント成分からF0パターンを推定する実験を行い、推定されたF0パターンおよびフレーズ・アクセント成分が元のF0パターンおよびフレーズ・アクセント成分をどの程度復元できているか確認した。図3にその結果の例を示す。従来のものよりも高精度にF0パターンおよびフレーズ・アクセント成分を再現できていることが確認できる。
歌声信号からF0パターンを、その楽曲信号からノート(音符)をそれぞれ抽出しパラレルデータを作成した。F0パターンとノートのパラレルデータを用いて、各歌唱者ごとに上記のモデル(深層生成モデル)の歌唱者依存モデルを学習したのちに、推定処理によりノートからF0パターンを推定する実験を行い、推定されたF0パターンが元のF0パターンをどの程度復元できているか確認した。図4にその結果の例を示す。入力情報がノートだけであるにも関わらず、ビブラートやオーバーシュートがよく推定されていることが確認される。また、歌唱者ごとにその歌唱者の特性を捉えたF0 パターンが推定されていることが確認できる。
20 演算部
30 学習部
40 深層生成モデル記憶部
50 パラメータ推定部
60 基本周波数パターン推定部
90 出力部
100 音声信号解析装置
Claims (7)
- 音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習する学習部と、
前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定するパラメータ推定部と、
前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する基本周波数パターン推定部と、
を含む音声信号解析装置。 - 前記学習部は、音声信号における基本周波数パターンを入力とした前記エンコーダの出力と、経路制約つきHMM(Hidden Markov Model)の状態系列を用いて表される前記パラメータの事前分布との距離、及び前記潜在変数を入力とした前記デコーダの出力を用いて定義される目的関数を最大化するように、前記深層生成モデルを学習する請求項1記載の音声信号解析装置。
- 前記エンコーダ及び前記デコーダの各々は、畳み込みニューラルネットワークを用いて構成されたものである請求項1又は2記載の音声信号解析装置。
- 学習部が、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習し、
パラメータ推定部が、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定し、
基本周波数パターン推定部が、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する
音声信号解析方法。 - 前記学習部が学習することでは、音声信号における基本周波数パターンを入力とした前記エンコーダの出力と、経路制約つきHMM(Hidden Markov Model)の状態系列を用いて表される前記パラメータの事前分布との距離、及び前記潜在変数を入力とした前記デコーダの出力を用いて定義される目的関数を最大化するように、前記深層生成モデルを学習する請求項4記載の音声信号解析方法。
- 前記エンコーダ及び前記デコーダの各々は、畳み込みニューラルネットワークを用いて構成されたものである請求項4又は5記載の音声信号解析方法。
- 請求項1〜請求項3の何れか1項に記載の音声信号解析装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018028295A JP6902485B2 (ja) | 2018-02-20 | 2018-02-20 | 音声信号解析装置、方法、及びプログラム |
PCT/JP2019/006047 WO2019163753A1 (ja) | 2018-02-20 | 2019-02-19 | 音声信号解析装置、方法、及びプログラム |
US16/970,896 US11798579B2 (en) | 2018-02-20 | 2019-02-19 | Device, method, and program for analyzing speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018028295A JP6902485B2 (ja) | 2018-02-20 | 2018-02-20 | 音声信号解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019144403A JP2019144403A (ja) | 2019-08-29 |
JP6902485B2 true JP6902485B2 (ja) | 2021-07-14 |
Family
ID=67687781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018028295A Active JP6902485B2 (ja) | 2018-02-20 | 2018-02-20 | 音声信号解析装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11798579B2 (ja) |
JP (1) | JP6902485B2 (ja) |
WO (1) | WO2019163753A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243620B (zh) * | 2020-01-07 | 2022-07-19 | 腾讯科技(深圳)有限公司 | 语音分离模型训练方法、装置、存储介质和计算机设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3160277B2 (ja) * | 1989-03-13 | 2001-04-25 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 基本周波数パターン推定装置 |
JP4355772B2 (ja) * | 2007-02-19 | 2009-11-04 | パナソニック株式会社 | 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム |
US10204625B2 (en) * | 2010-06-07 | 2019-02-12 | Affectiva, Inc. | Audio analysis learning using video data |
JP6442982B2 (ja) * | 2014-10-28 | 2018-12-26 | 富士通株式会社 | 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム |
US9842105B2 (en) * | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
WO2016188593A1 (en) * | 2015-05-26 | 2016-12-01 | Katholieke Universiteit Leuven | Speech recognition system and method using an adaptive incremental learning approach |
JP6137708B2 (ja) * | 2015-08-06 | 2017-05-31 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
US10255628B2 (en) * | 2015-11-06 | 2019-04-09 | Adobe Inc. | Item recommendations via deep collaborative filtering |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
EP3438972B1 (en) * | 2016-03-28 | 2022-01-26 | Sony Group Corporation | Information processing system and method for generating speech |
US10249289B2 (en) * | 2017-03-14 | 2019-04-02 | Google Llc | Text-to-speech synthesis using an autoencoder |
-
2018
- 2018-02-20 JP JP2018028295A patent/JP6902485B2/ja active Active
-
2019
- 2019-02-19 US US16/970,896 patent/US11798579B2/en active Active
- 2019-02-19 WO PCT/JP2019/006047 patent/WO2019163753A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20200395041A1 (en) | 2020-12-17 |
WO2019163753A1 (ja) | 2019-08-29 |
US11798579B2 (en) | 2023-10-24 |
JP2019144403A (ja) | 2019-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7108147B2 (ja) | 表現用エンドツーエンド音声合成における変分埋め込み容量 | |
Ling et al. | Deep learning for acoustic modeling in parametric speech generation: A systematic review of existing techniques and future trends | |
Battenberg et al. | Effective use of variational embedding capacity in expressive end-to-end speech synthesis | |
Zhang et al. | A survey on audio diffusion models: Text to speech synthesis and enhancement in generative ai | |
Ling et al. | Modeling spectral envelopes using restricted Boltzmann machines and deep belief networks for statistical parametric speech synthesis | |
Tokuda et al. | Speech synthesis based on hidden Markov models | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
CN114424209A (zh) | 序列到序列神经模型中的结构保留关注机制 | |
Pamisetty et al. | Prosody-tts: An end-to-end speech synthesis system with prosody control | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Tanaka et al. | VAE-SPACE: Deep generative model of voice fundamental frequency contours | |
JP6902485B2 (ja) | 音声信号解析装置、方法、及びプログラム | |
Ramos | Voice conversion with deep learning | |
JP5885210B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
Revathi et al. | Emotions recognition: different sets of features and models | |
JP6137477B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6472005B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
Nakamura et al. | Integration of spectral feature extraction and modeling for HMM-based speech synthesis | |
US11670292B2 (en) | Electronic device, method and computer program | |
JP6665079B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
Fahmy et al. | Boosting subjective quality of Arabic text-to-speech (TTS) using end-to-end deep architecture | |
Panagiotopoulos et al. | Neural network based autonomous control of a speech synthesis system | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Li et al. | Multi-speaker pitch tracking via embodied self-supervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6902485 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |