JP6671221B2 - 音声選択装置及びプログラム - Google Patents
音声選択装置及びプログラム Download PDFInfo
- Publication number
- JP6671221B2 JP6671221B2 JP2016077455A JP2016077455A JP6671221B2 JP 6671221 B2 JP6671221 B2 JP 6671221B2 JP 2016077455 A JP2016077455 A JP 2016077455A JP 2016077455 A JP2016077455 A JP 2016077455A JP 6671221 B2 JP6671221 B2 JP 6671221B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- audio data
- complementary
- feature amount
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000295 complement effect Effects 0.000 claims description 143
- 239000013598 vector Substances 0.000 claims description 138
- 238000004364 calculation method Methods 0.000 claims description 102
- 239000000203 mixture Substances 0.000 claims description 44
- 238000009826 distribution Methods 0.000 claims description 28
- 230000003595 spectral effect Effects 0.000 claims description 27
- 230000003068 static effect Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 description 33
- 238000012545 processing Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 10
- 238000005311 autocorrelation function Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、本発明の実施形態による音声選択装置について説明する。図1は、本発明の実施形態による音声選択装置の構成例を示すブロック図である。この音声選択装置1は、番組音声DB(データベース)10−1〜10−N、特徴量算出部11−1〜11−N、補完音声DB20−1〜20−M、特徴量算出部21−1〜21−M、類似度算出部22−1〜22−M、類似度加算部23−1〜23−M及び選択部24を備えている。
[非特許文献1]
N. Dehak, P. Kenny, R. Dehak, P. Dumouchel and P. Ouellet, “Front-end factor analysis for speaker verification”, IEEE Trans. Audio Speech Lang. Process., 19, 788-798(2011)
まず、実施例1について説明する。実施例1は、声質の観点から、番組音声に対して聞き分けやすい補完音声を選択する例である。具体的には、実施例1は、メル周波数ケプストラム係数(MFCC)及び対数エネルギー(E)からなる静的係数並びにそれらの1次回帰係数及び2次回帰係数を含めたスペクトル特徴量を用いた音響特徴量に基づいて、複数の補完音声から1つの補完音声を選択する。
[非特許文献2]
The HTK Book (for HTK Version 3.4) Cambridge University Engineering Department
[非特許文献3]
REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9
次に、実施例2について説明する。実施例2は、声の高さの観点から、番組音声に対して聞き分けやすい補完音声を選択する例である。具体的には、実施例2は、対数基本周波数(LF0)並びにその1次回帰係数及び2次回帰係数を含めたピッチ特徴量を用いた音響特徴量に基づいて、複数の補完音声から1つの補完音声を選択する。
[非特許文献4]
都木、清山、宮坂、「複数の窓幅から得られた自己相関関数を用いる音声基本周期抽出法」、電子情報通信学会論文誌 A Vol, J80-A No.9 pp.1341-1350 1997年9月
[非特許文献5]
清山、今井、三島、都木、宮坂、「高品質リアルタイム話速変換システムの開発」、電子情報通信学会論文誌 D-II Vol, J84-D-II No.6 pp.918-926 2001年6月
次に、実施例3について説明する。実施例3は、実施例1,2を組み合わせた例であり、声質及び声の高さの観点から、番組音声に対して聞き分けやすい補完音声を選択する。具体的には、実施例3は、実施例1のスペクトル特徴量を用いた音響特徴量、及び実施例2のピッチ特徴量を用いた音響特徴量に基づいて、複数の補完音声から1つの補完音声を選択する。
10−1〜10−N 番組音声DB
11−1〜11−N,21−1〜21−M 特徴量算出部
20−1〜20−M 補完音声DB
22−1〜22−M 類似度算出部
23−1〜23−M 類似度加算部
24 選択部
Claims (5)
- 番組音声に補完音声を付加して提示する際の前記補完音声を、複数の補完音声から選択する音声選択装置において、
1以上の所定数の番組音声データが格納された番組音声DB(データベース)と、
2以上の所定数の補完音声データが格納された補完音声DBと、
前記番組音声DBに格納された前記所定数の番組音声データのそれぞれについて、音響特徴量を算出すると共に、前記補完音声DBに格納された前記所定数の補完音声データのそれぞれについて、音響特徴量を算出する特徴量算出部と、
前記特徴量算出部により算出された前記所定数の番組音声データのそれぞれについての音響特徴量と、前記特徴量算出部により算出された前記所定数の補完音声データのそれぞれについての音響特徴量との間で類似度を算出する類似度算出部と、
前記補完音声データ毎に、前記類似度算出部により算出された、前記所定数の番組音声データのそれぞれについての音響特徴量と当該補完音声データの音響特徴量との間の前記類似度を加算し、総和を求める類似度加算部と、
前記類似度加算部により求めた前記補完音声データ毎の総和のうち、最小の総和を特定し、前記所定数の補完音声データから、前記最小の総和に対応する前記補完音声データを選択する選択部と、
を備えたことを特徴とする音声選択装置。 - 請求項1に記載の音声選択装置において、
前記特徴量算出部は、
前記番組音声データ及び前記補完音声データのそれぞれについて、所定の長さのフレーム単位で音声データを切り出し、前記フレーム単位の音声データ毎に、周波数特性を求め、前記周波数特性に基づいて、メル周波数ケプストラム係数及び対数エネルギーからなる静的係数並びに前記静的係数の1次回帰係数及び2次回帰係数を含めたスペクトル特徴量を求め、前記スペクトル特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量であるiベクトルを算出する、ことを特徴とする音声選択装置。 - 請求項1に記載の音声選択装置において、
前記特徴量算出部は、
前記番組音声データ及び前記補完音声データのそれぞれについて、所定の長さのフレーム単位で音声データを切り出し、前記フレーム単位の音声データ毎に、基本周期候補を設定し、前記基本周期候補の周期性の程度を求めて前記基本周期候補から基本周期を抽出し、前記基本周期に基づいて、対数基本周波数並びに前記対数基本周波数の1次回帰係数及び2次回帰係数を含めたピッチ特徴量を求め、前記ピッチ特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量であるiベクトルを算出する、ことを特徴とする音声選択装置。 - 請求項1に記載の音声選択装置において、
前記特徴量算出部は、
前記番組音声データ及び前記補完音声データのそれぞれについて、所定の長さのフレーム単位で音声データを切り出し、前記フレーム単位の音声データ毎に、周波数特性を求め、前記周波数特性に基づいて、メル周波数ケプストラム係数及び対数エネルギーからなる静的係数並びに前記静的係数の1次回帰係数及び2次回帰係数を含めたスペクトル特徴量を求め、前記スペクトル特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量である第1のiベクトルを算出し、
前記フレーム単位の音声データ毎に、基本周期候補を設定し、前記基本周期候補の周期性の程度を求めて前記基本周期候補から基本周期を抽出し、前記基本周期に基づいて、対数基本周波数並びに前記対数基本周波数の1次回帰係数及び2次回帰係数を含めたピッチ特徴量を求め、前記ピッチ特徴量に基づきEMアルゴリズムを用いて、混合数分の混合重み及び前記混合数分のガウス分布からなるGMMパラメータを算出し、前記GMMパラメータから前記ガウス分布の平均ベクトルを抽出し、前記平均ベクトルを前記混合数分だけ結合したGMMスーパーベクトルを求め、前記GMMスーパーベクトルに基づいて、前記音響特徴量である第2のiベクトルを算出し、
前記類似度算出部は、
前記特徴量算出部により算出された前記所定数の番組音声データのそれぞれについての第1のiベクトルと、前記特徴量算出部により算出された前記所定数の補完音声データのそれぞれについての第1のiベクトルとの間で類似度を算出し、
前記特徴量算出部により算出された前記所定数の番組音声データのそれぞれについての第2のiベクトルと、前記特徴量算出部により算出された前記所定数の補完音声データのそれぞれについての第2のiベクトルとの間の類似度を算出し、
前記類似度加算部は、
前記補完音声データ毎に、前記類似度算出部により算出された、前記所定数の番組音声データのそれぞれについての第1のiベクトルと当該補完音声データの第1のiベクトルとの間の前記類似度を加算し、第1の加算結果を求め、
前記補完音声データ毎に、前記類似度算出部により算出された、前記所定数の番組音声データのそれぞれについての第2のiベクトルと当該補完音声データの第2のiベクトルとの間の前記類似度を加算し、第2の加算結果を求め、
前記第1の加算結果及び前記第2の加算結果を重み付け加算し、前記総和を求める、ことを特徴とする音声選択装置。 - コンピュータを、請求項1から4までのいずれか一項に記載の音声選択装置として機能させるための音声選択プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016077455A JP6671221B2 (ja) | 2016-04-07 | 2016-04-07 | 音声選択装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016077455A JP6671221B2 (ja) | 2016-04-07 | 2016-04-07 | 音声選択装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017187686A JP2017187686A (ja) | 2017-10-12 |
JP6671221B2 true JP6671221B2 (ja) | 2020-03-25 |
Family
ID=60044828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016077455A Active JP6671221B2 (ja) | 2016-04-07 | 2016-04-07 | 音声選択装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6671221B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007333603A (ja) * | 2006-06-16 | 2007-12-27 | Sony Corp | ナビゲーション装置、ナビゲーション装置の制御方法、ナビゲーション装置の制御方法のプログラム、ナビゲーション装置の制御方法のプログラムを記録した記録媒体 |
JP2008096483A (ja) * | 2006-10-06 | 2008-04-24 | Matsushita Electric Ind Co Ltd | 音響出力制御装置、音響出力制御方法 |
JP4977066B2 (ja) * | 2008-03-17 | 2012-07-18 | 本田技研工業株式会社 | 車両用音声案内装置 |
JP6235938B2 (ja) * | 2013-08-13 | 2017-11-22 | 日本電信電話株式会社 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
-
2016
- 2016-04-07 JP JP2016077455A patent/JP6671221B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017187686A (ja) | 2017-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
Liutkus et al. | Adaptive filtering for music/voice separation exploiting the repeating musical structure | |
Singh et al. | Multimedia analysis for disguised voice and classification efficiency | |
JP5961950B2 (ja) | 音声処理装置 | |
JP4572218B2 (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
US9646592B2 (en) | Audio signal analysis | |
Sharma et al. | On the Importance of Audio-Source Separation for Singer Identification in Polyphonic Music. | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
JP7362976B2 (ja) | 音声合成装置及びプログラム | |
Wan et al. | Combining multiple high quality corpora for improving HMM-TTS. | |
CN108369803A (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
Gowda et al. | Quasi-closed phase forward-backward linear prediction analysis of speech for accurate formant detection and estimation | |
JP6671221B2 (ja) | 音声選択装置及びプログラム | |
Prabhu et al. | EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data | |
KR20170124854A (ko) | 음성/비음성 구간 검출 장치 및 방법 | |
JP7133998B2 (ja) | 音声合成装置及びプログラム | |
Lipeika | Optimization of formant feature based speech recognition | |
Siki et al. | Time-frequency analysis on gong timor music using short-time fourier transform and continuous wavelet transform | |
Banerjee et al. | Procedure for cepstral analysis in tracing unique voice segments | |
Singh | pyAudioProcessing: Audio Processing, Feature Extraction, and Machine Learning Modeling. | |
Ingale et al. | Singing voice separation using mono-channel mask | |
Olvera et al. | Web-based automatic language identification system | |
Gunawan et al. | Development of Language Identification using Line Spectral Frequencies and Learning Vector Quantization Networks | |
Marxer et al. | Modelling and separation of singing voice breathiness in polyphonic mixtures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6671221 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |