JP6313619B2 - 音声信号処理装置及びプログラム - Google Patents
音声信号処理装置及びプログラム Download PDFInfo
- Publication number
- JP6313619B2 JP6313619B2 JP2014058753A JP2014058753A JP6313619B2 JP 6313619 B2 JP6313619 B2 JP 6313619B2 JP 2014058753 A JP2014058753 A JP 2014058753A JP 2014058753 A JP2014058753 A JP 2014058753A JP 6313619 B2 JP6313619 B2 JP 6313619B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- signal
- section
- estimated
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 269
- 238000012545 processing Methods 0.000 title claims description 89
- 238000006243 chemical reaction Methods 0.000 claims description 170
- 238000000034 method Methods 0.000 claims description 107
- 238000000605 extraction Methods 0.000 claims description 94
- 238000001514 detection method Methods 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 43
- 238000000926 separation method Methods 0.000 claims description 26
- 239000013256 coordination polymer Substances 0.000 description 57
- 230000008859 change Effects 0.000 description 20
- 230000001186 cumulative effect Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 15
- 230000001629 suppression Effects 0.000 description 15
- 239000000284 extract Substances 0.000 description 14
- 230000001360 synchronised effect Effects 0.000 description 13
- 238000012937 correction Methods 0.000 description 12
- 230000003111 delayed effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 101100394003 Butyrivibrio fibrisolvens end1 gene Proteins 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005311 autocorrelation function Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 206010071299 Slow speech Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Description
音声・背景音分離部1は、音声と背景音が混合した信号(入力音声信号NplsBG)を入力し、入力音声信号NplsBGから音声及び背景音を推定し、入力音声信号NplsBGを、推定した音声を主成分とする推定音声信号N’と、推定した背景音を主成分とする推定背景音信号BG’とに分離する。音声・背景音分離部1により分離された推定音声信号N’は、基本周期抽出部6、音声強調部7及び話速変換部8に出力される。音声・背景音分離部1により分離された推定背景音信号BG’は話速変換部8に出力される。
言語特徴抽出区間検出部2は、音声と背景音が混合した信号(入力音声信号NplsBG)を入力し、入力音声信号NplsBGに対し、周波数特性を表すケプストラム等の言語の特徴量を抽出し、抽出した特徴量に基づいて、人の声である音声として連続している区間か否かを判定して音声連続区間を検出し、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報P1(時系列の入力音声信号NplsBGの各サンプルにおいて、音声区間及び非音声区間のいずれかを示す情報)を生成する。言語特徴抽出区間検出部2により生成された音声連続区間情報P1は、多数決判断部5に出力される。
信号特徴抽出区間検出部3は、音声と背景音が混合した信号(入力音声信号NplsBG)を入力し、入力音声信号NplsBGの音の大きさ(ラウドネス)を所定時間のフレーム毎に検出する。そして、信号特徴抽出区間検出部3は、当該音の大きさの特徴量を抽出し、人の声である音声として連続している区間か否かを判定して音声連続区間を検出し、音声区間であるかまたは非音声区間であるかを示す音声連続区間情報P2を生成する。信号特徴抽出区間検出部3により生成された音声連続区間情報P2は、多数決判断部5に出力される。
小森智康、外6名、“音声/非音声区間切替による背景音抑圧処理法の検討”、信学技報、IEICE Technical Report、SP2011-66、WIT2011-48(2011-10)
字幕情報抽出区間検出部4は、入力音声信号NplsBGに対応した番組の字幕データ情報d1を入力し、番組の字幕データ情報d1から字幕情報を抽出し、抽出した字幕情報の区間を、字幕表示を行う字幕表示区間として検出し、字幕表示区間情報P3を生成する。字幕情報抽出区間検出部4により生成された字幕表示区間情報P3は、多数決判断部5に出力される。
多数決判断部5は、言語特徴抽出区間検出部2から音声連続区間情報P1を入力すると共に、信号特徴抽出区間検出部3から音声連続区間情報P2を、字幕情報抽出区間検出部4から字幕表示区間情報P3をそれぞれ入力する。そして、多数決判断部5は、音声連続区間情報P1,P2及び字幕表示区間情報P3に対し、予め設定された重み付けに従い多数決判断を行って高信頼度音声区間情報HCPを生成し、高信頼度音声区間情報HCPに所定の補正処理を施して補正音声区間情報CPを生成する。
図1に戻って、基本周期抽出部6は、音声・背景音分離部1から推定音声信号N’を入力し、推定音声信号N’から基本周期fを抽出する。基本周期抽出部6により抽出された基本周期fは、話速変換部8に出力される。
音声強調部7は、音声・背景音分離部1から推定音声信号N’を入力し、推定音声信号N’から強調音声信号N’’を生成する。音声強調部7により生成された強調音声信号N’’は、話速変換部8に出力される。
田高礼子,清山信正,小森智康,清山信正,今井篤,都木徹,“雑音下音声に対する高齢者の聞き取り易さ改善のためのスペクトル強調方法の検討”,音講論(秋),2−Q−a8,2012,p.531−532.
話速変換部8は、音声と背景音が混合した信号(入力音声信号NplsBG)を入力すると共に、音声・背景音分離部1から推定音声信号N’及び推定背景音信号BG’を、多数決判断部5から補正音声区間情報CPを、基本周期抽出部6から基本周期fを、音声強調部7から強調音声信号N’’をそれぞれ入力する。
混合比調整部9は、話速変換部8から話速変換後の話速変換信号F(NplsBG),F(N’),F(BG’),F(N’’)を入力すると共に、多数決判断部5から補正音声区間情報CPを入力する。そして、混合比調整部9は、補正音声区間情報CPが示す音声区間及び非音声区間のそれぞれについて、話速変換信号F(NplsBG),F(N’),F(BG’),F(N’’)のうちの1以上の信号に対し、所定のパラメータを乗算し、出力音声信号M(F(・))を生成して出力する。
出力音声信号M(F(・))=F(N’)+β1×F(BG’)
パラメータβ1は、例えばβ1=10^(−6/10)であり、予め設定される。
出力音声信号M(F(・))=γ1×F(N’)+γ2×F(N’’)+β1×F(BG’)
パラメータγ1,γ2は、F(N’),F(N’’)の比率を定めるパラメータであり、予め設定される。
出力音声信号M(F(・))=β2×F(NplsBG)
パラメータβ2は、例えばβ2=10^(−3/10)であり、予め設定される。
次に、入力音声信号NplsBG、音声・背景音分離部1により出力される推定音声信号N’及び推定背景音信号BG’、並びに音声強調部7により出力される強調音声信号N’’の同期処理について説明する。
図1に示した音声信号処理装置10において、話速変換部8により話速をゆっくりにした場合には、番組全体の再生時間が延びてしまい、遅延時間が蓄積してしまう。そこで、話速変換部8に代わる他の話速変換部8’は、図1に示した話速変換部8の処理に加え、非音声区間内の信号を適宜スキップした話速変換信号F(NplsBG),F(N’),F(BG’),F(N’’)を出力する。これにより、話速をゆっくりにした話速変換に伴う遅延時間を短縮することができる。
2 言語特徴抽出区間検出部
3 信号特徴抽出区間検出部
4 字幕情報抽出区間検出部
5 多数決判断部
6 基本周期抽出部
7 音声強調部
8 話速変換部
9 混合比調整部
10 音声信号処理装置
11 タイミング補正部
13 再生用バッファ
14 区間識別バッファ
15 スキップ決定手段
16 Fo/Fin部
17 話速変換手段
18 時刻変換手段
Claims (6)
- 入力音声信号を話速変換し、入力音声信号の背景音の大きさを制御する音声信号処理装置において、
前記入力音声信号から音声及び背景音を推定し、前記音声を主成分とする推定音声信号と、前記背景音を主成分とする推定背景音信号とに分離する音声・背景音分離部と、
複数の手法により、前記入力音声信号から音声区間及び非音声区間をそれぞれ検出し、前記音声区間及び非音声区間を示す区間情報をそれぞれ生成する区間検出部と、
前記音声・背景音分離部により分離された推定音声信号から基本周波数を抽出する基本周期抽出部と、
前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、新たな区間情報を生成する多数決判断部と、
前記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号の速度を変換し、変換後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換部と、
前記話速変換部により出力された話速変換信号から出力音声信号を生成する出力音声信号生成部と、を備え、
前記話速変換部は、
前記入力音声信号、並びに前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号が格納される再生用バッファと、
前記多数決判断部により生成された新たな区間情報が格納される区間識別バッファと、
前記区間識別バッファに格納された新たな区間情報における非音声区間内の所定位置に対応したスキップ位置を決定すると共に、当該話速変換部による速度の変換に伴う遅延時間をスキップ時間に設定し、前記スキップ位置を開始点として前記スキップ時間の間のスキップ区間を決定し、
前記再生用バッファに格納された入力音声信号、推定音声信号及び推定背景音信号から、前記スキップ区間の信号をスキップするように削除すると共に、前記区間識別バッファに格納された新たな区間情報から、前記スキップ区間の情報をスキップするように削除するスキップ決定手段と、
前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の伸縮を行って所定速度に話速を変換する第1の変換処理を行い、
前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号及び推定背景音信号の速度を変換しないかまたは所定速度に変換する第2の変換処理を行い、前記第1及び第2の変換処理後の入力音声信号、推定音声信号及び推定背景音信号を話速変換信号として出力する話速変換手段と、
前記区間識別バッファからスキップ後の区間情報を読み出し、当該区間情報の時刻を、前記第1及び第2の変換処理における所定速度に応じた時刻に変換し、変換後の区間情報を生成する時刻変換手段と、を備え、
前記出力音声信号生成部は、
前記時刻変換手段により生成された変換後の区間情報が示す音声区間及び非音声区間について、前記話速変換手段により出力された話速変換信号のうちの少なくとも1以上の信号に対し、所定のパラメータを乗算して出力音声信号を生成する、ことを特徴とする音声信号処理装置。 - 請求項1に記載の音声信号処理装置において、
前記区間検出部が用いる複数の手法には、
前記入力音声信号から音声言語の周波数またはパワーの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、前記入力音声信号から音の大きさの特徴量を抽出し、当該特徴量に基づいて前記区間情報を生成する手法、及び、前記入力音声信号に対応する番組の字幕情報を含む字幕データ情報から前記字幕情報を抽出し、前記字幕情報の区間を音声区間とし、前記字幕情報以外の区間を非音声区間とすることで、前記区間情報を生成する手法のうち、少なくとも2つの手法が含まれる、ことを特徴とする音声信号処理装置。 - 請求項1または2に記載の音声信号処理装置において、
前記多数決判断部は、
前記区間検出部により生成された複数の区間情報に対し、所定の重み付けに従い多数決判断を行い、前記多数決判断による区間情報を生成し、前記多数決判断による区間情報が音声区間を示しており、当該音声区間の連続する時間が所定時間以下の場合、前記音声区間を非音声区間に補正し、前記多数決判断による区間情報が非音声区間を示しており、当該非音声区間の連続する時間が所定時間以下の場合、前記非音声区間を音声区間に補正し、補正後の区間情報を新たな区間情報として生成する、ことを特徴とする音声信号処理装置。 - 請求項1から3までのいずれか一項に記載の音声信号処理装置において、
前記出力音声信号生成部は、
前記変換後の区間情報が音声区間を示している場合、前記話速変換手段により出力された変換処理後の推定音声信号と、前記話速変換手段により出力された変換処理後の推定背景音信号に第1のパラメータを乗算した信号とを混合し、出力音声信号を生成し、
前記変換後の区間情報が非音声区間を示している場合、前記話速変換手段により出力された変換処理後の入力音声信号に第2のパラメータを乗算した信号を、出力音声信号として生成する、ことを特徴とする音声信号処理装置。 - 請求項1から4までのいずれか一項に記載の音声信号処理装置において、
さらに、前記音声・背景音分離部により分離された推定音声信号を帯域別に分け、フィルタ処理を施して強調音声信号を生成する音声強調部を備え、
前記話速変換部の再生用バッファは、
前記入力音声信号、前記音声・背景音分離部により分離された推定音声信号及び推定背景音信号、並びに前記音声強調部により生成された強調音声信号が格納され、
前記話速変換部のスキップ決定手段は、
前記再生用バッファに格納された入力音声信号、推定音声信号、推定背景音信号及び強調音声信号から、前記スキップ区間の信号をスキップするように削除し、
前記話速変換部の話速変換手段は、
前記区間識別バッファに格納されたスキップ後の区間情報が音声区間を示している場合、前記基本周期抽出部により抽出された基本周期を単位として、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の伸縮を行って所定速度に話速を変換する第1の変換処理を行い、
前記区間識別バッファに格納されたスキップ後の区間情報が非音声区間を示している場合、前記再生用バッファに格納されたスキップ後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号の速度を変換しないかまたは所定速度に変換する第2の変換処理を行い、前記第1及び第2の変換処理後の入力音声信号、推定音声信号、推定背景音信号及び強調音声信号を話速変換信号として出力する、ことを特徴とする音声信号処理装置。 - コンピュータを、請求項1から5までのいずれか一項に記載の音声信号処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014058753A JP6313619B2 (ja) | 2014-03-20 | 2014-03-20 | 音声信号処理装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014058753A JP6313619B2 (ja) | 2014-03-20 | 2014-03-20 | 音声信号処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015184349A JP2015184349A (ja) | 2015-10-22 |
JP6313619B2 true JP6313619B2 (ja) | 2018-04-18 |
Family
ID=54350990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014058753A Active JP6313619B2 (ja) | 2014-03-20 | 2014-03-20 | 音声信号処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6313619B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869626B (zh) * | 2016-05-31 | 2019-02-05 | 宇龙计算机通信科技(深圳)有限公司 | 一种语速自动调节的方法及终端 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0564297A (ja) * | 1991-09-05 | 1993-03-12 | Terumo Corp | 補聴器 |
JP4965371B2 (ja) * | 2006-07-31 | 2012-07-04 | パナソニック株式会社 | 音声再生装置 |
JP4952698B2 (ja) * | 2008-11-04 | 2012-06-13 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
JP5325059B2 (ja) * | 2009-09-14 | 2013-10-23 | 日本放送協会 | 映像音声同期再生装置、映像音声同期処理装置、映像音声同期再生プログラム |
JP5737808B2 (ja) * | 2011-08-31 | 2015-06-17 | 日本放送協会 | 音響処理装置およびそのプログラム |
-
2014
- 2014-03-20 JP JP2014058753A patent/JP6313619B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015184349A (ja) | 2015-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5530720B2 (ja) | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 | |
KR101334366B1 (ko) | 오디오 배속 재생 방법 및 장치 | |
JP5737808B2 (ja) | 音響処理装置およびそのプログラム | |
US6763329B2 (en) | Method of converting the speech rate of a speech signal, use of the method, and a device adapted therefor | |
JP2005157363A (ja) | フォルマント帯域を利用したダイアログエンハンシング方法及び装置 | |
US8635077B2 (en) | Apparatus and method for expanding/compressing audio signal | |
US20050246170A1 (en) | Audio signal processing apparatus and method | |
JP6313619B2 (ja) | 音声信号処理装置及びプログラム | |
JP5166470B2 (ja) | 音声認識装置、及びコンテンツ再生装置 | |
JP5830364B2 (ja) | 韻律変換装置およびそのプログラム | |
JP3803302B2 (ja) | 映像要約装置 | |
JP2007183410A (ja) | 情報再生装置および方法 | |
JP6321334B2 (ja) | 信号処理装置及びプログラム | |
JP3081469B2 (ja) | 話速変換装置 | |
JP2002297200A (ja) | 話速変換装置 | |
JP4580297B2 (ja) | 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路 | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
JP4313724B2 (ja) | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 | |
JP6790851B2 (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 | |
JPH06337696A (ja) | 速度変換制御装置と速度変換制御方法 | |
JP2006038956A (ja) | 音声速度遅延装置及び方法 | |
JP2005204003A (ja) | 連続メディアデータ高速再生方法、複合メディアデータ高速再生方法、多チャンネル連続メディアデータ高速再生方法、映像データ高速再生方法、連続メディアデータ高速再生装置、複合メディアデータ高速再生装置、多チャンネル連続メディアデータ高速再生装置、映像データ高速再生装置、プログラム、および、記録媒体 | |
JP5677137B2 (ja) | 韻律変換装置およびプログラム | |
CN112309419A (zh) | 多路音频的降噪、输出方法及其系统 | |
JP2007163915A (ja) | 音声速度変換装置、音声速度変換プログラム及びそのプログラムを記憶したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6313619 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |