JP6169526B2 - 特定音声抑圧装置、特定音声抑圧方法及びプログラム - Google Patents
特定音声抑圧装置、特定音声抑圧方法及びプログラム Download PDFInfo
- Publication number
- JP6169526B2 JP6169526B2 JP2014092670A JP2014092670A JP6169526B2 JP 6169526 B2 JP6169526 B2 JP 6169526B2 JP 2014092670 A JP2014092670 A JP 2014092670A JP 2014092670 A JP2014092670 A JP 2014092670A JP 6169526 B2 JP6169526 B2 JP 6169526B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- power
- speech
- voice
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
図1は第一実施形態に係る特定音声抑圧装置100の機能ブロック図を、図2はその処理フローの例を示す。
音源分離部110は、混合音声信号X(t)を受け取り、従来の音源分離技術を用いて、それぞれの話者i(音源)の音声信号(音源信号)の推定値Si(t)と、話者iの音声のパワーに対応するパワーパラメータP1,i(t)と、話者iの位置に対応する音源位置パラメータL1,i(t)とを算出し(s110)、出力する。なお、iは話者を表すインデックスであり、i∈{1,…,M}である。音源分離の従来技術として、例えば、参考文献1を用いることができる。
(参考文献1)特開2012−173592号公報
大声判定部120は、M個のパワーパラメータP1,i(t)と、M個の音源位置パラメータL1,i(t)とを受け取り、話者iの音声が大声か否かを判定し(s120)、大声を出している話者のインデックスi2(t)の集合を出力する。なお、全ての話者iの音声に対して、判定処理を行う。
距離計算部121は、M個の音源位置パラメータL1,i(t)を受け取る。距離計算部121は、音源位置パラメータL1,i(t)を用いて、話者iの位置L2,iを特定する。距離計算部121は、混合音声信号X(t)を収音する際に用いたマイクロホンの位置Uと位置L2,iとを用いて、マイクロホンと話者iとの距離d(U,L2,i,t)を計算し(s121)、出力する。音源位置パラメータL1,i(t)は、話者iの位置L2,iを特定するためのパラメータであればよく、位置L2,i自体であってもよい。例えば、距離d(U,L2,i,t)としてユークリッド距離を用いてもよい。また、マイクロホンの位置Uは、利用者等により予め与えられているものとする。
パワー補正部122は、M個のパワーパラメータP1,i(t)と、M個の距離d(U,L2,i,t)とを受け取る。パワー補正部122は、パワーパラメータP1,i(t)を用いて、話者iの音声のパワーP2,i(t)を特定する。パワー補正部122は、距離d(U,L2,i,t)を用いて、話者iの音声のパワーP2,i(t)を補正し、補正済みの音声のパワーP3,i(t)を生成し(s122)、出力する。
P3,i(t)=P2,i(t)/d'(U,L2,i,t)
ただし、d’(U,L2,i,t)は、距離d(U,L2,i,t)の増加に伴って、単調減少するような関数である。なお、距離が2倍になると6dBほど音声パワーが小さくなることが知られている。この特性に基づいて、パワーP3,i(t)を求めてもよい。
大声度計算部123は、M個のパワーP3,i(t)を受け取り、M個のパワーP3,i(t)を用いて、話者iの他の話者jに対する大声の度合いを表す大声度Ei(t)を計算し(s123)、出力する。例えば、次式により、大声度Ei(t)を計算する。
第一判定部124は、M個の大声度Ei(t)を受け取り、大声度Ei(t)と閾値Aとを比較し、閾値A以上の大声度Ei_2に対応するインデックスi2(t)の集合を出力する。
(参考文献2)南條、国松、川野、中山、西浦、「音響防犯システムのための叫び声の基礎的検討」、2008年音響学会春季大会、1-Q-17, 2008.
混合信号生成部140は、インデックスi2(t)の集合とM個の推定値Si(t)とを受け取り、M個の推定値Si(t)から、インデックスi2(t)に対応する音声信号の推定値Si_2(t)を除き、残りの音声信号の推定値Si_3(t)を合成して混合音声信号^X(t)を生成し(s140)、出力する。
このような構成により、混合音声信号から特定の話者の音声を抑圧することができ、混合音声信号から聴者にとって不快な印象を与える音声(例えば、野次や叫び声などを含む大声)を抑圧した混合音声信号を生成することができる。
本実施形態では、音源分離部110において、混合音声信号X(t)から話者iの位置に対応する音源位置パラメータL1,i(t)を算出し、距離計算部121において、音源位置パラメータL1,i(t)と予め与えられたマイクロホンの位置Uとを用いて、マイクロホンと話者iとの距離d(U,L2,i,t)を計算している。しかし、既知の音源分離方法には、マイクロホンの位置Uを予め与えられることなく、混合音声信号X(t)からマイクマイクロホンと話者iとの距離d(U,L2,i,t)を算出できる方法もある。そのような既知の音源分離方法を用いて、音源分離部において、混合音声信号X(t)を受け取り、それぞれの話者i(音源)の音声信号(音源信号)の推定値Si(t)と、話者iの音声のパワーに対応するパワーパラメータP1,i(t)と、マイクロホンと話者iとの距離d(U,L2,i,t)とを算出し、出力してもよい。その場合、距離計算部121を設けなくともよい。
第一実施形態と異なる部分を中心に説明する。
叫び声判定部230は、インデックスi2(t)の集合とM個の推定値Si(t)とを受け取り、話者i2(t)の音声が叫び声か否かを判定し(s230)、叫び声を出している話者のインデックスi3(t)を出力する。なお、全ての話者iではなく、インデックスi2(t)に対応する話者の音声に対してのみ、判定処理を行う。
声道スペクトル生成部231は、インデックスi2(t)の集合とM個の推定値Si(t)とを受け取り、インデックスi2(t)に対応する音声信号の推定値Si_2(t)の声道スペクトルvi_2(t)を生成し(s231)、声道スペクトルvi_2(t)の集合を出力する。
デルタ特徴量計算部232は、声道スペクトルvi_2(t)の集合を受け取り、これらの値を用いて、デルタ特徴量Δvi_2(t)を計算し(s232)、デルタ特徴量Δvi_2(t)の集合を出力する。例えば、次式により(参考文献3参照)、デルタ特徴量Δvi_2(t)を計算する。
(参考文献3)FURUI S., "Speaker-independent isolated word recognition using dynamic features of speech spectrum", IEEE Trans. Acoust., Speech and Signal Processing ASSP-34(1), 1986, pp. 52-59.
第二判定部233は、デルタ特徴量Δvi_2(t)の集合を受け取り、デルタ特徴量Δvi_2がほぼ0となる区間が閾値Bを超えるか否かを判定し、閾値Bを超えるデルタ特徴量Δvi_3に対応するインデックスi3(t)の集合を出力する。
混合信号生成部240は、インデックスi3(t)の集合とM個の推定値Si(t)とを受け取り、インデックスi3(t)に対応する音声信号の推定値Si_3(t)を除き、残りの音声信号の推定値Si_4(t)を合成して混合音声信号^X(t)を生成し(s240)、出力する。
このような構成により、大声、特に野次や叫び声のような耳障りで視聴者にとって重要な情報を含まない音声だけを精度よく抑制することができる。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Siと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離部と、
j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定部と、
閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成部と、を含む、
特定音声抑圧装置。 - 請求項1の特性音声抑圧装置において、
前記閾値Aは30dBである、
特性音声抑圧装置。 - i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Siと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離部と、
j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定部と、
閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、前記声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算部と、
ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成部と、を含む、
特定音声抑圧装置。 - 請求項3の特性音声抑圧装置において、
前記閾値Aは30dBであり、前記閾値Bは300ミリ秒である。
特性音声抑圧装置。 - i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Siと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離ステップと、
j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定ステップと、
閾値A以上の大声度Ei_2に対応する推定値Si_2を除いて、音声の推定値Si_3を合成して、混合音声信号を生成する混合信号生成ステップと、を含む、
特定音声抑圧方法。 - i∈{1,…,M}とし、M人の話者の音声を含む音声信号から、話者iの音声の推定値Siと、話者iの音声のパワーに対応するパワーパラメータP1,iとを生成する音源分離ステップと、
j∈{1,…,M}\iとし、前記音声信号を収音する際に用いたマイクロホンと話者iとの距離d(U,L2,i)を用いて、前記パワーパラメータP1,iにより特定される話者iの音声のパワーP2,iを補正し、補正済みの音声のパワーP3,iを生成し、前記パワーP3,iを用いて、話者iの他の話者jに対する大声の度合いを表す大声度Eiを計算する大声判定ステップと、
閾値A以上の大声度Ei_2に対応する推定値Si_2の声道スペクトルvi_2を生成し、前記声道スペクトルvi_2からデルタ特徴量Δvi_2を計算するデルタ特徴量計算ステップと、
ほぼ0となる区間が閾値Bを超えるデルタ特徴量Δvi_3に対応する推定値Si_3を除いて、音声の推定値Si_4を合成して、混合信号を生成する混合信号生成ステップと、を含む、
特定音声抑圧方法。 - 請求項1から請求項4の何れかに記載の特定音声抑圧装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014092670A JP6169526B2 (ja) | 2014-04-28 | 2014-04-28 | 特定音声抑圧装置、特定音声抑圧方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014092670A JP6169526B2 (ja) | 2014-04-28 | 2014-04-28 | 特定音声抑圧装置、特定音声抑圧方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015210423A JP2015210423A (ja) | 2015-11-24 |
JP6169526B2 true JP6169526B2 (ja) | 2017-07-26 |
Family
ID=54612633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014092670A Active JP6169526B2 (ja) | 2014-04-28 | 2014-04-28 | 特定音声抑圧装置、特定音声抑圧方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6169526B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4394532B2 (ja) * | 2004-07-26 | 2010-01-06 | シャープ株式会社 | 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 |
JP2007187748A (ja) * | 2006-01-11 | 2007-07-26 | Matsushita Electric Ind Co Ltd | 音選択加工装置 |
US9129291B2 (en) * | 2008-09-22 | 2015-09-08 | Personics Holdings, Llc | Personalized sound management and method |
JP4952698B2 (ja) * | 2008-11-04 | 2012-06-13 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
-
2014
- 2014-04-28 JP JP2014092670A patent/JP6169526B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015210423A (ja) | 2015-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US20220159403A1 (en) | System and method for assisting selective hearing | |
US10950249B2 (en) | Audio watermark encoding/decoding | |
EP4004906A1 (en) | Per-epoch data augmentation for training acoustic models | |
WO2019128140A1 (zh) | 一种语音降噪方法、装置、服务器及存储介质 | |
US11894008B2 (en) | Signal processing apparatus, training apparatus, and method | |
US20200098380A1 (en) | Audio watermark encoding/decoding | |
US20230164509A1 (en) | System and method for headphone equalization and room adjustment for binaural playback in augmented reality | |
CN112242149A (zh) | 音频数据的处理方法、装置、耳机及计算机可读存储介质 | |
JP2023527473A (ja) | オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器 | |
CN116420188A (zh) | 从呼叫和音频消息中对其他说话者进行语音过滤 | |
JP2019028465A (ja) | 話者検証方法及び音声認識システム | |
CN111462732A (zh) | 语音识别方法和装置 | |
CN113823303A (zh) | 音频降噪方法、装置及计算机可读存储介质 | |
JP6169526B2 (ja) | 特定音声抑圧装置、特定音声抑圧方法及びプログラム | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
KR20150107520A (ko) | 음성인식 방법 및 장치 | |
CN111862947A (zh) | 用于控制智能设备的方法、装置、电子设备和计算机存储介质 | |
US20230267942A1 (en) | Audio-visual hearing aid | |
WO2020068401A1 (en) | Audio watermark encoding/decoding | |
CN113056908A (zh) | 视频字幕合成方法、装置、存储介质及电子设备 | |
CN112992186B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
KR102661005B1 (ko) | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 | |
US20240071396A1 (en) | System and Method for Watermarking Audio Data for Automated Speech Recognition (ASR) Systems | |
US20240087597A1 (en) | Source speech modification based on an input speech characteristic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170628 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6169526 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |