JP6843701B2 - 音響信号処理のパラメータ予測装置及びパラメータ予測方法 - Google Patents
音響信号処理のパラメータ予測装置及びパラメータ予測方法 Download PDFInfo
- Publication number
- JP6843701B2 JP6843701B2 JP2017095786A JP2017095786A JP6843701B2 JP 6843701 B2 JP6843701 B2 JP 6843701B2 JP 2017095786 A JP2017095786 A JP 2017095786A JP 2017095786 A JP2017095786 A JP 2017095786A JP 6843701 B2 JP6843701 B2 JP 6843701B2
- Authority
- JP
- Japan
- Prior art keywords
- prediction
- evaluation value
- control parameter
- acoustic signal
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 106
- 238000000034 method Methods 0.000 title claims description 29
- 238000011156 evaluation Methods 0.000 claims description 165
- 230000007613 environmental effect Effects 0.000 claims description 92
- 238000012937 correction Methods 0.000 claims description 32
- 230000001419 dependent effect Effects 0.000 claims description 20
- 230000001629 suppression Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 15
- 238000000611 regression analysis Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000002592 echocardiography Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009408 flooring Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
自動車内に設置した4つのマイク及び2つのスピーカを備える音響信号処理装置を例にして本開示の基礎となった知見を説明する。この音響信号処理装置は、音声認識ソフトウェアを用いた音声操作のための音響信号処理と、遠隔地との通話のための音響信号処理と、広い自動車内の前列と後列との座席間での通話のための音響信号処理とを選択的に行う。いずれの音響信号処理の場合も、話者の口の近くに位置するマイクではなく、話者の口から離れた位置にあるマイクに対してハンズフリーの状態で入力された音響信号が用いられる。
以下、図1〜図9を用いて、実施の形態1を説明する。
[1−1−1.音響信号処理システムの全体構成]
図1は、実施の形態1に係る音響信号処理システム10の構成を示す図である。音響信号処理システム10は、パラメータ予測装置100と、信号処理装置200と、学習装置300と、データベース20と、マイクロフォン30と、を備える。
ここで、パラメータ予測装置100の機能構成について、図2を参照しながら具体的に説明する。図2は、実施の形態1に係るパラメータ予測装置100の機能構成を示すブロック図である。
次に、信号処理装置200の機能構成について、図3を参照しながら具体的に説明する。ここでは、通話のための音響信号処理を例として信号処理装置について説明する。相手先の端末から送信された音響信号がスピーカ40から出力され、マイクロフォン30から入力された音響信号が信号処理されて相手先の端末に送信される。
パラメータ予測装置100において最適な制御パラメータセットの予測を実現するためには、第1予測モデルに適用する第1予測係数をあらかじめ学習によって準備する必要がある。このような第1予測係数の準備のための学習装置300の機能構成について、図4を参照しながら具体的に説明する。
次に、以上のように構成された音響信号処理システム10の動作について説明する。
図5は、実施の形態1に係るパラメータ予測装置100の動作を示すフローチャートである。
次に、制御パラメータの予測に用いられる第1予測モデルの第1予測係数を得るための学習装置300の動作について説明する。図7は、実施の形態1における学習装置300の動作を示すフローチャートである。
以上、本実施の形態に係るパラメータ予測装置100によれば、環境特徴量セット及び目標評価値セットを独立変数として第1予測モデルに入力することにより、制御パラメータセットを予測することができる。したがって、収音環境及び用途の両方に適した制御パラメータセットを予測することができ、制御パラメータセットの予測精度を向上させることができる。さらに、環境のグループ毎に最適な制御パラメータセットを予め準備する必要もないので、パラメータの最適化のための準備に関する負荷あるいは時間を低減することができる。
実施の形態2では、制御パラメータセットの予測信頼度に応じて目標評価値セットを修正することにより制御パラメータセットの予測精度を向上させる点が、上記実施の形態1と異なる。以下に、本実施の形態について、実施の形態1と異なる点を中心に図1及び図10〜図12を参照しながら具体的に説明する。
実施の形態2に係る音響信号処理システムの構成について説明する。図1に示すように、音響信号処理システム10Aは、パラメータ予測装置100Aと、信号処理装置200と、学習装置300と、データベース20と、マイクロフォン30と、を備える。
図10は、実施の形態2に係るパラメータ予測装置100Aの機能構成を示すブロック図である。図10において、図2と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。
[2−2−1.パラメータ予測装置の動作]
次に、パラメータ予測装置100Aの動作について説明する。図11は、実施の形態2に係るパラメータ予測装置100Aの動作を示すフローチャートである。図11において、図5と同一又は類似のステップについては同一の符号を付し、適宜説明を省略する。
以上、本実施の形態に係るパラメータ予測装置100Aによれば、制御パラメータセットの予測信頼度に応じて目標評価値セットを修正することができる。したがって、目標評価値セットに適した制御パラメータセットの予測が難しい場合に、目標評価値セットを修正することができ、修正後の目標評価値セットに適した制御パラメータセットを予測することが可能となる。つまり、目標評価値セットから大きく乖離した評価値セットを有する処理済音響信号が出力される可能性を低減することができ、制御パラメータセットの予測精度を向上させることができる。
実施の形態3では、複数の制御パラメータセット候補に対する複数の評価値セットを第2予測モデルを用いて予測する。そして、予測された複数の評価値セットに基づいて、複数の制御パラメータセット候補の中から制御パラメータセットを選択する。これにより、本実施の形態に係るパラメータ予測装置は、要求性能(目標評価値セット)を満たすことができる制御パラメータセットを選別することができる。
実施の形態3に係る音響信号処理システムの構成について説明する。図1に示すように、音響信号処理システム10Bは、パラメータ予測装置100Bと、信号処理装置200と、学習装置300Bと、データベース20と、マイクロフォン30と、を備える。
図13は、実施の形態3に係るパラメータ予測装置100Bの機能構成を示すブロック図である。図13において、図2と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。
図14は、実施の形態3に係る学習装置300Bの機能構成を示すブロック図である。図14において、図4と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。
[3−2−1.パラメータ予測装置の動作]
次に、パラメータ予測装置100Bの動作について図15を参照しながら具体的に説明する。図15は、実施の形態3に係るパラメータ予測装置100Bの動作を示すフローチャートである。図15において、図5と同一又は類似のステップについては同一の符号を付し、適宜説明を省略する。
次に、学習装置300Bの動作について図16を参照しながら具体的に説明する。図16は、実施の形態3に係る学習装置300Bの動作を示すフローチャートである。図16において、図7と同一又は類似のステップについては同一の符号を付し、適宜説明を省略する。
以上のように、本実施の形態に係るパラメータ予測装置100Bによれば、複数の制御パラメータセット候補に対する複数の評価値セットを第2予測モデルを用いて予測することができる。そして、予測された複数の評価値セットに基づいて、複数の制御パラメータセット候補の中から制御パラメータセットを選択することができる。したがって、要求性能(目標評価値セット)を満たすことができる制御パラメータセットを信号処理装置200に与えることができる。
実施の形態4では、環境特徴量セットを用いて目標評価値セットを補正する。高騒音下では低騒音下に比べて認識率が低くなる。また、低騒音下では低い認識率を示す制御パラメータセットを設定することが難しい。本実施の形態により、高騒音下での高認識率の要求や、低騒音下での低認識率の要求など、実際にそぐわない要求性能情報を補正することができ、制御パラメータセットの予測精度を向上することができる。
実施の形態4に係る音響信号処理システムの構成について説明する。図1に示すように、音響信号処理システム10Cは、パラメータ予測装置100Cと、信号処理装置200と、学習装置300Cと、データベース20と、マイクロフォン30と、を備える。
図17は、実施の形態4に係るパラメータ予測装置100Cの機能構成を示すブロック図である。図17において、図2と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。
図19は、実施の形態4に係る学習装置300Cの機能構成を示すブロック図である。図19において、図4と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。
[4−2−1.パラメータ予測装置の動作]
次に、パラメータ予測装置100Cの動作について図20を参照しながら具体的に説明する。図20は、実施の形態4に係るパラメータ予測装置100Cの動作を示すフローチャートである。図20において、図5と同一又は類似のステップについては同一の符号を付し、適宜説明を省略する。
以上、本実施の形態にかかるパラメータ予測装置100Cによれば、環境特徴量セットを独立変数として第3予測モデルに入力して評価値セットを予測し、目標評価値セットを補正することができる。したがって、収音環境に適した目標評価値セットに補正することができ、制御パラメータセットの予測精度を向上することができる。
以上、本開示の1つまたは複数の態様に係る音響信号処理システムについて、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の1つまたは複数の態様の範囲内に含まれてもよい。
20 データベース
30 マイクロフォン
40 スピーカ
100、100A、100B、100C パラメータ予測装置
101 環境特徴取得部
102、102A 目標設定部
103、103A 第1予測部
104A 目標修正部
105B 候補生成部
106B 第2予測部
107B 選択部
108C 目標補正部
200 信号処理装置
201 エコーキャンセラ
202 エコーサプレッサ
203 ビームフォーマ
300、300B、300C 学習装置
301 探索部
302 評価値セット算出部
303 第1学習部
304B 第2学習部
305C 第3学習部
Claims (9)
- 音響信号処理を制御するための制御パラメータセットを予測するパラメータ予測装置であって、
音響信号の収音環境の1以上の特徴を数値化した環境特徴量セットを取得する環境特徴取得部と、
前記音響信号処理の1以上の性能を数値化したものあるいは処理済音響信号の1以上の評価値である目標評価値セットを設定する目標設定部と、
前記環境特徴量セット及び前記目標評価値セットを独立変数として第1予測モデルに入力して前記制御パラメータセットを予測する第1予測部と、を備える、
パラメータ予測装置。 - 前記第1予測部は、さらに、前記制御パラメータセットの予測信頼度を算出し、
前記目標設定部は、前記予測信頼度に応じて前記目標評価値セットを修正し、
前記第1予測部は、前記目標評価値セットが修正された場合に、修正された前記目標評価値セットを用いて前記制御パラメータセットを予測する、
請求項1に記載のパラメータ予測装置。 - 前記第1予測部によって予測された前記制御パラメータセットに基づいて、複数の制御パラメータセット候補を生成する候補生成部と、
前記複数の制御パラメータセットの各々について、前記環境特徴量セット及び当該候補を独立変数として第2予測モデルに入力して評価値セットを予測する評価値セット予測部と、
前記評価値セット予測部によって予測された複数の評価値セットに基づいて、前記複数の制御パラメータセット候補の中から制御パラメータセットを選択する選択部と、を備える、
請求項1又は2に記載のパラメータ予測装置。 - 前記第1予測モデルは、環境特徴量セット及び目標評価値セットを独立変数として有し、制御パラメータセットを従属変数として有する第1の回帰モデルである、
請求項1〜3のいずれか1項に記載のパラメータ予測装置。 - 前記第2予測モデルは、環境特徴量セット及び制御パラメータセットを独立変数として有し、評価値セットを従属変数として有する第2の回帰モデルである、
請求項3に記載のパラメータ予測装置。 - 前記パラメータ予測装置は、さらに、
前記環境特徴量セットに基づいて、前記目標設定部によって設定された前記目標評価値セットを補正する目標補正部を備え、
前記第1予測部は、前記目標補正部によって補正された前記目標評価値セットを用いて前記制御パラメータセットを予測する、
請求項1に記載のパラメータ予測装置。 - 前記目標補正部は、前記環境特徴量セットを独立変数として第3予測モデルに入力して評価値セットの予測を行い、当該予測における予測分散に基づいて前記目標評価値セットを補正する、
請求項6に記載のパラメータ予測装置。 - 音響信号処理を制御するための制御パラメータセットを予測するパラメータ予測方法であって、
音響信号の収音環境の1以上の特徴を数値化した環境特徴量セットを取得するステップと、
前記音響信号処理の1以上の性能を数値化したものあるいは処理済音響信号の1以上の評価値である目標評価値セットを設定するステップと、
前記環境特徴量セット及び前記目標評価値セットを独立変数として第1予測モデルに入力して前記制御パラメータセットを予測するステップと、を含む、
パラメータ予測方法。 - 請求項8に記載のパラメータ予測方法をコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17191774.3A EP3301675B1 (en) | 2016-09-28 | 2017-09-19 | Parameter prediction device and parameter prediction method for acoustic signal processing |
US15/713,141 US10453472B2 (en) | 2016-09-28 | 2017-09-22 | Parameter prediction device and parameter prediction method for acoustic signal processing |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016190327 | 2016-09-28 | ||
JP2016190327 | 2016-09-28 | ||
JP2016231867 | 2016-11-29 | ||
JP2016231867 | 2016-11-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018092117A JP2018092117A (ja) | 2018-06-14 |
JP6843701B2 true JP6843701B2 (ja) | 2021-03-17 |
Family
ID=62565504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017095786A Active JP6843701B2 (ja) | 2016-09-28 | 2017-05-12 | 音響信号処理のパラメータ予測装置及びパラメータ予測方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6843701B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113257271B (zh) * | 2021-05-17 | 2023-01-10 | 浙江大学 | 多发声者发声运动特征波形的获取方法及装置、电子设备 |
CN113362845B (zh) * | 2021-05-28 | 2022-12-23 | 阿波罗智联(北京)科技有限公司 | 声音数据降噪方法、装置、设备、存储介质及程序产品 |
CN115455805A (zh) * | 2022-08-04 | 2022-12-09 | 中国铁路设计集团有限公司 | 轨道交通站厅声级计权修正的预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5916054B2 (ja) * | 2011-06-22 | 2016-05-11 | クラリオン株式会社 | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム |
-
2017
- 2017-05-12 JP JP2017095786A patent/JP6843701B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018092117A (ja) | 2018-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3301675B1 (en) | Parameter prediction device and parameter prediction method for acoustic signal processing | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US10721571B2 (en) | Separating and recombining audio for intelligibility and comfort | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN110473568B (zh) | 场景识别方法、装置、存储介质及电子设备 | |
JP2017228160A (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP2019525214A (ja) | 音声認識 | |
JP7218601B2 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
CN113205803A (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
KR102548519B1 (ko) | 준합성 데이터 생성 장치 및 데이터 생성 방법 | |
US20230125150A1 (en) | Augmentation of testing or training sets for machine learning models | |
JP6987378B2 (ja) | ニューラルネットワークの学習方法及びコンピュータプログラム | |
CN115668366A (zh) | 一种声学回声消除方法和系统 | |
JP6843701B2 (ja) | 音響信号処理のパラメータ予測装置及びパラメータ予測方法 | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN114520005A (zh) | 音频处理方法、装置、设备和计算机可读存储介质 | |
EP4430607A1 (en) | Control of speech preservation in speech enhancement | |
US20230343312A1 (en) | Music Enhancement Systems | |
CN117457017A (zh) | 语音数据的清洗方法及电子设备 | |
US11640819B2 (en) | Information processing apparatus and update method | |
CN117409802A (zh) | 信号处理方法、装置、电子设备和存储介质 | |
CN103390404A (zh) | 信息处理装置、信息处理方法和信息处理程序 | |
CN114067785A (zh) | 语音深度神经网络训练方法、装置、存储介质及电子装置 | |
CN112599136A (zh) | 基于声纹识别的语音识别方法及装置、存储介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201013 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6843701 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |