JP2010239458A - 音量調整装置、方法、プログラム及び記録媒体 - Google Patents

音量調整装置、方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2010239458A
JP2010239458A JP2009086091A JP2009086091A JP2010239458A JP 2010239458 A JP2010239458 A JP 2010239458A JP 2009086091 A JP2009086091 A JP 2009086091A JP 2009086091 A JP2009086091 A JP 2009086091A JP 2010239458 A JP2010239458 A JP 2010239458A
Authority
JP
Japan
Prior art keywords
gain
unit
volume
sound
output signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009086091A
Other languages
English (en)
Inventor
Tasuku Shinozaki
翼 篠崎
Osamu Yoshioka
理 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009086091A priority Critical patent/JP2010239458A/ja
Publication of JP2010239458A publication Critical patent/JP2010239458A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】送話系及び受話系からなる音声システム等において、入力信号の音量を調整し、受話系出力信号から適切にエコーを抑圧するという課題がある。
【解決手段】この課題を解決するために、本発明に係る音声調整装置は、音量を調整し、送話系出力信号x1’を求める第1音量調整部と、音量を調整し、受話系出力信号x2’を求める第2音量調整部と、各出力信号を用いて、エコーを抑圧した受話系出力信号x2”を求めるエコー抑圧部と、送話系入力信号等を用いて、第1ゲイン情報を求める第1ゲイン計算部と、受話系出力信号等を用いて、第2ゲイン情報を求める第2ゲイン計算部と、各ゲイン情報の値が、第1音量調整部及び第2音量調整部が各ゲインを変更する値であるか否か判定し、変更する値の場合には、第1音量調整部及び第2音量調整部が変更後、第2ゲインの更新を停止するように指示する停止判定部と、を有する。
【選択図】図6

Description

本発明は、音声認識等のために、電話機やマイクロホン等の音入力装置から入力した音の音量を自動的に調整する音量調整装置、方法、プログラム及び記録媒体に関する。
非特許文献1が従来技術として知られている。図1は、非特許文献1の音量調整装置10の構成例である。音量調整部10は、音信号mを入力され、ゲインに基づき音量を調整し、音信号m’を出力する。音信号m’は音量調整装置10から出力されるとともに、主要振幅検出部10へ入力される。主要振幅検出部10は、入力波形の包絡を抽出し、発話の継続時間長をもとに主要振幅部分を検出する。ゲイン計算部10は、抽出した主要振幅の包絡を時間平均し平滑化し、その値を主要振幅の代表振幅値とし、予め定めた目標大きさになるようにゲインを計算し、音量調整部10へゲインgを出力する。音量調整部10では、ゲインを更新する。
音量調整装置10を用いて、2チャネル音声入力系(送話系及び受話系)を有する音声対話システム等(例えば、電話機等)から入力される音の音量を調整することが考えられる。しかし、この場合、受話系の入力音には、エコーが含まれる。エコーとは、受信者側のスピーカで再生された音が受信者側のマイクロホンによって収音され、さらに、送信者側のスピーカで再生される音のことである。このエコーが存在すると通話が困難になる。
このエコーを抑圧するための従来技術として、エコー抑圧装置20がある。図2は、エコー抑圧装置20の構成例である。エコー抑圧装置20は、エコー模擬部21及び減算部23を有する。また、エコー模擬部21は、適応フィルタ更新部211と模擬エコー経路部213を備える。
送信者側のマイクロフォンから得られた信号x(n)は、受話者側のスピーカ31とエコー抑圧装置20へ入力される。なお、nは離散サンプル番号を表す。信号x(n)は受信者側のスピーカ31によって再生され、再生された音はエコー経路33を通って受信者側のマイクロフォン35で収音される。収音される信号をエコー信号y(n)という。
一方、エコー抑圧装置20に入力された信号x(n)は、エコー抑圧装置20内のエコー模擬部21へ入力され、さらに、エコー模擬部21内の擬似エコー経路部211と適応フィルタ更新部213へ入力される。擬似エコー経路部211では、適応フィルタh^(n)のタップ長L以上の信号x(n)を蓄積し、以下のように、信号x(n)と適応フィルタh^(n)を畳み込むことで擬似エコー信号y^(n)を求める。
y^(n)=h^(n)x(n) (1)
但し、h^(n)=[h1^(n),h2^(n),…,hL^(n)]T、x(n)=[x(n),x(n-1),…,x(n-L+1)]T、Tは転置を、hk^(n)はサンプル番号nの時刻における適応フィルタのk番目のフィルタ係数を表す。減算部23は、エコー信号y(n)から擬似エコー信号y^(n)を差し引き、信号e(n)を生成する。
e(n)=y(n)−y^(n) (2)
信号e(n)は、エコー抑圧装置20から出力されるとともに、エコー模擬部21内の適応フィルタ更新部213へ入力される。適応フィルタ更新部213は、非特許文献2のNLMSアルゴリズムを用いた場合、適応フィルタh^(n)、信号x(n)及び信号e(n)から以下の式によりサンプル番号(n+1)に対する適応フィルタh^(n+1)を求め、擬似エコー経路211へと出力する。
Figure 2010239458
但し、μは更新量を制御するステップサイズ(0<μ<2)を、σは式の右辺第2項の分数の分母が0にならないようにするための微小な正の定数を表す。このようにして、送信者側のスピーカで再生される信号からエコーを抑圧する。よって、送話系及び受話系を有する音声対話システム等から入力される音の音量を調整し、エコーを抑圧するために、エコーを抑圧した信号を音量調整装置10に入力する方法等が考えられる。
篠崎 翼,浅見 太一,野田 喜昭,高橋 敏、「発話の主要振幅に着目した音声認識向けの自動音量調整手法」、日本音響学会講演論文集、2008年3月、p.25-26 Simon Haykin, Adaptive Filter Theory, Prentice Hall International Inc, third edition, 1996, p.432-437.
しかしながら、従来技術は音量調整装置10とエコー抑圧装置20を組み合わせた場合には、以下のような問題がある。
図3は、音量調整装置10A、10Bとエコー抑圧装置20を組み合わせた場合の構成例1を示す。なお、送信者側のマイクロフォン30を介して入力される送話系の入力信号xAが受信者側のスピーカ31で再生され、エコー経路33を介して、マイクロフォン35で収音され、受話系入力信号xBにエコーが含まれる場合であって、音量調整、及びエコー抑圧した信号xA’,xB”を録音装置や音声認識装置等に入力する場合を考える。各入力信号xA及びxBは、エコー抑圧装置20に入力される。xA、xBは、音量調整が行われていないため、音量が大きすぎるとクリップが発生し、小さすぎると量子化ノイズが増加している場合がある。エコー抑圧装置20は、これらのクリップや量子化ノイズにより、適切にエコーを抑圧することができずに信号xB’を出力する。さらに、音量調整装置10Bでは、信号xB’を基にして、音量調整が行われるため、結果として得られる信号xB”にも歪みが生じるという問題がある。よって、適切にエコーを抑圧し、かつ、音量を調整できるようにするという課題がある。
図4は、音量調整装置10A、10Bとエコー抑圧装置20を組み合わせた場合の構成例2を示す。各入力信号xA及びxBは、それぞれ音量調整装置10A、10Bに入力される。音量調整装置10A、10Bは、音量を調整し、信号xA’,xB’を出力する。エコー抑圧装置20に入力される信号xA’、xB’は、音量調整が行われているため、クリップの発生や、量子化ノイズの増加という問題は生じない。しかし、音量調整装置10Bでは、エコーが残る信号xB’を基にして、ゲインが計算される。よって、適切なゲインを算出することができず、音量調節を適切に行うことができないという問題がある。よって、上記と同様の課題がある。
上記の課題を解決するために、本発明に係る音量調整装置は、第1ゲイン情報g1’を用いて第1ゲインg1を求め、送話系入力信号x1及び第2ゲインg2を用いて音量を調整し、送話系出力信号x1’を求める第1音量調整部と、第2ゲイン情報g2’を用いて第2ゲインg2を求め、受話系入力信号x2及び第2ゲインg2を用いて音量を調整し、受話系出力信号x2’を求める第2音量調整部と、送話系出力信号x1’と受話系出力信号x2’を用いて、エコーを抑圧した受話系出力信号x2”を求めるエコー抑圧部と、送話系入力信号x1または送話系出力信号x1’を用いて、第1ゲイン情報g1’を求める第1ゲイン計算部と、受話系出力信号x2、受話系出力信号x2’、x2”の何れかを用いて、第2ゲイン情報g2’を求める第2ゲイン計算部と、各ゲイン情報g1’、g2’の値が、第1音量調整部及び第2音量調整部が各ゲインg1、g2を変更する値であるか否か判定し、変更する値の場合には、第1音量調整部及び第2音量調整部が変更後、第2ゲインg2の更新を停止するように指示する停止判定部と、を有する。
本発明は、ゲインを変更した後、停止判定部を用いて、所定の間、エコーが含まれる音に対するゲインの変更を停止する。これにより、音声対話システム等から入力される受話系及び送話系入力信号の音量を安定して調整することができ、受話系出力信号に含まれるエコーを適切に消去することができるという効果を奏する。
非特許文献1の音量調整装置10の構成例を示す図。 エコー抑圧装置20の構成例を示す図。 音量調整装置10A、10Bとエコー抑圧装置20を組み合わせた場合の構成例1を示す図。 音量調整装置10A、10Bとエコー抑圧装置20を組み合わせた場合の構成例2を示す図。 音量調整装置10A、10Bとエコー抑圧装置20を組み合わせ、音量調整装置10B内の音量調整部10Bと主要振幅検出部10Bの間にエコー抑圧装置20を設けた場合の構成例を示す図。 音量調整装置100の構成例を示す図。 音量調整装置100の処理フロー例を示す図。 第1音量調整部111と第1ゲイン計算部151の構成例を示す図。 エコー抑圧部120の構成例を示す図。 停止判定部130の構成例を示す図。 停止判定部130の処理フロー例を示す図。 Aは音信号の波形を例示する図。Bは第一音区間(発話区間)を例示する図。Cは第一音区間の外形値を例示する図。 第1ゲイン情報生成部165の構成例を示す図。 第1ゲイン情報生成部166の構成例を示す図。 実施例2に係る停止判定部230の構成例を示す図。 停止判定部230の処理フロー例を示す図。 エコー抑圧部320の構成例を示す図。 実施例3に係る停止判定部330の構成例を示す図。 停止判定部330の処理フロー例を示す図。 本実施例における音声調整装置100のハードウェア構成を例示したブロック図。
[考察]
図5は、音量調整装置10A、10Bとエコー抑圧装置20を組み合わせ、音量調整装置10B内の音量調整部10Bと主要振幅検出部10Bの間にエコー抑圧装置20を設けた場合の構成例を示す。各入力信号xA及びxBは、それぞれ音量調整部10A、10Bに入力される。音量調整部10A、10Bは、音量を調整し、信号xA’,xB’を出力する。エコー抑圧装置20に入力される信号xA’、xB’は、音量調整が行われているため、クリップの発生や、量子化ノイズの増加という問題は生じない。しかし、この場合、以下の問題がある。
音量調整部10A、10Bにおいて、ゲインが変更されると、エコー抑圧装置20では、適応フィルタの更新が行われる。しかし、適応フィルタが適切な値となるまでに十分な時間が必要となる。十分な時間が経つまでの間、エコー抑圧装置20から出力される信号xB”にエコーが残る。主要振幅検出部10Bでは、エコーが残る信号xB”を基にして、主要振幅の包絡が求められ、ゲイン計算部10Bでは、その主要振幅の包絡を基にして、ゲインが計算される。よって、適切なゲインを算出することができない。さらに、適切ではないゲインを基にして音量調整を行い、調整された信号xB’を基にして、適応フィルタを更新し、エコーが残る信号を基にしてゲインを計算する。そのため、いつまで経っても音量調整が安定せず、エコーを消去できないという問題がある。
以下、本発明の実施の形態について、詳細に説明する。
[音量調整装置100]
図6は音量調整装置100の構成例を、図7は音量調整装置100の処理フロー例を示す。図6及び図7を用いて実施例1に係る音量調整装置100を説明する。
音量調整装置100は、記憶部103、制御部105、第1音量調整部111と第2音量調整部112とエコー抑圧部120と第1ゲイン計算部151と第2ゲイン計算部152と停止判定部130を有する。例えば、電話機本体とハンドセットやヘッドセット等の送受話器との間に送受信アダプターを設置し、線(RJ22の4線等)から音声信号を取り出す構成等が考えられる。
<記憶部103及び制御部105>
記憶部103は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部103に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。
制御部105は、各処理を制御する。
<第1音量調整部111及び第2音量調整部112>
第1音量調整部111は、第1ゲイン情報g1’を用いて第1ゲインg1を求め、送話系入力信号x1及びゲインを用いて音量を調整し、送話系出力信号x1’を求める(s111)。第2音量調整部112は、第2ゲイン情報g2’を用いて第2ゲインg2を求め、受話系入力信号x2及びゲインを用いて音量を調整し、受話系出力信号x2’を求める(s112)。
図8は、第1音量調整部111と第1ゲイン計算部151の構成例を示す。なお、第2音量調整部112も同様の構成としてもよい。
第1音量調整部111は、例えば、電話機と、送受話器又はヘッドセットとの間に設置した送受話アダプターを用いて電話の送話音声を取り出し、電気信号に変換された送話系入力信号x1が入力される。また、第1音量調整部111は、第1ゲイン計算部151が決定した第1ゲイン情報g1’を入力され、これを用いて、第1ゲインg1を求める。さらに、第1音量調整部111は、第1ゲインg1を用いて、送話系入力信号x1の音量を調整して、送話系出力信号x1’を出力する。なお、ゲイン情報とは、具体的なゲインの値(例えば0.7、音量にして3dB)等であってもよいし、具体的な数値を伴わない単なる音量を下げる旨を指示する情報や変更のみを知らせる信号等であってもよい。
なお、第1音量調整部111は、図中の第1音量調整部111、第1音量調整部111から構成されても良く、第1ゲイン情報g1’は、図中の第1ゲイン情報g1’、第1ゲイン情報g1’を含んでも良い。第1ゲイン情報g1’については、第1ゲイン計算部151と併せて後述する。送話系出力信号の一部が第1ゲイン計算部151に入力される。第1音量調整部111は、アナログでもデジタルでもよい。第1音量調整部111は、新たな第1ゲイン情報g1’が第1ゲイン計算部151から送られてくるまで、既に送られている第1ゲイン情報g1’に基づいて音量調整を行う構成としてもよい。
<エコー抑圧部120>
図9は、エコー抑圧部120の構成例を示す。エコー抑圧部120は、送話系出力信号x1’と受話系出力信号x2’を用いて、エコーを抑圧した受話系出力信号x2”を求める(s120)。
例えば、背景技術と同様の方法により、式(1)’〜(3)’を用いて、エコーを抑圧する。送話系出力信号x1’と受話系出力信号x2’が入力され、エコーを抑圧した受話系出力信号x2”を出力する。なお、音量調整装置とエコー抑圧部は一体でもよいし、既存のエコー抑圧装置等を用いてもよい。また、他のエコー抑圧方法を用いてもよい。
例えば、エコー抑圧部120は、エコー模擬部121及び減算部123を有する。また、エコー模擬部121は、模擬エコー経路部1211と適応フィルタ更新部1213を備える。
送話系出力信号x1’(n)は、エコー抑圧部120内のエコー模擬部121へ入力され、さらに、エコー模擬部121内の擬似エコー経路部1211と適応フィルタ更新部1213へ入力される。擬似エコー経路部1211では、適応フィルタh^(n)のタップ長L以上の信号x1’(n)を蓄積し、以下のように、信号x1’(n)と適応フィルタh^(n)を畳み込むことで擬似エコー信号x2’^(n)を求める。
x2’^(n)=h^(n)x1’(n) (1)’
但し、x1’(n)=[ x1'(n), x1'(n-1),…, x1'(n-L+1)]Tを表す。減算部123は、受話系出力信号x2’(n)から擬似エコー信号x2’^(n)を差し引き、エコーを抑圧した受話系出力信号x2”(n)を生成し、出力する。
x2”(n)=x2’(n)−x2’^(n) (2)’
信号x2”(n)は、エコー抑圧部120から出力されるとともに、エコー模擬部121内の適応フィルタ更新部1213へ入力される。適応フィルタ更新部1213は、非特許文献2のNLMSアルゴリズムを用いた場合、適応フィルタh^(n)、送話系出力信号x1’(n)及び受話系出力信号x2”(n)から以下の式によりサンプル番号(n+1)に対する適応フィルタh^(n+1)を求め、擬似エコー経路1211へと出力する。
Figure 2010239458
このようにして、受話系出力信号からエコーを抑圧する。
<第1ゲイン計算部151及び第2ゲイン計算部152>
第1ゲイン計算部151は、送話系入力信号x1または前記送話系出力信号x1’を用いて、第1ゲイン情報g1’を求める(s151)。第2ゲイン計算部152は、前記受話系入力信号x2、前記受話系出力信号x2’、x2”の何れかを用いて、第2ゲイン情報g2’を求める(s152)。詳細は後述する。
<停止判定部130>
図10は停止判定部130の構成例を、図11は停止判定部130の処理フロー例を示す。停止判定部130は、各ゲイン情報g1’、g2’の値が、第1音量調整部111及び第2音量調整部112が各ゲインg1、g2を変更する値であるか否か判定し(s131)、変更する値の場合には、第1音量調整部111及び第2音量調整部112が変更後、第2ゲインg2の更新を停止するように指示する(s133)。変更する値ではない場合には、音量調整(s111、s112)、エコー抑圧(s120)、ゲイン計算(s151、s152)及び判定(s131)を繰り返す。
停止するように指示した後、音量調整(s111、s112)、エコー抑圧(s120)、第1ゲインを計算する(s151)。停止解除条件を満たすか否か判定し(s135)、満たす場合には、停止を解除するよう指示する(s137)。満たさない場合には、音量調整(s111、s112)、エコー抑圧(s120)、第1ゲイン計算(s151)及び判定(s135)を繰り返す。
例えば、ゲイン情報g1’、g2’(ゲインそのもの、音量、パラメータ等)が変更されるときのみ各ゲイン計算部151、152が、ゲイン情報をg1’、g2’を出力する場合には、停止判定部130は、ゲイン情報を入力されると、ゲインを変更すると判定し、第2ゲインg2の更新を停止するように指示する。
また、ゲイン情報g1’、g2’が変更しないときも各ゲイン計算部151、152が、ゲイン情報をg1’、g2’を出力する場合には、停止判定部130は、ゲイン情報g1’、g2’を記憶しておき、一つ前のゲイン情報と現在のゲイン情報を比較し、異なる場合に、ゲインを変更すると判定し、第2ゲインg2の更新を停止するように指示する。
「第2ゲインg2の更新を停止するように指示する」とは、例えば、第2ゲイン計算部152に対しゲイン情報を計算する処理を停止するように指示することである。また、エコー抑圧部120に対しx2”を第2ゲイン計算部152に出力しないように指示してもよいし、第2ゲイン計算部152に対しゲイン計算のみ行い第2音量調整部112へ出力しないように指示してもよいし、第2音量調整部が新たなゲイン情報g2’を取得した場合にも、ゲインg2を更新しないように指示してもよく、第2音量調整部112において用いられる第2ゲインg2を変更しないようにする指示であればよい。
停止解除条件とは、例えば、予め定めた時間を経過することである。なお、予め定めた時間とは、エコー抑圧部の特性から予め適応フィルタの再学習にかかる時間を実験的に求めておき決定する。例えば、30秒間等である。この場合、停止判定部130は、予め定めた時間を経過後、停止解除条件を満たすと判定し(s1351)、停止を解除するように指示する。例えば、停止判定部130は、停止・解除指示部132とタイマー134を有する。停止判定部130内の停止・解除指示部132にゲイン情報g1’またはg2’が入力されると、停止・解除指示部132は、第2ゲイン計算部152に対し、第2ゲイン情報を計算する処理を停止するように停止信号sを出力する。それと同時にタイマー134に対し、計測開始の信号tを出力する。第2ゲイン計算部152は、処理を停止する。
タイマー134は、信号tを入力されると、計測を開始する。タイマー134は、予め定めた時間経過後、停止・解除指示部132に対し、時間経過を知らせる報知信号iを出力する。
停止・解除指示部132は、報知信号を入力されると、第2ゲイン計算部152に対し、第2ゲイン情報を計算する処理を再開するように解除信号cを出力する。第2ゲイン計算部152は、解除信号cを入力されると処理を再開する。
このような構成とすることによって、ゲインを変更した後、停止判定部を用いて、予め定めた時間、エコーが含まれる音に対し調整を行うゲインの変更を停止する。この間に、適応フィルタの再学習が終わり、エコー抑圧部においてエコーを消去することができる。その後、ゲインの変更停止を解除する。よって、エコーを含む信号に基づきゲインを変更することを回避できる。また、ゲインを変更した場合でも、エコーの消し残りの影響を受けず安定した音量調整を行うことができる。音声対話システム等から入力される受話系及び送話系入力信号の音量を調整することができ、受話系出力信号に含まれるエコーを適切に消去することができる。
<第1ゲイン計算部151の詳細>
図8を用いて、第1ゲイン計算部151の詳細を説明する。なお、第2ゲイン計算部152も同様の構成としてもよい。但し、第2音量調整部112から出力される受話系出力信号x2’は直接第2ゲイン計算部152には入力されず、エコー抑圧部120に入力される。第2ゲイン計算部152は、受話系出力信号x2’に代えて、エコーを抑圧した受話系出力信号x2”を入力される。
例えば、第1ゲイン計算部151は、AD変換部153、フレーム分割部154、バッファ155、直流バイアス計算部156、減算部157、終始判定部158、外形値決定部159、有音無音フレーム判定部160、有音無音区間判定部161、第1ゲイン情報生成部165、第1ゲイン情報生成部166及び終了時音量調整部173等を備えてもよい。
『AD変換部153』
AD変換部153は、送話系出力信号x1’を所定のサンプリング周波数で量子化することによりデジタル化して、フレーム分割部154に送る。なお、第1音量調整部111の前にAD変換部153を設けてもよい。この場合、第1音量調整部111は、デジタル式となる。
『フレーム分割部154』
フレーム分割部154は、入力された送話系出力信号を一定の時間長のフレームで分割する。例えば、1フレームの長さを100ms(サンプリング周波数が16kHzである場合にはフレームを構成するサンプル数は1600)とする。このように、フレームの時間長を例えば男性の音声波形及び電源ノイズの基本周期よりも十分長くすることにより、声の高低及び電源ノイズによらず安定して音量調整をすることができる。フレーム化された送話系出力信号は、バッファ155に送られる。
『バッファ155及び直流バイアス計算部156』
バッファ155は、予め定めた数1以上の数Aのフレームを一時的に格納する。直流バイアス計算部156は、フレーム化されバッファ155に格納された送話系出力信号を読み込み、その送話系出力信号の振幅の平均値を長時間観測して計算する。その平均値、すなわち直流成分の値は、減算部157に送られる。
『減算部157』
減算部157は、バッファ155から読み込んだ送話系出力信号から、直流バイアス計算部156が計算した直流成分の値を減算して、バイアスのかかっていない送話系出力信号を生成する。生成された送話系出力信号は、終始判定部158と、外形値決定部159と、第1ゲイン情報生成部166とに送られる。以下、断りなく送話系出力信号といった場合には、このバイアスのかかっていない送話系出力信号を意味するものとする。
『終始判定部158』
終始判定部158は、フレームごとの送話系出力信号の絶対値の平均値を観測することで、発音の開始時と発音の終了時を判定する。発音の開始時と発音の終了時の音区間のことを、発音と定義する。発音の開始時と発音の終了時とは、音が電話等の音声である場合には通話の始端と終端のことである。この場合、発音は、いわゆる通話区間に相当することになる。
具体的には、終始判定部158の平均値計算部1581は、入力された送話系出力信号の振幅の絶対値の平均値をフレームごとに計算する。そして、終始判定部158が、計算された振幅の絶対値の平均値が予め定められた閾値Aよりも大きいかどうかを順次判定して、大きいと判定された場合には発音が開始されたと判定し、その旨の信号を終了時音量調整部173を含む第1ゲイン計算部151の各部に送る。計算された振幅の絶対値の平均値が予め定められた閾値Aよりも大きいと判定された場合に、その判定された時から一定時間長(例えば0.5秒)遡った時から発音が開始されたと判定してもよい。
また、終始判定部158は、計算された振幅の絶対値の平均値が、予め定められた閾値A(閾値Aは、閾値Aよりも小さい値である。)よりも小さい状態が予め定められた一定時間長続いた場合には、又は、予め定められた数Aのフレームだけ続いた場合には、発音が終了したと判定し、その旨の信号を終了時音量調整部173を含む第1ゲイン計算部151の各部に送る。
『外形値決定部159』
発音が開始された旨の信号を受け取った外形値決定部159は、フレームの音の大きさを表す特徴量である外形値をフレームごとに求める。例えば、外形値とは、送話系出力信号の振幅の絶対値の最大値のことである。換言すると、外形値とは、フレームを構成する複数のサンプルの値の最大値のことである。求められたフレームごとの外形値は、有音無音フレーム判定部160、第1ゲイン情報生成部165に送られる。図12A,Bに、外形値抽出の具体例を示す。図12Aはバイアスがかかっていない送話系出力信号の波形である。図12Bは、Aに示した送話系出力信号の波形からフレームごとに振幅の絶対値の最大値(外形値)を求めて、図示したものである。
『有音無音フレーム判定部160』
再度、図8を参照して説明をする。有音無音フレーム判定部160は、外形値と予め定められた閾値Aとを比較して、外形値の方が大きければそのフレームを有音フレームと判定し、そうでなければ、そのフレームを無音フレームと判定する。閾値Aを、予め定めた値とせずに、例えば、過去10秒間の無音フレームの外形値の最小値の定数倍(例えば3倍)の値として動的に閾値Aを変化させてもよい。フレームが、有音フレームであるか、無音フレームであるかの情報は、有音無音区間判定部161に送られる。
『有音無音区間判定部161』
有音無音区間判定部161は、無音フレームが予め定められた数A(例えば5、時間長にして0.5秒となるように、Aを設定する)以上連続する場合には、その連続するフレームから構成される音区間を無音区間と判定し、それ以外のフレームから構成される音区間を有音区間と判定する。有音区間、無音区間についての情報は、第1ゲイン情報生成部165の第一音区間抽出部162に送られる。
『第1ゲイン情報生成部165』
以下、図13を参照して、第1ゲイン情報生成部165の説明をする。
「第一音区間抽出部162」
第1ゲイン情報生成部165の第一音区間抽出部162は、上記判定された有音区間が予め定められた時間長A(例えば2秒)よりも長いかどうか、又は、上記判定された有音区間を構成するフレーム数が予め定められた数A(例えば20フレーム)よりも大きい場合には、その有音区間を第一音区間とする。入力される音が電話等の音声である場合には、第一音区間はいわゆる発話区間に相当する。発話区間は、人間が一呼吸で発した音の区間のことである。このようにして、第一音区間を抽出することにより、「こんにちは」や「ちょっと質問があるのですが」といった人の感覚に近い長さの音区間を切り出すことができる。図12Bに、第一音区間の抽出の具体例を示す。例えば、この図12B示すように、0.5秒以上の無音区間を使って2秒以上の有音区間のかたまりを第一音区間として抽出する。第一音区間抽出部162は、例えば、第一音区間を構成するフレームと、それらのフレームの外形値とに関する情報を、第一音区間外形値抽出部163に送る。第一音区間を構成するフレームの外形値は、第一音区間抽出部162が外形値決定部159から受け取ったフレームの外形値の情報を用いる。
「第一音区間外形値抽出部163」
第一音区間外形値抽出部163の除外部1631は、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外する。除外する外形値の数は、第一音区間を構成するフレームの数が多いほど多くするとよい。例えば、第一音区間を構成するフレームの数に予め設定した割合A(例えば10〜30%、今回は20%)をかけて、小数点以下を切り捨て・四捨五入・切り上げた数の外形値を除外する。予め定めた数A10の外形値を除外することにしてもよい。除外されずに残った外形値は、最大値決定部1632に送られる。
最大値決定部1632は、除外されずに残った外形値の最大値を求め、その最大値を第1音区間の外形値として保存する。第一音区間の外形値は、第一ゲイン情報決定部164に送られる。
「第1ゲイン情報決定部164」
第1ゲイン情報決定部164は、第一音区間の外形値が予め定められた範囲に入るように、入力された音を調整するための情報(以下、第1ゲイン情報とする。)を決定して、第1音量調整部111に送る。例えば、第1ゲイン情報決定部164に入力のピークが入力される。第1ゲイン情報決定部164は、入力のピークに予め定められた割合A11(例えば、10%〜25%)をかけた範囲に、第一音区間の外形値が入るように、ゲインを決定する。この場合、ゲインが第1ゲイン情報となる。なお、第1ゲイン情報が決定された場合には、第1ゲイン情報生成部165は、バッファ155の遅延分の時間に相当するフレームについて、上記の処理を行わない。
図12Cを参照して、具体例を説明する。除外部1631は、第一音区間を構成するフレームの外形値のうち、外形値が大きい予め定められた数(この例では、8つ)の外形値を除外する。図12Cの白で示した外形値が除外された外形値である。最大値決定部1632は、第一音区間の外形値として、除外されずに残った外形値のうち最も大きい外形値を選択する。除外されずに残った外形値が図12Cの黒と斜線で示した外形値であり、その最大値である第一音区間の外形値は斜線で示した外形値である。第一音区間の外形値が入るべき予め定められた範囲を3000〜8000とすると、この例では、第一音区間の外形値はその範囲に入っていない。第1ゲイン情報決定部164は、第一音区間の外形値とその範囲との差分を計算して、第一音区間の外形値がその範囲に入るようにゲインを決定する。第一音区間の外形値がその範囲に入っている場合には、処理を行わない。別の具体例を説明する。第一音区間の外形値が入力のピークの5%であり、第一音区間の外形値が入るべき予め定められた範囲が入力のピークの10%〜25%であるとする。この場合、第1ゲイン情報決定部164は、第一音区間の外形値が入力のピークの10%になるように、第1ゲイン情報を決定する。このように、音量調整後の第一音区間の外形値が、予め定められた範囲の上限値又は下限値のうち、音量調整前の第一音区間の外形値と近い方の値と等しくなるように、ゲインを決定することにより、音量調整量が最も小さくすることができ、音の所定の特徴量の変化を最も小さくすることができる。
また、このように、第一音区間の外形値が入るべき予め定められた範囲を設けて、この範囲に第一音区間の外形値が入っている場合には上記のゲインの計算を行わないようにすることにより、ゲインを変更する回数を少なくすることができる。これにより、音の波形が歪む回数を少なくすることができるため、音の所定の特徴量の変化を小さくすることができる。
この方法では、「はい」、「あ」、「えー」等の音量が不安定な短い音区間ではなく、「お電話ありがとうございます。」、「ちょっと聞きたいことがあるのですが」等のある程度の長さを持ち音量が安定した音区間を音量調整の基準としている。また、第一音区間を構成する複数のフレームの外形値から、外形値が大きい複数の外形値を除外して、除外されず残った外形値の最大値を第一音区間の外形値として、その第一音区間の外形値を用いて、ゲインを調整している。これにより、咳やくしゃみ等の突発的な雑音の影響を受けにくくなり、かつ、対象とする音の振幅の分散の大小によっても音量調整後の音量が入力のピークが超えることがなくなる。
上記の例においては、第一音区間を構成するフレームの外形値のうち、大きい方から20%の外形値を除外し、第一音区間の外形値が入るべき予め定められた範囲を入力ピークの10%〜20%としている。これは、実験を行った結果、突発的な雑音を除くと、入力のピークが第一音区間の外形値のおよそ4倍未満であったためである。
『第1音量調整部111
再度、図8を参照して説明をする。第1音量調整部111の第1音量調整部111は、第1ゲイン情報生成部165が決定した第1ゲイン情報(例えば、ゲイン)を用いて、入力された音の音量を調整して出力する。第1音量調整部111は、新たな第1ゲイン情報が第1ゲイン情報生成部165から送られてくるまで、既に送られている第1ゲイン情報に基づいて音量調整を行ってもよい。
このように、本実施例では、従来技術の音量調整装置と比較して長い時間、同じ第1ゲイン情報に基づいて音量を調整している。これにより、従来技術のように頻繁に音量を調整するためのゲインが変化する場合と比較して、音の所定の特徴量が失われづらくなる。
第1ゲイン計算部151及び第1音量調整部111は、それぞれ、下記に述べる、第一音区間よりも短い音区間(第二音区間)を基準として、音量調整をする第1ゲイン情報生成部166、第1音量調整部111を有していてもよい。
『第1ゲイン情報生成部166』
図14は、第1ゲイン情報生成部166の構成例を示す。減算部157から出力された送話系出力信号は、第1ゲイン情報生成部166の過大入力サンプル数決定部167に入力される。
「過大入力サンプル数決定部167」
過大入力サンプル数決定部167は、予め定められた値A12(例えばサンプル値で表現することができる値の上限の90%の値)よりも大きいサンプルの数(以下、過大入力サンプル数とする)をフレームごとに決定する。決定されたフレームごとの過大入力サンプル数は、過大入力フレーム決定部168と、記憶部169とに送られる。
「過大入力フレーム決定部168」
過大入力フレーム決定部168は、過大入力サンプル数が予め定められた数A13(1フレームのサンプル数の30%の数)よりも大きいかどうかをフレームごとに決定する。以下、過大入力サンプル数が予め定められた数A13よりも大きいフレームを、過大入力フレームとする。過大入力フレームについての情報(例えば、過大入力フレームであることを表すフラグ)は、記憶部169に送られる。
「第二音区間過大入力サンプル数決定部170」
第二音区間過大入力サンプル数決定部170は、第一音区間を構成するフレームの数よりも少ない数A14(例えば10、時間長にして1秒)のフレームから構成される音区間を第二音区間として、その第二音区間を構成するフレームについての過大入力サンプル数の総数を計算して、その総数を第1ゲイン情報決定部172に送る。具体的には、第二音区間が過去10フレームである場合には、記憶部169から、過去10フレームの過大入力サンプル数をそれぞれ読み出して、それらを加算することにより、過大入力サンプル数の総数を求める。
「第二音区間過大入力フレーム数決定部171」
第二音区間過大入力フレーム数決定部171は、第二音区間を構成するフレームの中の過大入力フレームの数を決定して、その数を第1ゲイン情報決定部172に送る。具体的には、第二音区間が過去10フレームである場合には、記憶部169から、過去10フレームの過大入力フレームについての情報を読み込み、過大入力フレームの数を決定する。
「第1ゲイン情報決定部172」
第1ゲイン情報決定部172は、過大入力サンプル数の総数が予め定められた数A15(例えば第二音区間を構成するサンプルの総数の20%の数)よりも大きく、かつ、過大入力フレームの数が予め定められた値A16(第二音区間が10フレームである場合には、例えば3)よりも大きい場合には、入力された音の音量を所定の音量だけ下げるための情報(以下、第1ゲイン情報とする。)を、第1音量調整部111に送る。第1ゲイン情報は、具体的なゲインの値(例えば0.7、音量にして3dB)等であってもよいし、具体的な数値を伴わない単なる音量を下げる旨を指示する情報であってもよい。
「第1音量調整部111
第1音量調整部111の第1音量調整部111は、第1ゲイン情報に基づいて、入力された音の音量を下げる。ゲインを下げた場合には、第1ゲイン情報生成部166は、フレームに短時間音量調整フラグを立て、以降は、バッファ155の遅延分の時間に相当するフレームについて処理を行わない。
これにより、突発的な雑音のうち、比較的短い継続時間長をもった雑音を回避して、ゲインを下げることにより、音量を下げることができる。
終始判定部158によって発音の開始が検出された後は、上記のように、第1ゲイン情報生成部165、第1ゲイン情報生成部166の指示に従って音量が調節される。終始判定部158が発音の終了を検出した場合には、発音が終了した旨の情報が、終了時音量調整部173に送られる。
『終了時音量調整部173』
終了時音量調整部173は、発音が終了した旨の情報を受け取ると、第1音量調整部111に設定された発音の終了時のゲインを読み込んで、終了時音量調整部173の記憶部1731に格納する。そして、終了時音量調整部173は、直近の発音から予め定められた数A17の過去の発音の終了時のゲインを記憶部1731からそれぞれ読み出して、それらの平均値を求め、その平均値を第1音量調整部111に設定する。
第1音量調整部111から現在のゲインの値を得ることができない場合には、終了時音量調整部173は、以下のようにしてゲインを第1音量調整部111に設定する。第1音量調整部111から現在のゲインの値を得ることができない場合とは、例えば、第1音量調整部111が3dB音量を上げる、3dB音量を下げるというような相対的なゲインの指定手段しか持たず、装置の調整範囲を超えた場合や、調整できなかったことを通知する手段を持たない場合のことである。
1.第1ゲイン情報生成部165の指示によっては音量を調整するためにゲインを変更しなかった場合には、終了時音量調整部173は何もしない。
2.第1ゲイン情報生成部165の指示により音量を下げるためにゲインを下げた場合には、終了時音量調整部173は現在のゲインから予め設定した値A18だけ値を下げたゲインを第1音量調整部111に設定する。
3.第1ゲイン情報生成部165の指示により音量を上げるためにゲインを上げたときには、終了時音量調整部173は、以下の処理を行う。
3−1.第12ゲイン情報生成部166の指示により音量を下げるためにゲインを下げた場合には、終了時音量調整部173は何もしない。
3−2.「3−1.」以外の場合には、終了時音量調整部173は現在のゲインから予め設定した値A19だけ値を上げたゲインを第1音量調整部111に設定する。
このような方法で、発音の終了時に音量を調整することで、次の発音開始時の音量を適切な値に近づけることができるとともに、話者、マイク位置、声量等の収音環境条件の変化に追随して音量を適切に調整することができる。
なお、送話系入力信号x1が、AD変換部153と第1音量調整部111とにそれぞれ入力され、AD変換部153に入力された音から上記と同様に第1ゲイン情報g1’が決定され、その決定された第1ゲイン情報g1’に基づいて、第1音量調整部111が音量の調整をしてもよい。同様に、受話系入力信号x2または受話系出力信号x2’を用いて、第2ゲイン情報g2’を決定してもよい。
例えば、コールセンターで日ごとにオペレータが席を替わる等の場合には、一定時間同一の収音条件が続くが、日々収音条件が変わる。このような環境では、短い時間で、それぞれのオペレータの声量、マイク位置などの収音条件に合うように音量を調整することができ、また、オペレータが途中で交替した場合にも、追随して適切に音量を調整できる。なお、第1ゲイン情報生成部166及び第1音量調整部111はなくてもよい。また、終了時音量調整部173がなくてもよい。
なお、本実施例は発明の内容を限定するものではない。例えば、各ゲイン計算部151、152は、単に入力信号の平均パワーを用いて、その入力信号が予め定められた範囲に入るようにを調整するように各ゲイン情報を計算するものであってもよいし、他のゲイン計算方法を用いてもよい。
実施例1と異なる部分のみ説明する。実施例1とは、停止判定部の構成が異なる。図15は実施例2に係る停止判定部230の構成例を、図16は停止判定部230の処理フロー例を示す。
実施例1と同様に、停止判定部230は、各ゲイン情報g1’、g2’の値が、第1音量調整部111及び第2音量調整部112が各ゲインg1、g2を変更する値であるか否か判定し(s131)、変更する値の場合には、第2ゲインg2を変更後、第2ゲインg2の更新を停止するように指示する(s133)。停止するように指示した後、停止解除条件を満たすか否か判定し(s135)、満たす場合には、停止を解除するよう指示する(s137)。
本実施例において、停止解除条件とは、例えば、送話系出力信号x1’の有音区間を積算し、有音区間の和が予め定めた値以上となることである。この場合、停止判定部230は、送話系出力信号x1’の有音区間を積算し(s232)、有音区間の和が予め定めた値以上となると、停止解除条件と満たすと判定し(s2351)、停止を解除するように指示する。例えば、停止判定部230は、停止・解除指示部232と有音区間積算部234を有する。停止・解除指示部232は、停止信号sを出力すると同時に、有音区間積算部234及び第1ゲイン計算部内の有音無音区間判定部161に対し、処理を開始するように信号qを出力する。
有音無音区間判定部161は、信号qを入力されると、有音区間、無音区間についての情報zを有音区間積算部234へ出力する。
有音区間積算部234は、信号qを入力されると、有音無音区間判定部161から出力される有音区間、無音区間についての情報zを入力され、その内、有音区間を積算する。有音区間積算部234は、有音区間の和が予め定めた値以上となったとき、停止・解除指示部232に対し、積算が所定値以上であることを知らせる報知信号iを出力する。停止・解除指示部232は、報知信号iを入力されると、第2ゲイン計算部152に対し、第2ゲイン情報を計算する処理を再開するように解除信号cを出力する。第2ゲイン計算部152は、処理を再開する。
なお、第1ゲイン計算部151が単に入力信号の平均パワーを用いて、その入力信号が予め定められた範囲に入るようにを調整するようにゲイン情報を計算する場合には、停止判定部230が、AD変換部153、フレーム分割部154、バッファ155、直流バイアス計算部156、原産部157、外形値決定部159、有音無音フレーム判定部160及び有音無音区間判定部161等を有する構成としてもよい。その場合には、有音無音フレーム判定部160及び有音無音区間判定部161は、有音区間のみ判定し、出力する構成としてもよい。
このような構成とすることによって、実施例1と同様の効果を奏する。適応フィルタの学習は、送話系出力信号x1’に含まれる有音区間に基づいて行われる。そのため、有音区間の和が予め定めた値以上になるまで、ゲインの変更を停止することで、より正確で、効率よくエコーを消去できる。なお、予め定めた値とは、エコー抑圧部の特性から予め適応フィルタの再学習にかかる有音区間の長さを実験的に求めておき決定する。
実施例1と異なる部分のみ説明する。実施例1とは、エコー抑圧部と停止判定部の構成が異なる。
<エコー抑圧部320>
図17は、エコー抑圧部320の構成例を示す。エコー抑圧部320は、エコーの消去状態を表す消去情報dを求める。例えば、エコー抑圧部320は、消去情報生成部325を備える。消去情報生成部325は、適応フィルタ更新部1213から適応フィルタh^(n)を入力され、保存する。消去情報生成部325は、現在の適応フィルタh^(n)から一つ前の適応フィルタh^(n−1)を差し引き、フィルタ係数の二乗和を求める。
{h1(n)- h1(n-1)}2+ {h2(n)- h2(n-1)} 2+…+ {hL(n)- hL(n-1)}2 (4)
この二乗和の値を消去情報dとして、停止解除指示部332へ出力する。
また、例えば、エコー抑圧部320は、エコー抑圧前の受話系出力信号x2’(n)とエコー抑圧後の受話系出力信号x2”(n)を入力され(図中において一点鎖線で表す)。これを用いて、以下のように、エコー消去量ERLE(echo return loss enhancement)を求め、これを消去情報として出力してもよい。なお、1≦K≦nである。
Figure 2010239458
但し、本実施例は、発明の内容を限定するものではない。エコーの消去状態を表す消去情報dは、他の方法により求めてもよい。
<停止判定部330>
図18は実施例3に係る停止判定部330の構成例を、図19は停止判定部330の処理フロー例を示す。実施例1と同様に、停止判定部330は、各ゲイン情報g1’、g2’の値が、第1音量調整部111及び第2音量調整部112が各ゲインg1、g2を変更する値であるか否か判定し(s131)、変更する値の場合には、第2ゲインg2を変更後、第2ゲインg2の更新を停止するように指示する(s133)。停止するように指示した後、停止解除条件を満たすか否か判定し(s135)、満たす場合には、停止を解除するよう指示する(s137)。
本実施例において、停止解除条件とは、受話系出力信号x2”に含まれるエコーが充分に消去されることである。停止判定部330は、消去情報dにより受話系出力信号x2”に含まれるエコーが充分に消去されたと判定した場合(s3351)、停止を解除するように指示する。
例えば、停止・解除指示部332は、停止信号sを出力すると同時に、エコー抑圧部320に対し、消去情報dを求めるように支持する信号eを出力する。エコー抑圧部320は、上述のように消去情報dを求め、停止・解除指示部332へ出力する。停止・解除指示部332は、式(4)により求めた二乗和や式(5)により求めたERLEが予め定めた値よりも小さい場合には、フィルタ係数の変動が少なく、適応フィルタの学習が十分進んだと判断する。停止・解除指示部332は、解除信号cを第2ゲイン計算部152に出力し、第2ゲイン計算部152は処理を再開する。なお、「エコーを抑圧する」とはエコー抑圧部320等で行われる処理を意味し、「エコーを消去する」とは式(4)により求めた二乗和や式(5)により求めたERLE等を予め定めた値よりも小さい(または大きい)状態にすることを意味する。
このような構成とすることによって、実施例1と同様の効果を奏する。さらに、消去情報に基づき、停止を解除するため、より正確であって、かつ、効率的にエコーの消去間隔を決定でき、それにより、音量を適切に調整することができる。
<ハードウェア構成>
図20は、本実施例における音声調整装置100のハードウェア構成を例示したブロック図である。
図20に例示するように、この例の音声調整装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、音声調整装置100としてコンピュータを機能させるためのプログラムが格納されるプログラム領域14a及び各種データが格納されるデータ領域14bを有している。また、RAM16は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが格納されるプログラム領域16a及び各種データが格納されるデータ領域16bを有している。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
<プログラム構成>
上述のように、プログラム領域14a,16aには、本実施例の音声調整装置100の各処理を実行するための各プログラムが格納される。音声調整プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、各プログラムが単体でそれぞれの機能を実現してもよいし、各プログラムがさらに他のライブラリを読み出して各機能を実現するものでもよい。
<ハードウェアとプログラムとの協働>
CPU11(図20)は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述のプログラムをRAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データを、RAM16のデータ領域16bに書き込む。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図6は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成される音声調整装置100の機能構成を例示したブロック図である。
ここで、記憶部103は、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、記憶手段103、制御手段105、第1音量調整部111、第2音量調整部112、エコー抑圧部120、320、停止判定部130、230、330、第1ゲイン計算部151及び第二ゲイン計算部152は、CPU11に音声調整プログラムを実行させることにより構成されるものである。また、本形態の音声調整装置100は、制御部105の制御のもと各処理を実行する。
100 音量調整装置 111 第1音量調整部
112 第2音量調整部 120、320 エコー抑圧部
151 第1ゲイン計算部 152 第2ゲイン計算部
130、230、330 停止判定部

Claims (10)

  1. 第1ゲイン情報g1’を用いて第1ゲインg1を求め、送話系入力信号x1及び第1ゲインg1を用いて音量を調整し、送話系出力信号x1’を求める第1音量調整部と、
    第2ゲイン情報g2’を用いて第2ゲインg2を求め、受話系入力信号x2及び第2ゲインg2を用いて音量を調整し、受話系出力信号x2’を求める第2音量調整部と、
    前記送話系出力信号x1’と前記受話系出力信号x2’を用いて、エコーを抑圧した受話系出力信号x2”を求めるエコー抑圧部と、
    前記送話系入力信号x1または前記送話系出力信号x1’を用いて、第1ゲイン情報g1’を求める第1ゲイン計算部と、
    前記受話系入力信号x2、前記受話系出力信号x2’、x2”の何れかを用いて、第2ゲイン情報g2’を求める第2ゲイン計算部と、
    前記各ゲイン情報g1’、g2’の値が、前記第1音量調整部及び第2音量調整部が前記各ゲインg1、g2を変更する値であるか否か判定し、変更する値の場合には、前記第1音量調整部及び第2音量調整部が変更後、第2ゲインg2の更新を停止するように指示する停止判定部と、
    を有する音量調整装置。
  2. 請求項1記載の音量調整装置であって、
    前記停止判定部は、前記第2ゲインg2の更新を停止するように指示した後、予め定めた時間を経過したと判定した場合、停止を解除するように指示すること、
    を特徴とする音量調整装置。
  3. 請求項1記載の音量調整装置であって、
    前記停止判定部は、前記第2ゲインg2の更新を停止するように指示した後、出力信号x1’の有音区間を積算し、有音区間の和が予め定めた値以上となったと判定した場合、停止を解除するように指示すること、
    を特徴とする音量調整装置。
  4. 請求項1記載の音量調整装置であって、
    前記エコー抑圧部は、エコーの消去状態を表す消去情報を求め、
    前記停止判定部は、前記第2ゲインg2の更新を停止するように指示した後、前記消去情報により受話系出力信号x2”に含まれるエコーが消去されたと判定した場合、停止を解除するように指示すること、
    を特徴とする音量調整装置。
  5. 第1ゲイン情報g1’を用いて第1ゲインg1を求め、送話系入力信号x1及び第1ゲインg1を用いて音量を調整し、送話系出力信号x1’を求める第1音量調整ステップと、
    第2ゲイン情報g2’を用いて第2ゲインg2を求め、受話系入力信号x2及び第2ゲインg2を用いて音量を調整し、受話系出力信号x2’を求める第2音量調整ステップと、
    前記送話系出力信号x1’と前記受話系出力信号x2’を用いて、エコーを抑圧した受話系出力信号x2”を求めるエコー抑圧ステップと、
    前記送話系入力信号x1または前記送話系出力信号x1’を用いて、第1ゲイン情報g1’を求める第1ゲイン計算ステップと、
    前記受話系入力信号x2、前記受話系出力信号x2’、x2”の何れかを用いて、第2ゲイン情報g2’を求める第2ゲイン計算ステップと、
    前記各ゲイン情報g1’、g2’の値が、前記第1音量調整部及び第2音量調整部が前記各ゲインg1、g2を変更する値であるか否か判定し、変更する値の場合には、前記第1音量調整部及び第2音量調整部が変更後、第2ゲインg2の更新を停止するように指示する停止判定ステップと、
    を有する音量調整方法。
  6. 請求項5記載の音量調整方法であって、
    前記停止判定ステップは、前記第2ゲインg2の更新を停止するように指示した後、予め定めた時間を経過したと判定した場合、停止を解除するように指示すること、
    を特徴とする音量調整方法。
  7. 請求項5記載の音量調整方法であって、
    前記停止判定ステップは、前記第2ゲインg2の更新を停止するように指示した後、出力信号x1’の有音区間を積算し、有音区間の和が予め定めた値以上となったと判定した場合、停止を解除するように指示すること、
    を特徴とする音量調整方法。
  8. 請求項5記載の音量調整方法であって、
    前記エコー抑圧ステップは、エコーの消去状態を表す消去情報を求め、
    前記停止判定ステップは、前記第2ゲインg2の更新を停止するように指示した後、前記消去情報により受話系出力信号x2”に含まれるエコーが消去されたと判定した場合、停止を解除するように指示すること、
    を特徴とする音量調整方法。
  9. 請求項1から4記載の何れかの音量調整装置として、コンピュータを機能させるためのプログラム。
  10. 請求項9記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2009086091A 2009-03-31 2009-03-31 音量調整装置、方法、プログラム及び記録媒体 Pending JP2010239458A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009086091A JP2010239458A (ja) 2009-03-31 2009-03-31 音量調整装置、方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009086091A JP2010239458A (ja) 2009-03-31 2009-03-31 音量調整装置、方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2010239458A true JP2010239458A (ja) 2010-10-21

Family

ID=43093397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009086091A Pending JP2010239458A (ja) 2009-03-31 2009-03-31 音量調整装置、方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2010239458A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012096617A1 (en) * 2011-01-11 2012-07-19 Wallander Arne Musical dynamics alteration of sounds
CN115473927A (zh) * 2021-05-25 2022-12-13 Oppo广东移动通信有限公司 音量同步方法、装置、电子设备及存储介质
CN116980804A (zh) * 2023-09-25 2023-10-31 腾讯科技(深圳)有限公司 音量调整方法、装置、设备及可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012096617A1 (en) * 2011-01-11 2012-07-19 Wallander Arne Musical dynamics alteration of sounds
US9515630B2 (en) 2011-01-11 2016-12-06 Arne Wallander Musical dynamics alteration of sounds
CN115473927A (zh) * 2021-05-25 2022-12-13 Oppo广东移动通信有限公司 音量同步方法、装置、电子设备及存储介质
CN116980804A (zh) * 2023-09-25 2023-10-31 腾讯科技(深圳)有限公司 音量调整方法、装置、设备及可读存储介质
CN116980804B (zh) * 2023-09-25 2024-01-26 腾讯科技(深圳)有限公司 音量调整方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
JP6564010B2 (ja) パーソナルオーディオデバイスにおける適応雑音消去(anc)の有効性推定および補正
KR101461141B1 (ko) 잡음 억제기를 적응적으로 제어하는 시스템 및 방법
US8081780B2 (en) Method and device for acoustic management control of multiple microphones
US8897457B2 (en) Method and device for acoustic management control of multiple microphones
EP2081405B1 (en) A hearing aid adapted to a specific type of voice in an acoustical environment, a method and use
EP2860730B1 (en) Speech processing
EP2265039B1 (en) Hearing aid
CN110447069B (zh) 自适应噪声环境的语音信号处理的方法和装置
CN110111805B (zh) 远场语音交互中的自动增益控制方法、装置及可读存储介质
CN106507258B (zh) 一种听力装置及其运行方法
US9330678B2 (en) Voice control device, voice control method, and portable terminal device
JP2003520469A (ja) 雑音低減装置及び方法
US11683643B2 (en) Method and device for in ear canal echo suppression
CN108133712B (zh) 一种处理音频数据的方法和装置
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US9614486B1 (en) Adaptive gain control
JP2010239458A (ja) 音量調整装置、方法、プログラム及び記録媒体
EP3830823B1 (en) Forced gap insertion for pervasive listening
CN106571148B (zh) 一种音频信号自动增益控制方法及装置
CN112235462A (zh) 语音调节方法、系统、电子设备及计算机可读存储介质
JP4814861B2 (ja) 音量調整装置、方法及びプログラム
US11856375B2 (en) Method and device for in-ear echo suppression
JP4527654B2 (ja) 音声通信装置
CN115240700A (zh) 一种声学设备及其声音处理方法
JPWO2018131513A1 (ja) 情報処理装置および方法、並びにプログラム