JP4814861B2 - 音量調整装置、方法及びプログラム - Google Patents

音量調整装置、方法及びプログラム Download PDF

Info

Publication number
JP4814861B2
JP4814861B2 JP2007293743A JP2007293743A JP4814861B2 JP 4814861 B2 JP4814861 B2 JP 4814861B2 JP 2007293743 A JP2007293743 A JP 2007293743A JP 2007293743 A JP2007293743 A JP 2007293743A JP 4814861 B2 JP4814861 B2 JP 4814861B2
Authority
JP
Japan
Prior art keywords
sound
volume
volume adjustment
outer shape
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007293743A
Other languages
English (en)
Other versions
JP2009122204A (ja
Inventor
翼 篠崎
喜昭 野田
太一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007293743A priority Critical patent/JP4814861B2/ja
Publication of JP2009122204A publication Critical patent/JP2009122204A/ja
Application granted granted Critical
Publication of JP4814861B2 publication Critical patent/JP4814861B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Control Of Amplification And Gain Control (AREA)

Description

この発明は、音声認識等のために、電話機やマイクロホン等の音入力装置から入力した音の音量を自動的に調整する音量調整装置、方法及びプログラムに関する。
図7を参照して、従来の自動音量調整装置の説明をする。従来の自動音量調整装置は、音楽、音声等の音を人が聞いて聞きやすい音量に調整することを目的としている。
図7の一点鎖線は、自動音量調整装置が出力する音(すなわち自動音量調整された音)が入力される装置の入力のピーク(許容最大値)を表す。
(1)入力された音の音量が入力のピークを超えている場合には、その音量がその入力のピークを超えなくなるまで急いで利得を下げる。
(2)入力された音の短時間(10〜30秒)平均パワーを計算して、その平均パワーが予め設定した平均パワーの目標値に近づくように徐々に利得を上げ下げする。この際、音の短時間パワー(フレームごとのパワー)を計算して有音区間(音のある区間)と無音区間とを識別し、有音区間の音のみを使って平均パワーを計算することにより、音量調節を適切に行うことができる。
従来の自動音量調整装置は、上記(1)、(2)の方法を組み合わせて、自動音量調整を行い、入力された大きな音や小さな音を人が聞きやすい一定の音量に常になるように制御している(例えば、特許文献1参照。)。
特開昭58−141018号公報
従来の自動音量調整装置は、利得を上げ下げすることにより、音量を少しずつ常に調整している。このように、入力された音を絶えず調整すると、波形が歪み周波数等の音の所定の特徴量が失われやすいという問題があった。
上記(2)の音量調整方法の具体例を図8を参照して説明をする。例えば、図8に示すように、振幅の分散が小さい音のパワーL1の平均値P1(平均パワーP1)を、平均パワーの目標値Pに近づける。近づけるように調整した後の振幅の分散が小さい音のパワーをL2の符号で示し、その平均値をP2(平均パワーP2)で表す。このとき、振幅の分散が大きい音L3(L3の縦軸は振幅を表す。)が入力された場合には、入力のピークを超えることが断続的に発生し、その入力のピークを超えた部分で音の所定の特徴量が変化してしまうという問題があった。
この発明は、対象としている音の所定の特徴量を保ちつつ、その音の音量が所定の音量(入力音のピーク)以下になるように調整する音量調整装置、方法及びプログラムを提供することを目的とする。
この発明の1つの態様である音量調整装置は、入力された音を一定の時間長のフレームで分割するフレーム分割手段と、フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、予め定められた数B以上連続する無音フレームに挟まれ、予め定められた数B以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報(以下、第一音量調整情報とする。)を決定して、出力する第一音量調整指示手段と、上記出力された第一音量調整情報を用いて上記入力された音の音量を調整する第一音量調整手段と、を備える。第一音区間は、0.5秒以上の無音区間に挟まれた2秒以上の有音区間である。
音の所定の特徴量を保ちつつ、その音の音量が所定の音量(入力音のピーク)以下にすることができる。
図1を参照して、本発明の一実施例である自動音量調整装置1について説明をする。
入力部11から、音が入力される。入力部11は、例えばマイクロホンである。入力部11として、電話の送話音声と受話音声の一方を又は両方をミックスして取り出すために、電話機と、送受話器又はヘッドセットとの間に設置した送受話アダプターを用いてもよい。入力部11から入力された音は電気信号に変換されて、音量調整部12に出力される。
音量調整部12は、後述する音量調整情報に基づいて、入力された音の音量を調整して、出力する。出力された音の一部がAD変換部は入力される。音量調整部12は、アナログでもデジタルでもよい。音量調整部12の処理の詳細については後述する。
AD変換部13は、音のアナログ信号を所定のサンプリング周波数で量子化することによりデジタル化して、フレーム分割部14に送る。なお、図1に点線で示すように、音量調整部12の前にAD変換部13を設けてもよい。この場合、音量調整部12は、デジタル式となる。以下、デジタル化された音の信号を、音信号と呼ぶ。
フレーム分割部14は、入力された音を一定の時間長のフレームで分割する。例えば、1フレームの長さを100ms(サンプリング周波数が16kHzである場合にはフレームを構成するサンプル数は1600)とする。このように、フレームの時間長を例えば男性の音声波形及び電源ノイズの基本周期よりも十分長くすることにより、声の高低及び電源ノイズによらず安定して音量調整をすることができる。フレーム化された音信号は、バッファ15に送られる。
バッファ15は、予め定めた数1以上の数Aのフレームを一時的に格納する。
直流バイアス計算部16は、バッファ15に格納されたフレーム化された音信号を読み込み、その音信号の振幅の平均値を長時間観測して計算する。その平均値、すなわち直流成分の値は、減算部17に送られる。
減算部17は、バッファ15から読み込んだ音信号から、直流バイアス計算部16が計算した直流成分の値を減算して、バイアスのかかっていない音信号を生成する。生成された音信号は、終始判定部18と、外形値決定部19と、第二音量調整指示部26とに送られる。以下、断りなく音信号といった場合には、このバイアスのかかっていない音信号を意味するものとする。
終始判定部18は、フレームごとの音信号の絶対値の平均値を観測することで、発音の開始時と発音の終了時を判定する。発音の開始時と発音の終了時の音区間のことを、発音と定義する。発音の開始時と発音の終了時とは、音が電話等の音声である場合には通話の始端と終端のことである。この場合、発音は、いわゆる通話区間に相当することになる。
具体的には、終始判定部18の平均値計算部181は、入力された音信号の振幅の絶対値の平均値をフレームごとに計算する。そして、終始判定部18が、計算された振幅の絶対値の平均値が予め定められた閾値Aよりも大きいかどうかを順次判定して、大きいと判定された場合には発音が開始されたと判定し、その旨の信号を終了時音量調整部33を含む自動音量調整装置1の各部に送る。計算された振幅の絶対値の平均値が予め定められた閾値Aよりも大きいと判定された場合に、その判定された時から一定時間長(例えば0.5秒)遡った時から発音が開始されたと判定してもよい。
また、終始判定部18は、計算された振幅の絶対値の平均値が、予め定められた閾値A(閾値Aは、閾値Aよりも小さい値である。)よりも小さい状態が予め定められた一定時間長続いた場合には、又は、予め定められた数Aのフレームだけ続いた場合には、発音が終了したと判定し、その旨の信号を終了時音量調整部33を含む自動音量調整装置1の各部に送る。
発音が開始された旨の信号を受け取った外形値決定部19は、フレームの音の大きさを表す特徴量である外形値をフレームごとに求める。例えば、外形値とは、音信号の振幅の絶対値の最大値のことである。換言すると、外形値とは、フレームを構成する複数のサンプルの値の最大値のことである。求められたフレームごとの外形値は、有音無音フレーム判定部20、第一音量調整指示部25に送られる。図3A,Bに、外形値抽出の具体例を示す。図3Aはバイアスがかかっていない音信号の波形である。図3Bは、Aに示した音信号の波形からフレームごとに振幅の絶対値の最大値(外形値)を求めて、図示したものである。
再度、図1を参照して説明をする。有音無音フレーム判定部20は、外形値と予め定められた閾値Aとを比較して、外形値の方が大きければそのフレームを有音フレームと判定し、そうでなければ、そのフレームを無音フレームと判定する。閾値Aを、予め定めた値とせずに、例えば、過去10秒間の無音フレームの外形値の最小値の定数倍(例えば3倍)の値として動的に閾値Aを変化させてもよい。フレームが、有音フレームであるか、無音フレームであるかの情報は、有音無音区間判定部21に送られる。
有音無音区間判定部21は、無音フレームが予め定められた数A(例えば5、時間長にして0.5秒となるように、Aを設定する。)以上連続する場合には、その連続するフレームから構成される音区間を無音区間と判定し、それ以外のフレームから構成される音区間を有音区間と判定する。有音区間、無音区間についての情報は、第一音量調整指示部25の第一音区間抽出部22に送られる。
以下、図2を参照して、第一音量調整指示部25の説明をする。第一音量調整指示部25の第一音区間抽出部22は、上記判定された有音区間が予め定められた時間長A(例えば2秒)よりも長いかどうか、又は、上記判定された有音区間を構成するフレーム数A(例えば20フレーム)が予め定められた数Aよりも大きい場合には、その有音区間を第一音区間とする。入力される音が電話等の音声である場合には、第一音区間はいわゆる発話区間に相当する。発話区間は、人間が一呼吸で発した音の区間のことである。このようにして、第一音区間を抽出することにより、「こんにちは」や「ちょっと質問があるのですが」といった人の感覚に近い長さの音区間を切り出すことができる。図3Bに、第一音区間の抽出の具体例を示す。例えば、この図3B示すように、0.5秒以上の無音区間を使って2秒以上の有音区間のかたまりを第一音区間として抽出する。
第一音区間抽出部22は、例えば、第一音区間を構成するフレームと、それらのフレームの外形値とに関する情報を、第一音区間外形値抽出部23に送る。第一音区間を構成するフレームの外形値は、第一音区間抽出部22が外形値決定部19から受け取ったフレームの外形値の情報を用いる。
第一音区間外形値抽出部23の除外部231は、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外する。除外する外形値の数は、第一音区間を構成するフレームの数が多いほど多くするとよい。例えば、第一音区間を構成するフレームの数に予め設定した割合A(例えば10〜30%、今回は20%)をかけて、小数点以下を切り捨て・四捨五入・切り上げた数の外形値を除外する。予め定めた数A10の外形値を除外することにしてもよい。除外されずに残った外形値は、最大値決定部232に送られる。
最大値決定部232は、除外されずに残った外形値の最大値を求め、その最大値を第一音区間の外形値として保存する。第一音区間の外形値は、第一利得決定部24に送られる。
第一利得決定部24は、第一音区間の外形値が予め定められた範囲に入るように、入力された音を調整するための情報(以下、第一音量調整情報とする。)を決定して、音量調整部12に送る。例えば、第一利得決定部24に入力のピークが入力される。第一利得決定部24は、入力のピークに予め定められた割合A11(例えば、10%〜25%)をかけた範囲に、第一音区間の外形値が入るように、利得を決定する。この場合、利得が第一音量調整情報となる。
なお、第一音量調整情報が決定された場合には、第一音量調整指示部25は、バッファ15の遅延分の時間に相当するフレームについて、上記の処理を行わない。
図3Cを参照して、具体例を説明する。除外部231は、第一音区間を構成するフレームの外形値のうち、外形値が大きい予め定められた数(この例では、7つ)の外形値を除外する。図3Cの白で示した外形値が除外された外形値である。最大値決定部232は、第一音区間の外形値として、除外されずに残った外形値のうち最も大きい外形値を選択する。除外されずに残った外形値が図3Cの黒と射線で示した外形値であり、その最大値である第一音区間の外形値は射線で示した外形値である。
第一音区間の外形値が入るべき予め定められた範囲を3000〜8000とすると、この例では、第一音区間の外形値はその範囲に入っていない。第一利得決定部24は、第一音区間の外形値とその範囲との差分を計算して、第一音区間の外形値がその範囲に入るように利得を決定する。第一音区間の外形値がその範囲に入っている場合には、処理を行わない。
別の具体例を説明する。第一音区間の外形値が入力のピークの5%であり、第一音区間の外形値が入るべき予め定められた範囲が入力のピークの10%〜25%であるとする。この場合、第一利得決定部24は、第一音区間の外形値が入力のピークの10%になるように、利得を決定する。このように、音量調整後の第一音区間の外形値が、予め定められた範囲の上限値又は下限値のうち、音量調整前の第一音区間の外形値と近い方の値と等しくなるように、利得を決定することにより、音量調整量が最も小さくすることができ、音の所定の特徴量の変化を最も小さくすることができる。
また、このように、第一音区間の外形値が入るべき予め定められた範囲を設けて、この範囲に第一音区間の外形値が入っている場合には上記の利得の計算を行わないようにすることにより、利得を変更する回数を少なくすることができる。これにより、音の波形が歪む回数を少なくすることができるため、音の所定の特徴量の変化を小さくすることができる。
この方法では、「はい」、「あ」、「えー」等の音量が不安定な短い音区間ではなく、「お電話ありがとうございます。」、「ちょっと聞きたいことがあるのですが」等のある程度の長さを持ち音量が安定した音区間を音量調整の基準としている。また、第一音区間を構成する複数のフレームの外形値から、外形値が大きい複数の外形値を除外して、除外されずの残った外形値の最大値を第一音区間の外形値として、その第一音区間の外形値を用いて、利得を調整している。
これにより、咳やくしゃみ等の突発的な雑音の影響を受けにくくなり、かつ、対象とする音の振幅の分散の大小によっても音量調整後の音量が入力のピークが超えることがなくなる。
上記の例においては、第一音区間を構成するフレームの外形値のうち、大きい方から20%の外形値を除外し、第一音区間の外形値が入るべき予め定められた範囲を入力ピークの10%〜20%としている。これは、実験を行った結果、突発的な雑音を除くと、入力のピークが第一音区間の外形値のおよそ4倍未満であったためである。
再度、図1を参照して説明をする。音量調整部12の第一音量調整部121は、第一音量調整指示部25が決定した第一音量調整情報(例えば利得)を用いて、入力された音の音量を調整して出力する。第一音量調整部121は、新たな第一音量調整情報が第一音量調整指示部25から送られてくるまで、既に送られている第一音量調整情報に基づいて音量調整を行う。
このように、本発明では、従来技術の音量調整装置と比較して長い時間、同じ第一音量調整情報に基づいて音量を調整している。これにより、従来技術のように頻繁に音量を調整するための利得が変化する場合と比較して、音の所定の特徴量が失われづらくなる。
下記に述べる、第一音区間よりも短い音区間(第二音区間)を基準として、音量調整をする第二音量調整指示部26、第二音量調整部122を有していてもよい。
図4を参照して、第二音量調整指示部26の説明をする。減算部17から出力された音信号は、第二音量調整指示部26の過大入力サンプル数決定部27に入力される。過大入力サンプル数決定部27は、予め定められた値A12(例えばサンプル値で表現することができる値の上限の90%の値)よりも大きいサンプルの数(以下、過大入力サンプル数とする。)をフレームごとに決定する。決定されたフレームごとの過大入力サンプル数は、過大入力フレーム決定部28と、記憶部29とに送られる。
過大入力フレーム決定部28は、過大入力サンプル数が予め定められた数A13(1フレームのサンプル数の30%の数)よりも大きいかどうかをフレームごとに決定する。以下、過大入力サンプル数が予め定められた数A13よりも大きいフレームを、過大入力フレームとする。過大入力フレームについての情報(例えば、過大入力フレームであることを表すフラグ)は、記憶部29に送られる。
第二音区間過大入力サンプル数決定部30は、第一音区間を構成するフレームの数よりも少ない数A14(例えば10、時間長にして1秒)のフレームから構成される音区間を第二音区間として、その第二音区間を構成するフレームについての過大入力サンプル数の総数を計算して、その総数を第二利得決定部32に送る。具体的には、第二音区間が過去10フレームである場合には、記憶部29から、過去10フレームの過大入力サンプル数をそれぞれ読み出して、それらを加算することにより、過大入力サンプル数の総数を求める。
第二音区間過大入力フレーム数決定部31は、第二音区間を構成するフレームの中の過大入力フレームの数を決定して、その数を第二利得決定部32に送る。具体的には、第二音区間が過去10フレームである場合には、記憶部29から、過去10フレームの過大入力フレームについての情報を読み込み、過大入力フレームの数を決定する。
第二利得決定部32は、過大入力サンプル数の総数が予め定められた数A15(例えば第二音区間を構成するサンプルの総数の20%の数)よりも大きく、かつ、過大入力フレームの数が予め定められた値A16(第二音区間が10フレームである場合には、例えば3)よりも大きい場合には、入力された音の音量を所定の音量だけ下げるための情報(以下、第二音量調整情報とする。)を、音量調整部12に送る。第二音量調整情報は、具体的な利得の値(例えば0.7、音量にして3dB)等であってもよいし、具体的な数値を伴わない単なる音量を下げる旨を指示する情報であってもよい。
音量調整部12の第二音量調整部122は、第二音量調整情報に基づいて、入力された音の音量を下げる。利得を下げた場合には、第二音量調整指示部26は、フレームに短時間音量調整フラグを立て、以降は、バッファ15の遅延分の時間に相当するフレームについて処理を行わない。
これにより、突発的な雑音のうち、比較的短い継続時間長をもった雑音を回避して、利得を下げることにより、音量を下げることができる。
終始判定部18によって発音の開始が検出された後は、上記のように、第一音量調整指示部25、第二音量調整指示部26の指示に従って音量が調節される。終始判定部18が発音の終了を検出した場合には、発音が終了した旨の情報が、終了時音量調整部33に送られる。
終了時音量調整部33は、発音が終了した旨の情報を受け取ると、音量調整部12に設定された発音の終了時の利得を読み込んで、終了時音量調整部33の記憶部331に格納する。そして、終了時音量調整部33は、直近の発音から予め定められた数A17の過去の発音の終了時の利得を記憶部331からそれぞれ読み出して、それらの平均値を求め、その平均値を音量調整部12に設定する。
音量調整部12から現在の利得の値を得ることができない場合には、終了時音量調整部33は、以下のようにして利得を音量調整部12に設定する。音量調整部12から現在の利得の値を得ることができない場合とは、例えば、音量調整部12が3dB音量を上げる、3dB音量を下げるというような相対的な利得の指定手段しか持たず、装置の調整範囲を超えた場合や、調整できなかったことを通知する手段を持たない場合のことである。
1.第一音量調整指示部25の指示によっては音量を調整するために利得を変更しなかった場合には、終了時音量調整部33は何もしない。
2.第一音量調整指示部25の指示により音量を下げるために利得を下げた場合には、終了時音量調整部33は現在の利得から予め設定した値A18だけを値を下げた利得を音量調整部12に設定する。
3.第一音量調整指示部25の指示により音量を上げるために利得を上げたときには、終了時音量調整部33は、以下の処理を行う。
3−1.第二音量調整指示部26の指示により音量を下げるために利得を下げた場合には、終了時音量調整部33は何もしない。
3−2.「3−1.」以外の場合には、終了時音量調整部33は現在の利得から予め設定した値A19だけ値を上げた利得を音量調整部12に設定する。
このような方法で、発音の終了時に音量を調整することで、次の発音開始時の音量を適切な値に近づけることができるとともに、話者、マイク位置、声量等の収音環境条件の変化に追随して音量を適切に調整することができる。
図9に例示するように、入力部11から入力された音が、AD変換部13と音量調整部12とにそれぞれ入力され、AD変換部13に入力された音から上記と同様に音量調整情報が決定され、その決定された音量調整情報に基づいて、音量調整部12が音量の調整をしてもよい。
例えば、コールセンターで日ごとにオペレータが席を替わる等の場合には、一定時間同一の収音条件が続くが、日々収音条件が変わる。このような環境では、数通話の短い時間で、それぞれのオペレータの声量、マイク位置などの収音条件に合うように音量を調整することができ、また、オペレータが途中で交替した場合にも、追随して適切に音量を調整できる。
第二音量調整指示部26及び第二音量調整部122はなくてもよい。また、終了時音量調整部33がなくてもよい。
図5に、コールセンターで自動音量調整装置1を利用してオペレータとユーザとの会話を録音するシステムを示す。
電話機34に接続したヘッドセット35をオペレータが装着し、ユーザと会話をする。ヘッドセット35と電話機34との間に音量調整部12を有する送受話器分岐アダプタ36を接続して、オーディオ入力又はUSBを使って、その音声をPC37に取り込む。PCに取り込んだオペレータ、ユーザそれぞれの音声はエコーキャンセル部を通して、側音としてユーザ音声側に入っているオペレータ音声を抑圧する。図6に示すように送受話器分離アダプタにエコーキャンセル部38が付いている場合には、このエコーキャンセル部の処理をバイパスする。
エコーキャンセル部38から送られたそれぞれの音声をもとに終始判定部18で、通話の始端を検出すると、送信側自動音量調整装置1aは、オペレータ音声の音量を上記説明した自動音量調整装置1と同様に調整する。また、受信側自動音量調整装置1bは、ユーザ音声の音量を上記説明した自動音量調整装置1と同様に調整する。送信側自動音量調整装置1aと受信側自動音量調整装置1bはそれぞれ、音量調整部12と終始判定部18とを有していないが、送受話器分岐アダプタ36の音量調整部12及びPC37の終始判定部18が、送信側自動音量調整装置1aと受信側自動音量調整装置1bの音量調整部12及び終始判定部18として機能する。それ以外の点では、自動音量調整装置1と同様である。
オペレータ音声はオペレータが同じ間は収音条件がほぼ同じなので数通話で適切な音量に調整することができる。しかし、ユーザ音声は、一通話ごとに電話機、伝送路等が異なる。このため、受信側自動音量調整装置1bは、終了時音量調整部33による音調調整の指示を行わない。
終始判定部18が通話の終了を検出すると、音量が調整された音声は録音部39を通して、PC37のディスク40に格納される。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本発明の一実施例である自動音量調整装置1の機能構成を例示する図。 第一音量調整指示部25の機能構成を例示する図。 Aは音信号の波形を例示する図。Bは第一音区間(発話区間)を例示する図。Cは第一音区間の外形値を例示する図。 第二音量調整指示部26の機能構成を例示する図。 オペレータとユーザとの会話を録音するシステムを例示する図。 オペレータとユーザとの会話を録音するシステムを例示する図。 従来の自動音量調整を例示する図。 従来の自動音量調整の問題点を説明するための図。 自動音量調整装置1’の機能構成を例示する図。
符号の説明
1 自動音量調整装置
1a 送信側自動音量調整装置
1b 受信側自動音量調整装置
11 入力部
12 音量調整部
13 変換部
14 フレーム分割部
15 バッファ
16 直流バイアス計算部
17 減算部
18 終始判定部
19 外形値決定部
20 有音無音フレーム判定部
21 有音無音区間判定部
22 第一音区間抽出部
23 第一音区間外形値抽出部
24 第一利得決定部
25 第一音量調整指示部
26 第二音量調整指示部
27 過大入力サンプル数決定部
28 過大入力フレーム決定部
29 記憶部
30 第二音区間過大入力サンプル数決定部
31 第二音区間過大入力フレーム数決定部
32 第二利得決定部
33 終了時音量調整部
34 電話機
35 ヘッドセット
36 送受話器分岐アダプタ
38 エコーキャンセル部
39 録音部
40 ディスク
121 第一音量調整部
122 第二音量調整部
181 平均値計算部
231 除外部
232 最大値決定部
331 記憶部

Claims (9)

  1. 入力された音を一定の時間長のフレームで分割するフレーム分割手段と、
    フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、
    予め定められた数B以上連続する無音フレームに挟まれ、予め定められた数B以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、
    上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報(以下、第一音量調整情報とする。)を決定して、出力する第一音量調整指示手段と、
    上記出力された第一音量調整情報を用いて上記入力された音の音量を調整する第一音量調整手段と、
    を備え
    上記第一音区間は、0.5秒以上の無音区間に挟まれた2秒以上の有音区間である、
    音量調整装置。
  2. 請求項1に記載された音量調整装置において、
    上記フレームの外形値は、そのフレームに含まれるサンプルの値の絶対値の最大値である、
    ことを特徴とする音量調整装置。
  3. 請求項1又は2に記載された音量調整装置において、
    フレームの外形値が予め定められた閾値Bより大であればそのフレームを有音フレームと判定し、そうでなければそのフレームを無音フレームと判定する有音無音フレーム判定手段と、
    予め定められた数B以上連続する無音フレームから構成される音区間を無音区間と判定するとともに、それ以外の音区間を有音区間と判定する有音無音区間判定手段と、
    上記判定された有音区間のうち、予め定められた時間長よりも長い有音区間を上記第一音区間とする第一音区間抽出手段と、
    を備えることを特徴とする音量調整装置。
  4. 請求項1から3の何れかに記載された音量調整装置において、
    サンプルの値の絶対値が予め定められた閾値Bより大であるサンプルの数(以下、過大入力サンプル数とする。)をフレームごとに決定する過大入力サンプル数決定手段と、
    上記過大入力サンプル数が予め定められた数Bより大であるかどうかをフレームごとに決定する過大入力フレーム決定手段と(以下、過大入力サンプル数が予め定められた数Bより大であるフレームを過大入力フレームとする。)、
    上記第一音区間を構成するフレームの数よりも少ない数のフレームから構成される音区間を第二音区間として、その第二音区間を構成するフレームについての上記決定された過大入力サンプル数の総数が予め定められた数Bより大であり、かつ、その第二音区間を構成するフレームの中の過大入力フレームの数が予め定められた数Bより大である場合に、上記入力された音の音量を所定の音量だけ下げるための情報(以下、第二音量調整情報とする。)を出力する第二音量調整指示手段と、
    上記出力された第二音量調整情報を用いて上記入力された音の音量を下げる第二音量調整手段と、
    を備えることを特徴とする音量調整装置。
  5. 請求項1から4の何れかに記載された音量調整装置において、
    入力された音の振幅の絶対値の平均値をフレームごとに求める平均値計算手段と、
    予め定められた閾値Bよりも大きい平均値を有するフレームを検出した場合に発音が開始したと判定し、予め定められた閾値B10より小さい平均値を有するフレームが予め定められた数B11だけ連続して続いた場合に発音が終了したと判定する終始判定手段と、
    発音が終了したと判定されたときに、発音終了時の第一音量調整情報及び/又は第二音量調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数B12の過去の発音の終了時の第一音量調整情報及び/又は第二音量調整情報をその記憶手段から読み出して、それらの平均値を求め、第一音量調整手段及び/又は第二音量調整手段に設定する終了時音量調整手段と、
    を備えることを特徴とする音量調整装置。
  6. 入力された音を一定の時間長のフレームで分割するフレーム分割ステップと、
    フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定ステップと、
    予め定められた数B以上連続する無音フレームに挟まれ、予め定められた数B以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定ステップと、
    上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報(以下、第一音量調整情報とする。)を決定して、出力する第一音量調整指示ステップと、
    上記出力された第一音量調整情報を用いて上記入力された音の音量を調整する第一音量調整ステップと、
    を備え
    上記第一音区間は、0.5秒以上の無音区間に挟まれた2秒以上の有音区間である、
    音量調整方法。
  7. 請求項1から5の何れかに記載の音量調整装置の各手段としてコンピュータを機能させるための音量調整プログラム。
  8. 請求項1に記載された音量調整装置において、
    上記第一音量調整手段は、新たな第一音量調整情報が出力されるまでは、既に出力されている第一音量調整情報を用いて上記入力された音の音量を調整する、
    ことを特徴とする音量調整装置。
  9. 入力された送信側の音を一定の時間長のフレームで分割するフレーム分割手段と、フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、予め定められた数B 以上連続する無音フレームに挟まれ、予め定められた数B 以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報(以下、第一音量調整情報とする。)を決定して、出力する第一音量調整指示手段と、を備えた送信側音量調整装置と、
    入力された受信側の音を一定の時間長のフレームで分割するフレーム分割手段と、フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、予め定められた数B 以上連続する無音フレームに挟まれ、予め定められた数B 以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報(以下、第一音量調整情報とする。)を決定して、出力する第一音量調整指示手段と、を備えた受信側音量調整装置と、
    上記送信側音量調整装置から出力された第一音量調整情報を用いて上記入力された送信側の音の音量を調整し、上記受信側音量調整装置から出力された第一音量調整情報を用いて上記入力された受信側の音の音量を調整する第一音量調整手段と、
    入力された送信側及び受信側の音の振幅の絶対値の平均値をフレームごとに求める平均値計算手段と、
    予め定められた閾値B よりも大きい平均値を有するフレームを検出した場合に発音が開始したと判定し、予め定められた閾値B 10 より小さい平均値を有するフレームが予め定められた数B 11 だけ連続して続いた場合に発音が終了したと判定する終始判定手段と、
    発音が終了したと判定されたときに、発音終了時の上記送信側音量調整装置の第一音量調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数B 12 の過去の発音の終了時の上記送信側音量調整装置の第一音量調整情報をその記憶手段から読み出して、それらの平均値を求め、上記送信側音量調整装置の上記第一音量調整手段に設定する終了時音量調整手段と、
    を含み、
    上記第一音区間は、0.5秒以上の無音区間に挟まれた2秒以上の有音区間である、
    音量調整装置。
JP2007293743A 2007-11-12 2007-11-12 音量調整装置、方法及びプログラム Active JP4814861B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007293743A JP4814861B2 (ja) 2007-11-12 2007-11-12 音量調整装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007293743A JP4814861B2 (ja) 2007-11-12 2007-11-12 音量調整装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009122204A JP2009122204A (ja) 2009-06-04
JP4814861B2 true JP4814861B2 (ja) 2011-11-16

Family

ID=40814471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007293743A Active JP4814861B2 (ja) 2007-11-12 2007-11-12 音量調整装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4814861B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6409163B2 (ja) * 2014-04-22 2018-10-24 富士通コネクテッドテクノロジーズ株式会社 音声処理装置、音声処理プログラムおよび音声処理方法
JP6361271B2 (ja) * 2014-05-09 2018-07-25 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN113223519B (zh) * 2021-04-23 2024-06-04 深圳创维-Rgb电子有限公司 远场音量控制方法、设备、存储介质及计算机程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62141594A (ja) * 1985-12-16 1987-06-25 日本電気株式会社 音声検出方式
JP3278864B2 (ja) * 1991-05-20 2002-04-30 ソニー株式会社 デジタルオートゲインコントローラ
JP2947685B2 (ja) * 1992-12-17 1999-09-13 シャープ株式会社 音声コーデック装置
JP2005253097A (ja) * 1993-06-29 2005-09-15 Sony Corp 音声信号送受信装置
JP3355040B2 (ja) * 1994-07-15 2002-12-09 アルパイン株式会社 受信機
JP4632136B2 (ja) * 2006-03-31 2011-02-16 富士フイルム株式会社 楽曲テンポ抽出方法、装置及びプログラム

Also Published As

Publication number Publication date
JP2009122204A (ja) 2009-06-04

Similar Documents

Publication Publication Date Title
JP4764995B2 (ja) 雑音を含む音響信号の高品質化
JP5293817B2 (ja) 音声信号処理装置及び音声信号処理方法
JP4640461B2 (ja) 音量調整装置およびプログラム
US8504360B2 (en) Automatic sound recognition based on binary time frequency units
WO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
US6236970B1 (en) Adaptive speech rate conversion without extension of input data duration, using speech interval detection
US8126176B2 (en) Hearing aid
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
JP2018156044A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN103270740B (zh) 声音控制装置、声音控制方法以及移动终端装置
JP5411807B2 (ja) チャネル統合方法、チャネル統合装置、プログラム
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
US7539614B2 (en) System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US20110002481A1 (en) Audio signal amplitude adjusting device and method
JP4814861B2 (ja) 音量調整装置、方法及びプログラム
US8954322B2 (en) Acoustic shock protection device and method thereof
JP2017216525A (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP4548953B2 (ja) 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
CN115567845A (zh) 一种信息处理方法及装置
JP2010239458A (ja) 音量調整装置、方法、プログラム及び記録媒体
JP2905112B2 (ja) 環境音分析装置
JP2010124207A (ja) 音量調整装置、その方法、そのプログラム、その記録媒体
JP4493557B2 (ja) 音声信号判断装置
JP5346350B2 (ja) 反響消去装置とその方法とプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110114

TRDD Decision of grant or rejection written
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110812

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110826

R150 Certificate of patent or registration of utility model

Ref document number: 4814861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140902

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350