JP4814861B2

JP4814861B2 - 音量調整装置、方法及びプログラム

Info

Publication number: JP4814861B2
Application number: JP2007293743A
Authority: JP
Inventors: 翼篠崎; 喜昭野田; 太一浅見
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-11-12
Filing date: 2007-11-12
Publication date: 2011-11-16
Anticipated expiration: 2027-11-12
Also published as: JP2009122204A

Description

この発明は、音声認識等のために、電話機やマイクロホン等の音入力装置から入力した音の音量を自動的に調整する音量調整装置、方法及びプログラムに関する。

図７を参照して、従来の自動音量調整装置の説明をする。従来の自動音量調整装置は、音楽、音声等の音を人が聞いて聞きやすい音量に調整することを目的としている。
図７の一点鎖線は、自動音量調整装置が出力する音（すなわち自動音量調整された音）が入力される装置の入力のピーク（許容最大値）を表す。
（１）入力された音の音量が入力のピークを超えている場合には、その音量がその入力のピークを超えなくなるまで急いで利得を下げる。
（２）入力された音の短時間（１０〜３０秒）平均パワーを計算して、その平均パワーが予め設定した平均パワーの目標値に近づくように徐々に利得を上げ下げする。この際、音の短時間パワー（フレームごとのパワー）を計算して有音区間（音のある区間）と無音区間とを識別し、有音区間の音のみを使って平均パワーを計算することにより、音量調節を適切に行うことができる。

従来の自動音量調整装置は、上記（１）、（２）の方法を組み合わせて、自動音量調整を行い、入力された大きな音や小さな音を人が聞きやすい一定の音量に常になるように制御している（例えば、特許文献１参照。）。
特開昭５８−１４１０１８号公報

従来の自動音量調整装置は、利得を上げ下げすることにより、音量を少しずつ常に調整している。このように、入力された音を絶えず調整すると、波形が歪み周波数等の音の所定の特徴量が失われやすいという問題があった。
上記（２）の音量調整方法の具体例を図８を参照して説明をする。例えば、図８に示すように、振幅の分散が小さい音のパワーＬ１の平均値Ｐ１（平均パワーＰ１）を、平均パワーの目標値Ｐ^＊に近づける。近づけるように調整した後の振幅の分散が小さい音のパワーをＬ２の符号で示し、その平均値をＰ２（平均パワーＰ２）で表す。このとき、振幅の分散が大きい音Ｌ３（Ｌ３の縦軸は振幅を表す。）が入力された場合には、入力のピークを超えることが断続的に発生し、その入力のピークを超えた部分で音の所定の特徴量が変化してしまうという問題があった。

この発明は、対象としている音の所定の特徴量を保ちつつ、その音の音量が所定の音量（入力音のピーク）以下になるように調整する音量調整装置、方法及びプログラムを提供することを目的とする。

この発明の１つの態様である音量調整装置は、入力された音を一定の時間長のフレームで分割するフレーム分割手段と、フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、予め定められた数Ｂ_１以上連続する無音フレームに挟まれ、予め定められた数Ｂ_２以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報（以下、第一音量調整情報とする。）を決定して、出力する第一音量調整指示手段と、上記出力された第一音量調整情報を用いて上記入力された音の音量を調整する第一音量調整手段と、を備える。第一音区間は、０．５秒以上の無音区間に挟まれた２秒以上の有音区間である。

音の所定の特徴量を保ちつつ、その音の音量が所定の音量（入力音のピーク）以下にすることができる。

図１を参照して、本発明の一実施例である自動音量調整装置１について説明をする。
入力部１１から、音が入力される。入力部１１は、例えばマイクロホンである。入力部１１として、電話の送話音声と受話音声の一方を又は両方をミックスして取り出すために、電話機と、送受話器又はヘッドセットとの間に設置した送受話アダプターを用いてもよい。入力部１１から入力された音は電気信号に変換されて、音量調整部１２に出力される。
音量調整部１２は、後述する音量調整情報に基づいて、入力された音の音量を調整して、出力する。出力された音の一部がＡＤ変換部は入力される。音量調整部１２は、アナログでもデジタルでもよい。音量調整部１２の処理の詳細については後述する。

ＡＤ変換部１３は、音のアナログ信号を所定のサンプリング周波数で量子化することによりデジタル化して、フレーム分割部１４に送る。なお、図１に点線で示すように、音量調整部１２の前にＡＤ変換部１３を設けてもよい。この場合、音量調整部１２は、デジタル式となる。以下、デジタル化された音の信号を、音信号と呼ぶ。
フレーム分割部１４は、入力された音を一定の時間長のフレームで分割する。例えば、１フレームの長さを１００ｍｓ（サンプリング周波数が１６ｋＨｚである場合にはフレームを構成するサンプル数は１６００）とする。このように、フレームの時間長を例えば男性の音声波形及び電源ノイズの基本周期よりも十分長くすることにより、声の高低及び電源ノイズによらず安定して音量調整をすることができる。フレーム化された音信号は、バッファ１５に送られる。

バッファ１５は、予め定めた数１以上の数Ａ_１のフレームを一時的に格納する。
直流バイアス計算部１６は、バッファ１５に格納されたフレーム化された音信号を読み込み、その音信号の振幅の平均値を長時間観測して計算する。その平均値、すなわち直流成分の値は、減算部１７に送られる。
減算部１７は、バッファ１５から読み込んだ音信号から、直流バイアス計算部１６が計算した直流成分の値を減算して、バイアスのかかっていない音信号を生成する。生成された音信号は、終始判定部１８と、外形値決定部１９と、第二音量調整指示部２６とに送られる。以下、断りなく音信号といった場合には、このバイアスのかかっていない音信号を意味するものとする。

終始判定部１８は、フレームごとの音信号の絶対値の平均値を観測することで、発音の開始時と発音の終了時を判定する。発音の開始時と発音の終了時の音区間のことを、発音と定義する。発音の開始時と発音の終了時とは、音が電話等の音声である場合には通話の始端と終端のことである。この場合、発音は、いわゆる通話区間に相当することになる。
具体的には、終始判定部１８の平均値計算部１８１は、入力された音信号の振幅の絶対値の平均値をフレームごとに計算する。そして、終始判定部１８が、計算された振幅の絶対値の平均値が予め定められた閾値Ａ_２よりも大きいかどうかを順次判定して、大きいと判定された場合には発音が開始されたと判定し、その旨の信号を終了時音量調整部３３を含む自動音量調整装置１の各部に送る。計算された振幅の絶対値の平均値が予め定められた閾値Ａ_２よりも大きいと判定された場合に、その判定された時から一定時間長（例えば０．５秒）遡った時から発音が開始されたと判定してもよい。

また、終始判定部１８は、計算された振幅の絶対値の平均値が、予め定められた閾値Ａ_３（閾値Ａ_３は、閾値Ａ_２よりも小さい値である。）よりも小さい状態が予め定められた一定時間長続いた場合には、又は、予め定められた数Ａ_４のフレームだけ続いた場合には、発音が終了したと判定し、その旨の信号を終了時音量調整部３３を含む自動音量調整装置１の各部に送る。
発音が開始された旨の信号を受け取った外形値決定部１９は、フレームの音の大きさを表す特徴量である外形値をフレームごとに求める。例えば、外形値とは、音信号の振幅の絶対値の最大値のことである。換言すると、外形値とは、フレームを構成する複数のサンプルの値の最大値のことである。求められたフレームごとの外形値は、有音無音フレーム判定部２０、第一音量調整指示部２５に送られる。図３Ａ，Ｂに、外形値抽出の具体例を示す。図３Ａはバイアスがかかっていない音信号の波形である。図３Ｂは、Ａに示した音信号の波形からフレームごとに振幅の絶対値の最大値（外形値）を求めて、図示したものである。

再度、図１を参照して説明をする。有音無音フレーム判定部２０は、外形値と予め定められた閾値Ａ_５とを比較して、外形値の方が大きければそのフレームを有音フレームと判定し、そうでなければ、そのフレームを無音フレームと判定する。閾値Ａ_５を、予め定めた値とせずに、例えば、過去１０秒間の無音フレームの外形値の最小値の定数倍（例えば３倍）の値として動的に閾値Ａ_５を変化させてもよい。フレームが、有音フレームであるか、無音フレームであるかの情報は、有音無音区間判定部２１に送られる。
有音無音区間判定部２１は、無音フレームが予め定められた数Ａ_６（例えば５、時間長にして０．５秒となるように、Ａ_６を設定する。）以上連続する場合には、その連続するフレームから構成される音区間を無音区間と判定し、それ以外のフレームから構成される音区間を有音区間と判定する。有音区間、無音区間についての情報は、第一音量調整指示部２５の第一音区間抽出部２２に送られる。

以下、図２を参照して、第一音量調整指示部２５の説明をする。第一音量調整指示部２５の第一音区間抽出部２２は、上記判定された有音区間が予め定められた時間長Ａ_７（例えば２秒）よりも長いかどうか、又は、上記判定された有音区間を構成するフレーム数Ａ_８（例えば２０フレーム）が予め定められた数Ａ_８よりも大きい場合には、その有音区間を第一音区間とする。入力される音が電話等の音声である場合には、第一音区間はいわゆる発話区間に相当する。発話区間は、人間が一呼吸で発した音の区間のことである。このようにして、第一音区間を抽出することにより、「こんにちは」や「ちょっと質問があるのですが」といった人の感覚に近い長さの音区間を切り出すことができる。図３Ｂに、第一音区間の抽出の具体例を示す。例えば、この図３Ｂ示すように、０．５秒以上の無音区間を使って２秒以上の有音区間のかたまりを第一音区間として抽出する。

第一音区間抽出部２２は、例えば、第一音区間を構成するフレームと、それらのフレームの外形値とに関する情報を、第一音区間外形値抽出部２３に送る。第一音区間を構成するフレームの外形値は、第一音区間抽出部２２が外形値決定部１９から受け取ったフレームの外形値の情報を用いる。
第一音区間外形値抽出部２３の除外部２３１は、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外する。除外する外形値の数は、第一音区間を構成するフレームの数が多いほど多くするとよい。例えば、第一音区間を構成するフレームの数に予め設定した割合Ａ_９（例えば１０〜３０％、今回は２０％）をかけて、小数点以下を切り捨て・四捨五入・切り上げた数の外形値を除外する。予め定めた数Ａ_１０の外形値を除外することにしてもよい。除外されずに残った外形値は、最大値決定部２３２に送られる。

最大値決定部２３２は、除外されずに残った外形値の最大値を求め、その最大値を第一音区間の外形値として保存する。第一音区間の外形値は、第一利得決定部２４に送られる。
第一利得決定部２４は、第一音区間の外形値が予め定められた範囲に入るように、入力された音を調整するための情報（以下、第一音量調整情報とする。）を決定して、音量調整部１２に送る。例えば、第一利得決定部２４に入力のピークが入力される。第一利得決定部２４は、入力のピークに予め定められた割合Ａ_１１（例えば、１０％〜２５％）をかけた範囲に、第一音区間の外形値が入るように、利得を決定する。この場合、利得が第一音量調整情報となる。

なお、第一音量調整情報が決定された場合には、第一音量調整指示部２５は、バッファ１５の遅延分の時間に相当するフレームについて、上記の処理を行わない。
図３Ｃを参照して、具体例を説明する。除外部２３１は、第一音区間を構成するフレームの外形値のうち、外形値が大きい予め定められた数（この例では、７つ）の外形値を除外する。図３Ｃの白で示した外形値が除外された外形値である。最大値決定部２３２は、第一音区間の外形値として、除外されずに残った外形値のうち最も大きい外形値を選択する。除外されずに残った外形値が図３Ｃの黒と射線で示した外形値であり、その最大値である第一音区間の外形値は射線で示した外形値である。

第一音区間の外形値が入るべき予め定められた範囲を３０００〜８０００とすると、この例では、第一音区間の外形値はその範囲に入っていない。第一利得決定部２４は、第一音区間の外形値とその範囲との差分を計算して、第一音区間の外形値がその範囲に入るように利得を決定する。第一音区間の外形値がその範囲に入っている場合には、処理を行わない。
別の具体例を説明する。第一音区間の外形値が入力のピークの５％であり、第一音区間の外形値が入るべき予め定められた範囲が入力のピークの１０％〜２５％であるとする。この場合、第一利得決定部２４は、第一音区間の外形値が入力のピークの１０％になるように、利得を決定する。このように、音量調整後の第一音区間の外形値が、予め定められた範囲の上限値又は下限値のうち、音量調整前の第一音区間の外形値と近い方の値と等しくなるように、利得を決定することにより、音量調整量が最も小さくすることができ、音の所定の特徴量の変化を最も小さくすることができる。

また、このように、第一音区間の外形値が入るべき予め定められた範囲を設けて、この範囲に第一音区間の外形値が入っている場合には上記の利得の計算を行わないようにすることにより、利得を変更する回数を少なくすることができる。これにより、音の波形が歪む回数を少なくすることができるため、音の所定の特徴量の変化を小さくすることができる。
この方法では、「はい」、「あ」、「えー」等の音量が不安定な短い音区間ではなく、「お電話ありがとうございます。」、「ちょっと聞きたいことがあるのですが」等のある程度の長さを持ち音量が安定した音区間を音量調整の基準としている。また、第一音区間を構成する複数のフレームの外形値から、外形値が大きい複数の外形値を除外して、除外されずの残った外形値の最大値を第一音区間の外形値として、その第一音区間の外形値を用いて、利得を調整している。

これにより、咳やくしゃみ等の突発的な雑音の影響を受けにくくなり、かつ、対象とする音の振幅の分散の大小によっても音量調整後の音量が入力のピークが超えることがなくなる。
上記の例においては、第一音区間を構成するフレームの外形値のうち、大きい方から２０％の外形値を除外し、第一音区間の外形値が入るべき予め定められた範囲を入力ピークの１０％〜２０％としている。これは、実験を行った結果、突発的な雑音を除くと、入力のピークが第一音区間の外形値のおよそ４倍未満であったためである。

再度、図１を参照して説明をする。音量調整部１２の第一音量調整部１２１は、第一音量調整指示部２５が決定した第一音量調整情報（例えば利得）を用いて、入力された音の音量を調整して出力する。第一音量調整部１２１は、新たな第一音量調整情報が第一音量調整指示部２５から送られてくるまで、既に送られている第一音量調整情報に基づいて音量調整を行う。
このように、本発明では、従来技術の音量調整装置と比較して長い時間、同じ第一音量調整情報に基づいて音量を調整している。これにより、従来技術のように頻繁に音量を調整するための利得が変化する場合と比較して、音の所定の特徴量が失われづらくなる。

下記に述べる、第一音区間よりも短い音区間（第二音区間）を基準として、音量調整をする第二音量調整指示部２６、第二音量調整部１２２を有していてもよい。
図４を参照して、第二音量調整指示部２６の説明をする。減算部１７から出力された音信号は、第二音量調整指示部２６の過大入力サンプル数決定部２７に入力される。過大入力サンプル数決定部２７は、予め定められた値Ａ_１２（例えばサンプル値で表現することができる値の上限の９０％の値）よりも大きいサンプルの数（以下、過大入力サンプル数とする。）をフレームごとに決定する。決定されたフレームごとの過大入力サンプル数は、過大入力フレーム決定部２８と、記憶部２９とに送られる。

過大入力フレーム決定部２８は、過大入力サンプル数が予め定められた数Ａ_１３（１フレームのサンプル数の３０％の数）よりも大きいかどうかをフレームごとに決定する。以下、過大入力サンプル数が予め定められた数Ａ_１３よりも大きいフレームを、過大入力フレームとする。過大入力フレームについての情報（例えば、過大入力フレームであることを表すフラグ）は、記憶部２９に送られる。
第二音区間過大入力サンプル数決定部３０は、第一音区間を構成するフレームの数よりも少ない数Ａ_１４（例えば１０、時間長にして１秒）のフレームから構成される音区間を第二音区間として、その第二音区間を構成するフレームについての過大入力サンプル数の総数を計算して、その総数を第二利得決定部３２に送る。具体的には、第二音区間が過去１０フレームである場合には、記憶部２９から、過去１０フレームの過大入力サンプル数をそれぞれ読み出して、それらを加算することにより、過大入力サンプル数の総数を求める。

第二音区間過大入力フレーム数決定部３１は、第二音区間を構成するフレームの中の過大入力フレームの数を決定して、その数を第二利得決定部３２に送る。具体的には、第二音区間が過去１０フレームである場合には、記憶部２９から、過去１０フレームの過大入力フレームについての情報を読み込み、過大入力フレームの数を決定する。
第二利得決定部３２は、過大入力サンプル数の総数が予め定められた数Ａ_１５（例えば第二音区間を構成するサンプルの総数の２０％の数）よりも大きく、かつ、過大入力フレームの数が予め定められた値Ａ_１６（第二音区間が１０フレームである場合には、例えば３）よりも大きい場合には、入力された音の音量を所定の音量だけ下げるための情報（以下、第二音量調整情報とする。）を、音量調整部１２に送る。第二音量調整情報は、具体的な利得の値（例えば０．７、音量にして３ｄＢ）等であってもよいし、具体的な数値を伴わない単なる音量を下げる旨を指示する情報であってもよい。

音量調整部１２の第二音量調整部１２２は、第二音量調整情報に基づいて、入力された音の音量を下げる。利得を下げた場合には、第二音量調整指示部２６は、フレームに短時間音量調整フラグを立て、以降は、バッファ１５の遅延分の時間に相当するフレームについて処理を行わない。
これにより、突発的な雑音のうち、比較的短い継続時間長をもった雑音を回避して、利得を下げることにより、音量を下げることができる。
終始判定部１８によって発音の開始が検出された後は、上記のように、第一音量調整指示部２５、第二音量調整指示部２６の指示に従って音量が調節される。終始判定部１８が発音の終了を検出した場合には、発音が終了した旨の情報が、終了時音量調整部３３に送られる。

終了時音量調整部３３は、発音が終了した旨の情報を受け取ると、音量調整部１２に設定された発音の終了時の利得を読み込んで、終了時音量調整部３３の記憶部３３１に格納する。そして、終了時音量調整部３３は、直近の発音から予め定められた数Ａ_１７の過去の発音の終了時の利得を記憶部３３１からそれぞれ読み出して、それらの平均値を求め、その平均値を音量調整部１２に設定する。
音量調整部１２から現在の利得の値を得ることができない場合には、終了時音量調整部３３は、以下のようにして利得を音量調整部１２に設定する。音量調整部１２から現在の利得の値を得ることができない場合とは、例えば、音量調整部１２が３ｄＢ音量を上げる、３ｄＢ音量を下げるというような相対的な利得の指定手段しか持たず、装置の調整範囲を超えた場合や、調整できなかったことを通知する手段を持たない場合のことである。

１．第一音量調整指示部２５の指示によっては音量を調整するために利得を変更しなかった場合には、終了時音量調整部３３は何もしない。
２．第一音量調整指示部２５の指示により音量を下げるために利得を下げた場合には、終了時音量調整部３３は現在の利得から予め設定した値Ａ_１８だけを値を下げた利得を音量調整部１２に設定する。
３．第一音量調整指示部２５の指示により音量を上げるために利得を上げたときには、終了時音量調整部３３は、以下の処理を行う。

３−１．第二音量調整指示部２６の指示により音量を下げるために利得を下げた場合には、終了時音量調整部３３は何もしない。
３−２．「３−１．」以外の場合には、終了時音量調整部３３は現在の利得から予め設定した値Ａ_１９だけ値を上げた利得を音量調整部１２に設定する。
このような方法で、発音の終了時に音量を調整することで、次の発音開始時の音量を適切な値に近づけることができるとともに、話者、マイク位置、声量等の収音環境条件の変化に追随して音量を適切に調整することができる。

図９に例示するように、入力部１１から入力された音が、ＡＤ変換部１３と音量調整部１２とにそれぞれ入力され、ＡＤ変換部１３に入力された音から上記と同様に音量調整情報が決定され、その決定された音量調整情報に基づいて、音量調整部１２が音量の調整をしてもよい。
例えば、コールセンターで日ごとにオペレータが席を替わる等の場合には、一定時間同一の収音条件が続くが、日々収音条件が変わる。このような環境では、数通話の短い時間で、それぞれのオペレータの声量、マイク位置などの収音条件に合うように音量を調整することができ、また、オペレータが途中で交替した場合にも、追随して適切に音量を調整できる。

第二音量調整指示部２６及び第二音量調整部１２２はなくてもよい。また、終了時音量調整部３３がなくてもよい。
図５に、コールセンターで自動音量調整装置１を利用してオペレータとユーザとの会話を録音するシステムを示す。
電話機３４に接続したヘッドセット３５をオペレータが装着し、ユーザと会話をする。ヘッドセット３５と電話機３４との間に音量調整部１２を有する送受話器分岐アダプタ３６を接続して、オーディオ入力又はＵＳＢを使って、その音声をＰＣ３７に取り込む。ＰＣに取り込んだオペレータ、ユーザそれぞれの音声はエコーキャンセル部を通して、側音としてユーザ音声側に入っているオペレータ音声を抑圧する。図６に示すように送受話器分離アダプタにエコーキャンセル部３８が付いている場合には、このエコーキャンセル部の処理をバイパスする。

エコーキャンセル部３８から送られたそれぞれの音声をもとに終始判定部１８で、通話の始端を検出すると、送信側自動音量調整装置１ａは、オペレータ音声の音量を上記説明した自動音量調整装置１と同様に調整する。また、受信側自動音量調整装置１ｂは、ユーザ音声の音量を上記説明した自動音量調整装置１と同様に調整する。送信側自動音量調整装置１ａと受信側自動音量調整装置１ｂはそれぞれ、音量調整部１２と終始判定部１８とを有していないが、送受話器分岐アダプタ３６の音量調整部１２及びＰＣ３７の終始判定部１８が、送信側自動音量調整装置１ａと受信側自動音量調整装置１ｂの音量調整部１２及び終始判定部１８として機能する。それ以外の点では、自動音量調整装置１と同様である。

オペレータ音声はオペレータが同じ間は収音条件がほぼ同じなので数通話で適切な音量に調整することができる。しかし、ユーザ音声は、一通話ごとに電話機、伝送路等が異なる。このため、受信側自動音量調整装置１ｂは、終了時音量調整部３３による音調調整の指示を行わない。
終始判定部１８が通話の終了を検出すると、音量が調整された音声は録音部３９を通して、ＰＣ３７のディスク４０に格納される。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ
−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

本発明の一実施例である自動音量調整装置１の機能構成を例示する図。第一音量調整指示部２５の機能構成を例示する図。Ａは音信号の波形を例示する図。Ｂは第一音区間（発話区間）を例示する図。Ｃは第一音区間の外形値を例示する図。第二音量調整指示部２６の機能構成を例示する図。オペレータとユーザとの会話を録音するシステムを例示する図。オペレータとユーザとの会話を録音するシステムを例示する図。従来の自動音量調整を例示する図。従来の自動音量調整の問題点を説明するための図。自動音量調整装置１’の機能構成を例示する図。

符号の説明

１自動音量調整装置
１ａ送信側自動音量調整装置
１ｂ受信側自動音量調整装置
１１入力部
１２音量調整部
１３変換部
１４フレーム分割部
１５バッファ
１６直流バイアス計算部
１７減算部
１８終始判定部
１９外形値決定部
２０有音無音フレーム判定部
２１有音無音区間判定部
２２第一音区間抽出部
２３第一音区間外形値抽出部
２４第一利得決定部
２５第一音量調整指示部
２６第二音量調整指示部
２７過大入力サンプル数決定部
２８過大入力フレーム決定部
２９記憶部
３０第二音区間過大入力サンプル数決定部
３１第二音区間過大入力フレーム数決定部
３２第二利得決定部
３３終了時音量調整部
３４電話機
３５ヘッドセット
３６送受話器分岐アダプタ
３８エコーキャンセル部
３９録音部
４０ディスク
１２１第一音量調整部
１２２第二音量調整部
１８１平均値計算部
２３１除外部
２３２最大値決定部
３３１記憶部

Claims

入力された音を一定の時間長のフレームで分割するフレーム分割手段と、
フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、
予め定められた数Ｂ_１以上連続する無音フレームに挟まれ、予め定められた数Ｂ_２以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、
上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報（以下、第一音量調整情報とする。）を決定して、出力する第一音量調整指示手段と、
上記出力された第一音量調整情報を用いて上記入力された音の音量を調整する第一音量調整手段と、
を備え、
上記第一音区間は、０．５秒以上の無音区間に挟まれた２秒以上の有音区間である、
音量調整装置。
請求項１に記載された音量調整装置において、
上記フレームの外形値は、そのフレームに含まれるサンプルの値の絶対値の最大値である、
ことを特徴とする音量調整装置。
請求項１又は２に記載された音量調整装置において、
フレームの外形値が予め定められた閾値Ｂ_３より大であればそのフレームを有音フレームと判定し、そうでなければそのフレームを無音フレームと判定する有音無音フレーム判定手段と、
予め定められた数Ｂ_１以上連続する無音フレームから構成される音区間を無音区間と判定するとともに、それ以外の音区間を有音区間と判定する有音無音区間判定手段と、
上記判定された有音区間のうち、予め定められた時間長よりも長い有音区間を上記第一音区間とする第一音区間抽出手段と、
を備えることを特徴とする音量調整装置。
請求項１から３の何れかに記載された音量調整装置において、
サンプルの値の絶対値が予め定められた閾値Ｂ_４より大であるサンプルの数（以下、過大入力サンプル数とする。）をフレームごとに決定する過大入力サンプル数決定手段と、
上記過大入力サンプル数が予め定められた数Ｂ_５より大であるかどうかをフレームごとに決定する過大入力フレーム決定手段と（以下、過大入力サンプル数が予め定められた数Ｂ_６より大であるフレームを過大入力フレームとする。）、
上記第一音区間を構成するフレームの数よりも少ない数のフレームから構成される音区間を第二音区間として、その第二音区間を構成するフレームについての上記決定された過大入力サンプル数の総数が予め定められた数Ｂ_７より大であり、かつ、その第二音区間を構成するフレームの中の過大入力フレームの数が予め定められた数Ｂ_８より大である場合に、上記入力された音の音量を所定の音量だけ下げるための情報（以下、第二音量調整情報とする。）を出力する第二音量調整指示手段と、
上記出力された第二音量調整情報を用いて上記入力された音の音量を下げる第二音量調整手段と、
を備えることを特徴とする音量調整装置。
請求項１から４の何れかに記載された音量調整装置において、
入力された音の振幅の絶対値の平均値をフレームごとに求める平均値計算手段と、
予め定められた閾値Ｂ_９よりも大きい平均値を有するフレームを検出した場合に発音が開始したと判定し、予め定められた閾値Ｂ_１０より小さい平均値を有するフレームが予め定められた数Ｂ_１１だけ連続して続いた場合に発音が終了したと判定する終始判定手段と、
発音が終了したと判定されたときに、発音終了時の第一音量調整情報及び／又は第二音量調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数Ｂ_１２の過去の発音の終了時の第一音量調整情報及び／又は第二音量調整情報をその記憶手段から読み出して、それらの平均値を求め、第一音量調整手段及び／又は第二音量調整手段に設定する終了時音量調整手段と、
を備えることを特徴とする音量調整装置。
入力された音を一定の時間長のフレームで分割するフレーム分割ステップと、
フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定ステップと、
予め定められた数Ｂ_１以上連続する無音フレームに挟まれ、予め定められた数Ｂ_２以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定ステップと、
上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報（以下、第一音量調整情報とする。）を決定して、出力する第一音量調整指示ステップと、
上記出力された第一音量調整情報を用いて上記入力された音の音量を調整する第一音量調整ステップと、
を備え、
上記第一音区間は、０．５秒以上の無音区間に挟まれた２秒以上の有音区間である、
音量調整方法。
請求項１から５の何れかに記載の音量調整装置の各手段としてコンピュータを機能させるための音量調整プログラム。
請求項１に記載された音量調整装置において、
上記第一音量調整手段は、新たな第一音量調整情報が出力されるまでは、既に出力されている第一音量調整情報を用いて上記入力された音の音量を調整する、
ことを特徴とする音量調整装置。
入力された送信側の音を一定の時間長のフレームで分割するフレーム分割手段と、フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、予め定められた数Ｂ _１以上連続する無音フレームに挟まれ、予め定められた数Ｂ _２以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報（以下、第一音量調整情報とする。）を決定して、出力する第一音量調整指示手段と、を備えた送信側音量調整装置と、
入力された受信側の音を一定の時間長のフレームで分割するフレーム分割手段と、フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、予め定められた数Ｂ _１以上連続する無音フレームに挟まれ、予め定められた数Ｂ _２以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報（以下、第一音量調整情報とする。）を決定して、出力する第一音量調整指示手段と、を備えた受信側音量調整装置と、
上記送信側音量調整装置から出力された第一音量調整情報を用いて上記入力された送信側の音の音量を調整し、上記受信側音量調整装置から出力された第一音量調整情報を用いて上記入力された受信側の音の音量を調整する第一音量調整手段と、
入力された送信側及び受信側の音の振幅の絶対値の平均値をフレームごとに求める平均値計算手段と、
予め定められた閾値Ｂ _９よりも大きい平均値を有するフレームを検出した場合に発音が開始したと判定し、予め定められた閾値Ｂ _１０より小さい平均値を有するフレームが予め定められた数Ｂ _１１だけ連続して続いた場合に発音が終了したと判定する終始判定手段と、
発音が終了したと判定されたときに、発音終了時の上記送信側音量調整装置の第一音量調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数Ｂ _１２の過去の発音の終了時の上記送信側音量調整装置の第一音量調整情報をその記憶手段から読み出して、それらの平均値を求め、上記送信側音量調整装置の上記第一音量調整手段に設定する終了時音量調整手段と、
を含み、
上記第一音区間は、０．５秒以上の無音区間に挟まれた２秒以上の有音区間である、
音量調整装置。