JP5076974B2

JP5076974B2 - 音処理装置およびプログラム

Info

Publication number: JP5076974B2
Application number: JP2008052103A
Authority: JP
Inventors: 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-03-03
Filing date: 2008-03-03
Publication date: 2012-11-21
Anticipated expiration: 2028-03-03
Also published as: JP2009210712A

Description

本発明は、収音機器による収録音などの音響（以下「入力音」という）のうち非音声の区間の音量を低下させる技術に関する。

入力音を音声の区間と非音声（例えば雑音）の区間とに識別するとともに非音声の区間を消音する技術においては、音声および非音声の識別に必要な時間だけ出力音が入力音に対して遅延する。出力音を入力音に対して遅延させない場合、入力音のうち音声の区間の先頭から識別に必要な時間長が経過するまでの区間が消音されるという問題がある。特許文献１には、識別に必要な時間長を上回る遅延量だけ遅延させた入力音と遅延前の入力音との混合比を有音および無音の識別の結果に応じて可変に制御することで、音声の区間における先頭の部分の欠落を防止する技術が開示されている。
特開平１１−２０５４６０号公報

しかし、特許文献１の技術においては遅延の前後の入力音が加算されるから、出力音のうち音声の区間の先頭の部分（すなわち遅延の前後の入力音を加算した部分）が聴感上において不自然となる。以上の事情に鑑みて、本発明は、入力音の音声について聴感上の違和感を抑制しながら非音声の音量を低下させることをひとつの目的とする。

以上の課題を解決するために、本発明の音処理装置は、音響信号の各単位区間を音声と音声以外の音響である非音声とに順次に識別する音声識別手段と、単位区間が非音声に識別されると音響信号を、単位区間の時間長を上回る遅延量だけ遅延させ、単位区間が音声に識別されると当該単位区間のうちＳＮ比または音量が低い低音量区間を短縮する遅延制御手段と、音響信号のうち非音声に識別された単位区間の音量を、音声に識別された単位区間の音量に対して低下させる音量制御手段とを具備する。

以上の構成においては、非音声の音量を低下させるときに音響信号が所定の遅延量だけ遅延するから、非音声の音量を低下させることで音声を明瞭化しながら、音声の先頭の部分の欠落を防止して自然な音声を生成することが可能である。また、遅延の前後の音響信号を加算する特許文献１の処理は不要であるから、聴感上の違和感が少ない再生音を生成することができる。さらに、遅延制御手段が音声の単位区間における低音量区間を短縮するから、音響信号を恒常的に所定の遅延量だけ遅延させる構成と比較して再生音の違和感が低減される。

なお、「非音声の単位区間の音量を音声の単位区間の音量に対して低下させる」とは、音声の単位区間を非音声の単位区間に対して強調する処理を意味し、例えば、非音声の単位区間の音量を低下させる（例えば消音する）処理のほかに音声の単位区間の音量を上昇させる処理も包含する概念である。

本発明の好適な態様においては、相連続する所定個（例えば図１０のＮ2個）の単位区間を音声識別手段が非音声に識別した場合に、遅延制御手段は音響信号を所定の遅延量だけ遅延させ、音量制御手段は音響信号の音量の低下を開始する。以上の態様においては、ひとつの単位区間が非音声に識別されただけでは遅延量の初期化や音量の低下は実行されないから、音声識別手段が音声の単位区間を非音声と誤判定した場合であっても、再生音における音声の欠落が防止されるという利点がある。

本発明の好適な態様において、音声識別手段は、音響信号の各単位区間を音声と非音声とに順次に識別する第１識別手段と、各単位区間のうちＳＮ比が閾値を下回る単位区間を特定する第２識別手段とを含み、音量制御手段は、第１識別手段が非音声に識別した単位区間または第２識別手段が特定した単位区間が所定個にわたって連続する場合に、当該所定個のうちの最後の単位区間以後の音響信号の音量を低下させる。以上の態様においては、非音声に識別された単位区間またはＳＮ比が閾値を下回る単位区間が所定個にわたって連続する場合に最後の単位区間以後の音響信号の音量が低減されるから、雑音の発生などを原因とするＳＮ比の低下に起因して音声の単位区間が非音声に誤判定された場合であっても、再生音における音声の欠落が有効に防止される。

本発明の好適な態様において、音声識別手段は、音響信号の各単位区間を音声と非音声とに順次に識別する第１識別手段と、音響信号のＳＮ比または音量が第１閾値を下回る単位区間に対して第１識別値（例えば図７の識別値ＣLOWSN）を設定し、音響信号のＳＮ比または音量が第１閾値を上回るとともに音声に識別された単位区間に対して第２識別値（例えば図７の識別値ＣVOICE）を設定し、第１閾値よりも大きい第２閾値を音響信号のＳＮ比または音量が下回るとともに非音声に識別された単位区間に対して第３識別値（例えば図７の識別値ＣNOTVOICE_LOWSN）を設定し、音響信号のＳＮ比または音量が第２閾値を上回るとともに非音声に識別された単位区間に対して第４識別値（例えば図７の識別値ＣNOTVOICE）を設定し、第２識別値以外の識別値の単位区間が所定個（例えば図７のＮ1個）にわたって連続する場合に当該所定個のうちの最後の単位区間の識別値を第４識別値に更新する第２識別手段とを含み、音量制御手段は、第４識別値の単位区間が所定個（例えば図１０のＮ2個）にわたって連続する場合に、当該所定個のうちの最後の単位区間以後の音響信号の音量を低下させる。以上の態様によれば、第４識別値の単位区間が所定個にわたって連続する場合に最後の単位区間以後の音響信号の音量が低減されるから、雑音の発生などを原因とするＳＮ比の低下に起因して音声の単位区間が非音声に誤判定された場合であっても、再生音における音声の欠落が防止される。また、ＳＮ比が第１閾値を上回る単位区間が音声に識別された場合にはＳＮ比と第２閾値との大小に拘わらず当該単位区間は音声と認定されるから、音声の単位区間の欠落を有効に防止することが可能である。

本発明の好適な態様において、遅延制御手段は、低音量区間の一部の区間を削除することで当該低音量区間を短縮する。以上の態様においては、低音量区間の一部の区間のみが削除されるから、例えばＳＮ比が低下する促音の区間が完全に削除されることが回避される。したがって、自然な音声を生成することが可能である。また、前記低音量区間のうち終点を含む一部の区間（例えば図１１の区間Ｐ0）を除いた区間を削除することで当該低音量区間を短縮する構成によれば、低音量区間の直後の音声（例えば「なって」という音声のうち「て」の区間）における先頭の部分の欠落が有効に防止される。

以上の総ての態様に係る音処理装置は、入力音の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音響信号の各単位区間を音声と非音声とに順次に識別する音声識別処理と、単位区間が非音声に識別されると音響信号を所定の遅延量だけ遅延させ、単位区間が音声に識別されると当該単位区間のうちＳＮ比または音量が低い低音量区間を短縮する遅延制御処理と、音響信号のうち非音声に識別された単位区間の音量を、音声に識別された単位区間の音量に対して低下させる音量抑制処理とをコンピュータに実行させる。本発明のプログラムによれば、以上の各態様に係る音処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

図１は、本発明の実施の形態に係る遠隔会議システムのブロック図である。遠隔会議システム１００は、地理的に離間した空間Ｒ1と空間Ｒ2との間で複数の利用者Ｕ（会議の参加者）が相互に音声を授受するシステムである。各空間Ｒ（Ｒ1，Ｒ2）には、収音機器１２と音処理装置１４と音処理装置１６と放音機器１８とが設置される。

収音機器１２は、空間Ｒ内に存在する入力音ＶINの波形を表す音響信号ＳINを生成する装置（マイクロホン）である。空間Ｒ1および空間Ｒ2の各々の音処理装置１４は、音響信号ＳINから出力信号ＳOUTを生成して空間Ｒ1および空間Ｒ2の他方の音処理装置１６に送信する。

出力信号ＳOUTは、音響信号ＳINのうちの音声の区間を非音声の区間に対して強調した信号である。本形態においては、音響信号ＳINの非音声の区間を消音することで出力信号ＳOUTが生成される。音声は、人間の発声音（有声音および無声音）である。非音声は、音声以外の音響である。空調設備の動作音や携帯電話機の着信音や扉の開閉音などの各種の雑音（環境音）が非音声に該当する。

音処理装置１６は、出力信号ＳOUTを増幅して放音機器１８に出力する。放音機器１８は、音処理装置１６から供給される増幅後の出力信号ＳOUTに応じた音波を放射する装置（スピーカ）である。以上の構成により、空間Ｒ1内の各利用者Ｕの発声音が空間Ｒ2内の放音機器１８から出力され、空間Ｒ2内の各利用者Ｕの発声音が空間Ｒ1内の放音機器１８から出力される。なお、収音機器１２が生成する音響信号ＳINをデジタルに変換するＡ/Ｄ変換器や、音処理装置１６が出力する出力信号ＳOUTをアナログに変換するＤ/Ａ変換器の図示は図２において便宜的に省略した。

図２は、空間Ｒ1および空間Ｒ2の各々に設置される音処理装置１４のブロック図である。図２に示すように、音処理装置１４は、制御装置２２と記憶装置２４とを具備する。記憶装置２４は、制御装置２２が実行するプログラムや制御装置２２が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置２４として任意に利用される。

制御装置２２は、プログラムを実行することで図２の各要素（ＳＮ比算定部３０，音声識別部４０，制御部５０）として機能する演算処理装置である。さらに詳述すると、制御装置２２は、収音機器１２から供給される音響信号ＳIN（入力音ＶIN）を図３のように所定の時間長（例えば５００ミリ秒）毎に区分した各単位区間Ｔを音声と非音声とに識別する機能と、非音声の単位区間Ｔを消音することで出力信号ＳOUTを生成する機能とを実現する。なお、図２の各要素はＤＳＰなどの電子回路によっても実現される。

図２のＳＮ比算定部３０は、音響信号ＳINを時間軸に沿って区分した複数のフレームの各々についてＳＮ比Ｒを算定する。図３に示すように、フレームＦは単位区間Ｔと比較して充分に短い時間長に設定される。したがって、ひとつの単位区間Ｔは複数のフレームＦで構成される。なお、図３においては相前後する各単位区間Ｔや相前後する各フレームＦが時間軸上で重複しない構成を便宜的に例示するが、各単位区間Ｔが部分的に重複する構成や各フレームＦが部分的に重複する構成も採用される。

図２に示すように、ＳＮ比算定部３０は、強度特定部３２と雑音推定部３４と演算部３６とで構成される。強度特定部３２は、音響信号ＳINの各フレームＦについて順次に強度（エネルギ）を算定する。さらに詳述すると、強度特定部３２は、ひとつのフレームＦの音響信号ＳINをＭ個（Ｍは２以上の自然数）の周波数帯域に区分したときの各成分の強度Ｅ[1]〜Ｅ[M]を算定する。したがって、通過帯域が相違する複数のバンドパスフィルタ（すなわちフィルタバンク）が強度特定部３２として好適に採用される。

利用者Ｕは、発声に先立って音処理装置１４の操作子（図示略）を操作することで音処理の開始の指示（以下「開始指示」という）を制御装置２２に付与する。強度特定部３２は、開始指示の付与前（例えば音処理装置１４の電源が投入された直後）から継続的に音響信号ＳINの各フレームＦについて強度Ｅ[1]〜Ｅ[M]を特定する。強度特定部３２が算定した強度Ｅ[1]〜Ｅ[M]のうち最新のＫ組が記憶装置２４に格納される。

雑音推定部３４は、音響信号ＳINにおける雑音の強度（ＥN[1]〜ＥN[M]）を算定する。本形態においては開始指示の付与前（すなわち利用者Ｕの発声前）の所定長の入力音ＶINが雑音と推定される。すなわち、雑音推定部３４は、開始指示が付与された時点で記憶装置２４が記憶している最新のＫ組の強度Ｅ[1]〜Ｅ[M]（すなわち開始指示の直前のＫ個のフレームＦの強度Ｅ[1]〜Ｅ[M]）から雑音の強度ＥN[1]〜ＥN[M]を算定する。強度ＥN[i]（ｉ＝１〜Ｍ）は、開始指示の直前のＫ個のフレームＦについて強度特定部３２が特定した強度Ｅ[i]の平均値である。なお、雑音の強度ＥN[1]〜ＥN[M]の推定の方法は任意である。例えば、音処理装置１４の電源の投入の直後（すなわち利用者Ｕの発声前）における所定個のフレームＦの強度Ｅ[i]の平均値を雑音の強度ＥN[i]とする構成も採用される。

演算部３６は、音響信号ＳINのＳＮ比ＲをフレームＦ毎に算定する。ＳＮ比Ｒは、開始指示の付与後に強度特定部３２が各フレームＦについて特定する強度Ｅ[1]〜Ｅ[M]と雑音推定部３４が事前に算定した雑音の強度ＥN[1]〜ＥN[M]との相対比である。演算部３６によるＳＮ比Ｒの算定には例えば以下の演算式(1)が使用される。

音声識別部４０は、音響信号ＳINの各単位区間Ｔを音声と非音声とに順次に識別する。本形態の音声識別部４０は第１識別部４２と第２識別部４４とで構成される。第１識別部４２は、音響信号ＳINの各単位区間Ｔを音声と非音声とに識別する。第２識別部４４は、第１識別部４２が非音声と誤判定した音声の単位区間Ｔが消音される可能性が低減されるように第１識別部４２による識別の結果を補正する。第１識別部４２および第２識別部４４による処理の具体例を以下に詳述する。

第１識別部４２は、音響信号ＳIN（入力音ＶIN）の各単位区間Ｔの変調スペクトルを利用して当該単位区間Ｔを音声と非音声とに識別する。変調スペクトルは、音響信号ＳINの対数スペクトル（周波数スペクトル）のうち特定の周波数帯域に属する成分の時間的な変動（以下「時間軌跡」という）についてフーリエ変換を実行した結果である。

図４は、第１識別部４２の具体的な機能を示すブロック図である。図４に示すように、第１識別部４２は、変調スペクトル特定部４２２と指標算定部４２４と音声判定部４２６とで構成される。変調スペクトル特定部４２２は、音響信号ＳINの変調スペクトルＭSを単位区間Ｔ毎に特定する。図５は、変調スペクトル特定部４２２の動作を説明するための概念図である。変調スペクトル特定部４２２は、第１に、フーリエ変換を含む周波数分析を音響信号ＳINに対して実行することで、図５の部分(A)に示すように、音響信号ＳINの各フレームＦについて対数スペクトルＳ0を算定する。

第２に、変調スペクトル特定部４２２は、図５の部分(A)および部分(B)に示すように、対数スペクトルＳ0のうち特定の周波数帯域ωに属する成分（またはひとつの周波数の成分）の強度の時間軌跡ＳTを抽出する。周波数帯域ωは、入力音ＶINが音声である場合の時間軌跡ＳTの周波数特性（変調スペクトルＭS）と入力音ＶINが非音声である場合の時間軌跡ＳTの周波数特性とが顕著に相違するように実験的または統計的に選定される。例えば、周波数帯域ωは、１０Ｈz（さらに好適には５０Ｈz）から８００Ｈzまでの範囲に選定される。第３に、変調スペクトル特定部４２２は、時間軌跡ＳTに対してフーリエ変換を実行することで、図５の部分(C)に示すように、時間軌跡ＳTを区分した複数の単位区間Ｔの各々について変調スペクトルＭSを算定する。

図６の部分(A)は音声の代表的な変調スペクトルＭSを示し、図６の部分(B)は非音声（収音機器１２の先端部を覆う網状の部分を引掻いたときのガリガリ音）の変調スペクトルＭSを示す。図６の部分(A)と部分(B)との対比から理解されるように、変調スペクトルＭSのうち強度が高い変調周波数の範囲は音声と非音声とで相違するという傾向がある。さらに詳述すると、音声の変調スペクトルＭS（図６の部分(A)）においては変調周波数が１０Ｈz以下の低域の範囲で強度が高くなるのに対し、多くの非音声の変調スペクトルＭS（図６の部分(B)）においては変調周波数が１０Ｈzを上回る範囲で強度が高くなる。以上の相違を考慮して、本形態の第１識別部４２は、変調スペクトルＭSのうち変調周波数が所定の範囲（以下「判定対象範囲」という）Ａに属する成分の強度に応じて入力音ＶINが音声か非音声かを判定する。例えば、１０Ｈz以下の範囲（さらに好適には２Ｈzから８Ｈzの範囲）が判定対象範囲Ａとして適切である。

図４の指標算定部４２４は、各単位区間Ｔの変調スペクトルＭSのうち判定対象範囲Ａ内の成分の強度に応じた指標値Ｘを単位区間Ｔ毎に算定する。本形態の指標値Ｘは、変調スペクトルＭSのうち判定対象範囲Ａ内の成分の強度（例えば判定対象範囲Ａ内の各変調周波数における強度の加算値や平均値）Ｌ1と、変調周波数の全範囲にわたる変調スペクトルＭSの強度（総ての変調周波数における強度の加算値や平均値）Ｌ2との相対比である（Ｘ＝Ｌ1／Ｌ2）。したがって、判定対象範囲Ａ内の成分の強度Ｌ1が高いほど（すなわち入力音ＶINが音声である可能性が高いほど）指標値Ｘは大きい数値となる。

音声判定部４２６は、指標算定部４２４が各単位区間Ｔについて算定した指標値Ｘに基づいて当該単位区間Ｔを音声と非音声とに識別する。さらに詳述すると、音声判定部４２６は、指標値Ｘが所定の閾値ＸTHを上回る単位区間Ｔを音声と判定するとともに、指標値Ｘが閾値ＸTHを下回る単位区間Ｔを非音声と判定する。閾値ＸTHは、音声の指標値Ｘを下回るとともに非音声の指標値Ｘを上回るように実験的または統計的に選定される。

次に、図７は、第２識別部４４の具体的な動作を示すフローチャートである。図７の処理は、第１識別部４２が識別した単位区間Ｔ毎に順次に実行される。図７の処理を開始すると、第２識別部４４は、第１識別部４２による識別後の単位区間Ｔ（以下では特に「対象単位区間Ｔ」という）について平均ＳＮ比Ｒaveを算定する（ステップＳA1）。平均ＳＮ比Ｒaveは、ＳＮ比算定部３０が対象単位区間Ｔ内の各フレームＦについて算定したＳＮ比Ｒの平均値である。

単位区間Ｔの平均ＳＮ比Ｒaveが低い場合（例えば雑音の強度が高い場合や入力音ＶINのうち無声音の割合が多い場合）には第１識別部４２による識別の正確性が低下する。したがって、音声の単位区間Ｔを第１識別部４２が非音声と誤判定する可能性がある。非音声と誤判定された音声の単位区間Ｔが消音されることを回避するために、第２識別部４４は、図７のステップＳA2からステップＳA8において、第１識別部４２による識別の結果（音声／非音声）を細分化する。さらに詳述すると、第２識別部４４は、対象単位区間ＴについてステップＳA1で算定した平均ＳＮ比Ｒaveと第１識別部４２による対象単位区間Ｔの識別の結果とに基づいて、当該対象単位区間Ｔに４種類の識別値の何れかを設定する（すなわち対象単位区間Ｔを４種類の何れかに分類する）。

ステップＳA2において、第２識別部４４は、平均ＳＮ比Ｒaveが所定の閾値Ｓ1を下回るか否かを判定する。音声/非音声の識別について所期の正確性を確保できない程度に低い平均ＳＮ比Ｒaveが閾値Ｓ1を下回るように閾値Ｓ1は実験的または統計的に設定される。ステップＳA2の結果が肯定である場合、第２識別部４４は、識別値ＣLOWSNを対象単位区間Ｔについて設定する（ステップＳA3）。すなわち、識別値ＣLOWSNは、第１識別部４２による識別の結果の正確性を充分に確保できないほど平均ＳＮ比Ｒaveが低い単位区間Ｔであることを意味する

ステップＳA2の結果が否定である場合、第２識別部４４は、第１識別部４２が対象単位区間Ｔを音声に識別したか否かを判定する（ステップＳA4）。ステップＳA4の結果が肯定である場合、第２識別部４４は、識別値ＣVOICEを対象単位区間Ｔについて設定する（ステップＳA5）。すなわち、第１識別部４２が音声に識別した単位区間Ｔの平均ＳＮ比Ｒaveが閾値Ｓ1を上回る場合には当該識別の結果が確定する。なお、平均ＳＮ比Ｒaveが閾値Ｓ1を上回る場合であっても非音声の単位区間Ｔが音声と誤判定される可能性はある。しかし、仮に非音声が音声と誤判定されて消音の対象から除外されたとしても、利用者Ｕが放音機器１８からの再生音を僅かに受聴し難いという程度に過ぎず、音声が非音声と誤判定されて消音される場合ほどの問題はない。以上の事情を考慮して、単位区間Ｔの平均ＳＮ比Ｒaveが閾値Ｓ1を上回る場合には、第１識別部４２が音声に識別した結果を確定する。

ステップＳA4の結果が否定である場合（第１識別部４２が対象単位区間Ｔを非音声に識別した場合）、第２識別部４４は、対象単位区間Ｔの平均ＳＮ比Ｒaveが閾値Ｓ2を下回るか否かを判定する（ステップＳA6）。閾値Ｓ2は、第１識別部４２が非音声に識別した結果の信頼性が充分に確保される平均ＳＮ比Ｒaveを上回るように実験的または統計的に選定される。したがって、閾値Ｓ2は、ステップＳA2で使用される閾値Ｓ1よりも大きい数値である。ステップＳA6の結果が否定である場合（非音声との識別の結果の正確性が高い場合）、第２識別部４４は、対象単位区間Ｔについて識別値ＣNOTVOICEを設定する（ステップＳA7）。すなわち、第１識別部４２が非音声に識別した単位区間Ｔの平均ＳＮ比Ｒaveが閾値Ｓ2を上回る場合には当該識別の結果（非音声）が確定する。

一方、ステップＳA6の結果が肯定である場合、第２識別部４４は、対象単位区間Ｔについて識別値ＣNOTVOICE_LOWSNを設定する。平均ＳＮ比Ｒaveが閾値Ｓ1を下回る場合ほどに第１識別部４２による識別の正確性は低くない場合であっても、平均ＳＮ比Ｒaveが閾値Ｓ2を下回るときには、音声の単位区間Ｔが非音声と誤判定されている可能性も依然として完全には否定できない。そこで、平均ＳＮ比Ｒaveが閾値Ｓ2を下回る場合には、ひとつの単位区間Ｔが非音声に識別されただけでは当該識別の結果を確定しない。

以上の処理（ＳA3，ＳA5，ＳA7，ＳA8）で識別値を設定すると、第２識別部４４は、識別値ＣVOICE以外の識別値（ＣLOWSN，ＣNOTVOICE，ＣNOTVOICE_LOWSN）を設定した単位区間Ｔの連続する個数が今回の対象単位区間ＴでＮ1回（Ｎ1は自然数）に到達したか否かを判定する（ステップＳA9）。ステップＳA9の結果が肯定である場合、第２識別部４４は、対象単位区間Ｔの識別値（具体的には識別値ＣLOWSNまたは識別値ＣNOTVOICE_LOWSN）を識別値ＣNOTVOICEに変更する（ステップＳA10）。一方、ステップＳA9の結果が否定である場合、第２識別部４４はステップＳA10の処理を実行せずに図７の処理を終了する。

以上のように、平均ＳＮ比Ｒaveが低い場合には、ひとつの対象単位区間Ｔが非音声に識別されただけでは当該識別の結果は確定しない。すなわち、識別値ＣVOICE以外の単位区間ＴがＮ1回にわたって連続した場合に初めて、対象単位区間Ｔは確定的に非音声（識別値ＣNOTVOICE）に識別される。以上の構成によれば、非音声と誤判定された音声の単位区間Ｔが出力信号ＳOUTにて消音される可能性が低減される。したがって、空間Ｒ1と空間Ｒ2との間における入力音ＶINの伝達の確実性が確保されるという利点がある。以上が音声識別部４０の具体的な機能である。

図２の記憶装置２４は、収音機器１２が生成した音響信号ＳINの各サンプルの時系列を順次に記憶するバッファ回路として機能する。制御部５０は、記憶装置２４に格納された音響信号ＳINの遅延量および音量を音声識別部４０による識別の結果に応じて制御することで出力信号ＳOUTを生成する。本形態の制御部５０は遅延制御部５２と音量制御部５４とで構成される。

遅延制御部５２は、音響信号ＳINに対する出力信号ＳOUTの遅延量（位相）を制御する。さらに詳述すると、遅延制御部５２は、音響信号ＳINに対する出力信号ＳOUTの遅延量を可変に制御しながら音響信号ＳINの各サンプルの時系列を記憶装置２４から順次に取得して出力する。音量制御部５４は、遅延制御部５２による処理後の音響信号ＳINのうち音声識別部４０が非音声に識別した単位区間Ｔの入力音ＶINを消音する。

図８は、制御部５０の動作の具体例を説明するための概念図である。図８には、収音機器１２が生成した音響信号ＳINと制御部５０（音量制御部５４）から出力される出力信号ＳOUTとが時間軸を共通にして図示されている。図８の音響信号ＳINは、非音声（プッシュトーン）の区間ＰNVと音声の区間ＰVとを時系列に配列した入力音ＶINの波形を表す。

遅延制御部５２が音響信号ＳINの各サンプルを記憶装置２４から取得して出力する周期は単位区間Ｔの時間長（すなわち音声識別部４０が音声/非音声を識別する周期）と比較して充分に短い。すなわち、遅延制御部５２による音響信号ＳINの出力と音声識別部４０による識別とは非同期に実行される。したがって、例えば図８の例示のように音響信号ＳINが時点ｔb1にて音声から非音声に変化する場合であっても、出力信号ＳOUTにおける消音は、時点ｔb1の直後から開始されるのではなく、時点ｔb1を含む単位区間Ｔを音声識別部４０が非音声に識別し終えた時点ｔb2から開始される。以上のように音声識別部４０による識別の結果が出力信号ＳOUTに反映される時点は単位区間Ｔの時間長だけ遅延するから、例えば音響信号ＳINを遅延なく出力信号ＳOUTとして出力する構成においては、音響信号ＳINが非音声から音声に変化した場合に当該音声の先頭の部分が出力信号ＳOUTにおいて消音されるという問題がある。

以上に説明した音声の欠落を防止するために、音響信号ＳINの各単位区間Ｔが非音声と判定される期間内において、遅延制御部５２は、音響信号ＳINに対する出力信号ＳOUTの遅延量Ｄが初期値Ｄ0となるように音響信号ＳINの各サンプルを遅延させたうえで順次に出力する。初期値Ｄ0は、単位区間Ｔを上回る時間長に設定される。したがって、図８のように音響信号ＳINが時点ｔa1にて非音声から音声に変化した場合を想定すると、出力信号ＳOUTにおいては、時点ｔa1から遅延量（Ｄ0＋ＨL）だけ遅延した時点ｔa2にて音声が開始する。遅延量ＨLは、音処理装置１４において不可避的に発生する遅延（ハードウェアレイテンシ）である。

一方、以上のように出力信号ＳOUTが音響信号ＳINに対して遅延した状態では例えば空間Ｒ1での入力音ＶINが遅延して空間Ｒ2内で放音されるから、空間Ｒ1と空間Ｒ2との利用者Ｕの間における音声の授受に支障が発生する。例えば、空間Ｒ1内の利用者Ｕが発声してから空間Ｒ2内の利用者Ｕによる応答の音声が空間Ｒ1内で再生されるまでに時間が掛かるから、円滑な音声の授受が阻害されるという問題がある。

以上に説明した音響信号ＳINに対する出力信号ＳOUTの遅延を抑制するために、遅延制御部５２は、音響信号ＳINにおいて音声に識別された単位区間ＴのうちＳＮ比Ｒが低いフレームＦで構成される区間（以下「低音量区間」という）を短縮したうえで出力信号ＳOUTを生成する。すなわち、図９に例示するように、音響信号ＳINにて音声に識別された各単位区間ＴのうちＳＮ比Ｒが低い低音量区間ＰLOWは出力信号ＳOUTにおいて短縮される。低音量区間ＰLOWの短縮は、例えば、記憶装置２４に格納された音響信号ＳINの各サンプルの読出し位置を後方（時間が経過する方向）に移動させることで実現される。

以上のように音響信号ＳINのうち音声の単位区間Ｔ内の各低音量区間ＰLOWは出力信号ＳOUTにおいて短縮されるから、図８に示すように、音響信号ＳINに対する出力信号ＳOUTの遅延量は経時的に減少する。図８においては、遅延量Ｄが時点ｔcにてゼロとなった状態（すなわち出力信号ＳOUTが音響信号ＳINに対して遅延量ＨLだけ遅延した状態）が例示されている。遅延量Ｄがゼロに到達した状態では、記憶装置２４に対する音響信号ＳINのサンプルの書込の直後に当該サンプルが出力信号ＳOUTとして出力される。

図１０は、制御部５０（遅延制御部５２および音量制御部５４）の具体的な動作を示すフローチャートである。図１０の処理は、音声識別部４０がひとつの単位区間Ｔを識別するたびに実行される。図１０の処理を開始すると、制御部５０は、音声識別部４０が新たに識別した単位区間Ｔ（対象単位区間Ｔ）を含む過去のＮ2個（Ｎ2は自然数）の単位区間Ｔに対して連続して識別値ＣNOTVOICEが設定されたか否か（すなわち、相連続するＮ2個の単位区間Ｔが非音声に識別されたか否か）を判定する（ステップＳB1）。

ステップＳB1の結果が肯定である場合、音量制御部５４は入力音ＶINの消音を開始する（ステップＳB2）。以上のように非音声の単位区間ＴがＮ2個にわたって連続した場合に限って音量制御部５４による消音が開始されるから、非音声と誤判定された音声が消音される可能性は低減される。また、遅延制御部５２は、音響信号ＳINに対する出力信号ＳOUTの遅延量Ｄを初期値Ｄ0に初期化する（ステップＳB3）。したがって、音響信号ＳINのうちステップＳB3の実行後の最初の音声の単位区間Ｔは消音されない。ステップＳB3が完了すると、制御部５０は、ステップＳB4にて変数ＮLOWSNをゼロに初期化した（ステップＳB4）うえで図１０の処理を終了する。

一方、ステップＳB1の結果が否定である場合、音量制御部５４は入力音ＶINの消音を停止する（ステップＳB5）。すなわち、音声識別部４０（第２識別部４４）が対象単位区間Ｔについて識別値ＣNOTVOICE以外の識別値（ＣLOWSN，ＣVOICE，ＣNOTVOICE_LOWSN）を設定した場合には入力音ＶINが出力信号ＳOUTとして出力される。

次いで、遅延制御部５２は、対象単位区間Ｔ内の低音量区間ＰLOWを短縮するための処理（ステップＳB6からステップＳB11）を実行する。まず、遅延制御部５２は、対象単位区間Ｔ内のひとつのフレームＦを選択する（ステップＳB6）。次いで、遅延制御部５２は、ステップＳB6で選択したフレームＦについてＳＮ比算定部３０が算定したＳＮ比Ｒが所定の閾値ＲTHを下回るか否かを判定する（ステップＳB7）。ステップＳB7の結果が肯定である場合、遅延制御部５２は、変数ＮLOWSNに１を加算したうえで（ステップＳB8）、処理をステップＳB6に移行して次のフレームＦを選択する。ＳＮ比Ｒが閾値ＲTHを上回ると、ステップＳB7の結果が否定に変化する。すなわち、ステップＳB7の判定は、ＳＮ比Ｒが閾値ＲTHを下回る低音量区間ＰLOWを検出する処理である。そして、変数ＮLOWSNは、低音量区間ＰLOWを構成するフレームＦの総数に相当する。

ステップＳB7の結果が否定である場合、遅延制御部５２は、変数ＮLOWSNが所定値ＮLを上回るか否かを判定する（ステップＳB9）。ステップＳB9の結果が肯定である場合、遅延制御部５２は、現段階の変数ＮLOWSNに相当する個数のフレームＦで構成される低音量区間ＰLOWを短縮するための処理を実行する（ステップＳB10）。

図１１は、ステップＳB10の処理の具体例を示す概念図である。図１１においては、入力音ＶINが「なって」という音声である場合におけるＳＮ比Ｒの変動が図示されている。図１１に示すように、「なって」という音声のうち「な」および「て」の区間のＳＮ比Ｒは閾値ＲTHを上回る。一方、「っ」（促音）の区間は、ＳＮ比Ｒが閾値ＲTHを下回る低音量区間ＰLOWとして検出される。ステップＳB10において、遅延制御部５２は、音響信号ＳINの低音量区間ＰLOWのうち所定の区間Ｐ0以外の区間を削除することで出力信号ＳOUTを生成する。区間Ｐ0は、低音量区間ＰLOWの終点よりも所定長だけ手前の時点から当該終点までの区間である。さらに詳述すると、遅延制御部５２は、変数ＮLOWSNの数値に相当する個数のフレームＦ内のサンプルの総数ｎ1と所定値（すなわち区間Ｐ0を構成するフレームＦ内のサンプルの総数）ｎ2との差分値に相当するサンプルの個数ｎ3（ｎ3＝ｎ1−ｎ2）分だけ、記憶装置２４における音響信号ＳINの各サンプルの読出し位置を後方（時間が経過する方向）に移動させる。

低音量区間ＰLOWの全部（「っ」の区間の全部）を削除して出力信号ＳOUTを生成した場合、音響信号ＳINにおける「なって」という入力音ＶINは、出力信号ＳOUTにおいて、「な」と「て」とが連続して「なて」と知覚される音声となる。本形態においては、低音量区間ＰLOWのうち最後の区間Ｐ0を除外した部分が削除されるから、入力音ＶINの通りに適切に「なって」と知覚される音声を生成できるという利点がある。図１０に示すように、ステップＳB10の処理を完了すると、遅延制御部５２は、変数ＮLOWSNをゼロに初期化する（ステップＳB11）。

一方、ステップＳB9の結果が否定である場合（変数ＮLOWSNが所定値ＮLを下回る場合）、遅延制御部５２は、ステップＳB10を実行せずに処理をステップＳB11に移行する。すなわち、フレームＦの個数が所定値ＮLを下回る程度の短い低音量区間ＰLOWについてはステップＳB10における短縮の対象から除外される。以上のように音響信号ＳINの短縮の頻度が抑制されるから、出力信号ＳOUTが表す音声を聴感上において自然な音声とすることが可能である。

ステップＳB11に続いて、遅延制御部５２は、対象単位区間Ｔ内の総てのフレームＦについてステップＳB6からステップＳB11までの処理を実行したか否かを判定する（ステップＳB12）。ステップＳB12の結果が否定である場合、遅延制御部５２は、処理をステップＳB6に移行して次のフレームＦを選択する。一方、ステップＳB12の結果が肯定である場合、遅延制御部５２は図１０の処理を終了する。以上が制御部５０の具体的な動作である。

以上の形態においては、音量制御部５４が消音を実行しているときに遅延量Ｄは初期値Ｄ0に設定されるから、非音声を除去することで音声の受聴を容易化しながら、入力音ＶINのうち音声の先頭の部分の欠落を防止することができる。したがって、空間Ｒ1および空間Ｒ2の利用者Ｕの間で明瞭かつ正確に音声を授受することが可能となる。そして、遅延の前後の入力音ＶINを加算する特許文献１の処理は不要であるから、聴感上において自然な再生音を生成できるという利点がある。また、音響信号ＳINに対する出力信号ＳOUTの遅延量Ｄが経時的に減少する。したがって、出力信号ＳOUTが音響信号ＳINに対して恒常的に遅延量Ｄ0だけ遅延する場合と比較して、空間Ｒ1および空間Ｒ2の利用者の間における音声の円滑な授受が実現される。

＜変形例＞
以上の形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
音声識別部４０が単位区間Ｔを音声と非音声とに識別する方法は任意である。例えば、平均ＳＮ比Ｒaveが閾値を上回る単位区間Ｔを音声と判定するとともに平均ＳＮ比Ｒaveが閾値を下回る単位区間Ｔを非音声と判定する構成が採用される。また、各フレームＦのＳＮ比Ｒを各フレームＦの音量に置換した構成や、単位区間Ｔの平均ＳＮ比Ｒaveを単位区間Ｔ内の音量（平均値）に置換した構成も好適である。例えば、図７のステップＳA2やステップＳA6においては単位区間Ｔ内の音量が所定の閾値を下回るか否かが判定され、図１０のステップＳB7においてはフレームＦの音量が所定の閾値を下回るか否かが判定される（すなわち音量の低い区間が低音量区間ＰLOWとして特定される）。平均ＳＮ比Ｒaveの低下（第１識別部４２による誤判定）が問題とならない場合には第２識別部４４が省略される。すなわち、図１０のステップＳB1においては、第１識別部４２が非音声に識別した単位区間ＴがＮ2回にわたって連続するか否かが判定される。

（２）変形例２
以上の形態においては非音声の単位区間ＴがＮ2回にわたって連続する場合に入力音ＶINの消音を実行したが、音声識別部４０がひとつの単位区間Ｔを非音声に識別した場合に音量制御部５４が直ちに消音を開始する構成も採用される。

（３）変形例３
低音量区間ＰLOWの検出に利用される閾値ＲTH（図１０のステップＳB7）を制御部５０（遅延制御部５２）が可変に制御する構成も好適である。例えば、音声識別部４０が音声に識別した単位区間Ｔのうち始点から所定の時間長にわたる区間（音声の区間）内における各フレームＦのＳＮ比Ｒの平均値ＡSNと所定の係数α（α＜１）との乗算値が閾値ＲTH（ＲTH＝ＡSN×α）として利用される。以上の構成によれば、入力音ＶINのＳＮ比（平均値ＡSN）に応じて閾値ＲTHが可変に制御されるから、低音量区間ＰLOWを正確に検出できるという利点がある。

（４）変形例４
以上の形態においては非音声の単位区間Ｔを消音する構成を例示したが、音声の単位区間Ｔを非音声の単位区間Ｔに対して強調する方法は適宜に変更される。例えば、非音声の単位区間Ｔの音量を低下させる（消音まではしない）構成や、音声の単位区間Ｔの音量を上昇させる構成も採用される。すなわち、非音声の単位区間Ｔの音量が音声の単位区間Ｔの音量に対して相対的に低下するように各単位区間Ｔの音量を制御する構成が本発明においては好適である。

（５）変形例５
以上の形態においては第２識別部４４が４種類の識別値の何れかを各単位区間Ｔに設定したが、第２識別部４４による分類数（識別値の種類数）は適宜に変更される。例えば、平均ＳＮ比Ｒaveが閾値Ｓ1を下回る単位区間Ｔ（識別値ＣLOWSN）と第１識別部４２が音声に識別した単位区間Ｔ（識別値ＣVOICE）と第１識別部４２が非音声に識別した単位区間Ｔ（識別値ＣNOTVOICE）との３種類に各単位区間Ｔを分類する構成も採用される。以上の構成においては、平均ＳＮ比Ｒaveが閾値Ｓ1を下回る単位区間Ｔまたは第１識別部４２が非音声に識別した単位区間Ｔが所定個にわたって連続する場合に、当該所定個のうち最後の単位区間Ｔ以後の音響信号ＳINが消音される。

（６）変形例６
以上の形態においては送信側の音処理装置１４において出力信号ＳOUTを生成したが、音処理装置１４が音響信号ＳINを送信するとともに受信側の音処理装置１６が当該音響信号ＳINから出力信号ＳOUTを生成する構成や、音処理装置１４と音処理装置１６との間に介在する中継装置が、音処理装置１４から送信された音響信号ＳINから出力信号ＳOUTを生成して音処理装置１６に送信する構成も採用される。

本発明の実施の形態に係る遠隔会議システムのブロック図である。図１の音処理装置のブロック図である。単位区間とフレームとの関係を示す概念図である。図２の第１識別部のブロック図である。図４の変調スペクトル特定部の動作を示す概念図である。音声および非音声の変調スペクトルの具体例を示すグラフである。図２の第２識別部の動作を示すフローチャートである。図１の制御部の動作を示す概念図である。低音量区間の短縮を示す概念図である。図１の制御部の動作を示すフローチャートである。低音量区間の短縮の具体例を示す概念図である。

符号の説明

１００……遠隔会議システム、１２……収音機器、１４，１６……音処理装置、１８……放音機器、２２……制御装置、２４……記憶装置、３０……ＳＮ比算定部、３２……強度特定部、３４……雑音推定部、３６……演算部、４０……音声識別部、４２……第１識別部、４４……第２識別部、５０……制御部、５２……遅延制御部、５４……音量制御部、ＶIN……入力音、ＳIN……音響信号、ＳOUT……出力信号、ＭS……変調スペクトル、Ｔ……単位区間、Ｆ……フレーム。

Claims

音響信号の各単位区間を音声と音声以外の音響である非音声とに順次に識別する音声識別手段と、
前記単位区間が非音声に識別されると前記音響信号を、単位区間の時間長を上回る遅延量だけ遅延させ、前記単位区間が音声に識別されると当該単位区間のうちＳＮ比または音量が低い低音量区間を短縮する遅延制御手段と、
前記音響信号のうち非音声に識別された単位区間の音量を、音声に識別された単位区間の音量に対して低下させる音量制御手段と
を具備する音処理装置。
相連続する所定個の単位区間を前記音声識別手段が非音声に識別した場合に、
前記遅延制御手段は前記音響信号を前記所定の遅延量だけ遅延させ、
前記音量制御手段は音響信号の音量の低下を開始する
請求項１の音処理装置。
前記音声識別手段は、
前記音響信号の前記各単位区間を音声と非音声とに順次に識別する第１識別手段と、
前記各単位区間のうちＳＮ比が閾値を下回る単位区間を特定する第２識別手段とを含み、
前記音量制御手段は、前記第１識別手段が非音声に識別した単位区間または前記第２識別手段が特定した単位区間が所定個にわたって連続する場合に、当該所定個のうちの最後の単位区間以後の音響信号の音量を低下させる
請求項１の音処理装置。
前記音声識別手段は、
前記音響信号の前記各単位区間を音声と非音声とに順次に識別する第１識別手段と、
前記音響信号のＳＮ比または音量が第１閾値を下回る単位区間に対して第１識別値を設定し、前記音響信号のＳＮ比または音量が前記第１閾値を上回るとともに音声に識別された単位区間に対して第２識別値を設定し、前記第１閾値よりも大きい第２閾値を前記音響信号のＳＮ比または音量が下回るとともに非音声に識別された単位区間に対して第３識別値を設定し、前記音響信号のＳＮ比または音量が前記第２閾値を上回るとともに非音声に識別された単位区間に対して第４識別値を設定し、前記第２識別値以外の識別値の単位区間が所定個にわたって連続する場合に当該所定個のうちの最後の単位区間の識別値を前記第４識別値に更新する第２識別手段とを含み、
前記音量制御手段は、前記第４識別値の単位区間が所定個にわたって連続する場合に、当該所定個のうちの最後の単位区間以後の音響信号の音量を低下させる
請求項１の音処理装置。
前記遅延制御手段は、前記低音量区間の一部の区間を削除することで当該低音量区間を短縮する
請求項１から請求項４の何れかの音処理装置。
前記遅延制御手段は、前記低音量区間のうち終点を含む一部の区間を除いた区間を削除することで当該低音量区間を短縮する
請求項５の音処理装置。
音響信号の各単位区間を音声と非音声とに順次に識別する音声識別処理と、
前記単位区間が非音声に識別されると前記音響信号を所定の遅延量だけ遅延させ、前記単位区間が音声に識別されると当該単位区間のうちＳＮ比または音量が低い低音量区間を短縮する遅延制御処理と、
前記音響信号のうち非音声に識別された単位区間の音量を、音声に識別された単位区間の音量に対して低下させる音量制御処理と
をコンピュータに実行させるプログラム。