JP5076974B2 - 音処理装置およびプログラム - Google Patents

音処理装置およびプログラム Download PDF

Info

Publication number
JP5076974B2
JP5076974B2 JP2008052103A JP2008052103A JP5076974B2 JP 5076974 B2 JP5076974 B2 JP 5076974B2 JP 2008052103 A JP2008052103 A JP 2008052103A JP 2008052103 A JP2008052103 A JP 2008052103A JP 5076974 B2 JP5076974 B2 JP 5076974B2
Authority
JP
Japan
Prior art keywords
unit
section
voice
volume
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008052103A
Other languages
English (en)
Other versions
JP2009210712A (ja
Inventor
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008052103A priority Critical patent/JP5076974B2/ja
Publication of JP2009210712A publication Critical patent/JP2009210712A/ja
Application granted granted Critical
Publication of JP5076974B2 publication Critical patent/JP5076974B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

本発明は、収音機器による収録音などの音響(以下「入力音」という)のうち非音声の区間の音量を低下させる技術に関する。
入力音を音声の区間と非音声(例えば雑音)の区間とに識別するとともに非音声の区間を消音する技術においては、音声および非音声の識別に必要な時間だけ出力音が入力音に対して遅延する。出力音を入力音に対して遅延させない場合、入力音のうち音声の区間の先頭から識別に必要な時間長が経過するまでの区間が消音されるという問題がある。特許文献1には、識別に必要な時間長を上回る遅延量だけ遅延させた入力音と遅延前の入力音との混合比を有音および無音の識別の結果に応じて可変に制御することで、音声の区間における先頭の部分の欠落を防止する技術が開示されている。
特開平11−205460号公報
しかし、特許文献1の技術においては遅延の前後の入力音が加算されるから、出力音のうち音声の区間の先頭の部分(すなわち遅延の前後の入力音を加算した部分)が聴感上において不自然となる。以上の事情に鑑みて、本発明は、入力音の音声について聴感上の違和感を抑制しながら非音声の音量を低下させることをひとつの目的とする。
以上の課題を解決するために、本発明の音処理装置は、音響信号の各単位区間を音声と音声以外の音響である非音声とに順次に識別する音声識別手段と、単位区間が非音声に識別されると音響信号を、単位区間の時間長を上回る遅延量だけ遅延させ、単位区間が音声に識別されると当該単位区間のうちSN比または音量が低い低音量区間を短縮する遅延制御手段と、音響信号のうち非音声に識別された単位区間の音量を、音声に識別された単位区間の音量に対して低下させる音量制御手段とを具備する。
以上の構成においては、非音声の音量を低下させるときに音響信号が所定の遅延量だけ遅延するから、非音声の音量を低下させることで音声を明瞭化しながら、音声の先頭の部分の欠落を防止して自然な音声を生成することが可能である。また、遅延の前後の音響信号を加算する特許文献1の処理は不要であるから、聴感上の違和感が少ない再生音を生成することができる。さらに、遅延制御手段が音声の単位区間における低音量区間を短縮するから、音響信号を恒常的に所定の遅延量だけ遅延させる構成と比較して再生音の違和感が低減される。
なお、「非音声の単位区間の音量を音声の単位区間の音量に対して低下させる」とは、音声の単位区間を非音声の単位区間に対して強調する処理を意味し、例えば、非音声の単位区間の音量を低下させる(例えば消音する)処理のほかに音声の単位区間の音量を上昇させる処理も包含する概念である。
本発明の好適な態様においては、相連続する所定個(例えば図10のN2個)の単位区間を音声識別手段が非音声に識別した場合に、遅延制御手段は音響信号を所定の遅延量だけ遅延させ、音量制御手段は音響信号の音量の低下を開始する。以上の態様においては、ひとつの単位区間が非音声に識別されただけでは遅延量の初期化や音量の低下は実行されないから、音声識別手段が音声の単位区間を非音声と誤判定した場合であっても、再生音における音声の欠落が防止されるという利点がある。
本発明の好適な態様において、音声識別手段は、音響信号の各単位区間を音声と非音声とに順次に識別する第1識別手段と、各単位区間のうちSN比が閾値を下回る単位区間を特定する第2識別手段とを含み、音量制御手段は、第1識別手段が非音声に識別した単位区間または第2識別手段が特定した単位区間が所定個にわたって連続する場合に、当該所定個のうちの最後の単位区間以後の音響信号の音量を低下させる。以上の態様においては、非音声に識別された単位区間またはSN比が閾値を下回る単位区間が所定個にわたって連続する場合に最後の単位区間以後の音響信号の音量が低減されるから、雑音の発生などを原因とするSN比の低下に起因して音声の単位区間が非音声に誤判定された場合であっても、再生音における音声の欠落が有効に防止される。
本発明の好適な態様において、音声識別手段は、音響信号の各単位区間を音声と非音声とに順次に識別する第1識別手段と、音響信号のSN比または音量が第1閾値を下回る単位区間に対して第1識別値(例えば図7の識別値CLOWSN)を設定し、音響信号のSN比または音量が第1閾値を上回るとともに音声に識別された単位区間に対して第2識別値(例えば図7の識別値CVOICE)を設定し、第1閾値よりも大きい第2閾値を音響信号のSN比または音量が下回るとともに非音声に識別された単位区間に対して第3識別値(例えば図7の識別値CNOTVOICE_LOWSN)を設定し、音響信号のSN比または音量が第2閾値を上回るとともに非音声に識別された単位区間に対して第4識別値(例えば図7の識別値CNOTVOICE)を設定し、第2識別値以外の識別値の単位区間が所定個(例えば図7のN1個)にわたって連続する場合に当該所定個のうちの最後の単位区間の識別値を第4識別値に更新する第2識別手段とを含み、音量制御手段は、第4識別値の単位区間が所定個(例えば図10のN2個)にわたって連続する場合に、当該所定個のうちの最後の単位区間以後の音響信号の音量を低下させる。以上の態様によれば、第4識別値の単位区間が所定個にわたって連続する場合に最後の単位区間以後の音響信号の音量が低減されるから、雑音の発生などを原因とするSN比の低下に起因して音声の単位区間が非音声に誤判定された場合であっても、再生音における音声の欠落が防止される。また、SN比が第1閾値を上回る単位区間が音声に識別された場合にはSN比と第2閾値との大小に拘わらず当該単位区間は音声と認定されるから、音声の単位区間の欠落を有効に防止することが可能である。
本発明の好適な態様において、遅延制御手段は、低音量区間の一部の区間を削除することで当該低音量区間を短縮する。以上の態様においては、低音量区間の一部の区間のみが削除されるから、例えばSN比が低下する促音の区間が完全に削除されることが回避される。したがって、自然な音声を生成することが可能である。また、前記低音量区間のうち終点を含む一部の区間(例えば図11の区間P0)を除いた区間を削除することで当該低音量区間を短縮する構成によれば、低音量区間の直後の音声(例えば「なって」という音声のうち「て」の区間)における先頭の部分の欠落が有効に防止される。
以上の総ての態様に係る音処理装置は、入力音の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音響信号の各単位区間を音声と非音声とに順次に識別する音声識別処理と、単位区間が非音声に識別されると音響信号を所定の遅延量だけ遅延させ、単位区間が音声に識別されると当該単位区間のうちSN比または音量が低い低音量区間を短縮する遅延制御処理と、音響信号のうち非音声に識別された単位区間の音量を、音声に識別された単位区間の音量に対して低下させる音量抑制処理とをコンピュータに実行させる。本発明のプログラムによれば、以上の各態様に係る音処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
図1は、本発明の実施の形態に係る遠隔会議システムのブロック図である。遠隔会議システム100は、地理的に離間した空間R1と空間R2との間で複数の利用者U(会議の参加者)が相互に音声を授受するシステムである。各空間R(R1,R2)には、収音機器12と音処理装置14と音処理装置16と放音機器18とが設置される。
収音機器12は、空間R内に存在する入力音VINの波形を表す音響信号SINを生成する装置(マイクロホン)である。空間R1および空間R2の各々の音処理装置14は、音響信号SINから出力信号SOUTを生成して空間R1および空間R2の他方の音処理装置16に送信する。
出力信号SOUTは、音響信号SINのうちの音声の区間を非音声の区間に対して強調した信号である。本形態においては、音響信号SINの非音声の区間を消音することで出力信号SOUTが生成される。音声は、人間の発声音(有声音および無声音)である。非音声は、音声以外の音響である。空調設備の動作音や携帯電話機の着信音や扉の開閉音などの各種の雑音(環境音)が非音声に該当する。
音処理装置16は、出力信号SOUTを増幅して放音機器18に出力する。放音機器18は、音処理装置16から供給される増幅後の出力信号SOUTに応じた音波を放射する装置(スピーカ)である。以上の構成により、空間R1内の各利用者Uの発声音が空間R2内の放音機器18から出力され、空間R2内の各利用者Uの発声音が空間R1内の放音機器18から出力される。なお、収音機器12が生成する音響信号SINをデジタルに変換するA/D変換器や、音処理装置16が出力する出力信号SOUTをアナログに変換するD/A変換器の図示は図2において便宜的に省略した。
図2は、空間R1および空間R2の各々に設置される音処理装置14のブロック図である。図2に示すように、音処理装置14は、制御装置22と記憶装置24とを具備する。記憶装置24は、制御装置22が実行するプログラムや制御装置22が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置24として任意に利用される。
制御装置22は、プログラムを実行することで図2の各要素(SN比算定部30,音声識別部40,制御部50)として機能する演算処理装置である。さらに詳述すると、制御装置22は、収音機器12から供給される音響信号SIN(入力音VIN)を図3のように所定の時間長(例えば500ミリ秒)毎に区分した各単位区間Tを音声と非音声とに識別する機能と、非音声の単位区間Tを消音することで出力信号SOUTを生成する機能とを実現する。なお、図2の各要素はDSPなどの電子回路によっても実現される。
図2のSN比算定部30は、音響信号SINを時間軸に沿って区分した複数のフレームの各々についてSN比Rを算定する。図3に示すように、フレームFは単位区間Tと比較して充分に短い時間長に設定される。したがって、ひとつの単位区間Tは複数のフレームFで構成される。なお、図3においては相前後する各単位区間Tや相前後する各フレームFが時間軸上で重複しない構成を便宜的に例示するが、各単位区間Tが部分的に重複する構成や各フレームFが部分的に重複する構成も採用される。
図2に示すように、SN比算定部30は、強度特定部32と雑音推定部34と演算部36とで構成される。強度特定部32は、音響信号SINの各フレームFについて順次に強度(エネルギ)を算定する。さらに詳述すると、強度特定部32は、ひとつのフレームFの音響信号SINをM個(Mは2以上の自然数)の周波数帯域に区分したときの各成分の強度E[1]〜E[M]を算定する。したがって、通過帯域が相違する複数のバンドパスフィルタ(すなわちフィルタバンク)が強度特定部32として好適に採用される。
利用者Uは、発声に先立って音処理装置14の操作子(図示略)を操作することで音処理の開始の指示(以下「開始指示」という)を制御装置22に付与する。強度特定部32は、開始指示の付与前(例えば音処理装置14の電源が投入された直後)から継続的に音響信号SINの各フレームFについて強度E[1]〜E[M]を特定する。強度特定部32が算定した強度E[1]〜E[M]のうち最新のK組が記憶装置24に格納される。
雑音推定部34は、音響信号SINにおける雑音の強度(EN[1]〜EN[M])を算定する。本形態においては開始指示の付与前(すなわち利用者Uの発声前)の所定長の入力音VINが雑音と推定される。すなわち、雑音推定部34は、開始指示が付与された時点で記憶装置24が記憶している最新のK組の強度E[1]〜E[M](すなわち開始指示の直前のK個のフレームFの強度E[1]〜E[M])から雑音の強度EN[1]〜EN[M]を算定する。強度EN[i](i=1〜M)は、開始指示の直前のK個のフレームFについて強度特定部32が特定した強度E[i]の平均値である。なお、雑音の強度EN[1]〜EN[M]の推定の方法は任意である。例えば、音処理装置14の電源の投入の直後(すなわち利用者Uの発声前)における所定個のフレームFの強度E[i]の平均値を雑音の強度EN[i]とする構成も採用される。
演算部36は、音響信号SINのSN比RをフレームF毎に算定する。SN比Rは、開始指示の付与後に強度特定部32が各フレームFについて特定する強度E[1]〜E[M]と雑音推定部34が事前に算定した雑音の強度EN[1]〜EN[M]との相対比である。演算部36によるSN比Rの算定には例えば以下の演算式(1)が使用される。
Figure 0005076974
音声識別部40は、音響信号SINの各単位区間Tを音声と非音声とに順次に識別する。本形態の音声識別部40は第1識別部42と第2識別部44とで構成される。第1識別部42は、音響信号SINの各単位区間Tを音声と非音声とに識別する。第2識別部44は、第1識別部42が非音声と誤判定した音声の単位区間Tが消音される可能性が低減されるように第1識別部42による識別の結果を補正する。第1識別部42および第2識別部44による処理の具体例を以下に詳述する。
第1識別部42は、音響信号SIN(入力音VIN)の各単位区間Tの変調スペクトルを利用して当該単位区間Tを音声と非音声とに識別する。変調スペクトルは、音響信号SINの対数スペクトル(周波数スペクトル)のうち特定の周波数帯域に属する成分の時間的な変動(以下「時間軌跡」という)についてフーリエ変換を実行した結果である。
図4は、第1識別部42の具体的な機能を示すブロック図である。図4に示すように、第1識別部42は、変調スペクトル特定部422と指標算定部424と音声判定部426とで構成される。変調スペクトル特定部422は、音響信号SINの変調スペクトルMSを単位区間T毎に特定する。図5は、変調スペクトル特定部422の動作を説明するための概念図である。変調スペクトル特定部422は、第1に、フーリエ変換を含む周波数分析を音響信号SINに対して実行することで、図5の部分(A)に示すように、音響信号SINの各フレームFについて対数スペクトルS0を算定する。
第2に、変調スペクトル特定部422は、図5の部分(A)および部分(B)に示すように、対数スペクトルS0のうち特定の周波数帯域ωに属する成分(またはひとつの周波数の成分)の強度の時間軌跡STを抽出する。周波数帯域ωは、入力音VINが音声である場合の時間軌跡STの周波数特性(変調スペクトルMS)と入力音VINが非音声である場合の時間軌跡STの周波数特性とが顕著に相違するように実験的または統計的に選定される。例えば、周波数帯域ωは、10Hz(さらに好適には50Hz)から800Hzまでの範囲に選定される。第3に、変調スペクトル特定部422は、時間軌跡STに対してフーリエ変換を実行することで、図5の部分(C)に示すように、時間軌跡STを区分した複数の単位区間Tの各々について変調スペクトルMSを算定する。
図6の部分(A)は音声の代表的な変調スペクトルMSを示し、図6の部分(B)は非音声(収音機器12の先端部を覆う網状の部分を引掻いたときのガリガリ音)の変調スペクトルMSを示す。図6の部分(A)と部分(B)との対比から理解されるように、変調スペクトルMSのうち強度が高い変調周波数の範囲は音声と非音声とで相違するという傾向がある。さらに詳述すると、音声の変調スペクトルMS(図6の部分(A))においては変調周波数が10Hz以下の低域の範囲で強度が高くなるのに対し、多くの非音声の変調スペクトルMS(図6の部分(B))においては変調周波数が10Hzを上回る範囲で強度が高くなる。以上の相違を考慮して、本形態の第1識別部42は、変調スペクトルMSのうち変調周波数が所定の範囲(以下「判定対象範囲」という)Aに属する成分の強度に応じて入力音VINが音声か非音声かを判定する。例えば、10Hz以下の範囲(さらに好適には2Hzから8Hzの範囲)が判定対象範囲Aとして適切である。
図4の指標算定部424は、各単位区間Tの変調スペクトルMSのうち判定対象範囲A内の成分の強度に応じた指標値Xを単位区間T毎に算定する。本形態の指標値Xは、変調スペクトルMSのうち判定対象範囲A内の成分の強度(例えば判定対象範囲A内の各変調周波数における強度の加算値や平均値)L1と、変調周波数の全範囲にわたる変調スペクトルMSの強度(総ての変調周波数における強度の加算値や平均値)L2との相対比である(X=L1/L2)。したがって、判定対象範囲A内の成分の強度L1が高いほど(すなわち入力音VINが音声である可能性が高いほど)指標値Xは大きい数値となる。
音声判定部426は、指標算定部424が各単位区間Tについて算定した指標値Xに基づいて当該単位区間Tを音声と非音声とに識別する。さらに詳述すると、音声判定部426は、指標値Xが所定の閾値XTHを上回る単位区間Tを音声と判定するとともに、指標値Xが閾値XTHを下回る単位区間Tを非音声と判定する。閾値XTHは、音声の指標値Xを下回るとともに非音声の指標値Xを上回るように実験的または統計的に選定される。
次に、図7は、第2識別部44の具体的な動作を示すフローチャートである。図7の処理は、第1識別部42が識別した単位区間T毎に順次に実行される。図7の処理を開始すると、第2識別部44は、第1識別部42による識別後の単位区間T(以下では特に「対象単位区間T」という)について平均SN比Raveを算定する(ステップSA1)。平均SN比Raveは、SN比算定部30が対象単位区間T内の各フレームFについて算定したSN比Rの平均値である。
単位区間Tの平均SN比Raveが低い場合(例えば雑音の強度が高い場合や入力音VINのうち無声音の割合が多い場合)には第1識別部42による識別の正確性が低下する。したがって、音声の単位区間Tを第1識別部42が非音声と誤判定する可能性がある。非音声と誤判定された音声の単位区間Tが消音されることを回避するために、第2識別部44は、図7のステップSA2からステップSA8において、第1識別部42による識別の結果(音声/非音声)を細分化する。さらに詳述すると、第2識別部44は、対象単位区間TについてステップSA1で算定した平均SN比Raveと第1識別部42による対象単位区間Tの識別の結果とに基づいて、当該対象単位区間Tに4種類の識別値の何れかを設定する(すなわち対象単位区間Tを4種類の何れかに分類する)。
ステップSA2において、第2識別部44は、平均SN比Raveが所定の閾値S1を下回るか否かを判定する。音声/非音声の識別について所期の正確性を確保できない程度に低い平均SN比Raveが閾値S1を下回るように閾値S1は実験的または統計的に設定される。ステップSA2の結果が肯定である場合、第2識別部44は、識別値CLOWSNを対象単位区間Tについて設定する(ステップSA3)。すなわち、識別値CLOWSNは、第1識別部42による識別の結果の正確性を充分に確保できないほど平均SN比Raveが低い単位区間Tであることを意味する
ステップSA2の結果が否定である場合、第2識別部44は、第1識別部42が対象単位区間Tを音声に識別したか否かを判定する(ステップSA4)。ステップSA4の結果が肯定である場合、第2識別部44は、識別値CVOICEを対象単位区間Tについて設定する(ステップSA5)。すなわち、第1識別部42が音声に識別した単位区間Tの平均SN比Raveが閾値S1を上回る場合には当該識別の結果が確定する。なお、平均SN比Raveが閾値S1を上回る場合であっても非音声の単位区間Tが音声と誤判定される可能性はある。しかし、仮に非音声が音声と誤判定されて消音の対象から除外されたとしても、利用者Uが放音機器18からの再生音を僅かに受聴し難いという程度に過ぎず、音声が非音声と誤判定されて消音される場合ほどの問題はない。以上の事情を考慮して、単位区間Tの平均SN比Raveが閾値S1を上回る場合には、第1識別部42が音声に識別した結果を確定する。
ステップSA4の結果が否定である場合(第1識別部42が対象単位区間Tを非音声に識別した場合)、第2識別部44は、対象単位区間Tの平均SN比Raveが閾値S2を下回るか否かを判定する(ステップSA6)。閾値S2は、第1識別部42が非音声に識別した結果の信頼性が充分に確保される平均SN比Raveを上回るように実験的または統計的に選定される。したがって、閾値S2は、ステップSA2で使用される閾値S1よりも大きい数値である。ステップSA6の結果が否定である場合(非音声との識別の結果の正確性が高い場合)、第2識別部44は、対象単位区間Tについて識別値CNOTVOICEを設定する(ステップSA7)。すなわち、第1識別部42が非音声に識別した単位区間Tの平均SN比Raveが閾値S2を上回る場合には当該識別の結果(非音声)が確定する。
一方、ステップSA6の結果が肯定である場合、第2識別部44は、対象単位区間Tについて識別値CNOTVOICE_LOWSNを設定する。平均SN比Raveが閾値S1を下回る場合ほどに第1識別部42による識別の正確性は低くない場合であっても、平均SN比Raveが閾値S2を下回るときには、音声の単位区間Tが非音声と誤判定されている可能性も依然として完全には否定できない。そこで、平均SN比Raveが閾値S2を下回る場合には、ひとつの単位区間Tが非音声に識別されただけでは当該識別の結果を確定しない。
以上の処理(SA3,SA5,SA7,SA8)で識別値を設定すると、第2識別部44は、識別値CVOICE以外の識別値(CLOWSN,CNOTVOICE,CNOTVOICE_LOWSN)を設定した単位区間Tの連続する個数が今回の対象単位区間TでN1回(N1は自然数)に到達したか否かを判定する(ステップSA9)。ステップSA9の結果が肯定である場合、第2識別部44は、対象単位区間Tの識別値(具体的には識別値CLOWSNまたは識別値CNOTVOICE_LOWSN)を識別値CNOTVOICEに変更する(ステップSA10)。一方、ステップSA9の結果が否定である場合、第2識別部44はステップSA10の処理を実行せずに図7の処理を終了する。
以上のように、平均SN比Raveが低い場合には、ひとつの対象単位区間Tが非音声に識別されただけでは当該識別の結果は確定しない。すなわち、識別値CVOICE以外の単位区間TがN1回にわたって連続した場合に初めて、対象単位区間Tは確定的に非音声(識別値CNOTVOICE)に識別される。以上の構成によれば、非音声と誤判定された音声の単位区間Tが出力信号SOUTにて消音される可能性が低減される。したがって、空間R1と空間R2との間における入力音VINの伝達の確実性が確保されるという利点がある。以上が音声識別部40の具体的な機能である。
図2の記憶装置24は、収音機器12が生成した音響信号SINの各サンプルの時系列を順次に記憶するバッファ回路として機能する。制御部50は、記憶装置24に格納された音響信号SINの遅延量および音量を音声識別部40による識別の結果に応じて制御することで出力信号SOUTを生成する。本形態の制御部50は遅延制御部52と音量制御部54とで構成される。
遅延制御部52は、音響信号SINに対する出力信号SOUTの遅延量(位相)を制御する。さらに詳述すると、遅延制御部52は、音響信号SINに対する出力信号SOUTの遅延量を可変に制御しながら音響信号SINの各サンプルの時系列を記憶装置24から順次に取得して出力する。音量制御部54は、遅延制御部52による処理後の音響信号SINのうち音声識別部40が非音声に識別した単位区間Tの入力音VINを消音する。
図8は、制御部50の動作の具体例を説明するための概念図である。図8には、収音機器12が生成した音響信号SINと制御部50(音量制御部54)から出力される出力信号SOUTとが時間軸を共通にして図示されている。図8の音響信号SINは、非音声(プッシュトーン)の区間PNVと音声の区間PVとを時系列に配列した入力音VINの波形を表す。
遅延制御部52が音響信号SINの各サンプルを記憶装置24から取得して出力する周期は単位区間Tの時間長(すなわち音声識別部40が音声/非音声を識別する周期)と比較して充分に短い。すなわち、遅延制御部52による音響信号SINの出力と音声識別部40による識別とは非同期に実行される。したがって、例えば図8の例示のように音響信号SINが時点tb1にて音声から非音声に変化する場合であっても、出力信号SOUTにおける消音は、時点tb1の直後から開始されるのではなく、時点tb1を含む単位区間Tを音声識別部40が非音声に識別し終えた時点tb2から開始される。以上のように音声識別部40による識別の結果が出力信号SOUTに反映される時点は単位区間Tの時間長だけ遅延するから、例えば音響信号SINを遅延なく出力信号SOUTとして出力する構成においては、音響信号SINが非音声から音声に変化した場合に当該音声の先頭の部分が出力信号SOUTにおいて消音されるという問題がある。
以上に説明した音声の欠落を防止するために、音響信号SINの各単位区間Tが非音声と判定される期間内において、遅延制御部52は、音響信号SINに対する出力信号SOUTの遅延量Dが初期値D0となるように音響信号SINの各サンプルを遅延させたうえで順次に出力する。初期値D0は、単位区間Tを上回る時間長に設定される。したがって、図8のように音響信号SINが時点ta1にて非音声から音声に変化した場合を想定すると、出力信号SOUTにおいては、時点ta1から遅延量(D0+HL)だけ遅延した時点ta2にて音声が開始する。遅延量HLは、音処理装置14において不可避的に発生する遅延(ハードウェアレイテンシ)である。
一方、以上のように出力信号SOUTが音響信号SINに対して遅延した状態では例えば空間R1での入力音VINが遅延して空間R2内で放音されるから、空間R1と空間R2との利用者Uの間における音声の授受に支障が発生する。例えば、空間R1内の利用者Uが発声してから空間R2内の利用者Uによる応答の音声が空間R1内で再生されるまでに時間が掛かるから、円滑な音声の授受が阻害されるという問題がある。
以上に説明した音響信号SINに対する出力信号SOUTの遅延を抑制するために、遅延制御部52は、音響信号SINにおいて音声に識別された単位区間TのうちSN比Rが低いフレームFで構成される区間(以下「低音量区間」という)を短縮したうえで出力信号SOUTを生成する。すなわち、図9に例示するように、音響信号SINにて音声に識別された各単位区間TのうちSN比Rが低い低音量区間PLOWは出力信号SOUTにおいて短縮される。低音量区間PLOWの短縮は、例えば、記憶装置24に格納された音響信号SINの各サンプルの読出し位置を後方(時間が経過する方向)に移動させることで実現される。
以上のように音響信号SINのうち音声の単位区間T内の各低音量区間PLOWは出力信号SOUTにおいて短縮されるから、図8に示すように、音響信号SINに対する出力信号SOUTの遅延量は経時的に減少する。図8においては、遅延量Dが時点tcにてゼロとなった状態(すなわち出力信号SOUTが音響信号SINに対して遅延量HLだけ遅延した状態)が例示されている。遅延量Dがゼロに到達した状態では、記憶装置24に対する音響信号SINのサンプルの書込の直後に当該サンプルが出力信号SOUTとして出力される。
図10は、制御部50(遅延制御部52および音量制御部54)の具体的な動作を示すフローチャートである。図10の処理は、音声識別部40がひとつの単位区間Tを識別するたびに実行される。図10の処理を開始すると、制御部50は、音声識別部40が新たに識別した単位区間T(対象単位区間T)を含む過去のN2個(N2は自然数)の単位区間Tに対して連続して識別値CNOTVOICEが設定されたか否か(すなわち、相連続するN2個の単位区間Tが非音声に識別されたか否か)を判定する(ステップSB1)。
ステップSB1の結果が肯定である場合、音量制御部54は入力音VINの消音を開始する(ステップSB2)。以上のように非音声の単位区間TがN2個にわたって連続した場合に限って音量制御部54による消音が開始されるから、非音声と誤判定された音声が消音される可能性は低減される。また、遅延制御部52は、音響信号SINに対する出力信号SOUTの遅延量Dを初期値D0に初期化する(ステップSB3)。したがって、音響信号SINのうちステップSB3の実行後の最初の音声の単位区間Tは消音されない。ステップSB3が完了すると、制御部50は、ステップSB4にて変数NLOWSNをゼロに初期化した(ステップSB4)うえで図10の処理を終了する。
一方、ステップSB1の結果が否定である場合、音量制御部54は入力音VINの消音を停止する(ステップSB5)。すなわち、音声識別部40(第2識別部44)が対象単位区間Tについて識別値CNOTVOICE以外の識別値(CLOWSN,CVOICE,CNOTVOICE_LOWSN)を設定した場合には入力音VINが出力信号SOUTとして出力される。
次いで、遅延制御部52は、対象単位区間T内の低音量区間PLOWを短縮するための処理(ステップSB6からステップSB11)を実行する。まず、遅延制御部52は、対象単位区間T内のひとつのフレームFを選択する(ステップSB6)。次いで、遅延制御部52は、ステップSB6で選択したフレームFについてSN比算定部30が算定したSN比Rが所定の閾値RTHを下回るか否かを判定する(ステップSB7)。ステップSB7の結果が肯定である場合、遅延制御部52は、変数NLOWSNに1を加算したうえで(ステップSB8)、処理をステップSB6に移行して次のフレームFを選択する。SN比Rが閾値RTHを上回ると、ステップSB7の結果が否定に変化する。すなわち、ステップSB7の判定は、SN比Rが閾値RTHを下回る低音量区間PLOWを検出する処理である。そして、変数NLOWSNは、低音量区間PLOWを構成するフレームFの総数に相当する。
ステップSB7の結果が否定である場合、遅延制御部52は、変数NLOWSNが所定値NLを上回るか否かを判定する(ステップSB9)。ステップSB9の結果が肯定である場合、遅延制御部52は、現段階の変数NLOWSNに相当する個数のフレームFで構成される低音量区間PLOWを短縮するための処理を実行する(ステップSB10)。
図11は、ステップSB10の処理の具体例を示す概念図である。図11においては、入力音VINが「なって」という音声である場合におけるSN比Rの変動が図示されている。図11に示すように、「なって」という音声のうち「な」および「て」の区間のSN比Rは閾値RTHを上回る。一方、「っ」(促音)の区間は、SN比Rが閾値RTHを下回る低音量区間PLOWとして検出される。ステップSB10において、遅延制御部52は、音響信号SINの低音量区間PLOWのうち所定の区間P0以外の区間を削除することで出力信号SOUTを生成する。区間P0は、低音量区間PLOWの終点よりも所定長だけ手前の時点から当該終点までの区間である。さらに詳述すると、遅延制御部52は、変数NLOWSNの数値に相当する個数のフレームF内のサンプルの総数n1と所定値(すなわち区間P0を構成するフレームF内のサンプルの総数)n2との差分値に相当するサンプルの個数n3(n3=n1−n2)分だけ、記憶装置24における音響信号SINの各サンプルの読出し位置を後方(時間が経過する方向)に移動させる。
低音量区間PLOWの全部(「っ」の区間の全部)を削除して出力信号SOUTを生成した場合、音響信号SINにおける「なって」という入力音VINは、出力信号SOUTにおいて、「な」と「て」とが連続して「なて」と知覚される音声となる。本形態においては、低音量区間PLOWのうち最後の区間P0を除外した部分が削除されるから、入力音VINの通りに適切に「なって」と知覚される音声を生成できるという利点がある。図10に示すように、ステップSB10の処理を完了すると、遅延制御部52は、変数NLOWSNをゼロに初期化する(ステップSB11)。
一方、ステップSB9の結果が否定である場合(変数NLOWSNが所定値NLを下回る場合)、遅延制御部52は、ステップSB10を実行せずに処理をステップSB11に移行する。すなわち、フレームFの個数が所定値NLを下回る程度の短い低音量区間PLOWについてはステップSB10における短縮の対象から除外される。以上のように音響信号SINの短縮の頻度が抑制されるから、出力信号SOUTが表す音声を聴感上において自然な音声とすることが可能である。
ステップSB11に続いて、遅延制御部52は、対象単位区間T内の総てのフレームFについてステップSB6からステップSB11までの処理を実行したか否かを判定する(ステップSB12)。ステップSB12の結果が否定である場合、遅延制御部52は、処理をステップSB6に移行して次のフレームFを選択する。一方、ステップSB12の結果が肯定である場合、遅延制御部52は図10の処理を終了する。以上が制御部50の具体的な動作である。
以上の形態においては、音量制御部54が消音を実行しているときに遅延量Dは初期値D0に設定されるから、非音声を除去することで音声の受聴を容易化しながら、入力音VINのうち音声の先頭の部分の欠落を防止することができる。したがって、空間R1および空間R2の利用者Uの間で明瞭かつ正確に音声を授受することが可能となる。そして、遅延の前後の入力音VINを加算する特許文献1の処理は不要であるから、聴感上において自然な再生音を生成できるという利点がある。また、音響信号SINに対する出力信号SOUTの遅延量Dが経時的に減少する。したがって、出力信号SOUTが音響信号SINに対して恒常的に遅延量D0だけ遅延する場合と比較して、空間R1および空間R2の利用者の間における音声の円滑な授受が実現される。
<変形例>
以上の形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
音声識別部40が単位区間Tを音声と非音声とに識別する方法は任意である。例えば、平均SN比Raveが閾値を上回る単位区間Tを音声と判定するとともに平均SN比Raveが閾値を下回る単位区間Tを非音声と判定する構成が採用される。また、各フレームFのSN比Rを各フレームFの音量に置換した構成や、単位区間Tの平均SN比Raveを単位区間T内の音量(平均値)に置換した構成も好適である。例えば、図7のステップSA2やステップSA6においては単位区間T内の音量が所定の閾値を下回るか否かが判定され、図10のステップSB7においてはフレームFの音量が所定の閾値を下回るか否かが判定される(すなわち音量の低い区間が低音量区間PLOWとして特定される)。平均SN比Raveの低下(第1識別部42による誤判定)が問題とならない場合には第2識別部44が省略される。すなわち、図10のステップSB1においては、第1識別部42が非音声に識別した単位区間TがN2回にわたって連続するか否かが判定される。
(2)変形例2
以上の形態においては非音声の単位区間TがN2回にわたって連続する場合に入力音VINの消音を実行したが、音声識別部40がひとつの単位区間Tを非音声に識別した場合に音量制御部54が直ちに消音を開始する構成も採用される。
(3)変形例3
低音量区間PLOWの検出に利用される閾値RTH(図10のステップSB7)を制御部50(遅延制御部52)が可変に制御する構成も好適である。例えば、音声識別部40が音声に識別した単位区間Tのうち始点から所定の時間長にわたる区間(音声の区間)内における各フレームFのSN比Rの平均値ASNと所定の係数α(α<1)との乗算値が閾値RTH(RTH=ASN×α)として利用される。以上の構成によれば、入力音VINのSN比(平均値ASN)に応じて閾値RTHが可変に制御されるから、低音量区間PLOWを正確に検出できるという利点がある。
(4)変形例4
以上の形態においては非音声の単位区間Tを消音する構成を例示したが、音声の単位区間Tを非音声の単位区間Tに対して強調する方法は適宜に変更される。例えば、非音声の単位区間Tの音量を低下させる(消音まではしない)構成や、音声の単位区間Tの音量を上昇させる構成も採用される。すなわち、非音声の単位区間Tの音量が音声の単位区間Tの音量に対して相対的に低下するように各単位区間Tの音量を制御する構成が本発明においては好適である。
(5)変形例5
以上の形態においては第2識別部44が4種類の識別値の何れかを各単位区間Tに設定したが、第2識別部44による分類数(識別値の種類数)は適宜に変更される。例えば、平均SN比Raveが閾値S1を下回る単位区間T(識別値CLOWSN)と第1識別部42が音声に識別した単位区間T(識別値CVOICE)と第1識別部42が非音声に識別した単位区間T(識別値CNOTVOICE)との3種類に各単位区間Tを分類する構成も採用される。以上の構成においては、平均SN比Raveが閾値S1を下回る単位区間Tまたは第1識別部42が非音声に識別した単位区間Tが所定個にわたって連続する場合に、当該所定個のうち最後の単位区間T以後の音響信号SINが消音される。
(6)変形例6
以上の形態においては送信側の音処理装置14において出力信号SOUTを生成したが、音処理装置14が音響信号SINを送信するとともに受信側の音処理装置16が当該音響信号SINから出力信号SOUTを生成する構成や、音処理装置14と音処理装置16との間に介在する中継装置が、音処理装置14から送信された音響信号SINから出力信号SOUTを生成して音処理装置16に送信する構成も採用される。
本発明の実施の形態に係る遠隔会議システムのブロック図である。 図1の音処理装置のブロック図である。 単位区間とフレームとの関係を示す概念図である。 図2の第1識別部のブロック図である。 図4の変調スペクトル特定部の動作を示す概念図である。 音声および非音声の変調スペクトルの具体例を示すグラフである。 図2の第2識別部の動作を示すフローチャートである。 図1の制御部の動作を示す概念図である。 低音量区間の短縮を示す概念図である。 図1の制御部の動作を示すフローチャートである。 低音量区間の短縮の具体例を示す概念図である。
符号の説明
100……遠隔会議システム、12……収音機器、14,16……音処理装置、18……放音機器、22……制御装置、24……記憶装置、30……SN比算定部、32……強度特定部、34……雑音推定部、36……演算部、40……音声識別部、42……第1識別部、44……第2識別部、50……制御部、52……遅延制御部、54……音量制御部、VIN……入力音、SIN……音響信号、SOUT……出力信号、MS……変調スペクトル、T……単位区間、F……フレーム。

Claims (7)

  1. 音響信号の各単位区間を音声と音声以外の音響である非音声とに順次に識別する音声識別手段と、
    前記単位区間が非音声に識別されると前記音響信号を、単位区間の時間長を上回る遅延量だけ遅延させ、前記単位区間が音声に識別されると当該単位区間のうちSN比または音量が低い低音量区間を短縮する遅延制御手段と、
    前記音響信号のうち非音声に識別された単位区間の音量を、音声に識別された単位区間の音量に対して低下させる音量制御手段と
    を具備する音処理装置。
  2. 相連続する所定個の単位区間を前記音声識別手段が非音声に識別した場合に、
    前記遅延制御手段は前記音響信号を前記所定の遅延量だけ遅延させ、
    前記音量制御手段は音響信号の音量の低下を開始する
    請求項1の音処理装置。
  3. 前記音声識別手段は、
    前記音響信号の前記各単位区間を音声と非音声とに順次に識別する第1識別手段と、
    前記各単位区間のうちSN比が閾値を下回る単位区間を特定する第2識別手段とを含み、
    前記音量制御手段は、前記第1識別手段が非音声に識別した単位区間または前記第2識別手段が特定した単位区間が所定個にわたって連続する場合に、当該所定個のうちの最後の単位区間以後の音響信号の音量を低下させる
    請求項1の音処理装置。
  4. 前記音声識別手段は、
    前記音響信号の前記各単位区間を音声と非音声とに順次に識別する第1識別手段と、
    前記音響信号のSN比または音量が第1閾値を下回る単位区間に対して第1識別値を設定し、前記音響信号のSN比または音量が前記第1閾値を上回るとともに音声に識別された単位区間に対して第2識別値を設定し、前記第1閾値よりも大きい第2閾値を前記音響信号のSN比または音量が下回るとともに非音声に識別された単位区間に対して第3識別値を設定し、前記音響信号のSN比または音量が前記第2閾値を上回るとともに非音声に識別された単位区間に対して第4識別値を設定し、前記第2識別値以外の識別値の単位区間が所定個にわたって連続する場合に当該所定個のうちの最後の単位区間の識別値を前記第4識別値に更新する第2識別手段とを含み、
    前記音量制御手段は、前記第4識別値の単位区間が所定個にわたって連続する場合に、当該所定個のうちの最後の単位区間以後の音響信号の音量を低下させる
    請求項1の音処理装置。
  5. 前記遅延制御手段は、前記低音量区間の一部の区間を削除することで当該低音量区間を短縮する
    請求項1から請求項4の何れかの音処理装置。
  6. 前記遅延制御手段は、前記低音量区間のうち終点を含む一部の区間を除いた区間を削除することで当該低音量区間を短縮する
    請求項5の音処理装置。
  7. 音響信号の各単位区間を音声と非音声とに順次に識別する音声識別処理と、
    前記単位区間が非音声に識別されると前記音響信号を所定の遅延量だけ遅延させ、前記単位区間が音声に識別されると当該単位区間のうちSN比または音量が低い低音量区間を短縮する遅延制御処理と、
    前記音響信号のうち非音声に識別された単位区間の音量を、音声に識別された単位区間の音量に対して低下させる音量制御処理と
    をコンピュータに実行させるプログラム。
JP2008052103A 2008-03-03 2008-03-03 音処理装置およびプログラム Expired - Fee Related JP5076974B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008052103A JP5076974B2 (ja) 2008-03-03 2008-03-03 音処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008052103A JP5076974B2 (ja) 2008-03-03 2008-03-03 音処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009210712A JP2009210712A (ja) 2009-09-17
JP5076974B2 true JP5076974B2 (ja) 2012-11-21

Family

ID=41183954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008052103A Expired - Fee Related JP5076974B2 (ja) 2008-03-03 2008-03-03 音処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5076974B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6444490B2 (ja) * 2015-03-12 2018-12-26 三菱電機株式会社 音声区間検出装置および音声区間検出方法
CN114173258B (zh) * 2022-02-07 2022-05-10 深圳市朗琴音响技术有限公司 智能音箱控制方法及智能音箱
JP7169473B1 (ja) 2022-02-17 2022-11-10 アルインコ株式会社 デジタル無線送信装置及びデジタル無線通信システム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60148263A (ja) * 1984-01-12 1985-08-05 Nippon Telegr & Teleph Corp <Ntt> 会議電話方式
JPS612463A (ja) * 1984-06-14 1986-01-08 Fujitsu Ltd 拡声通話方式
JPS61161856A (ja) * 1985-01-11 1986-07-22 Matsushita Electric Ind Co Ltd 拡声電話装置
JP3139437B2 (ja) * 1998-01-19 2001-02-26 日本電気株式会社 音声信号検出処理装置
JPH11261711A (ja) * 1998-03-13 1999-09-24 Matsushita Electric Ind Co Ltd ハンズフリー通話装置,ハンズフリーインターホン装置およびハンズフリー電話装置
JP4533517B2 (ja) * 2000-08-31 2010-09-01 株式会社東芝 信号処理方法および信号処理装置
JP4134844B2 (ja) * 2003-08-08 2008-08-20 ヤマハ株式会社 聴覚補助装置
WO2006008810A1 (ja) * 2004-07-21 2006-01-26 Fujitsu Limited 速度変換装置、速度変換方法及びプログラム
JP4630876B2 (ja) * 2005-01-18 2011-02-09 富士通株式会社 話速変換方法及び話速変換装置
CA2616305C (en) * 2005-07-27 2013-12-31 Kabushiki Kaisha Audio-Technica Conference audio system
JP2007336395A (ja) * 2006-06-16 2007-12-27 Yamaha Corp 音声処理装置及び音声通信システム

Also Published As

Publication number Publication date
JP2009210712A (ja) 2009-09-17

Similar Documents

Publication Publication Date Title
KR100883712B1 (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
KR100860805B1 (ko) 음성 강화 시스템
JP4279357B2 (ja) 特に補聴器における雑音を低減する装置および方法
JP5519689B2 (ja) 音響処理装置、音響処理方法及び補聴器
EP3338461B1 (en) Microphone array signal processing system
US8271292B2 (en) Signal bandwidth expanding apparatus
US7231347B2 (en) Acoustic signal enhancement system
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
US8126176B2 (en) Hearing aid
US9959886B2 (en) Spectral comb voice activity detection
JP6019969B2 (ja) 音響処理装置
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
JP4456504B2 (ja) 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム
JP5076974B2 (ja) 音処理装置およびプログラム
JP2005530213A (ja) 音声信号処理装置
JP2009296298A (ja) 音声信号処理装置および方法
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JPH10313498A (ja) 回り込み音抑圧形収音方法、装置及び記録媒体
JP2000081900A (ja) 収音方法、その装置及びプログラム記録媒体
JP2006333396A (ja) 音声信号拡声装置
JP4127155B2 (ja) 聴覚補助装置
JP2905112B2 (ja) 環境音分析装置
JP5157474B2 (ja) 音処理装置およびプログラム
JP5157475B2 (ja) 音処理装置およびプログラム
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees