JP5088050B2

JP5088050B2 - 音声処理装置およびプログラム

Info

Publication number: JP5088050B2
Application number: JP2007222669A
Authority: JP
Inventors: 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-08-29
Filing date: 2007-08-29
Publication date: 2012-12-05
Anticipated expiration: 2027-08-29
Also published as: US8214211B2; EP2031582A2; JP2009053618A; EP2031582A3; EP2031582B1; US20090063146A1

Description

本発明は、収音機器が収音した音響（以下「入力音」という）を当該入力音の音響的な特性に応じて区別する技術に関する。

入力音が男声および女声の何れであるかを判別する技術が従来から提案されている。例えば特許文献１には、入力音と男声標準パターンとの距離および入力音と女声標準パターンとの距離を比較した結果に応じて入力音を男声および女声の何れであるかを判定する技術が開示されている。
特開昭６０−１２９７９５号公報

しかし、実際の入力音には、収音時の環境音など人声以外の音声（以下「非人声」という）が含まれる。したがって、男声標準パターンおよび女声パターンの各々を入力音と単純に対比するだけでは、男声と女声とを高精度に判別することは困難である。以上の事情に鑑みて、本発明は、入力音が非人声を含む場合であっても男声と女声とを適切に区別するという課題の解決をひとつの目的としている。

以上の課題を解決するために、本発明に係る音声処理装置は、入力音を男声と女声と非人声とに区別する装置であって、複数の男性の発声音から生成された男性話者モデルと複数の女性の発声音から生成された女性話者モデルとを記憶する記憶手段と、入力音と男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定手段と、入力音と女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定手段と、入力音のピッチを特定するピッチ特定手段と、ピッチが第１所定値を下回る場合に男声指標値を類似側に変化させ、第１所定値よりも高い第２所定値をピッチが上回る場合に女声指標値を類似側に変化させる調整手段と、入力音を人声と非人声とに判別する第１判別手段と、第１判別手段が人声と判別した場合に、調整手段による調整後の男声指標値と女声指標値とに基づいて入力音を男声と女声とに判別する第２判別手段とを具備する。以上の構成においては、第１判別手段が人声と判別した場合に入力音が男声と女声とに区別されるから、入力音が非人声を含む場合であっても男声と女声とを適切に判別することが可能である。また、入力音のピッチに応じて男声指標値や女声指標値が調整（補正）されるから、男声と女声との判別の確実性を向上することが可能である。なお、男声指標値や女声指標値を「類似側に変化させる」とは、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が増加する構成においては男声指標値や女声指標値を増加させることを意味し、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が減少する構成においては男声指標値や女声指標値を減少させることを意味する。また、記憶手段は、ひとつの記憶装置に画定された記憶領域であっても複数の記憶装置にわたって分散的に画定された記憶領域であってもよい。
本発明の好適な態様において、調整手段は、ピッチが第１所定値を下回る場合に、ピッチが低いほど男声指標値の類似側への変化量を増加させ、ピッチが第２所定値を上回る場合に、ピッチが高いほど女声指標値の類似側への変化量を増加させる。また、調整手段は、ピッチが第１所定値を下回る場合に男声指標値を類似側に変化させ、第１所定値よりも高い第２所定値をピッチが上回る場合に女声指標値を類似側に変化させ、ピッチが第１所定値と第２所定値との間の数値である場合には男声指標値および女声指標値を調整しない構成も採用され得る。

本発明の好適な態様に係る音声処理装置は、入力音における特徴量の経時的な安定性の指標となる安定指標値を算定する安定指標算定手段を具備し、第１判別手段は、安定指標値に基づいて入力音を人声と非人声とに判別する。以上の態様によれば、入力音における特徴量の安定性に応じて入力音を人声と非人声とに区別することが可能である。
例えば、人声の安定性が非人声と比較して高いことを前提とすれば、第１判別手段は、安定指標値が閾値に対して安定側にある場合に入力音を人声と判定し、安定指標値が閾値に対して不安定側にある場合に入力音を非人声と判定する。「安定指標値が閾値に対して安定側にある場合」とは、入力音の安定性が高いほど安定指標値が増加するように安定指標値を算定する構成においては安定指標値が閾値を上回る場合を意味し、入力音における特徴量の安定性が高いほど安定指標値が減少するように安定指標値を算定する構成においては安定指標値が閾値を下回る場合を意味する。例えば、安定指標算定手段が、入力音を区分した複数のフレームのうち相前後する各フレーム間の特徴量の相違を複数のフレームについて平均化することで安定指標値を算定する構成において、第１判別手段は、安定指標値が閾値を下回る場合に入力音を人声と判定し、安定指標値が閾値を上回る場合に入力音を非人声と判定する。

本発明の好適な態様に係る音声処理装置は、入力音を区分した複数のフレームのうち有声音のフレームの個数の割合に応じた有声指標値を算定する有声指標算定手段を具備し、第１判別手段は、有声指標値に基づいて入力音を人声と非人声とに判別する。以上の態様によれば、入力音における有声音のフレームの個数の割合（換言すると無声音のフレームの個数の割合）に応じて入力音を人声と非人声とに区別することが可能である。
例えば、人声における有声音のフレームの割合が非人声と比較して高いことを前提とすれば、第１判別手段は、有声指標値が閾値に対して有声音のフレームの割合の上昇側にある場合に入力音を人声と判定し、有声指標値が当該閾値に対して有声音のフレームの割合の低下側にある場合に入力音を非人声と判定する。「有声指標値が閾値に対して有声音のフレームの割合の上昇側にある場合」とは、有声音のフレームの割合が上昇するほど有声指標値が増加するように有声指標値を算定する構成においては有声指標値が閾値を上回る場合を意味し、有声音のフレームの割合が上昇するほど有声指標値が減少するように有声指標値を算定する構成においては有声指標値が閾値を下回る場合を意味する。

本発明の好適な態様に係る音声処理装置において、第１判別手段は、男声指標値および女声指標値の何れかが閾値に対して類似側にある場合に入力音を人声と判定し、男声指標値および女声指標値の双方が当該閾値に対して非類似側にある場合に入力音を非人声と判定する。以上の態様によれば、入力音と男性話者モデルおよび女性話者モデルとの類否に応じて入力音を人声と非人声とに区別することが可能である。
男声指標値や女声指標値が閾値に対して「類似側にある場合」とは、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が増加する構成においては男声指標値や女声指標値が閾値を上回る場合を意味し、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が減少する構成においては男声指標値や女声指標値が閾値を下回る場合を意味する。前者の構成としては、ガウス混合モデルなどの確率モデルと入力音との平均尤度を男声指標値や女声指標値として算定する構成が典型的であり、後者の構成としては、ＶＱ符号帳と入力音とのＶＱ歪を男声指標値や女声指標値として算定する構成が典型的である。

本発明の好適な態様に係る音声処理装置は、第１判別手段および第２判別手段による判別の結果に応じて異なる処理を入力音に実行する信号処理手段を具備する。例えば、信号処理手段は、第１判別手段が入力音を非人声と判別した場合に入力音の音量を低下させ、第２判別手段が入力音を男声と判別した場合に入力音の高域を強調し、第２判別手段が入力音を女声と判別した場合に入力音を処理せずに出力する。本態様によれば、入力音の判別の結果（非人声と男声と女声との何れに区別されたか）に応じて入力音に対する処理が制御されるから、入力音の特性にとって適切な処理を実行することが可能である。

以上の各態様に係る音声処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、入力音と複数の男性の発声音から生成された男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定処理と、入力音と複数の女性の発声音から生成された女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定処理と、入力音のピッチを特定するピッチ特定処理と、ピッチが第１所定値を下回る場合に男声指標値を類似側に変化させ、第１所定値よりも高い第２所定値をピッチが上回る場合に女声指標値を類似側に変化させる調整処理と、入力音を人声と非人声とに判別する第１判別処理と、第１判別処理で人声と判別した場合に、調整処理後の男声指標値と女声指標値とに基づいて入力音を男声と女声とに判別する第２判別処理とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る遠隔会議システムのブロック図である。遠隔会議システム１００は、地理的に離間した空間Ｒ1と空間Ｒ2とで複数の利用者Ｕ（会議の参加者）が相互に音声を授受するシステムである。各空間Ｒ（Ｒ1，Ｒ2）には、収音機器１２と音声処理装置１４と音声処理装置１６と放音機器１８とが設置される。

収音機器１２は、空間Ｒ内の音声（以下「入力音」という）ＶINの波形を表す音声信号ＳINを生成する装置（マイクロホン）である。空間Ｒ1および空間Ｒ2の各々の音声処理装置１４は、音声信号ＳINから音声信号ＳOUTを生成して空間Ｒ1および空間Ｒ2の他方の音声処理装置１６に送信する。音声処理装置１６は、音声信号ＳOUTを増幅して放音機器１８に出力する。放音機器１８は、音声処理装置１６から供給される増幅後の音声信号ＳOUTに応じた音波を放射する装置（スピーカ）である。以上の構成により、空間Ｒ1内の各利用者Ｕの発声音が空間Ｒ2内の放音機器１８から出力され、空間Ｒ2内の各利用者Ｕの発声音が空間Ｒ1内の放音機器１８から出力される。

図２は、空間Ｒ1および空間Ｒ2の各々に設置される音声処理装置１４の構成を示すブロック図である。同図に示すように、音声処理装置１４は制御装置２２と記憶装置２４とを具備する。制御装置２２は、プログラムを実行する演算処理装置である。記憶装置２４は、制御装置２２が実行するプログラムや制御装置２２が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置２４として任意に採用される。

記憶装置２４は、男性話者モデルＭMと女性話者モデルＭFとを記憶する。男性話者モデルＭMは、複数の男性による発声音の平均的な音響特性をモデル化する。女性話者モデルＭFは、複数の女性による発声音の平均的な音響特性をモデル化する。本形態の男性話者モデルＭMおよび女性話者モデルＭFは、音声の特徴量（例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）に代表される特徴ベクトル）の分布を確率分布の加重和としてモデル化する確率モデルである。例えば、Ｍ個（Ｍは自然数）の正規分布の加重和として以下の式(1)で表現されるガウス混合モデルλが男性話者モデルＭMや女性話者モデルＭFとして好適に採用される。
λ＝｛ｐi，μi，Σi｝（ｉ＝１〜Ｍ） ……(1)
式(1)のｐiは、第ｉ番目の正規分布の加重値（重み値）である。加重値ｐ1〜ｐMの総和は１となる。式(1)のμiは第ｉ番目の正規分布の平均ベクトルであり、Σiは第ｉ番目の正規分布の共分散行列である。

制御装置２２は、プログラムを実行することで図２の各要素として機能する。さらに詳述すると、制御装置２２は、入力音ＶINが男性の発声音（男声）と女性の発声音（女声）と人声以外の音声（非人声）とのなかの何れであるかを判別する機能と、入力音ＶINについて判別された属性（男声と女声と非人声との何れであるか）に応じた処理を音声信号ＳINに対して実行する機能とを実現する。なお、制御装置２２の各要素はＤＳＰなどの電子回路によっても実現される。また、別個の集積回路に分散して各要素が実装されてもよい。

図２の分割部３２は、音声信号ＳIN（入力音ＶIN）を時間軸に沿って複数のブロックに区分する。音声信号ＳINの属性はブロック毎に判定される。各ブロックは、相互に重複しないように画定された所定長（例えば１秒）の区間である。さらに、分割部３２は、音声信号ＳINを複数のフレームに区分する。各ブロックはＮ個（Ｎは自然数）のフレームを含む。ただし、フレームの総数がブロック毎に相違する（すなわち各ブロックが可変長である）構成も採用される。

特徴抽出部３４は、音声信号ＳINの各フレームについて入力音ＶINの音響的な特徴量をベクトル（以下「特徴ベクトル」という）Ｘとして抽出する。男性話者モデルＭMや女性話者モデルＭFの生成に利用された特徴量と同種の特徴量（例えばＭＦＣＣ）が特徴ベクトルＸとして抽出される。ピッチ検出部３６は、音声信号ＳINの各フレームについてピッチ（基本周波数）Ｐ0を検出する。特徴抽出部３４による特徴ベクトルＸの抽出やピッチ検出部３６によるピッチＰ0の検出には公知の技術が任意に採用される。平均ピッチ算定部４２は、各ブロックのＮ個のフレームについてピッチ検出部３６が検出したピッチＰ0の平均値（以下「平均ピッチ」という）ＰAをブロック毎に算定する。

有声指標算定部４４は、音声信号ＳINの各ブロックについて有声指標値ＲVを算定する。有声指標値ＲVは、ブロック内のＮ個のフレームのうち有声音のフレームの個数ＮVの割合（ＲV＝ＮV／Ｎ）である。有声指標算定部４４は、ピッチ検出部３６が有意なピッチＰ0を検出できたフレームを有声音のフレームと判断して有声指標値ＲVを算定する。ただし、各フレームの入力音ＶINが有声音か無声音かの判断には公知の技術が任意に採用される。人声は非人声と比較して有声音の割合が高いという傾向がある。したがって、人声の有声指標値ＲVは非人声の有声指標値ＲVと比較して大きい。

図２の安定指標算定部４６は、特徴抽出部３４が抽出した特徴ベクトルＸに基づいて各ブロックの安定指標値ＳTを算定する。安定指標値ＳTは、ブロック内における入力音ＶINの特徴量の経時的な安定性（変動の多少や変動量）の指標となる数値である。安定指標値ＳTの算定には例えば以下の式(2)が利用される。

式(2)におけるＸ[t]は、ブロックを構成するＮ個のフレームのうち第ｔ番目のフレームから抽出された特徴ベクトルＸである。また、式(2)におけるｄ(Ｘ[t+1]，Ｘ[t])は、特徴ベクトルＸ[t+1]と特徴ベクトルＸ[t]との距離（例えばユークリッド距離）である。式(2)から理解されるように、ブロック内で相前後する各フレームの特徴ベクトルＸの相違が大きい（すなわちブロック内の入力音ＶINが不安定である）ほど安定指標値ＳTは増加する。非人声は人声と比較して特性が不安定である場合が多いから、非人声の安定指標値ＳTは人声の安定指標値ＳTと比較して大きいという傾向がある。

図２の男声指標算定部５２は、入力音ＶINと男性話者モデルＭMとの類否の指標となる数値（以下「男声指標値」という）ＬM0を音声信号ＳINの各ブロックについて算定する。同様に、女声指標算定部５４は、入力音ＶINと女性話者モデルＭFとの類否の指標となる数値（以下「女声指標値」という）ＬF0を音声信号ＳINの各ブロックについて算定する。

さらに詳述すると、男声指標算定部５２は、ブロック内の各フレームについて抽出されたＮ個の特徴ベクトルＸが男性話者モデルＭMから発生する確率（尤度）を当該ブロック内の総ての特徴ベクトルＸについて平均化した数値を男声指標値ＬM0として算定する。同様に、女声指標算定部５４は、ブロック内のＮ個の特徴ベクトルＸが女性話者モデルＭFから発生する確率をブロック内で平均化した数値を女声指標値ＬF0として算定する。

例えば、特徴ベクトルＸをＤ次元のベクトルとすると、男性話者モデルＭMから特徴ベクトルＸが出現する尤度ｐ(X|λ)は以下の式(3)で算定される。

男声指標算定部５２は、ブロック内のＮ個の特徴ベクトルＸ（Ｘ[1]〜Ｘ[N]）を式(4)に代入することで男声指標値ＬM0を算定する。

式(4)から理解されるように、男性話者モデルＭMとブロック内の入力音ＶINとで特徴量が類似するほど男声指標値ＬM0は増加する。女声指標算定部５４は、男声指標算定部５２と同様の方法で女声指標値ＬF0を算定する。したがって、女性話者モデルＭFとブロック内の入力音ＶINとで特徴量が類似するほど女声指標値ＬF0は増加する。

調整部５６は、平均ピッチ算定部４２が算定した各ブロックの平均ピッチＰAに基づいて当該ブロックの男声指標値ＬM0および女声指標値ＬF0を調整することで新たな男声指標値ＬMおよび女声指標値ＬFをブロック毎に算定する。さらに詳述すると、調整部５６は、入力音ＶINが男声および女声の何れであるかを平均ピッチＰAから推定し、男声と推定した場合には男声指標値ＬM0を増加させることで男声指標値ＬMを決定し、女声と推定した場合には女声指標値ＬF0を増加させることで女声指標値ＬFを決定する。平均ピッチＰAに応じた男女の推定は、女声の平均ピッチＰAと比較して男声の平均ピッチＰAが低いという一般的な傾向に基づいている。

図３は、調整部５６による処理の内容を示すフローチャートである。同図の処理は音声信号ＳINの各ブロックについて実行される。図３のステップＳA1において、調整部５６は、平均ピッチＰAが男声基準ピッチＰMを下回るか否か（当該ブロックの入力音ＶINが男声と推定できるか否か）を判定する。男声基準ピッチＰMは、平均的な男声のピッチを上回る数値（例えば100Hz）に設定される。

ステップＳA1の結果が肯定である場合（平均ピッチＰAからは当該ブロックの入力音ＶINが男声であると推定される場合）、調整部５６は、男声指標値ＬM0および平均ピッチＰAについて以下の式(5)の演算を実行することで男声指標値ＬMを算定する（ステップＳA2）。
ＬM＝ＬM0＋α・(ＰM−ＰA)／ＰM ……(5)
式(5)における係数αは所定の正数である。式(5)から理解されるように、平均ピッチＰAが男声基準ピッチＰMと比較して低いほど（すなわち当該ブロックの入力音ＶINが男声である可能性が高いほど）男声指標値ＬMは大きい数値となる。ステップＳA2に続くステップＳA3において、調整部５６は、女声指標値ＬF0を女声指標値ＬFとして図３の処理を終了する。

一方、ステップＳA1の結果が否定である場合、調整部５６は、平均ピッチＰAが女声基準ピッチＰFを上回るか否か（当該ブロックの入力音ＶINが女声と推定できるか否か）を判定する（ステップＳA4）。女声基準ピッチＰFは、平均的な女声のピッチを下回る数値（例えば200Hz）に設定される。

ステップＳA4の結果が肯定である場合（平均ピッチＰAからは当該ブロックの入力音ＶINが女声であると推定される場合）、調整部５６は、女声指標値ＬF0および平均ピッチＰAについて以下の式(6)の演算を実行することで女声指標値ＬFを算定する（ステップＳA5）。
ＬF＝ＬF0＋β・（ＰA−ＰF）／ＰF ……(6)
式(6)における係数βは所定の正数である。式(6)から理解されるように、平均ピッチＰAが女声基準ピッチＰFと比較して高いほど（すなわち当該ブロックの入力音ＶINが女声である可能性が高いほど）、女声指標値ＬFは大きい数値となる。ステップＳA5に続くステップＳA6において、調整部５６は、男声指標値ＬM0を男声指標値ＬMとして図３の処理を終了する。

ステップＳA1およびステップＳA4の何れの結果も否定である場合、ブロックの入力音ＶINが男声および女声の何れであるかを平均ピッチＰAのみからは推定できない。したがって、調整部５６は、男声指標値ＬMを男声指標値ＬM0に設定するとともに女声指標値ＬFを女声指標値ＬF0に設定して図３の処理を終了する（ステップＳA7）。すなわち、男声指標値ＬM0および女声指標値ＬF0の何れも調整されない。以上が調整部５６による具体的な処理である。

図２の判別部６２は、以上に説明した複数種の指標値（ＬM，ＬF，ＳT，ＲV）に基づいて各ブロックの入力音ＶINが男声と女声と非人声との何れであるかを判定し、入力音ＶINの種別を示す識別データＤをブロック毎に出力する。図４は、判別部６２による具体的な処理の内容を示すフローチャートである。ひとつのブロックについて４種類の指標値（ＬM，ＬF，ＳT，ＲV）が算定されるたびに図４の処理が実行される。図４のステップＳB1からステップＳB5は、入力音ＶINを人声と非人声とに判別する処理であり、ステップＳB6は入力音ＶINを男声と女声とに判別する処理である。

ステップＳB1において、判別部６２は、安定指標算定部４６の算定した安定指標値ＳTが閾値ＳTHを上回るか否かを判定する。非人声の安定指標値ＳTは人声の安定指標値ＳTと比較して大きいから、ステップＳB1の結果が肯定である場合、判別部６２は、当該ブロックの入力音ＶINが非人声（ＶN）であることを示す識別データＤを生成して図４の処理を終了する（ステップＳB2）。

ステップＳB1の結果が否定である場合、判別部６２は、有声指標算定部４４の算定した有声指標値ＲVが閾値ＲTHを下回るか否かを判定する（ステップＳB3）。非人声の有声指標値ＲVは人声の有声指標値ＲVと比較して低いから、ステップＳB3の結果が肯定である場合、判別部６２は、非人声（ＶN）を示す識別データＤをステップＳB2にて生成する。ステップＳB1やステップＳB3の判定が、人間の標準的な発声音について否定されるとともに各種の非人声（例えば空間Ｒ内の空調音や扉の開閉音など）について肯定されるように、閾値ＳTHおよび閾値ＲTHは実験的または統計的に選定される。

ステップＳB3の結果が否定である場合、判別部６２は、調整部５６の算定した男声指標値ＬMおよび女声指標値ＬFのうちの大きい方を人声指標値ＬVに設定する（ステップＳB4）。次いで、判別部６２は、人声指標値ＬVが閾値ＬTHを下回るか否かを判定する（ステップＳB5）。男性話者モデルＭMおよび女性話者モデルＭFの何れにも類似しない非人声の人声指標値ＬVは小さいから、ステップＳB5の結果が肯定である場合、判別部６２は、非人声（ＶN）を示す識別データＤをステップＳB2にて生成する。人間の標準的な発声音についてステップＳB5の判定が否定されるとともに非人声について肯定されるように、閾値ＬTHは実験的または統計的に選定される。

ステップＳB5の結果が否定である場合、ブロック内の入力音ＶINが人声であることが確定される。ステップＳB5に続くステップＳB6において、判別部６２は、人声指標値ＬVが男声指標値ＬMであるか否か（すなわち男声指標値ＬMが女声指標値ＬFを上回るか否か）を判定する。ステップＳB6の結果が肯定である場合（ＬM＞ＬF）、判別部６２は、当該ブロックの入力音ＶINを男声と判断する。すなわち、判別部６２は、男声（ＶM）を示す識別データＤを生成したうえで図４の処理を終了する（ステップＳB7）。一方、ステップＳB6の結果が否定である場合（ＬM＜ＬF）、判別部６２は、女声（ＶF）を示す識別データＤを生成したうえで図４の処理を終了する（ステップＳB8）。

図２の信号処理部６６は、識別データＤに応じた処理を各ブロックの音声信号ＳINに実行することで音声信号ＳOUTを生成する。音声信号ＳINに対する処理の内容は、各ブロックの入力音ＶINの属性（男声と女声と非人声との何れであるか）に応じてブロック毎に個別に選定される。

例えば、男声は一般的に女声よりも高周波成分に乏しく聴き取り難い。したがって、ブロックの識別データＤが男声（ＶM）を示す場合、信号処理部６６は、高周波成分を強調するフィルタ処理（高域強調フィルタ）を当該ブロックの音声信号ＳINに対して実施した信号を音声信号ＳOUTとして生成する。また、非人声の音量が大きいと本来の音声（人間の発声音）を聴き取り難い。したがって、ブロックの識別データＤが非人声（ＶN）である場合、信号処理部６６は、当該ブロックの音声信号ＳINの音量を低下させた信号を音声信号ＳOUTとして生成する。女声はそのままでも聴き易い場合が多いから、ブロックの識別データＤが女声（ＶF）を示す場合、信号処理部６６は、当該ブロックの音声信号ＳINを処理せずに音声信号ＳOUTとして出力する。したがって、空間Ｒ1および空間Ｒ2の各々においては、男声の高周波成分が強調されるとともに非人声が抑制された明瞭な音声が音声処理装置１６を介して放音機器１８から放射される。

以上に説明したように、本形態においては、入力音ＶINが非人声であるか否かが判定され、非人声ではないと判定された場合（図４のステップＳB5：ＮＯ）に男声と女声とに区別されるから、入力音ＶINが非人声を含む場合であっても男声と女声とが適切に区別されるという利点がある。

さらに、人声と非人声との判別に複数の指標値（ＳT，ＲV，ＬV）が使用されるから、ひとつの指標値のみが使用される構成と比較して高い精度で人声と非人声とを判別することが可能である。例えば、有声音が豊富で人声に類似する入力音ＶINであっても安定指標値ＳTが高い場合には非人声と判定することができ（ステップＳB1）、特徴量が時間的に安定で人声に類似する入力音ＶINであっても有声指標値ＲVが低い場合には非人声と判定することができる（ステップＳB3）。さらに、特徴量が時間的に安定で有声音が豊富な入力音ＶINであっても人声指標値ＬVが低い場合には非人声と判定することができる（ステップＳB5）。

また、平均ピッチＰAから入力音ＶINを男声と推定できる場合には男声指標値ＬMが増加し、平均ピッチＰAから入力音ＶINを女声と推定できる場合には女声指標値ＬFが増加するように、調整部５６が男声指標値ＬM0および女声指標値ＬF0を調整（補正）する。したがって、男声と女声とを高い精度で明確に判別できるという利点がある。

＜Ｂ：第２実施形態＞
以上の各形態においてはガウス混合モデルλを男性話者モデルＭMおよび女性話者モデルＭFとして利用した。本形態における男性話者モデルＭMおよび女性話者モデルＭFは、ＶＱ（Vector Quantization）符号帳である。すなわち、男性話者モデルＭMは、複数の男性による平均的な発声音から抽出された多数の特徴ベクトルの分布に対応したｎA個のコードベクトルＣA[1]〜ＣA[nA]を定義する。女性話者モデルＭFは、複数の女性による平均的な発声音の特徴ベクトルの分布に対応したｎB個のコードベクトルＣB[1]〜ＣB[nB]を定義する。ＶＱ符号帳（コードブック）の生成には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。

男声指標値ＬM0は、男性話者モデルＭMとブロックのＮ個の特徴ベクトルＸとから算定されるＶＱ歪である。同様に、女声指標値ＬF0は、女性話者モデルＭFとＮ個の特徴ベクトルＸとから算定されるＶＱ歪である。男声指標算定部５２は、例えば以下の式(7)に基づいて男声指標値ＬM0を算定する。なお、式(7)のｄ(ＣA[i]，Ｘ[j])は、コードベクトルＣA[i]と特徴ベクトルＸ[j]との距離（例えばユークリッド距離）である。

すなわち、ＶＱ歪は、男性話者モデルＭMが定義するｎA個のコードベクトルＣA[1]〜ＣA[nA]とブロック内の特徴ベクトルＸとの距離の最小値（min）をＮ個の特徴ベクトルＸ[1]〜Ｘ[N]について平均化した数値である。したがって、本形態においては、各ブロックの入力音ＶINが男性話者モデルＭMに類似するほど男声指標値ＬM0は減少する。女声指標値ＬF0は、ｎB個のコードベクトルＣB[1]〜ＣB[nB]とＮ個の特徴ベクトルＸとについて式(7)と同様の演算を実行することで算定される。したがって、各ブロックの入力音ＶINが女性話者モデルＭFに類似するほど女声指標値ＬF0は減少する。

図３の処理において、平均ピッチＰAが男声基準ピッチＰMを下回る場合（ステップＳA1：ＹＥＳ）、調整部５６は、男声指標値ＬM0を平均ピッチＰAに応じて減少させることで男声指標値ＬMを算定する（図３のステップＳA2）。同様に、平均ピッチＰAが女声基準ピッチＰFを上回る場合（ステップＳA4）、調整部５６は、女声指標値ＬF0を平均ピッチＰAに応じて減少させることで女声指標値ＬFを算定する（図３のステップＳA5）。

判別部６２は、図４のステップＳB4において男声指標値ＬMおよび女声指標値ＬFのうちの小さい方を人声指標値ＬVに設定し、ステップＳB5においては、人声指標値ＬVが閾値ＬTHを上回る場合に入力音ＶINを非人声と判定するとともに人声指標値ＬVが閾値ＬTHを下回る場合に入力音ＶINを人声と判定する。また、ステップＳB6において、判別部６２は、男声指標値ＬMが女声指標値ＬFを下回る場合には入力音ＶINを男声と判定し、男声指標値ＬMが女声指標値ＬFを上回る場合には入力音ＶINを女声と判定する。以上の構成によっても第１実施形態と同様の効果が奏される。

＜Ｃ：変形例＞
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
以上の各形態においては、入力音ＶINを収音した空間Ｒ内の音声処理装置１４にて識別データＤおよび音声信号ＳOUTを生成したが、識別データＤを生成する位置や音声信号ＳOUTを生成する位置は適宜に変更される。

例えば、図５の遠隔会議システム１００において、空間Ｒ1および空間Ｒ2の各々に設置された音声処理装置１４は、図２の信号処理部６６を持たず、収音機器１２から供給される音声信号ＳINと判別部６２が音声信号ＳINの各ブロックについて生成した識別データＤとを出力する。空間Ｒ1および空間Ｒ2の各々の音声処理装置１６は図２と同様の信号処理部６６（図５では図示略）を具備する。音声処理装置１６の信号処理部６６は、他の空間Ｒから受信した音声信号ＳINと識別データＤとから音声信号ＳOUTを生成して放音機器１８に出力する。音声信号ＳOUTは、第１実施形態と同様に、音声信号ＳINを識別データＤに応じて処理した信号である。

また、図６の遠隔会議システム１００において、空間Ｒ1および空間Ｒ2の各々に設置された音声処理装置１４は、収音機器１２から供給される音声信号ＳINを他の空間Ｒに送信する。空間Ｒ1および空間Ｒ2の各々に設置された音声処理装置１６は、図２と同様の構成を具備し、他の空間Ｒから受信した音声信号ＳINから音声信号ＳOUTを生成して放音機器１８に出力する。

（２）変形例２
以上の各形態においては、平均ピッチＰAに応じて男声指標値ＬM0や女声指標値ＬF0を調整したが、調整の要否や調整量を決定する要素は平均ピッチＰAに限定されない。例えば、ブロック内のＮ個のフレームについてピッチ検出部３６が検出した何れかのピッチＰ0に基づいて男声指標値ＬM0や女声指標値ＬF0を調整する構成も採用される。また、調整部５６や平均ピッチ算定部４２は省略され得る。調整部５６を省略した構成において、判別部６２は、図４のステップＳB4にて男声指標値ＬM0および女声指標値ＬF0のうち大きい方を人声指標値ＬVに設定し、ステップＳB6では、男声指標値ＬM0が女声指標値ＬF0を上回る場合に入力音ＶINを男声と判定する一方、男声指標値ＬM0が女声指標値ＬF0を下回る場合に入力音ＶINを女声と判定する。

（３）変形例３
入力音ＶINを人声と非人声とに判別する方法は任意である。例えば、図４のステップＳB1とステップＳB3とステップＳB5とのなかの１以上の処理を省略した構成も採用される。また、人声の音量が非人声の音量を上回る場合が多いという傾向を前提とすれば、音量が閾値を上回るブロックの入力音ＶINを人声と判定するとともに音量が閾値を下回るブロックの入力音ＶINを非人声と判定するといった構成も採用される。

（４）変形例４
人声指標値ＬVの大小と人声／非人声の区別との関係は第１実施形態と第２実施形態とで逆転する。すなわち、第１実施形態においては人声指標値ＬVが大きい場合に入力音ＶINが人声と判定されるのに対し、第２実施形態においては人声指標値ＬVが小さい場合に入力音ＶINが人声と判定される。以上の各形態に例示した他の指標値（ＳT，ＲV）についても同様に、当該指標値の大小と人声／非人声の区別との関係は適宜に変更される。

例えば、ブロック内の入力音ＶINの安定性が高いほど安定指標値ＳTが増加するように安定指標値ＳTを算定する構成を想定する。例えば式(2)の右辺の逆数が安定指標値ＳTとして算定される。判別部６２は、第１実施形態とは逆に、安定指標値ＳTが閾値ＳTHを下回る場合に入力音ＶINを非人声と判定し、安定指標値ＳTが閾値ＳTHを上回る場合に入力音ＶINを人声と判定する。安定指標値ＳTの大小と入力音ＶINの安定性の高低とが第１実施形態および本変形例の何れの関係にあっても、安定指標値ＳTが閾値ＳTHに対して安定側にある場合に入力音ＶINを人声と判定し、安定指標値ＳTが閾値ＳTHに対して不安定側にある場合に入力音ＶINを非人声と判定するという関係は同様である。

次に、ブロックのうち有声音のフレームの割合が高いほど有声指標値ＲVが減少するように有声指標値ＲVが算定される構成を想定する。例えば、ブロック内のＮ個のフレームのうち無声音のフレームの個数ＮNの割合（ＲV＝ＮN／Ｎ）が有声指標値ＲVとして算定される。したがって、人声の有声指標値ＲVは非人声の有声指標値ＲVと比較して小さい数値となる。判別部６２は、有声指標値ＲVが閾値ＲTHを上回る場合に入力音ＶINを非人声と判定し、有声指標値ＲVが閾値ＲTHを下回る場合に入力音ＶINを人声と判定する。有声指標値ＲVの大小と人声／非人声の区別とが第１実施形態および本変形例の何れの関係にあっても、有声指標値ＲVが閾値ＲTHに対して有声音のフレームの減少側（無声音のフレームの増加側）にある場合に入力音ＶINを非人声と判定し、有声指標値ＲVが閾値ＲTHに対して有声音のフレームの増加側（無声音のフレームの減少側）にある場合に入力音ＶINを人声と判定するという関係は同様である。

（５）変形例５
信号処理部６６による処理の内容は任意である。例えば、男声（ＶM）と判断されたブロックについて音声信号ＳINの音量を増加させる構成や、女声（ＶF）と判断されたブロックについて音声信号ＳINの音量を減少させる構成も採用される。また、例えば音声信号ＳINの各ブロックを例えば男声と女声とで別個のクラスタに分類する構成や音声信号ＳINを発声者毎に別個のクラスタに分類する構成において、非人声に判別されたブロックを分類の対象から除外するといった構成も好適である。

（６）変形例６
以上の各形態においては音声信号ＳINを３種類の音声（男声，女声，非人声）に分類したが、音声信号ＳINをさらに多種に分類する構成も採用される。例えば、複数の子供の平均的な音声から生成された話者モデルとＮ個の特徴ベクトルＸとの対比に基づいて両者の類否の指標値（以下「子供指標値」という）を算定する。判別部６２は、図４のステップＳB4にて設定した人声指標値ＬVが当該子供指標値である場合に入力音ＶINを子供の発声音と判定する。

本発明の第１実施形態に係る遠隔会議システムの構成を示すブロック図である。音声処理装置の構成を示すブロック図である。調整部による具体的な処理の内容を示すフローチャートである。判別部による具体的な処理の内容を示すフローチャートである。変形例に係る遠隔会議システムの構成を示すブロック図である。変形例に係る遠隔会議システムの構成を示すブロック図である。

符号の説明

１００……遠隔会議システム、１２……収音機器、１４……音声処理装置、１６……音声処理装置、１８……放音機器、２２……制御装置、２４……記憶装置、３２……分割部、３４……特徴抽出部、３６……ピッチ検出部、４２……平均ピッチ算定部、４４……有声指標算定部、４６……安定指標算定部、５２……男声指標算定部、５４……女声指標算定部、５６……調整部、６２……判別部、６６……信号処理部、Ｒ1，Ｒ2……空間、ＶIN……入力音、ＳIN，ＳOUT……音声信号、ＳT……安定指標値、ＲV……有声指標値、ＬM0，ＬM……男声指標値、ＬF0，ＬF……女声指標値、ＬV……人声指標値、Ｘ（Ｘ[1]〜Ｘ[N]）……特徴ベクトル、Ｄ……識別データ。

Claims

入力音を男声と女声と非人声とに区別する装置であって、
複数の男性の発声音から生成された男性話者モデルと複数の女性の発声音から生成された女性話者モデルとを記憶する記憶手段と、
前記入力音と前記男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定手段と、
前記入力音と前記女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定手段と、
前記入力音のピッチを特定するピッチ特定手段と、
前記ピッチが第１所定値を下回る場合に前記男声指標値を類似側に変化させ、前記第１所定値よりも高い第２所定値を前記ピッチが上回る場合に前記女声指標値を類似側に変化させる調整手段と、
前記入力音を人声と非人声とに判別する第１判別手段と、
前記第１判別手段が人声と判別した場合に、前記調整手段による調整後の前記男声指標値と前記女声指標値とに基づいて前記入力音を男声と女声とに判別する第２判別手段と
を具備する音声処理装置。
前記調整手段は、前記ピッチが前記第１所定値を下回る場合に、前記ピッチが低いほど前記男声指標値の類似側への変化量を増加させ、前記ピッチが前記第２所定値を上回る場合に、前記ピッチが高いほど前記女声指標値の類似側への変化量を増加させる
請求項１の音声処理装置。
前記調整手段は、前記ピッチが前記第１所定値を下回る場合に前記男声指標値を類似側に変化させ、前記ピッチが前記第２所定値を上回る場合に前記女声指標値を類似側に変化させ、前記ピッチが前記第１所定値と前記第２所定値との間の数値である場合には前記男声指標値および前記女声指標値を調整しない
請求項１または請求項２の音声処理装置。
前記入力音における特徴量の経時的な安定性の指標となる安定指標値を算定する安定指標算定手段を具備し、
前記第１判別手段は、前記安定指標値に基づいて前記入力音を人声と非人声とに判別する
請求項１から請求項３の何れかの音声処理装置。
前記入力音を区分した複数のフレームのうち有声音のフレームの個数の割合に応じた有声指標値を算定する有声指標算定手段を具備し、
前記第１判別手段は、前記有声指標値に基づいて前記入力音を人声と非人声とに判別する
請求項１から請求項４の何れかの音声処理装置。
前記第１判別手段は、前記男声指標値および前記女声指標値の何れかが閾値に対して類似側にある場合に前記入力音を人声と判定し、前記男声指標値および前記女声指標値の双方が当該閾値に対して非類似側にある場合に前記入力音を非人声と判定する
請求項１から請求項５の何れかの音声処理装置。
前記第１判別手段が前記入力音を非人声と判別した場合に前記入力音の音量を低下させ、前記第２判別手段が前記入力音を男声と判別した場合に前記入力音の高域を強調し、前記第２判別手段が前記入力音を女声と判別した場合に前記入力音を処理せずに出力する信号処理手段
を具備する請求項１から請求項６の何れかの音声処理装置。
入力音と複数の男性の発声音から生成された男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定処理と、
前記入力音と複数の女性の発声音から生成された女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定処理と、
前記入力音のピッチを特定するピッチ特定処理と、
前記ピッチが第１所定値を下回る場合に前記男声指標値を類似側に変化させ、前記第１所定値よりも高い第２所定値を前記ピッチが上回る場合に前記女声指標値を類似側に変化させる調整処理と、
前記入力音を人声と非人声とに判別する第１判別処理と、
前記第１判別処理で人声と判別した場合に、前記調整処理後の前記男声指標値と前記女声指標値とに基づいて前記入力音を男声と女声とに判別する第２判別処理と
をコンピュータに実行させるプログラム。