JP2014186295A

JP2014186295A - 音声区間検出装置、音声認識装置、その方法、及びプログラム

Info

Publication number: JP2014186295A
Application number: JP2013175584A
Authority: JP
Inventors: Noriyoshi Kamado; 記良鎌土; Keisuke Kinoshita; 慶介木下; Yuji Aono; 裕司青野; Satoru Kobashigawa; 哲小橋川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-02-21
Filing date: 2013-08-27
Publication date: 2014-10-02
Anticipated expiration: 2033-08-27
Also published as: JP6125953B2

Abstract

【課題】残響を含む実環境下における、単一のマイクへの主話者及び他話者を含む複数の話者の音声が混入した音声ディジタル信号に対しても、高い精度で主話者の音声を検出することができる音声区間検出技術を提供する。
【解決手段】音声区間検出装置は、音声ディジタル信号に含まれる残響成分を推定し、残響信号を取得する残響推定部と、残響信号に基づいて主話者音声区間または主話者外音区間の少なくとも一方を検出する話者別区間検出部とを含む。
【選択図】図１

Description

本発明は、音声ディジタル信号から音声区間を検出する技術、及び検出した音声区間に対して行う音声認識技術に関する。

マルチチャネルの音声ディジタル信号から音声区間を検出する技術として特許文献１が知られている。雑音や対象とする人（以下「主話者」ともいう）以外の人（以下「他話者」ともいう）の音声を含むような音声ディジタル信号から、主話者の音声区間を検出する技術として特許文献２が知られている。特許文献２では、まず、音声ディジタル信号を所定の長さのフレ-ムごとに取り出し、そのフレ-ムの音声ディジタル信号を解析し、そのフレ-ムの音声ディジタル信号に対象とする話者の音声が含まれるか否かを判定し、判定結果を音声/非音声判定値として求める。次に、音声ディジタル信号に対して音声認識を行い、その音声ディジタル信号から認識単位の系列と、各認識単位の発話時間情報とを求める。さらに、音声/非音声判定値と、認識単位の系列及び各認識単位の発話時間情報と用いて、認識単位の発話時間に対応するフレ-ムの音声/非音声判定値の集計値の大小に基づいて、認識単位ごとに対象とする話者によって発話されたか否かを判定する。

特開２００９−０３１６０４号公報特開２０１２−０４８１１９号公報

特許文献１は、主話者、他話者関係なく全ての音声区間を検出し、主話者以外の音声も抽出するため、主話者に対する音声認識精度が大きく劣化する場合がある。また、特許文献１では複数のマイクの使用が前提となり、単一のマイクによる収音を前提とするモバイル環境における音声認識では使用できない。また、特許文献２では、音声認識を行い、その認識結果を用いるため、残響下においては、認識精度が落ち、その結果、音声ディジタル信号から主話者の音声が含まれる区間（以下「主話者音声区間」ともいう）を推定する精度が劣化するという問題がある。

本発明は、残響を含む実環境下における、単一のマイクへの主話者及び他話者を含む複数の話者の音声が混入した音声ディジタル信号に対しても、高い精度で主話者の音声を検出することができる音声区間検出技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、音声区間検出装置は、音声ディジタル信号に含まれる残響成分を推定し、残響信号を取得する残響推定部と、残響信号に基づいて主話者音声区間または主話者外音区間の少なくとも一方を検出する話者別区間検出部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、音声区間検出方法は、音声ディジタル信号に含まれる残響成分を推定し、残響信号を取得する残響推定ステップと、残響信号に基づいて主話者音声区間または主話者外音区間の少なくとも一方を検出する話者別区間検出ステップとを含む。

本発明によれば、残響を含む実環境下における、単一のマイクへの主話者及び他話者を含む複数の話者の音声が混入した音声ディジタル信号に対しても、高い精度で主話者の音声を検出することができるという効果を奏する。

第一実施形態に係る音声区間検出装置の機能ブロック図。第一実施形態に係る音声区間検出装置の処理フローを示す図。図３Ａは主話者の音声に対応する音声アナログ信号のイメージを表す図、図３Ｂは主話者外音に対応する音声アナログ信号のイメージを表す図。図４Ａは主話者の音声に対応する残響信号をベクトルで表わしたイメージを表す図、図４Ｂは主話者外音に対応する残響信号をベクトルで表わしたイメージを表す図。図５Ａは主話者の音声に対応する差分をベクトルで表わしたイメージを表す図、図５Ｂは主話者外音に対応する差分をベクトルで表わしたイメージを表す図。第二実施形態に係る音声区間検出装置の機能ブロック図。第二実施形態に係る音声区間検出装置の処理フローを示す図。第三、第四実施形態に係る音声区間検出装置の機能ブロック図。第三、第四実施形態に係る音声区間検出装置の処理フローを示す図。第五実施形態に係る音声区間検出装置の機能ブロック図。第五実施形態に係る音声区間検出装置の処理フローを示す図。図１２Ａは主話者の音声の残響信号のパワーをベクトルで表わしたイメージを表す図、図１２Ｂは主話者外音の残響信号のパワーをベクトルで表わしたイメージを表す図。第六実施形態に係る音声区間検出装置の機能ブロック図。第六実施形態に係る音声区間検出装置の処理フローを示す図。図１５Ａは音声ディジタル信号に含まれる他話者の音声が小さく、その残響成分が小さい場合における主話者の音声の残響信号のパワーをベクトルで表わしたイメージを表す図、図１５Ｂは音声ディジタル信号に含まれる他話者の音声が小さく、その残響成分が小さい場合における主話者外音の残響信号のパワーをベクトルで表わしたイメージを表す図。第七実施形態に係る音声区間検出装置の機能ブロック図。第七実施形態に係る音声区間検出装置の処理フローを示す図。第一から第七実施形態に係る音声区間検出装置の何れかと、第七実施形態に係る音声認識装置との配置を説明するための図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「~」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
本実施形態では、音声ディジタル信号に含まれる残響成分を推定し、残響成分から主話者外音を強調する。言い換えると、マイクへの入力信号（音声アナログ信号）に含まれる主話者外音区間を、入力信号に含まれる残響成分から抽出する。なお、「主話者外音」とは、主話者の音声以外がメインの音を意味する。音声ディジタル信号に含まれる残響成分の推定方法としては、例えば参考文献１の残響成分の推定方法を用いることができる。
[参考文献１]国際公開第２００７／１００１３７号パンフレット

モバイル環境では、単一マイクで収録される主話者の音声と主話者外音にそれぞれ含まれる残響成分の差分が大きいため、主話者外音を高精度に強調できる。ただし、本実施形態は、モバイル環境、単一のマイクに限定されるものではなく、他の環境、複数のマイクから得られる音声アナログ信号にも適用可能である。

＜第一実施形態に係る音声区間検出装置１００＞
図１は第一実施形態に係る音声区間検出装置１００の機能ブロック図を、図２はその処理フローを示す。音声区間検出装置１００は、音声信号取得部１１０、残響推定部１２０、ゲイン調整部１３０、主話者外音強調部１４０、主話者外音区間検出部１６０及び主話者音声抽出部１７０を含む。
音声区間検出装置１００は、音声アナログ信号を受け取り、主話者の音声に対応する音声ディジタル信号を出力する。

＜音声信号取得部１１０＞
入力：音声アナログ信号
出力：音声ディジタル信号
音声信号取得部１１０は、アナログの音声信号（音声信号）を受け取り、ディジタルの音声信号（音声ディジタル信号）に変換し（ｓ１１０）、出力する。図３は、マイク９０で収音された音声信号をベクトルで表わしたイメージを表す。図３Ａ及び図３Ｂは、それぞれ主話者の音声及び主話者外音に対応する音声アナログ信号を表す。図３Ａに示すように、主話者の音声に対応する音声信号は、直接音Ｄが大きく、反射音Ｒ（残響成分）が小さい。一方、図３Ｂに示すように、他話者の音声に対応する音声信号は、直接音Ｄが小さく、反射音Ｒ（残響成分）が大きい。このような性質を利用して、後述する主話者外音区間検出部１６０では、主話者音声区間または主話者外音区間の少なくとも一方を検出する。

＜残響推定部１２０＞
入力: 音声ディジタル信号
出力：残響信号
残響推定部１２０は、音声ディジタル信号に含まれる残響成分を推定し（ｓ１２０）、残響信号を取得する。図４Ａ及び図４Ｂは、それぞれ主話者の音声及び主話者外音に対応する残響信号をベクトルで表わしたイメージを表す。

以下、残響成分を推定する方法の概要を説明する。

原音声信号s(z)は、式(1)のように、白色信号u(z)に短い自己回帰（Auto-Regressive:以下「AR」ともいう)過程がかかったものである。AR過程のZ変換をv(z)=1/(1-b(z))とし、1-b(z)を多項式とする。

この原音声信号s(z)が空間を伝達し、マイクで観測される信号x(z)は、式(1)より、以下のように表される。

ここで、h(z)は、音源からマイクまでの室内伝達関数を表す。音声信号は、v(z)に従って強い短期的な相関を有する。そこで、式(3)による短期的な相関を取り除く線形予測によるPre-whitening処理を施すことにより、v(z)は、ほぼ白色信号とみなせ、v(z)≒1が成り立つ。

ここで、b(p)は、v(z)を効果的に抑圧するための線形予測係数であり、式(4)により求められる。

ここで、r(i)は、マイクで観測された信号x(z)がiサンプルずれた場合の自己相関係数）を示す。この線形予測は、30msのフィルタ長で実施し、30ms以内に含まれる初期反射音成分及び音声の短期的な相関が取り除かれることが期待される。

Dをステップサイズ(遅延)、Lをフィルタ長とすると、残響信号d(n)は以下のように定式化することができる。

ここで、a(l)(ローマ字のエル)は線形予測係数、x~(n)は式(3)により求められたPre-whitening処理された観測音を表す。a(l)をｚ変換したa(z)は、式(6)で求められる。

ここで、h_min(z)とh_max(z)は、それぞれh(z)の最小位相成分（Z平面上の単位円内の零点に対応する成分）と最大位相成分（Z平面上の単位円外の零点に対応する成分）を表す。また、min[h_max(z)]は、h_max(z)を最小位相化する関数を表す。

一般に、Dは10〜200msに相当する値を、Lは100ms〜500msに相当する値を設定する。
本手法は、例えば参考文献１に詳しい。

上述の方法や、他の既存の残響推定技術を用いて、残響推定部１２０は、音声ディジタル信号ｘ（ｎ）に含まれる残響成分を推定し、残響信号ｄ（ｎ）を取得する。

＜ゲイン調整部１３０＞
入力：残響信号
出力：ゲイン調整された残響信号
ゲイン調整部１３０は、残響信号を受け取り、残響信号にゲインGを乗算し（ｓ１３０）、ゲイン調整された残響信号を得、出力する。ゲインGは、1よりも小さく０より大きな値を用いる。例えば、0.8〜1.0の値を用いる。これにより、後述する主話者外音強調部１４０において、音声ディジタル信号と残響信号との差分を求める際に生じる歪を低減させることができる。

＜主話者外音強調部１４０＞
入力：音声ディジタル信号、ゲイン調整された残響信号
出力：主話者外音が強調された音声ディジタル信号
主話者外音強調部１４０は、音声ディジタル信号とゲイン調整された残響信号とを受け取り、これらの信号の差分を算出し（ｓ１４０）、主話者外音が強調された音声ディジタル信号として出力する。図５Ａ及び図５Ｂは、それぞれ主話者の音声及び主話者外音に対応する差分をベクトルで表わしたイメージを表す。なお、図中の小さい矢印は除去しきれなかった残響成分Ｒ’を表す。このような処理を行うことで、主話者の音声及び主話者外音のパワーの差を出すことができ、音声ディジタル信号中の主話者外音区間を高精度に抽出することができるようになる。なお、ゲイン調整部１３０及び主話者外音強調部１４０の処理を合わせて、スペクトルサブトラクション法という既知の手法で実現することができる（参考文献２参照）。
[参考文献２] BOLL, S. F., "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Trans. Acoust., Speech, Signal Processing, 1979, vol. ASSP-27, pp. 113-120

＜主話者外音区間検出部１６０＞
入力：主話者外音が強調された音声ディジタル信号
出力：区間情報
主話者外音区間検出部１６０は、主話者外音が強調された音声ディジタル信号を受け取り、主話者外音が強調された音声ディジタル信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し（ｓ１６０）、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、主話者外音が強調された音声ディジタル信号のパワーを閾値と大小比較する。（１）閾値より大きい場合、主話者の音声区間、（２）閾値より小さい場合、主話者外音区間であると判断する。閾値は主話者音声区間と主話者外音区間の正解ラベルのついた学習データ等を用いて予め定めておく。処理は例えば、音声ディジタル信号を前後Nサンプル(0.1〜0.3msに対応するサンプル数)を1区間とし、区間毎に行う。区間情報としては、例えば、主話者音声区間または主話者外音区間の少なくとも一方の開始時間と終了時間等を用いることができる。また、音声ディジタル信号を入力とし、音声ディジタル信号に主話者音声区間または主話者外音区間の少なくとも一方のフラグを付与した信号（以下「フラグ付音声ディジタル信号」ともいう）等を区間情報として用いてもよい。ただし、区間情報は例示したものに限定されず、主話者音声区間または主話者外音区間の少なくとも一方を示す情報であればどのようなものであってもよい。

＜主話者音声抽出部１７０＞
入力：音声ディジタル信号、区間情報
出力：主話者の音声に対応する音声ディジタル信号
主話者音声抽出部１７０は、音声ディジタル信号と区間情報とを受け取り、区間情報を用いて、音声ディジタル信号から主話者の音声に対応する部分を抽出し（ｓ１７０）、音声区間検出装置１００の出力値として出力する。

例えば、区間情報として、開始時間と終了時間を用いる場合、開始時間と終了時間との間のサンプルに１を、さらに、開始時間と終了時間のマージンを確保するため、主話者音声区間から主話者外音区間へと切り替わる開始時間の前にNサンプル(0.1〜0.4msに対応するサンプル長)の1を、1から0へと切り替わる終了時間の後にMサンプル(0.1〜0.4msに対応するサンプル長)の1を付加するマージン処理を行う。このマージン処理をした主話者音声区間（つまり、開始時間前Nサンプルから終了時間後Mサンプルに対応する部分が１であり、他の部分が0である時間サンプル列）を音声ディジタル信号に時間サンプル毎に乗算することで主話者音声を抽出することができる。

また、音声ディジタル信号に主話者音声区間のフラグを付与した信号を区間情報として用いた場合、その信号にマージン処理を行い（つまり、始端と終端のそれぞれNサンプルとMサンプルの音声ディジタル信号に主話者音声区間のフラグを付与する）、主話者音声区間のフラグを付与した部分に対応する音声ディジタル信号を抽出する。また、音声ディジタル信号に主話者外音区間のフラグを付与した信号を区間情報として用いた場合、主話者外音区間のフラグを付与していない音声ディジタル信号にマージン処理を行い、主話者外音区間のフラグを付与していない部分に対応する音声ディジタル信号を抽出する。

＜効果＞
このような構成により、残響を含む実環境下における、単一のマイクへの主話者及び他話者を含む複数の話者の音声が混入した音声ディジタル信号に対しても、高い精度で主話者の音声を検出することができる。また、その結果、利用するマイクの個数を少なくすることができ、ハードウェアの構成を軽量化することができる。

＜変形例＞
音声区間検出装置１００は、入力信号として音声ディジタル信号を受け取る場合には、必ずしも音声信号取得部１１０を備えなくともよい。
音声区間検出装置１００は、必ずしもゲイン調整部１３０を備えなくともよい。この場合、主話者外音強調部１４０では、ゲイン調整されていない残響信号をそのまま用いる。
音声区間検出装置１００は、必ずしも主話者音声抽出部１７０を備えなくともよい。主話者外音区間検出部１６０の出力値（区間情報）を、音声区間検出装置１００の出力値として出力する。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。
マイク９０により収音された音には音声以外の雑音が含まれる場合もある。そこで、本実施形態では、第一実施形態の処理の前段で、音声ディジタル信号に含まれる雑音を抑圧する。このような構成により、主話者外音強調部と主話者外音区間検出部の雑音による精度劣化を防ぎ、雑音環境下においても高精度に主話者音声を抽出できる。

図６は第二実施形態に係る音声区間検出装置２００の機能ブロック図を、図７はその処理フローを示す。音声区間検出装置２００は、音声区間検出装置１００の構成に加え、さらに、雑音抑圧部２１０を含む。

＜雑音抑圧部２１０＞
入力：音声ディジタル信号
出力：雑音を抑圧された音声ディジタル信号
雑音抑圧部２１０は、音声ディジタル信号を受け取り、音声ディジタル信号に含まれる音声以外の雑音を抑圧し（ｓ２１０）、雑音を抑圧された音声ディジタル信号を出力する。雑音抑圧の方法として、既知の技術を用いることができ、例えば、MMSE-STSA法（参考文献３参照）等が考えられる。
[参考文献３] Y.Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator”, IEEE Trans. Acoust. Speech Signal Process., April 1985, vol.ASSP-33, no.2, pp.443-445

なお、残響推定部１２０、主話者外音区間検出部１６０及び主話者音声抽出部１７０において用いる音声ディジタル信号は、雑音抑圧部２１０において雑音を抑圧された音声ディジタル信号である。

＜効果＞
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、雑音による主話者音声区間の抽出精度劣化を防ぐことができる。

＜第三実施形態＞
第一実施形態と異なる部分を中心に説明する。
本実施形態では、主話者の音声と主話者外音を含む音声ディジタル信号全体のパワーの値も用いて主話者外音区間を検出する。

図８は第三実施形態に係る音声区間検出装置３００の機能ブロック図を、図９はその処理フローを示す。音声区間検出装置３００は、音声信号取得部１１０、残響推定部１２０、ゲイン調整部１３０、主話者外音強調部１４０、主話者外音区間検出部３６０及び主話者音声抽出部１７０を含み、さらに、音声信号パワー計算部３５０を含む。

＜音声信号パワー計算部３５０＞
入力：音声ディジタル信号
出力：音声ディジタル信号のパワー
音声信号パワー計算部３５０は、音声ディジタル信号を受け取り、そのパワーを計算し（ｓ３５０）、出力する。なお、音声信号パワー計算部３５０は、その内部に信号スムージング部３５１（図中、破線で示す）を備えてもよい。信号スムージング部３５１は、音声ディジタル信号を前後Nサンプル(0.1〜0.3msに対応するサンプル数)を用いた平均可算を行いスムージングする（ｓ３５１、図中破線で示す）。音声信号パワー計算部３５０は、スムージングした音声ディジタル信号のパワーを計算してもよい。スムージングを行うことで主話者音声区間または主話者外音を検出しやすいよう強調することができる。

＜主話者外音区間検出部３６０＞
入力：音声ディジタル信号のパワー、主話者外音が強調された音声ディジタル信号
出力：主話者音声区間または主話者外音区間
主話者外音区間検出部３６０は、音声ディジタル信号のパワー及び主話者外音が強調された音声ディジタル信号を受け取り、音声ディジタル信号のパワーにより正規化を行った「主話者外音が強調された音声ディジタル信号」のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し（ｓ３６０）、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、音声ディジタル信号のパワーによる正規化を行った「主話者外音が強調された音声ディジタル信号」のパワーを閾値と大小比較する。主話者外音が強調された音声ディジタル信号に代えて、音声ディジタル信号のパワーによる正規化を行った「主話者外音が強調された音声ディジタル信号」のパワーを用いる点を除けば、主話者外音区間検出部１６０における処理と同様の処理を行う。

＜効果＞
このような構成とすることで、残響推定部によって誤りによって直接音成分であると推定された残響成分を音声ディジタル信号のパワーにより減衰させることができ、第一実施形態と同様の効果を得ることができる。なお、第一実施形態の変形例や第二実施形態と本実施形態とを組合せてもよい。

＜第四実施形態＞
第三実施形態と異なる部分を中心に説明する。
本実施形態では、音声ディジタル信号全体のパワーを用いて主話者の音声や主話者外音が存在しない無音区間を推定し、無音区間外において、主話者音声区間または主話者外音区間を検出することで、検出精度を高める。

図８は第四実施形態に係る音声区間検出装置４００の機能ブロック図を、図９はその処理フローを示す。音声区間検出装置４００は、主話者外音区間検出部３６０に代えて主話者外音区間検出部４６０を含む。

＜主話者外音区間検出部４６０＞
入力：音声ディジタル信号のパワー、主話者外音が強調された音声ディジタル信号
出力：区間情報
主話者外音区間検出部４６０は、音声ディジタル信号のパワー及び主話者外音が強調された音声ディジタル信号を受け取る。主話者外音区間検出部４６０は、その内部に無音区間抽出部４６１を含む（図中、破線で示す）。無音区間抽出部４６１は、音声ディジタル信号のパワーを受け取り、そのパワーから無音区間を抽出する（ｓ４６１、図中破線で示す）。例えば音声ディジタル信号のパワーを閾値と大小比較する。パワーをP=10log10（音声ディジタル信号の二乗値）[dB]とした場合、閾値は-10〜10[dB]の値で設定し、この閾値と大小比較する。閾値よりパワーが小さい区間を無音区間とし、大きい区間を無音区間外とする。無音区間の判定は、例えば0.1〜0.3msを1区間として、区間毎に行う。

さらに、主話者外音区間検出部４６０は、無音区間外の音声ディジタル信号から主話者音声区間または主話者外音区間の少なくとも一方を検出する（ｓ４６０）。例えば、無音区間外において、主話者外音が強調された音声ディジタル信号に対して音声ディジタル信号のパワーによる正規化を行い、無音区間外において音声ディジタル信号のパワーによる正規化を行った「主話者外音が強調された音声ディジタル信号」のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出する。単なる「主話者外音が強調された音声ディジタル信号」に代えて、無音区間外において音声ディジタル信号のパワーによる正規化を行った「主話者外音が強調された音声ディジタル信号」のパワーを用いる点を除けば、主話者外音区間検出部１６０における処理と同様の処理を行う。

なお、主話者外音区間検出部４６０は、その内部に信号スムージング部４６２（図中、破線で示す）を備えてもよい。信号スムージング部４６２は、単なる「音声ディジタル信号」に代えて、上述の信号スムージング部３５１と同様の処理を行う。スムージングを行うことで主話者音声区間または主話者外音を検出しやすいよう強調することができる。この場合、主話者外音区間検出部４６０は、スムージングが施された、無音区間外において音声ディジタル信号のパワーによる正規化を行った「主話者外音が強調された音声ディジタル信号」のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出する。

＜効果＞
このような構成により、第三実施形態と同様の効果を得ることができる。さらに、無音区間外において、主話者音声区間または主話者外音区間を検出することで、検出精度を高めることができる。なお、無音区間抽出部４６１を含まず、信号スムージング部４６２のみを含む構成としてもよい。

＜第五実施形態＞
第一実施形態と異なる部分を中心に説明する。
図１０は第五実施形態に係る音声区間検出装置５００の機能ブロック図を、図１１はその処理フローを示す。音声区間検出装置５００は、音声信号取得部１１０、残響推定部１２０、ゲイン調整部１３０、残響信号パワー計算部５４０、主話者外音区間検出部５６０及び主話者音声抽出部１７０を含む。

＜残響信号パワー計算部５４０＞
入力：ゲイン調整された残響信号
出力：残響信号のパワー
残響信号パワー計算部５４０は、ゲイン調整された残響信号を受け取り、そのパワーを計算し（ｓ５４０）、出力する。なお、残響信号パワー計算部５４０における処理は、音声ディジタル信号に代えてゲイン調整された残響信号を用いる点を除けば、音声信号パワー計算部３５０の処理と同様である。例えば、その内部に信号スムージング部３５１を含んでもよい。図１２Ａ及び図１２Ｂは、それぞれ主話者の音声及び主話者外音の残響信号のパワーをベクトルで表わしたイメージを表す。図１２Ａ及び図１２Ｂや図４Ａ及び図４Ｂからも分かるように、主話者の音声では残響信号のパワーが小さく、主話者外音では残響信号のパワーが大きくなる。このような性質を利用して、後述する主話者外音区間検出部５６０では、区間情報を求める。

＜主話者外音区間検出部５６０＞
入力：残響信号のパワー
出力：区間情報
主話者外音区間検出部５６０は、残響信号のパワーを受け取り、その残響信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し（ｓ５６０）、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、残響信号のパワーを閾値と大小比較する。（１）閾値より大きい場合、主話者外音区間、（２）閾値より小さい場合、主話者音声区間であると判断する。閾値は主話者音声区間と主話者外音区間の正解ラベルのついた学習データ等を用いて予め定めておく。処理は例えば、音声ディジタル信号を前後Nサンプル(0.1〜0.3msに対応するサンプル数)を1区間とし、区間毎に行う。

＜効果＞
このような構成により、第一実施形態と同様の効果を得ることができる。なお、第一実施形態の変形例と本実施形態を組合せてもよいし、第二実施形態の雑音抑圧部２１０や第四実施形態の音声信号パワー計算部３５０、無音区間抽出部４６１や信号スムージング部４６２と本実施形態を組合せてもよい。ただし、無音区間抽出部４６１や信号スムージング部４６２では、主話者外音が強調された音声ディジタル信号のパワーに代えて、残響信号のパワーを用いる。

＜第六実施形態＞
第五実施形態と異なる部分を中心に説明する。
図１３は第六実施形態に係る音声区間検出装置６００の機能ブロック図を、図１４はその処理フローを示す。音声区間検出装置６００は、さらに、音声信号パワー計算部３５０を含み（第三実施形態参照）、主話者外音区間検出部５６０に代えて主話者外音区間検出部６６０を含む。

＜主話者外音区間検出部６６０＞
入力：音声ディジタル信号のパワー、残響信号のパワー
出力：区間情報
主話者外音区間検出部６６０は、音声ディジタル信号のパワー及び残響信号のパワーを受け取り、音声ディジタル信号のパワーにより正規化を行った残響信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し（ｓ６６０）、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、音声ディジタル信号のパワーによる正規化を行った残響信号のパワーを閾値と大小比較する。単なる「残響信号のパワー」に代えて、音声ディジタル信号のパワーによる正規化を行った「残響信号のパワー」を用いる点を除けば、主話者外音区間検出部５６０における処理と同様の処理を行う。

＜効果＞
このような構成により、残響推定部により誤って残響成分であると推定された直接音成分を音声ディジタル信号のパワーにより減衰させることができ、第五実施形態と同様の効果を得ることができる。なお、第一実施形態の変形例と本実施形態を組合せてもよいし、第二実施形態の雑音抑圧部２１０や第四実施形態の音声信号パワー計算部３５０、無音区間抽出部４６１や信号スムージング部４６２と本実施形態を組合せてもよい。ただし、無音区間抽出部４６１や信号スムージング部４６２では、主話者外音が強調された音声ディジタル信号のパワーに代えて、残響信号のパワーを用いる。

＜第七実施形態＞
第一実施形態と異なる部分を中心に説明する。
＜第七実施形態のポイント＞
本実施形態では、音声ディジタル信号に含まれる残響成分を推定し、残響成分から主話者音を強調する。言い換えると、マイクへの入力信号（音声アナログ信号）に含まれる主話者音区間を、入力信号に含まれる残響成分から抽出する。

モバイル環境において、単一マイクで収録される他話者の音声に含まれる残響成分は、その直接音が不明瞭なために推定し難いことがある。このような性質を利用して、後述する主話者音区間検出部７６０では、区間情報を求める。

なお、第五実施形態では、主話者の音声では残響信号のパワーが小さく、主話者外音では残響信号のパワーが大きくなることを説明したが、これは、音声ディジタル信号に含まれる他話者の音声が、明瞭であり、その残響成分を精度よく推定できる場合に限られる。音声ディジタル信号に含まれる他話者の音声が小さく、その残響成分が小さい場合には、従来の残響成分推定方法（参考文献１参照）では、精度よく残響成分を推定することができない。そのような場合には、逆に、他話者の音声に含まれる残響成分が、主話者の音声に含まれる残響成分と比較して、小さくなることを発見した。図１５Ａ及び図１５Ｂは、それぞれ、音声ディジタル信号に含まれる他話者の音声が小さく、その残響成分が小さい場合における主話者の音声及び主話者外音の残響信号のパワーをベクトルで表わしたイメージを表す。図１５Ａ及び図１５Ｂからも分かるように、主話者の音声では残響信号のパワーが大きく、主話者外音では残響信号のパワーが小さくなる。本実施形態では、この発見を利用して、主話者音を高精度に強調できる。ただし、本実施形態は、モバイル環境、単一のマイクに限定されるものではなく、他の環境、複数のマイクから得られる音声アナログ信号にも適用可能である。

＜第七実施形態に係る音声区間検出装置７００＞
図１６は第七実施形態に係る音声区間検出装置７００の機能ブロック図を、図１７はその処理フローを示す。音声区間検出装置７００は、音声信号取得部１１０、残響推定部１２０、主話者音区間検出部７６０及び主話者音声抽出部１７０を含む。音声区間検出装置７００は、ゲイン調整部１３０及び主話者外音強調部１４０を含まなくともよく、主話者外音区間検出部１６０に代えて、主話者音区間検出部７６０を含む。

＜主話者音区間検出部７６０＞
入力：残響信号
出力：区間情報
主話者音区間検出部７６０は、残響信号を受け取り、残響信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し（ｓ７６０）、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、残響信号のパワーを閾値と大小比較する。（１）閾値より大きい場合、主話者の音声区間、（２）閾値より小さい場合、主話者外音区間であると判断する。閾値は主話者音声区間と主話者外音区間の正解ラベルのついた学習データ等を用いて予め定めておく。

＜効果＞
このような構成により、残響を含む実環境下における、特に音声ディジタル信号に含まれる他話者の音声が小さく、その残響成分が小さい場合に、単一のマイクへの主話者及び他話者を含む複数の話者の音声が混入した音声ディジタル信号に対しても、高い精度で主話者の音声を検出することができる。また、その結果、利用するマイクの個数を少なくすることができ、ハードウェアの構成を軽量化することができる。

＜変形例＞
本実施形態を、他の実施形態と組み合わせてもよい。
例えば、第二〜第四実施形態と本実施形態を組合せる場合には、各音声区間検出装置２００〜４００は、ゲイン調整部１３０及び主話者外音強調部１４０を含まなくともよく、それぞれ主話者外音区間検出部１６０、３６０、４６０に代えて、主話者音区間検出部を含む。主話者音区間検出部では、主話者外音が強調された音声ディジタル信号に代えて残響信号を用いて、主話者外音区間検出部１６０、３６０、４６０と同様の処理を行う。

また、例えば、第五及び第六実施形態と本実施形態を組合せる場合には、それぞれ主話者外音区間検出部５６０及び６６０に代えて、主話者音区間検出部を含む。この場合、主話者音区間検出部では、残響信号のパワー、または、正規化を行った残響信号のパワーと閾値とを大小比較したときの判定結果が、主話者外音区間検出部５６０及び６６０の判定結果とは逆となる。例えば、第五実施形態と本実施形態とを組合せた場合には、主話者音区間検出部は以下のように処理を行う。

＜主話者音区間検出部＞
入力：残響信号のパワー
出力：区間情報
主話者外音区間検出部は、残響信号のパワーを受け取り、その残響信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、残響信号のパワーを閾値と大小比較する。（１）閾値より大きい場合、「主話者音声区間」、（２）閾値より小さい場合、「主話者外音区間」であると判断する。閾値は主話者音声区間と主話者外音区間の正解ラベルのついた学習データ等を用いて予め定めておく。

このように本実施形態と他の実施形態とを組合せることで、音声ディジタル信号に含まれる他話者の音声が小さく、その残響成分が小さい場合にも、各実施形態で説明した効果を得ることができる。

また、第一〜第六実施形態に係る音声区間検出装置と、本実施形態に係る音声区間検出装置（または、第二〜第六実施形態と本実施形態とを組合せた音声区間検出装置）とを、音声ディジタル信号に含まれる他話者の音声の大きさに応じて切り替える構成としてもよい。音声ディジタル信号に含まれる他話者の音声の大きさが大きい場合には、第一〜第六実施形態に係る音声区間検出装置を用い、音声ディジタル信号に含まれる他話者の音声の大きさが小さい場合には、本実施形態（または、第二〜第六実施形態と本実施形態との組合せ）に係る音声区間検出装置を用いることで、何れの状況においても高い精度で主話者の音声を検出することができる。

なお、「話者別区間検出部」とは、上述の「主話者外音区間検出部」と「主話者音区間検出部」とを含む概念である。

＜第八実施形態＞
図１８は、音声区間検出装置１００〜７００の何れかと、音声認識装置８００との配置を説明するための図である。音声認識装置８００の前段に音声区間検出装置１００〜７００の何れかを配置する。

音声認識装置８００は、音声信号を入力として前述の音声区間検出装置１００〜７００の何れかによって得られた信号を用いて、音声信号に対して音声認識を行う。なお、音声信号とは、音声ディジタル信号及び音声アナログ信号を含む概念である。

例えば、前述の音声区間検出装置１００〜７００の何れかによって得られた主話者の音声に対応する音声ディジタル信号を受け取り、その音声認識結果を出力する。

また、例えば区間情報を音声区間検出装置１００の出力値として出力し（第一実施形態の変形例参照）、区間情報として主話者音声区間または主話者外音区間の少なくとも一方の開始時間と終了時間等を用いる場合、区間情報に対応する音声信号に対して音声認識を行い、音声認識結果を出力する。

また、例えば、区間情報を音声区間検出装置１００の出力値として出力し（第一実施形態の変形例参照）、区間情報として音声ディジタル信号に主話者音声区間または主話者外音区間の少なくとも一方のフラグを付与した信号等を区間情報として用いる場合、主話者音声区間のフラグを付与された音声ディジタル信号に対して音声認識を行い、その音声認識結果を出力する。

このように、音声区間検出装置１００〜７００の何れかによって得られた主話者の音声に対応する音声ディジタル信号や区間情報を用いることで、音声認識処理に用いる入力音声（音声信号）から主話者外音・無音・雑音等を除去し、主話者の音声に対してのみ音声認識処理を行うことができ、その精度を向上させることができる。通常、主話者外音や雑音は、非音声とは判定されずに音声認識されてしまい音声認識結果が誤認識として湧き出すことになるが、音声区間検出装置１００〜７００により、主話者音声区間のみを高精度に検出することで、認識対象外の音声や雑音による音声認識システムへの悪影響を低減する事が出来る。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１００-７００音声区間検出装置
１１０音声信号取得部
１２０残響推定部
１３０ゲイン調整部
１４０主話者外音強調部
１６０，３６０，４６０，５６０，６６０主話者外音区間検出部
７６０主話者音区間検出部
１７０主話者音声抽出部
２１０雑音抑圧部
３５０音声信号パワー計算部
３５１信号スムージング部
４６１無音区間抽出部
４６２信号スムージング部
５４０残響信号パワー計算部
７００音声認識装置

Claims

音声ディジタル信号に含まれる残響成分を推定し、残響信号を取得する残響推定部と、
前記残響信号に基づいて主話者音声区間または主話者外音区間の少なくとも一方を検出する話者別区間検出部とを含む、
音声区間検出装置。
請求項１記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号と前記残響信号との差分を求める主話者外音強調部を含み、
前記話者別区間検出部は、前記音声ディジタル信号と前記残響信号との差分の値と所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。
請求項１記載の音声区間検出装置であって、
前記話者別区間検出部は、取得した残響信号と所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。
請求項１または３に記載の音声区間検出装置であって、
さらに、
前記残響信号のパワーを計算する残響信号パワー計算部を含み、
前記話者別区間検出部は、前記残響信号のパワーと所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。
請求項２記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号のパワーを計算する音声信号パワー計算部を含み、
前記話者別区間検出部は、前記音声ディジタル信号と前記残響信号との差分の値を前記音声ディジタル信号のパワーにより正規化した値と所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。
請求項３記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号のパワーを計算する音声信号パワー計算部を含み、
前記話者別区間検出部は、残響信号を前記音声ディジタル信号のパワーにより正規化した値と所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。
請求項４記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号のパワーを計算する音声信号パワー計算部を含み、
前記話者別区間検出部は、前記音声ディジタル信号のパワーにより正規化を行った前記残響信号のパワーと所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。
請求項１、３及び６の何れかに記載の音声区間検出装置であって、
さらに、
前記話者別区間検出部は、
前記音声ディジタル信号、または、前記残響信号のパワー、または、前記残響信号のパワーを前記音声ディジタル信号のパワーにより正規化した信号をスムージングする信号スムージング部を含み、
スムージングされた信号から主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。
請求項２、４、５及び７の何れかに記載の音声区間検出装置であって、
さらに、
前記話者別区間検出部は、
前記音声ディジタル信号、または、前記音声ディジタル信号と前記残響信号との差分の信号のパワー、または、前記音声ディジタル信号と前記残響信号との差分の信号のパワーを前記音声ディジタル信号のパワーにより正規化した信号をスムージングする信号スムージング部を含み、
スムージングされた信号から主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。
請求項２、４、５、７及び９の何れかに記載の音声区間検出装置であって、
さらに、
残響信号にゲインを乗算するゲイン調整部を含む、
音声区間検出装置。
請求項１から１０の何れかに記載の音声区間検出装置であって、
さらに、
前記話者別区間検出部は、
前記音声ディジタル信号から無音区間を抽出する無音区間抽出部を含み、
無音区間ではない前記音声ディジタル信号から主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。
請求項１から１１の何れかに記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号に含まれる音声以外の雑音を抑圧する雑音抑圧部を含み、
前記残響推定部及び前記話者別区間検出部において用いる音声ディジタル信号は、前記雑音抑圧部において雑音を抑圧された音声ディジタル信号とする、
音声区間検出装置。
音声信号を入力として請求項１から１２の何れかに記載の音声区間検出装置から出力される信号を用いて、前記音声信号に対して音声認識を行う音声認識装置。
音声ディジタル信号に含まれる残響成分を推定し、残響信号を取得する残響推定ステップと、
前記残響信号に基づいて主話者音声区間または主話者外音区間の少なくとも一方を検出する話者別区間検出ステップとを含む、
音声区間検出方法。
請求項１から１２の何れかに記載の音声区間検出装置、または、請求項１３記載の音声認識装置として、コンピュータを機能させるためのプログラム。