JP7111206B2

JP7111206B2 - 話者方向強調装置、話者方向強調方法、およびプログラム

Info

Publication number: JP7111206B2
Application number: JP2021023231A
Authority: JP
Inventors: 弘章伊藤; 翔一郎齊藤; 和則小林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2021-02-17
Filing date: 2021-02-17
Publication date: 2022-08-02
Anticipated expiration: 2037-11-27
Also published as: JP2021076874A

Description

この発明は、話者の方向を推定する技術に関する。

音声認識を利用した音声対話エージェントやロボット対話等のアプリケーションにおいて、目的とする話者の音声がどの方向から到来しているか、を判別することは、円滑な対話を実現する上で重要である。

例えば特許文献１や特許文献２に記載された従来技術では、複数のマイクロホンで集音された信号に基づき話者方向の推定を行い、推定された方向の音を強調して集音するように指向性集音を実施する。話者方向の推定は、方向毎のパワーを算出し、ある時点で最大のパワーとなる方向を話者方向として選択する。

従来の話者方向推定装置の機能構成を図１に示す。図１の話者方向推定装置９は、方向別パワー算出部９１と方向選択部９２とを備える。方向別パワー算出部９１は、複数のマイクロホンで集音された音信号から方向毎のパワーを算出する。方向選択部９２は、方向別パワー算出部９１が算出した方向毎のパワーからある時点で最大のパワーとなる方向を話者方向として選択する。指向性集音部２は、複数のマイクロホンで集音された音信号のうち方向選択部９２が選択した話者方向の音を強調して集音する。

特開２００５－６４９６８号公報特開２００１－３０９４８３号公報

しかしながら、従来技術は決定論的な話者方向推定手法であるため、集音したい音源と雑音源の両方が存在する場合には、どちらが集音したい音源か見分けることができず、雑音源を強調してしまうといった誤動作をしてしまう可能性がある。例えば、リビングで音声認識を利用した音声対話エージェントやロボット対話を行うシーンを想定すると、テレビ音や生活雑音、対話に無関係な話者の会話等の音源に反応するといった誤動作を起こしてしまい、対話が成立しないことがある。

この発明の目的は、上記のような点に鑑みて、空間音響的なシチュエーションが変化しても、適応的に話者の方向を推定することで、誤動作を防止することができる話者方向推定技術を実現することである。

上記の課題を解決するために、この発明の第一の態様の話者方向強調装置は、少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から推定した所望の話者の方向を強調する話者方向強調装置である。

話者方向強調装置は、収音された音響信号から得られる少なくとも１つの指標値に対応する音響特徴量を抽出する音響特徴量抽出部と、音響特徴量から所望の話者の方向を推定する方向推定部と、推定された方向を強調して集音する指向性集音部と、を含み、音響特徴量抽出部は、音響信号から予め定められた特定音が含まれるか否かを示す指標値を含む音響特徴量を抽出するものである。

この発明の話者方向推定技術では、話者方向推定のための特徴量として方向毎のパワーといった空間的な音響特徴量に加えて、特定音検出や話者識別といった言語に由来する特徴量や、顔認識や顔検出といった画像に由来する特徴量を利用し、統計的手法に基づく方向選択手法とする。これにより、この発明の話者方向推定技術によれば、空間音響的なシチュエーションが変化しても、適応的に話者の方向を推定でき、結果として誤動作を防止することができる。

図１は、従来の話者方向推定装置の機能構成を例示する図である。図２は、第一実施形態の話者方向推定装置の機能構成を例示する図である。図３は、第一実施形態の話者方向推定方法の機能構成を例示する図である。図４は、第二実施形態の話者方向推定装置の機能構成を例示する図である。図５は、第二実施形態の話者方向推定方法の機能構成を例示する図である。図６は、顔向きと画面占有率の関係を説明するための図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

［第一実施形態］
第一実施形態の話者方向推定装置は、ある目的音の方向を推定して指向性集音を実施する際に、雑音源等で方向推定を誤動作させないために、空間音響情報に言語に由来する情報や画像に由来する情報を追加し、目的音方向を確率統計的な手法により推定する装置である。

第一実施形態の話者方向推定装置１は、図２に示すように、M（≧2）個のマイクロホンで集音されたM個の音声信号を入力とし、その音声信号から推定した話者方向を指向性集音部２へ出力する。話者方向推定装置１は、音響特徴量抽出部１０と方向推定部２０とを備える。音響特徴量抽出部１０は、方向選択前処理部１０１と方向別パワー算出部１０２と方向別特定音検出部１０３と方向別話者認識部１０４とを備える。ただし、音響特徴量抽出部１０は、これらの処理部をすべて備えていなくともよく、これらのうち少なくとも１つの処理部を備えていればよい。この話者方向推定装置１が、図３に例示する各ステップの処理を行うことにより第一実施形態の話者方向推定方法が実現される。

話者方向推定装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。話者方向推定装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。話者方向推定装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。話者方向推定装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

以下、図３を参照して、第一実施形態の話者方向推定装置１が実行する話者方向推定方法について説明する。

ステップＳ１０１において、音響特徴量抽出部１０の方向選択前処理部１０１は、M個のマイクロホンから受け取ったM個の音声信号に対してビームフォーミング等の信号処理を行い、L（≧2）個の方向別音声信号に変換する。ビームフォーミング技術としては、どのような方法を用いてもよく、例えば、下記参考文献１に記載の方法が挙げられる。
〔参考文献１〕特開２０１７－１０７１４１号公報

方向選択前処理部１０１は、L個の方向別音声信号を、方向別パワー算出部１０２、方向別特定音検出部１０３、および方向別話者識別部１０４へそれぞれ出力する。

ステップＳ１０２において、音響特徴量抽出部１０の方向別パワー算出部１０２は、方向選択前処理部１０１から受け取ったL個の方向別音声信号それぞれについて、方向毎のパワーおよびパワーの時間変化の分散値を算出する。方向別パワー算出部１０２は、算出した方向毎のパワーおよびパワーの時間変化の分散値を音響特徴量抽出部１０の出力の一部として方向推定部２０へ出力する。

ステップＳ１０３において、音響特徴量抽出部１０の方向別特定音検出部１０３は、方向選択前処理部１０１から受け取ったL個の方向別音声信号それぞれについて、予め定められた音である特定音の検出を行う。予め定められた音の例は、特定のキーワードの音声、口笛及び手拍子である。予め定められた音として、上記の例以外の所定の音が用いられてもよい。特定のキーワードは、方向別音声信号を音声認識し、その音声認識結果に特定のキーワードが含まれているか否かを判定することで検出することができる。このように、特定音を発した話者を集音すべき音源と判別して、その音源を指向性集音することで、高ＳＮ比で集音することができる。ユーザは、特定音を発することで、指向性の向きを変えることができ、テレビ等の音源が存在している場合でも、自分に対して指向性を向けて、その後固定することができる。方向別特定音検出部１０３は、方向毎の特定音検出結果を音響特徴量抽出部１０の出力の一部として方向推定部２０へ出力する。

ステップＳ１０４において、音響特徴量抽出部１０の方向別話者識別部１０４は、方向選択前処理部１０１から受け取ったL個の方向別音声信号それぞれについて、予め登録されている話者の音声であるか否かを識別する。話者識別技術としては、どのような方法を用いてもよく、例えば下記参考文献２に記載された方法を適用することができる。方向別話者識別部１０４は、方向毎の話者識別結果を音響特徴量抽出部１０の出力の一部として方向推定部２０へ出力する。
〔参考文献２〕特開２０１７－９７１８８号公報

音響特徴量抽出部１０の各処理部で抽出した特徴量（ここでは、パワーやパワーの時間平均の分散、特定音検出結果、および話者識別結果）（以下、これらの特徴量の種類を指標値とも呼ぶ）は少なくとも１つを含む任意の組み合わせとすることができる。音響特徴量抽出部１０が抽出する指標値はこれらに限定されず、話者の属性や行動に関係する指標値であれば任意のものを利用することができる。

ステップＳ２０において、方向推定部２０は、音響特徴量抽出部１０から受け取った音響特徴量に基づいて話者方向を推定する。音の到来方向は、方向ではなく、位置により表されるものであってもよい。方向推定には確率統計的な手法を利用する。方向推定部２０は、推定した話者方向を示す方向情報を、話者方向推定装置１の出力として指向性集音部２へ出力する。

方向推定の手法について、より詳しく説明する。ある方向dにおいて抽出されたK個の特徴量を持つ特徴ベクトルを次式のx_dとし、その方向が話者であるか否かを表すクラスをC_d=[0, 1]とする。このとき、1は話者、0は非話者を表すものとする。

特徴ベクトルの各要素x_k,d（k=1, 2, …, K）は、音響特徴量抽出部１０により抽出した特徴量（例えば、パワーやパワーの時間平均の分散、特定音検出結果、話者識別結果といった指標値）が設定される。具体的には、パワーやパワーの時間平均の分散は、音響信号から算出されたパワーやパワーの時間平均の分散の各値である。特定音検出結果は、音響信号が特定音を含むか否かを示す二値（例えば、1は検出、0は非検出）である。話者識別結果は、音響信号から識別された話者が登録話者であるか否かを示す二値（例えば、1は登録話者、0は非登録話者）である。

方向推定部２０は、次式に示すように、ある角度dにおける特徴量x_dが与えられた下で、クラスC_dが話者（=1）となる確率p(C_d=1|x_d)が最大となる方向^dを求める。

上記の問題は、例えばロジスティック回帰モデルを用いた二値分類問題として捉えることができ、最尤推定法により目的方向^dを推定することができる。ただし、モデル化の方法については上記に限定されるものではない。

ステップＳ２において、指向性集音部２は、方向推定部２０から受け取った方向情報に基づいて、M個のマイクロホンが集音したM個の音声信号から話者方向の音を強調して集音する。指向性集音部２は、例えば下記参考文献３に記載された指向性集音を行う。指向性集音部２は、話者方向の音が強調された強調音声を出力する。
〔参考文献３〕特開２００９－４４５８８号公報

［第二実施形態］
第一実施形態の話者方向推定装置は、方向毎のパワーといった空間的な音響特徴量に加えて、特定音検出結果や話者識別結果といった言語に由来する特徴量を用いて話者方向の推定を行った。第二実施形態の話者方向推定装置は、第一実施形態の構成に加えて、カメラで撮像した画像信号を用いて顔認識や顔検出といった画像に由来する特徴量を用いて話者方向の推定を行う。第二実施形態の話者方向推定装置は、例えば、マイクロホンとカメラを搭載したロボットとして構成することを想定すると、話者がそのロボットに向かって話しかけているか否かを推定することを可能とする。

第二実施形態の話者方向推定装置３は、図４に示すように、M（≧2）個のマイクロホンが集音したM個の音声信号と少なくともK（≧1）個のカメラが撮像したK個の画像信号とを入力とし、その音声信号と画像信号とから推定した話者方向を指向性集音部２へ出力する。話者方向推定装置３は、第一実施形態と同様に音響特徴量抽出部１０と方向推定部２０とを備え、さらに画像特徴量抽出部１１を備える。画像特徴量抽出部１１は、画像認識前処理部１１１と顔向き判定部１１２と画面占有率算出部１１３とを備える。ただし、画像特徴量抽出部１１は、これらの処理部をすべて備えていなくともよく、これらのうち少なくとも１つの処理部を備えていればよい。この話者方向推定装置３が、図５に例示する各ステップの処理を行うことにより第二実施形態の話者方向推定方法が実現される。

以下、図５を参照して、第二実施形態の話者方向推定装置３が実行する話者方向推定方法について、第一実施形態との相違点を中心に説明する。

ステップＳ１０１からＳ１０４までは第一実施形態と同様である。ステップＳ１１１からＳ１１３まではステップＳ１０１からＳ１０４までと並行して実行することができる。

ステップＳ１１１において、画像認識前処理部１１１は、K個のカメラから受け取ったK個の画像信号に対して画像認識のための前処理を行う。画像認識前処理部１１１は、前処理後の画像信号を、顔向き判定部１１２および画面占有率算出部１１３へそれぞれ出力する。

ステップＳ１１２において、顔向き判定部１１２は、画像認識前処理部１１１から受け取った前処理後の画像信号について、画像中の話者の顔向きを検出し、カメラに対してどの方向へ顔を向けているかを判定する。なお、顔向きの判定手法については下記参考文献４に記載された手法を適用することができる。顔向き判定部１１２は、顔向きの判定結果を画像特徴量抽出部１１の出力の１つとして方向推定部２０へ出力する。
〔参考文献４〕新井啓之、伊藤直己、片岡香織、谷口行信、“画像処理による広告効果測定技術－人数計測技術・顔画像技術の応用”、NTT技術ジャーナル 2013.1、vol. 25、pp. 61-64、2013年

ステップＳ１１３において、画面占有率算出部１１３は、画像認識前処理部１１１から受け取った前処理後の画像信号について、画像中の話者の顔を認識し、話者の顔が画面を占める面積の割合である画面占有率を算出する。なお、画面占有率の推定手法については上記参考文献４に記載された手法を適用することができる。画面占有率算出部１１３は、算出した画面占有率を画像特徴量抽出部１１の出力の１つとして方向推定部２０へ出力する。

ステップＳ２０において、方向推定部２０は、音響特徴量抽出部１０から受け取った音響特徴量と、画像特徴量抽出部１１から受け取った画像特徴量とに基づいて、第一実施形態と同等な確率統計的手法により、話者方向を推定する。方向推定部２０は、推定した話者方向を示す方向情報を、話者方向推定装置１の出力として指向性集音部２へ出力する。

図６を参照して、顔向きと画面占有率とに基づいて、話者が話しかけている方向を推定する手法について、より具体的に説明する。図６（Ａ）は話者がカメラに対して正面を向いており、画面占有率が高いときの画像の例である。この場合、話者はカメラ（およびその近傍に設置されたマイクロホン）に向かって話しかけている可能性が高いと考えられる。図６（Ｂ）は話者がカメラに対して正面を向いているが、画面占有率が低いときの画像の例である。図６（Ｃ）は画面占有率が高いが、話者がカメラに対して正面を向いていないときの画像の例である。これらの場合には、話者はマイクロホンに向かって話しかけていない可能性が高いと考えられる。具体的にどの範囲の顔向きや画面占有率であればマイクロホンに向かって話しかけていると判断できるかは、カメラやマイクロホンの設置位置を考慮して調整すればよい。

この発明のポイントは、主に、１．方向推定のための特徴量として言語に由来する情報や画像に由来する情報を用いたこと、２．方向推定の手法を決定論的でなく、確率統計的な手法を採用したこと、の二点である。上記の点により、従来の方向推定では誤検知となっていた状況を回避し、様々な環境で適応的に話者方向を推定することができ、方向推定結果の頑健性が向上する。例えば、音声認識を利用した音声対話アプリケーションに応答することで、リビング等の雑音源が存在する環境でも話者の発話のみを検出することができるため、利用シーンの拡大やユーザの利便性向上に資する。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１、３、９話者方向推定装置
２指向性集音部
１０音響特徴量抽出部
１０１方向選択前処理部
１０２方向別パワー算出部
１０３方向別特定音検出部
１０４方向別話者認識部
１１画像特徴量抽出部
１１１画像認識前処理部
１１２顔向き検出部
１１３画面占有率算出部
２０方向推定部
９１方向別パワー算出部
９２方向選択部

Claims

少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から推定した前記所望の話者の方向を強調する話者方向強調装置であって、
前記音響信号のパワーやパワーの時間平均の分散の値、前記音響信号において予め定められた特定音が含まれるか否か、前記音響信号から識別された話者が登録話者であるか否か、を示すもののうち少なくとも１つの指標値を含む組み合わせの特徴量を抽出する音響特徴量抽出部と、
前記音響特徴量抽出部により抽出された特徴量から前記所望の話者の方向を推定する方向推定部と、
前記方向推定部により推定された方向を強調して集音する指向性集音部と、
を含み、
前記方向推定部による推定は、ある方向dにおいて抽出されたK個の特徴量を持つ特徴ベクトルx _d を次式で定義した場合、

前記特徴ベクトルx _d の各要素に前記音響特徴量抽出部により抽出された特徴量を設定し、前記ある方向dが話者であるか否かを表すクラスをC _d =[0, 1]とした場合に、次式で定義されるように、前記クラスC _d が話者（=1）となる確率p(C _d =1|x _d )が最大となる方向^dを求めることにより前記所望の話者の方向を推定する、話者方向強調装置。
請求項１に記載の話者方向強調装置であって、
前記音響特徴量抽出部は、前記指標値に代えて、または前記指標値と共に、話者の属性、話者の行動のいずれかを抽出する、
話者方向強調装置。
少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から推定した前記所望の話者の方向を強調する話者方向強調装置が実行する話者方向強調方法であって、
音響特徴量抽出部が、前記音響信号のパワーやパワーの時間平均の分散の値、前記音響信号において予め定められた特定音が含まれるか否か、前記音響信号から識別された話者が登録話者であるか否か、を示すもののうち少なくとも１つの指標値を含む組み合わせの特徴量を抽出し、
方向推定部が、前記音響特徴量抽出部により抽出された特徴量から前記所望の話者の方向を推定し、
指向性集音部が、前記方向推定部により推定された方向を強調して集音するものであり、
前記方向推定部による推定は、ある方向dにおいて抽出されたK個の特徴量を持つ特徴ベクトルx _d を次式で定義した場合、

前記特徴ベクトルx _d の各要素に前記音響特徴量抽出部により抽出された特徴量を設定し、前記ある方向dが話者であるか否かを表すクラスをC _d =[0, 1]とした場合に、次式で定義されるように、前記クラスC _d が話者（=1）となる確率p(C _d =1|x _d )が最大となる方向^dを求めることにより前記所望の話者の方向を推定する、
話者方向強調方法。
請求項１または２に記載の話者方向強調装置としてコンピュータを機能させるためのプログラム。