JP2019095699A - 話者方向推定装置、話者方向推定方法、およびプログラム - Google Patents

話者方向推定装置、話者方向推定方法、およびプログラム Download PDF

Info

Publication number
JP2019095699A
JP2019095699A JP2017226965A JP2017226965A JP2019095699A JP 2019095699 A JP2019095699 A JP 2019095699A JP 2017226965 A JP2017226965 A JP 2017226965A JP 2017226965 A JP2017226965 A JP 2017226965A JP 2019095699 A JP2019095699 A JP 2019095699A
Authority
JP
Japan
Prior art keywords
speaker
acoustic
feature quantity
direction estimation
acoustic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017226965A
Other languages
English (en)
Other versions
JP6853163B2 (ja
Inventor
弘章 伊藤
Hiroaki Ito
弘章 伊藤
翔一郎 齊藤
Shoichiro Saito
翔一郎 齊藤
小林 和則
Kazunori Kobayashi
和則 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017226965A priority Critical patent/JP6853163B2/ja
Publication of JP2019095699A publication Critical patent/JP2019095699A/ja
Application granted granted Critical
Publication of JP6853163B2 publication Critical patent/JP6853163B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】空間音響的なシチュエーションが変化しても適応的に話者の方向を推定する。【解決手段】話者方向推定装置3は、カメラにより撮影された所望の話者を含む画像と、マイクロホンにより収音された所望の話者から発せられた音を含む音響信号とから所望の話者の方向を推定する。音響特徴量抽出部10は、音響信号から得られる指標値に対応する音響特徴量を抽出する。音響特徴量抽出部10は、音響信号が予め定められた特定音を含む場合、少なくとも特定音に対応する音響信号から抽出した特定音が含まれるか否かを示す指標値を含む音響特徴量を抽出する。画像特徴量抽出部11は、所望の話者を含む画像から所望の話者が話しかけている方向を推定するための画像特徴量を抽出する。方向推定部20は、音響特徴量と画像特徴量から所望の話者の方向を推定する。【選択図】図4

Description

この発明は、話者の方向を推定する技術に関する。
音声認識を利用した音声対話エージェントやロボット対話等のアプリケーションにおいて、目的とする話者の音声がどの方向から到来しているか、を判別することは、円滑な対話を実現する上で重要である。
例えば特許文献1や特許文献2に記載された従来技術では、複数のマイクロホンで集音された信号に基づき話者方向の推定を行い、推定された方向の音を強調して集音するように指向性集音を実施する。話者方向の推定は、方向毎のパワーを算出し、ある時点で最大のパワーとなる方向を話者方向として選択する。
従来の話者方向推定装置の機能構成を図1に示す。図1の話者方向推定装置9は、方向別パワー算出部91と方向選択部92とを備える。方向別パワー算出部91は、複数のマイクロホンで集音された音信号から方向毎のパワーを算出する。方向選択部92は、方向別パワー算出部91が算出した方向毎のパワーからある時点で最大のパワーとなる方向を話者方向として選択する。指向性集音部2は、複数のマイクロホンで集音された音信号のうち方向選択部92が選択した話者方向の音を強調して集音する。
特開2005−64968号公報 特開2001−309483号公報
しかしながら、従来技術は決定論的な話者方向推定手法であるため、集音したい音源と雑音源の両方が存在する場合には、どちらが集音したい音源か見分けることができず、雑音源を強調してしまうといった誤動作をしてしまう可能性がある。例えば、リビングで音声認識を利用した音声対話エージェントやロボット対話を行うシーンを想定すると、テレビ音や生活雑音、対話に無関係な話者の会話等の音源に反応するといった誤動作を起こしてしまい、対話が成立しないことがある。
この発明の目的は、上記のような点に鑑みて、空間音響的なシチュエーションが変化しても、適応的に話者の方向を推定することで、誤動作を防止することができる話者方向推定技術を実現することである。
上記の課題を解決するために、この発明の第一の態様の話者方向推定装置は、カメラにより撮影された所望の話者を含む画像と、少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号とから所望の話者の方向を推定する話者方向推定装置であって、収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出する音響特徴量抽出部と、所望の話者を含む画像から所望の話者が話しかけている方向を推定するための画像特徴量を抽出する画像特徴量抽出部と、音響特徴量と画像特徴量から所望の話者の方向を推定する方向推定部と、を含み、音響特徴量抽出部は、音響信号が予め定められた特定音を含む場合、少なくとも特定音に対応する音響信号から抽出した特定音が含まれるか否かを示す指標値を含む音響特徴量を抽出するものである。
上記の課題を解決するために、この発明の第二の態様の話者方向推定装置は、少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から所望の話者の方向を推定する話者方向推定装置であって、収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出する音響特徴量抽出部と、音響特徴量から所望の話者の方向を推定する方向推定部と、を含み、音響特徴量抽出部は、音響信号が予め定められた特定音を含む場合、少なくとも特定音に対応する音響信号から抽出した特定音が含まれるか否かを示す指標値を含む音響特徴量を抽出するものである。
この発明の話者方向推定技術では、話者方向推定のための特徴量として方向毎のパワーといった空間的な音響特徴量に加えて、特定音検出や話者識別といった言語に由来する特徴量や、顔認識や顔検出といった画像に由来する特徴量を利用し、統計的手法に基づく方向選択手法とする。これにより、この発明の話者方向推定技術によれば、空間音響的なシチュエーションが変化しても、適応的に話者の方向を推定でき、結果として誤動作を防止することができる。
図1は、従来の話者方向推定装置の機能構成を例示する図である。 図2は、第一実施形態の話者方向推定装置の機能構成を例示する図である。 図3は、第一実施形態の話者方向推定方法の機能構成を例示する図である。 図4は、第二実施形態の話者方向推定装置の機能構成を例示する図である。 図5は、第二実施形態の話者方向推定方法の機能構成を例示する図である。 図6は、顔向きと画面占有率の関係を説明するための図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
[第一実施形態]
第一実施形態の話者方向推定装置は、ある目的音の方向を推定して指向性集音を実施する際に、雑音源等で方向推定を誤動作させないために、空間音響情報に言語に由来する情報や画像に由来する情報を追加し、目的音方向を確率統計的な手法により推定する装置である。
第一実施形態の話者方向推定装置1は、図2に示すように、M(≧2)個のマイクロホンで集音されたM個の音声信号を入力とし、その音声信号から推定した話者方向を指向性集音部2へ出力する。話者方向推定装置1は、音響特徴量抽出部10と方向推定部20とを備える。音響特徴量抽出部10は、方向選択前処理部101と方向別パワー算出部102と方向別特定音検出部103と方向別話者認識部104とを備える。ただし、音響特徴量抽出部10は、これらの処理部をすべて備えていなくともよく、これらのうち少なくとも1つの処理部を備えていればよい。この話者方向推定装置1が、図3に例示する各ステップの処理を行うことにより第一実施形態の話者方向推定方法が実現される。
話者方向推定装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。話者方向推定装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。話者方向推定装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。話者方向推定装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
以下、図3を参照して、第一実施形態の話者方向推定装置1が実行する話者方向推定方法について説明する。
ステップS101において、音響特徴量抽出部10の方向選択前処理部101は、M個のマイクロホンから受け取ったM個の音声信号に対してビームフォーミング等の信号処理を行い、L(≧2)個の方向別音声信号に変換する。ビームフォーミング技術としては、どのような方法を用いてもよく、例えば、下記参考文献1に記載の方法が挙げられる。
〔参考文献1〕特開2017−107141号公報
方向選択前処理部101は、L個の方向別音声信号を、方向別パワー算出部102、方向別特定音検出部103、および方向別話者識別部104へそれぞれ出力する。
ステップS102において、音響特徴量抽出部10の方向別パワー算出部102は、方向選択前処理部101から受け取ったL個の方向別音声信号それぞれについて、方向毎のパワーおよびパワーの時間変化の分散値を算出する。方向別パワー算出部102は、算出した方向毎のパワーおよびパワーの時間変化の分散値を音響特徴量抽出部10の出力の一部として方向推定部20へ出力する。
ステップS103において、音響特徴量抽出部10の方向別特定音検出部103は、方向選択前処理部101から受け取ったL個の方向別音声信号それぞれについて、予め定められた音である特定音の検出を行う。予め定められた音の例は、特定のキーワードの音声、口笛及び手拍子である。予め定められた音として、上記の例以外の所定の音が用いられてもよい。特定のキーワードは、方向別音声信号を音声認識し、その音声認識結果に特定のキーワードが含まれているか否かを判定することで検出することができる。このように、特定音を発した話者を集音すべき音源と判別して、その音源を指向性集音することで、高SN比で集音することができる。ユーザは、特定音を発することで、指向性の向きを変えることができ、テレビ等の音源が存在している場合でも、自分に対して指向性を向けて、その後固定することができる。方向別特定音検出部103は、方向毎の特定音検出結果を音響特徴量抽出部10の出力の一部として方向推定部20へ出力する。
ステップS104において、音響特徴量抽出部10の方向別話者識別部104は、方向選択前処理部101から受け取ったL個の方向別音声信号それぞれについて、予め登録されている話者の音声であるか否かを識別する。話者識別技術としては、どのような方法を用いてもよく、例えば下記参考文献2に記載された方法を適用することができる。方向別話者識別部104は、方向毎の話者識別結果を音響特徴量抽出部10の出力の一部として方向推定部20へ出力する。
〔参考文献2〕特開2017−97188号公報
音響特徴量抽出部10の各処理部で抽出した特徴量(ここでは、パワーやパワーの時間平均の分散、特定音検出結果、および話者識別結果)(以下、これらの特徴量の種類を指標値とも呼ぶ)は少なくとも1つを含む任意の組み合わせとすることができる。音響特徴量抽出部10が抽出する指標値はこれらに限定されず、話者の属性や行動に関係する指標値であれば任意のものを利用することができる。
ステップS20において、方向推定部20は、音響特徴量抽出部10から受け取った音響特徴量に基づいて話者方向を推定する。音の到来方向は、方向ではなく、位置により表されるものであってもよい。方向推定には確率統計的な手法を利用する。方向推定部20は、推定した話者方向を示す方向情報を、話者方向推定装置1の出力として指向性集音部2へ出力する。
方向推定の手法について、より詳しく説明する。ある方向dにおいて抽出されたK個の特徴量を持つ特徴ベクトルを次式のxdとし、その方向が話者であるか否かを表すクラスをCd=[0, 1]とする。このとき、1は話者、0は非話者を表すものとする。
Figure 2019095699
特徴ベクトルの各要素xk,d(k=1, 2, …, K)は、音響特徴量抽出部10により抽出した特徴量(例えば、パワーやパワーの時間平均の分散、特定音検出結果、話者識別結果といった指標値)が設定される。具体的には、パワーやパワーの時間平均の分散は、音響信号から算出されたパワーやパワーの時間平均の分散の各値である。特定音検出結果は、音響信号が特定音を含むか否かを示す二値(例えば、1は検出、0は非検出)である。話者識別結果は、音響信号から識別された話者が登録話者であるか否かを示す二値(例えば、1は登録話者、0は非登録話者)である。
方向推定部20は、次式に示すように、ある角度dにおける特徴量xdが与えられた下で、クラスCdが話者(=1)となる確率p(Cd=1|xd)が最大となる方向^dを求める。
Figure 2019095699
上記の問題は、例えばロジスティック回帰モデルを用いた二値分類問題として捉えることができ、最尤推定法により目的方向^dを推定することができる。ただし、モデル化の方法については上記に限定されるものではない。
ステップS2において、指向性集音部2は、方向推定部20から受け取った方向情報に基づいて、M個のマイクロホンが集音したM個の音声信号から話者方向の音を強調して集音する。指向性集音部2は、例えば下記参考文献3に記載された指向性集音を行う。指向性集音部2は、話者方向の音が強調された強調音声を出力する。
〔参考文献3〕特開2009−44588号公報
[第二実施形態]
第一実施形態の話者方向推定装置は、方向毎のパワーといった空間的な音響特徴量に加えて、特定音検出結果や話者識別結果といった言語に由来する特徴量を用いて話者方向の推定を行った。第二実施形態の話者方向推定装置は、第一実施形態の構成に加えて、カメラで撮像した画像信号を用いて顔認識や顔検出といった画像に由来する特徴量を用いて話者方向の推定を行う。第二実施形態の話者方向推定装置は、例えば、マイクロホンとカメラを搭載したロボットとして構成することを想定すると、話者がそのロボットに向かって話しかけているか否かを推定することを可能とする。
第二実施形態の話者方向推定装置3は、図4に示すように、M(≧2)個のマイクロホンが集音したM個の音声信号と少なくともK(≧1)個のカメラが撮像したK個の画像信号とを入力とし、その音声信号と画像信号とから推定した話者方向を指向性集音部2へ出力する。話者方向推定装置3は、第一実施形態と同様に音響特徴量抽出部10と方向推定部20とを備え、さらに画像特徴量抽出部11を備える。画像特徴量抽出部11は、画像認識前処理部111と顔向き判定部112と画面占有率算出部113とを備える。ただし、画像特徴量抽出部11は、これらの処理部をすべて備えていなくともよく、これらのうち少なくとも1つの処理部を備えていればよい。この話者方向推定装置3が、図5に例示する各ステップの処理を行うことにより第二実施形態の話者方向推定方法が実現される。
以下、図5を参照して、第二実施形態の話者方向推定装置3が実行する話者方向推定方法について、第一実施形態との相違点を中心に説明する。
ステップS101からS104までは第一実施形態と同様である。ステップS111からS113まではステップS101からS104までと並行して実行することができる。
ステップS111において、画像認識前処理部111は、K個のカメラから受け取ったK個の画像信号に対して画像認識のための前処理を行う。画像認識前処理部111は、前処理後の画像信号を、顔向き判定部112および画面占有率算出部113へそれぞれ出力する。
ステップS112において、顔向き判定部112は、画像認識前処理部111から受け取った前処理後の画像信号について、画像中の話者の顔向きを検出し、カメラに対してどの方向へ顔を向けているかを判定する。なお、顔向きの判定手法については下記参考文献4に記載された手法を適用することができる。顔向き判定部112は、顔向きの判定結果を画像特徴量抽出部11の出力の1つとして方向推定部20へ出力する。
〔参考文献4〕新井啓之、伊藤直己、片岡香織、谷口行信、“画像処理による広告効果測定技術−人数計測技術・顔画像技術の応用”、NTT技術ジャーナル 2013.1、vol. 25、pp. 61-64、2013年
ステップS113において、画面占有率算出部113は、画像認識前処理部111から受け取った前処理後の画像信号について、画像中の話者の顔を認識し、話者の顔が画面を占める面積の割合である画面占有率を算出する。なお、画面占有率の推定手法については上記参考文献4に記載された手法を適用することができる。画面占有率算出部113は、算出した画面占有率を画像特徴量抽出部11の出力の1つとして方向推定部20へ出力する。
ステップS20において、方向推定部20は、音響特徴量抽出部10から受け取った音響特徴量と、画像特徴量抽出部11から受け取った画像特徴量とに基づいて、第一実施形態と同等な確率統計的手法により、話者方向を推定する。方向推定部20は、推定した話者方向を示す方向情報を、話者方向推定装置1の出力として指向性集音部2へ出力する。
図6を参照して、顔向きと画面占有率とに基づいて、話者が話しかけている方向を推定する手法について、より具体的に説明する。図6(A)は話者がカメラに対して正面を向いており、画面占有率が高いときの画像の例である。この場合、話者はカメラ(およびその近傍に設置されたマイクロホン)に向かって話しかけている可能性が高いと考えられる。図6(B)は話者がカメラに対して正面を向いているが、画面占有率が低いときの画像の例である。図6(C)は画面占有率が高いが、話者がカメラに対して正面を向いていないときの画像の例である。これらの場合には、話者はマイクロホンに向かって話しかけていない可能性が高いと考えられる。具体的にどの範囲の顔向きや画面占有率であればマイクロホンに向かって話しかけていると判断できるかは、カメラやマイクロホンの設置位置を考慮して調整すればよい。
この発明のポイントは、主に、1.方向推定のための特徴量として言語に由来する情報や画像に由来する情報を用いたこと、2.方向推定の手法を決定論的でなく、確率統計的な手法を採用したこと、の二点である。上記の点により、従来の方向推定では誤検知となっていた状況を回避し、様々な環境で適応的に話者方向を推定することができ、方向推定結果の頑健性が向上する。例えば、音声認識を利用した音声対話アプリケーションに応答することで、リビング等の雑音源が存在する環境でも話者の発話のみを検出することができるため、利用シーンの拡大やユーザの利便性向上に資する。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1、3、9 話者方向推定装置
2 指向性集音部
10 音響特徴量抽出部
101 方向選択前処理部
102 方向別パワー算出部
103 方向別特定音検出部
104 方向別話者認識部
11 画像特徴量抽出部
111 画像認識前処理部
112 顔向き検出部
113 画面占有率算出部
20 方向推定部
91 方向別パワー算出部
92 方向選択部

Claims (8)

  1. カメラにより撮影された所望の話者を含む画像と、少なくとも前記所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号とから前記所望の話者の方向を推定する話者方向推定装置であって、
    前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出する音響特徴量抽出部と、
    前記所望の話者を含む画像から前記所望の話者が話しかけている方向を推定するための画像特徴量を抽出する画像特徴量抽出部と、
    前記音響特徴量と前記画像特徴量から前記所望の話者の方向を推定する方向推定部と、
    を含み、
    前記音響特徴量抽出部は、前記音響信号が予め定められた特定音を含む場合、少なくとも前記特定音に対応する前記音響信号から抽出した前記特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものである、
    話者方向推定装置。
  2. 請求項1に記載の話者方向推定装置であって、
    前記方向推定部は、確率統計的な手法を用いて前記音響特徴量と前記画像特徴量から前記所望の話者の方向を推定するものである、
    話者方向推定装置。
  3. 請求項1または2に記載の話者方向推定装置であって、
    前記音響特徴量抽出部は、前記音響信号のパワーを示す指標値と、前記音響信号のパワーの時間変化の分散を示す指標値と、前記所望の話者に対する話者識別結果を示す指標値と、前記音響信号に前記特定音が含まれるか否かを示す指標値のいずれかを含む前記音響特徴量を抽出するものである、
    話者方向推定装置。
  4. 請求項1から3のいずれかに記載の話者方向推定装置であって、
    前記画像特徴量抽出部は、前記所望の話者の顔の向きを示す指標値と、前記所望の話者の顔が画面を占める占有率を示す指標値とを含む前記画像特徴量を抽出するものである、
    話者方向推定装置。
  5. 少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から前記所望の話者の方向を推定する話者方向推定装置であって、
    前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出する音響特徴量抽出部と、
    前記音響特徴量から前記所望の話者の方向を推定する方向推定部と、
    を含み、
    前記音響特徴量抽出部は、前記音響信号が予め定められた特定音を含む場合、少なくとも前記特定音に対応する前記音響信号から抽出した前記特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものである、
    話者方向推定装置。
  6. カメラにより撮影された所望の話者を含む画像と、少なくとも前記所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号とから前記所望の話者の方向を推定する話者方向推定装置が実行する話者方向推定方法であって、
    音響特徴量抽出部が、前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出し、
    前記音響特徴量抽出部は、前記音響信号が予め定められた特定音を含む場合、少なくとも前記特定音に対応する前記音響信号から抽出した前記特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものであり、
    画像特徴量抽出部が、前記所望の話者を含む画像から所望の話者が話しかけているか方向を推定するための画像特徴量を抽出し、
    方向推定部が、前記音響特徴量と前記画像特徴量から前記所望の話者の方向を推定する、
    話者方向推定方法。
  7. 少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から前記所望の話者の方向を推定する話者方向推定装置が実行する話者方向推定方法であって、
    音響特徴量抽出部が、前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出し、
    前記音響特徴量抽出部は、前記音響信号が予め定められた特定音を含む場合、少なくとも前記特定音に対応する前記音響信号から抽出した前記特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものであり、
    方向推定部が、前記音響特徴量から前記所望の話者の方向を推定する、
    話者方向推定方法。
  8. 請求項1から5のいずれかに記載の話者方向推定装置としてコンピュータを機能させるためのプログラム。
JP2017226965A 2017-11-27 2017-11-27 話者方向推定装置、話者方向推定方法、およびプログラム Active JP6853163B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017226965A JP6853163B2 (ja) 2017-11-27 2017-11-27 話者方向推定装置、話者方向推定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017226965A JP6853163B2 (ja) 2017-11-27 2017-11-27 話者方向推定装置、話者方向推定方法、およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021023231A Division JP7111206B2 (ja) 2021-02-17 2021-02-17 話者方向強調装置、話者方向強調方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019095699A true JP2019095699A (ja) 2019-06-20
JP6853163B2 JP6853163B2 (ja) 2021-03-31

Family

ID=66971536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017226965A Active JP6853163B2 (ja) 2017-11-27 2017-11-27 話者方向推定装置、話者方向推定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6853163B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019103011A (ja) * 2017-12-05 2019-06-24 日本電信電話株式会社 変換装置、変換方法、およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109361A (ja) * 2002-09-17 2004-04-08 Toshiba Corp 指向性設定装置、指向性設定方法及び指向性設定プログラム
JP2006504130A (ja) * 2002-10-23 2006-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御
JP2010130411A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 複数信号区間推定装置とその方法とプログラム
JP2013104938A (ja) * 2011-11-11 2013-05-30 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2016051081A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 音源分離装置、及び音源分離方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109361A (ja) * 2002-09-17 2004-04-08 Toshiba Corp 指向性設定装置、指向性設定方法及び指向性設定プログラム
JP2006504130A (ja) * 2002-10-23 2006-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御
JP2010130411A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 複数信号区間推定装置とその方法とプログラム
JP2013104938A (ja) * 2011-11-11 2013-05-30 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2016051081A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 音源分離装置、及び音源分離方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中島 栄俊 他4名: "頭部回転型音源分離システムを用いた特定単語認識と頭部回転制御", 日本音響学会 2006年 春季研究発表会, JPN6020039885, 16 March 2006 (2006-03-16), pages 643 - 644, ISSN: 0004369720 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019103011A (ja) * 2017-12-05 2019-06-24 日本電信電話株式会社 変換装置、変換方法、およびプログラム

Also Published As

Publication number Publication date
JP6853163B2 (ja) 2021-03-31

Similar Documents

Publication Publication Date Title
US9286889B2 (en) Improving voice communication over a network
JP4462339B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20110224978A1 (en) Information processing device, information processing method and program
KR20210008520A (ko) 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
JP5644772B2 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
CN107077847A (zh) 关键短语用户识别的增强
JP2009031951A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20200152191A1 (en) Information processor and information procesing method
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP4490076B2 (ja) 物体追跡方法、物体追跡装置、プログラム、および、記録媒体
JP6853163B2 (ja) 話者方向推定装置、話者方向推定方法、およびプログラム
JP7111206B2 (ja) 話者方向強調装置、話者方向強調方法、およびプログラム
CN112420043A (zh) 基于语音的智能唤醒方法、装置、电子设备及存储介质
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
US11107476B2 (en) Speaker estimation method and speaker estimation device
Jeon et al. Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model
JP2018092117A (ja) 音響信号処理のパラメータ予測装置及びパラメータ予測方法
CN113077803A (zh) 一种语音处理方法、装置、可读存储介质及电子设备
CN112307260A (zh) 视频鉴别方法、装置、电子设备及计算机可读存储介质
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
CN113409802B (zh) 语音信号的增强处理方法、装置、设备及存储介质
JP2020024310A (ja) 音声処理システム及び音声処理方法
US20240078699A1 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
US11451694B1 (en) Mitigation of obstacles while capturing media content

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201027

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210311

R150 Certificate of patent or registration of utility model

Ref document number: 6853163

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150