JP7111206B2 - 話者方向強調装置、話者方向強調方法、およびプログラム - Google Patents

話者方向強調装置、話者方向強調方法、およびプログラム Download PDF

Info

Publication number
JP7111206B2
JP7111206B2 JP2021023231A JP2021023231A JP7111206B2 JP 7111206 B2 JP7111206 B2 JP 7111206B2 JP 2021023231 A JP2021023231 A JP 2021023231A JP 2021023231 A JP2021023231 A JP 2021023231A JP 7111206 B2 JP7111206 B2 JP 7111206B2
Authority
JP
Japan
Prior art keywords
speaker
unit
acoustic
sound
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021023231A
Other languages
English (en)
Other versions
JP2021076874A (ja
Inventor
弘章 伊藤
翔一郎 齊藤
和則 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2021023231A priority Critical patent/JP7111206B2/ja
Publication of JP2021076874A publication Critical patent/JP2021076874A/ja
Application granted granted Critical
Publication of JP7111206B2 publication Critical patent/JP7111206B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、話者の方向を推定する技術に関する。
音声認識を利用した音声対話エージェントやロボット対話等のアプリケーションにおいて、目的とする話者の音声がどの方向から到来しているか、を判別することは、円滑な対話を実現する上で重要である。
例えば特許文献1や特許文献2に記載された従来技術では、複数のマイクロホンで集音された信号に基づき話者方向の推定を行い、推定された方向の音を強調して集音するように指向性集音を実施する。話者方向の推定は、方向毎のパワーを算出し、ある時点で最大のパワーとなる方向を話者方向として選択する。
従来の話者方向推定装置の機能構成を図1に示す。図1の話者方向推定装置9は、方向別パワー算出部91と方向選択部92とを備える。方向別パワー算出部91は、複数のマイクロホンで集音された音信号から方向毎のパワーを算出する。方向選択部92は、方向別パワー算出部91が算出した方向毎のパワーからある時点で最大のパワーとなる方向を話者方向として選択する。指向性集音部2は、複数のマイクロホンで集音された音信号のうち方向選択部92が選択した話者方向の音を強調して集音する。
特開2005-64968号公報 特開2001-309483号公報
しかしながら、従来技術は決定論的な話者方向推定手法であるため、集音したい音源と雑音源の両方が存在する場合には、どちらが集音したい音源か見分けることができず、雑音源を強調してしまうといった誤動作をしてしまう可能性がある。例えば、リビングで音声認識を利用した音声対話エージェントやロボット対話を行うシーンを想定すると、テレビ音や生活雑音、対話に無関係な話者の会話等の音源に反応するといった誤動作を起こしてしまい、対話が成立しないことがある。
この発明の目的は、上記のような点に鑑みて、空間音響的なシチュエーションが変化しても、適応的に話者の方向を推定することで、誤動作を防止することができる話者方向推定技術を実現することである。
上記の課題を解決するために、この発明の第一の態様の話者方向強調装置は、少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から推定した所望の話者の方向を強調する話者方向強調装置である。
話者方向強調装置は、収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出する音響特徴量抽出部と、音響特徴量から所望の話者の方向を推定する方向推定部と、推定された方向を強調して集音する指向性集音部と、を含み、音響特徴量抽出部は、音響信号から予め定められた特定音が含まれるか否かを示す指標値を含む音響特徴量を抽出するものである。
この発明の話者方向推定技術では、話者方向推定のための特徴量として方向毎のパワーといった空間的な音響特徴量に加えて、特定音検出や話者識別といった言語に由来する特徴量や、顔認識や顔検出といった画像に由来する特徴量を利用し、統計的手法に基づく方向選択手法とする。これにより、この発明の話者方向推定技術によれば、空間音響的なシチュエーションが変化しても、適応的に話者の方向を推定でき、結果として誤動作を防止することができる。
図1は、従来の話者方向推定装置の機能構成を例示する図である。 図2は、第一実施形態の話者方向推定装置の機能構成を例示する図である。 図3は、第一実施形態の話者方向推定方法の機能構成を例示する図である。 図4は、第二実施形態の話者方向推定装置の機能構成を例示する図である。 図5は、第二実施形態の話者方向推定方法の機能構成を例示する図である。 図6は、顔向きと画面占有率の関係を説明するための図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
[第一実施形態]
第一実施形態の話者方向推定装置は、ある目的音の方向を推定して指向性集音を実施する際に、雑音源等で方向推定を誤動作させないために、空間音響情報に言語に由来する情報や画像に由来する情報を追加し、目的音方向を確率統計的な手法により推定する装置である。
第一実施形態の話者方向推定装置1は、図2に示すように、M(≧2)個のマイクロホンで集音されたM個の音声信号を入力とし、その音声信号から推定した話者方向を指向性集音部2へ出力する。話者方向推定装置1は、音響特徴量抽出部10と方向推定部20とを備える。音響特徴量抽出部10は、方向選択前処理部101と方向別パワー算出部102と方向別特定音検出部103と方向別話者認識部104とを備える。ただし、音響特徴量抽出部10は、これらの処理部をすべて備えていなくともよく、これらのうち少なくとも1つの処理部を備えていればよい。この話者方向推定装置1が、図3に例示する各ステップの処理を行うことにより第一実施形態の話者方向推定方法が実現される。
話者方向推定装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。話者方向推定装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。話者方向推定装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。話者方向推定装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
以下、図3を参照して、第一実施形態の話者方向推定装置1が実行する話者方向推定方法について説明する。
ステップS101において、音響特徴量抽出部10の方向選択前処理部101は、M個のマイクロホンから受け取ったM個の音声信号に対してビームフォーミング等の信号処理を行い、L(≧2)個の方向別音声信号に変換する。ビームフォーミング技術としては、どのような方法を用いてもよく、例えば、下記参考文献1に記載の方法が挙げられる。
〔参考文献1〕特開2017-107141号公報
方向選択前処理部101は、L個の方向別音声信号を、方向別パワー算出部102、方向別特定音検出部103、および方向別話者識別部104へそれぞれ出力する。
ステップS102において、音響特徴量抽出部10の方向別パワー算出部102は、方向選択前処理部101から受け取ったL個の方向別音声信号それぞれについて、方向毎のパワーおよびパワーの時間変化の分散値を算出する。方向別パワー算出部102は、算出した方向毎のパワーおよびパワーの時間変化の分散値を音響特徴量抽出部10の出力の一部として方向推定部20へ出力する。
ステップS103において、音響特徴量抽出部10の方向別特定音検出部103は、方向選択前処理部101から受け取ったL個の方向別音声信号それぞれについて、予め定められた音である特定音の検出を行う。予め定められた音の例は、特定のキーワードの音声、口笛及び手拍子である。予め定められた音として、上記の例以外の所定の音が用いられてもよい。特定のキーワードは、方向別音声信号を音声認識し、その音声認識結果に特定のキーワードが含まれているか否かを判定することで検出することができる。このように、特定音を発した話者を集音すべき音源と判別して、その音源を指向性集音することで、高SN比で集音することができる。ユーザは、特定音を発することで、指向性の向きを変えることができ、テレビ等の音源が存在している場合でも、自分に対して指向性を向けて、その後固定することができる。方向別特定音検出部103は、方向毎の特定音検出結果を音響特徴量抽出部10の出力の一部として方向推定部20へ出力する。
ステップS104において、音響特徴量抽出部10の方向別話者識別部104は、方向選択前処理部101から受け取ったL個の方向別音声信号それぞれについて、予め登録されている話者の音声であるか否かを識別する。話者識別技術としては、どのような方法を用いてもよく、例えば下記参考文献2に記載された方法を適用することができる。方向別話者識別部104は、方向毎の話者識別結果を音響特徴量抽出部10の出力の一部として方向推定部20へ出力する。
〔参考文献2〕特開2017-97188号公報
音響特徴量抽出部10の各処理部で抽出した特徴量(ここでは、パワーやパワーの時間平均の分散、特定音検出結果、および話者識別結果)(以下、これらの特徴量の種類を指標値とも呼ぶ)は少なくとも1つを含む任意の組み合わせとすることができる。音響特徴量抽出部10が抽出する指標値はこれらに限定されず、話者の属性や行動に関係する指標値であれば任意のものを利用することができる。
ステップS20において、方向推定部20は、音響特徴量抽出部10から受け取った音響特徴量に基づいて話者方向を推定する。音の到来方向は、方向ではなく、位置により表されるものであってもよい。方向推定には確率統計的な手法を利用する。方向推定部20は、推定した話者方向を示す方向情報を、話者方向推定装置1の出力として指向性集音部2へ出力する。
方向推定の手法について、より詳しく説明する。ある方向dにおいて抽出されたK個の特徴量を持つ特徴ベクトルを次式のxdとし、その方向が話者であるか否かを表すクラスをCd=[0, 1]とする。このとき、1は話者、0は非話者を表すものとする。
Figure 0007111206000001
特徴ベクトルの各要素xk,d(k=1, 2, …, K)は、音響特徴量抽出部10により抽出した特徴量(例えば、パワーやパワーの時間平均の分散、特定音検出結果、話者識別結果といった指標値)が設定される。具体的には、パワーやパワーの時間平均の分散は、音響信号から算出されたパワーやパワーの時間平均の分散の各値である。特定音検出結果は、音響信号が特定音を含むか否かを示す二値(例えば、1は検出、0は非検出)である。話者識別結果は、音響信号から識別された話者が登録話者であるか否かを示す二値(例えば、1は登録話者、0は非登録話者)である。
方向推定部20は、次式に示すように、ある角度dにおける特徴量xdが与えられた下で、クラスCdが話者(=1)となる確率p(Cd=1|xd)が最大となる方向^dを求める。
Figure 0007111206000002
上記の問題は、例えばロジスティック回帰モデルを用いた二値分類問題として捉えることができ、最尤推定法により目的方向^dを推定することができる。ただし、モデル化の方法については上記に限定されるものではない。
ステップS2において、指向性集音部2は、方向推定部20から受け取った方向情報に基づいて、M個のマイクロホンが集音したM個の音声信号から話者方向の音を強調して集音する。指向性集音部2は、例えば下記参考文献3に記載された指向性集音を行う。指向性集音部2は、話者方向の音が強調された強調音声を出力する。
〔参考文献3〕特開2009-44588号公報
[第二実施形態]
第一実施形態の話者方向推定装置は、方向毎のパワーといった空間的な音響特徴量に加えて、特定音検出結果や話者識別結果といった言語に由来する特徴量を用いて話者方向の推定を行った。第二実施形態の話者方向推定装置は、第一実施形態の構成に加えて、カメラで撮像した画像信号を用いて顔認識や顔検出といった画像に由来する特徴量を用いて話者方向の推定を行う。第二実施形態の話者方向推定装置は、例えば、マイクロホンとカメラを搭載したロボットとして構成することを想定すると、話者がそのロボットに向かって話しかけているか否かを推定することを可能とする。
第二実施形態の話者方向推定装置3は、図4に示すように、M(≧2)個のマイクロホンが集音したM個の音声信号と少なくともK(≧1)個のカメラが撮像したK個の画像信号とを入力とし、その音声信号と画像信号とから推定した話者方向を指向性集音部2へ出力する。話者方向推定装置3は、第一実施形態と同様に音響特徴量抽出部10と方向推定部20とを備え、さらに画像特徴量抽出部11を備える。画像特徴量抽出部11は、画像認識前処理部111と顔向き判定部112と画面占有率算出部113とを備える。ただし、画像特徴量抽出部11は、これらの処理部をすべて備えていなくともよく、これらのうち少なくとも1つの処理部を備えていればよい。この話者方向推定装置3が、図5に例示する各ステップの処理を行うことにより第二実施形態の話者方向推定方法が実現される。
以下、図5を参照して、第二実施形態の話者方向推定装置3が実行する話者方向推定方法について、第一実施形態との相違点を中心に説明する。
ステップS101からS104までは第一実施形態と同様である。ステップS111からS113まではステップS101からS104までと並行して実行することができる。
ステップS111において、画像認識前処理部111は、K個のカメラから受け取ったK個の画像信号に対して画像認識のための前処理を行う。画像認識前処理部111は、前処理後の画像信号を、顔向き判定部112および画面占有率算出部113へそれぞれ出力する。
ステップS112において、顔向き判定部112は、画像認識前処理部111から受け取った前処理後の画像信号について、画像中の話者の顔向きを検出し、カメラに対してどの方向へ顔を向けているかを判定する。なお、顔向きの判定手法については下記参考文献4に記載された手法を適用することができる。顔向き判定部112は、顔向きの判定結果を画像特徴量抽出部11の出力の1つとして方向推定部20へ出力する。
〔参考文献4〕新井啓之、伊藤直己、片岡香織、谷口行信、“画像処理による広告効果測定技術-人数計測技術・顔画像技術の応用”、NTT技術ジャーナル 2013.1、vol. 25、pp. 61-64、2013年
ステップS113において、画面占有率算出部113は、画像認識前処理部111から受け取った前処理後の画像信号について、画像中の話者の顔を認識し、話者の顔が画面を占める面積の割合である画面占有率を算出する。なお、画面占有率の推定手法については上記参考文献4に記載された手法を適用することができる。画面占有率算出部113は、算出した画面占有率を画像特徴量抽出部11の出力の1つとして方向推定部20へ出力する。
ステップS20において、方向推定部20は、音響特徴量抽出部10から受け取った音響特徴量と、画像特徴量抽出部11から受け取った画像特徴量とに基づいて、第一実施形態と同等な確率統計的手法により、話者方向を推定する。方向推定部20は、推定した話者方向を示す方向情報を、話者方向推定装置1の出力として指向性集音部2へ出力する。
図6を参照して、顔向きと画面占有率とに基づいて、話者が話しかけている方向を推定する手法について、より具体的に説明する。図6(A)は話者がカメラに対して正面を向いており、画面占有率が高いときの画像の例である。この場合、話者はカメラ(およびその近傍に設置されたマイクロホン)に向かって話しかけている可能性が高いと考えられる。図6(B)は話者がカメラに対して正面を向いているが、画面占有率が低いときの画像の例である。図6(C)は画面占有率が高いが、話者がカメラに対して正面を向いていないときの画像の例である。これらの場合には、話者はマイクロホンに向かって話しかけていない可能性が高いと考えられる。具体的にどの範囲の顔向きや画面占有率であればマイクロホンに向かって話しかけていると判断できるかは、カメラやマイクロホンの設置位置を考慮して調整すればよい。
この発明のポイントは、主に、1.方向推定のための特徴量として言語に由来する情報や画像に由来する情報を用いたこと、2.方向推定の手法を決定論的でなく、確率統計的な手法を採用したこと、の二点である。上記の点により、従来の方向推定では誤検知となっていた状況を回避し、様々な環境で適応的に話者方向を推定することができ、方向推定結果の頑健性が向上する。例えば、音声認識を利用した音声対話アプリケーションに応答することで、リビング等の雑音源が存在する環境でも話者の発話のみを検出することができるため、利用シーンの拡大やユーザの利便性向上に資する。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1、3、9 話者方向推定装置
2 指向性集音部
10 音響特徴量抽出部
101 方向選択前処理部
102 方向別パワー算出部
103 方向別特定音検出部
104 方向別話者認識部
11 画像特徴量抽出部
111 画像認識前処理部
112 顔向き検出部
113 画面占有率算出部
20 方向推定部
91 方向別パワー算出部
92 方向選択部

Claims (4)

  1. 少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から推定した前記所望の話者の方向を強調する話者方向強調装置であって、
    前記音響信号のパワーやパワーの時間平均の分散の値、記音響信号において予め定められた特定音が含まれるか否か、前記音響信号から識別された話者が登録話者であるか否か、を示すもののうち少なくとも1つの指標値を含む組み合わせの特徴量を抽出する音響特徴量抽出部と、
    前記音響特徴量抽出部により抽出された特徴量から前記所望の話者の方向を推定する方向推定部と、
    前記方向推定部により推定された方向を強調して集音する指向性集音部と、
    を含み、
    前記方向推定部による推定は、ある方向dにおいて抽出されたK個の特徴量を持つ特徴ベクトルx d を次式で定義した場合、
    Figure 0007111206000003

    前記特徴ベクトルx d の各要素に前記音響特徴量抽出部により抽出された特徴量を設定し、前記ある方向dが話者であるか否かを表すクラスをC d =[0, 1]とした場合に、次式で定義されるように、前記クラスC d が話者(=1)となる確率p(C d =1|x d )が最大となる方向^dを求めることにより前記所望の話者の方向を推定する、話者方向強調装置。
    Figure 0007111206000004
  2. 請求項1に記載の話者方向強調装置であって、
    前記音響特徴量抽出部は、前記指標値に代えて、または前記指標値と共に、話者の属性、話者の行動のいずれかを抽出する、
    話者方向強調装置。
  3. 少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から推定した前記所望の話者の方向を強調する話者方向強調装置が実行する話者方向強調方法であって、
    音響特徴量抽出部が、前記音響信号のパワーやパワーの時間平均の分散の値、記音響信号において予め定められた特定音が含まれるか否か、前記音響信号から識別された話者が登録話者であるか否か、を示すもののうち少なくとも1つの指標値を含む組み合わせの特徴量を抽出し、
    方向推定部が、前記音響特徴量抽出部により抽出された特徴量から前記所望の話者の方向を推定し、
    指向性集音部が、前記方向推定部により推定された方向を強調して集音するものであり、
    前記方向推定部による推定は、ある方向dにおいて抽出されたK個の特徴量を持つ特徴ベクトルx d を次式で定義した場合、
    Figure 0007111206000005

    前記特徴ベクトルx d の各要素に前記音響特徴量抽出部により抽出された特徴量を設定し、前記ある方向dが話者であるか否かを表すクラスをC d =[0, 1]とした場合に、次式で定義されるように、前記クラスC d が話者(=1)となる確率p(C d =1|x d )が最大となる方向^dを求めることにより前記所望の話者の方向を推定する、
    話者方向強調方法。
    Figure 0007111206000006
  4. 請求項1または2に記載の話者方向強調装置としてコンピュータを機能させるためのプログラム。
JP2021023231A 2021-02-17 2021-02-17 話者方向強調装置、話者方向強調方法、およびプログラム Active JP7111206B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021023231A JP7111206B2 (ja) 2021-02-17 2021-02-17 話者方向強調装置、話者方向強調方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021023231A JP7111206B2 (ja) 2021-02-17 2021-02-17 話者方向強調装置、話者方向強調方法、およびプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017226965A Division JP6853163B2 (ja) 2017-11-27 2017-11-27 話者方向推定装置、話者方向推定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021076874A JP2021076874A (ja) 2021-05-20
JP7111206B2 true JP7111206B2 (ja) 2022-08-02

Family

ID=75900043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021023231A Active JP7111206B2 (ja) 2021-02-17 2021-02-17 話者方向強調装置、話者方向強調方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7111206B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001296891A (ja) 2000-04-14 2001-10-26 Mitsubishi Electric Corp 音声認識方法および装置
JP2004109361A (ja) 2002-09-17 2004-04-08 Toshiba Corp 指向性設定装置、指向性設定方法及び指向性設定プログラム
JP2005274707A (ja) 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
WO2011055410A1 (ja) 2009-11-06 2011-05-12 株式会社 東芝 音声認識装置
JP2013104938A (ja) 2011-11-11 2013-05-30 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6450139B2 (ja) * 2014-10-10 2019-01-09 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001296891A (ja) 2000-04-14 2001-10-26 Mitsubishi Electric Corp 音声認識方法および装置
JP2004109361A (ja) 2002-09-17 2004-04-08 Toshiba Corp 指向性設定装置、指向性設定方法及び指向性設定プログラム
JP2005274707A (ja) 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
WO2011055410A1 (ja) 2009-11-06 2011-05-12 株式会社 東芝 音声認識装置
JP2013104938A (ja) 2011-11-11 2013-05-30 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中島栄俊他4名,頭部回転型音源分離システムを用いた特定単語認識と頭部回転制御,日本音響学会2006年春季研究発表会[CD-ROM],2006年03月,pp.643-644

Also Published As

Publication number Publication date
JP2021076874A (ja) 2021-05-20

Similar Documents

Publication Publication Date Title
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
KR102492783B1 (ko) 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
JP4462339B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP5644772B2 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US20110224978A1 (en) Information processing device, information processing method and program
JP2015057630A (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
JP2009031951A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP6958723B2 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
US11430437B2 (en) Information processor and information processing method
Lin et al. Activity recognition using a combination of category components and local models for video surveillance
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP7111206B2 (ja) 話者方向強調装置、話者方向強調方法、およびプログラム
JP6853163B2 (ja) 話者方向推定装置、話者方向推定方法、およびプログラム
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
CN113077803B (zh) 一种语音处理方法、装置、可读存储介质及电子设备
CN113191364A (zh) 车辆外观部件识别方法、装置、电子设备和介质
Besson et al. Hypothesis testing for evaluating a multimodal pattern recognition framework applied to speaker detection
CN111951791A (zh) 声纹识别模型训练方法、识别方法、电子设备及存储介质
CN112185367A (zh) 关键词检测方法和装置、计算机可读存储介质、电子设备
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
CN113409802B (zh) 语音信号的增强处理方法、装置、设备及存储介质
US20220208184A1 (en) Anomaly detection apparatus, anomaly detection method, and anomaly detection system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220704

R150 Certificate of patent or registration of utility model

Ref document number: 7111206

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150