JP2004240154A - 情報認識装置 - Google Patents

情報認識装置 Download PDF

Info

Publication number
JP2004240154A
JP2004240154A JP2003028994A JP2003028994A JP2004240154A JP 2004240154 A JP2004240154 A JP 2004240154A JP 2003028994 A JP2003028994 A JP 2003028994A JP 2003028994 A JP2003028994 A JP 2003028994A JP 2004240154 A JP2004240154 A JP 2004240154A
Authority
JP
Japan
Prior art keywords
feature amount
speech
unit
word
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003028994A
Other languages
English (en)
Inventor
Isao Tazawa
功 田澤
Chigiri Utsugi
契 宇都木
Toshio Moriya
俊夫 守屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003028994A priority Critical patent/JP2004240154A/ja
Publication of JP2004240154A publication Critical patent/JP2004240154A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】発話者の画像情報と音声情報を利用して話者の発話内容を認識する情報認識装置では,観測される映像の不安定性や,録音した音声に含まれる雑音による認識率の低下が問題となる。
【解決手段】画像特徴量算出部,音声特徴量算出部,照合データ設定部,照合データ記憶部,統合識別部により情報認識装置を構成する。
画像特徴量算出部では,複数のカメラを使用して複数方向から撮影した顔画像から口唇部分の特徴量を算出する。音声特徴量算出部では,複数のマイクロフォンを使用して集音した音声の特徴量を算出する。照合データ蓄積部では,各単語に関する口唇部分の特徴量,および音声の特徴量をあらかじめ格納しておく。照合データ設定部では,算出した口唇部分の特徴量および音声特徴量と比較,照合する,照合データ蓄積部に蓄積された単語の検索カテゴリーを設定する。統合識別部では,口唇部分の特徴量と音声の特徴量に基づいて話者の発声した単語を推定する。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は,話者の画像情報と音声情報を利用して話者の発話内容を認識する情報認識装置に関する。
【0002】
【従来の技術】
従来,発話者の映像情報と音声情報を利用して話者の発話内容を認識する方法としては,下記文献1に記載の(1)ニューラルネットワークによる方法や,(2)マルコフモデルによる方法などがある(非特許文献1参考)。
【0003】
(1)では,画像および音声の特徴量と母音の関係をニューラルネットワークによりあらかじめ学習しておき,発声された母音を推定する。(2)では,画像および音声それぞれに対して特徴量を時系列に表現し,確率モデルに従い発話内容を推定する。
【0004】
【非特許文献1】文献1:山崎弘郎,石川正俊,“センサフュージョン”,コロナ社,1992.
【0005】
【発明が解決しようとする課題】
上記従来技術では,顔の撮影方向が一定ではない画像データを使用することによる認識精度の低下や,混雑した施設内部等で収録した高雑音を含む音声データを使用することによる認識精度の低下に十分対応していないという問題がある。
【0006】
そこで,本発明では,観測される画像データの不安定性や音声データの雑音に頑強な情報認識装置を提供する目的とする。
【0007】
【課題を解決するための手段】
上記目的を達成するために,本発明では以下の手段を設ける。
(1) 画像特徴量算出部,音声特徴量算出部,照合データ設定部,照合データ蓄積部,統合識別部により情報認識装置を構成する。
【0008】
画像特徴量算出部では,複数のカメラを使用して複数方向から撮影した顔画像から口唇部分の特徴量を算出する。音声特徴量算出部では,複数のマイクロフォンを使用して集音した音声の特徴量を算出する。照合データ蓄積部では,認識対象である音素や単語に関する口唇部分の特徴量,および音声の特徴量をあらかじめ格納しておく。照合データ設定部では,算出した口唇部分の特徴量および音声特徴量と比較,照合する,照合データ蓄積部に蓄積された単語の検索カテゴリーを設定する。統合識別部では,口唇部分の特徴量と音声の特徴量に基づいて話者の発声した単語を推定する。
【0009】
(2) 照合データ蓄積部では,認識対象の単語と関連がある単語に関する口唇部分の特徴量,および音声の特徴量をあらかじめ格納しておく。画像特徴量算出部および音声特徴量算出部では,認識対象の単語と関連がある単語の情報を組合わせて,話者の発声した単語を推定する。
【0010】
(3) 発声位置推定部を設け,複数のカメラ画像を用いて話者の口の位置を推定する。その方向における複数のマイクロフォンの指向性利得を最大にして,音声を処理する。
【0011】
【発明の実施の形態】
本発明は,話者の映像情報と音声情報を利用して発話内容を認識する情報認識装置に関する。具体的には,下記の方法を実施するソフトウェア,またはハードウェアを作成することにより実現できる。以下,駅の自動券売機を例に本装置の実施例を示す。
(1)第1の実施形態
第1の実施形態は,複数のカメラおよびマイクロフォンを用いて観測した話者の顔画像および音声を基に,単語レベルの発話内容を認識する情報認識装置に関する。
【0012】
図1は,本実施例における情報認識装置を備えた自動券売機の外観図である。また,図2は情報認識装置の構成図である。自動券売機110には,発声者10の画像データ,音声データを取得するための複数カメラ101aから101e,およびマイクロフォン102a,102b,確認情報などを入力,表示するためのタッチパネル103,金銭出入口104が備わっている。また,自動券売機110内部の情報認識装置210は,カメラ101aから101eとのインタフェース201,マイクロフォン102a,102bとのインタフェース202,タッチパネル103とのインタフェース203,音素や単語に関する画像,音声の特徴量等の情報を格納したデータベース220とのインタフェース204,一連の処理を行うCPU205,プログラムやデータを格納するメモリ206,およびこれらを結合するバス207から構成される。
【0013】
図1ではカメラ数を5,マイクロフォン数を2としているが,任意の数とすることができる。また,カメラ101,マイクロフォン102以外の入力装置としてタッチパネル103を使用しているがキーボードなど他の機器を使用することが可能である。
【0014】
図3は,情報認識装置における処理のブロック図である。照合データ設定部301では,発声される単語の属するカテゴリをタッチパネル103によりあらかじめ設定する。画像特徴量算出部302では,複数のカメラを使用して撮影した話者の顔画像から口唇部分の特徴量を算出する。音声特徴量算出部303では,マイクロフォン102を使用して音声を収録し,その特徴量を算出する。統合識別部304では,画像特徴量算出部303および音声特徴量算出部304で得られた特徴量から統合的に判定し,話者の発声した単語を推定する。照合データ蓄積部305では,認識対象である音素や単語に関する口唇部分の特徴量,および音声の特徴量を格納している。格納されているデータは,画像特徴量算出部302,および音声特徴量算出部303,もしくは統合識別部304で使用される。
【0015】
以下,画像特徴量算出部301,音声特徴量算出部302,照合データ設定部303,統合識別部304における処理の具体例を示す。これらの処理は情報認識装置210のメモリ206内に格納され,CPU205により実行される。ただし,照合データ蓄積部305については,上記データを格納する外部記憶装置(データベース220)で実現される。
【0016】
なお,以下では,装置の使用者10は目的地の駅名とその駅のある路線名について知っているとし,路線名と駅名から必要な切符を購入しようとしていると仮定する。
【0017】
照合データ設定部301では,タッチパネル103の画面上で話者自身がこれから言う言葉の属するカテゴリを指定する。具体的には,例えば目的駅の路線を指定する。カテゴリを指定する方法としては,あらかじめ装置側で利用者にカテゴリを指定してもらうように音声や文字データで質問文を用意し,利用者と対話的に決定する方法がある。このとき,階層的なカテゴリを使用することも可能である。
【0018】
図4は画像特徴量算出部302における具体的な処理手順である。以下,図4の番号をステップ番号として,画像特徴量算出部302における処理手順を示す。
ステップ401:口唇画像検出
時間間隔Δtごとに,撮影した顔画像から口唇部分の画像In(j)を抽出する。ここで,n,jはそれぞれカメラおよび画像のインデックスである。具体的には,微分フィルタにより得られるエッジ画像や色彩情報,眉,目,鼻,耳,口,あごなどの相対位置関係から口唇画像In(j)を抽出する。
ステップ402:特徴量算出
抽出した時系列の口唇画像In(j)の特徴量Rn(j)を算出する。そして,一定時間ΔT以上変化しない特徴量Rn(j)の集合Rn(i)を求める。ここで,iはデータインデックスを表す。具体的な特徴量としては,唇内側の縦横の長さの比を使用する。
【0019】
上記口唇画像の検出やその特徴量の算出方法としては,上記以外に下記文献2や文献3に記載されている方法などを使用することができる。
【0020】
文献2:南敏,“顔画像による個人識別の技術”,システム/制御/情報, Vol.35,No.7,pp.415−422,1991.
文献3:関岡哲也ら,“関数合成による唇輪郭抽出法の提案”,電学論D−II,Vol.J84−D−II,No.3,pp.459−470,2001.
ステップ403:条件判定(全画像データを処理)
すべてのカメラ画像を処理するまで,上記ステップ401から403を繰り返す。
ステップ404:母音推定
算出した特徴量Rn(i)と,データベース220(照合データ蓄積部305)中の5つの母音の特徴量データR(v)とのマッチングをとる。具体的には,データインデックスiごとに特徴量Rn(i)とR(v)の類似度A(i,v)を算出する。ここで,vは5つの母音のインデックスを表す。類似度としては,特徴量Rn(i)とR(v)の差を正規化後にnについて平均した値などを使用する。
【0021】
また,母音を組み合わせた母音列に対応する類似度A(i,v)の積A(v1,..,v5)(インデックスi,vに関する積)を算出する。
ステップ405:単語推定
設定したカテゴリに属するデータベース中の単語データと母音列の対応関係に基づいて,入力された単語が各単語データである確率P1(k)を母音列の評価値A(v1,..,v5)とする。ここで,kは単語のインデックスを表す。
【0022】
図5は音声特徴量算出部303における具体的な処理手順である。以下,図5の番号をステップ番号として,音声特徴量算出部303における処理手順を示す。
ステップ501:目標音声検出
収録した音声データから,話者10の発声区間Imを切り出す。ここで,mはマイクロフォンのインデックスである。発声区間Imの推定方法としては,話者10が不在の間に録音した音響データから推定されるノイズレベルと収録した音声データのレベルの差から判定する方法や,短時間フーリエ変換などの周波数解析法により得られるスペクトルの時間変動から推定する方法などがある。
ステップ502:特徴量算出
抽出した音声データImの特徴量Rmを算出する。具体的な特徴量としては,短時間フーリエ変換などの周波数解析法により得られる,時系列のスペクトルを使用する。
ステップ503:条件判定(全音響データを処理)
すべてのマイクロフォンの音響データを処理するまで,上記ステップ501,502を繰り返す。
ステップ504:単語推定
特徴量Rmと設定したカテゴリに属するデータベース中の各単語の特徴量データSkとの相関係数を算出し,その正規化した値R(m,k)を求める。ここで,kは単語のインデックスを表す。データベース中の単語データについて,入力された単語が各単語データである確率P2(k)を相関係数R(m,j)とする。
【0023】
上記目標音声の検出方法,音声の特徴量の定義やその算出方法,単語推定の方法としては,上記以外に下記文献4などに記載されている各種方法を使用することができる。
【0024】
文献4:古井貞▲き▼,“ディジタル音声処理”,東海大学出版会,1985.
図6は統合識別部304における具体的な処理手順である。以下,図6の番号をステップ番号として,統合識別部304における処理手順を示す。
ステップ601:統合判定値算出
画像特徴量算出部302,音声特徴量算出部303の出力である各単語データの確率P1(k),P2(k)の積P(k)を算出する。
ステップ602:条件判定(全単語データを処理)
すべての単語データを処理するまで,上記ステップ601を繰り返す。
ステップ603:単語推定
判定値P(k)がしきい値Pm以上であり,最大となる単語データkを推定した単語として出力する。
【0025】
以上では,画像特徴量算出部302および音声特徴量算出部303において各単語となる確率を特徴量として出力し,統合識別部304において単語レベルで統合している。他の方法として,画像特徴量算出部302および音声特徴量算出部303の出力を唇内側の縦横の長さの比等の時系列データ,およびスペクトル等の時系列データとし,統合識別部304においてデータベース220を参照しながら各時系列データを統合的に処理する方法がある。
【0026】
また,駅名等をデータベース内のデータと照合する場合に,「A駅」と指定する話者10,および「A」と指定する話者10の両方に対応するため,データベースに「A」という駅名以外に「駅」という単語の特徴量を格納する方法が考えられる。この場合,画像特徴量算出部302,音声特徴量算出部303,および統合識別部304では,「A」と「駅」を組み合わせた「A駅」という単語との照合も行う。
【0027】
以上のように,複数の画像データと音声データについて,あらかじめ設定したカテゴリ内の単語と比較,照合することにより,話者の発声した単語の認識率を向上できると期待される。
(2)第2の実施形態
第2の実施形態は,複数のマイクロフォンの指向性利得を調節する発声位置推定部を備えた情報認識装置に関する。第1の実施形態との相違点は,発声位置推定部が加わった点である。
【0028】
図7は,本実施例の情報認識装置における処理のブロック図である。発声位置推定部701では,複数のカメラ画像から話者の口の位置を推定する。音声特徴量算出部303では,目標音声検出処理501を実行する際に,推定方向におけるマイクロフォンの指向性利得を最大とし,目標音声の検出を行う。
【0029】
以下,発声位置推定部701,およびその位置推定結果を使用する場合の音声特徴量算出部302における処理の具体例を示す。これらの処理は情報認識装置のメモリ206内に格納され,CPU205により実行される。
【0030】
図8は発声位置推定部701における具体的な処理手順である。以下,図8の番号をステップ番号として,発声位置推定部701における処理手順を示す。
ステップ801:口唇画像検出
各カメラ画像上で口唇部分の画像上の位置を検出する。具体的には,上述の口唇画像検出処理401と同様の処理により口唇部分を検出し,位置座標を求める。ステップ802:条件判定(全画像データを処理)
すべてのカメラ画像を処理するまで,上記ステップ801を繰り返す。
ステップ803:口唇位置推定
複数のカメラ画像における口唇部分の位置座標の検出結果から話者の口唇位置を推定する。具体的には,各カメラとそのカメラ画像上の口唇部分の検出位置を結ぶ直線の交点を算出する。本方法については,口唇位置に推定誤差がある場合等も含めて下記文献5に記載されている。
【0031】
文献5:高木幹雄,下田陽久,“画像解析ハンドブック”,東京大学出版会,1991.
音声特徴量算出部303では,目標音声検出処理501を実行時に,上記口唇部分の推定位置方向におけるマイクロフォンの利得を最大にする。具体的な方法としては,観測した音声信号の位相を調整して,口唇部分の推定方向から到来する音声信号の位相を同相とし,それらを加算する。本方法は,既存のビームフォーミング手法の一つであり,下記文献6等に記載されている。
【0032】
文献6:Richard O. Neilsen,”Sonar Signal Processing”,Artech House,1991.
以上のように,発声位置を推定してマイクロフォンの指向性を制御することにより,音声データの処理精度が向上し,情報認識装置全体の単語認識精度も向上することが期待できる。
【0033】
【発明の効果】
本発明によれば,複数のカメラおよび複数のマイクロフォンにより画像データ,および音響データを取得して,発声された単語の特徴量の推定精度を向上し,また,あらかじめ認識する単語のカテゴリを制限することにより,観測される画像データの不安定性や音声データの雑音に頑強な情報認識装置を提供することができる。
【図面の簡単な説明】
【図1】情報認識装置を備えた自動券売機の外観図。
【図2】情報認識装置の構成図。
【図3】情報認識装置における処理のブロック図。
【図4】画像特徴量算出部における処理手順。
【図5】音声特徴量算出部における処理手順。
【図6】統合識別部における処理手順。
【図7】発声位置推定部を備えた情報認識装置における処理のブロック図。
【図8】発声位置推定部における処理手順。
【符号の説明】
101a,101b:カメラ
102:マイクロフォン
103:タッチパネル
104:金銭出入口
110:自動券売機
201:画像センサ用インタフェース
202:音響センサ用インタフェース
203:外部入出力機器用インタフェース
205:CPU
206:メモリ
207:バス
301:照合データ設定部
302:画像特徴量算出部
303:音声特徴量算出部
304:統合識別部
701:発声位置推定部

Claims (3)

  1. 画像特徴量算出部と,音声特徴量算出部と,照合データ設定部と,照合データ蓄積部と,統合識別部から成る情報認識装置において,
    既画像特徴量算出部では,複数のカメラを使用して複数方向から撮影した顔画像から口唇部分の特徴量を算出し,
    既音声特徴量算出部では,複数のマイクロフォンを使用して集音した音声の特徴量を算出し,
    既照合データ蓄積部では,認識対象である音素や単語に関する既口唇部分の特徴量,および既音声の特徴量をあらかじめ格納し,
    既照合データ設定部では,既算出した口唇部分の特徴量および既音声の特徴量と比較,照合する,既照合データ蓄積部に蓄積された単語の検索カテゴリーを設定し,
    既統合識別部では,既口唇部分の特徴量と既音声の特徴量に基づいて話者の発声した単語を推定する
    ことを特徴とする情報認識装置。
  2. 請求項1において,
    既照合データ蓄積部では,既認識対象の単語と関連がある単語に関する既口唇部分の特徴量,および既音声の特徴量をあらかじめ格納し,
    既画像特徴量算出部および既音声特徴量算出部では,既認識対象の単語と既関連がある単語の情報を組合わせて既話者の発声した単語を推定する
    ことを特徴とする情報認識装置。
  3. 請求項1において発声位置推定部を設け,
    既発声位置推定部では,複数のカメラ画像を用いて話者の口の位置を推定し,その方向における複数の既マイクロフォンの指向性利得を最大とする
    ことを特徴とする情報認識装置。
JP2003028994A 2003-02-06 2003-02-06 情報認識装置 Pending JP2004240154A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003028994A JP2004240154A (ja) 2003-02-06 2003-02-06 情報認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003028994A JP2004240154A (ja) 2003-02-06 2003-02-06 情報認識装置

Publications (1)

Publication Number Publication Date
JP2004240154A true JP2004240154A (ja) 2004-08-26

Family

ID=32956291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003028994A Pending JP2004240154A (ja) 2003-02-06 2003-02-06 情報認識装置

Country Status (1)

Country Link
JP (1) JP2004240154A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006080161A1 (ja) * 2005-01-28 2006-08-03 Kyocera Corporation 発声内容認識装置及び発声内容認識方法
JP2006313344A (ja) * 2005-04-20 2006-11-16 Mitsubishi Electric Research Laboratories Inc 雑音を含む音響信号の質を向上させる方法および音響信号を取得して該音響信号の質を向上させるシステム
JP2008287340A (ja) * 2007-05-15 2008-11-27 Tokai Univ 発話内容識別装置及び個人識別装置
JP2011070224A (ja) * 2010-12-24 2011-04-07 Kyocera Corp 発声内容認識装置
CN102682273A (zh) * 2011-03-18 2012-09-19 夏普株式会社 嘴唇运动检测设备和方法
KR101240588B1 (ko) 2012-12-14 2013-03-11 주식회사 좋은정보기술 오디오-영상 융합 음성 인식 방법 및 장치
WO2021079975A1 (ja) * 2019-10-23 2021-04-29 ソニー株式会社 表示システム、表示装置、表示方法、及び、移動装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259088A (ja) * 1998-03-13 1999-09-24 Science Univ Of Tokyo 音声認識方法及び音声認識装置並びに記録媒体
JP2000010589A (ja) * 1998-06-19 2000-01-14 Tokai Rika Co Ltd 車両用音声認識装置
JP2000148184A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
JP2000206986A (ja) * 1999-01-14 2000-07-28 Fuji Xerox Co Ltd 言語情報検出装置
JP2000347692A (ja) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2002182680A (ja) * 2000-12-19 2002-06-26 Alpine Electronics Inc 操作指示装置
JP2002251234A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 複数のセンサによるヒューマンインタフェースシステム
JP2002259990A (ja) * 2001-02-28 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259088A (ja) * 1998-03-13 1999-09-24 Science Univ Of Tokyo 音声認識方法及び音声認識装置並びに記録媒体
JP2000010589A (ja) * 1998-06-19 2000-01-14 Tokai Rika Co Ltd 車両用音声認識装置
JP2000148184A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
JP2000206986A (ja) * 1999-01-14 2000-07-28 Fuji Xerox Co Ltd 言語情報検出装置
JP2000347692A (ja) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2002182680A (ja) * 2000-12-19 2002-06-26 Alpine Electronics Inc 操作指示装置
JP2002251234A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 複数のセンサによるヒューマンインタフェースシステム
JP2002259990A (ja) * 2001-02-28 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006080161A1 (ja) * 2005-01-28 2006-08-03 Kyocera Corporation 発声内容認識装置及び発声内容認識方法
JP2006208751A (ja) * 2005-01-28 2006-08-10 Kyocera Corp 発声内容認識装置
KR100931418B1 (ko) * 2005-01-28 2009-12-11 교세라 가부시키가이샤 발성 내용 인식 장치 및 발성 내용 인식 방법
US7979276B2 (en) 2005-01-28 2011-07-12 Kyocera Corporation Speech recognition apparatus and speech recognition method
CN101111886B (zh) * 2005-01-28 2011-11-16 京瓷株式会社 发声内容识别装置与发声内容识别方法
JP2006313344A (ja) * 2005-04-20 2006-11-16 Mitsubishi Electric Research Laboratories Inc 雑音を含む音響信号の質を向上させる方法および音響信号を取得して該音響信号の質を向上させるシステム
JP2008287340A (ja) * 2007-05-15 2008-11-27 Tokai Univ 発話内容識別装置及び個人識別装置
JP2011070224A (ja) * 2010-12-24 2011-04-07 Kyocera Corp 発声内容認識装置
CN102682273A (zh) * 2011-03-18 2012-09-19 夏普株式会社 嘴唇运动检测设备和方法
WO2012128382A1 (en) * 2011-03-18 2012-09-27 Sharp Kabushiki Kaisha Device and method for lip motion detection
KR101240588B1 (ko) 2012-12-14 2013-03-11 주식회사 좋은정보기술 오디오-영상 융합 음성 인식 방법 및 장치
WO2021079975A1 (ja) * 2019-10-23 2021-04-29 ソニー株式会社 表示システム、表示装置、表示方法、及び、移動装置

Similar Documents

Publication Publication Date Title
US11636860B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
US6219640B1 (en) Methods and apparatus for audio-visual speaker recognition and utterance verification
US6772119B2 (en) Computationally efficient method and apparatus for speaker recognition
US20110224978A1 (en) Information processing device, information processing method and program
JP2011191423A (ja) 発話認識装置、発話認識方法
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
Bredin et al. Audiovisual speech synchrony measure: application to biometrics
JP4730812B2 (ja) 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体
Faraj et al. Synergy of lip-motion and acoustic features in biometric speech and speaker recognition
JP2004240154A (ja) 情報認識装置
JP3798530B2 (ja) 音声認識装置及び音声認識方法
JP6916130B2 (ja) 話者推定方法および話者推定装置
Tao et al. An ensemble framework of voice-based emotion recognition system
US7454337B1 (en) Method of modeling single data class from multi-class data
Neti et al. Joint processing of audio and visual information for multimedia indexing and human-computer interaction.
Sahoo et al. Bimodal biometric person authentication using speech and face under degraded condition
JP2020091559A (ja) 表情認識装置、表情認識方法、およびプログラム
Tran et al. A robust clustering approach to fuzzy Gaussian mixture models for speaker identification
Bredin et al. Measuring audio and visual speech synchrony: methods and applications
Sharma et al. Speaker and gender identification on Indian languages using multilingual speech
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置
WO2022049613A1 (ja) 情報処理装置、推定方法、及び推定プログラム
JP3289670B2 (ja) 音声認識方法および音声認識装置
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051219

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091104