JPH11282492A

JPH11282492A - 音声認識装置、話者検出装置及び画像記録装置

Info

Publication number: JPH11282492A
Application number: JP10079916A
Authority: JP
Inventors: Hiroshi Furuyama; 山浩志古; Ikuo Inoue; 上郁夫井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-03-26
Filing date: 1998-03-26
Publication date: 1999-10-15
Anticipated expiration: 2018-03-26
Also published as: JP3865924B2

Abstract

(57)【要約】【課題】複数の話者に対して、信頼性の高い音声認識
を実現する。【解決手段】音声信号入力部１と、映像信号入力部２
と、複数話者の音声から共通する特徴を抽出して標準パ
ターンを作成し入力音声と標準音声パターンとの類似度
を算出する不特定話者音声認識部３と、予め登録された
話者の音声と入力音声との類似度を算出する特定話者音
声認識部３と、入力映像から顔領域を抽出する顔領域抽
出部９と、複数特定話者の顔画像データと話者識別番号
とを記録する顔画像データベース１１と、顔領域抽出部
９と顔画像データベース１１から入力する画像データと
の類似度を出力する画像比較部１０と、不特定話者音声
認識部３、特定話者音声認識部４、及び画像比較部１０
の出力から統合的類似度を算出し認識結果を出力する認
識結果統合部５とで構成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、映像信号と音声信
号を用いて音声認識を行う音声認識装置に関する。

【０００２】

【従来の技術】音声認識方式には、特定話者音声認識方
式と不特定話者音声認識方式とがある。特定話者の音声
のみを認識する特定話者音声認識方式は、話者の音声を
予め登録し、入力音声と登録音声の類似度を算出し、入
力音声の認識を行うものである。従って、登録された話
者の音声入力に対しては、高い認識率を得ることができ
るが、話者の音声を登録する作業が必要となる。一方、
不特定話者認識方式では、不特定多数の音声から共通す
る特徴を抽出して標準パターンを作成し、入力音声と音
声標準パターンとの類似度を算出し、入力音声の認識を
行うものである。従って、話者の音声を登録する煩雑さ
はないが、特定話者音声認識方式と比較すると認識率は
低くなる。

【０００３】このような、特定話者音声認識方式と不特
定話者音声認識方式における、それぞれの短所を補うた
め、特定話者音声認識方式と不特定話者音声認識方式を
併用する音声認識装置が考えられている（特開昭63−32
596号公報）。

【０００４】この装置は図６に示すように、音声信号を
入力する音声信号入力部1、不特定話者音声認識方式に
より音声認識を行う不特定話者認識部３、特定話者音声
認識方式により音声認識を行う特定話者音声認識部４、
不特定話者認識部3と特定話者認識部4でそれぞれ求まっ
た認識結果を入力して、類似度の大きな方の認識結果を
出力する認識結果統合部5を備えている。また、認識結
果が正解と判断されたときには、入力音声の特徴データ
を特定話者認識用として特定話者認識部４に登録する。

【０００５】このように、従来の音声認識装置では特定
話者音声認識方式と不特定話者音声認識方式を併用する
ことにより、音声認識の認識率を高め、また、特定の話
者の音声データを自動的に登録することが可能となって
いる。

【０００６】

【発明が解決しようとする課題】音声認識装置の用途と
して、例えばパーソナルコンピューター、TVやVTR等、
家庭内にある電気製品の機器制御のための入力装置とし
ての利用が考えられるが、家庭内で利用する場合には、
ある特定の人物が発する音声に対してのみ高い認識率を
有するのでは不十分であり、同居している家族など、複
数の人物から発せられる、それぞれの音声入力に対して
も高い認識率を維持する必要がある。

【０００７】本発明は、このような要求にこたえるもの
であり、複数の話者に対しても高い認識率を実現するこ
とができる音声認識方式を提供することを目的としてい
る。

【０００８】

【課題を解決するための手段】そこで、本発明の音声認
識装置では、話者の特徴的外観（顔など）を含む映像デ
ータを入力する映像入力手段と、話者の音声データを入
力する音声入力手段と、不特定話者音声認識認識方式に
より音声認識を行う不特定話者音声手段と、認識を行う
話者を含む複数の話者の音声データを蓄積する音声デー
タベースと、特定話者音声認識方式により音声認識を行
う特定話者音声認識手段と、入力する映像から話者の顔
領域を抽出する顔領域抽出手段と、認識を行う話者を含
む複数の話者の顔画像データを蓄積する顔画像データベ
ースと、顔領域抽出手段から出力される顔画像と顔画像
データベースに蓄積された顔画像とを比較して、類似度
を出力する画像比較手段と、不特定話者音声認識手段と
特定話者音声認識手段からそれぞれ出力される認識候補
音声と入力音声との間の類似度と画像比較手段から出力
される類似度を統合して、最終的な音声認識結果として
出力する認識結果統合手段とを備え、不特定話者音声認
識手段から出力される入力音声と認識候補音声の類似度
と、画像比較手段から出力される顔画像データベースに
登録された話者の顔画像と入力映像に含まれる顔画像の
類似度と、特定話者認識手段から出力される音声データ
ベースに登録された話者の音声データと入力音声の類似
度を組み合わせて、総合的な類似度から認識結果を出力
するようにしている。

【０００９】また、音声データベース、顔画像データベ
ースに複数の話者のデータが登録されている場合には、
それぞれの話者に対する顔画像と音声の類似度から、総
合的な類似度を算出し認識結果を出力する。

【００１０】従って、登録された話者の顔画像と入力映
像に含まれる話者の顔画像の類似度が小さいときには、
不特定話者音声認識手段からの出力が認識結果に大きく
寄与し、登録された話者の顔画像と入力した話者の顔画
像の類似度が大きいときには、その中でも最も類似度の
大きな話者に対する、特定話者音声認識手段からの出力
が認識結果に大きく寄与するため、複数の特定話者、あ
るいは不特定の話者から発せられる音声の入力に対し
て、より信頼性の高い音声認識が可能となる。

【００１１】

【発明の実施の形態】本発明の請求項１に記載の発明
は、音声認識装置に、話者の特徴的外観の画像を含む映
像データを入力する映像入力手段と、話者の音声デー
タを入力する音声入力手段と、複数の特定の話者の音声
データを、それを特定できる話者識別情報とともに登録
し、登録された音声データと入力音声データとの類似度
を算出して音声認識を行う特定話者音声認識手段と、不
特定多数の話者の音声データから共通する特徴を抽出し
て標準パターンを作成、登録して、音声標準パターンと
入力音声データとの類似度を算出して音声認識を行う不
特定話者音声認識手段と、複数の話者の特徴的外観の画
像を、その話者を特定できる話者識別情報とともに登録
し、登録された画像データと前記映像データに含まれる
話者の画像データとの類似度を算出する画像認識手段
と、特定話者音声認識手段の出力と不特定話者音声認識
手段からの出力と画像認識手段からの出力とを統合し
て、音声認識結果として単語等を出力する認識結果統合
手段とを備えたものであり、登録された話者の顔画像と
入力映像に含まれる話者の顔画像の類似度の大小によっ
て出力元の音声認識手段を変えることにより、複数の特
定話者、あるいは不特定の話者から発せられる音声の入
力に対して、より信頼性の高い音声認識が可能になると
いう作用を有する。

【００１２】本発明の請求項２に記載の発明は、音声認
識装置に、話者の特徴的外観を含む映像データを入力す
る映像入力手段と、話者の音声データを入力する音声入
力手段と、複数の話者の特徴的外観の画像を、その話者
を特定できる話者識別情報とともに登録し、登録された
画像データと前記映像データに含まれる話者の画像デー
タとの類似度を算出する画像認識手段と、複数の特定の
話者の音声データを、それを特定できる情報とともに登
録し、前記画像認識手段で算出された類似度をもとに登
録された音声データを絞り込んだ後、その絞り込まれた
音声データと入力音声データとの類似度を算出して音声
認識を行う特定話者音声認識手段と、不特定多数の話者
の音声データから共通する特徴を抽出して標準パターン
を作成、登録して、音声標準パターンと入力音声データ
との類似度を算出して音声認識を行う不特定話者音声認
識手段と、特定話者音声認識手段の出力と不特定話者音
声認識手段からの出力とを統合して、音声認識結果とし
て単語等を出力する認識結果統合手段とを備えたもので
あり、顔などを含む映像から話者の顔画像を抽出して、
登録された話者の顔画像データベースと照合し、類似度
を算出して、特定話者音声認識部、不特定話者音声認識
部から出力する音声の類似度との統合的な類似度を算出
して認識結果を出力することにより、複数の特定話者の
入力に対して、信頼性の高い音声認識を行うことが可能
となるという作用を有する。

【００１３】本発明の請求項３に記載の発明は、請求項
１記載の音声認識装置において、特定話者音声認識手段
では、画像認識手段から出力される類似度が閾値を超え
た話者の音声データのみに対して、入力音声データとの
類似度を算出するようにしたものである。

【００１４】本発明の請求項４に記載の発明は、請求項
１記載の音声認識装置において、特定話者音声認識手段
では、画像認識手段から出力される類似度のうち最大と
なる話者の音声データのみに対して、入力音声データと
の類似度を算出するようにしたものである。

【００１５】本発明の請求項５に記載の発明は、請求項
１、３、４のいずれかに記載の音声認識装置において、
認識結果統合手段が、画像認識手段から出力される、話
者識別情報に対応する話者の画像データと入力映像に含
まれる画像データとの類似度をＲi、特定話者音声認識
手段から出力される、話者識別情報に対応する話者の音
声データｊに対する入力音声データとの類似度をＲ'i,
j、不特定話者音声認識手段から出力される、入力音声
データと音声データｊとの類似度をＲ''とするときに、
そのＲi とＲ'i,j とＲ''j とを用いて最適な音声デ
ータを出力するようにしたものである。

【００１６】本発明の請求項６に記載の発明は、請求項
１、３〜５のいずれかに記載の音声認識装置において、
顔などの唇を含む外観を話者の特徴的外観とし、入力映
像から話者の唇の動きを検出する唇動き検出手段を備
え、特定話者認識手段では、単位時間あたりの唇の動き
量が設定された閾値よりも大きい入力に対してのみ、入
力音声データと登録音声データの類似度を算出するよう
にしたものである。

【００１７】本発明の請求項７に記載の発明は、話者検
出装置として、話者の顔を含む映像データを入力する映
像入力部と、話者の音声データを入力する音声入力部
と、入力映像から話者の唇の動きを検出する唇動き検出
手段と、入力音声から音声レベルを検出する音声レベル
検出手段とを備えたものであり、単位時間あたりの唇の
動き量と音声レベルが共に設定された閾値を超えている
時には、入力された映像中に話者の映像が含まれている
ことを示す話者検出信号を出力するという作用を有す
る。

【００１８】本発明の請求項８に記載の発明は、請求項
１、３〜６のいずれかに記載の音声認識装置において、
請求項７に記載の話者検出装置と同様の機能を有する話
者検出手段を具備し、特定話者認識手段では、話者検出
信号が設定された閾値以上となる入力に対してのみ、入
力音声データと登録音声データの類似度を算出するよう
にしたものである。

【００１９】本発明の請求項９に記載の発明は、請求項
１、３〜６、８のいずれかに記載の音声認識装置におい
て、音声信号入力部と映像信号入力部は、それぞれ映像
表示装置の音声信号出力部と映像出力部に接続され、前
記映像表示装置の表示対象である出演者を特定できる出
演者識別情報を含む、出演者情報を入力する出演者情報
入力手段と、出演者情報を記録する出演者情報記録手段
と、出演者情報から現在、表示されている出演者を特定
し、登録された画像データの中から特定された出演者の
画像データを検索する画像検索手段を備えたものであ
り、画像認識部では、検索された出演者の画像と入力し
た映像信号に含まれる話者の画像との類似度を算出し、
類似度に応じた音声を出力するという作用を有する。

【００２０】本発明の請求項１０に記載の発明は、話者
の特徴的外観を含む映像データを入力する映像入力部
と、複数の話者の特徴的外観の画像を、それを特定でき
る話者識別情報と共に登録する画像データベースと、登
録された画像データと入力映像に含まれる話者の画像デ
ータとの類似度を算出する画像認識手段とを備えたもの
であり、入力した映像に含まれる画像と登録された画像
データの類似度を算出し、登録されているすべての画像
データに対する類似度が予め設定された閾値以下の場合
は、未登録の話者として新たな話者識別情報とともに画
像データベースに記録することによりデータベースの内
容をより充実させるという作用を有する。

【００２１】本発明の請求項１１に記載の発明は、請求
項１、３〜６、８、９のいずれかに記載の音声認識装置
において、請求項１０に記載の顔画像装置と同様の機能
を有する画像記録手段を具備したものであり、未登録の
話者を自動的に登録することによりデータベースの内容
をより充実させるという作用を有する。

【００２２】本発明の請求項１２に記載の発明は、請求
項１１記載の音声認識装置において、入力した映像に含
まれる画像と登録された画像データの類似度を算出し、
出力された類似度が予め設定した閾値Ｓ１以上となる登
録話者のすべての音声データに対して、特定話者音声認
識手段から出力する入力音声データと登録音声データと
の間の類似度が予め設定された閾値Ｓ２以下であり、か
つ、不特定話者音声認識手段から出力される候補単語等
の類似度が予め設定された閾値Ｓ３以上である場合に、
該当の話者の未登録音声データとして、それを特定でき
る話者識別情報とともに入力音声データを記録するため
の記録手段を備えたものである。

【００２３】以下、本発明の実施の形態について図１か
ら図５を用いて説明する。なお、本発明はこれら実施の
形態に何等限定されるものではなく、その要旨を逸脱し
ない範囲において種々なる態様で実施し得る。

【００２４】（実施の形態１）第一の実施の形態の音声
認識装置は、図１に示すように、音声を入力する音声信
号入力部１、映像を入力する映像信号入力部２、複数の
不特定話者の音声から共通する特徴を抽出して標準パタ
ーンを作成し、入力音声と音声標準パターンとの間の類
似度を算出して出力する不特定話者音声認識部３、予め
登録された話者の音声と入力音声の類似度を算出して出
力する特定話者音声認識部４、入力映像から話者の顔領
域を抽出する顔領域抽出部９、複数の特定話者の顔画像
データを話者の名前、もしくは話者識別コードとともに
記録する顔画像データベース１１、顔領域抽出部９と顔
画像データベース１１から入力する画像データを比較し
類似度を出力する画像比較部１０、不特定話者認識部
３、特定話者認識部４、画像比較部１０から出力される
それぞれの類似度から、類似度がもっとも大きな類似度
に対応する単語等を認識結果として出力する認識結果統
合部５により構成される。

【００２５】また、特定話者音声認識部４は、入力した
音声をスペクトラム分析等により音声の特徴量を抽出す
る音声処理部６、隠れマルコフモデル等により入力音声
と登録音声データとの間の特徴量の類似度を算出して出
力する音声認識処理部７、複数の特定話者の音声データ
を話者の名前、もしくは話者識別コードとともに記録す
る音声データベース８により構成される。

【００２６】この装置では、音声入力部１に入力した話
者の音声は不特定話者音声認識部３と特定話者音声認識
部４内の音声処理部6に入力する。音声処理部６の出力
は、音声認識処理部７に入力し、音声認識処理部７の出
力は、特定話者音声認識部４の出力として出力される。
また、音声認識処理部７と音声データベース８は互いに
接続されている。

【００２７】映像信号入力部２に入力した話者の顔を含
む映像は、顔領域出力部９に入力し、顔領域抽出部９の
出力は画像比較部１０に入力し、画像比較部１０の出力
は音声認識処理部７に接続される。また、画像比較部１
０と画像データベース１１は互いに接続されている。

【００２８】不特定話者音声認識部３、特定話者音声認
識部４、画像比較部１０の出力は、認識結果統合部５に
入力し、認識結果統合部５からは認識結果が出力され
る。なお、映像信号中に含まれる人物の顔領域部分を抽
出する手法は公知であり、例えば、第２回画像センシン
グシンポジウム講演集、Ａ−１、ｐｐ．１〜６、「色情
報とＧＡを用いた顔画像抽出と個人照合の応用」などに
示されている。また、二つの顔画像データを比較する手
法も、例えば、電子情報通信学会論文誌、Ｄ−２，Ｖｏ
ｌ．，Ｊ７６−Ｄ−２，Ｎｏ．６，ｐｐ．１１３２〜１
１３９、「モザイクとニューラルネットを用いた顔画像
の認識」などに示されている。また、こうした技術を用
いて、顔画像を個人照合に利用することは特願平８−１
７０８６６号公報、或いは特願平８−８６１７１号公報
などに示されている。この実施の形態の装置において
も、これらの技術を用いることが可能であるが、それだ
けに限定されるものではない。

【００２９】また、音声認識処理部７における類似度の
算出には、隠れマルコフモデル以外にニューラルネット
ワーク等、一般に用いられている他の手法を用いてもよ
い。顔画像比較部１０では、登録された複数の話者に対
して、ｉ番目の話者の顔画像データと顔領域抽出部９か
ら出力する顔画像データとの間の類似度Ｒｉを算出し出
力する。特定話者音声認識部４では、登録された複数の
話者に対してｉ番目の話者の音声データｊと、入力音声
との類似度をＲｉ，ｊを算出して出力する。不特定話者
認識部３では、音声データｊに対して複数の不特定話者
の音声から共通する特徴を抽出して作成した標準パター
ンと入力音声との間の類似度Ｒ’’ｊを算出し、出力す
る。認識結果統合部５では、あらかじめ設定した係数を
αとするときに、登録された話者ｉのすべての音声デー
タｊに対して、α・Ri・Ｒ'i,jとＲ''jを算出し、その
値が最大となる音声データｊに対応する単語等を認識結
果として出力する。

【００３０】ここで、係数αは、音声データベース８に
登録した音声データとは別に、音声データベース８に登
録された話者を含む複数の話者の音声データを用意し、
この音声データの入力に対して認識率が最大となるよう
あらかじめ設定するものである。このように特定話者音
声認識の方式において、登録された話者の顔画像データ
と入力映像に含まれる話者の顔画像を比較して、話者を
特定することにより、信頼性の高い音声認識が可能とな
る。

【００３１】（実施の形態２）この音声認識装置は図２
に示すように、顔領域抽出部９から出力される話者の顔
領域映像を入力し、前述の顔領域抽出部９と同じ手法に
より話者の口唇部分を抽出した映像を出力する唇領域抽
出部１２、唇領域抽出部１２から出力される話者の口唇
領域映像を入力し、話者の唇の動きを検出する唇動き検
出部１３と、実施の形態１と同じく音声処理部６、音声
認識処理部７、音声データベース８から構成される特定
話者音声認識部７、音声入力信号部１、映像信号入力部
２、不特定話者音声認識部３、顔領域抽出部９、画像比
較部１０、認識結果統合部５を備えている。

【００３２】この装置では、音声入力部１に入力した話
者の音声は不特定話者認識部３と特定話者認識部４内の
音声処理部６に入力する。音声処理部６の出力は、音声
認識処理部７に入力し、音声認識処理部７の出力は、特
定話者音声認識部４の出力として出力される。また、音
声認識処理部７と音声データベース８は互いに接続され
ている。映像信号入力部２に入力した話者の顔を含む映
像は、顔領域出力部９に入力し、顔領域抽出部９の出力
は画像比較部１０と唇領域抽出部１２に入力し、画像比
較部１０の出力は音声認識処理部７に接続される。ま
た、画像比較部１０と画像データベース１１とは互いに
接続されている。

【００３３】唇領域抽出部１２の出力は唇動き検出部１
３に入力し、唇動き検出部１３の出力は、音声認識処理
部７に入力する。不特定話者音声認識部３、特定話者音
声認識部４、画像比較部１０の出力は、認識結果統合部
５に入力し、認識結果統合部５からは認識結果が出力さ
れる。唇動き検出部１３では、唇領域抽出部１２で抽出
した口唇領域の映像から、唇上のある着目点の動きベク
トルを検出し、単位時間の唇の動きベクトルの平均値が
設定した閾値よりも大きいときにはＫ＝１閾値より小さいときにはＫ＝０を出力する。認識結果統合部５では、登録されたすべて
の話者ｉの音声データｊに対して、 α・K・Ri・Ｒ'i,jとＲ''j を算出し、その値が最大となる音声データｊに対応する
単語等を認識結果として出力する。

【００３４】このように特定話者音声認識の方式におい
て、入力映像に含まれる話者の唇の動きを検出すること
により、入力映像に複数の話者の顔が含まれているとき
にも、信頼性の高い音声認識が可能となる。

【００３５】（実施の形態３）この装置は図３に示すよ
うに、入力した音声のレベルが閾値を超えているかを検
出する音声レベル検出部１４と、実施の形態２と同じ
く、音声信号入力部１、音声処理部６、音声認識処理部
７、音声データベース８から構成される特定話者音声認
識部７、音声入力信号部１、映像信号入力部２、不特定
話者音声認識部３、顔領域抽出部９、画像比較部１０、
認識結果統合部５、唇領域抽出部１２、唇動き検出部１
３を備えている。

【００３６】この装置では、音声入力部１に入力した話
者の音声は不特定話者認識部３と特定話者認識部４内の
音声処理部６に入力する。音声処理部６の出力は、音声
認識処理部７に入力し、音声認識処理部７の出力は、特
定話者音声認識部４の出力として出力される。また、音
声認識処理部７と音声データベース８は互いに接続され
ている。映像信号入力部２に入力した話者の顔を含む映
像は、顔領域出力部９に入力し、顔領域抽出部９の出力
は画像比較部１０と唇領域抽出部１２に入力し、画像比
較部１０の出力は音声認識処理部７に接続される。ま
た、画像比較部１０と画像データベース１１は互いに接
続されている。唇領域抽出部１２の出力は唇動き検出部
１３に入力し、唇動き検出部１３の出力は、音声認識処
理部７に入力する。また、音声入力部１は音声レベル検
出部１４にも接続し、音声レベル検出部１４の出力は音
声認識処理部７と接続されている。

【００３７】不特定話者音声認識部３、特定話者音声認
識部４、画像比較部１０の出力は、認識結果統合部５に
入力し、認識結果統合部５からは認識結果が出力され
る。また、唇動き検出部１３では、唇領域抽出部１２で
抽出した口唇領域の映像から、唇の動きを検出し、単位
時間の唇の動きの平均値が設定した閾値よりも大きいと
きにはＫ＝１閾値よりも小さいときにはＫ＝０を出力する。音声レベル検出部１４では、単位時間の音
声レベルの平均値が設定した閾値よりも大きいときにはＬ＝１閾値よりも小さいときにはＬ＝０を出力する。認識結果統合部５では、登録されたすべて
の話者ｉの音声データｊに対して、 α・K・L・Ri・Ｒ'i,jとＲ''j を算出し、その値が最大となる音声データｊに対応する
単語等を認識結果として出力する。

【００３８】このように特定話者音声認識の方式におい
て、入力映像に含まれる話者の唇の動きを検出すること
により、入力映像に複数の話者の顔が含まれているとき
にも、より信頼性の高い音声認識が可能となる。

【００３９】（実施の形態４）この装置は図４に示すよ
うに、ＴＶ番組の出演者の名前のデータを含む番組表を
入力する番組表入力部１５、番組表を記録する番組表記
録部１６、番組表データと現在の時刻を比較し、現在、
放送されているＴＶ番組の出演者を特定して出演者の名
前を出力する出演者名検出部部１７、出演者名検出部１
７から出力する出演者の名前から顔画像データベース１
１を検索して、検索した顔画像を出力させる画像検索部
１８と、実施の形態１と同じく音声処理部６と音声デー
タベース８と音声認識処理部７から構成される特定話者
認識部４と、音声信号入力部１、映像信号入力部２と、
不特定話者音声認識部３と、顔領域抽出部９と、画像比
較部１０と、認識結果統合部５を備えている。

【００４０】この装置では、番組表入力部１５に入力し
た番組表データは、番組表記録部１６に入力し、記録さ
れる。出演社名検出部１７は、番組表記録部１６と画像
検索部１８に接続され、画像検索部１９と顔画像データ
ベース１１とは互いに接続されている。また、音声入力
部１に入力した話者の音声は不特定話者認識部３と特定
話者認識部４内の音声処理部６に入力する。音声処理部
６の出力は、音声認識処理部７に入力し、音声認識処理
部７の出力は、特定話者音声認識部４の出力として出力
される。また、音声認識処理部７と音声データベース８
は互いに接続されている。映像信号入力部２に入力した
話者の顔を含む映像は、顔領域出力部９に入力し、顔領
域抽出部９の出力は画像比較部１０に入力し、画像比較
部１０の出力は音声認識処理部７に接続される。また、
画像比較部１０と画像データベース１１とは互いに接続
されている。

【００４１】不特定話者音声認識部３、特定話者音声認
識部４、画像比較部１０の出力は、認識結果統合部５に
入力し、認識結果統合部５からは認識結果が出力され
る。また、音声信号入力部１と映像信号入力部２は、そ
れぞれＴＶ受信機の音声信号出力端子と映像出力端子に
接続する。出演者名検出部１７は、番組表記録部１６に
記録されているＴＶ番組表データと現在の時刻から、現
在放送されているＴＶ番組の出演者を特定し、特定した
出演者の名前データを出力する。画像検索部１８は、時
刻比較部１７から出力する出演者の名前データをもとに
画像検索データベース１１から、出演者の顔画像を検索
して、画像比較部１２へと出力させる。顔画像比較部１
０では、ＴＶ番組の出演者と特定された複数の話者に対
して、ｋ番目の話者の顔画像データと入力映像に含まれ
顔領域抽出部９から出力する顔画像データとの間の類似
度ＲＫを算出し出力する。特定話者音声認識部４では、
出演者と特定された複数の話者に対してｋ番目の話者の
音声データｊと、入力音声との類似度をＲ'k,jを算出し
て出力する。不特定話者認識部３では、音声データｊに
対して複数の不特定話者の音声から共通する特徴を抽出
して作成した標準パターンと入力音声との間の類似度
Ｒ''jを算出し、出力する。音声認識認識統合部では、
あらかじめ設定した係数をαとするときに、出演者とし
て特定されたすべての話者ｋの音声データｊに対して、 α・Rk・Ｒ'k,jとＲ''ｊを算出し、その値が最大となる音声データｊに対応する
単語等を認識結果として出力する。

【００４２】このように特定話者音声認識の方式におい
て、番組表データを本にＴＶ番組の出演者を特定し、特
定された出演者の顔画像データとＴＶ番組映像に含まれ
る話者の顔画像を比較して、話者を特定することによ
り、より信頼性の高い音声認識が可能となる。なお、本
実施の形態では映像表示装置としてＴＶ受信機を例にあ
げて説明したが、ＶＴＲ・ビデオ等の映像を表示するも
のであれば何でも構わない。

【００４３】（実施の形態５）この装置は図５に示すよ
うに、複数の特定話者の音声データを話者の名前、もし
くは話者識別コードとともに記録し、かつ新規に音声デ
ータを追加記録する機能を有するする音声データベース
８、複数の特定話者の顔画像データを話者の名前、もし
くは話者識別コードとともに記録し、かつ新規に顔画像
データを追加記録する機能を有する顔画像データベース
１１、音声データベース８、顔画像データベース１１に
データを追加記録するための制御を行う記録制御部１９
を備え、第一の実施の形態と同じく、音声処理部６、音
声データベース８、音声認識処理部７により構成される
特定話者音声認識部４と、音声信号入力部１と、映像信
号入力部２と、不特定話者音声認識部３と、認識結果統
合部５と、顔領域抽出部９と、顔画像データベース１１
により構成される。

【００４４】この装置では、音声入力部１に入力した話
者の音声は不特定話者認識部３と特定話者認識部４内の
音声処理部６に入力する。音声処理部６の出力は、音声
認識処理部７に入力し、音声認識処理部７の出力は、特
定話者音声認識部４の出力として出力される。また、音
声認識処理部７と音声データベース８は互いに接続され
ている。映像信号入力部２に入力した話者の顔を含む映
像は、顔領域出力部９に入力し、顔領域抽出部９の出力
は画像比較部１０に入力し、画像比較部１０の出力は音
声認識処理部７に接続される。また、画像比較部１０と
画像データベース１１とは互いに接続されている。不特
定話者音声認識部３、特定話者音声認識部４、画像比較
部１０の出力は、認識結果統合部５に入力し、認識結果
統合部５からは認識結果が出力される。記録制御部２に
は、画像比較部１０、不特定話者音声認識部３、特定話
者音声認識部４の出力が接続され、記録制御部２０の出
力は音声データベース８と顔画像データベース１１に接
続される。

【００４５】顔画像比較部１０では、登録された複数の
話者に対して、ｉ番目の話者の顔画像データと入力映像
に含まれ顔領域抽出部９から出力する顔画像データとの
間の類似度Ｒiを算出し出力する。顔画像データベース
１１に登録されたすべての話者iに対して、画像比較部
１０の出力Ｒiが、あらかじめ設定された閾値以下の場
合は、記録制御部１９は、新しい識別コードを付与し
て、顔領域抽出部９の出力を顔画像データベース１１に
記録するよう制御する。

【００４６】特定話者音声認識部４では、登録された複
数の話者のうち画像比較部の出力Ｒiがあらかじめ設定
された閾値Ｓ１以上となる話者に対してｉ番目の話者の
音声データｊと、入力音声との類似度をＲ'i,jを算出し
て出力する。不特定話者認識部３では、音声データｊに
対して複数の不特定話者の音声から共通する特徴を抽出
して作成した標準パターンと入力音声との間の類似度
Ｒ''jを算出し、出力する。音声データｊに対して、特
定話者音声認識部４の出力Ｒ'i,jが、あらかじめ設定し
た閾値Ｓ２よりも小さく、かつ、不特定話者音声認識部
３の出力Ｒ''jがあらかじめ設定した閾値Ｓ３よりも大
きい場合には、記録制御部１９は、音声データ番号ｊ、
話者の名前、あるいは話者識別コードとともに入力音声
を音声データベースに記録するよう制御する。

【００４７】このように入力音声の話者が未登録の場合
は話者の顔画像データと音声データを、話者は登録済み
で音声データが未登録の場合は音声データを自動的に追
加記録することが可能となる。なお、上記実施の形態１
から５では、認識結果統合部５の入力として画像比較部
１０からの出力を要件としている（方式１）が、それを
必須とはしない不特定話者音声認識部３及び音声認識処
理部７の２つの出力を入力（方式２）としても一向に構
わない。

【００４８】方式２による方法では、主に以下の場合に
有効である。すなわち、（１）一般に画像処理は負荷
が大きいためそれを軽減する対策として、音声認識処理
部７の処理対象を画像比較部１０で類似度の大きいもの
に絞ることにより、音声認識処理部７の処理負荷を少し
でも軽減したい場合、（２）音声データベース８のデ
ータが膨大な為、（画像処理の負荷の大小に関係なく）
音声認識処理部の負荷を軽減したい場合、などである。

【００４９】一方、方式１では上記実施の形態１から５
の内容に加え、方式２と比較した場合、例えば以下のよ
うな場合に有効である。すなわち、（３）例えば登録
された顔画像が正面である場合には、画像比較の対象と
して横顔等が入力されると、正面から捉えた顔（外観的
特徴）でない為、その類似度（画像比較部１０からの出
力）の信頼性はやや低下する。そのような場合、方式２
のように音声データベース８を前記類似度で絞り込むと
音声認識処理部７の出力の信頼性を低下させる可能性が
あるので、認識結果統合部５での統合化処理の優先度と
して、不特定話者音声認識部３及び音声認識処理部７の
出力（絞り込みを行わない出力）を優先しつつ画像比較
部１０の出力も有効活用したい場合、などである。

【００５０】もちろん、上記方式１、方式２を（自動）
切り替えするようにすれば、様々な利用形態に対応した
より信頼性の高い認識結果（認識結果統合部５の出力）
が得られることは言うまでもない。

【００５１】

【発明の効果】以上の説明から明らかなように、本発明
の音声認識装置は話者の特徴的外観として、例えば顔な
どを含む映像から話者の顔画像を抽出して、登録された
話者の顔画像データベースと照合し、類似度を算出し
て、特定話者音声認識部、不特定話者音声認識部から出
力する音声の類似度との統合的な類似度を算出して認識
結果を出力することにより、複数の特定話者の入力に対
して、信頼性の高い音声認識を行うことが可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態における音声認識装置
の概略構成を示すブロック図

【図２】本発明の第２の実施形態における音声認識装置
の概略構成を示すブロック図

【図３】本発明の第３の実施形態における音声認識装置
の概略構成を示すブロック図

【図４】本発明の第４の実施形態における音声認識装置
の概略構成を示すブロック図

【図５】本発明の第５の実施形態における音声認識装置
の概略構成を示すブロック図

【図６】従来の音声認識装置の概略構成図

【符号の説明】

１音声信号入力部２映像信号入力部３不特定話者音声認識部４特定話者音声認識部５認識結果統合部６音声処理部７音声認識処理部８音声データベース９顔領域抽出部１０画像比較部１１画像データベース１２唇領域抽出部１３唇動き検出部１４音声レベル検出部１５番組表入力部１６番組表記録部１７出演者名検出部１８画像検索部１９記録制御部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 5/06 Ｇ０６Ｆ 15/62 ３８０

Claims

【特許請求の範囲】

【請求項１】話者の特徴的外観の画像を含む映像デー
タを入力する映像入力手段と、話者の音声データを入
力する音声入力手段と、複数の特定の話者の音声データを、それを特定できる話
者識別情報とともに登録し、登録された音声データと入
力音声データとの類似度を算出して音声認識を行う特定
話者音声認識手段と、不特定多数の話者の音声データから共通する特徴を抽出
して標準パターンを作成、登録して、音声標準パターン
と入力音声データとの類似度を算出して音声認識を行う
不特定話者音声認識手段と、複数の話者の特徴的外観の画像を、その話者を特定でき
る話者識別情報とともに登録し、登録された画像データ
と前記映像データに含まれる話者の画像データとの類似
度を算出する画像認識手段と、特定話者音声認識手段の出力と不特定話者音声認識手段
からの出力と画像認識手段からの出力とを統合して、音
声認識結果として単語等を出力する認識結果統合手段と
を備えた音声認識装置。
【請求項２】話者の特徴的外観を含む映像データを入
力する映像入力手段と、話者の音声データを入力する音声入力手段と、複数の話者の特徴的外観の画像を、その話者を特定でき
る話者識別情報とともに登録し、登録された画像データ
と前記映像データに含まれる話者の画像データとの類似
度を算出する画像認識手段と、複数の特定の話者の音声データを、それを特定できる情
報とともに登録し、前記画像認識手段で算出された類似
度をもとに登録された音声データを絞り込んだ後、その
絞り込まれた音声データと入力音声データとの類似度を
算出して音声認識を行う特定話者音声認識手段と、不特
定多数の話者の音声データから共通する特徴を抽出して
標準パターンを作成、登録して、音声標準パターンと入
力音声データとの類似度を算出して音声認識を行う不特
定話者音声認識手段と、特定話者音声認識手段の出力と不特定話者音声認識手段
からの出力とを統合して、音声認識結果として単語等を
出力する認識結果統合手段とを備えた音声認識装置。
【請求項３】特定話者音声認識手段では、画像認識手
段から出力される類似度が閾値を超えた話者の音声デー
タのみに対して、入力音声データとの類似度を算出する
請求項１に記載の音声認識装置。
【請求項４】特定話者音声認識手段では、画像認識手
段から出力される類似度のうち最大となる話者の音声デ
ータのみに対して、入力音声データとの類似度を算出す
る請求項１に記載の音声認識装置。
【請求項５】認識結果統合手段が、画像認識手段から
出力される、話者識別情報に対応する話者の画像データ
と入力映像に含まれる画像データとの類似度をＲi、特
定話者音声認識手段から出力される、話者識別情報に対
応する話者の音声データｊに対する入力音声データとの
類似度をＲ'i,j、不特定話者音声認識手段から出力され
る、入力音声データと音声データｊとの類似度をＲ''と
するときに、そのＲi とＲ'i,j とＲ''j とを用いて
最適な音声データを出力することを特徴とする請求項
１、３、４のいずれかに記載の音声認識装置。
【請求項６】顔などの唇を含む外観を話者の特徴的外
観とし、入力映像から話者の唇の動きを検出する唇動き
検出手段を備え、特定話者認識手段では、単位時間あた
りの唇の動き量が設定された閾値よりも大きい入力に対
してのみ、入力音声データと登録音声データの類似度を
算出することを特徴とする請求項１、３〜５のいずれか
に記載の音声認識装置。
【請求項７】話者の顔を含む映像データを入力する映
像入力部と、話者の音声データを入力する音声入力部
と、入力映像から話者の唇の動きを検出する唇動き検出
手段と、入力音声から音声レベルを検出する音声レベル
検出手段とを備え、単位時間あたりの唇の動き量と音声レベルが共に設定さ
れた閾値を超えている時には、入力映像中に話者の映像
が含まれていることを示す話者検出信号を出力する話者
検出装置。
【請求項８】話者の顔を含む映像データを入力する映
像入力部と、話者の音声データを入力する音声入力部
と、入力映像から話者の唇の動きを検出する唇動き検出
手段と、入力音声から音声レベルを検出する音声レベル
検出手段とを備え、単位時間あたりの唇の動き量と音声
レベルが共に設定された閾値を超えている時には、入力
映像中に話者の映像が含まれていることを示す話者検出
信号を出力する話者検出装置を具備し、特定話者認識手段では、話者検出信号が設定された閾値
以上となる入力に対してのみ、入力音声データと登録音
声データの類似度を算出することを特徴とする請求項
１、３〜６のいずれかに記載の音声認識装置。
【請求項９】音声信号入力部と映像信号入力部は、そ
れぞれ映像表示装置の音声信号出力部と映像出力部に接
続され、前記映像表示装置の表示対象である出演者を特
定できる出演者識別情報を含む、出演者情報を入力する
出演者情報入力手段と、出演者情報を記録する出演者情
報記録手段と、出演者情報から現在、表示されている出
演者を特定し、登録された画像データの中から特定され
た出演者の画像データを検索する画像検索手段を備え、
画像認識部では、検索された出演者の画像と入力した映
像信号に含まれる話者の画像との類似度を算出すること
を特徴とする請求項１、３〜６、８のいずれかに記載の
音声認識装置。
【請求項１０】話者の特徴的外観を含む映像データを
入力する映像入力部と、複数の話者の特徴的外観の画像
を、それを特定できる話者識別情報と共に登録する画像
データベースと、登録された画像データと入力映像に含
まれる話者の画像データとの類似度を算出する画像認識
手段とを備え、入力した映像に含まれる画像と登録された画像データの
類似度を算出し、登録されているすべての画像データに
対する類似度が予め設定された閾値以下の場合は、未登
録の話者として新たな話者識別情報とともに画像データ
ベースに記録する画像記録装置。
【請求項１１】話者の特徴的外観を含む映像データを
入力する映像入力部と、複数の話者の特徴的外観の画像
を、それを特定できる話者識別情報と共に登録する画像
データベースと、登録された画像データと入力映像に含
まれる話者の画像データとの類似度を算出する画像認識
手段とを備え、入力した映像に含まれる画像と登録され
た画像データの類似度を算出し、登録されているすべて
の画像データに対する類似度が予め設定された閾値以下
の場合は、未登録の話者として新たな話者識別情報とと
もに画像データベースに記録する画像記録装置を具備
し、未登録の話者を自動的に登録することが可能な請求
項１、３〜６、８、９のいずれかに記載の音声認識装
置。
【請求項１２】入力した映像に含まれる画像と登録さ
れた画像データの類似度を算出し、出力された類似度が
予め設定した閾値S１以上となる登録話者のすべての音
声データに対して、特定話者音声認識手段から出力する
入力音声データと登録音声データとの間の類似度が予め
設定された閾値S２以下であり、かつ、不特定話者音声
認識手段から出力される候補単語等の類似度が予め設定
された閾値S３以上である場合に、該当の話者の未登録
音声データとして、それを特定できる話者識別情報とと
もに入力音声データを記録するための記録手段を有する
請求項１１に記載の音声認識装置。