JP3437492B2

JP3437492B2 - 音声認識方法及び装置

Info

Publication number: JP3437492B2
Application number: JP17381899A
Authority: JP
Inventors: 伸行國枝
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-06-21
Filing date: 1999-06-21
Publication date: 2003-08-18
Anticipated expiration: 2019-06-21
Also published as: JP2001005482A; EP1063634A3; EP1063634A2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識の方法及
び装置に関するものであり、特に複数の話者が発声した
音声を認識することに有効な音声認識方法及び装置に関
する。

【０００２】

【従来の技術】通常の音声認識方法及び装置では、入力
された音声に対して認識処理を行い、認識結果を決定し
て出力する。この場合、発話者の種類、感情、発話速度
などの発話者に関する情報は取り除いて処理され、複数
の話者が発声した場合でもすべて同じ認識パラメータを
利用して音声認識が行われる。

【０００３】一方、入力された音声の質の変化に応じて
認識パラメータを選択することも試みられている。例え
ば、特開平７−５６５９５号公報記載の発明では、発話
者の様態の変化や話者の変化を検出する手段を有し、発
話音声を分析した結果を利用して照合手段あるいは判定
手段を制御するように構成され、発話された音声の変化
に対応して音声認識する。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来の方法では、複数の話者が交互に発声している場合、
男声用認識パラメータを利用するか女声用認識パラメー
タを利用するかという選択をすることは可能であって
も、複数の話者それぞれに専用の認識パラメータを準備
して認識処理を行えるようには構成されていないという
問題があった。

【０００５】本発明は、このような問題を解決するため
になされたもので、複数の話者が発声した音声が入力さ
れた場合に、より高性能な音声認識結果を出力する音声
認識方法及び装置を提供するものである。

【０００６】

【課題を解決するための手段】本発明の音声認識方法
は、音声信号から発声した内容及び発話者を認識する音
声認識方法であって、入力された音声信号から発話者が
過去に認識した話者であるか新規に認識する話者である
かを判定するステップと、話者判定結果から前記発話者
が新規に認識する話者であると判定された場合に、その
発話者と認識パラメータとを関連づけて記憶し、出力す
るとともに、前記発話者が過去に認識した話者であると
判定された場合に、その話者と関連づけられた認識パラ
メータを出力するステップと、前記入力された音声信号
と前記出力された認識パラメータとから音声認識処理を
行い、音声認識結果を出力するステップと、前記音声認
識結果と前記話者判定結果とから同じ話者が前に発声し
た認識結果の内容を考慮して認識結果を補正して出力す
るステップと、前記音声認識結果から前記認識パラメー
タを逐次更新するステップとを備えたことを特徴とした
構成を有している。この構成により、発話者に関する情
報が同一である直前に発声された内容を考慮して認識結
果を補正することができるので、高性能な音声認識が可
能となる。

【０００７】

【０００８】

【０００９】また、本発明の音声認識方法は、複数のマ
イクロホンから入力された音声信号から発声した内容及
び発話者を認識する音声認識方法であって、前記複数の
マイクロホンから入力された信号から目的の音声信号を
得るステップと、前記得られた音声信号の到来方向を判
定するステップと、前記得られた音声信号と前記信号方
向判定結果から発話者が過去に認識した話者であるか新
規に認識する話者であるかを判定するステップと、話者
判定結果から前記発話者が新規に認識する話者であると
判定された場合に、その発話者と認識パラメータとを関
連づけて記憶し、出力するとともに、前記発話者が過去
に認識した話者であると判定された場合に、その話者と
関連づけられた認識パラメータを出力するステップと、
前記得られた音声信号と前記出力された認識パラメータ
とから音声認識処理を行い、音声認識結果を出力するス
テップと、前記音声認識結果と前記話者判定結果とから
同じ話者が前に発声した認識結果の内容を考慮して認識
結果を補正して出力するステップと、前記音声認識結果
から前記認識パラメータを逐次更新するステップとを備
えたことを特徴とした構成を有している。この構成によ
り、複数の話者が発声した音声が入力された場合でも、
発話者に関する情報が同一である直前に発声された内容
を考慮して認識結果を補正することができるので、高性
能な音声認識が可能となる。

【００１０】

【００１１】

【００１２】また、本発明の音声認識装置は、音声信号
から発生した内容及び発話者を認識する音声認識装置で
あって、入力された音声信号から発話者が過去に認識し
た話者であるか新規に認識する話者であるかを判定する
話者判断手段と、話者判定結果から前記発話者が新規に
認識する話者であると判定された場合に、その発話者と
認識パラメータとを関連づけて記憶し、出力するととも
に、前記発話者が過去に認識した話者であると判定され
た場合に、その話者と関連づけられた認識パラメータを
出力するパラメータ記憶手段と、前記入力された音声信
号と前記パラメータ記憶手段から出力された認識パラメ
ータとから音声認識処理を行い、音声認識結果を出力す
る音声認識手段と、前記音声認識結果と前記話者判定結
果とから同じ話者が前に発声した認識結果の内容を考慮
して認識結果を補正して出力する認識結果補正手段と、
前記音声認識手段で認識処理を行った結果から前記パラ
メータ記憶手段に記憶されている認識パラメータを逐次
更新するパラメータ更新手段とを備えたことを特徴とし
た構成を有している。この構成により、発話者情報を認
識処理に利用して高性能な音声認識処理を行うことが可
能となると同時に、発話者に関する情報が同一である直
前に発声された内容を考慮して認識結果を補正すること
が可能となる。

【００１３】

【００１４】

【００１５】また、本発明の音声認識装置は、複数のマ
イクロホンから入力された音声信号から発声した内容及
び発話者を認識する音声認識装置であって、前記複数の
マイクロホンから入力された信号から目的の音声信号を
得るビームフォーマと、前記ビームフォーマから音声信
号の到来方向を判定する信号方向判定手段と、前記ビー
ムフォーマで得られた音声信号と前記信号方向判定手段
で得られた結果とから発話者が過去に認識した話者であ
るか新規に認識する話者であるかを判定する話者判定手
段と、話者判定結果から前記発話者が新規に認識する話
者であると判定された場合に、その発話者と認識パラメ
ータとを関連づけて記憶し、出力するとともに、前記発
話者が過去に認識した話者であると判定された場合に、
その話者と関連づけられた認識パラメータを出力するパ
ラメータ記憶手段と、前記ビームーフォーマから得られ
た音声信号と前記パラメータ記憶手段から出力された認
識パラメータとから音声認識処理を行い、音声認識結果
を出力する音声認識手段と、前記音声認識結果と前記話
者判定結果とから同じ話者が前に発声した認識結果の内
容を考慮して認識結果を補正して出力する認識結果補正
手段と、前記音声認識手段で認識処理を行った結果から
前記パラメータ記憶手段に記憶されている認識パラメー
タを逐次更新するパラメータ更新手段とを備えたことを
特徴とした構成を有している。この構成により、発話者
情報を認識処理に利用して高性能な音声認識処理を行う
ことが可能となると同時に、発話者に関する情報が同一
である直前に発声された内容を考慮して、認識結果を補
正することが可能となる。

【００１６】

【００１７】

【００１８】また、本発明の音声認識装置は、上記のい
ずれかに記載の音声認識装置において、話者情報と関連
づけた認識パラメータとして標準パターンを選択するこ
とを特徴とした構成を有している。この構成により、発
話者情報を認識処理に利用して高性能な音声認識処理を
行うことが可能となる。

【００１９】また、本発明の音声認識装置は、上記のい
ずれかに記載の音声認識装置において、音声認識処理手
段にＤＰマッチング処理を利用することを特徴とした構
成を有している。この構成により、発話者情報を認識処
理に利用して高性能な音声認識処理を行うことが可能と
なる。

【００２０】また、本発明の音声認識装置は、上記のい
ずれかに記載の音声認識装置において、音声認識処理手
段に隠れマルコフモデルを利用することを特徴とした構
成を有している。この構成により、発話者情報を認識処
理に利用して高性能な音声認識処理を行うことが可能と
なる。

【００２１】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図１から図９を用いて説明する。

【００２２】（実施の形態１）図１に示すように、本発
明の第１の実施の形態の音声認識装置は、入力された音
声信号とパラメータ記憶手段３から出力された認識パラ
メータから音声認識処理を行い、認識結果を出力する音
声認識手段１と、入力された音声信号から発話者が過去
に認識した話者であるか新規に認識する話者であるかを
判定する話者判定手段２と、話者判定手段２で得られた
結果から発話者と認識パラメータを関連づけて記憶し、
音声認識に利用する認識パラメータを出力するパラメー
タ記憶手段３と、音声認識手段１で認識処理を行った結
果を基にパラメータ記憶手段３に記憶されている認識パ
ラメータを逐次更新するパラメータ更新手段４とを備え
ている。

【００２３】次に、上記のように構成された音声認識装
置の動作を、図７に示すパラメータ記憶手段３に記憶さ
れた内容と、図８に示す処理の流れを参照しながら説明
する。まず、音声信号が入力され（ステップＳ１）、入
力された音声信号は、音声認識手段１と話者判定手段２
に渡される。次に、話者判定手段２では、音声信号から
発話者が「過去に認識した話者の誰か」であるか「新規
に認識する話者」であるかを判定する（ステップＳ
２）。話者判定手段２で話者情報を判定した結果、例え
ば「入力された音声は過去に認識している話者Ａのもの
である」と判定された場合には、話者情報である「話者
Ａ」と関連づけられた「認識パラメータＡ」をパラメー
タ記憶手段３から抽出し（ステップＳ３）、音声認識手
段１に渡す（ステップＳ６）。一方、話者判定の結果、
「新規に認識する音声（過去に認識された話者ではな
い）」と判定された場合には、新規に話者情報「発話者
Ｘ」を付加し、また、パラメータ記憶手段３に新たな
「話者Ｘの認識パラメータ」を作成し（ステップＳ
４）、話者情報「発話者Ｘ」と関連づけて記憶するとと
もに（ステップＳ５）、音声認識手段１に渡す（ステッ
プＳ６）。音声認識手段１では、入力された音声信号と
パラメータ記憶手段３から渡された認識パラメータを利
用して音声認識処理を行い、認識結果を出力する（ステ
ップＳ７）。最後に、音声認識手段１で認識処理された
結果は、パラメータ更新手段４に渡され、パラメータ記
憶手段３に記憶されている認識パラメータを、同一の話
者情報を有する音声の認識性能を高めるように更新する
（ステップＳ８）。

【００２４】このように、本実施の形態１によれば、入
力された音声から発話した話者が過去に認識した発話者
であるか、初めて認識をする発話者であるかを判定する
話者判定手段２を備えるとともに、この話者判定手段２
で処理された結果をパラメータ記憶手段３に渡し、話者
ごとに認識パラメータを作成して記憶できるように構成
し、さらに、パラメータ記憶手段３に記憶された各話者
ごとの認識パラメータを、音声認識手段１で音声認識処
理を繰り返すことによって各話者に最適な認識パラメー
タとなるようにパラメータ更新手段４で適応化するよう
にしたので、話者ごとに最適な認識パラメータを準備す
ることが可能となり、より高い認識性能を持つ音声認識
を実現できる。

【００２５】（実施の形態２）図２は本発明の第２の実
施の形態の音声認識装置を示し、図１に示した実施の形
態１の構成と異なるのは、認識結果補正手段５を追加し
たことだけであり、同一の構成要素には同一の符号を付
して、重複した説明は省略する。

【００２６】入力された音声信号は、音声認識手段１と
話者判定手段２に渡される。話者判定手段２では、実施
の形態１と同様に音声信号から発話者の判定が行われ
る。話者判定手段２で判定された結果は、パラメータ記
憶手段３と認識結果補正手段５に渡される。パラメータ
記憶手段３では、話者情報と関連づけられた認識パラメ
ータを選択して音声認識手段１に渡す。音声認識手段１
では、入力された音声信号とパラメータ記憶手段３で選
択された認識パラメータを利用して音声認識処理を行
い、認識結果補正手段５に渡される。認識結果補正手段
５では、音声認識結果と話者情報から同一の話者情報を
持つ音声の前後のつながりを分析し、必要に応じて音声
認識結果を補正して認識結果を出力する。音声認識手段
１で認識処理された結果は、パラメータ更新手段４に渡
され、認識パラメータの更新を行う。

【００２７】話者に応じて認識結果を補正する方法の例
を図９に用いて説明する。図９は４単語を連続して単語
音声認識した時の話者情報と認識候補の例を表にしてま
とめたものである。この表を見ると、認識順で３番目の
単語は話者Ａが発声し、認識第１候補は「ボウリング
場」となっている。ところが、話者Ａは認識順１番目の
音声の発声を行っており、その時の認識結果は「ラジオ
をつけて」という結果であった。この結果を考慮して、
再度３番目の発声単語の認識候補を見てみると、第２候
補である「ボリューム小さく」である可能性が高くなる
ことが分かる。このような場合、認識結果補正手段５で
は、同じ話者が前に発声した認識結果を参考にして、認
識候補を修正する処理を行う。

【００２８】このように、本実施の形態２によれば、実
施の形態１の構成に加えて認識結果補正手段５を備えて
いるので、高性能な音声認識が可能となると同時に、発
話者に関する情報が同一である直前に発声された内容を
考慮して認識結果を補正することが可能となる。

【００２９】（実施の形態３）図３は本発明の第３の実
施の形態の音声認識装置を示し、図１に示した実施の形
態１の構成と異なるのは、音声合成手段６を追加したこ
とだけであり、同一の構成要素には同一の符号を付して
重複した説明は省略する。

【００３０】入力された音声信号は、音声認識手段１と
話者判定手段２に渡される。話者判定手段２では、実施
の形態１と同様に音声信号から発話者の判定が行われ
る。話者判定手段２で判定された発話者情報は、パラメ
ータ記憶手段３と音声合成手段６に渡される。パラメー
タ記憶手段３では、話者情報にあわせた認識パラメータ
を選択して音声認識手段１に渡す。音声認識手段１で
は、入力された音声信号とパラメータ記憶手段３から渡
された認識パラメータを利用して音声認識処理を行い、
音声合成手段６に渡される。音声合成手段６では、音声
認識結果と話者情報を統合して認識結果を合成音として
出力する。そして最後に、音声認識手段１で認識処理さ
れた結果は、パラメータ更新手段４に渡され、話者情報
と認識パラメータの対応づけを更新し、パラメータ記憶
手段３に渡される。

【００３１】このように、本実施の形態３によれば、実
施の形態１の構成に加えて、音声合成手段６を備えてい
るので、複数の話者が発声した音声が入力された場合で
も、高性能な音声認識が可能となると同時に、認識結果
に話者情報を付加して合成音として出力することが可能
となる。

【００３２】（実施の形態４）図４は本発明の第４の実
施の形態の音声認識装置を示し、図１に示した実施の形
態１の構成と異なるのは、複数の発話者の音声を入力す
るマイクロホンアレイ７と、入力された音声信号から目
的の音声信号を得るビームファーマ８と、ビームファー
マ８からの音声信号の到来方向を判定する信号方向判定
手段９とを追加したことだけであり、同一の構成要素に
は同一の符号を付して重複した説明は省略する。

【００３３】複数の話者からの音声信号は、複数のマイ
クロホンから構成されるマイクロホンアレイ７を通じて
入力され、ビームフォーマ８に入る。ビームフォーマ８
では、目的の音声信号を抽出し、音声認識手段１、話者
判定手段２及び信号方向判定手段９に渡す。信号方向判
定手段９では、発話者の方向を推定し、その情報を話者
判定手段２に渡す。話者判定手段２では、音声信号及び
推定した話者方向から、実施の形態１と同様にして、複
数の発話者の中から特定の発話者の判定が行われ、話者
情報として出力する。以下の処理は実施の形態１とほぼ
同じ処理が行われる。すなわち、話者判定手段２で分析
された発話者情報は、パラメータ記憶手段３に渡され
る。さらにパラメータ記憶手段３では、話者情報に合わ
せた認識パラメータを選択して音声認識手段１に渡す。
音声認識手段１では、入力された音声信号とパラメータ
記憶手段３から渡された認識パラメータを利用して音声
認識処理を行い、認識結果として出力する。最後に、音
声認識手段１で認識処理された結果は、パラメータ更新
手段４に渡され、話者情報と認識パラメータの対応づけ
を更新し、パラメータ記憶手段３に渡される。

【００３４】このように、本実施の形態４によれば、実
施の形態１の構成に加えて、マイクロホンアレイ７、ピ
ームフォーマ８、信号方向判定手段９を備えているの
で、複数の話者が発声した音声が入力された場合でも、
高性能な音声認識が可能となる。

【００３５】（実施の形態５）図５は本発明の第５の実
施の形態の音声認識装置を示し、図４に示した実施の形
態４の構成と異なるのは、認識結果補正手段５を追加し
たことだけであり、同一の構成要素には同一の符号を付
して、重複した説明は省略する。

【００３６】複数の話者からの音声信号は、複数のマイ
クロホンから構成されるマイクロホンアレイ７を通じて
入力され、ビームフォーマ８に入る。ビームフォーマ８
では、目的の音声信号を抽出して音声認識手段１、話者
判定手段２及び信号方向判定手段９に渡される。信号方
向判定手段９では、話者の方向を推定し、その情報を話
者判定手段２に渡す。話者判定手段２では、音声信号及
び推定した話者方向から特定の発話者の判定が行われ
る。以下の流れは、実施の形態２と同じである。話者判
定手段２で分析された発話者情報は、パラメータ記憶手
段３と認識結果補正手段５に渡される。パラメータ記憶
手段３では、話者情報に合わせた認識パラメータを選択
して音声認識手段１に渡す。音声認識手段１では、入力
された音声信号とパラメータ記憶手段３から渡された認
識パラメータを利用して音声認識処理を行い、その結果
を認識結果補正手段５に渡す。認識結果補正手段５で
は、音声認識結果と話者情報を統合して認識結果として
出力する。最後に、音声認識手段１で認識処理された結
果は、パラメータ更新手段４に渡され、話者情報と認識
パラメータの対応づけを更新し、パラメータ記憶手段３
に渡される。

【００３７】このように、本実施の形態５によれば、実
施の形態４の構成に加えて、認識結果補正手段５を備え
ているので、高性能な音声認識が可能となると同時に、
発話者に関する情報が同一である直前に発声された内容
を考慮して認識結果を補正することが可能となる。

【００３８】（実施の形態６）図６は本発明の第６の実
施の形態の音声認識装置を示し、図４に示した実施の形
態４の構成と異なるのは、音声合成手段６を追加したこ
とだけであり、同一の構成要素には同一の符号を付して
重複した説明は省略する。

【００３９】複数の話者からの音声信号は、複数のマイ
クロホンから構成されるマイクロホンアレイ７を通じて
入力され、ビームフォーマ８に入る。ビームフォーマ８
では、目的の音声信号を抽出して音声認識手段１、話者
判定手段２及び信号方向判定手段９に渡される。信号方
向判定手段９では、話者の方向を推定し、その情報を話
者判定手段２に渡す。話者判定手段２では、音声信号及
び推定した話者方向から特定の発話者の判定が行われ
る。以下の流れは、実施の形態３と同じである。話者判
定手段２で判定された発話者情報は、パラメータ記憶手
段３と音声合成手段６に渡される。パラメータ記憶手段
３では、話者情報に合わせた認識パラメータを選択して
音声認識手段１に渡す。音声認識手段１では、入力され
た音声信号とパラメータ記憶手段３から渡された認識パ
ラメータを利用して音声認識処理を行い、音声合成手段
６に渡す。音声合成手段６では、音声認識結果と話者情
報を統合して認識結果を合成音として出力する。最後
に、音声認識手段１で認識処理された結果は、パラメー
タ更新手段４に渡され、話者情報と認識パラメータの対
応づけを更新し、パラメータ記憶手段３に渡す。

【００４０】このように、本実施の形態６によれば、実
施の形態４の構成に加えて、音声合成手段６を備えてい
るので、複数の話者が発声した音声が入力された場合で
も、高性能な音声認識が可能となると同時に、認識結果
に話者情報を付加して合成音として出力することが可能
となる。

【００４１】

【発明の効果】以上のように、本発明によれば、発話者
が誰であるかを分析し、その結果から各話者ごとに最適
な認識パラメータを準備して逐次最適化するとともに、
音声認識結果と話者判定結果とから同じ話者が前に発声
した認識結果の内容を考慮して認識結果を補正して出力
する構成とすることによって、複数の話者が発声した音
声が入力された場合にも高性能な音声認識を実現できる
と同時に、発話者に関する情報が同一である直前に発声
された内容を考慮して、認識結果を補正することが可能
となるという効果を有する。

【図面の簡単な説明】

【図１】本発明の実施の形態１を示す音声認識装置のブ
ロック図

【図２】本発明の実施の形態２を示す音声認識装置のブ
ロック図

【図３】本発明の実施の形態３を示す音声認識装置のブ
ロック図

【図４】本発明の実施の形態４を示す音声認識装置のブ
ロック図

【図５】本発明の実施の形態５を示す音声認識装置のブ
ロック図

【図６】本発明の実施の形態６を示す音声認識装置のブ
ロック図

【図７】本発明の実施の形態におけるパラメータ記憶手
段に記憶されるデータ例の模式図

【図８】本発明の実施の形態における話者判定と認識パ
ラメータ選択の流れ図

【図９】本発明の実施の形態における認識結果補正手段
における処理例の模式図

【符号の説明】

１音声認識手段２話者判定手段３パラメータ記憶手段４パラメータ更新手段５認識結果補正手段６音声合成手段７マイクロホンアレイ８ビームフォーマ９信号方向判定手段

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−301695（ＪＰ，Ａ) 特開平５−40497（ＪＰ，Ａ) 特開平９−134191（ＪＰ，Ａ) 特開平10−198393（ＪＰ，Ａ) 特開平11−41687（ＪＰ，Ａ) 特開平７−104780（ＪＰ，Ａ) 特開平８−106298（ＪＰ，Ａ) 特開平６−208388（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/10 G10L 15/06 G10L 15/18

Claims

(57)【特許請求の範囲】

【請求項１】音声信号から発声した内容及び発話者を
認識する音声認識方法であって、入力された音声信号から発話者が過去に認識した話者で
あるか新規に認識する話者であるかを判定するステップ
と、話者判定結果から前記発話者が新規に認識する話者であ
ると判定された場合に、その発話者と認識パラメータと
を関連づけて記憶し、出力するとともに、前記発話者が
過去に認識した話者であると判定された場合に、その話
者と関連づけられた認識パラメータを出力するステップ
と、前記入力された音声信号と前記出力された認識パラメー
タとから音声認識処理を行い、音声認識結果を出力する
ステップと、前記音声認識結果と前記話者判定結果とから同じ話者が
前に発声した認識結果の内容を考慮して認識結果を補正
して出力するステップと、前記音声認識結果から前記認識パラメータを逐次更新す
るステップとを備えたことを特徴とする音声認識方法。
【請求項２】複数のマイクロホンから入力された音声
信号から発声した内容及び発話者を認識する音声認識方
法であって、前記複数のマイクロホンから入力された信号から目的の
音声信号を得るステップと、前記得られた音声信号の到来方向を判定するステップ
と、前記得られた音声信号と前記信号方向判定結果から発話
者が過去に認識した話者であるか新規に認識する話者で
あるかを判定するステップと、話者判定結果から前記発話者が新規に認識する話者であ
ると判定された場合に、その発話者と認識パラメータと
を関連づけて記憶し、出力するとともに、前記発話者が
過去に認識した話者であると判定された場合に、その話
者と関連づけられた認識パラメータを出力するステップ
と、前記得られた音声信号と前記出力された認識パラメータ
とから音声認識処理を行い、音声認識結果を出力するス
テップと、前記音声認識結果と前記話者判定結果とから同じ話者が
前に発声した認識結果の内容を考慮して認識結果を補正
して出力するステップと、前記音声認識結果から前記認識パラメータを逐次更新す
るステップとを備えたことを特徴とする音声認識方法。
【請求項３】音声信号から発生した内容及び発話者を
認識する音声認識装置であって、入力された音声信号から発話者が過去に認識した話者で
あるか新規に認識する話者であるかを判定する話者判断
手段と、話者判定結果から前記発話者が新規に認識する話者であ
ると判定された場合に、その発話者と認識パラメータと
を関連づけて記憶し、出力するとともに、前記発話者が
過去に認識した話者であると判定された場合に、その話
者と関連づけられた認識パラメータを出力するパラメー
タ記憶手段と、前記入力された音声信号と前記パラメータ記憶手段から
出力された認識パラメータとから音声認識処理を行い、
音声認識結果を出力する音声認識手段と、前記音声認識結果と前記話者判定結果とから同じ話者が
前に発声した認識結果の内容を考慮して認識結果を補正
して出力する認識結果補正手段と、前記音声認識手段で認識処理を行った結果から前記パラ
メータ記憶手段に記憶されている認識パラメータを逐次
更新するパラメータ更新手段とを備えたことを特徴とす
る音声認識装置。
【請求項４】複数のマイクロホンから入力された音声
信号から発声した内容及び発話者を認識する音声認識装
置であって、前記複数のマイクロホンから入力された信号から目的の
音声信号を得るビームフォーマと、前記ビームフォーマから音声信号の到来方向を判定する
信号方向判定手段と、前記ビームフォーマで得られた音
声信号と前記信号方向判定手段で得られた結果とから発
話者が過去に認識した話者であるか新規に認識する話者
であるかを判定する話者判定手段と、話者判定結果から前記発話者が新規に認識する話者であ
ると判定された場合に、その発話者と認識パラメータと
を関連づけて記憶し、出力するとともに、前記発話者が
過去に認識した話者であると判定された場合に、その話
者と関連づけられた認識パラメータを出力するパラメー
タ記憶手段と、前記ビームーフォーマから得られた音声信号と前記パラ
メータ記憶手段から出力された認識パラメータとから音
声認識処理を行い、音声認識結果を出力する音声認識手
段と、前記音声認識結果と前記話者判定結果とから同じ話者が
前に発声した認識結果の内容を考慮して認識結果を補正
して出力する認識結果補正手段と、前記音声認識手段で認識処理を行った結果から前記パラ
メータ記憶手段に記憶されている認識パラメータを逐次
更新するパラメータ更新手段とを備えたことを特徴とす
る音声認識装置。
【請求項５】請求項３または４に記載の音声認識装置
において、話者情報と関連づけた認識パラメータとして
標準パターンを選択することを特徴とする音声認識装
置。
【請求項６】請求項３または４に記載の音声認識装置
において、音声認識処理手段にＤＰマッチング処理を利
用することを特徴とする音声認識装置。
【請求項７】請求項３または４に記載の音声認識装置
において、音声認識処理手段に隠れマルコフモデルを利
用することを特徴とする音声認識装置。