JP2005107384A

JP2005107384A - 音声認識装置および方法、プログラム並びに記録媒体

Info

Publication number: JP2005107384A
Application number: JP2003343259A
Authority: JP
Inventors: Toshiaki Iimura; 俊昭飯村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-10-01
Filing date: 2003-10-01
Publication date: 2005-04-21

Abstract

【課題】音声認識を利用する機器において、同時に画像認識機能を付加した誤認識の少ない音声認識装置を提供する。
【解決手段】音声入力装置１に入力された音声は、音声認識部２により認識処理され判定部６で判定される。また、画像入力装置３と画像認識部４を用いて同時に画像認識機能を付加するため、音声のみによる認識よりも認識精度を向上させることができる。更に、計時装置５を用いて、画像が入力された時間情報を検出することによりノイズ等を時間的に分離することができ認識精度の向上をさせることができる。
【選択図】図１

Description

この発明は、音声認識装置特に認識精度を向上させることができる音声認識装置および方法、プログラム並びに記録媒体に関する。

従来より、人の話し声を入力し、音声を自動的に認識する音声認識装置が知られており、パーソナルコンピュータ、電話機、カーナビゲーション等の多くの機器に応用されている。

音声認識装置のひとつの課題として、誤認識率の低減特に周囲のノイズによる誤認識の防止が挙げられる。誤認識の原因として、例えばマイク等の音声入力手段から入力される抽出したい音声以外のノイズによる影響や、抽出目標の音声が周囲に反射して時間的遅れをもって検出されるエコー音等が考えられる。誤認識率の低減を目的とする音声認識装置については下記の特許文献１に記載されている。
特開２００１−２１５９９６号公報

従来の音声認識装置では、規則的、定常的なバックグラウンドノイズや、エコー音などはデジタル処理で低減、キャンセルすることが可能である。しかしながら、音声入力のみの認識システムでは誤認識率を低減することに限界があり、特に、突発的、不規則なノイズの影響を低減させることが容易でない。

したがって、この発明の目的は、音声入力による認識システムに加え、画像入力による認識システムおよび入力される音声情報と画像情報に関する時間情報を併用することにより、認識精度を向上させることができる音声認識装置および方法、プログラム並びに記録媒体を提供することである。

上述した課題を解決するために、請求項１の発明は
外部から入力される音声を認識する音声認識装置において、
音声を入力する音声入力装置と、
入力された音声を認識処理する音声認識部と、
音声の発生源の画像を入力する画像入力装置と、
入力された画像を認識処理する画像認識部と、
音声認識部および画像認識部から出力される情報に基づいて、外部から入力される音声を認識する判定部とからなる音声認識装置である。

請求項８の発明は、
外部から入力される音声を認識する音声認識方法において、
音声を入力する音声入力ステップと、
入力された音声を認識処理する音声認識ステップと、
音声の発生源の画像を入力する画像入力ステップと、
入力された画像を認識処理する画像認識ステップと、
認識処理された情報に基づいて、外部から入力される音声を認識する判定ステップとからなる音声認識方法である。

請求項１５の発明は、
コンピュータに
入力された音声を認識処理する音声認識ステップと、
音声の発生源の画像を入力する画像入力ステップと、
入力された画像を認識処理する画像認識ステップと、
認識処理された情報に基づいて、外部から入力される音声を認識する判定ステップを実行させるプログラムである。

請求項２２の発明は、
コンピュータに
入力された音声を認識処理する音声認識ステップと、
音声の発生源の画像を入力する画像入力ステップと、
入力された画像を認識処理する画像認識ステップと、
認識処理された情報に基づいて、外部から入力される音声を認識する判定ステップを実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体である。

この発明によれば、音声認識装置の認識精度の向上、特に、突発的、不規則なノイズの影響を低減することができる。

この発明によれば、時間情報を利用することにより、音声または画像を認識すべき時間が明確になることにより、不要な雑音を時間的に分離することができ、音声認識の精度を向上させることができる。

この発明によれば、音声または画像の認識結果が良好でない場合でも、認識動作を再度実行できる情報を確保することができ、より音声認識の精度を向上させることができる。

この発明によれば、画像または音声情報からは、必ずしも具体的言葉（入力情報）を検出せずに、音声（または画像）認識に対する検出タイミングを提供するだけでも音声認識の精度を向上させることができる。

この発明によれば、従来の誤認識の低減を図る音声認識装置に比べコストの低減を図ることができる。更にこの発明の音声認識装置は、パーソナルコンピュータ、カーナビゲーション、携帯電話機等の一般家電機器はもとより福祉機器、バリアフリー製品などにも幅広く応用することができる。

以下、図面を参照しながらこの発明の一実施形態について説明する。図１はこの発明の音声認識装置の構成の一例を示す。音声認識装置は、参照符号１で示す音声入力装置、参照符号２で示す音声認識部、参照符号３で示す画像入力装置、参照符号４で示す画像認識部並びに参照符号６で示す判定部を備える。またこの一実施形態における音声認識装置は、更に参照符号５で示す計時装置を備えている。

ここで音声認識の動作の流れの一例について概説する。音声入力装置１は、人間若しくはそれにかわるもの（以下、ユーザという。）がその音声により装置に何らかの情報を入力する場合の音声を、Ａ／Ｄ（Analog to Digital）変換することにより電気信号等に変換し、音声認識部２に出力する。

電気信号を受けた音声認識部２は、例えば辞書部（図示せず）に蓄えられたデータ（以下、適宜認識辞書とも称する。）や音韻規則（調音結合などによる音素の変形規則）を用いることにより処理し、結果を音声認識結果リストとして判定部６に出力する。

音声認識結果リストの一例について図２Ａを用いて説明する。図２Ａに示すように音声認識結果リストには入力された音声の入力候補、合致指数及びその入力情報が検出され始めた時刻と検出され終わった時刻（以下、時間情報という。）が含まれている。ここで合致指数とは、入力された音声に対して音声認識部が認識処理した入力候補とがどれだけ確からしいかを示す指数を意味する。

時間情報は計時装置５から音声認識部２に対して出力される。計測される時間情報は絶対的な時間情報および相対的な時間情報の何れでも良い。時間情報は、システム内において単一の時間軸により規定される。

同様に、画像認識部４は画像入力装置が検出した画像、例えばユーザの口の動きに関する情報と、計時装置５からの時間情報をもとに画像認識結果リストを判定部６に出力する。図２Ｂは、画像認識結果リストの一例を示す。音声認識結果リストと同様に、入力候補、合致指数、時間情報が出力される。

音声認識部２および画像認識部４から出力される入力候補に関する情報に基づいて、判定部６が入力された音声を認識する。認識した結果を参照符号７で示す決定入力情報としてパーソナルコンピュータやカーナビゲーション等の各種装置８に出力する。

音声認識部２および画像認識部４から出力された情報に基づいて判定部６が最終的な入力情報を認識する処理方法として以下の方法が考えられる。

第１の方法として、音声認識部２と画像認識部４から出力される結果リストの中から、合致指数が最大の候補を認識結果とする方法が挙げられる。

第２の方法として、音声認識部２と画像認識部４が出した結果候補が、音声入力装置１および画像入力装置３のそれぞれに入力された時間情報を比較し、時間情報の一致度も考慮して各々の候補の中から最適候補を認識結果とする方法が挙げられる。

第３の方法として、画像認識部４が検出した入力情報のタイミングを考慮し、音声認識部２が認識処理を行い、判定部６が決定入力情報を決定する方法が挙げられる。ここでタイミングとは、開始時間、終了時間等のことである。

第４の方法としては、第３の方法とは逆に音声認識部４が検出した入力情報のタイミングを考慮し、画像認識部２が認識処理を行い、判定部６が決定入力情報を決定する方法が挙げられる。

第５の方法としては、上述した第１から第４の方法において、音声認識部２および画像認識部４が出力した入力候補が一致せず、または合致指数が一定レベルに達しない場合、画像認識装置３が検出した入力情報のタイミングでサンプリングした音声情報で再度音声認識処理を行う方法が挙げられる。

第６の方法としては、第５の方法とは逆に、音声認識部２および画像認識部４が出力した入力候補が一致せず、または合致指数が一定レベルに達しない場合、音声認識装置１が検出した入力情報のタイミングでサンプリングした画像情報で再度画像認識処理を行う方法が挙げられる。

尚、判定部６が入力情報を認識する処理方法は、上述した方法に限られず、また各々の方法を組み合わせて認識する処理方法も可能である。

この発明の音声認識装置の構成については、図３の参照符号９で示すように判定部が音声認識部に包括されるようにしてもよい。これにより、機器の小型化、コストダウンを図ることができる。

図４Ａ〜図４Ｄは入力される音声のタイミングを利用して音声認識を実行する一例を示す図である。図４Ａは、音声入力装置１（画像入力装置３でもよい）によって入力された音声がＡ／Ｄ変換され、電気信号へと変化された音声波形を示す。外部から音声が入力された箇所が上下の振動の幅が大きくなる。

この一例では、外部から「おはよう」という音声が入力され、「は」と「よ」の間に図４Ａのａで示すノイズが混入したものとする。図４Ｂは、音声認識部２が認識した音声認識結果を示す。音声認識部２は、ノイズａのため入力された音声を「おはかう」と誤認識したものとする。

図４Ｃは、計時装置５が音声入力装置１が認識した音声について検出した時刻を示す。ｔ１からｔ２は「お」、ｔ３からｔ４は「は」、ｔ５からｔ６は雑音ａ、ｔ７からｔ８は「よ」、ｔ９からｔ１０は「う」のそれぞれの音声が入力された音声を示す。図４Ｄは画像認識部４が認識した結果を示す。画像認識部４は、入力された音声を「おはよう」と認識したものとする。

音声入力のみを情報源とする音声認識部２は、ノイズａを入力情報「おはよう」の「よ」の部分の一部として誤認識してしまい、「よ」を「か」と判定しまう。この結果、音声認識部２に「おはよう」という単語が認識辞書にあったとしても、合致指数は低いものとなってしまう。ここで、この発明による音声認識装置によれば、画像認識機能が同時に動作するために、音声認識部２は高い合致指数で「おはよう」を入力候補にあげることができる。

一例として上述した第３の判定方法を利用する例について説明する。「よ」という単語が入力された時間は開始時間ｔ７から終了時間ｔ８までの時間である。画像認識部４は口の動き等から「よ」が入力されたｔ７からｔ８までの時間情報を正確に認識している。音声認識部２は画像認識部４が「よ」を認識した時間（認識すべき時刻ｔ７からｔ８）で入力候補をあげるため、ｔ５からｔ６までの時間、即ちノイズａが混入された時間を考慮しない。このため高い合致指数で「おはよう」を入力候補にあげることができる。

また、第５の判定方法を利用した例について説明する。音声認識部２と画像認識部４がそれぞれ「おはかう」と「おはよう」を認識し、候補が一致しないとする。この場合に画像認識装置が検出した入力情報、具体的にはｔ１からｔ２、ｔ３からｔ４ｔ７からｔ８、ｔ９からｔ１０のタイミングでサンプリングした入力された音声情報で再度音声認識を行う。

この発明は、上述した一実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内でさまざまな変形や応用が可能である。例えば、音声認識部２が音声を認識する方法は、上述した一実施形態では、認識辞書を利用したが他にも音素を利用したりする方法など種々の方法があり、この発明に適用することができる。

また、時間情報については、上述した実施例については一文字ずつについて開始時間および終了時間を検出することとしたが複数の文字をまとめて検出するなど種々の方法を用いることができる。

この発明の音声認識装置の構成の一例を示す略線図である。音声認識結果リストおよび画像認識結果リストの一例を示す略線図である。この発明の音声認識装置の構成の他の一例を示す略線図である。この発明の音声認識の方法の一例を示す略線図である。

符号の説明

１音声入力装置
２音声認識部
３画像入力装置
４画像認識部
５計時装置
６判定部

Claims

外部から入力される音声を認識する音声認識装置において、
音声を入力する音声入力装置と、
上記入力された音声を認識処理する音声認識部と、
上記音声の発生源の画像を入力する画像入力装置と、
上記入力された画像を認識処理する画像認識部と、
上記音声認識部および上記画像認識部から出力される情報に基づいて、上記外部から入力される音声を認識する判定部とからなる音声認識装置。
請求項１に記載の音声認識装置において、
上記入力される画像についての時間情報を検出、出力する計時装置を更に備える音声認識装置。
請求項２に記載の音声認識装置において、
上記時間情報は、上記入力される音声および画像が入力される開始時間および終了時間である音声認識装置。
請求項２に記載の音声認識装置において、
上記計時装置が検出した上記画像についての時間情報に基づいて上記音声認識部が認識処理し、認識結果を上記判定部に供給し、上記判定部が入力される音声を認識する音声認識装置。
請求項２に記載の音声認識装置において、
上記計時装置が検出した上記音声についての時間情報に基づいて上記画像認識部が認識処理し、認識結果を上記判定部に供給し、上記判定部が入力される音声を認識する音声認識装置。
請求項４に記載の音声認識装置において、
上記音声認識部および上記画像認識部から出力される情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記音声認識部が上記入力された音声をサンプリングし、サンプリングされた音声により再度音声認識処理を行う音声認識装置。
請求項５に記載の音声認識装置において、
上記音声認識部および上記画像認識部から出力される情報が一致しないときは、上記計時装置が検出した上記音声が入力される時間情報に基づいて、上記画像認識部が上記入力された音声をサンプリングし、サンプリングされた音声により再度画像認識処理を行う音声認識装置。
外部から入力される音声を認識する音声認識方法において、
音声を入力する音声入力ステップと、
上記入力された音声を認識処理する音声認識ステップと、
上記音声の発生源の画像を入力する画像入力ステップと、
上記入力された画像を認識処理する画像認識ステップと、
上記認識処理された情報に基づいて、上記外部から入力される音声を認識する判定ステップとからなる音声認識方法。
請求項８に記載の音声認識方法において、
上記入力される画像についての時間情報を計時装置が検出、出力する時間検出ステップを更に有する音声認識方法。
請求項９に記載の音声認識方法において、
上記時間情報は、上記入力される音声および画像が入力される開始時間および終了時間である音声認識方法。
請求項９に記載の音声認識方法において、
上記計時装置が検出した上記画像についての時間情報に基づいて音声を認識処理する音声認識処理ステップと、上記音声認識処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識する音声認識方法。
請求項９に記載の音声認識方法において、
上記計時装置が検出した上記音声についての時間情報に基づいて入力された画像を認識処理する画像認識処理ステップと、上記画像認識処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識する音声認識方法。
請求項１１に記載の音声認識方法において、
上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度音声認識処理を行う音声認識ステップを更に有する音声認識方法。
請求項１２に記載の音声認識方法において、
上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記音声が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度画像認識処理を行う画像認識ステップを更に有する音声認識方法。
コンピュータに
入力された音声を認識処理する音声認識ステップと、
上記音声の発生源の画像を入力する画像入力ステップと、
上記入力された画像を認識処理する画像認識ステップと、
上記認識処理された情報に基づいて、上記外部から入力される音声を認識する判定ステップを実行させるプログラム。
請求項１５に記載のプログラムにおいて、
上記コンピュータに入力される画像についての時間情報を計時装置が検出、出力する時間検出ステップを更に実行させるプログラム。
請求項１６に記載のプログラムにおいて、
上記時間情報は、上記入力される音声および画像が入力される開始時間および終了時間であるプログラム。
請求項１６に記載のプログラムにおいて、
上記コンピュータに、上記計時装置が検出した上記画像についての時間情報に基づいて音声を認識処理する音声認識処理ステップと、上記音声認識処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識させるプログラム。
請求項１６に記載のプログラムにおいて、
上記コンピュータに、上記計時装置が検出した上記音声が入力される時間情報に基づいて画像を認識処理する画像認識処理ステップと、上記画像処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識させるプログラム。
請求項１８に記載のプログラムにおいて、
上記コンピュータに、上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度音声認識処理を行う音声認識ステップを更に実行させるプログラム。
請求項１９に記載のプログラムにおいて、
上記コンピュータに、上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記音声が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度画像認識処理を行う画像認識ステップを更に実行させるプログラム。
コンピュータに
入力された音声を認識処理する音声認識ステップと、
上記音声の発生源の画像を入力する画像入力ステップと、
上記入力された画像を認識処理する画像認識ステップと、
上記認識処理された情報に基づいて、上記外部から入力される音声を認識する判定ステップを実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
請求項２２に記載の記録媒体において、
上記コンピュータに入力される画像についての時間情報を計時装置が検出、出力する時間検出ステップを更に実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
請求項２３に記載の記録媒体において、
上記時間情報は、上記入力される音声および画像が入力される開始時間および終了時間である記録媒体。
請求項２３に記載の記録媒体において、
上記コンピュータに、上記計時装置が検出した上記画像についての時間情報に基づいて音声を認識処理する音声認識処理ステップと、上記音声認識処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
請求項２３に記載の記録媒体において、
上記コンピュータに、上記計時装置が検出した上記音声が入力される時間情報に基づいて画像を認識処理する画像認識処理ステップと、上記画像処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
請求項２５に記載の記録媒体において、
上記コンピュータに、上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度音声認識処理を行うステップを更に実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
請求項２６に記載の記録媒体において、
上記コンピュータに、上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度画像認識処理を行う画像認識ステップを更に実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。