JP3919314B2

JP3919314B2 - 話者認識装置及びその方法

Info

Publication number: JP3919314B2
Application number: JP35346897A
Authority: JP
Inventors: 豊出口
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-12-22
Filing date: 1997-12-22
Publication date: 2007-05-23
Anticipated expiration: 2017-12-22
Also published as: JPH11184492A

Description

【０００１】
【発明の属する技術分野】
本発明は、任意の発声に対して本人であるかどうかを判定する話者認識装置及びその方法に関するものである。
【０００２】
【従来の技術】
従来、金融機関等や役所での個人の同定は、予め登録された印鑑や暗証番号を用いて行われている。しかし、このような従来方法では、印鑑の紛失や盗難、暗証番号の忘却や漏洩によって正確な個人の同定が行えなくなるのが現状である。そのため、当人の音声を用いて個人同定を行う方法が提案されている。
【０００３】
音声を用いて個人の同定を行う方法には、特定の言葉を発声して認証を行う発声内容依存手法と、任意の発声に対して認証を行う発声内容独立手法に大別される。
【０００４】
発声内容依存手法を用いた方が一般的に高い認識率を得ることができるが、特定の言葉の発声を必要とする制約が加わる。
【０００５】
一方、発声内容独立手法は、発声長を長くすればするほど高い認識率を得られるという利点もある。特定の言葉を記憶する必要がなく利用者に負担の少ない発声内容独立手法は、様々な分野への応用が可能である。
【０００６】
図１は、その発声内容独立手法を用いて話者認識を行う典型的なシステムのブロック図である。
【０００７】
音声入力部１０１より収集した本人の音声データを特徴量変換部１０２で特徴量に変換した後に、話者モデル作成部１０３において各話者毎に話者モデルを作成し話者モデル記録部１０４に記憶しておく。
【０００８】
話者認識時には、音声入力部１０１より入力された音声を特徴量に変換した後に、尤度算出部１０５において話者モデル記録部１０４に記憶されている本人の話者モデルと変換された特徴量を比較し尤度を算出し、尤度がある一定値を越えた場合は本人と同定する手法が代表的で数多く提案されている。
【０００９】
音声データを特徴量に変換する際には、音声データより１６ｍｓから４０ｍｓ程度の区間を、８ｍｓから１６ｍｓ毎に逐次とり出し、各区間に対して特徴量を生成する手法が一般的に用いられている。話者認識時も同様に各区間に対して特徴量を生成し、生成した各特徴量に対して個別に話者モデルとの比較を行い、比較結果を統合して最終的な認識結果を算出する手法が数多く提案されている。
【００１０】
【発明が解決しようとしている課題】
上記の発声内容独立手法においては、話者認識時に任意の発声に対して認識を行う必要がある。各話者毎に他の話者と区別しやすい音声や区別しにくい音声が存在し、また一般的にも無声音に比べて有声音の方が話者の情報を多く含んでおり話者認識しやすいという事実も知られている。
【００１１】
しかし、入力音声が不確定なため、それらの情報を生かした認識ができないという問題点がある。
【００１２】
そこで本発明は、高精度な話者認識が行える話者認識装置及びその方法を提供する。
【００１３】
【課題を解決するための手段】
本発明は、音声を入力する音声入力手段と、前記音声入力手段へ入力された音声を所定の区間毎に特徴量に変換する特徴量変換手段と、一または複数の人物の話者モデルを記憶する話者モデル記録手段と、前記特徴量変換手段の特徴量と前記話者モデル記録手段の話者モデルを比較して区間毎の尤度を算出する尤度算出手段と、前記特徴量変換手段の特徴量を用いて区間毎の複数段階の優先度をそれぞれ設定する優先度設定手段と、前記優先度設定手段によって設定した区間毎の優先度の中で、予め決められた段階以上の優先度の高い区間の前記尤度算出手段で算出した尤度を平均して、前記平均尤度が閾値以上であれば、前記音声を入力した人物と前記話者モデルの人物とが一致していると判断する優先度判断手段とからなり、前記優先度判断手段は、必要な優先度からなる区間が所定数得られた時点で、この得られた区間の尤度を用いて、前記音声を入力した人物と前記話者モデルの人物とが一致しているか否かを判断することを特徴とする話者認識装置である。
【００２３】
【発明の実施の形態】
第１の実施例
図２は、第１の実施例による話者認識装置１０の全体構成を示すブロック図である。
【００２４】
符号１は、音声を入力するマイクより音声入力部を示す。
【００２５】
符号２は、入力された音声より区間を抽出し、区間毎に特徴量を生成する特徴量変換部を示す。
【００２６】
符号３は、特徴量より話者モデルを生成する話者モデル作成部を示す。
【００２７】
符号４は、話者モデルを記憶しておく話者モデル記録部を示す。
【００２８】
符号５は、話者認識時に入力された音声より生成された特徴量と記憶されている話者モデル記録部４とを比較し、尤度を算出する尤度算出部を示す。
【００２９】
符号６は、音声より生成された特徴量に対して優先度を設定する優先度設定部を示す。
【００３０】
符号７は、優先度判断部は示し、尤度算出部５によって得られた１つの区間に対する認識結果である尤度と、優先度設定部６によって設定された優先度より、該当する区間の認識結果を使用するかしないかを決定したり、優先度によって該当する区間の認識結果の値を変更したりする操作を行う。
【００３１】
符号８は、話者特定部であり、磁気カードやＩＣカードよりなるＩＤカードからＩＤ番号を読取り、これから話者認識装置１０を現在誰が使用しているかを特定する。
【００３２】
話者認識装置１０は、マイク（音声入力部１）を接続したパソコンより実現でき、特徴量変換部２、話者モデル作成部３、尤度算出部５、優先度設定部６、優先度判断部７の機能を実現するためのプログラムをハードディスクやＣＤ−ＲＯＭに記憶しておき、話者モデル記録部４はメモリによって構成する。また、話者特定部８は、カードリードライタより構成される。
【００３３】
［話者モデルの記憶］
まず、話者モデルを作成する場合について説明する。
【００３４】
この方法は、話者特定部８にＩＤカードを挿入して、これから誰の話者モデルを作成するかが特定させる。その後に、マイク（音声入力部１）に向かって、所定の音声を入力する。
【００３５】
特徴量変換部２が、入力された音声より区間毎に特徴量を生成する。そして、この特徴量より話者モデル作成部３が話者モデルを生成する。本実施例においては、話者モデルとしてＨＭＭ（Hidden Markov Model ）を用いる。話者モデルＨＭＭの作成方法は従来の方法と同様である。
【００３６】
この生成された話者モデルＨＭＭを話者モデル記録部４に、話者特定部８で読取ったとＩＤ番号と共に記憶する。
【００３７】
［話者の認識］
次に、話者を認識する場合を説明する。
【００３８】
（話者特定部８）
話者特定部８にＩＤカードを挿入して、これから誰の認識を行うかを特定させる。
【００３９】
（音声入力部１）
その後に、マイク（音声入力部１）に向かって、所定の音声を入力する。
【００４０】
（特徴量変換部２）
特徴量変換部２が、入力された音声より区間毎に特徴量を生成する。そして、この特徴量は、優先度設定部６と尤度算出部４へ送られる。
【００４１】
（尤度算出部５）
尤度算出部５では、話者特定部８によって特定されたＩＤ番号に該当する話者モデルを話者モデル記録部４から呼び出してくる。
【００４２】
そして、特徴量変換部２から送られてくる特徴量と、話者モデル記録部４からの話者モデルＨＭＭとを比較する。ＨＭＭと特徴量との比較結果（以下、これを「尤度」という）は、０以上の実数で表現され、数が大きいほど話者モデルＨＭＭと特徴量が似ていることを示している。発声に対する認識結果は、各区間の尤度を平均した値を用いる。なお、本実施例では、各区間の尤度の平均値が０．５以上の時に、本人であると判定することにする。
【００４３】
この各区間毎の尤度を優先度判断部７に送る。
【００４４】
（優先度設定部６）
優先度設定部６は、特徴量変換部２からの各区間毎の特徴量に対して優先度を設定する。優先度は、１から５まであり、数字が低い程優先度が高い。
【００４５】
優先度設定部６における優先度設定方法としては、特徴量の音韻認識結果を用いる。
【００４６】
例えば、優先度設定部６の優先度は、図３のように規定する。話者認識においては、一般的には子音部より母音部の方が話者性の情報を多く含んでおり、子音部の話者認識結果より母音部の話者認識結果の方が高い精度得られる可能性が高いため、音韻認識結果として母音や有声音が得られた特徴量に関して高い優先度を設定するように規定されている。例として挙げると、「ａ」の母音に関して他人と区別しやすいことが予めわかっている人に対しては、「ａ」の母音のデータは優先度を最高に設定している。
【００４７】
（優先度判断部７）
優先度判断部７は、優先度の値が１，２，３の場合に限り該当する区間の認識結果である尤度を利用し、優先度の値が４，５の場合には該当する区間の認識結果を利用しないという優先度判断規則に基づいて認識結果の操作を行う。そして、優先度判断部７において優先度判断規則に基づいて該当する区間の認識結果を利用するかどうかを判定する。
【００４８】
［具体例］
（本人との照合）
話者Ａの音声と話者Ａの話者モデルを照合する具体例を示す。
【００４９】
音声入力部１で入力された音声「さかい（ｓａｋａｉ）」より、特徴量変換部２は２０ｍｓの区間を１０ｍｓ毎に抽出し、特徴量変換した後に、これを利用して尤度を求めた尤度算出部５の出力結果及び優先度設定部６の出力結果を図４に示す。
【００５０】
優先度判断部７では、本結果より優先度判断規則に基づいて、認識に利用する区間を決定する。ここでは、優先度判断規則に基づいて、優先度１，２，３の区間を認識に利用する。図４中の利用の欄に○がついている区間が、優先度判断規則に基づいて認識に利用すると判定した区間である。
【００５１】
図４において、通常の手法で話者認識を行うと、全ての区間に認識結果を使用して尤度の平均を求める。全２２区間の尤度の平均は、０．４１であり、０．５を下回っているので、話者Ａでないという誤った認識結果が出力される。
【００５２】
一方、本実施例による話者認識では、優先度１，２，３が設定されている計１３区間の尤度の平均を求める処理が行われる。平均尤度は０．５７となり、０．５を上回っているので、話者Ａであるという正しい結果が出力できる。これは、正しい尤度を出す可能性の高い区間を抽出して認識を行っていることの効果である。
【００５３】
（他人との比較）
次に、図５に他の話者Ｂの音声と話者Ａのモデルとの比較結果を示す。
【００５４】
音声入力部１で入力された他の話者Ｂの音声「さかい（ｓａｋａｉ）」より、特徴量変換部２は２０ｍｓの区間を１０ｍｓ毎に抽出し、特徴量変換した後に、これを利用して尤度を求めた尤度算出部５の出力結果及び優先度設定部６の出力結果を図５に示す。
【００５５】
従来の認識では全２１区間の尤度の平均３．３が、本実施例による認識では優先度１，２，３が設定されている１２区間の尤度の平均３．６が認識結果として算出され、どちらの場合においても話者Ａでないという正しい結果を出力することができる。
【００５６】
認識対象区間を優先度に応じて限定する処理は、他の話者Ｂの音声との照合結果を算出する際にも悪い影響を与えることはほとんどない。
【００５７】
第２の実施例
次に、第１の実施例において、利用者が発声している最中に認識に必要な音声が得られた時点で認識処理を終了して、認識結果を出力する第２の実施例を示す。
【００５８】
利用者は任意の語句を発声し、認識に必要な音声が得られた時点で認識処理を打ち切って認識結果を出力する。本実施例では、認識開始時より優先度が１，２の１５区間のデータが得られた時点で認識結果を出力するものとする。
【００５９】
図６に話者Ａ発声中の音声「私の（ｗａｔａｓｉｎｏ）」に対する話者Ａの尤度算出部５及び優先度設定部６の出力結果を示す。
【００６０】
従来の手法では、１５区間の発声が得られた時点で認識を終了する。１５区間目までの１５区間の平均尤度は０．３９であり、０．５より小さいので本人の音声であるにもかかわらず本人ではないという結果が得られる。これは、あまり高い精度が得られないと予想される区間に対して認識を行っていることに原因がある。
【００６１】
本実施例による認識では、８区間目から１１区間目までの区間及び、１４区間から１６区間までの区間は、音韻認識結果によって高い精度が得られないと判断し低い優先度を設定することで、認識対象区間から除外することができる。本発明による認識では、２２区間までの処理が終了した段階で、優先度１，２，３の設定されている区間が１５区間得られたので、以後の処理を中止して、１５区間の平均尤度を求めることで認識結果を出力する。その結果、平均尤度は５．２となり話者Ａであるという正しい認識結果を出力することができる。
【００６２】
このように、本実施例を用いることで、利用者の発声中に処理を開始し、高い認識率を確保したままで認識処理を終了することができる。
【００６３】
変更例
なお、上記実施例では、優先度設定部６の優先度は、図３のように一般的な場合を想定して求めたが、これに代えて認識対象の人物毎に、その音声の特徴が表れるように優先度を設定しておき、これを話者モデル記録部７に話者モデルとＩＤ番号と共に記憶しておく。そして、話者特定部８で読み取ったＩＤ番号に対応する優先度を話者モデル記録部７から優先度設定部６が呼び出すようにしてもよい。
【００６４】
【発明の効果】
本発明によれば、発声内容独立手法による話者認識を行うにあたって、高い精度の得られる区間を優先して認識を行うことで、従来の手法と比較して高い話者認識率を得ることができる。
【００６５】
また、利用者の発声中に認識処理を開始する場合には、優先度を参照することで認識に十分な音声が得られたかどうかを判断し、十分な音声が得られた時点で認識処理を終了して結果を出力することにより、比較的短い発声長で高い認識率を得ることができる。
【図面の簡単な説明】
【図１】従来の話者認識方法のブロック図である。
【図２】第１の実施例の話者認識方法のブロック図である。
【図３】話者Ａの音韻認識結果と優先度の関係を示す表の図である。
【図４】特徴量変換部２及び優先度設定部６の出力結果を示す表の図である。
【図５】他の話者Ｂの音声と話者Ａのモデルとの比較結果を示す表の図である。
【図６】話者Ａの話者モデル特徴量変換部２及び優先度設定部６の出力結果を示す表の図である。
【符号の説明】
１音声入力部
２特徴量変換部
３話者モデル作成部
４話者モデル記録部
５尤度算出部
６優先度設定部
７優先度判断部
８話者特定部

Claims

音声を入力する音声入力手段と、
前記音声入力手段へ入力された音声を所定の区間毎に特徴量に変換する特徴量変換手段と、
一または複数の人物の話者モデルを記憶する話者モデル記録手段と、
前記特徴量変換手段の特徴量と前記話者モデル記録手段の話者モデルを比較して区間毎の尤度を算出する尤度算出手段と、
前記特徴量変換手段の特徴量を用いて区間毎の複数段階の優先度をそれぞれ設定する優先度設定手段と、
前記優先度設定手段によって設定した区間毎の優先度の中で、予め決められた段階以上の優先度の高い区間の前記尤度算出手段で算出した尤度を平均して、前記平均尤度が閾値以上であれば、前記音声を入力した人物と前記話者モデルの人物とが一致していると判断する優先度判断手段とからなり、
前記優先度判断手段は、
必要な優先度からなる区間が所定数得られた時点で、この得られた区間の尤度を用いて、前記音声を入力した人物と前記話者モデルの人物とが一致しているか否かを判断する
ことを特徴とする話者認識装置。
前記優先度設定手段は、
前記特徴量変換手段の特徴量を用いて区間毎の優先度を設定する場合に、人物毎に前記優先度の設定を変える
ことを特徴とする請求項１記載の話者認識装置。
音声入力された音声を所定の区間毎に特徴量に変換する特徴量変換ステップと、
前記特徴量変換ステップの特徴量と記憶されている話者モデルを比較して区間毎の尤度を算出する尤度算出ステップと、
前記特徴量変換手段の特徴量を用いて区間毎の複数段階の優先度をそれぞれ設定する優先度設定ステップと、
前記優先度設定手段によって設定した区間毎の優先度の中で、予め決められた段階以上の優先度の高い区間の前記尤度算出手段で算出した尤度を平均して、前記平均尤度が閾値以上であれば、前記音声を入力した人物と前記話者モデルの人物とが一致していると判断する優先度判断ステップとからなり、
前記優先度判断ステップは、
必要な優先度からなる区間が所定数得られた時点で、この得られた区間の尤度を用いて、前記音声を入力した人物と前記話者モデルの人物とが一致しているか否かを判断する
ことを特徴とする話者認識方法。
前記優先度設定ステップは、
前記特徴量変換ステップにおける特徴量を用いて区間毎の優先度を設定する場合に、人物毎に前記優先度の設定を変える
ことを特徴とする請求項３記載の話者認識方法。
音声入力された音声を所定の区間毎に特徴量に変換する特徴量変換機能と、
前記特徴量変換機能の特徴量と記憶されている話者モデルを比較して区間毎の尤度を算出する尤度算出機能と、
前記特徴量変換手段の特徴量を用いて区間毎の複数段階の優先度をそれぞれ設定する優先度設定機能と、
前記優先度設定手段によって設定した区間毎の優先度の中で、予め決められた段階以上の優先度の高い区間の前記尤度算出手段で算出した尤度を平均して、前記平均尤度が閾値以上であれば、前記音声を入力した人物と前記話者モデルの人物とが一致していると判断する優先度判断機能とを実現する話者認識プログラムを記憶し、
前記優先度判断機能は、
必要な優先度からなる区間が所定数得られた時点で、この得られた区間の尤度を用いて、前記音声を入力した人物と前記話者モデルの人物とが一致しているか否かを判断する
ことを特徴とする話者認識プログラムの記録媒体。