JPH11184492A

JPH11184492A - 話者認識装置及びその方法

Info

Publication number: JPH11184492A
Application number: JP9353468A
Authority: JP
Inventors: Yutaka Deguchi; 豊出口
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-12-22
Filing date: 1997-12-22
Publication date: 1999-07-09
Anticipated expiration: 2017-12-22
Also published as: JP3919314B2

Abstract

(57)【要約】【解決手段】音声入力部１で入力された音声を規定さ
れた短い区間毎に特徴量に変換する特徴量変換部２と、
特徴量より話者モデルを作成する話者モデル作成部と、
作成された特徴量と話者モデル記録部４の話者モデルを
比較し尤度を算出する尤度算出部５と、特徴量に対する
優先度を設定する優先度設定部６と、算出された尤度と
設定された優先度より話者認識を行う優先度判断部７を
持つ。【効果】生成された特徴量に対して優先度を設定する
ことにより、信頼性の高い区間に対する認識結果を重視
した認識が行えるので、高精度な話者認識が行える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、任意の発声に対し
て本人であるかどうかを判定する話者認識装置及びその
方法に関するものである。

【０００２】

【従来の技術】従来、金融機関等や役所での個人の同定
は、予め登録された印鑑や暗証番号を用いて行われてい
る。しかし、このような従来方法では、印鑑の紛失や盗
難、暗証番号の忘却や漏洩によって正確な個人の同定が
行えなくなるのが現状である。そのため、当人の音声を
用いて個人同定を行う方法が提案されている。

【０００３】音声を用いて個人の同定を行う方法には、
特定の言葉を発声して認証を行う発声内容依存手法と、
任意の発声に対して認証を行う発声内容独立手法に大別
される。

【０００４】発声内容依存手法を用いた方が一般的に高
い認識率を得ることができるが、特定の言葉の発声を必
要とする制約が加わる。

【０００５】一方、発声内容独立手法は、発声長を長く
すればするほど高い認識率を得られるという利点もあ
る。特定の言葉を記憶する必要がなく利用者に負担の少
ない発声内容独立手法は、様々な分野への応用が可能で
ある。

【０００６】図１は、その発声内容独立手法を用いて話
者認識を行う典型的なシステムのブロック図である。

【０００７】音声入力部１０１より収集した本人の音声
データを特徴量変換部１０２で特徴量に変換した後に、
話者モデル作成部１０３において各話者毎に話者モデル
を作成し話者モデル記録部１０４に記憶しておく。

【０００８】話者認識時には、音声入力部１０１より入
力された音声を特徴量に変換した後に、尤度算出部１０
５において話者モデル記録部１０４に記憶されている本
人の話者モデルと変換された特徴量を比較し尤度を算出
し、尤度がある一定値を越えた場合は本人と同定する手
法が代表的で数多く提案されている。

【０００９】音声データを特徴量に変換する際には、音
声データより１６ｍｓから４０ｍｓ程度の区間を、８ｍ
ｓから１６ｍｓ毎に逐次とり出し、各区間に対して特徴
量を生成する手法が一般的に用いられている。話者認識
時も同様に各区間に対して特徴量を生成し、生成した各
特徴量に対して個別に話者モデルとの比較を行い、比較
結果を統合して最終的な認識結果を算出する手法が数多
く提案されている。

【００１０】

【発明が解決しようとしている課題】上記の発声内容独
立手法においては、話者認識時に任意の発声に対して認
識を行う必要がある。各話者毎に他の話者と区別しやす
い音声や区別しにくい音声が存在し、また一般的にも無
声音に比べて有声音の方が話者の情報を多く含んでおり
話者認識しやすいという事実も知られている。

【００１１】しかし、入力音声が不確定なため、それら
の情報を生かした認識ができないという問題点がある。

【００１２】そこで本発明は、高精度な話者認識が行え
る話者認識装置及びその方法を提供する。

【００１３】

【課題を解決するための手段】請求項１の発明は、音声
を入力する音声入力手段と、前記音声入力手段へ入力さ
れた音声を所定の区間毎に特徴量に変換する特徴量変換
手段と、一または複数の人物の話者モデルを記憶する話
者モデル記録手段と、前記特徴量変換手段の特徴量と前
記話者モデル記録手段の話者モデルを比較して区間毎の
尤度を算出する尤度算出手段と、前記特徴量変換手段の
特徴量を用いて区間毎の優先度を設定する優先度設定手
段と、前記優先度設定手段によって設定した区間毎の優
先度の中で、優先度の高い区間の前記尤度算出手段で算
出した尤度を用いて、前記音声を入力した人物と前記話
者モデルの人物とが一致しているか否かを判断する優先
度判断手段とからなることを特徴とする話者認識装置。

【００１４】請求項２の発明は、前記優先度判断手段
は、必要な優先度からなる区間が所定数得られた時点
で、この得られた区間の尤度を用いて、前記音声を入力
した人物と前記話者モデルの人物とが一致しているか否
かを判断することを特徴とする請求項１記載の話者認識
装置である。

【００１５】請求項３の発明は、前記優先度設定手段
は、前記特徴量変換ステップにおける特徴量を用いて区
間毎の優先度を設定する場合に、人物毎に前記優先度の
設定を変えることを特徴とする請求項１記載の話者認識
装置である。

【００１６】請求項４の発明は、音声入力された音声を
所定の区間毎に特徴量に変換する特徴量変換ステップ
と、前記特徴量変換ステップの特徴量と記憶されている
話者モデルを比較して区間毎の尤度を算出する尤度算出
ステップと、前記特徴量変換ステップの特徴量を用いて
区間毎の優先度を設定する優先度設定ステップと、前記
優先度設定ステップにおいて設定した区間毎の優先度の
中で、優先度の高い区間の前記尤度算出ステップで算出
した尤度を用いて、前記音声を入力した人物と前記話者
モデルの人物とが一致しているか否かを判断する優先度
判断ステップとからなることを特徴とする話者認識方法
である。

【００１７】請求項５の発明は、前記優先度判断ステッ
プは、必要な優先度からなる区間が所定数得られた時点
で、この得られた区間の尤度を用いて、前記音声を入力
した人物と前記話者モデルの人物とが一致しているか否
かを判断することを特徴とする請求項３記載の話者認識
方法である。

【００１８】請求項６の発明は、前記優先度設定ステッ
プは、前記特徴量変換ステップにおける特徴量を用いて
区間毎の優先度を設定する場合に、人物毎に前記優先度
の設定を変えることを特徴とする請求項４記載の話者認
識方法である。

【００１９】請求項７の発明は、音声入力された音声を
所定の区間毎に特徴量に変換する特徴量変換機能と、前
記特徴量変換機能の特徴量と記憶されている話者モデル
を比較して区間毎の尤度を算出する尤度算出機能と、前
記特徴量変換機能の特徴量を用いて区間毎の優先度を設
定する優先度設定機能と、前記優先度設定機能において
設定した区間毎の優先度の中で、優先度の高い区間の前
記尤度算出機能で算出した尤度を用いて、前記音声を入
力した人物と前記話者モデルの人物とが一致しているか
否かを判断する優先度判断機能とを実現する話者認識プ
ログラムを記憶したことを特徴とする話者認識プログラ
ムの記録媒体である。

【００２０】請求項１、４、７に係る発明であると、特
徴量に対して優先度を設定し、優先度の高い区間に対す
る認識結果を優先することによって、通常の発声内容独
立手法による認識と比較して高精度な認識を行うことが
できる。

【００２１】請求項３、５に係る発明であると、利用者
の発声中に認識処理を開始する場合には、優先度を参照
することで認識に十分な音声が得られたかどうかを判断
し、十分な音声が得られた時点で認識処理を終了して結
果を出力することにより、比較的短い発声長で高い認識
率を得ることができる。

【００２２】請求項３、６に係る発明であると、前記特
徴量変換ステップにおける特徴量を用いて区間毎の優先
度を設定する場合に、人物毎に前記優先度の設定を変え
るので、より確実に話者が認識ができる。

【００２３】

【発明の実施の形態】第１の実施例図２は、第１の実施例による話者認識装置１０の全体構
成を示すブロック図である。

【００２４】符号１は、音声を入力するマイクより音声
入力部を示す。

【００２５】符号２は、入力された音声より区間を抽出
し、区間毎に特徴量を生成する特徴量変換部を示す。

【００２６】符号３は、特徴量より話者モデルを生成す
る話者モデル作成部を示す。

【００２７】符号４は、話者モデルを記憶しておく話者
モデル記録部を示す。

【００２８】符号５は、話者認識時に入力された音声よ
り生成された特徴量と記憶されている話者モデル記録部
４とを比較し、尤度を算出する尤度算出部を示す。

【００２９】符号６は、音声より生成された特徴量に対
して優先度を設定する優先度設定部を示す。

【００３０】符号７は、優先度判断部は示し、尤度算出
部５によって得られた１つの区間に対する認識結果であ
る尤度と、優先度設定部６によって設定された優先度よ
り、該当する区間の認識結果を使用するかしないかを決
定したり、優先度によって該当する区間の認識結果の値
を変更したりする操作を行う。

【００３１】符号８は、話者特定部であり、磁気カード
やＩＣカードよりなるＩＤカードからＩＤ番号を読取
り、これから話者認識装置１０を現在誰が使用している
かを特定する。

【００３２】話者認識装置１０は、マイク（音声入力部
１）を接続したパソコンより実現でき、特徴量変換部
２、話者モデル作成部３、尤度算出部５、優先度設定部
６、優先度判断部７の機能を実現するためのプログラム
をハードディスクやＣＤ−ＲＯＭに記憶しておき、話者
モデル記録部４はメモリによって構成する。また、話者
特定部８は、カードリードライタより構成される。

【００３３】［話者モデルの記憶］まず、話者モデルを
作成する場合について説明する。

【００３４】この方法は、話者特定部８にＩＤカードを
挿入して、これから誰の話者モデルを作成するかが特定
させる。その後に、マイク（音声入力部１）に向かっ
て、所定の音声を入力する。

【００３５】特徴量変換部２が、入力された音声より区
間毎に特徴量を生成する。そして、この特徴量より話者
モデル作成部３が話者モデルを生成する。本実施例にお
いては、話者モデルとしてＨＭＭ（Hidden Markov Mode
l ）を用いる。話者モデルＨＭＭの作成方法は従来の方
法と同様である。

【００３６】この生成された話者モデルＨＭＭを話者モ
デル記録部４に、話者特定部８で読取ったとＩＤ番号と
共に記憶する。

【００３７】［話者の認識］次に、話者を認識する場合
を説明する。

【００３８】（話者特定部８）話者特定部８にＩＤカー
ドを挿入して、これから誰の認識を行うかを特定させ
る。

【００３９】（音声入力部１）その後に、マイク（音声
入力部１）に向かって、所定の音声を入力する。

【００４０】（特徴量変換部２）特徴量変換部２が、入
力された音声より区間毎に特徴量を生成する。そして、
この特徴量は、優先度設定部６と尤度算出部４へ送られ
る。

【００４１】（尤度算出部５）尤度算出部５では、話者
特定部８によって特定されたＩＤ番号に該当する話者モ
デルを話者モデル記録部４から呼び出してくる。

【００４２】そして、特徴量変換部２から送られてくる
特徴量と、話者モデル記録部４からの話者モデルＨＭＭ
とを比較する。ＨＭＭと特徴量との比較結果（以下、こ
れを「尤度」という）は、０以上の実数で表現され、数
が大きいほど話者モデルＨＭＭと特徴量が似ていること
を示している。発声に対する認識結果は、各区間の尤度
を平均した値を用いる。なお、本実施例では、各区間の
尤度の平均値が０．５以上の時に、本人であると判定す
ることにする。

【００４３】この各区間毎の尤度を優先度判断部７に送
る。

【００４４】（優先度設定部６）優先度設定部６は、特
徴量変換部２からの各区間毎の特徴量に対して優先度を
設定する。優先度は、１から５まであり、数字が低い程
優先度が高い。

【００４５】優先度設定部６における優先度設定方法と
しては、特徴量の音韻認識結果を用いる。

【００４６】例えば、優先度設定部６の優先度は、図３
のように規定する。話者認識においては、一般的には子
音部より母音部の方が話者性の情報を多く含んでおり、
子音部の話者認識結果より母音部の話者認識結果の方が
高い精度得られる可能性が高いため、音韻認識結果とし
て母音や有声音が得られた特徴量に関して高い優先度を
設定するように規定されている。例として挙げると、
「ａ」の母音に関して他人と区別しやすいことが予めわ
かっている人に対しては、「ａ」の母音のデータは優先
度を最高に設定している。

【００４７】（優先度判断部７）優先度判断部７は、優
先度の値が１，２，３の場合に限り該当する区間の認識
結果である尤度を利用し、優先度の値が４，５の場合に
は該当する区間の認識結果を利用しないという優先度判
断規則に基づいて認識結果の操作を行う。そして、優先
度判断部７において優先度判断規則に基づいて該当する
区間の認識結果を利用するかどうかを判定する。

【００４８】［具体例］（本人との照合）話者Ａの音声と話者Ａの話者モデルを
照合する具体例を示す。

【００４９】音声入力部１で入力された音声「さかい
（ｓａｋａｉ）」より、特徴量変換部２は２０ｍｓの区
間を１０ｍｓ毎に抽出し、特徴量変換した後に、これを
利用して尤度を求めた尤度算出部５の出力結果及び優先
度設定部６の出力結果を図４に示す。

【００５０】優先度判断部７では、本結果より優先度判
断規則に基づいて、認識に利用する区間を決定する。こ
こでは、優先度判断規則に基づいて、優先度１，２，３
の区間を認識に利用する。図４中の利用の欄に○がつい
ている区間が、優先度判断規則に基づいて認識に利用す
ると判定した区間である。

【００５１】図４において、通常の手法で話者認識を行
うと、全ての区間に認識結果を使用して尤度の平均を求
める。全２２区間の尤度の平均は、０．４１であり、
０．５を下回っているので、話者Ａでないという誤った
認識結果が出力される。

【００５２】一方、本実施例による話者認識では、優先
度１，２，３が設定されている計１３区間の尤度の平均
を求める処理が行われる。平均尤度は０．５７となり、
０．５を上回っているので、話者Ａであるという正しい
結果が出力できる。これは、正しい尤度を出す可能性の
高い区間を抽出して認識を行っていることの効果であ
る。

【００５３】（他人との比較）次に、図５に他の話者Ｂ
の音声と話者Ａのモデルとの比較結果を示す。

【００５４】音声入力部１で入力された他の話者Ｂの音
声「さかい（ｓａｋａｉ）」より、特徴量変換部２は２
０ｍｓの区間を１０ｍｓ毎に抽出し、特徴量変換した後
に、これを利用して尤度を求めた尤度算出部５の出力結
果及び優先度設定部６の出力結果を図５に示す。

【００５５】従来の認識では全２１区間の尤度の平均
３．３が、本実施例による認識では優先度１，２，３が
設定されている１２区間の尤度の平均３．６が認識結果
として算出され、どちらの場合においても話者Ａでない
という正しい結果を出力することができる。

【００５６】認識対象区間を優先度に応じて限定する処
理は、他の話者Ｂの音声との照合結果を算出する際にも
悪い影響を与えることはほとんどない。

【００５７】第２の実施例次に、第１の実施例において、利用者が発声している最
中に認識に必要な音声が得られた時点で認識処理を終了
して、認識結果を出力する第２の実施例を示す。

【００５８】利用者は任意の語句を発声し、認識に必要
な音声が得られた時点で認識処理を打ち切って認識結果
を出力する。本実施例では、認識開始時より優先度が
１，２の１５区間のデータが得られた時点で認識結果を
出力するものとする。

【００５９】図６に話者Ａ発声中の音声「私の（ｗａｔ
ａｓｉｎｏ）」に対する話者Ａの尤度算出部５及び優先
度設定部６の出力結果を示す。

【００６０】従来の手法では、１５区間の発声が得られ
た時点で認識を終了する。１５区間目までの１５区間の
平均尤度は０．３９であり、０．５より小さいので本人
の音声であるにもかかわらず本人ではないという結果が
得られる。これは、あまり高い精度が得られないと予想
される区間に対して認識を行っていることに原因があ
る。

【００６１】本実施例による認識では、８区間目から１
１区間目までの区間及び、１４区間から１６区間までの
区間は、音韻認識結果によって高い精度が得られないと
判断し低い優先度を設定することで、認識対象区間から
除外することができる。本発明による認識では、２２区
間までの処理が終了した段階で、優先度１，２，３の設
定されている区間が１５区間得られたので、以後の処理
を中止して、１５区間の平均尤度を求めることで認識結
果を出力する。その結果、平均尤度は５．２となり話者
Ａであるという正しい認識結果を出力することができ
る。

【００６２】このように、本実施例を用いることで、利
用者の発声中に処理を開始し、高い認識率を確保したま
まで認識処理を終了することができる。

【００６３】変更例なお、上記実施例では、優先度設定部６の優先度は、図
３のように一般的な場合を想定して求めたが、これに代
えて認識対象の人物毎に、その音声の特徴が表れるよう
に優先度を設定しておき、これを話者モデル記録部７に
話者モデルとＩＤ番号と共に記憶しておく。そして、話
者特定部８で読み取ったＩＤ番号に対応する優先度を話
者モデル記録部７から優先度設定部６が呼び出すように
してもよい。

【００６４】

【発明の効果】本発明によれば、発声内容独立手法によ
る話者認識を行うにあたって、高い精度の得られる区間
を優先して認識を行うことで、従来の手法と比較して高
い話者認識率を得ることができる。

【００６５】また、利用者の発声中に認識処理を開始す
る場合には、優先度を参照することで認識に十分な音声
が得られたかどうかを判断し、十分な音声が得られた時
点で認識処理を終了して結果を出力することにより、比
較的短い発声長で高い認識率を得ることができる。

【図面の簡単な説明】

【図１】従来の話者認識方法のブロック図である。

【図２】第１の実施例の話者認識方法のブロック図であ
る。

【図３】話者Ａの音韻認識結果と優先度の関係を示す表
の図である。

【図４】特徴量変換部２及び優先度設定部６の出力結果
を示す表の図である。

【図５】他の話者Ｂの音声と話者Ａのモデルとの比較結
果を示す表の図である。

【図６】話者Ａの話者モデル特徴量変換部２及び優先度
設定部６の出力結果を示す表の図である。

【符号の説明】

１音声入力部２特徴量変換部３話者モデル作成部４話者モデル記録部５尤度算出部６優先度設定部７優先度判断部８話者特定部

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力手段と、前記音声入力手段へ入力された音声を所定の区間毎に特
徴量に変換する特徴量変換手段と、一または複数の人物の話者モデルを記憶する話者モデル
記録手段と、前記特徴量変換手段の特徴量と前記話者モデル記録手段
の話者モデルを比較して区間毎の尤度を算出する尤度算
出手段と、前記特徴量変換手段の特徴量を用いて区間毎の優先度を
設定する優先度設定手段と、前記優先度設定手段によって設定した区間毎の優先度の
中で、優先度の高い区間の前記尤度算出手段で算出した
尤度を用いて、前記音声を入力した人物と前記話者モデ
ルの人物とが一致しているか否かを判断する優先度判断
手段とからなることを特徴とする話者認識装置。
【請求項２】前記優先度判断手段は、必要な優先度からなる区間が所定数得られた時点で、こ
の得られた区間の尤度を用いて、前記音声を入力した人
物と前記話者モデルの人物とが一致しているか否かを判
断することを特徴とする請求項１記載の話者認識装置。
【請求項３】前記優先度設定手段は、前記特徴量変換手段の特徴量を用いて区間毎の優先度を
設定する場合に、人物毎に前記優先度の設定を変えるこ
とを特徴とする請求項１記載の話者認識装置。
【請求項４】音声入力された音声を所定の区間毎に特徴
量に変換する特徴量変換ステップと、前記特徴量変換ステップの特徴量と記憶されている話者
モデルを比較して区間毎の尤度を算出する尤度算出ステ
ップと、前記特徴量変換ステップの特徴量を用いて区間毎の優先
度を設定する優先度設定ステップと、前記優先度設定ステップにおいて設定した区間毎の優先
度の中で、優先度の高い区間の前記尤度算出ステップで
算出した尤度を用いて、前記音声を入力した人物と前記
話者モデルの人物とが一致しているか否かを判断する優
先度判断ステップとからなることを特徴とする話者認識
方法。
【請求項５】前記優先度判断ステップは、必要な優先度からなる区間が所定数得られた時点で、こ
の得られた区間の尤度を用いて、前記音声を入力した人
物と前記話者モデルの人物とが一致しているか否かを判
断することを特徴とする請求項３記載の話者認識方法。
【請求項６】前記優先度設定ステップは、前記特徴量変換ステップにおける特徴量を用いて区間毎
の優先度を設定する場合に、人物毎に前記優先度の設定
を変えることを特徴とする請求項４記載の話者認識方
法。
【請求項７】音声入力された音声を所定の区間毎に特徴
量に変換する特徴量変換機能と、前記特徴量変換機能の特徴量と記憶されている話者モデ
ルを比較して区間毎の尤度を算出する尤度算出機能と、前記特徴量変換機能の特徴量を用いて区間毎の優先度を
設定する優先度設定機能と、前記優先度設定機能において設定した区間毎の優先度の
中で、優先度の高い区間の前記尤度算出機能で算出した
尤度を用いて、前記音声を入力した人物と前記話者モデ
ルの人物とが一致しているか否かを判断する優先度判断
機能とを実現する話者認識プログラムを記憶したことを
特徴とする話者認識プログラムの記録媒体。