JP3919314B2 - 話者認識装置及びその方法 - Google Patents
話者認識装置及びその方法 Download PDFInfo
- Publication number
- JP3919314B2 JP3919314B2 JP35346897A JP35346897A JP3919314B2 JP 3919314 B2 JP3919314 B2 JP 3919314B2 JP 35346897 A JP35346897 A JP 35346897A JP 35346897 A JP35346897 A JP 35346897A JP 3919314 B2 JP3919314 B2 JP 3919314B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- priority
- likelihood
- section
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、任意の発声に対して本人であるかどうかを判定する話者認識装置及びその方法に関するものである。
【0002】
【従来の技術】
従来、金融機関等や役所での個人の同定は、予め登録された印鑑や暗証番号を用いて行われている。しかし、このような従来方法では、印鑑の紛失や盗難、暗証番号の忘却や漏洩によって正確な個人の同定が行えなくなるのが現状である。そのため、当人の音声を用いて個人同定を行う方法が提案されている。
【0003】
音声を用いて個人の同定を行う方法には、特定の言葉を発声して認証を行う発声内容依存手法と、任意の発声に対して認証を行う発声内容独立手法に大別される。
【0004】
発声内容依存手法を用いた方が一般的に高い認識率を得ることができるが、特定の言葉の発声を必要とする制約が加わる。
【0005】
一方、発声内容独立手法は、発声長を長くすればするほど高い認識率を得られるという利点もある。特定の言葉を記憶する必要がなく利用者に負担の少ない発声内容独立手法は、様々な分野への応用が可能である。
【0006】
図1は、その発声内容独立手法を用いて話者認識を行う典型的なシステムのブロック図である。
【0007】
音声入力部101より収集した本人の音声データを特徴量変換部102で特徴量に変換した後に、話者モデル作成部103において各話者毎に話者モデルを作成し話者モデル記録部104に記憶しておく。
【0008】
話者認識時には、音声入力部101より入力された音声を特徴量に変換した後に、尤度算出部105において話者モデル記録部104に記憶されている本人の話者モデルと変換された特徴量を比較し尤度を算出し、尤度がある一定値を越えた場合は本人と同定する手法が代表的で数多く提案されている。
【0009】
音声データを特徴量に変換する際には、音声データより16msから40ms程度の区間を、8msから16ms毎に逐次とり出し、各区間に対して特徴量を生成する手法が一般的に用いられている。話者認識時も同様に各区間に対して特徴量を生成し、生成した各特徴量に対して個別に話者モデルとの比較を行い、比較結果を統合して最終的な認識結果を算出する手法が数多く提案されている。
【0010】
【発明が解決しようとしている課題】
上記の発声内容独立手法においては、話者認識時に任意の発声に対して認識を行う必要がある。各話者毎に他の話者と区別しやすい音声や区別しにくい音声が存在し、また一般的にも無声音に比べて有声音の方が話者の情報を多く含んでおり話者認識しやすいという事実も知られている。
【0011】
しかし、入力音声が不確定なため、それらの情報を生かした認識ができないという問題点がある。
【0012】
そこで本発明は、高精度な話者認識が行える話者認識装置及びその方法を提供する。
【0013】
【課題を解決するための手段】
本発明は、音声を入力する音声入力手段と、前記音声入力手段へ入力された音声を所定の区間毎に特徴量に変換する特徴量変換手段と、一または複数の人物の話者モデルを記憶する話者モデル記録手段と、前記特徴量変換手段の特徴量と前記話者モデル記録手段の話者モデルを比較して区間毎の尤度を算出する尤度算出手段と、前記特徴量変換手段の特徴量を用いて区間毎の複数段階の優先度をそれぞれ設定する優先度設定手段と、前記優先度設定手段によって設定した区間毎の優先度の中で、予め決められた段階以上の優先度の高い区間の前記尤度算出手段で算出した尤度を平均して、前記平均尤度が閾値以上であれば、前記音声を入力した人物と前記話者モデルの人物とが一致していると判断する優先度判断手段とからなり、前記優先度判断手段は、必要な優先度からなる区間が所定数得られた時点で、この得られた区間の尤度を用いて、前記音声を入力した人物と前記話者モデルの人物とが一致しているか否かを判断することを特徴とする話者認識装置である。
【0023】
【発明の実施の形態】
第1の実施例
図2は、第1の実施例による話者認識装置10の全体構成を示すブロック図である。
【0024】
符号1は、音声を入力するマイクより音声入力部を示す。
【0025】
符号2は、入力された音声より区間を抽出し、区間毎に特徴量を生成する特徴量変換部を示す。
【0026】
符号3は、特徴量より話者モデルを生成する話者モデル作成部を示す。
【0027】
符号4は、話者モデルを記憶しておく話者モデル記録部を示す。
【0028】
符号5は、話者認識時に入力された音声より生成された特徴量と記憶されている話者モデル記録部4とを比較し、尤度を算出する尤度算出部を示す。
【0029】
符号6は、音声より生成された特徴量に対して優先度を設定する優先度設定部を示す。
【0030】
符号7は、優先度判断部は示し、尤度算出部5によって得られた1つの区間に対する認識結果である尤度と、優先度設定部6によって設定された優先度より、該当する区間の認識結果を使用するかしないかを決定したり、優先度によって該当する区間の認識結果の値を変更したりする操作を行う。
【0031】
符号8は、話者特定部であり、磁気カードやICカードよりなるIDカードからID番号を読取り、これから話者認識装置10を現在誰が使用しているかを特定する。
【0032】
話者認識装置10は、マイク(音声入力部1)を接続したパソコンより実現でき、特徴量変換部2、話者モデル作成部3、尤度算出部5、優先度設定部6、優先度判断部7の機能を実現するためのプログラムをハードディスクやCD−ROMに記憶しておき、話者モデル記録部4はメモリによって構成する。また、話者特定部8は、カードリードライタより構成される。
【0033】
[話者モデルの記憶]
まず、話者モデルを作成する場合について説明する。
【0034】
この方法は、話者特定部8にIDカードを挿入して、これから誰の話者モデルを作成するかが特定させる。その後に、マイク(音声入力部1)に向かって、所定の音声を入力する。
【0035】
特徴量変換部2が、入力された音声より区間毎に特徴量を生成する。そして、この特徴量より話者モデル作成部3が話者モデルを生成する。本実施例においては、話者モデルとしてHMM(Hidden Markov Model )を用いる。話者モデルHMMの作成方法は従来の方法と同様である。
【0036】
この生成された話者モデルHMMを話者モデル記録部4に、話者特定部8で読取ったとID番号と共に記憶する。
【0037】
[話者の認識]
次に、話者を認識する場合を説明する。
【0038】
(話者特定部8)
話者特定部8にIDカードを挿入して、これから誰の認識を行うかを特定させる。
【0039】
(音声入力部1)
その後に、マイク(音声入力部1)に向かって、所定の音声を入力する。
【0040】
(特徴量変換部2)
特徴量変換部2が、入力された音声より区間毎に特徴量を生成する。そして、この特徴量は、優先度設定部6と尤度算出部4へ送られる。
【0041】
(尤度算出部5)
尤度算出部5では、話者特定部8によって特定されたID番号に該当する話者モデルを話者モデル記録部4から呼び出してくる。
【0042】
そして、特徴量変換部2から送られてくる特徴量と、話者モデル記録部4からの話者モデルHMMとを比較する。HMMと特徴量との比較結果(以下、これを「尤度」という)は、0以上の実数で表現され、数が大きいほど話者モデルHMMと特徴量が似ていることを示している。発声に対する認識結果は、各区間の尤度を平均した値を用いる。なお、本実施例では、各区間の尤度の平均値が0.5以上の時に、本人であると判定することにする。
【0043】
この各区間毎の尤度を優先度判断部7に送る。
【0044】
(優先度設定部6)
優先度設定部6は、特徴量変換部2からの各区間毎の特徴量に対して優先度を設定する。優先度は、1から5まであり、数字が低い程優先度が高い。
【0045】
優先度設定部6における優先度設定方法としては、特徴量の音韻認識結果を用いる。
【0046】
例えば、優先度設定部6の優先度は、図3のように規定する。話者認識においては、一般的には子音部より母音部の方が話者性の情報を多く含んでおり、子音部の話者認識結果より母音部の話者認識結果の方が高い精度得られる可能性が高いため、音韻認識結果として母音や有声音が得られた特徴量に関して高い優先度を設定するように規定されている。例として挙げると、「a」の母音に関して他人と区別しやすいことが予めわかっている人に対しては、「a」の母音のデータは優先度を最高に設定している。
【0047】
(優先度判断部7)
優先度判断部7は、優先度の値が1,2,3の場合に限り該当する区間の認識結果である尤度を利用し、優先度の値が4,5の場合には該当する区間の認識結果を利用しないという優先度判断規則に基づいて認識結果の操作を行う。そして、優先度判断部7において優先度判断規則に基づいて該当する区間の認識結果を利用するかどうかを判定する。
【0048】
[具 体 例]
(本人との照合)
話者Aの音声と話者Aの話者モデルを照合する具体例を示す。
【0049】
音声入力部1で入力された音声「さかい(sakai)」より、特徴量変換部2は20msの区間を10ms毎に抽出し、特徴量変換した後に、これを利用して尤度を求めた尤度算出部5の出力結果及び優先度設定部6の出力結果を図4に示す。
【0050】
優先度判断部7では、本結果より優先度判断規則に基づいて、認識に利用する区間を決定する。ここでは、優先度判断規則に基づいて、優先度1,2,3の区間を認識に利用する。図4中の利用の欄に○がついている区間が、優先度判断規則に基づいて認識に利用すると判定した区間である。
【0051】
図4において、通常の手法で話者認識を行うと、全ての区間に認識結果を使用して尤度の平均を求める。全22区間の尤度の平均は、0.41であり、0.5を下回っているので、話者Aでないという誤った認識結果が出力される。
【0052】
一方、本実施例による話者認識では、優先度1,2,3が設定されている計13区間の尤度の平均を求める処理が行われる。平均尤度は0.57となり、0.5を上回っているので、話者Aであるという正しい結果が出力できる。これは、正しい尤度を出す可能性の高い区間を抽出して認識を行っていることの効果である。
【0053】
(他人との比較)
次に、図5に他の話者Bの音声と話者Aのモデルとの比較結果を示す。
【0054】
音声入力部1で入力された他の話者Bの音声「さかい(sakai)」より、特徴量変換部2は20msの区間を10ms毎に抽出し、特徴量変換した後に、これを利用して尤度を求めた尤度算出部5の出力結果及び優先度設定部6の出力結果を図5に示す。
【0055】
従来の認識では全21区間の尤度の平均3.3が、本実施例による認識では優先度1,2,3が設定されている12区間の尤度の平均3.6が認識結果として算出され、どちらの場合においても話者Aでないという正しい結果を出力することができる。
【0056】
認識対象区間を優先度に応じて限定する処理は、他の話者Bの音声との照合結果を算出する際にも悪い影響を与えることはほとんどない。
【0057】
第2の実施例
次に、第1の実施例において、利用者が発声している最中に認識に必要な音声が得られた時点で認識処理を終了して、認識結果を出力する第2の実施例を示す。
【0058】
利用者は任意の語句を発声し、認識に必要な音声が得られた時点で認識処理を打ち切って認識結果を出力する。本実施例では、認識開始時より優先度が1,2の15区間のデータが得られた時点で認識結果を出力するものとする。
【0059】
図6に話者A発声中の音声「私の(watasino)」に対する話者Aの尤度算出部5及び優先度設定部6の出力結果を示す。
【0060】
従来の手法では、15区間の発声が得られた時点で認識を終了する。15区間目までの15区間の平均尤度は0.39であり、0.5より小さいので本人の音声であるにもかかわらず本人ではないという結果が得られる。これは、あまり高い精度が得られないと予想される区間に対して認識を行っていることに原因がある。
【0061】
本実施例による認識では、8区間目から11区間目までの区間及び、14区間から16区間までの区間は、音韻認識結果によって高い精度が得られないと判断し低い優先度を設定することで、認識対象区間から除外することができる。本発明による認識では、22区間までの処理が終了した段階で、優先度1,2,3の設定されている区間が15区間得られたので、以後の処理を中止して、15区間の平均尤度を求めることで認識結果を出力する。その結果、平均尤度は5.2となり話者Aであるという正しい認識結果を出力することができる。
【0062】
このように、本実施例を用いることで、利用者の発声中に処理を開始し、高い認識率を確保したままで認識処理を終了することができる。
【0063】
変 更 例
なお、上記実施例では、優先度設定部6の優先度は、図3のように一般的な場合を想定して求めたが、これに代えて認識対象の人物毎に、その音声の特徴が表れるように優先度を設定しておき、これを話者モデル記録部7に話者モデルとID番号と共に記憶しておく。そして、話者特定部8で読み取ったID番号に対応する優先度を話者モデル記録部7から優先度設定部6が呼び出すようにしてもよい。
【0064】
【発明の効果】
本発明によれば、発声内容独立手法による話者認識を行うにあたって、高い精度の得られる区間を優先して認識を行うことで、従来の手法と比較して高い話者認識率を得ることができる。
【0065】
また、利用者の発声中に認識処理を開始する場合には、優先度を参照することで認識に十分な音声が得られたかどうかを判断し、十分な音声が得られた時点で認識処理を終了して結果を出力することにより、比較的短い発声長で高い認識率を得ることができる。
【図面の簡単な説明】
【図1】従来の話者認識方法のブロック図である。
【図2】第1の実施例の話者認識方法のブロック図である。
【図3】話者Aの音韻認識結果と優先度の関係を示す表の図である。
【図4】特徴量変換部2及び優先度設定部6の出力結果を示す表の図である。
【図5】他の話者Bの音声と話者Aのモデルとの比較結果を示す表の図である。
【図6】話者Aの話者モデル特徴量変換部2及び優先度設定部6の出力結果を示す表の図である。
【符号の説明】
1 音声入力部
2 特徴量変換部
3 話者モデル作成部
4 話者モデル記録部
5 尤度算出部
6 優先度設定部
7 優先度判断部
8 話者特定部
Claims (5)
- 音声を入力する音声入力手段と、
前記音声入力手段へ入力された音声を所定の区間毎に特徴量に変換する特徴量変換手段と、
一または複数の人物の話者モデルを記憶する話者モデル記録手段と、
前記特徴量変換手段の特徴量と前記話者モデル記録手段の話者モデルを比較して区間毎の尤度を算出する尤度算出手段と、
前記特徴量変換手段の特徴量を用いて区間毎の複数段階の優先度をそれぞれ設定する優先度設定手段と、
前記優先度設定手段によって設定した区間毎の優先度の中で、予め決められた段階以上の優先度の高い区間の前記尤度算出手段で算出した尤度を平均して、前記平均尤度が閾値以上であれば、前記音声を入力した人物と前記話者モデルの人物とが一致していると判断する優先度判断手段とからなり、
前記優先度判断手段は、
必要な優先度からなる区間が所定数得られた時点で、この得られた区間の尤度を用いて、前記音声を入力した人物と前記話者モデルの人物とが一致しているか否かを判断する
ことを特徴とする話者認識装置。 - 前記優先度設定手段は、
前記特徴量変換手段の特徴量を用いて区間毎の優先度を設定する場合に、人物毎に前記優先度の設定を変える
ことを特徴とする請求項1記載の話者認識装置。 - 音声入力された音声を所定の区間毎に特徴量に変換する特徴量変換ステップと、
前記特徴量変換ステップの特徴量と記憶されている話者モデルを比較して区間毎の尤度を算出する尤度算出ステップと、
前記特徴量変換手段の特徴量を用いて区間毎の複数段階の優先度をそれぞれ設定する優先度設定ステップと、
前記優先度設定手段によって設定した区間毎の優先度の中で、予め決められた段階以上の優先度の高い区間の前記尤度算出手段で算出した尤度を平均して、前記平均尤度が閾値以上であれば、前記音声を入力した人物と前記話者モデルの人物とが一致していると判断する優先度判断ステップとからなり、
前記優先度判断ステップは、
必要な優先度からなる区間が所定数得られた時点で、この得られた区間の尤度を用いて、前記音声を入力した人物と前記話者モデルの人物とが一致しているか否かを判断する
ことを特徴とする話者認識方法。 - 前記優先度設定ステップは、
前記特徴量変換ステップにおける特徴量を用いて区間毎の優先度を設定する場合に、人物毎に前記優先度の設定を変える
ことを特徴とする請求項3記載の話者認識方法。 - 音声入力された音声を所定の区間毎に特徴量に変換する特徴量変換機能と、
前記特徴量変換機能の特徴量と記憶されている話者モデルを比較して区間毎の尤度を算出する尤度算出機能と、
前記特徴量変換手段の特徴量を用いて区間毎の複数段階の優先度をそれぞれ設定する優先度設定機能と、
前記優先度設定手段によって設定した区間毎の優先度の中で、予め決められた段階以上の優先度の高い区間の前記尤度算出手段で算出した尤度を平均して、前記平均尤度が閾値以上であれば、前記音声を入力した人物と前記話者モデルの人物とが一致していると判断する優先度判断機能とを実現する話者認識プログラムを記憶し、
前記優先度判断機能は、
必要な優先度からなる区間が所定数得られた時点で、この得られた区間の尤度を用いて、前記音声を入力した人物と前記話者モデルの人物とが一致しているか否かを判断する
ことを特徴とする話者認識プログラムの記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35346897A JP3919314B2 (ja) | 1997-12-22 | 1997-12-22 | 話者認識装置及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35346897A JP3919314B2 (ja) | 1997-12-22 | 1997-12-22 | 話者認識装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11184492A JPH11184492A (ja) | 1999-07-09 |
JP3919314B2 true JP3919314B2 (ja) | 2007-05-23 |
Family
ID=18431062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35346897A Expired - Fee Related JP3919314B2 (ja) | 1997-12-22 | 1997-12-22 | 話者認識装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3919314B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3944159B2 (ja) | 2003-12-25 | 2007-07-11 | 株式会社東芝 | 質問応答システムおよびプログラム |
JP6683231B2 (ja) * | 2018-10-04 | 2020-04-15 | ソニー株式会社 | 情報処理装置および情報処理方法 |
WO2022034630A1 (ja) * | 2020-08-11 | 2022-02-17 | 日本電気株式会社 | 音声処理装置、音声処理方法、記録媒体、および音声認証システム |
-
1997
- 1997-12-22 JP JP35346897A patent/JP3919314B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11184492A (ja) | 1999-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7447632B2 (en) | Voice authentication system | |
JP4672003B2 (ja) | 音声認証システム | |
Naik | Speaker verification: A tutorial | |
JP3789246B2 (ja) | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 | |
EP0892388B1 (en) | Method and apparatus for providing speaker authentication by verbal information verification using forced decoding | |
JPH0354600A (ja) | 不明人物の同一性検証方法 | |
JP2007133414A (ja) | 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 | |
JP4897040B2 (ja) | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム | |
US6556969B1 (en) | Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding | |
JP3919314B2 (ja) | 話者認識装置及びその方法 | |
JP2996019B2 (ja) | 音声認識装置 | |
EP0892387A1 (en) | Method and apparatus for providing speaker authentication by verbal information verification | |
JP3849841B2 (ja) | 話者認識装置 | |
JP4440414B2 (ja) | 話者照合装置及び方法 | |
US7289957B1 (en) | Verifying a speaker using random combinations of speaker's previously-supplied syllable units | |
JP4245948B2 (ja) | 音声認証装置、音声認証方法及び音声認証プログラム | |
JPH10274993A (ja) | 音声認識装置および音声認識方法 | |
CN113241059A (zh) | 语音唤醒方法、装置、设备及存储介质 | |
JP3818063B2 (ja) | 個人認証装置 | |
JP2001350494A (ja) | 照合装置及び照合方法 | |
JP3036509B2 (ja) | 話者照合における閾値決定方法及び装置 | |
JPH11344992A (ja) | 音声辞書作成方法、個人認証装置および記録媒体 | |
JP2000148187A (ja) | 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体 | |
JPH0997095A (ja) | 音声認識装置 | |
JP2000250594A (ja) | 話者認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060811 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070213 |
|
LAPS | Cancellation because of no payment of annual fees |