JPH11184492A - 話者認識装置及びその方法 - Google Patents
話者認識装置及びその方法Info
- Publication number
- JPH11184492A JPH11184492A JP9353468A JP35346897A JPH11184492A JP H11184492 A JPH11184492 A JP H11184492A JP 9353468 A JP9353468 A JP 9353468A JP 35346897 A JP35346897 A JP 35346897A JP H11184492 A JPH11184492 A JP H11184492A
- Authority
- JP
- Japan
- Prior art keywords
- priority
- speaker
- section
- likelihood
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
れた短い区間毎に特徴量に変換する特徴量変換部2と、
特徴量より話者モデルを作成する話者モデル作成部と、
作成された特徴量と話者モデル記録部4の話者モデルを
比較し尤度を算出する尤度算出部5と、特徴量に対する
優先度を設定する優先度設定部6と、算出された尤度と
設定された優先度より話者認識を行う優先度判断部7を
持つ。 【効果】 生成された特徴量に対して優先度を設定する
ことにより、信頼性の高い区間に対する認識結果を重視
した認識が行えるので、高精度な話者認識が行える。
Description
て本人であるかどうかを判定する話者認識装置及びその
方法に関するものである。
は、予め登録された印鑑や暗証番号を用いて行われてい
る。しかし、このような従来方法では、印鑑の紛失や盗
難、暗証番号の忘却や漏洩によって正確な個人の同定が
行えなくなるのが現状である。そのため、当人の音声を
用いて個人同定を行う方法が提案されている。
特定の言葉を発声して認証を行う発声内容依存手法と、
任意の発声に対して認証を行う発声内容独立手法に大別
される。
い認識率を得ることができるが、特定の言葉の発声を必
要とする制約が加わる。
すればするほど高い認識率を得られるという利点もあ
る。特定の言葉を記憶する必要がなく利用者に負担の少
ない発声内容独立手法は、様々な分野への応用が可能で
ある。
者認識を行う典型的なシステムのブロック図である。
データを特徴量変換部102で特徴量に変換した後に、
話者モデル作成部103において各話者毎に話者モデル
を作成し話者モデル記録部104に記憶しておく。
力された音声を特徴量に変換した後に、尤度算出部10
5において話者モデル記録部104に記憶されている本
人の話者モデルと変換された特徴量を比較し尤度を算出
し、尤度がある一定値を越えた場合は本人と同定する手
法が代表的で数多く提案されている。
声データより16msから40ms程度の区間を、8m
sから16ms毎に逐次とり出し、各区間に対して特徴
量を生成する手法が一般的に用いられている。話者認識
時も同様に各区間に対して特徴量を生成し、生成した各
特徴量に対して個別に話者モデルとの比較を行い、比較
結果を統合して最終的な認識結果を算出する手法が数多
く提案されている。
立手法においては、話者認識時に任意の発声に対して認
識を行う必要がある。各話者毎に他の話者と区別しやす
い音声や区別しにくい音声が存在し、また一般的にも無
声音に比べて有声音の方が話者の情報を多く含んでおり
話者認識しやすいという事実も知られている。
の情報を生かした認識ができないという問題点がある。
る話者認識装置及びその方法を提供する。
を入力する音声入力手段と、前記音声入力手段へ入力さ
れた音声を所定の区間毎に特徴量に変換する特徴量変換
手段と、一または複数の人物の話者モデルを記憶する話
者モデル記録手段と、前記特徴量変換手段の特徴量と前
記話者モデル記録手段の話者モデルを比較して区間毎の
尤度を算出する尤度算出手段と、前記特徴量変換手段の
特徴量を用いて区間毎の優先度を設定する優先度設定手
段と、前記優先度設定手段によって設定した区間毎の優
先度の中で、優先度の高い区間の前記尤度算出手段で算
出した尤度を用いて、前記音声を入力した人物と前記話
者モデルの人物とが一致しているか否かを判断する優先
度判断手段とからなることを特徴とする話者認識装置。
は、必要な優先度からなる区間が所定数得られた時点
で、この得られた区間の尤度を用いて、前記音声を入力
した人物と前記話者モデルの人物とが一致しているか否
かを判断することを特徴とする請求項1記載の話者認識
装置である。
は、前記特徴量変換ステップにおける特徴量を用いて区
間毎の優先度を設定する場合に、人物毎に前記優先度の
設定を変えることを特徴とする請求項1記載の話者認識
装置である。
所定の区間毎に特徴量に変換する特徴量変換ステップ
と、前記特徴量変換ステップの特徴量と記憶されている
話者モデルを比較して区間毎の尤度を算出する尤度算出
ステップと、前記特徴量変換ステップの特徴量を用いて
区間毎の優先度を設定する優先度設定ステップと、前記
優先度設定ステップにおいて設定した区間毎の優先度の
中で、優先度の高い区間の前記尤度算出ステップで算出
した尤度を用いて、前記音声を入力した人物と前記話者
モデルの人物とが一致しているか否かを判断する優先度
判断ステップとからなることを特徴とする話者認識方法
である。
プは、必要な優先度からなる区間が所定数得られた時点
で、この得られた区間の尤度を用いて、前記音声を入力
した人物と前記話者モデルの人物とが一致しているか否
かを判断することを特徴とする請求項3記載の話者認識
方法である。
プは、前記特徴量変換ステップにおける特徴量を用いて
区間毎の優先度を設定する場合に、人物毎に前記優先度
の設定を変えることを特徴とする請求項4記載の話者認
識方法である。
所定の区間毎に特徴量に変換する特徴量変換機能と、前
記特徴量変換機能の特徴量と記憶されている話者モデル
を比較して区間毎の尤度を算出する尤度算出機能と、前
記特徴量変換機能の特徴量を用いて区間毎の優先度を設
定する優先度設定機能と、前記優先度設定機能において
設定した区間毎の優先度の中で、優先度の高い区間の前
記尤度算出機能で算出した尤度を用いて、前記音声を入
力した人物と前記話者モデルの人物とが一致しているか
否かを判断する優先度判断機能とを実現する話者認識プ
ログラムを記憶したことを特徴とする話者認識プログラ
ムの記録媒体である。
徴量に対して優先度を設定し、優先度の高い区間に対す
る認識結果を優先することによって、通常の発声内容独
立手法による認識と比較して高精度な認識を行うことが
できる。
の発声中に認識処理を開始する場合には、優先度を参照
することで認識に十分な音声が得られたかどうかを判断
し、十分な音声が得られた時点で認識処理を終了して結
果を出力することにより、比較的短い発声長で高い認識
率を得ることができる。
徴量変換ステップにおける特徴量を用いて区間毎の優先
度を設定する場合に、人物毎に前記優先度の設定を変え
るので、より確実に話者が認識ができる。
成を示すブロック図である。
入力部を示す。
し、区間毎に特徴量を生成する特徴量変換部を示す。
る話者モデル作成部を示す。
モデル記録部を示す。
り生成された特徴量と記憶されている話者モデル記録部
4とを比較し、尤度を算出する尤度算出部を示す。
して優先度を設定する優先度設定部を示す。
部5によって得られた1つの区間に対する認識結果であ
る尤度と、優先度設定部6によって設定された優先度よ
り、該当する区間の認識結果を使用するかしないかを決
定したり、優先度によって該当する区間の認識結果の値
を変更したりする操作を行う。
やICカードよりなるIDカードからID番号を読取
り、これから話者認識装置10を現在誰が使用している
かを特定する。
1)を接続したパソコンより実現でき、特徴量変換部
2、話者モデル作成部3、尤度算出部5、優先度設定部
6、優先度判断部7の機能を実現するためのプログラム
をハードディスクやCD−ROMに記憶しておき、話者
モデル記録部4はメモリによって構成する。また、話者
特定部8は、カードリードライタより構成される。
作成する場合について説明する。
挿入して、これから誰の話者モデルを作成するかが特定
させる。その後に、マイク(音声入力部1)に向かっ
て、所定の音声を入力する。
間毎に特徴量を生成する。そして、この特徴量より話者
モデル作成部3が話者モデルを生成する。本実施例にお
いては、話者モデルとしてHMM(Hidden Markov Mode
l )を用いる。話者モデルHMMの作成方法は従来の方
法と同様である。
デル記録部4に、話者特定部8で読取ったとID番号と
共に記憶する。
を説明する。
ドを挿入して、これから誰の認識を行うかを特定させ
る。
入力部1)に向かって、所定の音声を入力する。
力された音声より区間毎に特徴量を生成する。そして、
この特徴量は、優先度設定部6と尤度算出部4へ送られ
る。
特定部8によって特定されたID番号に該当する話者モ
デルを話者モデル記録部4から呼び出してくる。
特徴量と、話者モデル記録部4からの話者モデルHMM
とを比較する。HMMと特徴量との比較結果(以下、こ
れを「尤度」という)は、0以上の実数で表現され、数
が大きいほど話者モデルHMMと特徴量が似ていること
を示している。発声に対する認識結果は、各区間の尤度
を平均した値を用いる。なお、本実施例では、各区間の
尤度の平均値が0.5以上の時に、本人であると判定す
ることにする。
る。
徴量変換部2からの各区間毎の特徴量に対して優先度を
設定する。優先度は、1から5まであり、数字が低い程
優先度が高い。
しては、特徴量の音韻認識結果を用いる。
のように規定する。話者認識においては、一般的には子
音部より母音部の方が話者性の情報を多く含んでおり、
子音部の話者認識結果より母音部の話者認識結果の方が
高い精度得られる可能性が高いため、音韻認識結果とし
て母音や有声音が得られた特徴量に関して高い優先度を
設定するように規定されている。例として挙げると、
「a」の母音に関して他人と区別しやすいことが予めわ
かっている人に対しては、「a」の母音のデータは優先
度を最高に設定している。
先度の値が1,2,3の場合に限り該当する区間の認識
結果である尤度を利用し、優先度の値が4,5の場合に
は該当する区間の認識結果を利用しないという優先度判
断規則に基づいて認識結果の操作を行う。そして、優先
度判断部7において優先度判断規則に基づいて該当する
区間の認識結果を利用するかどうかを判定する。
照合する具体例を示す。
(sakai)」より、特徴量変換部2は20msの区
間を10ms毎に抽出し、特徴量変換した後に、これを
利用して尤度を求めた尤度算出部5の出力結果及び優先
度設定部6の出力結果を図4に示す。
断規則に基づいて、認識に利用する区間を決定する。こ
こでは、優先度判断規則に基づいて、優先度1,2,3
の区間を認識に利用する。図4中の利用の欄に○がつい
ている区間が、優先度判断規則に基づいて認識に利用す
ると判定した区間である。
うと、全ての区間に認識結果を使用して尤度の平均を求
める。全22区間の尤度の平均は、0.41であり、
0.5を下回っているので、話者Aでないという誤った
認識結果が出力される。
度1,2,3が設定されている計13区間の尤度の平均
を求める処理が行われる。平均尤度は0.57となり、
0.5を上回っているので、話者Aであるという正しい
結果が出力できる。これは、正しい尤度を出す可能性の
高い区間を抽出して認識を行っていることの効果であ
る。
の音声と話者Aのモデルとの比較結果を示す。
声「さかい(sakai)」より、特徴量変換部2は2
0msの区間を10ms毎に抽出し、特徴量変換した後
に、これを利用して尤度を求めた尤度算出部5の出力結
果及び優先度設定部6の出力結果を図5に示す。
3.3が、本実施例による認識では優先度1,2,3が
設定されている12区間の尤度の平均3.6が認識結果
として算出され、どちらの場合においても話者Aでない
という正しい結果を出力することができる。
理は、他の話者Bの音声との照合結果を算出する際にも
悪い影響を与えることはほとんどない。
中に認識に必要な音声が得られた時点で認識処理を終了
して、認識結果を出力する第2の実施例を示す。
な音声が得られた時点で認識処理を打ち切って認識結果
を出力する。本実施例では、認識開始時より優先度が
1,2の15区間のデータが得られた時点で認識結果を
出力するものとする。
asino)」に対する話者Aの尤度算出部5及び優先
度設定部6の出力結果を示す。
た時点で認識を終了する。15区間目までの15区間の
平均尤度は0.39であり、0.5より小さいので本人
の音声であるにもかかわらず本人ではないという結果が
得られる。これは、あまり高い精度が得られないと予想
される区間に対して認識を行っていることに原因があ
る。
1区間目までの区間及び、14区間から16区間までの
区間は、音韻認識結果によって高い精度が得られないと
判断し低い優先度を設定することで、認識対象区間から
除外することができる。本発明による認識では、22区
間までの処理が終了した段階で、優先度1,2,3の設
定されている区間が15区間得られたので、以後の処理
を中止して、15区間の平均尤度を求めることで認識結
果を出力する。その結果、平均尤度は5.2となり話者
Aであるという正しい認識結果を出力することができ
る。
用者の発声中に処理を開始し、高い認識率を確保したま
まで認識処理を終了することができる。
3のように一般的な場合を想定して求めたが、これに代
えて認識対象の人物毎に、その音声の特徴が表れるよう
に優先度を設定しておき、これを話者モデル記録部7に
話者モデルとID番号と共に記憶しておく。そして、話
者特定部8で読み取ったID番号に対応する優先度を話
者モデル記録部7から優先度設定部6が呼び出すように
してもよい。
る話者認識を行うにあたって、高い精度の得られる区間
を優先して認識を行うことで、従来の手法と比較して高
い話者認識率を得ることができる。
る場合には、優先度を参照することで認識に十分な音声
が得られたかどうかを判断し、十分な音声が得られた時
点で認識処理を終了して結果を出力することにより、比
較的短い発声長で高い認識率を得ることができる。
る。
の図である。
を示す表の図である。
果を示す表の図である。
設定部6の出力結果を示す表の図である。
Claims (7)
- 【請求項1】音声を入力する音声入力手段と、 前記音声入力手段へ入力された音声を所定の区間毎に特
徴量に変換する特徴量変換手段と、 一または複数の人物の話者モデルを記憶する話者モデル
記録手段と、 前記特徴量変換手段の特徴量と前記話者モデル記録手段
の話者モデルを比較して区間毎の尤度を算出する尤度算
出手段と、 前記特徴量変換手段の特徴量を用いて区間毎の優先度を
設定する優先度設定手段と、 前記優先度設定手段によって設定した区間毎の優先度の
中で、優先度の高い区間の前記尤度算出手段で算出した
尤度を用いて、前記音声を入力した人物と前記話者モデ
ルの人物とが一致しているか否かを判断する優先度判断
手段とからなることを特徴とする話者認識装置。 - 【請求項2】前記優先度判断手段は、 必要な優先度からなる区間が所定数得られた時点で、こ
の得られた区間の尤度を用いて、前記音声を入力した人
物と前記話者モデルの人物とが一致しているか否かを判
断することを特徴とする請求項1記載の話者認識装置。 - 【請求項3】前記優先度設定手段は、 前記特徴量変換手段の特徴量を用いて区間毎の優先度を
設定する場合に、人物毎に前記優先度の設定を変えるこ
とを特徴とする請求項1記載の話者認識装置。 - 【請求項4】音声入力された音声を所定の区間毎に特徴
量に変換する特徴量変換ステップと、 前記特徴量変換ステップの特徴量と記憶されている話者
モデルを比較して区間毎の尤度を算出する尤度算出ステ
ップと、 前記特徴量変換ステップの特徴量を用いて区間毎の優先
度を設定する優先度設定ステップと、 前記優先度設定ステップにおいて設定した区間毎の優先
度の中で、優先度の高い区間の前記尤度算出ステップで
算出した尤度を用いて、前記音声を入力した人物と前記
話者モデルの人物とが一致しているか否かを判断する優
先度判断ステップとからなることを特徴とする話者認識
方法。 - 【請求項5】前記優先度判断ステップは、 必要な優先度からなる区間が所定数得られた時点で、こ
の得られた区間の尤度を用いて、前記音声を入力した人
物と前記話者モデルの人物とが一致しているか否かを判
断することを特徴とする請求項3記載の話者認識方法。 - 【請求項6】前記優先度設定ステップは、 前記特徴量変換ステップにおける特徴量を用いて区間毎
の優先度を設定する場合に、人物毎に前記優先度の設定
を変えることを特徴とする請求項4記載の話者認識方
法。 - 【請求項7】音声入力された音声を所定の区間毎に特徴
量に変換する特徴量変換機能と、 前記特徴量変換機能の特徴量と記憶されている話者モデ
ルを比較して区間毎の尤度を算出する尤度算出機能と、 前記特徴量変換機能の特徴量を用いて区間毎の優先度を
設定する優先度設定機能と、 前記優先度設定機能において設定した区間毎の優先度の
中で、優先度の高い区間の前記尤度算出機能で算出した
尤度を用いて、前記音声を入力した人物と前記話者モデ
ルの人物とが一致しているか否かを判断する優先度判断
機能とを実現する話者認識プログラムを記憶したことを
特徴とする話者認識プログラムの記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35346897A JP3919314B2 (ja) | 1997-12-22 | 1997-12-22 | 話者認識装置及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35346897A JP3919314B2 (ja) | 1997-12-22 | 1997-12-22 | 話者認識装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11184492A true JPH11184492A (ja) | 1999-07-09 |
JP3919314B2 JP3919314B2 (ja) | 2007-05-23 |
Family
ID=18431062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35346897A Expired - Fee Related JP3919314B2 (ja) | 1997-12-22 | 1997-12-22 | 話者認識装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3919314B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7580835B2 (en) | 2003-12-25 | 2009-08-25 | Kabushiki Kaisha Toshiba | Question-answering method, system, and program for answering question input by speech |
JP2019020743A (ja) * | 2018-10-04 | 2019-02-07 | ソニー株式会社 | 情報処理装置 |
WO2022034630A1 (ja) * | 2020-08-11 | 2022-02-17 | 日本電気株式会社 | 音声処理装置、音声処理方法、記録媒体、および音声認証システム |
-
1997
- 1997-12-22 JP JP35346897A patent/JP3919314B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7580835B2 (en) | 2003-12-25 | 2009-08-25 | Kabushiki Kaisha Toshiba | Question-answering method, system, and program for answering question input by speech |
JP2019020743A (ja) * | 2018-10-04 | 2019-02-07 | ソニー株式会社 | 情報処理装置 |
WO2022034630A1 (ja) * | 2020-08-11 | 2022-02-17 | 日本電気株式会社 | 音声処理装置、音声処理方法、記録媒体、および音声認証システム |
Also Published As
Publication number | Publication date |
---|---|
JP3919314B2 (ja) | 2007-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7447632B2 (en) | Voice authentication system | |
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP4672003B2 (ja) | 音声認証システム | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
JP3789246B2 (ja) | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 | |
JP3826032B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US20020046032A1 (en) | Speech recognition method with a replace command | |
JP2002506241A (ja) | 話者照合の多重解像システム及び方法 | |
JP3803029B2 (ja) | 音声認識装置 | |
JPH1173195A (ja) | 話者の申し出識別を認証する方法 | |
JP4897040B2 (ja) | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム | |
JP3069531B2 (ja) | 音声認識方法 | |
JP3876703B2 (ja) | 音声認識のための話者学習装置及び方法 | |
JP3849841B2 (ja) | 話者認識装置 | |
JPH1173196A (ja) | 話者の申し出識別を認証する方法 | |
JP3919314B2 (ja) | 話者認識装置及びその方法 | |
JP3171107B2 (ja) | 音声認識装置 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JPH10274993A (ja) | 音声認識装置および音声認識方法 | |
EP0987681B1 (en) | Speech recognition method and apparatus | |
JP3818063B2 (ja) | 個人認証装置 | |
JP2001265387A (ja) | 話者照合装置及び方法 | |
JP4622106B2 (ja) | 人物特定システム | |
US20240211570A1 (en) | Identity authentication device | |
JPH0997095A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060811 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070213 |
|
LAPS | Cancellation because of no payment of annual fees |