JPH0381160B2

JPH0381160B2 -

Info

Publication number: JPH0381160B2
Application number: JP57165879A
Authority: JP
Inventors: Shin Kamya
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1982-09-21
Filing date: 1982-09-21
Publication date: 1991-12-27
Also published as: JPS5953900A

Description

【発明の詳細な説明】＜技術分野＞本発明は入力される音声により話者の認識及び
照合を行う話者認識方法に関する。

＜従来例＞話者認識は、話者識別と話者照合との二つの形
態に分けることができる。ここで話者識別とは、
未知の話者による音声において、きめられた特定
の話者のうち、いずれの話者によるものであるか
を判別することであり、話者照合とは同じく未知
の話者による音声に関して特定された話者による
ものであるか否かを判別することである。上記話
者の識別及び照合による話者認識においては、登
録時と認識時での発話内容が同一である場合にテ
キスト（発話内容）を固定した話者認識と称し、
また登録時と認識時での発話内容が同一でない場
合にテキストに依存しない話者認識と称してい
る。

テキストを固定した話者認識によれば、認識時
に登録時と同一内容の発話を行うため、認識は比
較的に容易である。しかし、登録時に発話内容を
他人に聞かれたり、また隠しマイクで盗み取りさ
れる危険性があり好ましくない。

これに対しテキストに依存しない話者認識は一
般に認識が非常に困難となる。しかも、登録時や
認識時に数十秒〜数分間発話する必要があるので
ユーザへの負担がかなり大きくなつていた。

＜発明の目的＞本発明はテキストに依存しない話者認識の方式
を提供するものであり、且つ話者認識装置とユー
ザとが対話することにより、登録及び認識を行う
話者認識方法を提供するものである。

＜実施例＞第１図は本発明による話者認識装置の回路構成
を示すブロツク図である。図において符号１は例
えば話者の登録を行うためのモードに装置（シス
テム）を設定するスイツチ、２は認識モードに設
定するためのスイツチである。このスイツチ１又
は２からの信号ｎ又はｐを入力し制御部３は、話
者認識装置（以下システムと記す）を登録モード
又は認識モードに設定する。この制御部３は、シ
ステムを構成する各部を制御するものである。こ
こで、この認識装置をドアの開閉に適用させる場
合、スイツチ１はドアの内側に且つスイツチ２は
ドアの外側に取り付けられる。

また図中４は話者の音声入力を行うマイク、５
は音声入力された信号ａを音声分析する音声分析
部、６は音節等を切り出すセグメンテーシヨン
部、７は母音認識部、８は話者認識部、９は単語
認識部、及び１０は登録話者の母音データを記憶
する記憶部、更に１１は音声合成部、１２はスピ
ーカである。

本実施例では説明の都合で母音のみによる認識
について記載するが、これに限定されるものでな
いことは勿論である。

上述の構成においてまず話者の登録について説
明する。ユーザが登録を行う場合、まずスイツチ
１を操作すれば制御部３はシステム自体を登録モ
ードに設定し各部を登録モードで制御する。そこ
でユーザはユーザ番号をマイク４を通して音声入
力する。この音声入力されたユーザ番号(a)は、音
声分析部５を介して単語認識部９に送られ、該単
語認識部９にて番号認識される。該認識された番
号(c)は、次の記憶部１０へのデータの登録領域を
決めるために用いられる。つまり、上記入力され
た番号(c)にて記憶部１０のアドレス指定を行う。
この様に音声入力により記憶部１０のユーザに対
する登録領域を決めているが登録時のみキー入力
にて行つてもよい。

上記ユーザ番号による番号認識が終了すれば制
御部３は、音声合成部１１へ母音連鎖、例えば
「いえあおう」、「あいうえお」、「うおあえい」…
等のテキスト(j)を作製し、このテキストをユーザ
に音声入力するよう音声合成部１１へ送る。そこ
で音声合成部１１は制御部３より指示された母音
連鎖の合成音(k)を作製し、スピーカ１２を通して
ユーザに促す。ユーザは、スピーカ１２を通して
聞いた母音連鎖をユーザ番号同様音声入力する。
この母音連鎖（テキスト）の音声信号は、音声分
析部５を介して信号ｄとしてセグメンテーシヨン
部６へ送られる。該セグメンテーシヨン部６は、
音声区間を音節に切り出すべく定常部とわたり部
とに分割し、これを(e)母音認識部７で認識させ
る。母音認識部７は予め発話内容がシステム側で
わかつており、制御部３より音声入力された内容
ｌを取り込み認識を行う。この場合、認識率は
100％に近い。この母音認識後、先ほど入力され
たユーザ番号に対応した記憶部１０の登録領域
へ、母音毎に定常部のスペクトルと、母音連鎖毎
にわたり部のスペクトルとを(f)ストアする。以上
で登録が終了したことになる。

次に認識する場合について説明する。この場
合、ユーザがスイツチ２を操作することで制御部
３はシステム自体を認識モードに設定する。この
設定後にユーザはユーザ番号を登録時と同様に音
声入力する。この音声入力に従つて、ユーザ番号
が認識され、この番号に対応した記憶部１０の登
録領域より母音のデータが読み出され（ｏ）制御
部３に送られる。制御部３はそのユーザの母音の
うちで最も安定して発話される母音（母音のスペ
クトルの話者内分散が小）または他の話者とは異
なつている母音（話者間分散が大）を選択し、こ
れらを多く用いた母音連鎖、例えば「い」であれ
ば「ういあいお」の様に「い」の多い話者特有の
任意のテキストを作成して音声合成部１１に送り
(j)、ユーザに上記テキストを発声するように支持
する(k)。つまり、認識のために音声入力するため
に登録時とは、全く異なるテキストを作成し、こ
れを発話者に報知して、そのテキストによる音声
入力を促すことになる。ここで、最も安定して発
話される母音を選択しとは、特定の話者の登録さ
れたものの中から、母音のスペクトルの分散状態
が小さいものを選択する場合である。また、他の
話者とは大きく異なる母音を選択しとは、特定の
話者と他の話者間での分散が大きいものを選択す
る場合である。例えば、このようにして選択され
た母音をテキストとして、発話者に知らせてい
る。

システムからの指示に従つてユーザは音声入力
を行う。入力した音声は（ａ，ｄ）、セグメンテ
ーシヨン部６で、登録時と同様に定常部とわたり
部(e)とに分割される。そして、母音認識部７で認
識した後（この場合も発話内容が既知なので(l)、
認識率は100％に近い）、母音毎に定常部のスペク
トルと母音連鎖毎にわたり部のスペクトルとを話
者認識部８へ出力する(g)。話者認識部８はユーザ
番号に対応した記憶部１０の登録領域から読み出
された母音のデータｈと、話者認識部８からの入
力ｇの母音データとの母音毎に定常部のスペクト
ル間の距離と母音連鎖毎にわたり部のスペクトル
間の距離を求め、データｈとｇとの比較を行い、
これらの重み付き和が閾値θ₁（０＜θ₁＜θ₂）未満
ならば「本人である」と同定する。また閾値θ₂以
上ならば「他人である」として認識結果を出力
し、その処理が実行される。更にθ₁以上で且つθ₂
未満ならば制御部３へデータ不足であることを示
す信号ｉを出力する。この信号ｉを入力すれば制
御部３は、また別のテキスト（母音連鎖）を作製
して、該テキストを音声入力することをユーザに
要求する。該テキストの音声入力を行つても信号
ｉが話者認識部８より出力されれば、再度別のテ
キストが作製され、上述動作が繰り返される。こ
の繰り返しがＮ回行れても信号ｉが出力されるよ
うであれば、「他人である」との処理が実行され
る。

以上説明した認識動作は第２図のフローチヤー
トに示す通りであり、話者はシステム側より発せ
られるテキストに従つて、音声入力を行つてお
り、システムとの対話形式で話者認識が実行され
る。

＜発明の効果＞本発明によれば、登録時とは全く異なるテキス
ト、特に話者特有のテキストを作成し、それをユ
ーザに報知しており、この登録時とは全く異なる
テキストに基づく入力音声と、予め登録されたデ
ータとの比較により話者認識を行うため、認識率
等を高めると同時に、盗用に対する危険性を無く
すことができる。つまり、登録時と同様のテキス
トによる入力音声によれば、盗用される危険性が
大きくなるが、本発明によれば、これを防止でき
る効果が高まる。

【図面の簡単な説明】

第１図は本発明の話者認識装置における回路構
成の一具体例を示すブロツク図、第２図は本発明
の話者認識の動作説明に供するフローチヤートで
ある。１，２：登録、認識モード設定用のスイツチ、
３：制御部、６：セグメンテーシヨン部、８：話
者認識部、１０：記憶部、１１：音声合成部、１
２：スピーカ。

Claims

【特許請求の範囲】１予め登録されている話者の登録用データ中の
音節と、話者による入力音声より切り出した音節
との比較を行い話者認識を行うものにおいて、登録モード時に話者認識を行うべく予め決めら
れたテキストにより話者に音声入力を行わせ、こ
の入力音声によつて話者認識のための登録用のデ
ータを作成し、話者認識モード時に、登録データの中より該話
者の最も安定している音節あるいは他の話者とは
異なる音節を選択し、この音節を基に認識のため
の登録時のテキストとは異なる任意のテキストを
作成して発話するように話者に対して報知し、上記登録時とは異なるテキストに基づいて発話
された音声を入力し、この音声より音節を切り出
し、上記登録データ中の音節との比較を行うこと
で話者の認識を行うことを特徴とする話者認識方
法。