JPH0381160B2 - - Google Patents
Info
- Publication number
- JPH0381160B2 JPH0381160B2 JP57165879A JP16587982A JPH0381160B2 JP H0381160 B2 JPH0381160 B2 JP H0381160B2 JP 57165879 A JP57165879 A JP 57165879A JP 16587982 A JP16587982 A JP 16587982A JP H0381160 B2 JPH0381160 B2 JP H0381160B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- recognition
- text
- voice
- registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Description
【発明の詳細な説明】
<技術分野>
本発明は入力される音声により話者の認識及び
照合を行う話者認識方法に関する。
照合を行う話者認識方法に関する。
<従来例>
話者認識は、話者識別と話者照合との二つの形
態に分けることができる。ここで話者識別とは、
未知の話者による音声において、きめられた特定
の話者のうち、いずれの話者によるものであるか
を判別することであり、話者照合とは同じく未知
の話者による音声に関して特定された話者による
ものであるか否かを判別することである。上記話
者の識別及び照合による話者認識においては、登
録時と認識時での発話内容が同一である場合にテ
キスト(発話内容)を固定した話者認識と称し、
また登録時と認識時での発話内容が同一でない場
合にテキストに依存しない話者認識と称してい
る。
態に分けることができる。ここで話者識別とは、
未知の話者による音声において、きめられた特定
の話者のうち、いずれの話者によるものであるか
を判別することであり、話者照合とは同じく未知
の話者による音声に関して特定された話者による
ものであるか否かを判別することである。上記話
者の識別及び照合による話者認識においては、登
録時と認識時での発話内容が同一である場合にテ
キスト(発話内容)を固定した話者認識と称し、
また登録時と認識時での発話内容が同一でない場
合にテキストに依存しない話者認識と称してい
る。
テキストを固定した話者認識によれば、認識時
に登録時と同一内容の発話を行うため、認識は比
較的に容易である。しかし、登録時に発話内容を
他人に聞かれたり、また隠しマイクで盗み取りさ
れる危険性があり好ましくない。
に登録時と同一内容の発話を行うため、認識は比
較的に容易である。しかし、登録時に発話内容を
他人に聞かれたり、また隠しマイクで盗み取りさ
れる危険性があり好ましくない。
これに対しテキストに依存しない話者認識は一
般に認識が非常に困難となる。しかも、登録時や
認識時に数十秒〜数分間発話する必要があるので
ユーザへの負担がかなり大きくなつていた。
般に認識が非常に困難となる。しかも、登録時や
認識時に数十秒〜数分間発話する必要があるので
ユーザへの負担がかなり大きくなつていた。
<発明の目的>
本発明はテキストに依存しない話者認識の方式
を提供するものであり、且つ話者認識装置とユー
ザとが対話することにより、登録及び認識を行う
話者認識方法を提供するものである。
を提供するものであり、且つ話者認識装置とユー
ザとが対話することにより、登録及び認識を行う
話者認識方法を提供するものである。
<実施例>
第1図は本発明による話者認識装置の回路構成
を示すブロツク図である。図において符号1は例
えば話者の登録を行うためのモードに装置(シス
テム)を設定するスイツチ、2は認識モードに設
定するためのスイツチである。このスイツチ1又
は2からの信号n又はpを入力し制御部3は、話
者認識装置(以下システムと記す)を登録モード
又は認識モードに設定する。この制御部3は、シ
ステムを構成する各部を制御するものである。こ
こで、この認識装置をドアの開閉に適用させる場
合、スイツチ1はドアの内側に且つスイツチ2は
ドアの外側に取り付けられる。
を示すブロツク図である。図において符号1は例
えば話者の登録を行うためのモードに装置(シス
テム)を設定するスイツチ、2は認識モードに設
定するためのスイツチである。このスイツチ1又
は2からの信号n又はpを入力し制御部3は、話
者認識装置(以下システムと記す)を登録モード
又は認識モードに設定する。この制御部3は、シ
ステムを構成する各部を制御するものである。こ
こで、この認識装置をドアの開閉に適用させる場
合、スイツチ1はドアの内側に且つスイツチ2は
ドアの外側に取り付けられる。
また図中4は話者の音声入力を行うマイク、5
は音声入力された信号aを音声分析する音声分析
部、6は音節等を切り出すセグメンテーシヨン
部、7は母音認識部、8は話者認識部、9は単語
認識部、及び10は登録話者の母音データを記憶
する記憶部、更に11は音声合成部、12はスピ
ーカである。
は音声入力された信号aを音声分析する音声分析
部、6は音節等を切り出すセグメンテーシヨン
部、7は母音認識部、8は話者認識部、9は単語
認識部、及び10は登録話者の母音データを記憶
する記憶部、更に11は音声合成部、12はスピ
ーカである。
本実施例では説明の都合で母音のみによる認識
について記載するが、これに限定されるものでな
いことは勿論である。
について記載するが、これに限定されるものでな
いことは勿論である。
上述の構成においてまず話者の登録について説
明する。ユーザが登録を行う場合、まずスイツチ
1を操作すれば制御部3はシステム自体を登録モ
ードに設定し各部を登録モードで制御する。そこ
でユーザはユーザ番号をマイク4を通して音声入
力する。この音声入力されたユーザ番号(a)は、音
声分析部5を介して単語認識部9に送られ、該単
語認識部9にて番号認識される。該認識された番
号(c)は、次の記憶部10へのデータの登録領域を
決めるために用いられる。つまり、上記入力され
た番号(c)にて記憶部10のアドレス指定を行う。
この様に音声入力により記憶部10のユーザに対
する登録領域を決めているが登録時のみキー入力
にて行つてもよい。
明する。ユーザが登録を行う場合、まずスイツチ
1を操作すれば制御部3はシステム自体を登録モ
ードに設定し各部を登録モードで制御する。そこ
でユーザはユーザ番号をマイク4を通して音声入
力する。この音声入力されたユーザ番号(a)は、音
声分析部5を介して単語認識部9に送られ、該単
語認識部9にて番号認識される。該認識された番
号(c)は、次の記憶部10へのデータの登録領域を
決めるために用いられる。つまり、上記入力され
た番号(c)にて記憶部10のアドレス指定を行う。
この様に音声入力により記憶部10のユーザに対
する登録領域を決めているが登録時のみキー入力
にて行つてもよい。
上記ユーザ番号による番号認識が終了すれば制
御部3は、音声合成部11へ母音連鎖、例えば
「いえあおう」、「あいうえお」、「うおあえい」…
等のテキスト(j)を作製し、このテキストをユーザ
に音声入力するよう音声合成部11へ送る。そこ
で音声合成部11は制御部3より指示された母音
連鎖の合成音(k)を作製し、スピーカ12を通して
ユーザに促す。ユーザは、スピーカ12を通して
聞いた母音連鎖をユーザ番号同様音声入力する。
この母音連鎖(テキスト)の音声信号は、音声分
析部5を介して信号dとしてセグメンテーシヨン
部6へ送られる。該セグメンテーシヨン部6は、
音声区間を音節に切り出すべく定常部とわたり部
とに分割し、これを(e)母音認識部7で認識させ
る。母音認識部7は予め発話内容がシステム側で
わかつており、制御部3より音声入力された内容
lを取り込み認識を行う。この場合、認識率は
100%に近い。この母音認識後、先ほど入力され
たユーザ番号に対応した記憶部10の登録領域
へ、母音毎に定常部のスペクトルと、母音連鎖毎
にわたり部のスペクトルとを(f)ストアする。以上
で登録が終了したことになる。
御部3は、音声合成部11へ母音連鎖、例えば
「いえあおう」、「あいうえお」、「うおあえい」…
等のテキスト(j)を作製し、このテキストをユーザ
に音声入力するよう音声合成部11へ送る。そこ
で音声合成部11は制御部3より指示された母音
連鎖の合成音(k)を作製し、スピーカ12を通して
ユーザに促す。ユーザは、スピーカ12を通して
聞いた母音連鎖をユーザ番号同様音声入力する。
この母音連鎖(テキスト)の音声信号は、音声分
析部5を介して信号dとしてセグメンテーシヨン
部6へ送られる。該セグメンテーシヨン部6は、
音声区間を音節に切り出すべく定常部とわたり部
とに分割し、これを(e)母音認識部7で認識させ
る。母音認識部7は予め発話内容がシステム側で
わかつており、制御部3より音声入力された内容
lを取り込み認識を行う。この場合、認識率は
100%に近い。この母音認識後、先ほど入力され
たユーザ番号に対応した記憶部10の登録領域
へ、母音毎に定常部のスペクトルと、母音連鎖毎
にわたり部のスペクトルとを(f)ストアする。以上
で登録が終了したことになる。
次に認識する場合について説明する。この場
合、ユーザがスイツチ2を操作することで制御部
3はシステム自体を認識モードに設定する。この
設定後にユーザはユーザ番号を登録時と同様に音
声入力する。この音声入力に従つて、ユーザ番号
が認識され、この番号に対応した記憶部10の登
録領域より母音のデータが読み出され(o)制御
部3に送られる。制御部3はそのユーザの母音の
うちで最も安定して発話される母音(母音のスペ
クトルの話者内分散が小)または他の話者とは異
なつている母音(話者間分散が大)を選択し、こ
れらを多く用いた母音連鎖、例えば「い」であれ
ば「ういあいお」の様に「い」の多い話者特有の
任意のテキストを作成して音声合成部11に送り
(j)、ユーザに上記テキストを発声するように支持
する(k)。つまり、認識のために音声入力するため
に登録時とは、全く異なるテキストを作成し、こ
れを発話者に報知して、そのテキストによる音声
入力を促すことになる。ここで、最も安定して発
話される母音を選択しとは、特定の話者の登録さ
れたものの中から、母音のスペクトルの分散状態
が小さいものを選択する場合である。また、他の
話者とは大きく異なる母音を選択しとは、特定の
話者と他の話者間での分散が大きいものを選択す
る場合である。例えば、このようにして選択され
た母音をテキストとして、発話者に知らせてい
る。
合、ユーザがスイツチ2を操作することで制御部
3はシステム自体を認識モードに設定する。この
設定後にユーザはユーザ番号を登録時と同様に音
声入力する。この音声入力に従つて、ユーザ番号
が認識され、この番号に対応した記憶部10の登
録領域より母音のデータが読み出され(o)制御
部3に送られる。制御部3はそのユーザの母音の
うちで最も安定して発話される母音(母音のスペ
クトルの話者内分散が小)または他の話者とは異
なつている母音(話者間分散が大)を選択し、こ
れらを多く用いた母音連鎖、例えば「い」であれ
ば「ういあいお」の様に「い」の多い話者特有の
任意のテキストを作成して音声合成部11に送り
(j)、ユーザに上記テキストを発声するように支持
する(k)。つまり、認識のために音声入力するため
に登録時とは、全く異なるテキストを作成し、こ
れを発話者に報知して、そのテキストによる音声
入力を促すことになる。ここで、最も安定して発
話される母音を選択しとは、特定の話者の登録さ
れたものの中から、母音のスペクトルの分散状態
が小さいものを選択する場合である。また、他の
話者とは大きく異なる母音を選択しとは、特定の
話者と他の話者間での分散が大きいものを選択す
る場合である。例えば、このようにして選択され
た母音をテキストとして、発話者に知らせてい
る。
システムからの指示に従つてユーザは音声入力
を行う。入力した音声は(a,d)、セグメンテ
ーシヨン部6で、登録時と同様に定常部とわたり
部(e)とに分割される。そして、母音認識部7で認
識した後(この場合も発話内容が既知なので(l)、
認識率は100%に近い)、母音毎に定常部のスペク
トルと母音連鎖毎にわたり部のスペクトルとを話
者認識部8へ出力する(g)。話者認識部8はユーザ
番号に対応した記憶部10の登録領域から読み出
された母音のデータhと、話者認識部8からの入
力gの母音データとの母音毎に定常部のスペクト
ル間の距離と母音連鎖毎にわたり部のスペクトル
間の距離を求め、データhとgとの比較を行い、
これらの重み付き和が閾値θ1(0<θ1<θ2)未満
ならば「本人である」と同定する。また閾値θ2以
上ならば「他人である」として認識結果を出力
し、その処理が実行される。更にθ1以上で且つθ2
未満ならば制御部3へデータ不足であることを示
す信号iを出力する。この信号iを入力すれば制
御部3は、また別のテキスト(母音連鎖)を作製
して、該テキストを音声入力することをユーザに
要求する。該テキストの音声入力を行つても信号
iが話者認識部8より出力されれば、再度別のテ
キストが作製され、上述動作が繰り返される。こ
の繰り返しがN回行れても信号iが出力されるよ
うであれば、「他人である」との処理が実行され
る。
を行う。入力した音声は(a,d)、セグメンテ
ーシヨン部6で、登録時と同様に定常部とわたり
部(e)とに分割される。そして、母音認識部7で認
識した後(この場合も発話内容が既知なので(l)、
認識率は100%に近い)、母音毎に定常部のスペク
トルと母音連鎖毎にわたり部のスペクトルとを話
者認識部8へ出力する(g)。話者認識部8はユーザ
番号に対応した記憶部10の登録領域から読み出
された母音のデータhと、話者認識部8からの入
力gの母音データとの母音毎に定常部のスペクト
ル間の距離と母音連鎖毎にわたり部のスペクトル
間の距離を求め、データhとgとの比較を行い、
これらの重み付き和が閾値θ1(0<θ1<θ2)未満
ならば「本人である」と同定する。また閾値θ2以
上ならば「他人である」として認識結果を出力
し、その処理が実行される。更にθ1以上で且つθ2
未満ならば制御部3へデータ不足であることを示
す信号iを出力する。この信号iを入力すれば制
御部3は、また別のテキスト(母音連鎖)を作製
して、該テキストを音声入力することをユーザに
要求する。該テキストの音声入力を行つても信号
iが話者認識部8より出力されれば、再度別のテ
キストが作製され、上述動作が繰り返される。こ
の繰り返しがN回行れても信号iが出力されるよ
うであれば、「他人である」との処理が実行され
る。
以上説明した認識動作は第2図のフローチヤー
トに示す通りであり、話者はシステム側より発せ
られるテキストに従つて、音声入力を行つてお
り、システムとの対話形式で話者認識が実行され
る。
トに示す通りであり、話者はシステム側より発せ
られるテキストに従つて、音声入力を行つてお
り、システムとの対話形式で話者認識が実行され
る。
<発明の効果>
本発明によれば、登録時とは全く異なるテキス
ト、特に話者特有のテキストを作成し、それをユ
ーザに報知しており、この登録時とは全く異なる
テキストに基づく入力音声と、予め登録されたデ
ータとの比較により話者認識を行うため、認識率
等を高めると同時に、盗用に対する危険性を無く
すことができる。つまり、登録時と同様のテキス
トによる入力音声によれば、盗用される危険性が
大きくなるが、本発明によれば、これを防止でき
る効果が高まる。
ト、特に話者特有のテキストを作成し、それをユ
ーザに報知しており、この登録時とは全く異なる
テキストに基づく入力音声と、予め登録されたデ
ータとの比較により話者認識を行うため、認識率
等を高めると同時に、盗用に対する危険性を無く
すことができる。つまり、登録時と同様のテキス
トによる入力音声によれば、盗用される危険性が
大きくなるが、本発明によれば、これを防止でき
る効果が高まる。
第1図は本発明の話者認識装置における回路構
成の一具体例を示すブロツク図、第2図は本発明
の話者認識の動作説明に供するフローチヤートで
ある。 1,2:登録、認識モード設定用のスイツチ、
3:制御部、6:セグメンテーシヨン部、8:話
者認識部、10:記憶部、11:音声合成部、1
2:スピーカ。
成の一具体例を示すブロツク図、第2図は本発明
の話者認識の動作説明に供するフローチヤートで
ある。 1,2:登録、認識モード設定用のスイツチ、
3:制御部、6:セグメンテーシヨン部、8:話
者認識部、10:記憶部、11:音声合成部、1
2:スピーカ。
Claims (1)
- 【特許請求の範囲】 1 予め登録されている話者の登録用データ中の
音節と、話者による入力音声より切り出した音節
との比較を行い話者認識を行うものにおいて、 登録モード時に話者認識を行うべく予め決めら
れたテキストにより話者に音声入力を行わせ、こ
の入力音声によつて話者認識のための登録用のデ
ータを作成し、 話者認識モード時に、登録データの中より該話
者の最も安定している音節あるいは他の話者とは
異なる音節を選択し、この音節を基に認識のため
の登録時のテキストとは異なる任意のテキストを
作成して発話するように話者に対して報知し、 上記登録時とは異なるテキストに基づいて発話
された音声を入力し、この音声より音節を切り出
し、上記登録データ中の音節との比較を行うこと
で話者の認識を行うことを特徴とする話者認識方
法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57165879A JPS5953900A (ja) | 1982-09-21 | 1982-09-21 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57165879A JPS5953900A (ja) | 1982-09-21 | 1982-09-21 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5953900A JPS5953900A (ja) | 1984-03-28 |
JPH0381160B2 true JPH0381160B2 (ja) | 1991-12-27 |
Family
ID=15820710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57165879A Granted JPS5953900A (ja) | 1982-09-21 | 1982-09-21 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5953900A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6135257A (ja) * | 1984-07-27 | 1986-02-19 | Matsushita Electric Ind Co Ltd | インクジエツト記録装置 |
JP5646675B2 (ja) * | 2013-03-19 | 2014-12-24 | ヤフー株式会社 | 情報処理装置及び方法 |
-
1982
- 1982-09-21 JP JP57165879A patent/JPS5953900A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS5953900A (ja) | 1984-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10600414B1 (en) | Voice control of remote device | |
AU2016216737B2 (en) | Voice Authentication and Speech Recognition System | |
US20160372116A1 (en) | Voice authentication and speech recognition system and method | |
US6477500B2 (en) | Text independent speaker recognition with simultaneous speech recognition for transparent command ambiguity resolution and continuous access control | |
US7062439B2 (en) | Speech synthesis apparatus and method | |
US7062440B2 (en) | Monitoring text to speech output to effect control of barge-in | |
JPS5944639B2 (ja) | 音声による異同認識方式における標準パタ−ン更新方法 | |
AU2013203139A1 (en) | Voice authentication and speech recognition system and method | |
JP2007133414A (ja) | 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
JP2004037721A (ja) | 音声応答システム、音声応答プログラム及びそのための記憶媒体 | |
CN110539721A (zh) | 一种车辆控制方法及其装置 | |
JP2010197644A (ja) | 音声認識システム | |
JP2021064110A (ja) | 音声認証装置、音声認証システム、および音声認証方法 | |
JP2000347684A (ja) | 音声認識システム | |
JPH0381160B2 (ja) | ||
Kockmann et al. | Contour modeling of prosodic and acoustic features for speaker recognition | |
CN113990288B (zh) | 一种语音客服自动生成部署语音合成模型的方法 | |
Gallardo | Human and automatic speaker recognition over telecommunication channels | |
JP2000148187A (ja) | 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体 | |
JPH06337700A (ja) | 音声合成装置 | |
GORAI et al. | A GAUSSIAN MIXTURE MODELBASED SPEAKER RECOGNITION SYSTEM | |
Dev et al. | An Empirical Study of Speaker Identification System for Mono and Traverse Linguistic Background Using EM and SMEM | |
JPH0635913A (ja) | 文章読み上げ装置 | |
KR20200114606A (ko) | 음성을 제공하는 방법 및 장치 |