JPH0381160B2 - - Google Patents

Info

Publication number
JPH0381160B2
JPH0381160B2 JP57165879A JP16587982A JPH0381160B2 JP H0381160 B2 JPH0381160 B2 JP H0381160B2 JP 57165879 A JP57165879 A JP 57165879A JP 16587982 A JP16587982 A JP 16587982A JP H0381160 B2 JPH0381160 B2 JP H0381160B2
Authority
JP
Japan
Prior art keywords
speaker
recognition
text
voice
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57165879A
Other languages
English (en)
Other versions
JPS5953900A (ja
Inventor
Shin Kamya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP57165879A priority Critical patent/JPS5953900A/ja
Publication of JPS5953900A publication Critical patent/JPS5953900A/ja
Publication of JPH0381160B2 publication Critical patent/JPH0381160B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 <技術分野> 本発明は入力される音声により話者の認識及び
照合を行う話者認識方法に関する。
<従来例> 話者認識は、話者識別と話者照合との二つの形
態に分けることができる。ここで話者識別とは、
未知の話者による音声において、きめられた特定
の話者のうち、いずれの話者によるものであるか
を判別することであり、話者照合とは同じく未知
の話者による音声に関して特定された話者による
ものであるか否かを判別することである。上記話
者の識別及び照合による話者認識においては、登
録時と認識時での発話内容が同一である場合にテ
キスト(発話内容)を固定した話者認識と称し、
また登録時と認識時での発話内容が同一でない場
合にテキストに依存しない話者認識と称してい
る。
テキストを固定した話者認識によれば、認識時
に登録時と同一内容の発話を行うため、認識は比
較的に容易である。しかし、登録時に発話内容を
他人に聞かれたり、また隠しマイクで盗み取りさ
れる危険性があり好ましくない。
これに対しテキストに依存しない話者認識は一
般に認識が非常に困難となる。しかも、登録時や
認識時に数十秒〜数分間発話する必要があるので
ユーザへの負担がかなり大きくなつていた。
<発明の目的> 本発明はテキストに依存しない話者認識の方式
を提供するものであり、且つ話者認識装置とユー
ザとが対話することにより、登録及び認識を行う
話者認識方法を提供するものである。
<実施例> 第1図は本発明による話者認識装置の回路構成
を示すブロツク図である。図において符号1は例
えば話者の登録を行うためのモードに装置(シス
テム)を設定するスイツチ、2は認識モードに設
定するためのスイツチである。このスイツチ1又
は2からの信号n又はpを入力し制御部3は、話
者認識装置(以下システムと記す)を登録モード
又は認識モードに設定する。この制御部3は、シ
ステムを構成する各部を制御するものである。こ
こで、この認識装置をドアの開閉に適用させる場
合、スイツチ1はドアの内側に且つスイツチ2は
ドアの外側に取り付けられる。
また図中4は話者の音声入力を行うマイク、5
は音声入力された信号aを音声分析する音声分析
部、6は音節等を切り出すセグメンテーシヨン
部、7は母音認識部、8は話者認識部、9は単語
認識部、及び10は登録話者の母音データを記憶
する記憶部、更に11は音声合成部、12はスピ
ーカである。
本実施例では説明の都合で母音のみによる認識
について記載するが、これに限定されるものでな
いことは勿論である。
上述の構成においてまず話者の登録について説
明する。ユーザが登録を行う場合、まずスイツチ
1を操作すれば制御部3はシステム自体を登録モ
ードに設定し各部を登録モードで制御する。そこ
でユーザはユーザ番号をマイク4を通して音声入
力する。この音声入力されたユーザ番号(a)は、音
声分析部5を介して単語認識部9に送られ、該単
語認識部9にて番号認識される。該認識された番
号(c)は、次の記憶部10へのデータの登録領域を
決めるために用いられる。つまり、上記入力され
た番号(c)にて記憶部10のアドレス指定を行う。
この様に音声入力により記憶部10のユーザに対
する登録領域を決めているが登録時のみキー入力
にて行つてもよい。
上記ユーザ番号による番号認識が終了すれば制
御部3は、音声合成部11へ母音連鎖、例えば
「いえあおう」、「あいうえお」、「うおあえい」…
等のテキスト(j)を作製し、このテキストをユーザ
に音声入力するよう音声合成部11へ送る。そこ
で音声合成部11は制御部3より指示された母音
連鎖の合成音(k)を作製し、スピーカ12を通して
ユーザに促す。ユーザは、スピーカ12を通して
聞いた母音連鎖をユーザ番号同様音声入力する。
この母音連鎖(テキスト)の音声信号は、音声分
析部5を介して信号dとしてセグメンテーシヨン
部6へ送られる。該セグメンテーシヨン部6は、
音声区間を音節に切り出すべく定常部とわたり部
とに分割し、これを(e)母音認識部7で認識させ
る。母音認識部7は予め発話内容がシステム側で
わかつており、制御部3より音声入力された内容
lを取り込み認識を行う。この場合、認識率は
100%に近い。この母音認識後、先ほど入力され
たユーザ番号に対応した記憶部10の登録領域
へ、母音毎に定常部のスペクトルと、母音連鎖毎
にわたり部のスペクトルとを(f)ストアする。以上
で登録が終了したことになる。
次に認識する場合について説明する。この場
合、ユーザがスイツチ2を操作することで制御部
3はシステム自体を認識モードに設定する。この
設定後にユーザはユーザ番号を登録時と同様に音
声入力する。この音声入力に従つて、ユーザ番号
が認識され、この番号に対応した記憶部10の登
録領域より母音のデータが読み出され(o)制御
部3に送られる。制御部3はそのユーザの母音の
うちで最も安定して発話される母音(母音のスペ
クトルの話者内分散が小)または他の話者とは異
なつている母音(話者間分散が大)を選択し、こ
れらを多く用いた母音連鎖、例えば「い」であれ
ば「ういあいお」の様に「い」の多い話者特有の
任意のテキストを作成して音声合成部11に送り
(j)、ユーザに上記テキストを発声するように支持
する(k)。つまり、認識のために音声入力するため
に登録時とは、全く異なるテキストを作成し、こ
れを発話者に報知して、そのテキストによる音声
入力を促すことになる。ここで、最も安定して発
話される母音を選択しとは、特定の話者の登録さ
れたものの中から、母音のスペクトルの分散状態
が小さいものを選択する場合である。また、他の
話者とは大きく異なる母音を選択しとは、特定の
話者と他の話者間での分散が大きいものを選択す
る場合である。例えば、このようにして選択され
た母音をテキストとして、発話者に知らせてい
る。
システムからの指示に従つてユーザは音声入力
を行う。入力した音声は(a,d)、セグメンテ
ーシヨン部6で、登録時と同様に定常部とわたり
部(e)とに分割される。そして、母音認識部7で認
識した後(この場合も発話内容が既知なので(l)、
認識率は100%に近い)、母音毎に定常部のスペク
トルと母音連鎖毎にわたり部のスペクトルとを話
者認識部8へ出力する(g)。話者認識部8はユーザ
番号に対応した記憶部10の登録領域から読み出
された母音のデータhと、話者認識部8からの入
力gの母音データとの母音毎に定常部のスペクト
ル間の距離と母音連鎖毎にわたり部のスペクトル
間の距離を求め、データhとgとの比較を行い、
これらの重み付き和が閾値θ1(0<θ1<θ2)未満
ならば「本人である」と同定する。また閾値θ2
上ならば「他人である」として認識結果を出力
し、その処理が実行される。更にθ1以上で且つθ2
未満ならば制御部3へデータ不足であることを示
す信号iを出力する。この信号iを入力すれば制
御部3は、また別のテキスト(母音連鎖)を作製
して、該テキストを音声入力することをユーザに
要求する。該テキストの音声入力を行つても信号
iが話者認識部8より出力されれば、再度別のテ
キストが作製され、上述動作が繰り返される。こ
の繰り返しがN回行れても信号iが出力されるよ
うであれば、「他人である」との処理が実行され
る。
以上説明した認識動作は第2図のフローチヤー
トに示す通りであり、話者はシステム側より発せ
られるテキストに従つて、音声入力を行つてお
り、システムとの対話形式で話者認識が実行され
る。
<発明の効果> 本発明によれば、登録時とは全く異なるテキス
ト、特に話者特有のテキストを作成し、それをユ
ーザに報知しており、この登録時とは全く異なる
テキストに基づく入力音声と、予め登録されたデ
ータとの比較により話者認識を行うため、認識率
等を高めると同時に、盗用に対する危険性を無く
すことができる。つまり、登録時と同様のテキス
トによる入力音声によれば、盗用される危険性が
大きくなるが、本発明によれば、これを防止でき
る効果が高まる。
【図面の簡単な説明】
第1図は本発明の話者認識装置における回路構
成の一具体例を示すブロツク図、第2図は本発明
の話者認識の動作説明に供するフローチヤートで
ある。 1,2:登録、認識モード設定用のスイツチ、
3:制御部、6:セグメンテーシヨン部、8:話
者認識部、10:記憶部、11:音声合成部、1
2:スピーカ。

Claims (1)

  1. 【特許請求の範囲】 1 予め登録されている話者の登録用データ中の
    音節と、話者による入力音声より切り出した音節
    との比較を行い話者認識を行うものにおいて、 登録モード時に話者認識を行うべく予め決めら
    れたテキストにより話者に音声入力を行わせ、こ
    の入力音声によつて話者認識のための登録用のデ
    ータを作成し、 話者認識モード時に、登録データの中より該話
    者の最も安定している音節あるいは他の話者とは
    異なる音節を選択し、この音節を基に認識のため
    の登録時のテキストとは異なる任意のテキストを
    作成して発話するように話者に対して報知し、 上記登録時とは異なるテキストに基づいて発話
    された音声を入力し、この音声より音節を切り出
    し、上記登録データ中の音節との比較を行うこと
    で話者の認識を行うことを特徴とする話者認識方
    法。
JP57165879A 1982-09-21 1982-09-21 音声認識方法 Granted JPS5953900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57165879A JPS5953900A (ja) 1982-09-21 1982-09-21 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57165879A JPS5953900A (ja) 1982-09-21 1982-09-21 音声認識方法

Publications (2)

Publication Number Publication Date
JPS5953900A JPS5953900A (ja) 1984-03-28
JPH0381160B2 true JPH0381160B2 (ja) 1991-12-27

Family

ID=15820710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57165879A Granted JPS5953900A (ja) 1982-09-21 1982-09-21 音声認識方法

Country Status (1)

Country Link
JP (1) JPS5953900A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6135257A (ja) * 1984-07-27 1986-02-19 Matsushita Electric Ind Co Ltd インクジエツト記録装置
JP5646675B2 (ja) * 2013-03-19 2014-12-24 ヤフー株式会社 情報処理装置及び方法

Also Published As

Publication number Publication date
JPS5953900A (ja) 1984-03-28

Similar Documents

Publication Publication Date Title
US10600414B1 (en) Voice control of remote device
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
US20160372116A1 (en) Voice authentication and speech recognition system and method
US6477500B2 (en) Text independent speaker recognition with simultaneous speech recognition for transparent command ambiguity resolution and continuous access control
US7062439B2 (en) Speech synthesis apparatus and method
US7062440B2 (en) Monitoring text to speech output to effect control of barge-in
JPS5944639B2 (ja) 音声による異同認識方式における標準パタ−ン更新方法
AU2013203139A1 (en) Voice authentication and speech recognition system and method
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
JP2004037721A (ja) 音声応答システム、音声応答プログラム及びそのための記憶媒体
CN110539721A (zh) 一种车辆控制方法及其装置
JP2010197644A (ja) 音声認識システム
JP2021064110A (ja) 音声認証装置、音声認証システム、および音声認証方法
JP2000347684A (ja) 音声認識システム
JPH0381160B2 (ja)
Kockmann et al. Contour modeling of prosodic and acoustic features for speaker recognition
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
Gallardo Human and automatic speaker recognition over telecommunication channels
JP2000148187A (ja) 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体
JPH06337700A (ja) 音声合成装置
GORAI et al. A GAUSSIAN MIXTURE MODELBASED SPEAKER RECOGNITION SYSTEM
Dev et al. An Empirical Study of Speaker Identification System for Mono and Traverse Linguistic Background Using EM and SMEM
JPH0635913A (ja) 文章読み上げ装置
KR20200114606A (ko) 음성을 제공하는 방법 및 장치