JPH0316038B2 - - Google Patents

Info

Publication number
JPH0316038B2
JPH0316038B2 JP58223572A JP22357283A JPH0316038B2 JP H0316038 B2 JPH0316038 B2 JP H0316038B2 JP 58223572 A JP58223572 A JP 58223572A JP 22357283 A JP22357283 A JP 22357283A JP H0316038 B2 JPH0316038 B2 JP H0316038B2
Authority
JP
Japan
Prior art keywords
recognition
speech
speaker
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58223572A
Other languages
English (en)
Other versions
JPS60115996A (ja
Inventor
Yoichi Takebayashi
Hidenori Shinoda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP58223572A priority Critical patent/JPS60115996A/ja
Publication of JPS60115996A publication Critical patent/JPS60115996A/ja
Publication of JPH0316038B2 publication Critical patent/JPH0316038B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は単語、文節、文書として入力される音
声を信頼性良く、且つ高精度に認識することので
きる音声認識装置に関する。
〔発明の技術的背景とその問題点〕
近時、情報処理システムにおける情報入力手段
として音声入力が注目され、種々の音声認識装置
が提唱されている。この種の装置は一般に特定話
者を対象とするものと、不特定話者を対象とする
ものに大別されるが、特殊なものとして話者認識
(照合)を行うものもある。
しかして、特定話者用の音声認識装置は、入力
音声を単語単位でバターンマツチングすることに
よつて数百語程度の単語を認識可能な単語音声認
識装置として実用化されている。これに対して不
特定話者用の音声認識装置は、話者個有の音声信
号の変形等等が認識処理の妨げとなり、数十語程
度の単語しか認識できないので実情である。けれ
ども、この数十程度の単語認識能力を活かして、
電話を介して銀行預金の残高照合等を行う電話音
声認識装置として、その一部で実用化されてい
る。
また前記話者認識(照合)は、個人照合の一手
段として研究されており、前記銀行預金の残高照
合を行う際のプライバシー保護、誤認識に起因す
る危険防止の観点から、そのニーズが高まつてき
ている。
ところが、この種の従来の音声認識装置にあつ
ては、次のような問題が残されている。即ち、入
力音声を効率よく、且つ精度良く認識する為に
は、上記入力音声中の音声区間を高精度に検出す
ることが必要である。然し乍ら、音声入力の環境
には騒音(雑音)の問題が存在している。そこで
従来では、専ら接話型マイクンホンを用いて音声
入力を行うようにしているが、音声入力環境に大
きな制約を受ける等の不具合があつた。また音声
入力中に、その周囲から他人の声が混入すると、
これによつて誤動作が生じると云う不具合があつ
た。更には、認識対象とする語彙数を拡大し、ま
た連続音声入力を行わせると、その認識率が大幅
に低下すると云う問題が生じた。
〔発明の目的〕
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、入力音声を簡易
に且つ効率良く、しかも精度良く認識することの
できる音声認識装置を提供することにある。
〔発明の概要〕
本発明は入力音声を分析し、その分析結果と予
め辞書登録された認識辞書とを照合して上記入力
音声を認識するに際し、上記分析結果を用いて話
者照合を行い、この話者照合結果を上記入力音声
の認識処理に利用するようにしたものであ。
即ち、入力音声の分析結果を用いて話者照合を
行い、この話者照合結果に従つて、例えば入力音
声の各音素に対する話者認識用辞書との距離の時
系列に従つて前記入力音声の音声区間を検出す
る。そしてこの検出された音声区間の前記分析結
果から前記入力音声の特徴ベクトルを求め、この
特徴ベクトルと予め辞書登録された認識辞書と照
合して前記入力音声を認識するようにしたことを
特徴とするものである。
〔発明の効果〕
かくして本発明によれば、上述したように話者
認識結果を利用して認識対象とする音声に対して
のみ認識処理を行うので、雑音等に左右されるこ
とのない信頼性の高い認識結果を得ることが可能
となり、その認識率の向上を図り得る。しかも、
処理対象とする音声をセレクトできるので、その
認識に要する演算量を削減することが可能とな
る。また音声の入力環境に制約を受けない等の実
用上多大なる効果がせられる。
〔発明の実施例〕
以下、図面を参照して本発明の実施例につき説
明する。
第1図a〜dは話者照合技術を併用して音声認
識処理を実行する音声認識装置の基本的な構成例
を示すもので、1は話者認識部、2は音声認識部
である。この装置は上記話者認識部1における話
者認識結果を、上記音声認識部1における入力音
声の認識処理に利用し、例えば騒音(雑音)中の
音声を抽出したり、処理対象外の他人の音声をリ
ジエクトした上でその音声認識結果を求めるよう
にしたものである。
しかして、基本的には第1図a,bにそれぞれ
示すように話者認識部1と音声認識部2とを継続
に接続して装置が構成され、或いは第1図cに示
すように上記話者認識部1と音声認識部2とを並
列的に設け、これらの各認識結果を総合判定部3
に入力して、最終的な音声認識結果を求める如く
構成される。また第1図dに示すものは、並列的
に設けられた話者認識部1と音声認識部2との間
で、その認識処理で求められる情報を交換し乍
ら、入力音声中の音声区間を検出したり、更には
他人の声をリジエクトしたりした上で、該入力音
声の認識結果を求めるように装置を構成したもの
である。
本発明に係る音声認識装置は、基本的には第1
図aに示すように入力音声を話者照合し、その話
者照合結果を利用して入力音声を認識処理すると
云う構成を採用して実現される。具体的には話者
認識結果に従つて入力音声中の音声区間を検出
し、換言すれば騒音(雑音)と共に入力される音
声中の認識対象とする音声の入力区間のみを検出
し、その区間の音声についてのみ音声認識処理を
行うことによつて達成される。
ちなみに装置が第1図bの如く構成されるとき
には、音声認識部2で求められた音声認識結果
が、話者認識部1における処理において認識対象
とする話者のものであるか否かを判定して、換言
すれば認識対象外の他人の音声である場合には、
これをリジエクトする等として話者認識結果が利
用される。
そして、第1図c,dに示される構成の装置に
あつては、上記音声区間の検出および他人の音声
に対する認識結果のリジエクトが総合的に行われ
ることになる。特に第1図dに示す構成にあつて
は、例えば音声区間を検出し、更には他人の音声
をリジエクトした上で、認識対象とする音声に対
してのみ、その音声認識処理が行われることにな
る。
上述したように話者照合技術を併用して音声認
識処理を実行するように構成される音声認識装置
によれば、例えば、話者認識結果を利用して、入
力音声の音声区間を検出し、これによつて雑音や
騒音等の信号を認識処理対象から除外した上で、
その音声認識を効率良く行うことができる。また
話者認識結果を利用して認識対象とする話者以外
の音声を除去することが可能であり、更には認識
処理によつて求められた認識結果が認識対象とす
る話者以外のものであるときには、これをリジエ
クトすることが可能となる。従つて、不本意な音
声入力によつて装置が動作して誤つた認識結果が
得られたり、またその認識処理の誤動作を招くこ
とがなくなる。更には、認識処理に要する総合的
な演算処理量が大幅に削減され、その処理効率の
向上を図ることが可能となる。特に第1図aまた
はdに示すような構成を採用し、話者認識部1に
よる話者認識結果を利用して音声区間検出を行う
ことにより、音声の入力環境に対する制約を大幅
に緩和することができ、音声認識装置の利用範囲
拡大を図ることが可能となる等の絶大なる効果が
奏せられる。
次に本発明装置の具体的な構成例につき説明す
る。
第2図はその一例を示すもので、音声は入力部
11を介して入力される。この入力部11は、マ
イクロホンと増幅器とからなるもので、その入力
音声は電気信号に変換されて分析部12に与えら
れる。この分析部12は、上記音声信号を遮断周
波数5.6kHzの低域通過フイルタを介したのち、
12kHzのサンプリング周波数で12ビツトのデイジ
タル信号にA/D変換してデイジタル音声信号波
形を求め、しかるのちこれを4次のチエビシエフ
巡回型デイジタルフイルタからなる16チヤンネル
のデイジタルフイルタを介して分析し、平滑化処
理したのち10msec毎に出力するものである。そ
して、この分析部12で求められた前記入力音声
信号の分析結果(特徴ベクトル)は、話者照合用
特徴ベクトルメモリ13に格納されると共に、音
声区間検出部14に与えられる。この特徴ベクト
ルメモリ13に格納されたデータ(特徴ベクト
ル)は、話者照合部15に与えられ、辞書メモリ
16に予め登録された話者照合用の辞書との間で
照合処理され、話者認識される。尚、この話者照
合用の辞書は、予め学習用データを用いて作成さ
れた音素等の情報からなる。そして、前記話者照
合処理は、話者認識用特徴ベクトルと、話者認識
用辞書との間で、複合類似度計算を行つたり、線
形識別関数やマハラノビス距離の計算を行う等し
て行われる。
しかして前記音声区間検出部14は、前記音声
信号のパワーから、その音声の始端および終端を
検出すると共に、前記話者照合部15における話
者照合結果を入力して、その音声区間を検出して
いる。即ち、音声区間検出部14は、話者照合部
15が求めた入力音声の各音素に対する辞書との
距離の時系列と、この時系列によつて求められた
話者照合結果、例えば拒否、受理に関する情報等
を用い、更には前記分析部12から得られる音声
パワーの時系列とを用いて、予め作成されている
閾値を参照する等して、利用者が発声した音声区
間の検出を行つている。
音声特徴ベクトルメモリ17は、このようにし
て検出された音声区間の特徴ベクトルの時系列を
格納するものであり、このメモリ17に格納され
た特徴ベクトルは、音声認識部18に与えられ
て、辞書メモリ19に予め登録された音声認識用
辞書と照合され、その音声認識が行われる。
尚、このような認識処理を行う場合、入力音声
の特徴ベクトルとして、例えば5フレームに亘る
フイルタ出力、つまり80次元の時間・周波数スペ
クトルを用いるようにすればよい。そして、話者
照合用の辞書としては、利用者が予め個々に発声
データから母音、鼻音、子音部分をそれぞれ5フ
レーム分切出して作成した各音素のデータを用い
るようにすれば良い。
かくしてこのように構成された装置によれば、
話者照合用の結果を音声区間検出に利用している
ので、例えば他人が発声した音声や、雑音等、認
識処理に不要な情報を効果的に拒否することがで
きる。これ故、音声の始端および終端の検出精度
(音声区間の検出精度)が飛躍的に向上し、従来
問題となつていた音声の付加・脱落による誤認識
の大幅な減少を図ることが可能となる。つまり、
他人の音声、雑音、呼気音等をリジエクトした上
で、その音声区間を精度良く検出し、しかるのち
その音声区間の音声に対する認識処理を行うこと
が可能となる。従つて、音声認識部18の負担を
大幅に軽減でき、更にはその認識率の向上を図る
ことが可能となる。また認識対象とする話者から
の音声のみに対して、認識処理が実行されるの
で、処理効率が高い等の効果が奏せられる。
尚、話者照合法や音声認識法は、従来より知ら
れた他の方法を適宜用いることができることは云
うまでもない。
ところで、第3図に示す構成の装置は、前記第
1図cに示す構成に対応したものであり、総合判
定部20によつて最終的な認識結果を得るように
したものである。このように話者照合と音声認識
とを並列的に行うように装置を構成する場合、前
述した音声区間検出を行う場合に比して、その効
果を十分に発揮させる為には、例えば話者照合を
より詳細に行うことが必要となる。従つて例え
ば、従来より多くの話者認識システムで用いられ
ているような、スペクトルの長時間平均やピツチ
情報、更には平均振幅等を利用して、更に詳細な
話者認識を行うようにすることが必要となる。従
つてその処理手続きが複雑化することが否めな
い。
しかし、この第3図に示す如く構成された装置
において、話者認識処理により求められた話者認
識結果と、音声認識処理により求められた音声認
識結果を用いて、総合判定部20が他人の声や雑
音に対する誤つた認識結果(不本意な認識結果)
をリジエクトするので、装置の誤動作が未然に防
がれることになる。従つて、騒音環境下にあつて
接話型マイクロホンを用いることなく音声入力す
ることが可能となり、また周囲から混入した音声
を効果的にリジエクトして音声認識を行うことが
可能となる。また、この場合には、総合判定部2
0において認識音声の受理、拒否を決定するの
で、その仕様に応じて受理レベルを可変とするよ
うにすることも極めて有効である。
また第4図に示す構成の装置は、音声認識にお
ける認識結果を話者認識に利用し、更にこの話者
認識結果を総合判定部20における最終的な音声
認識処理に利用するようにしたものである。
即ち、入力音声を認識してなる単語等の情報
を、話者照合における知識として利用し、その情
報を利用して話者照合用の特徴ベクトルの切出し
を行う。つまり、話者照合に用いる音素や特徴量
を音声認識結果を利用して決定し、しかるのち話
者照合を行うにする。このようにすれば、話者照
合を高精度に、且つ簡易に行うことが可能とな
り、しかるのちこの話者照合結果を用いて音声認
識結果に対する受理・拒否を制御することが可能
となるので、先の実施例にも増して、精度の高い
認識処理を行うことが可能となる。
このように本発明によれば、話者認識結果を有
効に利用して入力音声の認識処理を行うので、簡
易にして精度の高い音声認識を行うことが可能と
なり、その実用的利点は極めて絶大である。
尚、本発明は上記各実施例に限定されるもので
はない。例えば音声認識の手法および話者認識の
手法は、従来より知られた種々の手法を装置に要
求される仕様に応じて適宜用いることができる。
また本発明における技術思想を、文字認識とその
筆者認識にそのまま適用することができる。ま
た、この認識処理に用いられる特徴ベクトルにつ
いても、その仕様に応じたものであれば良いこと
は云うまでもない。以上要するに本発明はその要
旨を逸脱しない範囲で種々変形して実施すること
ができる。
【図面の簡単な説明】
第1図a〜dは話者照合技術を併用して音声認
識処理を実行する音声認識装置の基本的な構成例
を示す図、第2図は本発明の一実施例装置の概略
構成図、第3図は音声認識処理と話者照合処理と
を並列的に実行する装置の構成例を示す図、第4
図は話者照合結果を音声区間検出に用いるように
した本発明の別の実施例を示す図である。 1……話者認識部、2……音声認識部、3……
総合判定部、11……入力部、12……分析部、
13……話者照合特徴ベクトルメモリ、14……
音声区間検出部、15……話者照合部、16……
話者照合用辞書メモリ、17……音声特徴ベクト
ルメモリ、18……音声認識部、19……音声認
識用辞書メモリ、20……総合判定部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を分析する手段と、この分析結果を
    用いて話者照合を行う手段と、この話者照合結果
    に従つて前記入力音声の音声区間を検出する手段
    と、検出された音声区間の前記分析結果から前記
    入力音声の特徴ベクトルを求め、この特徴ベクト
    ルと予め辞書登録された認識辞書と照合して前記
    入力音声を認識する手段とを具備したことを特徴
    とする音声認識装置。 2 入力音声区間の検出は、話者照合によつて求
    められる入力音声の各音素に対する話者認識用辞
    書との距離の時系列に従つて入力音声の始端と終
    端を検出して行われることを特徴とする特許請求
    の範囲第1項に記載の音声認識装置。
JP58223572A 1983-11-28 1983-11-28 音声認識装置 Granted JPS60115996A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58223572A JPS60115996A (ja) 1983-11-28 1983-11-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58223572A JPS60115996A (ja) 1983-11-28 1983-11-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPS60115996A JPS60115996A (ja) 1985-06-22
JPH0316038B2 true JPH0316038B2 (ja) 1991-03-04

Family

ID=16800260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58223572A Granted JPS60115996A (ja) 1983-11-28 1983-11-28 音声認識装置

Country Status (1)

Country Link
JP (1) JPS60115996A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2712691B2 (ja) * 1990-01-18 1998-02-16 松下電器産業株式会社 信号処理装置
JPH1124694A (ja) * 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722120A (en) * 1970-07-17 1982-02-05 Gen Electric Manufacture of uranium dioxide powder
JPS58190996A (ja) * 1982-04-30 1983-11-08 トヨタ自動車株式会社 車両用音声認識方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722120A (en) * 1970-07-17 1982-02-05 Gen Electric Manufacture of uranium dioxide powder
JPS58190996A (ja) * 1982-04-30 1983-11-08 トヨタ自動車株式会社 車両用音声認識方式

Also Published As

Publication number Publication date
JPS60115996A (ja) 1985-06-22

Similar Documents

Publication Publication Date Title
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
JPH0352640B2 (ja)
JP2996019B2 (ja) 音声認識装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JP2745562B2 (ja) ノイズ適応形音声認識装置
JPH0316038B2 (ja)
Phyu et al. Building Speaker Identification Dataset for Noisy Conditions
JPH04324499A (ja) 音声認識装置
JP2813209B2 (ja) 大語彙音声認識装置
Mishra et al. Automatic speech recognition using template model for man-machine interface
Aliyu et al. Development of a text-dependent speaker recognition system
JPS61180297A (ja) 話者照合装置
JP3110025B2 (ja) 発声変形検出装置
Sahu et al. Odia isolated word recognition using DTW
JPS63213899A (ja) 話者照合方式
JPH05210397A (ja) 音声認識装置
Ozaydin An isolated word speaker recognition system
Patadia et al. Multi Speaker Recognition and User-specific Answering system
JP3357752B2 (ja) パターンマッチング装置
JPS61278896A (ja) 話者照合装置
JPS6336678B2 (ja)
JPS6312000A (ja) 音声認識装置
Nair et al. Comparison of Isolated Digit Recognition Techniques based on Feature Extraction
JPH0640274B2 (ja) 音声認識装置
JPH10124090A (ja) 音声認識方法およびこの方法を実施する装置