JPH0316038B2

JPH0316038B2 -

Info

Publication number: JPH0316038B2
Application number: JP58223572A
Authority: JP
Inventors: Yoichi Takebayashi; Hidenori Shinoda
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1983-11-28
Filing date: 1983-11-28
Publication date: 1991-03-04
Also published as: JPS60115996A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は単語、文節、文書として入力される音
声を信頼性良く、且つ高精度に認識することので
きる音声認識装置に関する。

〔発明の技術的背景とその問題点〕

近時、情報処理システムにおける情報入力手段
として音声入力が注目され、種々の音声認識装置
が提唱されている。この種の装置は一般に特定話
者を対象とするものと、不特定話者を対象とする
ものに大別されるが、特殊なものとして話者認識
（照合）を行うものもある。

しかして、特定話者用の音声認識装置は、入力
音声を単語単位でバターンマツチングすることに
よつて数百語程度の単語を認識可能な単語音声認
識装置として実用化されている。これに対して不
特定話者用の音声認識装置は、話者個有の音声信
号の変形等等が認識処理の妨げとなり、数十語程
度の単語しか認識できないので実情である。けれ
ども、この数十程度の単語認識能力を活かして、
電話を介して銀行預金の残高照合等を行う電話音
声認識装置として、その一部で実用化されてい
る。

また前記話者認識（照合）は、個人照合の一手
段として研究されており、前記銀行預金の残高照
合を行う際のプライバシー保護、誤認識に起因す
る危険防止の観点から、そのニーズが高まつてき
ている。

ところが、この種の従来の音声認識装置にあつ
ては、次のような問題が残されている。即ち、入
力音声を効率よく、且つ精度良く認識する為に
は、上記入力音声中の音声区間を高精度に検出す
ることが必要である。然し乍ら、音声入力の環境
には騒音（雑音）の問題が存在している。そこで
従来では、専ら接話型マイクンホンを用いて音声
入力を行うようにしているが、音声入力環境に大
きな制約を受ける等の不具合があつた。また音声
入力中に、その周囲から他人の声が混入すると、
これによつて誤動作が生じると云う不具合があつ
た。更には、認識対象とする語彙数を拡大し、ま
た連続音声入力を行わせると、その認識率が大幅
に低下すると云う問題が生じた。

〔発明の目的〕

本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、入力音声を簡易
に且つ効率良く、しかも精度良く認識することの
できる音声認識装置を提供することにある。

〔発明の概要〕

本発明は入力音声を分析し、その分析結果と予
め辞書登録された認識辞書とを照合して上記入力
音声を認識するに際し、上記分析結果を用いて話
者照合を行い、この話者照合結果を上記入力音声
の認識処理に利用するようにしたものであ。

即ち、入力音声の分析結果を用いて話者照合を
行い、この話者照合結果に従つて、例えば入力音
声の各音素に対する話者認識用辞書との距離の時
系列に従つて前記入力音声の音声区間を検出す
る。そしてこの検出された音声区間の前記分析結
果から前記入力音声の特徴ベクトルを求め、この
特徴ベクトルと予め辞書登録された認識辞書と照
合して前記入力音声を認識するようにしたことを
特徴とするものである。

〔発明の効果〕

かくして本発明によれば、上述したように話者
認識結果を利用して認識対象とする音声に対して
のみ認識処理を行うので、雑音等に左右されるこ
とのない信頼性の高い認識結果を得ることが可能
となり、その認識率の向上を図り得る。しかも、
処理対象とする音声をセレクトできるので、その
認識に要する演算量を削減することが可能とな
る。また音声の入力環境に制約を受けない等の実
用上多大なる効果がせられる。

〔発明の実施例〕

以下、図面を参照して本発明の実施例につき説
明する。

第１図ａ〜ｄは話者照合技術を併用して音声認
識処理を実行する音声認識装置の基本的な構成例
を示すもので、１は話者認識部、２は音声認識部
である。この装置は上記話者認識部１における話
者認識結果を、上記音声認識部１における入力音
声の認識処理に利用し、例えば騒音（雑音）中の
音声を抽出したり、処理対象外の他人の音声をリ
ジエクトした上でその音声認識結果を求めるよう
にしたものである。

しかして、基本的には第１図ａ，ｂにそれぞれ
示すように話者認識部１と音声認識部２とを継続
に接続して装置が構成され、或いは第１図ｃに示
すように上記話者認識部１と音声認識部２とを並
列的に設け、これらの各認識結果を総合判定部３
に入力して、最終的な音声認識結果を求める如く
構成される。また第１図ｄに示すものは、並列的
に設けられた話者認識部１と音声認識部２との間
で、その認識処理で求められる情報を交換し乍
ら、入力音声中の音声区間を検出したり、更には
他人の声をリジエクトしたりした上で、該入力音
声の認識結果を求めるように装置を構成したもの
である。

本発明に係る音声認識装置は、基本的には第１
図ａに示すように入力音声を話者照合し、その話
者照合結果を利用して入力音声を認識処理すると
云う構成を採用して実現される。具体的には話者
認識結果に従つて入力音声中の音声区間を検出
し、換言すれば騒音（雑音）と共に入力される音
声中の認識対象とする音声の入力区間のみを検出
し、その区間の音声についてのみ音声認識処理を
行うことによつて達成される。

ちなみに装置が第１図ｂの如く構成されるとき
には、音声認識部２で求められた音声認識結果
が、話者認識部１における処理において認識対象
とする話者のものであるか否かを判定して、換言
すれば認識対象外の他人の音声である場合には、
これをリジエクトする等として話者認識結果が利
用される。

そして、第１図ｃ，ｄに示される構成の装置に
あつては、上記音声区間の検出および他人の音声
に対する認識結果のリジエクトが総合的に行われ
ることになる。特に第１図ｄに示す構成にあつて
は、例えば音声区間を検出し、更には他人の音声
をリジエクトした上で、認識対象とする音声に対
してのみ、その音声認識処理が行われることにな
る。

上述したように話者照合技術を併用して音声認
識処理を実行するように構成される音声認識装置
によれば、例えば、話者認識結果を利用して、入
力音声の音声区間を検出し、これによつて雑音や
騒音等の信号を認識処理対象から除外した上で、
その音声認識を効率良く行うことができる。また
話者認識結果を利用して認識対象とする話者以外
の音声を除去することが可能であり、更には認識
処理によつて求められた認識結果が認識対象とす
る話者以外のものであるときには、これをリジエ
クトすることが可能となる。従つて、不本意な音
声入力によつて装置が動作して誤つた認識結果が
得られたり、またその認識処理の誤動作を招くこ
とがなくなる。更には、認識処理に要する総合的
な演算処理量が大幅に削減され、その処理効率の
向上を図ることが可能となる。特に第１図ａまた
はｄに示すような構成を採用し、話者認識部１に
よる話者認識結果を利用して音声区間検出を行う
ことにより、音声の入力環境に対する制約を大幅
に緩和することができ、音声認識装置の利用範囲
拡大を図ることが可能となる等の絶大なる効果が
奏せられる。

次に本発明装置の具体的な構成例につき説明す
る。

第２図はその一例を示すもので、音声は入力部
１１を介して入力される。この入力部１１は、マ
イクロホンと増幅器とからなるもので、その入力
音声は電気信号に変換されて分析部１２に与えら
れる。この分析部１２は、上記音声信号を遮断周
波数5.6kHzの低域通過フイルタを介したのち、
12kHzのサンプリング周波数で12ビツトのデイジ
タル信号にＡ／Ｄ変換してデイジタル音声信号波
形を求め、しかるのちこれを４次のチエビシエフ
巡回型デイジタルフイルタからなる16チヤンネル
のデイジタルフイルタを介して分析し、平滑化処
理したのち10msec毎に出力するものである。そ
して、この分析部１２で求められた前記入力音声
信号の分析結果（特徴ベクトル）は、話者照合用
特徴ベクトルメモリ１３に格納されると共に、音
声区間検出部１４に与えられる。この特徴ベクト
ルメモリ１３に格納されたデータ（特徴ベクト
ル）は、話者照合部１５に与えられ、辞書メモリ
１６に予め登録された話者照合用の辞書との間で
照合処理され、話者認識される。尚、この話者照
合用の辞書は、予め学習用データを用いて作成さ
れた音素等の情報からなる。そして、前記話者照
合処理は、話者認識用特徴ベクトルと、話者認識
用辞書との間で、複合類似度計算を行つたり、線
形識別関数やマハラノビス距離の計算を行う等し
て行われる。

しかして前記音声区間検出部１４は、前記音声
信号のパワーから、その音声の始端および終端を
検出すると共に、前記話者照合部１５における話
者照合結果を入力して、その音声区間を検出して
いる。即ち、音声区間検出部１４は、話者照合部
１５が求めた入力音声の各音素に対する辞書との
距離の時系列と、この時系列によつて求められた
話者照合結果、例えば拒否、受理に関する情報等
を用い、更には前記分析部１２から得られる音声
パワーの時系列とを用いて、予め作成されている
閾値を参照する等して、利用者が発声した音声区
間の検出を行つている。

音声特徴ベクトルメモリ１７は、このようにし
て検出された音声区間の特徴ベクトルの時系列を
格納するものであり、このメモリ１７に格納され
た特徴ベクトルは、音声認識部１８に与えられ
て、辞書メモリ１９に予め登録された音声認識用
辞書と照合され、その音声認識が行われる。

尚、このような認識処理を行う場合、入力音声
の特徴ベクトルとして、例えば５フレームに亘る
フイルタ出力、つまり80次元の時間・周波数スペ
クトルを用いるようにすればよい。そして、話者
照合用の辞書としては、利用者が予め個々に発声
データから母音、鼻音、子音部分をそれぞれ５フ
レーム分切出して作成した各音素のデータを用い
るようにすれば良い。

かくしてこのように構成された装置によれば、
話者照合用の結果を音声区間検出に利用している
ので、例えば他人が発声した音声や、雑音等、認
識処理に不要な情報を効果的に拒否することがで
きる。これ故、音声の始端および終端の検出精度
（音声区間の検出精度）が飛躍的に向上し、従来
問題となつていた音声の付加・脱落による誤認識
の大幅な減少を図ることが可能となる。つまり、
他人の音声、雑音、呼気音等をリジエクトした上
で、その音声区間を精度良く検出し、しかるのち
その音声区間の音声に対する認識処理を行うこと
が可能となる。従つて、音声認識部１８の負担を
大幅に軽減でき、更にはその認識率の向上を図る
ことが可能となる。また認識対象とする話者から
の音声のみに対して、認識処理が実行されるの
で、処理効率が高い等の効果が奏せられる。

尚、話者照合法や音声認識法は、従来より知ら
れた他の方法を適宜用いることができることは云
うまでもない。

ところで、第３図に示す構成の装置は、前記第
１図ｃに示す構成に対応したものであり、総合判
定部２０によつて最終的な認識結果を得るように
したものである。このように話者照合と音声認識
とを並列的に行うように装置を構成する場合、前
述した音声区間検出を行う場合に比して、その効
果を十分に発揮させる為には、例えば話者照合を
より詳細に行うことが必要となる。従つて例え
ば、従来より多くの話者認識システムで用いられ
ているような、スペクトルの長時間平均やピツチ
情報、更には平均振幅等を利用して、更に詳細な
話者認識を行うようにすることが必要となる。従
つてその処理手続きが複雑化することが否めな
い。

しかし、この第３図に示す如く構成された装置
において、話者認識処理により求められた話者認
識結果と、音声認識処理により求められた音声認
識結果を用いて、総合判定部２０が他人の声や雑
音に対する誤つた認識結果（不本意な認識結果）
をリジエクトするので、装置の誤動作が未然に防
がれることになる。従つて、騒音環境下にあつて
接話型マイクロホンを用いることなく音声入力す
ることが可能となり、また周囲から混入した音声
を効果的にリジエクトして音声認識を行うことが
可能となる。また、この場合には、総合判定部２
０において認識音声の受理、拒否を決定するの
で、その仕様に応じて受理レベルを可変とするよ
うにすることも極めて有効である。

また第４図に示す構成の装置は、音声認識にお
ける認識結果を話者認識に利用し、更にこの話者
認識結果を総合判定部２０における最終的な音声
認識処理に利用するようにしたものである。

即ち、入力音声を認識してなる単語等の情報
を、話者照合における知識として利用し、その情
報を利用して話者照合用の特徴ベクトルの切出し
を行う。つまり、話者照合に用いる音素や特徴量
を音声認識結果を利用して決定し、しかるのち話
者照合を行うにする。このようにすれば、話者照
合を高精度に、且つ簡易に行うことが可能とな
り、しかるのちこの話者照合結果を用いて音声認
識結果に対する受理・拒否を制御することが可能
となるので、先の実施例にも増して、精度の高い
認識処理を行うことが可能となる。

このように本発明によれば、話者認識結果を有
効に利用して入力音声の認識処理を行うので、簡
易にして精度の高い音声認識を行うことが可能と
なり、その実用的利点は極めて絶大である。

尚、本発明は上記各実施例に限定されるもので
はない。例えば音声認識の手法および話者認識の
手法は、従来より知られた種々の手法を装置に要
求される仕様に応じて適宜用いることができる。
また本発明における技術思想を、文字認識とその
筆者認識にそのまま適用することができる。ま
た、この認識処理に用いられる特徴ベクトルにつ
いても、その仕様に応じたものであれば良いこと
は云うまでもない。以上要するに本発明はその要
旨を逸脱しない範囲で種々変形して実施すること
ができる。

【図面の簡単な説明】

第１図ａ〜ｄは話者照合技術を併用して音声認
識処理を実行する音声認識装置の基本的な構成例
を示す図、第２図は本発明の一実施例装置の概略
構成図、第３図は音声認識処理と話者照合処理と
を並列的に実行する装置の構成例を示す図、第４
図は話者照合結果を音声区間検出に用いるように
した本発明の別の実施例を示す図である。１……話者認識部、２……音声認識部、３……
総合判定部、１１……入力部、１２……分析部、
１３……話者照合特徴ベクトルメモリ、１４……
音声区間検出部、１５……話者照合部、１６……
話者照合用辞書メモリ、１７……音声特徴ベクト
ルメモリ、１８……音声認識部、１９……音声認
識用辞書メモリ、２０……総合判定部。

Claims

【特許請求の範囲】１入力音声を分析する手段と、この分析結果を
用いて話者照合を行う手段と、この話者照合結果
に従つて前記入力音声の音声区間を検出する手段
と、検出された音声区間の前記分析結果から前記
入力音声の特徴ベクトルを求め、この特徴ベクト
ルと予め辞書登録された認識辞書と照合して前記
入力音声を認識する手段とを具備したことを特徴
とする音声認識装置。２入力音声区間の検出は、話者照合によつて求
められる入力音声の各音素に対する話者認識用辞
書との距離の時系列に従つて入力音声の始端と終
端を検出して行われることを特徴とする特許請求
の範囲第１項に記載の音声認識装置。