JP2656239B2 - 音声認識学習方式 - Google Patents

音声認識学習方式

Info

Publication number
JP2656239B2
JP2656239B2 JP60254092A JP25409285A JP2656239B2 JP 2656239 B2 JP2656239 B2 JP 2656239B2 JP 60254092 A JP60254092 A JP 60254092A JP 25409285 A JP25409285 A JP 25409285A JP 2656239 B2 JP2656239 B2 JP 2656239B2
Authority
JP
Japan
Prior art keywords
speech
category
voice
similarity
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60254092A
Other languages
English (en)
Other versions
JPS62113196A (ja
Inventor
洋一 竹林
宏之 坪井
彰一 平井
博 松浦
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60254092A priority Critical patent/JP2656239B2/ja
Publication of JPS62113196A publication Critical patent/JPS62113196A/ja
Application granted granted Critical
Publication of JP2656239B2 publication Critical patent/JP2656239B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は高性能な音声認識処理を実現し得る音声認識
学習方式に関する。
〔発明の技術的背景とその問題点〕
音声認識処理技術の発達に伴い、工場における生産管
理制御の分野で特定話者認識装置が応用され、また電話
サービスの分野では不特定話者認識が応用され始めてい
る。また最近では、音声ワードプロセッサとしての実用
化が試みられている。
ところで音声ワードプロセッサや大語彙単語認識にあ
っては、その認識性能を十分に高くする必要がある。し
かし、入力音声の認識処理単位である音素や音節は、一
般にその情報量が少ない。その為、異なる音声カテゴリ
間でその音声パターンが類似していることが多くあり、
またその冗長度も少ない。これ故、入力音声を精度良く
認識することが難しい。
そこで従来より、認識性能の向上を図るべく種々の工
夫が試みられているが、音声認識処理が徒に複雑化した
り、また装置構成が大掛りとなることが否めなかった。
更には認識性能の向上を図るべく、その認識辞書の高
性能化を図ることも試みられているが、多くの音声サン
プルを収集しなければならない等、認識辞書の効果的な
学習が困難であった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、
その目的とするところは、音声に対する認識性能の向上
を簡易に、且つ効果的に図ることのできる実用性の高い
音声認識学習方式を提供することにある。
〔発明の概要〕
本発明は、入力音声を分析して該入力音声の特徴パラ
メータの時系列を求める手段と、この特徴パラメータの
時系列から所定のタイミングで固定次元の特徴ベクトル
を順次連続して抽出する手段と、この特徴ベクトルを音
声認識辞書と照合して認識対象とする複数の音声カテゴ
リに対する類似度をそれぞれ計算する手段と、各音声カ
テゴリ毎に上記類似度が最大となるタイミングとそのと
きの類似度値とを求める手段と、類似度が最大となる音
声カテゴリの時間的に連続した系列またはその類似度系
列から前記入力音声を認識する手段と、前記音声カテゴ
リのうち正しい音声カテゴリに対する類似度が最大とな
る時点の前記特徴ベクトルを用いて正しい音声カテゴリ
の音声認識辞書を学習する手段と、前記音声カテゴリの
うち誤認識された音声カテゴリに対する類似度が最大と
なる時点の前記特徴ベクトルを用いて誤認識された入力
音声カテゴリの音声認識辞書を学習する手段とより構成
されている。
〔発明の効果〕
かくして、本発明によれば、特徴パラメータの時系列
から固定次元の特徴ベクトルを時間的に連続して、つま
り、その抽出タイミングを連続的にずらしながら順次抽
出し、認識対象とする複数の音声カテゴリの各認識辞書
との類似度が最大となるタイミングの特徴ベクトルを求
めて入力音声を認識するものにおいて、特に、このよう
な時間連続液なパターン照合による認識処理により、正
しい音声カテゴリの類似度最大の特徴ベクトルと、誤認
識を引き起こした音声カテゴリに対する類似度最大の特
徴ベクトルを用いて、それぞれ入力音声カテゴリの音声
認識辞書を学習するようにしたので、正しい入力音声カ
テゴリによる音声認識辞書の学習と誤認識された入力音
声カテゴリによる音声認識辞書の学習がそれぞれ実行さ
れる。例えば、学習用の入力部の本来の正しいカテゴリ
が/b/で、この学習用の音声を認識した際に、本来のカ
テゴリ/b/と音声の特徴が紛らわしい/p/に誤認識される
ような場合、正しい認識結果/b/を学習しながら誤認識
結果/p/も学習されるようになり、正しい認識結果/b/の
特徴を表現しつつ、/p/に誤認識されずらい音声認識辞
書が得られることになる。このことは、このような学習
の積み重ねにより正しい認識結果/b/と誤認識結果/p/の
境界が明確になっていき、このような発音が紛らわしい
入力音声についても、認識率を格段に向上させることが
可能になる。
更には、連続的に抽出される特徴ベクトルと認識辞書
との類似度計算が連続的に行われるので、例えば認識処
理に供される入力音声期間の切出し、つまりセグメンテ
ーションを大まかに、つまり音声カテゴリの大まかな始
終端を入力しても、その認識性能が低下することがな
い。故に、簡易に、且つ精度良く入力音声を認識処理
し、またその認識辞書の性能向上を図ることが可能とな
る等の実用上多大なる効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明す
る。
第1図は本発明の一実施例方式を適用して構成される
音声認識装置の概略構成図で、第2図は実施例方式にお
ける音声ベクトルの抽出概念を示す図である。
パターン入力部1はマイクロフォンや増幅器等からな
り、このパターン入力部1から認識装置に供せられる音
声が発声入力される。バンドパスフィルタ等からなる前
処理部2は、入力音声を複数チャンネルのスペクトル成
分からなる音声パラメータの時系列に変換し、これを類
似度演算部3に出力している。
類似度演算部3は、特徴パラメータの時系列から所定
のタイミングで順に固定次元の特徴ベクトルを抽出し、
その抽出した特徴ベクトルと音声辞書記憶部4に格納さ
れた複数の認識対象音声カテゴリの認識辞書との類似度
を順次計算している。この類似度計算は、例えば複合類
似度法によって行われる。
即ち、類似度演算部3は、第2図に示すように前記前
処理部2の出力(バンドパスフィルタの出力)として得
られる特徴パラメータの時系列Aから、タイミングTを
基準として連続するNサンプルの特徴パラメータのパタ
ーンを上記タイミングTにおける固定次元の特徴ベクト
ルBとして抽出している。
つまり上記タイミングTにおける特徴ベクトルBは、
例えばタイミング(T−N)からタイミングTに至る特
徴パラメータの系列として抽出される。尚、特徴パラメ
ータの抽出数Nは、0を含む正の整数として設定される
ものであり、タイミングTに関して複数種類設定される
場合もある。この場合には、次元の異なる複数の特徴ベ
クトルが同時に抽出されることになる。また特徴ベクト
ルは、上記タイミングNに亙る期間の特徴パラメータを
1つおきに選択して抽出されるものであっても良い。
しかして特徴ベクトルBの抽出は、その処理タイミン
グ(例えば入力音声の分析タイミング)毎に順次連続し
て行われる。従って次のタイミング(T+1)では、タ
イミング(T−N+1)からタイミング(T+1)に至
る特徴パラメータのパターンが、上記タイミング(T+
1)における特徴ベクトルとして抽出される。このよう
にして特徴パラメータの時系列から順次連続して抽出さ
れる特徴ベクトルBが、第2図中Cに示すように特徴ベ
クトルの時系列として出力される。
しかして前記特徴パラメータの時系列Aから時間的に
順次連続して順に検出される特徴ベクトルBは、認識対
象とする複数の音声カテゴリの各音声辞書との複合類似
度計算にそれぞれ供せられる。そして各音声カテゴリの
認識辞書に対する上記特徴ベクトルBの類似度計算結果
は、上記特徴ベクトルと共に認識部5および音節切出し
部6に出力される。尚、類似度計算結果の出力は、例え
ば高い類似度値を得たM個の音声カテゴリについての
み、その音声カテゴリ名とその類似度値として出力する
ようにしても良い。
音節切出し部6は、各音声カテゴリについて、その音
声カテゴリに対して求められた類似度の最大値を求め、
この最大値を得た特徴ベクトルの抽出タイミング(特徴
ベクトルのパターン区間)を該音声カテゴリの音節区間
として求めている。そしてその音節区間における上記特
徴ベクトルBを認識辞書の学習用データとして学習デー
タ記憶部7に順次記憶すると共に、その音声カテゴリ名
とその音節区間の情報を認識部5に与えている。
認識制御部8の制御の下で認識処理を実行する認識部
5は、例えば或る音声区間について、その音声区間を音
節区間とする音声カテゴリを前記音節切出し部6の検出
情報から求めている。そしてその音声カテゴリに対する
前記特徴ベクトルの類似度を相互に比較して、例えば最
大の類似度値をとる音声カテゴリを、その音声区間の入
力音声データに対する認識結果として求めている。
尚、認識結果として複数の音声カテゴリが候補として
求められた場合には、例えば第1候補順位から第L候補
順位の音声カテゴリが認識結果として出力される。
言語処理部9は、このような認識結果の系列を言語情
報辞書10を参照して言語的に検定し、最も他紙からしい
音声カテゴリの系列を前記入力音声の認識結果として求
めるものであり、その認識結果は適宜表示部11にて表示
される。
この表示部11に表示された認識結果に対して、例えば
その認識結果が誤りである等の情報が与えられる。また
誤認識された結果に対する正しい情報の修正入力が行わ
れる。この修正情報の入力は、認識結果に対する次候補
の選択や、正しい音声カテゴリのコードデータをキー入
力することによって行われる。
一方、上述したようにして入力音声に対する認識結果
が求められると、学習制御部12が起動されて、その認識
結果である音声カテゴリのデータが特性核更新部13に与
えられる。また同時にその音声カテゴリを得た特徴ベク
トルが前記学習データ記憶部7から読出されて、特性核
更新部13に読出される。
特性核更新部13は、上記音声カテゴリの特性核Kを特
性核記憶部14から読出し、前記認識結果に対する正誤の
判定結果に従って上記特性核Kを更新処理するものであ
る。この特性Kの更新処理は、誤認識された音声カテゴ
リ、および誤認識結果を得た特徴ベクトルに対する正し
い音声カテゴリに対して行われることは勿論のこと、正
しく認識された音声カテゴリに対しても行われる。
即ち、この特性核Kの更新処理は、例えば K=K±αSSt として行われる。但し、Sは入力音声パターン(特徴ベ
クトル)を示しており、αは特性核更新の荷重係数であ
る。
具体的には、本来音声カテゴリXに関する特徴ベクト
ルSを音声カテゴリYと誤認識した場合、音声カテゴリ
Yの特性核Kyを Ky=Ky−αSSt として、負の重み(減算)を以て更新する。また音声カ
テゴリXの特性核Kxを Kx=Kx+αSSt として、正の重み(加算)を以て更新する。尚、正しい
認識結果が得られた場合も、正の重み(加算)を以てそ
の特性核を更新する。
このような特性核Kの更新処理によって、その特性核
K中から誤認識に至るベクトルの要素、つまり誤認識成
分が除去され、また誤認識を招かない為の成分が特性核
Kに追加されることになる。
しかして音声辞書作成部15は、各音声カテゴリについ
て、上述した如く更新処理された特性核Kを、例えばKL
展開して複合類似度計算に供する認識辞書を作成してい
る。そしてこの認識辞書を以て、前記音声辞書記憶部4
に格納された認識辞書を順次更新し、その認識辞書の充
実化、つまり高性能化を図っている。
以上、本発明の一実施例に係る音声認識装置につき説
明したように、本方式にあっては入力音声の特徴ベクト
ルを固定次元で連続的に抽出し、これによって音節の切
出しと認識処理とを同時に行うので、簡易に、且つ精度
良く入力音声を認識することが可能となる。しかも、認
識対象とする音声カテゴリの各認識辞書と連続的な特徴
ベクトルとの類似度計算結果に従ってその音節を検出す
るので、音節の切出しを効果的に行うことができる。故
に、セグメンテーションを大まかに指示するだけで、精
度の高い音節の切出しを可能とし、その認識性能の向上
を図ることができる。
更には、連続的に抽出される特徴ベクトルを用いて認
識辞書を効果的に更新し、認識辞書の充実化(高性能
化)を図ることができ、その認識辞書の学習処理も簡単
であると云う効果が奏せられる。
即ち、入力音声を分析した特徴パラメータの時系列か
ら、その特徴ベクトルを固定次元で連続的に切出してそ
の認識処理、および学習処理を行うので、簡易にして認
識学習性能の大幅な向上を図り得ると云う実用上多大な
る効果が奏せられる。
尚、本発明は上述した実施例に限定されるものではな
く、その要旨を逸脱しない範囲で種々変形して実施でき
ることは勿論のことである。
【図面の簡単な説明】
第1図は本発明の一実施例方式を適用した音声認識装置
の概略構成図、第2図は実施例方式における入力音声の
分析特徴パラメータからの連続的な特徴ベクトルの抽出
処理の概念を示す図である。 1……パターン入力部、2……前処理部、3……類似度
演算部、4……音声辞書記憶部、5……認識部、6……
音節切出し部、7……学習データ記憶部、8……認識制
御部、9……言語処理部、10……言語情報辞書、11……
表示部、12……学習制御部、13……特性各更新部、14…
…特性各記憶部、15……音声辞書作成部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松浦 博 川崎市幸区小向東芝町1番地 株式会社 東芝総合研究所内 (72)発明者 新田 恒雄 川崎市幸区小向東芝町1番地 株式会社 東芝総合研究所内 (56)参考文献 特開 昭59−3491(JP,A) 特開 昭58−80697(JP,A) 特公 昭47−21323(JP,B1) 特公 昭57−1012(JP,B2) 日本音響学会講演論文集 昭和58年3 月3−2−8 P.147〜148 電子通信学会論文誌 昭和60年3月V ol.J68−D No.3 P.284〜 291 新美「情報科学講座E、19、3 音声 認識」共立出版株式会社 昭和54年 P.135〜139

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声を分析して該入力音声の特徴パラ
    メータの時系列を求める手段と、 この特徴パラメータの時系列から所定のタイミングで固
    定次元の特徴ベクトルを順次連続して抽出する手段と、 この特徴ベクトルを音声認識辞書と照合して認識対象と
    する複数の音声カテゴリに対する類似度をそれぞれ計算
    する手段と、 各音声カテゴリ毎に上記類似度が最大となるタイミング
    とそのときの類似度値とを求める手段と、 類似度が最大となる音声カテゴリの時間的に連続した系
    列またはその類似度系列から前記入力音声を認識する手
    段と、 前記音声カテゴリのうち正しい音声カテゴリに対する類
    似度が最大となる時点の前記特徴ベクトルを用いて正し
    い音声カテゴリの音声認識辞書を学習する手段と、 前記音声カテゴリのうち誤認識された音声カテゴリに対
    する類似度が最大となる時点の前記特徴ベクトルを用い
    て誤認識された入力音声カテゴリの音声認識辞書を学習
    する手段とを具備したことを特徴とする音声認識学習方
    式。
  2. 【請求項2】特徴ベクトルを連続的に抽出する所定のタ
    イミングは、特徴パラメータを得る入力音声の分析タイ
    ミングである特許請求の範囲第1項記載の音声認識学習
    方式。
  3. 【請求項3】固定次元の特徴ベクトルは、次元数の異な
    る複数種類の特徴ベクトルとして同時に抽出されるもの
    である特許請求の範囲第1項記載の音声認識学習方式。
  4. 【請求項4】特徴ベクトルを用いた音声認識辞書の学習
    は、複合類似度計算に用いられる音声認識辞書の特性核
    を該特徴ベクトルで更新し、更新された特性核をKL展開
    して行われるものである特許請求の範囲第1項記載の音
    声認識学習方式。
  5. 【請求項5】音声認識辞書の学習は、正しい音声カテゴ
    リの音声認識辞書に正しい音声カテゴリに対する類似度
    が最大となる特徴ベクトルの成分を加算し、誤認識され
    た音声カテゴリの音声認識辞書から誤認識された音声カ
    テゴリに対する類似度値が最大となる特徴ベクトルの成
    分を減算することを特徴とする特許請求の範囲第1項記
    載の音声認識学習方式。
  6. 【請求項6】音声カテゴリに大まかな始端を入力する手
    段と、前記始端を基準に時間連続的にパターン照合を行
    う手段とを具備したことを特徴とする特許請求の範囲第
    1項記載の音声認識学習方式。
JP60254092A 1985-11-13 1985-11-13 音声認識学習方式 Expired - Lifetime JP2656239B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60254092A JP2656239B2 (ja) 1985-11-13 1985-11-13 音声認識学習方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60254092A JP2656239B2 (ja) 1985-11-13 1985-11-13 音声認識学習方式

Publications (2)

Publication Number Publication Date
JPS62113196A JPS62113196A (ja) 1987-05-25
JP2656239B2 true JP2656239B2 (ja) 1997-09-24

Family

ID=17260111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60254092A Expired - Lifetime JP2656239B2 (ja) 1985-11-13 1985-11-13 音声認識学習方式

Country Status (1)

Country Link
JP (1) JP2656239B2 (ja)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
新美「情報科学講座E、19、3 音声認識」共立出版株式会社 昭和54年 P.135〜139
日本音響学会講演論文集 昭和58年3月3−2−8 P.147〜148
電子通信学会論文誌 昭和60年3月Vol.J68−D No.3 P.284〜291

Also Published As

Publication number Publication date
JPS62113196A (ja) 1987-05-25

Similar Documents

Publication Publication Date Title
US8949127B2 (en) Recognizing the numeric language in natural spoken dialogue
JP4499389B2 (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US4581756A (en) Recognition of speech or speech-like sounds using associative memory
JP3444108B2 (ja) 音声認識装置
JP2656239B2 (ja) 音声認識学習方式
Hunt Speaker adaptation for word‐based speech recognition systems
JP2965529B2 (ja) 音声認識装置
CN111754979A (zh) 智能语音识别方法及装置
CN111785302A (zh) 说话人分离方法、装置及电子设备
Lee et al. Subword‐Based Large‐Vocabulary Speech Recognition
JP3039453B2 (ja) 音声認識装置
JP3727173B2 (ja) 音声認識方法及び装置
CN110875034A (zh) 用于语音识别的模板训练方法、语音识别方法及其系统
JP4236502B2 (ja) 音声認識装置
JPH0211919B2 (ja)
JPH0981177A (ja) 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法
JPH0736481A (ja) 補完音声認識装置
JPH0554678B2 (ja)
JPH0619497A (ja) 音声認識方法
JPH0654503B2 (ja) パタ−ン認識装置
JPH04305700A (ja) パターン認識装置およびパターン認識方法
JPS60147797A (ja) 音声認識装置
JPS6136797A (ja) 音声セグメンテ−シヨン法
JPH01177094A (ja) データ検索装置
JPS63161498A (ja) 音声情報入力装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term