JP2827590B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2827590B2
JP2827590B2 JP3176628A JP17662891A JP2827590B2 JP 2827590 B2 JP2827590 B2 JP 2827590B2 JP 3176628 A JP3176628 A JP 3176628A JP 17662891 A JP17662891 A JP 17662891A JP 2827590 B2 JP2827590 B2 JP 2827590B2
Authority
JP
Japan
Prior art keywords
feature
standard pattern
phoneme
correlation
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3176628A
Other languages
English (en)
Other versions
JPH0519787A (ja
Inventor
利幸 森井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3176628A priority Critical patent/JP2827590B2/ja
Publication of JPH0519787A publication Critical patent/JPH0519787A/ja
Application granted granted Critical
Publication of JP2827590B2 publication Critical patent/JP2827590B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、不特定話者の音声を認
識する音声認識装置に関するものである。
【0002】
【従来の技術】従来のパターン認識技術の例として、音
素を認識の基本単位とする不特定話者用音声認識装置に
ついて説明する。
【0003】従来、音声認識装置として、図4の機能ブ
ロック図に示す構成が知られている。図4に示す様に、
まず、マイクロホンから入力された入力音声信号16に
対し、音響分析部17において、LPC( linear pred
ictive coding ; 線形予測符号化)分析やフィルター分
析などの音響分析を行ない、音声の特徴を表す情報を抽
出する。次に、上記情報に対し、セグメンテーション部
18において、子音セグメンテーションを行なった後、
音素識別部19において、標準パターン格納部20に格
納された音素標準パターンとマッチングを行ない、音素
を識別して音素系列を作る。この音素標準パターンは各
音素とも特徴パラメータのベクトル(特徴セントロイ
ド)数個により構成されている。マッチングは、入力の
特徴ベクトルとの距離計算を行ない、最も距離の近いセ
ントロイドの属する音素を認識結果とするという手順で
行なわれる。
【0004】次に、上記音素系列に対し、音素系列作成
部21において、音形規則格納部22に格納された音形
規則と照合し、修正を加えて最終的な音素系列を作成す
る。そして、単語マッチング部23において、上記最終
的な音素系列と単語辞書格納部24に格納された単語辞
書とのマッチングを行ない、類似度の一番大きいものを
認識結果25とする。
【0005】ここで、上記音素識別部19において音素
マッチングに用いられ、標準パターン格納部20に格納
される不特定話者・多数語用音素標準パターンは、図5
に示す様にして作成する。まず、防音室内でマイクロホ
ンから入力された多人数・多数語の音声データ26をA
/D変換部27においてA/D変換し、収録して音声デ
ータベース28を作る。次に、上記音声データに対し、
音響分析部29において音響分析を行ない、特徴パラメ
ータのベクトル(特徴ベクトル)を抽出し特徴ベクトル
のデータベースを作成する。
【0006】一方、音響分析部29で得られるパワー情
報などを基に、人が目視によってそれぞれのデータに対
して音素のラベリング30を行ない、ラベリングデータ
ベース31を作る。そして、標準パターン作成部32に
おいては、ラベリングデータベース31と特徴ベクトル
のデータベースをもとに、各音素毎の特徴ベクトルの集
合を作成し、この集合に対して細胞分裂型のクラスタ分
析を行ない複数のセントロイドを求めるという手順で各
音素の標準パターン33を作成する。このクラスタ分析
アルゴリズムとしてはLBGアルゴリズム(Lind
e:アイ イーイー イー トランズアクション IE
EE Trans.COM−28 pp84−95 1
980)が知られている。手順を以下に述べる。 (1) K=1 (2) K個のクラスタのセントロイドを単純平均によ
り求める。そして、それぞれのクラスタに属する全ての
サンプルとセントロイドとのユークリッド距離を求め、
その最大値をそのクラスタの歪とする。 (3) K個のクラスタの中で最も歪の大きいクラスタ
のセントロイドの附近に2つのセントロイドを作る(細
胞分裂の核になる)。 (4) K+1個のセントロイドを基にクラスタリング
を行ない、セントロイドを求め直す。 (5) 空のクラスタがあればそのセントロイドを抹消
して(3)へ。 (6) K+1個のクラスタの歪を(2)と同様に求
め、その総和の変化量があらかじめ設定した微小なしき
い値以下であれば(7)へ、しきい値より大きければ
(4)へ。 (7) K+1が目標のクラスタ数に達していなければ
K=K+1として(2)へ、達していれば(8)へ。 (8) すべてのクラスタのセントロイドを求め、コー
ドブックを作成する。
【0007】上記音声認識システムの音素識別部におけ
る音素マッチングは、音素標準パターンとしての複数の
特徴セントロイドとの距離を求めて最も小さい特徴セン
トロイドの属する音素に識別するという手順で行なわれ
る。したがって、この各音素の特徴セントロイドの数を
増やせば、より複雑な特徴空間を表すことができるの
で、認識率は向上する。
【0008】
【発明が解決しようとする課題】上記音声認識装置の音
素識別部における音素マッチングは、音素標準パターン
としての複数の特徴セントロイドとの距離を求めて、最
も小さい特徴セントロイドの属する音素に識別するとい
う手順で行なわれる。したがって、各音素の特徴セント
ロイドの数を増やせば、より複雑な特徴を表すことがで
きるので、認識率は向上する。しかし、マッチングに必
要な計算量は特徴セントロイドに比例して増加してしま
う。また、認識率の観点から見ると、不特定話者の音素
の特徴は複雑であり、特徴セントロイドの数を増やして
いっても、ある程度の認識性能で頭打ちになる。より高
い性能を得るためには、認識話者や認識環境を自動的に
検知し、音素標準パターンの持つ音素の特徴空間を話者
や環境に適応させるという手段が必要とされていた。
【0009】本発明は上記課題に鑑み、話者や環境に適
応した認識が行え、高い認識性能を有する音声認識装置
を提供することを目的とするものである。
【0010】
【課題を解決するための手段】本発明は上記目的を達成
するもので、その技術的手段はユークリッド空間上に存
在する音声の特徴パラメータのベクトルで、どのカテゴ
リ(音素や音節)に属するかのラベル付けがなされてい
ることを特徴とする特徴ベクトル(特徴セントロイド)
が格納されている標準パターン格納部と、標準パターン
格納部に格納されている特徴セントロイド同士の相関の
度合いを表す値である相関強度が格納されている相関強
度格納部と、標準パターン格納部に格納された特徴セン
トロイド集合の部分集合である標準パターンサブセット
と、入力された特徴ベクトルと標準パターンサブセット
の特徴セントロイドのマッチングを行なうパターンマッ
チング手段と、パターンマッチング手段により得られた
認識結果に応じて相関強度格納部に格納された相関強度
を参照して標準パターン格納部に格納された特徴セント
ロイドの中から候補を選択することにより標準パターン
サブセットを作成する標準パターンサブセット作成手段
とを設けるように構成される。
【0011】
【作用】本発明は、上記構成により、標準パターン格納
部に格納されている特徴セントロイドと特徴セントロイ
ドの間毎にその2つのベクトルの相関の度合いを表す値
(相関強度)を求め、これを相関強度格納部に格納して
おく。そして認識時においては、認識対象の特徴ベクト
ルと音声コードブックの部分集合であるサブセットに格
納されている特徴セントロイドとの距離を求めて、最も
距離の小さい特徴セントロイドに識別した後、相関強度
格納部に格納された相関強度を参照して、音声コードブ
ックに格納された多くの特徴セントロイドの中から識別
された特徴セントロイドと相関の強い特徴セントロイド
を各カテゴリ毎に少数選択して新たなサブセットを作成
し、次の認識はそのサブセットを用いて行なう。サブセ
ットの持つカテゴリの特徴空間は認識を進める程に話者
や環境に適応するように変化する。
【0012】即ち、それぞれの話者や環境によって出現
しやすい特徴セントロイドの間に大きな相関強度を設定
し、認識する毎に最も近いと識別された特徴セントロイ
ドと他の特徴セントロイドの間の相関強度を参照してサ
ブセットを作成し、そのサブセットを用いて認識を進め
ることにより、識別された特徴セントロイドはその特徴
セントロイドとともに出現しやすい特徴セントロイドを
選ぶので、サブセットの持つカテゴリの特徴空間は認識
を進める程に話者や環境に適応するように変化する。こ
れにより、適応的な認識を行なうことができ、話者や環
境に適応した高い認識性能を得ることができる。
【0013】
【実施例】以下、本発明の一実施例について図面を参照
しながら説明する。実施例として、音素を認識の基本単
位とした不特定話者用の音声認識装置への応用例につい
て説明する。ここで、音素識別部の前後の処理は上記従
来例と同じであるので、その説明を省略し、音素識別部
について図面を参照しながら詳細に説明する。
【0014】図1は、本発明の一実施例における音声認
識装置の音素識別部の機能ブロック図である。まずマッ
チング部2において、マイク入力された音声を音響分析
することによって得られる入力特徴ベクトル1と、標準
パターンサブセット3に格納された特徴セントロイドと
の距離を計算し、最も近い特徴セントロイドが属する音
素を認識結果4とする。
【0015】次にサブセット作成部6において、得られ
た認識結果4を基に、相関強度格納部7に格納された相
関強度を参照して、次の認識に使用する特徴セントロイ
ドを決定し、音素標準パターン格納部5から特徴セント
ロイドを選び出して新たな標準パターンサブセット3を
作成する。相関強度格納部7に格納された相関強度は、
図2に示す様に、音素標準パターン格納部5に格納され
た音素の特徴セントロイドの間に1つずつ存在し、特徴
セントロイド同士の相関の強さを示している。即ち、値
の大きいものほど相関が強い。
【0016】マッチング部2で得られた認識結果4が、
例えば「/a/の3」であったとすると、「/a/の
3」と他の特徴セントロイドとの相関強度を調べ、各音
素の特徴セントロイドから「/a/の3」と相関の強い
ものを選択する。そして、それらを格納して新たな標準
パターンサブセットを作成する。こうして新たに作成さ
れた標準パターンサブセットの各音素の特徴空間は、
「/a/の3」が出現しやすい話者や認識環境において
認識精度が向上するように変化する。ただし、毎回サブ
セットが急変したのでは音素の特徴空間が時間的に不安
定になり、認識に悪影響を及ぼす事も考えられる。そこ
で、一時の認識結果によってではなく、認識結果の履歴
によって徐々に変化させる工夫が必要となる。この方法
としては次の2通りが挙げられる。 (1)候補を徐々に入替える 認識結果の特徴セントロイドと相関の強い特徴セントロ
イドを音素毎に少数選び、現段階のサブセットから相関
の弱い同数の特徴セントロイドと入替えることにより、
徐々にサブセットのメンバーを変えていく。 (2)出現強度を徐々に変化させる。(または時間平均
を取る。) 特徴セントロイドiの出現強度をPi、ある時点の相関
強度をCi、加速係数をμ(0<μ<1)とすると、出
現強度を下記の(数1)により徐々に変化させ、この出
現強度の強いものを候補として選ぶ。
【0017】
【数1】
【0018】同様に一定時間の相関強度の平均を取っ
て、これを出現強度とする方法も有効である。
【0019】上記音素識別部において使用される音素標
準パターンの作成法については従来法と同様であるの
で、その説明を省略する。ただし、ここで作成される音
素標準パターンは、各音素とも複数の特徴セントロイド
により構成されており、サブセットを作成するためにそ
の個数は従来法よりも多く必要とする。
【0020】次に、本発明の第2および第3の実施例に
ついて説明する。上記音素識別部19において使用され
る相関強度格納部に格納された相関強度の抽出方法につ
いて詳細に説明する。
【0021】本発明の目的は、話者や環境に適応した認
識を行なうことであり、相関強度は標準パターンサブセ
ットの各音素の特徴空間が適応的に変化するための推進
力となる。そのために、相関強度は音素ラベリングがな
された多数の学習用の特徴ベクトル(学習ベクトル)を
用いた学習により決定する。学習の手順について図を用
いて説明する。
【0022】図3は、学習アルゴリズムをブロック図に
したものである。まずマッチング部11において、音素
ラベリングがなされた学習ベクトル10を、音素標準パ
ターン格納部12に格納された音素の特徴セントロイド
とマッチングを行ない、どの特徴セントロイドに認識し
たか(認識セントロイド)の情報を得る。また、学習ベ
クトル10に付加された音素ラベル9を参照して、その
音素の特徴セントロイドの中で最も近いもの(正解セン
トロイド)を探す。そして、この2つの情報を相関強度
学習部14に送る。そして、相関強度学習部14におい
て、認識結果13とラベルデータ9と相関情報8を基
に、相関強度格納部14に格納された相関強度の学習を
行なう。ここで、相関強度の学習は下記に示す相関情報
によって徐々に変化させる。 (1)近接相関 ある学習ベクトルと他の学習ベクトルが同一単語におい
て時間的に近い場合に相関があるとして、それぞれの正
解セントロイドの間の相関強度を強める。この学習によ
り、話者の発声の変化に基づき、音素判別のしやすい判
別境界の予測が出来る。 (2)単語内相関 ある学習ベクトルと他の学習ベクトルが同一単語内に存
在する場合に相関があるとして、それぞれの正解セント
ロイドの間の相関強度を強める。この学習により、単語
内における相関を反映させることが出来る。 (3)話者相関 ある学習ベクトルと他の学習ベクトルが同一話者の音声
から抽出した場合に相関があるとして、それぞれの正解
セントロイドの間の相関強度を強める。この学習によ
り、標準パターンサブセットを話者に適応させることが
出来、高い認識精度を得ることができる。 (4)環境(騒音、マイク特性)相関 ある学習ベクトルと他の学習ベクトルが同一環境(騒
音、マイク特性)の音声から抽出した場合に相関がある
として、それぞれの正解セントロイドの間の相関強度を
強める。この学習により、標準パターンサブセットを環
境に適応させることが出来る。 (5)正誤情報による訂正 ある学習ベクトルをマッチングした結果、ラベルとは違
う音素に誤認識した場合に、最も最近に正しく認識した
セントロイドと正解セントロイドの間の相関強度を強
め、認識セントロイド(誤認識されたもの)との間の相
関強度を弱める。この学習により、認識精度を向上させ
ることが出来る。
【0023】次に本発明の効果を実証するために、音素
識別実験を行なった。識別する音素は/a/、/o/、
/u/、/i/、/e/、鼻音の6音素で、学習・認識
するデータは男性40人の単語データから抽出した特徴
ベクトルである。(サンプル数は各音素とも約1万であ
る。)また、学習・認識はサンプルを抽出した順番に行
なう。サンプリングレートは12kHz、分析窓長は2
0msec、特徴パラメータとしては12次のLPCケ
プストラム係数1フレーム分を用いる。したがって、特
徴ベクトルの次数は12次である。
【0024】音素標準パターンの特徴セントロイドの個
数は各音素とも128個で、過去16サンプルの相関強
度から出現強度を求め、この出現強度を基に各音素とも
16個ずつ選択してサブセットを作成しながら認識を行
なう。相関強度は、正誤情報と話者情報を基に学習を行
なって求めた値を使用する。この識別実験の結果、9
1.54%の識別率が得られた。この識別率は、相関強
度を用いずに各音素16個の特徴セントロイドを固定し
て使用した場合よりも高く、本発明によって、認識性能
が向上したことが検証された。
【0025】
【発明の効果】以上のように本発明は、それぞれの話者
や環境によって出現しやすい特徴セントロイドの間に大
きな相関強度を設定し、認識する毎に最も近いと識別さ
れた特徴セントロイドと他の特徴セントロイドの間の相
関強度を参照してサブセットを作成し、そのサブセット
を用いて認識を進めることにより、識別された特徴セン
トロイドはその特徴セントロイドとともに出現しやすい
特徴セントロイドを選ぶので、認識を進める程に、サブ
セットの持つカテゴリの特徴空間は話者や環境に適応す
るように変化する。したがって、適応的な認識を行なう
ことができ、話者や環境に適応した高い認識性能を得る
ことができる。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識装置の機能
ブロック図
【図2】本発明の一実施例における音声認識装置の相関
強度格納部に格納された相関強度の例を示す概念図
【図3】本発明の一実施例における音声認識装置の相関
強度の学習アルゴリズムを説明するブロック図
【図4】従来の音声認識装置を示す機能ブロック図
【図5】従来の音声認識装置の音素標準パターンの作成
アルゴリズムを示すブロック図
【符号の説明】
1 入力特徴ベクトル 2 マッチング部 3 標準パターンサブセット 4 認識結果 5 音素標準パターン格納部 6 サブセット格納部 7 相関強度格納部 8 相関情報 9 ラベルデータ 10 学習ベクトル 11 マッチング部 12 音素標準パターン格納部 13 認識結果 14 相関強度学習部 15 相関強度格納部 16 入力音声 17 音響分析部 18 セグメンテーション部 19 音素識別部 20 標準パターン格納部 21 音素系列作成部 22 音形規則格納部 23 単語マッチング部 24 単語辞書格納部 25 認識結果 26 マイク入力(防音室内) 27 A/D変換部 28 音声データベース 29 音響分析部 30 ラベリング 31 ラベリングデーターベース 32 標準パターン作成部 33 標準パターン

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 ユークリッド空間上に存在する音声の特
    徴パラメータのベクトルで、どのカテゴリ(音素や音
    節)に属するかのラベル付けがなされていることを特徴
    とする特徴ベクトル(特徴セントロイド)が格納されて
    いる標準パターン格納部と、前記標準パターン格納部に
    格納されている特徴セントロイド同士の相関の度合いを
    表す値である相関強度が格納されている相関強度格納部
    と、前記標準パターン格納部に格納された特徴セントロ
    イド集合の部分集合である標準パターンサブセットと、
    入力された特徴ベクトルと標準パターンサブセットの特
    徴セントロイドのマッチングを行なうパターンマッチン
    グ手段と、前記パターンマッチング手段により得られた
    認識結果に応じて前記相関強度格納部に格納された相関
    強度を参照して前記標準パターン格納部に格納された特
    徴セントロイドの中から候補を選択することにより標準
    パターンサブセットを作成する標準パターンサブセット
    作成手段とを具備することを特徴とする音声認識装置。
  2. 【請求項2】 標準パターン格納部に格納されている特
    徴セントロイド同士の相関の度合いを表す相関強度が、
    音素や音節のラベル付けがなされている多数の学習用ベ
    クトルを用いた学習により求められることを特徴とする
    請求項1記載の音声認識装置。
  3. 【請求項3】 音素や音節のラベル付けがなされている
    多数の学習用ベクトルを用いた相関強度学習が、標準パ
    ターン格納部に格納された特徴セントロイドと学習用ベ
    クトルとのマッチングを行なうことによって得られる認
    識結果・正誤情報と、ラベル、同話者内、同単語内、同
    環境内という学習用ベクトルの周辺情報とに基づいて相
    関強度を上下させることにより行なわれることを特徴と
    する請求項1または2記載の音声認識装置。
JP3176628A 1991-07-17 1991-07-17 音声認識装置 Expired - Fee Related JP2827590B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3176628A JP2827590B2 (ja) 1991-07-17 1991-07-17 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3176628A JP2827590B2 (ja) 1991-07-17 1991-07-17 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0519787A JPH0519787A (ja) 1993-01-29
JP2827590B2 true JP2827590B2 (ja) 1998-11-25

Family

ID=16016909

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3176628A Expired - Fee Related JP2827590B2 (ja) 1991-07-17 1991-07-17 音声認識装置

Country Status (1)

Country Link
JP (1) JP2827590B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5672487B2 (ja) * 2010-11-11 2015-02-18 株式会社国際電気通信基礎技術研究所 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム

Also Published As

Publication number Publication date
JPH0519787A (ja) 1993-01-29

Similar Documents

Publication Publication Date Title
JP5282737B2 (ja) 音声認識装置および音声認識方法
US5794196A (en) Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
US6711541B1 (en) Technique for developing discriminative sound units for speech recognition and allophone modeling
JP2559998B2 (ja) 音声認識装置及びラベル生成方法
US20070136058A1 (en) Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms
EP0549265A2 (en) Neural network-based speech token recognition system and method
JPH07146699A (ja) 音声認識方法
US11495234B2 (en) Data mining apparatus, method and system for speech recognition using the same
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2955297B2 (ja) 音声認識システム
US5487129A (en) Speech pattern matching in non-white noise
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP3444108B2 (ja) 音声認識装置
JP2827590B2 (ja) 音声認識装置
CN113016029A (zh) 提供基于上下文的语音识别服务的方法及装置
KR100304665B1 (ko) 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법
JP3289670B2 (ja) 音声認識方法および音声認識装置
JPH0997095A (ja) 音声認識装置
JP3357752B2 (ja) パターンマッチング装置
JPH0772899A (ja) 音声認識装置
JPH0619497A (ja) 音声認識方法
JP3105708B2 (ja) 音声認識装置
JP3231365B2 (ja) 音声認識装置
JPH096387A (ja) 音声認識装置
JPS6336678B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees