JPH03276198A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03276198A
JPH03276198A JP2078281A JP7828190A JPH03276198A JP H03276198 A JPH03276198 A JP H03276198A JP 2078281 A JP2078281 A JP 2078281A JP 7828190 A JP7828190 A JP 7828190A JP H03276198 A JPH03276198 A JP H03276198A
Authority
JP
Japan
Prior art keywords
symbol
recognition
contribution
model
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2078281A
Other languages
English (en)
Other versions
JP2961797B2 (ja
Inventor
Shinobu Mizuta
忍 水田
Kunio Nakajima
中島 邦男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2078281A priority Critical patent/JP2961797B2/ja
Publication of JPH03276198A publication Critical patent/JPH03276198A/ja
Application granted granted Critical
Publication of JP2961797B2 publication Critical patent/JP2961797B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ この発明は、音声の認識を行なう音声認識装置に関する
ものである。
[従来の技術] 従来この種の装置として、例えば第2図に示すよ、うな
ものがあった。この図は丸山活輝、花沢利行、用端豪、
鹿野清宏著rHMM音韻連結学習を用いた英単語音声の
認識」 (日本音響学会講演論文集、平成元年3月14
日発行、l−6−22)に記述されている内容を図示し
たものである。
図において、(1)は音声信号、(2)は音声分析部、
(3)は音声特徴系列、(4)は学習用特徴系列、(5
)は入力用特徴系列、(6)は記号モデル生成部、(7
)は記号モデル、(8)は認識対象モデル生成部、(9
)は認識対象辞書、(10)は認識対象モデル、(11
)は尤度計算部、(12)は尤度、(13)は選択部、
(14)は認識結果である。
入力された音声(1)は、音声分析部(2)で複数の音
響的特徴パラメータによる音声特徴系列(3)に変換さ
れる。記号モデルを生成する場合、音声特徴系列は学習
用特徴系列(4)として記号モデル生成部(6)に入力
される。記号モデル生成部は、学習用特徴系列から音素
片・音素・音素列または音節の音声記述単位に付与した
識別記号に対応するカテゴリを表現する記号モデル(7
)を生成する。認識対象モデル生成部(8)は認識対象
辞書(9)に記述された認識対象語を表す識別記号列に
従って、記号モデルを連結することにより認識対象モデ
ル(10)を生成する。認識処理を行なう場合は、前記
音声特徴系列は入力用特徴系列(5)として尤度計算部
(11)に入力される。尤度計算部は前記のように生成
された各認識対象モデルについて、入力用特徴系列に対
する尤度(12)を計算する。選択部(13)はその中
で最も尤度の高い認識対象モデルを選択し、これを認識
結果(14)として出力する。
次に、前記構成に従って上記従来例の詳細を示す。ここ
で、音響的特徴パラメータはLPCケプストラム、ケプ
ストラム差分及びパワーの3種類の特徴ベクトル、識別
記号は音韻とし、英単語音声を認識するものとする。ま
た、認識方式としてベクトル量子化(Vector Q
uantization、 V Qと略す)に基づく離
散分布HMM (Hidden i[arcov l[
del )による認識方式を用いる。これは、ごく簡単
には以下のような方式である。
ベクトル量子化(VQ)は、入力ベクトルに対して予め
用意されたベクトルの組(VQココ−ブックと呼ぶ)か
ら最近傍ベクトルを選択し、この最近傍ベクトルが入力
ベクトルをよく表現しているとしてその番号(VQラベ
ルと呼ぶ)を出力することにより行われる。離散分布H
MMは、いくつかの状態とその間の遷移により構成され
、状態量遷移の確率と遷移時に出力されるラベルの出力
確率分布をパラメータとする、ラベル列を表現する確率
モデルである。これを用いた音声認識は、入力音声各フ
レームの音響的特徴パラメータベクトルに対するVQに
より得られたVQラベル列の生起確率を複数のHMM間
で比較し、最も高い確率を得るHMMを選択することで
行われる。
離散分布HMMにおいて、入力フレームに対するモデル
の局所尤度は人力VQラベルの出力確率により表される
。この時本従来例では、第1フレームの3種類の音響的
特徴パラメータによるVQラベルの組(LL、L2.L
3)の各々に対する、状態遷移iを表すHMMの特徴別
出力確率をそれぞれbL1目、bL2.1.bL3,1
とすると、全体の出力確率B i+は(1)式で与える
B  =b  zxbL2.、xb”□・旧・・(1)
入力用音声特徴系列の認識対象HMMに対する尤度は、
このHMMに関して前記の系列が最適な状態遷移を行な
った場合に、各入力フレームと対応する状態遷移とから
得られる出力確率の総和にほぼ等しい。
以下に音声分析部、記号モデル生成部及び尤度計算部の
詳細動作を示す。
[a]音声分析部 第3図に音声分析部の詳細を示す。図において、(1)
は音声信号、(2)は音声分析部、(3)は音声特徴系
列(VQラベル列)、(A1)は音響分析部、(A2)
は特徴ベクトル系列、(A3゜A4.A5)はVQココ
−ブック(3種)、(A6)はベクトル量子化部である
。入力された音声信号(1)は、音響分析部(A1)で
3種類の音響的特徴ベクトルからなる特徴ベクトル系列
(A2)に変換される。ベクトル量子化部(A6)では
、3つのvQココ−ブック(A3)(A4)(A5)に
より特徴ベクトル系列を3つのVQラベルの組からなる
音声特徴系列(3)に変換する。
[bコ記号モデル生成部 第4図に記号モデル生成部の詳細を示す。図において、
(4)は学習用特徴系列(単語VQラベル列)、(6)
は記号モデル(音韻HMM)生成部、(7)は記号モデ
ル(音韻HMM)、(B1)は初期音韻HMM、(B2
)は学習面音韻HMM。
(B3)は音韻HMM連結部、(B4)は学習用単語辞
書、(B5)は学習前単語HMM、(B6)は単語HM
M学習部、(B7)は学習後単語HMM、(B8)は単
語HMM分解部、(B9)は学習機音韻HMMである。
処理手順は次のとおりである。
[1]初期音韻HMM(Bl)を学習面音韻HMM(B
2)とする。
[2コ学習用単語辞書(B4)に基づいて、学習面音韻
HMMを音韻HMM連結部(B3)で連結し学習前単語
HMM(B5)を生成する。HMMにおいて、モデルの
連結は単に結ぶだけでよい。
また、認識に必要な音韻が含まれていれば、学習用単語
辞書は認識に用いる辞書と異なってよい。
[3]単語HMM学習部(B6)において、学習前単語
HMMに対して学習用特徴系列(単語VQラベル列)(
4)を提示し、モデルの学習を行なう。この時用いるH
MMの出力確率は(1)式により求める。
[4]  [3]で生成された学習後単語HMM (B
7)を、単語HMM分解部(B8)において分解し、学
習機音韻HMM(B9)を生成する。
[5コ学習後音韻HMMを学習面音韻として[2コ以降
を必要回数繰り返した後、得られた音韻HMMを認識に
用いる記号モデル(7)とする。
[c]尤度計算部 入力用特徴系列(5)の、生成された認識対象(単語)
 HMM (10)に対する尤度(12)を求める。こ
の時、HMMの出力確率は前述の(1)式により求める
[発明が解決しようとする課題] 音響的特徴パラメータの認識性能に対する効果は種類に
よって異なり、また識別記号により表現されるカテゴリ
によっても違うため、この点を考慮することで認識性能
を向上させることができる。
しかし、上記従来装置は(1)式かられかる通りすべて
の音響的特徴パラメータを均等に扱っており、その間の
認識性能に対する効果の差異を装置に反映させていない
という問題を有する。
この発明は係る問題点を解決するためなされたもので、
音響的特徴パラメータ間の認識性能に対する効果の差異
を各識別記号について考慮し、認識精度の高い音声認識
装置を提供することを目的とする。
[課題を解決するための手段] この発明に係る音声認識装置は、音声の記述単位に付与
した識別記号に対応したカテゴリを複数種類の音響的特
徴パラメータにより表現する記号モデルを、複数の認識
対象音声を前記識別記号の系列により表す認識対象辞書
に従って連結することにより認識対象モデルを生成し、
この認識対象モデルのうち入力音声に対する尤度が最も
高い値を得るものを認識結果として出力する音声認識装
置に、前記記号モデル生成手段による記号モデル生成時
および前記尤度計算手段による尤度計算時に、前記記号
モデルにより得られる尤度に対する前記複数種類の音響
的特徴パラメータの各々の寄与度を前記識別記号毎に個
別に設定する記号別寄与度設定手段と、この記号別寄与
度設定手段が前記寄与度設定を行なう際に参照する、前
記複数種類の音響的特徴パラメータの前記寄与度に関す
る情報を前記識別記号毎に記載した寄与度情報辞書とを
備える。
[作用コ この発明において寄与度情報辞書には、前記記号モデル
により得られる尤度に対する前記複数種類の音響的特徴
パラメータの各々の寄与度設定に関する情報が前記識別
記号の各々について記載され、記号別寄与度設定手段は
、この寄与度情報辞書をもとに、前記記号モデル生成手
段による記号モデル生成時および前記尤度計算手段によ
る尤度計算時における前記寄与度を、前記識別記号毎に
個別に設定する。
[実施例] ここでは、音響的特徴パラメータを静的特徴(LPCケ
プストラム)と動的特徴(ケプストラム回帰係数)の2
種類の特徴ベクトル、識別記号を音素片とし、単語音声
を離散分布HMMにより認識する場合について述べる。
これらの条件のもとて従来例の方式を用いた場合、前記
音声分析部では2種類の音響的特徴ベクトル(静的特徴
・動的特徴)からなる特徴ベクトル系列を予め用意され
た2つのVQココ−ブックに従ってVQラベル列に変換
し、これを前記音声特徴系列としてHMMの学習および
入力音声の認識を行うことになる。
認識対象を表現する識別記号として音素片を用いる場合
、音声の定常部と過渡部を独立に扱うことができる。そ
して、音響的特徴として静的特徴と動的特徴を用いる場
合、時間的な特徴変動の小さい定常部においては静的特
徴が、また時間的な特徴変動の大きい過渡部においては
動的特徴が認識に有効な情報を担っていると考えられる
。しかし、従来装置によって(1)式に基づき前記出力
確率を求める場合、これら2種類の特徴の前記尤度に対
する寄与度は均等になり、特徴パラメータ間の認識性能
に対する効果の差異が装置に反映されない。そこで、定
常部音素片モデルでは静的特徴の、また過渡部音素片モ
デルでは動的特徴の寄与度を高くすることで認識性能の
向上を図る。
第1図はこの発明の一実施例の構成図である。
図において、(1)は音声信号、(2)は音声分析部、
(3)は音声特徴系列、(4)は学習用特徴系列、(5
)は入力用特徴系列、(6)は記号モデル生成部、(7
)は記号モデル、(8)は認識対象モデル生成部、(9
)は認識対象辞書、(10)は認識対象モデル、(11
)は尤度計算部、(12)は尤度、(13)は選択部、
(14)は認識結果、(15)は寄与度情報辞書、(1
6)は記号別寄与度設定部、(17)は記号モデル生成
用音響的特徴寄与度、(18)は尤度計算用音響的特徴
寄与度である。
以下この実施例の動作について説明する。入力された音
声(1)は、音声分析部(2)で複数の音響的特徴パラ
メータによる音声特徴系列(3)に変換される。記号モ
デルを生成する場合、音声特徴系列は学習用特徴系列(
4)として記号モデル生成部(6)に人力される。記号
モデル生成部は、学習用特徴系列から、音素片・音素等
の音声記述単位に付与した識別記号に対応するカテゴリ
を表現する記号モデル(7)を生成する。この時、記号
別寄与度設定部(16)では寄与度情報辞書(15)に
従って識別記号別に記号モデル生成用特徴寄与度(17
)を設定し、記号モデル生成はこの寄与度に従って行な
われる。認識対象モデル生成部(8)は認識対象辞書(
9)に記述された認識対象語を表す識別記号列に従って
、記号モデルを連結することにより認識対象モデル(1
0)を生成する。認識処理を行なう場合は、前記音声特
徴系列は入力用特徴系列(5)として尤度計算部(11
)に入力される。尤度計算部は前記のように生成された
各認識対象モデルについて、入力用特徴系列に対する尤
度(12)を計算する。この時、前記記号別寄与度設定
部では前記寄与度情報辞書に錠って識別記号別に尤度計
算用特徴寄与度(18)を設定する。選択部(13)は
最も高い尤度を得た認識対象モデルを選択し、これを認
識結果(14)として出力する。。
以下に、この実施例における記号別寄与度設定部での処
理を説明する。前述の通り、従来装置においてHMMに
より複数種類の音響的特徴パラメータについて得られる
出力確率は(1)式により求められるが、この実施例で
は次に挙げる(2)式により求める。第1フレームの2
つのVQラベルの組S(静的特徴)、d(動的特徴)の
各々に対する、状態遷移iを表すHMMの特徴別出力確
率をそれぞれb″、1 bd、1とし、全体の出力確率
fezを B11= (b’ z) xx (b’ z)’−−−
−・・(2)X=W、、、Y=W、d(W、、、W、d
は重み)とする。この時、2つの特徴別出力確率に対す
る重みW + m、W+dにより2つの特徴パラメータ
の尤度へ寄与度を音素片毎に設定することができる。
そこで、記号別寄与度設定部では音素片毎にこれらの重
みを設定し、記号モデル生成時及び認識の際の尤度計算
時にこれを用いる。ここでは、状態遷移iを生じる音素
片HMMが定常部の場合と過渡部の場合について、2組
の重みW。@* Wcd及びW t、、W、、を設定す
る。
先に述べた形での定常部音素片と過渡部音素片における
静的特徴と動的特徴の寄与度設定は次の様に実現される
。先ず、寄与度情報辞書には認識に用いる各音素片につ
いて、それが定常部か過渡部かを記載しておく。記号別
寄与度設定部では、(2)式により前記出力確率を求め
る時に用いる前記重みの組(W、、、W、d)を設定す
る。この時前記寄与度情報辞書から、音素片が定常部か
過渡部かによりこの重みの組をW、、、W。d(定常部
)とW、、、Wt、(過渡部)のいずれかとする。ここ
で、重みはW e II≧W c d % W t m
≦Wtdの条件の満たすものとする。前記記号モデル生
成部でのモデル生成時及び前記尤度計算部での尤度計算
時に(2)式により出力確率を求める場合、前記の様な
重み設定により定常部音素片HMMでは静的特徴に対す
る出力確率を強調しくW、、≧Wod)、過渡部音素片
HMMでは動的特徴に対する出力確率を強調する(W、
≦WLd)ことができる。
ここで、B +1のオーダーを音素片にかかわらず共通
にするため、W、、+W、、=C(定数)  (Wt、
Wll、≧0)とする必要がある。なお、重みは記号モ
デル生成時と尤度計算時で共通でなくともよい。
この実施例では音響的特徴パラメータとして静的特徴と
動的特徴の2種類の特徴ベクトルを用い、音素片を識別
記号として離散HMMを単語音声から学習し、単語を認
識する場合について述べた。
しかし、音響的特徴パラメータはパワーや零交差数でも
よく、識別記号は音素や音節でもよく、認識に用いる音
声は文音声でもよい。また、認識方式は音素等のカテゴ
リ単位のテンプレートを用いたD T W (Dyna
mic Time Warping)法などでもよい。
すなわち、この実施例におけるこれらの条件はこの発明
を制限しない。
[発明の効果コ 以上のようにこの発明によれば、音声の記述単位に付与
した識別記号に対応したカテゴリを複数種類の音響的特
徴パラメータにより表現する記号モデルを、複数の認識
対象音声を前記識別記号の系列により表す認識対象辞書
に従って連結することにより認識対象モデルを生成し、
この認識対象モデルのうち入力音声に対する尤度が最も
高い値を得るものを認識結果として出力する音声認識装
置に、前記記号モデル生成手段による記号モデル生成時
および前記尤度計算手段による尤度計算時に、前記記号
モデルにより得られる尤度に対する前記複数種類の音響
的特徴パラメータの各々の寄与度を前記識別記号毎に個
別に設定する記号別寄与度設定手段と、この記号別寄与
度設定手段が前記寄与度設定を行なう際に参照する、前
記複数種類の音響的特徴パラメータの前記寄与度に関す
る情報を前記識別記号毎に記載した寄与度情報辞書とを
設けたので、 識別記号が表現するカテゴリの音響的な
特性を考慮した音響的特徴パラメータの強調を、識別記
号毎に行なうことによる精度の高い音声認識装置を提供
することができる。
【図面の簡単な説明】
第1図はこの発明の一実施例に係る音声認識装置を示す
構成図、第2図は従来例に係る音声認識装置を示す構成
図、第3図は第2図の音声分析部(2)を説明する構成
図、第4図は第2図の記号モデル生成部(6)を説明す
る構成図である。 図において、(1)は音声信号、(2)は音声分析部、
(3)は音声特徴系列、(4)は学習用特徴系列、(5
)は入力用特徴系列、(6)は記号モデル生成部、(7
)は記号モデル、(8)は認識対象モデル生成部、(9
)は認識対象辞書、(10)は認識対象モデル、(11
)は尤度計算部、(12)は尤度、(13)は選択部、
(14)は認識結果、(15)は寄与度情報辞書、(1
6)は記号別寄与度設定部、(17)は記号モデル生成
用音響的特徴寄与度、(18)は尤度計算用音響的特徴
寄与度である。また、(A1)は音響分析部、(A2)
は特徴ベクトル系列、(A3)。 (A4)、  (A5) はVQ:+−ドブツク、(A
6)はベクトル量子化部、(B1)は初期音韻HMM。 (B2)は学習前音能HMM、(B3)は音韻HMM連
結部、(B4)は学習用単語辞書、(B5)は学習前単
語HMM、(B6)は単語HMM学習部、(B7)は学
習後単語HMM、(B8)は単語HMM分解部、 ある。 なお、 す。 図中同一符号は同一または相当部分を示(B9) は学習後音韻HMMで

Claims (1)

    【特許請求の範囲】
  1. 音声の記述単位に付与した識別記号に対応したカテゴリ
    を複数種類の音響的特徴パラメータによりモデル表現す
    る記号モデル生成手段と、複数の認識対象音声を前記識
    別記号の系列により表す認識対象辞書と、この認識対象
    辞書に従い、前記認識対象音声を表現する認識対象モデ
    ルを前記記号モデルの連結によって生成する認識対象モ
    デル生成手段と、この認識対象モデル生成手段で生成さ
    れた認識対象モデルに対する入力音声の尤度を得る尤度
    計算手段と、この尤度計算手段により得られた尤度のう
    ち、最も高い値を得る認識対象モデルを選択し、それを
    認識結果として出力する選択手段とを備える音声認識装
    置において、前記記号モデル生成手段による記号モデル
    生成時および前記尤度計算手段による尤度計算時に、前
    記記号モデルにより得られる尤度に対する前記複数種類
    の音響的特徴パラメータの各々の寄与度を前記識別記号
    毎に個別に設定する記号別寄与度設定手段と、この記号
    別寄与度設定手段が前記寄与度設定を行なう際に参照す
    る、前記複数種類の音響的特徴パラメータの前記寄与度
    に関する情報を前記識別記号毎に記載した寄与度情報辞
    書を備えることを特徴とする音声認識装置。
JP2078281A 1990-03-26 1990-03-26 音声認識装置 Expired - Fee Related JP2961797B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2078281A JP2961797B2 (ja) 1990-03-26 1990-03-26 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2078281A JP2961797B2 (ja) 1990-03-26 1990-03-26 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03276198A true JPH03276198A (ja) 1991-12-06
JP2961797B2 JP2961797B2 (ja) 1999-10-12

Family

ID=13657580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2078281A Expired - Fee Related JP2961797B2 (ja) 1990-03-26 1990-03-26 音声認識装置

Country Status (1)

Country Link
JP (1) JP2961797B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020035999A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020035999A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
JP2020027211A (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム

Also Published As

Publication number Publication date
JP2961797B2 (ja) 1999-10-12

Similar Documents

Publication Publication Date Title
Zhang et al. Transfer learning from speech synthesis to voice conversion with non-parallel training data
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
CN107615376B (zh) 声音识别装置及计算机程序记录介质
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
Ma et al. Incremental text-to-speech synthesis with prefix-to-prefix framework
Yamagishi et al. A training method of average voice model for HMM-based speech synthesis
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
KR20090061920A (ko) 음성 합성 방법 및 장치
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
US20230335107A1 (en) Reference-Free Foreign Accent Conversion System and Method
WO2016172871A1 (zh) 基于循环神经网络的语音合成方法
Purohit et al. Intelligibility improvement of dysarthric speech using mmse discogan
Wu et al. Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations
Potard et al. Preliminary work on speaker adaptation for DNN-based speech synthesis
US20040006469A1 (en) Apparatus and method for updating lexicon
En-Najjary et al. A voice conversion method based on joint pitch and spectral envelope transformation.
Deka et al. Development of assamese text-to-speech system using deep neural network
Delić et al. Rapid development of new TTS voices by neural network adaptation
Kotani et al. Voice conversion based on deep neural networks for time-variant linear transformations
CN113628608A (zh) 语音生成方法、装置、电子设备及可读存储介质
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
Patil et al. Hidden-Markov-model based statistical parametric speech synthesis for Marathi with optimal number of hidden states
JP2583074B2 (ja) 音声合成方法
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
Bollepalli et al. Speaking style adaptation in text-to-speech synthesis using sequence-to-sequence models with attention

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees