JP3449165B2 - 単語標準パターン作成装置、音声認識装置及びその方法 - Google Patents

単語標準パターン作成装置、音声認識装置及びその方法

Info

Publication number
JP3449165B2
JP3449165B2 JP10444897A JP10444897A JP3449165B2 JP 3449165 B2 JP3449165 B2 JP 3449165B2 JP 10444897 A JP10444897 A JP 10444897A JP 10444897 A JP10444897 A JP 10444897A JP 3449165 B2 JP3449165 B2 JP 3449165B2
Authority
JP
Japan
Prior art keywords
word
pattern
recognition target
voice
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10444897A
Other languages
English (en)
Other versions
JPH10293596A (ja
Inventor
麻紀 山田
昌克 星見
勝行 二矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP10444897A priority Critical patent/JP3449165B2/ja
Publication of JPH10293596A publication Critical patent/JPH10293596A/ja
Application granted granted Critical
Publication of JP3449165B2 publication Critical patent/JP3449165B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は人間の声を入力して
その入力された単語を認識する単語標準パターン作成装
置、音声認識装置及び音声認識方法に関するものであ
る。
【0002】
【従来の技術】近年、使用者の声を登録することなしに
誰の声でも認識できる音声認識装置が実用的に使われる
ようになった。
【0003】従来例として、特開昭61−188599
号公報に開示された発明に基づく音声認識装置を図面を
参照しながら説明する。図8は従来例に係る音声認識装
置のブロック図である。この音声認識装置は単語標準パ
ターン作成装置および未知入力音声認識装置より構成さ
れる。単語標準パターン作成装置は、複数の話者が実際
に発声した認識対象単語データより単語標準パターンを
作成する装置である。一方、未知入力音声認識装置は、
入力された人間の声と上記の単語標準パターンとを比較
して最も類似度の高い単語標準パターンに対応する認識
対象単語を認識結果として出力する装置である。
【0004】以下に、それぞれフローチャートを用い
て、まず未知入力音声認識装置においてなされる処理を
説明し、次に単語標準パターン作成装置でなされる処理
を説明する。
【0005】図9は従来例に係る音声認識装置の未知入
力音声認識装置における処理を示すフローチャートであ
る。なお、以下の説明において、基準フレーム数はJ
(J=16)とする。
【0006】処理901では、音声入力部801が未知
入力音声を入力する。処理902では、音響分析部80
2が、分析時間(以下フレームという。本従来例では1
フレーム=10msとする。)ごとに、上記の入力された音
声に関して線形予測(LPC)分析を行なう。
【0007】処理903では、特徴パラメータ抽出部8
03がP個の特徴パラメータをフレームごとに求める。
特徴パラメータは、ここでは、LPCメルケプストラム
係数C1〜C0、正規化残差C0、および音声対数パワーの時
間差分値V0の12個(P=12)とする。従って、1フレー
ムごとに12個の特徴パラメータを用いることになる。
以下では、i番目のフレーム(i=1,2,...,I)のp番目
の特徴パラメータはCipと表記する。
【0008】処理904では、音声区間検出部804が
入力音声の始端フレーム、終端フレームを検出する。音
声区間の検出は、音声パワーを用いる方法が一番簡単で
あるが、この方法に限定するものではなく別の方法を用
いてもよい。
【0009】処理905では、時間軸線形正規化部80
5が、検出された音声区間に対して、入力音声の特徴パ
ラメータ時系列を基準フレームに線形伸縮する。図11
は、入力音声が「あさひ」である場合に未知入力音声の
特徴パラメータ時系列を基準フレームに線形伸縮して入
力時系列パターンXを作成する方法を示す。単語「あさ
ひ」のフレーム数はI(I>J)であるので、Iフレー
ムの時系列パターンをJフレームの時系列パターンに縮
減する。本例では、時系列的に第1番目のフレームを入
力時系列パターンXの第1番目のフレームとする。以後
は、3フレームごとに入力時系列パターンXのフレーム
とする。すなわち、検出された入力音声区間の始端フレ
ームを第1番目のフレーム、終端フレームを第I番目の
フレームとすると、伸縮後の第jフレームと入力音声の
第i(i=1,2,...,I)フレームの関係は、
【0010】
【数1】
【0011】となる。ただし、[](ガウス記号)はそ
の数を越えない最大の整数を表す。時間軸線形正規化部
805は伸縮後のJフレーム分の特徴パラメータを時系
列に並べた入力音声の時系列パターンXを作成する。
【0012】
【数2】
【0013】このように時系列パターンXを一つのベク
トルとして扱うことにより、パラメータのフレーム間の
相関を考慮することになる。
【0014】処理906では、距離計算部807が上記
入力音声時系列パターンXと単語標準パターン格納部8
06に格納されているN種の認識対象単語の各々の単語
標準パターンとの距離を求める。この処理の詳細は後述
する。
【0015】処理907では、距離比較部808が、距
離計算部807で求めた各々の標準パターンとの距離の
中で最小(類似度が最大)の値をもつ単語標準パターン
に対応する音声名を認識結果として選択して出力する。
【0016】以上の処理により未知入力音声を入力して
この未知入力音声と最も類似度の高い認識対象単語を選
択する。
【0017】次に、フローチャートおよび図面を用い
て、単語標準パターン作成装置でなされる処理を説明す
る。
【0018】図10は、従来例に係る音声認識装置の単
語標準パターン作成装置における処理を示すフローチャ
ートである。また、図12は、この単語標準パターン作
成装置における処理の中で、認識対象単語発声データか
ら共通化共分散行列Wを求めるまでの方法を概念的に示
した説明図である。認識対象単語はω1が「はちの
へ」、ω2が「けせんぬま」、ωnが「あさひ」、・・
・、ωNが「きよせ」である(N=1,2,...,100)。また、
話者はM人である(M=100)。図13は、図12で、話
者mが発声した単語「あさひ」の単語発声データ(網か
け部分)に着目して、この話者mの単語ωnに対する時系
列パターンCmを求める方法を説明する説明図である。
【0019】処理1001では、音響分析部811が、
認識対象単語発声データ格納部810に格納されたN種
の認識対象単語についてM人(ここでは人数M=100名)
が発声した認識対象単語発声データを、認識時と同様
に、フレームごとにLPC分析を行なう。
【0020】処理1002では、特徴パラメータ抽出部
812が、フレームごとにP個の特徴パラメータを求め
る。図13において、i番目のフレームにおけるp番目
の特徴パラメータはCipと表す。ここで、各フレームご
とにもとめる特徴パラメータは12個であって、LPC
メルケプストラム係数C1〜C10、正規化残差C0、および
音声対数パワーの時間差分値V0の12個(P=12)である。
【0021】処理1003では、音声区間検出部813
が認識対象単語発声データの始端フレームおよび終端フ
レームを検出する。図13では、話者mが発声した単語
「あさひ」の音声区間が検出された結果、音声区間がI
フレームになったとしている。
【0022】処理1004では、時間軸線形正規化部8
14が、まず、検出された音声区間に対して、認識対象
単語発声データの特徴パラメータ時系列を基準フレーム
に線形伸縮する。図12、図13の例では、話者mが発
声した単語「あさひ」はフレーム数がIであるので、I
フレームをJフレームまで縮減する。本例では、時系列
的に第1番目のフレームをCmの第1番目のフレームと
する。以後は、3フレームごとにCmのフレームとす
る。すなわち、検出された入力音声区間の始端フレーム
を第1番目のフレーム、終端フレームを第I番目のフレ
ームとすると、伸縮後の第jフレームと入力音声の第i
フレームの関係は(数1)となる。ただし、[]はその
数を越えない最大の整数を表す。伸縮後のJフレーム分
の特徴パラメータを時系列に並べた認識対象単語発声デ
ータの時系列パターンCmを作成する。
【0023】
【数3】
【0024】処理1005では、単語平均値ベクトルμ
n計算部815が単語ωnの情報を含むM個の時系列パタ
ーンCmから単語ωnに対する平均値ベクトルμnを求め
る。平均値ベクトルμnは認識対象単語ωnの各々(n=1,
…,N)に対して求める。
【0025】処理1006では、単語共分散行列Wn計
算部816が単語ωnの情報を含むM個の時系列パターン
mから単語ωnに対する共分散行列Wnを求める。共分
散行列Wnは認識対象単語ωnの各々(n=1,…,N)に対して
求める。
【0026】処理1007では、共通化共分散行列計算
部817が、以下の式
【0027】
【数4】
【0028】に基づいて、共通化共分散行列Wを求め
る。処理1008では、単語標準パターン作成部818
が(数5)、(数6)
【0029】
【数5】
【0030】
【数6】
【0031】で表される単語標準パターンを作成する。
作成された単語標準パターンは単語標準パターン格納部
806に登録する。
【0032】以上の処理により認識対象単語発声データ
より単語標準パターンを作成する。なお、(数5)、
(数6)については以下で説明する距離計算部807に
おける距離計算方法の中であわせて説明する。
【0033】以下では、図9の処理906において、距
離計算部807が入力音声時系列パターンXと単語標準
パターンとの距離計算を行なう方法を説明する。
【0034】入力音声時系列パターンXと単語標準パタ
ーンとの距離計算は、共分散行列を共通化したベイズ判
定に基づく距離を用いて計算する。ベイズ判定に基づく
距離は以下のようにして求める。(数2)で表される入
力ベクトルXが観測されたときにそれが単語ωnである
確率P(ωn|X)はベイズの定理より
【0035】
【数7】
【0036】となる。P(X|ωn)は事前確率で、入力が
カテゴリーωnであったときに入力ベクトルXが観測さ
れる確率、P(X)は生起し得るすべての入力を考えた場
合のベクトルXが観測される確率である。単語ωnの出
現確率P(ωn)は各単語同じと仮定して定数とし、入力
Xが一定とするとP(X)が定数となるので、事前確率P
(X|ωn)を最大とするカテゴリーωnを判定結果とすれ
ばよい。パラメータの分布を正規分布と考え、単語ωn
の単語平均値ベクトルをμn、単語共分散行列をWnとす
ると、事前確率P(X|ωn)は(数8)で表される。
【0037】
【数8】
【0038】ここでtは転置行列を表す。両辺の対数を
とって識別に不要な定数項を省略しさらに−2倍すると
次式を得る。
【0039】
【数9】
【0040】この式は単語ωnに対するベイズ判定に基
づく距離である。計算量および推定パラメータ数削減の
ため、全共分散行列を共通化してこの式を線形一次判別
式に展開する。認識対象単語の各々の標準パターンの共
分散行列Wnを共通化し、Wとする。Wは(数4)のよ
うにして求める。したがって
【0041】
【数10】
【0042】とおくことができる。これを(数9)に代
入し識別に不要な定数項を省略すると、
【0043】
【数11】
【0044】となり、(数5)、(数6)とおくことに
より、
【0045】
【数12】
【0046】のような線形一次判別式になることがわか
る。このようにしてAn,Bnを認識対象単語の各々に対
して求め、単語標準パターンとし、単語標準パターン格
納部806に登録する。距離計算部807では(数1
2)を用いて入力音声時系列パターンXと、単語ωn
標準パターンとの距離Lnを求める。
【0047】
【発明が解決しようとする課題】上述した従来例に係る
音声認識装置には、音声認識時における計算量が少ない
という実用的な利点がある一方、次のような課題があ
る。すなわち、認識対象単語を1語のみ追加するためだ
けでも、この単語を多数の話者が実際に発声した膨大な
数の音声データの収録があらためて必要となるが、音声
区間位置のラベル付けは非常に作業量が多いために、ユ
ーザが追加・変更することは困難であった。また、実用
上音声認識の対象単語は頻繁に変更する必要があるの
で、これらの課題は、実用的な音声認識装置の実現する
ためには必ず解決しなければならないものである。
【0048】本発明は上記の課題を解決するためになさ
れたもので、認識対象単語を追加する場合に、あらたに
その単語を多数の話者が実際に発声した膨大な数の音声
データを収録しなおすことなく、その認識対象単語に対
応する単語標準パターンをユーザでも簡単に作成できる
音声認識装置を提供することを目的とする。
【0049】
【課題を解決するための手段】上記課題を解決するため
に本発明では、音声認識装置で用いる認識対象単語の単
語標準パターンを以下のように作成する手段を採用す
る。すなわち、複数の話者の単語発声データを音響分析
することにより特徴パラメータを抽出して所定の音声片
単位、例えは「母音+子音」で話者ごとに音声片を作成
する手段と、所定の表記法、例えば仮名表記で、認識対
象単語を格納する手段と、上記の認識対象単語を参照し
て複数の音声片を結合することにより擬似的に認識対象
単語パターンを作成する手段とを備えた単語標準パター
ン作成装置を備えている。本発明に基づく音声認識装置
は、あらかじめ用意された多数の話者が発声した音韻バ
ランス単語セットの単語発声データを組合わせて任意の
認識対象単語データから疑似的に任意の単語標準パター
ンを作成するものである。
【0050】さらに、本発明に基づく音声認識装置は、
使用者が自由に認識対象単語を追加および削除すること
のできる単語標準パターン作成部を設けることにより、
使用者が認識対象単語かな表記辞書を変更するだけで、
容易に認識対象単語を変更する態様を採ることができ
る。
【0051】
【発明の実施の形態】本発明の請求項1および請求項
に記載した発明は、複数話者の単語発声データを音響分
し、抽出した特徴パラメータから話者毎に音声片単位
の特徴パラメータ時系列の平均パターンを求め、予め
記音声片単位の特徴パラメータ時系列の平均パターンを
格納しておく音声片平均パターン格納と、前記話者毎
前記音声片単位の特徴パラメータ時系列の平均パター
ンを接続し、前記話者毎に認識対象単語毎の時系列パタ
ーンを作成する認識対象疑似単語データ作成と、前記
話者毎の認識対象単語毎の時系列パターンから複数話者
に共通の認識対象単語毎の単語平均値ベクトルを求める
単語平均値ベクトル作成部と、前記話者毎の認識対象単
語毎の時系列パターンから求められる前記認識対象単語
毎の共分散行列を用いて、全ての認識対象単語に共通の
共分散行列である共通化共分散行列を求める共通化共分
散行列計算部と、前記単語平均値ベクトルと前記共通化
共分散行列とにより示される単語標準パターンを前記認
識対象単語毎に作成する単語標準パターン作成とを具
備するものであり、単語標準パターンを作成する場合
に、作成する単語に関する多数の話者の発声データをあ
らためて収集するのではなく、複数の音声片情報を結合
して擬似的に認識対象単語パターンを作成することによ
り認識対象単語の単語標準パターンを簡便に作成するこ
とができるという作用を有する。
【0052】
【0053】請求項および請求項に記載の発明は、
認識対象単語の追加又は変更は、認識対象疑似単語デー
タ作成部が、予め格納された音声片単位の特徴パラメー
タ時系列の平均パターンを接続し、話者毎の追加又は変
更する認識対象単語時系列パターンを作成し、単語平
均値ベクトル作成部が、前記話者毎の追加又は変更する
認識対象単語の時系列パターンから前記追加又は変更す
る認証対象単語の単語平均値ベクトルを求め、共通化共
分散行列計算部が、前記話者毎の追加又は変更する認識
対象単語の時系列パターンから求められる前記追加又は
変更する認識対象単語の共分散行列を含む全ての認証対
象単語に共通の共分散行列である共通化共分散行列を求
めることを特徴とするもので、新たな認識対象単語を追
加する場合に、追加する単語に関する多数の話者の発声
データをあらためて収集するのではなく、複数の音声片
を結合して擬似的に音声認識対象単語情報を作成するこ
とにより認識対象単語の単語標準パターンを簡便に作成
することができるという作用を有する。
【0054】請求項に記載の発明は、複数話者の単語
発声データが学習用音韻バランス単語セット発声データ
であることを特徴とするもので、複数の話者が発する複
数の音韻がバランスよく入っており偏りのない単語標準
パターンを作成することができるという作用を有する。
【0055】請求項およびに記載の発明は、請求項
1乃至4のいずれかに記載の単語標準パターン作成装置
で予め作成された単語標準パターンと入力音声とから単
語を認識することを特徴とするもので、新たな認識対象
単語を追加する場合に、追加する単語に関する多数の話
者の発声データをあらためて収集するのではなく、複数
の音声片情報を結合して擬似的に音声認識対象単語情報
を作成することにより認識対象単語の単語標準パターン
を簡便にかつ高速に作成することができる音声認識装置
を提供するという作用を有する。
【0056】請求項10、請求項11および請求項12
に記載の発明は、コンピュータによって音声認識用の単
語標準パターン作成プログラムを記録した記録媒体であ
って、複数話者の単語発声データを音響分析し、抽出し
た特徴パラメータから話者毎に音声片単位の特徴パラメ
ータ時系列の平均パターンを求めて予め格納し、前記話
者毎に前記音声片単位の特徴パラメータ時系列の平均パ
ターンを接続し、前記話者毎に認識対象単語毎の時系列
パターンを求め、前記認識対象単語毎の時系列パターン
から前記認識対象単語毎の単語平均値ベクトルを求め、
前記話者毎の認識対象単語毎の時系列パターンから求め
られる前記認識対象単語毎の共分散行列を用いて、全て
の認識対象単語に共通の共分散行列である共通化共分散
行列を求め、前記単語平均値ベクトルと前記共通化共分
散行列とにより示される単語標準パターンを前記認識対
象単語毎に作成することを特徴とする単語標準パターン
作成プログラムを記録した記録媒体であり、コンピュー
タにより実現可能となり、新たな認識対象単語を追加す
る場合に、追加する単語に関する多数の話者の発声デー
タをあらためて収集するのではなく、複数の音声片情報
を結合して擬似的に認識対象単語パターンを作成するこ
とにより認識対象単語の単語標準パターンをコンピュー
タでも簡便にかつ高速に作成することができるという作
用を有する。
【0057】以下、図面を参照しながら本発明に基づく
実施の形態を説明する。 (実施の形態1)図1は、本発明の実施の形態1の音声
認識装置のブロック図を示す。この音声認識装置は、単
語標準パターン作成装置および未知入力音声認識装置よ
り構成される。単語標準パターン作成装置は、複数の話
者が実際に発声した学習用音韻バランス単語セット発声
データより未知入力音声認識装置において用いられる単
語標準パターンを作成する装置である。
【0058】図1における単語標準パターン作成装置
は、112は複数話者の単語発声データ111をLPC
分析を行う音響分析部、113はフレームごとに特徴パ
ラメータを求める特徴パラメータ抽出部、114は特徴
パラメータ抽出部113により抽出した特徴パラメータ
から話者毎に音声片単位の特徴パラメータ時系列の平均
パターンを格納する音声片平均パターン格納部と、11
6は音声片単位の特徴パラメータ時系列の平均パターン
を話者毎に接続し、認識対象単語かな標記辞書115
認識対象単語を擬似的に認識対象単語時系列パターンを
作成する認識対象疑似単語データ作成部と、120は擬
似的に作成された認識対象単語時系列パターンから単語
標準パターンを作成する単語標準パターン作成部から構
成される。
【0059】一方、未知入力音声認識装置は、未知入力
音声の音声区間を検出し、この未知入力音声に特徴的な
特徴パラメータを抽出し、これらの特徴パラメータを、
あらかじめ作成しておいた単語標準パターンと比較して
最も類似度の高い単語標準パターンに対応する認識結果
を出力する装置である。
【0060】図1に示した未知入力音声認識装置の構成
は、従来例で説明した音声認識装置の未知入力音声認識
装置と同一である。すなわち、図1に示した未知入力音
声認識装置内の構成要素に付された符号101から10
8は、図8に示した未知入力音声認識装置の構成要素に
付された符号801から808に対応する。また、未知
入力音声認識装置における処理も従来例で説明した未知
入力音声認識装置におけるそれと同様であるのでその説
明を省略する。
【0061】従って、以下では単語標準パターン作成装
置における処理のみを説明する。図2は、単語標準パタ
ーン作成装置における処理を示すフローチャートであ
る。
【0062】処理201では、音響分析部112が、学
習用音韻バランス単語セット発声データ格納部111に
格納された学習用音韻バランス単語セット発声データを
について、フレームごとにLPC分析を行なう。学習用
音韻バランス単語セット発声データとは、未知入力音声
認識装置において認識されるべき単語とは関連性のない
単語発声データであって、複数の話者が発する複数の音
韻がバランスよく入っているものである。以下で示す実
施の形態においては、学習用音韻バランス単語セットと
して543単語80名分のデータを用いるものとする(単語
数Q=543,人数M=80名)。
【0063】処理202では、特徴パラメータ抽出部1
13が、フレームごとにP個の特徴パラメータを求め
る。P個のパラメータは、従来例と同様、LPCメルケ
プストラム係数C1〜C10、正規化残差C0、および音声対
数パワーの時間差分値V0の12個(P=12)とする。
【0064】処理203では、音声片平均パターン作成
部114が、学習話者ごとに各音声片の特徴パラメータ
時系列の平均パターンを求める。図3は、学習用音韻バ
ランス単語セット発声データより音声片平均パターンを
求める方法を表した概念図である。まず、図3の上段に
示すように音韻バランス単語セット発声データを音声片
単位に切り分ける。図中では、単語「まえあし(MA-AE-E
A-AS-SI)」、「たそがれ(TA-AS-SO-0G-GA-AR-RE)」の中
に含まれるVC(母音+子音)の成分である音声片/AS/
に注目する。これらの音声片を話者mごとに集め、これ
らを線形伸縮し、話者ごとに特徴パラメータ時系列の平
均パターンUkmを求める。本実施の形態では音声片の単
位をCV(子音+母音)/VC(母音+子音)としてい
る。
【0065】図4は、図3の網かけ部分すなわち、話者
mのデータセット中の音声片/AS/(音声片k)を線形伸縮
して平均パターンUkmを求める方法を表した説明図であ
る。話者mが発声した音韻バランス単語データセットか
ら、語中の/AS/の音声片をその始終端で切り出し、それ
ぞれのフレームを線形伸縮して話者mの/AS/の平均フレ
ーム長(あらかじめ求めておく)に線形伸縮する。ここ
では単語「まえあし」および「たそがれ」よりその中に
含まれる音声片/AS/を抜き出す。そして、これらを平均
して話者mの音声片/AS/の特徴パラメータ時系列の平均
パターンUkmを求める。これを各話者、各音声片ごとに
それぞれ求める。
【0066】本実施の形態では、音声片の単位を、CV
(子音+母音)/VC(母音+子音)としているが、音
素や音節、VCV、CVC等でもよい。また、学習話者
ごとに各音声片の特徴パラメータ時系列の平均パターン
を予め求め、音声片平均パターン格納部等に格納してお
くことが可能である。
【0067】処理204では、認識対象単語データ作成
部116が、認識対象単語かな表記辞書115に従っ
て、上記で求められた平均パターンUkmより、話者ごと
に音声片平均パターンを結合して構成したN種の学習用
単語データをM人分作成する。認識対象単語かな表記辞
書115は、認識対象とするN種の単語をかな文字で記
録している。本実施の形態では、かな表記としたが、ロ
ーマ字表記や音素表記、CV/VC列表記等でもよい。
【0068】図5に、音声片平均パターンから擬似的に
単語標準パターンを作成する方法を示し、以下に説明す
る。例えば、単語「あさひ」に関する単語標準パターン
を擬似的に作成する場合、話者ごとに6つの音声片/<A
/,/AS/,/SA/,/AH/,/HI/,/I>/の特徴パラメータの平均パ
ターンを順に結合して、疑似的に「あさひ」のデータを
作成する。話者ごとに音声片平均パターンのフレーム数
が異なるため、これらを結合して得られる単語データも
話者ごとにフレーム数が異なる。そこで、この認識対象
単語データを認識対象単語データとして、従来例と同様
に、単語標準パターンを作成する。すなわち、単語ωn
のM個の認識対象単語データを(数1)を用いて線形伸
縮を行ないJフレームに正規化し、単語ωnの第m番目
のデータに対して伸縮後の特徴パラメータを時系列に並
べたJ×P次元の時系列パターンCmを求める。
【0069】図6は、図5の網かけ部分、すなわち話者
mの単語ωn「あさひ」に対する時系列パターンCmを求
める方法を概念的に表した説明図である。図中では説明
を簡単にするためにJ=8としてある。単語「あさひ」
はJより大きいフレーム数を有するので、このフレーム
を基準フレーム数Jまで縮減する。すなわち、この例で
は、時系列的に第1番目のフレームをCmの第1番目の
フレームとする。以後は、3フレームごとにCmのフレ
ームとする。すなわち、検出された入力音声区間の始端
フレームを第1番目のフレーム、終端フレームを第I番
目のフレームとすると、伸縮後の第jフレームと入力音
声の第iフレームの関係は(数1)となる。ただ
し、[]はその数を越えない最大の整数を表す。
【0070】伸縮後のJフレーム分の特徴パラメータを
時系列に並べた認識対象単語データの時系列パターンC
mを作成する。時系列パターンCmは(数3)で表され
る。時系列パターンCmを一つのベクトルとして扱うこ
とにより、パラメータのフレーム間の相関を考慮するこ
とになる。
【0071】処理205では、単語平均値ベクトルμn
計算部117が単語ωnの情報を含むM個の時系列パタ
ーンCmから単語ωnに対する平均値ベクトルμnを求め
る。平均値ベクトルμnは、認識対象単語ωnの各々(n=
1,…,N)に対して求める。
【0072】処理206では、単語共分散行列Wn計算
部118が、単語ωnのM個の時系列パターンCmから単
語ωnに対する共分散行列Wnを求める。共分散行列Wn
は、認識対象単語ωnの各々(n=1,…,N)に対して求め
る。
【0073】処理207では、共通化共分散行列計算部
119が、(数4)により共通化共分散行列Wを求め
る。
【0074】処理208では、単語標準パターン作成部
120が平均値ベクトルμnおよび共通化共分散行列W
より(数5)、(数6)で表される単語標準パターンを
作成し、単語標準パターン格納部106に登録する。
【0075】以上、説明したように、単語標準パターン
作成装置と未知入力音声認識装置で構成される音声認識
装置は、認識対象単語を作成または変更する場合に、単
語に関する多数の話者の発声データをあらためて収集す
るのではなく、予め求めておいた音声片単位の特徴パラ
メータ時系列の平均パターンを結合して、擬似的に音声
認識対象単語パターンを作成することにより認識対象単
語の単語標準パターンを簡便に作成することができる。
【0076】また、音声認識装置は、コンピュータによ
って音声認識するプログラムを実行することにより実現
可能であり、図2の処理201〜処理208の処理手順
や図9の処理901〜処理907の処理手順をプログラ
ム化した音声認識プログラムを記録した記録媒体(例え
ば、フロッピィディスク、CR−ROM等)を介してコ
ンピュータに取り込み実行するものである。単語標準パ
ターンも予め記録媒体に記憶して、同様にコンピュータ
に取り込むことも可能である。
【0077】(実施の形態2) 図7は、実施の形態2の音声認識装置のブロック図を示
す。この音声認識装置は、音声片平均パターン作成装
置、単語標準パターン作成装置および未知入力音声認識
装置より構成される。ここで、実施の形態1と同じ処理
を行なう部分には同じ符号を付している。音声片平均パ
ターン作成装置は、複数の話者が実際に発声した学習用
音韻バランス単語発声データより音声片平均パターンを
作成する装置である。
【0078】図7に示した未知入力音声認識装置の構成
は、実施の形態1の音声認識装置における未知入力音声
認識装置と同一であり(図1参照)、そこでなされる処
理は実施の形態1における未知入力音声認識装置のそれ
と同様であるのでその説明を省略する。
【0079】本実施の形態に係る音声平均パターン作成
装置および単語標準パターン作成装置における処理自体
は、実施の形態1における単語標準パターン作成装置に
おける処理と同一であるので、図2を参照して説明す
る。
【0080】まず、音声片平均パターン作成装置におけ
る処理を説明する。処理201では、音響分析部112
が、学習用音韻バランス単語セット発声データ格納部1
11に格納された学習用音韻バランス単語セット発声デ
ータをについて、フレームごとにLPC分析を行なう。
【0081】処理202では、特徴パラメータ抽出部1
13が、フレームごとにP個の特徴パラメータを求め
る。P個のパラメータは、従来例と同様、LPCメルケ
プストラム係数C1〜C10、正規化残差C0、および音声対
数パワーの時間差分値V0の12個(P=12)とする。
【0082】処理203では、音声片平均パターン作成
部114が、学習話者ごとに各音声片の特徴パラメータ
時系列の平均パターンを求める。その求め方は実施の形
態1において説明したものと同一であるのでその説明は
省略する。作成された音声片平均パターンは音声片平均
パターン格納部123に格納される。この音声片平均パ
ターン格納部123を単語標準パターン作成装置に設け
ることにより、実施の形態1における単語標準パターン
作成装置を音声片平均パターン作成装置および新たな単
語標準パターン作成装置に分けることができる。
【0083】次に、単語標準パターン作成装置における
処理を説明する。処理204では、認識対象疑似単語デ
ータ作成部116が、認識対象単語かな表記辞書115
に従って、音声片平均パターン格納部123に格納され
た音声片平均パターンより、話者ごとに音声片平均パタ
ーンを結合して構成したN種の学習用単語データをM人
分作成する。認識対象単語かな表記辞書115は、認識
対象とするN種の単語がをかな文字で記録している。本
実施の形態では、かな表記としたが、ローマ字表記や音
素表記、CV/VC列表記等でもよい。音声片平均パタ
ーンから単語標準パターンを作成する方法は実施の形態
1において説明したものと同一であるのでその説明は省
略する。
【0084】また、認識対象単語の追加または変更は、
認識対象単語かな表記辞書115の書き換えによって行
われる。
【0085】処理205では、単語平均値ベクトルμn
計算部117が、単語ωnの情報を含むM個の時系列パ
ターンCmから単語ωnに対する平均値ベクトルμnを求
める。平均値ベクトルμnは認識対象単語ωnの各々(n=
1,…,N)に対して求める。
【0086】処理206では、単語共分散行列Wn計算
部118が、単語ωnのM個の時系列パターンCmから単
語ωnに対する共分散行列Wnを求める。共分散行列Wn
は認識対象単語ωnの各々(n=1,…,N)に対して求める。
【0087】処理207では、共通化共分散行列計算部
119が、(数4)により共通化共分散行列Wを求め
る。
【0088】処理208では、単語標準パターン作成部
120が平均値ベクトルμnおよび共通化共分散行列W
より(数5)、(数6)で表される単語標準パターンを
作成し、単語標準パターン格納部106に登録する。
【0089】以上、説明したように、認識対象単語の認
識対象単語情報を作成または変更する場合に、単語に関
する多数の話者の発声データをあらためて収集するので
はなく、予め求めておいた音声片単位の特徴パラメータ
時系列の平均パターンを結合して、擬似的に音声認識対
象単語を作成することにより認識対象単語の単語標準パ
ターンを簡便かつ高速に作成することができるものであ
る。
【0090】音声認識装置は、コンピュータによって音
声認識するプログラムを実行することにより実現可能で
あり、図2の処理201〜処理203、処理204〜処
理208の処理手順および図9の処理901〜処理90
7の処理手順をプログラム化した音声認識プログラムを
記録した記録媒体(例えば、フロッピィディスク、CR
−ROM等)を介してコンピュータに取り込み実行する
ことができるものである。
【0091】また、実施の形態2に係る音声認識装置で
は、例えば音声認識装置を作るメーカ側が計算処理能力
の高いワークステーションで作成した音声片平均パター
ンデータと音声認識プログラムを供給し、実際に使うユ
ーザはパソコン等で認識対象単語を自由に辞書登録し、
さらに音声認識プログラムにより辞書から単語標準パタ
ーンの作成と音声認識を行うことにより、ユーザ側で自
由度のある音声認識を可能とするものである。従って、
ユーザは認識対象単語辞書を編集することにより、容易
に認識対象単語の追加・変更を行なうことができるもの
である。
【0092】
【発明の効果】以上のように本発明によれば、あらかじ
め用意された多数の話者が発声した単語発声データを音
響分析により抽出した特徴パラメータから話者毎に音声
片単位の特徴パラメータ時系列の平均パターンを話者ご
とに接続し認識対象単語パターンを疑似的に作成するこ
とにより、任意の単語標準パターンを作成できるように
なるため、認識対象単語を容易に変更することができ、
極めて実用的な音声認識装置を実現することができる。
また、共通化共分散行列を音韻バランス単語データセッ
トから作成することにより、汎用的な共通化共分散行列
が得られ、より容易に単語標準パターンを作成すること
ができる。
【0093】さらに、本発明に基づく音声認識装置は、
使用者が自由に認識対象単語を追加および削除すること
のできる単語標準パターン作成部を設けることにより、
使用者は認識対象単語辞書を変更するだけで、容易に認
識対象単語を変更することができ、実用上極めて有効な
方法であり、その効果は大きい。
【図面の簡単な説明】
【図1】実施の形態1による音声認識装置のブロック図
【図2】単語標準パターン作成装置における処理を示す
フローチャート
【図3】音声片平均パターンの作成方法を説明する概念
【図4】話者mの音声片/AS/の平均パターンの作成方法
を説明する概念図
【図5】単語平均値ベクトルおよび単語共分散行列を求
める方法を説明する概念図
【図6】話者mの単語ωnに対する時系列パターンCmを
求める方法を説明する概念図
【図7】実施の形態2による音声認識装置のブロック図
【図8】従来例による音声認識装置のブロック図
【図9】未知入力音声認識装置における処理を示すフロ
ーチャート
【図10】単語標準パターン作成装置における処理を示
すフローチャート
【図11】未知入力音声の特徴パラメータ時系列より入
力時系列パターンXを作成する方法を示す説明図
【図12】認識対象単語発声データから共通化共分散行
列Wを求めるまでの方法を概念的に示した説明図
【図13】単語標準パターン作成装置において話者mの
単語ωnに対する時系列パターンCmを求める方法を説明
する説明図
【符号の説明】
101、801 音声入力部 102、802 音響分析部 103、803 特徴パラメータ抽出部 104、804 音声区間検出部 105、805 時間軸線形正規化部 106、806 単語標準パターン格納部 107、807 距離計算部 108、808 距離比較部 111 学習用音韻バランス単語セット発声データ格納
部 112、811 音響分析部 113、812 特徴パラメータ抽出部 114 音声片平均パターン作成部 115 認識対象単語かな表記辞書 116 認識対象単語データ作成部 117、815 単語平均値ベクトルμn計算部 118、816 単語共分散行列Wn計算部 119、817 共通化共分散行列W計算部 120 818 単語標準パターン作成部 123 音声片平均パターン格納部 810 認識対象単語発声データ格納部 813 音声区間検出部 814 時間軸線形正規化部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平6−266393(JP,A) 特開 平6−259089(JP,A) 特開 平9−68995(JP,A) 特開 昭61−188599(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/10

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数話者の単語発声データを音響分析
    し、抽出した特徴パラメータから話者毎に音声片単位の
    特徴パラメータ時系列の平均パターンを求め、予め前記
    音声片単位の特徴パラメータ時系列の平均パターンを格
    納しておく音声片平均パターン格納部と、前記話者毎に
    前記音声片単位の特徴パラメータ時系列の平均パターン
    を接続し、前記話者毎に認識対象単語毎の時系列パター
    ンを作成する認識対象疑似単語データ作成部と、前記話
    者毎の認識対象単語毎の時系列パターンから複数話者に
    共通の認識対象単語毎の単語平均値ベクトルを求める単
    語平均値ベクトル作成部と、前記話者毎の認識対象単語
    毎の時系列パターンから求められる前記認識対象単語毎
    の共分散行列を用いて、全ての認識対象単語に共通の共
    分散行列である共通化共分散行列を求める共通化共分散
    行列計算部と、前記単語平均値ベクトルと前記共通化共
    分散行列とにより示される単語標準パターンを前記認識
    対象単語毎に作成する単語標準パターン作成部とを具備
    することを特徴とする単語標準パターン作成装置。
  2. 【請求項2】 認識対象単語の追加又は変更は、認識対
    象疑似単語データ作成部が、予め格納された音声片単位
    の特徴パラメータ時系列の平均パターンを接続し、話者
    毎の追加又は変更する認識対象単語の時系列パターンを
    作成し、単語平均値ベクトル作成部が、前記話者毎の追
    加又は変更する認識対象単語の時系列パターンから前記
    追加又は変更する認証対象単語の単語平均値ベクトルを
    求め、共通化共分散行列計算部が、前記話者毎の追加又
    は変更する認識対象単語の時系列パターンから求められ
    る前記追加又は変更する認識対象単語の共分散行列を含
    む全ての認証対象単語に共通の共分散行列である共通化
    共分散行列を求めることを特徴とする請求項1記載の単
    語標準パターン作成装置。
  3. 【請求項3】 複数話者の単語発声データが学習用音韻
    バランス単語セット発声データであることを特徴とする
    請求項1又は2記載の単語標準パターン作成装置。
  4. 【請求項4】 音声片は、音素、音節、CV(母音+子
    音)/VC(子音+母音)またはVCV、CVCとする
    ことを特徴とする請求項1乃至3のいずれかに記載の単
    語標準パターン作成装置。
  5. 【請求項5】 請求項1乃至4のいずれかに記載の単語
    標準パターン作成装置で予め作成された単語標準パター
    ンと入力音声とから単語を認識することを特徴とする音
    声認識装置。
  6. 【請求項6】 音声認識用単語標準パターンを格納する
    単語標準パターン格納部と、未知入力音声を所定の分析
    時間ごとに音響分析を行う音響分析部と、前記分析時間
    ごとに前記未知入力音声に関する特徴パラメータを抽出
    する特徴パラメータ抽出部と、前記未知入力音声の始端
    および終端を検出する音声区間検出部と、前記特徴パラ
    メータを所定の分析時間数に線形伸縮して入力音声時系
    列パターンを作成する時間軸線形正規化部と、前記入力
    音声時系列パターンと複数の認識対象単語に対してあら
    かじめ登録されている単語標準パターンとを、統計的距
    離尺度を用いて照合することにより入力音声と各単語標
    準パターンの距離を求める距離計算部と、前記距離計算
    部において入力音声との距離差が最小となる単語標準パ
    ターンに対応する単語音声名を認識結果として出力する
    距離比較部とから構成されることを特徴とする請求項5
    記載の音声認識装置。
  7. 【請求項7】 複数話者の単語発声データを音響分析
    し、抽出した特徴パラメータから話者毎に音声片単位の
    特徴パラメータ時系列の平均パターンを求めて予め格納
    し、前記話者毎に前記音声片単位の特徴パラメータ時系
    列の平均パターンを接続し、前記話者毎に認識対象単語
    毎の時系列パターンを求め、前記話者毎の認識対象単語
    毎の時系列パターンから前記認識対象単語毎の単語平均
    値ベクトルを求め、前記話者毎の認識対象単語毎の時系
    列パターンから求められる前記認識対象単語毎の共分散
    行列を用いて、全ての認識対象単語に共通の共分散行列
    である共通化共分散行列を求め、前記単語平均値ベクト
    ルと前記共通化共分散行列とにより示される単語標準パ
    ターンを前記認識対象単語毎に作成することを特徴とす
    る単語標準パターン作成方法。
  8. 【請求項8】 認識対象単語の追加又は変更は、予め格
    納された音声片単位の特徴パラメータ時系列の平均パタ
    ーンを接続し、話者毎の追加又は変更する認識対象単語
    の時系列パターンを作成し、前記話者毎の追加又は変更
    する認識対象単語の時系列パターンから前記追加又は変
    更する認証対象単語の単語平均値ベクトルを求め、前記
    話者毎の追加又は変更する認識対象単語の時系列パター
    ンから求められる前記追加又は変更する認識対象単語の
    共分散行列を含む全ての認証対象単語に共通の共分散行
    列である共通化共分散行列を求めることを特徴とする請
    求項7記載の単語標準パターン作成方法。
  9. 【請求項9】 請求項7又は8記載の単語標準パターン
    作成方法で予め作成された単語標準パターンと入力音声
    とから単語を認識することを特徴とする音声認識方法。
  10. 【請求項10】 コンピュータによって音声認識用の単
    語標準パターン作成プログラムを記録した記録媒体であ
    って、複数話者の単語発声データを音響分析し、抽出し
    た特徴パラメータから話者毎に音声片単位の特徴パラメ
    ータ時系列の平均パターンを求めて予め格納し、前記話
    者毎に前記音声片単位の特徴パラメータ時系列の平均パ
    ターンを接続し、前記話者毎に認識対象単語毎の時系列
    パターンを求め、前記認識対象単語毎の時系列パターン
    から前記認識対象単語毎の単語平均値ベクトルを求め、
    前記話者毎の認識対象単語毎の時系列パターンから求め
    られる前記認識対象単語毎の共分散行列を用いて、全て
    の認識対象単語に共通の共分散行列である共通化共分散
    行列を求め、前記単語平均値ベクトルと前記共通化共分
    散行列とにより示される単語標準パターンを前記認識対
    象単語毎に作成することを特徴とする単語標準パターン
    作成プログラムを記録した記録媒体。
  11. 【請求項11】 コンピュータによって音声認識用の単
    語標準パターン作成プログラムを記録した記録媒体であ
    って、認識対象単語の追加又は変更は、予め格納された
    音声片単位の特徴パラメータ時系列の平均パターンを接
    続し、話者毎の追加又は変更する認識対象単語の時系列
    パターンを作成し、前記話者毎の追加又は変更する認識
    対象単語の時系列パターンから前記追加又は変更する認
    識対象単語の単語平均値ベクトルを求め、前記話者毎の
    追加又は変更する認識対象単語の時系列パターンから求
    められる前記追加又は変更する認識対象単語の共分散行
    列を含む全ての認証対象単語に共通の共分散行列である
    共通化共分散行列を求めることを特徴とする請求項10
    記載の単語標準パターン作成プログラムを記録した記録
    媒体。
  12. 【請求項12】 コンピュータによって音声認識をする
    プログラムを記録した記録媒体であって、請求項10又
    は11記載の単語標準パターン作成方法で予め作成され
    た単語標準パターンと入力音声とから単語を認識するこ
    とを特徴とする音声認識プログラムを記録した記録媒
    体。
JP10444897A 1997-04-22 1997-04-22 単語標準パターン作成装置、音声認識装置及びその方法 Expired - Fee Related JP3449165B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10444897A JP3449165B2 (ja) 1997-04-22 1997-04-22 単語標準パターン作成装置、音声認識装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10444897A JP3449165B2 (ja) 1997-04-22 1997-04-22 単語標準パターン作成装置、音声認識装置及びその方法

Publications (2)

Publication Number Publication Date
JPH10293596A JPH10293596A (ja) 1998-11-04
JP3449165B2 true JP3449165B2 (ja) 2003-09-22

Family

ID=14380925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10444897A Expired - Fee Related JP3449165B2 (ja) 1997-04-22 1997-04-22 単語標準パターン作成装置、音声認識装置及びその方法

Country Status (1)

Country Link
JP (1) JP3449165B2 (ja)

Also Published As

Publication number Publication date
JPH10293596A (ja) 1998-11-04

Similar Documents

Publication Publication Date Title
US6571210B2 (en) Confidence measure system using a near-miss pattern
Das et al. Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers
EP1647970A1 (en) Hidden conditional random field models for phonetic classification and speech recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
Nasereddin et al. Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
US20040122672A1 (en) Gaussian model-based dynamic time warping system and method for speech processing
Bharali et al. Speech recognition with reference to Assamese language using novel fusion technique
Gholamdokht Firooz et al. Spoken language recognition using a new conditional cascade method to combine acoustic and phonetic results
JP2955297B2 (ja) 音声認識システム
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
Wu et al. Speaker identification based on the frame linear predictive coding spectrum technique
JP4716125B2 (ja) 発音評定装置、およびプログラム
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Tverdokhleb et al. Implementation of accent recognition methods subsystem for eLearning systems
JP3449165B2 (ja) 単語標準パターン作成装置、音声認識装置及びその方法
JP3129164B2 (ja) 音声認識方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Nahar et al. Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
EP1369847B1 (en) Speech recognition method and system
Kaur et al. Speech based retrieval system for Punjabi language
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees