JP2000347685A - 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 - Google Patents

音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法

Info

Publication number
JP2000347685A
JP2000347685A JP11156741A JP15674199A JP2000347685A JP 2000347685 A JP2000347685 A JP 2000347685A JP 11156741 A JP11156741 A JP 11156741A JP 15674199 A JP15674199 A JP 15674199A JP 2000347685 A JP2000347685 A JP 2000347685A
Authority
JP
Japan
Prior art keywords
word
model
clustering
speech
word model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11156741A
Other languages
English (en)
Other versions
JP3892173B2 (ja
Inventor
Tadashi Suzuki
鈴木  忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP15674199A priority Critical patent/JP3892173B2/ja
Publication of JP2000347685A publication Critical patent/JP2000347685A/ja
Application granted granted Critical
Publication of JP3892173B2 publication Critical patent/JP3892173B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 英語の単語音声を正しく発声しない場合で
も、精度の高い音声認識を実現する。 【解決手段】 再クラスタリング手段11は、第2の単
語モデル109により、単語音声データ103に対しク
ラスタリングを行い隣接する単語音声データを見つけ、
隣接する単語音声データに対する尤度をペナルティとし
て考慮して、単語モデル群108に対するクラスタリン
グを行い、このクラスタリングにおけるセントロイドと
して選択したときの平均尤度を最大にする第3の単語モ
デル111を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、任意の外国語に
ついて、これを母国語としない話者が発声した音声を対
象として認識を行う音声認識装置及び音声認識方法と、
この音声認識装置に用いる音声モデルを作成する音声モ
デル作成装置及び音声モデル作成方法に関するものであ
る。
【0002】
【従来の技術】図2は文献「日本人英語の発話様態を考
慮した英語音声連続認識の検討」(鈴木忠、阿部芳春、
中島邦男、日本音響学会平成10年度秋季研究発表会講
演論文集I,p151−152,1998年9月)に示
されている、従来の日本人英語の音声認識装置の構成を
示すブロック図である。図において、1は音声信号入力
端、2は音声信号入力端1より入力される音声信号10
1に対し音響分析を行い特徴ベクトル時系列102を出
力する音響分析手段、3は音響分析手段2において求め
られた特徴ベクトル時系列102の出力先を切り替える
切り替えスイッチである。
【0003】また、図2において、4は切り替えスイッ
チ3の出力先の一つであり、音響分析手段2で求められ
た特徴ベクトル時系列102を入力して、音声信号10
1の各単語区間に対応する特徴ベクトル時系列を切り出
して、単語音声データ103として出力する単語データ
切り出し手段、5は外国語の音響モデル104,つまり
認識対象となる音声を母国語とする複数の話者が発声し
た音声データにより学習した音響モデル104を格納し
ている音響モデルメモリ、6は単語データ切り出し手段
4が出力した単語音声データ103に対し、音響モデル
メモリ5に格納されている外国語の音響モデル104を
用いて音素タイプライタ処理(連続音素認識)を行い、
音素ラベル系列105を出力する連続音素認識手段であ
る。
【0004】さらに、図2において、7は連続音素認識
手段6が出力した音素ラベル系列105に従い、音響モ
デルメモリ5に格納されている外国語の音響モデル10
4を接続して、第1の単語モデル106を生成する単語
モデル生成手段であり、8は単語データ切り出し手段4
から出力された各単語の単語音声データ103を用い
て、単語モデル生成手段7が生成した第1の単語モデル
106にネイティブ話者の単語モデル107を加えた単
語モデル群108に対して、クラスタリングを行い、こ
のクラスタリングにおけるセントロイド(代表値)とし
て選択したときの平均尤度を最大にする第2の単語モデ
ル109を出力するクラスタリング手段である。
【0005】さらに、図2において、9はクラスタリン
グ手段8が出力した第2の単語モデル109を格納する
単語モデルメモリ、10は切り替えスイッチ3の出力先
の一つであり、単語モデルメモリ9に格納されている第
2の単語モデル109を用いて、音響分析手段2から出
力された認識対象となる音声を母国語としない話者によ
る特徴ベクトル時系列102に対して連続音声認識を行
い、認識結果110を出力する連続音声認識手段であ
る。
【0006】次に動作について説明する。ここでは、外
国語として英語を例に取り、音響モデル104として英
語の疑似音素単位のHMM(Hidden Marko
v Model,隠れマルコフモデル)を用いた場合を
説明する。各音響モデル104は、英語を母国語とする
複数の話者が発声した音声データを用いて学習されたも
のである。最初、英語連続音声認識に用いる第2の単語
モデル109を作成するために、切り替えスイッチ3を
a側に入れておく。
【0007】英語を母国語としない話者が発声した発声
内容既知の英語連続音声による音声信号101は、音声
信号入力端1より入力され、音響分析手段2において分
析フレームごとに音響分析処理が施されて特徴ベクトル
時系列102が出力される。音響分析手段2が出力した
特徴ベクトル時系列102は、切り替えスイッチ3を経
由して単語データ切り出し手段4に入力される。
【0008】単語データ切り出し手段4では、英語連続
音声の特徴ベクトル時系列102から、該英語連続音声
を構成する各単語音声に対応する特徴ベクトル時系列を
抽出し、単語音声データ103として出力する。単語音
声データ103は、1つ以上の英語連続音声の特徴ベク
トル時系列について求められ、{Tk(n)|n=
1...Nk}(ただし、k=1...K)が出力され
る。ここで、kは単語カテゴリナンバーで、単語カテゴ
リ数はK個、Nkはカテゴリナンバーkの単語について
の単語音声データの数である。
【0009】音響モデルメモリ5には、英語を母国語と
する複数の話者が発声した音声データにより学習した疑
似音素単位のHMMが、音響モデル104として格納さ
れており、連続音素認識手段6は、この音響モデル10
4を用いて、単語データ切り出し手段4が出力した単語
音声データ103に対して音素タイプライタ処理(連続
音素認識)を行う。すなわち、疑似音素単位のHMMが
全接続可能で、かつ1回以上任意の回数接続できるモデ
ルとの照合を行い、単語音声データ103に対し最も尤
度が高くなるHMMの系列を求め、このHMMの系列に
対応する疑似音素単位の音素ラベル系列105を出力す
る。
【0010】単語モデル生成手段7は、音素ラベル系列
105を入力して、この音素ラベル系列105に従っ
て、音響モデルメモリ5に格納されている疑似音素単位
のHMMを接続し、第1の単語モデル106として出力
する。すなわち、Tk(n)で示される、ある単語音声
データ103に対する音素ラベル系列105が、s−i
−b−u−m−nのように6個の疑似音素単位のラベル
の系列であるならば、各ラベルに対応する疑似音素単位
のHMMを音響モデルメモリ5から読み出し、Left
−to−rightにHMMを並べて、Pk(n)で示
される第1の単語モデル106を出力する。
【0011】これにより、英語を母国語としない話者が
発声した英語音声における単語の発話様態を、英語を母
国語とする話者の音声データで学習した疑似音素単位の
HMMの系列で表現した第1の単語モデル106が生成
されることとなる。このような処理を、全てのカテゴリ
kと各カテゴリのn=1...Nkについて行う。
【0012】クラスタリング手段8は、単語データ切り
出し手段4から出力された単語音声データ103を用い
て、単語モデル生成手段7から出力された第1の単語モ
デル106に、各単語カテゴリについて英語を母国語と
する話者の該単語音声の発話様態を表すネイティブ話者
単語モデル107を加えた単語モデル群108に対して
クラスタリングを行う。ネイティブ話者単語モデル10
7としては、例えば、英語辞書に記載されているような
発音記号を表すような疑似音素単位の系列に沿って疑似
音素単位のHMMをLeft−to−rightに接続
したモデルを用いている。
【0013】クラスタリング手段8における単語モデル
群108のクラスタリングは、単語カテゴリごとに行わ
れる。クラスタリングを行う単語のカテゴリナンバーを
kとすれば、クラスタリングの対象となる単語モデルの
数は、単語音声データ103の{Tk(n)|n=
1...Nk}に対応して単語モデル生成手段7により
生成された第1の単語モデル106の{Pk(n)|n
=1...Nk}に、ネイティブ話者単語モデル107
のPk,nativeを加えた(Nk+1)個である。
【0014】このNk+1個の単語モデル群108の
{Pk(1),Pk(2)...Pk(Nk),Pk,
native}から、任意のM個の単語モデル{Pk
(m)|m=1...M}を、クラスタリングにおける
セントロイド(各クラスタリングの代表値)として選択
したときの平均尤度Laveを次の(1)式で定義す
る。
【0015】
【数1】
【0016】ここで、L(Tk(n),Pk (m))
は、単語音声データ103のTk(n)と任意のM個の
単語モデルPk (m)とのマッチング尤度である。この
(1)式の平均尤度Laveを最大にする単語モデル
{Pk (m)|m=1...M}が、カテゴリkの第2
の単語モデル109として単語モデルメモリ9に出力さ
れる。これにより求められた単語モデル{Pk(m)|
m=1...M}は、単語音声データ103の{Tk
(n)|n=1...Nk}の発話様態を代表するM個
の単語モデルとなる。このような処理を全てのkについ
て行うことで、全てのカテゴリの単語について、それぞ
れM個の単語モデルが求められ、第2の単語モデル10
9として単語モデルメモリ9に格納される。
【0017】第2の単語モデル109が求められ単語モ
デルメモリ9に格納されると、切り替えスイッチ3はb
側に入れられる。音声信号入力端1より入力される認識
対象となる音声を母国語としない話者が発声した発声内
容未知の音声信号101は、音響分析手段2において音
響分析され、得られた特徴ベクトル時系列102は、切
り替えスイッチ3を介して連続音声認識手段10に入力
される。連続音声認識手段10は、単語モデルメモリ9
に格納されている第2の単語モデル109を用いて音声
認識処理を行い、その認識結果110を出力する。
【0018】
【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、英語を母国語としな
い話者が発声した英語連続音声における単語モデルを求
める時に、その単語カテゴリに含まれる単語音声データ
103だけを使って第2の単語モデル109を選ぶよう
になっていた。
【0019】図3は従来の音声認識装置により、ある単
語カテゴリAの単語音声データ103と第2の単語モデ
ル109を、模式的に2次元で表現した特徴ベクトル時
系列空間上にプロットしたものである。第2の単語モデ
ル109は、特徴ベクトル時系列では表されないため、
その元となった単語音声データ103の特徴ベクトル時
系列102で代用しているものとする。図3において、
●はカテゴリAに属する単語音声データ103,×はク
ラスタリング手段8において、M=4の時に求められた
第2の単語モデル109を表している。破線は、特徴ベ
クトル時系列空間上に占めるカテゴリAの単語音声の空
間である。実線は、各第2の単語モデル109との尤度
がある値をとる特徴ベクトル時系列空間上の範囲を表し
ている。
【0020】従来の音声認識装置では、あるカテゴリに
含まれる複数個の単語音声データ103に対する平均尤
度を最大にする単語モデルを選択するように動作するた
め、図3のように、実線が囲う範囲がカテゴリAの占め
る空間より外にでてしまう可能性があった。すると、図
4のようにカテゴリAに隣接するカテゴリBの単語音声
データ(図中の◇や◆)103に対して、カテゴリBに
ついてクラスタリング手段8で求められた第2の単語モ
デル(図中の+)109に対する尤度より、カテゴリA
の第2の単語モデル109に対する尤度の方が高くなる
ような領域(図中の斜線部)が生じてしまい、この領域
に含まれるような単語音声データ(図中の◆)103が
含まれるようなカテゴリBの連続音声の認識に、誤りが
発生しやすくなるという課題があった。
【0021】これは、英語を母国語としない話者が発声
したあるカテゴリの単語音声には、そのカテゴリとして
正しく発声されていないような音声データが含まれてし
まうことがあり、クラスタリングにおいて、そのような
音声データも含めて平均尤度を最大にする第2の単語モ
デル109を求めていることが原因となっていた。
【0022】この発明は、上記のような課題を解決する
ためになされたもので、隣接する他の単語カテゴリに属
する単語音声データ103との尤度を利用した再クラス
タリングにより単語モデルを求めることで、精度の高い
音声認識を実現する音声認識装置及び音声認識方法、並
びに音声モデル作成装置及び音声モデル作成方法を得る
ことを目的とする。
【0023】
【課題を解決するための手段】この発明に係る音声認識
装置は、入力された音声信号に対して音響分析を行い特
徴ベクトル時系列を出力する音響分析手段と、この音響
分析手段から出力された、認識対象となる音声を母国語
としない話者による特徴ベクトル時系列を入力して、上
記音声信号の各単語区間に対応する特徴ベクトルを切り
出して、単語音声データとして出力する単語データ切り
出し手段と、認識対象となる音声を母国語とする複数の
話者が発声した音声データにより学習した音響モデルを
格納している音響モデルメモリと、この音響モデルメモ
リに格納されている音響モデルを用いて、上記単語デー
タ切り出し手段から出力された単語音声データに対し
て、連続音素認識を行い音素ラベル系列を出力する連続
音素認識手段と、この連続音素認識手段から出力される
音素ラベル系列に従い、上記音響モデルメモリに格納さ
れている音響モデルを接続して、第1の単語モデルを生
成する単語モデル生成手段と、上記単語データ切り出し
手段から出力された単語音声データを用いて、上記単語
モデル生成手段により生成された第1の単語モデルに、
認識対象となる音声を母国語とする話者の発話様態を表
すネイティブ話者単語モデルを加えた単語モデル群に対
してクラスタリングを行い、このクラスタリングにおけ
るセントロイドとして選択したときの平均尤度を最大に
する第2の単語モデルを出力するクラスタリング手段
と、このクラスタリング手段から出力される第2の単語
モデルにより、上記単語データ切り出し手段から出力さ
れた単語音声データに対してクラスタリングを行うこと
で隣接する単語音声データを見つけ、この隣接する単語
音声データに対する尤度をペナルティとして考慮して、
上記単語モデル群に対するクラスタリングを行い、この
クラスタリングにおけるセントロイドとして選択したと
きの平均尤度を最大にする第3の単語モデルを出力する
再クラスタリング手段と、この再クラスタリング手段か
ら出力される第3の単語モデルを格納する単語モデルメ
モリと、この単語モデルメモリに格納されている第3の
単語モデルを用いて、上記音響分析手段から出力された
認識対象となる音声を母国語としない話者による特徴ベ
クトル時系列に対して連続音声認識を行う連続音声認識
手段とを備えたものである。
【0024】この発明に係る音声モデル作成装置は、認
識対象となる音声を母国語としない話者の音声信号に対
して音響分析を行い特徴ベクトル時系列を出力する音響
分析手段と、この音響分析手段から出力された特徴ベク
トル時系列を入力して、上記音声信号の各単語区間に対
応する特徴ベクトルを切り出して、単語音声データとし
て出力する単語データ切り出し手段と、認識対象となる
音声を母国語とする複数の話者が発声した音声データに
より学習した音響モデルを格納している音響モデルメモ
リと、この音響モデルメモリに格納されている音響モデ
ルを用いて、上記単語データ切り出し手段から出力され
た単語音声データに対して、連続音素認識を行い音素ラ
ベル系列を出力する連続音素認識手段と、この連続音素
認識手段から出力される音素ラベル系列に従い、上記音
響モデルメモリに格納されている音響モデルを接続し
て、第1の単語モデルを生成する単語モデル生成手段
と、上記単語データ切り出し手段から出力された単語音
声データを用いて、上記単語モデル生成手段により生成
された第1の単語モデルに、認識対象となる音声を母国
語とする話者の発話様態を表すネイティブ話者単語モデ
ルを加えた単語モデル群に対してクラスタリングを行
い、このクラスタリングにおけるセントロイドとして選
択したときの平均尤度を最大にする第2の単語モデルを
出力するクラスタリング手段と、このクラスタリング手
段から出力される第2の単語モデルにより、上記単語デ
ータ切り出し手段から出力された単語音声データに対し
てクラスタリングを行うことで隣接する単語音声データ
を見つけ、この隣接する単語音声データに対する尤度を
ペナルティとして考慮して、上記単語モデル群に対する
クラスタリングを行い、このクラスタリングにおけるセ
ントロイドとして選択したときの平均尤度を最大にする
第3の単語モデルを出力する再クラスタリング手段と、
この再クラスタリング手段から出力される第3の単語モ
デルを格納する単語モデルメモリとを備えたものであ
る。
【0025】この発明に係る音声認識方法は、認識対象
となる音声を母国語としない話者による音声信号に対し
て音響分析を行い特徴ベクトル時系列を出力する第1の
ステップと、上記特徴ベクトル時系列を入力して、上記
音声信号の各単語区間に対応する特徴ベクトルを切り出
して、単語音声データとして出力する第2のステップ
と、認識対象となる音声を母国語とする複数の話者が発
声した音声データにより学習した音響モデルを用いて、
上記単語音声データに対して、連続音素認識を行い音素
ラベル系列を出力する第3のステップと、上記音素ラベ
ル系列に従い上記音響モデルを接続して、第1の単語モ
デルを生成する第4のステップと、上記単語音声データ
を用いて、上記第1の単語モデルに、認識対象となる音
声を母国語とする話者の発話様態を表すネイティブ話者
単語モデルを加えた単語モデル群に対してクラスタリン
グを行い、このクラスタリングにおけるセントロイドと
して選択したときの平均尤度を最大にする第2の単語モ
デルを出力する第5のステップと、上記第2の単語モデ
ルにより、上記単語音声データに対してクラスタリング
を行うことで隣接する単語音声データを見つけ、この隣
接する単語音声データに対する尤度をペナルティとして
考慮して、上記単語モデル群に対するクラスタリングを
行い、このクラスタリングにおけるセントロイドとして
選択したときの平均尤度を最大にする第3の単語モデル
を出力する第6のステップと、上記第3の単語モデルを
格納する第7のステップと、格納されている上記第3の
単語モデルを用いて、認識対象となる音声を母国語とし
ない話者による特徴ベクトル時系列に対して連続音声認
識を行う第8のステップとを備えたものである。
【0026】この発明に係る音声モデル作成方法は、認
識対象となる音声を母国語としない話者による音声信号
に対して音響分析を行い特徴ベクトル時系列を出力する
第1のステップと、上記特徴ベクトル時系列を入力し
て、上記音声信号の各単語区間に対応する特徴ベクトル
を切り出して、単語音声データとして出力する第2のス
テップと、認識対象となる音声を母国語とする複数の話
者が発声した音声データにより学習した音響モデルを用
いて、上記単語音声データに対して、連続音素認識を行
い音素ラベル系列を出力する第3のステップと、上記音
素ラベル系列に従い上記音響モデルを接続して、第1の
単語モデルを生成する第4のステップと、上記単語音声
データを用いて、上記第1の単語モデルに、認識対象と
なる音声を母国語とする話者の発話様態を表すネイティ
ブ話者単語モデルを加えた単語モデル群に対してクラス
タリングを行い、このクラスタリングにおけるセントロ
イドとして選択したときの平均尤度を最大にする第2の
単語モデルを出力する第5のステップと、上記第2の単
語モデルにより、上記単語音声データに対してクラスタ
リングを行うことで隣接する単語音声データを見つけ、
この隣接する単語音声データに対する尤度をペナルティ
として考慮して、上記単語モデル群に対するクラスタリ
ングを行い、このクラスタリングにおけるセントロイド
として選択したときの平均尤度を最大にする第3の単語
モデルを出力する第6のステップと、上記第3の単語モ
デルを格納する第7のステップとを備えたものである。
【0027】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識装置の構成を示すブロック図である。図におい
て、11は再クラスタリング手段であり、クラスタリン
グ手段8から出力される第2の単語モデル109によ
り、単語データ切り出し手段4から出力された単語音声
データ103に対してクラスタリングを行うことで隣接
する単語音声データを見つけ、この隣接する単語音声デ
ータに対する尤度をペナルティとして考慮して、単語モ
デル群108に対するクラスタリングを行い、このクラ
スタリングにおけるセントロイドとして選択したときの
平均尤度を最大にする第3の単語モデル111を出力す
る。その他の構成要素は、従来の図2に示すものと同一
である。
【0028】次に動作について説明する。従来例と同様
に、外国語として英語を例に取り、音響モデル104と
して英語の疑似音素単位のHMMを用いた場合を説明す
る。各音響モデル104は、英語を母国語とする複数の
話者が発声した音声データを用いて学習されたものであ
る。ネイティブ話者単語モデル107も、従来例と同様
に、例えば英語辞書に記載されているような発音記号に
対応するような疑似音素単位の系列に従って、疑似音素
単位のHMMをLeft−to−rightに接続した
モデルを用いる。
【0029】再クラスタリング手段11は、まず、単語
データ切り出し手段4が出力した単語音声データ103
の{Tk(n)|n=1...Nk}(ただし、k=
1...K)に対し、クラスタリング手段8が出力した
第2の単語モデル109の{Pk(m)|m=1...
M}(ただし、k=1…K)によるクラスタリングを行
い、各単語音声データ103のTk(n)に対する単語
クラスデータCk(n)を求める。この処理は次の
(2)式で表される。この(2)式において、L(Tk
(n),Pj (i))は、単語音声データ103のTk
(n)と単語モデルP j (i)とのマッチング尤度であ
る。
【0030】
【数2】
【0031】この式は、すなわち、単語音声データ10
3のTk(n)に対してもっとも尤度が高くなる単語モ
デルを{Pj (i)|i=1...M,j=1...
K}の中から求め、その単語モデルが属する単語カテゴ
リナンバーjをTk(n)に対する単語クラスデータC
k(n)とするものである。これにより、図4における
記号◆の単語音声データ103については、カテゴリA
の単語カテゴリナンバーが単語クラスデータとして与え
られることとなる。
【0032】ついで、再クラスタリング手段11は、単
語モデル生成手段7が出力した第1の単語モデル106
にネイティブ話者単語モデル107を加えた単語モデル
群108に対してクラスタリングを行う。この処理は上
記クラスタリング手段8と同様に単語カテゴリ毎に行わ
れる。
【0033】クラスタリング手段8と同様に、クラスタ
リングを行う単語のカテゴリナンバをkとすれば、クラ
スタリングの対象となる単語モデルは、単語音声データ
103の{Tk(n)|n=1...Nk}に対応し
て、単語モデル生成手段7により生成された第1の単語
モデル106の{Pk(n)|n=1...Nk}に、
ネイティブ話者単語モデル107のPk,native
を加えたNk+1個の単語モデル群108の{Pk
(1),Pk(2)...Pk(Nk),Pk,nat
ive}である。
【0034】クラスタリング手段8では、カテゴリナン
バkに対する単語音声データ103の{Tk(n)|n
=1...Nk}を用いて、上記Nk+1個の単語モデ
ルのクラスタリングを行っていたが、再クラスタリング
手段11では、カテゴリナンバk以外の隣接する単語音
声データ(以後、隣接するカテゴリ外単語音声データと
称する)も併用してクラスタリングを行う。隣接するカ
テゴリ外単語音声データは、カテゴリナンバk以外の単
語音声データ103において、上記の(2)式で示され
る単語クラスデータCk(n)がカテゴリナンバkと一
致する単語音声データ103で定義され、その集合を
{To(i)|i=1...No}(ただしNoは集合
の要素数)と表す。
【0035】クラスタリングの対象であるNk+1個の
単語モデル群108の{Pk(1),Pk(2)...
Pk(Nk),Pk,native}から、任意のM個
の単語モデル{Pk (m)|m=1...M}を、クラ
スタリングにおけるセントロイドとして選択したときの
ペナルティ付き平均尤度Lp aveを、次の(3)式で
定義する。
【0036】
【数3】
【0037】ここで、wはカテゴリ外単語音声データか
ら計算されるペナルティに対する重みで、0より大きい
正値をとる。この式の右辺第一項は、クラスタリング手
段8と同じ平均尤度の式である。そして、第二項が隣接
するカテゴリ外単語音声データによるペナルティとなっ
ている。このペナルティは、隣接するカテゴリ外単語音
声データを、選択された単語モデル{Pk (m)|m=
1...M}でクラスタリングしたときの、隣接するカ
テゴリ外単語音声データに対する平均尤度に、重みwを
かけたものとなっており、隣接するカテゴリ外単語音声
データに対する尤度が高い単語モデルほどペナルティが
大きくなる。
【0038】再クラスタリング手段11は、全てのカテ
ゴリkについて、このペナルティ付き平均尤度Lp av
eを最大にするM個の単語モデルを求め、単語カテゴリ
kに対する第3の単語モデル111として、単語モデル
メモリ9に出力する。再クラスタリング手段11以外の
構成要素の動作は、従来例と同一である。
【0039】以上述べたように、ペナルティ付き平均尤
度を最大にするM個の単語モデル{Pk (m)|m=
1...M}を、カテゴリkの第3の単語モデル111
として単語モデルメモリ9に出力する再クラスタリング
手段11を持つことで、単語カテゴリkに隣接する別の
単語カテゴリにおいて、カテゴリナンバkと同じ単語ク
ラスデータを付された単語音声データに対する尤度を小
さくするような第3の単語モデル111が求められる。
【0040】図4でいえば、カテゴリAの単語モデル
が、斜線部中のカテゴリBの単語音声データ(図中の
◆)に対する尤度を小さくするように決定されるように
なる。すなわち、カテゴリAの範囲を示す破線から、外
にはみ出すような実線の範囲をとる単語モデルが選択さ
れにくくなり、従来の音声認識装置で問題になっていた
誤認識を減らすことが可能になる。
【0041】なお、この実施の形態は、対象とする外国
語を英語に限定するものではなく、母国語以外の言語を
対象とした音声認識装置であれば、どのような言語であ
ってもかまわない。同様に、音響モデル104として用
いるものが、英語の疑似音素単位のHMMに限定される
ものでもない。また、音声モデルとして第3の単語モデ
ル111を作成しているが、作成する音声モデルは単語
モデルに限定されるものではなく、別の音声単位、例え
ば音節や文節等であってもかまわない。
【0042】上記の図1は音声認識装置としての構成を
示しているが、図1から切り替えスイッチ3と連続音声
認識手段10を除いた構成は、音声認識装置に使用され
る音声モデル(単語モデルメモリ9に格納されている各
単語モデルの集合)を作成する音声モデル作成装置とし
て実現することも可能である。
【0043】以上のように、この実施の形態1によれ
ば、再クラスタリング手段11が、ペナルティ付き平均
尤度を最大にするM個の単語モデル{Pk (m)|m=
1...M}を、カテゴリkの第3の単語モデル111
として単語モデルメモリ9に出力することにより、図4
の斜線部の領域に含まれる単語音声データ103(図中
の◆)のカテゴリBの連続音声に対して、すなわち、認
識対象となる音声を母国語としない話者が発声したある
カテゴリの単語音声に正しく発声されていないような音
声データが含まれている場合でも、精度の高い音声モデ
ルの作成と精度の高い音声認識を実現することができる
という効果が得られる。
【0044】
【発明の効果】以上のように、この発明によれば、入力
された音声信号に対して音響分析を行い特徴ベクトル時
系列を出力する音響分析手段と、この音響分析手段から
出力された、認識対象となる音声を母国語としない話者
による特徴ベクトル時系列を入力して、音声信号の各単
語区間に対応する特徴ベクトルを切り出して、単語音声
データとして出力する単語データ切り出し手段と、認識
対象となる音声を母国語とする複数の話者が発声した音
声データにより学習した音響モデルを格納している音響
モデルメモリと、この音響モデルメモリに格納されてい
る音響モデルを用いて、単語データ切り出し手段から出
力された単語音声データに対して、連続音素認識を行い
音素ラベル系列を出力する連続音素認識手段と、連続音
素認識手段から出力される音素ラベル系列に従い、音響
モデルメモリに格納されている音響モデルを接続して、
第1の単語モデルを生成する単語モデル生成手段と、単
語データ切り出し手段から出力された単語音声データを
用いて、単語モデル生成手段により生成された第1の単
語モデルに、認識対象となる音声を母国語とする話者の
発話様態を表すネイティブ話者単語モデルを加えた単語
モデル群に対してクラスタリングを行い、このクラスタ
リングにおけるセントロイドとして選択したときの平均
尤度を最大にする第2の単語モデルを出力するクラスタ
リング手段と、クラスタリング手段から出力される第2
の単語モデルにより、単語データ切り出し手段から出力
された単語音声データに対してクラスタリングを行うこ
とで隣接する単語音声データを見つけ、この隣接する単
語音声データに対する尤度をペナルティとして考慮し
て、単語モデル群に対するクラスタリングを行い、この
クラスタリングにおけるセントロイドとして選択したと
きの平均尤度を最大にする第3の単語モデルを出力する
再クラスタリング手段と、再クラスタリング手段から出
力される第3の単語モデルを格納する単語モデルメモリ
と、単語モデルメモリに格納されている第3の単語モデ
ルを用いて、音響分析手段から出力された認識対象とな
る音声を母国語としない話者による特徴ベクトル時系列
に対して連続音声認識を行う連続音声認識手段とを備え
たことにより、認識対象となる音声を母国語としない話
者が発声したあるカテゴリの単語音声に、正しく発声さ
れていないような音声データが含まれている場合でも、
精度の高い音声認識を実現することができるという効果
がある。
【0045】この発明によれば、認識対象となる音声を
母国語としない話者の音声信号に対して音響分析を行い
特徴ベクトル時系列を出力する音響分析手段と、この音
響分析手段から出力された特徴ベクトル時系列を入力し
て、音声信号の各単語区間に対応する特徴ベクトルを切
り出して、単語音声データとして出力する単語データ切
り出し手段と、認識対象となる音声を母国語とする複数
の話者が発声した音声データにより学習した音響モデル
を格納している音響モデルメモリと、この音響モデルメ
モリに格納されている音響モデルを用いて、単語データ
切り出し手段から出力された単語音声データに対して、
連続音素認識を行い音素ラベル系列を出力する連続音素
認識手段と、この連続音素認識手段から出力される音素
ラベル系列に従い、音響モデルメモリに格納されている
音響モデルを接続して、第1の単語モデルを生成する単
語モデル生成手段と、単語データ切り出し手段から出力
された単語音声データを用いて、単語モデル生成手段に
より生成された第1の単語モデルに、認識対象となる音
声を母国語とする話者の発話様態を表すネイティブ話者
単語モデルを加えた単語モデル群に対してクラスタリン
グを行い、このクラスタリングにおけるセントロイドと
して選択したときの平均尤度を最大にする第2の単語モ
デルを出力するクラスタリング手段と、このクラスタリ
ング手段から出力される第2の単語モデルにより、単語
データ切り出し手段から出力された単語音声データに対
してクラスタリングを行うことで隣接する単語音声デー
タを見つけ、この隣接する単語音声データに対する尤度
をペナルティとして考慮して、単語モデル群に対するク
ラスタリングを行い、このクラスタリングにおけるセン
トロイドとして選択したときの平均尤度を最大にする第
3の単語モデルを出力する再クラスタリング手段と、こ
の再クラスタリング手段から出力される第3の単語モデ
ルを格納する単語モデルメモリとを備えたことにより、
認識対象となる音声を母国語としない話者が発声したあ
るカテゴリの単語音声に、正しく発声されていないよう
な音声データが含まれている場合でも、精度の高い音声
認識を行える音声モデルを作成することができるという
効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置
の構成を示すブロック図である。
【図2】 従来の音声認識装置の構成を示すブロック図
である。
【図3】 単語カテゴリの単語音声データと単語モデル
を、模式的に2次元で表現した特徴ベクトル時系列空間
上にプロットした図である。
【図4】 単語カテゴリの単語音声データと単語モデル
を、模式的に2次元で表現した特徴ベクトル時系列空間
上にプロットした図である。
【符号の説明】
2 音響分析手段、4 単語データ切り出し手段、5
音響モデルメモリ、6連続音素認識手段、7 単語モデ
ル生成手段、8 クラスタリング手段、9単語モデルメ
モリ、10 連続音声認識手段、11 再クラスタリン
グ手段、101 音声信号、102 特徴ベクトル時系
列、103 単語音声データ、104 音響モデル、1
05 音素ラベル系列、106 第1の単語モデル、1
07ネイティブ話者単語モデル、108 単語モデル
群、109 第2の単語モデル、111 第3の単語モ
デル。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声信号に対して音響分析を
    行い特徴ベクトル時系列を出力する音響分析手段と、 この音響分析手段から出力された、認識対象となる音声
    を母国語としない話者による特徴ベクトル時系列を入力
    して、上記音声信号の各単語区間に対応する特徴ベクト
    ルを切り出して、単語音声データとして出力する単語デ
    ータ切り出し手段と、 認識対象となる音声を母国語とする複数の話者が発声し
    た音声データにより学習した音響モデルを格納している
    音響モデルメモリと、 この音響モデルメモリに格納されている音響モデルを用
    いて、上記単語データ切り出し手段から出力された単語
    音声データに対して、連続音素認識を行い音素ラベル系
    列を出力する連続音素認識手段と、 この連続音素認識手段から出力される音素ラベル系列に
    従い、上記音響モデルメモリに格納されている音響モデ
    ルを接続して、第1の単語モデルを生成する単語モデル
    生成手段と、 上記単語データ切り出し手段から出力された単語音声デ
    ータを用いて、上記単語モデル生成手段により生成され
    た第1の単語モデルに、認識対象となる音声を母国語と
    する話者の発話様態を表すネイティブ話者単語モデルを
    加えた単語モデル群に対してクラスタリングを行い、こ
    のクラスタリングにおけるセントロイドとして選択した
    ときの平均尤度を最大にする第2の単語モデルを出力す
    るクラスタリング手段と、 このクラスタリング手段から出力される第2の単語モデ
    ルにより、上記単語データ切り出し手段から出力された
    単語音声データに対してクラスタリングを行うことで隣
    接する単語音声データを見つけ、この隣接する単語音声
    データに対する尤度をペナルティとして考慮して、上記
    単語モデル群に対するクラスタリングを行い、このクラ
    スタリングにおけるセントロイドとして選択したときの
    平均尤度を最大にする第3の単語モデルを出力する再ク
    ラスタリング手段と、 この再クラスタリング手段から出力される第3の単語モ
    デルを格納する単語モデルメモリと、 この単語モデルメモリに格納されている第3の単語モデ
    ルを用いて、上記音響分析手段から出力された認識対象
    となる音声を母国語としない話者による特徴ベクトル時
    系列に対して連続音声認識を行う連続音声認識手段とを
    備えたことを特徴とする音声認識装置。
  2. 【請求項2】 認識対象となる音声を母国語としない話
    者の音声信号に対して音響分析を行い特徴ベクトル時系
    列を出力する音響分析手段と、 この音響分析手段から出力された特徴ベクトル時系列を
    入力して、上記音声信号の各単語区間に対応する特徴ベ
    クトルを切り出して、単語音声データとして出力する単
    語データ切り出し手段と、 認識対象となる音声を母国語とする複数の話者が発声し
    た音声データにより学習した音響モデルを格納している
    音響モデルメモリと、 この音響モデルメモリに格納されている音響モデルを用
    いて、上記単語データ切り出し手段から出力された単語
    音声データに対して、連続音素認識を行い音素ラベル系
    列を出力する連続音素認識手段と、 この連続音素認識手段から出力される音素ラベル系列に
    従い、上記音響モデルメモリに格納されている音響モデ
    ルを接続して、第1の単語モデルを生成する単語モデル
    生成手段と、 上記単語データ切り出し手段から出力された単語音声デ
    ータを用いて、上記単語モデル生成手段により生成され
    た第1の単語モデルに、認識対象となる音声を母国語と
    する話者の発話様態を表すネイティブ話者単語モデルを
    加えた単語モデル群に対してクラスタリングを行い、こ
    のクラスタリングにおけるセントロイドとして選択した
    ときの平均尤度を最大にする第2の単語モデルを出力す
    るクラスタリング手段と、 このクラスタリング手段から出力される第2の単語モデ
    ルにより、上記単語データ切り出し手段から出力された
    単語音声データに対してクラスタリングを行うことで隣
    接する単語音声データを見つけ、この隣接する単語音声
    データに対する尤度をペナルティとして考慮して、上記
    単語モデル群に対するクラスタリングを行い、このクラ
    スタリングにおけるセントロイドとして選択したときの
    平均尤度を最大にする第3の単語モデルを出力する再ク
    ラスタリング手段と、 この再クラスタリング手段から出力される第3の単語モ
    デルを格納する単語モデルメモリとを備えたことを特徴
    とする音声モデル作成装置。
  3. 【請求項3】 認識対象となる音声を母国語としない話
    者による音声信号に対して音響分析を行い特徴ベクトル
    時系列を出力する第1のステップと、 上記特徴ベクトル時系列を入力して、上記音声信号の各
    単語区間に対応する特徴ベクトルを切り出して、単語音
    声データとして出力する第2のステップと、 認識対象となる音声を母国語とする複数の話者が発声し
    た音声データにより学習した音響モデルを用いて、上記
    単語音声データに対して、連続音素認識を行い音素ラベ
    ル系列を出力する第3のステップと、 上記音素ラベル系列に従い上記音響モデルを接続して、
    第1の単語モデルを生成する第4のステップと、 上記単語音声データを用いて、上記第1の単語モデル
    に、認識対象となる音声を母国語とする話者の発話様態
    を表すネイティブ話者単語モデルを加えた単語モデル群
    に対してクラスタリングを行い、このクラスタリングに
    おけるセントロイドとして選択したときの平均尤度を最
    大にする第2の単語モデルを出力する第5のステップ
    と、 上記第2の単語モデルにより、上記単語音声データに対
    してクラスタリングを行うことで隣接する単語音声デー
    タを見つけ、この隣接する単語音声データに対する尤度
    をペナルティとして考慮して、上記単語モデル群に対す
    るクラスタリングを行い、このクラスタリングにおける
    セントロイドとして選択したときの平均尤度を最大にす
    る第3の単語モデルを出力する第6のステップと、 上記第3の単語モデルを格納する第7のステップと、 格納されている上記第3の単語モデルを用いて、認識対
    象となる音声を母国語としない話者による特徴ベクトル
    時系列に対して連続音声認識を行う第8のステップとを
    備えたことを特徴とする音声認識方法。
  4. 【請求項4】 認識対象となる音声を母国語としない話
    者による音声信号に対して音響分析を行い特徴ベクトル
    時系列を出力する第1のステップと、 上記特徴ベクトル時系列を入力して、上記音声信号の各
    単語区間に対応する特徴ベクトルを切り出して、単語音
    声データとして出力する第2のステップと、 認識対象となる音声を母国語とする複数の話者が発声し
    た音声データにより学習した音響モデルを用いて、上記
    単語音声データに対して、連続音素認識を行い音素ラベ
    ル系列を出力する第3のステップと、 上記音素ラベル系列に従い上記音響モデルを接続して、
    第1の単語モデルを生成する第4のステップと、 上記単語音声データを用いて、上記第1の単語モデル
    に、認識対象となる音声を母国語とする話者の発話様態
    を表すネイティブ話者単語モデルを加えた単語モデル群
    に対してクラスタリングを行い、このクラスタリングに
    おけるセントロイドとして選択したときの平均尤度を最
    大にする第2の単語モデルを出力する第5のステップ
    と、 上記第2の単語モデルにより、上記単語音声データに対
    してクラスタリングを行うことで隣接する単語音声デー
    タを見つけ、この隣接する単語音声データに対する尤度
    をペナルティとして考慮して、上記単語モデル群に対す
    るクラスタリングを行い、このクラスタリングにおける
    セントロイドとして選択したときの平均尤度を最大にす
    る第3の単語モデルを出力する第6のステップと、 上記第3の単語モデルを格納する第7のステップとを備
    えたことを特徴とする音声モデル作成方法。
JP15674199A 1999-06-03 1999-06-03 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 Expired - Fee Related JP3892173B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15674199A JP3892173B2 (ja) 1999-06-03 1999-06-03 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15674199A JP3892173B2 (ja) 1999-06-03 1999-06-03 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法

Publications (2)

Publication Number Publication Date
JP2000347685A true JP2000347685A (ja) 2000-12-15
JP3892173B2 JP3892173B2 (ja) 2007-03-14

Family

ID=15634313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15674199A Expired - Fee Related JP3892173B2 (ja) 1999-06-03 1999-06-03 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法

Country Status (1)

Country Link
JP (1) JP3892173B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011033879A (ja) * 2009-08-03 2011-02-17 Tze Fen Li サンプルを用いずあらゆる言語を識別可能な識別方法
US20210083994A1 (en) * 2019-09-12 2021-03-18 Oracle International Corporation Detecting unrelated utterances in a chatbot system
WO2021109856A1 (zh) * 2019-12-04 2021-06-10 中国科学院深圳先进技术研究院 一种针对认知障碍的语音识别系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011033879A (ja) * 2009-08-03 2011-02-17 Tze Fen Li サンプルを用いずあらゆる言語を識別可能な識別方法
US20210083994A1 (en) * 2019-09-12 2021-03-18 Oracle International Corporation Detecting unrelated utterances in a chatbot system
US11928430B2 (en) * 2019-09-12 2024-03-12 Oracle International Corporation Detecting unrelated utterances in a chatbot system
WO2021109856A1 (zh) * 2019-12-04 2021-06-10 中国科学院深圳先进技术研究院 一种针对认知障碍的语音识别系统

Also Published As

Publication number Publication date
JP3892173B2 (ja) 2007-03-14

Similar Documents

Publication Publication Date Title
US20230012984A1 (en) Generation of automated message responses
JP4393494B2 (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
Eide Distinctive features for use in an automatic speech recognition system
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US7143033B2 (en) Automatic multi-language phonetic transcribing system
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US5842168A (en) Cartridge-based, interactive speech recognition device with response-creation capability
US10176809B1 (en) Customized compression and decompression of audio data
JPH0916602A (ja) 翻訳装置および翻訳方法
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
Kumar et al. Continuous hindi speech recognition using monophone based acoustic modeling
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Manjunath et al. Development of phonetic engine for Indian languages: Bengali and Oriya
CA2317231C (en) Process for implementing a speech recognizer, the related recognizer and process for speech recognition
Ronzhin et al. Survey of russian speech recognition systems
JP2000347685A (ja) 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
JP2871557B2 (ja) 音声認識装置
JPH10254350A (ja) 音声認識装置
Lei et al. DBN-based multi-stream models for Mandarin toneme recognition
JP2000010977A (ja) 翻訳装置
GB2568902A (en) System for speech evaluation
JP2001188556A (ja) 音声認識方法及び装置
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061206

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees