JP2003022093A - 音声認識方法および音声認識装置ならびに音声認識プログラム - Google Patents

音声認識方法および音声認識装置ならびに音声認識プログラム

Info

Publication number
JP2003022093A
JP2003022093A JP2001207984A JP2001207984A JP2003022093A JP 2003022093 A JP2003022093 A JP 2003022093A JP 2001207984 A JP2001207984 A JP 2001207984A JP 2001207984 A JP2001207984 A JP 2001207984A JP 2003022093 A JP2003022093 A JP 2003022093A
Authority
JP
Japan
Prior art keywords
voice
token
model
acoustic model
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001207984A
Other languages
English (en)
Inventor
Hiroyuki Segi
寛之 世木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2001207984A priority Critical patent/JP2003022093A/ja
Publication of JP2003022093A publication Critical patent/JP2003022093A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識する認識時間(計算時間)を多くか
けることなく、高い認識性能を期待することができる音
声認識方法および音声認識装置ならびに音声認識プログ
ラムを提供する。 【解決手段】 音声認識方法は、隠れマルコフモデルの
形式で表される複数の音響モデルおよび言語モデルと、
発音辞書とを利用する音声認識方法であって、音響モデ
ルおよび言語モデルの値であるスコアおよび単語の履歴
を含んでなるトークン毎に、複数の音響モデルの中か
ら、特定の音響モデルを予め設定し、これらの特定の音
響モデルにより、音声認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、隠れマルコフモデ
ルを利用する音声認識方法および音声認識装置ならびに
音声認識プログラムに関する。
【0002】
【従来の技術】従来、音声認識を行うシステム(装
置)、方法の一例として、以下に示すものが提唱されて
いる。 (1)音響モデルの1つを利用する方法(ニュース番組
自動字幕化のための音声認識システム(音声言語情報処
理研究会、23−11、pp59−64、1998、1
0)) (2)音響モデルを複数用意し、そのうちの1つを利用
する方法(selective training o
f hmms by using two−stage
clustering(ICSLP2000、Vo
l.3、pp726−729、2000))
【0003】(1)に記載した手法は、入力された音声
(主にアナウンサーの音声)から、各トークン毎に音響
的な類似度を、隠れマルコフモデルの音響モデル(tr
iphone−HMM)に基づいて計算すると共に、単
語列のつながりやすさを、言語モデル(bigram)
に基づいて計算して、入力された音声を認識し、この認
識した音声の文字列を出力するというものである。な
お、この音声認識の手法では、各トークン毎に音響的な
類似度が1つの音響モデルに基づいて計算されている。
【0004】(2)に記載した手法は、予め、音響モデ
ルの学習データを、GMM(Group Markov
Model)を使用し、グループに分け複数の音響モ
デルを作成しておく。認識時には、GMMを使い、入力
された音声の音響モデルを生成し、グループ分けされた
音響モデルの中から、近い音響モデルを判定し、判定さ
れた音響モデルを使用して、計算していく(音声認識す
る)手法である。
【0005】
【発明が解決しようとする課題】しかしながら、従来の
音声認識の(1)の方法では、音声認識する対象となる
音声のすべての計算を、一つの音響モデルで実行してい
くので、音声認識する対象の音声が複数の人によって発
声されたものである場合、高い認識性能は期待できない
という問題がある。
【0006】また、(2)の方法では、ある一定の時間
後に必ず、作成しておいた複数の音響モデルの中から一
つの音響モデルを選択する必要があるため、一定時間経
過後、音響モデルを変更する必要が生じた場合であって
も、再度、複数の音響モデルから選択できる状況(選択
可能な複数の音響モデルが共存する状況)を作り出すこ
とはできない。認識性能を低下させずに認識結果を出す
ために、次の一つの音響モデルが選択されるまで待機す
ると、その分だけ、計算時間(音声認識時間)が多くか
かるという問題がある。さらに、(2)の方法では、全
ての音素が区別されることなく、音素間のつながりも考
慮されずに、音響モデルが選択されるので、高い認識性
能は期待できないという問題がある。
【0007】本発明の目的は前記した従来の技術が有す
る課題を解消し、音声認識する認識時間(計算時間)を
多くかけることなく、高い認識性能を期待することがで
きる音声認識方法および音声認識装置ならびに音声認識
プログラムを提供することにある。
【0008】
【課題を解決するための手段】請求項1記載の音声認識
方法は、隠れマルコフモデルの形式で表される複数の音
響モデルおよび言語モデルと、複数の単語要素および音
声波形デーを関連づけた発音辞書とを利用する音声認識
方法であって、前記音響モデルおよび前記言語モデルの
値であるスコアおよび単語の履歴を含んでなるトークン
毎に、前記複数の音響モデルの中から、特定の音響モデ
ルを予め設定し、これらの特定の音響モデルにより、音
声認識することを特徴とする。この方法では、トークン
毎に、複数の音響モデルの中から特定の音響モデルが、
予め設定されており、この設定された特定の音響モデル
によって音声認識がなされる。
【0009】なお、トークンとは、音声認識における、
音声認識結果の候補であって、スコアと履歴(単語の履
歴)とを含んでなるものである。音声認識では、音声デ
ータの発声された音につれて、単語から単語へとトーク
ンが「伝達」し、履歴を持つようになり、最終的には、
残った最大スコアのトークンに基づいて、音声認識単語
列(音声認識結果)が算出される(出力される)。ま
た、単語要素とは、一つの単語を構成する各母音または
各子音を、或いは、その各母音または子音をさらに時系
列に沿って細分化したものをさすものである。
【0010】補足しておくと、隠れマルコフモデルと
は、確率統計的な音声認識における数理統計モデルであ
って、性質の異なる複数の定常信号源を切り換えていく
ことにより、もともと非定常信号である音声を、性質の
異なる定常信号の時系列としてモデル化したものであ
る。
【0011】請求項2記載の音声認識装置は、隠れマル
コフモデルの形式で表される複数の音響モデルおよび言
語モデルと、複数の単語要素および音声波形データを関
連づけた発音辞書とを記憶する記憶部を備える音声認識
装置であって、前記音響モデルおよび前記言語モデルの
値であるスコアおよび単語の履歴を含んでなるトークン
毎に、前記複数の音響モデルの中から、特定の音響モデ
ルを設定する音響モデル設定手段と、この音響モデル設
定手段が設定した特定の音響モデルに基づいて、音声認
識する対象となる音声を演算して認識する音声認識手段
と、を備えて構成されていることを特徴とする。かかる
構成によれば、音響モデル設定手段によって、トークン
毎に複数の音響モデルの中から特定の音響モデルが設定
され、音声認識手段によって、特定の音響モデルに基づ
き、音声認識する対象となる音声が演算され認識され
る。
【0012】請求項3記載の音声認識プログラムは、入
力された音声データ或いは音声データの特徴量を音声認
識し、出力単語列として出力する装置を、隠れマルコフ
モデルの形式で表される複数の音響モデルおよび言語モ
デルと、複数の単語要素および音声波形データを関連づ
けた発音辞書とを記憶する記憶手段、前記音響モデルお
よび前記言語モデルの値であるスコアおよび単語の履歴
を含んでなるトークン毎に、前記複数の音響モデルの中
から、特定の音響モデルを設定する音響モデル設定手
段、この音響モデル設定手段が設定した特定の音響モデ
ルに基づいて、音声認識する対象となる音声を演算して
認識する音声認識手段、として機能させることを特徴と
する。かかる構成によれば、音響モデル設定手段によっ
て、トークン毎に複数の音響モデルの中から特定の音響
モデルが設定され、音声認識手段によって、特定の音響
モデルに基づき、音声認識する対象となる音声が演算さ
れ認識される。
【0013】
【発明の実施の形態】以下、本発明の一実施形態を図面
に基づいて詳細に説明する。 (音声認識装置の構成)図1は、音声認識装置のブロッ
ク図である。この図1に示すように、音声認識装置1
は、トークン計算部3Aと、トークン計算部3B1、3
B2、3B3と、トークン計算部3B1に接続されるト
ークン計算部3C1、3C2、3C3と、トークン計算
部3B2に接続されるトークン計算部3D1、3D2、
3D3と、トークン計算部3B3に接続されるトークン
計算部3E1、3E2、3E3と、図示を省略した記憶
部とを備えて構成されている。なお、トークン計算部3
A、3B1、3B2、3B3、3C1、3C2、3C
3、3D1、3D2、3D3、3E1、3E2、3E3
を総称して、トークン計算部3とする。
【0014】音声認識装置1は、生の音声データや生の
音声データから抽出された特徴量(以下、抽出特徴量と
いう)等が入力された場合に、隠れマルコフモデルによ
る音響モデル、言語モデルを利用して、これらの音声デ
ータ、音声データの特徴量を認識し、その認識した結果
を出力単語列として生成するものである。なお、この実
施の形態では、音声認識装置1は、一般的なコンピュー
タであって、その内部に主制御部、記憶部、通信回線接
続部等が備えられ、各部がバス(データバス、アドレス
バス)で結ばれて構成されている。
【0015】トークン計算部3Aは、トークン毎に、後
記する記憶部に記憶されている複数の音響モデルの中か
ら、特定の音響モデルを設定するものであって、入力さ
れた生の音声データまたは抽出特徴量から、トークン計
算部3B1、3B2、3B3に音声データ、トークンを
出力すると共に、外部に出力単語列(認識結果)を出力
するものである。さらに、トークン計算部3C1、3C
2、3C3、3D1、3D2、3D3、3E1、3E
2、3E3からの音声データとトークンとが入力される
(フィードバックされる)ものである。トークン計算部
3Aは、請求項に記載した音響モデル設定手段に相当す
るものである。
【0016】トークン計算部3B1、3B2、3B3
は、トークン計算部3Aが出力した音声データと、トー
クンとを受け取って、音声認識する対象となる音声を演
算し、さらに、トークン計算部3Aが設定した特定の音
響モデルに基づいて、音声データとトークンとを出力す
るものである。
【0017】トークン計算部3C1、3C2、3C3
は、トークン計算部3B1が出力した音声データと、ト
ークンとを受け取って、音声認識する対象となる音声を
演算し、さらに、トークン計算部3Aが設定した特定の
音響モデルに基づいて、音声データとトークンとをトー
クン計算部3Aに出力するものである。
【0018】トークン計算部3D1、3D2、3D3
は、トークン計算部3B2が出力した音声データと、ト
ークンとを受け取って、音声認識する対象となる音声を
演算し、さらに、トークン計算部3Aが設定した特定の
音響モデルに基づいて、音声データとトークンとをトー
クン計算部3Aに出力するものである。
【0019】トークン計算部3E1、3E2、3E3
は、トークン計算部3B3が出力した音声データと、ト
ークンとを受け取って、音声認識する対象となる音声を
演算し、さらに、トークン計算部3Aが設定した特定の
音響モデルに基づいて、音声データとトークンとをトー
クン計算部3Aに出力するものである。
【0020】トークン計算部3B1、3B2、3B3、
3C1、3C2、3C3、3D1、3D2、3D3、3
E1、3E2、3E3が請求項に記載した音声認識手段
に相当するものである。なお、この実施の形態では、便
宜上、トークン計算部3Aとトークン計算部3B1、3
B2、3B3、3C1、3C2、3C3、3D1、3D
2、3D3、3E1、3E2、3E3とを、区別して記
述しているが、これらが、音響モデルを設定する音響モ
デル設定手段を含んでいてもよい。
【0021】図示を省略した記憶部は、一般的なハード
ディスク等によって構成されており、隠れマルコフモデ
ルにおける複数の音響モデルと、言語モデルと、入力さ
れた音声データの音響モデルのスコアを計算する際に利
用される発音辞書(音声の波形パターン)と、言語モデ
ルのスコアを計算する際に利用される大語彙の音声デー
タベース(コーパス)とを記憶するものである。なお、
この記憶部に記憶されている音響モデルには、その音響
モデル毎に、識別用の番号が付されており、トークン計
算部3(3A〜3E)が音響モデルのスコアを算出する
ときに、当該番号により音響モデルが参照される。
【0022】ここで、トークンと、音響モデルのスコア
と、言語モデルのスコアと、単語履歴とについて、説明
を加えておく。トークンとは、音声認識における、音声
認識結果の候補であって、スコアと履歴(単語の履歴)
とを含んでなるものである。音声認識では、音声データ
の発声された音につれて、単語から単語へとトークンが
「伝達」し、履歴を持つようになり、最終的には、残っ
た最大スコアのトークンに基づいて、音声認識単語列
(音声認識結果)が算出される(出力される)。また、
単語要素とは、一つの単語を構成する各母音または各子
音を、或いは、その各母音または子音をさらに時系列に
沿って細分化したものをさすものである。
【0023】音響モデルのスコアとは、入力された音声
の波形パターンと、予め記憶部に記憶されている音声の
波形パターンとを比較し、この比較結果に基づいた隠れ
マルコフモデルにおける音響モデルの“値”である。言
語モデルのスコアとは、入力された音声の単語間のつな
がりを、予め記憶部に記憶されている大語彙の音声デー
タベース(コーパス)に基づいて、統計的計算手法によ
って算出される言語モデルの“値”である。
【0024】単語履歴とは、今までに入力された音声か
ら計算された単語列のことである。なお、一つの連続し
た音声データは、通常、複数の文章から構成されてお
り、これら複数の文章中の各文章は、複数の単語の集合
とみなすことができ、さらに、一つの単語は、複数の単
語の要素(以下、単語要素という)から構成されている
とみなすことができる。つまり、この単語要素とは、一
つの単語を構成する各母音または各子音をさすものであ
って、例えば、「赤」という単語の単語要素は赤(ak
a)の「a」「k」「a」のそれぞれを指すものであ
る。また、音声の波形パターンは、この「赤」の例で言
えば、「a」「k」「a」のそれぞれの単語要素を、さ
らに、細かく時系列に沿って分解した、周波数または電
気信号に変化した場合の電圧の変動を示すものである。
【0025】補足しておくと、隠れマルコフモデルと
は、確率統計的な音声認識における数理統計モデルであ
って、性質の異なる複数の定常信号源を切り換えていく
ことにより、もともと非定常信号である音声を、性質の
異なる定常信号の時系列としてモデル化したものであ
る。
【0026】(音声認識装置の動作)次に、音声認識装
置1の音声認識の動作を説明する。まず、この音声認識
装置1に音声データ(音声データの特徴抽出量)が入力
される(S1)と、音声認識装置1のトークン計算部3
Aが、入力された音声について、トークン毎に設定され
た音響モデルに基づいて、トークン毎の音響モデルのス
コアを計算と言語モデルのスコアとを計算する(S
2)。この時に、記憶部に記憶されている音響モデルの
番号により、参照すべき音響モデルが決定される。そし
て、トークン計算部3から、トークン計算部3B1、3
B2、3B3とに、音声データ(残りの音声データ)
と、トークンとが出力される(S3)。
【0027】トークン計算部3B1、3B2、3B3
は、トークン計算部3Aによって、計算されたトークン
毎の音響モデルのスコアおよび言語モデルのスコアと、
トークン計算部3Aから出力された音声データと、記憶
部に記憶されている参照すべき音響モデル(音響モデル
番号による)とに基づいて、これらトークン計算部3B
1、3B2、3B3に分担されているトークンが計算さ
れる(S4)。そして、トークン計算部3B1から3C
1、3C2、3C3とに、3B2から3D1、3D2、
3D3とに、3B3から3E1、3E2、3E3とに、
音声データ(さらに残りの音声データ)と、トークンと
が出力される(S5)。
【0028】すると、トークン計算部3C1、3C2、
3C3は、トークン計算部3B1によって、計算された
トークン毎の音響モデルのスコアおよび言語モデルのス
コアと、トークン計算部3B1から出力された音声デー
タと、記憶部に記憶されている参照すべき音響モデル
(音響モデル番号による)とに基づいて、これらトーク
ン計算部3C1、3C2、3C3に分担されているトー
クンが計算される(S6)。
【0029】同様に、トークン計算部3D1、3D2、
3D3は、トークン計算部3B2によって、計算された
トークン毎の音響モデルのスコアおよび言語モデルのス
コアと、トークン計算部3B2から出力された音声デー
タと、記憶部に記憶されている参照すべき音響モデル
(音響モデル番号による)とに基づいて、これらトーク
ン計算部3D1、3D2、3D3に分担されているトー
クンが計算される(S6)。
【0030】さらに、同様に、トークン計算部3E1、
3E2、3E3は、トークン計算部3B3によって、計
算されたトークン毎の音響モデルのスコアおよび言語モ
デルのスコアと、トークン計算部3B3から出力された
音声データと、記憶部に記憶されている参照すべき音響
モデル(音響モデル番号による)とに基づいて、これら
トークン計算部3E1、3E2、3E3に分担されてい
るトークンが計算される(S6)。
【0031】そして、まず、トークン計算部3Aにおい
て、各スコアの和が閾値以内のトークンのみが残され
(S7)、次に、トークン計算部3B1、3B2、3B
3において、各スコアの和が閾値以内のトークンのみが
残され(S8)、さらに、トークン計算部3C1、3C
2、3C3、3D1、3D2、3D3、3E1、3E
2、3E3において、各スコアの和が閾値以内のトーク
ンのみが残される処理が施される(S9)。なお、この
動作における閾値は、200と設定されている。つま
り、全部のスコアを計算後、スコアのトップ(最大値)
が判断され、このスコアのトップ(最大値)より200
以内のトークンのみが残される。
【0032】そして、トークン計算部3C1、3C2、
3C3、3D1、3D2、3D3、3E1、3E2、3
E3から、トークン計算部3Aに、音声データ(また、
さらに残りの音声データ)と、トークンとが出力される
(S10)。
【0033】以上のトークン計算部3Aからトークン計
算3C1、3C2、3C3、3D1、3D2、3D3、
3E1、3E2、3E3までの動作が、入力された音声
データがなくなるまで、繰り返し実行され、その後、音
声認識装置1は音声データがあるかどうかを判断し(S
11)、音声データがあると判断されない場合には、音
声認識装置1のトークン計算部3Aから、最高のスコア
を持つ単語履歴を出力単語列(単語要素のつながり;音
声認識結果)として出力する(S12)。S11におい
て、他に入力された音声データがあると判断された場合
には、S2に戻り、音声認識処理が継続して行われる。
【0034】(音声認識装置の音声認識例)次に、音声
認識装置1が音声を認識する例について、図3を参照し
て説明する。図3は、音声認識装置1に入力された音声
がどのように音声認識処理されるかを説明した説明図で
ある。この音声認識例は、2種類の音響モデルを使った
場合であり、この2種類の音響モデルは、成人男性が発
声した音声に基づいて作成された音響モデルと、成人女
性が発声した音声に基づいて作成された音響モデルとか
ら構成されている。この図3に示すように、この音声認
識例では、図示を省略した記憶部の大語彙の音声データ
ベースには、少なくとも、“赤”、“秋”、“網”、
“雨”の4語が含まれている。
【0035】トークン計算部3Aは、先頭の音声データ
(単語要素)である「a(あ)」を認識し、トークン計
算部3B1、3B2に残った音声データ(単語要素)
「k(赤、秋)、m(網、雨)」と、このトークン計算
部3Aで計算した音響モデルのスコアおよび言語モデル
のスコア(スコアの和)とをそれぞれに出力する。この
とき、音響モデルのスコアの計算では、各トークン毎に
指定される成人男性または成人女性の音響モデルが使用
される。なお、このトークン計算部3Aでは、各トーク
ン毎に指定された音響モデルが利用されている。
【0036】トークン計算部3B1では「k(赤、
秋)」について、各トークン毎に指定された音響モデル
を利用して、トークンが計算される。トークン計算部3
B2では「m(網、雨)」について、各トークン毎に指
定された音響モデルが利用され、トークンが計算され
る。
【0037】さらに、トークン計算部3C1において
は、「a(赤)」について、各トークン毎に指定された
音響モデルが利用され、トークンが計算され、トークン
計算部3C2においては、「i(秋)」について、各ト
ークン毎に指定された音響モデルが利用され、トークン
が計算される。また、さらに、トークン計算部3D1に
おいては「i(網)」について、各トークン毎に指定さ
れた音響モデルが利用され、トークンが計算され、トー
クン計算部3D2においては「e(雨)」について、各
トークン毎に指定された音響モデルが利用され、トーク
ンが計算される。そして、これらトークン計算部3C
1、3C2、3D1、3D2からトークン計算部3Aに
計算結果がフィードバックされる。
【0038】ここで、まず、トークン計算部3Aにおい
て、全てのトークンの中で最大スコアから閾値500以
下に入っているスコアを持つトークンが全て消去され
る。また、トークン計算部3B1、3B2において、全
てのトークンの中で最大スコアから閾値500以下に入
っているスコアを持つトークンが全て消去される。そし
て、音声データが無くなるまで、トークン計算部3A、
トークン計算部3B1、3B2において、音響モデルと
言語モデルのスコアとが計算され、閾値以下に入ってい
るスコアが消去される。その後、トークン計算部3Aに
残った最大(最高)のスコアを持つ単語履歴が出力単語
列(単語要素のつながり;音声認識結果)として出力さ
れる。
【0039】この実施の形態では以下の効果を奏す。音
声認識の対象となる生の音声データ或いは音声データの
特徴量が、トークン計算部3Aによって、先頭の音声デ
ータが認識され、予め設定された音響モデルに基づい
て、隠れマルコフモデルにおける音響モデルのスコアお
よび言語モデルのスコアとが計算され、そのスコアの和
と、残りの音声データとが、次のトークン計算部3B
1、3B2、3B3に出力される。そして、トークン計
算部3B1、3B2、3B3によって、残りの音声デー
タに関して同様にトークンが計算され、さらに、トーク
ン計算部3C1、3C2、3C3、3D1、3D2、3
D3、3E1、3E2、3E3とにおいて、トークンが
計算される。このため、複数のトークン計算部3で、複
数の音響モデルを参照しつつ、同時に音声認識処理が実
行されるので、音声認識する認識時間(計算時間)を多
くかけることなく、高い認識性能を期待することができ
る。
【0040】また、音声認識処理中において、複数の音
響モデルを常時参照することができる。さらに、単語要
素(音素)を全て区別しており、単語要素(音素)のつ
ながりについて、音声認識中の単語に該当しないもの
は、計算しないので、音響モデルの選択性能を改善する
ことができる。
【0041】以上、一実施形態に基づいて本発明を説明
したが、本発明はこれに限定されるものではない。音声
認識装置1で実現されている各構成の処理を、一つの工
程としてみなした音声認識方法として捉えることも可能
である。この場合、音声認識装置1と同様な効果が得ら
れる。また、音声認識装置1における各構成の処理を、
プログラムで記述した音声認識プログラムとみなすこと
も可能である。つまり、トークン計算部3Aが音響モデ
ル設定手段と、トークン計算部3B1、3B2、3B
3、3C1、3C2、3C3、3D1、3D2、3D
3、3E1、3E2、3E3が音声認識手段と、図示を
省略した記憶部が記憶手段とみなすことができる。この
場合、音声認識装置1と同様な効果が得られる。
【0042】
【発明の効果】請求項1記載の発明によれば、音声認識
方法において、トークン毎に、複数の音響モデルの中か
ら特定の音響モデルが、予め設定されており、この設定
された特定の音響モデルによって音声認識がなされるの
で、音声認識時に、複数の音響モデルが常時参照され、
音声認識における認識性能が向上する。
【0043】請求項2記載の発明によれば、音声認識装
置において、音響モデル設定手段によって、トークン毎
に複数の音響モデルの中から特定の音響モデルが設定さ
れ、音声認識手段によって、特定の音響モデルに基づ
き、音声認識する対象となる音声が演算され認識され
る。このため、音声認識時に複数の音響モデルが常時参
照され、複数の音声認識手段によって同時に音声認識さ
れるので、音声認識する認識時間(計算時間)を多くか
けることなく、音声認識における認識性能が向上する。
【0044】請求項3記載の発明によれば、音声認識プ
ログラムにおいて、音響モデル設定手段によって、トー
クン毎に複数の音響モデルの中から特定の音響モデルが
設定され、音声認識手段によって、特定の音響モデルに
基づき、音声認識する対象となる音声が演算され認識さ
れる。このため、音声認識時に複数の音響モデルが常時
参照され、複数の音声認識手段によって同時に音声認識
されるので、音声認識する認識時間(計算時間)を多く
かけることなく、音声認識における認識性能が向上す
る。
【図面の簡単な説明】
【図1】本発明による一実施の形態を示した音声認識装
置のブロック図である。
【図2】図1に示した音声認識装置の動作を説明したフ
ローチャートである。
【図3】音声認識装置の音声認識例を説明した説明図で
ある。
【符号の説明】
1 音声認識装置 3A トークン計算部(音響モデル設定手段) 3B1、3B2、3B3、3C1、3C2、3C3、3
D1、3D2、3D3トークン計算部(音声認識手段)

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 隠れマルコフモデルの形式で表される複
    数の音響モデルおよび言語モデルと、複数の単語要素お
    よび音声波形データを関連づけた発音辞書とを利用する
    音声認識方法であって、 前記音響モデルおよび前記言語モデルの値であるスコア
    および単語の履歴を含んでなるトークン毎に、前記複数
    の音響モデルの中から、特定の音響モデルを予め設定
    し、 これらの特定の音響モデルにより、音声認識することを
    特徴とする音声認識方法。
  2. 【請求項2】 隠れマルコフモデルの形式で表される複
    数の音響モデルおよび言語モデルと、複数の単語要素お
    よび音声波形データを関連づけた発音辞書とを記憶する
    記憶部を備える音声認識装置であって、 前記音響モデルおよび前記言語モデルの値であるスコア
    および単語の履歴を含んでなるトークン毎に、前記複数
    の音響モデルの中から、特定の音響モデルを設定する音
    響モデル設定手段と、 この音響モデル設定手段が設定した特定の音響モデルに
    基づいて、音声認識する対象となる音声を演算して認識
    する音声認識手段と、 を備えて構成されていることを特徴とする音声認識装
    置。
  3. 【請求項3】 入力された音声データ或いは音声データ
    の特徴量を音声認識し、出力単語列として出力する装置
    を、 隠れマルコフモデルの形式で表される複数の音響モデル
    および言語モデルと、複数の単語要素および音声波形デ
    ータを関連づけた発音辞書とを記憶する記憶手段、 前記音響モデルおよび前記言語モデルの値であるスコア
    および単語の履歴を含んでなるトークン毎に、前記複数
    の音響モデルの中から、特定の音響モデルを設定する音
    響モデル設定手段、 この音響モデル設定手段が設定した特定の音響モデルに
    基づいて、音声認識する対象となる音声を演算して認識
    する音声認識手段、 として機能させることを特徴とする音声認識プログラ
    ム。
JP2001207984A 2001-07-09 2001-07-09 音声認識方法および音声認識装置ならびに音声認識プログラム Pending JP2003022093A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001207984A JP2003022093A (ja) 2001-07-09 2001-07-09 音声認識方法および音声認識装置ならびに音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001207984A JP2003022093A (ja) 2001-07-09 2001-07-09 音声認識方法および音声認識装置ならびに音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2003022093A true JP2003022093A (ja) 2003-01-24

Family

ID=19043886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001207984A Pending JP2003022093A (ja) 2001-07-09 2001-07-09 音声認識方法および音声認識装置ならびに音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2003022093A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171185A (ja) * 2004-12-14 2006-06-29 Asahi Kasei Corp 音声認識装置および音声認識方法
JP2010145784A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム
JP2010286586A (ja) * 2009-06-10 2010-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
US8484514B2 (en) 2009-05-15 2013-07-09 Nec Corporation Fault cause estimating system, fault cause estimating method, and fault cause estimating program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171185A (ja) * 2004-12-14 2006-06-29 Asahi Kasei Corp 音声認識装置および音声認識方法
JP2010145784A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム
US8484514B2 (en) 2009-05-15 2013-07-09 Nec Corporation Fault cause estimating system, fault cause estimating method, and fault cause estimating program
JP2010286586A (ja) * 2009-06-10 2010-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US6754626B2 (en) Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
Eide Distinctive features for use in an automatic speech recognition system
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP2002215187A (ja) 音声認識方法及びその装置
JPH0728487A (ja) 音声認識方法
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
JPH0250198A (ja) 音声認識システム
CN108806691B (zh) 语音识别方法及系统
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2003022093A (ja) 音声認識方法および音声認識装置ならびに音声認識プログラム
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2003022091A (ja) 音声認識方法および音声認識装置ならびに音声認識プログラム
KR101095864B1 (ko) 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법
Hoste et al. Using rule-induction techniques to model pronunciation variation in Dutch
US20230117438A1 (en) Intelligent expanding similar word model system and method thereof
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法
JP3841342B2 (ja) 音声認識装置および音声認識プログラム
JP2007079476A (ja) 音声合成装置および音声合成プログラム
JP2004309654A (ja) 音声認識装置
JPH0434499A (ja) 発声法指示装置