JP2003022091A - 音声認識方法および音声認識装置ならびに音声認識プログラム - Google Patents

音声認識方法および音声認識装置ならびに音声認識プログラム

Info

Publication number
JP2003022091A
JP2003022091A JP2001208649A JP2001208649A JP2003022091A JP 2003022091 A JP2003022091 A JP 2003022091A JP 2001208649 A JP2001208649 A JP 2001208649A JP 2001208649 A JP2001208649 A JP 2001208649A JP 2003022091 A JP2003022091 A JP 2003022091A
Authority
JP
Japan
Prior art keywords
token
voice
model
language model
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001208649A
Other languages
English (en)
Inventor
Hiroyuki Segi
寛之 世木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2001208649A priority Critical patent/JP2003022091A/ja
Publication of JP2003022091A publication Critical patent/JP2003022091A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 高い認識性能を期待でき、計算時間を多くか
けることなく、言語モデルの予測性能の劣化を防止する
ことができる音声認識方法および音声認識装置ならびに
音声認識プログラムを提供する。 【解決手段】 音声認識方法は、隠れマルコフモデルに
おける音響モデルおよび複数の言語モデルと、複数の単
語要素および音声波形データを関連づけた発音辞書とを
利用する音声認識方法であって、トークン毎に、複数の
言語モデルの中から、特定の言語モデルを予め設定し、
これらの特定の言語モデルの確率値を参照して、音声認
識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、隠れマルコフモデ
ルを利用する音声認識方法および音声認識装置ならびに
音声認識プログラムに関する。
【0002】
【従来の技術】従来、音声認識を行うシステム(装
置)、方法の一例として、以下に示すものが提唱されて
いる。 (1)言語モデルの1つを利用する方法(ニュース番組
自動字幕化のための音声認識システム(音声言語情報処
理研究会、23−11、pp59−64、1998、1
0)) (2)言語モデルを複数用意し、それらをマージする方
法(ニュース音声認識のための言語モデルの動的適応化
(日本音響学会春期研究発表会、1、pp69−70,
2000))
【0003】(1)に記載した手法は、入力された音声
(主にアナウンサーの音声)から、各トークン毎に音響
的な類似度を、隠れマルコフモデルの音響モデル(tr
iphone−HMM)に基づいて計算すると共に、単
語列のつながりやすさを、言語モデル(bigram)
に基づいて計算して、入力された音声を認識し、この認
識した音声の文字列を出力するというものである。な
お、この音声認識の手法では、トークン毎に、単語の接
続確率が1つの言語モデルに基づいて計算されている。
【0004】(2)に記載した手法は、複数の言語モデ
ルを使用し、各言語モデルの重みを単語履歴によって変
化させて、単語の接続確率(接続確率値)を複数の言語
モデルの重みづけの和として取り扱って、この重みづけ
の和を、音声認識する際に利用する手法である。
【0005】
【発明が解決しようとする課題】しかしながら、従来の
音声認識の(1)の方法では、音声認識の対象となる音
声のすべての計算を、一つの言語モデルで実行していく
ので、例えば、音声認識する対象の音声の内容が複数の
話題からなる可能性が高い場合、高い認識性能は期待で
きないという問題がある。
【0006】また、(2)の方法では、複数の言語モデ
ルをマージ(併合)するために、各言語モデルの重みを
単語履歴により推定する必要があるので、音声認識の対
象となる音声に対し、はじめから全ての計算、つまり、
各言語モデルの重みを単語履歴による推定しつつ、音声
認識を実行しようとすると、計算時間が多くかかり、利
便性に欠けるという問題がある。さらに、(2)の方法
では、複数の言語モデル、つまり、異なる言語モデルの
スコア(値)をマージしてしまうため、例えば、一方の
言語モデルでは、P(A|B)の確率値が大きく、P
(C|D)の確率値が小さく、他方の言語モデルでは、
P(A|B)の確率値が小さく、P(C|D)の確率値
が大きい場合、双方の言語モデルをマージ(併合)する
と、P(A|B)、P(C|D)の確率値が共に大きく
なってしまう(言語モデルの確率重みが同じオーダー
(桁、位)の大きさにあるとした場合)。従って、マー
ジ(併合)した言語モデルでは、一方の言語モデルのP
(A|B)の確率値が大きく、P(C|D)の確率値が
小さく、他方の言語モデルでは、P(A|B)の確率値
が小さく、P(C|D)の確率値が大きいという言語モ
デル毎に特有の情報が欠落してしまっており、言語モデ
ルの予測性能が劣化するという問題がある。
【0007】本発明の目的は前記した従来の技術が有す
る課題を解消し、高い認識性能を期待でき、計算時間を
多くかけることなく、言語モデルの予測性能の劣化を防
止することができる音声認識方法および音声認識装置な
らびに音声認識プログラムを提供することにある。
【0008】
【課題を解決するための手段】請求項1記載の音声認識
方法は、隠れマルコフモデルにおける音響モデルおよび
確率値を各々有する複数の言語モデルと、複数の単語要
素および音声波形データを関連づけた発音辞書とを利用
する音声認識方法であって、前記音響モデルおよび前記
言語モデルの値であるスコアおよび単語の履歴を含んで
なるトークン毎に、前記複数の言語モデルの中から、特
定の言語モデルを予め設定し、これらの特定の言語モデ
ルの確率値を参照して、音声認識することを特徴とす
る。この方法では、トークン毎に、複数の言語モデルの
中から特定の言語モデルが、予め設定されており、この
設定された特定の言語モデルの確率値が参照されて音声
認識がなされる。
【0009】なお、トークンとは、音声認識における、
音声認識結果の候補であって、スコアと履歴(単語の履
歴)とを含んでなるものである。音声認識では、音声デ
ータの発声された音につれて、単語から単語へとトーク
ンが「伝達」し、履歴を持つようになり、最終的には、
残った最大スコアのトークンに基づいて、音声認識単語
列(音声認識結果)が算出される(出力される)。ま
た、単語要素とは、一つの単語を構成する各母音または
各子音を、或いは、その各母音または子音をさらに時系
列に沿って細分化したものをさすものである。
【0010】補足しておくと、隠れマルコフモデルと
は、確率統計的な音声認識における数理統計モデルであ
って、性質の異なる複数の定常信号源を切り換えていく
ことにより、もともと非定常信号である音声を、性質の
異なる定常信号の時系列としてモデル化したものであ
る。
【0011】請求項2記載の音声認識装置は、隠れマル
コフモデルにおける音響モデルおよび確率値を各々有す
る複数の言語モデルと、複数の単語要素および音声波形
データを関連づけた発音辞書とを記憶する記憶部を備え
る音声認識装置であって、前記音響モデルおよび前記言
語モデルの値であるスコアおよび単語の履歴を含んでな
るトークン毎に、前記複数の言語モデルの中から、特定
の言語モデルを設定する言語モデル設定手段と、言語モ
デル設定手段が設定した特定の言語モデルの確率値に基
づいて、音声認識の対象となる音声を演算して、その演
算結果に基づいて当該音声を認識する音声認識手段と、
を備えて構成されていることを特徴とする。かかる構成
によれば、言語モデル設定手段によって、トークン毎に
複数の言語モデルの中から特定の言語モデルが設定さ
れ、音声認識手段によって、特定の言語モデルの確率値
に基づき、音声認識の対象となる音声が演算され認識さ
れる。
【0012】請求項3記載の音声認識プログラムは、入
力された音声データ或いは音声データの特徴量を音声認
識し、出力単語列として出力する装置を、隠れマルコフ
モデルにおける音響モデルおよび確率値を各々有する複
数の言語モデルと、複数の単語要素および音声波形デー
タを関連づけた発音辞書とを記憶する記憶手段、前記音
響モデルおよび前記言語モデルの値であるスコアおよび
単語の履歴を含んでなるトークン毎に、前記複数の言語
モデルの中から、特定の言語モデルを設定する言語モデ
ル設定手段、この言語モデル設定手段が設定した特定の
言語モデルの確率値に基づいて、音声認識の対象となる
音声を演算して、その演算結果に基づいて当該音声を認
識する音声認識手段、として機能させることを特徴とす
る。かかる構成によれば、言語モデル設定手段によっ
て、トークン毎に複数の言語モデルの中から特定の言語
モデルが設定され、音声認識手段によって、特定の言語
モデルの確率値に基づき、音声認識の対象となる音声が
演算され認識される。
【0013】
【発明の実施の形態】以下、本発明の一実施形態を図面
に基づいて詳細に説明する。 (音声認識装置の構成)図1は、音声認識装置のブロッ
ク図である。この図1に示すように、音声認識装置1
は、トークン計算部3Aと、トークン計算部3B1、3
B2、3B3と、トークン計算部3B1に接続されるト
ークン計算部3C1、3C2、3C3と、トークン計算
部3B2に接続されるトークン計算部3D1、3D2、
3D3と、トークン計算部3B3に接続されるトークン
計算部3E1、3E2、3E3と、図示を省略した記憶
部とを備えて構成されている。なお、トークン計算部3
A、3B1、3B2、3B3、3C1、3C2、3C
3、3D1、3D2、3D3、3E1、3E2、3E3
を総称して、トークン計算部3とする。
【0014】音声認識装置1は、生の音声データや生の
音声データから抽出された特徴量(以下、抽出特徴量と
いう)等が入力された場合に、隠れマルコフモデルによ
る音響モデル、言語モデルを利用して、これらの音声デ
ータ、音声データの特徴量を認識し、その認識した結果
を出力単語列として生成するものである。なお、この実
施の形態では、音声認識装置1は、一般的なコンピュー
タであって、その内部に主制御部、記憶部、通信回線接
続部等が備えられ、各部がバス(データバス、アドレス
バス)で結ばれて構成されている。
【0015】トークン計算部3Aは、トークン毎に、後
記する記憶部に記憶されている複数の言語モデルの中か
ら、特定の言語モデルを設定するものであって、入力さ
れた生の音声データまたは抽出特徴量から、トークン計
算部3B1、3B2、3B3に音声データ、トークンを
出力すると共に、外部に出力単語列(認識結果)を出力
するものである。さらに、トークン計算部3C1、3C
2、3C3、3D1、3D2、3D3、3E1、3E
2、3E3からの音声データとトークンとが入力される
(フィードバックされる)ものである。トークン計算部
3Aは、請求項に記載した言語モデル設定手段に相当す
るものである。なお、トークン計算部3Aは他のトーク
ン計算部3と便宜上、区別しているが、このトークン計
算部3Aが音声認識手段を含んで構成されてもよい。
【0016】トークン計算部3B1、3B2、3B3
は、トークン計算部3Aが出力した音声データと、トー
クンとを受け取って、音声認識の対象となる音声を演算
し、さらに、トークン計算部3Aが設定した特定の言語
モデルの確率値に基づいて、音声データとトークンとを
出力するものである。
【0017】トークン計算部3C1、3C2、3C3
は、トークン計算部3B1が出力した音声データと、ト
ークンとを受け取って、音声認識の対象となる音声を演
算し、さらに、トークン計算部3Aが設定した特定の言
語モデルの確率値に基づいて、音声データとトークンと
をトークン計算部3Aに出力するものである。
【0018】トークン計算部3D1、3D2、3D3
は、トークン計算部3B2が出力した音声データと、ト
ークンとを受け取って、音声認識の対象となる音声を演
算し、さらに、トークン計算部3Aが設定した特定の言
語モデルの確率値に基づいて、音声データとトークンと
をトークン計算部3Aに出力するものである。
【0019】トークン計算部3E1、3E2、3E3
は、トークン計算部3B3が出力した音声データと、ト
ークンとを受け取って、音声認識の対象となる音声を演
算し、さらに、トークン計算部3Aが設定した特定の言
語モデルの確率値に基づいて、音声データとトークンと
をトークン計算部3Aに出力するものである。
【0020】トークン計算部3B1、3B2、3B3、
3C1、3C2、3C3、3D1、3D2、3D3、3
E1、3E2、3E3が請求項に記載した音声認識手段
に相当するものである。なお、この実施の形態では、便
宜上、トークン計算部3Aとトークン計算部3B1、3
B2、3B3、3C1、3C2、3C3、3D1、3D
2、3D3、3E1、3E2、3E3とを、区別して記
述しているが、これらが、言語モデルを設定する言語モ
デル設定手段を含んでいてもよい。
【0021】図示を省略した記憶部は、一般的なハード
ディスク等によって構成されており、隠れマルコフモデ
ルにおける音響モデルと、複数の言語モデルと、入力さ
れた音声データの音響モデルのスコアを計算する際に利
用される発音辞書(音声の波形パターン)と、言語モデ
ルのスコアを計算する際に利用される大語彙の音声デー
タベース(コーパス)とを記憶するものである。なお、
この記憶部に記憶されている言語モデルには、その言語
モデル毎に、識別用の番号が付されており、トークン計
算部3(3A〜3E)が言語モデルのスコアを算出する
ときに、当該番号により言語モデルが参照される。
【0022】ここで、トークンと、音響モデルのスコア
と、言語モデルのスコアと、単語履歴と、言語モデルの
確率値とについて、説明を加えておく。トークンとは、
音声認識における、音声認識結果の候補であって、スコ
アと履歴(単語の履歴)とを含んでなるものである。音
声認識では、音声データの発声された音につれて、単語
から単語へとトークンが「伝達」し、履歴を持つように
なり、最終的には、残った最大スコアのトークンに基づ
いて、音声認識単語列(音声認識結果)が算出される
(出力される)。また、単語要素とは、一つの単語を構
成する各母音または各子音を、或いは、その各母音また
は子音をさらに時系列に沿って細分化したものをさすも
のである。
【0023】音響モデルのスコアとは、入力された音声
の波形パターンと、予め記憶部に記憶されている音声の
波形パターン(この実施の形態では、音声波形パターン
から抽出した特徴量)とを比較し、この比較結果に基づ
いた隠れマルコフモデルにおける音響モデルの“値”で
ある。言語モデルのスコアとは、入力された音声の単語
間のつながりを、予め記憶部に記憶されている大語彙の
音声データベース(コーパス)に基づいて、統計的計算
手法によって算出される言語モデルの“値”である。
【0024】単語履歴とは、今までに入力された音声か
ら計算された単語列のことである。なお、一つの連続し
た音声データは、通常、複数の文章から構成されてお
り、これら複数の文章中の各文章は、複数の単語の集合
とみなすことができ、さらに、一つの単語は、複数の単
語の要素(以下、単語要素という)から構成されている
とみなすことができる。つまり、この単語要素とは、一
つの単語を構成する各母音または各子音をさすものであ
って、例えば、「赤」という単語の単語要素は赤(ak
a)の「a」「k」「a」のそれぞれを指すものであ
る。また、音声の波形パターンは、この「赤」の例で言
えば、「a」「k」「a」のそれぞれの単語要素を、さ
らに、細かく時系列に沿って分解した、周波数または電
気信号に変化した場合の電圧の変動を示すものである。
この実施の形態では、音声の波形パターンから抽出した
(に基づいて得られた)特徴量が参照されている。
【0025】言語モデルの確率値とは、一つの単語
(B)が認識された場合に、次の単語(A)の生起確率
P(A|B)で表されるものである。この実施の形態で
は、言語モデルの確率値がトークン毎に設定されている
(トークン計算部3Aが設定)。
【0026】補足しておくと、隠れマルコフモデルと
は、確率統計的な音声認識における数理統計モデルであ
って、性質の異なる複数の定常信号源を切り換えていく
ことにより、もともと非定常信号である音声を、性質の
異なる定常信号の時系列としてモデル化したものであ
る。
【0027】(音声認識装置の動作)次に、音声認識装
置1の音声認識の動作を説明する。まず、この音声認識
装置1に音声データ(音声データの特徴抽出量)が入力
される(S1)と、音声認識装置1のトークン計算部3
Aが、入力された音声について、トークン毎に設定され
た言語モデルの確率値に基づいて、トークン毎の音響モ
デルのスコアを計算と言語モデルのスコアとを計算する
(S2)。トークン計算部3から、トークン計算部3B
1、3B2、3B3とに、音声データ(残りの音声デー
タ)と、トークンとが出力される(S3)。
【0028】トークン計算部3B1、3B2、3B3
は、トークン計算部3Aによって、計算されたトークン
毎の音響モデルのスコアおよび言語モデルのスコアと、
トークン計算部3Aから出力された音声データと、記憶
部に記憶されている参照すべき言語モデルの確率値とに
基づいて、これらトークン計算部3B1、3B2、3B
3に分担されているトークンが計算される(S4)。ト
ークン計算部3B1から3C1、3C2、3C3とに、
3B2から3D1、3D2、3D3とに、3B3から3
E1、3E2、3E3とに、音声データ(さらに残りの
音声データ)と、トークンとが出力される(S5)。
【0029】すると、トークン計算部3C1、3C2、
3C3は、トークン計算部3B1によって、計算された
トークン毎の音響モデルのスコアおよび言語モデルのス
コアと、トークン計算部3B1から出力された音声デー
タと、記憶部に記憶されている参照すべき言語モデルの
確率値とに基づいて、これらトークン計算部3C1、3
C2、3C3に分担されているトークンが計算される
(S6)。
【0030】同様に、トークン計算部3D1、3D2、
3D3は、トークン計算部3B2によって、計算された
トークン毎の音響モデルのスコアおよび言語モデルのス
コアと、トークン計算部3B2から出力された音声デー
タと、記憶部に記憶されている参照すべき言語モデルの
確率値とに基づいて、これらトークン計算部3D1、3
D2、3D3に分担されているトークンが計算される
(S6)。
【0031】さらに、同様に、トークン計算部3E1、
3E2、3E3は、トークン計算部3B3によって、計
算されたトークン毎の音響モデルのスコアおよび言語モ
デルのスコアと、トークン計算部3B3から出力された
音声データと、記憶部に記憶されている参照すべき言語
モデルの確率値とに基づいて、これらトークン計算部3
E1、3E2、3E3に分担されているトークンが計算
される(S6)。
【0032】そして、まず、トークン計算部3Aにおい
て、各スコアの和が閾値以内のトークンのみが残され
(S7)、次に、トークン計算部3B1、3B2、3B
3において、各スコアの和が閾値以内のトークンのみが
残され(S8)、さらに、トークン計算部3C1、3C
2、3C3、3D1、3D2、3D3、3E1、3E
2、3E3において、各スコアの和が閾値以内のトーク
ンのみが残される処理が施される(S9)。なお、この
動作における閾値は、200と設定されている。つま
り、全部のスコアを計算後、スコアのトップ(最大値)
が判断され、このスコアのトップ(最大値)より200
以内のトークンのみが残される。
【0033】そして、トークン計算部3C1、3C2、
3C3、3D1、3D2、3D3、3E1、3E2、3
E3から、トークン計算部3Aに、音声データ(また、
さらに残りの音声データ)と、トークンとが出力される
(S10)。
【0034】以上のトークン計算部3Aからトークン計
算3C1、3C2、3C3、3D1、3D2、3D3、
3E1、3E2、3E3までの動作が、入力された音声
データがなくなるまで、繰り返し実行され、その後、音
声認識装置1は音声データがあるかどうかを判断し(S
11)、音声データがあると判断されない場合には、音
声認識装置1のトークン計算部3Aから、最高のスコア
を持つ単語履歴を出力単語列(単語要素のつながり;音
声認識結果)として出力する(S12)。S11におい
て、他に入力された音声データがあると判断された場合
には、S2に戻り、音声認識処理が継続して行われる。
【0035】(音声認識装置の音声認識例)次に、音声
認識装置1が音声を認識する例について、図3を参照し
て説明する。図3は、音声認識装置1に入力された音声
がどのように音声認識処理されるかを説明した説明図で
ある。この音声認識例は、2種類の言語モデルを使った
場合であり、この2種類の言語モデルは、一般のニュー
ス原稿をアナウンサー等が発声した音声に基づいて作成
された言語モデル(以下、ニュース言語モデルという)
と、一般のスポーツ記事原稿をアナウンサー等が発声し
た音声に基づいて作成された言語モデル(以下、スポー
ツ記事言語モデルという)とから構成されている。この
図3に示すように、この音声認識例では、図示を省略し
た記憶部の大語彙の音声データベースには、少なくと
も、“赤”、“秋”、“網”、“雨”の4語が含まれて
いる。
【0036】トークン計算部3Aは、先頭の音声データ
(単語要素)である「a(あ)」を認識し、トークン計
算部3B1、3B2に残った音声データ(単語要素)
「k(赤、秋)、m(網、雨)」と、このトークン計算
部3Aで計算した音響モデルのスコアおよび言語モデル
のスコア(スコアの和)とをそれぞれに出力する。この
とき、言語モデルのスコアの計算では、各トークン毎に
指定されるニュース言語モデルまたはスポーツ記事言語
モデルの言語モデルが使用される。
【0037】ここで、トークン計算部3Aからトークン
計算部3B1、3B2にトークンが出力(伝達)され
る。そして、このトークン計算部3Aでは、トークン計
算部3B1、3B2、3C1、3C2、3D1、3D2
において計算された全てのトークンの中で最大スコアか
ら閾値500以下に入っているスコアを持つトークンが
全て消去される。つまり、トークンの消去は、一旦、ト
ークンの計算が終わってから最後にまとめて行われる。
【0038】つまり、トークン計算部3B1では「k
(赤、秋)」について、各トークン毎に指定される言語
モデルが利用され、トークンが計算される。トークン計
算部3B2では「m(網、雨)」について、各トークン
毎に指定される言語モデルが利用され、トークンが計算
される。
【0039】さらに、トークン計算部3C1において
は、「a(赤)」について、各トークン毎に指定される
言語モデルが利用され、トークンが計算され、トークン
計算部3C2においては、「i(秋)」について、各ト
ークン毎に指定される言語モデルが利用され、トークン
が計算される。また、さらに、トークン計算部3D1に
おいては「i(網)」について、各トークン毎に指定さ
れる言語モデルが利用され、トークンが計算され、トー
クン計算部3D2においては「e(雨)」について、各
トークン毎に指定される言語モデルが利用され、トーク
ンが計算される。そして、これらトークン計算部3C
1、3C2、3D1、3D2からトークン計算部3Aに
計算結果がフィードバックされる。
【0040】この実施の形態では以下の効果を奏す。音
声認識の対象となる生の音声データ或いは音声データの
特徴量が、トークン計算部3Aによって、先頭の音声デ
ータが認識され、予め設定された言語モデルの確率値に
基づいて、隠れマルコフモデルにおける音響モデルのス
コアおよび言語モデルのスコアとが計算され、そのスコ
アの和と、残りの音声データとが、次のトークン計算部
3B1、3B2、3B3に出力される。そして、トーク
ン計算部3B1、3B2、3B3によって、残りの音声
データに関して同様にトークンが計算され、さらに、ト
ークン計算部3C1、3C2、3C3、3D1、3D
2、3D3、3E1、3E2、3E3において、トーク
ンが計算される。このため、複数のトークン計算部3
で、複数の言語モデルを参照しつつ、同時に音声認識処
理が実行されるので、音声認識する認識時間(計算時
間)を多くかけることなく、高い認識性能を期待するこ
とができる。さらに、複数の言語モデルをマージ(併
合)しないので、言語モデルの予測性能の劣化を防止す
ることができる。
【0041】以上、一実施形態に基づいて本発明を説明
したが、本発明はこれに限定されるものではない。音声
認識装置1で実現されている各構成の処理を、一つの工
程としてみなした音声認識方法として捉えることも可能
である。この場合、音声認識装置1と同様な効果が得ら
れる。また、音声認識装置1における各構成の処理を、
プログラムで記述した音声認識プログラムとみなすこと
も可能である。つまり、トークン計算部3Aが言語モデ
ル設定手段と、トークン計算部3B1、3B2、3B
3、3C1、3C2、3C3、3D1、3D2、3D
3、3E1、3E2、3E3が音声認識手段と、図示を
省略した記憶部が記憶手段とみなすことができる。この
場合、音声認識装置1と同様な効果が得られる。さら
に、このプログラムを特定の記憶媒体に記憶し、流通さ
せることも可能である。
【0042】
【発明の効果】請求項1記載の発明によれば、音声認識
方法において、トークン毎に、複数の言語モデルの中か
ら特定の言語モデルが、予め設定されており、この設定
された特定の言語モデルの確率値によって音声認識がな
されるので、音声認識時に、複数の言語モデルの確率値
が常時参照され、音声認識における認識性能が向上す
る。さらに、言語モデルをマージ(併合)しないので、
言語モデルの予測性能の劣化を防止することができる。
【0043】請求項2記載の発明によれば、音声認識装
置において、言語モデル設定手段によって、トークン毎
に複数の言語モデルの中から特定の言語モデルが設定さ
れ、音声認識手段によって、特定の言語モデルの確率値
に基づき、音声認識の対象となる音声が演算され認識さ
れる。このため、音声認識時に複数の言語モデルの確率
値が常時参照され、複数の音声認識手段によって同時に
音声認識されるので、音声認識する認識時間(計算時
間)を多くかけることなく、音声認識における認識性能
が向上する。さらに、言語モデルをマージ(併合)しな
いので、言語モデルの予測性能の劣化を防止することが
できる。
【0044】請求項3記載の発明によれば、音声認識プ
ログラムにおいて、言語モデル設定手段によって、トー
クン毎に複数の言語モデルの中から特定の言語モデルが
設定され、音声認識手段によって、特定の言語モデルの
確率値に基づき、音声認識の対象となる音声が演算され
認識される。このため、音声認識時に複数の言語モデル
の確率値が常時参照され、複数の音声認識手段によって
同時に音声認識されるので、音声認識する認識時間(計
算時間)を多くかけることなく、音声認識における認識
性能が向上する。さらに、言語モデルをマージ(併合)
しないので、言語モデルの予測性能の劣化を防止するこ
とができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態を示した音声認識装
置のブロック図である。
【図2】図1に示した音声認識装置の動作を説明したフ
ローチャートである。
【図3】音声認識装置の音声認識例を説明した説明図で
ある。
【符号の説明】
1 音声認識装置 3A トークン計算部(言語モデル設定手段) 3B1、3B2、3B3、3C1、3C2、3C3、3
D1、3D2、3D3トークン計算部(音声認識手段)

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 隠れマルコフモデルにおける音響モデル
    および確率値を各々有する複数の言語モデルと、複数の
    単語要素および音声波形データを関連づけた発音辞書と
    を利用する音声認識方法であって、 前記音響モデルおよび前記言語モデルの値であるスコア
    および単語の履歴を含んでなるトークン毎に、前記複数
    の言語モデルの中から、特定の言語モデルを予め設定
    し、 これらの特定の言語モデルの確率値を参照して、音声認
    識することを特徴とする音声認識方法。
  2. 【請求項2】 隠れマルコフモデルにおける音響モデル
    および確率値を各々有する複数の言語モデルと、複数の
    単語要素および音声波形データを関連づけた発音辞書と
    を記憶する記憶部を備える音声認識装置であって、 前記音響モデルおよび前記言語モデルの値であるスコア
    および単語の履歴を含んでなるトークン毎に、前記複数
    の言語モデルの中から、特定の言語モデルを設定する言
    語モデル設定手段と、 言語モデル設定手段が設定した特定の言語モデルの確率
    値に基づいて、音声認識の対象となる音声を演算して、
    その演算結果に基づいて当該音声を認識する音声認識手
    段と、 を備えて構成されていることを特徴とする音声認識装
    置。
  3. 【請求項3】 入力された音声データ或いは音声データ
    の特徴量を音声認識し、出力単語列として出力する装置
    を、 隠れマルコフモデルにおける音響モデルおよび確率値を
    各々有する複数の言語モデルと、複数の単語要素および
    音声波形データを関連づけた発音辞書とを記憶する記憶
    手段、 前記音響モデルおよび前記言語モデルの値であるスコア
    および単語の履歴を含んでなるトークン毎に、前記複数
    の言語モデルの中から、特定の言語モデルを設定する言
    語モデル設定手段、 この言語モデル設定手段が設定した特定の言語モデルの
    確率値に基づいて、音声認識の対象となる音声を演算し
    て、その演算結果に基づいて当該音声を認識する音声認
    識手段、として機能させることを特徴とする音声認識プ
    ログラム。
JP2001208649A 2001-07-10 2001-07-10 音声認識方法および音声認識装置ならびに音声認識プログラム Pending JP2003022091A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001208649A JP2003022091A (ja) 2001-07-10 2001-07-10 音声認識方法および音声認識装置ならびに音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001208649A JP2003022091A (ja) 2001-07-10 2001-07-10 音声認識方法および音声認識装置ならびに音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2003022091A true JP2003022091A (ja) 2003-01-24

Family

ID=19044432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001208649A Pending JP2003022091A (ja) 2001-07-10 2001-07-10 音声認識方法および音声認識装置ならびに音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2003022091A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325560A (ja) * 2003-04-22 2004-11-18 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
US7584103B2 (en) 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8321199B2 (en) 2006-06-22 2012-11-27 Multimodal Technologies, Llc Verification of extracted data
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325560A (ja) * 2003-04-22 2004-11-18 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
JP4587015B2 (ja) * 2003-04-22 2010-11-24 ソニー株式会社 音声認識装置および方法、プログラム、並びに記録媒体
US7584103B2 (en) 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8321199B2 (en) 2006-06-22 2012-11-27 Multimodal Technologies, Llc Verification of extracted data
US8560314B2 (en) 2006-06-22 2013-10-15 Multimodal Technologies, Llc Applying service levels to transcripts
US9892734B2 (en) 2006-06-22 2018-02-13 Mmodal Ip Llc Automatic decision support
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses

Similar Documents

Publication Publication Date Title
US8321218B2 (en) Searching in audio speech
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JP7051919B2 (ja) ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
JP5799733B2 (ja) 認識装置、認識プログラムおよび認識方法
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
TWI610294B (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
JP2002041080A (ja) 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
JP2002215187A (ja) 音声認識方法及びその装置
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
JP2003022091A (ja) 音声認識方法および音声認識装置ならびに音声認識プログラム
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2011154061A (ja) 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2003022093A (ja) 音声認識方法および音声認識装置ならびに音声認識プログラム
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP3440840B2 (ja) 音声認識方法及びその装置
JP2938865B1 (ja) 音声認識装置
JP2002215184A (ja) 音声認識装置、及びプログラム
KR101095864B1 (ko) 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법
JP2905686B2 (ja) 音声認識装置
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法