JP2005221727A - 音声認識システム、音声認識方法および音声認識用プログラム - Google Patents

音声認識システム、音声認識方法および音声認識用プログラム Download PDF

Info

Publication number
JP2005221727A
JP2005221727A JP2004029143A JP2004029143A JP2005221727A JP 2005221727 A JP2005221727 A JP 2005221727A JP 2004029143 A JP2004029143 A JP 2004029143A JP 2004029143 A JP2004029143 A JP 2004029143A JP 2005221727 A JP2005221727 A JP 2005221727A
Authority
JP
Japan
Prior art keywords
acoustic
input speech
model
speech recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004029143A
Other languages
English (en)
Other versions
JP4583772B2 (ja
Inventor
Takeshi Hanazawa
健 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004029143A priority Critical patent/JP4583772B2/ja
Publication of JP2005221727A publication Critical patent/JP2005221727A/ja
Application granted granted Critical
Publication of JP4583772B2 publication Critical patent/JP4583772B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】音声認識システムにおいて、少ない処理量で入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行うことを可能にする。
【解決手段】本発明の音声認識システムは、入力音声の先頭の所定区間においては、複数の音響モデルを全て用いて音響尤度計算処理および仮説処理をそれぞれ音響尤度計算部104と仮説処理部106で行う。なお、先頭の所定区間の音響尤度計算処理が終了した時点で音響尤度の計算結果が良い音響モデルがモデル判別部108で選択されている。それ以降の区間においては、モデル判別部108で選択された音響モデルのみを用いて音響尤度計算処理および仮説処理をそれぞれ音響尤度計算部104と仮説処理部106で行う。
【選択図】図1

Description

本発明は、不特定話者の音声を認識する音声認識システム、音声認識方法および音声認識用プログラムに関するものである。
不特定話者音響モデルを使用して不特定話者の音声を認識する音声認識システムでは、ユーザによる音声登録が不要である反面、ある特定の話者あるいは話者群に特化した音響モデルを使用する場合に比べて一般に認識性能が劣化する。ここで、音響モデルとは、入力音声に対して音響的な確からしさを与えるモデルのことである。
また、音声認識の前段階でGMM(Gaussian Mixture Model)などを用いて複数話者を判別してから、複数話者の中から選択された話者の音声認識を行う音声認識システムがある。しかし、この音声認識システムでは、前処理を行う分だけ処理量が多くなる他、前処理時に一旦入力音声を処理しなければならないため、応答が遅れる。
そこで、複数話者の音響モデルを並列に認識処理させ、最後に音声認識スコアの良いものを選択する、すなわち複数話者を判別する音声認識システムがある。しかし、この音声認識システムでは、話者数分の計算量が必要になる。
これに対し、計算量を削減した音声認識システムの一例が、特許文献1に開示されている。この音声認識システムは、複数話者に対応する複数の仮説に対し、後述する枝刈りという処理を共通に行うことで自動的に最良の話者を選択するシステムであり、図5に示すように、マイクロフォン1と、特徴抽出部2と、バッファメモリ3と、音素照合部4と、LRパーザ5と、話者混合隠れマルコフ網メモリ11と、話者モデルメモリ12と、LRテーブルメモリ13と、文脈自由文法データベースメモリ20とから構成されている。
このような構成を有する従来の音声認識システムは、次のように動作する。
まず、マイクロフォン1で話者音声が受け付けられ、特徴抽出部2で話者音声のパラメータである特徴量が抽出される。抽出された特徴量は、バッファメモリ3を介して音素照合部4に入力される。
音素照合部4では、LRパーザ5からの音素照合要求に応じて、入力された特徴量の音素照合が行われる。このとき、LRパーザ5からは、音素照合区間の情報、および照合対象音素とその前後の音素の情報を含む音素コンテキスト情報が渡される。音素照合部4では、受け取った音素コンテキスト情報に基づいてそのような音素コンテキストを受理することができる隠れマルコフ網(以下、HM網という。)上の状態を、先行状態リストと後続状態リストの制約内で連結することによって、1つのモデルが選択される。そして、この選択されたモデルを用いて音素照合区間内のデータに対する尤度が計算され、この尤度の値が音素照合スコアとしてLRパーザ5に返される。
LRパーザ5では、例えば音素継続時間長モデルを含む話者モデルメモリ12と、LRテーブルメモリ13とを参照して、入力された音素照合スコアについて左から右方向に、後戻りなしに、仮説計算処理を行う。LRテーブルメモリ13には、文脈自由文法データベースメモリ20内の所定の文脈自由文法(CFG)が自動変換されたLRテーブルが格納されている。LRパーザ5では、LRテーブルメモリ13内のLRテーブルから次にくる音素を予測し、その音素予測データを音素照合部4に出力する。
これに応答して、音素照合部4では、入力された音素予測データに対応する隠れマルコフ網メモリ11内の情報を参照して照合し、その尤度を音声認識スコアとしてLRパーザ5に戻す。
LRパーザ5では、入力された音声認識スコアを元に順次音素を連接していくことにより、連続音声の認識を行う。なお、音素照合部4で複数の音素が予測された場合は、これらすべての存在をチェックし、部分的な音声認識の尤度の高い部分木を残すという枝刈りを行って高速処理を実現する。
その後、マイクロフォン1で受け付けられた話者音声が最後まで処理されると、LRパーザ5では、全体の尤度が最大のものまたは所定の上位複数個のものを音声認識結果データとして出力する。
特許第2905674号明細書
しかしながら、上述のように、複数話者を自動判別しながら音声認識する場合に、複数話者の仮説を共通に枝刈りする音声認識システムでは、仮説計算処理までの処理を全ての話者の音響モデルに対して行わなければならないため、処理量の点で効率的でないという問題点がある。
本発明の目的は、少ない処理量で入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行うことができる音声認識システム、音声認識方法および音声認識用プログラムを提供することにある。
本発明の音声認識システムは、入力音声の特徴量に対し、複数の音響モデルとの音響尤度を計算する音響尤度計算手段と、音響尤度計算手段にて入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に音響尤度計算手段にて計算された音響尤度に基づいて、入力音声の音響モデルの判別、選択を行うモデル判別手段と、音響尤度計算手段にて入力音声の所定区間分の音響尤度計算が終了する度に、当該所定区間内にモデル判別手段にて選択された音響モデルに対して計算された音響尤度を用いて仮説処理を行い、入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する仮説処理手段とを備える。ここで、音響尤度計算手段は、入力音声の先頭の所定区間では、入力音声の特徴量に対し、複数の音響モデルの全てとの音響尤度を各々計算し、入力音声の先頭以降の所定区間では、入力音声の特徴量に対し、モデル判別手段にて選択された音響モデルのみとの音響尤度を計算する。
このような構成により、入力音声の先頭の所定区間でのみ、音響尤度計算処理が複数の音響モデルの数だけ複数回行われ、先頭以降の所定区間では、音響尤度計算処理が、既に選択されている音響モデルの数だけすなわち1回だけ行われることになる。そのため、入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う際の処理量を小さく迎えることができる。
ここで、モデル判別の対象は話者であっても良く、その場合の話者判別の対象は、性別、年齢別、または方言別であっても良い。あるいは、モデル判別の対象は、雑音環境、伝送特性、言語、またはそれらの組み合わせであっても良い。
本発明によれば、入力音声の先頭の所定区間でのみ、音響尤度計算処理が複数の音響モデルの数だけ複数回行われ、先頭以降の所定区間では、音響尤度計算処理が、既に選択されている音響モデルの数だけすなわち1回だけ行われること、また、仮説処理時には、その前段の音響尤度計算処理時に計算された音響尤度を共用し、新たに音響尤度を計算しなくても済むことから、入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う際の処理量が小さくて済むという効果を奏する。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1は、本発明の一実施形態による音声認識システムの構成を示すブロック図である。この音声認識システムは、複数の音響モデルを格納する音響モデル格納部105と、言語モデルを格納する言語モデル格納部107と、入力音声101の音声入力が行われるマイクロフォン102と、入力音声101のパラメータである特徴量を抽出する特徴抽出部103と、抽出された特徴量に対し、複数の音響モデルとの音響尤度を計算する音響尤度計算部104と、入力音声101の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に計算された音響尤度に基づき入力音声101の音響モデルの判別、選択を行うモデル判別部108と、入力音声101の所定区間分の音響尤度計算が終了する度に、当該所定区間内に選択された音響モデルに対して計算された音響尤度を用いて仮説処理を行い、入力音声101の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果109を出力する仮説処理部306とを有する。ここで、音響尤度計算部104は、入力音声101の先頭の所定区間では、入力音声101の特徴量に対し、複数の音響モデルの全てとの音響尤度を各々計算するが、それ以降の所定区間では、入力音声101の特徴量に対し、モデル判別部108にて選択された音響モデルのみとの音響尤度を計算する。
次に、本実施形態による音声認識システムの動作の一例について図2のフローチャートを用いて説明する。
まず、入力音声101をマイクロフォン102から時間同期で、例えば10m秒ずつ入力する(ステップ201)。この10m秒分の標本量を1フレームとする。
次に、特徴抽出部103において、入力音声101の1フレーム分の音声の特徴量を抽出する(ステップ202)。
次に、音響尤度計算部104において、特徴抽出部103により抽出された1フレーム分の特徴量に対し、音響モデル格納部105に格納されている複数の音響モデルとの音響尤度を計算する(ステップ203)。このとき、音響尤度計算部104においては、入力音声101の先頭の所定区間では、複数の音響モデルの全てとの音響尤度を計算するが、それ以降の区間では、既に選択されている音響モデルのみとの音響尤度を計算する。なお、ここで計算された音響尤度は、音響尤度計算部104にて蓄積される。
ここで、音響尤度が所定区間分、例えば60フレーム分蓄積された場合、この区間が入力音声101の先頭であれば(ステップ204のYes)、モデル判別部108において、音響尤度の計算結果に基づいて入力音声101の音響モデルの判別、選択を行い(ステップ205)、ここで選択された音響モデルに対して音響尤度計算部104にて計算された音響尤度が、仮説処理部106での仮説処理に使用される。一方、入力音声101の先頭以外であれば(ステップ204のNo)、モデル判別部108でのモデル判別は行われず、既にモデル判別部108により選択されている音響モデルに対して音響尤度計算部104にて計算された音響尤度が、仮説処理部106での仮説処理に使用される。
次に、仮説処理部106において、モデル判別部108により選択された音響モデルに対して音響尤度計算部104にて上記の所定区間内に計算された音響尤度と、言語モデル格納部107に格納されている言語モデルとを用いて1フレームずつ仮説処理を行う(ステップ206)。
入力音声101の所定区間分の仮説処理までの処理が終了すると、その区間の終端が入力音声101の全区間の終端でなければ(ステップ207のNo)、ステップ201に戻って、入力音声101の次のフレームの入力を受け付ける。一方、入力音声101の全区間の終端であれば(ステップ207のYes)、仮説処理部106では、仮説処理により得た単語列の中から最も確からしい単語列を音声認識結果109として出力して(ステップ208)、処理を終了する。
上述のように本発明では、入力音声101の先頭の所定区間においては、複数の音響モデルを全て用いて音響尤度計算処理を音響尤度計算部104で行い、その先頭の所定区間の音響尤度計算処理が終了した時点で音響尤度の計算結果が良い音響モデルをモデル判別部108で選択する。先頭以降の所定区間においては、モデル判別部108で選択された音響モデルのみを用いて音響尤度計算処理を音響尤度計算部104で行う。
それにより、入力音声101の先頭区間でのみ、音響尤度計算処理が複数の音響モデルの数だけ複数回行われ、先頭以降の区間では、音響尤度計算処理が、既に選択されている音響モデルの数だけすなわち1回だけ行われるため、複数の音響モデルの中から入力音声101の音響モデルを選択して音声認識する場合の処理量を小さく抑えることができる。
次に、本発明の音声認識システムについて具体的な実施例を用いて説明する。
(第1実施例)
図3は、本発明の第1実施例による音声認識システムの構成を示すブロック図である。この音声認識システムは、図1に示した入力音声101の具体例として不特定話者の音声を用いることにより、モデル判別の対象を話者とし、また、音響モデルの具体例として男性話者モデルと女性話者モデルとを用いることにより、話者判別の対象を性別とする。それに伴い、図1に示したモデル判別部108を、話者のモデルを判別する話者判別部308に置き換え、また、音響モデル格納部105を、男性話者モデルを格納する男性話者モデル格納部305Aと女性話者モデルを格納する女性話者モデル格納部305Bとに置き換える。なお、図3において、マイクロフォン302、特徴抽出部303、音響尤度計算部304、仮説処理部306、言語モデル格納部307は、それぞれ、図1に示したマイクロフォン102、特徴抽出部103、音響尤度計算部104、仮説処理部106、言語モデル格納部107に相当する。
次に、本実施例による音声認識システムの動作の一例について説明する。
まず、入力音声301をマイクロフォン302から時間同期で、例えば10m秒ずつ入力する。この10m秒分の標本量を1フレームとする。
次に、特徴抽出部303において、入力音声301の1フレーム分の音声の特徴量を抽出する。
次に、音響尤度計算部304において、特徴抽出部303により抽出された1フレーム分の特徴量に対し、男性話者モデル格納部305Aに格納されている男性話者モデルとの音響尤度、女性話者モデル格納部305Bに格納されている女性話者モデルとの音響尤度をそれぞれ計算する。なお、ここで計算された音響尤度は、音響尤度計算部304にて蓄積される。
ここで、入力音声301の先頭の所定区間分、例えば先頭の60フレーム分の音響尤度が蓄積された場合、話者判別部308において、その区間分の男性話者モデル、女性話者モデルのそれぞれの音響尤度の平均値を比較し、例えば男性話者モデルの平均音響尤度の方が女性話者モデルの平均音響尤度よりもより確からしい場合には、男性話者モデルを選択する。以下では、男性話者モデルが選択されたものとして説明する。
次に、仮説処理部306において、話者判別部308により選択された男性話者モデルに対して音響尤度計算部304にて上記の所定区間内に計算された音響尤度と、言語モデル格納部307に格納されている言語モデルとを用いて1フレームずつ仮説処理を行い、確からしい順に複数の単語列仮説を得る。
入力音声301の先頭の所定区間分の仮説処理までの処理が終了すると、それ以降の区間については既に選択されている男性話者モデルのみを用いて音響尤度計算処理と仮説処理をそれぞれ音響尤度計算部304と仮説処理部306で行い、入力音声301の全区間の終端までの処理が終了したら、仮説処理部306から音声認識結果309として最も確からしい単語列を出力する。
上述のように本実施例では、話者の性別をあらかじめ指定することなしに男性あるいは女性に特化した話者モデルを使用することが可能となり、さらに性別をあらかじめ指定する場合と比較しても処理量の増加が少なくてすむ。すなわち、先頭の所定区間分でのみ、音響尤度計算処理が複数(本実施例では2回)行われることになる。
なお、本実施例では、話者判別の対象を性別とし、話者を男性と女性との2つのクラスタに分けているが、話者を何らかの別の基準で複数のクラスタに分け、その中から話者のモデルを判別することも容易に実現可能である。例えば、話者判別の対象を年齢別とし、子供音声と成人音声と高齢者音声とを判別する場合や、話者判別の対象を方言別とし、アメリカ人の英語と日本人の英語とを判別する場合などが考えられる。
また、本実施例では、モデル判別の対象を話者としているが、モデル判別の対象は話者に限定されない。例えば、モデル判別の対象を雑音環境とし、SN比の異なる複数の雑音環境に対応したモデルを用いて雑音環境を判別しながら音声認識を行う場合や、モデル判別の対象を伝送特性とし、携帯電話音声と固定電話音声など異なる伝送特性に対応したモデルを用いて伝送特性を判別しながら音声認識を行う場合などが考えられる。また、モデル判別の対象を言語とし、例えば、日本語、英語、中国語の3種類のモデルを用い、言語判別しながら音声認識を行う場合が考えられる。このとき、先頭の所定区間で言語をどれか1つに絞る方法を採用しても良いし、確からしいもの2つをまず選択しておいて、次の所定区間で最終的に1つに絞る、という方法を採用しても良い。また、モデル判別の対象を、上述の雑音環境、伝送特性、言語の組み合わせとしても良い。
さらに、本実施例では、話者判別のための音響尤度比較の方法として、その区間分のフレーム単位音響尤度の平均値を用いる方法を採用したが、この方法には限定されず、フレームごとに音響尤度の優劣を比較してその区間分で多数決をとる方法を採用しても良い。
(第2の実施例)
図4は、本発明の第2実施例による音声認識システムの構成を示すブロック図である。この音声認識システムは、第1の実施例と同様に、図1に示した入力音声101の具体例として不特定話者の音声を用いることにより、モデル判別の対象を話者とし、また、音響モデルの具体例として男性話者モデルと女性話者モデルとを用いることにより、話者判別の対象を性別とする。それに伴い、図1に示したモデル判別部108を、話者のモデルを判別する話者判別部408に置き換え、また、音響モデル格納部105を、男性話者モデルを格納する男性話者モデル格納部405Aと女性話者モデルを格納する女性話者モデル格納部405Bとに置き換える。なお、図4において、マイクロフォン402、特徴抽出部403、音響尤度計算部404、仮説処理部406、言語モデル格納部407は、それぞれ、図1に示したマイクロフォン102、特徴抽出部103、音響尤度計算部104、仮説処理部106、言語モデル格納部107に相当する。さらに、この音声認識システムは、話者判別部408で選択しようとしているモデルの平均音響尤度が所定の閾値を超えているか判定する閾値判定部410も新たに備えられている。
次に、本実施例による音声認識システムの動作の一例について説明する。
まず、入力音声401をマイクロフォン402から時間同期で、例えば10m秒ずつ入力する。この10m秒分の標本量を1フレームとする。
次に、特徴抽出部403において、入力音声401の1フレーム分の音声の特徴量を抽出する。
次に、音響尤度計算部404において、特徴抽出部403により抽出された1フレーム分の特徴量に対し、男性話者モデル格納部405Aに格納されている男性話者モデルとの音響尤度、女性話者モデル格納部405Bに格納されている女性話者モデルとの音響尤度をそれぞれ計算する。なお、ここで計算された音響尤度は、音響尤度計算部404にて蓄積される。
ここで、入力音声401の先頭の所定区間分、例えば先頭の30フレーム分の音響尤度が蓄積された場合、話者判別部408において、その区間分の男性話者モデル、女性話者モデルのそれぞれの音響尤度の平均値を比較し、例えば男性話者モデルの平均音響尤度の方が女性話者モデルの平均音響尤度よりもより確からしい場合には、男性話者モデルの平均音響尤度を閾値判定部410へ渡す。以下では、男性話者モデルの平均音響尤度が閾値判定部410へ渡されたものとして説明する。
次に、閾値判定部410において、話者判別部408から渡された男性話者モデルの平均音響尤度が所定の閾値を超えているかどうかを判定し、例えば閾値を超えている場合には受理という判定結果を話者判別部408へ返す。以下では、受理という判定結果が話者判別部408へ返されたものとして説明する。
次に、話者判別部408において、閾値判定部410から受理という判定結果が渡されたので、モデル判別結果として男性話者モデルを選択する。
次に、仮説処理部406において、話者判別部408により選択された男性話者モデルに対して音響尤度計算部404にて上記の所定区間内に計算された音響尤度と、言語モデル格納部407に格納されている言語モデルとを用いて1フレームずつ仮説処理を行い、確からしい順に複数の単語列仮説を得る。
入力音声401の先頭の所定区間分の仮説処理までの処理が終了すると、それ以降の区間については既に選択されている男性話者モデルのみを用いて音響尤度計算処理と仮説処理をそれぞれ音響尤度計算部404と仮説処理部406で行い、入力音声401の全区間の終端までの処理が終了したら、仮説処理部406から音声認識結果409として最も確からしい単語列を出力する。
上述のように本実施例では、閾値判定を行うことにより、入力音声401の区間の中で話者判別が行われる先頭区間を可変長とすることが可能となり、その結果としてより高精度な話者判別を行うことが可能となる。
なお、本発明においては、音声認識システム内の処理は、上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するための音声認識プログラムにより実行するものであっても良い。この場合、音声認識システムを1台のコンピュータとして構成し、このコンピュータにて読取可能な記録媒体に音声認識プログラムを記録し、この記録媒体に記録された音声認識プログラムをコンピュータにて読み込み、実行する。コンピュータにて読取可能な記録媒体とは、フロッピーディスク、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、コンピュータに内蔵されたHDDなどを指す。
本発明は、計算機に対する音声入力インタフェースといった用途に適用できる。
本発明の一実施形態による音声認識システムの構成を示すブロック図である。 図1に示した音声認識システムの動作の一例を説明するフローチャートである。 本発明の第1実施例による音声認識システムの構成を示すブロック図である。 本発明の第2実施例による音声認識システムの構成を示すブロック図である。 従来の音声認識システムの構成の一例を示すブロック図である。
符号の説明
101 入力音声
102 マイクロフォン
103 特徴抽出部
104 音響尤度計算部
105 音響モデル格納部
106 仮説処理部
107 言語モデル格納部
108 モデル判別部
109 音声認識結果
201〜208 ステップ
301 入力音声
302 マイクロフォン
303 特徴抽出部
304 音響尤度計算部
305A 男性話者モデル格納部
305B 女性話者モデル格納部
306 仮説処理部
307 言語モデル格納部
308 話者判別部
309 音声認識結果
401 入力音声
402 マイクロフォン
403 特徴抽出部
404 音響尤度計算部
405A 男性話者モデル格納部
405B 女性話者モデル格納部
406 仮説処理部
407 言語モデル格納部
408 話者判別部
409 音声認識結果
410 閾値判定部

Claims (15)

  1. 複数の音響モデルの中から入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う音声認識システムにおいて、
    前記入力音声の特徴量に対し、前記複数の音響モデルとの音響尤度を計算する音響尤度計算手段と、
    前記音響尤度計算手段にて前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記音響尤度計算手段にて計算された音響尤度に基づいて、前記入力音声の音響モデルの判別、選択を行うモデル判別手段と、
    前記音響尤度計算手段にて前記入力音声の所定区間分の音響尤度計算が終了する度に、当該所定区間内に前記モデル判別手段にて選択された音響モデルに対して計算された音響尤度を用いて仮説処理を行い、前記入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する仮説処理手段とを有し、
    前記音響尤度計算手段は、前記入力音声の先頭の所定区間では、前記入力音声の特徴量に対し、前記複数の音響モデルの全てとの音響尤度を各々計算し、前記入力音声の先頭以降の所定区間では、前記入力音声の特徴量に対し、前記モデル判別手段にて選択された音響モデルのみとの音響尤度を計算することを特徴とする音声認識システム。
  2. 前記音響尤度計算手段は、前記入力音声の特徴量に対する音響尤度計算を時間同期で行う、請求項1に記載の音声認識システム。
  3. 前記モデル判別手段によるモデル判別の対象が話者である、請求項1または2に記載の音声認識システム。
  4. 前記モデル判別手段による話者判別の対象が、性別、年齢別、または方言別である、請求項3に記載の音声認識システム。
  5. 前記モデル判別手段によるモデル判別の対象が、雑音環境、伝送特性、言語、またはそれらの組み合わせである、請求項1または2に記載の音声認識システム。
  6. 複数の音響モデルの中から入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う音声認識システムによる音声認識方法において、
    音響尤度計算手段が、前記入力音声の先頭の所定区間で、前記入力音声の特徴量に対し、前記複数の音響モデルの全てとの音響尤度を各々計算する第1のステップと、
    モデル判別手段が、前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第1のステップにて計算された音響尤度に基づいて、前記入力音声の音響モデルの判別、選択を行う第2のステップと、
    仮説処理手段が、前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第2のステップで選択された音響モデルに対して前記第1のステップで計算された音響尤度を用いて仮説処理を行う第3のステップと、
    前記音響尤度計算手段が、前記入力音声の先頭以降の所定区間で、前記入力音声の特徴量に対し、前記第2のステップで選択された音響モデルのみとの音響尤度を計算する第4のステップと、
    前記仮説処理手段が、前記入力音声の先頭以降の所定区間分の音響尤度計算が終了する度に、当該所定区間内に前記第2のステップで選択された音響モデルに対して前記第4のステップで計算された音響尤度を用いて仮説処理を行い、前記入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する第5のステップとを有することを特徴とする音声認識方法。
  7. 前記第1のステップおよび前記第4のステップでは、前記入力音声の特徴量に対する音響尤度計算を時間同期で行う、請求項6に記載の音声認識方法。
  8. 前記第2のステップでは、モデル判別の対象が話者である、請求項6または7に記載の音声認識方法。
  9. 前記第2のステップでは、話者判別の対象が、性別、年齢別、または方言別である、請求項8に記載の音声認識方法。
  10. 前記第2のステップでは、モデル判別の対象が、雑音環境、伝送特性、言語、またはそれらの組み合わせである、請求項6または7に記載の音声認識方法。
  11. 複数の音響モデルの中から入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行うコンピュータに実行させる音声認識用プログラムにおいて、
    前記入力音声の先頭の所定区間で、前記入力音声の特徴量に対し、前記複数の音響モデルの全てとの音響尤度を各々計算する第1のステップと、
    前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第1のステップにて計算された音響尤度に基づいて、前記入力音声の音響モデルの判別、選択を行う第2のステップと、
    前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第2のステップで選択された音響モデルに対して前記第1のステップで計算された音響尤度を用いて仮説処理を行う第3のステップと、
    前記入力音声の先頭以降の所定区間で、前記入力音声の特徴量に対し、前記第2のステップで選択された音響モデルのみとの音響尤度を計算する第4のステップと、
    前記入力音声の先頭以降の所定区間分の音響尤度計算が終了する度に、当該所定区間内に前記第2のステップで選択された音響モデルに対して前記第4のステップで計算された音響尤度を用いて仮説処理を行い、前記入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する第5のステップとを前記コンピュータに実行させることを特徴とする音声認識用プログラム。
  12. 前記第1のステップおよび前記第4のステップでは、前記入力音声の特徴量に対する音響尤度計算を時間同期で行う、請求項11に記載の音声認識用プログラム。
  13. 前記第2のステップでは、モデル判別の対象が話者である、請求項11または12に記載の音声認識用プログラム。
  14. 前記第2のステップでは、話者判別の対象が、性別、年齢別、または方言別である、請求項13に記載の音声認識用プログラム。
  15. 前記第2のステップでは、モデル判別の対象が、雑音環境、伝送特性、言語、またはそれらの組み合わせである、請求項11または12に記載の音声認識用プログラム。
JP2004029143A 2004-02-05 2004-02-05 音声認識システム、音声認識方法および音声認識用プログラム Expired - Fee Related JP4583772B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004029143A JP4583772B2 (ja) 2004-02-05 2004-02-05 音声認識システム、音声認識方法および音声認識用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004029143A JP4583772B2 (ja) 2004-02-05 2004-02-05 音声認識システム、音声認識方法および音声認識用プログラム

Publications (2)

Publication Number Publication Date
JP2005221727A true JP2005221727A (ja) 2005-08-18
JP4583772B2 JP4583772B2 (ja) 2010-11-17

Family

ID=34997414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004029143A Expired - Fee Related JP4583772B2 (ja) 2004-02-05 2004-02-05 音声認識システム、音声認識方法および音声認識用プログラム

Country Status (1)

Country Link
JP (1) JP4583772B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233308A (ja) * 2006-03-03 2007-09-13 Mitsubishi Electric Corp 音声認識装置
JP2007233149A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2008146054A (ja) * 2006-12-06 2008-06-26 Korea Electronics Telecommun 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
JP2009300716A (ja) * 2008-06-13 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムとその記録媒体
JP2010145784A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム
JP2011527030A (ja) * 2008-07-02 2011-10-20 グーグル・インコーポレーテッド 並列認識タスクを用いた音声認識
US8682668B2 (en) 2008-05-16 2014-03-25 Nec Corporation Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium
JP2014215578A (ja) * 2013-04-30 2014-11-17 日本電信電話株式会社 音響モデル選択装置とその方法とプログラム
JP2016520879A (ja) * 2013-12-19 2016-07-14 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 地方なまりを区別する音声データ認識方法、装置及びサーバ
JP2020060757A (ja) * 2018-10-05 2020-04-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者認識装置、話者認識方法、及び、プログラム
JP2021092817A (ja) * 2019-03-28 2021-06-17 国立研究開発法人情報通信研究機構 言語識別装置及び言語を判定する方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233149A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP4700522B2 (ja) * 2006-03-02 2011-06-15 日本放送協会 音声認識装置及び音声認識プログラム
JP2007233308A (ja) * 2006-03-03 2007-09-13 Mitsubishi Electric Corp 音声認識装置
JP2008146054A (ja) * 2006-12-06 2008-06-26 Korea Electronics Telecommun 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
JP4717872B2 (ja) * 2006-12-06 2011-07-06 韓國電子通信研究院 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
US8682668B2 (en) 2008-05-16 2014-03-25 Nec Corporation Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium
JP2009300716A (ja) * 2008-06-13 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムとその記録媒体
JP4729078B2 (ja) * 2008-06-13 2011-07-20 日本電信電話株式会社 音声認識装置とその方法と、プログラムとその記録媒体
JP2017076139A (ja) * 2008-07-02 2017-04-20 グーグル インコーポレイテッド 並列認識タスクを用いた音声認識
JP2011527030A (ja) * 2008-07-02 2011-10-20 グーグル・インコーポレーテッド 並列認識タスクを用いた音声認識
JP2013238885A (ja) * 2008-07-02 2013-11-28 Google Inc 並列認識タスクを用いた音声認識
JP2010145784A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム
JP2014215578A (ja) * 2013-04-30 2014-11-17 日本電信電話株式会社 音響モデル選択装置とその方法とプログラム
JP2016520879A (ja) * 2013-12-19 2016-07-14 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 地方なまりを区別する音声データ認識方法、装置及びサーバ
JP2020060757A (ja) * 2018-10-05 2020-04-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者認識装置、話者認識方法、及び、プログラム
JP7326033B2 (ja) 2018-10-05 2023-08-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識装置、話者認識方法、及び、プログラム
JP2021092817A (ja) * 2019-03-28 2021-06-17 国立研究開発法人情報通信研究機構 言語識別装置及び言語を判定する方法
JP7454857B2 (ja) 2019-03-28 2024-03-25 国立研究開発法人情報通信研究機構 言語識別装置

Also Published As

Publication number Publication date
JP4583772B2 (ja) 2010-11-17

Similar Documents

Publication Publication Date Title
JP6772198B2 (ja) 言語モデルスピーチエンドポインティング
US8612224B2 (en) Speech processing system and method
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US10506088B1 (en) Phone number verification
WO2017084334A1 (zh) 一种语种识别方法、装置、设备及计算机存储介质
EP1489598A1 (en) Speech recognition and conversation control
JPH05197389A (ja) 音声認識装置
JP2000029495A (ja) ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
EP3739583A1 (en) Dialog device, dialog method, and dialog computer program
JP4583772B2 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP5549506B2 (ja) 音声認識装置及び音声認識方法
JP2002149186A (ja) 識別可能な適合に関する代替の単語列の選択
US11348579B1 (en) Volume initiated communications
JP2002215187A (ja) 音声認識方法及びその装置
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP3176210B2 (ja) 音声認識方法及び音声認識装置
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP4475628B2 (ja) 会話制御装置、会話制御方法並びにこれらのプログラム
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
JP2001092488A (ja) 統計的言語モデル生成装置及び音声認識装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090121

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090323

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090501

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090508

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100901

R150 Certificate of patent or registration of utility model

Ref document number: 4583772

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees