JP4600706B2 - 音声認識装置および音声認識方法、並びに記録媒体 - Google Patents

音声認識装置および音声認識方法、並びに記録媒体 Download PDF

Info

Publication number
JP4600706B2
JP4600706B2 JP2000051465A JP2000051465A JP4600706B2 JP 4600706 B2 JP4600706 B2 JP 4600706B2 JP 2000051465 A JP2000051465 A JP 2000051465A JP 2000051465 A JP2000051465 A JP 2000051465A JP 4600706 B2 JP4600706 B2 JP 4600706B2
Authority
JP
Japan
Prior art keywords
word
dictionary
score
words
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000051465A
Other languages
English (en)
Other versions
JP2001242885A (ja
Inventor
活樹 南野
康治 浅野
浩明 小川
ルッケ ヘルムート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000051465A priority Critical patent/JP4600706B2/ja
Publication of JP2001242885A publication Critical patent/JP2001242885A/ja
Application granted granted Critical
Publication of JP4600706B2 publication Critical patent/JP4600706B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置および音声認識方法、並びに記録媒体に関し、特に、大語彙を対象とした精度の高い音声認識を行うことができるようにする音声認識装置および音声認識方法、並びに記録媒体に関する。
【0002】
【従来の技術】
図1は、従来の音声認識装置の一例の構成を示している。
【0003】
ユーザが発した音声は、マイク(マイクロフォン)1に入力され、マイク1では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は、AD(Analog Digital)変換部2に供給される。AD変換部2では、マイク1からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、特徴抽出部3に供給される。
【0004】
特徴抽出部3は、AD変換部2からの音声データについて、適当なフレームごとに音響処理を施し、これにより、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等の特徴量を抽出し、マッチング部4に供給する。なお、特徴抽出部3では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴量を抽出することが可能である。
【0005】
マッチング部4は、特徴抽出部3からの特徴量を用いて、音響モデルデータベース5、辞書データベース6、および文法データベース7を必要に応じて参照しながら、マイク1に入力された音声(入力音声)を、例えば、連続分布HMM法等に基づいて音声認識する。
【0006】
即ち、音響モデルデータベース5は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布HMM法に基づいて音声認識を行うので、音響モデルとしては、例えば、HMM(Hidden Markov Model)が用いられる。辞書データベース6は、認識対象の各単語について、その発音に関する情報(音韻情報)が記述された単語辞書を記憶している。文法データベース7は、辞書データベース6の単語辞書に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則を記憶している。ここで、文法規則としては、例えば、文脈自由文法(CFG)や、統計的な単語連鎖確率(N−gram)などに基づく規則を用いることができる。
【0007】
マッチング部4は、辞書データベース6の単語辞書を参照することにより、音響モデルデータベース5に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、マッチング部4は、幾つかの単語モデルを、文法データベース7に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布HMM法によって、マイク1に入力された音声を認識する。即ち、マッチング部4は、特徴抽出部3が出力する時系列の特徴量が観測されるスコア(尤度)が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
【0008】
即ち、マッチング部4は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【0009】
スコア計算は、一般に、音響モデルデータベース5に記憶された音響モデルによって与えられる音響的なスコア(以下、適宜、音響スコアという)と、文法データベース7に記憶された文法規則によって与えられる言語的なスコア(以下、適宜、言語スコアという)とを総合評価することで行われる。
【0010】
即ち、音響スコアは、例えば、HMM法による場合には、単語モデルを構成する音響モデルから、特徴抽出部3が出力する特徴量の系列が観測される確率(出現する確率)に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖(連接)する確率に基づいて求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア(以下、適宜、最終スコアという)に基づいて、音声認識結果が確定される。
【0011】
具体的には、あるN個の単語からなる単語列におけるk番目の単語をwkとして、その単語wkの音響スコアをA(wk)と、言語スコアをL(wk)と、それぞれ表すとき、その単語列の最終スコアSは、例えば、次式にしたがって計算される。
【0012】
S=Σ(A(wk)+Ck×L(wk))・・・(1)
但し、Σは、kを1からNに変えてのサメーションをとることを表す。また、Ckは、単語wkの言語スコアL(wk)にかける重みを表す。
【0013】
マッチング部4では、例えば、式(1)に示す最終スコアを最も大きくするNと、単語列w1,w2,・・・,wNを求めるマッチング処理が行われ、その単語列w1,w2,・・・,wNが、音声認識結果として出力される。
【0014】
以上のような処理が行われることにより、図1の音声認識装置では、例えば、ユーザが、「ニューヨークに行きたいです」と発話した場合には、「ニューヨーク」、「に」、「行きたい」、「です」といった各単語に、音響スコアおよび言語スコアが与えられ、それらを総合評価して得られる最終スコアが最も大きいときと、単語列「ニューヨーク」、「に」、「行きたい」、「です」が、音声認識結果として出力される。
【0015】
【発明が解決しようとする課題】
ところで、図1の音声認識装置は、それ専用のハードウェアによって実現することも、また、コンピュータによって実行されるプログラムとしてのソフトウェアで実現することも可能である。
【0016】
しかしながら、例えば、リアルタイムで音声認識を行う場合には、いずれにしても、音声認識の対象とする単語(語彙)数、即ち、辞書データベース6の単語辞書に登録可能な単語(語彙)とその音韻情報との組の数、および文法データベース7における文法規則で扱うことのできる単語(語彙)の数は、音声認識装置を実現する専用のハードウェアとしての論理回路等の演算器およびメモリや、コンピュータを構成するCPUおよびメモリ等によって制限を受ける。
【0017】
即ち、特に、文法規則については、例えば、N−gram等の単語の連鎖確率に基づくものを採用した場合には、音声認識の対象とする単語が増加すると、文法規則として規定しなければならない単語の並びが、増加した単語数の累乗に比例して増加するため、その文法規則を記憶しておくのに必要なメモリの容量が莫大に増加する。従って、文法データベース7における文法規則が扱うことのできる単語数は、メモリの容量によって大きく制限される。
【0018】
また、音声認識の対象とする単語数が増加すると、単語辞書に登録する単語数も増加し、その分、音響スコアを計算しなければならない単語数も増加するから、リアルタイム性を維持するには、音声認識の対象とする単語数は、演算器やCPUの処理速度によっても制限される。
【0019】
さらに、単語辞書に登録する単語の数は、文法規則の場合ほどではないが、やはり、メモリの容量によっても制限される。即ち、単語辞書に登録する単語が増加すると、その増加分に比例した容量のメモリが必要となる。従って、1個の単語に、1通りの音韻情報だけを組み合わせる場合には、メモリの容量の増加分はそれほど大きくはならない。しかしながら、音声認識の精度を向上させるために、1個の単語に、複数の音韻情報を組み合わせる場合(例えば、単語「お早う」に対して、音韻情報「おはよう」、「おはよー」、「おはよ」、および「はよう」を組み合わせる場合)には、その組み合わせる音韻情報の数が増加するほど、必要なメモリの容量が増加する。さらに、この場合、音響スコアの計算量も増加する。
【0020】
そして、音声認識の対象とする単語が制限されると、対象とされなかった単語(以下、適宜、未登録語という)が、ユーザによって発話された場合には、各種の問題が生じる。
【0021】
即ち、未登録語については、単語辞書に、その音韻情報が登録されていないため、その音響スコアを正確に計算することはできない。さらに、未登録語については、文法規則において扱われていないため、その言語スコアも正確に計算することはできない。従って、ユーザの音声の認識結果としての単語列を決定する際に、未登録語の部分において誤りを生じる。さらに、この誤りは、他の部分の誤りを引き起こす原因にもなる。
【0022】
具体的には、例えば、上述のように、ユーザが、「ニューヨークに行きたいです」と発話した場合において、「ニューヨーク」が未登録語であるときには、その「ニューヨーク」の部分において、正確な音響スコアおよび言語スコアの計算ができない。さらに、「ニューヨーク」について正確な音響スコアの計算ができないことにより、「ニューヨーク」と、その後に続く「に」との単語の境界の決定において誤りが生じ、その誤りが、他の部分の音響スコアの計算に影響を与える。
【0023】
音声認識装置において音声認識の対象とする単語としては、一般に、例えば、新聞や小説等において出現頻度の高いものが選定されることが多いが、出現頻度の低い単語が、ユーザによって発話されないという保証はない。従って、未登録語については、何らかの対処をとることが必要である。
【0024】
そこで、例えば、廣瀬良文 他、「「読み」を考慮した言語モデルによる大語彙連続音声認識」、日本音響学会講演論文集、pp.55-56,1999年3月や、廣瀬良文他、「「読み」情報に基づく高被覆率言語モデルを用いた大語彙連続音声認識」、日本音響学会講演論文集、pp.69-70,1999年3月〜10月等には、単語の音韻情報(読み情報)に基づく音声認識処理と、かな漢字変換とを組み合わせることによって、未登録語を削減する音声認識方法(以下、適宜、第1の方法という)が開示されている。
【0025】
第1の方法では、単語辞書の単語や、文法規則で扱う単語を、漢字表記による区別を行わず、音韻情報だけで表しておき、それによって得られる単語の音韻情報の系列が、かな漢字変換によって、漢字表記の単語列に変換され、音声認識結果として出力される。
【0026】
従って、第1の方法では、単語が、その音韻情報だけで同定されるため、例えば、「張る」や、「貼る」、「春」等が、すべて「はる」という同一の単語であるとして扱われるから、結果として、音声認識の対象とする単語数を増加させることができる。
【0027】
しかしながら、第1の方法では、仮に、正しい単語の音韻情報の系列が得られたとしても、かな漢字変換において、その音韻情報の系列の変換を誤ると、音声認識結果も誤ったものとなる。
【0028】
さらに、音韻情報、即ち、読みが同一の単語には限りがあるため、第1の方法では、未登録語を削減できるといっても、その大幅な削減は困難である。
【0029】
また、未登録語の対処方法としては、例えば、伊藤克亘 他、「被服率を重視した大規模連続音声認識用統計言語モデル」、日本音響学会講演論文集、pp.65-66,1999年3月等に、サブワードモデルを用いた方法(以下、適宜、第2の方法という)が開示されている。
【0030】
第2の方法では、単語辞書や文法に登録されていない単語としての未登録語が、音節等の細かい単位(この単位が、サブワードと呼ばれる)に分割され、各サブワードが、1つの単語として、単語辞書や文法規則に登録される。サブワードとして、例えば、音節を用いた場合には、サブワードとなる単語の数は、それほど多くならないから、第2の方法によれば、メモリの容量をそれほど増加させずに、未登録語に対処することができる。即ち、第2の方法では、未登録語は、サブワード単位で認識される。
【0031】
しかしながら、第2の方法では、未登録語でない単語、即ち、単語辞書や文法に登録されている単語(以下、適宜、登録語という)についても、サブワード単位の認識が行われるため、それに起因して、登録語が、サブワードの系列として誤認識されることがある。
【0032】
即ち、例えば、いま、「入浴」が登録語で、「ニューヨーク」が未登録語であるとすると、未登録語「ニューヨーク」は、例えば、「ニュ」、「ウー」、「ヨ」、「オー」、「ク」等のサブワードに分割され、単語辞書および文法規則に登録される。そして、この場合、ユーザが、「入浴」と発話した場合に、登録語である「入浴」ではなく、サブワードの系列である「ニュ」、「ウー」、「ヨ」、「ク」(「ニューヨク」)が、音声認識結果として得られることがある。
【0033】
一方、文法規則は、上述のように、登録語(音声認識の対象とする単語)を増加させると、その単語の増加分の累乗に比例することから、これを防止するための方法として、登録語を、その品詞によって、幾つかのグループに分類し、各グループどうしの関係として、文法規則を記述するクラス文法を採用する方法がある。
【0034】
クラス文法によれば、例えば、1000単語の登録語が、10のグループに分類された場合には、その10のグループどうしの関係を規定する文法規則だけで済むので、文法規則を記憶しておくのに必要なメモリの容量は、グループ数にのみ依存し、登録語の数に依存しなくなる。
【0035】
しかしながら、クラス文法を用いた場合でも、音響スコアの計算量は、登録語の数に依存するから、単語辞書に登録可能な単語(登録語)の数は、その計算能力によって制限される。
【0036】
本発明は、このような状況に鑑みてなされたものであり、大語彙を対象とした精度の高い音声認識を行うことができるようにするものである。
【0037】
【課題を解決するための手段】
本発明の音声認識装置は、入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、音声を認識する音声認識装置であって、入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、音声認識の対象とする第1の単語群を登録している第1の基本辞書と、音声認識の対象とする第2の単語群であって、且つ、第1の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、第1の単語群として第1の基本辞書には登録されなかった残りの単語を表す第2の単語群を、所定の属性ごとにグループ分けして登録している追加辞書とから、スコアの計算の対象とする1以上の単語を選択する単語選択手段と、第1の単語群の各単語を登録している、第1の基本辞書とは異なる第2の基本辞書の単語について、言語的なスコアを計算するための第1の文法規則を、第の基本辞書の単語ごとに記憶しているとともに、追加辞書の単語について、言語的なスコアを計算するための第2の文法規則を、属性ごとに記憶している第1の文法規則記憶手段と、第1の基本辞書から選択された単語について、音響的なスコアを計算するとともに、第1の文法規則に基づいて言語的なスコアを計算し、追加辞書から選択された単語について、音響的なスコアを計算するとともに、その単語の属性に対応する第2の文法規則に基づいて言語的なスコアを計算するスコア計算手段と、時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶する接続関係記憶手段と、単語接続情報において、複数のパス毎に、パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、音声認識結果となる単語列を確定する確定手段と、第1の所定数の音響モデルを記憶している第1の音響モデル記憶手段と、第1の所定数よりも多い音響モデルを記憶している第2の音響モデル記憶手段と、第1の単語群の各単語に対して、第2の所定数の音韻情報が対応付けられている第1の基本辞書、および第1の基本辞書に未登録の単語からなる第2の単語群の各単語に対して、第2の所定数の音韻情報が対応付けられている追加辞書を記憶している第1の単語辞書記憶手段と、登録している第1の単語群の各単語に対して第2の所定数よりも多い音韻情報が対応付けられている第2の基本辞書、および単語選択手段において追加辞書から選択された単語を登録する動的追加辞書を記憶している第2の単語辞書記憶手段と、言語的なスコアを計算するための第3の文法規則を記憶している第2の文法規則記憶手段と、単語選択手段により選択された1以上の単語のうち、追加辞書から選択された単語を、第2の単語辞書記憶手段に記憶されている動的追加辞書に登録する登録手段とを備え、第1の文法規則記憶手段は、第3の文法規則よりも精度が高い文法規則として、第2の基本辞書の単語についての第1の文法規則、および追加辞書における属性ごとの単語についての第2の文法規則を記憶しており、単語選択手段は、第1の音響モデル記憶手段、第1の単語辞書記憶手段、および第2の文法規則記憶手段を参照して行なう音声認識処理により、スコアの計算の対象とする1以上の単語を選択し、登録手段は、単語選択手段により、追加辞書から単語が選択された場合、その単語を、動的追加辞書に登録し、スコア計算手段は、単語選択手段により選択された単語について、第2の音響モデル記憶手段、第2の単語辞書記憶手段、および第1の文法規則記憶手段を参照して行なう音声認識処理により、第1の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する
【0038】
記ノードには、時刻情報として、始端側を接続しているアークが表す単語に対応する発話の開始時刻、および終端側を接続しているアークが表す単語に対応する発話の終了時刻を有するようにすることができる。
【0039】
属性は、単語の品詞または意味とすることができる。
【0041】
本発明の音声認識方法は、入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、音声を認識する音声認識装置の音声認識方法であって、音声認識装置は、音声認識の対象とする第1の単語群を登録している第1の基本辞書とは異なる第2の基本辞書であって、第1の単語群の各単語を登録している第2の基本辞書の単語について、言語的なスコアを計算するための第1の文法規則を、第の基本辞書の単語ごとに記憶しているとともに、音声認識の対象とする第2の単語群であって、且つ、第1の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、第1の単語群として第1の基本辞書には登録されなかった残りの単語を表す第2の単語群を、所定の属性ごとにグループ分けして登録している追加辞書の単語について、言語的なスコアを計算するための第2の文法規則を、属性ごとに記憶している第1の文法規則記憶手段を有しており、入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、第1の基本辞書と、追加辞書とから、スコアの計算の対象とする1以上の単語を選択する単語選択ステップと、第1の基本辞書から選択された単語について、音響的なスコアを計算するとともに、第1の文法規則に基づいて言語的なスコアを計算し、追加辞書から選択された単語について、音響的なスコアを計算するとともに、その単語の属性に対応する第2の文法規則に基づいて言語的なスコアを計算するスコア計算ステップと、時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、複数のパス毎に、パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、音声認識結果となる単語列を確定する確定ステップとを含み、音声認識装置は、さらに、第1の所定数の音響モデルを記憶している第1の音響モデル記憶手段と、第1の所定数よりも多い音響モデルを記憶している第2の音響モデル記憶手段と、第1の単語群の各単語に対して、第2の所定数の音韻情報が対応付けられている第1の基本辞書、および第1の基本辞書に未登録の単語からなる第2の単語群の各単語に対して、第2の所定数の音韻情報が対応付けられている追加辞書を記憶している第1の単語辞書記憶手段と、登録している第1の単語群の各単語に対して第2の所定数よりも多い音韻情報が対応付けられている第2の基本辞書、および単語選択ステップの処理において追加辞書から選択された単語を登録する動的追加辞書を記憶している第2の単語辞書記憶手段と、言語的なスコアを計算するための第3の文法規則を記憶している第2の文法規則記憶手段とを有しており、単語選択ステップの処理により選択された1以上の単語のうち、追加辞書から選択された単語を、第2の単語辞書記憶手段に記憶されている動的追加辞書に登録する登録ステップをさらに含み、第1の文法規則記憶手段は、第3の文法規則よりも精度が高い文法規則として、第2の基本辞書の単語についての第1の文法規則、および追加辞書における属性ごとの単語についての第2の文法規則を記憶しており、単語選択ステップは、第1の音響モデル記憶手段、第1の単語辞書記憶手段、および第2の文法規則記憶手段を参照して行なう音声認識処理により、スコアの計算の対象とする1以上の単語を選択し、登録ステップは、単語選択ステップの処理により、追加辞書から単語が選択された場合、その単語を、動的追加辞書に登録し、スコア計算ステップは、単語選択ステップの処理により選択された単語について、第2の音響モデル記憶手段、第2の単語辞書記憶手段、および第1の文法規則記憶手段を参照して行なう音声認識処理により、第1の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する
【0042】
本発明の記録媒体は、入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、音声を認識する音声認識装置のコンピュータに処理を行わせるプログラムが記録されている記録媒体であって、音声認識装置は、音声認識の対象とする第1の単語群を登録している第1の基本辞書とは異なる第2の基本辞書であって、第1の単語群の各単語を登録している第2の基本辞書の単語について、言語的なスコアを計算するための第1の文法規則を、第の基本辞書の単語ごとに記憶しているとともに、音声認識の対象とする第2の単語群であって、且つ、第1の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、第1の単語群として第1の基本辞書には登録されなかった残りの単語を表す第2の単語群を、所定の属性ごとにグループ分けして登録している追加辞書の単語について、言語的なスコアを計算するための第2の文法規則を、属性ごとに記憶している第1の文法規則記憶手段を有しており、入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、第1の基本辞書と、追加辞書とから、スコアの計算の対象とする1以上の単語を選択する単語選択ステップと、第1の基本辞書から選択された単語について、音響的なスコアを計算するとともに、第1の文法規則に基づいて言語的なスコアを計算し、追加辞書から選択された単語について、音響的なスコアを計算するとともに、その単語の属性に対応する第2の文法規則に基づいて言語的なスコアを計算するスコア計算ステップと、時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、複数のパス毎に、パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、音声認識結果となる単語列を確定する確定ステップとを含み、音声認識装置は、さらに、第1の所定数の音響モデルを記憶している第1の音響モデル記憶手段と、第1の所定数よりも多い音響モデルを記憶している第2の音響モデル記憶手段と、第1の単語群の各単語に対して、第2の所定数の音韻情報が対応付けられている第1の基本辞書、および第1の基本辞書に未登録の単語からなる第2の単語群の各単語に対して、第2の所定数の音韻情報が対応付けられている追加辞書を記憶している第1の単語辞書記憶手段と、登録している第1の単語群の各単語に対して第2の所定数よりも多い音韻情報が対応付けられている第2の基本辞書、および単語選択ステップの処理において追加辞書から選択された単語を登録する動的追加辞書を記憶している第2の単語辞書記憶手段と、言語的なスコアを計算するための第3の文法規則を記憶している第2の文法規則記憶手段とを有しており、単語選択ステップの処理により選択された1以上の単語のうち、追加辞書から選択された単語を、第2の単語辞書記憶手段に記憶されている動的追加辞書に登録する登録ステップをさらに含み、第1の文法規則記憶手段は、第3の文法規則よりも精度が高い文法規則として、第2の基本辞書の単語についての第1の文法規則、および追加辞書における属性ごとの単語についての第2の文法規則を記憶しており、単語選択ステップは、第1の音響モデル記憶手段、第1の単語辞書記憶手段、および第2の文法規則記憶手段を参照して行なう音声認識処理により、スコアの計算の対象とする1以上の単語を選択し、登録ステップは、単語選択ステップの処理により、追加辞書から単語が選択された場合、その単語を、動的追加辞書に登録し、スコア計算ステップは、単語選択ステップの処理により選択された単語について、第2の音響モデル記憶手段、第2の単語辞書記憶手段、および第1の文法規則記憶手段を参照して行なう音声認識処理により、第1の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する処理を、コンピュータに行わせるプログラムが記録されている。
【0043】
本発明の音声認識装置および音声認識方法、並びに記録媒体においては、入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、音声認識の対象とする第1の単語群を登録している第1の基本辞書と、音声認識の対象とする第2の単語群であって、且つ、第1の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、第1の単語群として第1の基本辞書には登録されなかった残りの単語を表す第2の単語群を、所定の属性ごとにグループ分けして登録している追加辞書とから、スコアの計算の対象とする1以上の単語が選択され、第1の基本辞書から選択された単語について、音響的なスコアが計算されるとともに、第1の文法規則に基づいて言語的なスコアが計算され、追加辞書から選択された単語について、音響的なスコアが計算されるとともに、その単語の属性に対応する第2の文法規則に基づいて言語的なスコアが計算され、時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、複数のパス毎に、パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、声認識結果となる単語列が確定される。
【0044】
【発明の実施の形態】
図2は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜略する。
【0045】
特徴量抽出部3が出力する、ユーザが発した音声の特徴量の系列は、フレーム単位で、制御部11に供給されるようになっており、制御部11は、特徴量抽出部3からの特徴量を、特徴量記憶部12に供給する。
【0046】
また、制御部11は、単語接続情報記憶部15に記憶された単語接続情報を参照し、マッチング部14を制御する。さらに、制御部11は、マッチング部14が、前述した図1のマッチング部4と同様のマッチング処理を行うことにより得られるマッチング処理結果としての音響スコアや言語スコア等に基づいて、単語接続情報を生成し、その単語接続情報によって、単語接続情報記憶部15の記憶内容を更新する。また、制御部11は、単語接続情報記憶部15に記憶された単語接続情報に基づいて、最終的な音声認識結果を確定して出力する。
【0047】
特徴量記憶部12は、制御部11から供給される特徴量の系列を、例えば、ユーザの音声の認識結果が得られるまで記憶する。なお、制御部11は、音声区間の開始時刻を基準(例えば0)とする、特徴抽出部3が出力する特徴量が得られた時刻(以下、適宜、抽出時刻という)を、その特徴量とともに、特徴量記憶部12に供給するようになっており、特徴量記憶部12は、特徴量を、その抽出時刻とともに記憶する。
【0048】
単語予備選択部13は、マッチング部14からの要求に応じ、単語接続情報記憶部15、音響モデルデータベース16A、辞書データベース17A、および文法データベース18Aを必要に応じて参照しながら、マッチング部14でマッチング処理の対象とする単語を選択する単語予備選択処理を、特徴量記憶部12に記憶された特徴量を用いて行う。この単語予備選択処理の結果は、マッチング部14に供給されるようになっている。
【0049】
マッチング部14は、制御部11からの制御に基づき、単語接続情報記憶部15、音響モデルデータベース16B、辞書データベース17B、および文法データベース18Bを必要に応じて参照しながら、単語予備選択部13からの単語予備選択処理の結果得られる単語を対象としたマッチング処理を、特徴量記憶部12に記憶された特徴量を用いて行い、そのマッチング処理の結果を、制御部11に供給する。
【0050】
単語接続情報記憶部15は、制御部11から供給される単語接続情報を、ユーザの音声の認識結果が得られるまで記憶する。
【0051】
ここで、単語接続情報は、最終的な音声認識結果の候補となる単語列を構成する単語どうしの接続(連鎖または連接)関係を表すもので、各単語の音響スコアおよび言語スコア、並びに各単語に対応する発話の開始時刻および終了時刻も含んでいる。
【0052】
即ち、図3は、単語接続情報記憶部15に記憶される単語接続情報を、グラフ構造を用いて示している。
【0053】
図3の実施の形態において、単語接続情報としてのグラフ構造は、単語を表すアーク(図3において、○印どうしを結ぶ線分で示す部分)と、単語どうしの境界を表すノード(図3において○印で示す部分)とから構成されている。
【0054】
ノードは、時刻情報を有しており、この時刻情報は、そのノードに対応する特徴量の抽出時刻を表す。上述したように、抽出時刻は、音声区間の開始時刻を0とする、特徴抽出部3が出力する特徴量が得られた時刻であるから、図3において、音声区間の開始、即ち、最初の単語の先頭に対応するノードNode1が有する時刻情報は0となる。ノードは、アークの始端および終端となるが、始端のノード(始端ノード)、または終端のノード(終端ノード)が有する時刻情報は、それぞれ、そのノードに対応する単語の発話の開始時刻、または終了時刻となる。
【0055】
なお、図3では、左から右方向が、時間の経過を表しており、従って、あるアークの左右にあるノードのうち、左側のノードが始端ノードとなり、右側のノードが終端ノードとなる。
【0056】
アークは、そのアークに対応する単語の音響スコアおよび言語スコアを有しており、このアークが、終端ノードとなっているノードを始端ノードとして、順次接続されていくことにより、音声認識結果の候補となる単語の系列が構成されていく。
【0057】
即ち、制御部11においては、まず最初に、音声区間の開始を表すノードNode1に対して、音声認識結果として確からしい単語に対応するアークが接続される。図3の実施の形態では、「今日」に対応するアークArc1、「いい」に対応するアークArc6、および「天気」に対応するArc11が接続されている。なお、音声認識結果として確からしい単語かどうかは、マッチング部14において求められる音響スコアおよび言語スコアに基づいて決定される。
【0058】
そして、以下、同様にして、「今日」に対応するアークArc1の終端である終端ノードNode2、「いい」に対応するアークArc6の終端である終端ノードNode7、「天気」に対応するArc11の終端である終端ノードNode12それぞれに対して、同様に、確からしい単語に対応するアークが接続されていく。
【0059】
以上のようにしてアークが接続されていくことで、音声区間の開始を始点として、左から右方向に、アークとノードで構成される1以上のパスが構成されて行くが、例えば、そのパスのすべてが、音声区間の最後(図3の実施の形態では、時刻T)に到達すると、制御部11において、音声区間の開始から最後までに形成された各パスについて、そのパスを構成するアークが有している音響スコアおよび言語スコアが累積され、最終スコアが求められる。そして、例えば、その最終スコアが最も高いパスを構成するアークに対応する単語列が、音声認識結果として確定されて出力される。
【0060】
具体的には、例えば、図3において、ノードNode1から、「今日」に対応するアークArc1、ノードNode2、「は」に対応するアークArc2、ノードNode3、「いい」に対応するアークArc3、ノードNode4、「天気」に対応するアークArc4、ノードNode5、「ですね」に対応するアークArc5、およびノードNode6で構成されるパスについて、最も高い最終スコアが得られた場合には、単語列「今日」、「は」、「いい」、「天気」、「ですね」が、音声認識結果として出力されることになる。
【0061】
なお、上述の場合には、音声区間内にあるノードについて、必ずアークを接続して、音声区間の開始から最後にまで延びるパスを構成するようにしたが、このようなパスを構成する過程において、それまでに構成されたパスについてのスコアから、音声認識結果として不適当であることが明らかであるパスに関しては、その時点で、パスの構成を打ち切る(その後に、アークを接続しない)ようにすることが可能である。
【0062】
また、上述のようなパスの構成ルールに従えば、1つのアークの終端が、次に接続される1以上のアークの始端ノードなり、基本的には、枝葉が拡がるように、パスが構成されて行くが、例外的に、1つのアークの終端が、他のアークの終端に一致する場合、つまり、あるアークの終端ノードと、他のアークの終端ノードとが同一のノードとなる場合がある。
【0063】
即ち、説明を簡単にするために、文法規則を無視することとすると、別のノードから延びる2つのアークが、同一の単語に対応するものであり、さらに、その単語の発話の終了時刻も同一である場合には、その2つのアークの終端は一致する。
【0064】
図3において、ノードNode7を始端として延びるアークArc7、およびノードNode13を始端として延びるアークArc13は、いずれも「天気」に対応するものであり、その発話の終了時刻も同一であるため、その終端ノードは、ノードNode8に一致している。
【0065】
図2に戻り、音響モデルデータベース16Aおよび16Bは、基本的には、図1の音響モデルデータベース5において説明したような音響モデルを記憶している。
【0066】
但し、音響モデルデータベース16Bは、音響モデルデータベース16Aよりも精度の高い処理が可能な高精度の音響モデルを記憶している。即ち、例えば、音響モデルデータベース16Aにおいて、各音素や音節について、1パターンの音響モデルだけが記憶されているとすると、音響モデルデータベース16Bには、各音素や音節について、複数パターンの音響モデルが記憶されている。
【0067】
辞書データベース17Aおよび17Bは、基本的には、図1の辞書データベース6において説明したような単語辞書を記憶している。
【0068】
但し、辞書データベース17Aは、図4(A)に示すように、基本辞書dicAと、追加辞書dicADDとからなる単語辞書を記憶している。基本辞書dicAには、例えば、新聞や小説等で現れる単語のうち、出現頻度の高い上位N単語(Nは、例えば、音声認識装置の能力による)が登録されている。追加辞書dicADDには、基本辞書dicAを作成するときに用いた新聞や小説等で現れる単語の、基本辞書dicAには登録されなかった残りの単語すべてが登録される。
【0069】
基本辞書dicAに登録される単語の数Nが、例えば、図1の辞書データベース6の単語辞書に登録される単語の数と同一であるとすると、基本辞書dicAと追加辞書dicADDとに登録される単語の総数は、図1の辞書データベース6の単語辞書に登録される単語の数に比較して、追加辞書dicADDに登録される分だけ増加することとなるが、その増加により必要となるメモリの容量は、追加辞書dicADDに登録された単語の数に比例するだけなので、それほど大きな値にはならない。
【0070】
なお、ここでは、メモリ容量の節約等のため、基本辞書dicAおよび追加辞書dicADDにおいて登録する単語の音韻情報(読み)は、各単語に対して、例えば、1通りとする。
【0071】
また、追加辞書dicADDには、単語が、例えば、その品詞(例えば、名詞や、動詞、形容詞等)や、意味(例えば、地名であるとか、人名、会社名である等)などの属性によってグループ分けされ、どのグループに属するかを表すグループ情報とともに登録されているものとする。
【0072】
辞書データベース17Bは、図4(B)に示すように、基本辞書dicBと、動的追加辞書dicDYとからなる単語辞書を記憶している。
【0073】
基本辞書dicBには、基本辞書dicAと同一セットの単語が登録されている。但し、基本辞書dicBは、基本辞書dicAよりも精度の高い処理が可能な高精度の音韻情報を記憶している。即ち、上述したように、基本辞書dicAには、各単語に対して、1通りの音韻情報(読み)しか登録されていないが、基本辞書dicBには、各単語に対して、複数通りの音韻情報が登録されている。具体的には、例えば、単語「お早う」に対して、基本辞書dicAには、1通りの音韻情報「おはよう」しか登録されていないが、基本辞書dicBには、「おはよう」の他、「おはよー」や、「おはよ」、「はよう」といった音韻情報も登録されている。
【0074】
動的追加辞書dicDYには、単語予備選択部13において単語予備選択処理が行われることにより、辞書データベース17Aの追加辞書dicADDから、マッチング部14におけるマッチング処理の対象とする単語が選択された場合に、その単語が、マッチング部14によって登録される。即ち、動的追加辞書dicDYに登録される単語は、単語予備選択部13において行われる単語予備選択処理によって、いわば動的に変更される。
【0075】
従って、基本辞書dicBに登録される単語の数Nが、例えば、図1の辞書データベース6の単語辞書に登録される単語の数と同一であるとすると、基本辞書dicBと動的追加辞書dicDYとに登録される単語の総数は、図1の辞書データベース6の単語辞書に登録される単語の数に比較して、動的追加辞書dicDYに登録される分だけ増加することとなるが、その増加により必要となるメモリの容量は、単語予備選択処理によって、追加辞書dicADDから選択された単語の数に比例するだけなので、僅かである。
【0076】
なお、単語予備選択部13は、単語予備選択処理によって、追加辞書dicADDから単語を選択した場合、その単語を、その音韻情報およびグループ情報とともに、マッチング部14に供給する。従って、動的追加辞書dicDYには、追加辞書dicADDから選択された単語が、その音韻情報およびグループ情報とともに登録される。
【0077】
再び、図2に戻り、文法データベース18Aおよび18Bは、基本的には、図1の文法データベース7において説明したような文法規則を記憶している。
【0078】
但し、文法データベース18Bは、文法データベース18Aよりも精度の高い処理が可能な高精度の文法規則を記憶している。即ち、文法データベース18Aが、例えば、ユニグラム(単語の生起確率)に基づく文法規則を記憶しているとすると、文法データベース18Bは、例えば、バイグラム(直前の単語との関係を考慮した単語の生起確率)や、トライグラム(直前の単語およびそのさらに1つ前の単語との関係を考慮した単語の生起確率)、あるいは文脈自由文法等に基づく文法規則を記憶している。
【0079】
さらに、文法データベース18Bは、辞書データベース17Bの基本辞書dicBに登録された単語については、その言語スコアを計算するための文法規則を、単語ごとに記憶しているが、動的追加辞書dicDYに登録され得る単語、即ち、辞書データベース17Aの追加辞書dicADDに登録された単語については、その言語スコアを計算するための文法規則を、単語のグループ分けに用いられた属性(上述したように、単語の品詞や意味)ごとに記憶している。
【0080】
従って、例えば、基本辞書dicBに、N個の単語w1,w2,・・・,wNが登録されており(この場合、本実施の形態では、基本辞書dicAにも、同一の単語が登録されていることになる)、かつ、追加辞書dicADDに登録された単語が、M個のグループc1,c2,・・・,cMにグループ分けされているとし、さらに、文法データベース18Bの文法規則として、2つの単語が連鎖する連鎖確率で規定されるバイグラムを採用することとすると、文法データベース18Bに登録される文法規則のデータ量は、図5に示すようになる。
【0081】
即ち、図5において、エリアArea1は、基本辞書dicBに登録された単語wiとwjとのバイグラムによる連鎖確率P(wi,wj)のデータ量を表しており、このデータ量は、図1において、辞書データベース6の単語辞書にN個の単語が登録されており、かつ、文法データベース7の文法規則として、バイグラムを採用する場合と同一になる。但し、i,j=1,2,・・・,Nである。
【0082】
また、図5において、エリアArea2は、動的追加辞書dicDYに登録され得る単語のグループcmに属する単語と、基本辞書dicBに登録された単語wiとが、その順で連鎖する場合のバイグラムによる連鎖確率P(cm,wi)のデータ量を表しており、エリアArea3は、基本辞書dicBに登録された単語wiと、動的追加辞書dicDYに登録され得る単語のグループcmに属する単語とが、その順で連鎖する場合のバイグラムによる連鎖確率P(wi,cm)のデータ量を表している。さらに、図5において、エリアArea4は、動的追加辞書dicDYに登録され得る単語の、ある1のグループckに属する単語と、他の1のグループcmに属する単語とのバイグラムによる連鎖確率P(ck,cm)のデータ量を表している。但し、k,m=1,2,・・・,Mである。
【0083】
これらのエリアArea2,Area3,Area4で表されるデータ量が、動的追加辞書dicDYを設けることによる文法規則のデータ量の増加分であり、追加辞書dicADDに、莫大な数の単語を登録しても、それらの単語をグループ分けする際のグループ数を抑えることで、文法データベース18Bに登録する必要のある文法規則のデータ量は、図1における場合に比較して、僅かの増加で済むようになる。
【0084】
次に、図6のフローチャートを参照して、図2の音声認識装置による音声認識処理について説明する。
【0085】
ユーザが発話を行うと、その発話としての音声は、マイク1およびAD変換部2を介することにより、ディジタルの音声データとされ、特徴抽出部3に供給される。特徴抽出部3は、そこに供給される音声データから、音声の特徴量を、フレームごとに順次抽出し、制御部11に供給する。
【0086】
制御部11は、何らかの手法で音声区間を認識するようになっており、音声区間においては、特徴抽出部3から供給される特徴量の系列を、各特徴量の抽出時刻と対応付けて、特徴量記憶部12に供給して記憶させる。
【0087】
さらに、制御部11は、音声区間の開始後、ステップS1において、音声区間の開始を表すノード(以下、適宜、初期ノードという)を生成し、単語接続情報記憶部15に供給して記憶させる。即ち、制御部11は、ステップS1において、図3におけるノードNode1を、単語接続情報記憶部15に記憶させる。
【0088】
そして、ステップS2に進み、制御部11は、単語接続情報記憶部15の単語接続情報を参照することで、途中ノードが存在するかどうかを判定する。
【0089】
即ち、上述したように、図3に示した単語接続情報においては、終端ノードに、アークが接続されていくことにより、音声区間の開始から最後にまで延びるパスが形成されて行くが、ステップS2では、終端ノードのうち、まだアークが接続されておらず、かつ、音声区間の最後にまで到達していないものが、途中ノード(例えば、図3におけるノードNode8や、Node10,Node11)として検索され、そのような途中ノードが存在するかどうかが判定される。
【0090】
なお、上述したように、音声区間は何らかの手法で認識され、さらに、終端ノードに対応する時刻は、その終端ノードが有する時刻情報を参照することで認識することができるから、アークが接続されていない終端ノードが、音声区間の最後に到達していない途中ノードであるかどうかは、音声区間の最後の時刻と、終端ノードが有する時刻情報とを比較することで判定することができる。
【0091】
ステップS2において、途中ノードが存在すると判定された場合、ステップS3に進み、制御部11は、情報接続情報の中に存在する途中ノードのうちの1つを、それに接続するアークとしての単語を決定するノード(以下、適宜、注目ノードという)として選択する。即ち、制御部11は、ステップS2において、情報接続情報の中に複数の途中ノードが存在する場合には、その複数の途中ノードのうちの1つを注目ノードとして選択し、情報接続情報の中に1つの途中ノードしか存在しない場合には、その途中ノードを、注目ノードとして選択する。
【0092】
その後、制御部11は、注目ノードが有する時刻情報を開始時刻としてマッチング処理を行う旨の指令(以下、適宜、マッチング処理指令という)を、マッチング部14に出力する。マッチング部14は、制御部11からマッチング処理指令を受信すると、注目ノードと、それが有する時刻情報とを、単語予備選択部13に供給し、単語予備選択処理を要求する。
【0093】
単語予備選択部13は、マッチング部14から、単語予備選択処理の要求を受信すると、ステップS4において、注目ノードに接続されるアークとなる単語、つまり、マッチング処理の対象となる単語の候補を選択する単語予備選択処理を、基本辞書dicAおよび追加辞書dicADDに登録された単語を対象として行う。
【0094】
即ち、単語予備選択部13は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部12から読み出す。さらに、単語予備選択部13は、辞書データベース17Aの基本辞書dicAおよび追加辞書dicADDに登録された単語の単語モデルを、音響モデルデータベース16Aに記憶された音響モデルを接続することで構成し、各単語モデルに対応する単語について、特徴量記憶部12から読み出した特徴量の系列を用いて、音響スコアを計算する。
【0095】
また、単語予備選択部13は、辞書データベース17Aの基本辞書dicAおよび追加辞書dicADDに登録された各単語の言語スコアを、文法データベース18Aに記憶された文法規則に基づいて計算する。そして、単語予備選択部13は、辞書データベース17Aの基本辞書dicAおよび追加辞書dicADDに登録された各単語について、その音響スコアおよび言語スコアを総合評価したスコア(単語について、その音響スコアおよび言語スコアを総合評価したスコアを、以下、適宜、単語スコアという)を求め、その上位L個を、マッチング処理の対象とする単語として、マッチング部14に供給する。
【0096】
ここで、本実施の形態において、辞書データベース17Aの基本辞書dicAおよび追加辞書dicADDに登録された単語数は、膨大な数となるが、音響モデルデータベース16Aに記憶された音響モデルや、文法データベース18Aに記憶された文法規則は、上述したことから、音響モデルデータベース16Bに記憶された音響モデルや、文法データベース18Bに記憶された文法規則よりも精度の低いものであり、そのような音響モデルや文法規則を用いた音響スコアや言語スコアの計算は、比較的容易である。
【0097】
なお、単語予備選択部13の処理能力が低い場合には、単語予備選択部13において、例えば、単語のすべての音素や音節の音響モデルを接続するのではなく、最初の幾つかの音素や音節の音響モデルだけを接続して単語モデルを構成し、そのような単語モデルを用いて、音響スコアを計算するようにしても良い。また、言語スコアは計算せずに、音響スコアのみに基づいて、あるいは逆に、音響スコアは計算せずに、言語スコアのみに基づいて、マッチング処理の対象とする単語を選択するようにすることも可能である。さらに、単語予備選択部13においては、追加辞書dicADDに登録された単語については、音響的に類似する単語どうしをグループ化し、各グループを代表する1以上の単語を決めておき、その単語についてのみ、音響スコアおよび言語スコアを計算するようにしても良い。但し、この場合は、追加辞書dicADDに登録された単語が、上述の上位L個の中に入ったときには、その単語が属するグループの単語すべてが、マッチング処理の対象とされることになる。
【0098】
また、単語予備選択部13では、言語スコアや音響スコアを計算するのではなく、ユーザのいままでの発話の話題や意味内容から、マッチングの対象とする単語を選択するようにすることも可能である。
【0099】
一方、単語予備選択部13の処理能力が高い場合には、単語予備選択部13において、例えば、単語接続情報記憶部15に記憶された単語接続情報を参照し、注目ノードに先行するアークに対応する単語の音響スコアや言語スコア等を加味して、マッチング処理の対象とする単語を選択するようにすることが可能である。
【0100】
マッチング部14は、単語予備選択部13から、マッチング処理の対象とする単語(以下、適宜、選択単語という)を受信すると、ステップS5において、その選択単語の中に、追加辞書dicADDに登録されたものがあるかどうかを判定する。
【0101】
ここで、単語予備選択部13は、上述のように、辞書データベース17Aの基本辞書dicAおよび追加辞書dicADDに登録された単語から、マッチング処理の対象とする単語(選択単語)を選択し、マッチング部14に供給するが、その選択単語のうち、単語予備選択部13が参照する基本辞書dicAから選択されたものは、マッチング部14が参照する基本辞書dicBにも登録されている。従って、選択単語のうち、基本辞書dicAから選択されたものについては、その単語を一意に識別することのできる、例えば、ユニークな番号や、その単語のテキスト表記等の識別情報を、単語予備選択部13からマッチング部14に対して与えれば済む。
【0102】
これに対して、選択単語のうち、単語予備選択部13が参照する追加辞書dicADDから選択されたものは、マッチング部14が参照する基本辞書dicBおよび動的追加辞書dicDYのいずれにも登録されていないから、そのような選択単語を対象にマッチング処理を行うには、その選択単語の単語モデルを構成するために、その音韻情報(読み)が必要となる。そこで、選択単語のうち、追加辞書dicADDから選択されたものについては、その識別情報の他に、その音韻情報も、単語予備選択部13からマッチング部14に対して供給される。
【0103】
さらに、追加辞書dicADDから選択された選択単語については、上述したように、そのグループ情報も、単語選択部13からマッチング部14に対して供給される。
【0104】
そこで、マッチング部14は、ステップS5において、例えば、グループ情報の有無に基づいて、単語予備選択部13からの選択単語の中に、追加辞書dicADDに登録されたもの(以下、適宜、追加単語という)があるかどうかを判定し、ないと判定した場合、辞書データベース17Bの動的追加辞書dicDYの記憶内容をクリアし、ステップS6をスキップして、ステップS7に進む。
【0105】
一方、ステップS5において、単語予備選択部13からの選択単語の中に、追加辞書dicADDに登録されたもの(追加単語)があると判定された場合、ステップS6に進み、マッチング部6は、辞書データベース17Bの動的追加辞書dicDYの記憶内容を、単語予備選択部13からの選択単語の中に含まれる追加単語によって更新(上書き)する。
【0106】
即ち、マッチング部6は、選択単語のうち、追加単語について、単語選択部13から供給される識別情報、音韻情報、およびグループ情報を、動的追加辞書dicDYに記憶させることで、その記憶内容を更新する。
【0107】
そして、ステップS7に進み、マッチング部14は、基本辞書dicBに登録された単語のうち、単語予備選択部13からの選択単語の中に含まれるものと、動的追加辞書dicDYに登録された単語とを対象に、音響スコアおよび言語スコアの計算を行う。
【0108】
即ち、マッチング部14は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部12から読み出す。さらに、マッチング部14は、基本辞書dicAに登録された単語のうちの選択単語の中に含まれるものと、動的追加辞書dicDYに登録された単語の単語モデルを、音響モデルデータベース16Bに記憶された音響モデルを接続することで構成し、各単語モデルに対応する単語ついて、特徴量記憶部12から読み出した特徴量の系列を用いて、音響スコアを計算する。
【0109】
また、マッチング部14は、基本辞書dicAに登録された単語のうちの選択単語の中に含まれるものと、動的追加辞書dicDYに登録された単語の言語スコアを、文法データベース18Bに記憶された文法規則に基づいて計算する。そして、マッチング部14は、基本辞書dicAに登録された単語のうちの選択単語の中に含まれるものと、動的追加辞書dicDYに登録された単語について、その音響スコアおよび言語スコアを総合評価した単語スコアを求める。
【0110】
ここで、マッチング部14においては、基本辞書dicAに登録された単語のうちの選択単語の中に含まれるものについての音響スコアと言語スコアの計算は、図1のマッチング部4における場合と同様にして行われる。
【0111】
一方、動的追加辞書dicDYに登録される単語(追加単語)については、識別情報、音韻情報、およびグループ情報が、動的追加辞書dicDYに登録されるから、マッチング部14では、その音韻情報を用いて、単語モデルが構成され、その音響スコアが計算される。従って、動的追加辞書dicDYに登録される単語について、その音響スコアを正確に計算することができる。
【0112】
また、動的追加辞書dicDYに登録される単語については、マッチング部14において、文法データベース18Bに登録された文法規則のうち、その単語のグループ情報に対応するものを用いて、その言語スコアが計算される。
【0113】
さらに、マッチング部14においても、上述した単語予備選択部13における場合と同様に、例えば、単語接続情報記憶部15に記憶された単語接続情報を参照し、注目ノードに先行するアークに対応する単語の音響スコアや言語スコア等を加味して、音響スコアや言語スコアの計算を行うようにすることが可能である。
【0114】
なお、音響モデルデータベース16Bに記憶された音響モデルや、文法データベース18Bに記憶された文法規則は、上述したように、高精度のものであり、従って、そのような高精度の文法規則や音響モデルを用いての、1単語あたりの音響スコアおよび言語スコアの計算量は、単語予備選択部13における場合に比較して大きく増加するが、マッチング部14において音響スコアおよび言語スコアの計算の対象となる単語は、単語予備選択部13で選択されるL個だけであり、従って、そのL個の単語全体についての計算量は、単語予備選択部13がL個の単語を選択するのに行う単語予備選択処理の計算量と比較して、それほど大きくなるというものではない。
【0115】
以上のようにして、ステップS7において、単語予備選択部13からのL個の選択単語の音響スコアおよび言語スコアが得られた後は、ステップS8に進み、L個の選択単語それぞれについて、その音響スコアおよび言語スコアを総合評価した単語スコアが求められ、その単語スコアに基づいて、単語接続情報記憶部15に記憶された単語接続情報が更新される。
【0116】
即ち、ステップS8では、マッチング部14は、各選択単語について単語スコアを求め、例えば、その単語スコアを所定の閾値と比較すること等によって、注目ノードに接続するアークとしての単語を、選択単語の中から絞り込む。そして、マッチング部14は、その絞り込みの結果残った単語を、その音響スコア、言語スコア、およびその単語の終了時刻とともに、制御部11に供給する。
【0117】
なお、単語の終了時刻は、音響スコアを計算するのに用いた特徴量の抽出時刻から認識される。また、ある単語について、その終了時刻としての蓋然性の高い抽出時刻が複数得られた場合には、その単語については、各終了時刻と、対応する音響スコアおよび言語スコアとのセットが、制御部11に供給される。
【0118】
制御部11は、上述のようにしてマッチング部14から供給される単語の音響スコア、言語スコア、および終了時刻を受信すると、マッチング部14からの各単語について、単語接続情報記憶部15に記憶された単語接続情報(図3)における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部11は、各アークに対して、対応する単語、並びにその音響スコアおよび言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。そして、ステップS2に戻り、以下、同様の処理が繰り返される。
【0119】
一方、ステップS2において、途中ノードが存在しないと判定された場合、ステップS9に進み、制御部11は、単語接続情報を参照することで、その単語接続情報として構成された各パスについて、単語スコアを累積することで、最終スコアを求め、例えば、その最終スコアが最も大きいパスを構成するアークに対応する単語列を、ユーザの発話に対する音声認識結果として出力して、処理を終了する。
【0120】
以上のように、単語予備選択部13が参照する辞書データベース17Aを、基本辞書dicAと、追加辞書dicADDで構成し、さらに、追加辞書dicADDにおいては、単語を、その属性ごとにグループ分けして登録しておく一方、マッチング部14が参照する文法データベース18Bには、追加辞書dicADDに登録された単語については、その属性ごとに文法規則を登録しておくようにしたので、僅かな計算量とメモリ容量の増加によって、音声認識の対象とする語彙を、大幅に増加させることができ、その結果、未登録語に起因する誤認識を防止して、精度の高い音声認識を行うことが可能となる。
【0121】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0122】
そこで、図7は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0123】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
【0124】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
【0125】
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
【0126】
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
【0127】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0128】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0129】
さらに、図7の実施の形態において、各単語のスコア計算や、そのスコアに基づく評価等は、CPU102で行われることとなるが、CPU102では、これらの処理は、各単語ごとに独立して行うようにすることができる。この場合、CPU102が各単語について処理を行うために確保するRAM104の記憶領域を小さく抑えることができる。
【0130】
なお、図2に示した音声認識装置は、例えば、音声によってデータベースの検索を行う場合や、各種の機器の操作を行う場合、各機器へのデータ入力を行う場合、音声対話システム等に適用可能である。より具体的には、例えば、音声による地名の問合せに対して、対応する地図情報を表示するデータベース検索装置や、音声による命令に対して、荷物の仕分けを行う産業用ロボット、キーボードの代わりに音声入力によりテキスト作成を行うディクテーションシステム、ユーザとの会話を行うロボットにおける対話システム等に適用可能である。
【0131】
また、本実施の形態では、音響モデルデータベース16Bには、音響モデルデータベース16Aに登録する音響モデルよりも、高精度のものを登録するようにしたが、音響モデルデータベース16Aおよび16Bは、その少なくとも一部の音響モデルを共通化して構成することが可能である。同様に、辞書データベース17Aの基本辞書dicAと、辞書データベース17Bの基本辞書dicBも、その少なくとも一部の単語の音韻情報を共通化して構成することが可能である。また、文法データベース18Aと18Bも、同様に、その少なくとも一部の文法規則を共通化して構成することが可能である。
【0132】
さらに、本実施の形態では、辞書データベース17Aの追加辞書dicADDには、各単語について、1通りの音韻情報を登録するようにしたので、追加辞書dicADDに登録された単語が、単語予備選択部13において選択され、辞書データベース17Bの動的追加辞書dicDYに登録された場合には、マッチング部14においては、動的追加辞書dicDYに登録された単語については、その1通りの音韻情報によってしか単語モデルを構成することができないが、辞書データベース17Aの記憶容量に余裕がある場合には、追加辞書dicADDにおいて、各単語について、複数通りの音韻情報を登録することが可能である。この場合、マッチング部14においては、動的追加辞書dicDYに登録された単語についても、基本辞書dicBに登録された単語と同様に、その複数通りの音韻情報によって、複数の単語モデルを構成して、より精度の高い音響スコアを計算することが可能となる。
【0133】
なお、追加辞書dicADDに、各単語の複数通りの音韻情報を登録した場合、単語予備選択部13においても、その複数通りの音韻情報によって、複数の単語モデルを構成して、音響スコアを計算することが可能である。但し、単語予備選択部13において、そのような処理を負担することが困難である場合には、例えば、複数通りの音韻情報のうちの任意の1つだけについて、単語モデルを構成し、音響スコアを計算するようにすれば良い。
【0134】
【発明の効果】
本発明の音声認識装置および音声認識方法、並びに記録媒体によれば大語彙を対象とした精度の高い音声認識を行うことが可能となる。
【図面の簡単な説明】
【図1】従来の音声認識装置の一例の構成を示すブロック図である。
【図2】本発明を適用した音声認識装置の一実施の形態の構成例を示すブロック図である。
【図3】単語接続情報を示す図である。
【図4】辞書データベース17Aおよび17Bの構成を説明するための図である。
【図5】文法データベース18Bに記憶される文法規則のデータ量を説明するための図である。
【図6】図2の音声認識装置の処理を説明するためのフローチャートである。
【図7】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
1 マイク, 2 AD変換部, 3 特徴抽出部, 11 制御部, 12特徴量記憶部, 13 単語予備選択部, 14 マッチング部, 15 単語接続情報記憶部, 16A,16B 音響モデルデータベース, 17A,17B 辞書データベース, 18A,18B 文法データベース, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (5)

  1. 入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置であって、
    入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、音声認識の対象とする第1の単語群を登録している第1の基本辞書と、音声認識の対象とする第2の単語群であって、且つ、前記第1の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、前記第1の単語群として前記第1の基本辞書には登録されなかった残りの単語を表す第2の単語群を、所定の属性ごとにグループ分けして登録している追加辞書とから、前記スコアの計算の対象とする1以上の単語を選択する単語選択手段と、
    前記第1の単語群の各単語を登録している、前記第1の基本辞書とは異なる第2の基本辞書の単語について、言語的なスコアを計算するための第1の文法規則を、前記第の基本辞書の単語ごとに記憶しているとともに、前記追加辞書の単語について、言語的なスコアを計算するための第2の文法規則を、前記属性ごとに記憶している第1の文法規則記憶手段と、
    前記第1の基本辞書から選択された前記単語について、音響的なスコアを計算するとともに、前記第1の文法規則に基づいて言語的なスコアを計算し、前記追加辞書から選択された前記単語について、音響的なスコアを計算するとともに、その単語の属性に対応する前記第2の文法規則に基づいて言語的なスコアを計算するスコア計算手段と、
    時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、前記単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶する接続関係記憶手段と、
    前記単語接続情報において、前記複数のパス毎に、前記パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、前記音声認識結果となる単語列を確定する確定手段と
    第1の所定数の音響モデルを記憶している第1の音響モデル記憶手段と、
    前記第1の所定数よりも多い音響モデルを記憶している第2の音響モデル記憶手段と、
    前記第1の単語群の各単語に対して、第2の所定数の音韻情報が対応付けられている前記第1の基本辞書、および前記第1の基本辞書に未登録の単語からなる前記第2の単語群の各単語に対して、前記第2の所定数の音韻情報が対応付けられている前記追加辞書を記憶している第1の単語辞書記憶手段と、
    登録している前記第1の単語群の各単語に対して前記第2の所定数よりも多い音韻情報が対応付けられている前記第2の基本辞書、および前記単語選択手段において前記追加辞書から選択された単語を登録する動的追加辞書を記憶している第2の単語辞書記憶手段と、
    言語的なスコアを計算するための第3の文法規則を記憶している第2の文法規則記憶手段と、
    前記単語選択手段により選択された前記1以上の単語のうち、前記追加辞書から選択された単語を、前記第2の単語辞書記憶手段に記憶されている前記動的追加辞書に登録する登録手段と
    を備え
    前記第1の文法規則記憶手段は、前記第3の文法規則よりも精度が高い文法規則として、前記第2の基本辞書の単語についての前記第1の文法規則、および前記追加辞書における属性ごとの単語についての前記第2の文法規則を記憶しており、
    前記単語選択手段は、前記第1の音響モデル記憶手段、前記第1の単語辞書記憶手段、および前記第2の文法規則記憶手段を参照して行なう音声認識処理により、前記スコアの計算の対象とする1以上の単語を選択し、
    前記登録手段は、前記単語選択手段により、前記追加辞書から単語が選択された場合、その単語を、前記動的追加辞書に登録し、
    前記スコア計算手段は、前記単語選択手段により選択された単語について、前記第2の音響モデル記憶手段、前記第2の単語辞書記憶手段、および前記第1の文法規則記憶手段を参照して行なう音声認識処理により、前記第1の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、前記追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する
    声認識装置。
  2. 前記ノードは、前記時刻情報として、始端側を接続しているアークが表す単語に対応する発話の開始時刻、および終端側を接続しているアークが表す単語に対応する発話の終了時刻を有する
    請求項1に記載の音声認識装置。
  3. 前記属性は、単語の品詞または意味である
    請求項1に記載の音声認識装置。
  4. 入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置の音声認識方法であって、
    前記音声認識装置は、
    音声認識の対象とする第1の単語群を登録している第1の基本辞書とは異なる第2の基本辞書であって、前記第1の単語群の各単語を登録している前記第2の基本辞書の単語について、言語的なスコアを計算するための第1の文法規則を、前記第の基本辞書の単語ごとに記憶しているとともに、音声認識の対象とする第2の単語群であって、且つ、前記第1の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、前記第1の単語群として前記第1の基本辞書には登録されなかった残りの単語を表す第2の単語群を、所定の属性ごとにグループ分けして登録している追加辞書の単語について、言語的なスコアを計算するための第2の文法規則を、前記属性ごとに記憶している第1の文法規則記憶手段を有しており、
    入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、前記第1の基本辞書と、前記追加辞書とから、前記スコアの計算の対象とする1以上の単語を選択する単語選択ステップと、
    前記第1の基本辞書から選択された前記単語について、音響的なスコアを計算するとともに、前記第1の文法規則に基づいて言語的なスコアを計算し、前記追加辞書から選択された前記単語について、音響的なスコアを計算するとともに、その単語の属性に対応する前記第2の文法規則に基づいて言語的なスコアを計算するスコア計算ステップと、
    時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、前記単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、前記複数のパス毎に、前記パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、前記音声認識結果となる単語列を確定する確定ステップと
    を含み、
    前記音声認識装置は、さらに、
    第1の所定数の音響モデルを記憶している第1の音響モデル記憶手段と、
    前記第1の所定数よりも多い音響モデルを記憶している第2の音響モデル記憶手段と、
    前記第1の単語群の各単語に対して、第2の所定数の音韻情報が対応付けられている前記第1の基本辞書、および前記第1の基本辞書に未登録の単語からなる前記第2の単語群の各単語に対して、前記第2の所定数の音韻情報が対応付けられている前記追加辞書を記憶している第1の単語辞書記憶手段と、
    登録している前記第1の単語群の各単語に対して前記第2の所定数よりも多い音韻情報が対応付けられている前記第2の基本辞書、および前記単語選択ステップの処理において前記追加辞書から選択された単語を登録する動的追加辞書を記憶している第2の単語辞書記憶手段と、
    言語的なスコアを計算するための第3の文法規則を記憶している第2の文法規則記憶手段と
    を有しており、
    前記単語選択ステップの処理により選択された前記1以上の単語のうち、前記追加辞書から選択された単語を、前記第2の単語辞書記憶手段に記憶されている前記動的追加辞書に登録する登録ステップをさらに含み、
    前記第1の文法規則記憶手段は、前記第3の文法規則よりも精度が高い文法規則として、前記第2の基本辞書の単語についての前記第1の文法規則、および前記追加辞書における属性ごとの単語についての前記第2の文法規則を記憶しており、
    前記単語選択ステップは、前記第1の音響モデル記憶手段、前記第1の単語辞書記憶手段、および前記第2の文法規則記憶手段を参照して行なう音声認識処理により、前記スコアの計算の対象とする1以上の単語を選択し、
    前記登録ステップは、前記単語選択ステップの処理により、前記追加辞書から単語が選択された場合、その単語を、前記動的追加辞書に登録し、
    前記スコア計算ステップは、前記単語選択ステップの処理により選択された単語について、前記第2の音響モデル記憶手段、前記第2の単語辞書記憶手段、および前記第1の文法規則記憶手段を参照して行なう音声認識処理により、前記第1の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、前記追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する
    声認識方法。
  5. 入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置のコンピュータに処理を行わせるプログラムが記録されている記録媒体であって、
    前記音声認識装置は、
    音声認識の対象とする第1の単語群を登録している第1の基本辞書とは異なる第2の基本辞書であって、前記第1の単語群の各単語を登録している前記第2の基本辞書の単語について、言語的なスコアを計算するための第1の文法規則を、前記第の基本辞書の単語ごとに記憶しているとともに、音声認識の対象とする第2の単語群であって、且つ、前記第1の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、前記第1の単語群として前記第1の基本辞書には登録されなかった残りの単語を表す第2の単語群を、所定の属性ごとにグループ分けして登録している追加辞書の単語について、言語的なスコアを計算するための第2の文法規則を、前記属性ごとに記憶している第1の文法規則記憶手段を有しており、
    入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、前記第1の基本辞書と、前記追加辞書とから、前記スコアの計算の対象とする1以上の単語を選択する単語選択ステップと、
    前記第1の基本辞書から選択された前記単語について、音響的なスコアを計算するとともに、前記第1の文法規則に基づいて言語的なスコアを計算し、前記追加辞書から選択された前記単語について、音響的なスコアを計算するとともに、その単語の属性に対応する前記第2の文法規則に基づいて言語的なスコアを計算するスコア計算ステップと、
    時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、前記単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、前記複数のパス毎に、前記パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、前記音声認識結果となる単語列を確定する確定ステップと
    を含み、
    前記音声認識装置は、さらに、
    第1の所定数の音響モデルを記憶している第1の音響モデル記憶手段と、
    前記第1の所定数よりも多い音響モデルを記憶している第2の音響モデル記憶手段と、
    前記第1の単語群の各単語に対して、第2の所定数の音韻情報が対応付けられている前記第1の基本辞書、および前記第1の基本辞書に未登録の単語からなる前記第2の単語群の各単語に対して、前記第2の所定数の音韻情報が対応付けられている前記追加辞書を記憶している第1の単語辞書記憶手段と、
    登録している前記第1の単語群の各単語に対して前記第2の所定数よりも多い音韻情報が対応付けられている前記第2の基本辞書、および前記単語選択ステップの処理において前記追加辞書から選択された単語を登録する動的追加辞書を記憶している第2の単語辞書記憶手段と、
    言語的なスコアを計算するための第3の文法規則を記憶している第2の文法規則記憶手段と
    を有しており、
    前記単語選択ステップの処理により選択された前記1以上の単語のうち、前記追加辞書から選択された単語を、前記第2の単語辞書記憶手段に記憶されている前記動的追加辞書に登録する登録ステップをさらに含み、
    前記第1の文法規則記憶手段は、前記第3の文法規則よりも精度が高い文法規則として、前記第2の基本辞書の単語についての前記第1の文法規則、および前記追加辞書における属性ごとの単語についての前記第2の文法規則を記憶しており、
    前記単語選択ステップは、前記第1の音響モデル記憶手段、前記第1の単語辞書記憶手段、および前記第2の文法規則記憶手段を参照して行なう音声認識処理により、前記スコアの計算の対象とする1以上の単語を選択し、
    前記登録ステップは、前記単語選択ステップの処理により、前記追加辞書から単語が選択された場合、その単語を、前記動的追加辞書に登録し、
    前記スコア計算ステップは、前記単語選択ステップの処理により選択された単語について、前記第2の音響モデル記憶手段、前記第2の単語辞書記憶手段、および前記第1の文法規則記憶手段を参照して行なう音声認識処理により、前記第1の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、前記追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する
    処理を、コンピュータに行わせるプログラムが記録されている記録媒体。
JP2000051465A 2000-02-28 2000-02-28 音声認識装置および音声認識方法、並びに記録媒体 Expired - Fee Related JP4600706B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000051465A JP4600706B2 (ja) 2000-02-28 2000-02-28 音声認識装置および音声認識方法、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000051465A JP4600706B2 (ja) 2000-02-28 2000-02-28 音声認識装置および音声認識方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2001242885A JP2001242885A (ja) 2001-09-07
JP4600706B2 true JP4600706B2 (ja) 2010-12-15

Family

ID=18573115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000051465A Expired - Fee Related JP4600706B2 (ja) 2000-02-28 2000-02-28 音声認識装置および音声認識方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP4600706B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100445907B1 (ko) * 2001-12-26 2004-08-25 한국전자통신연구원 음성언어 식별 장치 및 방법
WO2004049308A1 (en) * 2002-11-22 2004-06-10 Koninklijke Philips Electronics N.V. Speech recognition device and method
JP4767754B2 (ja) * 2006-05-18 2011-09-07 富士通株式会社 音声認識装置および音声認識プログラム
JP4845955B2 (ja) * 2008-12-11 2011-12-28 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法
JP5243325B2 (ja) * 2009-03-30 2013-07-24 Kddi株式会社 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
DE112010006037B4 (de) * 2010-11-30 2019-03-07 Mitsubishi Electric Corp. Spracherkennungsvorrichtung und Navigationssystem
JP6545633B2 (ja) * 2016-03-17 2019-07-17 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム
JP7103763B2 (ja) * 2017-07-20 2022-07-20 株式会社日立製作所 情報処理システムおよび情報処理方法
CN111161730B (zh) * 2019-12-27 2022-10-04 中国联合网络通信集团有限公司 语音指令匹配方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2001242885A (ja) 2001-09-07

Similar Documents

Publication Publication Date Title
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US7657430B2 (en) Speech processing apparatus, speech processing method, program, and recording medium
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
JP4481035B2 (ja) 単語間音素情報を利用した連続音声認識方法および装置
CN107705787A (zh) 一种语音识别方法及装置
US20020173956A1 (en) Method and system for speech recognition using phonetically similar word alternatives
JP2002149187A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US20040006469A1 (en) Apparatus and method for updating lexicon
US6963832B2 (en) Meaning token dictionary for automatic speech recognition
KR100484493B1 (ko) 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
CN104756183B (zh) 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2003271180A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
KR0136426B1 (ko) 히든 마르코프 모델링 방식(hmm)의 음성인식 시스템에서의 음성인식 방법
JP4696400B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP3369121B2 (ja) 音声認識方法および音声認識装置
JP2005534968A (ja) 漢字語の読みの決定
Pittermann et al. Towards an emotion-sensitive spoken dialogue system-classification and dialogue modeling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100902

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100915

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees