JP2003208194A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2003208194A
JP2003208194A JP2002005398A JP2002005398A JP2003208194A JP 2003208194 A JP2003208194 A JP 2003208194A JP 2002005398 A JP2002005398 A JP 2002005398A JP 2002005398 A JP2002005398 A JP 2002005398A JP 2003208194 A JP2003208194 A JP 2003208194A
Authority
JP
Japan
Prior art keywords
word
node
linguistic unit
added
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002005398A
Other languages
English (en)
Other versions
JP3818154B2 (ja
Inventor
Shinya Ishikawa
晋也 石川
Ryosuke Isotani
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002005398A priority Critical patent/JP3818154B2/ja
Publication of JP2003208194A publication Critical patent/JP2003208194A/ja
Application granted granted Critical
Publication of JP3818154B2 publication Critical patent/JP3818154B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 言語モデルを利用した連続音声認識方法にお
いて、認識精度を落す事なく言語モデル確率計算処理を
削減する。 【解決手段】 コンピュータ100は、音声入力手段1
10からの音声の特徴量の出力間隔に同期して、内部記
憶装置101に記録された、HMMの状態レベルにまで
展開された木構造単語辞書を用いて音声認識処理を行
う。単語終端において、同じ単語について異なる終端時
刻毎に計算される、先行する単語系列に対するスコア
を、「先行単語系列の識別子、上記単語の識別子」をキ
ーとして保存し再利用して、単語終端の情報を記録す
る。発声の最後まで上記処理をおこなった後、単語終端
情報から最良のスコアを与える単語系列を求め、結果出
力手段120に結果を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識方法に関
し、特に言語モデルを用いた連続音声認識方法に関す
る。
【0002】
【従来の技術】近年、大語彙連続音声認識処理を行う手
法として、統計的言語モデルを用いたフレーム同期型サ
ーチがしばしば用いられている。この手法においては、
音声を入力順に時間同期で処理し、単語列の音響的なス
コアと統計言語スコアを累積し、これが最良の単語列を
第一認識結果として出力する。
【0003】このサーチ方法の第一の例が、2000年にAc
ademic Pressから発行されたComputer Speech and Lang
uage 14号の第15頁ないし第32頁に掲載された“Look-ah
eadtechniques for fast beam search”と題する Stefa
n Ortmanns と Hermann Neyによる論文の特に第16頁の
2.1.に記載されている。
【0004】この方法においては、HMM(Hidden Mar
kof Model;隠れマルコフモデル)の状態レベルに展開
された木構造単語辞書と時間に同期して入力される音声
とが照合され、単語境界において、以下の式に示すよう
な、単語出現確率(言語モデルスコア)計算と累積スコ
アの掛け算とが行われる。
【0005】p(w|v)Qv(t,Sw)ここで、p(w|v)は、先行す
る単語vの後に単語wが出現する確率であり、Qv(t,Sw)
は、先行する単語vの後ろに時刻tで終わる単語wがつ
ながる場合の発声先頭からそこまでの最良の累積スコア
であり、Swは、単語wを表すHMMの最終状態であ
る。
【0006】この値は発声始端からこの単語wまでの最
良の累積スコアであり、単語wに続く単語xのHMMと
音声との照合スコアをこれに累積して、Qw(t,Sx)を計算
するのに使用される。上記処理を発声の最後まで繰返し
た後、最良の累積スコアを持つ単語系列を第一認識結果
として出力する。
【0007】第二の例が、日本音響学会1999年春季研究
発表会講演論文集第73乃至74頁に掲載された「フレーム
同期型ワンパスデコーダにおける高次元言語モデルと音
素環境依存型音響モデルの簡易実装とその効果」と題す
る中野裕一郎他の論文に記載されている。
【0008】この方法においては、ある単語終端が確定
した際、その直前の単語と、さらにひとつ前の複数の各
単語を組み合わせた2単語を各履歴とした、trigram 言
語モデルを用い、それらで計算したうちの最良のスコア
をその単語に与えている点が第一の例と異なっている。
つまり、 MAXu,v{ p(w|v,u)Qv,u(t,Sw) } のような値を求める処理をおこなう。ここで、p(w|v,u)
は、先行する単語系列u→vの後に、単語wが出現する
確率であり、Qv,u(t,Sw)は、先行する単語系列u→vの
後ろに時刻tで終わる単語wがつながる場合の発声先頭
からそこまでの最良の累積スコアである。この値は発声
始端からこの単語wまでの最良の累積スコアであり、こ
れ以降の処理は第一の例と同様である。
【0009】
【発明が解決しようとする課題】上記従来技術では、同
じ先行単語をもつ単語でも、終端時刻tが違えば別々に
扱われ、全く同一の先行単語との言語モデル確率計算
が、別々に重複して行われるために、処理量が大きくな
るという問題がある。
【0010】特に、上記第二の従来例においては、同じ
先行単語系列(u,v)をもつ単語でも、終端時刻tが
違えば別々に扱われ、全く同一の先行単語との言語モデ
ル確率計算と、それと累積スコアとの積の最良値選択処
理が別々に重複して行われ、処理量が大きくなる。
【0011】本発明の目的は、上記問題点に鑑み、認識
精度を劣化することなく処理量を削減可能な音声認識方
法を提供することにある。
【0012】
【課題を解決するための手段】本発明は、途中認識結果
候補をスコアつきの単語系列として持ち、1つ以上のス
コアつき単語系列をあらかじめ定めた基準でまとめてノ
ードとし、ノードの後ろに単語を追加して新たなノード
を作成していくことで認識結果を探索する音声認識方法
において、ノードに単語を追加する際に、ノードと追加
する単語の組ごとに計算される1つあるいは複数の値を
保存し、以後、同じノードに同じ単語を追加する際に、
前記保存した値を再利用することを特徴とする。
【0013】また、本発明は、途中認識結果候補をスコ
アつきの単語系列として持ち、1つ以上のスコアつき単
語系列をあらかじめ定めた基準でまとめてノードとし、
該ノードの後ろに単語を追加して新たなノードを作成し
ていくことで認識結果を探索する音声認識処理をコンピ
ュータに実行させるプログラムにおいて、前記ノードに
単語を追加する際に、前記ノードと追加する単語の組ご
とに計算される1つあるいは複数の値を保存する手順
と、同じノードに追加される単語が以前に追加された単
語と同じであるときには、前記計算を省略して前記保存
した値を利用する手順を含むことを特徴とする。
【0014】本発明によれば、ノードに単語を追加する
際に、ノードと追加する単語の組ごとに計算される値が
保存されているので、その後、同じノードに同じ単語を
追加する際に再度計算を行うことなく前記保存した値を
再利用することができ、上記ノードと追加する単語の組
ごとに行う計算を削減することができる。
【0015】
【発明の実施の形態】図1は、本発明の第1の実施形態
における構成を表すブロック図である。
【0016】本実施形態の音声認識装置は、プログラム
制御により動作するコンピュータ(中央処理装置;プロ
セッサ;データ処理装置)100と、内部記憶装置10
1と外部記憶装置102と、音声入力手段110と、認
識結果出力手段120とから構成されている。
【0017】これらの手段はそれぞれ概略つぎのように
動作する。音声入力手段110は、マイク等からの音声
を入力とし、一定の時間間隔ごとに、その時間的近傍の
入力音声を分析し、音声の特徴量をデジタルデータとし
て出力する。
【0018】内部記憶装置101または外部記憶装置1
02には、コンピュータ100によって本発明の音声認
識処理を実行するためのプログラムが格納されており、
コンピュータ100はこの音声認識プログラムに従っ
て、音声入力手段110から入力される音声データの認
識処理を行う。
【0019】即ちコンピュータ100は、音声入力手段
110からの音声の特徴量の出力間隔に同期して、必要
に応じて内部記憶装置101および外部記憶装置102
に仮単語アーク、ノード、単語アークを読み書きしなが
ら、同記憶装置に記録された、HMMで表された音響モ
デル、HMMの状態レベルにまで展開された木構造単語
辞書、及び言語モデルを用いて、上記音声の特徴量を認
識処理する。
【0020】発声の最後まで上記音声の特徴量の認識処
理を行った後、ノード、単語アークを読み出して、結果
出力手段120に結果を出力する。上記音声の特徴量
は、入力順に第1フレームの音声特徴量、第2フレーム
の音声特徴量…と呼び、第1、第2…をフレーム番号と
呼ぶ。
【0021】次に、図2を用いて本実施形態のコンピュ
ータ100の動作について詳細に説明する。
【0022】1)まず、各発声を認識する前に、発声始
端ノードとして、新規のノードを作成する。ノードには
通常、そのノードに終端が接続される単語アークへの
ポインタ全てと、後続単語毎にその単語の識別子をキ
ーとして保存されるベストコンテキストスコアと、ノ
ードが出来た時点のフレーム番号が保持されるが、この
発声始端ノードでは、累積スコアとしてある初期値が記
録された単語アークへのポインタが付与され、ベストコ
ンテキストスコアは「なし」として記録され、仮の単語
フレーム番号は仮想的に0番が与えられ、それらが保持
される(図2-0)。
【0023】2)次に、以下の手順に従って音声の特徴
量を入力フレーム順に処理する。
【0024】2-1)新規のノードがあればそれを始端ノ
ードとし、そのノードから始まる可能性のある単語全て
について仮の単語アークを作成する(図2-1,図2-
3)。これら仮単語アーク(仮説)は、累積スコア
と、前記始端ノードへのポインタ(バックポインタ)
と、どの単語のどの箇所に対応しているのかの情報と
して木構造単語辞書中のどのHMM状態に対応するかの
情報を保持する。
【0025】上記累積スコアとしては、例えばこの始端
ノードに終端が接続する単語アークの累積スコアのう
ち、最良のものがその累積スコアとして保持される。始
端ノードへのポインタは、上記始端ノードを指すバック
ポインタである。また、木構造単語辞書中のどのHMM
状態に対応するかの情報は、例えば、図4のようなHM
Mの状態レベルに展開された木構造単語辞書を用いる場
合、「しか」と「さら」を代表する仮単語アークをs1
状態に対応させて作成し、「いか」に対応する仮単語ア
ークをi4状態に対応させて作成する。
【0026】2-2)次に、全ての仮単語アークについて
以下の処理を行う。
【0027】2-2-1)対応するHMM状態が、単語終端
でなければ、木構造辞書中で対応するHMM状態の子の
状態に対応する仮単語アークを新規作成する。この時上
記バックポインタを転写し、累積スコアには、対応する
状態遷移確率を累積する。なお、同箇所に、同じバック
ポインタをもつ仮単語アークが既に存在する場合は、遷
移確率を累積した後の累積スコアが大きい方のみ保持
し、小さい方は消去する。これに追加して、先行する単
語が同じなら消去する処理や、先行する単語末のn音素
(nは1,2,などあらかじめ定めた数)が一致してい
れば消去する処理をしてもよい。
【0028】2-2-2)元の仮単語アークの累積スコアに
は対応するHMM状態の自己遷移確率を累積する。
【0029】2-3)上記2-2)で作成したすべての仮単語
アークについて、対応するHMM状態の出力確率分布と
そのフレームの音声特徴量とで尤度計算を行い、それを
累積スコアに累積する。この時、一定の基準を設定し、
この基準と比較してその累積スコアが悪い仮単語アーク
は消去することにより、処理量を減らして音声認識の効
率化を図る。
【0030】2-4)仮単語アークのうち、単語終端のH
MM状態(図4の例ではa3,a9,a12のいずれ
か)に対応するもの全てを単語アークへ変換する。この
単語アークは、後述する、単語音響スコアと、単語の識
別子と、仮単語アークと同様の累積スコアと、始端ノー
ドへのポインタ(バックポインタ)とを保持する。
【0031】そして、この単語アークの単語識別子によ
り「音声特徴量のフレーム番号,単語の識別子」別に作
成される上記ノードを探し、無ければ上記ノードを新規
作成し、有ればそのノードに対して同単語アークへのポ
インタを追加する(図2-2、図2-4)。
【0032】上記仮単語アークから単語アークへの変換
は、以下のようにして行う。 仮単語アークのバックポインタの指すノードがポイン
タとして持っている前単語の単語アークそれぞれが持つ
累積スコアのうち、最良のものを仮単語アークの累積ス
コアから差し引いて単語音響スコアとする。 単語終端のHMM状態に記録された単語の識別子を転
写する。 仮単語アークからノードへのバックポインタを転写す
る。 後述するベストコンテキストスコアと上記単語音響ス
コアを足したものを累積スコアとする。(この累積スコ
アが、従来技術における MAXu,v{ p(w|v,u)Qv,u(t,Sw) }に対応する)。
【0033】上記累積スコアを計算するために用いられ
るベストコンテキストスコアは、単語アークの指す始端
のノードに、この単語アークの持つ単語の識別子をキー
として保存されているベストコンテキストスコアがあれ
ば、それを使用する。保存されていなければ、上記始端
ノードが保持する単語アークへのポインタから単語アー
クのバックポインタ、さらに前々単語へのポインタ、と
繰返したどって発声始端ノードにいきつく単語系列それ
ぞれについて、その単語系列が与えられた時のこの単語
の出現確率を言語モデルを参照して求め、その単語系列
の最後の単語のアークである、ノード直前の単語アーク
が持つ累積スコア、に累積したもの、の最良値をベスト
コンテキストスコアとする。
【0034】例を挙げると、bigram 言語モデルを用い
る場合は、上記始端ノードが保持する前単語アークは一
つしかなく、単語識別子を用いてこの単語アークとのbi
gram言語スコアを計算し、前単語アークの累積スコアに
累積したものをベストコンテキストスコアとする。
【0035】他の例として、trigram 言語モデルを用い
る場合は、上記始端ノードが保持する前単語アークそれ
ぞれと、その始端ノードを介してたどれる前々単語それ
ぞれを用いて、「前々単語の識別子,前単語の識別子,
この単語の識別子」で計算される trigram 言語スコア
を計算し、それを前単語の累積スコアに累積したものの
うち、最良のものをベストコンテキストスコアとする。
【0036】いずれの場合も、この時上記始端ノード
に、ここで新規に作成する単語アークの単語識別子をキ
ーとしてベストコンテキストスコアを保存し(図2-
5)、次の上記2-4)の処理の際に再利用する(図2-
6,図2-7)。
【0037】例えば、図2-5において、フレーム番号
70で作成されるノードが保持する単語アークへのポイ
ンタから単語アークのバックポインタ、さらに前々単語
へのポインタ、と繰返したどって発声始端ノードにいき
つく2つの単語系列それぞれについて求められたコンテ
キストスコアが、(第一履歴、単語3)=スコア1と
(第二履歴、単語3)=スコア2であるとし、かつスコ
ア1>スコア2である場合には、次の単語3のノード作
成時に、スコア1がフレーム番号70で作成されるノー
ドにベストコンテキストスコアとして保存される。
【0038】そして、この同じノードに単語を追加追加
するために仮単語アークを作成したときに、この単語の
識別子が単語3であることが判明した時には、単語3に
対する新たなベストコンテキストスコアを求めるための
計算は行わず、上記保存されているスコア1を再利用す
る。従って、図2-6に示されているように、終端時刻
tが違っていても、追加される単語が同一(単語3)で
ある場合には、全く同一の先行単語との言語モデル確率
計算が重複して行われることがなくなり、処理量を削減
することができる。
【0039】なお、trigram 言語モデルを用いてより精
度を上げるには、ノードが「前単語アークの単語識別
子,この単語アークの単語識別子」をキーとしてコンテ
キストスコアが持てるように拡張した上で、以下のよう
な処理を行えば良い。
【0040】始端ノードが保持する前単語アークそれぞ
れと、その始端ノードを介してたどれる前々単語それぞ
れを用いて、「前々単語の識別子,前単語の識別子,こ
の単語の識別子」で計算される trigram 言語スコアを
計算し、対応する前単語アークの始端ノードが保持する
「前単語アークの単語識別子,前々単語アークの識別
子」をキーとして保持するコンテキストスコアに前単語
の単語音響スコアと上記trigram 言語スコアを累積した
ものを、この始端ノードに「前単語アークの単語識別
子,この単語アークの単語識別子」をキーとしてコンテ
キストスコアとして保存し、その最良のものをベストコ
ンテキストスコアとする。このとき、この始端ノードに
この単語の識別子をキーとしてベストコンテキストスコ
アを保存する。
【0041】さらに、 n-gram (n>3)言語モデルやそれ
以外の言語モデルを用いる場合は以下のようになる。
【0042】始端ノードからポインタでたどれる前単語
アーク、それからさらにポインタでたどれる前始端ノー
ド、以下同様にポインタをたどって得られる単語アーク
の系列(単語履歴)それぞれについて、対応する単語識
別子の系列から各単語系列の言語スコアを計算し、対応
する前単語アークの始端ノードが「前単語アークの単語
識別子,前々単語アークの識別子」をキーとして保持す
るコンテキストスコアに、前単語の単語音響スコアと上
記言語スコアを累積したものを、この始端ノードに「前
単語アークの単語識別子,この単語アークの単語識別
子」をキーとしてコンテキストスコアとして保存し、そ
の最良のものをベストコンテキストスコアとする。この
とき、この始端ノードにこの単語の識別子をキーとして
ベストコンテキストスコアを保存する。
【0043】3)全ての音声のフレームについて以上の
処理を行ったのち、発声始端ノードから単語アークを時
間順方向にたどって最後のフレームで作られた終端のノ
ードに至ることで作られる全ての単語系列のうち、最も
累積スコアが良くなるものを認識結果として出力する。
【0044】ところで、 triphone HMM など、音素
の右音素環境によってHMMを区別するような場合に
は、木構造辞書中に一つの単語の単語終端HMM状態が
右音素環境毎に分かれて存在する。例えば、図2-7で
は、単語3の単語終端HMM状態が、右音素s、右音素
i、右音素oに分かれて存在する場合、これら複数の単
語終端HMM状態が指す単語の識別子は同じ単語3であ
るため、それらは上記 2-4)におけるベストコンテキス
トスコアの再利用が有効に機能する。
【0045】このように、ノードの表すスコアつき単語
系列が予め定めた基準でグループに分けられている場合
には、グループ毎に各スコアつき単語系列と追加する単
語とから計算される値の最良値を求め、それをノードと
追加する単語の組毎に保存しておけば、このグループ内
では、この保存されているベストコンテキストスコアを
再利用できるので、言語モデル確率計算・最良値計算処
理を大幅に削減する事ができる。
【0046】なお、上記実施例では、始端ノードに後続
単語の識別子をキーとしてベストコンテキストスコアの
みを保存したが、各履歴毎に求めたスコアの全てあるい
は比較的スコアの良好な複数のものを保存してもよい。
【0047】図3は、本発明の第2の実施形態における構
成を表すブロック図である。
【0048】本実施形態の音声認識装置は、プログラム
制御により動作するコンピュータ(中央処理装置;プロ
セッサ;データ処理装置)300と、内部記憶装置30
1と外部記憶装置302と、音声入力手段310と、1
発声音声特徴量記憶装置311と認識結果出力手段32
0とから構成されている。
【0049】これらの手段はそれぞれ概略つぎのように
動作する。音声入力手段310は、マイク等から音声を
入力し、一定の時間間隔ごとに、その時間的近傍の入力
音声を分析し、音声の特徴量をデジタルデータとして出
力する。1発声音声特徴量記憶装置311は、音声入力
手段310から出力される1発話分のデジタルデータと
しての同特徴量を記憶する。
【0050】上記音声の特徴量は、第1の実施形態と同
様であり、入力順に第1フレームの音声特徴量、第2フ
レームの音声特徴量…と呼び、第1、第2…をフレーム
番号と呼ぶ。
【0051】コンピュータ300は、1発声音声特徴量
記憶装置311から必要に応じて音声の特徴量を読みだ
し、必要に応じて内部記憶装置301および外部記憶装
置302に仮単語アーク、ノード、単語アークを読み書
きしながら、同記憶装置301あるいは302に記録さ
れた、HMMで表された音響モデル、HMMの状態レベ
ルにまで展開された木構造単語辞書及び言語モデルを用
いて、上記音声の特徴量を認識処理する。発声の最後ま
で上記処理をおこなった後、ノード、単語アークを読み
出して、結果出力手段320に結果を出力する。
【0052】次に、本実施形態の全体の動作について図
2も参照して詳細に説明する。
【0053】A)まず、1発声全体の音声特徴量を音声
入力手段310より読みだし、1発声音声特徴量記憶装
置311に書き込む。
【0054】B)次に、発声を認識する前に、発声始端
ノードとして、新規のノードを作成する。これは第1の
実施形態のそれと同じである(図2-0)。
【0055】C)次に、発声の最後のフレーム番号を持
たず、かつどの仮単語アーク、単語アークからもポイン
タによって指されていないノードのうち、最もフレーム
番号が小さいものについて、以下の手順に従って単語ア
ークを作成、連結する。そのようなノードがなくなれば
終了する。
【0056】C-1)そのノードから始まる可能性のある
単語全てについて仮の単語アークを作成する(図2-
1)。これら仮単語アークは、第1の実施形態のそれと
同じである。
【0057】C-2)そのノードのフレーム番号から始ま
る音声特徴量について順番に、仮単語アークがなくなる
まで C-1)を繰返し行う:全ての仮単語アークについ
て、第1の発明の実施形態における 2-2) 2-3) 2-4)の
処理を行う。
【0058】D)発声始端ノードから単語アークを時間
順方向にたどって最後のフレームで作られた終端のノー
ドに至ることで作られる全ての単語系列のうち、最も累
積スコアが良くなるものを認識結果として出力する。こ
れは第1の実施形態と同じである。
【0059】なお、上記実施形態では認識対象言語単位
として単語を用いた場合について説明したが、単語のか
わりに、音素、音節、フレーズ(単語の1つ以上の連
鎖)などの言語単位をその認識対象とする場合において
も同様に適用することができる。
【0060】
【発明の効果】本発明は、言語モデル確率計算・最良値
計算結果を各ノードに単語の識別子をつけて保存し、再
利用することによって、右音素違いの同単語や、終了フ
レーム違いの同単語について再処理しないで済むように
構成しているので、言語モデル確率計算・最良値計算処
理を大幅に削減する事が可能であり、処理の効率化を図
ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態における構成を表すブ
ロック図である。
【図2】本発明の動作の具体例を示す図である。
【図3】本発明の第2の実施形態における構成を表すブ
ロック図である。
【図4】第1の実施の形態で参照される木構造単語辞書
の1例を示す図である。
【符号の説明】
100,300 コンピュータ 101,301 内部記憶装置 102,302 外部記憶装置 110,310 音声入力手段 120,320 結果出力手段 311 1発声音声特徴量記憶装置

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 途中認識結果候補をスコアつきの言語単
    位系列として持ち、1つ以上のスコアつき言語単位系列
    をあらかじめ定めた基準でまとめてノードとし、該ノー
    ドの後ろに言語単位を追加して新たなノードを作成して
    いくことで認識結果を探索する音声認識方法において、
    前記ノードに前記言語単位を追加する際に、前記ノード
    と追加する前記言語単位の組ごとに計算される1つある
    いは複数の値を保存し、以後、同じノードに同じ言語単
    位を追加する際に、前記保存した値を再利用することを
    特徴とする音声認識方法。
  2. 【請求項2】 前記ノードと追加する前記言語単位の組
    ごとに計算され保存される値が、前記ノードの表す各ス
    コアつき言語単位系列と追加する言語単位とから計算さ
    れる値の一部あるいはすべてあるいはそれらのうちの最
    良値であることを特徴とする請求項1記載の音声認識方
    法。
  3. 【請求項3】 前記ノードの表すスコアつき言語単位系
    列をあらかじめ定めた基準でグループに分け、該グルー
    プごとに各スコアつき言語単位系列と追加する言語単位
    とから計算される値の最良値を求め、それを前記ノード
    と追加する前記言語単位の組ごとに保存することを特徴
    とする請求項1記載の音声認識方法。
  4. 【請求項4】 前記言語単位系列と追加する前記言語単
    位の組に対して言語スコアを計算する言語スコア計算手
    段を持ち、前記ノードの表す各スコアつき言語単位系列
    と追加する前記言語単位とから計算される値が、前記言
    語単位系列と追加する前記言語単位とから前記言語スコ
    ア計算手段によって計算される言語スコアと、前記言語
    単位系列のスコアとから計算される値であることを特徴
    とする請求項1〜3のいずれかに記載の音声認識方法。
  5. 【請求項5】 前記言語単位は、音素、音節、単語、フ
    レーズ(単語の1つ以上の連鎖)のうちのいずれかであ
    ることを特徴とする請求項1〜4のいずれかに記載の音
    声認識方法。
  6. 【請求項6】 途中認識結果候補をスコアつきの言語単
    位系列として持ち、1つ以上のスコアつき言語単位系列
    をあらかじめ定めた基準でまとめてノードとし、該ノー
    ドの後ろに言語単位を追加して新たなノードを作成して
    いくことで認識結果を探索する音声認識処理をコンピュ
    ータに実行させるプログラムにおいて、前記ノードに前
    記言語単位を追加する際に、前記ノードと追加する前記
    言語単位の組ごとに計算される1つあるいは複数の値を
    保存する手順と、同じノードに追加される言語単位が以
    前に追加された言語単位と同じであるときには、前記の
    計算を省略して前記保存した値を利用する手順を含むこ
    とを特徴とする音声認識プログラム。
  7. 【請求項7】 前記ノードと追加する前記言語単位の組
    ごとに計算され保存される値は、前記ノードの表す各ス
    コアつき言語単位系列と追加する言語単位とから計算さ
    れる値の一部あるいはすべてあるいはそれらのうちの最
    良値であることを特徴とする請求項6記載の音声認識プ
    ログラム。
  8. 【請求項8】 前記ノードの表すスコアつき言語単位系
    列はあらかじめ定めた基準でグループに分けられてお
    り、前記ノードに前記言語単位を追加する際に、前記ノ
    ードと追加する前記言語単位の組ごとに計算される値の
    最良値を保存する手順と、同じノードに追加される言語
    単位が以前に追加された言語単位と同じグループ内に属
    しているときには、前記の計算を省略して前記保存した
    値を利用する手順を含むことを特徴とする請求項6記載
    の音声認識プログラム。
JP2002005398A 2002-01-11 2002-01-11 音声認識方法 Expired - Fee Related JP3818154B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002005398A JP3818154B2 (ja) 2002-01-11 2002-01-11 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002005398A JP3818154B2 (ja) 2002-01-11 2002-01-11 音声認識方法

Publications (2)

Publication Number Publication Date
JP2003208194A true JP2003208194A (ja) 2003-07-25
JP3818154B2 JP3818154B2 (ja) 2006-09-06

Family

ID=27644455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002005398A Expired - Fee Related JP3818154B2 (ja) 2002-01-11 2002-01-11 音声認識方法

Country Status (1)

Country Link
JP (1) JP3818154B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム

Also Published As

Publication number Publication date
JP3818154B2 (ja) 2006-09-06

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
US8321218B2 (en) Searching in audio speech
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US6574597B1 (en) Fully expanded context-dependent networks for speech recognition
CN101326572B (zh) 具有巨大词汇量的语音识别系统
US5949961A (en) Word syllabification in speech synthesis system
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP5141687B2 (ja) 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP2000075895A (ja) 連続音声認識用n最良検索方法
US20010032075A1 (en) Speech recognition method, apparatus and storage medium
JP4289715B2 (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
JPH10105189A (ja) シーケンス取出し方法及びその装置
JP2002215187A (ja) 音声認識方法及びその装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3309174B2 (ja) 文字認識方法及び装置
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP3818154B2 (ja) 音声認識方法
JP2938865B1 (ja) 音声認識装置
JP2965529B2 (ja) 音声認識装置
JP2000267693A (ja) 音声処理装置及び索引作成装置
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060605

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110623

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110623

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120623

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120623

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130623

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees