JPH1097284A - 音声認識方法,音声認識装置,及び記憶媒体 - Google Patents

音声認識方法,音声認識装置,及び記憶媒体

Info

Publication number
JPH1097284A
JPH1097284A JP8251649A JP25164996A JPH1097284A JP H1097284 A JPH1097284 A JP H1097284A JP 8251649 A JP8251649 A JP 8251649A JP 25164996 A JP25164996 A JP 25164996A JP H1097284 A JPH1097284 A JP H1097284A
Authority
JP
Japan
Prior art keywords
phoneme
keyword
recognition
recognition score
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8251649A
Other languages
English (en)
Inventor
Toshihiro Isobe
俊洋 磯部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP8251649A priority Critical patent/JPH1097284A/ja
Publication of JPH1097284A publication Critical patent/JPH1097284A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識における誤認を抑制できる音声認識
装置を提供する。 【解決手段】 特徴抽出部12で抽出された入力音声の
特徴量をキーワード照合部13と音素照合部14に分岐
出力する。キーワード照合部13は認識スコアが最大の
キーワードを選択的に出力し、音素照合部14は認識ス
コアが最大の音素を選択的に出力する。連鎖確率演算部
15は、キーワード群に含有される音声以外の音声単語
に対応する音素が連鎖する連鎖確率を算出する。比較処
理部16は連鎖確率演算部15で算出された連鎖確率に
基づいて上記音素の認識スコアを修正し、修正後の累計
値を算出するとともに、この累計値とキーワードの認識
スコアとを比較する。そして、キーワードの認識スコア
の方が高ければ、キーワードを認識結果として出力し、
累計値が高ければ何も出力しない。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識技術に係
り、特に予めユーザ登録されたキーワード(注目音声単
語、以下同じ)以外の音声単語も含む入力音声から、所
要のキーワードだけをより正確に抽出する技術に関す
る。
【0002】
【従来の技術】従来、音声認識装置では、入力音声を複
数の音声区間に分割した上で、各音声区間毎に予めユー
ザ登録されたキーワード群の中から該当するキーワード
を抽出し、抽出したキーワードを認識結果として出力し
ている。これをキーワード認識という。該当するキーワ
ードを抽出する際には、入力音声の特徴(特徴ベクトル
等)と予め登録された複数のキーワードの特徴とを比較
照合し、入力音声の特徴に最も類似するものを選択的に
抽出する。
【0003】しかし、単純に予め登録されたキーワード
群から特徴量が最も類似するキーワードを抽出するキー
ワード認識では、入力音声が、登録されているキーワー
ド以外の音声単語を含む場合に、必ずしもその特徴を正
確にした認識が行われるとは限らず、ときには、全く入
力音声とは無関係なキーワードが認識結果として出力さ
れる場合がある。
【0004】そこで、入力音声と予め登録された音素ま
たは音節(以下、単に音素として説明する。なお、この
明細書において、単に音素という場合は、音素と音節、
あるいは音節のみの場合を含むものとする)パタンとを
上記音声区間毎に比較照合し、入力音声の特徴に最も類
似する音素列を認識結果として出力する音素パタン認識
を併用することが行われている。両認識手法を採用した
音声認識装置では、各音声区間毎に、キーワードと音素
列の入力音声に対する類似の度合いを比較し、キーワー
ドがより類似する音声区間では抽出されたキーワードを
認識結果として出力し、音素列がより類似する音声区間
では音素列を認識結果として出力する。
【0005】ここで、各類似の度合いの比較に際して
は、どれだけ特徴が一致しているかを表す認識スコアを
使用する。この認識スコアは、入力音声との間の特徴量
の差分、例えば特徴空間における距離や確率等を尺度と
して与えられるもので、特徴量の差分が小さくなるほど
高くなるように定義される。
【0006】
【発明が解決しようとする課題】キーワード認識と音素
パタン認識とを併用した従来の音声認識装置において、
上述の音素列の認識スコアは、列を構成する各音素の認
識スコアの累計で与えられるものであるが、音素列の認
識スコアは、キーワードの認識スコアよりも高く評価さ
れる傾向にある。これは、キーワードの抽出に際しては
当該キーワードを構成する音素の連鎖が問題となるのに
対して、音素列の場合は音素の連鎖が問題にされないた
めである。その結果、キーワードと音素列とを単純に比
較した場合に音素列が認識結果として出力される確率が
相対的に高くなり、誤認識を招く。
【0007】この対策として、音素列の認識スコアに
“1”以下の一定係数から成るペナルティを乗じて修正
し、キーワードと音素列との比較の際に、キーワードが
選ばれ易く工夫することが考えられる。しかし、音素列
の種類によっては、予め登録されたキーワード群内のキ
ーワードに含まれる頻度が高いものや全くキーワードに
含まれないものもある。そのため、ペナルティによって
音素列の認識スコアを修正してもキーワードの抽出漏れ
や誤抽出が生じる。
【0008】そこで、本発明の課題は、音声認識に際し
て、所要のキーワードを適切に抽出して入力音声の誤認
識を抑制することにある。
【0009】
【課題を解決するための手段】本発明は、改良された音
声認識方法を提供する。この方法は、以下の過程を含む
ものである。 (1)予め登録されたキーワード群から所定区間におけ
る入力音声の特徴に最も類似するキーワードを選択する
とともに、選択されたキーワードの類似の度合いを表す
第1の認識スコアを算出する過程、(2)予め登録され
た音素群から前記区間に含有される個々の音素の特徴に
最も類似する音素を選択するとともに選択された各音素
の類似の度合いを表す第2の認識スコアを算出する過
程、(3)前記キーワード群に含有される音声以外の音
声単語に対応する音素が連鎖する連鎖確率を用いて各音
素についての第2の認識スコアを修正するとともに、修
正された第2の認識スコアを前記区間内の音素列につい
て累計して第3の認識スコアを算出する過程、(4)第
1及び第3の認識スコアを前記区間毎に比較し、比較結
果に応じて当該区間における前記キーワードの出力の可
否を決定する過程。なお、連鎖確率は、例えば、予め登
録された全音素の出現頻度から前記キーワード群によっ
て出現し得る全音素の出現頻度を差し引いた値に基づい
て算出される。このような方法では、キーワードに現れ
る音素については低く評価され、キーワードに現れない
音素については高く評価されるので、キーワードが抽出
されるべき区間に音素が選択される確率が低くなる。つ
まり、誤認識が防止される。
【0010】本発明では、また、上記方法の実施に適し
た音声認識装置をも提供する。この音声認識装置は、入
力音声の特徴を抽出する特徴抽出部と、予め登録された
キーワード群から所定区間の入力音声の特徴に最も類似
するキーワードを、当該キーワードの類似の度合いを表
す第1の認識スコアと共に出力するキーワード照合部
と、予め登録された音素群から前記区間に含有される音
素の特徴に最も類似する音素を、当該音素の類似の度合
いを表す第2の認識スコアと共に出力する音素照合部
と、前記キーワード群に含有される音声以外の音声単語
に対応する音素が連鎖する連鎖確率を導出する手段と、
前記連鎖確率を用いて各音素についての第2の認識スコ
アを修正し、修正された第2の認識スコアを前記区間内
の音素列について累計して第3の認識スコアを算出する
とともに、算出した第3の認識スコアと第1の認識スコ
アを前記区間毎に比較し、比較結果に応じて当該区間に
おける前記キーワードの出力の可否を決定する比較処理
部と、を備えて構成される。
【0011】前記連鎖確率を導出する手段は、例えば、
前記選択された音素の列を特定する音素列特定部と、予
め発声され得る発話文を格納した発話リストと、該発話
リストに収められた全ての発話文に基づく前記音素列の
出現頻度と前記キーワード群に基づく前記音素列の出現
頻度との間の出現頻度差を算出する頻度差演算部と、こ
の頻度差演算部で算出された出現頻度差に基づいて前記
音素列についての連鎖確率を算出する確率演算部とを備
えるように構成する。
【0012】本発明は、汎用のコンピュータ装置と、こ
のコンピュータ装置によって読み取り可能な命令群を実
体化して成る記憶媒体とによってもその実現が可能であ
る。この場合、記憶媒体に実体化される前記命令群は、
コンピュータ装置に読み込まれたときに、以下の手順を
実行させるものである。 (1)予め登録されたキーワード群から所定区間におけ
る入力音声の特徴に最も類似するキーワードを選択する
とともに、選択されたキーワードの類似の度合いを表す
第1の認識スコアを算出する手順、(2)予め登録され
た音素群から前記区間に含有される個々の音素の特徴に
最も類似する音素を選択するとともに選択された各音素
の類似の度合いを表す第2の認識スコアを算出する手
順、(3)前記キーワード群に含有される音声以外の音
声単語に対応する音素が連鎖する連鎖確率を用いて各音
素についての第2の認識スコアを修正するとともに、修
正された第2の認識スコアを前記区間内の音素列につい
て累計して第3の認識スコアを算出する手順、(4)第
1及び第3の認識スコアを前記区間毎に比較し、比較結
果に応じて当該区間における前記キーワードの出力の可
否を決定する手順。
【0013】
【発明の実施の形態】以下、図面を参照して、本発明の
実施形態を詳細に説明する。図1は、本発明を音声認識
装置に適用した場合のブロック構成図である。この実施
形態の音声認識装置1は、認識すべき音声の入力を受け
付ける音声入力部11と、音声入力部11に入力された
音声(入力音声)についての音声特徴量(特徴ベクトル
等)を抽出する特徴抽出部12とを備えている。これら
は、従来の音声認識装置においても同様に用いられるも
のである。特徴抽出部12の出力は、キーワード照合部
13と音素照合部14に分岐出力される。
【0014】キーワード照合部13は、入力音声に最も
類似するキーワードとその認識スコアを出力するもので
あり、差分演算部131、比較照合部132、及び、差
分演算部131が参照するためのキーワードパタン辞書
133を備えるものである。キーワードパタン辞書13
3は、ユーザ登録されたキーワード群に属する各キーワ
ードの音声特徴量を格納している。差分演算部131
は、入力音声を複数の音声区間に分割した上で、特徴抽
出部12から送られた入力音声についての音声特徴量と
キーワードパタン辞書133に登録された各キーワード
の音声特徴量との差分、例えば特徴空間上の距離や確率
等を音声区間毎に算出する。比較照合部132は、差分
演算部131で算出された差分を尺度とする認識スコア
に基づいて、キーワードパタン辞書133から認識スコ
アが最大となるキーワードをその認識スコアと共に出力
する。このキーワードの認識スコアは、差分演算部13
1で算出された特徴量の差分に応じて定義される一致の
度合いを表す数量で、特徴量の差分が減少するほど、つ
まり類似度が大きくなるほど高くなる。
【0015】音素照合部14は、入力音声に最も類似す
る音素をその認識スコアと共に出力するものであり、差
分演算部141、比較照合部142、及び、差分演算部
141が参照するための音素パタン辞書143とを備え
るものである。音素パタン辞書143は、音声認識装置
1において使用可能な全音素の音声特徴量を格納してい
る。差分演算部141は、入力音声を音素区間に分割し
た上で各音素区間毎に特徴抽出部12から送られた入力
音声の音声特徴量と音素パタン辞書143に格納された
各音素の音声特徴量との差分を算出する。比較照合部1
42は、差分演算部141で算出された差分を尺度とす
る認識スコアを比較して、認識スコアが最大となる音素
をその認識スコアと共に出力する。音素の認識スコア
も、キーワードの認識スコアと同様に、差分演算部14
1で算出された特徴量の差分に応じて定義される一致の
度合いを表す数量であり、特徴量の差分が減少するほ
ど、つまり類似の度合いが大きくなるほど高くなる。
【0016】音声認識装置1は、さらに、キーワードリ
スト17と発話リスト18を参照して音素列の連鎖確率
を算出する連鎖確率演算部15と、この連鎖確率演算部
15で算出された連鎖確率,キーワード照合部13から
出力されたキーワード,及び音素照合部14から出力さ
れた音素に基づいて認識結果を出力する比較処理部16
とを備えている。キーワードリスト17は、使用するキ
ーワードを集めたリストであり、発話リスト18は、特
定分野において頻繁に使用される会話内容等、発声され
得る発話文を集めたリストである。キーワードリスト1
7に代えてキーワードパタン辞書133を流用すること
もできる。比較処理部16については後述する。
【0017】なお、音声認識装置1はコンピュータ装置
において実現されるもので、上記各部11〜16は、通
常、ROM等の命令記憶手段に記憶された命令群(プロ
グラムと必要なデータ)に従ってマイクロプロセッサユ
ニットが所要の処理を実行することにより構築される。
但し、上述の命令群は、必ずしもコンピュータ装置と常
に一体不可分である必要はなく、該コンピュータ装置か
ら分離した存在であってもよい。この場合は、コンピュ
ータ装置が読取可能且つコンピュータ装置によって実行
可能な形態で、可般性媒体、例えばハードディスク,フ
レキシブルディスク,あるいはCD−ROM(コンパク
トディスク型ROM)上に物理的に実体化させる。
【0018】次に、音声認識装置1の各部をより詳しく
説明する。図2は、上記連鎖確率演算部15の詳細構成
図である。この連鎖確率演算部15は、例えば比較処理
部16からの指令により、あるいはキーワード照合部1
3または音素照合部14の出力結果に基づいて、認識対
象となる音素列ないし音素数を特定する音素列特定部1
51、キーワードリスト17に収められた全てのキーワ
ードに基づく音素列の出現頻度を検出する出現頻度検出
部152、発話リスト18に収められた全ての発話文に
基づく音素列の出現頻度を検出する出現頻度検出部15
3、各音素列についてキーワードリスト17に基づく出
現頻度と発話リスト18に基づく出現頻度との間の出現
頻度差を算出する頻度差演算部154、及び、頻度差演
算部154で算出された出現頻度差に基づき各音素列に
ついての連鎖確率を算出する確率演算部155を有して
いる。
【0019】この連鎖確率演算部15の動作は下記のよ
うになる。例えば、t種類の音素がn(t,nは自然
数)個連続して成る音素列について述べる。この場合、
対象となる音素列の種類はtのn乗パタン存在すること
になる。なお、tは、音声認識の用途に応じて決まるも
のである。以下、簡単の為に、n=3の場合の連鎖確率
の算出手順を図3を参照して説明する。
【0020】まず、発話リスト18を参照して、全ての
発話文における連続した3個の音素列の出現頻度を検出
する(ステップS101)。同様に、キーワードリスト
17を参照して、全てのキーワードにおける連続した3
個の音素列の出現頻度を検出する(ステップS10
2)。このステップS101の結果得られた発話リスト
18に基づく音素列の出現頻度の一例を図4(a)、キ
ーワードリスト17に基づく音素列の出現頻度の一例を
図4(b)に示す。図中、横軸は音素列S(i)S(j)S(k)の
種類、縦軸はそれらの出現頻度を表している。またここ
では、キーワードリスト17に基づく音素列の出現頻度
をCk(Si、Sj、Sk)、発話リスト18に基づく音素列の出現
頻度をCs(Si、Sj、Sk)で表している。
【0021】頻度差演算部154は、音素列の種類毎
に、発話リスト18に基づく音素列の出現頻度からキー
ワードリスト17に基づく音素列の出現頻度に係数を乗
じた値を差し引き、出現頻度差を算出する(ステップS
103)。この出現頻度差の例を図4(c)に示す。こ
のステップ103の内容を詳しく説明すると以下のよう
になる。出現頻度差Cg(SiSjSk)は、以下の数1式で与え
られる。
【0022】
【数1】Cg(SiSjSk)=Cs(SiSjSk)-α×Ck(SiSjSk)
【0023】ここで、係数αは頻度正規化係数と呼ばれ
ているもので、キーワードリスト17と発話リスト18
に収められているキーワードと発話文に基づく音素の総
数の違いを是正するためのものである。具体的には、こ
の頻度正規化係数αは以下の数2式で定義される。
【0024】
【数2】 α=(Σi,j,k Cs(Si、Sj、Sk))/(Σi,j,k Ck(Si、Sj、Sk))
【0025】ステップS103で算出された出現頻度差
の意味合いは、数1式から明らかなように、キーワード
以外の音声単語に基づく音素列の出現頻度である。頻度
差演算部154において算出された各音素列についての
出現頻度差に基づいて、確率演算部155は、キーワー
ド以外の音声単語に基づく連鎖確率を算出する(ステッ
プS104)。ここでは、音素列SiSjの後に、音素Skが
キーワード以外の音声単語において出現する確率、すな
わち連鎖確率をPlung(=P(Sk|SiSj))とする。この連鎖確
率Plungは、以下の数3式で与えられる。
【0026】
【数3】Plung=Cg(SiSjSk)/(Σk Cg(SiSjSk))
【0027】また数3式から、連鎖確率Plungは、キー
ワードに現れる音素については低く評価され、キーワー
ドに現れない音素については高く評価される。以下で説
明するが、本実施形態では、この連鎖確率Plungを音素
照合部14で選択された音素の認識スコアのペナルティ
として用いる。なお、予めキーワードリスト17と発話
リスト18とに基づいて全てのキーワードについて上記
連鎖確率Plungを算出してテーブル化しておき、比較処
理部16からの指示に従い、該当する連鎖確率Plungを
索出するようにしてもよい。
【0028】次に、図1に示した比較処理部16につい
て説明する。比較処理部16は、図5に示すように、連
鎖確率演算部15で算出された上記連鎖確率をペナルテ
ィとして用い、音素照合部14から出力される音素列の
認識スコアを算出する認識スコア演算部161と、キー
ワード照合部13から出力されるキーワードの認識スコ
アと認識スコア演算部161で算出された音素列の認識
スコアとの比較結果に応じた認識結果を出力する認識ス
コア比較部162とから構成される。
【0029】ここで、音素列SiSjSkの認識スコアの具体
的な算出方法を説明する。なお、キーワード照合部13
から出力されるキーワードに対応する音声区間と音素照
合部14から出力される音素列に対応する音素区間とは
一致するものとする。音素列認識スコア演算部161で
は、まず、音素列SiSjSkを形成する各音素の認識スコア
をそれぞれ一定ペナルティPconstで修正する。そして、
これを上述の連鎖確率Plungでさらに修正する。つま
り、最初の音素Siの認識スコアについては連鎖確率Plun
g=P(Si)(=1)で修正し、次の音素Sjの認識スコアに
ついては連鎖確率Plung=P(Sk|Si)で修正し、最後の音素
Skの認識スコアについてはP(Sk|SiSj)で修正する。例え
ば、音素Skの修正後の認識スコアをSphoneとすると、こ
の認識スコアSphoneは以下の数4式で与えられる。
【0030】
【数4】 Sphone=Lphone×(Pconst×Plung) =Lphone×(Pconst×P(Sk|SiSj))
【0031】Lphoneは音素照合部14から出力された音
素Skの修正前の認識スコアである。各音素Si、Sj、Skにつ
いて以上のようにして修正された3つの認識スコアを累
計して得られるものが、音素列SiSjSkの認識スコアとな
る。認識スコア比較部162は、キーワードの認識スコ
アと以上のようにして算出された音素列の認識スコアと
を比較し、この比較結果に応じて当該区間における前記
キーワードの出力の可否を決定する。
【0032】以上のように構成される本実施形態の音声
認識装置1において、入力音声についての認識結果が出
力される手順を図6により説明する。音声入力部11に
音声が入力されると(ステップS201)、特徴抽出部
12は、入力音声を分析して音声特徴量を抽出する(ス
テップS202)。この音声特徴量はキーワード照合部
13と音素照合部14にそれぞれ分岐出力される。
【0033】キーワード照合部13は、入力音声を分割
して得た音声区間毎に入力音声とキーワードパタン辞書
133内のキーワードとの音声特徴量の差分を算出し
(ステップS203)、各音声区間において認識スコア
が最大となるキーワードを当該音声区間の照合結果とし
て認識スコアと共に比較処理部16へ出力する(ステッ
プS204)。一方、音素照合部14は、入力音声を分
割して得た音素区間(上記音声区間と等価)毎に入力音
声と音素パタン辞書143とを参照し、音素区間毎に入
力音声と音素パタン辞書143内の音素との音声特徴量
の差分を算出し(ステップS205)、各音素区間にお
いて音素の認識スコアが最大となる音素を照合結果とし
て認識スコアと共に比較処理部16へ出力する(ステッ
プS206)。
【0034】連鎖確率演算部15は、連鎖確率を算出
し、算出結果を比較処理部16へ出力する(ステップS
207)。比較処理部16は、連鎖確率演算部15で算
出された連鎖確率をペナルティとして音素列の認識スコ
アを修正し、修正後の音素列の認識スコアとキーワード
の認識スコアとを比較する。そして、キーワードの認識
スコアの方が高ければ(ステップS208:Yes)、
抽出されたキーワードを認識結果として出力し(ステッ
プS209)、音素列の認識スコアの方が高ければ(ス
テップS208:No)、抽出されたキーワード以外で
あるとして認識結果を出力しない(ステップS21
0)。
【0035】このように、本実施形態の音声認識装置1
では、入力音声のうち、キーワードの音声区間では認識
結果としてキーワードが出力され易くなり、一方、キー
ワード以外の音声区間ではキーワードが出力されにくく
なる。つまり、キーワードの誤抽出や抽出漏れが抑制さ
れ、従来の問題点が解消される。
【0036】
【発明の効果】以上の説明か明らかなように、本発明に
よれば、連鎖確率によって音素列の認識スコアが修正さ
れるので、予め登録されたキーワード以外の音声単語を
含む音声が入力された場合に、キーワードの抽出精度が
従来手法よりも格段に高まるという特有の効果がある。
また、キーワードの抽出精度が高まることから誤認確率
が減少し、より多くのキーワードを登録しておくことで
入力音声のかなりの区間において正しいキーワードが抽
出され、認識精度が高まる効果もある。
【図面の簡単な説明】
【図1】本発明の一実施形態による音声認識装置のブロ
ック構成図。
【図2】本実施形態による連鎖演算部の詳細構成図。
【図3】連鎖確率の算出方法の説明図。
【図4】(a)は発話リストにおける3個の連続する音
素の種類とそれらの出現頻度との対応を示した図、
(b)はキーワードリストにおける3個の連続する音素
の種類とそれらの出現頻度との対応を示した図、(c)
はキーワード以外の発声における3個の連続する音素の
種類とそれらの出現頻度との対応を示した図。
【図5】比較処理部の機能ブロック構成図。
【図6】本実施形態の音声認識装置において、入力音声
に対する認識結果が出力されるまでの手順を示した説明
図。
【符号の説明】
1 音声認識装置 13 キーワード照合部 14 音素照合部 15 連鎖確率演算部 16 比較処理部 17 キーワードリスト 18 発話リスト 131、141 差分演算部 132、142 比較照合部 133 キーワードパタン辞書 143 音素パタン辞書 151 音素列特定部 152、153 出現頻度検出部 154 頻度差演算部 155 確率演算部 161 音素列の認識スコア演算部 162 認識スコア比較部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 予め登録されたキーワード群から所定区
    間における入力音声の特徴に最も類似するキーワードを
    選択するとともに、選択されたキーワードの類似の度合
    いを表す第1の認識スコアを算出する過程と、 予め登録された音素群から前記区間に含有される個々の
    音素の特徴に最も類似する音素を選択するとともに選択
    された各音素の類似の度合いを表す第2の認識スコアを
    算出する過程と、 前記キーワード群に含有される音声以外の音声単語に対
    応する音素が連鎖する連鎖確率を用いて各音素について
    の第2の認識スコアを修正するとともに、修正された第
    2の認識スコアを前記区間内の音素列について累計して
    第3の認識スコアを算出する過程と、 第1及び第3の認識スコアを前記区間毎に比較し、比較
    結果に応じて当該区間における前記キーワードの出力の
    可否を決定する過程と、を含むことを特徴とする音声認
    識方法。
  2. 【請求項2】 前記連鎖確率による第2の認識スコアの
    修正に先立ち、該第2の認識スコアを一定係数によって
    修正する過程を経ることを特徴とする請求項1記載の音
    声認識方法。
  3. 【請求項3】 前記連鎖確率が、予め登録された全音素
    の出現頻度から前記キーワード群によって出現し得る全
    音素の出現頻度を差し引いた値に基づいて算出されるこ
    とを特徴とする請求項1または2記載の音声認識方法。
  4. 【請求項4】 入力音声の特徴を抽出する特徴抽出部
    と、 予め登録されたキーワード群から所定区間の入力音声の
    特徴に最も類似するキーワードを、当該キーワードの類
    似の度合いを表す第1の認識スコアと共に出力するキー
    ワード照合部と、 予め登録された音素群から前記区間に含有される音素の
    特徴に最も類似する音素を、当該音素の類似の度合いを
    表す第2の認識スコアと共に出力する音素照合部と、 前記キーワード群に含有される音声以外の音声単語に対
    応する音素が連鎖する連鎖確率を導出する手段と、 前記連鎖確率を用いて各音素についての第2の認識スコ
    アを修正し、修正された第2の認識スコアを前記区間内
    の音素列について累計して第3の認識スコアを算出する
    とともに、算出した第3の認識スコアと第1の認識スコ
    アを前記区間毎に比較し、比較結果に応じて当該区間に
    おける前記キーワードの出力の可否を決定する比較処理
    部と、を有することを特徴とする音声認識装置。
  5. 【請求項5】 前記連鎖確率を導出する手段は、前記選
    択された音素の列を特定する音素列特定部と、予め発声
    され得る発話文を格納した発話リストと、該発話リスト
    に収められた全ての発話文に基づく前記音素列の出現頻
    度と前記キーワード群に基づく前記音素列の出現頻度と
    の間の出現頻度差を算出する頻度差演算部と、この頻度
    差演算部で算出された出現頻度差に基づいて前記音素列
    についての連鎖確率を算出する確率演算部とを有するこ
    とを特徴とする請求項4記載の音声認識装置。
  6. 【請求項6】 コンピュータ装置によって読み取り可能
    な命令群を実体化して成る記憶媒体であって、 前記命令群は、 予め登録されたキーワード群から所定区間における入力
    音声の特徴に最も類似するキーワードを選択するととも
    に、選択されたキーワードの類似の度合いを表す第1の
    認識スコアを算出する手順と、 予め登録された音素群から前記区間に含有される個々の
    音素の特徴に最も類似する音素を選択するとともに選択
    された各音素の類似の度合いを表す第2の認識スコアを
    算出する手順と、 前記キーワード群に含有される音声以外の音声単語に対
    応する音素が連鎖する連鎖確率を用いて各音素について
    の第2の認識スコアを修正するとともに、修正された第
    2の認識スコアを前記区間内の音素列について累計して
    第3の認識スコアを算出する手順と、 第1及び第3の認識スコアを前記区間毎に比較し、比較
    結果に応じて当該区間における前記キーワードの出力の
    可否を決定する手順と、 を前記コンピュータ装置に実行させるものであることを
    特徴とする記憶媒体。
JP8251649A 1996-09-24 1996-09-24 音声認識方法,音声認識装置,及び記憶媒体 Pending JPH1097284A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8251649A JPH1097284A (ja) 1996-09-24 1996-09-24 音声認識方法,音声認識装置,及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8251649A JPH1097284A (ja) 1996-09-24 1996-09-24 音声認識方法,音声認識装置,及び記憶媒体

Publications (1)

Publication Number Publication Date
JPH1097284A true JPH1097284A (ja) 1998-04-14

Family

ID=17225967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8251649A Pending JPH1097284A (ja) 1996-09-24 1996-09-24 音声認識方法,音声認識装置,及び記憶媒体

Country Status (1)

Country Link
JP (1) JPH1097284A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100449912B1 (ko) * 2002-02-20 2004-09-22 대한민국 음성인식시스템의 핵심어 검출을 위한 후처리방법
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100449912B1 (ko) * 2002-02-20 2004-09-22 대한민국 음성인식시스템의 핵심어 검출을 위한 후처리방법
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
US8756058B2 (en) 2006-02-23 2014-06-17 Nec Corporation Speech recognition system, speech recognition result output method, and speech recognition result output program

Similar Documents

Publication Publication Date Title
US9672817B2 (en) Method and apparatus for optimizing a speech recognition result
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
US6823493B2 (en) Word recognition consistency check and error correction system and method
US20160336007A1 (en) Speech search device and speech search method
US8321218B2 (en) Searching in audio speech
US9361879B2 (en) Word spotting false alarm phrases
Chen et al. Quantifying the value of pronunciation lexicons for keyword search in lowresource languages
CN108074562B (zh) 语音识别装置、语音识别方法以及存储介质
US20070038453A1 (en) Speech recognition system
Szöke et al. Copingwith channel mismatch in query-by-example-but quesst 2014
CA3179063A1 (en) Machine learning systems and methods for multiscale alzheimer's dementia recognition through spontaneous speech
US8682668B2 (en) Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium
US20110218802A1 (en) Continuous Speech Recognition
EP1887562B1 (en) Speech recognition by statistical language model using square-root smoothing
Tejedor et al. Novel methods for query selection and query combination in query-by-example spoken term detection
KR101242182B1 (ko) 음성인식장치 및 음성인식방법
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2016177045A (ja) 音声認識装置および音声認識プログラム
KR20200036419A (ko) 음성을 이용한 키워드 추출 방법 및 서버
JPH1097284A (ja) 音声認識方法,音声認識装置,及び記憶媒体
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2938865B1 (ja) 音声認識装置
JP2965529B2 (ja) 音声認識装置
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JP2975542B2 (ja) 音声認識装置