JPH10232693A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH10232693A
JPH10232693A JP9161243A JP16124397A JPH10232693A JP H10232693 A JPH10232693 A JP H10232693A JP 9161243 A JP9161243 A JP 9161243A JP 16124397 A JP16124397 A JP 16124397A JP H10232693 A JPH10232693 A JP H10232693A
Authority
JP
Japan
Prior art keywords
speech recognition
sentence
value
voice recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9161243A
Other languages
English (en)
Other versions
JP2965529B2 (ja
Inventor
Atsushi Kawai
淳 河井
Yumi Wakita
由実 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to EP97110190A priority Critical patent/EP0849723A3/en
Priority to US08/880,403 priority patent/US5878390A/en
Publication of JPH10232693A publication Critical patent/JPH10232693A/ja
Application granted granted Critical
Publication of JP2965529B2 publication Critical patent/JP2965529B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 不適格な誤認識結果を除去することができ、
局所的にも大局的にも適格な文を出力でき、従来例に比
較して高い音声認識率を得ることができる音声認識装置
を提供する。 【解決手段】 入力される単語列からなる発声音声文の
音声の音声信号に基づいて、統計的言語モデルを参照し
て音声認識する音声認識部6を備え、音声認識部6は、
音声認識候補に対して、音声認識候補に対する不適格の
度合いを表わす所定の不適格文判定関数を用いて不適格
文判定関数の関数値を計算し、計算された関数値がしき
い値を超えるときに、当該音声認識候補を除去して音声
認識する。関数値は、例えば、音声認識処理で用いた用
例に対応する意味的距離の和を計算し、計算された和に
音声認識処理の対象となる音声認識候補に含まれる形態
素の数を乗算しかつ上記音声認識処理で用いた用例の数
で除算した値である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、発声音声の音声信
号に基づいて、統計的言語モデルを参照して音声認識す
る音声認識装置に関する。
【0002】
【従来の技術】連続音声認識装置において、N−gra
mと呼ばれる統計的手法に基づいた統計的言語モデルが
広く使用されている(例えば、従来技術文献1「L.R.Ba
hl etal.,“A Maximum Likelihood Approach to Contin
uous Speech Recognition",IEEE Transactions on Patt
ern Analysis and Machine Intelligence,pp.179-190,1
983年」参照。)。N−gramを用いた連続音声認識
装置では、予め、大規模な学習データを用いて、直前の
N−1個の単語から次の単語に遷移する遷移確率を学習
しておき、音声認識時に、学習した遷移確率を用いて次
に接続する単語を予測することにより、音声認識率の向
上を計っている。一般に、Nが大きくなるほど次単語の
予測精度は向上するが、単語連鎖の種類数が多くなるた
め、信頼できる遷移確率を得るためには、大量の学習デ
ータが必要となる。そこで現状では、Nを2(bi−g
ram)又は3(tri−gram)程度に設定して使
用している例が多い。しかしながら、単語のbi−gr
amや単語のtri−gramを用いた連続音声認識結
果を分析してみると、2又は3単語以内の局所的な単語
連鎖に自然性はあったとしても、文全体を眺めると、不
自然な誤認識文を結果として出力している例が多々見受
けられ、より大局的な言語制約が必要であると考える。
【0003】文脈自由文法などの文法や単語間の依存関
係を用いて、より大局的な制約を可能とする言語モデル
が提案されている。しかしながら、自然発話文の構造や
依存関係の多様性を考えると、規則や依存関係の構築は
容易ではないし、処理量も膨大になる。一方、用例主導
型のアプローチで文の構文の曖昧性を解消する方法(以
下、従来例という。)が従来技術文献2「隅田英一郎ほ
か,“英語前置語句係り先の用例主導あいまい性解
消”,電子情報通信学会論文誌(D−II),J77−
D−II,No3,pp.557−565,1994年
3月」において提案されている。この従来例の方法は、
コーパスから用例を抽出し、入力文の表現と用例との意
味的距離をシソーラスに従って計算し、最終的な意味的
距離が最も小さくなる構文を選択する方法であり、対訳
決定処理などでもその効果が確認されている(従来技術
文献3「古瀬蔵ほか,“経験的知識を活用する変換主導
型機械翻訳”,情報処理学会論文誌,Vol.35,N
o3,pp.414−423,1994年3月」参
照。)。
【0004】
【発明が解決しようとする課題】しかしながら、従来例
の方法を用いる音声認識装置において、例えば、学習し
た用例に対して不自然な構文を入力すると、どの用例と
の意味的距離も大きくなってしまい、音声認識率が比較
的低いという問題点があった。
【0005】本発明の目的は以上の問題点を解決し、不
適格な誤認識結果を除去することができ、局所的にも大
局的にも適格な文を出力でき、従来例に比較して高い音
声認識率を得ることができる音声認識装置を提供するこ
とにある。
【0006】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識装置は、入力される単語列からなる発声音
声文の音声の音声信号に基づいて、所定の統計的言語モ
デルを参照して上記音声に対して音声認識処理を実行す
る音声認識手段とを備えた音声認識装置において、上記
音声認識手段は、音声認識候補に対して、音声認識候補
に対する不適格の度合いを表わす所定の不適格文判定関
数を用いて不適格文判定関数の関数値を計算し、計算さ
れた関数値が所定のしきい値を超えるときに、当該音声
認識候補を除去して音声認識処理を実行することを特徴
とする。
【0007】また、請求項2記載の音声認識装置は、請
求項1記載の音声認識装置において、上記不適格文判定
関数の関数値は、上記音声認識処理で用いた用例に対応
する意味的距離の和を計算し、計算された和に音声認識
処理の対象となる音声認識候補に含まれる形態素の数を
乗算しかつ上記音声認識処理で用いた用例の数で除算し
た値であることを特徴とする。さらに、請求項3記載の
音声認識装置は、請求項1記載の音声認識装置におい
て、上記不適格文判定関数の関数値は、上記音声認識処
理で用いた用例に対応する意味的距離の和を計算し、計
算された和を上記音声認識処理で用いた用例の数で除算
した値である意味的距離の平均値を計算し、計算された
意味的距離の平均値に音声認識処理の対象となる音声認
識候補に含まれる形態素の数を乗算しかつ上記音声認識
処理で用いた用例の数で除算した値であることを特徴と
する。またさらに、請求項4記載の音声認識装置は、請
求項1記載の音声認識装置において、上記不適格文判定
関数の関数値は、上記音声認識処理で用いた用例に対応
する意味的距離の和を計算し、計算された和を上記音声
認識処理で用いた用例の数で除算した値である意味的距
離の平均値を計算し、計算された意味的距離の平均値
を、所定個の形態素を処理した段階で上記音声認識処理
で用いた用例中で所定の複数個以上の形態素を含む用例
数で除算した値であることを特徴とする。
【0008】また、請求項5記載の音声認識装置は、請
求項1乃至4のうちの1つに記載の音声認識装置におい
て、上記しきい値は、好ましくは、一定値である。さら
に、請求項6記載の音声認識装置は、請求項1乃至4の
うちの1つに記載の音声認識装置において、上記しきい
値は、好ましくは、音声認識処理の対象となる部分文に
含まれる形態素の数に依存して変化させる。
【0009】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0010】図1は、本発明に係る一実施形態の音声認
識装置の構成を示すブロック図である。この音声認識装
置は、マイクロホン1と、特徴抽出部2と、バッファメ
モリ3と、入力される発声音声データに基づいて隠れマ
ルコフモデルメモリ(以下、HMMメモリという。)5
内の音響モデルである隠れマルコフモデル(以下、HM
Mという。)を参照して音素照合処理を実行して音素デ
ータを出力する音素照合部4と、音素照合部4からの音
素データに基づいてOne pass DP(Vite
rbi search)アルゴリズムを用いて統計的言
語モデルメモリ7内の統計的言語モデル及び用例と距離
のデータベースメモリ(データベースメモリという。)
8内の用例と距離のデータベース(以下、データベース
という。)を参照して音声認識を実行するOne pa
ss DP音声認識部(以下、音声認識部という。)6
とを備え、上記音声認識部6は、音声認識候補に対し
て、音声認識候補に対する不適格の度合いを表わす所定
の不適格文判定関数(詳細後述する数1)を用いて不適
格文判定関数の関数値を計算し、計算された関数値が所
定のしきい値Fthを超えるときに、当該音声認識候補
を除去して音声認識することを特徴とする。ここで、上
記不適格文判定関数の関数値は、好ましくは、上記音声
認識候補の構文を決定するために用いた用例に対応する
意味的距離の和を計算し、計算された和に音声認識処理
の対象となる音声認識候補に含まれる形態素の数を乗算
しかつ上記音声認識候補の構文を決定するために用いた
用例の数で除算した値である。また、上記しきい値Ft
hは、好ましくは、一定値、又は、音声認識処理の対象
となる部分文に含まれる形態素の数に依存して変化させ
る。なお、形態素とは、語幹、接頭辞、接尾辞など意味
を有する文字系列の最小単位で単語と実質的に同一であ
るかやや小さい単位である。
【0011】まず、音声認識部6における不適格文検出
手法について説明する。N−gramを用いた音声認識
処理における誤認識には次の特徴がある。 (a)N個以上の単語の連鎖で判断すると、文法的及び
意味的に不適当な単語の組み合わせが存在する。例え
ば、誤認識例:「電話番号が2107号室ですか」。 (b)文の構造が大きな単位でまとまらない。すなわ
ち、文法的に規則を適用することができず、局所的にし
か判断できない。例えば、誤認識例:「三名様までのえ
ーまでシングルの一泊の……」。
【0012】上記の特徴を持つ誤認識を解決するために
は、N−gramよりも、より大局的な立場で、単語間
の整合性や構文の適格性を判断する必要がある。一方、
用例主導型の音声翻訳手法(従来技術文献2及び従来技
術文献4「O.Furuse et al.,“Incremental Translatio
n Utilizing Constituent Boundary Patterns",Proceed
ings of Coling'96,1996年」参照。)では、用例に基づ
く翻訳知識を用いて左から右に方向で(left-to-right
に)構文を決定していく方法をとっている。この処理課
程で、構文の曖昧性を解消するために、入力文と用例と
の意味的距離をシソーラス(類語辞書)を用いて計算
し、距離の小さい用例に相当する構文を選択する方法を
とっている。本発明者は、次の理由により、上記構文決
定手法が、従来例のN−gram言語モデルによる誤認
識を除去するのに整合性が良いと考えられる。 (a)上記構文決定手法は用例主導型手法であるので、
会話文に見られるような従来の文法で処理が困難な構文
が容易に処理可能である。 (b)上記構文決定手法では、構文に基づいて意味的距
離を求めているので、隣接しない単語間の整合性を判断
できる能力がある。 (c)音声認識、上記構文決定手法、ともに左から右に
方向で(left-to-rightに)処理を行なっているので、
ある時点までの中間結果を、逐次的に判定できる可能性
がある。
【0013】そこで、大局的にみた意味的距離の整合性
と解析された構文の適格性で、不適格文を検出する。具
体的には次のように判断する。まず、部分文における意
味的距離の不整合は、上記の構文決定手法に用いた意味
的距離値で判断する。ある部分文の意味的距離の総和が
一定値以上になると、その文を誤認識と判断する。次に
構文の適格性については次のように考える。一定以上の
形態素からなる自然な文であればまとまった構文を持
ち、構文の構造はある程度複雑な構造であろうと仮定す
る。ある部分文に含まれる形態素の数mの、構文決定の
ために使用された文脈自由文法の規則又は用例の規則数
(又は用例数)Rに対する割合(=m/R)を考える。
まとまった構文を持たない部分文は構文構造が階層にな
らず、よって形態素の数mに対して、使用された構文規
則数Rは少なく、m/R値は大きくなる。逆に、構文が
複雑になり階層的になるほど、m/R値は小さくなる。
そこで、次式の不適格文判定関数Ferror(m)を定義
する。
【0014】
【数1】
【0015】ここで、d(ri)は複数の用例又は規則
iに対応する意味的距離又は類似度距離であり、mは
音声認識処理の対象となる音声認識候補の部分文に含ま
れる形態素の数であり、Rは音声認識処理を実行すると
き音声認識候補の部分文の構文を決定するために用いた
用例又は規則の数である。ここで、意味的距離又は類似
度距離とは、例えば従来技術文献2のp.559の
(1)式で定義され、シソーラスを用いて計算する、入
力発声音声文の音声認識候補と用例との間の意味的距離
であって、本実施形態においては、音声認識候補の部分
文に該当するデータベース内の用例に対する距離を検索
して決定する。ここで、シソーラスとは、概念間の上位
下位関係を木構造で表現し、葉に相当する最下位の概念
に当該概念をもつ単語を割り当てた辞書を指す。単語間
の意味的距離はシソーラス上の概念間の意味的距離によ
って定義され、概念間の距離はシソーラスにおける最小
の共通上位概念の位置に従って0から1までの値に設定
される。値0は2つの概念が同じであることを意味し、
値1は無関係であることを意味する。また、上記判定関
数Ferror(m)は形態素数mの関数であり、文章の始
めからm番目の形態素までの音声認識候補の部分文を対
象に計算される。この判定関数値Ferror(m)が所定
のしきい値Fthを越えた場合、音声認識部6は、その
音声認識候補の部分文を誤認識結果と判断して、音声認
識候補から除去する。なお、上記数1は、好ましくは、
m≧5のときに適用することができる。なお、上記数1
における規則数Rが0であるときは、当該関数値を1と
し、誤認識結果と判断して、音声認識候補から除去す
る。
【0016】図1の好ましい実施形態においては、デー
タベース生成部10は、用例メモリ11内の用例と、単
語セットメモリ12内の単語セットとに基づいて、所定
の類似度規則を用いて、データベースを生成して、デー
タベースメモリ8に記憶する。文脈自由文法規則の用例
の一例を表1及び表2に示す。また、類似度規則の一例
を表3に示す。
【0017】
【表1】用例1 ───────── XのY ───────── 僕の子供 あなたの会社 ……… ─────────
【0018】
【表2】用例2 ───────── XがY ───────── 僕が先生 ……… ─────────
【0019】
【表3】 類似度規則 ─────────────────────────────────── (I)単語セットの組で生成される文が用例と同じとき、距離=0とする。 (II)単語セットの組で生成される文が用例と同じ機能単語(例えば、 “の”や“が”)を有し、用例の単語とき同じ類似カテゴリーの単語セット を有するとき、距離=10-5とする。 (III)単語セットの組で生成される文が用例に無い単語同士のとき、 距離=0.5とする。 ───────────────────────────────────
【0020】日本語処理の音声認識装置における、単語
セットS1,S2,S3,S4の一例、並びに、単語セ
ット間の所定の機能単語を用いたときの距離を図2に示
す。図2において、例えば、「あなた」(単語セットS
1)が「先生」(単語セットS2)のとき、距離が10
-5になり、「あなた」(単語セットS1)の「子供」
(単語セットS3)のとき、距離が10-5になり、「あ
なた」(単語セットS1)の「会社」(単語セットS
4)のとき、距離が10-5になる。また、「先生」(単
語セットS2)の「会社」(単語セットS4)のとき、
距離が0.5になる。
【0021】データベース生成部10は、表1及び表2
の用例と、表3の類似度規則を用いたときのデータベー
ス生成処理を以下のように行う。各単語セットの組で部
分文を生成して、部分文が「あなたの会社」であるとき
は、距離は0となり、部分文が「私の学校」であるとき
は、距離は10-5となり、部分文が「子供が先生」であ
るときは、距離は0.5となる。このように生成した、
部分文の用例と距離とのデータベースは、データベース
メモリ8に記憶される。
【0022】さらに、統計的言語モデルは、発声音声文
のテキストデータに基づいて、公知の方法により、例え
ば、単語のbi−gramの統計的言語モデルを生成し
て統計的言語モデルメモリ7に記憶する。
【0023】次いで、本実施形態の統計的言語モデルを
用いた音声認識装置の構成及び動作について説明する。
【0024】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
音素照合部4に接続されるHMMメモリ5内のHMM
は、複数の状態と、各状態間の遷移を示す弧から構成さ
れ、各弧には状態間の遷移確率と入力コードに対する出
力確率を有している。音素照合部4は、入力されたデー
タに基づいて音素照合処理を実行して音素データを、音
声認識部6に出力する。
【0025】統計的言語モデルを予め記憶する統計的言
語モデルメモリ7は音声認識部6に接続される。音声認
識部6は、統計的言語モデルメモリ7内の統計的言語モ
デル及びデータベースメモリ8内のデータベースを参照
して、所定のOne pass DPアルゴリズムを用
いて、入力された音素データについて左から右方向に、
後戻りなしに処理してより高い生起確率の単語を音声認
識候補として認識し、当該音声認識候補に対して上記数
1を用いて判定関数値Ferror(m)を計算する。ここ
で、数1におけるd(ri)は音声認識候補に該当する
用例をデータベースより検索して、検索された用例に該
当する距離を意味的距離とする。そして、計算された判
定関数値Ferror(m)が所定のしきい値Fthを越え
た場合、音声認識部6は、その音声認識候補の部分文を
誤認識結果と判断して、音声認識候補から除去する。そ
して、残った音声認識候補を音声認識結果(文字列デー
タ)と決定して出力する。
【0026】図3は、以上のように構成された日本語処
理の音声認識装置の動作を示す動作図であって、入力文
と、認識結果文とその構文木とスコアと、構文解析結果
文とその構文木とスコアとを示す動作図である。図3
(a)に示すように、「私のエットー学校がね」という
入力文の音声が入力されたとき、認識結果文として、図
3(b)に示すように、「私の江藤学校がね」が得られ
たとき、すなわち、「エットー」という間投詞が「江
藤」という名詞に誤って認識された場合である。認識結
果文における単語間のスコアを図3(b)に示してい
る。さらに、認識結果文に基づいて構文解析したとき
に、図3(c)に示すように、より小さいスコアに基づ
いて構文解析結果の構文木が得られ、このときのスコア
が得られている。図3(c)における場合を、上記数1
に当てはめると、不適格文判定関数の関数値F
error(m)は次式のようになる。
【0027】
【数2】 Ferror(m) =(6/3)(0.5+0.5+10-5) =2×(1.00001) =2.00002
【0028】当該例において、不適格文を判定するとき
のしきい値Fthは、好ましくは、0.6乃至0.7で
あり、上記数2で計算された関数値=2.00002は
しきい値Fthを超えているので、それに対応する音声
認識候補は音声認識候補から除去される。上記しきい値
Fthは、一定値であってもよいし、音声認識処理の対
象となる部分文に含まれる形態素数mに依存して変化し
てもよい。
【0029】以上のように構成された音声認識装置にお
いて、特徴抽出部2と、音素照合部4と、音声認識部6
と、データベース生成部10とは、例えば、ディジタル
計算機などのコンピュータで構成され、バッファメモリ
3と、HMMメモリ5と、統計的言語モデルメモリ7
と、データベースメモリ8とは、例えば、ハードディス
クメモリなどの記憶装置で構成される。
【0030】次いで、英語処理の音声認識装置の一例に
ついて説明する。英語処理のときの文脈自由文法規則の
用例の一例を表4及び表5に示す。また、類似度規則は
例えば、表3のものをそのまま使用する。
【0031】
【表4】用例11 ──────────────── X at Y ──────────────── start at 7:30 leave at 6 p.m. ……………………… ────────────────
【0032】
【表5】用例12 ───────────────── Z・X ───────────────── the train starts ……………………… ─────────────────
【0033】英語処理の音声認識装置における、単語セ
ットS11(X),S12,S13(Z),S14
(Y)の一例、並びに、単語セット間の所定の機能単語
を用いたときの距離を図5に示す。図5において、例え
ば、「train leaves」のとき距離が10-5
になり、「leave train」のとき距離が0.
5になる。また、「leave Kyoto」のとき距
離が10-5になり、「leave at 6 p.
m.」のとき距離が10-5になる。データベース生成部
10は、表4及び表5の用例と、表3の類似度規則を用
いたときのデータベース生成処理を以下のように行う。
各単語セットの組で部分文を生成して、部分文が「th
e train starts」であるときは、距離は
0となり、部分文が「the bus leaves」
であるときは、距離は10-5となり、部分文が「lea
ve yacht」であるときは、距離は0.5とな
る。このように生成した、部分文の用例と距離とのデー
タベースは、データベースメモリ8に記憶される。
【0034】図6は、以上のように構成された英語処理
の音声認識装置の動作を示す動作図であって、入力文
と、認識結果文とその構文木とスコアと、構文解析結果
文とその構文木とスコアとを示す動作図である。図6
(a)に示すように、「Thebus leaves
Kyoto at 11 a.m.」という入力文の音
声が入力されたとき、認識結果文として、図6(b)に
示すように、「Thebus leaves yach
t at 11 a.m.」が得られたとき、すなわ
ち、「Kyoto」という地名の固有名詞が「yach
t」という名詞に誤って認識された場合である。認識結
果文における単語間のスコアを図6(b)に示してい
る。さらに、認識結果文に基づいて構文解析したとき
に、図6(c)に示すように、より小さいスコアに基づ
いて構文解析結果の構文木が得られ、このときのスコア
が得られている。図6(c)における場合を、上記数1
に当てはめると、不適格文判定関数の関数値F
error(m)は次式のようになる。
【0035】
【数3】 Ferror(m) =(5/4)(10-5+0.5+0.5+10-5) =1.25×(1.00002) =1.250025
【0036】当該例において、上記数3で計算された関
数値=1.250025はしきい値Fthを超えている
ので、それに対応する音声認識候補は音声認識候補から
除去される。
【0037】
【実施例】本発明者は、上述の不適格文検出方法を備え
た音声認識装置の有効性を評価するために、以下のごと
く実験を行った。ここでは、上述の不適格文判定関数F
errorが、N−gram言語モデルを用いた認識実験に
おける誤認識文と正解文とを区別することが可能かどう
かを確認した。具体的には、bi−gramを用いた認
識システムによる誤認識結果文と正解文とを対象に不適
格文判定関数Ferrorを算出し、誤認識文と正解文との
不適格文判定関数の関数値Ferrorの違いを考察した。
正解文では、形態素の数mが大きい、つまり部分文が長
いほど、文構造が複雑になり構造の曖昧性も低くなるの
で関数値Ferrorが小さくなり、誤認識文との区別がつ
きやすくなると想像できる。しかしながら、認識処理の
効率化を考えると、なるべく早く、つまり形態素の数m
が小さい段階の音声認識候補の部分文に対して不適格判
定を行ない、不適格文を誤認識文として結果候補から除
去することが好ましい。信頼性の高い関数値Ferror
得るための形態素の数mを知るために、誤認識または正
解文のm番目の形態素までの音声認識候補の部分文に対
して関数値Ferrorを計算し、形態素の数mを変化させ
た時の関数値Ferrorの変化も合わせて調べた。実験に
おける音声認識及びデータ条件を表6に示す。
【0038】
【表6】 音声認識及びデータ条件 ─────────────────────────────────── タスク 旅行案内用音声対話データベース ─────────────────────────────────── 音響モデル 不特定話者HM−net,401状態,10混合分布 ─────────────────────────────────── 言語モデル 単語のbi−gram ─────────────────────────────────── 音声認識方式 One−pass DP,N−best探索 ─────────────────────────────────── bi-gram学習データ 3363文、222954単語 ─────────────────────────────────── 評価データ 学習用データに含まれる44文、4話者 ───────────────────────────────────
【0039】音声認識処理は、統計的言語モデルに単語
のbi−gramを使用し、one−pass DPア
ルゴリズム、N−best探索型の音声認識システムを
用いた。正解文として、表6に示した評価データを用
い、誤認識文としては、上記評価データを、表6に示し
た3種類のN−gramを用いた認識システムで認識
し、その結果の誤認識文94文を用いた。図4に、正解
文に対する関数値Ferrorの平均値と最大値、及び誤認
識文に対する関数値Ferrorを、各形態素数m毎に示
す。この図4より、次のことがわかる。 (a)正解文については形態素数mが長くなるほど、関
数値Ferrorの平均値、最大値ともに減少する。 (b)誤認識文においても同様に、形態素数が長くなる
ほど関数値Ferrorは減少する傾向にあるが、その減少
の度合いは正解文に比べて少ない。
【0040】このことは、左から右への(left-to-righ
tの)音声認識処理系において、処理した形態素がまだ
少ない文の始めの部分では、正解文及び誤認識文の関数
値Ferrorに差がなく、不適格文の検出は困難である
が、処理した形態素数が多くなるほど、正解文と誤認識
文との関数値Ferrorに差が生じるため、上記しきい値
Fthを適切に設定することで、不適格文の検出が可能
であることを示している。但し、このしきい値Fthは
一定値ではなく、形態素数mを変数とする関数値として
定義した方がより有効であることがわかる。例えば、図
4中の最大値をしきい値Fthとした場合には、このし
きい値Fth以上の関数値Ferrorを示す文章は、各々
の形態素数mの処理を行なっている際に、不適格文と判
定することができる。このように文の途中結果から誤認
識であると判定できた文の割合は、本実験では全誤認識
文中47.9%(=45/94)であった。以上の結果
をまとめると、次のようになる。 (a)本不適格文の検出に用いた(1)入力語句と用例
との意味的距離、(2)形態素数に対する規則数で表さ
れた文構造の複雑さの2つのパラメータは、不適格文を
判定するのに有効なパラメータであり、提案した不適格
文判定関数Ferrorは、不適格文を検出するのに有効で
あることがわかった。 (b)不適格文検出の性能は形態素数mに依存し、mが
大きくなるほど、検出性能は上がる。 (c)不適格文判定関数Ferrorのしきい値Fthは、
形態素数mに依存して変えた方が、より効率良く不適格
文を検出できる。
【0041】以上説明したように、本発明によれば、用
例との意味的距離を使用することで構文の曖昧性を解消
しながら構文を決定していく構文決定手法とを用いて、
従来の統計的言語モデルを用いた音声認識の誤認識結果
文の不適格性を逐次的に検出する方法を発明した。この
方法は、認識結果の部分文に含まれる語句と予め学習さ
れた用例との意味的距離と、認識結果の部分文の構文の
複雑さとを不適格文の判定要因として使用するものであ
る。そして、様々な単語及び品詞のbi−gramを用
いた認識システムの結果を対象に、不適格文の検出を行
なった結果、誤認識文と正解文との判定のしきい値Ft
hを適切に設定すれば、誤認識文の約半分を不適格な文
として検出可能であることがわかった。
【0042】従って、音声認識部6は、音声認識候補に
対して、音声認識候補に対する不適格の度合いを表わす
所定の不適格文判定関数を用いて不適格文判定関数の関
数値を計算し、計算された関数値が所定のしきい値を超
えるときに、当該音声認識候補を除去して音声認識する
ので、不適格な誤認識結果を除去することができ、局所
的にも大局的にも適格な文を出力でき、従来例に比較し
て高い音声認識率を得ることができる音声認識装置を提
供することができる。
【0043】以上の実施形態においては、不適格文判定
関数として数1を用いているが、本発明はこれに限ら
ず、以下に示す数4又は数5の不適格文判定関数を用い
てもよい。
【数4】
【数5】
【0044】ここで、数4の不適格文判定関数Ferror'
(m)は、数1の不適格文判定関数Ferror(m)に比
較して、上記音声認識候補の構文を決定するために用い
た用例に対応する意味的距離の和を計算し、計算された
和を上記音声認識候補の構文を決定するために用いた用
例の数で除算した値である意味的距離の平均値を計算す
ることを特徴としている。また、数5において、Mは、
所定m個の形態素を処理した段階で上記音声認識候補の
構文を決定するために用いた用例の規則の中で所定の複
数ma個以上の形態素を含む規則数を表し、ここで、m
は好ましくは5以上であって、maは好ましくは3であ
る。数5の不適格文判定関数Ferror''(m)は、数3
の不適格文判定関数Ferror'(m)に比較して、(m/
R)に代えて上記規則数Mの逆数を用いたことを特徴と
する。これら数4又は数5の不適格文判定関数を用いて
音声認識することにより、不適格な誤認識結果を除去す
ることができ、局所的にも大局的にも適格な文を出力で
き、従来例に比較して高い音声認識率を得ることができ
る音声認識装置を提供することができる。
【0045】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声認識装置によれば、入力される単語列から
なる発声音声文の音声の音声信号に基づいて、所定の統
計的言語モデルを参照して上記音声に対して音声認識処
理を実行する音声認識手段とを備えた音声認識装置にお
いて、上記音声認識手段は、音声認識候補に対して、音
声認識候補に対する不適格の度合いを表わす所定の不適
格文判定関数を用いて不適格文判定関数の関数値を計算
し、計算された関数値が所定のしきい値を超えるとき
に、当該音声認識候補を除去して音声認識処理を実行す
る。従って、不適格な誤認識結果を除去することがで
き、局所的にも大局的にも適格な文を出力でき、従来例
に比較して高い音声認識率を得ることができる音声認識
装置を提供することができる。
【0046】また、請求項2記載の音声認識装置におい
ては、請求項1記載の音声認識装置において、上記不適
格文判定関数の関数値は、上記音声認識処理で用いた用
例に対応する意味的距離の和を計算し、計算された和に
音声認識処理の対象となる音声認識候補に含まれる形態
素の数を乗算しかつ上記音声認識処理で用いた用例の数
で除算した値である。従って、簡便に上記不適格文判定
関数の関数値を計算することができ、不適格な誤認識結
果を除去することができ、局所的にも大局的にも適格な
文を出力でき、従来例に比較して高い音声認識率を得る
ことができる音声認識装置を提供することができる。
【0047】さらに、請求項3記載の音声認識装置にお
いては、請求項1記載の音声認識装置において、上記不
適格文判定関数の関数値は、上記音声認識処理で用いた
用例に対応する意味的距離の和を計算し、計算された和
を上記音声認識処理で用いた用例の数で除算した値であ
る意味的距離の平均値を計算し、計算された意味的距離
の平均値に音声認識処理の対象となる音声認識候補に含
まれる形態素の数を乗算しかつ上記音声認識処理で用い
た用例の数で除算した値である。従って、簡便に上記不
適格文判定関数の関数値を計算することができ、不適格
な誤認識結果を除去することができ、局所的にも大局的
にも適格な文を出力でき、従来例に比較して高い音声認
識率を得ることができる音声認識装置を提供することが
できる。
【0048】またさらに、請求項4記載の音声認識装置
においては、請求項1記載の音声認識装置において、上
記不適格文判定関数の関数値は、上記音声認識処理で用
いた用例に対応する意味的距離の和を計算し、計算され
た和を上記音声認識処理で用いた用例の数で除算した値
である意味的距離の平均値を計算し、計算された意味的
距離の平均値を、所定個の形態素を処理した段階で上記
音声認識処理で用いた用例中で所定の複数個以上の形態
素を含む用例数で除算した値である。従って、簡便に上
記不適格文判定関数の関数値を計算することができ、不
適格な誤認識結果を除去することができ、局所的にも大
局的にも適格な文を出力でき、従来例に比較して高い音
声認識率を得ることができる音声認識装置を提供するこ
とができる。
【0049】さらに、請求項5又は6記載の音声認識装
置においては、請求項1乃至4のうちの1つに記載の音
声認識装置において、上記しきい値は、好ましくは、一
定値、もしくは、音声認識処理の対象となる部分文に含
まれる形態素の数に依存して変化させる。従って、より
有効的に、不適格な誤認識結果を除去することができ、
局所的にも大局的にも適格な文を出力でき、従来例に比
較して高い音声認識率を得ることができる音声認識装置
を提供することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音声認識装置
のブロック図である。
【図2】 図1の音声認識装置における日本語の単語セ
ットと距離との関係を示す図である。
【図3】 図1の音声認識装置の日本語処理の動作を示
す動作図であって、入力文と、認識結果文とその構文木
とスコアと、構文解析結果文とその構文木とスコアとを
示す動作図である。
【図4】 図1の音声認識装置のシミュレーション結果
であって、入力された形態素の数に対する判定関数値F
errorを示すグラフである。
【図5】 図1の音声認識装置における英語の単語セッ
トと距離との関係を示す図である。
【図6】 図1の音声認識装置の英語処理の動作を示す
動作図であって、入力文と、認識結果文とその構文木と
スコアと、構文解析結果文とその構文木とスコアとを示
す動作図である。
【符号の説明】 1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…隠れマルコフモデルメモリ(HMMメモリ)、 6…One pass DP音声認識部、 7…統計的言語モデルメモリ、 8…用例と距離のデータベースメモリ(データベースメ
モリ)、 10…データベース生成部、 11…用例メモリ、 12…単語セットメモリ。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力される単語列からなる発声音声文の
    音声の音声信号に基づいて、所定の統計的言語モデルを
    参照して上記音声に対して音声認識処理を実行する音声
    認識手段とを備えた音声認識装置において、 上記音声認識手段は、音声認識候補に対して、音声認識
    候補に対する不適格の度合いを表わす所定の不適格文判
    定関数を用いて不適格文判定関数の関数値を計算し、計
    算された関数値が所定のしきい値を超えるときに、当該
    音声認識候補を除去して音声認識処理を実行することを
    特徴とする音声認識装置。
  2. 【請求項2】 上記不適格文判定関数の関数値は、上記
    音声認識処理で用いた用例に対応する意味的距離の和を
    計算し、計算された和に音声認識処理の対象となる音声
    認識候補に含まれる形態素の数を乗算しかつ上記音声認
    識処理で用いた用例の数で除算した値であることを特徴
    とする請求項1記載の音声認識装置。
  3. 【請求項3】 上記不適格文判定関数の関数値は、上記
    音声認識処理で用いた用例に対応する意味的距離の和を
    計算し、計算された和を上記音声認識処理で用いた用例
    の数で除算した値である意味的距離の平均値を計算し、
    計算された意味的距離の平均値に音声認識処理の対象と
    なる音声認識候補に含まれる形態素の数を乗算しかつ上
    記音声認識処理で用いた用例の数で除算した値であるこ
    とを特徴とする請求項1記載の音声認識装置。
  4. 【請求項4】 上記不適格文判定関数の関数値は、上記
    音声認識処理で用いた用例に対応する意味的距離の和を
    計算し、計算された和を上記音声認識処理で用いた用例
    の数で除算した値である意味的距離の平均値を計算し、
    計算された意味的距離の平均値を、所定個の形態素を処
    理した段階で上記音声認識処理で用いた用例中で所定の
    複数個以上の形態素を含む用例数で除算した値であるこ
    とを特徴とする請求項1記載の音声認識装置。
  5. 【請求項5】 上記しきい値は、一定値であることを特
    徴とする請求項1乃至4のうちの1つに記載の音声認識
    装置。
  6. 【請求項6】 上記しきい値は、音声認識処理の対象と
    なる部分文に含まれる形態素の数に依存して変化させる
    ことを特徴とする請求項1乃至4のうちの1つに記載の
    音声認識装置。
JP9161243A 1996-12-20 1997-06-18 音声認識装置 Expired - Fee Related JP2965529B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP97110190A EP0849723A3 (en) 1996-12-20 1997-06-21 Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US08/880,403 US5878390A (en) 1996-12-20 1997-06-23 Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP34108496 1996-12-20
JP8-341084 1996-12-20

Publications (2)

Publication Number Publication Date
JPH10232693A true JPH10232693A (ja) 1998-09-02
JP2965529B2 JP2965529B2 (ja) 1999-10-18

Family

ID=18343109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9161243A Expired - Fee Related JP2965529B2 (ja) 1996-12-20 1997-06-18 音声認識装置

Country Status (1)

Country Link
JP (1) JP2965529B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293196A (ja) * 1999-04-08 2000-10-20 Nec Corp 音声認識装置、方法及びプログラムを記憶した記憶媒体
JP2000293189A (ja) * 1999-04-02 2000-10-20 Toshiba Corp 音声認識装置および方法
JP2002041080A (ja) * 2000-07-11 2002-02-08 Internatl Business Mach Corp <Ibm> 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
US7031923B1 (en) 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
JP2019095603A (ja) * 2017-11-22 2019-06-20 富士通株式会社 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293189A (ja) * 1999-04-02 2000-10-20 Toshiba Corp 音声認識装置および方法
JP2000293196A (ja) * 1999-04-08 2000-10-20 Nec Corp 音声認識装置、方法及びプログラムを記憶した記憶媒体
US7031923B1 (en) 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
JP2002041080A (ja) * 2000-07-11 2002-02-08 Internatl Business Mach Corp <Ibm> 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
JP2019095603A (ja) * 2017-11-22 2019-06-20 富士通株式会社 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法

Also Published As

Publication number Publication date
JP2965529B2 (ja) 1999-10-18

Similar Documents

Publication Publication Date Title
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US8200491B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US8321218B2 (en) Searching in audio speech
WO2015118645A1 (ja) 音声検索装置および音声検索方法
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP5073024B2 (ja) 音声対話装置
Ahmed et al. Arabic automatic speech recognition enhancement
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
JP2965529B2 (ja) 音声認識装置
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2009271117A (ja) 音声検索装置および音声検索方法
CN111429886B (zh) 一种语音识别方法及系统
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
Young et al. Learning new words from spontaneous speech
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JPH10254480A (ja) 音声認識方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees