JP2007072393A - 音声認識装置及びプログラム - Google Patents

音声認識装置及びプログラム Download PDF

Info

Publication number
JP2007072393A
JP2007072393A JP2005262231A JP2005262231A JP2007072393A JP 2007072393 A JP2007072393 A JP 2007072393A JP 2005262231 A JP2005262231 A JP 2005262231A JP 2005262231 A JP2005262231 A JP 2005262231A JP 2007072393 A JP2007072393 A JP 2007072393A
Authority
JP
Japan
Prior art keywords
word
probability
syllable
string
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005262231A
Other languages
English (en)
Other versions
JP4610451B2 (ja
Inventor
Shuichi Tsutsumi
修一 堤
Toshihiro Isobe
俊洋 磯部
Masatoshi Morishima
昌俊 森島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2005262231A priority Critical patent/JP4610451B2/ja
Publication of JP2007072393A publication Critical patent/JP2007072393A/ja
Application granted granted Critical
Publication of JP4610451B2 publication Critical patent/JP4610451B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声認識装置及びプログラムを提供する。
【解決手段】
単語認識部201は音声の単語認識を行い単語列候補と対数ゆう度を求める。音節認識部211は音声の音節認識を行い音節列候補と対数ゆう度を求める。音素認識部221は音声の音素認識を行い音素列候補と対数ゆう度を求める。単語正規化ゆう度計算部203は正規化ゆう度を求め、単語条件付確率計算部207は単語条件付確率を求める。音節正規化ゆう度計算部213は正規化ゆう度を求め、音節条件付確率計算部217は音節条件付確率を求める。音素正規化ゆう度計算部223は正規化ゆう度を求め、音素条件付確率計算部227は音素条件付確率を求める。対話管理部208は単語条件付確率と音節条件付確率と音素条件付確率とに基づいて信頼度を求め、単語列候補を受理又は棄却する。
【選択図】図2

Description

この発明は、音声認識装置及びプログラムに関する。
従来の音声認識技術においては、話者が発声した既知語を類似する他の既知語に音声認識装置が誤認識したり、話者が音声認識装置の未知語を発声することによって正しく音声を認識できないことがある。そのため、一般に音声認識装置は、音声の認識後にユーザに認識結果が正しいか否かを確認したり、複数の認識結果の候補の中からユーザの所望の候補をユーザに選択させたりする。しかし、このような処理はユーザにとって非常に煩わしく大きな負担となる。このように、音声認識装置には音声の認識結果に精度の高い信頼度尺度を付与することが要求される。
例えば、非特許文献1には、話者が発声した音声が認識可能な語彙に含まれるか否かを判定し、未知語を棄却する方法が開示されている。具体的には、音声認識装置は、マイクロフォンで取得した音声の単語認識を行い、単語認識結果と単語認識ゆう度とを求める。また、音声認識装置は、マイクロフォンで取得した音声の音節認識を行い、音節認識ゆう度を求める。そして、単語認識ゆう度と音節認識ゆう度との差を信頼度として計算し、信頼度が所定値以上であれば単語認識結果を受理し、所定値より小さければ単語認識結果を棄却する。
また、非特許文献2には、音響的に類似している単語候補の中から取得した音声に最も近いものを選択する方法が開示されている。具体的には、音声認識装置は、マイクロフォンで取得した音声の単語認識を行い、単語認識結果と単語認識ゆう度とを第1位候補から第L位候補(Lは正の整数)まで求める。また、音声認識装置は、第1位候補の単語認識ゆう度と競合候補の単語認識ゆう度の和との差を信頼度として計算し、この信頼度が所定値以上であれば単語認識結果を受理し、所定値より小さければ単語認識結果を棄却する。
社団法人電子情報通信学会論文誌D−II、Vol.J75−D−II、No.12(1992年)2002〜2009ページ、「音節認識を用いたゆう度補正による未知発話のリジェクション」渡辺隆夫・塚田聡 社団法人情報処理学会研究報告2003−SLP−49(2003年)281〜286ページ、「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」李晃伸・河原達也・鹿野清宏
しかし、従来の手法は、話者が未知語を話すことが要因となる誤認識、あるいは、話者が話した既知語を類似する他の既知語と間違えることが要因となる誤認識のどちらか1つのみを解決するためのものである。すなわち、非特許文献1に開示されるような手法では、未知語を要因とする誤認識の検出には有効であるが、入力が既知語のみの場合の判別精度は低い。一方、非特許文献2に開示されるような手法では、既知語の判別には有効であるが、未知語を含む場合には判別精度は低い。そして、音声認識装置の実用場面では、これらの誤認識の要因が混在することが一般的であり、上述した従来の手法を組み合わせて用いても、誤認識の要因が混在する環境では正しく音声認識を行うことはできない。そのため、誤認識の要因が混在する状況でも精度よく音声認識を行うことができる音声認識装置が望まれている。
この発明は、上記実情に鑑みてなされたものであり、非言語、未知語、競合語が混在する条件下で精度よく音声認識を行うために好適な音声認識装置及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明の第1の観点に係る音声認識装置は、
音声を認識して複数の音素列候補とゆう度とを求める音素認識部と、
前記音素認識部により求められたゆう度に基づいて、前記音声が音素列のいずれかであると仮定した場合に前記音声が音節列のいずれかである割合を示す第1の正規化ゆう度を求め、前記音声が前記音素列のいずれかである場合に前記音声が前記音節列のいずれかである第1の確率を求める第1の確率取得部と、
前記音声を認識して複数の音節列候補とゆう度とを求める音節認識部と、
前記音節認識部により求められたゆう度に基づいて、前記音声が前記音節列のいずれかであると仮定した場合に前記音声が既知の単語列のいずれかである割合を示す第2の正規化ゆう度を求め、前記音声が前記音節列のいずれかである場合に前記音声が前記既知の単語列のいずれかである第2の確率を求める第2の確率取得部と、
前記音声を認識して複数の単語列候補とゆう度とを求める単語認識部と、
前記単語認識部により求められた前記ゆう度に基づいて、前記音声が前記既知の単語列のいずれかであると仮定した場合に前記音声が前記単語列候補の中で最も大きいゆう度を持つ第1位の単語候補である割合を示す第3の正規化ゆう度を求め、前記音声が前記既知の単語列のいずれかである場合に前記音声が前記第1位の単語列候補である第3の確率を求める第3の確率取得部と、
前記第1の確率と前記第2の確率と前記第3の確率とに基づいて、前記第1位の単語候補を棄却する判定部と、を備える。
また、音素列に関するデータを格納する音素列言語モデル格納部と、
音節列に関するデータを格納する音節列言語モデル格納部と、
単語列に関するデータを格納する単語列言語モデル格納部と、
前記第1の確率取得部により求められる第1の正規化ゆう度と、前記音声が前記音素列言語モデル格納部に格納された音素列のいずれかである場合に前記音声が前記音節列言語モデル格納部に格納された音節列のいずれかである第1の確率との関係を示す第1の関数を格納する第1の関数格納部と、
前記第2の確率取得部により求められる第2の正規化ゆう度と、前記音声が前記音節列言語モデル格納部に格納された音節列のいずれかである場合に前記音声が前記単語列言語モデル格納部に格納された単語列のいずれかである第2の確率との関係を示す第2の関数を格納する第2の関数格納部と、
前記第3の確率取得部により求められる第3の正規化ゆう度と、前記音声が前記単語列候補のいずれかである場合に前記音声が前記第1位の単語列候補である第3の確率との関係を示す第3の関数を格納する第3の関数格納部と、を更に備え、
前記第1の確率取得部は、前記第1の正規化ゆう度と、前記第1の関数格納部に格納される第1の関数とに基づいて、前記第1の確率を求め、
前記第2の確率取得部は、前記第2の正規化ゆう度と、前記第2の関数格納部に格納される第2の関数とに基づいて、前記第2の確率を求め、
前記第3の確率取得部は、前記第3の正規化ゆう度と、前記第3の関数格納部に格納される第3の関数とに基づいて、前記第3の確率を求めてもよい。
また、前記第1、第2又は第3の確率取得部により求められる第1、第2又は第3の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数と、前記対象事象に対応する対立事象のサンプル音声数とを求め、更に、
前記各区間ごとに前記音素列、音節列又は単語列に該当する対象事象のサンプル音声数の総サンプル数に対する割合を求め、更に、
各区間に対して前記割合をプロットして得られる分布において隣り合う区間の2点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第1、第2又は第3の関数格納部に格納する関数決定部を更に備えてもよい。
また、前記第1、第2又は第3の確率取得部により求められる第1、第2又は第3の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数の割合と、前記対象事象のに対応する対立事象のサンプル音声数の割合とを求め、更に、
前記各区間ごとに前記音素列、音節列又は単語列に該当する対象事象のサンプル音声数を累積した値の総サンプル数に対する累積割合を求め、更に、
各区間に対して前記累積割合をプロットして得られる分布において隣り合う区間の2点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第1、第2又は第3の関数格納部に格納する関数決定部を更に備えてもよい。
また、前記第1、第2又は第3の確率取得部により求められる第1、第2又は第3の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当するサンプル音声数の割合を求め、更に、
前記各区間ごとに前記音素列、音節列又は単語列に該当する対象事象のサンプル音声数を累積した値の総サンプル数に対する累積割合を求め、更に、
前記各区間に対して前記累積割合をプロットして得られる分布において隣り合う区間の2点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第1、第2又は第3の関数格納部に格納する関数決定部を更に備えてもよい。
上記目的を達成するため、本発明の第2の観点に係るプログラムは、
コンピュータを、
音声を認識して複数の音素列候補とゆう度とを求める音素認識部、
前記音素認識部により求められたゆう度に基づいて、前記音声が音素列のいずれかであると仮定した場合に前記音声が音節列のいずれかである割合を示す第1の正規化ゆう度を求め、前記音声が前記音素列のいずれかである場合に前記音声が前記音節列のいずれかである第1の確率を求める第1の確率取得部、
前記音声を認識して複数の音節列候補とゆう度とを求める音節認識部、
前記音節認識部により求められたゆう度に基づいて、前記音声が前記音節列のいずれかであると仮定した場合に前記音声が既知の単語列のいずれかである割合を示す第2の正規化ゆう度を求め、前記音声が前記音節列のいずれかである場合に前記音声が前記既知の単語列のいずれかである第2の確率を求める第2の確率取得部、
前記音声を認識して複数の単語列候補とゆう度とを求める単語認識部、
前記単語認識部により求められた前記ゆう度に基づいて、前記音声が前記既知の単語列のいずれかであると仮定した場合に前記音声が前記単語列候補の中で最も大きいゆう度を持つ第1位の単語列候補である割合を示す第3の正規化ゆう度を求め、前記音声が前記既知の単語列のいずれかである場合に前記音声が前記第1位の単語候補である第3の確率を求める第3の確率取得部、
前記第1の確率と前記第2の確率と前記第3の確率とに基づいて、前記第1位の単語候補を棄却する判定部、として機能させる。
この発明によれば、非言語、未知語、競合語が混在する条件下で精度よく音声認識を行うために好適な音声認識装置を提供することができる。
以下、この発明の実施形態に係る音声認識装置100を説明する。
音声認識装置100は、図1に示すように、制御部110、RAM111、ROM112、記憶部113、出力部114、I/F(インタフェース)115、入力部116及びシステムバス117を含む。
制御部110は、CPU(Central Processing Unit)等の演算処理装置から構成され、音声認識装置100の全体の制御を行う。また、制御部110は、ROM112や記憶部113に格納されるプログラムを読み出して、プログラムに基づいて所定の処理を実行する。例えばマイクロフォンで取得した音声から予め登録された単語を判別する処理を行う。制御部110が実行する処理の詳細については後述する。
RAM(Random Access Memory)111は、制御部110が所定の処理(例えば、音声認識処理、等)を実行するために読み出したプログラムや、制御部110が当該プログラムを実行するために必要なデータを格納する揮発性メモリである。
ROM(Read Only Memory)112は、制御部110が所定の処理を実行するためのプログラム等を予め格納する不揮発性メモリである。制御部110は、ROM112から必要に応じてプログラム等を読み出して、RAM111に展開し、当該プログラム等に基づいて所定の処理を実行する。
記憶部113は、ハードディスクドライブ等の記憶装置から構成され、制御部110が後述する音声認識処理等を行うために用いるデータ(例えば、単語列、音節列及び音素列を定義するデータ等)を格納する。また、記憶部113は、制御部110がROM112等に格納されたプログラムに従って処理を行った結果として得られるデータ(例えば、音声の単語認識により得られた単語列候補データ等)を所定の場所に格納する。
出力部114は、モニタ等の表示装置やスピーカ等の出力装置に接続され、制御部110からの指示により、制御部110がROM112等に格納されたプログラムに従って実行した処理の結果として得られる音声認識結果等を出力する。つまり、ユーザは、出力部114によって出力される映像や音声等によって、制御部110が実行して得られる音声認識結果等を知ることができる。
I/F115は、CD(Compact Disc)等のリムーバルディスクに対して読み書きするためのCD−ROMドライブ等のドライブ装置や、外部のネットワーク121(例えば、インターネット、LAN(Local Area Network)等)に繋ぐNIC(Network Interface Card)などと接続するインタフェースである。
入力部116は、キーボード、マウス等の入力装置に接続され、これら入力装置を用いてユーザによって入力されるデータを受け付けて、入力されたデータを制御部110に入力する。また、入力部116は、マイクロフォン等の音声入力装置に接続される。そして、入力部116は、マイクロフォン等から入力されたアナログ音声をデジタル変換するA/Dコンバータを備え、デジタル変換した音声データを制御部110に入力する。
システムバス117は、制御部110、RAM111、ROM112、記憶部113、出力部114、I/F115及び入力部116の間で命令やデータを転送するための伝送経路である。
このように、画像解析装置100は、一般的に普及しているコンピュータ等を用いて構成することができる。
次に、本実施の形態に係る音声認識装置100の制御部110が実行する音声認識処理について、図2を用いて説明する。
制御部110は、(1)音声が既知の単語列のいずれかであると仮定した場合に、前記音声が第1位の単語列候補である確率p(Cw1|Cw)と、(2)音声が音節列のいずれかであると仮定した場合に、前記音声が既知の単語列のいずれかである確率p(Cw|Cs)と、(3)音声が音素列のいずれかであると仮定した場合に、前記音声が音節列のいずれかである確率p(Cs|Cp)と、を求める。
尚、単語列とは、単語一語、あるいは、複数の単語から構成されるもののことである。また、音素には母音と子音とがあり、日本語の場合、音素は5種類の母音と約20種類の子音から構成される。また、音節は通常1つの母音と1つ又は複数の子音から構成され、日本語の場合、音節は約100種類存在する。
制御部110は、例えば、p(Cw1|Cw)とp(Cw|Cs)とp(Cs|Cp)の3つの確率の積を信頼度として求め、信頼度が所定値以上の単語列候補を受理し、所定値に満たない単語列候補を棄却する。以下、詳述する。
まず、単語条件付確率p(Cw1|Cw)を求める方法について説明する。
単語認識部201は、制御部110から構成され、入力部116に接続されるマイクロフォンにより取得され入力部116のA/Dコンバータによりデジタル変換された音声を入力として、当該音声に含まれる単語列の認識を行う。単語認識部201は、単語列言語モデル格納部202から既知語である単語列データを読み込み、第L位候補までの単語認識結果と単語認識対数ゆう度Sw(i)(iは1以上L以下の整数)を求める。そして、単語認識結果を対話管理部208に、単語認識対数ゆう度Sw(i)を単語正規化ゆう度計算部203と音節正規化ゆう度計算部213とに入力する。
ここで、第i位候補の単語認識対数ゆう度Sw(i)は、単語列候補Xの音響モデルからの入力音声の特徴量系列Vの生起確率をP(X)とすると、数1の数式で表される。
Figure 2007072393
単語認識部201は、音声を表現する一般的なモデルであるHMM(Hidden Markov Model)の集合である音響モデルと単語列言語モデルとを用いて単語認識を行い、単語列候補Xに対する音響モデルが入力音声の特徴量系列を生成する確率P(X)を求める。そして、P(X)が最も大きい単語列候補を第1位候補とする。
また、後述する音節認識部211と音素認識部221も同様に、HMMの集合である音響モデルと、音節列言語モデル又は音素列言語モデルと、を用いて音節認識又は音素認識を行う。なお、当該構成は、例えば、特開平10−171489号等に記載される公知の技術である。
単語列言語モデル格納部202は、記憶部113から構成され、音声認識装置100が認識対象とする単語、文法規則、言語統計データ等を格納する。
単語正規化ゆう度計算部203は、単語認識部201から入力される単語認識対数ゆう度Sw(i)から、数2の数式を用いて、第1位の単語列候補の単語正規化ゆう度CMwを求める。
Figure 2007072393
ここで、αはスケーリング係数であり、単語認識対数ゆう度Sw(i)を線形拡大(又は縮小)し、単語正規化ゆう度CMwを求めるために最適な値に予め設定される。
単語正規化ゆう度格納部204は、記憶部113から構成され、単語正規化ゆう度計算部203によって求められた単語正規化ゆう度CMwを格納する。
単語正解確率変換関数決定部205は、制御部110から構成され、単語正規化ゆう度格納部204に格納される単語正規化ゆう度CMwから、単語正解確率変換関数f(CMw)を求めて、単語正解確率変換関数格納部206に格納する。
ここで、単語正解確率変換関数f(CMw)の決定方法について説明する。単語正規化ゆう度CMwを対応する条件付確率に変換するための確率変換関数は、事前実験により決定される。その際、単語正規化ゆう度CMwを所定のC個(Cは1以上の整数)の区間に分割し、各区間における条件付確率を以下の3つの方法のいずれかにより求める。
尚、以下の説明では、条件付確率p(B|A)におけるAを条件事象、Bを対象事象、Bの余事象を対立事象と呼ぶ。
例えば、対象事象が、音声認識装置100の認識成功する既知の単語であるとすると、この対立事象は、音声認識装置100が誤認識する既知の単語である。また、例えば、対象事象が、既知の単語であるとすると、この対立事象は、未知の単語である。また、例えば、対象事象が、音節列(言語)であるとすると、この対立事象は、音節列でない非言語である。
(方法1)
条件事象を満たすサンプルについて、図3(a)に示すような対象事象の単語正規化ゆう度CMwの頻度分布を作成する。同様に、図3(b)に示すような対立事象の単語正規化ゆう度CMwの頻度分布を作成する。
そして、ある単語正規化ゆう度CMwの区間n(nは1以上C以下の整数)における対象事象の頻度をKn、対立事象の頻度をUnとすると、区間nにおける条件付確率p(n)は数3を用いて求められる。
Figure 2007072393
尚、図3(a)及び(b)に示されるような頻度分布は、認識率や未知語混入率に依存するため、頻度分布の総サンプル数で正規化し、確率分布として計算してもよい。
このように、ある単語正規化ゆう度CMwの区間nに対応する条件付確率p(n)に変換する変換関数f(CMw)が得られる。
ここで得られる変換関数f(CMw)は、各区間ごとに離散的に値を持った関数である。そこで、離散的な区間を連続化する方法としては、例えば、隣り合う2区間の条件付確率p(n)及びp(n+1)を直線で結んで近似する方法がある。例えば、図3(c)は、各区間に対して条件付確率p(n)をプロットして得られる分布において隣り合う区間の2点を直線で結んで得られた確率分布、すなわち、変換関数f(CMw)を示す図である。 あるいは、例えば、条件付確率p(n)の分布の全体を、数4で表されるようなシグモイド(S字形)関数を用いて条件付確率p(n)の分布の全体を示す近似曲線を求めて、変換関数f(CMw)を得る。
Figure 2007072393
このようにして、連続化された変換関数f(CMw)を得る。
(方法2)
上述した方法1では、条件事象を満たす対象事象と対立事象とのサンプルを、全区間nについて十分な数だけ用意する必要がある。しかし、一般に、競合語や未知語による誤認識が発生するサンプルを大量に収集することは困難である。本方法では、少ないサンプル数で確率分布を累積した累積分布関数を用いる。
まず、方法1と同様に、条件事象を満たすサンプルについて、対象事象、対立事象ごとに単語正規化ゆう度CMwの頻度分布を作成し、各分布の総サンプル数で正規化して図3(a)及び図3(b)に示すような確率分布を得る。
次に、対象事象の確率分布を単語正規化ゆう度CMwの正方向に、対立事象の確率分布を単語正規化ゆう度CMwの負の方向に累積し、それぞれ図4(a)、図4(b)に示すような累積確率分布を得る。
そして、区間nにおける対象事象の累積確率をKn、対立事象の累積確率をUnとすると、区間nにおける条件付確率p(n)は数3を用いて求められる。
方法1と同様に、得られる変換関数f(CMw)は、各区間ごとに離散的に値を持った関数である。そこで、離散的な区間を連続化する方法としては、例えば、方法1と同様に、各区間に対して条件付確率p(n)をプロットして得られる分布において隣り合う区間の2点の条件付確率p(n)及びp(n+1)を直線で結んで近似する。
あるいは、例えば、条件付確率p(n)の分布の全体を、数4で表されるようなシグモイド関数を用いて条件付確率p(n)の分布の全体を示す近似曲線を求めて、変換関数f(CMw)を得る。
単語正規化ゆう度CMwと条件付確率p(n)は正の相関関係にあるため、単語正規化ゆう度CMwが大きいほど対象事象に当てはまる度合いが高い。したがって、対象事象の確率分布を正方向に累積した累積確率は、区間nにおける対象事象に当てはまる度合いが下から何パーセントに当たるのかを示している。同様に、対立事象の確率分布を負方向に累積した累積確率は、区間nにおける対立事象に当てはまる度合いが下から何パーセントに当たるのかを示している。
(方法3)
本方法では、方法2と異なり、対象事象の累積確率分布のみを用いる。
まず、方法1と同様に、対象事象を満たすサンプルについて単語正規化ゆう度CMwの頻度分布を作成し、条件事象を包含する総サンプル数で正規化して図5(a)に示すような確率分布を得る。
次に、対象事象の確率分布を正規化ゆう度の正方向に累積し、図5(b)に示すような累積確率分布を得る。
そして、区間nの対象事象の累積確率Knを、区間nの条件付確率p(n)とする。
方法1、2と同様に、得られる変換関数f(CMw)は離散的な関数である。したがって、例えば方法1と同様に、各区間に対して条件付確率p(n)をプロットして得られる分布において隣り合う区間の2点の条件付確率p(n)及びp(n+1)を直線で結んで近似する。あるいは方法2と同様に、シグモイド(S字形)関数を用いて近似して、図5(c)に示されるような連続関数である変換関数f(CMw)を得る。
尚、単語正解確率変換関数f(CMw)を求めるための方法1乃至3は、後述する音節正解確率変換関数g(CMt)及び音素正解確率変換関数h(CMv)を求めるためにも用いられる。
図2に戻り、単語正解確率変換関数格納部206は、記憶部113から構成され、単語正解確率変換関数決定部205により求められた単語正解確率変換関数f(CMw)を格納する。
単語条件付確率計算部207は、単語正規化ゆう度計算部203により求められた単語正規化ゆう度CMwから、単語正解確率変換関数格納部206に格納される単語正解確率変換関数f(CMw)を用いて、第1位候補の単語条件付確率p(Cw1|Cw)を求める。そして、求めた単語条件付確率p(Cw1|Cw)を対話管理部208に入力する。
次に、音節条件付確率p(Cw|Cs)を求める方法について説明する。
音節認識部211は、制御部110から構成され、入力部116に接続されるマイクロフォンにより取得され入力部116のA/Dコンバータによりデジタル変換された音声を入力として、当該音声に含まれる音節列の認識を行う。音節認識部211は、音節列言語モデル格納部212から音節列データを読み込み、第M位候補(Mは1以上の整数)までの音節認識対数ゆう度Ss(j)(jは1以上M以下の整数)を求める。そして、音節認識対数ゆう度Ss(j)を音節正規化ゆう度計算部213と音素正規化ゆう度計算部223とに入力する。
ここで、第j位候補の音節認識対数ゆう度Ss(j)は、音声Vが入力された場合に音声Vに音節列候補Yが含まれる確率をP(Y)とすると、数5の数式で表される。
Figure 2007072393
例えば、音節認識部211は、音響モデルと音節列言語モデルとを用いて音声認識を行い、音節列候補Yに対する音響モデルが入力音声の特徴量系列を生成する確率P(Y)を求める。そして、P(Y)が最も大きい音節列候補を第1位候補とする。
音節列言語モデル格納部212は、記憶部113から構成され、音声認識装置100が認識対象とする音節、文法規則、言語統計データ等を格納し、任意の音節列を規定する。
音節正規化ゆう度計算部213は、単語認識部201から入力される単語認識対数ゆう度Sw(i)と、音節認識部211から入力される音節認識対数ゆう度Ss(j)から、数6に示される数式を用いて、音節正規化ゆう度CMtを求める。
Figure 2007072393
ここで、αはスケーリング係数であり、音節認識対数ゆう度Ss(j)を線形拡大(又は縮小)し、音節正規化ゆう度CMtを求めるために最適な値に予め設定される。
音節正規化ゆう度格納部214は、記憶部113から構成され、音節正規化ゆう度計算部213によって求められた音節正規化ゆう度CMtを格納する。
音節正解確率変換関数決定部215は、制御部110から構成され、音節正規化ゆう度格納部214に格納される音節正規化ゆう度CMtから、音節正解確率変換関数g(CMt)を求めて、音節正解確率変換関数格納部216に格納する。
ここで、音節正解確率変換関数g(CMt)の決定方法は、上述した単語正解確率変換関数f(CMw)の決定方法と実質的に同じであるため、説明は省略する。
音節正解確率変換関数格納部216は、記憶部113から構成され、音節正解確率変換関数決定部215により求められた音節正解確率変換関数g(CMt)を格納する。
音節条件付確率計算部217は、音節正規化ゆう度計算部213により求められた音節正規化ゆう度CMtから、音節正解確率変換関数格納部216に格納される音節正解確率変換関数g(CMt)を用いて、音節条件付確率p(Cw|Cs)を求める。そして、求めた音節条件付確率p(Cw|Cs)を対話管理部208に入力する。
次に、音素条件付確率p(Cs|Cp)を求める方法について説明する。
音素認識部221は、制御部110から構成され、入力部116に接続されるマイクロフォンにより取得され入力部116のA/Dコンバータによりデジタル変換された音声を入力として、当該音声に含まれる音素の認識を行う。音素認識部221は、音素列言語モデル格納部222から音素列データを読み込み、第N位候補(Nは1以上の整数)までの音素認識対数ゆう度Sp(k)(kは1以上N以下の整数)を求める。そして、音素認識対数ゆう度Sp(k)を音素正規化ゆう度計算部223に入力する。
ここで、第k位候補の音素認識対数ゆう度Sp(k)は、音声Vが入力された場合に音声Vに音素列候補Zが含まれる確率をP(Z)とすると、数7の数式で表される。
Figure 2007072393
例えば、音素認識部221は、音響モデルと音素列言語モデルとを用いて音素認識を行い、音素列候補Zに対する音響モデルが入力音声の特徴量系列を生成する確率P(Z)を求める。そして、P(Z)が最も大きい音素列候補を第1位候補とする。
音素列言語モデル格納部222は、記憶部113から構成され、音声認識装置100が認識対象とする音素、文法規則、言語統計データ等を格納し、任意の音素列を規定する。
音素正規化ゆう度計算部223は、音節認識部211から入力される音節認識対数ゆう度Ss(j)と、音素認識部221から入力される音素認識対数ゆう度Sp(k)から、数8に示される数式を用いて、音素正規化ゆう度CMvを求める。
Figure 2007072393
ここで、αはスケーリング係数であり、音節認識対数ゆう度Ss(j)及び音節認識対数ゆう度Sp(k)を線形拡大(又は縮小)し、音素正規化ゆう度CMvを求めるために最適な値に予め設定される。
音素正規化ゆう度格納部224は、記憶部113から構成され、音素正規化ゆう度計算部223によって求められた音素正規化ゆう度CMvを格納する。
音素正解確率変換関数決定部225は、制御部110から構成され、音素正規化ゆう度格納部224に格納される音素正規化ゆう度CMvから、音素正解確率変換関数h(CMv)を求めて、音素正解確率変換関数格納部226に格納する。
ここで、音素正解確率変換関数h(CMv)の決定方法は、上述した単語正解確率変換関数f(CMw)の決定方法と実質的に同じであるため、説明は省略する。
音素正解確率変換関数格納部226は、記憶部113から構成され、音素正解確率変換関数決定部225により求められた音素正解確率変換関数h(CMv)を格納する。
音素条件付確率計算部227は、制御部110から構成され、音素正規化ゆう度計算部223により求められた音素正規化ゆう度CMvから、音素正解確率変換関数格納部226に格納される音素正解確率変換関数h(CMv)を用いて、音素条件付確率p(Cs|Cp)を求める。そして、求めた音素条件付確率p(Cs|Cp)を対話管理部208に入力する。
対話管理部208は、制御部110から構成され、単語条件付確率計算部207により求められた単語条件付確率p(Cw1|Cw)と、音節条件付確率計算部217により求められた音節条件付確率p(Cw|Cs)と、音素条件付確率計算部227により求められた音素条件付確率p(Cs|Cp)とから、数9の数式を用いて、取得した音声が第1位の単語候補であることを示す条件付確率p(Cw1|Cp)を求めて、これを単語認識結果の信頼度とする。
Figure 2007072393
条件付確率p(Cwi|Cw)は、入力された音声が、認識結果の単語である確率であり、競合語を判別するために有効な値である。例えば、単語条件付確率p(Cw1|Cw)は、音声が単語列言語モデル格納部202に格納される既知の単語列のいずれかであると仮定した場合に、前記音声が第1位候補の単語列候補である確率を示す値である。
また、条件付確率p(Cw|Cs)は、入力された音声が音節列言語モデル格納部212に格納される音節列のいずれかであると仮定した場合に、当該音声が単語列言語モデル格納部202に格納される既知語のいずれかである確率であり、入力された音声が既知語か未知語かを判別するために有効な値である。
また、条件付確率p(Cs|Cp)は、入力された音声が音素列言語モデル格納部222に格納される音素列のいずれかであると仮定した場合に、当該音声が音節列言語モデル格納部212に格納される音節列のいずれかである確率であり、入力された音声が言語か非言語かを判別するために有効な値である。
したがって、これらの積によって表される条件付確率p(Cw1|Cp)は、非言語が入力されることによる誤認識と、未知語が入力されることによる誤認識と、競合語による誤認識とをすべて考慮した信頼度として用いられる。言い換えれば、この条件付確率p(Cw1|Cp)を用いれば、誤認識が発生する要素である非言語、未知語、競合語が混在する条件下で精度よく音声認識を行うことができる。
また、対話管理部208は、例えば、求めた条件付確率p(Cw1|Cp)が予め決められたしきい値p_th以上の場合に単語列候補を受理し、認識結果の単語であると判定する。一方、求めた条件付確率p(Cw1|Cp)が予め決められたしきい値p_thより小さい場合に単語列候補を棄却する。
尚、本実施形態では、音声認識装置100は、単語正解確率変換関数決定部205、音節正解確率変換関数決定部215及び音素正解確率変換関数決定部225を装置内に備えるが、それぞれ別の装置により単語正解確率変換関数、音節正解確率変換関数及び音素正解確率変換関数を決定し、各関数格納部206,216,226に格納するように構成してもよい。
次に、本実施の形態に係る音声認識装置100の制御部110が実行する音声認識処理の流れについて、図6及び図7のフローチャートを用いて説明する。
まず、制御部110は、判別対象の音声を取得する(ステップS601)。すなわち、制御部110は、入力部116に接続されるマイクロフォンにより取得され入力部116のA/Dコンバータによりデジタル変換された音声を取得する。
制御部110は、取得した音声の単語認識を行って、第1位候補から第L候補までの単語列候補を取得する(ステップS602)。ここで取得される単語列候補は、記憶部113に格納される単語列言語モデルによって規定される単語列である。
制御部110は、数1を用いて、選択した単語列候補の各々の単語認識対数ゆう度Sw(i)を求める(ステップS603)。
制御部110は、求めた単語認識対数ゆう度Sw(i)から、数2を用いて、単語正規化ゆう度CMwを求める(ステップS604)。
制御部110は、予め計算されて記憶部113に記憶された単語正解確率変換関数f(CMw)を用いて、単語正規化ゆう度CMwから単語条件付確率p(Cw1|Cw)を求める(ステップS605)。例えば、単語正解確率変換関数f(CMw)は、図4(c)に示されるような確率分布である。制御部110は、例えば本図に示されるような予め求められた単語正解確率変換関数f(CMw)を用いて、ステップS604で求めた単語正規化ゆう度CMwに対応する単語条件付確率p(Cw1|Cw)を得る。尚、単語正解確率変換関数f(CMw)を計算する処理については、後述する。
制御部110は、他の単語候補の単語正規化ゆう度CMw及び単語条件付確率p(Cwi|Cw)を求めるか否かを判定する(ステップS606)。
本実施形態では、制御部110は、L個の中の第1位候補である単語列候補の単語条件付確率p(Cw1|Cw)のみを求めている。しかし、第2位候補の単語条件付確率p(Cw2|Cw)など他の単語列候補の単語条件付確率を求めるようにしてもよい。このようにすれば、例えば、制御部110は、複数の単語列候補を単語認識結果として取得して、複数の単語認識結果を出力部114に接続されるモニタ等を用いてユーザに通知することができる。そして、音声認識装置100は、ユーザが信頼度の高い単語認識結果から所望の単語を選択する機能を更に備えることができる。
他の単語候補iについて単語正規化ゆう度CMw及び単語条件付確率p(Cwi|Cw)を求めると判定した場合(ステップS606;Yes)、制御部110は、ステップS604乃至S605の処理を繰り返して、他の単語候補iについて同様に単語正規化ゆう度CMw及び単語条件付確率p(Cwi|Cw)を求める。
一方、他の単語候補について求めないと判定した場合(ステップS606;No)、制御部110は、取得した音声の音節認識を行って、第1位候補から第M位候補までの音節列候補を取得する(ステップS607)。ここで取得される音節列候補は、記憶部116に格納される音節列言語モデルによって規定される任意の音節列である。
制御部110は、数5を用いて、選択した音節列候補の音節認識対数ゆう度Ss(j)を求める(ステップS608)。
制御部110は、求めた音節認識対数ゆう度Ss(j)とステップS603で求めた単語認識対数ゆう度Sw(i)とから、数6を用いて音節正規化ゆう度CMtを求める(ステップS609)。
制御部110は、予め計算されて記憶部113に記憶された音節正解確率変換関数g(CMt)を用いて、音節正規化ゆう度CMtから音節条件付確率p(Cw|Cs)を求める(ステップS610)。例えば、音節正解確率変換関数g(CMt)は、図4(c)に示されるような確率分布である。制御部110は、例えば本図に示されるような予め求められた音節正解確率変換関数g(CMt)を用いて、ステップS609で求めた音節正規化ゆう度CMtに対応する音節条件付確率p(Cw|Cs)を得る。尚、音節正解確率変換関数g(CMt)を計算する処理については、後述する。
次に制御部110は、取得した音声の音素認識を行って、第1位候補から第N位候補までの音素列候補を取得する(ステップS701)。ここで取得される音素列候補は、記憶部113に格納される音素列言語モデルによって規定される任意の音素列である。
制御部110は、数7を用いて、選択した音素列候補の音素認識対数ゆう度Sp(k)を求める(ステップS702)。
制御部110は、求めた音素認識対数ゆう度Sp(k)とステップS608で求めた音節認識対数ゆう度Ss(j)とから、数8を用いて音素正規化ゆう度CMvを求める(ステップS703)。
制御部110は、予め計算されて記憶部113に記憶された音素正解確率変換関数h(CMv)を用いて、音素正規化ゆう度CMvから音素条件付確率p(Cs|Cp)を求める(ステップS704)。例えば、音素正解確率変換関数h(CMv)は、図4(c)に示されるような確率分布である。制御部110は、例えば本図に示されるような予め求められた音素正解確率変換関数h(CMv)を用いて、ステップS703で求めた音素正規化ゆう度CMvに対応する音素条件付確率p(Cs|Cp)を得る。尚、音素正解確率変換関数h(CMv)を計算する処理については、後述する。
次に制御部110は、ステップS605で取得した単語条件付確率p(Cw1|Cw)と、ステップS610で取得した音節条件付確率p(Cw|Cs)と、ステップS704で取得した音素条件付確率p(Cs|Cp)とに基づいて、条件付確率p(Cw1|Cp)を求める(ステップS705)。例えば、制御部110は、数9に示されるように、信頼度を表す条件付確率p(Cw1|Cp)は、単語条件付確率p(Cw1|Cw)と音節条件付確率p(Cw|Cs)と音素条件付確率p(Cs|Cp)との積を信頼度とする。この条件付確率は、取得した第1位候補の単語列候補の信頼度を示す値である。
求めた条件付確率p(Cw1|Cp)が予め決められたしきい値p_th以上の場合(ステップS706;Yes)、制御部110は、ステップS602で取得した認識結果である単語列候補を受理する(ステップS707)。
一方、求めた条件付確率p(Cw1|Cp)が予め決められたしきい値p_thより小さい場合(ステップS706;No)、制御部110は、認識結果である単語列候補を棄却する(ステップS708)。
尚、本実施形態では、予め決められたしきい値p_thに基づいてステップS706で単語列候補を受理又は棄却する判定を行うが、単語列候補を受理又は棄却する判定はこの方法に限定されるものではない。すなわち、3つの条件付確率p(Cw1|Cw)、p(Cw|Cs)及びp(Cs|Cp)に基づいて、あるいは、これら3つの条件付確率と実質的に同等な値に基づいて、単語列候補を受理又は棄却する方法であればよい。
ステップS606で、他の単語列候補iについて単語正規化ゆう度CMw及び単語条件付確率p(Cwi|Cw)を求めた場合、制御部110は他に単語候補があると判定し(ステップS709;Yes)、当該他の単語列候補についても同様に条件付確率p(Cwi|Cp)を求めて、当該単語列候補を受理又は棄却する(ステップS705乃至S708を繰り返す)。
一方、ステップS606で、他の単語列候補iについて単語正規化ゆう度CMw及び単語条件付確率p(Cwi|Cw)を求めない場合、制御部110は他に単語列候補はないと判定し(ステップS709;No)、次のステップに進む。
制御部110は、受理された単語列候補がある場合(ステップS710;Yes)、当該単語列候補を正解の単語として認識結果を取得する(ステップS711)。例えば、ステップS710で、受理された単語列候補が1つである場合、当該単語列候補を最終的な認識結果とする。あるいは、ステップS710で受理された単語列候補が複数である場合、制御部110は、出力部114に接続されたモニタ等に単語列候補を表示させ、ユーザによる選択結果を入力部116に接続されたキーボード等の入力装置から取得して、ユーザの所望の単語列候補を選択してもよい。
一方、受理された単語列候補がない場合(ステップS710;No)、制御部110は、取得した音声の認識に失敗したことをユーザに通知する(ステップS712)。例えば、制御部110は、出力部114に接続されたモニタ等に単語列候補が無い旨のメッセージ等を表示させる。あるいは、例えば、出力部114に接続されたスピーカ等に単語列候補が無い旨の音声アナウンスを出力させてもよい。
次に、制御部110が単語正解確率変換関数f(CMw)と音節正解確率変換関数g(CMt)と音素正解確率変換関数h(CMv)とを計算する処理について、図8、図9及び図10のフローチャートを用いて説明する。
尚、単語正解確率変換関数f(CMw)と音節正解確率変換関数g(CMt)と音素正解確率変換関数h(CMv)とを計算する処理は、いずれも原理的には同様の処理である。そのため、以下の説明では、言語モデル(即ち、単語列言語モデル、音節列言語モデル又は音素列言語モデルのいずれか)を用いて認識(即ち、単語認識、音節認識又は音素認識のいずれか)を行い、対応する対数ゆう度(即ち、単語認識対数ゆう度、音節認識対数ゆう度又は音素認識対数ゆう度のいずれか)と、正規化ゆう度CMx(即ち、CMw、CMt又はCMvのいずれか)とから、確率変換関数(即ち、f(CMw)、g(CMt)又はh(CMv)のいずれか)を求める場合を例に説明する。
上述したように、確率変換関数は事前実験により決定され、上述の3つの方法のいずれかにより求められる。以下、それぞれ3つの方法について説明する。
(方法1)
まず、制御部110は、対象事象である音声V1と、対立事象である音声V2とを取得する(図8、ステップS801)。尚、対象事象である音声V1や対立事象である音声V2の数は、なるべく多くのサンプル数であることが望ましい。
制御部110は、対象事象である音声V1について対応する言語モデル(即ち、単語列言語モデル、音節列言語モデル又は音素列言語モデル)を用いて認識(即ち、単語認識、音節認識又は音素認識)を行い、対数ゆう度(即ち、単語認識対数ゆう度、音節認識対数ゆう度又は音素認識対数ゆう度)を求める(ステップS802)。
同様に、制御部110は、対立事象である音声V2について対応する言語モデル(即ち、単語列言語モデル、音節列言語モデル又は音素列言語モデル)を用いて認識(即ち、単語認識、音節認識又は音素認識)を行い、対数ゆう度(即ち、単語認識対数ゆう度、音節認識対数ゆう度又は音素認識対数ゆう度)を求める(ステップS803)。
次に制御部110は、対象事象である音声V1の対数ゆう度から、数2を用いて正規化ゆう度を求め、記憶部113に記憶する(ステップS804)。
同様に、制御部110は、対立事象である音声V2の対数ゆう度から、数2を用いて正規化ゆう度を求め、記憶部113に記憶する(ステップS805)。
次に制御部110は、対象事象である音声V1の正規化ゆう度と、対応する正規化ゆう度を持つサンプル数との関係を示す、図3(a)に示されるような頻度分布を得る(ステップS806)。
同様に、制御部110は、対立事象である音声V2の正規化ゆう度と、対応する正規化ゆう度を持つサンプル数との関係を示す、図3(b)に示されるような頻度分布を得る(ステップS807)。
更に制御部110は、数3を用いて、正規化ゆう度の各点に対応する条件付確率を求める(ステップS808)。
制御部110は、得られた離散的な条件付確率分布から、図3(c)に示されるような連続的な条件付確率分布を求める(ステップS809)。例えば、上述したように、各区間に対して条件付確率p(n)をプロットして得られる分布において隣り合う区間の2点を結ぶ直線を求めて、近似的に連続した条件付確率分布を得る。得られた連続的な条件付確率分布は、正規化ゆう度から条件付確率を求めるための確率変換関数である。
制御部110は、記憶部113の所定の場所に確率変換関数を格納し(ステップS810)、条件付確率計算処理を終了する。
(方法2)
方法2が方法1と異なる点は、確率分布ではなく累積確率分布を用いる点である。
まず、制御部110は、対象事象である音声V1と、対立事象である音声V2とを取得する(図9、ステップS901)。尚、方法1と同様に、対象事象である音声V1や対立事象である音声V2の数はそれぞれ1つとは限らず、複数であることが望ましい。
制御部110は、対象事象である音声V1について対応する言語モデルを用いて認識を行い、頻度分布を総サンプル数で正規化して確率分布を求める(ステップS902)。
同様に、制御部110は、対立事象である音声V2について対応する言語モデルを用いて認識を行い、頻度分布を総サンプル数で正規化して確率分布を求める(ステップS903)。
次に制御部110は、対象事象の確率分布を正規化ゆう度の正方向に累積し、図4(a)に示すような累積確率分布を得る(ステップS904)。
同様に、制御部110は、対立事象の確率分布を正規化ゆう度の負の方向に累積し、図4(b)に示すような累積確率分布を得る(ステップS905)。
更に制御部110は、数3を用いて、正規化ゆう度の各点に対応する条件付確率を求める(ステップS906)。
制御部110は、得られた離散的な条件付確率分布から、図4(c)に示されるような連続的な条件付確率分布を求める(ステップS907)。例えば、上述したように、条件付確率分布の全体を、数4に示されるようなシグモイド関数あるいは直線近似を用いて近似し、連続した条件付確率分布を得る。得られた連続的な条件付確率分布は、正規化ゆう度から条件付確率を求めるための確率変換関数である。
制御部110は、記憶部113の所定の場所に確率変換関数を格納し(ステップS908)、条件付確率計算処理を終了する。
(方法3)
方法3が方法2と異なる点は、対象事象の累積確率分布のみを用いる点である。
まず、制御部110は、対象事象である音声V1を取得する(図10、ステップS1001)。尚、方法2と同様に、対象事象である音声V1の数は1つとは限らず、複数であることが望ましい。
制御部110は、対象事象である音声V1について対応する言語モデルを用いて認識を行い、頻度分布を総サンプル数で正規化して図5(a)に示すような確率分布を求める(ステップS1002)。
次に制御部110は、対象事象の確率分布を正規化ゆう度の正方向に累積し、図5(b)に示すような累積確率分布を得る(ステップS1003)。
更に制御部110は、各正規化ゆう度における対象事象の累積確率を、当該正規化ゆう度における条件付確率とする(ステップS1004)。
制御部110は、得られた離散的な条件付確率分布から、図5(c)に示されるような連続的な条件付確率分布を求める(ステップS1005)。例えば、上述したように、条件付確率分布の全体を、数4に示されるようなシグモイド関数あるいは直線近似を用いて近似し、連続した条件付確率分布を得る。得られた連続的な条件付確率分布は、正規化ゆう度から条件付確率を求めるための確率変換関数である。
制御部110は、記憶部113の所定の場所に確率変換関数を格納し(ステップS1006)、条件付確率計算処理を終了する。
このように、制御部110は、事前実験により確率変換関数を決定し、記憶部113に記憶する。決定された確率変換関数は、上述した音声認識処理において、正規化ゆう度から条件付確率を求めるために用いられる。
以上説明したように、本発明によれば、非言語、未知語、競合語が混在する条件下で精度よく音声認識を行うために好適な音声認識装置及びプログラムを提供することができる。
音声認識装置の構成を説明するブロック図である。 制御部が実行する音声認識処理を説明する図である。 単語正解確率変換関数(又は、音節正解確率変換関数、音素正解確率変換関数)を求める方法(方法1)を説明する図である。 単語正解確率変換関数(又は、音節正解確率変換関数、音素正解確率変換関数)を求める他の方法(方法2)を説明する図である。 単語正解確率変換関数(又は、音節正解確率変換関数、音素正解確率変換関数)を求める他の方法(方法3)を説明する図である。 制御部が実行する音声認識処理を説明するフローチャートである。 制御部が実行する音声認識処理を説明するフローチャート(続き)である。 制御部が実行する条件付確率計算処理(方法1)を説明するフローチャートである。 制御部が実行する条件付確率計算処理(方法2)を説明するフローチャートである。 制御部が実行する条件付確率計算処理(方法3)を説明するフローチャートである。
符号の説明
100 音声認識装置
110 制御部
111 RAM
112 ROM
113 記憶部
114 出力部
115 I/F
116 入力部
117 システムバス
121 ネットワーク
201 単語認識部
202 単語列言語モデル格納部
203 単語正規化ゆう度計算部
204 単語正規化ゆう度格納部
205 単語正解確率変換関数決定部
206 単語正解確率変換関数格納部
207 単語条件付確率計算部
208 対話管理部
211 音節認識部
212 音節列言語モデル格納部
213 音節正規化ゆう度計算部
214 音節正規化ゆう度格納部
215 音節正解確率変換関数決定部
216 音節正解確率変換関数格納部
217 音節条件付確率計算部
221 音素認識部
222 音素列言語モデル格納部
223 音素正規化ゆう度計算部
224 音素正規化ゆう度格納部
225 音素正解確率変換関数決定部
226 音素正解確率変換関数格納部
227 音素条件付確率計算部

Claims (6)

  1. 音声を認識して複数の音素列候補とゆう度とを求める音素認識部と、
    前記音素認識部により求められたゆう度に基づいて、前記音声が音素列のいずれかであると仮定した場合に前記音声が音節列のいずれかである割合を示す第1の正規化ゆう度を求め、前記音声が前記音素列のいずれかである場合に前記音声が前記音節列のいずれかである第1の確率を求める第1の確率取得部と、
    前記音声を認識して複数の音節列候補とゆう度とを求める音節認識部と、
    前記音節認識部により求められたゆう度に基づいて、前記音声が前記音節列のいずれかであると仮定した場合に前記音声が既知の単語列のいずれかである割合を示す第2の正規化ゆう度を求め、前記音声が前記音節列のいずれかである場合に前記音声が前記既知の単語列のいずれかである第2の確率を求める第2の確率取得部と、
    前記音声を認識して複数の単語列候補とゆう度とを求める単語認識部と、
    前記単語認識部により求められた前記ゆう度に基づいて、前記音声が前記既知の単語列のいずれかであると仮定した場合に前記音声が前記単語列候補の中で最も大きいゆう度を持つ第1位の単語列候補である割合を示す第3の正規化ゆう度を求め、前記音声が前記既知の単語列のいずれかである場合に前記音声が前記第1位の単語列候補である第3の確率を求める第3の確率取得部と、
    前記第1の確率と前記第2の確率と前記第3の確率とに基づいて、前記第1位の単語列候補を棄却する判定部と、
    を備えることを特徴とする音声認識装置。
  2. 音素列に関するデータを格納する音素列言語モデル格納部と、
    音節列に関するデータを格納する音節列言語モデル格納部と、
    単語列に関するデータを格納する単語列言語モデル格納部と、
    前記第1の確率取得部により求められる第1の正規化ゆう度と、前記音声が前記音素列言語モデル格納部に格納された音素列のいずれかである場合に前記音声が前記音節列言語モデル格納部に格納された音節列のいずれかである第1の確率との関係を示す第1の関数を格納する第1の関数格納部と、
    前記第2の確率取得部により求められる第2の正規化ゆう度と、前記音声が前記音節列言語モデル格納部に格納された音節列のいずれかである場合に前記音声が前記単語列言語モデル格納部に格納された単語列のいずれかである第2の確率との関係を示す第2の関数を格納する第2の関数格納部と、
    前記第3の確率取得部により求められる第3の正規化ゆう度と、前記音声が前記単語列候補のいずれかである場合に前記音声が前記第1位の単語列候補である第3の確率との関係を示す第3の関数を格納する第3の関数格納部と、を更に備え、
    前記第1の確率取得部は、前記第1の正規化ゆう度と、前記第1の関数格納部に格納される第1の関数とに基づいて、前記第1の確率を求め、
    前記第2の確率取得部は、前記第2の正規化ゆう度と、前記第2の関数格納部に格納される第2の関数とに基づいて、前記第2の確率を求め、
    前記第3の確率取得部は、前記第3の正規化ゆう度と、前記第3の関数格納部に格納される第3の関数とに基づいて、前記第3の確率を求める
    ことを特徴とする、請求項1に記載の音声認識装置。
  3. 前記第1、第2又は第3の確率取得部により求められる第1、第2又は第3の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数と、前記対象事象に対応する対立事象のサンプル音声数とを求め、更に、
    前記各区間ごとに前記音素列、音節列又は単語列に該当するサンプル音声数の総サンプル数に対する割合を求め、更に、
    各区間に対して前記割合をプロットして得られる分布において隣り合う区間の2点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第1、第2又は第3の関数格納部に格納する関数決定部
    を更に備えることを特徴とする、請求項2に記載の音声認識装置。
  4. 前記第1、第2又は第3の確率取得部により求められる第1、第2又は第3の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数の割合と、前記対象事象に対応する対立事象のサンプル音声数の割合とを求め、更に、
    前記各区間ごとに前記音素列、音節列又は単語列に該当するサンプル音声数を累積した値の総サンプル数に対する累積割合を求め、更に、
    各区間に対して前記累積割合をプロットして得られる分布において隣り合う区間の2点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第1、第2又は第3の関数格納部に格納する関数決定部
    を更に備えることを特徴とする、請求項2に記載の音声認識装置。
  5. 前記第1、第2又は第3の確率取得部により求められる第1、第2又は第3の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数の割合を求め、更に、
    前記各区間ごとに前記音素列、音節列又は単語列に該当する対象事象のサンプル音声数を累積した値の総サンプル数に対する累積割合を求め、更に、
    前記各区間に対して前記累積割合をプロットして得られる分布において隣り合う区間の2点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第1、第2又は第3の関数格納部に格納する関数決定部
    を更に備えることを特徴とする、請求項2に記載の音声認識装置。
  6. コンピュータを、
    音声を認識して複数の音素列候補とゆう度とを求める音素認識部、
    前記音素認識部により求められたゆう度に基づいて、前記音声が音素列のいずれかであると仮定した場合に前記音声が音節列のいずれかである割合を示す第1の正規化ゆう度を求め、前記音声が前記音素列のいずれかである場合に前記音声が前記音節列のいずれかである第1の確率を求める第1の確率取得部、
    前記音声を認識して複数の音節列候補とゆう度とを求める音節認識部、
    前記音節認識部により求められたゆう度に基づいて、前記音声が前記音節列のいずれかであると仮定した場合に前記音声が既知の単語列のいずれかである割合を示す第2の正規化ゆう度を求め、前記音声が前記音節列のいずれかである場合に前記音声が前記既知の単語列のいずれかである第2の確率を求める第2の確率取得部、
    前記音声を認識して複数の単語列候補とゆう度とを求める単語認識部、
    前記単語認識部により求められた前記ゆう度に基づいて、前記音声が前記既知の単語列のいずれかであると仮定した場合に前記音声が前記単語列候補の中で最も大きいゆう度を持つ第1位の単語候補である割合を示す第3の正規化ゆう度を求め、前記音声が前記既知の単語列のいずれかである場合に前記音声が前記第1位の単語列候補である第3の確率を求める第3の確率取得部、
    前記第1の確率と前記第2の確率と前記第3の確率とに基づいて、前記第1位の単語列候補を棄却する判定部
    として機能させることを特徴とするプログラム。
JP2005262231A 2005-09-09 2005-09-09 音声認識装置及びプログラム Active JP4610451B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005262231A JP4610451B2 (ja) 2005-09-09 2005-09-09 音声認識装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005262231A JP4610451B2 (ja) 2005-09-09 2005-09-09 音声認識装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007072393A true JP2007072393A (ja) 2007-03-22
JP4610451B2 JP4610451B2 (ja) 2011-01-12

Family

ID=37933857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005262231A Active JP4610451B2 (ja) 2005-09-09 2005-09-09 音声認識装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4610451B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075249A (ja) * 2007-09-19 2009-04-09 Ntt Data Corp 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP2016042298A (ja) * 2014-08-18 2016-03-31 株式会社豊田中央研究所 事故情報算出装置、及びプログラム
WO2016147292A1 (ja) * 2015-03-16 2016-09-22 三菱電機株式会社 音声認識装置、音声認識方法および音声認識プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004177551A (ja) * 2002-11-26 2004-06-24 Matsushita Electric Ind Co Ltd 音声認識用未知発話検出装置及び音声認識装置
JP2005181386A (ja) * 2003-12-16 2005-07-07 Mitsubishi Electric Corp 音声対話処理装置及び音声対話処理方法並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004177551A (ja) * 2002-11-26 2004-06-24 Matsushita Electric Ind Co Ltd 音声認識用未知発話検出装置及び音声認識装置
JP2005181386A (ja) * 2003-12-16 2005-07-07 Mitsubishi Electric Corp 音声対話処理装置及び音声対話処理方法並びにプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG199800730002, 渡辺 隆夫 Takao WATANABE, "音節認識を用いたゆう度補正による未知発話のリジェクション Unknown Utterance Rejection Using Likeliho", 電子情報通信学会論文誌 (J75−D−II) 第12号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRO, 19921225, p.2002−2009, JP, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *
CSNG200100240025, 北岡 教英 Norihide KITAOKA, "認識結果の正解確率に基づく信頼度とリジェクション Confidence Measure and Rejection based on Correct", 情報処理学会研究報告 Vol.99 No.108 IPSJ SIG Notes, 19991221, p.175−180, JP, 社団法人情報処理学会 Information Processing Socie *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075249A (ja) * 2007-09-19 2009-04-09 Ntt Data Corp 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP2016042298A (ja) * 2014-08-18 2016-03-31 株式会社豊田中央研究所 事故情報算出装置、及びプログラム
WO2016147292A1 (ja) * 2015-03-16 2016-09-22 三菱電機株式会社 音声認識装置、音声認識方法および音声認識プログラム
JPWO2016147292A1 (ja) * 2015-03-16 2017-06-22 三菱電機株式会社 音声認識装置、音声認識方法および音声認識プログラム

Also Published As

Publication number Publication date
JP4610451B2 (ja) 2011-01-12

Similar Documents

Publication Publication Date Title
JP5282737B2 (ja) 音声認識装置および音声認識方法
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP4786384B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
CN110706714B (zh) 说话者模型制作系统
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP6866715B2 (ja) 情報処理装置、感情認識方法、及び、プログラム
KR20100115093A (ko) 음성 검출 장치 및 방법
CN111243599A (zh) 语音识别模型构建方法、装置、介质及电子设备
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP4610451B2 (ja) 音声認識装置及びプログラム
JP3444108B2 (ja) 音声認識装置
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
JP4259100B2 (ja) 音声認識用未知発話検出装置及び音声認識装置
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2009116075A (ja) 音声認識装置
Savchenko et al. Optimization of gain in symmetrized itakura-saito discrimination for pronunciation learning
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP4798606B2 (ja) 音声認識装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101012

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131022

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4610451

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350