JP3886024B2 - 音声認識装置及びそれを用いた情報処理装置 - Google Patents
音声認識装置及びそれを用いた情報処理装置 Download PDFInfo
- Publication number
- JP3886024B2 JP3886024B2 JP31791997A JP31791997A JP3886024B2 JP 3886024 B2 JP3886024 B2 JP 3886024B2 JP 31791997 A JP31791997 A JP 31791997A JP 31791997 A JP31791997 A JP 31791997A JP 3886024 B2 JP3886024 B2 JP 3886024B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- data
- unit
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 26
- 238000011867 re-evaluation Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 description 56
- 238000000034 method Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 25
- 238000001228 spectrum Methods 0.000 description 18
- 230000007704 transition Effects 0.000 description 17
- 238000013500 data storage Methods 0.000 description 13
- 238000007405 data analysis Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識装置及びそれを用いた情報処理装置に関する。
【0002】
【従来の技術】
音声認識とは、音声波に含まれる情報の中で最も基本的な意味内容に関する情報を、電子計算機、電子回路などによって自動的に抽出し、決定する意味内容に関する認識や、音声波に含まれる個人性情報を抽出する話者認識をいう。
【0003】
音声を自動的に認識する装置については古くから研究が行われているが、最近では、音声によって機械と対話するための音声入力装置が実現され、今後の進歩が期待されている。
【0004】
従来の音声認識装置の構成を図22に示す。同図に示された従来の音声認識装置は、音声入力部2201、音声区間データ作成部2202、音声区間データ処理部2203、音声認識辞書格納部2204を備えている。
【0005】
音声入力部2201としては、マイクロホン等の入力装置が用いられる。
音声区間データ作成部2202は、音声入力部2201から入力された音声データから音声区間の検出を行い音声区間データを作成する。音声区間の検出の詳細については後述する。
【0006】
音声区間データ処理部2203は、音声区間データ作成部2202によって作成された音声区間データを分析し、その意味内容を認識する。従来の意味内容の認識方法については、「ディジタル音声処理」(古井 貞煕 著、東海大学出版会)に詳しく記載されているが、一般には、音声認識用の辞書として、音声認識辞書格納部2204に音素辞書と単語辞書とを備える。音声認識においては、入力音声と標準パターンの短時間スペクトル同士の距離又は類似度を認識の判断の基礎として音声素片を認識し、認識された音声素片列を単語辞書とマッチングすることによりその意味内容を認識する。
【0007】
【発明が解決しようとする課題】
しかしながら、上記従来の音声認識装置においては、音声データの誤認識を修正することが容易でないという問題点を有していた。
【0008】
即ち、人間が行う現実の音声認識では、最初は正確に認識できなかった音声データを、その後の会話内容等によって逐次修正して理解し、それに伴い行動を修正するといったこともあるが、上記従来の音声認識装置では、一度誤って認識された音声の意味内容を容易に修正することができない。従って、例えば、音声によってコマンドを入力するような装置において、音声データの誤認識によって誤ったコマンドが入力されてしまった場合等にその動作を修正することは難しく、音声認識の適用範囲を狭くする原因となっていた。
【0009】
本発明は上記の問題点に鑑み、より広い範囲に適用することが可能な音声認識装置及びそれを用いた情報処理装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
前記目的を達成するため、本発明の音声認識装置は、音声データを記憶する記憶手段と、音声認識の結果を利用する上位システムからの要求を受けて、前記記憶手段に記憶されている音声データを再評価する再評価手段とを備えることを特徴とする。
【0011】
ここで、前記音声認識装置は、音声データから音声区間データを切り出す音声区間データ作成手段を備え、前記記憶手段は、前記音声区間データ作成手段により作成された音声区間データを記憶することができる。
【0012】
また、前記記憶手段は、前記音声区間データ作成手段により作成された音声区間データを複数セット記憶する複数のデータスロットを備えることが好ましい。複数のデータスロットに音声データを格納しておくと、前記再評価手段による再評価の処理効率を向上させることができるからである。
【0013】
さらに、前記音声認識装置は、前記音声区間データ作成手段を複数有し、前記記憶手段は、それぞれの音声区間データ作成手段ごとに、音声区間データを複数セット記憶するデータスロットを備えることもできる。そのような構成としておくと、音声を入力する例えばマイクロホンが複数存在する場合でも、それぞれのマイクロホンから入力される音声データについて、それぞれ再評価を行うことが可能となる。
【0014】
また、前記音声認識装置はさらに、前記記憶手段に記憶されている音声データから、音声パワーを算出するパワー算出手段を備え、前記再評価手段は、前記パワー算出手段により算出された音声パワーが所定の範囲外である場合に、当該音声データを再評価しないようにすることが好ましい。正常な音声認識ができないような音声データを、再評価の対象から除外することにより、音声認識の認識率をより向上させることが可能となるからである。
【0015】
また、前記音声認識装置はさらに、前記音声データから話者の性別を判定する性別認識手段と、前記性別認識手段による判定結果に基づき、音素認識に用いる辞書を切り替える音素認識辞書切替手段とを備えることが好ましい。性別により音素認識辞書を切り替えることにより、さらに認識率を向上させることができるからである。
【0016】
また、前記音声認識装置はさらに、前記音声データから話者の性別を判定する性別認識手段と、前記性別認識手段による判定結果に基づき、単語認識に用いる辞書を切り替える単語認識辞書切替手段とを備えることが好ましい。性別により通常用いる単語が異なることから、性別によって単語認識辞書を切り替えることにより、さらに認識率を向上させることができるからである。
【0017】
もちろん、前記性別認識手段による判定結果に基づき、音素認識に用いる辞書を切り替える音素認識辞書切替手段と、単語認識に用いる辞書を切り替える単語認識辞書切替手段との双方を備えることも可能である。
【0018】
また、前記音声認識装置はさらに、前記音声データから話者を判定する話者認識手段を備えることもできる。
また、本発明の情報処理装置は、入力を受け付ける入力受付手段を備える情報処理装置であって、前記入力受付手段として請求項1から9のいずれかに記載の音声認識装置を用いる。音声によりコマンドの入力を行うことが可能な情報処理装置において、本発明の音声認識装置を用いると、音声データの再評価を行うことにより、音声データの誤認識を逐次修正しながら動作させることが可能となり、無駄な処理を軽減することが可能となる。
【0019】
また、前記音素認識辞書切替手段を有する音声認識装置を用いる情報処理装置においては、前記音素認識辞書切替手段により、音素認識辞書が切り替えられた際に、前記記憶手段に記憶されている音声データの再評価を要求するようにすることが好ましい。音素認識辞書が切り替えられることにより、一般的に認識率は向上するが、その切替の機会に過去の音声データを再評価することにより、音声データの誤認識が見つかることもあるからである。
【0020】
また、前記単語認識辞書切替手段を有する音声認識装置を用いる情報処理装置において、前記単語認識辞書切替手段により、単語認識辞書が切り替えられた際に、前記記憶手段に記憶されている音声データの再評価を要求するようにすることも好ましい。
【0021】
さらに、前記音素認識辞書切替手段と、前記単語認識辞書切替手段との双方を有する音声認識装置を用いる情報処理装置では、前記音素認識辞書切替手段により音素認識辞書が切り替えられた際、又は前記単語認識辞書切替手段により単語認識辞書が切り替えられた際に、前記記憶手段に記憶されている音声データの再評価を要求するようにすることも好ましい。
【0022】
また、本発明の記憶媒体は、音声データから、音声区間データを切り出す切り出しステップと、前記切り出しステップにおいて切り出された音声区間データを、複数のデータスロットに順次格納する格納ステップと、音声認識の結果を利用する上位システムから、前記音声区間データの再評価の要求を受け付ける要求受付ステップと、前記要求に従って、音声区間データの再評価を行う再評価ステップとを実行するプログラムを記憶したコンピュータで読み取り可能な記憶媒体である。
【0023】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照しながら説明する。
図1は、本発明の一実施の形態に係る音声認識装置の構成を示す機能ブロック図である。
【0024】
同図に示されるように、本実施の形態の音声認識装置は、音声入力部101、波形データ作成部102、波形データ記憶部103、音声認識部104、音素認識辞書格納部105、単語認識辞書格納部106、話者認識辞書格納部107を備えており、本発明の音声認識装置による音声認識の結果を利用する上位システム108が、音声認識部104から音声認識の結果を受け取る構成となっている。
【0025】
音声入力部101としては、マイクロホン等、音声入力が可能な入力装置を用いることができる。
波形データ作成部102は、音声入力部101から入力された音声データについて音声区間の切り出しを行い、波形データを作成する。
【0026】
尚、本実施の形態では、波形データ記憶部103の記憶領域1032に、波形データの形式で格納することとしているため、音声区間の切り出しのみを行うが、記憶領域1032へのデータの格納方式によっては、音声区間の切り出しの後、格納方式に対応する形式に変換する処理を行うようにしてもよい。その場合は、本実施の形態では後述の波形データ分析部1041が行う処理の一部を波形データ作成部102が行うこともある。
【0027】
図2は、本実施の形態の波形データ作成部102の詳細な構成を示す機能ブロック図である。
同図に示されるように、波形データ作成部102は、音声データ入力部201、波形データリングバッファ202、フィルタ処理部203、パワー計算部204、ノイズレベル学習部205、単語区間検出部206、区間検出閾値テーブル格納部207を備える。
【0028】
音声データ入力部201は、音声入力部101より入力された音声データについて、所定の間隔でサンプリングを行い、その結果を波形データリングバッファ202に順次格納する。図3は、波形データリングバッファ202の構成の一例を示す図である。同図に示されるように、本実施の形態では、全長512ワード(1ワード=4バイト)分のバッファを確保し、サンプリングされたデータを順次格納する。本実施の形態では、256ポイント(窓幅)のデータが取り込まれた時点で1フレーム分の処理を行う。同図に示されるフレームシフト(180ポイント)とは、窓幅256ポイントのうち、フレームシフト180ポイントを除いた部分は、次のフレームの窓幅に含まれることを意味しており、一部を重複させることにより、単語が途中で区切れるのを防止している。なお、フレームシフトは必ずしも180ポイントでなくてもよい。
【0029】
フィルタ処理部203は、波形データリングバッファ202に格納された波形データに対して150HzのHPF(ハイパスフィルタ)で高域強調を行う。HPFとしては、4次のIIRチェビシェルフィルタを用いる。図4に、本実施の形態のHPFの特性を示す。また、高域強調は、z変換である1−z-1の一次差分を用いる。
【0030】
パワー計算部204は、音声パワー(POW)の計算を行う。音声パワーの計算は窓波形に対する相対的な値として以下の数1に従って計算する。ここでいう窓波形は矩形窓である。
【0031】
【数1】
【0032】
以下、上記数1に示される音声パワーの計算について、より詳細に説明する。まず、i番目の窓の波形{Si}に対するログパワーlogpow(s)は、下記の数2で表される。
【0033】
【数2】
【0034】
従って、上記音声パワー(POW)は、下記の数3に従って算出することができる。
【0035】
【数3】
【0036】
上記数3において、yは窓処理後の波形を表し、hは窓自体の波形を表す。ここで、窓自体の波形のログパワーlogpow(h)は、一定であるので、予め計算しておくことができる。一方、上記の窓処理後のログパワー1000*log10(Σyi2)については、下記の数4に従って計算することができる。iは窓のi番目のポイントであり、ここでは1〜256である。
【0037】
【数4】
【0038】
上記数4における301*n及び301*log2(c)については、n及びcの値ごとに予め計算し、テーブルに格納しておくことが可能である。なお、本実施の形態では、cは小数点以下5ビットの精度としている。
【0039】
ノイズレベル学習部204は、環境雑音の変動に対処するため一定間隔ごとにノイズレベル(以下、「nsl」と表記する場合もある。)の学習を行う。ここで、ノイズレベルとは、無音区間のパワーのことをいう。ノイズレベル学習部204は、一定期間でもっとも出現頻度の高いパワー値をその期間のノイズレベルとする。学習の際には、学習対象の100フレームのうちパワーの小さい下位8割のデータからのみノイズレベルを学習する。これは無音区間のみのデータをより正確に学習するためである。また、学習されたノイズレベルが一定値より小さい場合には、予め定めた最小値を学習値とする。尚、ここで学習されたノイズレベルは、後述の区間検出で用いる閾値(th1からth4)の決定に用いられる。当該閾値は、区間検出閾値テーブル格納部207に格納される。
【0040】
単語区間検出部205は、音声パワーが予め定めた閾値を超えた部分を音声区間として検出する。その際に区間検出をより正確に行うため、各入力フレームごとに前回の状態を参照し、これに応じて4種の閾値と音声パワーとの比較を行う。以下、単語区間検出の方法について詳細に説明する。
【0041】
図5は、単語区間検出の一例を示す図である。
同図に示されるth1からth4までの4つの閾値と音声パワーとの比較を行うことにより、音声区間の検出を行う。ここで、閾値th1からth4は、前述の如くノイズレベル(nsl)から算出される値を用いる。本実施の形態では、th1=nsl+200、th2=nsl+600、th3=nsl+500、th4=nsl+600としている。
【0042】
以下、図6に示す単語区間検出の状態遷移図も参照しながら、図5に示されるAからHまでの各フレームについて、その内容を説明する。
フレームAにおいては、音声パワーが閾値th1を上回ることにより状態1への遷移が発生している。これは、単語区間の語頭候補が検出されたことを意味するものと考える。しかし、図5の例では、音声パワーが閾値th2を上回ることなく、フレームBにおいて、再び閾値th1より下に落ちてしまっているので、状態1であった区間が単語区間と判定されることなく、再び状態0に戻っている。
【0043】
これは、図6に示されるように、状態0において、音声パワーが閾値th1を上回った場合には状態1に遷移すること、及び、状態1において、音声パワーが閾値th1以下になった場合、又は状態1である時間の長さ(wd)が単語最長値wdmaxを上回った場合には、単語を区切るために、状態0に戻ることが規定されているからである。ここで、単語最大長wdmaxとは、一つの単語が発音されるであろう最大の時間の長さとして、規定しておく値をいう。単語最長値wdmaxは予め設定しておく。尚、本実施の形態では、wdmaxは140フレーム分の時間(=約2100ms)としている。
【0044】
尚、図6に示されるように、状態0において音声パワーが閾値th1以下であった場合には、そのまま状態0で継続する。
図5に戻って、フレームCにおいて、再度、音声パワーが閾値th1を上回ったことが検出され、状態1に遷移する。図6に示されるように状態1では、音声パワーが閾値th1を上回り、閾値th2以下であった場合には、状態1でありつづけるが、音声パワーが閾値th2を上回った場合には、状態2へと遷移する。
【0045】
さらに、図5の例では、フレームDにおいて音声パワーが閾値th2を上回っているため、状態2に遷移している。状態2とは、音声区間と認識された状態である。
【0046】
状態2では、音声パワーが閾値th3以上である場合には、状態2でありつづけるが、音声パワーが閾値th3を下回った場合には状態3へと遷移する。また、状態2での時間の長さ(wd)が、前述の単語最長値wdmaxを上回った場合には、状態0へと遷移する。
【0047】
図5の例では、フレームEにおいて音声パワーが閾値th3を下回ったため、状態3へと遷移している。状態3とは、単語の終了が検出されたかもしれないという状態を表す。もっとも、図6に示されるように、状態3において音声パワーが再度閾値th4を上回った場合には、それまでに、後述の条件により状態0へと遷移していなければ、単語の終了が検出されたわけではないものと判定し、再び状態2へと遷移する。
【0048】
状態3から状態0へと遷移するのは、音声パワーが閾値th3を下回ることによって状態2から状態3へと遷移した状態であって、音声パワーが閾値th1を下回った無音期間の長さ(sl)が無音最長値(slmax)を上回った場合、状態2での時間の長さ(wd)が単語最短値(wdmin)を下回っていた場合、及び状態2での時間の長さ(wd)が単語最長値(wdmax)を上回った場合である。
【0049】
無音最長値slmax及び単語最短値wdminについても、予め設定しておく必要がある。無音最長値slmaxの意味については、後述する。単語最短値wdminとは、一つの単語が発音されるであろう最小の時間の長さとして、規定しておく時間をいう。即ち、状態2での時間の長さ(wd)が、単語最短値(wdmin)を下回っていた場合には、状態2の部分は音声区間とは見なされない。なお、本実施の形態では単語最短値(wdmin)としては、18フレーム分の時間(=約270ms)が、また、無音最長値(slmax)としては、20フレーム分の時間(=約300ms)が規定されている。状態0へと遷移するまでに音声パワーが閾値th4以下である場合には、前述の三つのいずれかの条件を満足させない限りは、状態3でありつづける。
【0050】
図5の例では、状態3から状態0に遷移するまでに、再度フレームFにおいて音声パワーが閾値th2を上回っているため、状態3における無音状態が単語中の無音部であると判定し、再度状態2へと遷移している。ここで、単語中の無音部とは、例えば「北海道」の如き促音を含む単語において発生する、単語の中にもかかわらず音声が途切れる部分をいう。上述の如く、無音最長値(slmax)として、20フレーム分の時間が規定されているのは、それだけの時間が経過する前に再び音声パワーが上昇した場合には、単語中の無音部であると判定することを意味する。
【0051】
図5の例では、フレームGにおいて、再度音声パワーが閾値th3を下回ることにより、状態3へと遷移しており、その後、状態3での長さが無音最長値(slmax)を上回ったことにより、フレームHにおいて状態0へと遷移している。
【0052】
本実施の形態の音声認識装置は、最終的にフレームCからフレームGまでの間を単語区間と判定し、単語区間の切り出しを行う。
以上に詳細に説明したように、波形データ作成部102において切り出された波形データは、波形データ記憶部103に格納される。
【0053】
波形データ記憶部103は、波形データ書き込み部1031、記憶領域1032、波形データ読み出し部1033から構成される。
波形データ書き込み部1031は、波形データ作成部102で切り出された波形データを記憶領域1032に書き込むインターフェース部分である。また、波形データ読み出し部1033は、記憶領域1032から波形データを読み出し、音声認識部104に送るインターフェース部分である。
【0054】
図7は、本実施の形態における記憶領域1032の構成の一例を示す図である。同図に示されるように、本実施の形態では、切り出された波形データを格納する領域として10個のデータスロットを備えている。また、一個のデータスロットの大きさは64キロバイトとしている。これは、一単語最大2秒間と仮定し、10単語分の情報を保持するとした場合の例であるが、領域の大きさは特に限定されない。また、データスロットの形式で格納した方が処理効率は良くなるが、データスロット以外の形式でも実施することは可能である。なお、本実施の形態では、10番目のデータスロットにデータを格納した後は、再度、1番目のデータスロットに戻って、循環してデータを格納する。
【0055】
音声認識部104は、波形データ記憶部103から読み出した波形データを分析し、意味内容の認識、話者認識等を行う。認識結果は、上位システム108により利用される。
【0056】
ここで、本実施の形態の音声認識装置の音声認識部104は、音声入力部101から入力された最新の音声データを逐次分析して、認識結果を上位システム108に送る他、上位システム108の指示に従って、波形データ記憶部103に格納されている過去の音声データの再評価を行う。
【0057】
図1に示したように、本実施の形態の音声認識部104は、波形データ分析部1041、話者認識部1042、性別認識部1043、内容認識部1044、パワー認識部1045、音素認識辞書切替部1046、単語認識辞書切替部1047を備えている。
【0058】
波形データ分析部1041は、波形データ読み出し部1033を介して波形データ記憶部103から読み出した波形データを分析し、各々の認識部に送る。
図8は、本実施の形態の波形データ分析部1041の詳細な構成を示す機能ブロック図である。同図に示されるように、波形データ分析部1041は、窓処理部801、FFT部802、ノイズパターン学習部803、サブトラクション部804、メルスペクトル計算部805、メルスペクトル格納部806、音素認識部807を備えている。
【0059】
波形データ読み出し部1033を介して読み出された波形データは、まず、窓処理部801へと送られる。
窓処理部801は、読み出された波形データに窓波形を乗じる。ここでの窓関数(hi)としては、下記の数5に示すハミング窓を用いる。なお、同式において使用されている0.56及び0.44の数値は、窓の形状によって異なる。
【0060】
【数5】
【0061】
窓処理後の波形データは、FFT部802がFFT処理を行う際に利便であるように内部RAM等の記憶手段に格納する。
FFT部802は、FFT(高速フーリエ変換)処理を行う。
【0062】
FFT処理の方法については、公知の方法(例えば、「ディジタル信号処理」(岩田 彰 著、コロナ社)に開示されている方法)が利用できるので、ここでの詳細な説明は省略する。FFT処理の結果として得られたリニアスペクトルパワー(以下、「linear-spc-pow」と表す場合もある。)が、その後の計算に用いられる。
【0063】
ノイズパターン学習部803は、無音区間のスペクトルパターンを一定期間ごとに学習する。本実施の形態では、当該一定期間を10フレーム分の時間(=約150ms)に設定している。
【0064】
サブトラクション部804は、環境雑音に対処するため、直前のノイズパターンを以下の数6に示すようにFFTの分析結果から減ずる。
【0065】
【数6】
【0066】
ここで、上記数6におけるxは、リニアスペクトルパワーの最小値としたい正の数字又はゼロであり、固定ではない。
最終的に求めるスペクトルは、以下の数7に示されるようなログパワーである。結果は、後の処理のためにRAMに格納しておく。
【0067】
【数7】
【0068】
メルスペクトル計算部805は、FFT部802で求められたスペクトルパワーを、メル尺度で16チャンネルに分割する。分割は、図9に示すテーブルに従って行う。
【0069】
さらに、各チャンネルについて、下記の数8に従って、チャンネルパワーの累積値であるmel-spcjを計算する。
【0070】
【数8】
【0071】
ここで、s(j)(j=1〜16)は、各チャンネルの最低周波数ポイント番号、e(j)は、各チャンネルの最高周波数ポイント番号、n(j)は、各チャンネルの周波数ポイント数である。なお、上記のe(j)及びn(j)は、テーブルとして保持しておく。次に正規化のため、16チャンネルの平均スペクトルとの差を求める。この処理は、下記の数9及び数10に従って行う。
【0072】
【数9】
【0073】
【数10】
【0074】
最終的な分析結果であるメルスペクトル(mel-spcj)は、メルスペクトル格納部806に格納される。メルスペクトル格納部806に格納されたメルスペクトルが、音素認識部807における音素認識の結果、音声データの集合として認識される。
【0075】
音素認識部807は、メルスペクトル格納部806に格納されたメルスペクトルに所定の処理を行い、音素認識辞書格納部105に格納された音素認識辞書の内容とマッチングすることにより、いかなる音素であるかを認識する。ここでの音素認識とは、例えば、発声された音声が、「あ」であるか、「い」であるか、「う」であるか等を認識する処理である。かかる処理の結果、最終的に切り出された波形データが音声の集合、即ち単語として認識される。音素認識処理の詳細については、既に公知の技術となっているので(例えば、電子情報通信学会論文誌D−II,Vol.J77−D−II,No.3,pp.475-482に開示されている。)、ここでの詳細な説明は省略する。
【0076】
以上に詳細に説明した波形データ分析部1041の処理によって得られたメルスペクトル及び音素認識の結果を用いて、各種の音声認識処理が行われる。以下、各認識部の処理内容について説明する。
【0077】
話者認識部1042は、話者認識を行う。ここで、話者認識とは、その音声が誰の発話であるかを認識する処理である。話者認識における比較処理に用いる辞書情報は、話者認識辞書格納部107に格納される。
【0078】
しかし、話者認識の方法等については、既に文献等に記載されている(例えば、"A ROBUST, SEGMENTAL METHOD FOR TEXT INDEPENDENT SPEAKER IDENTIFICATION" by Herbert Gish, Michael Schmidt, and Angela Mielke (Proc. ICASSP 94, April 1994, Adelaide, South Australia, pp.145-148)、"IDENTIFICATION OF SPEAKERS ENGAGED IN DIALOG" by George Yu, and Herbert Gish (Proc. ICASSP 93, April 1993, Minneapolis, Vol II, pp.383-386)、"Robust Discrimination in Automatic Speaker Identification" by Herbert Gish (Proc. ICASSP 90, April 1990, Albuquerque, pp.289-292)等に開示されている。)方法が利用できるので、ここでの詳細な説明は省略する。
【0079】
性別認識部1043は、話者の性別の認識を行う。性別の認識は、一般的に知られているピッチの判定による、男性と、女性又は子供との識別によって行う。尚、本実施の形態では、性別により単語辞書を切り替えるため、性別認識の結果は、単語認識辞書切替部1047へと送られる。
【0080】
内容認識部1044は、会話内容の認識を行う。即ち、音素認識の結果、単語として認識された音声データが、意味をなす単語であるか否かを、単語認識辞書を参照して認識する。より具体的には、音素認識の結果として得られた、連続した音声データを、単語認識辞書に登録されている単語とマッチングすることにより、単語認識辞書から、意味のある単語としてもっとも適切なものを選択する処理を行う。単語認識の方法についても前述の資料(電子情報通信学会論文誌D−II,Vol.J77−D−II,No.3,pp.475-482)に開示されている方法が利用できるので、ここでの詳細な説明は省略する。
【0081】
パワー認識部1045は、音声認識に不適切な音声パワーを有する波形データを識別し、そのような不適切な波形データを認識に用いないように波形データ分析部1041に指示する。音声パワーの算出方法については、既に詳細に説明したので、ここでの詳細な説明は省略する。尚、ここでいう音声認識に不適切な音声パワーを有する波形データとは、例えば、音声パワーが大きすぎるものや、小さすぎるものである。
【0082】
音素認識辞書切替部1046は、音素認識辞書の切り替えを行う。本実施の形態では、図示はされていないが、性別認識部1043による性別の判定に基づいて音素認識辞書を切り替えるようにしている。
【0083】
単語認識辞書切替部1047は、単語認識辞書の切り替えを行う。前述の如く、本実施の形態の音声認識装置は、性別認識部1043による性別の判定に基づいて、単語認識辞書を切り替えるようにしているため、単語認識辞書切替部1047が、性別認識部1043の判定結果に基づいて単語認識辞書を切り替える。
【0084】
ここで、単語認識とは、前述の音素認識の結果、単語として認識された音声データが、意味をなす単語であるか否かを認識することをいう。具体的には、音素認識の結果として得られた、連続した音声を、単語認識辞書に登録されている単語とマッチングすることにより、意味のある単語としてもっとも適切なものを選択する。性別によって、音素認識辞書及び単語認識辞書を切り替えるのは、性別により、通常用いられる単語等が異なることから、例えば、男性用の辞書と、女性又は子供用の辞書とを切り替えることで認識率の向上を図ったものである。
【0085】
音素認識辞書格納部105、単語認識辞書格納部106、話者認識辞書格納部107には、それぞれ、前述の辞書が格納される。
本実施の形態の音声認識装置は、前述の如く、上位システム108からの再評価の指示に従って、波形データ記憶部103に記憶されている過去の波形データについて再評価を行う機能を有する。以下、上位システム108からの指示に従って波形データの再評価を行う際の音声認識部104の処理内容について説明する。
【0086】
図10は、波形データの再評価を行う際の音声認識部104の処理内容を示すフローチャートである。
同図に示されるように、音声認識部104は、まず初期化処理を行う(S1001)。初期化処理とは、具体的には、メモリ領域のクリア処理等をいう。
【0087】
尚、本実施の形態の音声認識装置は、例えば上位システムからの動作終了通知を受けたか否かを判定しており(S1002)、終了通知を受けた場合(S1002:Yes)には、終了処理を行って(S1003)、動作を終了する。
【0088】
終了通知を受けていない場合は(S1002:No)、上位システム108からの再評価要求があったか否かを判定し(S1004)、再評価の要求があった場合(S1004:Yes)には、まず、再評価すべきデータ数の確定処理を行う(S1005)。
【0089】
図11は、再評価データ数確定処理の詳細な処理内容を示すフローチャートである。同図に示されるように、再評価データ数確定処理では、まず、再評価要求データ数と再評価可能データ数とを比較する(S1101)。ここで、再評価要求データ数とは、例えば上位システム108から再評価を要求されたデータ数をいい、上位システム108の利用目的等によって異なった値となる。一方、再評価可能データ数とは、本発明に係る音声認識装置において再評価が可能な波形データ数をいい、波形データ記憶部103の記憶領域1032の容量によって異なった値となる。
【0090】
再評価要求データ数が、再評価可能データ数を超えている場合(S1101:No)には、再評価すべきデータ数は、再評価可能データ数となる(S1102)。一方、再評価要求データ数が、再評価可能データ数以下である場合(S1101:Yes)には、再評価を要求されたデータの数だけ再評価することが可能であるので、再評価要求データ数が、再評価すべきデータ数となる(S1103)。
【0091】
再評価すべきデータ数が確定すると、図10のフローチャートに戻って、音声認識部104は、有効音声データの確定処理を行う(S1006)。有効音声データの確定処理とは、前述の如く、音声パワーが異常であるため、音声認識に用いない方が良いと思われる波形データを処理対象から除去する処理である。
【0092】
図12は、有効音声データ確定処理の詳細な処理内容を示すフローチャートである。音声認識部104は、再評価すべきデータ数として確定した分だけ波形データ記憶部103から波形データを取り出して再評価を行うが、まず、取り出された分の波形データのうち、未処理のデータがなくなるまで、パワー認識部1045において、波形データの音声パワー時系列を算出する(S1201:Yes、S1202)。音声パワーの時系列の算出方法は、既に詳細に説明したので、ここでの詳細な説明は省略する。
【0093】
全ての波形データについて音声パワー時系列を算出すると(S1201:No)、平均音声パワーが異常な波形データを処理対象のデータから排除する(S1203)。
【0094】
以下、平均音声パワーが異常な波形データを排除する方法について具体的に説明する。本実施の形態では、平均音声パワーが異常な音声データか否かを以下の条件で判定する。即ち、1)記憶領域1032のデータスロットに格納されている各々のデータの平均パワーについて、平均音声パワーが、格納されている全てのデータの平均パワーから一定値を減じた値を上回っていること、具体的には、下記の数11の条件を満たすこと、
【0095】
【数11】
【0096】
及び、2)波形が飽和していないこと、即ち、波形データの振幅が一定の範囲内におさまっていること、を満たす場合に有効データと判定する。条件1)は、音声パワーが小さすぎないこと、条件2)は、音声パワーが大きすぎないことを判定するものである。
【0097】
図13及び図14は、音声再評価の際の平均音声パワーの判定の具体例について説明するための図である。なお、本実施の形態では、上記条件1)における一定値は2000と規定されているものとする。
【0098】
図13に示されるように、記憶領域1032のデータスロットに波形データ1と波形データ2とが格納されているとする。それぞれの波形データについて音声パワーを検出した結果、波形データ1の平均パワーが−3000、波形データ2の平均パワーが−6000であったとすると、全ての波形データの平均パワーは−4500となる。ここで、波形データ1と波形データ2はともに条件1)を満たしているため、それぞれ有効な音声データと判定されることとなる。
【0099】
一方、図14に示す如く、記憶領域1032のデータスロットに波形データ1、波形データ2及び波形データ3が格納されているとする。それぞれの波形データについて音声パワーを検出した結果、波形データ1の平均パワーが−3000、波形データ2の平均パワーが−6000、波形データ3の平均パワーが−3000であったとすると、全ての波形データの平均パワーは−4000となる。ここで、波形データ1、波形データ2及び波形データ3の全てが飽和していないものとしても、波形データ2は、条件1)を満たさないこととなるため、無効な音声データと判定されることとなる。
【0100】
以上のような処理により、記憶領域1032に記憶されている波形データのうち、どの波形データを再評価するかが確定するので、音声認識部104は、実際に再評価されるべき波形データに関する情報、例えば、何秒前のデータが再評価されるか等の情報を上位システム108に通知する(S1204)。通知された情報を如何に利用するかは、上位システム108の利用目的等によって異なる。
【0101】
有効音声データ確定処理により、再評価すべき波形データが確定すると、図10のフローチャートに戻って、音声認識部104は、発話内容の再評価を行う。図15は、発話内容再評価処理の詳細な処理内容を示すフローチャートである。同図に示されるように、発話内容再評価処理においては、音声認識部104は、処理すべき波形データとして確定した波形データ全てについて処理が終了するまで、発話内容を評価し(S1502)、結果を上位システム108に通知する(S1503)。
【0102】
次に、以上のように構成された本発明の音声認識装置の一適用例としての情報処理装置について説明する。本適用例は、音声によりコマンドを入力して表示画面上のアイコンを移動させることが可能な情報処理装置に、本発明の音声認識装置を適用したものである。以下、かかる情報処理装置の動作について説明し、本発明の効果をより具体的に説明する。
【0103】
図16は、本発明の音声認識装置を適用した情報処理装置の表示画面の一例を示す図である。この情報処理装置では、音声により、例えば「Aに行け」、「Bに行け」又は「Cに行け」等の命令を入力することにより、画面上のアイコンOがそれぞれ図中に示されたA、B又はCの位置に移動するものとする。
【0104】
ここで、例えば、発声内容が、「Bに行け」、「それから」、「Aに行け」であったにもかかわらず、最初の音声認識の結果が「Bに行け」、「Cに行け」、「Aに行け」であった場合について説明する。図17は、この際の処理の順序を示した図である。同図において、「処理A」とは、アイコンOをAに位置に移動させる処理をいい、「処理B」とは、アイコンOをBに位置に移動させる処理をいう。また、「処理C」とは、アイコンOをCに位置に移動させる処理である。同図に示されるように、発声内容が認識された後に、それぞれの処理が開始されるとすると、画面上のアイコンOは、図18に示されるように、まずBの位置に移動し、その後、Cの位置に移動した後、Aの位置に移動することになる。
【0105】
しかしながら、本発明の音声認識装置を適用した場合は、音声データの再評価が可能である。即ち、男女共通の辞書を用いていて、「それから」という音声データが、「Cに行け」と認識された時点で、性別認識部1043により性別の判定が行われ、話者が女性であることが認識されたとすると、女性及び子供用の辞書に切り替えられる。
【0106】
本適用例において音声認識装置を利用する上位システム108は、性別が判定されたことによる音素認識辞書及び単語認識辞書の切り替えが行われたことを受けて、音声データの再評価の指示を行う。
【0107】
図19は、その際の処理の様子を示す図である。上位システム108からの再評価の指示を受けて、音声データの再評価が行われた結果、「Cに行け」と認識されていた音声データが、実は「それから」という音声であったということが判明する。その結果、既に処理Cが開始し、アイコンがBの位置からCの位置に向かって移動を開始していたとすると、処理Cは中止され、「Aに行け」との発声が認識された時点から、Aの位置に向かって移動が開始されることとなる。この場合の動作は、図20に示すようになる。
【0108】
以上に説明したように、本発明の音声認識装置を適用すると、上位システム108における誤認識による無駄な処理を少なくすることが可能となる。尚、本実施の形態では、情報処理装置の例として、画面上のアイコンを移動させる場合について説明したが、他のもっと複雑な処理に適用することも、もちろん容易に行える。例えば、情報検索のキーワードを音声にて入力するような装置に適用した場合には、誤認識に基づく検索処理を削減することが可能となり、本発明の効果も、より大きなものとなる。
【0109】
また、本実施の形態では、音声入力部101が一つの場合について説明したが、例えば音声入力部101としてのマイクロホンを複数備え、それぞれから入力された音声データについて音声認識を行うことも可能である。そのような場合には、記憶領域1032を、それぞれの音声入力部101に対応させて分割し、波形データを記憶するようにすればよい。そのような構成にすると、例えば、複数の話者による発声の認識も容易にできるようになる。
【0110】
また、本発明に係る音声認識装置のように、音声認識の結果に基づいて、過去の音声データを理解しなおすというのは、ある意味で、現実の人間が音声を認識する際に無意識に行っているものということができる。従って、本発明の音声認識装置は、例えば、仮想的な生物の挙動をコンピュータに実行させるような場合に適用することも可能である。
【0111】
なお、本発明である音声認識装置を実現するプログラムを記憶した記憶媒体は、図21の記憶媒体の例で示すように、CD−ROMやフロッピーディスク等の可搬型記憶媒体だけでなく、回線先の他の記憶装置や、コンピュータのハードディスクやRAM等の記憶媒体のいずれでもよく、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0112】
【発明の効果】
以上に説明したように、本発明に係る音声認識装置及びそれを用いた情報処理装置によれば、音声データを記憶する記憶手段に記憶された音声データを、上位システムからの指示を受けて再評価することにより、一度、誤認識された音声データについて、正しい認識に修正することが可能となるので、音声データの誤認識に基づく必要でない処理を削減することが可能になるという効果を奏する。
【図面の簡単な説明】
【図1】 本発明の一実施の形態に係る音声認識装置の構成を示す機能ブロック図である。
【図2】 本実施の形態の音声認識装置の波形データ作成部の詳細な構成を示す機能ブロック図である。
【図3】 本実施の形態の波形データリングバッファの構成を示す図である。
【図4】 本実施の形態のフィルタ処理部に用いられるフィルタの特性を示す図である。
【図5】 本実施の形態における音声区間の切り出しの一例について説明するための図である。
【図6】 本実施の形態において音声区間の切り出しを行う際の状態遷移を示す図である。
【図7】 本実施の形態の波形データ記憶部の記憶領域の構成の一例を示す図である。
【図8】 本実施の形態の音声認識装置の波形データ分析部の詳細な構成を示す機能ブロック図である。
【図9】 FFT部で求められたスペクトルパワーを、メル尺度で16チャンネルに分割する際に用いるテーブルの一例を示す図である。
【図10】 本実施の形態の音声認識装置において、音声データの再評価を行う際の音声認識部の処理内容を示すフローチャートである。
【図11】 本実施の形態の再評価データ数確定処理の詳細な処理内容を示すフローチャートである。
【図12】 本実施の形態の有効音声データ確定処理の詳細な処理内容を示すフローチャートである。
【図13】 音声再評価の際の平均音声パワーの判定の具体例について説明するための図である。
【図14】 音声再評価の際の平均音声パワーの判定の具体例について説明するための図である。
【図15】 本実施の形態の発話内容再評価処理の詳細な処理内容を示すフローチャートである。
【図16】 本発明の音声認識装置の一適用例としての情報処理装置の動作について説明するための図である。
【図17】 本発明の音声認識装置の一適用例としての情報処理装置における音声認識について説明するための図である。
【図18】 本発明の音声認識装置の一適用例としての情報処理装置の動作について説明するための図である。
【図19】 本発明の音声認識装置の一適用例としての情報処理装置における音声認識について説明するための図である。
【図20】 本発明の音声認識装置の一適用例としての情報処理装置の動作について説明するための図である。
【図21】 記憶媒体の例を示す図である。
【図22】 従来の音声認識装置の構成の一例を示す図である。
【符号の説明】
101 音声入力部
102 波形データ作成部
103 波形データ記憶部
1031 波形データ書き込み部
1032 記憶領域
1033 波形データ読み出し部
104 音声認識部
1041 波形データ分析部
1042 話者認識部
1043 性別認識部
1044 内容認識部
1045 パワー認識部
1046 音素認識辞書切替部
1047 単語認識辞書切替部
105 音素認識辞書格納部
106 単語認識辞書格納部
107 話者認識辞書格納部
108 上位システム
201 音声データ入力部
202 波形データリングバッファ
203 フィルタ処理部
204 パワー計算部
205 ノイズレベル学習部
206 単語区間検出部
207 区間検出閾値テーブル格納部
801 窓処理部
802 FFT部
803 ノイズパターン学習部
804 サブトラクション部
805 メルスペクトル計算部
806 メルスペクトル格納部
807 音素認識部
91 回線先の記憶装置
92 CD−ROMやフロッピーディスク等の可搬型記憶媒体
92−1 CD−ROM
92−2 フロッピーディスク
93 コンピュータ
94 コンピュータ上のRAM/ハードディスク等の記憶媒体
Claims (12)
- 音声を入力して音声データにする音声入力部と、
前記音声データを記憶する記憶手段と、
辞書を用いて音声認識を行い、認識結果を上位システムへ通知する音声認識部とを備えた音声認識装置であって、
前記音声認識部は、
前記音声データに基づいて性別を認識する性別認識部と、
前記性別認識部が認識した性別に応じて、音声認識に用いる辞書を切り換え、辞書を切り換えた場合は、辞書の切り換えの通知を前記上位システムへ通知する認識辞書切替部とを備えると共に、
前記認識辞書切替部からの通知に基づく前記上位システムからの再評価要求および再評価要求データ数を受けて、前記認識辞書切替部によって切り換えられた後の辞書を用いて、前記記憶手段に記憶されている音声データについて再評価すべき音声データ数を確定して再度音声認識を行い、再認識結果を上位システムへ通知することを特徴とする音声認識装置。 - 前記音声認識装置は、音声データから音声区間データを切り出す音声区間データ作成手段を備え、前記記憶手段は、前記音声区間データ作成手段により作成された音声区間データを記憶する請求項1に記載の音声認識装置。
- 前記記憶手段は、前記音声区間データ作成手段により作成された音声区間データを複数セット記憶する複数のデータスロットを備える請求項2に記載の音声認識装置。
- 前記音声認識装置は、前記音声区間データ作成手段を複数有し、前記記憶手段は、それぞれの音声区間データ作成手段ごとに、音声区間データを複数セット記憶するデータスロットを備える請求項3に記載の音声認識装置。
- 前記音声認識装置はさらに、前記記憶手段に記憶されている音声データから、音声パワーを算出するパワー算出手段を備え、前記音声認識部は、前記パワー算出手段により算出された音声パワーが所定の範囲外である場合に、当該音声データについて再度の音声認識は行わない請求項3又は4に記載の音声認識装置。
- 前記認識辞書切替部によって切り換えられる辞書が、音素認識に用いる音素認識辞書である、請求項1から5のいずれかに記載の音声認識装置。
- 前記認識辞書切替部によって切り換えられる辞書が、単語認識に用いる単語認識辞書である、請求項1から6のいずれかに記載の音声認識装置。
- 前記音声認識装置はさらに、前記音声データから話者を判定する話者認識手段を備える請求項1から7のいずれかに記載の音声認識装置。
- 入力を受け付ける入力受付手段を備える情報処理装置であって、前記入力受付手段として請求項1から8のいずれかに記載の音声認識装置を用いる情報処理装置。
- 請求項6に記載の音声認識装置の上位システムとしての情報処理装置であって、前記認識辞書切替部により、音素認識辞書が切り替えられた際に、前記記憶手段に記憶されている音声データについて再度音声認識を行うことを前記音声認識装置に要求する情報処理装置。
- 請求項7に記載の音声認識装置の上位システムとしての情報処理装置であって、前記認識辞書切替部により、単語認識辞書が切り替えられた際に、前記記憶手段に記憶されている音声データについて再度音声認識を行うことを前記音声認識装置に要求する情報処理装置。
- 音声を入力して音声データにするステップと、
前記音声データを記憶手段へ記憶するステップと、
辞書を用いて音声認識を行い、認識結果を上位システムへ通知する音声認識ステップとをコンピュータに実行させるプログラムを記憶したコンピュータで読み取り可能な記憶媒体であって、
前記プログラムは、
前記音声データに基づいて性別を認識する性別認識ステップと、
前記性別認識ステップで認識された性別に応じて、音声認識に用いる辞書を切り換え、辞書を切り換えた場合は、辞書の切り換えの通知を前記上位システムへ通知する認識辞書切替ステップと、
前記認識辞書切替ステップによる通知に基づく前記上位システムからの再評価要求および再評価要求データ数を受けて、前記認識辞書切替ステップによって切り換えられた後の辞書を用いて、前記記憶手段に記憶されている音声データについて再評価すべき音声データ数を確定して再度音声認識を行い、再認識結果を上位システムへ通知するステップとを、前記コンピュータにさらに実行させることを特徴とする、コンピュータで読み取り可能な記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31791997A JP3886024B2 (ja) | 1997-11-19 | 1997-11-19 | 音声認識装置及びそれを用いた情報処理装置 |
US09/046,568 US6122615A (en) | 1997-11-19 | 1998-03-24 | Speech recognizer using speaker categorization for automatic reevaluation of previously-recognized speech data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31791997A JP3886024B2 (ja) | 1997-11-19 | 1997-11-19 | 音声認識装置及びそれを用いた情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11153999A JPH11153999A (ja) | 1999-06-08 |
JP3886024B2 true JP3886024B2 (ja) | 2007-02-28 |
Family
ID=18093517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31791997A Expired - Fee Related JP3886024B2 (ja) | 1997-11-19 | 1997-11-19 | 音声認識装置及びそれを用いた情報処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6122615A (ja) |
JP (1) | JP3886024B2 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665644B1 (en) * | 1999-08-10 | 2003-12-16 | International Business Machines Corporation | Conversational data mining |
CH695402A5 (de) * | 2000-04-14 | 2006-04-28 | Creaholic Sa | Verfahren zur Bestimmung eines charakteristischen Datensatzes für ein Tonsignal. |
JP4917729B2 (ja) * | 2000-06-29 | 2012-04-18 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 以後のオフライン音声認識のための音声情報を記録する記録装置 |
US6915246B2 (en) * | 2001-12-17 | 2005-07-05 | International Business Machines Corporation | Employing speech recognition and capturing customer speech to improve customer service |
US7058565B2 (en) * | 2001-12-17 | 2006-06-06 | International Business Machines Corporation | Employing speech recognition and key words to improve customer service |
USH2187H1 (en) * | 2002-06-28 | 2007-04-03 | Unisys Corporation | System and method for gender identification in a speech application environment |
AU2003274592A1 (en) * | 2002-11-28 | 2004-06-18 | Koninklijke Philips Electronics N.V. | Method to assign word class information |
US7340398B2 (en) * | 2003-08-21 | 2008-03-04 | Hewlett-Packard Development Company, L.P. | Selective sampling for sound signal classification |
WO2005062295A1 (ja) * | 2003-12-05 | 2005-07-07 | Kabushikikaisha Kenwood | 機器制御装置、音声認識装置、エージェント装置及び機器制御方法 |
US7873149B2 (en) * | 2004-06-01 | 2011-01-18 | Verizon Business Global Llc | Systems and methods for gathering information |
US8392193B2 (en) * | 2004-06-01 | 2013-03-05 | Verizon Business Global Llc | Systems and methods for performing speech recognition using constraint based processing |
JP5017678B2 (ja) * | 2005-08-31 | 2012-09-05 | 鵬 陳山 | 信号検査方法および信号検査モジュール |
EP1933303B1 (en) * | 2006-12-14 | 2008-08-06 | Harman/Becker Automotive Systems GmbH | Speech dialog control based on signal pre-processing |
JP4812029B2 (ja) * | 2007-03-16 | 2011-11-09 | 富士通株式会社 | 音声認識システム、および、音声認識プログラム |
GB2451907B (en) * | 2007-08-17 | 2010-11-03 | Fluency Voice Technology Ltd | Device for modifying and improving the behaviour of speech recognition systems |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
KR101625668B1 (ko) * | 2009-04-20 | 2016-05-30 | 삼성전자 주식회사 | 전자기기 및 전자기기의 음성인식방법 |
US8983640B2 (en) * | 2009-06-26 | 2015-03-17 | Intel Corporation | Controlling audio players using environmental audio analysis |
JP5331901B2 (ja) * | 2009-12-21 | 2013-10-30 | 富士通株式会社 | 音声制御装置 |
CN102831890A (zh) * | 2011-06-15 | 2012-12-19 | 镇江佳得信息技术有限公司 | 一种对文本无关的声纹进行识别的方法 |
JP5731998B2 (ja) * | 2012-03-21 | 2015-06-10 | 株式会社東芝 | 対話支援装置、対話支援方法および対話支援プログラム |
PL3065131T3 (pl) * | 2015-03-06 | 2021-01-25 | Zetes Industries S.A. | Sposób i układ przetwarzania końcowego rezultatu rozpoznawania mowy |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
DE102017219596A1 (de) * | 2016-12-22 | 2018-06-28 | Volkswagen Aktiengesellschaft | Sprachausgabestimme eines Sprachbediensystems |
US10467339B1 (en) * | 2018-06-28 | 2019-11-05 | Sap Se | Using machine learning and natural language processing to replace gender biased words within free-form text |
JP7458371B2 (ja) * | 2019-03-18 | 2024-03-29 | 富士通株式会社 | 話者識別プログラム、話者識別方法、および話者識別装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57104193A (en) * | 1980-12-19 | 1982-06-29 | Matsushita Electric Ind Co Ltd | Voice recognizer |
JPS6148897A (ja) * | 1984-08-16 | 1986-03-10 | 松下電器産業株式会社 | 音声認識装置 |
JPS60129795A (ja) * | 1983-12-16 | 1985-07-11 | 沖電気工業株式会社 | 音声認識方式 |
JPS6127600A (ja) * | 1984-07-17 | 1986-02-07 | 日本電気株式会社 | 音声識別回路 |
JPH06102894A (ja) * | 1992-09-22 | 1994-04-15 | Toshiba Corp | 音声認識装置 |
JP3397372B2 (ja) * | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JP3594356B2 (ja) * | 1995-04-10 | 2004-11-24 | 富士通テン株式会社 | 音声処理装置 |
JP3284832B2 (ja) * | 1995-06-22 | 2002-05-20 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
JP3254977B2 (ja) * | 1995-08-31 | 2002-02-12 | 松下電器産業株式会社 | 音声認識方法及び音声認識装置 |
US5855000A (en) * | 1995-09-08 | 1998-12-29 | Carnegie Mellon University | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US5960447A (en) * | 1995-11-13 | 1999-09-28 | Holt; Douglas | Word tagging and editing system for speech recognition |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
GB2303955B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5857099A (en) * | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
-
1997
- 1997-11-19 JP JP31791997A patent/JP3886024B2/ja not_active Expired - Fee Related
-
1998
- 1998-03-24 US US09/046,568 patent/US6122615A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US6122615A (en) | 2000-09-19 |
JPH11153999A (ja) | 1999-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3886024B2 (ja) | 音声認識装置及びそれを用いた情報処理装置 | |
US10699699B2 (en) | Constructing speech decoding network for numeric speech recognition | |
KR101056511B1 (ko) | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
US9070367B1 (en) | Local speech recognition of frequent utterances | |
JP6131537B2 (ja) | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US9542939B1 (en) | Duration ratio modeling for improved speech recognition | |
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP5183120B2 (ja) | 平方根ディスカウンティングを使用した統計的言語による音声認識 | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
Sharma et al. | A Natural Human-Machine Interaction via an Efficient Speech Recognition System | |
JP3493849B2 (ja) | 音声認識装置 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
CN117223052A (zh) | 基于神经网络的关键词检出方法 | |
JP3615088B2 (ja) | 音声認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050905 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060828 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061117 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091201 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101201 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111201 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111201 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131201 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |