JPH05150796A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05150796A
JPH05150796A JP3314247A JP31424791A JPH05150796A JP H05150796 A JPH05150796 A JP H05150796A JP 3314247 A JP3314247 A JP 3314247A JP 31424791 A JP31424791 A JP 31424791A JP H05150796 A JPH05150796 A JP H05150796A
Authority
JP
Japan
Prior art keywords
distance
partial
word
calculation
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3314247A
Other languages
English (en)
Inventor
Tatsuya Kimura
達也 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3314247A priority Critical patent/JPH05150796A/ja
Publication of JPH05150796A publication Critical patent/JPH05150796A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 不特定話者を対象とした音声認識装置に関
し、認識率の向上と計算量削減の方法を提供することを
目的とする。 【構成】 入力音声信号をフレーム毎に分析する音響分
析手段と、分析フレームの前後の複数フレームにわたる
分析パラメータ列を統合したベクトルを当該フレームに
おける特徴パラメータベクトルとして得る特徴パラメー
タ抽出手段と、単語標準パターンを部分パターンの結合
として格納する部分パターン格納手段と、上記特徴パラ
メータベクトルと単語標準パターンの一部である部分パ
ターンとの部分距離計算手段と、計算された部分距離を
累積する距離累積手段と、上記累積演算の途中結果の記
憶手段と、上記途中結果を参照して上記部分距離および
部分距離の累積計算またはそのいずれか一方を選択的に
行い、認識結果を得るのに不必要な演算を省略するため
の制御手段と、入力音声の終了時点で累積距離が最小と
なる音声名を認識結果とする判定手段とから構成され
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は人間の声を機械に認識さ
せる音声認識装置に関するものである。
【0002】
【従来の技術】近年、使用者の声を登録することなし
に、誰の声でも認識できる不特定話者用の認識装置が実
用として使われるようになった。不特定話者用の実用的
な方法として、特開昭61-188599号公報を第1の従来
例、特開昭62-111293号公報を第2の従来例として説明
する。
【0003】第1の従来例の方法は入力音声の始端、終
端を求めて音声区間を決定し、音声区間を一定時間長
(Iフレーム)に線形伸縮し、これと単語標準パターン
との類似度を統計的距離尺度を用いてパターンマッチン
グをすることによって求め、単語を認識する方法であ
る。
【0004】単語標準パターンは、認識対象単語を多く
の人に発声させて音声サンプルを収集し、すべての音声
サンプルを一定時間長Iフレーム(実施例ではI=1
6)に伸縮し、その後、単語ごとに音声サンプル間の統
計量(平均値ベクトルと共分散行列)を求め、これを加
工することによって作成している。すなわち、すべての
単語標準パターンの時間長は一定(Iフレーム)であ
り、原則として1単語に対し1標準パターンを用意して
いる。
【0005】第1の従来例では、パターンマッチングの
前に音声区間を検出する必要があるが、第2の従来例は
音声区間検出を必要としない部分が異なっている。パタ
ーンマッチングによって、ノイズを含む信号の中から音
声の部分を抽出して認識する方法(ワードスポッティン
グ法)を可能とする方法である。すなわち、音声を含む
十分長い入力区間内において、入力区間内に部分領域を
設定し、部分領域を伸縮しながら標準パターンとのマッ
チングを行なう。そして、部分領域を入力区間内で単位
時間ずつシフトして、また同様に標準パターンとのマッ
チングを行なうという操作を設定した入力区間内全域で
行ない、すべてのマッチング計算において距離が最小と
なった単語標準パターン名を認識結果とする。ワードス
ポッティング法を可能にするために、パターンマッチン
グの距離尺度として事後確率に基づく統計的距離尺度を
用いている。
【0006】
【発明が解決しようとする課題】従来例の方法は、小型
化が可能な実用的な方法であり、特に第2の従来例は、
騒音にも強いことから実用として使われ始めている。し
かし、従来例の問題点は、十分な単語認識率が得られな
いことである。このため、語彙の数が少ない用途になら
ば使うことが出来るが、語彙の数を増やすと認識率が低
下して実用にならなくなってしまう。従って、従来例の
方法では認識装置の用途が限定されてしまうという課題
があった。
【0007】即ち、従来例において認識率が十分でない
要因は次の2点である。 (1)認識対象とする全ての単語長(標準パターンの時
間長)を一定の長さIフレームにしている。これは、単
語固有の時間長の情報を欠落させていることになる。
【0008】(2)入力長をIフレームに伸縮するので
欠落したり重複するフレームが生じる。前者は情報の欠
落になり、後者は冗長な計算を行なうことになる。そし
てどちらの場合も認識に重要な「近隣フレーム間の時間
的な動き」の情報が欠落してしまう。
【0009】本発明は上記従来の課題を解決するもの
で、「処理が単純で装置の小型化が可能である」、「方
法が簡単なわりには認識率が高い」、「騒音に対して頑
強である」という従来の長所を生かしながら、従来例よ
りも格段に認識率を向上させ、しかも単語類似度算出の
ための計算量は削減された認識方法による音声認識装置
を提供することを目的とするものである。
【0010】
【課題を解決するための手段】本発明は上記目的を達成
するもので、以下の手段によって上記課題を解決した。
【0011】まず課題(1)に対しては、単語ごとに標
準時間長Ik(k=1,2,…K;Kは認識対象単語の種類)を
設定し、単語長情報の欠落がないようにした。Ikは単
語ごとに多くの発声サンプルを集め、その平均値とし
た。
【0012】課題(2)に対しては、情報の欠落がない
ように、常に近隣の複数フレームをひとまとめにしたも
のをパラメータとしてパターンマッチングを行なう。ま
た、近隣フレーム間の時間的な動きが欠落しないように
するために、パターンマッチングに用いる距離尺度には
フレーム間の相関を含む統計的な距離尺度を用いる。
【0013】その際、あるフレームの近隣フレームを含
めた幅のある区間(複数フレーム)を特徴パラメータと
して用いると特徴パラメータの次元数が大きい事に加
え、部分類似度を全ての入力区間及び、単語標準パター
ンの全区間について求めるために、膨大な計算量を必要
としてしまう。
【0014】そこで本発明は、単語類似度算出時の部分
距離の累積演算の途中結果を記憶する累積演算記憶手段
と、上記累積演算の途中結果を参照してその時点以降の
部分距離の算出及び部分距離の累積演算またはそのいず
れか一方の計算を継続するか否かを判断し上記計算を選
択的に行い、認識結果の判定に影響を及ぼさない演算処
理を省略するための制御手段とを設ける。
【0015】
【作用】本発明は上記構成によって、不特定話者用の音
声認識に対して高い認識率が得られ、また処理が単純な
ので、信号処理プロセッサ(DSP)を用いて、小型で
リアルタイム動作が可能な認識装置であり、ワードスポ
ッティング機能を導入することによって、騒音に対して
頑強な、実用性の高いものとなっている。
【0016】さらに、上記制御手段によって、部分距離
の算出及び部分距離の累積演算またはそのいずれか一方
の計算を選択的に行い、認識結果の判定処理に影響を及
ぼさない演算処理の省略を図る事により、単語類似度算
出に必要な計算量を削減している。
【0017】
【実施例】図1は本発明の一実施例の構成を示したもの
である。図1において、音響分析部11は入力信号をAD
変換して一定時間長(フレームと呼ぶ。この例では1フ
レーム=10ms)ごとに分析する。本実施例では線形予測
分析(LPC分析)を用いている。特徴パラメータ抽出
部12では音響分析部11の出力結果に基づき、特徴パラメ
ータを抽出する。本実施例では、LPCケプストラム係
数(C0〜C10)および差分パワー値V0の12個のパラメ
ータを用いている。入力の1フレームあたりの特徴パラ
メータを
【0018】
【外1】
【0019】と表すことにすると(数1)のようにな
る。
【0020】
【数1】
【0021】ただし、iは入力のフレーム番号、pはケプ
ストラム係数である(p=10)。音声区間検出部13は入
力信号音声の始端、終端を検出する部分である。音声区
間の検出法は音声のパワーを用いる方法が簡単で一般的
であるが、どのような方法でもよい。ここでは音声の始
端が検出された時点で、認識が始まりi=1になるとす
る。複数フレームバッファ14は第iフレームの近隣のフ
レームの特徴パラメータを統合してパターンマッチング
(部分マッチング)に用いる入力ベクトルを形成する部
分である。第iフレームにおける入力ベクトル
【0022】
【外2】
【0023】は(数2)のようになる。
【0024】
【数2】
【0025】(数2)はmフレームおきにi−l1〜i+l2
フレームの特徴パラメータを統合したベクトルである。
l1=l2=3,m=1とするとこの次元数は(p+2)*(l1+l2+
1)=12×7=84となる。なお、(数2)ではフレーム間
隔mは一定になっているが、必ずしも一定である必要は
ない。mが一定でない場合は非線形にフレームを間引く
ことに相当する。部分パターン格納部15は認識対象とす
る各単語の標準パターンを部分パターンの結合として格
納してある部分である。ここで標準パターン作成法をや
や詳細に説明する。
【0026】[標準パターン作成法]話をわかり易くす
るために、今、認識対象単語を日本語の数字「イチ」
「ニ」「サン」「シ」「ゴ」「ロク」「ナナ」「ハチ」
「キュウ」「ゼロ」の10種とする。このような例を用
いても説明の一般性にはなんら影響はない。たとえば、
「サン」の標準パターンは次のような手段で作成する。
【0027】(1)多数の人(100名とする)がサン
と発声したデータを用意する。このデータを「学習用サ
ンプル」と記す。
【0028】(2)100名のサンの持続時間分布を調
べ、100名の平均時間長JSを求める。
【0029】(3)JSの時間長のサンプルを100名の
中から探し出す。複数のサンプルがあった場合はフレー
ムごとに複数サンプルの平均値を計算する。このように
求められた代表サンプルを
【0030】
【外3】
【0031】と表すことにすると、(数3)のようにな
る。
【0032】
【数3】
【0033】ここで
【0034】
【外4】
【0035】は1フレームあたりのパラメータベクトル
であり、(数1)と同様に11個のLPCケプストラム
係数と差分パワーで構成される。
【0036】(4)100名分の各サンプル(数2)と
代表サンプル(数3)との間でパターンマッチングを行
ない、代表サンプルのフレームと100名分の各サンプ
ルのフレーム間の対応関係を求める(最も類似したフレ
ーム同志を対応づける)。なお、フレーム間の対応関係
は例えばダイナミックプログラミングの手法を用いれば
効率よく求めることができる。
【0037】(5)代表サンプルの各フレーム(j=1〜
J3)に対応して、100名分のサンプルそれぞれから
(数2)の形の部分ベクトルを切り出す。簡単のため l
1=l2=3、m=1 とする。
【0038】代表サンプルの第jフレームに相当する、
100名分のデータのうち第n番目のサンプルの部分ベ
クトルを(数4)で表わす。
【0039】
【数4】
【0040】ここで(j)は同一単語「サン」の第n番目
のサンプル中、代表ベクトルの第jフレームに対応する
フレームであることを示す。本実施例では84次元のベ
クトルである(n=1〜100)。
【0041】(6)100名分の
【0042】
【外5】
【0043】の平均値
【0044】
【外6】
【0045】(84次元)と共分散行列
【0046】
【外7】
【0047】(84×84次元)を求める(j=1〜
J3)。平均値と共分散行列は標準フレーム長の数J3だけ
存在することになる。ただし、これらは必ずしも全フレ
ームに対して作成する必要はなく、間引いて作成しても
よい。
【0048】上記(1)〜(6)同様の手続きで「サ
ン」以外の単語に対しても
【0049】
【外8】
【0050】を求める。全ての単語に対する100名分
すべてのサンプルデータに対し、移動平均
【0051】
【外9】
【0052】(84次元)と移動共分散行列
【0053】
【外10】
【0054】(84×84次元)を求める。これらを周
囲パターンと呼ぶ。次に平均値と共分散を用いて学習用
標準パターンを作成する。
【0055】a.共分散行列を共通化すると(数5)の
ようになる。
【0056】
【数5】
【0057】ここでKは認識対象単語の種類(K=10)、
Jkは単語k(k=1,2,…,K)の平均時間長を表わす。ま
た、gは周囲パターンを混入する割合であり通常g=1 と
する。 b.各単語の部分パターン
【0058】
【外11】
【0059】を作成すると(数6)、(数7)のように
なる。
【0060】
【数6】
【0061】
【数7】
【0062】これらの式の導出は後述する。標準パター
ン作成の概念図は図2に示す通りである。音声サンプル
の始端と終端の間において、代表サンプルとのフレーム
対応を求めて、それによって音声サンプルをJ3に分割す
る。図では、代表サンプルとの対応フレームを求めて
(j)で示してある。そして、(j)=1〜(j)=J3
各々について、(j)−l1〜(j)+l2の区間の100名
分のデータを用いて平均値と共分散を計算し、部分パタ
ーン
【0063】
【外12】
【0064】を求める。従って、単語kの標準パターン
は互にオーバーラップする区間を含むJk個の部分パター
ンを接続してたものになる。周囲パターンは図のように
l1+l2+1フレームの部分区間を1フレームずつシフトさ
せながら平均値と共分散を求める。周囲パターン作成の
範囲は音声区間のみならず前後のノイズ区間も対象とし
てもよい。
【0065】各単語について得られた単語標準パターン
は認識に先立ち部分パターン格納部15にあらかじめ格納
しておく。
【0066】[部分距離の計算]上記のようにしてあら
かじめ作成されている部分パターンと複数フレームバッ
ファとの間の距離(部分距離)を部分距離計算部16にお
いて計算する。
【0067】部分距離の計算は(数2)で示す複数フレ
ームの情報を含む入力ベクトルと各単語の部分パターン
との間で、統計的な距離尺度を用いて計算する。単語全
体としての距離は部分パターンとの距離を累積して求め
ることになるので、入力の位置や部分パターンの違いに
かかわらず距離値が相互に比較できる方法で部分距離を
計算する必要がある。このためには、事後確率に基づく
距離尺度を用いる必要がある。(数2)の形の入力ベク
トルを
【0068】
【外13】
【0069】とする(簡単のため当分の間i,jを除いて
記述する)。単語kの部分パターン
【0070】
【外14】
【0071】に対する事後確率
【0072】
【外15】
【0073】はBayesの定理を用いて次のようになる。
【0074】
【数8】
【0075】右辺第1項は、各単語の出現確率を同じと
考え、定数として取扱う。右辺第2項の事前確率は、パ
ラメータの分布を正規分布と考え、(数9)と表わす。
【0076】
【数9】
【0077】
【外16】
【0078】は単語とその周辺情報も含めて、生起し得
る全ての入力条件に対する確率の和であり、パラメータ
がLPCケプストラム係数やバンドパスフィルタ出力の
場合は、正規分布に近い分布形状になると考えることが
できる。
【0079】
【外17】
【0080】が正規分布に従うと仮定し、平均値と共分
散行列
【0081】
【外18】
【0082】を用いると、次のようになる。
【0083】
【数10】
【0084】(数9)、(数10)を(数8)に代入
し、対数をとって、定数項を省略し、さらに−2倍する
と、次式を得る。
【0085】
【数11】
【0086】この式は、Bayes距離を事後確率化した式
であり、識別能力は高いが計算量が多いという欠点があ
る。この式を次のようにして線形判別式に展開する。全
ての単語に対する全ての部分パターンそして周囲パター
ンも含めて共分散行列が等しいものと仮定する。このよ
うな仮定のもとに共分散行列を(数5)によって共通化
し、(数11)に代入すると、(数11)の第1項、第
2項は次のように展開できる。
【0087】
【数12】
【0088】(数11)第1式の第3項は0になる。従
って、(数11)は次のように簡単な一次判別式にな
る。
【0089】
【数13】
【0090】ここで、改めて、単語kの第j部分パター
ンと入力の第iフレーム近隣ベクトルの部分パターンの
類似度として(数13)を書き直すと、
【0091】
【数14】
【0092】ここで、
【0093】
【外19】
【0094】はそれぞれ(数6)、(数7)で与えられ
る。L(i,j) kは単語kの第j部分パターンと入力のiフレ
ーム近隣ベクトルの部分類似度として添え字i,jを用い
て(数13)のLkを改めて書きなおしたものである。
【0095】図1において距離累積部17は、各単語に対
する部分距離j=1〜Jkの区間に対して累積し、単語全体
に対する類似度を求める部分である。その場合入力部分
(Iフレーム)を各単語の標準時間長Jkに伸縮しながら
累積する必要がある。この計算はダイナミックプログラ
ミングの手法(DP法)を用いて効率よく計算できる。
【0096】いま、例えば「サン」の累積距離を求める
ことにすると、常にk=3なのでkを省略して計算式を
説明する。
【0097】入力の第iフレーム部分と第j番目の部分
パターンとの部分距離L(i,j)と表現し、(i,j)フ
レームまでの累積距離をg(i,j)と表現することにする。
経路判定部18は
【0098】
【数15】
【0099】の演算を行い、式で示した3つの経路のう
ち累積距離が最小になる経路を選択する。(数15)に
従って逐次部分距離距離を累積してゆき、j=Jk,i=I
となる時点での累積距離g(i,Jk)を単語kの類似度とす
る。累積距離g(i,Jk)の最小値を与える単語kを認識結
果として求める。
【0100】次に、本発明における計算量の削減方法に
ついて述べる。(数14)で計算される部分距離及び、
(数15)で累積距離は、式より明らかな通り、あたり
iおよびjで規定される2次元の量であり、iを横軸、
jを縦軸とする2次元平面上の格子点毎に(数14)及
び(数15)を求める必要がある。この演算を全ての単
語について行うから、入力のフレーム数をI,標準パタ
ーンの平均長をJ、単語数をKとすると、全体でN=I
*J*K個の格子点について(数14)及び(数15)
の演算を行う事になる。従来例ではN個の格子点全てに
ついて(数14)及び(数15)の計算を行っていた。
ところが実際上は、i,jを固定して単語kを変えなが
ら(数14)の累積距離の演算を進めていく手順をとっ
た場合、i及びjの値がある程度まで進むと、累積距離
g(i,j)の相対値が小さい単語についてのみこの演算を継
続するだけで認識結果は正しく求まることが分る。そこ
で、累積演算の途中の過程を累積演算記憶部19により記
憶しておき、その記憶内容を制御部110を参照すること
により、(数14)および(数15)の演算を継続する
か否かを決定する。具体的にはたとえば標準パターン軸
jのみに着目した場合には次の手順で累積演算を進め
る。ここで演算継続を判断するjをJbとする。
【0101】(1)j≦Jbの時 全単語について(数14)
及び(数15)を実行する。 (2)j=Jbの時 Jbにおける累積類似度を上位B個残す。
【0102】(3)j≧Jbの時 累積類似度の残された格子
点から到達可能な格子点についてのみ(数14)及び
(数15)を実行する。
【0103】上記JbおよびBは認識対象単語の種類、数
により実験的に決められる。このようにしてj=Jkまで演
算が進んだ単語kについて累積距離g(i,Jk)を単語類似
度として求め、g(i,Jk)の最小値を与える単語kを判定
部111により認識結果として求めて出力する。
【0104】
【発明の効果】本発明は複数のフレームで形成される入
力ベクトルと、単語音声の部分パターンとの部分距離を
事後確率に基づく統計的距離尺度で求め、フレームをシ
フトしながら入力ベクトルを更新して各部分ベクトルと
の間の距離を累積してゆき、累積距離を最小とする単語
を認識結果とする方法に関するものである。
【0105】本発明は先ず、高い認識率が得られること
が特長である。そして、計算の方法が単純であるので信
号処理プロセッサ(DSP)を用いた小型装置として容
易に実現できる。また、ワードスポッティングを行なう
ことができるので、環境騒音や話者自身が発する「え
〜」,「あ〜」などの不要語が混入した場合でも良好な
認識率が確保できる。
【0106】しかも、単語類似度の計算過程で部分距離
の算出及び部分距離の累積演算を選択的に行って認識結
果の判定処理に影響を及ぼさない演算処理の省略を図る
事により、単語類似度算出に必要な計算量を削減するこ
とができる。
【0107】このように本発明は実用上有効であり、そ
の効果は大きい。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識装置の構成
【図2】同実施例における単語標準パターン作成の概念
【符号の説明】
11 音響分析部 12 特徴パラメータ抽出部 14 複数フレームバッファ 15 部分パターン格納部 16 部分距離計算部 17 距離累積部 19 累積演算記憶部 110 制御部 111 判定部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号を分析の基本単位であるフ
    レーム毎に分析し分析パラメータを抽出する音響分析手
    段と、分析フレームの前後の複数フレームにわたる上記
    分析パラメータ列を統合したベクトルを当該フレームに
    おける特徴パラメータベクトルとして得る特徴パラメー
    タ抽出手段と、予め多数の人が発声した音声データを用
    いて音声データの一部を表現する部分パターンを音声全
    体をカバーできるように複数種類作成し、複数種類の部
    分パターンを連接して構成するという方法で作成された
    単語標準パターンを部分パターンの結合として格納する
    部分パターン格納手段と、上記特徴パラメータベクトル
    と単語標準パターンの一部である部分パターンとの部分
    距離を計算する部分距離計算手段と、計算された部分距
    離を累積することによって入力音声と単語標準パターン
    との距離を単語類似度として求める距離累積手段と、上
    記累積演算の途中結果を記憶する累積演算記憶手段と、
    上記累積演算の途中で、上記途中結果を参照してその時
    点以降の部分距離の算出及び部分距離の累積演算または
    そのいずれか一方の計算を継続するか否かを判断し上記
    計算を選択的に行うための制御手段と、入力音声の終了
    時点で全認識対象単語の単語標準パターンに対する距離
    を相互に比較し、単語類似度が最小となる単語標準パタ
    ーンに対応する単語名を認識結果とする判定手段とを具
    備することを特徴とする音声認識装置。
  2. 【請求項2】 入力ベクトルと部分パターンとの距離を
    計算する統計的距離尺度が、事後確率に基づく距離尺度
    であることを特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 統計的距離尺度が事後確率に基づく一次
    判別式であることを特徴とする請求項1記載の音声認識
    装置。
JP3314247A 1991-11-28 1991-11-28 音声認識装置 Pending JPH05150796A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3314247A JPH05150796A (ja) 1991-11-28 1991-11-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3314247A JPH05150796A (ja) 1991-11-28 1991-11-28 音声認識装置

Publications (1)

Publication Number Publication Date
JPH05150796A true JPH05150796A (ja) 1993-06-18

Family

ID=18051058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3314247A Pending JPH05150796A (ja) 1991-11-28 1991-11-28 音声認識装置

Country Status (1)

Country Link
JP (1) JPH05150796A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015031927A (ja) * 2013-08-06 2015-02-16 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015031927A (ja) * 2013-08-06 2015-02-16 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP2739950B2 (ja) パターン認識装置
US9251783B2 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
EP0617827B1 (en) Composite expert
JP2870224B2 (ja) 音声認識方法
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
US7010483B2 (en) Speech processing system
EP0862162A2 (en) Speech recognition using nonparametric speech models
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
JPH10105187A (ja) クラスタ構成をベースとする信号セグメント化方法
JP3428058B2 (ja) 音声認識装置
CN113939871A (zh) 讲话区间检测装置、讲话区间检测方法及讲话区间检测程序
JP2000310993A (ja) 音声検出装置
JPH05150796A (ja) 音声認識装置
JP2502880B2 (ja) 音声認識方法
Kanisha et al. Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization
JP2019152737A (ja) 話者推定方法および話者推定装置
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
JP3536363B2 (ja) 音声認識装置
JPH05165489A (ja) 音声認識方法
JP2746803B2 (ja) 音声認識方法
US7912715B2 (en) Determining distortion measures in a pattern recognition process
JP2870268B2 (ja) 音声認識装置
JPH1091186A (ja) 音声認識方法
EP3956890B1 (en) A dialog detector