JPH01216397A - 話者適応形音声認識装置 - Google Patents

話者適応形音声認識装置

Info

Publication number
JPH01216397A
JPH01216397A JP63042475A JP4247588A JPH01216397A JP H01216397 A JPH01216397 A JP H01216397A JP 63042475 A JP63042475 A JP 63042475A JP 4247588 A JP4247588 A JP 4247588A JP H01216397 A JPH01216397 A JP H01216397A
Authority
JP
Japan
Prior art keywords
input
similarity
category
recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63042475A
Other languages
English (en)
Other versions
JPH0823758B2 (ja
Inventor
Akihiro Imamura
明弘 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63042475A priority Critical patent/JPH0823758B2/ja
Publication of JPH01216397A publication Critical patent/JPH01216397A/ja
Publication of JPH0823758B2 publication Critical patent/JPH0823758B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は、話者適応機能を持った不特定話者音声認識
装置に関するものである。
「従来の技術」 音声認識技術は近年急速に進歩し、人間にとって特別な
訓練を必要としない情報入力手段の1つとして実用化さ
れはじめている。しかし利用者を特定しない不特定話者
型の音声認識を高精度で可能とするためには、音声の個
人差に充分対処できる方式が必要であり、現状の技術の
中でこれt完全に克服できるものはまだ確立されていな
い。
このような音声の個人差に対処する一つの方法として、
認識装置χ利用者の音声に適応させようとする研究が行
なわれている。
例えば「日本音響学会音声研究会資料583−21(1
983年6月)に掲載されている論文“多数話者単語音
声認識における話者適応化の検討”」(以下、文献〔1
〕と称する)では、1000単語の拾集に対して標準パ
ターン構成用として20名の話者を用意し、この20名
それぞれのパターンを標準パターンとして利用者が発声
した上記拾集中の100語の認識を行ない、その結果認
識率が最高となる標準パターン構成用の話者’a’1名
あるいは複数名選択して、利用者に適応化された標準パ
ターンを作成している。
また別の例「日本音響学会講演論文集1−5−14 (
Page27−28 、1987年3月)に掲載されて
いる論文“多数話者単語音声認識におけるパターンセッ
トを用いた学習適応化手法”」(以下、文献〔2〕と称
する)では、いくつかにクループ分けされた学習用話者
セットに対して認識率が最高となるように最適化された
複数個の標準パターンセットを予め用意しておき、利用
者の発声における母音などの特徴が最も類似している学
習用話者セットに対応する標準パターンセットを利用者
に適応化された標準パターンとしている。
「発明が解決しようとする課題」 ところで、文献(1) 、 (2:lで代表される従・
来の話者適応化の方法では、いずれも標準パターンを未
知の利用者へ適応化させている。このような標準パター
ンの適応化では1文献[1) 、 〔2:lなどのよう
に適応化に先立って利用者に学習のための発声を要求し
、それらの発声に対する認識率が最大となる標準パター
ン、あるいはそれらの発声に対する類似性が最大となる
標準パターンを選択または作成するため、利用者に対す
る負担が多くなるという欠点がある。
また充分に適応化が行なわれていない標準パターンを用
いた距離計算によって、最も類似するカテゴリを選択す
るという従来の認識判定法で認識を行なった場合には、
複数のカテゴリに対して同程度の距離となるような入力
音声は誤認識し易いという傾向がある。
この発明は、上記文献(1:] 、 (2]に代表され
る従来の話者適応化方法が持つ問題点と従来の認識判定
法の問題点を解消し、利用者に対する少ない負担で、良
好な認識性能を発揮することが可能な話者適応形音声認
識装置ン提供することン目的とする。
「課題を解決するための手段」 この目的を達成するため(二、この発明では標準パター
ンの話者適応化ではなく、各認識カテゴリと利用者の音
声との類似性情報を履歴として認識装置内に蓄積し、認
識判定時に利用する次のような構成としている。すなわ
ちこの発明による話者適応形音声認識装置は、利用者に
より入力された音声波形を特徴量系列に変換する音声分
析部と、各認識カテゴリの代表音声パターンを記憶する
標準パターン記憶部と、入力された音声の特徴量系列と
標準パターンから各認識カテゴリに対す名距離情報を算
出する距離計算部と、この距離情報を全認識カテゴリに
ついて総和を求めると合計が一定値となるような類似度
情報に変換する類似度計算部と、同一の利用者が過去に
入力した複数の音声に対応する類似度情報を蓄積する類
似度蓄積部と、現時点の入力音声に対する類似度情報と
類似度蓄積部中の類似度情報を用いて、最も高い類似度
を持つ入力音声から順にカテゴリ判定を行なうと同時(
二、過去及び現時点で入力された音声が同一カテゴリに
対するものであるかどうかの判定に基づくカテゴリ判定
を繰り返すことにより、現時点の入力音声に対する正解
カテゴリ名を決定する認識判定部とからなることt特徴
としている。
「実施例」 以下、この発明の実施例を図面を参照しながら説明する
。第1図はこの発明の実施例を示す装置のブロック図で
ある。この図において1は音声入力部、2は音声分析部
、3は距離計算部、4は標準パターン記憶部、5は類似
度計算部、6は認識判定部、7は類似度蓄積部、8は認
識結果出力部であ、る。
第2図は第1図に示した認識判定部6の動作を示すフロ
ーチャート、第3図は認識判定部6の動作を数値例によ
って示したものである。
ここでは認識対象としてN単語の拾集を考え、それぞれ
次のように番号iを付ける。
認識対象拾集:W=(r 1 i=1.2−N)  (
1)標準パターン記憶部4には上記拾集の音声パターン
がM人分記臆されているものとし、これらの標準パター
ン発声者に番号mを付ける。
初期標準パターン発声者:m=1.2・・・・・・M(
2)またm番の人が発声したi番の単語に相当する標準
パターン記憶部4内の音声パターンなT(’tm)と表
す。各音声パターンT(i tm)は音声分析部2で行
なわれる音声の特徴量抽出の結果と同様に特徴ベクトル
の時系列として表現されるものとする。
類似度蓄積部7には、最大でL個までの入力音声に対応
する類似度情報が蓄積可能とする。
距離計算部3におけるパターン間距離の計算処理には、
公知のDPマツチング法を用いるのが有効である。例え
ば「IEEE  Transactions onAc
oustics * 5peech and Sign
al Processing e Vol 。
ASSP−26、Nll e page43−49 、
 Feb、 、 1978に掲載されている論文” D
ynamic ProgrammingAlgorit
hm Optimization  for 5pok
en WordRecognition ’ Jに掲載
されている方式が一例として考えられる。
以下、本実施例における話者適応形の音声認識手順を説
明する。まず類似度蓄積部7への類似度情報の蓄積につ
いて説明する。
利用者が認識語素中の任意の単語に対する発声jを行な
い、音声入力部1へ入力すると、入力された音声は音声
分析部2によって特徴量の抽出が行なわれ、特徴ベクト
ルの時系タリである音声パターンVjに変換される。
次に距離計算部3では入力された音声パターンVj、!
Jl?lパターン記憶部4内の全音声標準パターンT(
i9mk)とのパターン間距離P(i、mk)(但L/
 i= 1e 2−・・−・N 、 mk=:l 、 
2−・−M )を算出し、各単語カテゴリi毎にこの値
が最小であルモノカら数えてn個分(これtJl:P 
(1−mt) −P (12m2)・・・”・P (’
 * ”11 )とする。但しnは一定値とする。)の
和をとり、入力音声パターンV°と各単語カテゴリiと
の距離D(i、j)を求° める。
D(i、j)=  Σ P(i、mk)       
 (3)1(=1 類似度計算部5では、入力音声パターンVjと各単語カ
テゴ9iとの距離D(i、j)を、全単語カテゴリ(二
ついて総和を求めると合計が一定値となるような類似度
情報Sj−二変換する。この変換を行なう方式の例とし
ては、全カテゴリについての総和が1となるような次の
(4) 、 (51式が一例としてあげられる。
Sj =(S(1,j)Is(2,j)・・・・・・S
(N、j))但しi=1,2・・・・・・N 、但しFは次の条件を満たす任意の定数である。
:1<F<閃 このようシーして算出された利用者の音声に対応する類
似度情報Sjの各要素S(i、j)は、常に正の値をと
ることが保証されており、この類似度情報は類似度蓄積
部7に蓄積される。この際に類似度蓄積部7にすでに最
大個数のL個の類似度情報が蓄積されている場合には、
新しい類似度情報の蓄積を行なわないか、あるいはすで
に蓄積されている類似度情報の内どれか一つを消去する
ことによって蓄積を行なうかのいずれかの動作を行なう
以下では、類似度情報Sjの全カテゴリについての総和
は14=なるとして説明する。次に利用者の音声入力が
M−1個だけ行なわれ、類似度蓄積部7にはすでEM−
1個の類似度情報(これをSj:j=1.2・・・・・
・M−1とする。但しM−1<Lとする。)が蓄積され
ているとして、利用者の第M番目の入力音声に対する認
識判定部6での単語認識結果の決定動作を第2図のフロ
ーチャートを参照しながら説明する。
まずステップ(1)において、類似度蓄積部7に蓄積さ
れているM−1個の類似度情報: Sl v 82・・
・・・・5M−1と利用者の第M番目の入力音声に対す
る類似度情報:SM″?:列ベクトルとする8行M列の
類似度行列Q=(Qi、j)と判定済み入力を値:1と
して表わすための判定済みテーブルU(k)を(6)。
(7)式のよう(二初期設定する。
n=(qi、j)、qi、j=S(i、j)但しn=1
,2・・・・・・N、j=t 、2・・・・・・M(6
)U(k)=O但しに=1.2・・・・・・M(7)次
にステップ(2)では、類似度行列Qにおける最大値の
要素Q j maX * J maX  を検索し、そ
の添字: imax  Jmaxを求めるO ここで求められた入力jmaxに対しては、この時点で
判定済みテーブルU (k)が0であるような他のどの
入力よりも高い信頼性をもって単語imaxであると判
断することが可能である。
ステップ(3)では、ステップ(2)で類似度が最大で
あると判断された入力jmaxが、現時点の入力、すな
わち利用者からの第M番目の入力と同一であるかどうか
の判断が行なわれる。その結果、入力jmaxが第M番
目の入力であると判断された場合には、ステップ(lO
)で、第M番目の入力に対する単語認識結果として単語
番号’maxが認識結果出力部8に出力され、認識判定
部6の動作は終了する。
ステップ(3)において人力JmaXが利用者からの第
M番目の入力ではないと判断された場合には。
ステップ(4)で、入力jmaxに対応する判定済みテ
ーブルUを1に設定し、また類似度行列Qで入力Jma
Xに対応する第jmax列の要素を−1に設定する。
U (jmax) = 1             
(10)Qn e jmax ” −1e n=1 、
2−・・・N     (11)次のステップ(5)で
は、カウンタkを1に初期設定し、ステップ(6)から
ステップ(15)までは。
過去(1からM−1の時点)及び現時点Mの入力の内1
判定済みテーブルU(k)がOであるものとステップ(
2)で最大の類似度を有して単語imaxであると判断
することが可能な入力jmaxとの同一カテゴリ性を判
定すると同時に、その判定結果に基づいて単語判定を行
なう繰り返しの処理に入る。
すなわちステップ(6)では、カウンタkによって指さ
れた入力kが判定済みであるかどうかの判断を行ない、
判定済み(U(k)=1の場合)と判断された場合には
、ステップ(14)に遷移する。
ステップ(6)で、入力kが判定済みではない(U(k
)=0)と判断された場合には、次のステップ(7)で
入力JmaXの類似度情報Sjmaxと入力にの類似度
情報Skとの類似性rjmax、kを算出する。この’
jmax、kを算出する方式の例としては、(12)式
で示される類似度情報Sj max 、!l:Skとの
重み付きユークリッド距離の逆数、または(13)式で
示される類似度情報S°  とSkとの相関係数が例と
しあげらmaX れる。
’jmax、k ” (、ΣWiX(S(f e jm
ax)−重=1 S(i、k)]”)”        (12)但しW
iは重み係数 rj max、k = 6jmax、に2/ C’j 
max” ×”2”/2但し 、、  2=(、Σ[8(1、jmax)−1/N〕2
)/N3max   、、。
σに2=(、Σ(S(i、k)−1/N)2)/N (
15)1=1 a−max、に2 == (、Σ[: (S (’ v
 Jrnax ) −17N ) ×j     1唱 (S(i、k) −1/N)))/N  (16)この
ようにして算出されたrjmax、にの値1−2、類似
度情報SjmaxとSkの類似性カー高b1合、すなわ
チ入力jmaxと入力kが同一のカテゴリ砿二属する単
語に対する音声である場合鑑二it、ある一定値二R1
を越える値を示し、入力jmaxと入力に力を異なるカ
テゴリに属する単語(二対する音声である場合1’:)
ま、ある一定値:R2未満の値を示す。
次にステップ(8)では、ステップ(7)で算出された
類似度情報SjmaxとSkとの類似性rjmax、に
力玉、ある一定値:R1を越えているかどうかの判断ヲ
行ない、R1を越えていると判断された場合には、ステ
ップ(9)において、入力kが、現時点の入力、すなわ
ち利用者からの第M番目の入力と同一であるかどうかの
判断が行なわれる。その結果、入力、kが第M番目の入
力であると判断された場合には、ステップ(10)で、
利用者からの第M番目の入力に対する単語認識結果とし
て単語番号imaxが認識結果出力部8に出力され、認
識判定部6の動作は終了する。
ステップ(9)において人力kが利用者からの第M番目
の入力ではないと判断された場合には、次のステップ(
11)において、人力kに対する判定済みテーブルUを
1に設定し、また類似度行列Qで入力kに対応する第に
列の要素を−1に設定し、ステップ(14)に遷移する
U (k) = 1                
(17)Qn、に=−1、n=1.2・・・・・・N 
      (18)またステップ(8)において、r
’   kが、あるJmaX。
一定値:R1を越えていないと判断された場合には、次
のステップ(12)において、’jmax、kが、ある
−定値:R2未満であるかどうかの判断が行なわれる。
その結果、’jmax、kがR2未満であると判断され
た場合には、ステップ(13)において、類似度行列Q
で入力にの単語imaxに相当する第imax行、第に
列の要素’に−1に設定し、ステップ(14)に遷移す
る。
Qimax k ”−1(19) ステップ(12)において−’jmax、kが、ある一
定値二R2以上であると判断された場合には、そのまま
ステップ(14)に遷移する。
ステップ(14)では、入力kに対する処理が終ったの
で、kに1を加算する。
次のステップ(15)では、M個の入力すべてについて
の処理が完了したかどうか、すなわちkの値がMを越え
ているかどうかの判断を行ない、kがMを越えていない
と判断された場合には、ステップ(6)に戻り、処理を
続行する。
ステップ(15)において、kがMを越えていると判断
された場合には、ステップ(16)で、類似度行列Qに
おいて各人力jに対応する列jごとに正の値の要素だけ
の総和二A(j)を求め、類似度行列Qの要素:qi、
jが正の値の場合にはQi、jt’A(J)で正規化し
た値:ケi、jを持ち、Qi、jが−1の場合にはq′
i、jとして−1の値を持つような正規化類似度行列Q
゛を作成する。
但し 八〇)=ばQi・j          (21)但し
A(j)は、qi、j”r−1であるところの総和をと
る。
ステップ(17)では、この時点で判定済みではない人
力j < 1)=oの場合)に対応する正規化類似度行
列Q“の列jの各行の要素=qIi、j(i=1゜2・
・・・・・M)がすべて−1である場合には、列jの各
行の要素ql 、 、 jを類似度情報Sjの各要素S
(・i。
j)に置換するという正規化類似度行列Q’の補正処理
を行なう。
イi、j”S (j −j ) :U(j)= Oかつ
qi、j=−1(すべてのiについて)の場合    
(22)ステップ(18)では、類似度行列Qを正規化
類似度行列Q°に置換した後、ステップ(2)に戻り、
新しい類似度行列Qにおける最大値の要素Qimaxj
maxの検索処理に入り、これ以降、利用者からの第M
番目の入力C二対する認識結果が得られるまで入力ステ
ップ(3)からステップ(18)までの処理を繰り返し
実行する。この繰り返し処理を多くともM回繰り返すこ
とにより、利用者の第M番目の入力音声じ対する単語認
識結果を得ることができ。
認識判定部6の動作は終了する。
次に認識判定部6の動作を第3図に示した数値例により
て簡単に説明する。第3図は認識語素数′1¥:N=4
、現時点での入力の数をM=5、ステップ(8)および
ステップ(12)におけるしきい値馨R1= 0.9 
、 R2= 0.7とし、ステップ(7)における類似
度情報間の類似性算出の方式として、(16)式を使用
した場合の数値例を示して、いる。
まずはじめにステップ(1)において、類似度情報蓄積
部7から4個(lから4)の類似度情報を抽出し、また
類似度情報計算部5から現時点j=5(=おける類似度
情報を抽出して、■のように類似度行列Qの作成と判定
済みテーブルUの設定を行なう。
またこの数値例での類似度情報間の類似性の算出結果は
■のようになる。次にステップ(2)では、類似度行列
Qの最大値要素としてimax =1 s jmax=
1を抽出する。ステップ(3)では、jmax矢5″′
17あるので、ステップ(4)において、入力5に対す
る認識判定済み処理な■のように行なう。
スフ−ラフ(5)〜(15)の同一カテゴリ性判定ルー
プでは、入力1と入力2から5との類似度情報間の類似
性がいずれも、しきい値R1およびR2以下のため、ス
テップ(13)の処理が行なわれ、類似度行列及び判定
済みテーブルは■のようになる。
ステップ(16)では、■の類似度行列および判定済み
テーブルから、正規化類似度行列Q1を■のように作成
する。この例では次のステップ(17) (ciの補正
処理)では何も行なわなくてもよく、ステップ(18)
で類似度行列QをQ’に置き換えて、ステップ(2)に
戻る。
2回目のステップ(2)では、imax=2.jmax
=4が抽出されるが、ステップ(3)では、Jmax’
F5であるので、ステップ(4)において、入力4(二
対する認識判定済み処理が0のように行なわれる。
次のステップ(5)〜(15)の同一カテゴリ性判定ル
ープでは、入力4と入力2,3との類似度情報間の類似
性はいずれも、しきい値R1およびR212を下である
が、入力4と入力5の類似度情報間の類似性: r4.
=Q、99は、しきい値R112を上であり、1(=5
のループでステップ(8)からステップ(9)の判断に
遷移する。
ステップ(9)では、kが5であるので、ステップ(1
0)に遷移し、認識結果として’maX =2が出力さ
れ、認識判定部6の動作が終了する。
つまりこの装置では■過去の入力と各カテゴリとの類似
度を履歴として蓄積し、■現在及び過去の入力の内、最
大の類似度を持つ入力Aに対する判定結果tカテゴリW
とし、■その他の入力の内で入力Aと、(a)同一カテ
ゴリと判別される入力には、カテゴリWを判定結果とし
、(b)異なるカテゴリと判別される入力には、カテゴ
リWを候補から除外し、■再度、最大の類似度を持つ入
力を検索し直す(■に戻る)という一連の処理を繰り返
すことにより認識を行なう。
以上の動作により本実施例では、従来の話者適応化方法
が持つ問題点と従来の認識判定法の問題点を解消し、利
用者に対する少ない負担で、良好な認識性能を発揮する
ことが可能な話者適応形音声認識装置を実現することが
できる。
「発明の効果」 この発明による話者適応形音声認識装置では、従来話者
適応化の方法として広く用いられている標準パターンの
選択あるいは作成といった方法を使用せず、各認識カテ
ゴリと利用者音声との類似性情報を逐次的に履歴として
認識装置内の標準パターンを用意する必要がある。しか
し多くの標準パターンを用いた場合には、入力音声に対
して最も類似するパターンが入力とは異なったカテゴリ
に属するものとなる場合があり、従来の認識判定法では
認識が困難であった。
この発明では、従来の認識判定法では認識が困難な音声
であっても、■第2位以降に類似するカテゴリとの類似
性が話者を一定とするとほぼ安定していること、■正解
は第2位以降の比較的高い順位のカテゴリであること、
の2点が多くの音声について成立することを有効に利用
して認識判定を行なっている。
従ってこの発明によれば、従来の標準パターンα選択あ
るいは作成といった話者適応化法のように、利用者に対
して学習のための発声を要求せず、また従来の最も類似
するカテゴリ’1選択するという認識判定法では認識が
困難であった音声でも認識が可能であるため、利用者に
対する少ない負担で、良好な認識性能を発揮できる利点
がある。
【図面の簡単な説明】
第1図はこの発明の実施例を示す装置のブロック構成図
、第2図は第1因の構成要素の一つである認識判定部6
の動作を示すフローチャート、第3図は認識判定部6の
動作を示す数値例である。 1:音声入力部、2:音声分析部、3:距離計算部、4
:標準パターン記憶部、5:類似度計算部、6:認識判
定部、7:類似度蓄積部、8:認識結果出力部。 特許出願人  日本電信電話株式会社 代 理  人   草  野     卓学 3 図 入カッlh、: M−5,w1111jI歌: N =
4.  シQイ値: F?+ ’I O,9、R2=0
.7fHIIt合開始 ステーノア(1):頬像度行列QとテーブルUの詮定坩
 3図 ステリフ’(2):最大類似度要素の検索→jmax 
= 1 、 jmax ” 1ステツ7(3ン:  j
max≠5 ステ・リア(4);入力jmaxに剤する娑皺判定済み
処理ステ・リア(5)〜(15):入力jmaxとの四
−カテコ“り柱判定ループr1.k< R1,r+ 、
k< R2: k=2.3,4.5オ 3 図 ステ・リプ(16) :正規化類似度行列Q′の作成ス
テップ+17):Q’の端正ゆ 必要なしステップ(1
8): Qの更新 (Q’惨 Q)番 ステ・ノブ(2):最大類似度要素の検索ゆ trna
x m 2 、 jmax =4ステ1リプ+3): 
jmax≠5 ステ・リプ(4);入力jma++に対する舗謙判定済
み処理ステ・ノア(5)〜(151:入力jmaxとの
同一カテゴリ牲判定ル−プr4.k< R41r4Tk
< R2: k=2.3ステ・Jブ(101→tmM果
: jmax=2 東JJd力終了

Claims (1)

    【特許請求の範囲】
  1. (1)入力された音声波形を特徴量系列に変換する音声
    分析部と、 各認識カテゴリの代表音声パターンを記憶する標準パタ
    ーン記憶部と、 入力された音声の特徴量系列と標準パターンから各認識
    カテゴリに対する距離情報を算出する距離計算部と、 前記距離情報を全認識カテゴリについて総和を求めると
    合計が一定値となるような類似度情報に変換する類似度
    計算部と、 同一の利用者が過去に入力した複数の音声に対応する前
    記類似度情報を蓄積する類似度蓄積部と、 現時点の入力音声に対する類似度情報と前記類似度蓄積
    部中の類似度情報を用いて、最も高い類似度を持つ入力
    音声から順にカテゴリ判定を行なうと同時に、過去及び
    現時点で入力された音声間の同一カテゴリ性の判定に基
    づくカテゴリ判定を行なうことを繰り返すことにより、
    現時点の入力音声に対する正解カテゴリ名を決定する認
    識判定部とからなる話者適応形音声認識装置。
JP63042475A 1988-02-24 1988-02-24 話者適応形音声認識装置 Expired - Fee Related JPH0823758B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63042475A JPH0823758B2 (ja) 1988-02-24 1988-02-24 話者適応形音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63042475A JPH0823758B2 (ja) 1988-02-24 1988-02-24 話者適応形音声認識装置

Publications (2)

Publication Number Publication Date
JPH01216397A true JPH01216397A (ja) 1989-08-30
JPH0823758B2 JPH0823758B2 (ja) 1996-03-06

Family

ID=12637084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63042475A Expired - Fee Related JPH0823758B2 (ja) 1988-02-24 1988-02-24 話者適応形音声認識装置

Country Status (1)

Country Link
JP (1) JPH0823758B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04220699A (ja) * 1990-12-21 1992-08-11 Matsushita Electric Ind Co Ltd 音声認識方法
JPH04230797A (ja) * 1990-05-18 1992-08-19 Matsushita Electric Ind Co Ltd 音声認識方法
JPH04293095A (ja) * 1991-03-22 1992-10-16 Matsushita Electric Ind Co Ltd 音声認識方法
JPH0588692A (ja) * 1991-01-25 1993-04-09 Matsushita Electric Ind Co Ltd 音声認識方法
JPH05188988A (ja) * 1992-01-14 1993-07-30 Matsushita Electric Ind Co Ltd 音声認識方法
CN116013278A (zh) * 2023-01-06 2023-04-25 杭州健海科技有限公司 基于拼音对齐算法的语音识别多模型结果合并方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230797A (ja) * 1990-05-18 1992-08-19 Matsushita Electric Ind Co Ltd 音声認識方法
JPH04220699A (ja) * 1990-12-21 1992-08-11 Matsushita Electric Ind Co Ltd 音声認識方法
JPH0588692A (ja) * 1991-01-25 1993-04-09 Matsushita Electric Ind Co Ltd 音声認識方法
JPH04293095A (ja) * 1991-03-22 1992-10-16 Matsushita Electric Ind Co Ltd 音声認識方法
JPH05188988A (ja) * 1992-01-14 1993-07-30 Matsushita Electric Ind Co Ltd 音声認識方法
CN116013278A (zh) * 2023-01-06 2023-04-25 杭州健海科技有限公司 基于拼音对齐算法的语音识别多模型结果合并方法及装置
CN116013278B (zh) * 2023-01-06 2023-08-08 杭州健海科技有限公司 基于拼音对齐算法的语音识别多模型结果合并方法及装置

Also Published As

Publication number Publication date
JPH0823758B2 (ja) 1996-03-06

Similar Documents

Publication Publication Date Title
Villalba et al. State-of-the-Art Speaker Recognition for Telephone and Video Speech: The JHU-MIT Submission for NIST SRE18.
Kenny et al. Deep Neural Networks for extracting Baum-Welch statistics for Speaker Recognition.
EP0319140B1 (en) Speech recognition
Shum et al. On the use of spectral and iterative methods for speaker diarization
US6922668B1 (en) Speaker recognition
Shahamiri et al. A multi-views multi-learners approach towards dysarthric speech recognition using multi-nets artificial neural networks
Kenny et al. JFA-based front ends for speaker recognition
JPH01216397A (ja) 話者適応形音声認識装置
Xu et al. Speaker turn aware similarity scoring for diarization of speech-based cognitive assessments
Ferrer et al. Joint PLDA for simultaneous modeling of two factors
Khan et al. I-vector transformation using k-nearest neighbors for speaker verification
CN111179918A (zh) 联结主义时间分类和截断式注意力联合在线语音识别技术
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
Hernández-Sierra et al. Speaker recognition using a binary representation and specificities models
JPH01204099A (ja) 音声認識装置
Naik et al. Evaluation of a high performance speaker verification system for access Control
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
Saraf et al. Distribution learning for age estimation from speech
Chen et al. Exploring sequential characteristics in speaker bottleneck feature for text-dependent speaker verification
CN113516987A (zh) 一种说话人识别方法、装置、存储介质及设备
Shridhar et al. Text-independent speaker recognition using orthogonal linear prediction
JPH07104780A (ja) 不特定話者連続音声認識方法
Choi et al. I-vector based utterance verification for large-vocabulary speech recognition system
Shi et al. Double Joint Bayesian Modeling of DNN Local I-Vector for Text Dependent Speaker Verification with Random Digit Strings.
Xu et al. A general Bayesian model for speaker verification

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees