JP3531198B2 - 言語識別装置 - Google Patents

言語識別装置

Info

Publication number
JP3531198B2
JP3531198B2 JP02102694A JP2102694A JP3531198B2 JP 3531198 B2 JP3531198 B2 JP 3531198B2 JP 02102694 A JP02102694 A JP 02102694A JP 2102694 A JP2102694 A JP 2102694A JP 3531198 B2 JP3531198 B2 JP 3531198B2
Authority
JP
Japan
Prior art keywords
language
hmm
ergodic
sequence
languages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP02102694A
Other languages
English (en)
Other versions
JPH07230294A (ja
Inventor
聖一 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP02102694A priority Critical patent/JP3531198B2/ja
Publication of JPH07230294A publication Critical patent/JPH07230294A/ja
Application granted granted Critical
Publication of JP3531198B2 publication Critical patent/JP3531198B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】日本語、英語、・・・ 等の文(エ
キスト)音声を入力したとき、それが何語で話されたか
を識別する言語識別装置。
【0002】
【従来の技術】言語毎に不特定話者・テキスト独立のエ
ルゴディックHMMを作成しておき、何語が発声された
かを識別すべきテキスト音声入力に対する前記HMMの
言語毎の尤度を計算し、該尤度が最大となるHMMに対
応する言語を識別結果とする。
【0003】
【発明が解決しようとする課題】前記従来例における言
語識別装置は、能力的に満足な結果が得られるものでは
なかった。本願発明は、この言語識別能力を大幅に改善
した言語識別装置を提供することにある。
【0004】
【課題を解決するための手段】言語i(i=1,・・・,
I)の連続エルゴディックHMM CHMMiと、全言語
共通の連続エルゴディックHMM HMMcomと、言語i
のテキスト音声入力に対するHMMcomの最適状態系列
iに対して算出されたトライグラムTi、または、HM
comの状態を表すラベルを出力し、Siに対する尤度を
最大にすべく作成された離散HMM DHMMiと、識別
すべき言語zのテキスト音声Yに対するHMMcomの最
適状態系列Xを算出する最適状態系列算出手段と、Xの
発生度合LX iをXが前記トライグラムモデルTiから発
生する度合またはXが前記離散HMMDHMMiから発
生する度合としてi=1,...,Iについて算出する、最
適状態系列発生度合算出手段と、Yに対する前記CHM
iの尤度LYiをi=1,...,Iについて算出する尤度算
出手段と、LXiとLYiの重み付き加算Aiをi=1,...,
Iについて求め、Aiが最大になるiを言語zの判定結
果とする判定手段とからなる。
【0005】
【作用】言語i(i=1,・・・,I)の連続エルゴディッ
クHMM CHMMiと、全言語共通の連続エルゴディッ
クHMM HMMcomと、言語iのテキスト音声入力に対
するHMMcomの最適状態系列Siに対して算出されたト
ライグラムTi、または、HMMcomの状態を表すラベル
を出力し、Siに対する尤度を最大にすべく作成された
離散HMM DHMMiとを準備しておき、最適状態系列
算出手段により識別すべき言語zのテキスト音声Yに対
するHMMcomの最適状態系列Xを算出し、最適状態系
列発生度合算出手段によりXの発生度合LXiをXがモデ
ルTiから発生する度合またはXがCHMMiから発生す
る度合としてi=1,...,Iについて算出し、尤度算出
手段によりYに対する前記CHMMiの尤度LYiをi=
1,...,Iについて算出し、判定手段によりLXiとLYi
の重み付き加算Aiをi=1,...,Iについて求め、Ai
が最大になるiを言語zの判定結果とする。
【0006】
【実施例】(図1)はエルゴディックHMMの一例であ
る。エルゴディックHMMとは各状態から全ての状態へ
の遷移が許されるHMMであって、(図1)には状態数
が4の場合を示す。πiは状態iの初期確率,aijは状
態iから状態jへの遷移確率、bij(o(t))は状態遷移
i→jに伴ってo(t)が観測される確率密度または確率
である。o(t)は時点tにおいて観測されるベクトルま
たはラベルであって、ベクトルが観測されるとするとき
はbij(o(t))は連続分布における確率密度、ラベルが
観測されるとするときはbij(o(t))は確率である。以
後の議論においては、これらを取り立てて区別する必要
のない限り両者共確率という言葉で表現する。o(t)を
ベクトルとして扱う場合は、そのHMMを連続エルゴデ
ィックHMM、ラベルとして扱う場合は離散エルゴディ
ックHMMと呼ぶことにする。 ij (o(t))=b i (o
(t))あるいはb ij (o(t))=b j (o(t))として、
(t)は状態遷移と言うよりは状態に伴って観測されると
することもでき、状態iにおいて観測される確率はb
i(o(t))と表される。後者の定義もよく用いられ、本
発明の実施例においても、後者の定義を用いることにす
る。bi(o(t))を規定するパラメータ,πi,aij等は
周知のBaum-WelchあるいはForward-Backwaredと呼ばれ
る方法によって学習パターンから推定される. (図2)は本発明による言語モデル学習・記憶装置の第
1の実施例である.1は特徴抽出部であって,入力され
た音声は,例えば10ms毎に,ケプストラム等の特徴ベ
クトル系列に変換される。2〜4は識別すべき各言語に
対応した学習用テキスト音声パターンを記憶する言語学
習用テキスト音声パターン記憶部である。言語iに対応
する学習用テキスト音声を言語i学習用テキスト音声と
呼ぶ。5は全言語共通連続エルゴディックHMM作成部
であって,2〜4に記憶されている全学習用テキスト音
声パターンから前記Baum-Welchアルゴリズム等によって
全言語共通の連続エルゴディックHMMを作成する.6
は作成されたHMMのパラメータを記憶する全言語共通
連続エルゴディックHMM記憶部である.7はあるテキ
スト音声を入力したとき,その音声パターンの発生する
確率が最大になるように,HMMの状態系列を算出する
ものである.これはViterbi法によって効率よく計算す
る方法が知られている.8は状態系列書換部であって,
前記最適状態系列において,少しの間しか同一の状態に
滞在していない場合は,その状態を最適状態系列から消
去するスムージングの処理を行った後,同じ状態に連続
して滞在した場合1つに圧縮される.但し,継続時間を
考慮するため,同じ状態に長い間滞在した場合は複数に
分割する.9は学習用状態系列記憶部であって,各言語
の学習用テキストに対するこの圧縮された系列を記憶す
る.10はトライグラム作成部であって,各言語の前記
圧縮された状態系列を用いて各言語毎にトライグラムモ
デルを作成する.即ち,相続く3状態の出力確率を言語
毎に前記状態系列から算出するものである.11〜13
はこのようにして求められたトライグラムを言語毎に記
憶しておくものである.即ち,言語iトライグラム記憶
部は,言語iで発声されたテキスト音声を用いて作成さ
れた言語iに対するトライグラムモデルが記憶される. (図3)は,本発明による言語学習・記憶装置の第2の
実施例であって,(図2)におけるトライグラムモデル
(図1)11〜13を離散型エルゴディックHMM(図
2)14〜16に置き換えたものである.即ち,状態系
列としては,各状態にラベル付けられたラベルの系列と
して得られるものであるが,これらラベルを出力ラベル
とする離散エルゴディックHMMを前記圧縮された最適
状態系列から算出するものである.従って,本HMMに
おける出力ラベル数は,前記全言語共通連続エルゴディ
ックHMMの状態数と等しい. (図4)は本発明による言語識別装置の第1の実施例で
ある.40は識別すべき音声の入力端子,41は(図
2)1と同様な特徴抽出部,43は(図2)6と同様な
全言語共通連続エルゴディックHMM記憶部,42は
(図2)7と同様な最適状態系列算出部,44は(図
2)8と同様な状態系列書換部,46〜48は(図2)
11〜13と同様な言語iトライグラム記憶部(i=
1,...,I)である.45は状態系列発生確率算出部で
あって,状態系列書換部44の出力である圧縮された状
態系列の、言語モデルi(=1,...,I)からの発生確
率を計算するものである.言語モデルiはこの場合はト
ライグラムであって,(図2)の言語学習・記憶装置に
おいて記憶されたものである.言語iトライグラム記憶
部の内容から前記圧縮された状態系列の発生確率が計算
される.即ち,前記状態系列の3状態連鎖の発生確率を
言語iトライグラム記憶部から読み出し,それを前記状
態の系列に従って累積することによって前記確率が求め
られる.49は判定部であって,前記のようにして状態
系列発生確率算出部45で算出された,各言語に対する
状態系列の発生確率を比較し,その最大値を与える言語
を判定し,出力端子50にその結果が出力される.この
ようにして入力端子40に入力された音声の言語の識別
結果が出力端子50に得られる. (図5)は本発明による言語識別装置の第2の実施例で
ある.(図4)と同一の番号を付したブロックは(図
4)のものと同じものである.(図4)と異なるのは,
(図4)の言語1トライグラム記憶部46〜言語Iトラ
イグラム記憶部48が言語1離散エルゴディックHMM
記憶部51〜言語I離散エルゴディックHMM記憶部5
3に置き換わった点とそれに伴って状態系列発生確率算
出部54の動作が多少異なる点である.言語i離散エル
ゴディックHMM(i=1,...,I)は(図3)の言語
学習・記憶装置において記憶されたものである.従っ
て,状態系列発生確率算出部54は状態系列書換部44
の出力の状態系列が言語i離散エルゴディックHMM
(i=1,...,I)から発生する確率を計算することに
なる.これは,周知のForward演算,あるいはViterbi演
算によって求めることが出来る.このようにして入力端
子40に入力された音声の言語の識別結果が出力端子5
0に得られる. (図6)は本発明の言語モデル作成・記憶装置の第3の
実施例である.60は各言語の学習用音声入力端子、6
1は(図2)1と同様な特徴抽出部であって、音声信号
を特徴ベクトルの系列に変換する。62〜64は言語i
学習用テキスト音声パターン記憶部(i=1,...,I)
であって、特徴ベクトルの系列に変換された各言語の学
習用音声パターンが記憶される。65は言語別連続エル
ゴディックHMM作成部であって、言語iに対応するH
MMを言語i学習用テキスト音声パターン記憶部の内容
を学習パターンとしてBaum-Welchアルゴリズム等の周知
の方法により作成する。66〜68は言語i連続エルゴ
ディックHMM記憶部(i=1,...,I)であって、そ
れぞれの言語について作成された連続エルゴディックH
MMを記憶する。本実施例の特徴は、言語別連続エルゴ
ディックHMM作成部にある。即ち、通常のHMMにお
いては、観測系列系列O=(o1,o2,...,oT)のHMM
からの発生確率P(O)は、状態系列をX=(x1,
2,...,xT)とするとき
【0007】
【数1】
【0008】で与えられるが、各言語の音韻配列構造を
捉えていると考えられる状態間の遷移のダイナミックレ
ンジを拡大するために、遷移確率に重み付けることを特
徴とする。即ち、この重みをαとすれば、(数1)にお
けるP(O)の代わりに
【0009】
【数2】
【0010】を用いるものである。Viterbiアルゴリズ
ムを用いる場合は
【0011】
【数3】
【0012】を用いる。(図7)は本発明による言語識
別装置の第3の実施例である。70は音声入力端子、7
1は特徴抽出部であって、(図2)特徴抽出部1と同じ
ものである。72〜74は言語i連続エルゴディックH
MM記憶部(i=1,...,I)であって、(図6)66
〜68の言語i連続エルゴディックHMM記憶部(i=
1,...,I)と同じものであって、(図6)の言語モデ
ル作成・記憶装置によって得られるものである。75は
特徴ベクトル系列発生確率算出部であって、特徴抽出部
71の出力に得られる特徴ベクトル系列が前記各言語の
HMMから発生する確率を計算する。この場合、(数
2)あるいは(数3)が用いられる。76は判定部であ
って、前記確率が最大となる言語モデルに対応する言語
を識別結果として出力端子78に出力する。
【0013】(図8)は本発明による言語識別装置の第
4の実施例である。80は識別すべき音声の入力端子、
81は特徴抽出部であって(図2)1の特徴抽出部と同
様である。82〜84は言語i連続エルゴディックHM
M記憶部であって、(図6)66〜68におけるHMM
記憶部のことである。85は特徴ベクトル系列発生確率
算出部であって、特徴抽出部81の出力に得られる特徴
ベクトル系列が言語i連続エルゴディックHMMから発
生する確率をi=1,...,Iについて算出するものであ
る。最適状態系列算出部86、全言語共通連続エルゴデ
ィックHMM87、状態系列書換部88、状態系列発生
確率算出部89、言語iトライグラム記憶部(i=
1,...,I)90〜92は、それぞれ(図4)における
最適状態系列42、全言語共通連続エルゴディックHM
M43、状態系列書換部44、状態系列発生確率算出部
45、言語iトライグラム記憶部(i=1,...,I)4
6〜48と全く同様のものである。93は判定部であっ
て、特徴ベクトル系列発生確率算出部85に得られる、
入力音声の特徴ベクトル系列が言語i連続エルゴディッ
クHMMから発生する確率をP1(i)、状態系列発生確
率算出部89に得られる、入力音声に対する全言語共通
連続エルゴディックHMMの状態系列の圧縮系列が言語
iトライグラムモデルから発生する確率をP2(i)とす
るとき、P1(i)とP2(i)とから、入力音声の言語iら
しさL(i)を求め、L(i)が最大になるi=i*を以っ
て入力音声の言語であると判定する。識別結果は出力端
子94に得られる。ここで、P1(i)とP2(i)とからL
(i)を求める方法としては、例えば、w1+w2=1とな
る重み係数w1、w2を実験的に定め、
【0014】
【数4】
【0015】等とすることが出来る。(図9)は本発明
による言語識別装置の第5の実施例である。(図8)と
同一の番号のブロックは(図8)と同じものである。
(図8)と異なる点は、言語iトライグラム記憶部(i
=1,...,I)が言語i離散エルゴディックHMM記憶
部(i=1,...,I)に置き換わり、状態系列発声確率
算出部98が状態系列書換部88の出力に得られる状態
系列の発生確率をトライグラムモデルから計算するのに
対して、状態系列発生確率算出部98は状態系列88の
出力に得られる状態系列の発生確率を離散エルゴディッ
クHMMから計算する点である。ここに言語i離散エル
ゴディックHMM(i=1,...,I)95〜97は(図
3)で得られる言語i離散エルゴディックHMM(i=
1,...,I)14〜16と同じものである。以上のよう
にして入力音声の識別結果が出力端子94に出力され
る。
【0016】なお、前記全言語共通連続エルゴディック
HMM、言語i連続エルゴディックHMMは連続型、離
散型何れも考えられるが、実験の結果からは、連続型が
優れていることが確かめられているので、実施例は連続
型で説明した。また、音声の特徴量としてケプストラム
の他にいわゆるデルタケプストラム等の動的特徴の導入
や状態継続時間制御の導入によってさらに識別能力を向
上させることが出来る。
【0017】
【発明の効果】HMMを用いて言語の識別を行う装置で
あって、言語毎のエルゴディックHMMで言語による音
韻の発音・スペクトル構造の違いを捉え、全言語共通の
エルゴディックHMMの状態系列によって言語による音
韻配列構造を捉える構成とすることによって、言語の識
別能力が大幅に向上した。また、状態遷移確率を重み付
けることにより、状態遷移確率のダイナミックレンジを
大きくすることにより言語の識別能力がさらに改善され
たものである。
【図面の簡単な説明】
【図1】エルゴディックHMMの説明図
【図2】本発明による言語モデル作成・記憶装置の第1
の実施例を示す図
【図3】本発明による言語モデル作成・記憶装置の第2
の実施例を示す図
【図4】本発明による言語識別装置の第1の実施例を示
す図
【図5】本発明による言語識別装置の第2の実施例を示
す図
【図6】本発明による言語モデル作成・記憶装置の第3
の実施例を示す図
【図7】本発明による言語識別装置の第3の実施例を示
す図
【図8】本発明による言語識別装置の第4の実施例を示
す図
【図9】本発明による言語識別装置の第5の実施例を示
す図
【符号の説明】
81 特徴抽出部 82 言語1連続エルコ゛ティックHMM記憶部 83 言語i連続エルコ゛ティックHMM記憶部 84 言語I連続エルコ゛ティックHMM記憶部 85 特徴ヘ゛クトル系列発発生確率算出部 86 最適状態系列算出部 87 全言語共通連続エルコ゛ティックHMM記憶部 88 状態系列書換部 89 状態系列発生確率算出部 90 言語1トライク゛ラム記憶部 91 言語iトライク゛ラム記憶部 92 言語Iトライク゛ラム記憶部
フロントページの続き (56)参考文献 清野、中川,エルゴディックHMMを 用いた音声による多言語間の識別,電子 情報通信学会技術研究報告[音声],日 本,1993年 1月19日,SP92−129, 49−56 宮沢、大倉、嵯峨山,全音素エルゴデ ィックHMMによる教師なし話者適応, 電子情報通信学会技術研究報告[音声 ],日本,1992年10月21日,SP92− 75,15−20 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 JICSTファイル(JOIS) IEEE Xplore

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 テキスト音声信号を特徴ベクトルの系列
    に変換する特徴抽出手段と、言語i(i=1,...,I;
    I識別すべき言語の種類)を含む多数種類の言語のテキ
    スト音声を学習音声として、該音声の前記特徴抽出手段
    により抽出された前記全言語に対する特徴ベクトル系列
    から前記全言語共通のエルゴディックHMM(Ergodic
    Hidden Markov Model)HMMcomを作成する全言語共通
    エルゴディックHMM作成手段と、該HMMcomを記憶
    する全言語共通エルゴディックHMM記憶手段と、前記
    特徴抽出手段によって得られる、言語iの特徴ベクトル
    系列Yiに対応する前記HMMcomの最適状態系列Si
    得る最適状態系列算出手段と、該最適状態系列Siのト
    ライグラムTiを作成するトライグラム作成手段と、該
    トライグラムTi(i=1,...,I)を記憶するトライグ
    ラム記憶手段とを備えたことを特徴とする言語モデル作
    成・記憶装置。
  2. 【請求項2】 テキスト音声信号を特徴ベクトルの系列
    に変換する特徴抽出手段と、言語i(i=1,...,I;
    I識別すべき言語の種類)を含む多数種類の言語のテキ
    スト音声を学習音声として、該音声の前記特徴抽出手段
    により抽出された前記全言語に対する特徴ベクトル系列
    から前記全言語共通のエルゴディックHMM(Ergodic
    Hidden Markov Model)HMMcomを作成する全言語共通
    エルゴディックHMM作成手段と、該HMMcomを記憶
    する全言語共通エルゴディックHMM記憶手段と、前記
    特徴抽出手段によって得られる、言語iの特徴ベクトル
    系列Yiに対応する前記HMMcomの最適状態系列Si
    得る最適状態系列算出手段と、Siに対応する離散エル
    ゴディックHMM DHMMiを作成する離散エルゴディ
    ックHMM作成手段と、DHMMi(i=1,...,I)を
    記憶する離散エルゴディックHMM記憶手段とを備え、
    前記DHMMiは、前記HMMcomの状態を表すラベルま
    たは番号を出力ラベルとして出力する離散型エルゴディ
    ックHMMであって、そのパラメータはSiに対応する
    尤度が最大になるように推定されることを特徴とする言
    語モデル作成・記憶装置。
  3. 【請求項3】 言語識別すべきテキスト音声信号を特徴
    ベクトルの系列に変換する特徴抽出手段と、請求項1ま
    たは請求項2記載の全言語共通エルゴディックHMM記
    憶手段と、請求項1または請求項2記載の最適状態系列
    算出手段と、請求項1記載のトライグラム記憶手段また
    は請求項2記載の離散HMM記憶手段と、前記最適状態
    系列発生度合を算出する最適状態系列発生度合算出手段
    と、言語判定手段とを備え、前記特徴抽出手段は前記テ
    キスト音声信号に対する特徴ベクトル系列を得、前記最
    適状態系列算出手段は前記特徴ベクトル系列に対する前
    記全言語共通エルゴディックHMMの最適状態系列を
    得、前記最適状態系列発生度合算出手段は該最適状態系
    列の発生度合を言語毎に算出し、前記言語判定手段は前
    記発生度合が最大の言語を前記識別すべき音声信号の言
    語であると判定するものであって、前記最適状態系列の
    発生度合は、前記トライグラムにより求められる前記最
    適状態系列の発生確率または前記最適状態系列に対する
    前記離散HMMの尤度に基づいて算出されることを特徴
    とする言語識別装置。
  4. 【請求項4】 テキスト音声信号を特徴ベクトルの系列
    に変換する特徴抽出手段と、言語i(i=1,...,I;
    I識別すべき言語の種類)を含む多数種類の言語のテキ
    スト音声を学習音声として、該音声の前記特徴抽出手段
    により抽出された前記全言語に対する特徴ベクトル系列
    から前記全言語共通のエルゴディックHMM(Ergodic
    Hidden Markov Model)HMMcomを作成する全言語共通
    エルゴディックHMM作成手段と、該HMMcomを記憶
    する全言語共通エルゴディックHMM記憶手段と、前記
    特徴抽出手段によって得られる、言語iの特徴ベクトル
    系列Yiに対応する前記HMMcomの最適状態系列Si
    得る最適状態系列算出手段と、該最適状態系列Siのト
    ライグラムTiを作成するトライグラム作成手段と、該
    トライグラムTi(i=1,...,I)を記憶するトライグ
    ラム記憶手段と、前記特徴ベクトル系列Yiから、言語
    iの不特定話者、テキスト独立のエルゴディックHMM
    CHMMiを作成する言語別エルゴディックHMM作成
    手段と、CHMMi(i=1,...,I)を記憶する言語別
    エルゴディックHMM記憶手段とを備えたことを特徴と
    する言語モデル作成・記憶装置。
  5. 【請求項5】 テキスト音声信号を特徴ベクトルの系列
    に変換する特徴抽出手段と、言語i(i=1,...,I;
    I識別すべき言語の種類)を含む多数種類の言語のテキ
    スト音声を学習音声として、該音声の前記特徴抽出手段
    により抽出された前記全言語に対する特徴ベクトル系列
    から前記全言語共通のエルゴディックHMM(Ergodic
    Hidden Markov Model)HMMcomを作成する全言語共通
    エルゴディックHMM作成手段と、該HMMcomを記憶
    する全言語共通エルゴディックHMM記憶手段と、前記
    特徴抽出手段によって得られる、言語iの特徴ベクトル
    系列Yiに対応する前記HMMcomの最適状態系列Si
    得る最適状態系列算出手段と、Siに対応する離散エル
    ゴディックHMM DHMMiを作成する離散エルゴディ
    ックHMM作成手段と、DHMMi(i=1,...,I)を
    記憶する離散エルゴディックHMM記憶手段と、前記特
    徴ベクトル系列Yiから、言語iの不特定話者、テキス
    ト独立のエルゴディックHMM CHMMiを作成する言
    語別エルゴディックHMM作成手段と、CHMMi(i
    =1,...,I)を記憶する言語別エルゴディックHMM
    記憶手段とを備え、前記DHMMiは、前記HMMcom
    状態を表すラベルまたは番号を出力ラベルとして出力す
    る離散型エルゴディックHMMであって、そのパラメー
    タはSiに対応する尤度が最大になるように推定される
    ことを特徴とする言語モデル作成・記憶装置。
  6. 【請求項6】 識別すべき音声信号を特徴ベクトルの系
    列に変換する特徴抽出手段と、請求項4または請求項5
    記載の全言語共通エルゴディックHMM記憶手段と、請
    求項4または請求項5記載の最適状態系列算出手段と、
    請求項4または請求項5記載の最適状態系列発生度合算
    出手段と、請求項4または請求項5記載の言語別エルゴ
    ディックHMM記憶手段と、該各HMMの入力信号に対
    する尤度を算出する言語別尤度算出手段と、言語判定手
    段とを備え、前記特徴抽出手段によって前記音声信号に
    対する特徴ベクトル系列を得、前記最適状態系列算出手
    段により前記特徴ベクトル系列に対する前記全言語共通
    エルゴディックHMMの最適状態系列を得、前記最適状
    態系列発生度合算出手段により該最適状態系列の発生度
    合を言語毎に算出して得られる最適状態系列発生度合
    と、前記特徴抽出手段により抽出された特徴ベクトル系
    列に対する前記言語別エルゴディックHMMそれぞれの
    尤度を前記言語別尤度算出手段により算出し、第i言語
    (i=1,・・・,I)に対する前記最適状態系列発生度合
    算出手段の出力と第i言語に対する前記言語別尤度算出
    手段の出力との重み付け加算を行い、これを前記言語識
    別すべき音声信号に対する第i言語の尤度と見なし、前
    記言語判定手段によりこれが最大になるiを前記音声信
    号の言語であると判定することを特徴とする言語識別装
    置。
  7. 【請求項7】 全言語共通エルゴディックHMMの最適
    状態系列は、同一状態のラベルが連続するときは、その
    長さに応じて分割し、各分割を1つのラベルに置き換
    え、ごく少数の時はそのラベルを取り除くことによっ
    て、併合・省略を行って得たものであることを特徴とす
    る請求項1、2、3、4、5、6記載の言語モデル作成
    ・記憶装置または言語識別装置。
  8. 【請求項8】 エルゴディックHMMの遷移確率に重み
    付けたことを特徴とする請求項1、2、3、4、5、6
    記載の言語モデル作成・記憶装置または言語識別装置。
JP02102694A 1994-02-18 1994-02-18 言語識別装置 Expired - Fee Related JP3531198B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02102694A JP3531198B2 (ja) 1994-02-18 1994-02-18 言語識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02102694A JP3531198B2 (ja) 1994-02-18 1994-02-18 言語識別装置

Publications (2)

Publication Number Publication Date
JPH07230294A JPH07230294A (ja) 1995-08-29
JP3531198B2 true JP3531198B2 (ja) 2004-05-24

Family

ID=12043506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02102694A Expired - Fee Related JP3531198B2 (ja) 1994-02-18 1994-02-18 言語識別装置

Country Status (1)

Country Link
JP (1) JP3531198B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9800657B2 (en) 2011-08-16 2017-10-24 Empire Technology Development Llc Allocating data to plurality storage devices

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529671B2 (en) * 2003-03-04 2009-05-05 Microsoft Corporation Block synchronous decoding
JP5091202B2 (ja) * 2009-08-03 2012-12-05 黎 自奮 サンプルを用いずあらゆる言語を識別可能な識別方法
US8405531B2 (en) * 2010-08-31 2013-03-26 Mitsubishi Electric Research Laboratories, Inc. Method for determining compressed state sequences
JP6057170B2 (ja) * 2013-02-26 2017-01-11 日本電信電話株式会社 音声言語評価装置、パラメータ推定装置、方法、及びプログラム
DE112013007617B4 (de) 2013-11-20 2020-06-18 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
JP6723907B2 (ja) * 2016-11-30 2020-07-15 株式会社日立製作所 言語認識システム、言語認識方法、及び言語認識プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宮沢、大倉、嵯峨山,全音素エルゴディックHMMによる教師なし話者適応,電子情報通信学会技術研究報告[音声],日本,1992年10月21日,SP92−75,15−20
清野、中川,エルゴディックHMMを用いた音声による多言語間の識別,電子情報通信学会技術研究報告[音声],日本,1993年 1月19日,SP92−129,49−56

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9800657B2 (en) 2011-08-16 2017-10-24 Empire Technology Development Llc Allocating data to plurality storage devices

Also Published As

Publication number Publication date
JPH07230294A (ja) 1995-08-29

Similar Documents

Publication Publication Date Title
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
EP1906386B1 (en) Using child directed speech to bootstrap a model based speech segmentation and recognition system
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JP3803029B2 (ja) 音声認識装置
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP2955297B2 (ja) 音声認識システム
JP3531198B2 (ja) 言語識別装置
US6662158B1 (en) Temporal pattern recognition method and apparatus utilizing segment and frame-based models
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP3444108B2 (ja) 音声認識装置
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
Huang et al. A fast algorithm for large vocabulary keyword spotting application
Obuchi et al. Language identification using phonetic and prosodic HMMs with feature normalization
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP2965529B2 (ja) 音声認識装置
JP2938865B1 (ja) 音声認識装置
JP2000356997A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Pylkkönen et al. Using phone durations in Finnish large vocabulary continuous speech recognition
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
Gollan et al. Towards automatic learning in LVCSR: rapid development of a Persian broadcast transcription system.
JP2975540B2 (ja) 自由発話音声認識装置
Ortmanns et al. An efficient decoding method for real time speech recognition.
CN115762480A (zh) 一种语音唤醒方法、语音唤醒装置以及存储介质

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040223

LAPS Cancellation because of no payment of annual fees