JPH07230294A - 言語識別装置 - Google Patents

言語識別装置

Info

Publication number
JPH07230294A
JPH07230294A JP6021026A JP2102694A JPH07230294A JP H07230294 A JPH07230294 A JP H07230294A JP 6021026 A JP6021026 A JP 6021026A JP 2102694 A JP2102694 A JP 2102694A JP H07230294 A JPH07230294 A JP H07230294A
Authority
JP
Japan
Prior art keywords
language
hmm
ergodic
sequence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6021026A
Other languages
English (en)
Other versions
JP3531198B2 (ja
Inventor
Seiichi Nakagawa
聖一 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP02102694A priority Critical patent/JP3531198B2/ja
Publication of JPH07230294A publication Critical patent/JPH07230294A/ja
Application granted granted Critical
Publication of JP3531198B2 publication Critical patent/JP3531198B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 テキスト音声入力から、それが何語であるか
を識別する言語識別装置を提供する。 【構成】 言語毎のエルゴディックHMMで言語による
音韻の発音・スペクトル構造の違いを捉え、全言語共通
のエルゴディックHMMの状態系列によって言語による
音韻配列構造を捉える構成とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】日本語、英語、・・・ 等の文(エ
キスト)音声を入力したとき、それが何語で話されたか
を識別する言語識別装置。
【0002】
【従来の技術】言語毎に不特定話者・テキスト独立のエ
ルゴディックHMMを作成しておき、何語が発声された
かを識別すべきテキスト音声入力に対する前記HMMの
言語毎の尤度を計算し、該尤度が最大となるHMMに対
応する言語を識別結果とする。
【0003】
【発明が解決しようとする課題】前記従来例における言
語識別装置は、能力的に満足な結果が得られるものでは
なかった。本願発明は、この言語識別能力を大幅に改善
した言語識別装置を提供することにある。
【0004】
【課題を解決するための手段】言語i(i=1,・・・,
I)の連続エルゴディックHMM CHMMiと、全言語
共通の連続エルゴディックHMM HMMcomと、言語i
のテキスト音声入力に対するHMMcomの最適状態系列
iに対して算出されたトライグラムTi、または、HM
comの状態を表すラベルを出力し、Siに対する尤度を
最大にすべく作成された離散HMM DHMMiと、識別
すべき言語zのテキスト音声Yに対するHMMcomの最
適状態系列Xを算出する最適状態系列算出手段と、Xの
発生度合LX iをXが前記トライグラムモデルTiから発
生する度合またはXが前記離散HMMDHMMiから発
生する度合としてi=1,...,Iについて算出する、最
適状態系列発生度合算出手段と、Yに対する前記CHM
iの尤度LYiをi=1,...,Iについて算出する尤度算
出手段と、LXiとLYiの重み付き加算Aiをi=1,...,
Iについて求め、Aiが最大になるiを言語zの判定結
果とする判定手段とからなる。
【0005】
【作用】言語i(i=1,・・・,I)の連続エルゴディッ
クHMM CHMMiと、全言語共通の連続エルゴディッ
クHMM HMMcomと、言語iのテキスト音声入力に対
するHMMcomの最適状態系列Siに対して算出されたト
ライグラムTi、または、HMMcomの状態を表すラベル
を出力し、Siに対する尤度を最大にすべく作成された
離散HMM DHMMiとを準備しておき、最適状態系列
算出手段により識別すべき言語zのテキスト音声Yに対
するHMMcomの最適状態系列Xを算出し、最適状態系
列発生度合算出手段によりXの発生度合LXiをXがモデ
ルTiから発生する度合またはXがCHMMiから発生す
る度合としてi=1,...,Iについて算出し、尤度算出
手段によりYに対する前記CHMMiの尤度LYiをi=
1,...,Iについて算出し、判定手段によりLXiとLYi
の重み付き加算Aiをi=1,...,Iについて求め、Ai
が最大になるiを言語zの判定結果とする。
【0006】
【実施例】(図1)はエルゴディックHMMの一例であ
る。エルゴディックHMMとは各状態から全ての状態へ
の遷移が許されるHMMであって、(図1)には状態数
が4の場合を示す。πiは状態iの初期確率,aijは状
態iから状態jへの遷移確率、bij(o(t))は状態遷移
i→jに伴ってo(t)が観測される確率密度または確率
である。o(t)は時点tにおいて観測されるベクトルま
たはラベルであって、ベクトルが観測されるとするとき
はbij(o(t))は連続分布における確率密度、ラベルが
観測されるとするときはbij(o(t))は確率である。以
後の議論においては、これらを取り立てて区別する必要
のない限り両者共確率という言葉で表現する。o(t)を
ベクトルとして扱う場合は、そのHMMを連続エルゴデ
ィックHMM、ラベルとして扱う場合は離散エルゴディ
ックHMMと呼ぶことにする。bij(o(t))=bii(o
(t))あるいはbij(o(t))=bjj(o(t))とすれば、
o(t)は状態遷移と言うよりは状態に伴って観測される
とすることもでき、状態iにおいて観測される確率はb
i(o(t))と表される。後者の定義もよく用いられ、本
発明の実施例においても、後者の定義を用いることにす
る。bi(o(t))を規定するパラメータ,πi,aij等は
周知のBaum-WelchあるいはForward-Backwaredと呼ばれ
る方法によって学習パターンから推定される.(図2)
は本発明による言語モデル学習・記憶装置の第1の実施
例である.1は特徴抽出部であって,入力された音声
は,例えば10ms毎に,ケプストラム等の特徴ベクトル
系列に変換される。2〜4は識別すべき各言語に対応し
た学習用テキスト音声パターンを記憶する言語学習用テ
キスト音声パターン記憶部である。言語iに対応する学
習用テキスト音声を言語i学習用テキスト音声と呼ぶ。
5は全言語共通連続エルゴディックHMM作成部であっ
て,2〜4に記憶されている全学習用テキスト音声パタ
ーンから前記Baum-Welchアルゴリズム等によって全言語
共通の連続エルゴディックHMMを作成する.6は作成
されたHMMのパラメータを記憶する全言語共通連続エ
ルゴディックHMM記憶部である.7はあるテキスト音
声を入力したとき,その音声パターンの発生する確率が
最大になるように,HMMの状態系列を算出するもので
ある.これはViterbi法によって効率よく計算する方法
が知られている.8は状態系列書換部であって,前記最
適状態系列において,少しの間しか同一の状態に滞在し
ていない場合は,その状態を最適状態系列から消去する
スムージングの処理を行った後,同じ状態に連続して滞
在した場合1つに圧縮される.但し,継続時間を考慮す
るため,同じ状態に長い間滞在した場合は複数に分割す
る.9は学習用状態系列記憶部であって,各言語の学習
用テキストに対するこの圧縮された系列を記憶する.1
0はトライグラム作成部であって,各言語の前記圧縮さ
れた状態系列を用いて各言語毎にトライグラムモデルを
作成する.即ち,相続く3状態の出力確率を言語毎に前
記状態系列から算出するものである.11〜13はこの
ようにして求められたトライグラムを言語毎に記憶して
おくものである.即ち,言語iトライグラム記憶部は,
言語iで発声されたテキスト音声を用いて作成された言
語iに対するトライグラムモデルが記憶される.(図
3)は,本発明による言語学習・記憶装置の第2の実施
例であって,(図2)におけるトライグラムモデル(図
1)11〜13を離散型エルゴディックHMM(図2)
14〜16に置き換えたものである.即ち,状態系列と
しては,各状態にラベル付けられたラベルの系列として
得られるものであるが,これらラベルを出力ラベルとす
る離散エルゴディックHMMを前記圧縮された最適状態
系列から算出するものである.従って,本HMMにおけ
る出力ラベル数は,前記全言語共通連続エルゴディック
HMMの状態数と等しい.(図4)は本発明による言語
識別装置の第1の実施例である.40は識別すべき音声
の入力端子,41は(図2)1と同様な特徴抽出部,4
3は(図2)6と同様な全言語共通連続エルゴディック
HMM記憶部,42は(図2)7と同様な最適状態系列
算出部,44は(図2)8と同様な状態系列書換部,4
6〜48は(図2)11〜13と同様な言語iトライグ
ラム記憶部(i=1,...,I)である.45は状態系列
発生確率算出部であって,状態系列書換部44の出力で
ある圧縮された状態系列の、言語モデルi(=1,...,
I)からの発生確率を計算するものである.言語モデル
iはこの場合はトライグラムであって,(図2)の言語
学習・記憶装置において記憶されたものである.言語i
トライグラム記憶部の内容から前記圧縮された状態系列
の発生確率が計算される.即ち,前記状態系列の3状態
連鎖の発生確率を言語iトライグラム記憶部から読み出
し,それを前記状態の系列に従って累積することによっ
て前記確率が求められる.49は判定部であって,前記
のようにして状態系列発生確率算出部45で算出され
た,各言語に対する状態系列の発生確率を比較し,その
最大値を与える言語を判定し,出力端子50にその結果
が出力される.このようにして入力端子40に入力され
た音声の言語の識別結果が出力端子50に得られる.
(図5)は本発明による言語識別装置の第2の実施例で
ある.(図4)と同一の番号を付したブロックは(図
4)のものと同じものである.(図4)と異なるのは,
(図4)の言語1トライグラム記憶部46〜言語Iトラ
イグラム記憶部48が言語1離散エルゴディックHMM
記憶部51〜言語I離散エルゴディックHMM記憶部5
3に置き換わった点とそれに伴って状態系列発生確率算
出部54の動作が多少異なる点である.言語i離散エル
ゴディックHMM(i=1,...,I)は(図3)の言語
学習・記憶装置において記憶されたものである.従っ
て,状態系列発生確率算出部54は状態系列書換部44
の出力の状態系列が言語i離散エルゴディックHMM
(i=1,...,I)から発生する確率を計算することに
なる.これは,周知のForward演算,あるいはViterbi演
算によって求めることが出来る.このようにして入力端
子40に入力された音声の言語の識別結果が出力端子5
0に得られる.(図6)は本発明の言語モデル作成・記
憶装置の第3の実施例である.60は各言語の学習用音
声入力端子、61は(図2)1と同様な特徴抽出部であ
って、音声信号を特徴ベクトルの系列に変換する。62
〜64は言語i学習用テキスト音声パターン記憶部(i
=1,...,I)であって、特徴ベクトルの系列に変換さ
れた各言語の学習用音声パターンが記憶される。65は
言語別連続エルゴディックHMM作成部であって、言語
iに対応するHMMを言語i学習用テキスト音声パター
ン記憶部の内容を学習パターンとしてBaum-Welchアルゴ
リズム等の周知の方法により作成する。66〜68は言
語i連続エルゴディックHMM記憶部(i=1,...,
I)であって、それぞれの言語について作成された連続
エルゴディックHMMを記憶する。本実施例の特徴は、
言語別連続エルゴディックHMM作成部にある。即ち、
通常のHMMにおいては、観測系列系列O=(o1,
2,...,oT)のHMMからの発生確率P(O)は、状態系
列をX=(x1,x2,...,xT)とするとき
【0007】
【数1】
【0008】で与えられるが、各言語の音韻配列構造を
捉えていると考えられる状態間の遷移のダイナミックレ
ンジを拡大するために、遷移確率に重み付けることを特
徴とする。即ち、この重みをαとすれば、(数1)にお
けるP(O)の代わりに
【0009】
【数2】
【0010】を用いるものである。Viterbiアルゴリズ
ムを用いる場合は
【0011】
【数3】
【0012】を用いる。(図7)は本発明による言語識
別装置の第3の実施例である。70は音声入力端子、7
1は特徴抽出部であって、(図2)特徴抽出部1と同じ
ものである。72〜74は言語i連続エルゴディックH
MM記憶部(i=1,...,I)であって、(図6)66
〜68の言語i連続エルゴディックHMM記憶部(i=
1,...,I)と同じものであって、(図6)の言語モデ
ル作成・記憶装置によって得られるものである。75は
特徴ベクトル系列発生確率算出部であって、特徴抽出部
71の出力に得られる特徴ベクトル系列が前記各言語の
HMMから発生する確率を計算する。この場合、(数
2)あるいは(数3)が用いられる。76は判定部であ
って、前記確率が最大となる言語モデルに対応する言語
を識別結果として出力端子78に出力する。
【0013】(図8)は本発明による言語識別装置の第
4の実施例である。80は識別すべき音声の入力端子、
81は特徴抽出部であって(図2)1の特徴抽出部と同
様である。82〜84は言語i連続エルゴディックHM
M記憶部であって、(図6)66〜68におけるHMM
記憶部のことである。85は特徴ベクトル系列発生確率
算出部であって、特徴抽出部81の出力に得られる特徴
ベクトル系列が言語i連続エルゴディックHMMから発
生する確率をi=1,...,Iについて算出するものであ
る。最適状態系列算出部86、全言語共通連続エルゴデ
ィックHMM87、状態系列書換部88、状態系列発生
確率算出部89、言語iトライグラム記憶部(i=
1,...,I)90〜92は、それぞれ(図4)における
最適状態系列42、全言語共通連続エルゴディックHM
M43、状態系列書換部44、状態系列発生確率算出部
45、言語iトライグラム記憶部(i=1,...,I)4
6〜48と全く同様のものである。93は判定部であっ
て、特徴ベクトル系列発生確率算出部85に得られる、
入力音声の特徴ベクトル系列が言語i連続エルゴディッ
クHMMから発生する確率をP1(i)、状態系列発生確
率算出部89に得られる、入力音声に対する全言語共通
連続エルゴディックHMMの状態系列の圧縮系列が言語
iトライグラムモデルから発生する確率をP2(i)とす
るとき、P1(i)とP2(i)とから、入力音声の言語iら
しさL(i)を求め、L(i)が最大になるi=i*を以っ
て入力音声の言語であると判定する。識別結果は出力端
子94に得られる。ここで、P1(i)とP2(i)とからL
(i)を求める方法としては、例えば、w1+w2=1とな
る重み係数w1、w2を実験的に定め、
【0014】
【数4】
【0015】等とすることが出来る。(図9)は本発明
による言語識別装置の第5の実施例である。(図8)と
同一の番号のブロックは(図8)と同じものである。
(図8)と異なる点は、言語iトライグラム記憶部(i
=1,...,I)が言語i離散エルゴディックHMM記憶
部(i=1,...,I)に置き換わり、状態系列発声確率
算出部98が状態系列書換部88の出力に得られる状態
系列の発生確率をトライグラムモデルから計算するのに
対して、状態系列発生確率算出部98は状態系列88の
出力に得られる状態系列の発生確率を離散エルゴディッ
クHMMから計算する点である。ここに言語i離散エル
ゴディックHMM(i=1,...,I)95〜97は(図
3)で得られる言語i離散エルゴディックHMM(i=
1,...,I)14〜16と同じものである。以上のよう
にして入力音声の識別結果が出力端子94に出力され
る。
【0016】なお、前記全言語共通連続エルゴディック
HMM、言語i連続エルゴディックHMMは連続型、離
散型何れも考えられるが、実験の結果からは、連続型が
優れていることが確かめられているので、実施例は連続
型で説明した。また、音声の特徴量としてケプストラム
の他にいわゆるデルタケプストラム等の動的特徴の導入
や状態継続時間制御の導入によってさらに識別能力を向
上させることが出来る。
【0017】
【発明の効果】HMMを用いて言語の識別を行う装置で
あって、言語毎のエルゴディックHMMで言語による音
韻の発音・スペクトル構造の違いを捉え、全言語共通の
エルゴディックHMMの状態系列によって言語による音
韻配列構造を捉える構成とすることによって、言語の識
別能力が大幅に向上した。また、状態遷移確率を重み付
けることにより、状態遷移確率のダイナミックレンジを
大きくすることにより言語の識別能力がさらに改善され
たものである。
【図面の簡単な説明】
【図1】エルゴディックHMMの説明図
【図2】本発明による言語モデル作成・記憶装置の第1
の実施例を示す図
【図3】本発明による言語モデル作成・記憶装置の第2
の実施例を示す図
【図4】本発明による言語識別装置の第1の実施例を示
す図
【図5】本発明による言語識別装置の第2の実施例を示
す図
【図6】本発明による言語モデル作成・記憶装置の第3
の実施例を示す図
【図7】本発明による言語識別装置の第3の実施例を示
す図
【図8】本発明による言語識別装置の第4の実施例を示
す図
【図9】本発明による言語識別装置の第5の実施例を示
す図
【符号の説明】
81 特徴抽出部 82 言語1連続エルコ゛ティックHMM記憶部 83 言語i連続エルコ゛ティックHMM記憶部 84 言語I連続エルコ゛ティックHMM記憶部 85 特徴ヘ゛クトル系列発発生確率算出部 86 最適状態系列算出部 87 全言語共通連続エルコ゛ティックHMM記憶部 88 状態系列書換部 89 状態系列発生確率算出部 90 言語1トライク゛ラム記憶部 91 言語iトライク゛ラム記憶部 92 言語Iトライク゛ラム記憶部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】テキスト音声信号を特徴ベクトルの系列に
    変換する特徴抽出手段と、言語i(i=1,...,I;I
    識別すべき言語の種類)を含む多数種類の言語のテキス
    ト音声を学習音声として、該音声の前記特徴抽出手段に
    より抽出された前記全言語に対する特徴ベクトル系列か
    ら前記全言語共通のエルゴディックHMM(Ergodic Hi
    dden Markov Model)HMMcomを作成する全言語共通エ
    ルゴディックHMM作成手段と、該HMMcomを記憶す
    る全言語共通エルゴディックHMM記憶手段と、前記特
    徴抽出手段によって得られる、言語iの特徴ベクトル系
    列Yiに対応する前記HMMcomの最適状態系列Siを得
    る最適状態系列算出手段と、該最適状態系列Siのトラ
    イグラムTiを作成するトライグラム作成手段と、該ト
    ライグラムTi(i=1,...,I)を記憶するトライグラ
    ム記憶手段とを備えたことを特徴とする言語モデル作成
    ・記憶装置。
  2. 【請求項2】テキスト音声信号を特徴ベクトルの系列に
    変換する特徴抽出手段と、言語i(i=1,...,I;I
    識別すべき言語の種類)を含む多数種類の言語のテキス
    ト音声を学習音声として、該音声の前記特徴抽出手段に
    より抽出された前記全言語に対する特徴ベクトル系列か
    ら前記全言語共通のエルゴディックHMM(Ergodic Hi
    dden Markov Model)HMMcomを作成する全言語共通エ
    ルゴディックHMM作成手段と、該HMMcomを記憶す
    る全言語共通エルゴディックHMM記憶手段と、前記特
    徴抽出手段によって得られる、言語iの特徴ベクトル系
    列Yiに対応する前記HMMcomの最適状態系列Siを得
    る最適状態系列算出手段と、Siに対応する離散エルゴ
    ディックHMM DHMMiを作成する離散エルゴディッ
    クHMM作成手段と、DHMMi(i=1,...,I)を記
    憶する離散エルゴディックHMM記憶手段とを備え、前
    記DHMMiは、前記HMMcomの状態を表すラベルまた
    は番号を出力ラベルとして出力する離散型エルゴディッ
    クHMMであって、そのパラメータはSiに対応する尤
    度が最大になるように推定されることを特徴とする言語
    モデル作成・記憶装置。
  3. 【請求項3】言語識別すべきテキスト音声信号を特徴ベ
    クトルの系列に変換する特徴抽出手段と、請求項1また
    は請求項2記載の全言語共通エルゴディックHMM記憶
    手段と、請求項1または請求項2記載の最適状態系列算
    出手段と、請求項1記載のトライグラム記憶手段または
    請求項2記載の離散HMM記憶手段と、前記最適状態系
    列発生度合を算出する最適状態系列発生度合算出手段
    と、言語判定手段とを備え、前記特徴抽出手段は前記テ
    キスト音声信号に対する特徴ベクトル系列を得、前記最
    適状態系列算出手段は前記特徴ベクトル系列に対する前
    記全言語共通エルゴディックHMMの最適状態系列を
    得、前記最適状態系列発生度合算出手段は該最適状態系
    列の発生度合を言語毎に算出し、前記言語判定手段は前
    記発生度合が最大の言語を前記識別すべき音声信号の言
    語であると判定するものであって、前記最適状態系列の
    発生度合は、前記トライグラムにより求められる前記最
    適状態系列の発生確率または前記最適状態系列に対する
    前記離散HMMの尤度に基づいて算出されることを特徴
    とする言語識別装置。
  4. 【請求項4】テキスト音声信号を特徴ベクトルの系列に
    変換する特徴抽出手段と、言語i(i=1,...,I;I
    識別すべき言語の種類)を含む多数種類の言語のテキス
    ト音声を学習音声として、該音声の前記特徴抽出手段に
    より抽出された前記全言語に対する特徴ベクトル系列か
    ら前記全言語共通のエルゴディックHMM(Ergodic Hi
    dden Markov Model)HMMcomを作成する全言語共通エ
    ルゴディックHMM作成手段と、該HMMcomを記憶す
    る全言語共通エルゴディックHMM記憶手段と、前記特
    徴抽出手段によって得られる、言語iの特徴ベクトル系
    列Yiに対応する前記HMMcomの最適状態系列Siを得
    る最適状態系列算出手段と、該最適状態系列Siのトラ
    イグラムTiを作成するトライグラム作成手段と、該ト
    ライグラムTi(i=1,...,I)を記憶するトライグラ
    ム記憶手段と、前記特徴ベクトル系列Yiから、言語i
    の不特定話者、テキスト独立のエルゴディックHMM
    CHMMiを作成する言語別エルゴディックHMM作成
    手段と、CHMM i(i=1,...,I)を記憶する言語別
    エルゴディックHMM記憶手段とを備えたことを特徴と
    する言語モデル作成・記憶装置。
  5. 【請求項5】テキスト音声信号を特徴ベクトルの系列に
    変換する特徴抽出手段と、言語i(i=1,...,I;I
    識別すべき言語の種類)を含む多数種類の言語のテキス
    ト音声を学習音声として、該音声の前記特徴抽出手段に
    より抽出された前記全言語に対する特徴ベクトル系列か
    ら前記全言語共通のエルゴディックHMM(Ergodic Hi
    dden Markov Model)HMMcomを作成する全言語共通エ
    ルゴディックHMM作成手段と、該HMMcomを記憶す
    る全言語共通エルゴディックHMM記憶手段と、前記特
    徴抽出手段によって得られる、言語iの特徴ベクトル系
    列Yiに対応する前記HMMcomの最適状態系列Siを得
    る最適状態系列算出手段と、Siに対応する離散エルゴ
    ディックHMM DHMMiを作成する離散エルゴディッ
    クHMM作成手段と、DHMMi(i=1,...,I)を記
    憶する離散エルゴディックHMM記憶手段と、前記特徴
    ベクトル系列Yiから、言語iの不特定話者、テキスト
    独立のエルゴディックHMM CHMMiを作成する言語
    別エルゴディックHMM作成手段と、CHMMi(i=
    1,...,I)を記憶する言語別エルゴディックHMM記
    憶手段とを備え、前記DHMMiは、前記HMMcomの状
    態を表すラベルまたは番号を出力ラベルとして出力する
    離散型エルゴディックHMMであって、そのパラメータ
    はSiに対応する尤度が最大になるように推定されるこ
    とを特徴とする言語モデル作成・記憶装置。
  6. 【請求項6】識別すべき音声信号を特徴ベクトルの系列
    に変換する特徴抽出手段と、請求項4または請求項5記
    載の全言語共通エルゴディックHMM記憶手段と、請求
    項4または請求項5記載の最適状態系列算出手段と、請
    求項4または請求項5記載の最適状態系列発生度合算出
    手段と、請求項4または請求項5記載の言語別エルゴデ
    ィックHMM記憶手段と、該各HMMの入力信号に対す
    る尤度を算出する言語別尤度算出手段と、言語判定手段
    とを備え、前記特徴抽出手段によって前記音声信号に対
    する特徴ベクトル系列を得、前記最適状態系列算出手段
    により前記特徴ベクトル系列に対する前記全言語共通エ
    ルゴディックHMMの最適状態系列を得、前記最適状態
    系列発生度合算出手段により該最適状態系列の発生度合
    を言語毎に算出して得られる最適状態系列発生度合と、
    前記特徴抽出手段により抽出された特徴ベクトル系列に
    対する前記言語別エルゴディックHMMそれぞれの尤度
    を前記言語別尤度算出手段により算出し、第i言語(i
    =1,・・・,I)に対する前記最適状態系列発生度合算出
    手段の出力と第i言語に対する前記言語別尤度算出手段
    の出力との重み付け加算を行い、これを前記言語識別す
    べき音声信号に対する第i言語の尤度と見なし、前記言
    語判定手段によりこれが最大になるiを前記音声信号の
    言語であると判定することを特徴とする言語識別装置。
  7. 【請求項7】全言語共通エルゴディックHMMの最適状
    態系列は、同一状態のラベルが連続するときは、その長
    さに応じて分割し、各分割を1つのラベルに置き換え、
    ごく少数の時はそのラベルを取り除くことによって、併
    合・省略を行って得たものであることを特徴とする請求
    項1、2、3、4、5、6記載の言語モデル作成・記憶
    装置または言語識別装置。
  8. 【請求項8】エルゴディックHMMの遷移確率に重み付
    けたことを特徴とする請求項1、2、3、4、5、6記
    載の言語モデル作成・記憶装置または言語識別装置。
  9. 【請求項9】識別すべき音声信号を特徴ベクトルの系列
    に変換する特徴抽出手段と、言語iの特徴ベクトル系列
    iから、言語iの不特定話者、テキスト独立のエルゴ
    ディックHMM CHMMiを作成する言語別エルゴディ
    ックHMM作成手段と、CHMMi(i=1,...,I)を
    記憶する言語別エルゴディックHMM記憶手段とを備
    え、前記CHMMiは、状態遷移確率を重み付けること
    によって得ることを特徴とする言語モデル作成・記憶装
    置。
  10. 【請求項10】識別すべき音声信号を特徴ベクトルの系
    列に変換する特徴抽出手段と、請求項9記載の言語別エ
    ルゴディックHMM記憶手段と、前記特徴抽出手段によ
    り抽出された特徴ベクトル系列に対する前記各HMMの
    尤度を算出する言語別尤度算出手段と、該尤度が最大に
    なるiを前記音声信号の言語であると判定する言語判定
    手段とを備え、前記言語別尤度算出手段は状態遷移確率
    を重み付けることによって各HMMの尤度を算出するこ
    とを特徴とする言語識別装置。
JP02102694A 1994-02-18 1994-02-18 言語識別装置 Expired - Fee Related JP3531198B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02102694A JP3531198B2 (ja) 1994-02-18 1994-02-18 言語識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02102694A JP3531198B2 (ja) 1994-02-18 1994-02-18 言語識別装置

Publications (2)

Publication Number Publication Date
JPH07230294A true JPH07230294A (ja) 1995-08-29
JP3531198B2 JP3531198B2 (ja) 2004-05-24

Family

ID=12043506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02102694A Expired - Fee Related JP3531198B2 (ja) 1994-02-18 1994-02-18 言語識別装置

Country Status (1)

Country Link
JP (1) JP3531198B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号
JP2011033879A (ja) * 2009-08-03 2011-02-17 Tze Fen Li サンプルを用いずあらゆる言語を識別可能な識別方法
JP2012069103A (ja) * 2010-08-31 2012-04-05 Mitsubishi Electric Research Laboratories Inc 圧縮された状態シーケンスを求めるための方法
JP2014164187A (ja) * 2013-02-26 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声言語評価装置、パラメータ推定装置、方法、及びプログラム
WO2015075789A1 (ja) * 2013-11-20 2015-05-28 三菱電機株式会社 音声認識装置および音声認識方法
JP2018087945A (ja) * 2016-11-30 2018-06-07 株式会社日立製作所 言語認識システム、言語認識方法、及び言語認識プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101584329B1 (ko) 2011-08-16 2016-01-21 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 복수 개의 저장 장치로 데이터의 할당

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号
JP2011033879A (ja) * 2009-08-03 2011-02-17 Tze Fen Li サンプルを用いずあらゆる言語を識別可能な識別方法
JP2012069103A (ja) * 2010-08-31 2012-04-05 Mitsubishi Electric Research Laboratories Inc 圧縮された状態シーケンスを求めるための方法
JP2014164187A (ja) * 2013-02-26 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声言語評価装置、パラメータ推定装置、方法、及びプログラム
WO2015075789A1 (ja) * 2013-11-20 2015-05-28 三菱電機株式会社 音声認識装置および音声認識方法
CN105793920A (zh) * 2013-11-20 2016-07-20 三菱电机株式会社 声音识别装置及声音识别方法
JP6080978B2 (ja) * 2013-11-20 2017-02-15 三菱電機株式会社 音声認識装置および音声認識方法
JPWO2015075789A1 (ja) * 2013-11-20 2017-03-16 三菱電機株式会社 音声認識装置および音声認識方法
US9711136B2 (en) 2013-11-20 2017-07-18 Mitsubishi Electric Corporation Speech recognition device and speech recognition method
JP2018087945A (ja) * 2016-11-30 2018-06-07 株式会社日立製作所 言語認識システム、言語認識方法、及び言語認識プログラム

Also Published As

Publication number Publication date
JP3531198B2 (ja) 2004-05-24

Similar Documents

Publication Publication Date Title
US6553342B1 (en) Tone based speech recognition
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP6708035B2 (ja) 発話内容認識装置
KR20180057970A (ko) 음성감성 인식 장치 및 방법
JP2955297B2 (ja) 音声認識システム
JPH07230294A (ja) 言語識別装置
Tian et al. Tone recognition with fractionized models and outlined features
Cosi et al. High performance" general purpose" phonetic recognition for italian
JP2011053312A (ja) 適応化音響モデル生成装置及びプログラム
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
KR20180041114A (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
JP2980382B2 (ja) 話者適応音声認識方法および装置
Koo et al. Context dependent phoneme duration modeling with tree-based state tying.
KR20220112560A (ko) 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
Montero-Asenjo et al. On the use of high-level information in speaker and language recognition
JP3105708B2 (ja) 音声認識装置
JPH11288297A (ja) 音声認識装置
JPH07230295A (ja) 話者適応化方式
JPH0449719B2 (ja)
JP2766393B2 (ja) 音声認識方式
TW419643B (en) A method of continuous language recognition
Cernak DASR: A Diagnostic Tool For Automatic Speech Recognition
JPH10333692A (ja) 音韻テーブルと音声認識方法及び音声認識プログラムを格納した記録媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040223

LAPS Cancellation because of no payment of annual fees