JPH07230294A

JPH07230294A - 言語識別装置

Info

Publication number: JPH07230294A
Application number: JP6021026A
Authority: JP
Inventors: Seiichi Nakagawa; 聖一中川
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-02-18
Filing date: 1994-02-18
Publication date: 1995-08-29
Anticipated expiration: 2019-05-24
Also published as: JP3531198B2

Abstract

(57)【要約】【目的】テキスト音声入力から、それが何語であるか
を識別する言語識別装置を提供する。【構成】言語毎のエルゴディックＨＭＭで言語による
音韻の発音・スペクトル構造の違いを捉え、全言語共通
のエルゴディックＨＭＭの状態系列によって言語による
音韻配列構造を捉える構成とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】日本語、英語、・・・等の文（エ
キスト）音声を入力したとき、それが何語で話されたか
を識別する言語識別装置。

【０００２】

【従来の技術】言語毎に不特定話者・テキスト独立のエ
ルゴディックＨＭＭを作成しておき、何語が発声された
かを識別すべきテキスト音声入力に対する前記ＨＭＭの
言語毎の尤度を計算し、該尤度が最大となるＨＭＭに対
応する言語を識別結果とする。

【０００３】

【発明が解決しようとする課題】前記従来例における言
語識別装置は、能力的に満足な結果が得られるものでは
なかった。本願発明は、この言語識別能力を大幅に改善
した言語識別装置を提供することにある。

【０００４】

【課題を解決するための手段】言語ｉ（ｉ＝１,・・・,
Ｉ）の連続エルゴディックＨＭＭＣＨＭＭ_iと、全言語
共通の連続エルゴディックＨＭＭＨＭＭ_comと、言語ｉ
のテキスト音声入力に対するＨＭＭ_comの最適状態系列
Ｓ_iに対して算出されたトライグラムＴ_i、または、ＨＭ
Ｍ_comの状態を表すラベルを出力し、Ｓ_iに対する尤度を
最大にすべく作成された離散ＨＭＭＤＨＭＭ_iと、識別
すべき言語ｚのテキスト音声Ｙに対するＨＭＭ_comの最
適状態系列Ｘを算出する最適状態系列算出手段と、Ｘの
発生度合Ｌ_X _iをＸが前記トライグラムモデルＴ_iから発
生する度合またはＸが前記離散ＨＭＭＤＨＭＭ_iから発
生する度合としてｉ＝１,...,Ｉについて算出する、最
適状態系列発生度合算出手段と、Ｙに対する前記ＣＨＭ
Ｍ_iの尤度Ｌ_Yiをｉ＝１,...,Ｉについて算出する尤度算
出手段と、Ｌ_XiとＬ_Yiの重み付き加算Ａ_iをｉ＝１,...,
Ｉについて求め、Ａ_iが最大になるｉを言語ｚの判定結
果とする判定手段とからなる。

【０００５】

【作用】言語ｉ（ｉ＝１,・・・,Ｉ）の連続エルゴディッ
クＨＭＭＣＨＭＭ_iと、全言語共通の連続エルゴディッ
クＨＭＭＨＭＭ_comと、言語ｉのテキスト音声入力に対
するＨＭＭ_comの最適状態系列Ｓ_iに対して算出されたト
ライグラムＴ_i、または、ＨＭＭ_comの状態を表すラベル
を出力し、Ｓ_iに対する尤度を最大にすべく作成された
離散ＨＭＭＤＨＭＭ_iとを準備しておき、最適状態系列
算出手段により識別すべき言語ｚのテキスト音声Ｙに対
するＨＭＭ_comの最適状態系列Ｘを算出し、最適状態系
列発生度合算出手段によりＸの発生度合Ｌ_XiをＸがモデ
ルＴ_iから発生する度合またはＸがＣＨＭＭ_iから発生す
る度合としてｉ＝１,...,Ｉについて算出し、尤度算出
手段によりＹに対する前記ＣＨＭＭ_iの尤度Ｌ_Yiをｉ＝
１,...,Ｉについて算出し、判定手段によりＬ_XiとＬ_Yi
の重み付き加算Ａ_iをｉ＝１,...,Ｉについて求め、Ａ_i
が最大になるｉを言語ｚの判定結果とする。

【０００６】

【実施例】（図１）はエルゴディックＨＭＭの一例であ
る。エルゴディックＨＭＭとは各状態から全ての状態へ
の遷移が許されるＨＭＭであって、（図１）には状態数
が４の場合を示す。π_iは状態ｉの初期確率，ａ_ijは状
態ｉから状態ｊへの遷移確率、ｂ_ij(ｏ(ｔ))は状態遷移
ｉ→ｊに伴ってｏ(ｔ)が観測される確率密度または確率
である。ｏ(ｔ)は時点ｔにおいて観測されるベクトルま
たはラベルであって、ベクトルが観測されるとするとき
はｂ_ij(ｏ(ｔ))は連続分布における確率密度、ラベルが
観測されるとするときはｂ_ij(ｏ(ｔ))は確率である。以
後の議論においては、これらを取り立てて区別する必要
のない限り両者共確率という言葉で表現する。ｏ(ｔ)を
ベクトルとして扱う場合は、そのＨＭＭを連続エルゴデ
ィックＨＭＭ、ラベルとして扱う場合は離散エルゴディ
ックＨＭＭと呼ぶことにする。ｂ_ij(ｏ(ｔ))＝ｂ_ii(ｏ
(ｔ))あるいはｂ_ij(ｏ(ｔ))＝ｂ_jj(ｏ(ｔ))とすれば、
ｏ(ｔ)は状態遷移と言うよりは状態に伴って観測される
とすることもでき、状態ｉにおいて観測される確率はｂ
_i(ｏ(ｔ))と表される。後者の定義もよく用いられ、本
発明の実施例においても、後者の定義を用いることにす
る。ｂ_i(ｏ(ｔ))を規定するパラメータ，π_i，ａ_ij等は
周知のBaum-WelchあるいはForward-Backwaredと呼ばれ
る方法によって学習パターンから推定される．（図２）
は本発明による言語モデル学習・記憶装置の第１の実施
例である．１は特徴抽出部であって，入力された音声
は，例えば１０ms毎に，ケプストラム等の特徴ベクトル
系列に変換される。２〜４は識別すべき各言語に対応し
た学習用テキスト音声パターンを記憶する言語学習用テ
キスト音声パターン記憶部である。言語ｉに対応する学
習用テキスト音声を言語ｉ学習用テキスト音声と呼ぶ。
５は全言語共通連続エルゴディックＨＭＭ作成部であっ
て，２〜４に記憶されている全学習用テキスト音声パタ
ーンから前記Baum-Welchアルゴリズム等によって全言語
共通の連続エルゴディックＨＭＭを作成する．６は作成
されたＨＭＭのパラメータを記憶する全言語共通連続エ
ルゴディックＨＭＭ記憶部である．７はあるテキスト音
声を入力したとき，その音声パターンの発生する確率が
最大になるように，ＨＭＭの状態系列を算出するもので
ある．これはViterbi法によって効率よく計算する方法
が知られている．８は状態系列書換部であって，前記最
適状態系列において，少しの間しか同一の状態に滞在し
ていない場合は，その状態を最適状態系列から消去する
スムージングの処理を行った後，同じ状態に連続して滞
在した場合１つに圧縮される．但し，継続時間を考慮す
るため，同じ状態に長い間滞在した場合は複数に分割す
る．９は学習用状態系列記憶部であって，各言語の学習
用テキストに対するこの圧縮された系列を記憶する．１
０はトライグラム作成部であって，各言語の前記圧縮さ
れた状態系列を用いて各言語毎にトライグラムモデルを
作成する．即ち，相続く３状態の出力確率を言語毎に前
記状態系列から算出するものである．１１〜１３はこの
ようにして求められたトライグラムを言語毎に記憶して
おくものである．即ち，言語ｉトライグラム記憶部は，
言語ｉで発声されたテキスト音声を用いて作成された言
語ｉに対するトライグラムモデルが記憶される．（図
３）は，本発明による言語学習・記憶装置の第２の実施
例であって，（図２）におけるトライグラムモデル（図
１）１１〜１３を離散型エルゴディックＨＭＭ（図２）
１４〜１６に置き換えたものである．即ち，状態系列と
しては，各状態にラベル付けられたラベルの系列として
得られるものであるが，これらラベルを出力ラベルとす
る離散エルゴディックＨＭＭを前記圧縮された最適状態
系列から算出するものである．従って，本ＨＭＭにおけ
る出力ラベル数は，前記全言語共通連続エルゴディック
ＨＭＭの状態数と等しい．（図４）は本発明による言語
識別装置の第１の実施例である．４０は識別すべき音声
の入力端子，４１は（図２）１と同様な特徴抽出部，４
３は（図２）６と同様な全言語共通連続エルゴディック
ＨＭＭ記憶部，４２は（図２）７と同様な最適状態系列
算出部，４４は（図２）８と同様な状態系列書換部，４
６〜４８は（図２）１１〜１３と同様な言語ｉトライグ
ラム記憶部（ｉ＝１,...,Ｉ）である．４５は状態系列
発生確率算出部であって，状態系列書換部４４の出力で
ある圧縮された状態系列の、言語モデルｉ（＝１,...,
Ｉ）からの発生確率を計算するものである．言語モデル
ｉはこの場合はトライグラムであって，（図２）の言語
学習・記憶装置において記憶されたものである．言語ｉ
トライグラム記憶部の内容から前記圧縮された状態系列
の発生確率が計算される．即ち，前記状態系列の３状態
連鎖の発生確率を言語ｉトライグラム記憶部から読み出
し，それを前記状態の系列に従って累積することによっ
て前記確率が求められる．４９は判定部であって，前記
のようにして状態系列発生確率算出部４５で算出され
た，各言語に対する状態系列の発生確率を比較し，その
最大値を与える言語を判定し，出力端子５０にその結果
が出力される．このようにして入力端子４０に入力され
た音声の言語の識別結果が出力端子５０に得られる．
（図５）は本発明による言語識別装置の第２の実施例で
ある．（図４）と同一の番号を付したブロックは（図
４）のものと同じものである．（図４）と異なるのは，
（図４）の言語１トライグラム記憶部４６〜言語Ｉトラ
イグラム記憶部４８が言語１離散エルゴディックＨＭＭ
記憶部５１〜言語Ｉ離散エルゴディックＨＭＭ記憶部５
３に置き換わった点とそれに伴って状態系列発生確率算
出部５４の動作が多少異なる点である．言語ｉ離散エル
ゴディックＨＭＭ（ｉ＝１,...,Ｉ）は（図３）の言語
学習・記憶装置において記憶されたものである．従っ
て，状態系列発生確率算出部５４は状態系列書換部４４
の出力の状態系列が言語ｉ離散エルゴディックＨＭＭ
（ｉ＝１,...,Ｉ）から発生する確率を計算することに
なる．これは，周知のForward演算，あるいはViterbi演
算によって求めることが出来る．このようにして入力端
子４０に入力された音声の言語の識別結果が出力端子５
０に得られる．（図６）は本発明の言語モデル作成・記
憶装置の第３の実施例である．６０は各言語の学習用音
声入力端子、６１は（図２）１と同様な特徴抽出部であ
って、音声信号を特徴ベクトルの系列に変換する。６２
〜６４は言語ｉ学習用テキスト音声パターン記憶部（ｉ
＝１,...,Ｉ）であって、特徴ベクトルの系列に変換さ
れた各言語の学習用音声パターンが記憶される。６５は
言語別連続エルゴディックＨＭＭ作成部であって、言語
ｉに対応するＨＭＭを言語ｉ学習用テキスト音声パター
ン記憶部の内容を学習パターンとしてBaum-Welchアルゴ
リズム等の周知の方法により作成する。６６〜６８は言
語ｉ連続エルゴディックＨＭＭ記憶部（ｉ＝１,...,
Ｉ）であって、それぞれの言語について作成された連続
エルゴディックＨＭＭを記憶する。本実施例の特徴は、
言語別連続エルゴディックＨＭＭ作成部にある。即ち、
通常のＨＭＭにおいては、観測系列系列Ｏ＝(ｏ₁,
ｏ₂,...,ｏ_T)のＨＭＭからの発生確率Ｐ(Ｏ)は、状態系
列をＸ＝(ｘ₁,ｘ₂,...,ｘ_T)とするとき

【０００７】

【数１】

【０００８】で与えられるが、各言語の音韻配列構造を
捉えていると考えられる状態間の遷移のダイナミックレ
ンジを拡大するために、遷移確率に重み付けることを特
徴とする。即ち、この重みをαとすれば、（数１）にお
けるＰ(Ｏ)の代わりに

【０００９】

【数２】

【００１０】を用いるものである。Viterbiアルゴリズ
ムを用いる場合は

【００１１】

【数３】

【００１２】を用いる。（図７）は本発明による言語識
別装置の第３の実施例である。７０は音声入力端子、７
１は特徴抽出部であって、（図２）特徴抽出部１と同じ
ものである。７２〜７４は言語ｉ連続エルゴディックＨ
ＭＭ記憶部（ｉ＝１,...,Ｉ）であって、（図６）６６
〜６８の言語ｉ連続エルゴディックＨＭＭ記憶部（ｉ＝
１,...,Ｉ）と同じものであって、（図６）の言語モデ
ル作成・記憶装置によって得られるものである。７５は
特徴ベクトル系列発生確率算出部であって、特徴抽出部
７１の出力に得られる特徴ベクトル系列が前記各言語の
ＨＭＭから発生する確率を計算する。この場合、（数
２）あるいは（数３）が用いられる。７６は判定部であ
って、前記確率が最大となる言語モデルに対応する言語
を識別結果として出力端子７８に出力する。

【００１３】（図８）は本発明による言語識別装置の第
４の実施例である。８０は識別すべき音声の入力端子、
８１は特徴抽出部であって（図２）１の特徴抽出部と同
様である。８２〜８４は言語ｉ連続エルゴディックＨＭ
Ｍ記憶部であって、（図６）６６〜６８におけるＨＭＭ
記憶部のことである。８５は特徴ベクトル系列発生確率
算出部であって、特徴抽出部８１の出力に得られる特徴
ベクトル系列が言語ｉ連続エルゴディックＨＭＭから発
生する確率をｉ＝１,...,Ｉについて算出するものであ
る。最適状態系列算出部８６、全言語共通連続エルゴデ
ィックＨＭＭ８７、状態系列書換部８８、状態系列発生
確率算出部８９、言語ｉトライグラム記憶部（ｉ＝
１,...,Ｉ）９０〜９２は、それぞれ（図４）における
最適状態系列４２、全言語共通連続エルゴディックＨＭ
Ｍ４３、状態系列書換部４４、状態系列発生確率算出部
４５、言語ｉトライグラム記憶部（ｉ＝１,...,Ｉ）４
６〜４８と全く同様のものである。９３は判定部であっ
て、特徴ベクトル系列発生確率算出部８５に得られる、
入力音声の特徴ベクトル系列が言語ｉ連続エルゴディッ
クＨＭＭから発生する確率をＰ₁(ｉ)、状態系列発生確
率算出部８９に得られる、入力音声に対する全言語共通
連続エルゴディックＨＭＭの状態系列の圧縮系列が言語
ｉトライグラムモデルから発生する確率をＰ₂(ｉ)とす
るとき、Ｐ₁(ｉ)とＰ₂(ｉ)とから、入力音声の言語ｉら
しさＬ(ｉ)を求め、Ｌ(ｉ)が最大になるｉ＝ｉ^*を以っ
て入力音声の言語であると判定する。識別結果は出力端
子９４に得られる。ここで、Ｐ₁(ｉ)とＰ₂(ｉ)とからＬ
(ｉ)を求める方法としては、例えば、ｗ₁＋ｗ₂＝１とな
る重み係数ｗ₁、ｗ₂を実験的に定め、

【００１４】

【数４】

【００１５】等とすることが出来る。（図９）は本発明
による言語識別装置の第５の実施例である。（図８）と
同一の番号のブロックは（図８）と同じものである。
（図８）と異なる点は、言語ｉトライグラム記憶部（ｉ
＝１,...,Ｉ）が言語ｉ離散エルゴディックＨＭＭ記憶
部（ｉ＝１,...,Ｉ）に置き換わり、状態系列発声確率
算出部９８が状態系列書換部８８の出力に得られる状態
系列の発生確率をトライグラムモデルから計算するのに
対して、状態系列発生確率算出部９８は状態系列８８の
出力に得られる状態系列の発生確率を離散エルゴディッ
クＨＭＭから計算する点である。ここに言語ｉ離散エル
ゴディックＨＭＭ（ｉ＝１,...,Ｉ）９５〜９７は（図
３）で得られる言語ｉ離散エルゴディックＨＭＭ（ｉ＝
１,...,Ｉ）１４〜１６と同じものである。以上のよう
にして入力音声の識別結果が出力端子９４に出力され
る。

【００１６】なお、前記全言語共通連続エルゴディック
ＨＭＭ、言語ｉ連続エルゴディックＨＭＭは連続型、離
散型何れも考えられるが、実験の結果からは、連続型が
優れていることが確かめられているので、実施例は連続
型で説明した。また、音声の特徴量としてケプストラム
の他にいわゆるデルタケプストラム等の動的特徴の導入
や状態継続時間制御の導入によってさらに識別能力を向
上させることが出来る。

【００１７】

【発明の効果】ＨＭＭを用いて言語の識別を行う装置で
あって、言語毎のエルゴディックＨＭＭで言語による音
韻の発音・スペクトル構造の違いを捉え、全言語共通の
エルゴディックＨＭＭの状態系列によって言語による音
韻配列構造を捉える構成とすることによって、言語の識
別能力が大幅に向上した。また、状態遷移確率を重み付
けることにより、状態遷移確率のダイナミックレンジを
大きくすることにより言語の識別能力がさらに改善され
たものである。

【図面の簡単な説明】

【図１】エルゴディックＨＭＭの説明図

【図２】本発明による言語モデル作成・記憶装置の第１
の実施例を示す図

【図３】本発明による言語モデル作成・記憶装置の第２
の実施例を示す図

【図４】本発明による言語識別装置の第１の実施例を示
す図

【図５】本発明による言語識別装置の第２の実施例を示
す図

【図６】本発明による言語モデル作成・記憶装置の第３
の実施例を示す図

【図７】本発明による言語識別装置の第３の実施例を示
す図

【図８】本発明による言語識別装置の第４の実施例を示
す図

【図９】本発明による言語識別装置の第５の実施例を示
す図

【符号の説明】

８１特徴抽出部８２言語１連続エルコ゛ティックHMM記憶部８３言語ｉ連続エルコ゛ティックHMM記憶部８４言語Ｉ連続エルコ゛ティックHMM記憶部８５特徴ヘ゛クトル系列発発生確率算出部８６最適状態系列算出部８７全言語共通連続エルコ゛ティックHMM記憶部８８状態系列書換部８９状態系列発生確率算出部９０言語１トライク゛ラム記憶部９１言語ｉトライク゛ラム記憶部９２言語Ｉトライク゛ラム記憶部

Claims

【特許請求の範囲】

【請求項１】テキスト音声信号を特徴ベクトルの系列に
変換する特徴抽出手段と、言語ｉ（ｉ＝１,...,Ｉ；Ｉ
識別すべき言語の種類）を含む多数種類の言語のテキス
ト音声を学習音声として、該音声の前記特徴抽出手段に
より抽出された前記全言語に対する特徴ベクトル系列か
ら前記全言語共通のエルゴディックＨＭＭ（Ergodic Hi
dden Markov Model）ＨＭＭ_comを作成する全言語共通エ
ルゴディックＨＭＭ作成手段と、該ＨＭＭ_comを記憶す
る全言語共通エルゴディックＨＭＭ記憶手段と、前記特
徴抽出手段によって得られる、言語ｉの特徴ベクトル系
列Ｙ_iに対応する前記ＨＭＭ_comの最適状態系列Ｓ_iを得
る最適状態系列算出手段と、該最適状態系列Ｓ_iのトラ
イグラムＴ_iを作成するトライグラム作成手段と、該ト
ライグラムＴ_i（ｉ＝１,...,Ｉ）を記憶するトライグラ
ム記憶手段とを備えたことを特徴とする言語モデル作成
・記憶装置。
【請求項２】テキスト音声信号を特徴ベクトルの系列に
変換する特徴抽出手段と、言語ｉ（ｉ＝１,...,Ｉ；Ｉ
識別すべき言語の種類）を含む多数種類の言語のテキス
ト音声を学習音声として、該音声の前記特徴抽出手段に
より抽出された前記全言語に対する特徴ベクトル系列か
ら前記全言語共通のエルゴディックＨＭＭ（Ergodic Hi
dden Markov Model）ＨＭＭ_comを作成する全言語共通エ
ルゴディックＨＭＭ作成手段と、該ＨＭＭ_comを記憶す
る全言語共通エルゴディックＨＭＭ記憶手段と、前記特
徴抽出手段によって得られる、言語ｉの特徴ベクトル系
列Ｙ_iに対応する前記ＨＭＭ_comの最適状態系列Ｓ_iを得
る最適状態系列算出手段と、Ｓ_iに対応する離散エルゴ
ディックＨＭＭＤＨＭＭ_iを作成する離散エルゴディッ
クＨＭＭ作成手段と、ＤＨＭＭ_i（ｉ＝１,...,Ｉ）を記
憶する離散エルゴディックＨＭＭ記憶手段とを備え、前
記ＤＨＭＭ_iは、前記ＨＭＭ_comの状態を表すラベルまた
は番号を出力ラベルとして出力する離散型エルゴディッ
クＨＭＭであって、そのパラメータはＳ_iに対応する尤
度が最大になるように推定されることを特徴とする言語
モデル作成・記憶装置。
【請求項３】言語識別すべきテキスト音声信号を特徴ベ
クトルの系列に変換する特徴抽出手段と、請求項１また
は請求項２記載の全言語共通エルゴディックＨＭＭ記憶
手段と、請求項１または請求項２記載の最適状態系列算
出手段と、請求項１記載のトライグラム記憶手段または
請求項２記載の離散ＨＭＭ記憶手段と、前記最適状態系
列発生度合を算出する最適状態系列発生度合算出手段
と、言語判定手段とを備え、前記特徴抽出手段は前記テ
キスト音声信号に対する特徴ベクトル系列を得、前記最
適状態系列算出手段は前記特徴ベクトル系列に対する前
記全言語共通エルゴディックＨＭＭの最適状態系列を
得、前記最適状態系列発生度合算出手段は該最適状態系
列の発生度合を言語毎に算出し、前記言語判定手段は前
記発生度合が最大の言語を前記識別すべき音声信号の言
語であると判定するものであって、前記最適状態系列の
発生度合は、前記トライグラムにより求められる前記最
適状態系列の発生確率または前記最適状態系列に対する
前記離散ＨＭＭの尤度に基づいて算出されることを特徴
とする言語識別装置。
【請求項４】テキスト音声信号を特徴ベクトルの系列に
変換する特徴抽出手段と、言語ｉ（ｉ＝１,...,Ｉ；Ｉ
識別すべき言語の種類）を含む多数種類の言語のテキス
ト音声を学習音声として、該音声の前記特徴抽出手段に
より抽出された前記全言語に対する特徴ベクトル系列か
ら前記全言語共通のエルゴディックＨＭＭ（Ergodic Hi
dden Markov Model）ＨＭＭ_comを作成する全言語共通エ
ルゴディックＨＭＭ作成手段と、該ＨＭＭ_comを記憶す
る全言語共通エルゴディックＨＭＭ記憶手段と、前記特
徴抽出手段によって得られる、言語ｉの特徴ベクトル系
列Ｙ_iに対応する前記ＨＭＭ_comの最適状態系列Ｓ_iを得
る最適状態系列算出手段と、該最適状態系列Ｓ_iのトラ
イグラムＴ_iを作成するトライグラム作成手段と、該ト
ライグラムＴ_i（ｉ＝１,...,Ｉ）を記憶するトライグラ
ム記憶手段と、前記特徴ベクトル系列Ｙ_iから、言語ｉ
の不特定話者、テキスト独立のエルゴディックＨＭＭ
ＣＨＭＭ_iを作成する言語別エルゴディックＨＭＭ作成
手段と、ＣＨＭＭ _i（ｉ＝１,...,Ｉ）を記憶する言語別
エルゴディックＨＭＭ記憶手段とを備えたことを特徴と
する言語モデル作成・記憶装置。
【請求項５】テキスト音声信号を特徴ベクトルの系列に
変換する特徴抽出手段と、言語ｉ（ｉ＝１,...,Ｉ；Ｉ
識別すべき言語の種類）を含む多数種類の言語のテキス
ト音声を学習音声として、該音声の前記特徴抽出手段に
より抽出された前記全言語に対する特徴ベクトル系列か
ら前記全言語共通のエルゴディックＨＭＭ（Ergodic Hi
dden Markov Model）ＨＭＭ_comを作成する全言語共通エ
ルゴディックＨＭＭ作成手段と、該ＨＭＭ_comを記憶す
る全言語共通エルゴディックＨＭＭ記憶手段と、前記特
徴抽出手段によって得られる、言語ｉの特徴ベクトル系
列Ｙ_iに対応する前記ＨＭＭ_comの最適状態系列Ｓ_iを得
る最適状態系列算出手段と、Ｓ_iに対応する離散エルゴ
ディックＨＭＭＤＨＭＭ_iを作成する離散エルゴディッ
クＨＭＭ作成手段と、ＤＨＭＭ_i（ｉ＝１,...,Ｉ）を記
憶する離散エルゴディックＨＭＭ記憶手段と、前記特徴
ベクトル系列Ｙ_iから、言語ｉの不特定話者、テキスト
独立のエルゴディックＨＭＭＣＨＭＭ_iを作成する言語
別エルゴディックＨＭＭ作成手段と、ＣＨＭＭ_i（ｉ＝
１,...,Ｉ）を記憶する言語別エルゴディックＨＭＭ記
憶手段とを備え、前記ＤＨＭＭ_iは、前記ＨＭＭ_comの状
態を表すラベルまたは番号を出力ラベルとして出力する
離散型エルゴディックＨＭＭであって、そのパラメータ
はＳ_iに対応する尤度が最大になるように推定されるこ
とを特徴とする言語モデル作成・記憶装置。
【請求項６】識別すべき音声信号を特徴ベクトルの系列
に変換する特徴抽出手段と、請求項４または請求項５記
載の全言語共通エルゴディックＨＭＭ記憶手段と、請求
項４または請求項５記載の最適状態系列算出手段と、請
求項４または請求項５記載の最適状態系列発生度合算出
手段と、請求項４または請求項５記載の言語別エルゴデ
ィックＨＭＭ記憶手段と、該各ＨＭＭの入力信号に対す
る尤度を算出する言語別尤度算出手段と、言語判定手段
とを備え、前記特徴抽出手段によって前記音声信号に対
する特徴ベクトル系列を得、前記最適状態系列算出手段
により前記特徴ベクトル系列に対する前記全言語共通エ
ルゴディックＨＭＭの最適状態系列を得、前記最適状態
系列発生度合算出手段により該最適状態系列の発生度合
を言語毎に算出して得られる最適状態系列発生度合と、
前記特徴抽出手段により抽出された特徴ベクトル系列に
対する前記言語別エルゴディックＨＭＭそれぞれの尤度
を前記言語別尤度算出手段により算出し、第ｉ言語（ｉ
＝１,・・・,Ｉ）に対する前記最適状態系列発生度合算出
手段の出力と第ｉ言語に対する前記言語別尤度算出手段
の出力との重み付け加算を行い、これを前記言語識別す
べき音声信号に対する第ｉ言語の尤度と見なし、前記言
語判定手段によりこれが最大になるｉを前記音声信号の
言語であると判定することを特徴とする言語識別装置。
【請求項７】全言語共通エルゴディックＨＭＭの最適状
態系列は、同一状態のラベルが連続するときは、その長
さに応じて分割し、各分割を１つのラベルに置き換え、
ごく少数の時はそのラベルを取り除くことによって、併
合・省略を行って得たものであることを特徴とする請求
項１、２、３、４、５、６記載の言語モデル作成・記憶
装置または言語識別装置。
【請求項８】エルゴディックＨＭＭの遷移確率に重み付
けたことを特徴とする請求項１、２、３、４、５、６記
載の言語モデル作成・記憶装置または言語識別装置。
【請求項９】識別すべき音声信号を特徴ベクトルの系列
に変換する特徴抽出手段と、言語ｉの特徴ベクトル系列
Ｙ_iから、言語ｉの不特定話者、テキスト独立のエルゴ
ディックＨＭＭＣＨＭＭ_iを作成する言語別エルゴディ
ックＨＭＭ作成手段と、ＣＨＭＭ_i（ｉ＝１,...,Ｉ）を
記憶する言語別エルゴディックＨＭＭ記憶手段とを備
え、前記ＣＨＭＭ_iは、状態遷移確率を重み付けること
によって得ることを特徴とする言語モデル作成・記憶装
置。
【請求項１０】識別すべき音声信号を特徴ベクトルの系
列に変換する特徴抽出手段と、請求項９記載の言語別エ
ルゴディックＨＭＭ記憶手段と、前記特徴抽出手段によ
り抽出された特徴ベクトル系列に対する前記各ＨＭＭの
尤度を算出する言語別尤度算出手段と、該尤度が最大に
なるｉを前記音声信号の言語であると判定する言語判定
手段とを備え、前記言語別尤度算出手段は状態遷移確率
を重み付けることによって各ＨＭＭの尤度を算出するこ
とを特徴とする言語識別装置。