JPH1097276A - 音声認識方法及び装置並びに記憶媒体 - Google Patents
音声認識方法及び装置並びに記憶媒体Info
- Publication number
- JPH1097276A JPH1097276A JP8249972A JP24997296A JPH1097276A JP H1097276 A JPH1097276 A JP H1097276A JP 8249972 A JP8249972 A JP 8249972A JP 24997296 A JP24997296 A JP 24997296A JP H1097276 A JPH1097276 A JP H1097276A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- output probability
- model
- speech
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 70
- 238000004364 calculation method Methods 0.000 claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000013139 quantization Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000001419 dependent effect Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】 話者モデルを利用した高速でかつ高認識率の
音声認識処理を実現する。 【解決手段】 入力音声を音響処理したものを、不特定
話者のモデルで粗い出力確率を計算し(203−a)、
必要部分についてのみ、話者モデルで詳細な出力確率を
計算する(203−b)ことによって、高認識率の認識
処理を高速で実現する。
音声認識処理を実現する。 【解決手段】 入力音声を音響処理したものを、不特定
話者のモデルで粗い出力確率を計算し(203−a)、
必要部分についてのみ、話者モデルで詳細な出力確率を
計算する(203−b)ことによって、高認識率の認識
処理を高速で実現する。
Description
【0001】
【発明の属する技術分野】本発明は、音声認識方法及び
装置並びに記憶媒体に関し、特にモデルを利用して入力
音声を認識する音声認識方法及び装置並びに記憶媒体に
関するものである。
装置並びに記憶媒体に関し、特にモデルを利用して入力
音声を認識する音声認識方法及び装置並びに記憶媒体に
関するものである。
【0002】
【従来の技術】従来の音声認識技術では、複数の話者ク
ラスモデルを用いるものはほとんどなく、また、複数の
話者クラスモデルを用いる場合でも男女性の性別モデル
を用い、認識を行なう前に事前にどのモデルを使用する
か選択する方法をとっており、不特定話者モデルを男性
モデル、女性モデルを同時に認識時に用いる方法はな
い。ましてや、その方法を用いた高速な処理方法は全く
存在しなかった。
ラスモデルを用いるものはほとんどなく、また、複数の
話者クラスモデルを用いる場合でも男女性の性別モデル
を用い、認識を行なう前に事前にどのモデルを使用する
か選択する方法をとっており、不特定話者モデルを男性
モデル、女性モデルを同時に認識時に用いる方法はな
い。ましてや、その方法を用いた高速な処理方法は全く
存在しなかった。
【0003】
【発明が解決しようとする課題】音声認識のモデル作成
において、HMMを音素環境方向に詳細化することによ
り高い認識性能が得られることが一般に知られている。
また、性別で代表される話者クラス方向の詳細化でも高
い認識性能が得られることが分かりつつある。しかし、
音素環境方法の詳細化においては、認識処理の増加はお
もにHMMの出力確率計算が増加したのに対し、話者ク
ラス方向の詳細化では出力確率計算も言語探索も増加す
る問題が生じる。音声認識においては高い認識率ととも
に、実時処理は達成しなければならない非常に重要な要
素である。したがって、音声認識の認識率を向上しつ
つ、実時処理を実現しなければならない。このため、話
者クラスモデルを用いた高速な処理方法を実現する必要
がある。
において、HMMを音素環境方向に詳細化することによ
り高い認識性能が得られることが一般に知られている。
また、性別で代表される話者クラス方向の詳細化でも高
い認識性能が得られることが分かりつつある。しかし、
音素環境方法の詳細化においては、認識処理の増加はお
もにHMMの出力確率計算が増加したのに対し、話者ク
ラス方向の詳細化では出力確率計算も言語探索も増加す
る問題が生じる。音声認識においては高い認識率ととも
に、実時処理は達成しなければならない非常に重要な要
素である。したがって、音声認識の認識率を向上しつ
つ、実時処理を実現しなければならない。このため、話
者クラスモデルを用いた高速な処理方法を実現する必要
がある。
【0004】
【課題を解決するための手段】上記従来の課題を解決す
るために、本発明は、入力音声を分析し、不特定話者モ
デルと、複数の話者クラスごとにクラスタリングされた
複数の話者モデルの両モデルと前記入力音声の分析結果
の出力確率を求め、前記求めた出力確率に基づいて前記
入力音声の認識結果を決定する音声認識方法及び装置並
びに記憶媒体を提供する。
るために、本発明は、入力音声を分析し、不特定話者モ
デルと、複数の話者クラスごとにクラスタリングされた
複数の話者モデルの両モデルと前記入力音声の分析結果
の出力確率を求め、前記求めた出力確率に基づいて前記
入力音声の認識結果を決定する音声認識方法及び装置並
びに記憶媒体を提供する。
【0005】上記従来の課題を解決するために、本発明
は、入力音声を分析し、前記入力音声の分析結果と不特
定話者モデルの出力確率を計算し、前記計算結果により
判断される部分について、前記入力音声の分析結果と話
者ごとに分類された話者モデルの出力確率を詳細に再計
算し、前記不特定話者モデルの出力確率計算結果及び前
記再計算された話者モデルの出力確率計算結果にしたが
って前記入力音声の認識結果を決定する音声認識方法及
び装置並びに記憶媒体を提供する。
は、入力音声を分析し、前記入力音声の分析結果と不特
定話者モデルの出力確率を計算し、前記計算結果により
判断される部分について、前記入力音声の分析結果と話
者ごとに分類された話者モデルの出力確率を詳細に再計
算し、前記不特定話者モデルの出力確率計算結果及び前
記再計算された話者モデルの出力確率計算結果にしたが
って前記入力音声の認識結果を決定する音声認識方法及
び装置並びに記憶媒体を提供する。
【0006】上記従来の課題を解決するために、本発明
は好ましくは、前記話者クラスは、階層構造で作成し、
かつ各話者が特定の階層において複数の話者クラスに属
するか、或は一つの話者クラスに属する状態で作成す
る。
は好ましくは、前記話者クラスは、階層構造で作成し、
かつ各話者が特定の階層において複数の話者クラスに属
するか、或は一つの話者クラスに属する状態で作成す
る。
【0007】上記従来の課題を解決するために、本発明
は好ましくは、入力した音声より音韻性ごとのモデルを
作成し、前記作成されたモデル間距離により前記入力し
た音声の属する話者クラスを決定し、前記決定された話
者クラスとして前記入力した音声のモデルを記憶する。
は好ましくは、入力した音声より音韻性ごとのモデルを
作成し、前記作成されたモデル間距離により前記入力し
た音声の属する話者クラスを決定し、前記決定された話
者クラスとして前記入力した音声のモデルを記憶する。
【0008】上記従来の課題を解決するために、本発明
は好ましくは、前記作成する音韻性ごとのモデルは、音
素HMMとする。
は好ましくは、前記作成する音韻性ごとのモデルは、音
素HMMとする。
【0009】上記従来の課題を解決するために、本発明
は好ましくは、前記音韻性ごとのモデルを音素モデルと
し、前記モデル間距離を計算する音素モデルの対応する
状態同士のモデル間距離の総和を前記話者クラスを決定
するためのモデル間距離とする。
は好ましくは、前記音韻性ごとのモデルを音素モデルと
し、前記モデル間距離を計算する音素モデルの対応する
状態同士のモデル間距離の総和を前記話者クラスを決定
するためのモデル間距離とする。
【0010】上記従来の課題を解決するために、本発明
は好ましくは、前記モデル間距離として、Bhatta
charyya距離を用いる。
は好ましくは、前記モデル間距離として、Bhatta
charyya距離を用いる。
【0011】上記従来の課題を解決するために、本発明
は好ましくは、前記モデル間距離として、Kullba
ck情報量を用いる。
は好ましくは、前記モデル間距離として、Kullba
ck情報量を用いる。
【0012】上記従来の課題を解決するために、本発明
は好ましくは、前記モデル間距離として、Euclid
距離を用いる。
は好ましくは、前記モデル間距離として、Euclid
距離を用いる。
【0013】上記従来の課題を解決するために、本発明
は好ましくは、前記出力確率の計算結果及び、予め定め
られた言語的制約による判断により言語探索を行い、前
記言語探索の結果を前記入力音声の認識結果として出力
する。
は好ましくは、前記出力確率の計算結果及び、予め定め
られた言語的制約による判断により言語探索を行い、前
記言語探索の結果を前記入力音声の認識結果として出力
する。
【0014】上記従来の課題を解決するために、本発明
は好ましくは、前記出力確率計算及び言語探索におい
て、共通に計算する部分の出力確率計算を前方向の探索
で行い、前記共通に計算する部分以外の出力確率計算を
後ろ方向の探索で行うことにより前記入力音声の認識結
果を決定する。
は好ましくは、前記出力確率計算及び言語探索におい
て、共通に計算する部分の出力確率計算を前方向の探索
で行い、前記共通に計算する部分以外の出力確率計算を
後ろ方向の探索で行うことにより前記入力音声の認識結
果を決定する。
【0015】上記従来の課題を解決するために、本発明
は好ましくは、前記複数の話者クラスモデルの言語探索
において、複数の話者クラスの各時刻ごとに求めた出力
確率をもとに所定の出力確率を求め、前記求めた所定の
出力確率に基づいて共通な言語探索を行う。
は好ましくは、前記複数の話者クラスモデルの言語探索
において、複数の話者クラスの各時刻ごとに求めた出力
確率をもとに所定の出力確率を求め、前記求めた所定の
出力確率に基づいて共通な言語探索を行う。
【0016】上記従来の課題を解決するために、本発明
は好ましくは、前記所定の出力確率を、不特定話者の出
力確率とする。
は好ましくは、前記所定の出力確率を、不特定話者の出
力確率とする。
【0017】上記従来の課題を解決するために、本発明
は好ましくは、前記所定の出力確率を、話者クラスの出
力確率の中の最大値とする。
は好ましくは、前記所定の出力確率を、話者クラスの出
力確率の中の最大値とする。
【0018】上記従来の課題を解決するために、本発明
は好ましくは、前記不特定話者モデルは、前記話者モデ
ルの上位モデルとする。
は好ましくは、前記不特定話者モデルは、前記話者モデ
ルの上位モデルとする。
【0019】上記従来の課題を解決するために、本発明
は好ましくは、前記出力確率の詳細な再計算は、すべて
の話者モデルに対して行う。
は好ましくは、前記出力確率の詳細な再計算は、すべて
の話者モデルに対して行う。
【0020】上記従来の課題を解決するために、本発明
は好ましくは、前記入力音声の分析結果と不特定話者モ
デルの出力確率の計算は、スカラ量子化とHMMの次元
独立高速出力確率計算方を用いる。
は好ましくは、前記入力音声の分析結果と不特定話者モ
デルの出力確率の計算は、スカラ量子化とHMMの次元
独立高速出力確率計算方を用いる。
【0021】
【発明の実施の形態】図1は本発明の実施の形態におけ
る装置の機能的な一構成図を示す。
る装置の機能的な一構成図を示す。
【0022】101はマイクやA/Dを含む音声入力部
であり、これより入力話者の音声を入力する。102は
音声パラメータを求める音響分析部であり、103は共
通の粗い出力確率を計算する出力確率計算部および話者
クラスごとの詳細な出力確率を計算する出力確率計算部
であり、104は話者クラスモデル(HMM)であり、
105は共通の粗い言語処理を行なう言語探索部および
話者クラスごとの詳細な言語処理を行なう言語探索部で
あり、106は言語処理に用いる文法・辞書であり、1
07は結果を出力する表示部である。
であり、これより入力話者の音声を入力する。102は
音声パラメータを求める音響分析部であり、103は共
通の粗い出力確率を計算する出力確率計算部および話者
クラスごとの詳細な出力確率を計算する出力確率計算部
であり、104は話者クラスモデル(HMM)であり、
105は共通の粗い言語処理を行なう言語探索部および
話者クラスごとの詳細な言語処理を行なう言語探索部で
あり、106は言語処理に用いる文法・辞書であり、1
07は結果を出力する表示部である。
【0023】図1は本発明の実施の形態における音声認
識装置の機能構成図を示したものであるが、図8はこの
音声認識装置のハード構成を示し、図1の各構成は、実
際にはこの図8に示す各構成により実現される。
識装置の機能構成図を示したものであるが、図8はこの
音声認識装置のハード構成を示し、図1の各構成は、実
際にはこの図8に示す各構成により実現される。
【0024】即ち、音声入力装置101は音声入力部8
4により実現される。音響処理部102、出力確率計算
部103、言語探索部105は各々ROM81或いはR
AM82に格納された制御プログラムに従ったCPU8
3の制御のもと実行される。
4により実現される。音響処理部102、出力確率計算
部103、言語探索部105は各々ROM81或いはR
AM82に格納された制御プログラムに従ったCPU8
3の制御のもと実行される。
【0025】話者クラスHMM104、文法・辞書10
6はROM81或いはRAM82に格納される。尚、R
AM82に格納される制御プログラム及び各HMMや辞
書・処理中に必要とするパラメータ等は、インターフェ
イス(I/F)85を介してCD−ROM84から、或
いは公衆回線を介して他の端末から(図示せず)インス
トールするものであっても良い。
6はROM81或いはRAM82に格納される。尚、R
AM82に格納される制御プログラム及び各HMMや辞
書・処理中に必要とするパラメータ等は、インターフェ
イス(I/F)85を介してCD−ROM84から、或
いは公衆回線を介して他の端末から(図示せず)インス
トールするものであっても良い。
【0026】表示部107は、CRTや液晶表示器等の
表示器87により実現され、また更に各種指示はキーボ
ードやマウス、タブレット等の入力手段88により実現
される。
表示器87により実現され、また更に各種指示はキーボ
ードやマウス、タブレット等の入力手段88により実現
される。
【0027】音声認識装置は、上記の要素により構成さ
れ図2に示す流れに従って動作する。201(101に
対応)の音声入力部で切り出された音声は、202(1
02に対応)の音響処理部にてフレーム毎に音声パラメ
ータに分析され、203(103に対応)の出力確率計
算部において、204(104に対応)のHMMを用い
て、主力確率の計算を行なう。この204(104に対
応)のHMMは複数の話者ごとにクラスタリングされた
話者クラスモデルが格納されている。203の出力確率
計算の時、まず共通の粗い出力確率を計算する出力確率
計算部で粗い出力確率を計算を行ない(203−a)、
その結果により認識結果に寄与しそうな状態の出力確率
を話者クラスごとの詳細な出力確率を出力確率計算部に
て再計算する(203−b)。ここで、共通の出力確率
をこれらの出力確率を用いて決定し、205(105に
対応)の言語探索部にて、206(106に対応)の文
法・辞書および先ほど求めた共通の出力確率を用いて、
共通の言語探索を行ない認識候補を決定する(205−
a)。さらに、205(105に対応)の言語探索部で
は、これら認識候補に対して、話者クラスごとの詳細な
出力確率を用いて、話者クラスごとの詳細な言語探索を
行ない認識結果とその尤度を求める(205−b)。こ
の結果を207(107に対応)に認識結果として出力
する。
れ図2に示す流れに従って動作する。201(101に
対応)の音声入力部で切り出された音声は、202(1
02に対応)の音響処理部にてフレーム毎に音声パラメ
ータに分析され、203(103に対応)の出力確率計
算部において、204(104に対応)のHMMを用い
て、主力確率の計算を行なう。この204(104に対
応)のHMMは複数の話者ごとにクラスタリングされた
話者クラスモデルが格納されている。203の出力確率
計算の時、まず共通の粗い出力確率を計算する出力確率
計算部で粗い出力確率を計算を行ない(203−a)、
その結果により認識結果に寄与しそうな状態の出力確率
を話者クラスごとの詳細な出力確率を出力確率計算部に
て再計算する(203−b)。ここで、共通の出力確率
をこれらの出力確率を用いて決定し、205(105に
対応)の言語探索部にて、206(106に対応)の文
法・辞書および先ほど求めた共通の出力確率を用いて、
共通の言語探索を行ない認識候補を決定する(205−
a)。さらに、205(105に対応)の言語探索部で
は、これら認識候補に対して、話者クラスごとの詳細な
出力確率を用いて、話者クラスごとの詳細な言語探索を
行ない認識結果とその尤度を求める(205−b)。こ
の結果を207(107に対応)に認識結果として出力
する。
【0028】〔話者クラスを考慮した高精度HMMの作
成方法〕話者クラスの作成方法および話者クラスHMM
の作成方法について記す。
成方法〕話者クラスの作成方法および話者クラスHMM
の作成方法について記す。
【0029】I.話者クラスの作成方法 以下に、話者クラスの作成方法を示す。話者クラスは、
当然のことながら音響的に類似した特徴を有する話者ど
うしをクラスタリングする。この話者性の音響的特徴の
類似度にはいろいろな方法が考えられる。例えば、 1)各話者の音響特徴を1つの分布として考え、話者ご
との分布を作成し、その分布間の距離を用いて話者間の
類似度を測る方法。
当然のことながら音響的に類似した特徴を有する話者ど
うしをクラスタリングする。この話者性の音響的特徴の
類似度にはいろいろな方法が考えられる。例えば、 1)各話者の音響特徴を1つの分布として考え、話者ご
との分布を作成し、その分布間の距離を用いて話者間の
類似度を測る方法。
【0030】2)不特定話者空間を複数の代表点や代表
分布で表現し、話者ごとの不特定話空間代表点の偏りを
もとめ、この偏りを類似度として話者間の類似度を測る
方法。
分布で表現し、話者ごとの不特定話空間代表点の偏りを
もとめ、この偏りを類似度として話者間の類似度を測る
方法。
【0031】3)話者ごとに音韻性を考慮した部分空間
を作成し、音韻性を考慮した部分空間ごとの対応をとっ
た上で、それらの類似度をもとめ、その部分空間の類似
度の総和をもって話者間の類似度を測る方法。などが考
えられる。
を作成し、音韻性を考慮した部分空間ごとの対応をとっ
た上で、それらの類似度をもとめ、その部分空間の類似
度の総和をもって話者間の類似度を測る方法。などが考
えられる。
【0032】1)の方法は、話者ごとに全音声空間を用
いて1状態1分布の連続HMMを学習し、話者ごとのH
MM間の距離を求めることで話者間の類似度を測ること
で実現できる。しかし、本方法は話者ごとの全音声空間
を1分布で表すため話者ごとの分布の平均がCepst
rum Meanとなり、あまり話者の違いが現れない
可能性がある。したがって、好ましい方法とは考えられ
ない。
いて1状態1分布の連続HMMを学習し、話者ごとのH
MM間の距離を求めることで話者間の類似度を測ること
で実現できる。しかし、本方法は話者ごとの全音声空間
を1分布で表すため話者ごとの分布の平均がCepst
rum Meanとなり、あまり話者の違いが現れない
可能性がある。したがって、好ましい方法とは考えられ
ない。
【0033】2)の方法は、不特定話者のcodebo
ok(例えばcodeword size1024)を
作成(つまり、1状態1024codewordの離散
分布HMMを学習)し、話者ごとにその出現確率をもと
め、その出現確率の偏りによって話者間の類似度を測る
ことで実現できる。本方法は、音声空間を部分空間にわ
けて考えている点では、1)の方法より好ましいと考え
る。しかし、音韻性を考慮していないため、ある話者の
ある音韻と別の話者の他の音韻間の類似度をもとに話者
間の類似度を測っている可能性があり、この点ではあま
り好ましい方法ではないと考える。
ok(例えばcodeword size1024)を
作成(つまり、1状態1024codewordの離散
分布HMMを学習)し、話者ごとにその出現確率をもと
め、その出現確率の偏りによって話者間の類似度を測る
ことで実現できる。本方法は、音声空間を部分空間にわ
けて考えている点では、1)の方法より好ましいと考え
る。しかし、音韻性を考慮していないため、ある話者の
ある音韻と別の話者の他の音韻間の類似度をもとに話者
間の類似度を測っている可能性があり、この点ではあま
り好ましい方法ではないと考える。
【0034】3)の方法は、話者ごとに音韻を考慮した
モデルを作成し、対応しているモデル間の類似度の総和
で、話者間の類似度を測ることにより実現できる。たと
えば、3状態1分布の音素HMMを各話者ごとに作成
し、話者間の類似度は各話者の対応する音素の対応する
状態間の類似度をもとめ、それらの総和をもとに話者間
の類似度を測る。本方法は、各話者の全音声空間を考慮
し、音素および状態で表した音素の部分空間の対応をも
取りつつ、話者間の類似度を測ることになり、音韻特徴
を考慮しながら、話者ごとの詳細な音響特徴の違いを反
映した話者間の類似度を測ることができる。音素モデル
をさらに詳細な音素環境依存型HMMに置きかえれば、
より詳細な話者間の類似度を測ることも可能となる。
モデルを作成し、対応しているモデル間の類似度の総和
で、話者間の類似度を測ることにより実現できる。たと
えば、3状態1分布の音素HMMを各話者ごとに作成
し、話者間の類似度は各話者の対応する音素の対応する
状態間の類似度をもとめ、それらの総和をもとに話者間
の類似度を測る。本方法は、各話者の全音声空間を考慮
し、音素および状態で表した音素の部分空間の対応をも
取りつつ、話者間の類似度を測ることになり、音韻特徴
を考慮しながら、話者ごとの詳細な音響特徴の違いを反
映した話者間の類似度を測ることができる。音素モデル
をさらに詳細な音素環境依存型HMMに置きかえれば、
より詳細な話者間の類似度を測ることも可能となる。
【0035】以上より、方法3)により話者間の類似度
を求める。また、この類似度をもとに話者クラスを作成
した。以下、話者クラス作成のアルゴリズムを記す。
を求める。また、この類似度をもとに話者クラスを作成
した。以下、話者クラス作成のアルゴリズムを記す。
【0036】II.話者クラス作成のアルゴリズム 1)まず、話者ごとに3状態1分布の音素HMMを作成
する。
する。
【0037】無音を除いた音素が24音素であるとする
と、各話者は24音素×3状態=72の部分空間で表さ
れることになる。また、話者が204人であると4,8
96個のHMMが作成され、総分布数はその状態数倍
(3)で14,688個となる。
と、各話者は24音素×3状態=72の部分空間で表さ
れることになる。また、話者が204人であると4,8
96個のHMMが作成され、総分布数はその状態数倍
(3)で14,688個となる。
【0038】2)作成された話者ごとの音素HMMを用
いて話者間の類似度を測る。
いて話者間の類似度を測る。
【0039】2名の話者S(1) ,S(2) の音素HMM
(24種)の対応する音素mの対応する状態nをそれぞ
れφp ,φq とした時、これら状態間の類似度を距離d
(φp,φq )で表す。φp ,φq は、次の式(1)で
表される状態を示す。
(24種)の対応する音素mの対応する状態nをそれぞ
れφp ,φq とした時、これら状態間の類似度を距離d
(φp,φq )で表す。φp ,φq は、次の式(1)で
表される状態を示す。
【0040】
【外1】 各状態は1分布で表されているため、この距離尺度d
(φp ,φq )にBhattacharyya距離を用
いれば、状態間の距離は次の式(2)で計算される。
(φp ,φq )にBhattacharyya距離を用
いれば、状態間の距離は次の式(2)で計算される。
【0041】
【外2】 μi ,Σi はそれぞれ平均値と分散である。
【0042】話者間の対応する全音素の全状態間の距離
を上式で求め、その総和を話者間の距離D(S(1) ,S
(2) )とし、これをもって話者間の類似度とする。D
(S(1) ,S(2) )は次の式(3)より求める。
を上式で求め、その総和を話者間の距離D(S(1) ,S
(2) )とし、これをもって話者間の類似度とする。D
(S(1) ,S(2) )は次の式(3)より求める。
【0043】
【外3】
【0044】ここで、MはHMMの種類数、NはHMM
あたりの状態数を表す。
あたりの状態数を表す。
【0045】全2話者間の類似度を上述の方法で求め
る。
る。
【0046】3)全話者間の類似度を用いて、LBGア
ルゴリズムを用いて話者クラスタリングを行なう。LB
Gアルゴリズムは手順で実行される。
ルゴリズムを用いて話者クラスタリングを行なう。LB
Gアルゴリズムは手順で実行される。
【0047】1.全話者に対して類似度の総和が最小と
なる中心話者を用いる。中心話者とは、考えているクラ
ス内で類似度の総和が最小となる話者を指す。
なる中心話者を用いる。中心話者とは、考えているクラ
ス内で類似度の総和が最小となる話者を指す。
【0048】2.考えているクラス内で、中心話者より
最も遠い話者Sa を求める。
最も遠い話者Sa を求める。
【0049】3.考えているクラス内で、その遠い話者
Sa より最も遠い話者Sb を求める。
Sa より最も遠い話者Sb を求める。
【0050】4.考えているクラス内の話者を、話者S
a 、話者Sb のいずれか近い方に全話者を分け、2つの
話者クラスを作成する。
a 、話者Sb のいずれか近い方に全話者を分け、2つの
話者クラスを作成する。
【0051】5.分かれた2話者クラスごとに中心話者
Sa 1,Sb 1を更新する。
Sa 1,Sb 1を更新する。
【0052】6.求まっている全ての中心話者(中心話
者数は、現在考えている話者クラス数と一致)を用い、
全話者を最も近い中心話者割り当てることにより、再ク
ラスタリングを行なう。この6.の処理を中心話者の更
新される間継続する。中心話者が更新されなければ、
7.に進む。話者クラスが所望の数ならば終了する。
者数は、現在考えている話者クラス数と一致)を用い、
全話者を最も近い中心話者割り当てることにより、再ク
ラスタリングを行なう。この6.の処理を中心話者の更
新される間継続する。中心話者が更新されなければ、
7.に進む。話者クラスが所望の数ならば終了する。
【0053】7.全ての話者クラスのうち最も中心話者
に対する類似度の総和が大きいクラスを求め、そのクラ
スについて2.,3.,4.,5.,6.の処理を行な
う。
に対する類似度の総和が大きいクラスを求め、そのクラ
スについて2.,3.,4.,5.,6.の処理を行な
う。
【0054】以上の方法により話者クラスを作成する。
作成した話者クラスはこのまま用いても良いのである
が、このように作成すると話者クラスによって、その話
者性の広がり方が話者クラスによって異なってくる。も
し、話者クラスの広がり方を同程度にしたい場合には、
最も広がっている(中心話者との類似度の総和が最大
の)話者クラスの広がり具合(中心話者との類似度の総
和)が同程度となるまで、各話者クラスごとに近い話者
を順次取り込む方法も考えられる。このように話者クラ
スを決定すれば、話者クラスの広がりも均一になり、境
界話者に関しては複数の話者クラスに属することにな
り、認識時における話者クラスの決定の誤りが大きく影
響することも避けられる。
作成した話者クラスはこのまま用いても良いのである
が、このように作成すると話者クラスによって、その話
者性の広がり方が話者クラスによって異なってくる。も
し、話者クラスの広がり方を同程度にしたい場合には、
最も広がっている(中心話者との類似度の総和が最大
の)話者クラスの広がり具合(中心話者との類似度の総
和)が同程度となるまで、各話者クラスごとに近い話者
を順次取り込む方法も考えられる。このように話者クラ
スを決定すれば、話者クラスの広がりも均一になり、境
界話者に関しては複数の話者クラスに属することにな
り、認識時における話者クラスの決定の誤りが大きく影
響することも避けられる。
【0055】III.話者クラスHMMの作成方法 作成された話者クラスごとに属する話者の音声データを
用いて、通常のEM−algorithmを用い、音素
環境依存型HMMなどを作成する。例えば、4つの話者
クラスで、3状態12分布の右音素環境依存型HMM
(238種)を作成する。
用いて、通常のEM−algorithmを用い、音素
環境依存型HMMなどを作成する。例えば、4つの話者
クラスで、3状態12分布の右音素環境依存型HMM
(238種)を作成する。
【0056】〔話者クラスHMMを用いた高速な音声認
識方法〕本節では、話者クラスHMMを用いた高速な音
声認識方法について記す。
識方法〕本節では、話者クラスHMMを用いた高速な音
声認識方法について記す。
【0057】まずは、従来法による話者クラスHMMを
用いた音声認識方法を図3に示す。基本的には、話者ク
ラスHMMの種類(N)分だけ音声認識処理を並列にに
行なうことになるため、話者クラスが1つである不特定
話者クラスHMMを用いた時のN倍の音声処理がかか
る。つまり、出力確率計算も言語探索もN倍になる。も
し、本計算量が必要であるとなると、実際の音声認識に
話者クラスHMMを用いることは、現実問題として、音
声認識には実時間性が重要であるため、非常に高速な計
算機か並列計算機等を必要とすることになり、結果的に
は高価なものにつき、実用化は難しくなる。
用いた音声認識方法を図3に示す。基本的には、話者ク
ラスHMMの種類(N)分だけ音声認識処理を並列にに
行なうことになるため、話者クラスが1つである不特定
話者クラスHMMを用いた時のN倍の音声処理がかか
る。つまり、出力確率計算も言語探索もN倍になる。も
し、本計算量が必要であるとなると、実際の音声認識に
話者クラスHMMを用いることは、現実問題として、音
声認識には実時間性が重要であるため、非常に高速な計
算機か並列計算機等を必要とすることになり、結果的に
は高価なものにつき、実用化は難しくなる。
【0058】しかし、ここでは以下の方法により、上記
の計算量を大幅に軽減できる話者クラスHMMを用いた
音声認識方法を提案する。提案する方法をこの方法を図
4に示す。提案する音声認識処理の特徴は、話者クラス
HMMの認識を行なう際にも、必ず不特定話者HMMを
用いることを特徴としている。不特定話者HMMは全て
の話者クラスHMMの上位話者クラスに当たる。不特定
話者HMMの結果を各話者クラスHMMの推定値として
用いることにより、出力確率の計算や言語探索の効率化
を測ることを狙っている。
の計算量を大幅に軽減できる話者クラスHMMを用いた
音声認識方法を提案する。提案する方法をこの方法を図
4に示す。提案する音声認識処理の特徴は、話者クラス
HMMの認識を行なう際にも、必ず不特定話者HMMを
用いることを特徴としている。不特定話者HMMは全て
の話者クラスHMMの上位話者クラスに当たる。不特定
話者HMMの結果を各話者クラスHMMの推定値として
用いることにより、出力確率の計算や言語探索の効率化
を測ることを狙っている。
【0059】提案する話者クラスHMMを用いた高速な
音声認識方法は以下の手順で動作する。
音声認識方法は以下の手順で動作する。
【0060】1)音響分析された結果に対して、不特定
話者HMM(SI HMM)の状態出力確率の推定値を
スカラ量子化と次元独立出力確率計算を用いた高速出力
確率演算法IDMM+SQにより計算する。
話者HMM(SI HMM)の状態出力確率の推定値を
スカラ量子化と次元独立出力確率計算を用いた高速出力
確率演算法IDMM+SQにより計算する。
【0061】2)IDMM+SQで推定された不特定話
者HMMの出力確率の上位は認識結果に寄与する状態で
あると仮定し、不特定話者HMMおよび各話者クラスH
MMを用いて、各話者クラスHMMの状態出力確率の再
計算を行ない、精密な出力確率を求める。このとき、不
特定話者HMMは話者クラスHMMの上位クラスである
ため、話者クラスHMMの出力確率が高そうな状態で
は、不特定話者HMMにおいても比較的高い出力確率が
得られると考えられる。したがって、IDMM+SQで
推定された不特定話者HMMの出力確率を各話者クラス
HMMの状態出力確率に用いても良い。
者HMMの出力確率の上位は認識結果に寄与する状態で
あると仮定し、不特定話者HMMおよび各話者クラスH
MMを用いて、各話者クラスHMMの状態出力確率の再
計算を行ない、精密な出力確率を求める。このとき、不
特定話者HMMは話者クラスHMMの上位クラスである
ため、話者クラスHMMの出力確率が高そうな状態で
は、不特定話者HMMにおいても比較的高い出力確率が
得られると考えられる。したがって、IDMM+SQで
推定された不特定話者HMMの出力確率を各話者クラス
HMMの状態出力確率に用いても良い。
【0062】3)続いて、不特定話者HMMの全出力確
率を用いて、前方向の言語探索(Forward Se
arch)を行なう。この際、他の話者クラスの言語探
索は行なわない。本音声認識方法では、Astar探索
に基づくtree−trellis basedsea
rchにより後方向の言語探索(BackwardSe
arch)により最終的な認識結果を求める。このAs
tar探索のhuristic costには、不特定
話者のforward scoreを用いるため、話者
クラスごとのForward Viterbi Sea
rchは必要としない。この場合に、huristic
costは、厳密な意味でのAstar探索の条件を
満たしているわけではないが、不特定話者HMMは話者
クラスHMMの上位クラスであるため、話者クラスHM
Mのhuristic costの推定値としては、比
較的良い推定値となっているので、実際問題としては、
最終のN−Bestの結果をソートし直せばほとんど問
題にならない。また、複数の話者クラス間の結果を用い
ているため、いずれにしても最終のN−Bestの結果
をソートし直す必要がある。
率を用いて、前方向の言語探索(Forward Se
arch)を行なう。この際、他の話者クラスの言語探
索は行なわない。本音声認識方法では、Astar探索
に基づくtree−trellis basedsea
rchにより後方向の言語探索(BackwardSe
arch)により最終的な認識結果を求める。このAs
tar探索のhuristic costには、不特定
話者のforward scoreを用いるため、話者
クラスごとのForward Viterbi Sea
rchは必要としない。この場合に、huristic
costは、厳密な意味でのAstar探索の条件を
満たしているわけではないが、不特定話者HMMは話者
クラスHMMの上位クラスであるため、話者クラスHM
Mのhuristic costの推定値としては、比
較的良い推定値となっているので、実際問題としては、
最終のN−Bestの結果をソートし直せばほとんど問
題にならない。また、複数の話者クラス間の結果を用い
ているため、いずれにしても最終のN−Bestの結果
をソートし直す必要がある。
【0063】4)最後に、各話者クラスごとに後方向言
語探索(Backward Search)を行ない最
終的な認識結果を求める。このときに、上述したように
各話者クラスのhuristic costに不特定話
者のForward Searchの結果を用いる。後
向きViterbi探索には、2)で推定した話者クラ
スごとの出力確率を用いる。
語探索(Backward Search)を行ない最
終的な認識結果を求める。このときに、上述したように
各話者クラスのhuristic costに不特定話
者のForward Searchの結果を用いる。後
向きViterbi探索には、2)で推定した話者クラ
スごとの出力確率を用いる。
【0064】5)各話者クラスごとに求めた認識結果を
ソートし直し、最大尤度の結果を第一位の認識結果とす
る。
ソートし直し、最大尤度の結果を第一位の認識結果とす
る。
【0065】本方法により、認識結果に寄与しそうなほ
とんどの計算は、全て各話者クラスごとの情報に基づい
て計算したことになる。
とんどの計算は、全て各話者クラスごとの情報に基づい
て計算したことになる。
【0066】従来法と提案法による話者クラスHMMの
用いた音声認識処理時間の模式図を図5に示す。図5で
は、横軸に時間軸(処理時間)をとっている。一番上は
不特定話者1話者クラスの認識処理時間を示し、二番目
には、不特定話者1話者クラスをIDMM+SQにより
高速化した場合の認識処理時間を示した。三番目には、
IDMM+SQを用い、3話者クラスの話者クラスHM
Mを単に並列に用いた従来法の認識処理時間を示し、一
番下には、提案する話者クラスHMMを用いた高速な音
声認識方法の3話者クラスの認識処理時間を示した、出
力確率計算(Bjot)や言語探索(Forward/
Backward Search)の処理時間は認識対
象であるタスクやHMMの性能にも依存しその長さは異
なるが、我々が扱っている範囲では比較的妥当な長さを
表していると考え良い。但し、Backward Se
archの処理時間(図ではかなり大きく表されてい
る)は、実際には0.1秒もかからない。
用いた音声認識処理時間の模式図を図5に示す。図5で
は、横軸に時間軸(処理時間)をとっている。一番上は
不特定話者1話者クラスの認識処理時間を示し、二番目
には、不特定話者1話者クラスをIDMM+SQにより
高速化した場合の認識処理時間を示した。三番目には、
IDMM+SQを用い、3話者クラスの話者クラスHM
Mを単に並列に用いた従来法の認識処理時間を示し、一
番下には、提案する話者クラスHMMを用いた高速な音
声認識方法の3話者クラスの認識処理時間を示した、出
力確率計算(Bjot)や言語探索(Forward/
Backward Search)の処理時間は認識対
象であるタスクやHMMの性能にも依存しその長さは異
なるが、我々が扱っている範囲では比較的妥当な長さを
表していると考え良い。但し、Backward Se
archの処理時間(図ではかなり大きく表されてい
る)は、実際には0.1秒もかからない。
【0067】結局、話者クラスHMMを単に並列に計算
する場合と比べて、IDMM+SQの計算とForwa
rd Viterbi Searchのそれぞれを話者
クラス数(N)分だけ計算していたのが、それぞれ不特
定話者HMMのIDMM+SQとForward Se
archの各1回となり、Nが大きくなればなるほど、
提案方法のメリットも大きくなってくる。また、話者ク
ラスの数(N)に比例して増える各話者クラスごとの出
力確率再計算の計算とBackward Search
の計算量は、全体の中で少ないため、本方法は全体とし
て非常に高速な処理となる。
する場合と比べて、IDMM+SQの計算とForwa
rd Viterbi Searchのそれぞれを話者
クラス数(N)分だけ計算していたのが、それぞれ不特
定話者HMMのIDMM+SQとForward Se
archの各1回となり、Nが大きくなればなるほど、
提案方法のメリットも大きくなってくる。また、話者ク
ラスの数(N)に比例して増える各話者クラスごとの出
力確率再計算の計算とBackward Search
の計算量は、全体の中で少ないため、本方法は全体とし
て非常に高速な処理となる。
【0068】この結果、高速計算機や並列計算機などを
用いずとも、実時間性を実現できる可能性が高まり、実
用化を可能性とする。
用いずとも、実時間性を実現できる可能性が高まり、実
用化を可能性とする。
【0069】〔話者クラスHMMを用いた音声認識実験
とその結果〕多数話者クラスを用いた実験を行なった。
その結果を図7に示す。階層的な話者クラス:a)不特
定話者クラス(g1)、b男女性の話者クラス(g
2)、c)男女性各4クラスの計8話者クラス(g8)
を作成し、これらを用いて認識実験を行なった。これら
a〜cの話者クラスごとに、3状態6分布の右音素環境
依存型HMM(238種)を作成し、男女性20名が発
声した単語(電話音声)を用いて520単語の認識実験
を行なった。
とその結果〕多数話者クラスを用いた実験を行なった。
その結果を図7に示す。階層的な話者クラス:a)不特
定話者クラス(g1)、b男女性の話者クラス(g
2)、c)男女性各4クラスの計8話者クラス(g8)
を作成し、これらを用いて認識実験を行なった。これら
a〜cの話者クラスごとに、3状態6分布の右音素環境
依存型HMM(238種)を作成し、男女性20名が発
声した単語(電話音声)を用いて520単語の認識実験
を行なった。
【0070】話者クラスを用いた効果が図7に示される
実験結果より示された。この結果では、話者クラスに不
特定話者クラスを共に用いた方が最大改悪話者(%)が
押さえられ、最大改善話者(%)および平均改善(%)
も向上した。
実験結果より示された。この結果では、話者クラスに不
特定話者クラスを共に用いた方が最大改悪話者(%)が
押さえられ、最大改善話者(%)および平均改善(%)
も向上した。
【0071】先の説明では、話者クラスに不特定話者と
男女性話者クラスを用いた例について説明したが、さら
に多数の話者クラスを用いても一向に問題はない。
男女性話者クラスを用いた例について説明したが、さら
に多数の話者クラスを用いても一向に問題はない。
【0072】先の説明では、共通の出力確率計算に不特
定話者のものを用いた例について説明したが、話者クラ
スの出力確率値から一つ決定できる手段があればそれを
用いても一向に問題はない。例えば、話者クラスHMM
の出力確率の最大値を用いるようにしても良い。
定話者のものを用いた例について説明したが、話者クラ
スの出力確率値から一つ決定できる手段があればそれを
用いても一向に問題はない。例えば、話者クラスHMM
の出力確率の最大値を用いるようにしても良い。
【0073】先の説明では、粗い出力率の計算にIDM
M+SQを用いた例について説明したが、粗い出力確率
の計算に分布数の少ないHMMを用い、詳細な出力確率
の計算には分布数の多いHMMを用いる方法や、粗い出
力確率の計算に音素HMMを用い、詳細な出力確率の計
算に音素環境依存型HMMを用いる方法でも一向に問題
ない。
M+SQを用いた例について説明したが、粗い出力確率
の計算に分布数の少ないHMMを用い、詳細な出力確率
の計算には分布数の多いHMMを用いる方法や、粗い出
力確率の計算に音素HMMを用い、詳細な出力確率の計
算に音素環境依存型HMMを用いる方法でも一向に問題
ない。
【0074】先の説明では、話者クラスを階層ごとに2
倍の話者クラスとする例について説明したが如何ように
増やしても一向に問題ない。
倍の話者クラスとする例について説明したが如何ように
増やしても一向に問題ない。
【0075】先の説明では、話者クラス内の話者が重な
らないようにした例について説明したが、重なるように
クラスタリングしても一向に問題はない。
らないようにした例について説明したが、重なるように
クラスタリングしても一向に問題はない。
【0076】
【発明の効果】本発明を用いることにより高速かつ高い
認識率を示す音声認識を実現する。
認識率を示す音声認識を実現する。
【図1】本発明による実施の形態における機能構成図。
【図2】本発明による実施例の形態の処理の流れ図。
【図3】本発明の話者クラスモデルを用いた従来処理の
図。
図。
【図4】本発明の話者クラスモデルを用いた高速処理の
図。
図。
【図5】本発明の処理時間の比較の図。
【図6】発明の階層構造を持つ話者クラスの図。
【図7】話者クラスを用いた電話音声の認識結果を示す
図。
図。
【図8】発明の実施の形態における装置のハード構成例
示図。
示図。
Claims (21)
- 【請求項1】 入力音声を分析し、 不特定話者モデルと、複数の話者クラスごとにクラスタ
リングされた複数の話者モデルの両モデルと前記入力音
声の分析結果の出力確率を求め、 前記求めた出力確率に基づいて前記入力音声の認識結果
を決定することを特徴とする音声認識方法。 - 【請求項2】 入力音声を分析し、 前記入力音声の分析結果と不特定話者モデルの出力確率
を計算し、 前記計算結果により判断される部分について、前記入力
音声の分析結果と話者ごとに分類された話者モデルの出
力確率を詳細に再計算し、 前記不特定話者モデルの出力確率計算結果及び前記再計
算された話者モデルの出力確率計算結果にしたがって前
記入力音声の認識結果を決定することを特徴とする音声
認識方法。 - 【請求項3】 前記話者クラスは、階層構造で作成し、
かつ各話者が特定の階層において複数の話者クラスに属
するか、或は一つの話者クラスに属する状態で作成する
ことを特徴とする請求項2に記載の音声認識方法。 - 【請求項4】 入力した音声より音韻性ごとのモデルを
作成し、 前記作成されたモデル間距離により前記入力した音声の
属する話者クラスを決定し、 前記作成された話者クラスとして前記入力した音声のモ
デルを記憶することを特徴とする請求項2に記載の音声
認識方法。 - 【請求項5】 前記作成する音韻性ごとのモデルは、音
素HMMとすることを特徴とする請求項4に記載の音声
認識方法。 - 【請求項6】 前記音韻性ごとのモデルを音素モデルと
し、 前記モデル間距離を計算する音素モデルの対応する状態
同士のモデル間距離の総和を前記話者クラスを決定する
ためのモデル間距離とすることを特徴とする請求項4に
記載の音声認識方法。 - 【請求項7】 前記モデル間距離として、Bhatta
charyya距離を用いることを特徴とする請求項4
に記載の音声認識方法。 - 【請求項8】 前記モデル間距離として、Kullba
ck情報量を用いることを特徴とする請求項4に記載の
音声認識方法。 - 【請求項9】 前記モデル間距離として、Euclid
距離を用いることを特徴とする請求項4に記載の音声認
識方法。 - 【請求項10】 前記出力確率の計算結果及び、予め定
められた言語的制約による判断により言語探索を行い、 前記言語探索の結果を前記入力音声の認識結果として出
力することを特徴とする請求項2に記載の音声認識方
法。 - 【請求項11】 前記出力確率計算及び言語探索におい
て、 共通に計算する部分の出力確率計算を前方向の探索で行
い、 前記共通に計算する部分以外の出力確率計算を後ろ方向
の探索で行うことにより前記入力音声の認識結果を決定
することを特徴とする請求項10に記載の音声認識方
法。 - 【請求項12】 前記複数の話者クラスモデルの言語探
索において、複数の話者クラスの各時刻ごとに求めた出
力確率をもとに所定の出力確率を求め、 前記求めた所定の出力確率に基づいて共通な言語探索を
行うことを特徴とする請求項10に記載の音声認識方
法。 - 【請求項13】 前記所定の出力確率を、不特定話者の
出力確率とすることを特徴とする請求項12に記載の音
声認識方法。 - 【請求項14】 前記所定の出力確率を、話者クラスの
出力確率の中の最大値とすることを特徴とする請求項1
2に記載の音声認識方法。 - 【請求項15】 前記不特定話者モデルは、前記話者モ
デルの上位モデルとすることを特徴とする請求項2に記
載の音声認識方法。 - 【請求項16】 前記出力確率の詳細な再計算は、すべ
ての話者モデルに対して行うことを特徴とする請求項2
に記載の音声認識方法。 - 【請求項17】 前記入力音声の分析結果と不特定話者
モデルの出力確率の計算は、スカラ量子化とHMMの次
元独立高速出力確率計算方を用いることを特徴とする請
求項2に記載の音声認識方法。 - 【請求項18】 入力音声を分析する分析手段と、 不特定話者モデルと、複数の話者クラスごとにクラスタ
リングされた複数の話者モデルの両モデルと前記入力音
声の分析結果の出力確率を導出する出力確率導出手段
と、 前記求めた出力確率に基づいて前記入力音声の認識結果
を決定する認識結果決定手段とを有することを特徴とす
る音声認識装置。 - 【請求項19】 入力音声を分析する分析手段と、 前記入力音声の分析結果と不特定話者モデルの出力確率
を計算する出力確率導出手段と、 前記計算結果により判断される部分について、前記入力
音声の分析結果と話者ごとに分類された話者モデルの出
力確率を詳細に再計算する出力確率詳細導出手段と、 前記不特定話者モデルの出力確率計算結果及び前記再計
算された話者モデルの出力確率計算結果にしたがって前
記入力音声の認識結果を決定する認識結果決定手段とを
有することを特徴とする音声認識装置。 - 【請求項20】 入力音声を分析し、 不特定話者モデルと、複数の話者クラスごとにクラスタ
リングされた複数の話者モデルの両モデルと前記入力音
声の分析結果の出力確率を求め、 前記求めた出力確率に基づいて前記入力音声の認識結果
を決定する為のプログラムを記憶した記憶媒体。 - 【請求項21】 入力音声を分析し、 前記入力音声の分析結果と不特定話者モデルの出力確率
を計算し、 前記計算結果により判断される部分について、前記入力
音声の分析結果と話者ごとに分類された話者モデルの出
力確率を詳細に再計算し、 前記不特定話者モデルの出力確率計算結果及び前記再計
算された話者モデルの出力確率計算結果にしたがって前
記入力音声の認識結果を決定する為のプログラムを記憶
した記憶媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8249972A JPH1097276A (ja) | 1996-09-20 | 1996-09-20 | 音声認識方法及び装置並びに記憶媒体 |
US08/931,527 US6108628A (en) | 1996-09-20 | 1997-09-16 | Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model |
DE69726235T DE69726235T2 (de) | 1996-09-20 | 1997-09-18 | Verfahren und Vorrichtung zur Spracherkennung |
EP97307276A EP0831456B1 (en) | 1996-09-20 | 1997-09-18 | Speech recognition method and apparatus therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8249972A JPH1097276A (ja) | 1996-09-20 | 1996-09-20 | 音声認識方法及び装置並びに記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1097276A true JPH1097276A (ja) | 1998-04-14 |
Family
ID=17200934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8249972A Withdrawn JPH1097276A (ja) | 1996-09-20 | 1996-09-20 | 音声認識方法及び装置並びに記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6108628A (ja) |
EP (1) | EP0831456B1 (ja) |
JP (1) | JPH1097276A (ja) |
DE (1) | DE69726235T2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7058580B2 (en) | 2000-05-24 | 2006-06-06 | Canon Kabushiki Kaisha | Client-server speech processing system, apparatus, method, and storage medium |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
JP2013152475A (ja) * | 2001-03-28 | 2013-08-08 | Qualcomm Inc | 話し手に暗黙的に順応する技術を用いた音声認識システム |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US6684186B2 (en) * | 1999-01-26 | 2004-01-27 | International Business Machines Corporation | Speaker recognition using a hierarchical speaker model tree |
JP2001075964A (ja) * | 1999-08-31 | 2001-03-23 | Sony Corp | 情報処理装置および情報処理方法、並びに記録媒体 |
JP3969908B2 (ja) | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US7689416B1 (en) | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
US6526379B1 (en) * | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
JP3728172B2 (ja) | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
US7047192B2 (en) * | 2000-06-28 | 2006-05-16 | Poirier Darrell A | Simultaneous multi-user real-time speech recognition system |
JP2002073072A (ja) * | 2000-08-31 | 2002-03-12 | Sony Corp | モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置 |
JP3774698B2 (ja) * | 2000-10-11 | 2006-05-17 | キヤノン株式会社 | 情報処理装置、情報処理方法及び記憶媒体 |
US7529666B1 (en) * | 2000-10-30 | 2009-05-05 | International Business Machines Corporation | Minimum bayes error feature selection in speech recognition |
EP1207517B1 (en) * | 2000-11-16 | 2007-01-03 | Sony Deutschland GmbH | Method for recognizing speech |
JP2002268681A (ja) * | 2001-03-08 | 2002-09-20 | Canon Inc | 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法 |
US7038690B2 (en) * | 2001-03-23 | 2006-05-02 | Microsoft Corporation | Methods and systems for displaying animated graphics on a computing device |
US7239324B2 (en) * | 2001-03-23 | 2007-07-03 | Microsoft Corporation | Methods and systems for merging graphics for display on a computing device |
JP3542578B2 (ja) * | 2001-11-22 | 2004-07-14 | キヤノン株式会社 | 音声認識装置及びその方法、プログラム |
JP2004012698A (ja) * | 2002-06-05 | 2004-01-15 | Canon Inc | 情報処理装置及び情報処理方法 |
JP4280505B2 (ja) * | 2003-01-20 | 2009-06-17 | キヤノン株式会社 | 情報処理装置及び情報処理方法 |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
JP4541781B2 (ja) * | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
US20070124148A1 (en) * | 2005-11-28 | 2007-05-31 | Canon Kabushiki Kaisha | Speech processing apparatus and speech processing method |
JP4188989B2 (ja) * | 2006-09-15 | 2008-12-03 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
US8548807B2 (en) * | 2009-06-09 | 2013-10-01 | At&T Intellectual Property I, L.P. | System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring |
US8392189B2 (en) * | 2009-09-28 | 2013-03-05 | Broadcom Corporation | Speech recognition using speech characteristic probabilities |
US9311914B2 (en) * | 2012-09-03 | 2016-04-12 | Nice-Systems Ltd | Method and apparatus for enhanced phonetic indexing and search |
CN104143326B (zh) * | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
CN111613219B (zh) * | 2020-05-15 | 2023-10-27 | 深圳前海微众银行股份有限公司 | 语音数据识别方法、设备及介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4914703A (en) * | 1986-12-05 | 1990-04-03 | Dragon Systems, Inc. | Method for deriving acoustic models for use in speech recognition |
DE69028072T2 (de) * | 1989-11-06 | 1997-01-09 | Canon Kk | Verfahren und Einrichtung zur Sprachsynthese |
JPH03150599A (ja) * | 1989-11-07 | 1991-06-26 | Canon Inc | 日本語音節の符号化方式 |
US5271088A (en) * | 1991-05-13 | 1993-12-14 | Itt Corporation | Automated sorting of voice messages through speaker spotting |
JPH04362698A (ja) * | 1991-06-11 | 1992-12-15 | Canon Inc | 音声認識方法及び装置 |
JP3066920B2 (ja) * | 1991-06-11 | 2000-07-17 | キヤノン株式会社 | 音声認識方法及び装置 |
JP2795058B2 (ja) * | 1992-06-03 | 1998-09-10 | 松下電器産業株式会社 | 時系列信号処理装置 |
US5598507A (en) * | 1994-04-12 | 1997-01-28 | Xerox Corporation | Method of speaker clustering for unknown speakers in conversational audio data |
US5606643A (en) * | 1994-04-12 | 1997-02-25 | Xerox Corporation | Real-time audio recording system for automatic speaker indexing |
JP3745403B2 (ja) * | 1994-04-12 | 2006-02-15 | ゼロックス コーポレイション | オーディオデータセグメントのクラスタリング方法 |
JP2871561B2 (ja) * | 1995-11-30 | 1999-03-17 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者モデル生成装置及び音声認識装置 |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
-
1996
- 1996-09-20 JP JP8249972A patent/JPH1097276A/ja not_active Withdrawn
-
1997
- 1997-09-16 US US08/931,527 patent/US6108628A/en not_active Expired - Lifetime
- 1997-09-18 DE DE69726235T patent/DE69726235T2/de not_active Expired - Lifetime
- 1997-09-18 EP EP97307276A patent/EP0831456B1/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7058580B2 (en) | 2000-05-24 | 2006-06-06 | Canon Kabushiki Kaisha | Client-server speech processing system, apparatus, method, and storage medium |
JP2013152475A (ja) * | 2001-03-28 | 2013-08-08 | Qualcomm Inc | 話し手に暗黙的に順応する技術を用いた音声認識システム |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
DE69726235D1 (de) | 2003-12-24 |
EP0831456A2 (en) | 1998-03-25 |
US6108628A (en) | 2000-08-22 |
EP0831456A3 (en) | 1998-10-14 |
DE69726235T2 (de) | 2004-08-19 |
EP0831456B1 (en) | 2003-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH1097276A (ja) | 音声認識方法及び装置並びに記憶媒体 | |
US11496582B2 (en) | Generation of automated message responses | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
US9070367B1 (en) | Local speech recognition of frequent utterances | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
KR100563365B1 (ko) | 계층적 언어 모델 | |
US11790896B2 (en) | Detecting non-verbal, audible communication conveying meaning | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
JP2002366187A (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
KR20060097895A (ko) | 사용자 적응형 음성 인식 방법 및 장치 | |
JPH11175090A (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
JPH11327592A (ja) | 話者正規化処理装置及び音声認識装置 | |
JP2001517816A (ja) | 連続および分離音声を認識するための音声認識システム | |
WO2001065541A1 (fr) | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
CN115428066A (zh) | 合成语音处理 | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP3535292B2 (ja) | 音声認識システム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
CN113544776B (zh) | 基于语音样本对准的诊断技术 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
JP2004139033A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20031202 |