JPH10133686A - 非母国語音声認識装置 - Google Patents

非母国語音声認識装置

Info

Publication number
JPH10133686A
JPH10133686A JP8307142A JP30714296A JPH10133686A JP H10133686 A JPH10133686 A JP H10133686A JP 8307142 A JP8307142 A JP 8307142A JP 30714296 A JP30714296 A JP 30714296A JP H10133686 A JPH10133686 A JP H10133686A
Authority
JP
Japan
Prior art keywords
speaker
recognition
language
native
native language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8307142A
Other languages
English (en)
Other versions
JP3039399B2 (ja
Inventor
Koichi Shinoda
田 浩 一 篠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8307142A priority Critical patent/JP3039399B2/ja
Publication of JPH10133686A publication Critical patent/JPH10133686A/ja
Application granted granted Critical
Publication of JP3039399B2 publication Critical patent/JP3039399B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】非母国語話者の発声を認識する音声認識装置。 【解決手段】入力音声の分析を行う母国語話者用分析手
段301、母国語話者用辞書を作成保持する母国語話者
用辞書作成手段302、母国語話者用標準パターンを母
国語話者の多数音声を用い作成保持する母国語話者用標
準パターン作成手段303、母国語話者用辞書と母国語
話者用標準パターンを用いて認識処理を行う母国語話者
用認識手段304、入力音声分析用の非母国語話者用分
析手段305、非母国語話者用辞書を作成保持する非母
国語話者用辞書作成手段306、母国語話者用辞書から
辞書変換手段310を用いて変換する非母国語話者用の
辞書、非母国語話者用標準パターンを非母国語話者の多
数発声を用い作成保持する非母国語話者用標準パターン
作成手段307、非母国語話者用辞書と非母国語話者用
標準パターンを用い入力音声に対し認識処理を行う非母
国語話者用認識手段308から構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置に関
し、特に、非母国語話者の発声を認識する音声認識装置
に関する。
【0002】
【従来の技術】近年、音声パターンの機械による認識に
関する研究が行われ、数々の方法が提案されている。こ
の中で、よく使われる代表的なものに、隠れマルコフモ
デル(HMM)を用いた方法がある。そして、HMMを
用いた音声認識システムとして、誰の声でも認識できる
ことを目的とした不特走話者の認識システムが盛んに研
究・開発されている。
【0003】図4にはHMMを用いた音声認識装置の構
成ブロック図が示されている。音声認識装置に入力され
た話者の発声は電気信号に変換され、入力信号として分
析部402に入力され、AD変換、音声分析等の処理過
程を経て、所定の時間長をもつフレーム単位毎の特徴ベ
クトルの時系列に変換される。この特徴ベクトルの時系
列を、ここでは入力パターンと呼ぶ。フレームの長さ
は、通常、10msから100ms程度である。特徴ベ
クトルは、その時刻における音声スペクトルの特徴量を
抽出したもので、通常、10次元から100次元であ
る。
【0004】標準パタ一ン作成部401は、後述するよ
うな手法によりHMMを作成する。HMMは、音声の情
報源のモデルの1つであり、話者の音声を用いてそのパ
ラメータを学習することができる。HMMについては後
述する認識部の説明で詳しく述べる。HMMは、通常、
各認識単位毎に用意される。ここでは、認識単位として
音素を例にとる。例えば、不特定話者認識システムで
は、予め多くの話者の発声を用いて学習した不特定話者
HMMが用いられる。
【0005】今、1000単語を認識対象とする場合を
想定すると、1000単語の認識候補から1単語の正解
を求める認識となる。単語を認識する場合には、各音素
のHMMを連結して、認識候補単語のHMMを作成す
る。1000単語認識の場合には1000単語分の単語
HMMを作成する。認識部403は、標準パターン作成
部401からの単語HMMを用いて分析部402から供
給される入力パターンの認識を行う。認識結果出力部4
04は、認識部403からの出力に基づいて最終的な認
識結果を出力する。
【0006】HMMは、音声の情報源のモデルであり、
音声パターンの様々な揺らぎに対処するため、標準パタ
ーンの記述に統計的な考えが導入されている。HMMに
ついては、ラビナー、ジュアング著、古井訳「音声認識
の基礎(下)」、NTTアドバンステクノロジ(199
5)(以下、文献1)の、102〜187頁に詳述され
ている。各音素のHMMは、それぞれ、通常1から10
個の状態とその間の状態遷移から構成される。通常は始
状態と終状態が定義されており、単位時間毎に、各状態
からシンボルが出力され、状態遷移がな行われる。各音
素の音声は、始状態から終状態までの状態遷移の間にH
MMから出力されるシンボルの時系列として表される。
各状態にはシンボルの出現確率が、状態間の各遷移には
遷移確率が、定義されている。
【0007】遷移確率パラメータは、音声パタンの時間
的な揺らぎを表現するためのパラメータである。出力確
率パラメータは、音声パターンの声色の揺らぎを表現す
るものである。始状態の確率をある値に定め、状態遷移
毎に出現確率、遷移確率を掛けていくことにより、発声
がそのモデルから発生する確率を求めることができる。
逆に、発生を観測した場合、それが、あるHMMから発
生したと仮定するとその発生確率が計算できることにな
る。
【0008】HMMによる音声認識では、各認識候補に
対してHMMを用意し、発声が入力されると、各々のH
MMにおいて、発生確率を求め、最大となるHMMを発
生源と決定し、そのHMMに対応する認識候補をもって
認識結果とする。出力確率パラメータには、離散確率分
布表現と連続確率分布表現があるが、ここでは連続確率
表現を例にとる。連続確率分布表現では、混合連続分
布、すなわち、複数のガウス分布を重みつきで加算した
分布が使われる。以下の例では出力確率は混合連続確率
分布とする。出力確率パラメータ、遷移確率パラメー
タ、複数のガウス分布の重み係数などのパラメータは、
モデルに対応する学習音声を与えてバウムーウェルチア
ルゴリズムと呼ばれるアルゴリズムにより予め学習され
る。
【0009】以下に認識部403の単語認識時の処理を
数式を用いて説明し、次にパラメータの学習について説
明する。
【0010】まず、認識時の処理について説明する。特
徴ベクトルの時系列として表現された入力パターンOを
【数1】 とする。ここでTは入力パターンの総フレーム数であ
る。認識候補単語をW1,W2,...,WNとする。N
は認識候補単語数である。各々の単語Wnの単語HMM
と入力パターンOとの間のマッチングは以下のように行
なわれる。以下必要のない限り添字nを省略する。ま
ず、単語HMMにおいて、状態jから状態への遷移確率
をαji、出力確率分布の混合重みをcim、各要素ガウス
分布の平均ベクトルをμim、共分散行列をΣimとする。
ここで、tは入力時刻、i,jはHMMの状態、mは混
合要素番号を表す。前向き確率αt(i)に関する次の
漸化式計算を行う。この前向き確率αt(i)は、部分
的な観測系列o1,o2,…,otを出力し、時刻tに状
態iに存在する確率である。
【数2】
【数3】 ここで、πiは初期状態がiである確率であり、bi(o
t)は、次式で定義される。
【数4】
【数5】 ここで、Kは入力フレームおよび平均ベクトルの次元数
である。
【0011】単語Wnに対する入力パタンに対する尤度
【数6】 により求められる。Iは最終状態である。この処理を各
単語モデルについて行い、入力パターンXに対する。認
識結果単語Wnは
【数7】 で与えられる。認識結果単語は認識結果出力部404に
送られる。認識結果出力部404は、認識結果を画面上
に出力する、あるいは、認識結果に対応した制御命令を
別の装置に送るなどの処理を行う。
【0012】次に、標準パターン作成部401における
学習のアルゴリズムについて説明する。先ず、以下の後
向き確率を導入する。
【数8】
【数9】
【数10】 βt(i)は時刻t、状態iが与えられたときの、時刻
t+1から終端までの部分的な観測系列の確率である。
前向き確率と後向き確率を用いて、観測系列Oが与えら
れたときに、時刻tに状態iに存在する確率は、
【数11】 で与えられる。また、時刻tに状態iに存在し、時刻t
+1に状態jに存在する確率は、以下で与えられる。
【数12】 また、連続出力確率分布の場合に、時刻tに状態番号i
のk番目の混合要素に存在する確率は、
【数13】 で与えられる。
【0013】以上の計算値に基づき、pi,α,μ,
Σ,cの推定値は下記で与えられる。
【数14】
【数15】
【数16】
【数17】
【数18】
【0014】バウム−ウェルチアルゴリズムでは、これ
らの推定値をもとにパラメータを更新し、更にそのパラ
メータを用いてまた推定値を推定するという繰り返しを
行なう。繰り返し毎に観測系列の確率が大きくなること
が証明されている。
【0015】以上、HMMを例にとり音声認識装置につ
いて説明した。不特定話者HMMとして、ここでは、音
素単位毎に標準パターンを作成する場合を説明したが、
他にも半音節単位、3音素連鎖単位など、様々な単位が
考えられる。
【0016】
【発明が解決しようとする課題】さて、この不特定話者
HMMは、多くの場合良好な性能を示すが、発生すべき
言語が話者の母国語ではない場合には、音響的特徴量が
母国語話者の発生と異なるため、認識性能が低くなる。
しかしながら、近年、国際化の進展に伴い、ほとんどの
国において、外国籍をもつ人の占める割合が高くなって
おり、認識対象言語を母国語としない話者の発声に対し
ても高い性能を持つ音声認識装置が望まれている。
【0017】本発明は、使用言語が話者の母国語でない
場合に、話者の母国語についての知見を利用することに
より、認識性能の低下を防ぐことを目的とする。
【0018】
【課題を解決するための手段】本発明の一態様による非
母国語音声認識装置は、第1の言語を母国語とする話者
用の音声分析を行ない、得られた入力パターンと前記第
1の話者用の標準パターンとを比較して入力音声を認識
する第1の認識手段と、第2の言語を母国語とする話者
用の音声分析を行ない、得られた入力パターンと前記第
2の話者用の標準パターンとを比較して入力音声を認識
する第2の認識手段と、前記第1の認識手段と第2の認
識手段の出力に基づいて認識結果を出力する認識結果出
力手段とを備えて構成される。
【0019】ここで、前記認識結果出力手段は前記第1
の認識手段と第2の認識手段から出力される認識尤度を
重みづけした尤度を用いて認識し、前記認識結果出力手
段は前記第1の認識手段と第2の認識手段から出力され
る認識尤度のうち大きい値をもつ認識尤度を用いて認識
する。また、話者毎に前記第1の認識手段と第2の認識
手段とのどちらかを用いるかを決定する話者別標準パタ
ーン決定手段を有することができる。
【0020】本発明の他の態様による非母国語音声認識
装置は、音声認識において、言語Bを母国語とする話者
の発声した言語Aの音声を認識する際に、言語Aを母国
語とする話者用の音声分析を行なう母国語話者用分析手
段と、言語Aを母国語とする話者用の辞書を作成する母
国語話者用辞書作成手段と、言語Aを母国語とする話者
用の標準パターンを作成する母国語話者用標準パターン
作成手段と、言語Bを母国語とする話者用の音声分析を
行なう非母国語話者用分析手段と、言語Bを母国語とす
る話者用の辞書を作成する非母国語話者用辞書作成手段
と、言語Bを母国語とする話者用の標準パターンを作成
する非母国語話者用標準パターン作成手段と、前記母国
語話者標準パターンを用いて認識を行なう母国語話者用
認識手段と、前記非母国語話者標準パターンを用いて認
識を行なう非母国語話者用認識手段と、前記母国語話者
用認識手段と前記非母国語話者用認識手段とからの出力
を用いて認識結果を出力する認識結果出力手段とを備え
て構成される。
【0021】ここで、前記認識結果出力手段において、
母国語話者用認識手段から出力された認識尤度と、非母
国語話者用認識手段から出力された認識尤度と、を重み
づけした尤度を用いて認識結果を得る。また、前記認識
結果出力手段において、母国語話者用認識手段から出力
された認識尤度と、非母国語話者用認識手段から出力さ
れた認識尤度との、どちらかの尤度を用いて認識結果を
得る。更に、話者毎に母国語用認識手段と非母国語認識
手段とのどちらかを用いるかを決定する話者別標準パタ
ーン決定手段をもつ。
【0022】また、前記母国語話者用分析手段と非母国
語話者用分析手段とを共通化した一つの分析手段をも
ち、前記母国語話者用辞書作成手段と非母国語話者用辞
書作成手段とを共通化した一つの辞書作成手段をもち、
非母国語話者用標準パターン作成手段において、前記言
語Bを母国語とする話者の言語Bの標準パターンを作成
する非母国語話者用母国語標準パターン手段と、前記非
母国語話者用母国語標準パターンから前記非母国語話者
用標準パターンへの変換を行なう標準パターン変換手段
を用いる。
【0023】更に、前記非母国語話者用標準パターン作
成手段のかわりに、前記言語Bを母国語とする話者の言
語Bの標準パターンを作成する、非母国語話者用母国語
標準パターン手段を用い、前記非母国語話者用辞書作成
手段において、前記母国語話者用辞書手段において作成
された言語Aの辞書表記から言語Bの辞書表記に変換す
る辞書表記変換手段を用いる。
【0024】そして、前記言語Aと言語B以外の言語を
母国語とする非母国語話者に対しても、非母国語話者用
辞書作成手段と、非母国語話者用標準パターン作成手段
と、非母国語話者用認識手段とをもつ。
【0025】上記において、前記音声認識装置の認識手
段としてはDPマッチングを用い、標準パターンとして
隠れマルコフモデルを用いることができる。
【0026】
【発明の実施の形態】次に、本発明による音声認識装置
の実施形態について図1を参照しながら説明する。本例
では、認識方式として音素HMMを用い、単語を認識す
る場合について述べる。また、言語Aとして英語、言語
Bとして日本語の場合を例にとって説明する。すなわ
ち、日本語を母国語とする話者(日本人)が英語を発声
する場合について説明する。
【0027】母国語話者用標準パターン作成手段103
は、最初に英語を母国語とする複数話者の発声を用い
て、英語音素HMMの学習を行なう。母国語話者用辞書
作成手段102は、認識対象とする英語の単語の辞書を
作成する。これは英語の発音を音素表記したものであ
る。
【0028】非母国語話者用辞書作成手段106と非母
国語話者用標準パターン作成手段107は、非母国語話
者向けに、非母国語話者用標準パターンと非母国語話者
用辞書を作成する。非母国語話者用辞書では、日本人が
発声する英語向けに、母国語話者用辞書と音素表記が異
なったものにすることが可能である。例えば、単語se
tに対する英語音素表記は、/seQt/(Qは促音)
であるが、日本人向けには、/seQto/と表記する
などの日本人英語についての知識をとり入れることが可
能である。そして、学習用語彙に対し作成した辞書と日
本人の発声した英語を用いてHMMの学習を行なう。
【0029】入力された音声信号は、母国語話者用分析
手段101と非母国語話者用分析手段105とで分析さ
れる。この両分析手段は、分析条件が違っていても良い
し、同じでも良い。母国語話者用分析手段101により
分析された音声情報は、母国語話者用認識手段104に
入力され、非母国語話者用分析手段105により分析さ
れた音声は、非母国語話者用認識手段108に入力され
る。
【0030】母国語話者用認識手段104は、母国語話
者用標準パターン作成手段103からの母国語話者用標
準パターンと、母国語話者用辞書作成手段102からの
母国語話者用辞書を用いて認識処理を行なう。非母国語
話者用認識手段108は、非母国語話者用標準パターン
作成手段107からの非母国語話者用標準パターンと、
非母国語話者用辞書作成手段106からの非母国語話者
用辞書を用いて認識処理を行なう。認識処理は、前述の
とおりである。
【0031】さて、母国語話者用認識手段104と非母
国語話者用認識手段108からは、それぞれ、認識情報
が、認識結果出力手段109に出力される。ここでは、
認識情報として、それぞれの認識対象単語に対する尤度
を用いる。さて、認識結果出力手段109は、まず、そ
れぞれの単語iについて以下の処理を行なう。すなわ
ち、母国語話者用認識手段104から出力された母国語
尤度LA(i)と非母国語話者用認識手段から出力され
た非母国語尤度LB(i)とをある重みwで重みづけて
その単語の尤度L(i)とする。すなわち、
【数19】 この重みwは、予備実験で予め最適な値を求めておく。
あるいは、複数のwを予め用意して、複数の単語に対す
る認識結果から最適なwを決めるなどの処理を行う。認
識結果単語Iは最大の尤度L(i)が最大となる単語i
である。以上が、認識結果出力部109の処理である。
【0032】本発明の他の実施形態においては、認識結
果出力手段109で、L(i)として、LA(i),LB
(i)のどちらか大きい方を用いる。重みwを予め決め
ておく必要がなく、処理が簡単になる。しかし、話者に
よっては、母国語発生でもなく、非母国語発生でもなく
その中間的な発生になっている場合があり、そのような
場合には若干性能面で劣る。
【0033】本発明の更に他の実施形態においては、話
者毎に、母国語認識の結果を用いるか、あるいは非母国
語認識の結果を用いるかを決める。一旦話者毎に決めて
しまえば、以後は、母国語認識、非母国語認識のどちら
か一方のみ動作させれば良く、計算量を節約することが
できる。ただ、単語によって母国語認識の方が性能が高
い単語、非母国語認識の方が性能が高い単語があり、こ
のような単語間の差に対しては対応できない。話者毎に
どちらの認識を用いるかを決めるには、例えば、数回の
発声で尤度の高い方をとる、等の方法が考えられる。
【0034】本発明の他の実施形態を図2を参照しなが
ら説明する。本実施形態は、図1の母国語話者用及び非
母国語話者用の分析手段101及び105と辞書作成手
段102及び106とを共通化する。すなわち、すべて
の話者に対して共通の分析手段201と辞書作成手段2
02を用いる。そして、非母国語標準パターン作成手段
207において、予め多数話者の発声を用いて、非母国
語話者用母国語標準パターン作成手段211で作成した
非母国語話者用母国語標準パターンから標準パターン作
成手段210で作成した非母国語標准パターンへの写像
を作成しておき、その写像で、非母国語話者用標準パタ
ーンを作成する。非母国語話者用母国語標準パターンと
は、ここでは、日本人話者による日本語発声に対する標
準パターンであり、それを英語に対する標準パターンに
変換することに相当する。非母国語話者用母国語標準パ
ターンは、精度の高いものが作成可能であり、写像を一
旦作成しておけば、精度の高い標準パターンを、非母国
語標準パターンに変換することができる。ただ、辞書表
記があくまでも母国語話者に対するものであり、発声が
著しく母国語話者と異なる場合には効果が出ないことも
あり得る。図中、構成部203,204,208及び2
09は、それぞれ図1の103,104,108及び1
09と同様な機能を有する構成部である。
【0035】図3を参照して本発明の更なる実施形態を
説明する。非母国語話者用標準パターン作成手段307
において、話者の母国語の標準パターンを作成する。す
なわち、日本語話者に対しては日本語に対する標準パタ
ーンを作成する。そして、非母国語話者用辞書作成手段
306においては、辞書変換手段310に英語の表記か
ら日本語の表記への変換テーブルをもち、英語の単語表
記を日本語の単語表記に変換する。発声がカタカナ日本
語の発声に近い場合、有効であるが、英語表記から日本
語表記への変換テーブルを作成するのに工数を要する。
他の構成部301〜305,308及び309は、図1
の101〜105,108及び109と同様な機能を有
する。
【0036】次の実施形態は、非母国語話者として、異
なる母国語をもつ複数の非母国語話者を想定したもので
ある。すなわち、例に即して言えぱ、日本人と中国人と
韓国人の話者に対する英語発声認識を行なう。この場合
には、それぞれの言語に対し非母国語話者用認識手段を
もち、認識結果のうちもっとも尤度の高い言語を用い
る、認識結果を重みづける、話者毎にどの言語の非母国
語話者用認識手段を用いるか決定する、などの手段で認
識結果を出力する。
【0037】
【発明の効果】以上説明したような、本発明による非母
国語音声認識装置は、認識対象言語を母国語としない話
者の発声に対し、その話者の母国語と対象言語について
の知識を利用して、性能の高い認識を行なう。特に、母
国語の違いから来る発声の変形に対しても対処可能であ
る。
【図面の簡単な説明】
【図1】本発明による非母国語音声認識装置の一の実施
形態を示す構成ブロック図である。
【図2】本発明による非母国語音声認識装置の他の実施
形態を示す構成ブロック図である。
【図3】本発明による非母国語音声認識装置の更なる実
施形態を示す構成ブロック図である。
【図4】従来の非母国語音声認識装置の構成ブロック図
である。
【符号の説明】
101,301 母国語話者用分析手段 102,302 母国語話者用辞書作成手段 103,203,303 母国語話者用標準パターン作
成手段 104,204,304 母国語話者用認識手段 105,305 非母国語話者用分析手段 106,306 非母国語話者用辞書作成手段 107,207,307 非母国語話者用標準パターン
作成手段 108,208 非母国語話者用認識手段 109,209 認識結果出力手段 201 分析手段 202 辞書作成手段 210 標準パターン変換手段 211 非母国語話者用標準パターン
作成手段 310 辞書変換手段 401 標準パターン作成部 402 分析部 403 認識部 404 認識結果出力部

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】第1の言語を母国語とする話者用の音声分
    析を行ない、得られた入力パターンと前記第1の話者用
    の標準パターンとを比較して入力音声を認識する第1の
    認識手段と、第2の言語を母国語とする話者用の音声分
    析を行ない、得られた入力パターンと前記第2の話者用
    の標準パターンとを比較して入力音声を認識する第2の
    認識手段と、前記第1の認識手段と第2の認識手段の出
    力に基づいて認識結果を出力する認識結果出力手段とを
    備えて成ることを特徴とする非母国語音声認識装置。
  2. 【請求項2】前記認識結果出力手段は前記第1の認識手
    段と第2の認識手段から出力される認識尤度を重みづけ
    した尤度を用いて認識する請求項1に記載の音声認識装
    置。
  3. 【請求項3】前記認識結果出力手段は前記第1の認識手
    段と第2の認識手段から出力される認識尤度のうち大き
    い値をもつ認識尤度を用いて認識する請求項1に記載の
    音声認識装置。
  4. 【請求項4】話者毎に前記第1の認識手段と第2の認識
    手段とのどちらかを用いるかを決定する話者別標準パタ
    ーン決定手段を有する請求項1に記載の音声認識装置。
  5. 【請求項5】音声認識において、言語Bを母国語とする
    話者の発声した言語Aの音声を認識する際に、言語Aを
    母国語とする話者用の音声分析を行なう母国語話者用分
    析手段と、言語Aを母国語とする話者用の辞書を作成す
    る母国語話者用辞書作成手段と、言語Aを母国語とする
    話者用の標準パターンを作成する母国語話者用標準パタ
    ーン作成手段と、言語Bを母国語とする話者用の音声分
    析を行なう非母国語話者用分析手段と、言語Bを母国語
    とする話者用の辞書を作成する非母国語話者用辞書作成
    手段と、言語Bを母国語とする話者用の標準パターンを
    作成する非母国語話者用標準パターン作成手段と、前記
    母国語話者標準パターンを用いて認識を行なう母国語話
    者用認識手段と、前記非母国語話者標準パターンを用い
    て認識を行なう非母国語話者用認識手段と、前記母国語
    話者用認識手段と前記非母国語話者用認識手段とからの
    出力を用いて認識結果を出力する認識結果出力手段と、
    を備えて成ることを特徴とする音声認識装置。
  6. 【請求項6】前記認識結果出力手段において、母国語話
    者用認識手段から出力された認識尤度と、非母国語話者
    用認識手段から出力された認識尤度と、を重みづけした
    尤度を用いて認識結果を得る請求項5に記載の音声認識
    装置。
  7. 【請求項7】前記認識結果出力手段において、母国語話
    者用認識手段から出力された認識尤度と、非母国語話者
    用認識手段から出力された認識尤度との、どちらかの尤
    度を用いて認識結果を得る請求項5に記載の音声認識装
    置。
  8. 【請求項8】話者毎に母国語用認識手段と非母国語認識
    手段とのどちらかを用いるかを決定する話者別標準パタ
    ーン決定手段をもつ請求項5に記載の音声認識装置。
  9. 【請求項9】前記母国語話者用分析手段と非母国語話者
    用分析手段とを共通化した一つの分析手段をもち、前記
    母国語話者用辞書作成手段と非母国語話者用辞書作成手
    段とを共通化した一つの辞書作成手段をもち、非母国語
    話者用標準パターン作成手段において、前記言語Bを母
    国語とする話者の言語Bの標準パターンを作成する非母
    国語話者用母国語標準パターン手段と、前記非母国語話
    者用母国語標準パターンから前記非母国語話者用標準パ
    ターンへの変換を行なう標準パターン変換手段を用いる
    請求項5乃至8に記載の音声認識装置。
  10. 【請求項10】前記非母国語話者用標準パターン作成手
    段のかわりに、前記言語Bを母国語とする話者の言語B
    の標準パターンを作成する、非母国語話者用母国語標準
    パターン手段を用い、前記非母国語話者用辞書作成手段
    において、前記母国語話者用辞書手段において作成され
    た言語Aの辞書表記から言語Bの辞書表記に変換する辞
    書表記変換手段を用いる請求項5乃至8に記載の音声認
    識装置。
  11. 【請求項11】前記言語Aと言語B以外の言語を母国語
    とする非母国語話者に対しても、非母国語話者用辞書作
    成手段と、非母国語話者用標準パターン作成手段と、非
    母国語話者用認識手段と、をもつ請求項5乃至10に記
    載の音声認識装置。
  12. 【請求項12】前記音声認識装置の認識手段としてDP
    マッチングを用いる請求項1乃至11に記載の音声認識
    装置。
  13. 【請求項13】前記音声認識装置の標準パターンとして
    隠れマルコフモデルを用いる請求項1乃至11に記載の
    音声認識装置。
JP8307142A 1996-10-31 1996-10-31 非母国語音声認識装置 Expired - Fee Related JP3039399B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8307142A JP3039399B2 (ja) 1996-10-31 1996-10-31 非母国語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8307142A JP3039399B2 (ja) 1996-10-31 1996-10-31 非母国語音声認識装置

Publications (2)

Publication Number Publication Date
JPH10133686A true JPH10133686A (ja) 1998-05-22
JP3039399B2 JP3039399B2 (ja) 2000-05-08

Family

ID=17965544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8307142A Expired - Fee Related JP3039399B2 (ja) 1996-10-31 1996-10-31 非母国語音声認識装置

Country Status (1)

Country Link
JP (1) JP3039399B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2005524859A (ja) * 2001-12-29 2005-08-18 モトローラ・インコーポレイテッド 多重レベル分散型音声認識のための方法および装置
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
JP2011227129A (ja) * 2010-04-15 2011-11-10 Nec Corp 音声認識システム、データ処理装置、音声認識方法およびプログラム
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
CN110827810A (zh) * 2013-07-04 2020-02-21 三星电子株式会社 用于识别语音和文本的设备和方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2005524859A (ja) * 2001-12-29 2005-08-18 モトローラ・インコーポレイテッド 多重レベル分散型音声認識のための方法および装置
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
JP2011227129A (ja) * 2010-04-15 2011-11-10 Nec Corp 音声認識システム、データ処理装置、音声認識方法およびプログラム
CN110827810A (zh) * 2013-07-04 2020-02-21 三星电子株式会社 用于识别语音和文本的设备和方法
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
JP6109451B2 (ja) * 2014-12-24 2017-04-05 三菱電機株式会社 音声認識装置及び音声認識方法
JPWO2016103358A1 (ja) * 2014-12-24 2017-05-25 三菱電機株式会社 音声認識装置及び音声認識方法
US10403265B2 (en) 2014-12-24 2019-09-03 Mitsubishi Electric Corporation Voice recognition apparatus and voice recognition method

Also Published As

Publication number Publication date
JP3039399B2 (ja) 2000-05-08

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
EP2192575B1 (en) Speech recognition based on a multilingual acoustic model
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
US6006186A (en) Method and apparatus for a parameter sharing speech recognition system
KR20070098094A (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US6148284A (en) Method and apparatus for automatic speech recognition using Markov processes on curves
JPH0962291A (ja) 記述長最小基準を用いたパターン適応化方式
US11295733B2 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
EP1074019B1 (en) Adaptation of a speech recognizer for dialectal and linguistic domain variations
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
WO2019212375A1 (ru) Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи
JP3039399B2 (ja) 非母国語音声認識装置
Razavi et al. An HMM-based formalism for automatic subword unit derivation and pronunciation generation
Barman et al. State of the art review of speech recognition using genetic algorithm
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム
JP2976795B2 (ja) 話者適応化方式
Khalifa et al. Statistical modeling for speech recognition
JP3105708B2 (ja) 音声認識装置
JPH10116093A (ja) 音声認識装置
JPH1097270A (ja) 音声認識装置
JPH06175678A (ja) 音声認識装置
Djuraev et al. An In-Depth Analysis of Automatic Speech Recognition System

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080303

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090303

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090303

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees