JPH0744188A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0744188A JPH0744188A JP5190089A JP19008993A JPH0744188A JP H0744188 A JPH0744188 A JP H0744188A JP 5190089 A JP5190089 A JP 5190089A JP 19008993 A JP19008993 A JP 19008993A JP H0744188 A JPH0744188 A JP H0744188A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- word
- unit
- similarity
- input pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
に検出する。 【構成】 疑似入力パターン作成部13にて、単語辞書
部12内の各単語に対する疑似入力パターンを、標準モ
デル記憶部11内の音素単位のモデルを用いて作成す
る。認識部14にて、その疑似入力パターンに対して認
識を行い、求められた類似度を単語間の類似性として類
似単語検出を類似単語決定部15にて行う。
Description
れる分野に適した音声認識装置に関する。
データから作成した標準モデルを用いて、それらと未知
音声から求めた音声パターンとの類似度を求め、最大の
類似度を与えるカテゴリを認識結果とする方法が一般に
用いられている。カテゴリを単語とした場合、認識対象
となる単語の中に発声が類似した単語、例えば「千葉
(ちば)」と「志賀(しが)」などが存在すると、認識
時にこれらの音声を入力した場合、誤認識を生じ易いと
いう問題点があった。多くの語彙を認識対象とする大語
彙音声認識では、この問題点は特に顕著であった。大語
彙音声認識方法では、認識単位として音素などの単語よ
り小さい単位が一般に用いられている。以下、「音素」
とは、音韻論的な意味での音声の最小基本単位という意
味だけではなく、音節や複数の音素の連結をも含む、も
っと広い範囲の音声の単位を意味するものとする。音素
を認識単位とする方法としては、たとえば、渡辺、吉
田、古賀らによる、電子情報通信学会論文誌D−II
Vol.J72−D−II No.8 1989年8月
のページ1264−1269に掲載の論文「半音節を単
位としたHMMを用いた大語い音声認識」(以下、文献
1と記す)に述べられている方法が挙げられる。この方
法では、単語単位に発声された複数個の学習データを用
いて音素の一種である半音節(以下、音素と呼ぶ)単位
の標準モデルを作成している。認識時には、音素表記さ
れた単語辞書を用いて標準モデルを結合して単語単位の
モデルを作成し、この単語モデルを用いて未知単語音声
を認識している。
問題への対処方法としては、標準モデルや認識方式の高
精度化のほかに、認識を行う前に予め認識対象の単語間
の類似性を求め、類似性の高い単語の組合せを検出し、
それを使用者に知らせ、使用者がその組合せのうち一部
もしくは全部の単語を認識対象から除外したり、別の単
語に置き換えたりする方法が挙げられる。このような類
似した単語の検出方法の例が、特公平4−62595号
公報(以下、文献2と記す)に記載されている。文献2
では、母音間の距離および子音間の距離を定義したテー
ブルをそれぞれ用意し、認識対象となる単語のうちの任
意の2個の単語毎に、音節単位で対応をとり、対応する
音節間の距離を前記2つのテーブルより求め、それらを
用いて単語間の類似性を検査している。
では、認識単位や標準モデルに依存せずに単語間の類似
性の検証を行っているので、認識時に生じる誤認識とは
違った傾向の類似単語を検出してしまう可能性が高く、
また、連母音の長母音化、母音の無声化等の発声変形に
より類似してしまう場合に対応できないという問題があ
る。
において、標準モデルから疑似的に入力パターンを作成
し、この入力パターンを用いて認識を行い、求められた
類似度を単語間の類似性とすることにより、類似した単
語を高精度に検出することを目的とする。
は、音声信号を分析して特徴ベクトル時系列を出力する
特徴分析部と、特徴ベクトルに対する出現確率が任意個
の確率分布の形で定義されている状態のネットワークと
して表現される標準モデルを予め音素単位で作成し蓄え
ておく標準モデル記憶部と、音声認識の対象となる単語
を構成する音素情報を格納する単語辞書部と、類似単語
検出と認識のモードを切替えるための検出/認識切替え
スイッチと、類似単語検出モード時に前記単語辞書部の
任意の単語に対する音素情報と前記標準モデルから疑似
入力パターンを作成する疑似入力パターン作成部と、前
記標準モデルと前記単語辞書部に格納された音素情報を
用いて類似単語検出モードでは前記疑似入力パターンに
対して、また認識モードでは前記特徴分析部から出力さ
れる前記特徴ベクトル時系列に対して認識を行い、前記
音声認識の対象となる単語との類似度を求める認識部
と、前記認識部から出力された前記類似度より、前記音
声認識の対象となる単語から類似性の高い単語を類似単
語として出力する類似単語決定部と、前記認識部から出
力された前記類似度より、前記音声信号と前記音声認識
の対象となる単語との類似性を調べ認識判定を行い、認
識結果を出力する認識結果決定部と、類似単語検出モー
ドでは前記類似単語を、また認識モードでは前記認識結
果を表示する結果表示部とを有し、または、前記標準モ
デル記憶部に蓄えられる標準モデル中の状態間の遷移に
は遷移確率が定義されており、前記疑似入力パターン作
成部は、前記遷移確率を考慮して疑似入力パターンを作
成することを特徴とする。
る。
ック図である。標準モデル記憶部11は、音素単位の標
準モデルPk (k=1,2,・・・K、Kは音素の種類
数)を予め記憶している。標準モデルPk としては、文
献1に述べられているHMMを用いることができ、文献
1に述べられている学習方法により作成することができ
る。HMMは、状態遷移ネットワークの一種で、各状態
i(i=1,2,・・・Ik 、Ik は標準モデルPk の
状態数)には状態遷移確率
る。特徴ベクトル出現確率としては、ガウス分布
は、認識対象となる単語Wm (m=1,2,・・・,
M、Mは語彙数)を構成する音素情報を予め記憶してい
る。音素情報としては、単語Wm の音素列
例の動作について説明する。
スイッチ19は疑似入力パターン作成部13と、また検
出/認識切替スイッチ20は類似単語決定部15と接続
する。
部12から単語Wm に対する音素列
の平均ベクトルを標準モデル記憶部11から読み込み、
疑似入力パターンを作成する(ステップA1 )。音素
ーンVm として、
を使用することができる。平均ベクトルを並べる際、1
個ではなく複数個並べることもできる。
部14に入力され、標準モデル記憶部11の標準モデル
を用いて、単語辞書部の単語Wn (n=1,2,・・
・,M)との類似度Rm n が求められる(ステップ
A2 )。疑似度の算出方法については、文献1に述べら
れている認識方式を使用することができる。疑似単語決
定部15は、求められた類似度Rm n が予め設定してお
いた閾値より大きい場合、単語Wm 、Wn および類似度
Rm n を類似した単語に関する情報として出力し、結果
表示部16はそれらの情報を表示し、使用者に知らせる
(ステップA3 およびステップA4 )。使用者はその情
報を元に、類似している単語の一方もしくは両方を認識
対象から除外したり、別の単語に置き換えたりすること
により認識性能の向上が図れる。
合(ステップA5 )、すなわち、単語Wm に対する類似
性の検証が単語辞書部の全単語に対して実行された場
合、単語Wm + 1 に対して、同様にステップA1 〜A5
により類似性の検証を実行する。単語Wm が単語辞書部
の最終単語WM の場合(ステップA6 )、すなわち、単
語辞書部の全単語に対する類似性の検証が終了した場
合、処理を終了する。
19は特徴分析部17と、また検出/認識切替スイッチ
20は認識結果決定部18と接続する。
年、東海大学出版会発行の「ディジタル音声処理」に述
べられているようなメルケプストラムによる方法を用い
て、未知の音声信号が特徴ベクトル時系列に変換され、
認識部14にて、疑似入力パターンと同様、この特徴ベ
クトル時系列と単語辞書部の単語Wn (n=1,2,・
・・,M)との類似度Rm n が求められる。認識結果決
定部18は、求められた類似度Rm n が大きい順から任
意個選択し、その値および対応する単語を認識結果とし
て出力し、結果表示部16は、それらの情報を表示す
る。
ック図である。
は、図1に示した本発明の第1の実施例における標準モ
デル記憶部11と疑似入力パターン作成部13の間にベ
クトル数決定部21が加わっている点が異なる。
施例の動作とステップA1 での疑似入力パターンの作成
方法が異なっており、他の動作は同一である。第1の実
施例では、一定個の平均ベクトルを並べることにより疑
似入力パターンを作成しており、標準モデル中の状態遷
移確率
クトル数決定部21が、標準モデル記憶部11から標準
モデルの状態遷移確率
クトルの個数
きる。
た個数、および単語辞書部12内の音素列、標準モデル
記憶部11内の標準モデルの平均ベクトルから疑似入力
パターンを作成する。
成時での状態遷移確率の利用方法としては、単語辞書部
12中の単語Wm の音素情報が図4のように分岐をもつ
音素列の場合に、例えば語尾の母音が無声化する可能性
がある単語を表現する場合などに、状態遷移確率が大き
い枝の音素を疑似入力パターンの作成に使用する、等が
ある。
単語検出方式は、標準モデルから疑似的に作成した入力
パターンを用いて認識を行い、求められた類似度を単語
間の類似性としたため、類似した単語を高精度に検出で
きるという効果がある。
る。
ーチャートである。
る。
す図である。
Claims (2)
- 【請求項1】 音声信号を分析して特徴ベクトル時系列
を出力する特徴分析部と、特徴ベクトルに対する出現確
率が任意個の確率分布の形で定義されている状態のネッ
トワークとして表現される標準モデルを予め音素単位で
作成し蓄えておく標準モデル記憶部と、音声認識の対象
となる単語を構成する音素情報を格納する単語辞書部
と、類似単語検出と認識のモードを切替えるための検出
/認識切替スイッチと、類似単語検出モード時に前記単
語辞書部の任意の単語に対する音素情報と前記標準モデ
ルから疑似入力パターンを作成する疑似入力パターン作
成部と、前記標準モデルと前記単語辞書部に格納された
音素情報を用いて類似単語検出モードでは前記疑似入力
パターンに対して、また認識モードでは前記特徴分析部
から出力される前記特徴ベクトル時系列に対して認識を
行い、前記音声認識の対象となる単語との類似度を求め
る認識部と、前記認識部から出力された前記類似度よ
り、前記音声認識の対象となる単語から類似性の高い単
語を類似単語として出力する類似単語決定部と、前記認
識部から出力された前記類似度より、前記音声信号と前
記音声認識の対象となる単語との類似性を調べ認識判定
を行い、認識結果を出力する認識結果決定部と、類似単
語検出モードでは前記類似単語を、また認識モードでは
前記認識結果を表示する結果表示部とを有することを特
徴とする音声認識装置。 - 【請求項2】 前記標準モデル記憶部に蓄えられる標準
モデル中の状態間の遷移には遷移確率が定義されてお
り、前記疑似入力パターン作成部は、前記遷移確率を考
慮して疑似入力パターンを作成することを特徴とする請
求項1記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5190089A JP2979912B2 (ja) | 1993-07-30 | 1993-07-30 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5190089A JP2979912B2 (ja) | 1993-07-30 | 1993-07-30 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0744188A true JPH0744188A (ja) | 1995-02-14 |
JP2979912B2 JP2979912B2 (ja) | 1999-11-22 |
Family
ID=16252187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5190089A Expired - Fee Related JP2979912B2 (ja) | 1993-07-30 | 1993-07-30 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2979912B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831459A (zh) * | 2018-05-30 | 2018-11-16 | 出门问问信息科技有限公司 | 语音识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0473160A (ja) * | 1989-10-05 | 1992-03-09 | Seiko Epson Corp | 画像形成装置 |
-
1993
- 1993-07-30 JP JP5190089A patent/JP2979912B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0473160A (ja) * | 1989-10-05 | 1992-03-09 | Seiko Epson Corp | 画像形成装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831459A (zh) * | 2018-05-30 | 2018-11-16 | 出门问问信息科技有限公司 | 语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2979912B2 (ja) | 1999-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP5282737B2 (ja) | 音声認識装置および音声認識方法 | |
US6553342B1 (en) | Tone based speech recognition | |
JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
Jeon et al. | N-best rescoring based on pitch-accent patterns | |
JP4259100B2 (ja) | 音声認識用未知発話検出装置及び音声認識装置 | |
CN108573713B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP2979912B2 (ja) | 音声認識装置 | |
Prukkanon et al. | F0 contour approximation model for a one-stream tonal word recognition system | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JP3039453B2 (ja) | 音声認識装置 | |
JP3299170B2 (ja) | 音声登録認識装置 | |
JPH0612090A (ja) | 音声学習方式 | |
JP2005091758A (ja) | 話者認識システム及び方法 | |
JPH1097275A (ja) | 大語彙音声認識装置 | |
JPH0772899A (ja) | 音声認識装置 | |
JP2862306B2 (ja) | 音声認識装置 | |
Namnabat et al. | Refining segmental boundaries using support vector machine | |
JP2004309654A (ja) | 音声認識装置 | |
JP2003050595A (ja) | 音声認識装置及び方法、並びにプログラム | |
RU2101782C1 (ru) | Способ распознавания слов в слитной речи и система для его реализации | |
JPH10143189A (ja) | 音声認識装置 | |
JP2001013983A (ja) | 音声合成を用いた音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990817 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100917 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |