JPH09120294A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JPH09120294A
JPH09120294A JP27927695A JP27927695A JPH09120294A JP H09120294 A JPH09120294 A JP H09120294A JP 27927695 A JP27927695 A JP 27927695A JP 27927695 A JP27927695 A JP 27927695A JP H09120294 A JPH09120294 A JP H09120294A
Authority
JP
Japan
Prior art keywords
voice
recognition
candidate
standard
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP27927695A
Other languages
English (en)
Inventor
Kenji Aoyama
健治 青山
Ryuji Yamazaki
竜二 山崎
Naoyuki Okazaki
尚行 岡崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP27927695A priority Critical patent/JPH09120294A/ja
Publication of JPH09120294A publication Critical patent/JPH09120294A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 操作性がよく、かつ処理速度の速い音声認識
装置および音声認識方法を提供する。 【解決手段】 標準パターン格納部34には音声の標準
パターンとともに、各標準パターンについての過去の正
答率および類似パターン数が格納されている。音声認識
部38は、入力された音声のパターンとの一致度が大き
い標準パターンを認識候補として出力する。基準一致度
決定部48は、認識候補の過去の正答率および類似パタ
ーン数、ならびに、音声入力時のS/N比に基づいて基
準一致度を出力する。選択方式決定部40は、基準一致
度に基づいて、認識候補から正答を選択する選択方式を
決定する。したがって、認識候補の過去の正答率などを
考慮して基準一致度を動的に変更することができる。こ
のため、選択方式を決定する際、常に最適な基準一致度
を参照して処理を行なうことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識装置お
よび音声認識方法に関し、特に、音声の標準パターンと
入力された音声のパターンとの一致度に基づいて認識候
補を出力する技術に関する。
【0002】
【従来の技術】製品の検査結果などを記録する際、音声
により入力するシステムが提案されている。図15A
に、このようなシステム等に用いられる従来の音声認識
装置の構成の一部を示す。標準パターン格納部4には、
例えば複数の単語について音声の標準パターンが格納さ
れている。
【0003】音声認識部8では、音声入力部6から入力
された音声のパターンと、標準パターン格納部4に格納
されている各標準パターンとを比較し、入力された音声
のパターンに対する各標準パターンの一致度を算出す
る。一致度の比較的高い標準パターンは、認識候補とし
て出力される。ここでは、一致度として、入力された音
声のパターンから各標準パターンまでの距離を用いてい
る。したがって、距離が小さいほど一致度は大きい。
【0004】選択方式決定部10は、最も距離の小さ
い、つまり最も一致度の大きい認識候補(1位候補)の
距離が、基準となる距離(閾値)より小さいか大きいか
により、選択方式を決定する。たとえば閾値が”10
0”であるとする。このとき、1位候補の距離が”9
0”となった場合には、選択方式として、ディスプレイ
(図示せず)などに1位候補のみを表示する方式を採用
することが決定される。
【0005】一方、1位候補の距離が”120”となっ
た場合には、選択方式として、ディスプレイなどに1位
候補から3位候補までを表示する方式を採用することが
決定される。つまり、1位候補が正答に近いと判断した
場合は、1位候補のみを表示することとし、1位候補が
正答に近くないと判断した場合は、3位候補まで表示す
る。
【0006】候補選択部12は、選択方式決定部10に
より決定された選択方式にしたがって認識候補をディス
プレイなどに表示し、操作者の選択入力を待つ。確定出
力部14は、キーボード(図示せず)などから入力され
た選択入力にしたがって選択された認識候補(正答)を
確定された音声認識結果として出力し、ディスプレイな
どに表示する。
【0007】このように、閾値を設定し、閾値との関係
に基づいて1位候補が正答に近いか否かを判断して選択
方式を決定する。
【0008】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声認識装置には次のような問題点があっ
た。従来の音声認識装置においては、閾値を固定的に設
定している(たとえば”100”)。したがって、1位
候補となった標準パターンの過去の正答率が低い場合
や、1位候補となった標準パターンに類似する標準パタ
ーンが多数ある場合であっても、1位候補の距離が閾
値”100”以下であれば、1位候補のみを表示する。
また、たとえば雑音が大きく所望の音声入力が聞取りに
くいような場合であっても、同様に、1位候補の距離が
閾値”100”以下であれば、1位候補のみを表示す
る。
【0009】つまり、2位候補以下の候補に正答がある
可能性が比較的高い場合であっても、一律に1位候補の
みを表示する。逆に、1位候補の距離が閾値”100”
を超えれば、たとえ2位候補以下の候補に正答がある可
能性が極めて低い場合であっても、一律に3位候補まで
すべて表示する。このため、認識候補から正答を選択す
る際の操作性が悪く、迅速な音声認識処理を行なうこと
ができなかった。
【0010】この発明は、このような従来の音声認識装
置の問題点を解消し、操作性がよく、かつ処理速度の速
い音声認識装置および音声認識方法を提供することを目
的とする。
【0011】
【課題を解決するための手段】
【0012】
【課題を解決するために案出した技術思想】操作性がよ
く、かつ処理速度の速い音声認識装置および音声認識方
法を提供するために、認識候補の処理の際に参照する基
準一致度を、認識候補として出力された標準パターンの
特徴量にしたがって変動させることとし、または、基準
一致度を、音声が入力された環境の特徴量にしたがって
変動させることとした。
【0013】すなわち、請求項に記載した発明の構成を
示す第2図に記載しているように、請求項1の音声認識
装置は、音声の標準パターンを格納する標準パターン格
納手段22、標準パターン格納手段22に格納されてい
る標準パターンのうち、入力された音声のパターンとの
一致度が大きい標準パターンを認識候補として出力する
音声認識手段24、を有する音声認識装置において、認
識候補として出力された標準パターンの特徴量に基づい
て、認識候補の処理の際に参照する基準一致度を出力す
る基準一致度決定手段26、を備えたことを特徴とす
る。
【0014】請求項2の音声認識装置は、請求項1の音
声認識装置において、特徴量が、認識候補として出力さ
れた標準パターンの過去の正答率であること、を特徴と
する。
【0015】請求項3の音声認識装置は、請求項1の音
声認識装置において、特徴量が、認識候補として出力さ
れた標準パターンに類似する標準パターンの数である類
似パターン数であること、を特徴とする。
【0016】また、請求項に記載した発明の構成を示す
第3図に記載しているように、請求項4の音声認識装置
は、音声の標準パターンを格納する標準パターン格納手
段22、標準パターン格納手段22に格納されている標
準パターンのうち、入力された音声のパターンとの一致
度が大きい標準パターンを認識候補として出力する音声
認識手段24、を有する音声認識装置において、音声が
入力された環境の特徴量に基づいて、認識候補の処理の
際に参照する基準一致度を出力する基準一致度決定手段
28、を備えたことを特徴とする。
【0017】請求項5の音声認識装置は、請求項4の音
声認識装置において、特徴量が、音声が入力された際の
S/N比であること、を特徴とする。
【0018】請求項6の音声認識装置は、請求項1、
2、3、4または5の音声認識装置において、基準一致
度決定手段の出力した基準一致度に基づいて、認識候補
から正答を選択する選択方式を決定する選択方式決定手
段、を備えたことを特徴とする。
【0019】請求項7の音声認識装置は、請求項6の音
声認識装置において、基準一致度決定手段が、大きさの
異なる2つの基準一致度を出力するものであり、選択方
式決定手段が、基準一致度決定手段の出力した2つの基
準一致度に基づいて選択方式を決定するものであるこ
と、を特徴とする。
【0020】請求項8の音声認識方法は、音声の標準パ
ターンのうち、入力された音声のパターンとの一致度が
大きい標準パターンを認識候補として出力する音声認識
方法において、認識候補として出力された標準パターン
の特徴量に基づいて、認識候補の処理の際に参照する基
準一致度を出力すること、を特徴とする。
【0021】請求項9の音声認識方法は、音声の標準パ
ターンのうち、入力された音声のパターンとの一致度が
大きい標準パターンを認識候補として出力する音声認識
方法において、音声が入力された環境の特徴量に基づい
て、認識候補の処理の際に参照する基準一致度を出力す
ること、を特徴とする。
【0022】請求項10の音声認識方法は、請求項8ま
たは9の音声認識方法において、基準一致度に基づい
て、認識候補から正答を選択する選択方式を決定するこ
と、を特徴とする。
【0023】請求項11のコンピュータ可読の記憶媒体
は、請求項1から請求項10のいずれかの請求項に記載
した音声認識装置または音声認識方法をコンピュータを
用いて実現するためのプログラム、を記憶したことを特
徴とする。
【0024】
【用語の定義】課題を解決するために案出した技術思想
を表現する請求項での用語の概念を、次のとおり定義す
るとともに、その用語と実施形態との関係を説明する。
【0025】「標準パターン」:単語等に関し、標準と
なるべき音声のパターンをいう。実施形態では、図6C
に示すパターンが該当する。
【0026】「一致度」:入力された音声のパターンと
標準パターンとの一致の程度をいう。実施形態では、図
7Aに示す距離dが該当する。なお、一致度として距離
dを採用した場合、距離dが小さいほど一致度は大き
く、距離dが大きいほど一致度は小さいことになる。
【0027】「認識候補」:入力された音声のパターン
との一致度が大きい標準パターンをいう。実施形態で
は、図5のステップS2に示す音声認識処理により得ら
れる出力が該当する。
【0028】「基準一致度」:認識候補の処理の際に参
照する一致度いう。実施形態では、図5のステップS8
の出力である閾値d1および閾値d2が該当する。
【0029】「標準パターンの特徴量」:各標準パター
ンに固有の特徴を表わす量をいう。実施形態では、図5
のステップS6において得られる過去の正答率または類
似パターン数が該当する。
【0030】「過去の正答率」:該標準パターンが最も
一致度の大きい認識候補(1位候補)であった場合おい
て該標準パターンが正答とされた割合をいう。実施形態
では、図5のステップS6において得られる過去の正答
率が該当する。
【0031】「類似パターン数」:該標準パターンと類
似する標準パターンの数をいう。実施形態では、図5の
ステップS6において得られる類似パターン数が該当す
る。
【0032】「音声が入力された環境の特徴量」:音声
入力時における周囲環境の特徴を表わす量をいう。実施
形態では、図5のステップS4において得られるS/N
比が該当する。
【0033】「選択方式」:認識候補から正答を選択す
る方式をいう。実施形態では、図5のステップS12、
S16またはS18に示す方式が該当する。
【0034】
【発明の効果】請求項1の音声認識装置および請求項8
の音声認識方法は、認識候補として出力された標準パタ
ーンの特徴量に基づいて、認識候補の処理の際に参照す
る基準一致度を出力することを特徴とする。
【0035】したがって、認識候補の有する特徴量に基
づいて、基準一致度を動的に変更することができる。こ
のため、選択方式を決定する際など認識候補の処理の際
に、出力された認識候補の有する特徴量に応じた最適な
基準一致度を参照し、これを基準としてて処理を行なう
ことができる。すなわち、操作性がよく、かつ処理速度
の速い音声認識装置および音声認識方法を実現すること
ができる。
【0036】請求項2の音声認識装置は、請求項1の音
声認識装置において、特徴量が、認識候補として出力さ
れた標準パターンの過去の正答率であることを特徴とす
る。したがって、認識候補の過去の正答率が高い場合に
は基準一致度を小さくし、過去の正答率が低い場合には
基準一致度を大きくするよう構成することができる。
【0037】つまり、認識候補の過去の正答率が高い場
合には一致度に対する判断基準を緩め、過去の正答率が
低い場合には一致度に対する判断基準を厳しく設定する
よう構成することができる。すなわち、出力された認識
候補の過去の正答率に応じた最適な基準一致度を参照
し、これを基準として処理を行なうことにより、より操
作性がよく、かつ処理速度の速い音声認識装置および音
声認識方法を実現することができる。
【0038】請求項3の音声認識装置は、請求項1の音
声認識装置において、特徴量が、認識候補として出力さ
れた標準パターンの類似パターン数であることを特徴と
する。したがって、認識候補の類似パターン数が少ない
場合には基準一致度を小さくし、類似パターン数が多い
場合には基準一致度を大きくするよう構成することがで
きる。
【0039】つまり、認識候補の類似パターン数が少な
い場合には一致度に対する判断基準を緩め、類似パター
ン数が多い場合には一致度に対する判断基準を厳しく設
定するよう構成することができる。すなわち、出力され
た認識候補の類似パターン数に応じた最適な基準一致度
を参照し、これを基準として処理を行なうことにより、
より操作性がよく、かつ処理速度の速い音声認識装置お
よび音声認識方法を実現することができる。
【0040】請求項4の音声認識装置および請求項9の
音声認識方法は、音声が入力された環境の特徴量に基づ
いて、認識候補の処理の際に参照する基準一致度を出力
することを特徴とする。
【0041】したがって、音声が入力された環境の特徴
量に基づいて、基準一致度を動的に変更することができ
る。このため、選択方式を決定する際など認識候補の処
理の際に、音声が入力された環境の特徴量に応じた最適
な基準一致度を参照し、これを基準としてて処理を行な
うことができる。すなわち、操作性がよく、かつ処理速
度の速い音声認識装置および音声認識方法を実現するこ
とができる。
【0042】請求項5の音声認識装置は、請求項4の音
声認識装置において、特徴量が、音声が入力された際の
S/N比であることを特徴とする。したがって、音声が
入力された際のS/N比が高い場合には基準一致度を小
さくし、S/N比が低い場合には基準一致度を大きくす
るよう構成することができる。
【0043】つまり、音声が入力された際のS/N比が
高い場合には一致度に対する判断基準を緩め、S/N比
が低い場合には一致度に対する判断基準を厳しく設定す
るよう構成することができる。すなわち、音声が入力さ
れた際のS/N比に応じた最適な基準一致度を参照し、
これを基準として処理を行なうことにより、より操作性
がよく、かつ処理速度の速い音声認識装置および音声認
識方法を実現することができる。
【0044】請求項6の音声認識装置および請求項10
の音声認識方法は、基準一致度に基づいて、認識候補か
ら正答を選択する選択方式を決定することを特徴とす
る。
【0045】したがって、選択方式を決定する際、認識
候補の有する特徴量や音声が入力された環境の特徴量を
考慮することができる。すなわち、常に最適な選択方式
を与えることにより、操作性がよく、かつ処理速度の速
い音声認識装置および音声認識方法を実現することがで
きる。
【0046】請求項7の音声認識装置は、請求項6の音
声認識装置において、大きさの異なる2つの基準一致度
に基づいて選択方式を決定することを特徴とする。
【0047】したがって、選択方式を決定する際、2つ
の基準一致度を参照することで、より細分化された選択
方式の中から決定することができる。すなわち、より的
確な選択方式を与えることにより、操作性がよく、かつ
処理速度の速い音声認識装置および音声認識方法を実現
することができる。
【0048】請求項11のコンピュータ可読の記憶媒体
は、請求項1から請求項10のいずれかの請求項に記載
した音声認識装置または音声認識方法をコンピュータを
用いて実現するためのプログラム、を記憶したことを特
徴とする。
【0049】したがって、コンピュータに読取らせるこ
とにより、音声認識装置等を実現することができる。す
なわち、さらに容易に、操作性がよく、かつ処理速度の
速い音声認識装置等を実現することができる。
【0050】
【発明の実施の形態】図1に、この発明の一実施形態に
よる音声認識装置32の外観構成を示す。標準パターン
格納手段である標準パターン格納部34には音声の標準
パターンとともに、各標準パターンについての過去の正
答率および類似パターン数が格納されている。
【0051】音声認識手段である音声認識部38は、標
準パターン格納部34に格納されている標準パターンの
うち、音声入力部36を介して入力された音声のパター
ンとの一致度が大きい標準パターンを認識候補として出
力するとともに、該一致度を出力する。
【0052】基準一致度決定手段である基準一致度決定
部48は、認識候補として出力された標準パターンの特
徴量である過去の正答率および類似パターン数、ならび
に、音声が入力された環境の特徴量である音声入力時の
S/N比に基づいて基準一致度を出力する。音声入力時
のS/N比は環境特徴量検出部46によって検出され
る。
【0053】選択方式決定手段である選択方式決定部4
0は、基準一致度決定部48の出力した基準一致度に基
づいて、認識候補から正答を選択する選択方式を決定す
る。
【0054】なお、この実施形態においては、基準一致
度決定部48が、大きさの異なる2つの基準一致度を出
力し、選択方式決定部40が、基準一致度決定部48の
出力した2つの基準一致度に基づいて選択方式を決定す
るよう構成されている。
【0055】候補選択部42は、選択方式決定部40に
より決定された選択方式にしたがって認識候補をCRT
54(図4参照)などに表示し、操作者の選択入力を待
つ。確定出力部44は、キーボード58(図4参照)な
どから入力された選択入力にしたがって選択された認識
候補(正答)を確定された音声認識結果として出力し、
CRT54などに表示する。
【0056】図4に、図1に示す音声認識装置32の各
機能をCPU50を用いて実現した場合のハードウェア
構成を示す。音声認識装置32は、CPU50、メモリ
52、CRT54、FDドライブ56、キーボード5
8、マウス60、マイクロフォン62およびスピーカー
64を備えている。
【0057】FDドライブ56は、コンピュータ可読の
記憶媒体であるフレキシブルディスクの記憶内容を読取
る。メモリ52は、読取った記憶内容であるプログラム
を記憶する。CPU50は、メモリ52に記憶されてい
るプログラムに従って所定の処理を行なう。CRT54
およびスピーカー64は各種出力のために用いられ、キ
ーボード58、マウス60、マイクロフォン62は各種
入力のために用いられる。
【0058】なお、CPU50は図1に示す音声認識部
38、選択方式決定部40、候補選択部42、確定出力
部44、環境特徴量検出部46および基準一致度決定部
48に対応する。メモリ52は、標準パターン格納部3
4に対応する。また、マイクロフォン62は音声入力部
36に対応する。
【0059】つぎに図5に、音声認識装置32による処
理のフローチャートを示す。図4を参照しつつ、図5に
基づいて、音声認識装置22による処理の流れを説明す
る。まず、CPU50は、マイクロフォン62から入力
された音声をいったんメモリ52に取込み、取込んだ音
声入力に対し音声認識処理を行なう(ステップS2)。
【0060】音声認識処理は、あらかじめ作成してメモ
リ52に記憶しておいた標準パターンのうち、取込んだ
音声のパターンとの一致度が比較的大きい標準パターン
を認識候補として出力することにより行なう。
【0061】すなわちCPU50は、取込んだ音声(図
6A参照)に対しケプストラム変換等周知の適当な処理
を施すことにより、たとえば15次元の特徴ベクトルを
時系列に配置したベクトル列(S1、S2、...、S
T)(図6B参照)を得る。このベクトル列を入力パタ
ーンSという。入力パターンSとあらかじめ用意された
標準パターンR(=(R1、R2、...、RT))(図
6C参照)との距離dを算出する。
【0062】一致度である距離dは、図7Aに示す式に
より算出される。距離dが小さいほど一致度は大きい。
たとえば、入力パターンSと標準パターンRとが完全に
一致した場合には、距離dは零となる。なお、図7Aに
示す式において、si,jは、入力パターンSを成分表示
した場合(図7B参照)の各成分を表わし、ri,jは、
標準パターンRを成分表示した場合(図7C参照)の各
成分を表わす。
【0063】CPU50は、このようにして、予め用意
された全ての標準パターンR、...について、入力パタ
ーンSとの距離d、...を算出し、入力パターンSに対
する距離dが比較的小さい(一致度が比較的大きい)標
準パターンを認識候補として出力する。
【0064】つぎにCPU50は、音声入力時のS/N
比を取得する(ステップS4)。CPU50は、処理す
べき音声入力がない場合には周囲の雑音を記録してい
る。S/N比は、処理すべき音声入力直前の雑音のレベ
ルに対する処理すべき入力音声のレベルの比として、C
PU50が算出する。
【0065】つぎにCPU50は、ステップS2におい
て得た認識候補のうち入力パターンSに対する距離dが
最も小さい(一致度が最も大きい)標準パターン(1位
候補)についての過去の正答率と類似パターン数を、メ
モリ52から取得する(ステップS6)。
【0066】過去の正答率は、過去に該標準パターンが
1位候補とされた場合おいて該標準パターンが正答とさ
れた率をいい、メモリ52に格納されている。また、類
似パターン数は、該標準パターンと類似する標準パター
ンの数であり、具体的には、該標準パターンに対する距
離dが所定値以下である標準パターンの数をいう。類似
パターン数もメモリ52に格納されている。
【0067】取得したS/N比、1位候補の過去の正答
率および類似パターン数に基づいて、CPU50は、距
離dに関する閾値d1および閾値d2を算出する(ステ
ップS8)。この2つの閾値d1およびd2が基準一致
度に対応し、後述する選択方式を決定するために参照さ
れる。この実施形態においては、閾値d1および閾値d
2はファジー演算により求められる。
【0068】図8(イ)〜(リ)に、閾値d1および閾
値d2を求めるためのファジールールを示す。ファジー
ルールは、S/N比が高いほど閾値d1およびd2を大
きくし、1位候補の正答率が高いほど閾値d1およびd
2を大きくし、1位候補の類似パターン数が少ないほど
閾値d1およびd2を大きくするよう構成されている。
図9に、ファジールールの前件部に関するメンバシップ
関数を示す。また図10に、後件部に関するメンバシッ
プ関数を示す。
【0069】図8に示すファジールールならびに図9お
よび図10に示すメンバシップ関数を用いて閾値d1を
算出する数式を例示する。
【0070】
【数1】
【0071】たとえば、正答率95%、類似パターン数
2、S/N比100である場合は、正答率95%に対し
て、 PLh=0.0 PMh=1.0 PSh=0.0 となり、類似パターン数2に対して、 PSr=0.5 PMr=0.5 PLr=0.0 となり、S/N比100に対して、 PLs=1.0 PMs=0.0 PSs=0.0 となるから、閾値d1は、上式を用いて次のように計算
される。
【0072】
【数2】
【0073】すなわち、上述のように、S/N比が高
く、正答率が高く、類似パターン数が少ない場合には、
閾値d1が大きくなることがわかる。閾値d2について
も、同様の計算を行なう。
【0074】なお、図11は、正答率が95%で、かつ
類似パターン数が2である場合の、S/N比と閾値d1
およびd2との関係を示す図である。図12は、S/N
比が80で、かつ類似パターン数が2である場合の、正
答率と閾値d1およびd2との関係を示す図である。ま
た、図13は、S/N比が80で、かつ正答率が95%
である場合の、類似パターン数と閾値d1およびd2と
の関係を示す図である。
【0075】つぎにCPU50は、閾値d1およびd2
に基づき選択方式を決定する。選択方式を決定するため
のアルゴリズムを図14に示す。選択方式を決定するた
めに、CPU50は、まず1位候補の距離dと閾値d1
とを比較する(ステップS10)。1位候補の距離dが
閾値d1より小さい場合は、選択方式C1を採用する
(ステップS12)。選択方式C1が採用されるとCP
U50は、CRT54またはスピーカー64を介して、
1位候補を「〜ですね。」という形で出力する。この場
合、キーボード58、マウス60、マイクロフォン62
などを介して、一定時間応答がない場合は、1位候補を
音声認識結果として確定する(ステップS20)。
【0076】一方、ステップS10において、1位候補
の距離dが閾値d1より小さくない場合は、1位候補の
距離dと閾値d2とを比較する(ステップS14)。1
位候補の距離dが閾値d2より小さい場合は、選択方式
C2を採用する(ステップS16)。選択方式C2が採
用されるとCPU50は、CRT54またはスピーカー
64を介して、1位候補を「〜でよろしいですか。」と
いう形で出力する。この場合、キーボード58、マウス
60、マイクロフォン62などを介して、「はい」また
は「いいえ」が入力されるのを待つ。「はい」が入力さ
れた場合は、1位候補を音声認識結果として確定する
(ステップS20)。なお、「いいえ」が入力された場
合は、2位候補以下の認識候補を順次同様の方法で出力
し、入力を待つ。
【0077】ステップS14において、1位候補の距離
dが閾値d2より小さくない場合は、選択方式C3を採
用する(ステップS18)。選択方式C3が採用される
とCPU50は、CRT54またはスピーカー64を介
して、複数の認識候補(例えば1位候補〜3位候補)出
力するとともに「正答を選択して下さい。」との表現を
出力する。この場合、キーボード58、マウス60、マ
イクロフォン62などを介して、正答とすべき候補の順
位番号などが入力されるのを待つ。入力された順位番号
の認識候補を音声認識結果として確定する(ステップS
20)。
【0078】つぎにCPU50は、音声認識結果として
確定した認識候補(確定結果)を、CRT54、スピー
カー64などを介して出力し(ステップS22)、一連
の処理を終了する。なお、確定した認識候補が1位候補
であった場合には、CPU50は、メモリ52に記憶さ
れている該認識候補に関する正答率を更新する。
【0079】なお、ステップS2が図1の音声認識部3
8に、ステップS4が環境特徴量検出部46に、ステッ
プS8が基準一致度決定部48に、ステップS10〜ス
テップS20が選択方式決定部40および候補選択部4
2に、ステップS22が確定出力部44に、それぞれ対
応する。
【0080】なお、上述の実施形態においては、1位候
補の距離dと閾値d1、d2との関係により選択方式を
決定するよう構成したが、2位以下の候補の距離dと閾
値d1、d2との関係により選択方式を決定することも
できる。また、1位候補の距離dおよび2位以下の候補
の距離をともに参照して選択方式を決定することもでき
る。この場合、閾値d1、d2を算出するに際し、図8
に示すファジールール以外のファジールールを適用する
こともできる。
【0081】また、ファジー演算を用いて閾値d1およ
びd2を算出するよう構成したが、ファジー演算以外の
方法により閾値d1およびd2を算出するよう構成する
こともできる。
【0082】また、大きさの異なる2つの閾値d1およ
びd2を用いて選択方式を決定するよう構成したが、1
つの閾値または3以上の閾値を用いて選択方式を決定す
るよう構成することもできる。
【0083】また、閾値を用いて選択方式を決定する処
理を例に説明したが、この発明は閾値を用いて選択方式
の決定以外の処理を行なう場合にも適用することができ
る。
【0084】また、一致度として入力パターンSと標準
パターンRとの距離dを用いたが、一致度として距離d
以外のものを用いてもよい。
【0085】また、1位候補の特徴量として、過去の正
答率および類似パターン数の双方を用いたが、1位候補
の特徴量として、過去の正答率または類似パターン数の
いずれか一方を用いるよう構成することもできる。さら
に、1位候補の特徴量として、過去の正答率または類似
パターン数以外のものを用いることもできる。
【0086】また、認識候補として出力された標準パタ
ーンの特徴量として、1位候補の特徴量を用いたが、認
識候補として出力された標準パターンの特徴量として
は、1位候補以外の特徴量を用いることもできる。たと
えば、1位候補の特徴量と2位以下の候補の特徴量との
差を用いるよう構成することもできる。
【0087】また、音声が入力された環境の特徴量とし
てS/N比を用いたが、音声が入力された環境の特徴量
としては、S/N比以外のものを用いることもできる。
【0088】また、基準一致度を、認識候補として出力
された標準パターンの特徴量および音声が入力された環
境の特徴量の双方に基づいて求めるよう構成したが、基
準一致度を、認識候補として出力された標準パターンの
特徴量および音声が入力された環境の特徴量のいずれか
一方に基づいて求めるよう構成することもできる。
【0089】また、音声認識処理として図6および図7
に示す方法を用いた場合を例に説明したが、音声認識処
理はこれに限定されるものではない。
【0090】また、コンピュータ可読の記憶媒体とし
て、フレキシブルディスクを用いるよう構成したが、コ
ンピュータ可読の記憶媒体として、ハードディスクや光
ディスク等を用いることもできる。
【0091】なお、上述の実施形態においては、CPU
50を用いて、図1に示す音声認識装置の各機能を実現
した場合を例に説明したが、当該各機能の一部または全
部を、ハードウェアロジックにより実現することもでき
る。
【図面の簡単な説明】
【図1】この発明の一実施形態による音声認識装置の全
体構成を示す図面である。
【図2】請求項に記載した音声認識装置の構成を示す図
面である。
【図3】請求項に記載した音声認識装置の構成を示す図
面である。
【図4】この発明の一実施形態による音声認識装置の各
機能をCPUを用いて実現した場合のハードウェア構成
を示す図面である。
【図5】この発明の一実施形態による音声認識装置にお
ける処理の流れを示すフローチャートである。
【図6】この発明の一実施形態による音声認識装置にお
ける音声認識処理を説明するための図面である。
【図7】この発明の一実施形態による音声認識装置にお
ける音声認識処理を説明するための図面である。
【図8】閾値を算出するためのファジー演算に用いるフ
ァジールールの一例を示す図面である。
【図9】ファジー演算に用いるファジールールの前件部
に関するメンバシップ関数の一例を示す図面である。
【図10】ファジー演算に用いるファジールールの後件
部に関するメンバシップ関数の一例を示す図面である。
【図11】正答率が95%で、かつ類似パターン数が2
である場合の、S/N比と閾値d1およびd2との関係
を示す図面である。
【図12】S/N比が80で、かつ類似パターン数が2
である場合の、正答率と閾値d1およびd2との関係を
示す図面である。
【図13】S/N比が80で、かつ正答率が95%であ
る場合の、類似パターン数と閾値d1およびd2との関
係を示す図面である。
【図14】閾値d1およびd2に基づき選択方式を決定
するためのアルゴリズムを示す図面である。
【図15】従来の音声認識装置の全体構成を示す図面で
ある。
【符号の説明】
34・・・・・標準パターン格納部 38・・・・・音声認識部 40・・・・・選択方式決定部 48・・・・・基準一致度決定部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】音声の標準パターンを格納する標準パター
    ン格納手段、 標準パターン格納手段に格納されている標準パターンの
    うち、入力された音声のパターンとの一致度が大きい標
    準パターンを認識候補として出力する音声認識手段、 を有する音声認識装置において、 認識候補として出力された標準パターンの特徴量に基づ
    いて、認識候補の処理の際に参照する基準一致度を出力
    する基準一致度決定手段、 を備えたことを特徴とする音声認識装置。
  2. 【請求項2】請求項1の音声認識装置において、 前記特徴量が、認識候補として出力された標準パターン
    の過去の正答率であること、 を特徴とする音声認識装置。
  3. 【請求項3】請求項1の音声認識装置において、 前記特徴量が、認識候補として出力された標準パターン
    に類似する標準パターンの数である類似パターン数であ
    ること、 を特徴とする音声認識装置。
  4. 【請求項4】音声の標準パターンを格納する標準パター
    ン格納手段、 標準パターン格納手段に格納されている標準パターンの
    うち、入力された音声のパターンとの一致度が大きい標
    準パターンを認識候補として出力する音声認識手段、 を有する音声認識装置において、 音声が入力された環境の特徴量に基づいて、認識候補の
    処理の際に参照する基準一致度を出力する基準一致度決
    定手段、 を備えたことを特徴とする音声認識装置。
  5. 【請求項5】請求項4の音声認識装置において、 前記特徴量が、音声が入力された際のS/N比であるこ
    と、 を特徴とする音声認識装置。
  6. 【請求項6】請求項1、2、3、4または5の音声認識
    装置において、 前記基準一致度決定手段の出力した基準一致度に基づい
    て、認識候補から正答を選択する選択方式を決定する選
    択方式決定手段、 を備えたことを特徴とする音声認識装置。
  7. 【請求項7】請求項6の音声認識装置において、 前記基準一致度決定手段が、大きさの異なる2つの基準
    一致度を出力するものであり、 前記選択方式決定手段が、基準一致度決定手段の出力し
    た2つの基準一致度に基づいて選択方式を決定するもの
    であること、 を特徴とする音声認識装置。
  8. 【請求項8】音声の標準パターンのうち、入力された音
    声のパターンとの一致度が大きい標準パターンを認識候
    補として出力する音声認識方法において、 認識候補として出力された標準パターンの特徴量に基づ
    いて、認識候補の処理の際に参照する基準一致度を出力
    すること、 を特徴とする音声認識方法。
  9. 【請求項9】音声の標準パターンのうち、入力された音
    声のパターンとの一致度が大きい標準パターンを認識候
    補として出力する音声認識方法において、 音声が入力された環境の特徴量に基づいて、認識候補の
    処理の際に参照する基準一致度を出力すること、 を特徴とする音声認識方法。
  10. 【請求項10】請求項8または9の音声認識方法におい
    て、 前記基準一致度に基づいて、認識候補から正答を選択す
    る選択方式を決定すること、 を特徴とする音声認識方法。
  11. 【請求項11】請求項1から請求項10のいずれかの請
    求項に記載した音声認識装置または音声認識方法をコン
    ピュータを用いて実現するためのプログラム、を記憶し
    たことを特徴とするコンピュータ可読の記憶媒体。
JP27927695A 1995-10-26 1995-10-26 音声認識装置および音声認識方法 Pending JPH09120294A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27927695A JPH09120294A (ja) 1995-10-26 1995-10-26 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27927695A JPH09120294A (ja) 1995-10-26 1995-10-26 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JPH09120294A true JPH09120294A (ja) 1997-05-06

Family

ID=17608916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27927695A Pending JPH09120294A (ja) 1995-10-26 1995-10-26 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JPH09120294A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326505A (ja) * 2004-05-12 2005-11-24 Ntt Docomo Inc 認識システム及び認識方法
JP2007264472A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326505A (ja) * 2004-05-12 2005-11-24 Ntt Docomo Inc 認識システム及び認識方法
JP4512417B2 (ja) * 2004-05-12 2010-07-28 株式会社エヌ・ティ・ティ・ドコモ 認識システム及び認識方法
JP2007264472A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム
JP4675811B2 (ja) * 2006-03-29 2011-04-27 株式会社東芝 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム
US8045418B2 (en) 2006-03-29 2011-10-25 Kabushiki Kaisha Toshiba Position detecting device, autonomous mobile device, method, and computer program product

Similar Documents

Publication Publication Date Title
US5787396A (en) Speech recognition method
JP3452443B2 (ja) 騒音下音声認識装置及び騒音下音声認識方法
JP7278477B2 (ja) 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体
US7272561B2 (en) Speech recognition device and speech recognition method
JP6614639B2 (ja) 音声認識装置及びコンピュータプログラム
US7680660B2 (en) Voice analysis device, voice analysis method and voice analysis program
CN112289299B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
US20200152180A1 (en) Method and apparatus with speech recognition
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
JP6306528B2 (ja) 音響モデル学習支援装置、音響モデル学習支援方法
JP2000163252A (ja) 対数および逆対数に対する近似を実行するディジタル信号処理回路、システムおよび方法
JP2020034683A (ja) 音声認識装置、音声認識プログラムおよび音声認識方法
US7738982B2 (en) Information processing apparatus, information processing method and program
JP6647475B2 (ja) 言語処理装置、言語処理システムおよび言語処理方法
US11971796B2 (en) Goal seek analysis based on status models
JP4090755B2 (ja) 音声認識システム、学習装置、及び、最大エントロピー音声モデルのフリーパラメータの反復値計算方法
KR20180065762A (ko) 매니폴드 제약 조건에 기반한 심층 신경망 압축 방법 및 그 장치
JPH09120294A (ja) 音声認識装置および音声認識方法
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
US20200356850A1 (en) Fusion of neural networks
CN114926322B (zh) 图像生成方法、装置、电子设备和存储介质
US11893983B2 (en) Adding words to a prefix tree for improving speech recognition
JP2020071737A (ja) 学習方法、学習プログラム及び学習装置
JP3091648B2 (ja) 隠れマルコフモデルの学習方法
JPH09258783A (ja) 音声認識装置