JP2589300B2 - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JP2589300B2
JP2589300B2 JP62018079A JP1807987A JP2589300B2 JP 2589300 B2 JP2589300 B2 JP 2589300B2 JP 62018079 A JP62018079 A JP 62018079A JP 1807987 A JP1807987 A JP 1807987A JP 2589300 B2 JP2589300 B2 JP 2589300B2
Authority
JP
Japan
Prior art keywords
word
registration
matching
unit
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62018079A
Other languages
English (en)
Other versions
JPS63186299A (ja
Inventor
教幸 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62018079A priority Critical patent/JP2589300B2/ja
Publication of JPS63186299A publication Critical patent/JPS63186299A/ja
Application granted granted Critical
Publication of JP2589300B2 publication Critical patent/JP2589300B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔目 次〕 概要 産業上の利用分野 従来の技術 発明が解決しようとする問題点 問題点を解決するための手段 作用 実施例 I.実施例と第1図との対応関係 II.実施例の構成 III.実施例の動作 (i)単語音声の認識動作 (ii)単語音声パターンの登録置換 IV.実施例のまとめ V.発明の変形態様 発明の効果 〔概 要〕 単語音声認識装置であって、所定の分類基準に従って
複数に分けられた単語音声の登録パラメータのそれぞれ
について、入力単語音声についての入力パラメータを照
合して、両パラメータ間で最小距離もしくは最大類似度
となる単語音声を求めて、選択的に出力する。単語音声
群はある基準に従って分類されているので、当該基準に
沿った関係上にある単語音声の照合に要する時間が短縮
される。分類されている単語音声は必要に応じて変更可
能であるので、変更後にあっても認識動作に要する時間
が短縮される。
〔産業上の利用分野〕
本発明は、単語音声認識装置に関し、特に、人が発声
する言葉を自動認識する技術である音声認識を適応し、
登録されている音声パターンと照合して、発声された単
語に関する情報を得るようにした単語音声認識装置に関
するものである。
〔従来の技術〕
従来から、このような音声認識に関しての研究が盛ん
であり、また、それを応用した音声認識装置も開発,実
用化されている。
このような音声認識装置の参考文献として、1983年11
月7日発行の「日経エレクトロニクス」の第171頁〜第2
08頁『連続発声した単語音声を効率的に認識する2段DP
マッチング』が挙げられる。そこに紹介されている音声
認識装置における音声認識処理としては、第3図に示す
ような流れとなっている。
図において、先ずマイクロホン451から入ってくる音
声は、分析部453によって分析され、その音声パターン
の特徴を表す認識パラメータが抽出される。
このシステムにあっては、特定話者用の単語音声認識
装置であるとすると、切換スイッチ455を「登録」の側
に設定して、分析部453で抽出された音声パターンの特
徴を表す認識パラメータを、その特定話者用に標準パタ
ーン部457に登録する。これにより、このシステムによ
って認識動作を行なう前に、その特定話者の各認識対象
単語の分析結果が、標準パターンとして予め登録され
る。
実際に認識動作を行なうときには、切換スイッチ455
を「認識」側に設定してある。各認識対象単語の標準パ
ターン(標準パターン部457に登録済み)と、現入力音
声パターン(分析部453から得られる)の両パラメータ
を比較して、最も近い(すなわち距離の小さい)認識対
象単語を選択する。つまり、パターンマッチング処理を
行なう。
ここで、パターンマッチング処理は、距離計算部459
により、分析部453から得られる現入力音声パターンの
パラメータと、既に標準パターン部457に登録されてい
る各認識対象単語の標準パターンとの距離を演算する。
また、最承値検出部461は、距離計算部459における計算
結果に基づいて、最も距離の小さい標準パターン認識対
象単語を抽出して、『認識結果』として出力する。
なお、パターンマッチング処理方法としては、距離計
算手法の他に類似度計算手法も知られている。「距離の
小さい」ことと、「類似度の大きい」ことは等価であ
る。
〔発明が解決しようとする問題点〕
このような従来方式にあっては、現入力音声パターン
のパラメータを、標準パターン部457に予め登録してあ
る認識対象単語の標準パターンと比較する際には、該標
準パターン部457に登録してある認識対象単語の全てに
ついて比較する。そのため、認識対象単語群の全てにつ
いて照合を行ない、1位,2位,3位,……を決定し、順番
に『認識結果』として出力していた。
しかしながら、標準パターン部457に予め登録してあ
る認識対象単語が少ないときには問題ないが、当該認識
対象単語が多いときには、それら認識対象単語の全てに
ついて比較しているので、『照合結果』が得られるまで
に多大の時間がかかる。そのため、認識動作における応
答が遅くなってしまうという問題点があった。
通常、標準パターン部457については、その使用頻度
を考慮しないで単語登録は行なわれている。
いま、多項目入力につき、それらについて認識動作を
行なうものとする。
例えば、標準パターン部457に予め登録してある認識
対象単語群での単語数が10000語であり、そのうち使用
頻度の高い単語は1000語であるものとする。その場合、
第3図に示すようなシステムでの認識性能は、使用頻度
の高い1000語についての「認識率」が90パーセント、ま
た、10000語の全てについての「認識率」は70パーセン
トであり、更に、1語当たりの「照合時間」は、0.5ms
であるものとする。
その場合の実効認識率は、70パーセントであり、ま
た、応答時間は5秒(=0.5ms×10000語)である。
このように、多項目入力として認識対象単語が多いと
きには、それの『認識結果』が得られるまでに多大の時
間がかかってしまうという問題点があった。
このような問題点を解決するものとして、本出願人
は、同日付けの特許願「単語音声認識装置」を提案し
た。この装置は、所定の分類基準に従って複数に分けら
れた単語音声の登録パラメータのそれぞれについて、入
力単語音声についての入力パラメータを照合して、両パ
ラメータ間に一定の関係が成立する単語音声を求めて、
選択信号に応じて選択的に『認識結果』として出力する
ようにしている。これにより、登録単語音声はある基準
に従って分類されているので、当該基準に沿った関係上
にある単語音声の照合に要する時間が短縮される。
しかしながら、かような装置にあっては、予め所定の
分類基準に従って複数の単語音声群に順位を付けて分け
られている。そのため、第2順位,第3順位,……等、
第1順位以外にグループ分けされた登録単語について
は、その『認識結果』を得るのに絶えず時間がかかって
しまうという問題点がある。
本発明は、このような点にかんがみて創作されたもの
であり、実効認識率の向上を図ると共に、単語音声の照
合に要する時間が短縮された単語音声認識装置を提供す
ることを目的としている。
〔問題点を解決するための手段〕
第1図は、本発明の単語音声認識装置の原理ブロック
図である。
図において、複数の単語登録手段111A,B,C,……のそ
れぞれには、所定の分類基準に従って複数に分けられた
単語音声の各パターンについてその特徴を表すパラメー
タが登録されている。
照合手段117は入力単語音声のパターンについてその
特徴を表す入力パラメータ113を得、複数の単語登録手
段111A,B,C,……のそれぞれが有する登録パラメータと
照合し、距離もしくは類似度を求めて、照合結果115A,
B,C,……として出力する。
格納手段119は、照合結果115A,B,C,……の情報を格納
する。
選択制御手段123は、1つの照合結果115Aが得られた
段階で、距離最小もしくは類似度最大の単語を選び、第
1位の認識結果として出力する。ここで、単語登録手段
111Aに含まれる単語を使用頻度の高い少数の単語として
おけば、音声入力から認識結果が得られるまでの時間が
短縮されると共に認識率も向上する。もし、第1位とし
て出力した認識結果が誤りであった場合には、使用者も
しくは外部装置から次候補要求信号121が発せられる。
選択制御手段123は、次候補要求信号121に応じて、格納
手段119にその時点で格納されている照合結果の中か
ら、既に出力済みの単語を除いた上で距離最小もしくは
類似度最大の単語を選択し、認識結果として出力すると
共に、該出力された前記認識結果に応じて登録順序判別
信号125を発生する。
登録順序制御手段127は、登録順序判別信号125に応じ
て、複数の単語登録手段111A,B,C,……が有する各登録
パラメータについて、必要に応じて順序換えを行なう 従って、全体として、入力パラメータ113を複数に分
けられた単語音声の登録パラメータのそれぞれと照合
し、前記入力単語音声と一定の関係がある単語情報を求
めて選択的に出力すると共に、単語登録手段111A,B,C,
……が有する各単語の登録パラメータについて順序換え
を行なえるように構成されている。
〔作 用〕
入力単語音声についての入力パラメータ113が与えら
れると、照合手段117は、複数の単語登録手段111A,B,C,
……のそれぞれが有する登録パラメータのそれぞれと照
合し、距離もしくは類似度を求めて、照合結果115A,B,
C,……として出力する。
これらの照合結果115A,B,C,……で表される単語毎の
距離もしくは類似度の情報が、格納手段119に格納され
る。
選択制御手段123は、1つの照合結果115Aが得られた
段階で、距離最小もしくは類似度最大の単語を選び、第
1位の認識結果として出力する。
単語登録手段111Aに含まれる単語を使用頻度の高い少
数の単語としておけば、音声入力から認識結果が得られ
るまでの時間が短縮されると共に、認識率も向上する。
もし、第1位として出力した認識結果が誤りであった
場合には、使用者もしくは外部装置から次候補要求信号
121が発せられる。選択制御手段123は、次候補要求信号
121に応じて、格納手段119にその時点で格納されている
照合結果の中から、既に出力済みの単語を除いた上で距
離最小もしくは類似度最大の単語を選択し、認識結果と
して出力する。
また、登録順序判別信号125に応じて登録順序制御手
段127は、複数の単語登録手段111A,B,C,……が有する各
単語の登録パラメータについて、必要に応じて順序換え
を行なう。
本発明にあっては、複数の単語登録手段111A,B,C,…
…には、所定の分類基準に従って分けられた単語音声の
登録パラメータがそれぞれあるので、当該基準に沿った
関係上にある単語音声の照合に要する時間が短縮され、
また、複数の単語登録手段111A,B,C,……が有する各単
語の登録パラメータについて順序換えが可能であるの
で、順序換え後における認識動作も速くなる。
〔実施例〕
以下、図面に基づいて本発明の実施例について詳細に
説明する。
第2図は、本発明の一実施例における単語音声認識装
置の構成を示す。
I.実施例と第1図との対応関係 ここで、本発明の実施例と第1図との対応関係を示し
ておく。
単語登録手段111A,B,C,……は、第1パターン登録部2
11A,第2パターン登録部211Bに相当する。
入力パラメータ113は、区間検出出力信号213における
入力単語音声パターンの特徴を表す認識パラメータに相
当する。
照合結果115A,B,C,……は、照合結果出力信号215に相
当する。
照合手段117は、第1照合部217A,第2照合部217B,判
定部218に相当する。
格納手段119は、照合結果格納部219に相当する。
次候補要求信号121は、キーボード241から与えられる
次候補要求信号に相当する。
選択制御手段123は、判定部218,制御部223に相当す
る。
登録順序判別信号125は、制御部223からパターン置換
処理部227に与えられる登録順序判別信号に相当する。
登録順序制御手段127は、パターン置換処理部227に相
当する。
II.実施例の構成 以上のような対応関係があるものとして、以下本発明
の実施例について説明する。
第2図に示す単語音声認識装置としては、特定話者用
であるものとする。
マイクロホン231は、話者の音声を信号波形に変換す
るものであり、その波形信号は次のパラメータ抽出部23
3に供給されるようになっている。このパラメータ抽出
部233は、それぞれ周波数帯域の異なるバンドパスフィ
ルタを複数個設けておき、一定間隔でサンプリングする
ものである。
ここで、第1パターン登録部211Aおよび第2パターン
登録部211Bとして設けられている2つの標準パターン登
録部には、当該特定話者についての音声パターンの特徴
を表す認識パラメータが、その特定話者用に登録されて
いる。その登録方法としては、その特定話者がマイクロ
ホン231に向かって通常の発声状態で発声する。その音
声パターンの特徴を表す認識パラメータがパラメータ抽
出部233によって抽出される。その抽出された音声パタ
ーンの特徴を表す認識パラメータが、当該特定話者用に
第1パターン登録部211Aおよび第2パターン登録部211B
に登録される。かような登録動作により、この単語音声
認識装置によって認識動作を行なう前に、その特定話者
の各認識対象単語の分析結果が標準パターンとして予め
登録される。
ここで、第1パターン登録部211Aおよび第2パターン
登録部211Bの2つに登録単語を分ける基準は、当該特定
分者に対する認識対象単語の使用頻度に従っている。例
えば、全体として10000語を登録するものとして、その
内の使用頻度の高い1000語を第1パターン登録部211Aに
登録し、これに対して使用頻度の高くない9000語を第2
パターン登録部211Bに登録する。
この単語音声認識装置としては、パラメータ抽出部23
3の後段に区間検出部235を設け、制御部223の制御の下
に所定の区間について、パラメータ抽出部233で抽出さ
れたパラメータを検出する。
この区間検出部235は、本来「音声」でない部分も音
声波形に含まれているので、パワー等により、一定区間
について区切って、「音声」の部分を取り出している。
その検出されたパラメータを表す区間検出出力信号21
3が、第1照合部217Aおよび第2照合部217Bに共通に供
給される。
この第1照合部217Aには、第1パターン登録部211Aに
登録されている各認識対象単語の標準パターンが供給さ
れる。また、第2照合部217Bには、第2パターン登録部
211Bに登録されている各認識対象単語の標準パターンが
供給されるようになっている。
第1照合部217Aおよび第2照合部217Bは共に制御部22
3の制御に基づいて、区間検出出力信号213によって表さ
れる音声パターンの特徴を表す認識パラメータが、第1
パターン登録部211Aに登録されている各認識対象単語の
標準パターンと、また、第2パターン登録部211Bに登録
されている各認識対象単語の標準パターンとそれぞれ照
合されて、単語毎に距離が求められ、その照合結果を表
す照合出力信号214A,照合出力信号214Bが出力されて判
定部218に供給される。
判定部218では、照合出力信号214A,照合出力信号214B
で表されるそれぞれの照合結果を受け取り、そのまま照
合結果出力信号215として、照合結果格納部219に供給さ
れて順次格納されるようになっている。また、判定部21
8では、照合出力信号214A中の距離最小の単語を選択し
た後、出力制御信号216を制御部223に供給すると同時
に、第1位の認識結果として上記距離最小の単語を表す
選択結果信号224が制御部223に供給される。
キーボード241は、この単語音声認識装置を操作する
ための多数のキーが具わっており、その中には、照合結
果格納部219に『照合結果』として格納された複数の認
識対象単語を、任意に選択して制御部223が『認識結
果』として、利用装置(図示せず)に与えられるように
するための次候補要求キー(図示せず)が含まれてい
る。第1位の認識結果が誤りであった場合には、使用者
が、この次候補要求キーを押下することにより、制御部
223から判定部218に次候補要求信号が送られ、判定部21
8では照合結果格納部219において、既に出力済みの単語
を除いた中から距離最小の単語を選択して、選択結果信
号224を制御部223に供給する。
制御部223の『認識結果』出力に応じて、それに該当
する単語に関する「登録順序判別信号」が発生され、そ
れに応じてパターン置換処理部227は、第1パターン登
録部211A内の登録単語の順序変更,あるいは第2パター
ン登録部211Bと第1パターン登録部211Aとの登録単語の
交換を指示できるようになっている。
III.実施例の動作 上述した構成による実施例の動作について、以下説明
する。
この単語音声認識装置が対象としている特定話者が、
マイクロホン231の前で、「認識動作」を行なうため
に、特定の単語を発声したものとする。
但し、「単語」は単音節のもの、また、それ以外のも
のも含むものとする。
(i)単語音声の認識動作 マイクロホン231によって捕らえられた音声波形は、
パラメータ抽出部233によって、音声パターンの特徴を
表す認識パラメータが抽出される。その抽出された音声
パターンの特徴を表す認識パラメータが区間検出部235
に供給され、区間検出部235において、時間的にパワー
の変化する特定の区間にてパラメータ検出され、その検
出されたパラメータを表す区間検出出力信号213が、第
1照合部217Aおよび第2照合部217Bに共通に供給され
る。
制御部223から、第1照合部217Aおよび第2照合部217
Bの照合動作を付勢するように制御信号が与えられる。
第1照合部217Aは、第1パターン登録部211Aに登録され
ている「高使用頻度の単語」音声パターンと、区間検出
出力信号213として導入された入力単語音声パターンと
を、それらの特徴を表すパラメータに基づいて比較す
る。第1パターン登録部211Aの登録単語は1000語と少な
いので、全部の登録単語についての照合動作は速く、照
合出力信号214Aが第1照合部217Aから判定部218に供給
される時間は短い。
また、第2照合部217Bも同様にして、第2パターン登
録部211Bに登録されている「低使用頻度の単語」単語音
声パターンと、区間検出出力信号213として導入された
入力単語音声パターンとを照合する。ここで、第2パタ
ーン登録部211Bの登録単語は9000語と多いので、その照
合動作は遅い。従って、全てについての照合出力信号21
4Bが、第1照合部217Bから判定部218に供給される時間
は長い。
制御部223によって制御される判定部218は、照合出力
信号214Aおよび照合出力信号214Bを受け、照合結果出力
信号215として、照合結果格納部219に与えられる。但
し、「低使用頻度の単語」について格納の終了は遅い。
このとき、照合出力信号214Aに対応した判別による
「高使用頻度の単語」に対する『照合結果』は、その
「距離」の小さい順に、第1位,第2位,第3位,……
として、照合結果格納部219に格納される。
また、照合出力信号214Bに対応した「低使用頻度の単
語」に対する『照合結果』も、その「距離」の小さい順
に、第1位,第2位,第3位,……として格納される。
但し、「高使用頻度の単語」に対する『照合結果』と、
「低使用頻度の単語」に対する『照合結果』とは、それ
ぞれの順に従っている。
判定部218からは出力制御信号216が制御部223に与え
られ、これにより、少なくとも最初の『照合結果』が判
定部218において得られるので、照合結果出力信号215と
して照合結果格納部219に格納されたことを通知するこ
ととなる。これを受けた制御部223は、先ず、「高使用
頻度の単語」に対する第1位の『照合結果』を照合結果
格納部219から取り出すべく、判定部218に指令する。
判定部218は、「高使用頻度の単語」に対する第1位
の『照合結果』を格納単語情報信号222として照合結果
格納部219から求める。このようにして得た格納単語情
報信号222に応じて選択結果信号224として制御部223に
供給して、その次段に接続されるべき利用装置(図示せ
ず)に『認識結果』として出力する。
仮に、この出力された第1位の『照合結果』が特定話
者の意図した現発声単語でなければ、キーボード241に
具わっている次候補要求キーを操作する。その次候補要
求キーの操作までには、第2照合部217Bによっても照合
動作が終了しているので、照合結果格納部219には、
「高使用頻度の単語」のみならず「低使用頻度の単語」
についてもその『照合結果』が照合結果格納部219に格
納されている。
従って、次候補要求キーが操作されれば、「高使用頻
度の単語」に対する第1位の『照合結果』を除外し、そ
の他の「高使用頻度の単語」および「低使用頻度の単
語」の中から、距離の小さい単語を判定部218は検索し
て格納単語情報信号222として得て、選択結果信号224と
して制御部223に供給する。つまり、第2位の『認識結
果』が、第1位の『照合結果』を除いて求められる。
但し、第2位の『認識結果』が、特定話者の意図した
現発声単語でなければ、再度次候補要求キーを操作する
ことにより、第3位の『照合結果』を照合結果格納部21
9から取り出して、『認識結果』が利用装置に出力され
る。
以下、同様にして、第4位,第5位,……と、キーボ
ード241の次候補要求キーを操作することによって、任
意に、照合結果格納部219に格納されている『照合結
果』を取り出して利用装置に出力することができる。
このようにして、現に発声した特定話者の単語は、第
1パターン登録部211Aに登録されていた「高使用頻度の
単語」に対して正しい『認識結果』が得られる確率が高
く且つその速度も速くなる。
つまり、現に発声した特定話者の単語音声は、第1パ
ターン登録部211Aに登録されている「高使用頻度の単
語」に対する照合結果、および、第2パターン登録部21
1Bに登録されている「低使用頻度の単語」に対する照合
結果が共に、『認識結果』として出力可能である。
従って、第1パターン登録部211Aに登録されている
「高使用頻度の単語」は1000語と少なく、その全単語の
照合に要する時間は少ないので、この単語音声確認装置
での特定話者に対する単語音声認識は素早くできること
となる。
(ii)単語音声パターンの登録置換 いま、予め第1パターン登録部211Aに登録されている
「高使用頻度の単語」中に、現に発声された単語が『認
識結果』として出力されれば、「登録順序判別信号」と
して、制御部223はその結果をパターン置換処理部227に
通知する。この登録順序判別信号に従って、パターン置
換処理部227は、現『認識結果』が予め第1パターン登
録部211Aに登録されている「高使用頻度の単語」に該当
していたことを知る。パターン置換処理部227は、第1
パターン登録部211Aに対して、現『認識結果』に該当す
る登録単語を第1位順位とするように、その登録されて
いる「高使用頻度の単語」の登録順序を変更すべきもの
として指示する。
このようにして、認識結果を得る度に、現『認識結
果』に該当する登録単語を第1順位とするように登録順
序を変更する。従って、次回の発音による認識結果を得
る際には、前回変更された登録順序に基づいて行なわれ
るので、単語の照合に要する時間が少なくなるので、こ
の単語音声認識装置での特定話者に対する単語音声認識
は素早くできることとなる。
また、現に発声した単語が『認識結果』として出力さ
れたものは、第2パターン登録部211Bに予め登録されて
いた単語であったものとする。その場合にあっても、制
御部223はその結果を登録順序判別信号としてパターン
置換処理部227に通知する。パターン置換処理部227は登
録順序判別信号に従って、現『認識結果』が予め第2パ
ターン登録部211Bに登録されている「低使用頻度の単
語」に該当していたことを知る。
パターン置換処理部227は、第2パターン登録部211B
から、現『認識結果』に該当する登録単語を取り出し、
第1パターン登録部211Aの第1順位となるようにそれを
登録する。第1パターン登録部211Aにそれまで登録され
ていた単語の順序を1つずつ繰り下げる。つまり、「高
使用頻度の単語」の登録順序を変更する。但し、第1パ
ターン登録部211Aには新たに登録単語が増えるので、該
第1パターン登録部211Aの格納容量を上回るか否かを絶
えず判定する必要がある。
仮に、第1パターン登録部211Aへの格納に余裕があれ
ば、そのまま第1順位に登録して、順序を変更すればよ
い。しかし、第1パターン登録部211Aへの格納に余裕が
なければ、最後位順序の登録単語を第2パターン登録部
211Bに移行し、上述したようにして、第1パターン登録
部211Aにおいて新たな順序で単語登録を行なう。その場
合、第1パターン登録部211Aから第2パターン登録部21
1Bに移行して登録単語は、第2パターン登録部211Bにお
いて第1順位として登録し、他の単語は1つずつ繰り下
げる。つまり、「高使用頻度の単語」と共に、「低使用
頻度の単語」にあってもその登録順序が変更されること
となる。このような順序の変更は、一度入力された単語
が、短時間のうちに再び入力される可能性が高い場合に
は非常に有効である。
IV.実施例のまとめ このように、予め利用頻度の相違に着目し、予め登録
すべき単語をグループ分けして、第1パターン登録部21
1Aおよび第2パターン登録部211Bの2つの登録してい
る。認識の対象となる区間検出出力信号213を照合する
際、それが使用頻度の高いものであれば、直ぐに第1パ
ターン登録部211Aの登録単語との照合結果が得られる。
つまり、ほぼ第1パターン登録部211Aに登録されてい
る単語との照合に要する時間だけで、『認識結果』が得
られるので、応答速度が速く且つ実効認識率が極めて高
くなる。当初、「低使用頻度の単語」として第2パター
ン登録部211Bに登録されているものであっても、『変
更』後にあっては、その単語に関しては「高使用頻度の
単語」に該当することとなり、それ以降の照合動作に要
する時間は極めて短縮される。
ここで、従来との比較を示しておく。この単語音声認
識装置にあっても、その個々の認識性能は同じと仮定す
る。つまり、使用頻度の高い1000語および10000語の全
てについてのそれぞれの「認識率」は90パーセントおよ
び70パーセントであり、また、1語当たりの「照合時
間」は0.5msであるものとする。
この単語音声認識装置における実効認識率は、81パー
セント(0.9×0.9=0.81)である。また、応答時間は0.
5秒(0.5ms×1000語)となる。但し、この時間は第1照
合部217Aによって、第1パターン登録部211Aの登録単語
との照合に要する処理時間であり、キーボード241にお
ける次候補要求キーを使用しなかった場合である。
このように、実効認識率の向上が図られ且つ単語情報
の照合に要する時間が短縮されることが理解できるであ
ろう。特に、入力項目が多くなればなる程この効果は顕
著である。
V.発明の変形態様 なお、上述した本発明の実施例にあっては、第1照合
部217Aおよび第2照合部217Bの2つの単語照合手段とし
て設けたが、これを1つの照合部としてもよい。その場
合、制御部223の制御によって第1パターン登録部211A
および第2パターン登録部211Bをそれぞれ切り換えて、
時間的にずれた形で、先ず第1パターン登録部211Aに登
録されている使用頻度の高い各認識対象単語と照合す
る。続いて、第2パターン登録部211Bに登録されている
使用頻度の低い各認識対象単語と照合するようにすれば
よい。「高使用頻度の単語」の『照合結果』が得られ、
次候補要求キーを操作している間には、「低使用頻度の
単語」の『照合結果』が得られているので、何ら不都合
はない。
また、上述実施例にあっては、1回の次候補要求キー
の操作までに、「低使用頻度の単語」についての照合が
完了しているものとしたが、必ずしも完了していなくて
もよい。第2照合部217Bによる照合結果を順次受け入
れ、再度の次候補要求キー操作までに照合が終了してい
る範囲内の照合結果に基づいて、距離の小さいものを順
次『認識結果』とするようにすればよい。そのような例
は、「低使用頻度の単語」として定義した単語が極めて
多い場合に起こり得る。
上述した本発明実施例にあっては、第1パターン登録
部211Aおよび第2パターン登録部211Bに予め登録する各
認識対象単語のグループ分けは、その使用頻度に基づい
て行なうものとしたが、これに限られることはない。単
語音声認識装置の利用の実情に合わせて、登録単語のグ
ループ化は行なえばよい。このグループも3つ以上とし
てもよく、3つ以上のパターン登録部を設けて登録し、
その全てについて照合するようにしてもよい。
このグループ分けの基準として、「使用頻度」の他に
も各種の基準が考えられる。例えば「重要度」に基づ
き、音声認識装置の使用態様に応じてグループ分けして
もよい。
但し、例えば『緊急停止』等のような重要度の高い単
語はその使用頻度は低いが、「最重要度の単語」にグル
ープ化しておく必要がある。
上述した本発明の実施例にあっては、『認識結果』を
求めた後、パターン置換処理部227によって、第1照合
部217A内での登録単語の順序換え、また、第2照合部21
7Bの登録単語と第1照合部217Aとの登録単語との交換を
行なうようにしていた。しかし、第1照合部217A内での
登録単語の順序換えは必ずしも必要なものではない。ま
た、第2照合部217Bの登録単語と第1照合部217Aとの登
録単語との交換を行なうときでも、当該第2照合部217B
からの登録単語を第1照合部217Aに単語登録すべき順序
は、第1照合部217A内で最後位順序としてもよく、必要
に応じてその置換順序を決定すればよい。
上述した実施例では距離計算手法を採用したが、本発
明はこれに限られるものではなく、類似度の大きいもの
を求める類似度計算手法の採用が可能であることは明ら
かである。
更に、「I.実施例と第1図との対応関係」において、
第1図と本発明との対応関係を説明しておいたが、これ
に限られることはなく、各種の変形態様があることは当
業者であれば容易に推考できるであろう。
〔発明の効果〕
上述したように、本発明によれば、所定の分類基準に
従って複数の分けられた単語音声の特徴を表す登録パラ
メータのそれぞれと、入力単語音声についての入力パラ
メータとを照合し、両パラメータ間で最小距離もしくは
最大類似度となる単語音声にについての登録パラメータ
を求めて当該単語音声での認識結果として得るようにす
ることにより、単語の分類基準に沿って関係上にある単
語音声の照合に要する時間が短縮され、且つ、その分類
基準に沿って単語音声の登録パラメータ群を分けること
を可能として、次回以降の認識結果を得るための照合に
要する時間が少なくなるので、実用的には極めて有用で
ある。
【図面の簡単な説明】
第1図は本発明の単語音声認識装置の原理ブロック図、 第2図は本発明の一実施例による単語音声認識装置の構
成ブロック図、 第3図は従来から行なわれている音声認識の処理を示す
構成図である。 図において、 111A,B,C,……は単語登録手段、 113は入力パラメータ、 115A,B,C,……は照合結果、 117は照合手段、 119は格納手段、 121は次候補要求信号、 123は選択制御手段、 125は登録順序判別信号、 127は登録順序制御手段、 211A,Bはパターン登録部、 213は区間検出出力信号、 214A,Bは照合出力信号、 215は照合結果出力信号、 217A,Bは照合部、 218は判定部、 219は照合結果格納部、 222は格納単語情報信号、 223は制御部、 224は選択結果信号、 227はパターン置換処理部、 231はマイクロホン、 233はパラメータ抽出部、 235は区間検出部、 241はキーボード、 453は分析部、 457は標準パターン部、 459は距離計算部、 461は最小値検出部である。

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】単語の使用頻度または重要度に応じて高順
    位の分類から低順位の分類までの複数の分類に分けら
    れ、順位が高いほど単語音声のパターン数を少ないよう
    にして単語音声のパターンの各々についての特徴を表す
    パラメータが登録されている複数の単語登録手段(111
    A,B,C,…)と、 入力単語音声のパターンについてその特徴を表す入力パ
    ラメータ(113)を得、複数の単語登録手段(111A,B,C,
    …)のそれぞれが有する前記登録パラメータと照合し、
    距離若しくは類似度を求めて照合結果(115A,B,C,…)
    として順次出力する照合手段(117)と、 前記照合手段(117)から出力される前記照合結果(115
    A,B,C,…)を前記分類毎に前記照合結果(115A,B,C,
    …)の距離または類似度に応じた順に、且つ前記照合結
    果(115A,B,C,…)を各別にアクセス可能に格納手段(1
    19)に格納させると共に、処理開始信号に応答して前記
    格納手段(119)に格納される最高順位の分類に含まれ
    る照合結果の中から距離または類似度が第1位の認識候
    補の照合結果対応の単語を表す選択結果信号を出力し、
    該選択結果信号を認識結果の選択結果信号とすることが
    できないとき、次候補要求信号(121)に応答して該次
    候補要求信号の送出時までに前記格納手段(119)に格
    納されている照合結果のうちから既に認識候補として出
    力済みの照合結果を除いた中で距離の一番小さい若しく
    は類似度が最大の照合結果を選択し、該照合結果対応の
    単語を表す選択結果信号を認識結果として出力すると共
    に、該出力された前記認識結果に応じて登録順序判別信
    号(125)を発生する選択制御手段(123)と、 登録順序判別信号(125)に応じて、複数の単語登録手
    段(111A,B,C,…)が有する各登録パラメータについ
    て、必要に応じて順序変えを行う登録順序制御手段(12
    7)と、 を設けて構成したことを特徴とする単語音声認識装置。
  2. 【請求項2】照合手段(117)は、複数の単語登録手段
    (111A,B,C,…)に対応した複数の照合回路部から成っ
    ており、該複数の照合回路部は入力パラメータ(113)
    を共通的に受け、各照合回路部は、複数の単語登録手段
    (111A,B,C,…)のうち対応する単語登録手段が有する
    単語の前記登録パラメータと照合して、前記照合結果を
    出力するように構成したことを特徴とする特許請求の範
    囲第1項記載の単語音声認識装置。
  3. 【請求項3】照合手段(117)は、1つの照合回路部で
    成り、複数の単語登録手段(111A,B,C,…)を所定の順
    序で切り換えて、各単語登録手段が有する前記登録パラ
    メータと照合して、照合結果(115A,B,C,…)を順次出
    力するように構成したことを特徴とする特許請求の範囲
    第1項記載の単語音声認識装置。
  4. 【請求項4】前記登録順序判別信号(125)に応じて、
    登録順序制御手段(127)が必要に応じて行う順序変え
    は、複数の単語登録手段(111A,B,C,…)の相互間にお
    いて、それぞれが有する前記単語音声の登録パラメータ
    の交換であることを特徴とする特許請求の範囲第1項記
    載の単語音声認識装置。
  5. 【請求項5】前記登録順序判別信号(125)に応じて、
    登録順序制御手段(127)が必要に応じて行う順序変え
    は、複数の単語登録手段(111A,B,C,…)のうち、最も
    頻度の高い単語音声の登録パラメータを有する単語登録
    手段において、その各単語音声の登録パラメータの順序
    を変更するようにしたことを特徴とする特許請求の範囲
    第1項記載の単語音声認識装置。
JP62018079A 1987-01-28 1987-01-28 単語音声認識装置 Expired - Fee Related JP2589300B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62018079A JP2589300B2 (ja) 1987-01-28 1987-01-28 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62018079A JP2589300B2 (ja) 1987-01-28 1987-01-28 単語音声認識装置

Publications (2)

Publication Number Publication Date
JPS63186299A JPS63186299A (ja) 1988-08-01
JP2589300B2 true JP2589300B2 (ja) 1997-03-12

Family

ID=11961642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62018079A Expired - Fee Related JP2589300B2 (ja) 1987-01-28 1987-01-28 単語音声認識装置

Country Status (1)

Country Link
JP (1) JP2589300B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125592A (ja) * 1999-05-31 2001-05-11 Nippon Telegr & Teleph Corp <Ntt> 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
US6885990B1 (en) 1999-05-31 2005-04-26 Nippon Telegraph And Telephone Company Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
JP2007147962A (ja) * 2005-11-28 2007-06-14 Fujitsu Ten Ltd 車両用音声認識装置、開閉体制御装置及び音声認識方法
JP5277704B2 (ja) * 2008-04-24 2013-08-28 トヨタ自動車株式会社 音声認識装置及びこれを用いる車両システム
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62262898A (ja) * 1986-05-09 1987-11-14 株式会社リコー 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125592A (ja) * 1999-05-31 2001-05-11 Nippon Telegr & Teleph Corp <Ntt> 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
JP3530109B2 (ja) 1999-05-31 2004-05-24 日本電信電話株式会社 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
US6885990B1 (en) 1999-05-31 2005-04-26 Nippon Telegraph And Telephone Company Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress

Also Published As

Publication number Publication date
JPS63186299A (ja) 1988-08-01

Similar Documents

Publication Publication Date Title
US7769588B2 (en) Spoken man-machine interface with speaker identification
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
US9484021B1 (en) Disambiguation in speech recognition
US9558740B1 (en) Disambiguation in speech recognition
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
US20220343895A1 (en) User-defined keyword spotting
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
Djemili et al. A speech signal based gender identification system using four classifiers
JPS603699A (ja) 適応性自動離散音声認識方法
JPH02719B2 (ja)
JPH10319988A (ja) 話者識別方法および話者認識装置
JPH11143491A (ja) 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム
US20220262345A1 (en) Training Keyword Spotters
WO2020222957A1 (en) Systems and methods for disambiguating a voice search query
TW201926324A (zh) 語音情緒辨識系統與方法以及使用其之智慧型機器人
CN103680505A (zh) 语音识别方法及系统
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
JP2589300B2 (ja) 単語音声認識装置
JP2589299B2 (ja) 単語音声認識装置
JP4475380B2 (ja) 音声認識装置及び音声認識プログラム
JP2000020089A (ja) 音声認識方法及びその装置、並びに音声制御システム
WO2004012184A1 (en) Spoken man-machine interface with speaker identification
JP3708747B2 (ja) 音声認識方法
JPH08190470A (ja) 情報提供端末
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees