JPH07199989A

JPH07199989A - 音声認識装置

Info

Publication number: JPH07199989A
Application number: JP5354522A
Authority: JP
Inventors: Yasuhiro Komori; 康弘小森; Masaaki Yamada; 雅章山田; Yasunori Ohora; 恭則大洞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1993-12-29
Filing date: 1993-12-29
Publication date: 1995-08-04
Anticipated expiration: 2019-03-02
Also published as: JP3501488B2

Abstract

(57)【要約】【目的】使用者が、次の発話で何を発声すれば良いか
判断でき、認識対象の音声認識が難しい場合、丁寧に発
音したり、認識の困難さの回避できる高性能で使いやす
い音声認識装置を提供することを目的とする。【構成】入力された音声情報を音声認識部１０３に送
り、入力された音声と認識対象データとを比較すること
により音声認識処理を行う。ステップＳ３０３では、認
識結果を状況管理部１０４に送り、認識結果に応じて次
の認識対象を決定する。また、表示部１０２に対し認識
結果が出力される（Ｓ３１２）。次の認識対象も表示部
１０２に提示される（Ｓ３１３）。さらに、ステップＳ
２０４で、認識対象情報が難易度演算部１０５に送ら
れ、次の認識状況における難易度を計算し、結果を表示
部１０２へ出力して使用者に注意を促す（Ｓ３１４）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置に関するも
のである。

【０００２】

【従来の技術】人間と人間との間で行われる情報交換の
媒体の中で、最も自然に使われるのが音声である。一
方、計算機の飛躍的な進歩により、計算機は数値計算の
みならず様々な情報を扱えるように進歩してきている。
そこで、音声を人間と計算機との情報交換の媒体として
利用する要求が高まり、より正確な音声認識が必要とさ
れてきている。

【０００３】ところで、従来の音声認識装置は、音声認
識を行うための認識対象の範囲が動的に変更されること
がないか、変更があっても少数単語であって、多くの単
語，文または文体まで変更するものではなかった。この
ため認識する状況に応じて、音声認識を行なう難しさ
（認識性能）が変化することもなく、認識率と使用者の
発声との相対関係にも動的変化は起らなかった。従っ
て、使用者に対して状況に応じた音声認識の難しさ等を
提示し、使用者に注意を促す必要もなかった。

【０００４】

【発明が解決しようとする課題】ところが、音声認識の
対象範囲が動的に変更される音声認識装置の出現によ
り、認識率と使用者の発声との関係が動的に変化するよ
うになった。

【０００５】本明細書の「対象範囲の動的な変更」と
は、例えば、図４に示すように、住所・名前を順に入力
することが分っている場合に、最初に日本の地方名が特
定の約１０の認識単語数に基づいて認識される。ここで
“関東”と入力・認識された場合には、次に関東の県名
が特定の約７の認識単語数に基づいて認識される。他の
地方名が入力されれば、次はその地方の県名の認識とな
る。このように、先の認識結果に基づいて次の認識対象
範囲及び認識難易度が変更されることを言う。

【０００６】従つて、音声認識の対象範囲が動的に変更
される音声認識装置では、変更される認識対象及び／又
は認識対象の変更に伴う音声認識の難しさ（認識性能）
を使用者に提示して、発声について注意を促すことが認
識率向上の大きな要素となる。

【０００７】本発明は、認識対象の認識状況あるいは音
声認識の難しさを使用者に提示することにより、使用者
が次の発話で何を発声すれば良いか、丁寧に発声するべ
きか否か等の判断を可能として、認識率を向上させた音
声認識装置を提供する。

【０００８】

【課題を解決するための手段】この課題を解決するため
に、本発明の音声認識装置は、人間の発生する音声を認
識し、音声認識の結果または認識状況に対応して次の認
識対象範囲が変更される音声認識装置において、音声デ
ータを入力する音声入力手段と、所定の認識対象範囲の
データを格納する認識対象格納手段と、前記入力音声デ
ータと前記所定の認識対象範囲のデータとの比較に基づ
いて、音声認識を行う音声認識手段と、認識結果及び前
記認識対象を出力する出力手段と、前記認識結果に基づ
いて、次の認識対象を決定する認識対象決定手段とを備
えることを特徴とする音声認識装置。

【０００９】ここで、前記出力手段は、変更された次の
音声認識対象の単語または文を出力する。また、前記出
力手段は、変更された次の音声認識対象の文体を文法ま
たは例を用いて出力する。また、音声認識の難易度を認
識対象の単語または文の数、または文体の複雑度から計
算する難易度演算手段を更に備え、前記出力手段は、更
に変更された次の音声認識対象の認識難易度を数字，色
または画像を用いて使用者に出力する。

【００１０】

【実施例】以下、本発明を一実施例を用いて詳細に説明
する。

【００１１】図１は、本実施例の音声認識装置の構成を
示す図である。本実施例の音声認識装置は以下の構成要
素からなる。

【００１２】１０１は、音声の入力を行うマイク１０１
ａとＡ／Ｄ変換器１０１ｂとを含む音声入力部、１０２
は、認識結果，認識対象，認識難易度等を表示する表示
部、１０３は、入力音声の認識を行なう音声認識部、１
０４は、認識結果や次の認識対象等の状況を管理する状
況管理部、１０５は、次の認識対象から認識難易度を計
算する難易度計算部である。ここで、状況管理部１０４
は、図４のような認識対象の情報テーブル（認識対象テ
ーブル１０４ａ）を有し、難易度演算部１０５は、図５
のような認識対象と認識難易度との関係を示す情報テー
ブル（変換関数１０５ａ）を有している。認識対象はツ
リー状にリンクされて不図示の辞書に格納され、先の認
識結果により次の認識対象が１つ選択される。

【００１３】図２は、本実施例の音声認識装置のハード
ウエア構成を示す図である。尚、図１と同一の参照番号
は同様な機能を果す。

【００１４】２０１は、本実施例の音声認識装置全体の
制御を司る演算・制御用のＣＰＵ、２０２は、ＣＰＵ２
１の処理手順と変換関数１０５ａを格納するＲＯＭ、２
０３は、演算補助用で認識対象テーブル１０４ａを含む
ＲＡＭ、２０５は、マイク１０１ａからの入力されＡ／
Ｄ変換器１０１ｂでデジタルに変換されたデータを、装
置に入力する入力インタフェース、２０６は、認識対象
テーブル１０４ａに基づき認識結果，認識対象，認識難
易度等を表示する表示部１０２に、データを出力する出
力インタフェースである。

【００１５】本実施例の音声認識装置は、上記の要素に
よる構成で図３に示す流れにしたがって動作する。

【００１６】ステップＳ３０１では、マイク１０１ａか
ら入力された音声に対して音声入力処理を行う。次のス
テップＳ３０２では、入力された音声情報を音声認識部
１０３に送り、入力された音声と認識対象データとを比
較することにより音声認識処理を行う。ステップＳ３０
３では、認識結果を状況管理部１０４に送り、認識結果
に応じて次の認識対象を決定する。また、表示部１０２
に対し認識結果が出力される（Ｓ３１２）。

【００１７】次の認識対象も表示部１０２に提示される
（Ｓ３１３）。さらに、ステップＳ２０４で、認識対象
情報が難易度演算部１０５に送られ、次の認識状況にお
ける難易度を計算し、結果を表示部１０２へ出力して使
用者に注意を促す（Ｓ３１４）。

【００１８】本実施例による音声認識の認識例の認識対
象テーブルを図４に示す。図４は、認識した音声に対し
て、その次の発話の対象（認識対象），認識対象単語，
認識の難易度（対象単語数）及び入力結果を示す。ここ
では、住所と名前の単語を入力する例を示している。

【００１９】まず、番号１では、「日本の地方名」が認
識対象になっており、約１０の地方名が認識できるの
で、その認識対象の「日本の地方名」を使用者に提示す
る。また、この認識状況における難易度をこの例では認
識対象語数に対応して演算する。これは、図５に示すよ
うな関数やテーブルを用いて言葉や色などに変換し提示
することができる。ここでは、約１０の地方名が対象で
あるため、認識難易度は「易しい」となる。

【００２０】最初に、「関東」を入力すると番号２のよ
うに、「関東地方の県名」に認識対象が変更されて表示
される。認識対象は７県名であり、認識難易度はやはり
「易しい」になる。

【００２１】続いて、「東京」を入力すると、番号３の
ように認識対象は「東京の市町村名」となり表示され
る。東京の市町村は約５０であり、認識難易度は「普
通」として提示される。

【００２２】最後に、「新宿」を入力すると、番号４の
ように認識対象は「新宿住人の名前」となり表示され
る。新宿住人の名前は約５０００もあり、認識難易度は
「難しい」として提示される。

【００２３】このように、本実施例では、認識対象が変
更されたことを提示し、さらに、その状況における認識
の難易度を使用者に提示することを特徴としている。
尚、上記例で認識対象「日本の地方名」や「関東地方の
県名」は、認識対象数が少ないので全対象を表示すれ
ば、使用者の入力間違いが減り認識率も高くなる。

【００２４】以上のように本実施例によれば、使用者に
認識対象の認識状況に応じた音声認識を行なうために、
認識対象およびその状況における難易度を提示でき、使
用者に注意を促すことにより、より高性能で使いやすい
音声認識装置が実現できることが保証される。

【００２５】前記の実施例では、便宜上、入力されるも
のや変更される認識対象データが単語で表されている
が、入力が連続音声であり、変更される認識対象データ
が文であったり、文体を表す文法であっても処理するこ
とができる。すなわち、変更される認識対象データが文
体を表す文法などに関しても変更される時には、典型的
な例文を提示することができる。

【００２６】また、実施例では、説明のために難易度を
表す基準（複雑度）に認識対象データの単語数を用いた
が、以下の場合も可能である。

【００２７】・認識対象データに含まれる単語の類似性
に基づいた難易度の計算。

【００２８】・一般的な誤認識や過去の誤認識の統計に
基づいた難易度の計算。

【００２９】・単語や文法の複雑度（例えば、静的分岐
数，パープレキシティ，エントロピー等）に基づいた難
易度の計算。

【００３０】更に、難易度の表現方法は、数字，色，言
葉または表現などの画像を含め、何らかの使用者に分る
形で難易度との対応がとれる表現方法であれば良い。

【００３１】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることは言うまでもない。

【００３２】

【発明の効果】本発明により、認識対象の認識状況ある
いは音声認識の難しさを使用者に提示することにより、
使用者が次の発話で何を発声すれば良いか、丁寧に発声
するべきか否か等の判断を可能として、認識率を向上さ
せた音声認識装置を提供できる。

【００３３】すなわち、音声の認識の状況に対応して認
識対象が動的に変更される音声認識装置において、変更
された認識対象を使用者に提示し、また認識対象の変更
に伴う音声認識の難しさ（認識性能）を使用者に提示す
ることにより、使用者は、次の発話で何を発声すれば良
いか判断でき、また、音声認識の難しさを提示すること
により、難しい場合には、丁寧に発声したり、場合によ
っては、認識の困難さを回避したりでき、より高性能で
使いやすい音声認識装置の実現を可能とする。

【図面の簡単な説明】

【図１】本実施例の音声認識装置の構成を示す図であ
る。

【図２】本実施例の音声認識装置のハードウエア構成を
示す図である。

【図３】本実施例の音声認識装置の処理の流れ図であ
る。

【図４】本実施例の認識状況を示す認識対象テーブルの
図である。

【図５】本実施例の難易度演算の関数を示す図である。

Claims

【特許請求の範囲】

【請求項１】人間の発生する音声を認識し、音声認識
の結果または認識状況に対応して次の認識対象範囲が変
更される音声認識装置において、音声データを入力する音声入力手段と、所定の認識対象範囲のデータを格納する認識対象格納手
段と、前記入力音声データと前記所定の認識対象範囲のデータ
との比較に基づいて、音声認識を行う音声認識手段と、認識結果及び前記認識対象を出力する出力手段と、前記認識結果に基づいて、次の認識対象を決定する認識
対象決定手段とを備えることを特徴とする音声認識装
置。
【請求項２】前記出力手段は、変更された次の音声認
識対象の単語または文を出力することを特徴とする請求
項１記載の音声認識装置。
【請求項３】前記出力手段は、変更された次の音声認
識対象の文体を文法または例を用いて出力することを特
徴とする請求項１記載の音声認識装置。
【請求項４】音声認識の難易度を認識対象の単語また
は文の数、または文体の複雑度から計算する難易度演算
手段を更に備え、前記出力手段は、更に変更された次の音声認識対象の認
識難易度を数字，色または画像を用いて使用者に出力す
ることを特徴とする請求項１記載の音声認識装置。