JP2005227686A

JP2005227686A - 音声認識装置、音声認識プログラムおよび記録媒体。

Info

Publication number: JP2005227686A
Application number: JP2004038339A
Authority: JP
Inventors: Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2004-02-16
Filing date: 2004-02-16
Publication date: 2005-08-25
Anticipated expiration: 2024-02-16
Also published as: JP4236597B2

Abstract

【課題】誤認識を生じにくい認識辞書を有する音声認識装置を提供する。
【解決手段】本発明の音声認識装置は、ユーザが発声した音声の音声信号から抽出した特徴量を、あらかじめ認識辞書に登録されている単語の特徴量と照合して、音声を認識するものであり、この音声認識装置は、大語彙の一般辞書を有し、前記認識辞書に登録された単語に対して、所定のアルゴリズムを用いて、前記一般辞書に含まれる単語との類似度を求める類似度計算手段と、前記一般辞書に含まれる単語と類似度が大きい認識辞書に登録された単語について、類似度が高い旨をユーザに提示する類似度提示手段と、を有する。
【選択図】図１

Description

本発明は、ユーザの発声した音声から特定の言葉を認識し、機器を制御する音声認識装置に関する。

ユーザが入力した音声を認識する音声認識装置にあっては、入力音声信号を分析した特徴パラメータと、認識辞書に格納された認識対象語彙の特徴パターンとの類似度を比較する。この比較により、認識対象語彙の特徴パラメータのうち、入力音声信号の特徴パラメータに最も近似している特徴パラメータに対応する単語を、入力音声の単語として認識する。このような音声認識装置では、認識対象となる単語の中に発声が類似した単語が存在すると、誤認識を生じやすいという問題がある。

このような誤認識を回避する技術として、例えば認識辞書に格納する認識対象語彙を登録する際に、あらかじめ誤認識の少ない言葉を登録する方法がある（例えば、特許文献１参照）。この文献に記載の音声認識装置では、単語辞書に獲得した一つの単語と、残りの全ての単語との類似関係を調べ、得られた結果をユーザに通知する構成となっている。通知を受けたユーザは、この結果に基づいて、類似する単語を削除する、または読み替えの修正をする。例えば、最初の単語として「オカヤマ」を単語辞書に登録した場合には、２単語目の「ワカヤマ」は、「オカヤマ」に類似する単語であるとの結果が得られる。これを見たユーザは、「ワカヤマ」を、別の言葉、例えば「キンキワカヤマ」などに変更することにより、誤認識を回避できる単語辞書を作成できる。

また、誤認識を回避する別の方法として、認識すべき言葉のほかに、リジェクトすべき言葉を登録したリジェクト辞書を用いる方法がある（例えば、特許文献２参照）。この文献に記載の音性認識方式では、例えば「１」〜「５」までのみを入力することを想定した場合に、誤って発声する可能性の高い語「６」〜「１０」をリジェクトすべき言葉として、リジェクト辞書に登録しておく。リジェクトすべき言葉が認識された場合には、その認識された言葉をリジェクトする。この構成により、ユーザが誤って、認識語彙以外の言葉「８」を発声したときに、認識語彙「１」と誤認識することを回避できる。

特開平９−１３８６９５号公報（特許請求の範囲、段落００２０〜段落００２２、段落００２６）特開２００２−２９７３７２号公報（特許請求の範囲、明細書第４頁左上欄第２行〜同頁同欄第１０行）

特許文献１に記載の音声認識装置は、ユーザが認識辞書に含まれる単語「オカヤマ」を発声した場合に、「ワカヤマ」と誤認識されることを回避する。また、特許文献２に記載の方法では、装置が「１」から「５」までしか認識すべきでない場合に、ユーザが、誤って「８」と発声したときに「１」と誤認識されることを回避する。これらは、いずれもユーザが認識を目的として発声した言葉に対する誤認識を防ぐことを目的とする。したがって、これらの装置では、既知の認識辞書内の言葉や、誤認識が予測できる言葉が入力される場合に生ずる、誤認識を回避するものである。

しかし、実際に音声認識により、機器を操作する場合には、これらとは異なる誤動作を生ずる。例えば、ユーザや周囲の人間が自然に会話する言葉、あるいはラジオ・テレビなどの音声中に、認識辞書に含まれる言葉やこの言葉に類似する言葉を含んだ発声により、装置がかってに動作する場合がある。音声認識機能を備えたハンズフリー電話において、電話がかかってきたときに、「とります」という言葉で、通話が開始される場合を考える。この場合に、家庭内で、ユーザや周囲の人の会話、あるいはテレビの音声に、「ここ通りますよ」、「私は、○○といいます」、「メダルをとり、益々好調」などの言葉があると、これらに含まれる「とおります」、「といいます」「とります」を、「とります」と認識する。このため、ユーザが何の指示もしていないのに、通話状態になるという問題がある。

このような誤操作は、発話区間を指示するボタン操作なしに、音声入力を常時認識するハンズフリー電話の場合には、特に顕著となる。音声入力を常時認識すれば、認識時間が長くなる。このため、多くの類似した言葉が入力され、誤認識の可能性が高くなる。また、音声入力を常時認識すれば、入力される言葉を予想することが難しくなる。特に、特許文献１に記載の発明のように、認識語彙を登録した単語辞書の中で、類似単語を検出するのであれば、入力された単語が、単語辞書内の単語と想定外に類似した場合に、誤認識を生ずることになる。また、特許文献２に記載の発明のように、リジェクト語を登録しても、想定外に類似する単語が入力された場合には、有効ではない。

このような誤認識を回避するために、例えば、「とります」という言葉の前後に、必ず無音区間が必要であるという制限を設ける方法も、考えられる。しかし、この場合には、周囲に発生する騒音のため、ユーザが「とります」をいくら発声しても、認識できないという問題がある。

すなわち、本発明は、上記問題に鑑みなされたものであり、その目的は、誤認識を生じにくい認識辞書を有する音声認識装置を提供することにある。

また、本発明の別の目的は、認識辞書に登録された単語に類似する単語を有効にリジェクトすることができる音声認識装置を提供することにある。

上記目的を達成するために、本発明の音声認識装置は、ユーザが発声した音声の音声信号から抽出した特徴量を、あらかじめ認識辞書に登録されている単語の特徴量と照合して、音声を認識するものであり、この音声認識装置は、大語彙の一般辞書を有し、前記認識辞書に登録された単語に対して、所定のアルゴリズムを用いて、前記一般辞書に含まれる単語との類似度を求める類似度計算手段と、前記一般辞書に含まれる単語と類似度が大きい認識辞書に登録された単語について、類似度が高い旨をユーザに提示する類似度提示手段と、を有する。

この構成によれば、認識辞書に登録された単語について、大語彙の一般辞書に含まれる単語との類似度を求める。この結果、誤認識を生ずる可能性の高い単語を広く検索できる。また、一般辞書に含まれる単語と類似度が大きい認識辞書に登録する単語について、類似度が高い旨をユーザに提示する。ユーザは、認識辞書を音声認識に使用する前に、誤認識を生ずる可能性のある単語を事前に知ることができる。この結果、ユーザが誤認識を生じやすい単語の登録を回避できるので、誤認識を生じにくい認識辞書を作成することができる。

また、本発明の音声認識装置は、前記一般辞書に含まれる複数の単語を組み合わせて文字列を生成する文字列生成手段を有し、前記類似度計算手段では、前記認識辞書に登録された単語と、前記生成された文字列の一部の文字列との間で、類似度を求めるものであってもよい。

この構成によると、一般辞書に含まれていない、上記した「ここ通りますよ」などの口語文の一部に、認識辞書に登録された単語と類似する文字列を含む場合にも、類似度を求めることができる。したがって、ユーザや周囲の人の会話、あるいはテレビの音声により生ずる誤認識を有効に回避することができる。

また、認識された単語が、前記生成された文字列の一部の文字列と類似度が高いと判断された単語である場合に、この認識された単語が、単独発声との照合であるか、連続発声の一部との照合であるかを識別する照合部分識別手段を有し、連続発声の一部との照合であると識別された場合に、前記認識された単語の入力をリジェクトする構成としてもよい。この構成によると、連続発声の一部に、登録された単語と誤認識する文字列が含まれている場合に、認識辞書への登録がリジェクトされるので、誤認識を有効に回避できる。

前記文字列生成手段では、単語の連結情報を用いて、文字列を生成することとしてもよい。この構成によれば、明らかに使用しない文字列を生成しないので、無駄な類似度の計算が省略できる。また、前記一般辞書は、単語の品詞情報を備え、前記文字列生成手段では、文法に従って文字列を生成することとしてもよい。

前記一般辞書は、ユーザが無意識に発声する不要語、または口語表現を含むものであればよい。

前記類似度提示手段は、前記一般辞書に含まれる単語と、この単語と類似度が高いと判断された認識辞書に登録される単語とのうち、少なくとも一方を提示するものであればよい。この内容をみて、ユーザは、登録しようとする単語が誤認識されやすいかどうかを判断することができる。

本発明の音声認識装置は、認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語を登録するリジェクト辞書を有し、入力音声を前記リジェクト辞書に登録されている単語と照合した結果が、入力音声を前記認識辞書に登録されている単語と照合した結果より上位にある音声の入力を、リジェクトすることとしてもよい。

この構成によれば、入力された音声について、認識辞書とリジェクト辞書を用いて、認識するか、リジェクトするかを判断する。このように、リジェクト辞書を設けることにより、認識辞書に登録された単語と類似の言葉が存在する場合であっても、認識語彙として使用できる。

認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語のうち、認識辞書に登録される単語と意味が近似する単語を認識辞書に追加登録することとしてもよい。一般辞書に含まれる単語と類似度が大きい単語であっても、認識辞書に登録される単語と意味が近似する単語は、誤認識にならない。したがって、このような単語は、認識辞書に登録することができる。

前記リジェクト辞書に登録されている単語は、それぞれが、入力音声をリジェクトするかどうかを示すフラグを有し、そのフラグをユーザに提示する構成としてもよい。この構成によれば、リジェクト辞書に登録されている単語であっても、入力音声をリジェクトするかどうかを、ユーザが決定することができる。

本発明の音声認識装置は、前記一般辞書と、類似度計算手段とが、外部機器に設けられており、外部機器において求められた前記認識辞書に登録する単語に対する、前記一般辞書に含まれる単語との類似度を、通信手段を用いて、音声認識装置に送る構成としてもよい。

上記音声認識装置は、コンピュータシステムにおいて実現するためのプログラムであってもよい。

上記音声認識装置を記録したコンピュータ読み取り可能な記録媒体であってもよい。

なお、本明細書において、認識辞書とは、音声認識装置に認識させたい言葉の特徴を記憶した辞書をいい、認識辞書に記憶された言葉を認識語という。また、リジェクト辞書とは、リジェクトさせたい言葉の特徴を記憶した辞書をいい、リジェクト辞書に記憶された言葉をリジェクト語という。また、一般辞書とは、一般の言葉を含んだ大語彙の辞書をいう。本明細書中で、単語とは、通常に単語に加え、単語を連結した言葉を含めて使用する場合がある。
さらに、認識辞書に登録された単語とは、実際に入力音声との照合に用いられる単語に限られず、キーボードから入力し、一般辞書に格納された単語との類似度を計算する単語をも含む。

本発明の音声認識装置は、認識辞書に登録される単語に類似する単語が存在するかどうかを、大語彙の一般辞書に登録された単語に基づいて検索する。この結果、広い範囲で類似度が高い単語を検索するので、誤認識を有効に回避できる。また、認識辞書に登録される単語に類似度の高い単語が存在することをユーザに提示するので、ユーザが登録された単語を変更するかどうかの判断が容易になる。

また、本発明の音声認識装置は、認識辞書に登録する単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語を登録するリジェクト辞書を有する。認識辞書とリジェクト辞書とを用いて入力音声を認識するので、騒音下にあっても、認識性能が劣化しない音声認識装置を提供できる。

以下に、本発明を実施するための最良の形態を、図面を参照しながら説明する。なお、本発明は、これらによって限定されるものではない。

（実施の形態１）

図１は、実施の形態１の音声認識装置を実現するためのシステム構成を示すブロック図である。本実施の形態にかかる音声認識装置１は、マイクロホン１０１と、音声分析部１０２と、照合部１０３と、リジェクト判定部１０４と、制御部１０５と、文字入力部１０６と、辞書作成部１０７と、認識辞書部１０８と、外部接続部１０９と、一般辞書１１０と、類似度計算部１１２と、表示部１１３と、文字列生成部１１１とが設けられている。マイクロホン１０１から入力される音声は、音声分析部１０２で、内部表現の時系列へと変換される。ここで、内部表現は、ケプストラム係数などの音響パラメータであってもよく、音節や音素などの音声単位の尤度であってもよい。また、音素をさらに分割した隠れマルコフモデルの状態の尤度であってもよい。本実施の形態においては、内部表現を音節の尤度として説明する。照合部１０３では、音声分析部１０２で得られた入力音声の内部表現と、認識辞書１０８に登録された認識語と照合する。認識辞書１０８に登録されている認識語は、音声分析部１０２の出力と同じ内部表現である必要がある。したがって、本実施の形態の場合には、認識語は音節で表現されている。

照合部１０３では、前記分析部１０２から得られる各音節尤度の時系列と、認識辞書１０８に登録されている各認識語の音節表記とを照合する。照合部１０３は、照合の結果、最も適合した言葉を出力する。出力は、単独の言葉であってもよいが、複数の候補をその尤度と共に出力してもよい。照合結果は、リジェクト判定部１０４において、リジェクトされるかどうかを判定する。リジェクトされなかった単語は、制御部１０５で、制御対象を制御する。

本実施の形態の特徴は、認識辞書１０８にある。認識語の候補語彙は、キーボード１０２から入力され、辞書作成部１０７に入力される。辞書作成部１０７では、入力された候補語彙を、入力音声と同じ内部表現である音節の尤度に変換する。変換された候補語彙は、認識辞書１０８に認識語として登録する。本実施の形態の音声認識装置１は、さらに一般辞書１１０を備えている。上記登録された認識語と一般辞書に格納された単語とは、類似度計算部１１２にて、類似度を計算する。類似度の計算結果は、表示部１１３にて、ユーザに表示される。ユーザは、この計算結果をみて、認識語の登録を維持するか、あるいは認識語を変更するかの判断を行う。類似度の大きい単語が発見されなかった認識語は、認識辞書中の登録を維持される。

表示部１１３で表示される類似度の計算結果は、ユーザが候補語彙を登録するかどうかの判断ができる形態で、表示されればよい。例えば、一般辞書に候補語彙と類似度が高い単語が存在するか否かだけでもよいし、検出された数であってもよいし、検出された項目のリストであってもよい。表示は、ディスプレイに表示してもよいし、音声出力によって表示してもよい。

類似度の計算は、公知の類似度計算方法を用いて行う。例えば、２つの言葉を音節表記したものを音節間の距離テーブルを用いてＤＰマッチング（非線形伸縮パターンマッチング）により行えばよい。音節間の距離テーブルは、音節に含まれる子音と母音の調音位置や調音様式を指標に作成する、あるいは予め多数のデータを用いて、照合部における音節ごとの認識誤りの傾向を数値化したコンフージョン・マトリクスから作成する。また、音節ごとに欠落や挿入のペナルティを設けることにより、音節の長さが異なる単語についても、類似度が計算できる。

ここで、課題で述べたような「ここを通りますよ」などの言葉を検出するためには、一般辞書は、このような口語文を全て含んでいる必要がある。しかし、一般辞書に口語文を全て含めることは、一般辞書のサイズが大きくなりすぎ、現実的ではない。そこで、図２に示すように、一般辞書１１０に格納された単語から口語文を生成する文字列生成部１１１を設ける。類似度計算部１１２では、この文字列生成手段１１１で生成された文字列と認識語との間で類似度を計算すると好ましい。

文字列生成手段１１１では、一般辞書１１０に格納されている単語を２つ以上組み合わせて文の文字列、具体的には音節列を生成する。実際は、認識語に含まれる一部の単語をキーワードにして、そのキーワードを含める形で、文字列を生成する。このときに、得られる文字列は、一般辞書に含まれる項目から可能な複数の文字列の組み合わせが生成される場合もある。このような多くの文字列に対して類似度を計算するのは、無駄が多い。そこで、候補語彙よりも、２音節以上短い文字列は類似度の計算対象から外す構成としてもよい。また、不必要に長い文字列と類似度を計算する必要もない。そこで、認識語より長い文字列が生成された場合には、この文字列に、それ以上長い文字列を付加しないこととすることもできる。

上記一般辞書１１０は、品詞情報を備えていてもよい。品詞情報を備えていれば、所定の文法に則り文章を生成できるので、効率よく文字列が生成できる。また、一般辞書の項目間の連結情報をバイグラムとして記憶しておいてもよい。よく使う組み合わせを優先的に生成し、ありえない組み合わせを省くことにより、文字列生成を高速化することができる。

上記一般辞書は、日常会話でよく使われる「えっと」などの不要語や、「〜だけど」などの口語表現を含んでいることが望ましい。不要語や口語表現に類似する語彙を認識辞書に登録することが回避できるので、誤認識を少なくすることができる。

このような一般辞書１１０は、音声認識装置１内に備えられていてもよいし、例えばＣＤ−ＲＯＭなどの記憶媒体に記憶されており、ＣＤ−ＲＯＭドライブを介して供給されるように外部の記憶装置から供給されてもよく、通信回線を通じて、外部の装置から転送されるものであってもよい。また、類似度計算は、音声認識装置内で行わなくてもよい。外部の装置で類似度計算を行い、計算結果から得られた類似する言葉の一覧のみを記憶媒体や通信回線を通じて取得すればよい。このように外部から一般辞書を提供される、あるいは転送される、または類似度計算を外部の装置で行う場合には、外部接続部１０９を介して行う。

本実施の形態にかかる認識辞書１０８は、さらにリジェクト機能を有するものであってもよい。類似度計算手段１１２によって、認識語に類似すると判断された一般辞書の単語の中に、認識語より長い言葉が含まれている場合に、この認識語に、単独発生フラグを立てる。照合部１０３にて上位に認識された認識語にこのフラグが立っていた場合、照合部１０３は、認識された音声が、認識語の単独発声であるか、あるいは連続発声中の一部であるかの判断を行う。リジェクト判定部１０４では、入力された音声が、認識語の単独発声であれば受理し、連続発声中の一部であればリジェクトする。この構成によれば、連続発声中の一部に認識語が含まれている場合には、認識されない。したがって、ユーザや周囲の人の会話、あるいはテレビの音声により生ずる誤認識を有効に回避することができる。なお、単独発声であるかどうかは、認識された認識語の前後に無音区間が、所定の長さ以上存在するかどうかで判断する。

（動作１）
次に、本実施の形態の音声認識装置について図２を用いて説明する。図２は、実施の形態１の音声認識装置における新たな認識語の登録処理と音声認識処理を示すフローチャートである。

ステップＳ２０１では、音声認識装置は、音声入力あるいはキーボードからの入力を待つ待機状態にある。ユーザからの入力が開始されると、入力されたデータはステップＳ２０２に送られる。入力がされない場合には、音声認識装置は、入力を待つ待機状態のままである。ステップＳ２０２において、入力されたデータが音声入力あるいはキーボードからの入力かを判断する。キーボードからの入力である場合には、新たな認識語の登録処理をするためにステップＳ２０３に進む。ステップＳ２０３では、キーボードから入力された単語が、登録辞書に認識語として登録される。音声入力である場合には、音声認識処理をするために、ステップＳ２５１に進む。

（認識語の登録処理）
［ステップＳ２０４〜ステップＳ２０６］
ステップＳ２０４では、一般辞書から一語抽出される。ステップＳ２０５において、入力された語と、一般辞書から抽出された一語との間で、類似度が計算される。ステップＳ２０５で類似度が高いと判断された場合は、ステップＳ２１３に進み、一般辞書から抽出された一語をバッファに格納し、ステップＳ２０６に進む。ステップＳ２０６で類似度が小さいと判断された場合は、そのままステップＳ２０６に進む。ステップＳ２０６では、一般辞書中に類似度を計算する別の単語があるかどうかを判断し、別の単語が存在する場合にはステップＳ２０４に戻り、別の単語が存在しない場合には一般辞書の一単語との類似度の計算を終了し、ステップＳ２０７に進む。

［ステップＳ２０７〜ステップＳ２０９］
ステップＳ２０７では、一般辞書に格納されている単語を組み合わせて、１つの文字列を生成する。例えば、入力された語が「とります」の場合に、「とり」を含む「やりとり」と、「ます」を含む「ますだ」とを組み合わせて、「やりとりますだ」というような文字列を作成する。ステップＳ２０８では、入力された語と、生成された文字列との間で、類似度を計算する。例えば、「とります」と、「やりとりますだ」との類似度を計算する。ステップＳ２０８で、「とります」と、「やりとりますだ」との間の類似度が十分に高いと判断された場合には、ステップＳ２１４に進み、生成された文字列をバッファに格納し、ステップＳ２１５に進む。ステップＳ２１５では、入力された語彙に対してフラグを立てて、ステップＳ２０９に進む。具体的には、「とります」に対して、フラグを立てる。ステップＳ２０８で類似度が小さいと判断された場合は、そのままステップＳ２０９に進む。ステップＳ２０９では、文字列生成が終了したか否かを判断し、終了していなければステップＳＳ２０７に戻り、終了していればステップＳ２１０に進む。

［ステップＳ２１０〜ステップＳ２１２］
ステップＳ２１０では、バッファに格納された類似度の高い言葉をユーザに提示する。ステップＳ２１１において、ユーザは、その言葉の認識辞書への登録を維持するか否かを選択する。認識辞書への登録を維持する場合には、認識語の登録処理は終了する。登録語を変更する場合には、ステップＳ２１２において登録の取消を行い、認識語の登録処理が終了する。

（音声認識処理）
ステップＳ２０２において、ユーザの入力が音声入力であると判断された場合は、ステップＳ２５１に進む。ステップＳ２５１では、入力された音声と認識辞書に登録された単語との認識処理を行う。ステップＳ２５２では、入力音声が、認識辞書中に登録されたどの認識語とも照合できず、照合結果が得られなかった場合には、音声認識処理を終了し、ステップＳ２０２に戻り、ユーザからの入力を待機する。照合結果が得られた場合は、ステップＳ２５３に進み、入力音声の前後にある無音区間の長さを調査し、単独発声か連続発声の一部かを判断する。単独発声であれば、ステップＳ２５５に進み、連続発声の一部であれば、ステップＳ２５４に進む。ステップＳ２５４では、認識語にフラグが立っているかどうかを判断する。認識語にフラグが立っている場合には、誤認識を起こす可能性があるとして音声認識処理を終了し、ステップＳ２０２に戻り、ユーザからの入力を待機する。認識語にフラグが立っていない場合には、ステップＳ２５５に進む。ステップＳ２５５では、認識結果に基づいて制御対象を制御する制御動作を行う。制御動作が終わると、ステップＳ２０２に戻り、ユーザからの入力を待機する。

（実施の形態２）
図３は、実施の形態２における音声認識装置を実現するためのシステム構成を示すブロック図である。上記実施の形態１の音声認識装置においては、騒音下で、無音区間が検出できない場合に、認識性能が劣化する可能性がある。本実施の形態では、かかる条件下でも、認識性能が劣化しにくい音声認識装置を提供する。すなわち、本実施の形態の音声認識装置は、リジェクト辞書を有する。リジェクト辞書には、認識語と類似度が高いと判断された一般辞書の単語を登録する。音声認識時に、入力された音声を、認識辞書とリジェクト辞書とを用いて照合する。リジェクト辞書に登録された言葉が上位に認識された場合には、入力音声をリジェクトし、制御動作を行わないこととする。このような構成にすることで、一般辞書に誤認識を生じやすい類似の言葉が存在する言葉についても、認識語彙として使用することができる。

本実施の形態にかかる音声認識装置１は、マイクロホン１０１と、音声分析部１０２と、照合部１０３と、リジェクト判定部１０４と、制御部１０５と、文字入力部１０６と、辞書作成部１０７と、認識辞書部１０８と、外部接続部１０９と、一般辞書１１０と、類似度計算部１１２と、表示部１１３と、文字列生成部１１１と、リジェクト辞書１１４とが設けられている。なお、図１と同一の符号は、同一の機能を果たす。以下には、実施の形態１と異なる点を中心に説明する。

マイクロホン１１０から入力される音声は、音声分析部１０２で、内部表現の時系列へと変換される。内部表現は、実施の形態１の場合と同様である。照合部１０３では、音声分析部１０２で得られた入力音声の内部表現と、認識辞書１０８に登録された認識語およびリジェクト辞書１１４に登録されたリジェクト語とを照合する。リジェクト辞書１１４に登録されているリジェクト語は、認識辞書１０８に登録されている認識語と同様に、音声分析部１０２の出力と同じ内部表現である必要がある。リジェクト語についても、図示していないが、辞書作成部１０７を用いて、音節列などの表記に変換する必要がある。

照合部１０３は、照合の結果、認識語とリジェクト語とを上下関係をつけて出力する。照合結果は、リジェクト判定部１０４において、リジェクトされるかどうかを判定する。認識辞書１０８の単語が上位にあれば入力音声を受理し、リジェクト辞書１１４の単語が上位であれば、入力音声をリジェクトする。受理された入力音声は、制御部１０５で、制御対象を制御する。このようなリジェクト辞書１１４を用いることにより、一般辞書１１０に、認識語と類似度の高い語彙が格納されている場合であっても、認識語を変更しなくても、誤認識を低減することができる。

本実施の形態の特徴は、実施の形態１の認識辞書１０８に加えて、リジェクト辞書１１４を有する点にある。本実施の形態にかかるリジェクト辞書１１４は以下のように作成される。認識語は、実施の形態１の場合と同様に、一般辞書１１４に格納された単語との間で類似度が計算される。リジェクト辞書１１４は、類似度計算部１１２で、認識語と類似度が高いと判断された一般辞書１１０の単語をリジェクト語として記録する。

表示部１１３は、類似度計算部の計算結果を表示してもよい。この図の例では、表示部１１３は登録された辞書を表示している。ユーザは、表示部１１３により、認識語およびリジェクト語の内容を知ることができる。ユーザは、この表示を見て、リジェクト語として登録するか、あるいは認識語を変更するかなどの判断を行う。

認識語と類似度が高いと判断された一般辞書１１０の単語の中には、認識語と意味が類似しているものが含まれる。このような単語は、誤認識を起こさない、また誤認識されても意味が類似しているので、制御対象を正しく制御できる。したがって、類似度が高いと判断された一般辞書１１０の単語を、リジェクト辞書１１４に登録しない、あるいは認識辞書１０８に追加登録することとしてもよい。この結果、認識に使用する言語の自由度が大きくなり、ユーザが使いやすい音声認識装置が提供できる。なお、本実施の形態においては、リジェクト辞書を用いる場合について説明した。しかし、リジェクト辞書を用いない、実施の形態１の場合であっても、同様の効果が得られる。たとえば、認識語と類似度が高いと判断された一般辞書の単語を認識辞書に追加登録すればよい。

認識語と類似度が高いと判断された一般辞書の単語と、認識語とが意味が類似しているかどうかの判断を、自動的に判断するのは限界がある。そこで、表示部１１３では、認識語と類似度が高いと判断された一般辞書の単語と、認識語とを表示して、リジェクト語として登録するか、認識語として登録するか、あるいは認識語を変更するかを決定できるようなインターフェースを備えることが好ましい。

図４は、実施の形態２における表示画面の一例を示す図である。この画面では、認識語と、リジェクト語、リジェクトフレーズが示されている。リジェクト語は、その言葉自体が認識語と類似しているものであり、リジェクトフレーズは、複数の単語からなる言葉であり、かつ認識語と類似しているものである。両者の区別は必須である必要はなく、両者を一体として表示してもよい。この図の例では、リジェクト語とリジェクトフレーズのそれぞれの言葉にチェックボックスが設けられている。ユーザは、リジェクトすべきと、判断した語をチェックし、リジェクトする必要がないと判断した語のチェックを外す構成とする。また、認識語として登録するかどうかも、別のチェックボックスやボタン表示をして行うことができる。このように、リジェクト辞書の語彙に、その語彙が有効か無効かのフラグを付けておけば、ユーザが後から有効・無効を切り替えることができるので、より使いやすい設定とすることができる。

認識語と類似度が高いと判断された一般辞書の単語であって認識語と意味が類似している単語を認識辞書に登録する場合に、リジェクト辞書に登録する語数が多い場合には、すべての単語を登録すると、リジェクト辞書が膨大になる。そこで、すべての単語をリジェクト語として登録する代わりに、認識語の前後に所定の音素または音節を接続したものをリジェクト辞書に登録すればよい。所定の音素として母音だけ、あるいは母音に撥音「ん」や摩擦子音など継続長の長い音を加えたものを接続すれば好ましい。またはすべての音素や音節の平均的な特徴を持たせたガベージ音素、ガベージ音節を接続したものでもよい。

なお、実施の形態１と同様に、本実施の形態においても、一般辞書からの文字列生成を行う。この場合においても、一般辞書は、品詞情報、単語の連結情報、不要語、および口語表現を含むものであってもよい。また、実施の形態１と同様に、外部接続部１０９を介して、外部から一般辞書を提供される、あるいは転送される、または類似度計算を外部の装置で行ってもよい。

（動作２）
次に、本実施の形態の音声認識装置について図５を用いて説明する。図５は、実施の形態２の音声認識装置における新たな認識語およびリジェクト語の登録処理と音声認識処理を示すフローチャートである。

ステップＳ２０１〜ステップＳ２０３に関しては、実施の形態１のフローチャートと同様である。

（リジェクト語の登録処理）
［ステップＳ２０４〜ステップＳ２０６］
ステップＳ２０４〜ステップＳ２０６においても、基本的には、実施の形態１と同様の動作をする。ただし、ステップＳ２０５で認識語と一般時書中の単語との類似度が高いと判断された場合は、ステップＳ２２３に進み、一般辞書から抽出された一語をリジェクト辞書に登録し、ステップＳ２０６に進む。

［ステップＳ２０７〜ステップＳ２０９］
ステップＳ２０７〜ステップＳ２０９においても、基本的には、実施の形態１と同様の動作をする。ただし、本実施の形態においては、ステップＳ２０８で認識語と生成文字列の一部との類似度が高いと判断された場合は、ステップＳ２２４に進み、生成された文字列をリジェクト辞書に登録し、ステップＳ２０６に進む。

［ステップＳ２１０〜ステップＳ２１２］
ステップＳ２１０では、リジェクト辞書の内容をユーザに提示する。ステップＳ２２１において、ユーザが、リジェクト辞書に登録された言葉が有効か無効かを判断して、リジェクト辞書を編集することを選択する場合は、ステップＳ２２２に進み、リジェクト辞書を編集する。ステップＳ２２１では、実施の形態１の場合と異なり、リジェクト辞書に登録された言葉を登録するか、キャンセルするかの判断は行わない。リジェクト辞書を編集した場合には、再度編集後の内容をユーザに提示するために、ステップＳ２１０に進む。ユーザが、リジェクト辞書を編集しない場合には、リジェクト辞書の内容を確認して、リジェクト語の登録が終了する。

（音声認識処理）
ステップＳ２０１〜ステップＳ２０２は、実施の形態１と同様である。ステップＳ２０２において、ユーザの入力が音声入力であると判断された場合は、ステップＳ２５１に進む。ステップＳ２５１では、入力された音声と認識辞書に登録された単語およびリジェクト辞書に登録されたリジェクト語との認識処理を行う。ステップＳ２５２では、入力音声が、認識辞書中に登録されたどの認識語とも照合できず、照合結果が得られなかった場合には、音声認識処理を終了し、ステップＳ２０２に戻り、ユーザからの入力を待機する。照合結果が得られた場合は、ステップＳ２６１に進み、認識結果の上位の候補が、認識辞書中の認識語か、リジェクト辞書中のリジェクト語であるかを判断する。認識結果の上位の候補がリジェクト語である場合には、誤認識を起こす可能性があるとして音声認識処理を終了し、ステップＳ２０２に戻り、ユーザからの入力を待機する。認識結果の上位の候補が認識語である場合には、ステップＳ２６２に進む。ステップＳ２６２では、認識結果に基づいて制御対象を制御する制御動作を行う。制御動作が終わると、ステップＳ２０２に戻り、ユーザからの入力を待機する。

（その他の実施形態）
ところで、上記各実施の形態における音声認識装置としての機能は、プログラム記録媒体に記録された情報処理プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、ＲＡＭ（ランダム・アクセル・メモリ）とは別体に設けられたＲＯＭ（リード・オンリー・メモリ）でなるプログラムメディアである。または、外部補助記録装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから情報処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、ＲＡＭに設けられたプログラム記憶エリアにダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからＲＡＭの上記プログラム記録エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているもとする。
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フレキシブルディスク、ハードディクス等の磁気ディスクやＣＤ（コンパクトディスク）−ＲＯＭ、ＭＯ（光磁気）ディスク、ＭＤ(ミニディスク)、ＤＶＤ（デジタル多用途ディスク）等の光ディスクのディスク系、ＩＣ（集積回路）カードや光カード等のカード系、マスクＲＯＭ、ＥＰＲＯＭ（紫外線消去型ＲＯＭ）、ＥＥＰＲＯＭ（電気的消去型ＲＯＭ）、フラッシュＲＯＭ等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
また、上記実施の形態における音声認識装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能となっている。この場合、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。

図６は、本発明の音声認識装置の構成を示す図である。図６に示すように、本発明の音声認識装置は、ＣＰＵ３０１と、ＲＯＭ３０２と、ＲＡＭ３０３と、表示部３０４と、入力部３０５と、プログラム読み取り部３０６とを含み構成され、これらの各部が、相互にバス３０７でバス接続されている。

ＣＰＵ３０１は、ＲＡＭ３０３内に格納されているプログラムに従って動作し、この装置全体の動作を制御している。ＲＡＭ３０３は、ＣＰＵ３０１による各種制御処理の実行時、ワークエリアとして使用され、各種データを一時的に保存する。ＲＯＭ３０２は、ＣＰＵ３０１によって実行されるプログラムや一般辞書などの固定のデータを記憶している。表示部は、ユーザに類似語の表示や認識結果などを表示するためのディスプレイや、音声によりこれらを提示するための出力装置で、構成される。入力部は、ユーザが認識語を入力する、あるいはその他の操作をするためのボタンやキーボードで構成される。プログラム読み取り部は、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭなどの記録媒体から、プログラムデータや一般辞書などを読み込むドライブ装置や、通信回線からプログラムデータや一般辞書などを読み込むための通信装置などで、構成される。

図１は、実施の形態１の音声認識装置を実現するためのシステム構成を示すブロック図である。図２は、実施の形態１の音声認識装置における新たな認識語の登録処理と音声認識処理を示すフローチャートである。図３は、実施の形態２における音声認識装置を実現するためのシステム構成を示すブロック図である。図４は、実施の形態２における表示画面の一例を示す図である。図５は、実施の形態２の音声認識装置における新たな認識語およびリジェクト語の登録処理と音声認識処理を示すフローチャートである。図６は、本発明の音声認識装置の構成を示す図である。

符号の説明

１音声認識装置
１０１マイクロホン
１０２音声分析部
１０３照合部
１０４リジェクト判定部
１０５制御部
１０６文字入力部
１０７辞書作成部
１０８認識辞書部
１０９外部接続部
１１０一般辞書
１１１文字列生成部
１１２類似度計算部
１１３表示部
１１４リジェクト辞書
３０１ＣＰＵ
３０２ＲＯＭ
３０３ＲＡＭ
３０４表示部
３０５入力部
３０６プログラム読み取り部
３０７バス

Claims

ユーザが発声した音声の音声信号から抽出した特徴量を、あらかじめ認識辞書に登録されている単語の特徴量と照合して、音声を認識する音声認識装置であって、
前記音声認識装置は、大語彙の一般辞書を有し、
前記認識辞書に登録された単語に対して、所定のアルゴリズムを用いて、前記一般辞書に含まれる単語との類似度を求める類似度計算手段と、
前記一般辞書に含まれる単語と類似度が大きい認識辞書に登録された単語について、類似度が高い旨をユーザに提示する類似度提示手段と、
を有することを特徴とする音声認識装置。
前記音声認識装置は、前記一般辞書に含まれる複数の単語を組み合わせて文字列を生成する文字列生成手段を有し、
前記類似度計算手段では、前記認識辞書に登録された単語と、前記生成された文字列の一部の文字列との間で、類似度を求めることを特徴とする請求項１に記載の音声認識装置。
認識された単語が、前記生成された文字列の一部の文字列と類似度が高いと判断された単語である場合に、この認識された単語が、単独発声との照合であるか、連続発声の一部との照合であるかを識別する照合部分識別手段を有し、
連続発声の一部との照合であると識別された場合に、前記認識された単語の入力をリジェクトすることを特徴とする請求項２に記載の音声認識装置。
前記文字列生成手段では、単語の連結情報を用いて、文字列を生成することを特徴とする請求項２に記載の音声認識装置。
前記一般辞書は、単語の品詞情報を備え、前記文字列生成手段では、文法に従って文字列を生成することを特徴とする請求項２に記載の音声認識装置。
前記一般辞書は、ユーザが無意識に発声する不要語、または口語表現を含むことを特徴とする請求項１に記載の音声認識装置。
前記類似度提示手段は、前記一般辞書に含まれる単語と、この単語と類似度が高いと判断された認識辞書に登録された単語とのうち、少なくとも一方を提示することを特徴とする請求項１に記載の音声認識装置。
前記音声認識装置は、認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語を登録するリジェクト辞書を有し、
入力音声を前記リジェクト辞書に登録されている単語と照合した結果が、入力音声を前記認識辞書に登録されている単語と照合した結果より上位にある音声の入力を、リジェクトすることを特徴とする請求項１に記載の音声認識装置。
認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語のうち、認識辞書に登録された単語と意味が近似する単語を認識辞書に追加登録することを特徴とする請求項１に記載の音声認識装置。
前記リジェクト辞書に登録されている単語は、それぞれが、入力音声をリジェクトするかどうかを示すフラグを有し、そのフラグをユーザに提示することを特徴とする請求項８に記載の音声認識装置。
前記一般辞書と、類似度計算手段とが、外部機器に設けられており、外部機器において求められた前記認識辞書に登録する単語に対する、前記一般辞書に含まれる単語との類似度を、通信手段を用いて、音声認識装置に送ることを特徴とする請求項１に記載の音声認識装置。
請求項１ないし１０のいずれかに記載の音声認識装置を、コンピュータシステムにおいて実現するためのプログラム。
請求項１ないし１０のいずれかに記載の音声認識装置を記録したコンピュータ読み取り可能な記録媒体。