JP4236597B2 - 音声認識装置、音声認識プログラムおよび記録媒体。 - Google Patents

音声認識装置、音声認識プログラムおよび記録媒体。 Download PDF

Info

Publication number
JP4236597B2
JP4236597B2 JP2004038339A JP2004038339A JP4236597B2 JP 4236597 B2 JP4236597 B2 JP 4236597B2 JP 2004038339 A JP2004038339 A JP 2004038339A JP 2004038339 A JP2004038339 A JP 2004038339A JP 4236597 B2 JP4236597 B2 JP 4236597B2
Authority
JP
Japan
Prior art keywords
word
dictionary
recognition
similarity
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004038339A
Other languages
English (en)
Other versions
JP2005227686A (ja
Inventor
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2004038339A priority Critical patent/JP4236597B2/ja
Publication of JP2005227686A publication Critical patent/JP2005227686A/ja
Application granted granted Critical
Publication of JP4236597B2 publication Critical patent/JP4236597B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、ユーザの発声した音声から特定の言葉を認識し、機器を制御する音声認識装置に関する。
ユーザが入力した音声を認識する音声認識装置にあっては、入力音声信号を分析した特徴パラメータと、認識辞書に格納された認識対象語彙の特徴パターンとの類似度を比較する。この比較により、認識対象語彙の特徴パラメータのうち、入力音声信号の特徴パラメータに最も近似している特徴パラメータに対応する単語を、入力音声の単語として認識する。このような音声認識装置では、認識対象となる単語の中に発声が類似した単語が存在すると、誤認識を生じやすいという問題がある。
このような誤認識を回避する技術として、例えば認識辞書に格納する認識対象語彙を登録する際に、あらかじめ誤認識の少ない言葉を登録する方法がある(例えば、特許文献1参照)。この文献に記載の音声認識装置では、単語辞書に獲得した一つの単語と、残りの全ての単語との類似関係を調べ、得られた結果をユーザに通知する構成となっている。通知を受けたユーザは、この結果に基づいて、類似する単語を削除する、または読み替えの修正をする。例えば、最初の単語として「オカヤマ」を単語辞書に登録した場合には、2単語目の「ワカヤマ」は、「オカヤマ」に類似する単語であるとの結果が得られる。これを見たユーザは、「ワカヤマ」を、別の言葉、例えば「キンキワカヤマ」などに変更することにより、誤認識を回避できる単語辞書を作成できる。
また、誤認識を回避する別の方法として、認識すべき言葉のほかに、リジェクトすべき言葉を登録したリジェクト辞書を用いる方法がある(例えば、特許文献2参照)。この文献に記載の音性認識方式では、例えば「1」〜「5」までのみを入力することを想定した場合に、誤って発声する可能性の高い語「6」〜「10」をリジェクトすべき言葉として、リジェクト辞書に登録しておく。リジェクトすべき言葉が認識された場合には、その認識された言葉をリジェクトする。この構成により、ユーザが誤って、認識語彙以外の言葉「8」を発声したときに、認識語彙「1」と誤認識することを回避できる。
特開平9−138695号公報(特許請求の範囲、段落0020〜段落0022、段落0026) 特開2002−297372号公報(特許請求の範囲、明細書第4頁左上欄第2行〜同頁同欄第10行)
特許文献1に記載の音声認識装置は、ユーザが認識辞書に含まれる単語「オカヤマ」を発声した場合に、「ワカヤマ」と誤認識されることを回避する。また、特許文献2に記載の方法では、装置が「1」から「5」までしか認識すべきでない場合に、ユーザが、誤って「8」と発声したときに「1」と誤認識されることを回避する。これらは、いずれもユーザが認識を目的として発声した言葉に対する誤認識を防ぐことを目的とする。したがって、これらの装置では、既知の認識辞書内の言葉や、誤認識が予測できる言葉が入力される場合に生ずる、誤認識を回避するものである。
しかし、実際に音声認識により、機器を操作する場合には、これらとは異なる誤動作を生ずる。例えば、ユーザや周囲の人間が自然に会話する言葉、あるいはラジオ・テレビなどの音声中に、認識辞書に含まれる言葉やこの言葉に類似する言葉を含んだ発声により、装置がかってに動作する場合がある。音声認識機能を備えたハンズフリー電話において、電話がかかってきたときに、「とります」という言葉で、通話が開始される場合を考える。この場合に、家庭内で、ユーザや周囲の人の会話、あるいはテレビの音声に、「ここ通りますよ」、「私は、○○といいます」、「メダルをとり、益々好調」などの言葉があると、これらに含まれる「とおります」、「といいます」「とります」を、「とります」と認識する。このため、ユーザが何の指示もしていないのに、通話状態になるという問題がある。
このような誤操作は、発話区間を指示するボタン操作なしに、音声入力を常時認識するハンズフリー電話の場合には、特に顕著となる。音声入力を常時認識すれば、認識時間が長くなる。このため、多くの類似した言葉が入力され、誤認識の可能性が高くなる。また、音声入力を常時認識すれば、入力される言葉を予想することが難しくなる。特に、特許文献1に記載の発明のように、認識語彙を登録した単語辞書の中で、類似単語を検出するのであれば、入力された単語が、単語辞書内の単語と想定外に類似した場合に、誤認識を生ずることになる。また、特許文献2に記載の発明のように、リジェクト語を登録しても、想定外に類似する単語が入力された場合には、有効ではない。
このような誤認識を回避するために、例えば、「とります」という言葉の前後に、必ず無音区間が必要であるという制限を設ける方法も、考えられる。しかし、この場合には、周囲に発生する騒音のため、ユーザが「とります」をいくら発声しても、認識できないという問題がある。
すなわち、本発明は、上記問題に鑑みなされたものであり、その目的は、誤認識を生じにくい認識辞書を有する音声認識装置を提供することにある。
また、本発明の別の目的は、認識辞書に登録された単語に類似する単語を有効にリジェクトすることができる音声認識装置を提供することにある。
上記目的を達成するために、本発明の音声認識装置は、ユーザが発声した音声の音声信号から抽出した特徴量を、あらかじめ認識辞書に登録されている単語の特徴量と照合して、音声を認識するものであり、この音声認識装置は、大語彙の一般辞書を有し、前記認識辞書に登録された単語に対して、所定のアルゴリズムを用いて、前記一般辞書に含まれる単語との類似度を求める類似度計算手段と、前記一般辞書に含まれる単語と類似度が大きい認識辞書に登録された単語について、類似度が高い旨をユーザに提示する類似度提示手段と、を有する。
この構成によれば、認識辞書に登録された単語について、大語彙の一般辞書に含まれる単語との類似度を求める。この結果、誤認識を生ずる可能性の高い単語を広く検索できる。また、一般辞書に含まれる単語と類似度が大きい認識辞書に登録する単語について、類似度が高い旨をユーザに提示する。ユーザは、認識辞書を音声認識に使用する前に、誤認識を生ずる可能性のある単語を事前に知ることができる。この結果、ユーザが誤認識を生じやすい単語の登録を回避できるので、誤認識を生じにくい認識辞書を作成することができる。
さらに、本発明の音声認識装置は、前記一般辞書に含まれる複数の単語を組み合わせて文字列を生成する文字列生成手段を有し、前記類似度計算手段では、前記認識辞書に登録された単語と、前記生成された文字列の一部の文字列との間で、類似度を求めることを特徴とする
この構成によると、一般辞書に含まれていない、上記した「ここ通りますよ」などの口語文の一部に、認識辞書に登録された単語と類似する文字列を含む場合にも、類似度を求めることができる。したがって、ユーザや周囲の人の会話、あるいはテレビの音声により生ずる誤認識を有効に回避することができる。
また、認識された単語が、前記生成された文字列の一部の文字列と類似度が高いと判断された単語である場合に、この認識された単語が、単独発声との照合であるか、連続発声の一部との照合であるかを識別する照合部分識別手段を有し、連続発声の一部との照合であると識別された場合に、前記認識された単語の入力をリジェクトする構成としてもよい。この構成によると、連続発声の一部に、登録された単語と誤認識する文字列が含まれている場合に、認識辞書への登録がリジェクトされるので、誤認識を有効に回避できる。
前記文字列生成手段では、単語の連結情報を用いて、文字列を生成することとしてもよい。この構成によれば、明らかに使用しない文字列を生成しないので、無駄な類似度の計算が省略できる。また、前記一般辞書は、単語の品詞情報を備え、前記文字列生成手段では、文法に従って文字列を生成することとしてもよい。
前記一般辞書は、ユーザが無意識に発声する不要語、または口語表現を含むものであればよい。
前記類似度提示手段は、前記一般辞書に含まれる単語と、この単語と類似度が高いと判断された認識辞書に登録される単語とのうち、少なくとも一方を提示するものであればよい。この内容をみて、ユーザは、登録しようとする単語が誤認識されやすいかどうかを判断することができる。
本発明の音声認識装置は、認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語を登録するリジェクト辞書を有し、入力音声を前記リジェクト辞書に登録されている単語と照合した結果が、入力音声を前記認識辞書に登録されている単語と照合した結果より上位にある音声の入力を、リジェクトすることとしてもよい。
この構成によれば、入力された音声について、認識辞書とリジェクト辞書を用いて、認識するか、リジェクトするかを判断する。このように、リジェクト辞書を設けることにより、認識辞書に登録された単語と類似の言葉が存在する場合であっても、認識語彙として使用できる。
認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語のうち、認識辞書に登録される単語と意味が近似する単語を認識辞書に追加登録することとしてもよい。一般辞書に含まれる単語と類似度が大きい単語であっても、認識辞書に登録される単語と意味が近似する単語は、誤認識にならない。したがって、このような単語は、認識辞書に登録することができる。
前記リジェクト辞書に登録されている単語は、それぞれが、入力音声をリジェクトするかどうかを示すフラグを有し、そのフラグをユーザに提示する構成としてもよい。この構成によれば、リジェクト辞書に登録されている単語であっても、入力音声をリジェクトするかどうかを、ユーザが決定することができる。
本発明の音声認識装置は、前記一般辞書と、類似度計算手段とが、外部機器に設けられており、外部機器において求められた前記認識辞書に登録する単語に対する、前記一般辞書に含まれる単語との類似度を、通信手段を用いて、音声認識装置に送る構成としてもよい。
上記音声認識装置は、コンピュータシステムにおいて実現するためのプログラムであってもよい。
上記音声認識装置を記録したコンピュータ読み取り可能な記録媒体であってもよい。
なお、本明細書において、認識辞書とは、音声認識装置に認識させたい言葉の特徴を記憶した辞書をいい、認識辞書に記憶された言葉を認識語という。また、リジェクト辞書とは、リジェクトさせたい言葉の特徴を記憶した辞書をいい、リジェクト辞書に記憶された言葉をリジェクト語という。また、一般辞書とは、一般の言葉を含んだ大語彙の辞書をいう。本明細書中で、単語とは、通常に単語に加え、単語を連結した言葉を含めて使用する場合がある。
さらに、認識辞書に登録された単語とは、実際に入力音声との照合に用いられる単語に限られず、キーボードから入力し、一般辞書に格納された単語との類似度を計算する単語をも含む。
本発明の音声認識装置は、認識辞書に登録される単語に類似する単語が存在するかどうかを、大語彙の一般辞書に登録された単語に基づいて検索する。この結果、広い範囲で類似度が高い単語を検索するので、誤認識を有効に回避できる。また、認識辞書に登録される単語に類似度の高い単語が存在することをユーザに提示するので、ユーザが登録された単語を変更するかどうかの判断が容易になる。
また、本発明の音声認識装置は、認識辞書に登録する単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語を登録するリジェクト辞書を有する。認識辞書とリジェクト辞書とを用いて入力音声を認識するので、騒音下にあっても、認識性能が劣化しない音声認識装置を提供できる。
以下に、本発明を実施するための最良の形態を、図面を参照しながら説明する。なお、本発明は、これらによって限定されるものではない。
(実施の形態1)
図1は、実施の形態1の音声認識装置を実現するためのシステム構成を示すブロック図である。本実施の形態にかかる音声認識装置1は、マイクロホン101と、音声分析部102と、照合部103と、リジェクト判定部104と、制御部105と、文字入力部106と、辞書作成部107と、認識辞書部108と、外部接続部109と、一般辞書110と、類似度計算部112と、表示部113と、文字列生成部111とが設けられている。マイクロホン101から入力される音声は、音声分析部102で、内部表現の時系列へと変換される。ここで、内部表現は、ケプストラム係数などの音響パラメータであってもよく、音節や音素などの音声単位の尤度であってもよい。また、音素をさらに分割した隠れマルコフモデルの状態の尤度であってもよい。本実施の形態においては、内部表現を音節の尤度として説明する。照合部103では、音声分析部102で得られた入力音声の内部表現と、認識辞書108に登録された認識語と照合する。認識辞書108に登録されている認識語は、音声分析部102の出力と同じ内部表現である必要がある。したがって、本実施の形態の場合には、認識語は音節で表現されている。
照合部103では、前記分析部102から得られる各音節尤度の時系列と、認識辞書108に登録されている各認識語の音節表記とを照合する。照合部103は、照合の結果、最も適合した言葉を出力する。出力は、単独の言葉であってもよいが、複数の候補をその尤度と共に出力してもよい。照合結果は、リジェクト判定部104において、リジェクトされるかどうかを判定する。リジェクトされなかった単語は、制御部105で、制御対象を制御する。
本実施の形態の特徴は、認識辞書108にある。認識語の候補語彙は、キーボード102から入力され、辞書作成部107に入力される。辞書作成部107では、入力された候補語彙を、入力音声と同じ内部表現である音節の尤度に変換する。変換された候補語彙は、認識辞書108に認識語として登録する。本実施の形態の音声認識装置1は、さらに一般辞書110を備えている。上記登録された認識語と一般辞書に格納された単語とは、類似度計算部112にて、類似度を計算する。類似度の計算結果は、表示部113にて、ユーザに表示される。ユーザは、この計算結果をみて、認識語の登録を維持するか、あるいは認識語を変更するかの判断を行う。類似度の大きい単語が発見されなかった認識語は、認識辞書中の登録を維持される。
表示部113で表示される類似度の計算結果は、ユーザが候補語彙を登録するかどうかの判断ができる形態で、表示されればよい。例えば、一般辞書に候補語彙と類似度が高い単語が存在するか否かだけでもよいし、検出された数であってもよいし、検出された項目のリストであってもよい。表示は、ディスプレイに表示してもよいし、音声出力によって表示してもよい。
類似度の計算は、公知の類似度計算方法を用いて行う。例えば、2つの言葉を音節表記したものを音節間の距離テーブルを用いてDPマッチング(非線形伸縮パターンマッチング)により行えばよい。音節間の距離テーブルは、音節に含まれる子音と母音の調音位置や調音様式を指標に作成する、あるいは予め多数のデータを用いて、照合部における音節ごとの認識誤りの傾向を数値化したコンフージョン・マトリクスから作成する。また、音節ごとに欠落や挿入のペナルティを設けることにより、音節の長さが異なる単語についても、類似度が計算できる。
ここで、課題で述べたような「ここを通りますよ」などの言葉を検出するためには、一般辞書は、このような口語文を全て含んでいる必要がある。しかし、一般辞書に口語文を全て含めることは、一般辞書のサイズが大きくなりすぎ、現実的ではない。そこで、図2に示すように、一般辞書110に格納された単語から口語文を生成する文字列生成部111を設ける。類似度計算部112では、この文字列生成手段111で生成された文字列と認識語との間で類似度を計算すると好ましい。
文字列生成手段111では、一般辞書110に格納されている単語を2つ以上組み合わせて文の文字列、具体的には音節列を生成する。実際は、認識語に含まれる一部の単語をキーワードにして、そのキーワードを含める形で、文字列を生成する。このときに、得られる文字列は、一般辞書に含まれる項目から可能な複数の文字列の組み合わせが生成される場合もある。このような多くの文字列に対して類似度を計算するのは、無駄が多い。そこで、候補語彙よりも、2音節以上短い文字列は類似度の計算対象から外す構成としてもよい。また、不必要に長い文字列と類似度を計算する必要もない。そこで、認識語より長い文字列が生成された場合には、この文字列に、それ以上長い文字列を付加しないこととすることもできる。
上記一般辞書110は、品詞情報を備えていてもよい。品詞情報を備えていれば、所定の文法に則り文章を生成できるので、効率よく文字列が生成できる。また、一般辞書の項目間の連結情報をバイグラムとして記憶しておいてもよい。よく使う組み合わせを優先的に生成し、ありえない組み合わせを省くことにより、文字列生成を高速化することができる。
上記一般辞書は、日常会話でよく使われる「えっと」などの不要語や、「〜だけど」などの口語表現を含んでいることが望ましい。不要語や口語表現に類似する語彙を認識辞書に登録することが回避できるので、誤認識を少なくすることができる。
このような一般辞書110は、音声認識装置1内に備えられていてもよいし、例えばCD−ROMなどの記憶媒体に記憶されており、CD−ROMドライブを介して供給されるように外部の記憶装置から供給されてもよく、通信回線を通じて、外部の装置から転送されるものであってもよい。また、類似度計算は、音声認識装置内で行わなくてもよい。外部の装置で類似度計算を行い、計算結果から得られた類似する言葉の一覧のみを記憶媒体や通信回線を通じて取得すればよい。このように外部から一般辞書を提供される、あるいは転送される、または類似度計算を外部の装置で行う場合には、外部接続部109を介して行う。
本実施の形態にかかる認識辞書108は、さらにリジェクト機能を有するものであってもよい。類似度計算手段112によって、認識語に類似すると判断された一般辞書の単語の中に、認識語より長い言葉が含まれている場合に、この認識語に、単独発生フラグを立てる。照合部103にて上位に認識された認識語にこのフラグが立っていた場合、照合部103は、認識された音声が、認識語の単独発声であるか、あるいは連続発声中の一部であるかの判断を行う。リジェクト判定部104では、入力された音声が、認識語の単独発声であれば受理し、連続発声中の一部であればリジェクトする。この構成によれば、連続発声中の一部に認識語が含まれている場合には、認識されない。したがって、ユーザや周囲の人の会話、あるいはテレビの音声により生ずる誤認識を有効に回避することができる。なお、単独発声であるかどうかは、認識された認識語の前後に無音区間が、所定の長さ以上存在するかどうかで判断する。
(動作1)
次に、本実施の形態の音声認識装置について図2を用いて説明する。図2は、実施の形態1の音声認識装置における新たな認識語の登録処理と音声認識処理を示すフローチャートである。
ステップS201では、音声認識装置は、音声入力あるいはキーボードからの入力を待つ待機状態にある。ユーザからの入力が開始されると、入力されたデータはステップS202に送られる。入力がされない場合には、音声認識装置は、入力を待つ待機状態のままである。ステップS202において、入力されたデータが音声入力あるいはキーボードからの入力かを判断する。キーボードからの入力である場合には、新たな認識語の登録処理をするためにステップS203に進む。ステップS203では、キーボードから入力された単語が、登録辞書に認識語として登録される。音声入力である場合には、音声認識処理をするために、ステップS251に進む。
(認識語の登録処理)
[ステップS204〜ステップS206]
ステップS204では、一般辞書から一語抽出される。ステップS205において、入力された語と、一般辞書から抽出された一語との間で、類似度が計算される。ステップS205で類似度が高いと判断された場合は、ステップS213に進み、一般辞書から抽出された一語をバッファに格納し、ステップS206に進む。ステップS206で類似度が小さいと判断された場合は、そのままステップS206に進む。ステップS206では、一般辞書中に類似度を計算する別の単語があるかどうかを判断し、別の単語が存在する場合にはステップS204に戻り、別の単語が存在しない場合には一般辞書の一単語との類似度の計算を終了し、ステップS207に進む。
[ステップS207〜ステップS209]
ステップS207では、一般辞書に格納されている単語を組み合わせて、1つの文字列を生成する。例えば、入力された語が「とります」の場合に、「とり」を含む「やりとり」と、「ます」を含む「ますだ」とを組み合わせて、「やりとりますだ」というような文字列を作成する。ステップS208では、入力された語と、生成された文字列との間で、類似度を計算する。例えば、「とります」と、「やりとりますだ」との類似度を計算する。ステップS208で、「とります」と、「やりとりますだ」との間の類似度が十分に高いと判断された場合には、ステップS214に進み、生成された文字列をバッファに格納し、ステップS215に進む。ステップS215では、入力された語彙に対してフラグを立てて、ステップS209に進む。具体的には、「とります」に対して、フラグを立てる。ステップS208で類似度が小さいと判断された場合は、そのままステップS209に進む。ステップS209では、文字列生成が終了したか否かを判断し、終了していなければステップSS207に戻り、終了していればステップS210に進む。
[ステップS210〜ステップS212]
ステップS210では、バッファに格納された類似度の高い言葉をユーザに提示する。ステップS211において、ユーザは、その言葉の認識辞書への登録を維持するか否かを選択する。認識辞書への登録を維持する場合には、認識語の登録処理は終了する。登録語を変更する場合には、ステップS212において登録の取消を行い、認識語の登録処理が終了する。
(音声認識処理)
ステップS202において、ユーザの入力が音声入力であると判断された場合は、ステップS251に進む。ステップS251では、入力された音声と認識辞書に登録された単語との認識処理を行う。ステップS252では、入力音声が、認識辞書中に登録されたどの認識語とも照合できず、照合結果が得られなかった場合には、音声認識処理を終了し、ステップS202に戻り、ユーザからの入力を待機する。照合結果が得られた場合は、ステップS253に進み、入力音声の前後にある無音区間の長さを調査し、単独発声か連続発声の一部かを判断する。単独発声であれば、ステップS255に進み、連続発声の一部であれば、ステップS254に進む。ステップS254では、認識語にフラグが立っているかどうかを判断する。認識語にフラグが立っている場合には、誤認識を起こす可能性があるとして音声認識処理を終了し、ステップS202に戻り、ユーザからの入力を待機する。認識語にフラグが立っていない場合には、ステップS255に進む。ステップS255では、認識結果に基づいて制御対象を制御する制御動作を行う。制御動作が終わると、ステップS202に戻り、ユーザからの入力を待機する。
(実施の形態2)
図3は、実施の形態2における音声認識装置を実現するためのシステム構成を示すブロック図である。上記実施の形態1の音声認識装置においては、騒音下で、無音区間が検出できない場合に、認識性能が劣化する可能性がある。本実施の形態では、かかる条件下でも、認識性能が劣化しにくい音声認識装置を提供する。すなわち、本実施の形態の音声認識装置は、リジェクト辞書を有する。リジェクト辞書には、認識語と類似度が高いと判断された一般辞書の単語を登録する。音声認識時に、入力された音声を、認識辞書とリジェクト辞書とを用いて照合する。リジェクト辞書に登録された言葉が上位に認識された場合には、入力音声をリジェクトし、制御動作を行わないこととする。このような構成にすることで、一般辞書に誤認識を生じやすい類似の言葉が存在する言葉についても、認識語彙として使用することができる。
本実施の形態にかかる音声認識装置1は、マイクロホン101と、音声分析部102と、照合部103と、リジェクト判定部104と、制御部105と、文字入力部106と、辞書作成部107と、認識辞書部108と、外部接続部109と、一般辞書110と、類似度計算部112と、表示部113と、文字列生成部111と、リジェクト辞書114とが設けられている。なお、図1と同一の符号は、同一の機能を果たす。以下には、実施の形態1と異なる点を中心に説明する。
マイクロホン110から入力される音声は、音声分析部102で、内部表現の時系列へと変換される。内部表現は、実施の形態1の場合と同様である。照合部103では、音声分析部102で得られた入力音声の内部表現と、認識辞書108に登録された認識語およびリジェクト辞書114に登録されたリジェクト語とを照合する。リジェクト辞書114に登録されているリジェクト語は、認識辞書108に登録されている認識語と同様に、音声分析部102の出力と同じ内部表現である必要がある。リジェクト語についても、図示していないが、辞書作成部107を用いて、音節列などの表記に変換する必要がある。
照合部103は、照合の結果、認識語とリジェクト語とを上下関係をつけて出力する。照合結果は、リジェクト判定部104において、リジェクトされるかどうかを判定する。認識辞書108の単語が上位にあれば入力音声を受理し、リジェクト辞書114の単語が上位であれば、入力音声をリジェクトする。受理された入力音声は、制御部105で、制御対象を制御する。このようなリジェクト辞書114を用いることにより、一般辞書110に、認識語と類似度の高い語彙が格納されている場合であっても、認識語を変更しなくても、誤認識を低減することができる。
本実施の形態の特徴は、実施の形態1の認識辞書108に加えて、リジェクト辞書114を有する点にある。本実施の形態にかかるリジェクト辞書114は以下のように作成される。認識語は、実施の形態1の場合と同様に、一般辞書114に格納された単語との間で類似度が計算される。リジェクト辞書114は、類似度計算部112で、認識語と類似度が高いと判断された一般辞書110の単語をリジェクト語として記録する。
表示部113は、類似度計算部の計算結果を表示してもよい。この図の例では、表示部113は登録された辞書を表示している。ユーザは、表示部113により、認識語およびリジェクト語の内容を知ることができる。ユーザは、この表示を見て、リジェクト語として登録するか、あるいは認識語を変更するかなどの判断を行う。
認識語と類似度が高いと判断された一般辞書110の単語の中には、認識語と意味が類似しているものが含まれる。このような単語は、誤認識を起こさない、また誤認識されても意味が類似しているので、制御対象を正しく制御できる。したがって、類似度が高いと判断された一般辞書110の単語を、リジェクト辞書114に登録しない、あるいは認識辞書108に追加登録することとしてもよい。この結果、認識に使用する言語の自由度が大きくなり、ユーザが使いやすい音声認識装置が提供できる。なお、本実施の形態においては、リジェクト辞書を用いる場合について説明した。しかし、リジェクト辞書を用いない、実施の形態1の場合であっても、同様の効果が得られる。たとえば、認識語と類似度が高いと判断された一般辞書の単語を認識辞書に追加登録すればよい。
認識語と類似度が高いと判断された一般辞書の単語と、認識語とが意味が類似しているかどうかの判断を、自動的に判断するのは限界がある。そこで、表示部113では、認識語と類似度が高いと判断された一般辞書の単語と、認識語とを表示して、リジェクト語として登録するか、認識語として登録するか、あるいは認識語を変更するかを決定できるようなインターフェースを備えることが好ましい。
図4は、実施の形態2における表示画面の一例を示す図である。この画面では、認識語と、リジェクト語、リジェクトフレーズが示されている。リジェクト語は、その言葉自体が認識語と類似しているものであり、リジェクトフレーズは、複数の単語からなる言葉であり、かつ認識語と類似しているものである。両者の区別は必須である必要はなく、両者を一体として表示してもよい。この図の例では、リジェクト語とリジェクトフレーズのそれぞれの言葉にチェックボックスが設けられている。ユーザは、リジェクトすべきと、判断した語をチェックし、リジェクトする必要がないと判断した語のチェックを外す構成とする。また、認識語として登録するかどうかも、別のチェックボックスやボタン表示をして行うことができる。このように、リジェクト辞書の語彙に、その語彙が有効か無効かのフラグを付けておけば、ユーザが後から有効・無効を切り替えることができるので、より使いやすい設定とすることができる。
認識語と類似度が高いと判断された一般辞書の単語であって認識語と意味が類似している単語を認識辞書に登録する場合に、リジェクト辞書に登録する語数が多い場合には、すべての単語を登録すると、リジェクト辞書が膨大になる。そこで、すべての単語をリジェクト語として登録する代わりに、認識語の前後に所定の音素または音節を接続したものをリジェクト辞書に登録すればよい。所定の音素として母音だけ、あるいは母音に撥音「ん」や摩擦子音など継続長の長い音を加えたものを接続すれば好ましい。またはすべての音素や音節の平均的な特徴を持たせたガベージ音素、ガベージ音節を接続したものでもよい。
なお、実施の形態1と同様に、本実施の形態においても、一般辞書からの文字列生成を行う。この場合においても、一般辞書は、品詞情報、単語の連結情報、不要語、および口語表現を含むものであってもよい。また、実施の形態1と同様に、外部接続部109を介して、外部から一般辞書を提供される、あるいは転送される、または類似度計算を外部の装置で行ってもよい。
(動作2)
次に、本実施の形態の音声認識装置について図5を用いて説明する。図5は、実施の形態2の音声認識装置における新たな認識語およびリジェクト語の登録処理と音声認識処理を示すフローチャートである。
ステップS201〜ステップS203に関しては、実施の形態1のフローチャートと同様である。
(リジェクト語の登録処理)
[ステップS204〜ステップS206]
ステップS204〜ステップS206においても、基本的には、実施の形態1と同様の動作をする。ただし、ステップS205で認識語と一般時書中の単語との類似度が高いと判断された場合は、ステップS223に進み、一般辞書から抽出された一語をリジェクト辞書に登録し、ステップS206に進む。
[ステップS207〜ステップS209]
ステップS207〜ステップS209においても、基本的には、実施の形態1と同様の動作をする。ただし、本実施の形態においては、ステップS208で認識語と生成文字列の一部との類似度が高いと判断された場合は、ステップS224に進み、生成された文字列をリジェクト辞書に登録し、ステップS206に進む。
[ステップS210〜ステップS212]
ステップS210では、リジェクト辞書の内容をユーザに提示する。ステップS221において、ユーザが、リジェクト辞書に登録された言葉が有効か無効かを判断して、リジェクト辞書を編集することを選択する場合は、ステップS222に進み、リジェクト辞書を編集する。ステップS221では、実施の形態1の場合と異なり、リジェクト辞書に登録された言葉を登録するか、キャンセルするかの判断は行わない。リジェクト辞書を編集した場合には、再度編集後の内容をユーザに提示するために、ステップS210に進む。ユーザが、リジェクト辞書を編集しない場合には、リジェクト辞書の内容を確認して、リジェクト語の登録が終了する。
(音声認識処理)
ステップS201〜ステップS202は、実施の形態1と同様である。ステップS202において、ユーザの入力が音声入力であると判断された場合は、ステップS251に進む。ステップS251では、入力された音声と認識辞書に登録された単語およびリジェクト辞書に登録されたリジェクト語との認識処理を行う。ステップS252では、入力音声が、認識辞書中に登録されたどの認識語とも照合できず、照合結果が得られなかった場合には、音声認識処理を終了し、ステップS202に戻り、ユーザからの入力を待機する。照合結果が得られた場合は、ステップS261に進み、認識結果の上位の候補が、認識辞書中の認識語か、リジェクト辞書中のリジェクト語であるかを判断する。認識結果の上位の候補がリジェクト語である場合には、誤認識を起こす可能性があるとして音声認識処理を終了し、ステップS202に戻り、ユーザからの入力を待機する。認識結果の上位の候補が認識語である場合には、ステップS262に進む。ステップS262では、認識結果に基づいて制御対象を制御する制御動作を行う。制御動作が終わると、ステップS202に戻り、ユーザからの入力を待機する。
(その他の実施形態)
ところで、上記各実施の形態における音声認識装置としての機能は、プログラム記録媒体に記録された情報処理プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、RAM(ランダム・アクセル・メモリ)とは別体に設けられたROM(リード・オンリー・メモリ)でなるプログラムメディアである。または、外部補助記録装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから情報処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAMに設けられたプログラム記憶エリアにダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記録エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているもとする。
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フレキシブルディスク、ハードディクス等の磁気ディスクやCD(コンパクトディスク)−ROM、MO(光磁気)ディスク、MD(ミニディスク)、DVD(デジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM、EPROM(紫外線消去型ROM)、EEPROM(電気的消去型ROM)、フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
また、上記実施の形態における音声認識装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能となっている。この場合、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
図6は、本発明の音声認識装置の構成を示す図である。図6に示すように、本発明の音声認識装置は、CPU301と、ROM302と、RAM303と、表示部304と、入力部305と、プログラム読み取り部306とを含み構成され、これらの各部が、相互にバス307でバス接続されている。
CPU301は、RAM303内に格納されているプログラムに従って動作し、この装置全体の動作を制御している。RAM303は、CPU301による各種制御処理の実行時、ワークエリアとして使用され、各種データを一時的に保存する。ROM302は、CPU301によって実行されるプログラムや一般辞書などの固定のデータを記憶している。表示部は、ユーザに類似語の表示や認識結果などを表示するためのディスプレイや、音声によりこれらを提示するための出力装置で、構成される。入力部は、ユーザが認識語を入力する、あるいはその他の操作をするためのボタンやキーボードで構成される。プログラム読み取り部は、CD−ROM、DVD−ROMなどの記録媒体から、プログラムデータや一般辞書などを読み込むドライブ装置や、通信回線からプログラムデータや一般辞書などを読み込むための通信装置などで、構成される。
図1は、実施の形態1の音声認識装置を実現するためのシステム構成を示すブロック図である。 図2は、実施の形態1の音声認識装置における新たな認識語の登録処理と音声認識処理を示すフローチャートである。 図3は、実施の形態2における音声認識装置を実現するためのシステム構成を示すブロック図である。 図4は、実施の形態2における表示画面の一例を示す図である。 図5は、実施の形態2の音声認識装置における新たな認識語およびリジェクト語の登録処理と音声認識処理を示すフローチャートである。 図6は、本発明の音声認識装置の構成を示す図である。
符号の説明
1 音声認識装置
101 マイクロホン
102 音声分析部
103 照合部
104 リジェクト判定部
105 制御部
106 文字入力部
107 辞書作成部
108 認識辞書部
109 外部接続部
110 一般辞書
111 文字列生成部
112 類似度計算部
113 表示部
114 リジェクト辞書
301 CPU
302 ROM
303 RAM
304 表示部
305 入力部
306 プログラム読み取り部
307 バス







Claims (12)

  1. ユーザが発声した音声の音声信号から抽出した特徴量を、あらかじめ認識辞書に登録されている単語の特徴量と照合して、音声を認識する音声認識装置であって、
    前記音声認識装置は、大語彙の一般辞書を有し、
    前記認識辞書に登録された単語に対して、所定のアルゴリズムを用いて、前記一般辞書に含まれる単語との類似度を求める類似度計算手段と、
    前記一般辞書に含まれる単語と類似度が大きい認識辞書に登録された単語について、類似度が高い旨をユーザに提示する類似度提示手段とを備え、
    前記音声認識装置は、前記一般辞書に含まれる複数の単語を組み合わせて文字列を生成する文字列生成手段を有し、
    前記類似度計算手段では、前記認識辞書に登録された単語と、前記生成された文字列の一部の文字列との間で、類似度を求めることを特徴とする音声認識装置。
  2. 認識された単語が、前記生成された文字列の一部の文字列と類似度が高いと判断された単語である場合に、この認識された単語が、単独発声との照合であるか、連続発声の一部との照合であるかを識別する照合部分識別手段を有し、
    連続発声の一部との照合であると識別された場合に、前記認識された単語の入力をリジェクトすることを特徴とする請求項に記載の音声認識装置。
  3. 前記文字列生成手段では、単語の連結情報を用いて、文字列を生成することを特徴とする請求項に記載の音声認識装置。
  4. 前記一般辞書は、単語の品詞情報を備え、前記文字列生成手段では、文法に従って文字列を生成することを特徴とする請求項に記載の音声認識装置。
  5. 前記一般辞書は、ユーザが無意識に発声する不要語、または口語表現を含むことを特徴とする請求項1に記載の音声認識装置。
  6. 前記類似度提示手段は、前記一般辞書に含まれる単語と、この単語と類似度が高いと判断された認識辞書に登録された単語とのうち、少なくとも一方を提示することを特徴とする請求項1に記載の音声認識装置。
  7. 前記音声認識装置は、認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語を登録するリジェクト辞書を有し、
    入力音声を前記リジェクト辞書に登録されている単語と照合した結果が、入力音声を前記認識辞書に登録されている単語と照合した結果より上位にある音声の入力を、リジェクトすることを特徴とする請求項1に記載の音声認識装置。
  8. 認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語のうち、認識辞書に登録された単語と意味が近似する単語を認識辞書に追加登録することを特徴とする請求項1に記載の音声認識装置。
  9. 前記リジェクト辞書に登録されている単語は、それぞれが、入力音声をリジェクトするかどうかを示すフラグを有し、そのフラグをユーザに提示することを特徴とする請求項8に記載の音声認識装置。
  10. 前記一般辞書と、類似度計算手段とが、外部機器に設けられており、外部機器において求められた前記認識辞書に登録する単語に対する、前記一般辞書に含まれる単語との類似度を、通信手段を用いて、音声認識装置に送ることを特徴とする請求項1に記載の音声認識装置。
  11. ユーザが発声した音声の音声信号から抽出した特徴量を、あらかじめ認識辞書に登録されている単語の特徴量と照合して、音声を認識することを、コンピュータシステムにおいて実現するためのプログラムであって、
    前記認識辞書に登録された単語に対して、所定のアルゴリズムを用いて、大語彙の一般辞書に含まれる単語との類似度を求める類似度計算ステップと、
    前記一般辞書に含まれる単語と類似度が大きい認識辞書に登録された単語について、類似度が高い旨をユーザに提示する類似度提示ステップとを備え、
    さらに、前記一般辞書に含まれる複数の単語を組み合わせて文字列を生成する文字列生成ステップを有し、
    前記類似度計算ステップでは、前記認識辞書に登録された単語と、前記生成された文字列の一部の文字列との間で、類似度を求めることを特徴とする、音声認識プログラム。
  12. 請求項11に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004038339A 2004-02-16 2004-02-16 音声認識装置、音声認識プログラムおよび記録媒体。 Expired - Fee Related JP4236597B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004038339A JP4236597B2 (ja) 2004-02-16 2004-02-16 音声認識装置、音声認識プログラムおよび記録媒体。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004038339A JP4236597B2 (ja) 2004-02-16 2004-02-16 音声認識装置、音声認識プログラムおよび記録媒体。

Publications (2)

Publication Number Publication Date
JP2005227686A JP2005227686A (ja) 2005-08-25
JP4236597B2 true JP4236597B2 (ja) 2009-03-11

Family

ID=35002428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004038339A Expired - Fee Related JP4236597B2 (ja) 2004-02-16 2004-02-16 音声認識装置、音声認識プログラムおよび記録媒体。

Country Status (1)

Country Link
JP (1) JP4236597B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4878471B2 (ja) * 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
JP5066668B2 (ja) * 2005-11-08 2012-11-07 株式会社国際電気通信基礎技術研究所 音声認識装置、およびプログラム
JP5037041B2 (ja) * 2006-06-23 2012-09-26 アルパイン株式会社 車載用音声認識装置及び音声コマンド登録方法
JP2008033198A (ja) * 2006-08-01 2008-02-14 Nec System Technologies Ltd 音声対話システム、音声対話方法、音声入力装置、プログラム
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
JP2008309865A (ja) * 2007-06-12 2008-12-25 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP4839291B2 (ja) * 2007-09-28 2011-12-21 Kddi株式会社 音声認識装置およびコンピュータプログラム
JP4941495B2 (ja) * 2009-03-31 2012-05-30 日本電気株式会社 ユーザ辞書作成システム、方法、及び、プログラム
WO2011045846A1 (ja) * 2009-10-16 2011-04-21 三菱電機株式会社 音声認識装置
JP5703491B2 (ja) * 2010-01-26 2015-04-22 国立大学法人山梨大学 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
US8560318B2 (en) 2010-05-14 2013-10-15 Sony Computer Entertainment Inc. Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
NZ700273A (en) * 2012-04-27 2016-10-28 Interactive Intelligence Inc Negative example (anti-word) based performance improvement for speech recognition
JP6115202B2 (ja) * 2013-03-12 2017-04-19 アイシン・エィ・ダブリュ株式会社 音声認識システム、方法およびプログラム
EP3089158B1 (en) * 2013-12-26 2018-08-08 Panasonic Intellectual Property Management Co., Ltd. Speech recognition processing
WO2016157782A1 (ja) * 2015-03-27 2016-10-06 パナソニックIpマネジメント株式会社 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
JP6703177B1 (ja) * 2019-11-11 2020-06-03 株式会社ブイキューブ 情報処理装置、情報処理方法及びプログラム
CN111105799B (zh) * 2019-12-09 2023-07-07 国网浙江省电力有限公司杭州供电公司 基于发音量化和电力专用词库的离线语音识别装置及方法

Also Published As

Publication number Publication date
JP2005227686A (ja) 2005-08-25

Similar Documents

Publication Publication Date Title
JP4236597B2 (ja) 音声認識装置、音声認識プログラムおよび記録媒体。
US9640175B2 (en) Pronunciation learning from user correction
US8380505B2 (en) System for recognizing speech for searching a database
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US20060100871A1 (en) Speech recognition method, apparatus and navigation system
JP3967952B2 (ja) 文法更新システム及び方法
JP4444396B2 (ja) 音声認識におけるポジション操作
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP5089955B2 (ja) 音声対話装置
US20050091054A1 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
JP2001005488A (ja) 音声対話システム
JP5098613B2 (ja) 音声認識装置及びコンピュータプログラム
JP4129989B2 (ja) テキスト音声合成を支援するシステム
JP2008058813A (ja) 音声応答システム、音声応答プログラム
JP2007256482A (ja) 音声認識装置、音声認識方法、及びコンピュータプログラム
JP2008233229A (ja) 音声認識システム、および、音声認識プログラム
JP2008129263A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
US6591236B2 (en) Method and system for determining available and alternative speech commands
US8566091B2 (en) Speech recognition system
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP2006012179A (ja) 自然言語処理装置および自然言語処理方法
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2006208905A (ja) 音声対話装置及び音声対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111226

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees