JP2010197859A

JP2010197859A - 発話差音声認識システム

Info

Publication number: JP2010197859A
Application number: JP2009044461A
Authority: JP
Inventors: Yuzo Takahashi; 優三高橋; Takashi Kato; 隆加藤
Original assignee: Urimina; URIMINA KK; Gifu University NUC
Current assignee: Urimina; URIMINA KK; Gifu University NUC
Priority date: 2009-02-26
Filing date: 2009-02-26
Publication date: 2010-09-09

Abstract

【課題】標準発話から逸脱した地域差等のよって生じる発話差の有る音声であっても高い認識率で当該音声を認識することが可能な発話差音声認識システム
を提供することを課題とする。
【解決手段】認識システム１の認識コンピュータ２は、音声情報８を取得する音声情報取得手段９と、標準発話を認識可能に構築された標準辞書ＳＤ及び発話差を有する非標準発話を認識可能に構築された拡張辞書ＥＤを記憶する辞書群記憶手段１０と、音声情報８及び標準辞書ＳＤを利用して、音声に含まれる語彙を照合し、想定内語彙に合致する語彙を認識する標準照合手段１１と、標準照合手段１１によって想定内語彙に合致しない語彙を拡張辞書ＥＤを利用して照合し、想定外語彙と合致する語彙を認識する拡張照合手段１２と、標準照合手段１１及び拡張照合手段１２によって認識された語彙を出力する語彙出力手段１３とを具備する。
【選択図】図２

Description

本発明は、発話差音声認識システムに関するものであり、特に、標準的な発話と異なる地域差や年代差に起因する発話差を伴う音声であっても、高い認識率を維持して音声認識を行うことが可能な発話差音声認識システムに関するものである。

従来から、話者が発声する音声をマイク等の音声入力手段によって受付け、これを音声情報として取得し、さらに当該音声情報を解析することにより音声を認識する音声認識技術の開発が進められている。係る技術によって、キーボードやマウス等の操作入力機器を利用することなく、音声入力のみでコンピュータ等を操作することが可能となり、コンピュータの操作に不慣れな高齢者や手肢の動きが制限される要介護者であっても、コンピュータ等の操作が容易に行えるようになる。また、カーナビゲーションシステム等に音声入力及び音声認識技術を採用することにより、運転者がハンドルから手を離すことなく、目的地の設定や案内の開始を音声によって実行することが可能となり、安全性を高めることができる。このように、音声入力及び音声認識に係る技術は、幅広い分野で使用され、さらに新たな技術分野での使用が期待されている。

ここで、音声認識に係る技術において、話者の発声した音声を正確に認識できない場合、誤操作やシステムの誤動作を引き起こす可能性があった。特に、話者の発する音声は、想定された語彙以外の部分を認識することにより、認識率が低下することがあった。そこで、想定された語彙（主に単語）に助詞等が付加された場合であっても、当該助詞の部分を許容して認識し、認識率の自由度を向上させた技術が開発されている（特許文献１参照）。これにより、カーナビゲーションシステムにおいて、音声で行き先を指示する場合の認識率を高めることができる。

音声認識に係る技術において、話者から発声される認識対象の音声は、標準語（共通語）の語彙及びアクセントによって発せられたものを想定し、これに基づく音声認識処理を行うような設定がなされている。すなわち、標準的な発話に基づく語彙等を認識対象とすることにより、不特定多数の幅広い人々の発する語彙が認識可能となり、高い認識率を維持することが可能となっている。

さらに、発話差を伴う話者の発声に対しても認識率を向上させるため、予め特定の話者の音声を登録し、これを解析処理し、データベース化することが行われている。具体的に説明すると、話者に対して予め規定の文章を音読させ、これを音声情報として取得し、登録することにより、認識率を飛躍的に向上させる機能（所謂「エンロール機能」）を伴った音声認識ソフトが開発されている。この場合、音声認識ソフトの稼働するコンピュータ等の音声認識装置により、話者の発音傾向に基づく音響モデルを構築し、当該話者が発声した場合には、個々に構築された特定の音響モデルを利用して認識処理が実施される。その結果、上記認識率は一定以上の水準に保たれ、実用上の問題がない程度まで改善されることになる。

しかしながら、上述した標準的な発話を利用して音声認識処理を行う場合、下記に掲げるような問題を生じることがあった。すなわち、日本語を始めとする種々の言語には、訛りや方言等の各地方・地域に特有の言い回しや表現などが存在し、語尾や語中が変化するもの等が多く知られ、これらの言語学的な分類もなされている。そのため、標準発話に対して発話差を有する発話（非標準発話）によって、日常会話を行っている人々が多く存在していた。これらの人々が、標準発話に基づく語彙を認識対象とする音声認識システムを利用した場合、訛りや方言等を含む非標準発話は、正確な音声認識が行えないことがあり、誤認識や認識不能と処理されることがあった。そのため、認識率を高めるために、なるべく標準語に近い発話をする必要があった。

しかしながら、普段喋り馴れている訛り等を意識的に抑え、無理に標準語を話そうとすることは、話者が精神的な負担を感じることがあった。さらに、正しい標準語を発話することが難しく、反って異なる語彙として音声認識される可能性もあった。

加えて、訛りや方言等の地域差以外に、同一の内容であっても男女間の言葉使いや語尾の表現の違いによる性差、児童、成年、及び高齢者の間で使用する語彙が異なる年代差等の発話差があることが想定され、標準的な一つの基準に基づいて規定された標準発話による音声認識では、十分な認識率が得られないことがあった。

具体的に説明すると、数字“７”を音声入力する場合、標準的な発話では、“ナナ”若しくは“シチ”と発声することにより、音声認識用コンピュータがこれを“７”として認識する処理が行われる。人によっては、“シチ”のことを“ヒチ”と発声する場合もある。そのため、“ヒチ”と発声された音声に対し、音声認識システムは、“７”という語彙を対応させて認識することができず、その他の類似する発音の語彙として誤認識されたり、全く認識不能なものとして出力される可能性があった。上記例をさらに具体的に説明すると、東京の下町地域では、「ヒ」と「シ」の使い分けに混同を生じる人々（特に、高齢者）が存在し、「白い（シロイ）」と「広い（ヒロイ）」が言い分けられない場合があった。また、語彙中の「ヒ」を「シ」に置換して発音したり（例：「商品（ショウヒン）」→ショウシン等）することもあった。また、別の地域では、母音の「イ」と「エ」の発音が混同し、区別しにくい場合もあった。そのため、従来の音声認識システムでは、全く異なった語彙として認識されることがあり、認識率の低下を招いていた。

さらに、上述したエンロール機能を有する音声認識システムは、認識率を向上させるための前段階の登録作業が非常に煩雑となることがあった。つまり、特定話者の発音傾向を統計的処理に基づいて精細に解析する必要があり、登録時に膨大な量の文章を音読させる作業を強制的にする必要があった。例えば、市販の音声認識ソフトの場合、エンロール機能を使用するための登録時には、当該ソフトウェアが指定する複数の文章を話者がそれぞれ読み上げ、その内容を音声認識ソフトが解析し、データとして登録する作業を繰り返し実行する必要があった。そのため、最終的に登録を完了するまでに、最低でも３０分以上が必要となることもあった。したがって、音声認識技術を利用したシステムを恒常的に使用する専門のオペレータ以外では、上記のような煩雑な登録作業に時間を掛けることが無駄な場合も多くあり、エンロール機能自体が十分に活用されていない場合も多かった。その結果、エンロール機能を活用することなく音声認識処理を行うため、低い認識率で当該ソフトを使用することがあった。

そこで、本発明は、上記実情に鑑み、標準発話に対し発話差を有する非標準発話の音声であっても、高い認識率を維持して当該音声を音声認識することが可能な発話差音声認識システムの提供を課題とするものである。

上記の課題を解決するため、本発明の発話差音声認識システムは、「話者の音声を検出し、音声情報として取得する音声情報取得手段と、標準的な発音傾向に基づく標準発話を認識可能に形成され、前記音声に含まれると想定される複数の想定内語彙を予め登録し、構築された標準辞書、及び、非標準的な発音傾向に基づき、前記標準発話との間で発話差を有する非標準発話を認識可能に形成され、複数の想定外語彙を予め登録し、構築された拡張辞書をそれぞれ記憶する辞書群記憶手段と、前記音声情報及び前記標準辞書を利用して、前記音声を構成する複数の語彙を照合し、前記想定内語彙に合致する前記語彙を認識する標準照合手段と、前記標準照合手段によって未認識と判定された前記語彙を前記拡張辞書を利用して照合し、前記想定外語彙と合致する前記語彙を認識する拡張照合手段と、前記標準照合手段及び前記拡張照合手段の少なくとも一方によって認識された前記語彙を出力する語彙出力手段と」を具備して主に構成されている。

ここで、辞書群記憶手段に記憶される標準辞書は、標準語の発音傾向や発話に基づき想定される想定内語彙（上述の「シチ」等に相当）を予め登録し、構築されたものである。一方、拡張辞書は、想定内語彙に対する発話差を有した想定外語彙（「シチ」に対する「ヒチ」等）を予め登録し、構築したものである。ここで、標準辞書に対し、複数種類の拡張辞書を構築することが可能であり、地域差（東京下町、北海道、東北、及び関西等の各地域）や前述した性差や年代差に応じて種々のものを予め登録しておくことができる。

したがって、本発明の発話差音声認識システムによれば、取得した音声情報を始めに標準発話として認識するための標準辞書を利用し、音声情報の音声に含まれる語彙と合致する想定内語彙を照合しこれを認識する処理を行う。その後、想定内語彙との照合ができなかった語彙（未認識語彙）に対し、拡張辞書を利用し、拡張辞書に含まれる想定外語彙と照合しこれを認識する処理を行う。

これにより、標準辞書及び拡張辞書の二つの辞書を利用し、二段階で音声に含まれる語彙を音声認識する処理が行われる。これにより、訛り等の発話差を有する音声であっても高い認識率を維持することができる。なお、辞書群記憶手段に複数の拡張辞書が記憶されている場合には、話者の選択により、或いは話者が発した音声の発音傾向に応じて発話差音声認識システムが合致または類似する発話差を伴って記憶された拡張辞書を適宜抽出する処理を行うものであっても構わない。さらに、第一段階の照合処理として、標準辞書による照合を行うことにより、音声に含まれる大部分の語彙についての照合を完了した後、未認識語彙のみを拡張辞書によって照合するため、音声の認識処理を迅速かつ安定して行うことができる。そして、最終的に認識された語彙が文字情報等として出力することが行われる。なお、ハードディスク等の記憶手段に認識結果を記憶するものであっても構わない。

さらに、本発明の発話差音声認識システムは、上記構成に加え、「前記拡張照合手段によって前記想定外語彙に合致しないと判定された前記語彙の判定回数をカウントする回数カウント手段と、カウントされた前記判定回数が予め規定された規定回数を超過しているか否かを判定する回数判定手段と、前記回数判定手段に基づいて、前記規定回数からの超過を検出すると、前記語彙を前記想定語彙として前記拡張辞書に登録する拡張辞書登録手段と」を具備するものであっても構わない。

したがって、本発明の発話差音声認識システムによれば、拡張辞書を利用しても認識することができない未認識語彙が、話者によって繰り返し発せられ、これを照合した場合、当該未認識語彙を所定の条件に基づいて拡張辞書に登録する処理が実施される。すなわち、話者による音声の中で頻繁に登場し、かつ未認識とする処理が繰返された語彙をカウントし、所定の回数を超えた場合、想定外語彙として登録することが可能となる。この場合、標準辞書の想定内語彙との対応を定義する必要がある。これにより、次回から当該語彙を照合し、認識する場合、想定内語彙として認識され、文字情報等として出力することが可能となる。

本発明の効果として、取得された音声情報を、標準発話によって規定された標準辞書と、標準発話から逸脱した発話差を有する拡張辞書とを利用し、二段階の照合処理により音声認識を行うことが可能となる。これにより、訛り等を伴う発話差を伴う音声の認識率を向上させることができる。

本実施形態の発話差音声認識システムの概略構成を示す説明図である。発話差音声認識システムにおける認識コンピュータの機能的構成を示すブロック図である。認識コンピュータによる処理の流れを示すフローチャートである。認識コンピュータによる処理の流れを示すフローチャートである。

以下、本発明の一実施形態である発話差音声認識システム１（以下、単に「認識システム１」と称す）について、図１乃至図４に基づいて説明する。ここで、図１は本実施形態の認識システム１の概略構成を示す説明図であり、図２は認識システム１による認識コンピュータ２の機能的構成を示すブロック図であり、図３及び図４は認識コンピュータ２による処理の流れを示すフローチャートである。

本実施形態の認識システム１は、図１乃至図４に示されるように、音声認識装置として機能する認識コンピュータ２によって主に構成されている。ここで、認識コンピュータ２は、図２に示すように、、市販のパーソナルコンピュータを利用して構成され、話者Ｓが発する音声Ｖを取得するマイク等の音声入力機器３と、各種データの入力及び操作を行うためのキーボード等の操作入力機器４と、認識結果を文章化して出力することが可能な出力画面５を有する液晶ディスプレイ６とがそれぞれコンピュータ本体７に接続されて構成されている。

また、コンピュータ本体７の内部には、音声Ｖを分析し、認識するための音響モデルＳＭを含む音声認識機能ＳＲ及び認識された音声Ｖを各種辞書（標準辞書ＳＤ、拡張辞書ＥＤ）を利用して音声Ｖに含まれる語彙の照合を行う語彙照合機能ＶＣが構築され、各種機能を発揮することができるようになっている。さらに、コンピュータ本体７には、接続された各機器３，４，６等との信号を送受するためのインターフェイスや制御機構、インターネット等のネットワーク環境への接続を可能とする通信機能、及び対話型音声対話システム１として機能させるための音声対話システム用ソフトウェア（図示しない）を内蔵するハードディスク等の記憶手段１８、認識システム用ソフトウェアに基づいて各種処理を行うためのＣＰＵを含む演算処理部等を含んで構成されている。これらのパーソナルコンピュータの構成及び機能については、既に周知のものであるため、ここでは説明を省略する。

認識システム１に使用される認識コンピュータ２は、上記のハードウェアによって構築され、認識システム用ソフトウェアによって各機能を奏するように構成されている。認識コンピュータ２の機能的構成は、図２に示すように、話者Ｓが発声する音声Ｖを音声入力機器３を介して検出し、音声情報８として取得する音声情報取得手段９と、標準語の発音やアクセント等に起因する標準発話に基づいて規定され、話者Ｓの音声Ｖに含まれると想定される複数の想定内語彙Ｖ１を登録して構築された標準辞書ＳＤ、及び、標準語の発音やアクセント等と異なり、標準発話から発話差を有する非標準発話による複数の語彙（想定外語彙Ｖ２）を登録して構築された拡張辞書ＥＤをそれぞれ記憶する辞書群記憶手段１０と、音声情報取得手段９によって取得された音声情報８及び辞書群記憶手段１０に記憶された標準辞書ＳＤを利用して、音声Ｖに含まれる語彙を想定内語彙Ｖ１と照合し、当該想定内語彙Ｖ１に合致する語彙を認識する標準照合手段１１と、標準照合手段１１によって想定内語彙Ｖ１に合致しなかった語彙に対し、拡張辞書ＥＤを利用して、当該語彙を想定外語彙Ｖ２と照合し、当該想定外語彙Ｖ２に合致する語彙を認識する拡張照合手段１２と、標準照合手段１１を単独で利用若しくは拡張照合手段１２を併用して認識した音声Ｖに係る語彙を文字情報として液晶ディスプレイ６に出力する語彙出力手段１３とを主に具備している。

さらに、本実施形態の認識システム１は、その他機能的構成として、拡張照合手段１２による語彙の照合によっても、想定外語彙Ｖ２に合致しないものとして判定され、換言すると、標準照合手段１１及び拡張照合手段１２のいずれの手段によっても認識不能となった語彙に係る未認識語彙データ１９を記憶手段１８に記憶し、当該語彙の記憶された回数（判定回数Ｃ）をカウントし、記憶手段１８にカウントデータ２０として記憶する回数カウント手段１４と、記憶手段１８に規定データ２１として予め記憶された規定回数Ｃｓとカウントされた判定回数Ｃを比較し、当該規定回数Ｃｓを超過しているか否かを判定する回数判定手段１６と、回数判定手段１６による判定に基づいて、判定回数Ｃが規定回数Ｃｓから超過していると判定されると、一時的に記憶した語彙を想定外語彙Ｖ２として拡張辞書ＥＤに登録する拡張辞書登録手段１７とをさらに具備している。なお、拡張辞書登録手段１７に語彙を想定外語彙Ｖ２として登録する場合、当該語彙を認識可能なように音声情報８との対応が登録されることとなる。ここで、未認識語彙データ１９、カウントデータ２０、及び規定データ２１は、記憶手段１８の中の回数記憶手段１５に記憶されている。

ここで、標準発話に基づく標準辞書ＳＤは、話者Ｓが発する標準語の発音傾向、語彙、アクセント、及びイントネーション等を認識可能に形成されている。そのため、一般的な会話において交わされる音声の大部分については、標準辞書ＳＤによる音声認識が可能なものである。一方、標準発話に対して発話差を有する訛り等を含む非標準発話に起因して構築された拡張語彙は、標準辞書によって認識することのできない語彙（想定外語彙Ｖ２）に限定して認識処理を行うものである。すなわち、本実施形態の認識システム１において、標準辞書ＳＤ及び拡張辞書ＥＤの使用頻度は、当然のことながら標準辞書ＳＤの方が通常は高い。

次に、本実施形態の認識システム１による発話差を有する音声の音声認識処理の一例について、図３及び図４に基づいて説明する。始めに、話者Ｓによって発せられる音声Ｖの検出を行う（ステップＳ１）。ここで、当該音声Ｖの検出は、発せられた音声Ｖによる音声信号をマイク等の音声入力機器３によって波形若しくは振動として検出されるか否かを検出するものである。話者Ｓによる音声Ｖが検出される場合（ステップＳ１においてＹＥＳ）、音声信号を電気信号に変換し、音声情報８として取得する（ステップＳ２）。一方、音声入力機器３を介した音声Ｖの検出がなされない場合（ステップＳ１においてＮＯ）、ステップＳ１の処理を継続し、話者Ｓから音声Ｖが発せられるまで待機する。

その後、取得した音声情報８を、辞書群記憶手段１０に記憶された標準発話に起因して構築された標準辞書ＳＤを利用して、音声Ｖを構成する複数の語彙を標準辞書ＳＤに登録された複数の想定内語彙Ｖ１とそれぞれ照合する（ステップＳ３）。ここで、音声認識に係る語彙の照合及び認識処理は、周知の音声認識技術を利用することが可能である。ここで、音声Ｖに含まれる語彙が標準辞書ＳＤの想定内語彙Ｖ１に合致し、かつ全ての音声Ｖの語彙の照合が完了した場合（ステップＳ４においてＹＥＳ）、当該語彙を認識し、認識された結果を液晶ディスプレイ６の出力画面５に文字情報として出力する（ステップＳ５）。このとき、認識された結果は、記憶手段１８に認識結果データ２２として記憶される。これにより、音声Ｖの音声認識の結果が文字情報として出力され、話者Ｓ等に対して視覚を通じて認識することができるように提供される。

ここで、前述したように話者Ｓによる音声Ｖが地域差等の発話差を伴うものである場合、上記のように全ての音声Ｖに含まれる語彙が標準辞書ＳＤによって照合され、認識されることは非常に少ない。すなわち、音声Ｖに含まれる一部の語彙（例えば、「ヒチ」）については、標準辞書ＳＤの想定内語彙Ｖ１（「シチ」）との照合ができず、認識不能な語彙として識別されることがある。そこで、音声Ｖに含まれる語彙の一部または全部が標準辞書ＳＤに登録された想定内語彙Ｖ１と合致しない場合（ステップＳ４においてＮＯ）、想定内語彙Ｖ１と合致して認識された語彙を一時的に記憶手段１８に記憶し（ステップＳ６）、さらに、当該語彙を標準発話との発話差を伴う語彙として登録された想定外語彙Ｖ２を含む拡張辞書ＥＤを利用して照合する（ステップＳ７）。なお、ステップＳ４による処理において、全ての語彙が想定内語彙Ｖ１に合致しない場合、換言すれば、標準辞書ＳＤによる照合及び認識処理によって一つの語彙も認識できなかった場合には、標準辞書ＳＤによって認識された語彙が存在しないため、ステップＳ６の処理はキャンセルされ、ステップＳ７の処理に移行することとなる（破線参照）。

ここで、音声Ｖに含まれ、想定内語彙Ｖ１と合致しなかった残りの語彙（未認識語彙）が拡張辞書ＥＤに登録された想定外語彙Ｖ２に合致し、かつ一時的に記憶された語彙を含めて音声Ｖを構成する全ての語彙の照合及び認識が完了した場合（ステップＳ８においてＹＥＳ）、照合及び認識された全ての語彙を併せ、認識された結果を液晶ディスプレイ６の出力画面に文字情報として出力する（ステップＳ５）。

これにより、音声Ｖの音声認識の結果が文字情報として出力され、話者Ｓ等に対して視覚を通じて認識することができるように提供される。すなわち、話者Ｓの発した音声Ｖが標準辞書ＳＤ及び拡張辞書ＥＤの最大で二種類の辞書を利用して照合及び認識され、文字情報等として出力することが可能となる。特に、標準語に基づいて構築された標準辞書ＳＤを利用して最初の照合処理を行うことにより、音声Ｖを構成する語彙の大部分を認識することが一般的に可能となる。そして、認識されなかった未認識語彙のみを、別途拡張辞書ＥＤを利用して照合する第二の照合処理を行うことにより、先の標準辞書ＳＤによる照合結果と併せて、音声Ｖの全体を認識することが可能となる。

特に、拡張辞書ＥＤには、訛りや方言等の標準辞書ＳＤの想定内語彙Ｖ１では認識することのできない語彙（想定外語彙Ｖ２）が予め登録されているため、係る語彙を日常会話において使用する人々が発する音声Ｖの音声認識を良好なものとすることができる。なお、本実施形態の認識システム１では、標準辞書ＳＤ及び拡張辞書ＥＤをそれぞれ一つずつ設けたものを示したが、発話差の傾向は複数のものが存在する可能性があり、一つに限定されるものではない。そのため、地域差や年代差等の各種発話差に応じて個々に拡張辞書ＥＤを設け、辞書群記憶手段１０に予め記憶したものを利用するものであっても構わない。この場合、音声Ｖの認識処理前に使用する拡張辞書ＥＤを話者Ｓによって選択する指示を受付ける必要がある。

一方、標準辞書ＳＤの想定内語彙Ｖ１に合致せず、かつ拡張辞書ＥＤの想定外語彙Ｖ２に合致しない未認識語彙が音声Ｖの一部または全部に有する場合（ステップＳ８においてＮＯ）、標準辞書ＳＤ及び拡張辞書ＥＤによってそれぞれ認識された語彙のみを文字情報として出力画面５に出力する（ステップＳ９）。そして、いずれの辞書ＳＤ，ＥＤによっても認識されなかった未認識語彙を特定し、未認識語彙データ１９として記憶手段１８に記憶する（ステップＳ１０）。このとき、同一の未認識語彙データ１９の記憶回数を記憶する。すなわち、当該語彙が未認識語彙が初めて記憶手段１８に記憶された場合はカウント値を“１”とし、一方、既に未認識語彙データ１９が記憶されている場合、当該カウント値に１をプラスした値を新たなカウント値とする処理をする（ステップＳ１１）。ここで、カウントされたカウント値が判定回数Ｃに相当する。次に、カウントされ、カウント値で示される判定回数Ｃと、記憶手段１８の回数記憶手段１５にデータ化して記憶された規定回数Ｃｓを示す規定データ２１とを対比し、カウントされた判定回数Ｃが規定回数Ｃｓから超過しているか否かを判定する（ステップＳ１２）。ここで、例えば、規定回数Ｃｓが“５”として設定されている場合、カウント値で示される判定回数Ｃが５以上であるか否かの判定が行われる。

ここで、規定回数Ｃｓを判定回数Ｃが超過している場合（ステップＳ１２においてＹＥＳ）、該当する未認識語彙を想定外語彙Ｖ２として拡張辞書ＥＤに登録する処理をする（ステップＳ１３）。このとき、拡張辞書ＥＤへの登録には、未認識語彙に対応する音声情報８が関連づけられて記憶される。これにより、想定外語彙Ｖ２に登録された語彙を含む音声Ｖが検出され、音声情報８として取得された場合には、拡張辞書ＥＤを利用した照合及び認識により、当該語彙が想定外語彙Ｖ２として認識し、出力される。係る未認識語彙の登録処理を繰り返すことにより、拡張辞書ＥＤによって認識可能な想定外語彙Ｖ２の数が増大し、拡張辞書ＥＤを利用した場合の認識率がアップすることになる。すなわち、未認識語彙の登録による学習効果を享受することができる。一方、規定回数Ｃｓを判定回数Ｃが超過していない場合（ステップＳ１２においてＮＯ）、ステップＳ１３の処理をキャンセルする。

その後、システム終了を指示する旨の入力の有無を検出し（ステップＳ１４）、当該指示の入力が検出される場合（ステップＳ１４においてＹＥＳ）、システムを終了する（ステップＳ１５）。一方、システム終了の指示の入力が検出されない場合（ステップＳ１４においてＮＯ）、ステップＳ１の処理に移行し、新たな音声Ｖの入力の検出処理を継続する。

以上、本発明について好適な実施形態を挙げて説明したが、本発明はこれらの実施形態に限定されるものではなく、以下に示すように、本発明の要旨を逸脱しない範囲において、種々の改良及び設計の変更が可能である。

すなわち、本実施形態の認識システム１において、一人の話者Ｓの音声Ｖを単独で認識するものを示したがこれに限定されるものではなく、複数の話者Ｓが会話を交わす会議形式の音声Ｖをそれぞれ認識するものであっても構わない。この場合、各話者Ｓの発した音声Ｖ毎に最適な拡張辞書ＥＤを選定し、変更するものであっても構わない。

１認識システム（発話差音声認識システム）
２認識コンピュータ
３音声入力機器
４操作入力機器
５出力画面
６液晶ディスプレイ
７コンピュータ本体
８音声情報
９音声情報取得手段
１０辞書群記憶手段
１１標準照合手段
１２拡張照合手段
１３語彙出力手段
１４回数カウント手段
１５回数記憶手段
１６回数判定手段
１７拡張辞書登録手段
１８記憶手段
Ｃ判定回数
Ｃｓ規定回数
ＥＤ拡張辞書
Ｓ話者
ＳＤ標準辞書
Ｖ音声
Ｖ１想定内語彙
Ｖ２想定外語彙

特開２００９−３２０５号公報

Claims

話者の音声を検出し、音声情報として取得する音声情報取得手段と、
標準的な発音傾向に基づく標準発話を認識可能に形成され、前記音声に含まれると想定される複数の想定内語彙を登録し構築された標準辞書、及び、非標準的な発音傾向に基づき、前記標準発話との間で発話差を有する非標準発話を認識可能に形成され、複数の想定外語彙を登録し構築された拡張辞書をそれぞれ記憶する辞書群記憶手段と、
前記音声情報及び前記標準辞書を利用して、前記音声に含まれる語彙を照合し、前記想定内語彙に合致する前記語彙を認識する標準照合手段と、
前記標準照合手段によって前記想定内語彙に合致しない前記語彙を前記拡張辞書を利用して照合し、前記想定外語彙と合致する前記語彙を認識する拡張照合手段と、
前記標準照合手段及び前記拡張照合手段の少なくとも一方によって認識された前記語彙を出力する語彙出力手段と
を具備することを特徴とする発話差音声認識システム。
前記拡張照合手段によって前記想定外語彙に合致しないと判定された前記語彙の判定回数をカウントする回数カウント手段と、
カウントされた前記判定回数が予め規定された規定回数を超過しているか否かを判定する回数判定手段と、
前記回数判定手段に基づいて、前記規定回数からの超過を検出すると、前記語彙を前記想定外語彙として前記拡張辞書に登録する拡張辞書登録手段と
をさらに具備することを特徴とする請求項１に記載の発話差音声認識システム。