JP2010197859A - 発話差音声認識システム - Google Patents
発話差音声認識システム Download PDFInfo
- Publication number
- JP2010197859A JP2010197859A JP2009044461A JP2009044461A JP2010197859A JP 2010197859 A JP2010197859 A JP 2010197859A JP 2009044461 A JP2009044461 A JP 2009044461A JP 2009044461 A JP2009044461 A JP 2009044461A JP 2010197859 A JP2010197859 A JP 2010197859A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- standard
- dictionary
- utterance
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】標準発話から逸脱した地域差等のよって生じる発話差の有る音声であっても高い認識率で当該音声を認識することが可能な発話差音声認識システム
を提供することを課題とする。
【解決手段】認識システム1の認識コンピュータ2は、音声情報8を取得する音声情報取得手段9と、標準発話を認識可能に構築された標準辞書SD及び発話差を有する非標準発話を認識可能に構築された拡張辞書EDを記憶する辞書群記憶手段10と、音声情報8及び標準辞書SDを利用して、音声に含まれる語彙を照合し、想定内語彙に合致する語彙を認識する標準照合手段11と、標準照合手段11によって想定内語彙に合致しない語彙を拡張辞書EDを利用して照合し、想定外語彙と合致する語彙を認識する拡張照合手段12と、標準照合手段11及び拡張照合手段12によって認識された語彙を出力する語彙出力手段13とを具備する。
【選択図】図2
を提供することを課題とする。
【解決手段】認識システム1の認識コンピュータ2は、音声情報8を取得する音声情報取得手段9と、標準発話を認識可能に構築された標準辞書SD及び発話差を有する非標準発話を認識可能に構築された拡張辞書EDを記憶する辞書群記憶手段10と、音声情報8及び標準辞書SDを利用して、音声に含まれる語彙を照合し、想定内語彙に合致する語彙を認識する標準照合手段11と、標準照合手段11によって想定内語彙に合致しない語彙を拡張辞書EDを利用して照合し、想定外語彙と合致する語彙を認識する拡張照合手段12と、標準照合手段11及び拡張照合手段12によって認識された語彙を出力する語彙出力手段13とを具備する。
【選択図】図2
Description
本発明は、発話差音声認識システムに関するものであり、特に、標準的な発話と異なる地域差や年代差に起因する発話差を伴う音声であっても、高い認識率を維持して音声認識を行うことが可能な発話差音声認識システムに関するものである。
従来から、話者が発声する音声をマイク等の音声入力手段によって受付け、これを音声情報として取得し、さらに当該音声情報を解析することにより音声を認識する音声認識技術の開発が進められている。係る技術によって、キーボードやマウス等の操作入力機器を利用することなく、音声入力のみでコンピュータ等を操作することが可能となり、コンピュータの操作に不慣れな高齢者や手肢の動きが制限される要介護者であっても、コンピュータ等の操作が容易に行えるようになる。また、カーナビゲーションシステム等に音声入力及び音声認識技術を採用することにより、運転者がハンドルから手を離すことなく、目的地の設定や案内の開始を音声によって実行することが可能となり、安全性を高めることができる。このように、音声入力及び音声認識に係る技術は、幅広い分野で使用され、さらに新たな技術分野での使用が期待されている。
ここで、音声認識に係る技術において、話者の発声した音声を正確に認識できない場合、誤操作やシステムの誤動作を引き起こす可能性があった。特に、話者の発する音声は、想定された語彙以外の部分を認識することにより、認識率が低下することがあった。そこで、想定された語彙(主に単語)に助詞等が付加された場合であっても、当該助詞の部分を許容して認識し、認識率の自由度を向上させた技術が開発されている(特許文献1参照)。これにより、カーナビゲーションシステムにおいて、音声で行き先を指示する場合の認識率を高めることができる。
音声認識に係る技術において、話者から発声される認識対象の音声は、標準語(共通語)の語彙及びアクセントによって発せられたものを想定し、これに基づく音声認識処理を行うような設定がなされている。すなわち、標準的な発話に基づく語彙等を認識対象とすることにより、不特定多数の幅広い人々の発する語彙が認識可能となり、高い認識率を維持することが可能となっている。
さらに、発話差を伴う話者の発声に対しても認識率を向上させるため、予め特定の話者の音声を登録し、これを解析処理し、データベース化することが行われている。具体的に説明すると、話者に対して予め規定の文章を音読させ、これを音声情報として取得し、登録することにより、認識率を飛躍的に向上させる機能(所謂「エンロール機能」)を伴った音声認識ソフトが開発されている。この場合、音声認識ソフトの稼働するコンピュータ等の音声認識装置により、話者の発音傾向に基づく音響モデルを構築し、当該話者が発声した場合には、個々に構築された特定の音響モデルを利用して認識処理が実施される。その結果、上記認識率は一定以上の水準に保たれ、実用上の問題がない程度まで改善されることになる。
しかしながら、上述した標準的な発話を利用して音声認識処理を行う場合、下記に掲げるような問題を生じることがあった。すなわち、日本語を始めとする種々の言語には、訛りや方言等の各地方・地域に特有の言い回しや表現などが存在し、語尾や語中が変化するもの等が多く知られ、これらの言語学的な分類もなされている。そのため、標準発話に対して発話差を有する発話(非標準発話)によって、日常会話を行っている人々が多く存在していた。これらの人々が、標準発話に基づく語彙を認識対象とする音声認識システムを利用した場合、訛りや方言等を含む非標準発話は、正確な音声認識が行えないことがあり、誤認識や認識不能と処理されることがあった。そのため、認識率を高めるために、なるべく標準語に近い発話をする必要があった。
しかしながら、普段喋り馴れている訛り等を意識的に抑え、無理に標準語を話そうとすることは、話者が精神的な負担を感じることがあった。さらに、正しい標準語を発話することが難しく、反って異なる語彙として音声認識される可能性もあった。
加えて、訛りや方言等の地域差以外に、同一の内容であっても男女間の言葉使いや語尾の表現の違いによる性差、児童、成年、及び高齢者の間で使用する語彙が異なる年代差等の発話差があることが想定され、標準的な一つの基準に基づいて規定された標準発話による音声認識では、十分な認識率が得られないことがあった。
具体的に説明すると、数字“7”を音声入力する場合、標準的な発話では、“ナナ”若しくは“シチ”と発声することにより、音声認識用コンピュータがこれを“7”として認識する処理が行われる。人によっては、“シチ”のことを“ヒチ”と発声する場合もある。そのため、“ヒチ”と発声された音声に対し、音声認識システムは、“7”という語彙を対応させて認識することができず、その他の類似する発音の語彙として誤認識されたり、全く認識不能なものとして出力される可能性があった。上記例をさらに具体的に説明すると、東京の下町地域では、「ヒ」と「シ」の使い分けに混同を生じる人々(特に、高齢者)が存在し、「白い(シロイ)」と「広い(ヒロイ)」が言い分けられない場合があった。また、語彙中の「ヒ」を「シ」に置換して発音したり(例:「商品(ショウヒン)」→ショウシン等)することもあった。また、別の地域では、母音の「イ」と「エ」の発音が混同し、区別しにくい場合もあった。そのため、従来の音声認識システムでは、全く異なった語彙として認識されることがあり、認識率の低下を招いていた。
さらに、上述したエンロール機能を有する音声認識システムは、認識率を向上させるための前段階の登録作業が非常に煩雑となることがあった。つまり、特定話者の発音傾向を統計的処理に基づいて精細に解析する必要があり、登録時に膨大な量の文章を音読させる作業を強制的にする必要があった。例えば、市販の音声認識ソフトの場合、エンロール機能を使用するための登録時には、当該ソフトウェアが指定する複数の文章を話者がそれぞれ読み上げ、その内容を音声認識ソフトが解析し、データとして登録する作業を繰り返し実行する必要があった。そのため、最終的に登録を完了するまでに、最低でも30分以上が必要となることもあった。したがって、音声認識技術を利用したシステムを恒常的に使用する専門のオペレータ以外では、上記のような煩雑な登録作業に時間を掛けることが無駄な場合も多くあり、エンロール機能自体が十分に活用されていない場合も多かった。その結果、エンロール機能を活用することなく音声認識処理を行うため、低い認識率で当該ソフトを使用することがあった。
そこで、本発明は、上記実情に鑑み、標準発話に対し発話差を有する非標準発話の音声であっても、高い認識率を維持して当該音声を音声認識することが可能な発話差音声認識システムの提供を課題とするものである。
上記の課題を解決するため、本発明の発話差音声認識システムは、「話者の音声を検出し、音声情報として取得する音声情報取得手段と、標準的な発音傾向に基づく標準発話を認識可能に形成され、前記音声に含まれると想定される複数の想定内語彙を予め登録し、構築された標準辞書、及び、非標準的な発音傾向に基づき、前記標準発話との間で発話差を有する非標準発話を認識可能に形成され、複数の想定外語彙を予め登録し、構築された拡張辞書をそれぞれ記憶する辞書群記憶手段と、前記音声情報及び前記標準辞書を利用して、前記音声を構成する複数の語彙を照合し、前記想定内語彙に合致する前記語彙を認識する標準照合手段と、前記標準照合手段によって未認識と判定された前記語彙を前記拡張辞書を利用して照合し、前記想定外語彙と合致する前記語彙を認識する拡張照合手段と、前記標準照合手段及び前記拡張照合手段の少なくとも一方によって認識された前記語彙を出力する語彙出力手段と」を具備して主に構成されている。
ここで、辞書群記憶手段に記憶される標準辞書は、標準語の発音傾向や発話に基づき想定される想定内語彙(上述の「シチ」等に相当)を予め登録し、構築されたものである。一方、拡張辞書は、想定内語彙に対する発話差を有した想定外語彙(「シチ」に対する「ヒチ」等)を予め登録し、構築したものである。ここで、標準辞書に対し、複数種類の拡張辞書を構築することが可能であり、地域差(東京下町、北海道、東北、及び関西等の各地域)や前述した性差や年代差に応じて種々のものを予め登録しておくことができる。
したがって、本発明の発話差音声認識システムによれば、取得した音声情報を始めに標準発話として認識するための標準辞書を利用し、音声情報の音声に含まれる語彙と合致する想定内語彙を照合しこれを認識する処理を行う。その後、想定内語彙との照合ができなかった語彙(未認識語彙)に対し、拡張辞書を利用し、拡張辞書に含まれる想定外語彙と照合しこれを認識する処理を行う。
これにより、標準辞書及び拡張辞書の二つの辞書を利用し、二段階で音声に含まれる語彙を音声認識する処理が行われる。これにより、訛り等の発話差を有する音声であっても高い認識率を維持することができる。なお、辞書群記憶手段に複数の拡張辞書が記憶されている場合には、話者の選択により、或いは話者が発した音声の発音傾向に応じて発話差音声認識システムが合致または類似する発話差を伴って記憶された拡張辞書を適宜抽出する処理を行うものであっても構わない。さらに、第一段階の照合処理として、標準辞書による照合を行うことにより、音声に含まれる大部分の語彙についての照合を完了した後、未認識語彙のみを拡張辞書によって照合するため、音声の認識処理を迅速かつ安定して行うことができる。そして、最終的に認識された語彙が文字情報等として出力することが行われる。なお、ハードディスク等の記憶手段に認識結果を記憶するものであっても構わない。
さらに、本発明の発話差音声認識システムは、上記構成に加え、「前記拡張照合手段によって前記想定外語彙に合致しないと判定された前記語彙の判定回数をカウントする回数カウント手段と、カウントされた前記判定回数が予め規定された規定回数を超過しているか否かを判定する回数判定手段と、前記回数判定手段に基づいて、前記規定回数からの超過を検出すると、前記語彙を前記想定語彙として前記拡張辞書に登録する拡張辞書登録手段と」を具備するものであっても構わない。
したがって、本発明の発話差音声認識システムによれば、拡張辞書を利用しても認識することができない未認識語彙が、話者によって繰り返し発せられ、これを照合した場合、当該未認識語彙を所定の条件に基づいて拡張辞書に登録する処理が実施される。すなわち、話者による音声の中で頻繁に登場し、かつ未認識とする処理が繰返された語彙をカウントし、所定の回数を超えた場合、想定外語彙として登録することが可能となる。この場合、標準辞書の想定内語彙との対応を定義する必要がある。これにより、次回から当該語彙を照合し、認識する場合、想定内語彙として認識され、文字情報等として出力することが可能となる。
本発明の効果として、取得された音声情報を、標準発話によって規定された標準辞書と、標準発話から逸脱した発話差を有する拡張辞書とを利用し、二段階の照合処理により音声認識を行うことが可能となる。これにより、訛り等を伴う発話差を伴う音声の認識率を向上させることができる。
以下、本発明の一実施形態である発話差音声認識システム1(以下、単に「認識システム1」と称す)について、図1乃至図4に基づいて説明する。ここで、図1は本実施形態の認識システム1の概略構成を示す説明図であり、図2は認識システム1による認識コンピュータ2の機能的構成を示すブロック図であり、図3及び図4は認識コンピュータ2による処理の流れを示すフローチャートである。
本実施形態の認識システム1は、図1乃至図4に示されるように、音声認識装置として機能する認識コンピュータ2によって主に構成されている。ここで、認識コンピュータ2は、図2に示すように、、市販のパーソナルコンピュータを利用して構成され、話者Sが発する音声Vを取得するマイク等の音声入力機器3と、各種データの入力及び操作を行うためのキーボード等の操作入力機器4と、認識結果を文章化して出力することが可能な出力画面5を有する液晶ディスプレイ6とがそれぞれコンピュータ本体7に接続されて構成されている。
また、コンピュータ本体7の内部には、音声Vを分析し、認識するための音響モデルSMを含む音声認識機能SR及び認識された音声Vを各種辞書(標準辞書SD、拡張辞書ED)を利用して音声Vに含まれる語彙の照合を行う語彙照合機能VCが構築され、各種機能を発揮することができるようになっている。さらに、コンピュータ本体7には、接続された各機器3,4,6等との信号を送受するためのインターフェイスや制御機構、インターネット等のネットワーク環境への接続を可能とする通信機能、及び対話型音声対話システム1として機能させるための音声対話システム用ソフトウェア(図示しない)を内蔵するハードディスク等の記憶手段18、認識システム用ソフトウェアに基づいて各種処理を行うためのCPUを含む演算処理部等を含んで構成されている。これらのパーソナルコンピュータの構成及び機能については、既に周知のものであるため、ここでは説明を省略する。
認識システム1に使用される認識コンピュータ2は、上記のハードウェアによって構築され、認識システム用ソフトウェアによって各機能を奏するように構成されている。認識コンピュータ2の機能的構成は、図2に示すように、話者Sが発声する音声Vを音声入力機器3を介して検出し、音声情報8として取得する音声情報取得手段9と、標準語の発音やアクセント等に起因する標準発話に基づいて規定され、話者Sの音声Vに含まれると想定される複数の想定内語彙V1を登録して構築された標準辞書SD、及び、標準語の発音やアクセント等と異なり、標準発話から発話差を有する非標準発話による複数の語彙(想定外語彙V2)を登録して構築された拡張辞書EDをそれぞれ記憶する辞書群記憶手段10と、音声情報取得手段9によって取得された音声情報8及び辞書群記憶手段10に記憶された標準辞書SDを利用して、音声Vに含まれる語彙を想定内語彙V1と照合し、当該想定内語彙V1に合致する語彙を認識する標準照合手段11と、標準照合手段11によって想定内語彙V1に合致しなかった語彙に対し、拡張辞書EDを利用して、当該語彙を想定外語彙V2と照合し、当該想定外語彙V2に合致する語彙を認識する拡張照合手段12と、標準照合手段11を単独で利用若しくは拡張照合手段12を併用して認識した音声Vに係る語彙を文字情報として液晶ディスプレイ6に出力する語彙出力手段13とを主に具備している。
さらに、本実施形態の認識システム1は、その他機能的構成として、拡張照合手段12による語彙の照合によっても、想定外語彙V2に合致しないものとして判定され、換言すると、標準照合手段11及び拡張照合手段12のいずれの手段によっても認識不能となった語彙に係る未認識語彙データ19を記憶手段18に記憶し、当該語彙の記憶された回数(判定回数C)をカウントし、記憶手段18にカウントデータ20として記憶する回数カウント手段14と、記憶手段18に規定データ21として予め記憶された規定回数Csとカウントされた判定回数Cを比較し、当該規定回数Csを超過しているか否かを判定する回数判定手段16と、回数判定手段16による判定に基づいて、判定回数Cが規定回数Csから超過していると判定されると、一時的に記憶した語彙を想定外語彙V2として拡張辞書EDに登録する拡張辞書登録手段17とをさらに具備している。なお、拡張辞書登録手段17に語彙を想定外語彙V2として登録する場合、当該語彙を認識可能なように音声情報8との対応が登録されることとなる。ここで、未認識語彙データ19、カウントデータ20、及び規定データ21は、記憶手段18の中の回数記憶手段15に記憶されている。
ここで、標準発話に基づく標準辞書SDは、話者Sが発する標準語の発音傾向、語彙、アクセント、及びイントネーション等を認識可能に形成されている。そのため、一般的な会話において交わされる音声の大部分については、標準辞書SDによる音声認識が可能なものである。一方、標準発話に対して発話差を有する訛り等を含む非標準発話に起因して構築された拡張語彙は、標準辞書によって認識することのできない語彙(想定外語彙V2)に限定して認識処理を行うものである。すなわち、本実施形態の認識システム1において、標準辞書SD及び拡張辞書EDの使用頻度は、当然のことながら標準辞書SDの方が通常は高い。
次に、本実施形態の認識システム1による発話差を有する音声の音声認識処理の一例について、図3及び図4に基づいて説明する。始めに、話者Sによって発せられる音声Vの検出を行う(ステップS1)。ここで、当該音声Vの検出は、発せられた音声Vによる音声信号をマイク等の音声入力機器3によって波形若しくは振動として検出されるか否かを検出するものである。話者Sによる音声Vが検出される場合(ステップS1においてYES)、音声信号を電気信号に変換し、音声情報8として取得する(ステップS2)。一方、音声入力機器3を介した音声Vの検出がなされない場合(ステップS1においてNO)、ステップS1の処理を継続し、話者Sから音声Vが発せられるまで待機する。
その後、取得した音声情報8を、辞書群記憶手段10に記憶された標準発話に起因して構築された標準辞書SDを利用して、音声Vを構成する複数の語彙を標準辞書SDに登録された複数の想定内語彙V1とそれぞれ照合する(ステップS3)。ここで、音声認識に係る語彙の照合及び認識処理は、周知の音声認識技術を利用することが可能である。ここで、音声Vに含まれる語彙が標準辞書SDの想定内語彙V1に合致し、かつ全ての音声Vの語彙の照合が完了した場合(ステップS4においてYES)、当該語彙を認識し、認識された結果を液晶ディスプレイ6の出力画面5に文字情報として出力する(ステップS5)。このとき、認識された結果は、記憶手段18に認識結果データ22として記憶される。これにより、音声Vの音声認識の結果が文字情報として出力され、話者S等に対して視覚を通じて認識することができるように提供される。
ここで、前述したように話者Sによる音声Vが地域差等の発話差を伴うものである場合、上記のように全ての音声Vに含まれる語彙が標準辞書SDによって照合され、認識されることは非常に少ない。すなわち、音声Vに含まれる一部の語彙(例えば、「ヒチ」)については、標準辞書SDの想定内語彙V1(「シチ」)との照合ができず、認識不能な語彙として識別されることがある。そこで、音声Vに含まれる語彙の一部または全部が標準辞書SDに登録された想定内語彙V1と合致しない場合(ステップS4においてNO)、想定内語彙V1と合致して認識された語彙を一時的に記憶手段18に記憶し(ステップS6)、さらに、当該語彙を標準発話との発話差を伴う語彙として登録された想定外語彙V2を含む拡張辞書EDを利用して照合する(ステップS7)。なお、ステップS4による処理において、全ての語彙が想定内語彙V1に合致しない場合、換言すれば、標準辞書SDによる照合及び認識処理によって一つの語彙も認識できなかった場合には、標準辞書SDによって認識された語彙が存在しないため、ステップS6の処理はキャンセルされ、ステップS7の処理に移行することとなる(破線参照)。
ここで、音声Vに含まれ、想定内語彙V1と合致しなかった残りの語彙(未認識語彙)が拡張辞書EDに登録された想定外語彙V2に合致し、かつ一時的に記憶された語彙を含めて音声Vを構成する全ての語彙の照合及び認識が完了した場合(ステップS8においてYES)、照合及び認識された全ての語彙を併せ、認識された結果を液晶ディスプレイ6の出力画面に文字情報として出力する(ステップS5)。
これにより、音声Vの音声認識の結果が文字情報として出力され、話者S等に対して視覚を通じて認識することができるように提供される。すなわち、話者Sの発した音声Vが標準辞書SD及び拡張辞書EDの最大で二種類の辞書を利用して照合及び認識され、文字情報等として出力することが可能となる。特に、標準語に基づいて構築された標準辞書SDを利用して最初の照合処理を行うことにより、音声Vを構成する語彙の大部分を認識することが一般的に可能となる。そして、認識されなかった未認識語彙のみを、別途拡張辞書EDを利用して照合する第二の照合処理を行うことにより、先の標準辞書SDによる照合結果と併せて、音声Vの全体を認識することが可能となる。
特に、拡張辞書EDには、訛りや方言等の標準辞書SDの想定内語彙V1では認識することのできない語彙(想定外語彙V2)が予め登録されているため、係る語彙を日常会話において使用する人々が発する音声Vの音声認識を良好なものとすることができる。なお、本実施形態の認識システム1では、標準辞書SD及び拡張辞書EDをそれぞれ一つずつ設けたものを示したが、発話差の傾向は複数のものが存在する可能性があり、一つに限定されるものではない。そのため、地域差や年代差等の各種発話差に応じて個々に拡張辞書EDを設け、辞書群記憶手段10に予め記憶したものを利用するものであっても構わない。この場合、音声Vの認識処理前に使用する拡張辞書EDを話者Sによって選択する指示を受付ける必要がある。
一方、標準辞書SDの想定内語彙V1に合致せず、かつ拡張辞書EDの想定外語彙V2に合致しない未認識語彙が音声Vの一部または全部に有する場合(ステップS8においてNO)、標準辞書SD及び拡張辞書EDによってそれぞれ認識された語彙のみを文字情報として出力画面5に出力する(ステップS9)。そして、いずれの辞書SD,EDによっても認識されなかった未認識語彙を特定し、未認識語彙データ19として記憶手段18に記憶する(ステップS10)。このとき、同一の未認識語彙データ19の記憶回数を記憶する。すなわち、当該語彙が未認識語彙が初めて記憶手段18に記憶された場合はカウント値を“1”とし、一方、既に未認識語彙データ19が記憶されている場合、当該カウント値に1をプラスした値を新たなカウント値とする処理をする(ステップS11)。ここで、カウントされたカウント値が判定回数Cに相当する。次に、カウントされ、カウント値で示される判定回数Cと、記憶手段18の回数記憶手段15にデータ化して記憶された規定回数Csを示す規定データ21とを対比し、カウントされた判定回数Cが規定回数Csから超過しているか否かを判定する(ステップS12)。ここで、例えば、規定回数Csが“5”として設定されている場合、カウント値で示される判定回数Cが5以上であるか否かの判定が行われる。
ここで、規定回数Csを判定回数Cが超過している場合(ステップS12においてYES)、該当する未認識語彙を想定外語彙V2として拡張辞書EDに登録する処理をする(ステップS13)。このとき、拡張辞書EDへの登録には、未認識語彙に対応する音声情報8が関連づけられて記憶される。これにより、想定外語彙V2に登録された語彙を含む音声Vが検出され、音声情報8として取得された場合には、拡張辞書EDを利用した照合及び認識により、当該語彙が想定外語彙V2として認識し、出力される。係る未認識語彙の登録処理を繰り返すことにより、拡張辞書EDによって認識可能な想定外語彙V2の数が増大し、拡張辞書EDを利用した場合の認識率がアップすることになる。すなわち、未認識語彙の登録による学習効果を享受することができる。一方、規定回数Csを判定回数Cが超過していない場合(ステップS12においてNO)、ステップS13の処理をキャンセルする。
その後、システム終了を指示する旨の入力の有無を検出し(ステップS14)、当該指示の入力が検出される場合(ステップS14においてYES)、システムを終了する(ステップS15)。一方、システム終了の指示の入力が検出されない場合(ステップS14においてNO)、ステップS1の処理に移行し、新たな音声Vの入力の検出処理を継続する。
以上、本発明について好適な実施形態を挙げて説明したが、本発明はこれらの実施形態に限定されるものではなく、以下に示すように、本発明の要旨を逸脱しない範囲において、種々の改良及び設計の変更が可能である。
すなわち、本実施形態の認識システム1において、一人の話者Sの音声Vを単独で認識するものを示したがこれに限定されるものではなく、複数の話者Sが会話を交わす会議形式の音声Vをそれぞれ認識するものであっても構わない。この場合、各話者Sの発した音声V毎に最適な拡張辞書EDを選定し、変更するものであっても構わない。
1 認識システム(発話差音声認識システム)
2 認識コンピュータ
3 音声入力機器
4 操作入力機器
5 出力画面
6 液晶ディスプレイ
7 コンピュータ本体
8 音声情報
9 音声情報取得手段
10 辞書群記憶手段
11 標準照合手段
12 拡張照合手段
13 語彙出力手段
14 回数カウント手段
15 回数記憶手段
16 回数判定手段
17 拡張辞書登録手段
18 記憶手段
C 判定回数
Cs 規定回数
ED 拡張辞書
S 話者
SD 標準辞書
V 音声
V1 想定内語彙
V2 想定外語彙
2 認識コンピュータ
3 音声入力機器
4 操作入力機器
5 出力画面
6 液晶ディスプレイ
7 コンピュータ本体
8 音声情報
9 音声情報取得手段
10 辞書群記憶手段
11 標準照合手段
12 拡張照合手段
13 語彙出力手段
14 回数カウント手段
15 回数記憶手段
16 回数判定手段
17 拡張辞書登録手段
18 記憶手段
C 判定回数
Cs 規定回数
ED 拡張辞書
S 話者
SD 標準辞書
V 音声
V1 想定内語彙
V2 想定外語彙
Claims (2)
- 話者の音声を検出し、音声情報として取得する音声情報取得手段と、
標準的な発音傾向に基づく標準発話を認識可能に形成され、前記音声に含まれると想定される複数の想定内語彙を登録し構築された標準辞書、及び、非標準的な発音傾向に基づき、前記標準発話との間で発話差を有する非標準発話を認識可能に形成され、複数の想定外語彙を登録し構築された拡張辞書をそれぞれ記憶する辞書群記憶手段と、
前記音声情報及び前記標準辞書を利用して、前記音声に含まれる語彙を照合し、前記想定内語彙に合致する前記語彙を認識する標準照合手段と、
前記標準照合手段によって前記想定内語彙に合致しない前記語彙を前記拡張辞書を利用して照合し、前記想定外語彙と合致する前記語彙を認識する拡張照合手段と、
前記標準照合手段及び前記拡張照合手段の少なくとも一方によって認識された前記語彙を出力する語彙出力手段と
を具備することを特徴とする発話差音声認識システム。 - 前記拡張照合手段によって前記想定外語彙に合致しないと判定された前記語彙の判定回数をカウントする回数カウント手段と、
カウントされた前記判定回数が予め規定された規定回数を超過しているか否かを判定する回数判定手段と、
前記回数判定手段に基づいて、前記規定回数からの超過を検出すると、前記語彙を前記想定外語彙として前記拡張辞書に登録する拡張辞書登録手段と
をさらに具備することを特徴とする請求項1に記載の発話差音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009044461A JP2010197859A (ja) | 2009-02-26 | 2009-02-26 | 発話差音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009044461A JP2010197859A (ja) | 2009-02-26 | 2009-02-26 | 発話差音声認識システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010197859A true JP2010197859A (ja) | 2010-09-09 |
Family
ID=42822617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009044461A Pending JP2010197859A (ja) | 2009-02-26 | 2009-02-26 | 発話差音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010197859A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920430A (zh) * | 2019-01-10 | 2019-06-21 | 上海言通网络科技有限公司 | 语音识别语义处理系统及其方法 |
CN111128186A (zh) * | 2019-12-30 | 2020-05-08 | 云知声智能科技股份有限公司 | 多音字标音方法及装置 |
US10650844B2 (en) | 2018-01-18 | 2020-05-12 | Wipro Limited | Method and response recommendation system for recommending a response for a voice-based user input |
WO2021075065A1 (ja) * | 2019-10-15 | 2021-04-22 | 菊一 西 | 音声入力機器 |
-
2009
- 2009-02-26 JP JP2009044461A patent/JP2010197859A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10650844B2 (en) | 2018-01-18 | 2020-05-12 | Wipro Limited | Method and response recommendation system for recommending a response for a voice-based user input |
CN109920430A (zh) * | 2019-01-10 | 2019-06-21 | 上海言通网络科技有限公司 | 语音识别语义处理系统及其方法 |
WO2021075065A1 (ja) * | 2019-10-15 | 2021-04-22 | 菊一 西 | 音声入力機器 |
CN111128186A (zh) * | 2019-12-30 | 2020-05-08 | 云知声智能科技股份有限公司 | 多音字标音方法及装置 |
CN111128186B (zh) * | 2019-12-30 | 2022-06-17 | 云知声智能科技股份有限公司 | 多音字标音方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4666648B2 (ja) | 音声応答システム、音声応答プログラム | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
EP1662482B1 (en) | Method for generic mnemonic spelling | |
US9202466B2 (en) | Spoken dialog system using prominence | |
US20090182559A1 (en) | Context sensitive multi-stage speech recognition | |
CN108431883B (zh) | 语言学习系统以及语言学习程序 | |
JP2001100781A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
JP2001101187A (ja) | 翻訳装置および翻訳方法、並びに記録媒体 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
US7653541B2 (en) | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
US11295733B2 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP2003186494A (ja) | 音声認識装置および方法、記録媒体、並びにプログラム | |
JP2010197644A (ja) | 音声認識システム | |
JP2010197859A (ja) | 発話差音声認識システム | |
US6963832B2 (en) | Meaning token dictionary for automatic speech recognition | |
JP2010197858A (ja) | 音声対話システム | |
JP2008145989A (ja) | 音声識別装置および音声識別方法 | |
JPH0261700A (ja) | 音声認識装置 | |
EP0987681B1 (en) | Speech recognition method and apparatus | |
JP2003162524A (ja) | 言語処理装置 | |
JPH1195793A (ja) | 音声入力解釈装置及び音声入力解釈方法 | |
JP6517417B1 (ja) | 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム | |
WO2014035437A1 (en) | Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction |