JP2015102805A

JP2015102805A - 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム

Info

Publication number: JP2015102805A
Application number: JP2013245005A
Authority: JP
Inventors: 三宅　隆; Takashi Miyake; 隆三宅
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2013-11-27
Filing date: 2013-11-27
Publication date: 2015-06-04

Abstract

【課題】句または文等の音声認識時間を短縮し、かつ誤認識を低減可能な「音声認識システム、音声認識方法および音声認識プログラム」を提供する。
【解決手段】音声認識システム１０は、音声認識端末１００と音声認識サーバー２００をと含む。音声認識端末１００は、音声入力部１１０で入力された音声データと、辞書格納部１２０に格納された辞書データとの比較に基づき音声データの認識を行う認識処理部１３０とを有する。音声認識サーバー２００は、音声データの形態素解析を行う形態素解析部２３０と、形態素解析された解析情報を送信する通信部２５０とを有する。認識処理部１３０は、解析情報に基づき音声データに固有名詞が含まれていると判定したとき、認識のための判定基準を厳しくする。
【選択図】図２

Description

本発明は、音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラムに関し、特に、音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを含む音声認識システムに関する。

携帯端末、車載装置等の電子装置のユーザー入力インターフェースとして音声認識システムが利用されている。典型的な音声認識システムでは、ユーザーが発話した内容と認識辞書に登録された辞書データとを比較し、入力音声の認識を行っている。多くの音声認識システムでは、認識率を高める一方で誤認識を減らすため、入力音声データに形態素解析を施したり、認識辞書に学習機能を持たせたり、あるいは外部のサーバーに蓄積された大容量の認識辞書を活用している。特許文献１ないし３は、音声認識端末においてユーザーからの入力音声の認識に失敗したときに、外部サーバーの認識辞書を利用する技術を開示している。

特開２０１２−８８３７０号公報特開２００９−２３７４３９号公報特開２００７−３３９０１号公報

上記したように、音声認識端末とサーバーとを組み合わせたハイブリット型の音声認識システムでは、音声認識端末によって認識することができない場合、サーバー側にアクセスしその認識結果を待たなければならないので時間がかかり、ユーザーへの応答時間が遅くなってしまう。そこで、ハイブリット型の音声認識システムでは、図１に示すようなフローによる音声認識が行われる。先ず、音声認識端末にユーザーからの音声が入力されると（Ｓ１００）、その音声データが音声認識端末の認識辞書と比較され、一定以上の信頼度があれば認識可能と判定される（Ｓ１０２）。認識可能と判定されると、認識結果の処理が実行される（Ｓ１１２）。他方、一定の信頼度に満たなければ認識不可と判定され、サーバーに音声認識のリクエストが成される（Ｓ１０４）。サーバーは、音声認識端末よりも大容量の認識辞書を備え、高機能な認識アルゴリズムを備えているのが一般である。サーバーにおいて認識可能か否かが判定され（Ｓ１０６）、認識可能と判定されれば、その認識結果と認識結果に該当する辞書データが音声認識端末に送信される（Ｓ１０８）。音声認識端末は、サーバーから送信された辞書データを認識辞書に追加登録し（Ｓ１１０）、かつ受け取った認識結果の処理を実行する。音声認識端末の認識辞書には、サーバーによる認識結果に該当する辞書データが追加登録されるので、もし、再び同一の音声入力があればサーバーにアクセスすることなく迅速に認識をすることが可能になる。このように、音声認識端末の認識辞書に学習機能を持たせ、サーバーへのアクセス頻度を低減させ、迅速な認識結果を得るようにしている。

音声認識端末の認識辞書には、辞書データとして多数の単語等のキーワードの音声特徴データが格納されている。また、句や文など長い音声フレーズが始めて入力され、音声認識端末によって認識できない場合には、サーバーによって認識された認識結果に該当する辞書データが音声認識端末の認識辞書に追加登録される。このため、ユーザーからの音声入力が単語等であれば音声認識端末において高い信頼度で認識され、さらに過去に既に入力された句や文などのフレーズであれば高い信頼度で認識される。

他方、ユーザーからフレーズが入力されたとき、フレーズに該当する辞書データが認識辞書に登録されていなければ、入力されたフレーズと認識辞書に登録されたフレーズに該当する辞書データとを比較し、両者の一致する割合から信頼度を求め、認識可能か否かが判定される。この場合、単語と比べて句や文のフレーズが長いという特徴だけで信頼度が高くなる傾向があり、認識辞書に登録されたフレーズと異なる地名を含むフレーズが音声入力されたとき、地名以外の部分が一致し、誤認識となってしまうことがある。

例えば、ユーザーが「京都を目的地に設定してくれないか」を音声入力し、この音声入力が音声認識端末によって認識できないと、それがサーバーによって認識され、その結果、音声認識端末の認識辞書には、「京都を目的地に設定してくれないか」のフレーズに該当する辞書データが追加登録される。

その後に、「京都を目的地に設定してくれないか」という音声入力があったとき、同一フレーズに該当する辞書データが既に認識辞書に登録されているので問題なく認識が行われるが、「大阪を目的地に設定してくれないか」のフレーズが音声入力されると、「大阪」以外のフレーズ（「を目的地に設定してくれないか」）が認識辞書に登録されているフレーズに該当する辞書データに一致し、全体の一致する割合が高くなり一定以上の信頼度があると判定してしまう。すなわち、地名が異なるにもかかわらず、「京都を目的地に設定してくれないか」と誤認識してしまう。これ以降も、新しい地名を含むフレーズがされると、同様の誤認識を生じさせてしまう。

本発明は、このような従来の課題を解決し、句または文等の音声認識時間を短縮し、かつ誤認識を低減可能な音声認識システム、音声認識方法および音声認識プログラムを提供することを目的とする。

本発明に係る音声認識システムは、音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有するものであって、前記電子装置は、音声データを入力する入力手段と、音声認識に必要な第１辞書データを格納する第１認識辞書格納手段と、前記音声データと前記第１辞書データとの比較に基づき前記音声データの認識を行う第１認識手段と、前記音声データを前記サーバーに送信する第１送信手段と、前記サーバーから形態素解析情報及び第２辞書データを受信する第１受信手段と、前記形態素解析情報及び第２辞書データを第１辞書データに登録する登録手段とを有し、前記サーバーは、前記第１送信手段により送信された前記音声データを受信する第２受信手段と、音声認識に必要な前記第２辞書データを格納する第２認識辞書格納手段と、前記音声データと前記第２辞書データとの比較に基づき、前記音声データの認識を行う第２認識手段と、前記第２認識手段の認識結果に対して形態素解析を行う形態素解析手段と、前記形態素解析情報及び前記第２認識手段の認識結果に該当する第２辞書データを前記電子装置へ送信する第２送信手段とを有し、前記第１認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する。

好ましくは前記第１認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定手段を含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする。好ましくは前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む。好ましくは前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む。好ましくは電子装置はさらに、前記第１認識手段による認識結果に基づき処理を実行する実行手段を含み、当該実行手段は、認識された１つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する。好ましくは前記第１送信手段は、前記第１認識手段によって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する。

本発明に係る電子装置は、音声認識機能及び形態素解析機能を備えたサーバーと通信可能なものであって、音声データを入力する入力手段と、音声認識に必要な第１辞書データを格納する第１認識辞書格納手段と、前記音声データと前記第１辞書データとの比較に基づき前記音声データの認識を行う第１認識手段と、前記音声データを前記サーバーに送信する第１送信手段と、前記サーバーから形態素解析情報及び第２辞書データを受信する第１受信手段と、前記形態素解析情報及び第２辞書データを第１辞書データに登録する登録手段とを有し、前記第１認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する。

本発明に係るサーバーは、音声認識機能及び形態素解析機能を備え、電子装置と通信可能なものであって、音声データを受信する第２受信手段と、音声認識に必要な前記第２辞書データを格納する第２認識辞書格納手段と、前記電子装置の要求を受け、前記音声データと前記第２辞書データとの比較に基づき、前記音声データの認識を行う第２認識手段と、前記第２認識手段の認識結果に対して形態素解析を行う形態素解析手段と、前記形態素解析情報及び前記第２認識手段の認識結果に該当する第２辞書データを前記電子装置へ送信する第２送信手段とを有し、前記形態素解析情報は、前記音声データに含まれる単語の名詞が固有名詞であるか否かの種別情報を含み、前記電子装置における音声認識の応答速度を向上させる。

本発明に係る音声認識方法は、音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムにおける方法であって、前記電子装置側において、音声データを入力する入力ステップと、音声認識に必要な第１辞書データを格納する第１認識辞書格納ステップと、前記音声データと前記第１辞書データとの比較に基づき前記音声データの認識を行う第１認識ステップと、前記音声データを前記サーバーに送信する第１送信ステップと、前記サーバーから形態素解析情報及び第２辞書データを受信する第１受信ステップと、前記形態素解析情報及び第２辞書データを第１辞書データに登録する登録ステップとを有し、前記サーバー側において、前記第１送信ステップにより送信された前記音声データを受信する第２受信ステップと、音声認識に必要な前記第２辞書データを格納する第２認識辞書格納ステップと、前記音声データと前記第２辞書データとの比較に基づき、前記音声データの認識を行う第２認識ステップと、前記第２認識ステップの認識結果に対して形態素解析を行う形態素解析ステップと、前記形態素解析情報及び前記第２認識ステップの認識結果に該当する第２辞書データを前記電子装置へ送信する第２送信ステップとを有し、前記第１認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する。

本発明に係る音声認識プログラムは、音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムにおいて、前記電子装置により実行され、音声データを入力する入力ステップと、音声認識に必要な第１辞書データを格納する第１認識辞書格納ステップと、前記音声データと前記第１辞書データとの比較に基づき前記音声データの認識を行う第１認識ステップと、前記音声データを前記サーバーに送信する第１送信ステップと、前記サーバーから形態素解析情報及び第２辞書データを受信する第１受信ステップと、前記形態素解析情報及び第２辞書データを第１辞書データに登録する登録ステップとを有し、前記第１認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する。

本発明によれば、音声データに固有名詞が含まれているとき認識のための判定基準を変更するようにしたので、固有名詞が含まれる音声入力の誤認識を低減させることができる。さらに、音声データを解析した解析情報を認識辞書に登録させることで、認識辞書に学習機能を与え、固有名詞を含む句や文の認識を正確にかつ迅速に行うことができる。

従来のハイブリット型の音声認識システムの動作を説明するフローチャートである。本発明の実施例に係る音声認識システムの基本構成を示す図である。本実施例の音声認識サーバーにおける形態素解析の一例を説明する図である。本発明の実施例に係る音声認識システムの基本動作を説明するフローチャートである。本実施例の音声認識端末の音声認識辞書格納部の構成例を示す図である。本実施例の音声認識端末における意図推定の例を説明する図である。

本発明に係る音声認識システムは、音声認識機能を備えた音声認識端末と、音声認識機能及び形態素解析機能を備えたサーバーあるいはセンターとを含んで構成される。ここで、音声認識端末は、音声認識機能を備えた電子装置であることができ、例えば、スマートフォン（多機能型携帯電話機）、ノート型ＰＣ、タブレット型ＰＣ、パーソナルコンピュータ、車載装置、ゲーム機器、ナビゲーション装置であることができる。音声認識機能は、ユーザーインターフェースの実行のために利用することができ、電子装置は、ユーザーが発話した音声を入力し、入力音声を電子的に認識し、認識結果に応じた処理を実行することが可能である。

一方、音声認識機能及び形態素解析機能を備えたサーバーまたはセンター（以下、総称して音声認識サーバーという）は、有線または無線によってピアツーピアによって音声認識端末に接続され、あるいはイントラネットワークやインターネットを介して音声認識端末に接続される。音声認識サーバーは、入力された音声データを音声認識するとともに、音声データあるいはその認識結果を形態素解析し、その解析結果を音声認識端末へ送信する。音声認識サーバーは、音声認識端末からの要求に応答して形態素解析を行うことも可能であるし、音声データを入力したことに応答して形態素解析を行うことも可能である。また音声認識サーバーは、複数のサーバーから構成されるものであってもよい。

次に、本発明の実施例に係る音声認識システムの基本構成を図２に示す。本実施例の音声認識システム１０は、音声認識端末１００と、音声認識サーバー２００とを含んで構成される。

音声認識端末１００は、マイクロフォンＭを介してユーザーが発話した音声に対応する音声データを入力する音声入力部１１０と、音声を認証するための音声特徴データを含む音声認識辞書データを格納した音声認識辞書格納部１２０と、音声入力部１１０から得られた音声データと音声認識辞書格納部１２０の音声特徴データとを比較し、比較結果に基づき音声の認識を行う認識処理部１３０と、認識処理部１３０等による認識結果に応じた処理を実行する処理実行部１４０と、音声認識端末１００において信頼度の高い認識ができないと判定されたとき、音声認識サーバー２００に対し認識処理を要求する認識要求部１５０と、音声認識サーバー２００との間で有線または無線による双方向のデータの送受を可能にする通信部１６０と、音声認識サーバー２００から受信した音声認識データや形態素解析の解析結果等を音声認識辞書格納部１２０に追加登録する登録部１７０を含んで構成される。

音声認識端末１００は、上記したように種々の機能を備えた電子装置の一部であることができる。例えば、電子装置がナビゲーション機能、テレビ／ラジオ放送受信機能、ＤＶＤ、ＣＤ、ブルーレイディスク等の再生機能などを備えるとき、その入力インターフェースとして動作し、その認識結果が電子装置によって実行され得る。また、音声認識端末１００は、それ自身が有するコントローラまたは電子装置が有するコントローラが実行するプログラムによって動作が制御され得る。

音声認識サーバー２００は、音声を認証するための音声特徴データを含む音声認識辞書データを格納した音声認識辞書格納部２１０と、音声認識端末１００から受け取った音声データの認識を行う認識処理部２２０と、音声データの形態素解析を行う形態素解析部２３０と、形態素解析に必要な辞書データを格納する形態素解析辞書解析部２４０と、通信部２５０とを有する。

形態素解析部２３０は、音声認識端末１００の認識要求部１５０からの認識要求を通信部２５０を介して受信したとき、あるいは他の態様として音声データが入力されたとき、形態素解析辞書格納部２４０より辞書データを読み出し、その音声データ、認識処理部２２０による認識結果に該当する音声データの形態素解析を行う。

形態素解析は、公知のように自然言語処理の一つであり、自然言語で書かれた句または文などのフレーズを形態素に分割し、辞書等を参照して形態素の品詞、原形、活用形などを解析する。図３に形態素解析の一例を示す。例えば、入力された句（フレーズ）が「佐藤さんに電話」であれば、「佐藤」、「さん」、「に」、「電話」の形態素が抽出され、形態素解析辞書格納部２４０を参照して、これらの品詞、品詞の種類、原形などの情報が取得される。図３の例では、「佐藤さんに電話」の句から助詞等を除いた単語である「佐藤」、「電話」がキーワード情報として抽出され、それぞれの単語には品詞の情報が関連付けされる。また、入力された文が「スカイツリーを見に行きたい」であれば、形態素解析によって「スカイツリー」、「見る」、「行く」の単語とこれらの品詞が抽出される。単語が動詞の場合、その原形となる。形態素解析辞書格納部２４０には、形態素解析部２３０が形態素解析を行うために必要な辞書データが格納されている。

本実施例における音声認識システム１０では、音声認識端末１００の処理実行部１４０は、受信した認識情報に基づき処理を実行する。また、登録部１７０は、受信した認識結果に該当する音声認識辞書データ及び解析情報を音声認識辞書格納部１２０に追加登録する。音声認識辞書格納部１２０に音声認識辞書データ及び解析情報が追加登録されるので、同様の句または文が再び入力されたときには、応答速度が速く誤認識の少ない結果をユーザーに提供することができる。

次に、本発明の実施例に係る音声認識システムの動作について図４のフローを参照して説明する。先ず、音声認識端末１００にユーザーからの音声が入力されると（Ｓ２００）、認識処理部１３０は、その音声データを音声認識辞書格納部１２０の音声認識辞書データと比較し、一定以上の信頼度があれば認識可能と判定する（Ｓ２０２）。認識処理部１３０は、音声データと音声認識辞書格納部１２０に登録された音声特徴データとを比較し、一致する割合または度合を算出する。音声認識端末１００の辞書には、記憶容量等の制限があるため単語等の音声特徴データが辞書データとして格納されている。但し、学習効果を高めるため、過去に音声認識サーバー２００によって認識処理された認識結果に該当する辞書データや形態素解析された解析結果等も適宜追加登録される。このため、音声入力が単語等であれば、音声特徴データ（辞書データ）との完全一致による認識が可能であるが、音声入力が句や文などの長いフレーズであれば、単語の部分一致の割合により認識可能か否かを判定することになる。

認識可能と判定されると、認識処理部１３０は、その音声データと比較した解析情報等に基づきその音声データに固有名詞が含まれるのか否かを判定する（Ｓ２０４）。解析情報は、過去に音声認識サーバー２００から受信した形態素解析による解析情報であり、登録部１７０により音声認識辞書格納部１２０に登録されたものである。解析情報が固有名詞であることを示す種別情報を含むのであれば、認識処理部１３０は、対象となる音声データに固有名詞が含まれていると判定する。但し、解析情報が固有名詞であることを示す種別情報を含まない場合であっても、認識処理部１３０は、品詞情報に基づき固有名詞を含むと判定することができる。

例えば、図３の例では、「佐藤さんに電話」は、「佐藤」という姓が含まれているが、名前が含まれていない。もし、形態素解析部２３０が、姓と名の双方を固有名詞の条件とするならば、「佐藤」は、人名または普通名詞となり得る。そこで、認識処理部１３０は、固有名詞であることを示す種別情報が含まれていない場合でも、人名が含まれていれば、固有名詞が含まれると判定してもよい。「アスカに電話」の場合にも、名前しか含まれていないが、認識処理部１３０は、名前だけでも固有名詞が含まれると判定してもよい。「スカイツリーを見に行きたい」の場合には、スカイツリーが固有名詞であるから、解析情報には固有名詞であることを示す種別情報が含まれ、認識処理部１３０は固有名詞が含まれると判定する。「京都近くの旅館を探して」は、京都が地名であり、形態素解析部２３０によって仮に京都が固有名詞でないと解析されたとしても、認識処理部１３０は、地名を固有名詞として判定することができる。最終的に固有名詞であるか否かは、認識処理部１３０によって設定することが可能であり、本実施例では、人名、地名、組織名を固有名詞であると判定する。

固有名詞が含まれていないと判定されると、処理実行部１４０により認識結果の処理が実行される（Ｓ２２０）。音声データに固有名詞が含まれると判定されると、認識処理部１３０は、判定基準を「高」に設定する（Ｓ２０６）。言い換えれば、判定基準が高いということは、入力された音声データと音声認識辞書格納部１２０の音声特徴データとの一致率が高くならなければ、一定の信頼度があるとみなされず認識できないと判定される。通常は、判定基準が「高」と設定されていないため、一致率がある程度あれば、信頼度があるとみなされ認識可能であると判定される。認識処理部１３０は、高く設定された判定基準により、再度、音声データが認識可能であるか否かを判定し（Ｓ２０８）、認識可能であると判定されると、処理実行部１４０により認識結果の処理が実行される（Ｓ２２０）。

このように音声入力に固有名詞が含まれていると判定されたときと、通常時とでは判定基準が異なる。音声データと音声特徴データとの一致が全体の音声データに占める割合を一致率αとする。両者が完全に一致すれば、一致率α＝１００％である。判定基準が「高」に設定された場合には、一致率α＞しきい値Ｈ１であれば、信頼度があるとみなして認定可能と判定する。これに対し、固有名詞が含まれていると判定されない場合には、判定基準が「高」と設定されないため、一致率α＞しきい値Ｈ２（Ｈ１＞Ｈ２）であれば、信頼度があるとみなして認識可能と判定する。つまり、音声入力に固有名称が含まれていると判定された場合には、一致率αが高くなければ認識されない。

例えば、従来技術の課題で説明したように、音声認識辞書格納部１２０に「京都を目的地に設定してくれないか」が既に登録されており、その後、「大阪を目的地に設定してくれないか」が音声入力されたとき、「大阪」以外のフレーズ（句）が辞書に登録されているフレーズに一致し、このときの一致率をα１とする。従来の音声認識であれば、α１＞Ｈ２となれば、信頼度があるとして認識可能と判定されていたのに対し、本実施例では、「大阪」の固有名詞が含まれているので、α１＞Ｈ１を満足しなければ認識されない。このように、地名だけが異なるような音声入力の場合、認識のための判定基準が相対的に高くなるため、誤認識が減少される。

他方、認識処理部１３０は、ステップＳ２０２またはＳ２０８において、判定基準に応じた一定の信頼度に満たなければ認識不可と判定し、音声認識端末１００の辞書を用いて認識することができないと判定した場合には、音声認識サーバー２００に音声認識のリクエストが成される（Ｓ２１０）。例えば、音声認識端末１００に、初めての文または句が音声入力されたような場合、音声認識辞書格納部１２０には、それに対応する句または文が登録されていない。さらに、そのような句または文に固有名詞が含まれていると判定された場合には、判定基準が高くなるため認識されない可能性が高くなる。

音声認識サーバー２００は、音声認識端末１００よりも大容量の音声認識辞書データを備え、高機能な認識アルゴリズムを備えているのが一般である。音声認識サーバー２００に送信された音声データは、認識処理部２２０により音声認識辞書格納部２１０に格納されている音声特徴データとを比較し、算出された一致する割合または度合に応じて、認識可能であるか否かが判定される（Ｓ２１２）。認識可能と判定されると、形態素解析部２３０は、認識処理部２２０の認識結果に基づき、その音声データについて形態素解析を行う（Ｓ２１４）。

形態素解析部２３０により得られる解析情報は、形態素解析によって解析された単語に関するフレーズ情報と当該単語の品詞情報とを含む。フレーズ情報は、例えば、単語の読み、単語の原形、単語の活用形を含むことができる。品詞情報は、名詞、動詞等の識別情報と、品詞が名詞である場合には固有名詞か否かを判別する種別情報が含まれる。種別情報は、例えば、名詞が、人名、地名、組織名等であるか否か、名詞が固有名詞であるか否か、あるいは名詞が普通名詞であるか否かを含むことができる。

音声認識サーバー２００は、形態素解析を終えると、認識処理による認識結果、認識結果に該当する音声認識辞書データ及び形態素解析による解析結果を、通信部２５０、１６０を介して音声認識端末１００に送信する（Ｓ２１６）。このとき、登録部１７０は、音声認識サーバー２００から受け取った音声認識辞書データと解析結果とを音声認識辞書格納部１２０へ追加登録する（２１８）。

図５は、音声認識辞書格納部１２０の内部構成を示す図である。音声認識辞書格納部１２０のＡは、単語等の音声特徴データが予め登録された領域であり、Ｂは、後から追加登録された解析情報の領域である。領域Ａには、単語の音声特徴データが格納されるが、その付加情報として単語の品詞情報が含まれるようにしてもよい。領域Ｂに格納される解析情報は、音声認識サーバー２００において文や句（あるいは必要に応じて単語も含んでもよい）などを形態素解析した情報であり、フレーズ情報Ｐ１、Ｐ２、〜Ｐｎおよび品詞情報Ｑ１、Ｑ２、〜Ｑｎを含む。フレーズ情報は、単語の読み、単語の原形、単語の活用形などを含み、品詞情報は、名詞、動詞等の識別情報と品詞が名詞である場合には固有名詞か否かを判別する種別情報とを含む。解析情報を追加登録することで、辞書格納部１２０に学習機能が与えられる。

処理実行部１４０は、認識処理部１３０、２２０によって認識された単語や解析情報を用いて意図推定を行う（Ｓ２２０）。意図推定は、予め用意されたアルゴリズムに従い、１つまたは複数の単語を組み合わせることでユーザーの入力意図を推定する。図６に、「京都近くの旅館を探して」の形態素解析結果と意図推定結果を示す。同図に示すように、形態素解析の結果から「京都」（名詞、地名）、「近く」（名詞）、「旅館」（名詞）、「探す」（動詞）のキーワードを含む解析情報が抽出される。この解析情報は、音声認識サーバー２００から提供されるか、音声認識辞書格納部１２０に格納されている。処理実行部１４０は、意図推定として、解析情報の中に「地名」、名詞として「旅館」または「ホテル」が含まれるとき、意図推定＝（地名：パラメータ１）近くのホテルを探す、を実行する。ここで、パラメータ１＝京都である。また、形態素解析された解析情報の中に「人名」と「電話」が含まれるとき、意図推定＝（人名：パラメータ１）に電話を掛ける、などの意図推定を行う。

処理実行部１４０は、意図推定に基づき処理を実行する。例えば、意図推定＝「京都近くの旅館を探す」であれば、そのサーチ結果をディスプレイに表示する。あるいは処理実行部１４０は、意図推定の結果を電子装置のコントローラに提供するようにしてもよい。

このように本実施例の音声認識システムによれば、入力音声に地名、人名、組織名などの固有名詞が含まれていると判定したとき、音声認識のための判定基準を通常よりも高くすることで、文や句など単語より長いフレーズの誤認識の発生率を減少させる一方で、音声認識辞書格納部に音声認識サーバーの解析結果を蓄積することで、同様の文や句が再び入力されたときには、応答速度が速く誤認識の小さい結果をユーザーに提供することができる。

上記実施例では、認識要求部により認識要求がなされた場合に、音声認識サーバーは、音声データを受け取り認識処理及び形態素解析を開始するが、これに限らず、音声認識サーバーは、マイクから入力される音声を音声認識端末と同時に受け取り認識処理及び形態素解析を開始してもよい。これにより、音声認識端末は、音声認識サーバーに認識要求をした際、すぐに認識結果等を得ることができる。

本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形・変更が可能である。

１０：音声認識システム１００：音声認識端末
１１０：音声入力部１２０：音声認識辞書格納部
１３０：認識処理部１４０：処理実行部
１５０：認識要求部１６０：通信部
１７０：登録部２００：音声認識サーバー
２１０：音声認識辞書格納部２２０：認識処理部
２３０：形態素解析部２４０：形態素解析辞書格納部
２５０：通信部

Claims

音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムであって、
前記電子装置は、
音声データを入力する入力手段と、
音声認識に必要な第１辞書データを格納する第１認識辞書格納手段と、
前記音声データと前記第１辞書データとの比較に基づき前記音声データの認識を行う第１認識手段と、
前記音声データを前記サーバーに送信する第１送信手段と、
前記サーバーから形態素解析情報及び第２辞書データを受信する第１受信手段と、
前記形態素解析情報及び第２辞書データを第１辞書データに登録する登録手段とを有し、
前記サーバーは、
前記第１送信手段により送信された前記音声データを受信する第２受信手段と、
音声認識に必要な前記第２辞書データを格納する第２認識辞書格納手段と、
前記音声データと前記第２辞書データとの比較に基づき、前記音声データの認識を行う第２認識手段と、
前記第２認識手段の認識結果に対して形態素解析を行う形態素解析手段と、
前記形態素解析情報及び前記第２認識手段の認識結果に該当する第２辞書データを前記電子装置へ送信する第２送信手段とを有し、
前記第１認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する、音声認識システム。
前記第１認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定手段を含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする、請求項１に記載の音声認識システム。
前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む、請求項１または２に記載の音声認識システム。
前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む、請求項３に記載の音声認識システム。
電子装置はさらに、前記第１認識手段による認識結果に基づき処理を実行する実行手段を含み、当該実行手段は、認識された１つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する、請求項１ないし４いずれか１つに記載の音声認識システム。
前記第１送信手段は、前記第１認識手段によって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する、請求項１ないし５いずれか１つに記載の音声認識システム。
音声認識機能及び形態素解析機能を備えたサーバーと通信可能な電子装置であって、
音声データを入力する入力手段と、
音声認識に必要な第１辞書データを格納する第１認識辞書格納手段と、
前記音声データと前記第１辞書データとの比較に基づき前記音声データの認識を行う第１認識手段と、
前記音声データを前記サーバーに送信する第１送信手段と、
前記サーバーから形態素解析情報及び第２辞書データを受信する第１受信手段と、
前記形態素解析情報及び第２辞書データを第１辞書データに登録する登録手段とを有し、
前記第１認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する、電子装置。
前記第１認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定手段を含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする、請求項７に記載の電子装置。
前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む、請求項７または８に記載の電子装置。
前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む、請求項９に記載の電子装置。
電子装置はさらに、前記第１認識手段による認識結果に基づき処理を実行する実行手段を含み、当該実行手段は、認識された１つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する、請求項７ないし１０いずれか１つに記載の電子装置。
前記第１送信手段は、前記第１認識手段によって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する、請求項７ないし１１いずれか１つに記載の電子装置。
音声認識機能及び形態素解析機能を備え、電子装置と通信可能なサーバーであって、
音声データを受信する第２受信手段と、
音声認識に必要な前記第２辞書データを格納する第２認識辞書格納手段と、
前記電子装置の要求を受け、前記音声データと前記第２辞書データとの比較に基づき、前記音声データの認識を行う第２認識手段と、
前記第２認識手段の認識結果に対して形態素解析を行う形態素解析手段と、
前記形態素解析情報及び前記第２認識手段の認識結果に該当する第２辞書データを前記電子装置へ送信する第２送信手段とを有し、
前記形態素解析情報は、前記音声データに含まれる単語の名詞が固有名詞であるか否かの種別情報を含み、前記電子装置における音声認識の応答速度を向上させる、サーバー。
音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムにおける音声認識方法であって、
前記電子装置側において、
音声データを入力する入力ステップと、
音声認識に必要な第１辞書データを格納する第１認識辞書格納ステップと、
前記音声データと前記第１辞書データとの比較に基づき前記音声データの認識を行う第１認識ステップと、
前記音声データを前記サーバーに送信する第１送信ステップと、
前記サーバーから形態素解析情報及び第２辞書データを受信する第１受信ステップと、
前記形態素解析情報及び第２辞書データを第１辞書データに登録する登録ステップとを有し、
前記サーバー側において、
前記第１送信ステップにより送信された前記音声データを受信する第２受信ステップと、
音声認識に必要な前記第２辞書データを格納する第２認識辞書格納ステップと、
前記音声データと前記第２辞書データとの比較に基づき、前記音声データの認識を行う第２認識ステップと、
前記第２認識ステップの認識結果に対して形態素解析を行う形態素解析ステップと、
前記形態素解析情報及び前記第２認識ステップの認識結果に該当する第２辞書データを前記電子装置へ送信する第２送信ステップとを有し、
前記第１認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する、音声認識方法。
前記第１認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定ステップを含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする、請求項１４に記載の音声認識方法。
前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む、請求項１４または１５に記載の音声認識方法。
前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む、請求項１６に記載の音声認識方法。
前記音声認識方法はさらに、前記電子装置側において、前記第１認識ステップによる認識結果に基づき処理を実行する実行ステップを含み、当該実行ステップは、認識された１つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する、請求項１４ないし１７いずれか１つに記載の音声認識方法。
前記第１送信ステップは、前記第１認識ステップによって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する、請求項１４ないし１８いずれか１つに記載の音声認識方法。
音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムにおいて、前記電子装置により実行される音声認識プログラムであって、
音声データを入力する入力ステップと、
音声認識に必要な第１辞書データを格納する第１認識辞書格納ステップと、
前記音声データと前記第１辞書データとの比較に基づき前記音声データの認識を行う第１認識ステップと、
前記音声データを前記サーバーに送信する第１送信ステップと、
前記サーバーから形態素解析情報及び第２辞書データを受信する第１受信ステップと、
前記形態素解析情報及び第２辞書データを第１辞書データに登録する登録ステップとを有し、
前記第１認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する、音声認識プログラム。
前記第１認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定ステップを含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする、請求項２０に記載の音声認識プログラム。
前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む、請求項２０または２１記載の音声認識プログラム。
前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む、請求項２２に記載の音声認識プログラム。
前記音声プログラムはさらに、前記第１認識ステップによる認識結果に基づき処理を実行する実行ステップを含み、当該実行ステップは、認識された１つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する、請求項２０ないし２３いずれか１つに記載の音声認識プログラム。
前記第１送信ステップは、前記第１認識ステップによって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する、請求項２０ないし２４いずれか１つに記載の音声認識プログラム。