JP2015102805A - 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム - Google Patents

音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JP2015102805A
JP2015102805A JP2013245005A JP2013245005A JP2015102805A JP 2015102805 A JP2015102805 A JP 2015102805A JP 2013245005 A JP2013245005 A JP 2013245005A JP 2013245005 A JP2013245005 A JP 2013245005A JP 2015102805 A JP2015102805 A JP 2015102805A
Authority
JP
Japan
Prior art keywords
recognition
speech
data
morphological analysis
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013245005A
Other languages
English (en)
Inventor
三宅 隆
Takashi Miyake
隆 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2013245005A priority Critical patent/JP2015102805A/ja
Publication of JP2015102805A publication Critical patent/JP2015102805A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 句または文等の音声認識時間を短縮し、かつ誤認識を低減可能な「音声認識システム、音声認識方法および音声認識プログラム」を提供する。
【解決手段】 音声認識システム10は、音声認識端末100と音声認識サーバー200をと含む。音声認識端末100は、音声入力部110で入力された音声データと、辞書格納部120に格納された辞書データとの比較に基づき音声データの認識を行う認識処理部130とを有する。音声認識サーバー200は、音声データの形態素解析を行う形態素解析部230と、形態素解析された解析情報を送信する通信部250とを有する。認識処理部130は、解析情報に基づき音声データに固有名詞が含まれていると判定したとき、認識のための判定基準を厳しくする。
【選択図】 図2

Description

本発明は、音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラムに関し、特に、音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを含む音声認識システムに関する。
携帯端末、車載装置等の電子装置のユーザー入力インターフェースとして音声認識システムが利用されている。典型的な音声認識システムでは、ユーザーが発話した内容と認識辞書に登録された辞書データとを比較し、入力音声の認識を行っている。多くの音声認識システムでは、認識率を高める一方で誤認識を減らすため、入力音声データに形態素解析を施したり、認識辞書に学習機能を持たせたり、あるいは外部のサーバーに蓄積された大容量の認識辞書を活用している。特許文献1ないし3は、音声認識端末においてユーザーからの入力音声の認識に失敗したときに、外部サーバーの認識辞書を利用する技術を開示している。
特開2012−88370号公報 特開2009−237439号公報 特開2007−33901号公報
上記したように、音声認識端末とサーバーとを組み合わせたハイブリット型の音声認識システムでは、音声認識端末によって認識することができない場合、サーバー側にアクセスしその認識結果を待たなければならないので時間がかかり、ユーザーへの応答時間が遅くなってしまう。そこで、ハイブリット型の音声認識システムでは、図1に示すようなフローによる音声認識が行われる。先ず、音声認識端末にユーザーからの音声が入力されると(S100)、その音声データが音声認識端末の認識辞書と比較され、一定以上の信頼度があれば認識可能と判定される(S102)。認識可能と判定されると、認識結果の処理が実行される(S112)。他方、一定の信頼度に満たなければ認識不可と判定され、サーバーに音声認識のリクエストが成される(S104)。サーバーは、音声認識端末よりも大容量の認識辞書を備え、高機能な認識アルゴリズムを備えているのが一般である。サーバーにおいて認識可能か否かが判定され(S106)、認識可能と判定されれば、その認識結果と認識結果に該当する辞書データが音声認識端末に送信される(S108)。音声認識端末は、サーバーから送信された辞書データを認識辞書に追加登録し(S110)、かつ受け取った認識結果の処理を実行する。音声認識端末の認識辞書には、サーバーによる認識結果に該当する辞書データが追加登録されるので、もし、再び同一の音声入力があればサーバーにアクセスすることなく迅速に認識をすることが可能になる。このように、音声認識端末の認識辞書に学習機能を持たせ、サーバーへのアクセス頻度を低減させ、迅速な認識結果を得るようにしている。
音声認識端末の認識辞書には、辞書データとして多数の単語等のキーワードの音声特徴データが格納されている。また、句や文など長い音声フレーズが始めて入力され、音声認識端末によって認識できない場合には、サーバーによって認識された認識結果に該当する辞書データが音声認識端末の認識辞書に追加登録される。このため、ユーザーからの音声入力が単語等であれば音声認識端末において高い信頼度で認識され、さらに過去に既に入力された句や文などのフレーズであれば高い信頼度で認識される。
他方、ユーザーからフレーズが入力されたとき、フレーズに該当する辞書データが認識辞書に登録されていなければ、入力されたフレーズと認識辞書に登録されたフレーズに該当する辞書データとを比較し、両者の一致する割合から信頼度を求め、認識可能か否かが判定される。この場合、単語と比べて句や文のフレーズが長いという特徴だけで信頼度が高くなる傾向があり、認識辞書に登録されたフレーズと異なる地名を含むフレーズが音声入力されたとき、地名以外の部分が一致し、誤認識となってしまうことがある。
例えば、ユーザーが「京都を目的地に設定してくれないか」を音声入力し、この音声入力が音声認識端末によって認識できないと、それがサーバーによって認識され、その結果、音声認識端末の認識辞書には、「京都を目的地に設定してくれないか」のフレーズに該当する辞書データが追加登録される。
その後に、「京都を目的地に設定してくれないか」という音声入力があったとき、同一フレーズに該当する辞書データが既に認識辞書に登録されているので問題なく認識が行われるが、「大阪を目的地に設定してくれないか」のフレーズが音声入力されると、「大阪」以外のフレーズ(「を目的地に設定してくれないか」)が認識辞書に登録されているフレーズに該当する辞書データに一致し、全体の一致する割合が高くなり一定以上の信頼度があると判定してしまう。すなわち、地名が異なるにもかかわらず、「京都を目的地に設定してくれないか」と誤認識してしまう。これ以降も、新しい地名を含むフレーズがされると、同様の誤認識を生じさせてしまう。
本発明は、このような従来の課題を解決し、句または文等の音声認識時間を短縮し、かつ誤認識を低減可能な音声認識システム、音声認識方法および音声認識プログラムを提供することを目的とする。
本発明に係る音声認識システムは、音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有するものであって、前記電子装置は、音声データを入力する入力手段と、音声認識に必要な第1辞書データを格納する第1認識辞書格納手段と、前記音声データと前記第1辞書データとの比較に基づき前記音声データの認識を行う第1認識手段と、前記音声データを前記サーバーに送信する第1送信手段と、前記サーバーから形態素解析情報及び第2辞書データを受信する第1受信手段と、前記形態素解析情報及び第2辞書データを第1辞書データに登録する登録手段とを有し、前記サーバーは、前記第1送信手段により送信された前記音声データを受信する第2受信手段と、音声認識に必要な前記第2辞書データを格納する第2認識辞書格納手段と、前記音声データと前記第2辞書データとの比較に基づき、前記音声データの認識を行う第2認識手段と、前記第2認識手段の認識結果に対して形態素解析を行う形態素解析手段と、前記形態素解析情報及び前記第2認識手段の認識結果に該当する第2辞書データを前記電子装置へ送信する第2送信手段とを有し、前記第1認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する。
好ましくは前記第1認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定手段を含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする。好ましくは前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む。好ましくは前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む。好ましくは電子装置はさらに、前記第1認識手段による認識結果に基づき処理を実行する実行手段を含み、当該実行手段は、認識された1つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する。好ましくは前記第1送信手段は、前記第1認識手段によって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する。
本発明に係る電子装置は、音声認識機能及び形態素解析機能を備えたサーバーと通信可能なものであって、音声データを入力する入力手段と、音声認識に必要な第1辞書データを格納する第1認識辞書格納手段と、前記音声データと前記第1辞書データとの比較に基づき前記音声データの認識を行う第1認識手段と、前記音声データを前記サーバーに送信する第1送信手段と、前記サーバーから形態素解析情報及び第2辞書データを受信する第1受信手段と、前記形態素解析情報及び第2辞書データを第1辞書データに登録する登録手段とを有し、前記第1認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する。
本発明に係るサーバーは、音声認識機能及び形態素解析機能を備え、電子装置と通信可能なものであって、音声データを受信する第2受信手段と、音声認識に必要な前記第2辞書データを格納する第2認識辞書格納手段と、前記電子装置の要求を受け、前記音声データと前記第2辞書データとの比較に基づき、前記音声データの認識を行う第2認識手段と、前記第2認識手段の認識結果に対して形態素解析を行う形態素解析手段と、前記形態素解析情報及び前記第2認識手段の認識結果に該当する第2辞書データを前記電子装置へ送信する第2送信手段とを有し、前記形態素解析情報は、前記音声データに含まれる単語の名詞が固有名詞であるか否かの種別情報を含み、前記電子装置における音声認識の応答速度を向上させる。
本発明に係る音声認識方法は、音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムにおける方法であって、前記電子装置側において、音声データを入力する入力ステップと、音声認識に必要な第1辞書データを格納する第1認識辞書格納ステップと、前記音声データと前記第1辞書データとの比較に基づき前記音声データの認識を行う第1認識ステップと、前記音声データを前記サーバーに送信する第1送信ステップと、前記サーバーから形態素解析情報及び第2辞書データを受信する第1受信ステップと、前記形態素解析情報及び第2辞書データを第1辞書データに登録する登録ステップとを有し、前記サーバー側において、前記第1送信ステップにより送信された前記音声データを受信する第2受信ステップと、音声認識に必要な前記第2辞書データを格納する第2認識辞書格納ステップと、前記音声データと前記第2辞書データとの比較に基づき、前記音声データの認識を行う第2認識ステップと、前記第2認識ステップの認識結果に対して形態素解析を行う形態素解析ステップと、前記形態素解析情報及び前記第2認識ステップの認識結果に該当する第2辞書データを前記電子装置へ送信する第2送信ステップとを有し、前記第1認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する。
本発明に係る音声認識プログラムは、音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムにおいて、前記電子装置により実行され、音声データを入力する入力ステップと、音声認識に必要な第1辞書データを格納する第1認識辞書格納ステップと、前記音声データと前記第1辞書データとの比較に基づき前記音声データの認識を行う第1認識ステップと、前記音声データを前記サーバーに送信する第1送信ステップと、前記サーバーから形態素解析情報及び第2辞書データを受信する第1受信ステップと、前記形態素解析情報及び第2辞書データを第1辞書データに登録する登録ステップとを有し、前記第1認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する。
本発明によれば、音声データに固有名詞が含まれているとき認識のための判定基準を変更するようにしたので、固有名詞が含まれる音声入力の誤認識を低減させることができる。さらに、音声データを解析した解析情報を認識辞書に登録させることで、認識辞書に学習機能を与え、固有名詞を含む句や文の認識を正確にかつ迅速に行うことができる。
従来のハイブリット型の音声認識システムの動作を説明するフローチャートである。 本発明の実施例に係る音声認識システムの基本構成を示す図である。 本実施例の音声認識サーバーにおける形態素解析の一例を説明する図である。 本発明の実施例に係る音声認識システムの基本動作を説明するフローチャートである。 本実施例の音声認識端末の音声認識辞書格納部の構成例を示す図である。 本実施例の音声認識端末における意図推定の例を説明する図である。
本発明に係る音声認識システムは、音声認識機能を備えた音声認識端末と、音声認識機能及び形態素解析機能を備えたサーバーあるいはセンターとを含んで構成される。ここで、音声認識端末は、音声認識機能を備えた電子装置であることができ、例えば、スマートフォン(多機能型携帯電話機)、ノート型PC、タブレット型PC、パーソナルコンピュータ、車載装置、ゲーム機器、ナビゲーション装置であることができる。音声認識機能は、ユーザーインターフェースの実行のために利用することができ、電子装置は、ユーザーが発話した音声を入力し、入力音声を電子的に認識し、認識結果に応じた処理を実行することが可能である。
一方、音声認識機能及び形態素解析機能を備えたサーバーまたはセンター(以下、総称して音声認識サーバーという)は、有線または無線によってピアツーピアによって音声認識端末に接続され、あるいはイントラネットワークやインターネットを介して音声認識端末に接続される。音声認識サーバーは、入力された音声データを音声認識するとともに、音声データあるいはその認識結果を形態素解析し、その解析結果を音声認識端末へ送信する。音声認識サーバーは、音声認識端末からの要求に応答して形態素解析を行うことも可能であるし、音声データを入力したことに応答して形態素解析を行うことも可能である。また音声認識サーバーは、複数のサーバーから構成されるものであってもよい。
次に、本発明の実施例に係る音声認識システムの基本構成を図2に示す。本実施例の音声認識システム10は、音声認識端末100と、音声認識サーバー200とを含んで構成される。
音声認識端末100は、マイクロフォンMを介してユーザーが発話した音声に対応する音声データを入力する音声入力部110と、音声を認証するための音声特徴データを含む音声認識辞書データを格納した音声認識辞書格納部120と、音声入力部110から得られた音声データと音声認識辞書格納部120の音声特徴データとを比較し、比較結果に基づき音声の認識を行う認識処理部130と、認識処理部130等による認識結果に応じた処理を実行する処理実行部140と、音声認識端末100において信頼度の高い認識ができないと判定されたとき、音声認識サーバー200に対し認識処理を要求する認識要求部150と、音声認識サーバー200との間で有線または無線による双方向のデータの送受を可能にする通信部160と、音声認識サーバー200から受信した音声認識データや形態素解析の解析結果等を音声認識辞書格納部120に追加登録する登録部170を含んで構成される。
音声認識端末100は、上記したように種々の機能を備えた電子装置の一部であることができる。例えば、電子装置がナビゲーション機能、テレビ/ラジオ放送受信機能、DVD、CD、ブルーレイディスク等の再生機能などを備えるとき、その入力インターフェースとして動作し、その認識結果が電子装置によって実行され得る。また、音声認識端末100は、それ自身が有するコントローラまたは電子装置が有するコントローラが実行するプログラムによって動作が制御され得る。
音声認識サーバー200は、音声を認証するための音声特徴データを含む音声認識辞書データを格納した音声認識辞書格納部210と、音声認識端末100から受け取った音声データの認識を行う認識処理部220と、音声データの形態素解析を行う形態素解析部230と、形態素解析に必要な辞書データを格納する形態素解析辞書解析部240と、通信部250とを有する。
形態素解析部230は、音声認識端末100の認識要求部150からの認識要求を通信部250を介して受信したとき、あるいは他の態様として音声データが入力されたとき、形態素解析辞書格納部240より辞書データを読み出し、その音声データ、認識処理部220による認識結果に該当する音声データの形態素解析を行う。
形態素解析は、公知のように自然言語処理の一つであり、自然言語で書かれた句または文などのフレーズを形態素に分割し、辞書等を参照して形態素の品詞、原形、活用形などを解析する。図3に形態素解析の一例を示す。例えば、入力された句(フレーズ)が「佐藤さんに電話」であれば、「佐藤」、「さん」、「に」、「電話」の形態素が抽出され、形態素解析辞書格納部240を参照して、これらの品詞、品詞の種類、原形などの情報が取得される。図3の例では、「佐藤さんに電話」の句から助詞等を除いた単語である「佐藤」、「電話」がキーワード情報として抽出され、それぞれの単語には品詞の情報が関連付けされる。また、入力された文が「スカイツリーを見に行きたい」であれば、形態素解析によって「スカイツリー」、「見る」、「行く」の単語とこれらの品詞が抽出される。単語が動詞の場合、その原形となる。形態素解析辞書格納部240には、形態素解析部230が形態素解析を行うために必要な辞書データが格納されている。
本実施例における音声認識システム10では、音声認識端末100の処理実行部140は、受信した認識情報に基づき処理を実行する。また、登録部170は、受信した認識結果に該当する音声認識辞書データ及び解析情報を音声認識辞書格納部120に追加登録する。音声認識辞書格納部120に音声認識辞書データ及び解析情報が追加登録されるので、同様の句または文が再び入力されたときには、応答速度が速く誤認識の少ない結果をユーザーに提供することができる。
次に、本発明の実施例に係る音声認識システムの動作について図4のフローを参照して説明する。先ず、音声認識端末100にユーザーからの音声が入力されると(S200)、認識処理部130は、その音声データを音声認識辞書格納部120の音声認識辞書データと比較し、一定以上の信頼度があれば認識可能と判定する(S202)。認識処理部130は、音声データと音声認識辞書格納部120に登録された音声特徴データとを比較し、一致する割合または度合を算出する。音声認識端末100の辞書には、記憶容量等の制限があるため単語等の音声特徴データが辞書データとして格納されている。但し、学習効果を高めるため、過去に音声認識サーバー200によって認識処理された認識結果に該当する辞書データや形態素解析された解析結果等も適宜追加登録される。このため、音声入力が単語等であれば、音声特徴データ(辞書データ)との完全一致による認識が可能であるが、音声入力が句や文などの長いフレーズであれば、単語の部分一致の割合により認識可能か否かを判定することになる。
認識可能と判定されると、認識処理部130は、その音声データと比較した解析情報等に基づきその音声データに固有名詞が含まれるのか否かを判定する(S204)。解析情報は、過去に音声認識サーバー200から受信した形態素解析による解析情報であり、登録部170により音声認識辞書格納部120に登録されたものである。解析情報が固有名詞であることを示す種別情報を含むのであれば、認識処理部130は、対象となる音声データに固有名詞が含まれていると判定する。但し、解析情報が固有名詞であることを示す種別情報を含まない場合であっても、認識処理部130は、品詞情報に基づき固有名詞を含むと判定することができる。
例えば、図3の例では、「佐藤さんに電話」は、「佐藤」という姓が含まれているが、名前が含まれていない。もし、形態素解析部230が、姓と名の双方を固有名詞の条件とするならば、「佐藤」は、人名または普通名詞となり得る。そこで、認識処理部130は、固有名詞であることを示す種別情報が含まれていない場合でも、人名が含まれていれば、固有名詞が含まれると判定してもよい。「アスカに電話」の場合にも、名前しか含まれていないが、認識処理部130は、名前だけでも固有名詞が含まれると判定してもよい。「スカイツリーを見に行きたい」の場合には、スカイツリーが固有名詞であるから、解析情報には固有名詞であることを示す種別情報が含まれ、認識処理部130は固有名詞が含まれると判定する。「京都近くの旅館を探して」は、京都が地名であり、形態素解析部230によって仮に京都が固有名詞でないと解析されたとしても、認識処理部130は、地名を固有名詞として判定することができる。最終的に固有名詞であるか否かは、認識処理部130によって設定することが可能であり、本実施例では、人名、地名、組織名を固有名詞であると判定する。
固有名詞が含まれていないと判定されると、処理実行部140により認識結果の処理が実行される(S220)。音声データに固有名詞が含まれると判定されると、認識処理部130は、判定基準を「高」に設定する(S206)。言い換えれば、判定基準が高いということは、入力された音声データと音声認識辞書格納部120の音声特徴データとの一致率が高くならなければ、一定の信頼度があるとみなされず認識できないと判定される。通常は、判定基準が「高」と設定されていないため、一致率がある程度あれば、信頼度があるとみなされ認識可能であると判定される。認識処理部130は、高く設定された判定基準により、再度、音声データが認識可能であるか否かを判定し(S208)、認識可能であると判定されると、処理実行部140により認識結果の処理が実行される(S220)。
このように音声入力に固有名詞が含まれていると判定されたときと、通常時とでは判定基準が異なる。音声データと音声特徴データとの一致が全体の音声データに占める割合を一致率αとする。両者が完全に一致すれば、一致率α=100%である。判定基準が「高」に設定された場合には、一致率α>しきい値H1であれば、信頼度があるとみなして認定可能と判定する。これに対し、固有名詞が含まれていると判定されない場合には、判定基準が「高」と設定されないため、一致率α>しきい値H2(H1>H2)であれば、信頼度があるとみなして認識可能と判定する。つまり、音声入力に固有名称が含まれていると判定された場合には、一致率αが高くなければ認識されない。
例えば、従来技術の課題で説明したように、音声認識辞書格納部120に「京都を目的地に設定してくれないか」が既に登録されており、その後、「大阪を目的地に設定してくれないか」が音声入力されたとき、「大阪」以外のフレーズ(句)が辞書に登録されているフレーズに一致し、このときの一致率をα1とする。従来の音声認識であれば、α1>H2となれば、信頼度があるとして認識可能と判定されていたのに対し、本実施例では、「大阪」の固有名詞が含まれているので、α1>H1を満足しなければ認識されない。このように、地名だけが異なるような音声入力の場合、認識のための判定基準が相対的に高くなるため、誤認識が減少される。
他方、認識処理部130は、ステップS202またはS208において、判定基準に応じた一定の信頼度に満たなければ認識不可と判定し、音声認識端末100の辞書を用いて認識することができないと判定した場合には、音声認識サーバー200に音声認識のリクエストが成される(S210)。例えば、音声認識端末100に、初めての文または句が音声入力されたような場合、音声認識辞書格納部120には、それに対応する句または文が登録されていない。さらに、そのような句または文に固有名詞が含まれていると判定された場合には、判定基準が高くなるため認識されない可能性が高くなる。
音声認識サーバー200は、音声認識端末100よりも大容量の音声認識辞書データを備え、高機能な認識アルゴリズムを備えているのが一般である。音声認識サーバー200に送信された音声データは、認識処理部220により音声認識辞書格納部210に格納されている音声特徴データとを比較し、算出された一致する割合または度合に応じて、認識可能であるか否かが判定される(S212)。認識可能と判定されると、形態素解析部230は、認識処理部220の認識結果に基づき、その音声データについて形態素解析を行う(S214)。
形態素解析部230により得られる解析情報は、形態素解析によって解析された単語に関するフレーズ情報と当該単語の品詞情報とを含む。フレーズ情報は、例えば、単語の読み、単語の原形、単語の活用形を含むことができる。品詞情報は、名詞、動詞等の識別情報と、品詞が名詞である場合には固有名詞か否かを判別する種別情報が含まれる。種別情報は、例えば、名詞が、人名、地名、組織名等であるか否か、名詞が固有名詞であるか否か、あるいは名詞が普通名詞であるか否かを含むことができる。
音声認識サーバー200は、形態素解析を終えると、認識処理による認識結果、認識結果に該当する音声認識辞書データ及び形態素解析による解析結果を、通信部250、160を介して音声認識端末100に送信する(S216)。このとき、登録部170は、音声認識サーバー200から受け取った音声認識辞書データと解析結果とを音声認識辞書格納部120へ追加登録する(218)。
図5は、音声認識辞書格納部120の内部構成を示す図である。音声認識辞書格納部120のAは、単語等の音声特徴データが予め登録された領域であり、Bは、後から追加登録された解析情報の領域である。領域Aには、単語の音声特徴データが格納されるが、その付加情報として単語の品詞情報が含まれるようにしてもよい。領域Bに格納される解析情報は、音声認識サーバー200において文や句(あるいは必要に応じて単語も含んでもよい)などを形態素解析した情報であり、フレーズ情報P1、P2、〜Pnおよび品詞情報Q1、Q2、〜Qnを含む。フレーズ情報は、単語の読み、単語の原形、単語の活用形などを含み、品詞情報は、名詞、動詞等の識別情報と品詞が名詞である場合には固有名詞か否かを判別する種別情報とを含む。解析情報を追加登録することで、辞書格納部120に学習機能が与えられる。
処理実行部140は、認識処理部130、220によって認識された単語や解析情報を用いて意図推定を行う(S220)。意図推定は、予め用意されたアルゴリズムに従い、1つまたは複数の単語を組み合わせることでユーザーの入力意図を推定する。図6に、「京都近くの旅館を探して」の形態素解析結果と意図推定結果を示す。同図に示すように、形態素解析の結果から「京都」(名詞、地名)、「近く」(名詞)、「旅館」(名詞)、「探す」(動詞)のキーワードを含む解析情報が抽出される。この解析情報は、音声認識サーバー200から提供されるか、音声認識辞書格納部120に格納されている。処理実行部140は、意図推定として、解析情報の中に「地名」、名詞として「旅館」または「ホテル」が含まれるとき、意図推定=(地名:パラメータ1)近くのホテルを探す、を実行する。ここで、パラメータ1=京都である。また、形態素解析された解析情報の中に「人名」と「電話」が含まれるとき、意図推定=(人名:パラメータ1)に電話を掛ける、などの意図推定を行う。
処理実行部140は、意図推定に基づき処理を実行する。例えば、意図推定=「京都近くの旅館を探す」であれば、そのサーチ結果をディスプレイに表示する。あるいは処理実行部140は、意図推定の結果を電子装置のコントローラに提供するようにしてもよい。
このように本実施例の音声認識システムによれば、入力音声に地名、人名、組織名などの固有名詞が含まれていると判定したとき、音声認識のための判定基準を通常よりも高くすることで、文や句など単語より長いフレーズの誤認識の発生率を減少させる一方で、音声認識辞書格納部に音声認識サーバーの解析結果を蓄積することで、同様の文や句が再び入力されたときには、応答速度が速く誤認識の小さい結果をユーザーに提供することができる。
上記実施例では、認識要求部により認識要求がなされた場合に、音声認識サーバーは、音声データを受け取り認識処理及び形態素解析を開始するが、これに限らず、音声認識サーバーは、マイクから入力される音声を音声認識端末と同時に受け取り認識処理及び形態素解析を開始してもよい。これにより、音声認識端末は、音声認識サーバーに認識要求をした際、すぐに認識結果等を得ることができる。
本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形・変更が可能である。
10:音声認識システム 100:音声認識端末
110:音声入力部 120:音声認識辞書格納部
130:認識処理部 140:処理実行部
150:認識要求部 160:通信部
170:登録部 200:音声認識サーバー
210:音声認識辞書格納部 220:認識処理部
230:形態素解析部 240:形態素解析辞書格納部
250:通信部

Claims (25)

  1. 音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムであって、
    前記電子装置は、
    音声データを入力する入力手段と、
    音声認識に必要な第1辞書データを格納する第1認識辞書格納手段と、
    前記音声データと前記第1辞書データとの比較に基づき前記音声データの認識を行う第1認識手段と、
    前記音声データを前記サーバーに送信する第1送信手段と、
    前記サーバーから形態素解析情報及び第2辞書データを受信する第1受信手段と、
    前記形態素解析情報及び第2辞書データを第1辞書データに登録する登録手段とを有し、
    前記サーバーは、
    前記第1送信手段により送信された前記音声データを受信する第2受信手段と、
    音声認識に必要な前記第2辞書データを格納する第2認識辞書格納手段と、
    前記音声データと前記第2辞書データとの比較に基づき、前記音声データの認識を行う第2認識手段と、
    前記第2認識手段の認識結果に対して形態素解析を行う形態素解析手段と、
    前記形態素解析情報及び前記第2認識手段の認識結果に該当する第2辞書データを前記電子装置へ送信する第2送信手段とを有し、
    前記第1認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する、音声認識システム。
  2. 前記第1認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定手段を含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする、請求項1に記載の音声認識システム。
  3. 前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む、請求項1または2に記載の音声認識システム。
  4. 前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む、請求項3に記載の音声認識システム。
  5. 電子装置はさらに、前記第1認識手段による認識結果に基づき処理を実行する実行手段を含み、当該実行手段は、認識された1つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する、請求項1ないし4いずれか1つに記載の音声認識システム。
  6. 前記第1送信手段は、前記第1認識手段によって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する、請求項1ないし5いずれか1つに記載の音声認識システム。
  7. 音声認識機能及び形態素解析機能を備えたサーバーと通信可能な電子装置であって、
    音声データを入力する入力手段と、
    音声認識に必要な第1辞書データを格納する第1認識辞書格納手段と、
    前記音声データと前記第1辞書データとの比較に基づき前記音声データの認識を行う第1認識手段と、
    前記音声データを前記サーバーに送信する第1送信手段と、
    前記サーバーから形態素解析情報及び第2辞書データを受信する第1受信手段と、
    前記形態素解析情報及び第2辞書データを第1辞書データに登録する登録手段とを有し、
    前記第1認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する、電子装置。
  8. 前記第1認識手段は、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定手段を含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする、請求項7に記載の電子装置。
  9. 前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む、請求項7または8に記載の電子装置。
  10. 前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む、請求項9に記載の電子装置。
  11. 電子装置はさらに、前記第1認識手段による認識結果に基づき処理を実行する実行手段を含み、当該実行手段は、認識された1つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する、請求項7ないし10いずれか1つに記載の電子装置。
  12. 前記第1送信手段は、前記第1認識手段によって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する、請求項7ないし11いずれか1つに記載の電子装置。
  13. 音声認識機能及び形態素解析機能を備え、電子装置と通信可能なサーバーであって、
    音声データを受信する第2受信手段と、
    音声認識に必要な前記第2辞書データを格納する第2認識辞書格納手段と、
    前記電子装置の要求を受け、前記音声データと前記第2辞書データとの比較に基づき、前記音声データの認識を行う第2認識手段と、
    前記第2認識手段の認識結果に対して形態素解析を行う形態素解析手段と、
    前記形態素解析情報及び前記第2認識手段の認識結果に該当する第2辞書データを前記電子装置へ送信する第2送信手段とを有し、
    前記形態素解析情報は、前記音声データに含まれる単語の名詞が固有名詞であるか否かの種別情報を含み、前記電子装置における音声認識の応答速度を向上させる、サーバー。
  14. 音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムにおける音声認識方法であって、
    前記電子装置側において、
    音声データを入力する入力ステップと、
    音声認識に必要な第1辞書データを格納する第1認識辞書格納ステップと、
    前記音声データと前記第1辞書データとの比較に基づき前記音声データの認識を行う第1認識ステップと、
    前記音声データを前記サーバーに送信する第1送信ステップと、
    前記サーバーから形態素解析情報及び第2辞書データを受信する第1受信ステップと、
    前記形態素解析情報及び第2辞書データを第1辞書データに登録する登録ステップとを有し、
    前記サーバー側において、
    前記第1送信ステップにより送信された前記音声データを受信する第2受信ステップと、
    音声認識に必要な前記第2辞書データを格納する第2認識辞書格納ステップと、
    前記音声データと前記第2辞書データとの比較に基づき、前記音声データの認識を行う第2認識ステップと、
    前記第2認識ステップの認識結果に対して形態素解析を行う形態素解析ステップと、
    前記形態素解析情報及び前記第2認識ステップの認識結果に該当する第2辞書データを前記電子装置へ送信する第2送信ステップとを有し、
    前記第1認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する、音声認識方法。
  15. 前記第1認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定ステップを含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする、請求項14に記載の音声認識方法。
  16. 前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む、請求項14または15に記載の音声認識方法。
  17. 前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む、請求項16に記載の音声認識方法。
  18. 前記音声認識方法はさらに、前記電子装置側において、前記第1認識ステップによる認識結果に基づき処理を実行する実行ステップを含み、当該実行ステップは、認識された1つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する、請求項14ないし17いずれか1つに記載の音声認識方法。
  19. 前記第1送信ステップは、前記第1認識ステップによって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する、請求項14ないし18いずれか1つに記載の音声認識方法。
  20. 音声認識機能を備えた電子装置と、音声認識機能及び形態素解析機能を備えたサーバーとを有する音声認識システムにおいて、前記電子装置により実行される音声認識プログラムであって、
    音声データを入力する入力ステップと、
    音声認識に必要な第1辞書データを格納する第1認識辞書格納ステップと、
    前記音声データと前記第1辞書データとの比較に基づき前記音声データの認識を行う第1認識ステップと、
    前記音声データを前記サーバーに送信する第1送信ステップと、
    前記サーバーから形態素解析情報及び第2辞書データを受信する第1受信ステップと、
    前記形態素解析情報及び第2辞書データを第1辞書データに登録する登録ステップとを有し、
    前記第1認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているとき認識のための判定基準を変更する、音声認識プログラム。
  21. 前記第1認識ステップは、前記形態素解析情報に基づき前記音声データに固有名詞が含まれているか否かを判定する判定ステップを含み、固有名詞が含まれていると判定されたとき、固有名詞が含まれていないときよりも前記判定基準を高くする、請求項20に記載の音声認識プログラム。
  22. 前記形態素解析情報は、前記音声データに含まれる単語の品詞情報を含む、請求項20または21記載の音声認識プログラム。
  23. 前記品詞情報は、名詞が固有名詞であるか否かの種別情報を含む、請求項22に記載の音声認識プログラム。
  24. 前記音声プログラムはさらに、前記第1認識ステップによる認識結果に基づき処理を実行する実行ステップを含み、当該実行ステップは、認識された1つまたは複数の単語を組み合わせることによりユーザーの入力意図を推定する、請求項20ないし23いずれか1つに記載の音声認識プログラム。
  25. 前記第1送信ステップは、前記第1認識ステップによって前記音声データの認識ができないと判定されたとき、前記音声データを前記サーバーに送信する、請求項20ないし24いずれか1つに記載の音声認識プログラム。

JP2013245005A 2013-11-27 2013-11-27 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム Pending JP2015102805A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013245005A JP2015102805A (ja) 2013-11-27 2013-11-27 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013245005A JP2015102805A (ja) 2013-11-27 2013-11-27 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2015102805A true JP2015102805A (ja) 2015-06-04

Family

ID=53378513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013245005A Pending JP2015102805A (ja) 2013-11-27 2013-11-27 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2015102805A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018033048A (ja) * 2016-08-25 2018-03-01 Jcc株式会社 メタデータ生成システム
JP2018526731A (ja) * 2015-07-28 2018-09-13 エクスペディア, インコーポレイテッド 検索クエリの曖昧性解消
US10606947B2 (en) 2015-11-30 2020-03-31 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018526731A (ja) * 2015-07-28 2018-09-13 エクスペディア, インコーポレイテッド 検索クエリの曖昧性解消
US11436294B2 (en) 2015-07-28 2022-09-06 Expedia, Inc. Disambiguating search queries
US10606947B2 (en) 2015-11-30 2020-03-31 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
JP2018033048A (ja) * 2016-08-25 2018-03-01 Jcc株式会社 メタデータ生成システム

Similar Documents

Publication Publication Date Title
US11817013B2 (en) Display apparatus and method for question and answer
US20210201932A1 (en) Method of and system for real time feedback in an incremental speech input interface
KR102222317B1 (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
US8868428B2 (en) Integration of embedded and network speech recognizers
US11138971B2 (en) Using context to interpret natural language speech recognition commands
US10043520B2 (en) Multilevel speech recognition for candidate application group using first and second speech commands
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
JP2016095383A (ja) 音声認識クライアント装置及びサーバ型音声認識装置
WO2017166631A1 (zh) 语音信号处理方法、装置和电子设备
US20170243588A1 (en) Speech recognition method, electronic device and speech recognition system
US20150161984A1 (en) Adaptively learning vocabulary for completing speech recognition commands
EP2863385B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
KR20150077580A (ko) 음성 인식 기반 서비스 제공 방법 및 그 장치
JP2019015838A (ja) 音声認識システム、端末装置、及び辞書管理方法
JP2015102805A (ja) 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN107170447B (zh) 声音处理系统以及声音处理方法
US11657805B2 (en) Dynamic context-based routing of speech processing
US11705113B2 (en) Priority and context-based routing of speech processing
CN113593543B (zh) 智能音箱语音服务系统、方法、装置及设备
US11829516B1 (en) Automated actions for application policy violations
US11450325B1 (en) Natural language processing
US20220415311A1 (en) Early invocation for contextual data processing
US11076018B1 (en) Account association for voice-enabled devices
WO2022271555A1 (en) Early invocation for contextual data processing