JP2016024652A - 電子装置、音声認識システムおよび音声認識プログラム - Google Patents

電子装置、音声認識システムおよび音声認識プログラム Download PDF

Info

Publication number
JP2016024652A
JP2016024652A JP2014148709A JP2014148709A JP2016024652A JP 2016024652 A JP2016024652 A JP 2016024652A JP 2014148709 A JP2014148709 A JP 2014148709A JP 2014148709 A JP2014148709 A JP 2014148709A JP 2016024652 A JP2016024652 A JP 2016024652A
Authority
JP
Japan
Prior art keywords
search
attribute
information
proper noun
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014148709A
Other languages
English (en)
Other versions
JP6324249B2 (ja
Inventor
三宅 隆
Takashi Miyake
隆 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2014148709A priority Critical patent/JP6324249B2/ja
Publication of JP2016024652A publication Critical patent/JP2016024652A/ja
Application granted granted Critical
Publication of JP6324249B2 publication Critical patent/JP6324249B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザーからの少ない音声入力でも音声認識の精度を向上させることができる電子装置、音声認識システムおよび音声認識プログラムを提供する。
【解決手段】車載装置20は、固有名詞の属性を判定するための複数の関連情報を属性毎に記憶する記憶部と、音声入力から固有名詞「XXX」を抽出し、抽出された固有名詞「XXX」に基づき楽曲サーバ300に検索要求し、楽曲サーバ300からの検索結果情報に含まれるテキスト群Tと複数の関連ワードとを比較し、固有名詞「XXX」の属性を判定し、判定結果に基づき入力された音声の意図を推定する。
【選択図】図8

Description

本発明は、音声認識機能を備えた電子装置、音声認識システムおよび音声認識プログラムに関する。
キーボードなどによる手入力が困難な環境において、音声認識による情報入力手段の活用が増加している。特に、自動車を運転中に手入力による操作を行うことは危険であるため、音声による入力が望まれている。音声認識機能が搭載された車載装置、あるいは多機能型携帯端末(スマートフォン)では、入力された音声情報を、音声認識辞書等を活用してテキスト情報に変換し、キーボード等から入力されたテキスト情報と同様の処理を可能にしている。
特許文献1の音声認識システムは、分野毎にキーワードを記憶し、記憶されたキーワードに対応するデータを取得し、取得されたデータから文字情報を取得し、取得された文字情報をキーワードが属する分野を識別する分野識別情報と対応して記憶し、分野毎に比較的多数の文字情報が予め記憶されていない場合であっても高精度の音声認識を可能にしている。
特許文献2の音声認識装置は、語句を1個以上のカテゴリに対応付ける情報を保持し、音声認識された語句が分類されるカテゴリに基づいて発話者の発話内容を特定し、特定した内容に基づいて制御対象の外部機器の制御を実行することを可能にしている。
特開2009−294269号公報 国際公開2005/64592号公報
従来の音声認識システムにおいて、音声認識結果を利用して情報の検索を行う場合、入力音声に含まれるキーワードからユーザーの意図を推定している。例えば、「アーティストAの“曲”」という音声入力があった場合、“曲”というキーワードを元に楽曲検索であることを認識し、プレイリストや楽曲検索サイトなどからアーティストAの曲を検索し、検索されたアーティストAの曲を再生している。あるいは、「アーティストAを“かけて”」という音声入力があった場合には、“かけて”というキーワードからアーティストAを検索し、検索されたアーティストAの曲を再生している。
しかしながら、従来の音声認識方法では、ユーザーがアーティスト名や曲名だけを発話しても、それが楽曲検索を意図しているか否かを判定することができなかった。例えば、ユーザーが「AKB」と発話した場合、それがアーティスト名なのか、あるいは施設名なのか推測することができない。そうすると、楽曲検索サイトを検索するのか、あるいはレストラン検索サイトを検索するのか判定することができない。また、ユーザーが「AKBを探して」と発話しても、楽曲を探すのか、あるいは施設を探すのか判定することができない。従って、従来の音声認識における意図推定方法では、ユーザーが、「かける」、「聞く」、「再生」、「曲」、「歌」、「音楽」などの分野またはジャンル等を特定することができるキーワードを発話しなければ、音声認識の精度の向上を図ることができなかった。
本発明は、このような従来の課題を解決するものであり、ユーザーからの少ない音声入力でも音声認識の精度を向上させることができる電子装置、音声認識システムおよび音声認識プログラムの提供を目的とする。
本発明に係る電子装置は、音声認識機能を備えたものであって、固有名詞の属性を判定するための複数の関連情報を、属性毎に記憶する記憶手段と、音声情報の入力を受け取る音声入力手段と、前記音声入力手段により入力された音声情報から固有名詞を抽出する抽出手段と、前記抽出手段により抽出された固有名詞に基づき外部の検索サーバに検索要求をする検索要求手段と、前記検索要求手段に基づく外部の検索サーバからの検索結果情報を取得する取得手段と、前記取得手段により受信された検索結果情報と前記記憶手段に記憶された複数の関連情報に基づき抽出された固有名詞の属性を判定する判定手段と、前記判定手段の判定結果に基づき入力された音声情報の意図を推定する意図推定手段とを有する。
好ましくは前記判定手段は、前記検索結果情報と属性毎の複数の関連情報とを比較し、前記検索結果情報に一致する関連情報の数をカウントし、当該カウント結果に基づき抽出された固有名詞の属性を判定する。好ましくは前記判定手段は、前記検索結果情報に一致する関連情報の数が最大である属性を、前記抽出された固有名詞の属性であると判定する。好ましくは前記判定手段は、前記検索結果情報に一致する関連情報の数が一定数以下であるとき、前記抽出された固有名詞の属性が不明である判定する。好ましくは前記判定手段は、属性毎の一致する関連情報の数が複数存在し、かつ、関連情報の数の最大値と当該最大値から一定数以内の関連情報の数が存在する場合には、前記抽出された固有名詞の属性を決定できないと判定する。好ましくは前記電子装置はさらに、音声出力手段を有し、前記判定手段が抽出された固有名詞の属性を判定することができないと判定した場合、前記音声出力手段は、属性を判定できない旨を出力する、請求項4または5に記載の電子装置。好ましくは前記検索要求手段は、前記抽出手段によって抽出された固有名詞が予め規定されたキーワードに該当しない場合に、検索を要求する。好ましくは前記検索要求手段はさらに、前記意図推定手段により推定された意図に基づき前記抽出手段で抽出された固有名詞を検索ワードとして外部の検索サーバに検索を要求する。好ましくは前記記憶手段は、楽曲の属性を判定するための複数の関連ワードと、施設の属性を判定するための複数の関連ワードとを含み、前記判定手段は、抽出された固有名詞が楽曲または施設のいずれかに属するかを判定し、前記意図推定手段は、前記判定手段により楽曲の属性と判定された場合には、前記抽出された固有名詞の楽曲の検索または再生を実行させ、前記判定手段により施設の属性と判定された場合には前記抽出された固有名詞の施設の検索または設定を行う。好ましくは前記抽出手段は、入力された音声情報を外部音声認識サーバに送信し、前記外部音声認識サーバから固有名詞を受信する。
本発明に係る音声認識システムは、上記構成の電子装置と、当該電子装置に接続可能な検索サーバとを備え、前記検索サーバは、前記検索要求手段からの検索要求に含まれる固有名詞を検索ワードとして検索を行う検索手段と、前記検索手段により検索された検索ワードに関連する関連ワードを含む検索結果情報を前記電子装置に送信する送信手段とを有する。
本発明に係る音声認識プログラムは、音声認識機能を備えた電子装置が実行するものであって、固有名詞の属性を判定するための複数の関連情報を、属性毎に記憶するステップと、音声情報の入力を受け取るステップと、入力された音声情報から固有名詞を抽出するステップと、前記抽出手段により抽出された固有名詞に基づき外部の検索サーバに検索要求をするステップと、外部の検索サーバからの検索結果情報を取得するステップと、前記取得ステップにより受信された検索結果情報と前記複数の関連情報に基づき抽出された固有名詞の属性を判定する判定ステップと、前記判定ステップの判定結果に基づき入力された音声情報の意図を推定する意図推定ステップとを有する。
本発明によれば、固有名詞の属性を判定するための複数の関連情報を属性毎に記憶しておき、入力された音声情報から抽出された固有名詞に基づき外部の検索サーバを利用して検索を行い、そこから得られた検索結果情報と属性毎の複数の関連とに基づき抽出された固有名詞の属性を判定するようにしたので、入力された音声情報が固有名詞しか含まないような場合であっても、当該固有名詞の属性を判定し、当該属性に適した意図推定を行うことができる。これにより、ユーザーの音声入力を簡易なものにすることができる。
本発明の実施例に係る音声認識システムの一構成例を示す図である。 本発明の実施例に係る音声認識機能を備えた車載装置の構成例を示すブロック図である。 本実施例に係る音声認識処理で利用される固有名詞の属性を判定するための関連ワードの一例を示す図である。 本発明の実施例に係る車載装置の音声認識プログラムの機能的な構成例を示すブロック図である。 図4に示す属性判定部の機能的な構成例を示すブロック図である。 本発明の実施例に係る音声認識システムの動作を示すフローチャートである。 本発明の実施例に係る固有名詞の属性判定動作を示すフローチャートである。 本発明の実施例に係る固有名詞「XXX」が音声入力されたときの一連の動作を示す概念図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。本発明の実施の形態に係る音声認識システムは、音声認識機能を備えた電子装置と、当該電子装置によってアクセス可能な1つまたは複数のサーバとを備える。ここで、音声認識機能を備えた電子装置は、車両に搭載された電子装置(以下、車載装置という)、スマートフォンに代表される多機能型携帯端末、モバイル端末、ノード型PC、タブレット型PC、パーソナルコンピュータ、その他の通信機能を備えた電子装置であることができる。また、持ち運び可能な携帯型端末が車内に持ち込まれたとき、当該携帯型端末は、車載装置と連携することが可能であり、この場合、携帯型端末と車載装置との組合せが本発明の電子装置を構成することができる。電子装置は、音声認識機能を備える以外に種々の機能を包含することができ、例えば、ナビゲーション機能、オーディオ・ビデオデータを再生する機能、テレビ・ラジオ放送を受信する機能などを備えることも可能である。なお、以下の実施例では、電子装置の一例として車載装置を用いた場合を説明する。
次に、本発明の実施例に係る音声認識システムの構成を図1に示す。同図に示すように、本実施例に係る音声認識システム10は、音声認識機能を備えた車載装置20と、ネットワーク30を介して接続可能な1つまたは複数のサーバ40−1、40−2、…40−n(これらのサーバを総称してサーバ40と称することがある)とを含んで構成される。車載装置20は、運転者等のユーザーが発話した音声を入力し、入力された音声の認識を行い、認識結果に応じた最適な処理を実行する。後述するように、車載装置20は、ユーザーが発話した音声を正確に認識することができないと判定した場合には、サーバ40にアクセスし、そこから必要な情報を取得し、これを音声認識に利用することができる。サーバ40は、特に制限されるものではないが、汎用検索サイトを検索することができるような検索サーバ、楽曲の検索、楽曲の情報の提供、あるいは楽曲の配信などを行う楽曲サーバ、施設の検索、施設の口コミ情報、位置情報などの提供する施設サーバなどである。
図2に、車載装置20の具体的な構成例を示す。車載装置20は、音声入力部100、無線通信部110、表示制御部120、記憶部130、ナビゲーション部140、マルチメディア再生部150、音声出力部160、および制御部170などを含んで構成される。但し、図2に示す車載装置20の構成は例示であり、これに限定されることを意図するものではない。
音声入力部100は、ユーザーの音声をマイク等から入力し、これを電気的な音声波形信号に変換する。変換された音声波形信号は、後述する制御部160に含まれる音声認識処理部により認識される。また、スマートフォンなどの携帯型端末が車載装置20に接続された場合、携帯型端末の音声入力機能が音声入力部100を構成するものであってもよい。
無線通信部110は、車載装置20と、外部機器や外部ネットワークとの間の無線通信を可能にする。無線通信部110は、例えば、公衆無線回線網、無線LAN、Wi−Fi(登録商標)等の無線通信によりインターネットやイントラネット等のネットワーク30を介してサーバ40とのデータ通信を可能にする。
表示制御部120は、タッチパネルを含むディスプレイに画像を表示する。表示制御部120は、記憶部130に記憶されている画像データや無線通信部110によって外部から取得された画像データなどを表示したり、マルチメディア再生部150によって再生された画像データやDVD等の媒体から再生された画像データを表示する。
記憶部130は、車載装置20の各部を制御するプログラムや種々のデータ等を記憶する。例えば、記憶部130は、ナビゲーション部140のために必要な地図データ、マルチメディア再生部150が再生するための楽曲データや映像データなどを記憶することができる。また記憶部130は、音声認識を行うために必要な音声認識辞書を格納する。音声認識辞書に格納されたデータは、音声入力部100から入力された音声波形信号と照合され、音声波形信号から特定のキーワードや固有名詞を抽出するのに使用される。
さらに本実施例の記憶部130は、音声波形信号から抽出された固有名詞の属性を判定するための複数の関連ワードを記憶している。関連ワードは、予め属性毎に用意される。固有名詞によっては、その属性が一義的ではなく、複数の意味を包含するものがある。例えば、“固有名詞N”が、アーティストの名称と、施設の名称の双方に共通している場合、“固有名詞N”だけでは、これがいずれを示しているのかを判定することができない。そこで、本実施例では、このような属性を判定するために上記した関連ワードを利用する。
例えば、「楽曲」の属性を判定するには、楽曲に関連するような複数の関連ワード(音楽、曲、再生、アーティスト、コンサート等)が用意される。言い換えれば、そのような関連ワードを含むような文、句、単語等の情報は、「楽曲」に関するものである可能性が非常に高いとうことである。図3(A)は、楽曲の属性を判定するために使用される関連ワードの例を示している。
また、「施設」の属性を判定するには、施設に関連するような複数の関連ワード(観光、レストラン、場所、名所等)が用意される。この場合にも、そのような関連ワードを含むような文、句、単号等の情報は、「施設」に関するものである可能性が非常に高いということである。図3(B)は、施設の属性を判定するために使用される関連ワードの例を示している。
記憶部130に記憶された関連ワードは、時代の流行等に伴い、適宜更新することができる。また、上記の例では、「楽曲」と「施設」の属性を示したが、これに限らず、記憶部130には、他の複数の属性を判定するための関連ワードも記憶することができる。
ナビゲーション部140は、自車位置情報もとに、自車位置周辺の道路地図を表示させたり、目的地までの経路を探索し、これの案内を行う。ここには図示しないが、自車位置は、ジャイロセンサや加速度センサなどの測定結果および/またはGPS衛星を利用した測位結果を用いて行われる。
マルチメディア再生部150は、CD、DVD、メモリなどの外部媒体や記憶部130から読み出されたデータを再生し、再生されたデータは、表示制御部120および音声出力部160から出力される。また、無線通信部110を介して接続された外部機器に記憶されたビデオデータ等を再生することも可能である。
制御部170は、例えば、マイクロプロセッサやマイクロコントローラを含み、ROM/RAMあるいは記憶部130に格納されたプログラム等を実行することにより各部を制御する。本実施例では、制御部170は、ユーザーからの音声を認識するための音声認識プログラムを備えている。
図4に、本実施例の音声認識プログラムの機能的な構成を示す。同図に示すように、本実施例の音声認識プログラム200は、入力された音声波形の解析を行う音声波形解析部210、解析結果の基づき言語解析を行う言語解析部220、言語解析結果に基づき入力音声から固有名詞を抽出する固有名詞抽出部230、一定の条件下においてサーバ40に対して固有名詞の検索を要求する検索要求部240、サーバ40からの検索結果を取得する検索結果取得部250、検索結果に基づき固有名詞の属性を判定する属性判定部260、属性判定部260の判定結果に基づき入力音声の意図を推定する意図推定部270とを含む。
音声波形解析部210は、音声入力部100から入力された音声波形を解析する。音声波形の解析は、音声波形を複数の音素に分離し、記憶部130に用意された音声認識辞書と比較し、最も近似度の文字データを抽出し、これを解析結果として出力する。この解析結果は、記憶部130に保持される。
言語解析部220は、音声波形解析部210から解析された文字データを受け取り、当該文字データを形態素解析する。あるいは、形態素解析された結果をさらに意味構文解析をしてもよい。言語解析部220の形態素解析等により、入力された文字データの品詞等が解析される。
固有名詞抽出部230は、言語解析部220の解析結果に基づき、文字データに含まれる固有名詞を抽出する。検索要求部240は、言語解析部220および固有名詞抽出部230の結果に基づき、外部のサーバ40に対して検索を行うか否かを判定する。仮に、ユーザーの発話した入力音声が、従来技術で説明したように、固有名詞とそれに関連するキーワードとを含む場合には、当該固有名詞とキーワードによってユーザーの意図を推定することができるので、外部サーバ40への検索は不要であると判定する。他方、ユーザーの発話した入力音声が固有名詞しか含まない場合、あるいは固有名詞の他に文字が含まれるがこれが想定されたキーワードではない場合(想定されたキーワードか否かは、例えば、記憶部130に記憶されたキーワード集との照合により判定可能)、検索要求部240は、固有名詞の属性を判定するための検索が必要であると判定する。
検索が必要と判定した場合、検索要求部240は、固有名詞抽出部230で抽出された固有名詞を検索キーとして外部のサーバ40に検索を要求する。サーバ40は、固有名詞に基づき特定の検索サイトを検索してもよいが、好ましくは、サーバ40は、汎用的に情報を検索することができる汎用検索サイトを検索する。
検索結果取得部250は、検索要求部240の検索要求に応答してサーバ40から送信される検索結果を取得する。検索結果取得部250によって取得される検索結果は、テキストデータ、画像データ、音声データ等を包括的に取得しても良いし、テキストデータのみを取得するようにしても良い。
属性判定部260は、検索結果取得部250で取得された検索結果をもとに、固有名詞抽出部230で抽出された固有名詞の属性を特定する。好ましくは、属性判定部260は、サーバ40の検索結果と記憶部130に記憶された属性毎の関連ワード(図3を参照)とを比較し、検索結果に一致する一致回数を関連ワード毎に算出し、その一致回数の合計から属性を判定する。
図5は、属性判定部260の機能的な構成を示すブロック図である。同図に示すように、属性判定部260は、テキスト情報抽出部262、関連ワード比較部264、一致回数算出部266とを含む。
テキスト情報抽出部262は、検索結果取得部250で取得された検索結果の中からテキスト情報または文字列を抽出する。抽出されたテキスト情報は、関連ワード比較部264へ提供される。
関連ワード比較部264は、抽出されたテキスト情報と記憶部130に記憶されている属性毎の関連ワードとを比較し、検索されたテキスト情報に一致する関連ワードを識別する。例えば、図3(A)に示す楽曲の関連ワードの各々と、テキスト情報の各々とが比較され、「音楽」に一致するテキスト情報があるか否か、「曲」に一致するテキスト情報があるか否か、「再生」に一致するテキスト情報があるか否か等、すべての関連ワードについてチェックされる。同様に、図3(B)に示す施設の関連ワードの各々と、検索されたテキスト情報に一致する関連ワードの一致が識別される。
一致回数算出部266は、関連ワード比較部264の比較結果に基づき関連ワードの各々の一致回数をカウントする。例えば、図3(A)の楽曲の関連ワードにおいて、「音楽」の一致回数が5回、「曲」の一致回数が7回、「再生」の一致回数が4回などをカウントする。施設の関連ワードについても同様の処理が行われる。
こうして属性判定部260は、一致回数算出部266の算出結果の基づき固有名詞抽出部230で抽出された固有名詞の属性を判定する。1つの判定方法として、1つの属性に含まれる関連ワードがテキスト情報に一致した合計数の最も多い属性を、その固有名詞の属性とすることができる。
意図推定部270は、属性判定部260の判定結果に基づき、固有名詞すなわち入力音声の意図を推定し、推定結果に基づき処理を実行させることができる。例えば、属性判定部260によって、抽出された固有名詞が「楽曲」であると判定された場合には、意図推定部270は、固有名詞の検索または再生を希望していると推定し、例えば、表示制御部120に、「固有名詞の楽曲を検索または再生すますか?」を表示させ、あるいは音声出力部160の音声出力させ、一定期間以内にユーザーからの応答がなれければ、意図推定が合致していると看做して、あるいは、ユーザーから「ハイ」などの音声が入力されれば、当該処理を実行させる。あるいは、そのようなユーザーへの問い合わせの出力することなく、固有名詞の検索または再生を実行するようにしてもよい。さらに意図推定部270は、固有名詞の楽曲が記憶部130に記憶されていない場合には、検索要求部240を介して所定のサーバ40を検索させ、そこから該当する楽曲をダウンロードさせるようにすることも可能である。また、抽出された固有名詞が「施設」であると判定された場合には、意図推定部270は、固有名詞の検索または固有名詞を目的地に設定していると推定し、例えば、表示制御部120や音声出力部160に、「固有名詞の施設を検索しますか?」、あるいは「固有名詞の施設を目的地に設定しますか?」を出力させ、一定期間以内にユーザーからの応答がなれければ、意図推定が合致していると看做して、あるいは、ユーザーから「ハイ」などの音声が入力されれば、当該処理を実行させる。
また、属性判定部260は、最も多い一致情報数が一定数以下であった場合は、属性を判定することができないという判定結果を意図推定部270へ提供することができる。この場合、意図推定部270は、ユーザーの入力音声の意図が不明であることをユーザーに通知し、再入力を促すようにしてもよい。さらに、属性判定部260は、最も多い一致回数が複数あるとき、あるいは最も多い一致回数と一定差以内の一致回数を有する属性が存在する場合は、属性を判定することができないという判定結果を意図推定部270へ提供することができる。この場合にも、意図推定部270は、ユーザーにその旨を通知し、再入力を促すようにしてもよい。
次に、本実施例の音声認識システムの音声認識動作を図6のフローチャートを参照して説明する。先ず始めに、車載装置20において、ユーザーからの音声が入力される(S100)。本例では、音声入力が固有名詞が含まれ関連するキーワードが含まれていないものとする。音声波形信号は、音声波形解析部210、言語解析部220によって処理され、次いで、固有名詞抽出部230によって入力音声から固有名詞が抽出される(S102)。検索要求部240は、入力音声が通常の意図推定するには十分な情報を含んでいないと判定したとき、抽出した固有名詞と共に汎用検索サイトをサーチするサーバ40−1に対して検索を要求する。
サーバ40−1は、車載装置20から送信された固有名詞を取得すると(S104)、取得した固有名詞を検索ワードとして汎用検索を行い(S106)、検索結果を車載装置20に送信する(S108)。車載装置20の検索結果取得部250は、サーバ40−1による検索結果を取得する(S110)。次に、属性判定部260は、検索結果と関連ワードとを比較し、抽出された固有名詞の属性を判定し(S112)、意図推定部270は、判定された属性に基づきユーザーの音声入力の意図を推定する(S114)。
ここに示す例では、意図推定部270は、意図推定結果に基づき、楽曲の検索や楽曲の配信などを行うサーバ40−2に、固有名詞の楽曲の検索または配信の要求を行う。この要求に応答して、サーバ40−2は、送信された固有名詞を取得し(116)、取得した固有名詞を検索ワードとし、楽曲の検索を行う(S118)。そして、サーバ40−2は、検索された楽曲の情報および/または楽曲データを車載装置20へ送信し、意図推定部270は、例えば、検索された楽曲の情報を表示制御部120に表示させたり、配信された楽曲データを音声出力部160から出力させる。
ここで、図6のステップS212による属性判定の動作の詳細を図7のフローチャートを参照して説明する。テキスト情報抽出部262は、検索結果取得部250で取得された検索結果情報の中からテキスト情報または文字列を抽出する(S200)。例えば、サーバ40−1による検索結果がHTMLのような情報であるとき、そこからテキスト情報のみが抽出される。
次に、関連ワード比較部264は、抽出されたテキスト情報と予め用意された属性毎の関連ワードとを比較し(S202)、属性毎に、テキスト情報に一致する関連ワードの一致回数を算出する(S204)。
次に、属性判定部260は、最も多い一致回数が一定以下であるか否かを判定し(S206)、一定以下であった場合は、意図不明として扱われるような出力を意図推定部270へ通知する(S212)。一方、S206で一致回数が一定数を超えている場合、次に、属性判定部260は、最も多い一致回数から一定数以内に次の一致回数が存在するか否かを判定する(S208)。言い換えれば、最も多い一致回数と次の一致回数との差分が一定以上か否かを判定する。一定数以内に次の一致回数が存在する場合は、属性が特定できないと判定し(S214)、その旨がユーザーに通知されるような出力を意図推定部27通知する(S216)。S216で一定差内の次の一致回数が存在しないと判定された場合、属性判定部260は、最も一致回数の多い属性を固有名詞の属性と判定する(S210)。
図8は、ユーザーUが固有名詞「XXX」を発話してから、固有名詞「XXX」の属性を判定し、当該属性に基づく検索サイトで「XXX」を検索するまでの一連の流れを示している。
音声情報としての固有名詞「XXX」が、車載装置20の音声入力部100に入力され、そこからテキスト情報または文字列としての固有名詞「XXX」が抽出され、この固有名詞「XXX」は、汎用検索サーバ300の検索キーとして使用され、テキスト群Tを含む検索結果情報が汎用検索サーバ300から車載装置20へ送信される。図8には、1つの検索結果情報に含まれるテキスト群Tの例が示されている。
すべての検索結果情報に含まれるテキスト群Tは、図3に示すような属性毎の関連ワードと逐次比較され、属性毎に関連ワードの一致回数が算出される。例えば、図8の例では、「楽曲」の属性の関連ワードのうち、「音楽」、「曲」、「アーティスト」、「歌」、「PV」、「アルバム」、「着うた」の7つがテキスト群Tにヒットし、このときの一致回数は7である。他方、「施設」の属性の関連ワードのうち、「風景」のみがテキスト群Tにヒットし、このときの一致回数は1である。このような一致回数の算出は、検索結果のすべてについて行われ、その合算が算出される。
ここで、例えば、楽曲の関連ワードの一致回数がN1、施設の関連ワードの一致回数がN2であり、N1が最大の一致回数、N2がその次の一致回数であるとしたとき、N1<一定数であれば、図7のステップS212で説明したように、ユーザーの意図が不明として扱われる。この場合には、意図不明であることをユーザーに通知し、意図推定は行われない。また、N1−N2>一定数であれば、固有名詞の属性は、楽曲と判定されるが、そうでない場合には、属性が決定できないと判定し、その旨がユーザーに通知され、再入力が促される。
図8の例では、固有名詞「XXX」の属性が楽曲であると判定され、意図推定部270は、固有名詞「XXX」を検索キーとして、楽曲サーバ310に検索を要求することができる。また、固有名詞「XXX」の属性が施設であると判定された場合には、意図推定部270は、固有名詞「XXX」を検索キーとして、施設サーバ320に検索を要求することができる。また、車載装置20自体が、楽曲や施設情報(地図データ)を記憶している場合には、意図推定部270は、固有名詞「XXX」の属性に基づいて、固有名詞「XXX」を検索キーとして、車載装置20に記憶されている楽曲や施設を検索することもできる。
このように本実施例によれば、ユーザーからの音声入力が簡単な固有名詞しか含まないような場合であっても、当該固有名詞の属性を判定することで、固有名詞の属性に応じた意図を推定することができる。
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形・変更が可能である。
例えば、上記実施例では、固有名詞の属性を判定する例を示したが、属性は、例えば、ジャンルやカテゴリと同義であり得る。また、上記実施例では、属性の例として、楽曲と施設を例示したが、勿論、これ以外の属性として、アーティスト名、レストラン、アルバム名など、種々の属性を定義し、それに基づく関連ワードを設定することが可能である。さらに、本実施例では、車載装置20が音声認識モジュールを搭載し、車載装置自身で固有名詞を抽出する例を示したが、車載装置20は、必ずしも音声認識モジュールを搭載しなくてもよい。この場合、車載装置20は、外部の音声認識サーバを利用することができ、入力された音声情報を外部の音声認識サーバに送信し、外部の音声認識サーバにおいて固有名詞を抽出し、抽出された固有名詞を車載装置20へ送信させることができる。さらに車載装置20は、自身の音声認識モジュールでは固有名詞を抽出することができない場合に外部の音声認識サーバを利用するようにしてもよい。
10:音声認識システム 20:車載装置
30:ネットワーク 40:サーバ
100;音声入力部 110:無線通信部
120:表示制御部 130:記憶部
140:ナビゲーション部 150:マルチメディア部
160:音声出力部 170:制御部
200:音声認識プログラム 210:音声波形解析部
220:言語解析部 230:固有名詞抽出部
240:検索要求部 250:検索結果取得部
260:属性判定部 270:意図推定部

Claims (12)

  1. 音声認識機能を備えた電子装置であって、
    固有名詞の属性を判定するための複数の関連情報を、属性毎に記憶する記憶手段と、
    音声情報の入力を受け取る音声入力手段と、
    前記音声入力手段により入力された音声情報から固有名詞を抽出する抽出手段と、
    前記抽出手段により抽出された固有名詞に基づき外部の検索サーバに検索要求をする検索要求手段と、
    前記検索要求手段に基づく外部の検索サーバからの検索結果情報を取得する取得手段と、
    前記取得手段により受信された検索結果情報と前記記憶手段に記憶された複数の関連情報に基づき抽出された固有名詞の属性を判定する判定手段と、
    前記判定手段の判定結果に基づき入力された音声情報の意図を推定する意図推定手段と、
    を有する電子装置。
  2. 前記判定手段は、前記検索結果情報と属性毎の複数の関連情報とを比較し、前記検索結果情報に一致する関連情報の数をカウントし、当該カウント結果に基づき抽出された固有名詞の属性を判定する、請求項1に記載の電子装置。
  3. 前記判定手段は、前記検索結果情報に一致する関連情報の数が最大である属性を、前記抽出された固有名詞の属性であると判定する、請求項1または2に記載の電子装置。
  4. 前記判定手段は、前記検索結果情報に一致する関連情報の数が一定数以下であるとき、前記抽出された固有名詞の属性が不明である判定する、請求項3に記載の電子装置。
  5. 前記判定手段は、属性毎の一致する関連情報の数が複数存在し、かつ、関連情報の数の最大値と当該最大値から一定数以内の関連情報の数が存在する場合には、前記抽出された固有名詞の属性を決定できないと判定する、請求項3または4に記載の電子装置。
  6. 前記電子装置はさらに、音声出力手段を有し、前記判定手段が抽出された固有名詞の属性を判定することができないと判定した場合、前記音声出力手段は、属性を判定できない旨を出力する、請求項4または5に記載の電子装置。
  7. 前記検索要求手段は、前記抽出手段によって抽出された固有名詞が予め規定されたキーワードに該当しない場合に、検索を要求する、請求項1に記載の電子装置。
  8. 前記検索要求手段はさらに、前記意図推定手段により推定された意図に基づき前記抽出手段で抽出された固有名詞を検索ワードとして外部の検索サーバに検索を要求する、請求項1ないし7いずれか1つに記載の電子装置。
  9. 前記記憶手段は、楽曲の属性を判定するための複数の関連ワードと、施設の属性を判定するための複数の関連ワードとを含み、前記判定手段は、抽出された固有名詞が楽曲または施設のいずれかに属するかを判定し、前記意図推定手段は、前記判定手段により楽曲の属性と判定された場合には、前記抽出された固有名詞の楽曲の検索または再生を実行させ、前記判定手段により施設の属性と判定された場合には前記抽出された固有名詞の施設の検索または設定を行う、請求項1ないし8いずれか1つに記載の電子装置。
  10. 前記抽出手段は、入力された音声情報を外部の音声認識サーバに送信し、前記外部の音声認識サーバから固有名詞を受信する、請求項1に記載の電子装置。
  11. 請求項1ないし10いずれか1つに記載の電子装置と、当該電子装置に接続可能な検索サーバとを備え、
    前記検索サーバは、 前記検索要求手段からの検索要求に含まれる固有名詞を検索ワードとして検索を行う検索手段と、
    前記検索手段により検索された検索ワードに関連する関連ワードを含む検索結果情報を前記電子装置に送信する送信手段と、
    を有する音声認識システム。
  12. 音声認識機能を備えた電子装置が実行する音声認識プログラムであって、
    固有名詞の属性を判定するための複数の関連情報を、属性毎に記憶するステップと、
    音声情報の入力を受け取るステップと、
    入力された音声情報から固有名詞を抽出するステップと、
    前記抽出手段により抽出された固有名詞に基づき外部の検索サーバに検索要求をするステップと、
    外部の検索サーバからの検索結果情報を取得するステップと、
    前記取得ステップにより受信された検索結果情報と前記複数の関連情報に基づき抽出された固有名詞の属性を判定する判定ステップと、
    前記判定ステップの判定結果に基づき入力された音声情報の意図を推定する意図推定ステップと、
    を有する音声認識プログラム。
JP2014148709A 2014-07-22 2014-07-22 電子装置、音声認識システムおよび音声認識プログラム Active JP6324249B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014148709A JP6324249B2 (ja) 2014-07-22 2014-07-22 電子装置、音声認識システムおよび音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014148709A JP6324249B2 (ja) 2014-07-22 2014-07-22 電子装置、音声認識システムおよび音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2016024652A true JP2016024652A (ja) 2016-02-08
JP6324249B2 JP6324249B2 (ja) 2018-05-16

Family

ID=55271358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014148709A Active JP6324249B2 (ja) 2014-07-22 2014-07-22 電子装置、音声認識システムおよび音声認識プログラム

Country Status (1)

Country Link
JP (1) JP6324249B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7436077B2 (ja) 2019-12-31 2024-02-21 エーアイ スピーチ カンパニー リミテッド スキルの音声ウェイクアップ方法および装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007459A (ja) * 2000-06-21 2002-01-11 Nec Corp ネットワークナビエージェントシステム、ナビゲーション方法、および仲介サービス提供方法
WO2006085565A1 (ja) * 2005-02-08 2006-08-17 Nippon Telegraph And Telephone Corporation 情報通信端末、情報通信システム、情報通信方法、情報通信プログラムおよびそれを記録した記録媒体
JP2008097082A (ja) * 2006-10-06 2008-04-24 Mitsubishi Electric Corp 音声対話装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007459A (ja) * 2000-06-21 2002-01-11 Nec Corp ネットワークナビエージェントシステム、ナビゲーション方法、および仲介サービス提供方法
WO2006085565A1 (ja) * 2005-02-08 2006-08-17 Nippon Telegraph And Telephone Corporation 情報通信端末、情報通信システム、情報通信方法、情報通信プログラムおよびそれを記録した記録媒体
JP2008097082A (ja) * 2006-10-06 2008-04-24 Mitsubishi Electric Corp 音声対話装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7436077B2 (ja) 2019-12-31 2024-02-21 エーアイ スピーチ カンパニー リミテッド スキルの音声ウェイクアップ方法および装置

Also Published As

Publication number Publication date
JP6324249B2 (ja) 2018-05-16

Similar Documents

Publication Publication Date Title
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11237793B1 (en) Latency reduction for content playback
US10431214B2 (en) System and method of determining a domain and/or an action related to a natural language input
CN107590135B (zh) 自动翻译方法、设备和系统
JP5315289B2 (ja) オペレーティングシステム及びオペレーティング方法
US10176801B2 (en) System and method of improving speech recognition using context
KR101670150B1 (ko) 이름 발음을 위한 시스템 및 방법
US7308404B2 (en) Method and apparatus for speech recognition using a dynamic vocabulary
EP1939860B1 (en) Interactive speech recognition system
US20160188292A1 (en) System and method for interpreting natural language inputs based on storage of the inputs
US20130191122A1 (en) Voice Electronic Listening Assistant
US11687526B1 (en) Identifying user content
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
US20090112593A1 (en) System for recognizing speech for searching a database
US20180068659A1 (en) Voice recognition device and voice recognition method
US10515634B2 (en) Method and apparatus for searching for geographic information using interactive voice recognition
US20130297210A1 (en) Route guidance apparatus and method with voice recognition
WO2017092493A1 (zh) 场景音乐搜索方法及场景音乐搜索装置
JP6324249B2 (ja) 電子装置、音声認識システムおよび音声認識プログラム
JP6481643B2 (ja) 音声処理システムおよび音声処理方法
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2011065526A (ja) オペレーティングシステム及びオペレーティング方法
KR101945190B1 (ko) 음성인식 작동 시스템 및 방법
US11657805B2 (en) Dynamic context-based routing of speech processing
US11328713B1 (en) On-device contextual understanding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180410

R150 Certificate of patent or registration of utility model

Ref document number: 6324249

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150