JP6081966B2 - 情報検索装置、情報検索プログラム、および情報検索システム - Google Patents

情報検索装置、情報検索プログラム、および情報検索システム Download PDF

Info

Publication number
JP6081966B2
JP6081966B2 JP2014147739A JP2014147739A JP6081966B2 JP 6081966 B2 JP6081966 B2 JP 6081966B2 JP 2014147739 A JP2014147739 A JP 2014147739A JP 2014147739 A JP2014147739 A JP 2014147739A JP 6081966 B2 JP6081966 B2 JP 6081966B2
Authority
JP
Japan
Prior art keywords
information
utterance
search
recognition result
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014147739A
Other languages
English (en)
Other versions
JP2016024589A (ja
Inventor
浩司 広瀬
浩司 広瀬
未来将 原野
未来将 原野
紗菜 草信
紗菜 草信
浩子 皆本
浩子 皆本
Original Assignee
キャンバスマップル株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キャンバスマップル株式会社 filed Critical キャンバスマップル株式会社
Priority to JP2014147739A priority Critical patent/JP6081966B2/ja
Publication of JP2016024589A publication Critical patent/JP2016024589A/ja
Application granted granted Critical
Publication of JP6081966B2 publication Critical patent/JP6081966B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置、当該情報検索装置に所定の動作を実行させるための情報検索プログラム、および情報検索システムに関するものである。
近年、音声認識を用いて各種処理を実行する登場してきた。特に、音声認識の認識結果に基づいて情報を検索する装置が提供されている(例えば、特許文献1)。
特許文献1には、認識文字列を表示する表示エリアを有する表示部を設け、操作入力部の入力によって挿入された区切り文字によって分離されて表示部の表示エリアに表示される技術が開示されている。これにより、特許文献1に記載の技術は、音声で複数個の文字情報(キーワード)を入力する場合に、容易な操作でキーワードの追加、削除、変更等の編集処理を行える。
特開2010−2830号公報
しかしながら、特許文献1のような技術は、認識文字列を複数個入力する場合に、入力操作を必要とする。入力操作により音声認識精度は向上するものの、一連の情報入力において入力者に要求するタスクが増え、煩わしさがあるという課題があった。すなわち、通常行われる会話から精度高く高度な音声認識を行うことができる技術が求められていた。
本発明は、上記の問題を解決すべく、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うことを目的とする。
本発明に係る情報検索装置は、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置であって、会話に参加する会話者が備えるウェアラブル端末と無線接続する接続手段と、前記会話者による会話音声を取得する音声取得手段と、前記ウェアラブル端末が当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信手段と、前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定手段と、前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第1認識結果を特定し、特定した前記第1認識結果に基づいて情報を検索する第1情報検索手段と、前記異なる発話が開始される前であると判定した場合には、前記第1認識結果を特定するとともに取得した前記異なる発話の第2認識結果を特定し、前記第1認識結果に対して前記第2認識結果を付加した認識結果に基づいて情報を検索する第2情報検索手段と、前記第1情報検索手段又は前記第2情報検索手段により検索された検索結果を前記表示装置に表示する表示手段とを含ことを特徴とする。
上記の構成としたことで、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うことができるようになる。
前記ウェアラブル端末は、発話の開始が特定される生体の特徴を示す照合用データを記憶する照合用データ記憶手段と、生体情報を特定する生体情報特定手段と、取得された生体情報を照合用データと照合する照合手段と、照合の一致度合いに応じて発話が開始されるか否かを判定する判定手段と、発話が開始されると判定したときに、前記発話開始情報を前記情報検索装置に送信する発話開始情報送信手段とを有する構成とされていてもよい。
前記生体情報は、脈波、脈拍、心電、脳波、体温、および体動のうち少なくとも何れか1つである構成とされていてもよい。
複数の前記ウェアラブル端末のうちの何れかと一体的に形成される構成とされていてもよい。
また、本発明の情報検索プログラムは、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示するように情報検索装置に動作制御させるための情報検索プログラムであって、前記情報検索装置に、会話に参加する会話者が備えるウェアラブル端末と無線接続する接続処理と、前記会話者による会話音声を取得する音声取得処理と、前記ウェアラブル端末が当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信処理と、前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定処理と、前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第1認識結果を特定し、特定した前記第1認識結果に基づいて情報を検索する第1情報検索処理と、前記異なる発話が開始される前であると判定した場合には、前記第1認識結果を特定するとともに取得した前記異なる発話の第2認識結果を特定し、前記第1認識結果に対して前記第2認識結果を付加した認識結果に基づいて情報を検索する第2情報検索処理と、前記第1情報検索処理又は前記第2情報検索処理により検索された検索結果を前記表示装置に表示する表示処理とを実行させるものである。
また、本発明の情報検索システムは、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置と、会話に参加する会話者が備えるウェアラブル端末とを備える情報検索システムであって、前記情報検索装置は、前記ウェアラブル端末と無線接続する接続手段と、前記会話者による会話音声を取得する音声取得手段と、前記ウェアラブル端末が当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信手段と、前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定手段と、前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第1認識結果を特定し、特定した前記第1認識結果に基づいて情報を検索する第1情報検索手段と、前記異なる発話が開始される前であると判定した場合には、前記第1認識結果を特定するとともに取得した前記異なる発話の第2認識結果を特定し、前記第1認識結果に対して前記第2認識結果を付加した認識結果に基づいて情報を検索する第2情報検索手段と、前記第1情報検索手段又は前記第2情報検索手段により検索された検索結果を前記表示装置に表示する表示手段とを含ことを特徴とする。
本発明によれば、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うことができるようになる。
情報検索システムの構成例を示すブロック図である。 情報検索装置の構成例を示すブロック図である。 ウェアラブル端末の構成の例を示すブロック図である。 情報検索システムの概念を説明するための概念図である。 情報検索処理の例を示すフローチャートである。 発話開始情報送信処理の例を示すフローチャートである。
以下、本発明の一実施の形態について図面を参照して説明する。本実施の形態に係る情報検索システム1000は、複数人で発話された会話内容に基づいて情報検索処理を行い、検索した情報を表示装置に表示するものである。
図1は、情報検索システム1000の構成の例を示すブロック図である。図1に示すように、情報検索システム1000は、情報検索装置100と、ウェアラブル端末200〜20Nとを含む。情報検索装置100は、ウェアラブル端末200〜20Nそれぞれと近距離無線通信ネットワーク300を介して接続する。なお、以下で行う説明では、特に必要な場合を除き、ウェアラブル端末200〜20Nのうちウェアラブル端末200を例にして説明し、ウェアラブル端末201〜20Nは、ウェアラブル端末200と同様の構成を備えるものとする。
図2は、情報検索装置100の構成の例を示すブロック図である。情報検索装置100は、モバイルタイプのパーソナルコンピュータ、PND(Portable Navigation Device)や専用デバイスなどの情報処理装置によって構成されるものである。以下、情報検索装置100が、ユーザにより携帯されるスマートフォンである場合について説明する。
図2に示すように、情報検索装置100は、制御部10と、記憶部20と、メモリ30と、出力部40と、通信部50と、近距離無線通信部60と、入力部70とを含む。なお、特に図示しないが、情報検索装置100は、一般的な情報検索装置としての機能を発揮するための構成を有する。
制御部10は、例えばCPUにより構成される。CPUなどにより構成される制御部10は、記憶部20に記憶された各種プログラムに従い、情報検索装置100を構成する各要素を統括制御し、各種情報を検索する情報検索処理等の各種処理を実行するための機能を有する。制御部10の詳細な説明は後で行う。
記憶部20は、情報検索装置100が使用する各種コンピュータプログラムや、情報検索装置として必要な各種情報を格納する記憶媒体である。例えば、記憶部20は、ROMやRAMなどで構成される。なお、特に図示しないが、記憶部20は、システムソフトウェアおよびアプリケーションソフトウェア等の各種プログラムを格納するプログラム記憶部を含む。記憶部20の詳細な説明は後で行う。
メモリ30は、制御部10が処理する各種情報を一時的に保持する記憶媒体である。例えば、メモリ30は、RAMなどの半導体記憶装置により構成される。
表示部40は、各種情報をユーザが認識可能な形で出力する機能を有する。表示部40は、例えば、画像情報を表示する表示装置(例えば、入力機能を併せ持つタッチパネルなど)により構成される。
通信部50は、通信ネットワークを介してデータ通信を行うための機能を有する。例えば、通信部50は、無線LANなどの無線通信技術により構成される。
近距離無線通信部60は、近距離無線通信ネットワークを介してデータ通信を行うための機能を有する。例えば、近距離無線通信部60は、ZIGBEE(登録商標)やBLUETOOTH(登録商標)などの近距離無線通信技術により構成される。
なお、本例では、情報検索装置100とウェアラブル端末200〜20Nそれぞれとの接続は、近距離無線通信ネットワーク技術により行われることとしているが、リアルタイム性が損なわれない範囲において、インターネットなどの通信ネットワークを介したデータ通信が行われるように構成されていてもよい。
入力部70は、ユーザからの指示を受け付ける機能や、音声を取得する機能を備える。すなわち、入力部70は、音声取得手段を含む。入力部70は、例えば、仮想的ボタンや物理的ボタン、およびマイクにより構成される。
次に制御部10の詳細な説明を行う。
制御部10は、接続処理部11と、通信処理部12と、認識結果特定部13と、情報検索部14とを含む。
接続処理部11は、ウェアラブル端末200〜20Nそれぞれとペアリング処理を行うことにより通信を行える状態にする処理を実行する。
通信処理部12は、通信部50および近距離無線通信部60により各種情報の送受信を行うための処理を実行する機能を有する。本例においては、通信処理部12は、通信ネットワークを介して、WEB上のデータを取得する処理を実行するための機能や、ウェアラブル端末200〜20Nから所定のデータを受信する処理を実行する。
認識結果特定部13は、入力部70(例えば、マイク)により取得した(音声取得手段により取得した)会話音声を所定のサンプリング周波数に基づいてA/D変換してデジタル音響信号を取得する処理や、取得したデジタル音響信号やモデルデータに基づいて発話者と発話内容とを含む認識結果を特定する処理を実行する。
情報検索部14は、認識結果特定部13により特定された認識結果に基づいて、通信ネットワークを介してWEB上のデータを検索する処理を実行する。本例の情報検索では、WEB上のデータを検索する場合を例にして説明を行うが、情報検索装置100に格納されるファイルなどのデータを検索するように構成されていてもよい。
次に記憶部20の詳細な説明を行う。
記憶部20は、音響モデルデータ記憶部21と、言語モデルデータ記憶部22と、意味推定データ記憶部23とを含む。
音響モデルデータ記憶部21は、音響モデルデータを格納する記憶媒体である。本例の音響モデルデータは、標準化された音響モデルデータであって、声の音響的な特徴を所定のラベル単位でモデル化したデータである。なお、情報検索装置100が、ウェアラブル端末200〜20Nを装着する者それぞれに対応する音響モデルデータをウェアラブル端末200〜20Nそれぞれから受信することにより、音響モデルデータ記憶部21が、会話に参加している者それぞれの音響モデルデータを格納する構成とされていてもよい。
言語モデルデータ記憶部22は、言語モデルデータを格納する記憶媒体である。言語モデルデータは、単語とその並び方の情報を集めてモデル化したデータである。認識結果を特定するときに、音響モデルデータと並行して利用して認識結果の精度を向上させる。
意味推定データ記憶部23は、意味推定データを格納する記憶媒体である。意味推定データは、音声データに含まれる単語を関連する検索キーワードに置き換えるための情報である。例えば、音声データに「近く」という単語が含まれる場合には、「半径1km以内」という検索キーワードに置き換えるためのデータが格納される。また、音声データに「新鮮」という単語が含まれる場合には、「現在日時、現在値エリアの旬情報」という検索キーワードに置き換えるためのデータが格納される。
なお、意味推定データは、推定処理を行う条件を含むように構成されていてもよい。例えば、意味推定データは音声データから特定される文章の前後の単語の内容を条件に含むように構成されていてもよい。具体的には、「魚」という単語が含まれる場合において、音声データから特定される文章の前後において「食事」に関する単語が含まれる場合には、「魚」という単語を「魚料理」という検索キーワードに置き換えるためのデータが意味推定データとして格納されていてもよい。
なお、本例では、意味推定データと言語モデルデータとが別々に記憶される構成としているが、意味推定データを含む言語モデルデータを記憶する構成とされていてもよい。
図3は、ウェアラブル端末200の構成の例を示すブロック図である。ウェアラブル端末200は、身につけて持ち歩くことができる情報処理装置であり、スマートフォンや、腕時計型端末や、ヘッドマウントディスプレイなどの情報処理装置によって構成される。
図3に示すように、ウェアラブル端末200は、制御部210と、記憶部220と、通信部250と、近距離無線通信部260と、センサ部280とを含む。なお、特に図示しないが、情報検索装置100は、一般的な情報検索装置としての機能を発揮するための構成を有する。
制御部210は、例えばCPUにより構成され、記憶部220に記憶された各種プログラムに従い、ウェアラブル端末200を構成する各要素を統括制御し、発話が開始したことを示す発話開始情報の送信処理などの各種処理を実行するための機能を有する。
記憶部220は、各種コンピュータプログラムなどの各種情報を格納する記憶媒体である。例えば、記憶部20は、ROMやRAMなどで構成される。
通信部250は、通信ネットワークを介してデータ通信を行うための機能を有する。例えば、通信部250は、無線LANなどの無線通信技術により構成される。
近距離無線通信部260は、近距離無線通信ネットワークを介してデータ通信を行うための機能を有する。例えば、近距離無線通信部260は、ZIGBEE(登録商標)やBLUETOOTH(登録商標)などの近距離無線通信技術により構成される。
センサ部280は、生体情報を測定または判別する処理を実行する機能を有する。例えば、脈波センサなどにより構成される。測定または判別される生体情報は、脈拍、心電、脳波、体温、および体動などであってもよいし、これらの情報を複数測定するように構成されていてもよい。
次にウェアラブル端末200が備える制御部210の詳細な説明を行う。
制御部210は、接続処理部211と、通信処理部212と、センサ情報処理部213と、判定部214と、照合用データ更新処理部215とを含む。
接続処理部211は、情報検索装置100とペアリング処理を行うことにより通信を行える状態にする処理を実行するための機能を有する。
通信処理部212は、近距離無線通信部260により各種情報の送受信を行うための処理を実行する機能を有する。本例においては、通信処理部212は、近距離無線通信ネットワークを介して情報検索装置100に所定のデータ(例えば、発話開始情報)を送信する処理を実行するための機能などを有する。
センサ情報処理部213は、センサ部280により測定または判別された情報をデジタル信号に変換する処理を実行する。
判定部214は、センサ情報処理部213により得られた生体情報と、記憶部220に格納する照合用データとに基づいて発話が開始されるか否かを判定する処理を実行する。発話が開始されると判定したときには、判定部214は、発話の開始を示す発話開始情報を情報検索装置100に送信するように通信処理部212に指示する。
照合用データ更新処理部215は、ウェアラブル端末200上で発話テストを行い、発話が行われる際のユーザの反応に関するデータを特定し、ウェアラブル端末200のユーザ固有の照合用データとするための更新処理を実行する。また、照合用データ更新処理部215は、照合用データを、本システムを管理する装置(特に図示しないが、例えば、情報検索システム管理サーバなど)から送信されるより照合精度の高いデータに更新する処理を実行する。
次にウェアラブル端末200が備える記憶部220の詳細な説明を行う。
記憶部220は、システムソフトウェアおよびアプリケーションソフトウェア等の各種プログラムを格納するプログラム記憶部と照合用データ記憶部221とを含む。
照合用データ記憶部221は、発話時に出力されることが予測される照合用データを格納する記憶媒体である。本例の照合用データは、照合用データ更新処理により適宜更新される。また、照合用データは、発話の開始時または発話の開始直前の生体の特徴を表したものである。
本例の照合用データは、各ウェアラブル端末200〜20Nを備える会話者個々に定義されたデータである。このような構成によれば、複数の者が会話に参加している場合でも、ウェアラブル端末は、精度高く取り付けられている会話者の発話を特定することができるようになる。すなわち、会話者が複数になる場合であっても、会話に参加する参加者個々に定義されたデータに基づいて発話の開始を精度高く特定することができるようになる。そのため、認識精度の高い音声認識技術を提供することができるようになる。
以上、情報検索システム1000の構成について説明した。次に情報検索システム1000の概念について説明する。
図4は、スマートフォンS(例えば、情報検索装置100)と、ウェアラブル端末W1,W2(例えば、ウェアラブル端末200,201)とで構成されるシステム(情報検索システム1000)にて構築される情報検索システムを説明するための概念図である。ここでは、会話者(それぞれ、U1およびU2)は、それぞれ、ウェアラブル端末W1,ウェアラブル端末W2取り付けているものとして説明する。また、スマートフォンSは、ウェアラブル端末W1,W2のそれぞれとペアリングされているものとして説明する。
図4に示すように、まず会話者U1は、自己が管理するスマートフォンSの音声認識機能をONする。音声認識機能がONにされた状態で、会話者U1が「近くで新鮮な魚料理が食べられる店」と発話し、その発話に対して会話者U2が「お座敷があるといいね」という会話が行われるとする。この会話は、スマートフォンSにより取得される。
スマートフォンSにより会話が取得されているときに、会話者U1およびU2に取り付けられるウェアラブル端末W1,W2は、センシング対象の会話者の発話直前の動きを察知する。発話直前の動きを察知すると、ウェアラブル端末W1,W2は、センシング対象の会話者が発話直前であることを示す情報をスマートフォンSに送信する。
ウェアラブル端末W1,W2より送信された情報に基づいて、「近くで新鮮な魚料理が食べられる店」と、「お座敷があるといいね」という発話が異なる発話内容であることを特定したスマートフォンSは、最初の発話の認識結果に対して、最初の発話とは異なる発話の認識結果を付加して情報検索を行う。すなわち、「近くで新鮮な魚料理が食べられる店」という発話から得られた認識結果『「半径1km以内」AND「現在日時、現在値エリアの旬情報」AND「魚料理」』に対して、「お座敷があるといいね」という発話から得られた認識結果『AND「お座敷」』という検索条件を付加してWEB検索を行う。
その検索結果がスマートフォンSの画面上に表示される。このようにして、音声認識に基づいた情報検索が実行される。
以上、情報検索システム1000の概念について説明した。次に、情報検索システム1000の動作について図面を参照して説明する。なお、本発明に特に係わらない処理については、その詳細な説明を省略している場合がある。
図5は、情報検索システム1000における情報検索装置100が実行する情報検索処理の例を示すフローチャートである。情報検索処理では、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する処理が実行される。
なお、本例の情報検索処理においては、図4の概念図で示した状況を例にして説明を行う。すなわち、情報検索装置100を管理する会話者U1がウェアラブル端末200を取り付けている状況において、会話者U1と、ウェアラブル端末201を取り付けている会話者U2との会話を用いて検索が行われる場合を例にして説明を行う。より詳しく言えば、会話者U1が「近くで新鮮な魚料理が食べられる店」という発話を行い、その発話に対して会話者U2が「お座敷があるといいね」という発話を行った場合に実行される情報検索処理を例にして説明を行う。なお、本例では、情報検索装置100とウェアラブル端末200〜201とがペアリング処理されており、情報検索装置100とウェアラブル端末200〜201それぞれとが近距離無線通信を行える状況とされているものとする。また、ペアリングされているウェアラブル端末の数は、3以上でもよい。
情報検索処理において、先ず、情報検索装置100は、情報検索装置100のユーザによる処理開始指示を受け付ける(ステップS101)。例えば、情報検索装置100は、会話者U1から情報検索装置100の表示装置に表示される検索処理開始アイコン(仮想的ボタン)の選択操作を受け付ける。
処理開始時を受け付けると、情報検索装置100は、ペアリング済のウェアラブル端末200,201に対して生体情報の推移を特定可能な状態に移行させるための指示情報を送信する(ステップS102)。
そして、ウェアラブル端末に対する指示情報の送信とともに、情報検索装置100は、音声データを取得可能な状態にする(ステップS103)。
音声データを取得可能な状態にすると、情報検索装置100は、ペアリング済のウェアラブル端末200,201から発話開始情報を受信したか否かを判定する(ステップS104)。本例では、会話者U1が発話したことにより特定された発話開始情報がウェアラブル端末200,201から受信したか否かを判定する。なお、このときの発話開始情報の特定に関する処理については、後で詳しく説明する。
発話開始情報を受信していないと判定したとき(ステップS104のN)には、情報検索装置100は、再度ステップS104に移行し、発話開始情報を受信したか否かを判定する。
一方で、発話開始情報を受信したと判定したとき(ステップS104のY)には、情報検索装置100は、音声データのうち認識対象となる音声の始端を特定する(ステップS105)。すなわち、音声データにおける「近くで新鮮な魚料理が食べられる店」の「ち」にあたる部分が特定される。
認識対象となる音声の始端を特定すると、情報検索装置100は、認識対象となる音声の終端を特定する(ステップS106)。すなわち、音声データにおける「近くで新鮮な魚料理が食べられる店」の「せ」にあたる部分が特定される。
認識対象となる音声の終端を特定すると、情報検索装置100は、認識結果特定処理(第1認識結果特定処理)を実行する(ステップS107)。すなわち、情報検索装置100は、第1認識結果を特定する処理を実行する。
ここで、認識結果特定処理について詳細に説明する。認識結果特定処理では、先ず情報検索装置100が、始端と終端が特定された音声データと音響モデルデータと言語モデルデータとに基づいて検索に用いるキーワード(検索キーワード)を特定する。より具体的に言えば、本例では、情報検索装置100が、音声データと音響モデルデータとに基づいて、「近くで新鮮な魚料理が食べられる店」という文章を特定し、当該文章から言語モデルデータと意味推定データとに基づいて検索条件子を含めた『「半径1km以内」AND「現在日時、現在値エリアの旬情報」AND「魚料理」』という検索キーワードが認識結果として特定される。
なお、本例の認識結果特定処理は、第1認識結果特定処理と第2認識結果特定処理との2種類に分けて説明しているが、その処理の内容は同じである。処理対象となる発話が異なるため、別々の名称を付けて説明をしている。すなわち、最初にされた発話(請求項における「所定の発話」)に対する処理を第1認識結果特定処理とし、最初の発話とは異なる発話に対する処理を第2認識結果特定処理として説明している。
認識結果が特定されると、情報検索装置100は、異なる発話があるか否かを判定する(ステップS108)。すなわち、情報検索装置100は、新たに発話開始情報を受信したか否かを判定する。
異なる発話があると判定したとき(ステップS108のY)には、認識対象となる音声の始端を特定する(ステップ109)。本例では、会話者U1による「近くで新鮮な魚料理が食べられる店」という発話とは異なる発話として、会話者U2による「お座敷があるといいね」という発話があったと判定される。
認識対象となる音声の始端を特定すると、情報検索装置100は、認識対象となる音声の終端を特定する(ステップS110)。
認識対象となる音声の終端を特定すると、情報検索装置100は、認識結果特定処理(第2認識結果特定処理)を実行する(ステップS111)。すなわち、情報検索装置100は、第2認識結果を特定する処理を実行する。具体的には、始端と終端とが定められた音声データと音響データに基づいて「お座敷があるといいね」という文章が抽出される。この抽出された文章、言語モデルデータ、および意味推定データとに基づいて検索条件子を含めた『AND「座敷」』という検索キーワードが認識結果として特定される。
第2認識結果を特定すると、情報検索装置100は、ステップS108に移行し、異なる発話があるか否かを判定する。このように、第2認識結果を特定する処理は、異なる発話がおこなわれる限りループする。また、本例では最初の発話の認識結果を第1認識結果とし、その後の発話の認識結果は全て第2認識結果とするように構成されている。
一方で、異なる発話が無いと判定したとき(ステップS108のN)には、情報検索装置100は、認識結果に基づいて情報検索を行う(ステップS112)。本例であれば、『「半径1km以内」AND「現在日時、現在値エリアの旬情報」AND「魚料理」AND「お座敷」』という検索条件にて情報検索が行われる。
なお、前回の発話から所定の時間(例えば、1秒)が経過した場合や、ユーザから会話終了指示を受け付けた場合や、会話における会話が終了したことを示す単語を検出した場合などに、異なる発話が無いとの判定が行われるように構成されていてもよい。
また、本例では、異なる発話(会話者U2による発話)があるため、第1認証結果に対して第2認証結果を付加して検索を行うこととなる。しかしながら、第2認証結果を特定することなく発話が終了した場合には、第1認識結果のみに基づいた検索も実行されることとなる。
認証結果に基づいて情報を検索する処理が行われると、情報検索装置100は、検索結果を表示装置に表示する(ステップS113)。検索結果を表示装置に表示すると、情報検索装置100は、情報検索処理を終了する。
以上、情報検索処理の例について説明した。次に、ウェアラブル端末200〜20Nにて実行される発話開始情報送信処理の例について説明する。
図6は、ウェアラブル端末200にて実行される発話開始情報送信処理の例を示すフローチャートである。ここでは、会話者U1が備えるウェアラブル端末200にて実行される発話開始情報送信処理の例を説明するが、他のウェアラブル端末(201〜20N)でも同様の処理が実行されるものとする。
発話開始情報送信処理において、先ず、ウェアラブル端末200は、情報検索装置100から生体情報の推移を特定可能な状態に移行させるための指示情報を受信する(ステップS201)。
生体情報の推移を特定可能な状態に移行させるための指示情報を受信したウェアラブル端末200は、生体情報取得状態に移行する(ステップS202)。すなわち、ウェアラブル端末200は、生体情報を特定する。本例では、脈波センサが会話者U1の脈波データを特定する。
そして、ウェアラブル端末200は、特定した生体情報と、照合用データとを照合する(ステップS203)。すなわち、生体情報と照合用データとの一致度合いを特定する。
データ照合が行われると、ウェアラブル端末200は、発話の開始が特定できたか否かを判定する(ステップS204)。具体的には、生体情報と照合用データとの一致度合いが所定の閾値を超えているか否かを判定する。
なお、本例の判定処理は、「発話の開始が特定できるか否か」を判定する構成とされているが、「発話が開始される直前であるか否か」を判定する構成とされていてもよい。すなわち、「発話のタイミング」を特定するように構成されていてもよい。
また、脈波ではなく、脈拍や体温などの数値を計測可能なデータに基づいて判定を行う場合には、閾値となる所定の数値を超えているか否かを判定するように構成されていてもよい。このような構成によっても、ウェアラブル端末のユーザ(会話者)による発話開始時を特定することが可能である。
発話の開始が特定できないと判定したとき(ステップS204のN)は、ウェアラブル端末200は、発話開始情報送信処理を終了するか否かを判定する(ステップS206)。上述した、情報検索処理では特に言及していないが、発話開始情報送信処理を終了する否かの判定は、情報検索装置100から情報検索処理が終了したことを示す情報を受信したか否かを判定することにより行われるように構成されていればよい。
一方で、発話の開始が特定できた判定したとき(ステップS204のY)には、ウェアラブル端末200は、ペアリングしている情報検索装置100に対して発話の開始を示す発話開始情報を送信する(ステップS205)。
発話開始情報送信処理を終了すると判定したとき(ステップS206のY)には、ウェアラブル端末200は、発話開始情報送信処理を終了する。一方で、発話開始情報送信処理を終了しないと判定したとき(ステップS206のN)には、ウェアラブル端末200は、再度ステップS203に移行してデータの照合を行う。
以上、発話開始情報送信処理の例について説明した。
以上に説明したように、本実施の形態に係る情報検索装置100は、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置であって、会話に参加する会話者が備えるウェアラブル端末と無線接続し、会話者による会話音声を取得し、ウェアラブル端末が当該ウェアラブル端末を備える会話者から取得した生体情報に基づいて特定した、発話の開始を示す発話開始情報を、当該ウェアラブル端末から受信し、会話音声と発話開始情報とに基づいて、会話音声の認識結果を特定し、認識結果に基づいて、情報を検索し、検索された検索結果を前記表示装置に表示する構成としている。特に、認識結果を特定するにあたり、会話音声と発話開始情報とに基づいて、会話音声における所定の発話と異なる発話を特定し、所定の発話の認識結果を第1認識結果として特定し、所定の発話と異なる発話の認識結果を第2認識結果として特定し、第1認識結果に対して第2認識結果を付加して検索を行う構成としている。このような構成によれば、発話の開始タイミングを特定することができるようになるため、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うことができるようになる。そのため、音声認識に基づく検索を行う際に、機械の返答を待つことなく、実際の対話で行われている会話内容に基づいた検索を実行することができるようになり、音声認識に基づいた情報検索の高度化を図ることができるようになる。
また、上述した実施の形態で説明したように、ウェアラブル端末(200〜20N)は、発話の開始が特定される生体の特徴を示す照合用データを記憶する照合用データ記憶部(221)を備え、生体情報(脈波)を特定し、取得した生体情報を照合用データと照合し、照合時の一致度合いに応じて発話が開始されるか否かを判定し、発話が開始されると判定したときに、発話開始情報を情報検索装置に送信するように構成される。
また、上述した実施の形態で説明したように、生体情報は、脈波、脈拍、心電、脳波、体温、および体動のうち少なくとも何れか1つであるように構成される。
なお、上述した実施の形態では特に言及していないが、情報検索装置100は、ウェアラブル端末(200〜20N)のうちの何れかと一体的に形成されるように構成されていてもよい。
また、上述した実施の形態では特に言及していないが、ウェアラブル端末200〜20Nは、情報検索装置100と同一の機能を含むように構成されていてもよい。すなわち、上述した実施の形態においては、ウェアラブル端末200〜20Nは、音声認識機能や、情報検索機能や、他のウェアラブル端末との接続機能などの情報検索装置100が有する機能を有さないように構成されていたが、ウェアラブル端末200〜20Nは、音声認識機能や、情報検索機能や、他のウェアラブル端末との接続機能などの情報検索装置100が有する機能を有するように構成されていてもよい。
また、上述した実施の形態における情報検索装置100およびウェアラブル端末200は、自己が備える記憶装置に記憶されている各種制御プログラムに従って、上述した各種の処理を実行する。
本発明は、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うのに有用である。
100 情報検索装置
10,210 制御部
11,211 接続処理部
12,212 通信処理部
13 認識結果特定部
14 情報検索部
20,220 記憶部
21 音響モデルデータ記憶部
22 言語モデルデータ記憶部
23 意味推定データ記憶部
30 メモリ
40 表示部
50,250 通信部
60,260 近距離無線通信部
70 入力部
200〜20N ウェアラブル端末
213 センサ情報処理部
214 判定部
215 照合用データ更新処理部
221 照合用データ記憶部
280 センサ部
300 近距離無線通信ネットワーク
1000 情報検索システム
S スマートフォン
W1,W2 ウェアラブル端末
U1,U2 会話者

Claims (6)

  1. 音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置であって、
    会話に参加する会話者が備えるウェアラブル端末と無線接続する接続手段と、
    前記会話者による会話音声を取得する音声取得手段と、
    前記ウェアラブル端末が当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信手段と、
    前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定手段と、
    前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第1認識結果を特定し、特定した前記第1認識結果に基づいて情報を検索する第1情報検索手段と、
    前記異なる発話が開始される前であると判定した場合には、前記第1認識結果を特定するとともに取得した前記異なる発話の第2認識結果を特定し、前記第1認識結果に対して前記第2認識結果を付加した認識結果に基づいて情報を検索する第2情報検索手段と、
    前記第1情報検索手段又は前記第2情報検索手段により検索された検索結果を前記表示装置に表示する表示手段とを含
    ことを特徴とする情報検索装置。
  2. 前記ウェアラブル端末は、
    発話の開始が特定される生体の特徴を示す照合用データを記憶する照合用データ記憶手段と、
    生体情報を特定する生体情報特定手段と、
    取得された生体情報を照合用データと照合する照合手段と、
    照合の一致度合いに応じて発話が開始されるか否かを判定する判定手段と、
    発話が開始されると判定したときに、前記発話開始情報を前記情報検索装置に送信する発話開始情報送信手段とを有する
    請求項1記載の情報検索装置。
  3. 前記生体情報は、脈波、脈拍、心電、脳波、体温、および体動のうち少なくとも何れか1つである
    請求項1または請求項2記載の情報検索装置。
  4. 複数の前記ウェアラブル端末のうちの何れかと一体的に形成される
    請求項1から請求項3のうち何れかに記載の情報検索装置。
  5. 音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示するように情報検索装置に動作制御させるための情報検索プログラムであって、
    前記情報検索装置に、
    会話に参加する会話者が備えるウェアラブル端末と無線接続する接続処理と、
    前記会話者による会話音声を取得する音声取得処理と、
    前記ウェアラブル端末が当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信処理と、
    前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定処理と、
    前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第1認識結果を特定し、特定した前記第1認識結果に基づいて情報を検索する第1情報検索処理と、
    前記異なる発話が開始される前であると判定した場合には、前記第1認識結果を特定するとともに取得した前記異なる発話の第2認識結果を特定し、前記第1認識結果に対して前記第2認識結果を付加した認識結果に基づいて情報を検索する第2情報検索処理と、
    前記第1情報検索処理又は前記第2情報検索処理により検索された検索結果を前記表示装置に表示する表示処理とを実行させる
    ための情報検索プログラム。
  6. 音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置と、会話に参加する会話者が備えるウェアラブル端末とを備える情報検索システムであって、
    前記情報検索装置は、
    前記ウェアラブル端末と無線接続する接続手段と、
    前記会話者による会話音声を取得する音声取得手段と、
    前記ウェアラブル端末が当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信手段と、
    前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定手段と、
    前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第1認識結果を特定し、特定した前記第1認識結果に基づいて情報を検索する第1情報検索手段と、
    前記異なる発話が開始される前であると判定した場合には、前記第1認識結果を特定するとともに取得した前記異なる発話の第2認識結果を特定し、前記第1認識結果に対して前記第2認識結果を付加した認識結果に基づいて情報を検索する第2情報検索手段と、
    前記第1情報検索手段又は前記第2情報検索手段により検索された検索結果を前記表示装置に表示する表示手段とを含
    ことを特徴とする情報検索システム。
JP2014147739A 2014-07-18 2014-07-18 情報検索装置、情報検索プログラム、および情報検索システム Active JP6081966B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014147739A JP6081966B2 (ja) 2014-07-18 2014-07-18 情報検索装置、情報検索プログラム、および情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014147739A JP6081966B2 (ja) 2014-07-18 2014-07-18 情報検索装置、情報検索プログラム、および情報検索システム

Publications (2)

Publication Number Publication Date
JP2016024589A JP2016024589A (ja) 2016-02-08
JP6081966B2 true JP6081966B2 (ja) 2017-02-15

Family

ID=55271307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014147739A Active JP6081966B2 (ja) 2014-07-18 2014-07-18 情報検索装置、情報検索プログラム、および情報検索システム

Country Status (1)

Country Link
JP (1) JP6081966B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11938958B2 (en) * 2018-08-06 2024-03-26 Nissan Motor Co., Ltd. Voice dialogue device, voice dialogue system, and control method for voice dialogue system
WO2021010056A1 (ja) * 2019-07-17 2021-01-21 ホシデン株式会社 マイクユニット

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2045798B1 (en) * 2007-03-29 2014-12-03 Panasonic Intellectual Property Corporation of America Keyword extracting device
JP2014013494A (ja) * 2012-07-04 2014-01-23 Nikon Corp 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム

Also Published As

Publication number Publication date
JP2016024589A (ja) 2016-02-08

Similar Documents

Publication Publication Date Title
US10832674B2 (en) Voice data processing method and electronic device supporting the same
US9742912B2 (en) Method and apparatus for predicting intent in IVR using natural language queries
JP6651973B2 (ja) 対話処理プログラム、対話処理方法および情報処理装置
CN109427333A (zh) 激活语音识别服务的方法和用于实现所述方法的电子装置
TWI613641B (zh) 將文字資料之內容輸出成發送者之語音的方法與系統
JP6122642B2 (ja) 機能実行システム及び発話例出力方法
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
CN105874531B (zh) 终端设备、服务器设备以及计算机可读记录介质
US10791072B2 (en) Generating conversations for behavior encouragement
KR20190046631A (ko) 자연어 프로세싱을 위한 시스템 및 방법
WO2016183961A1 (zh) 智能设备的界面切换方法、系统、设备及非易失性计算机存储介质
US10430896B2 (en) Information processing apparatus and method that receives identification and interaction information via near-field communication link
JP2020067658A (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
EP3179472A1 (en) Method and device for recording and analyzing data from a microphone
US11415429B2 (en) Control apparatus and control system
JPWO2014013886A1 (ja) 情報処理装置、サーバ、情報処理方法、および情報処理システム
CN103426429B (zh) 语音控制方法和装置
Alexenko et al. Android-based speech processing for eldercare robotics
JP6081966B2 (ja) 情報検索装置、情報検索プログラム、および情報検索システム
US20210272564A1 (en) Voice processing device, voice processing method, and recording medium
JP5993421B2 (ja) 会話処理システム及びプログラム
JP2020160425A (ja) 評価システム、評価方法、及びコンピュータプログラム。
US20220059080A1 (en) Realistic artificial intelligence-based voice assistant system using relationship setting
KR20220109238A (ko) 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법
JP2019175052A (ja) 介護行為推定システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170119

R150 Certificate of patent or registration of utility model

Ref document number: 6081966

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250