JP6081966B2

JP6081966B2 - 情報検索装置、情報検索プログラム、および情報検索システム

Info

Publication number: JP6081966B2
Application number: JP2014147739A
Authority: JP
Inventors: 浩司広瀬; 未来将原野; 紗菜草信; 浩子皆本
Original assignee: キャンバスマップル株式会社
Priority date: 2014-07-18
Filing date: 2014-07-18
Publication date: 2017-02-15
Anticipated expiration: 2034-07-18
Also published as: JP2016024589A

Description

本発明は、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置、当該情報検索装置に所定の動作を実行させるための情報検索プログラム、および情報検索システムに関するものである。

近年、音声認識を用いて各種処理を実行する登場してきた。特に、音声認識の認識結果に基づいて情報を検索する装置が提供されている（例えば、特許文献１）。

特許文献１には、認識文字列を表示する表示エリアを有する表示部を設け、操作入力部の入力によって挿入された区切り文字によって分離されて表示部の表示エリアに表示される技術が開示されている。これにより、特許文献１に記載の技術は、音声で複数個の文字情報（キーワード）を入力する場合に、容易な操作でキーワードの追加、削除、変更等の編集処理を行える。

特開２０１０−２８３０号公報

しかしながら、特許文献１のような技術は、認識文字列を複数個入力する場合に、入力操作を必要とする。入力操作により音声認識精度は向上するものの、一連の情報入力において入力者に要求するタスクが増え、煩わしさがあるという課題があった。すなわち、通常行われる会話から精度高く高度な音声認識を行うことができる技術が求められていた。

本発明は、上記の問題を解決すべく、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うことを目的とする。

本発明に係る情報検索装置は、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置であって、会話に参加する会話者が備えるウェアラブル端末と無線接続する接続手段と、前記会話者による会話音声を取得する音声取得手段と、前記ウェアラブル端末が、当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信手段と、前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定手段と、前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第１認識結果を特定し、特定した前記第１認識結果に基づいて情報を検索する第１情報検索手段と、前記異なる発話が開始される前であると判定した場合には、前記第１認識結果を特定するとともに取得した前記異なる発話の第２認識結果を特定し、前記第１認識結果に対して前記第２認識結果を付加した認識結果に基づいて情報を検索する第２情報検索手段と、前記第１情報検索手段又は前記第２情報検索手段により検索された検索結果を前記表示装置に表示する表示手段とを含むことを特徴とする。

上記の構成としたことで、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うことができるようになる。

前記ウェアラブル端末は、発話の開始が特定される生体の特徴を示す照合用データを記憶する照合用データ記憶手段と、生体情報を特定する生体情報特定手段と、取得された生体情報を照合用データと照合する照合手段と、照合の一致度合いに応じて発話が開始されるか否かを判定する判定手段と、発話が開始されると判定したときに、前記発話開始情報を前記情報検索装置に送信する発話開始情報送信手段とを有する構成とされていてもよい。

前記生体情報は、脈波、脈拍、心電、脳波、体温、および体動のうち少なくとも何れか１つである構成とされていてもよい。

複数の前記ウェアラブル端末のうちの何れかと一体的に形成される構成とされていてもよい。

また、本発明の情報検索プログラムは、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示するように情報検索装置に動作制御させるための情報検索プログラムであって、前記情報検索装置に、会話に参加する会話者が備えるウェアラブル端末と無線接続する接続処理と、前記会話者による会話音声を取得する音声取得処理と、前記ウェアラブル端末が、当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信処理と、前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定処理と、前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第１認識結果を特定し、特定した前記第１認識結果に基づいて情報を検索する第１情報検索処理と、前記異なる発話が開始される前であると判定した場合には、前記第１認識結果を特定するとともに取得した前記異なる発話の第２認識結果を特定し、前記第１認識結果に対して前記第２認識結果を付加した認識結果に基づいて情報を検索する第２情報検索処理と、前記第１情報検索処理又は前記第２情報検索処理により検索された検索結果を前記表示装置に表示する表示処理とを実行させるものである。

また、本発明の情報検索システムは、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置と、会話に参加する会話者が備えるウェアラブル端末とを備える情報検索システムであって、前記情報検索装置は、前記ウェアラブル端末と無線接続する接続手段と、前記会話者による会話音声を取得する音声取得手段と、前記ウェアラブル端末が、当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信手段と、前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定手段と、前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第１認識結果を特定し、特定した前記第１認識結果に基づいて情報を検索する第１情報検索手段と、前記異なる発話が開始される前であると判定した場合には、前記第１認識結果を特定するとともに取得した前記異なる発話の第２認識結果を特定し、前記第１認識結果に対して前記第２認識結果を付加した認識結果に基づいて情報を検索する第２情報検索手段と、前記第１情報検索手段又は前記第２情報検索手段により検索された検索結果を前記表示装置に表示する表示手段とを含むことを特徴とする。

本発明によれば、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うことができるようになる。

情報検索システムの構成例を示すブロック図である。情報検索装置の構成例を示すブロック図である。ウェアラブル端末の構成の例を示すブロック図である。情報検索システムの概念を説明するための概念図である。情報検索処理の例を示すフローチャートである。発話開始情報送信処理の例を示すフローチャートである。

以下、本発明の一実施の形態について図面を参照して説明する。本実施の形態に係る情報検索システム１０００は、複数人で発話された会話内容に基づいて情報検索処理を行い、検索した情報を表示装置に表示するものである。

図１は、情報検索システム１０００の構成の例を示すブロック図である。図１に示すように、情報検索システム１０００は、情報検索装置１００と、ウェアラブル端末２００〜２０Ｎとを含む。情報検索装置１００は、ウェアラブル端末２００〜２０Ｎそれぞれと近距離無線通信ネットワーク３００を介して接続する。なお、以下で行う説明では、特に必要な場合を除き、ウェアラブル端末２００〜２０Ｎのうちウェアラブル端末２００を例にして説明し、ウェアラブル端末２０１〜２０Ｎは、ウェアラブル端末２００と同様の構成を備えるものとする。

図２は、情報検索装置１００の構成の例を示すブロック図である。情報検索装置１００は、モバイルタイプのパーソナルコンピュータ、ＰＮＤ（Portable Navigation Device）や専用デバイスなどの情報処理装置によって構成されるものである。以下、情報検索装置１００が、ユーザにより携帯されるスマートフォンである場合について説明する。

図２に示すように、情報検索装置１００は、制御部１０と、記憶部２０と、メモリ３０と、出力部４０と、通信部５０と、近距離無線通信部６０と、入力部７０とを含む。なお、特に図示しないが、情報検索装置１００は、一般的な情報検索装置としての機能を発揮するための構成を有する。

制御部１０は、例えばＣＰＵにより構成される。ＣＰＵなどにより構成される制御部１０は、記憶部２０に記憶された各種プログラムに従い、情報検索装置１００を構成する各要素を統括制御し、各種情報を検索する情報検索処理等の各種処理を実行するための機能を有する。制御部１０の詳細な説明は後で行う。

記憶部２０は、情報検索装置１００が使用する各種コンピュータプログラムや、情報検索装置として必要な各種情報を格納する記憶媒体である。例えば、記憶部２０は、ＲＯＭやＲＡＭなどで構成される。なお、特に図示しないが、記憶部２０は、システムソフトウェアおよびアプリケーションソフトウェア等の各種プログラムを格納するプログラム記憶部を含む。記憶部２０の詳細な説明は後で行う。

メモリ３０は、制御部１０が処理する各種情報を一時的に保持する記憶媒体である。例えば、メモリ３０は、ＲＡＭなどの半導体記憶装置により構成される。

表示部４０は、各種情報をユーザが認識可能な形で出力する機能を有する。表示部４０は、例えば、画像情報を表示する表示装置（例えば、入力機能を併せ持つタッチパネルなど）により構成される。

通信部５０は、通信ネットワークを介してデータ通信を行うための機能を有する。例えば、通信部５０は、無線ＬＡＮなどの無線通信技術により構成される。

近距離無線通信部６０は、近距離無線通信ネットワークを介してデータ通信を行うための機能を有する。例えば、近距離無線通信部６０は、ＺＩＧＢＥＥ（登録商標）やＢＬＵＥＴＯＯＴＨ（登録商標）などの近距離無線通信技術により構成される。

なお、本例では、情報検索装置１００とウェアラブル端末２００〜２０Ｎそれぞれとの接続は、近距離無線通信ネットワーク技術により行われることとしているが、リアルタイム性が損なわれない範囲において、インターネットなどの通信ネットワークを介したデータ通信が行われるように構成されていてもよい。

入力部７０は、ユーザからの指示を受け付ける機能や、音声を取得する機能を備える。すなわち、入力部７０は、音声取得手段を含む。入力部７０は、例えば、仮想的ボタンや物理的ボタン、およびマイクにより構成される。

次に制御部１０の詳細な説明を行う。
制御部１０は、接続処理部１１と、通信処理部１２と、認識結果特定部１３と、情報検索部１４とを含む。

接続処理部１１は、ウェアラブル端末２００〜２０Ｎそれぞれとペアリング処理を行うことにより通信を行える状態にする処理を実行する。

通信処理部１２は、通信部５０および近距離無線通信部６０により各種情報の送受信を行うための処理を実行する機能を有する。本例においては、通信処理部１２は、通信ネットワークを介して、ＷＥＢ上のデータを取得する処理を実行するための機能や、ウェアラブル端末２００〜２０Ｎから所定のデータを受信する処理を実行する。

認識結果特定部１３は、入力部７０（例えば、マイク）により取得した（音声取得手段により取得した）会話音声を所定のサンプリング周波数に基づいてＡ／Ｄ変換してデジタル音響信号を取得する処理や、取得したデジタル音響信号やモデルデータに基づいて発話者と発話内容とを含む認識結果を特定する処理を実行する。

情報検索部１４は、認識結果特定部１３により特定された認識結果に基づいて、通信ネットワークを介してＷＥＢ上のデータを検索する処理を実行する。本例の情報検索では、ＷＥＢ上のデータを検索する場合を例にして説明を行うが、情報検索装置１００に格納されるファイルなどのデータを検索するように構成されていてもよい。

次に記憶部２０の詳細な説明を行う。
記憶部２０は、音響モデルデータ記憶部２１と、言語モデルデータ記憶部２２と、意味推定データ記憶部２３とを含む。

音響モデルデータ記憶部２１は、音響モデルデータを格納する記憶媒体である。本例の音響モデルデータは、標準化された音響モデルデータであって、声の音響的な特徴を所定のラベル単位でモデル化したデータである。なお、情報検索装置１００が、ウェアラブル端末２００〜２０Ｎを装着する者それぞれに対応する音響モデルデータをウェアラブル端末２００〜２０Ｎそれぞれから受信することにより、音響モデルデータ記憶部２１が、会話に参加している者それぞれの音響モデルデータを格納する構成とされていてもよい。

言語モデルデータ記憶部２２は、言語モデルデータを格納する記憶媒体である。言語モデルデータは、単語とその並び方の情報を集めてモデル化したデータである。認識結果を特定するときに、音響モデルデータと並行して利用して認識結果の精度を向上させる。

意味推定データ記憶部２３は、意味推定データを格納する記憶媒体である。意味推定データは、音声データに含まれる単語を関連する検索キーワードに置き換えるための情報である。例えば、音声データに「近く」という単語が含まれる場合には、「半径１ｋｍ以内」という検索キーワードに置き換えるためのデータが格納される。また、音声データに「新鮮」という単語が含まれる場合には、「現在日時、現在値エリアの旬情報」という検索キーワードに置き換えるためのデータが格納される。

なお、意味推定データは、推定処理を行う条件を含むように構成されていてもよい。例えば、意味推定データは音声データから特定される文章の前後の単語の内容を条件に含むように構成されていてもよい。具体的には、「魚」という単語が含まれる場合において、音声データから特定される文章の前後において「食事」に関する単語が含まれる場合には、「魚」という単語を「魚料理」という検索キーワードに置き換えるためのデータが意味推定データとして格納されていてもよい。

なお、本例では、意味推定データと言語モデルデータとが別々に記憶される構成としているが、意味推定データを含む言語モデルデータを記憶する構成とされていてもよい。

図３は、ウェアラブル端末２００の構成の例を示すブロック図である。ウェアラブル端末２００は、身につけて持ち歩くことができる情報処理装置であり、スマートフォンや、腕時計型端末や、ヘッドマウントディスプレイなどの情報処理装置によって構成される。

図３に示すように、ウェアラブル端末２００は、制御部２１０と、記憶部２２０と、通信部２５０と、近距離無線通信部２６０と、センサ部２８０とを含む。なお、特に図示しないが、情報検索装置１００は、一般的な情報検索装置としての機能を発揮するための構成を有する。

制御部２１０は、例えばＣＰＵにより構成され、記憶部２２０に記憶された各種プログラムに従い、ウェアラブル端末２００を構成する各要素を統括制御し、発話が開始したことを示す発話開始情報の送信処理などの各種処理を実行するための機能を有する。

記憶部２２０は、各種コンピュータプログラムなどの各種情報を格納する記憶媒体である。例えば、記憶部２０は、ＲＯＭやＲＡＭなどで構成される。

通信部２５０は、通信ネットワークを介してデータ通信を行うための機能を有する。例えば、通信部２５０は、無線ＬＡＮなどの無線通信技術により構成される。

近距離無線通信部２６０は、近距離無線通信ネットワークを介してデータ通信を行うための機能を有する。例えば、近距離無線通信部２６０は、ＺＩＧＢＥＥ（登録商標）やＢＬＵＥＴＯＯＴＨ（登録商標）などの近距離無線通信技術により構成される。

センサ部２８０は、生体情報を測定または判別する処理を実行する機能を有する。例えば、脈波センサなどにより構成される。測定または判別される生体情報は、脈拍、心電、脳波、体温、および体動などであってもよいし、これらの情報を複数測定するように構成されていてもよい。

次にウェアラブル端末２００が備える制御部２１０の詳細な説明を行う。
制御部２１０は、接続処理部２１１と、通信処理部２１２と、センサ情報処理部２１３と、判定部２１４と、照合用データ更新処理部２１５とを含む。

接続処理部２１１は、情報検索装置１００とペアリング処理を行うことにより通信を行える状態にする処理を実行するための機能を有する。

通信処理部２１２は、近距離無線通信部２６０により各種情報の送受信を行うための処理を実行する機能を有する。本例においては、通信処理部２１２は、近距離無線通信ネットワークを介して情報検索装置１００に所定のデータ（例えば、発話開始情報）を送信する処理を実行するための機能などを有する。

センサ情報処理部２１３は、センサ部２８０により測定または判別された情報をデジタル信号に変換する処理を実行する。

判定部２１４は、センサ情報処理部２１３により得られた生体情報と、記憶部２２０に格納する照合用データとに基づいて発話が開始されるか否かを判定する処理を実行する。発話が開始されると判定したときには、判定部２１４は、発話の開始を示す発話開始情報を情報検索装置１００に送信するように通信処理部２１２に指示する。

照合用データ更新処理部２１５は、ウェアラブル端末２００上で発話テストを行い、発話が行われる際のユーザの反応に関するデータを特定し、ウェアラブル端末２００のユーザ固有の照合用データとするための更新処理を実行する。また、照合用データ更新処理部２１５は、照合用データを、本システムを管理する装置（特に図示しないが、例えば、情報検索システム管理サーバなど）から送信されるより照合精度の高いデータに更新する処理を実行する。

次にウェアラブル端末２００が備える記憶部２２０の詳細な説明を行う。
記憶部２２０は、システムソフトウェアおよびアプリケーションソフトウェア等の各種プログラムを格納するプログラム記憶部と照合用データ記憶部２２１とを含む。

照合用データ記憶部２２１は、発話時に出力されることが予測される照合用データを格納する記憶媒体である。本例の照合用データは、照合用データ更新処理により適宜更新される。また、照合用データは、発話の開始時または発話の開始直前の生体の特徴を表したものである。

本例の照合用データは、各ウェアラブル端末２００〜２０Ｎを備える会話者個々に定義されたデータである。このような構成によれば、複数の者が会話に参加している場合でも、ウェアラブル端末は、精度高く取り付けられている会話者の発話を特定することができるようになる。すなわち、会話者が複数になる場合であっても、会話に参加する参加者個々に定義されたデータに基づいて発話の開始を精度高く特定することができるようになる。そのため、認識精度の高い音声認識技術を提供することができるようになる。

以上、情報検索システム１０００の構成について説明した。次に情報検索システム１０００の概念について説明する。

図４は、スマートフォンＳ（例えば、情報検索装置１００）と、ウェアラブル端末Ｗ１，Ｗ２（例えば、ウェアラブル端末２００，２０１）とで構成されるシステム（情報検索システム１０００）にて構築される情報検索システムを説明するための概念図である。ここでは、会話者（それぞれ、Ｕ１およびＵ２）は、それぞれ、ウェアラブル端末Ｗ１，ウェアラブル端末Ｗ２取り付けているものとして説明する。また、スマートフォンＳは、ウェアラブル端末Ｗ１，Ｗ２のそれぞれとペアリングされているものとして説明する。

図４に示すように、まず会話者Ｕ１は、自己が管理するスマートフォンＳの音声認識機能をＯＮする。音声認識機能がＯＮにされた状態で、会話者Ｕ１が「近くで新鮮な魚料理が食べられる店」と発話し、その発話に対して会話者Ｕ２が「お座敷があるといいね」という会話が行われるとする。この会話は、スマートフォンＳにより取得される。

スマートフォンＳにより会話が取得されているときに、会話者Ｕ１およびＵ２に取り付けられるウェアラブル端末Ｗ１，Ｗ２は、センシング対象の会話者の発話直前の動きを察知する。発話直前の動きを察知すると、ウェアラブル端末Ｗ１，Ｗ２は、センシング対象の会話者が発話直前であることを示す情報をスマートフォンＳに送信する。

ウェアラブル端末Ｗ１，Ｗ２より送信された情報に基づいて、「近くで新鮮な魚料理が食べられる店」と、「お座敷があるといいね」という発話が異なる発話内容であることを特定したスマートフォンＳは、最初の発話の認識結果に対して、最初の発話とは異なる発話の認識結果を付加して情報検索を行う。すなわち、「近くで新鮮な魚料理が食べられる店」という発話から得られた認識結果『「半径１ｋｍ以内」ＡＮＤ「現在日時、現在値エリアの旬情報」ＡＮＤ「魚料理」』に対して、「お座敷があるといいね」という発話から得られた認識結果『ＡＮＤ「お座敷」』という検索条件を付加してＷＥＢ検索を行う。

その検索結果がスマートフォンＳの画面上に表示される。このようにして、音声認識に基づいた情報検索が実行される。

以上、情報検索システム１０００の概念について説明した。次に、情報検索システム１０００の動作について図面を参照して説明する。なお、本発明に特に係わらない処理については、その詳細な説明を省略している場合がある。

図５は、情報検索システム１０００における情報検索装置１００が実行する情報検索処理の例を示すフローチャートである。情報検索処理では、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する処理が実行される。

なお、本例の情報検索処理においては、図４の概念図で示した状況を例にして説明を行う。すなわち、情報検索装置１００を管理する会話者Ｕ１がウェアラブル端末２００を取り付けている状況において、会話者Ｕ１と、ウェアラブル端末２０１を取り付けている会話者Ｕ２との会話を用いて検索が行われる場合を例にして説明を行う。より詳しく言えば、会話者Ｕ１が「近くで新鮮な魚料理が食べられる店」という発話を行い、その発話に対して会話者Ｕ２が「お座敷があるといいね」という発話を行った場合に実行される情報検索処理を例にして説明を行う。なお、本例では、情報検索装置１００とウェアラブル端末２００〜２０１とがペアリング処理されており、情報検索装置１００とウェアラブル端末２００〜２０１それぞれとが近距離無線通信を行える状況とされているものとする。また、ペアリングされているウェアラブル端末の数は、３以上でもよい。

情報検索処理において、先ず、情報検索装置１００は、情報検索装置１００のユーザによる処理開始指示を受け付ける（ステップＳ１０１）。例えば、情報検索装置１００は、会話者Ｕ１から情報検索装置１００の表示装置に表示される検索処理開始アイコン（仮想的ボタン）の選択操作を受け付ける。

処理開始時を受け付けると、情報検索装置１００は、ペアリング済のウェアラブル端末２００，２０１に対して生体情報の推移を特定可能な状態に移行させるための指示情報を送信する（ステップＳ１０２）。

そして、ウェアラブル端末に対する指示情報の送信とともに、情報検索装置１００は、音声データを取得可能な状態にする（ステップＳ１０３）。

音声データを取得可能な状態にすると、情報検索装置１００は、ペアリング済のウェアラブル端末２００，２０１から発話開始情報を受信したか否かを判定する（ステップＳ１０４）。本例では、会話者Ｕ１が発話したことにより特定された発話開始情報がウェアラブル端末２００，２０１から受信したか否かを判定する。なお、このときの発話開始情報の特定に関する処理については、後で詳しく説明する。

発話開始情報を受信していないと判定したとき（ステップＳ１０４のＮ）には、情報検索装置１００は、再度ステップＳ１０４に移行し、発話開始情報を受信したか否かを判定する。

一方で、発話開始情報を受信したと判定したとき（ステップＳ１０４のＹ）には、情報検索装置１００は、音声データのうち認識対象となる音声の始端を特定する（ステップＳ１０５）。すなわち、音声データにおける「近くで新鮮な魚料理が食べられる店」の「ち」にあたる部分が特定される。

認識対象となる音声の始端を特定すると、情報検索装置１００は、認識対象となる音声の終端を特定する（ステップＳ１０６）。すなわち、音声データにおける「近くで新鮮な魚料理が食べられる店」の「せ」にあたる部分が特定される。

認識対象となる音声の終端を特定すると、情報検索装置１００は、認識結果特定処理（第１認識結果特定処理）を実行する（ステップＳ１０７）。すなわち、情報検索装置１００は、第１認識結果を特定する処理を実行する。

ここで、認識結果特定処理について詳細に説明する。認識結果特定処理では、先ず情報検索装置１００が、始端と終端が特定された音声データと音響モデルデータと言語モデルデータとに基づいて検索に用いるキーワード（検索キーワード）を特定する。より具体的に言えば、本例では、情報検索装置１００が、音声データと音響モデルデータとに基づいて、「近くで新鮮な魚料理が食べられる店」という文章を特定し、当該文章から言語モデルデータと意味推定データとに基づいて検索条件子を含めた『「半径１ｋｍ以内」ＡＮＤ「現在日時、現在値エリアの旬情報」ＡＮＤ「魚料理」』という検索キーワードが認識結果として特定される。

なお、本例の認識結果特定処理は、第１認識結果特定処理と第２認識結果特定処理との２種類に分けて説明しているが、その処理の内容は同じである。処理対象となる発話が異なるため、別々の名称を付けて説明をしている。すなわち、最初にされた発話（請求項における「所定の発話」）に対する処理を第１認識結果特定処理とし、最初の発話とは異なる発話に対する処理を第２認識結果特定処理として説明している。

認識結果が特定されると、情報検索装置１００は、異なる発話があるか否かを判定する（ステップＳ１０８）。すなわち、情報検索装置１００は、新たに発話開始情報を受信したか否かを判定する。

異なる発話があると判定したとき（ステップＳ１０８のＹ）には、認識対象となる音声の始端を特定する（ステップ１０９）。本例では、会話者Ｕ１による「近くで新鮮な魚料理が食べられる店」という発話とは異なる発話として、会話者Ｕ２による「お座敷があるといいね」という発話があったと判定される。

認識対象となる音声の始端を特定すると、情報検索装置１００は、認識対象となる音声の終端を特定する（ステップＳ１１０）。

認識対象となる音声の終端を特定すると、情報検索装置１００は、認識結果特定処理（第２認識結果特定処理）を実行する（ステップＳ１１１）。すなわち、情報検索装置１００は、第２認識結果を特定する処理を実行する。具体的には、始端と終端とが定められた音声データと音響データに基づいて「お座敷があるといいね」という文章が抽出される。この抽出された文章、言語モデルデータ、および意味推定データとに基づいて検索条件子を含めた『ＡＮＤ「座敷」』という検索キーワードが認識結果として特定される。

第２認識結果を特定すると、情報検索装置１００は、ステップＳ１０８に移行し、異なる発話があるか否かを判定する。このように、第２認識結果を特定する処理は、異なる発話がおこなわれる限りループする。また、本例では最初の発話の認識結果を第１認識結果とし、その後の発話の認識結果は全て第２認識結果とするように構成されている。

一方で、異なる発話が無いと判定したとき（ステップＳ１０８のＮ）には、情報検索装置１００は、認識結果に基づいて情報検索を行う（ステップＳ１１２）。本例であれば、『「半径１ｋｍ以内」ＡＮＤ「現在日時、現在値エリアの旬情報」ＡＮＤ「魚料理」ＡＮＤ「お座敷」』という検索条件にて情報検索が行われる。

なお、前回の発話から所定の時間（例えば、１秒）が経過した場合や、ユーザから会話終了指示を受け付けた場合や、会話における会話が終了したことを示す単語を検出した場合などに、異なる発話が無いとの判定が行われるように構成されていてもよい。

また、本例では、異なる発話（会話者Ｕ２による発話）があるため、第１認証結果に対して第２認証結果を付加して検索を行うこととなる。しかしながら、第２認証結果を特定することなく発話が終了した場合には、第１認識結果のみに基づいた検索も実行されることとなる。

認証結果に基づいて情報を検索する処理が行われると、情報検索装置１００は、検索結果を表示装置に表示する（ステップＳ１１３）。検索結果を表示装置に表示すると、情報検索装置１００は、情報検索処理を終了する。

以上、情報検索処理の例について説明した。次に、ウェアラブル端末２００〜２０Ｎにて実行される発話開始情報送信処理の例について説明する。

図６は、ウェアラブル端末２００にて実行される発話開始情報送信処理の例を示すフローチャートである。ここでは、会話者Ｕ１が備えるウェアラブル端末２００にて実行される発話開始情報送信処理の例を説明するが、他のウェアラブル端末（２０１〜２０Ｎ）でも同様の処理が実行されるものとする。

発話開始情報送信処理において、先ず、ウェアラブル端末２００は、情報検索装置１００から生体情報の推移を特定可能な状態に移行させるための指示情報を受信する（ステップＳ２０１）。

生体情報の推移を特定可能な状態に移行させるための指示情報を受信したウェアラブル端末２００は、生体情報取得状態に移行する（ステップＳ２０２）。すなわち、ウェアラブル端末２００は、生体情報を特定する。本例では、脈波センサが会話者Ｕ１の脈波データを特定する。

そして、ウェアラブル端末２００は、特定した生体情報と、照合用データとを照合する（ステップＳ２０３）。すなわち、生体情報と照合用データとの一致度合いを特定する。

データ照合が行われると、ウェアラブル端末２００は、発話の開始が特定できたか否かを判定する（ステップＳ２０４）。具体的には、生体情報と照合用データとの一致度合いが所定の閾値を超えているか否かを判定する。

なお、本例の判定処理は、「発話の開始が特定できるか否か」を判定する構成とされているが、「発話が開始される直前であるか否か」を判定する構成とされていてもよい。すなわち、「発話のタイミング」を特定するように構成されていてもよい。

また、脈波ではなく、脈拍や体温などの数値を計測可能なデータに基づいて判定を行う場合には、閾値となる所定の数値を超えているか否かを判定するように構成されていてもよい。このような構成によっても、ウェアラブル端末のユーザ（会話者）による発話開始時を特定することが可能である。

発話の開始が特定できないと判定したとき（ステップＳ２０４のＮ）は、ウェアラブル端末２００は、発話開始情報送信処理を終了するか否かを判定する（ステップＳ２０６）。上述した、情報検索処理では特に言及していないが、発話開始情報送信処理を終了する否かの判定は、情報検索装置１００から情報検索処理が終了したことを示す情報を受信したか否かを判定することにより行われるように構成されていればよい。

一方で、発話の開始が特定できた判定したとき（ステップＳ２０４のＹ）には、ウェアラブル端末２００は、ペアリングしている情報検索装置１００に対して発話の開始を示す発話開始情報を送信する（ステップＳ２０５）。

発話開始情報送信処理を終了すると判定したとき（ステップＳ２０６のＹ）には、ウェアラブル端末２００は、発話開始情報送信処理を終了する。一方で、発話開始情報送信処理を終了しないと判定したとき（ステップＳ２０６のＮ）には、ウェアラブル端末２００は、再度ステップＳ２０３に移行してデータの照合を行う。

以上、発話開始情報送信処理の例について説明した。

以上に説明したように、本実施の形態に係る情報検索装置１００は、音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置であって、会話に参加する会話者が備えるウェアラブル端末と無線接続し、会話者による会話音声を取得し、ウェアラブル端末が当該ウェアラブル端末を備える会話者から取得した生体情報に基づいて特定した、発話の開始を示す発話開始情報を、当該ウェアラブル端末から受信し、会話音声と発話開始情報とに基づいて、会話音声の認識結果を特定し、認識結果に基づいて、情報を検索し、検索された検索結果を前記表示装置に表示する構成としている。特に、認識結果を特定するにあたり、会話音声と発話開始情報とに基づいて、会話音声における所定の発話と異なる発話を特定し、所定の発話の認識結果を第１認識結果として特定し、所定の発話と異なる発話の認識結果を第２認識結果として特定し、第１認識結果に対して第２認識結果を付加して検索を行う構成としている。このような構成によれば、発話の開始タイミングを特定することができるようになるため、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うことができるようになる。そのため、音声認識に基づく検索を行う際に、機械の返答を待つことなく、実際の対話で行われている会話内容に基づいた検索を実行することができるようになり、音声認識に基づいた情報検索の高度化を図ることができるようになる。

また、上述した実施の形態で説明したように、ウェアラブル端末（２００〜２０Ｎ）は、発話の開始が特定される生体の特徴を示す照合用データを記憶する照合用データ記憶部（２２１）を備え、生体情報（脈波）を特定し、取得した生体情報を照合用データと照合し、照合時の一致度合いに応じて発話が開始されるか否かを判定し、発話が開始されると判定したときに、発話開始情報を情報検索装置に送信するように構成される。

また、上述した実施の形態で説明したように、生体情報は、脈波、脈拍、心電、脳波、体温、および体動のうち少なくとも何れか１つであるように構成される。

なお、上述した実施の形態では特に言及していないが、情報検索装置１００は、ウェアラブル端末（２００〜２０Ｎ）のうちの何れかと一体的に形成されるように構成されていてもよい。

また、上述した実施の形態では特に言及していないが、ウェアラブル端末２００〜２０Ｎは、情報検索装置１００と同一の機能を含むように構成されていてもよい。すなわち、上述した実施の形態においては、ウェアラブル端末２００〜２０Ｎは、音声認識機能や、情報検索機能や、他のウェアラブル端末との接続機能などの情報検索装置１００が有する機能を有さないように構成されていたが、ウェアラブル端末２００〜２０Ｎは、音声認識機能や、情報検索機能や、他のウェアラブル端末との接続機能などの情報検索装置１００が有する機能を有するように構成されていてもよい。

また、上述した実施の形態における情報検索装置１００およびウェアラブル端末２００は、自己が備える記憶装置に記憶されている各種制御プログラムに従って、上述した各種の処理を実行する。

本発明は、実際の会話音声から精度高く認識した認識結果に基づいた情報検索を行うのに有用である。

１００情報検索装置
１０，２１０制御部
１１，２１１接続処理部
１２，２１２通信処理部
１３認識結果特定部
１４情報検索部
２０，２２０記憶部
２１音響モデルデータ記憶部
２２言語モデルデータ記憶部
２３意味推定データ記憶部
３０メモリ
４０表示部
５０，２５０通信部
６０，２６０近距離無線通信部
７０入力部
２００〜２０Ｎウェアラブル端末
２１３センサ情報処理部
２１４判定部
２１５照合用データ更新処理部
２２１照合用データ記憶部
２８０センサ部
３００近距離無線通信ネットワーク
１０００情報検索システム
Ｓスマートフォン
Ｗ１，Ｗ２ウェアラブル端末
Ｕ１，Ｕ２会話者

Claims

音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置であって、
会話に参加する会話者が備えるウェアラブル端末と無線接続する接続手段と、
前記会話者による会話音声を取得する音声取得手段と、
前記ウェアラブル端末が、当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信手段と、
前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定手段と、
前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第１認識結果を特定し、特定した前記第１認識結果に基づいて情報を検索する第１情報検索手段と、
前記異なる発話が開始される前であると判定した場合には、前記第１認識結果を特定するとともに取得した前記異なる発話の第２認識結果を特定し、前記第１認識結果に対して前記第２認識結果を付加した認識結果に基づいて情報を検索する第２情報検索手段と、
前記第１情報検索手段又は前記第２情報検索手段により検索された検索結果を前記表示装置に表示する表示手段とを含む
ことを特徴とする情報検索装置。
前記ウェアラブル端末は、
発話の開始が特定される生体の特徴を示す照合用データを記憶する照合用データ記憶手段と、
生体情報を特定する生体情報特定手段と、
取得された生体情報を照合用データと照合する照合手段と、
照合の一致度合いに応じて発話が開始されるか否かを判定する判定手段と、
発話が開始されると判定したときに、前記発話開始情報を前記情報検索装置に送信する発話開始情報送信手段とを有する
請求項１記載の情報検索装置。
前記生体情報は、脈波、脈拍、心電、脳波、体温、および体動のうち少なくとも何れか１つである
請求項１または請求項２記載の情報検索装置。
複数の前記ウェアラブル端末のうちの何れかと一体的に形成される
請求項１から請求項３のうち何れかに記載の情報検索装置。
音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示するように情報検索装置に動作制御させるための情報検索プログラムであって、
前記情報検索装置に、
会話に参加する会話者が備えるウェアラブル端末と無線接続する接続処理と、
前記会話者による会話音声を取得する音声取得処理と、
前記ウェアラブル端末が、当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信処理と、
前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定処理と、
前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第１認識結果を特定し、特定した前記第１認識結果に基づいて情報を検索する第１情報検索処理と、
前記異なる発話が開始される前であると判定した場合には、前記第１認識結果を特定するとともに取得した前記異なる発話の第２認識結果を特定し、前記第１認識結果に対して前記第２認識結果を付加した認識結果に基づいて情報を検索する第２情報検索処理と、
前記第１情報検索処理又は前記第２情報検索処理により検索された検索結果を前記表示装置に表示する表示処理とを実行させる
ための情報検索プログラム。
音声認識を用いて情報の検索を行い表示装置の表示画面に検索結果を表示する情報検索装置と、会話に参加する会話者が備えるウェアラブル端末とを備える情報検索システムであって、
前記情報検索装置は、
前記ウェアラブル端末と無線接続する接続手段と、
前記会話者による会話音声を取得する音声取得手段と、
前記ウェアラブル端末が、当該ウェアラブル端末を備える前記会話者から取得した生体情報に基づいて発話が開始される前であることを特定した場合に、発話が開始される前であることを示す発話開始情報を前記ウェアラブル端末から受信する発話開始情報受信手段と、
前記発話開始情報を受信したか否かに基づいて、前記会話音声のうち最初の発話が取得された後において、当該最初の発話とは異なる発話が開始される前であるか否かを判定する判定手段と、
前記異なる発話が開始される前ではないと判定した場合には、取得した前記最初の発話の第１認識結果を特定し、特定した前記第１認識結果に基づいて情報を検索する第１情報検索手段と、
前記異なる発話が開始される前であると判定した場合には、前記第１認識結果を特定するとともに取得した前記異なる発話の第２認識結果を特定し、前記第１認識結果に対して前記第２認識結果を付加した認識結果に基づいて情報を検索する第２情報検索手段と、
前記第１情報検索手段又は前記第２情報検索手段により検索された検索結果を前記表示装置に表示する表示手段とを含む
ことを特徴とする情報検索システム。