JP2014199490A

JP2014199490A - コンテンツ取得装置およびプログラム

Info

Publication number: JP2014199490A
Application number: JP2013073857A
Authority: JP
Inventors: 正樹大槻; Masaki Otsuki
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2014-10-23

Abstract

【課題】使用者は何らかの検索条件を入力しなければ情報を得ることができなかった。
【解決手段】コンテンツ取得装置であって、発話者からの音声および前記発話者の周囲の環境音を取得する音声取得部と、音声取得部により取得された発話者の音声および周囲の環境音をそれぞれ解析して文字情報を生成する音声解析部と、音声解析部により生成された、少なくとも発話者の音声に基づく文字情報を用いて検索したコンテンツと、少なくとも周囲の環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得部とを備える。
【選択図】図１

Description

本発明は、コンテンツ取得装置およびプログラムに関する。

近年、パーソナルコンピュータなどの検索装置から情報を検索する技術が知られている（例えば、特許文献１参照）。
［特許文献１］特開２００７−０１７９９０号公報

上記検索装置においては、使用者は何らかの検索条件を入力しなければ情報を得ることができなかった。

本発明の第一態様として、発話者からの音声および発話者の周囲の環境音を取得する音声取得部と、音声取得部により取得された発話者の音声および周囲の環境音をそれぞれ解析して文字情報を生成する音声解析部と、音声解析部により生成された、少なくとも発話者の音声に基づく文字情報を用いて検索したコンテンツと、少なくとも周囲の環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得部とを備えるコンテンツ取得装置が提供される。

本発明の第二態様として発話者からの音声および発話者の周囲の環境音を取得する音声取得機能と、音声取得機能により取得された発話者の音声および周囲の環境音をそれぞれ解析して文字情報を生成する音声解析機能と、音声解析機能により生成された、少なくとも発話者の音声に基づく文字情報を用いて検索したコンテンツと、少なくとも周囲の環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得機能とをコンピュータに実現させるプログラムが提供される。

上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。これら特徴群のサブコンビネーションもまた発明となり得る。

画像取得システムの一例を示す。画像取得システムの機能ブロック図を示す。会話データベースの一例を示す。環境データベースの一例を示す。属性データベースの一例を示す。画像取得処理の動作を説明するフローチャートである。会話が成立していると判断したときに表示される表示画像の一例を示す。会話が成立していないと判断したときに表示される表示画像の一例を示す。表示部に表示された表示画像の他の例を示す。類義語データベースの一例を示す。履歴データベースの一例を示す。画像取得システムの他の例を示す。上記画像取得システムの機能ブロック図を示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、画像取得システム１００の一例を示す。画像取得システム１００は、互いにネットワーク７０を介して通信する、画像取得装置４０と、画像検索装置６０と、端末２０とを有する。

端末２０は、２つの音声入力部２２および２４と、環境音入力部２６と、表示部３０とを有する。音声入力部２２は、発話者１０の音声を端末２０に入力する。音声入力部２４は、発話者１２の音声を端末２０に入力する。環境音入力部２６は、発話者１０および１２の周囲の環境音を端末２０に入力する。音声入力部２２および２４および環境音入力部２６の一例は、集音マイクであり、端末２０の一例は、パーソナルコンピュータである。なお、端末２０は、タブレット型のコンピュータであってもよく、スマートフォン等の携帯電話であってもよい。

端末２０に入力された各音声は、ネットワーク７０を介して画像取得装置４０に出力される。画像取得装置４０は、各音声から画像データを検索する画像検索式を作成する。画像取得装置４０は、当該検索式に適合する画像データを画像検索装置６０から取得する。画像取得装置４０は、当該画像データを端末２０に出力して、当該画像を表示部３０に表示させる。なお、画像は、コンテンツの一例である。画像に代えて、他のコンテンツ、例えば音楽、動画等であってもよい。

図２は、画像取得システム１００の機能ブロック図を示す。端末２０は、上記構成に加えて、音声出力部２８を有する。端末２０の音声入力部２２および２４は、発話者１０および１２の音声から音声データを生成して音声出力部２８に受け渡す。環境音入力部２６は、環境音から環境音データを生成して音声出力部２８に受け渡す。

音声出力部２８は、発話者１０および１２の音声データを音声入力部２２および２４の装置ＩＤに対応付けて画像取得装置４０へ出力する。音声出力部２８はさらに、環境音データを環境音入力部２６の装置ＩＤに対応付けて画像取得装置４０へ出力する。

画像取得装置４０は、音声取得部４２と、記録部４４と、音声解析部４６と、画像取得部４８とを有する。音声取得部４２は、端末の音声出力部２８の音声データおよび環境音データを取得して、当該音声データおよび環境音データをデジタルデータに変換する。

記録部４４は、会話データベース８０、環境データベース８２、属性データベース８４等を格納する。記録部４４は、画像取得装置４０を動作させるのに使用される他のデータを格納していてもよい。

音声解析部４６は、音声データおよび環境音データをそれぞれ解析して単語情報を生成する。音声解析部４６は、音声データから生成した単語情報を会話データベース８０に記録する。音声解析部４６はさらに、環境音データから生成した単語情報を、環境データベース８２に記録する。なお、単語情報は、文字情報の一例である。

音声解析部４６は、音声データに基づく単語情報を用いて画像を検索する画像検索式と、環境音データに基づく単語情報を用いて画像を検索する画像検索式とを作成する。画像取得部４８は、これらの画像検索式を画像検索装置６０へ出力して、画像検索式に適合する画像データを取得する。画像取得部４８は、音声データに基づく単語情報を用いて検索した画像データと、環境音データに基づく単語情報を用いて検索した画像データの少なくともいずれかを端末２０へ出力する。

画像検索装置６０は、画像検索部６２と、画像格納部６４とを有する。画像格納部６４には複数の画像に対応する画像データが格納されている。画像検索部６２は、画像取得部４８から出力された画像検索式に適合する画像データを、画像格納部６４に格納されている画像データの中から検索する。画像検索部６２は、画像検索式に適合した画像データを画像格納部６４から読み出して、画像取得部４８へ出力する。

画像取得装置４０の音声取得部４２、音声解析部４６および画像取得部４８の少なくとも一部の機能は、記録部４４に格納されたプログラムを読み出すことにより実行されてもよい。当該プログラムは、媒体から読み込まれて、記録部４４に格納されてもよく、ネットワーク７０から読み込まれて、記録部４４に格納されてもよい。

図３は、会話データベース８０の一例を示す。会話データベース８０には、発話者１０、１２の人物ＩＤと、装置ＩＤと、端末ＩＤと、単語情報とが記録される。人物ＩＤ欄には、画像取得システム１００の各使用者に割り付けられる記号が記録される。装置ＩＤ欄には、音声入力部２２、２４を識別する装置ＩＤが記録される。音声入力部２２、２４の装置ＩＤの一例は、音声入力部２２、２４のＩＰアドレスである。

端末ＩＤ欄には、発話者１０、１２が使用している端末２０を識別する端末ＩＤが記録される。単語情報欄には、人物ＩＤ欄に記録された発話者の音声データから生成された単語情報が記録される。なお、会話データベース８０の単語情報欄の初期値は空である。

図４は、環境データベース８２の一例を示す。環境データベース８２には、装置ＩＤと、端末ＩＤと、単語情報とが記録される。装置ＩＤ欄には、環境音入力部２６を識別する装置ＩＤが記録される。端末ＩＤ欄には、環境音入力部２６を備える端末２０を識別する端末ＩＤが記録される。単語情報欄には、環境音入力部２６から入力された音声データから生成された単語情報が記録される。なお、環境データベース８２の単語情報欄の初期値は空である。

図５は、属性データベース８４の一例を示す。属性データベース８４には、人物ＩＤに対応づけて、当該人物の性別、生年月日、出身地、仕事、好きなスポーツ、および趣味が記録される。画像取得システム１００の使用者は、端末２０を用いて当該システムの使用開始時に、属性データベース８４の各項目を入力する。端末２０に入力された各項目は、音声取得部４２に出力され、音声解析部４６から記録部４４に記録される。したがって、音声取得部４２は、属性取得部としての役割も果たす。

図６は、画像取得処理の動作を説明するフローチャートである。画像取得処理の動作は、発話者が端末２０から画像取得システム１００にログインすることによって開始する。

端末２０は、発話者１０および１２の入力を受け付け、ネットワーク７０を介して発話者１０および１２の人物ＩＤと各装置ＩＤとを、画像取得装置４０の音声取得部４２へ出力する。音声取得部４２は、ログインした発話者１０および１２の人物ＩＤと、各装置ＩＤと、端末ＩＤとを取得すると、音声解析部４６を介して、会話データベース８０と環境データベース８２に人物ＩＤと、各装置ＩＤと、端末ＩＤとを登録する（Ｓ１０１）。

音声取得部４２は、音声データおよび環境音データ（以後、音声データ等という）を音声入力部２２および２４、環境音入力部２６の装置ＩＤに対応づけて取得する（Ｓ１０２）。この場合に、音声取得部４２は、入力された音声データ等のうち、信号強度が予め定められた閾値以上の強度である部分を取り出し、当該音声データ等をデジタルデータに変換して、音声解析部４６へ出力する。音声出力部２８は、入力された音声データ等の信号強度が予め定められた閾値より弱い場合、音声取得部４２は、当該音声データ等を音声解析部４６へ出力しない。なお、環境音入力部２６の装置ＩＤに対応づけて入力される環境音データの閾値は、音声入力部２２および２４の装置ＩＤに対応づけて入力される音声データの閾値よりも低く設定してもよい。

音声解析部４６は、音声取得部４２から入力された音声データ等を記録部４４に記録する。音声解析部４６は、予め定められた時間の音声データ等が入力されるまで待機する（Ｓ１０３）。なお、予め定められた時間の一例は１０秒である。音声解析部４６は、予め定められた時間、音声データ等が入力された場合に（Ｓ１０３：Ｙｅｓ）、処理をステップＳ１０４へ進める。なお、音声取得部４２から入力された音声データ等を記録部４４に記録することは必須ではない。

音声解析部４６は、記録部４４を参照して、発話者１０および１２の装置ＩＤに対応づけられた音声データが記録されているかを判断する（Ｓ１０４）。記録部４４に発話者１０および１２の装置ＩＤに対応づけられた音声データが記録されている場合（Ｓ１０４：Ｙｅｓ）、音声解析部４６は、発話者１０および１２の装置ＩＤに対応づけられた音声データを記録部４４から読み出して解析する（Ｓ１０５）。音声解析部４６は、当該音声データについて音声解析を行い、当該音声データに基づいて単語情報を生成する。

音声解析部４６は、当該単語情報を、会話データベース８０の音声データに付与された装置ＩＤが記録されている行の単語情報欄に記録する（Ｓ１０６）。なお、音声解析部４６は、音声データに基づいて単語情報を作成したら、当該音声データを記録部４４から消去する。なお、記録部４４から音声データを消去することは必須ではなく、記録させたままでもよい。

図３に示した例において、発話者１０と発話者１２は野球に関する会話をしている。音声解析部４６は、発話者１０の音声データについて音声解析を行って、「ＷＢＣ」「日本代表」「監督」「プエルトリコ」を生成して、会話データベース８０に記録する。同様に、音声解析部４６は、発話者１２の音声データについて音声解析を行って、「アメリカ」「ＷＢＣ」「日本代表」「三振」を生成して、会話データベース８０に記録する。

音声解析部４６は、会話データベース８０の単語情報欄に記録された単語情報を用いて、画像検索式を作成する（Ｓ１０７）。図３に示した例においては、音声解析部４６は、発話者１０と発話者１２との共通単語である、「ＷＢＣ」と「日本代表」を抽出する。音声解析部４６は、抽出した単語を論理積（ＡＮＤ）で結合して、検索式を作成してもよく、論理和（ＯＲ）で結合して画像検索式を作成してもよい。

音声解析部４６は、当該画像検索式を、当該画像検索式で検索された画像データを出力する端末ＩＤに対応付けて画像取得部４８に出力する。なお、会話データベース８０に記録された単語情報がない場合には、音声解析部４６は画像検索式を作成しない。

画像取得部４８は、会話データベースの単語情報を用いて作成した画像検索式を、ネットワーク７０を通じて画像検索装置６０へ出力して画像検索式に適合する画像データを検索させる。画像検索装置６０の画像検索部６２は、画像格納部６４の中を検索して、画像検索式に適合する画像データを読み出す。画像検索部６２は、読み出した画像データを画像取得部４８に出力する。画像取得部４８は、会話データベース８０に記録された単語情報に基づいた画像データを取得する（Ｓ１０８）。

上記ステップＳ１０４で、記録部４４に発話者１０および１２の装置ＩＤに対応づけられた音声データが記録されていないと判断された場合（Ｓ１０４：Ｎｏ）、または、上記ステップＳ１０８に引き続き、音声解析部４６は、記録部４４を参照して、環境音入力部２６の装置ＩＤに対応づけられた音声データが記録されているかを判断する（Ｓ１０９）。

記録部４４に環境音入力部２６の装置ＩＤに対応づけられた音声データが記録されている場合（Ｓ１０９：Ｙｅｓ）、音声解析部４６は、環境音入力部２６の装置ＩＤに対応づけられた音声データを記録部４４から読み出して解析する（Ｓ１１０）。音声解析部４６は、当該環境音データについて音声解析を行い、当該環境音データに基づいて単語情報を生成する。

音声解析部４６は、当該単語情報を環境データベース８２の単語情報欄に記録する（Ｓ１１１）。なお、音声解析部４６は、環境音データに基づいて単語情報を作成したら、当該環境音データを記録部４４から消去する。なお、記録部４４から環境音データを消去することは必須ではなく、記録させたままでもよい。

図４に示した例において、発話者１０および１２の周囲には、ラジオの音声が流れている。例えば当該ラジオにおいて、パーソナリティーが曲名紹介を行い、当該曲が流れている。音声解析部４６は、パーソナリティーの曲名紹介から曲名Ａを生成するとともに、音楽の歌詞の単語情報を生成して単語情報欄に記録する。

音声解析部４６は、環境データベース８２の単語情報欄に記録された単語情報を用いて、画像検索式を作成する（Ｓ１１２）。図４に示した例においては、音声解析部４６は、環境データベース８２の単語情報欄に記録されている単語情報を論理積（ＡＮＤ）で結合して検索式を作成してもよく、論理和（ＯＲ）で結合して画像検索式を作成してもよい。

また、音声解析部４６は、記録部４４に格納されている属性データベース８４を参照して、発話者１０および１２の生年月日、出身地、仕事、スポーツ、趣味に記録された情報と、環境データベース８２に記録されている単語情報とを用いて画像検索式を作成してもよい。音声解析部４６は、当該画像検索式を、当該画像検索式で検索された画像を出力する端末ＩＤに対応付けて画像取得部４８に出力する。なお、環境データベース８２に記録された単語情報がない場合には、音声解析部４６は画像検索式を作成しない。

画像取得部４８は、環境データベース８２に記録された単語情報に基づいた画像データを取得する（Ｓ１１３）。この場合に、画像取得部４８は、環境データベース８２、属性データベース８４を用いて作成した画像検索式を、ネットワーク７０を通じて画像検索装置６０へ出力して画像検索式に適合する画像を検索させる。画像検索装置６０の画像検索部６２は、画像格納部６４の中を検索して、画像検索式に適合する画像データを読み出す。画像検索部６２は、読み出した画像データを画像取得部４８に出力する。

上記ステップＳ１０９において記録部４４に環境音入力部２６の装置ＩＤに対応づけられた音声データが記録されていない場合（Ｓ１０９：Ｎｏ）、および、上記ステップＳ１０３に続いて、音声解析部４６は、発話者１０と発話者１２との会話が継続している、もしくは会話が活発であるかを判断する（Ｓ１１４）。音声解析部４６は、会話データベース８０を参照して、発話者１０および１２に対応する単語情報欄に記録されている単語情報の数の合計が予め定められた閾値以上である場合に、音声解析部４６は、発話者１０と発話者１２との会話が成立している、もしくは会話が活発であると判断する（Ｓ１１４：Ｙｅｓ）。この場合、音声解析部４６は、画像取得部４８に、会話データベース８０に記録された単語情報に基づいた画像データを端末２０に出力させる（Ｓ１１５）。なお、予め定められた閾値の一例は、３つである。

図７は、会話が成立していると判断したときに表示される表示画像の一例を示す。音声解析部４６は、会話データベース８０に記録された発話者１０と発話者１２との共通単語情報である、「ＷＢＣ」と「日本代表」を論理積（ＡＮＤ）で結合して画像検索式を作成する。画像取得部４８は、当該画像検索式にて検索された画像データを端末２０に出力して、表示部３０に会話画像９４を表示させる。発話者１０および１２は、野球に関する会話をしている。画像取得システム１００は、当該会話に関連する画像を表示させることによって、発話者１０および１２の会話を活発化させる。

一方、音声解析部４６は、会話データベース８０を参照して、発話者１０および１２に対応する単語情報欄に記録されている単語情報の数の合計が予め定められた閾値より少ない場合に、音声解析部４６は、発話者１０と発話者１２との会話が成立していない、もしくは会話が活発でないと判断する（Ｓ１１４：Ｎｏ）。この場合、音声解析部４６は、画像取得部４８に、環境データベース８２に記録された単語情報に基づいた画像データを端末２０に出力させる（Ｓ１１６）。なお、音声解析部４６は、ステップＳ１１４において、会話継続判断を行った後に、会話データベース８０、および環境データベース８２を初期化して記録されている単語情報を消去する。

図８は、会話が成立していないと判断したときに表示される表示画像の一例を示す。音声解析部４６は、環境データベース８２に記録された「曲名Ａ」と、発話者１０の属性データベース８４に記録された内容である「東京」、「営業」、「野球」、「読書」の論理和（ＯＲ）とを論理積（ＡＮＤ）で結合した画像検索式を作成する。画像取得部４８は当該画像検索式で検索された女性歌手の画像データを端末２０に出力して、表示部３０に環境画像９６を表示させる。女性歌手を表示した環境画像９６は、発話者１０、１２の会話内容と関係のない画像である。画像取得システム１００は、当該画像を表示することによって、発話者１０、１２に新たな話題を提供する。

音声解析部４６は、発話者１０、１２により終了が選択されるまで（Ｓ１１７：Ｎｏ）、処理をステップ１０２へ戻す。音声解析部４６は、発話者１０、１２により終了が選択された場合（Ｓ１１７：Ｙｅｓ）、画像検索処理を終了する。

本実施形態において、音声入力部２２へ周囲の環境音が混入する可能性がある。よって、音声取得部４２は、音声入力部２２の音声データから、環境音入力部２６の環境音データの分をアナログ信号として減算してもよい。同様に音声取得部４２は、音声入力部２４の音声データから、環境音入力部２６の環境音データの分を減算してもよい。さらに、音声取得部４２は、環境音入力部２６の環境音データから、音声入力部２２、２４の音声データの分を減算してもよい。これらにより、音声取得部４２は、音声データと環境音データと分離してもよい。

他の例として、音声解析部４６が、環境音データから単語情報を生成した後に、発話者１０および１２の音声から生成された単語情報を、環境音データから生成された単語情報から取り除いてもよい。これにより、発話者１０および１２の音声が環境音に混入することによる影響を少なくできる。

本実施形態において、音声解析部４６は、画像検索式を会話データベース８０に記録された単語情報と、環境データベース８２に記録された単語情報とで別に画像検索式を作成したが、会話データベース８０に記録された単語情報と、環境データベース８２に記録された単語情報を抽出して画像検索式を作成してもよい。また、当該画像検索式にて検索された画像データを、他の画像データよりも優先して、表示部３０に表示させてもよい。

図９は、表示部３０に表示された表示画像の他の例を示す。図９に示した表示画像には、会話データベース８０に記録された単語情報から検索された会話画像９４とともに、環境データベース８２等に記録された単語情報から検索された環境画像９６も表示されている。このように、画像取得部４８は、会話データベース８０に記録された単語情報から検索された会話画像９４だけではなく、環境データベース８２等に記録された単語情報から検索された環境画像９６も併せて表示させてもよい。

音声解析部４６は、図６に示したフローチャートのステップＳ１１２において、発話者１０と発話者１２との会話継続判断を、取得される発話者１０および１２の音声データの頻度にしたがって、複数の段階に分けて判断してもよい。画像取得部４８は、当該段階にしたがって会話画像９４と環境画像９６との大きさの比率を変化させてもよい。

例えば、会話データベース８０に記録された単語情報の数の合計が１０以上の場合には、会話データベース８０に記録された単語情報を用いて検索した画像を優先的に表示させ、会話画像９４と環境画像９６との大きさの比率を９：１とする。また、同様に単語情報の数の合計が５以上であって１０より小さい場合には、会話画像９４と環境画像９６との大きさの比率を１：１とする。取得される発話者１０および１２の音声データの頻度が低く、単語情報数の合計が５より小さい場合には、会話画像９４と環境画像９６との大きさの比率を１：９としてもよい。

音声解析部４６は、環境音データの各単語情報に、当該単語情報が得られた環境音データの信号強度の大きさを対応付けて環境データベース８２に格納してもよい。この場合に、上記ステップＳ１１６において、画像取得部４８は、信号強度が大きい単語情報を用いた検索式により抽出された画像データを端末２０においてより大きく表示させてもよい。

音声解析部４６は、音声データにおける会話のテンポを検出して、会話データベース８０に格納してもよい。音声解析部４６は、例えば、発話者１０の音声データが入力されてから、次に発話者１２の音声データが入力するまでの時間を、会話のテンポと認識する。

会話のテンポを検出する場合、ステップＳ１１４において、新たに入力された音声データから検出される会話のテンポが、既に格納されている会話のテンポに対し遅れている場合に、音声解析部４６は、発話者１０と発話者１２との会話が成立していない、もしくは会話が活発でないと判断してもよい。この場合、音声解析部４６は、上記もとのテンポに合せて、画像取得部４８に環境データベース８２に記録された単語情報に基づいた画像を表示させてもよい。さらに音声解析部４６は、画像取得部４８に複数の画像を上記テンポで順次表示させてもよい。

図１０は、類義語データベース８６の一例を示す。類義語データベース８６は、記録部４４に格納されている。類義語データベース８６には、左端欄に記録された単語情報の類義語が右欄に記録されている。

環境音入力部２６から入力される環境音データは、発話者１０、１２の周囲の音であるので、発話者１０、１２の隣人の会話もまた環境音データとして入力される。この場合において、隣人の会話に直接関連する画像を表示させるのは好ましくない場合がある。したがって、音声解析部４６は、取得した環境音データから生成した単語情報を、類義語データベース８６を用いて、類義語に変換して、当該類義語を用いて画像検索式を作成してもよい。

この場合にさらに、音声解析部４６は、環境音入力部２６から入力される環境音データの信号強度から、当該隣人の遠近を推測してもよい。音声解析部４６は、当該信号強度が予め定められた閾値よりも小さい場合は、単語情報を類義語に変換せずに画像検索式を作成する。一方、音声解析部４６は、当該信号強度が上記閾値よりも大きい場合は、単語情報を類義語に変換して画像検索式を作成するとしてもよい。

図１１は、履歴データベース８８の一例を示す。履歴データベース８８は、記録部４４に格納されている。履歴データベース８８には、左端欄に会話している人物ＩＤが記録され、右欄には、画像検索式を作成するのに使用した過去の単語情報が記録される。

音声解析部４６は、画像検索式を作成する場合に、履歴データベース８８を参照してもよい。音声解析部４６は、作成した画像検索式に「ＮＯＴ」として、履歴データベース８８に記録されている単語情報を加えてもよい。特に環境データベース８２には、重複する単語情報が記録される蓋然性が高い。重複した画像データを発話者に提示することはかえって会話の進行を妨げる場合がある。したがって、音声解析部４６は、このような処理を行うことによって、効果的に会話を促進する画像データを検索する画像検索式を作成できる。

また、履歴データベース８８の他の例として、単語情報に代えて、履歴データベース８８に、出力した画像データを記録してもよい。画像取得部４８は、画像検索部６２から画像データを取得したとき、当該画像データが履歴データベース８８に記録されているかを確認する。画像取得部４８は、取得した画像データが履歴データベース８８に記録されていた場合に、当該画像データを端末２０に出力せずに消去してもよい。このような処理を行うことで、重複した画像を発話者に提示することを防止できる。

本実施形態において、発話者１０および１２の音声を入力する音声入力部２２および２４とは別に、発話者１０および１２の周囲の環境音を入力する環境音入力部２６を設けたが、環境音入力部２６を設けず、音声入力部２２、２４が、発話者１０、１２の周囲の環境音も取得してもよい。

この場合、音声解析部４６は、会話データベース８０に発話者１０、１２の声紋情報データを記録しておく。音声解析部４６は、取得した音声データと記録された声紋データとを照合して、一致した場合は、当該音声データを発話者１０、１２の音声データであると判断する。一方、一致しなかった場合、音声解析部４６は、当該音声データを環境音データと判断する。このようにして、環境音入力部２６を設けない場合であっても、入力された音声データを、発話者１０、１２の音声データと、環境音データとに分離できる。

以上、本実施形態によれば、発話者１０、１２は、画像取得システム１００に新たな検索条件を入力することなく、画像取得システム１００から、環境音に基づく画像が取得できる。画像取得システム１００は、当該画像を表示することによって、発話者１０、１２に新たな話題を提供して、発話者１０、１２の会話を活発化できる。特に、発話者１０、１２同士で会話が継続していない場合に、環境音からの画像を提供することにより、会話をより促進することができる。

図１２は、画像取得システム１０２の他の例を示す。図１２において、図１と共通の要素には、同じ参照番号を付して重複する説明を省く。画像取得システム１０２は、画像取得装置４０と、画像検索装置６０と、端末９０、９２と、端末９０、９２に接続されたテレビ３２、３４と、テレビ３２、３４に接続したアンテナ３６と、ネットワーク７０とを有する。ネットワーク７０は、端末９０と、端末９２と、画像取得装置４０と、画像検索装置６０とをつなげる。なおテレビ３２、３４は、放送受信装置の一例であり、放送受信装置の他の例としては、ラジオ、衛星放送受信機、インターネット動画または音声サイトの情報が表示可能なパーソナルコンピュータでもよい。

テレビ３２は、端末９０と接続している。テレビ３２は、アンテナ３６から放送用のデジタル映像信号と、デジタル音声信号とを受信する。テレビ３２は、受信したデジタル音声信号を、端末９０へ出力する。端末９０は、当該デジタル音声信号を取得すると、画像取得装置４０へ出力する。なお、テレビ３４の構成は、テレビ３２と同じ構成であるので説明を省略する。

画像取得装置４０は、デジタル音声信号から画像を検索する検索式を作成する。画像取得装置４０は、当該検索式に適合する画像を画像検索装置６０から取得する。画像取得装置４０は、当該画像を端末９０、９２に出力して、当該画像を端末９０、９２の表示部３０に表示させる。

図１３は、画像取得システム１０２の機能ブロック図を示す。図１３において、図２と共通の要素には、同じ参照番号を付して重複する説明を省く。図１３において、端末９２の構成は、端末９０の構成と同じであるので端末９２の説明は省略する。

テレビ３２は、アンテナ３６からデジタル音声信号を受信すると、音声出力部２８へ出力する。音声出力部２８は、テレビ３２の装置ＩＤに対応つけて取得したデジタル音声信号を音声取得部４２へ出力する。

音声取得部４２は、周囲の環境音としてテレビ３２からのデジタル音声信号を取得する。音声取得部４２は、取得したデジタル音声信号を音声解析部４６へ出力する。音声解析部４６は、当該デジタル音声信号を音声解析して、単語情報を生成する。音声解析部４６は、生成した単語情報を、装置ＩＤに対応つけて環境データベース８２に記録する。

音声解析部４６は、環境データベース８２に記録されている単語情報から、画像検索式を作成して、画像取得部４８へ出力する。画像取得部４８は、画像検索式を画像検索部６２へ出力して、当該画像検索式に適合する画像データを取得する。

音声解析部４６は、環境データベース８２に記録されている単語情報を読みだす。テレビ３２の装置ＩＤに対応ついた単語情報と、テレビ３４の装置ＩＤに対応づいた単語情報とが異なっている場合、テレビ３２とテレビ３４とのチャンネルが異なっている蓋然性が高い。この場合、音声解析部４６は、会話データベース８０を参照して、発話者１４および発話者１６の単語情報との一致数を算出して、一致数の多い装置ＩＤを特定する。なお、図１３に示した例において、一致数の多い装置ＩＤは、仮にテレビ３４に対応した装置ＩＤであったとして説明する。

音声解析部４６は、テレビ３４を視聴しながら発話者１４と発話者１６が会話していると判断する。音声解析部４６は、特定しなかった装置ＩＤを有するテレビ３２に対し、音声取得部が取得した発話者１４、１６の音声から生成した単語情報を含む放送を受信するように、受信先を変更する情報をテレビ３２の装置ＩＤ及び端末９０の端末ＩＤに対応づけて、画像取得部４８に出力する。

画像取得部４８は、対応付けられた端末ＩＤから、端末９０を特定する。画像取得部４８は、受信先を変更する情報を、端末９０の取得部２５へ出力する。取得部２５は、対応つけられた装置ＩＤから、テレビ３２を特定する。取得部２５は、テレビ３２にチャンネルを変更する信号を出力して、テレビ３２のチャンネルを変更する。すなわち、本実施形態においては、同じチャンネルの放送内容がコンテンツの一例となっている。

このように、画像取得装置４０は、発話者の音声に基づく画像を提供するとともに、テレビ３２の受信先を変更する情報を出力することにより、テレビ３２のチャンネルを変更できる。発話者１４、１６は、同じ放送を視聴しながら、会話することができる。画像取得装置４０は、これにより、発話者１４、１６の会話を盛り上げることができる。

なお、本実施形態において、画像取得装置４０および画像検索装置６０は、端末９０、９２とは別に設けたが、端末９０、９２の何れかが、画像取得装置４０、または画像検索装置６０の機能を有していてもよい。また、端末９０、９２の何れかが、画像取得装置４０、および画像検索装置６０の機能を有してもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。また、上記実施の形態に、多様な変更または改良を加え得ることが当業者に明らかである。更に、変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることは、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１０、１２、１４、１６発話者、２０、９０、９２端末、２２、２４音声入力部、２５取得部、２６環境音入力部、２８音声出力部、３０表示部、３２、３４テレビ、３６アンテナ、４０画像取得装置、４２音声取得部、４４記録部、４６音声解析部、４８画像取得部、６０画像検索装置、６２画像検索部、６４画像格納部、７０ネットワーク、８０会話データベース、８２環境データベース、８４属性データベース、８６類義語データベース、８８履歴データベース、９４会話画像、９６環境画像、１００、１０２画像取得システム

Claims

発話者からの音声および前記発話者の周囲の環境音を取得する音声取得部と、
前記音声取得部により取得された前記発話者の前記音声および前記周囲の前記環境音をそれぞれ解析して文字情報を生成する音声解析部と、
前記音声解析部により生成された、少なくとも前記発話者の前記音声に基づく文字情報を用いて検索したコンテンツと、少なくとも前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得部と
を備えるコンテンツ取得装置。
前記コンテンツ取得部は、前記音声取得部により前記発話者からの音声が取得されている場合に前記発話者の前記音声に基づく文字情報を用いたコンテンツを出力するとともに、前記音声取得部により前記発話者からの音声が取得されていない場合に前記周囲の前記環境音に基づく文字情報を用いたコンテンツを出力する請求項１に記載のコンテンツ取得装置。
前記コンテンツ取得部は、前記音声取得部により前記発話者からの音声が取得されていない場合に、前記音声取得部により前記発話者からの音声が取得されていない間に取得された前記周囲の前記環境音に基づく文字情報を用いて、コンテンツを検索する請求項２に記載のコンテンツ取得装置。
前記コンテンツ取得部は、前記発話者の前記音声に基づく文字情報を用いて検索したコンテンツを、前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツよりも優先的に表示させるよう出力する請求項１から３のいずれか１項に記載のコンテンツ取得装置。
前記コンテンツ取得部は、前記音声取得部により前記発話者から取得される音声の頻度が低くなるほど、前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツをより優先的に表示させるよう出力する請求項４に記載のコンテンツ取得装置。
前記発話者の属性を取得する属性取得部をさらに備え、
前記コンテンツ取得部は、前記周囲の前記環境音に基づく文字情報を用いて検索する場合に、前記属性取得部により取得された属性をさらに用いて検索条件を作成し、当該検索条件によりコンテンツを検索する請求項１から５のいずれか１項に記載のコンテンツ取得装置。
前記発話者の前記音声に基づく文字情報の履歴を格納する履歴格納部をさらに備え、
前記コンテンツ取得部は、前記周囲の前記環境音に基づく文字情報を用いて検索する場合に、前記履歴格納部に格納された文字情報をさらに用いて検索条件を作成し、当該検索条件によりコンテンツを検索する請求項１から６のいずれか１項に記載のコンテンツ取得装置。
前記周囲の前記環境音に基づく文字情報を用いて出力したコンテンツの履歴を格納する履歴格納部をさらに備え、
前記コンテンツ取得部は、前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツのうち、前記履歴格納部に履歴が格納されているコンテンツを除いて出力する請求項１から７のいずれか１項に記載のコンテンツ取得装置。
前記音声取得部は、前記周囲の環境音として放送受信装置からの音声を取得し、
前記コンテンツ取得部は、コンテンツの出力先に放送受信装置が接続されている場合に、前記音声取得部が取得した音声を含む放送を受信するよう受信先を変更する情報を出力する請求項１から８のいずれか１項に記載のコンテンツ取得装置。
発話者からの音声および前記発話者の周囲の環境音を取得する音声取得機能と、
前記音声取得機能により取得された前記発話者の前記音声および前記周囲の前記環境音をそれぞれ解析して文字情報を生成する音声解析機能と、
前記音声解析機能により生成された、少なくとも前記発話者の前記音声に基づく文字情報を用いて検索したコンテンツと、少なくとも前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得機能と
をコンピュータに実現させるプログラム。