JP2014199490A - コンテンツ取得装置およびプログラム - Google Patents
コンテンツ取得装置およびプログラム Download PDFInfo
- Publication number
- JP2014199490A JP2014199490A JP2013073857A JP2013073857A JP2014199490A JP 2014199490 A JP2014199490 A JP 2014199490A JP 2013073857 A JP2013073857 A JP 2013073857A JP 2013073857 A JP2013073857 A JP 2013073857A JP 2014199490 A JP2014199490 A JP 2014199490A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- content
- acquisition unit
- speaker
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】使用者は何らかの検索条件を入力しなければ情報を得ることができなかった。
【解決手段】コンテンツ取得装置であって、発話者からの音声および前記発話者の周囲の環境音を取得する音声取得部と、音声取得部により取得された発話者の音声および周囲の環境音をそれぞれ解析して文字情報を生成する音声解析部と、音声解析部により生成された、少なくとも発話者の音声に基づく文字情報を用いて検索したコンテンツと、少なくとも周囲の環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得部とを備える。
【選択図】図1
【解決手段】コンテンツ取得装置であって、発話者からの音声および前記発話者の周囲の環境音を取得する音声取得部と、音声取得部により取得された発話者の音声および周囲の環境音をそれぞれ解析して文字情報を生成する音声解析部と、音声解析部により生成された、少なくとも発話者の音声に基づく文字情報を用いて検索したコンテンツと、少なくとも周囲の環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得部とを備える。
【選択図】図1
Description
本発明は、コンテンツ取得装置およびプログラムに関する。
近年、パーソナルコンピュータなどの検索装置から情報を検索する技術が知られている(例えば、特許文献1参照)。
[特許文献1]特開2007−017990号公報
[特許文献1]特開2007−017990号公報
上記検索装置においては、使用者は何らかの検索条件を入力しなければ情報を得ることができなかった。
本発明の第一態様として、発話者からの音声および発話者の周囲の環境音を取得する音声取得部と、音声取得部により取得された発話者の音声および周囲の環境音をそれぞれ解析して文字情報を生成する音声解析部と、音声解析部により生成された、少なくとも発話者の音声に基づく文字情報を用いて検索したコンテンツと、少なくとも周囲の環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得部とを備えるコンテンツ取得装置が提供される。
本発明の第二態様として発話者からの音声および発話者の周囲の環境音を取得する音声取得機能と、音声取得機能により取得された発話者の音声および周囲の環境音をそれぞれ解析して文字情報を生成する音声解析機能と、音声解析機能により生成された、少なくとも発話者の音声に基づく文字情報を用いて検索したコンテンツと、少なくとも周囲の環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得機能とをコンピュータに実現させるプログラムが提供される。
上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。これら特徴群のサブコンビネーションもまた発明となり得る。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、画像取得システム100の一例を示す。画像取得システム100は、互いにネットワーク70を介して通信する、画像取得装置40と、画像検索装置60と、端末20とを有する。
端末20は、2つの音声入力部22および24と、環境音入力部26と、表示部30とを有する。音声入力部22は、発話者10の音声を端末20に入力する。音声入力部24は、発話者12の音声を端末20に入力する。環境音入力部26は、発話者10および12の周囲の環境音を端末20に入力する。音声入力部22および24および環境音入力部26の一例は、集音マイクであり、端末20の一例は、パーソナルコンピュータである。なお、端末20は、タブレット型のコンピュータであってもよく、スマートフォン等の携帯電話であってもよい。
端末20に入力された各音声は、ネットワーク70を介して画像取得装置40に出力される。画像取得装置40は、各音声から画像データを検索する画像検索式を作成する。画像取得装置40は、当該検索式に適合する画像データを画像検索装置60から取得する。画像取得装置40は、当該画像データを端末20に出力して、当該画像を表示部30に表示させる。なお、画像は、コンテンツの一例である。画像に代えて、他のコンテンツ、例えば音楽、動画等であってもよい。
図2は、画像取得システム100の機能ブロック図を示す。端末20は、上記構成に加えて、音声出力部28を有する。端末20の音声入力部22および24は、発話者10および12の音声から音声データを生成して音声出力部28に受け渡す。環境音入力部26は、環境音から環境音データを生成して音声出力部28に受け渡す。
音声出力部28は、発話者10および12の音声データを音声入力部22および24の装置IDに対応付けて画像取得装置40へ出力する。音声出力部28はさらに、環境音データを環境音入力部26の装置IDに対応付けて画像取得装置40へ出力する。
画像取得装置40は、音声取得部42と、記録部44と、音声解析部46と、画像取得部48とを有する。音声取得部42は、端末の音声出力部28の音声データおよび環境音データを取得して、当該音声データおよび環境音データをデジタルデータに変換する。
記録部44は、会話データベース80、環境データベース82、属性データベース84等を格納する。記録部44は、画像取得装置40を動作させるのに使用される他のデータを格納していてもよい。
音声解析部46は、音声データおよび環境音データをそれぞれ解析して単語情報を生成する。音声解析部46は、音声データから生成した単語情報を会話データベース80に記録する。音声解析部46はさらに、環境音データから生成した単語情報を、環境データベース82に記録する。なお、単語情報は、文字情報の一例である。
音声解析部46は、音声データに基づく単語情報を用いて画像を検索する画像検索式と、環境音データに基づく単語情報を用いて画像を検索する画像検索式とを作成する。画像取得部48は、これらの画像検索式を画像検索装置60へ出力して、画像検索式に適合する画像データを取得する。画像取得部48は、音声データに基づく単語情報を用いて検索した画像データと、環境音データに基づく単語情報を用いて検索した画像データの少なくともいずれかを端末20へ出力する。
画像検索装置60は、画像検索部62と、画像格納部64とを有する。画像格納部64には複数の画像に対応する画像データが格納されている。画像検索部62は、画像取得部48から出力された画像検索式に適合する画像データを、画像格納部64に格納されている画像データの中から検索する。画像検索部62は、画像検索式に適合した画像データを画像格納部64から読み出して、画像取得部48へ出力する。
画像取得装置40の音声取得部42、音声解析部46および画像取得部48の少なくとも一部の機能は、記録部44に格納されたプログラムを読み出すことにより実行されてもよい。当該プログラムは、媒体から読み込まれて、記録部44に格納されてもよく、ネットワーク70から読み込まれて、記録部44に格納されてもよい。
図3は、会話データベース80の一例を示す。会話データベース80には、発話者10、12の人物IDと、装置IDと、端末IDと、単語情報とが記録される。人物ID欄には、画像取得システム100の各使用者に割り付けられる記号が記録される。装置ID欄には、音声入力部22、24を識別する装置IDが記録される。音声入力部22、24の装置IDの一例は、音声入力部22、24のIPアドレスである。
端末ID欄には、発話者10、12が使用している端末20を識別する端末IDが記録される。単語情報欄には、人物ID欄に記録された発話者の音声データから生成された単語情報が記録される。なお、会話データベース80の単語情報欄の初期値は空である。
図4は、環境データベース82の一例を示す。環境データベース82には、装置IDと、端末IDと、単語情報とが記録される。装置ID欄には、環境音入力部26を識別する装置IDが記録される。端末ID欄には、環境音入力部26を備える端末20を識別する端末IDが記録される。単語情報欄には、環境音入力部26から入力された音声データから生成された単語情報が記録される。なお、環境データベース82の単語情報欄の初期値は空である。
図5は、属性データベース84の一例を示す。属性データベース84には、人物IDに対応づけて、当該人物の性別、生年月日、出身地、仕事、好きなスポーツ、および趣味が記録される。画像取得システム100の使用者は、端末20を用いて当該システムの使用開始時に、属性データベース84の各項目を入力する。端末20に入力された各項目は、音声取得部42に出力され、音声解析部46から記録部44に記録される。したがって、音声取得部42は、属性取得部としての役割も果たす。
図6は、画像取得処理の動作を説明するフローチャートである。画像取得処理の動作は、発話者が端末20から画像取得システム100にログインすることによって開始する。
端末20は、発話者10および12の入力を受け付け、ネットワーク70を介して発話者10および12の人物IDと各装置IDとを、画像取得装置40の音声取得部42へ出力する。音声取得部42は、ログインした発話者10および12の人物IDと、各装置IDと、端末IDとを取得すると、音声解析部46を介して、会話データベース80と環境データベース82に人物IDと、各装置IDと、端末IDとを登録する(S101)。
音声取得部42は、音声データおよび環境音データ(以後、音声データ等という)を音声入力部22および24、環境音入力部26の装置IDに対応づけて取得する(S102)。この場合に、音声取得部42は、入力された音声データ等のうち、信号強度が予め定められた閾値以上の強度である部分を取り出し、当該音声データ等をデジタルデータに変換して、音声解析部46へ出力する。音声出力部28は、入力された音声データ等の信号強度が予め定められた閾値より弱い場合、音声取得部42は、当該音声データ等を音声解析部46へ出力しない。なお、環境音入力部26の装置IDに対応づけて入力される環境音データの閾値は、音声入力部22および24の装置IDに対応づけて入力される音声データの閾値よりも低く設定してもよい。
音声解析部46は、音声取得部42から入力された音声データ等を記録部44に記録する。音声解析部46は、予め定められた時間の音声データ等が入力されるまで待機する(S103)。なお、予め定められた時間の一例は10秒である。音声解析部46は、予め定められた時間、音声データ等が入力された場合に(S103:Yes)、処理をステップS104へ進める。なお、音声取得部42から入力された音声データ等を記録部44に記録することは必須ではない。
音声解析部46は、記録部44を参照して、発話者10および12の装置IDに対応づけられた音声データが記録されているかを判断する(S104)。記録部44に発話者10および12の装置IDに対応づけられた音声データが記録されている場合(S104:Yes)、音声解析部46は、発話者10および12の装置IDに対応づけられた音声データを記録部44から読み出して解析する(S105)。音声解析部46は、当該音声データについて音声解析を行い、当該音声データに基づいて単語情報を生成する。
音声解析部46は、当該単語情報を、会話データベース80の音声データに付与された装置IDが記録されている行の単語情報欄に記録する(S106)。なお、音声解析部46は、音声データに基づいて単語情報を作成したら、当該音声データを記録部44から消去する。なお、記録部44から音声データを消去することは必須ではなく、記録させたままでもよい。
図3に示した例において、発話者10と発話者12は野球に関する会話をしている。音声解析部46は、発話者10の音声データについて音声解析を行って、「WBC」「日本代表」「監督」「プエルトリコ」を生成して、会話データベース80に記録する。同様に、音声解析部46は、発話者12の音声データについて音声解析を行って、「アメリカ」「WBC」「日本代表」「三振」を生成して、会話データベース80に記録する。
音声解析部46は、会話データベース80の単語情報欄に記録された単語情報を用いて、画像検索式を作成する(S107)。図3に示した例においては、音声解析部46は、発話者10と発話者12との共通単語である、「WBC」と「日本代表」を抽出する。音声解析部46は、抽出した単語を論理積(AND)で結合して、検索式を作成してもよく、論理和(OR)で結合して画像検索式を作成してもよい。
音声解析部46は、当該画像検索式を、当該画像検索式で検索された画像データを出力する端末IDに対応付けて画像取得部48に出力する。なお、会話データベース80に記録された単語情報がない場合には、音声解析部46は画像検索式を作成しない。
画像取得部48は、会話データベースの単語情報を用いて作成した画像検索式を、ネットワーク70を通じて画像検索装置60へ出力して画像検索式に適合する画像データを検索させる。画像検索装置60の画像検索部62は、画像格納部64の中を検索して、画像検索式に適合する画像データを読み出す。画像検索部62は、読み出した画像データを画像取得部48に出力する。画像取得部48は、会話データベース80に記録された単語情報に基づいた画像データを取得する(S108)。
上記ステップS104で、記録部44に発話者10および12の装置IDに対応づけられた音声データが記録されていないと判断された場合(S104:No)、または、上記ステップS108に引き続き、音声解析部46は、記録部44を参照して、環境音入力部26の装置IDに対応づけられた音声データが記録されているかを判断する(S109)。
記録部44に環境音入力部26の装置IDに対応づけられた音声データが記録されている場合(S109:Yes)、音声解析部46は、環境音入力部26の装置IDに対応づけられた音声データを記録部44から読み出して解析する(S110)。音声解析部46は、当該環境音データについて音声解析を行い、当該環境音データに基づいて単語情報を生成する。
音声解析部46は、当該単語情報を環境データベース82の単語情報欄に記録する(S111)。なお、音声解析部46は、環境音データに基づいて単語情報を作成したら、当該環境音データを記録部44から消去する。なお、記録部44から環境音データを消去することは必須ではなく、記録させたままでもよい。
図4に示した例において、発話者10および12の周囲には、ラジオの音声が流れている。例えば当該ラジオにおいて、パーソナリティーが曲名紹介を行い、当該曲が流れている。音声解析部46は、パーソナリティーの曲名紹介から曲名Aを生成するとともに、音楽の歌詞の単語情報を生成して単語情報欄に記録する。
音声解析部46は、環境データベース82の単語情報欄に記録された単語情報を用いて、画像検索式を作成する(S112)。図4に示した例においては、音声解析部46は、環境データベース82の単語情報欄に記録されている単語情報を論理積(AND)で結合して検索式を作成してもよく、論理和(OR)で結合して画像検索式を作成してもよい。
また、音声解析部46は、記録部44に格納されている属性データベース84を参照して、発話者10および12の生年月日、出身地、仕事、スポーツ、趣味に記録された情報と、環境データベース82に記録されている単語情報とを用いて画像検索式を作成してもよい。音声解析部46は、当該画像検索式を、当該画像検索式で検索された画像を出力する端末IDに対応付けて画像取得部48に出力する。なお、環境データベース82に記録された単語情報がない場合には、音声解析部46は画像検索式を作成しない。
音声解析部46は、当該画像検索式を、当該画像検索式で検索された画像データを出力する端末IDに対応付けて画像取得部48に出力する。なお、会話データベース80に記録された単語情報がない場合には、音声解析部46は画像検索式を作成しない。
画像取得部48は、環境データベース82に記録された単語情報に基づいた画像データを取得する(S113)。この場合に、画像取得部48は、環境データベース82、属性データベース84を用いて作成した画像検索式を、ネットワーク70を通じて画像検索装置60へ出力して画像検索式に適合する画像を検索させる。画像検索装置60の画像検索部62は、画像格納部64の中を検索して、画像検索式に適合する画像データを読み出す。画像検索部62は、読み出した画像データを画像取得部48に出力する。
上記ステップS109において記録部44に環境音入力部26の装置IDに対応づけられた音声データが記録されていない場合(S109:No)、および、上記ステップS103に続いて、音声解析部46は、発話者10と発話者12との会話が継続している、もしくは会話が活発であるかを判断する(S114)。音声解析部46は、会話データベース80を参照して、発話者10および12に対応する単語情報欄に記録されている単語情報の数の合計が予め定められた閾値以上である場合に、音声解析部46は、発話者10と発話者12との会話が成立している、もしくは会話が活発であると判断する(S114:Yes)。この場合、音声解析部46は、画像取得部48に、会話データベース80に記録された単語情報に基づいた画像データを端末20に出力させる(S115)。なお、予め定められた閾値の一例は、3つである。
図7は、会話が成立していると判断したときに表示される表示画像の一例を示す。音声解析部46は、会話データベース80に記録された発話者10と発話者12との共通単語情報である、「WBC」と「日本代表」を論理積(AND)で結合して画像検索式を作成する。画像取得部48は、当該画像検索式にて検索された画像データを端末20に出力して、表示部30に会話画像94を表示させる。発話者10および12は、野球に関する会話をしている。画像取得システム100は、当該会話に関連する画像を表示させることによって、発話者10および12の会話を活発化させる。
一方、音声解析部46は、会話データベース80を参照して、発話者10および12に対応する単語情報欄に記録されている単語情報の数の合計が予め定められた閾値より少ない場合に、音声解析部46は、発話者10と発話者12との会話が成立していない、もしくは会話が活発でないと判断する(S114:No)。この場合、音声解析部46は、画像取得部48に、環境データベース82に記録された単語情報に基づいた画像データを端末20に出力させる(S116)。なお、音声解析部46は、ステップS114において、会話継続判断を行った後に、会話データベース80、および環境データベース82を初期化して記録されている単語情報を消去する。
図8は、会話が成立していないと判断したときに表示される表示画像の一例を示す。音声解析部46は、環境データベース82に記録された「曲名A」と、発話者10の属性データベース84に記録された内容である「東京」、「営業」、「野球」、「読書」の論理和(OR)とを論理積(AND)で結合した画像検索式を作成する。画像取得部48は当該画像検索式で検索された女性歌手の画像データを端末20に出力して、表示部30に環境画像96を表示させる。女性歌手を表示した環境画像96は、発話者10、12の会話内容と関係のない画像である。画像取得システム100は、当該画像を表示することによって、発話者10、12に新たな話題を提供する。
音声解析部46は、発話者10、12により終了が選択されるまで(S117:No)、処理をステップ102へ戻す。音声解析部46は、発話者10、12により終了が選択された場合(S117:Yes)、画像検索処理を終了する。
本実施形態において、音声入力部22へ周囲の環境音が混入する可能性がある。よって、音声取得部42は、音声入力部22の音声データから、環境音入力部26の環境音データの分をアナログ信号として減算してもよい。同様に音声取得部42は、音声入力部24の音声データから、環境音入力部26の環境音データの分を減算してもよい。さらに、音声取得部42は、環境音入力部26の環境音データから、音声入力部22、24の音声データの分を減算してもよい。これらにより、音声取得部42は、音声データと環境音データと分離してもよい。
他の例として、音声解析部46が、環境音データから単語情報を生成した後に、発話者10および12の音声から生成された単語情報を、環境音データから生成された単語情報から取り除いてもよい。これにより、発話者10および12の音声が環境音に混入することによる影響を少なくできる。
本実施形態において、音声解析部46は、画像検索式を会話データベース80に記録された単語情報と、環境データベース82に記録された単語情報とで別に画像検索式を作成したが、会話データベース80に記録された単語情報と、環境データベース82に記録された単語情報を抽出して画像検索式を作成してもよい。また、当該画像検索式にて検索された画像データを、他の画像データよりも優先して、表示部30に表示させてもよい。
図9は、表示部30に表示された表示画像の他の例を示す。図9に示した表示画像には、会話データベース80に記録された単語情報から検索された会話画像94とともに、環境データベース82等に記録された単語情報から検索された環境画像96も表示されている。このように、画像取得部48は、会話データベース80に記録された単語情報から検索された会話画像94だけではなく、環境データベース82等に記録された単語情報から検索された環境画像96も併せて表示させてもよい。
音声解析部46は、図6に示したフローチャートのステップS112において、発話者10と発話者12との会話継続判断を、取得される発話者10および12の音声データの頻度にしたがって、複数の段階に分けて判断してもよい。画像取得部48は、当該段階にしたがって会話画像94と環境画像96との大きさの比率を変化させてもよい。
例えば、会話データベース80に記録された単語情報の数の合計が10以上の場合には、会話データベース80に記録された単語情報を用いて検索した画像を優先的に表示させ、会話画像94と環境画像96との大きさの比率を9:1とする。また、同様に単語情報の数の合計が5以上であって10より小さい場合には、会話画像94と環境画像96との大きさの比率を1:1とする。取得される発話者10および12の音声データの頻度が低く、単語情報数の合計が5より小さい場合には、会話画像94と環境画像96との大きさの比率を1:9としてもよい。
音声解析部46は、環境音データの各単語情報に、当該単語情報が得られた環境音データの信号強度の大きさを対応付けて環境データベース82に格納してもよい。この場合に、上記ステップS116において、画像取得部48は、信号強度が大きい単語情報を用いた検索式により抽出された画像データを端末20においてより大きく表示させてもよい。
音声解析部46は、音声データにおける会話のテンポを検出して、会話データベース80に格納してもよい。音声解析部46は、例えば、発話者10の音声データが入力されてから、次に発話者12の音声データが入力するまでの時間を、会話のテンポと認識する。
会話のテンポを検出する場合、ステップS114において、新たに入力された音声データから検出される会話のテンポが、既に格納されている会話のテンポに対し遅れている場合に、音声解析部46は、発話者10と発話者12との会話が成立していない、もしくは会話が活発でないと判断してもよい。この場合、音声解析部46は、上記もとのテンポに合せて、画像取得部48に環境データベース82に記録された単語情報に基づいた画像を表示させてもよい。さらに音声解析部46は、画像取得部48に複数の画像を上記テンポで順次表示させてもよい。
図10は、類義語データベース86の一例を示す。類義語データベース86は、記録部44に格納されている。類義語データベース86には、左端欄に記録された単語情報の類義語が右欄に記録されている。
環境音入力部26から入力される環境音データは、発話者10、12の周囲の音であるので、発話者10、12の隣人の会話もまた環境音データとして入力される。この場合において、隣人の会話に直接関連する画像を表示させるのは好ましくない場合がある。したがって、音声解析部46は、取得した環境音データから生成した単語情報を、類義語データベース86を用いて、類義語に変換して、当該類義語を用いて画像検索式を作成してもよい。
この場合にさらに、音声解析部46は、環境音入力部26から入力される環境音データの信号強度から、当該隣人の遠近を推測してもよい。音声解析部46は、当該信号強度が予め定められた閾値よりも小さい場合は、単語情報を類義語に変換せずに画像検索式を作成する。一方、音声解析部46は、当該信号強度が上記閾値よりも大きい場合は、単語情報を類義語に変換して画像検索式を作成するとしてもよい。
図11は、履歴データベース88の一例を示す。履歴データベース88は、記録部44に格納されている。履歴データベース88には、左端欄に会話している人物IDが記録され、右欄には、画像検索式を作成するのに使用した過去の単語情報が記録される。
音声解析部46は、画像検索式を作成する場合に、履歴データベース88を参照してもよい。音声解析部46は、作成した画像検索式に「NOT」として、履歴データベース88に記録されている単語情報を加えてもよい。特に環境データベース82には、重複する単語情報が記録される蓋然性が高い。重複した画像データを発話者に提示することはかえって会話の進行を妨げる場合がある。したがって、音声解析部46は、このような処理を行うことによって、効果的に会話を促進する画像データを検索する画像検索式を作成できる。
また、履歴データベース88の他の例として、単語情報に代えて、履歴データベース88に、出力した画像データを記録してもよい。画像取得部48は、画像検索部62から画像データを取得したとき、当該画像データが履歴データベース88に記録されているかを確認する。画像取得部48は、取得した画像データが履歴データベース88に記録されていた場合に、当該画像データを端末20に出力せずに消去してもよい。このような処理を行うことで、重複した画像を発話者に提示することを防止できる。
本実施形態において、発話者10および12の音声を入力する音声入力部22および24とは別に、発話者10および12の周囲の環境音を入力する環境音入力部26を設けたが、環境音入力部26を設けず、音声入力部22、24が、発話者10、12の周囲の環境音も取得してもよい。
この場合、音声解析部46は、会話データベース80に発話者10、12の声紋情報データを記録しておく。音声解析部46は、取得した音声データと記録された声紋データとを照合して、一致した場合は、当該音声データを発話者10、12の音声データであると判断する。一方、一致しなかった場合、音声解析部46は、当該音声データを環境音データと判断する。このようにして、環境音入力部26を設けない場合であっても、入力された音声データを、発話者10、12の音声データと、環境音データとに分離できる。
以上、本実施形態によれば、発話者10、12は、画像取得システム100に新たな検索条件を入力することなく、画像取得システム100から、環境音に基づく画像が取得できる。画像取得システム100は、当該画像を表示することによって、発話者10、12に新たな話題を提供して、発話者10、12の会話を活発化できる。特に、発話者10、12同士で会話が継続していない場合に、環境音からの画像を提供することにより、会話をより促進することができる。
図12は、画像取得システム102の他の例を示す。図12において、図1と共通の要素には、同じ参照番号を付して重複する説明を省く。画像取得システム102は、画像取得装置40と、画像検索装置60と、端末90、92と、端末90、92に接続されたテレビ32、34と、テレビ32、34に接続したアンテナ36と、ネットワーク70とを有する。ネットワーク70は、端末90と、端末92と、画像取得装置40と、画像検索装置60とをつなげる。なおテレビ32、34は、放送受信装置の一例であり、放送受信装置の他の例としては、ラジオ、衛星放送受信機、インターネット動画または音声サイトの情報が表示可能なパーソナルコンピュータでもよい。
テレビ32は、端末90と接続している。テレビ32は、アンテナ36から放送用のデジタル映像信号と、デジタル音声信号とを受信する。テレビ32は、受信したデジタル音声信号を、端末90へ出力する。端末90は、当該デジタル音声信号を取得すると、画像取得装置40へ出力する。なお、テレビ34の構成は、テレビ32と同じ構成であるので説明を省略する。
画像取得装置40は、デジタル音声信号から画像を検索する検索式を作成する。画像取得装置40は、当該検索式に適合する画像を画像検索装置60から取得する。画像取得装置40は、当該画像を端末90、92に出力して、当該画像を端末90、92の表示部30に表示させる。
図13は、画像取得システム102の機能ブロック図を示す。図13において、図2と共通の要素には、同じ参照番号を付して重複する説明を省く。図13において、端末92の構成は、端末90の構成と同じであるので端末92の説明は省略する。
テレビ32は、アンテナ36からデジタル音声信号を受信すると、音声出力部28へ出力する。音声出力部28は、テレビ32の装置IDに対応つけて取得したデジタル音声信号を音声取得部42へ出力する。
音声取得部42は、周囲の環境音としてテレビ32からのデジタル音声信号を取得する。音声取得部42は、取得したデジタル音声信号を音声解析部46へ出力する。音声解析部46は、当該デジタル音声信号を音声解析して、単語情報を生成する。音声解析部46は、生成した単語情報を、装置IDに対応つけて環境データベース82に記録する。
音声解析部46は、環境データベース82に記録されている単語情報から、画像検索式を作成して、画像取得部48へ出力する。画像取得部48は、画像検索式を画像検索部62へ出力して、当該画像検索式に適合する画像データを取得する。
音声解析部46は、環境データベース82に記録されている単語情報を読みだす。テレビ32の装置IDに対応ついた単語情報と、テレビ34の装置IDに対応づいた単語情報とが異なっている場合、テレビ32とテレビ34とのチャンネルが異なっている蓋然性が高い。この場合、音声解析部46は、会話データベース80を参照して、発話者14および発話者16の単語情報との一致数を算出して、一致数の多い装置IDを特定する。なお、図13に示した例において、一致数の多い装置IDは、仮にテレビ34に対応した装置IDであったとして説明する。
音声解析部46は、テレビ34を視聴しながら発話者14と発話者16が会話していると判断する。音声解析部46は、特定しなかった装置IDを有するテレビ32に対し、音声取得部が取得した発話者14、16の音声から生成した単語情報を含む放送を受信するように、受信先を変更する情報をテレビ32の装置ID及び端末90の端末IDに対応づけて、画像取得部48に出力する。
画像取得部48は、対応付けられた端末IDから、端末90を特定する。画像取得部48は、受信先を変更する情報を、端末90の取得部25へ出力する。取得部25は、対応つけられた装置IDから、テレビ32を特定する。取得部25は、テレビ32にチャンネルを変更する信号を出力して、テレビ32のチャンネルを変更する。すなわち、本実施形態においては、同じチャンネルの放送内容がコンテンツの一例となっている。
このように、画像取得装置40は、発話者の音声に基づく画像を提供するとともに、テレビ32の受信先を変更する情報を出力することにより、テレビ32のチャンネルを変更できる。発話者14、16は、同じ放送を視聴しながら、会話することができる。画像取得装置40は、これにより、発話者14、16の会話を盛り上げることができる。
なお、本実施形態において、画像取得装置40および画像検索装置60は、端末90、92とは別に設けたが、端末90、92の何れかが、画像取得装置40、または画像検索装置60の機能を有していてもよい。また、端末90、92の何れかが、画像取得装置40、および画像検索装置60の機能を有してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。また、上記実施の形態に、多様な変更または改良を加え得ることが当業者に明らかである。更に、変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることは、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10、12、14、16 発話者、20、90、92 端末、22、24 音声入力部、25 取得部、26 環境音入力部、28 音声出力部、30 表示部、32、34 テレビ、36 アンテナ、40 画像取得装置、42 音声取得部、44 記録部、46 音声解析部、48 画像取得部、60 画像検索装置、62 画像検索部、64 画像格納部、70 ネットワーク、80 会話データベース、82 環境データベース、84 属性データベース、86 類義語データベース、88 履歴データベース、94 会話画像、96 環境画像、100、102 画像取得システム
Claims (10)
- 発話者からの音声および前記発話者の周囲の環境音を取得する音声取得部と、
前記音声取得部により取得された前記発話者の前記音声および前記周囲の前記環境音をそれぞれ解析して文字情報を生成する音声解析部と、
前記音声解析部により生成された、少なくとも前記発話者の前記音声に基づく文字情報を用いて検索したコンテンツと、少なくとも前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得部と
を備えるコンテンツ取得装置。 - 前記コンテンツ取得部は、前記音声取得部により前記発話者からの音声が取得されている場合に前記発話者の前記音声に基づく文字情報を用いたコンテンツを出力するとともに、前記音声取得部により前記発話者からの音声が取得されていない場合に前記周囲の前記環境音に基づく文字情報を用いたコンテンツを出力する請求項1に記載のコンテンツ取得装置。
- 前記コンテンツ取得部は、前記音声取得部により前記発話者からの音声が取得されていない場合に、前記音声取得部により前記発話者からの音声が取得されていない間に取得された前記周囲の前記環境音に基づく文字情報を用いて、コンテンツを検索する請求項2に記載のコンテンツ取得装置。
- 前記コンテンツ取得部は、前記発話者の前記音声に基づく文字情報を用いて検索したコンテンツを、前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツよりも優先的に表示させるよう出力する請求項1から3のいずれか1項に記載のコンテンツ取得装置。
- 前記コンテンツ取得部は、前記音声取得部により前記発話者から取得される音声の頻度が低くなるほど、前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツをより優先的に表示させるよう出力する請求項4に記載のコンテンツ取得装置。
- 前記発話者の属性を取得する属性取得部をさらに備え、
前記コンテンツ取得部は、前記周囲の前記環境音に基づく文字情報を用いて検索する場合に、前記属性取得部により取得された属性をさらに用いて検索条件を作成し、当該検索条件によりコンテンツを検索する請求項1から5のいずれか1項に記載のコンテンツ取得装置。 - 前記発話者の前記音声に基づく文字情報の履歴を格納する履歴格納部をさらに備え、
前記コンテンツ取得部は、前記周囲の前記環境音に基づく文字情報を用いて検索する場合に、前記履歴格納部に格納された文字情報をさらに用いて検索条件を作成し、当該検索条件によりコンテンツを検索する請求項1から6のいずれか1項に記載のコンテンツ取得装置。 - 前記周囲の前記環境音に基づく文字情報を用いて出力したコンテンツの履歴を格納する履歴格納部をさらに備え、
前記コンテンツ取得部は、前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツのうち、前記履歴格納部に履歴が格納されているコンテンツを除いて出力する請求項1から7のいずれか1項に記載のコンテンツ取得装置。 - 前記音声取得部は、前記周囲の環境音として放送受信装置からの音声を取得し、
前記コンテンツ取得部は、コンテンツの出力先に放送受信装置が接続されている場合に、前記音声取得部が取得した音声を含む放送を受信するよう受信先を変更する情報を出力する請求項1から8のいずれか1項に記載のコンテンツ取得装置。 - 発話者からの音声および前記発話者の周囲の環境音を取得する音声取得機能と、
前記音声取得機能により取得された前記発話者の前記音声および前記周囲の前記環境音をそれぞれ解析して文字情報を生成する音声解析機能と、
前記音声解析機能により生成された、少なくとも前記発話者の前記音声に基づく文字情報を用いて検索したコンテンツと、少なくとも前記周囲の前記環境音に基づく文字情報を用いて検索したコンテンツと、を取得して出力するコンテンツ取得機能と
をコンピュータに実現させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013073857A JP2014199490A (ja) | 2013-03-29 | 2013-03-29 | コンテンツ取得装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013073857A JP2014199490A (ja) | 2013-03-29 | 2013-03-29 | コンテンツ取得装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014199490A true JP2014199490A (ja) | 2014-10-23 |
Family
ID=52356372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013073857A Pending JP2014199490A (ja) | 2013-03-29 | 2013-03-29 | コンテンツ取得装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014199490A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017228281A (ja) * | 2017-04-24 | 2017-12-28 | ヤフー株式会社 | 推定装置、推定方法および推定プログラム |
JP2019023916A (ja) * | 2018-10-10 | 2019-02-14 | ヤフー株式会社 | 推定装置、推定方法および推定プログラム |
US10290078B2 (en) | 2016-07-14 | 2019-05-14 | Ricoh Company, Ltd. | Image processing apparatus, image processing method, and recording medium |
JP2021504785A (ja) * | 2017-11-22 | 2021-02-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | コンテキスト解析を用いた検索クエリの改善 |
JP2021093172A (ja) * | 2021-02-04 | 2021-06-17 | ヤフー株式会社 | 推定装置、推定方法および推定プログラム |
-
2013
- 2013-03-29 JP JP2013073857A patent/JP2014199490A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10290078B2 (en) | 2016-07-14 | 2019-05-14 | Ricoh Company, Ltd. | Image processing apparatus, image processing method, and recording medium |
JP2017228281A (ja) * | 2017-04-24 | 2017-12-28 | ヤフー株式会社 | 推定装置、推定方法および推定プログラム |
JP2021504785A (ja) * | 2017-11-22 | 2021-02-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | コンテキスト解析を用いた検索クエリの改善 |
JP7325156B2 (ja) | 2017-11-22 | 2023-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンテキスト解析を用いた検索クエリの改善 |
JP2019023916A (ja) * | 2018-10-10 | 2019-02-14 | ヤフー株式会社 | 推定装置、推定方法および推定プログラム |
JP2021093172A (ja) * | 2021-02-04 | 2021-06-17 | ヤフー株式会社 | 推定装置、推定方法および推定プログラム |
JP7181322B2 (ja) | 2021-02-04 | 2022-11-30 | ヤフー株式会社 | 推定装置、推定方法および推定プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6603754B2 (ja) | 情報処理装置 | |
US11580290B2 (en) | Text description generating method and device, mobile terminal and storage medium | |
KR102140177B1 (ko) | 환경 콘텍스트를 이용한 질문 답변 | |
CN104704851B (zh) | 节目推荐装置和节目推荐方法 | |
US20080235018A1 (en) | Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content | |
US9099086B2 (en) | System and method for internet radio station program discovery | |
US10409547B2 (en) | Apparatus for recording audio information and method for controlling same | |
CN104618807B (zh) | 多媒体播放方法、装置及系统 | |
JP2014199490A (ja) | コンテンツ取得装置およびプログラム | |
US20140114656A1 (en) | Electronic device capable of generating tag file for media file based on speaker recognition | |
KR101100191B1 (ko) | 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법 | |
CN102592628A (zh) | 一种音视频播放文件的播放控制方法 | |
JP6202815B2 (ja) | 文字認識装置および文字認識方法並びに文字認識プログラム | |
CN107657469A (zh) | 一种广告信息的推送方法、装置及机顶盒 | |
CN104751847A (zh) | 一种基于声纹识别的数据获取方法及系统 | |
JP2015106203A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2017008498A1 (zh) | 搜索节目的方法及装置 | |
JP5472960B2 (ja) | 端末装置及びプログラム | |
CN113190752A (zh) | 信息推荐方法、移动终端及存储介质 | |
CN108337357A (zh) | 音频播放方法及装置 | |
JP2014149571A (ja) | コンテンツ検索装置 | |
CN113055529B (zh) | 录音控制方法和录音控制装置 | |
JP2010113558A (ja) | 単語抽出装置、単語抽出方法及び受信装置 | |
WO2011042946A1 (ja) | 類似コンテンツ検索装置及びプログラム | |
JP4080965B2 (ja) | 情報提示装置及び情報提示方法 |