JP2015022357A - Information processing system, information processing method, and information processing device - Google Patents
Information processing system, information processing method, and information processing device Download PDFInfo
- Publication number
- JP2015022357A JP2015022357A JP2013147853A JP2013147853A JP2015022357A JP 2015022357 A JP2015022357 A JP 2015022357A JP 2013147853 A JP2013147853 A JP 2013147853A JP 2013147853 A JP2013147853 A JP 2013147853A JP 2015022357 A JP2015022357 A JP 2015022357A
- Authority
- JP
- Japan
- Prior art keywords
- target
- information processing
- content
- attribute
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、デジタルサイネージを提供する情報処理システム、情報処理方法および情報処理装置に関する。 The present invention relates to an information processing system, an information processing method, and an information processing apparatus that provide digital signage.
近年、ネットワークやディスプレイ性能の向上に伴い、ディスプレイに映像や音声などを組み合わせたコンテンツを表示してターゲットに情報を提供するデジタルサイネージが注目されている。デジタルサイネージは、既存のポスターや看板に比べて高い表現力を有し、場所や時間に合わせてコンテンツを表示することができるため、ターゲットに強い印象を与えつつ情報を提供できる。そこで、カメラなど各種センサの情報を利用してターゲットの性別や年齢などの属性や様子を観測し、コンテンツに興味を示したターゲットの人物像を分析したりターゲットに興味を持たれそうなコンテンツを自動的に表示したりする技術が開発されている。 In recent years, with the improvement of network and display performance, digital signage that displays information that combines video and audio on a display and provides information to a target has attracted attention. Digital signage has higher expressive power than existing posters and signboards, and can display content according to location and time, so it can provide information while giving a strong impression to the target. Therefore, we use information from various sensors such as cameras to observe the attributes and appearances of the target such as gender and age, analyze the human figure of the target that showed interest in the content, and select content that is likely to be interested in the target. Technology that automatically displays has been developed.
例えば、特許文献1,2には、ターゲットの顔を撮像してその特徴から属性を推定する技術が記載されている。また、特許文献3にはターゲット映像から顔や動きの特徴を解析して、コンテンツの使用言語を切り替える技術が記載されている。
For example,
なお、特許文献4には、ターゲットの会話を音声認識して顧客情報として収集する技術が記載されている。また、特許文献5には、一定の時間間隔で使用言語を切り替えて案内情報を表示し、ユーザが応答して行った操作に応じていずれかの使用言語を選択してコンテンツを表示する技術が記載されている。
しかしながら、特許文献1および2に記載されている顔の特徴からターゲットの属性を推定する技術では、ターゲットの使用言語まで推定することは困難である。例えば、顔の特徴のみから日本語を使用する日本人と中国語を使用する中国人とを区別して推定することは困難である。したがって、この技術によれば、ターゲットに応じて使用言語を選択してコンテンツを表示することは困難であった。
However, with the techniques for estimating target attributes from facial features described in
また、特許文献3に記載されている映像からターゲットの属性を推定する技術によれば、ターゲットが情報を単に眺めているだけなのか興味を持って見ているのかを区別することは困難である。したがって、ターゲットの関心度に応じて適切なコンテンツを表示することは困難であった。
Further, according to the technique for estimating the attribute of a target from the video described in
本発明は、上記に鑑みてなされたものであって、ターゲットの属性に応じて適切なコンテンツを表示可能な情報処理システム、情報処理方法および情報処理装置を提供することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to provide an information processing system, an information processing method, and an information processing apparatus capable of displaying appropriate content in accordance with a target attribute.
上述した課題を解決し、目的を達成するために、本発明は、ターゲットの音声を含む音声信号を取得する音声取得手段と、前記音声取得手段により取得された音声信号に基づいて、前記ターゲットの属性を推定するターゲット属性推定手段と、前記ターゲット属性推定手段により推定された前記属性に基づいてコンテンツを選択して取得するコンテンツ選択取得手段と、前記コンテンツ選択取得手段により取得された前記コンテンツを前記ターゲットに向けて表示する表示手段と、を備えることを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention provides an audio acquisition unit that acquires an audio signal including target audio, and an audio signal acquired by the audio acquisition unit based on the audio signal acquired by the audio acquisition unit. Target attribute estimation means for estimating an attribute; content selection acquisition means for selecting and acquiring content based on the attribute estimated by the target attribute estimation means; and the content acquired by the content selection acquisition means Display means for displaying toward the target.
本発明によれば、ターゲットの属性に応じて適切なコンテンツを表示可能という効果を奏する。 According to the present invention, there is an effect that appropriate content can be displayed according to the attribute of the target.
以下に添付図面を参照して、情報処理システム、情報処理方法および情報処理装置の実施の形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 Hereinafter, embodiments of an information processing system, an information processing method, and an information processing apparatus will be described in detail with reference to the accompanying drawings. In addition, this invention is not limited by this embodiment. Moreover, in description of drawing, the same code | symbol is attached | subjected and shown to the same part.
(第1の実施の形態)
[情報処理システムの構成]
図1は、本発明の第1の実施の形態にかかる情報処理システムの構成を示す模式図である。図1に示すように、情報処理システム10は、情報処理装置1、表示装置2、画像投影装置3、サーバ4、およびマイク5などを備え、データ伝送路Nを介して相互に接続されている。なお、情報処理装置1は、マイク5、表示装置2または画像投影装置3などを内蔵して、一体のハードウェアとしてもよい。
(First embodiment)
[Configuration of information processing system]
FIG. 1 is a schematic diagram showing the configuration of the information processing system according to the first embodiment of the present invention. As shown in FIG. 1, the
サーバ4は、演算装置や大容量の記憶装置を備えサーバ機能を有する機器であり、サーバ装置やユニット装置などに相当する。本実施の形態のサーバ4は、表示手段としての表示装置2や画像投影装置3に表示させるコンテンツを格納する。マイク5は、音声取得手段として、表示装置2や画像投影装置3の投影面の近傍に設置され、ターゲットの音声を含む音声信号を取得する。データ伝送路Nは、例えば、LAN(Local Area Network)、イントラネット、イーサネット(登録商標)またはインターネットなどの各種ネットワーク通信路に相当する。なお、ネットワーク通信路の有線または無線を問わない。また、データ伝送路NにはUSB(Universal Serial Bus)などの各種バス通信路も含まれる。
The
情報処理装置1は、演算装置を備え情報処理機能を有する機器であり、タブレットなどの情報端末も含む。情報処理装置1は、図2に示すように、CPU(Central Processing Unit)101、主記憶装置102、補助記憶装置103、通信IF(interface)104、及び外部IF105などを備え、バス通信路Bを介して相互に接続される。
The
CPU101は、情報処理装置1全体の制御や搭載機能を実現するための演算装置である。主記憶装置102は、プログラムやデータなどを所定の記憶領域に保持する記憶装置(メモリ)である。主記憶装置102は、例えば、ROM(Read Only Memory)やRAM(Random Access Memory)などである。また、補助記憶装置103は、主記憶装置102より容量の大きい記憶領域を備える記憶装置である。補助記憶装置103は、例えば、HDD(Hard Disk Drive)やメモリカード(Memory Card)などの不揮発性の記憶装置である。なお、補助記憶装置103には、例えば、フレキシブルディスク(FD)、CD(Compact Disk)、及びDVD(Digital Versatile Disk)などの記憶媒体が含まれる。よって、CPU101は、例えば、補助記憶装置103から主記憶装置102上に、プログラムやデータを読み出し、処理を実行することで、情報処理装置1全体の制御や搭載機能を実現する。
The CPU 101 is an arithmetic device for realizing control of the entire
通信IF104は、情報処理装置1をデータ伝送路Nに接続するインタフェースである。これにより、情報処理装置1は、表示装置2、画像投影装置3、およびサーバ4とデータ通信可能となる。外部IF105は、情報処理装置1と外部機器106との間でデータを送受信するためのインタフェースである。外部機器106には、例えば、操作入力を受け付けるテンキーやタッチパネルなどの入力装置や、大容量の記憶領域を備える外部記憶装置や各種記憶媒体の書き込み又は読み取りを行うドライブ装置などがある。
The
表示装置2は、液晶ディスプレイなどに相当し、情報処理装置1での処理結果などの各種情報の他、後述する情報処理装置1の情報処理の結果、選択されたコンテンツをターゲットに向けて表示する。
The
画像投影装置3は、光学系の投影エンジンを備え投影機能を有する機器であり、プロジェクタなどに相当する。本実施の形態では、画像投影装置3は、表示装置2に表示されるコンテンツと同様のコンテンツを投影面に投影する。画像投影装置3は、図3に例示するように、CPU301、メモリコントローラ302、メインメモリ303、およびホスト−PCI(Peripheral Component Interconnect)ブリッジ304などを備える。メモリコントローラ302は、ホスト・バス311を介して、CPU301、メインメモリ303、およびホスト−PCIブリッジ304などに接続されている。
The
CPU301は、画像投影装置3の全体制御を行う演算装置である。メモリコントローラ302は、メインメモリ303に対する読み書きなどを制御する制御回路である。メインメモリ303は、例えば、プログラムやデータの格納用メモリ、プログラムやデータの展開用メモリ、描画用メモリ、または描画用メモリなどとして用いられる半導体メモリである。
The
ホスト−PCIブリッジ304は、周辺デバイスやPCIデバイス305を接続するためのブリッジ回路である。ホスト−PCIブリッジ304は、HDD I/F312を介して、メモリカード306に接続される。また、ホスト−PCIブリッジ304は、PCIバス313を介して、PCIデバイス305に接続される。また、ホスト−PCIブリッジ304は、PCIバス313およびPCIスロット314を介して、通信カード307、無線通信カード308、およびビデオカード309などに接続される。
The host-
メモリカード306は、基本ソフトウェア(OS:Operating System)のブートデバイスとして利用される記憶メディアである。通信カード307および無線通信カード308は、画像投影装置3をLANなどのネットワークや通信回線に接続し、データ通信を制御する通信制御装置である。ビデオカード309は、投影面に出力する画像の表示を制御する表示制御装置である。なお、本実施の形態の画像投影装置3で実行される制御プログラムは、メインメモリ303の格納用メモリなどに予め組み込まれて提供される。
The memory card 306 is a storage medium used as a boot device for basic software (OS: Operating System). The
[情報処理装置の構成]
図4は、本実施の形態の情報処理装置1の機能構成を例示するブロック図である。情報処理装置1は、図4に示すように、サーバ4から適宜配信されるコンテンツを受信して、各種メモリで実現されるコンテンツ記憶部11に記憶する。このコンテンツは、コンテンツを識別するコンテンツ番号と対応づけられてコンテンツ記憶部11に記憶される。また、コンテンツ記憶部11には、コンテンツ属性テーブルが記憶される。コンテンツ属性テーブルは、図5に例示するように、属性、コンテンツ番号が含まれる。属性とは、コンテンツにより情報を提供するターゲットの性別、年齢、使用言語、関心度などの属性を意味する。なお、関心度とは、コンテンツにより提供された情報に対するターゲットの興味の度合い(高低)を意味する。
[Configuration of information processing device]
FIG. 4 is a block diagram illustrating a functional configuration of the
また、情報処理装置1は、音声取得手段としてのマイク5から情報を受け取って、CPU101が、補助記憶装置103から情報処理プログラムを読み出し、RAMに展開して実行する。これにより、RAMが、ターゲット属性推定部14、およびコンテンツ選択取得部15として機能する。これら各部の機能については後述する。
In addition, the
なお、本実施形態の情報処理装置1で実行される情報処理プログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)などのコンピュータで読み取り可能な記録媒体に記録されて提供される。
The information processing program executed by the
また、本実施の形態の情報処理装置1で実行される情報処理プログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の情報処理装置1で実行される情報処理プログラムをインターネットなどのネットワーク経由で提供または配布するように構成しても良い。また、本実施形態の情報処理プログラムを、ROMなどに予め組み込んで提供するように構成してもよい。
In addition, the information processing program executed by the
本実施の形態の情報処理装置1で実行される情報処理プログラムは、上述した各部(ターゲット属性推定部14、およびコンテンツ選択取得部15)を含むモジュール構成となっている。実際のハードウェアとしてはCPU101が上記記憶媒体から情報処理プログラムを読み出して実行することにより上記各部が主記憶装置102上にロードされ、各部が主記憶装置102上に生成される。
The information processing program executed by the
[情報処理]
図6は、情報処理装置1における情報処理手順を示すフローチャートである。図6に示す情報処理は、例えば、オペレータによる情報処理開始の指示入力があったタイミングで開始となり、情報処理はステップS1の処理に進む。
[Information processing]
FIG. 6 is a flowchart showing an information processing procedure in the
ステップS1の処理では、マイク5がターゲットの音声を含む音声信号を取得する。これにより、ステップS1の処理は完了し、情報処理はステップS2の処理に進む。
In the process of step S1, the
ステップS2の処理では、ターゲット属性推定部14が、ステップS1で取得された音声信号に基づいて、例えば、ターゲットの使用言語や関心度などを含む属性を推定する。これにより、ステップS2の処理は完了し、情報処理はステップS3の処理に進む。
In the process of step S2, the target
ここで、図7を参照して、ターゲットの属性の推定方法について説明する。図7に示すように、例えば、ターゲットが属性A,B,Cのうちのどの属性に属しているかを推定する場合、図7に示すように、ターゲット属性推定部14は、まず、取得された音声信号の特徴量を抽出する。特徴量とは、例えば、一定区間ごとの信号のエネルギーや周波数スペクトル、MFCC(メル周波数ケプストラム係数)などを意味する。なお、音声認識などに適用されるMFCCは、人間の聴覚の性質を取り入れた特徴量であって、次のようにして求められる。すなわち、まず、FFTによって得られた周波数スペクトルの絶対値をとり、人間の聴覚に応じた音の高さの尺度であるメル尺度上で等間隔なフィルタバンクにかけて各帯域のスペクトルの和を求める。次に、対数をとり、離散コサイン変換(DCT)を行って、低次成分を取り出す。
Here, a method for estimating the target attribute will be described with reference to FIG. As shown in FIG. 7, for example, when estimating which attribute of the attributes A, B, and C the target belongs to, the target
次に、ターゲット属性推定部14は、抽出された特徴量から各属性のモデルに対する尤度を算出する。各属性のモデルとは、例えば、GMM(ガウス混合モデル)やHMM(隠れマルコフモデル)などにより各属性の特徴をモデル化したものである。各モデルの尤度算出対象のパラメータは、予め各属性のサンプルから抽出された特徴量を用いて学習される。例えば、各モデルのパラメータは、各多次元ガウス分布の重み、平均や共分散などである。尤度とは、そのモデルに対する尤もらしさを示し、尤度が高いほどそのモデルに合致していることを示す。属性の尤度は、属性のモデルのパラメータと抽出された特徴量とから算出できる。例えば、GMMの場合には、尤度は次式(1)によって算出される。ここで、Lが尤度、xがMFCCのベクトル、wkがk番目の多次元ガウス分布とする。
Next, the target
次に、ターゲット属性推定部14は、以上のようにして算出された尤度から、ターゲットがどの属性に属するかを判定する。例えば、ターゲット属性推定部14は、尤度が最大となったモデルの属性を、このターゲットが属する属性と判定する。
Next, the target
なお、3つ以上の属性や、複数の属性を組み合わせた複合的な属性についても、同様に求めることができる。例えば、ターゲット属性推定部14は、使用言語(A,B,・・・)と関心度(高、中、低)との組み合わせからなる(使用言語A、関心度高)、(使用言語A、関心度低)、(使用言語B、関心度中)などの属性を予め規定しておく。そして、ターゲット属性推定部14は、各属性のモデルに対するターゲットの特徴量の尤度を算出し、ターゲットがどの属性に属するかを推定する。
Note that three or more attributes or a complex attribute obtained by combining a plurality of attributes can be obtained in the same manner. For example, the target
ステップS3の処理では、コンテンツ選択取得部15が、図5に示すコンテンツ属性テーブルを参照し、ステップS2の処理で推定された属性に対応するコンテンツを選択し、コンテンツ記憶部11から取得する。これにより、ステップS3の処理は完了し、情報処理はステップS4の処理に進む。
In the process of step S3, the content selection /
ステップS4の処理では、表示手段としての表示装置2あるいは画像投影装置3が、ステップS3の処理で取得されたコンテンツを表示する。これにより、ステップS4の処理は完了し、一連の情報処理は終了する。
In the process of step S4, the
なお、ステップS2の処理における属性の一例である関心度については、以下に説明する推定方法を採用してもよい。すなわち、図8に例示するように、ターゲット属性推定部14が、まず、取得された音声信号に基づいて、ターゲットの発話の有無や、特定単語を検出し、これらが検出されたか否かに基づいて関心度を推定する。例えば、ターゲットがコンテンツを無言で見ているより何かを話しながら見ている方が関心度は高いと考えられることから、ターゲットの発話の有無を関心度の尺度とする。特定単語とは、例えば、欲しい、安いなどの関心度の尺度となるキーワードを意味する。そこで、ターゲット属性推定部14は、例えば、発話、特定単語ともに検出された場合には関心度が高いと推定する。また、ターゲット属性推定部14は、発話は検出されたが特定単語が検出されなかった場合には関心度は中程度と推定し、いずれも検出されなかった場合には関心度が低いと推定する。なお、特定単語は、予め単語データベースに登録しておく。あるいは、マイク5がターゲットの音声信号を取得する際に、表示装置2や画像投影装置3の投影面に表示されているコンテンツに含まれる特定単語を単語データベースに自動的に登録する。そして、ターゲット属性推定部14が、関心度を推定する際に、単語データベースを参照して検出対象の特定単語を決定する。
In addition, about the interest level which is an example of the attribute in the process of step S2, the estimation method demonstrated below may be employ | adopted. That is, as illustrated in FIG. 8, the target
上記のように関心度を他の属性とは別に推定する場合、ステップS3の処理で参照されるコンテンツ属性テーブルは、図9に示すように、関心度を他の属性と区別した形態としてもよい。 When the interest level is estimated separately from other attributes as described above, the content attribute table referred to in the process of step S3 may have a form in which the interest level is distinguished from other attributes as shown in FIG. .
なお、コンテンツ属性テーブルには、関心度や使用言語などの属性に応じたコンテンツのコンテンツ番号が予め登録される。例えば、関心度が低い場合に対応付けされた初期コンテンツに対し、関心度が中程度の場合には、ターゲットの使用言語に翻訳された初期コンテンツが対応付けされる。また、関心度が高い場合には、さらに追加情報を含むコンテンツが対応付けされる。これにより、例えば、関心度や使用言語などのターゲットの属性に応じたコンテンツが表示装置2や画像投影装置3の投影面に表示される。
In the content attribute table, content numbers of contents corresponding to attributes such as the degree of interest and the language used are registered in advance. For example, when the interest level is medium, the initial content translated into the target language is associated with the initial content associated with the low interest level. In addition, when the degree of interest is high, content including additional information is associated. Thereby, for example, content according to the target attribute such as the degree of interest and the language used is displayed on the projection surface of the
また、ステップS1の処理で取得される音声信号がマルチチャネルである場合には、情報処理装置1は、DS(Delay and Sum Beamformer)法やMUSIC(MUltiple SIgnal Classification)法などのアレイ処理により音源の方向を推定することにより、ターゲットの位置を検出できる。その場合、情報処理装置1は、検出されたターゲットの位置に応じて、ステップS3の処理で選択され取得されたコンテンツを表示装置2あるいは画像投影装置3の投影面に表示する際の表示位置を調整できる。例えば、図10に例示するように、ターゲットの位置が表示装置2や画像投影装置3の投影面の左側と検出された場合に、先に表示されているコンテンツaの左側に重ね合わせて選択取得されたコンテンツbを表示できる。
Further, when the audio signal acquired in the process of step S1 is multi-channel, the
(第2の実施の形態)
第2の実施の形態の情報処理システム10は、映像取得手段としてのカメラ6を備える点を除いて、図1に示す上記第1の実施の形態の情報処理システム10と同様に構成される。図11は、第2の実施の形態の情報処理装置1の機能構成を例示する図である。カメラ6は、表示装置2や画像投影装置3の投影面の近傍に設置され、ターゲットの映像を含む映像信号を取得する。情報処理プログラムにより、図4に示す第1の実施の形態と同様のターゲット属性推定部14、およびコンテンツ選択取得部15に加え、ターゲット音声抽出部12、ターゲット位置検出部13、表示位置調整部16がRAMに展開される。本実施の形態の情報処理システム10は、音声信号に加えて映像信号を取得することにより、後述するように、ターゲットの位置の検出精度が向上し、また、複数人のターゲットの位置を検出することもできる。そのため、複数人のターゲットのそれぞれの位置に応じて複数のコンテンツを表示させることもできる。
(Second Embodiment)
The
なお、情報処理装置1は、マイク5やカメラ6、表示装置2または画像投影装置3などを内蔵して、一体のハードウェアとしてもよい。
Note that the
図12は、第2の実施の形態の情報処理装置1における情報処理手順例を示す。図12に示す情報処理は、上記第1の実施の形態の情報処理と同様に、例えば、オペレータによる情報処理開始の指示入力があったタイミングで開始となり、情報処理はステップS11の処理に進む。
FIG. 12 illustrates an example of an information processing procedure in the
ステップS11の処理では、上記した第1の実施の形態のステップS1の処理と同様に、マイク5がターゲットの音声を含む音声信号を取得する。加えて、カメラ6がターゲットの映像を含む映像信号を取得する。これにより、ステップS11の処理は完了し、情報処理はステップS12の処理に進む。
In the process of step S11, similarly to the process of step S1 of the first embodiment described above, the
ステップS12の処理では、ターゲット位置検出部13が、ステップS11の処理により取得された音声信号と映像信号とに基づいて、ターゲットが表示装置2または画像投影装置3の投影面に対してどの位置にいるかを検出する。例えば、前述したとおり、マルチチャネルの音声信号に基づいて、DS法やMUSIC法などのアレイ処理により音源の方向を推定することにより、ターゲットの位置を検出する。加えて、映像信号からターゲットの顔や身体を識別することにより、ターゲットの位置を検出する。なお、本実施の形態では、音声信号と映像信号とを複合的に利用することにより、ターゲットの位置の検出の精度が向上する。これにより、ステップS12の処理は完了し、情報処理はステップS13の処理に進む。
In the process of step S12, the target
ステップS13の処理では、ターゲット音声抽出部12が、ステップS12の処理で検出されたターゲットの位置に基づいて、ステップS11の処理により取得された音声信号からターゲットの音声信号を抽出する。例えば、ターゲット音声抽出部12は、映像に含まれる複数人の中から発声しているターゲットの音声信号を抽出する。また、ターゲット音声抽出部12は、入力された音声信号にターゲットの音声以外の雑音が含まれている場合には、その影響を低減してターゲットの音声のみを抽出する。具体的には、音声信号が単チャネルの場合には、ターゲット音声抽出部12は、スペクトルサブトラクション法などを用いて処理を行う。音声信号が複数チャネルの場合には、ターゲット音声抽出部12は、DS法やMVDR法などのビームフォーミングや、ICA(独立成分分析)などを用いたブラインド音源分離などの方法を用いて処理を行う。なお、ビームフォーミングなどを用いる際、ターゲットの位置に基づいて目的音を抽出する。このように、音声信号と映像信号とを複合的に利用することにより、映像に含まれる発声している複数人のターゲットの位置と音声とを検出できる。これにより、ステップS13の処理は完了し、情報処理はステップS14の処理に進む。 In the process of step S13, the target sound extraction unit 12 extracts the target sound signal from the sound signal acquired by the process of step S11 based on the position of the target detected by the process of step S12. For example, the target sound extraction unit 12 extracts a target sound signal uttered from a plurality of persons included in the video. In addition, when the input audio signal includes noise other than the target audio, the target audio extraction unit 12 extracts only the target audio while reducing the influence thereof. Specifically, when the audio signal is a single channel, the target audio extraction unit 12 performs processing using a spectral subtraction method or the like. When the audio signal has a plurality of channels, the target audio extraction unit 12 performs processing using beam forming such as DS method or MVDR method, or blind sound source separation using ICA (independent component analysis) or the like. . When beam forming or the like is used, the target sound is extracted based on the target position. As described above, by using the audio signal and the video signal in combination, it is possible to detect the positions and voices of a plurality of uttering targets included in the video. Thereby, the process of step S13 is completed, and the information processing proceeds to the process of step S14.
ステップS14の処理では、ターゲット属性推定部14が、ステップS13の処理で抽出されたターゲットの音声信号と、ステップS11で取得された映像信号とに基づいて、例えば、ターゲットの使用言語や関心度などの属性を推定する。これにより、ステップS14の処理は完了し、情報処理はステップS15の処理に進む。
In the process of step S14, the target
なお、属性の推定方法は、上記ステップS2の処理における属性の推定方法と同様である。すなわち、取得された音声信号に加え映像信号の特徴量を抽出する点が異なる以外、図7に示す属性の推定方法を適用できる。本実施の形態では、ターゲット属性推定部14の関心度推定部141が、ターゲットの関心度を推定し、属性推定部142がターゲットの使用言語などの他の属性を推定する。本実施の形態では、音声信号に加えて映像信号が取得されることにより、関心度の推定の精度が向上する。例えば、図13に例示するように、関心度推定部141が、まず、取得された映像信号に基づいて、ターゲットの顔を検出する。また、関心度推定部141は、図8に示す処理と同様に、取得された音声信号に基づいて、ターゲットの発話の有無や、単語データベースから抽出された特定単語を検出する。ここで、ターゲットの顔が検出されることは、カメラ6が映像信号を取得する際に、表示装置2や画像投影装置3の投影面に表示されているコンテンツをターゲットが見ていること意味する。そこで、関心度推定部141は、例えば、顔、発話および特定単語の全てが検出された場合には関心度が高いと推定する。また、関心度推定部141は、顔および発話が検出されたが特定単語が検出されなかった場合には関心度は中程度と推定し、顔が検出されたが発話が検出されなかった場合には関心度が低いと推定する。
The attribute estimation method is the same as the attribute estimation method in the process of step S2. That is, the attribute estimation method shown in FIG. 7 can be applied except that the feature amount of the video signal is extracted in addition to the acquired audio signal. In the present embodiment, the interest
なお、取得された映像信号中に顔が検出されない場合には、ターゲットがコンテンツを見ていないことを意味することから、関心度推定部141は、例えば、システム対象外などの通知情報を発信し、以降の処理は中止あるいは中断する。
Note that, when a face is not detected in the acquired video signal, it means that the target does not see the content, and therefore, the interest
ステップS15の処理では、コンテンツ選択取得部15が、ステップS3の処理と同様に、図5または図9に示すコンテンツ属性テーブルを参照し、ステップS14の処理で推定された属性に対応するコンテンツを選択し、コンテンツ記憶部11から取得する。これにより、ステップS15の処理は完了し、情報処理はステップS16の処理に進む。
In the process of step S15, the content selection /
ステップS16の処理では、表示位置調整部16が、図10に示すように、表示装置2あるいは画像投影装置3の投影面に表示する際の表示位置を調整する。また、前述したように、本実施の形態では複数人のターゲットの位置を推定できるので、例えば、図14に示すように、複数人のターゲットのそれぞれに属性に応じて異なるコンテンツを表示するよう、表示位置を調整することも可能である。これにより、ステップS16の処理は完了し、情報処理はステップS17の処理に進む。
In the processing of step S16, the display position adjustment unit 16 adjusts the display position when displaying on the projection surface of the
ステップS17の処理では、表示手段としての表示装置2あるいは画像投影装置3が、ステップS15の処理で取得されたコンテンツを、ステップS16の処理で調整された表示位置に表示する。これにより、ステップS17の処理は完了し、一連の情報処理は終了する。
In the process of step S17, the
以上、説明したように、本発明によれば、音声により属性を推定し、推定された属性に対応するコンテンツを選択して表示できるので、ターゲットの属性に応じて適切なコンテンツを表示できる。また、本発明によれば、ターゲットの位置を検出することにより、ターゲットの位置に応じてコンテンツの表示位置を調整できる。また、本発明によれば、音声信号に加えて映像信号を取得することにより、精度高くターゲットの位置を検出できるので、ターゲットの位置に応じてコンテンツの表示位置を精度高く調整できる。また、本発明によれば、音声信号に加えて映像信号を取得することにより、複数人のターゲットの位置を検出することができるので、複数人のターゲットのそれぞれの位置に応じて複数のコンテンツを表示させることもできる。 As described above, according to the present invention, attributes can be estimated by voice, and content corresponding to the estimated attributes can be selected and displayed, so that appropriate content can be displayed according to the target attribute. Further, according to the present invention, the display position of the content can be adjusted according to the position of the target by detecting the position of the target. Further, according to the present invention, the target position can be detected with high accuracy by acquiring the video signal in addition to the audio signal, so that the display position of the content can be adjusted with high accuracy according to the target position. In addition, according to the present invention, since the position of a plurality of targets can be detected by acquiring a video signal in addition to the audio signal, a plurality of contents can be obtained according to the respective positions of the plurality of targets. It can also be displayed.
1 情報処理装置
2 表示装置
3 画像投影装置
4 サーバ
5 マイク(音声取得手段)
6 カメラ(映像取得手段)
10 情報処理システム
12 ターゲット音声抽出部
13 ターゲット位置検出部
14 ターゲット属性推定部
141 関心度推定部
142 属性推定部
15 コンテンツ選択取得部
16 表示位置調整部
DESCRIPTION OF
6 Camera (Video acquisition means)
DESCRIPTION OF
Claims (8)
前記音声取得手段により取得された音声信号に基づいて、前記ターゲットの属性を推定するターゲット属性推定手段と、
前記ターゲット属性推定手段により推定された前記属性に基づいてコンテンツを選択して取得するコンテンツ選択取得手段と、
前記コンテンツ選択取得手段により取得された前記コンテンツを前記ターゲットに向けて表示する表示手段と、
を備えることを特徴とする情報処理システム。 Voice acquisition means for acquiring a voice signal including the target voice;
Target attribute estimation means for estimating the attribute of the target based on the audio signal acquired by the audio acquisition means;
Content selection acquisition means for selecting and acquiring content based on the attribute estimated by the target attribute estimation means;
Display means for displaying the content acquired by the content selection acquisition means toward the target;
An information processing system comprising:
前記ターゲット属性推定手段は、前記映像取得手段により取得された映像信号と、前記音声取得手段により取得された音声信号とに基づいて、ターゲットの属性を推定することを特徴とする請求項1または2に記載の情報処理システム。 Provided with a video acquisition means for acquiring a video signal including the target video,
The target attribute estimation unit estimates a target attribute based on the video signal acquired by the video acquisition unit and the audio signal acquired by the audio acquisition unit. Information processing system described in 1.
前記ターゲット位置検出手段により検出されたターゲットの位置に基づいて、前記表示手段に表示するコンテンツの表示位置を調整する表示位置調整手段と、
を備えることを特徴とする請求項1〜5のいずれか1項に記載の情報処理システム。 Target position detection means for detecting the position of the target based on the audio signal acquired by the audio acquisition means and / or the video signal acquired by the video acquisition means;
Display position adjusting means for adjusting the display position of the content displayed on the display means based on the position of the target detected by the target position detecting means;
The information processing system according to any one of claims 1 to 5, further comprising:
前記音声取得ステップで取得された音声信号に基づいて、前記ターゲットの属性を推定するターゲット属性推定ステップと、
前記ターゲット属性推定ステップで推定された前記属性に基づいてコンテンツを選択して取得するコンテンツ選択取得ステップと、
前記コンテンツ選択取得ステップで取得された前記コンテンツを前記ターゲットに向けて表示する表示ステップと、
を含むことを特徴とする情報処理方法。 An audio acquisition step for acquiring an audio signal including the target audio;
A target attribute estimation step for estimating an attribute of the target based on the audio signal acquired in the audio acquisition step;
A content selection acquisition step of selecting and acquiring content based on the attribute estimated in the target attribute estimation step;
A display step of displaying the content acquired in the content selection acquisition step toward the target;
An information processing method comprising:
前記音声取得手段により取得された音声信号に基づいて、前記ターゲットの属性を推定するターゲット属性推定手段と、
前記ターゲット属性推定手段により推定された前記属性に基づいてコンテンツを選択して取得するコンテンツ選択取得手段と、
前記コンテンツ選択取得手段により取得された前記コンテンツを前記ターゲットに向けて表示する表示手段と、
を備えることを特徴とする情報処理装置。 Voice acquisition means for acquiring a voice signal including the target voice;
Target attribute estimation means for estimating the attribute of the target based on the audio signal acquired by the audio acquisition means;
Content selection acquisition means for selecting and acquiring content based on the attribute estimated by the target attribute estimation means;
Display means for displaying the content acquired by the content selection acquisition means toward the target;
An information processing apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013147853A JP2015022357A (en) | 2013-07-16 | 2013-07-16 | Information processing system, information processing method, and information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013147853A JP2015022357A (en) | 2013-07-16 | 2013-07-16 | Information processing system, information processing method, and information processing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015022357A true JP2015022357A (en) | 2015-02-02 |
Family
ID=52486794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013147853A Pending JP2015022357A (en) | 2013-07-16 | 2013-07-16 | Information processing system, information processing method, and information processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015022357A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020170522A (en) * | 2020-06-10 | 2020-10-15 | パラマウントベッド株式会社 | Display control device |
US11175789B2 (en) | 2018-11-13 | 2021-11-16 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling the electronic apparatus thereof |
-
2013
- 2013-07-16 JP JP2013147853A patent/JP2015022357A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11175789B2 (en) | 2018-11-13 | 2021-11-16 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling the electronic apparatus thereof |
JP2020170522A (en) * | 2020-06-10 | 2020-10-15 | パラマウントベッド株式会社 | Display control device |
JP7113045B2 (en) | 2020-06-10 | 2022-08-04 | パラマウントベッド株式会社 | display controller |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
Czyzewski et al. | An audio-visual corpus for multimodal automatic speech recognition | |
JP6649474B2 (en) | Voiceprint identification method, apparatus and background server | |
US10109277B2 (en) | Methods and apparatus for speech recognition using visual information | |
US9899025B2 (en) | Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities | |
EP3791390A1 (en) | Voice identification enrollment | |
US10242677B2 (en) | Speaker dependent voiced sound pattern detection thresholds | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
US10748544B2 (en) | Voice processing device, voice processing method, and program | |
TW201606760A (en) | Real-time emotion recognition from audio signals | |
JP2014153663A (en) | Voice recognition device, voice recognition method and program | |
CN108962231B (en) | Voice classification method, device, server and storage medium | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
US9870521B1 (en) | Systems and methods for identifying objects | |
CN109947971B (en) | Image retrieval method, image retrieval device, electronic equipment and storage medium | |
US9953633B2 (en) | Speaker dependent voiced sound pattern template mapping | |
JP7160095B2 (en) | ATTRIBUTE IDENTIFIER, ATTRIBUTE IDENTIFICATION METHOD, AND PROGRAM | |
Sahidullah et al. | Robust speaker recognition with combined use of acoustic and throat microphone speech | |
Gogate et al. | Av speech enhancement challenge using a real noisy corpus | |
JP6891144B2 (en) | Generation device, generation method and generation program | |
JP4775961B2 (en) | Pronunciation estimation method using video | |
JP2015022357A (en) | Information processing system, information processing method, and information processing device | |
JP6724290B2 (en) | Sound processing device, sound processing method, and program | |
JP6916130B2 (en) | Speaker estimation method and speaker estimation device | |
WO2019181218A1 (en) | Information processing device, information processing system, information processing method, and program |