JP2023025400A

JP2023025400A - 感情タグ付与システム、方法及びプログラム

Info

Publication number: JP2023025400A
Application number: JP2021130617A
Authority: JP
Inventors: 充沢野; Mitsuru Sawano
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-02-22
Also published as: US20230049225A1

Abstract

【課題】コンテンツを使用したイベントの実施時におけるユーザの感情を示す感情タグをコンテンツに付与する感情タグ付与システム、方法及びプログラムを提供する。【解決手段】感情タグ付与方法は、音声検出器が、コンテンツを使用したイベントの実施中に、イベントに参加した人間が発声する音声を示す音声データを検出するステップＳ１６と、感情認識器が、音声データに基づいて人間の感情を認識するステップＳ１８と、プロセッサが、コンテンツを使用したイベントの実施中に認識した人間の感情を示す感情情報を取得するステップと、感情認識器が、取得した感情情報から算出した感情ランクを、感情タグとしてコンテンツに付与するステップＳ２０，Ｓ２２と、を含む。【選択図】図７

Description

本発明は感情タグ付与システム、方法及びプログラムに係り、特にコンテンツにユーザの感情に関する感情タグを付与する技術に関する。

従来、動画、写真などの画像ファイルや音声ファイルなどのコンテンツデータをストレージに大量に保存し、ストレージから選択的にファイルを読み出してスライドショーのように連続再生するシステムが知られている。

特許文献１には、このようなシステムに使用され、タグ付きのコンテンツデータの登録から検索閲覧までのユーザの負担を低減する情報処理システムが提案されている。

特許文献１に記載の情報処理システムは、ユーザ及びユーザの行動に関する情報からユーザのコンテンツデータに対する１以上のタグ情報を生成し、生成した１以上のタグ情報をコンテンツデータと紐付けてコンテンツデータベースに登録する。

また、情報処理システムは、検索閲覧時には、ユーザを含むコンテンツ視聴環境から検出される情報に基づいてタグ情報を選択し、選択したタグ情報に基づいて、コンテンツデータベースから１以上のコンテンツデータを検索して順次再生する。

ところで、特許文献１には、画像ファイルのコンテンツデータにタグ情報を付与する場合に、画像ファイルのコンテンツデータ（撮影画像）を解析し、撮影画像に含まれる人物の顔表情から感情情報を推定し、推定した感情情報を含むタグ情報を画像ファイルに付与する記載がある。尚、感情情報は、例えば、「楽しい」、「悲しい」などの顔表情から推定される情報である。

国際公開第２０２０／１５８５３６号

特許文献１に記載の情報処理システムは、画像ファイルのコンテンツデータにタグ情報を付与する場合に、画像ファイルのコンテンツデータ（撮影画像）を解析し、撮影画像に含まれる人物の顔表情から感情情報を推定し、推定した感情情報を含むタグ情報を画像ファイルに付与する。

しかしながら、撮影画像に含まれる人物の顔表情から推定される感情情報は、撮影画像が撮影された時点（過去）の感情情報であり、その撮影画像を視聴したユーザのコンテンツ視聴時点の感情情報ではない。

また、特許文献１には、コンテンツ視聴時に定点観測カメラなどを使ってコンテンツ視聴環境の画像を取得し、取得した画像から被写体の人物を認識するとともに、その人物の顔表情から感情を推定する記載がある。しかし、ここで推定される感情は、例えば"楽しい"（顔表情が笑顔）などの特定の感情に変化した場合に、検索用のタグ情報を「楽しい」のタグ情報に更新し、コンテンツデータを再検索して再生提示に切り替える場合に使用されるものである。

本発明はこのような事情に鑑みてなされたもので、コンテンツを使用したイベントの実施時におけるユーザの感情を示す感情タグをコンテンツに付与することができる感情タグ付与システム、方法及びプログラムを提供することを目的とする。

上記目的を達成するために第１態様に係る発明は、プロセッサと、コンテンツを使用したイベントの実施中に、イベントに参加した人間が発声する音声を示す音声データを検出する音声検出器と、音声データに基づいて人間の感情を認識する感情認識器と、を備え、プロセッサは、コンテンツを使用したイベントの実施中に感情認識器が認識した人間の感情を示す感情情報を取得し、取得した感情情報から算出した感情ランクを、感情タグとしてコンテンツに付与する、感情タグ付与システムである。

本発明の第１態様によれば、コンテンツを使用したイベントの実施中に、イベントに参加した人間が発声する音声を示す音声データを検出し、検出した音声データに基づいて人間の感情を示す感情情報を取得する。そして、取得した感情情報から算出した感情ランクを、感情タグとしてコンテンツに付与する。

これにより、イベントの実施時におけるユーザの感情を示す感情タグをコンテンツに付与することができ、イベント参加者がどの程度喜んでくれたかという効果（イベントの価値）を時間帯ごとに定量化することができ、どのコンテンツに効果が高かったかを誰でも明確に判断することができる。また、次回のイベントの実施時に感情タグを利用し、感情タグを反映させた効果の高いイベントの実施が可能になる。

本発明の第２態様に係る感情タグ付与システムにおいて、感情認識器は、人間が喜んでいるときに発声する音声の音声データと、喜んでいないときに発声する音声の音声データとを含む多数の音声データを教師データとして機械学習した認識器であることが好ましい。これにより、イベントに参加したユーザ（人間）の感情を示す感情情報であって、喜びの度合いを示す感情情報を精度よく認識することができる。

本発明の第３態様に係る感情タグ付与システムにおいて、コンテンツは、複数の画像であり、イベントは、画像再生機器により複数の画像を順次再生し、再生した複数の画像を鑑賞する鑑賞イベントであることが好ましい。

本発明の第４態様に係る感情タグ付与システムにおいて、複数の画像は、イベントに参加した人間が写っている写真又は動画を含むことが好ましい。イベントに参加した参加者が関心をもち、より楽しめるようにするためである。

本発明の第５態様に係る感情タグ付与システムにおいて、プロセッサは、複数の画像が再生される時間帯における複数の感情情報を感情認識器から取得し、複数の感情情報の代表値から各画像に対応する感情ランクを算出し、算出した感情ランクを感情タグとして各画像にそれぞれ付与することが好ましい。

本発明の第６態様に係る感情タグ付与システムにおいて、プロセッサは、イベントに複数人が参加している場合、音声検出器が検出する音声データに基づいて、複数の画像が再生される時間帯における１又は複数の主要話者を特定し、特定した１人以上の主要話者を示す話者識別情報を各画像にそれぞれ付与することが好ましい。

本発明の第７態様に係る感情タグ付与システムにおいて、プロセッサは、画像再生機器による複数の画像の再生中に感情ランク及び話者識別情報のうち少なくとも１つを同時に表示させることが好ましい。

本発明の第８態様に係る感情タグ付与システムにおいて、プロセッサは、音声検出器が検出する音声データに基づいて、音声データをテキストデータに変換し、テキストデータの少なくとも一部を、コメントタグとして複数の画像の対応する画像に付与することが好ましい。

第９態様に係る発明は、音声検出器が、コンテンツを使用したイベントの実施中に、イベントに参加した人間が発声する音声を示す音声データを検出するステップと、感情認識器が、音声データに基づいて人間の感情を認識するステップと、プロセッサが、コンテンツを使用したイベントの実施中に認識した人間の感情を示す感情情報を取得するステップと、感情認識器が、取得した感情情報から算出した感情ランクを、感情タグとしてコンテンツに付与するステップと、を含む感情タグ付与方法である。

本発明の第１０態様に係る感情タグ付与方法において、コンテンツは、複数の画像であり、イベントは、画像再生機器により複数の画像を順次再生し、再生した複数の画像を鑑賞する鑑賞イベントであることが好ましい。

本発明の第１１態様に係る感情タグ付与方法において、複数の画像は、イベントに参加した人間が写っている写真又は動画を含むことが好ましい。

本発明の第１２態様に係る感情タグ付与方法において、プロセッサが、複数の画像が再生される時間帯における複数の感情情報を感情認識器から取得し、複数の感情情報の代表値から各画像に対応する感情ランクを算出し、算出した感情ランクを感情タグとして各画像にそれぞれ付与することが好ましい。

本発明の第１３態様に係る感情タグ付与方法において、プロセッサが、イベントに複数人が参加している場合、音声検出器が検出する音声データに基づいて、複数の画像が再生される時間帯における１又は複数の主要話者を特定し、特定した１人以上の主要話者を示す話者識別情報を各画像にそれぞれ付与することが好ましい。

本発明の第１４態様に係る感情タグ付与方法において、プロセッサが、画像再生機器による複数の画像の再生中に感情ランク及び話者識別情報により特定される話者情報のうち少なくとも１つを同時に表示させることが好ましい。

本発明の第１５態様に係る感情タグ付与方法において、プロセッサが、音声検出器が検出する音声データに基づいて、音声データをテキストデータに変換し、テキストデータの少なくとも一部を、コメントタグとして複数の画像の対応する画像に付与することが好ましい。

第１６態様に係る発明は、コンテンツを使用したイベントの実施中に、イベントに参加した人間が発声する音声を示す音声データを音声検出器から取得する機能と、音声データに基づいて人間の感情を認識する機能と、コンテンツを使用したイベントの実施中に認識した人間の感情を示す感情情報を取得する機能と、取得した感情情報から算出した感情ランクを、感情タグとしてコンテンツに付与する機能と、をコンピュータにより実現させる感情タグ付与プログラムである。

本発明によれば、コンテンツを使用したイベントの実施時におけるユーザの感情を示す感情タグをコンテンツに付与することができる。これにより、イベントの価値を定量化し、どのコンテンツに効果が高かったかを明確に判断することができ、また、次回のイベントの実施時に感情タグを利用し、感情タグを反映させた効果の高いイベントの実施が可能になる。

図１は、本発明に係る感情タグ付与システムの実施形態を示す概略構成図である。図２は、本発明に係る感情タグ付与システムの実施形態を示すブロック図である。図３は、本発明に係る感情タグ付与システムの第１実施形態を示すタイミングチャートである。図４は、イベントの実施中にイベント参加者が発声する音声を示す音声データに基づいてコンテンツに感情タグを付与する実施形態を示す図である。図５は、本発明に係る感情タグ付与システムの第２実施形態を示すタイミングチャートである。図６は、イベントの実施中にイベント参加者が発声する音声を示す音声データに基づいてコンテンツに感情タグ、話者ＩＤ、及びコメントタグを付与する実施形態を示す図である。図７は、本発明に係る感情タグ付与方法の第１実施形態を示すフローチャートである。図８は、本発明に係る感情タグ付与方法の第２実施形態を示すフローチャートである。

以下、添付図面に従って本発明に係る感情タグ付与システム、方法及びプログラム飛行撮影システム及び方法の好ましい実施形態について説明する。

［感情タグ付与システムの構成］
図１は、本発明に係る感情タグ付与システムの実施形態を示す概略構成図である。

図１に示す感情タグ付与システム１は、タブレットＰＣ（personal computer：パーソナルコンピュータ）１０と、音声検出器２０とを備えている。音声検出器２０は、タブレットＰＣ１０に内蔵されているものでもよい。

また、図１には、タブレットＰＣ１０からの映像信号に基づいて映像（画像）を表示する大型ディスプレイ３０が示されている。

図２は、本発明に係る感情タグ付与システムの実施形態を示すブロック図であり、特にタブレットＰＣ１０のブロック図である。

図２に示す感情タグ付与システム１を構成するタブレットＰＣ１０は、プロセッサ１１、メモリ１２、表示部１４、入出力インターフェース１６、及び操作部１８等を備える。

プロセッサ１１は、ＣＰＵ（Central Processing Unit）等から構成され、タブレットＰＣ１０の各部を統括制御するとともに、例えば、図４に示す感情認識器１３Ａ、感情ランク算出部１３Ｂ、及び感情タグ付与部１３Ｃとして機能する。

メモリ１２は、フラッシュメモリ、ＲＯＭ（Read-only Memory）、及びＲＡＭ(Random Access Memory)、ハードディスク装置等を含む。フラッシュメモリ、ＲＯＭ又はハードディスク装置は、オペレーションシステム、本発明に係る感情タグ付与プログラム、コンテンツ（本例では、複数の画像）、タブレットＰＣ１０（プロセッサ１１）を感情認識器１３Ａとして機能させる学習済みモデルを含む各種のプログラム等を記憶する不揮発性メモリである。ＲＡＭは、プロセッサ１１による処理の作業領域として機能する。また、フラッシュメモリ等に格納された感情タグ付与プログラム等を一時的に記憶する。尚、プロセッサ１１が、メモリ１２の一部（ＲＡＭ）を内蔵していてもよい。

本例のタブレットＰＣ１０は、メモリ１２に保存したコンテンツを使用し、イベントを実施することができる。コンテンツが複数の画像の場合、タブレットＰＣ１０は、大型ディスプレイ３０を使用して複数の画像を順次再生し、再生した複数の画像をイベント参加者に鑑賞させる鑑賞イベントを実施することができる。

表示部１４は、タブレットＰＣ１０の操作用の画面を表示する他、鑑賞イベントを実施する場合には、鑑賞イベントに使用する画像（サムネイル画像）の一覧を表示し、表示部１４の画面上に設けられたタッチパネルのタッチ操作により、画像（写真）の選択、切替えの入力指示等を操作部１８から受け付ける場合のＧＵＩ（Graphical User Interface）の一部としても使用される。

入出力インターフェース１６は、外部機器と接続可能な接続部、及びネットワークと接続可能な通信部等を含む。外部機器と接続可能な接続部としては、マイク入力端子、ＵＳＢ（Universal Serial Bus）、ＨＤＭＩ（High-Definition Multimedia Interface）（ＨＤＭＩは登録商標）等を適用することができる。

プロセッサ１１は、入出力インターフェース１６を介して音声検出器（マイクロフォン）２０により検出された音声データを取得することが可能である。また、プロセッサ１１は、入出力インターフェース１６を介して大型ディスプレイ３０に映像信号を出力することができる。尚、鑑賞イベントを実施する場合、大型ディスプレイ３０の代わりにプロジェクタを入出力インターフェース１６に接続し、プロジェクタに映像信号を出力するようにしてもよい。

操作部１８は、図示しない起動ボタン、音量ボタンの他に、表示部１４の画面上に設けられたタッチパネル等を含み、タッチパネルは、ユーザによる各種の指定を受け付けるＧＵＩの一部として機能する。

［イベントの例］
複数の画像を使用する鑑賞イベントとしては、例えば、介護老人保健施設、特別養護老人ホーム、幼稚園、学校等の施設で実施されるフォトスライドショーの鑑賞会が考えられる。

施設で実施されるフォトスライドショーの鑑賞会の場合、イベント実施者は、施設の職員、あるいは施設からのイベント受託者であり、イベント参加者は、その施設の利用者が考えられる。

イベントがフォトスライドショーの鑑賞会の場合、イベント実施者は、複数の画像をコンテンツとして準備する。「複数の画像」は、複数の静止画（写真）の他に、複数の写真から作成された動画でもよく、また、写真と動画の両方を含んでいてもよい。「写真」は、通常のカメラで撮影した写真だけでなく、絵や文字のような画像でもよく、本人の描かれた絵や短文、本人が描いた絵や文字(毛筆等)などを含む。本人の思い入れが強い画像も回想法効果を得ることができるからである。

イベント実施者は、イベント参加者の写真、アルバム等を借り、写真等が紙ベースの場合には、スキャナで写真をスキャンして電子化した画像ファイルを作成してメモリ１２に保存し、写真等がメモリカードやモバイル端末に保存された画像ファイルの場合には、その保存された画像ファイルをメモリ１２に保存する。

尚、写真は、イベントに参加した人間(イベント参加者)が写っているものが好ましい。あるいは、イベントに参加した人間の家族や仲間、出身学校や組織や地域、好きな趣味、自身の作品、好きな作品、好きなタレント、好きな地域や施設やイベントなどに関する写真又は動画を含むことも好ましい。イベントに参加した参加者が関心をもち、より楽しめるようにするためである。また、イベント参加者の画像ファイルは、イベント参加者毎に作成したフォルダに保存することが好ましい。

メモリ１２のフラッシュメモリ等には、フォトスライドショーソフトがインストールされており、タブレットＰＣ１０は、フォトスライドショーソフトを起動させることで、メモリ１２に保存された複数の写真を使用したフォトスライドショーを実施するための画像再生機器として機能する。

イベント実施者は、フォトスライドショーを実施する場合、フォトスライドショーに使用するサムネイル画像の一覧を表示部１４に表示させ、イベント参加者の反応を見ながらタブレットＰＣ１０を操作し、複数の画像（写真）を良いタイミングで次の写真に切り替えたり、前の写真に戻したり、次の写真をスキップしたり、２つの写真を並べたりして、良い反応を作っていく形式のフォトスライドショーを実施する。

複数の写真を使用した鑑賞イベントとしては、上記のフォトスライドショーに限らず、複数の写真から作成された動画であって、公知のフォトムービー作成ソフトにより複数の画像（写真）を繋ぎ合わせ、写真の切り替えや写真の見せ方に特殊効果を施した動画（フォトムービー）を、画像再生機器として機能するタブレットＰＣ１０及び大型ディスプレイ３０により再生し、フォトムービーを鑑賞する鑑賞会が考えられる。

＜本発明の概要＞
本発明は、コンテンツを使用したイベントの実施中に、イベント参加者が発声する音声を示す音声データを音声検出器２０により検出し、音声データからイベントの実施時のイベント参加者の感情を分析し、イベント参加者の時系列の感情を示す感情タグを、そのイベントに使用したコンテンツに付与し、次回、同じコンテンツを使用したイベントの実施時に感情タグを利用し、更にイベント参加者への効果の高いイベントが実施できるようにする。

フォトスライドショーを鑑賞する鑑賞イベントの場合、フォトスライドショーに使用する写真毎にイベント参加者の感情を示す感情情報を取得し、取得した感情情報から算出した感情ランクを、感情タグとしてコンテンツ（各写真）に付与する。

［感情タグ付与システムの第１実施形態］
図３は、本発明に係る感情タグ付与システムの第１実施形態を示すタイミングチャートであり、特にフォトスライドショーの鑑賞イベントを実施する場合に関して示している。

図３の３－１は、フォトスライドショーの鑑賞イベント時に順次表示される時系列の写真を示す。この鑑賞イベント時には、複数の画像（ｎ枚の写真Ｐ_１～Ｐ_ｎ）が順次表示される。前述したようにイベント実施者は、フォトスライドショーを実施する場合、フォトスライドショーに使用するサムネイル画像の一覧を表示部１４に表示させ、イベント参加者の反応を見ながらタブレットＰＣ１０（タッチパネル）を操作し、ｎ枚の写真Ｐ_１～Ｐ_ｎを適宜切り替えて表示させる。

図３の３－２は、フォトスライドショーの鑑賞イベント中に音声検出器２０が検出したイベント参加者が発生する音声を示す音声データ（アナログ・データ）の波形図である。

図３の３－３は、音声データから算出した写真毎のイベント参加者の感情ランクを示す図である。尚、感情ランクの算出方法については後述する。

図３の３－３に示す各写真に対応する感情ランクは、感情タグとして対応する写真に付与される。

図３の３－４は、鑑賞イベントの各写真の再生時間を示す図である。写真Ｐ_１は、時点ｔ_０～ｔ_１の期間再生される。ｔ_０は、フォトスライドショーの開始時点である。同様に、写真Ｐ_２は、時点ｔ_１～ｔ_２の期間再生され、写真Ｐ_３は、ｔ_２～ｔ_３の期間再生され、写真Ｐ_ｎは、時点ｔ_ｎ－１～ｔ_ｎの期間再生される。

＜感情タグの付与＞
図４は、イベントの実施中にイベント参加者が発声する音声を示す音声データに基づいてコンテンツに感情タグを付与する実施形態を示す図である。

図２に示すプロセッサ１１は、図４に示すように感情認識器１３Ａ、感情ランク算出部１３Ｂ、及び感情タグ付与部１３Ｃとして機能する。

感情認識器１３Ａは、例えば、メモリ１２に記憶された感情認識用の学習済みモデルを実行することで実現することができ、音声検出器２０からイベントの実施中にイベント参加者が発声する音声を示す音声データに基づいて音声を発した人間（イベント参加者）の感情を認識し、イベント参加者の感情を示す感情情報を時々刻々と出力する。

学習済みモデルは、例えば、学習モデルの一つである畳み込みニューラルネットワーク（ＣＮＮ：Convolution Neural Network）により構成することができる。

ＣＮＮは、以下に示す多数の教師データのデータセットにより機械学習が行われることで、学習済みＣＮＮ（学習済みモデル）とすることができる。

16.6kHzのデータレートで取得した被験者の音声データから、評価者が喜んでいると判定した区間の音声データだけを0.2秒単位で抽出してVahとし、喜んでいないと判定した区間の音声データだけを0.2秒単位で抽出してNvとした。

VtとVinの音声データをそれぞれ、１秒ごとに区切り、20msごとに100Hz～8000Hzの周波数ごとのエネルギー（パワースペクトル）を算出し、横軸時間(20msごとに0.2秒間の10個)、縦軸周波数(100Hzごとに8000Hzまでの80個)の、エネルギーの２次元パターンを作成する。このようにして作成した複数のVoの２次元パターン、及び複数のNvの２次元パターンを教師データとした。

上記教師データのデータセットを使用し、複数のレイヤ構造を有するＣＮＮを機械学習させることで、複数の重みパラメータ等を最適化させ、学習済みＣＮＮとする。

尚、教師データのデータセットは、施設の利用者の年齢層の被験者の複数の音声データから作成することが好ましい。

感情認識器１３Ａは、音声検出器２０から音声データを入力すると、教師データの作成時と同様に20msごとにエネルギーの２次元パターンを作成し、この２次元パターンから特徴量を抽出し、喜んでいるか又は喜んでいないかを示す感情情報（推論結果）を出力する。

感情ランク算出部１３Ｂは、感情認識器１３Ａから順次出力される、１枚の写真の表示の時間帯における感情情報を取得し、例えば、喜んでいることを示す確信度を５段階の感情ランク（ランクＡ～Ｅ）として算出する。尚、本例では、Ａ＜Ｂ＜Ｃ＜Ｄ＜Ｅの順に、喜んでいることを示す確信度は高くなるものとする。

感情ランクは、１枚の写真の表示の時間帯における複数の感情情報のうちの代表値（最大値、平均値、最頻値など）から算出することができる。

尚、本例では、喜んでいることを示す確信度により感情ランクを算出しているが、これに限らず、喜びの大きさに応じた感情ランクを算出するようにしてもよい。また、喜びの感情に限らず、喜怒哀楽等の感情の種類と感情の種類別の感情ランクを算出するようにしてもよい。

感情タグ付与部１３Ｃは、感情ランク算出部１３Ｂにより算出された感情ランクを、感情タグとして感情情報を取得した時間帯に表示された写真（コンテンツ）に付与する。写真に対する感情タグの付与は、写真の画像ファイルのヘッダに感情タグを記録し、あるいは画像ファイルのファイル名又はコンテンツの再生時間帯と関連して、感情タグが記述されたテキストファイル等を作成することで行うことができる。

このように、イベントの実施時におけるユーザ(イベント参加者)の感情を示す感情タグをコンテンツに付与することができ、イベントの価値を時間帯ごとに定量化し、どのコンテンツに効果が高かったかを誰でも明確に判断することができる。また、次回のイベントの実施時に感情タグを利用し、感情タグを反映させた効果の高いイベントの実施が可能になる。

［感情タグ付与システムの第２実施形態］
図５は、本発明に係る感情タグ付与システムの第２実施形態を示すタイミングチャートである。

図５の５－１は、フォトスライドショーの鑑賞イベント時に順次表示される時系列の写真を示し、５－２は、フォトスライドショーの鑑賞イベント中に音声検出器２０が検出したイベント参加者が発生する音声を示す音声データの波形図であり、５－３は、音声データから算出した写真毎のイベント参加者の感情ランクを示す図であり、５－６は、鑑賞イベントの各写真の再生時間を示す図である。

尚、図５の５－１～５－３、及び５－６は、図３に示した３－１～３－４と共通するため、その詳細な説明は省略する。

図５の５－４は、音声データから特定された１人以上の主要話者を示す話者識別情報（話者ＩＤ（identification））を示す図である。

図５の５－５は、音声データから変換されたテキストデータＤ_１～Ｄ_ｎを示す図である。

図５に示す第２実施形態では、鑑賞イベントでの各写真の表示の時間帯に検出した音声データに基づいて特定した主要話者を示す話者ＩＤを対応する写真に付与する点、及び各写真の表示の時間帯に検出した音声データに基づいて変換したテキストデータＤ_１～Ｄ_ｎ（表示時間帯毎に変換したテキストデータのうちの少なくとも一部を含む）を、対応する写真のコメントタグとして付加する点が追加されている点で、図３に示した第１実施形態と相違する。

＜感情タグ、話者ＩＤ及びコメントタグの付与＞
図６は、イベントの実施中にイベント参加者が発声する音声を示す音声データに基づいてコンテンツに感情タグ、話者ＩＤ、及びコメントタグを付与する実施形態を示す図である。

図２に示すプロセッサ１１は、図６に示すように感情認識器１３Ａ、感情ランク算出部１３Ｂ、感情タグ付与部１３Ｃ、話者認識器１５Ａ、話者ＩＤ付与部１５Ｂ、音声テキスト変換器１７Ａ，及びコメントタグ付与部として機能する。

尚、図６において、図４に示した実施形態と共通する部分には同一の符号を付し、その詳細な説明は省略する。

図６において、話者認識器１５Ａは、人の声から個人（話者）を認識するもので、話者認識器１５Ａには、事前にイベント参加者である各話者の音声波形を示す情報（例えば、「声紋」）が、話者ＩＤ、話者ＩＤにより特定される話者情報（話者の名前）等に関連付けて登録されている。図５の５－４に示す話者ＩＤは、３桁の数字である。

話者認識器１５Ａは、鑑賞イベントの実施中に音声検出器２０が検出する音声データに基づいて、複数の写真が順次再生される各時間帯における１又は複数の主要話者を、「声紋」の一致度により特定し、特定した１人以上の主要話者を示す話者ＩＤを出力する。

話者ＩＤ付与部１５Ｂは、話者認識器１５Ａにより算出された１又は複数の話者ＩＤを、話者ＩＤを取得した時間帯に表示された写真（コンテンツ）に付与する。

音声テキスト変換器１７Ａは、鑑賞イベントの実施中に音声検出器２０が検出する音声データに基づいて音声データをテキストデータに変換する。プロセッサ１１は、公知の音声テキスト変換ソフトを実行することで音声テキスト変換器１７Ａとして機能する。

コメントタグ付与部１７Ｂは、音声テキスト変換器１７Ａにより変換されたテキストデータの少なくとも一部を、コメントタグとしてテキストデータを取得した時間帯に表示された写真（コンテンツ）を付与する。

感情タグ付与システムの第２実施形態によれば、コンテンツに感情タグとともに、話者ＩＤ、コメントタグを付与することができる。

また、プロセッサ１１は、各写真の再生中に感情ランク、話者情報、及びテキストデータのうちの少なくとも１つを、対応する写真と同時に表示させることができる。

これにより、現在の感情ランクの高い参加者と低い参加者が分かるので、イベントのやり方にフィードバックできる。例えば、現在感情ランクの低い参加者に関して過去の感情ランクが高い写真等のイベントを次に表示するなど、イベントを改善することができる。

［感情タグ付与方法の第１実施形態］
図７は、本発明に係る感情タグ付与方法の第１実施形態を示すフローチャートである。

図７に示す感情タグ付与方法の第１実施形態は、フォトスライドショーを鑑賞する鑑賞イベントを実施する場合に行われる感情タグ付与方法である。

イベント実施者は、イベント参加者の複数の写真をコンテンツとして準備し、再生可能にメモリ１２に保存しておく。フォトスライドショーの鑑賞イベントを開始する場合、感情タグ付与プログラムを実行するとともに、フォトスライドショーソフトを起動させ、メモリ１２に保存された複数の写真を使用したフォトスライドショーを実施する。

尚、本例では、複数の写真をコンテンツとして使用するが、写真に限らず、動画をコンテンツとしてもよいし、写真と動画とが混在するコンテンツとしてもよい。

イベント実施者は、フォトスライドショーに使用するサムネイル画像の一覧を表示部１４に表示させ、タブレットＰＣ１０のタッチパネルを操作し、大型ディスプレイ３０に表示させる写真の選択指示を行う。これにより、複数の写真（ｎ枚の写真Ｐ_１～Ｐ_ｎ）から選択された写真Ｐ_ｉが表示される（ステップＳ１０）。ここで、ｉは、現在表示中の写真を特定するパラメータであり、１～ｎの範囲で変化し得る。

写真の選択指示は、イベント参加者の反応を見ながら、良いタイミングで写真Ｐ_１～Ｐ_ｎを順番に切り替える選択指示でもよいし、前の写真に戻したり、次の写真をスキップしたりしてもよい。

プロセッサ１１は、写真Ｐ_ｉの表示中にイベント終了の指示入力があったか否かを判別する（ステップＳ１２）。イベント終了の指示入力があった場合（「Yes」の場合）には、本処理を終了させ、イベント終了の指示入力がない場合（「No」の場合）には、ステップＳ１４に遷移させる。

一方、音声検出器２０は、鑑賞イベントの実施中にイベント参加者が発声する音声を示す音声データを検出しており、プロセッサ１１の感情認識器１３Ａは、写真Ｐ_ｉの表示中に音声検出器２０から音声データを取得し（ステップＳ１６）、取得した音声データに基づいてイベント参加者の感情（喜んでいるか否かを示す感情）を認識（推定）し、認識した感情を示す感情情報を順次出力する（ステップＳ１８）。

ステップＳ１４では、現在表示中の写真Ｐ_ｉから異なる写真Ｐ_ｊへの切替え指示入力があったか否かを判別する。切替え指示入力がない場合（「No」の場合）には、ステップＳ１０に遷移し、現在表示中の写真Ｐ_ｉの表示が継続される。切替え指示入力があった場合（「Yes」の場合）には、ステップＳ２０に遷移する。

ステップＳ２０では、プロセッサ１１（感情ランク算出部１３Ｂ）が、ステップＳ１８で認識され、順次出力される複数の感情情報（写真Ｐ_ｉの表示時間帯における複数の感情情報）を取得し、複数の感情情報の代表値から喜んでいることを示す感情ランクを算出する。

プロセッサ１１（感情タグ付与部１３Ｃ）は、ステップＳ２０で算出された感情ランクを、感情タグＴ_ｉとしてコンテンツ（写真Ｐ_ｉ）に付与する（ステップＳ２２）。

続いて、表示が切り替えられる写真Ｐ_ｊのパラメータｊを、現在表示中の写真のパラメータｉに変更し（ステップＳ２４）、ステップＳ１０に戻る。

尚、図７に示したフローチャートでは図示していないが、鑑賞イベントの終了時（ステップＳ１２で「Yes」の場合）も、ステップＳ２０及びＳ２２の処理を行い、最後に表示された写真Ｐ_ｉに対して感情タグＴ_ｉを付与した後、鑑賞イベントを終了する。

尚、鑑賞イベントに複数人が参加している場合、プロセッサ１１が、音声検出器２０が検出する音声データに基づいて、複数の写真が再生される時間帯における１又は複数の主要話者を特定し、特定した１人以上の主要話者を示す話者ＩＤを各写真にそれぞれ付与するようにしてもよい。

図５の５－４に示す例では、写真Ｐ_１が再生された時間帯（時点ｔ_０～ｔ_１）に特定された主要話者は、話者ＩＤ「００５」を有する話者と、話者ＩＤ「００２」を有する話者の２名であり、その時間帯（時点ｔ_０～ｔ_１）の中で更に異なる時間帯の主要話者となっている。

また、プロセッサ１１が、音声検出器２０が検出する音声データに基づいて、音声データをテキストデータに変換し、テキストデータの少なくとも一部を、コメントタグとして複数の写真の対応する写真に付与するようにしてもよい。

更に、プロセッサ１１が、複数の写真の再生中に感情ランク及び話者ＩＤにより特定される話者情報のうち少なくとも１つを同時に表示させるようにしてもよい。

［感情タグ付与方法の第２実施形態］
図８は、本発明に係る感情タグ付与方法の第２実施形態を示すフローチャートである。

図８に示す第２実施形態は、フォトムービーによる鑑賞イベントの実施時における感情タグ付与方法である。

フォトムービーは、フォトムービー作成ソフトにより複数の写真（ｎ枚の写真Ｐ_１～Ｐ_ｎ）を順次繋ぎ合わせて作成される動画である。フォトムービー作成ソフトは、１枚の写真の表示時間、各写真の切替え（フェードイン、フェードアウト、スクロール等）、及びその他のユーザ設定にしたがって動画を作成するものである。

図８において、プロセッサ１１、フォトムービーの再生開始時にｔ＝０、ｉ＝０に初期設定する（ステップＳ５０）。尚、ｔは、フォトムービーの再生時間を示すパラメータであり、ｉは、現在表示中の写真を特定するパラメータであり、本例では、１～ｎの範囲で変化する。

プロセッサ１１は、フォトムービーの再生により写真Ｐ_ｉを、大型ディスプレイ３０を介してスクリーンに表示させる（ステップＳ５２）。尚、フォトムービーの再生開始時には、写真Ｐ_１が表示される。

写真Ｐ_ｉの表示中に再生時間ｔの計測が行われ（ステップＳ５４）、再生時間ｔから写真Ｐ_ｉの再生（表示）が終了するか否か判別される（ステップＳ５６）。写真Ｐ_ｉの再生時間が設定された再生時間以内の場合（写真Ｐ_ｉの再生を終了させない場合）には、ステップＳ５２に戻り、引き続き写真Ｐ_ｉの再生が行われる。

一方、音声検出器２０は、フォトムービーによる鑑賞イベントの実施中にイベント参加者が発声する音声を示す音声データを検出しており、プロセッサ１１の感情認識器１３Ａは、写真Ｐ_ｉの表示中に音声検出器２０から音声データを取得し（ステップＳ５８）、取得した音声データに基づいてイベント参加者の感情（喜んでいるか否かを示す感情）を認識し、認識した感情を示す感情情報を順次出力する（ステップＳ６０）。

写真Ｐ_ｉの再生時間が設定された再生時間に達すると（写真Ｐ_ｉの再生終了が判定されると）、ステップＳ６２に遷移し、ここでプロセッサ１１（感情ランク算出部１３Ｂ）が、ステップＳ６０で認識され、順次出力される複数の感情情報（写真Ｐ_ｉの表示時間帯における複数の感情情報）を取得し、複数の感情情報の代表値から喜んでいることを示す感情ランクを算出する。

プロセッサ１１（感情タグ付与部１３Ｃ）は、ステップＳ６２で算出された感情ランクを、感情タグＴ_ｉとして写真Ｐ_ｉに付与する（ステップＳ６４）。ここで、感情タグＴ_ｉが付与される写真Ｐ_ｉは、フォトムービーの再生時間ｔにより判断することができる。フォトムービーの再生時間ｔと各写真Ｐ_ｉの表示時間帯とは対応付けられているからである（例えば、図５参照）。また、各写真に対する感情タグの付与は、フォトムービーの動画ファイルのヘッダに感情タグを記録し、あるいは動画ファイルのファイル名又はフォトムービーの再生時間と関連して、感情タグが記述されたテキストファイル等を作成することで行うことができる。

続いて、パラメータｉが１だけインクリメントされ（ステップＳ６６）、インクリメントしたパラメータｉが、ｎを超えている（ｉ＞ｎ）か否かが判別される（ステップＳ６８）。

パラメータｉがｎを超えていない場合（ｉ≦ｎ）には、ステップＳ５２に戻り、ステップＳ５２からステップＳ６８の処理が繰り返される。

パラメータｉがｎを超えている場合（ｉ＞ｎ）には、全ての写真Ｐ_１～Ｐ_ｎの再生（フォトムービーの再生）が終了し、本処理が終了する。

［その他］
コンテンツを使用したイベントは、本実施形態のフォトスライドショー、フォトムービーを鑑賞するイベントに限らず、音楽再生やゲーム実施などのイベントでもよい。この場合、音楽再生やゲーム実施中に利用者の音声から感情分析した時系列の感情ランクを、音楽再生やゲーム実施などに時系列の感情タグとして付与することができる。

また、感情タグ付与システムを構成する機器（本例では、タブレットＰＣ）は、コンテンツを使用してイベントを実施するための機器として兼用されるものでもよいし、別々の機器でもよい。別々の機器の場合、両機器が同期して動作することが好ましい。感情タグを付与するコンテンツを特定できるようにするためである。

本発明に係る感情タグ付与システムを構成するタブレットＰＣ等の各種プロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device；ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

感情タグ付与システムを構成する１つの処理部は、上記各種プロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサで構成されてもよい。例えば、１つの処理部は、複数のＦＰＧＡ、あるいは、ＣＰＵとＦＰＧＡの組み合わせによって構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip；ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウエア的な構造として、上記各種プロセッサを１つ以上用いて構成される。更に、これらの各種のプロセッサのハードウエア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

また、本発明は、コンピュータにインストールされることにより、コンピュータを本発明に係る感情タグ付与システムとして機能させる感情タグ付与プログラム、及びこの感情タグ付与プログラムが記録された不揮発性の記憶媒体を含む。

更に、本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

１感情タグ付与システム
１１プロセッサ
１２メモリ
１３Ａ感情認識器
１３Ｂ感情ランク算出部
１３Ｃ感情タグ付与部
１４表示部
１５Ａ話者認識器
１５Ｂ話者ＩＤ付与部
１６入出力インターフェース
１７Ａ音声テキスト変換器
１７Ｂコメントタグ付与部
１８操作部
２０音声検出器
３０大型ディスプレイ
Ｓ１０～Ｓ２４、Ｓ５０～Ｓ６８ステップ

Claims

プロセッサと、
コンテンツを使用したイベントの実施中に、前記イベントに参加した人間が発声する音声を示す音声データを検出する音声検出器と、
前記音声データに基づいて人間の感情を認識する感情認識器と、を備え、
前記プロセッサは、
前記コンテンツを使用したイベントの実施中に前記感情認識器が認識した前記人間の感情を示す感情情報を取得し、
前記取得した感情情報から算出した感情ランクを、感情タグとして前記コンテンツに付与する、
感情タグ付与システム。
前記感情認識器は、人間が喜んでいるときに発声する音声の音声データと、喜んでいないときに発声する音声の音声データとを含む多数の音声データを教師データとして機械学習した認識器である、
請求項１に記載の感情タグ付与システム。
前記コンテンツは、複数の画像であり、
前記イベントは、画像再生機器により前記複数の画像を順次再生し、再生した前記複数の画像を鑑賞する鑑賞イベントである、
請求項１又は２に記載の感情タグ付与システム。
前記複数の画像は、前記イベントに参加した人間が写っている写真又は動画を含む、
請求項３に記載の感情タグ付与システム。
前記プロセッサは、前記複数の画像が再生される時間帯における複数の感情情報を前記感情認識器から取得し、前記複数の感情情報の代表値から各画像に対応する感情ランクを算出し、算出した感情ランクを前記感情タグとして各画像にそれぞれ付与する、
請求項３又は４に記載の感情タグ付与システム。
前記プロセッサは、
前記イベントに複数人が参加している場合、前記音声検出器が検出する音声データに基づいて、前記複数の画像が再生される時間帯における１又は複数の主要話者を特定し、特定した１人以上の主要話者を示す話者識別情報を各画像にそれぞれ付与する、
請求項５に記載の感情タグ付与システム。
前記プロセッサは、
前記画像再生機器による前記複数の画像の再生中に前記感情ランク及び前記話者識別情報のうち少なくとも１つを同時に表示させる、
請求項６に記載の感情タグ付与システム。
前記プロセッサは、
前記音声検出器が検出する音声データに基づいて、前記音声データをテキストデータに変換し、前記テキストデータの少なくとも一部を、コメントタグとして前記複数の画像の対応する画像に付与する、
請求項３から７のいずれか１項に記載の感情タグ付与システム。
音声検出器が、コンテンツを使用したイベントの実施中に、前記イベントに参加した人間が発声する音声を示す音声データを検出するステップと、
感情認識器が、前記音声データに基づいて人間の感情を認識するステップと、
プロセッサが、前記コンテンツを使用したイベントの実施中に前記認識した前記人間の感情を示す感情情報を取得するステップと、
前記感情認識器が、前記取得した感情情報から算出した感情ランクを、感情タグとして前記コンテンツに付与するステップと、
を含む感情タグ付与方法。
前記コンテンツは、複数の画像であり、
前記イベントは、画像再生機器により前記複数の画像を順次再生し、再生した前記複数の画像を鑑賞する鑑賞イベントである、
請求項９に記載の感情タグ付与方法。
前記複数の画像は、前記イベントに参加した人間が写っている写真又は動画を含む、
請求項１０に記載の感情タグ付与方法。
前記プロセッサが、前記複数の画像が再生される時間帯における複数の感情情報を前記感情認識器から取得し、前記複数の感情情報の代表値から各画像に対応する感情ランクを算出し、算出した感情ランクを前記感情タグとして各画像にそれぞれ付与する、
請求項１０又は１１に記載の感情タグ付与方法。
前記プロセッサが、前記イベントに複数人が参加している場合、前記音声検出器が検出する音声データに基づいて、前記複数の画像が再生される時間帯における１又は複数の主要話者を特定し、特定した１人以上の主要話者を示す話者識別情報を各画像にそれぞれ付与する、
請求項１２に記載の感情タグ付与方法。
前記プロセッサが、前記画像再生機器による前記複数の画像の再生中に前記感情ランク及び前記話者識別情報により特定される話者情報のうち少なくとも１つを同時に表示させる、
請求項１３に記載の感情タグ付与方法。
前記プロセッサが、前記音声検出器が検出する音声データに基づいて、前記音声データをテキストデータに変換し、前記テキストデータの少なくとも一部を、コメントタグとして前記複数の画像の対応する画像に付与する、
請求項１０から１４のいずれか１項に記載の感情タグ付与方法。
コンテンツを使用したイベントの実施中に、前記イベントに参加した人間が発声する音声を示す音声データを音声検出器から取得する機能と、
前記音声データに基づいて人間の感情を認識する機能と、
前記コンテンツを使用したイベントの実施中に前記認識した前記人間の感情を示す感情情報を取得する機能と、
前記取得した感情情報から算出した感情ランクを、感情タグとして前記コンテンツに付与する機能と、
をコンピュータにより実現させる感情タグ付与プログラム。