JP2018136363A - 音楽画像出力装置、音楽画像出力方法、およびプログラム - Google Patents

音楽画像出力装置、音楽画像出力方法、およびプログラム Download PDF

Info

Publication number
JP2018136363A
JP2018136363A JP2017028737A JP2017028737A JP2018136363A JP 2018136363 A JP2018136363 A JP 2018136363A JP 2017028737 A JP2017028737 A JP 2017028737A JP 2017028737 A JP2017028737 A JP 2017028737A JP 2018136363 A JP2018136363 A JP 2018136363A
Authority
JP
Japan
Prior art keywords
music
image
output
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017028737A
Other languages
English (en)
Inventor
伸介 中島
Shinsuke Nakajima
伸介 中島
晃大 荻野
Akihiro Ogino
晃大 荻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto Sangyo University
Original Assignee
Kyoto Sangyo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto Sangyo University filed Critical Kyoto Sangyo University
Priority to JP2017028737A priority Critical patent/JP2018136363A/ja
Publication of JP2018136363A publication Critical patent/JP2018136363A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】従来のシステムでは、楽曲の出力中に、当該音楽に応じた画像を出力できなかった。【解決手段】音楽が格納される音楽格納部と、音楽の出力指示を受け付ける出力指示受付部と、出力指示に応じて、音楽を出力する音楽出力部と、音楽の分析結果に基づく1以上の属性値を取得する属性値取得部と、1以上の属性値を用いて、画像を取得する画像取得部と、画像を出力する画像出力部とを具備する音楽画像出力装置により、楽曲の出力中に、当該音楽に応じた画像を出力できる。【選択図】図1

Description

本発明は、画像を音楽と共に出力する音楽画像出力装置等に関するものである。
従来、楽曲の印象を音響特徴量から推定し、推定した印象に基づく楽曲検索を行うシステムが存在した(例えば、非特許文献1参照)。
このシステムは、音響信号から抽出された音響特徴量と、被験者実験によって得られた楽曲の印象との関係を学習し、学習した楽曲の印象を、V−A(Valence(快-不快)-Arousal(興奮-弛緩)軸)平面上の座標(印象座標)で表現する。また、このシステムは、未知の楽曲の音響特徴量を入力とし、V−A平面上の印象座標を推定する。さらに、このシステムは、ユーザの付した楽曲印象を検索キーとして用いることで、検索キーと類似する印象の楽曲を選出する。
このシステムによれば、ユーザがそのときの気分によって聴きたい曲を検索することや、ユーザの聴いた楽曲の印象に類似する楽曲を選出して提示することなどが可能となる。
「音響特徴量を用いた楽曲印象分布の推定」、絵本詩織ほか、情報処理学会第76回全国大会講演論文集(2014年3月11日発行)、第391〜392頁
しかし、上記従来のシステムでは、楽曲の出力中に、当該楽曲に応じた画像を出力できなかった。
本第一の発明の音楽画像出力装置は、音楽が格納される音楽格納部と、音楽の出力指示を受け付ける出力指示受付部と、出力指示に応じて、音楽を出力する音楽出力部と、音楽の分析結果に基づく1以上の属性値を取得する属性値取得部と、1以上の属性値を用いて、画像を取得する画像取得部と、画像を出力する画像出力部とを具備する音楽画像出力装置である。
かかる構成により、音楽の出力中に、当該音楽に応じた画像を出力できる。
また、本第二の発明の音楽画像出力装置は、第一の発明に対して、ユーザに関するユーザ情報が格納されるユーザ情報格納部をさらに具備し、画像取得部は、1以上の属性値とユーザ情報とを用いて、画像を取得する音楽画像出力装置である。
かかる構成により、音楽の出力中に、当該音楽に応じ、かつユーザにも応じた画像を出力できる。
また、本第三の発明の音楽画像出力装置は、第一または第二の発明に対して、出力する画像を切り替える切替条件が格納される条件格納部と、切替条件を満たすか否かを判断する判断部とをさらに具備し、画像取得部は、判断部が切替条件を満たすと判断した場合に、新たな画像を取得し、画像出力部は、新たな画像を出力する音楽画像出力装置である。
かかる構成により、音楽および当該音楽に応じた画像の出力中に、切替条件を満たしたことに応じて、当該画像を当該音楽に応じた新たな画像に切り替えて出力することができる。
また、本第四の発明の音楽画像出力装置は、第三の発明に対して、判断部は、音楽の1以上の特徴量を取得する特徴量取得手段と、1以上の特徴量を用いて、音楽の中の1以上の変化点を決定する変化点決定手段とを具備し、画像出力部は、音楽の変化点の出力時に新たな画像を出力する音楽画像出力装置である。
かかる構成により、音楽および当該音楽に応じた画像の出力中に、当該音楽が変化したことに応じて、当該画像を変化後の音楽に応じた新たな画像に切り替えて出力することができる。
また、本第五の発明の音楽画像出力装置は、第三または第四の発明に対して、画像取得部は、一の音楽の出力中に、2以上の異なる画像であり、連続して再生する画像間の予め決められた連続再生条件を満たす2以上の異なる画像を取得する音楽画像出力装置である。
かかる構成により、音楽および当該音楽に応じた画像の出力中に、切替条件を満たしたことに応じて、当該画像を、当該画像との間で連続再生条件を満たす新たな画像に切り替えることができる。
また、本第六の発明の音楽画像出力装置は、第一から第五いずれか1つの発明に対して、音楽は歌詞を有する、または歌詞に対応付いており、属性値取得部は、音楽の音および歌詞を分析し、1以上の属性値を取得する音楽画像出力装置である。
かかる構成により、分析の結果である1以上の属性値を用いて、音楽の出力中に、当該音楽に応じた画像を出力できる。
また、本第七の発明の音楽画像出力装置は、第一から第六いずれか1つの発明に対して、属性値取得部は、音楽を分析し、表面的場面を識別する情報、内面的場面を識別する情報、印象を識別する情報のうちのいずれかである1以上のメタデータを取得する音楽画像出力装置である。
かかる構成により、メタデータを用いて、音楽の出力中に、当該音楽に応じた画像を出力できる。
また、本第八の発明の音楽画像出力装置は、第一から第七いずれか1つの発明に対して、ユーザからの反応を示す反応情報を受け付ける反応情報受付部と、反応情報が肯定的である場合は反応情報に対する音楽または画像のうちの1以上が出力されやすくなるように学習し、反応情報が否定的である場合は反応情報に対する音楽または画像のうちの1以上が出力されにくくなるように学習する学習部とをさらに具備し、音楽出力部または画像出力部が、学習部における学習結果に応じて、音楽または画像を出力する音楽画像出力装置である。
かかる構成により、ユーザの反応に応じた出力を学習することで、音楽の出力中に、当該音楽により応じた画像であり、かつユーザにもより応じた画像を出力できる。
また、本第九の発明の音楽画像出力装置は、第八の発明に対して、反応情報受付部が受け付けた2以上の反応情報に基づいて、1以上の音楽と画像との組の情報を選択する選択部と、選択部が選択した1以上の音楽と画像との組の情報を1以上のユーザ端末に送信する推薦部とをさらに具備する音楽画像出力装置である。
かかる構成により、ユーザの反応が良い音楽および画像の組を他のユーザに推薦できる。
また、本第十の発明の音楽画像出力装置は、第三の発明に対して、1以上の属性値を用いて、画像の切り替え時のエフェクトを決定するエフェクト決定部と、画像出力部は、エフェクト決定部が決定したエフェクトに従って、前の画像を終了し、新しい画像の出力を開始する音楽画像出力装置である。
かかる構成により、音楽および当該音楽に応じた画像の出力中に、切替条件を満たしたことに応じて、当該画像を当該音楽に応じた新たな画像に切り替えて出力する際に、当該画像の末尾および新たな画像の先頭に、音楽に応じたエフェクトを加えることができる。
本発明による音楽画像出力装置によれば、楽曲の出力中に、当該音楽に応じた画像を出力できる。ことができる。
実施の形態における音楽画像出力装置のブロック図 同音楽画像出力装置1の動作を説明するフローチャート 同音楽管理情報のデータ構造図 同音楽管理情報のデータ構造図 同切替条件の内容の一例を示す図 同連続再生条件の内容を示す図 同コンピュータシステムの外観図 同コンピュータシステムの内部構成の一例を示す図
以下、音楽画像出力装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
本実施の形態において、音楽の分析結果に基づく1以上の属性値(例えば、歌詞の分析結果に基づくメタデータ、音の分析結果に基づく特徴量等)が音楽に対応付けられており、当該メタデータ等を用いて取得された画像を、音楽と共に出力する音楽画像出力装置について説明する。
また、ユーザ情報も格納されており、メタデータ等に加えてユーザ情報も用いて選択された画像を、音楽と共に出力する音楽画像出力装置について説明する。
また、一つの音楽の出力中に2以上の画像を切り替えて出力する音楽画像出力装置であり、予め決められた切替条件を満たした場合に、画像を切り替える音楽画像出力装置について説明する。
また、切替条件は、音楽の1以上の特徴量(例えば、振幅の変化、周波数成分の変化等)が、閾値を超えるほど大きく変化することである、音楽画像出力装置について説明する。
また、一つの音楽の出力中に2以上の画像を切り替えて出力する音楽画像出力装置であり、2以上の画像は予め決められた連続再生条件を満たす(例えば、連続する2画像間で共通する又は対照的な属性値を有し、かつ当該2以上の全画像で共通の属性値をも有する)画像である音楽画像出力装置について説明する。
また、音楽の分析結果とは、音および歌詞の分析結果である、音楽画像出力装置について説明する。
また、メタデータは、表面的場面を識別する情報、内面的場面を識別する情報、印象を識別する情報のうちのいずれか1つまたは2以上である、音楽画像出力装置について説明する。
また、音楽と画像との出力に対して、ユーザからの反応情報(例えば、フィードバック)を受け付け、学習する音楽画像出力装置について説明する。
また、ユーザからの反応の良い音楽と画像との組を、他のユーザに推薦する音楽画像出力装置について説明する。
また、画像の切り替え時のエフェクト(例えば、フェードアウト、フェードイン、ズームアウト、ズームイン等)を自動決定する音楽画像出力装置について説明する。
図1は、本実施の形態における音楽画像出力装置1のブロック図である。音楽画像出力装置1は、例えば、イベント会場やクラブ等に設置されるAVC(オーディオ・ビジュアル・コンピュータ)システムである。ただし、音楽画像出力装置1は、例えば、ユーザ宅のAVCシステムやカラオケマシンやPCなどでもよいし、音楽テレビ放送や通信カラオケ等のサーバでもよいし、そのタイプや所在は問わない。
音楽画像出力装置1は、スタンドアロンでもよいし、例えば、LANやインターネット等のネットワーク、無線または有線の通信回線等を介して、1または2以上のユーザ端末や他の音楽画像出力装置等(いずれも図示しない)と通信可能に接続されても構わない。ユーザ端末とは、ユーザの端末であり、例えば、ユーザ宅のPC、ユーザによって携帯される携帯端末などである。携帯端末は、例えば、スマートフォン、タブレット端末などであるが、そのタイプは問わない。
音楽画像出力装置1は、格納部11、受付部12、処理部13、および出力部14を備える。格納部11は、音楽格納部111、画像格納部112、ユーザ情報格納部113、条件格納部114、およびエフェクト情報格納部115を備える。受付部12は、出力指示受付部121、および反応情報受付部122を備える。処理部13は、音楽取得部131、属性値取得部132、判断部133、画像取得部134、エフェクト決定部135、学習部136、選択部137、および推薦部138を備える。判断部133は、特徴量取得手段1331、および変化点決定手段1332を備える。出力部14は、音楽出力部141、および画像出力部142を備える。
格納部11は、各種の情報を格納し得る。各種の情報とは、例えば、後述する音楽、後述する画像、後述するユーザ情報、および後述する条件などである。格納部11には、音楽や画像を管理するための各種の管理情報、各種の動作のタイミングを示すタイミング情報なども格納されてよい。
音楽格納部111には、音楽が格納される。音楽とは、一般に、楽器または声帯のうち1種類以上の音源から発せられる音であり、例えば、長短、高低、強弱、音色などが異なる2以上の音を、リズム、メロディー、ハーモニー等を持つように組み合わせた、音の集合であると考えることもできる。なお、音楽は、楽曲といってもよく、歌詞の有無は問わない。
音楽格納部111に格納される音楽は、通常、音楽データである。音楽データとは、例えば、楽器等から発せられる音をマイクロフォンで捉え、その音の波形を示すアナログの信号を取得し、さらに、そのアナログ信号をA/D変換器等でサンプリングすることにより得られるデジタルのデータである。音楽データは、例えば、ACCやMP3等の音楽ファイルの形式で格納されてもよい。ただし、音楽は、例えば、上記のアナログ信号を磁気テープ等に記録したものでもよく、その態様は問わない。
音楽格納部111には、一の音楽が格納されてもよいし、2以上の音楽が格納されてもよい。一の音楽とは、通常、一曲分の音楽データである。または、一の音楽ファイルで管理される音楽データが、一の音楽であると考えることもできる。2以上の音楽は、例えば、1枚のアルバムを構成する2曲以上の音楽であってもよい。または、2以上の音楽は、同じジャンルに属する2曲以上の音楽でもよいし、異なるジャンルに属する2曲以上の音楽でもよいし、その両方を含むことは好適である。ジャンルとは、音楽の分類であり、例えば、ロック、ポップス、クラシック、器楽、声楽等であるが、これに限らない。
音楽には、1以上の属性値が対応付いている。なお、対応付くことは、音楽が1以上の属性値を有する場合も含む。一般に、属性値とは、音楽の属性に関する値である。属性値は、例えば、上記のようなジャンルでもよいし、ハ長調や二短調等の調性、2/2拍子や3/4拍子等のリズムなどであってもよく、その種類は問わない。
本実施の形態において、音楽に対応付いている1以上の属性値(以下、単に1以上の属性値と記す場合がある)とは、かかる一般的な属性値に限らず、後述する属性値取得部132が取得した1以上の属性値を含む。なお、詳細は後述するが、属性値取得部132が取得した1以上の属性値とは、例えば、「夏」、「海岸」、「ドライブ」、「デート」等の場面を特定する用語や、「嬉しい」、「寂しい」等の音楽の印象を示す情報などであってもよい。こうした用語等は、自立語と総称されてもよい。自立語は、例えば、音楽の特徴を示す文字列であってもよいし、音楽の特徴を示す特徴量であってもよい。自立語は、例えば、属性値取得部132が、音楽の音または歌詞のうち1以上を分析することにより得られる。
また、1以上の属性値は、例えば、メタデータを含んでもよい。ここでいうメタデータは、音楽に関するデータである。メタデータは、例えば、音楽に対応付けられたタグやライナーノート等に含まれる文字列であるが、これに限らない。メタデータは、例えば、ジャンル、調性、リズム等を示す用語、および歌詞などの文字列を含んでいてもよい。こうしたメタデータは、例えば、音楽に予め対応付いていてもよいし、後述する属性値取得部132によって取得され、音楽に対応付けられてもよい。
さらに、1以上の属性値は、例えば、特徴量を含んでもよい。特徴量とは、音楽の特徴を示す量である。特徴量には、歌詞の分析により得られるものと、音の分析により得られるものとがある。音の分析には、例えば、ケプストラム分析、MFCC(メル周波数ケプストラム係数)やLPC(線形予測符号)等による分析方法などを用いることができる。ただし、音の分析方法は問わない。また、ここで挙げた分析方法は公知であり、説明を省略する。以下では、音の分析により得られる特徴量を、音響特徴量と呼ぶ場合がある。音響特徴量は、通常、音の波形分析により得られる振幅または周波数のうち1種類以上に関する量である。音響特徴量は、例えば、振幅の変化または周波数成分の変化のうち1種類以上を示す量であることは好適である。ただし、音響特徴量は、例えば、音の波形それ自体でもよいし、音の波形に関する特徴量であれば、その種類は問わない。特徴量は、後述する特徴量取得手段1331によって取得され、属性値の一種として音楽に対応付けられてもよい。
画像格納部112には、2以上の画像が格納される。画像は、通常、動画であるが、例えば、静止画や、コマ送りの静止画の集合等でもよい。画像は、通常、ユーザによって撮影された画像であるが、例えば、インターネット上のWebサーバ等からダウンロードされた画像でもよい。
画像には、通常、メタデータが対応付いている。ここでいうメタデータは、画像に関するデータである。メタデータは、例えば、画像に対応付けられたタグ、画像に対するユーザのコメント等であるが、これに限らない。タグは、例えば、日時、場所などの情報であり、通常、当該画像の撮影に用いたカメラによって取得され、当該画像に対応付けられる。コメントは、例えば、ユーザのコンテキストを含んでいてもよい。コンテキストとは、ユーザの状況に関する情報である。コメントに含まれるコンテキストは、例えば、ユーザの置かれた場面、ユーザが画像に対して抱いた印象などに関する情報を含む。なお、場面および印象については後述する。
また、画像には、上記のようなメタデータを含む1以上の属性値が対応付いていてよい。画像に対応付いた1以上の属性値のうち一部は、後述する属性値取得部132が取得し得る1以上の属性値と同一の属性値、または同一であると見なし得るほど類似する属性値であることは好適である。類似する属性値とは、例えば、「海岸」、「海辺」、「浜辺」等であるが、これに限らない。
ユーザ情報格納部113には、ユーザ情報が格納される。ユーザ情報とは、ユーザに関する情報である。ユーザ情報は、例えば、コンテキスト、嗜好情報等である。ユーザ情報に含まれるコンテキストは、ユーザの現況や近況を示す情報であり、例えば、「恋人がいる」、「恋人と別れたばかり」、「仕事が忙しい」等であってもよい。嗜好情報とは、ユーザの好みに関する情報であり、例えば、「ロックが好き」、「クラシックは嫌い」、「夏が好き」といった情報でもよい。
条件格納部114には、各種の条件が格納される。各種の条件とは、例えば、切替条件、連続再生条件などである。切替条件とは、音楽の出力中に、出力する画像を切り替える条件である。切替条件は、通常、音楽の1以上の特徴量を用いた条件である。1以上の特徴量を用いた条件は、例えば、1以上の音響特徴量を用いた条件であることは好適である。1以上の音響特徴量を用いた条件は、例えば、「音の振幅の変化が閾値以上の箇所」、「特定の周波数が出現しなくなった箇所」、「特定の周波数が出現しだす箇所」、「特定の周波数の出現周期が変化した箇所」、「音の振幅が閾値以下である状態が予め決められた時間以上継続したこと」などであるが、これに限らない。なお、「特定の周波数の出現周期が変化した箇所」とは、例えば、変化前の出現周期である第一の周期に従う一連の第一出現箇所のうち最後の第一出現箇所であってもよいし、変化後の出現周期である第二の周期に従う一連の第二出現箇所のうち最初の第二出現箇所であってもよい。ただし、最後の第一出現箇所を、最初の第二出現箇所と見なしてもよく、出現周期が変化した箇所は、かかる箇所の近傍であれば、どこでもよい。
連続再生条件とは、連続して再生する画像間の条件である。連続再生条件は、例えば、切替条件が満たされたとき、後述する画像取得部134が、新たな画像を選択する際に利用される。連続して再生する画像間とは、通常、切り替えられる直前の画像と、切り替えられた直後の画像との間をいう。画像間の条件とは、例えば、画像間で共通する又は対照的な属性値に関する条件であってもよい。
画像間で共通する属性値に関する条件とは、連続する2つの各画像が、例えば、「夏」等の同一の属性値、または同一と見なし得るほど類似する「夏」や「南国」等の属性値に対応付いていることであってもよい。「夏」や「南国」等の類似する属性値は、類義語辞書に類義語として管理されていてもよい。例えば、格納部11に、かかる類義語辞書が格納されており、後述する画像取得部134は、連続する2つの各画像が同一の又は類似する属性値に対応付いているか否かを、この類義語辞書を用いて判断することは好適である。
画像間で対照的な属性値に関する条件とは、連続する2つの各画像が、例えば、「賑やか」と「静寂」といった対照的な属性値に対応付いていることであってもよい。「賑やか」と「静寂」といった対照的な属性値は、対義語辞書に対義語として管理されていてもよい。例えば、格納部11に、かかる対義語辞書が格納されており、後述する画像取得部134は、連続する2つの各画像が対照的な属性値に対応付いているか否かを、この対義語辞書を用いて判断することは好適である。
または、画像間の条件とは、連続する2つの各画像が、一の音楽の全体に対応する統一感のある画像群から選択された画像であるという条件であってもよい。統一感のある画像群とは、例えば、例えば、共通の属性値に対応付いている画像の集合である。
連続再生条件は、例えば、切り替えられる直前の画像と切り替えられた直後の画像との間で、共通する又は対照的な属性値に関する条件である第一の連続再生条件を含み、かつ、一の音楽に対応する2以上の各画像の間で、共通の属性値に関する条件である第二の連続再生条件をも含むことは、好適である。例えば、第一の連続再生条件が、「切り替えの前後の画像間で属性値が対照的であること」であり、第二の連続再生条件が「一の音楽に対応する2以上の各画像の間で属性値が共通であること」であることは、より好適である。
エフェクト情報格納部115には、1または2以上のエフェクト情報が格納される。エフェクト情報とは、エフェクトの情報である。一般に、エフェクトとは、画像に加える映像効果の総称である。本実施の形態でいうエフェクトは、通常、画像を切り替える際に、画像の表示が不連続に変化することによるユーザの違和感を軽減するために、切り替えの前または後の少なくとも一方の画像に加えられる映像効果を意味する。少なくとも一方の画像に映像効果を加えることは、例えば、前の画像をフェードアウトで終了した後、後の画像をズームインで開始することでもよいし、前の画像をズームアウトで終了した後、後の画像をフェードインで開始することでもよいし、または、前の画像をフェードアウトで終了した後、後の画像を、特に映像効果を加えることなく、単に開始することでも構わない。
以下では、画像の開始時に加える映像効果を開始エフェクトと呼び、画像の終了時に加える映像効果を終了エフェクトと呼ぶ。開始エフェクトは、例えば、フェードイン、ズームイン、スワイプイン、スライドイン、スプリットイン等であるが、これに限らない。終了エフェクトは、例えば、フェードアウト、ズームアウト、スワイプアウト、スライドアウト、スプリットアウト等であるが、これに限らない。
エフェクト情報は、例えば、終了エフェクト識別子または開始エフェクト識別子のうち1以上の情報を含む。終了エフェクト識別子とは、開始エフェクトを識別する情報である。終了エフェクト識別子は、例えば、“フェードアウト”,“ズームアウト”等のエフェクト名でもよいし、IDでもよい。開始エフェクト識別子とは、開始エフェクトを識別する情報である。開始エフェクト識別子もまた、例えば、“フェードイン”,“ズームイン”等のエフェクト名でもよいし、IDでもよい。
エフェクト情報格納部115には、1以上の属性値と、かかるエフェクト情報との組が、2組以上、格納されることは好適である。1以上の属性値は、通常、画像の1以上の属性値であるが、音楽の1以上の属性値でもよい。また、1以上の属性値は、一の画像または一の音楽の1以上の属性値でもよいし、切り替え前の画像または音楽の1以上の属性値と、切り替え後の画像または音楽の1以上の属性値との組でもよい。エフェクト情報は、例えば、終了エフェクト識別子および開始エフェクト識別子の組で構成されてもよい。終了エフェクト識別子とは、前の画像の終了時に加えられる映像効果を識別する情報である。開始エフェクト識別子とは、後の画像の開始時に加えられる映像効果を示す情報である。エフェクト情報は、例えば、(終了エフェクト識別子,開始エフェクト識別子)の形式を用いて、(フェードアウト,ズームイン)、(ズームアウト,フェードイン)のように表現されてもよい。ただし、エフェクト情報の表現形式は問わない。
エフェクト情報格納部115には、1以上の属性値の条件に対応付けて、終了エフェクト識別子、開始エフェクト識別子のうちの1以上が格納されることは好適である。例えば、1つの属性値“夏”に対応付けて、終了エフェクト識別子“フェードアウト” および開始エフェクト識別子“ズームイン”が格納されていてもよい。また、例えば、2つの属性値“ドライブ”および“恋人と二人”に対応付けて、終了エフェクト識別子“ズームアウト”、および開始エフェクト識別子“フェードイン”が格納されていてもよい。または、例えば、切り替え前後の一対の属性値“アップテンポ”および“スローテンポ”に対応付けて、終了エフェクト識別子“ズームアウト”および開始エフェクト識別子“ズームイン”が格納され、切り替え前後の一対の属性値“静か”および“賑やか”に対応付けて“フェードアウト”および“フェードイン”が格納されてもよい。
エフェクト決定部135は、1以上の属性値を用いて、画像の切り替え時のエフェクトを決定する。エフェクト決定部135は、通常、1以上の属性値と、エフェクト情報格納部115に格納されている1以上のエフェクト情報のいずれか1つとを用いて、画像の切り替え時のエフェクトを決定する。エフェクト決定部135は、例えば、出力中の画像を新たな画像に切り替える際に、当該出力中の画像に対応付いている1以上の属性値を用いて、終了エフェクト識別子を取得し、当該新たな画像に対応付いている1以上の属性値を用いて、開始エフェクト識別子を取得することは好適である。
受付部12は、各種の情報を受け付ける。各種の情報とは、例えば、後述する出力指示、後述する反応情報などである。受付部12は、出力指示等の情報を、通常、キーボード等の入力デバイスを介して受け付けるが、例えば、ユーザ端末からネットワーク等を介して送信された情報を受信してもよい。または、受付部12は、例えば、ディスクや半導体メモリなどの記録媒体から読み出された情報を受け付けてもよく、受け付けの態様は問わない。なお、このことは、出力指示受付部121および反応情報受付部122にも当てはまる。
出力指示受付部121は、出力指示を受け付ける。出力指示とは、音楽の出力指示である。出力指示は、通常、音楽識別子を有する。音楽識別子とは、音楽を識別する情報である。音楽識別子は、例えば、IDなどであるが、音楽を識別し得る情報であれば何でもよい。出力指示は、通常、キーボード等の入力デバイスを介した指示である。ただし、出力指示は、例えば、処理部13や、図示しないユーザ端末などによって、自動的に生成される指示でもよい。例えば、格納部11に、出力指示の生成のタイミングを示す第一タイミング情報が格納されており、処理部13等が、この第一タイミング情報に従うタイミングで、出力指示を自動的に生成してもよい。または、ユーザ端末が、後述する予約情報を保持しており、この予約情報に従うタイミングで、出力指示を自動的に生成し、音楽画像出力装置1に送信し、出力指示受付部121は、こうしてユーザ端末が自動的に生成および送信した出力指示を受信してもよい。
なお、ユーザ端末からの出力指示は、通常、ユーザ識別子と対に受信される。対に受信または送信されることは、出力指示がユーザ識別子を有する場合も含む。ユーザ識別子とは、ユーザを識別する情報である。ユーザ識別子は、例えば、メールアドレス、IDなどであるが、ユーザ端末を識別する端末識別子(例えば、MACアドレス、IPアドレス等)でもよく、ユーザを識別し得る情報であれば何でもよい。
反応情報受付部122は、反応情報を受け付ける。反応情報とは、ユーザからの反応を示す情報である。反応は、通常、肯定的な反応、または否定的な反応のいずれかを示す。肯定的な反応情報とは、画像が音楽とマッチしていると感じたことを示す情報である。肯定的な反応情報は、例えば、当該画像が当該音楽と一種に出力された回数に対する“いいね!”が選択された回数の割合が、予め決められた閾値以上であることを示す情報であってもよい。否定的な反応情報とは、画像が音楽とマッチしていないと感じたことを示す情報である。否定的な反応情報は、例えば、当該画像が当該音楽と一種に出力された回数に対する“いいね!”が選択された回数の割合が、予め決められた閾値未満であることを示す情報であってもよい。
処理部13は、各種の処理を行う。各種の処理とは、例えば、音楽取得部131、属性値取得部132、判断部133、画像取得部134、エフェクト決定部135、学習部136、選択部137、および推薦部138などの処理である。なお、各種の処理には、フローチャートで説明する各種の判別なども含まれる。
音楽取得部131は、音楽を取得する。音楽取得部131は、通常、出力指示受付部121が出力指示を受け付けたことに応じて、音楽を取得する。出力指示が音楽識別子を有する場合、音楽取得部131は、出力指示受付部121が出力指示を受け付けたことに応じて、例えば、当該出力指示が有する音楽識別子で識別される音楽を、音楽格納部111から取得することは好適である。出力指示が音楽識別子を有しない場合、音楽取得部131は、出力指示受付部121が出力指示を受け付けたことに応じて、音楽格納部111から、例えば、ユーザ情報格納部113に格納されているユーザ情報に応じた音楽を取得することは好適であるが、一の音楽をランダムに取得してもよい。ユーザ情報に応じた音楽を取得することは、例えば、ユーザ情報に含まれる文字列と類似する属性値を持った音楽を取得することであってもよい。
例えば、ユーザ情報に文字列“ロックが好き”が含まれている場合、音楽取得部131は、文字列“ロックが好き”に対応する属性値“ロック”を有する音楽を取得することは好適である。属性値“ロック”を有する音楽が複数存在する場合、音楽取得部131は、そのうち一つを、ランダムに取得してもよいし、順番に選択してもよい。または、音楽取得部131は、各音楽の取得の回数または頻度のうち一種類以上を管理しており、回数または頻度のうち一種類以上を用いて、一の音楽を選択してもよい。具体的には、音楽取得部131は、回数または頻度が最小の音楽を選択してもよいし、回数または頻度が閾値以下または閾値よりも小さい1以上の音楽の中から一つをランダムに選択してもよく、音楽の選択方法は問わない。
ただし、音楽取得部131は、音楽を、例えば、予め決められたタイミングで取得してもよい。予め決められたタイミングとは、例えば、上述した第一タイミング情報の示すタイミングでもよいし、予約情報が示すタイミングであってもよい。予約情報とは、ユーザが所望の時刻を指定し、その時刻に音楽の出力が開始されるように予約するための情報である。このように、音楽取得部131が音楽を取得するトリガは問わない。また、音楽取得部131は、音楽を、例えば、外部のサーバ等からダウンロードしてもよく、音楽の取得先も問わない。
属性値取得部132は、音楽の分析結果に基づく1以上の属性値を取得する。音楽の分析とは、例えば、音の分析でもよいし、歌詞の分析でもよい。音楽の分析は、音および歌詞の両方の分析であることは好適である。
音の分析とは、例えば、音の特徴量を取得することであってもよい。特徴量とは、例えば、音の波形における振幅の変化、音の波形を構成する周波数成分の変化などである。特徴量は、例えば、音響特徴量ベクトルで表現されてもよい。音響特徴量ベクトルとは、振幅の変化、周波数成分の変化といった2以上の特徴量を成分とするベクトルである。ただし、特徴量の表現形式は問わない。
歌詞の分析とは、例えば、深層学習やSVMや決定木等の機械学習、形態素解析等を用いた自然言語処理によって、歌詞から自立語を取得することであってもよい。
例えば、格納部11に、予め2以上の属性値が格納されている。属性値は、音楽に付される可能性のある属性値である。属性値は、例えば、場面を特定する情報、印象を特定する情報である。場面を特定する情報は、例えば、表面的画面を特定する情報、内面的場面を特定する情報である。表面的場面とは、ユーザの居る場所や環境等の、外的な場面であり、客観的場面といってもよい。表面的画面を特定する情報は、例えば、「海岸」、「花火」、「クリスマス」、「卒業式」などの用語である。また、内面的場面とは、ユーザの内面に関する場面であり、主観的場面といってもよい。内面的場面を特定する情報は、例えば、「デート」、「恋人」、「緊張」、「リラックス」などの用語である。印象とは、ユーザの抱く印象である。印象を特定する情報は、例えば、「嬉しい」、「悲しい」、「寂しい」、「楽しい」などの用語である。そして、格納部11には、各用語に対応する文章(通常、歌詞)が、深層学習やSVMや決定木等の機械学習のアルゴリズムにより学習された学習情報が格納されている。なお、機械学習における学習は、いわゆる正例(ある用語に該当する文章)のみではなく、負例(ある用語に該当しない文章)をも用いて、用語ごとに学習情報が構成され、格納部11に蓄積されることは好適である。そして、属性値取得部132は、例えば、格納部11の学習情報を用いて、歌詞を構成する文章または当該文章を形態素解析し取得された文章のベクトルを、用語ごとの学習情報に適用し、各用語に対応するか否かを判断し、対応すると判断された1以上の用語を属性値として取得する。
また、属性値取得部132は、歌詞を形態素解析し、歌詞から1以上の自立語を取得し、当該1以上の自立語を属性値として取得してもよい。
また、属性値取得部132は、歌詞を形態素解析し、歌詞から1以上の自立語を取得し、当該1以上の自立語から、tf−idf等のアルゴリズムを用いて、歌詞の特徴語を取得し、当該特徴語を属性値として取得してもよい。なお、tf−idf等のアルゴリズムは公知であり、説明を省略する。
また、属性値取得部132は、取得した2以上の自立語や2以上の特徴語を、例えば、類義語辞書を用いて、集約し、集約した用語を属性値として取得してもよい。かかる場合、格納部11には、2以上の類義語をグループ化し、2以上のグループが格納されている類義語辞書が格納されている。そして、属性値取得部132は、取得した2以上の自立語や2以上の特徴語が同じグループに属する場合、当該グループを代表する代表語に変更し、当該代表語を属性値として取得してもよい。なお、グループを代表する代表語は、グループの中の一の用語でもよいし、グループを識別するグループ識別子等でもよい。
また、属性値取得部132は、形態素解析等により取得した自立語の集合を、例えば、場面および印象にクラス分けしても良く、さらに、場面にクラス分けされた自立語の集合を、例えば、表面的画面および内面的場面に細分化してもよい。なお、かかるクラス分けにも、機械学習のアルゴリズムを用いた分類技術であり、公知の自然言語処理が利用可能である。
以上のような音楽の分析は、通常、属性値取得部132が行うが、他の装置による分析結果を利用することも可能である。後者の場合、格納部11には、1以上の各音楽に対応付けて、当該音楽の分析結果が格納されていることは好適である。
判断部133は、切替条件を満たすか否かを判断する。判断部133は、通常、音楽の出力中に、その音響特徴量が、条件格納部114に格納されている切替条件を満たすか否かを判断する。
特徴量取得手段1331は、音楽の1以上の特徴量を取得する。取得される1以上の特徴量には、前述したように、例えば、振幅の変化、周波数成分の変化などの音響特徴量が含まれる。なお、特徴量取得手段1331は、こうして取得した1以上の特徴量を、当該音楽に対応付けて、格納部11等に蓄積することは好適である。
特徴量取得手段1331は、通常、音楽取得部131が取得した音楽を対象に、1以上の特徴量を取得する処理を行う。ただし、特徴量取得手段1331は、例えば、音楽格納部111に格納されている2以上の各音楽について、予め、当該音楽の1以上の特徴量を取得し、当該音楽に対応付けて蓄積する処理を行ってもよい。
変化点決定手段1332は、特徴量取得手段1331が取得した1以上の特徴量を用いて、音楽の中の1以上の変化点を決定する。変化点とは、取得された1以上の特徴量のうち1以上が変化する箇所をいう。変化点は、例えば、音の振幅の変化が閾値以上の箇所でもよいし、特定の周波数が出現しなくなった箇所でもよいし、特定の周波数が出現しだす箇所でも構わない。
変化点決定手段1332は、音楽の中の1以上の変化点を、通常、当該音楽が出力される際に、リアルタイムに検出する。ただし、変化点決定手段1332は、音楽の中の1以上の変化点を、例えば、予め決定し、決定した1以上の変化点の集合である変化点情報を保持しておいてもよい。
判断部133は、通常、変化点決定手段1332が、音楽の中の1以上の各変化点を検出したとき、切替条件を満たすと判断する。
画像取得部134は、1以上の属性値を用いて、画像を取得する。
画像取得部134は、通常、音楽に対応付いている1以上の属性値を用いて、当該1以上の属性値のうち1以上に対応する画像を取得する。当該1以上の属性値のうち対応する画像とは、当該画像に対応付いている1以上の属性値の少なくとも1つが、音楽に対応付いている1以上の属性値の少なくとも1つと共通していることである(以下同様)。
画像取得部134は、例えば、属性値取得部132が取得した属性値であり、音楽の分析結果に基づく1以上の属性値を用いて、当該1以上の属性値のうち1以上に対応する画像を取得することは好適である。
画像取得部134は、画像を、通常、画像格納部112から検索するが、例えば、外部の映像サーバから取得してもよいし、または、深層学習等のアルゴリズムを用いて生成してもよく、画像の取得先は問わない。
画像取得部134は、音楽に対応付いている1以上の属性値と、ユーザ情報とを用いて、画像を取得してもよい。画像取得部134は、例えば、属性値取得部132が取得した属性値であり、音楽の分析結果に基づく1以上の属性値と、ユーザ情報格納部113に格納されているユーザ情報とを用いて、当該1以上の属性値に対応し、かつ当該ユーザ情報にも対応する画像を取得することは好適である。当該ユーザ情報にも対応する画像とは、当該画像に対応付いている1以上の属性値の少なくとも1つが、ユーザ情報が示すユーザの嗜好またはコンテキストのうち一種類以上にも対応していることである(以下同様)。
画像取得部134は、音楽出力部141が音楽を出力中であり、かつ後述する画像出力部142が一の画像を出力中に、判断部133が切替条件を満たすと判断した場合に、新たな画像を取得する。新たな画像は、通常、音楽の現在の箇所(例えば、場面のトピック)に応じた画像である。音楽の現在の箇所に応じた画像とは、音楽の現在の箇所にマッチしているとユーザが感じるような画像である。音楽の現在の箇所に応じた画像は、例えば、音楽の現在の箇所の1以上の属性値のうち少なくとも1つと共通する属性値を持った画像であってもよい。画像取得部134は、切替条件を満たすと判断された場合に、例えば、画像格納部112に格納されている2以上の画像の中から、音楽の現在の箇所の1以上の属性値のうち少なくとも1つと共通する属性値を持った画像を選択してもよい。
なお、音楽の現在の箇所の1以上の属性値のうち少なくとも1つと共通する属性値を持った画像が、2以上、存在する場合、画像取得部134は、そのうち一つをランダムに選択してもよい。または、画像取得部134は、各画像の選択の回数または頻度のうち一種類以上を管理しており、回数または頻度のうち一種類以上を用いて、一の画像を選択してもよい。具体的には、画像取得部134は、回数または頻度が最小の画像を選択してもよいし、回数または頻度が閾値以下または閾値よりも小さい1以上の画像の中から一つをランダムに選択してもよい。このように、音楽の現在の箇所と共通する属性値を持った2以上の画像から一つの画像を選択する方法は問わない。
また、新たな画像は、音楽全体の楽想(例えば、全体のトピック)からも外れない画像であることは好適である。音楽全体の楽想から外れない画像とは、例えば、音楽の全体の属性値と共通する属性値を有する2以上の画像の集合の中から選択される画像であってもよい。音楽の全体の属性値とは、当該音それ自体に対応付いた属性値であり、例えば、“ロック”,“ポップス”等のジャンル、“夏”,“クリスマス”等の季節感などを示す属性値である。
画像取得部134は、切替条件を満たすと判断された場合に、例えば、画像格納部112に格納されている画像であり、音楽の全体の属性値と共通する属性値を有する2以上の画像の集合の中から、音楽の現在の箇所の1以上の属性値のうち少なくとも1つと共通する属性値を持った画像を選択することは好適である。なお、音楽の全体の属性値と共通する属性値を有する2以上の画像の集合の中から一つの画像を選択する方法は、上述したような、音楽の現在の箇所と共通する属性値を持った2以上の画像から一つの画像を選択する方法と同様でよい。
さらに、新たな画像は、ユーザの嗜好やコンテキスト等にも応じた画像であることは、より好適である。ユーザの嗜好やコンテキスト等に応じた画像とは、ユーザ情報に含まれる文字列に対応する属性値を持った画像であってもよい。画像取得部134は、例えば、かかる文字列と属性値との対の集合である対応情報を保持しており、画像格納部112に格納されている画像であり、共通の属性値を有する2以上の画像の集合の中から、音楽の現在の箇所の1以上の属性値のうち少なくとも1つと共通する属性値を持った画像であり、かつ、ユーザ情報に含まれる文字列に対応する属性値を持った画像を選択することは、より好適である。
画像取得部134は、例えば、音楽出力部141が音楽を出力中であり、かつ画像出力部142が一の画像を出力中に、判断部133が切替条件を満たすと判断した場合に、当該音楽の一部であり、判断部133が切替条件を満たすと判断した後の当該音楽の部分である後部分に対応付いている1以上の属性値を用いて、当該後部分に対応付いている1以上の属性値のうち1以上に対応する新たな画像を取得してもよい。
画像取得部134は、例えば、音楽出力部141が音楽を出力中であり、かつ画像出力部142が一の画像を出力中に、判断部133が切替条件を満たすと判断した場合に、当該音楽の一部であり、判断部133が切替条件を満たすと判断した後の当該音楽の部分である後部分に対応付いている1以上の属性値と、ユーザ情報格納部113に格納されているユーザ情報とを用いて、当該後部分に対応付いている1以上の属性値のうち1以上に対応する新たな画像であり、かつ当該ユーザ情報が示すユーザの嗜好またはコンテキストのうち一種類以上にも対応している新たな画像を取得することは、好適である。
画像取得部134は、例えば、音楽出力部141が音楽を出力中であり、かつ画像出力部142が一の画像を出力中に、判断部133が切替条件を満たすと判断した場合に、当該音楽の一部であり、判断部133が切替条件を満たすと判断した後の当該音楽の部分である後部分に対応付いている1以上の属性値と、画像格納部112に格納されている各画像の属性値とを用いて、当該後部分に対応付いている1以上の属性値のうち1以上に対応する新たな画像であり、かつ、その属性値が、出力中の画像の属性値との間で、連続再生条件を満たすような新たな画像を取得することは好適である。
画像取得部134は、例えば、音楽出力部141が音楽を出力中であり、かつ画像出力部142が一の画像を出力中に、判断部133が切替条件を満たすと判断した場合に、当該音楽の一部であり、判断部133が切替条件を満たすと判断した後の当該音楽の部分である後部分に対応付いている1以上の属性値と、画像格納部112に格納されている各画像の属性値と、ユーザ情報格納部113に格納されているユーザ情報とを用いて、当該後部分に対応付いている1以上の属性値のうち1以上に対応する新たな画像であり、かつ、その属性値が、出力中の画像の属性値との間で、連続再生条件を満たすような新たな画像であり、かつ当該ユーザ情報が示すユーザの嗜好またはコンテキストのうち一種類以上にも対応している新たな画像を取得することは、より好適である。
格納部11には、例えば、類義語辞書が格納されており、切替条件が満たされたとき、画像取得部134は、類義語辞書を用いて、切り替え前の画像の属性値と同一の又は類似する属性値を持った新たな画像を選択することができる。類義語辞書には、例えば、「夏」、「南国」、「夏祭り」、および「花火」等の夏に関する類義語群、ならびに、「冬」、「クリスマス」、「北国」、および「スキー場」等の冬に関する類義語群などが登録される。
格納部11には、例えば、対義語辞書が格納されており、切替条件が満たされたとき、画像取得部134は、対義語辞書を用いて、切り替え前の画像の属性値と対照的な属性値を持った新たな画像を選択することができる。対義語辞書には、例えば、「賑やか」や「混雑」と「静か」といった音量に関する対義語群、「アップテンポ」と「スローテンポ」といったリズムに関する類義語、「ストリングス」と「ブラス」といった周波数に関する対義語群などが登録される。
エフェクト決定部135は、1以上の属性値を用いて、画像の切り替え時のエフェクトを決定する。エフェクトの決定に用いる1以上の属性値は、通常、切り替え前の画像の1以上の属性値、または切り替え前の画像の1以上の属性値のうち、1種類以上の1以上の属性値である。ただし、エフェクトの決定に用いる1以上の属性値は、例えば、音楽の切り替え前の部分の1以上の属性値、または音楽の切り替え後の部分の1以上の属性値のうち、1種類以上の1以上の属性値であってもよい。なお、以下では、こうした各種の1以上の属性値を属性値群と記す場合がある。
エフェクト決定部135は、切り替え前の画像識別子と対になる属性値群、切り替え後の画像識別子と対になる属性値群、切り替え前の音楽の区間と対になる属性値群、および切り替え後の音楽の区間と対になる属性値群、のうち1種類以上の属性値群を用いて、画像の切り替え時のエフェクトを決定することは好適である。
例えば、エフェクト決定部135は、切り替え前の画像識別子“CCC”と対になる属性値群、切り替え後の画像識別子“AAA”と対になる属性値群、切り替え前の第一の区間と対になる属性値群、および切り替え後の第二の区間と対になる属性値群のうち1種類以上の属性値群を用いて、画像CCCから画像AAAへの切り替え時のエフェクトを決定してもよい。エフェクト決定部135は、例えば、切り替え前の第一の区間と対になる属性値群、切り替え後の第二の区間と対になる属性値群を用いて、前者に含まれる属性値“アップテンポ”および後者に含まれる“スローテンポ”の組と対になるエフェクト情報(ズームアウト,ズームイン)を、エフェクト情報格納部115から取得してもよい。
画像取得部134は、例えば、後述する画像出力部142が一の画像を出力中に、判断部133が切替条件を満たすと判断した場合に、切り替え直前の画像および切り替え直後の画像のうち一種類以上の画像に加えるエフェクトを特定するエフェクト情報を取得する。エフェクト情報は、例えば、エフェクトのプログラムへのリンクや、エフェクトのプログラムに対応付いたフラグなどでもよく、そのデータ構造は問わない。
学習部136は、音楽出力部141が出力する音楽と、当該音楽の出力中に画像出力部142が出力する画像とに対し、反応情報受付部122が受け付けた反応情報を用いて、音楽と画像との好適な組を学習する。学習することは、例えば、音楽識別子および画像識別子の組と好適度との対の集合である学習情報を構成することであってもよい。好適度とは、好適さの程度を示す情報である。好適度は、例えば、最適であることを示す最大値(例えば、1、100等)、不適であることを示す最小値(例えば、0)、および最小値と最大値との間の1以上の数値(例えば、0と1と間の0.1,0.3等の小数値、0と100との間の33,80等の整数値)で表現されてもよい。
学習部136は、例えば、受け付けられた反応情報が肯定的である場合には、当該反応情報に対する音楽または画像のうちの1以上が出力されやすくなるように学習し、受け付けられた反応情報が否定的である場合には、当該反応情報に対する音楽または画像のうちの1以上が出力されにくくなるように学習することは好適である。学習部136は、かかる学習の結果である学習情報を、例えば、格納部11に蓄積する。学習情報は、例えば、音楽識別子および画像識別子の組と、当該組の出力のされやすさ又はされにくさを示す値との対の集合であってもよい。なお、出力のされやすさ又はされにくさを示す値は、例えば、上記の好適度であるが、その表現形式は問わない。また、出力されやすくなるように学習することは、例えば、音楽識別子および画像識別子の組に対応する好適度を高くすることであり、出力されにくくなるように学習することは、音楽識別子および画像識別子の組に対応する好適度を低くすることであってもよい。
選択部137は、反応情報受付部122が受け付けた2以上の反応情報に基づいて、音楽識別子および画像識別子の組(以下、単に組と記す場合がある)を、1組以上、選択する。選択される組は、例えば、出力のされやすさを示す値が、例えば、最高値である組であってもよいし、予め決められた順位(例えば、3位、20位)以内に属する組の集合(例えば、上位3組、上位20組等)であってもよいし、かかる組の集合からランダムに選択される1以上の組であっても構わない。
選択部137は、例えば、格納部11に格納されている学習情報を用いて、出力のされやすさを示す値が最高値である音楽と画像との組の情報を選択してもよいし、出力のされやすさを示す値が予め決められた順位以内に属する音楽と画像との2以上の組の情報を選択してもよい。
選択部137は、例えば、組の選択の実行タイミングを示す第二タイミング情報を保持しており、この第二タイミング情報に従うタイミングで、上記のような組の選択を行ってもよい。第二タイミング情報は、例えば、“2017年2月10日12:00”等の特定の日時でもよいし、“毎朝9時”,“毎週金曜日の17:00”等の周期性を有する日時でもよく、その表現形式は問わない。または、選択部137は、例えば、組の選択の指示である選択指示に応じて、上記のような組の選択を行っても構わない。
推薦部138は、選択部137によって選択された組であり、音楽と画像との好適な1以上の組を推薦する。推薦部138は、選択部137が選択した1以上の組の情報を、例えば、ディスプレイ等の出力デバイスを介して出力してもよいし、または、ネットワーク等を介して図示しない1以上のユーザ端末に送信してもよい。
出力部14は、各種の情報を出力する。各種の情報とは、例えば、音楽、画像などである。出力部14は、音楽や画像等の情報を、通常、スピーカーやディスプレイ等の出力デバイスを介して出力する。
ただし、出力部14は、音楽や画像等の情報を、例えば、ネットワーク等を介して、1以上のユーザ端末に送信してもよい。なお、このことは、音楽出力部141および画像出力部142にも当てはまる。
音楽出力部141は、音楽を出力する。音楽出力部141は、通常、出力指示受付部121が出力指示を受け付けた場合に、音楽取得部131が音楽格納部111から取得した音楽を出力する。ただし、音楽出力部141は、例えば、チューナー等の放送受信モジュールで受信された音楽を出力してもよい。また、出力される音楽は、ユーザ指定の音楽でもよいし、自動的に選択された音楽でもよい。自動的に選択された音楽とは、例えば、前述したように、ランダムに選択された音楽でもよいし、ユーザ情報を用いて選択された音楽でもよい。
画像出力部142は、画像を出力する。画像出力部142は、通常、出力指示受付部121が出力指示を受け付けた場合に、画像取得部134が画像格納部112から取得した画像を出力する。
また、画像出力部142は、音楽の変化点の出力時に、新たな画像を出力する。画像出力部142は、通常、判断部133が切替条件を満たすと判断した場合に、画像取得部134が取得した新たな画像を出力する。
さらに、画像出力部142は、判断部133が切替条件を満たすと判断した場合に、エフェクト決定部135が決定したエフェクトに従って、前の画像を終了し、新しい画像の出力を開始することは好適である。詳しくは、画像出力部142は、エフェクト決定部135が取得したエフェクト情報が有する終了エフェクト識別子で識別されるエフェクトを用いて、前の画像を終了し、当該エフェクト情報が有する開始エフェクト識別子で識別されるエフェクトを用いて、新たな画像を開始する。
格納部11、音楽格納部111、画像格納部112、ユーザ情報格納部113、条件格納部114、およびエフェクト情報格納部115は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、RAMなど揮発性の記録媒体でも実現可能である。
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でもよい。
受付部12、出力指示受付部121、および反応情報受付部122は、入力デバイスを含むと考えても、含まないと考えてもよい。受付部12等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。
受付部12等の受信機能は、通常、有線または無線の通信手段(例えば、ネットワークカードやモデム等の通信モジュール)で実現されるが、放送を受信する手段(例えば、放送受信モジュール)で実現されてもよい。
処理部13、音楽取得部131、属性値取得部132、判断部133、画像取得部134、エフェクト決定部135、学習部136、選択部137、推薦部138、特徴量取得手段1331、および変化点決定手段1332は、通常、MPUやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。ただし、処理手順は、ハードウェア(専用回路)で実現してもよい。
出力部14、音楽出力部141、および画像出力部142は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えてもよい。出力部14等は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。
出力部14等の送信機能は、通常、有線または無線の通信手段で実現されるが、放送手段(例えば、放送モジュール)で実現されてもよい。
次に、音楽画像出力装置1の動作について図2のフローチャートを用いて説明する。なお、既出の事項に関する説明は、省略または簡略化している。
図2は、音楽画像出力装置1の動作を説明するフローチャートである。
(ステップS201)処理部13は、出力指示受付部121が出力指示を受け付けたか否かを判別する。なお、このフローチャートにおいて、受け付けることは、例えば、キーボード等の入力デバイスを介して受け付けることでもよいし、ユーザ端末等から受信することでもよい。出力指示受付部121が出力指示を受け付けた場合はステップS202に進み、受け付けていない場合はステップS201に戻る。
(ステップS202)音楽取得部131は、音楽格納部111から音楽を取得する。
(ステップS203)画像取得部134は、取得された音楽の1以上の属性値に対応する画像を画像格納部112から取得する。
(ステップS204)音楽出力部141は、取得された音楽の出力を開始し、画像出力部142は、取得された画像の出力を開始する。
(ステップS205)判断部133は、切替条件を満たすか否かを判断する。詳しくは、特徴量取得手段1331が、音楽の現在の箇所の1以上の特徴量を取得し、変化点決定手段1332は、取得された1以上の特徴量を用いて、少なくとも1つの特徴量が変化する変化点を検出する動作を繰り返すことで、音楽の中の1以上の変化点を順次決定していく。判断部133は、1以上の各変化点が検出されたとき、切替条件を満たすと判断する。切替条件を満たすと判断された場合はステップS206に進み、切替条件を満たさないと判断された場合はステップS210に進む。
(ステップS206)画像取得部134は、音楽の切替後の部分の1以上の属性値に対応する画像であり、連続再生条件を満たす新たな画像を取得する。
(ステップS207)エフェクト決定部135は、1以上の属性値を用いて、画像の切り替え時のエフェクトを決定する。なお、エフェクトの決定に用いる1以上の属性値については、前述したので繰り返さない。
(ステップS208)画像出力部142は、前の画像の出力を、決定されたエフェクトを加えつつ終了する。
(ステップS209)画像出力部142は、後の画像の出力を、決定されたエフェクトを加えつつ開始する。その後、ステップS205に戻る。
(ステップS210)処理部13は、反応情報受付部122が反応情報を受け付けたか否かを判別する。反応情報受付部122が反応情報を受け付けた場合はステップS211に進み、受け付けていない場合はステップS213に進む。
(ステップS211)学習部136は、出力中の音楽および画像に対し、受け付けられた反応情報を用いて、音楽と画像との好適な組を学習する学習処理を行う。
(ステップS212)学習部136は、学習処理によって得られた学習情報を格納部11に蓄積する。その後、ステップS205に戻る。
(ステップS213)選択部137は、組の選択を行うか否かを判断する。選択部137は、例えば、保持している第二タイミング情報と、MPUの内蔵時計やNTPサーバ等から取得される現在時刻とを用いて、組の選択を行うタイミングか否かを判別し、組の選択を行うタイミングである場合に、組の選択を行うと判断してもよい。または、選択指示を受け付けたことに応じて、組の選択を行うと判断してもよい。組の選択を行うと判断された場合はステップS214に進み、組の選択を行わないと判断された場合はステップS205に戻る。
(ステップS214)選択部137は、格納部11に格納されている学習情報を用いて、音楽と画像との好適な組を、1組以上、選択する。
(ステップS215)推薦部138は、選択された組を推薦する。詳しくは、推薦部138は、選択された1以上の組の情報を、例えば、ディスプレイ等の出力デバイスを介して出力してもよいし、ネットワーク等を介して1以上のユーザ端末に送信しても構わない。その後、ステップS205に戻る。
なお、図2のフローチャートにおいて、音楽画像出力装置1の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。
以下、本実施の形態における音楽画像出力装置1の具体的な動作について説明する。なお、以下の説明は、種々の変更が可能であり、本発明を何ら限定するものではない。また、既出の事項に関する説明は、省略または簡略化している。
本例では、イベント会場にAVCシステムが設置されている。AVCシステムは、音楽画像出力装置1に加えて、一のユーザXXによって操作される端末、1以上のスピーカー、および1以上のディスプレイなども含む。音楽画像出力装置1には、ネットワーク等を介して、他のユーザYYのユーザ端末が接続されていてもうよい。
音楽格納部111には、2以上の音楽が格納されている。2以上の音楽とは、音楽識別子“aaa”で識別される音楽aaa、音楽識別子“bbb”で識別される音楽bbbなどである。
格納部11には、変化点情報が格納されている。変化点情報とは、2以上の各音楽における1以上の変化点を示す情報である。変化点情報は、音楽識別子と1以上の変化点との組の集合であってもよい。音楽識別子と1以上の変化点との組の集合とは、例えば、音楽識別子“aaa”と2つの変化点“0:50”および“1:45”との組、音楽識別子“bbb”と1つの変化点“1:35”との組、などである。
なお、上記のような変化点情報は、本例では、予め、変化点決定手段1332によって決定され、格納部11に格納されているが、例えば、各音楽aaa,bbb等が初めて出力される際に、変化点決定手段1332によって決定され、格納部11に蓄積されていってもよい。
格納部11には、音楽を管理するための2以上の音楽管理情報が格納されている。図3は、音楽管理情報のデータ構造図である。音楽管理情報は、音楽識別子、区間、区間の属性値、および全体の属性値を有する。区間とは、通常、1以上の変化点で区切られた区間である。ただし、音楽に変化点がない場合、区間は、当該音楽の全体でもよい。区間の属性値は、各区間に対応付いた属性値である。全体の属性値とは、音楽全体の1以上の属性値である。
2以上の各音楽管理情報は、ID(例えば、1,2,…)に対応付いている。例えば、ID“1”に対応付いた音楽管理情報(以下、音楽管理情報1と記す場合がある)は、音楽識別子“aaa”、第一の区間“0:00〜0:50”、第二の区間“0:50〜1:45”、第三の区間“1:45〜2:20”、第一の区間の2つの属性値“海岸,アップテンポ”、第二の区間の3つの属性値“デート,スローテンポ,静か”、第三の区間の2つの属性値“花火,賑やか”、および全体の2つの属性値“ロック”および“夏”を有する。
同様に、ID“2”に対応付いた音楽管理情報(音楽管理情報2)は、音楽識別子“bbb”、第一の区間“0:00〜1:35”、第二の区間“1:35〜2:45”、第一の区間の2つの属性値“雪,ストリングス”、第二の区間の2つの属性値“パーティ,ブラス”、および全体の2つの属性値“ポップス”および“クリスマス”を有する。
なお、上記のような音楽管理情報1,2等は、本例では、予め、属性値取得部132が、上記のような変化点情報を用いて、各音楽aaa,bbb等を区間ごとに分析することにより構成され、格納部11に格納されているが、例えば、各音楽aaa,bbb等が初めて出力される際に、属性値取得部132によって構成され、格納部11に蓄積されていってもよい。
画像格納部112には、5以上の画像が格納されている。5以上の画像とは、画像識別子“AAA”で識別される画像AAA、…、画像識別子“EEE”で識別される画像EEEなどである。
格納部11には、画像AAA,…,画像EEE等を管理するための5以上の画像管理情報が格納されている。図4は、音楽管理情報のデータ構造図である。画像管理情報は、画像識別子、および当該画像識別子で識別される画像の1以上の属性値を含む。
5以上の各画像管理情報は、ID(例えば、1,2,…)に対応付いている。例えば、ID“1”に対応付いた画像管理情報(画像管理情報1)は、画像識別子“AAA”、および5つの属性値“夏,海岸,ドライブ,恋人と二人,嬉しい”を含む。同様に、画像管理情報2は、画像識別子“BBB”、および3つの属性値“冬,スキー場,仲間と”を含む。また、画像管理情報3は、画像識別子“CCC”、および3つの属性値“南国,カフェ,賑やか”を含む。また、画像管理情報4は、画像識別子“DDD”、および2つの属性値“北国,一人で”を含む。さらに、画像管理情報5は、画像識別子“EEE”、および2つの属性値“夏祭り,混雑”を含む。
ユーザ情報格納部113には、ユーザ情報が格納されている。このユーザ情報は、ユーザXXのユーザ情報であり、例えば、ユーザXXの嗜好である「ロックが好き」、ユーザXXの現況である「恋人がいる」等の文字列を含む。また、ユーザ情報格納部113には、ユーザYYを識別するユーザ識別子“YY”も格納されている。
なお、ユーザ情報格納部113には、ユーザ識別子とユーザ情報との対の集合が格納されてもよい。ユーザ識別子とユーザ情報との対とは、ユーザ識別子“XX”とユーザ情報1との対、ユーザ識別子“YY”とユーザ情報2との対などである。ユーザ情報1は、上記のような文字列を含む。ユーザ情報2も同様に、ユーザYYの嗜好や現況や近況に関する文字列を含んでいてよい。
格納部11には、ユーザ情報に含まれる文字列と属性値との対応情報が格納されている。この対応情報は、文字列「ロックが好き」と属性値“ロック”との対、文字列「恋人がいる」と属性値“恋人と二人”との対等を含む。
条件格納部114には、切替条件、および連続再生条件が格納されている。図5は、切替条件の内容の一例を示す図である。この切替条件は、第一の切替条件「音の振幅の変化が閾値以上の箇所」、第二の切替条件「特定の周波数の出現周期が変化した箇所」、第三の切替条件「特定の周波数が出現しだす箇所」等を含む。図6は、連続再生条件の内容を示す図である。この連続再生条件は、第一の連続再生条件「切り替えの前後の画像間で属性値が対照的であること」、および第二の連続再生条件「一の音楽に対応する2以上の各画像の間で属性値が共通であること」を含む。
格納部11には、属性値が共通であるか否かを判断するための類義語辞書が格納されている。この類義語辞書には、2以上の類義語群が登録されている。2以上の類義語群とは、例えば、「夏」、「南国」、「夏祭り」、および「花火」等の夏に関する第一の類義語群、「冬」、「クリスマス」、「北国」、および「スキー場」等の冬に関する第二の類義語群、「賑やか」、「アップテンポ」、「仲間と」、および「混雑」等の賑やかさに関する第三の類義語群、「静か」、「スローテンポ」、「一人で」、および「恋人と二人」等の静かさに関する第四の類義語群などである。
また、格納部11には、属性値が対照的であるか否かを判断するための対義語辞書も格納されている。この対義語辞書には、2以上の対義語群が登録されている。2以上の対義語群とは、例えば、「賑やか」や「混雑」と「静か」といった音量に関する第一の対義語群、「アップテンポ」と「スローテンポ」といったリズムに関する第二の対義語群、「ストリングス」と「ブラス」等といった周波数に関する第三の対義語群などである。
エフェクト情報格納部115には、1以上の属性値とエフェクト情報との組の集合が格納されている。1以上の属性値とエフェクト情報との組とは、例えば、一対の属性値“静か”および“賑やか”とエフェクト情報“フェードアウト,フェードイン”との組である。ただし、“静か”は“一人で”でもよく、“賑やか”は“混雑または“仲間と”でもよい。また、1以上の属性値とエフェクト情報との組とは、例えば、一対の属性値“アップテンポ”および“スローテンポと”とエフェクト情報“ズームアウト,ズームイン”との組などである。
いま、ユーザXXは、音楽画像出力装置1のキーボード等を操作して、出力指示を入力したとする。この出力指示には、音楽識別子は含まれていない。音楽画像出力装置1において、出力指示受付部121が、入力された出力指示を受け付け、音楽取得部131は、ユーザ情報格納部113に格納されているユーザ情報と、格納部11に格納されている上記対応情報と、格納部11に格納されている音楽管理情報1,2等とを用いて、ユーザ情報に含まれる文字列「ロックが好き」に対応する属性値“ロック”と対になる音楽識別子“aaa”を音楽管理情報1から取得し、音楽識別子“aaa”で識別される音楽aaaを音楽格納部111から取得する。
次に、画像取得部134は、音楽aaaの1以上の属性値に対応する画像を画像格納部112から取得する。詳しくは、画像取得部134は、まず、音楽aaaに対応する音楽管理情報1を用いて、音楽識別子“aaa”に対応する全体の属性値群“ロック,夏”と、音楽識別子“aaa”に対応する3区間のうち第一の区間“0:00〜0:50”と対になる属性値群“海岸,アップテンポ”とを取得する。次に、画像取得部134は、画像管理情報1〜5と、類義語辞典と、ユーザ情報とのうち1以上の情報を用いて、取得した属性値群に対応する画像を画像格納部112から取得する。
すなわち、画像取得部134は、最初、画像管理情報1〜5と、類義語辞典とを用いて、全体の属性値群“ロック,夏”に含まれる“夏”に対応する属性値を有する画像を識別する画像識別子群“AAA,CCC,EEE”を取得する。なお、こうして音楽の全体の属性値群に対応するものとして取得された画像識別子群(以下、全体対応の画像識別子群と記す場合がある)で識別される各画像は、通常、図6に示した第二の連続再生条件を満たす。
次に、画像取得部134は、画像管理情報1〜5と、類義語辞典とを用いて、取得した上記画像識別子群“AAA,CCC,EEE”の中から、第一の区間“0:00〜0:50”と対になる属性値群“海岸,アップテンポ”に対応する属性値を有する画像を識別する画像識別子を取得する。ここでは、“海岸”と“南国”が共に第一の類義語群に属し、“アップテンポ”と“賑やか”とが共に第三の類義語群に属することから、画像識別子“CCC”が取得される。
なお、画像AAAについては、“海岸”と“南国”が共に第一の類義語群に属するものの、“アップテンポ”と同一の又はこれに類似する属性値を欠いているため、画像識別子“AAA”は取得されない。画像EEEについては、“海岸”と“夏祭り”は類似しているが、“アップテンポ” と同一の又はこれに類似する属性値を欠いており、画像識別子“EEE”も取得されない。
例えば、類似度を、(同一の又は類似する属性値の数)/(取得された属性値の総数)と定義すれば、画像CCCに関する類似度は“2/2”=1、画像AAA,画像EEEに関する類似度は、いずれも“1/2”=0.5となり、画像取得部134は、最大の類似度に対応する画像識別子“CCC”を取得する。
なお、最大の類似度に対応する画像識別子が複数存在する場合、画像取得部134は、例えば、そのうち1つをランダムに選択してもよいし、または、IDの数値が最小のもの又は最大のものを選択してもよく、その選択方法は問わない。画像取得部134は、閾値以上の類似度に対応する2以上の画像識別子の中から、一の画像識別子を、例えば、ユーザ情報を用いて選択することは好適である。ユーザ情報を用いて選択することは、例えば、ユーザ情報に含まれる文字列「恋人がいる」に対応する属性値“恋人と二人”を有する画像を選択することでもよい。なお、これらのことは、以下で画像を選択する際にも当てはまる。
音楽出力部141は、取得された音楽aaaの出力を開始し、画像出力部142は、取得された画像CCCの出力を開始する。
音楽aaaおよび画像CCCの出力中、処理部13は、反応情報受付部122が反応情報を受け付けたか否かの判別を繰り返し行っている。反応情報が受け付けられた場合、学習部136は、その反応情報を用いて学習処理を行い、得られた学習情報を、音楽識別子“aaa”および画像識別子“CCC”に対応付けて、格納部11に蓄積する。
音楽aaaおよび画像CCCの出力中、判断部133は、切替条件を満たすか否かの判断を繰り返し行っている。切替条件を満たすことは、ここでは、音楽aaaの出力開始からの経過時間が、音楽識別子“aaa”に対応する一番目の変化点“0:50”に達した又はそれを過ぎたことである。判断部133は、音楽aaaの出力開始に応じて、タイマによる計時を開始し、タイマの値が最初の変化点“0:50”に達した時点で、切替条件を満たしたと判断すればよい。
なお、判断部133は、音楽aaaの出力中に、当該音楽aaaの分析を行い、図5に示した切替条件のいずれか1つが満たされたか否かを判断してもよい。この場合、判断部133は、音楽aaaのリズムがアップテンポからスローテンポに変化したことに応じて、第二の切替条件が満たされたと判断する。テンポの変化は、例えば、ドラムやベース等に対応する特定周波数の出現周期の変化として検知されてもよい。判断部133は、テンポが変化した時点のタイマの値を、一番目の変化点として格納部11に蓄積することは好適である。
切替条件を満たすと判断されたことに応じて、画像取得部134は、先に取得した全体対応の画像識別子群“AAA,CCC,EEE”のうち、出力中である“CCC”を除いた残りから、まず、音楽の切替後の部分である第二の区間の属性値群“デート,スローテンポ,静か”に対応する画像を取得する。ここでは、“デート”が画像管理情報1の“恋人と二人”と類似する一方、“スローテンポ”,“静か”と類似する属性値は、画像管理情報1,5のいずれにも存在しないことから、画像識別子“AAA”が取得される。この画像識別子“AAA”と対になる属性値群のうち“静か”が、現在の画像識別子“CCC”と対になる属性値群のうち“賑やか”と対照的なので、新たな画像とし、この画像識別子“AAA”で識別される画像AAAが取得される。
次に、エフェクト決定部135は、切り替え前の画像識別子“CCC”と対になる属性値群、切り替え後の画像識別子“AAA”と対になる属性値群、切り替え前の第一の区間と対になる属性値群、および切り替え後の第二の区間と対になる属性値群のうち1種類以上の属性値群を用いて、画像CCCから画像AAAへの切り替え時のエフェクトを決定する。ここでは、例えば、切り替え前の第一の区間と対になる属性値群、切り替え後の第二の区間と対になる属性値群を用いて、前者に含まれる属性値“アップテンポ”および後者に含まれる“スローテンポ”の組と対になるエフェクト情報(ズームアウト,ズームイン)が、エフェクト情報格納部115から取得されたとする。なお、使用する属性値群の組み合わせを変えて、別のエフェクト情報をも取得し、取得した2以上のエフェクト情報のうち1つを、ランダムに、または適宜なアルゴリズムに従って、採用してもよい。
画像出力部142は、前の画像CCCの出力をズームアウトしつつ終了し、後の画像AAAの出力をズームインしつつ開始する。
音楽aaaおよび画像AAAの出力中にも、処理部13は、反応情報が受け付けられたか否かの判別を繰り返し行っている。反応情報が受け付けられた場合、学習部136は、その反応情報を用いて学習処理を行い、得られた学習情報を、音楽識別子“aaa”および画像識別子“AAA”に対応付けて、格納部11に蓄積する。
音楽aaaおよび画像AAAの出力中にも、判断部133は、切替条件を満たすか否かの判断を繰り返し行っている。切替条件を満たすことは、ここでは、音楽aaa等の出力開始からの経過時間が、音楽識別子“aaa”に対応する二番目の変化点“1:45”に達した又はそれを過ぎたことである。判断部133は、音楽aaaの出力開始に応じて、タイマによる計時を開始し、タイマの値が最初の変化点“1:45”に達した時点で、切替条件を満たしたと判断すればよい。
なお、判断部133は、音楽aaaの出力中に、音楽aaaが静かな状態から賑やかな状態に変化したことに応じて、第一の切替条件が満たされたと判断することもできる。かかる変化は、音の振幅の変化(例えば、音量の増加)として検知されてもよい。判断部133は、例えば、音量が増加した時点のタイマの値を、二番目の変化点として格納部11に蓄積することは好適である。
切替条件を満たすと判断されたことに応じて、画像取得部134は、先に取得した全体対応の画像識別子群“AAA,CCC,EEE”のうち、出力中である“AAA”を除いた残りから、まず、音楽の切替後の部分である第三の区間の属性値群“花火,賑やか”に対応する画像を取得する。ここでは、“花火”が画像管理情報5の“夏祭りと類似する一方、““賑やか”と類似する属性値は、画像管理情報1,5のいずれにも存在しないことから、画像識別子“EEE”が取得される。この画像識別子“EEE”と対になる属性値群のうち“混雑”が、現在の画像識別子“AAA”と対になる識別子群のうち“静か”と対照的なので、新たな画像とし、この画像識別子“EEE”で識別される画像EEEが取得される。
次に、エフェクト決定部135は、切り替え前の画像識別子“AAA”と対になる属性値群、切り替え後の画像識別子“EEE”と対になる属性値群、切り替え前の第二の区間と対になる属性値群、および切り替え後の第三の区間と対になる属性値群のうち1種類以上の属性値群を用いて、画像AAAから画像EEEへの切り替え時のエフェクトを決定する。ここでは、例えば、切り替え前の画像識別子“AAA”と対になる属性値群、切り替え後の画像識別子“EEE”と対になる属性値群を用いて、前者に含まれる属性値“静か”および後者に含まれる“混雑”の組と対になるエフェクト情報(フェードアウト,フェードイン)が、エフェクト情報格納部115から取得されたとする。
画像出力部142は、前の画像AAAの出力をフェードアウトしつつ終了し、後の画像EEEの出力をフェードインしつつ開始する。
音楽aaaおよび画像EEEの出力中に反応情報が受け付けられた場合、学習部136は、その反応情報を用いて学習処理を行い、得られた学習情報を、音楽識別子“aaa”および画像識別子“EEE”に対応付けて、格納部11に蓄積する。
音楽aaaの出力が完了すると、例えば、処理部13が、音楽識別子“bbb”を有する出力指示を生成してもよい。出力指示受付部121は、生成された出力指示を受け付け、音楽取得部131は、音楽格納部111から音楽bbbを取得する。画像取得部134は、音楽bbbの1以上の属性値に対応する画像を、上記と同様の手順で取得する。ここでは、全体対応の画像識別子群“BBB,DDD”が取得され、その中から画像識別子“DDD”で識別される画像DDDが取得されたとする。
音楽出力部141は、取得された音楽bbbの出力を開始し、画像出力部142は、取得された画像DDDの出力を開始する。
音楽bbbおよび画像DDDの出力中に反応情報が受け付けられた場合、学習部136は、その反応情報を用いて学習処理を行い、得られた学習情報を、音楽識別子“bbb”および画像識別子“DDD”に対応付けて、格納部11に蓄積する。
判断部133は、音楽bbbの出力開始に応じてタイマによる計時を開始し、タイマの値が変化点“1:35”に達した時点で、切替条件を満たしたと判断する。なお、判断部133は、音楽bbbの出力中に、音楽bbbの楽器がストリングスからブラスに変化したことに応じて、第三の切替条件が満たされたと判断することもできる。かかる変化は、特定の周波数成分が出現し出したこととして検知されてもよい。判断部133は、例えば、特定の周波数成分が出現し出した時点のタイマの値を、一番目の変化点として格納部11に蓄積することは好適である。
切替条件を満たすと判断されたことに応じて、画像取得部134は、先に取得した全体対応の画像識別子群“BBB,DDD,…”のうち、出力中である“DDD”を除いた残りから、まず、音楽の切替後の部分である第二の区間の属性値群“パーティ,ブラス”に対応する画像を取得する。ここでは、“パーティ”が画像管理情報2の“仲間と”と類似することから、画像識別子“BBB”が取得される。この画像識別子“BBB”と対になる属性値群のうち“一人で”が、現在の画像識別子“DDD”と対になる識別子群のうち“仲間と”と対照的なので、新たな画像として、この画像識別子“BBB”で識別される画像BBBが取得される。
次に、エフェクト決定部135は、切り替え前の画像識別子“BBB”と対になる属性値群、切り替え後の画像識別子“DDD”と対になる属性値群、切り替え前の第一の区間と対になる属性値群、および切り替え後の第二の区間と対になる属性値群のうち1種類以上の属性値群を用いて、画像DDDから画像BBBへの切り替え時のエフェクトを決定する。ここでは、例えば、切り替え前の画像識別子“DDD”と対になる属性値群、切り替え後の画像識別子“BBB”と対になる属性値群を用いて、前者に含まれる属性値“一人で”および後者に含まれる“仲間と”の組と対になるエフェクト情報(フェードアウト,フェードイン)が、エフェクト情報格納部115から取得されたとする。
画像出力部142は、前の画像DDDの出力をフェードアウトしつつ終了し、後の画像BBBの出力をフェードインしつつ開始する。
音楽bbbおよび画像BBBの出力中に反応情報が受け付けられた場合、学習部136は、その反応情報を用いて学習処理を行い、得られた学習情報を、音楽識別子“bbb”および画像識別子“BBB”に対応付けて、格納部11に蓄積する。
選択部137は、内蔵時計等から取得された現在時刻が、保持している第二タイミング情報の示す時刻になると、組の選択を行う。詳しくは、選択部137は、格納部11に格納されている1以上の学習情報(ここでは、音楽識別子“aaa”および画像識別子“CCC”に対応付いた学習情報、音楽識別子“aaa”および画像識別子“AAA”に対応付いた学習情報、音楽識別子“aaa”および画像識別子“EEE”に対応付いた学習情報、音楽識別子“bbb”および画像識別子“DDD”に対応付いた学習情報、ならびに、音楽識別子“bbb”および画像識別子“BBB”に対応付いた学習情報)を用いて、音楽と画像との好適な組を、1組以上、選択する。ここでは、音楽識別子“aaa”および画像識別子“CCC”に対応付いた学習情報に含まれる好適度が最も高く、音楽aaaと画像CCCとの組が選択されたとする。
推薦部138は、選択された組を推薦する。詳しくは、推薦部138は、選択された音楽aaaと画像CCCとの組の情報を、ディスプレイ等の出力デバイスを介して出力する。かかる情報は、ネットワーク等を介して、ユーザYYのユーザ端末に送信されてもよい。ユーザYYのユーザ端末は、かかる情報を受信し、受信した情報を用いて、音楽aaaの出力中に画像CCCを出力してもよい。
以上、本実施の形態によれば、記録媒体は、音楽が格納される音楽格納部111を具備し、音楽画像出力装置1は、音楽の出力指示を受け付け、出力指示に応じて、音楽を出力し、音楽の分析結果に基づく1以上の属性値を取得し、1以上の属性値を用いて、画像を取得し、画像を出力することにより、音楽の出力中に、当該音楽に応じた画像を出力できる。
また、記録媒体は、ユーザに関するユーザ情報が格納されるユーザ情報格納部113をさらに具備し、音楽画像出力装置1は、1以上の属性値とユーザ情報とを用いて、画像を取得することにより、音楽の出力中に、当該音楽に応じ、かつユーザ情報にも応じた画像を出力できる。
また、記録媒体は、出力する画像を切り替える切替条件が格納される条件格納部114をさらに具備し、音楽画像出力装置1は、切替条件を満たすか否かを判断し、切替条件を満たすと判断した場合に、新たな画像を取得し、新たな画像を出力することにより、音楽および当該音楽に応じた画像の出力中に、切替条件を満たしたことに応じて、当該画像を当該音楽に応じた新たな画像に切り替えて出力することができる。
また、音楽画像出力装置1は、音楽の1以上の特徴量を取得し、1以上の特徴量を用いて、音楽の中の1以上の変化点を決定し、音楽の変化点の出力時に新たな画像を出力することにより、音楽および当該音楽に応じた画像の出力中に、当該音楽が変化したことに応じて、当該画像を変化後の音楽に応じた新たな画像に切り替えて出力することができる。
また、音楽画像出力装置1は、一の音楽の出力中に、2以上の異なる画像であり、連続して再生する画像間の予め決められた連続再生条件を満たす2以上の異なる画像を取得することにより、音楽および当該音楽に応じた画像の出力中に、切替条件を満たしたことに応じて、当該画像を、当該画像との間で連続再生条件を満たす新たな画像に切り替えることができる。
また、音楽は歌詞を有する、または歌詞に対応付いており、音楽画像出力装置1は、音楽の音および歌詞を分析し、1以上の属性値を取得することにより、1以上の属性値を用いて、音楽の出力中に、当該音楽に応じた画像を出力できる。
また、音楽画像出力装置1は、音楽を分析し、表面的場面を識別する情報、内面的場面を識別する情報、印象を識別する情報のうちのいずれかである1以上のメタデータを取得することにより、メタデータを用いて、音楽の出力中に、当該音楽に応じた画像を出力できる。
また、音楽画像出力装置1は、ユーザからの反応を示す反応情報を受け付け、反応情報が肯定的である場合は反応情報に対する音楽または画像のうちの1以上が出力されやすくなるように学習し、反応情報が否定的である場合は反応情報に対する音楽または画像のうちの1以上が出力されにくくなるように学習し、学習結果に応じて、音楽または画像を出力することにより、学習の結果を用いて、音楽の出力中に、当該音楽により応じた画像であり、かつユーザにもより応じた画像を出力できる。
また、音楽画像出力装置1は、受け付けた2以上の反応情報に基づいて、1以上の音楽と画像との組の情報を選択し、選択した1以上の音楽と画像との組の情報を1以上のユーザ端末に送信することにより、ユーザの反応が良い音楽および画像の組を他のユーザに推薦できる。
また、音楽画像出力装置1は、1以上の属性値を用いて、画像の切り替え時のエフェクトを決定し、決定したエフェクトに従って、前の画像を終了し、新しい画像の出力を開始することにより、音楽および当該音楽に応じた画像の出力中に、切替条件を満たしたことに応じて、当該画像を当該音楽に応じた新たな画像に切り替えて出力する際に、当該画像の末尾および新たな画像の先頭に、音楽に応じたエフェクトを加えることができる。
さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布してもよい。なお、このことは、本明細書における他の実施の形態においても該当する。
なお、本実施の形態における情報処理装置1を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、コンピュータがアクセス可能な記録媒体は、音楽が格納される音楽格納部111を具備し、このプログラムは、コンピュータを、音楽の出力指示を受け付ける出力指示受付部121と、出力指示に応じて、音楽を出力する音楽出力部141と、音楽の分析結果に基づく1以上の属性値を取得する属性値取得部132と、1以上の属性値を用いて、画像を取得する画像取得部134と、画像を出力する画像出力部142として機能させるためのプログラムである。
図7は、本実施の形態におけるプログラムを実行して、音楽画像出力装置1を実現するコンピュータシステム900の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図7において、コンピュータシステム900は、ディスクドライブ905を含むコンピュータ901と、キーボード902と、マウス903と、ディスプレイ904とを備える。なお、キーボード902やマウス903やディスプレイ904をも含むシステム全体をコンピュータと呼んでもよい。
図8は、コンピュータシステム900の内部構成の一例を示す図である。図8において、コンピュータ901は、ディスクドライブ905に加えて、MPU911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM913と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ914と、MPU911、ROM912等を相互に接続するバス915と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード916と、を備える。ストレージ914は、例えば、ハードディスク、SSD、フラッシュメモリなどである。
コンピュータシステム900に、音楽画像出力装置1の機能を実行させるプログラムは、例えば、DVD、CD−ROM等のディスク921に記憶されて、ディスクドライブ905に挿入され、ストレージ914に転送されてもよい。これに代えて、そのプログラムは、ネットワークを介してコンピュータ901に送信され、ストレージ914に記憶されてもよい。プログラムは、実行の際にRAM913にロードされる。なお、プログラムは、ディスク921、またはネットワークから直接、ロードされてもよい。また、ディスク921に代えて他の着脱可能な記録媒体(例えば、DVDやメモリカード等)を介して、プログラムがコンピュータシステム900に読み込まれてもよい。
プログラムは、コンピュータの詳細を示す901に、音楽画像出力装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
なお、上述したコンピュータシステム900は、サーバまたは据え置き型のPCであるが、音楽画像出力装置1は、例えば、タブレット端末やスマートフォンやノートPCといった、携帯端末で実現されてもよい。この場合、例えば、キーボード902およびマウス903はタッチパネルに、ディスクドライブ905はメモリカードスロットに、ディスク921はメモリカードに、それぞれ置き換えられることは好適である。図示しないユーザ端末も、基本的なハードウェア構成は、PCや携帯端末と同様でよい。ただし、以上は例示であり、音楽画像出力装置1等を実現するコンピュータのハードウェア構成は問わない。
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(受付部12の通信手段、出力部14の通信手段など)は、物理的に一の媒体で実現されてもよいことは言うまでもない。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる音楽画像出力装置は、楽曲の出力中に、当該音楽に応じた画像を出力できるという効果を有し、音楽画像出力装置等として有用である。
1 音楽画像出力装置
11 格納部
12 受付部
13 処理部
14 出力部
111 音楽格納部
112 画像格納部
113 ユーザ情報格納部
114 条件格納部
115 エフェクト情報格納部
121 出力指示受付部
122 反応情報受付部
131 音楽取得部
132 属性値取得部
133 判断部
134 画像取得部
135 エフェクト決定部
136 学習部
137 選択部
138 推薦部
141 音楽出力部
142 画像出力部
1331 特徴量取得手段
1332 変化点決定手段

Claims (12)

  1. 音楽が格納される音楽格納部と、
    音楽の出力指示を受け付ける出力指示受付部と、
    前記出力指示に応じて、前記音楽を出力する音楽出力部と、
    前記音楽の分析結果に基づく1以上の属性値を取得する属性値取得部と、
    前記1以上の属性値を用いて、画像を取得する画像取得部と、
    前記画像を出力する画像出力部とを具備する音楽画像出力装置。
  2. ユーザに関するユーザ情報が格納されるユーザ情報格納部をさらに具備し、
    前記画像取得部は、
    前記1以上の属性値と前記ユーザ情報とを用いて、画像を取得する請求項1記載の音楽画像出力装置。
  3. 出力する画像を切り替える切替条件が格納される条件格納部と、
    前記切替条件を満たすか否かを判断する判断部とをさらに具備し、
    前記画像取得部は、
    前記判断部が切替条件を満たすと判断した場合に、新たな画像を取得し、
    前記画像出力部は、
    前記新たな画像を出力する請求項1または請求項2記載の音楽画像出力装置。
  4. 前記判断部は、
    前記音楽の1以上の特徴量を取得する特徴量取得手段と、
    前記1以上の特徴量を用いて、前記音楽の中の1以上の変化点を決定する変化点決定手段とを具備し、
    前記画像出力部は、
    前記音楽の前記変化点の出力時に新たな画像を出力する請求項3記載の音楽画像出力装置。
  5. 前記画像取得部は、
    一の音楽の出力中に2以上の異なる画像であり、連続して再生する画像間の予め決められた連続再生条件を満たす2以上の異なる画像を取得する請求項3または請求項4記載の音楽画像出力装置。
  6. 前記音楽は歌詞を有する、または歌詞に対応付いており、
    前記属性値取得部は、
    前記音楽の音および歌詞を分析し、1以上の属性値を取得する請求項1から請求項5いずれか一項に記載の音楽画像出力装置。
  7. 前記属性値取得部は、
    前記音楽を分析し、表面的場面を識別する情報、内面的場面を識別する情報、印象を識別する情報のうちのいずれかである1以上のメタデータを取得する請求項1から請求項6いずれか一項に記載の音楽画像出力装置。
  8. ユーザからの反応を示す反応情報を受け付ける反応情報受付部と、
    前記反応情報が肯定的である場合は当該反応情報に対する音楽または画像のうちの1以上が出力されやすくなるように学習し、前記反応情報が否定的である場合は当該反応情報に対する音楽または画像のうちの1以上が出力されにくくなるように学習する学習部とをさらに具備し、
    前記音楽出力部または前記画像出力部が、前記学習部における学習結果に応じて、音楽または画像を出力する請求項1から請求項7いずれか一項に記載の音楽画像出力装置。
  9. 前記反応情報受付部が受け付けた2以上の反応情報に基づいて、1以上の音楽と画像との組の情報を選択する選択部と、
    前記選択部が選択した1以上の音楽と画像との組の情報を1以上のユーザ端末に送信する推薦部とをさらに具備する請求項8記載の音楽画像出力装置。
  10. 前記1以上の属性値を用いて、画像の切り替え時のエフェクトを決定するエフェクト決定部と、
    前記画像出力部は、
    前記エフェクト決定部が決定したエフェクトに従って、前の画像を終了し、新しい画像の出力を開始する請求項3記載の音楽画像出力装置。
  11. 記録媒体は、
    音楽が格納される音楽格納部を具備し、
    出力指示受付部、音楽出力部、属性値取得部、画像取得部、および画像出力部によって実現される音楽画像出力方法であって、
    前記出力指示受付部が、音楽の出力指示を受け付ける出力指示受付ステップと、
    前記音楽出力部が、前記出力指示に応じて、前記音楽を出力する音楽出力ステップと、
    前記属性値取得部が、前記音楽の分析結果に基づく1以上の属性値を取得する属性値取得ステップと、
    前記画像取得部が、前記1以上の属性値を用いて、画像を取得する画像取得ステップと、
    前記画像出力部が、前記画像を出力する画像出力ステップとを具備する音楽画像出力装置。
  12. コンピュータがアクセス可能な記録媒体は、
    音楽が格納される音楽格納部を具備し、
    前記コンピュータを、
    音楽が格納される音楽格納部と、
    音楽の出力指示を受け付ける出力指示受付部と、
    前記出力指示に応じて、前記音楽を出力する音楽出力部と、
    前記音楽の分析結果に基づく1以上の属性値を取得する属性値取得部と、
    前記1以上の属性値を用いて、画像を取得する画像取得部と、
    前記画像を出力する画像出力部として機能させるためのプログラム。
JP2017028737A 2017-02-20 2017-02-20 音楽画像出力装置、音楽画像出力方法、およびプログラム Pending JP2018136363A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017028737A JP2018136363A (ja) 2017-02-20 2017-02-20 音楽画像出力装置、音楽画像出力方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017028737A JP2018136363A (ja) 2017-02-20 2017-02-20 音楽画像出力装置、音楽画像出力方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2018136363A true JP2018136363A (ja) 2018-08-30

Family

ID=63365435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017028737A Pending JP2018136363A (ja) 2017-02-20 2017-02-20 音楽画像出力装置、音楽画像出力方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2018136363A (ja)

Similar Documents

Publication Publication Date Title
US9691429B2 (en) Systems and methods for creating music videos synchronized with an audio track
US20130030557A1 (en) Audio player and operating method automatically selecting music type mode according to environment noise
US20050254366A1 (en) Method and apparatus for selecting an audio track based upon audio excerpts
JP2006146980A (ja) 音楽コンテンツの再生装置、音楽コンテンツの再生方法および音楽コンテンツおよびその属性情報の記録装置
JP2008217254A (ja) プレイリスト作成装置、およびプレイリスト作成方法
JP6452229B2 (ja) カラオケ効果音設定システム
CN115885276A (zh) 用于音乐生成器的比较训练
WO2023051246A1 (zh) 视频录制方法、装置、设备及存储介质
Turchet et al. Jamming with a smart mandolin and Freesound-based accompaniment
US20220147558A1 (en) Methods and systems for automatically matching audio content with visual input
JP6288197B2 (ja) 評価装置及びプログラム
CN101551997A (zh) 一种乐曲辅助学习系统
JP6102076B2 (ja) 評価装置
JP2008216486A (ja) 音楽再生システム
JP4492190B2 (ja) 情報処理装置および方法、プログラム
JP2006294212A (ja) 情報データ提供装置
EP3575989B1 (en) Method and device for processing multimedia data
KR20140129443A (ko) 적응형 음원 추천 시스템 및 방법
US10963509B2 (en) Update method and update apparatus
JP2018136363A (ja) 音楽画像出力装置、音楽画像出力方法、およびプログラム
JP4211636B2 (ja) 演奏制御データ生成装置、楽曲素材データ配信サーバおよびプログラム
JP5552968B2 (ja) 楽曲検索装置および楽曲検索方法
JP2008299411A (ja) マルチメディア再生機器
US20110077756A1 (en) Method for identifying and playing back an audio recording
WO2021100493A1 (ja) 情報処理装置および情報処理方法、並びにプログラム