JP4738203B2

JP4738203B2 - 画像から音楽を生成する音楽生成装置

Info

Publication number: JP4738203B2
Application number: JP2006042494A
Authority: JP
Inventors: 光範三木; 益造柳田
Original assignee: Doshisha
Current assignee: Doshisha
Priority date: 2006-02-20
Filing date: 2006-02-20
Publication date: 2011-08-03
Anticipated expiration: 2026-02-20
Also published as: JP2007219393A

Description

本発明は、カメラなどによって撮影された画像に含まれる顔や景色などに基づいて、自動的にその画像のイメージに適合した音楽を生成することのできる装置に関するものである。

近年、携帯電話を用いたメールサービスなどとして、メール本文の内容に基づいた音楽を生成し、これを第三者に送信できるようにしたサービスなどが存在している。また、これ以外にも、画像を相手に送信する際、その画像に基づいて独自の音楽を生成して、メール本文とともに送信できるようにしたシステムも提案されている。

例えば、下記の特許文献１には、カメラで撮影された画像から独自の音楽データを生成するようにしたシステムが提案されている。このシステムの詳細について説明すると、カメラによって取得された画像を２５６階調に量子化する手段と、その解析された結果に基づいて音楽データを生成する手段とを備えている。この量子化された情報から音楽データを生成する場合は、あらかじめ各画素の輝度に対応した音声情報をテンプレートとして保持しておき、このテンプレートを参照して各画素の輝度に対応する音高を当てはめていく。具体的には、解析された画素の輝度が「０〜１０」であった場合は、基準となるオクターブから１オクターブ上の「Ａ」の音高を当てはめ、また、ある画素の輝度が「２４７〜２５５」であった場合には、基準となるオクターブから１オクターブ下の「Ｈ」の音を当てはめる。そして、これらの音高を画像の縦軸方向、あるいは、横軸方向に並べていき音楽データを生成するようにしたものである。
特開２００１−３５０４７３号公報

しかしながら、このような方法で音楽データを生成する場合においては、次のような問題を生ずる。すなわち、上記特許文献１のように、単に２５６階調に量子化された情報から音楽データを生成する方法では、画像から受けるイメージと実際に出力される音楽のイメージが異なる場合がある。例えば、被写体として笑顔を有する人間が写っていたとしても、景色や照明などが暗かったために基準オクターブから下の低い音高が当てはめられたり、暗いイメージを有する音楽が生成されたりすることがある。また、一般に、携帯電話を用いて被写体を撮影する際、人間を被写体とすることが多いが、上記特許文献１では、人間の顔の表情などに特化して音楽を生成するものではないため、顔の表情や性別、年齢層などの属性に応じた音楽を生成することができない。

さらには、撮影された画像が都会などの人工的な景色や、山や海などの自然の景色であった場合、それぞれの画像から受けるイメージが異なり、例えば、オフィスビルの建ち並んだ人工的な景色からは比較的緊張感のある堅いイメージを受け、また、森や林などの山の画像からは、癒しの雰囲気を有する柔らかなイメージを受けることが多い。また、海の画像からは、爽やかなイメージを受けることが多い。従って、これらの景色から音楽を生成する場合においても、同様に、その景色のイメージに適合した音楽を生成できるようにすることが好ましい。

そこで、本発明は、上記課題を解決するために、顔の表情や景色などのイメージに適合した音楽を生成することのできる音楽データ生成装置を提供することを目的とするものである。

すなわち、本発明は上記課題を解決するために、画像から音楽データを生成する音楽データ生成装置において、画像中に顔が含まれているか否かを検出する顔検出手段と、当該顔検出手段によって画像中に顔が含まれていることが検出された場合、当該顔の表情を解析する顔属性解析手段と、当該顔属性解析手段によって解析された顔の表情に基づいて音楽データを生成する音楽データ生成手段とを備えるようにしたものである。

そして、このような発明において、顔領域内における唇の領域を抽出し、当該唇領域の大きさ、もしくは、唇領域の中央部分における白い色相の有無によって、顔が明るい表情であるか否かを解析する。

また、明るい表情であると解析された場合、長調の音楽を生成するようにする。

このようにすれば、顔の表情に応じて音楽を生成することができるため、その画像のイメージに適合した音楽を生成することができる。すなわち、笑顔を有する被写体の画像からは明るいイメージを有する音楽を生成することができ、また、男性の画像からは男性的なイメージ、女性の画像からは女性的なイメージを有する音楽を生成することができるようになる。

本発明は、画像から音楽データを生成する音楽データ生成装置において、画像中に顔が含まれているか否かを検出する顔検出手段と、当該顔検出手段によって画像中に顔が含まれていることが検出された場合、当該顔の表情を解析する顔属性解析手段と、当該顔属性解析手段によって解析された顔の表情に基づいて音楽データを生成する音楽データ生成手段とを備えるようにしたので、例えば、笑顔を有する被写体の画像からは明るいイメージを有する音楽を生成することができ、また、男性の画像からは男性的なイメージを、女性の画像からは女性的なイメージを有する音楽を生成することができるようになる。

以下、本発明の一実施の形態について図面を参照して説明する。

本実施の形態における音楽データ生成システム１００は、図１に示すように、画像付きのメールを第三者に送信する第一の端末装置１と、この第一の端末装置１にネットワーク４を介して接続される音楽データ生成装置２と、この音楽データ生成装置２によって生成された音楽をメール本文や画像とともに受信する第二の端末装置３とを少なくとも備えて構成される。

まず、第一の端末装置１の構成について説明すると、第一の端末装置１は、カメラ付き携帯電話などで構成され、図２に示すように、データを送受信する送受信手段１１と、カメラなどの画像取得手段１２と、テンキーなどの入力手段１３と、文字や画像などを表示する表示手段１４と、音楽データなどを出力するための音声出力手段１５とを備えている。この第一の端末装置１の作用について説明すると、第一の端末装置１は、画像取得手段１２によって取得した画像を送受信手段１１を介して音楽データ生成装置２に送信し、そこで生成された音楽データを受信するとともに、その受信した音楽データを画像とともに第二の端末装置３に送信する。

一方、第二の端末装置３は、同様に携帯電話などによって構成されるもので、少なくとも、第一の端末装置１から送信されてきたメール本文・画像・音楽データを受信するための送受信手段３１と、これら送信されてきたメール本文や画像を表示出力する表示手段３２と、音楽データを音声出力するための音声出力手段３３とを備えている。この第二の端末装置３は、第一の端末装置１からメールを受信すると、ディスプレイなどの表示手段３２にメール本文や画像などを表示するとともに、その画像の表示に同期して音楽を出力する。

なお、この実施の形態では、第一の端末装置１や第二の端末装置３として、携帯電話を例に挙げて説明するが、必ずしも携帯電話である必要はなく、パーソナルコンピュータやＰＤＡなどのようにメールの送受信機能や音声出力機能を有する端末装置であればよい。また、画像取得手段についても、端末装置に付属するカメラによって画像を取得するようにしてもよく、もしくは、ＬＡＮやＵＳＢケーブル、もしくは、カードリーダーやスキャナなどよって外部の端末装置に格納されている画像を用いるようにしてもよい。

一方、音楽データ生成装置２は、これらの第一の端末装置１や第二の端末装置３にインターネットなどのネットワーク４を介して接続されるもので、第一の端末装置１から送信されてきた画像に基づいて、その画像のイメージに適合した音楽を生成する。この音楽データ生成装置２の機能ブロックについて説明すると、音楽データ生成装置２は、まず、第一の端末装置１や第二の端末装置３とデータを送受信するための送受信手段２１を備えている。この送受信手段２１は第一の端末装置１から画像のデータを受信し、また、その受信した画像から生成した音楽を第一の端末装置１に送信する。ここで生成された音楽については、この実施の形態では第一の端末装置１に返信されるが、音楽データ生成装置２から直接第二の端末装置３に送信するようにしてもよい。

また、この音楽データ生成装置２は、第一の端末装置１から送信されてきた画像のイメージに適合した音楽を生成する画像解析手段２２や音楽データ生成手段２３を備えている。この画像解析手段２２や音楽データ生成手段２３について詳細に説明する。

まず、画像解析手段２２は、顔検出手段２２１と景色解析手段２２３を備えており、顔検出手段２２１によって、画像中に人物の顔が含まれているか否かを検出し、画像中に顔が含まれていると判定された場合は、その人間の数を把握する。そして、顔属性解析手段２２２によってその顔の表情や性別、年齢層などを解析する。

まず、この顔検出手段２２１について説明すると、顔検出手段２２１は、送信されてきた画像を量子化し、図３（ａ）に示すような画像について５ピクセル×５ピクセル程度の領域ごとのＲＧＢ値を見ていき、肌色の領域を検出する。連結した肌色領域の周囲形状の複雑さを領域重心から周囲までの距離のばらつき（標準偏差）などで表し、閾値以内ならその周囲にそれと見合う程度の広さの黒領域があれば顔と判定する。ただし、見落としを救済するために、逆に黒領域の下に肌色領域が少しでもあれば、それも顔と判定する。そして、この顔の検出を、画像中のすべての領域について行い、これによって画像中に含まれる人間の数を推定する。なお、顔の検出方法に関しては、上記方法以外にも種々の方法を採用することができる。例えば、種々の顔の標準パターン（正面、斜め横、横）を持っておき、その拡大・縮小と微少回転によって整合のとれる部分の画像があるかどうかを判定することによって顔を検出するようにしてもよい。

また、顔属性解析手段２２２は、このように検出された顔の領域の画像に基づいて、次のようにして顔の表情や性別、年齢層などを解析する。

まず、顔の表情を解析する場合は、可能であれば（ほぼ正面を向いて、顔がある程度の大きさに写っている場合）顔領域内における色相などから唇の領域を抽出し、その唇領域の外径、内径、口領域の面積、歯領域の面積などを求める。そして、その唇の領域が大きい場合や、もしくは、その領域の中央部分に歯の白い色相が存在している場合は、笑顔を持った明るい表情の画像であると判定する。一方、唇の面積が小さく、しかも、中央部分に歯の白い色相が存在しない場合や、唇の形状が「への字形状」をしている場合は、暗い表情の画像であると判定する。

また、性別は、髪の毛の長さ、髭部分の濃さ、唇の色などに基づいて判定する。例えば、輝度の低い画素数が少ない場合（すなわち、髪の毛が少ない場合）や髭の存在位置に輝度の低い画素が存在している場合（すなわち、髭が存在する場合）は男性的な顔であると判定する。一方、唇周辺に赤に近い画素が集中している場合（すなわち、口紅を塗っている場合）は女性的な顔であると判定する。これらの髪の毛の長さや、髭の有無、唇の色などを総合的に勘案して男性的であるか女性的であるかを判定する。

一方、年齢層（幼児／成人／老人）については、目が検出できれば、目の位置（上・下の肌色境界までの距離比）で判定し、額のしわ（検出できれば４０歳以上）、髪の毛の量（極端に少なければ老人男性）などを用いて判定する。この年齢の判定方法に関しては、種々の方法を用いることができ、例えば、特許出願２００３−３８１９８９号公報に記載される方法や、特許公開２００２−３３０９４３号公報に記載される方法などを用いることができる。

景色解析手段２２３は、画像中に含まれる景色の種別を判定する。景色の種別としては、例えば、オフィスビルなどの建ち並んだ人工的な景色や、木々の生い茂った森や林などの山の景色、大きな湖や海などの景色などがある。これらの景色の種別は次のようにして判定する。例えば、オフィスビルや道路、自動車などを有する人工的な景色であれば比較的直線的な要素を多く含むため、情報量を落とすために、まず画像を２値化し、Ｈｏｕｇｈ変換を用いて画像中に明瞭な直線が１本でも検出できる場合は人工的な景色であると判定する。直線の判定にはＨｏｕｇｈ変換を用いる。これによっていかなる方向の線があっても、また、途中で直線が途切れていても検出することができる。また、直線がなく、輪郭が不規則な緑の領域がある場合には、木々の生い茂った森や林など、背景に木があると判定する。一方、図３（ｂ）に示すように、ほぼ水平な一本の直線が存在し、その下方に短い水平成分が多数存在する場合は、波の存在する海や湖、あるいは大きな川の景色であると判定する。

そして、このように解析された人間の数や、顔の表情や性別、年齢層、景色の種別などに基づいて、その画像のイメージに適合した音楽を生成する。音楽データ生成手段２３は、これらの人間の数や、顔の表情や性別、年齢層、景色の種別などに基づいて、次のようにして音楽データを生成する。

まず、一般的に、画像中に女性が多く含まれる場合は、その画像からは、比較的高い音域で構成された音楽やテンポのゆっくりした音楽、あるいは、オルゴールなどの比較的音色の柔らかな音楽をイメージすることが多い。一方、画像中に男性が多く含まれている場合は、その画像からは、比較的低い音域で構成された音楽や、テンポの速い音楽、あるいは、煩雑な音楽をイメージすることが多い。また、画像中に老人が多く含まれている場合は、軍歌や５０年以上昔に流行した歌をイメージし、男女が写っている場合は甘い旋律がふさわしく、また、画像中に幼児が含まれている場合は、その画像からは童謡などの音楽をイメージするのが自然である。一方、人物像の背景や風景写真については、人工的な画像からは、比較的テンポの速い都会的な音楽をイメージすることが多く、また、山の景色からは、クラシックなどのように比較的穏やかな音楽をイメージすることが多い。また、海の景色からは、爽やかな音楽をイメージすることが多い。そこで、このように画像のイメージに適合した音楽を生成すべく、一つの実施例として、例えば、図４に示すように、既存の音楽デーデータベースを作っておき、タイトルの他に歌詞を音符と対応させて格納しておく。図４は、ジャンル毎に分類された音楽ａ、ｂ…音楽ｍ、音楽ｎ…について男性的、女性的などの属性を割り当てたものである。さらに、曲のイメージをマニュアルで言語表現しておいてもよい。そして、人間によって「男性的／女性的、幼児／成人／老人、人工／自然、山／海」などの属性を音楽に割り当てて音楽データベース２３０に検索語彙として格納しておく。なお、これらの属性は、人間が実際にその音楽を視聴することによって割り当てておくようにしてもよく、あるいは、歌手が男性である場合は「男性的」、女性である場合は「女性的」であるというように自動的に属性を割り当てておくようにしてもよい。また年齢層の属性については、その音楽が作曲された年代に応じて図４のようなテーブルをあらかじめ用意しておき、その年代に応じた属性を自動的に割り当てるようにしてもよい。さらには、その音楽に歌詞や曲名が含まれている場合は、その歌詞や曲名を、例えば、「オフィス」や「山」や「海」などのキーワードで検索を行い、そのキーワードにヒットする音楽に「人工的」「山」「海」などの属性を割り当てるようにしてもよい。そして、音楽データベース２３０は、このように属性の割り当てられた音楽のメロディを一小節毎もしくは数小節毎に分割してメロディ素片として格納しておく。

音楽データ生成手段２３は、メロディ素片連結手段２３１と伴奏付与手段２３２を備えて構成されるもので、メロディ素片連結手段２３１は、画像解析手段２２によって解析された画像の属性に基づき、その属性を有するメロディ素片をランダムに連結して数小節からなるメロディを生成する。ただし、メロディ素片を連結する場合は、あらかじめ調や旋法を統一させておく必要があるため、前述の音楽データベース２３０の中では、調や旋法を統一しておくものとする。また、生成された音楽の最終音はトニック（主音）である必要があるため、連結に際しては、最終音がトニックとなっている小節を選択する。そして、このようにしてメロディ素片を連結することによってメロディを生成するとともに、伴奏付与手段２３２によって伴奏を付与していく。伴奏付与手段２３２によって伴奏を付与する場合、あらかじめ定められたコード進行に従い、複数の和音を適宜組み合わせながら伴奏を付与していく。

次に、このように構成された音楽データ生成システム１００を用いて音楽データを生成する場合のフローチャートについて図６および図７を用いて説明する。

まず、画像に基づいて音楽データを生成する場合、第一の端末装置１のユーザは、カメラなどの画像取得手段１２を介して被写体を撮影し（ステップＳ１）、その画像をメモリに格納しておく。そして、その端末装置を音楽データ生成装置２にアクセスして（ステップＳ２）、図８や図９に示すような画面を表示する（ステップＳ３）。図９に示す画面には、音楽生成もととなる画像を選択する画面と、生成される音楽のジャンルを選択する画面が含まれている。そして、ユーザはこの画面に従って所望の画像を選択するとともに、音楽のジャンルを選択して（ステップＳ４）、その選択された画像や音楽のジャンルを音楽データ生成装置２に送信する（ステップＳ５）。

音楽データ生成装置２は、第一の端末装置１からその選択された画像やジャンルに関するデータを受信すると（図７、ステップＴ１）まず、その画像中に人間の顔が存在するか否かを判定する（ステップＴ２）。この判定に際しては、画像中における肌色領域を探索し、その肌色領域の大きさに見合う程度の黒領域の存在を上と左で確認するなどの手段を用いて行う。そこで、人間の顔が存在すると判定された場合（ステップＴ３）、次に、その顔から人間の数を推定するとともに（ステップＴ４）、画像中に含まれる顔の属性を解析する（ステップＴ５）。次いで、各顔の年齢層を推定して「幼児／成人／老人」という属性を付与し（ステップＴ６）、各顔が明るい表情を有しているか、あるいは、暗い表情を有しているかを解析して（ステップＴ７）、画像中に含まれるすべての顔の雰囲気についての総合的な判定を行う（ステップＴ８）。そして、この判定された顔の雰囲気（平均値）に基づいて、顔の表情が明るい場合は「長調」、暗い場合は「短調」と決定する（ステップＴ９）。また、画像中に含まれる人間の数に応じて、図５に示す人数に応じたテンポである参照テーブルを参照して、音楽のテンポを指定し（ステップＴ１０）、例えば、人数が多いほど音楽のテンポを速くする。

このように人間の数や顔の年齢層や表情などを解析すると、音楽データ生成手段２３は、その算出された属性を用いて図４の音楽データベース２３０を参照し、年齢層に応じた音楽のメロディ素片を抽出する（ステップＴ１１）。また、平均的な顔の表情が明るい場合は「長調」の音楽のメロディ素片を抽出し、平均的な顔の表情が暗い場合は「短調」の音楽のメロディ素片を抽出する（ステップＴ１１）。そして、このように抽出されたメロディ素片をランダムに連結するとともに、最後にトニックを有するメロディ素片を連結する（ステップＴ１２）。そして、この連結されたメロディに対して所定のコード進行に従った伴奏付けを行い（ステップＴ１３）、最終的に生成された音楽データを第一の端末装置１に送信する（ステップＴ１４）。

一方、画像中に顔が存在しない場合は（ステップＴ３：Ｎｏ）、画像中に含まれる背景の種類を判別し（ステップＴ１５）、縦横斜めの直線量が多く白系統の色相が多い場合は「人工的」な音楽のメロディ素片を抽出する。また、直線量が少なく薄い青や緑系統の色相が多い場合は、「山」の属性が付与された音楽のメロディ素片を抽出し、水平な長い直線と平行な短い直線が多く濃紺系統の色相が多い場合は「海」の属性が付与されたメロディ素片を抽出する（ステップＴ１１）。

そして、このように抽出されたメロディ素片をランダムに連結するとともに、最後にトニックを有するメロディ素片を連結して（ステップＴ１２）伴奏付けを行い（ステップＴ１３）、このように生成された音楽データを第一の端末装置１に送信する（ステップＴ１４）。

第一の端末装置１では、このように生成された音楽データを受信すると（ステップＳ６）、図１０に示すメロディ作成完了を知らせる画面を表示して、専用のアプリケーションによってユーザの視聴を受け付ける。そして、視聴の結果、やり直しが必要であれば、ユーザによって「やり直し」ボタンの入力を受け付け（ステップＳ７）、その情報を音楽データ生成装置２に送信し（ステップＳ８）、新たな音楽データの生成を指示する。一方、この音楽データでよいと判断された場合は、ユーザによるダウンロードボタンの入力を受け付け（ステップＳ９）、生成された音楽データをメモリに格納するとともに、第二の端末装置３にメール本文や画像などとともに送信する（ステップＳ１０）。

このメールを受信した第二の端末装置３側では（ステップＵ１）、メールの受信に伴って図１１に示す専用のアプリケーションを起動し（ステップＵ２）、メール本文を表示するとともに画像の表示に同期させ音楽データを出力する（ステップＵ３）。

このように上記実施の形態によれば、人間の数、顔の表情や性別、年齢層、景色などに基づいて音楽データを生成するようにしたので、その画像のイメージに適合した音楽を生成することができるようになる。

しかも、画像のイメージに適合させた音楽を生成する場合、あらかじめ、音楽データベース２３０に各音楽のイメージに適合する属性を割り当てておき、この音楽を小節毎に分割して他のメロディ素片と連結するようにしたので、確実に画像のイメージに適合した音楽を生成することができるようになる。しかも、メロディ素片の組み合わせを変えることによって毎回異なった音楽を生成することができるようになる。

なお、本発明は上記実施の形態に限定されることなく、種々の形態で実施することができる。

例えば、上記実施の形態では、第一の端末装置１から画像を送信し、音楽データ生成装置２で音楽を生成するようにしているが、音楽データ生成装置２を用いて音楽を生成させる場合に限らず、一台の端末装置によって画像の取得と音楽の生成を行うようにしてもよい。また、上記実施の形態のように、第一の端末装置１から音楽データ生成装置２に画像を送信して音楽データを生成させるのではなく、別途新たに画像の解析装置を設けておき、一旦そこに画像を送信して画像を解析させた後、その解析結果を音楽データ生成装置２に送信し、そこで音楽データを生成させるようにしてもよい。この場合、本発明との関係において、他の解析装置と音楽データ生成装置２が、本発明における音楽データ生成装置２を構成することとなる。

また、上記実施の形態では、音楽データベース２３０に既存の音楽を分割して格納しておき、この音楽を数小節ずつ連結して音楽データを生成するようにしているが、解析された人間の数、顔の表情や性別、年齢層などによって独自のアルゴリズムを用いて一から音楽データを生成するようにしてもよい。

さらには、上記実施の形態では、画像中に顔が含まれていない場合は景色の種別によって音楽データを生成するようにしているが、必ずしも顔が含まれていない場合にのみ景色の種別を用いる必要はなく、顔の属性と景色の属性の両方を考慮して音楽データを生成するようにしてもよい。

本発明の一実施の形態を示す音楽データ生成システムの概略図同形態における音楽データ生成システムの機能ブロック図同形態における音楽生成もととなる画像を示す図同形態における音楽データ生成装置の音楽データベースの例同形態における音楽データ生成装置の音楽データベースの例同形態における音楽データ生成システムにおける第一の端末装置と第二の端末装置のフローチャート同形態における音楽データ生成システムにおける音楽データ生成装置のフローチャート同形態における第一の端末装置の表示例同形態における第一の端末装置の表示例同形態における第一の端末装置の表示例同形態における第一の端末装置の表示例

１００・・・音楽データ生成システム
１・・・第一の端末装置
２・・・音楽データ生成装置
３・・・第二の端末装置
４・・・ネットワーク
１１・・・送受信手段
１２・・・画像取得手段
１３・・・入力手段
１４・・・表示手段
１５・・・音声出力手段
３１・・・送受信手段
３２・・・表示手段
３３・・・音声出力手段
２１・・・送受信手段
２２・・・画像解析手段
２２１・・・顔検出手段
２２２・・・顔属性解析手段
２２３・・・景色解析手段
２３・・・音楽データ生成手段
２３０・・・音楽データベース
２３１・・・メロディ素片連結手段
２３２・・・伴奏付与手段

Claims

画像から音楽データを生成する音楽データ生成装置において、
画像中に顔が含まれているか否かを検出する顔検出手段と、
当該顔検出手段によって画像中に顔が含まれていることが検出された場合、当該顔の表情を解析する顔属性解析手段と、
当該顔属性解析手段によって解析された顔の表情に基づいて音楽データを生成する音楽データ生成手段と、
を備えたことを特徴とする音楽データ生成装置。
前記顔属性解析手段が、顔領域内における唇の領域を抽出し、当該唇領域の大きさ、もしくは、唇領域の中央部分における白い色相の有無によって、顔が明るい表情であるか否かを解析するものである請求項１に記載の音楽データ生成装置。
前記顔属性解析手段によって、明るい表情であると解析された場合、長調の音楽を生成するようにした請求項２に記載の音楽データ生成装置。