JP2024523396A

JP2024523396A - 音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体

Info

Publication number: JP2024523396A
Application number: JP2023577867A
Authority: JP
Inventors: シュエ，ユーファン; グオ，グァンジュン; ユェン，シン; チェン，ユェヂャオ; フゥアン，ハオ; リ，ナー; ヂョウ，シュビン
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2022-06-24
Publication date: 2024-06-28
Also published as: EP4339809A1; CN115687668A; US20240127777A1; WO2023000917A1

Abstract

本出願は、音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体を開示し、コンピュータ技術分野に属する。音楽ファイルの生成方法は、第一画像を取得することと、第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得ることと、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定することと、楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成することとを含む。本出願は、一方では音楽創作の敷居を下げ、楽理知識を持たない「初心者」ユーザでも、ピクチャーに基づいて対応する音楽を構築することができ、他方ではＭＩＤＩ情報座標系によってオーディオトラックブロックを提示することによって、最終的に構築された音楽を可視化し、ユーザにユニークな聴覚と視覚の二重体験を与える。

Description

本出願は、２０２１年０７月２３日に提出され、出願番号が２０２１１０８３９６５６．２、発明名称が「音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体」と称される中国特許出願の優先権を主張し、この出願のすべての内容は、引用により本出願に取り込まれる。

本出願は、コンピュータ技術分野に属し、具体的に音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体に関する。

関連技術において、音楽創作には高い敷居があり、一般的なユーザは音楽創作に参加しにくい。同時に、創作された「音楽」は一般的に聴覚上の芸術と思われ、音楽自体は聴衆の聴覚感覚とつながり、人の最も重要な感覚「視覚」とつながりがなく、音楽を創作するプロセスのユーザ体験が単一になる。

本出願の実施例の目的は、可視化な画像に基づいて音楽を生成し、ユーザにユニークな聴覚と視覚の二重体験を与えることができる音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体を提供することができるようにすることにある。

第一態様によれば、本出願の実施例は、音楽ファイルの生成方法を提供し、この音楽ファイルの生成方法は、
第一画像を取得することと、
第一画像に特徴抽出を行い、第一画像の顕示的な（顕著な）特徴を得ることと、
顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定することと、
楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成することとを含む。

第二態様によれば、本出願の実施例は、音楽ファイルの生成装置を提供し、この音楽ファイルの生成装置は、
第一画像を取得するための取得モジュールと、
第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得るための抽出モジュールと、
顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定するための処理モジュールと、
楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するための生成モジュールとを含む。

第三態様によれば、本出願の実施例は、電子機器を提供し、この電子機器は、プロセッサと、メモリと、メモリ上に記憶されており、プロセッサ上で運行できるプログラム又は命令とを含み、プログラム又は命令がプロセッサにより実行されると、第一態様の方法のステップを実現する。

第四態様によれば、本出願の実施例は、可読記憶媒体を提供し、この可読記憶媒体上にプログラム又は命令が記憶されており、このプログラム又は命令がプロセッサにより実行されると、第一態様の方法のステップを実現する。

第五態様によれば、本出願の実施例は、チップを提供し、このチップは、プロセッサと通信インターフェースとを含み、この通信インターフェースは、このプロセッサとを合わせてされ、このプロセッサは、プログラム又は命令を運行し、第一態様の方法のステップを実現するために用いられる。

本出願の実施例では、画像即ち上記第一画像を処理することによって、画像情報、例えば写真又はビデオを可視的な電子楽譜ファイルに転化し、具体的に楽器デジタルインターフェース（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ、ＭＩＤＩ）座標系において、オーディオトラックブロックを表示する方式であり、ここで、これらのオーディオトラックブロックは、第一画像の顕示的な特徴を構成し、即ちオーディオトラックブロックからなるグラフィックスは、第一画像の顕示的な特徴の画像と合致する。同時に、これらのオーディオトラックブロックは、いずれも楽器デジタルインターフェース情報、即ちＭＩＤＩ情報を含み、ＭＩＤＩ情報がコンピュータにより識別された後、ＭＩＤＩ情報と時間との対応関係に基づいて、時間順序に従ってこれらのオーディオトラックブロックを再生し、それによって音楽を形成する。

本出願の実施例は、画像によって音楽を構築することによって、形成された音楽がユーザの思い出を含む画像に合致するようにし、一方では音楽創作の敷居を下げ、楽理知識を持たない「初心者」ユーザでも、ピクチャーに基づいて対応する音楽を構築することができ、他方ではＭＩＤＩ情報座標系によってオーディオトラックブロックを提示（ｄｉｓｐｌａｙ、ｐｒｅｓｅｎｔ）することによって、最終的に構築された音楽を可視化し、ユーザにユニークな聴覚と視覚の二重体験を与える。

本出願の実施例による音楽ファイルの生成方法のフローチャートのその一を示す。本出願の実施例による音楽ファイルの生成方法のＭＩＤＩ情報座標系のインタフェース概略図を示す。本出願の実施例による音楽ファイルの生成方法の顕示的なターゲットテクスチャ図の概略図を示す。本出願の実施例による音楽ファイルの生成方法のフローチャートのその二を示す。本出願の実施例による音楽ファイルの生成方法のターゲットテクスチャ図の分けの概略図を示す。本出願の実施例による音楽ファイルの生成方法のフローチャートのその三を示す。本出願の実施例による音楽ファイルの生成方法におけるピアノロールカーテングラフィックスインタフェースの概略図を示す。本出願の実施例による音楽ファイルの生成装置の構造ブロック図を示す。本出願の実施例による電子機器の構造ブロック図を示す。本出願の実施例の電子機器を実現するハードウェア構造概略図である。

以下は、本出願の実施例における図面を結び付けながら、本出願の実施例における技術案を明瞭に記述し、明らかに、記述される実施例は、本出願の一部の実施例であり、すべての実施例ではない。本出願における実施例に基づき、当業者が得るすべての他の実施例は、いずれも本出願の保護範囲に属する。

本出願の明細書と特許請求の範囲における用語の「第一」、「第二」などは、類似している対象を区別するものであり、特定の順序又は前後手順を記述するためのものではない。理解すべきこととして、このように使用される用語は、適切な場合に交換可能であり、それにより本出願の実施例は、ここで図示又は記述されるもの以外の順序で実施されることが可能であり、「第一」、「第二」などによって区別される対象は、一般的には同一の種類であり、対象の個数を限定せず、例えば第一対象は、一つであってもよく、複数であってもよい。なお、明細書及び請求項における「及び／又は」は、接続される対象とのうちの少なくとも一つを表し、文字である「／」は、一般的には前後関連対象が「又は」の関係であることを表す。

以下では、図面を結び付けながら、具体的な実施例及びその応用シナリオにより本出願の実施例による音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体を詳細に説明する。

本出願のいくつかの実施例では、音楽ファイルの生成方法を提供し、図１は、本出願の実施例による音楽ファイルの生成方法のフローチャートのその一を示し、図１に示すように、この方法は、以下のステップを含む。

ステップ１０２において、第一画像を取得する。

ステップ１０４において、第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得る。

ステップ１０６において、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定する。
ステップ１０６において、楽器デジタルインターフェース情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するためのものである。

ステップ１０８において、楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成する。

本出願の実施例では、第一画像は、具体的にユーザが選択した「思い出画像」である。具体的には、ローカルに保存された写真又はビデオをクライアントにアップロードすることによって、第一画像を得ることができ、ユーザは、さらに、携帯電話などの電子機器のカメラによって写真を撮影し又はビデオを録画し、それによって第一画像を得ることができる。

ここで、ユーザがビデオを選択してアップロードし、又は携帯電話によってビデオを録画する場合、ビデオからフレームを抽出することによって、第一画像を得ることができる。ここで、ビデオから一のフレームをランダムに抽出してもよく、ニューラルネットワークモデルによってビデオ内容を識別してもよく、それによってビデオテーマを体現できる画像フレームを決定して抽出する。

具体的には、いくつかの実施の形態では、第一画像を取得することは、具体的に、第一画像を選択する入力である第三入力を受け取ることと、第三入力に応答して、第一画像を決定することとを含む。

別のいくつかの実施の形態では、第一画像を取得することは、具体的に、撮影ビデオの入力である第四入力を受け取ることと、第四入力に応答して、処理すべきビデオを撮影することと、処理すべきビデオにフレーム抽出処理を行い、第一画像を得ることとを含む。

第一画像を得た後、さらに第一画像に特徴抽出を行うことによって、第一画像において、第一画像の顕示的な特徴を抽出する。例を挙げると、第一画像が「人顔」ピクチャーである場合に、第一画像の顕示的な特徴は、そのうちの人顔輪廓、五官位置などである。第一画像が全身又は半身の「人像」ピクチャーである場合に、第一画像の顕示的な特徴は、そのうちの人物の身形輪廓や姿勢などである。

引き続き例を挙げると、第一画像が動物写真又は子供写真などの「動」物（動く生物）である場合に、第一画像の顕示的な特徴は、動物又は子供の身形輪廓や五官位置であってもよい。第一画像が建物、車両、風景などの「静」物（静止した物体）である場合に、第一画像の顕示的な特徴は、これらの静物の全体外形と顕示的な装置であってもよい。

理解できるように、第一画像の具体的な内容に基づいて、異なる特徴抽出粒度をプリセットしてもよい。

さらに、第一画像の顕示的な特徴を得た後、この顕示的な特徴の第一画像における位置に基づいて、楽器デジタルインターフェース情報座標系、即ちＭＩＤＩ情報座標系にこの顕示的な特徴をマッピングすることによって、この顕示的な特徴の画像ユニットをＭＩＤＩ情報座標系におけるオーディオトラックブロックとして形成する。ここで、ＭＩＤＩ情報座標系は、楽器デジタルインターフェース情報と時間との対応関係、即ち一つのオーディオトラックブロックに対応するＭＩＤＩ情報と時間との間の関係を指示するために用いられる。

具体的には、図２は、本出願の実施例による音楽ファイルの生成方法のＭＩＤＩ情報座標系のインタフェース概略図を示し、図２に示すように、第一画像は、具体的に人顔画像であり、この人顔画像の顕示的な特徴をＭＩＤＩ情報座標系２００において複数のオーディオトラックブロック２０２としてマッピングし、複数のオーディオトラックブロック２０２は、ＭＩＤＩ情報座標系において人顔に近似する形状を構成し、この人顔の形状は、第一画像の顕示的な特徴に対応する。

さらに、顕示的な特徴に対応するこれらのオーディオトラックブロックは、楽器デジタルインターフェース情報、即ちＭＩＤＩ情報を有し、これらのＭＩＤＩ情報は、具体的にコンピュータ機器により識別されて「音声」として再生されることができる情報であり、コンピュータ機器は、ＭＩＤＩ情報を識別した後、ＭＩＤＩ情報に基づいて、例えば音の高さ、音色、音量などの情報に対応するデジタルシグナルを得て、それによって一つの音楽動機、即ち一つの重音を形成し、これらの顕示的な特徴と時間との対応関係、即ちこれらの音楽動機と時間との対応関係に基づいて、これらの音楽動機に対応する「音声」を順次再生し、それによって一つの音楽を形成し、この音楽は、ユーザの選択した「思い出画像」、即ち第一画像に基づいて生成されたユニークな音楽である。

本出願の実施例は、画像によって音楽を構築することによって、形成された音楽がユーザの思い出を含む画像に合致するようにし、一方では音楽創作の敷居を下げ、楽理知識を持たない「初心者」のユーザでも、ピクチャーに基づいて対応する音楽を構築することができ、他方ではＭＩＤＩ情報座標系によってオーディオトラックブロックを提示することによって、最終的に構築された音楽を可視化し、ユーザにユニークな聴覚と視覚の二重体験を与える。

本出願のいくつかの実施例では、第一画像の画像内容は、顕示的なターゲットを含み、顕示的な特徴は、顕示的なターゲットのキーポイントと、顕示的なターゲットのエッジ特徴ポイントとのうちの少なくとも一つを含む。

本出願の実施例では、顕示的なターゲットは、第一画像の画像内容における本体ターゲットである。例えば、第一画像の画像内容が人顔とバックグラウンドの花々とであると、顕示的なターゲットは、この「人顔」である。また例えば、第一画像の画像内容が建物とバックグラウンドの青天とであると、顕示的なターゲットは、この「建物」である。

この基礎の上で、顕示的な特徴は、具体的に、顕示的なターゲットのキーポイントを含み、例えば人顔のキーポイントは、「五官」であり、建物のキーポイントは、建物のユニークな設計、例えば「窓」、「庭」などである。顕示的な特徴はさらに、顕示的なターゲットのエッジ特徴ポイントを含んでもよく、これらのエッジ特徴ポイントは、顕示的なターゲットの輪廓、例えば人顔輪廓又は建物輪廓を形成する。

そのため、画像内容における顕示的なターゲットのキーポイントと顕示的なターゲットのエッジ特徴ポイントを抽出することによって、顕示的なターゲットの「略図」を形成することができ、この略図によって、視聴衆に元の画像における被写体、例えば「ある人」又は「ある建物」を連想させ、それによって視聴衆の思い出を喚起することができる。

本出願の実施例において、検出キーポイントとエッジ特徴ポイントで顕示的なターゲットの顕示的な特徴を構成し、顕示的な特徴に基づいて音楽を生成することによって、音楽の可視化を実現し、ユーザに聴覚上と視覚上の二重体験を与える。

本出願のいくつかの実施例では、第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得ることは、
畳み込みニューラルネットワークによって、第一画像にターゲット分割を行い、第一画像における顕示的なターゲットと顕示的なターゲットのエッジ特徴ポイントを得ることと、
顕示的なターゲットにキーポイント抽出を行い、顕示的なターゲットのキーポイントを得ることとを含む。

本出願の実施例では、第一グラフィックスに特徴抽出を行う時、まず、予め訓練された畳み込みニューラルネットワークによって、第一画像にターゲット分割を行うことができる。ここで、ターゲット分割の目的は、第一画像における顕示的なターゲットを分割することである。

具体的には、予めマーキングされた大量の訓練セットによって、プリセットされた畳み込みニューラルネットワークを訓練することができ、訓練された畳み込みニューラルネットワークは、ピクチャーにおいて顕示的なターゲットを識別することができる。例えば、人像ピクチャーに対して、セットされた大量の元の人顔ピクチャー、及び「人顔」を部分的にマッティングして分割した、「人顔」のみを含む顕示的なターゲットピクチャーによって、訓練セットを生成し、この訓練セットによって畳み込みニューラルネットワークを訓練し、畳み込みニューラルネットワークを持続的にイテレートさせ、畳み込みニューラルネットワークがピクチャーにおいて顕示的なターゲットと顕示的なターゲットのエッジを正確に識別した後、畳み込みニューラルネットワークが使用可能であると判断される。

上記方法によって訓練された畳み込みニューラルネットワークは、第一画像に人工知能識別を行うことによって、そのうちの顕示的なターゲットと顕示的なターゲットのエッジを判断し、顕示的なターゲットのエッジ特徴ポイントを得る。

さらに、顕示的なターゲットの画像を識別することによって、顕示的なターゲットの具体的なタイプ、例えば「人顔」、「動物」、「建物」などを判断し、それによって顕示的なターゲットの具体的なタイプに基づいて、対応するキーポイント抽出粒度を決定し、対応する抽出粒度に基づいて、顕示的なターゲットにキーポイント抽出を行い、それによって顕示的なターゲットのキーポイント、例えば人顔の五官などを得る。

本出願では、訓練された畳み込みニューラルネットワークによって、第一画像から顕示的なターゲットの顕示的な特徴を抽出し、具体的に顕示的なターゲットのキーポイントとエッジ特徴ポイントを抽出することによって、顕示的な特徴を迅速で正確に得ることによって、画像によって音楽を生成する処理速度を向上させることができ、ユーザ体験の向上に寄与する。

本出願のいくつかの実施例では、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングする前、音楽ファイルの生成方法は、
顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成することと、
顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定することとをさらに含む。

本出願の実施例では、第一画像の顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成する。ここで、顕示的なターゲットテクスチャ図は、第一画像において、顕示的なターゲットだけを表示する顕示的な特徴の画像である。一つの典型の実施の形態では、顕示的なターゲットテクスチャ図に二つの画素だけ含まれ、そのうちの第一画素は、顕示的な特徴を表示するための画素であり、第二画素は、非顕示的な特徴位置の画素である。

図３は、本出願の実施例による音楽ファイルの生成方法の顕示的なターゲットテクスチャ図の概略図を示し、図３に示すように、第一画像は、人顔画像であり、そのうちの顕示的なターゲットは、人顔であり、この時、顕示的なターゲットテクスチャ図は、人顔の略図のように見える。

顕示的なターゲットテクスチャ図は、第一画像を顕示的な特徴だけを表示する画像に処理するため、顕示的な特徴の第一画像における位置を決定する時、顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の位置を決定し、それによって顕示的な特徴をＭＩＤＩ情報座標系にマッピングし、画像からＭＩＤＩ電子楽譜へ、最終的に音楽への変換プロセスを実現し、「画像から音楽へ」を実現し、ユーザにユニークな体験を与えることができる。

本出願のいくつかの実施例では、図４は、本出願の実施例による音楽ファイルの生成方法のフローチャートのその二を示し、図４に示すように、顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成するステップは、具体的に、以下のステップを含む。

ステップ４０２において、エッジ特徴ポイントとキャニーエッジ検出アルゴリズムに基づいて、第一画像にエッジ検出を行い、顕示的なターゲットのエッジ画像を得る。

ステップ４０４において、キーポイントとエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図を生成する。

ステップ４０６において、エッジ画像と顕示的なターゲット図に画像重畳を行い、第一画像に対応する顕示的なターゲットテクスチャ図を得る。

本出願の実施例では、顕示的な特徴に基づいて顕示的なターゲットテクスチャ図を生成する時、まず、エッジ特徴ポイントに基づいて、キャニーエッジ検出アルゴリズムによってエッジ検出を行う。ここで、キャニーエッジ検出アルゴリズムは、Ｃａｎｎｙエッジ検出アルゴリズムであり、具体的にＪｏｈｎＦ．Ｃａｎｎｙが１９８６年に開発した多段エッジ検出アルゴリズムである。

具体的には、キャニーエッジ検出アルゴリズムによって第一画像にエッジ検出を行う時、まず第一画像にガウスフィルタリングを行い、即ち、一つのガウス行列を用い、各画素点及びその近傍に対してその重み付けべきの平均値を除去して、画素の階調値とする。さらに、勾配値と勾配方向を計算し、非最大値をフィルタリングし、最後に、セットした閾値範囲を用いてエッジ検出を行い、顕示的なターゲット物のエッジ画像を得る。

さらに、顕示的なターゲットのキーポイントと顕示的なターゲットのエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図、即ちキーポイントとエッジ特徴ポイントで形成された特徴図を生成する。

さらに、エッジ画像と顕示的なターゲット図に画像重畳を行うことによって、エッジ画像とエッジ特徴ポイントが繋がるようにして、各キーポイントを輪廓とともに描くことに相当し、最終的に、明確な輪廓を有する顕示的なターゲットテクスチャ図を得る。

本出願のいくつかの実施例では、ターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定することは、
ターゲットテクスチャ図をＸ行、Ｙ列となるＸ×Ｙ個のグラフィックスユニットに分けることであって、ＸとＹは、いずれも１よりも大きい整数であり、グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、明るい画素は、輝度値が１の画素であり、暗い画素は、輝度値が０の画素であることと、
Ｘ×Ｙ個のグラフィックスユニットにおいて、明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、Ｎ個のターゲットグラフィックスユニットを得ることであって、第一画像の顕示的な特徴の数は、Ｎであり、Ｎ個のターゲットグラフィックスユニットは、Ｎ個の顕示的な特徴に１対１で対応し、Ｎは、正整数であることと、
Ｎ個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがＸ×Ｙ個のグラフィックスユニットにある行番号に基づいて、顕示的な特徴の第一画像における第一縦座標を決定することと、
Ｎ個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがＸ×Ｙ個のグラフィックスユニットにある列番号に基づいて、顕示的な特徴の第一画像における第一横座標を決定することと、
顕示的な特徴の横座標と顕示的な特徴の横座標と縦座標に基づいて、顕示的な特徴の第一画像における位置を決定することとを含む。

本出願の実施例では、まず、ターゲットテクスチャ図を分け、具体的にＸ行、Ｙ列に分け、一つのＸ×Ｙのグラフィックス行列を得て、このグラフィックス行列にＸ×Ｙ個のグラフィックスユニットが含まれる。各グラフィックスユニットに、明るい画素と暗い画素を含む複数の画素が含まれ、明るい画素は、顕示的な特徴を表示するための画素であり、その輝度値が１であり、暗い画素は、顕示的な特徴以外の画素であり、その輝度値が０であり、即ち「純黒」を表す。

さらに、それぞれＸ×Ｙ個のグラフィックスユニットにおいて、各画像ユニット内の明るい画素の占める割合を判断する。例を挙げると、一つのグラフィックスユニット内の画素の数が１０であり、それに６つの明るい画素と４つの暗い画素が含まれると仮定すると、このグラフィックスユニットにおいて、明るい画素の数の占める割合は、０．６である。

各グラフィックスユニット内の明るい画素の数の占める割合を決定した後、それぞれ、各画像ユニットにおいて、明るい画素の占める割合がプリセット比値よりも大きいかどうかを判断し、ここで、プリセット比値の範囲は、０．２以上であり、好ましくは０．４である。プリセット比値０．４を例として、一つのグラフィックスユニット内の１０個の画素のうち、４つ以上の明るい画素があると、このグラフィックスユニットをターゲットグラフィックスユニットとしてマークし、このターゲットグラフィックスユニットに顕示的な特徴があるのを表すために用いられる。

すべてのＸ×Ｙ個のグラフィックスユニットのうち、すべてのターゲットグラフィックスユニットを決定した後、これらのターゲットグラフィックスユニットは、最終的にＭＩＤＩ情報座標系においてマッピングする顕示的な特徴となる。図５は、本出願の実施例による音楽ファイルの生成方法のターゲットテクスチャ図の分けの概略図を示し、図５に示すように、ターゲットテクスチャ図５００を５×５、合計２５個のグラフィックスユニット５０２に分ける。ここで、陰線で塗りつぶされたのは、一つのターゲットグラフィックスユニット５０４、即ち一つの顕示的な特徴の単位である。

さらに、図５において、黒で塗りつぶされたグラフィックスユニット５０６を例として、グラフィックスユニット５０６は、４列目、２行目に位置し、このグラフィックスユニット５０６に対応する顕示的な特徴が、第一画像における第一横座標４ｘ、第一縦座標２ｙにあることを決定することができる。

同様に、同じ方法に基づいて、各ターゲットグラフィックスユニットの第一横座標と第一縦座標を決定し、さらに各顕示的な特徴の第一画像における位置を得る。

本出願の実施例では、第一画像に対応するターゲットテクスチャ図を分け、それによって分けられた後のＸ×Ｙ個のグラフィックスユニットのうち明るい画素の数の占める割合に基づいて、ターゲットグラフィックスユニットを決定し、ターゲットグラフィックスユニットを一つの顕示的な特徴としてＭＩＤＩ情報座標系にマッピングし、画像からＭＩＤＩ電子楽譜への変換を実現し、さらに画像から音楽への転化を実現するとともに、音楽を可視化し、ユーザに聴覚上と視覚上の二重体験を与えることができる。

本出願のいくつかの実施例では、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングすることは、
第一縦座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二縦座標を得ることと、
第一横座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二横座標を得ることと、
第二縦座標と第二横座標に基づいて、Ｎ個の顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、Ｎ個の顕示的な特徴に１対１で対応するＮ個のオーディオトラックブロックを得ることとを含む。

本出願の実施例では、顕示的な特徴をＭＩＤＩ情報座標系にマッピングする時、以上に得られた顕示的な特徴の第一横座標と第一縦座標をＭＩＤＩ情報座標系での第二横座標と第二縦座標に同期して転化し、それによって顕示的な特徴のＭＩＤＩ情報座標系におけるマッピングを実現することができる。

ここで、すべてのＮ個の顕示的な特徴をいずれもＭＩＤＩ情報座標系にマッピングし、Ｎ個の顕示的な特徴に１対１で対応するＮ個のオーディオトラックブロックを得て、楽器デジタルインターフェースプログラムによって、このＮ個のオーディオトラックブロックを表示及び再生し、可視的な音楽を得ることができ、一方では第一画像における顕示的なターゲットの画像特徴を残し、他方では第一画像における顕示的なターゲットに対応するユニークな音楽を生成することができる。

具体的には、ＭＩＤＩ情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するために用いられるため、一つの顕示的な特徴、即ち一つのオーディオトラックブロックのＭＩＤＩ情報座標系における座標に基づいて、一つのオーディオトラックブロックのＭＩＤＩ情報と時間情報を決定することができ、コンピュータプログラムは、オーディオトラックブロックのＭＩＤＩ情報と時間情報を識別した後、一つの音楽動機に転化することができ、この音楽動機は、音色、音の高さ、音量などの音声属性を有し、リズムの時間属性をさらに有し、複数の顕示的な特徴に対応する複数のオーディオトラックブロックをそのＭＩＤＩ情報と時間情報に従って再生し、最終的に第一画像を変換して得られた音楽、即ちユーザ「思い出画像」と合致した音楽を得ることができ、ユニークな音楽創作に対するユーザの需要を満たす。

本出願のいくつかの実施例では、オーディオトラックブロックは、楽器デジタルインターフェース情報を含み、オーディオトラックブロックに対応する第二縦座標に基づいて楽器デジタルインターフェース情報を決定し、ここで、楽器デジタルインターフェース情報は、音の高さと、音色と、音量とのうちの少なくとも一つを含む。

本出願の実施例では、オーディオトラックブロックのＭＩＤＩ情報座標系での第二縦座標は、このオーディオトラックブロックに対応するＭＩＤＩ情報である。具体的には、ＭＩＤＩ情報座標系で、第二縦座標は、ＭＩＤＩ音の高さ、ＭＩＤＩ音色とＭＩＤＩ音量が含まれるオーディオトラックブロックのＭＩＤＩ情報を代表する。具体的には、縦座標が１上昇するごとに音階が１上昇し、縦座標が８上昇するごとに音階が１オクターブ上昇する。

同時に、第二座標に基づいて、一つのオーディオトラックブロックの音色と音量を得ることができ、ここで、一つのオーディオトラックブロックの音の高さが高いほど、例えば高音音階の範囲にあると、それに対して例えばバイオリン、フルートなどの楽器の音色のような澄んだ音色をセットすることができ、オーディオトラックブロックの音の高さが中音音階範囲内にあると、それに対してピアノ、ギターなどの主旋律楽器の音色をセットすることができ、オーディオトラックブロックの音の高さが低音音階範囲内にあると、それに対してオルガン、ベースなどの重厚な楽器の音色をセットすることができる。

同様に、中音音階範囲内にあるオーディオトラックブロックに対して、より大きい音量をセットして主旋律を強調することができ、高音と低音の範囲に対して、適切に音量を下げ、ユーザの耳に圧迫を与えることを防止することができる。

本出願では、オーディオトラックブロックの第二縦座標に基づいて、そのＭＩＤＩ情報をセットすることは、具体的に、生成された音楽がより楽理に合致し、ピクチャーから音楽を生成する効果を向上させるように、オーディオトラックブロックの音の高さ、音色と音量などの音楽属性をセットすることである。

本出願のいくつかの実施例では、図６は、本出願の実施例による音楽ファイルの生成方法のフローチャートのその三を示し、図６に示すように、方法は、以下のことをさらに含む。

ステップ６０２において、第一入力を受け取る。
ステップ６０２において、第一入力は、プリセット音楽特徴を選択する入力であり、このステップにおいて、第一入力は、マンマシンインタラクションコンポーネントを介して受け取られたユーザ入力であり、第一入力は、タッチ入力、生物識別入力、クリック入力、体感入力、ボイス入力、キーボード入力又はプレス入力のうちの一つ又は複数の組み合わせを含み、ここで、タッチ入力は、点接触、スライド又は特定のタッチジェスチャーなどを含むが、それらに限らず、生物識別入力は、指紋、虹彩、声紋又は顔識別などの生物情報入力などを含むが、それらに限らず、クリック入力は、マウスクリック、スイッチクリックなどを含むが、それらに限らず、体感入力は、電子機器の振れ、電子機器の反転などを含むが、それらに限らず、プレス入力は、タッチスクリーンに対するプレス入力、サイドフレームに対するプレス入力、リアカバーに対するプレス入力又は他の電子機器に対する部位のプレス入力を含むが、それらに限らない。本出願の実施例は、第一入力の具体的な形式に対して限定しない。

ステップ６０４において、第一入力に応答して、ターゲット音楽特徴を決定し、
ステップ６０４において、ターゲット音楽特徴は、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含み、
ステップ６０６において、音楽特徴に基づいて音楽を調整し、
ステップ６０８において、音楽ファイルを再生する。

本出願の実施例では、ユーザは、複数のプリセット音楽特徴を選択し、ターゲット音楽特徴を選択することによって、第一画像に基づいて生成された音楽に対して楽理性の調整を行うことができる。ここで、ターゲット音楽特徴は、音楽スタイル、例えば、ポピュラー音楽、クラシック音楽、電子音楽などを含み、音楽ムード、例えば、激しい、消極的、緩やかなどをさらに含み、音楽曲風、例えば、ロック、ジャズ、ブルースなどをさらに含む。

ユーザの選択したターゲット音楽特徴に基づいて、第一画像に基づいて生成された音楽を調整することによって、調整後の音楽がユーザの選択した音楽特徴により合致するようにし、例えばユーザがクラシック音楽、緩やか、ブルースを選択すると、中間周波数と低周波数の音量を適切に増加させるとともに、第二横座標の時間間隔を調整することによって、音楽リズムをより遅く、より緩やかにすることができる。

同時に、プリセット楽理データと音響データに基づいて、ＭＩＤＩ座標系におけるオーディオトラックブロックの第二縦座標にさらなる後処理を行うことができる。例を挙げると、一つの調性をプリセットし、最高音階と最低音階の範囲を規定し、ある期間内のオーディオトラックブロックの最高音階と最低音階がこの範囲を超えると、一定の調整ルールに従って、範囲外のオーディオトラックブロックの音の高さを調整し、即ち調外音を調性内に調整し、例えば最高音階閾値を超えるオーディオトラックブロックの音の高さを１オクターブ下げ、又は最低音階閾値よりも低いオーディオトラックブロックの音の高さを１オクターブ上げるなど、調整後の音楽が楽理に合致するようにし、生成された音楽を調整した後、調整後の音楽を自動的に再生し、それによってユーザが彼の選択した「思い出写真」に基づいて生成された音楽を即座に楽しみ、音楽創作の楽しさを楽しむことができるようにする。

本出願のいくつかの実施例では、音楽ファイルの生成方法は、音楽に対応する第二画像を生成することをさらに含み、
音楽ファイルを再生することは、第二画像を表示し、音楽ファイルを再生することを含む。

本出願の実施例では、再生される音楽ファイルに対応する第二画像を生成し、音楽ファイルを再生すると同時、第二画像を表示することによって、ユーザが視覚上と聴覚上の楽しさを同時に体験することができる。ここで、第二画像は、ユーザの選択した第一画像、又は第一画像に対応する顕示的な特徴テクスチャ図に基づいて生成される静止画像であってもよく、音楽ファイルを再生する時にこの静止画像と音楽の再生進捗を表示する。

第二画像は、プリセットテンプレート、又はＭＩＤＩ情報座標系の再生インタフェースに基づいて生成された動画ファイルであってもよく、この動画ファイルの動画時間長は、生成された音楽の音楽時間長と合致し、音楽ファイルを再生するのと同時に動画を再生し、ユーザの視覚体験をさらに向上させる。

本出願のいくつかの実施例では、音楽に対応する第二画像を生成することは、
プリセットビデオテンプレートを選択する入力である第二入力を受け取ることと、
第二入力に応答して、ターゲットビデオテンプレートを決定することと、
ターゲットビデオテンプレートと顕示的なターゲットテクスチャ図に基づいて、第二画像を生成することとを含む。

本出願の実施例では、ユーザの第二入力を受け取り、ユーザの第二入力で選択されたターゲットビデオテンプレートと第一画像に対応する顕示的なターゲットテクスチャ図に基づいて、音楽を再生する時、音楽再生時のバックグラウンド画像を生成する。ここで、ビデオテンプレートは、連続的な動画テンプレートであってもよく、複数の静止画像が順番に提示される「スライド」であってもよい。

ここで、動画テンプレートにおいて、第一画像に対応する顕示的なターゲットテクスチャ図を重畳して表示することによって、ユーザが第二画像を見る時、第一画像を撮影する時の思い出を喚起し、ユーザの使用体験を向上させることができる。

この実施例では、第二入力は、マンマシンインタラクションコンポーネントを介して受け取られたユーザ入力であり、第二入力は、タッチ入力、生物識別入力、クリック入力、体感入力、ボイス入力、キーボード入力又はプレス入力のうちの一つ又は複数の組み合わせを含み、ここで、タッチ入力は、点接触、スライド又は特定のタッチジェスチャーなどを含むが、それらに限らず、生物識別入力は、指紋、虹彩、声紋又は顔識別などの生物情報入力などを含むが、それらに限らず、クリック入力は、マウスクリック、スイッチクリックなどを含むが、それらに限らず、体感入力は、電子機器の振れ、電子機器の反転などを含むが、それらに限らず、プレス入力は、タッチスクリーンに対するプレス入力、サイドフレームに対するプレス入力、リアカバーに対するプレス入力又は他の電子機器に対する部位のプレス入力を含むが、それらに限らない。本出願の実施例は、第二入力の具体的な形式に対して限定しない。

本出願のいくつかの実施例では、音楽ファイルに対応する第二画像を生成することは、
ピアノロールカーテングラフィックスインタフェースによって、音楽の再生進捗を提示するためのターゲット動画を生成することと、
ターゲット動画と顕示的なターゲットテクスチャ図に基づいて、第二画像を生成することとを含む。

本出願の実施例では、ピアノロールカーテングラフィックスインタフェースによって、ターゲット動画を生成し、ここで、ターゲット動画は、ピアノロールカーテングラフィックスインタフェースにＭＩＤＩファイルにおけるオーディオトラックブロックを再生するプロセスである。具体的には、図７は、本出願の実施例による音楽ファイルの生成方法におけるピアノロールカーテングラフィックスインタフェースの概略図を示し、ここで、左側は、ピアノの動画画像のピアノキー７０２であり、オーディオトラックブロック７０４は、インタフェースにおいて、それに対応する時間情報に基づいて、ピアノキー７０２が左側に徐々に向かう。

同時に、インタフェースのバックグラウンドにおいて、第一画像に対応する顕示的なターゲットテクスチャ図を第二画像のバックグラウンド画像とすることにって、第二画像と第一画像との間に顕示的な視覚接続を確立し、ユーザが音楽を聞くと同時に、「思い出画像」に関連する第二画像を見ることによってユーザの思い出を喚起し、ユーザの視覚体験を豊かにする。

本出願のいくつかの実施例では、音楽ファイルの生成装置を提供し、図８は、本出願の実施例による音楽ファイルの生成装置の構造ブロック図を示し、図８に示すように、音楽ファイルの生成装置８００は、
第一画像を取得するための取得モジュール８０２、
第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得るための抽出モジュール８０４と、
顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定するための処理モジュール８０６であって、楽器デジタルインターフェース情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するための処理モジュール８０６と、
楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するための生成モジュール８０８とを含む。

ここで、ユーザがビデオを選択してアップロードし、又は携帯電話によってビデオを録画する場合、ビデオからフレームを抽出することによって、第一画像を得ることができる。ここで、ビデオから一フレームをランダムに抽出してもよく、ニューラルネットワークモデルによってビデオ内容を識別してもよく、それによってビデオテーマを体現できる画像フレームを決定して抽出する。

第一画像を得た後、さらに第一画像に特徴抽出を行うことによって、第一画像において、第一画像の顕示的な特徴を抽出する。例を挙げると、第一画像が「人顔」ピクチャーである場合に、第一画像の顕示的な特徴は、そのうちの人顔輪廓や五官位置などである。第一画像が全身又は半身の「人像」ピクチャーである場合に、第一画像の顕示的な特徴は、そのうちの人物の身形輪廓や姿勢などである。

引き続き例を挙げると、第一画像が動物写真又は子供写真などの「動」物である場合に、第一画像の顕示的な特徴は、動物又は子供の身形輪廓や五官位置であってもよい。第一画像が建物、車両、風景などの「静」物である場合に、第一画像の顕示的な特徴は、これらの静物の全体外形と顕示的な装置であってもよい。

理解できるように、第一画像の具体的な内容に基づいて、異なる特徴抽出粒度をセットしてもよい。

さらに、顕示的な特徴に対応するこれらのオーディオトラックブロックは、楽器デジタルインターフェース情報、即ちＭＩＤＩ情報を有し、これらのＭＩＤＩ情報は、具体的にコンピュータ機器により識別されて「音声」として再生されることができる情報であり、コンピュータ機器は、ＭＩＤＩ情報を識別した後、ＭＩＤＩ情報に基づいて、例えば音の高さ、音色、音量などの情報に対応するデジタルシグナルを得て、それによって一つの音楽動機、即ち一つの重音を形成し、これらの顕示的な特徴と時間との対応関係、即ちこれらの音楽動機と時間との対応関係に基づいて、これらの音楽動機に対応する「音声」を順次再生し、それによって音楽を形成し、この音楽は、ユーザの選択した「思い出画像」、即ち第一画像に基づいて生成されたユニークな音楽である。

本出願の実施例は、画像によって音楽を構築することによって、形成された音楽がユーザの思い出を含む画像に合致するようにし、一方では音楽創作の敷居を下げ、楽理知識を持たない「初心者」ユーザでも、ピクチャーに基づいて対応する音楽を構築することができ、他方ではＭＩＤＩ情報座標系によってオーディオトラックブロックを提示することによって、最終的に構築された音楽を可視化し、ユーザにユニークな聴覚と視覚の二重体験を与える。

本出願のいくつかの実施例の音楽ファイルの生成装置において、第一画像の画像内容は、顕示的なターゲットを含み、顕示的な特徴は、顕示的なターゲットのキーポイントと、顕示的なターゲットのエッジ特徴ポイントとのうちの少なくとも一つを含む。

本出願の実施例では、顕示的なターゲットは、第一画像の画像内容における本体ターゲットである。例えば、第一画像の画像内容が人顔とバックグラウンドの花々であると、顕示的なターゲットは、この「人顔」である。また例えば、第一画像の画像内容が建物とバックグラウンドの青天であると、顕示的なターゲットは、この「建物」である。

本出願のいくつかの実施例の音楽ファイルの生成装置において、処理モジュールは、さらに、畳み込みニューラルネットワークによって、第一画像にターゲット分割を行い、第一画像における顕示的なターゲットと顕示的なターゲットのエッジ特徴ポイントを得て、顕示的なターゲットにキーポイント抽出を行い、顕示的なターゲットのキーポイントを得るために用いられる。

さらに、顕示的なターゲットの画像を識別することによって、顕示的なターゲットの具体的なタイプ、例えば「人顔」、「動物」、「建物」などを判断し、それによって顕示的なターゲットの具体的なタイプに基づいて、対応するキーポイント抽出粒度を決定し、対応する抽出粒度に基づいて、顕示的なターゲットにキーポイント抽出を行うことによって、顕示的なターゲットのキーポイント、例えば人顔の五官などを得る。

本出願において、訓練された畳み込みニューラルネットワークによって、第一画像から顕示的なターゲットの顕示的な特徴を抽出し、具体的に顕示的なターゲットのキーポイントとエッジ特徴ポイントを抽出することによって、顕示的な特徴を迅速で正確に得ることによって、画像によって音楽を生成する処理速度を向上させることができ、ユーザ体験の向上に寄与する。

本出願のいくつかの実施例の音楽ファイルの生成装置において、生成モジュールは、さらに、顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成するために用いられ、
処理モジュールは、さらに、顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定するために用いられる。

本出願のいくつかの実施例の音楽ファイルの生成装置において、処理モジュールは、さらに、エッジ特徴ポイントとキャニーエッジ検出アルゴリズムに基づいて、第一画像にエッジ検出を行い、顕示的なターゲットのエッジ画像を得るために用いられ、
生成モジュールは、さらに、キーポイントとエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図を生成し、エッジ画像と顕示的なターゲット図に画像重畳を行い、第一画像に対応する顕示的なターゲットテクスチャ図を得るために用いられる。

本出願の実施例では、顕示的な特徴に基づいて顕示的なターゲットテクスチャ図を生成する時、まず、エッジ特徴ポイントに基づいて、キャニーエッジ検出アルゴリズムによってエッジ検出を行う。具体的には、キャニーエッジ検出アルゴリズムによって第一画像にエッジ検出を行う時、まず第一画像にガウスフィルタリングを行い、即ち、一つのガウス行列を用い、各画素点及びその近傍に対してその重み付けべきの平均値を除去して、画素の階調値とする。さらに、勾配値と勾配方向を計算し、非最大値をフィルタリングし、最後にセットした閾値範囲を用いてエッジ検出を行い、顕示的なターゲット物のエッジ画像を得る。

さらに、エッジ画像と顕示的なターゲット図に画像重畳を行うことによって、エッジ画像とエッジ特徴ポイントが繋がり、各キーポイントを輪廓とともに描くことに相当し、最終的に明確な輪廓を有する顕示的なターゲットテクスチャ図を得る。

本出願のいくつかの実施例の音楽ファイルの生成装置において、処理モジュールは、さらに、
ターゲットテクスチャ図をＸ行、Ｙ列となるＸ×Ｙ個のグラフィックスユニットに分けるために用いられ、ＸとＹは、いずれも１よりも大きい整数であり、グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、明るい画素は、輝度値が１の画素であり、暗い画素は、輝度値が０の画素であり、Ｘ×Ｙ個のグラフィックスユニットにおいて、明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、Ｎ個のターゲットグラフィックスユニットを得ることであって、第一画像の顕示的な特徴の数は、Ｎであり、Ｎ個のターゲットグラフィックスユニットは、Ｎ個の顕示的な特徴に１対１で対応し、Ｎは、正整数であり、
Ｎ個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがＸ×Ｙ個のグラフィックスユニットにある行番号に基づいて、顕示的な特徴の第一画像における第一縦座標を決定し、Ｎ個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがＸ×Ｙ個のグラフィックスユニットにある列番号に基づいて、顕示的な特徴の第一画像における第一横座標を決定し、顕示的な特徴の横座標と顕示的な特徴の横座標と縦座標に基づいて、顕示的な特徴の第一画像における位置を決定する。

本出願の実施例では、まず、ターゲットテクスチャ図を分け、具体的にＸ行、Ｙ列に分け、一つのＸ×Ｙのグラフィックス行列を得て、このグラフィックス行列にＸ×Ｙ個のグラフィックスユニットが含まれる。各グラフィックスユニットに、明るい画素と暗い画素が含まれる複数の画素が含まれ、明るい画素は、顕示的な特徴を表示するための画素であり、その輝度値が１であり、暗い画素は、顕示的な特徴以外の画素であり、その輝度値が０であり、即ち「純黒」を表す。

さらに、それぞれ、Ｘ×Ｙ個のグラフィックスユニットにおいて、各画像ユニット内の明るい画素の占める割合を判断する。例を挙げると、一つのグラフィックスユニット内の画素の数が１０であり、６つの明るい画素と４つの暗い画素が含まれると仮定すると、このグラフィックスユニットにおいて、明るい画素の数の占める割合は、０．６である。

すべてのＸ×Ｙ個のグラフィックスユニットのうち、すべてのターゲットグラフィックスユニットを決定した後、これらのターゲットグラフィックスユニットは、最終的にＭＩＤＩ情報座標系においてマッピングする顕示的な特徴である。

本出願のいくつかの実施例の音楽ファイルの生成装置において、処理モジュールは、さらに、第一縦座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二縦座標を得て、第一横座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二横座標を得て、第二縦座標と第二横座標に基づいて、Ｎ個の顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、Ｎ個の顕示的な特徴に１対１で対応するＮ個のオーディオトラックブロックを得るために用いられる。

本出願の実施例では、顕示的な特徴をＭＩＤＩ情報座標系にマッピングする時、以上に得られた顕示的な特徴の第一横座標と第一縦座標をＭＩＤＩ情報座標系での第二横座標と第二縦座標に同期転化し、それによって顕示的な特徴のＭＩＤＩ情報座標系におけるマッピングを実現することができる。

ここで、すべてのＮ個の顕示的な特徴をいずれもＭＩＤＩ情報座標系にマッピングし、Ｎ個の顕示的な特徴に１対１で対応するＮ個のオーディオトラックブロックを得て、楽器デジタルインターフェースプログラムによって、このＮ個のオーディオトラックブロックを表示及び再生し、可視的な音楽を得ることができ、一方では第一画像における顕示的なターゲットの特徴を残し、他方では第一画像における顕示的なターゲットに対応するユニークな音楽を生成することができる。

具体的には、ＭＩＤＩ情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するために用いられるため、一つの顕示的な特徴、即ち一つのオーディオトラックブロックのＭＩＤＩ情報座標系における座標に基づいて、一つのオーディオトラックブロックのＭＩＤＩ情報と時間情報を決定することができ、コンピュータプログラムは、オーディオトラックブロックのＭＩＤＩ情報と時間情報を識別した後、一つの音楽動機に転化することができ、この音楽動機は、音色、音の高さ、音量などの音声属性を有し、リズムの時間属性をさらに有し、複数の顕示的な特徴に対応する複数のオーディオトラックブロックをそのＭＩＤＩ情報と時間情報に従って再生し、最終的に第一画像を変換して得られた音楽、即ちユーザ「思い出画像」と合致する音楽を得て、ユニークな音楽創作に対するユーザの需要を満たす。

本出願のいくつかの実施例の音楽ファイルの生成装置において、オーディオトラックブロックは、楽器デジタルインターフェース情報を含み、オーディオトラックブロックに対応する第二縦座標に基づいて、楽器デジタルインターフェース情報を決定し、ここで、楽器デジタルインターフェース情報は、音の高さと、音色と、音量とのうちの少なくとも一つを含む。

同時に、第二座標に基づいて、一つのオーディオトラックブロックの音色と音量を得ることができ、ここで、一つのオーディオトラックブロックの音の高さが高いほど、例えば高音音階の範囲にあると、それに対して例えばバイオリン、フルートなどの楽器の音色のような澄んだ音色をセットすることができ、オーディオトラックブロックの音の高さが中音音階範囲内にあり、それに対してピアノ、ギターなどの主旋律楽器の音色をセットすることができ、オーディオトラックブロックの音の高さが低音音階範囲内にあると、それに対してオルガン、ベースなどの重厚な楽器の音色をセットすることができる。

本出願では、オーディオトラックブロックの第二縦座標に基づいて、そのＭＩＤＩ情報をセットすることは、具体的に、生成された音楽がより楽理に合致し、ピクチャーから音楽を生成する効果を向上させるために、オーディオトラックブロックの音の高さ、音色と音量などの音楽属性をセットすることである。

本出願のいくつかの実施例の音楽ファイルの生成装置において、音楽ファイルの生成装置は、第一入力を受け取るための受取モジュールをさらに含み、ここで、第一入力は、プリセット音楽特徴を選択する入力であり、
処理モジュールは、さらに、第一入力に応答して、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含むターゲット音楽特徴を決定し、音楽特徴に基づいて音楽を調整するために用いられ、
音楽ファイルの生成装置は、音楽ファイルを再生するための再生モジュールをさらに含む。

本出願の実施例では、ユーザは、複数のプリセット音楽特徴を選択し、ターゲット音楽特徴を選択し、それによって第一画像に基づいて生成された音楽に対して楽理性の調整を行うことができる。ここで、ターゲット音楽特徴は、音楽スタイル、例えば、ポピュラー音楽、クラシック音楽、電子音楽などを含み、音楽ムード、例えば、激しい、消極的、緩やかなどをさらに含み、音楽曲風、例えば、ロック、ジャズ、ブルースなどをさらに含む。

同時に、プリセット楽理データと音響データに基づいて、ＭＩＤＩ座標系におけるオーディオトラックブロックの第二縦座標にさらなる後処理を行うことができる。例を挙げると、一つの調性をプリセットし、最高音階と最低音階の範囲を規定し、ある期間内のオーディオトラックブロックの最高音階と最低音階がこの範囲を超えると、一定の調整ルールに従って、範囲外のオーディオトラックブロックの音の高さを調整し、即ち調外音を調性内に調整し、例えば最高音階閾値を超えるオーディオトラックブロックの音の高さを１オクターブ下げ、又は最低音階閾値よりも低いオーディオトラックブロックの音の高さを１オクターブ上げるなど、調整後の音楽が楽理に合致するようにし、生成された音楽を調整した後、調整後の音楽を自動的に再生し、それによってユーザが彼の選択した「思い出写真」に基づいて生成された音楽を即座に楽しみ、音楽創作の楽しさを楽しむことができる。

本出願のいくつかの実施例の音楽ファイルの生成装置において、生成モジュールは、さらに、音楽ファイルに対応する第二画像を生成するために用いられ、
再生モジュールは、さらに、第二画像を表示し、音楽ファイルを再生するために用いられる。

本出願のいくつかの実施例の音楽ファイルの生成装置において、受取モジュールは、さらに、プリセットビデオテンプレートを選択する入力である第二入力を受け取るために用いられ、
処理モジュールは、さらに、第二入力に応答して、ターゲットビデオテンプレートを決定するために用いられ、
生成モジュールは、さらに、ターゲットビデオテンプレートと顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。

本出願のいくつかの実施例の音楽ファイルの生成装置において、生成モジュールは、さらに、ピアノロールカーテングラフィックスインタフェースによって、音楽の再生進捗を提示するためのターゲット動画を生成し、ターゲット動画と顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。

本出願の実施例では、ピアノロールカーテングラフィックスインタフェースによって、ターゲット動画を生成し、ここで、ターゲット動画は、ピアノロールカーテングラフィックスインタフェースにＭＩＤＩファイルにおけるオーディオトラックブロックを再生するプロセスである。同時に、インタフェースのバックグラウンドにおいて、第一画像に対応する顕示的なターゲットテクスチャ図を第二画像のバックグラウンド画像とすることによって、第二画像と第一画像との間に顕示的な視覚接続を確立し、ユーザが音楽を聞くと同時に、「思い出画像」に関連する第二画像を見ることによって、ユーザの思い出を喚起し、ユーザの視覚体験を豊かにする。

本出願の実施例における音楽ファイルの生成装置は、装置であってもよく、端末における部品、集積回路、又はチップであってもよい。この装置は、移動電子機器であってもよく、非移動電子機器であってもよい。例示的には、移動電子機器は、携帯電話、タブレットパソコン、ノートパソコン、パームトップコンピュータ、車載電子機器、ウェアラブルデバイス、ウルトラモバイルパーソナルコンピュータ（ｕｌｔｒａ－ｍｏｂｉｌｅｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ、ＵＭＰＣ）、ネットブック又はパーソナルデジタルアシスタント（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ、ＰＤＡ）などであってもよく、非移動電子機器は、サーバ、ネットワーク接続型ストレージ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ、ＮＡＳ）、パーソナルコンピュータ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ、ＰＣ）、テレビ（ｔｅｌｅｖｉｓｉｏｎ、ＴＶ）、預入支払機又はセルフサービス機などであってもよく、本出願の実施例は、具体的に限定しない。

本出願の実施例における音楽ファイルの生成装置は、オペレーティングシステムを有する装置であってもよい。このオペレーティングシステムは、アンドロイド（登録商標）オペレーティングシステムであってもよく、ｉＯＳオペレーティングシステムであってもよく、他の可能なオペレーティングシステムであってもよく、本出願の実施例は、具体的に限定しない。

本出願の実施例による音楽ファイルの生成装置は、上記方法の実施例により実現される各プロセスを実現することができ、説明の繰り返しを回避するために、ここでこれ以上説明しない。

選択的に、本出願の実施例は、電子機器９００をさらに提供し、図９は、本出願の実施例による電子機器の構造ブロック図を示し、図９に示すように、プロセッサ９０２と、メモリ９０４と、メモリ９０４に記憶されており、前記プロセッサ９０２上で運行できるプログラム又は命令とを含み、このプログラム又は命令がプロセッサ９０２により実行されると、上記方法の実施例の各プロセスを実現し、同じ技術的効果を達成することができる。説明の繰り返しを回避するために、ここでこれ以上説明しない。

説明すべきこととして、本出願の実施例における電子機器は、以上に記載の移動電子機器と非移動電子機器を含む。

図１０は、本出願の実施例の電子機器を実現するハードウェア構造概略図である。

この電子機器２０００は、無線周波数ユニット２００１、ネットワークモジュール２００２、オーディオ出力ユニット２００３、入力ユニット２００４、センサ２００５、表示ユニット２００６、ユーザ入力ユニット２００７、インターフェースユニット２００８、メモリ２００９、及びプロセッサ２０１０などの部品を含むが、それらに限らない。

当業者であれば理解できるように、電子機器２０００は、各部品に給電する電源（例えば、電池）をさらに含んでもよく、電源は、電源管理システムによってプロセッサ２０１０にロジック的に接続されてもよく、それにより電源管理システムによって充放電管理及び消費電力管理などの機能を実現することができる。図１０に示す電子機器構造は、電子機器に対する限定を構成せず、電子機器は、図示された部品の数よりも多く又は少ない部品、又はいくつかの部品の組み合わせ、又は異なる部品の配置を含んでもよく、ここでこれ以上説明しない。

ここで、プロセッサ２０１０は、第一画像を取得し、第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定し、楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するために用いられる。

選択的に、第一画像の画像内容は、顕示的なターゲットを含み、顕示的な特徴は、顕示的なターゲットのキーポイントと、顕示的なターゲットのエッジ特徴ポイントとのうちの少なくとも一つを含む。

選択的に、プロセッサ２０１０は、さらに、畳み込みニューラルネットワークによって、第一画像にターゲット分割を行い、第一画像における顕示的なターゲットと顕示的なターゲットのエッジ特徴ポイントを得て、顕示的なターゲットにキーポイント抽出を行い、顕示的なターゲットのキーポイントを得るために用いられる。

選択的に、プロセッサ２０１０は、さらに、顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成し、顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定するために用いられる。

選択的に、プロセッサ２０１０は、さらに、エッジ特徴ポイントとキャニーエッジ検出アルゴリズムに基づいて、第一画像にエッジ検出を行い、顕示的なターゲットのエッジ画像を得て、キーポイントとエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図を生成し、エッジ画像と顕示的なターゲット図に画像重畳を行い、第一画像に対応する顕示的なターゲットテクスチャ図を得るために用いられる。

選択的に、プロセッサ２０１０は、さらに、ターゲットテクスチャ図をＸ行、Ｙ列となるＸ×Ｙ個のグラフィックスユニットに分け、ＸとＹは、いずれも１よりも大きい整数であり、グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、明るい画素は、輝度値が１の画素であり、暗い画素は、輝度値が０の画素であり、Ｘ×Ｙ個のグラフィックスユニットにおいて、明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、Ｎ個のターゲットグラフィックスユニットを得ることであって、第一画像の顕示的な特徴の数は、Ｎであり、Ｎ個のターゲットグラフィックスユニットは、Ｎ個の顕示的な特徴に１対１で対応し、Ｎは、正整数であり、Ｎ個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがＸ×Ｙ個のグラフィックスユニットにある行番号に基づいて、顕示的な特徴の第一画像における第一縦座標を決定することと、Ｎ個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがＸ×Ｙ個のグラフィックスユニットにある列番号に基づいて、顕示的な特徴の第一画像における第一横座標を決定することと、顕示的な特徴の横座標と顕示的な特徴の横座標と縦座標に基づいて、顕示的な特徴の第一画像における位置を決定するために用いられる。

選択的に、プロセッサ２０１０は、さらに、第一縦座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二縦座標を得て、第一横座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二横座標を得て、第二縦座標と第二横座標に基づいて、Ｎ個の顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、Ｎ個の顕示的な特徴に１対１で対応するＮ個のオーディオトラックブロックを得るために用いられる。

選択的に、オーディオトラックブロックは、楽器デジタルインターフェース情報を含み、プロセッサ２０１０は、さらに、オーディオトラックブロックに対応する第二縦座標に基づいて楽器デジタルインターフェース情報を決定するために用いられ、ここで、楽器デジタルインターフェース情報は、音の高さと、音色と、音量とのうちの少なくとも一つを含む。

選択的に、ユーザ入力ユニット２００７は、第一入力を受け取るために用いられ、ここで、第一入力は、プリセット音楽特徴を選択する入力であり、
プロセッサ２０１０は、さらに、第一入力に応答して、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含むターゲット音楽特徴を決定し、音楽特徴に基づいて音楽を調整するために用いられ、
オーディオ出力ユニット２００３は、音楽ファイルを再生するために用いられる。

選択的に、プロセッサ２０１０は、さらに、音楽ファイルに対応する第二画像を生成するために用いられ、
表示ユニット２００６は、さらに、第二画像を表示するために用いられ、オーディオ出力ユニット２００３は、さらに、音楽ファイルを再生するために用いられる。

選択的に、ユーザ入力ユニット２００７は、さらに、プリセットビデオテンプレートを選択する入力である第二入力を受け取るために用いられ、
プロセッサ２０１０は、さらに、第二入力に応答して、ターゲットビデオテンプレートを決定し、ターゲットビデオテンプレートと顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。

選択的に、プロセッサ２０１０は、さらに、ピアノロールカーテングラフィックスインタフェースによって、音楽の再生進捗を提示するためのターゲット動画を生成し、ターゲット動画と顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。

理解すべきこととして、本出願の実施例では、入力ユニット２００４は、グラフィックスプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）２００４１とマイクロホン２００４２を含んでもよく、グラフィックスプロセッサ２００４１は、ビデオキャプチャモード又は画像キャプチャモードにおいて画像キャプチャ装置（例えば、カメラ）によって得られた静止画像又はビデオの画像データを処理する。

表示ユニット２００６は、表示パネル２００６１を含んでもよく、液晶ディスプレイ、有機発光ダイオードなどの形式で表示パネル２００６１が構成されてもよい。ユーザ入力ユニット２００７は、タッチパネル２００７１及び他の入力機器２００７２を含む。タッチパネル２００７１は、タッチスクリーンとも呼ばれる。タッチパネル２００７１は、タッチ検出装置とタッチコントローラという二つの部分を含んでもよい。他の入力機器２００７２は、物理的キーボード、機能キー（例えば、音量制御ボタン、スイッチボタンなど）、トラックボール、マウス、操作レバーを含んでもよいが、それらに限らず、ここでこれ以上説明しない。メモリ２００９は、ソフトウェアプログラム及び様々なデータを記憶するために用いられてもよく、アプリケーションプログラムとオペレーティングシステムとを含むが、それらに限らない。プロセッサ２０１０は、アプリケーションプロセッサとモデムプロセッサを統合してもよい。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムなどを処理するためのものであり、モデムプロセッサは、主に無線通信を処理するためのものである。理解できるように、上記モデムプロセッサは、プロセッサ２０１０に統合されなくてもよい。

本出願の実施例は、可読記憶媒体をさらに提供し、可読記憶媒体上にはプログラム又は命令が記憶されており、このプログラム又は命令がプロセッサにより実行されると、上記方法の実施例の各プロセスを実現し、同じ技術的効果を達成することができる。説明の繰り返しを回避するために、ここでこれ以上説明しない。

ここで、プロセッサは、上記実施例における電子機器におけるプロセッサである。可読記憶媒体は、コンピュータ可読記憶媒体、例えばコンピュータリードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク又は光ディスクなどを含む。

本出願の実施例は、チップをさらに提供し、チップは、プロセッサと通信インターフェースとを含み、通信インターフェースとプロセッサを合わせて、プロセッサは、プログラム又は命令を運行し、上記方法の実施例の各プロセスを実現するために用いられ、同じ技術的効果を達成することができる。説明の繰り返しを回避するために、ここでこれ以上説明しない。

理解すべきこととして、本出願の実施例に言及されたチップは、システムレベルチップ、システムチップ、チップシステム又はシステムオンチップなどと呼ばれてもよい。

説明すべきこととして、本明細書では、用語の「含む」、「包含する」又はその他の任意の変形は、非排他的な「含む」を意図的にカバーするものであり、それによって一連の要素を含むプロセス、方法、物品又は装置は、それらの要素を含むだけではなく、明確にリストアップされていない他の要素も含み、又はこのようなプロセス、方法、物品又は装置に固有の要素も含む。それ以上の制限がない場合に、「……を１つ含む」という文章で限定された要素について、この要素を含むプロセス、方法、物品又は装置には他の同じ要素も存在することが排除されるものではない。なお、指摘すべきこととして、本出願の実施の形態における方法と装置の範囲は、図示又は討論された順序で機能を実行することに限らず、関わる機能に基づいて基本的に同時である方式又は逆の順序で機能を実行することを含んでもよく、例えば記述されるものとは異なる手順で記述される方法を実行することができるとともに、様々なステップを追加、省略又は組み合わせることができる。また、いくつかの例を参照して記述される特徴は、他の例で組み合わせられることができる。

以上の実施の形態の記述によって、当業者であればはっきりと分かるように上記実施例の方法は、ソフトウェアと必要な汎用ハードウェアプラットフォームの形態によって実現されることができる。無論、ハードウェアによって実現されてもよいが、多くの場合、前者は、より好適な実施の形態である。このような理解を踏まえて、本出願の技術案が実質には又は従来の技術に寄与した部分は、コンピュータソフトウェア製品の形式で具現化されてもよく、このコンピュータソフトウェア製品は、一つの記憶媒体（例えばＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶され、一台の端末（携帯電話、コンピュータ、サーバ、又はネットワーク機器などであってもよい）に本出願の各実施例に記載の方法を実行させるための若干の命令を含む。

以上は、図面を結び付けながら、本出願の実施例を記述したが、本出願は、上記の具体的な実施の形態に限らない。上記の具体的な実施の形態は、例示的なものに過ぎず、制限性のあるものではない。当業者は、本出願の示唆で、本出願の趣旨と特許請求の範囲から逸脱しない限り、多くの形式を行うこともでき、いずれも本出願の保護範囲に属する。

Claims

第一画像を取得することと、
前記第一画像に特徴抽出を行い、前記第一画像の顕示的な特徴を得ることと、
前記顕示的な特徴の前記第一画像における位置に基づいて、前記顕示的な特徴を、楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、前記顕示的な特徴に対応する前記楽器デジタルインターフェース情報を決定することと、
前記楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成することとを含む、ことを特徴とする音楽ファイルの生成方法。
前記第一画像の画像内容は、顕示的なターゲットを含み、前記顕示的な特徴は、
前記顕示的なターゲットのキーポイントと、前記顕示的なターゲットのエッジ特徴ポイントとのうちの少なくとも一つを含む、ことを特徴とする請求項１に記載の音楽ファイルの生成方法。
前記第一画像に特徴抽出を行い、前記第一画像の顕示的な特徴を得ることは、
畳み込みニューラルネットワークによって、前記第一画像にターゲット分割を行い、前記第一画像における前記顕示的なターゲット、及び前記顕示的なターゲットの前記エッジ特徴ポイントを得ることと、
前記顕示的なターゲットにキーポイント抽出を行い、前記顕示的なターゲットのキーポイントを得ることとを含む、ことを特徴とする請求項２に記載の音楽ファイルの生成方法。
前記顕示的な特徴の前記第一画像における位置に基づいて、前記顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングする前、前記音楽ファイルの生成方法は、
前記顕示的な特徴に基づいて、前記第一画像に対応する顕示的なターゲットテクスチャ図を生成することと、
前記顕示的なターゲットテクスチャ図に基づいて、前記顕示的な特徴の前記第一画像における位置を決定することとをさらに含む、ことを特徴とする請求項２に記載の音楽ファイルの生成方法。
前記顕示的な特徴に基づいて、前記第一画像に対応する顕示的なターゲットテクスチャ図を生成することは、
前記エッジ特徴ポイントとキャニーエッジ検出アルゴリズムに基づいて、前記第一画像にエッジ検出を行い、前記顕示的なターゲットのエッジ画像を得ることと、
前記キーポイントと前記エッジ特徴ポイントに基づいて、前記顕示的なターゲットに対応する顕示的なターゲット図を生成することと、
前記エッジ画像と前記顕示的なターゲット図に画像重畳を行い、前記第一画像に対応する顕示的なターゲットテクスチャ図を得ることとを含む、ことを特徴とする請求項４に記載の音楽ファイルの生成方法。
前記ターゲットテクスチャ図に基づいて、前記顕示的な特徴の前記第一画像における位置を決定することは、
前記ターゲットテクスチャ図をＸ行、Ｙ列となるＸ×Ｙ個のグラフィックスユニットに分けることであって、ＸとＹは、いずれも１よりも大きい整数であり、前記グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、前記明るい画素は、輝度値が１の画素であり、前記暗い画素は、輝度値が０の画素であることと、
前記Ｘ×Ｙ個のグラフィックスユニットにおいて、前記明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、Ｎ個の前記ターゲットグラフィックスユニットを得ることであって、前記第一画像の顕示的な特徴の数は、Ｎであり、前記Ｎ個のターゲットグラフィックスユニットは、前記Ｎ個の顕示的な特徴に１対１で対応し、Ｎは、正整数であることと、
前記Ｎ個のターゲットグラフィックスユニットにおいて、各前記ターゲットグラフィックスユニットが前記Ｘ×Ｙ個のグラフィックスユニットにある行番号に基づいて、前記顕示的な特徴の前記第一画像における第一縦座標を決定することと、
前記Ｎ個のターゲットグラフィックスユニットにおいて、各前記ターゲットグラフィックスユニットが前記Ｘ×Ｙ個のグラフィックスユニットにある列番号に基づいて、前記顕示的な特徴の前記第一画像における第一横座標を決定することと、
前記顕示的な特徴の横座標と前記顕示的な特徴の横座標縦座標に基づいて、前記顕示的な特徴の前記第一画像における位置を決定することとを含む、ことを特徴とする請求項４に記載の音楽ファイルの生成方法。
前記顕示的な特徴の前記第一画像における位置に基づいて、前記顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングすることは、
前記第一縦座標を前記楽器デジタルインターフェース情報座標系に変換し、前記顕示的な特徴の前記楽器デジタルインターフェース情報座標系における第二縦座標を得ることと、
前記第一横座標を前記楽器デジタルインターフェース情報座標系に変換し、前記顕示的な特徴の前記楽器デジタルインターフェース情報座標系における第二横座標を得ることと、
前記第二縦座標と前記第二横座標に基づいて、前記Ｎ個の顕示的な特徴を、前記楽器デジタルインターフェース情報座標系にマッピングし、前記Ｎ個の顕示的な特徴に１対１で対応するＮ個のオーディオトラックブロックを得ることとを含む、ことを特徴とする請求項６に記載の音楽ファイルの生成方法。
前記オーディオトラックブロックは、前記楽器デジタルインターフェース情報を含み、前記オーディオトラックブロックに対応する第二縦座標に基づいて前記楽器デジタルインターフェース情報を決定し、
前記楽器デジタルインターフェース情報は、音の高さと、音色と、音量とのうちの少なくとも一つを含む、ことを特徴とする請求項７に記載の音楽ファイルの生成方法。
プリセット音楽特徴を選択する入力である第一入力を受け取ることと、
前記第一入力に応答して、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含むターゲット音楽特徴を決定することと、
前記音楽特徴に基づいて前記音楽を調整することと、
前記音楽ファイルを再生することとをさらに含む、ことを特徴とする請求項４から８のいずれか１項に記載の音楽ファイルの生成方法。
前記音楽ファイルに対応する第二画像を生成することをさらに含み、
前記音楽を再生することは、
前記第二画像を表示し、前記音楽を再生することを含む、ことを特徴とする請求項９に記載の音楽ファイルの生成方法。
前記音楽に対応する第二画像を生成することは、
プリセットビデオテンプレートを選択する入力である第二入力を受け取ることと、
前記第二入力に応答して、ターゲットビデオテンプレートを決定することと、
前記ターゲットビデオテンプレートと前記顕示的なターゲットテクスチャ図に基づいて、前記第二画像を生成することとを含む、ことを特徴とする請求項１０に記載の音楽ファイルの生成方法。
前記音楽に対応する第二画像を生成することは、
ピアノロールカーテングラフィックスインタフェースによって、前記音楽の再生進捗を提示するためのターゲット動画を生成することと、
前記ターゲット動画と前記顕示的なターゲットテクスチャ図に基づいて、前記第二画像を生成することとを含む、ことを特徴とする請求項１０に記載の音楽ファイルの生成方法。
音楽ファイルの生成装置であって、
第一画像を取得するための取得モジュールと、
前記第一画像に特徴抽出を行い、前記第一画像の顕示的な特徴を得るための抽出モジュールと、
前記顕示的な特徴の前記第一画像における位置に基づいて、前記顕示的な特徴を、楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、前記顕示的な特徴に対応する前記楽器デジタルインターフェース情報を決定するための処理モジュールと、
前記楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するための生成モジュールとを含む、ことを特徴とする音楽ファイルの生成装置。
プロセッサと、メモリと、前記メモリに記憶され、前記プロセッサ上で運行できるプログラム又は命令とを含み、前記プログラム又は命令が前記プロセッサにより実行されると、請求項１から１２のいずれか１項に記載の音楽ファイルの生成方法のステップを実現する、ことを特徴とする電子機器。
プログラム又は命令が記憶されており、前記プログラム又は命令がプロセッサにより実行されると、請求項１から１２のいずれか１項に記載の音楽ファイルの生成方法のステップを実現する、ことを特徴とする可読記憶媒体。