JP2024523396A - 音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体 - Google Patents
音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2024523396A JP2024523396A JP2023577867A JP2023577867A JP2024523396A JP 2024523396 A JP2024523396 A JP 2024523396A JP 2023577867 A JP2023577867 A JP 2023577867A JP 2023577867 A JP2023577867 A JP 2023577867A JP 2024523396 A JP2024523396 A JP 2024523396A
- Authority
- JP
- Japan
- Prior art keywords
- image
- target
- music
- overt
- musical instrument
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 238000003708 edge detection Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000036651 mood Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 4
- 239000000796 flavoring agent Substances 0.000 claims description 2
- 235000019634 flavors Nutrition 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 18
- 230000009977 dual effect Effects 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 15
- 241001465754 Metazoa Species 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000004888 barrier function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000763 evoking effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000001020 rhythmical effect Effects 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
- G10G1/02—Chord or note indicators, fixed or adjustable, for keyboard of fingerboards
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
- G10H1/0041—Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
- G10H1/0058—Transmission between separate instruments or between individual components of a musical system
- G10H1/0066—Transmission between separate instruments or between individual components of a musical system using a MIDI interface
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/368—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
- Studio Devices (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
- Image Analysis (AREA)
Abstract
本出願は、音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体を開示し、コンピュータ技術分野に属する。音楽ファイルの生成方法は、第一画像を取得することと、第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得ることと、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定することと、楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成することとを含む。本出願は、一方では音楽創作の敷居を下げ、楽理知識を持たない「初心者」ユーザでも、ピクチャーに基づいて対応する音楽を構築することができ、他方ではMIDI情報座標系によってオーディオトラックブロックを提示することによって、最終的に構築された音楽を可視化し、ユーザにユニークな聴覚と視覚の二重体験を与える。
Description
本出願は、2021年07月23日に提出され、出願番号が202110839656.2、発明名称が「音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体」と称される中国特許出願の優先権を主張し、この出願のすべての内容は、引用により本出願に取り込まれる。
本出願は、コンピュータ技術分野に属し、具体的に音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体に関する。
関連技術において、音楽創作には高い敷居があり、一般的なユーザは音楽創作に参加しにくい。同時に、創作された「音楽」は一般的に聴覚上の芸術と思われ、音楽自体は聴衆の聴覚感覚とつながり、人の最も重要な感覚「視覚」とつながりがなく、音楽を創作するプロセスのユーザ体験が単一になる。
本出願の実施例の目的は、可視化な画像に基づいて音楽を生成し、ユーザにユニークな聴覚と視覚の二重体験を与えることができる音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体を提供することができるようにすることにある。
第一態様によれば、本出願の実施例は、音楽ファイルの生成方法を提供し、この音楽ファイルの生成方法は、
第一画像を取得することと、
第一画像に特徴抽出を行い、第一画像の顕示的な(顕著な)特徴を得ることと、
顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定することと、
楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成することとを含む。
第一画像を取得することと、
第一画像に特徴抽出を行い、第一画像の顕示的な(顕著な)特徴を得ることと、
顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定することと、
楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成することとを含む。
第二態様によれば、本出願の実施例は、音楽ファイルの生成装置を提供し、この音楽ファイルの生成装置は、
第一画像を取得するための取得モジュールと、
第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得るための抽出モジュールと、
顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定するための処理モジュールと、
楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するための生成モジュールとを含む。
第一画像を取得するための取得モジュールと、
第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得るための抽出モジュールと、
顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定するための処理モジュールと、
楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するための生成モジュールとを含む。
第三態様によれば、本出願の実施例は、電子機器を提供し、この電子機器は、プロセッサと、メモリと、メモリ上に記憶されており、プロセッサ上で運行できるプログラム又は命令とを含み、プログラム又は命令がプロセッサにより実行されると、第一態様の方法のステップを実現する。
第四態様によれば、本出願の実施例は、可読記憶媒体を提供し、この可読記憶媒体上にプログラム又は命令が記憶されており、このプログラム又は命令がプロセッサにより実行されると、第一態様の方法のステップを実現する。
第五態様によれば、本出願の実施例は、チップを提供し、このチップは、プロセッサと通信インターフェースとを含み、この通信インターフェースは、このプロセッサとを合わせてされ、このプロセッサは、プログラム又は命令を運行し、第一態様の方法のステップを実現するために用いられる。
本出願の実施例では、画像即ち上記第一画像を処理することによって、画像情報、例えば写真又はビデオを可視的な電子楽譜ファイルに転化し、具体的に楽器デジタルインターフェース(Musical Instrument Digital Interface、MIDI)座標系において、オーディオトラックブロックを表示する方式であり、ここで、これらのオーディオトラックブロックは、第一画像の顕示的な特徴を構成し、即ちオーディオトラックブロックからなるグラフィックスは、第一画像の顕示的な特徴の画像と合致する。同時に、これらのオーディオトラックブロックは、いずれも楽器デジタルインターフェース情報、即ちMIDI情報を含み、MIDI情報がコンピュータにより識別された後、MIDI情報と時間との対応関係に基づいて、時間順序に従ってこれらのオーディオトラックブロックを再生し、それによって音楽を形成する。
本出願の実施例は、画像によって音楽を構築することによって、形成された音楽がユーザの思い出を含む画像に合致するようにし、一方では音楽創作の敷居を下げ、楽理知識を持たない「初心者」ユーザでも、ピクチャーに基づいて対応する音楽を構築することができ、他方ではMIDI情報座標系によってオーディオトラックブロックを提示(display、present)することによって、最終的に構築された音楽を可視化し、ユーザにユニークな聴覚と視覚の二重体験を与える。
以下は、本出願の実施例における図面を結び付けながら、本出願の実施例における技術案を明瞭に記述し、明らかに、記述される実施例は、本出願の一部の実施例であり、すべての実施例ではない。本出願における実施例に基づき、当業者が得るすべての他の実施例は、いずれも本出願の保護範囲に属する。
本出願の明細書と特許請求の範囲における用語の「第一」、「第二」などは、類似している対象を区別するものであり、特定の順序又は前後手順を記述するためのものではない。理解すべきこととして、このように使用される用語は、適切な場合に交換可能であり、それにより本出願の実施例は、ここで図示又は記述されるもの以外の順序で実施されることが可能であり、「第一」、「第二」などによって区別される対象は、一般的には同一の種類であり、対象の個数を限定せず、例えば第一対象は、一つであってもよく、複数であってもよい。なお、明細書及び請求項における「及び/又は」は、接続される対象とのうちの少なくとも一つを表し、文字である「/」は、一般的には前後関連対象が「又は」の関係であることを表す。
以下では、図面を結び付けながら、具体的な実施例及びその応用シナリオにより本出願の実施例による音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体を詳細に説明する。
本出願のいくつかの実施例では、音楽ファイルの生成方法を提供し、図1は、本出願の実施例による音楽ファイルの生成方法のフローチャートのその一を示し、図1に示すように、この方法は、以下のステップを含む。
ステップ102において、第一画像を取得する。
ステップ104において、第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得る。
ステップ106において、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定する。
ステップ106において、楽器デジタルインターフェース情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するためのものである。
ステップ106において、楽器デジタルインターフェース情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するためのものである。
ステップ108において、楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成する。
本出願の実施例では、第一画像は、具体的にユーザが選択した「思い出画像」である。具体的には、ローカルに保存された写真又はビデオをクライアントにアップロードすることによって、第一画像を得ることができ、ユーザは、さらに、携帯電話などの電子機器のカメラによって写真を撮影し又はビデオを録画し、それによって第一画像を得ることができる。
ここで、ユーザがビデオを選択してアップロードし、又は携帯電話によってビデオを録画する場合、ビデオからフレームを抽出することによって、第一画像を得ることができる。ここで、ビデオから一のフレームをランダムに抽出してもよく、ニューラルネットワークモデルによってビデオ内容を識別してもよく、それによってビデオテーマを体現できる画像フレームを決定して抽出する。
具体的には、いくつかの実施の形態では、第一画像を取得することは、具体的に、第一画像を選択する入力である第三入力を受け取ることと、第三入力に応答して、第一画像を決定することとを含む。
別のいくつかの実施の形態では、第一画像を取得することは、具体的に、撮影ビデオの入力である第四入力を受け取ることと、第四入力に応答して、処理すべきビデオを撮影することと、処理すべきビデオにフレーム抽出処理を行い、第一画像を得ることとを含む。
第一画像を得た後、さらに第一画像に特徴抽出を行うことによって、第一画像において、第一画像の顕示的な特徴を抽出する。例を挙げると、第一画像が「人顔」ピクチャーである場合に、第一画像の顕示的な特徴は、そのうちの人顔輪廓、五官位置などである。第一画像が全身又は半身の「人像」ピクチャーである場合に、第一画像の顕示的な特徴は、そのうちの人物の身形輪廓や姿勢などである。
引き続き例を挙げると、第一画像が動物写真又は子供写真などの「動」物(動く生物)である場合に、第一画像の顕示的な特徴は、動物又は子供の身形輪廓や五官位置であってもよい。第一画像が建物、車両、風景などの「静」物(静止した物体)である場合に、第一画像の顕示的な特徴は、これらの静物の全体外形と顕示的な装置であってもよい。
理解できるように、第一画像の具体的な内容に基づいて、異なる特徴抽出粒度をプリセットしてもよい。
さらに、第一画像の顕示的な特徴を得た後、この顕示的な特徴の第一画像における位置に基づいて、楽器デジタルインターフェース情報座標系、即ちMIDI情報座標系にこの顕示的な特徴をマッピングすることによって、この顕示的な特徴の画像ユニットをMIDI情報座標系におけるオーディオトラックブロックとして形成する。ここで、MIDI情報座標系は、楽器デジタルインターフェース情報と時間との対応関係、即ち一つのオーディオトラックブロックに対応するMIDI情報と時間との間の関係を指示するために用いられる。
具体的には、図2は、本出願の実施例による音楽ファイルの生成方法のMIDI情報座標系のインタフェース概略図を示し、図2に示すように、第一画像は、具体的に人顔画像であり、この人顔画像の顕示的な特徴をMIDI情報座標系200において複数のオーディオトラックブロック202としてマッピングし、複数のオーディオトラックブロック202は、MIDI情報座標系において人顔に近似する形状を構成し、この人顔の形状は、第一画像の顕示的な特徴に対応する。
さらに、顕示的な特徴に対応するこれらのオーディオトラックブロックは、楽器デジタルインターフェース情報、即ちMIDI情報を有し、これらのMIDI情報は、具体的にコンピュータ機器により識別されて「音声」として再生されることができる情報であり、コンピュータ機器は、MIDI情報を識別した後、MIDI情報に基づいて、例えば音の高さ、音色、音量などの情報に対応するデジタルシグナルを得て、それによって一つの音楽動機、即ち一つの重音を形成し、これらの顕示的な特徴と時間との対応関係、即ちこれらの音楽動機と時間との対応関係に基づいて、これらの音楽動機に対応する「音声」を順次再生し、それによって一つの音楽を形成し、この音楽は、ユーザの選択した「思い出画像」、即ち第一画像に基づいて生成されたユニークな音楽である。
本出願の実施例は、画像によって音楽を構築することによって、形成された音楽がユーザの思い出を含む画像に合致するようにし、一方では音楽創作の敷居を下げ、楽理知識を持たない「初心者」のユーザでも、ピクチャーに基づいて対応する音楽を構築することができ、他方ではMIDI情報座標系によってオーディオトラックブロックを提示することによって、最終的に構築された音楽を可視化し、ユーザにユニークな聴覚と視覚の二重体験を与える。
本出願のいくつかの実施例では、第一画像の画像内容は、顕示的なターゲットを含み、顕示的な特徴は、顕示的なターゲットのキーポイントと、顕示的なターゲットのエッジ特徴ポイントとのうちの少なくとも一つを含む。
本出願の実施例では、顕示的なターゲットは、第一画像の画像内容における本体ターゲットである。例えば、第一画像の画像内容が人顔とバックグラウンドの花々とであると、顕示的なターゲットは、この「人顔」である。また例えば、第一画像の画像内容が建物とバックグラウンドの青天とであると、顕示的なターゲットは、この「建物」である。
この基礎の上で、顕示的な特徴は、具体的に、顕示的なターゲットのキーポイントを含み、例えば人顔のキーポイントは、「五官」であり、建物のキーポイントは、建物のユニークな設計、例えば「窓」、「庭」などである。顕示的な特徴はさらに、顕示的なターゲットのエッジ特徴ポイントを含んでもよく、これらのエッジ特徴ポイントは、顕示的なターゲットの輪廓、例えば人顔輪廓又は建物輪廓を形成する。
そのため、画像内容における顕示的なターゲットのキーポイントと顕示的なターゲットのエッジ特徴ポイントを抽出することによって、顕示的なターゲットの「略図」を形成することができ、この略図によって、視聴衆に元の画像における被写体、例えば「ある人」又は「ある建物」を連想させ、それによって視聴衆の思い出を喚起することができる。
本出願の実施例において、検出キーポイントとエッジ特徴ポイントで顕示的なターゲットの顕示的な特徴を構成し、顕示的な特徴に基づいて音楽を生成することによって、音楽の可視化を実現し、ユーザに聴覚上と視覚上の二重体験を与える。
本出願のいくつかの実施例では、第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得ることは、
畳み込みニューラルネットワークによって、第一画像にターゲット分割を行い、第一画像における顕示的なターゲットと顕示的なターゲットのエッジ特徴ポイントを得ることと、
顕示的なターゲットにキーポイント抽出を行い、顕示的なターゲットのキーポイントを得ることとを含む。
畳み込みニューラルネットワークによって、第一画像にターゲット分割を行い、第一画像における顕示的なターゲットと顕示的なターゲットのエッジ特徴ポイントを得ることと、
顕示的なターゲットにキーポイント抽出を行い、顕示的なターゲットのキーポイントを得ることとを含む。
本出願の実施例では、第一グラフィックスに特徴抽出を行う時、まず、予め訓練された畳み込みニューラルネットワークによって、第一画像にターゲット分割を行うことができる。ここで、ターゲット分割の目的は、第一画像における顕示的なターゲットを分割することである。
具体的には、予めマーキングされた大量の訓練セットによって、プリセットされた畳み込みニューラルネットワークを訓練することができ、訓練された畳み込みニューラルネットワークは、ピクチャーにおいて顕示的なターゲットを識別することができる。例えば、人像ピクチャーに対して、セットされた大量の元の人顔ピクチャー、及び「人顔」を部分的にマッティングして分割した、「人顔」のみを含む顕示的なターゲットピクチャーによって、訓練セットを生成し、この訓練セットによって畳み込みニューラルネットワークを訓練し、畳み込みニューラルネットワークを持続的にイテレートさせ、畳み込みニューラルネットワークがピクチャーにおいて顕示的なターゲットと顕示的なターゲットのエッジを正確に識別した後、畳み込みニューラルネットワークが使用可能であると判断される。
上記方法によって訓練された畳み込みニューラルネットワークは、第一画像に人工知能識別を行うことによって、そのうちの顕示的なターゲットと顕示的なターゲットのエッジを判断し、顕示的なターゲットのエッジ特徴ポイントを得る。
さらに、顕示的なターゲットの画像を識別することによって、顕示的なターゲットの具体的なタイプ、例えば「人顔」、「動物」、「建物」などを判断し、それによって顕示的なターゲットの具体的なタイプに基づいて、対応するキーポイント抽出粒度を決定し、対応する抽出粒度に基づいて、顕示的なターゲットにキーポイント抽出を行い、それによって顕示的なターゲットのキーポイント、例えば人顔の五官などを得る。
本出願では、訓練された畳み込みニューラルネットワークによって、第一画像から顕示的なターゲットの顕示的な特徴を抽出し、具体的に顕示的なターゲットのキーポイントとエッジ特徴ポイントを抽出することによって、顕示的な特徴を迅速で正確に得ることによって、画像によって音楽を生成する処理速度を向上させることができ、ユーザ体験の向上に寄与する。
本出願のいくつかの実施例では、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングする前、音楽ファイルの生成方法は、
顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成することと、
顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定することとをさらに含む。
顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成することと、
顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定することとをさらに含む。
本出願の実施例では、第一画像の顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成する。ここで、顕示的なターゲットテクスチャ図は、第一画像において、顕示的なターゲットだけを表示する顕示的な特徴の画像である。一つの典型の実施の形態では、顕示的なターゲットテクスチャ図に二つの画素だけ含まれ、そのうちの第一画素は、顕示的な特徴を表示するための画素であり、第二画素は、非顕示的な特徴位置の画素である。
図3は、本出願の実施例による音楽ファイルの生成方法の顕示的なターゲットテクスチャ図の概略図を示し、図3に示すように、第一画像は、人顔画像であり、そのうちの顕示的なターゲットは、人顔であり、この時、顕示的なターゲットテクスチャ図は、人顔の略図のように見える。
顕示的なターゲットテクスチャ図は、第一画像を顕示的な特徴だけを表示する画像に処理するため、顕示的な特徴の第一画像における位置を決定する時、顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の位置を決定し、それによって顕示的な特徴をMIDI情報座標系にマッピングし、画像からMIDI電子楽譜へ、最終的に音楽への変換プロセスを実現し、「画像から音楽へ」を実現し、ユーザにユニークな体験を与えることができる。
本出願のいくつかの実施例では、図4は、本出願の実施例による音楽ファイルの生成方法のフローチャートのその二を示し、図4に示すように、顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成するステップは、具体的に、以下のステップを含む。
ステップ402において、エッジ特徴ポイントとキャニーエッジ検出アルゴリズムに基づいて、第一画像にエッジ検出を行い、顕示的なターゲットのエッジ画像を得る。
ステップ404において、キーポイントとエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図を生成する。
ステップ406において、エッジ画像と顕示的なターゲット図に画像重畳を行い、第一画像に対応する顕示的なターゲットテクスチャ図を得る。
本出願の実施例では、顕示的な特徴に基づいて顕示的なターゲットテクスチャ図を生成する時、まず、エッジ特徴ポイントに基づいて、キャニーエッジ検出アルゴリズムによってエッジ検出を行う。ここで、キャニーエッジ検出アルゴリズムは、Cannyエッジ検出アルゴリズムであり、具体的にJohn F.Cannyが1986年に開発した多段エッジ検出アルゴリズムである。
具体的には、キャニーエッジ検出アルゴリズムによって第一画像にエッジ検出を行う時、まず第一画像にガウスフィルタリングを行い、即ち、一つのガウス行列を用い、各画素点及びその近傍に対してその重み付けべきの平均値を除去して、画素の階調値とする。さらに、勾配値と勾配方向を計算し、非最大値をフィルタリングし、最後に、セットした閾値範囲を用いてエッジ検出を行い、顕示的なターゲット物のエッジ画像を得る。
さらに、顕示的なターゲットのキーポイントと顕示的なターゲットのエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図、即ちキーポイントとエッジ特徴ポイントで形成された特徴図を生成する。
さらに、エッジ画像と顕示的なターゲット図に画像重畳を行うことによって、エッジ画像とエッジ特徴ポイントが繋がるようにして、各キーポイントを輪廓とともに描くことに相当し、最終的に、明確な輪廓を有する顕示的なターゲットテクスチャ図を得る。
本出願のいくつかの実施例では、ターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定することは、
ターゲットテクスチャ図をX行、Y列となるX×Y個のグラフィックスユニットに分けることであって、XとYは、いずれも1よりも大きい整数であり、グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、明るい画素は、輝度値が1の画素であり、暗い画素は、輝度値が0の画素であることと、
X×Y個のグラフィックスユニットにおいて、明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、N個のターゲットグラフィックスユニットを得ることであって、第一画像の顕示的な特徴の数は、Nであり、N個のターゲットグラフィックスユニットは、N個の顕示的な特徴に1対1で対応し、Nは、正整数であることと、
N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある行番号に基づいて、顕示的な特徴の第一画像における第一縦座標を決定することと、
N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある列番号に基づいて、顕示的な特徴の第一画像における第一横座標を決定することと、
顕示的な特徴の横座標と顕示的な特徴の横座標と縦座標に基づいて、顕示的な特徴の第一画像における位置を決定することとを含む。
ターゲットテクスチャ図をX行、Y列となるX×Y個のグラフィックスユニットに分けることであって、XとYは、いずれも1よりも大きい整数であり、グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、明るい画素は、輝度値が1の画素であり、暗い画素は、輝度値が0の画素であることと、
X×Y個のグラフィックスユニットにおいて、明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、N個のターゲットグラフィックスユニットを得ることであって、第一画像の顕示的な特徴の数は、Nであり、N個のターゲットグラフィックスユニットは、N個の顕示的な特徴に1対1で対応し、Nは、正整数であることと、
N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある行番号に基づいて、顕示的な特徴の第一画像における第一縦座標を決定することと、
N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある列番号に基づいて、顕示的な特徴の第一画像における第一横座標を決定することと、
顕示的な特徴の横座標と顕示的な特徴の横座標と縦座標に基づいて、顕示的な特徴の第一画像における位置を決定することとを含む。
本出願の実施例では、まず、ターゲットテクスチャ図を分け、具体的にX行、Y列に分け、一つのX×Yのグラフィックス行列を得て、このグラフィックス行列にX×Y個のグラフィックスユニットが含まれる。各グラフィックスユニットに、明るい画素と暗い画素を含む複数の画素が含まれ、明るい画素は、顕示的な特徴を表示するための画素であり、その輝度値が1であり、暗い画素は、顕示的な特徴以外の画素であり、その輝度値が0であり、即ち「純黒」を表す。
さらに、それぞれX×Y個のグラフィックスユニットにおいて、各画像ユニット内の明るい画素の占める割合を判断する。例を挙げると、一つのグラフィックスユニット内の画素の数が10であり、それに6つの明るい画素と4つの暗い画素が含まれると仮定すると、このグラフィックスユニットにおいて、明るい画素の数の占める割合は、0.6である。
各グラフィックスユニット内の明るい画素の数の占める割合を決定した後、それぞれ、各画像ユニットにおいて、明るい画素の占める割合がプリセット比値よりも大きいかどうかを判断し、ここで、プリセット比値の範囲は、0.2以上であり、好ましくは0.4である。プリセット比値0.4を例として、一つのグラフィックスユニット内の10個の画素のうち、4つ以上の明るい画素があると、このグラフィックスユニットをターゲットグラフィックスユニットとしてマークし、このターゲットグラフィックスユニットに顕示的な特徴があるのを表すために用いられる。
すべてのX×Y個のグラフィックスユニットのうち、すべてのターゲットグラフィックスユニットを決定した後、これらのターゲットグラフィックスユニットは、最終的にMIDI情報座標系においてマッピングする顕示的な特徴となる。図5は、本出願の実施例による音楽ファイルの生成方法のターゲットテクスチャ図の分けの概略図を示し、図5に示すように、ターゲットテクスチャ図500を5×5、合計25個のグラフィックスユニット502に分ける。ここで、陰線で塗りつぶされたのは、一つのターゲットグラフィックスユニット504、即ち一つの顕示的な特徴の単位である。
さらに、図5において、黒で塗りつぶされたグラフィックスユニット506を例として、グラフィックスユニット506は、4列目、2行目に位置し、このグラフィックスユニット506に対応する顕示的な特徴が、第一画像における第一横座標4x、第一縦座標2yにあることを決定することができる。
同様に、同じ方法に基づいて、各ターゲットグラフィックスユニットの第一横座標と第一縦座標を決定し、さらに各顕示的な特徴の第一画像における位置を得る。
本出願の実施例では、第一画像に対応するターゲットテクスチャ図を分け、それによって分けられた後のX×Y個のグラフィックスユニットのうち明るい画素の数の占める割合に基づいて、ターゲットグラフィックスユニットを決定し、ターゲットグラフィックスユニットを一つの顕示的な特徴としてMIDI情報座標系にマッピングし、画像からMIDI電子楽譜への変換を実現し、さらに画像から音楽への転化を実現するとともに、音楽を可視化し、ユーザに聴覚上と視覚上の二重体験を与えることができる。
本出願のいくつかの実施例では、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングすることは、
第一縦座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二縦座標を得ることと、
第一横座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二横座標を得ることと、
第二縦座標と第二横座標に基づいて、N個の顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、N個の顕示的な特徴に1対1で対応するN個のオーディオトラックブロックを得ることとを含む。
第一縦座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二縦座標を得ることと、
第一横座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二横座標を得ることと、
第二縦座標と第二横座標に基づいて、N個の顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、N個の顕示的な特徴に1対1で対応するN個のオーディオトラックブロックを得ることとを含む。
本出願の実施例では、顕示的な特徴をMIDI情報座標系にマッピングする時、以上に得られた顕示的な特徴の第一横座標と第一縦座標をMIDI情報座標系での第二横座標と第二縦座標に同期して転化し、それによって顕示的な特徴のMIDI情報座標系におけるマッピングを実現することができる。
ここで、すべてのN個の顕示的な特徴をいずれもMIDI情報座標系にマッピングし、N個の顕示的な特徴に1対1で対応するN個のオーディオトラックブロックを得て、楽器デジタルインターフェースプログラムによって、このN個のオーディオトラックブロックを表示及び再生し、可視的な音楽を得ることができ、一方では第一画像における顕示的なターゲットの画像特徴を残し、他方では第一画像における顕示的なターゲットに対応するユニークな音楽を生成することができる。
具体的には、MIDI情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するために用いられるため、一つの顕示的な特徴、即ち一つのオーディオトラックブロックのMIDI情報座標系における座標に基づいて、一つのオーディオトラックブロックのMIDI情報と時間情報を決定することができ、コンピュータプログラムは、オーディオトラックブロックのMIDI情報と時間情報を識別した後、一つの音楽動機に転化することができ、この音楽動機は、音色、音の高さ、音量などの音声属性を有し、リズムの時間属性をさらに有し、複数の顕示的な特徴に対応する複数のオーディオトラックブロックをそのMIDI情報と時間情報に従って再生し、最終的に第一画像を変換して得られた音楽、即ちユーザ「思い出画像」と合致した音楽を得ることができ、ユニークな音楽創作に対するユーザの需要を満たす。
本出願のいくつかの実施例では、オーディオトラックブロックは、楽器デジタルインターフェース情報を含み、オーディオトラックブロックに対応する第二縦座標に基づいて楽器デジタルインターフェース情報を決定し、ここで、楽器デジタルインターフェース情報は、音の高さと、音色と、音量とのうちの少なくとも一つを含む。
本出願の実施例では、オーディオトラックブロックのMIDI情報座標系での第二縦座標は、このオーディオトラックブロックに対応するMIDI情報である。具体的には、MIDI情報座標系で、第二縦座標は、MIDI音の高さ、MIDI音色とMIDI音量が含まれるオーディオトラックブロックのMIDI情報を代表する。具体的には、縦座標が1上昇するごとに音階が1上昇し、縦座標が8上昇するごとに音階が1オクターブ上昇する。
同時に、第二座標に基づいて、一つのオーディオトラックブロックの音色と音量を得ることができ、ここで、一つのオーディオトラックブロックの音の高さが高いほど、例えば高音音階の範囲にあると、それに対して例えばバイオリン、フルートなどの楽器の音色のような澄んだ音色をセットすることができ、オーディオトラックブロックの音の高さが中音音階範囲内にあると、それに対してピアノ、ギターなどの主旋律楽器の音色をセットすることができ、オーディオトラックブロックの音の高さが低音音階範囲内にあると、それに対してオルガン、ベースなどの重厚な楽器の音色をセットすることができる。
同様に、中音音階範囲内にあるオーディオトラックブロックに対して、より大きい音量をセットして主旋律を強調することができ、高音と低音の範囲に対して、適切に音量を下げ、ユーザの耳に圧迫を与えることを防止することができる。
本出願では、オーディオトラックブロックの第二縦座標に基づいて、そのMIDI情報をセットすることは、具体的に、生成された音楽がより楽理に合致し、ピクチャーから音楽を生成する効果を向上させるように、オーディオトラックブロックの音の高さ、音色と音量などの音楽属性をセットすることである。
本出願のいくつかの実施例では、図6は、本出願の実施例による音楽ファイルの生成方法のフローチャートのその三を示し、図6に示すように、方法は、以下のことをさらに含む。
ステップ602において、第一入力を受け取る。
ステップ602において、第一入力は、プリセット音楽特徴を選択する入力であり、このステップにおいて、第一入力は、マンマシンインタラクションコンポーネントを介して受け取られたユーザ入力であり、第一入力は、タッチ入力、生物識別入力、クリック入力、体感入力、ボイス入力、キーボード入力又はプレス入力のうちの一つ又は複数の組み合わせを含み、ここで、タッチ入力は、点接触、スライド又は特定のタッチジェスチャーなどを含むが、それらに限らず、生物識別入力は、指紋、虹彩、声紋又は顔識別などの生物情報入力などを含むが、それらに限らず、クリック入力は、マウスクリック、スイッチクリックなどを含むが、それらに限らず、体感入力は、電子機器の振れ、電子機器の反転などを含むが、それらに限らず、プレス入力は、タッチスクリーンに対するプレス入力、サイドフレームに対するプレス入力、リアカバーに対するプレス入力又は他の電子機器に対する部位のプレス入力を含むが、それらに限らない。本出願の実施例は、第一入力の具体的な形式に対して限定しない。
ステップ602において、第一入力は、プリセット音楽特徴を選択する入力であり、このステップにおいて、第一入力は、マンマシンインタラクションコンポーネントを介して受け取られたユーザ入力であり、第一入力は、タッチ入力、生物識別入力、クリック入力、体感入力、ボイス入力、キーボード入力又はプレス入力のうちの一つ又は複数の組み合わせを含み、ここで、タッチ入力は、点接触、スライド又は特定のタッチジェスチャーなどを含むが、それらに限らず、生物識別入力は、指紋、虹彩、声紋又は顔識別などの生物情報入力などを含むが、それらに限らず、クリック入力は、マウスクリック、スイッチクリックなどを含むが、それらに限らず、体感入力は、電子機器の振れ、電子機器の反転などを含むが、それらに限らず、プレス入力は、タッチスクリーンに対するプレス入力、サイドフレームに対するプレス入力、リアカバーに対するプレス入力又は他の電子機器に対する部位のプレス入力を含むが、それらに限らない。本出願の実施例は、第一入力の具体的な形式に対して限定しない。
ステップ604において、第一入力に応答して、ターゲット音楽特徴を決定し、
ステップ604において、ターゲット音楽特徴は、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含み、
ステップ606において、音楽特徴に基づいて音楽を調整し、
ステップ608において、音楽ファイルを再生する。
ステップ604において、ターゲット音楽特徴は、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含み、
ステップ606において、音楽特徴に基づいて音楽を調整し、
ステップ608において、音楽ファイルを再生する。
本出願の実施例では、ユーザは、複数のプリセット音楽特徴を選択し、ターゲット音楽特徴を選択することによって、第一画像に基づいて生成された音楽に対して楽理性の調整を行うことができる。ここで、ターゲット音楽特徴は、音楽スタイル、例えば、ポピュラー音楽、クラシック音楽、電子音楽などを含み、音楽ムード、例えば、激しい、消極的、緩やかなどをさらに含み、音楽曲風、例えば、ロック、ジャズ、ブルースなどをさらに含む。
ユーザの選択したターゲット音楽特徴に基づいて、第一画像に基づいて生成された音楽を調整することによって、調整後の音楽がユーザの選択した音楽特徴により合致するようにし、例えばユーザがクラシック音楽、緩やか、ブルースを選択すると、中間周波数と低周波数の音量を適切に増加させるとともに、第二横座標の時間間隔を調整することによって、音楽リズムをより遅く、より緩やかにすることができる。
同時に、プリセット楽理データと音響データに基づいて、MIDI座標系におけるオーディオトラックブロックの第二縦座標にさらなる後処理を行うことができる。例を挙げると、一つの調性をプリセットし、最高音階と最低音階の範囲を規定し、ある期間内のオーディオトラックブロックの最高音階と最低音階がこの範囲を超えると、一定の調整ルールに従って、範囲外のオーディオトラックブロックの音の高さを調整し、即ち調外音を調性内に調整し、例えば最高音階閾値を超えるオーディオトラックブロックの音の高さを1オクターブ下げ、又は最低音階閾値よりも低いオーディオトラックブロックの音の高さを1オクターブ上げるなど、調整後の音楽が楽理に合致するようにし、生成された音楽を調整した後、調整後の音楽を自動的に再生し、それによってユーザが彼の選択した「思い出写真」に基づいて生成された音楽を即座に楽しみ、音楽創作の楽しさを楽しむことができるようにする。
本出願のいくつかの実施例では、音楽ファイルの生成方法は、音楽に対応する第二画像を生成することをさらに含み、
音楽ファイルを再生することは、第二画像を表示し、音楽ファイルを再生することを含む。
音楽ファイルを再生することは、第二画像を表示し、音楽ファイルを再生することを含む。
本出願の実施例では、再生される音楽ファイルに対応する第二画像を生成し、音楽ファイルを再生すると同時、第二画像を表示することによって、ユーザが視覚上と聴覚上の楽しさを同時に体験することができる。ここで、第二画像は、ユーザの選択した第一画像、又は第一画像に対応する顕示的な特徴テクスチャ図に基づいて生成される静止画像であってもよく、音楽ファイルを再生する時にこの静止画像と音楽の再生進捗を表示する。
第二画像は、プリセットテンプレート、又はMIDI情報座標系の再生インタフェースに基づいて生成された動画ファイルであってもよく、この動画ファイルの動画時間長は、生成された音楽の音楽時間長と合致し、音楽ファイルを再生するのと同時に動画を再生し、ユーザの視覚体験をさらに向上させる。
本出願のいくつかの実施例では、音楽に対応する第二画像を生成することは、
プリセットビデオテンプレートを選択する入力である第二入力を受け取ることと、
第二入力に応答して、ターゲットビデオテンプレートを決定することと、
ターゲットビデオテンプレートと顕示的なターゲットテクスチャ図に基づいて、第二画像を生成することとを含む。
プリセットビデオテンプレートを選択する入力である第二入力を受け取ることと、
第二入力に応答して、ターゲットビデオテンプレートを決定することと、
ターゲットビデオテンプレートと顕示的なターゲットテクスチャ図に基づいて、第二画像を生成することとを含む。
本出願の実施例では、ユーザの第二入力を受け取り、ユーザの第二入力で選択されたターゲットビデオテンプレートと第一画像に対応する顕示的なターゲットテクスチャ図に基づいて、音楽を再生する時、音楽再生時のバックグラウンド画像を生成する。ここで、ビデオテンプレートは、連続的な動画テンプレートであってもよく、複数の静止画像が順番に提示される「スライド」であってもよい。
ここで、動画テンプレートにおいて、第一画像に対応する顕示的なターゲットテクスチャ図を重畳して表示することによって、ユーザが第二画像を見る時、第一画像を撮影する時の思い出を喚起し、ユーザの使用体験を向上させることができる。
この実施例では、第二入力は、マンマシンインタラクションコンポーネントを介して受け取られたユーザ入力であり、第二入力は、タッチ入力、生物識別入力、クリック入力、体感入力、ボイス入力、キーボード入力又はプレス入力のうちの一つ又は複数の組み合わせを含み、ここで、タッチ入力は、点接触、スライド又は特定のタッチジェスチャーなどを含むが、それらに限らず、生物識別入力は、指紋、虹彩、声紋又は顔識別などの生物情報入力などを含むが、それらに限らず、クリック入力は、マウスクリック、スイッチクリックなどを含むが、それらに限らず、体感入力は、電子機器の振れ、電子機器の反転などを含むが、それらに限らず、プレス入力は、タッチスクリーンに対するプレス入力、サイドフレームに対するプレス入力、リアカバーに対するプレス入力又は他の電子機器に対する部位のプレス入力を含むが、それらに限らない。本出願の実施例は、第二入力の具体的な形式に対して限定しない。
本出願のいくつかの実施例では、音楽ファイルに対応する第二画像を生成することは、
ピアノロールカーテングラフィックスインタフェースによって、音楽の再生進捗を提示するためのターゲット動画を生成することと、
ターゲット動画と顕示的なターゲットテクスチャ図に基づいて、第二画像を生成することとを含む。
ピアノロールカーテングラフィックスインタフェースによって、音楽の再生進捗を提示するためのターゲット動画を生成することと、
ターゲット動画と顕示的なターゲットテクスチャ図に基づいて、第二画像を生成することとを含む。
本出願の実施例では、ピアノロールカーテングラフィックスインタフェースによって、ターゲット動画を生成し、ここで、ターゲット動画は、ピアノロールカーテングラフィックスインタフェースにMIDIファイルにおけるオーディオトラックブロックを再生するプロセスである。具体的には、図7は、本出願の実施例による音楽ファイルの生成方法におけるピアノロールカーテングラフィックスインタフェースの概略図を示し、ここで、左側は、ピアノの動画画像のピアノキー702であり、オーディオトラックブロック704は、インタフェースにおいて、それに対応する時間情報に基づいて、ピアノキー702が左側に徐々に向かう。
同時に、インタフェースのバックグラウンドにおいて、第一画像に対応する顕示的なターゲットテクスチャ図を第二画像のバックグラウンド画像とすることにって、第二画像と第一画像との間に顕示的な視覚接続を確立し、ユーザが音楽を聞くと同時に、「思い出画像」に関連する第二画像を見ることによってユーザの思い出を喚起し、ユーザの視覚体験を豊かにする。
本出願のいくつかの実施例では、音楽ファイルの生成装置を提供し、図8は、本出願の実施例による音楽ファイルの生成装置の構造ブロック図を示し、図8に示すように、音楽ファイルの生成装置800は、
第一画像を取得するための取得モジュール802、
第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得るための抽出モジュール804と、
顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定するための処理モジュール806であって、楽器デジタルインターフェース情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するための処理モジュール806と、
楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するための生成モジュール808とを含む。
第一画像を取得するための取得モジュール802、
第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得るための抽出モジュール804と、
顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定するための処理モジュール806であって、楽器デジタルインターフェース情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するための処理モジュール806と、
楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するための生成モジュール808とを含む。
本出願の実施例では、第一画像は、具体的にユーザが選択した「思い出画像」である。具体的には、ローカルに保存された写真又はビデオをクライアントにアップロードすることによって、第一画像を得ることができ、ユーザは、さらに、携帯電話などの電子機器のカメラによって写真を撮影し又はビデオを録画し、それによって第一画像を得ることができる。
ここで、ユーザがビデオを選択してアップロードし、又は携帯電話によってビデオを録画する場合、ビデオからフレームを抽出することによって、第一画像を得ることができる。ここで、ビデオから一フレームをランダムに抽出してもよく、ニューラルネットワークモデルによってビデオ内容を識別してもよく、それによってビデオテーマを体現できる画像フレームを決定して抽出する。
具体的には、いくつかの実施の形態では、第一画像を取得することは、具体的に、第一画像を選択する入力である第三入力を受け取ることと、第三入力に応答して、第一画像を決定することとを含む。
別のいくつかの実施の形態では、第一画像を取得することは、具体的に、撮影ビデオの入力である第四入力を受け取ることと、第四入力に応答して、処理すべきビデオを撮影することと、処理すべきビデオにフレーム抽出処理を行い、第一画像を得ることとを含む。
第一画像を得た後、さらに第一画像に特徴抽出を行うことによって、第一画像において、第一画像の顕示的な特徴を抽出する。例を挙げると、第一画像が「人顔」ピクチャーである場合に、第一画像の顕示的な特徴は、そのうちの人顔輪廓や五官位置などである。第一画像が全身又は半身の「人像」ピクチャーである場合に、第一画像の顕示的な特徴は、そのうちの人物の身形輪廓や姿勢などである。
引き続き例を挙げると、第一画像が動物写真又は子供写真などの「動」物である場合に、第一画像の顕示的な特徴は、動物又は子供の身形輪廓や五官位置であってもよい。第一画像が建物、車両、風景などの「静」物である場合に、第一画像の顕示的な特徴は、これらの静物の全体外形と顕示的な装置であってもよい。
理解できるように、第一画像の具体的な内容に基づいて、異なる特徴抽出粒度をセットしてもよい。
さらに、第一画像の顕示的な特徴を得た後、この顕示的な特徴の第一画像における位置に基づいて、楽器デジタルインターフェース情報座標系、即ちMIDI情報座標系にこの顕示的な特徴をマッピングすることによって、この顕示的な特徴の画像ユニットをMIDI情報座標系におけるオーディオトラックブロックとして形成する。ここで、MIDI情報座標系は、楽器デジタルインターフェース情報と時間との対応関係、即ち一つのオーディオトラックブロックに対応するMIDI情報と時間との間の関係を指示するために用いられる。
さらに、顕示的な特徴に対応するこれらのオーディオトラックブロックは、楽器デジタルインターフェース情報、即ちMIDI情報を有し、これらのMIDI情報は、具体的にコンピュータ機器により識別されて「音声」として再生されることができる情報であり、コンピュータ機器は、MIDI情報を識別した後、MIDI情報に基づいて、例えば音の高さ、音色、音量などの情報に対応するデジタルシグナルを得て、それによって一つの音楽動機、即ち一つの重音を形成し、これらの顕示的な特徴と時間との対応関係、即ちこれらの音楽動機と時間との対応関係に基づいて、これらの音楽動機に対応する「音声」を順次再生し、それによって音楽を形成し、この音楽は、ユーザの選択した「思い出画像」、即ち第一画像に基づいて生成されたユニークな音楽である。
本出願の実施例は、画像によって音楽を構築することによって、形成された音楽がユーザの思い出を含む画像に合致するようにし、一方では音楽創作の敷居を下げ、楽理知識を持たない「初心者」ユーザでも、ピクチャーに基づいて対応する音楽を構築することができ、他方ではMIDI情報座標系によってオーディオトラックブロックを提示することによって、最終的に構築された音楽を可視化し、ユーザにユニークな聴覚と視覚の二重体験を与える。
本出願のいくつかの実施例の音楽ファイルの生成装置において、第一画像の画像内容は、顕示的なターゲットを含み、顕示的な特徴は、顕示的なターゲットのキーポイントと、顕示的なターゲットのエッジ特徴ポイントとのうちの少なくとも一つを含む。
本出願の実施例では、顕示的なターゲットは、第一画像の画像内容における本体ターゲットである。例えば、第一画像の画像内容が人顔とバックグラウンドの花々であると、顕示的なターゲットは、この「人顔」である。また例えば、第一画像の画像内容が建物とバックグラウンドの青天であると、顕示的なターゲットは、この「建物」である。
この基礎の上で、顕示的な特徴は、具体的に、顕示的なターゲットのキーポイントを含み、例えば人顔のキーポイントは、「五官」であり、建物のキーポイントは、建物のユニークな設計、例えば「窓」、「庭」などである。顕示的な特徴はさらに、顕示的なターゲットのエッジ特徴ポイントを含んでもよく、これらのエッジ特徴ポイントは、顕示的なターゲットの輪廓、例えば人顔輪廓又は建物輪廓を形成する。
そのため、画像内容における顕示的なターゲットのキーポイントと顕示的なターゲットのエッジ特徴ポイントを抽出することによって、顕示的なターゲットの「略図」を形成することができ、この略図によって、視聴衆に元の画像における被写体、例えば「ある人」又は「ある建物」を連想させ、それによって視聴衆の思い出を喚起することができる。
本出願の実施例において、検出キーポイントとエッジ特徴ポイントで顕示的なターゲットの顕示的な特徴を構成し、顕示的な特徴に基づいて音楽を生成することによって、音楽の可視化を実現し、ユーザに聴覚上と視覚上の二重体験を与える。
本出願のいくつかの実施例の音楽ファイルの生成装置において、処理モジュールは、さらに、畳み込みニューラルネットワークによって、第一画像にターゲット分割を行い、第一画像における顕示的なターゲットと顕示的なターゲットのエッジ特徴ポイントを得て、顕示的なターゲットにキーポイント抽出を行い、顕示的なターゲットのキーポイントを得るために用いられる。
本出願の実施例では、第一グラフィックスに特徴抽出を行う時、まず、予め訓練された畳み込みニューラルネットワークによって、第一画像にターゲット分割を行うことができる。ここで、ターゲット分割の目的は、第一画像における顕示的なターゲットを分割することである。
具体的には、予めマーキングされた大量の訓練セットによって、プリセットされた畳み込みニューラルネットワークを訓練することができ、訓練された畳み込みニューラルネットワークは、ピクチャーにおいて顕示的なターゲットを識別することができる。例えば、人像ピクチャーに対して、セットされた大量の元の人顔ピクチャー、及び「人顔」を部分的にマッティングして分割した、「人顔」のみを含む顕示的なターゲットピクチャーによって、訓練セットを生成し、この訓練セットによって畳み込みニューラルネットワークを訓練し、畳み込みニューラルネットワークを持続的にイテレートさせ、畳み込みニューラルネットワークがピクチャーにおいて顕示的なターゲットと顕示的なターゲットのエッジを正確に識別した後、畳み込みニューラルネットワークが使用可能であると判断される。
上記方法によって訓練された畳み込みニューラルネットワークは、第一画像に人工知能識別を行うことによって、そのうちの顕示的なターゲットと顕示的なターゲットのエッジを判断し、顕示的なターゲットのエッジ特徴ポイントを得る。
さらに、顕示的なターゲットの画像を識別することによって、顕示的なターゲットの具体的なタイプ、例えば「人顔」、「動物」、「建物」などを判断し、それによって顕示的なターゲットの具体的なタイプに基づいて、対応するキーポイント抽出粒度を決定し、対応する抽出粒度に基づいて、顕示的なターゲットにキーポイント抽出を行うことによって、顕示的なターゲットのキーポイント、例えば人顔の五官などを得る。
本出願において、訓練された畳み込みニューラルネットワークによって、第一画像から顕示的なターゲットの顕示的な特徴を抽出し、具体的に顕示的なターゲットのキーポイントとエッジ特徴ポイントを抽出することによって、顕示的な特徴を迅速で正確に得ることによって、画像によって音楽を生成する処理速度を向上させることができ、ユーザ体験の向上に寄与する。
本出願のいくつかの実施例の音楽ファイルの生成装置において、生成モジュールは、さらに、顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成するために用いられ、
処理モジュールは、さらに、顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定するために用いられる。
処理モジュールは、さらに、顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定するために用いられる。
本出願の実施例では、第一画像の顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成する。ここで、顕示的なターゲットテクスチャ図は、第一画像において、顕示的なターゲットだけを表示する顕示的な特徴の画像である。一つの典型の実施の形態では、顕示的なターゲットテクスチャ図に二つの画素だけ含まれ、そのうちの第一画素は、顕示的な特徴を表示するための画素であり、第二画素は、非顕示的な特徴位置の画素である。
顕示的なターゲットテクスチャ図は、第一画像を顕示的な特徴だけを表示する画像に処理するため、顕示的な特徴の第一画像における位置を決定する時、顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の位置を決定し、それによって顕示的な特徴をMIDI情報座標系にマッピングし、画像からMIDI電子楽譜へ、最終的に音楽への変換プロセスを実現し、「画像から音楽へ」を実現し、ユーザにユニークな体験を与えることができる。
本出願のいくつかの実施例の音楽ファイルの生成装置において、処理モジュールは、さらに、エッジ特徴ポイントとキャニーエッジ検出アルゴリズムに基づいて、第一画像にエッジ検出を行い、顕示的なターゲットのエッジ画像を得るために用いられ、
生成モジュールは、さらに、キーポイントとエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図を生成し、エッジ画像と顕示的なターゲット図に画像重畳を行い、第一画像に対応する顕示的なターゲットテクスチャ図を得るために用いられる。
生成モジュールは、さらに、キーポイントとエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図を生成し、エッジ画像と顕示的なターゲット図に画像重畳を行い、第一画像に対応する顕示的なターゲットテクスチャ図を得るために用いられる。
本出願の実施例では、顕示的な特徴に基づいて顕示的なターゲットテクスチャ図を生成する時、まず、エッジ特徴ポイントに基づいて、キャニーエッジ検出アルゴリズムによってエッジ検出を行う。具体的には、キャニーエッジ検出アルゴリズムによって第一画像にエッジ検出を行う時、まず第一画像にガウスフィルタリングを行い、即ち、一つのガウス行列を用い、各画素点及びその近傍に対してその重み付けべきの平均値を除去して、画素の階調値とする。さらに、勾配値と勾配方向を計算し、非最大値をフィルタリングし、最後にセットした閾値範囲を用いてエッジ検出を行い、顕示的なターゲット物のエッジ画像を得る。
さらに、顕示的なターゲットのキーポイントと顕示的なターゲットのエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図、即ちキーポイントとエッジ特徴ポイントで形成された特徴図を生成する。
さらに、エッジ画像と顕示的なターゲット図に画像重畳を行うことによって、エッジ画像とエッジ特徴ポイントが繋がり、各キーポイントを輪廓とともに描くことに相当し、最終的に明確な輪廓を有する顕示的なターゲットテクスチャ図を得る。
本出願のいくつかの実施例の音楽ファイルの生成装置において、処理モジュールは、さらに、
ターゲットテクスチャ図をX行、Y列となるX×Y個のグラフィックスユニットに分けるために用いられ、XとYは、いずれも1よりも大きい整数であり、グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、明るい画素は、輝度値が1の画素であり、暗い画素は、輝度値が0の画素であり、X×Y個のグラフィックスユニットにおいて、明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、N個のターゲットグラフィックスユニットを得ることであって、第一画像の顕示的な特徴の数は、Nであり、N個のターゲットグラフィックスユニットは、N個の顕示的な特徴に1対1で対応し、Nは、正整数であり、
N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある行番号に基づいて、顕示的な特徴の第一画像における第一縦座標を決定し、N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある列番号に基づいて、顕示的な特徴の第一画像における第一横座標を決定し、顕示的な特徴の横座標と顕示的な特徴の横座標と縦座標に基づいて、顕示的な特徴の第一画像における位置を決定する。
ターゲットテクスチャ図をX行、Y列となるX×Y個のグラフィックスユニットに分けるために用いられ、XとYは、いずれも1よりも大きい整数であり、グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、明るい画素は、輝度値が1の画素であり、暗い画素は、輝度値が0の画素であり、X×Y個のグラフィックスユニットにおいて、明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、N個のターゲットグラフィックスユニットを得ることであって、第一画像の顕示的な特徴の数は、Nであり、N個のターゲットグラフィックスユニットは、N個の顕示的な特徴に1対1で対応し、Nは、正整数であり、
N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある行番号に基づいて、顕示的な特徴の第一画像における第一縦座標を決定し、N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある列番号に基づいて、顕示的な特徴の第一画像における第一横座標を決定し、顕示的な特徴の横座標と顕示的な特徴の横座標と縦座標に基づいて、顕示的な特徴の第一画像における位置を決定する。
本出願の実施例では、まず、ターゲットテクスチャ図を分け、具体的にX行、Y列に分け、一つのX×Yのグラフィックス行列を得て、このグラフィックス行列にX×Y個のグラフィックスユニットが含まれる。各グラフィックスユニットに、明るい画素と暗い画素が含まれる複数の画素が含まれ、明るい画素は、顕示的な特徴を表示するための画素であり、その輝度値が1であり、暗い画素は、顕示的な特徴以外の画素であり、その輝度値が0であり、即ち「純黒」を表す。
さらに、それぞれ、X×Y個のグラフィックスユニットにおいて、各画像ユニット内の明るい画素の占める割合を判断する。例を挙げると、一つのグラフィックスユニット内の画素の数が10であり、6つの明るい画素と4つの暗い画素が含まれると仮定すると、このグラフィックスユニットにおいて、明るい画素の数の占める割合は、0.6である。
各グラフィックスユニット内の明るい画素の数の占める割合を決定した後、それぞれ、各画像ユニットにおいて、明るい画素の占める割合がプリセット比値よりも大きいかどうかを判断し、ここで、プリセット比値の範囲は、0.2以上であり、好ましくは0.4である。プリセット比値0.4を例として、一つのグラフィックスユニット内の10個の画素のうち、4つ以上の明るい画素があると、このグラフィックスユニットをターゲットグラフィックスユニットとしてマークし、このターゲットグラフィックスユニットに顕示的な特徴があるのを表すために用いられる。
すべてのX×Y個のグラフィックスユニットのうち、すべてのターゲットグラフィックスユニットを決定した後、これらのターゲットグラフィックスユニットは、最終的にMIDI情報座標系においてマッピングする顕示的な特徴である。
本出願の実施例では、第一画像に対応するターゲットテクスチャ図を分け、それによって分けられた後のX×Y個のグラフィックスユニットのうち明るい画素の数の占める割合に基づいて、ターゲットグラフィックスユニットを決定し、ターゲットグラフィックスユニットを一つの顕示的な特徴としてMIDI情報座標系にマッピングし、画像からMIDI電子楽譜への変換を実現し、さらに画像から音楽への転化を実現するとともに、音楽を可視化し、ユーザに聴覚上と視覚上の二重体験を与えることができる。
本出願のいくつかの実施例の音楽ファイルの生成装置において、処理モジュールは、さらに、第一縦座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二縦座標を得て、第一横座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二横座標を得て、第二縦座標と第二横座標に基づいて、N個の顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、N個の顕示的な特徴に1対1で対応するN個のオーディオトラックブロックを得るために用いられる。
本出願の実施例では、顕示的な特徴をMIDI情報座標系にマッピングする時、以上に得られた顕示的な特徴の第一横座標と第一縦座標をMIDI情報座標系での第二横座標と第二縦座標に同期転化し、それによって顕示的な特徴のMIDI情報座標系におけるマッピングを実現することができる。
ここで、すべてのN個の顕示的な特徴をいずれもMIDI情報座標系にマッピングし、N個の顕示的な特徴に1対1で対応するN個のオーディオトラックブロックを得て、楽器デジタルインターフェースプログラムによって、このN個のオーディオトラックブロックを表示及び再生し、可視的な音楽を得ることができ、一方では第一画像における顕示的なターゲットの特徴を残し、他方では第一画像における顕示的なターゲットに対応するユニークな音楽を生成することができる。
具体的には、MIDI情報座標系は、楽器デジタルインターフェース情報と時間との対応関係を指示するために用いられるため、一つの顕示的な特徴、即ち一つのオーディオトラックブロックのMIDI情報座標系における座標に基づいて、一つのオーディオトラックブロックのMIDI情報と時間情報を決定することができ、コンピュータプログラムは、オーディオトラックブロックのMIDI情報と時間情報を識別した後、一つの音楽動機に転化することができ、この音楽動機は、音色、音の高さ、音量などの音声属性を有し、リズムの時間属性をさらに有し、複数の顕示的な特徴に対応する複数のオーディオトラックブロックをそのMIDI情報と時間情報に従って再生し、最終的に第一画像を変換して得られた音楽、即ちユーザ「思い出画像」と合致する音楽を得て、ユニークな音楽創作に対するユーザの需要を満たす。
本出願のいくつかの実施例の音楽ファイルの生成装置において、オーディオトラックブロックは、楽器デジタルインターフェース情報を含み、オーディオトラックブロックに対応する第二縦座標に基づいて、楽器デジタルインターフェース情報を決定し、ここで、楽器デジタルインターフェース情報は、音の高さと、音色と、音量とのうちの少なくとも一つを含む。
本出願の実施例では、オーディオトラックブロックのMIDI情報座標系での第二縦座標は、このオーディオトラックブロックに対応するMIDI情報である。具体的には、MIDI情報座標系で、第二縦座標は、MIDI音の高さ、MIDI音色とMIDI音量が含まれるオーディオトラックブロックのMIDI情報を代表する。具体的には、縦座標が1上昇するごとに音階が1上昇し、縦座標が8上昇するごとに音階が1オクターブ上昇する。
同時に、第二座標に基づいて、一つのオーディオトラックブロックの音色と音量を得ることができ、ここで、一つのオーディオトラックブロックの音の高さが高いほど、例えば高音音階の範囲にあると、それに対して例えばバイオリン、フルートなどの楽器の音色のような澄んだ音色をセットすることができ、オーディオトラックブロックの音の高さが中音音階範囲内にあり、それに対してピアノ、ギターなどの主旋律楽器の音色をセットすることができ、オーディオトラックブロックの音の高さが低音音階範囲内にあると、それに対してオルガン、ベースなどの重厚な楽器の音色をセットすることができる。
同様に、中音音階範囲内にあるオーディオトラックブロックに対して、より大きい音量をセットして主旋律を強調することができ、高音と低音の範囲に対して、適切に音量を下げ、ユーザの耳に圧迫を与えることを防止することができる。
本出願では、オーディオトラックブロックの第二縦座標に基づいて、そのMIDI情報をセットすることは、具体的に、生成された音楽がより楽理に合致し、ピクチャーから音楽を生成する効果を向上させるために、オーディオトラックブロックの音の高さ、音色と音量などの音楽属性をセットすることである。
本出願のいくつかの実施例の音楽ファイルの生成装置において、音楽ファイルの生成装置は、第一入力を受け取るための受取モジュールをさらに含み、ここで、第一入力は、プリセット音楽特徴を選択する入力であり、
処理モジュールは、さらに、第一入力に応答して、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含むターゲット音楽特徴を決定し、音楽特徴に基づいて音楽を調整するために用いられ、
音楽ファイルの生成装置は、音楽ファイルを再生するための再生モジュールをさらに含む。
処理モジュールは、さらに、第一入力に応答して、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含むターゲット音楽特徴を決定し、音楽特徴に基づいて音楽を調整するために用いられ、
音楽ファイルの生成装置は、音楽ファイルを再生するための再生モジュールをさらに含む。
本出願の実施例では、ユーザは、複数のプリセット音楽特徴を選択し、ターゲット音楽特徴を選択し、それによって第一画像に基づいて生成された音楽に対して楽理性の調整を行うことができる。ここで、ターゲット音楽特徴は、音楽スタイル、例えば、ポピュラー音楽、クラシック音楽、電子音楽などを含み、音楽ムード、例えば、激しい、消極的、緩やかなどをさらに含み、音楽曲風、例えば、ロック、ジャズ、ブルースなどをさらに含む。
ユーザの選択したターゲット音楽特徴に基づいて、第一画像に基づいて生成された音楽を調整することによって、調整後の音楽がユーザの選択した音楽特徴により合致するようにし、例えばユーザがクラシック音楽、緩やか、ブルースを選択すると、中間周波数と低周波数の音量を適切に増加させるとともに、第二横座標の時間間隔を調整することによって、音楽リズムをより遅く、より緩やかにすることができる。
同時に、プリセット楽理データと音響データに基づいて、MIDI座標系におけるオーディオトラックブロックの第二縦座標にさらなる後処理を行うことができる。例を挙げると、一つの調性をプリセットし、最高音階と最低音階の範囲を規定し、ある期間内のオーディオトラックブロックの最高音階と最低音階がこの範囲を超えると、一定の調整ルールに従って、範囲外のオーディオトラックブロックの音の高さを調整し、即ち調外音を調性内に調整し、例えば最高音階閾値を超えるオーディオトラックブロックの音の高さを1オクターブ下げ、又は最低音階閾値よりも低いオーディオトラックブロックの音の高さを1オクターブ上げるなど、調整後の音楽が楽理に合致するようにし、生成された音楽を調整した後、調整後の音楽を自動的に再生し、それによってユーザが彼の選択した「思い出写真」に基づいて生成された音楽を即座に楽しみ、音楽創作の楽しさを楽しむことができる。
本出願のいくつかの実施例の音楽ファイルの生成装置において、生成モジュールは、さらに、音楽ファイルに対応する第二画像を生成するために用いられ、
再生モジュールは、さらに、第二画像を表示し、音楽ファイルを再生するために用いられる。
再生モジュールは、さらに、第二画像を表示し、音楽ファイルを再生するために用いられる。
本出願の実施例では、再生される音楽ファイルに対応する第二画像を生成し、音楽ファイルを再生すると同時、第二画像を表示することによって、ユーザが視覚上と聴覚上の楽しさを同時に体験することができる。ここで、第二画像は、ユーザの選択した第一画像、又は第一画像に対応する顕示的な特徴テクスチャ図に基づいて生成される静止画像であってもよく、音楽ファイルを再生する時にこの静止画像と音楽の再生進捗を表示する。
第二画像は、プリセットテンプレート、又はMIDI情報座標系の再生インタフェースに基づいて生成された動画ファイルであってもよく、この動画ファイルの動画時間長は、生成された音楽の音楽時間長と合致し、音楽ファイルを再生するのと同時に動画を再生し、ユーザの視覚体験をさらに向上させる。
本出願のいくつかの実施例の音楽ファイルの生成装置において、受取モジュールは、さらに、プリセットビデオテンプレートを選択する入力である第二入力を受け取るために用いられ、
処理モジュールは、さらに、第二入力に応答して、ターゲットビデオテンプレートを決定するために用いられ、
生成モジュールは、さらに、ターゲットビデオテンプレートと顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。
処理モジュールは、さらに、第二入力に応答して、ターゲットビデオテンプレートを決定するために用いられ、
生成モジュールは、さらに、ターゲットビデオテンプレートと顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。
本出願の実施例では、ユーザの第二入力を受け取り、ユーザの第二入力で選択されたターゲットビデオテンプレートと第一画像に対応する顕示的なターゲットテクスチャ図に基づいて、音楽を再生する時、音楽再生時のバックグラウンド画像を生成する。ここで、ビデオテンプレートは、連続的な動画テンプレートであってもよく、複数の静止画像が順番に提示される「スライド」であってもよい。
ここで、動画テンプレートにおいて、第一画像に対応する顕示的なターゲットテクスチャ図を重畳して表示することによって、ユーザが第二画像を見る時、第一画像を撮影する時の思い出を喚起し、ユーザの使用体験を向上させることができる。
本出願のいくつかの実施例の音楽ファイルの生成装置において、生成モジュールは、さらに、ピアノロールカーテングラフィックスインタフェースによって、音楽の再生進捗を提示するためのターゲット動画を生成し、ターゲット動画と顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。
本出願の実施例では、ピアノロールカーテングラフィックスインタフェースによって、ターゲット動画を生成し、ここで、ターゲット動画は、ピアノロールカーテングラフィックスインタフェースにMIDIファイルにおけるオーディオトラックブロックを再生するプロセスである。同時に、インタフェースのバックグラウンドにおいて、第一画像に対応する顕示的なターゲットテクスチャ図を第二画像のバックグラウンド画像とすることによって、第二画像と第一画像との間に顕示的な視覚接続を確立し、ユーザが音楽を聞くと同時に、「思い出画像」に関連する第二画像を見ることによって、ユーザの思い出を喚起し、ユーザの視覚体験を豊かにする。
本出願の実施例における音楽ファイルの生成装置は、装置であってもよく、端末における部品、集積回路、又はチップであってもよい。この装置は、移動電子機器であってもよく、非移動電子機器であってもよい。例示的には、移動電子機器は、携帯電話、タブレットパソコン、ノートパソコン、パームトップコンピュータ、車載電子機器、ウェアラブルデバイス、ウルトラモバイルパーソナルコンピュータ(ultra-mobile personal computer、UMPC)、ネットブック又はパーソナルデジタルアシスタント(personal digital assistant、PDA)などであってもよく、非移動電子機器は、サーバ、ネットワーク接続型ストレージ(Network Attached Storage、NAS)、パーソナルコンピュータ(personal computer、PC)、テレビ(television、TV)、預入支払機又はセルフサービス機などであってもよく、本出願の実施例は、具体的に限定しない。
本出願の実施例における音楽ファイルの生成装置は、オペレーティングシステムを有する装置であってもよい。このオペレーティングシステムは、アンドロイド(登録商標)オペレーティングシステムであってもよく、iOSオペレーティングシステムであってもよく、他の可能なオペレーティングシステムであってもよく、本出願の実施例は、具体的に限定しない。
本出願の実施例による音楽ファイルの生成装置は、上記方法の実施例により実現される各プロセスを実現することができ、説明の繰り返しを回避するために、ここでこれ以上説明しない。
選択的に、本出願の実施例は、電子機器900をさらに提供し、図9は、本出願の実施例による電子機器の構造ブロック図を示し、図9に示すように、プロセッサ902と、メモリ904と、メモリ904に記憶されており、前記プロセッサ902上で運行できるプログラム又は命令とを含み、このプログラム又は命令がプロセッサ902により実行されると、上記方法の実施例の各プロセスを実現し、同じ技術的効果を達成することができる。説明の繰り返しを回避するために、ここでこれ以上説明しない。
説明すべきこととして、本出願の実施例における電子機器は、以上に記載の移動電子機器と非移動電子機器を含む。
図10は、本出願の実施例の電子機器を実現するハードウェア構造概略図である。
この電子機器2000は、無線周波数ユニット2001、ネットワークモジュール2002、オーディオ出力ユニット2003、入力ユニット2004、センサ2005、表示ユニット2006、ユーザ入力ユニット2007、インターフェースユニット2008、メモリ2009、及びプロセッサ2010などの部品を含むが、それらに限らない。
当業者であれば理解できるように、電子機器2000は、各部品に給電する電源(例えば、電池)をさらに含んでもよく、電源は、電源管理システムによってプロセッサ2010にロジック的に接続されてもよく、それにより電源管理システムによって充放電管理及び消費電力管理などの機能を実現することができる。図10に示す電子機器構造は、電子機器に対する限定を構成せず、電子機器は、図示された部品の数よりも多く又は少ない部品、又はいくつかの部品の組み合わせ、又は異なる部品の配置を含んでもよく、ここでこれ以上説明しない。
ここで、プロセッサ2010は、第一画像を取得し、第一画像に特徴抽出を行い、第一画像の顕示的な特徴を得、顕示的な特徴の第一画像における位置に基づいて、顕示的な特徴を楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、顕示的な特徴に対応する楽器デジタルインターフェース情報を決定し、楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するために用いられる。
選択的に、第一画像の画像内容は、顕示的なターゲットを含み、顕示的な特徴は、顕示的なターゲットのキーポイントと、顕示的なターゲットのエッジ特徴ポイントとのうちの少なくとも一つを含む。
選択的に、プロセッサ2010は、さらに、畳み込みニューラルネットワークによって、第一画像にターゲット分割を行い、第一画像における顕示的なターゲットと顕示的なターゲットのエッジ特徴ポイントを得て、顕示的なターゲットにキーポイント抽出を行い、顕示的なターゲットのキーポイントを得るために用いられる。
選択的に、プロセッサ2010は、さらに、顕示的な特徴に基づいて、第一画像に対応する顕示的なターゲットテクスチャ図を生成し、顕示的なターゲットテクスチャ図に基づいて、顕示的な特徴の第一画像における位置を決定するために用いられる。
選択的に、プロセッサ2010は、さらに、エッジ特徴ポイントとキャニーエッジ検出アルゴリズムに基づいて、第一画像にエッジ検出を行い、顕示的なターゲットのエッジ画像を得て、キーポイントとエッジ特徴ポイントに基づいて、顕示的なターゲットに対応する顕示的なターゲット図を生成し、エッジ画像と顕示的なターゲット図に画像重畳を行い、第一画像に対応する顕示的なターゲットテクスチャ図を得るために用いられる。
選択的に、プロセッサ2010は、さらに、ターゲットテクスチャ図をX行、Y列となるX×Y個のグラフィックスユニットに分け、XとYは、いずれも1よりも大きい整数であり、グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、明るい画素は、輝度値が1の画素であり、暗い画素は、輝度値が0の画素であり、X×Y個のグラフィックスユニットにおいて、明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、N個のターゲットグラフィックスユニットを得ることであって、第一画像の顕示的な特徴の数は、Nであり、N個のターゲットグラフィックスユニットは、N個の顕示的な特徴に1対1で対応し、Nは、正整数であり、N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある行番号に基づいて、顕示的な特徴の第一画像における第一縦座標を決定することと、N個のターゲットグラフィックスユニットにおいて、各ターゲットグラフィックスユニットがX×Y個のグラフィックスユニットにある列番号に基づいて、顕示的な特徴の第一画像における第一横座標を決定することと、顕示的な特徴の横座標と顕示的な特徴の横座標と縦座標に基づいて、顕示的な特徴の第一画像における位置を決定するために用いられる。
選択的に、プロセッサ2010は、さらに、第一縦座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二縦座標を得て、第一横座標を楽器デジタルインターフェース情報座標系に変換し、顕示的な特徴の楽器デジタルインターフェース情報座標系における第二横座標を得て、第二縦座標と第二横座標に基づいて、N個の顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングし、N個の顕示的な特徴に1対1で対応するN個のオーディオトラックブロックを得るために用いられる。
選択的に、オーディオトラックブロックは、楽器デジタルインターフェース情報を含み、プロセッサ2010は、さらに、オーディオトラックブロックに対応する第二縦座標に基づいて楽器デジタルインターフェース情報を決定するために用いられ、ここで、楽器デジタルインターフェース情報は、音の高さと、音色と、音量とのうちの少なくとも一つを含む。
選択的に、ユーザ入力ユニット2007は、第一入力を受け取るために用いられ、ここで、第一入力は、プリセット音楽特徴を選択する入力であり、
プロセッサ2010は、さらに、第一入力に応答して、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含むターゲット音楽特徴を決定し、音楽特徴に基づいて音楽を調整するために用いられ、
オーディオ出力ユニット2003は、音楽ファイルを再生するために用いられる。
プロセッサ2010は、さらに、第一入力に応答して、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含むターゲット音楽特徴を決定し、音楽特徴に基づいて音楽を調整するために用いられ、
オーディオ出力ユニット2003は、音楽ファイルを再生するために用いられる。
選択的に、プロセッサ2010は、さらに、音楽ファイルに対応する第二画像を生成するために用いられ、
表示ユニット2006は、さらに、第二画像を表示するために用いられ、オーディオ出力ユニット2003は、さらに、音楽ファイルを再生するために用いられる。
表示ユニット2006は、さらに、第二画像を表示するために用いられ、オーディオ出力ユニット2003は、さらに、音楽ファイルを再生するために用いられる。
選択的に、ユーザ入力ユニット2007は、さらに、プリセットビデオテンプレートを選択する入力である第二入力を受け取るために用いられ、
プロセッサ2010は、さらに、第二入力に応答して、ターゲットビデオテンプレートを決定し、ターゲットビデオテンプレートと顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。
プロセッサ2010は、さらに、第二入力に応答して、ターゲットビデオテンプレートを決定し、ターゲットビデオテンプレートと顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。
選択的に、プロセッサ2010は、さらに、ピアノロールカーテングラフィックスインタフェースによって、音楽の再生進捗を提示するためのターゲット動画を生成し、ターゲット動画と顕示的なターゲットテクスチャ図に基づいて、第二画像を生成するために用いられる。
本出願の実施例は、画像によって音楽を構築することによって、形成された音楽がユーザの思い出を含む画像に合致するようにし、一方では音楽創作の敷居を下げ、楽理知識を持たない「初心者」ユーザでも、ピクチャーに基づいて対応する音楽を構築することができ、他方ではMIDI情報座標系によってオーディオトラックブロックを提示することによって、最終的に構築された音楽を可視化し、ユーザにユニークな聴覚と視覚の二重体験を与える。
理解すべきこととして、本出願の実施例では、入力ユニット2004は、グラフィックスプロセッサ(Graphics Processing Unit、GPU)20041とマイクロホン20042を含んでもよく、グラフィックスプロセッサ20041は、ビデオキャプチャモード又は画像キャプチャモードにおいて画像キャプチャ装置(例えば、カメラ)によって得られた静止画像又はビデオの画像データを処理する。
表示ユニット2006は、表示パネル20061を含んでもよく、液晶ディスプレイ、有機発光ダイオードなどの形式で表示パネル20061が構成されてもよい。ユーザ入力ユニット2007は、タッチパネル20071及び他の入力機器20072を含む。タッチパネル20071は、タッチスクリーンとも呼ばれる。タッチパネル20071は、タッチ検出装置とタッチコントローラという二つの部分を含んでもよい。他の入力機器20072は、物理的キーボード、機能キー(例えば、音量制御ボタン、スイッチボタンなど)、トラックボール、マウス、操作レバーを含んでもよいが、それらに限らず、ここでこれ以上説明しない。メモリ2009は、ソフトウェアプログラム及び様々なデータを記憶するために用いられてもよく、アプリケーションプログラムとオペレーティングシステムとを含むが、それらに限らない。プロセッサ2010は、アプリケーションプロセッサとモデムプロセッサを統合してもよい。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムなどを処理するためのものであり、モデムプロセッサは、主に無線通信を処理するためのものである。理解できるように、上記モデムプロセッサは、プロセッサ2010に統合されなくてもよい。
本出願の実施例は、可読記憶媒体をさらに提供し、可読記憶媒体上にはプログラム又は命令が記憶されており、このプログラム又は命令がプロセッサにより実行されると、上記方法の実施例の各プロセスを実現し、同じ技術的効果を達成することができる。説明の繰り返しを回避するために、ここでこれ以上説明しない。
ここで、プロセッサは、上記実施例における電子機器におけるプロセッサである。可読記憶媒体は、コンピュータ可読記憶媒体、例えばコンピュータリードオンリーメモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク又は光ディスクなどを含む。
本出願の実施例は、チップをさらに提供し、チップは、プロセッサと通信インターフェースとを含み、通信インターフェースとプロセッサを合わせて、プロセッサは、プログラム又は命令を運行し、上記方法の実施例の各プロセスを実現するために用いられ、同じ技術的効果を達成することができる。説明の繰り返しを回避するために、ここでこれ以上説明しない。
理解すべきこととして、本出願の実施例に言及されたチップは、システムレベルチップ、システムチップ、チップシステム又はシステムオンチップなどと呼ばれてもよい。
説明すべきこととして、本明細書では、用語の「含む」、「包含する」又はその他の任意の変形は、非排他的な「含む」を意図的にカバーするものであり、それによって一連の要素を含むプロセス、方法、物品又は装置は、それらの要素を含むだけではなく、明確にリストアップされていない他の要素も含み、又はこのようなプロセス、方法、物品又は装置に固有の要素も含む。それ以上の制限がない場合に、「……を1つ含む」という文章で限定された要素について、この要素を含むプロセス、方法、物品又は装置には他の同じ要素も存在することが排除されるものではない。なお、指摘すべきこととして、本出願の実施の形態における方法と装置の範囲は、図示又は討論された順序で機能を実行することに限らず、関わる機能に基づいて基本的に同時である方式又は逆の順序で機能を実行することを含んでもよく、例えば記述されるものとは異なる手順で記述される方法を実行することができるとともに、様々なステップを追加、省略又は組み合わせることができる。また、いくつかの例を参照して記述される特徴は、他の例で組み合わせられることができる。
以上の実施の形態の記述によって、当業者であればはっきりと分かるように上記実施例の方法は、ソフトウェアと必要な汎用ハードウェアプラットフォームの形態によって実現されることができる。無論、ハードウェアによって実現されてもよいが、多くの場合、前者は、より好適な実施の形態である。このような理解を踏まえて、本出願の技術案が実質には又は従来の技術に寄与した部分は、コンピュータソフトウェア製品の形式で具現化されてもよく、このコンピュータソフトウェア製品は、一つの記憶媒体(例えばROM/RAM、磁気ディスク、光ディスク)に記憶され、一台の端末(携帯電話、コンピュータ、サーバ、又はネットワーク機器などであってもよい)に本出願の各実施例に記載の方法を実行させるための若干の命令を含む。
以上は、図面を結び付けながら、本出願の実施例を記述したが、本出願は、上記の具体的な実施の形態に限らない。上記の具体的な実施の形態は、例示的なものに過ぎず、制限性のあるものではない。当業者は、本出願の示唆で、本出願の趣旨と特許請求の範囲から逸脱しない限り、多くの形式を行うこともでき、いずれも本出願の保護範囲に属する。
Claims (15)
- 第一画像を取得することと、
前記第一画像に特徴抽出を行い、前記第一画像の顕示的な特徴を得ることと、
前記顕示的な特徴の前記第一画像における位置に基づいて、前記顕示的な特徴を、楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、前記顕示的な特徴に対応する前記楽器デジタルインターフェース情報を決定することと、
前記楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成することとを含む、ことを特徴とする音楽ファイルの生成方法。 - 前記第一画像の画像内容は、顕示的なターゲットを含み、前記顕示的な特徴は、
前記顕示的なターゲットのキーポイントと、前記顕示的なターゲットのエッジ特徴ポイントとのうちの少なくとも一つを含む、ことを特徴とする請求項1に記載の音楽ファイルの生成方法。 - 前記第一画像に特徴抽出を行い、前記第一画像の顕示的な特徴を得ることは、
畳み込みニューラルネットワークによって、前記第一画像にターゲット分割を行い、前記第一画像における前記顕示的なターゲット、及び前記顕示的なターゲットの前記エッジ特徴ポイントを得ることと、
前記顕示的なターゲットにキーポイント抽出を行い、前記顕示的なターゲットのキーポイントを得ることとを含む、ことを特徴とする請求項2に記載の音楽ファイルの生成方法。 - 前記顕示的な特徴の前記第一画像における位置に基づいて、前記顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングする前、前記音楽ファイルの生成方法は、
前記顕示的な特徴に基づいて、前記第一画像に対応する顕示的なターゲットテクスチャ図を生成することと、
前記顕示的なターゲットテクスチャ図に基づいて、前記顕示的な特徴の前記第一画像における位置を決定することとをさらに含む、ことを特徴とする請求項2に記載の音楽ファイルの生成方法。 - 前記顕示的な特徴に基づいて、前記第一画像に対応する顕示的なターゲットテクスチャ図を生成することは、
前記エッジ特徴ポイントとキャニーエッジ検出アルゴリズムに基づいて、前記第一画像にエッジ検出を行い、前記顕示的なターゲットのエッジ画像を得ることと、
前記キーポイントと前記エッジ特徴ポイントに基づいて、前記顕示的なターゲットに対応する顕示的なターゲット図を生成することと、
前記エッジ画像と前記顕示的なターゲット図に画像重畳を行い、前記第一画像に対応する顕示的なターゲットテクスチャ図を得ることとを含む、ことを特徴とする請求項4に記載の音楽ファイルの生成方法。 - 前記ターゲットテクスチャ図に基づいて、前記顕示的な特徴の前記第一画像における位置を決定することは、
前記ターゲットテクスチャ図をX行、Y列となるX×Y個のグラフィックスユニットに分けることであって、XとYは、いずれも1よりも大きい整数であり、前記グラフィックスユニット内は、明るい画素と暗い画素とのうちの少なくとも一つを含み、前記明るい画素は、輝度値が1の画素であり、前記暗い画素は、輝度値が0の画素であることと、
前記X×Y個のグラフィックスユニットにおいて、前記明るい画素の数の占める割合がプリセット比値よりも大きいターゲットグラフィックスユニットを決定し、N個の前記ターゲットグラフィックスユニットを得ることであって、前記第一画像の顕示的な特徴の数は、Nであり、前記N個のターゲットグラフィックスユニットは、前記N個の顕示的な特徴に1対1で対応し、Nは、正整数であることと、
前記N個のターゲットグラフィックスユニットにおいて、各前記ターゲットグラフィックスユニットが前記X×Y個のグラフィックスユニットにある行番号に基づいて、前記顕示的な特徴の前記第一画像における第一縦座標を決定することと、
前記N個のターゲットグラフィックスユニットにおいて、各前記ターゲットグラフィックスユニットが前記X×Y個のグラフィックスユニットにある列番号に基づいて、前記顕示的な特徴の前記第一画像における第一横座標を決定することと、
前記顕示的な特徴の横座標と前記顕示的な特徴の横座標縦座標に基づいて、前記顕示的な特徴の前記第一画像における位置を決定することとを含む、ことを特徴とする請求項4に記載の音楽ファイルの生成方法。 - 前記顕示的な特徴の前記第一画像における位置に基づいて、前記顕示的な特徴を楽器デジタルインターフェース情報座標系にマッピングすることは、
前記第一縦座標を前記楽器デジタルインターフェース情報座標系に変換し、前記顕示的な特徴の前記楽器デジタルインターフェース情報座標系における第二縦座標を得ることと、
前記第一横座標を前記楽器デジタルインターフェース情報座標系に変換し、前記顕示的な特徴の前記楽器デジタルインターフェース情報座標系における第二横座標を得ることと、
前記第二縦座標と前記第二横座標に基づいて、前記N個の顕示的な特徴を、前記楽器デジタルインターフェース情報座標系にマッピングし、前記N個の顕示的な特徴に1対1で対応するN個のオーディオトラックブロックを得ることとを含む、ことを特徴とする請求項6に記載の音楽ファイルの生成方法。 - 前記オーディオトラックブロックは、前記楽器デジタルインターフェース情報を含み、前記オーディオトラックブロックに対応する第二縦座標に基づいて前記楽器デジタルインターフェース情報を決定し、
前記楽器デジタルインターフェース情報は、音の高さと、音色と、音量とのうちの少なくとも一つを含む、ことを特徴とする請求項7に記載の音楽ファイルの生成方法。 - プリセット音楽特徴を選択する入力である第一入力を受け取ることと、
前記第一入力に応答して、音楽スタイルと、音楽ムードと、音楽曲風とのうちの少なくとも一つを含むターゲット音楽特徴を決定することと、
前記音楽特徴に基づいて前記音楽を調整することと、
前記音楽ファイルを再生することとをさらに含む、ことを特徴とする請求項4から8のいずれか1項に記載の音楽ファイルの生成方法。 - 前記音楽ファイルに対応する第二画像を生成することをさらに含み、
前記音楽を再生することは、
前記第二画像を表示し、前記音楽を再生することを含む、ことを特徴とする請求項9に記載の音楽ファイルの生成方法。 - 前記音楽に対応する第二画像を生成することは、
プリセットビデオテンプレートを選択する入力である第二入力を受け取ることと、
前記第二入力に応答して、ターゲットビデオテンプレートを決定することと、
前記ターゲットビデオテンプレートと前記顕示的なターゲットテクスチャ図に基づいて、前記第二画像を生成することとを含む、ことを特徴とする請求項10に記載の音楽ファイルの生成方法。 - 前記音楽に対応する第二画像を生成することは、
ピアノロールカーテングラフィックスインタフェースによって、前記音楽の再生進捗を提示するためのターゲット動画を生成することと、
前記ターゲット動画と前記顕示的なターゲットテクスチャ図に基づいて、前記第二画像を生成することとを含む、ことを特徴とする請求項10に記載の音楽ファイルの生成方法。 - 音楽ファイルの生成装置であって、
第一画像を取得するための取得モジュールと、
前記第一画像に特徴抽出を行い、前記第一画像の顕示的な特徴を得るための抽出モジュールと、
前記顕示的な特徴の前記第一画像における位置に基づいて、前記顕示的な特徴を、楽器デジタルインターフェース情報と時間との対応関係を指示するための楽器デジタルインターフェース情報座標系にマッピングし、前記顕示的な特徴に対応する前記楽器デジタルインターフェース情報を決定するための処理モジュールと、
前記楽器デジタルインターフェース情報と時間との対応関係に基づいて、音楽ファイルを生成するための生成モジュールとを含む、ことを特徴とする音楽ファイルの生成装置。 - プロセッサと、メモリと、前記メモリに記憶され、前記プロセッサ上で運行できるプログラム又は命令とを含み、前記プログラム又は命令が前記プロセッサにより実行されると、請求項1から12のいずれか1項に記載の音楽ファイルの生成方法のステップを実現する、ことを特徴とする電子機器。
- プログラム又は命令が記憶されており、前記プログラム又は命令がプロセッサにより実行されると、請求項1から12のいずれか1項に記載の音楽ファイルの生成方法のステップを実現する、ことを特徴とする可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110839656.2A CN115687668A (zh) | 2021-07-23 | 2021-07-23 | 音乐文件的生成方法、生成装置、电子设备和存储介质 |
CN202110839656.2 | 2021-07-23 | ||
PCT/CN2022/100969 WO2023000917A1 (zh) | 2021-07-23 | 2022-06-24 | 音乐文件的生成方法、生成装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024523396A true JP2024523396A (ja) | 2024-06-28 |
Family
ID=84980085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023577867A Pending JP2024523396A (ja) | 2021-07-23 | 2022-06-24 | 音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240127777A1 (ja) |
EP (1) | EP4339809A1 (ja) |
JP (1) | JP2024523396A (ja) |
CN (1) | CN115687668A (ja) |
WO (1) | WO2023000917A1 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1142509C (zh) * | 1999-09-03 | 2004-03-17 | 北京航空航天大学 | 一种将图像信息转换成音乐的方法 |
JP3765305B2 (ja) * | 2003-03-20 | 2006-04-12 | ヤマハ株式会社 | 楽音形成端末装置、サーバ装置及びプログラム |
JP4127088B2 (ja) * | 2003-03-24 | 2008-07-30 | ヤマハ株式会社 | 音楽再生と動画表示の制御装置およびそのプログラム |
US7589727B2 (en) * | 2005-01-18 | 2009-09-15 | Haeker Eric P | Method and apparatus for generating visual images based on musical compositions |
CN113035158B (zh) * | 2021-01-28 | 2024-04-19 | 深圳点猫科技有限公司 | 一种在线midi音乐编辑方法、系统及存储介质 |
-
2021
- 2021-07-23 CN CN202110839656.2A patent/CN115687668A/zh active Pending
-
2022
- 2022-06-24 EP EP22845082.1A patent/EP4339809A1/en active Pending
- 2022-06-24 JP JP2023577867A patent/JP2024523396A/ja active Pending
- 2022-06-24 WO PCT/CN2022/100969 patent/WO2023000917A1/zh active Application Filing
-
2023
- 2023-12-19 US US18/545,825 patent/US20240127777A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4339809A1 (en) | 2024-03-20 |
CN115687668A (zh) | 2023-02-03 |
US20240127777A1 (en) | 2024-04-18 |
WO2023000917A1 (zh) | 2023-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI486904B (zh) | 律動影像化方法、系統以及電腦可讀取記錄媒體 | |
CN103810504B (zh) | 一种图像处理方法和装置 | |
CN104574453A (zh) | 用图像表达音乐的软件 | |
JP6058192B1 (ja) | 音楽情報生成装置、音楽情報生成方法、プログラム、および記録媒体 | |
KR101657975B1 (ko) | 모바일 앱 기반의 실시간 영상의 배경음악 생성방법 | |
CN107967476B (zh) | 一种图像转声音的方法 | |
CN109448131B (zh) | 一种基于Kinect的虚拟钢琴弹奏系统的构建方法 | |
Banf et al. | A modular computer vision sonification model for the visually impaired | |
CN101924847B (zh) | 多媒体播放装置及其播放方法 | |
JP3978506B2 (ja) | 楽音生成方法 | |
CN106951457A (zh) | 曲谱的处理方法及装置 | |
Clarke | Rhythm/body/motion: Tricky's contradictory dance music | |
JP2024523396A (ja) | 音楽ファイルの生成方法、生成装置、電子機器及び記憶媒体 | |
Nakatsuka et al. | Audio-guided Video Interpolation via Human Pose Features. | |
US20220335974A1 (en) | Multimedia music creation using visual input | |
CN113885828B (zh) | 一种音效展示方法及终端设备 | |
CN112587915B (zh) | 光照效果呈现方法、装置、存储介质及计算机设备 | |
KR20140037439A (ko) | 음악의 분위기를 이용한 슬라이드 쇼 생성 방법 및 장치 | |
Payling | Visual music composition with electronic sound and video | |
CN101640763B (zh) | 图像再现装置和图像再现方法 | |
WO2024122322A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2024125478A1 (zh) | 音频呈现方法和设备 | |
CN117392756A (zh) | 舞蹈生成方法、舞蹈生成模型的训练方法、装置和设备 | |
EP3351007B1 (fr) | Procédé de visualisation de données relatives à un événement et système associé | |
JP6276673B2 (ja) | カラオケ装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231218 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231218 |