CN109599079B - 一种音乐的生成方法和装置 - Google Patents
一种音乐的生成方法和装置 Download PDFInfo
- Publication number
- CN109599079B CN109599079B CN201710920219.7A CN201710920219A CN109599079B CN 109599079 B CN109599079 B CN 109599079B CN 201710920219 A CN201710920219 A CN 201710920219A CN 109599079 B CN109599079 B CN 109599079B
- Authority
- CN
- China
- Prior art keywords
- rhyme
- images
- lyrics
- image
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 11
- 238000003062 neural network model Methods 0.000 claims description 16
- 238000013135 deep learning Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000003825 pressing Methods 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 230000015654 memory Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000013461 design Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000033764 rhythmic process Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000272201 Columbiformes Species 0.000 description 1
- 101000831205 Danio rerio Dynein axonemal assembly factor 11 Proteins 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 102100024282 Dynein axonemal assembly factor 11 Human genes 0.000 description 1
- 241001559542 Hippocampus hippocampus Species 0.000 description 1
- 101000831210 Homo sapiens Dynein axonemal assembly factor 11 Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000009940 knitting Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000035922 thirst Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/368—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/021—Background music, e.g. for video sequences or elevator music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/105—Composing aid, e.g. for supporting creation, edition or modification of a piece of music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/111—Automatic composing, i.e. using predefined musical rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/005—Non-interactive screen display of musical or status data
- G10H2220/011—Lyrics displays, e.g. for karaoke applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/155—User input interfaces for electrophonic musical instruments
- G10H2220/441—Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Processing Or Creating Images (AREA)
- Studio Circuits (AREA)
Abstract
本发明实施例公开了一种音乐的生成方法和装置,用于通过输入图像就可以自动生成音乐,适用于无音乐基础的用户。本发明实施例提供一种音乐的生成方法,包括:对终端中已输入的多张图像分别进行场景识别,生成分别匹配于所述多张图像对应的场景的描述文字;对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成所述多张图像分别对应的押韵歌词;将所述多张图像分别对应的押韵歌词转换为语音;将所述语音和预置的背景音乐合成在一起,生成图像音乐。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种音乐的生成方法和装置。
背景技术
音乐在人们的生活中发挥着不可替代的作用,音乐根据节奏感不同又可分为多种音乐类型,其中嘻哈音乐(Rap music或Hip hop)是一种跟着伴奏、带着韵律吟诵(饶舌)的音乐风格,所用的伴奏多产生于音乐取样手段。目前音乐的生成方式主要是由人们进行人工创作来完成,例如嘻哈音乐可以由专业嘻哈歌手编制嘻哈音乐。但对于没有音乐基础的人们来说,根本不具备创作音乐的能力。
为了实现音乐的无门槛创作,需要生成可供普通用户欣赏的音乐,现有技术中产生了如下的两种音乐生成方式:第一种是将视频的声音转为音乐的方法,第二种是将用户录制的语音转为音乐的方法。对于第一种通过视频的声音生成音乐的方法,需要处理视频数据,以提取出该视频携带的声音数据,再为该声音配上背景音乐,从而生成可供用户欣赏的音乐。对于第二种通过语音生成音乐的方法,不需要处理视频数据,只需要将语音和背景音乐进行合成,就可以生成可供用户欣赏的音乐。
上述生成音乐的技术方案中,只能简单的为视频的声音或者语音配上背景音乐,这种音乐生成方式并不没有考虑到声音或者语音自身的音频特征,从而生成的音乐不能与用户所提供的音乐素材紧密关联起来,造成生成的音乐不能和用户输入的音乐素材匹配。
发明内容
本发明实施例提供了一种音乐的生成方法和装置,用于通过输入图像就可以自动生成与场景的描述文字匹配的音乐。
为解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种音乐的生成方法,包括:
对终端中已输入的多张图像分别进行场景识别,生成分别匹配于所述多张图像对应的场景的描述文字;
对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成所述多张图像分别对应的押韵歌词;
将所述多张图像分别对应的押韵歌词转换为语音;
将所述语音和预置的背景音乐合成在一起,生成图像音乐。
第二方面,本发明实施例还提供一种音乐的生成装置,所述音乐的生成装置包括:
场景识别模块,用于对终端中已输入的多张图像分别进行场景识别,生成分别匹配于所述多张图像对应的场景的描述文字;
押韵匹配模块,用于对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成所述多张图像分别对应的押韵歌词;
语音生成模块,用于将所述多张图像分别对应的押韵歌词转换为语音;
音乐生成模块,用于将所述语音和预置的背景音乐合成在一起,生成图像音乐。
本申请的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,首先对终端中已输入的多张图像分别进行场景识别,生成分别匹配于多张图像对应的场景的描述文字,然后对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成多张图像分别对应的押韵歌词,接下来将多张图像分别对应的押韵歌词转换为语音,最后将语音和预置的背景音乐合成在一起,生成图像音乐。本发明实施例中只需要终端提供多张图像就可以生成图像音乐,通过对多张图像进行场景识别,然后自动匹配出与场景相适应的描述文字,再对场景的描述文字进行押韵设计,这样生成的押韵歌词符合音乐特色,进而将押韵歌词转为语音,最后将押韵歌词与背景音乐合成,就可以形成一段图像音乐。图像音乐中的押韵歌词是根据终端输入的图像生成的,因此输出的图像音乐可与用户所提供的图像素材紧密关联起来,通过输入图像就可以自动生成与场景的描述文字匹配的音乐。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种音乐的生成方法的流程方框示意图;
图2为本发明实施例提供的嘻哈音乐的生成流程示意图;
图3为本发明实施例提供的客户端上传多张图像的示意图;
图4为本发明实施例提供的押韵歌词转换为语音的流程示意图;
图5-a为本发明实施例提供的一种音乐的生成装置的组成结构示意图;
图5-b为本发明实施例提供的一种场景识别模块的组成结构示意图;
图5-c为本发明实施例提供的一种押韵匹配模块的组成结构示意图;
图5-d为本发明实施例提供的一种歌词生成模块的组成结构示意图;
图5-e为本发明实施例提供的一种歌词获取模块的组成结构示意图;
图5-f为本发明实施例提供的一种语音生成模块的组成结构示意图;
图6为本发明实施例提供的音乐的生成方法应用于终端的组成结构示意图。
具体实施方式
本发明实施例提供了一种音乐的生成方法和装置,用于通过输入图像就可以自动生成与场景的描述文字匹配的音乐。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。
本发明音乐的生成方法的一个实施例,具体可以应用于基于用户输入的多种图像生成与该图像的描述文字匹配的音乐。请参阅图1所示,本发明一个实施例提供的音乐的生成方法,可以包括如下步骤:
101、对终端中已输入的多张图像分别进行场景识别,生成分别匹配于多张图像对应的场景的描述文字。
在本发明实施例中,终端中用户可以输入多张图像用于生成图像音乐,本发明实施例中所描述的图像音乐是指与用户输入的多张图像相适应的具有节奏的音乐。其中,终端中已输入的多张图像可以是用户预先保存到终端的,也可以是用户实时采用终端的摄像头采集到的,例如多张图像可以是通过终端进入拍照模式后采集得到;或,多张图像从终端的相册中获取到。对于终端中已输入的多张图像的实现方式,不做限定。
在本发明实施例中,对于终端中已输入的多张图像可以分别进行场景识别,从而识别出每张图像对应的场景,例如对于图像场景的分类可以有多种实现方式,例如可以主要分风景、人物、食物、自拍等四类场景,根据用户上传图片进行图像场景识别,对每张图像进行场景识别,并分别为每张图像自动匹配出可描述不同图像对应的场景的文字,例如将多张图像进行场景识别,比如如果一张图像上有蓝天和小鸟,那么场景识别后会自动给出“小鸟在蓝天上翱翔”的描述文字。
在本发明的一些实施例中,步骤101对终端中已输入的多张图像分别进行场景识别,生成分别匹配于多张图像对应的场景的描述文字,包括:
A1、根据深度学习神经网络模型对多张图像进行场景识别,得到识别出的图像特征,并根据图像特征确定多张图像分别对应的场景;
A2、根据识别出的图像特征和多张图像分别对应的场景进行图像描述生成,得到多张图像对应的场景分别匹配出的描述文字。
其中,本发明实施例中可以采用深度学习神经网络模型对多张图像进行场景识别,该深度学习神经网络模型也可以称为神经图像注解模型,通过深度学习神经网络模型可以识别出图像特征,根据图像特征确定多张图像分别对应的场景。其中,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。接下来,根据识别出的图像特征和多张图像分别对应的场景进行图像描述生成,得到多张图像对应的场景分别匹配出的描述文字。利用深度学习神经网络对图像场景进行识别,并自动匹配该场景的相关描述语文字。其中,图像描述生成是指基于计算机视觉,用场景和物体类别信息作为先验知识来提取图像特征,协同生成融合场景及物体类别的图像描述句子。
102、对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成多张图像分别对应的押韵歌词。
在本发明实施例中,通过场景识别可以生成每张图像对应的场景匹配出的描述文字,每张图像对应的场景所匹配出的描述文字是进一步生成歌词的依据,通过每张图像场景匹配出的描述文字可以进行文字的押韵设计,针对每张图像都可以生成有押韵歌词,其中,押韵歌词指的是具有押韵的一段歌词,每张图像对应的押韵歌词可以是一句歌词,也可以是两句或更多句的歌词。
在本发明的一些实施例中,步骤102对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成多张图像分别对应的押韵歌词,包括:
B1、从每张图像对应的场景匹配出的描述文字中获取描述文字中最后一个词所对应的汉语拼音和韵脚;
B2、根据描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于多张图像的押韵歌词,其中,每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚。
其中,对每张图像对应的场景所匹配出的描述文字,都可以该描述文字中最后一个词所对应的汉语拼音和韵脚。在中文汉字中,常用中文汉字不到8000个,因此可以预先生成常用汉字的拼音表,根据汉字建立索引加载到内存,可以根据需要获取汉字拼音,查韵母表可知有35种韵母,可以将所有韵母放在一个数组里,并且按照韵母长度按照大到小排序,然后依次比对字符串,从而得到最后一个词所对应的韵脚。在获取到描述文字中最后一个词对应的汉语拼音和韵脚之后,再基于描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于多张图像的押韵歌词,其中,每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚,因此可以生成的押韵歌词的韵脚可以来源于描述文字的最后一个词的韵脚,采用相同的韵脚设计,可以保证所生成的对应于多张图像的押韵歌词可以具有协调统一的韵脚,读起来更朗朗上口。
进一步的,在本发明的一些实施例中,步骤B2根据描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于多张图像的押韵歌词,包括:
B21、从描述文字中最后一个词所对应的汉语拼音中排列出所有韵母;
B22、根据排列出的所有韵母确定韵母分配规律;
B23、从符合韵母分配规律的韵母中确定出描述文字中最后一个词所对应的韵脚;
B24、根据多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于多张图像的押韵歌词,歌词模板中预先配置有对应于多种场景与多种韵脚的歌词文字。
其中,多张图像中每张图像对应的场景都匹配出描述文字,这些描述文字中都包括有最后一个词,因此可以从多个最后一个词中的汉语拼音中排列出所有可能韵母,为每个韵母都预先生成有多句不同场景的描述文字作为歌词模板,通过多个描述文字的数据样本找到描述文字中最后一个词的韵母分配规律,找出最多分配的几种韵母,为这几种韵母增大数据量,从而可以确定采用哪个韵母来作为韵脚,基于韵母分配规律筛选出的韵脚来搜索歌词模板,使用该歌词模板可以获取到对应于多张图像的押韵歌词。
举例说明如下,以嘻哈音乐的押韵歌词生成为例,可以为不同的场景不同韵脚生成对应的嘻哈话术作为歌词模板,高频率的韵脚生成更多的话术供选择。然后根据韵脚和场景,随机选择出一个匹配的话术来生成嘻哈音乐的押韵歌词。对于相同的嘻哈话术,相同韵脚生成的嘻哈话术就是相同的,当某些韵脚出现的频率很高时,可以为这些频率高的韵脚生成更多的歌词模板,从而可以从多个歌词模板中来生成押韵歌词。
进一步的,在本发明的一些实施例中,步骤B24根据多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于多张图像的押韵歌词,包括:
B241、根据每张图像对应的场景匹配出的描述文字生成图像描述歌词;
B242、根据多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词;
B243、将图像描述歌词与补充歌词合成在一起,得到押韵歌词。
具体的,在本发明的上述实施例中,每张图像对应的场景匹配出的描述文字可以作为图像描述歌词,图像描述歌词是指来源于描述文字的歌词,例如描述文字可以为“小鸟在蓝天上翱翔”,该描述文字可以作为图像描述歌词。在步骤B242中还可以获取到补充歌词,该补充歌词的生成可以与图像描述歌词的生成同时进行,补充歌词是指来源于歌词模板得到的歌词,补充歌词与图像描述歌词可以具有相同的韵脚。最后将图像描述歌词与补充歌词合成在一起,得到押韵歌词。举例说明,对描述文字进行押韵补充,例如对于图像描述歌词为“小鸟在蓝天上翱翔”,从歌词模板中可以找到与图像歌词具有相同韵脚的补充歌词,该补充歌词可以是“差不多的好,差不多的赞”,所以本申请实施例中最终生成的押韵歌词可以是:小鸟在蓝天上翱翔;差不多的好,差不多的赞。
进一步的,在本发明的一些实施例中,步骤B242、根据多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词,包括:
根据所述图像描述歌词确定符合双押韵的韵脚;
根据所述多张图像对应的场景以及各个场景下对应的符合双押韵的韵脚从预先生成的歌词模板中获取到补充歌词。
其中,在本发明实施例通过图像描述歌词获取韵脚时,还可以确定符合双押韵的韵脚,双押韵就是韵脚是两个字的押韵,基于场景以及符合双押韵的韵脚可以从歌词模板中获取到补充歌词,通过双押韵的方式生成补充歌词,使得补充歌词可以和图像描述歌词具有相同双押韵的韵脚。
103、将多张图像分别对应的押韵歌词转换为语音。
在本发明实施例中,获取到多张图像分别对应的押韵歌词之后,可以将押韵歌词进行文字转语音,其中,具体可以使用文本转为语音(Text To Speech,TTS),将通过步骤102得到的押韵歌词都转为语音。
在本发明的一些实施例中,步骤103将多张图像分别对应的押韵歌词转换为语音,包括:
C1、对多张图像分别对应的押韵歌词进行文本分析,得到文本分析结果;
C2、从文本分析结果中提取出语言学特征;
C3、根据语言学特征进行音素级别的时长预测与时长自适应调整,得到与押韵歌词匹配的韵律特征和词性特征;
C4、基于语言学特征和与押韵歌词匹配的韵律特征和词性特征,使用神经网络模型进行发音生成,得到语音。
其中,对于每张图像分别对应的押韵歌词,可以首先进行文本分析,为后续特征提取提供信息,得到的文本分析结果主要可用于发音生成、韵律预测、词性预测等,得到文本分析结果后,对该结果进行语言学特征提取并转花成神经网络模型的输入向量。接下来可以使用时长模型进行音素级别的时长预测和时长自适应调整,由于本申请实施例中生成的押韵歌词与普通说话不同,具有节奏性,因此在时长预测的结果上做了一个自适应的调整,使每个字都能在节拍上的同时保证原始的发音不改变。最后可以基于语言学特征和与押韵歌词匹配的韵律特征和词性特征,使用神经网络模型进行发音生成,得到语音。
104、将语音和预置的背景音乐合成在一起,生成图像音乐。
在本发明实施例中,通过步骤103押韵歌词转换为语音之后,该语音会包括有押韵歌词的内容,再将语音和背景音乐结合生成最终的图像音乐。该图像音乐是通过用户输入的多张图像编写出的押韵歌词和背景音乐合成得到,因此图像音乐在播放时用户可以听到一段有歌词、有节奏的音乐。例如通过多张图像编写出嘻哈押韵歌词之后,再将嘻哈押韵歌词与嘻哈背景音乐合成在一起,得到一段嘻哈音乐,从而完成文字转嘻哈音乐(Text ToRap,TTR)。
通过前述实施例对本发明的举例说明可知,首先对终端中已输入的多张图像分别进行场景识别,生成分别匹配于多张图像对应的场景的描述文字,然后对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成多张图像分别对应的押韵歌词,接下来将多张图像分别对应的押韵歌词转换为语音,最后将语音和预置的背景音乐合成在一起,生成图像音乐。本发明实施例中只需要终端提供多张图像就可以生成图像音乐,通过对多张图像进行场景识别,然后自动匹配出与场景相适应的描述文字,再对场景的描述文字进行押韵设计,这样生成的押韵歌词符合音乐特色,进而将押韵歌词转为语音,最后将押韵歌词与背景音乐合成,就可以形成一段图像音乐。图像音乐中的押韵歌词是根据终端输入的图像生成的,因此输出的图像音乐可与用户所提供的图像素材紧密关联起来,通过输入图像就可以自动生成与场景的描述文字匹配的音乐。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应用场景来进行具体说明。
本发明实施例中,可以通过人工智能(Artificial Intelligence)编织歌曲,是一种具有前瞻性的尝试,为以后AI应用在更大场景提供了借鉴的价值。接下来以嘻哈音乐的生成为例,TTR(Text To Rap)即文本转为Rap Music,主要对多张输入图像进行场景识别,然后给出一段符合该场景的描述语,进而根据基于图像内容识别进行字幕的押韵设计,最后通过TTS,将这段对场景的描述语转为语音,后续加入特定节奏的背景音乐,将背景音乐和文本语音无缝连接以完成一首嘻哈音乐,最终生成一段具有嘻哈特性的美妙音乐。TTR通过对任何输入图像进行场景识别并给出描述语,通过一系列处理将这段描述转为嘻哈音乐,利用AI编织歌曲,是一种具有前瞻性的尝试,为以后AI应用在更大场景提供了借鉴的价值。
本发明实施例中主要基于对多张输入图像进行场景识别,最后将这多张输入图像组合成配有嘻哈音乐的MV(视频)。用户从手机客户端小程序输入多张图像,多张图像上传后,利用深度学习神经网络模型对图像场景进行识别,并自动匹配该场景的相关描述语,然后将这些相关描述语通过图像内容识别进行押韵设计,最后通过TTS技术将押韵后的文字转为语音,
如图2所示,本发明实施例提供的嘻哈音乐的生成流程示意图。本系统主要包含四部分内容:
1、用户从手机客户端上传或者选择多张图像。获取用户输入图像。
2、图像场景识别。对输入的多张图像进行场景识别,并给出相关描述语。
3、押韵设计。对相关描述语进行押韵设计。
4、将文本转为语音。将通过押韵的描述语转换为语音。
其中,当用户在手机客户端提交多张图像时,将对多张输入图像进行识别,然后对输入图像进行场景识别,自动匹配出与之相适应的描述语,再根据这些描述语的押韵情况进行押韵设计和补充,这是一个人工智能算法,通过输入的图片直接给出描述语,其实也就是直接判断这是一个怎么样的场景,例如小鸟蓝天飞,有人在海滩等,进而通过TTS将文本转为语音,再通过后续的加工处理生成一段嘻哈音乐。
接下来对各个部分内容进行分别举例说明,请参阅图3所示,为用户从手机客户端上传多张图像的示意图。用户拍摄多张图片或者选择手机存在的多张图片从手机客户端上传。以手机客户端图像上传示例。当用户点击“上传图片”按钮时,则会出现两种选择模式,一种为“拍照”模式,一种为“从手机相册选择”模式。每一次可以选择多张图片上传。
接下来进行图像场景识别,自动匹配文字。根据用户上传图片进行图像场景识别,对每张图像进行场景识别,并分别为每张图像自动匹配文字,再将每张图像对应的文字串联起来。对于输入图像生成文字注解,训练神经图像注解模型能使其成功几率最大化,深度学习神经网络模型,与这里的注解模型的含义是否相同。并能生成新奇的图像描述。例如可以生成如下注解:一个灰衣男子挥舞棒子,黑衣男子旁观。又如,可以生成如下注解:一辆大巴车“坐”在一个人旁边。
接下来对本发明实施例提供的文字押韵设计方法进行举例说明。本发明涉及AI图项目描述生成应用领域,特别涉及到基于关键词的押韵匹配方法,主要流程如下:
1、获取图像描述生成的文字信息,得到对应汉字的汉语拼音,以及韵脚。
2、从汉语拼音中排列出所有可能韵母,为每个韵母都预先生成多句不同场景的描述文字,并且在一句内双押韵,通过此方法补充第二句歌词。预先生成方式如下:把汉语拼音所有的韵母可能都列出来。每个韵母写“风景”“人物”“自拍”“食物”这四类场景的押韵歌词。
3、通过数据样本找到描述文字韵母分配规律,找出最多分配的几种韵母,为这几种韵母增大数据量。
4、通过图像描述和文字描述生成抓取场景,通过文字描述生成的文字韵母来匹配押韵资料。
5、最后技术呈现出完整的押韵歌词作品。
本技术方案基于图像识别技术,图像描述生成技术,将用户上传的图片转化为文字,并通过图像描述生成的第一句话最后一个词韵母和图像场景来匹配任意第二句歌词,最终生成押韵歌词。然后再给AI演唱歌曲。形成用户上传图片,AI作词演唱一个完整的交互过程,互动性和趣味性大大加强。其中,多个歌词可用于匹配押韵资料,例如使用歌词第一句最后一个词的韵母来匹配出第二句歌词。
首先获取图像描述生成,根据用户上传的照片,AI图像描述生成技术得图像描述信息,每个图片会得到一句话的描述。
然后获取汉语拼音,常用中文汉字不到8000个,预先生成常用汉字的拼音表,根据汉字建立索引加载到内存,需要获取汉字拼音时,可通过索引在O(1)时间就可以快速获取。
举例说明如下:
阿a1,啊a1,呵a1,腌a1,a1,a1,啊a2,呵a2,嗄a2,啊a3呵a3,啊a4,呵a4,阿a5,啊a5,呵a5,哀ai1,挨ai1,埃ai1,唉ai1,尊zun1,遵zun1,樽zun1,鳟zun1,撙zun3,作zuo1,嘬zuo1,作zuo2,昨zuo2,琢zuo2,笮zuo2,左zuo3,佐zuo3,撮zuo3,作zuo4,做zuo4,坐zuo4,座zuo4,凿zuo4,柞zuo4,怍zuo4,胙zuo4,阼zuo4,唑zuo4,祚zuo4,酢zuo4。
接下来获取韵脚,查韵母表可知有35中韵母,以汉字“变”为例子,三拼音韵母会包含复韵母和单韵母,比如ian包含了韵母i和韵母an,所以在获取韵母是要先看三韵母再看复韵母,最后看单韵母。实现方式将所有韵母放在一个数组里,并且按照韵母长度按照大到小排序,然后依次比对字符串。
获取图像描述场景,根据图像描述的文字,匹配场景所含关键字,来分辨对应场景,目前主要分风景、人物、食物、自拍四类场景,下图为部分对应关键词。
举例说明如下:场景为风景时,可以有多种描述语,例如,风景阳光,风景大海吗,风景雨,风景花,风景草。场景为人物时可以有多种描述语,例如人物男孩,人物女孩。场景为食物时可以有多种描述语,例如食物美食。场景为自拍时可以有多种描述语,例如自拍照片,自拍头像。
接下来根据场景和韵脚获取补充歌词。首先为不同的场景不同韵脚生成对应的嘻哈话术,高频率的韵脚生成更多的话术供选择。然后根据韵脚和场景,随机选择出一个匹配的话术。
举例说明如下:
a风景差不多的话,有差不多的牵挂
a人物差不多的大,有差不多的羡煞
a食物差不多的炸,有差不多的火辣
ia美食差不多的虾,有差不多的惊吓
ia人物差不多的融洽,有差不多的我们俩
ia食物差不多的家,有差不多的晚霞
ua风景差不多的野花,有差不多的美如画
ua人物差不多的话,有差不多的八卦
ce通用差不多的失落,有差不多的在鞭策
che风景差不多的河,有差不多的清澈
ge美食差不多的馋,有差不多的乳鸽
re风景差不多的晒,有差不得的炎热
te人物差不多的表白,有差不多的在忐忑
ye通用差不多的深夜,是差不多的在哽咽
ze通用差不多的人生,是差不多的做选择
he风景差不多的河,有差不多的隔阂
ke人物差不多的客,有差不多的苛刻
ke食物差不多的喝,有差不多的口渴
最终生成的押韵歌词可以如下:
一群人走在繁华的街道上[图像描述]
差不多的忙,有差不多的遗忘[补充歌词]
城市中的高楼大厦[图像描述]
差不多的景,有差不多的牵挂[补充歌词]
和朋友聚餐时的美食照片[图像描述]
差不多的脸,有差不多的想念[补充歌词]
最后对文本转为语音进行举例说明,请参阅图4所示,对描述语进行文本分析,为后续特征提取提供信息,主要包括:发音生成、韵律预测、词性预测等,得到文本分析的结果后,对该结果进行语言学特征提取并转花成神经网络的输入向量。使用时长模型进行音素级别的时长预测。使用时长模型来预测音素,从而可以得到更好的节奏。由于嘻哈与普通说话不同,具有节奏性,因此在时长预测的结果上做了一个自适应的调整,时长自适应是指通过神经网络自动调整,使每个字都能在节拍上的同时保证原始的发音不改变。其中,嘻哈歌唱输入,这个是指描述语。声学特征预测是包括:韵律预测和词性预测。嘻哈节奏输入中的嘻哈节奏通过神经网络预测得到。背景音乐可以是节奏较快的背景音乐。嘻哈歌词是指对图像进行场景识别后得到的描述语,再进行押韵设计后得到。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图5-a所示,本发明实施例提供的一种音乐的生成装置500,可以包括:场景识别模块501、押韵匹配模块502、语音生成模块503、音乐生成模块504,其中,
场景识别模块501,用于对终端中已输入的多张图像分别进行场景识别,生成分别匹配于所述多张图像对应的场景的描述文字;
押韵匹配模块502,用于对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成所述多张图像分别对应的押韵歌词;
语音生成模块503,用于将所述多张图像分别对应的押韵歌词转换为语音;
音乐生成模块504,用于将所述语音和预置的背景音乐合成在一起,生成图像音乐。
在本发明的一些实施例中,请参阅图5-b所示,所述场景识别模块501,包括:
场景确定模块5011,根据深度学习神经网络模型对所述多张图像进行场景识别,得到识别出的图像特征,并根据所述图像特征确定所述多张图像分别对应的场景;
图像描述模块5012,用于根据所述识别出的图像特征和所述多张图像分别对应的场景进行图像描述生成,得到所述多张图像对应的场景分别匹配出的描述文字。
在本发明的一些实施例中,请参阅图5-c所示,所述押韵匹配模块502,包括:
韵脚获取模块5021,用于从所述每张图像对应的场景匹配出的描述文字中获取所述描述文字中最后一个词所对应的汉语拼音和韵脚;
歌词生成模块5022,用于根据所述描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于所述多张图像的押韵歌词,其中,每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚。
在本发明的一些实施例中,请参阅图5-d所示,所述歌词生成模块5022,包括:
韵母排列模块50221,用于从所述描述文字中最后一个词所对应的汉语拼音中排列出所有韵母;
规律确定模块50222,用于根据排列出的所有韵母确定韵母分配规律;
韵脚确定模块50223,用于从符合韵母分配规律的韵母中确定出所述描述文字中最后一个词所对应的韵脚;
歌词获取模块50224,用于根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于所述多张图像的押韵歌词,所述歌词模板中预先配置有对应于多种场景与多种韵脚的歌词文字。
在本发明的一些实施例中,请参阅图5-e所示,所述歌词获取模块50224,包括:
描述歌词生成模块502241,用于根据所述每张图像对应的场景匹配出的描述文字生成图像描述歌词;
补充歌词生成模块502242,用于根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词;
歌词合成模块502243,用于将所述图像描述歌词与所述补充歌词合成在一起,得到所述押韵歌词。
在本发明的一些实施例中,所述多张图像通过所述终端进入拍照模式后采集得到;或,
所述多张图像从所述终端的相册中获取到。
在本发明的一些实施例中,请参阅图5-f所示,所述语音生成模块503,包括:
文本分析模块5031,用于对所述多张图像分别对应的押韵歌词进行文本分析,得到文本分析结果;
语言学特征提取模块5032,用于从所述文本分析结果中提取出语言学特征;
韵律特征和词性特征获取模块5033,用于根据所述语言学特征进行音素级别的时长预测与时长自适应调整,得到与所述押韵歌词匹配的韵律特征和词性特征;
发音生成模块5034,用于基于所述语言学特征和所述与所述押韵歌词匹配的韵律特征和词性特征,使用神经网络模型进行发音生成,得到所述语音。
通过前述实施例对本发明的举例说明可知,首先对终端中已输入的多张图像分别进行场景识别,生成分别匹配于多张图像对应的场景的描述文字,然后对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成多张图像分别对应的押韵歌词,接下来将多张图像分别对应的押韵歌词转换为语音,最后将语音和预置的背景音乐合成在一起,生成图像音乐。本发明实施例中只需要终端提供多张图像就可以生成图像音乐,通过对多张图像进行场景识别,然后自动匹配出与场景相适应的描述文字,再对场景的描述文字进行押韵设计,这样生成的押韵歌词符合音乐特色,进而将押韵歌词转为语音,最后将押韵歌词与背景音乐合成,就可以形成一段图像音乐。图像音乐中的押韵歌词是根据终端输入的图像生成的,因此输出的图像音乐可与用户所提供的图像素材紧密关联起来,通过输入图像就可以自动生成与场景的描述文字匹配的音乐。
本发明实施例还提供了一种终端,如图6所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point ofSales,销售终端)、车载电脑等任意终端设备,以终端为手机为例:
图6示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图6,手机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图6中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图6中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端所包括的处理器1080还具有控制执行以上由终端执行的方法流程。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (13)
1.一种音乐的生成方法,其特征在于,所述方法包括:
对终端中已输入的多张图像分别进行场景识别,生成分别匹配于所述多张图像对应的场景的描述文字;
从每张图像对应的场景匹配出的描述文字中获取所述描述文字中最后一个词所对应的汉语拼音和韵脚;
根据所述描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于所述多张图像的押韵歌词,其中,每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚;
将所述多张图像分别对应的押韵歌词转换为语音;
将所述语音和预置的背景音乐合成在一起,生成图像音乐。
2.根据权利要求1所述的方法,其特征在于,所述对终端中已输入的多张图像分别进行场景识别,生成分别匹配于所述多张图像对应的场景的描述文字,包括:
根据深度学习神经网络模型对所述多张图像进行场景识别,得到识别出的图像特征,并根据所述图像特征确定所述多张图像分别对应的场景;
根据所述识别出的图像特征和所述多张图像分别对应的场景进行图像描述生成,得到所述多张图像对应的场景分别匹配出的描述文字。
3.根据权利要求1所述的方法,其特征在于,所述根据所述描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于所述多张图像的押韵歌词,包括:
从所述描述文字中最后一个词所对应的汉语拼音中排列出所有韵母;
根据排列出的所有韵母确定韵母分配规律;
从符合韵母分配规律的韵母中确定出所述描述文字中最后一个词所对应的韵脚;
根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于所述多张图像的押韵歌词,所述歌词模板中预先配置有对应于多种场景与多种韵脚的歌词文字。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于所述多张图像的押韵歌词,包括:
根据所述每张图像对应的场景匹配出的描述文字生成图像描述歌词;
根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词;
将所述图像描述歌词与所述补充歌词合成在一起,得到所述押韵歌词。
5.根据权利要求1所述的方法,其特征在于,所述多张图像通过所述终端进入拍照模式后采集得到;或,
所述多张图像从所述终端的相册中获取到。
6.根据权利要求1所述的方法,其特征在于,所述将所述多张图像分别对应的押韵歌词转换为语音,包括:
对所述多张图像分别对应的押韵歌词进行文本分析,得到文本分析结果;
从所述文本分析结果中提取出语言学特征;
根据所述语言学特征进行音素级别的时长预测与时长自适应调整,得到与所述押韵歌词匹配的韵律特征和词性特征;
基于所述语言学特征和所述与所述押韵歌词匹配的韵律特征和词性特征,使用神经网络模型进行发音生成,得到所述语音。
7.一种音乐的生成装置,其特征在于,所述音乐的生成装置包括:
场景识别模块,用于对终端中已输入的多张图像分别进行场景识别,生成分别匹配于所述多张图像对应的场景的描述文字;
押韵匹配模块,用于对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配,生成所述多张图像分别对应的押韵歌词;
语音生成模块,用于将所述多张图像分别对应的押韵歌词转换为语音;
音乐生成模块,用于将所述语音和预置的背景音乐合成在一起,生成图像音乐;
所述押韵匹配模块,包括:
韵脚获取模块,用于从所述每张图像对应的场景匹配出的描述文字中获取所述描述文字中最后一个词所对应的汉语拼音和韵脚;
歌词生成模块,用于根据所述描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于所述多张图像的押韵歌词,其中,每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚。
8.根据权利要求7所述的装置,其特征在于,所述场景识别模块,包括:
场景确定模块,根据深度学习神经网络模型对所述多张图像进行场景识别,得到识别出的图像特征,并根据所述图像特征确定所述多张图像分别对应的场景;
图像描述模块,用于根据所述识别出的图像特征和所述多张图像分别对应的场景进行图像描述生成,得到所述多张图像对应的场景分别匹配出的描述文字。
9.根据权利要求7所述的装置,其特征在于,所述歌词生成模块,包括:
韵母排列模块,用于从所述描述文字中最后一个词所对应的汉语拼音中排列出所有韵母;
规律确定模块,用于根据排列出的所有韵母确定韵母分配规律;
韵脚确定模块,用于从符合韵母分配规律的韵母中确定出所述描述文字中最后一个词所对应的韵脚;
歌词获取模块,用于根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于所述多张图像的押韵歌词,所述歌词模板中预先配置有对应于多种场景与多种韵脚的歌词文字。
10.根据权利要求9所述的装置,其特征在于,所述歌词获取模块,包括:
描述歌词生成模块,用于根据所述每张图像对应的场景匹配出的描述文字生成图像描述歌词;
补充歌词生成模块,用于根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词;
歌词合成模块,用于将所述图像描述歌词与所述补充歌词合成在一起,得到所述押韵歌词。
11.根据权利要求7所述的装置,其特征在于,所述多张图像通过所述终端进入拍照模式后采集得到;或,
所述多张图像从所述终端的相册中获取到。
12.根据权利要求7所述的装置,其特征在于,所述语音生成模块,包括:
文本分析模块,用于对所述多张图像分别对应的押韵歌词进行文本分析,得到文本分析结果;
语言学特征提取模块,用于从所述文本分析结果中提取出语言学特征;
韵律特征和词性特征获取模块,用于根据所述语言学特征进行音素级别的时长预测与时长自适应调整,得到与所述押韵歌词匹配的韵律特征和词性特征;
发音生成模块,用于基于所述语言学特征和所述与所述押韵歌词匹配的韵律特征和词性特征,使用神经网络模型进行发音生成,得到所述语音。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710920219.7A CN109599079B (zh) | 2017-09-30 | 2017-09-30 | 一种音乐的生成方法和装置 |
PCT/CN2018/107361 WO2019062716A1 (zh) | 2017-09-30 | 2018-09-25 | 一种音乐的生成方法和装置 |
EP18861474.7A EP3637283A4 (en) | 2017-09-30 | 2018-09-25 | MUSIC GENERATION PROCESS AND APPARATUS |
US16/660,407 US11301641B2 (en) | 2017-09-30 | 2019-10-22 | Method and apparatus for generating music |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710920219.7A CN109599079B (zh) | 2017-09-30 | 2017-09-30 | 一种音乐的生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109599079A CN109599079A (zh) | 2019-04-09 |
CN109599079B true CN109599079B (zh) | 2022-09-23 |
Family
ID=65900671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710920219.7A Active CN109599079B (zh) | 2017-09-30 | 2017-09-30 | 一种音乐的生成方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11301641B2 (zh) |
EP (1) | EP3637283A4 (zh) |
CN (1) | CN109599079B (zh) |
WO (1) | WO2019062716A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599079B (zh) | 2017-09-30 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 一种音乐的生成方法和装置 |
CN110516110B (zh) * | 2019-07-22 | 2023-06-23 | 平安科技(深圳)有限公司 | 歌曲生成方法、装置、计算机设备及存储介质 |
CN110288972B (zh) * | 2019-08-07 | 2021-08-13 | 北京新唐思创教育科技有限公司 | 语音合成模型训练方法、语音合成方法及装置 |
CN110781835B (zh) * | 2019-10-28 | 2022-08-23 | 中国传媒大学 | 一种数据处理方法、装置、电子设备和存储介质 |
CN110808019A (zh) * | 2019-10-31 | 2020-02-18 | 维沃移动通信有限公司 | 一种歌曲生成方法及电子设备 |
CN110740262A (zh) * | 2019-10-31 | 2020-01-31 | 维沃移动通信有限公司 | 背景音乐的添加方法、装置及电子设备 |
CN111063006A (zh) * | 2019-12-16 | 2020-04-24 | 北京亿评网络科技有限公司 | 基于图像的文学作品生成方法、装置、设备及存储介质 |
CN111935537A (zh) * | 2020-06-30 | 2020-11-13 | 百度在线网络技术(北京)有限公司 | 音乐短片视频生成方法、装置、电子设备和存储介质 |
CN111970579A (zh) * | 2020-08-14 | 2020-11-20 | 苏州思萃人工智能研究所有限公司 | 基于ai视频理解的视频音乐适配方法与系统 |
WO2022056113A1 (en) * | 2020-09-09 | 2022-03-17 | Yao The Bard, Llc | Systems and methods capable of generating rhythmic repetition based on textual input |
CN112487153B (zh) * | 2020-12-17 | 2024-04-05 | 广州华多网络科技有限公司 | 歌词内容生成方法及其相应的装置、设备、介质 |
CN112712783B (zh) * | 2020-12-21 | 2023-09-29 | 北京百度网讯科技有限公司 | 生成音乐的方法和装置、计算机设备和介质 |
CN113591472B (zh) * | 2021-01-21 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 歌词生成方法、歌词生成模型训练方法、装置及电子设备 |
US12032922B2 (en) * | 2021-05-12 | 2024-07-09 | Microsoft Technology Licensing, Llc | Automated script generation and audio-visual presentations |
CN113360001A (zh) * | 2021-05-26 | 2021-09-07 | 北京百度网讯科技有限公司 | 输入文本的处理方法、装置、电子设备和存储介质 |
CN113488010B (zh) * | 2021-06-25 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 一种音乐数据的生成方法、装置、设备以及存储介质 |
CN113923517B (zh) * | 2021-09-30 | 2024-05-07 | 北京搜狗科技发展有限公司 | 一种背景音乐生成方法、装置及电子设备 |
CN116561350B (zh) * | 2023-07-07 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 一种资源生成方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1372246A (zh) * | 2001-01-05 | 2002-10-02 | 松下电器产业株式会社 | 与文本语音系统相配的韵律模板 |
CN104391980A (zh) * | 2014-12-08 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 生成歌曲的方法和装置 |
CN107169430A (zh) * | 2017-05-02 | 2017-09-15 | 哈尔滨工业大学深圳研究生院 | 基于图像处理语义分析的阅读环境音效增强系统及方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1020843B1 (en) * | 1996-09-13 | 2008-04-16 | Hitachi, Ltd. | Automatic musical composition method |
FR2785438A1 (fr) * | 1998-09-24 | 2000-05-05 | Baron Rene Louis | Procede et dispositif de generation musicale |
JP4150198B2 (ja) * | 2002-03-15 | 2008-09-17 | ソニー株式会社 | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 |
KR100658869B1 (ko) * | 2005-12-21 | 2006-12-15 | 엘지전자 주식회사 | 음악생성장치 및 그 운용방법 |
US7669122B2 (en) * | 2007-11-19 | 2010-02-23 | O'dell Robert Barry | Using input of rhyming characters for computer text entry of Chinese characters |
JP5669065B2 (ja) * | 2010-11-18 | 2015-02-12 | 株式会社たちこぎライダー | 同韻語検索装置、同韻語検索方法、同方法を実現するプログラム、及び同プログラムを記録するコンピュータ読み取り可能な記録媒体 |
CN103927366B (zh) * | 2014-04-21 | 2017-03-22 | 苏州大学 | 一种根据图片自动播放歌曲的方法及系统 |
US20180374461A1 (en) * | 2014-08-22 | 2018-12-27 | Zya, Inc, | System and method for automatically generating media |
CN106547789B (zh) * | 2015-09-22 | 2021-02-05 | 阿里巴巴集团控股有限公司 | 一种歌词生成方法及装置 |
US9721551B2 (en) * | 2015-09-29 | 2017-08-01 | Amper Music, Inc. | Machines, systems, processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptions |
US10854180B2 (en) * | 2015-09-29 | 2020-12-01 | Amper Music, Inc. | Method of and system for controlling the qualities of musical energy embodied in and expressed by digital music to be automatically composed and generated by an automated music composition and generation engine |
US9792534B2 (en) * | 2016-01-13 | 2017-10-17 | Adobe Systems Incorporated | Semantic natural language vector space |
CN105955938A (zh) * | 2016-04-25 | 2016-09-21 | 广州酷狗计算机科技有限公司 | 一种编辑歌词的方法和装置 |
CN106657817A (zh) * | 2016-12-28 | 2017-05-10 | 杭州趣维科技有限公司 | 一种应用于手机平台的自动制作相册mv的处理方法 |
CN107122492A (zh) * | 2017-05-19 | 2017-09-01 | 北京金山安全软件有限公司 | 基于图片内容的歌词生成方法和装置 |
CN109599079B (zh) | 2017-09-30 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 一种音乐的生成方法和装置 |
US20190147060A1 (en) * | 2017-11-10 | 2019-05-16 | R2 Ipr Limited | Method for automatic generation of multimedia message |
CN108334540B (zh) * | 2017-12-15 | 2020-11-10 | 深圳市腾讯计算机系统有限公司 | 媒体信息的展示方法和装置、存储介质、电子装置 |
GB2580937B (en) * | 2019-01-31 | 2022-07-13 | Sony Interactive Entertainment Europe Ltd | Method and system for generating audio-visual content from video game footage |
WO2020181234A1 (en) * | 2019-03-07 | 2020-09-10 | Yao-The Bard, Llc. | Systems and methods for transposing spoken or textual input to music |
CN109819179B (zh) * | 2019-03-21 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 一种视频剪辑方法和装置 |
JP7440651B2 (ja) * | 2020-02-11 | 2024-02-28 | エーアイエムアイ インコーポレイテッド | 音楽コンテンツの生成 |
JP7189169B2 (ja) * | 2020-02-25 | 2022-12-13 | 株式会社豊田中央研究所 | 自動作曲システム及び自動作曲方法 |
-
2017
- 2017-09-30 CN CN201710920219.7A patent/CN109599079B/zh active Active
-
2018
- 2018-09-25 WO PCT/CN2018/107361 patent/WO2019062716A1/zh unknown
- 2018-09-25 EP EP18861474.7A patent/EP3637283A4/en active Pending
-
2019
- 2019-10-22 US US16/660,407 patent/US11301641B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1372246A (zh) * | 2001-01-05 | 2002-10-02 | 松下电器产业株式会社 | 与文本语音系统相配的韵律模板 |
CN104391980A (zh) * | 2014-12-08 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 生成歌曲的方法和装置 |
CN107169430A (zh) * | 2017-05-02 | 2017-09-15 | 哈尔滨工业大学深圳研究生院 | 基于图像处理语义分析的阅读环境音效增强系统及方法 |
Non-Patent Citations (1)
Title |
---|
音频信息识别与检索技术;颜永红;《现代物理知识》;20090618(第03期);第11-14页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3637283A4 (en) | 2020-08-12 |
US11301641B2 (en) | 2022-04-12 |
US20200051536A1 (en) | 2020-02-13 |
EP3637283A1 (en) | 2020-04-15 |
CN109599079A (zh) | 2019-04-09 |
WO2019062716A1 (zh) | 2019-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599079B (zh) | 一种音乐的生成方法和装置 | |
US20230015606A1 (en) | Named entity recognition method and apparatus, device, and storage medium | |
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
CN110019919B (zh) | 一种押韵歌词的生成方法和装置 | |
CN106652996B (zh) | 一种提示音生成方法和装置、移动终端 | |
CN109783798A (zh) | 文本信息添加图片的方法、装置、终端及存储介质 | |
WO2021008538A1 (zh) | 语音交互方法及相关装置 | |
CN110740262A (zh) | 背景音乐的添加方法、装置及电子设备 | |
US11470240B2 (en) | Method and terminal device for matching photgraphed objects and preset text imformation | |
CN109815363A (zh) | 歌词内容的生成方法、装置、终端及存储介质 | |
CN111491123A (zh) | 视频背景处理方法、装置及电子设备 | |
CN108198162A (zh) | 照片处理方法、移动终端、服务器、系统、存储介质 | |
CN109784165A (zh) | 诗词内容的生成方法、装置、终端及存储介质 | |
CN109391842B (zh) | 一种配音方法、移动终端 | |
CN110808019A (zh) | 一种歌曲生成方法及电子设备 | |
CN111915744B (zh) | 增强现实图像的交互方法、终端和存储介质 | |
CN110781327B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN109302528A (zh) | 一种拍照方法、移动终端及计算机可读存储介质 | |
CN115238111A (zh) | 一种图片显示方法及电子设备 | |
CN115579023A (zh) | 视频处理方法、视频处理装置和电子设备 | |
CN112492400A (zh) | 互动方法、装置、设备以及通信方法、拍摄方法 | |
US20210224310A1 (en) | Electronic device and story generation method thereof | |
CN112489619A (zh) | 语音处理方法、终端设备及存储介质 | |
CN110647635A (zh) | 一种图像管理方法及电子设备 | |
CN116708920B (zh) | 应用于合成虚拟形象的视频处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |