CN106203465A - 一种基于图像识别生成曲谱的方法及装置 - Google Patents

一种基于图像识别生成曲谱的方法及装置 Download PDF

Info

Publication number
CN106203465A
CN106203465A CN201610474170.2A CN201610474170A CN106203465A CN 106203465 A CN106203465 A CN 106203465A CN 201610474170 A CN201610474170 A CN 201610474170A CN 106203465 A CN106203465 A CN 106203465A
Authority
CN
China
Prior art keywords
music score
chinese operas
cluster
local
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610474170.2A
Other languages
English (en)
Inventor
刘霄
文石磊
乔慧
刁雪飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610474170.2A priority Critical patent/CN106203465A/zh
Publication of CN106203465A publication Critical patent/CN106203465A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于图像识别生成曲谱的方法及装置,其中的方法包括:根据通过语义标签确定的语义标签提取模型获得与预定图片相关的标签;根据所述标签确定局部曲谱聚类,并对所述局部曲谱聚类进行扩展;将经过所述扩展后的所述局部曲谱聚类还原为完整的曲谱。该方法根据语义标签提取模型获得的与预定图片相关的标签确定局部曲谱聚类,从而生成完整的曲谱,通过对预定图片即可实现对乐谱的识别,使用户可以通过较简单的操作及使用较少的数据流量和存储空间即可实现将目标曲谱转换为对于的旋律,提高了用户的使用体验。

Description

一种基于图像识别生成曲谱的方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种基于图像识别生成曲谱的方法及装置。
背景技术
曲谱是一种表示乐曲旋律的基本元素,使用者可以通过印刷或书写在纸张上的曲谱对乐曲进行学习、演奏或传播等。
但是,由于现有的曲谱是基于特定的音乐知识编排的,对于不懂音乐的使用者来说存在识别上的困难。另外,在通过计算机设备对乐曲进行保存、修改或传输等操作时,通常需要以特定的文件格式先将乐曲的旋律保存成乐曲文件后再进行其它操作,这样保存的乐曲文件不仅占用一定数量的传输流量和存储空间,而且还需要通过特定的播放器进行播放才能听到该乐曲对应的旋律,导致用户对获取该乐曲的过程较繁琐,难以获得较好的用户体验。
发明内容
本发明解决的技术问题之一是通过计算机设备对乐曲进行保存、修改或传输等操作的过程较繁琐,难以获得较好的用户体验。
根据本发明一方面的一个实施例,提供了一种基于图像识别生成曲谱的方法,包括:
根据通过语义标签确定的语义标签提取模型获得与预定图片相关的标签;
根据所述标签确定局部曲谱聚类,并对所述局部曲谱聚类进行扩展;
将经过所述扩展后的所述局部曲谱聚类还原为完整的曲谱。
根据本发明另一方面的一个实施例,提供了一种基于图像识别生成曲谱的装置,包括:
用于根据通过语义标签确定的语义标签提取模型获得与预定图片相关的标签的装置;
用于根据所述标签确定局部曲谱聚类,并对所述局部曲谱聚类进行扩展的装置;
用于将经过所述扩展后的所述局部曲谱聚类还原为完整的曲谱的装置。
由于本实施例根据语义标签提取模型获得的与预定图片相关的标签确定局部曲谱聚类,从而生成完整的曲谱,通过对预定图片即可实现对乐谱的识别,使用户可以通过较简单的操作及使用较少的数据流量和存储空间即可实现将目标曲谱转换为对应的旋律,提高了用户的使用体验。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了根据本发明实施例一基于图像识别生成曲谱的方法的流程图。
图2示出了根据本发明实施例一生成所述局部曲谱聚类的具体流程图。
图3示出了根据本发明实施例一对所述局部曲谱聚类进行扩展的流程图。
图4示出了根据本发明实施例又一基于图像识别生成曲谱的方法的流程图。
图5示出了根据本发明实施例一训练图库的示意图。
图6示出了根据本发明实施例一训练曲谱的示意图。
图7示出了根据本发明实施例将两个标签产生的小段曲谱进行拼接的示意图。
图8示出了根据本发明实施例一基于图像识别生成曲谱的装置的框图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
图1是根据本发明一个实施例的基于图像识别生成曲谱的方法的流程图。
结合图1中所示,本实施例所述的基于图像识别生成曲谱的方法,包括如下步骤:
S110、根据通过语义标签确定的语义标签提取模型获得与预定图片相关的标签;
S120、根据所述标签确定局部曲谱聚类,并对所述局部曲谱聚类进行扩展;
S130、将经过所述扩展后的所述局部曲谱聚类还原为完整的曲谱。
下面对各步骤做进一步详细介绍。
步骤S110中,首先对图片库中的图片进行训练,以确定每个图片包括了哪些语义标签,该语义标签可以是单个的汉字,也可以是包括但不限于“高山”、“流水”、“孤舟”、“清泉”、“山丘”等的词语,通过对图片库中的图片进行训练后,将这些图片中包括的所有语义标签建立一个语义标签提取模型。该语义标签提取模型可用于针对任何图片识别出对应的标签。
步骤S120中,可以将曲库中的每半个小节作为一个曲谱单元,将整个曲库中所有曲谱拆分为一定数量的曲谱单元,并可基于相似性将曲谱单元聚类为一些局部曲谱单元聚类。将相似性满足预定条件的曲谱单元组成局部曲谱聚类模型,对于局部曲谱聚类模型中的每个局部曲谱聚类,可根据利用局部曲谱聚类相邻的概率对拒不曲谱聚类进行扩展。
步骤S130中,在确定了每个标签的局部曲谱聚类及进行扩展后,可根据每个局部曲谱聚类之间的相似性将各个标签所对应的局部曲谱聚类进行拼接。例如,标签“山丘”和“流水”对应的局部曲谱聚类之间具有最高的相似性,则可以将“山丘”和“流水”对应的局部曲谱聚类进行拼接,从而组成一段曲谱,再将每个标签对应的局部曲谱聚类都按照相似性进行拼接后生产完整的曲谱。
可选地,在一个实施例中,根据所述标签确定局部曲谱聚类包括:
将所述语义标签对应的曲谱单元通过预定聚类算法生成所述局部曲谱聚类。
其中,所述的曲谱单元可以是曲库中所有曲谱的任意一个半小节,将整个曲库中所有曲谱拆分为若干的曲谱单元,然后可根据“编辑距离”计算曲谱单元之间的相似性,并可基于相似性将曲谱单元通过包括但不限于“Kmeans”等算法聚类为一些局部曲谱单元聚类。将相似性满足预定条件的曲谱单元组成局部曲谱聚类模型,不相似的曲谱单元不在一个聚类中。
进一步作为可选地,如图2所示,生成所述局部曲谱聚类包括:
S210、确定所述语义标签对应的曲谱单元之间的相似性。
例如,本实施例采用的编辑距离是指在两个曲谱单元之间,由一个转成另一个所需的最少编辑操作次数。可以采用的编辑操作通常包括将一个字符替换成另一个字符、插入一个字符或删除一个字符等。一般来说,编辑距离越小,两个曲谱单元的相似度越大。
S220、根据所述相似性将所述曲谱单元进行聚类以生成所述局部曲谱聚类。
在确定了曲谱单元之间的相似性之后,可根据该相似性对任意一个曲谱单元进行聚类,从而生成局部曲谱聚类,通常情况是将相似性满足阈值的若干个曲谱单元归为一个局部曲谱聚类,而对于相似性不满足阈值的若干个曲谱单元则不会归为一个局部曲谱聚类。
可选地,在一个实施例中,如图3中所示,对所述局部曲谱聚类进行扩展包括以下步骤:
S310、确定所述局部曲谱聚类之间的相邻概率。
其中,每两个相邻的半小节曲谱可视为一个相邻关系,并根据该相邻关系可得到每两个局部曲谱单元聚类是否相邻。通过对该相邻的关系进行统计,即可得到所有局部曲谱聚类之间的相邻概率。
S320、若所述相邻概率大于预定值,则将相邻的局部曲谱聚类扩展至所述局部曲谱聚类中。
在确定了所有局部曲谱聚类之间的相邻概率之后,可以将一个预定值与所有的相邻概率进行比较,对于大于该预定值的局部曲谱聚类,可以归为一个局部曲谱聚类模型中,在该局部曲谱聚类模型中包括的局部曲谱聚类模型均可以视为对局部去谱聚类的扩展。
进一步作为可选地,确定所述局部曲谱聚类之间的相邻概率包括:
根据曲库中的所有曲谱单元之间的相邻关系确定每两个所述局部曲谱单元聚类是否相邻的概率。
例如,可以将每两个相邻的半小节曲谱视为构成了一个相邻关系,并根据该相邻关系对所有曲库中的曲谱进行统计,从而得到每两个局部曲谱单元聚类是否相邻。通过对该相邻的关系进行统计,即可得到所有局部曲谱聚类之间的相邻概率。
可选地,通过语义标签确定的语义标签提取模型包括:
通过对预定的图片库、曲谱以及对应歌词的曲库进行识别,将所述识别的结果建立所述语义标签提取模型。
其中,利用预定的图片库训练可以得到语义标签提取模型,在输入的训练图片上标注有关键词,每个关键词包含两种类型:1)图片中出现的物体,例如图片中有高山、海水、天空等;2)图片的色调和意境,例如图片是灰暗的、晴朗的、愤怒的、压抑的。针对每一种可能的关键词,可利用图片和标注用神经网络训练一个二分类分类器。该分类器的输入是一张图片,输出是针对一个关键词,可以确定该图片是否出现该关键词或者符合该关键词的色调和意境。将该图片中包括的关键词或者色调意境建立一个模型,即为语义标签提取模型。
结合图4中所示,本实施例所述的又一基于图像识别生成曲谱的方法,针对如图5所示的训练图库和如图6所示的训练曲谱,可以包括如下的步骤:
S410、根据所述训练图库中的图片和语义标签训练得到语义标签提取模型。
以所述训练图库的最下方的图片为例,该图片中包括的关键词是“瀑布”和“山丘”,则可将“瀑布”和“山丘”建立一个语义标签提取模型。
S420、根据曲谱和歌词得到局部曲谱聚类模型、语义标签与局部曲谱聚类的相关性模型、局部曲谱聚类之间的相邻概率模型。
其中,局部曲谱聚类模型是将所有曲库中的每半个小节作为一个曲谱单元,将所有相似的曲谱聚集到同一个聚类上生成的模型,一个可选的生成局部曲谱聚类的过程为:首先定义曲谱单元的距离为“编辑距离”,然后利用Kmeans算法进行计算,即可以得到局部曲谱聚类。该模型的形式可以为:给定一个曲谱半小节,可以产出该小节对应的聚类。
所述的编辑距离是指两个字符串之间,由一个转成另一个所需最少的编辑的次数,所述编辑的操作包括插入、删除、替换。编辑距离可以通过动态规划算法求解,如果编辑距离越小,则认为两个字符串越相似。在本实施例中可以每半个小节的曲谱单元看作一个字符串。所述字符包括不同音调、时长的音符,求两个曲谱单元的编辑距离就相当于求解两个字符串的编辑距离。以简谱为例:1231这个曲谱单元到345-这个曲谱单元的编辑距离是4,即4个音符都要被替换;1231到151-这个曲谱单元的编辑距离是3,即第1个音符不变,后3个音符被替换。
对于语义标签与局部曲谱聚类的相关性模型,可在已有的曲库中搜索歌词中出现的语义标签(图片库中包含的标签),根据歌词对应的曲谱单元可以找到一个局部曲谱单元聚类,得到每一个局部曲谱单元聚类与每一个关键词的相关性,从而建立语义标签与局部曲谱聚类的相关性模型。该模型的形式可以为:给定一个曲谱单元聚类,可以知道其与每个语义标签的相关性(一个0到1的值)。
对于局部曲谱聚类之间的相邻概率模型,可将每两个相邻的半小节曲谱构成一个相邻关系,对所有曲库中的曲谱进行统计,可以得到每两个局部曲谱单元聚类是否相邻的概率。该模型表现可以为:给定一个局部曲谱聚类,得到下一个位置为不同局部曲谱聚类的概率。
S430、根据图片和语义标签提取模型得到图片相关的标签。
具体的,可以根据语义标签提取模型,对于每一个语义标签,判断该图片是否可以提取得到该语义标签。若可以,则将所有提取获得的标签作为与预定图片相关的标签。
S440、根据提取到的标签,依据标签局部曲谱聚类相关性,得到一个局部曲谱聚类。
具体的,对于每一个提取到的语义标签,可根据语义标签与局部曲谱聚类的相关性模型,并利用重要性采样得到一个局部曲谱聚类。
S450、对于每个得到的局部曲谱聚类,利用局部曲谱聚类相邻的概率进行扩展。
具体的,结合图6所示,根据局部曲谱聚类之间的相邻概率模型,并利用重要性采样将该段局部曲谱聚类前后各扩展一定长度。
S460、利用每个扩展后的连续的局部曲谱聚类,利用局部曲谱聚类还原为曲谱。
具体的,结合图6所示,根据局部曲谱聚类模型,对于每一个局部曲谱聚类,从训练曲库里采样还原为一小段曲谱。
S470、将关键词得到的各段曲谱进行拼接。
具体的,结合图7所示,将所有标签产生的小段曲谱进行拼接,得到完整的曲谱。例如,该图片中的关键词“山丘”和“流水”对应的语义标签以及该语义标签与局部曲谱聚类的相关性确定的两个局部曲谱聚类拼接为一个完整的曲谱。
本发明实施例所述的基于图像识别生成曲谱的方法可根据语义标签提取模型获得的与预定图片相关的标签确定局部曲谱聚类,从而生成完整的曲谱,通过对预定图片即可实现对乐谱的识别,使用户可以通过较简单的操作及使用较少的数据流量和存储空间即可实现将目标曲谱转换为对应的旋律,提高了用户的使用体验。
结合图8中所示,本实施例所述的基于图像识别生成曲谱的装置,包括如下装置:
用于根据通过语义标签确定的语义标签提取模型获得与预定图片相关的标签的装置(以下简称“标签获取装置”)810;
用于根据所述标签确定局部曲谱聚类,并对所述局部曲谱聚类进行扩展的装置(以下简称“聚类扩展装置”)820;
用于将经过所述扩展后的所述局部曲谱聚类还原为完整的曲谱的装置(以下简称“曲谱还原装置”)830。
下面对各装置做进一步详细介绍。
在标签获取装置810中,首先对图片库中的图片进行训练,以确定每个图片包括了哪些语义标签,该语义标签可以是单个的汉字,也可以是包括但不限于“高山”、“流水”、“孤舟”、“清泉”、“山丘”等的词语,通过对图片库中的图片进行训练后,将这些图片中包括的所有语义标签建立一个语义标签提取模型。该语义标签提取模型可用于针对任何图片识别出对应的标签。
在聚类扩展装置820中,可以将曲库中的每半个小节作为一个曲谱单元,将整个曲库中所有曲谱拆分为一定数量的曲谱单元,并可基于相似性将曲谱单元聚类为一些局部曲谱单元聚类。将相似性满足预定条件的曲谱单元组成局部曲谱聚类模型,对于局部曲谱聚类模型中的每个局部曲谱聚类,可根据利用局部曲谱聚类相邻的概率对拒不曲谱聚类进行扩展。
在曲谱还原装置830中,在确定了每个标签的局部曲谱聚类及进行扩展后,可根据每个局部曲谱聚类之间的相似性将各个标签所对应的局部曲谱聚类进行拼接。例如,标签“山丘”和“流水”对应的局部曲谱聚类之间具有最高的相似性,则可以将“山丘”和“流水”对应的局部曲谱聚类进行拼接,从而组成一段曲谱,再将每个标签对应的局部曲谱聚类都按照相似性进行拼接后生产完整的曲谱。
可选地,在一个实施例中,聚类扩展装置820包括:
用于将所述语义标签对应的曲谱单元通过预定聚类算法生成所述局部曲谱聚类的装置(聚类生成装置)。
例如,在所述聚类生成装置中,所述的曲谱单元可以是曲库中所有曲谱的任意一个半小节,聚类生成装置可将整个曲库中所有曲谱拆分为若干的曲谱单元,然后可根据“编辑距离”计算曲谱单元之间的相似性,并可基于相似性将曲谱单元通过包括但不限于“Kmeans”等算法聚类为一些局部曲谱单元聚类。将相似性满足预定条件的曲谱单元组成局部曲谱聚类模型,不相似的曲谱单元不在一个聚类中。该局部曲谱聚类模型的形式可以为:给定一个曲谱的半小节,可以产出该小节对应的聚类。
进一步作为可选地,在所述聚类生成装置中包括:
用于确定所述语义标签对应的曲谱单元之间的相似性的装置(以下简称“相似性确定装置”);
用于根据所述相似性将所述曲谱单元进行聚类以生成所述局部曲谱聚类的装置(以下简称“局部曲谱聚类生成装置”)。
在相似性确定装置中采用的编辑距离是指在两个曲谱单元之间,由一个转成另一个所需的最少编辑操作次数。可以采用的编辑操作通常包括将一个字符替换成另一个字符、插入一个字符或删除一个字符等。一般来说,编辑距离越小,两个曲谱单元的相似度越大
在确定了曲谱单元之间的相似性之后,可通过局部曲谱聚类生成装置根据该相似性对任意一个曲谱单元进行聚类,从而生成局部曲谱聚类,通常情况是将相似性满足阈值的若干个曲谱单元归为一个局部曲谱聚类,而对于相似性不满足阈值的若干个曲谱单元则不会归为一个局部曲谱聚类。
可选地,在一个实施例中,在曲谱还原装置830中包括:
用于确定所述局部曲谱聚类之间的相邻概率的装置(以下简称“概率确定装置”);
用于若所述相邻概率大于预定值,则将相邻的局部曲谱聚类扩展至所述局部曲谱聚类中的装置(以下简称“曲谱扩展装置”)。
其中,每两个相邻的半小节曲谱可视为一个相邻关系,可根据该相邻关系通过所述概率确定装置可得到每两个局部曲谱单元聚类是否相邻。通过对该相邻的关系进行统计,即可得到所有局部曲谱聚类之间的相邻概率。
在确定了所有局部曲谱聚类之间的相邻概率之后,可以通过所述曲谱扩展装置将一个预定值与所有的相邻概率进行比较,对于大于该预定值的局部曲谱聚类,可以归为一个局部曲谱聚类模型中,在该局部曲谱聚类模型中包括的局部曲谱聚类模型均可以视为对局部去谱聚类的扩展。
进一步作为可选地,在概率确定装置中包括:
用于根据曲库中的所有曲谱单元之间的相邻关系确定每两个所述局部曲谱单元聚类是否相邻的概率的装置(以下简称“相邻概率确定装置”)。
可以将每两个相邻的半小节曲谱视为构成了一个相邻关系,并通过所述相邻概率确定装置根据该相邻关系对所有曲库中的曲谱进行统计,从而得到每两个局部曲谱单元聚类是否相邻。通过对该相邻的关系进行统计,即可得到所有局部曲谱聚类之间的相邻概率。
可选地,在一个实施例中,标签获取装置810包括:
用于通过对预定的图片库、曲谱以及对应歌词的曲库进行识别,将所述识别的结果建立所述语义标签提取模型的装置(以下简称“语义标签模型建立装置”)。
利用预定的图片库训练可以得到语义标签提取模型,在输入的训练图片上标注有关键词,每个关键词包含两种类型:1)图片中出现的物体,例如图片中有高山、海水、天空等;2)图片的色调和意境,例如图片是灰暗的、晴朗的、愤怒的、压抑的。针对每一种可能的关键词,可通过语义标签模型建立装置利用图片和标注用神经网络训练一个二分类分类器。该分类器的输入是一张图片,输出是针对一个关键词,可以确定该图片是否出现该关键词或者符合该关键词的色调和意境。将该图片中包括的关键词或者色调意境建立一个模型,即为语义标签提取模型。
结合图4中所示,本实施例所述的又一基于图像识别生成曲谱的装置,针对如图5所示的训练图库和如图6所示的训练曲谱,可以包括如下的步骤:
S410、根据所述训练图库中的图片和语义标签训练得到语义标签提取模型。
以所述训练图库的最下方的图片为例,该图片中包括的关键词是“瀑布”和“山丘”,则可将“瀑布”和“山丘”建立一个语义标签提取模型。
S420、根据曲谱和歌词得到局部曲谱聚类模型、语义标签与局部曲谱聚类的相关性模型、局部曲谱聚类之间的相邻概率模型。
其中,局部曲谱聚类模型是将所有曲库中的每半个小节作为一个曲谱单元,将所有相似的曲谱聚集到同一个聚类上生成的模型,一个可选的生成局部曲谱聚类的过程为:首先定义曲谱单元的距离为“编辑距离”,然后利用Kmeans算法进行计算,即可以得到局部曲谱聚类。该模型的形式可以为:给定一个曲谱半小节,可以产出该小节对应的聚类。
对于语义标签与局部曲谱聚类的相关性模型,可在已有的曲库中搜索歌词中出现的语义标签(图片库中包含的标签),根据歌词对应的曲谱单元可以找到一个局部曲谱单元聚类,得到每一个局部曲谱单元聚类与每一个关键词的相关性,从而建立语义标签与局部曲谱聚类的相关性模型。该模型的形式可以为:给定一个曲谱单元聚类,可以知道其与每个语义标签的相关性(一个0到1的值)。
对于局部曲谱聚类之间的相邻概率模型,可将每两个相邻的半小节曲谱构成一个相邻关系,对所有曲库中的曲谱进行统计,可以得到每两个局部曲谱单元聚类是否相邻的概率。该模型表现可以为:给定一个局部曲谱聚类,得到下一个位置为不同局部曲谱聚类的概率。
S430、根据图片和语义标签提取模型得到图片相关的标签。
具体的,标签获取装置810可以根据语义标签提取模型,对于每一个语义标签,判断该图片是否可以提取得到该语义标签。若可以,则将所有提取获得的标签作为与预定图片相关的标签。
S440、根据提取到的标签,依据标签局部曲谱聚类相关性,得到一个局部曲谱聚类。
具体的,对于每一个提取到的语义标签,聚类扩展装置820可根据语义标签与局部曲谱聚类的相关性模型,并利用重要性采样得到一个局部曲谱聚类。
S450、对于每个得到的局部曲谱聚类,利用局部曲谱聚类相邻的概率进行扩展。
具体的,结合图6所示,聚类扩展装置820可根据局部曲谱聚类之间的相邻概率模型,并利用重要性采样将该段局部曲谱聚类前后各扩展一定长度。
S460、利用每个扩展后的连续的局部曲谱聚类,利用局部曲谱聚类还原为曲谱。
具体的,结合图6所示,曲谱还原装置830可根据局部曲谱聚类模型,对于每一个局部曲谱聚类,从训练曲库里采样还原为一小段曲谱。
S470、将关键词得到的各段曲谱进行拼接。
具体的,结合图7所示,曲谱还原装置830可对所有标签产生的小段曲谱进行拼接,得到完整的曲谱。例如,该图片中的关键词“山丘”和“流水”对应的语义标签以及该语义标签与局部曲谱聚类的相关性确定的两个局部曲谱聚类拼接为一个完整的曲谱。
本发明实施例所述的基于图像识别生成曲谱的装置可根据语义标签提取模型获得的与预定图片相关的标签确定局部曲谱聚类,从而生成完整的曲谱,通过对预定图片即可实现对乐谱的识别,使用户可以通过较简单的操作及使用较少的数据流量和存储空间即可实现将目标曲谱转换为对应的旋律,提高了用户的使用体验。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。

Claims (12)

1.一种基于图像识别生成曲谱的方法,包括:
根据通过语义标签确定的语义标签提取模型获得与预定图片相关的标签;
根据所述标签确定局部曲谱聚类,并对所述局部曲谱聚类进行扩展;
将经过所述扩展后的所述局部曲谱聚类还原为完整的曲谱。
2.根据权利要求1所述的方法,根据所述标签确定局部曲谱聚类包括:
将所述语义标签对应的曲谱单元通过预定聚类算法生成所述局部曲谱聚类,所述的曲谱单元包括曲库中所有曲谱的任意一个半小节。
3.根据权利要求2所述的方法,生成所述局部曲谱聚类包括:
确定所述语义标签对应的曲谱单元之间的相似性;
根据所述相似性将所述曲谱单元进行聚类以生成所述局部曲谱聚类。
4.根据权利要求1所述的方法,对所述局部曲谱聚类进行扩展包括:
确定所述局部曲谱聚类之间的相邻概率;
若所述相邻概率大于预定值,则将相邻的局部曲谱聚类扩展至所述局部曲谱聚类中。
5.根据权利要求4所述的方法,确定所述局部曲谱聚类之间的相邻概率包括:
根据曲库中的所有曲谱单元之间的相邻关系确定每两个所述局部曲谱单元聚类是否相邻的概率。
6.根据权利要求1所述的方法,通过语义标签确定的语义标签提取模型包括:
通过对预定的图片库、曲谱以及对应歌词的曲库进行识别,将所述识别的结果建立所述语义标签提取模型。
7.一种基于图像识别生成曲谱的装置,包括:
用于根据通过语义标签确定的语义标签提取模型获得与预定图片相关的标签的装置;
用于根据所述标签确定局部曲谱聚类,并对所述局部曲谱聚类进行扩展的装置;
用于将经过所述扩展后的所述局部曲谱聚类还原为完整的曲谱的装置。
8.根据权利要求7所述的装置,其中,用于根据所述标签确定局部曲谱聚类,并对所述局部曲谱聚类进行扩展的装置包括:
用于将所述语义标签对应的曲谱单元通过预定聚类算法生成所述局部曲谱聚类的装置,在该装置中所述的曲谱单元包括曲库中所有曲谱的任意一个半小节。
9.根据权利要求8所述的装置,其中,用于将所述语义标签对应的曲谱单元通过预定聚类算法生成所述局部曲谱聚类的装置包括:
用于确定所述语义标签对应的曲谱单元之间的相似性的装置;
用于根据所述相似性将所述曲谱单元进行聚类以生成所述局部曲谱聚类的装置。
10.根据权利要求7所述的装置,其中,用于根据所述标签确定局部曲谱聚类,并对所述局部曲谱聚类进行扩展的装置包括:
用于确定所述局部曲谱聚类之间的相邻概率的装置;
用于若所述相邻概率大于预定值,则将相邻的局部曲谱聚类扩展至所述局部曲谱聚类中的装置。
11.根据权利要求10所述的装置,其中,用于确定所述局部曲谱聚类之间的相邻概率的装置包括:
用于根据曲库中的所有曲谱单元之间的相邻关系确定每两个所述局部曲谱单元聚类是否相邻的概率的装置。
12.根据权利要求7所述的装置,其中,用于根据通过语义标签确定的语义标签提取模型获得与预定图片相关的标签的装置包括:
用于通过对预定的图片库、曲谱以及对应歌词的曲库进行识别,将所述识别的结果建立所述语义标签提取模型的装置。
CN201610474170.2A 2016-06-24 2016-06-24 一种基于图像识别生成曲谱的方法及装置 Pending CN106203465A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610474170.2A CN106203465A (zh) 2016-06-24 2016-06-24 一种基于图像识别生成曲谱的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610474170.2A CN106203465A (zh) 2016-06-24 2016-06-24 一种基于图像识别生成曲谱的方法及装置

Publications (1)

Publication Number Publication Date
CN106203465A true CN106203465A (zh) 2016-12-07

Family

ID=57460790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610474170.2A Pending CN106203465A (zh) 2016-06-24 2016-06-24 一种基于图像识别生成曲谱的方法及装置

Country Status (1)

Country Link
CN (1) CN106203465A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644630A (zh) * 2017-09-28 2018-01-30 清华大学 基于神经网络的旋律生成方法及装置
CN108416359A (zh) * 2018-03-09 2018-08-17 湖南女子学院 一种乐谱识别系统及识别方法
CN108805171A (zh) * 2018-05-07 2018-11-13 广东数相智能科技有限公司 图像至音乐旋律的转换方法、装置与计算机可读存储介质
WO2018209845A1 (zh) * 2017-05-19 2018-11-22 北京金山安全软件有限公司 基于图片内容的故事生成方法和装置
CN108960250A (zh) * 2018-05-07 2018-12-07 广东数相智能科技有限公司 图像至旋律的转换方法、装置与计算机可读存储介质
CN110299049A (zh) * 2019-06-17 2019-10-01 韶关市启之信息技术有限公司 一种电子乐谱的智能展现方法
CN114419634A (zh) * 2022-03-28 2022-04-29 之江实验室 一种基于特征规则的曲谱解析方法与装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6593936B1 (en) * 1999-02-01 2003-07-15 At&T Corp. Synthetic audiovisual description scheme, method and system for MPEG-7
CN104951554A (zh) * 2015-06-29 2015-09-30 浙江大学 为风景照配上符合其意境的诗句的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6593936B1 (en) * 1999-02-01 2003-07-15 At&T Corp. Synthetic audiovisual description scheme, method and system for MPEG-7
CN104951554A (zh) * 2015-06-29 2015-09-30 浙江大学 为风景照配上符合其意境的诗句的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018209845A1 (zh) * 2017-05-19 2018-11-22 北京金山安全软件有限公司 基于图片内容的故事生成方法和装置
CN107644630A (zh) * 2017-09-28 2018-01-30 清华大学 基于神经网络的旋律生成方法及装置
CN107644630B (zh) * 2017-09-28 2020-07-28 北京灵动音科技有限公司 基于神经网络的旋律生成方法、装置及存储介质
CN108416359A (zh) * 2018-03-09 2018-08-17 湖南女子学院 一种乐谱识别系统及识别方法
CN108805171A (zh) * 2018-05-07 2018-11-13 广东数相智能科技有限公司 图像至音乐旋律的转换方法、装置与计算机可读存储介质
CN108960250A (zh) * 2018-05-07 2018-12-07 广东数相智能科技有限公司 图像至旋律的转换方法、装置与计算机可读存储介质
CN108960250B (zh) * 2018-05-07 2020-08-25 广东数相智能科技有限公司 图像至旋律的转换方法、装置与计算机可读存储介质
CN108805171B (zh) * 2018-05-07 2020-11-06 广东数相智能科技有限公司 图像至音乐旋律的转换方法、装置与计算机可读存储介质
CN110299049A (zh) * 2019-06-17 2019-10-01 韶关市启之信息技术有限公司 一种电子乐谱的智能展现方法
CN110299049B (zh) * 2019-06-17 2021-12-17 韶关市启之信息技术有限公司 一种电子乐谱的智能展现方法
CN114419634A (zh) * 2022-03-28 2022-04-29 之江实验室 一种基于特征规则的曲谱解析方法与装置

Similar Documents

Publication Publication Date Title
CN106203465A (zh) 一种基于图像识别生成曲谱的方法及装置
CN108509465B (zh) 一种视频数据的推荐方法、装置和服务器
Ramanathan et al. Video event understanding using natural language descriptions
CN108460014A (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN107818105A (zh) 应用程序的推荐方法及服务器
CN106446109A (zh) 语音文件摘要的获取方法和装置
CN104102639B (zh) 基于文本分类的推广触发方法和装置
CN103608826A (zh) 利用网络信息挖掘的视频内产品注释
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN101606155A (zh) 内容检索装置
CN101620738B (zh) 一种生成多媒体概念图的方法
CN107430604A (zh) 图像内容的语义表示
TWI387890B (zh) A method of converting a hypertext label language file into a plain text file
CN107748745B (zh) 一种企业名称关键字提取方法
WO2020103899A1 (zh) 用于生成图文信息的方法和用于生成图像数据库的方法
CN104866511A (zh) 一种添加多媒体文件的方法及设备
CN102844755A (zh) 提取命名实体的方法
CN102682082A (zh) 基于内容结构特征的网络Flash搜索系统及搜索方法
CN103440262A (zh) 基于相关反馈和Bag-of-Features的图像检索系统及方法
CN103853792A (zh) 一种图片语义自动标注方法与系统
CN103927177A (zh) 基于LDA模型和PageRank算法建立特征接口有向图的方法
CN108304377A (zh) 一种长尾词的提取方法及相关装置
CN111429341A (zh) 一种视频处理方法、设备及计算机可读存储介质
CN103488782A (zh) 一种利用歌词识别音乐情感的方法
CN104462272A (zh) 搜索需求分析方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication