CN112487153B - 歌词内容生成方法及其相应的装置、设备、介质 - Google Patents
歌词内容生成方法及其相应的装置、设备、介质 Download PDFInfo
- Publication number
- CN112487153B CN112487153B CN202011504362.6A CN202011504362A CN112487153B CN 112487153 B CN112487153 B CN 112487153B CN 202011504362 A CN202011504362 A CN 202011504362A CN 112487153 B CN112487153 B CN 112487153B
- Authority
- CN
- China
- Prior art keywords
- lyric
- words
- sentences
- tag words
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000000463 material Substances 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000033764 rhythmic process Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000001427 coherent effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种歌词内容生成方法及其相应的装置、设备、介质,其中,所述方法包括:对与预选配曲相统一的主题所具有的标签词进行语义整理,使其语义上逻辑连贯;按照所述主题的标签词形成的序列构造多个语句,构成歌词素材;从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合,使其中至少部分语句的句尾相互押韵;按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式。本申请能够仅依赖于简单的自然短语自动创作具有押韵特征的歌词内容,特别适用于在线娱乐领域。
Description
技术领域
本申请涉及人工智能领域,具体涉及一种歌词内容生成方法,及其相应的歌词内容生成装置、电子设备以及非易失性存储介质。
背景技术
歌词内容自动创作在一些在线娱乐领域能满足一定的需求,因此,相关技术的研究方兴未艾。
作为当前流行的在先技术,CN110362696A号专利公开了一种歌词生成方法,其包括以下步骤:接收用户的输入信息,并将所述输入信息转换为对应的向量数据,其中,所述输入信息包括待生成歌曲的主题、待生成歌曲的句子数量以及每个句子的长度;基于双向长短期记忆的循环神经网络模型对向量数据和已生成的字组成的输入序列进行编码,以将输入序列转换为一组隐状态;基于包含汉语语言模型N-grams的长短期记忆的循环神经网络模型对隐状态进行解码,以生产待生成歌曲的当前字;重复执行上述步骤,以生成待生成歌曲的全部句子。
以上引用的在先技术至少如下技术问题:
首先,由于其高度依赖于用户输入的信息用于生成歌词,因此,要求用户输入大量的关键词,本质上局限于其智能化程度不足所致,导致用户输入很繁琐,不利于用户创作的积极性。
其次,同样由于该方法所应用的技术手段的智能化程度的不足,其所生产的歌词表述机械,无押韵,而押韵是歌词的一个基本艺术手段,无押韵的歌词难以与配曲相配合形成优秀的作品。
总体而言,现有技术用于生成歌词内容的一些常用手段普遍存在因智能化程度不足而导致的作品效果不佳的问题。
发明内容
本申请的目的旨在提供一种歌词内容生成方法,同时相应提供一种歌词内容生成装置,以及与该歌词内容生成方法相应的一种电子设备和一种非易失性存储介质。
为满足本申请的各个目的,本申请采用如下技术方案:
适应于本申请的目的之一而提供的一种歌词内容生成方法,包括如下步骤:
对与预选配曲相统一的主题所具有的标签词进行语义整理,使其语义上逻辑连贯;
按照所述主题的标签词形成的序列构造多个语句,构成歌词素材;
从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合,使其中至少部分语句的句尾相互押韵;
按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式。
部分实施例中,所述方法还包括如下前置步骤:
根据给定的自然短语确定与其在语义上相关联的以多个标签词描述的所述主题。
部分实施例中,根据给定的自然短语确定与其在语义上相关联的以多个标签词描述的所述主题的步骤,包括:
获取自然短语,匹配出与其在语义上相关联的主题,该主题以多个标签词进行描述;
以所述主题的标签词优化从歌词库中提取的主题词,将优化后的主题词相匹配的配曲确定为预选配曲;
将所述主题确定为与预选配曲相统一的主题。
部分实施例中,对与预选配曲相统一的主题所具有的标签词进行语义整理,使其语义上逻辑连贯的步骤,包括:
依据所述主题的标签词构成的序列对倒排索引表进行语义召回,获得联想词序列;
基于联想词序列,采用N-gram模型对标签词进行一级排序;
基于一级排序的结果,采用Bert模型对标签词进行二级排序。
部分实施例中,按照所述主题的标签词形成的序列构造多个语句,构成歌词素材的步骤,包括:
将所述主题所具有的多个标签词构成的序列馈入至预训练的人工神经网络编码器中进行编码,生成语义向量;
由该人工神经网络将所述语义向量作为初始状态传入其解码器中进行解码,获得相应的语句;
以多个所述的语句按序组装构造所述的歌词素材。
部分实施例中,从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合,使其中至少部分语句的句尾相互押韵的步骤,包括:
对所述歌词素材中的语句进行文本分析,获得其韵律标注信息;
依据所述韵律标注信息生成韵律标注词图;
基于所述韵律标注词图进行解码,以句尾存在押韵关系的语句序列构造为所最佳路径组合,以经过的最佳路径所包含的语句构成所述的歌词内容。
部分实施例中,按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式的步骤,包括:
调用所述预选配曲的曲谱信息;
根据所述曲谱信息中的时间信息标记所述歌词内容中的各个语句相对应的时刻信息;
以标记了全部语句的时刻信息的歌词内容输出用于播放,以完成歌词内容的格式化。
适应本申请的目的之一而提供的一种歌词内容生成装置,其包括:
主题分析模块,用于基于用户应答返回的自然短语进行语义分析,确定与其相应的以多个标签词描述的主题;
曲词生成模块,用于根据所述主题所具有的标签词从歌曲库中匹配出预选配曲,并生成可播放格式的歌词内容;
媒体合成模块,用于根据所述歌词内容与预选配曲以预设人声模型进行歌唱合成,生成可播放的流媒体;
媒体播放模块,用于推送所述流媒体给用户播放。
适应于本申请的目的之一而提供的一种电子设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行所述的歌词内容生成方法。
适应于本申请的目的之一而提供一种非易失性存储介质,其以计算机可读指令的形式存储用依据所述的歌词内容生成方法所述实现的计算机程序,该计算机程序被计算机调用时,执行该方法所包括的步骤。
相对于现有技术,本申请具有如下优势:
本申请在确定了与预选配曲相匹配的主题的基础上,先对该主题的多个标签词进行语义整理,在确保其语义连贯的基础上才开始构造包含多个语句的歌词素材,然后在歌词素材的语句确定出符合押韵要求的多个语句构成的最佳路径组合,构成最终的歌词内容,最终只需将歌词内容格式化为可播放格式即可用于播放。由此,本申请实现了智能化生成具有押韵特征的歌词的功能,丰富了歌词自动化创作手段的技术内涵。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为适于部署本申请的一种网络架构的原理示意图;
图2为本申请的歌词内容生成方法的典型实施例的流程示意图;
图3为图2中步骤S11所包括的具体步骤所形成的流程示意图;
图4为图2中步骤S12所包括的具体步骤所形成的流程示意图;
图5为图2中步骤S13所包括的具体步骤所形成的流程示意图;
图6为图2中步骤S14所包括的具体步骤所形成的流程示意图;
图7为本申请的歌词内容生成方法的另一实施例的流程示意图;
图8为图7中步骤S10所包括的具体步骤所形成的流程示意图;
图9为本申请的歌词内容生成装置的结构原理框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称的服务器80部署在云端,主要用于部署本申请的人工神经网络,其仅为逻辑概念上的服务器,代表着用于实现该人工神经网络的整个服务机群,通过这一逻辑上的服务器来为相关的第三方服务器、终端设备例如图中所示的智能手机81和个人计算机82等调用方提供服务,对调用方的请求进行响应并反馈相应的结果。
在理解上述所揭示的与本申请技术方案相关的相关应用环境和开发环境的基础上,请参阅如下说明继续了解本申请的多种实施方式。需要指出的是,本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
请参阅图2,本申请的典型实施例中,一种歌词内容生成方法,由安装并运行在所述服务器上的应用程序负责实施,包括如下步骤:
步骤S11、对与预选配曲相统一的主题所具有的标签词进行语义整理,使其语义上逻辑连贯:
在需要生成歌词内容之前,通常会先行预选具体的歌曲,即所述的预选配曲,为了确保预选配曲与即将生成的歌词内容之间在风格上统一,通常会为预选配曲与即将生成的歌词统一于同一主题,所述的主题以多个标签词来加以描述,关于确定所述主题所采用的技术手段将在其他实施例中揭示,本步骤旨在对所述主题的多个标签词进行语义上的整理,故对所述主题的确定过程暂且不表。
为了实现对主题所具有的标签词的语义整理,请参阅图3,一个实施例中,按照如下具体步骤执行:
步骤S111、依据所述主题的标签词构成的序列对倒排索引表进行语义召回,获得联想词序列:
倒排索引源于实际应用中需要根据属性的值来查找记录。倒排索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。可以理解,通过实施倒排索引表语义召回这一手段,可以逆向获取所述主题的各个标签词相对应的联想词,构成联想词序列,扩大了各个标签词的语义表达范围,在所述主题既定的基础上,扩展了歌词内容的内涵。
步骤S112、基于联想词序列,采用N-gram模型对标签词进行一级排序:
N-Gram是一种基于统计语言模型的算法,以其构造的N-gram模型的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。本申请中将所述联想词系列作为所述的文本导入该模型中进行处理。每一个所述的字节片段称为gram,模型通过对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。由此可见,通过应用N-gram模型,可以确定出各个联想词与各个标签词之间的关联程度及前后关系,依照标签词与联想词相组装获得的概率乘积进行排序,初步梳理出联想词之间的排列顺序,实现对所述的标签词的一级排序。实践中,这一排序效果在语义上尚嫌粗糙,因此可以通过后续步骤来加以进一步的优化和提升。
步骤S113、基于一级排序的结果,采用Bert模型对标签词进行二级排序:
前一步骤获得的排序所得的标签词序列,在本步骤中采用经预训练的Bert模型进行精细排序,实现二级排序。
BBERT模型的全称是:Bidirectional Encoder Representations fromTransformer,即基于转换器的双向编码表示。BERT模型由谷歌公司所提出,其目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定自然语义处理任务中作微调,最终应用于该自然语义处理任务。
文本中的字/词,包括所述的标签词序列,通常都用一维向量来表示(一般称之为“词向量”);在此基础上,Bert模型会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维词向量作为文本的语义表示。特别地,我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近,如此一来,由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此,BERT模型的主要输入是所述标签词序列中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是所述标签词序列中各个字/词融合了全文语义信息后的向量表示。
由此可见,通过Bert模型的处理,便可实现对所述主题所具有的标签词的语义整理,使其语义上逻辑连贯,更符合歌词内容创造的要求。
必要时,还可依据一定的预设算法对标签词微调顺序,以解决Bert模型对相近义标签词的困惑。
步骤S12、按照所述主题的标签词形成的序列构造多个语句,构成歌词素材:
在确定所述标签词的顺序形成的标签词序列的基础上,便可依据顺序排列的标签词构造相关语句,以便构成歌词素材。
为了实现歌词素材所包括的语句的构造,可采用经预训练的人工神经网络Seq2seq模型来实施。Seq2Seq模型是输出的长度不确定时采用的模型,在该模型中输入一个中文序列,本实施例中输入所述的标签词序列,然后输出它对应的联想词,输出的部分的结果进一步用于预测后面的输出,根据上面的例子,由此获得多个或长或短的语句。
Seq2seq属于encoder-decoder结构的一种,encoder-decoder结构基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoder。encoder负责将输入的文本序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码,获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量,也可以对最后一个隐状态做一个变换得到语义向量,还可以将输入序列的所有隐含状态做一个变换得到语义变量。
而decoder则负责根据语义向量生成指定的序列,这个过程也称为解码,最简单的方式是将encoder得到的语义向量作为初始状态输入到decoder的RNN中,得到输出序列。
请参阅图4,根据Seq2seq的原理,本步骤可以按照如下具体步骤执行:
步骤S121、将所述主题所具有的多个标签词构成的序列馈入至预训练的人工神经网络编码器中进行编码,生成语义向量:首先将所述标签词序列馈入Seq2seq模型中,经其内部的编码器处理以便生成所述的语义向量。
步骤S122、由该人工神经网络将所述语义向量作为初始状态传入其解码器中进行解码,获得相应的语句:由所述编码器生成的语义向量被作为初始状态传入所述的解码器中进行解码后,便可生成多个或长或短的语句。
步骤S123、以多个所述的语句按序组装构造所述的歌词素材:从Seq2seq模型输出的语句便构成歌词素材所需的候选语句。
由此可以理解,将所述多个标签词构成的序列导入预训练的Seq2seq模型,便可基于各标签词构造出歌词素材所需的多个语句。
步骤S13、从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合,使其中至少部分语句的句尾相互押韵:
所述标签词经语义整理和排序,被据以生成的述的歌词素材,歌词素材中包括大量的语句,这些语句在语义上均大致相接近或者连贯,但是,为了适应歌词具有押韵特征的需要,本步骤中,可以利用Viterbi算法确定构成最终的歌词内容所需的语句之间的最佳路径组合。
Viterbi算法属于隐马尔科夫模型的算法之一,又称维特比算法,是一个通用的解码算法,是基于动态规划的求序列最短路径的方法。所述歌词素材中的多个语句可被理解为导入供维特比算法处理的一个序列,每个语句构成其节点,运行维特比算法的结果,便是确定构成所述最短路径的节点所形成的路径,成为所述的最佳路径组合。
为了确定所述的最佳路径组合,并且确保这一最佳路径组合中具有句尾押韵的特征,请参阅图5,可以按照如下具体步骤处理:
步骤S131、对所述歌词素材中的语句进行文本分析,获得其韵律标注信息:
《清华大学学报(自然科学版)》2011年第51卷第9期发表了一篇《基于Viterbi解码的中文合成音库韵律短语边界自动标注》的专论,该文提出了一种基于Viterbi解码的中文合成音库韵律短语边界自动标注方法,以降低大语料库单元拼接合成系统的构建成本。该方法分为模型训练和韵律标注两个阶段:模型训练阶段得到频谱,基谱和音素时长的上下文相关隐马尔科夫模型;标注阶段借助训练的模型采用Viterbi解码完成韵律短语自动标注。该方法可被参考并应用于本申请的,而本申请对其引用主要包括对韵律短语自动标注相关功能的引用。具体而言,将所述歌词素材的语句作为序列导入参照该方法所训练形成的模型中,可以实现对歌词素材的文本分析,从而获得其韵律标注信息,重点在于获取其中每个语句的末字的韵律标注信息。
步骤S132、依据所述韵律标注信息生成韵律标注词图:
根据前述进行文本分析的结果,在获得所述韵律标注信息的基础上,可以进行所述韵律标注词图的自动生成,以便在该词图的约束下进行Veterbi解码。在这一过程中,可以适当结合在韵律标注中考虑的韵律边界类型进行处理。
步骤S133、基于所述韵律标注词图进行解码,以句尾存在押韵关系的语句序列构造为所最佳路径组合,以经过的最佳路径所包含的语句构成所述的歌词内容:
基于所述的韵律标注词图,适用Veterbi算法对其进行解码,依照前述的原理,由Veterbi依据该词图决策出句尾存在押韵关系的多个节点,形成所述的最佳路径组合,由此对应从歌词素材中确定出多个语句集合,这一语句集合中的每一个语句均具有押韵关系,以此便构成最终的歌词内容。
步骤S14、按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式:
在获得所述的歌词内容后,为了便于播放,可以对歌词内容进行格式化。请参阅图6,具体可按照如下步骤处理:
步骤S141、调用所述预选配曲的曲谱信息:
从一个曲谱信息库中调用所述预选配置相对应的曲谱信息,该曲谱信息以时间信息的形式标记了歌词内容中的各个语句与音符之间的时间关系,由此可用于实现所述歌词内容中的各个语句与曲谱信息在时域上的匹配。
步骤S142、根据所述曲谱信息中的时间信息标记所述歌词内容中的各个语句相对应的时刻信息:
根据所述曲谱信息中的时间信息,逐一为歌词内容中的每一个语句标记相对应的时刻信息。需要提醒的时,一般歌词内容均会包括一段或多段主歌部分以及副歌部分,且往往还会循环演唱,适应这一特点,可按照曲谱信息中对主歌与副歌的标记情况来编排歌词内容,以便使歌词内容与所述预选配曲完整配合。
步骤S143、以标记了全部语句的时刻信息的歌词内容输出用于播放,以完成歌词内容的格式化:
适应将所述歌词内容应用于播放的需要,可以将已经完成了时刻信息标记的所述歌词内容存储为歌词文件,由此完成歌词内容的格式化,后续当预选配曲被播放时,便可调用该歌词文件进行同步播放。
参阅图7,本申请的另一实施例中,可以在前一实施例的基础上,增设前置步骤S10,该步骤根据给定的自然短语确定与其在语义上相关联的以多个标签词描述的所述主题。
具体而言,如图8所示,步骤S10可以被细分为如下具体步骤:
步骤S101、获取自然短语,匹配出与其在语义上相关联的主题,该主题以多个标签词进行描述:
所述的自然短语,通常是一个简易句式,可以是一个具有表意能力的词汇或句式,可以采用问答的形式获取。
获取该自然短语时,一个示例中,可以向终端用户发送一个提问信息,将该终端用户应答所述提问信息的回答视为自然短语,然后利用LDA的无监督的方法从终端用户的自然短语进行处理,通过分词并检索与各个分词语义相关的标签词,必要时检索同义词等方式构造出多个主题,将多个主题进行统计打分后,确定唯一一个主题。
步骤S102、以所述主题的标签词优化从歌词库中提取的主题词,将优化后的主题词相匹配的配曲确定为预选配曲:
前一步骤确定出的主题可以用于确定与该自然短语在语义上相关联的预选配曲。具体而言,系统中设有一个歌词库,其预存有海量的歌词,可以对全量歌词进行数据数据清洗后,将其导入主题模型中提取出主题词,也即从其具有高概率分布的若干关键词。借助数据清洗之类的手段,利用前述主题的标签词提取并优化从该歌词库中确定的与标签词在语义上相关联的主题词,这些主题词便可用于与歌曲库中的配曲的特征信息进行语义匹配。
系统还设有一个歌曲库,其预存有海量的候选配曲,候选配曲一般会被附以各种标签信息,以对其风格、类型等特征信息进行描述,可视为具有一定的主题特征。通过利用从歌词库中优选出的主题词干预并过滤所述的特征信息,可以匹配出与所述主题相关联的候选配曲作为预选配曲。
步骤S103、将所述主题确定为与预选配曲相统一的主题:
当确定所述的预选配曲后,相应的主题即为与预选配曲相统一的主题,这种统一主要是指语义上的统一,对于所述的预选配曲而言,主要是指其特征信息与该主题的标签词在语义上相统一。
通过这一实施例可见,本申请的方法仅仅依据自然短语便可自动创造歌词,相对于现有技术,其智能化程度大大提升。
进一步的,可以通过将上述的歌词内容生成方法中的各个实施例进行功能化,构造出本申请的一种歌词内容生成装置,按照这一思路,请参阅图9,其典型实施例中,该装置包括:
主题整理模块11,用于对与预选配曲相统一的主题所具有的标签词进行语义整理,使其语义上逻辑连贯;
语句构造模块12,用于按照所述主题的标签词形成的序列构造多个语句,构成歌词素材;
语句组织模块13,用于从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合,使其中至少部分语句的句尾相互押韵;
格式优化模块14,用于按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式。
为了便于本申请的执行,提供一种电子设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中计算机程序以执行如前述的一种歌词内容生成方法的步骤。
可以看出,存储器适宜采用非易失性存储介质,通过将前述的方法实现为计算机程序,安装到手机之类电子设备中,相关程序代码和数据便被存储到电子设备的非易失性存储介质中,进一步通过电子设备的中央处理器运行该程序,将其从非易性存储介质中调入内存中运行,便可实现本申请所期望的目的。因此,可以理解,本申请的一个实施例中,还可提供一种非易失性存储介质,其以计算机可读指令的形式存储有依据所述的歌词内容生成方法的各个实施例所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
综上所述,本申请能够仅依赖于简单的自然短语自动创作具有押韵特征的歌词内容,特别适用于在线娱乐领域。
本技术领域技术人员可以理解,本申请包涉及用于执行本申请中所述操作、方法中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其存储器之内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(ErasableProgrammable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种歌词内容生成方法,其特征在于,包括如下步骤:
对与预选配曲相统一的主题所具有的标签词进行语义整理,使其语义上逻辑连贯,所述标签词属于与给定的自然短语语义上相关联的主题,所述预选配曲属于根据所述自然短语所确定的标签词对从歌词库中提取的主题词进行优化后,与优化后的主题词相匹配的配曲;
按照所述主题的标签词形成的序列构造多个语句,构成歌词素材;
从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合,使其中至少部分语句的句尾相互押韵;
按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式;
所述对与预选配曲相统一的主题所具有的标签词进行语义整理,使其语义上逻辑连贯的步骤,包括:
依据所述主题的标签词构成的序列对倒排索引表进行语义召回,获得联想词序列;
基于联想词序列,采用N-gram模型对标签词进行一级排序;
基于一级排序的结果,采用Bert模型对标签词进行二级排序。
2.根据权利要求1所述的方法,其特征在于,包括如下前置步骤:
根据给定的自然短语确定与其在语义上相关联的以多个标签词描述的所述主题。
3.根据权利要求1所述的方法,其特征在于,根据给定的自然短语确定与其在语义上相关联的以多个标签词描述的所述主题的步骤,包括:
获取自然短语,匹配出与其在语义上相关联的主题,该主题以多个标签词进行描述;
以所述主题的标签词优化从歌词库中提取的主题词,将优化后的主题词相匹配的配曲确定为预选配曲;
将所述主题确定为与预选配曲相统一的主题。
4.根据权利要求1所述的方法,其特征在于,按照所述主题的标签词形成的序列构造多个语句,构成歌词素材的步骤,包括:
将所述主题所具有的多个标签词构成的序列馈入至预训练的人工神经网络编码器中进行编码,生成语义向量;
由该人工神经网络将所述语义向量作为初始状态传入其解码器中进行解码,获得相应的语句;
以多个所述的语句按序组装构造所述的歌词素材。
5.根据权利要求1所述的方法,其特征在于,从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合,使其中至少部分语句的句尾相互押韵的步骤,包括:
对所述歌词素材中的语句进行文本分析,获得其韵律标注信息;
依据所述韵律标注信息生成韵律标注词图;
基于所述韵律标注词图进行解码,以句尾存在押韵关系的语句序列构造为所最佳路径组合,以经过的最佳路径所包含的语句构成所述的歌词内容。
6.根据权利要求1所述的方法,其特征在于,按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式的步骤,包括:
调用所述预选配曲的曲谱信息;
根据所述曲谱信息中的时间信息标记所述歌词内容中的各个语句相对应的时刻信息;
以标记了全部语句的时刻信息的歌词内容输出用于播放,以完成歌词内容的格式化。
7.一种歌词内容生成装置,其特征在于,其包括:
主题整理模块,用于对与预选配曲相统一的主题所具有的标签词进行语义整理,使其语义上逻辑连贯,所述标签词属于与给定的自然短语语义上相关联的主题,所述预选配曲属于根据所述自然短语所确定的标签词对从歌词库中提取的主题词进行优化后,与优化后的主题词相匹配的配曲;其中,包括:依据所述主题的标签词构成的序列对倒排索引表进行语义召回,获得联想词序列;基于联想词序列,采用N-gram模型对标签词进行一级排序;基于一级排序的结果,采用Bert模型对标签词进行二级排序;
语句构造模块,用于按照所述主题的标签词形成的序列构造多个语句,构成歌词素材;
语句组织模块,用于从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合,使其中至少部分语句的句尾相互押韵;
格式优化模块,用于按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式。
8.一种电子设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种非易失性存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011504362.6A CN112487153B (zh) | 2020-12-17 | 2020-12-17 | 歌词内容生成方法及其相应的装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011504362.6A CN112487153B (zh) | 2020-12-17 | 2020-12-17 | 歌词内容生成方法及其相应的装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487153A CN112487153A (zh) | 2021-03-12 |
CN112487153B true CN112487153B (zh) | 2024-04-05 |
Family
ID=74914281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011504362.6A Active CN112487153B (zh) | 2020-12-17 | 2020-12-17 | 歌词内容生成方法及其相应的装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487153B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086408A (zh) * | 2018-08-02 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、电子设备及计算机可读介质 |
WO2019062716A1 (zh) * | 2017-09-30 | 2019-04-04 | 腾讯科技(深圳)有限公司 | 一种音乐的生成方法和装置 |
CN109815363A (zh) * | 2018-12-12 | 2019-05-28 | 平安科技(深圳)有限公司 | 歌词内容的生成方法、装置、终端及存储介质 |
CN110362696A (zh) * | 2019-06-11 | 2019-10-22 | 平安科技(深圳)有限公司 | 歌词生成方法、系统、计算机设备及计算机可读存储介质 |
WO2019242001A1 (en) * | 2018-06-22 | 2019-12-26 | Microsoft Technology Licensing, Llc | Method, computing device and system for generating content |
CN111259665A (zh) * | 2020-01-14 | 2020-06-09 | 成都嗨翻屋科技有限公司 | 一种基于神经网络的交互式歌词生成方法及系统 |
-
2020
- 2020-12-17 CN CN202011504362.6A patent/CN112487153B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019062716A1 (zh) * | 2017-09-30 | 2019-04-04 | 腾讯科技(深圳)有限公司 | 一种音乐的生成方法和装置 |
WO2019242001A1 (en) * | 2018-06-22 | 2019-12-26 | Microsoft Technology Licensing, Llc | Method, computing device and system for generating content |
CN109086408A (zh) * | 2018-08-02 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、电子设备及计算机可读介质 |
CN109815363A (zh) * | 2018-12-12 | 2019-05-28 | 平安科技(深圳)有限公司 | 歌词内容的生成方法、装置、终端及存储介质 |
CN110362696A (zh) * | 2019-06-11 | 2019-10-22 | 平安科技(深圳)有限公司 | 歌词生成方法、系统、计算机设备及计算机可读存储介质 |
CN111259665A (zh) * | 2020-01-14 | 2020-06-09 | 成都嗨翻屋科技有限公司 | 一种基于神经网络的交互式歌词生成方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于Viterbi解码的中文合成音库韵律短语边界自动标注;杨辰雨;朱立新;凌震华;戴礼荣;;清华大学学报(自然科学版);20110915(09);第1.3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN112487153A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210142794A1 (en) | Speech processing dialog management | |
US10410627B2 (en) | Automatic language model update | |
CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
KR101255405B1 (ko) | 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체 | |
CN112669815B (zh) | 歌曲定制生成方法及其相应的装置、设备、介质 | |
Mairesse et al. | Stochastic language generation in dialogue using factored language models | |
US7035789B2 (en) | Supervised automatic text generation based on word classes for language modeling | |
US10114612B2 (en) | System and method for speech-enabled access to media content by a ranked normalized weighted graph using speech recognition | |
US8935163B2 (en) | Automatic conversation system and conversation scenario editing device | |
Watts | Unsupervised learning for text-to-speech synthesis | |
US10970470B1 (en) | Compression of machine learned models | |
CN104115221A (zh) | 基于文本到语音转换以及语义的音频人类交互证明 | |
CN115116428B (zh) | 韵律边界标注方法、装置、设备、介质及程序产品 | |
CN111046217B (zh) | 组合歌曲生成方法、装置、设备以及存储介质 | |
Le et al. | Natural Language Processing Methods for Symbolic Music Generation and Information Retrieval: a Survey | |
JP7283718B2 (ja) | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム | |
CN112487153B (zh) | 歌词内容生成方法及其相应的装置、设备、介质 | |
Llitjós et al. | Improving pronunciation accuracy of proper names with language origin classes | |
Zhou et al. | Using paralinguistic information to disambiguate user intentions for distinguishing phrase structure and sarcasm in spoken dialog systems | |
Banerjee et al. | wav2tok: Deep sequence tokenizer for audio retrieval | |
CN114613359A (zh) | 语言模型训练方法、音频识别方法和计算机设备 | |
WO2022159211A1 (en) | Generation of optimized spoken language understanding model through joint training with integrated knowledge-language module | |
US8635071B2 (en) | Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same | |
KR20180103273A (ko) | 음성 합성 장치 및 음성 합성 방법 | |
Agchar et al. | A Survey of Music Generation in the Context of Interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |