CN109086408A

CN109086408A - 文本生成方法、装置、电子设备及计算机可读介质

Info

Publication number: CN109086408A
Application number: CN201810871128.3A
Authority: CN
Inventors: 刘志强; 牛成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2018-12-25
Anticipated expiration: 2038-08-02
Also published as: CN109086408B

Abstract

本公开涉及一种文本生成方法、装置、电子设备及计算机可读介质。涉及计算机信息处理领域，该方法包括：根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构；以及通过所述主题词集合、所述歌曲名称、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本。本公开涉及的文本生成方法、装置、电子设备及计算机可读介质，能够生成贴合乐曲的多样化、有效诗歌。

Description

文本生成方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种文本生成方法、装置、电子设备及计算机可读介质。

背景技术

近年来，随着神经语言程序学(Neuro-Linguistic Programming，NLP)技术的发展，机器自动写诗写歌成为热点话题。在机器自动生成歌词诗词的过程中，用户只需要输入少量关键词，神经语言程序学技术通过对关键词的训练学习，就能够生成完整歌词或者诗词。

目前的歌词诗词类的文本的自动生成技术主要解决了唐诗以及宋词等文本格式较为固定的文本自动生成，目前的歌词诗词的自动生成技术生成文本的格式较为固定，无法满足多样化的文本生成需求。

发明内容

有鉴于此，本公开提供一种文本生成方法、装置、电子设备及计算机可读介质，能够生成贴合乐曲的多样化、有效文本。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种文本生成方法，该方法包括：根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构；以及通过所述主题词集合、所述歌曲名称、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本。

根据本公开的一方面，提出一种文本生成装置，该装置包括：输入信息模块，用于根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构；以及文本生成模块，用于通过所述主题词集合、所述歌曲名称、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的文本生成方法、装置、电子设备及计算机可读介质，能够生成贴合乐曲的多样化、有效文本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中生成诗词的效果图。

图2是现有技术中生成歌曲的效果图。

图3是根据一示例性实施例示出的一种文本生成方法及装置的系统框图。

图4是根据一示例性实施例示出的一种文本生成方法的应用场景图。

图5是根据一示例性实施例示出的一种文本生成方法的应用场景图。

图6是根据一示例性实施例示出的一种文本生成方法的流程图。

图7是根据另一示例性实施例示出的一种文本生成方法的示意图。

图8是根据另一示例性实施例示出的一种文本生成方法的示意图。

图9是根据另一示例性实施例示出的一种文本生成方法的流程图。

图10是根据另一示例性实施例示出的一种文本生成方法的流程图。

图11是根据另一示例性实施例示出的一种文本生成方法的示意图。

图12是根据另一示例性实施例示出的一种文本生成方法的流程图。

图13是根据一示例性实施例示出的一种文本生成装置的框图。

图14是根据另一示例性实施例示出的一种文本生成装置的框图。

图15是根据一示例性实施例示出的一种电子设备的框图。

图16是根据一示例性实施例示出一种计算机可读介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

通过计算机技术自动写诗主要通过学习中国古代诗词写作特点，利用基于序列的神经网络模型，例如循环神经网络(Recurrent Neural Network，RNN)，长短期记忆网络(Long Short-Term Memory，LSTM)，等实现诗句创作。这种方式生成的诗词诗句多为固定长度或者固定词牌格式的文本，具体生成后的诗词示例如图1中所示，生成长度为7的绝句。该类计算机技术自动写诗方法生成格式单一，并不能很好地满足歌词创作中的格式多样性需求，同时生成的文本主要依赖于提供的第一句诗词，个性化定制程度不够高，不能较好的体现用户创作意图。

而现有技术中的歌曲创作模型也不能满足用户的个性化创作需求，仅仅依赖输入歌名生成歌曲。具体生成后的诗词示例如图2中所示，这种方式生成的诗词可读性较差。

在现有技术中，通过计算机技术自动写歌仍旧主要使用循环神经网络模型(RNN)或者长短期记忆序列模型(LSTM)来进行歌曲创作，最终胜出的文本主要依赖于训练数据，知识性匮乏，创作内容不够多样，同时由于模型的有限性以及数据局限性，生成的歌词内容较为贫乏，不能满足灵活多样性需求。

本公开提出文本生成方法及装置，在神经网络中融入用户个性化主题定制以及曲谱韵脚风格，提出基于主题词关联扩展的带有注意力模型(theme attention)的深度学习(seq2seq)模型，解决了在现有技术中歌曲格式以及用户主题定制方面存在的不足。

其次，本公开中通过外部知识(例如百科全书，WordNet等)，实现了用户输入的主题词的词汇扩展，再将扩展后的主题词输入seq2seq+theme attention模型解决了现有文本生成方法中输出词汇语言贫乏，文本知识匮乏的缺点。

下面将结合具体实施例，对本公开的内容进行详细介绍。在下文的描述中，将主要以生成歌曲的歌词为例进行示例性的描述，然而，本公开的文本生成方法及装置还能够用于生成散文诗词。

如图3所示，系统架构300可以包括终端设备301、302、303，网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备301、302、303通过网络304与服务器305交互，以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、智能音箱、膝上型便携计算机和台式计算机等等。

终端设备301、302、303可根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构；终端设备301、302、303可通过所述歌曲名称、所述主题词集合、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本。

终端设备301、302、303还可将所述文本与乐谱融合生成歌曲文件。

服务器305可以是一个实体的服务器，还可为多个服务器组成，服务器305可以是提供各种服务的服务器，例如对用户利用终端设备301、302、303所浏览的音乐网站或诗词网站提供支持的后台服务器。后台服务器可以对接收到的来自终端301、302、303的歌曲或诗词生成请求等数据进行分析等处理，并将处理结果(例如歌词、诗词、或歌曲)反馈给终端设备301、302、303。

终端设备301、302、303可例如将用户的输入信息转发至服务器305中进行处理；服务器305可根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构；服务器305可通过所述歌曲名称、所述主题词集合、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本。服务器305可例如将所述返回信息发送至终端设备301、302、303以便响应所述用户的问题。

服务器305还可将所述文本与乐谱融合生成歌曲文件。

需要说明的是，本公开实施例所提供的文本生成方法可以由服务器305执行也可以由终端设备301、302、303执行，相应地，文本生成装置可以设置于服务器305中也可以设置于终端设备301、302、303中。而提供给用户提交诗词生成请求的音乐网站、诗词网站、或其他设备的请求端一般位于终端设备301、302、303中。

本公开中的文本生成方法及装置，可以用于智能音箱类产品用户听歌点播中，当用户想要创作歌曲时，产品可以帮助用户自动进行歌曲创作，只需要用户输入创作意图需求。具体而言，用户需要创作歌曲时，可以提供创作歌曲名称以及主题关键词，本公开中的文本生成方法及装置，便能根据用户的该创作意图，生成相应的歌曲。

图4是根据一实施例示出的一种文本生成方法的应用场景图。如图4所示，根据本公开中的文本生成方法，用户可在音频网站上行提交歌曲生成请求，输入信息可为第一信息与第二信息。其中，在用户输入第一信息时可提示用户输入“主题词”信息；在用户输入第二信息时可提示用户输入“歌曲名”信息。在用户输入信息之后，音频网站的后台系统将自动生成文字至用户处。

在一个实施例中，该音频网站还可以根据用户的操作指示，将自动生成的文字与乐谱进行融合，生成完整的歌曲以在用户端的音乐播放器上播放。用户也可以选择不将文字与乐谱进行合并，自动生成的文字可作为散文或者诗词等内容进行展示。更近一步的，在展示散文或者文本的时候，还可辅助展示背景图片。

图5是根据一示例性实施例示出的一种文本生成方法的应用场景图。如图5所示，根据本公开中的文本生成方法，用户可在通过语音控制的智能音箱上行提交歌曲生成请求，输入信息可例如包括第一信息与第二信息，用户可通过语音输入第二信息与第一信息。其中，在用户输入第二信息时可通过语音提示用户输入“歌曲名”信息，在生成第一信息时可通过语音提示用户输入“主题词”信息。在用户输入信息之后，智能音箱通过内置的内存自动生成歌词。还可智能音箱将用户输入的信息转发至远端服务器中，以自动生成歌词。智能音箱生成文本后可对文本进行朗读，还可以将文本与乐谱相结合形成歌曲进行播放。

其中，智能音箱和/或远端的服务器在处理用户输入信息时，可先将用户输入的信息通过语音识别的方式转化为文字信息，然后再根据本公开提供的文本生成方法生成歌词。在生成歌词之后，智能音箱可根据用户的操作指示，将歌词与乐谱进行融合生成完整的歌曲以播放。

根据本公开的文本生成方法，能够根据用户提供的主题关键词，曲风特点等个性化创作需求，实现歌词自动创作。同时自动匹配合适的曲谱，最终完成歌曲自动创作。

相比于其他文本方法，根据本公开的文本生成方法，与现有技术中诗词生成方法相比，不受生成文本格式限制，是一种格式更加灵活多样的文本生成方法，适用于歌词，散文等格式多样化的文本生成任务。同时相比现有技术中歌曲生成方法相比，本公开的文本生成方法考虑歌曲中句子韵脚特点，能够生成与曲谱契合的歌词。

本公开的文本生成方法，提出新的有效的主题级联歌词生成模型，从而实现基于个性化定制的歌词自动生成。该方法能够充分融合用户创作意图，实习个性化定制。为了歌曲内容的丰富多样性，结合主题词使用外部知识库级联扩展主题意象，创作内容丰富，风格灵活的歌曲。

图6是根据一示例性实施例示出的一种文本生成方法的流程图。文本生成方法60至少包括步骤S602至S604。

如图6所示，在S602中，根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构。

用户输入信息可例如包括第一信息与第二信息；其中第一信息可为关键词信息，用户可根据自身的喜好，确定本次待生成的歌词的中心思想。

在一个实施例中，根据用户的第一信息确定主题词集合包括：将所述第一信息输入知识库以获取所述第一信息的关联词汇；以及通过所述关联词汇确定所述主题词集合。例如当用户需要主题为“校园”的歌曲时，将“校园”作为搜索词输入相关知识库，相关知识库得到的搜索结果可有“青春”、“教室”、“毕业”等与主题契合的关键词，这种方式可以对用户输入的关键词进行意象扩展的方式，能够丰富创作语言，解决语言贫乏单调的问题。

其中，相关知识库可为维基百科知识库，百度百科词条等相关数据库，音乐平台自身为歌曲搜索简历的相关词汇知识库，只要能够对关键词进行语义扩展的知识库均可作为本步骤中的知识库进行使用，本公开不以此为限。

在一个实施例中，用户的第二信息中包括歌曲名称；在这个情况下，根据用户的第二信息确定歌曲名称、歌曲韵脚与段落结构包括：根据所述歌曲名称在音乐库中确定歌曲的乐谱；以及根据所述歌曲的乐谱确定歌曲韵脚与段落结构。可将歌曲名称输入到音乐库中进行检索，将检索得到乐谱信息，根据乐谱信息进而确定适合该乐谱的歌曲韵脚与段落结构。

在一个实施例中，可通过识别第一指定字符确定所述段落结构；以及通过识别预定位置字符确定所述歌曲韵脚。

在一个实施例中，识别所述歌词样本中的字符，第一指定字符可为“空格”字符，可根据“空格”字符确定歌词中文字的断句；第一指定字符还可为“回车”字符，可根据“回车”字符确定歌词中的文字的段落。

在一个实施例中，首先根据文字识别结果确定在段落末尾文字，然后确定该字符的拼音信息。根据拼音信息确定该歌曲的韵脚。一般情况下，韵脚为末尾文字的韵母。例如，原歌词样本为(仅以部分作为示例)：

我来到你的城市(shi)

走过你来时的路(lu)

想像着没我的日子(zi)

你是怎样的孤独(du)

根据上文所述的拼音分析过程，对歌曲的歌词样本进行分析得到的该歌曲的韵脚为“i”与“u”。

在一个实施例中，所述第二信息中不包括歌曲名称；即为用户输入的第二信息为空，用户未指定歌曲。在这个情况下，可根据所述第一信息在音乐库中确定至少一个歌曲的乐谱；在所述至少一个歌曲的乐谱中随机指定歌曲；以及根据所述歌曲的乐谱确定歌曲韵脚与段落结构。其中，第一信息为用户提供的主题词。可将用户提供的主题词输入音乐库中进行检索。用户提供的主题词可为多个，将多个主题词在音乐库中进行搜索，得到多个歌曲的乐谱。可根据多个歌曲的流行程度以及与主题词的契合程度指定本次选用的乐谱。还可为在多个歌曲的乐谱通随机指定一个乐谱作为本次选用的乐谱，本公开不以此为限。

值得一提的是，在用户待生成的文本为诗词的情况下，选用歌曲乐谱的目的是为了获得合适的韵脚，具有恰当韵脚的诗词会各有利于用户朗诵与交流。

如图6所示，在S604中，通过所述歌曲名称、所述主题词集合、所述歌曲韵脚与所述段落结构以及包含有注意力模型的深度学习模型成文本。将所述歌曲名称、所述主题词集合、所述歌曲韵脚与所述段落结构输入带有注意力模型的深度学习模型中，使用模型进行自动预测以生成文本信息序列，生成的文本信息序列可作为本公开中的诗词使用。

Seq2seq模型也叫Encoder-Decoder框架模型，在本申请实施例中主要通过Seq2seq模型输入序列信息，经过Seq2seq模型的计算，将输出序列信息作为文本，以响应用户。在一个实施例中，所述歌曲名称、所述主题词集合、所述歌曲韵脚与所述段落结构通过包含有注意力模型的Seq2seq模型进行深度学习，以获取本文输出。

注意力模型(Attention Mechanism),是一种神经网络模型中的自动加权技术。在一个实施例中，通过注意力模型在Seq2seq模型进行深度学习的过程中对所述主题词集合、所述歌曲韵脚与所述段落结构进行注意力加权，以获得更贴近于用户中心思想的文本。

在一个实施例中，通过所述歌曲名称、所述主题词集合、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本包括：通过所述歌曲名称生成歌曲名称词向量；通过所述主题词集合生成主题词词向量；将所述歌曲名称词向量与所述主题词词向量作为带有注意力模型的深度学习模型的输入信息；将所述歌曲韵脚与所述段落结构作为带有注意力模型的深度学习模型的语义属性衡量指标；通过带有注意力模型的深度学习模型生成所述文本。

在一个实施例中，所述带有注意力模型为相似性度量机制，所述深度学习模型为基于编码解码模型架构的深度学习模型。即为，在注意力模型进行语义属性衡量时，通过主题词与深度学习模型在学习过程之中生成的中间词之间的相似度，为中间词分配不同的权重指标，以便在中间词输入到深度学习模型的后续学习过程中，根据权重信息优选与主题词接近的歌词词汇。

本公开的文本生成方法，能够实现有效的歌词自动生成。相比之前的模型，本公开的文本生成方法能够有效的捕捉用户个性化创作意图，并能生成格式多样的歌词文本信息，其中下文展示了部分创作结果，可见，当用户指定的“校园”为关键词，“好久不见”作为歌曲名时，根据“校园”对关键词进行扩展，得到“青春”、“爱情”、“迷惘”等主题关键词元素在歌曲中均有体现。得到的文字信息不仅可以作为歌曲歌词使用，还可作为散文或诗词使用。

我来到你的校园

走过你漫步的路

我没想到会失去你

我不再为你付出

只是你陪我过去

只想唱歌给你听

我们的爱情不能

再回到那天

我的音春是有你在身边

谁能改变我的一切

不管你有多么的迷惘

我会陪在你的身边

你是我的唯一和一切

陪伴我的青春岁月

一起在我身边抓住瞬间

只会想起你只想唱起你

好久不见

根据本公开的文本生成方法，通过对用户输入的信息进行词汇扩展，并根据用户输入信息获取歌曲乐谱的方式，能够结合语义、语境、以及韵脚生成贴合乐曲的多样化、有效文本。

本公开的文本生成方法，不仅能够用于个性化歌曲创作，同样适用于其他个性化文本创作，例如用户个性化主题散文创作，短片小说及剧本创作。本公开的文本生成方法提出的是一种综合写歌方法框架，对于其中文本生成模块部分，亦可以有其他类型的生成模型，但是均可适用于该框架。例如生成创作模块选用传统的主题语言模型进行文本创作，或者使用GAN来生成更高质量的文本，本公开不以此为限。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图7是根据另一示例性实施例示出的一种文本生成方法的示意图。图7示例性的描述了通过本公开的文本生成方法生成歌曲的过程。用户输入歌曲名称和关键词，根据歌曲名称检索得到适合该歌曲的乐曲，以对后续歌词的生成格式给予指导；根据关键词通过知识库扩展词汇意向，进而对后续歌词的生成给予指导；然后再将乐谱与扩展后的词汇输入带有注意力模型的深度学习模型，模型输出的文本作为歌词，与乐曲进行融合，进而生成歌曲以返回客户端。

图8是根据另一示例性实施例示出的一种文本生成方法的流程图。如图8所示的文本生成方法80是对图6所示的文本生成方法60中，步骤S602“根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构”的详细描述。

如图8所示，在S802中，判断第二信息中是否包含歌曲名称。如果第二信息中包含歌曲名称，则进入S804，否则进入S806。

在S804中，根据所述歌曲名称确定乐谱。

在S806中，根据所述第一信息在音乐库中确定至少一个歌曲的乐谱。

在S808中，在所述至少一个歌曲的乐谱中随机指定歌曲。

在S810中，获取所述歌曲的歌词样本。

在S812中，识别所述歌词样本中的字符。

在S814中，通过所述字符确定所述歌曲韵脚与段落结构。可通过识别第一指定字符确定所述段落结构；以及通过识别预定位置字符确定所述歌曲韵脚。

其中，在一个实施例中，识别所述歌词样本中的字符，第一指定字符可为“空格”字符，可根据“空格”字符确定歌词中文字的断句；第一指定字符还可为“回车”字符，可根据“回车”字符确定歌词中的文字的段落。

其中，在一个实施例中，识别所述歌词样本中的字符，预定位置的字符可为段落结束字符，可为获取歌词样本中每段结束位置的中文词汇，进而根据中文词汇的拼音，确定所述歌曲的韵脚。

图9是根据另一示例性实施例示出的一种文本生成方法的流程图。如图9所示的文本生成方法90是对如图6所示的文本生成方法60中，步骤S604中“通过所述主题词集合、所述歌曲名称、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本”的相关内容的详细描述。

如图9所示，在S902中，通过所述歌曲名称生成歌曲名称词向量。可通过word2vec方法将歌曲名称生成歌曲名称词向量。

其中，Word2vec也称之为word embeddings，是为一群用来产生词向量的相关模型。在本申请实施例中，Word2vec模型为浅而双层的神经网络，用来训练以重新建构词文本。word2vec是一个NLP工具，它的特点是将所有的输入词汇进行词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。Word2vec方法的训练模型可分为“CBOW”和“Skip-gram”两种模型。而根据两种降低训练复杂度的Word2vec方法可分为“Hierarchical Softmax”和“Negative Sampling”。通过两种模式和两种方法进行组合，所以实际上Word2vec有四种实现。在本公开中，可以通过以上所述的各种模式以及组合实现Word2vec向量转化，本公开不以此为限。

在S904中，通过所述主题词集合生成主题词词向量。可通过word2vec方法将主题词集合生成主题词词向量。

在S906中，将所述歌曲名称词向量与所述主题词词向量作为带有注意力模型的深度学习模型的输入信息。

在S908中，将所述主题词词向量、所述歌曲韵脚与所述段落结构作为带有注意力模型的深度学习模型的语义属性衡量指标。

在S910中，通过带有注意力模型的深度学习模型生成所述文本。其中，所述带有注意力模型为相似性度量机制，所述深度学习模型为基于编码解码模型架构的深度学习(seq2seq)方法。

图10是根据另一示例性实施例示出的一种文本生成方法的示意图。

如图10所示，seq2seq模型是以编码(Encode)和解码(Decode)为代表的架构方式，seq2seq模型是根据输入的词向量序列X来生成输出词向量序列Y(本申请中的文本)。以encode和decode为代表的seq2seq模型，encode是将输入的词向量序列转化成一个固定长度的向量(例如为C1，C2，C3……)，decode是将输入的固定长度向量(例如为C1，C2，C3……)解码成输出序列，即为本申请中的文本。其中编码解码的方式可以是循环神经网络(Recurrent Neural Network)，卷积神经网络(Convolutional Neural Network，CNN)等，本公开不以此为限。

由于encoder-decoder模型在编码和解码阶段始终由一个不变的语义向量C来联系着，编码器要将整个序列的信息压缩进一个固定长度的向量中去。这就造成了语义向量无法完全表示整个序列的信息，最开始输入的序列容易被后输入的序列给覆盖掉，会丢失许多细节信息。在长序列上，特别是本申请中的文章序列中，这种丢失细节信息的现象表现的尤为明显。在一个实施例中，在seq2seq模型中引入Attention机制以完善本申请中的seq2seq模型模型。

在现有技术中，普通的seq2seq模型可以看成所有部分的attention都是一样的，而在本申请实施例中的attention+seq2seq模型中，对于不同的词向量，重要的程度则不同，使得在本申请的seq2seq模型学习过程的decoder中每一个时刻的状态是不同的。

图11是根据另一示例性实施例示出的一种文本生成方法的示意图。如图11所示，在本公开的一个实施例中，attention的注意力采用相似性的度量机制，当前的输入与目标状态越相似，那么在当前的输入的权重就会越大，说明当前的输出越依赖于当前的输入。即为，将所述主题词词向量、所述歌曲韵脚与所述段落结构作为带有注意力模型的深度学习模型的语义属性衡量指标。

在一个实施例中，通过带有注意力模型的深度学习模型生成所述文本时，可通过如下的关注度公式确定输入解码序列的各个中间词向量的关注程度：

其中，C_t为t时刻第j个待解码的中间词向量的关注度，α_j,t-1为t时刻待解码的中间词向量的相似度评分；β_j,t-1为t时刻待解码的中间词向量的韵脚评分；δ_j,t-1为t时刻待解码的中间词向量的段落评分。

在一个实施例中，设所述主题词具有三个，主题词的经过word2vector模型词转为三维形式向量(仅用于举例说明，可以根据具体情况设定词向量的维度)可如下：

将上述主题词词向量输入如图12所示的通过关注度进行加权的attention+seq2seq模型中，在t时刻得到的中间词向量可为：

通过余弦相似度分别计算输入主题词与中间词向量之间的相似度，例如：

将与绘制到多维空间中，在多维空间中求取他们之间的夹角对应的余弦值，可为α_x,u；

同理计算与之间的夹角对应的余弦值，可为α_y,u；

同理计算与之间的夹角对应的余弦值，可为α_z,u；

可通过α_x,u，α_y,u，α_z,u确定主题词词向量与之间的关注度α_u。

在一个实施例中，α_u＝c₁α_x,u+c₂α_x,u+c₃α_x,u；c₁，c₂，c₃为分配权重系数，权重系数可进行设置，比如，若为最重要的主题词向量，则将c₁的权重系数设置较高即可。

在一个实施例中，分别求取的韵脚，可为ε₁，ε₂，ε₃，将以上韵脚分别与歌曲中对应位置的韵脚进行比较，评判韵脚之间完全吻合、相似或完全不同，进而确定t时刻的韵脚评分β_u，β_v，β_w；

同理可求得确定t时刻的段落评分δ_u，δ_v，δ_w；

进而可求得中间词向量的关注度C_u。

通过以上的关注度计算公式，分别计算与的关注度，分别记做C_v，C_w。

在计算获取各个中间词向量对应的关注度之后，通过关注度对中间词向量进行加权分配，得到解码词向量如下：

在seq2seq模型的解码过程中，将上述解码词向量进行解码处理，输出多个三维的句向量：

将多个三维句向量转化为文字形式，即可获得输出文本。

在本申请实施例中，通过引入带关注度的attention机制，能够根据输入的时刻的不同，让每一时刻的输入的编码词都有所不同，具体可根据在seq2seq模型在编码过程中得到的编码词向量之间的相似度，来给这些词向量分配不同的权重。还可以是通过编码词向量与所述主题词词向量、所述歌曲韵脚与所述段落结构之间的契合度来为编码词向量分配不同的权重，以在后续的解码过程中，获得更适宜于目标歌曲的解码词汇。

图12是根据另一示例性实施例示出的一种文本生成方法的流程图。如图12所示的文本生成方法120是对如图9所示的文本生成方法90中，步骤S902中“通过带有注意力模型的深度学习模型生成所述文本”的详细描述。

如图12所示，在S1202中，将所述歌曲名称词向量与所述主题词词向量进行编码，获取多个初始词向量。可在attention+seq2seq模型中，在该模型的编码过程中，将所述歌曲名称词向量与所述主题词词向量进行编码，获取多个初始词向量。

在S1204中，通过所述歌曲韵脚对所述多个初始词向量进行筛选，确定多个中间词向量。可通过上文确定的歌曲的韵脚，对所述多个初始词向量进行筛选，优先选择满足韵脚规则的初始词向量作为中间词向量。

在S1206中，分别确定所述主题词词向量与所述多个中间词向量的相似度。可根据word2vec方法生成的词向量再通过以下方法计算词向量之间的相似度：

Jaccard相似度方法：集合之间的Jaccard相似度等于交集大小与并集大小的比例。适合的应用包括文档文本相似度以及顾客购物习惯的相似度计算等。

最小哈希相似度方法：集合上的最小哈希函数基于全集上的排序转换来定义。给定任意一个排列转换，集合的最小哈希值为在排列转换次序下出现的第一个集合元素。

最小哈希签名相似度方法：可以选出多个排列转换，然后在每个排列转换下计算集合的最小哈希值，这些最小哈希值序列构成集合的最小哈希签名。

高效最小哈希相似度方法：由于实际不可能产生随机的排列转换，因此通常会通过下列方法模拟一个排列转换：选择一个随机哈希函数，利用该函数对集合中所有的元素进行哈希操作，其中得到的最小值看成是集合的最小哈希值。

本公开中所述主题词词向量与所述多个中间词向量的相似度可通过上文所述的相似度计算方法进行计算，本公开不以此为限。

在S1208中，根据所述相似度对所述多个中间词向量进行筛选，以确定所述编码词向量。可将计算得到的多个中间词向量按照与主题词向量的相似度的大小依序排列，选取attention+seq2seq模型学习中需要的中间词向量数量以确定编码词向量。

通过带有注意力模型的深度学习模型生成所述文本时，可通过如下的关注度公式确定输入解码序列的各个中间词向量的关注程度：

在S1210中，将所述编码词向量进行解码以生成解码词向量。

在S1212中，判断所述解码词向量是否满足结束规则。在所述解码词向量满足结束规则时，进入S1214通过所述解码词向量生成所述文本；以及在所述解码词向量不满足结束规则时，返回S1210以将所述解码词向量继续进行解码至满足结束规则为止。

在S1214中，通过所述解码词向量生成所述文本。

根据本公开的文本生成方法，基于Seq2seq+attention模型，在原有模型的基础上融合了用户输入的创作主题关键词需求作为attention的指导，用来指导创作，同时对于关键词信息较少的情况下使用外部知识库级联扩展相关主题意象，例如当需要主题为“校园”的歌曲时，通过相关知识哭可以扩展意象有“青春”、“教室”、“毕业”等与主题契合的关键词，丰富创作语言，解决语言贫乏单调的问题。

本公开的文本生成方法使用过程的所需要的硬件环境简单易实现，提供普通的服务器环境即可训练以及部署上线，具体可以参照表1。这种简单易获得的硬件环境，使得本公开中的文本生成方法可应用于智能移动终端、智能音箱等各种设备中。

表1技术方法软硬件环境简单说明

操作系统	内存	语言环境
			Linux	>16G	Python/c++

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图13是根据一示例性实施例示出的一种文本生成装置的框图。文本生成装置1300包括：输入信息模块1302，以及文本生成模块1304。

输入信息模块1302用于根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构。输入信息可包括第一信息与第二信息。第一信息可为关键词信息，用户可根据自身的喜好，确定本次歌词的中心思想。第二信息中可包括歌曲名称。

文本生成模块1304用于通过所述歌曲名称、所述主题词集合、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本。将所述歌曲名称、所述主题词集合、所述歌曲韵脚与所述段落结构输入带有注意力模型的深度学习模型中，使用模型进行自动预测以生成文本信息序列，生成的文本信息序列可作为本公开中的诗词使用。

根据本公开的文本生成装置，能够根据用户提供的主题关键词，曲风特点等个性化创作需求，实现歌词自动创作。同时自动匹配合适的曲谱，最终完成歌曲自动创作。

本公开的文本生成装置，提出新的有效的主题级联歌词生成模型，从而实现基于个性化定制的歌词自动生成。该方法能够充分融合用户创作意图，实习个性化定制。为了歌曲内容的丰富多样性，结合主题词使用外部知识库级联扩展主题意象，创作内容丰富，风格灵活的歌曲。

图14是根据另一示例性实施例示出的一种文本生成装置的框图。文本生成装置1400包括：乐谱选择模块1402，意象扩展模块1404，文本生成模块1406，以及词曲融合模块1408。

乐谱选择模块1402，用于根据用户提供的歌曲名称以及主题词，在已有的音乐库中检索合适的乐谱，作为创作歌曲的乐谱。根据乐谱可以生成相应的歌词文本格式。具体包括关键部分韵脚的特点以及段落分割格式，用于作为文本生成格式的指导输入。

意象扩展模块1404，用于根据用户提供的主题关键词意象，根据外部知识库进行意象扩展，作为生成模型内容指导的输入。

文本生成模块1406，用于块作为该技术的主要模块，输入是上述歌曲名称，乐谱以及主题词集合，根据上述输入进行文本生成。输入关键词使用word2vec进行初始化。

词曲融合模块1408，用于将上述生成的歌词以及选择的乐谱进行融合，从而实现最后的歌曲创作任务。

本公开的文本生成装置，能够根据用户提供的主题关键词，曲风特点等个性化创作需求，实现歌词自动创作。同时自动匹配合适的曲谱，最终完成歌曲自动创作。

本公开的文本生成装置，能够不受生成文本格式限制，是一种格式更加灵活多样的文本生成方法，适用于歌词，散文等格式多样化的文本生成任务。同时相比其他装置，该方法考虑歌曲中句子韵脚特点，生成与曲谱契合的歌词。

图15是根据一示例性实施例示出的一种电子设备的框图。

下面参照图15来描述根据本公开的这种实施方式的电子设备1500。图15显示的电子设备1500仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图15所示，电子设备1500以通用计算设备的形式表现。电子设备1500的组件可以包括但不限于：至少一个处理单元1510、至少一个存储单元1520、连接不同系统组件(包括存储单元1520和处理单元1510)的总线1530、显示单元1540等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1510执行，使得所述处理单元1510执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1510可以执行如图6、图9、图10、以及图11中所示的步骤。

所述存储单元1520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)15201和/或高速缓存存储单元15202，还可以进一步包括只读存储单元(ROM)15203。

所述存储单元1520还可以包括具有一组(至少一个)程序模块15205的程序/实用工具15204，这样的程序模块15205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1500也可以与一个或多个外部设备1500’(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1500交互的设备通信，和/或与使得该电子设备1500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1550进行。并且，电子设备1500还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器1560可以通过总线1530与电子设备1500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

图16示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

参考图16所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品1600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：根据用户的第二信息确定歌曲名称、歌曲韵脚与段落结构；根据用户的第一信息确定主题词集合；以及通过所述歌曲名称、所述主题词集合、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

此外，本说明书说明书附图所示出的结构、比例、大小等，均仅用以配合说明书所公开的内容，以供本领域技术人员了解与阅读，并非用以限定本公开可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本公开所能产生的技术效果及所能实现的目的下，均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语，也仅为便于叙述的明了，而非用以限定本公开可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当也视为本公开可实施的范畴。

Claims

1.一种文本生成方法，其特征在于，包括：

根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构；以及

通过所述主题词集合、所述歌曲名称、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本。

2.如权利要求1所述的方法，其特征在于，还包括：

将所述文本与乐谱融合生成歌曲文件。

3.如权利要求1所述的方法，其特征在于，根据用户输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构包括：

根据用户输入信息确定主题词集合及歌曲名称；以及

根据所述歌曲名称确定歌曲韵脚与段落结构。

4.如权利要求3所述的方法，其特征在于，根据用户输入信息确定主题词集合及歌曲名称包括：

将所述输入信息输入知识库以获取所述输入信息的关联词汇；以及

通过所述关联词汇确定所述主题词集合。

5.如权利要求3所述的方法，其特征在于，根据所述歌曲名称确定歌曲韵脚与段落结构包括：

获取所述歌曲的歌词样本；

识别所述歌词样本中的字符；以及

通过所述字符确定所述歌曲韵脚与段落结构。

6.如权利要求5所述的方法，其特征在于，通过所述字符确定所述歌曲韵脚与段落结构包括：

通过识别第一指定字符确定所述段落结构；以及

通过识别预定位置字符确定所述歌曲韵脚。

7.如权利要求1所述的方法，其特征在于，通过所述主题词集合、所述歌曲名称、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本包括：

通过所述歌曲名称生成歌曲名称词向量；

通过所述主题词集合生成主题词词向量；

将所述歌曲名称词向量与所述主题词词向量作为带有注意力模型的深度学习模型的输入信息；

将所述主题词词向量、所述歌曲韵脚与所述段落结构作为带有注意力模型的深度学习模型的语义属性衡量指标；

通过带有注意力模型的深度学习模型生成所述文本。

8.如权利要求7所述的方法，其特征在于，所述带有注意力模型为相似性度量机制，所述深度学习模型为基于编码解码模型架构的深度学习模型。

9.如权利要求7所述的方法，其特征在于，通过带有注意力模型的深度学习模型生成所述文本包括：

将所述歌曲名称词向量与所述主题词词向量进行编码，获取多个初始词向量；

通过所述歌曲韵脚对所述多个初始词向量进行筛选，确定多个中间词向量；

通过所述主题词词向量对所述多个中间词向量进行筛选，确定编码词向量；以及

将所述编码词向量进行解码以生成所述文本。

10.如权利要求9所述的方法，其特征在于，通过所述主题词词向量对所述多个中间词向量进行筛选，确定编码词向量包括：

分别确定所述主题词词向量与所述多个中间词向量的相似度评分；

根据所述相似度评分对所述多个中间词向量进行筛选，以确定所述编码词向量。

11.如权利要求10所述的方法，其特征在于，通过带有注意力模型的深度学习模型生成所述文本时，通过关注度公式确定输入解码序列的各个中间词向量的关注程度：

12.如权利要求10所述的方法，其特征在于，将所述编码词向量进行解码以生成所述文本包括：

将所述编码词向量进行解码以生成解码词向量；

在所述解码词向量满足结束规则时，通过所述解码词向量生成所述文本；以及

在所述解码词向量不满足结束规则时，将所述解码词向量继续进行解码至满足结束规则为止。

13.一种文本生成装置，其特征在于，包括：

输入信息模块，用于根据用户的输入信息确定主题词集合、歌曲名称、歌曲韵脚与段落结构；以及

文本生成模块，用于通过所述主题词集合、所述歌曲名称、所述歌曲韵脚与所述段落结构以及带有注意力模型的深度学习模型生成文本。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-12中任一所述的方法。