CN112783334A - 文本生成方法和装置、电子设备以及计算机可读存储介质 - Google Patents

文本生成方法和装置、电子设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN112783334A
CN112783334A CN201911090358.7A CN201911090358A CN112783334A CN 112783334 A CN112783334 A CN 112783334A CN 201911090358 A CN201911090358 A CN 201911090358A CN 112783334 A CN112783334 A CN 112783334A
Authority
CN
China
Prior art keywords
participles
vectors
participle
generate
state vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911090358.7A
Other languages
English (en)
Other versions
CN112783334B (zh
Inventor
赵露君
孙常龙
刘晓钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201911090358.7A priority Critical patent/CN112783334B/zh
Publication of CN112783334A publication Critical patent/CN112783334A/zh
Application granted granted Critical
Publication of CN112783334B publication Critical patent/CN112783334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本生成方法和装置、电子设备以及计算机可读存储介质。方法包括:生成包含时间信息的多个第一状态向量;对第一状态向量进行解码生成多个第二分词以及与第二分词中的每一个分别对应的多个第二状态向量,对第一状态向量进行解码处理生成多个第二分词的步骤包括:根据多个第二状态向量中的每一个和与其对应的第二分词计算多个第一分词和多个第二分词中的至少一个相对于第二分词所对应的时间信息的复制概率;根据复制概率选择第一分词和第二分词中的至少一个作为与时间信息对应的复制分词。因此,实现了在基于获取的分词生成文本段之外还能够在适当的时机执行文本复制来生成重复的内容部分,更加适合于在歌词生成的场景下使用。

Description

文本生成方法和装置、电子设备以及计算机可读存储介质
技术领域
本发明涉及文本生成领域,尤其涉及一种文本生成方法和装置、电子设备以及计算机可读存储介质。
背景技术
例如歌词以及诗歌等生成是通过基于用户给定的多个关键字生成相关词语以填充成句子来实现歌词创作。现有技术中,由于歌词以及诗歌等本身是文本类型,因此,通常采用文本生成技术来生成歌词。但是文本生成通常只能基于给定关键字生成新的词汇,在应用于歌词以及诗歌等生成的场景时,不能够满足歌词以及诗歌等所具有的部分重复的特征。换言之,歌词以及诗歌等由于其应用于歌唱的特点而具有部分内容需要反复重复的特征。因此,需要一种改进的文本生成技术,其能够适合于生成具有部分内容重复出现的文本,以更适合于例如歌词、诗歌等等的生成的场景。
发明内容
提供本发明实施例内容是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
本发明实施例提供了一种文本生成方法和装置、电子设备以及计算机可读存储介质,从而能够在现有的基于关键字的文本生成方案的基础上进一步实现生成具有部分内容重复出现的文本,从而更适合于例如歌词以及诗歌等生成的场景的使用。
为达到上述目的,本发明实施例提供了一种文本生成方法,其特征在于,包括:
从用户获取多个第一分词;
对所述多个第一分词进行编码处理,以生成包含有时间信息的多个第一状态向量;
对所述多个第一状态向量进行解码处理,以生成多个第二分词,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的;
输出所述多个第二分词;
从用户接收至少一个针对所输出的所述多个第二分词中的至少一个的指令;
根据所述至少一个指令修改所述多个第二分词中的至少一个,
其中,所述第二分词中包括至少一个与所述第一分词和所述第二分词中的至少一个相同的分词。
根据本申请实施例,还提供了一种文本生成方法,包括:
获取多个第一分词,并生成多个第一词嵌入向量;
对所述多个第一词嵌入向量进行编码处理,以生成包含有时间信息的多个第一状态向量;
对所述多个第一状态向量进行解码处理,以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的,
其中,所述对所述多个第一状态向量进行解码处理以生成多个第二分词的步骤包括:
根据所述多个第二状态向量中的每一个第二状态向量和与其对应的第二分词,计算所述多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率;以及
根据所述复制概率选择所述多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
本发明实施例还提供了一种文本生成装置,包括:
第一分词获取组件,其被构造为获取多个第一分词,并生成多个第一词嵌入向量;
第一编码组件,其被构造为对所述多个第一词嵌入向量进行编码处理以生成包含有时间信息的多个第一状态向量;
第一解码组件,其被构造为对所述多个第一状态向量进行解码处理,以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的;以及
第一复制概率计算组件,其被构造为根据所述多个第二状态向量中的每一个第二状态向量和与其对应的第二分词,计算所述多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率;以及
复制生词生成组件,其被构造为根据所述复制概率选择所述多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
此外,本发明实施例还提供了一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
获取多个第一分词,并生成多个第一词嵌入向量;
对所述多个第一词嵌入向量进行编码处理,以生成包含有时间信息的多个第一状态向量;
对所述多个第一状态向量进行解码处理,以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的,
其中,所述对所述多个第一状态向量进行解码处理,以生成多个第二分词的步骤包括:
根据所述多个第二状态向量中的每一个第二状态向量和与其对应的第二分词,计算所述多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率;以及
根据所述复制概率选择所述多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
本发明实施例还提供了一种计算机可读存储介质,在所述计算机可读存储介质上存储有指令,所述指令包括:
获取多个第一分词,并生成多个第一词嵌入向量;
对所述多个第一词嵌入向量进行编码处理,以生成包含有时间信息的多个第一状态向量;
对所述多个第一状态向量进行解码处理,以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的,
其中,所述对所述多个第一状态向量进行解码处理,以生成多个第二分词的步骤包括:
根据所述多个第二状态向量中的每一个第二状态向量和与其对应的第二分词,计算所述多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率;以及
根据所述复制概率选择所述多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
本发明实施例提供的文本生成方法和装置、电子设备以及计算机可读存储介质,通过基于获取的分词生成文本段,并且计算所生成的第二分词以及第二状态向量相对于当前时间(步骤)的复制概率来确定是否执行复制操作以及当确定进行复制操作时选择基于获取的第一分词来复制还是基于所生成的第二分词来复制。因此,实现了在基于获取的分词生成文本段之外还能够在适当的时机(步骤)执行文本复制来生成重复的内容部分,因此更加适合于在歌词生成的场景下使用。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
图1为描述文本生成的应用场景的示意框图;
图2a和图2b为根据本申请一个实施方式的文本生成方法的流程示意图;
图3a-图3f为根据本申请一个实施方式的文本生成方法的又一流程示意图;
图4为根据本申请一个实施方式的文本生成装置的结构示意图;
图5为本申请实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
随着人工智能技术的发展,能够基于任意给定的关键字来生成新的字或词,因此,人工智能在文学创作领域,尤其是歌词创作领域也得到了广泛的应用。
目前,歌词以及诗歌等的生成是通过基于用户给定的多个关键字生成相关词语以填充成句子来实现创作。现有技术中,由于歌词以及诗歌等本身是文本类型,因此,通常采用文本生成技术来生成歌词以及诗歌等。但是文本生成通常只能基于给定关键字生成新的词汇,在应用于歌词以及诗歌等生成的场景时,不能够满足歌词以及诗歌等所具有的部分重复的特征。换言之,歌词以及诗歌等由于其应用于歌唱的特点而具有部分内容需要反复重复的特征。
因此,需要一种改进的文本生成技术,其能够适合于生成具有部分内容重复出现的文本,以更适合于歌词以及诗歌等生成的场景。
图1为描述文本生成的应用场景的示意框图。如图1中所示,在本申请实施例的文本生成方法的一个示例应用场景中,可以由用户输入某一单词或短语来作为用来生成歌词的关键字。当然在一些实施例中,也可以从任何数据源获取这样的单词或短语来作为生成歌词的关键字。例如,用户可以通过拍照并且将含有特定文字的照片作为输入,从而根据本申请实施例的文本生成方法能够从该图片中识别出文字,从而作为用来生成歌词的关键字输入。
此外,根据本申请实施例,用户输入关键字的方式不限于直接输入文本或拍照,用户可以采用各种方式来输入关键字。例如,用户可以通过语音输入、唱歌或从其他音源采集到的声音(例如歌曲的一部分)来输入声音数据,因此根据本申请实施例的文本生成方法可以对该输入的音频数据进行文字转换处理来生成关键字。
此外,在生成了关键字之后,也可以进一步输出呈现给用户来进行检查和确认,并且可以接收用户针对所输出的关键字的进一步的输入。例如,用户来对转换生成的关键字进行修改或调整,甚至可以直接替换为用户想要的其他关键字。
在获取了关键字之后,可以将关键字输入到根据本申请实施例的文本生成模型中进行处理。在这里,文本生成模型可以运行在任何电子设备上,例如个人电脑、网络服务器或者诸如手机的移动终端上。
关键字经由本申请的文本生成模型处理之后,可以获得多个基于该关键字生成的新的单词或短语作为歌词,并且在本申请中,这些新生成的单词或短语可以是基于关键字以及相关的时间信息来生成的,以符合歌词的时间顺序要求。
在生成新的单词或短语的同时,本申请的文本生成的模型可以进一步计算所生成的新的单词或短语或者所输入的关键字在各时刻(例如,作为歌词的第二句或第三句的时候)的复制概率。该复制概率可以指示所针对的新的单词或短语或者所输入的关键字在该时刻被复制作为重复部分的几率。例如,当输入了“我爱你”作为关键字时,文本生成模型在第5步生成了“我的情”这个短语,同时,文本生成模型计算出“我的”在该时间点(步骤)的复制概率较高,换言之,根据用于训练该文本模型的现有歌词,“我的”这一单词较为经常被重复。因此,文本生成模型可以判定复制“我的”作为重复部分,并且可以接下来生成“爱”与其共同组成第六步的歌词。
具体地,参考图2a和图2b,图2a-图2b为根据本申请一个实施方式的文本生成方法的流程示意图。根据本申请实施例的文本生成方法包括如下步骤:
S201,获取多个第一分词并生成多个第一词嵌入向量。在这里,可以由用户来输入多个第一分词作为文本生成模型的输入,或者也可以由系统从各种数据源获取多个第一分词来作为文本生成模型的输入。例如,用户可以输入句子或短语,例如“我爱你”或“风雨交加”,然后利用各种常见的分词技术将用户输入的句子或短语划分为多个第一分词。在获得了多个第一分词之后,可以利用诸如词嵌入(Word embedding)模型的方式来将所获的的多个第一分词转换为对应的词向量,即,第一词嵌入向量。在本申请实施例中,进行词嵌入处理的资源可以是通用的词嵌入资源或者是利用足够多的训练预料进行了大量的预先训练获得的词嵌入资源。
S202,对多个第一词嵌入向量进行编码处理以生成包含有时间信息的多个第一状态向量。
根据本申请实施例,在获得了多个第一词嵌入向量之后,可以对其进行编码处理。这里的编码处理可以使用LSTM(长短期记忆)来进行处理,特别地,在对每个第一词嵌入向量进行编码处理后生成了包含有该第一词嵌入向量被进行处理时的时间信息的第一状态向量。
S203,对多个第一状态向量进行解码处理以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,多个第二分词中的每一个第二分词是根据多个第一状态向量中的至少一个以及多个第二分词中的至少一个生成的。
在对第一词嵌入向量进行了编码并获得了多个第一状态向量之后,可以对这些第一状态向量分别进行解码处理以获得多个第二分词。在本申请实施例中,这里的解码处理也可以使用LSTM来进行处理。特别地,在进行解码处理时,可以将编码处理获得的多个第一状态向量中的至少一个以及在上一步骤中生成的第二分词作为当前解码处理的输入来生成当前的第二分词。此外,在生成第二分词的同时,利用LSTM处理可以进一步产生包含当前的处理的时间信息的第二状态向量。
在本申请实施例中,在生成关键字的同时,进一步进行复制概率的计算。即,如图2b所示,步骤S203可以进一步包括:
S2031,根据多个第二状态向量中的每一个第二状态向量和与其对应的第二分词计算多个第一分词和多个第二分词中的至少一个相对于第二分词所对应的时间信息的复制概率。
S2032,根据复制概率选择多个第一分词和多个第二分词中的至少一个作为与时间信息对应的复制分词。
具体地,根据本申请实施例,当基于编码处理生成的第一状态向量以及上一步骤(时刻)解码生成的第二分词来生成当前步骤的第二分词时,可以同时根据在该步骤所生成的第二分词以及相应生成的第二状态向量来计算作为关键字的多个第一分词和所有第二分词中的至少一个相对于该步骤的时间信息的复制概率。即,概率越大说明在该步骤(时刻)应出现重复内容,并且可以进一步根据该概率来选择第一分词或第二分词来作为生成重复内容,即复制第一分词或第二分词作为重复内容。
此外,根据本申请实施例,在获得了复制概率的情况下,可以根据所计算出的复制概率输出至少一个第一分词或/或第二分词作为复制分词候选,从而用户能够对所输出的复制分词候选进行检查和确认,并且根据本申请实施例的方法可以进一步接收用户对所输出的复制分词候选给出的指令。例如用户可以根据所输出的复制分词候选来选择自己想要复制的分词或者用户可以直接修改或替换所输出的复制分词,从而使得最终生成的创作中具有自己想要的复制的部分。
例如,当输入了“深情的人”作为关键字时,获得的第一分词为“深情”、“的”和“人”,并且可以通过上述步骤在第五步生成了“无情”,从而可以通过计算“深情”、“的”和“人”以及在该步骤生成的“无情”相对于该步骤的复制概率。例如,此时计算出的复制概率较高,则可以确定将进行复制,并进一步比较“无情”的复制概率和“深情”、“的”和“人”的复制概率。因此,当“无情”的复制概率较高时,可以复制“无情”作为复制内容。
因此,利用本申请实施例的方法,能够通过计算所生成的第二分词以及第二状态向量相对于当前时间(步骤)的复制概率来确定是否执行复制操作以及当确定进行复制操作时选择基于获取的第一分词来复制还是基于所生成的第二分词来复制。因此,实现了在基于获取的分词生成文本段之外还能够在适当的时机(步骤)执行文本复制来生成重复的内容部分,因此更加适合于在歌词生成的场景下使用。
图3a-图3f为根据本申请一个实施方式的文本生成方法的又一流程示意图。参考图3,根据本申请实施例的文本生成方法包括如下步骤:
S301,获取多个第一分词并生成多个第一词嵌入向量。
S302,对多个第一词嵌入向量进行编码处理以生成包含有时间信息的多个第一状态向量。
在本申请实施例中,如图3b所示,步骤S302可以进一步包括:
S3021,计算多个第一词嵌入向量中的各个词嵌入向量相对于多个第一词嵌入向量中的其他词嵌入向量的第一注意力权重信息,并形成第一注意力权重向量。
S3022,将各个词嵌入向量和对应的第一注意力权重向量进行信息融合,生成多个第一状态向量。
根据本申请实施例,在获得了多个第一词嵌入向量之后,可以先计算所获的的多个第一词嵌入向量中的各个词嵌入向量相对于其他词嵌入向量的第一注意力权重信息。在本申请实施例中,可以将各个第一词嵌入向量与其他词嵌入向量分别进行比较,从而获得这些其他词嵌入向量对于改词嵌入向量的注意力权重。换言之,这些注意力权重可以表示其他词嵌入向量对于该第一词嵌入向量连接到各个其他词嵌入向量作出多少贡献。在获得了多个第一注意力权重向量之后,可以将词嵌入向量与对应的第一注意力权重向量进行融合处理,以获得多个第一状态向量。
经过上述处理,能够进一步在第一状态向量中融入注意力权重,从而有助于更好地传递输入的第一分词之间的语义关系。
此外,在本申请的实施例中,如图3c所示,步骤S3021可以进一步包括:
S30211,将多个第一词嵌入向量分为多个第一词嵌入向量组。
S30212,计算多个第一词嵌入向量中的各个词嵌入向量相对于各个第一词嵌入向量组中的每个词嵌入向量的多个第一注意力权重子信息,并形成各个第一注意力权重子向量。
S30213,将多个第一注意力权重子向量进行向量拼接,生成第一注意力权重向量。
在这里,当输入的第一分词数量很多时,仅计算单个第一词嵌入向量相对于其他词嵌入向量的注意力权重不足以全面反映该词嵌入向量在整个输入的多个分词中的关系,这是因为这样的计算使得注意力加权的位置被平均化了。因此,在本申请实施例中,可以进一步引入多头注意力机制来改进这样的权重平均化问题。
例如,在本申请实施例中,可以对多个第一词嵌入向量进行分组,并计算每个第一词嵌入向量相对于每个组中的第一词嵌入向量的子权重向量,并将计算出来的各个子权重向量进行拼接以最终生成第一注意力权重向量。
通过这样的方法,能够提高注意力权重向量的分辨率,使得能够更好地反映各个第一词嵌入向量在全体第一分词中的语义关系。
S303,对多个第一状态向量进行解码处理以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,多个第二分词中的每一个第二分词是根据多个第一状态向量中的至少一个以及多个第二分词中的至少一个生成的。
与编码步骤中类似地,在解码步骤中,可以类似地引入注意力机制以及进一步引入多头注意力机制来使得生成的状态向量更好地融入分词的语义关系。
例如,在本申请实施例中,如图3d所示,步骤S303可以进一步包括:
S3031,计算多个第二分词中的各个分词相对于其之前的第二分词的第二注意力权重信息,并形成第二注意力权重向量。
S3032,将多个第一状态向量中的至少一个、各个第二分词之前的第二分词以及对应的第二注意力权重向量进行信息融合,生成多个第二状态向量。
并且进一步地,如图3e所示,
步骤S3031可以包括:
S30311,将各个分词之前的多个第二分词分为多个第二分词组。
S30312,计算多个第二分词中的各个第二分词相对于各个第二分词组中的每个第二分词的多个第二注意力权重子信息并形成各个第二注意力权重子向量。
S30313,将多个第二注意力权重子向量进行向量拼接,生成第二注意力权重向量。
在本申请实施例中,在生成关键字的同时,进一步进行复制概率的计算。即,如图3f所示,步骤S303可以进一步包括:
S3033,根据多个第二状态向量中的每一个第二状态向量和与其对应的第二分词计算多个第一分词和多个第二分词中的至少一个相对于第二分词所对应的时间信息的复制概率。
S3034,根据复制概率选择多个第一分词和多个第二分词中的至少一个作为与时间信息对应的复制分词。
此外,在上述步骤S303中,可以引入遮掩机制,从而使得仅使用当前处理的第二分词之前的第二分词来进行解码和复制。
此外,可以进一步对本申请实施例的文本生成方法的模型进行训练。以提高生成的准确率。
例如,如图3a所示,本申请的文本生成方法可以进一步包括:
S304,获取具有时间信息的至少一个训练分词文本段。
S305,将训练分词文本段拆分为多个训练分词,并提取训练分词文本段中的时间信息。
S306,计算多个训练分词相对于训练分词文本段的词频和逆文档词频。
S307,根据计算出的训练分词的词频和逆文档词频选择多个训练分词中的至少一个作为训练分词。
在获得了训练分词之后,可以进一步将其输入到文本生成方法的模型中进行训练。
因此,利用本申请实施例的方法,能够通过计算所生成的第二分词以及第二状态向量相对于当前时间(步骤)的复制概率来确定是否执行复制操作以及当确定进行复制操作时选择基于获取的第一分词来复制还是基于所生成的第二分词来复制。因此,实现了在基于获取的分词生成文本段之外还能够在适当的时机(步骤)执行文本复制来生成重复的内容部分,因此更加适合于在歌词生成的场景下使用。
图4为根据本申请一个实施方式的文本生成装置的结构示意图。参考图4,本申请的文本生成装置包括:第一分词获取组件401、第一编码组件402、第一解码组件403、第一复制概率计算组件404以及复制生词生成组件405。
具体地,第一分词获取组件401可以被构造为获取多个第一分词并生成多个第一词嵌入向量。
第一编码组件402可以被构造为对所述多个第一词嵌入向量进行编码处理以生成包含有时间信息的多个第一状态向量。
第一解码组件403可以被构造为对所述多个第一状态向量进行解码处理以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的。
第一复制概率计算组件404可以被构造为根据所述多个第二状态向量中的每一个第二状态向量和与其对应的第二分词计算多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率。
复制生词生成组件405可以被构造为根据所述复制概率选择多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
此外,根据本申请的实施例,第一编码组件402可以包括第一计算部件4021。
第一计算部件4021可以被构造为计算所述多个第一词嵌入向量中的各个词嵌入向量相对于所述多个第一词嵌入向量中的其他词嵌入向量的第一注意力权重信息,并形成第一注意力权重向量。
在该情况下,第一编码组件402可以被进一步构造为:将所述各个词嵌入向量和对应的第一注意力权重向量进行信息融合,生成所述多个第一状态向量。
此外,根据本申请实施例,第一计算部件4021可以包括:第一分组部件40211和第一注意力权重子信息计算部件40212。
第一分组部件40211可以被构造为将所述多个第一词嵌入向量分为多个第一词嵌入向量组。
第一注意力权重子信息计算部件40212可以被构造为计算所述多个第一词嵌入向量中的各个词嵌入向量相对于各个第一词嵌入向量组中的每个词嵌入向量的多个第一注意力权重子信息并形成各个第一注意力权重子向量。
在该情况下,第一计算部件4021可以被进一步构造为:将所述第一注意力权重子信息计算部件40212形成的多个第一注意力权重子向量进行向量拼接,生成所述第一注意力权重向量。
此外,根据本申请实施例,第一解码组件403可以包括第二计算部件4031。
第二计算部件4031可以被构造为计算所述多个第二分词中的各个分词相对于其之前的第二分词的第二注意力权重信息,并形成第二注意力权重向量。
在该情况下,第一解码组件403可以被进一步构造为将所述多个第一状态向量中的至少一个、各个第二分词之前的第二分词以及对应的第二注意力权重向量进行信息融合,生成所述多个第二状态向量。
此外,根据本申请实施例,第二计算部件4031可以包括第二分组部件40311和第二注意力权重子信息计算部件40312。
第二分组部件40311可以被构造为将所述各个分词之前的多个第二分词分为多个第二分词组。
第二注意力权重子信息计算部件40312可以被构造为计算所述多个第二分词中的各个第二分词相对于各个第二分词组中的每个第二分词的多个第二注意力权重子信息并形成各个第二注意力权重子向量。
在该情况下,第二计算部件4031可以被进一步构造为将所述多个第二注意力权重子向量进行向量拼接,生成所述第二注意力权重向量。
如上所述,为了对本申请实施例的文本生成方法进行训练,本申请的文本生成装置可以进一步包括:第二获取组件、第一训练分词生成组件、第三计算组件和训练组件。
第二获取组件可以被构造为获取具有时间信息的至少一个训练分词文本段。
第一训练分词生成组件可以被构造为将所述训练分词文本段拆分为多个训练分词,并提取所述训练分词文本段中的时间信息。
第三计算组件可以被构造为计算所述多个训练分词相对于所述训练分词文本段的词频和逆文档词频。
训练组件可以被构造为根据计算出的所述训练分词的词频和逆文档词频选择所述多个训练分词中的至少一个作为训练分词。
在获得了训练分词之后,可以进一步将其输入到文本生成方法的模型中进行训练。
因此,利用本申请实施例的方法,能够通过计算所生成的第二分词以及第二状态向量相对于当前时间(步骤)的复制概率来确定是否执行复制操作以及当确定进行复制操作时选择基于获取的第一分词来复制还是基于所生成的第二分词来复制。因此,实现了在基于获取的分词生成文本段之外还能够在适当的时机(步骤)执行文本复制来生成重复的内容部分,因此更加适合于在歌词生成的场景下使用。
图5为本申请实施例的电子设备的结构示意图。
本公开的电子设备可以是具有可移动性的移动终端设备,也可以是较少移动的或者非移动的计算设备。本公开的电子设备至少具有处理单元和存储器,存储器上存储有指令,处理单元从存储器上获取指令,并执行处理,以使电子设备执行动作。
以上描述了测试方法以及测试装置,该测试装置可以实现为一种电子设备。如图5所示,该电子设备包括存储器501和处理器502。
存储器501,用于存储程序。除上述程序之外,存储器501还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器502,不仅仅局限于中央处理器(CPU),还可能为图形处理器(GPU)、现场可编辑门阵列(FPGA)、嵌入式神经网络处理器(NPU)或人工智能(AI)芯片等处理芯片。处理器502,与存储器501耦合,执行存储器501所存储的程序,以用于:
获取多个第一分词并生成多个第一词嵌入向量;
对多个第一词嵌入向量进行编码处理以生成包含有时间信息的多个第一状态向量;
对多个第一状态向量进行解码处理以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,多个第二分词中的每一个第二分词是根据多个第一状态向量中的至少一个以及多个第二分词中的至少一个生成的,
其中,对多个第一状态向量进行解码处理以生成多个第二分词的步骤包括:
根据多个第二状态向量中的每一个第二状态向量和与其对应的第二分词计算多个第一分词和多个第二分词中的至少一个相对于第二分词所对应的时间信息的复制概率;以及
根据所述复制概率选择多个第一分词和多个第二分词中的至少一个作为与时间信息对应的复制分词。
进一步,如图5所示,电子设备还可以包括:通信组件503、电源组件504、音频组件505、显示器506等其它组件。图5中仅示意性给出部分组件,并不意味着电子设备只包括图5所示组件。
通信组件503被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件503经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件503还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件504,为电子设备的各种组件提供电力。电源组件504可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件505被配置为输出和/或输入音频信号。例如,音频组件505包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器501或经由通信组件503发送。在一些实施例中,音频组件505还包括一个扬声器,用于输出音频信号。
显示器506包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种文本生成方法,其特征在于,包括:
从用户获取多个第一分词;
对所述多个第一分词进行编码处理,以生成包含有时间信息的多个第一状态向量;
对所述多个第一状态向量进行解码处理,以生成多个第二分词,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的;
输出所述多个第二分词;
从用户接收至少一个针对所输出的所述多个第二分词中的至少一个的指令;
根据所述至少一个指令修改所述多个第二分词中的至少一个,
其中,所述第二分词中包括至少一个与所述第一分词和所述第二分词中的至少一个相同的分词。
2.根据权利要求1所述的文本生成方法,其特征在于,所述从用户获取多个第一分词包括:
从所述用户获取多个第一数据;以及
对所述多个第一数据进行文字转换处理以获得所述多个第一分词。
3.根据权利要求2所述的文本生成方法,其特征在于,所述多个第一数据为文字、语音、图像、视频中的至少一种。
4.根据权利要求1所述的文本生成方法,其特征在于,所述方法进一步包括:
根据所述至少一个指令,修改所述多个第一分词中的至少一个,并且所述对所述多个第一分词进行编码处理,以生成包含有时间信息的多个第一状态向量进一步包括:
根据修改后的所述至少一个第一分词,修改所述多个第一状态向量。
5.根据权利要求1所述的文本生成方法,其中,所述多个第二分词中的至少一个是当前处理的第二分词之前的所有第二分词。
6.根据权利要求1所述的文本生成方法,其特征在于,进一步包括:
获取具有时间信息的至少一个训练分词文本段;
将所述训练分词文本段拆分为多个训练分词,并提取所述训练分词文本段中的时间信息;
计算所述多个训练分词相对于所述训练分词文本段的词频和逆文档词频;以及
根据计算出的所述训练分词的词频和逆文档词频选择所述多个训练分词中的至少一个作为训练分词。
7.根据权利要求1所述的文本生成方法,其特征在于,所述对所述多个第一状态向量进行解码处理,以生成多个第二分词进一步包括:
计算所述多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率;以及
根据所述复制概率选择所述多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
8.根据权利要求7所述的文本生成方法,其特征在于,进一步包括:
输出所述复制分词;
从用户接收至少一个针对所输出的所述复制分词中的至少一个的指令;
根据所述至少一个指令修改所述复制分词中的至少一个。
9.一种文本生成方法,其特征在于,包括:
获取多个第一分词,并生成多个第一词嵌入向量;
对所述多个第一词嵌入向量进行编码处理,以生成包含有时间信息的多个第一状态向量;
对所述多个第一状态向量进行解码处理,以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的,
其中,所述对所述多个第一状态向量进行解码处理,以生成多个第二分词的步骤包括:
根据所述多个第二状态向量中的每一个第二状态向量和与其对应的第二分词,计算所述多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率;以及
根据所述复制概率选择所述多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
10.根据权利要求9所述的文本生成方法,其中,所述对所述多个第一词嵌入向量进行编码处理,以生成包含有时间信息的多个第一状态向量,包括:
计算所述多个第一词嵌入向量中的各个词嵌入向量相对于所述多个第一词嵌入向量中的其他词嵌入向量的第一注意力权重信息,并形成第一注意力权重向量;
将所述各个词嵌入向量和对应的第一注意力权重向量进行信息融合,生成所述多个第一状态向量。
11.根据权利要求10所述的文本生成方法,其中,所述计算所述多个第一词嵌入向量中的各个词嵌入向量相对于所述多个第一词嵌入向量中的其他词嵌入向量的第一注意力权重信息,并形成与各个词嵌入向量对应的多个第一注意力权重向量,包括:
将所述多个第一词嵌入向量分为多个第一词嵌入向量组;
计算所述多个第一词嵌入向量中的各个词嵌入向量相对于各个第一词嵌入向量组中的每个词嵌入向量的多个第一注意力权重子信息并形成各个第一注意力权重子向量;和
将所述多个第一注意力权重子向量进行向量拼接,生成所述第一注意力权重向量。
12.根据权利要求9所述的文本生成方法,其中,所述对所述多个第一状态向量进行解码处理,以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,包括:
计算所述多个第二分词中的各个分词相对于其之前的第二分词的第二注意力权重信息,并形成第二注意力权重向量;
将所述多个第一状态向量中的至少一个、各个第二分词之前的第二分词以及对应的第二注意力权重向量进行信息融合,生成所述多个第二状态向量。
13.根据权利要求12所述的文本生成方法,其中,所述计算所述多个第二分词中的各个分词相对于其之前的第二分词的第二注意力权重信息,并形成第二注意力权重向量,包括:
将所述各个分词之前的多个第二分词分为多个第二分词组;
计算所述多个第二分词中的各个第二分词相对于各个第二分词组中的每个第二分词的多个第二注意力权重子信息并形成各个第二注意力权重子向量;和
将所述多个第二注意力权重子向量进行向量拼接,生成所述第二注意力权重向量。
14.一种文本生成装置,其特征在于,包括:
第一分词获取组件,其被构造为获取多个第一分词,并生成多个第一词嵌入向量;
第一编码组件,其被构造为对所述多个第一词嵌入向量进行编码处理,以生成包含有时间信息的多个第一状态向量;
第一解码组件,其被构造为对所述多个第一状态向量进行解码处理,以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的;以及
第一复制概率计算组件,其被构造为根据所述多个第二状态向量中的每一个第二状态向量和与其对应的第二分词,计算所述多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率;以及
复制生词生成组件,其被构造为根据所述复制概率选择所述多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
15.一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
获取多个第一分词,并生成多个第一词嵌入向量;
对所述多个第一词嵌入向量进行编码处理,以生成包含有时间信息的多个第一状态向量;
对所述多个第一状态向量进行解码处理,以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的,
其中,所述对所述多个第一状态向量进行解码处理,以生成多个第二分词的步骤包括:
根据所述多个第二状态向量中的每一个第二状态向量和与其对应的第二分词,计算所述多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率;以及
根据所述复制概率选择所述多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
16.一种计算机可读存储介质,在所述计算机可读存储介质上存储有指令,所述指令包括:
获取多个第一分词,并生成多个第一词嵌入向量;
对所述多个第一词嵌入向量进行编码处理,以生成包含有时间信息的多个第一状态向量;
对所述多个第一状态向量进行解码处理,以生成多个第二分词以及与多个第二分词中的每一个分别对应的多个第二状态向量,其中,所述多个第二分词中的每一个第二分词是根据所述多个第一状态向量中的至少一个以及所述多个第二分词中的至少一个生成的,
其中,所述对所述多个第一状态向量进行解码处理,以生成多个第二分词的步骤包括:
根据所述多个第二状态向量中的每一个第二状态向量和与其对应的第二分词,计算所述多个第一分词和所述多个第二分词中的至少一个相对于所述第二分词所对应的时间信息的复制概率;以及
根据所述复制概率选择所述多个第一分词和所述多个第二分词中的至少一个作为与所述时间信息对应的复制分词。
CN201911090358.7A 2019-11-08 2019-11-08 文本生成方法和装置、电子设备以及计算机可读存储介质 Active CN112783334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911090358.7A CN112783334B (zh) 2019-11-08 2019-11-08 文本生成方法和装置、电子设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911090358.7A CN112783334B (zh) 2019-11-08 2019-11-08 文本生成方法和装置、电子设备以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112783334A true CN112783334A (zh) 2021-05-11
CN112783334B CN112783334B (zh) 2024-06-11

Family

ID=75748484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911090358.7A Active CN112783334B (zh) 2019-11-08 2019-11-08 文本生成方法和装置、电子设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112783334B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528858A (zh) * 2016-11-29 2017-03-22 北京百度网讯科技有限公司 歌词生成方法及装置
CN107464559A (zh) * 2017-07-11 2017-12-12 中国科学院自动化研究所 基于汉语韵律结构和重音的联合预测模型构建方法及系统
CN109815496A (zh) * 2019-01-22 2019-05-28 清华大学 基于容量自适应收缩机制载体生成式文本隐写方法及装置
US10380236B1 (en) * 2017-09-22 2019-08-13 Amazon Technologies, Inc. Machine learning system for annotating unstructured text
CN110362696A (zh) * 2019-06-11 2019-10-22 平安科技(深圳)有限公司 歌词生成方法、系统、计算机设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528858A (zh) * 2016-11-29 2017-03-22 北京百度网讯科技有限公司 歌词生成方法及装置
CN107464559A (zh) * 2017-07-11 2017-12-12 中国科学院自动化研究所 基于汉语韵律结构和重音的联合预测模型构建方法及系统
US10380236B1 (en) * 2017-09-22 2019-08-13 Amazon Technologies, Inc. Machine learning system for annotating unstructured text
CN109815496A (zh) * 2019-01-22 2019-05-28 清华大学 基于容量自适应收缩机制载体生成式文本隐写方法及装置
CN110362696A (zh) * 2019-06-11 2019-10-22 平安科技(深圳)有限公司 歌词生成方法、系统、计算机设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李伯泽: "基于深度学习的机器翻译建模方法研究", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》, no. 01, pages 2 *

Also Published As

Publication number Publication date
CN112783334B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
US11093813B2 (en) Answer to question neural networks
CN111261144B (zh) 一种语音识别的方法、装置、终端以及存储介质
US10592607B2 (en) Iterative alternating neural attention for machine reading
CN111836111A (zh) 生成弹幕的技术
US12045578B2 (en) Method for determining text similarity, storage medium and electronic device
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN107077841A (zh) 用于文本到语音的超结构循环神经网络
CN111602133B (zh) 针对自然语言处理系统的词嵌入的压缩
CN110209803B (zh) 故事生成方法、装置、计算机设备及存储介质
US20240078385A1 (en) Method and apparatus for generating text
CN112069309A (zh) 信息获取方法、装置、计算机设备及存储介质
CN118098274B (zh) 模型训练方法、装置、电子设备及存储介质
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN112580325B (zh) 一种快速文本匹配方法及装置
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN115206342A (zh) 一种数据处理方法、装置、计算机设备及可读存储介质
US20240265911A1 (en) Adaptive visual speech recognition
CN112783334B (zh) 文本生成方法和装置、电子设备以及计算机可读存储介质
CN110931014A (zh) 基于正则匹配规则的语音识别方法及装置
CN113115104B (zh) 视频处理方法、装置、电子设备及存储介质
CN114937104B (zh) 虚拟对象面部信息生成方法、装置和电子设备
CN110309270B (zh) 聊天机器人的唱歌答复技术
CN111933122B (zh) 语音识别方法、装置、电子设备和计算机可读介质
CN114093341A (zh) 数据处理方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant