CN109933662B - 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 - Google Patents

模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN109933662B
CN109933662B CN201910118104.5A CN201910118104A CN109933662B CN 109933662 B CN109933662 B CN 109933662B CN 201910118104 A CN201910118104 A CN 201910118104A CN 109933662 B CN109933662 B CN 109933662B
Authority
CN
China
Prior art keywords
word
model
sequence
vector sequence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910118104.5A
Other languages
English (en)
Other versions
CN109933662A (zh
Inventor
张轩玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910118104.5A priority Critical patent/CN109933662B/zh
Publication of CN109933662A publication Critical patent/CN109933662A/zh
Application granted granted Critical
Publication of CN109933662B publication Critical patent/CN109933662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例公开了模型训练方法、信息生成方法、装置、电子设备和计算机可读介质。该模型训练方法的实施例包括:从样本集中提取样本文本和该样本文本的标签词序列;确定该样本文本对应的第一词向量序列和该标签词序列对应的第二词向量序列;将该第一词向量序列作为预先建立的第一初始模型的输入,将该第一初始模型的输出和该第一词向量序列作为预先建立的第二初始模型的输入,将该第二词向量序列作为该第二初始模型的输出,利用机器学习方法,对该第一初始模型和该第二初始模型进行训练;将训练后的该第一初始模型确定为语义向量生成模型,将训练后的该第二初始模型确定为标签词生成模型。该实施方式提高了标签词生成的准确性。

Description

模型训练方法、信息生成方法、装置、电子设备和计算机可读 介质
技术领域
本申请实施例涉及计算机技术领域,具体涉及模型训练方法、信息生成方法、装置、电子设备和计算机可读介质。
背景技术
文本的标签词是能够反映出文本内容及读者兴趣的词语。通常,一个文本可以具有一个或多个标签词。准确地确定文本的标签词,能够有助于读者快速了解到全文的内容。对于文本的分类、推荐、关联等具有重要的作用。
现有的确定文本标签词的方式,通常是抽取文本中较为重要的词语,作为文本的标签词。然而,这种方式无法生成出不在文本中出现的标签词,导致所确定的标签词不够准确。
发明内容
本申请实施例提出了模型训练方法、信息生成方法、装置、电子设备和计算机可读介质,以解决现有技术中由于采用抽取方式无法生成未出现在文本中的标签词,导致所确定的标签词不够准确的技术问题。
第一方面,本申请实施例提供了一种模型训练方法,包括:从样本集中提取样本文本和样本文本的标签词序列;确定样本文本对应的第一词向量序列和标签词序列对应的第二词向量序列;将第一词向量序列作为预先建立的第一初始模型的输入,将第一初始模型的输出和第一词向量序列作为预先建立的第二初始模型的输入,将第二词向量序列作为第二初始模型的输出,利用机器学习方法,对第一初始模型和第二初始模型进行训练;将训练完成后的第一初始模型确定为语义向量生成模型,将训练后的第二初始模型确定为标签词生成模型。
在一些实施例中,第一初始模型为使用自注意力机制的机器翻译模型中的编码模型,第二初始模型为机器翻译模型中的解码模型。
在一些实施例中,样本集中包括多个样本文本和多个样本文本中的各样本文本的标签词序列;以及在从样本集中提取样本文本和样本文本的标签词序列之前,模型训练步骤还包括:对样本集中的各样本文本进行分词;将分词后所得到的各词和标签词序列中的标签词汇总为词表;对于词表中的每一个词,随机初始化预设维数的向量作为该词的词向量。
在一些实施例中,确定样本文本对应的第一词向量序列和标签词序列对应的第二词向量序列,包括:将所提取的样本文本作为目标样本文本,从随机初始化的词向量中,提取对目标样本文本分词后所得到的各个词的词向量,得到与目标样本文本对应的第一词向量序列;将目标样本文本的标签词序列作为目标标签词序列,从随机初始化的词向量中,提取目标标签词序列中的各词对应的词向量,得到与目标标签词序列对应的第二词向量序列。
第二方面,本申请实施例提供了一种模型训练装置,包括:提取单元,被配置成从样本集中提取样本文本和样本文本的标签词序列;第一确定单元,被配置成确定样本文本对应的第一词向量序列和标签词序列对应的第二词向量序列;训练单元,被配置成将第一词向量序列作为预先建立的第一初始模型的输入,将第一初始模型的输出和第一词向量序列作为预先建立的第二初始模型的输入,将第二词向量序列作为第二初始模型的输出,利用机器学习装置,对第一初始模型和第二初始模型进行训练;第二确定单元,被配置成将训练后的第一初始模型确定为语义向量生成模型,将训练完成后的第二初始模型确定为标签词生成模型。
在一些实施例中,第一初始模型为使用自注意力机制的机器翻译模型中的编码模型,第二初始模型为机器翻译模型中的解码模型。
在一些实施例中,样本集中包括多个样本文本和多个样本文本中的各样本文本的标签词序列;以及装置还包括:分词单元,被配置成对样本集中的各样本文本进行分词;汇总单元,被配置成将分词后所得到的各词和标签词序列中的标签词汇总为词表;初始化单元,被配置成对于词表中的每一个词,随机初始化预设维数的向量作为该词的词向量。
在一些实施例中,第一确定单元,包括:第一提取模块,被配置成将所提取的样本文本作为目标样本文本,从随机初始化的词向量中,提取对目标样本文本分词后所得到的各个词的词向量,得到与目标样本文本对应的第一词向量序列;第二提取模块,被配置成将目标样本文本的标签词序列作为目标标签词序列,从随机初始化的词向量中,提取目标标签词序列中的各词对应的词向量,得到与目标标签词序列对应的第二词向量序列。
第三方面,本申请实施例提供了一种信息生成方法,包括:对目标文本进行分词,生成词序列;确定词序列中的各词的词向量,以生成词向量序列;将词向量序列输入至采用如上述第一方面中的实施例所描述的方法生成的语义向量生成模型,得到与词向量序列对应的语义向量序列;将语义向量序列和词向量序列输入至采用如上述第一方面中的实施例所描述的方法生成的标签词生成模型,得到目标文本的标签词。
在一些实施例中,在得到目标文本的标签词之后,该方法还包括:确定与标签词相匹配的目标用户,向目标用户推送目标文本。
第四方面,本申请实施例提供了一种信息生成装置,包括:分词单元,被配置成对目标文本进行分词,生成词序列;确定单元,被配置成确定词序列中的各词的词向量,以生成词向量序列;输入单元,被配置成将词向量序列输入至采用如上述第一方面中的实施例所描述的方法生成的语义向量生成模型,得到与词向量序列对应的语义向量序列;生成单元,被配置成将语义向量序列和词向量序列输入至采用如上述第一方面中的实施例所描述的方法生成的标签词生成模型,得到目标文本的标签词。
在一些实施例中,该装置还包括:推送单元,被配置成确定与标签词相匹配的目标用户,向目标用户推送目标文本。
第五方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述第一方面和第三方面中任一实施例的方法。
第六方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面和第三方面中任一实施例的方法。
本申请实施例提供的模型训练方法、信息生成方法、装置、电子设备和计算机可读介质,在从样本集中提取样本文本和样本文本的标签词序列之后,可以确定样本文本对应的第一词向量序列和标签词序列对应的第二词向量序列。而后,可以将第一词向量序列作为预先建立的第一初始模型的输入,将第一初始模型的输出和第一词向量序列作为预先建立的第二初始模型的输入,将第二词向量序列作为第二初始模型的输出,利用机器学习方法,对第一初始模型和第二初始模型进行训练。最后,可以将训练后的第一初始模型确定为语义向量生成模型,将训练后的第二初始模型确定为标签词生成模型。从而,能够利用所生成的语义向量生成模型和标签词生成模型自动确定文本的标签词。一方面,在训练过程中,若仅将第一初始模型的输出输入至第二初始模型,可能会损失一部分原始的第一词向量序列中的特征。此处同时将第一初始模型的输出和上述第一词向量序列作为第二初始模型的输入,能够减少训练过程中的信息损失,从而使模型考虑到更多的信息,有助于提高标签词生成的准确性。另一方面,在训练过程中,模型通过所标注的标签词序列,能够更充分地学习到样本文本的语义特征。相对于直接从文本中提取标签词的方式,利用训练得到的模型进行标签词生成,能够对文本的语义进行充分理解,所生成的标签词不限于文本中的词,还可以包含不在文本中出现的词,有助于提高提标签词生成的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的模型训练方法的一个实施例的流程图;
图2是根据本申请的模型训练装置的一个实施例的结构示意图;
图3是根据本申请的信息生成方法的一个实施例的流程图;
图4是根据本申请的信息生成装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了根据本申请的模型训练方法的一个实施例的流程100。该模型训练方法,包括以下步骤:
步骤101,从样本集中提取样本文本和样本文本的标签词序列。
在本实施例中,模型训练方法的执行主体(例如服务器等电子设备)可以从样本集中提取样本文本和样本文本的标签词序列。其中,样本集中可以包含大量的样本。每一个样本包括样本文本和该样本文本的标签词序列。此处,样本文本可以是各种内容的文本。例如,可以是新闻标题、新闻内容、论文摘要、文章段落等。实践中,样本集中的样本文本可以是从互联网中获取的。样本文本的标签词序列可以是技术人员人工设置的;也可以是用户上传该样本文本至互联网时由用户设定的,此时,该标签词可由上述执行主体直接获取。
此处,标签词序列中的标签词可以是一个或多个。标签词可以是样本文本中出现的词,也可以是未在样本文本中出现的词。作为示例,样本文本为“本以为是青铜,结果是王者,看小明教科书式手撕第三者”。标签词序列中的标签词可以只有一个,该标签词可以是剧名“如果,爱”。
需要说明的是,当某一个样本文本的标签词序列中既包含在样本文本中出现的词,又包含未在样本文本中出现的词时,则在该标签词序列中,未在样本文本中出现的标签词可以排于在样本文本中出现的标签词的后面。还需要说明的是,当存在至少两个在样本中出现的标签词时,这两个标签词在标签词序列中的顺序,可以与这两个标签词在样本文本中出现的相对相同。作为示例,样本文本为“个人所得税应用重要更新,租房终于不用求房东了”,标签词序列中的标签词可以依次为“个人所得税”、“租房”、“税改”。其中,“个人所得税”、“租房”在样本文本中先后出现,“税改”在样本文本中未出现。
需要指出的是,标签词序列中的标签词的顺序还可以按照其他方式设定,此处不作限定。
步骤102,确定样本文本对应的第一词向量序列和标签词序列对应的第二词向量序列。
在本实施例中,上述执行主体可以对于所提取的样本文本,可以首先进行分词,得到词序列。而后,可以分别确定上述词序列和标签词序列中各词的词向量。最后,可以组成与上述词序列对应的第一词向量序列,以及,组成与上述标签词序列对应的第二词向量序列。其中,上述第一词向量序列中的词向量可以与上述词序列中的词一一对应。上述第二词向量序列中的词向量可以与上述标签词序列中的标签词一一对应。词向量可以用于指示和区分词。不同的词的词向量不同。
需要说明的是,上述执行主体可以利用各种方式进行样本文本的分词,此处对分词方法不作限定。
作为示例,上述分词方法可以是基于统计的分词方法。具体的,可以对上述样本文本中的相邻的各个字的组合的频度进行统计,计算出字的组合出现的频率。当上述概率高于预设概率阈值时,则判定上述组合构成了词,从而实现对上述待解析字段的分词。
作为又一示例,上述分词方法还可以是基于字符串匹配原理的分词方法,利用字符串匹配原理将上述样本文本和预置的机器词典中的字符串进行匹配,其中,上述字符串匹配原理可以是正向最大匹配法、逆向最大匹配法、设立切分标注法、逐词遍历匹配法、正向最佳匹配法、逆向最佳匹配法等等。
需要指出的是,上述执行主体可以利用各种词向量生成方式确定词的词向量。
作为示例,上述执行主体还可以直接利用各种利用开源的词向量计算工具(例如word2vec等)确定各词的词向量。
作为又一示例,上述执行主体中可以预先存储有词表。上述词表中可以包含大量的词。上述词表中的每一个词都具有一个预先生成的词向量。各个词的词向量可以具有相同的维数(例如均为512维)。此时,上述执行主体可以直接将待确定词向量的词与词表中的词进行匹配,从而在预先存储的大量的词向量中,查找到对应的词向量。需要说明的是,上述词表中的各词的词向量可以利用各种方式预先生成。例如,可以利用各种利用开源的词向量计算工具确定所分割成的各个词的词向量。此处,对于词向量的生成方式,此处不作限定。
在本实施例的一些可选的实现方式中,在从样本集中提取样本文本和样本文本的标签词序列之前,上述执行主体还可以执行如下步骤:对样本集中的各样本文本进行分词;将分词后所得到的各词和上述标签词序列中的标签词汇总为词表;对于上述词表中的每一个词,随机初始化预设维数(例如512维)的向量作为该词的词向量。由此,可以得到包含大量的词的词表和此表中的各词的词向量。
在本实施例的一些可选的实现方式中,上述执行主体可以按照如下步骤生成第一词向量序列和第二词向量序列:首先,将所提取的样本文本作为目标样本文本,从随机初始化的词向量中,提取对上述目标样本文本分词后所得到的各个词的词向量,得到与上述目标样本文本对应的第一词向量序列;之后,将上述目标样本文本的标签词序列作为目标标签词序列,从随机初始化的词向量中,提取上述目标标签词序列中的各词对应的词向量,得到与上述目标标签词序列对应的第二词向量序列。
步骤103,将第一词向量序列作为预先建立的第一初始模型的输入,将第一初始模型的输出和第一词向量序列作为预先建立的第二初始模型的输入,将第二词向量序列作为第二初始模型的输出,利用机器学习方法,对第一初始模型和第二初始模型进行训练。
在本实施例中,上述执行主体可以将上述第一词向量序列作为预先建立的第一初始模型的输入,将上述第一初始模型的输出和上述第一词向量序列作为预先建立的第二初始模型的输入,将上述第二词向量序列作为第二初始模型的输出,利用机器学习方法(例如有监督学习的方式),对上述第一初始模型和上述第二初始模型进行训练。
实践中,上述第一初始模型,可以采用编码-解码(encoder-decoder)模型中的编码模型。此处的编码模型可以采用RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)等网络结构。第一初始模型可以从第一词向量序列中提取语义特征,并输出语义向量序列。由此,第一初始模型可以用于表征第一词向量序列与语义向量序列的对应关系。
实践中,上述第二初始模型,可以采用编码-解码(encoder-decoder)模型中的解码模型。此处的解码模型也可以采用RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)等网络结构。
由于若仅将第一初始模型的输出输入至第二初始模型,可能会损失一部分原始的第一词向量序列中的特征。此处,同时将第一初始模型的输出和上述第一词向量序列作为第二初始模型的输入,能够减少信息损失,从而使模型考虑到更多的信息,有助于提高标签词生成的准确性。
此外,由于训练所使用的标签词序列中的标签词可以是样本文本中出现的词,也可以是未在样本文本中出现的词,因此,在训练过程中,模型通过所标注的标签词序列,能够更充分地学习到样本文本的语义特征。相对于直接从文本中提取标签词的方式,利用训练得到的模型进行标签词生成,能够对文本的语义进行充分理解,所生成的标签词不限于文本中的词,还可以包含不在文本中出现的词,有助于提高提标签词生成的准确性。
在本实施例的一些可选的实现方式中,上述第一初始模型,可以是使用自注意力(self-attention)机制的机器翻译模型(例如transformer模型)中的编码模型(encoder)。实践中,该编码模型中可以包含多层结构(例如6层相同的结构)。每层结构中又可以包含两个子层,分别为自注意力(self-attention)层和前馈神经网络(Feed forward)层。编码模型(encoder)能够对词向量序列提取语意特征,从而生成语义向量序列。上述自注意力机制由上述自注意力层体现。此处,由于使用自注意力机制的机器翻译模型能够对文本的语义进行充分理解,因此,使用该模型结构中的编码模型训练得到的语义向量生成模型能够提取更准确的语义特征,有助于提高标签词生成的准确性。
在本实施例的一些可选的实现方式中,上述第二初始模型,可以是使用自注意力(self-attention)机制的机器翻译模型(例如transformer模型)中的解码模型(decoder)。实践中,该解码模型中可以包含多层结构(例如6层相同的结构)。每层结构中又可以包含三个子层,分别为两层自注意力(self-attention)层和前馈神经网络(Feed forward)层。编码模型(encoder)能够对语义向量序列和词向量序列进行进一步的分析处理,生成目标文本的标签词。此处,由于使用自注意力机制的机器翻译模型能够对文本的语义进行充分理解,因此,使用该模型结构中的解码模型训练得到的标签词生成模型能够提高标签词生成的准确性。
步骤104,将训练完成后的第一初始模型确定为语义向量生成模型,将训练后的第二初始模型确定为标签词生成模型。
在本实施例中,上述执行主体可以将训练后的上述第一初始模型确定为语义向量生成模型,将训练完成后的上述第二初始模型确定为标签词生成模型。
实践中,使用大量的样本文本对第一初始模型、第二初始模型训练后,当满足指定的训练结束条件时,可以确定第一初始模型、第二初始模型训练完成。上述训练结束条件可以包括但不限于以下任意一项:第二初始模型生成的标签词的准确率不小于预设值、模型迭代次数不小于与预设次数、模型的损失值收敛。
本申请的上述实施例提供的方法,在从样本集中提取样本文本和上述样本文本的标签词序列之后,可以确定上述样本文本对应的第一词向量序列和上述标签词序列对应的第二词向量序列。而后,可以将上述第一词向量序列作为预先建立的第一初始模型的输入,将上述第一初始模型的输出和上述第一词向量序列作为预先建立的第二初始模型的输入,将上述第二词向量序列作为上述第二初始模型的输出,利用机器学习方法,对上述第一初始模型和上述第二初始模型进行训练。最后,可以将训练后的上述第一初始模型确定为语义向量生成模型,将训练后的上述第二初始模型确定为标签词生成模型。从而,能够利用所生成的语义向量生成模型和标签词生成模型自动确定文本的标签词。
由此,一方面,由于在训练过程中,若仅将第一初始模型的输出输入至第二初始模型,可能会损失一部分原始的第一词向量序列中的特征。此处同时将第一初始模型的输出和上述第一词向量序列作为第二初始模型的输入,能够减少训练过程中的信息损失,从而使模型考虑到更多的信息,有助于提高标签词生成的准确性。
另一方面,在训练过程中,模型通过所标注的标签词序列,能够更充分地学习到样本文本的语义特征。相对于直接从文本中提取标签词的方式,利用训练得到的模型进行标签词生成,能够对文本的语义进行充分理解,所生成的标签词不限于文本中的词,还可以包含不在文本中出现的词,有助于提高提标签词生成的准确性。
进一步参考图2,作为对上图所示方法的实现,本申请提供了一种模型训练装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图2所示,本实施例所述的信息生成装置200包括:提取单元201,被配置成从样本集中提取样本文本和上述样本文本的标签词序列;第一确定单元202,被配置成确定上述样本文本对应的第一词向量序列和上述标签词序列对应的第二词向量序列;训练单元203,被配置成将上述第一词向量序列作为预先建立的第一初始模型的输入,将上述第一初始模型的输出和上述第一词向量序列作为预先建立的第二初始模型的输入,将上述第二词向量序列作为上述第二初始模型的输出,利用机器学习装置,对上述第一初始模型和上述第二初始模型进行训练;第二确定单元204,被配置成将训练完成后的上述第一初始模型确定为语义向量生成模型,将训练后的上述第二初始模型确定为标签词生成模型。
在本实施例的一些可选的实现方式中,上述第一初始模型可以是使用自注意力机制的机器翻译模型中的编码模型,上述第二初始模型可以是上述机器翻译模型中的解码模型。
在本实施例的一些可选的实现方式中,上述样本集中包括多个样本文本和上述多个样本文本中的各样本文本的标签词序列;以及上述装置还包括分词单元、汇总单元和初始化单元(图中未示出)。其中,上述分词单元可以被配置成对样本集中的各样本文本进行分词。上述汇总单元可以被配置成将分词后所得到的各词和上述标签词序列中的标签词汇总为词表。上述初始化单元可以被配置成对于上述词表中的每一个词,随机初始化预设维数的向量作为该词的词向量。
在一些实施例中,上述第一确定单元202可以包括第一提取模块和第二提取模块(图中未示出)。其中,上述第一提取模块可以被配置成将所提取的样本文本作为目标样本文本,从随机初始化的词向量中,提取对上述目标样本文本分词后所得到的各个词的词向量,得到与上述目标样本文本对应的第一词向量序列。上述第二提取模块可以被配置成将上述目标样本文本的标签词序列作为目标标签词序列,从随机初始化的词向量中,提取上述目标标签词序列中的各词对应的词向量,得到与上述目标标签词序列对应的第二词向量序列。
本申请的上述实施例提供的装置,在提取单元201从样本集中提取样本文本和上述样本文本的标签词序列之后,可以第一确定单元202可以确定上述样本文本对应的第一词向量序列和上述标签词序列对应的第二词向量序列。而后,训练单元203可以将上述第一词向量序列作为预先建立的第一初始模型的输入,将上述第一初始模型的输出和上述第一词向量序列作为预先建立的第二初始模型的输入,将上述第二词向量序列作为上述第二初始模型的输出,利用机器学习方法,对上述第一初始模型和上述第二初始模型进行训练。最后,第二确定单元204可以将训练后的上述第一初始模型确定为语义向量生成模型,将训练后的上述第二初始模型确定为标签词生成模型。从而,能够利用所生成的语义向量生成模型和标签词生成模型自动确定文本的标签词。由于在训练过程中,若仅将第一初始模型的输出输入至第二初始模型,可能会损失一部分原始的第一词向量序列中的特征。此处同时将第一初始模型的输出和上述第一词向量序列作为第二初始模型的输入,能够减少训练过程中的信息损失,从而使模型考虑到更多的信息,有助于提高标签词生成的准确性。
请参考图3,其示出了根据本申请的信息生成方法的一个实施例的流程300。该信息生成方法,包括以下步骤:
步骤301,对目标文本进行分词,生成词序列。
在本实施例中,信息生成方法的执行主体(例如服务器等电子设备)可以对目标文本进行分词,生成词序列。其中,目标文本可以是待确定词标签的各种内容的文本。例如,可以是新闻标题、新闻内容、论文摘要、文章段落等。上述词序列可以由上述目标文本分词后所得到的各个词依次汇总而成。
此处,上述执行主体可以采用步骤102中所阐述的分词方法,对目标文本进行分词。此处不再赘述。
步骤302,确定词序列中的各词的词向量,以生成词向量序列。
在本实施例中,上述执行主体可以确定上述词序列中的各词的词向量,以生成词向量序列。其中,词向量序列中的词向量可以与上述词向量中的词一一对应。词向量可以用于指示和区分词。不同的词的词向量不同。
此处,上述执行主体可以按照步骤102中确定第一词向量序列的方式,生成目标文本的词向量序列。此处不再赘述。
步骤303,将词向量序列输入至语义向量生成模型,得到与词向量序列对应的语义向量序列。
在本实施例中,上述执行主体可以将词向量序列输入至预先训练的语义向量生成模型,得到与上述词向量序列对应的语义向量序列。其中,上述语义生成模型可以用于表征词向量序列与语义向量序列的对应关系。此处,上述语义向量生成模型可以是采用如上述图1实施例所描述的模型训练方法所训练生成的。具体生成过程可以参见图1实施例的相关描述,此处不再赘述。
步骤304,将语义向量序列和词向量序列输入至标签词生成模型,得到目标文本的标签词。
在本实施例中,上述执行主体可以将上述语义向量序列和上述词向量序列输入至预先训练的标签词生成模型,得到目标文本的标签词。其中,上述标签词生成模型可以用于生成文本的标签词。此处,上述语义向量生成模型可以是采用如上述图1实施例所描述的模型训练方法所训练生成的。具体生成过程可以参见图1实施例的相关描述,此处不再赘述。
在本实施例的一些可选的实现方式中,上述执行主体中可以存储有多个标签词。各个标签词可以具有相匹配的目标用户。例如,标签词为“科技”,则目标用户可以是工作单位为科研单位或高校的用户。在生成目标样本的标签词之后,上述执行主体可以确定与该标签词相匹配的目标用户,将目标文本推送至目标用户所使用的终端设备。由此,可以使信息推送更具有针对性。
本申请的上述实施例提供的方法,通过对目标文本进行分词,从而可以生成目标文本的词序列;而后确定上述词序列中的各词的词向量,以便生成词向量序列;之后将上述词向量序列输入至预先训练的语义向量生成模型,即可得到与上述词向量序列对应的语义向量序列;最后,最后将上述语义向量序列和上述词向量序列输入至预先训练的标签词生成模型,从而得到上述目标文本的标签词。由此,能够根据文本内容自动生成标签词。
需要说明的是,本实施例的信息生成方法可以用于测试上述各实施例所生成的语义向量生成模型和标签词生成模型。进而根据测试结果可以不断地优化各模型。该方法也可以是上述各实施例所生成的语义向量生成模型和标签词生成模型的实际应用方法。由于训练所使用的标签词序列中的标签词可以是样本文本中出现的词,也可以是未在样本文本中出现的词,因此,在训练过程中,模型通过所标注的标签词序列,能够更充分地学习到样本文本的语义特征。因而,相对于直接从文本中提取标签词的方式,采用上述各实施例所生成的语义向量生成模型和标签词生成模型,来进行标签词生成,能够对文本的语义进行充分理解,所生成的标签词不限于文本中的词,还可以包含不在文本中出现的词,提高了提标签词生成的准确性。
继续参见图4,作为对上述图3所示方法的实现,本申请提供了一种信息生成装置的一个实施例。该装置实施例与图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的信息生成装置400包括:分词单元401,被配置成对目标文本进行分词,生成词序列;确定单元402,被配置成确定上述词序列中的各词的词向量,以生成词向量序列;输入单元403,被配置成将上述词向量序列输入至采用如上述图1实施例所描述的模型训练方法所训练生成的语义向量生成模型,得到与上述词向量序列对应的语义向量序列;生成单元404,被配置成将上述语义向量序列和上述词向量序列输入至采用如上述图1实施例所描述的模型训练方法所训练生成的标签词生成模型,得到上述目标文本的标签词。
在本实施例的一些可选的实现方式中,该装置还可以包括推送单元(图中未示出)。其中,所述推送单元可以被配置成确定与标签词相匹配的目标用户,向目标用户推送目标文本。
可以理解的是,该装置400中记载的诸单元与参考图3描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置400及其中包含的单元,在此不再赘述。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括分词单元、确定单元、输入单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对目标文本进行分词,生成词序列;确定该词序列中的各词的词向量,以生成词向量序列;将该词向量序列输入至预先训练的语义向量生成模型,得到与该词向量序列对应的语义向量序列;将该语义向量序列和该词向量序列输入至预先训练的标签词生成模型,得到该目标文本的标签词。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种模型训练方法,其特征在于,包括:
从样本集中提取样本文本和所述样本文本的标签词序列;
确定所述样本文本对应的第一词向量序列和所述标签词序列对应的第二词向量序列;
将所述第一词向量序列作为预先建立的第一初始模型的输入,将语义向量序列作为所述第一初始模型的输出,将所述第一初始模型的输出和所述第一词向量序列作为预先建立的第二初始模型的输入,将所述第二词向量序列作为所述第二初始模型的输出,利用机器学习方法,对所述第一初始模型和所述第二初始模型进行训练;
将训练完成后的所述第一初始模型确定为语义向量生成模型,将训练后的所述第二初始模型确定为标签词生成模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述第一初始模型为使用自注意力机制的机器翻译模型中的编码模型,所述第二初始模型为所述机器翻译模型中的解码模型。
3.根据权利要求1所述的模型训练方法,其特征在于,所述样本集中包括多个样本文本和所述多个样本文本中的各样本文本的标签词序列;以及
在所述从样本集中提取样本文本和所述样本文本的标签词序列之前,所述方法还包括:
对样本集中的各样本文本进行分词;
将分词后所得到的各词和所述标签词序列中的标签词汇总为词表;
对于所述词表中的每一个词,随机初始化预设维数的向量作为该词的词向量。
4.根据权利要求3所述的模型训练方法,其特征在于,所述确定所述样本文本对应的第一词向量序列和所述标签词序列对应的第二词向量序列,包括:
将所提取的样本文本作为目标样本文本,从随机初始化的词向量中,提取对所述目标样本文本分词后所得到的各个词的词向量,得到与所述目标样本文本对应的第一词向量序列;
将所述目标样本文本的标签词序列作为目标标签词序列,从随机初始化的词向量中,提取所述目标标签词序列中的各词对应的词向量,得到与所述目标标签词序列对应的第二词向量序列。
5.一种模型训练装置,其特征在于,包括:
提取单元,被配置成从样本集中提取样本文本和所述样本文本的标签词序列;
第一确定单元,被配置成确定所述样本文本对应的第一词向量序列和所述标签词序列对应的第二词向量序列;
训练单元,被配置成将所述第一词向量序列作为预先建立的第一初始模型的输入,将语义向量序列作为所述第一初始模型的输出,将所述第一初始模型的输出和所述第一词向量序列作为预先建立的第二初始模型的输入,将所述第二词向量序列作为所述第二初始模型的输出,利用机器学习装置,对所述第一初始模型和所述第二初始模型进行训练;
第二确定单元,被配置成将训练完成后的所述第一初始模型确定为语义向量生成模型,将训练后的所述第二初始模型确定为标签词生成模型。
6.根据权利要求5所述的模型训练装置,其特征在于,所述第一初始模型为使用自注意力机制的机器翻译模型中的编码模型,所述第二初始模型为所述机器翻译模型中的解码模型。
7.根据权利要求5所述的模型训练装置,其特征在于,所述样本集中包括多个样本文本和所述多个样本文本中的各样本文本的标签词序列;以及
所述装置还包括:
分词单元,被配置成对样本集中的各样本文本进行分词;
汇总单元,被配置成将分词后所得到的各词和所述标签词序列中的标签词汇总为词表;
初始化单元,被配置成对于所述词表中的每一个词,随机初始化预设维数的向量作为该词的词向量。
8.根据权利要求7所述的模型训练装置,其特征在于,所述第一确定单元,包括:
第一提取模块,被配置成将所提取的样本文本作为目标样本文本,从随机初始化的词向量中,提取对所述目标样本文本分词后所得到的各个词的词向量,得到与所述目标样本文本对应的第一词向量序列;
第二提取模块,被配置成将所述目标样本文本的标签词序列作为目标标签词序列,从随机初始化的词向量中,提取所述目标标签词序列中的各词对应的词向量,得到与所述目标标签词序列对应的第二词向量序列。
9.一种信息生成方法,其特征在于,包括:
对目标文本进行分词,生成词序列;
确定所述词序列中的各词的词向量,以生成词向量序列;
将所述词向量序列输入至采用如权利要求1-4之一所述的方法生成的语义向量生成模型,得到与所述词向量序列对应的语义向量序列;
将所述语义向量序列和所述词向量序列输入至采用如权利要求1-4之一所述的方法生成的标签词生成模型,得到所述目标文本的标签词。
10.根据权利要求9所述的信息生成方法,其特征在于,在所述得到所述目标文本的标签词之后,所述方法还包括:
确定与所述标签词相匹配的目标用户,向所述目标用户推送所述目标文本。
11.一种信息生成装置,其特征在于,包括:
分词单元,被配置成对目标文本进行分词,生成词序列;
确定单元,被配置成确定所述词序列中的各词的词向量,以生成词向量序列;
输入单元,被配置成将所述词向量序列输入至采用如权利要求1-4之一所述的方法生成的语义向量生成模型,得到与所述词向量序列对应的语义向量序列;
生成单元,被配置成将所述语义向量序列和所述词向量序列输入至采用如权利要求1-4之一所述的方法生成的标签词生成模型,得到所述目标文本的标签词。
12.根据权利要求11所述的信息生成装置,其特征在于,所述装置还包括:
推送单元,被配置成确定与所述标签词相匹配的目标用户,向所述目标用户推送所述目标文本。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4、9-10中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4、9-10中任一所述的方法。
CN201910118104.5A 2019-02-15 2019-02-15 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 Active CN109933662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910118104.5A CN109933662B (zh) 2019-02-15 2019-02-15 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910118104.5A CN109933662B (zh) 2019-02-15 2019-02-15 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN109933662A CN109933662A (zh) 2019-06-25
CN109933662B true CN109933662B (zh) 2021-03-12

Family

ID=66985613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910118104.5A Active CN109933662B (zh) 2019-02-15 2019-02-15 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN109933662B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472742B (zh) * 2019-07-11 2023-04-04 阿里巴巴集团控股有限公司 一种模型变量确定方法、装置及设备
CN110443291B (zh) * 2019-07-24 2023-04-14 创新先进技术有限公司 一种模型训练方法、装置及设备
CN112347775A (zh) * 2019-08-08 2021-02-09 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN112579767B (zh) * 2019-09-29 2024-05-03 北京搜狗科技发展有限公司 搜索处理方法、装置和用于搜索处理的装置
CN111352965B (zh) * 2020-02-18 2023-09-08 腾讯科技(深圳)有限公司 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN111444723B (zh) * 2020-03-06 2023-07-28 深圳追一科技有限公司 信息抽取方法、计算机设备和存储介质
CN111523308B (zh) * 2020-03-18 2024-01-26 大箴(杭州)科技有限公司 中文分词的方法、装置及计算机设备
CN111460135B (zh) * 2020-03-31 2023-11-07 北京百度网讯科技有限公司 用于生成文本摘要的方法和装置
CN111666418B (zh) * 2020-04-23 2024-01-16 北京三快在线科技有限公司 文本重生成方法、装置、电子设备和计算机可读介质
CN111523169B (zh) * 2020-04-24 2023-06-13 广东博智林机器人有限公司 一种装修方案生成方法、装置、电子设备及存储介质
CN111581455B (zh) * 2020-04-28 2023-03-21 北京字节跳动网络技术有限公司 文本生成模型的生成方法、装置和电子设备
CN111709248B (zh) * 2020-05-28 2023-07-11 北京百度网讯科技有限公司 文本生成模型的训练方法、装置及电子设备
CN112749553B (zh) * 2020-06-05 2023-07-25 腾讯科技(深圳)有限公司 视频文件的文本信息处理方法、装置和服务器
CN111767461B (zh) * 2020-06-24 2024-02-06 北京奇艺世纪科技有限公司 数据处理方法及装置
CN112257456A (zh) * 2020-10-22 2021-01-22 平安科技(深圳)有限公司 基于文本编辑技术的文本生成模型的训练方法及装置
CN112836508B (zh) * 2021-01-29 2023-04-14 平安科技(深圳)有限公司 信息提取模型训练方法、装置、终端设备及存储介质
CN113312891B (zh) * 2021-04-22 2022-08-26 北京墨云科技有限公司 一种基于生成模型的payload自动生成方法、装置、系统
CN114611503A (zh) * 2022-01-22 2022-06-10 企知道网络技术有限公司 一种功效词抽取方法、模型训练方法、电子设备及介质
CN117313656B (zh) * 2023-09-21 2024-05-07 成都明途科技有限公司 文本生成方法、训练方法、模型、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491534A (zh) * 2017-08-22 2017-12-19 北京百度网讯科技有限公司 信息处理方法和装置
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436922B (zh) * 2017-07-05 2021-06-08 北京百度网讯科技有限公司 文本标签生成方法和装置
JP6894315B2 (ja) * 2017-07-21 2021-06-30 野村アセットマネジメント株式会社 文書処理システム、文書処理方法、及びプログラム
CN108009228B (zh) * 2017-11-27 2020-10-09 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN108920460B (zh) * 2018-06-26 2022-03-11 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法
CN108829683B (zh) * 2018-06-29 2022-06-10 北京百度网讯科技有限公司 混合标注学习神经网络模型及其训练方法、装置
CN109271643A (zh) * 2018-08-08 2019-01-25 北京捷通华声科技股份有限公司 一种翻译模型的训练方法、翻译方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491534A (zh) * 2017-08-22 2017-12-19 北京百度网讯科技有限公司 信息处理方法和装置
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Model-Based Sequence Similarity with Application to Handwritten Word Spotting";Jose A Rodriguez Serrano等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20121130;第34卷(第11期);2108-2120 *
"大规模词序列中基于频繁词集的特征短语抽取模型";余琴琴等;《小型微型计算机系统》;20180531;第39卷(第5期);1027-1032 *

Also Published As

Publication number Publication date
CN109933662A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109933662B (zh) 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
US11288593B2 (en) Method, apparatus and device for extracting information
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN107679039B (zh) 用于确定语句意图的方法和装置
CN107729300B (zh) 文本相似度的处理方法、装置、设备和计算机存储介质
US20230169270A1 (en) Entity linking method and apparatus
US20180329886A1 (en) Artificial intelligence based method and apparatus for generating information
CN109543058B (zh) 用于检测图像的方法、电子设备和计算机可读介质
CN111967266A (zh) 中文命名实体识别模型及其构建方法和应用
CN109034069B (zh) 用于生成信息的方法和装置
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
CN109766418B (zh) 用于输出信息的方法和装置
CN112860919B (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN111739520B (zh) 一种语音识别模型训练方法、语音识别方法、装置
CN107862058B (zh) 用于生成信息的方法和装置
CN109726397B (zh) 中文命名实体的标注方法、装置、存储介质和电子设备
CN112613306A (zh) 抽取实体关系的方法、装置、电子设备、及存储介质
CN112507190A (zh) 一种财经快讯的关键词提取方法和系统
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN109614481A (zh) 对象识别方法、装置、电子设备及计算机可读存储介质
CN114676705B (zh) 一种对话关系处理方法、计算机及可读存储介质
CN111666405B (zh) 用于识别文本蕴含关系的方法和装置
CN113705207A (zh) 语法错误识别方法及装置
CN115952854B (zh) 文本脱敏模型的训练方法、文本脱敏方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant