CN108959256B - 短文本的生成方法、装置、存储介质和终端设备 - Google Patents
短文本的生成方法、装置、存储介质和终端设备 Download PDFInfo
- Publication number
- CN108959256B CN108959256B CN201810712807.6A CN201810712807A CN108959256B CN 108959256 B CN108959256 B CN 108959256B CN 201810712807 A CN201810712807 A CN 201810712807A CN 108959256 B CN108959256 B CN 108959256B
- Authority
- CN
- China
- Prior art keywords
- short text
- slot position
- words
- template
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提出一种短文本的生成方法、装置、存储介质和终端设备,其中,所述方法包括:获取用于生成短文本的槽位词;根据所述槽位词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;以及将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本。采用本发明,可以实现生成过程的语义可控。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种短文本的生成方法、装置、存储介质和终端设备。
背景技术
随着互联网的发展,网上信息也随之膨胀。在信息量不断拓展的情况下,如果需要保证人工编缉的的深度和广度,则人工编缉的效率低。基于此,利用机器来实现文本自动生成的技术随之应运而生,很大程度上可以节省人工编辑的时间和精力,提高编缉的效率。但是,机器生成的内容难以控制,容易出现与预先设定的语义不匹配的情况。因而,如何在文本生成的过程中保证语义的可控性是目前亟需解决的问题之一。
发明内容
本发明实施例提供一种短文本的生成方法、装置、存储介质和终端设备,以解决或缓解现有技术中的以上一个或多个技术问题。
第一方面,本发明实施例提供了一种短文本的生成方法,包括:
获取用于生成短文本的槽位词;
根据所述槽位词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;以及
将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本。
结合第一方面,在第一方面的第一种实施方式中,所述方法还包括:
根据待生成的短文本模板的文本领域和文本属性,确定所述短文本模板包含的关键词;
根据所述短文本模板包含的关键词,从搜索日志的查询标题中检索候选标题;其中,所述搜索日志用于记载搜索引擎所执行的搜索和包含所述查询标题的搜索结果;所述查询标题包含关键词;
根据实体词类型,确定所述候选标题的实体词;以及
以所述实体词作为槽位词,将所述槽位词从所述候选标题中去除,生成所述短文本模板,并将所述槽位词与所述短文本模板关联存储。
结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,所述方法还包括:
根据预设的短文本模板的过滤词,从所述候选标题中排除包含所述过滤词的候选标题。
结合第一方面的第一种实施方式,在第一方面的第三种实施方式中,所述方法还包括:
对检索到的候选标题进行去重;以及
将生成的短文本模板进行去重,并将去重的短文本模板关联的槽位词进行合并。
结合第一方面或其任一种实施方式,在第一方面的第四种实施方式中,包括:
将用于生成短文本的槽位词和根据所述槽位词生成的短文本组成训练数据;
利用所述训练数据训练得到序列生成模型,所述序列生成模型用于利用输入的槽位词输出对应的短文本。
结合第一方面的第四种实施方式,在第一方面的第五种实施方式中,所述序列生成模型包括基于注意力机制的序列生成模型,所述训练数据还包括根据所述槽位词生成的短文本时所利用到的短文本模板所包括的关键词。
结合第一方面的第四种实施方式,在第一方面的第六种实施方式中,所述序列生成模型包括变分自编码器模型;以及所述方法还包括:
根据所述变分自编码器模型的编码器,对所述槽位词进编码,获得与所述槽位词对应的短文本的隐向量;
对所述隐向量进行调整,获得泛化隐向量;以及
根据所述变化自编码器模型的解码器,对所述隐向量和所述泛化隐向量进行解码,获得短文本。
结合第一方面的第四种实施方式,在第一方面的第七种实施方式中,所述方法还包括:
将所述训练数据中的槽位词输入所述序列生成模型进行计算;
将计算结果与所述训练数据中的短文本进行比对,以调整所述序列生成模型;其中,所述计算的方式包括网络集束搜索的优化方式。
第二方面,本发明实施例提供一种短文本的生成装置,包括:
槽位词获取模块,用于获取用于生成短文本的槽位词;
短文本模板提取模块,用于根据所述槽位词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;以及
短文本生成模块,用于将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本。
结合第二方面,在第二方面的第一种实施方式中,所述装置还包括:
关键词确定模块,用于根据待生成的短文本模板的文本领域和文本属性,确定所述短文本模板包含的关键词;
候选标题检索模块,用于根据所述短文本模板包含的关键词,从搜索日志的查询标题中检索候选标题;其中,所述搜索日志用于记载搜索引擎所执行的搜索和包含所述查询标题的搜索结果;所述查询标题包含关键词;
实体词确定模块,用于根据实体词类型,确定所述候选标题的实体词;以及
短文本模板生成模块,用于以所述实体词作为槽位词,将所述槽位词从所述候选标题中去除,生成所述短文本模板,并将所述槽位词与所述短文本模板关联存储。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,短文本的生成结构中包括处理器和存储器,所述存储器用于短文本的生成装置执行上述第一方面中短文本的生成程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述短文本的生成装置还可以包括通信接口,用于短文本的生成装置与其他设备或通信网络通信。
第三方面,本发明实施例还提供一种计算机可读存储介质,用于短文本的生成装置所用的计算机软件指令,其中包括用于执行上述第一方面的短文本的生成方法所涉及的程序。
上述技术方案中的任意一个技术方案具有如下优点或有益效果:
本发明实施例通过预先存储槽位词与短文本模板的关联对,短文本模板是内有槽位的短文本,当关联的槽位词填入短文本模板中与之匹配的槽位时,可以得到一个具有完整句法语义的短文本。因则,本实施例通过填写槽位的形式来生成短文本,可以实现生成过程的语义可控。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1是本发明提供的短文本的生成方法的一个实施例的流程示意图;
图2是本发明提供的生成短文本板模板与槽位词的关联对的方法的一个实施例的流程示意图;
图3是本发明提供的利用序列生成模型的短文本生成方法的一个实施例的流程示意图;
图4是本发明提供的标准的序列生成模型的一个实施例的示意图;
图5是本发明提供的基于注意力机制的序列生成模型的一个实施例的示意图;
图6是本发明提供的生成短文本的方法的一个实施例的流程示意图;
图7是本发明提供的变分自编码器模型的一个实施例的示意图;
图8是本发明提供的模型训练的方法的一个实施例的流程示意图;
图9是本发明提供的网络集束搜索的一个实施例的示意图;
图10是本发明提供的短文本的生成装置的一个实施例的结构示意图;
图11是本发明提供的终端设备的一个实施例的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
请参阅图1,本发明实施例提供了一种短文本的生成方法,可以应用于终端设备。终端设备可以包括处理器、计算机、智能手机、平板等。本实施例包括步骤S100至步骤S300,具体如下:
S100,获取用于生成短文本的槽位词。
在本实施例中,短文本可以包括少于预设数量的单词。例如,少于30、40或50个单词的语句。短文本可以包括但不限于榜单、标题等。以旅游类目为例,短文本可以包括:“X月XX旅游景点热搜榜,XX排XX第X,XXX居榜首”、“XX十大旅游景点排行,XX第X,XXX垫底”“XX省/XX市十大旅游景点排行榜,你想去哪个?”、“XX旅游去哪里玩?快来看看「X月XX十大热搜景点排行榜”等。槽位词可以包括实体词、专有名词等。例如:广东省、春季、五月等。
S200,根据槽位词,提取与槽位词关联的短文本模板。其中,终端系统内包括大量的短文本模板,且各短文本模板与槽位词关联存储;各短文本模板均包括内嵌有槽位的短文本。
在本实施例中,短文本模板可以从原始短文本中去除特定位置上的实体词后获得的短文本,该特征位置为槽位。例如:原始短文本d1为:“看看中国最适合春季的十大旅游景点吧”,以实体词为“中国”和“春季”为例,在原始短文本的实体词的位置上去除实体词,形成短文本模板D1“看看【实体:地点】最适合【实体:时间】的十大旅游景点吧”。其中,【实体:地点】和【实体:时间】为模板中的槽位,与该槽位匹配的槽位词K1包括:“中国”和“春季”。
S300,将槽位词填入短文本模板中与槽位词匹配的槽位,生成短文本。
接上例,假设预先存储有短文本模板D1和槽位词K1的关联对,当获取到的槽位词K1,可以匹配到短文本模板D1。根据槽位词K1中各词的属性,例如,“中国”的属性是地点,“春季”的属性是时间,将槽位词K1包括的“中国”和“春季”填入短文本模板D1“看看【实体:地点】最适合【实体:时间】的十大旅游景点吧”中的槽位【实体:地点】和【实体:时间】中,获得短文本“看看中国最适合春季的十大旅游景点吧”。
本实施例可以通过填写槽位的形式,形成具有完整句法语义的短文本,实现文本生成的语义可控性。
在一种可能的实现方式中,本实施例需要预先存储短文本板模板与槽位词的关联对。如图2所示,本实施例提供一种生成短文本板模板与槽位词的关联对的方法,可以包括步骤S410到步骤S440,如下:
S410,根据待生成的短文本模板的文本领域和文本属性,确定短文本模板包含的关键词。
在本实施例中,文本领域可以包括类目名称,例如:旅游、教育等领域。以旅游领域为例,短文本中出现的关键词可以包括旅游。文本属性可以包括十大、排行、榜单、榜首、热搜、排名。短文本中出现的关键词可以包括“十大、排行、榜单、榜首、热搜、排名”等词。
S420,根据短文本模板包含的关键词,从搜索日志的查询标题中检索候选标题。
在本实施例中,由于搜索日志用于记载搜索引擎所执行的搜索和包含查询标题的搜索结果,且查询标题包含关键词,因而,本实施例可以以搜索日志为原始数据,对搜索日志进行检索。
在本实施例中,可以对步骤S420检索区简答题的候选标题进行分句,根据文本中需要包含的关键词,从子句中选取子句作为候选标题。
S430,根据实体词类型,确定候选标题的实体词。
在本实施例中,可以对候选标题中的实体进行标记。实体词类型可以包括地点、时间、人物等,例如,以候选标题“看看中国最适合春季的十大旅游景点吧”为例,确定地点为“中国”以及时间为“春季”,可以确定此候选标题的实体词包括“中国”和“春季”。
S440,以实体词作为槽位词,将槽位词从候选标题中去除,生成短文本模板,并将槽位词与短文本模板关联存储。
接上例,实体词包括的“中国”和“春季”为候选标题的槽位词。将候选标题的槽位词“中国”和“春季”从候选标题中去除,可以获得候选标题对应的短文本模板:“看看【实体:地点】最适合【实体:时间】的十大旅游景点吧”。其中,槽位词“中国”、“春季”与短文本模板“看看【实体:地点】最适合【实体:时间】的十大旅游景点吧”关联地存储于终端设备中。
在一种可能的实现方式中,本实施例可以设置候选标题中不能出现的单词(即过滤词),因而本实施例在选取检索标题的过程中,还可以包括:根据预设的短文本模板的过滤词,从候选标题中排除包含过滤词的候选标题。过滤词可以根据实际的应用需求进行设置。例如,将一些描述黄色、不合时宜、暴力的词语作为过滤词。再如,将一些不适合儿童群体的词语作为过滤词。此外,也可以根据不符标准的候选标题,从中选择过滤词。
在一种可能的实现方式中,在上述生成关联对的过程中,本实施例可以执行去重的操作,可以包括:其一,对检索到的候选标题进行去重;其二,将生成的短文本模板进行去重,并将去重的短文本模板关联的槽位词进行合并。
在本实施例中,去重可以将相同的内容保留一者。例如,多个相同的候选标题经过去重后仅保留一个候选标题。多个相同的短文本模板经过去重后仅保留一个短文本模板,但由于该多个相同的短文本模板各自关联的槽位词有可能不相同,因而可以将多个相同的短文本模板的槽位词进行合并。合并之后,可以对多个相同的短文本模板进行排序,可以按照槽位词出现在个相同的短文本模板中的频次由高到低排序。
在本实施例中,还可以对短文本模板精细化处的处理,例如:合并相邻的时间和地点的实体词作为一个实体词。
本实施例可以在每个文本领域中都可以产生大量的短文本模板与槽位词的关联对。这些关联对的短文本模板可以通过填写槽位词的形式进行短文本的生成。
在翻译领域中,利用序列生成模型技术来实现机器翻译的方式,相比传统的机器翻译,可以在很大程度上提高翻译的准确性。本发明实施例,考虑到序列生成模型的解码阶段的灵活性,可以利用前述的槽位词以及根据槽位词和短文本模板生成的短文本构成训练数据,对序列生成模型进行模型训练。本实施例可以利用训练好的序列生成模型来生成短文本,不仅可以实现语义可控,还可以产生大量的短文本,提高短文本的生成的丰富程度。
在一种可能的实现方式中,如图3所示,本发明实施例提供一种序列生成模型的生成方法,可以包括步骤S510和步骤S520,如下:
S510,将用于生成短文本的槽位词和根据槽位词生成的短文本组成训练数据。
S520,利用训练数据训练得到序列生成模型,序列生成模型用于利用输入的槽位词输出对应的短文本。
在本实施例中,标准的序列生成模型可以如图4所示。序列生成模型的输入(又称源端,用S表示)以及输出(又称目标端,以T表示)都是以序列形式组织的文本,例如槽位词、短文本等。该模型旨在学习从源端到目标端的一种映射关系f:S->T,例如学习从槽位词到短文本的映射文系。当模型掌握这种映射关系后,将可以应用到更为广阔的未标语料(S’->T’)中去,解决实际问题。例如,将未进行标识或未知其具体含义的槽位词输入到模型中,可以得到符合需求的短文本。
在本实施例中,训练数据的组织方式可以示例如下:
源端:【实体:地点】【实体:时间】,即槽位词;
目标端:看看【实体:地点】最适合【实体:时间】的十大旅游景点吧,即短文本。
但是,由于序列生成模型的源端的信息受到了高度的压缩,使得目标端在生成阶段难以捕获到一些更具象的信息。例如:槽位词“中国”和“春季”,由于词与词之间的关系不明确,各词包含的单词数量过少的情况下,在生成短文本时,难以捕获槽位词“中国”和“春季”中更详细的信息。
在这样的背景下,本实施例可以采用基于注意力机制的序列生成模型,对训练数据进行训练以生成短文本。该模型在生成阶段不仅可以借助压缩后的源端信息,也考虑到了源端每个语言单元的信息。该模型的示意图参见图5。
在模型训练的过程中,可以分别尝试字级别、词语级别的语言粒度,亦可以联合考虑以上两点,可以在建模过程中丰富的语言单元含义以及交互形式。进一步地,在上述源端字段的基础上,可以对本实施例关注的语义进一步的扩充。训练数据可以包括其他关键词,关键词包括目标端的短文本所对应在短文本模板中的词。短文本包含的关键词可以如十大、排行、排名等,可以将其作为训练数据中的源端输入的关键词。
在一种可能的实现方式中,前述实施例提供的模型确实可以在很大程度上可以解决短文本丰富性的问题,同时在语义可控性上也没有大的损伤。然而,针对同一个输入信息,产生多条形式各异的短文本的这一要求,对模型的生成要求更高。为了满足这样的需求,本实施例的序列生成模型可以包括变分自编码器模型(Variational Auto-encoder,VAE)。可以将槽位词输入序列生成模型生成丰富多样的短文本。如图6所示,本实施例提供的生成短文本的方法,可以包括步骤S610至步骤S630,如下:
S610,根据变分自编码器模型的编码器,对槽位词进编码,获得与槽位词对应的短文本的隐向量。
S620,对隐向量进行调整,获得泛化隐向量。
S630,根据变化自编码器模型的解码器,对隐向量和泛化隐向量进行解码,获得短文本。
在本实施例中,变分自编码器模型可以如图7所示。图7中的recognition network为后验网络,prior network为先验网络,MLP(Multi-Layer Perceptron,多层感知器),softmax为激活函数中的一种。变分自编码器模型的训练过程所利用的优化方式不同于其他模型的直接优化生成概率的损失函数的优化方式。在变分自编码器模型同时引入对输入数据编码后获得的隐向量z的先验概率与后验概率的之间KL距离(VAE优化式中的第一项,又称相对熵),目的是希望在模型训练中参考输出信息的同时(用z的后验概率表示),又不希望这种依赖对推断的生成(只能获取z的先验概率)产生太大的影响。优化目标的具体公式如下:
式中等号后的第一项相对熵,是输入的槽位词的编码分布与先验分布之间的距离,也称为KL距离,可以衡量了编码器的产出分布与中心均匀分布的紧密度。式中等号后的第二项 为重构误差,描述槽位词经过编码再解码获得的短文本与目标短文本的信息丢失率,数值越低越好。数值低表示编码质量越好。是输入的槽位词的后验概率(编码分布)。p(z|S)是先验分布,为编码器的理想的编码分布。pθ(T|z,S`)是槽位词经过编码再解码后的获得的短文本的输出分布概率,p(z|S`)是目标短文本的输出分布概率。S是输入的槽位词,T是时在输出的短文本,z是隐向量,S`是用于训练输入的槽位词。
为输入的自然语句,是自然语句的隐向量。通过这样的优化目标,不仅保证了推断生成短文本的阶段和训练阶段的尽量一致性,更重要的是,在推断生成短文本的阶段对不同隐向量z的采样可以模拟出不同生成结果的预期,继而可以生成风格各异的文本。
训练数据的组织方式上,本实施例继续沿用前述方案,即序列生成模型的训练数据的组织形式。如此产生的短文本的方式,不仅可以针对不同的槽位词可以产生形式多样的标题,还可以针对相同的源端,通过对隐向量z的泛化,产生风格各异的生成结果。同时,还可以保持语义可控性。
在一种可能的实现方式中,还可以引入显式语义,在序列生成模型的训练过程引入显式语义的约束,在模型生成短文本阶段中可以提高生成的短文本的通顺度和多样性。本实施例提供的模型训练的方法,如图8所示,可以包括步骤S710和步骤S720,如下:
S710,将训练数据中的槽位词输入序列生成模型进行计算。
S720,将计算结果与训练数据中的短文本进行比对,以调整序列生成模型。其中,计算的方式包括网络集束搜索的优化方式。
在本实施例中,序列生成模型可以生成丰富多样的短文本,但是也因为其天然的概率形式给生成结果带来了不确定性,导致某些时候无法理解某些语义成分。Grid BeamSearch(网络集束搜索)解码方式可以在推断生成阶段引入显式语义,改进了传统的BeamSearch(集束搜索)过程中对语义的满足程度。Grid Beam Search(网络集束搜索)的解码过程可以如图9所示。图中的time steps为迭代时间,constriaint number为语义约束的数量。不同于传统Beam Search扁平化的生成方式,Grid Beam Search在图中的垂直维度考虑了生成的文本满足语义约束的个数。这种情况下,到达最顶层的文本被视为满足所有语义约束的合格文本。
在本实施例中,如果对训练模型的阶段和推断生成短文本的阶段区别对待,使得模型在训练过程中对存在的语义约束不产生感知,但在推断阶段中加入语义约束,此时生成结果的通顺度和满足度出现负面的情况。基于此,本实施例创新性地提出了Grid BeamSearch Optimization(网络集束搜索优化)的方式,在模型训练中就考虑了对显式语义的感知。具体地,以短文本整句话为优化指标,结合显式的语义约束对序列生成模型进行训练。例如,对于图9中的一层文本子串的输出(步骤S720中的计算结果),如果作为目标端的文本子串(例步骤S720中的短文本)没有包含在此层的文本子串输出中,可以对此层搜索空间中的与目标端的文本子串一致的权重值或得分调高,对此层搜索空间中的输出的文本子串的权重值或得分进行抑制。如此,可以将训练和推断的过程完全统一起来。
本发明实施例还提供一种短文本的生成方式的应用示例,结合图4、图5、图7和图9,以榜单标题的生成为例展开描述。需要说明的是,本发明实施例并不限于本应用场景。
1、应用示例的逻辑
本应示例旨在针对某些给定的类目或领域生成榜单类的标题,以旅游类目为例,类似的榜单标题可以如下:
(1)、榜单标题T1“X月XX旅游景点热搜榜,XX排XX第X,XXX居榜首”。
(2)、榜单标题T2“XX十大旅游景点排行,XX第X,XXX垫底”。
(3)、榜单标题T3“XX省/XX市十大旅游景点排行榜,你想去哪个?”。
(4)、榜单标题T4“XX旅游去哪里玩?快来看看「X月XX十大热搜景点排行榜”。
本实施例可以自动化地产生每个类目下的榜单标题,不仅可以极大地降低编缉的工作量,还可以有效提高榜单标题的生动性和丰富性。
本实施例的语义可控性,可以体现在榜单标题包含的关键词的控制之上,例如,关键词可以包括一些地名、时间或专有名词的标识词、类目关键词(例如,旅游)以及榜单标题的关键词(例如:排名、十大)等。可以将这些特定的语义标识融入生成的短标题中。
2、技术框架
以上述的应用场景为例,本实施例提出了由浅至深四种不同的语义可控技术方案。
(1)、榜单标题模板生成,以及榜单标题模板与实体词的关联
①、以搜索日志中记载的查询标题为原始数据,根据类目名称,例如旅游,设置该领域榜单标题以及相应的查询语句里面需要出现的关键词,例如,旅游、景点等。根据榜单标题的属性,设置通用的榜单标题里需要包含其中一者的关键词。例如,榜单标题中包含十大、排行、榜单、榜首、热搜、排名等词语中的至少一者。同时,可选地设置一些在榜单标题中不可以出现的黑名单词(也即过滤词);
②、对上一步检索获得的榜单标题进行分句,获得子句。对每个子句也可以类似上述要求从中进行筛选。以及对获得的榜单标题去重,产生榜单标题的原始候选;
③、对原始候选中的每一个榜单标题进行实体标记,对该类目下我们感兴趣的实体类型进行泛化构成标题模板和实体对,如:
原始候选:看看中国最适合春季的十大旅游景点吧;
标题模板:看看【实体:地点】最适合【实体:时间】的十大旅游景点吧;
实体(槽位词):(中国,春季)。
④、对相同的标题模板进行去重,对相应的模板实体进行合并,并根据实体出现个数由高到低对标题模板进行排序。
⑤、对模板进行精细化处理。例如,合并相邻的时间、地点实体。根据一些常见的评估为较差的榜单标题,从中提取黑名单词。然后可以根据黑名单词对标题模板进行过滤。
通过上述流程,在每个类目中都可以获得大量的榜单标题模板,这些模板可以通过填写槽位的形式进行实例化。本实施例的语义是通过填写槽位的形式保证语义可控的实现。不过,由于模板的形式是固定的,因而,本实施例也面临着生成的榜单标题不够丰富的问题。
(2)、序列生成模型学习
在翻译领域中,利用序列生成模型技术来实现机器翻译的方式,相比传统的机器翻译,可以在很大程度上提高翻译的准确性。本发明实施例,考虑到序列生成模型的解码阶段的灵活性,可以利用前述的槽位词以及根据槽位词和榜单标题模板生成的榜单标题构成训练数据,对序列生成模型进行模型训练。本实施例可以利用训练好的序列生成模型来生成榜单标题,不仅可以实现语义可控,还可以产生大量的榜单标题,提高榜单标题的生成的丰富程度。
本发明实施例采用的序列生成模型包括标准的序列生成模型、基于注意力机制的序列生成模型、VAE模型等。其中,标准的序列生成模型可以参见图4,基于注意力机制的序列生成模型可以参见图5,VAE模型可以参见图7。以及还可以在上述模型训练过程中引入显示语义的优化,例如,基于网络集束搜索优化的方式调整模型的训练过程。模型的技术效果在前述已阐述,在此不再一一一赘述。
本发明实施例针对榜单标题生成的过程,可以符合给定的语义限制,而且在通顺度、多样性上都有较优的表现。
请参阅图10,本发明实施例提供一种短文本的生成装置,包括:
槽位词获取模块100,用于获取用于生成短文本的槽位词;
短文本模板提取模块200,用于根据所述槽位2词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;以及
短文本生成模块300,用于将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本。
在一种可能的实现方式中,所述装置还包括:
关键词确定模块,用于根据待生成的短文本模板的文本领域和文本属性,确定所述短文本模板包含的关键词;
候选标题检索模块,用于根据所述短文本模板包含的关键词,从搜索日志的查询标题中检索候选标题;其中,所述搜索日志用于记载搜索引擎所执行的搜索和包含所述查询标题的搜索结果;所述查询标题包含关键词;
实体词确定模块,用于根据实体词类型,确定所述候选标题的实体词;以及
短文本模板生成模块,用于以所述实体词作为槽位词,将所述槽位词从所述候选标题中去除,生成所述短文本模板,并将所述槽位词与所述短文本模板关联存储。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,短文本的生成结构中包括处理器和存储器,所述存储器用于短文本的生成装置执行上述第一方面中短文本的生成程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述短文本的生成装置还可以包括通信接口,用于短文本的生成装置与其他设备或通信网络通信。
本发明实施例还提供一种短文本的生成终端设备,如图11所示,该设备包括:存储器21和处理器22,存储器21内存储有可在处理器22上的计算机程序。处理器22执行计算机程序时实现上述实施例中的短文本的生成方法。存储器21和处理器22的数量可以为一个或多个。
该设备还包括:
通信接口23,用于处理器22与外部设备之间的通信。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器21、处理器22和通信接口23独立实现,则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23集成在一块芯片上,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种短文本的生成方法,其特征在于,包括:
获取用于生成短文本的槽位词;
根据所述槽位词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;
将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本;
根据变分自编码器模型的编码器,对所述槽位词进行编码,获得与所述槽位词对应的短文本的隐向量,对所述隐向量进行调整,获得泛化隐向量,根据所述变分自编码器模型的解码器,对所述隐向量和所述泛化隐向量进行解码,获得短文本;
根据待生成的短文本模板的文本领域和文本属性,确定所述短文本模板包含的关键词;其中,所述文本领域包括类目名称,所述文本属性包括十大、排列、榜单、榜首、热搜或排名;
根据所述短文本模板包含的关键词,从搜索日志的查询标题中检索候选标题;其中,所述搜索日志用于记载搜索引擎所执行的搜索和包含所述查询标题的搜索结果;所述查询标题包含关键词;
根据实体词类型,确定所述候选标题中的实体词;其中,所述实体词类型包括地点和时间;以及
以所述实体词作为槽位词,将所述槽位词从所述候选标题中去除,得到新的短文本模板,并将所述槽位词与所述新的短文本模板关联存储;其中,所述新的短文本模板为榜单标题模板。
2.如权利要求1所述的短文本的生成方法,其特征在于,所述方法还包括:
根据预设的短文本模板的过滤词,从所述候选标题中排除包含所述过滤词的候选标题。
3.如权利要求2所述的短文本的生成方法,其特征在于,所述方法还包括:
对检索到的候选标题进行去重;以及
将生成的短文本模板进行去重,并将去重的短文本模板关联的槽位词进行合并。
4.如权利要求1至3中任一项所述的短文本的生成方法,其特征在于,包括:
将用于生成短文本的槽位词和根据所述槽位词生成的短文本组成训练数据;
利用所述训练数据训练得到序列生成模型,所述序列生成模型用于利用输入的槽位词输出对应的短文本。
5.如权利要求4所述的短文本的生成方法,其特征在于,所述序列生成模型包括基于注意力机制的序列生成模型,所述训练数据还包括根据所述槽位词生成的短文本时所利用到的短文本模板所包括的关键词。
6.如权利要求4所述的短文本的生成方法,其特征在于,所述序列生成模型包括所述变分自编码器模型。
7.如权利要求4所述的短文本的生成方法,其特征在于,所述方法还包括:
将所述训练数据中的槽位词输入所述序列生成模型进行计算;
将计算结果与所述训练数据中的短文本进行比对,以调整所述序列生成模型;其中,所述计算的方式包括网络集束搜索的优化方式。
8.一种短文本的生成装置,其特征在于,包括:
槽位词获取模块,用于获取用于生成短文本的槽位词;
短文本模板提取模块,用于根据所述槽位词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;以及
短文本生成模块,用于将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本;
用于根据变分自编码器模型的编码器,对所述槽位词进行编码,获得与所述槽位词对应的短文本的隐向量,对所述隐向量进行调整,获得泛化隐向量,根据所述变分自编码器模型的解码器,对所述隐向量和所述泛化隐向量进行解码,获得短文本的模块;
关键词确定模块,用于根据待生成的短文本模板的文本领域和文本属性,确定所述短文本模板包含的关键词;其中,所述文本领域包括类目名称,所述文本属性包括十大、排列、榜单、榜首、热搜或排名;
候选标题检索模块,用于根据所述短文本模板包含的关键词,从搜索日志的查询标题中检索候选标题;其中,所述搜索日志用于记载搜索引擎所执行的搜索和包含所述查询标题的搜索结果;所述查询标题包含关键词;
实体词确定模块,用于根据实体词类型,确定所述候选标题中的实体词;其中,所述实体词类型包括地点和时间;以及
短文本模板生成模块,用于以所述实体词作为槽位词,将所述槽位词从所述候选标题中去除,生成新的短文本模板,并将所述槽位词与新的短文本模板关联存储;其中,所述新的短文本模板为榜单标题模板。
9.一种实现短文本的生成终端设备,其特征在于,所述终端设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的短文本的生成方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的短文本的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810712807.6A CN108959256B (zh) | 2018-06-29 | 2018-06-29 | 短文本的生成方法、装置、存储介质和终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810712807.6A CN108959256B (zh) | 2018-06-29 | 2018-06-29 | 短文本的生成方法、装置、存储介质和终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959256A CN108959256A (zh) | 2018-12-07 |
CN108959256B true CN108959256B (zh) | 2023-04-07 |
Family
ID=64485036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810712807.6A Active CN108959256B (zh) | 2018-06-29 | 2018-06-29 | 短文本的生成方法、装置、存储介质和终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959256B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401044A (zh) * | 2018-12-27 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 一种标题生成方法、装置、终端设备及存储介质 |
CN111414103B (zh) * | 2019-01-04 | 2021-11-16 | 百度在线网络技术(北京)有限公司 | 用于生成指令的方法及装置 |
CN109960749B (zh) * | 2019-02-22 | 2021-04-06 | 清华大学 | 模型获取方法、关键词生成方法、装置、介质及计算设备 |
CN110287461B (zh) * | 2019-05-24 | 2023-04-18 | 北京百度网讯科技有限公司 | 文本转换方法、装置及存储介质 |
CN110309507A (zh) * | 2019-05-30 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 测试语料生成方法、装置、计算机设备和存储介质 |
CN110209838A (zh) * | 2019-06-10 | 2019-09-06 | 广东工业大学 | 一种文本模板获取方法及相关装置 |
CN110727782A (zh) * | 2019-10-22 | 2020-01-24 | 苏州思必驰信息科技有限公司 | 问答语料生成方法及系统 |
CN110766085A (zh) * | 2019-10-28 | 2020-02-07 | 北京声智科技有限公司 | 基于自定义场景的槽位识别模型训练方法及装置 |
CN110929505B (zh) * | 2019-11-28 | 2021-04-16 | 北京房江湖科技有限公司 | 房源标题的生成方法和装置、存储介质、电子设备 |
CN113010768B (zh) * | 2019-12-19 | 2024-03-19 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN111241789A (zh) * | 2020-01-14 | 2020-06-05 | 平安科技(深圳)有限公司 | 一种文本生成的方法及装置 |
CN111241832B (zh) * | 2020-01-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
CN111488450A (zh) * | 2020-04-08 | 2020-08-04 | 北京字节跳动网络技术有限公司 | 一种用于生成关键词库的方法、装置和电子设备 |
CN112036164A (zh) * | 2020-09-17 | 2020-12-04 | 深圳市欢太科技有限公司 | 样本生成方法及装置、计算机可读存储介质和电子设备 |
CN112597748B (zh) * | 2020-12-18 | 2023-08-11 | 深圳赛安特技术服务有限公司 | 语料生成方法、装置、设备及计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268339A (zh) * | 2013-05-17 | 2013-08-28 | 中国科学院计算技术研究所 | 微博消息中命名实体识别方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980624B (zh) * | 2016-01-18 | 2021-03-26 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法和装置 |
CN107943774A (zh) * | 2017-11-20 | 2018-04-20 | 北京百度网讯科技有限公司 | 文章生成方法和装置 |
CN107832229B (zh) * | 2017-12-03 | 2021-06-11 | 中国直升机设计研究所 | 一种基于nlp的系统测试用例自动生成方法 |
-
2018
- 2018-06-29 CN CN201810712807.6A patent/CN108959256B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268339A (zh) * | 2013-05-17 | 2013-08-28 | 中国科学院计算技术研究所 | 微博消息中命名实体识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
孙凌等.基于变分自动编码器的动态主题模型.《河北工业科技》.2017,(第06期), * |
Also Published As
Publication number | Publication date |
---|---|
CN108959256A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959256B (zh) | 短文本的生成方法、装置、存储介质和终端设备 | |
CN107229610B (zh) | 一种情感数据的分析方法及装置 | |
WO2018000272A1 (zh) | 一种语料生成装置和方法 | |
US20180307667A1 (en) | Travel guide generating method and system | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
CN111581474B (zh) | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN109344413A (zh) | 翻译处理方法和装置 | |
CN109241330A (zh) | 用于识别音频中的关键短语的方法、装置、设备和介质 | |
CN112104919A (zh) | 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质 | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN111814451A (zh) | 文本处理方法、装置、设备和存储介质 | |
CN114912448B (zh) | 一种文本扩展方法、装置、设备及介质 | |
CN113535977B (zh) | 一种知识图谱融合方法和装置及设备 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN110188772A (zh) | 基于深度学习的中文图像描述方法 | |
CN105005616A (zh) | 基于文本图片特征交互扩充的文本图解方法及系统 | |
CN109902305A (zh) | 基于命名实体识别的模板生成、搜索及文本生成设备与方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN116151220A (zh) | 分词模型训练方法、分词处理方法和装置 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110019556A (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN110347921A (zh) | 一种多模态数据信息的标签抽取方法及装置 | |
CN109325096A (zh) | 一种基于知识资源分类的知识资源搜索系统 | |
CN114661616A (zh) | 目标代码的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |