CN111666418A

CN111666418A - 文本重生成方法、装置、电子设备和计算机可读介质

Info

Publication number: CN111666418A
Application number: CN202010329445.XA
Authority: CN
Inventors: 朱向荣
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-09-15
Anticipated expiration: 2040-04-23
Also published as: CN111666418B

Abstract

本申请实施例公开了文本重生成方法、装置、电子设备和计算机可读介质。该方法的实施例包括：从目标对象关联的页面中获取目标对象的描述信息；从预设的知识图谱中获取目标对象关联的图谱信息；将描述信息和图谱信息进行汇总，生成输入信息序列；获取目标对象的约束信息，将输入信息序列和约束信息输入至预先训练的文本重生成模型，通过文本重生成模型从输入信息序列中抽取目标输入信息并将所抽取的目标输入信息汇总为目标名称，从而对目标对象的名称进行重生成。该实施方式提高了目标对象的名称的丰富性以及重生成的名称对目标对象的表达的准确性。

Description

文本重生成方法、装置、电子设备和计算机可读介质

技术领域

本申请实施例涉及计算机技术领域，具体涉及文本重生成方法、装置、电子设备和计算机可读介质。

背景技术

随着互联网技术的高速发展，互联网中的内容对象越来越丰富。各种内容对象需要具有相应的名称，如主题、标题等，以便于用户快速便捷地进行内容筛选和浏览。然而，现有的一些内容对象的名称较为简短，无法为用户提供足够的参考信息，导致用户需要进一步浏览详细信息才能确定是否为其所需的内容，给用户带来不便。例如，对于菜品对象，其名称通常为人为设定的简单菜名，如“酱牛肉”等，用户无法从当前的名称中得知更多信息。同时，这类内容对象的名称具有较高的准确性要求，若名称中出现不准确的词汇，极易给用户带来困扰。

现有技术中，在对内容对象进行名称生成时，通常是从该内容对象的相关描述文本中筛选出关键词，或者相关描述文本中的内容生成新的关键词，进而将这些关键词组合为内容对象的名称。然而，这种名称生成方式所使用的信息来源较为单一，导致所生成的目标对象的名称中的信息不够丰富。此外，这种名称方式所得到名称中易出现不准确词汇，无法适用于菜品对象等对名称准确性要求较高的内容对象。

发明内容

本申请实施例提出了文本重生成方法、装置、电子设备和计算机可读介质，以提高目标对象的名称的丰富性以及重生成的名称对目标对象的表达的准确性。

第一方面，本申请实施例提供了一种文本重生成方法，该方法包括：从目标对象关联的页面中，获取目标对象的描述信息，描述信息包括目标对象的原始名称；从预设的知识图谱中，获取目标对象关联的图谱信息；将描述信息和图谱信息进行汇总，生成输入信息序列；获取目标对象的约束信息，将输入信息序列和约束信息输入至预先训练的文本重生成模型，得到文本重生成模型对原始名称进行重生成后的目标名称，其中，文本重生成模型用于在约束信息的约束下，从输入信息序列中抽取目标输入信息，并将所抽取的目标输入信息汇总为目标名称，文本重生成模型采用机器学习方法对神经网络模型预先训练得到。

第二方面，本申请实施例提供了一种文本重生成装置，该装置包括：第一获取单元，被配置成从目标对象关联的页面中，获取目标对象的描述信息，描述信息包括目标对象的原始名称；第二获取单元，被配置成从预设的知识图谱中，获取目标对象关联的图谱信息；汇总单元，被配置成将描述信息和图谱信息进行汇总，生成输入信息序列；重生成单元，被配置成获取目标对象的约束信息，将输入信息序列和约束信息输入至预先训练的文本重生成模型，得到文本重生成模型对原始名称进行重生成后的目标名称，其中，文本重生成模型用于在约束信息的约束下，从输入信息序列中抽取目标输入信息，并将所抽取的目标输入信息汇总为目标名称，文本重生成模型采用机器学习方法对神经网络模型预先训练得到。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中所描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中所描述的方法。

本申请实施例提供的文本重生成方法、装置、电子设备和计算机可读介质，通过从目标对象关联的页面中获取目标对象的描述信息，而后从预设的知识图谱中获取目标对象关联的图谱信息，从而将描述信息和图谱信息进行汇总，生成输入信息序列。而后通过获取目标对象的约束信息，并将输入信息序列和约束信息输入至预先训练的文本重生成模型，以通过文本重生成模型从输入信息序列中抽取目标输入信息并将所抽取的目标输入信息汇总为目标名称，从而实现对目标对象的名称进行重生成。一方面，由于目标对象关联的信息从多个数据来源处获取，且数据来源包括含有海量信息的知识图谱，因而信息来源较为丰富，有助于提高所生成的目标名称中的信息的丰富程度。另一方面，文本重生成模型在从输入信息序列中抽取目标输入信息时受到约束信息的约束，从而可以在抽取过程提供额外的信息以防止抽取到错误词语，提高了重生成的目标名称对目标对象的表达的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的文本重生成方法的一个实施例的流程图；

图2是根据本申请的神经网络模型的结构示意图；

图3是根据本申请的通过文本重生成模型生成目标名称的流程图；

图4是根据本申请的文本重生成装置的一个实施例的结构示意图；

图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了根据本申请的文本重生成方法的一个实施例的流程100。文本重生成方法的执行主体可以是服务器。服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个设备组成的分布式设备集群，也可以实现成单个设备。当服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

此外，在终端设备具有实现本申请的文本重生成方法的能力时，信息获取方法的执行主体也可以是终端设备。上述终端设备可以是如手机、智能手机、平板电脑、膝上型便携计算机、可穿戴设备等的电子设备。

该文本重生成方法，包括以下步骤：

步骤101，从目标对象关联的页面中，获取目标对象的描述信息。

在本实施例中，文本重生成方法的执行主体可以从目标对象关联的页面中，获取目标对象的描述信息。此处的目标对象可以是待进行重命名或者设定名称的任一内容对象，如文档、产品等。此处的产品既可以是实体产品，如菜品、饮品等，也可以是虚拟产品，如酒店房间等。此处的名称可以是标题、主题等内容。

此处，目标对象关联的页面，可以是显示有目标对象的相关信息的页面。例如，若目标对象为一资讯，则目标对象关联的页面可以是显示有该资讯的详细内容的页面。若目标对象为一菜品，则目标对象关联的页面可以是该菜品的详情页。

在本实施例中，目标对象的描述信息可以是用于描述目标对象的文本信息。此处的描述信息可以包括目标对象的原始名称。此外，描述信息还可以包含其他内容。例如，若目标对象为一资讯，则该资讯的描述信息除包括原始名称(或原始标题)外，还可包括该资讯的详细内容、发布时间、作者、关键词、摘要等信息。若目标对象为一资讯，则菜品的描述信息除包括原始的菜名外，还可包括该菜品的相关介绍、顾客评价等信息。

在本实施例的一些可选的实现方式，上述执行主体可以通过如下步骤确定待进行重命名的目标对象：

首先，获取多个对象的原始名称。例如，对于订餐平台，可以将入驻订餐平台的每一个实体(如门店)所供应的每一个菜品作为一个对象，获取各对象的原始名称。

而后，对所获取的各原始名称进行分词，检测各原始名称中的词语数量。此处可以采用各种现有的分词算法进行原始名称的分词，例如，基于规则的分词算法、基于统计的分词算法等，此处不作限定。

最后，将原始名称中的词语数量小于预设数值的任一对象确定为目标对象。此处的预设数值可以根据需要进行预先设定，如设定为1、2等，此处不作限定。

可以理解的是，当某对象的名称较为简短时，通常无法为用户提供足够的参考信息，导致用户需要进一步浏览详细信息才能确定是否为其所需的内容，从而给用户带来不便。例如，对于一些菜品对象，其名称通常为人为设定的简单菜名，如“酱牛肉”等，用户无法从当前的名称中得知更多的信息。因而，将原始名称中的词语数量小于预设数值的任一对象确定为目标对象，可对名称较为简短的对象进行重命名，从而提高这些对象的名称中的内容的丰富程度。

步骤102，从预设的知识图谱中，获取目标对象关联的图谱信息。

在本实施例中，上述执行主体可以从预设的知识图谱(Knowledge Graph)中，获取目标对象关联的图谱信息。此处，知识图谱中可以记录有与不同对象关联的各种信息。

作为示例，目标对象为菜品对象，预设的知识图谱可以是菜品知识图谱。对于每一种菜品对象，菜品知识图谱中可以包括但不限于以下至少一项信息：食材、做法、口味、菜系、口感、品类、功效等。

在本实施例的一些可选的实现方式中，从知识图谱汇总获取的图谱信息，可以为结构化信息。此处的结构化信息可以是键值对形式的信息。继续上述示例，若目标对象为“香菇牛肉”，则图谱信息中的食材信息可以为<ing，香菇><ing，牛肉>，其中“ing”表示食材。同理，菜系信息可以为<cui，韩国>，其中“cui”表示菜系；口味信息可以为<del，咸>，其中“del”表示口味；品类信息可以为<type，热菜>，其中“type”表示品类；，做法信息可以为<cook，炒>，其中“cook”表示做法；口感信息可以为<taste，爽口>，其中“taste”表示口感；功效可以为<eff，养身补虚>，其中“eff”可以表示功效。

需要说明的是，结构化信息还可以以其他形式表示，例如，以上述品类信息为例，还可以表示为<k＝type，v＝热菜>。本实施例对结构化信息的表示方式不作限定。

步骤103，将描述信息和图谱信息进行汇总，生成输入信息序列。

在本实施例中，由于描述信息为文本形式的信息，因而上述执行主体可以首先将描述信息进行分词，得到分词结果。每一个分词结果可以视为一项输入信息。此外，上述执行主体可以将每一项图谱信息作为一项输入信息。从而，将各项输入信息进行汇总，得到输入信息序列。

以目标对象为菜品对象为例。描述信息中包括该菜品对象的原始名称，如“香菇牛肉”。图谱信息中包括该菜品对象的做法和口味。其中，做法表示为<cook，炒>，口味表示为<taste，爽口>。此时，可以将描述信息分词为“香菇”、“牛肉”，并将“香菇”、“牛肉”、“炒”、“爽口”分别作为输入信息，并将各项输入信息汇总为输入信息序列。此时的输入信息序列中包括4个输入信息。

需要说明的是，输入信息序列中除包含基于描述信息和图谱信息得到的输入信息外，还可以包含起始符号和结束符号。例如，起始符号可以表示为“BOS”，结束符号可以表示“EOS”。

在本实施例的一些可选的实现方式中，描述信息可以是非结构化数据，如文本数据。图谱信息可以是结构化数据，如键值对形式的数据。此时，上述执行主体可以按照如下步骤将描述信息和图谱信息汇总为输入信息序列：

首先，将上述描述信息转换为结构化数据。此处，可以将描述信息进行分词，分词后的每一个词语可表示为一个结构化数据。例如，目标对象为菜品对象，目标对象的描述信息中包括原始名称“香菇牛肉”，此时可以将“香菇牛肉”分词为“香菇”和“牛肉”。而后，将原始名称表示为“ori”。最后，将“香菇”转换为结构化数据<ori，香菇>，并将“牛肉”转换为结构化数据<ori，牛肉>。此处，结构化数据中的前一部分(如ori)可以视为键值对中的键(key，简称为k)，后一部分(如香菇、肥牛)可以视为键值对中的值(value，简称为v)。

而后，可以将上述描述信息和上述图谱信息中的每一项结构化数据作为一个输入信息，将各输入信息进行汇总为输入信息序列。需要说明的是，在输入信息序列中，可以为结构化数据中的不同键设置不同的标识，为结构化数据中的相同键设置相同的标识，同时，可以为不同结构化数据中的值设置为不同标识。例如，结构化数据有<ori，香菇>、<ori，牛肉>、<cook，炒>和<taste，爽口>。则可以将“ori”标识为r1，将“cook”标识为r2，将“taste”标识为r3，将“香菇”标识为c1，将“牛肉”标识为c2，将“炒”标识为c3，将“爽口”标识为c4。从而便于信息输入。

通过将描述信息转换为结构化数据，能够统一不同格式的数据，从而降低数据处理的复杂程度。

步骤104，获取目标对象的约束信息，将输入信息序列和约束信息输入至预先训练的文本重生成模型，得到文本重生成模型对原始名称进行重生成后的目标名称。

在本实施例中，上述执行主体中可以存储有预先训练的文本重生成模型。文本重生成模型可以采用机器学习方法对神经网络模型预先训练得到。此处的神经网络模型可以采用编码(encoder)-解码(decoder)架构的神经网络结构。文本重生成模型可以用于在约束信息的约束下，从输入信息序列中抽取目标输入信息，并将所抽取的目标输入信息汇总为目标名称。

在本实施例中，上述执行主体中可以首先获取目标对象的约束信息。此处的约束信息可以是与目标对象相关的其他特征。例如，当目标对象为菜品时，由于同一菜品可能对应两种不同类型的菜，不同类型的菜的价格差异较大，因而，可以将目标对象的价格作为约束信息。再例如，当目标对象为文档时，可以将文档的内容类型作为约束信息。

在获取目标对象的约束信息后，上述执行主体可以将步骤103得到的输入信息序列和约束信息同时输入至预先训练的文本重生成模型。上述文本重生成模型可以自动基于约束信息，从输入信息序列中逐次抽取目标输入信息，从而得到文本重生成模型对原始名称进行重生成后的目标名称。

在本实施例的一些可选的实现方式中，目标名称中可以包括原始名称，从而可以提高目标对象的名称中的信息的丰富程度。

在本实施例的一些可选的实现方式中，上述神经网络模型可以包括编码器(encoder)、解码器(decoder)和约束层。作为示例，图2为神经网络模型的结构示意图。如图2所示，编码器包括编码层和注意力层。注意力层可以采用注意力机制(attention)进行数据处理。

此处，编码层可以用于生成输入信息序列中的各信息的向量表示。约束层可以用于生成约束信息的向量表示。解码器可以用于基于从输入信息序列中依次抽取的目标输入信息和编码器上一次输出的隐向量，生成新的隐向量。如图2所示，注意力层可以分别与编码层、解码器和约束层相连接。注意力层可以用于基于编码器的输出的各向量表示、约束层输出的向量表示和解码器逐次输出的隐向量，抽取输入信息序列中的目标输入信息。

可选的，编码层可以包括双向长短期记忆网络(Long Short-Term Memory，LSTM)，解码器包括单向长短期记忆网络。

在本实施例的一些可选的实现方式中，通过文本重生成模型生成目标名称的流程图可参见图3，包括如下子步骤S11至子步骤S18：

子步骤S11，将输入信息序列输入至编码层，得到编码向量序列。此处的编码向量序列中包括输入信息序列中的各输入信息的向量表示。

以图2为例，输入信息可以是键值对形式的结构化数据，以r+c的形式表征。其中，r可以表示结构化数据中的键，c可表示为结构化数据中的值。此处，结构化数据分别由r1+BOS(起始符号)、r1+c1、r1+c2、r2+c3、r2+c4、r3+c5、r3+c6、r3+c7。此处，同一键可能具有多个值，因而，上述结构化数据中r1、r2和r3分别对应若干个c。

子步骤S12，将约束信息输入至约束层，得到约束信息的向量表示。

子步骤S13，将起始符号的文本特征和位置特征输入至解码器，得到解码器输出的初始的隐向量。此处，起始符号的文本特征和位置特征可以预先人工设定，均可表示为向量形式。以图2为例，起始符号的文本特征可以为n0，起始符号的位置特征可以为p0。

在执行子步骤S13后，可以执行文本重生成步骤，文本重生成步骤可以包括如下子步骤S14至子步骤S18。

子步骤S14，将编码向量序列、约束信息的向量表示和解码器最新输出的隐向量输入至注意力层。

子步骤S15，基于注意力层输出的信息，抽取输入信息序列中的目标输入信息。此处，约束信息的向量表示和解码器最新输出的隐向量可以决定注意力层的注意力分配系数。因而，解码器每输出一次隐向量时，注意力层的注意力系数分配即产生一次更新，从而注意力层在采用注意力机制对编码向量序列进行处理后，可得到一次新的输出。

注意力层可以输出一个向量，向量中的每一个数值可以对应编码向量序列中的一个编码向量。由于每一个编码向量序列与输入信息序列相对应，因而，注意力层输出的向量中的每一个数值可以对应一个输入信息，且注意力层的输出的向量中的数值的大小可以表征相应输入信息的重要性。数值越大，重要性越大，因而越易被抽取。注意力层每输出一次，可将重要性最大的一个输入信息作为目标输入信息进行抽取。

可选的，注意力层输出的信息为概率向量，概率向量中的数值与输入信息序列中的输入信息一一对应，概率向量中的数值用于表征输入信息的抽取概率。可以将概率向量中的最大的数值对应的输入信息作为目标输入信息，抽取输入信息序列中的目标输入信息。

需要说明的是，每执行一次文本重生成步骤，注意力层即可输出一次信息，从而即可基于注意力层输出的信息，抽取输入信息序列中的目标输入信息。如图2所示，注意力层可以所依次抽取的目标输入信息即为n1、n2、n3对应的输入信息。n1、n2、n3分别为所抽取的目标输入信息的文本特征。当前最新抽取的目标输入信息即为n3对应的输入信息。

子步骤S16，检测最新抽取目标输入信息是否为结束符号。此处的结束符号可以预先设置，例如设置为“EOS”。

子步骤S17，响应于检测出最新抽取目标输入信息为结束符号，将依次抽取的目标输入信息进行汇总，生成目标名称。

子步骤S18，响应于检测出最新抽取的目标输入信息不为结束符号，获取最新抽取的目标输入信息的文本特征和最新抽取的目标输入信息在输入信息序列中的位置特征，将最新抽取的目标输入信息的文本特征和位置特征输入至解码器，得到解码器最新输出的隐向量，并使用解码器最新输出的隐向量继续执行文本重生成步骤，即继续执行子步骤S14及之后的子步骤。

如图2所示，此时最新抽取的目标输入信息的文本特征即为n3，最新抽取的目标输入信息在输入信息序列中的位置特征即为p3。图2中的p1为n1对应的目标输入信息在输入信息序列中的位置特征。p2为n2对应的目标输入信息在输入信息序列中的位置特征。

需要说明的是，由于解码器输出的隐向量可影响注意力层的输出结果，因而能够影响所抽取的目标输入信息。因而，图2中的虚线箭头用于表示最新抽取的目标输入信息的文本特征n3收到解码器的上一次的输出的影响。

通过基于神经网络模型训练得到的文本重生成模型，可依次从输入信息序列中抽取目标输入信息，得到重生成的目标名称，保证了目标名称中的各文本来自于输入信息序列，因而提高了重生成的目标名称对目标对象的表达的准确性。此外，由于文本重生成模型在从输入信息序列中抽取目标输入信息时受到约束信息的约束，因而可以在抽取过程提供额外的信息以防止抽取到错误信息，进一步提高了重生成的目标名称对目标对象的表达的准确性。

本申请的上述实施例提供的方法，通过从目标对象关联的页面中获取目标对象的描述信息，而后从预设的知识图谱中获取目标对象关联的图谱信息，从而将描述信息和图谱信息进行汇总，生成输入信息序列。而后通过获取目标对象的约束信息，并将输入信息序列和约束信息输入至预先训练的文本重生成模型，以通过文本重生成模型从输入信息序列中抽取目标输入信息并将所抽取的目标输入信息汇总为目标名称，从而实现对目标对象的名称进行重生成。一方面，由于目标对象关联的信息从多个数据来源处获取，且数据来源包括含有海量信息的知识图谱，因而信息来源较为丰富，由此提高了所生成的目标名称中的信息的丰富程度。另一方面，文本重生成模型在从输入信息序列中抽取目标输入信息时受到约束信息的约束，从而可以在抽取过程提供额外的信息以防止抽取到错误信息，提高了重生成的目标名称对目标对象的表达的准确性。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种文本重生成装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的文本重生成装置400包括：第一获取单元401，被配置成从目标对象关联的页面中，获取上述目标对象的描述信息，上述描述信息包括上述目标对象的原始名称；第二获取单元402，被配置成从预设的知识图谱中，获取上述目标对象关联的图谱信息；汇总单元403，被配置成将上述描述信息和上述图谱信息进行汇总，生成输入信息序列；重生成单元404，被配置成获取上述目标对象的约束信息，将上述输入信息序列和上述约束信息输入至预先训练的文本重生成模型，得到上述文本重生成模型对上述原始名称进行重生成后的目标名称，其中，上述文本重生成模型用于在上述约束信息的约束下，从输入信息序列中抽取目标输入信息，并将所抽取的目标输入信息汇总为目标名称，上述文本重生成模型采用机器学习方法对神经网络模型预先训练得到。

在本实施例的一些可选的实现方式中，上述神经网络模型包括编码器、解码器和约束层，上述编码器包括编码层和注意力层；上述编码层用于生成上述输入信息序列中的各信息的向量表示；上述约束层用于生成上述约束信息的向量表示；上述解码器用于基于从输入信息序列中依次抽取的目标输入信息和上述编码器上一次输出的隐向量，生成新的隐向量。上述注意力层分别与上述编码层、上述解码器和上述约束层相连接，用于基于上述编码器的输出的各向量表示、上述约束层输出的向量表示和上述解码器逐次输出的隐向量，抽取上述输入信息序列中的目标输入信息。

在本实施例的一些可选的实现方式中，上述重生成单元404，包括：第一输入模块，被配置成将上述输入信息序列输入至上述编码层，得到编码向量序列，上述编码向量序列中包括上述输入信息序列中的各输入信息的向量表示；第二输入模块，被配置成将上述约束信息输入至上述约束层，得到上述约束信息的向量表示；第三输入模块，被配置成将起始符号的文本特征和位置特征输入至上述解码器，得到上述解码器输出的初始的隐向量；重生成模块，被配置成执行如下文本重生成步骤：将上述编码向量序列、上述约束信息的向量表示和上述解码器最新输出的隐向量输入至上述注意力层；基于上述注意力层输出的信息，抽取上述输入信息序列中的目标输入信息；响应于检测出最新抽取目标输入信息为结束符号，将依次抽取的目标输入信息进行汇总，生成目标名称。

在本实施例的一些可选的实现方式中，上述注意力层输出的信息为概率向量，上述概率向量中的数值与上述输入信息序列中的输入信息一一对应，上述概率向量中的数值用于表征输入信息的抽取概率；以及，上述重生成模块，进一步被配置成：将上述概率向量中的最大的数值对应的输入信息作为目标输入信息，抽取上述输入信息序列中的目标输入信息。

在本实施例的一些可选的实现方式中，上述重生成单元404，还包括：执行模块，被配置成响应于检测出最新抽取的目标输入信息不为结束符号，执行如下步骤：获取最新抽取的目标输入信息的文本特征和最新抽取的目标输入信息在上述输入信息序列中的位置特征；将最新抽取的目标输入信息的文本特征和位置特征输入至上述解码器，得到上述解码器最新输出的隐向量，并使用上述解码器最新输出的隐向量继续执行上述文本重生成步骤。

在本实施例的一些可选的实现方式中，上述编码层包括双向长短期记忆网络，上述解码器包括单向长短期记忆网络。

在本实施例的一些可选的实现方式中，上述目标对象通过如下步骤确定：获取多个对象的原始名称；对所获取的各原始名称进行分词，检测各原始名称中的词语数量；将原始名称中的词语数量小于预设数值的任一对象确定为目标对象。

在本实施例的一些可选的实现方式中，上述描述信息为非结构化数据，上述图谱信息为结构化数据；以及，上述汇总单元403，进一步被配置成：将上述描述信息转换为结构化数据；将上述描述信息和上述图谱信息中的每一项结构化数据作为一个输入信息，将各输入信息进行汇总为输入信息序列。

在本实施例的一些可选的实现方式中，上述目标名称中包括上述原始名称。

在本实施例的一些可选的实现方式中，上述目标对象为菜品，上述目标对象的原始名称和目标名称为菜名，上述预设的知识图谱为菜品知识图谱，以及，上述图谱信息包括以下至少一项：食材、做法、口味、菜系、口感、品类、功效。

本申请的上述实施例提供的装置，通过从目标对象关联的页面中获取目标对象的描述信息，而后从预设的知识图谱中获取目标对象关联的图谱信息，从而将描述信息和图谱信息进行汇总，生成输入信息序列。而后通过获取目标对象的约束信息，并将输入信息序列和约束信息输入至预先训练的文本重生成模型，以通过文本重生成模型从输入信息序列中抽取目标输入信息并将所抽取的目标输入信息汇总为目标名称，从而实现对目标对象的名称进行重生成。一方面，由于目标对象关联的信息从多个数据来源处获取，且数据来源包括含有海量信息的知识图谱，因而信息来源较为丰富，由此提高了所生成的目标名称中的信息的丰富程度。另一方面，文本重生成模型在从输入信息序列中抽取目标输入信息时受到约束信息的约束，从而可以在抽取过程提供额外的信息以防止抽取到错误信息，提高了重生成的目标名称对目标对象的表达的准确性。

下面参考图5，其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：从目标对象关联的页面中，获取所述目标对象的描述信息，所述描述信息包括所述目标对象的原始名称；从预设的知识图谱中，获取所述目标对象关联的图谱信息；将所述描述信息和所述图谱信息进行汇总，生成输入信息序列；获取所述目标对象的约束信息，将所述输入信息序列和所述约束信息输入至预先训练的文本重生成模型，得到所述文本重生成模型对所述原始名称进行重生成后的目标名称，其中，所述文本重生成模型用于在所述约束信息的约束下，从输入信息序列中抽取目标输入信息，并将所抽取的目标输入信息汇总为目标名称，所述文本重生成模型采用机器学习方法对神经网络模型预先训练得到。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本重生成方法，其特征在于，所述方法包括：

从目标对象关联的页面中，获取所述目标对象的描述信息，所述描述信息包括所述目标对象的原始名称；

从预设的知识图谱中，获取所述目标对象关联的图谱信息；

将所述描述信息和所述图谱信息进行汇总，生成输入信息序列；

获取所述目标对象的约束信息，将所述输入信息序列和所述约束信息输入至预先训练的文本重生成模型，得到所述文本重生成模型对所述原始名称进行重生成后的目标名称，其中，所述文本重生成模型用于在所述约束信息的约束下，从输入信息序列中抽取目标输入信息，并将所抽取的目标输入信息汇总为目标名称，所述文本重生成模型采用机器学习方法对神经网络模型预先训练得到。

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括编码器、解码器和约束层，所述编码器包括编码层和注意力层；

所述编码层用于生成所述输入信息序列中的各信息的向量表示；

所述约束层用于生成所述约束信息的向量表示；

所述解码器用于基于从输入信息序列中依次抽取的目标输入信息和所述编码器上一次输出的隐向量，生成新的隐向量。

所述注意力层分别与所述编码层、所述解码器和所述约束层相连接，用于基于所述编码器的输出的各向量表示、所述约束层输出的向量表示和所述解码器逐次输出的隐向量，抽取所述输入信息序列中的目标输入信息。

3.根据权利要求2所述的方法，其特征在于，所述将所述输入信息序列和所述约束信息输入至预先训练的文本重生成模型，得到所述文本重生成模型对所述原始名称进行重生成后的目标名称，包括：

将所述输入信息序列输入至所述编码层，得到编码向量序列，所述编码向量序列中包括所述输入信息序列中的各输入信息的向量表示；

将所述约束信息输入至所述约束层，得到所述约束信息的向量表示；

将起始符号的文本特征和位置特征输入至所述解码器，得到所述解码器输出的初始的隐向量；

执行如下文本重生成步骤：将所述编码向量序列、所述约束信息的向量表示和所述解码器最新输出的隐向量输入至所述注意力层；基于所述注意力层输出的信息，抽取所述输入信息序列中的目标输入信息；响应于检测出最新抽取目标输入信息为结束符号，将依次抽取的目标输入信息进行汇总，生成目标名称。

4.根据权利要求3所述的方法，其特征在于，所述注意力层输出的信息为概率向量，所述概率向量中的数值与所述输入信息序列中的输入信息一一对应，所述概率向量中的数值用于表征输入信息的抽取概率；以及，

所述基于所述注意力层输出的信息，抽取所述输入信息序列中的目标输入信息，包括：

将所述概率向量中的最大的数值对应的输入信息作为目标输入信息，抽取所述输入信息序列中的目标输入信息。

5.根据权利要求2所述的方法，其特征在于，所述将所述输入信息序列和所述约束信息输入至预先训练的文本重生成模型，得到所述文本重生成模型对所述原始名称进行重生成后的目标名称，还包括：

响应于检测出最新抽取的目标输入信息不为结束符号，执行如下步骤：

获取最新抽取的目标输入信息的文本特征和最新抽取的目标输入信息在所述输入信息序列中的位置特征；

将最新抽取的目标输入信息的文本特征和位置特征输入至所述解码器，得到所述解码器最新输出的隐向量，并使用所述解码器最新输出的隐向量继续执行所述文本重生成步骤。

6.根据权利要求2所述的方法，其特征在于，所述编码层包括双向长短期记忆网络，所述解码器包括单向长短期记忆网络。

7.根据权利要求1所述的方法，其特征在于，所述目标对象通过如下步骤确定：

获取多个对象的原始名称；

对所获取的各原始名称进行分词，检测各原始名称中的词语数量；

将原始名称中的词语数量小于预设数值的任一对象确定为目标对象。

8.根据权利要求1所述的方法，其特征在于，所述描述信息为非结构化数据，所述图谱信息为结构化数据；以及，

所述将所述描述信息和所述图谱信息进行汇总，生成输入信息序列，包括：

将所述描述信息转换为结构化数据；

将所述描述信息和所述图谱信息中的每一项结构化数据作为一个输入信息，将各输入信息进行汇总为输入信息序列。

9.根据权利要求1所述的方法，其特征在于，所述目标名称中包括所述原始名称。

10.根据权利要求1-9之一所述的方法，其特征在于，所述目标对象为菜品，所述目标对象的原始名称和目标名称为菜名，所述预设的知识图谱为菜品知识图谱，以及，所述图谱信息包括以下至少一项：食材、做法、口味、菜系、口感、品类、功效。

11.一种文本重生成装置，其特征在于，所述装置包括：

第一获取单元，被配置成从目标对象关联的页面中，获取所述目标对象的描述信息，所述描述信息包括所述目标对象的原始名称；

第二获取单元，被配置成从预设的知识图谱中，获取所述目标对象关联的图谱信息；

汇总单元，被配置成将所述描述信息和所述图谱信息进行汇总，生成输入信息序列；

重生成单元，被配置成获取所述目标对象的约束信息，将所述输入信息序列和所述约束信息输入至预先训练的文本重生成模型，得到所述文本重生成模型对所述原始名称进行重生成后的目标名称，其中，所述文本重生成模型用于在所述约束信息的约束下，从输入信息序列中抽取目标输入信息，并将所抽取的目标输入信息汇总为目标名称，所述文本重生成模型采用机器学习方法对神经网络模型预先训练得到。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

13.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的方法。