CN111859905A

CN111859905A - 一种数据确定方法、装置、电子设备和计算机存储介质

Info

Publication number: CN111859905A
Application number: CN201910266360.9A
Authority: CN
Inventors: 徐海洋; 韩堃; 陈俊文; 李先刚
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2020-10-30

Abstract

本申请提供了一种数据确定方法、装置、电子设备和计算机存储介质，其中，该方法包括：根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树；根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量；对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语，通过上述方法，确定出来的目标词语不仅与预设文本要表达的内容贴合度高，而且通过连接词将关键词连接后的语句符合语法要求，从而有利于使生成的简要说明的通顺度较高。

Description

一种数据确定方法、装置、电子设备和计算机存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种数据确定方法、装置、电子设备和计算机存储介质。

背景技术

在一片文档中的文字数量较多时，为了便于快速了解该文档所表达的内容，需要有一片针对该文档的简要说明，例如，该简要说明可以为文档的摘要。

在现有技术中，将文档中出现次数较多的词语作为摘要的内容，或者将文档中的关键词作为摘要内容，上述方式虽然能够找到比较贴合该文档的词语，但是无法找到与该词语相关联的其他词语，从而导致确定出来的摘要内容的准确度较低，进而导致生成的摘要内容通顺程度较差。

发明内容

有鉴于此，本申请实施例的目的在于提供一种数据确定方法、装置、电子设备和计算机存储介质，以提高确定出来的词语的准确度。

主要包括以下几个方面：

第一方面，本申请实施例提供了一种数据确定方法，包括：

根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树；

根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量；

对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语。

可选地，在所述根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树之前，所述方法还包括：

获取所述预设文本；

根据所述预设文本中的内容信息，确定所述预设文本的文本类型；

当所述文本类型为文字文本时，根据预设的切词规则，对所述预设文本进行切词处理，以得到构成所述预设文本的各个词语；

当所述文本类型为字母文本时，将所述预设文本中的各个单词作为构成所述预设文本的各个词语。

可选地，所述根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树，包括：

根据预设的句法树算法，对所述词语之间的句法结构进行解析，以得到所述句法树。

可选地，所述根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量，包括：

根据所述句法树，确定所述句法树对应的线性序列；

根据所述线性序列，确定所述各个所述词语的特征向量。

可选地，所述根据所述句法树，确定所述句法树对应的线性序列，包括：

对所述句法树进行深度遍历，以得到所述线性序列。

可选地，所述根据所述线性序列，确定所述各个所述词语的特征向量，包括：

通过长短期记忆网络LSTM神经网络，对所述线性序列进行序列建模，以得到所述各个所述词语的特征向量。

可选地，所述对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语，包括：

对各个所述词语中的第一个词语的特征向量和最后一个词语的特征向量进行拼接，以将拼接结果作为所述预设文本的特征向量；

根据各个所述词语的特征向量和所述预设文本的特征向量，确定各个所述词语的特征向量中满足预设条件的目标特征向量；

对所述目标特征向量进行解码，以得到所述目标词语。

可选地，所述根据各个所述词语的特征向量和所述预设文本的特征向量，确定各个所述词语的特征向量中满足预设条件的目标特征向量，包括：

利用如下公式，确定各个所述词语的特征向量中满足预设条件的目标特征向量：

其中，g_j，i为动态门选择算法，σ为sigmoid函数，w_g、u_g、v_g和b_g都分别为可训参数，d_h为当前词语的特征向量，s_j为位于所述当前词语之前的所有满足g_j，i的特征向量，

为位于所述当前词语之前的一个满足g_j，i的特征向量，

为当前词语满足g_j，i的特征向量，

为矩阵转置，⊙为内积。

可选地，所述对所述目标特征向量进行解码，以得到所述目标词语，包括：

利用注意力机制，对所述目标特征向量进行解码，以得到所述目标词语。

第二方面，本申请实施例提供了一种数据确定装置，包括：

解析单元，用于根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树；

第一确定单元，用于根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量；

解码单元，用于对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语。

可选地，所述数据确定装置，还包括：

获取单元，用于在根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树之前，获取所述预设文本；

第二确定单元，用于根据所述预设文本中的内容信息，确定所述预设文本的文本类型；当所述文本类型为文字文本时，根据预设的切词规则，对所述预设文本进行切词处理，以得到构成所述预设文本的各个词语；当所述文本类型为字母文本时，将所述预设文本中的各个单词作为构成所述预设文本的各个词语。

可选地，所述解析单元的配置在用于根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树，包括：

可选地，所述第一确定单元的配置在用于根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量，包括：

根据所述句法树，确定所述句法树对应的线性序列；

根据所述线性序列，确定所述各个所述词语的特征向量。

可选地，所述第一确定单元的配置在用于根据所述句法树，确定所述句法树对应的线性序列，包括：

对所述句法树进行深度遍历，以得到所述线性序列。

可选地，所述第一确定单元的配置在用于根据所述线性序列，确定所述各个所述词语的特征向量，包括：

可选地，所述解码单元的配置在用于对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语，包括：

对所述目标特征向量进行解码，以得到所述目标词语。

可选地，所述解码单元的配置在用于根据各个所述词语的特征向量和所述预设文本的特征向量，确定各个所述词语的特征向量中满足预设条件的目标特征向量，包括：

为位于所述当前词语之前的一个满足g_j，i的特征向量，

为当前词语满足g_j，i的特征向量，

为矩阵转置，⊙为内积。

可选地，所述解码单元的配置在用于对所述目标特征向量进行解码，以得到所述目标词语，包括：

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如第一方面中任一项所述的数据确定方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面中任一项所述的数据确定方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，由于针对某一文档的简要说明需要清晰的表达出该文档中主要表达内容，并且在表达方式上需要清晰且需要符合语法的要求，以便于阅读，因此构成该简要说明的内容需要语句上表达通顺，为了达到上述要求，需要先获取到预设文本的各个词语，以便从各个词语中选择关键词语，并且为了使关键词语能够成为表达通顺的语句，需要使用一些连接词对关键词语进行连接，由于句法树能够表示出每个词的词义、词性，以及词之间的语法关系，因此通过句法树能够找到连接关键词的连接词语，所以需要对获取到的各个词语的句法结构进行解析，以便得到预设文本的句法树，从而可以通过句法树对每个词的词义、词性，以及词之间的语法关系进行分析，即：确定各个词语的特征向量，该特征向量包含有对应词语的词性、词义和句法关系，通过对各个词语的特征向量进行解码，可以确定出那些词语为该预设文本的关键词，以及连接该关键词的连接词语，从而得到沟通目标内容的目标词语，通过上述方法，可以确定出构成目标内容的目标词语，例如：构成该预设文本的简要说明的目标词语，由于确定出来的目标词语不仅与预设文本要表达的内容贴合度高，而且通过连接词将关键词连接后的语句符合语法要求，从而有利于使生成的简要说明的通顺度较高，进而便于用户理解。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一提供的一种数据确定方法的流程示意图；

图2为本申请实施例一提供的另一种数据确定方法的流程示意图；

图3为本申请实施例一提供的另一种数据确定方法的流程示意图；

图4为本申请实施例一提供的另一种数据确定方法的流程示意图；

图5为本申请实施例二提供的一种数据确定装置的结构示意图；

图6为本申请实施例二提供的另一种数据确定装置的结构示意图；

图7为本申请实施例三提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，本申请会结合特定的应用场景给出具体的实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将本申请定义的一般原理应用于其他实施例和应用场景，应当理解的是，本申请给出的实施例仅是一个示例性实施例。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

需要提前说明的是，本申请实施例涉及到的装置或电子设备等可以执行在单个服务器上，也可以执行在服务器组。服务器组可以是集中式的，也可以是分布式的。在一些实施例中，服务器相对于终端，可以是本地的，也可以是远程的。例如，服务器可以经由网络访问存储在服务请求方终端、服务提供方终端、或数据库、或其任意组合中的信息和/或数据。作为另一示例，服务器可以直接连接到服务请求方终端、服务提供方终端和数据库中至少一个，以访问存储的信息和/或数据。在一些实施例中，服务器可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。

另外，本申请实施例涉及到的装置或电子设备还可以包括：移动设备、平板计算机和膝上型计算机等，或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能电器设备的控制设备和智能监控设备，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能头盔、智能手表、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal DigitalAssistant，PDA)、游戏设备、导航设备、或销售点(point of sale，POS)设备等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔和增强现实头盔等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。

本申请的一个方面涉及一种数据确定方法。该方法可以确定出构成目标内容的目标词语，例如：构成该预设文本的简要说明的目标词语，由于确定出来的目标词语不仅与预设文本要表达的内容贴合度高，而且通过连接词将关键词连接后的语句符合语法要求，从而有利于使生成的简要说明的通顺度较高，进而便于用户理解。

值得注意的是，在本申请提出申请之前，相关技术中，虽然能够找到比较贴合该文档的词语，但是无法找到与该词语相关联的其他词语，从而导致确定出来的摘要内容的准确度较低，进而导致生成的摘要内容通顺程度较差。然而本申请提供的数据确定方法，可以确定出构成目标内容的目标词语，例如：构成该预设文本的简要说明的目标词语，由于确定出来的目标词语不仅与预设文本要表达的内容贴合度高，而且通过连接词将关键词连接后的语句符合语法要求，从而有利于使生成的简要说明的通顺度较高，进而便于用户理解。

实施例一

图1为本申请实施例一提供的一种数据确定方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤101、根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树。

具体的，词语的语义为词语本身所要表达的含义，以中文为例，词语的词性包括两大类：实词和虚词，实词包括：名词、动词、形容词、数词、量词、代词、区别词，虚词包括：副词、介词、连词、助词、叹词、语气词、拟声词，以英文为例，词语的词性包括：介系词、代词、名词、动词、连接词、主语、主语补语、受词、受词补语、不及物动词、及物动词、助动词、形容词、副词、冠词、数词、感叹词、不可数名词、可数名词和副词，语法关系为为了表达一个思想或问题时，将词语按照一定的顺序排列的方式关系，其中，语法关系可以包括：主谓关系和动宾关系等，需要注意的是，关于词语具体的词性、语义和句法关系需要根据具体的语言进行设定，在此不再一一赘述。

句法树能够表示出该预设文本中每个词语的词义、词性以及词之间的语法关系，以及各个词语在预设文本中的先后位置，且句法树能以树状结构的方式对每个词的词义、词性以及词之间的语法关系，以及各个词语在预设文本中的先后位置进行展示，因此通过句法树能够对预设文本进行分析，从而得到哪些词组合在一起是相对通顺的语句，由于针对预设文档的简要说明需要清晰的表达出该预设文档主要表达内容，并且在表达方式上需要符合语法的要求，以便于阅读，由于句法树能够达到上述要求，因此，在获得预设文本的各个词语后，需要对各个词语之间的句法结构进行解析，以得到预设文本的句法树，以便后续处理。

需要注意的是，关于获取构成预设文本的各个词语的具体方式，可以根据实际的预设文本的语言类型和设定的切词规则进行设置，在此不做具体限定。

步骤102、根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量。

具体的，在得到句法树之后，为了得到某一词语的词性、词义和该词语与前后词语的句法关系，需要得到该词语的包含词性、词义和句法关系的特征向量，从而通过该特征向量获得该词语的词性、词义和该词语与前后词语的句法关系。

需要注意的是，关于确定各个词语的特征向量的具体方式可以根据实际需要进行设定，在此不做具体限定。

步骤103、对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语。

具体的，在得到各个词语的特征向量后，利用特征向量可以对各个词语进行分析，以确定出对于该预设文本而言，哪些词语为关键词语，哪些词语为连接关键词语的连接词，例如，将出现次数最多的特征向量的值确定为目标值，将与目标值对应的特征向量的方向相关的特征向量作为连接词的特征向量，从而得到出目标值对应的特征向量和作为连接词的特征向量，然后将上述得到的特征向量对应的词语作为构成目标内容的目标词语，在得到目标词语后，可以对目标词语进行组合，以构成描述该预设文本的简要说明，由于确定出来的目标词语不仅与预设文本要表达的内容贴合度高，而且通过连接词将关键词连接后的语句符合语法要求，从而有利于使生成的简要说明的通顺度较高，进而便于用户理解。

其中，目标内容可以为预设文档的摘要内容，关于目标内容作为预设文档的何部分出现可以根据实际需要进行设定，在此不做具体限定。

需要注意的是，上述实施方式仅是示例性的说明，并不构成对本申请实施例的具体限定，关于具体的解码方式可以根据实际需要进行设定，在此不做具体限定，但是凡是能够得到构成目标内容的目标词语的解码方式均属于本申请的保护范围。

在一个可行的实施方案中，图2为本申请实施例一提供的另一种数据确定方法的流程示意图，如图2所示，在执行步骤101之前，该方法还包括以下步骤：

步骤201、获取所述预设文本。

步骤202、根据所述预设文本中的内容信息，确定所述预设文本的文本类型，当所述文本类型为文字文本时，执行步骤203，当所述文本类型为字母文本时，执行步骤204。

步骤203、根据预设的切词规则，对所述预设文本进行切词处理，以得到构成所述预设文本的各个词语。

步骤204、将所述预设文本中的各个单词作为构成所述预设文本的各个词语。

举例说明，以中文和英文为例，当预设文本为文字文本时，一个完整词语可能包含一个字，或者包含两个字，或者包含三个字，当预设文本为字母文本时，一个词语对应的单词，因此，当预设文本的文本类型为文字文本时，需要对预设文本进行切词处理，以得到构成预设文本的各个词语。

例如，预设文本的内容信息为：今天是个好日子，此时根据文本信息确定出来的预设文本的文本类型为文字文本，此时需要根据预设的切词规则对预设文本进行切词处理，得到的各个词语包括：今天、是、个和好日子。

举例说明，可以预设一个切词词典，在切词词典中包含各个词语，在对预设文本进行切词时，可以与切词词典进行比对，依据切词词典中包含的词语来对预设文本进行切词，举例说明，预设文本的内容信息为：今天是个好日子，当切词词典中的词语包括：今天、是、个和好日子，对预设文本进行切词后得到的词语包括：今天、是、个和好日子，当切词词典中的词语包括：今天、是个和好日子，对预设文本进行切词后得到的词语包括：今天、是个和好日子，关于切词词典中的词语的设定方式可以根据实际需要进行设定，在此不做具体限定。

举例说明，可以预设的切词规则可以为切词算法，利用该切词算法对预设文本进行切词，以得到构成预设文本的各个词语，关于具体的切词算法可以根据实际需要进行设定，在此不做具体限定。

再例如，预设文本的内容信息为：Today is a good day，此时预设文本中的内容信息为英文，因此确定出来的预设文本的文本类型为字母文本，因此可以将每个单词作为构成预设文本的各个词语，此时构成预设文本的各个词语包括：Today，is，a，good，day。

需要说明的是，上述示例仅是示意性的说明，并不对本申请形成具体的限定，关于文本类型对应的切词处理方式可以根据实际需要和具体的语言进行设定，在此不做具体限定。

在一个可行的实施方案中，在执行步骤101时，可以根据预设的句法树算法，对所述词语之间的句法结构进行解析，以得到所述句法树。

具体的，在获得预设文本的各个词语是按照各个词语在预设文本中的先后顺序排列的，通过句法树算法可以将预设文本中的各个词语划分为多个符合语法要求的完整语句，以及各个词语的词性、词义，以及词语在一个语句中与其他词语的语法关系，在得到上述信息之后，便于通过上述信息对预设文本进行分析。

需要说明的是，关于具体的句法树算法可以根据实际需要进行设定，在此不做具体限定。

在一个可行的实施方案中，图3为本申请实施例一提供的另一种数据确定方法的流程示意图，如图3所示，在执行步骤102时，可以通过以下步骤实现：

步骤301、根据所述句法树，确定所述句法树对应的线性序列。

具体的，为了基于对预设文本的整体结构对预设文本进行分析，以得到准确的目标词语，即：预设文本的关键词语，以及与关键词语相关度较高的词语，以便通过相关度较高的词语将关键词语连接之后生成的语句符合语法要求，需要得到预设文本中各个词语的先后排列顺序，以及各个词语的词义、词性和词语之间的语法关系，由于线性序列能够表示出预设文本中各个词语的先后排列顺序，以及各个词语的词义、词性和词语之间的语法关系，因此利用句法树确定出对应的线性序列，以便为后续分析提供依据。

步骤302、根据所述线性序列，确定所述各个所述词语的特征向量。

具体的，为了确定出哪些词语为预设文本中的关键词语，以及用于连接上述关键词语的连接词语，需要确定出各个词语的特征向量，以便通过对特征向量的分析，得到上述提到的关键词语和连接词语。

需要说明的是，句法树为通过树状结构来表示预设文本中的各个词语的词性、词语和词语之间的句法关系，线性结构为按照预设文本中的各个词语在预设文本中出现的先后顺序来表述各个词语的词性、词语和词语之间的句法关系的一种结构，句法树和线性结构仅是本申请实施例提供的一种实现方式，但是需要注意的是，凡是能够起到与句法树和线性结构相同作用的结构描述方式也应该属于本申请实施例的保护范围。

在一个可行的实施方案中，在执行步骤301时，可以对所述句法树进行深度遍历，以得到所述线性序列。

具体的，句法树具有节点，每个节点对应某个词语的词性、词义或者与前后词语的句法关系，而深度遍历能够沿着句法树的节点尽可能深的搜索树的分支，从而完成对句法树整体的分析，以使得到的线性序列包含句法树中的全部信息，降低数据丢失的风险。

在一个可行的实施方案中，在执行步骤302时，可以通过LSTM(Long Short-TermMemory，长短期记忆网络)神经网络，对所述线性序列进行序列建模，以得到所述各个所述词语的特征向量。

具体的，LSTM神经网络是一种时间递归神经网络，LSTM神经网络带有一个指向自身的环，用来表示它可以传递当前时刻处理的信息给下一时刻使用，通过LSTM神经网络对线性序列进行序列建模得到的各个词语的特征向量能够反映出词语之间的关系，从而使得到的特征向量能够包含对应词语的词义、词性和词语之间的句法关系，进而便于通过特征向量来得到目标词语。

在一个可行的实施方案中，图4为本申请实施例一提供的另一种数据确定方法的流程示意图，如图4所述，在执行步骤103时，可以通过以下步骤实现：

步骤401、对各个所述词语中的第一个词语的特征向量和最后一个词语的特征向量进行拼接，以将拼接结果作为所述预设文本的特征向量。

步骤402、根据各个所述词语的特征向量和所述预设文本的特征向量，确定各个所述词语的特征向量中满足预设条件的目标特征向量。

步骤403、对所述目标特征向量进行解码，以得到所述目标词语。

举例说明，为了确定出哪些词语为预设文本的关键词语，需要依据预设文本的全文来进行确定，在得到预设文本中的各个词语的特征向量后，对各个词语中的第一个词语的特征向量和最后一个词语的特征向量进行拼接得到的特征向量能够表示预设文本的特征向量，通过表示预设文本的特征向量够反映出预设文本所要表达的内容，因此可以根据表示预设文本的特征向量，确定出与预设文本关联程度较高的词语，然后可以利用各个词语的特征向量确定出用于连接关联程度较高的词语之间的连接词语，将关联程度较高的词语和连接词语对应的特征向量作为满足预设条件的目标特征向量，在对目标特征向量进行解码后，得到构成目标内容的目标词语，通过上述方法，使得得到的目标词语与预设文本所要表达的内容的贴合度较高，且有利于提高由目标词语构成的目标内容的通顺程度。

需要说明的是，上述确定满足预设条件的目标特征向量的方式仅是示例性的说明，并不对本申请实施例形成具体的限定，关于如何根据各个词语的特征向量和预设文本的特征向量来确定目标特征向量的具体实现方式可以根据实际需要和场景进行设定，在此不做具体限定。

在一个可行的实施方案中，在执行步骤402时，可以利用如下公式，确定各个所述词语的特征向量中满足预设条件的目标特征向量：

为位于所述当前词语之前的一个满足g_j，i的特征向量，

为当前词语满足g_j，i的特征向量，

为矩阵转置，⊙为内积。

具体的，通过上述算法确定各个词语的特征向量中满足预设条件的目标特征向量时，不仅考虑到了各个词语本身的特征向量，还考虑到了当前的特征向量与之前确定出来的目标特征向量之间的关系，从而有利于提高确定当前的目标词语时与预设文档的关联程度，以及与之前确定出来的目标词语的关联程度，进而可以使最后得到的目标词语与预设文本所要表达的内容的贴合度较高，且有利于提高由目标词语构成的目标内容的通顺程度。

需要说明的是，关于具体的可训参数可以根据实际需要和场景进行设定，在此不做具体限定。

在一个可行的实施方案中，在执行步骤403时，可以利用注意力机制，对所述目标特征向量进行解码，以得到所述目标词语。

具体的，注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力，选择特定的输入，是解决信息超载问题的一种资源分配方案，将计算资源分配给更重要的任务，因此通过注意力机制可以只对目标特征向量进行解码，从而有利于提高得到目标词语的效率。

需要说明的是，也可以通过其他机制对目标特征向量进行解码，上述实施方式仅是对本申请实施方案的一种示例性的说明，并不对本申请实施例形成限定，关于具体使用何种处理机制对目标特征向量进行解码可以根据实际需要进行设定，在此不做具体限定。

实施例二

图5为本申请实施例二提供的一种数据确定装置的结构示意图，如图5所示，该数据确定装置包括：

解析单元51，用于根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树；

第一确定单元52，用于根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量；

解码单元53，用于对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语。

在一个可行的实施方案中，图6为本申请实施例二提供的另一种数据确定装置的结构示意图，如图6所示，所述数据确定装置，还包括：

获取单元54，用于在根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树之前，获取所述预设文本；

第二确定单元55，用于根据所述预设文本中的内容信息，确定所述预设文本的文本类型；当所述文本类型为文字文本时，根据预设的切词规则，对所述预设文本进行切词处理，以得到构成所述预设文本的各个词语；当所述文本类型为字母文本时，将所述预设文本中的各个单词作为构成所述预设文本的各个词语。

在一个可行的实施方案中，所述解析单元51的配置在用于根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树，包括：

在一个可行的实施方案中，所述第一确定单元52的配置在用于根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量，包括：

根据所述句法树，确定所述句法树对应的线性序列；

根据所述线性序列，确定所述各个所述词语的特征向量。

在一个可行的实施方案中，所述第一确定单元52的配置在用于根据所述句法树，确定所述句法树对应的线性序列，包括：

对所述句法树进行深度遍历，以得到所述线性序列。

在一个可行的实施方案中，所述第一确定单元52的配置在用于根据所述线性序列，确定所述各个所述词语的特征向量，包括：

在一个可行的实施方案中，所述解码单元53的配置在用于对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语，包括：

对所述目标特征向量进行解码，以得到所述目标词语。

在一个可行的实施方案中，所述解码单元53的配置在用于根据各个所述词语的特征向量和所述预设文本的特征向量，确定各个所述词语的特征向量中满足预设条件的目标特征向量，包括：

为位于所述当前词语之前的一个满足g_j，i的特征向量，

为当前词语满足g_j，i的特征向量，

为矩阵转置，⊙为内积。

在一个可行的实施方案中，所述解码单元53的配置在用于对所述目标特征向量进行解码，以得到所述目标词语，包括：

关于上述单元的详细介绍可参考实施例一的相关说明，在此不再详细赘述。

实施例三

图7为本申请实施例三提供的一种电子设备的结构示意图，包括：处理器701、存储介质702和总线703，所述存储介质702包括如图5所示的数据确定装置，所述存储介质702存储有所述处理器701可执行的机器可读指令，当电子设备运行上述的数据确定方法时，所述处理器701与所述存储介质702之间通过总线703通信，所述处理器701执行所述机器可读指令，以执行以下步骤：

在一个可行的实施方案中，在所述根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树之前，所述存储介质702还可以执行以下机器可读指令：

获取所述预设文本；

在一个可行的实施方案中，所述存储介质702在执行根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树时，可以根据预设的句法树算法，对所述词语之间的句法结构进行解析，以得到所述句法树。

在一个可行的实施方案中，所述存储介质702在执行根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量时，可以通过以下步骤实现：

根据所述句法树，确定所述句法树对应的线性序列；

根据所述线性序列，确定所述各个所述词语的特征向量。

在一个可行的实施方案中，所述存储介质702在执行根据所述句法树，确定所述句法树对应的线性序列时，可以对所述句法树进行深度遍历，以得到所述线性序列。

在一个可行的实施方案中，所述存储介质702在执行根据所述线性序列，确定所述各个所述词语的特征向量时，可以通过长短期记忆网络LSTM神经网络，对所述线性序列进行序列建模，以得到所述各个所述词语的特征向量。

在一个可行的实施方案中，所述存储介质702在执行对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语时，可以通过以下步骤实现：

对所述目标特征向量进行解码，以得到所述目标词语。

在一个可行的实施方案中，所述存储介质702在执行根据各个所述词语的特征向量和所述预设文本的特征向量，确定各个所述词语的特征向量中满足预设条件的目标特征向量时，可以利用如下公式，确定各个所述词语的特征向量中满足预设条件的目标特征向量：

其中，g_j，i为动态门选择算法，σ为sigmoid函数，w_g、u_g、υ_g和b_g都分别为可训参数，d_h为当前词语的特征向量，s_j为位于所述当前词语之前的所有满足g_j，i的特征向量，

为位于所述当前词语之前的一个满足g_j，i的特征向量，

为当前词语满足g_j，i的特征向量，

为矩阵转置，⊙为内积。

在一个可行的实施方案中，所述存储介质702在执行对所述目标特征向量进行解码，以得到所述目标词语时，可以利用注意力机制，对所述目标特征向量进行解码，以得到所述目标词语。

关于具体执行的方法步骤和原理参见实施例一的说明，在此不再详细赘述。

实施例四

本申请实施例四还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行以下步骤：

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述数据确定方法，通过上述方法，可以确定出构成目标内容的目标词语，例如：构成该预设文本的简要说明的目标词语，由于确定出来的目标词语不仅与预设文本要表达的内容贴合度高，而且通过连接词将关键词连接后的语句符合语法要求，从而有利于使生成的简要说明的通顺度较高，进而便于用户理解。

本申请实施例所提供的数据确定方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据确定方法，其特征在于，包括：

2.如权利要求1所述的数据确定方法，其特征在于，在所述根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树之前，所述方法还包括：

获取所述预设文本；

3.如权利要求1所述的数据确定方法，其特征在于，所述根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树，包括：

4.如权利要求1所述的数据确定方法，其特征在于，所述根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量，包括：

根据所述句法树，确定所述句法树对应的线性序列；

根据所述线性序列，确定所述各个所述词语的特征向量。

5.如权利要求4所述的数据确定方法，其特征在于，所述根据所述句法树，确定所述句法树对应的线性序列，包括：

对所述句法树进行深度遍历，以得到所述线性序列。

6.如权利要求4所述的数据确定方法，其特征在于，所述根据所述线性序列，确定所述各个所述词语的特征向量，包括：

7.如权利要求1所述的数据确定方法，其特征在于，所述对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语，包括：

对所述目标特征向量进行解码，以得到所述目标词语。

8.如权利要求7所述的数据确定方法，其特征在于，所述根据各个所述词语的特征向量和所述预设文本的特征向量，确定各个所述词语的特征向量中满足预设条件的目标特征向量，包括：

为位于所述当前词语之前的一个满足g_j，i的特征向量，

为当前词语满足g_j，i的特征向量，

为矩阵转置，⊙为内积。

9.如权利要求7所述的数据确定方法，其特征在于，所述对所述目标特征向量进行解码，以得到所述目标词语，包括：

10.一种数据确定装置，其特征在于，包括：

11.如权利要求10所述的数据确定装置，其特征在于，所述数据确定装置，还包括：

12.如权利要求10所述的数据确定装置，其特征在于，所述解析单元的配置在用于根据构成预设文本的各个词语，对所述词语之间的句法结构进行解析，以得到所述预设文本的句法树，包括：

13.如权利要求10所述的数据确定装置，其特征在于，所述第一确定单元的配置在用于根据所述句法树，确定各个所述词语的包含词性、词义和句法关系的特征向量，包括：

根据所述句法树，确定所述句法树对应的线性序列；

根据所述线性序列，确定所述各个所述词语的特征向量。

14.如权利要求13所述的数据确定装置，其特征在于，所述第一确定单元的配置在用于根据所述句法树，确定所述句法树对应的线性序列，包括：

对所述句法树进行深度遍历，以得到所述线性序列。

15.如权利要求13所述的数据确定装置，其特征在于，所述第一确定单元的配置在用于根据所述线性序列，确定所述各个所述词语的特征向量，包括：

16.如权利要求10所述的数据确定装置，其特征在于，所述解码单元的配置在用于对各个所述词语的特征向量进行解码，以得到构成目标内容的目标词语，包括：

对所述目标特征向量进行解码，以得到所述目标词语。

17.如权利要求16所述的数据确定装置，其特征在于，所述解码单元的配置在用于根据各个所述词语的特征向量和所述预设文本的特征向量，确定各个所述词语的特征向量中满足预设条件的目标特征向量，包括：

其中，g_j，i为动态门选择算法，σ为sigmoid函数，ω_g、u_g、v_g和b_g都分别为可训参数，d_h为当前词语的特征向量，s_j为位于所述当前词语之前的所有满足g_j，i的特征向量，

为位于所述当前词语之前的一个满足g_j，i的特征向量，

为当前词语满足g_j，i的特征向量，

为矩阵转置，⊙为内积。

18.如权利要求16所述的数据确定装置，其特征在于，所述解码单元的配置在用于对所述目标特征向量进行解码，以得到所述目标词语，包括：

19.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至9中任一项所述的数据确定方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至9中任一项所述的数据确定方法。