CN113392190A

CN113392190A - 一种文本识别方法、相关设备及装置

Info

Publication number: CN113392190A
Application number: CN202110941775.9A
Authority: CN
Inventors: 铁瑞雪
Original assignee: Tenpay Payment Technology Co Ltd
Current assignee: Tenpay Payment Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-09-14
Anticipated expiration: 2041-08-17
Also published as: CN113392190B

Abstract

本申请实施例公开了一种应用于自然语言处理的文本识别方法、相关装置以及设备，用于提升文本识别的准确度。本申请实施例方法包括：获取目标文本序列，其中，目标文本序列包括N个文本单元，N个文本单元构成M个词语，N为大于1的整数，M为小于或等于N的正整数；获取目标文本序列中M个词语之间的依存关系；根据M个词语之间的依存关系，获取目标文本序列对应的句法结构向量，其中，句法结构向量包括每个文本单元对应的句法嵌入表达；获取目标文本序列对应的文本特征向量；根据句法结构向量以及文本特征向量，生成联合特征向量；将联合特征向量输入至文本识别模型，通过文本识别模型输出针对于目标文本序列的识别结果。

Description

一种文本识别方法、相关设备及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种文本识别方法、相关设备及装置。

背景技术

预训练模型为人工智能，尤其是自然语言处理技术的快速发展提供了强有力的支持，使得自然语言处理技术进入到了大规模、可复制的阶段。通过预训练模型的方式，能够减少训练代价，达到更好的效果。

一种文本识别的方法，输入到预训练模型的向量包括字向量、句向量和位置向量，也即在嵌入环节中，对待处理文本进行了字嵌入、句嵌入和位置嵌入。然后根据下游任务的需要，对输入向量进行处理，得到文本处理的结果。

在这种文本处理方式中，输入到预训练模型中的向量种类有限，使得处理结果较为片面，降低了文本识别的准确度。

发明内容

有鉴于此，本申请提供一种文本识别方法、相关装置及设备，在预训练模型中增加了句法结构向量，并根据句法结构向量和文本特征向量生成联合特征向量，将联合特征向量输入到文本识别模型中，使得处理结果更加全面，从而提升了文本识别的准确度。

本申请一方面提供了一种文本识别方法，包括：

获取目标文本序列，其中，目标文本序列包括N个文本单元，N个文本单元构成M个词语，N为大于1的整数，M为小于或等于N的正整数；

获取目标文本序列中M个词语之间的依存关系；

根据M个词语之间的依存关系，获取目标文本序列对应的句法结构向量，其中，句法结构向量包括每个文本单元对应的句法嵌入表达；

获取目标文本序列对应的文本特征向量；

根据句法结构向量以及文本特征向量，生成联合特征向量；

将联合特征向量输入至文本识别模型，通过文本识别模型输出针对于待处理文本的识别结果。

本申请另一方面提供了一种文本处理装置，包括：

获取单元，用于：

获取目标文本序列中M个词语之间的依存关系；

获取目标文本序列对应的文本特征向量；

处理单元，用于：

根据句法结构向量以及文本特征向量，生成联合特征向量；

将联合特征向量输入至文本识别模型，通过文本识别模型输出针对于目标文本序列的识别结果。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，获取单元，具体用于：

获取M个词语中每个词语的属性特征，其中，每个词语的属性特征包括每个词语的词性，以及每个词语在目标文本序列中的位置；

根据每个词语的属性特征，确定目标文本序列的中心词；

根据中心词，确定M个词语之间的依存关系。

获取每个词语中文本单元的位置关系；

基于位置关系和M个词语之间的依存关系，通过序列标注，获取目标文本序列对应的句法结构向量。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，文本特征向量包括文本单元向量、语句向量和位置向量；

处理单元，具体用于拼接文本单元向量、语句向量、位置向量和句法结构向量，得到联合特征向量。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，获取单元，具体用于：获取待处理文本；并对待处理文本进行文本单元的划分处理，得到目标文本序列。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，处理单元，具体用于：

对联合特征向量进行编码处理，得到编码结果；

若文本识别模型为文本分类模型，则根据编码结果确定目标文本序列的概率分布结果；

根据概率分布结果，确定目标文本序列的分类结果。

对联合特征向量进行编码处理，得到编码结果；

若文本识别模型为命名实体识别模型，则根据编码结果确定每个文本单元的实体标签，其中，所示实体标签用于表示每个文本单元对应的实体类别；

根据每个文本单元的实体标签，确定目标文本序列的命名实体识别结果。

本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述任一方面所述的文本识别方法。

本申请另一方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一方面所述的文本识别方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一方面所述的文本识别方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，在向量表征的过程中增加了句法结构向量，并根据句法结构向量和文本特征向量生成联合特征向量，将联合特征向量输入到文本识别模型中，使得处理结果更加全面，从而提升了文本识别的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的文本识别方法的一个网络架构示意图；

图2为本申请实施例提供的文本识别方法的一个流程示意图；

图3为本申请实施例提供的预训练模型的一个框架示意图；

图4为本申请实施例中句法依存关系的一个示意图；

图5为本申请实施例提供的嵌入层的一个示意图；

图6为本申请实施例提供的文本识别方法的另一个流程示意图；

图7为本申请实施例提供的文本识别装置的一个结构示意图；

图8为本申请实施例提供的计算机设备的一个结构示意图。

具体实施方式

本申请实施例提供了一种本申请提供一种文本识别方法、相关装置及设备，在向量表征的过程中增加了句法结构向量，并根据句法结构向量和文本特征向量生成联合特征向量，将联合特征向量输入到文本识别模型中，使得处理结果更加全面，从而提升了文本识别的准确度。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例和例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

1、人工智能(artificial intelligence，AI)。

人工智能，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2、自然语言处理技术(nature language processing，NLP)。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

3、预训练模型。

预训练模型是一种迁移学习的应用，可以分为预训练和微调两个过程。预训练过程可以对大规模的数据进行学习，学习到通用的语法语义知识。然后针对具体的下游任务进行微调，微调之后可以实现多种应用，例如文本分类、序列标记、机器翻译等。总的来说，预训练模型使得自然语言处理技术由原来的手工调参进入到了大规模、可复制的阶段，为自然语言处理技术的发展提供了基础。

4、命名实体识别（named entity recognition，NER）。

命名实体识别是指识别文本中具有特定意义的实体，这些实体包括人名、地名、机构名、专有名词等。命名实体识别也是信息提取、问答系统、句法分析和机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

应理解，本申请实施例提供的文本识别方法可以应用于终端设备中，也可以是应用于其他的计算机设备中，例如服务器，具体此处不做限定。图1所示实施例以该文本识别方法应用于服务器为例，进行说明。请参阅图1，图1为本申请实施例提供的文本识别方法的网络架构示意图。

如图1所示，终端设备可以和服务器建立通信连接。服务器可以接收来自终端设备的待处理文本，然后对待处理文本进行文本单元的划分处理，得到目标文本序列。目标文本序列中包括N个文本单元，这N个文本单元构成M个词语，其中，N为大于1的整数，M为小于或等于所述N的正整数。示例性的，假设待处理文本为“今天天气好”，经过文本单元的划分处理之后，得到的文本序列中包括5个文本单元，3个词语。获取到文本序列之后，服务器可以分析文本序列的句法结构，得到M个词语之间的句法依存关系，并根据该句法依存关系获取目标文本序列对应的句法结构向量，其中，所述句法结构向量包括每个文本单元对应的句法嵌入表达。服务器可以将句法结构向量与目标文本序列对应的文本特征向量联合，得到联合特征向量。然后将联合特征向量输入至文本识别模型，通过所述文本识别模型输出针对于所述目标文本序列的识别结果。文本识别模型可以有多种类型，因此识别结果也会有多种可能。

可以理解的是，图1中示出了一种终端设备，在实际场景中可以有更多种类或者数量的终端设备参与到文本识别的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（content deliverynetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端设备以及服务器可以连接组成区块链网络，本申请在此不做限制。

本申请提出了一种文本识别方法，请参阅图2，图2为本申请实施例提供的一种文本识别的流程示意图，本申请实施例至少包括以下步骤：

201、获取目标文本序列，其中，目标文本序列包括N个文本单元，N个文本单元构成M个词语，N为大于1的整数，M为小于或等于N的正整数。

在进行文本识别时，计算机设备可以获取到目标文本序列。该目标文本序列中包含有N个文本单元，这N个文本单元构成M个词语。其中，N为大于1的整数，M为小于或者等于N的正整数。计算机设备可以是终端设备，也可以是服务器，终端设备和服务器的种类在图1所示实施例中已经阐述，此处不再赘述。

可以理解的是，文本单元也可以被称为字。词语与文本单元之间的关系有多种情况，示例性的，一个词语中可以包括多个文本单元，在这种情况下，词语的数量小于文本单元的数量。例如，在文本序列“今天天气不错”中，包括六个文本单元，三个词语。三个词语分别是“今天”、“天气”和“不错”。这三个词语中每个词语均包括两个文本单元，例如，词语“今天”中包括文本单元“今”和“天”。

示例性的，文本序列中的每个词语中也可以包括一个文本单元，在这种情况下，词语的数量等于文本单元的数量。例如，在文本序列“我爱你”中，包括三个文本单元，三个词语。这三个文本单元与三个词语相同，均是“我”、“爱”和“你”。

需要注意的是，文本序列中各个词语包括的文本单元数量可以如上述示例所示，是相同的；也可以不同，例如在文本序列“我喜欢你”中，有的词语包括一个文本单元，有的词语包括两个文本单元。文本序列中，各个词语包括的文本单元的数量，跟据实际应用的需确定，具体此处不做限定。

202、获取目标文本序列中M个词语之间的依存关系。

计算机设备在获取到目标文本序列之后，可以对目标文本序列进行句法解析，得到目标文本序列中M个词语之间的依存关系。依存关系也可以称为依存句法关系，表示的是词语之间在句法上的依存关系，反映了词语在文本序列的搭配关系，这种搭配关系与语义相关联。

示例性的，词语之间的依存关系的类别可以如表1所示。

表1

示例性的，假设目标文本序列中包括的词语分别为“我”、“喜欢”和“美食”，那么计算机设备能够确定词语“我”和词语“喜欢”之间为主谓关系，词语“喜欢”为核心词，词语“喜欢”和词语“美食”之间为动宾关系。换而言之，计算机设备可以确定词语“我”是词语“喜欢”的SBV角色，词语“喜欢”是目标文本序列的“HED”角色，词语“美食”是词语“喜欢”的VOB角色。

203、根据M个词语之间的依存关系，获取目标文本序列对应的句法结构向量，其中，句法结构向量包括每个文本单元对应的句法嵌入表达。

计算机设备在得到目标文本序列中M个词语之间的依存关系之后，能够根据这M个词语之间的依存关系，确定每个词语中包括的文本单元的句法嵌入表达，得到目标文本序列对应的句法结构向量。

示例性的，假设目标文本序列中包括的词语分别为“我”、“喜欢”和“美食”，计算机设备确定词语“我”是词语“喜欢”的SBV角色，词语“喜欢”是目标文本序列的“HED”角色，词语“美食”是词语“喜欢”的VOB角色。在这种情况下，计算机设备可以确定文本单元“喜”和“欢”的句法角色与词语“喜欢”的句法角色相同。

204、获取目标文本序列对应的文本特征向量。

计算机设备除了能够获取到目标文本序列的句法结构向量之外，还能够获取到目标文本序列的文本特征向量。

可以理解的是，步骤202至步骤204之间不限定执行顺序。

205、根据句法结构向量以及文本特征向量，生成联合特征向量。

计算机设备在得到句法结构向量和文本特征向量之后，可以根据句法结构向量和文本特征向量，生成联合特征向量。

206、将联合特征向量输入至文本识别模型，通过文本识别模型输出针对于目标文本序列的识别结果。

计算机设备在得到联合特征向量之后，将联合特征向量输入到文本识别模型中。文本识别模型对应的任务类型会有多种情况，因此，基于文本识别模型得到的识别结果也会随着任务类型的不同有所不同。

在自然语言处理技术中，可以通过预训练使得模型学习到基础的语义、语法等信息，然后根据实际应用的需要，对预训练模型的参数进行调整，使得调整之后的预训练模型可以对应到具体的任务。下面，对预训练的过程进行简单说明。请参阅图3，图3为预训练模型的一个框架示意图。

示例性的，图3是以基于变换器的双向编码表示（bidirectional encoderrepresentations from transformer，BERT）模型为例，对预训练的过程进行的说明。可以理解的是，在实际应用中，本申请实施例提供的文本识别方法还可以应用在其他的预训练模型中，例如，OpenAI-GTP模型，预训练模型的类型根据实际应用的需要选择，具体此处不做限定。

如图3所示，预训练过程可以包括输入层、编码层和输出层。具体的，输入层又可以称为嵌入（embedding）层，该层的作用是对输入到模型中的文本序列进行向量化表征。编码（encode）层又可以称为特征提取层，其作用是对向量后的结果进行特征提取，以得到隐藏层表达。经过编码层，输出层可以获取到针对于文本序列的隐藏层表达。在输出层之后，可以加入神经网络层，对隐藏层的内容进行进一步的运算，得到针对于某一任务类型的任务结果。可以理解的是，在训练的过程中，预训练的参数可以根据下游任务的具体类型进行调整，使得训练之后的效果更符合实际应用的需要。其中，下游任务包括在图3所示的输出层之后新增的神经网络层所指示的任务。

本申请实施例中，可以将输入层得到的向量视为整个文本识别模型的输入，文本识别模型除了包括图3所示的编码层和输出层之外，还包括在输出层后接入的神经网络层。神经网络成的具体类型根据实际应用的需要选择，具体此处不做限定。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的文本识别方法的一个可选实施例中，文本识别方法还包括：

获取目标文本序列中M个词语之间的依存关系，包括：

根据每个词语的属性特征，确定目标文本序列的中心词；

根据中心词，确定M个词语之间的依存关系。

下面对确定词语之间依存关系的过程进行说明，请参阅图4，图4为本申请实施中句法依存关系的一个示意图。示例性的，本申请实施例以语言技术平台（languagetechnology platform，LTP）工具包为例，对获取目标文本序列中M个词语之间的依存关系进行说明，可以理解的是，在实际应用中，还可以基于其他的工具包确定词语之间的依存关系，例如，斯坦福大学的NLP工具包，工具包的类型根据实际应用的需要选择，具体此处不做限定。

本申请实施例中，计算机设备可以获取到目标文本序列中，各个词语的词性，并将各个词语的词性进行标注。如图4所示，词语“企业”和“程序”的词性均为名词（n）；词语“进入”、“破产”和“清算”的词性均为动词（v）。

计算机设备还可以获取目标文本序列中各个词语在目标文本序列中的位置。在LTP工具包的运算逻辑中，中心成分左右两边的成分之间相互不发生关系，且每个语句只有一个核心谓语。其中，核心谓语即为这个语句的虚根（root）。因此，计算机设备可以根据目标文本序列中各个词语的属性特征，确定出目标文本序列的中心词。如图4所示，计算机设备能够确定动词“进入”为整个语句的中心词。

此外，在LTP工具包的运算逻辑中，一个语句中的每一个词语都有一个与之相关的词语，同时中心成分左右两边的成分之间相互不发生关系。因此，计算机设备可以根据中心词，确定M个词语之间的依存关系。在图4所示实施例中，这6个词语之间的依存关系如下：

“企业”是“进入”的“SBV”角色，“SBV”表示主谓关系；“进入”是该输入的“HED”角色，“HED”表示核心关系；“破产”是“清算”的“FOB”角色，“FOB”表示前置宾语；“清算”是“程序”的“ATT”角色，“ATT”表示定中关系；“程序”是“进入”的“VOB”角色，“VOB”表示动宾关系。

可以理解的是，在实际应用中，词语的属性特征除了包括词语的词性，以及词语在目标文本序列中的位置之外，还可以包括其他与词语属性相关的内容，例如词语的含义等，具体此处不做限定。

本申请实施例中，计算机设备可以根据各个词语的属性特征确定出目标文本序列的中心词，然后根据中心词确定出目标文本序列中词语之间的依存关系，符合自然语言的逻辑，为本申请实施例提供的文本识别方法的实现提供了支持。

根据M个词语之间的依存关系，获取目标文本序列对应的句法结构向量，包括：

获取每个词语中文本单元的位置关系；

本申请实施例中，计算机设备在得到M个词语之间的依存关系之后，可以确定目标文本序列中各个文本单元的依存角色，从而确定出目标文本序列对应的句法结构向量。

示例性的，以图4所示实施例为例。在词语“企业”中，计算机设备可以确定文本单元“企”和“业”在这个词语中的位置，然后该位置关系和“企业”这个词语的依存关系，通过序列标注，得到文本单元的句法结构表达。

例如，在采用BIO格式序列标注的情况下，“企业”一词中的“企”字，为该词语中的首个文本单元，标记为“B-SBV”。类似的，可以将{“企”：“B-SBV”，“业”：“I-SBV”，“进”：“B-HED”，“入”：“I-HED”，“破”：“B-FOB”，“产”：“I-FOB”，“清”：“B-ATT”，“算”：“I-ATT”，“程”：“B-VOB”，“序”：“I-VOB”}作为输入，得的目标文本序列的句法结构向量。

可选的，还可以基于其他的标注格式对文本单元进行标注，例如BIOES格式，标注方式根据实际应用确定，具体此处不做限定。

可选的，还可以不对文本单元进行序列标注，直接将词语的依存关系定义为文本单元的依存关系。

可以理解的是，在预训练过程中，对文本单元进行依存关系的标识，可以组成整个输入文本的句法依存矩阵（维度为max_length*hidden_size），该矩阵是一个可学习的变量，进行随机初始化，可以随着下游任务一起训练。

本申请实施例中，根据文本单元与词语之间的位置关系，通过序列标注确定句法结构向量，对于依存关系的定位更加细致，更进一步提升了文本识别的准确度。

文本特征向量包括文本单元向量、语句向量和位置向量；

根据句法结构向量以及文本特征向量，生成联合特征向量，包括：

拼接文本单元向量、语句向量、位置向量和句法结构向量，得到联合特征向量。

本申请实施例中，计算机设备对目标文本序列多个维度的向量进行拼接，得到联合特征向量。可以下面对该过程进行说明，请参阅图5，图5为本申请实施例提供的嵌入层的一个示意图。

示例性的，以目标文本序列为“企业进入破产清算程序”为例。如图5所示，计算机设备可以获取到目标文本序列的文本单元向量（token embedding）、句向量（segmentembedding）、位置向量（position embedding）和句法结构向量（syntax embedding）。其中，文本单元向量是将人类的语言映射到几何空间中，得到每个文本单元的向量化表征。句向量反映的是各个文本单元属于哪一个文本序列。由于图5所示实施例中只有一个文本序列，因此各个文本单元的句向量的下角标的取值相同。位置向量反映的是各个文本单元在目标文本序列中的位置。句法结构向量反映的是各个文本单元在目标文本序列中的句法结构。如图5所示，计算机设备在获取到目标文本序列的文本单元向量、语句向量、位置向量和句法结构向量之后，可以对这些向量进行拼接，得到联合特征向量。

本申请实施例中，计算机设备可以对目标文本序列多个维度的向量进行拼接，得到联合特征向量。丰富了输入到文本识别模型的向量维度，同时，这多个维度的向量对于理解目标文本序列提供了正向的支持，有利于提升文本识别结果的准确度。

获取目标文本序列，包括：

获取待处理文本；

对待处理文本进行文本单元的划分处理，得到目标文本序列。

本申请实施例中，计算机设备在获取到待处理文本之后，可以对待处理文本进行文本单元的划分处理，以得到目标文本序列。例如，假设计算机设备获取的待处理文本为“企业进入破产清算程序”，计算机设备可以对该待处理文本进行文本单元的划分处理，得到目标文本序列“企/业/进/入/破/产/清/算/程/序”。目标文本序列中的文本单元还可以构成词语，每个词语包括的文本单元的数量根据实际应用的需要选择，具体此处不做限定。

可选的，计算机设备可以使用自然语言文本处理库spaCY对待处理文本进行文本单元的划分处理，除此之外，还可以使用其他的工具进行文本单元的划分处理，例如，使用自然语言工具包（natural language toolkit）对待处理文本进行文本单元的划分处理。计算机设备使用哪种方式进行文本单元的划分处理，根据实际应用的需要确定，具体此处不做限定。

可以理解的是，在自然语言的理解中，理解了文本单元的含义，才能把握整个语句的正确含义。类比到人工智能中，要让计算机设备学习到人类的文本，就需要让计算机设备把握文本中文本单元的划分处理的含义，因此，在自然语言处理技术中，文本单元的划分是非常基础又不可或缺的内容。

本申请实施例中，计算机设备能够将待处理文本进行文本单元的划分处理得到目标文本序列，基于文本序列的形式便于确定词语之间的依存关系，为实现本申请实施例提供的文本识别方法提供了技术支持。

将联合特征向量输入至文本识别模型，通过文本识别模型输出针对于目标文本序列的识别结果，包括：

对联合特征向量进行编码处理，得到编码结果；

根据概率分布结果，确定目标文本序列的分类结果。

本申请实施例中，计算机设备可以根据文本识别模型的类型不同，得到不同的识别结果。接下来以文本识别模型为文本分类模型为例，进行说明。

计算机设备在得到联合特征向量之后，可以通过图3所示的编码层对联合特征向量进行编码处理，得到编码结果。然后将编码结果传递给输出层，得到对应于编码结果的隐藏层表达。在文本识别模型为文本分类模型的情况下，可以在输出层之后加入softmax层，将隐藏层结果传递给softmax层。经过softmax层的运算，得到目标文本序列的概率分布结果。其中，该概率分布结果反映的是目标文本序列在各个类别上的概率分布。计算机设备可以根据概率分布结果，确定目标文本序列的分类结果。

可选的，目标文本序列的分类结果有多种可能，可以反映目标文本序列的情感类别，除此之外，还可以反映其他的类别，例如目标文本序列的体裁类型，具体此处不做限定。其中，目标文本序列的情感类别可以包括正向情感或者负向情感或者中性情感。

下面，以文本分类模型是情感类别模型为例，对得到目标文本序列的分类结果的过程进行说明。请参阅图6，图6为本申请实施例提供的文本识别方法的流程示意图。

如图6所示，由于文本识别模型是对目标文本序列进行分类的，因此，计算机设备可以在目标文本序列之前增加标记[CLS]，该标记用于表示文本识别模型的类型为文本分类模型。在目标文本序列之后增加标识[SEP]，该标记的作用是用来区别不同的语句。这两个标记与目标文本序列并不存在句法依存关系，因此，可以将这两个标记的依存关系定义为其他（other）。

如图6所示，假设目标文本序列为“我/爱/你”，计算机设备可以对目标文本序列进行嵌入，得到目标文本序列的联合特征向量。然后将联合特征向量输入至编码层，得到编码结果。并将编码结果传输给隐藏层，得到隐藏层结果。之后在softmax层中对隐藏层结果进行运算，得到目标文本序列分别在“正向情感”、“负向情感”和“中性情感”中的概率分布。并从中选择概率最大的类别，作为目标文本序列的识别结果。对于目标文本序列为“我/爱/你”，计算机设备能够确定该目标文本序列的识别结果为正向情感。

本申请实施例中，可以确定出目标文本序列的分类结果，丰富了本申请实施例提供的文本识别方法的应用场景。

对联合特征向量进行编码处理，得到编码结果；

计算机设备在得到联合特征向量之后，可以通过图3所示的编码层对联合特征向量进行编码处理，得到编码结果。然后将编码结果传递给输出层，得到对应于编码结果的隐藏层表达。在文本识别模型为命名实体识别模型的情况下，可以在输出层之后加入条件随机场（conditional random field algorithm，CRF）层，将隐藏层结果传递给CRF层。经过CRF层的运算，得到目标文本序列中每个文本单元的实体标签。其中，实体标签反映的是文本单元的实体类型，实体类型包括人名、地名、时间等。计算机设备可以对每个文本单元的实体标签进行匹配，从而确定目标文本序列的命名实体识别结果。其中，实体命名结果可以反映为计算机设备输出目标文本序列的实体类型。

可以理解的是，当文本识别模型为命名实体识别模型时，该模型可以应用在种场景中。例如，在电商场景的智能客服中，智能客服可以基于命名实体识别模型，对消费者的提问进行解答。具体可以包括识别问题中的地点、时间和数字等实体，给予相应的回答。假设计算机设备获取到的文本内容为“什么时候发货”，计算机设备可以提取到关于时间的实体信息，并及时回复消费者。如上示例的智能问答场景，还可以应用在其他的领域，例如智能医疗导航、用户推荐等，具体此处不做限定。

除了应用在智能问答领域，命名实体识别还可以应用在其他需要进行实体抽取的场景，例如，计算机设备可以根据获取到的文本内容，识别出地名、人名和联系电话等信息，并将这些信息按照一定的格式显示（如显示在寄件人或者收件人对应的信息栏中）。或者，计算机设备可以根据获取到的文本内容，识别出人名、时间、症状等信息，并将这些信息显示在病历单对应的位置上，实现病历信息的快速生成。可以理解的是，除了上述例子，该模型还可以应用在其他需要进行实体抽取的场景中，具体此处不做限定。

本申请实施例中，可以确定出目标文本序列的命名实体识别结果，并将本申请实施例提供的文本识别方法扩展到更多的实际应用中，丰富了本申请实施例提供的文本识别方法的应用场景。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图7，图7为本申请实施例提供的一种文本设备装置的结构示意图，文本识别装置700包括：

获取单元701，用于：

获取目标文本序列中M个词语之间的依存关系；

获取目标文本序列对应的文本特征向量；

处理单元702，用于：

根据句法结构向量以及文本特征向量，生成联合特征向量；

可选的，在上述图7所对应的实施例的基础上，本申请实施例提供的文本识别装置700的另一个实施例中，文本识别装置700包括：

获取单元701，具体用于：

根据每个词语的属性特征，确定目标文本序列的中心词；

根据中心词，确定M个词语之间的依存关系。

获取单元701，具体用于：

获取每个词语中文本单元的位置关系；

可选的，在上述图7所对应的实施例的基础上，本申请实施例提供的文本识别装置700的另一个实施例中，文本特征向量包括文本单元向量、语句向量和位置向量；文本识别装置700包括：

处理单元702，具体用于拼接文本单元向量、语句向量、位置向量和句法结构向量，得到联合特征向量。

获取单元701，具体用于获取待处理文本；并对待处理文本进行文本单元的划分处理，得到目标文本序列。

处理单元702，具体用于：

对联合特征向量进行编码处理，得到编码结果；

根据概率分布结果，确定目标文本序列的分类结果。

处理单元702，具体用于：

对联合特征向量进行编码处理，得到编码结果；

本申请实施例中，还提供了一种计算机设备，下面对该计算机设备进行说明。请参阅图8，图8是本申请实施例提供的一种计算机设备结构示意图，该计算机设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（centralprocessing units，CPU）810（例如，一个或一个以上处理器）和存储器820，一个或一个以上存储应用程序831或数据832的存储介质830（例如一个或一个以上海量存储设备）。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对计算机设备800中的一系列指令操作。更进一步地，中央处理器810可以设置为与存储介质830通信，在计算机设备800上执行存储介质830中的一系列指令操作。

计算机设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统833，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由终端设备所执行的步骤可以基于该图8所示的计算机设备结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，互动视频的管理装置，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种文本识别的方法，其特征在于，包括：

获取目标文本序列，其中，所述目标文本序列包括N个文本单元，所述N个文本单元构成M个词语，所述N为大于1的整数，所述M为小于或等于所述N的正整数；

获取所述目标文本序列中所述M个词语之间的依存关系；

根据所述M个词语之间的依存关系，获取所述目标文本序列对应的句法结构向量，其中，所述句法结构向量包括每个文本单元对应的句法嵌入表达；

获取所述目标文本序列对应的文本特征向量；

根据所述句法结构向量以及所述文本特征向量，生成联合特征向量；

将所述联合特征向量输入至文本识别模型，通过所述文本识别模型输出针对于所述目标文本序列的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标文本序列中所述M个词语之间的依存关系，包括：

获取所述M个词语中每个词语的属性特征，其中，所述每个词语的属性特征包括所述每个词语的词性，以及所述每个词语在所述目标文本序列中的位置；

根据所述每个词语的属性特征，确定所述目标文本序列的中心词；

根据所述中心词，确定所述M个词语之间的依存关系。

3.根据权利要求1所述的方法，其特征在于，根据所述M个词语之间的依存关系，获取所述目标文本序列对应的句法结构向量，包括：

获取每个词语中文本单元的位置关系；

基于所述位置关系和所述M个词语之间的依存关系，通过序列标注，获取所述目标文本序列对应的句法结构向量。

4.根据权利要求1所述的方法，其特征在于，所述文本特征向量包括文本单元向量、语句向量和位置向量；

所述根据所述句法结构向量以及所述文本特征向量，生成联合特征向量，包括：

拼接所述文本单元向量、语句向量、位置向量和所述句法结构向量，得到所述联合特征向量。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取目标文本序列，包括：

获取待处理文本；

对所述待处理文本进行文本单元的划分处理，得到所述目标文本序列。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述将所述联合特征向量输入至文本识别模型，通过所述文本识别模型输出针对于所述目标文本序列的识别结果，包括：

对所述联合特征向量进行编码处理，得到编码结果；

若所述文本识别模型为文本分类模型，则根据所述编码结果确定所述目标文本序列的概率分布结果；

根据所述概率分布结果，确定所述目标文本序列的分类结果。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述将所述联合特征向量输入至文本识别模型，通过所述文本识别模型输出针对于所述目标文本序列的识别结果，包括：

对所述联合特征向量进行编码处理，得到编码结果；

若所述文本识别模型为命名实体识别模型，则根据所述编码结果确定每个文本单元的实体标签，其中，所示实体标签用于表示所述每个文本单元对应的实体类别；

根据所述每个文本单元的实体标签，确定所述目标文本序列的命名实体识别结果。

8.一种文本识别的装置，其特征在于，所述装置包括：

获取单元，用于：

获取所述目标文本序列中所述M个词语之间的依存关系；

获取所述目标文本序列对应的文本特征向量；

处理单元，用于：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；

所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的文本识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至7任一项所述的文本识别方法。