CN118114672A

CN118114672A - 文本数据处理方法、装置、设备、存储介质及程序产品

Info

Publication number: CN118114672A
Application number: CN202410325878.6A
Authority: CN
Inventors: 李剑龙; 石忠德; 杨恺; 王小红
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-05-31

Abstract

本公开提供了一种文本数据处理方法、装置、设备、存储介质及程序产品，可以应用于大数据处理、人工智能和金融技术领域。该方法包括响应于数据处理指令，获取文本数据集，其中，文本数据集包括多个待识别文本信息；针对每个待识别文本信息，基于对抗学习法，利用对抗训练编码层对待识别文本信息进行处理，得到与待识别文本信息对应的多个初始命名实体标签；利用条件概率分布模型处理多个初始命名实体标签，得到与待识别文本信息对应的目标命名实体，其中，目标命名实体抽取模型包括对抗训练编码层和条件概率分布模型；基于预设名称合规判断规则对目标命名实体的合规性进行判断，得到目标命名实体的合规性结果。

Description

文本数据处理方法、装置、设备、存储介质及程序产品

技术领域

本公开涉及大数据处理、人工智能和金融技术领域，具体地涉及一种文本数据处理方法、文本数据处理装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

命名实体识别(Named Entity Recognition，NER)是自然语言处理技术(NaturalLanguage Processing，NLP)的一项重要任务，用于识别出文本中的命名实体，一般指识别文本中具有特定意义的实体，比如可以包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中的实体指称的边界和类别，需使用实体标注方式对文本中的实体进行标注。在识别到命名实体之后，可以对其合规性进行检测，例如在公司采购环节中，可以对上报的采购文件进行合规性的判断，以实现对采购文档中关键信息的抽取，从而为工作人员提供便利。

然而，现有的命名实体识别方法的准确性较差，从而对合规性的判读准确性造成了影响。

发明内容

鉴于上述问题，本公开提供了一种文本数据处理方法、文本数据处理装置、电子设备、计算机可读存储介质及计算机程序产品。

根据本公开的第一个方面，提供了一种文本数据处理方法，包括：

响应于数据处理指令，获取文本数据集，其中，上述文本数据集包括多个待识别文本信息；

针对每个上述待识别文本信息，基于对抗学习法，利用对抗训练编码层对上述待识别文本信息进行处理，得到与上述待识别文本信息对应的多个初始命名实体标签；

利用条件概率分布模型处理上述多个初始命名实体标签，得到与上述待识别文本信息对应的目标命名实体，其中，目标命名实体抽取模型包括上述对抗训练编码层和上述条件概率分布模型；

基于预设名称合规判断规则对上述目标命名实体的合规性进行判断，得到上述目标命名实体的合规性结果。

根据本公开的实施例，上述文本数据处理方法还包括：

获取待处理文档数据；

对上述待处理文档数据进行分句处理，得到多个上述待识别文本信息。

根据本公开的实施例，基于预设名称合规判断规则对上述目标命名实体的合规性进行判断，得到上述目标命名实体的合规性结果，包括：

在预设合规名称表中存在上述目标命名实体的情况下，将合规命名实体确定为上述目标命名实体的合规性结果；

在上述预设合规名称表中不存在上述目标命名实体的情况下，将待确认实体确定为上述目标命名实体的合规性结果。

根据本公开的实施例，上述文本数据处理方法还包括：

在上述合规性结果表示上述目标命名实体为待确认实体的情况下，若上述目标命名实体的数量满足预设数量阈值，将上述目标命名实体更新至上述预设合规名称表，以利用更新的预设合规名称表进行合规性的判断。

根据本公开的实施例，基于对抗学习法，利用对抗训练编码层对上述待识别文本信息进行处理，得到与上述待识别文本信息对应的多个初始命名实体标签，包括：

利用对抗向量层处理上述待识别文本信息，得到上述待识别文本信息的第一词向量；

利用自注意力编码层处理上述第一词向量，得到上述待识别文本信息的编码向量；

利用长短期记忆网络处理上述编码向量，得到多个隐藏状态信息；

针对每个上述隐藏状态信息，利用线性层处理上述隐藏状态信息，得到上述初始命名实体标签，其中，上述对抗训练编码层包括上述对抗向量层、上述自注意力编码层、上述长短期记忆网络和上述线性层。

根据本公开的实施例，利用对抗向量层处理上述待识别文本信息，得到上述待识别文本信息的第一词向量，包括：

利用词向量层处理上述待识别文本信息，得到第二词向量；

利用快速梯度法对上述词向量层进行扰动处理，得到目标扰动量；

根据上述第二词向量和上述目标扰动量，生成上述第一词向量。

根据本公开的实施例，上述编码向量包括多个时间步长的编码子向量；

根据本公开的实施例，利用长短期记忆网络处理上述编码向量，得到多个隐藏状态信息，包括：

针对每个上述编码子向量，利用双向长短期记忆网络处理上述编码子向量，得到与上述编码子向量对应的隐藏状态信息。

根据本公开的实施例，利用条件概率分布模型处理上述多个初始命名实体标签，得到与上述待识别文本信息对应的目标命名实体，包括：

利用条件随机场模型处理多个上述初始命名实体标签，得到输出序列，其中，上述输出序列包括i个字标签；

针对第i字标签，根据第i字标签的目标概率权重和标签得分，生成标签序列概率；

将标签序列概率最大值对应的初始命名实体标签确定为目标命名实体标签，以根据上述目标命名实体标签确定上述目标命名实体。

根据本公开的实施例，根据第i字标签的目标概率权重和标签得分，生成标签序列概率，包括：

根据上述目标概率权重和标签得分，生成标签序列评分，其中，上述目标概率权重是根据实体标签从第i字标签转移到第i+1字标签的状态转移矩阵生成的转移概率权重，上述标签得分表征多个字标签的第i+1标签为第i+1字标签的得分；

利用预设序列概率函数处理上述标签序列评分，得到上述标签序列概率。

本公开的第二方面提供了一种文本数据处理装置，包括：

获取模块，用于响应于数据处理指令，获取文本数据集，其中，上述文本数据集包括多个待识别文本信息；

对抗处理模块，用于针对每个上述待识别文本信息，基于对抗学习法，利用对抗训练编码层对上述待识别文本信息进行处理，得到与上述待识别文本信息对应的多个初始命名实体标签；

得到模块，用于利用条件概率分布模型处理上述多个初始命名实体标签，得到与上述待识别文本信息对应的目标命名实体，其中，目标命名实体抽取模型包括上述对抗训练编码层和上述条件概率分布模型；

合规判断模块，用于基于预设名称合规判断规则对上述目标命名实体的合规性进行判断，得到上述目标命名实体的合规性结果。

本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述文本数据处理方法。

本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述文本数据处理方法。

本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述文本数据处理方法。

根据本公开的实施例，通过利用基于对抗学习法的对抗训练编码层对待识别文本信息，可以得到包含待识别文本信息中时序关联信息的多个全局语义标识，利用条件概率分布模型对全局语义标识的初始命名实体标签进行约束，从而能够得到较为准确的目标命名实体，由此在进行合规性判断时能够得到较为准确的判断结果。由于采用了对抗学习法的对抗训练编码层和条件概率分布模型对待识别文本信息进行处理，提高了从待识别文本信息识别目标命名实体的识别准确度，进而提高了合规性判断的判断准确性。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的文本数据处理方法的应用场景图；

图2示意性示出了根据本公开实施例的文本数据处理方法的流程图；

图3示意性示出了根据本公开实施例的合规性判断的流程示意图；

图4示意性示出了根据本公开实施例的自注意力编码层的处理示意图；

图5示意性示出了根据本公开实施例的待识别文本信息的处理示意图；

图6示意性示出了根据本公开实施例的长短期记忆网络的模型结构示意图；

图7示意性示出了根据本公开实施例的文本数据处理装置的结构框图；

图8示意性示出了根据本公开实施例的适于实现文本数据处理方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

随着深度学习技术的不断发展，自从命名实体任务首次提出以来，其研究主要可分为三个阶段，传统方法阶段，神经网络阶段和预训练语言模型阶段。

传统方法阶段，主要包括基于规则模板和统计学两种方法。基于传统规则模板的方法旨在使用既定的规则模板对句子进行模式匹配，找出句子中的相关实体。这种方式需要语言学家对相关的规则进行制定，在数据量级较少的情况下能够取得较好的结果，但使用固定的匹配规则必然无法解决领域迁移的情况，且无法解决未登陆词识别的现象。基于统计学的方法，是指使用条件随机场、隐马尔科夫模型和最大熵等方法，对数据集进行统计和特征建模，然后对文本进行命名实体识别。2006年，俞鸿魁等通过引入隐马尔科夫模型，使用层叠的方式搭建命名实体识别算法。2011年，DUANH等通过使用(条件随机场)CRF进行中文领域的命名实体识别研究，通过CRF对特征进行统计和学习，并在中文数据集上取得了不错的效果。

随着深度学习模型的不断发展，命名实体识别的研究，也从基于传统方法过渡到了基于深度学习的方法，深度学习方法无需人工进行规则的制定，神经网络能够自动从数据中挖掘相关的特征。由于深度学习方法的高效便捷性，命名实体研究领域，近些年涌现大量的优秀工作。Huang等人提出使用BiLSTM结合CRF进行命名实体识别的研究，利用BiLSTM善于捕获长距离依赖和CRF关注输出序列间的关系的特点，取得了较好的效果。Ma提出使用BiLSTM-CNN-CRF模型，首先使用CNN得到字符级别的特征，然后使用BiLSTM-CRF获取句子长距离依赖特征，并得到实体识别结果。ZHANG等提出Lattice LSTM模型，通过引入分词结果信息与基于字嵌入的信息进行融合，用以增加输入信息的特征表示，接着使用LSTM模型对融合的特征进行隐藏特征提取，从而提升命名实体识别的效果。

近年来，随着预训练语言模型(Bidirectional Encoder Representations fromTransformers,BERT)的提出，命名实体识别的研究也进入到了一个全新的阶段--基于预训练模型的阶段。由于传统的神经网络模型无法从语义上对句子进行特征的建模，基于大规模语料的预训练语言模型应运而生。研究人员也转入到使用预训练语言模型进行命名实体识别的研究。某个研究人员提出使用BERT模型在中文简历数据集上进行研究，借助BERT模型的语义表征能力，取得了令人满意的效果。某个研究人员等提出在生物医学领域使用BERT-BILSTM-CRF模型进行命名实体识别的的研究，这种方法能够较好的关注领域关键信息，获取较好的命名实体识别效果。某个研究人员借助ALBERT和BGRU-CRF关注文本中的长距离依赖，实现对文本中的实体识别，在MARS数据集上取得了不错的效果。某个研究人员提出基于BERT模型和混合神经网络的命名实体识别方法，通过在BERT模型后引入LSTM和注意力机制的方式，构建实体识别模型。胡婕在BERT模型基础上，引入知识库实体增强概念，在实体识别任务中取得较好的效果。随着大模型技术的提出，越来越多的研究者将研究目标聚焦在大模型提示模板构建层面，这也让超大参数量的模型在实体识别任务中崭露头角，但这些方法却强烈依赖提示模板的构建，且实体识别准确率较低，实体识别时耗较长，较难进行轻量化部署和维护。

总而言之，命名实体识别的研究从早先基于传统的方法过渡到基于深度学习的方法，现如今正朝着大规模预训练语言模型的方向上发展。这些研究为本发明提供了技术基础，因此本发明在结合现有命名实体识别技术的基础上，通过引入对抗学习思路，对模型的词嵌入信息进行扰动，提升实体识别模型的健壮性，并对识别的实体进行合规名称判断，从而实现对特定类别实体的关注和处理。

有鉴于此，本公开的实施例提供了一种文本数据处理方法、装置、设备、存储介质及程序产品，可以应用于大数据处理、人工智能和金融技术领域。该方法包括响应于数据处理指令，获取文本数据集，其中，文本数据集包括多个待识别文本信息；针对每个待识别文本信息，基于对抗学习法，利用对抗训练编码层对待识别文本信息进行处理，得到与待识别文本信息对应的多个初始命名实体标签；利用条件概率分布模型处理多个初始命名实体标签，得到与待识别文本信息对应的目标命名实体，其中，目标命名实体抽取模型包括对抗训练编码层和条件概率分布模型；基于预设名称合规判断规则对目标命名实体的合规性进行判断，得到目标命名实体的合规性结果。

需要说明的是，本公开提供的文本数据处理方法和文本数据处理装置可用于金融领域，例如银行等金融机构，也可用于除金融领域之外的任意领域，例如医院等卫生机构，因此，本公开提供的文本数据处理方法和文本数据处理装置的应用领域不做限定。

在本公开的技术方案中，所涉及的用户信息(包括但不限于用户个人信息、用户图像信息、用户设备信息，例如位置信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理，均遵守相关法律法规和标准，采取了必要保密措施，不违背公序良俗，并提供有相应的操作入口，供用户选择授权或者拒绝。

图1示意性示出了根据本公开实施例的文本数据处理方法的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括文件的合规性判断场景。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的文本数据处理方法一般可以由服务器105执行。相应地，本公开实施例所提供的文本数据处理装置一般可以设置于服务器105中。本公开实施例所提供的文本数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的文本数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的文本数据处理方法的流程图。

如图2所示，该实施例的文本数据处理方法包括操作S210～操作S230，该交易处理方法可以由电子设备执行。

在操作S210，响应于数据处理指令，获取文本数据集，其中，文本数据集包括多个待识别文本信息；

在操作S220，针对每个待识别文本信息，基于对抗学习法，利用对抗训练编码层对待识别文本信息进行处理，得到与待识别文本信息对应的多个初始命名实体标签；

在操作S230，利用条件概率分布模型处理多个初始命名实体标签，得到与待识别文本信息对应的目标命名实体，其中，目标命名实体抽取模型包括对抗训练编码层和条件概率分布模型；

在操作S240，基于预设名称合规判断规则对目标命名实体的合规性进行判断，得到目标命名实体的合规性结果。

根据本公开的实施例，数据处理指令可以是在用户在电子设备上输入相关的操作之后电子设备响应于该操作而生成的。

根据本公开的实施例，待识别文本信息可以是以段落、句子为单位的文本内容。命名实体(Named Entity)可以是指人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、地址等。

根据本公开的实施例，在获取到文本数据集后，针对文本数据集内的每个待识别文本信息，为了获得更加健壮的词向量表征，可以利用基于对抗学习法的对抗训练编码层对待识别文本信息进行处理，得到包含待识别文本信息中时序关联信息的多个全局语义标识，即初始命名实体标签。

根据本公开的实施例，在对抗训练编码层生成初始命名实体标签之后，可以利用条件概率分布模型对其进行校正输出，以从多个初始命名实体标签中确定目标命名实体。

根据本公开的实施例，条件概率分布模型可以是随机条件场(ConditionalRandom Field，CRF)模型，该模型结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，常用于标注或分析序列资料，如自然语言文字或是生物序列，同时在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。条件随机场是一类最适合预测任务的判别模型，其中相邻的上下文信息或状态会影响当前预测。

根据本公开的实施例，文本数据处理方法还包括：

获取待处理文档数据；

对待处理文档数据进行分句处理，得到多个待识别文本信息(S＝[s₁,s₂,s₃,...,s_n])。

根据本公开的实施例，待处理文档数据可以是任意类型的文档，其可以是Word、PDF等不同格式的文本，例如可以是采购文档。将该待处理文档数据进行分句处理，例如可以利用自然语言处理(Natural Language Processing，NLP)进行分句处理，从而得到以句子为单位的多个待识别文本信息，其可以表示为文本数据集S＝[s₁,s₂,s₃,...,s_n]，其中，s_n表示第n个待识别文本信息。

图3示意性示出了根据本公开实施例的合规性判断的流程示意图。

如图3所示，基于预设名称合规判断规则对目标命名实体的合规性进行判断，得到目标命名实体的合规性结果，包括：

在预设合规名称表中存在目标命名实体的情况下，将合规命名实体确定为目标命名实体的合规性结果；

在预设合规名称表中不存在目标命名实体的情况下，将待确认实体确定为目标命名实体的合规性结果。

根据本公开的实施例，预设合规名称表可以存储在公司名称库中，该预设合规名称表可以基于实际工作需求提前填写有多个经过验证的命名实体，例如公司名称、法人、机构等。

根据本公开的实施例，通过维护公司名称库对识别得到的公司名(即目标命名实体)进行合规性判断，最后将合规的目标命名实体即合规命名实体输出给采购文档审核人员，可以通过在待识别文本信息进行辅助内容标识，进一步提升人员对采购文件的审核效率。

参照图3，文本数据处理方法还包括：

在合规性结果表示目标命名实体为待确认实体的情况下，若目标命名实体的数量满足预设数量阈值，将目标命名实体更新至预设合规名称表，以利用更新的预设合规名称表进行合规性的判断。

根据本公开的实施例，由于预设合规名称表中不一定囊括所有的合规的命名实体，而有些命名实体之间较为相似，例如预设合规名称表中存在“AB有限公司”，而识别得到的目标命名实体是“AC有限公司”，同时目标命名实体实际为合规的，由于预设合规名称表中不存在该命名实体，因此可能会认定其属于待确认实体，在此情况下，可以统计文本数据集中“AC有限公司”的出现的频次或数量，以确定“AC有限公司”是否是笔误，若数量满足预设数量阈值，则可以确认“AC有限公司”为合规的命名实体，而非是笔误，从而可以将该命名实体更新至公司名称库中的预设合规名称表，从而重新对当前的待识别文本信息进行合规性判断。

图4示意性示出了根据本公开实施例的自注意力编码层的处理示意图。

根据本公开的实施例，基于对抗学习法，利用对抗训练编码层对待识别文本信息进行处理，得到与待识别文本信息对应的多个初始命名实体标签，包括：

利用对抗向量层处理待识别文本信息，得到待识别文本信息的第一词向量；

利用自注意力编码层处理第一词向量，得到待识别文本信息的编码向量；

利用长短期记忆网络处理编码向量，得到多个隐藏状态信息；

针对每个隐藏状态信息，利用线性层处理隐藏状态信息，得到初始命名实体标签，其中，对抗训练编码层包括对抗向量层、自注意力编码层、长短期记忆网络和线性层。

根据本公开的实施例，长短期记忆网络是循环神经网络的一种，其通过选择性的关注序列中关键信息，完成潜藏在文本中的时序信息的挖掘，并对相关信息提供时序关联特征，缓解了传统RNN梯度消失和梯度爆炸的问题。

根据本公开的实施例，利用对抗向量层处理待识别文本信息，得到待识别文本信息的第一词向量h_x，经过扰动的第一词向量h_x通过自注意力编码层进行自注意力机制计算过程，参见图4可以得到经过自注意力机制编码后的编码向量h_b，如公式(1)所示。

h_b＝encoder(h_x) (1)

其中，图4中TR表示Transformer模型。

根据本公开的实施例，利用长短期记忆网络处理编码向量，得到多个隐藏状态信息h_t，对于隐藏状态信息h_t可以利用线性层进行处理，从而可以对应的初始命名实体标签。

图5示意性示出了根据本公开实施例的待识别文本信息的处理示意图。

根据本公开的实施例，利用对抗向量层处理待识别文本信息，得到待识别文本信息的第一词向量，包括：

利用词向量层处理待识别文本信息，得到第二词向量；

利用快速梯度法对词向量层进行扰动处理，得到目标扰动量；

根据第二词向量和目标扰动量，生成第一词向量。

根据本公开的实施例，参照图5，利用词向量层处理待识别文本信息，得到第二词向量x。

根据本公开的实施例，为了获得更加健壮的词向量映射层，本公开使用(FastGradient Method，FGM)对词向量层进行扰动数据的添加。FGM通过在词向量层对相关的函数进行扰动的添加扰动，目标扰动量R_adv的相关计算方法公式(2)所示。

上述式子中，α表示扰动概率值，一般取值为0.25，L表示被扰动的神经网络的损失函数，x和y分别表示输入和输出。同时，FGM模型添加的扰动信息使用梯度二范式进行计算，这可以让目标命名实体抽取模型得到更好的泛化能力。在目标命名实体抽取模型训练过程中，遵循内部损失函数最大化，外部损失函数最小化原则。即在添加扰动最大的情况下，模型还能够保持最优性能，因此对抗训练过程中的期望值E如公式(3)所示。

上述式子中，θ表示目标命名实体抽取模型的模型参数，E添加对抗训练的模型的期望值，D表示数据分布信息，L为被扰动模块的损失函数，x和y分别表示输入和输出。r_adv表示添加的扰动量，S表示扰动空间。

根据本公开的实施例，具体的FGM方法对模型添加扰动的流程可以是首先在词向量层计算损失函数和梯度值，以获取对应的扰动量，将该扰动量与词向量层的输出相加，同时得到模型损失值，此后恢复词向量层的原始输出值，以循环迭代进行下一个输入数据x的计算，从而得到多个扰动量r_adv，最终将扰动量最大的确定为目标扰动量R_adv。

根据本公开的实施例，在对抗向量层的词向量层中，首先得到句子的第二词向量x，其次在对抗学习中得到扰动量R_adv，因此，添加对抗训练后，得到的第一词向量h_x可以使用公式(4)表示。

h_x＝x+R_adv (4)

图6示意性示出了根据本公开实施例的长短期记忆网络的模型结构示意图。

根据本公开的实施例，编码向量包括多个时间步长的编码子向量；

根据本公开的实施例，利用长短期记忆网络处理编码向量，得到多个隐藏状态信息，包括：

针对每个编码子向量，利用双向长短期记忆网络处理编码子向量，得到与编码子向量对应的隐藏状态信息。

根据本公开的实施例，参见图6，图中σ为Sigmoid激活函数，其计算方式如公式(5)所示：

其中，公式(5)能够将实数缩放到[0,1]区间。

根据本公开的实施例，图中tanh为激活函数，其计算方式如公式(6)所示：

其中，公式(6)能够将任意实数非线性映射到[-1,1].

根据本公开的实施例，对于经过自注意力编码层编码后的多个句子编码向量h_b可以表示为x_n，由此可以得到编码向量集合X＝[x₁,x₂,...,x_n-1,x_n]，x_t为第t个时间步长的输入单元；h_t为第t个时间步长的隐藏状态；h_t-1位第t-1时刻的隐藏状态；r_t为重置门；z_t为更新门；为t时刻的候选记忆门。双向长短期记忆网络的前向计算公式如公式(7)所示。

r_t＝σ(w_r·[h_t-1,x_t]+b_r) (7)

i_t＝σ(w_i·[h_t-1,x_t]+b_i)

h_t＝σ(w_O·[h_t-1,x_t]+b_O)*tanh(C_t)

其中，w表示LSTM的模型权重信息，b表示偏置矩阵，f为全连接参数。

根据本公开的实施例，利用条件概率分布模型处理多个初始命名实体标签，得到与待识别文本信息对应的目标命名实体，包括：

利用条件随机场模型处理多个初始命名实体标签，得到输出序列，其中，输出序列包括i个字标签；

将标签序列概率最大值对应的初始命名实体标签确定为目标命名实体标签，以根据目标命名实体标签确定目标命名实体。

根据本公开的实施例，为了更好的对输出序列进行有效的关联约束，本公开使用条件随机场模型，实现对预测的字标签进行约束。条件随机场模型能够通过总结训练数据中存在的某些预定的关系，有效的减少预测标签不合理的情况出现。

根据本公开的实施例，条件随机场模型可以是随机条件场(Conditional RandomField，CRF)模型。

根据本公开的实施例，对于经过对抗训练编码层运算输出的向量可表示为X，该输出经过条件随机场模型可以得到一个输出序列Y＝[y₁,y₂,y₃,...y_i]，其中，y_i表征第i字标签。

根据本公开的实施例，针对第i字标签，根据第i字标签的目标概率权重和标签得分，生成标签序列概率p(y|X)；将标签序列概率最大值对应的初始命名实体标签确定为目标命名实体标签，以根据目标命名实体标签确定目标命名实体。

根据目标概率权重和标签得分，生成标签序列评分，其中，目标概率权重是根据实体标签从第i字标签转移到第i+1字标签的状态转移矩阵生成的转移概率权重，标签得分表征多个字标签的第i+1标签为第i+1字标签的得分；

利用预设序列概率函数处理标签序列评分，得到标签序列概率。

根据本公开的实施例，根据目标概率权重和标签得分，生成标签序列评分S(X,y)，如公式(8)所示：

其中，为目标概率权重，即实体标签从第i字标签转移到第i+1字标签的状态转移矩阵生成的转移概率权重，/>为多个字标签的第i+1标签为第i+1字标签的得分。状态转移矩阵和标签得分均可以是基于实际需求或者随机或全零初始化所得到的。

根据本公开的实施例，利用如公式(9)所示的预设序列概率函数处理标签序列评分，得到标签序列概率p(y|X)。

其中，Y为可能出现的所有的标签序列集合，X为输入序列，为其中的一个可能出现的序列，y为模型对应的输出序列，在此时e^S(X,y)为最优的得分，也即序列集合Y的最优输出序列。

根据本公开的实施例，基于上述处理过程，本公开的条件随机场模型的损失函数如公式(10)所示：

其中，lg表示求取对数操作。经过上述公式的计算可以得到损失值，然后使用后向传播算法进行损失值的更新，最后求解得到最优的状态转移矩阵，从而完成条件随机场模型的训练。

根据本公开的实施例，为了对本公开提出的文本数据处理方法的效果进行验证，本公开在目标命名实体的识别阶段使用开源数据集对相关的的算法进行验证，数据集选取Resume简历数据集，并结合相关评价指标对算法模型进行定量分析。评价指标选取召回率(Recall)、查准率(Precision)和F1值，评价指标如公式(11)所示。

对于一个标签类别，TP为模型正确预测的实体(命名实体)数量，FN表示模型错误预测的实体数量。在验证中将任务看作一个分类任务，对每一个标注的实体类别进行Recall、Precision和F1值的计算，最后将各个类别对应指标的平均值作为最终结果。

根据本公开的实施例，相关的实验环境和经过大量实验后选取的最优参数配比如表1和表2所示。

表1实验环境

表2实验参数

在实验中，由于Resume数据集有8种实体类型，有三种单字类型实体，且数据采用BIOES方式进行标注，因此模型的输出类别out-dim为28；LSTM层的隐藏层的维度设置为128；使用学习率为1e-5进行了30轮的训练。

在实验中进行了大量的消融对比实验，用于验证本文所提出模型的有效性。与本公开进行对比的模型如下：

1)HMM，隐马尔可夫模型，使用最大似然估计法，对训练数据的初始状态分布、状态转移概率矩阵以及观测概率矩阵进行求解，并用维特比算法进行解码，最终得到命名实体识别结果。

2)CRF模型，条件随机场模型可以有效地解决HMM无法关注输出序列间存在的关系的问题，相较于使用HMM模型，实体识别的效果有较大的提升。

3)BiLSTM-CRF，该方法使用双向LSTM模型关注句子序列中的潜藏特征，然后使用CRF模型对双向LSTM的输出序列学习状态转移矩阵，用以减少不合理的输出标签配对结果，从而提升实体识别的效果。

4)Transformer-BiGRU-CRF，该模型使用2个多头注意力机制搭建Transformer的编码层，对句子进行动态词向量的编码，然后将编码结果输入到双向GRU模型中，挖掘句子中的潜藏特征，最后使用CRF关注输出标签间存在的关系，并得到命名实体识别的结果。

5)BERT-BiLSTM-CRF，首先使用BERT模型获取句子的编码向量，然后将编码向量输入到双向LSTM模型中挖掘潜藏在编码向量中的特征信息，并使用CRF优化LSTM层输出序列表示，得到最优输出序列，从而优化模型的命名实体识别效果。

为了验证提出模型的有效性，在相同实验参数的状态下进行对比实验，实验结果和各个对比模型的实验结果如表3所示。

表3实验结果对比

从上表中可以看出，本公开提出的模型在召回率、精确率和F1值上较其他模型均有提高，较基于深度学习方法的模型提升幅度在1.5％左右。相较于基于BERT-BiLSTM-CRF和BERT-BiGRU-CRF模型，本公开提出的模型在命名实体识别效果上有0.5％左右的提升。从表中的数据可以看出，本公开提出的模型较其他模型在命名实体识别任务上有更好的表现。

图7示意性示出了根据本公开实施例的文本数据处理装置的结构框图。

如图7所示，该实施例的文本数据处理装置700包括获取模块710、对抗处理模块720、得到模块730、合规判断模块740。

获取模块710，用于响应于数据处理指令，获取文本数据集，其中，文本数据集包括多个待识别文本信息；

对抗处理模块720，用于针对每个待识别文本信息，基于对抗学习法，利用对抗训练编码层对待识别文本信息进行处理，得到与待识别文本信息对应的多个初始命名实体标签；

得到模块730，用于利用条件概率分布模型处理多个初始命名实体标签，得到与待识别文本信息对应的目标命名实体，其中，目标命名实体抽取模型包括对抗训练编码层和条件概率分布模型；

合规判断模块740，用于基于预设名称合规判断规则对目标命名实体的合规性进行判断，得到目标命名实体的合规性结果。

根据本公开的实施例，文本数据处理装置700还包括第二获取模块、分句模块。

第二获取模块，用于获取待处理文档数据；

分句模块，用于对待处理文档数据进行分句处理，得到多个待识别文本信息。

根据本公开的实施例，合规判断模块740包括第一确定单元、第二确定单元。

第一确定单元，用于在预设合规名称表中存在目标命名实体的情况下，将合规命名实体确定为目标命名实体的合规性结果；

第二确定单元，用于在预设合规名称表中不存在目标命名实体的情况下，将待确认实体确定为目标命名实体的合规性结果。

根据本公开的实施例，合规判断模块740还包括更新单元。

更新单元，用于在合规性结果表示目标命名实体为待确认实体的情况下，若目标命名实体的数量满足预设数量阈值，将目标命名实体更新至预设合规名称表，以利用更新的预设合规名称表进行合规性的判断。

根据本公开的实施例，对抗处理模块720包括词向量单元、编码单元、第一处理单元、第二处理单元。

词向量单元，用于利用对抗向量层处理待识别文本信息，得到待识别文本信息的第一词向量；

编码单元，用于利用自注意力编码层处理第一词向量，得到待识别文本信息的编码向量；

第一处理单元，用于利用长短期记忆网络处理编码向量，得到多个隐藏状态信息；

第二处理单元，用于针对每个隐藏状态信息，利用线性层处理隐藏状态信息，得到初始命名实体标签，其中，对抗训练编码层包括对抗向量层、自注意力编码层、长短期记忆网络和线性层。

根据本公开的实施例，词向量单元包括第一处理子单元、扰动子单元、第一生成子单元。

第一处理子单元，用于利用词向量层处理待识别文本信息，得到第二词向量；

扰动子单元，用于利用快速梯度法对词向量层进行扰动处理，得到目标扰动量；

第一生成子单元，用于根据第二词向量和目标扰动量，生成第一词向量。

根据本公开的实施例，编码向量包括多个时间步长的编码子向量。

根据本公开的实施例，第一处理单元包括第二处理子单元。

第二处理子单元，用于针对每个编码子向量，利用双向长短期记忆网络处理编码子向量，得到与编码子向量对应的隐藏状态信息。

根据本公开的实施例，得到模块730包括得到单元、生成单元、第三确定单元。

得到单元，用于利用条件随机场模型处理多个初始命名实体标签，得到输出序列，其中，输出序列包括i个字标签；

生成单元，用于针对第i字标签，根据第i字标签的目标概率权重和标签得分，生成标签序列概率；

第三确定单元，用于将标签序列概率最大值对应的初始命名实体标签确定为目标命名实体标签，以根据目标命名实体标签确定目标命名实体。

根据本公开的实施例，生成单元包括第二生成子单元、得到子单元。

第二生成子单元，用于根据目标概率权重和标签得分，生成标签序列评分，其中，目标概率权重是根据实体标签从第i字标签转移到第i+1字标签的状态转移矩阵生成的转移概率权重，标签得分表征多个字标签的第i+1标签为第i+1字标签的得分；

得到子单元，用于利用预设序列概率函数处理标签序列评分，得到标签序列概率。

根据本公开的实施例，获取模块710、对抗处理模块720、得到模块730、合规判断模块740中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块710、对抗处理模块720、得到模块730、合规判断模块740中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块710、对抗处理模块720、得到模块730、合规判断模块740中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图8所示，根据本公开实施例的电子设备800包括处理器801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备800还可以包括输入/输出(I/O)接口805，输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的文本数据处理方法。

在该计算机程序被处理器801执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分809被下载和安装，和/或从可拆卸介质811被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种文本数据处理方法，其特征在于，所述方法包括：

响应于数据处理指令，获取文本数据集，其中，所述文本数据集包括多个待识别文本信息；

针对每个所述待识别文本信息，基于对抗学习法，利用对抗训练编码层对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的多个初始命名实体标签；

利用条件概率分布模型处理所述多个初始命名实体标签，得到与所述待识别文本信息对应的目标命名实体，其中，目标命名实体抽取模型包括所述对抗训练编码层和所述条件概率分布模型；

基于预设名称合规判断规则对所述目标命名实体的合规性进行判断，得到所述目标命名实体的合规性结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待处理文档数据；

对所述待处理文档数据进行分句处理，得到多个所述待识别文本信息。

3.根据权利要求1所述的方法，其特征在于，基于预设名称合规判断规则对所述目标命名实体的合规性进行判断，得到所述目标命名实体的合规性结果，包括：

在预设合规名称表中存在所述目标命名实体的情况下，将合规命名实体确定为所述目标命名实体的合规性结果；

在所述预设合规名称表中不存在所述目标命名实体的情况下，将待确认实体确定为所述目标命名实体的合规性结果。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述合规性结果表示所述目标命名实体为待确认实体的情况下，若所述目标命名实体的数量满足预设数量阈值，将所述目标命名实体更新至所述预设合规名称表，以利用更新的预设合规名称表进行合规性的判断。

5.根据权利要求1所述的方法，其特征在于，基于对抗学习法，利用对抗训练编码层对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的多个初始命名实体标签，包括：

利用对抗向量层处理所述待识别文本信息，得到所述待识别文本信息的第一词向量；

利用自注意力编码层处理所述第一词向量，得到所述待识别文本信息的编码向量；

利用长短期记忆网络处理所述编码向量，得到多个隐藏状态信息；

针对每个所述隐藏状态信息，利用线性层处理所述隐藏状态信息，得到所述初始命名实体标签，其中，所述对抗训练编码层包括所述对抗向量层、所述自注意力编码层、所述长短期记忆网络和所述线性层。

6.根据权利要求5所述的方法，其特征在于，利用对抗向量层处理所述待识别文本信息，得到所述待识别文本信息的第一词向量，包括：

利用词向量层处理所述待识别文本信息，得到第二词向量；

利用快速梯度法对所述词向量层进行扰动处理，得到目标扰动量；

根据所述第二词向量和所述目标扰动量，生成所述第一词向量。

7.根据权利要求5或6所述的方法，其特征在于，所述编码向量包括多个时间步长的编码子向量；

其中，利用长短期记忆网络处理所述编码向量，得到多个隐藏状态信息，包括：

针对每个所述编码子向量，利用双向长短期记忆网络处理所述编码子向量，得到与所述编码子向量对应的隐藏状态信息。

8.根据权利要求1所述的方法，其特征在于，利用条件概率分布模型处理所述多个初始命名实体标签，得到与所述待识别文本信息对应的目标命名实体，包括：

利用条件随机场模型处理多个所述初始命名实体标签，得到输出序列，其中，所述输出序列包括i个字标签；

将标签序列概率最大值对应的初始命名实体标签确定为目标命名实体标签，以根据所述目标命名实体标签确定所述目标命名实体。

9.根据权利要求8所述的方法，其特征在于，根据第i字标签的目标概率权重和标签得分，生成标签序列概率，包括：

根据所述目标概率权重和标签得分，生成标签序列评分，其中，所述目标概率权重是根据实体标签从第i字标签转移到第i+1字标签的状态转移矩阵生成的转移概率权重，所述标签得分表征多个字标签的第i+1标签为第i+1字标签的得分；

利用预设序列概率函数处理所述标签序列评分，得到所述标签序列概率。

10.一种文本数据处理装置，其特征在于，所述装置包括：

获取模块，用于响应于数据处理指令，获取文本数据集，其中，所述文本数据集包括多个待识别文本信息；

对抗处理模块，用于针对每个所述待识别文本信息，基于对抗学习法，利用对抗训练编码层对所述待识别文本信息进行处理，得到与所述待识别文本信息对应的多个初始命名实体标签；

得到模块，用于利用条件概率分布模型处理所述多个初始命名实体标签，得到与所述待识别文本信息对应的目标命名实体，其中，目标命名实体抽取模型包括所述对抗训练编码层和所述条件概率分布模型；

合规判断模块，用于基于预设名称合规判断规则对所述目标命名实体的合规性进行判断，得到所述目标命名实体的合规性结果。

11.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序，

其特征在于，所述一个或多个处理器执行所述一个或多个计算机程序以实现根据权利要求1～9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现根据权利要求1～9中任一项所述方法的步骤。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现根据权利要求1～9中任一项所述方法的步骤。