CN115374782A

CN115374782A - 文本处理方法、装置、存储介质及电子设备

Info

Publication number: CN115374782A
Application number: CN202211072526.1A
Authority: CN
Inventors: 刘康; 李鉴学; 范潇; 杨明川
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-11-22

Abstract

本申请属于人工智能技术领域，涉及文本处理方法、装置、存储介质及电子设备。该方法包括：获取待处理文本，对所述待处理文本进行预处理和分词处理，以获取与所述待处理文本对应的分词向量序列；将所述分词向量序列输入至融合语言模型，通过所述融合语言模型对所述分词向量序列进行语义特征提取，以获取与所述待处理文本对应的目标词向量；其中，所述融合语言模型是基于Nezha模型、Bert模型和Roformer模型构建的。本申请能够通过融合语言模型充分挖掘待处理文本中隐藏的信息，提高语义特征提取和词向量的精准度。

Description

文本处理方法、装置、存储介质及电子设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种文本处理方法、文本处理系统、计算机存储介质及电子设备。

背景技术

随着各行业的发展以及人工智能的发展，每个行业出现了多种不同的业务类型，为了对各个业务类型的文本进行信息提取，并减少人力支出，人们开始采用各种语言模型对业务文本进行处理。

目前在对业务文本进行处理时，通常无法针对某一特定行业中各个业务类型对应的文本进行区分，并充分挖掘其中隐藏的信息，进而无法为满足用户相应地业务需求。另外在对模型进行训练时，通常需要大量标注的训练文本，但是标注需要耗费大量的人力物力，因此导致相应行业领域的文本数据太少，所训练的模型的性能较差。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本申请的背景的理解。

发明内容

本申请的目的在于提供一种文本处理方法、文本处理系统、计算机存储介质及电子设备，进而至少在一定程度上提高对各领域文本的识别精度和处理效率。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请的第一方面，提供一种文本处理方法，包括：

获取待处理文本，对所述待处理文本进行预处理和分词处理，以获取与所述待处理文本对应的分词向量序列；

将所述分词向量序列输入至融合语言模型，通过所述融合语言模型对所述分词向量序列进行语义特征提取，以获取与所述待处理文本对应的目标词向量；

其中，所述融合语言模型是基于Nezha模型、Bert模型和Roformer模型构建的。

根据本申请的第二方面，提供一种文本处理装置，包括：

文本处理模块，用于获取待处理文本，对所述待处理文本进行预处理和分词处理，以获取与所述待处理文本对应的分词向量序列；

模型处理模块，用于将所述分词向量序列输入至融合语言模型，通过所述融合语言模型对所述分词向量序列进行语义特征提取，以获取与所述待处理文本对应的目标词向量；

根据本申请的第三方面，提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的文本处理方法。

根据本申请的第四方面，提供一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述的文本处理方法。

由上述技术方案可知，本申请示例性实施例中的文本处理方法、文本处理装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

本申请中的文本处理方法，对待处理文本进行预处理和分词处理获取与待处理文本对应的分词向量序列后，可以通过融合语言模型对分词向量序列进行语义特征提取，以获取与待处理文本对应的目标词向量，该融合语言模型时基于Nezha模型、Bert模型和Roformer模型构建的。本申请实施例中，通过将Nezha模型、Bert模型和Roformer模型结合，能够使融合语言模型充分挖掘待处理文本中隐藏的信息，提高了语义特征提取的精准度，也提高了所确定的与文本对应的词向量的精准度，进而基于该词向量进行下游任务，提高下游任务的完成质量。

本申请应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了应用本申请实施例中文本处理方法的系统架构的结构示意图。

图2示意性地示出了本申请实施例中文本处理方法的流程示意图。

图3示意性地示出了本申请实施例中融合语言模型的结构示意图。

图4示意性地示出了本申请实施例中融合语言模型的结构示意图。

图5示意性地示出了本申请实施例中根据业务类型对文本进行分类的流程示意图。

图6示意性地示出了本申请实施例中对待训练融合语言模型进行训练的流程示意图。

图7示意性地示出了本申请中文本处理装置的结构框图。

图8示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请的相关技术中，对于存在多个不同业务类型的行业领域，需要从大量的文本中识别得到各个文本对应的业务类型，并针对不同业务类型的文本中挖掘隐藏的信息，用于指导下游任务。例如电信领域的文本数据有不同的业务类型，如大客户业务订单、国际互联协议IP虚拟专网、信息与通信技术ICT业务、互联网数据中心IDC订单、95专线等，当不同业务类型的文本混合在一起时，就需要将各个文本对应的业务类型进行区分，并针对每个业务类型的文本进行分析，提取其中隐藏的信息，并根据所提取的信息指导下游任务。但是当前在对文本进行语义特征提取时，通常采用单一的语言模型进行语义特征提取，导致所输出的与文本对应的词向量不够精准，进而根据输出的词向量无法准确确定业务类型并进行下游任务，另外，由于部分行业领域的训练文本数据量少，导致所训练的语言模型不够稳定、泛化力弱，进而导致所输出的词向量准确度差。

针对相关技术中存在的问题，本申请提出了一种文本处理方法。在对本申请实施例中的技术方案进行详细说明之前，首先对本申请实施例中可能涉及到的技术名词进行解释和说明。

(1)BERT模型：Bidirectional Encoder Representations from Transformers，是一种Transformer的双向编码器，旨在通过在左右上下文中共有的条件计算来预先训练来自无标号文本的深度双向表示。

(2)NEZHA模型：是基于预训练语言模型BERT的改进模型。

(3)Roformer模型，Rotary Transformer，主要是为Transformer结构设计了新的旋转式位置编码(Rotary Position Embedding，RoPE)。

(4)对比学习：Contrastive Learning，是自监督学习的一种。自监督学习属于无监督学习范式的一种。常见的机器学习大多数是有监督学习，特点是训练数据都有标注，而无监督学习解决的问题是数据没有标注的情况。

(5)对抗学习：Adversarial Learning，主要是用于样本生成或者对抗攻击领域。主要方法是通过添加鉴别器或者根据梯度回传生成新样本。其主要是为了提升当前主干模型生成样本的能力或者鲁棒性。

在介绍完本申请实施例中可能涉及到的技术名词后，对本申请中的文本处理方法进行详细说明。

图1示意性示出了应用本申请技术方案的示例性系统架构框图。

如图1所示，系统架构100可以包括终端设备101、服务器102和网络103。其中，终端设备101可以包括智能手机、平板电脑、笔记本电脑、台式电脑、智能电视、智能车载终端等各种具有显示屏幕的电子设备。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。网络103可以是能够在终端设备101和服务器102之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器可以是由多个服务器设备组成的服务器群组。

本申请实施例提供的技术方案可以应用于终端设备101或者服务器102，当由服务器102执行本申请中的文本处理方法时，该服务器可以是提供云计算服务的云服务器。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

下面结合具体实施方式对本申请提供的文本处理方法、文本处理装置、计算机可读介质以及电子设备等技术方案做出详细说明。

图2示出了文本处理方法的流程图，如图2所示，文本处理方法包括：

步骤S210：获取待处理文本，对所述待处理文本进行预处理和分词处理，以获取与所述待处理文本对应的分词向量序列；

步骤S220：将所述分词向量序列输入至融合语言模型，通过所述融合语言模型对所述分词向量序列进行语义特征提取，以获取与所述待处理文本对应的目标词向量；

本申请的文本处理方法，对待处理文本进行预处理和分词处理获取与待处理文本对应的分词向量序列后，可以通过融合语言模型对分词向量序列进行语义特征提取，以获取与待处理文本对应的目标词向量，该融合语言模型时基于Nezha模型、Bert模型和Roformer模型构建的。本申请实施例中，通过将Nezha模型、Bert模型和Roformer模型结合，能够使融合语言模型充分挖掘待处理文本中隐藏的信息，提高了语义特征提取的精准度，也提高了所确定的与文本对应的词向量的精准度，进而基于该词向量进行下游任务，提高下游任务的完成质量。

下面对图2所示的文本处理方法的各个步骤进行详细说明。

在步骤S210中，获取待处理文本，对所述待处理文本进行预处理和分词处理，以获取与所述待处理文本对应的分词向量序列。

在本申请的示例性实施例中，为了保证能够精准获取与待处理文本对应的融合了上下文语义的词向量，在获取待处理文本后，首先需要对待处理文本进行预处理，以将待处理文本中对语义特征提取存在干扰的因素剔除掉。该预处理具体可以包括文本标准化、文本清洗、词的清洗、拼写纠错等等，其中文本标准化可以是将全角字符转换为半角字符、大写字母转换为小写字母等等，文本清洗可以是将非文本内容剔除以及将标点符号进行过滤等等，词的清洗可以是将停用词、低频词等剔除，拼写纠错可以是对拼写、语法等进行纠错，当然还可以包含其它的预处理内容，例如将待处理文本中的重复数据删掉，等等。

在本申请的示例性实施例中，在完成对待处理文本的预处理之后，可以对预处理后的待处理文本进行分词处理，以获取与待处理文本对应的分词向量序列。在本申请实施例中，可以将预处理后的待处理文本输入至分词模型，通过分词模型对预处理后的待处理文本进行分词和向量化处理，以获取与预处理后待处理文本中各分词对应的分词向量，进一步地，可以根据各个分词的顺序和分词对应的分词向量构建得到分词向量序列。其中，该分词模型可以对输入至其中的预处理后的待处理文本进行分词，将待处理文本分成字、单词或者短语等词汇单位，然后再针对各个词汇单位对应的分词进行向量化处理，生成与各个分词对应的分词向量，例如预处理后的待处理文本为“今天的天气是多云”，通过分词处理得到“今天的天气是多云”，再通过向量化处理可以得到分词向量序列“Token1 Token2Token3 Token4 Token5”，其中Token1、Token2、Token3、Token4、Token5分别为与分词“今天”、“的”、“天气”、“是”、“多云”对应的分词向量。

在步骤S220中，将所述分词向量序列输入至融合语言模型，通过所述融合语言模型对所述分词向量序列进行语义特征提取，以获取与所述待处理文本对应的目标词向量；其中，所述融合语言模型是基于Nezha模型、Bert模型和Roformer模型构建的。

在本申请的示例性实施例中，由于获取分词向量序列的只是基于单独的分词所确定的向量，并未融合待处理文本的上下文语义，因而无法根据分词向量序列获取待处理文本中隐藏的信息。鉴于此，需要采用语言模型对分词向量序列进行处理，以获取与待处理文本对应的融合了上下文语义的词向量。本申请实施例中所采用的语言模型为融合语言模型，具体是基于Nezha模型、Bert模型和Roformer模型构建的语言模型，这Nezha模型、Bert模型和Roformer模型都是预训练语言模型，并且Nezha模型和Roformer模型都是使用了Bert预训练语言模型的结构和训练方式，预训练语言模型可以供其它任务进行迁移学习，在进一步预训练或者微调之后可以作为语义特征的提取器。

图3示意性示出了融合语言模型的结构示意图，如图3所示，融合语言模型300包括输入层301、第一语义解析单元302、第二语义解析单元303、模型融合层304、词向量转换层305和输出层306，其中，第一语义解析单元302和第二语义解析单元303并行设置，并同时与输入层301和模型融合层304连接。

其中，第一语义解析单元302包括依次连接的Roformer模型层302-1和第一Bert模型层302-2，第二语义解析单元303包括依次连接的第二Bert模型层303-1和Nezha模型层303-2，词向量转换层305包括注意力层305-1和转换层305-2，如图4所示。

基于图3和图4所示的融合语言模型的结构示意图，获取与待处理文本对应的融合了上下文语义信息的目标词向量的流程具体为：将分词向量序列通过输入层301分别输入至第一语义解析单元302和第二语义解析单元303，通过第一语义解析单元302和第二语义解析单元303分别对分词向量序列进行语义特征提取，以获取第一词向量和第二词向量；接着第一语义解析单元302将第一词向量输出至模型融合层304，第二语义解析单元303将第二词向量输出至模型融合层304，通过模型融合层304对第一词向量和第二词向量进行融合，以获取融合词向量；最后模型融合层304将融合词向量输出至词向量转换层305，通过词向量转换层305基于注意力机制对融合词向量进行处理，以获取目标词向量。

具体地，在将分词向量序列输入至输入层时，在分词向量序列中添加标志位，例如在起始位置添加[CLS]，在每个分词对应的分词向量之间添加[SEP]进行分隔，以及在终止位置添加[SEP]，如图4中所示的“[CLS]Token1[SEP]Token2[SEP]……Token N[SEP]”，其中N为正整数。

在将分词向量序列输入至输入层301后，输入层301将分词向量序列分别输送至第一语义解析单元302中的Roformer模型层302-1和第二语义解析单元303中的第二Bert模型层303-1，Roformer模型层302-1根据分词向量序列中各个分词向量的位置能够构建与其对应的旋转位置编码，接着分词向量序列和旋转位置编码被输入至第一Bert模型层，通过第一Bert模型层根据旋转位置编码对分词向量序列进行语义特征提取，以获取第一词向量，该第一词向量包括基于旋转位置编码所确定的与预处理后的待处理文本中各分词对应的词向量；同时，第二Bert模型层接收到分词向量序列后，能够对分词向量序列进行语义特征提取，以获取初始词向量，接着该初始词向量被输入至Nezha模型层303-2，通过Nezha模型层303-2对初始词向量进行处理，以获取相对位置编码，并基于相对位置编码对初始词向量进行语义特征提取，以获取第二词向量，该第二词向量包括基于相对位置编码所确定的与预处理后的待处理文本中各分词对应的词向量。在本申请的实施例中，第一Bert模型层和第二Bert模型层的结构一样，都是由多个双向Transformer单元构成的Bert骨干网络。

模型融合层304接收到第一词向量和第二词向量后，能够对第一词向量和第二词向量中对应同一分词的词向量进行融合处理，以获取融合词向量，该融合处理具体可以是相加或者拼接，当然还可以是其它的处理方法，本申请实施例对此不作具体限定。该融合词向量包含了与预处理后待处理文本中各分词对应的嵌入词向量，如图4中所示的Embed1、Embed2、Embed3、……、Embed N。

融合词向量由模型融合层304输出到词向量转换层305后，首先通过注意力层305-1基于注意力机制确定与融合词向量中各嵌入词向量对应的注意力权重α1、α2、α3、……、αN，接着通过转换层305-2根据各个嵌入词向量和对应的注意力权重进行加权平均，以获取目标词向量。其中，之所以基于注意力机制确定与各嵌入词向量对应的注意力权重是由于不同分词对于目标词向量的贡献是不同的，因此需要计算每个分词对应的注意力权重。

本申请实施例中的融合语言模型在进行语义特征提取时，综合考虑了Nezha模型生成的相对位置编码和Roformer模型生成的旋转位置编码，相对于仅基于绝对位置编码进行语义特征提取，本申请从相对位置编码和旋转位置编码两个维度对分词向量序列进行特征提取，并通过融合实现模型见更充分的信息交互，从而使得生成的词向量的质量更高。

在本申请的示例性实施例中，虽然融合语言模型是基于Nezha模型、Roformer模型和Bert模型构建的，并且Nezha模型、Roformer模型和Bert模型都是预训练语言模型，可以直接进行迁移学习，但是为了提高融合语言模型多不同领域文本的分析精度，在将与预处理后的待处理文本对应的分词向量序列输入至融合语言模型之前，还需要根据相关领域的文本对待训练融合语言模型进行训练，以获取可直接用于该领域的融合语言模型。

在本申请的示例性实施例中，在对待训练融合语言模型进行训练时，首先获取文本样本，对文本样本进行预处理和分词处理，以获取与文本样本对应的分词向量样本序列，接着根据分词向量样本序列对待训练融合语言模型进行对比训练和对抗训练，以获取融合语言模型。

对于部分行业或者部分领域，文本数据量较少，以及正样本和负样本的比例失衡，那么模型的训练效果就比较差，可能存在过拟合或者欠拟合的问题，所以针对文本数据量较少的情况，如何实现文本增强是亟需解决的一个问题。

在本申请的示例性实施例中，采用负采样技术和老师-学生模型实现文本增强。在大量文本中，需要对每个文本进行分类，然后再根据每一类的文本构建正文本样本和负文本样本，其中在对文本进行分类时，可以根据业务类型、行业等进行分类，例如在电信行业，会有多种业务，比如大客户业务订单、IP虚拟专网、IDC订单等等，那么就可以根据这些业务类型对文本进行分类并进行文本增强。

在本申请的示例性实施例中，在对大量文本进行分类时，可以根据仅有的标注文本和大量的未标注文本进行分类，图5示出了根据业务类型对文本进行分类的流程示意图，如图5所示，在步骤S501中，获取标注文本、与所述标注文本对应的分类信息和未标注文本，根据所述标注文本和所述分类信息对待训练文本分类模型进行训练，以获取文本分类模型，所述待训练文本分类模型是基于所述待训练融合语言模型构建的；在步骤S502中，将未标注文本输入至所述文本分类模型，通过所述文本分类模型对所述未标注文本进行特征提取，以获取与所述未标注文本对应的分类信息；在步骤S503中，根据所述分类信息将所述标注文本和所述未标注文本划分为多个文本集，并根据所述多个文本集确定所述文本样本。

举例而言，标注文本对应的分类信息有：大客户业务订单、IP虚拟专网、ICT业务、IDC订单和95专线五类，通过根据标注文本和各标注文本对应的分类信息可以训练得到文本分类模型，该文本分类模型可以对未标注文本对应的业务类型进行识别，以实现对未标注文本的自动标注，这样就可以获得大量的标注文本，同时，还可以用获取的标注文本对文本分类模型进行再训练，以提高文本分类模型的稳定性和聚类效果。

在本申请的示例性实施例中，在通过老师-学生的自动标注技术实现对大量未标注文本进行自动标注，获取大量标注文本之后，可以根据每个文本对应的标注信息将所有的文本划分为多个文本集，比如业务类型为“大客户业务订单”的文本集、业务类型为“IDC订单”的文本集等等。进一步地，可以针对目标业务类型的文本集确定文本样本，具体地，可以获取与目标业务类型对应的文本集中的文本作为正文本样本，获取与目标业务类型不对应的文本集中的文本作为负文本样本，那么根据确定的正文本样本和负文本样本即可构建形成文本样本，用于对待训练融合语言模型进行训练。

在本申请的示例性实施例中，待训练文本分类模型是基于待训练融合语言模型构建的，具体地，可以在待训练融合语言模型的词向量转换层和输出层之间设置一分类层，在得到与输入的文本对应的词向量之后，对词向量所对应的业务类型进行分类并输出分类信息即可。

在本申请的示例性实施例中，对待训练融合语言模型进行训练时，采用对比学习和对抗学习结合的无监督训练方法，并且在训练时对比学习和对抗学习是同时进行的。图6示意性示出了对待训练融合语言模型进行训练的流程示意图，如图6所示，在步骤S601中，获取与目标文本样本对应的第一分词向量序列，根据所述第一分词向量序列生成正样本对；在步骤S602中，获取与非目标文本样本对应的第二分词向量序列，根据所述第二分词向量序列生成负样本；在步骤S603中，根据所述目标文本样本、所述正样本对和所述负样本对所述待训练融合语言模型进行对比训练，并在进行所述对比训练的同时，对所述待训练融合语言模型中的参数进行快速梯度上升处理，以对所述待训练融合语言模型进行对抗训练。

其中，在步骤S601中，对比学习使用预训练语言模型中自带的Dropout层作为增强手段得到不同的句子表示，在本申请的实施例中，可以将目标文本样本分两次输入待训练融合语言模型，由于每次输入时，Dropout层随机删掉的神经元不同，因此会得到两组不同的词向量，由于该两组词向量都是对应于目标文本样本，因此可以根据该两组词向量构建得到与目标文本样本对应的正样本对，同时可以将非目标文本样本输入至待训练融合语言模型，以得到与非目标文本样本对应的词向量，并可以将该词向量作为负样本。在获取正样本对和负样本后，可以根据正样本对中的任意一组词向量和负样本构建得到正负样本对，这样可以根据正样本对和正负样本对对待训练融合语言模型进行对抗训练，对比学习对应的损失函数为infoNCE loss，具体表达式如公式(1)所示：

其中，q、q’为正样本对中的两组词向量，k_i为负样本，N为负样本的总量，τ为温度系数。

从公式(1)可知，分子中只计算正样本对的距离，负样本只会在对比损失的分母中出现，当正样本对距离越小，负样本对距离越大时，损失越小。对比学习仅需要误标注的文本数据，不需要进行任何的标注信息，因此在标注文本数量不足的情况下，极大地提升了融合语言模型的效果。

在进行对比学习的同时，还进行了对抗学习，对抗学习是对融合语言模型中的参数在梯度方向上添加扰动，从而对模型进行正则化，这样可以缓解鲁棒性差的问题，降低模型过拟合的概率，进一步提升模型的泛化能力。其中添加扰动具体可以是基于快速梯度上升实现的，至于快速梯度上升的具体流程在此不再赘述。

本申请中的文本处理方法可以应用于任何行业，例如建筑行业、医疗行业、教育行业、电信行业，等等。为了使本申请中的文本处理方法更清楚，接下来以电信行业为例对本申请的文本处理方法进行具体说明。

在获取大量电信行业的文本后，可以从中提取已标注的文本，如果不存在标注文本，那么可以对少量的文本进行人工标注，然后采用标注文本对基于待训练融合语言模型构建的待训练文本分类模型进行训练，并采用训练后的文本分类模型对未标注文本对应的业务类型进行预测，以将大量电信行业的文本分为多个对应不同业务类型的文本集。

接着，从多个业务类型中确定目标业务类型，例如ICT业务，并从多个对应不同业务类型的文本集中获取与目标业务类型对应的文本集，并将该文本集中的文本作为正文本样本，将其它业务类型对应的文本集中的文本作为负文本样本，并根据正文本样本和负文本样本构建文本样本，用于对待训练融合语言模型进行训练。

然后，根据文本样本训练待训练融合语言模型，在训练时采用对比学习和对抗学习的方法进行模型训练，以获取性能稳定的融合语言模型。

最后，在获取新的电信行业的文本后，可以采用训练好的文本分类模型对该些文本对应的业务类型进行预测，以获取对应ICT业务的文本，并采用训练好的融合语言模型对ICT业务的文本进行语义特征提取，以获取对应的词向量，进一步地，可以根据获取的词向量进行下游任务，例如构建知识图谱、文本意图分析等等，以优化用户服务，提高用户服务体验。

本申请实施例中的文本处理方法，对待处理文本进行预处理和分词处理获取与待处理文本对应的分词向量序列后，可以通过融合语言模型对分词向量序列进行语义特征提取，以获取与待处理文本对应的目标词向量，该融合语言模型时基于Nezha模型、Bert模型和Roformer模型构建的。本申请实施例中，通过将Nezha模型、Bert模型和Roformer模型结合，以Bert模型作为参数共享层，实现参数共享和模型融合，提高了模型间的信息交流，这样能够使融合语言模型充分挖掘待处理文本中隐藏的信息，提高了语义特征提取的精准度，也提高了所确定的与文本对应的词向量的精准度，进而基于该词向量进行下游任务，提高下游任务的完成质量。另外，本申请中的文本处理方法中采用负采样和老师-学生模型进行文本增强，并采用对抗学习和对比学习对融合语言模型进行训练，减少了标注成本、提高了文本量，并且使用参数共享和模型融合的方式实现了模型间的信息交流，提升了融合语言模型的有效性和泛化性，进而有效解决了各行各业在数据挖掘和分析领域的编码问题。

本申请还提供了一种文本处理装置，图7示出了文本处理装置的结构示意图，如图7所示，文本处理装置700可以包括文本处理模块701和模型处理模块702。其中：

文本处理模块701，用于获取待处理文本，对所述待处理文本进行预处理和分词处理，以获取与所述待处理文本对应的分词向量序列；

模型处理模块702，用于将所述分词向量序列输入至融合语言模型，通过所述融合语言模型对所述分词向量序列进行语义特征提取，以获取与所述待处理文本对应的目标词向量；

在本申请的一个实施例中，所述文本处理模块701配置为：

将预处理后的所述待处理文本输入至分词模型，通过所述分词模型对所述预处理后的待处理文本进行分词和向量化处理，以获取与所述预处理后的待处理文本中各分词对应的分词向量；

根据各所述分词的顺序和各所述分词对应的分词向量构建所述分词向量序列。

在本申请的一个实施例中，所述融合语言模型包括输入层、第一语义解析单元、第二语义解析单元、模型融合层、词向量转换层和输出层；所述模型处理模块702包括：

第一处理单元，用于通过所述输入层将所述分词向量序列分别输入至所述第一语义解析单元和所述第二语义解析单元，通过所述第一语义解析单元和所述第二语义解析单元分别对所述分词向量序列进行语义特征提取，以获取第一词向量和第二词向量；

第二处理单元，用于通过所述模型融合层对所述第一词向量和所述第二词向量进行融合，以获取融合词向量；

第三处理单元，用于通过所述词向量转换层基于注意力机制对所述融合词向量进行处理，以获取所述目标词向量。

在本申请的一个实施例中，所述第一语义解析单元包括依次连接的Roformer模型层和第一Bert模型层；所述第一处理单元配置为：

通过所述Roformer模型层根据所述分词向量序列中各分词向量所对应的位置构建旋转位置编码；

将所述分词向量序列和所述旋转位置编码输入至所述第一Bert模型层，通过所述第一Bert模型层根据所述旋转位置编码对所述分词向量序列进行语义特征提取，以获取所述第一词向量。

在本申请的一个实施例中，所述第二语义解析单元包括依次连接的第二Bert模型层和Nezha模型层；所述第一处理单元配置为：

将所述分词向量序列输入至所述第二Bert模型层，通过所述第二Bert模型层对所述分词向量序列进行语义特征提取，以获取初始词向量；

将所述初始词向量输入至所述Nezha模型层，通过所述Nezha模型层对所述初始词向量进行处理，以获取相对位置编码，并基于所述相对位置编码对所述初始词向量进行语义特征提取，以获取所述第二词向量。

在本申请的示例性实施例中，所述第二处理单元配置为：

将所述第一词向量和所述第二词向量中对应同一分词的词向量相加或拼接，以获取所述融合词向量。

在本申请的示例性实施例中，所述融合词向量包括与各所述分词对应的嵌入词向量，所述词向量转换层包括注意力层和转换层；所述第三处理单元配置为：

通过所述注意力层基于注意力机制确定与各所述嵌入词向量对应的注意力权重；

通过所述转换层根据各所述嵌入词向量和与各所述嵌入词向量对应的所述注意力权重进行加权平均，以获取所述目标词向量。

在本申请的示例性实施例中，所述文本处理装置700还包括：

样本获取模块，用于在将所述分词向量序列输入至融合语言模型之前，获取文本样本，对所述文本样本进行所述预处理和所述分词处理，以获取与所述文本样本对应的分词向量样本序列；

模型训练模块，用于根据所述分词向量样本序列对待训练融合语言模型进行对比训练和对抗训练，以获取所述融合语言模型。

在本申请的示例性实施例中，所述样本获取模块配置为：

获取标注文本、与所述标注文本对应的分类信息和未标注文本，根据所述标注文本和所述分类信息对待训练文本分类模型进行训练，以获取文本分类模型，所述待训练文本分类模型是基于所述待训练融合语言模型构建的；

将未标注文本输入至所述文本分类模型，通过所述文本分类模型对所述未标注文本进行特征提取，以获取与所述未标注文本对应的分类信息；

根据所述分类信息将所述标注文本和所述未标注文本划分为多个文本集，并根据所述多个文本集确定所述文本样本。

在本申请的示例性实施例中，所述分类信息为业务类型；所述根据所述多个文本集确定所述文本样本，配置为：

获取与目标业务类型对应的文本集中的文本作为正文本样本，获取与所述目标业务类型不对应的文本集中的文本作为负文本样本；

根据所述正文本样本和所述负文本样本构建所述文本样本。

在本申请的示例性实施例中，所述模型训练模块包括：

正样本生成单元，用于获取与目标文本样本对应的第一分词向量序列，根据所述第一分词向量序列生成正样本对；

负样本生成单元，用于获取与非目标文本样本对应的第二分词向量序列，根据所述第二分词向量序列生成负样本；

训练单元，用于根据所述目标文本样本、所述正样本对和所述负样本对所述待训练融合语言模型进行对比训练，并在进行所述对比训练的同时，对所述待训练融合语言模型中的参数进行快速梯度上升处理，以对所述待训练融合语言模型进行对抗训练。

在本申请的示例性实施例中，所述正样本生成单元配置为：

将所述第一分词向量序列输入至所述待训练融合语言模型两次，以获取两组与所述目标文本样本对应的词向量，根据所获取的两组词向量构建所述正样本对。

在本申请的示例性实施例中，所述训练单元配置为：

根据所述正样本对中的一个正样本和所述负样本构建正负样本对；

根据所述目标文本样本、所述正负样本对和所述正样本对对所述待训练融合语言模型进行对比训练。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。

图8示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图，该电子设备可以是设置于终端设备或服务器中。

需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理器801(Central Processing Unit，CPU)，其可以根据存储在只读存储器802(Read-Only Memory，ROM)中的程序或者从存储部分808加载到随机访问存储器803(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器803中，还存储有系统操作所需的各种程序和数据。中央处理器801、在只读存储器802以及随机访问存储器803通过总线804彼此相连。输入/输出接口805(Input/Output接口，即I/O接口)也连接至总线804。

在一些实施例中，以下部件连接至输入/输出接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid CrystalDisplay，LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理器801执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台电子设备执行根据本申请实施方式的方法。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理文本进行预处理和分词处理，以获取分词向量序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述融合语言模型包括输入层、第一语义解析单元、第二语义解析单元、模型融合层、词向量转换层和输出层；

所述将所述分词向量序列输入至融合语言模型，通过所述融合语言模型对所述分词向量序列进行语义特征提取，以获取与所述待处理文本对应的目标词向量，包括：

通过所述输入层将所述分词向量序列分别输入至所述第一语义解析单元和所述第二语义解析单元，通过所述第一语义解析单元和所述第二语义解析单元分别对所述分词向量序列进行语义特征提取，以获取第一词向量和第二词向量；

通过所述模型融合层对所述第一词向量和所述第二词向量进行融合，以获取融合词向量；

通过所述词向量转换层基于注意力机制对所述融合词向量进行处理，以获取所述目标词向量。

4.根据权利要求3所述的方法，其特征在于，所述第一语义解析单元包括依次连接的Roformer模型层和第一Bert模型层；

所述通过所述第一语义解析单元对所述分词向量序列进行语义特征提取，以获取第一词向量，包括：

5.根据权利要求3中所述的方法，其特征在于，所述第二语义解析单元包括依次连接的第二Bert模型层和Nezha模型层；

所述通过所述第二语义解析单元对所述分词向量序列进行语义特征提取，以获取第二词向量，包括：

6.根据权利要求3所述的方法，其特征在于，所述通过所述模型融合层对所述第一词向量和所述第二词向量进行融合，以获取融合词向量，包括：

7.根据权利要求3所述的方法，其特征在于，所述融合词向量包括与各所述分词对应的嵌入词向量，所述词向量转换层包括注意力层和转换层；

所述通过所述词向量转换层基于注意力机制对所述融合词向量进行处理，以获取所述目标词向量，包括：

8.根据权利要求1所述的方法，其特征在于，在将所述分词向量序列输入至融合语言模型之前，所述方法还包括：

获取文本样本，对所述文本样本进行所述预处理和所述分词处理，以获取与所述文本样本对应的分词向量样本序列；

根据所述分词向量样本序列对待训练融合语言模型进行对比训练和对抗训练，以获取所述融合语言模型。

9.根据权利要求8所述的方法，其特征在于，所述获取文本样本，包括：

10.根据权利要求9所述的方法，其特征在于，所述分类信息为业务类型；

所述根据所述多个文本集确定所述文本样本，包括：

根据所述正文本样本和所述负文本样本构建所述文本样本。

11.根据权利要求8所述的方法，其特征在于，所述根据所述分词向量样本序列对待训练融合语言模型进行对比训练和对抗训练，以获取所述融合语言模型，包括：

获取与目标文本样本对应的第一分词向量序列，根据所述第一分词向量序列生成正样本对；

获取与非目标文本样本对应的第二分词向量序列，根据所述第二分词向量序列生成负样本；

根据所述目标文本样本、所述正样本对和所述负样本对所述待训练融合语言模型进行对比训练，并在进行所述对比训练的同时，对所述待训练融合语言模型中的参数进行快速梯度上升处理，以对所述待训练融合语言模型进行对抗训练。

12.根据权利要求11所述的方法，其特征在于，所述根据所述第一分词向量序列生成正样本对，包括：

13.根据权利要求11所述的方法，其特征在于，所述根据所述目标文本样本、所述正样本对和所述负样本对所述待训练融合语言模型进行对比训练，包括：

14.一种文本处理装置，其特征在于，包括：

15.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～13中任意一项所述的文本处理方法。

16.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～13中任意一项所述的文本处理方法。