CN114328909A - 文本处理方法、相关设备、存储介质及计算机程序产品 - Google Patents

文本处理方法、相关设备、存储介质及计算机程序产品 Download PDF

Info

Publication number
CN114328909A
CN114328909A CN202111344591.0A CN202111344591A CN114328909A CN 114328909 A CN114328909 A CN 114328909A CN 202111344591 A CN202111344591 A CN 202111344591A CN 114328909 A CN114328909 A CN 114328909A
Authority
CN
China
Prior art keywords
text
feature
features
data
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111344591.0A
Other languages
English (en)
Other versions
CN114328909B (zh
Inventor
铁瑞雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111344591.0A priority Critical patent/CN114328909B/zh
Publication of CN114328909A publication Critical patent/CN114328909A/zh
Application granted granted Critical
Publication of CN114328909B publication Critical patent/CN114328909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本处理方法、相关设备、存储介质及计算机程序产品,其中方法包括:获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,所述待处理文本是在目标业务下产生的,所述结构化数据是指与所述目标业务相关的具有结构化特点的数据;对所述句法结构特征、文本特征及所述结构化特征进行特征融合处理,得到融合特征;基于所述融合特征对所述待处理文本进行文本分类,可以提升文本分类的准确度。

Description

文本处理方法、相关设备、存储介质及计算机程序产品
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、相关设备、存储介质及计算机程序产品。
背景技术
计算机技术的迅猛发展使得计算机设备能够对文本数据进行多样化的文本处理,如对文本数据进行语义识别、文本分类、以及根据文本数据进行情感识别等。目前在对文本数据进行处理时,通常是从文本数据本身出发的,比如:调用用于文本分类或者文本识别的深度学习模型提取文本数据的整体表征,然后基于文本数据的整体表征进行文本分类、语义识别等处理。但是,从文本本身出发提取到的整体特征在信息表达上比较有限,从而可能影响文本处理结果(如:文本分类)的准确性。因此,如何提升文本分类的准确度成了当前的研究热点。
发明内容
本申请实施例提供了一种文本处理方法、相关设备、存储介质及计算机程序产品,可提升文本分类的准确度。
一方面,本申请实施例提供了一种文本处理方法,包括:
获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;
对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;
基于融合特征对待处理文本进行文本分类。
一方面,本申请实施例提供了一种文本处理装置,包括:
获取单元,用于获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;
处理单元,用于对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;
分类单元,用于基于融合特征对待处理文本进行文本分类。
在一种实施方式中,待处理文本包括一个或多个文本字符,获取单元具体用于执行:
采用文本分类模型对待处理文本进行句法结构分析,得到每个文本字符的依存角色;
获取每个文本字符的依存角色对应的特征值,并基于获取到的特征值生成待处理文本的句法结构特征。
在又一种实施方式中,结构化数据包括一个或多个数据对象;获取单元还具体用于执行:
调用文本分类模型对结构化数据中每个数据对象进行预处理,得到每个数据对象的对象特征;
基于每个数据对象的对象特征以及特征向量化规则,对每个数据对象进行向量化处理,得到每个数据对象对应的特征向量;
基于每个数据对象对应的特征向量进行预设运算,得到结构化数据的结构化特征。
在又一种实施方式中,文本分类模型包括文本特征提取网络,获取单元还具体用于执行:
调用文本特征提取网络分别对待处理文本进行词法特征提取、句法特征提取以及语义特征提取,得到待处理文本对应词法特征、句法特征以及语义特征;
基于待处理文本对应的词法特征、句法特征以及语义特征,确定待处理文本的文本特征。
在又一种实施方式中,文本特征是调用文本特征提取网络对待处理文本进行特征提取得到的,文本特征提取网络是基于训练文本进行训练得到的,或者文本特征提取网络是基于训练文本和训练文本对应的句法结构特征训练得到的。
在又一种实施方式中,文本处理装置还包括训练单元,训练单元用于执行:
获取训练数据,训练数据包括:训练文本、与训练文本相关的结构化训练数据,以及训练文本对应的文本分类标签;
采用文本分类模型对训练文本进行文本分析处理,得到训练文本的句法结构特征及文本特征,并采用文本分类模型对结构化训练数据进行特征提取处理,得到结构化训练数据的结构化特征;
对训练文本的句法结构特征及文本特征,以及结构化训练数据的结构化特征进行融合处理,得到目标训练特征;
基于目标训练特征对训练文本进行文本分类处理,得到训练文本的预测分类标签;
基于预测分类标签与文本分类标签之间的差异信息,调整文本分类模型的模型参数。
在又一种实施方式中,结构化训练数据的结构化特征是文本分类模型基于特征向量化规则进行特征提取处理得到的;特征向量化规则包括一个或多个参数,模型参数包括每个依存角色对应的特征值,以及特征向量化规则中的每个参数;训练单元还可以具体用于执行:
基于预测分类标签与文本分类标签之间的差异信息,对依存角色对应的特征值以及特征向量化规则中的每个参数进行调整。
一方面,本申请实施例还提供了一种计算机设备,包括:
处理器,适于实现一条或多条计算机程序;
计算机存储介质,计算机存储介质存储有一条或多条计算机程序,一条或多条计算机程序适于由处理器加载并执行:
获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;基于融合特征对待处理文本进行文本分类。
一方面,本申请实施例还提供了一种计算机存储介质,计算机存储介质存储有一条或多条计算机程序,一条或多条计算机程序适于由处理器加载并执行:
获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;基于融合特征对待处理文本进行文本分类。
一方面,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品包括计算机程序,计算机程序适于由处理器加载并执行:
获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;基于融合特征对待处理文本进行文本分类。
在本申请实施例中,由于计算机设备在对待处理文本进行文本分类时,是基于待处理文本的句法结构特征及文本特征,以及结构化数据的结构化特征联合进行的,其中,结构化数据是指待处理文本所在目标业务中具有结构化特点的数据,在文本处理过程中引入结构化数据可以有效地引入结构化的先验知识,从而可以在一定程度上提升计算机设备进行文本分类的准确度。此外,将句法结构特征、文本特征及结构化特征进行特征融合处理,并基于特征融合处理后的融合文本特征进行文本分类,可以使得计算机设备获取到待处理文本中的更多关联性特征,因此计算机设备采用本申请实施例提出的文本分类方法还可以有效提升计算机设备的泛化能力。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本分类系统的示意图;
图2是本申请实施例提供的一种文本处理方法的示意流程图;
图3是本申请实施例提供的又一种文本处理方法的示意流程图;
图4a是本申请实施例提供的一种句法依存关系的示意图;
图4b是本申请实施例提供的一种句法依存向量的示意图;
图5a是本申请实施例提供的一种文本分类的示意流程图;
图5b是本申请实施例提供的一种Transformer的框架示意图;
图5c是本申请实施例提供的一种获取字符特征的示意流程图;
图6是本申请实施例提供的一种文本处理装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
在进行文本处理时,若从待处理文本本身出发去获取待处理文本的文本特征,容易导致该文本特征对待处理文本的特征表示能力不够强大,从而导致文本处理结果的准确度得不到保障。基于此,本申请提出结合句法结构特征、文本特征,以及结构化特征进行文本处理,从而提升文本处理结果的准确性。在研究过程中,本申请实施例提出了第一种文本处理方案,该方案指出:可以将文本处理分为两个阶段进行。其中,第一阶段先对结构化数据进行特征提取处理,然后采用机器学习模型基于得到的结构化特征进行文本处理,得到初步的文本处理结果;第二阶段先对初步的文本处理结果进行筛选,然后基于筛选后的文本处理结果以及非结构化数据,进行非结构化任务。具体地,可以采用深度学习模型基于筛选后的文本处理结果和非结构化数据进行进一步的文本处理。其中,上述提及的机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
研究结果表明,虽然上述文本处理方案在一定程度上可以提升文本处理结果的准确度,但是由于整个文本处理过程被分为了两个阶段,且第二个阶段会参考第一阶段的输出数据,因此,导致这种文本处理方式极易发生错误级联传播的问题,从而对文本处理结果的准确度造成一定影响,进一步导致文本处理结果的准确度不稳定。此外,由于第一个阶段多是采用机器学习模型,需要相关人员手动构建大量的特征,并且这些特征的表征能力有限,因此,第一种文本处理方案的准确度并没有得到较大程度的提升,反而使得整个文本处理过程的难度得到了提升。又由于第二阶段采用深度学习模型作为特征抽取器(在文本领域一般采用transformer作为特征抽取器),表征能力十分强大,但是在Embedding输入(即:向量化输入)时往往只考虑了待处理文本的词法、位置层面的表征,缺乏句法结构特征的显式引入,因此,第一种文本处理方案中对于待处理文本的特征表示依然不够全面。
基于上述文本处理方案以及该方案的缺陷,本申请实施例提供了另一种文本处理方案,该方案指出:可以将结构化特征、句法结构特征及文本特征进行联合处理,可以减少两个文本处理阶段的文本处理结果融合时的规则堆砌,从而降低级联错误。具体来说,该方案提出:可以通过对待处理文本的句法结构特征及文本特征,以及与该待处理文本相关的结构化特征进行特征融合,以基于特征融合后得到的融合文本特征对待处理文本进行文本处理(如:文本分类),从而达到有效避免错误的级联传播,以进一步提升文本分类的准确性的目的。其中,待处理文本可以是在目标业务下产生的文本数据,如:在文本情感分类业务中产生的文本数据,或在商品分类业务中产生的文本数据等。需要说明的是,在具体应用中,待处理文本可以是单个的文本句子,也可以是多个文本句子组成的文本段落,本申请对此不做限制。
可选地,上述提及的文本特征可以指:待处理文本中某个文本字符的词性(如:名词、动词、介词等)、待处理文本的句法类型(如:陈述句、感叹句、疑问句等),以及待处理文本表达的语义信息等。可选地,上述提及的句法结构特征具体可以指:待处理文本中各词语之间的句法结构关系,或者,待处理文本中各文本字符之间的句法结构关系。其中,句法结构关系包括但不限于:动宾关系、主谓关系、核心关系等。那么,基于上述描述不难理解,文本特征可以包括以下任意一种或多种:词法特征、句法特征,以及语义特征等。此外,上述提及的结构化特征可以是对结构化数据进行特征提取后得到的,结构化数据是指:与目标业务相关的、具有结构化特点的数据。那么,基于此不难理解,结构化特征可以用于描述:与待处理文本相关的词语(或文本字符)之间的结构关系。举例来说,若目标业务为商品情感分类业务,那么,待处理文本可以是任意用户对于某个商品的文本评论,结构化数据则可以包括商品名称及该商品所属的商品类别、该商品对应的评论数据等,当然,结构化数据还可以包括该任意用户的历史评论数据,该任意用户的用户属性(如:性别、年龄、职业等)等。那么,基于此,结构化数据的结构化特征可以用于描述商品名称与商品类别之间的从属关系,还可以用于描述用户性别与商品类别之间的关系等。
在一个实施例中,上述提及的文本处理方案可以由计算机设备单独执行,计算机设备可以是终端设备,还可以是服务器,本申请对此不做限制。基于此,本申请实施例提供的文本处理方案的大致流程可以如下:计算机设备对待处理文本进行整体表征,得到该待处理文本的文本特征;计算机设备对待处理文本进行句法结构分析,以对待处理文本中每个文本字符的依存角色进行向量化表征,从而得到该待处理文本的句法结构特征。进一步地,计算机设备可以对与待处理文本的目标业务相关的结构化数据进行特征提取处理,以得到该结构化数据的结构化特征。进一步地,计算机设备可以对获取到的文本特征、句法结构特征及结构化特征进行特征融合处理,进而基于特征融合后的特征对待处理文本进行文本分类。
在又一个实施例中,上述提及的文本处理方案还可以应用于如图1所示的文本分类系统中。如图1所示,该文本分类系统包括终端设备10以及服务器11,终端设备10与服务器11建立有通信连接。在此情况下,上述提及的文本处理方案可以由终端设备10和服务器11协同执行。具体地,可以由终端设备10向服务器11发送待处理文本以及结构化数据,进一步地,由服务器11对接收到的待处理文本进行特征提取处理,得到该待处理文本的句法结构特征及文本特征,并由服务器11对接收到的结构化数据进行特征提取,得到该结构化数据的结构化特征。进一步地,服务器11可以对结构化特征、句法结构特征及文本特征进行特征融合处理,并基于特征融合处理后的特征对待处理文本进行文本分类。可选地,服务器11可以将待处理文本的文本分类结果发送至终端设备10,其中,示例性地,文本分类结果可以是待处理文本的预测文本分类。
需要说明的是,为了便于说明,在无特殊说明的情况下,以下均以计算机设备单独执行上述文本处理方案为例进行说明。此外,还需要说明的是,上述提及的终端设备可以包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、车载终端、智能电视等;终端设备内可运行各式各样的客户端(application,APP),如多媒体播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端,等等。此外,上述提及的服务器可以包括但不限于:独立的物理服务器,多个物理服务器构成的服务器集群或者分布式系统,以及提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等,本申请对此不作限制。
基于上述数据处理方案,本申请实施例提出了一种文本处理方法,其示意流程图可参见图2所示。不难理解,该文本处理方法可以由上述提及的计算机设备来执行。如图2所示,该方法包括步骤S201-S203:
S201,获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征。
其中,基于前述描述可知,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据。示例性地,目标业务可以是文本分类业务、文本语义识别业务、文本转换任务等。此外,需要说明的是,上述提及的待处理文本本质上为非结构化数据,所谓的非结构化数据是指:没有按照预定义的方式组织的数据,除文本数据(即:待处理文本)外的非结构数据之外,如图像数据、音频数据等,也是非结构化数据。在实际应用中,常采用深度学习模型对非结构数据进行特征提取,具体如:采用NLP(NaturalLanguage Processing,自然语言处理)技术抽取文本数据的高级语义表征,进而将高级语义表征应用在下游任务(如:文本分类、文本语义识别等)中。那么,基于上述描述不难理解,计算机设备对待处理文本进行特征提取处理,可以得到用于对待处理文本进行文本分类的句法结构特征及文本特征。其中,文本特征可以包括以下任意一种或多种:词法特征、句法特征和语义特征。
对应地,结构化数据是指可以用二维表结构来逻辑表达实现的数据,其可以包括一个或多个数据对象。其中,每个数据对象可以对应一个或多个初始对象特征,并且数据对象与其对应的初始对象特征之间具有清晰的、可定义的关系。以结构化数据为企业财务数据为例,其包括的数据对象可以为财务支出,那么,该数据对象对应的初始对象特征可以为一笔具体的支出(如:X年X月X日支出XX元)。在实际应用中,计算机设备常采用机器学习的方法对结构化数据进行数据处理,如:采用树模型从结构化数据中选择一个能带来最大信息增益的特征值(如上述提及的初始对象特征)进行分裂,直到满足机器学习的结束条件。示例性地,计算机设备可以采用树模型对结构化数据中各个数据对象进行向量化,进而得到该结构化数据的结构化特征。关于计算机设备获取结构化数据的结构化特征的具体方式将在后续实施例中进行详细说明,本申请实施例在此不做赘述。
S202,对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合文本特征。
在实际应用中,特征融合处理可以具体是concat处理(即:特征拼接处理)。也就是说,计算机设备可以channel(通道)维度上将句法结构特征、文本特征,以及结构化特征进行拼接,从而得到融合文本特征。那么,示例性地,假设融合文本特征表示为H,句法结构特征表示为Feature1,文本特征表示为Feature2,结构化特征表示为Feature3,则H=concat(Feature1,Feature2,Feature3)。
S203,基于融合文本特征对待处理文本进行文本分类。
其中,计算机设备可以基于融合文本特征对待处理文本进行类别预测,并将预测得到的各个预测文本分类对应的概率输入至SoftMax层(神经网络中的一种输出层)进行归一化处理,从而输出各个预测文本分类的概率分布,进而使得计算机设备可以确定出待处理文本对应的最终的文本分类结果。
在本申请实施例中,由于计算机设备在对待处理文本进行文本分类时,是基于待处理文本的句法结构特征、文本特征以及结构化数据的结构化特征联合进行的,有效地引入了结构化的先验知识,从而可以在一定程度上提升计算机设备进行文本分类的准确度。此外,将句法结构特征、文本特征,以及结构化特征进行特征融合处理,并基于特征融合后的融合文本特征进行文本分类,可以使得计算机设备获取到待处理文本中的更多关联性特征,因此计算机设备采用本申请实施例提出的文本分类方法还可以有效提升计算机设备的泛化能力。
请参见图3,图3是本申请实施例提供的又一种文本处理方法的示意流程图。该方法也可以由上述提及的计算机设备执行,如图3所示,该方法包括步骤S301-S306:
S301,获取待处理文本的句法结构特征及文本特征。
在一个实施例中,计算机设备可以采用文本分类模型对待处理文本进行句法结构分析,如:采用LTP(Language Technology Plantform,语言技术平台)对待处理文本进行句法结构分析。又由前述可知,待处理文本包括一个或多个文本字符,那么,计算机设备对待处理文本进行句法结构分析后,可以得到每个文本字符的依存角色。然后进一步地,计算机设备可以获取每个文本字符的依存角色对应的特征值,并基于获取到的特征值生成待处理文本的句法结构特征。其中,依存角色可以理解为句法成分,如:主语、谓语、定语、状语等。那么,不难理解,依存角色可以用于指示文本字符之间的句法结构关系,如:动宾关系、主谓关系等。
为了更清楚地了解本申请实施例,以下结合具体示例来对计算机设备获取句法结构特征的方式进行详细说明。假设待处理文本为“XX公司进入破产清算程序”,那么,计算机设备可以先对待处理文本进行分词处理,得到一个或多个词语,然后计算机设备进一步对待处理文本进行句法结构分析,得到各个词语之间的句法依存关系。示例性的,可参见图4a,其中,ATT表示定中关系,SBV表示主谓关系,HED表示核心关系,FOB表示前置宾语,VOB表示动宾关系。那么,基于此,由图4a不难看出,在待处理文本“XX公司进入破产清算程序”中,“XX”的词性为ns(由名词和处所词组成的词语),且“XX”是“公司”的“ATT”角色;“公司”的词性为n(名词),且“公司”是“进入”的“SBV”角色;“进入”的词性为v(动词),且“进入”是该待处理文本的“HED”角色;“破产”的词性为动词,且“破产”是“清算”的“FOB”角色;“清算”的词性为动词,且“清算”是“程序”的“ATT”角色;“程序”的词性为名词,且“程序”是“进入”的“VOB”角色。进一步地,计算机设备可以将每个文本字符所在词语对应的依存角色作为该文本字符的依存角色,以得到一个或多个文本字符中每个文本字符对应的依存角色。举例来说,由于“公司”的依存角色为SBV,因此,计算机设备可以将SBV作为“公”的依存角色,并将SBV作为“司”的依存角色。基于此不难理解,本示例中的待处理文本中各个文本字符对应的依存角色可以为{“X”:“ATT”,“X”:“ATT”,“公”:“SBV”,“司”:“SBV”,“进”:“HED”,“入”:“HED”,“破”:“FOB”,“产”:“FOB”,“清”:“ATT”,“算”:“ATT”,“程”:“VOB”,“序”:“VOB”}。进一步地,计算机设备可以获取每个依存角色的特征值,从而组成整个待处理文本的句法依存矩阵(或称:句法依存向量),进而使得计算机设备可以将句法依存矩阵作为待处理文本的句法结构特征。示例性地,本示例中待处理文本的句法依存矩阵可以如图4b所示,其中:E_ATT表示依存角色ATT的特征值,E_SBV表示依存角色SBV的特征值,E_HED表示依存角色HED的特征值,E_FOB表示依存角色FOB的特征值,E_VOB表示依存角色VOB的特征值。
在又一个实施例中,文本分类模型可以包括文本特征提取网络,计算机设备可以采用文本特征提取网络来对待处理文本进行文本特征的提取。又由步骤S201可知,文本特征可以包括以下任意一种或多种:词法特征、句法特征和语义特征。那么,具体地,计算机设备可以调用文本特征提取网络分别对待处理文本进行词法特征提取、句法特征提取以及语义特征提取,得到待处理文本对应词法特征、句法特征以及语义特征。进一步地,计算机设备可以基于待处理文本对应的词法特征、句法特征以及语义特征,确定待处理文本的文本特征。其中,上述提及的文本特征提取网络可以是文本预训练模型,也就是说,计算机设备可以采用文本预训练模型对待处理文本进行特征提取处理。其中,文本预训练模型包括:BERT(Bidirectional Encoder Representations from Transformers,双向预训练模型)、ALBERT(A LITE BERT,一种参数更少的BERT模型)或ERNIE(Enhanced Representationthrough Knowledge Integration,一种基于BERT进行优化后的预训练模型)。
为了便于说明,以下将结合图5a所示的文本分类流程,来对本申请实施例提出的文本特征的获取步骤进行详细说明。如图5a所示,计算机设备采用BERT对待处理文本进行分字处理,并在待处理文本的首个文本字符前添加起始标识符[CLS],然后计算机设备可以采用BERT获取每个文本字符的字符特征(如图5a中E_X1、E_X2,…,E_Xn)以及起始标识符对应的标识符特征(如图5a中E_[CLS])。进一步地,计算机设备可以采用BERT基于每个文本字符的字符特征及起始标识符对应的标识符特征进行双向特征学习,从而得到每个文本字符的词法特征、句法特征及语义特征,以及起始标识符的词法特征、句法特征及语义特征。其中,计算机设备可以通过Transformer模型进行双向特征学习,Transformer是一种自然语言处理模型,其框架可以参见图5b所示,图5b中由51标记的结构为一个编码器,不难看出,编码器有一层多头注意力(Multi-Head Attention),以及一层前馈神经网络(FeedForward);图5b中由52标记的结构可以理解为一个解码器。在实际应用中,transformer模型可以包括多个解码器和多个编码器。基于此,计算机设备可以将待处理文本对应的每个字符特征(Input Embedding)输入至第一个解码器中,然后在第一个解码器中基于每个字符特征进行自注意力机制学习,从而得到每个字符对应的新的字符特征;进一步地,计算机设备可以将新的字符特征进行Add&Normalization处理(即:残差连接与添加规范化处理),并将处理后的字符特征传播到下一个编码器。进一步地,可以在下一个编码器中对第一个编码器输出的字符特征进行自注意力机制学习以及Add&Normalization处理。需要说明的是,计算机设备可以在每一个编码器中都按照上述原理执行特征学习操作,并可以将transformer模型中最后一个编码器的输出传递给所有的解码器,以使对应的解码器根据可以根据编码器输出的字符特征解码得到语义特征、句法特征和词法特征。又根据图5b不难看出,解码器比编码器多了一个masked Multi-head Self-Attention(掩模多头注意力),它可以使得计算机设备可以更加关注待处理文本对应的已经生成字符序列的特征信息,从而得到更加准确的词法特征、句法特征以及词法特征。
基于上述描述,计算机设备可以实现基于字符特征的双向特征学习,从而得到待处理文本的词法特征、句法特征及语义特征,进而得到待处理文本的文本特征。其中,BERT可以直接将起始标识符[CLS]对应的词法特征、句法特征以及语义特征,分别作为待处理文本的词法特征、句法特征以及语义特征,从而实现待处理文本的文本特征的确定。那么,也就是说,计算机设备可以直接根据起始标识符[CLS]对应的词法特征、句法特征以及语义特征,确定待处理文本的文本特征。示例性地,计算机设备可以通过对待处理文本的词法特征、句法特征以及语义特征进行特征分析处理,来确定待处理文本的文本特征。
为了进一步清楚的描述本申请实施例,以下以计算机设备采用BERT对待处理文本进行特征提取处理为例,来对计算机设备获取每个文本字符的字符特征及起始标识符对应的标识符特征的方式进行详细说明。假设待处理文本为:我爱我家,我家养猫。那么,计算机设备可以采用BERT对该待处理文本进行分字处理,以得到如图5c中由53标记的输入序列。基于图5c不难看出,计算机设备可以在每个文本句子的最后一个文本字符后添加结束标识符[SEP],以将不同的文本句子进行分隔,从而使得计算机设备可以采用BERT为不同的句子生成不同的句子向量。那么,针对该输入序列中的每个字符,计算机设备可以采用BERT来获取该字符的字符向量(即:TokenEmbeddings)、句子向量(即:SegmentEmbeddings)以及该字符的位置向量(即:Position Embeddings)。进一步地,计算机设备可以采用BERT对每个字符对应的字符向量、句子向量以及位置向量进行向量加和处理,从而得到每个字符的字符特征,也即:得到每个文本字符的字符特征以及起始标识符的标识符特征。
在又一个实施例中,计算机设备在采用文本特征提取网络对待处理文本进行文本特征的提取时,还可以参考该待处理文本的句法结构向量。那么,也就是说,文本特征可以是计算机设备参考句法结构特征,对待处理文本的词法特征、句法特征、语义特征进行融合处理后得到的。那么,在此情况下,计算机设备还可以通过如下方式获取待处理文本的文本特征:计算机设备先调用文本分类模型对待处理文本进行句法结构特征提取,得到待处理文本对应的句法结构特征。进一步地,计算机设备可以调用文本分类模型中的文本特征提取网络分别对待处理文本进行词法特征提取、句法特征提取以及语义特征提取,得到待处理文本对应的词法特征、句法特征以及语义特征,以使得计算机设备可以基于句法结构特征,对得到的词法特征、句法特征以及语义特征进行融合,从而得到待处理文本的文本特征,计算机设备采用此种方式提取待处理文本的文本特征,可以使得文本特征的表征能力得到增强,从而使得计算机设备在进行文本分类时得到的文本分类结果更加准确。
S302,调用文本分类模型对结构化数据中每个数据对象进行预处理,得到每个数据对象的对象特征。
基于前述可知,结构化数据包括一个或多个数据对象。其中,一个或多个数据对象中每个数据对象对应一个或多个对象特征,对象特征可以是计算机设备对数据对象的初始对象特征进行预处理之后得到的,且示例性地,对象特征可以用数值进行表示。可选地,计算机设备可以对一个初始对象特征进行预处理,以得到一个对象特征,也就是说,初始对象特征和对象特征之间是一一对应关系。以数据对象为“性别”为例,该数据对象对应的初始对象特征为“男”和“女”这两个,那么,“性别”这一数据对象对应的对象特征可以包括两个,即:初始对象特征“男”对应的一个对象特征(可用数值1表示),以及初始对象特征“女”对应的一个对象特征(可用数值0表示)。
可选地,计算机设备还可以对一个或多个初始对象特征进行预处理,以得到一个对象特征。也就是说,初始对象特征和对象特征之间是多对一的对应关系。以数据对象为“年收入”为例,不难理解,该数据对象对应的初始对象特征可以为任意非负数值(即:数据对象“年收入”的初始对象特征可以有无限个),那么,计算机设备可以对0至10万中所有的数值(多个初始对象特征)进行预处理,以得到一个对象特征,那么,不难理解,0至10万中所有的数值可以用同一个数值进行数值化表示,如:用数值1表示数值范围处于0至10万中的每个数值;也就是说,计算机设备可以将0-10万数值化表示为1。
为了便于更加清楚地对本申请实施例进行描述,以下结合具体示例来对计算机设备对数据对象进行预处理的方式进行详细说明。基于上述描述,不难看出,若数据对象的初始对象特征的数量为有限个,计算机设备可以逐个对该数据对象的初始对象特征进行数值化映射(或称:数值化表示),从而实现对该数据对象的预处理。同样地,以上述数据对象为“性别”为例,由于性别对应了两个初始对象特征(即:男、女),则计算机设备可以直接将对象特征“男”数值化表示为数值1,从而得到“性别”的一个对象特征;将初始对象特征“女”数值化表示为数值0,从而得到“性别”的另一个对象特征。也就是说,在具体应用时,计算机设备可以用1来表示性别为男性,用0来表示性别为女性。
可选地,若数据对象的对象特征的数量为无限个,或者说,若数据对象的对象特征不固定,那么,计算机设备可以先对该数据对象进行离散化处理,然后再对离散化处理后的数据对象进行数值化映射处理,从而实现对该数据对象的预处理。其中,离散化处理可以理解为:将初始对象特征的数量由无限个变成有限个。以数据对象为“年收入”为例,不难理解,在实际应用中,年收入在理论上可以无上限,也就是说,年收入在理论上可以为任意非负数值,如:0、100.23、10000、235100.2等。基于此,计算机设备可以先对数据对象“年收入”的初始对象特征进行离散化处理,从而使得数据对象“年收入”对应的对象特征(以下称:中间对象特征)的数量为有限个,需要说明的是,此处提及的中间对象特征是指离散化处理后的多个初始对象特征,其不同于初始对象特征,也不同于预处理后的对象特征。示例性地,计算机设备可以将年收入对应的所有初始对象特征进行区间划分,得到一个或多个对象特征区间,并进一步将每个对象特征区间作为一个中间对象特征。如:计算机设备将年收入的初始对象特征划分为0-10万、10-30万、30-50万、50万以上,这4个对象特征区间,那么进一步地,计算机设备可以将这一个或多个对象特征区间作为年收入对应的4个中间对象特征,从而使得计算机设备可以对每个中间对象特征进行数值化映射,得到年收入对应的4个的对象特征,进而实现对数据对象“年收入”的预处理。
S303,基于每个数据对象的对象特征以及特征向量化规则,对每个数据对象进行向量化处理,得到每个数据对象对应的特征向量。
其中,特征向量化规则可以指:数据对象对应的特征向量应该满足的向量维度以及向量中各个元素应该满足的分布(具体指:数学分布,如正态分布、泊松分布等)。在实际应用中,特征向量化规则可以参考句法结构特征的特征维度制定,基于此,示例性地,特征向量化规则可以指示:数据对象对应的特征向量的向量维度与句法结构特征的特征维度相同。举例来说,假设计算机设备采用4*4的矩阵来表示待处理文本的句法结构特征,那么,示例性地,特征向量化规则可以用于指示:数据对象的特征向量需要用4*4的矩阵来表示,并且矩阵中的元素满足正态分布。
S304,基于每个数据对象对应的特征向量进行预设运算,得到结构化数据的结构化特征。
在实际应用中,预设运算可以指:向量平均。那么,也就是说,计算机设备可以在获取到每个数据对象的特征向量之后,对每个数据对象的特征向量进行平均,从而得到结构化数据的结构化特征。以图5a所示的文本分类流程为例,由于结构化数据对应的对象特征有Feature1、Feature2,..,FeatureN,其中,Feature1对应的特征向量为Embedding1,Feature2对应的特征向量为Embedding2,FeatureN对应的特征向量为EmbeddingN。那么,基于此,计算机设备则可以对Embedding1、Embedding2,...,EmbeddingN进行向量平均,从而得到结构化数据的结构化特征。也就是说,假设结构化特征用E_feature表示,则E_feature=average(Embedding1,Embedding2,...,EmbeddingN)。
S305,对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合文本特征。
S306,基于融合文本特征对待处理文本进行文本分类。
在一个实施例中,步骤S305至步骤S306的相关实施例可以参见步骤S201至步骤S202的描述,本申请实施例在此不再赘述。
基于上述描述可知,计算机设备可以采用文本分类模型对待处理文本以及结构化数据进行特征提取。那么,需要说明的是,计算机设备采用文本分类模型进行特征提取处理之前,还可以对该文本分类模型的模型参数进行调整。其中,计算机设备对文本分类模型的模型参数进行调整的具体方式可以如下:计算机设备获取训练数据,训练数据包括:训练文本、与训练文本相关的结构化训练数据,以及训练文本对应的文本分类标签,可以理解,该文本分类标签可以用于指示该训练文本的正确的文本类别。那么,进一步地,计算机设备可以采用文本分类模型对训练文本进行文本分析处理,以得到训练文本的句法结构特征及文本特征,并采用文本分类模型对结构化训练数据进行特征提取处理,得到结构化训练数据的结构化特征。其中,计算机设备对训练文本进行分析处理,以得到训练文本的句法结构特征、文本特征的具体方式可以参见上述步骤S301中的相关实施例,计算机设备采用文本分类模型对结构化训练数据进行特征提取处理,得到结构化训练数据的结构化特征的具体方式可以参见上述步骤S302至步骤S304的相关描述,本申请在此不再赘述。进一步地,当计算机设备获取到训练文本的句法结构特征及文本特征,以及结构化数据的结构化特征之后,可以对训练文本的句法结构特征及文本特征,以及结构化训练数据的结构化特征进行融合处理,得到目标训练特征,从而可以基于目标训练特征对训练文本进行文本分类处理,得到训练文本的预测分类标签。可以理解,预测分类标签可以为一个或多个,且预测分类标签可以包括上述提及的文本分类标签,也可以不包括上述提及的文本分类标签。基于此,计算机设备可以基于预测分类标签与文本分类标签之间的差异信息,调整文本分类模型的模型参数。
其中,基于上述关于图3的相关描述不难理解,结构化训练数据的结构化特征是文本分类模型基于特征向量化规则进行特征提取处理得到的。需要说明的是,特征向量化规则包括一个或多个参数,模型参数包括每个依存角色对应的特征值,以及特征向量化规则中的每个参数。基于此,计算机设备在基于预测分类标签与文本分类标签之间的差异信息,调整文本分类模型的模型参数时,可以具体包括:计算机设备基于预测分类标签与文本分类标签之间的差异信息,对依存角色对应的特征值以及特征向量化规则中的每个参数进行调整。不难理解的是,当计算机设备首次对文本分类模型的模型参数进行调整之前,对文本分类模型中的每个模型参数均进行了随机初始化处理。也就是说,计算机设备在获取首个训练文本中每个文本字符的依存角色对应的特征向量时,是通过对依存角色对应的特征向量进行随机初始化后得到的。同理地,计算机设备在对结构化数据中每个数据对象进行向量化处理时,是通过对每个数据对象进行随机向量化得到的。
在另一个实施例中,基于上述针对图3的相关实施例可知,文本分类模型可以包括文本特征提取网络,该文本特征提取网络用于提取文本特征。在实际应用中,文本特征提取网络可以包括多个特征提取参数,那么,任一文本的文本特征则可以是计算机设备采用文本特征提取网络,并基于该文本特征提取网络中的特征提取参数,对该任一文本进行特征提取得到的。那么,在此情况下,需要说明的是,上述提及的文本特征提取网络可以是基于训练文本进行训练得到的,也可以是基于训练文本和训练文本对应的句法结构特征训练得到的。若文本特征提取网络是基于训练文本和训练文本对应的句法结构特征训练得到的,那么,在计算机设备对文本分类模型的模型参数进行调整时,可以在文本特征提取网络中对依存角色的特征值和特征提取参数一起进行调整。
在本申请实施例中,由于计算机设备对待处理文本进行了句法结构分析,从而引入了待处理文本的句法结构特征,此种特征提取方式可以增强融合特征对待处理文本的表征能力,从而提升计算机设备对待处理文本进行文本分类时的准确度。此外,计算机设备还获取了结构化数据的结构化特征,并且该结构化特征的维度可以与句法结构特征的维度保持一致。那么不难理解,当结构化特征的维度与句法结构特征的维度保持一致时,在一定程度上可以降低计算机设备对句法结构特征、文本特征以及结构化特征进行特征融合的难度,从而提升整体的文本分类速率。
基于上述文本处理方法的相关描述,本申请还公开了一种文本处理装置。该文本处理装置可以是运行与上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该文本处理装置可以执行如图2和图3所示的文本处理方法,请参见图6,该文本处理装置至少可以包括:获取单元601、处理单元602以及分类单元603。
获取单元601,用于获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,所述待处理文本是在目标业务下产生的,所述结构化数据是指与所述目标业务相关的具有结构化特点的数据;
处理单元602,用于对所述句法结构特征、文本特征及所述结构化特征进行特征融合处理,得到融合特征;
分类单元603,用于基于所述融合特征对所述待处理文本进行文本分类。
在一种实施方式中,所述待处理文本包括一个或多个文本字符,所述获取单元601具体用于执行:
采用文本分类模型对所述待处理文本进行句法结构分析,得到每个文本字符的依存角色;
获取所述每个文本字符的依存角色对应的特征值,并基于获取到的特征值生成所述待处理文本的句法结构特征。
在又一种实施方式中,所述结构化数据包括一个或多个数据对象;所述获取单元601还具体用于执行:
调用文本分类模型对所述结构化数据中每个数据对象进行预处理,得到所述每个数据对象的对象特征;
基于所述每个数据对象的对象特征以及特征向量化规则,对所述每个数据对象进行向量化处理,得到所述每个数据对象对应的特征向量;
基于所述每个数据对象对应的特征向量进行预设运算,得到所述结构化数据的结构化特征。
在又一种实施方式中,文本分类模型包括文本特征提取网络,所述获取单元601还具体用于执行:
调用所述文本特征提取网络分别对所述待处理文本进行词法特征提取、句法特征提取以及语义特征提取,得到所述待处理文本对应词法特征、句法特征以及语义特征;
基于所述待处理文本对应的词法特征、所述句法特征以及所述语义特征,确定所述待处理文本的文本特征。
在又一种实施方式中,所述文本特征是调用文本特征提取网络对所述待处理文本进行特征提取得到的,所述文本特征提取网络是基于训练文本进行训练得到的,或者所述文本特征提取网络是基于所述训练文本和所述训练文本对应的句法结构特征训练得到的。
在又一种实施方式中,文本处理装置还包括训练单元604,所述训练单元604用于执行:
获取训练数据,所述训练数据包括:训练文本、与所述训练文本相关的结构化训练数据,以及所述训练文本对应的文本分类标签;
采用文本分类模型对所述训练文本进行文本分析处理,得到所述训练文本的句法结构特征及文本特征,并采用所述文本分类模型对所述结构化训练数据进行特征提取处理,得到所述结构化训练数据的结构化特征;
对所述训练文本的句法结构特征、文本特征及所述结构化训练数据的结构化特征进行融合处理,得到目标训练特征;
基于所述目标训练特征对所述训练文本进行文本分类处理,得到所述训练文本的预测分类标签;
基于所述预测分类标签与所述文本分类标签之间的差异信息,调整所述文本分类模型的模型参数。
在又一种实施方式中,所述结构化训练数据的结构化特征是所述文本分类模型基于特征向量化规则进行特征提取处理得到的;所述特征向量化规则包括一个或多个参数,所述模型参数包括每个依存角色对应的特征值,以及所述特征向量化规则中的每个参数;所述训练单元604还可以具体用于执行:
基于所述预测分类标签与所述文本分类标签之间的差异信息,对所述依存角色对应的特征值以及所述特征向量化规则中的每个参数进行调整。
根据本申请的一个实施例,图2和图3所示的方法所涉及各个步骤可以是由图6所示的文本处理装置中的各个单元来执行的。例如,图2所示的步骤S201可由图6所示的文本处理装置中的获取单元601来执行;步骤S202可由图6所示的文本处理装置中的处理单元602来执行;步骤S203可由图6所示的文本处理装置中的分类单元603来执行。再如,图3所示的步骤S301至步骤S304均可由图6所示的文本处理装置中的获取单元601来执行;步骤S305可由图6所示的文本处理装置中的处理单元602来执行;步骤S306可由图6所示的文本处理装置中的分类单元603来执行。
根据本申请的另一个实施例,图6所示的文本处理装置中的各个单元是基于逻辑功能划分的,上述各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。在本申请的其它实施例中,上述基于文本处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图3所示的方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的文本处理装置,以及来实现本申请实施例的文本处理方法。计算机程序可以记载于例如计算机存储介质上,并通过计算机存储介质装载于上述计算机设备中,并在其中运行。
在本申请实施例中,由于文本处理装置在对待处理文本进行文本分类时,是基于待处理文本的句法结构特征、文本特征以及结构化数据的结构化特征联合进行的,其中,结构化数据是指待处理文本所在目标业务中具有结构化特点的数据,在文本处理过程中引入结构化数据可以有效地引入结构化的先验知识,从而可以在一定程度上提升文本处理装置进行文本分类的准确度。此外,将句法结构特征、文本特征和结构化特征进行特征融合处理,并基于特征融合后的融合文本特征进行文本分类,可以使得文本处理装置获取到待处理文本中的更多关联性特征,因此文本处理装置采用本申请实施例提出的文本分类方法还可以有效提升文本处理装置的泛化能力。
基于上述方法实施例以及装置实施例的相关描述,本申请实施例还提供了一种计算机设备,请参见图7。该计算机设备至少包括处理器701和计算机存储介质702,且计算机设备的处理器701和计算机存储介质702可通过总线或其他方式连接。
其中,上述提及的计算机存储介质702是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质702既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质702提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的计算机程序,这些计算机程序可以是一个或一个以上的程序代码。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的存储介质。处理器701(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条计算机程序,具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。
在一个实施例中,可由处理器701加载并执行计算机存储介质702中存放的一条或多条计算机程序,以实现上述有关图2和图3所示的方法实施例中的相应方法步骤;具体实现中,计算机存储介质702中的一条或多条计算机程序由处理器701加载并执行如下步骤:
获取单元,用于获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,所述待处理文本是在目标业务下产生的,所述结构化数据是指与所述目标业务相关的具有结构化特点的数据;
处理单元,用于对所述句法结构特征、文本特征及所述结构化特征进行特征融合处理,得到融合特征;
分类单元,用于基于所述融合特征对所述待处理文本进行文本分类。
在一种实施方式中,所述待处理文本包括一个或多个文本字符,所述处理器701还可以用于执行:
采用文本分类模型对所述待处理文本进行句法结构分析,得到每个文本字符的依存角色;
获取所述每个文本字符的依存角色对应的特征值,并基于获取到的特征值生成所述待处理文本的句法结构特征。
在又一种实施方式中,所述结构化数据包括一个或多个数据对象;所述处理器701还可以用于执行:
调用文本分类模型对所述结构化数据中每个数据对象进行预处理,得到所述每个数据对象的对象特征;
基于所述每个数据对象的对象特征以及特征向量化规则,对所述每个数据对象进行向量化处理,得到所述每个数据对象对应的特征向量;
基于所述每个数据对象对应的特征向量进行预设运算,得到所述结构化数据的结构化特征。
在又一种实施方式中,文本分类模型包括文本特征提取网络,所述处理器701还可以用于执行:
调用所述文本特征提取网络分别对所述待处理文本进行词法特征提取、句法特征提取以及语义特征提取,得到所述待处理文本对应词法特征、句法特征以及语义特征;
基于所述待处理文本对应的词法特征、所述句法特征以及所述语义特征,确定所述待处理文本的文本特征。
在又一种实施方式中,所述文本特征是调用文本特征提取网络对所述待处理文本进行特征提取得到的,所述文本特征提取网络是基于训练文本进行训练得到的,或者所述文本特征提取网络是基于所述训练文本和所述训练文本对应的句法结构特征训练得到的。
在又一种实施方式中,所述处理器701还可以用于执行:
获取训练数据,所述训练数据包括:训练文本、与所述训练文本相关的结构化训练数据,以及所述训练文本对应的文本分类标签;
采用文本分类模型对所述训练文本进行文本分析处理,得到所述训练文本的句法结构特征及文本特征,并采用所述文本分类模型对所述结构化训练数据进行特征提取处理,得到所述结构化训练数据的结构化特征;
对所述训练文本的句法结构特征、文本特征及所述结构化训练数据的结构化特征进行融合处理,得到目标训练特征;
基于所述目标训练特征对所述训练文本进行文本分类处理,得到所述训练文本的预测分类标签;
基于所述预测分类标签与所述文本分类标签之间的差异信息,调整所述文本分类模型的模型参数。
在又一种实施方式中,所述结构化训练数据的结构化特征是所述文本分类模型基于特征向量化规则进行特征提取处理得到的;所述特征向量化规则包括一个或多个参数,所述模型参数包括每个依存角色对应的特征值,以及所述特征向量化规则中的每个参数;所述处理器701还可以具体用于执行:
基于所述预测分类标签与所述文本分类标签之间的差异信息,对所述依存角色对应的特征值以及所述特征向量化规则中的每个参数进行调整。
在本申请实施例中,由于计算机设备在对待处理文本进行文本分类时,是基于待处理文本的句法结构特征、文本特征以及结构化数据的结构化特征联合进行的,其中,结构化数据是指待处理文本所在目标业务中具有结构化特点的数据,在文本处理过程中引入结构化数据可以有效地引入结构化的先验知识,从而可以在一定程度上提升计算机设备进行文本分类的准确度。此外,将句法结构特征、文本特征和结构化特征进行特征融合处理,并基于特征融合后的融合文本特征进行文本分类,可以使得计算机设备获取到待处理文本中的更多关联性特征,因此计算机设备采用本申请实施例提出的文本分类方法还可以有效提升计算机设备的泛化能力。
本申请还提供了一种计算机存储介质,该计算机存储介质中存储了上述文本处理方法对应的一条或多条计算机程序,当一个或多个处理器加载并执行该一条或多条计算机程序,可以实现实施例中对文本处理方法的描述,在此不再赘述。对采用相同方法的有益效果的描述,在此不再赘述。可以理解的是,计算机程序可以被部署在一个或多个能够相互通信的设备上执行。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中。计算机设备中的处理器从计算机存储介质读取该计算机程序,然后执行该计算机程序,进而使得该计算机设备能够执行上述图2和图3所示的文本处理方法实施例方面的各种可选方式中提供的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于计算机取存储介质中,该计算机程序在执行时,可包括如上述文本处理方法的实施例的流程。其中,计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所揭露的仅为本申请的局部实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或局部流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (11)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,所述待处理文本是在目标业务下产生的,所述结构化数据是指与所述目标业务相关的具有结构化特点的数据;
对所述句法结构特征、所述文本特征及所述结构化特征进行特征融合处理,得到融合特征;
基于所述融合特征对所述待处理文本进行文本分类。
2.根据权利要求1所述的方法,其特征在于,所述待处理文本包括一个或多个文本字符;获取所述待处理文本的句法结构特征,包括:
采用文本分类模型对所述待处理文本进行句法结构分析,得到每个文本字符的依存角色;
获取所述每个文本字符的依存角色对应的特征值,并基于获取到的特征值生成所述待处理文本的句法结构特征。
3.根据权利要求1所述的方法,其特征在于,所述结构化数据包括一个或多个数据对象;所述获取结构化数据的结构化特征,包括:
调用文本分类模型对所述结构化数据中每个数据对象进行预处理,得到所述每个数据对象的对象特征;
基于所述每个数据对象的对象特征以及特征向量化规则,对所述每个数据对象进行向量化处理,得到所述每个数据对象对应的特征向量;
基于所述每个数据对象对应的特征向量进行预设运算,得到所述结构化数据的结构化特征。
4.根据权利要求1或2所述的方法,其特征在于,文本分类模型包括文本特征提取网络;获取所述待处理文本的文本特征,包括:
调用所述文本特征提取网络分别对所述待处理文本进行词法特征提取、句法特征提取以及语义特征提取,得到所述待处理文本对应词法特征、句法特征以及语义特征;
基于所述待处理文本对应的词法特征、所述句法特征以及所述语义特征,确定所述待处理文本的文本特征。
5.根据权利要求1所述的方法,其特征在于,所述文本特征是调用文本特征提取网络对所述待处理文本进行特征提取得到的,所述文本特征提取网络是基于训练文本进行训练得到的,或者所述文本特征提取网络是基于所述训练文本和所述训练文本对应的句法结构特征训练得到的。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取训练数据,所述训练数据包括:训练文本、与所述训练文本相关的结构化训练数据,以及所述训练文本对应的文本分类标签;
采用文本分类模型对所述训练文本进行文本分析处理,得到所述训练文本的句法结构特征及文本特征,并采用所述文本分类模型对所述结构化训练数据进行特征提取处理,得到所述结构化训练数据的结构化特征;
对所述训练文本的句法结构特征及文本特征,以及所述结构化训练数据的结构化特征进行融合处理,得到目标训练特征;
基于所述目标训练特征对所述训练文本进行文本分类处理,得到所述训练文本的预测分类标签;
基于所述预测分类标签与所述文本分类标签之间的差异信息,调整所述文本分类模型的模型参数。
7.根据权利要求6所述的方法,其特征在于,所述结构化训练数据的结构化特征是所述文本分类模型基于特征向量化规则进行特征提取处理得到的;所述特征向量化规则包括一个或多个参数,所述模型参数包括每个依存角色对应的特征值,以及所述特征向量化规则中的每个参数;
所述基于所述预测分类标签与所述文本分类标签之间的差异信息,调整所述文本分类模型的模型参数,包括:
基于所述预测分类标签与所述文本分类标签之间的差异信息,对所述依存角色对应的特征值以及所述特征向量化规则中的每个参数进行调整。
8.一种文本处理装置,其特征在于,包括:
获取单元,用于获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,所述待处理文本是在目标业务下产生的,所述结构化数据是指与所述目标业务相关的具有结构化特点的数据;
处理单元,用于对所述句法结构特征、所述文本特征及所述结构化特征进行特征融合处理,得到融合特征;
分类单元,用于基于所述融合特征对所述待处理文本进行文本分类。
9.一种计算机设备,其特征在于,包括:
处理器,所述处理器适于实现一条或多条计算机程序;
计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-7任一项所述的文本处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-7任一项所述的文本处理方法。
11.一种计算机程序产品或计算机程序,其特征在于,所述计算机程序产品包括所述计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1-7任一项所述的文本处理方法。
CN202111344591.0A 2021-11-12 2021-11-12 文本处理方法、相关设备、存储介质及计算机程序产品 Active CN114328909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111344591.0A CN114328909B (zh) 2021-11-12 2021-11-12 文本处理方法、相关设备、存储介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111344591.0A CN114328909B (zh) 2021-11-12 2021-11-12 文本处理方法、相关设备、存储介质及计算机程序产品

Publications (2)

Publication Number Publication Date
CN114328909A true CN114328909A (zh) 2022-04-12
CN114328909B CN114328909B (zh) 2024-08-27

Family

ID=81045438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111344591.0A Active CN114328909B (zh) 2021-11-12 2021-11-12 文本处理方法、相关设备、存储介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN114328909B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备
CN112543932A (zh) * 2020-01-22 2021-03-23 华为技术有限公司 语义分析方法、装置、设备及存储介质
CN113392190A (zh) * 2021-08-17 2021-09-14 财付通支付科技有限公司 一种文本识别方法、相关设备及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备
CN112543932A (zh) * 2020-01-22 2021-03-23 华为技术有限公司 语义分析方法、装置、设备及存储介质
CN113392190A (zh) * 2021-08-17 2021-09-14 财付通支付科技有限公司 一种文本识别方法、相关设备及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郝伟博士: "自然语言处理(NLP)语义分析--文本分类、情感分析、意图识别_文本的语义识别、分割和分析-CSDN博客", Retrieved from the Internet <URL:《https://blog.csdn.net/weixin_43145361/article/details/106453409》> *

Also Published As

Publication number Publication date
CN114328909B (zh) 2024-08-27

Similar Documents

Publication Publication Date Title
CN107783960B (zh) 用于抽取信息的方法、装置和设备
CN111581361B (zh) 一种意图识别方法及装置
US10705796B1 (en) Methods, systems, and computer program product for implementing real-time or near real-time classification of digital data
US10467261B1 (en) Methods, systems, and computer program product for implementing real-time classification and recommendations
US8972408B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a social sphere
US10467122B1 (en) Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks
CN113051374B (zh) 一种文本匹配优化方法及装置
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN110399473B (zh) 为用户问题确定答案的方法和装置
CN116955561A (zh) 问答方法、装置、电子设备以及存储介质
CN112948561A (zh) 一种问答知识库自动扩建的方法和装置
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN117875292A (zh) 金融知识智能问答方法、系统、终端设备和存储介质
CN117296058A (zh) 作为简单有效的对抗攻击方法的变体不一致攻击(via)
CN115114419A (zh) 问答处理方法、装置、电子设备和计算机可读介质
CN117744662A (zh) 用于处理提示信息的方法、装置、电子设备及介质
CN110162558B (zh) 结构化数据处理方法及装置
CN116561284A (zh) 智能应答方法、装置、电子设备及介质
US20230297603A1 (en) Cross-lingual meta-transfer learning adaptation to natural language understanding
CN112100364A (zh) 文本语义理解方法和模型训练方法、装置、设备和介质
CN114328909B (zh) 文本处理方法、相关设备、存储介质及计算机程序产品
CN114691836A (zh) 文本的情感倾向性分析方法、装置、设备及介质
CN113869049A (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置
CN116089602B (zh) 信息处理方法、装置、电子设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant