CN112989761B

CN112989761B - 文本分类方法及装置

Info

Publication number: CN112989761B
Application number: CN202110552068.0A
Authority: CN
Inventors: 刘志煌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-24
Anticipated expiration: 2041-05-20
Also published as: CN112989761A

Abstract

本申请提供一种文本分类方法及装置，涉及人工智能领域的自然语言处理技术和深度学习技术，该方法包括：获取待分类文本和预设文本库；对待分类文本进行分词和词性标注处理，得到多个分词结果和每个分词结果对应的词性标注结果；将每个分词结果与预设文本库相匹配，基于匹配结果和词性标注结果确定目标分词结果以及目标分词结果对应的第一权重信息；基于第一权重信息，确定多个分词结果中除目标分词结果之外的其他分词结果对应的第二权重信息；根据第一权重信息和第二权重信息，得到待分类文本的文本特征信息；基于文本分类模型对文本特征信息进行相关性识别处理，得到待分类文本的文本分类结果。本申请能够提高文本分类的准确率和效率。

Description

文本分类方法及装置

技术领域

本申请属于计算机技术领域，具体涉及一种文本分类方法及装置。

背景技术

文本（比如，公文文本）分类是自然语言处理中的一项基础任务。相关技术中通常采用基于模板的文本分类方法、基于信息检索的文本主题分类方法、基于文本相似性的分类方法对文本进行分类。

基于模板的文本分类方法对规则和模板依赖较大，在文本分类过程中会消耗较多的系统资源，且构建的规则的泛化能力较低，通用性不足，导致文本分类准确率较低。基于信息检索的文本主题分类方法通过训练分类模型进行检索和分类，但是文本分类是多分类问题，多类别数据不均衡使得分类模型预测的准确率较低。基于文本相似性的分类方法将直接对文本进行句子相似度计算所得到的结果作为文本分类的依据，然而该方法忽略了文本本身的内容之间的相似性，且没有将文本的关键信息区分处理，导致文本分类准确率较低。

发明内容

为了解决上述技术问题，本申请提供一种文本分类方法及装置。

一方面，本申请提出了一种文本分类方法，所述方法包括：

获取待分类文本和预设文本库；

对所述待分类文本进行分词和词性标注处理，得到所述待分类文本的多个分词结果和每个分词结果对应的词性标注结果；

将每个分词结果与所述预设文本库相匹配，基于匹配结果和所述词性标注结果从所述多个分词结果中确定出目标分词结果以及所述目标分词结果在所述待分类文本中的第一权重信息；

基于所述第一权重信息，确定所述多个分词结果中除所述目标分词结果之外的其他分词结果在所述待分类文本中的第二权重信息；

根据所述第一权重信息和所述第二权重信息，对所述目标分词结果的特征信息和所述其他分词结果的特征信息进行加权，得到所述待分类文本的文本特征信息；

基于文本分类模型对所述文本特征信息进行相关性识别处理，得到所述待分类文本的文本分类结果，所述文本分类模型基于标注有类别标签的样本文本对神经网络进行文本相关性学习得到。

另一方面，本申请实施例提供了一种文本分类装置，所述装置包括：

获取模块，用于获取待分类文本和预设文本库；

分词和词性标注模块，用于对所述待分类文本进行分词和词性标注处理，得到所述待分类文本的多个分词结果和每个分词结果对应的词性标注结果；

第一权重信息确定模块，用于将每个分词结果与所述预设文本库相匹配，基于匹配结果和所述词性标注结果从所述多个分词结果中确定出目标分词结果以及所述目标分词结果在所述待分类文本中的第一权重信息；

第二权重信息确定模块，用于基于所述第一权重信息，确定所述多个分词结果中除所述目标分词结果之外的其他分词结果在所述待分类文本中的第二权重信息；

加权模块，用于根据所述第一权重信息和所述第二权重信息，对所述目标分词结果的特征信息和所述其他分词结果的特征信息进行加权，得到所述待分类文本的文本特征信息；

文本分类结果获取模块，用于基于文本分类模型对所述文本特征信息进行相关性识别处理，得到所述待分类文本的文本分类结果，所述文本分类模型基于标注有类别标签的样本文本对神经网络进行文本相关性学习得到。

另一方面，本申请提出了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的文本分类方法。

另一方面，本申请提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的文本分类方法。

本申请实施例提出的文本分类方法及装置，通过分词、词性标注、与预设文本库相匹配的方式，从待分类文本对应的多个分词结果中抽取关键信息（即目标分词结果），并根据抽取到的关键信息构建待分类文本的文本特征信息，接着使用基于标注有类别标签的样本文本对神经网络进行文本相关性学习得到的文本分类模型，对该文本特征信息进行相关性识别处理，从而学习已知类别文本与待分类文本之间的关系，实现文本的自动分类，降低文本分类过程对系统资源的消耗，且能够提高文本分类的准确率和效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是根据一示例性实施例示出的一种文本分类方法的实施环境示意图。

图2是根据一示例性实施例示出的一种文本分类方法的流程示意图。

图3是根据一示例性实施例示出的一种确定目标分词结果以及上述目标分词结果在上述待分类文本中的第一权重信息的流程示意图。

图4是根据一示例性实施例示出的一种确定每个分词结果在上述待分类文本中的主题词权重信息的流程示意图。

图5是根据一示例性实施例示出的一种确定每个分词结果在上述不同类别对应的预设文本中的关键词权重信息的流程示意图。

图6是根据一示例性实施例示出的一种根据上述主题词权重信息，从上述多个分词结果中确定出主题词分词结果的流程示意图。

图7是根据一示例性实施例示出的一种根据上述关键词权重信息，从上述多个分词结果中确定出关键词分词结果的流程示意图。

图8是根据一示例性实施例示出的一种基于上述第一权重信息，确定上述多个分词结果中除目标分词结果之外的其他分词结果在上述待分类文本中的第二权重信息的流程示意图。

图9是根据一示例性的实施例示出的一种Transformer模型的结构示意图。

图10是根据一示例性实施例示出的一种文本分类模型的结构示意图。

图11是根据一实例性实施例示出的一种构建上述文本分类模型的流程示意图。

图12是根据一示例性实施例示出的一种文本分类装置框图。

图13是根据一示例性实施例示出的一种文本分类的服务器的硬件结构框图。

具体实施方式

随着人工智能(Artificial Intelligence, AI)的研究和进步，AI在多个领域展开研究和应用。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、自动驾驶等几大方向。

具体地，本申请实施例涉及AI中的自然语言处理(Nature Language processing,NLP)技术和机器学习技术。其中，NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体地，本申请实施例涉及NLP中的文本预处理技术和机器学习中的深度学习技术。

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。具体地，云技术包括安全、大数据、数据库、行业应用、网络、存储、管理工具、计算等技术。

具体地，本申请实施例涉及云技术中的大数据和数据库技术。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是根据一示例性实施例示出的一种文本分类方法的实施环境示意图。如图1所示，该实施环境至少可以包括客户端01和服务器02，该客户端01和服务器02之间可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

其中，该客户端01可以用于采集待分类文本，并将该待分类文本发送至服务器02。可选地，该客户端01可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能手表等，但并不局限于此。

其中，该服务器02可以用于获取待分类文本和预设文本库，并通过分词、词性标注、与预设文本库相匹配等方式，从待分类文本的多个分词结果中抽取目标分词结果，然后服务器02根据该目标分词结果构建该待分类文本的文本特征信息，最后服务器02基于文本分类模型对该文本特征信息进行相关性识别处理，得到待分类文本的文本分类结果。可选地，该服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，图1仅仅是本申请提供的文本分类方法的一种应用环境，在实际应用中，还可以包括其他应用环境。比如，该应用环境可以仅包括客户端，该客户端中设置有该文本分类模型。

图2是根据一示例性实施例示出的一种文本分类方法的流程示意图。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境）。具体的如图2所示，该方法可以包括：

S101.获取待分类文本和预设文本库。

示例性地，该待分类文本可以包括公文文本和非公文文本。

具体地，该公文文本可以是政务服务过程中产生的文本。可选地，该公文文本可以是用户在政务平台上的反馈案件信息。例如，“小李以投资酒吧为由，要求我押款3000万，每月返还利息，后以各种理由拒绝返款，联系报案，请求帮助”、“我在中小学教师网报名考试，但是报名后显示的信息有误，xx市教育局的电话一直无人接听，我要求半个小时内回复”、“我咨询：发明专利有什么奖励政策。专利年费可不可以自己缴纳。在哪里缴纳。”、“xx路机动车占道停车”等。

具体地，该非公文文本可以为除了公文文本以外的其他文本，包括但不限于：汽车、财经、体育、旅游等相关行业的文本。

具体地，该预设文本库可以包括属于不同类别的多个预设文本。可选地，在该文本为公文文本时，该“类别”可以为政务部门，该政务部门可以包括但不限于：公安局、教育局、科技局、城管委等。可选地，在该文本为非公文文本时，该类别包括但不限于：汽车、财经、体育、旅游等。

具体地，该预设文本库可以根据已有的文本预先构建得到的。以文本为公文文本为例，则该预设文本库的构建过程可以如下：

表1是根据一示例性实施例示出的预设文本库中的公文文本的数据结构，表2是根据一示例性实施例示出的公文文本所包含的具体内容。如表2所示，可以采集每个政务部门历史审批过的预设数量个公文文本，如表1所示可以对每个政务部门标记类别的身份标识号（Identity document，ID）（如，0、1、2、3……），并建立政务部门ID与公文文本之间的映射关系，从而得到该预设文本库。

可选地，可以由客户端采集每个政务部门历史审批过的预设数量个公文文本，并由客户端标记类别ID以及建立上述映射关系，从而得到该预设文本库，最后由客户端将该预设文本库发送至服务器。

可选地，客户端还可以直接将采集到的公文文本发送至服务器，由服务器标记部门ID以及建立映射关系，从而得到该预设文本库。

表1 预设文本库中的公文文本的数据结构

表2 预设文本库中的公文文本的具体内容

政务部门	公文文本
		市公安局	债主携款潜逃。【已建议市民拨打公安110，市民理解】
市公安局	小李以投资酒吧为由，要求我押款3000万，每月返还利息，后以各种理由拒绝返款，联系报案，请求帮助。
		市公安局	我是xx街xx花园xx栋的居民，小区经常有外来车辆停靠，并且小区最近出现电瓶车电瓶被盗的案件，物业一直也没有解决此事，希望有关部门核查。
市教育局	我在中小学教师网报名考试，但是报名后显示的信息有误，xx市教育局的电话一直无人接听，我要求半个小时内回复。
		市教育局	经济技术开发区教育局规定全区小学六年级调考，学校不得公布学生成绩，但是没有告知家长查询成绩的途径，我认为不合理。
市教育局	我想咨询一线医护人员的子女就近入学的问题，什么时候可以落实。
		市科技局	我咨询：发明专利有什么奖励政策。专利年费可不可以自己缴纳。在哪里缴纳。
市科技局	改善现有的防护服。有科研技术，想立项。
		市城管委	xx村里的垃圾溢出来。
市城管委	xx大道xx路交叉口节假日早上8点施工，噪音扰民。
		市城管委	xx路机动车占道停车。

S103.对上述待分类文本进行分词和词性标注处理，得到上述待分类文本的多个分词结果和每个分词结果对应的词性标注结果。

具体地，分词结果可以为多个词语。词性标注用于标记词语的词性为名词、动词、形容词等。

示例性地，可以通过二元词模型对待分类文本进行分词，得到多个分词结果。分词的目的是将一个连续的句子分成各个组成词的单元，从而将对公文的理解转化成对句子的处理，经过分词以后，分词结果中会包含地名、机构名等，后续可以通过分词结果中所包含的地名、机构名等表达文本的主题，从而提高文本分类的准确率。

示例性地，可以采用基于隐马科夫模型(Hidden Markov Model,HMM)来进行词性标注，该词性标注方法将每个词的可能词性看作是HMM的隐含状态，通过定义在每个隐含状态上的转移概率P(t2|t1)以及发射概率P(w|t)，然后通过维特比（Vertbi）算法得到最后最优分词序列。其中，P(t2|t1)表征的是词性t1与词性t2之间的转移概率，P(w|t)表征的是在该词性t下，属于该词w的概率。

在一个可选的实施例中，为了提高文本分类的准确率，在对待分类文本进行分词之前，还可以对待分类文本进行预处理。该预处理的过程可以如下：对停用词进行过滤，以及对日期时间、姓名、邮箱、手机号码等无用信息进行过滤。

示例性地，可以通过停用词库对停用词进行过滤，可以基于正则表达式对日期时间、姓名、邮箱、手机号码等进行过滤。

S105.将每个分词结果与上述预设文本库相匹配，基于匹配结果和上述词性标注结果从多个分词结果中确定出目标分词结果以及上述目标分词结果在上述待分类文本中的第一权重信息。

本申请实施例中，可以将每个分词结果与预设文本库中的不同类别的文本进行匹配，从而确定目标分词结果和该目标分词结果在上述待分类文本中的第一权重信息。

具体地，该目标分词结果可以表征分类文本的关键信息，该第一权重信息可以表征该关键信息在该待分类文本中的重要程度。

在一个可选的实施例中，在上述将每个分词结果与上述预设文本库相匹配之前，上述方法还可以包括：

将每个分词结果与预设领域词典库进行匹配，得到每个分词结果对应的词语类型。

具体地，可以收集不同类别的语料，对收集到的不同类别的语料进行特征统计和新词发现，得到该不同类别对应的预设领域词典库。

该预设领域词典库可以便于比较不同类别之间的频率差异，提高分词结果对应的词语类型确定的准确率。如果某个词语在某个类别中频率比较高，而在其它类别中频率比较低，则可以将其定义为领域词；如果某个词语在各个类别中频率差异变化比较小，则可以将其定义为无关停用词；如果某个词语既不符合领域词的定义条件，也不符合无关停用词的定义条件，则将其定义为普通词。

以下，以文本为公文文本为例，介绍预设领域词典库的生成过程，以及将每个分词结果与预设领域词典库进行匹配，得到每个分词结果对应的词语类型的过程：

收集属于不同政务部门的公文文本（比如，表1中所示的公文文本），对收集到的属于不同政务部门的公文文本进行类别特征统计和新词发现，获取各个政务部门的预设领域词典库。

假设待分类文本的分词结果包括“110”、“我们”和“咨询”，在各个政务部门的预设领域词典库中查找“110”、“我们”和“咨询”，发现“110”在公安局的预设领域词典库中出现的频率远大于在其他部门的预设领域词典库中出现的频率，则认为“110”为公安局这一部门的领域词，而“我们”在各个类别中频率差异变化比较小，则认为“我们”为无关停用词，而“咨询”既不满足领域词的条件，也不满足无关停用词的条件，则认为“咨询”为普通词。

在一个具体的实施例中，图3是根据一示例性实施例示出的一种确定目标分词结果以及上述目标分词结果在上述待分类文本中的第一权重信息的流程示意图。如图3所示，上述预设文本库中包括不同类别的多个预设文本，则上述S105可以包括：

S1051.将每个分词结果与上述多个预设文本相匹配，基于上述匹配结果、上述词性标注结果和上述词语类型，确定每个分词结果在上述待分类文本中的主题词权重信息，并基于上述匹配结果确定每个分词结果在上述不同类别对应的预设文本中的关键词权重信息。

在一个示例性的实施例中，上述词语类型包括领域词和非领域词，图4是根据一示例性实施例示出的一种确定每个分词结果在上述待分类文本中的主题词权重信息的流程示意图，如图4所示，上述S1051可以包括：

S10511.将每个分词结果与上述预设文本库相匹配，得到每个分词结果在上述预设文本库中出现的第一数量、在每个预设文本中出现的第二数量以及包含每个分词结果的预设文本的第三数量。

具体地，上述“相匹配”指的是将每个分词结果与预设文本库中的每个预设文本的预设分词结果进行匹配。

其中，“每个分词结果在上述预设文本库中出现的第一数量”指的是每个分词结果在所有预设文本的所有预设分词结果中出现的数量。“每个分词结果在每个预设文本中出现的第二数量”指的是每个分词结果在每个预设文本的预设分词结果中出现的数量。“包含每个分词结果的预设文本的第三数量”指的是预设分词结果中包含每个分词结果的预设文本的数量。

具体地，每个分词结果在目标预设分词结果中出现的第一数量指的是：每个分词结果在所有预设文本的所有预设分词结果中出现的数量。

假设预设文本的数量为100，所有预设文本的所有预设分词结果的数量为500，某一分词结果为“110”，则第一数量指的是“110”在这500个预设分词结果中出现的次数，第二数量指的是“110”在每个预设文本的分词结果中出现的次数，第三数量指的是预设分词结果中含有该“110”的预设文本的数量。

S10513.根据上述第一数量和目标预设分词结果的数量，确定每个分词结果在上述预设文本库中出现的第一频率；上述目标预设分词结果基于每个预设文本的预设分词结果而确定。

其中，目标预设分词结果指的是上述所有预设文本的所有预设分词结果。具体地，可以对预设文本库中的每个预设文本进行分词处理，得到每个预设文本的预设分词结果。对每个预设文本的预设分词结果进行汇总，得到该目标预设分词结果。将每个预设文本的预设分词结果的数量进行相加，可以得到该目标预设分词结果的数量。

具体地，可以计算第一数量与目标预设分词结果的数量的比值，得到每个分词结果在该预设文本库中出现的第一频率。

假设，某一分词结果“110”在500个目标预设分词结果中出现了5次（即第一数量为5），则第一频率为5/500=0.01。

S10515.根据上述第二数量和每个预设文本的预设分词结果的数量，确定每个分词结果在上述多个预设文本中出现的第二频率。

具体地，在上述S10515中，可以根据第二数量和每个预设文本的预设分词结果的数量，确定每个分词结果在每个预设文本中出现的频率，将每个分词结果在每个预设文本中出现的频率的最大值作为该第二频率。

假设某一分词结果为“110”，该预设文本库中包括3个预设文本（预设文本1、预设文本2、预设文本3），预设文本1对应的预设分词结果的数量为5、预设文本2对应的预设分词结果的数量为10、预设文本3对应的预设分词结果的数量为15，“110”在预设文本1中出现的第二数量为1、在预设文本2中出现的数量为3、在预设文本3中出现的数量为3，则“110”在预设文本1中出现的频率为1/5=0.2，在预设文本2中出现的频率为3/10=0.3，在预设文本3中出现的频率为3/15=0.2，则将0.3作为该第二频率。

S10517.根据上述第三数量和上述多个预设文本的数量，确定每个分词结果在上述多个预设文本中出现的第三频率。

具体地，可以计算第三数量与上述多个预设文本的数量的比值，得到第三频率。

假设某一分词结果为“110”，预设文本的数量为100，预设分词结果中包含“110”这一分词结果的预设文本的第三数量为10，则第三频率为10/100=0.1。

S10519.根据上述第一频率、上述第二频率、上述第三频率和上述词性标注结果，确定词语类型为非领域词的分词结果，在上述待分类文本中的主题词权重信息。

示例性地，非领域词可以包括普通词和无关停用词。无关停用词的主题词权重信息可以为0。

可选地，对于词语类型为非领域词（具体为普通词）的分词结果，其在该待分类文本中的主题词权重信息（

）可以通过以下公式计算：

，

其中，

为对应的第一频率，

为普通词对应的第二频率，

为普通词对应的第三频率。

可选地，如果根据词性标注结果确定普通词为专有名词，则将上述主题词权重信息（

）乘以专有名词加权系数（

），得到普通词的最终主题词权重信息。如果该普通词为名词，则将上述主题词权重信息乘以名词词性加权系数（

），得到普通词的最终主题词权重信息。如果该普通词既为名词，又为专有名词，则将述主题词权重信息同时乘以

和

，得到普通词的最终主题词权重信息，计算公式可以如下：

。

S105111.基于上述主题词权重信息、上述第一频率、上述第二频率、上述第三频率和上述词性标注结果，确定词语类型为领域词的分词结果，在上述待分类文本中的主题词权重信息。

可选地，对于词语类型为领域词的分词结果，其在该待分类文本中的主题词权重信息（

）可以通过以下公式计算：

，

其中，

为所有普通词的主题词权重信息中最大的权值，

为领域词对应的第一频率，

为领域词对应的第二频率，

为领域词对应的第三频率。

可选地，如果根据词性标注结果确定领域词为专有名词，则将上述主题词权重信息（

）乘以专有名词加权系数（

），得到领域词的最终主题词权重信息。如果该领域词为名词，则将上述主题词权重信息乘以名词词性加权系数（

），得到领域词的最终主题词权重信息。如果该领域词既为名词，又为专有名词，则将述主题词权重信息同时乘以

和

，得到领域词的最终主题词权重信息，计算公式可以如下：

。

本申请实施例中，由于专有名词表示主题的概率大于普通名词，名词表示主题的概率大于动词，且由于领域词和非领域词在文本中的重要程度不同，在确定主题词权重信息的时候，引入词性标注结果和词语类型，能够提高主题词权重信息确定的准确率，从而确保后续对分词结果进行主题表征程度重要性排序的准确率，进而提高后续从待分类文本中抽取主题词的准确率。

在一个示例性的实施例中，图5是根据一示例性实施例示出的一种确定每个分词结果在上述不同类别对应的预设文本中的关键词权重信息的流程示意图，如图5所示，上述S1051可以包括：

S10512.将每个分词结果与上述预设文本库相匹配，得到每个分词结果在任一类别对应的预设文本中出现的第四数量。

具体地，上述“相匹配”指的是将每个分词结果与预设文本库中的每个预设文本的预设分词结果进行匹配。上述“每个分词结果在任一类别对应的预设文本中出现的第四数量”指的是每个分词结果在任一类别对应的预设文本的预设分词结果中出现的数量。

以公文为公文文本为例，假设某个分词结果为“110”，预设文本库中有100个预设文本，该100个预设文本属于3个类别（公安局、水利局、城管委），类别为公安局的预设文本的数量为30，类别为水利局的预设文本的数量为30，类别为城管委的预设文本的数量为40。则上述第四数量指的是：“110”在类别为公安局的30个预设文本的所有预设分词结果中出现的数量，在类别为水利局的30个预设文本的所有预设分词结果中出现的数量，在类别为城管委的40个预设文本的所有预设分词结果中出现的数量。

S10514.根据上述第四数量和上述任一类别对应的预设文本的预设分词结果的数量，确定每个分词结果在上述任一类别对应的预设文本中的词频。

具体地，上述“任一类别对应的预设文本的预设分词结果的数量”指的是：任一类别对应的所有预设文本的所有分词结果的数量（即任一类别文本的总词数）。

具体地，可以将第四数量与任一类别对应的预设文本的预设分词结果的数量的比值，作为每个分词结果在上述任一类别对应的预设文本中的词频（TF），计算公式可以如下：

。

假设，某一分词结果为“110”，类别为公安局的预设文本的数量为30，“110”在公安局在这30个预设文本的所有预设分词结果中出现的次数（即第四数量）为10，分别计算这30个预设文本各自对应的预设分词结果的数量，将这30个预设文本各自对应的预设分词结果的数量相加，得到公安局类别对应的预设文本的预设分词结果的数量（即公安局类别文本的总词数）为200，则TF=10/200=0.05。

S10516.确定包含每个分词结果的其他类别预设文本的第五数量，上述其他类别预设文本为上述不同类别中除上述任一类别之外的其他类别所对应的预设文本。

S10518.根据上述多个预设文本的数量和上述第五数量，确定每个分词结果在上述任一类别对应的预设文本中的逆文档频率。

具体地，以文本为公文文本为例，假设当前任一类别为公安局，则其他类别为水利局和城管委，则第五数量为水利局和城管委对应的预设文本的所有分词结果中包含该“110”的预设文本的数量。

假设类别为水利局的预设文本的数量为30，类别为城管委的预设文本的数量为40，即其他类别预设文本的数量为30+40=70，这70个其他类别预设文本中，有50个其他类别预设文本的预设分词结果中出现了该“110”，则第五数量为50。

示例性地，可以根据多个预设文本的数量（即预设文本库中总文本数，比如，100）和第五数量（比如，50），按照如下计算公式可以计算得到逆文档频率（IDF）：

。

S105110.根据上述词频和上述逆文档频率，确定每个分词结果在上述不同类别对应的预设文本中的关键词权重信息。

具体地，可以计算词频和上述逆文档频率的乘积，得到上述关键词权重信息，计算公式可以如下：

。

本申请实施例中，通过上述第四数量和任一类别对应的预设文本的预设分词结果的数量确定词频，能够准确评估每一分词结果对于任一类别文本的重复程度，通过上述多个预设文本的数量和上述第五数量确定逆文档频率，能够准确评估每一分词结果对于其他类别文本的重要程度。在此基础上，通过词频和逆文档频率确定出的关键词权重信息能够准确表征每个分词结果在各个类别中的区分能力，从而确保后续对分词结果进行关键词程度重要性排序的准确率，进而提高后续从待分类文本中抽取主题词的准确率。

S1053.根据上述主题词权重信息，从上述多个分词结果中确定出主题词分词结果。

在一个具体的实施例中，图6是根据一示例性实施例示出的一种根据上述主题词权重信息，从上述多个分词结果中确定出主题词分词结果的流程示意图，如图6所示，上述S1053可以包括：

S10531.根据词语类型为领域词的分词结果，在上述待分类文本中的主题词权重信息，对词语类型为领域词的分词结果进行降序排序，得到领域词序列。

S10533.根据词语类型为非领域词的分词结果，在上述待分类文本中的主题词权重信息，对词语类型为非领域词的分词结果进行降序排序，得到非领域词序列。

S10535.将上述领域词序列中前预设数量个领域词和上述非领域词序列中前预设数量个非领域词，作为上述主题词分词结果。

在实际应用中，待分类文本中可以抽取得到多个领域词和多个非领域词（包括普通词和无关停用词），则可以按照相应的主题词权重对多个领域词和多个普用词分别进行降序排序，将排序前预设数量个领域词和排序前预设数量个普通词作为主题词分词结果。

本申请实施例中取前预设数量个领域词和普通词作为主题词分词结果，由于前预设数量个领域词和普通词的主题词权重信息较大，更能够表征该待分类文本的关键信息，从而提高文本分类的准确率。

S1055.根据上述关键词权重信息，从上述多个分词结果中确定出关键词分词结果。

在一个具体的实施例中，图7是根据一示例性实施例示出的一种根据上述关键词权重信息，从上述多个分词结果中确定出关键词分词结果的流程示意图，如图7所示，上述S1055可以包括：

S10551.基于每个分词结果在上述不同类别对应的预设文本中的关键词权重信息，对上述多个分词结果进行降序排序，得到上述多个分词结果在上述不同类别中的分词结果序列。

S10553.将上述分词结果序列中前预设数量个分词结果，作为上述关键词分词结果。

具体地，可以将多个分词结果在不同类别中的分词结果序列中前预设数量个分词结果，作为上述关键词分词结果。

可选地，还可以将分词结果序列中排序最前的分词结果，作为该关键词分词结果。

本申请实施例中取分词结果序列中前预设数量个分词结果，作为上述关键词分词结果，由于前预设数量个分词结果的关键词权重信息较大，更能够表征该待分类文本的关键信息，从而提高文本分类的准确率。

S1057.将上述主题词分词结果和上述关键词分词结果作为上述目标分词结果，将上述关键词权重信息和上述主题词权重信息作为上述第一权重信息。

在一个可选的实施例中，可以将主题词分词结果和上述关键词分词结果作为上述目标分词结果（即待分类文本的关键信息），并将关键词权重信息和上述主题词权重信息作为该关键信息在该待分类文本中的第一权重信息。

本申请实施例通过上述方式确定的关键词权重信息和主题词权重信息的精度较高，在此基础上抽取得到的主题词分词结果和上述关键词分词结果能够充分表征该待分类文本的关键信息，从而提高文本分类的准确率。

在另一个可选的实施例中，上述方法还可以包括：对每个分词结果进行实体识别，得到上述待分类文本对应的实体识别结果和上述实体识别结果在上述待分类文本中的实体权重信息。

以文本为公文本文为例，公文文本中出现的机构名实体，如派出所、公安等，对公文自动分类有很大的帮助。因此，可以使用实体识别工具（比如，NER）对待分类文本中的机构名进行实体识别，获取待分类分文中的实体识别结果（即机构名实体）。

相应地，可以将上述主题词分词结果、上述关键词分词结果和上述实体识别结果作为上述目标分词结果，将上述关键词权重信息、上述主题词权重信息和上述实体权重信息作为上述第一权重信息。

由于实体识别结果有助于文本的自动分类，因此，在主题词分词结果和上述关键词分词结果的基础上，引入实体识别结果，能够更加充分表征该待分类文本的关键信息，从而提高文本分类的准确率。

在一个可选的实施例中，还可以挖掘文本通常出现的模式，通过文本通常出现的模式来抽取该目标分词结果。例如，可以将待分类文本与预设文本库中的预设文本进行模式匹配，根据匹配结果抽取该待分类文本的关键信息（即目标分词结果）。

S107.基于上述第一权重信息，确定上述多个分词结果中除上述目标分词结果之外的其他分词结果在上述待分类文本中的第二权重信息。

在一个可选的实施例中，图8是根据一示例性实施例示出的一种基于上述第一权重信息，确定上述多个分词结果中除上述目标分词结果之外的其他分词结果在上述待分类文本中的第二权重信息的流程示意图，如图8所示，上述S107可以包括：

S1071.对上述关键词权重信息、上述主题词权重信息和上述实体权重信息进行升序排序，得到权重信息序列。

S1073.将上述权重信息序列中排序最前的权重信息与预设权重信息阈值的差值，作为上述第二权重信息。

具体地，在目标分词结果包括主题词分词结果、上述关键词分词结果和实体识别结果，第一权重信息包括关键词权重信息（

）、上述主题词权重信息（

）和实体权重信息（

）时，可以按照以下方式确定上述第二权重信息（

）：

，

其中，“

”指的是，

小于

、

和

中最小的一个。

示例性地，可以将

、

和

中最小的一个权重信息与预设权重信息阈值的差值，作为该

。该预设权重信息阈值可以根据实际使用场景进行设置，本申请对此不做限定。

由于其他分词结果对该待分类文本的重要程度较低，将第二权重信息设置为小于

、

和

中最小的一个，能够进一步体现关键信息（即目标分词结果）的重要程度，以该方式确定的第一权重信息和第二权重信息为基础，有利于提取出精度更高文本特征信息，从而提高文本分类的准确率。

需要说明的是，如果某个分词结果是主题词分词结果、上述关键词分词结果和实体识别结果中的两种或三种（比如，某个分词结果既是关键词，又是机构名实体），则取权重信息最大的权重信息作为该分词结果的权重信息。

S109.根据上述第一权重信息和上述第二权重信息，对上述目标分词结果的特征信息和上述其他分词结果的特征信息进行加权，得到上述待分类文本的文本特征信息。

可选地，上述特性信息可以为词向量，该文本特征信息可以为该待分类文本的句向量编码表示。

具体地，可以利用Word2vec训练得到词向量模型，对以上挖掘的不同种类的分词结果进行对应权重的词向量加权求和，得到该待分类文本的句向量编码表示。其中，Word2vec是一群用来产生词向量的相关模型。

S1011.基于文本分类模型对上述文本特征信息进行相关性识别处理，得到上述待分类文本的文本分类结果，上述文本分类模型基于标注有类别标签的样本文本对神经网络进行文本相关性学习得到。

具体地，可以将文本特征信息输入到文本分类模型，由文本分类模型学习该文本特征信息与已知类别文本的特征信息之间的相关性，得到该待分类文本的文本分类结果。

示例性地，该文本分类模型可以包括相关性特征提取模块、特征提取和融合模块、前馈神经网络和分类模块。

具体地，该相关性特征提取模块用于提取该待分类文本的文本特征信息与已知类别文本的特征信息之间的相关性特征。该特征提取和融合模块用于对相关性特征提取模块所提取到的特征进行深度特征提取，同时对提取到的特征进行特征融合。该前馈神经网络用于接收该特征提取和融合模块的输出，并输出给该分类模块。该分类模块用于输出该待分类分文的文本分类结果。

可选地，该相关性特征提取模块包括但不限于：Transformer模型、卷积神经网络（Convolutional Neural Networks,CNN）、循环神经网络（Recurrent Neural Network,RNN）系列的模型。其中，Transformer模型属于自回归模型，基于自注意力可以并行训练，且不用依赖于上一个时刻的模型输出作为输入。

图9所示为根据一示例性的实施例示出的一种Transformer模型的结构示意图。如图9所示，该Transformer模型属于自回归模型，其可以包括残差结果和归一化（Add&Norm）层、前馈网络（FeedForward）层和多头自注意力机制（Mult-Head Self Attention）层。其中，Mult-Head Self Attention结构由多层结构相同但权重矩阵不同的注意力（Attention）组成，该结构防止模型只关注到模型的一部分特征，通过多头（Mult-Head）的设计使每一个头（Head）都关注到了不同的特征，从而使得Transformer模型可以关注到更多的特征，学习到文本特征之间的相关性，让Transformer模型从不同角度去学习多方面不同的信息，然后再进行特征融合，有助于提高文本的精度。

此外，由于Transformer相较于CNN能够获取全局信息，同时Transformer改进了RNN训练慢的缺点，可以利用自注意力（Self Attention）机制实现快速并行，从而可以提高待分类文本分类的效率。

图10所示为根据一示例性实施例示出的一种文本分类模型的结构示意图。如图10所示，该特征提取和融合模块可以为门控循环单元（GRU），GRU可以进行深度特征抽取。该分类模块可以为激活函数（比如，sigmoid函数）。其中，GRU是比长短期记忆网络（Long Short-Term Memory，LSTM）参数更少的能够很好处理序列信息的模型。

可选地，也可以将GRU层替换为多拼接几层前馈神经网络层，同样能够有效的处理和融合特征。

具体地，在上述S1011中，可以将文本特征信息输入Transformer模型得到的相关性特征，基于GRU进行特征抽取，接着将融合特征输入，并使用sigmoid函数作为输出层。

示例性地，该文本分类结果可以为该待分类文本属于某个类别或不属于某个类别的结果。

示例性地，该文本分类结果还可以为该待分类文本与已知类别文本特征的关联概率，将关联概率最大的类别作为该待分类文本的文本分类结果。假设该待分类文本为公文，则将待分类文本的文本特征信息输入到该文本分类模型中之后，可以得到该文本特征信息与已知部门公文特征之间的关联概率，将公文关联概率最大的部门作为待分类文本的部门标签，获取待分类公文的所属部门。

在一个可选的实施例中，图11所述为根据一实例性实施例示出的一种构建上述文本分类模型的流程示意图，如图11所示，构建上述文本分类模型的步骤可以包括：

S201.获取样本文本集，上述样本文本集包括标注有类别标签的多个样本文本。

S203.对每个样本文本进行分词和词性标注处理，得到每个样本文本对应的多个样本分词结果和每个样本分词结果对应的样本词性标注结果。

S205.将每个样本文本对应的各个样本分词结果与上述样本文本集中的其他样本文本相匹配，基于匹配结果和上述样本词性标注结果，从每个样本文本对应的多个样本分词结果中，确定出每个样本文本的目标样本分词结果以及上述目标样本分词结果在每个样本文本中的第一样本权重信息。

S207.基于上述第一样本权重信息，确定每个样本文本对应的多个样本分词结果中除上述目标样本分词结果之外的其他样本分词结果，在每个样本文本中的第二样本权重信息。

S209.根据上述第一样本权重信息和上述第二样本权重信息，对每个样本文本的目标样本分词结果的特征信息和上述其他样本分词结果的特征信息进行加权，得到每个样本文本的样本文本特征信息。

S2011.基于每个样本文本的样本文本特征信息，对神经网络进行文本相关性学习训练，得到上述多个样本文本对应的类别预测结果。

S2013.根据上述类别预测结果和上述类别标签，确定损失数据。

S2015.基于上述损失数据训练上述神经网络，得到上述文本分类模型。

在一个可选的实施例中，上述神经网络结构的结构与上述文本分类模型的而结构类似，在此不再赘述。

在上述S201中，可以获取包含有类别标签的多个样本文本的样本文本集。以文本为公文文本为例，该样本文本可以是各个部门历史审批的公文文本，该公文文本的数据结构和具体形式与表1类似，在此不再赘述。

上述S203中的分词和词性标注处理与上述S103类似，在此不再赘述。

上述S205中的确定第一样本权重信息的过程与上述S105中的确定第一权重信息的过程类似，在此不再赘述。

上述S207中的确定第二样本权重信息的过程与上述S107中的确定第二权重信息的过程类似，在此不再赘述。

上述S209中的确定样本文本特征信息的过程与上述S109中的确定文本特征信息的过程类似，在此不再赘述。

在上述S2011中可以将每个样本文本的样本文本特征信息输入到上述神经网络，首先通过Transformer模型抽取不同样本文本之间的相关性特征，接着基于GRU进行特征抽取和融合，输入到前馈神经网络，将不同文本之间是否有关联关系量化为概率，最后使用sigmoid函数作为输出层，输出类别预测结果。

可选地，上述S2013中所使用的损失函数可以为标准的交叉熵损失，公式如下：

，

其中，x指的是样本文本特征信息，y指的是类别预测结果，D指的是样本本文，N指的是样本文本的总数。

本公开实施例中，由于Transformer可以利用Self Attention机制实现快速并行，使得训练得到的文本分类模型具有较高的文本分类效率，且由于Mult-Head SelfAttention结构由多层结构相同但权重矩阵不同的注意力（Attention）组成，该结构防止模型只关注到模型的一部分特征，通过多头（Mult-Head）的设计使每一个头（Head）都关注到了不同的特征，从而使得Transformer模型可以关注到更多的特征，学习到文本特征之间的相关性，从而使得该文本分类模型具有较高的文本分类精度。此外，使用该训练方式得到的文本分类模型，可以避免对规则和模板依赖较大所带来的系统资源消耗较大的缺陷，降低文本分类过程对系统资源的消耗。

在一个可选的实施例中，S103中的分词结果和词性标注结果、S109中的文本特征信息、S1011中的文本分类结果等可保存于区块链（Blockchain）上。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成（账户管理）、密钥管理以及用户真实身份和区块链地址对应关系维护（权限管理）等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置（风控审计）；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理（接口适配），然后通过共识算法将业务信息加密（共识管理），在加密之后完整一致的传输至共享账本上（网络通信），并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上（合约注册），根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

如图12所示为根据一示例性实施例示出的一种文本分类装置框图，如图12所示，该装置可以至少包括：

获取模块301，可以用于获取待分类文本和预设文本库。

分词和词性标注模块303，可以用于对上述待分类文本进行分词和词性标注处理，得到上述待分类文本的多个分词结果和每个分词结果对应的词性标注结果。

第一权重信息确定模块305，可以用于将每个分词结果与上述预设文本库相匹配，基于匹配结果和上述词性标注结果从多个分词结果中确定出目标分词结果以及上述目标分词结果在上述待分类文本中的第一权重信息。

第二权重信息确定模块307，可以用于基于上述第一权重信息，确定上述多个分词结果中除上述目标分词结果之外的其他分词结果在上述待分类文本中的第二权重信息。

加权模块309，可以用于根据上述第一权重信息和上述第二权重信息，对上述目标分词结果的特征信息和上述其他分词结果的特征信息进行加权，得到上述待分类文本的文本特征信息。

文本分类结果获取模块3011，可以用于基于文本分类模型对上述文本特征信息进行相关性识别处理，得到上述待分类文本的文本分类结果，上述文本分类模型基于标注有类别标签的样本文本对神经网络进行文本相关性学习得到。

在一示例性的实施方式中，该装置还可以包括：

词语类型获取模块，可以用于将每个分词结果与预设领域词典库进行匹配，得到每个分词结果对应的词语类型。

相应地，该第一权重信息确定模块305可以包括：

第一匹配单元，可以用于将每个分词结果与上述多个预设文本相匹配，基于上述匹配结果、上述词性标注结果和上述词语类型，确定每个分词结果在上述待分类文本中的主题词权重信息，并基于上述匹配结果确定每个分词结果在上述不同类别对应的预设文本中的关键词权重信息。

主题词分词结果确定单元，可以用于根据上述主题词权重信息，从上述多个分词结果中确定出主题词分词结果。

关键词分词结果确定单元，可以用于根据上述关键词权重信息，从上述多个分词结果中确定出关键词分词结果。

第一权重信息确定单元，可以用于将上述主题词分词结果和上述关键词分词结果作为上述目标分词结果，将上述关键词权重信息和上述主题词权重信息作为上述第一权重信息。

在一示例性的实施方式中，上述词语类型包括领域词和非领域词，则第一匹配单元可以包括：

匹配子单元，可以用于将每个分词结果与上述预设文本库相匹配，得到每个分词结果在上述预设文本库中出现的第一数量、在每个预设文本中出现的第二数量以及包含每个分词结果的预设文本的第三数量。

第一频率确定子单元，可以用于根据上述第一数量和目标预设分词结果的数量，确定每个分词结果在上述预设文本库中出现的第一频率；上述目标预设分词结果基于每个预设文本的预设分词结果而确定。

第二频率确定子单元，可以用于根据上述第二数量和每个预设文本的预设分词结果的数量，确定每个分词结果在上述多个预设文本中出现的第二频率。

第三频率确定子单元，可以用于根据上述第三数量和上述多个预设文本的数量，确定每个分词结果在上述多个预设文本中出现的第三频率。

第一主题词权重信息确定子单元，可以用于根据上述第一频率、上述第二频率、上述第三频率和上述词性标注结果，确定词语类型为非领域词的分词结果，在上述待分类文本中的主题词权重信息。

第二主题词权重信息确定子单元，可以用于基于上述主题词权重信息、上述第一频率、上述第二频率、上述第三频率和上述词性标注结果，确定词语类型为领域词的分词结果，在上述待分类文本中的主题词权重信息。

在一示例性的实施方式中，该主题词分词结果确定单元可以包括：

领域词序列确定子单元，可以用于根据词语类型为领域词的分词结果，在上述待分类文本中的主题词权重信息，对词语类型为领域词的分词结果进行降序排序，得到领域词序列。

非领域词序列确定子单元，可以用于根据词语类型为非领域词的分词结果，在上述待分类文本中的主题词权重信息，对词语类型为非领域词的分词结果进行降序排序，得到非领域词序列。

主题词分词结果确定子单元，可以用于将上述领域词序列中前预设数量个领域词和上述非领域词序列中前预设数量个非领域词，作为上述主题词分词结果。

在一示例性的实施方式中，该第一匹配单元可以包括：

第四数量确定子单元，可以用于将每个分词结果与上述预设文本库相匹配，得到每个分词结果在任一类别对应的预设文本中出现的第四数量。

词频确定子单元，可以用于根据上述第四数量和上述任一类别对应的预设文本的预设分词结果的数量，确定每个分词结果在上述任一类别对应的预设文本中的词频。

第五数量确定子单元，可以用于确定包含每个分词结果的其他类别预设文本的第五数量，上述其他类别预设文本为上述不同类别中除上述任一类别之外的其他类别所对应的预设文本。

逆文档频率确定子单元，可以用于根据上述多个预设文本的数量和上述第五数量，确定每个分词结果在上述任一类别对应的预设文本中的逆文档频率。

关键词权重信息确定子单元，可以用于根据上述词频和上述逆文档频率，确定每个分词结果在上述不同类别对应的预设文本中的关键词权重信息。

在一示例性的实施方式中，该关键词分词结果确定单元可以包括：

分词结果序列确定子单元，可以用于基于每个分词结果在上述不同类别对应的预设文本中的关键词权重信息，对上述多个分词结果进行降序排序，得到上述多个分词结果在上述不同类别中的分词结果序列。

关键词分词结果确定子单元，可以用于将上述分词结果序列中前预设数量个分词结果，作为上述关键词分词结果。

在一示例性的实施方式中，该装置还可以包括：

实体识别模块，可以用于对每个分词结果进行实体识别，得到上述待分类文本对应的实体识别结果和上述实体识别结果在上述待分类文本中的实体权重信息。

相应地，该第一权重信息确定单元，可以用于将上述主题词分词结果、上述关键词分词结果和上述实体识别结果作为上述目标分词结果，将上述关键词权重信息、上述主题词权重信息和上述实体权重信息作为上述第一权重信息。

在一示例性的实施方式中，该第二权重信息确定模块307可以包括：

权重信息序列获取单元，可以用于对上述关键词权重信息、上述主题词权重信息和上述实体权重信息进行升序排序，得到权重信息序列。

第二权重信息确定子单元，可以用于将上述权重信息序列中排序最前的权重信息与预设权重信息阈值的差值，作为上述第二权重信息。

在一示例性的实施方式中，该装置还可以包括文本分类模型构建模块，该文本分类模型构建模块可以包括：

样本文本集获取模块，可以用于获取样本文本集，上述样本文本集包括标注有类别标签的多个样本文本。

样本分词和词性标注模块，可以用于对每个样本文本进行分词和词性标注处理，得到每个样本文本对应的多个样本分词结果和每个样本分词结果对应的样本词性标注结果。

第一样本权重信息确定模块，可以用于将每个样本文本对应的各个样本分词结果与上述样本文本集中的其他样本文本相匹配，基于匹配结果和上述样本词性标注结果，从每个样本文本对应的多个样本分词结果中，确定出每个样本文本的目标样本分词结果以及上述目标样本分词结果在每个样本文本中的第一样本权重信息。

第二样本权重信息确定模块，可以用于基于上述第一样本权重信息，确定每个样本文本对应的多个样本分词结果中除上述目标样本分词结果之外的其他样本分词结果，在每个样本文本中的第二样本权重信息。

样本文本特征信息确定模块，可以用于根据上述第一样本权重信息和上述第二样本权重信息，对每个样本文本的目标样本分词结果的特征信息和上述其他样本分词结果的特征信息进行加权，得到每个样本文本的样本文本特征信息。

训练模块，可以用于基于每个样本文本的样本文本特征信息，对神经网络进行文本相关性学习训练，得到上述多个样本文本对应的类别预测结果。

损失数据确定模块，可以用于根据上述类别预测结果和上述类别标签，确定损失数据。

文本分类模型确定模块，可以用于基于上述损失数据训练上述神经网络，得到上述文本分类模型。

需要说明的是，本申请实施例提供的装置实施例与上述方法实施例基于相同的发明构思。

本申请实施例还提供了一种文本分类的电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的文本分类方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种文本分类方法相关的至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的文本分类方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的文本分类方法。

本申请实施例提供的一种文本分类方法、装置、设备、存储介质及计算机程序产品，具有如下有益效果：

1）由于Transformer可以利用Self Attention机制实现快速并行，使得训练得到的文本分类模型具有较高的文本分类效率，且由于Mult-Head Self Attention结构由多层结构相同但权重矩阵不同的注意力（Attention）组成，该结构防止模型只关注到模型的一部分特征，通过多头（Mult-Head）的设计使每一个头（Head）都关注到了不同的特征，从而使得Transformer模型可以关注到更多的特征，学习到文本特征之间的相关性，从而使得该文本分类模型具有较高的文本分类精度。此外，使用Transformer训练得到的文本分类模型，可以避免对规则和模板依赖较大所带来的系统资源消耗较大的缺陷，降低文本分类过程对系统资源的消耗。

2）在数字政务领域，公文自动分类是实现政务数字化转型、民生服务在线办理的必经途径。民生服务一网通办、政务服务一网互联等新治理新服务理念的提出，加快政府数字化发展，其中民生服务和社会治理产生的大量的政务数据，如民生事项办理、公文文本、数字服务等数据，都需要被更好地进行挖掘和分析，才能真正实现和加快政务行业的智能化，提高人民和政府工作人员处理事项的便捷性。本申请可以广泛地应用于数字政务、智慧民生事项办理等领域，例如在政务协同应用上，将采集的民众反馈案件信息进行案件主题标签分类和办理部门的识别分类，能够极大地降低基层公务人员依靠人工审批分发的工作量，提高公务办事效率和事件处理的效率，具有较高的工业应用价值和指导意义。

本申请实施例所提供的文本分类方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图13是根据一示例性实施例示出的一种文本分类的服务器的硬件结构框图。如图13所示，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（Central Processing Units，CPU）410（中央处理器410可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器430，一个或一个以上存储应用程序423或数据422的存储介质420（例如一个或一个以上海量存储设备）。其中，存储器430和存储介质420可以是短暂存储或持久存储。存储在存储介质420的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器410可以设置为与存储介质420通信，在服务器400上执行存储介质420中的一系列指令操作。服务器400还可以包括一个或一个以上电源460，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口440，和/或，一个或一个以上操作系统421，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口440可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器400的通信供应商提供的无线网络。在一个实例中，输入输出接口440包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口440可以为射频（RadioFrequency，RF）模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图13所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器400还可包括比图13中所示更多或者更少的组件，或者具有与图13所示不同的配置。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获取待分类文本和预设文本库；

将每个分词结果与所述预设文本库中包括的不同类别的多个预设文本相匹配，基于匹配结果、所述词性标注结果和词语类型，确定每个分词结果在所述待分类文本中的主题词权重信息，并基于所述匹配结果确定每个分词结果在所述不同类别对应的预设文本中的关键词权重信息；根据所述主题词权重信息，从所述多个分词结果中确定出主题词分词结果；根据所述关键词权重信息，从所述多个分词结果中确定出关键词分词结果；将所述主题词分词结果和所述关键词分词结果作为目标分词结果，将所述关键词权重信息和所述主题词权重信息作为所述目标分词结果在所述待分类文本中的第一权重信息；所述词语类型为将每个分词结果与预设领域词典库进行匹配得到；

对所述关键词权重信息、所述主题词权重信息和实体权重信息进行升序排序，得到权重信息序列；将所述权重信息序列中排序最前的权重信息与预设权重信息阈值的差值，作为所述多个分词结果中除所述目标分词结果之外的其他分词结果在所述待分类文本中的第二权重信息；所述实体权重信息为对每个分词结果进行实体识别得到；

2.根据权利要求1所述的文本分类方法，其特征在于，所述词语类型包括领域词和非领域词，则所述将每个分词结果与所述预设文本库中包括的不同类别的多个预设文本相匹配，基于匹配结果、所述词性标注结果和词语类型，确定每个分词结果在所述待分类文本中的主题词权重信息，包括：

将每个分词结果与所述预设文本库相匹配，得到每个分词结果在所述预设文本库中出现的第一数量、在每个预设文本中出现的第二数量以及包含每个分词结果的预设文本的第三数量；

根据所述第一数量和目标预设分词结果的数量，确定每个分词结果在所述预设文本库中出现的第一频率；所述目标预设分词结果基于每个预设文本的预设分词结果而确定；

根据所述第二数量和每个预设文本的预设分词结果的数量，确定每个分词结果在所述多个预设文本中出现的第二频率；

根据所述第三数量和所述多个预设文本的数量，确定每个分词结果在所述多个预设文本中出现的第三频率；

根据所述第一频率、所述第二频率、所述第三频率和所述词性标注结果，确定词语类型为非领域词的分词结果，在所述待分类文本中的主题词权重信息；

基于所述主题词权重信息、所述第一频率、所述第二频率、所述第三频率和所述词性标注结果，确定词语类型为领域词的分词结果，在所述待分类文本中的主题词权重信息。

3.根据权利要求2所述的文本分类方法，其特征在于，所述根据所述主题词权重信息，从所述多个分词结果中确定出主题词分词结果，包括：

根据词语类型为领域词的分词结果，在所述待分类文本中的主题词权重信息，对词语类型为领域词的分词结果进行降序排序，得到领域词序列；

根据词语类型为非领域词的分词结果，在所述待分类文本中的主题词权重信息，对词语类型为非领域词的分词结果进行降序排序，得到非领域词序列；

将所述领域词序列中前预设数量个领域词和所述非领域词序列中前预设数量个非领域词，作为所述主题词分词结果。

4.根据权利要求1所述的文本分类方法，其特征在于，所述基于所述匹配结果确定每个分词结果在所述不同类别对应的预设文本中的关键词权重信息，包括：

将每个分词结果与所述预设文本库相匹配，得到每个分词结果在任一类别对应的预设文本中出现的第四数量；

根据所述第四数量和任一类别对应的预设文本的预设分词结果的数量，确定每个分词结果在任一类别对应的预设文本中的词频；

确定包含每个分词结果的其他类别预设文本的第五数量，所述其他类别预设文本为所述不同类别中除任一类别之外的其他类别所对应的预设文本；

根据所述多个预设文本的数量和所述第五数量，确定每个分词结果在任一类别对应的预设文本中的逆文档频率；

根据所述词频和所述逆文档频率，确定每个分词结果在所述不同类别对应的预设文本中的关键词权重信息。

5.根据权利要求4所述的文本分类方法，其特征在于，所述根据所述关键词权重信息，从所述多个分词结果中确定出关键词分词结果，包括：

基于每个分词结果在所述不同类别对应的预设文本中的关键词权重信息，对所述多个分词结果进行降序排序，得到所述多个分词结果在所述不同类别中的分词结果序列；

将所述分词结果序列中前预设数量个分词结果，作为所述关键词分词结果。

6.根据权利要求5所述的文本分类方法，其特征在于，所述方法还包括：

对每个分词结果进行实体识别，得到所述待分类文本对应的实体识别结果和所述实体识别结果在所述待分类文本中的所述实体权重信息；

相应地，所述将所述主题词分词结果和所述关键词分词结果作为所述目标分词结果，将所述关键词权重信息和所述主题词权重信息作为所述第一权重信息，包括：

将所述主题词分词结果、所述关键词分词结果和所述实体识别结果作为所述目标分词结果，将所述关键词权重信息、所述主题词权重信息和所述实体权重信息作为所述第一权重信息。

7.根据权利要求1至6任一项所述的文本分类方法，其特征在于，所述方法还包括构建所述文本分类模型的步骤，所述构建所述文本分类模型的步骤包括：

获取样本文本集，所述样本文本集包括标注有类别标签的多个样本文本；

对每个样本文本进行分词和词性标注处理，得到每个样本文本对应的多个样本分词结果和每个样本分词结果对应的样本词性标注结果；

将每个样本文本对应的各个样本分词结果与所述样本文本集中的其他样本文本相匹配，基于匹配结果和所述样本词性标注结果，从每个样本文本对应的多个样本分词结果中，确定出每个样本文本的目标样本分词结果以及所述目标样本分词结果在每个样本文本中的第一样本权重信息；

基于所述第一样本权重信息，确定每个样本文本对应的多个样本分词结果中除所述目标样本分词结果之外的其他样本分词结果，在每个样本文本中的第二样本权重信息；

根据所述第一样本权重信息和所述第二样本权重信息，对每个样本文本的目标样本分词结果的特征信息和所述其他样本分词结果的特征信息进行加权，得到每个样本文本的样本文本特征信息；

基于每个样本文本的样本文本特征信息，对神经网络进行文本相关性学习训练，得到所述多个样本文本对应的类别预测结果；

根据所述类别预测结果和所述类别标签，确定损失数据；

基于所述损失数据训练所述神经网络，得到所述文本分类模型。

8.一种文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类文本和预设文本库；

第一权重信息确定模块，用于将每个分词结果与所述预设文本库中包括的不同类别的多个预设文本相匹配，基于匹配结果、所述词性标注结果和词语类型，确定每个分词结果在所述待分类文本中的主题词权重信息，并基于所述匹配结果确定每个分词结果在所述不同类别对应的预设文本中的关键词权重信息；根据所述主题词权重信息，从所述多个分词结果中确定出主题词分词结果；根据所述关键词权重信息，从所述多个分词结果中确定出关键词分词结果；将所述主题词分词结果和所述关键词分词结果作为目标分词结果，将所述关键词权重信息和所述主题词权重信息作为所述目标分词结果在所述待分类文本中的第一权重信息；所述词语类型为将每个分词结果与预设领域词典库进行匹配得到；

第二权重信息确定模块，用于对所述关键词权重信息、所述主题词权重信息和实体权重信息进行升序排序，得到权重信息序列；将所述权重信息序列中排序最前的权重信息与预设权重信息阈值的差值，作为所述多个分词结果中除所述目标分词结果之外的其他分词结果在所述待分类文本中的第二权重信息；所述实体权重信息为对每个分词结果进行实体识别得到；

9.一种文本分类的电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7中任一所述的文本分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7中任一所述的文本分类方法。