CN115269851B

CN115269851B - 文章分类方法、装置、电子设备、存储介质及程序产品

Info

Publication number: CN115269851B
Application number: CN202210932752.6A
Authority: CN
Inventors: 徐程程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2024-04-16
Anticipated expiration: 2042-08-04
Also published as: CN115269851A

Abstract

本申请提供了一种文章分类方法、装置、电子设备、存储介质及程序产品；方法包括：获取待分类文章，并对待分类文章进行关键词提取，得到待分类文章中携带地域特征的关键词；对关键词进行特征提取，得到关键词的关键词特征，并对待分类文章的内容进行特征提取，得到待分类文章的文本特征；获取待分类文章的地域性特征，地域性特征用于表征待分类文章的地域性；将关键词特征、文本特征和地域性特征进行融合，得到待分类文章的目标特征；基于目标特征，对待分类文章进行地域性类别预测，得到待分类文章归属于地域性文章的预测结果。通过本申请，能够有效提高文章分类的准确性。

Description

文章分类方法、装置、电子设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文章分类方法、装置、电子设备、存储介质及程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在相关技术中，通常是通过待分类文章的频道信息，搭配一些人为制定的分类规则确定待分类文章是否为地域性文章，由于人为指定的规则比较生硬，导致分类准确性较差。

发明内容

本申请实施例提供一种文章分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高文章分类的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种文章分类方法，包括：

获取待分类文章，并对待分类文章进行关键词提取，得到待分类文章中携带地域特征的关键词；

对关键词进行特征提取，得到关键词的关键词特征，并对待分类文章的内容进行特征提取，得到待分类文章的文本特征；

获取待分类文章的地域性特征，地域性特征用于表征待分类文章的地域性；

将关键词特征、文本特征和地域性特征进行融合，得到待分类文章的目标特征；

基于目标特征，对待分类文章进行地域性类别预测，得到待分类文章归属于地域性文章的预测结果。

本申请实施例提供一种文章分类装置，包括：

关键词提取模块，用于获取待分类文章，并对所述待分类文章进行关键词提取，得到所述待分类文章中携带地域特征的关键词；

特征提取模块，用于对所述关键词进行特征提取，得到所述关键词的关键词特征，并对所述待分类文章的内容进行特征提取，得到所述待分类文章的文本特征；

地域性特征获取模块，用于获取所述待分类文章的地域性特征，所述地域性特征用于表征所述待分类文章的地域性；

特征融合模块，用于将所述关键词特征、所述文本特征和所述地域性特征进行融合，得到所述待分类文章的目标特征；

类别预测模块，用于基于所述目标特征，对所述待分类文章进行地域性类别预测，得到所述待分类文章归属于地域性文章的预测结果。

在一些实施例中，上述关键词提取模块，还用于对所述待分类文章进行分词处理，得到所述待分类文章中的各词语；将所述各词语中的无语义词删除，得到所述待分类文章中的候选关键词；对各所述候选关键词进行地域显著性计算，得到各所述候选关键词的地域显著性得分；将所述地域显著性得分处于预设得分区间的候选关键词，确定为所述待分类文章中携带所述地域特征的关键词。

在一些实施例中，上述关键词提取模块，还用于针对各所述候选关键词分别执行以下处理：获取包括多个所述地域性文章的地域文章集合和包括多个非地域性文章的非地域文章集合；基于所述地域文章集合和所述候选关键词，确定所述候选关键词的地域性指标值；基于所述非地域文章集合和所述候选关键词，确定所述候选关键词的非地域性指标值；将所述地域性指标值和所述非地域性指标值的差值，确定为所述候选关键词的地域显著性得分。

在一些实施例中，上述关键词提取模块，还用于获取所述候选关键词在所述地域文章集合中出现的次数，以及所述地域文章集合的词语总数；将所述候选关键词在所述地域文章集合中出现的次数，与所述地域文章集合的词语总数的比值，确定为第一地域性值；获取所述地域文章集合中地域文章的数量；将所述地域文章的数量，与所述候选关键词在所述地域文章集合中出现的次数相除，得到第二地域性值；将所述第一地域性值和所述第二地域性值的乘积，确定为所述候选关键词的地域性指标值。

在一些实施例中，上述关键词提取模块，还用于获取所述候选关键词在所述非地域文章集合中出现的次数，以及所述非地域文章集合的词语总数；将所述候选关键词在非地域文章集合中出现的次数，与所述非地域文章集合的词语总数的比值，确定为第一非地域性值；获取所述非地域文章集合中非地域文章的数量；将所述非地域文章的数量，与所述候选关键词在所述非地域文章集合中出现的次数相除，得到第二非地域性值；将所述第一非地域性值和所述第二非地域性值的乘积，确定为所述候选关键词的非地域性指标值。

在一些实施例中，上述特征提取模块，还用于对各所述关键词进行词特征提取，得到各所述关键词的单词特征；基于各所述关键词的单词特征，构建关键词特征矩阵；获取地域文章集合，并基于各所述关键词和地域文章集合，确定中标向量；将所述中标向量和所述关键词矩阵的乘积，确定为所述关键词特征。

在一些实施例中，上述特征提取模块，还用于针对各所述关键词执行以下处理：确定所述关键词与所述地域文章集合的归属关系，并基于所述归属关系，确定所述关键词的中标结果，其中，所述中标结果，用于指示所述关键词是否归属于所述地域文章集合；基于各所述关键词的中标结果，构建所述中标向量。

在一些实施例中，上述特征提取模块，还用于当所述归属关系表征所述地域文章集合中存在所述关键词时，将所述关键词的中标元素标记为第一中标结果；当所述归属关系表征所述地域文章集合中不存在所述关键词时，将所述关键词的中标元素标记为第二中标结果；其中，所述第一中标结果，用于指示所述关键词归属于所述地域文章集合，所述第二中标结果，用于指示所述关键词不归属于所述地域文章集合。

在一些实施例中，上述地域性特征获取模块，还用于获取至少两个地域性判定条件；将所述待分类文章分别与各所述地域性判定条件进行匹配，得到匹配结果，其中，所述匹配结果表征所述待分类文章是否满足所述地域性判定条件；对各所述匹配结果的文字内容进行特征提取，得到所述待分类文章的地域性特征。

在一些实施例中，上述特征提取模块，还用于分别对所述名称、所述标题和所述正文进行特征提取，对应得到名称特征、标题特征和正文特征；将所述名称特征、所述标题特征和所述正文特征进行融合，得到所述待分类文章的文本特征。

在一些实施例中，上述特征融合模块，还用于将所述关键词特征、所述文本特征和所述地域性特征进行拼接，得到拼接特征，所述拼接特征包括至少两个特征元素；调用至少一个前馈神经网络，对所述拼接特征中的各特征元素进行交互融合，得到所述待分类文章的目标特征。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的文章分类方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的文章分类方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例上述的文章分类方法。

本申请实施例具有以下有益效果：

通过融合了关键词特征、文本特征和地域性特征的目标特征，对待分类文章进行地域性类别预测，由于目标特征融合了待分类文章深层次的文本特征和浅层次的关键词特征和地域性特征，即，对待分类文章进行地域性类别预测时，融合了待分类文章的深层次和浅层次的特征，从而使得预测类别预测准确性大大提高，有效提高了文章分类的准确性的同时，有效提高了文章分类的效率。

附图说明

图1是本申请实施例提供的文章分类方法的系统架构的结构示意图；

图2是本申请实施例提供的文章分类装置的结构示意图；

图3A至图3E是本申请实施例提供的文章分类方法的流程示意图；

图4A是本申请实施例提供的文章分类方法的流程示意图；

图4B至图4D是本申请实施例提供的文章分类方法的原理示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

2)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feed forward Neural Networks)，是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力，能够按其阶层结构对输入图像进行平移不变分类(Shift-InvariantClassification)。

3)卷积层：卷积神经网络中每层卷积层(Convolutional Layer)由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。

4)地域性文章：指具有土地界域性质的文章，即携带有地域特征或者区域特征的文章，能够反映所对应地域的自然要素特点、人文要素特点中的至少之一。地域性文章可以是A县今日新闻、B县今日看点等携带有地域特征或者区域特征的文章。

5)前馈神经网络(Feedforward Neural Network，FNN)：是一种简单的神经网络，各神经元分层排列，每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层，各层间没有反馈。

在本申请实施例的实施过程中，申请人发现相关技术存在以下问题：

在相关技术中，通常是通过文章的频道信息，搭配一些规则进行判断，比如“社会”类文章，并且文章标题出现地名的文章，为地域文章，这种方式逻辑比较简单，但是规则比较生硬，严重依赖于频道判断的结果，分类准确性较差。

本申请实施例提供一种文章分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高文章分类的准确性，下面说明本申请实施例提供的文章分类的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的文章分类系统100的架构示意图，为实现文章分类的应用场景，终端(示例性示出了终端400)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于供用户使用客户端410，在图形界面410-1(示例性示出了图形界面410-1)显示。终端400和服务器200通过有线或者无线网络相互连接。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，服务器200从终端400获取待分类文章，并对待分类文章进行分类，得到待分类文章归属于地域性文章的预测结果，并将预测结果发送至终端400。

在另一些实施例中，终端400获取待分类文章，并对待分类文章进行分类，得到待分类文章归属于地域性文章的预测结果，并将预测结果发送至服务器200。

在另一些实施例中，本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

参见图2，图2是本申请实施例提供的文章分类方法的服务器200的一种结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他电子设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的文章分类装置可以采用软件方式实现，图2示出了存储在存储器250中的文章分类装置255，其可以是程序和插件等形式的软件，包括以下软件模块：关键词提取模块2551、特征提取模块2552、地域性特征获取模块2553、特征融合模块2554、类别预测模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的文章分类装置可以采用硬件方式实现，作为示例，本申请实施例提供的文章分类装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的文章分类方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmabl e Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本申请实施例提供的服务器或终端的示例性应用和实施，说明本申请实施例提供的文章分类方法。

参见图3A，图3A是本申请实施例提供的文章分类方法的流程示意图，将结合图3A示出的步骤101至步骤106进行说明，下述步骤101至步骤105的执行主体可以是服务器或终端，下面将以执行主体为服务器为例进行说明。

在步骤101中，获取待分类文章，并对待分类文章进行关键词提取，得到待分类文章中携带地域特征的关键词。

在一些实施例中，文章是指具有一定篇幅且独立成篇的文字，文章包括各种文体的著作、作品，如诗歌、戏剧、小说、科学论文，记叙文、议论文、说明文、应用文等等。

在一些实施例中，地域特征是指待分类文章中能够表征待分类文章地域性的语义信息，例如，发布待分类文章的所在地，待分类文章中的地名、待分类文章的发布主体的所在地，例如，待分类文章的发布主体可以是某地报社、某地电视台等。待分类文章的发布主体可以具有地域性，也可以不具有地域性。例如，当待分类文章的发布主体是某地电视台时，某地电视台为地方性电视台，通常仅针对当地事件进行报道，那么，待分类文章的发布主体具有地域性，即待分类文章为地域性文章。当待分类文章的发布主体是全球性电视台时，通常针对全球事件进行报道，那么，待分类文章不具有地域性，待分类文章为非地域性文章。

在一些实施例中，待分类文章可以是任意一篇文章，待分类文章的类别可以是地域性文章，也可以是非地域性文章，通过本申请实施例提供的文章分类方法，可以确定待分类文章是否是地域性文章。

在一些实施例中，关键词提取，用于提取待分类文章中携带地域特征的关键词。

在一些实施例中，携带有地域特征的关键词可以是地名、媒体名、频道名等，例如，A县、B县、A县卫视、A县日报等。

在一些实施例中，参见图3B，图3B是本申请实施例提供的文章分类方法的流程示意图。图3B所示出的步骤101可以通过执行以下步骤1011至步骤1014实现。

在步骤1011中，对待分类文章进行分词处理，得到待分类文章中的各词语。

在一些实施例中，分词处理是自然语言处理的基础，分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文语句使用空格将单词进行分隔，除了某些特定词，如how many，New York等外，大部分情况下不需要考虑分词问题。但中文不同，天然缺少分隔符，需要读者自行分词和断句。故在做中文自然语言处理时，需要先进行分词处理。通过对待分类文章进行分词处理可以得到待分类文章中的各词语。

作为示例，当待分类文章为“A县举办趣味运动会的时间为今天下午”时，通过分词处理，得到的待分类文章中的各词语可以为“A县/举办/趣味运动会/的/时间/为/今天/下午”。

如此，通过对待分类文章进行分词处理，准确得到待分类文章中符合语义表达的各词语，为后续对待分类文章的分类提供了坚实的数据支撑，有效提高了文章分类的准确性。

在步骤1012中，将各词语中的无语义词删除，得到待分类文章中的候选关键词。

在一些实施例中，无语义词通常是指语法型词汇，语法型词汇在语句中仅发挥语法功能，无具体语义。例如，无语义词可以是连词、代词和冠词等。

作为示例，当待分类文章中的各词语为“A县/举办/趣味运动会/的/时间/为/今天/下午”时，其中，“的”为无语义词，将该无语义词删除，得到待分类文章中的候选关键词“A县/举办/趣味运动会/时间/为/今天/下午”。

如此，由于无语义词没有具体的语义含义，对后续的文章分类而言是冗余信息，通过将冗余信息删除，从而显著提高了文章分类的准确性，同时有效提高了文章分类的效率。

在步骤1013中，对各候选关键词进行地域显著性计算，得到各候选关键词的地域显著性得分。

在一些实施例中，地域显著性计算，用于确定各候选关键词的地域显著性得分，地域显著性得分，用于衡量候选关键词与地域相关的程度，地域显著性得分越高的候选关键词，对应的候选关键词与地域相关的程度越高。

在一些实施例中，参见图3C，图3C是本申请实施例提供的文章分类方法的流程示意图。图3C所示出的步骤1013可以通过针对各候选关键词执行以下步骤10131至步骤10134实现。

在步骤10131中，获取包括多个地域性文章的地域文章集合和包括多个非地域性文章的非地域文章集合。

在一些实施例中，地域文章集合中的地域性文章可以是历史发表的，已经确定的地域性文章，地域文章集合中的地域性文章可以是从网页、期刊等来源获取的。

在一些实施例中，非地域文章集合中的非地域性文章可以是历史发表的，已经确定的非地域性文章，非地域文章集合中的非地域性文章可以是从网页、期刊等来源获取的。

在另一些实施例中，上述步骤10131还可以通过如下方式实现：获取包括多个文章的文章集合，基于各所述文章调用文本分类模型进行分类处理，确定各所述文章是否为地域性文章；当文章是地域性文章时，将文章归类至地域文章集合，当文章是非地域性文章时，将文章归类至非地域文章集合。

在一些实施例中，文本分类模型(Text Convolutional Neural Network，Te xtCNN)包括卷积层、池化层和分类层，文本分类模型的输出为所输入文本所归属的类别。

作为示例，地域文章集合包括文章1、文章2、文章3、文章4和文章5，非地域性集合包括文章6、文章7、文章8、文章9和文章10，其中，文章1至文章5为地域性文章、文章6至文章10为非地域性文章。

可以理解的是，地域文章集合和非地域文章集合中的文章的数量越多，后续确定待分类文章的类别的准确性越高。

如此，可以通过获取包含大量文章的地域文章集合和非地域文章集合，从而确保预测类别的预测准确性大大提高，有效提高了文章分类的准确性。

在步骤10132中，基于地域文章集合和候选关键词，确定候选关键词的地域性指标值。

在一些实施例中，候选关键词的地域性指标值，用于衡量候选关键词与地域性的关联程度，例如，候选关键词的地域性指标值越高，候选关键词与地域性的关联程度越高。

在一些实施例中，上述步骤10132可以通过以下方式实现：获取候选关键词在地域文章集合中出现的次数，以及地域文章集合的词语总数；将候选关键词在地域文章集合中出现的次数，与地域文章集合的词语总数的比值，确定为第一地域性值；获取地域文章集合中地域文章的数量；将地域文章的数量，与候选关键词在地域文章集合中出现的次数相除，得到第二地域性值；将第一地域性值和第二地域性值的乘积，确定为候选关键词的地域性指标值。

在一些实施例中，获取候选关键词在地域文章集合中出现的次数以及地域文章集合的词语总数可以通过如下方式实现：将地域文章集合中各地域性文章进行分词处理，得到地域文章集合的词表，其中，地域文章集合的词表包括地域文章集合中的所有词语；将地域文章集合的词表中的词语总数确定为地域文章集合的词语总数；将候选关键词与地域文章集合的词表中的各词语进行对比，将地域文章集合的词表中与候选关键词相同的词语的数量，确定为候选关键词在地域文章集合中出现的次数。

作为示例，候选关键词的地域性指标值的表达式可以为：

Score_posi＝itf_1i×idf_1i (1)

其中，Score_posi表征候选关键词i的地域性指标值，itf_1i表征候选关键词i的第一地域性值，idf_1i表征候选关键词i的第二地域性值。

作为示例，候选关键词i的第一地域性值的表达式可以为：

其中，itf_1i表征候选关键词i的第一地域性值，H表征候选关键词在地域文章集合中出现的次数，D地域文章集合的词语总数。

如此，通过将地域文章集合的词语总数和地域文章集合中地域文章的数量，分别与候选关键词在地域文章集合中出现的次数的比值，确定为第一地域性值和第二地域性值，将第一地域性值和第二地域性值的乘积确定为候选关键词的地域性指标值，由于候选关键词的地域性指标值综合考虑了地域文章集合的词语总数和地域文章集合中地域文章的数量，与候选关键词在地域文章集合中出现的次数的影响，从而有效提高了所确定的候选关键词的地域性指标值的准确性。

在步骤10133中，基于非地域文章集合和候选关键词，确定候选关键词的非地域性指标值。

在一些实施例中，候选关键词的非地域性指标值，用于衡量候选关键词与非地域性的关联程度，例如，候选关键词的非地域性指标值越高，候选关键词与非地域性的关联程度越高。

在一些实施例中，候选关键词的非地域性指标值与候选关键词的地域性指标值成反比。

在一些实施例中，上述步骤10133可以通过以下方式实现：获取候选关键词在非地域文章集合中出现的次数，以及非地域文章集合的词语总数；将候选关键词在非地域文章集合中出现的次数，与非地域文章集合的词语总数的比值，确定为第一非地域性值；获取非地域文章集合中非地域文章的数量；将非地域文章的数量，与候选关键词在非地域文章集合中出现的次数相除，得到第二非地域性值；将第一非地域性值和第二非地域性值的乘积，确定为候选关键词的非地域性指标值。

在一些实施例中，上述获取候选关键词在非地域文章集合中出现的次数，以及非地域文章集合的词语总数可以通过如下方式实现：将非地域文章集合中各非地域性文章进行分词处理，得到非地域文章集合的词表，其中，非地域文章集合的词表包括非地域文章集合中的所有词语；将非地域文章集合的词表中的词语总数确定为非地域文章集合的词语总数；将候选关键词与非地域文章集合的词表中的各词语进行对比，将非地域文章集合的词表中与候选关键词相同的词语的数量，确定为候选关键词在地域文章集合中出现的次数。

作为示例，候选关键词的非地域性指标值的表达式可以为：

Score_negi＝itf_2i×idf_2i (3)

其中，Score_negi表征候选关键词i的非地域性指标值，itf_2i表征候选关键词i的第一非地域性值，idf_2i表征候选关键词i的第二非地域性值。

作为示例，候选关键词i的第一非地域性值的表达式可以为：

其中，itf_2i表征候选关键词i的第一非地域性值，G表征候选关键词在非地域文章集合中出现的次数，F表征非地域文章集合的词语总数。

如此，通过将非地域文章集合的词语总数和非地域文章集合中非地域文章的数量，分别与候选关键词在非地域文章集合中出现的次数的比值，确定为第一非地域性值和第二非地域性值，将第一非地域性值和第二非地域性值的乘积确定为候选关键词的非地域性指标值，由于候选关键词的非地域性指标值综合考虑了非地域文章集合的词语总数和非地域文章集合中非地域文章的数量，与候选关键词在非地域文章集合中出现的次数的影响，从而有效提高了所确定的候选关键词的非地域性指标值的准确性。

在步骤10134中，将地域性指标值和非地域性指标值的差值，确定为候选关键词的地域显著性得分。

在一些实施例中，地域显著性得分，用于判断是否将候选关键词确定为携带地域特征的关键词。

作为示例，候选关键词的地域显著性得分的表达式可以为：

Score_i＝Score_posi-Score_negi (5)

其中，Score_i表征候选关键词i的地域显著性得分，Score_negi表征非地域性指标值，Score_posi表征地域性指标值。

在步骤1014中，将地域显著性得分处于预设得分区间的候选关键词，确定为待分类文章中携带地域特征的关键词。

在一些实施例中，预设得分区间可以根据实际需要而具体设定，在候选关键词的地域显著性得分处于预设得分区间时，表征候选关键词携带地域特征；在候选关键词的地域显著性得分不处于预设得分区间时，表征候选关键词不携带地域特征。

如此，通过对待分类文章进行关键词提取，得到待分类文章中携带地域特征的关键词，由于关键词携带地域特征，便于后续通过携带地域特征的关键词，确定待分类文章的类别，携带地域特征的关键词作为后续确定待分类文章类别的一个分类维度，为后续分类提供了有效数据支撑，从而有效提高了文章分类的准确性。

在步骤102中，对关键词进行特征提取，得到关键词的关键词特征。

在一些实施例中，特征提取从初始的一组测量数据开始，并建立旨在提供信息和非冗余的派生值(特征)，从而促进后续的学习和泛化步骤，并且在某些情况下带来更好的可解释性。特征提取与降维有关。特征的好坏对泛化能力有至关重要的影响。

在一些实施例中，关键词特征是关键词集合的向量化表示，关键词集合包括待分类文章的所有关键词。

在一些实施例中，参见图3B，图3B是本申请实施例提供的文章分类方法的流程示意图。图3B所示出的步骤102可以通过执行以下步骤1021至步骤1024实现。

在步骤1021中，对各关键词进行词特征提取，得到各关键词的单词特征。

在一些实施例中，词特征提取，用于确定单个关键词对应的单词特征。单词特征是关键词的向量化表示。

在步骤1022中，基于各关键词的单词特征，构建关键词特征矩阵。

在一些实施例中，关键词特征矩阵包括各关键词的单词特征。

作为示例，关键词特征矩阵的表达式可以为：

R＝[R₁,R₂,R₃,R₄,R₅……R_t] (6)

其中，R表征关键词特征矩阵，R₁至R_t表征各关键词的单词特征，t表征关键词的总数。

在步骤1023中，获取地域文章集合，并基于各关键词和地域文章集合，确定中标向量。

在一些实施例中，中标向量的各特征元素表征对应的关键词是否出现在地域文章集合中，中标向量表征各关键词出现在地域文章集合中的情况。

作为示例，当关键词出现在地域文章集合中时，中标向量对应的特征元素为0；当关键词没有出现在地域文章集合中时，中标向量对应的特征元素为1。

在一些实施例中，参见图3D，图3D是本申请实施例提供的文章分类方法的流程示意图。图3D所示出的步骤1023可以通过针对各关键词执行以下步骤10231至步骤10232实现。

在步骤10231中，确定关键词与地域文章集合的归属关系，并基于归属关系，确定关键词的中标结果。

在一些实施例中，中标结果，用于指示关键词是否归属于地域文章集合。关键词与地域文章集合的归属关系用于表征关键词是否归属于地域文章集合。中标结果包括第一中标结果和第二中标结果。

在一些实施例中，上述步骤10231中基于归属关系，确定关键词的中标结果可以通过如下方式实现：当归属关系表征地域文章集合中存在关键词时，将关键词的中标元素标记为第一中标结果；当归属关系表征地域文章集合中不存在关键词时，将关键词的中标元素标记为第二中标结果。

在一些实施例中，第一中标结果，用于指示关键词归属于地域文章集合，第二中标结果，用于指示关键词不归属于地域文章集合。

作为示例，当归属关系表征地域文章集合中存在关键词时，将关键词的中标元素标记为第一中标结果0；当归属关系表征地域文章集合中不存在关键词时，将关键词的中标元素标记为第二中标结果1。

在步骤10232中，基于各关键词的中标结果，构建中标向量。

在一些实施例中，各关键词的中标结果是中标向量的特征元素，关键词的数量等于中标向量的特征元素的数量。

作为示例，若各关键词的中标结果分别为0、1、0、1、0、0、1…1、1时，所构建的中标向量的表达式可以为：

Q＝[0，1，0，1，0，0，1…1，1] (7)

在步骤1024中，将中标向量和关键词矩阵的乘积，确定为关键词特征。

作为示例，关键词特征的表达式可以为：

J＝QR＝[R₁,R₂,R₃,R₄,R₅……R_t][0，1，0，1，0，0，1…1，1] (8)

其中，J表征关键词特征，Q表征中标向量，Q表征关键词矩阵。

作为示例，参见图4B，图4B是本申请实施例提供的文章分类方法的原理示意图。将关键词矩阵和中标向量的乘积，确定为关键词特征T_k。

如此，通过对关键词进行特征提取，得到关键词的关键词特征，从而便于后续在确定待分类文本的类别时，参考关键词特征，从而在进行类别预测时，能够有效融合浅层次的关键词特征和地域性特征，从而使得预测类别的预测准确性大大提高，有效提高了文章分类的准确性。

在步骤103中，对待分类文章的内容进行特征提取，得到待分类文章的文本特征。

在一些实施例中，待分类文章的内容包括待分类文章的名称、待分类文章的标题以及待分类文章的正文，其中，待分类文章的名称用于唯一标识待分类文章。待分类文章的文本特征是待分类文章的内容的向量化表示。

在一些实施例中，参见图3E，图3E是本申请实施例提供的文章分类方法的流程示意图。待分类文章的内容包括名称、标题和正文；图3E所示出的步骤103可以通过执行以下步骤1031至步骤1032实现。

在步骤1031中，分别对名称、标题和正文进行特征提取，对应得到名称特征、标题特征和正文特征。

在一些实施例中，名称特征是待分类文章的名称的向量化表示，标题特征是待分类文章的标题的向量化表示，正文特征是待分类文章的正文的向量化表示。

在一些实施例中，上述步骤1031可以通过如下方式实现：调用第一语言表征模型，对名称进行特征提取，得到名称特征；调用第二语言表征模型，对标题进行特征提取，得到标题特征；调用第三语言表征模型，对正文进行特征提取，得到正文特征；其中，第一语言表征模型、第二语言表征模型和第三语言表征模型是结构相同且互相独立的语言表征模型(Bidirectional Encoder Repre sentations From Transforme，Bert)，语言表征模型，用于对文本内容进行特征提取，得到文本内容对应的特征。

作为示例，参见图4C，图4C是本申请实施例提供的文章分类方法的原理示意图。调用第一语言表征模型，对名称进行特征提取，得到名称特征；调用第二语言表征模型，对标题进行特征提取，得到标题特征；调用第三语言表征模型，对正文进行特征提取，得到正文特征。

在步骤1032中，将名称特征、标题特征和正文特征进行融合，得到待分类文章的文本特征。

在一些实施例中，融合是一种将多个不同向量融合成一个向量的运算过程，融合可以是按照一定的权重进行融合，或者是等比例融合，融合也可以是向量拼接。

在一些实施例中，待分类文章的文本特征包括名称特征、标题特征和正文特征。

作为示例，参见图4C，将名称特征、标题特征和正文特征进行融合，得到待分类文章的文本特征T_d。

如此，由于待分类文章的名称、标题和正文这三个部分所蕴含的信息量不同，通过对待分类文章的名称、标题和正文分别进行特征提取，从而可以显著提高特征提取的效率，由于进行特征提取所采用的语言表征模型可以准确的提取上下文特征，从而显著提高了特征提取的准确度。

在步骤104中，获取待分类文章的地域性特征，地域性特征用于表征待分类文章的地域性。

在一些实施例中，地域性特征是地域性文章特有的规律性特征，地域性特征用于表征待分类文章的地域性。

在一些实施例中，地域性特征可以是待分类文章中的地点词上下文特征、频道特征、媒体地域特征、地名出现位置特征等。

在一些实施例中，地点词上下文特征，可以包括待分类文章中的地点词语的上下文中的动词特征，以及待分类文章中的地点词语特征，例如，当待分类文章是“A县于昨日召开趣味运动会”，待分类文章对应的地点词上下文特征可以是“地名：A县，上下文动词：召开”。

在一些实施例中，频道特征可以是待分类文章的频道信息，例如“社会”、“教科文”、“娱乐”、“音乐”等。

在一些实施例中，媒体地域特征可以是待分类文章的发布媒体是否具有地域性，主要通过对待发布媒体历史发表的文章进行统计，当历史发表的文章的数量中存在预设数量的地域性文章，则媒体地域特征为待分类文章的发布媒体具有地域性。

在一些实施例中，参见图3E，图3E是本申请实施例提供的文章分类方法的流程示意图。图3E所示出的步骤104可以通过执行以下步骤1041至步骤1043实现。

在步骤1041中，获取至少两个地域性判定条件。

在一些实施例中，地域性判定条件用于在特定维度判定待分类文章是否具有地域性。

作为示例，参见下表1，下表1是本申请实施例提供的待分类文章的地域性特征的示意表。地域性判定条件可以是地点词上下文模板，用于确定待分类文章中是否包含地点词上下文；频道特征模板，用于确定待分类文章中的频道特征；媒体地域特征模板，用于确定待分类文章的发布媒体是否具有地域性；媒体名出现地名条件，用于判断媒体名是否出现地名；标题是否出现地名条件，用于确定待分类文章的标题出现地名；正文出现地名条件，用于确定待分类文章的正文是否出现地名。

表1本申请实施例提供的待分类文章的地域性特征的示意表

在步骤1042中，将待分类文章分别与各地域性判定条件进行匹配，得到匹配结果，其中，匹配结果表征待分类文章是否满足地域性判定条件。

作为示例，将待分类文章与地域性判定条件“媒体名是否出现地名”进行匹配，当待分类文章的媒体名中出现地名时，确定待分类文章满足地域性判定条件；当待分类文章的媒体名中没有出现地名时，确定待分类文章不满足地域性判定条件。

在步骤1043中，对各匹配结果的文字内容进行特征提取，得到待分类文章的地域性特征。

作为示例，当匹配结果确定待分类文章满足地域性判定条件时，将匹配结果的文字内容“待分类文章的媒体名中出现地名”进行特征提取，得到待分类文章的地域性特征。

在一些实施例中，待分类文章的地域性特征是匹配结果的文字内容的向量表示。

如此，通过获取待分类文章的地域性特征，从而便于后续从地域性判别的维度确定待分类文章的类别，从而便于后续将待分类文章的浅层次的关键词特征和地域性特征进行融合，以对待分类文章进行地域性类别预测，从而使得预测类别的预测准确性大大提高，有效提高了文章分类的准确性。

在步骤105中，将关键词特征、文本特征和地域性特征进行融合，得到待分类文章的目标特征。

在一些实施例中，待分类文章的目标特征包括关键词特征、文本特征和地域性特征，待分类文章的目标特征融合了关键词特征、文本特征和地域性特征。待分类文章的目标特征，用于对待分类文本进行地域性类别预测。

在一些实施例中，参见图3E，图3E是本申请实施例提供的文章分类方法的流程示意图。图3E所示出的步骤105可以通过执行以下步骤1051至步骤1052实现。

在步骤1051中，将关键词特征、文本特征和地域性特征进行拼接，得到拼接特征，拼接特征包括至少两个特征元素。

在一些实施例中，向量拼接是指将至少两个向量的特征元素进行拼接，得到一个向量的运算过程。拼接特征的维度是关键词特征、文本特征和地域性特征的加和。

作为示例，当关键词特征为[1，2，3]、文本特征为[4，5，6]、地域性特征为[7，8，9]时，将关键词特征、文本特征和地域性特征进行拼接，得到拼接特征为[1，2，3,4，5，6，7，8，9]。

作为示例，参见图4D，图4D是本申请实施例提供的文章分类方法的原理示意图。将关键词特征T_k、文本特征T_m和地域性特征T_d进行拼接，得到拼接特征。

在步骤1052中，调用至少一个前馈神经网络，对拼接特征中的各特征元素进行交互融合，得到待分类文章的目标特征。

在一些实施例中，前馈神经网络(Feedforward Neural Network，FNN)，是一种简单的神经网络，各神经元分层排列，每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层，各层间没有反馈。

在一些实施例中，由于拼接特征是将关键词特征、文本特征和地域性特征进行拼接而得到的，拼接特征中的各特征元素还是与关键词特殊中的特征元素，文本特征中的特征元素，以及地域性特征中的特征元素存在对应关系，因此，通过前馈神经网络可以将拼接特征中的各特征元素之间进行交互融合，有效提高各特征元素之间的融合度，从而将关键词特征、文本特征和地域性特征进行深度融合，有效提高了目标特征的融合度。

可以理解的是，前馈神经网络的数量越多，目标特征的融合度越高，但算法运行效率越低，前馈神经网络的数量具体可以根据运行效率和融合度而具体决定，前馈神经网络的数量并不构成对本申请的限定。

在步骤106中，基于目标特征，对待分类文章进行地域性类别预测，得到待分类文章归属于地域性文章的预测结果。

在一些实施例中，地域性文章是指具有土地界域性质的文章，即携带有地域特征或者区域特征的文章，能够反映所对应地域的自然要素特点、人文要素特点中的至少之一。

作为示例，地域性文章可以是A县今日新闻、B县今日看点等携带有地域特征或者区域特征的文章。

在一些实施例中，待分类文章归属于地域性文章的预测结果包括：待分类文章是地域性文章和待分类文章不是地域性文章。

在一些实施例中，对待分类文章进行地域性类别预测可以通过分类层实现，分类层用于基于目标特征，对待分类文章进行分类。

作为示例，参见图4D，调用分类层，基于目标特征，对待分类文章进行地域性类别预测，得到待分类文章归属于地域性文章的预测结果(图4D所示出的地域性结果)。

在一些实施例中，分类层可以通过逻辑回归函数(Sigmoid函数)实现，分类层的输出可以为待分类文章归属于地域性文章的地域概率值，和待分类文章归属于非地域性文章的非地域概率值。当地域概率值大于非地域概率值时，待分类文章归属于地域性文章的预测结果为，待分类文章归属于地域性文章；当地域概率值小于非地域概率值时，待分类文章归属于地域性文章的预测过程为，待分类文章不归属于地域性文章。

如此，通过对待分类文章进行关键词提取，得到得有地域特征的关键词；并对关键词和待分类文章的内容分别进行特征提取，得到关键词特征和文本特征。将关键词特征、文本特征和地域性特征进行融合，得到目标特征。基于目标特征对待分类文章进行地域性类别预测，得到待分类文章归属于地域性文章的预测结果。如此，通过融合了关键词特征、文本特征和地域性特征的目标特征，对待分类文章进行地域性类别预测，由于目标特征融合了待分类文章深层次的文本特征和浅层次的关键词特征和地域性特征，即，对待分类文章进行地域性类别预测时，融合了待分类文章的深层次和浅层次的特征，从而使得预测类别预测准确性大大提高，有效提高了文章分类的准确性的同时，提高了文章分类的效率。

下面，将说明本申请实施例在一个实际的地域性文本分类的应用场景中的示例性应用。

信息流文章很多具有明显的地域性倾向，往往只适合在当地进行分发。存在地域性的文章，称之为地域性文章，地域性文章是指携带地域特征或者区域特征的文章，能够反映所对应地域或区域的自然要素特点、人文要素特点中的至少之一，例如，地域性文章可以是当地的资讯，旅游，文化介绍等，比如一篇文章标题为：“A县：实施“保护行动”，打响振兴主动仗”，发文媒体是“A县新闻网”的地域性文章，地域信息为，A县，仅适合A县当地阅读。如果一个用户的地域为B县，和A县没有关系，如果给该用户推荐一篇A县的地域性文章，会带来很不好的用户体验。

本申请实施例提供的文章分类方法，主要包括：浅层特征挖掘部分，多域深层信息挖掘部分，浅层与深层特征融合部分，下面对每个部分进行详细阐述。

首先，对浅层特征挖掘部分进行说明，与地域性判别相关的浅层特征一般分为两类，关键词特征和关键模版特征。关键词特征主要是指在地域文章中频繁出现的关键词，而这些关键词在非地域文中出现的频次较低，具有判断的区分性。关键模版特征主要指与地域性判别相关的一些规则，其与关键词特征的区别是不要求在文章中出现，并且不要求是文本，有时候是一些规则。

由于上述关键词特征和关键模板特征都是基于在地域文和非地域文的区别进行挖掘的，因此需要事先知道文章的地域性，采用文本分类网络训练一个地域性判别模型，这个地域性判别模型的效果可能并不是最好的，但是由于是在大规模的数据上进行挖掘，因此存在误差对最终的挖掘结果影响并不大。

在一些实施例中，获取用于进行词语显著性计算的地域文章集合和非地域文章集合，地域文章集合和非地域文章集合是通过对大量的文章进行地域性判别实现的。

参见图4A，图4A是本申请实施例提供的文章分类方法的流程示意图。将结合图4A示出的步骤401至步骤405进行说明。

在步骤401中，获取用于确定地域文章集合和非地域文章集合的多篇样本文章。

作为示例，随机抽取100万篇已经发布的样本文章，样本文章的来源可以是期刊，网页等。

在步骤402中，对所获取的多篇样本文章进行地域性判别，确定地域文章集合和非地域文章集合。

作为示例，随机抽取100万篇已经发布的文章，调用训练好的文本分类模型(TextConvolutional Neural Network，TextCNN)预测每篇已经发布的文章的地域性，文本分类模型的输入是已经发布的文章的标题和正文的拼接，输出是文章是否为地域文。当输出为文章为地域文时，将该文章归类至地域文章集合；当输出为文章为非地域文时，将该文章归类至非地域文章集合。

在步骤403中，获取待分类文章，对待分类文章进行分词处理，并对分词处理结果去停用词操作，得到待分类文章的候选关键词。

作为示例，对待分类文章进行分词处理，去停用词操作，停用词是指没有语义的词语，比如“的”，“然后”等等。最终保留的结果作为候选关键词。比如，待分类文章是“A县的风景”，最终的结果是“A县”，“风景”，“A县风景”。

在步骤404中，对各候选关键词进行词语显著性计算。

作为示例，对所有的候选关键词作为键值进行统计，计算显著性指标，主要目标是选择出那些能够区分地域性文章和非地域性文章的词语。

假设候选关键词为i，定义Score(i)为候选关键词i的显著性得分：

Score(i)＝Spos-Sneg (9)

Spos＝itf1i*idf1i (10)

Sneg＝itf2i*idf2i (11)

其中，候选关键词i在地域文章上指标Spos，itf1i指的是候选关键词i一共出现的次数占所有词语出现次数的比例，idf2i指的是总文章数除以i出现在文章的个数，Spos可以衡量候选关键词i在地域文章上的重要程度，Spos越高代表候选关键词i越重要。Sneg衡量候选关键词i在非地域文章上的重要程度。参见下表1，下表1是本申请实施例提供的关键词提取过程的示意表。

表1本申请实施例提供的关键词提取过程的示意表

在步骤405中，对满足词语显著性条件的候选关键词，确定为待分类文章对应的关键词。

作为示例，候选关键词i的显著性得分代表候选关键词i的显著性，一般取大于某个正阈值或者小于某个负阈值的区间，当候选关键词i的显著性得分落入此区间的话，满足显著性的条件，将候选关键词i作为最终的关键词。

在一些实施例中，上述关键模板特征是针对地域性判别这个任务进行人工总结的，通过观察大量地域文，发现其中的规律，总结如下几类模板特征。

作为示例，地点词上下文模版：统计地域文中，地点词周围窗口内的动词特征。为了保证准确，只使用地域文的标题及首段进行挖掘，因为这部分内容的概括性比较强，质量比较高。比如“A县于昨日召开全县大会”，挖掘到的模版为“地名+召开”。频道特征：文章的频道信息，比如“社会”，“娱乐”等。媒体地域特征：媒体是否具有地域性。主要基于媒体的历史发文进行统计，如果媒体发文80％以上都是地域性文章，则认定是地域性媒体，比如“A县tv”。地名出现位置：媒体名，标题，正文第一段是否出现地名等。

作为示例，参见下表2，表2是本申请实施例提供的关键模板的提取示意表。

表2本申请实施例提供的关键模板的提取示意表

在一些实施例中，对上述所确定的关键词进行分桶，每个桶对应一个M维的编码向量，假设一共挖掘到N个关键词，那么关键词特征就是一个N×M维的特征矩阵，随机初始化，后续模型学习更新。

关键模版特征类似关键词特征，每一条模版规则对应一个桶，比如0号桶代表文章命中“地名+召开”模版，1号桶表示文章是“社会”频道新闻，200号桶表示文章的媒体是地域性媒体。假设一共B个模版，那么对应B个桶，每个桶中为C维的编码向量。关键模版特征就是B×C的特征矩阵。

作为示例，参见下表3，下表3是本申请实施例提供的关键模版特征的分桶示意表。

表3本申请实施例提供的关键模版特征的分桶示意表

分桶编号	含义
		0	文章命中“地名+召开”模板
1	文章是“社会”频道新闻
		……	……
B	文章正文出现地名

在一些实施例中，参见图4B，图4B是本申请实施例提供的文章分类方法的原理示意图。关键词命中结果：对N个关键词的命中结果，命中的标1，没有命中标0，得到一个N维的命中向量，例如{0，1，0，0，0…0}。关键词特征矩阵是一个N×M维的矩阵，每个关键词为一个M维的向量，共N个关键词。关键词特征编码：上面N维的命中向量和N×M维的矩阵相乘，最终得到一个M维的关键词特征表征T_k，类似的可以得到一个C维的关键模版特征表征T_m。

在一些实施例中，参见图4C，图4C是本申请实施例提供的文章分类方法的原理示意图。文本分类模型可以为中文预训练模型(BERT模型)，在文本分类领域有着最好的效果，采用文本分类模型作为文本的编码器，输入经过文本分类模型之后，句首位置对应的向量是整个句子的向量。待分类文章的多域信息包括：媒体名，标题，正文三部分，每一部分蕴含的信息量不一样，因为不能直接将其进行拼接经过一个编码器。如图4C所示，本申请实施例采用不共享的三个文本分类模型作为编码器，分别对媒体名、标题和正文分别经过三个文本分类模型进行处理，得到各自的编码表征，经过编码拼接得到待分类文章最终的编码T_d。

在一些实施例中，参见图4D，图4D是本申请实施例提供的文章分类方法的原理示意图。T_k，T_m，T_d分别表示关键词浅层特征，关键模版浅层特征，多域深层特征。将关键词浅层特征，关键模版浅层特征，多域深层特征进行拼接，并且通过一个或者多个前馈神经网络，增加多种特征的交互及投影，得到文章最终的编码，最后通过分类器，预测地域性得分。如果最终得分大于得分阈值，那么确定待分类文章为地域文，如果得分小于得分阈值，则待分类文章为非地域文。

可以理解的是，在本申请实施例中，涉及到待分类文章等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的文章分类装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器240的文章分类装置255中的软件模块可以包括：关键词提取模块2551，用于获取待分类文章，并对所述待分类文章进行关键词提取，得到所述待分类文章中携带地域特征的关键词；特征提取模块2552，用于对所述关键词进行特征提取，得到所述关键词的关键词特征，并对所述待分类文章的内容进行特征提取，得到所述待分类文章的文本特征；地域性特征获取模块2553，用于获取所述待分类文章的地域性特征，所述地域性特征用于表征所述待分类文章的地域性；特征融合模块2554，用于将所述关键词特征、所述文本特征和所述地域性特征进行融合，得到所述待分类文章的目标特征；类别预测模块2555，用于基于所述目标特征，对所述待分类文章进行地域性类别预测，得到所述待分类文章归属于地域性文章的预测结果。

在一些实施例中，上述关键词提取模块2551，还用于对所述待分类文章进行分词处理，得到所述待分类文章中的各词语；将所述各词语中的无语义词删除，得到所述待分类文章中的候选关键词；对各所述候选关键词进行地域显著性计算，得到各所述候选关键词的地域显著性得分；将所述地域显著性得分处于预设得分区间的候选关键词，确定为所述待分类文章中携带所述地域特征的关键词。

在一些实施例中，上述关键词提取模块2551，还用于针对各所述候选关键词分别执行以下处理：获取包括多个所述地域性文章的地域文章集合和包括多个非地域性文章的非地域文章集合；基于所述地域文章集合和所述候选关键词，确定所述候选关键词的地域性指标值；基于所述非地域文章集合和所述候选关键词，确定所述候选关键词的非地域性指标值；将所述地域性指标值和所述非地域性指标值的差值，确定为所述候选关键词的地域显著性得分。

在一些实施例中，上述关键词提取模块2551，还用于获取所述候选关键词在所述地域文章集合中出现的次数，以及所述地域文章集合的词语总数；将所述候选关键词在所述地域文章集合中出现的次数，与所述地域文章集合的词语总数的比值，确定为第一地域性值；获取所述地域文章集合中地域文章的数量；将所述地域文章的数量，与所述候选关键词在所述地域文章集合中出现的次数相除，得到第二地域性值；将所述第一地域性值和所述第二地域性值的乘积，确定为所述候选关键词的地域性指标值。

在一些实施例中，上述关键词提取模块2551，还用于获取所述候选关键词在所述非地域文章集合中出现的次数，以及所述非地域文章集合的词语总数；将所述候选关键词在非地域文章集合中出现的次数，与所述非地域文章集合的词语总数的比值，确定为第一非地域性值；获取所述非地域文章集合中非地域文章的数量；将所述非地域文章的数量，与所述候选关键词在所述非地域文章集合中出现的次数相除，得到第二非地域性值；将所述第一非地域性值和所述第二非地域性值的乘积，确定为所述候选关键词的非地域性指标值。

在一些实施例中，上述特征提取模块2552，还用于对各所述关键词进行词特征提取，得到各所述关键词的单词特征；基于各所述关键词的单词特征，构建关键词特征矩阵；获取地域文章集合，并基于各所述关键词和地域文章集合，确定中标向量；将所述中标向量和所述关键词矩阵的乘积，确定为所述关键词特征。

在一些实施例中，上述特征提取模块2552，还用于针对各所述关键词执行以下处理：确定所述关键词与所述地域文章集合的归属关系，并基于所述归属关系，确定所述关键词的中标结果，其中，所述中标结果，用于指示所述关键词是否归属于所述地域文章集合；基于各所述关键词的中标结果，构建所述中标向量。

在一些实施例中，上述特征提取模块2552，还用于当所述归属关系表征所述地域文章集合中存在所述关键词时，将所述关键词的命中元素标记为第一中标结果；当所述归属关系表征所述地域文章集合中不存在所述关键词时，将所述关键词的中标元素标记为第二中标结果；其中，所述第一中标结果，用于指示所述关键词归属于所述地域文章集合，所述第二中标结果，用于指示所述关键词不归属于所述地域文章集合。

在一些实施例中，上述地域性特征获取模块2553，还用于获取至少两个地域性判定条件；将所述待分类文章分别与各所述地域性判定条件进行匹配，得到匹配结果，其中，所述匹配结果表征所述待分类文章是否满足所述地域性判定条件；对各所述匹配结果的文字内容进行特征提取，得到所述待分类文章的地域性特征。

在一些实施例中，上述特征提取模块2552，还用于分别对所述名称、所述标题和所述正文进行特征提取，对应得到名称特征、标题特征和正文特征；将所述名称特征、所述标题特征和所述正文特征进行融合，得到所述待分类文章的文本特征。

在一些实施例中，上述特征融合模块2554，还用于将所述关键词特征、所述文本特征和所述地域性特征进行拼接，得到拼接特征，所述拼接特征包括至少两个特征元素；调用至少一个前馈神经网络，对所述拼接特征中的各特征元素进行交互融合，得到所述待分类文章的目标特征。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的文章分类方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的文章分类方法，例如，如图3A所示出的文章分类方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HT ML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本申请实施例具有如下有益效果：

(1)通过对待分类文章进行关键词提取，得到得有地域特征的关键词；并对关键词和待分类文章的内容分别进行特征提取，得到关键词特征和文本特征。将关键词特征、文本特征和地域性特征进行融合，得到目标特征。基于目标特征对待分类文章进行地域性类别预测，得到待分类文章归属于地域性文章的预测结果。如此，通过融合了关键词特征、文本特征和地域性特征的目标特征，对待分类文章进行地域性类别预测，由于目标特征融合了待分类文章深层次的文本特征和浅层次的关键词特征和地域性特征，即，对待分类文章进行地域性类别预测时，融合了待分类文章的深层次和浅层次的特征，从而使得预测类别的预测准确性大大提高，有效提高了文章分类的准确性的同时，提高了文章分类的效率。

(2)通过对待分类文章进行分词处理，准确得到待分类文章中符合语义表达的各词语，为后续对待分类文章的分类提供了坚实的数据支撑，有效提高了文章分类的准确性。

(3)由于无语义词没有具体的语义含义，对后续的文章分类而言是冗余信息，通过将冗余信息删除，从而显著提高了文章分类的准确性，同时有效提高了文章分类的效率。

(4)通过获取包含大量文章的地域文章集合和非地域文章集合，从而确保预测类别的预测准确性大大提高，有效提高了文章分类的准确性。

(5)通过将地域文章集合的词语总数和地域文章集合中地域文章的数量，分别与候选关键词在地域文章集合中出现的次数的比值，确定为第一地域性值和第二地域性值，将第一地域性值和第二地域性值的乘积确定为候选关键词的地域性指标值，由于候选关键词的地域性指标值综合考虑了地域文章集合的词语总数和地域文章集合中地域文章的数量，与候选关键词在地域文章集合中出现的次数的影响，从而有效提高了所确定的候选关键词的地域性指标值的准确性。

(6)通过将非地域文章集合的词语总数和非地域文章集合中非地域文章的数量，分别与候选关键词在非地域文章集合中出现的次数的比值，确定为第一非地域性值和第二非地域性值，将第一非地域性值和第二非地域性值的乘积确定为候选关键词的非地域性指标值，由于候选关键词的非地域性指标值综合考虑了非地域文章集合的词语总数和非地域文章集合中非地域文章的数量，与候选关键词在非地域文章集合中出现的次数的影响，从而有效提高了所确定的候选关键词的非地域性指标值的准确性。

(7)通过对待分类文章进行关键词提取，得到待分类文章中携带地域特征的关键词，由于关键词携带地域特征，便于后续通过携带地域特征的关键词，确定待分类文章的类别，携带地域特征的关键词作为后续确定待分类文章类别的一个分类维度，为后续分类提供了有效数据支撑，从而有效提高了文章分类的准确性。

(8)通过对关键词进行特征提取，得到关键词的关键词特征，从而便于后续在确定待分类文本的类别时，参考关键词特征，从而在进行类别预测时，能够有效融合浅层次的关键词特征和地域性特征，从而使得预测类别的预测准确性大大提高，有效提高了文章分类的准确性。

(9)由于待分类文章的名称、标题和正文这三个部分所蕴含的信息量不同，通过对待分类文章的名称、标题和正文分别进行特征提取，从而可以显著提高特征提取的效率，由于进行特征提取所采用的语言表征模型可以准确的提取上下文特征，从而显著提高了特征提取的准确度。

(10)通过获取待分类文章的地域性特征，从而便于后续从地域性判别的维度确定待分类文章的类别，从而便于后续将待分类文章的浅层次的关键词特征和地域性特征进行融合，以对待分类文章进行地域性类别预测，从而使得预测类别的预测准确性大大提高，有效提高了文章分类的准确性。

(11)由于拼接特征是将关键词特征、文本特征和地域性特征进行拼接而得到的，拼接特征中的各特征元素还是与关键词特殊中的特征元素，文本特征中的特征元素，以及地域性特征中的特征元素存在对应关系，因此，通过前馈神经网络可以将拼接特征中的各特征元素之间进行交互融合，有效提高各特征元素之间的融合度，从而将关键词特征、文本特征和地域性特征进行深度融合，有效提高了目标特征的融合度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种文章分类方法，其特征在于，所述方法包括：

获取待分类文章，其中，所述待分类文章的内容包括名称、标题和正文；

对所述待分类文章进行分词处理，得到所述待分类文章中的各词语；

将所述各词语中的无语义词删除，得到所述待分类文章中的候选关键词；

针对各所述候选关键词分别执行以下处理：获取包括多个地域性文章的地域文章集合和包括多个非地域性文章的非地域文章集合；基于所述地域文章集合和所述候选关键词，确定所述候选关键词的地域性指标值；基于所述非地域文章集合和所述候选关键词，确定所述候选关键词的非地域性指标值；将所述地域性指标值和所述非地域性指标值的差值，确定为所述候选关键词的地域显著性得分；

将所述地域显著性得分处于预设得分区间的候选关键词，确定为所述待分类文章中携带地域特征的关键词；

对各所述关键词进行词特征提取，得到各所述关键词的单词特征；

基于各所述关键词的单词特征，构建关键词特征矩阵；

基于各所述关键词和所述地域文章集合，确定中标向量；

将所述中标向量和所述关键词矩阵的乘积，确定为所述关键词的关键词特征；

分别对所述名称、所述标题和所述正文进行特征提取，对应得到名称特征、标题特征和正文特征；

将所述名称特征、所述标题特征和所述正文特征进行融合，得到所述待分类文章的文本特征；

获取至少两个地域性判定条件，所述至少两个地域性判定条件包括地点词上下文模板、频道特征模板、媒体地域特征模板、媒体名出现地名条件、标题出现地名条件以及正文出现地名条件中的至少两个；

将所述待分类文章分别与各所述地域性判定条件进行匹配，得到匹配结果，其中，所述匹配结果表征所述待分类文章是否满足所述至少两个地域性判定条件；

对各所述匹配结果的文字内容进行特征提取，得到所述待分类文章的地域性特征，所述地域性特征用于表征所述待分类文章的地域性；

将所述关键词特征、所述文本特征和所述地域性特征进行融合，得到所述待分类文章的目标特征；

基于所述目标特征，对所述待分类文章进行地域性类别预测，得到所述待分类文章归属于地域性文章的预测结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述地域文章集合和所述候选关键词，确定所述候选关键词的地域性指标值，包括：

获取所述候选关键词在所述地域文章集合中出现的次数，以及所述地域文章集合的词语总数；

将所述候选关键词在所述地域文章集合中出现的次数，与所述地域文章集合的词语总数的比值，确定为第一地域性值；

获取所述地域文章集合中地域文章的数量；

将所述地域文章的数量，与所述候选关键词在所述地域文章集合中出现的次数相除，得到第二地域性值；

将所述第一地域性值和所述第二地域性值的乘积，确定为所述候选关键词的地域性指标值。

3.根据权利要求1所述的方法，其特征在于，所述基于所述非地域文章集合和所述候选关键词，确定所述候选关键词的非地域性指标值，包括：

获取所述候选关键词在所述非地域文章集合中出现的次数，以及所述非地域文章集合的词语总数；

将所述候选关键词在非地域文章集合中出现的次数，与所述非地域文章集合的词语总数的比值，确定为第一非地域性值；

获取所述非地域文章集合中非地域文章的数量；

将所述非地域文章的数量，与所述候选关键词在所述非地域文章集合中出现的次数相除，得到第二非地域性值；

将所述第一非地域性值和所述第二非地域性值的乘积，确定为所述候选关键词的非地域性指标值。

4.根据权利要求1所述的方法，其特征在于，所述基于各所述关键词和所述地域文章集合，确定中标向量，包括：

针对各所述关键词执行以下处理：确定所述关键词与所述地域文章集合的归属关系，并基于所述归属关系，确定所述关键词的中标结果，其中，所述中标结果，用于指示所述关键词是否归属于所述地域文章集合；

基于各所述关键词的中标结果，构建所述中标向量。

5.根据权利要求4所述的方法，其特征在于，所述基于所述归属关系，确定所述关键词的中标结果，包括：

当所述归属关系表征所述地域文章集合中存在所述关键词时，将所述关键词的中标元素标记为第一中标结果；

当所述归属关系表征所述地域文章集合中不存在所述关键词时，将所述关键词的中标元素标记为第二中标结果；

其中，所述第一中标结果，用于指示所述关键词归属于所述地域文章集合，所述第二中标结果，用于指示所述关键词不归属于所述地域文章集合。

6.根据权利要求1所述的方法，其特征在于，所述将所述关键词特征、所述文本特征和所述地域性特征进行融合，得到所述待分类文章的目标特征，包括：

将所述关键词特征、所述文本特征和所述地域性特征进行拼接，得到拼接特征，所述拼接特征包括至少两个特征元素；

调用至少一个前馈神经网络，对所述拼接特征中的各特征元素进行交互融合，得到所述待分类文章的目标特征。

7.一种文章分类装置，其特征在于，所述装置包括：

关键词提取模块，用于获取待分类文章，其中，所述待分类文章的内容包括名称、标题和正文；对所述待分类文章进行分词处理，得到所述待分类文章中的各词语；将所述各词语中的无语义词删除，得到所述待分类文章中的候选关键词；针对各所述候选关键词分别执行以下处理：获取包括多个地域性文章的地域文章集合和包括多个非地域性文章的非地域文章集合；基于所述地域文章集合和所述候选关键词，确定所述候选关键词的地域性指标值；基于所述非地域文章集合和所述候选关键词，确定所述候选关键词的非地域性指标值；将所述地域性指标值和所述非地域性指标值的差值，确定为所述候选关键词的地域显著性得分；

所述关键词提取模块，还用于将所述地域显著性得分处于预设得分区间的候选关键词，确定为所述待分类文章中携带地域特征的关键词；

特征提取模块，用于对各所述关键词进行词特征提取，得到各所述关键词的单词特征；基于各所述关键词的单词特征，构建关键词特征矩阵；基于各所述关键词和所述地域文章集合，确定中标向量；将所述中标向量和所述关键词矩阵的乘积，确定为所述关键词的关键词特征；分别对所述名称、所述标题和所述正文进行特征提取，对应得到名称特征、标题特征和正文特征；将所述名称特征、所述标题特征和所述正文特征进行融合，得到所述待分类文章的文本特征；

地域性特征获取模块，用于获取至少两个地域性判定条件，所述至少两个地域性判定条件包括地点词上下文模板、频道特征模板、媒体地域特征模板、媒体名出现地名条件、标题出现地名条件以及正文出现地名条件中的至少两个；将所述待分类文章分别与各所述地域性判定条件进行匹配，得到匹配结果，其中，所述匹配结果表征所述待分类文章是否满足所述至少两个地域性判定条件；对各所述匹配结果的文字内容进行特征提取，得到所述待分类文章的地域性特征，所述地域性特征用于表征所述待分类文章的地域性；

8.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令或者计算机程序时，实现权利要求1至6任一项所述的文章分类方法。

9.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现权利要求1至6任一项所述的文章分类方法。

10.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至6任一项所述的文章分类方法。