CN111061869B

CN111061869B - 一种基于TextRank的应用偏好文本分类方法

Info

Publication number: CN111061869B
Application number: CN201911106117.7A
Authority: CN
Inventors: 王海廷; 杨从安
Original assignee: Beijing Digital Union Web Science and Technology Co Ltd
Current assignee: Beijing Digital Union Web Science and Technology Co Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2024-01-26
Anticipated expiration: 2039-11-13
Also published as: WO2021092871A1; SG11201911309VA; CN111061869A

Abstract

本发明提供了一种基于TextRank的应用偏好文本分类方法，包括如下步骤：根据TextRank算法，生成每个应用的关键词字段，构成第一关键词库；根据多个二级分类，为每个二级分类标记一个种子关键词；根据种子关键词，在第一关键词库中模糊检索包含所述种子关键词的应用，并将所述包含种子关键词的应用打上二级分类；再次使用TextRank算法，对所有二级分类下的所有应用的种子关键词进行全量计算，生成所述多个二级分类下的第二关键词库；再次遍历应用表，对每一个关键词字段中的内容与第二关键词库进行字符串相似度匹配，如果相似度低于预设阈值，则删除所述应用与当前二级分类之间的关联。本发明可以自学习，根据每次生成的核心关键词的效果，逐步剔除不相关的关键词，提升准确率。

Description

一种基于TextRank的应用偏好文本分类方法

技术领域

本发明涉及移动互联网领域，特别涉及一种基于TextRank的应用偏好文本分类方法、电子设备、计算机存储介质。

背景技术

在移动互联网领域，目前APP的应用分类都是基于人工分类摘选特征应用，并根据特征应用进行样本库作为训练集构建分类模型。

现有分类模型的缺点：需要大量人工标记和打标签，且有时打的不准或不全，就会为后续的有监督学习埋下隐患；不能够自学习，不能根据文本的变化自适应，生成最佳的分类。在对文本分类的过程中，往往需要投入很多的人力和时间来整理训练集，花费时间资金巨大，并且错误在所难免。

发明内容

本发明的目的是通过以下技术方案实现的。

本发明的目的在于通过对主题词的反复抽取和校正，使得该分类下的关键词越来越集中和准确。本发明提供了一种不依赖于人工分类筛选，利用算法进行特征生成，即无监督的方式训练，并且在验证过程中，对已分类的数据进行再次抽取和反复校验，使得模型越来越精准。

为达上述目的，本申请第一方面实施例提出了一种基于TextRank的应用偏好文本分类方法，包括如下步骤：

S1、根据TextRank算法，生成每个应用的关键词字段，构成第一关键词库；

S2、根据多个二级分类，为每个二级分类标记一个种子关键词；

S3、根据种子关键词，在第一关键词库中模糊检索包含所述种子关键词的应用，并将所述包含种子关键词的应用打上二级分类；

S4、再次使用TextRank算法，对所有二级分类下的所有应用的种子关键词进行全量计算，生成所述多个二级分类下的第二关键词库；

S5、再次遍历应用表，对每一个关键词字段中的内容与第二关键词库进行字符串相似度匹配，如果相似度低于预设阈值，则认为该应用与当前二级分类不相关，删除所述应用与当前二级分类之间的关联。

根据本发明的一个实施例，所述多个二级分类为应用分类领域公认的75个分类。

根据本发明的一个实施例，所述预设阈值为70％或75％。

根据本发明的一个实施例，所述方法进一步包括：S6、遍历完所述应用表后，重新生成第二关键词库，重复步骤S1-S5。

根据本发明的一个实施例，所述方法进一步包括：S7、根据最终的生成结果，人工抽查准确度情况，如果效果不理想，继续再次迭代步骤S1-S5。

为达上述目的，本申请第二方面实施例提出了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现所述的方法。

为达上述目的，本申请第三方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现所述的方法。

本发明的优点在于：

1、人时投入少，只需要简单的人工整理相关关键词；

2、自学习，根据每次生成的核心关键词的效果，逐步剔除不相关的关键词；

3、可以允许人工调整核心关键词，进一步提升准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明实施方式的一种基于TextRank的应用偏好文本分类方法流程图。

图2示出了本发明一实施例所提供的一种电子设备的结构示意图；

图3示出了本发明一实施例所提供的一种计算机介质的示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

TextRank：该算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取。

应用偏好：是对APP应用在用户喜好层面，重新划分的一种分类，与大部分应用商店的分类不同之处在于，这种分类更加贴近兴趣、爱好，比如：汽车发烧友、音乐爱好者等。

如图1所示，本发明的一种基于TextRank的应用偏好文本分类方法，包括如下步骤：

S1、根据TextRank算法，生成每个应用(APP)的关键词：key_words字段，构成第一关键词库。

S2、根据已知的多个二级分类，标记种子关键词，每个分类标记一个种子关键词。所述多个二级分类是目前应用分类领域公认的75个分类。

S3、根据种子关键词，在第一关键词库中模糊检索包含种子关键词的应用，并初步打上二级分类。

S4、再次使用TextRank算法，对多个二级分类下的所有应用的种子关键词进行全量计算，生成多个分类下的第二关键词库。

S5、再次遍历APP应用表，对每一个key_words字段中的内容与第二关键词库进行字符串相似度匹配(Levenshtein Distance)，如果相似度低于预设阈值(例如70％)，则认为该应用与当前分类不相关，删除应用与当前分类两者之间的联系，即该应用对于分类的对应关系。

S6、遍历完后，再次重新生成第二关键词库，重复步骤S1-S5；

S7、根据最终的生成结果，人工抽查准确度情况，如果效果不理想，可以继续再次迭代该流程。

实施例1

S11、使用textRank算法，生成每一个APP描述信息对应的关键词库-1，见下方表格关键词部分：key_words。

关键词库-1：

S12、根据已知的75个二级分类，人工对每个分类进行种子关键词的标记，只需标记一个，详见表-3；

S13、根据种子关键词，在关键词库-1中模糊检索包含种子关键词的APP应用，初步打上二级分类；

S14、根据第一关键词库，对这75个二级分类的所有的种子关键词，再次使用TextRank算法，生成75个二级分类对应的核心关键词，组成分类下的核心关键词库-2；

S15、使用核心关键词库-2，对每一个APP描述信息生成的关键词与该分类的核心关键词进行相似度判断，如果相似度低于0.75，则说明该APP与分类不相关，则删除该关联；

S16、遍历完后，再次重新生成核心关键词库-2，继续之前的流程；

S17、根据最终的生成结果，人工抽查准确度情况，如果效果不理想，可以继续再次迭代该流程。

·核心关键词库-2(前两列带数字标记的字体部分是应用偏好一级二级分类，后面是textRank生成的关键词)

·人工标记的种子关键词：表-3

最终得到的文本分类结果如下：

本发明的优点在于：

1、人时投入少，只需要简单的人工整理相关关键词；

2、自学习，根据每次生成的核心关键词的效果，逐步剔除不相关的关键词；3、可以允许人工调整核心关键词，进一步提升准确率。

本发明实施方式还提供一种与前述实施方式所提供的基于TextRank的应用偏好文本分类方法对应的电子设备，以执行上述基于TextRank的应用偏好文本分类方法，所述电子设备可以是手机、平板电脑、摄像机等，本发明实施例不做限定。

请参考图2，其示出了本发明的一些实施方式所提供的一种电子设备的示意图。如图2所示，所述电子设备2包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本发明前述任一实施方式所提供的基于TextRank的应用偏好文本分类方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本发明实施例任一实施方式揭示的所述基于TextRank的应用偏好文本分类方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本发明实施例提供的电子设备与本发明实施例提供的基于TextRank的应用偏好文本分类方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本发明实施方式还提供一种与前述实施方式所提供的基于TextRank的应用偏好文本分类方法对应的计算机可读介质，请参考图3，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的基于TextRank的应用偏好文本分类方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本发明的上述实施例提供的计算机可读存储介质与本发明实施例提供的基于TextRank的应用偏好文本分类方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于TextRank的应用偏好文本分类方法，其特征在于，包括如下步骤：

S2、根据多个二级分类，为每个二级分类标记一个种子关键词，所述多个二级分类是目前应用分类领域公认的75个分类；

S5、再次遍历应用表，对每一个关键词字段中的内容与第二关键词库进行字符串相似度匹配，如果相似度低于预设阈值，则删除所述关键词字段对应的应用与当前二级分类之间的关联。

2.根据权利要求1所述的一种基于TextRank的应用偏好文本分类方法，其特征在于，

所述预设阈值为70％或75％。

3.根据权利要求1所述的一种基于TextRank的应用偏好文本分类方法，其特征在于，所述方法进一步包括：S6、遍历完所述应用表后，重新生成第二关键词库，重复步骤S1-S5。

4.根据权利要求3所述的一种基于TextRank的应用偏好文本分类方法，其特征在于，所述方法进一步包括：

S7、根据最终的生成结果，人工抽查准确度情况，如果效果不理想，继续再次迭代步骤S1-S5。

5.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1-4任一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一项所述的方法。