CN112784040A

CN112784040A - 基于语料库的垂直行业文本分类方法

Info

Publication number: CN112784040A
Application number: CN202011424476.XA
Authority: CN
Inventors: 王琼; 杨波; 魏军; 何清素; 杨仕博; 陈佐虎; 李策; 梁瑞艳; 王�华; 郭芳琳
Original assignee: Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd; Gansu Tongxing Intelligent Technology Development Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd; Gansu Tongxing Intelligent Technology Development Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-05-11
Anticipated expiration: 2040-12-08
Also published as: CN112784040B

Abstract

本发明公开了基于语料库的垂直行业文本分类方法，通过首先构建一个垂直行业父语料库，然后针对垂直行业内不同类型的文本数据分别构建不同的子语料库，并对各个子语料库中的单词进行聚类，形成更加精准的语料库。逐一计算新添加垂直行业文本数据和各个语料库数据之间的相似度，从而对垂直行业文本进行分类，本方法简单、易于实现，且效率和性能较好。

Description

基于语料库的垂直行业文本分类方法

技术领域

本发明涉及文本分类领域，特别是涉及基于语料库的垂直行业文本分类方法。

背景技术

垂直行业数据语料库建立的目的是通过对客观存在的大规模真实文本数据中的语言事实进行定量分析，为方便快速使用大量垂直行业文本数据，需要对垂直行业文本数据进行分类处理，以便于调用。网络信息挖掘、自然语言处理、信息检索等技术能很好地解决信息过载时代的垂直行业文本数据管理问题，文本分类技术作为这些领域的重要基础，在近年来得到了快速发展和广泛关注。传统的文本分类工作是由专家或专业人士进行人工分类，人工分类方法费时费力。相对于人工方法，自动分类方法有效地减少了分类工作的繁杂性，大幅度提高了信息处理的效率。但由于自动分类方法不会对特定行业的数据进行特异性优化，导致建立的语料库不能很好的对新加入的数据进行分类。因此，构建一种垂直行业文本分类语料库势在必行。

中国专利CN 103823824 B，公开日2017年4月5日，一种借助互联网自动构建文本分类语料库的方法及系统，该方法包括如下步骤：用户提供所需的文本类别体系，网站结构与内容的采集整理，用户输入类别与网站结构的匹配，语料库去噪，输出语料库。本发明的技术效果是：利用互联网上各类网站上存在的类别标注信息，无需专业的人员手工标注，快速的构建出大容量的文本分类语料库。但其仅采用拓扑结构图的方式作为处理依据，忽视网站网页的排版，准确性不高。

中国专利CN 106202380 B，公开日2019年12月24日，一种分类语料库的构建方法、系统及具有该系统的服务器，该方法包括如下步骤：获取待分类的目标数据，并根据实际需求获取类别描述数据；选取最大准确度对应的文本相似度计算方法；将待分类的目标数据归类到最大相似度对应的类别；将第一分类匹配度位于第一相似度范围内的目标数据填充至预设初级语料库；利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类；将第二分类匹配度位于所述第二匹配度范围内的目标数据填充至预设初级语料库；直至填充后的预设初级语料库无法再扩大，将预设初级语料库确定为最终版语料库。但其并没有考虑到垂直行业语料库中大量共性词语的情况，实用性不强。

发明内容

有鉴于此，本发明提出一种基于语料库的垂直行业文本分类方法，用于解决现有技术对垂直行业文本进行分类时准确性不高、效率低的问题。

本发明采用的技术方案是提出一种基于语料库的垂直行业文本分类方法，其特征在于，包括：步骤1，父语料库的构建；步骤2、子语料库的生成；步骤3、基于子语料库对文本分类。

所述子语料库的生成，包括：

步骤2-1、对文本数据进行类别标注，分为N类文本数据集；

步骤2-2、分别基于N类文本数据集进行词频统计，生成文本数据集对应的词频表；

步骤2-3、对词频表排序，根据排序结果生成领域通用高频词表；

步骤2-4、生成对应的N类子语料库。

进一步的，所述父语料库的构建，包括：

步骤1-1、对互联网上垂直行业的文本进行采集；

步骤1-2、对采集的文本预处理，得到文本数据，作为垂直行业数据父语料库。

进一步的，所述基于子语料库对文本分类，包括：

步骤3-1、给定一篇垂直行业的文本，提取文本中的关键词；

步骤3-2、比较文本中的关键词和N类子语料库中关键词的相似度；

步骤3-3、将相关性最高的子语料库对应的垂直行业文本数据作为文本的分类结果；

所述N，是对应垂直行业的常见分类数量；

所述比较文本中的关键词和N类子语料库中关键词的相似度，是比较文本中的关键词与各子语料库中关键词相同的数量。

进一步的，所述生成文本数据集对应的词频表，包括：

对文本数据集中的单词，统计其在该文本数据集中的词频；

将该文本数据集中单词，按词频统计结果高低进行排序；

将文本数据集中的单词按排序结果进行储存；

对其中词频统计结果最高的x项，标记为该文本数据集的第一关键词；

所述x项，取该数据集的5%-20%。

进一步的，所述生成领域通用高频词表，包括：

合并N类文本数据集对应的词频表；

对词表中的单词进行N位二进制编码；

将词表的单词，按词频高低进行排序，若存在词频相同的多个单词，按编码值大小进行排序；

储存排序完成的词表，作为领域通用高频词表；

所述N位二进制编码，若该单词为某文本数据集的第一关键词，则对应位赋值为1，反之对应位赋值为0。

进一步的，所述生成对应的N类子语料库，包括：

对领域通用高频词表中的单词编码值按位求和；

若单词编码的按位求和结果为1，则收入对应的子语料库中；

若单词编码的按位求和结果为2，则标记为待分类词；

若单词编码的按位求和结果为非1或2的任意值，则不收入子语料库中；

将待分类词中存在属于同一类别的单词，取词频排序接近的两项进行组合；

将组合结果作为关键词在N类文本数据集中进行词频排序，若其在某一类文本数据集中为第一关键词，则将组合结果收入对应子语料库，组元单词从原文本数据集中删除；

所述按位求和，将单词的N位二进制编码各位的值相加。

本发明通过首先构建一个垂直行业数据父语料库，然后针对垂直行业内不同类型的文本数据分别构建不同的子语料库，并对各个子语料库中的单词进行聚类，形成更加精准的语料库。逐一计算新添加垂直行业文本数据和各个语料库数据之间的相似度，从而对垂直行业文本进行分类，本方法简单、易于实现，且效率和性能较好。

附图说明

图1是本发明基于语料库的垂直行业文本分类方法的流程图。

图2是本发明基于语料库的垂直行业文本分类方法的实施例1的子语料库构建流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请涉及基于语料库的垂直行业文本分类方法，包括：步骤1，父语料库的构建；步骤2、子语料库的生成；步骤3、基于子语料库对文本分类。

所述父语料库的构建，包括：

步骤1-1、对互联网上垂直行业的文本进行采集；

步骤1-2、对采集的文本预处理，得到文本数据，作为垂直行业数据父语料库；

所述子语料库的生成，包括：

步骤2-1、对文本数据进行类别标注，分为N类文本数据集；

步骤2-4、生成对应的N类子语料库；

所述基于子语料库对文本分类，包括：

步骤3-1、给定一篇垂直行业的文本，提取文本中的关键词；

步骤3-3、将相似度最高的子语料库对应的垂直行业文本数据作为文本的分类结果；

所述N，是对应垂直行业的常见分类数量；

请参考图2，以电力系统文本为例，存在单词a属于第一、二类文本数据集的第一关键词，对应图中正三角符号；存在单词b属于第一、三类文本数据集的特征关键词，对应图中右三角符号，且（a，b）组合属于第一类文本数据集的特征关键词，存在单词c属于第一类文本数据集的特征关键词，对应图中大圆符号；存在单词d属于第二类文本数据集的特征关键词，对应图中次小圆符号；存在单词e、f属于第一、二、四类文本数据集的特征关键词，对应图中次小五角星符号；存在单词g不属于任一类文本数据集的特征关键词，对应图中菱形符号。

此时领域通用高频词表的内容为：

由此领域通用高频词表内容可生成对应的四类子语料库，包括第一类子语料库{（a，b）组合，c，…}，第二类子语料库{d，…}，第三类子语料库{…}，第四类子语料库{…}。

给定一篇垂直行业文本，提取其中的关键词。

比较文本中的关键词和四个子语料库中关键词的相似度，将垂直行业文本归类为相似度最高的一类子语料库对应的文本数据类别。

以上所述仅为本发明的实施例、并非因此限制本发明的专利范围、凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换、或直接或间接运用在其他相关的技术领域、均同理包括在本发明的专利保护范围内。

Claims

1.基于语料库的垂直行业文本分类方法，其特征在于，包括：

步骤1、父语料库的构建；

步骤2、子语料库的生成；

步骤3、基于子语料库对文本分类；

所述子语料库的生成，包括

步骤2-1、对文本数据进行类别标注，分为N类文本数据集；

步骤2-4、生成对应的N类子语料库；

所述N，是对应垂直行业的常见分类数量。

2.如权利要求1所述基于语料库的垂直行业文本分类方法，其特征在于，所述父语料库的构建，包括：

步骤1-1、对互联网上垂直行业的文本进行采集；

3.如权利要求2所述基于语料库的垂直行业文本分类方法，其特征在于，所述生成文本数据集对应的词频表，包括：

对文本数据集中的单词，统计其在该文本数据集中的词频；

将该文本数据集中单词，按词频统计结果高低进行排序；

将文本数据集中的单词按排序结果进行储存；

所述x项，取该数据集的5%-20%。

4.如权利要求3所述基于语料库的垂直行业文本分类方法，其特征在于，所述生成领域通用高频词表，包括：

合并N类文本数据集对应的词频表；

对词表中的单词进行N位二进制编码；

储存排序完成的词表，作为领域通用高频词表；

5.如权利要求4所述基于语料库的垂直行业文本分类方法，其特征在于，所述生成对应的N类子语料库，包括：

对领域通用高频词表中的单词编码值按位求和；

若单词编码的按位求和结果为1，则收入对应的子语料库中；

若单词编码的按位求和结果为2，则标记为待分类词；

所述按位求和，将单词的N位二进制编码各位的值相加。

6.如权利要求5所述基于语料库的垂直行业文本分类方法，其特征在于，所述基于子语料库对文本分类，包括：

步骤3-1、给定一篇垂直行业的文本，提取文本中的关键词；