CN112784040A - 基于语料库的垂直行业文本分类方法 - Google Patents
基于语料库的垂直行业文本分类方法 Download PDFInfo
- Publication number
- CN112784040A CN112784040A CN202011424476.XA CN202011424476A CN112784040A CN 112784040 A CN112784040 A CN 112784040A CN 202011424476 A CN202011424476 A CN 202011424476A CN 112784040 A CN112784040 A CN 112784040A
- Authority
- CN
- China
- Prior art keywords
- corpus
- text
- word
- text data
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于语料库的垂直行业文本分类方法,通过首先构建一个垂直行业父语料库,然后针对垂直行业内不同类型的文本数据分别构建不同的子语料库,并对各个子语料库中的单词进行聚类,形成更加精准的语料库。逐一计算新添加垂直行业文本数据和各个语料库数据之间的相似度,从而对垂直行业文本进行分类,本方法简单、易于实现,且效率和性能较好。
Description
技术领域
本发明涉及文本分类领域,特别是涉及基于语料库的垂直行业文本分类方法。
背景技术
垂直行业数据语料库建立的目的是通过对客观存在的大规模真实文本数据中的语言事实进行定量分析,为方便快速使用大量垂直行业文本数据,需要对垂直行业文本数据进行分类处理,以便于调用。网络信息挖掘、自然语言处理、信息检索等技术能很好地解决信息过载时代的垂直行业文本数据管理问题,文本分类技术作为这些领域的重要基础,在近年来得到了快速发展和广泛关注。传统的文本分类工作是由专家或专业人士进行人工分类,人工分类方法费时费力。相对于人工方法,自动分类方法有效地减少了分类工作的繁杂性,大幅度提高了信息处理的效率。但由于自动分类方法不会对特定行业的数据进行特异性优化,导致建立的语料库不能很好的对新加入的数据进行分类。因此,构建一种垂直行业文本分类语料库势在必行。
中国专利CN 103823824 B,公开日2017年4月5日,一种借助互联网自动构建文本分类语料库的方法及系统,该方法包括如下步骤:用户提供所需的文本类别体系,网站结构与内容的采集整理,用户输入类别与网站结构的匹配,语料库去噪,输出语料库。本发明的技术效果是:利用互联网上各类网站上存在的类别标注信息,无需专业的人员手工标注,快速的构建出大容量的文本分类语料库。但其仅采用拓扑结构图的方式作为处理依据,忽视网站网页的排版,准确性不高。
中国专利CN 106202380 B,公开日2019年12月24日,一种分类语料库的构建方法、系统及具有该系统的服务器,该方法包括如下步骤:获取待分类的目标数据,并根据实际需求获取类别描述数据;选取最大准确度对应的文本相似度计算方法;将待分类的目标数据归类到最大相似度对应的类别;将第一分类匹配度位于第一相似度范围内的目标数据填充至预设初级语料库;利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;将第二分类匹配度位于所述第二匹配度范围内的目标数据填充至预设初级语料库;直至填充后的预设初级语料库无法再扩大,将预设初级语料库确定为最终版语料库。但其并没有考虑到垂直行业语料库中大量共性词语的情况,实用性不强。
发明内容
有鉴于此,本发明提出一种基于语料库的垂直行业文本分类方法,用于解决现有技术对垂直行业文本进行分类时准确性不高、效率低的问题。
本发明采用的技术方案是提出一种基于语料库的垂直行业文本分类方法,其特征在于,包括:步骤1,父语料库的构建;步骤2、子语料库的生成;步骤3、基于子语料库对文本分类。
所述子语料库的生成,包括:
步骤2-1、对文本数据进行类别标注,分为N类文本数据集;
步骤2-2、分别基于N类文本数据集进行词频统计,生成文本数据集对应的词频表;
步骤2-3、对词频表排序,根据排序结果生成领域通用高频词表;
步骤2-4、生成对应的N类子语料库。
进一步的,所述父语料库的构建,包括:
步骤1-1、对互联网上垂直行业的文本进行采集;
步骤1-2、对采集的文本预处理,得到文本数据,作为垂直行业数据父语料库。
进一步的,所述基于子语料库对文本分类,包括:
步骤3-1、给定一篇垂直行业的文本,提取文本中的关键词;
步骤3-2、比较文本中的关键词和N类子语料库中关键词的相似度;
步骤3-3、将相关性最高的子语料库对应的垂直行业文本数据作为文本的分类结果;
所述N,是对应垂直行业的常见分类数量;
所述比较文本中的关键词和N类子语料库中关键词的相似度,是比较文本中的关键词与各子语料库中关键词相同的数量。
进一步的,所述生成文本数据集对应的词频表,包括:
对文本数据集中的单词,统计其在该文本数据集中的词频;
将该文本数据集中单词,按词频统计结果高低进行排序;
将文本数据集中的单词按排序结果进行储存;
对其中词频统计结果最高的x项,标记为该文本数据集的第一关键词;
所述x项,取该数据集的5%-20%。
进一步的,所述生成领域通用高频词表,包括:
合并N类文本数据集对应的词频表;
对词表中的单词进行N位二进制编码;
将词表的单词,按词频高低进行排序,若存在词频相同的多个单词,按编码值大小进行排序;
储存排序完成的词表,作为领域通用高频词表;
所述N位二进制编码,若该单词为某文本数据集的第一关键词,则对应位赋值为1,反之对应位赋值为0。
进一步的,所述生成对应的N类子语料库,包括:
对领域通用高频词表中的单词编码值按位求和;
若单词编码的按位求和结果为1,则收入对应的子语料库中;
若单词编码的按位求和结果为2,则标记为待分类词;
若单词编码的按位求和结果为非1或2的任意值,则不收入子语料库中;
将待分类词中存在属于同一类别的单词,取词频排序接近的两项进行组合;
将组合结果作为关键词在N类文本数据集中进行词频排序,若其在某一类文本数据集中为第一关键词,则将组合结果收入对应子语料库,组元单词从原文本数据集中删除;
所述按位求和,将单词的N位二进制编码各位的值相加。
本发明通过首先构建一个垂直行业数据父语料库,然后针对垂直行业内不同类型的文本数据分别构建不同的子语料库,并对各个子语料库中的单词进行聚类,形成更加精准的语料库。逐一计算新添加垂直行业文本数据和各个语料库数据之间的相似度,从而对垂直行业文本进行分类,本方法简单、易于实现,且效率和性能较好。
附图说明
图1是本发明基于语料库的垂直行业文本分类方法的流程图。
图2是本发明基于语料库的垂直行业文本分类方法的实施例1的子语料库构建流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请涉及基于语料库的垂直行业文本分类方法,包括:步骤1,父语料库的构建;步骤2、子语料库的生成;步骤3、基于子语料库对文本分类。
所述父语料库的构建,包括:
步骤1-1、对互联网上垂直行业的文本进行采集;
步骤1-2、对采集的文本预处理,得到文本数据,作为垂直行业数据父语料库;
所述子语料库的生成,包括:
步骤2-1、对文本数据进行类别标注,分为N类文本数据集;
步骤2-2、分别基于N类文本数据集进行词频统计,生成文本数据集对应的词频表;
步骤2-3、对词频表排序,根据排序结果生成领域通用高频词表;
步骤2-4、生成对应的N类子语料库;
所述基于子语料库对文本分类,包括:
步骤3-1、给定一篇垂直行业的文本,提取文本中的关键词;
步骤3-2、比较文本中的关键词和N类子语料库中关键词的相似度;
步骤3-3、将相似度最高的子语料库对应的垂直行业文本数据作为文本的分类结果;
所述N,是对应垂直行业的常见分类数量;
所述比较文本中的关键词和N类子语料库中关键词的相似度,是比较文本中的关键词与各子语料库中关键词相同的数量。
请参考图2,以电力系统文本为例,存在单词a属于第一、二类文本数据集的第一关键词,对应图中正三角符号;存在单词b属于第一、三类文本数据集的特征关键词,对应图中右三角符号,且(a,b)组合属于第一类文本数据集的特征关键词,存在单词c属于第一类文本数据集的特征关键词,对应图中大圆符号;存在单词d属于第二类文本数据集的特征关键词,对应图中次小圆符号;存在单词e、f属于第一、二、四类文本数据集的特征关键词,对应图中次小五角星符号;存在单词g不属于任一类文本数据集的特征关键词,对应图中菱形符号。
此时领域通用高频词表的内容为:
由此领域通用高频词表内容可生成对应的四类子语料库,包括第一类子语料库{(a,b)组合,c,…},第二类子语料库{d,…},第三类子语料库{…},第四类子语料库{…}。
给定一篇垂直行业文本,提取其中的关键词。
比较文本中的关键词和四个子语料库中关键词的相似度,将垂直行业文本归类为相似度最高的一类子语料库对应的文本数据类别。
以上所述仅为本发明的实施例、并非因此限制本发明的专利范围、凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换、或直接或间接运用在其他相关的技术领域、均同理包括在本发明的专利保护范围内。
Claims (6)
1.基于语料库的垂直行业文本分类方法,其特征在于,包括:
步骤1、父语料库的构建;
步骤2、子语料库的生成;
步骤3、基于子语料库对文本分类;
所述子语料库的生成,包括
步骤2-1、对文本数据进行类别标注,分为N类文本数据集;
步骤2-2、分别基于N类文本数据集进行词频统计,生成文本数据集对应的词频表;
步骤2-3、对词频表排序,根据排序结果生成领域通用高频词表;
步骤2-4、生成对应的N类子语料库;
所述N,是对应垂直行业的常见分类数量。
2.如权利要求1所述基于语料库的垂直行业文本分类方法,其特征在于,所述父语料库的构建,包括:
步骤1-1、对互联网上垂直行业的文本进行采集;
步骤1-2、对采集的文本预处理,得到文本数据,作为垂直行业数据父语料库。
3.如权利要求2所述基于语料库的垂直行业文本分类方法,其特征在于,所述生成文本数据集对应的词频表,包括:
对文本数据集中的单词,统计其在该文本数据集中的词频;
将该文本数据集中单词,按词频统计结果高低进行排序;
将文本数据集中的单词按排序结果进行储存;
对其中词频统计结果最高的x项,标记为该文本数据集的第一关键词;
所述x项,取该数据集的5%-20%。
4.如权利要求3所述基于语料库的垂直行业文本分类方法,其特征在于,所述生成领域通用高频词表,包括:
合并N类文本数据集对应的词频表;
对词表中的单词进行N位二进制编码;
将词表的单词,按词频高低进行排序,若存在词频相同的多个单词,按编码值大小进行排序;
储存排序完成的词表,作为领域通用高频词表;
所述N位二进制编码,若该单词为某文本数据集的第一关键词,则对应位赋值为1,反之对应位赋值为0。
5.如权利要求4所述基于语料库的垂直行业文本分类方法,其特征在于,所述生成对应的N类子语料库,包括:
对领域通用高频词表中的单词编码值按位求和;
若单词编码的按位求和结果为1,则收入对应的子语料库中;
若单词编码的按位求和结果为2,则标记为待分类词;
若单词编码的按位求和结果为非1或2的任意值,则不收入子语料库中;
将待分类词中存在属于同一类别的单词,取词频排序接近的两项进行组合;
将组合结果作为关键词在N类文本数据集中进行词频排序,若其在某一类文本数据集中为第一关键词,则将组合结果收入对应子语料库,组元单词从原文本数据集中删除;
所述按位求和,将单词的N位二进制编码各位的值相加。
6.如权利要求5所述基于语料库的垂直行业文本分类方法,其特征在于,所述基于子语料库对文本分类,包括:
步骤3-1、给定一篇垂直行业的文本,提取文本中的关键词;
步骤3-2、比较文本中的关键词和N类子语料库中关键词的相似度;
步骤3-3、将相似度最高的子语料库对应的垂直行业文本数据作为文本的分类结果;
所述比较文本中的关键词和N类子语料库中关键词的相似度,是比较文本中的关键词与各子语料库中关键词相同的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424476.XA CN112784040B (zh) | 2020-12-08 | 2020-12-08 | 基于语料库的垂直行业文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424476.XA CN112784040B (zh) | 2020-12-08 | 2020-12-08 | 基于语料库的垂直行业文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112784040A true CN112784040A (zh) | 2021-05-11 |
CN112784040B CN112784040B (zh) | 2023-02-28 |
Family
ID=75750825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011424476.XA Active CN112784040B (zh) | 2020-12-08 | 2020-12-08 | 基于语料库的垂直行业文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784040B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004021605A (ja) * | 2002-06-17 | 2004-01-22 | Yamaha Corp | 情報分類装置、方法及びプログラム |
JP2006113677A (ja) * | 2004-10-12 | 2006-04-27 | Patolis Corp | 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体 |
US20070286499A1 (en) * | 2006-03-27 | 2007-12-13 | Sony Deutschland Gmbh | Method for Classifying Digital Image Data |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN102855312A (zh) * | 2012-08-24 | 2013-01-02 | 武汉大学 | 一种面向领域主题的Web服务聚类方法 |
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN111444704A (zh) * | 2020-03-27 | 2020-07-24 | 中南大学 | 基于深度神经网络的网络安全关键词抽取方法 |
CN112000632A (zh) * | 2020-07-31 | 2020-11-27 | 天翼电子商务有限公司 | 密文的分享方法、介质、分享客户端及系统 |
-
2020
- 2020-12-08 CN CN202011424476.XA patent/CN112784040B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004021605A (ja) * | 2002-06-17 | 2004-01-22 | Yamaha Corp | 情報分類装置、方法及びプログラム |
JP2006113677A (ja) * | 2004-10-12 | 2006-04-27 | Patolis Corp | 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体 |
US20070286499A1 (en) * | 2006-03-27 | 2007-12-13 | Sony Deutschland Gmbh | Method for Classifying Digital Image Data |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN102855312A (zh) * | 2012-08-24 | 2013-01-02 | 武汉大学 | 一种面向领域主题的Web服务聚类方法 |
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN111444704A (zh) * | 2020-03-27 | 2020-07-24 | 中南大学 | 基于深度神经网络的网络安全关键词抽取方法 |
CN112000632A (zh) * | 2020-07-31 | 2020-11-27 | 天翼电子商务有限公司 | 密文的分享方法、介质、分享客户端及系统 |
Non-Patent Citations (2)
Title |
---|
JOHN VIOLOS等: "Text Classification Using the N-Gram Graph Representation Model Over High Frequency Data Streams", 《MATHEMATICS OF COMPUTATION AND DATA SCIENCE》 * |
蔡韫昕: "基于深度学习的高转发量微博遥言识别研究", 《中国优秀硕士学位论文全文数据库 社会科学I辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114462556A (zh) * | 2022-04-13 | 2022-05-10 | 成都数之联科技股份有限公司 | 企业关联产业链分类方法、训练方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112784040B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN109101477B (zh) | 一种企业领域分类及企业关键词筛选方法 | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN106708966B (zh) | 基于相似度计算的垃圾评论检测方法 | |
CN108573045B (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
CN110471948B (zh) | 一种基于历史数据挖掘的海关报关商品智能归类方法 | |
CN107391772B (zh) | 一种基于朴素贝叶斯的文本分类方法 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN103294778B (zh) | 一种推送资讯信息的方法及系统 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN102609433A (zh) | 基于用户日志进行查询推荐的方法及系统 | |
CN103678670A (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN110955776A (zh) | 一种政务文本分类模型的构建方法 | |
CN106991127A (zh) | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 | |
CN110807101A (zh) | 一种科技文献大数据分类方法 | |
US8090720B2 (en) | Method for merging document clusters | |
CN106354871A (zh) | 一种企业名称的相似性检索方法 | |
CN1158460A (zh) | 一种跨语种语料自动分类与检索方法 | |
CN110910175B (zh) | 一种旅游门票产品画像生成方法 | |
CN115905489B (zh) | 一种提供招投标信息搜索服务的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |