CN108664612A - 一种基于关键词计分的长文本数据智能分类方法 - Google Patents

一种基于关键词计分的长文本数据智能分类方法 Download PDF

Info

Publication number
CN108664612A
CN108664612A CN201810450978.6A CN201810450978A CN108664612A CN 108664612 A CN108664612 A CN 108664612A CN 201810450978 A CN201810450978 A CN 201810450978A CN 108664612 A CN108664612 A CN 108664612A
Authority
CN
China
Prior art keywords
keyword
text data
score
classification
sorting technique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810450978.6A
Other languages
English (en)
Inventor
尹玉芬
杜文娟
赵晨
张惠诗
吴裕宙
谢胜祥
卢鹤挺
郑志谦
骆华
杨程
麦霭庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN201810450978.6A priority Critical patent/CN108664612A/zh
Publication of CN108664612A publication Critical patent/CN108664612A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种基于关键词计分的长文本数据智能分类方法,该方法通过模拟人工快速进行文本分类的方法,以“类别——关键词”库作为判断依据,以累计得分作为量化比较方法,根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。

Description

一种基于关键词计分的长文本数据智能分类方法
技术领域
本发明涉及文本数据挖掘领域,更具体地,涉及一种基于关键词计分的长文本数据智能分类方法。
背景技术
目前的文本数据分类方法,只能通过关键词存在性进行部分或全部文本的精确匹配,例如,判断一个全国事业机构名单的机构是什么行政级别的单位,可以通过名称中包含的地名的行政级别来判断,例如“广州供电局”是地市级单位,广东电网是省级单位。
目前的文本数据分类方法由于使用精确匹配,无法根据文本信息的上下文关联进行较模糊的判断,对日常的文本信息难以有效判别,常常需要人工读取和判别,效率较低。例如,公共服务单位普遍提供话务服务,根据谈话内容进行话务分类的工作仍需人工进行,话务量巨大时十分消耗人力资源。
发明内容
本发明提供一种基于关键词计分的长文本数据智能分类方法,该方法根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。
为了达到上述技术效果,本发明的技术方案如下:
一种基于关键词计分的长文本数据智能分类方法,包括以下步骤:
S1:建立数据的类别列表;
S2:为每种类别建立特征关键词库;
S3:设定每个关键词的计分规则;
S4:通过Microsoft Excel的VBA编程功能编写对文本数据的读取、计算、输出代码;
S5:设置控件作为启动代码的开关。
进一步地,所述步骤S2的具体过程是:
根据客服话务记录的来电内容进行数据分类判定关键词,为每种分类总结归纳出去关键词库,形成“内容类别-关键词库”。
进一步地,通过计算每条通话记录来电内容中包含的每种可能的内容类别的关键词的得分,选中得分中最高的一个内容类别,确定为该记录的内容类别。
进一步地,将该记录输出到指定的位置,并添加计算出的“内容类别”字段信息,清除计算时调取的记录信息。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法通过模拟人工快速进行文本分类的方法,以“类别——关键词”库作为判断依据,以累计得分作为量化比较方法,根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。
附图说明
图1为本发明方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于关键词计分的长文本数据智能分类方法,包括以下步骤:
S1:建立数据的类别列表;
S2:为每种类别建立特征关键词库特征关键词库;
S3:设定每个关键词的计分规则;
S4:通过Microsoft Excel的VBA编程功能编写对文本数据的读取、计算、输出代码;
S5:设置控件作为启动代码的开关。
进一步地,所述步骤S2的具体过程是:
根据客服话务记录的来电内容进行数据分类判定关键词,为每种分类总结归纳出去关键词库,形成“内容类别-关键词库”。
进一步地,通过计算每条通话记录来电内容中包含的每种可能的内容类别的关键词的得分,选中得分中最高的一个内容类别,确定为该记录的内容类别。
进一步地,将该记录输出到指定的位置,并添加计算出的“内容类别”字段信息,清除计算时调取的记录信息。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法通过模拟人工快速进行文本分类的方法,以“类别——关键词”库作为判断依据,以累计得分作为量化比较方法,根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于关键词计分的长文本数据智能分类方法,其特征在于,包括以下步骤:
S1:建立数据的类别列表;
S2:为每种类别建立特征关键词库;
S3:设定每个关键词的计分规则;
S4:通过Microsoft Excel的VBA编程功能编写对文本数据的读取、计算、输出代码;
S5:设置控件作为启动代码的开关。
2.根据权利要求1所述的基于关键词计分的长文本数据智能分类方法,其特征在于,所述步骤S2的具体过程是:
根据客服话务记录的来电内容进行数据分类判定关键词,为每种分类总结归纳出其特征关键词库,形成“内容类别-关键词库”。
3.根据权利要求2所述的基于关键词计分的长文本数据智能分类方法,其特征在于,通过计算每条通话记录来电内容中包含的每种可能的内容类别的关键词的得分,选中得分中最高的一个内容类别,确定为该记录的内容类别。
4.根据权利要求3所述的基于关键词计分的长文本数据智能分类方法,其特征在于,将该记录输出到指定的位置,并添加计算出的“内容类别”字段信息,清除计算时调取的记录信息。
CN201810450978.6A 2018-05-11 2018-05-11 一种基于关键词计分的长文本数据智能分类方法 Pending CN108664612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810450978.6A CN108664612A (zh) 2018-05-11 2018-05-11 一种基于关键词计分的长文本数据智能分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810450978.6A CN108664612A (zh) 2018-05-11 2018-05-11 一种基于关键词计分的长文本数据智能分类方法

Publications (1)

Publication Number Publication Date
CN108664612A true CN108664612A (zh) 2018-10-16

Family

ID=63779138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810450978.6A Pending CN108664612A (zh) 2018-05-11 2018-05-11 一种基于关键词计分的长文本数据智能分类方法

Country Status (1)

Country Link
CN (1) CN108664612A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463929A (zh) * 2020-12-11 2021-03-09 广东电网有限责任公司佛山供电局 一种故障信息的自动分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN102694895A (zh) * 2011-03-23 2012-09-26 中兴通讯股份有限公司 来电原因的判定方法及装置
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN103399891A (zh) * 2013-07-22 2013-11-20 百度在线网络技术(北京)有限公司 网络内容自动推荐方法、装置和系统
US20160124933A1 (en) * 2014-10-30 2016-05-05 International Business Machines Corporation Generation apparatus, generation method, and program
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102694895A (zh) * 2011-03-23 2012-09-26 中兴通讯股份有限公司 来电原因的判定方法及装置
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN103399891A (zh) * 2013-07-22 2013-11-20 百度在线网络技术(北京)有限公司 网络内容自动推荐方法、装置和系统
US20160124933A1 (en) * 2014-10-30 2016-05-05 International Business Machines Corporation Generation apparatus, generation method, and program
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463929A (zh) * 2020-12-11 2021-03-09 广东电网有限责任公司佛山供电局 一种故障信息的自动分类方法

Similar Documents

Publication Publication Date Title
CN109918452A (zh) 一种数据处理的方法、装置、计算机存储介质及终端
CN111159387B (zh) 基于多维度报警信息文本相似度分析的推荐方法
CN106372072A (zh) 一种基于位置的移动社会网络用户关系的识别方法
CN101784022A (zh) 短信过滤、分类方法及系统
CN109472419A (zh) 基于时空的警情预测模型的建立方法、装置和存储介质
CN105955951A (zh) 一种消息过滤的方法及装置
Du et al. Microblog bursty topic detection based on user relationship
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN105787025A (zh) 网络平台公共账号分类方法及装置
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN110070872A (zh) 一种基于智能语音识别的物流填单方法
CN115409018B (zh) 基于大数据的公司舆情监测系统及其方法
CN110097278A (zh) 一种科技资源智能共享融合训练系统和应用系统
CN106789572A (zh) 一种实现自适应消息过滤的即时通讯系统和即时通讯方法
CN115100395A (zh) 一种融合poi预分类和图神经网络的城市街区功能分类方法
CN104915388A (zh) 一种基于谱聚类和众包技术的图书标签推荐方法
Huang et al. Hierarchical destination prediction based on GPS history
Caid et al. Context vector-based text retrieval
CN108664612A (zh) 一种基于关键词计分的长文本数据智能分类方法
CN104978366B (zh) 基于移动终端的语音数据索引建立方法和系统
CN111008285A (zh) 一种基于论文关键属性网络的作者消歧方法
CN106777395A (zh) 一种基于社区文本数据的话题发现系统
CN113656579B (zh) 文本分类方法、装置、设备及介质
CN113538011B (zh) 一种电力系统中非在册联系信息与在册用户的关联方法
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181016