CN108664612A - 一种基于关键词计分的长文本数据智能分类方法 - Google Patents
一种基于关键词计分的长文本数据智能分类方法 Download PDFInfo
- Publication number
- CN108664612A CN108664612A CN201810450978.6A CN201810450978A CN108664612A CN 108664612 A CN108664612 A CN 108664612A CN 201810450978 A CN201810450978 A CN 201810450978A CN 108664612 A CN108664612 A CN 108664612A
- Authority
- CN
- China
- Prior art keywords
- keyword
- text data
- score
- classification
- sorting technique
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种基于关键词计分的长文本数据智能分类方法,该方法通过模拟人工快速进行文本分类的方法,以“类别——关键词”库作为判断依据,以累计得分作为量化比较方法,根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。
Description
技术领域
本发明涉及文本数据挖掘领域,更具体地,涉及一种基于关键词计分的长文本数据智能分类方法。
背景技术
目前的文本数据分类方法,只能通过关键词存在性进行部分或全部文本的精确匹配,例如,判断一个全国事业机构名单的机构是什么行政级别的单位,可以通过名称中包含的地名的行政级别来判断,例如“广州供电局”是地市级单位,广东电网是省级单位。
目前的文本数据分类方法由于使用精确匹配,无法根据文本信息的上下文关联进行较模糊的判断,对日常的文本信息难以有效判别,常常需要人工读取和判别,效率较低。例如,公共服务单位普遍提供话务服务,根据谈话内容进行话务分类的工作仍需人工进行,话务量巨大时十分消耗人力资源。
发明内容
本发明提供一种基于关键词计分的长文本数据智能分类方法,该方法根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。
为了达到上述技术效果,本发明的技术方案如下:
一种基于关键词计分的长文本数据智能分类方法,包括以下步骤:
S1:建立数据的类别列表;
S2:为每种类别建立特征关键词库;
S3:设定每个关键词的计分规则;
S4:通过Microsoft Excel的VBA编程功能编写对文本数据的读取、计算、输出代码;
S5:设置控件作为启动代码的开关。
进一步地,所述步骤S2的具体过程是:
根据客服话务记录的来电内容进行数据分类判定关键词,为每种分类总结归纳出去关键词库,形成“内容类别-关键词库”。
进一步地,通过计算每条通话记录来电内容中包含的每种可能的内容类别的关键词的得分,选中得分中最高的一个内容类别,确定为该记录的内容类别。
进一步地,将该记录输出到指定的位置,并添加计算出的“内容类别”字段信息,清除计算时调取的记录信息。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法通过模拟人工快速进行文本分类的方法,以“类别——关键词”库作为判断依据,以累计得分作为量化比较方法,根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。
附图说明
图1为本发明方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于关键词计分的长文本数据智能分类方法,包括以下步骤:
S1:建立数据的类别列表;
S2:为每种类别建立特征关键词库特征关键词库;
S3:设定每个关键词的计分规则;
S4:通过Microsoft Excel的VBA编程功能编写对文本数据的读取、计算、输出代码;
S5:设置控件作为启动代码的开关。
进一步地,所述步骤S2的具体过程是:
根据客服话务记录的来电内容进行数据分类判定关键词,为每种分类总结归纳出去关键词库,形成“内容类别-关键词库”。
进一步地,通过计算每条通话记录来电内容中包含的每种可能的内容类别的关键词的得分,选中得分中最高的一个内容类别,确定为该记录的内容类别。
进一步地,将该记录输出到指定的位置,并添加计算出的“内容类别”字段信息,清除计算时调取的记录信息。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法通过模拟人工快速进行文本分类的方法,以“类别——关键词”库作为判断依据,以累计得分作为量化比较方法,根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (4)
1.一种基于关键词计分的长文本数据智能分类方法,其特征在于,包括以下步骤:
S1:建立数据的类别列表;
S2:为每种类别建立特征关键词库;
S3:设定每个关键词的计分规则;
S4:通过Microsoft Excel的VBA编程功能编写对文本数据的读取、计算、输出代码;
S5:设置控件作为启动代码的开关。
2.根据权利要求1所述的基于关键词计分的长文本数据智能分类方法,其特征在于,所述步骤S2的具体过程是:
根据客服话务记录的来电内容进行数据分类判定关键词,为每种分类总结归纳出其特征关键词库,形成“内容类别-关键词库”。
3.根据权利要求2所述的基于关键词计分的长文本数据智能分类方法,其特征在于,通过计算每条通话记录来电内容中包含的每种可能的内容类别的关键词的得分,选中得分中最高的一个内容类别,确定为该记录的内容类别。
4.根据权利要求3所述的基于关键词计分的长文本数据智能分类方法,其特征在于,将该记录输出到指定的位置,并添加计算出的“内容类别”字段信息,清除计算时调取的记录信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810450978.6A CN108664612A (zh) | 2018-05-11 | 2018-05-11 | 一种基于关键词计分的长文本数据智能分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810450978.6A CN108664612A (zh) | 2018-05-11 | 2018-05-11 | 一种基于关键词计分的长文本数据智能分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108664612A true CN108664612A (zh) | 2018-10-16 |
Family
ID=63779138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810450978.6A Pending CN108664612A (zh) | 2018-05-11 | 2018-05-11 | 一种基于关键词计分的长文本数据智能分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108664612A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463929A (zh) * | 2020-12-11 | 2021-03-09 | 广东电网有限责任公司佛山供电局 | 一种故障信息的自动分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN102694895A (zh) * | 2011-03-23 | 2012-09-26 | 中兴通讯股份有限公司 | 来电原因的判定方法及装置 |
CN103294820A (zh) * | 2013-06-14 | 2013-09-11 | 广东电网公司电力科学研究院 | 基于语义扩展的web页面归类方法和系统 |
CN103399891A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 网络内容自动推荐方法、装置和系统 |
US20160124933A1 (en) * | 2014-10-30 | 2016-05-05 | International Business Machines Corporation | Generation apparatus, generation method, and program |
CN107436875A (zh) * | 2016-05-25 | 2017-12-05 | 华为技术有限公司 | 文本分类方法及装置 |
-
2018
- 2018-05-11 CN CN201810450978.6A patent/CN108664612A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102694895A (zh) * | 2011-03-23 | 2012-09-26 | 中兴通讯股份有限公司 | 来电原因的判定方法及装置 |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN103294820A (zh) * | 2013-06-14 | 2013-09-11 | 广东电网公司电力科学研究院 | 基于语义扩展的web页面归类方法和系统 |
CN103399891A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 网络内容自动推荐方法、装置和系统 |
US20160124933A1 (en) * | 2014-10-30 | 2016-05-05 | International Business Machines Corporation | Generation apparatus, generation method, and program |
CN107436875A (zh) * | 2016-05-25 | 2017-12-05 | 华为技术有限公司 | 文本分类方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463929A (zh) * | 2020-12-11 | 2021-03-09 | 广东电网有限责任公司佛山供电局 | 一种故障信息的自动分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918452A (zh) | 一种数据处理的方法、装置、计算机存储介质及终端 | |
CN111159387B (zh) | 基于多维度报警信息文本相似度分析的推荐方法 | |
CN106372072A (zh) | 一种基于位置的移动社会网络用户关系的识别方法 | |
CN101784022A (zh) | 短信过滤、分类方法及系统 | |
CN109472419A (zh) | 基于时空的警情预测模型的建立方法、装置和存储介质 | |
CN105955951A (zh) | 一种消息过滤的方法及装置 | |
Du et al. | Microblog bursty topic detection based on user relationship | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN105787025A (zh) | 网络平台公共账号分类方法及装置 | |
CN109657063A (zh) | 一种海量环保人工上报事件数据的处理方法及存储介质 | |
CN110070872A (zh) | 一种基于智能语音识别的物流填单方法 | |
CN115409018B (zh) | 基于大数据的公司舆情监测系统及其方法 | |
CN110097278A (zh) | 一种科技资源智能共享融合训练系统和应用系统 | |
CN106789572A (zh) | 一种实现自适应消息过滤的即时通讯系统和即时通讯方法 | |
CN115100395A (zh) | 一种融合poi预分类和图神经网络的城市街区功能分类方法 | |
CN104915388A (zh) | 一种基于谱聚类和众包技术的图书标签推荐方法 | |
Huang et al. | Hierarchical destination prediction based on GPS history | |
Caid et al. | Context vector-based text retrieval | |
CN108664612A (zh) | 一种基于关键词计分的长文本数据智能分类方法 | |
CN104978366B (zh) | 基于移动终端的语音数据索引建立方法和系统 | |
CN111008285A (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
CN106777395A (zh) | 一种基于社区文本数据的话题发现系统 | |
CN113656579B (zh) | 文本分类方法、装置、设备及介质 | |
CN113538011B (zh) | 一种电力系统中非在册联系信息与在册用户的关联方法 | |
CN112069392B (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181016 |