CN105389345A - 一种分类短信文本内容的方法 - Google Patents

一种分类短信文本内容的方法 Download PDF

Info

Publication number
CN105389345A
CN105389345A CN201510697003.XA CN201510697003A CN105389345A CN 105389345 A CN105389345 A CN 105389345A CN 201510697003 A CN201510697003 A CN 201510697003A CN 105389345 A CN105389345 A CN 105389345A
Authority
CN
China
Prior art keywords
short message
message text
words
note
text feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510697003.XA
Other languages
English (en)
Inventor
章宦记
王建
庞彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201510697003.XA priority Critical patent/CN105389345A/zh
Publication of CN105389345A publication Critical patent/CN105389345A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种分类短信文本内容的方法,包括下列方面:采用字典分词,遍历字典中的所有词汇,如果在短信文本中出现某词汇,则该词汇为短信文本的分词的一部分,所有在字典中出现的词汇且在短信文本中出现,为该短信分词的结果;对所有短信分词的结果进行词汇统计,筛选出一批高频词,然后通过人工筛选得到短信文本特征词;对短信文本特征词表示成一组用数字1或0的向量,将输入的新的短信映射为一个短信文本特征词的向量,进行短信文本特征词匹配和欧式距离计算实现分类。本发明能有效挖掘出短信本身的特性同时又能够避免传统一些向量化文本产生的信息丢失,同时能够减少计算量。

Description

一种分类短信文本内容的方法
所属技术领域
本发明是自然语言处理在短信文本方面的应用,通过对短信文本进行分词,提取特征词实现对短信文本的分类。
背景技术
近年来,在自然语言处理领域涌现了各种技术,使得自然语言处理在文本识别方面有了很大的发展。但是对短信文本的分类,即使有了大量的已标记语料,可以通过模型训练的方式来得到对短信文本的分类。但是模型训练需要大量的语料。目前在处理大量的文本信息之前,如果对短信文本进行分类,都需要通过人工去标记一定量的短信文本信息,比如标记该短信文本的类别比如电影,快递,物流等。这样一个过程前期需要很多人工的参与或其他的方式,会得到一部分已标记的短信文本,通过对这一部分数据经过分词得到一个词表将每个文本表示成词向量进行模型训练。最终对新出现的短信文本信息进行分词得到文本向量,然后通过训练的模型进行分类。但是经过分词,新出现短信文本信息有些词汇经常会没有出现在已有的词表中,这个时候这些文本的一些信息会被丢失,词向量就不能完全体现短信文本本身的特性,而且将所有的分词词汇转变成向量维度会过高,带来巨大的计算量。
发明内容
本发明基于短信文本的特点提供一种对短信文本进行分类的方法。技术方案如下:
一种分类短信文本内容的方法,包括下列方面:
分词模块:采用字典分词,遍历字典中的所有词汇,如果在短信文本中出现某词汇,则该词汇为短信文本的分词的一部分,所有在字典中出现的词汇且在短信文本中出现,为该短信分词的结果;
筛选高频词模块:对所有短信分词的结果进行词汇统计,对统计的结果进行倒排即词频越高的排在越前面,设定阈值筛选出一批高频词,然后通过人工筛选去掉一些非该领域高频词,剩下的高频词即为该领域短信文本特征词;
阈值模块:对筛选出的短信文本特征词表示成一组用数字1或0的向量,将输入的新的短信映射为一个短信文本特征词的向量。通过短信文本特征词匹配,如果新的短信中出现短信文本特征词,将短信向量对应该短信文本特征词的位置标记为1否则为0;将短信映射成的向量与短信文本特征词的向量进行欧式距离计算,如果距离小于某阈值,则认为该短信属于某一类别短信。
本发明的有益效果是:本发明根据短信文本自身的特性,采用分词技术并统计短信的高频词,通过对高频词的匹配,转化为计算短信文本与某一类文本间的距离,进而通过计算欧式距离来判断短信文本的类别,有效的挖掘出短信本身的特性同时又能够避免传统一些向量化文本产生的信息丢失,同时能够减少大量的计算。
具体实施方式
下面实施例对本发明进行说明。
现在收集到大量的短信数据如下若干形式:
106123456,【人才管理】邀请您参加校园招聘,2011.05.11。106123456,【人才管理】邀请您参加校园招聘,2011.05.11。…106123456,【人才管理】邀请您参加校园招聘,2011.05.11。共计200条数据
10678456,【人才管理】欢迎您投递飞鸽公司,2011.06.11。10678456,人才管理及时给您校招信息,2011.06.11…10678456,谢谢您来应聘美的公司,2010.05.11。其中有括号短信的200条,无括号短信的200条
对于上面的所有招聘类信息通过分词模块,可以得到分词的结果“人才”,“管理”,“招聘”,“邀请”,“投递”,“校招”,“参加”,“飞鸽”,“欢迎”,“信息”,“及时”等等,但是这些词汇经过高频词筛选模块,只有“人才”,“管理”,“招聘”,“投递”,“校招”这些词汇会成为招聘类信息的高频词,将这些高频词映射为一个5维的向量[1,1,1,1,1],第一个维度表示“人才”,第二个维度表示“管理”,第三个维度表示“招聘”,第四个维度表示“投递”,第五个维度表示“校招”。
如果此时输入一个短信文本,比如10676666,【人才管理】欢迎您投递飞鸽公司的研发岗位,期待您的加入,2011.06.13。该10676666短信通过高频词匹配可以得到一个[1,1,0,1,0]。将得到的向量[1,1,0,1,0]与[1,1,1,1,1]进行欧式距离的计算,得到的结果为如果经过阈值模块取阈值为2,则10676666服务号发送的该条短信内容属于招聘信息类。
如果此时输入一个短信文本,比如106766888,【金鼎物业】欢迎您光临金鼎物业,需要买房请致电8888899999,2011.06.16。该106766888短信通过高频词匹配可以得到一个[0,0,0,0,0]。将得到的向量[0,0,0,0,0]与[1,1,1,1,1]进行欧式距离的计算,得到的结果为如果经过阈值模块取阈值为2,则106766888服务号发送的该条短信内容不属于招聘信息类。但是它属于其他类别的信息,比如物业管理或者房屋买卖类,但是前提是有这一类的已标注信息可以去做分词,去做高频词筛选,只要有一部分该领域该类别的信息,就可以通过分词然后选择高频词,通过匹配进行欧式距离的计算来判断短信文本的类别。

Claims (1)

1.一种分类短信文本内容的方法,包括下列方面:
分词模块:采用字典分词,遍历字典中的所有词汇,如果在短信文本中出现某词汇,则该词汇为短信文本的分词的一部分,所有在字典中出现的词汇且在短信文本中出现,为该短信分词的结果;
筛选高频词模块:对所有短信分词的结果进行词汇统计,对统计的结果进行倒排即词频越高的排在越前面,设定阈值筛选出一批高频词,然后通过人工筛选去掉一些非该领域高频词,剩下的高频词即为该领域短信文本特征词;
阈值模块:对筛选出的短信文本特征词表示成一组用数字1或0的向量,将输入的新的短信映射为一个短信文本特征词的向量。通过短信文本特征词匹配,如果新的短信中出现短信文本特征词,将短信向量对应该短信文本特征词的位置标记为1否则为0;将短信映射成的向量与短信文本特征词的向量进行欧式距离计算,如果距离小于某阈值,则认为该短信属于某一类别短信。
CN201510697003.XA 2015-10-26 2015-10-26 一种分类短信文本内容的方法 Pending CN105389345A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510697003.XA CN105389345A (zh) 2015-10-26 2015-10-26 一种分类短信文本内容的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510697003.XA CN105389345A (zh) 2015-10-26 2015-10-26 一种分类短信文本内容的方法

Publications (1)

Publication Number Publication Date
CN105389345A true CN105389345A (zh) 2016-03-09

Family

ID=55421635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510697003.XA Pending CN105389345A (zh) 2015-10-26 2015-10-26 一种分类短信文本内容的方法

Country Status (1)

Country Link
CN (1) CN105389345A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547738A (zh) * 2016-11-02 2017-03-29 北京亿美软通科技有限公司 一种基于文本挖掘的金融类逾期短信智能判别方法
CN109388707A (zh) * 2017-08-11 2019-02-26 腾讯科技(深圳)有限公司 短文本分类方法及装置
CN109582719A (zh) * 2018-10-19 2019-04-05 国电南瑞科技股份有限公司 一种智能变电站scd文件自动链接虚端子的方法和系统
CN109918645A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 深度分析文本的方法、装置、计算机设备和存储介质
CN110730270A (zh) * 2019-09-09 2020-01-24 上海凯京信达科技集团有限公司 一种短信分组方法、装置及计算机存储介质、电子设备
CN111241269A (zh) * 2018-11-09 2020-06-05 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756535B1 (en) * 2006-07-07 2010-07-13 Trend Micro Incorporated Lightweight content filtering system for mobile phones
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN103617230A (zh) * 2013-11-26 2014-03-05 中国科学院深圳先进技术研究院 一种基于微博的广告推荐方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756535B1 (en) * 2006-07-07 2010-07-13 Trend Micro Incorporated Lightweight content filtering system for mobile phones
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
CN103617230A (zh) * 2013-11-26 2014-03-05 中国科学院深圳先进技术研究院 一种基于微博的广告推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何建英等: "基于类别特征向量表示的中文文本分类算法", 《计算机应用研究》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547738A (zh) * 2016-11-02 2017-03-29 北京亿美软通科技有限公司 一种基于文本挖掘的金融类逾期短信智能判别方法
CN106547738B (zh) * 2016-11-02 2019-05-07 北京亿美软通科技有限公司 一种基于文本挖掘的金融类逾期短信智能判别方法
CN109388707A (zh) * 2017-08-11 2019-02-26 腾讯科技(深圳)有限公司 短文本分类方法及装置
CN109388707B (zh) * 2017-08-11 2022-12-30 腾讯科技(深圳)有限公司 短文本分类方法及装置
CN109582719A (zh) * 2018-10-19 2019-04-05 国电南瑞科技股份有限公司 一种智能变电站scd文件自动链接虚端子的方法和系统
CN109582719B (zh) * 2018-10-19 2021-08-24 国电南瑞科技股份有限公司 一种智能变电站scd文件自动链接虚端子的方法和系统
CN111241269A (zh) * 2018-11-09 2020-06-05 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质
CN111241269B (zh) * 2018-11-09 2024-02-23 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质
CN109918645A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 深度分析文本的方法、装置、计算机设备和存储介质
CN109918645B (zh) * 2019-01-28 2022-12-02 平安科技(深圳)有限公司 深度分析文本的方法、装置、计算机设备和存储介质
CN110730270A (zh) * 2019-09-09 2020-01-24 上海凯京信达科技集团有限公司 一种短信分组方法、装置及计算机存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN105389345A (zh) 一种分类短信文本内容的方法
CN107844795B (zh) 基于主成分分析的卷积神经网络特征提取方法
CN110969129B (zh) 一种端到端税务票据文本检测与识别方法
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN107766371A (zh) 一种文本信息分类方法及其装置
CN106980856A (zh) 公式识别方法及系统和符号推理计算方法及系统
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN105046287B (zh) 一种在线多笔画重复绘制草图的聚类与拟合方法
CN109871885A (zh) 一种基于深度学习和植物分类学的植物识别方法
CN108764242A (zh) 基于深层卷积神经网络的离线手写汉字体识别方法
CN106845528A (zh) 一种基于K‑means与深度学习的图像分类算法
CN109993100A (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN108829810A (zh) 面向健康舆情的文本分类方法
CN104636757A (zh) 一种基于深度学习的食物图像识别方法
CN104200238B (zh) 台标识别方法和台标识别装置
CN103020167B (zh) 一种计算机中文文本分类方法
CN103390046A (zh) 潜在狄利克雷模型的多尺度字典自然场景图像分类方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN109064389A (zh) 一种手绘线条画生成现实感图像的深度学习方法
CN105446955A (zh) 一种自适应的分词方法
CN110377659A (zh) 一种智能图表推荐系统及方法
CN105117740A (zh) 字体识别方法及装置
CN106203448A (zh) 一种基于非线性尺度空间的场景分类方法
CN111914555A (zh) 基于Transformer结构的自动化关系抽取系统
CN104573701B (zh) 一种玉米雄穗性状的自动检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160309

WD01 Invention patent application deemed withdrawn after publication