CN105389345A - 一种分类短信文本内容的方法 - Google Patents
一种分类短信文本内容的方法 Download PDFInfo
- Publication number
- CN105389345A CN105389345A CN201510697003.XA CN201510697003A CN105389345A CN 105389345 A CN105389345 A CN 105389345A CN 201510697003 A CN201510697003 A CN 201510697003A CN 105389345 A CN105389345 A CN 105389345A
- Authority
- CN
- China
- Prior art keywords
- short message
- message text
- words
- note
- text feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种分类短信文本内容的方法,包括下列方面:采用字典分词,遍历字典中的所有词汇,如果在短信文本中出现某词汇,则该词汇为短信文本的分词的一部分,所有在字典中出现的词汇且在短信文本中出现,为该短信分词的结果;对所有短信分词的结果进行词汇统计,筛选出一批高频词,然后通过人工筛选得到短信文本特征词;对短信文本特征词表示成一组用数字1或0的向量,将输入的新的短信映射为一个短信文本特征词的向量,进行短信文本特征词匹配和欧式距离计算实现分类。本发明能有效挖掘出短信本身的特性同时又能够避免传统一些向量化文本产生的信息丢失,同时能够减少计算量。
Description
所属技术领域
本发明是自然语言处理在短信文本方面的应用,通过对短信文本进行分词,提取特征词实现对短信文本的分类。
背景技术
近年来,在自然语言处理领域涌现了各种技术,使得自然语言处理在文本识别方面有了很大的发展。但是对短信文本的分类,即使有了大量的已标记语料,可以通过模型训练的方式来得到对短信文本的分类。但是模型训练需要大量的语料。目前在处理大量的文本信息之前,如果对短信文本进行分类,都需要通过人工去标记一定量的短信文本信息,比如标记该短信文本的类别比如电影,快递,物流等。这样一个过程前期需要很多人工的参与或其他的方式,会得到一部分已标记的短信文本,通过对这一部分数据经过分词得到一个词表将每个文本表示成词向量进行模型训练。最终对新出现的短信文本信息进行分词得到文本向量,然后通过训练的模型进行分类。但是经过分词,新出现短信文本信息有些词汇经常会没有出现在已有的词表中,这个时候这些文本的一些信息会被丢失,词向量就不能完全体现短信文本本身的特性,而且将所有的分词词汇转变成向量维度会过高,带来巨大的计算量。
发明内容
本发明基于短信文本的特点提供一种对短信文本进行分类的方法。技术方案如下:
一种分类短信文本内容的方法,包括下列方面:
分词模块:采用字典分词,遍历字典中的所有词汇,如果在短信文本中出现某词汇,则该词汇为短信文本的分词的一部分,所有在字典中出现的词汇且在短信文本中出现,为该短信分词的结果;
筛选高频词模块:对所有短信分词的结果进行词汇统计,对统计的结果进行倒排即词频越高的排在越前面,设定阈值筛选出一批高频词,然后通过人工筛选去掉一些非该领域高频词,剩下的高频词即为该领域短信文本特征词;
阈值模块:对筛选出的短信文本特征词表示成一组用数字1或0的向量,将输入的新的短信映射为一个短信文本特征词的向量。通过短信文本特征词匹配,如果新的短信中出现短信文本特征词,将短信向量对应该短信文本特征词的位置标记为1否则为0;将短信映射成的向量与短信文本特征词的向量进行欧式距离计算,如果距离小于某阈值,则认为该短信属于某一类别短信。
本发明的有益效果是:本发明根据短信文本自身的特性,采用分词技术并统计短信的高频词,通过对高频词的匹配,转化为计算短信文本与某一类文本间的距离,进而通过计算欧式距离来判断短信文本的类别,有效的挖掘出短信本身的特性同时又能够避免传统一些向量化文本产生的信息丢失,同时能够减少大量的计算。
具体实施方式
下面实施例对本发明进行说明。
现在收集到大量的短信数据如下若干形式:
106123456,【人才管理】邀请您参加校园招聘,2011.05.11。106123456,【人才管理】邀请您参加校园招聘,2011.05.11。…106123456,【人才管理】邀请您参加校园招聘,2011.05.11。共计200条数据
10678456,【人才管理】欢迎您投递飞鸽公司,2011.06.11。10678456,人才管理及时给您校招信息,2011.06.11…10678456,谢谢您来应聘美的公司,2010.05.11。其中有括号短信的200条,无括号短信的200条
对于上面的所有招聘类信息通过分词模块,可以得到分词的结果“人才”,“管理”,“招聘”,“邀请”,“投递”,“校招”,“参加”,“飞鸽”,“欢迎”,“信息”,“及时”等等,但是这些词汇经过高频词筛选模块,只有“人才”,“管理”,“招聘”,“投递”,“校招”这些词汇会成为招聘类信息的高频词,将这些高频词映射为一个5维的向量[1,1,1,1,1],第一个维度表示“人才”,第二个维度表示“管理”,第三个维度表示“招聘”,第四个维度表示“投递”,第五个维度表示“校招”。
如果此时输入一个短信文本,比如10676666,【人才管理】欢迎您投递飞鸽公司的研发岗位,期待您的加入,2011.06.13。该10676666短信通过高频词匹配可以得到一个[1,1,0,1,0]。将得到的向量[1,1,0,1,0]与[1,1,1,1,1]进行欧式距离的计算,得到的结果为如果经过阈值模块取阈值为2,则10676666服务号发送的该条短信内容属于招聘信息类。
如果此时输入一个短信文本,比如106766888,【金鼎物业】欢迎您光临金鼎物业,需要买房请致电8888899999,2011.06.16。该106766888短信通过高频词匹配可以得到一个[0,0,0,0,0]。将得到的向量[0,0,0,0,0]与[1,1,1,1,1]进行欧式距离的计算,得到的结果为如果经过阈值模块取阈值为2,则106766888服务号发送的该条短信内容不属于招聘信息类。但是它属于其他类别的信息,比如物业管理或者房屋买卖类,但是前提是有这一类的已标注信息可以去做分词,去做高频词筛选,只要有一部分该领域该类别的信息,就可以通过分词然后选择高频词,通过匹配进行欧式距离的计算来判断短信文本的类别。
Claims (1)
1.一种分类短信文本内容的方法,包括下列方面:
分词模块:采用字典分词,遍历字典中的所有词汇,如果在短信文本中出现某词汇,则该词汇为短信文本的分词的一部分,所有在字典中出现的词汇且在短信文本中出现,为该短信分词的结果;
筛选高频词模块:对所有短信分词的结果进行词汇统计,对统计的结果进行倒排即词频越高的排在越前面,设定阈值筛选出一批高频词,然后通过人工筛选去掉一些非该领域高频词,剩下的高频词即为该领域短信文本特征词;
阈值模块:对筛选出的短信文本特征词表示成一组用数字1或0的向量,将输入的新的短信映射为一个短信文本特征词的向量。通过短信文本特征词匹配,如果新的短信中出现短信文本特征词,将短信向量对应该短信文本特征词的位置标记为1否则为0;将短信映射成的向量与短信文本特征词的向量进行欧式距离计算,如果距离小于某阈值,则认为该短信属于某一类别短信。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510697003.XA CN105389345A (zh) | 2015-10-26 | 2015-10-26 | 一种分类短信文本内容的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510697003.XA CN105389345A (zh) | 2015-10-26 | 2015-10-26 | 一种分类短信文本内容的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105389345A true CN105389345A (zh) | 2016-03-09 |
Family
ID=55421635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510697003.XA Pending CN105389345A (zh) | 2015-10-26 | 2015-10-26 | 一种分类短信文本内容的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105389345A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547738A (zh) * | 2016-11-02 | 2017-03-29 | 北京亿美软通科技有限公司 | 一种基于文本挖掘的金融类逾期短信智能判别方法 |
CN109388707A (zh) * | 2017-08-11 | 2019-02-26 | 腾讯科技(深圳)有限公司 | 短文本分类方法及装置 |
CN109582719A (zh) * | 2018-10-19 | 2019-04-05 | 国电南瑞科技股份有限公司 | 一种智能变电站scd文件自动链接虚端子的方法和系统 |
CN109918645A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 深度分析文本的方法、装置、计算机设备和存储介质 |
CN110730270A (zh) * | 2019-09-09 | 2020-01-24 | 上海凯京信达科技集团有限公司 | 一种短信分组方法、装置及计算机存储介质、电子设备 |
CN111241269A (zh) * | 2018-11-09 | 2020-06-05 | 中移(杭州)信息技术有限公司 | 一种短信文本分类方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756535B1 (en) * | 2006-07-07 | 2010-07-13 | Trend Micro Incorporated | Lightweight content filtering system for mobile phones |
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN103617230A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院深圳先进技术研究院 | 一种基于微博的广告推荐方法及系统 |
-
2015
- 2015-10-26 CN CN201510697003.XA patent/CN105389345A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756535B1 (en) * | 2006-07-07 | 2010-07-13 | Trend Micro Incorporated | Lightweight content filtering system for mobile phones |
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN103617230A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院深圳先进技术研究院 | 一种基于微博的广告推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
何建英等: "基于类别特征向量表示的中文文本分类算法", 《计算机应用研究》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547738A (zh) * | 2016-11-02 | 2017-03-29 | 北京亿美软通科技有限公司 | 一种基于文本挖掘的金融类逾期短信智能判别方法 |
CN106547738B (zh) * | 2016-11-02 | 2019-05-07 | 北京亿美软通科技有限公司 | 一种基于文本挖掘的金融类逾期短信智能判别方法 |
CN109388707A (zh) * | 2017-08-11 | 2019-02-26 | 腾讯科技(深圳)有限公司 | 短文本分类方法及装置 |
CN109388707B (zh) * | 2017-08-11 | 2022-12-30 | 腾讯科技(深圳)有限公司 | 短文本分类方法及装置 |
CN109582719A (zh) * | 2018-10-19 | 2019-04-05 | 国电南瑞科技股份有限公司 | 一种智能变电站scd文件自动链接虚端子的方法和系统 |
CN109582719B (zh) * | 2018-10-19 | 2021-08-24 | 国电南瑞科技股份有限公司 | 一种智能变电站scd文件自动链接虚端子的方法和系统 |
CN111241269A (zh) * | 2018-11-09 | 2020-06-05 | 中移(杭州)信息技术有限公司 | 一种短信文本分类方法、装置、电子设备及存储介质 |
CN111241269B (zh) * | 2018-11-09 | 2024-02-23 | 中移(杭州)信息技术有限公司 | 一种短信文本分类方法、装置、电子设备及存储介质 |
CN109918645A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 深度分析文本的方法、装置、计算机设备和存储介质 |
CN109918645B (zh) * | 2019-01-28 | 2022-12-02 | 平安科技(深圳)有限公司 | 深度分析文本的方法、装置、计算机设备和存储介质 |
CN110730270A (zh) * | 2019-09-09 | 2020-01-24 | 上海凯京信达科技集团有限公司 | 一种短信分组方法、装置及计算机存储介质、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105389345A (zh) | 一种分类短信文本内容的方法 | |
CN106022300B (zh) | 基于级联深度学习的交通标志识别方法和系统 | |
CN108629338B (zh) | 一种基于lbp和卷积神经网络的人脸美丽预测方法 | |
CN104463101B (zh) | 用于文字性试题的答案识别方法及系统 | |
CN101315663B (zh) | 一种基于区域潜在语义特征的自然场景图像分类方法 | |
CN110969129B (zh) | 一种端到端税务票据文本检测与识别方法 | |
CN106295584A (zh) | 深度迁移学习在人群属性的识别方法 | |
CN105354581B (zh) | 融合颜色特征与卷积神经网络的彩色图像特征提取方法 | |
CN104331506A (zh) | 一种面向双语微博文本的多类情感分析方法与系统 | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN105046287B (zh) | 一种在线多笔画重复绘制草图的聚类与拟合方法 | |
CN109657039B (zh) | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 | |
CN109871885A (zh) | 一种基于深度学习和植物分类学的植物识别方法 | |
CN108829810A (zh) | 面向健康舆情的文本分类方法 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN103390046A (zh) | 潜在狄利克雷模型的多尺度字典自然场景图像分类方法 | |
CN107195299A (zh) | 训练神经网络声学模型的方法和装置及语音识别方法和装置 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN106203448A (zh) | 一种基于非线性尺度空间的场景分类方法 | |
CN109064389A (zh) | 一种手绘线条画生成现实感图像的深度学习方法 | |
CN105446955A (zh) | 一种自适应的分词方法 | |
CN104200238B (zh) | 台标识别方法和台标识别装置 | |
CN110377659A (zh) | 一种智能图表推荐系统及方法 | |
CN113723330A (zh) | 一种图表文档信息理解的方法及系统 | |
CN102542543A (zh) | 基于块相似性的交互式图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160309 |
|
WD01 | Invention patent application deemed withdrawn after publication |