CN107734131B - 一种短信息分类方法及装置 - Google Patents

一种短信息分类方法及装置 Download PDF

Info

Publication number
CN107734131B
CN107734131B CN201610659527.4A CN201610659527A CN107734131B CN 107734131 B CN107734131 B CN 107734131B CN 201610659527 A CN201610659527 A CN 201610659527A CN 107734131 B CN107734131 B CN 107734131B
Authority
CN
China
Prior art keywords
short message
type
words
classification model
message type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610659527.4A
Other languages
English (en)
Other versions
CN107734131A (zh
Inventor
陈军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201610659527.4A priority Critical patent/CN107734131B/zh
Priority to PCT/CN2016/105378 priority patent/WO2018028065A1/zh
Publication of CN107734131A publication Critical patent/CN107734131A/zh
Application granted granted Critical
Publication of CN107734131B publication Critical patent/CN107734131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种短信息分类方法及装置,其中,所述短信息分类方法包括:识别接收的短信息中的预设特征词,将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号,确定第一分类模型,从所述第一分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量,根据所述第一分类模型,对读取的符号向量和字向量进行加权运算,得到第一运算结果,根据所述第一运算结果,判定所述短信息的类型。本发明的方案,通过预先设置的分类模型,能够对短信息所属的短信息类型进行准确地判定,实现对短信息的智能管理,方便用户对短信息进行查询整理。

Description

一种短信息分类方法及装置
技术领域
本发明涉及文本分类统计技术领域,特别是涉及一种短信息分类方法及装置。
背景技术
目前,终端中的短信息(包括通知中心的文本消息)基本没有分类,或者仅采用发送方号码进行分类存储,按接收的时间进行排列。
这样,当终端中存储有大量短信息时,上述分类方式会使得用户查询整理短信息时极为不便。例如,用户想要找几天前招商银行发送的信用卡还款短信,这时需要用户在大量的招商银行发送的短信中手工查找,费时费力。即使用户经常手动整理短信息,也容易出现误删及漏删的情况。
发明内容
本发明的目的在于提供一种短信息分类方法及装置,以解决现有的分类短信息的方式使得用户查询整理短信息时极为不便的问题。
为了实现上述的目的,本发明提供一种短信息分类方法,包括:
识别接收的短信息中的预设特征词;
将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号;
确定第一分类模型,其中,所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型;
从所述第一分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
根据所述第一分类模型,对读取的符号向量和字向量进行加权运算,得到第一运算结果;
根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型。
优选的,所述方法还包括:
若所述短信息的类型为所述非第一短信息类型,确定第二分类模型,其中,所述第二分类模型对应的短信息类型包括至少一种第二短信息类型和非第二短信息类型;
从所述第二分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
根据所述第二分类模型,对读取的符号向量和字向量进行加权运算,得到第二运算结果;
根据所述第二运算结果,判定所述短信息的类型为所述第二短信息类型或所述非第二短信息类型。
优选的,所述根据所述第一分类模型,对读取的符号向量和字向量进行加权运算,得到第一运算结果的步骤,包括:
根据所述第一分类模型,对所述读取的符号向量和字向量进行处理,得到与所述短信息对应的信息向量;
确定每种第一短信息类型和所述非第一短信息类型的与所述信息向量对应的权重系数向量,其中,所述信息向量中的信息值与所述权重系数向量中的权重系数一一对应;
利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算,得到至少两个预测量化值。
优选的,所述根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤,包括:
比较所述至少两个预测量化值,得到所述至少两个预测量化值中的最大的预测量化值;
判定所述短信息的类型为所述最大的预测量化值对应的短信息类型。
优选的,所述识别接收的短信息中的预设特征词的步骤之前,所述方法还包括:
对所述接收的短信息进行规范处理;
所述识别接收的短信息中的预设特征词的步骤包括:
识别所述规范处理后的短信息中的预设特征词。
优选的,所述读取所述短信息中除所述预设特征词之外的其余字的字向量的步骤,包括:
根据文本分词技术,获取所述短信息中除所述预设特征词之外的其余字中的词语;
读取所述获取的词语的词向量和所述短信息中除所述预设特征词及所述获取的词语之外的其余字的字向量。
优选的,所述根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤之后,所述方法还包括:
将所述短信息分类保存至其所属的短信息类型中。
优选的,所述根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤之后,所述方法还包括:
输出所述预设特征词中的至少一个。
本发明还提供一种短信息分类装置,包括:
识别模块,用于识别接收的短信息中的预设特征词;
替换模块,用于将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号;
第一确定模块,用于确定第一分类模型,其中,所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型;
第一读取模块,用于从所述第一分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
第一运算模块,用于根据所述第一分类模型,对读取的符号向量和字向量进行加权运算,得到第一运算结果;
第一判定模块,用于根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型。
优选的,所述装置还包括:
第二确定模块,用于在所述短信息的类型为所述非第一短信息类型时,确定第二分类模型,其中,所述第二分类模型对应的短信息类型包括至少一种第二短信息类型和非第二短信息类型;
第二读取模块,用于从所述第二分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
第二运算模块,用于根据所述第二分类模型,对读取的符号向量和字向量进行加权运算,得到第二运算结果;
第二判定模块,用于根据所述第二运算结果,判定所述短信息的类型为所述第二短信息类型或所述非第二短信息类型。
优选的,所述第一运算模块包括:
处理单元,用于根据所述第一分类模型,对所述读取的符号向量和字向量进行处理,得到与所述短信息对应的信息向量;
确定单元,用于确定每种第一短信息类型和所述非第一短信息类型的与所述信息向量对应的权重系数向量,其中,所述信息向量中的信息值与所述权重系数向量中的权重系数一一对应;
运算单元,用于利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算,得到至少两个预测量化值。
优选的,所述第一判定模块包括:
比较单元,用于比较所述至少两个预测量化值,得到所述至少两个预测量化值中的最大的预测量化值;
判定单元,用于判定所述短信息的类型为所述最大的预测量化值对应的短信息类型。
优选的,所述装置还包括:
规范处理模块,用于对所述接收的短信息进行规范处理;
所述识别模块具体用于:
识别所述规范处理后的短信息中的预设特征词。
优选的,所述读取模块包括:
获取单元,用于根据文本分词技术,获取所述短信息中除所述预设特征词之外的其余字中的词语;
读取单元,用于读取所述获取的词语的词向量和所述短信息中除所述预设特征词及所述获取的词语之外的其余字的字向量。
优选的,所述装置还包括:
分类保存模块,用于将所述短信息分类保存至其所属的短信息类型中。
优选的,所述装置还包括:
输出模块,用于输出所述预设特征词中的至少一个。
通过本发明的上述技术方案,本发明的有益效果在于:
本发明的短信息分类方法,通过预先设置的分类模型,能够对短信息所属的短信息类型进行准确地判定,实现对短信息的智能管理,方便用户对短信息进行查询整理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1表示本发明实施例的短信息分类方法的流程图。
图2表示本发明实施例的短信息分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,本发明实施例提供一种短信息分类方法,其中,所述方法包括如下步骤:
步骤101:识别接收的短信息中的预设特征词;
步骤102:将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号;
步骤103:确定第一分类模型,其中,所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型;
步骤104:从所述第一分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
步骤105:根据所述第一分类模型,对读取的符号向量和字向量进行加权运算,得到第一运算结果;
步骤106:根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型。
本发明实施例的短信息分类方法,通过预先设置的分类模型,能够对短信息所属的短信息类型进行准确地判定,实现对短信息的智能管理,方便用户对短信息进行查询整理。
其中,所述预设特征词可以为电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词等等,也可以为自定义的词汇,包括专业应用领域的词汇、成语、食物、地点、作品、设备、人名、地名和机构名称等等,本发明不对其进行限制。
而与所述预设特征词对应的特征符号是预先设置的。例如,与时间对应的特征符号可为DATE,与货币对应的特征符号可为CURRENCY,与银行对应的特征符号可为BANK,等等。
需要说明的是,预先设置特征符号并对特征词进行替换,主要是因为在短信息分类过程中,从语义上终端只需要了解短信息中存在哪些特征词即可,并不关心所述特征词具体是什么。
例如,终端接收到短信息“您个人信用卡11月账单人民币4818.93,到期还款日11月23日。[招商银行]”,经过识别可得到预设特征词“11月”、“人民币4818.93”、“11月23日”和“招商银行”,那么,通过对应的特征符号替换后,所述短信息就成为“您个人信用卡DATE账单CURRENCY,到期还款日DATE。[BANK]”,更体现出短信息中存在哪些特征词。也就是说,在分析该短信息时,终端并不关心具体的金额、日期、具体银行等,只需要了解到存在金钱、日期、银行等即可。
本发明实施例中,所述第一分类模型是预先训练好的,且所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型。也就是说,依据所述第一分类模型,可将终端接收的短信息的类型判定为第一短信息类型(即所述至少一种第一短信息类型中的一种),或非第一短信息类型。
例如,所述第一分类模型可为一个单类分类器,对应的短信息类型包括还款提醒短信息类型和非还款提醒短信息类型;或者,所述第一分类模型也可为一个多类分类器,对应的短信息类型包括还款提醒短信息类型、消费账单短信息类型和入账账单短信息类型,以及其他类短信息类型(即非还款提醒,也非消费账单和入账账单短信息类型)。
日常生活中,常用汉字及符号的数量大概是3500个左右,但在某一类型短信息中出现的汉字符号(即高频字)远没有这么多,所以,对于资源受限终端,并不需要通过所有汉字及符号才能断定短信息类型,只需关注特定分类模型下的高频字。即在对样本分类模型进行训练时,只需保留高频字的字向量,低频字都以一个统一的特定符号代替,即低频字共用一个字向量,从而形成与该分类模型对应的高频字字向量库。
其中,所述字向量指的是有限维的浮点数,代表着字的语义的量化数值。此处的有限维可以是4维、8维或12维等,依据训练时样本大小和训练模型而定,通常取4的倍数。
在对短信息分析过程中,要从第一分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量,并依据读取的符号向量和字向量对短信息进行分析。
具体的,所述第一分类模型例如为采用动态k-max池化的卷积神经网络训练好的模型。而所述根据所述第一分类模型,对读取的字向量进行加权运算,得到第一运算结果的步骤具体为:
根据所述第一分类模型,对所述读取的符号向量和字向量进行处理,得到与所述短信息对应的信息向量;这个步骤即是对短信息的符号向量和字向量进行卷积运算后抽取出能表示句子语义的向量。
确定每种第一短信息类型和所述非第一短信息类型的与所述信息向量对应的权重系数向量,其中,所述信息向量中的信息值与所述权重系数向量中的权重系数一一对应;
利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算,得到至少两个预测量化值。
需要说明的是,所述预测量化值可为预测的概率值或评分,用于判断短信息的类型。并且实际应用中,为了准确判定短信息的类型,在得到所述预测量化值时,可在加权运算得到的求和结果值的基础上再加上一个偏置系数。
进一步的,所述根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤具体为:
比较所述至少两个预测量化值,得到所述至少两个预测量化值中的最大的预测量化值;
判定所述短信息的类型为所述最大的预测量化值对应的短信息类型。
也就是说,在利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算时,会计算得到与每种短信息类型对应的预测量化值,并将其中最大预测量化值对应的短信息类型判定为所述短信息的类型。
本发明实施例中,在所述步骤106之后,所述方法还包括:
若所述短信息的类型为所述非第一短信息类型,确定第二分类模型,其中,所述第二分类模型对应的短信息类型包括至少一种第二短信息类型和非第二短信息类型;
从所述第二分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
根据所述第二分类模型,对读取的符号向量和字向量进行加权运算,得到第二运算结果;
根据所述第二运算结果,判定所述短信息的类型为所述第二短信息类型或所述非第二短信息类型。
在另外的实施例中,如果对第一短信息类型进一步进行类型细分,也可以将判别为第一短信息类型的短信息输入第三分类模型进行进一步分类。比如第一分类模型只识别短信息是银行账单类型还是非银行账单类型。对于识别出银行账单类型的短信息可进一步进行第三分类模型(可识别出消费类型、入账类型、还款类型及其他银行账单类型)的细分判断。
也就是说,对于资源受限的终端,可以采用级联方式对短信息进行逐步判定,即依次利用第一分类模型、第二分类模型、第三分类模型、第四分类模型等进行判定,以实现较细的分类。
其中,在级联判定过程中,涉及的分类模型例如可以采用银行账单分类模型、航班火车等出发日程提醒分类模型、广告消息分类模型、诈骗消息分类模型等单一分类模型,以满足不同的用户需求。
本发明实施例中,在所述步骤101之前,所述方法还包括:
对所述接收的短信息进行规范处理;
而所述步骤101具体为:识别所述规范处理后的短信息中的预设特征词。
这样,经过规范化处理的短信息,能够便于后续的语义分析。
其中,具体的规范处理可包括统一字符编码,繁体转简体,全角半角转换,不规范用语替换,剔除文本中多余空白符,剔除对语义分析没有帮助的语气词、特殊标点符号等等,本发明不对其进行限制。
本发明实施例中,在读取字向量之前,还可以对短信息文本采用现有技术中的文本分词技术进行分词,即把常用词分出来,这样能更具有语义特征。因为中文汉字中单个字往往不能准确表达意思,几个汉字组成的词语能更加准确的表达特定的意思。例如,“公”和“司”两个字的意思与“公司”完全不一样;这样,当进行分词后,则读取“公司”的词向量即可,而不必读取“公”和“司”两个字向量。其中,读取词向量后进行的处理过程和运算过程与字向量的一样。
具体的,本发明实施例中,所述读取所述短信息中除所述预设特征词之外的其余字的字向量的步骤具体为:
根据文本分词技术,获取所述短信息中除所述预设特征词之外的其余字中的词语;
读取所述获取的词语的词向量和所述短信息中除所述预设特征词及所述获取的词语之外的其余字的字向量。
这样,能够提高后续的与短信息对应的信息向量的准确度。
本发明实施例中,在所述步骤106之后,所述方法还包括:
将所述短信息分类保存至其所属的短信息类型中。
这样,将接收到的短信息进行分类保存,方便用户的查询整理。
本发明实施例中,在所述步骤106之后,所述方法还包括:
输出所述预设特征词中的至少一个。
需要说明的是,此处的输出可以是输出至终端屏幕显示,以提示用户核查,防止一些误判或漏判,也可以是输出至其他APP应用以使用。
例如,上述经过特征符号替换后的短信息“您个人信用卡DATE账单CURRENCY,到期还款日DATE。[BANK]”,当识别出是信用卡还款提醒短信息类型时,可将DATE和CURRENCY对应的原始文本,即“11月”、“人民币4818.93”和“11月23日”,输出至终端屏幕显示,以提示用户核查。并且,输出的信息还可进一步存放至终端日程表中,形成一个提醒时间。
又例如,终端接收到短信息“您的建行卡积分已达1万分,可兑换5%现金,请登录www.xxxx.com进行兑换,逾期积分清零[xx分行]”,经过特征符号替换后,所述短信息变为“您的建行卡积分已达CURRENCY,可兑换PERCENT现金,请登录URL进行兑换,逾期积分清零[BANK]”;当识别出是垃圾短信息类型时,可将URL对应的原始文本“www.xxxx.com”输出,以提示用户确认核查,防止误判或漏判。
参见图2所示,本发明实施例还提供一种短信息分类装置,与图1所示的短信息分类方法相对应,所述装置包括:
识别模块21,用于识别接收的短信息中的预设特征词;
替换模块22,用于将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号;
第一确定模块23,用于确定第一分类模型,其中,所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型;
第一读取模块24,用于从所述第一分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
第一运算模块25,用于根据所述第一分类模型,对读取的符号向量和字向量进行加权运算,得到第一运算结果;
第一判定模块26,用于根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型。
本发明实施例的短信息分类装置,通过预先设置的分类模型,能够对短信息所属的短信息类型进行准确地判定,实现对短信息的智能管理,方便用户对短信息进行查询整理。
具体的,所述装置还包括:
第二确定模块,用于在所述短信息的类型为所述非第一短信息类型时,确定第二分类模型,其中,所述第二分类模型对应的短信息类型包括至少一种第二短信息类型和非第二短信息类型;
第二读取模块,用于从所述第二分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
第二运算模块,用于根据所述第二分类模型,对读取的符号向量和字向量进行加权运算,得到第二运算结果;
第二判定模块,用于根据所述第二运算结果,判定所述短信息的类型为所述第二短信息类型或所述非第二短信息类型。
本发明实施例中,所述第一运算模块包括:
处理单元,用于根据所述第一分类模型,对所述读取的符号向量和字向量进行处理,得到与所述短信息对应的信息向量;
确定单元,用于确定每种第一短信息类型和所述非第一短信息类型的与所述信息向量对应的权重系数向量,其中,所述信息向量中的信息值与所述权重系数向量中的权重系数一一对应;
运算单元,用于利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算,得到至少两个预测量化值。
进一步的,所述第一判定模块包括:
比较单元,用于比较所述至少两个预测量化值,得到所述至少两个预测量化值中的最大的预测量化值;
判定单元,用于判定所述短信息的类型为所述最大的预测量化值对应的短信息类型。
本发明实施例中,所述装置还包括:
规范处理模块,用于对所述接收的短信息进行规范处理;
所述识别模块具体用于:识别所述规范处理后的短信息中的预设特征词。
本发明实施例中,所述读取模块包括:
获取单元,用于根据文本分词技术,获取所述短信息中除所述预设特征词之外的其余字中的词语;
读取单元,用于读取所述获取的词语的词向量和所述短信息中除所述预设特征词及所述获取的词语之外的其余字的字向量。
本发明实施例中,所述装置还包括:
分类保存模块,用于将所述短信息分类保存至其所属的短信息类型中。
本发明实施例中,所述装置还包括:
输出模块,用于输出所述预设特征词中的至少一个。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种短信息分类方法,其特征在于,包括:
识别接收的短信息中的预设特征词;
将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号;
确定第一分类模型,其中,所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型;
从所述第一分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
根据所述第一分类模型,对读取的符号向量和字向量进行加权运算,得到第一运算结果;
根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型;
所述根据所述第一分类模型,对读取的符号向量和字向量进行加权运算,得到第一运算结果的步骤,包括:
根据所述第一分类模型,对所述读取的符号向量和字向量进行处理,得到与所述短信息对应的信息向量;
确定每种第一短信息类型和所述非第一短信息类型的与所述信息向量对应的权重系数向量,其中,所述信息向量中的信息值与所述权重系数向量中的权重系数一一对应;
利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算,得到至少两个预测量化值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述短信息的类型为所述非第一短信息类型,确定第二分类模型,其中,所述第二分类模型对应的短信息类型包括至少一种第二短信息类型和非第二短信息类型;
从所述第二分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
根据所述第二分类模型,对读取的符号向量和字向量进行加权运算,得到第二运算结果;
根据所述第二运算结果,判定所述短信息的类型为所述第二短信息类型或所述非第二短信息类型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤,包括:
比较所述至少两个预测量化值,得到所述至少两个预测量化值中的最大的预测量化值;
判定所述短信息的类型为所述最大的预测量化值对应的短信息类型。
4.根据权利要求1所述的方法,其特征在于,所述识别接收的短信息中的预设特征词的步骤之前,所述方法还包括:
对所述接收的短信息进行规范处理;
所述识别接收的短信息中的预设特征词的步骤包括:
识别所述规范处理后的短信息中的预设特征词。
5.根据权利要求1所述的方法,其特征在于,所述读取所述短信息中除所述预设特征词之外的其余字的字向量的步骤,包括:
根据文本分词技术,获取所述短信息中除所述预设特征词之外的其余字中的词语;
读取所述获取的词语的词向量和所述短信息中除所述预设特征词及所述获取的词语之外的其余字的字向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤之后,所述方法还包括:
将所述短信息分类保存至其所属的短信息类型中。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型的步骤之后,所述方法还包括:
输出所述预设特征词中的至少一个。
8.一种短信息分类装置,其特征在于,包括:
识别模块,用于识别接收的短信息中的预设特征词;
替换模块,用于将所述短信息中的预设特征词替换为与所述预设特征词对应的特征符号;
第一确定模块,用于确定第一分类模型,其中,所述第一分类模型对应的短信息类型包括至少一种第一短信息类型和非第一短信息类型;
第一读取模块,用于从所述第一分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
第一运算模块,用于根据所述第一分类模型,对读取的符号向量和字向量进行加权运算,得到第一运算结果;
第一判定模块,用于根据所述第一运算结果,判定所述短信息的类型为所述第一短信息类型或所述非第一短信息类型;
所述第一运算模块包括:
处理单元,用于根据所述第一分类模型,对所述读取的符号向量和字向量进行处理,得到与所述短信息对应的信息向量;
确定单元,用于确定每种第一短信息类型和所述非第一短信息类型的与所述信息向量对应的权重系数向量,其中,所述信息向量中的信息值与所述权重系数向量中的权重系数一一对应;
运算单元,用于利用所述信息向量与确定的每种短信息类型的权重系数向量进行加权运算,得到至少两个预测量化值。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于在所述短信息的类型为所述非第一短信息类型时,确定第二分类模型,其中,所述第二分类模型对应的短信息类型包括至少一种第二短信息类型和非第二短信息类型;
第二读取模块,用于从所述第二分类模型的高频字字向量库中,读取所述特征符号的符号向量和所述短信息中除所述预设特征词之外的其余字的字向量;
第二运算模块,用于根据所述第二分类模型,对读取的符号向量和字向量进行加权运算,得到第二运算结果;
第二判定模块,用于根据所述第二运算结果,判定所述短信息的类型为所述第二短信息类型或所述非第二短信息类型。
10.根据权利要求8所述的装置,其特征在于,所述第一判定模块包括:
比较单元,用于比较所述至少两个预测量化值,得到所述至少两个预测量化值中的最大的预测量化值;
判定单元,用于判定所述短信息的类型为所述最大的预测量化值对应的短信息类型。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
规范处理模块,用于对所述接收的短信息进行规范处理;
所述识别模块具体用于:
识别所述规范处理后的短信息中的预设特征词。
12.根据权利要求8所述的装置,其特征在于,所述读取模块包括:
获取单元,用于根据文本分词技术,获取所述短信息中除所述预设特征词之外的其余字中的词语;
读取单元,用于读取所述获取的词语的词向量和所述短信息中除所述预设特征词及所述获取的词语之外的其余字的字向量。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
分类保存模块,用于将所述短信息分类保存至其所属的短信息类型中。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
输出模块,用于输出所述预设特征词中的至少一个。
CN201610659527.4A 2016-08-11 2016-08-11 一种短信息分类方法及装置 Active CN107734131B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610659527.4A CN107734131B (zh) 2016-08-11 2016-08-11 一种短信息分类方法及装置
PCT/CN2016/105378 WO2018028065A1 (zh) 2016-08-11 2016-11-10 一种短信息分类方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610659527.4A CN107734131B (zh) 2016-08-11 2016-08-11 一种短信息分类方法及装置

Publications (2)

Publication Number Publication Date
CN107734131A CN107734131A (zh) 2018-02-23
CN107734131B true CN107734131B (zh) 2021-02-12

Family

ID=61161749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610659527.4A Active CN107734131B (zh) 2016-08-11 2016-08-11 一种短信息分类方法及装置

Country Status (2)

Country Link
CN (1) CN107734131B (zh)
WO (1) WO2018028065A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929025B (zh) * 2018-09-17 2023-04-25 阿里巴巴集团控股有限公司 垃圾文本的识别方法、装置、计算设备及可读存储介质
CN110913354A (zh) * 2018-09-17 2020-03-24 阿里巴巴集团控股有限公司 短信分类方法、装置及电子设备
CN111241269B (zh) * 2018-11-09 2024-02-23 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质
CN111209751B (zh) * 2020-02-14 2023-07-28 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN113657106A (zh) * 2021-07-05 2021-11-16 西安理工大学 基于归一化词频权重的特征选择方法
CN116468037A (zh) * 2023-03-17 2023-07-21 北京深维智讯科技有限公司 一种基于nlp的数据处理方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5616865B2 (ja) * 2011-09-13 2014-10-29 株式会社日立ソリューションズ 文書分類方法
JP2013120534A (ja) * 2011-12-08 2013-06-17 Mitsubishi Electric Corp 関連語分類装置及びコンピュータプログラム及び関連語分類方法
CN103024746B (zh) * 2012-12-30 2015-06-17 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN103778226A (zh) * 2014-01-23 2014-05-07 北京奇虎科技有限公司 构建语言信息识别模型的方法及语言信息识别装置
CN104978354B (zh) * 2014-04-10 2020-11-06 中电长城网际系统应用有限公司 文本分类方法和装置
CN104834747B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN105447750B (zh) * 2015-11-17 2022-06-03 小米科技有限责任公司 信息识别方法、装置、终端及服务器
CN105488025B (zh) * 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置

Also Published As

Publication number Publication date
WO2018028065A1 (zh) 2018-02-15
CN107734131A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107734131B (zh) 一种短信息分类方法及装置
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
Girgis et al. Deep learning algorithms for detecting fake news in online text
CN108874777B (zh) 一种文本反垃圾的方法及装置
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
Vadivukarassi et al. Sentimental analysis of tweets using Naive Bayes algorithm
CN111125354A (zh) 文本分类方法及装置
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN110826320A (zh) 一种基于文本识别的敏感数据发现方法及系统
Ballı et al. Development of content‐based SMS classification application by using Word2Vec‐based feature extraction
CN111669757A (zh) 一种基于通话文本词向量的终端诈骗电话识别方法
CN113806548A (zh) 基于深度学习模型的信访要素抽取方法及抽取系统
CN109558486A (zh) 电力客服客户诉求智能识别方法
CN111460100A (zh) 一种刑事法律文书罪名的推荐方法和系统
CN112396079A (zh) 号码识别模型训练方法、号码识别方法及装置
CN115687754A (zh) 一种基于智能对话的主动式网络信息挖掘方法
CN109947932B (zh) 一种推送信息分类方法及系统
CN113420549B (zh) 异常字符串识别方法及装置
CN113934833A (zh) 训练数据的获取方法、装置、系统及存储介质
CN113051396A (zh) 文档的分类识别方法、装置和电子设备
CN111666412A (zh) 一种基于svm文本分析的诈骗日志文本分析方法与系统
Sai et al. Text Analysis On Twitter Data Using LSA and LDA
CN110728145A (zh) 一种基于录音对话的自然语言理解模型的建立方法
CN114896987B (zh) 基于半监督预训练模型的细粒度情感分析方法和装置
CN113239164B (zh) 多轮对话流程构建方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant