CN111241269A - 一种短信文本分类方法、装置、电子设备及存储介质 - Google Patents
一种短信文本分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111241269A CN111241269A CN201811334354.4A CN201811334354A CN111241269A CN 111241269 A CN111241269 A CN 111241269A CN 201811334354 A CN201811334354 A CN 201811334354A CN 111241269 A CN111241269 A CN 111241269A
- Authority
- CN
- China
- Prior art keywords
- short message
- sub
- vector
- word
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 773
- 230000011218 segmentation Effects 0.000 claims abstract description 140
- 230000015654 memory Effects 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种短信文本分类方法、装置、电子设备及存储介质,该方法包括:对待分类的短信进行分词,将分词后的短信输入到word2vec词向量模型中,获取短信的每个分词的词向量;根据短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。在本发明中通过该短信的第一特征向量,并将第一特征向量输入到文本分类器中,从而获取该短信的分类结果。
Description
技术领域
本发明涉及中文文本分类特征提取技术领域,尤其涉及一种短信文本分类方法、装置、电子设备及存储介质。
背景技术
现有的文本特征提取方法主要包括以下方法:
1)信息增益法(Information Gain,IG),是广泛应用于机器学的特征选择算法之一。在信息增益方法中,特征重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要。该方法中用到了信息熵的概念,熵表达的是不准确度,分布越“纯”,信息熵越小,分布越“均匀”,信息熵就越大。
2)文档频率法(Document Frequency,DF),是最简单的特征选择算法。即根据在全部文本集中出现特征集的频率推断其重要性,如果出现频率较低则忽略,因此该方法具有速度快、适用于超大文本的特点。
3)互信息法(Mutual Information,MI),即两个特征变量t和c的相关性,即特征词与文本集类别的相关性。
4)CHI统计,是一种开方拟合校验方法,即通过比对实际值与理论值的数据差别判定对错。
为了实现对文本进行分类,首先应提取该文本的向量化的特征,并根据该文本的特征进行后续的分类操作。因此针对文本的特征提取的好坏,直接影响后续的分类结果。现有的特征提取技术方案一般较适用于长文本的文本分类问题中,对于短信这种短文本分类问题,需要先将短文本作整合处理,然后再使用较常用的特征提取方法,增加了文本预处理的复杂程度和开销,影响了分类效率。
发明内容
本发明实施例提供了一种短信文本分类方法、装置、电子设备及存储介质,用以解决现有技术中针对短信文本的分类,其分类效率不高的问题。
本发明实施例提供了一种短信文本分类方法,所述方法包括:
对待分类的短信进行分词,将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
进一步地,所述对待分类的短信进行分词之前,所述方法还包括:
对所述短信进行去噪;
如果去躁后的短信中存在数字,将所述数字替换为预设字符。
进一步地,所述将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中之前,所述方法还包括:
根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;
根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;
根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
进一步地,预先训练所述文本分类器的过程包括:
对样本短信进行分词,将分词后的样本短信输入到word2vec词向量模型中,获取所述样本短信的每个分词的词向量;
根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;
根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;
将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
进一步地,确定每个子特征向量的过程包括:
针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;将最大距离值确定为该分词对应的目标距离值;
根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
进一步地,所述根据每个分词对应的目标距离值,得到对应的子特征向量之后,所述方法还包括:
判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;
如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
进一步地,确定重要性标识信息的过程包括:
针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;否则,该汉字的汉字特征为第二数值;
根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
本发明实施例还提供了一种短信文本分类装置,所述装置包括:
分词模块,用于对待分类的短信进行分词;
获取模块,用于将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
第一确定模块,用于根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
第二确定模块,用于将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
进一步地,所述装置还包括:
去躁模块,用于对所述短信进行去噪;
替换模块,用于如果去躁后的短信中存在数字,将所述数字替换为预设字符。
进一步地,所述第一确定模块,还用于根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
进一步地,所述装置还包括:
分词获取模块,用于对样本短信进行分词,将分词后的样本短信输入到 word2vec词向量模型中,获取所述样本短信的每个分词的词向量;
所述第一确定模块,还用于根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
所述第二确定模块,还用于将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;
训练模块,用于将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
进一步地,所述第一确定模块,具体用于针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;
将最大距离值确定为该分词对应的目标距离值;
根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
进一步地,所述装置还包括:
判断模块,用于判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;
如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
进一步地,所述第一确定模块,具体用于针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;否则,该汉字的汉字特征为第二数值;根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
本发明实施例提供了一种电子设备,所述电子设备包括存储器和处理器;
所述处理器,用于读取所述存储器中的程序,执行下列过程:
对待分类的短信进行分词,将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
进一步地,所述处理器,用于对所述短信进行去噪;如果去躁后的短信中存在数字,将所述数字替换为预设字符。
进一步地,所述处理器,用于根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;
根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;
根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
进一步地,所述处理器,具体用于对样本短信进行分词,将分词后的样本短信输入到word2vec词向量模型中,获取所述样本短信的每个分词的词向量;
根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;
根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;
将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
进一步地,所述处理器,具体用于针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;
将最大距离值确定为该分词对应的目标距离值;根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
进一步地,所述处理器,用于判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
进一步地,所述处理器,具体用于针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;否则,该汉字的汉字特征为第二数值;根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
本发明实施例还提供一种电子设备,所述电子设备包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述任一项的方法步骤。
本发明实施例还提供一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述任一项的方法步骤。
本发明实施例提供了一种短信文本分类方法、装置、电子设备及存储介质,所述方法包括:对待分类的短信进行分词,将分词后的短信输入到word2vec 词向量模型中,获取所述短信的每个分词的词向量;根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
由于在本发明实施例中基于word2vec词向量模型获取短信中每个分词的词向量。并计算该短信对应正常短信集合的第一子特征向量,以及该短信对应不良短信集合的第二子特征向量,考虑了该短信的每个分词与正常短信集合中的每个分词的相似性,并考虑了该短信与不良短信集合中的每个分词的相似性,因此,确定的第一特征向量可以准确的表示该短信的特征,从而使基于第一特征向量确定的分类结果更加准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种短信文本分类方法的过程示意图;
图2为本发明实施例8提供的一种短信文本分类装置的结构示意图;
图3为本发明实施例9提供的一种电子设备;
图4为本发明实施例10提供的一种电子设备。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提供的一种短信文本分类方法,该方法包括以下步骤:
S101:对待分类的短信进行分词,将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量。
在日常生活中,手机等通信设备经常会收到不良短信,例如骗钱的短信、诈骗身份信息的短信等。为了防止人们接收到这些不良短信之后上当受骗,因此,需要将这些不良短信进行拦截。而为了对这些不良短信进行拦截,首先需要识别该短信是否为不良短信,即需要对该短信进行分类,确定该短信为正常短信还是不良短信。如果该短信的分类结果为正常短信,则无需对该短信进行拦截,而如果该短信的分类结果为不良短信,则需要对该短信进行拦截,以防用户上当受骗。而短信中的是文字信息,为了让通信设备可以识别该短信为不良短信还是正常短信,首先需要将该短信转换为通信设备可以理解的特征向量,其中,该特征向量是对该短信的特征表示。
在短信文本内容分类的问题中,特征提取是需要重点解决的过程。特征提取的好坏直接影响后续的分类结果的准确性。目前自然语言处理领域推出的 word2vec词向量模型,是文档词语表示的一种解决方法,可以通过向量化的词语之间聚类得到文章的关键词。由此得到启发,可以将word2vec词向量模型应用到短信文本特征提取中。
word2vec词向量模型是用来产生词向量的模型,具体的,在word2vec中词袋模型假设下,词的顺序是不重要的,该模型可用来映射每个词到一个向量。由于word2vec词向量模型产生的是每个词的词向量,因此在将待分类的短信输入到该word2vec词向量模型之前,首先需要对该待分类的短信进行中文分词处理。在具体实施过程中,可以采用中科院计算技术研究所的ICTCLAS中文分词系统实现对待分类短信文本的分词。例如,该待分类短信的文本信息具体包括:“信用贷款,欢迎致电:AA”,经过上述的分词处理后,得到的分词后的短信为“信用、贷款、欢迎、致电、AA”。
其中,对待分类的短信进行分词的过程是现有技术,在本发明实施例中,对该过程不作赘述。
具体的,将分词后的短信输入到word2vec词向量模型中,获取该短信中每个分词对应的词向量。例如,“信用”对应的词向量为:w1=(w11,w12,w13,...,w1m),“欢迎”对应的词向量为:w3=(w31,w32,w33,...,w3m)。
S102:根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量。
为了更好的提取待分类短信的特征,考虑了该短信与正常短信集合之间的特征,以及该短信与不良短信集合之间的特征。具体的,将该短信的每个分词的词向量,与正常短信集合中的每个第一分词的词向量进行对比,确定该短信的第一子特征向量;将该短信的每个分词的词向量,与不良短信集合中的每个第二分词的词向量进行对比,确定该短信的第二子特征向量。
在具体实施过程中,通过在日常生活中或在其它现有的数据库中选取一定数量的正常短信,以及一定数量的不良短信,并将所有的正常短信整合为一个正常短信集合,所有的不良短信整合为一个不良短信集合。获取正常短信集合中的每个第一分词的词向量的过程包括以下步骤:1)对正常短信集合进行分词,其中正常短信集合中的每个分词称为第一分词;2)将分词后的正常短信集合输入到预先训练完成的word2vec词向量模型,以产生该正常短信集合的每个第一分词的词向量。获取不良短信集合中的每个第二分词的词向量的过程包括以下步骤:1)对不良短信集合进行分词,其中不良短信集合中的每个分词称为第二分词;2)将分词后的不良短信集合输入到预先训练完成的word2vec 词向量模型,以产生该不良短信集合的每个第二分词的词向量。
在计算完每个分词的词向量之后,为了降低后续计算的复杂度,并且能够体现正常短信以及不良短信具有的特征,通过在正常短信集合以及不良短信集合中分别选取出现频率较高的分词的词向量,作为该集合的词向量。具体的,针对正常短信集合中的分词,按照出现频率排序,将出现频率较高的排前60 的关键词词向量来代表该类别的特征。针对不良短息集合中的分词,按照出现频率排序,将出现频率较高的排前60的关键词词向量来代表该类别的特征。其中,由于对于短信这类文本来说,其中的文字更能体现该短信的特征,因此在对各类别的关键词词向量选取的过程中,可以跳过数字类和特殊字符类的词向量。
针对该短信的每个分词,计算该分词的词向量,与正常短信集合中的任一第一分词的词向量间的距离,得到的所有距离即可构成该短信的第一子特征向量。针对该短信的每个分词,计算该分词的词向量,与不良短信集合中的任一第二分词的词向量间的距离,得到的所有距离即可构成该短信的第二子特征向量。
可能的一种实施方式,该短信的词向量为wi=(wi1,wi2,wi3,...,wim),其中wi代表第i个分词的词向量;正常短信集合中的每个第一分词的词向量为 wj=(wj1,wj2,wj3,...,wjm),其中,wj代表第j个第一分词的词向量。则该短信的第i个分词与第j个第一分词的词向量之间的距离为: vi,j=(wi1-wj1)+(wi2-wj2)+...+(wim-wjm),根据所有的距离构成该短信的第一子特征向量,同理可求出该短信的第二子特征向量。
具体的,针对该短信的每个分词,均需要计算与正常短信集合中的每个第一分词的第一相似性值,同时,也需要计算每个分词与每个第一分词之间的第二相似性值。所有第一相似性值即可构成该短信的第一子特征向量;所有第二相似性值即可构成该短信的第二子特征向量。
S103:将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
将得到的第一子特征向量作为该短信的第一特征向量的第一部分,并将得到的第二子特征向量作为该短信的第一特征向量的第二部分,第一部分和第二部分共同构成该短信的第一特征向量。具体的,该第一特征向量即为该短信的特征表示。具体的,该第一子特征向量为:W1=(w11,w12,w13,...,w1m),该第二子特征向量为:W2=(w21,w22,w23,...,w2m)。则根据第一子特征向量和第二子特征向量构成的该短信的第一特征向量为:W=(W1,W2)。
由于在本发明实施例中基于word2vec词向量模型获取短信中每个分词的词向量。并计算该短信对应正常短信集合的第一子特征向量,以及该短信对应不良短信集合的第二子特征向量,考虑了该短信的每个分词与正常短信集合中的每个分词的相似性,并考虑了该短信与不良短信集合中的每个分词的相似性,因此,确定的第一特征向量可以准确的表示该短信的特征,从而使基于第一特征向量确定的分类结果更加准确。
实施例2:
为了更好的得到待分类短信的文本特征向量,在上述实施例的基础上,在本发明实施例中,所述对待分类的短信进行分词之前,所述方法还包括:
对所述短信进行去噪;
如果去躁后的短信中存在数字,将所述数字替换为预设字符。
现在的不良短信文本中通过各种手段增加干扰性和隐蔽性,以提高反监测能力,比如添加各种非中文符号、拼音替换、繁体替换等。因此需要对短信进行相应的预处理操作。
具体的,在对该短信进行分词之前,根据预先设计的预处理的程序对短信进行去躁处理。具体的,利用预处理程序对该短信进行去干扰符号和同义词替换等操作,形成统一的文本形式。
例如,一条不良短信文本的具体内容为“信%......用&&d@i款$$$,欢迎致电:186********。”,经过去躁后变为“信用贷款,欢迎致电:186********。”。将所有的短信样本集合记作T,去躁替换操作记作函数f。处理之后的集合记作M,则对应的函数过程可以表示为:
其中,对短信进行去躁的过程为现有技术,在本发明实施例中,对该过程不作赘述。
由于短信中常常含有一些特殊的数字类和字符类内容,会干扰生成词向量的准确性,因此需要对短信中的数字类和字符类的内容进行单独的处理。根据预先保存的数字与预设字符的对应关系,如果去躁后的短信中存在数字,则从预先保存的对应关系中,查找该数字对应的预设字符,并将该数字替换为该预设字符。该预设字符例如可以为AA等特定字符即可。
可能的一种实施方式,例如,如表1所示的数字类型替换表,具体的,如果短信中包含的数字类型为电话号码、网址或邮箱类,则将该数字替换为AA;如果短信中包含的数字类型为价格类,则将该数字替换为BB;如果该短信中包含的数字类型为数量类,则将该数字替换为CC;如果短信中包含的数字类型为日期时间类,则将该数字替换为DD;如果该短信中包含的数字类型为其他数字,则将该数字替换为EE。例如,去躁后的短信“信用贷款,欢迎致电: 186********。”,经过替换后得到的短信为“信用贷款,欢迎致电:AA。”。
表1
数字类型 | 替换内容 |
电话号码、网址、邮箱类 | AA |
价格类 | BB |
数量类 | CC |
日期时间类 | DD |
其他数字 | EE |
实施例3:
为了更好的提取短信的特征向量,以完整的表示该短信具有的特征,在上述各实施例的基础上,在本发明实施例中,所述将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中之前,所述方法还包括:
根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;
根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;
根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
由于在短信文本分类的问题中,通常是根据短信中的文本信息,确定该短信是否为正常短信。而短信中的数字等信息,对整个短信的分类结果的影响能力可能很小。但是,为了尽可能的提取该短信的所有特征,在本发明实施例中,将该短信与预设字符的相似性,以及汉字特征均作为该短信的特征,以构成该短信的完整特征向量。
具体的,根据该短信的每个分词的词向量,以及预设字符的词向量,可以确定该短信的第三子特征向量。其中,预设字符是在获取短信的分词的词向量时,将短信中的数字均替换为了预设字符。在具体实施中,可以设置如上述实施例2所示的数字替换表,预设字符包括第一预设字符AA、第二预设字符BB、第三预设字符CC,第四预设字符DD以及第五预设字符EE。具体的,针对短信的每个分词的词向量,分别计算与预设字符的词向量之间的相似性值,所有的相似性值即可构成该短信的第三子特征向量。
在具体实施中,根据具体选用的数字类型替换规则,可以确定预设字符的数量,以及每个预设字符对应的词向量。
同时,在确定该短信的完整特征向量时,还考虑了短信中的文字的特征信息,具体的,根据该短信中的每个汉字以及汉字集合,可以确定该短信的重要性标识信息。其中,汉字集合是预先提取的,具体的是统计所有训练样本中的汉字排列,根据汉字在所有训练样本中的出现频率,取频率排前L的汉字。
其中,统计汉字的出现频率的过程为现有技术,在本发明实施例中,对该过程不作赘述。
最后,将得到的第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息分别作为该短信的完整特征向量的一部分,即可构成该短信的完整特征向量。具体的,该短信的第一子特征向量为w1,第二子特征向量为w2,第三子特征向量为w3和重要性标识信息为i4,则该短信的完成特征向量为: W=[w1,w2,w3,i4]。该完整特征向量可以较好的表示该短信具有的特征。
为了后续要更好的表示该短信的特征向量,因此,在完整特征向量中还可以增加零向量,该零向量作为保留的特征项,供以后对短信文本特征的补充和完善使用。例如,若后续需要使用该短信的标点符号的特征,则可将该零向量替换为该短信的标点符号的特征,以实现对该短信的特征的准确表达。其中,该零向量的维数可以根据具体的需求进行设定,例如可以将该零向量的维数设定为20维。则该短信的完成特征向量为:W=[w1,w2,w3,i4,n0],其中,n0代表添加的零向量。
实施例4:
为了使用文本分类器确定待分类短信的分类结果,因此在对其进行分类之前还包括对文本分类器的训练过程,在上述各实施例的基础上,在本发明实施例中,预先训练所述文本分类器的过程包括:
对样本短信进行分词,将分词后的样本短信输入到word2vec词向量模型中,获取所述样本短信的每个分词的词向量;
根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;
根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;
将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
由于该文本分类器的功能是确定输入待分类短信的特征向量,确定该特征向量的分类结果,该特征向量的分类结果即为该短信的分类结果。因此,在对文本分类器进行训练的时候,首先需要得到样本短信对应的特征向量,并使用样本短信的特征向量对文本分类器进行训练。
具体的,首先对样本短信进行分词,根据word2vec词向量模型获取分词后的样本短信的每个分词的词向量。为了更准确的提取到该样本短信的特征向量,根据该样本短信的每个分词的词向量,以及正常短信集合中的每个第一分词的词向量,确定该样本短信的每个分词对应正常短信集合的第一子特征向量;根据该样本短信的每个分词的词向量,以及不良短信集合中的每个第一分词的词向量,确定该样本短信的每个分词对应不良短信集合的第二子特征向量。
为了更好的提取样本短信的特征,考虑了该短信与正常短信集合之间的特征,以及该短信与不良短信集合之间的特征。具体的,将该样本短信的每个分词的词向量,与正常短信集合中的每个第一分词的词向量进行对比,确定该样本短信的第一子特征向量;将该样本短信的每个分词的词向量,与不良短信集合中的每个第二分词的词向量进行对比,确定该样本短信的第二子特征向量。
在具体实施过程中,通过在日常生活中或在其它现有的数据库中选取一定数量的正常短信,以及一定数量的不良短信,并将所有的正常短信整合为一个正常短信集合,所有的不良短信整合为一个不良短信集合。获取正常短信集合中的每个第一分词的词向量的过程包括以下步骤:1)对正常短信集合进行分词,其中正常短信集合中的每个分词称为第一分词;2)将分词后的正常短信集合输入到预先训练完成的word2vec词向量模型,以产生该正常短信集合的每个第一分词的词向量。获取不良短信集合中的每个第二分词的词向量的过程包括以下步骤:1)对不良短信集合进行分词,其中不良短信集合中的每个分词称为第二分词;2)将分词后的不良短信集合输入到预先训练完成的word2vec 词向量模型,以产生该不良短信集合的每个第二分词的词向量。
在计算完每个分词的词向量之后,为了降低后续计算的复杂度,并且能够体现正常短信以及不良短信具有的特征,通过在正常短信集合以及不良短信集合中分别选取出现频率较高的分词的词向量,作为该集合的词向量。具体的,针对正常短信集合中的分词,按照出现频率排序,将出现频率较高的排前60 的关键词词向量来代表该类别的特征。针对不良短息集合中的分词,按照出现频率排序,将出现频率较高的排前60的关键词词向量来代表该类别的特征。其中,由于对于短信这类文本来说,其中的文字更能体现该短信的特征,因此在对各类别的关键词词向量选取的过程中,可以跳过数字类和特殊字符类的词向量。
针对该样本短信的每个分词,均需要计算与正常短信集合中的每个第一分词的第一相似性值,同时,也需要计算每个分词与每个第一分词之间的第二相似性值。所有第一相似性值即可构成该短信的第一子特征向量;所有第二相似性值即可构成该短信的第二子特征向量。将得到的第一子特征向量作为该样本短信的第二特征向量的第一部分,并将得到的第二子特征向量作为该样本短信的第二特征向量的第二部分,第一部分和第二部分共同构成该短信的第二特征向量。
针对该样本短信的每个分词,计算该分词的词向量,与正常短信集合中的任一第一分词的词向量间的距离,得到的所有距离即可构成该样本短信的第一子特征向量。针对该样本短信的每个分词,计算该分词的词向量,与不良短信集合中的任一第二分词的词向量间的距离,得到的所有距离即可构成该样本短信的第二子特征向量。
可能的一种实施方式,该样本短信的词向量为wi=(wi1,wi2,wi3,...,wim),其中wi代表第i个分词的词向量;正常短信集合中的每个第一分词的词向量为 wj=(wj1,wj2,wj3,...,wjm),其中,wj代表第j个第一分词的词向量。则该样本短信的第i个分词与第j个第一分词的词向量之间的距离为: vi,j=(wi1-wj1)+(wi2-wj2)+...+(wim-wjm),根据所有的距离构成该样本短信的第一子特征向量,同理可求出该样本短信的第二子特征向量。
同时,根据该样本短信是否为正常短信,确定该样本短信对应的第二特征向量的标签信息。具体的,若该样本短信为正常短信,则该第二特征向量的标签信息为正常短信;若该样本短信为不良短信,则该第二特征向量的标签信息为不良短信。
得到该样本短信的第二特征向量,以及该第二特征向量对应的标签信息之后,将该第二特征向量以及该第二特征向量对应的标签信息输入到文本分类器中,对文本分类器进行训练。
在具体实施过程中,文本分类器可以选用KNN算法、SVM分类器、遗传算法等。
实施例5:
为了准确的确定每个子特征向量,在上述各实施例的基础上,在本发明实施例中,确定每个子特征向量的过程包括:
针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;将最大距离值确定为该分词对应的目标距离值;
根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
在确定每个子特征向量时,首先根据每个分词的词向量,根据余弦距离获取该分词和确定该子特征向量时对应的集合中的每个分词的词向量,计算得到该分词的每个距离值。为了降低特征向量的维数,并可以体现该分词的特征,较佳的,可以选择距离值最大的作为该分词的目标距离值。根据每个分词的目标距离值,即可确定对应的子特征向量。
具体的,当求第一子特征向量时,该子特征向量对应的集合为正常短信集合;当求第二子特征向量时,该子特征向量对应的集合为不良短信集合;当求第三子特征向量时,该子特征向量对应的集合为预设字符集合。
其中,余弦距离公式为:其中,假设wi是短信的一个分词的词向量,假设wj是正常短信集合中的一个第一分词的词向量,则wik为某个分词的词向量中的第k个值,wik为某个第一分词的词向量中的第k 个值,m为词向量的维数,则根据上述的余弦距离公式,可以确定该分词与该第一分词之间的距离。
下面以一个具体的例子进行说明,在计算某条短信的第一子特征向量时,假如该短信的分词包括:分词1,分词2,分词3。正常短信集合中包括的分词为:第一分词1,第一分词2,第一分词3,……,第一分词100。则针对分词1,采用余弦距离公式分别计算分词1与第一分词1,第一分词2,第一分词 3,……,第一分词100之间的距离值。假如分词1与第一分词1根据余弦距离公式得到的距离值1的值为0.4,分词1与第一分词2根据余弦距离公式得到的距离值2的值为0.3,分词1与第一分词3根据余弦距离公式得到的距离值3的值为0.9,分词1与第一分词4根据余弦距离公式得到的距离值4的值为0.8,等等。其中,距离值3的值为最大的,则确定距离值3为分词1的目标距离值。依次根据上述过程计算分词2的目标距离值和分词3的目标距离值。则根据三个分词的目标距离值,可以确定该短信的第一子特征向量。
实施例6:
为了降低特征向量的维数,降低算法的复杂度,在上述各实施例的基础上,在本发明实施例中,所述根据每个分词对应的目标距离值,得到对应的子特征向量之后,所述方法还包括:
判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;
如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
由于每条短信包含的分词的数量不同,其最后确定的子特征向量的维数也不同,因此为了对短信的特征向量的维数进行统一,首先需要判断该子特征向量中的目标距离值的数量是否达到预设数量,其中,目标距离值的数量与短信的分词的数量,以及与短信的子特征向量的维数均相同。在统计目标距离值的数量时,可能会出现同一目标距离值出现多次的情况,此时每当出现一次该值,将该值作为一个独立值进行目标距离值数量的统计。例如,获取的短信的子特征向量为:w=(0.3,0.5,0.6,0.5,0.8),则该短信的目标距离值的数量为5。
如果一个短信中包含较多的分词,最后生成的子特征向量的维数可能会很大,不便于后续的操作。为了降低算法的复杂度,在子特征向量中选取可以代表该短信的目标子特征向量。具体的,是按照目标距离值的大小进行选取。因此,还需对子特征向量中的目标距离值进行降序排序。在具体实施中,可能会出现同一目标距离值出现多次的情况,此时每出现一次该值,将该值作为一个独立值进行排序。例如,短信的子特征向量为:w=(0.3,0.5,0.6,0.5,0.8),排序后的子特征向量为w=(0.8,0.6,0.5,0.5,0.3)。
如果子特征向量的维数达到预设数量,则需从排序后的子特征向量选取预设数量的目标距离值,在具体实施过程中,可能会出现最后一次待选取的目标距离值有多个相同的情况,此时可以按照排序后的子特征向量的顺序进行选择。将选取的目标距离值作为该短信的目标子特征向量。
例如,获取的子特征向量为w=(0.2,0.4,0.8,0.3,0.5,0.4,0.5),预设数量设置为 3,则目标子特征向量为w'=(0.8,0.5,0.5);若预设数量设置为2,则目标子特征向量为w'=(0.8,0.5)。
如果子特征向量的维数没有达到预设数量,则需要在降序排列后的子特征向量末尾处填充第一数量的预设数值,最后得到目标子特征向量。其中该第一数量为预设数量与目标距离值的数量的差值。
具体实施过程中,预设数量可以设置为50、60等,填充的预设数值可以为0或者1,较佳的,该预设数值可以设置为0。例如,某条短信的子特征向量为w1=(0.1,0.3,0.32,0.21,0.5,0.8,0.85),假定预设数量设定为10,且预设数值设定为0,则该短信的目标子特征向量为w2=(0.85,0.8,0.5,0.32,0.3,0.21,0.1,0,0,0)。
实施例7:
为了准确的确定重要性标识信息,在上述各实施例的基础上,在本发明实施例中,确定重要性标识信息的过程包括:
针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;
否则,该汉字的汉字特征为第二数值;
根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
为了准确的表示该短信的特征,在确定该短信的特征向量时可以将该短信的每个汉字与预先提取的汉字集合中的汉字进行对比,得到的汉字特征作为特征向量的一部分。具体的,针对该预先提取的汉字集合中的任一汉字,如果在该短信中可以查找到该汉字,则确定汉字集合中该汉字的汉字特征为第一数值;如果该短信中没有该汉字,则确定汉字集合中该汉字的汉字特征为第二数值。根据汉字集合中每个汉字的汉字特征,即可确定该短信的重要性标识信息。其中,第一数值可以设置为0或1,第二数值可以设置为1或0,其中,第一数值和第二数值是不同的。较佳的,第一数值设定为1,第二数值设定为0。
具体的,在具体实施过程中,汉字集合是从所有的训练样本中按照出现频率高低的顺序,依次取前L个汉字作为汉字集合。汉字集合记作C,ci表示第 i个汉字,对于某一条短信t。第i个汉字的汉字特征根据下式进行计算,具体为:
于是,该短信对于整个汉字集合中的重要性标识信息定义为: VC={I(1,t),I(2,t),...,I(L,t)}。
例如,选择的汉字集合为C={我,你,请,们,一,会,老,电,数},某条短信的内容为“下课了我们去打篮球”,对于汉字集合中的第一个汉字“我”,在短信中可以查找到“我”,则该汉字的汉字特征为1;对于汉字集合中的第二个汉字“你”,在短信中不能查找到“你”,则该汉字的汉字特征为0;依次求出其他汉字集合中的汉字的汉字特征。则该短信的汉字特征为VC={1,0,0,1,0,0,0,0,0}。
例如,如果预设数量取60,Vbt表示该短信的第一目标子特征向量;Vnt表示该短信的第二目标子特征向量;如果该短信按照表1的数字类型的替换规则,则该短信的第三目标子特征向量包括:VAA,VBB,VCC,VDD,VEE;VC标识该短信的重要性标识信息,其中汉字集合的维数可以选择2000;V0为零向量,该零向量的维数设置为20;则最终该短信t的完整特征向量可以表示为: Vt=[Vbt,Vnt,VAA,VBB,VCC,VDD,VEE,VC,V0],并且该短信的完整特征向量的维数为: 60*7+2000+20=2440。该完整特征向量即降低了特征的维度,同时又可以充分的表示该短信文本的特征。
实施例8:
在上述各实施例的基础上,在本发明实施例中,还提供了一种短信文本分类装置,图2为本发明实施例提供的一种短信文本分类装置的结构示意图,该装置包括:
分词模块201,用于对待分类的短信进行分词;
获取模块202,用于将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
第一确定模块203,用于根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
第二确定模块204,用于将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
进一步地,所述装置还包括:
去躁模块205,用于对所述短信进行去噪;
替换模块206,用于如果去躁后的短信中存在数字,将所述数字替换为预设字符。
进一步地,所述第一确定模块203,还用于根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
进一步地,所述装置还包括:
分词获取模块207,用于对样本短信进行分词,将分词后的样本短信输入到word2vec词向量模型中,获取所述样本短信的每个分词的词向量;
所述第一确定模块203,还用于根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
所述第二确定模块204,还用于将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;
训练模块208,用于将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
进一步地,所述第一确定模块203,具体用于针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;将最大距离值确定为该分词对应的目标距离值;根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
进一步地,所述装置还包括:
判断模块209,用于判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
进一步地,所述第一确定模块203,具体用于针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;否则,该汉字的汉字特征为第二数值;根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
实施例9:
在上述各实施例的基础上,本发明实施例还提供了一种电子设备300,如图3所示,包括存储器301和处理器302;
所述处理器302,用于读取所述存储器301中的程序,执行下列过程:
对待分类的短信进行分词,将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
在图3中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器 302代表的一个或多个处理器和存储器301代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。
可选的,处理器302可以是CPU(中央处埋器)、ASIC(Application SpecificIntegrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)。
所述处理器,用于对所述短信进行去噪;
如果去躁后的短信中存在数字,将所述数字替换为预设字符。
所述处理器,用于根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;
根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;
根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
所述处理器,具体用于对样本短信进行分词,将分词后的样本短信输入到word2vec词向量模型中,获取所述样本短信的每个分词的词向量;
根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;
根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;
将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
所述处理器,具体用于针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;将最大距离值确定为该分词对应的目标距离值;
根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
所述处理器,用于判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;
如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
所述处理器,具体用于针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;
否则,该汉字的汉字特征为第二数值;
根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
由于在本发明实施例中基于word2vec词向量模型获取短信中每个分词的词向量。并计算该短信对应正常短信集合的第一子特征向量,以及该短信对应不良短信集合的第二子特征向量,考虑了该短信的每个分词与正常短信集合中的每个分词的相似性,并考虑了该短信与不良短信集合中的每个分词的相似性,因此,确定的第一特征向量可以准确的表示该短信的特征,从而使基于第一特征向量确定的分类结果更加准确。
实施例10:
在上述各实施例的基础上,本发明实施例还提供了一种电子设备400,如图4所示,包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信;
所述存储器403中存储有计算机程序,当所述程序被所述处理器401执行时,使得所述处理器401执行如下步骤:
对待分类的短信进行分词,将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
进一步地,处理器401对所述短信进行去噪;
如果去躁后的短信中存在数字,将所述数字替换为预设字符。
进一步地,根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;
根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;
根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
进一步地,对样本短信进行分词,将分词后的样本短信输入到word2vec 词向量模型中,获取所述样本短信的每个分词的词向量;
根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;
根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;
将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
进一步地,针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;将最大距离值确定为该分词对应的目标距离值;
根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
进一步地,判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;
如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
进一步地,针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;
否则,该汉字的汉字特征为第二数值;
根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口402用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例11:
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行如下步骤:
对待分类的短信进行分词,将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
进一步地,处理器对所述短信进行去噪;
如果去躁后的短信中存在数字,将所述数字替换为预设字符。
进一步地,根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;
根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;
根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
进一步地,对样本短信进行分词,将分词后的样本短信输入到word2vec 词向量模型中,获取所述样本短信的每个分词的词向量;
根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;
根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;
将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
进一步地,针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;将最大距离值确定为该分词对应的目标距离值;
根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
进一步地,判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;
如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
进一步地,针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;
否则,该汉字的汉字特征为第二数值;
根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如 ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD) 等。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (17)
1.一种短信文本分类方法,其特征在于,所述方法包括:
对待分类的短信进行分词,将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
2.如权利要求1所述的方法,其特征在于,所述对待分类的短信进行分词之前,所述方法还包括:
对所述短信进行去噪;
如果去躁后的短信中存在数字,将所述数字替换为预设字符。
3.如权利要求1所述的方法,其特征在于,所述将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中之前,所述方法还包括:
根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;
根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;
根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
4.如权利要求1所述的方法,其特征在于,预先训练所述文本分类器的过程包括:
对样本短信进行分词,将分词后的样本短信输入到word2vec词向量模型中,获取所述样本短信的每个分词的词向量;
根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;
根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;
将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
5.如权利要求3或4所述的方法,其特征在于,确定每个子特征向量的过程包括:
针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;将最大距离值确定为该分词对应的目标距离值;
根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
6.如权利要求5所述的方法,其特征在于,所述根据每个分词对应的目标距离值,得到对应的子特征向量之后,所述方法还包括:
判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;
如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
7.如权利要求3所述的方法,其特征在于,确定重要性标识信息的过程包括:
针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;否则,该汉字的汉字特征为第二数值;
根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
8.一种短信文本分类装置,其特征在于,所述装置包括:
分词模块,用于对待分类的短信进行分词;
获取模块,用于将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
第一确定模块,用于根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
第二确定模块,用于将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述处理器,用于读取所述存储器中的程序,执行下列过程:
对待分类的短信进行分词,将分词后的短信输入到word2vec词向量模型中,获取所述短信的每个分词的词向量;
根据所述短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;
将所述第一子特征向量和所述第二子特征向量构成的第一特征向量输入到预先训练完成的文本分类器中,确定所述短信是否为正常短信。
10.如权利要求9所述的电子设备,其特征在于,所述处理器,用于对所述短信进行去噪;如果去躁后的短信中存在数字,将所述数字替换为预设字符。
11.如权利要求9所述的电子设备,其特征在于,所述处理器,用于根据所述短信的每个分词的词向量,以及预先提取的预设字符的词向量,确定所述短信的每个分词对应预设字符的第三子特征向量;根据所述短信的每个汉字,以及预先提取的汉字集合,确定所述短信的重要性标识信息;根据第一子特征向量,第二子特征向量,第三子特征向量和重要性标识信息构成所述短信的完整特征向量。
12.如权利要求9所述的电子设备,其特征在于,所述处理器,具体用于对样本短信进行分词,将分词后的样本短信输入到word2vec词向量模型中,获取所述样本短信的每个分词的词向量;根据所述样本短信的每个分词的词向量,预先提取的正常短信集合中的每个第一分词的词向量以及不良短信集合中的每个第二分词的词向量,确定所述样本短信的每个分词对应正常短信集合的第一子特征向量以及对应不良短信集合的第二子特征向量;将所述第一子特征向量和所述第二子特征向量构成该样本短信的第二特征向量;根据所述样本短信是否为正常短信,确定所述的第二特征向量对应的标签信息;将所述第二特征向量及其对应的标签信息输入到所述文本分类器中,对所述文本分类器进行训练。
13.如权利要求9所述的电子设备,其特征在于,所述处理器,具体用于针对每个分词的词向量,根据余弦距离公式计算该分词的词向量和确定该子特征向量时对应的集合中的每个分词的词向量,确定该分词对应的每个距离值;将最大距离值确定为该分词对应的目标距离值;根据每个分词对应的目标距离值,得到对应的子特征向量,其中当子特征向量为第一子特征向量时,该子特征向量对应的集合为正常短信集合,当子特征向量为第二子特征向量时,该子特征向量对应的集合为不良短信集合,当子特征向量为第三子特征向量时,该子特征向量对应的集合为预设字符集合。
14.如权利要求9所述的电子设备,其特征在于,所述处理器,用于判断所述子特征向量中的包含的目标距离值的数量是否达到预设数量,如果是,从所述子特征向量中从大到小依次取预设数量的目标距离值,作为目标子特征向量;如果否,将子特征向量中的目标距离值进行降序排序,并在子特征向量的末尾填充第一数量的预设数值,得到目标子特征向量,其中第一数量为预设数量与目标距离值的数量的差值。
15.如权利要求9所述的电子设备,其特征在于,所述处理器,具体用于针对预先提取的汉字集合的任一汉字,若在所述短信中成功查找到该汉字,则确定该汉字的汉字特征为第一数值;否则,该汉字的汉字特征为第二数值;根据每个汉字对应的汉字特征,得到所述短信的重要性标识信息。
16.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1-7任一项所述方法的步骤。
17.一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811334354.4A CN111241269B (zh) | 2018-11-09 | 2018-11-09 | 一种短信文本分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811334354.4A CN111241269B (zh) | 2018-11-09 | 2018-11-09 | 一种短信文本分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241269A true CN111241269A (zh) | 2020-06-05 |
CN111241269B CN111241269B (zh) | 2024-02-23 |
Family
ID=70870401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811334354.4A Active CN111241269B (zh) | 2018-11-09 | 2018-11-09 | 一种短信文本分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241269B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036167A (zh) * | 2020-08-25 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN115687944A (zh) * | 2022-12-27 | 2023-02-03 | 荣耀终端有限公司 | 一种短信采集方法及相关设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112026A (zh) * | 2014-08-01 | 2014-10-22 | 中国联合网络通信集团有限公司 | 一种短信文本分类方法及系统 |
CN105389345A (zh) * | 2015-10-26 | 2016-03-09 | 天津大学 | 一种分类短信文本内容的方法 |
US20160140210A1 (en) * | 2014-11-19 | 2016-05-19 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for automatic identification of potential material facts in documents |
CN106095791A (zh) * | 2016-01-31 | 2016-11-09 | 长源动力(山东)智能科技有限公司 | 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法 |
CN106161209A (zh) * | 2016-07-21 | 2016-11-23 | 康佳集团股份有限公司 | 一种基于深度自学习的垃圾短信过滤方法及系统 |
CN106202330A (zh) * | 2016-07-01 | 2016-12-07 | 北京小米移动软件有限公司 | 垃圾信息的判断方法及装置 |
US9602987B1 (en) * | 2015-09-21 | 2017-03-21 | Sap Se | Short text messaging in digital mobile telecommunication networks |
KR101806174B1 (ko) * | 2016-06-21 | 2017-12-07 | 숭실대학교산학협력단 | 스팸 문자 판별 시스템 및 방법, 이를 수행하기 위한 기록매체 |
CN107491541A (zh) * | 2017-08-24 | 2017-12-19 | 北京丁牛科技有限公司 | 文本分类方法及装置 |
WO2018028065A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种短信息分类方法、装置及计算机存储介质 |
CN107835496A (zh) * | 2017-11-24 | 2018-03-23 | 北京奇虎科技有限公司 | 一种垃圾短信的识别方法、装置和服务器 |
CN108268554A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种生成垃圾短信过滤策略的方法和装置 |
-
2018
- 2018-11-09 CN CN201811334354.4A patent/CN111241269B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112026A (zh) * | 2014-08-01 | 2014-10-22 | 中国联合网络通信集团有限公司 | 一种短信文本分类方法及系统 |
US20160140210A1 (en) * | 2014-11-19 | 2016-05-19 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for automatic identification of potential material facts in documents |
US9602987B1 (en) * | 2015-09-21 | 2017-03-21 | Sap Se | Short text messaging in digital mobile telecommunication networks |
CN105389345A (zh) * | 2015-10-26 | 2016-03-09 | 天津大学 | 一种分类短信文本内容的方法 |
CN106095791A (zh) * | 2016-01-31 | 2016-11-09 | 长源动力(山东)智能科技有限公司 | 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法 |
KR101806174B1 (ko) * | 2016-06-21 | 2017-12-07 | 숭실대학교산학협력단 | 스팸 문자 판별 시스템 및 방법, 이를 수행하기 위한 기록매체 |
CN106202330A (zh) * | 2016-07-01 | 2016-12-07 | 北京小米移动软件有限公司 | 垃圾信息的判断方法及装置 |
CN106161209A (zh) * | 2016-07-21 | 2016-11-23 | 康佳集团股份有限公司 | 一种基于深度自学习的垃圾短信过滤方法及系统 |
WO2018028065A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种短信息分类方法、装置及计算机存储介质 |
CN108268554A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种生成垃圾短信过滤策略的方法和装置 |
CN107491541A (zh) * | 2017-08-24 | 2017-12-19 | 北京丁牛科技有限公司 | 文本分类方法及装置 |
CN107835496A (zh) * | 2017-11-24 | 2018-03-23 | 北京奇虎科技有限公司 | 一种垃圾短信的识别方法、装置和服务器 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036167A (zh) * | 2020-08-25 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN112036167B (zh) * | 2020-08-25 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN115687944A (zh) * | 2022-12-27 | 2023-02-03 | 荣耀终端有限公司 | 一种短信采集方法及相关设备 |
CN115687944B (zh) * | 2022-12-27 | 2023-09-15 | 荣耀终端有限公司 | 一种短信采集方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111241269B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122346B (zh) | 一种输入语句的纠错方法及装置 | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN110472675B (zh) | 图像分类方法、图像分类装置、存储介质与电子设备 | |
CN107330471B (zh) | 反馈内容的问题定位方法和装置、计算机设备、存储介质 | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
CN108563722A (zh) | 文本信息的行业分类方法、系统、计算机设备和存储介质 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN110489550A (zh) | 基于组合神经网络的文本分类方法、装置和计算机设备 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN108664574A (zh) | 信息的输入方法、终端设备及介质 | |
CN111125354A (zh) | 文本分类方法及装置 | |
WO2019179010A1 (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN110543637A (zh) | 一种中文分词方法及装置 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN111241269B (zh) | 一种短信文本分类方法、装置、电子设备及存储介质 | |
CN115086182A (zh) | 邮件识别模型的优化方法、装置、电子设备及存储介质 | |
US20220101060A1 (en) | Text partitioning method, text classifying method, apparatus, device and storage medium | |
CN113934848A (zh) | 一种数据分类方法、装置和电子设备 | |
CN110888983B (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
CN114492389A (zh) | 语料类型的确定方法、装置、设备及存储介质 | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN110941719B (zh) | 数据分类方法、测试方法、装置及存储介质 | |
CN113626587A (zh) | 一种文本类别识别方法、装置、电子设备及介质 | |
CN111159410A (zh) | 一种文本情感分类方法、系统、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |