CN106202330A - 垃圾信息的判断方法及装置 - Google Patents

垃圾信息的判断方法及装置 Download PDF

Info

Publication number
CN106202330A
CN106202330A CN201610516024.1A CN201610516024A CN106202330A CN 106202330 A CN106202330 A CN 106202330A CN 201610516024 A CN201610516024 A CN 201610516024A CN 106202330 A CN106202330 A CN 106202330A
Authority
CN
China
Prior art keywords
term vector
information
word
neutral net
presupposed information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610516024.1A
Other languages
English (en)
Other versions
CN106202330B (zh
Inventor
秦秋平
陈志军
杨松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610516024.1A priority Critical patent/CN106202330B/zh
Publication of CN106202330A publication Critical patent/CN106202330A/zh
Application granted granted Critical
Publication of CN106202330B publication Critical patent/CN106202330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于垃圾信息的判断方法及装置。该方法包括:在接收到目标信息时,对目标信息进行分词;根据预设词向量模型,获取分词后的每个词的词向量;根据每个词的词向量和预先训练得到的目标循环神经网络,获取目标信息的第一信息分类结果;根据第一信息分类结果判断目标信息是否为垃圾信息。该技术方案,在接收到目标信息时,可以对目标信息进行分词,进而获取目标信息中的每个词的词向量,进而基于该每个词的词向量和预先训练得到的目标循环神经网络,计算出该目标信息的第一信息分类结果,以准确地判断目标信息是否为垃圾信息,从而提高了对目标信息的识别精度和准确度,有助于后期对垃圾信息进行标注或拦截,以避免垃圾信息给用户带来很大困扰。

Description

垃圾信息的判断方法及装置
技术领域
本公开涉及信息技术领域,尤其涉及垃圾信息的判断方法及装置。
背景技术
目前,信息已经渗透到日常生活中的各个角落,用户接收到的信息也越来越多,例如短信、微信等各种即时通信信息,但在相关技术中,用户往往会收到一些垃圾信息,且由于垃圾信息被伪装的越来越像正常信息,使得终端往往无法准确地判断信息是否为垃圾信息,从而导致用户经常接收到垃圾信息,而这给用户带来很大困扰。
发明内容
本公开实施例提供了垃圾信息的判断方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种垃圾信息的判断方法,包括:
在接收到目标信息时,对所述目标信息进行分词;
根据预设词向量模型,获取分词后的每个词的词向量;
根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,其中,所述第一信息分类结果用于表征所述目标信息为垃圾信息的概率;
根据所述第一信息分类结果判断所述目标信息是否为所述垃圾信息。
在一个实施例中,所述根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,包括:
调用所述目标循环神经网络,并将所述每个词的词向量依次作为所述目标循环神经网络的输入;
依次获取所述每个词的词向量经过所述目标循环神经网络之后对应的输 出,其中,所述目标信息中的第n个词的词向量对应的输出和第n+1个词的词向量同为所述第n+1个词的词向量针对所述目标循环神经网络的输入;
根据所述每个词的词向量对应的输出,获取所述第一信息分类结果,其中,n为正整数。
在一个实施例中,所述第n个词的词向量对应的输出包括:所述第n个词的词向量对应的状态输出值和所述第n个词的词向量对应的第一分类结果参考值,且所述第n个词的词向量对应的状态输出值和所述第一分类结果参考值用于计算所述第一信息分类结果;
所述根据所述每个词的词向量对应的输出,获取所述第一信息分类结果,包括:
根据所述目标信息中的最后一个词的词向量对应的输出,获取所述第一信息分类结果。
在一个实施例中,在根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果之前,所述方法还包括:
获取至少两个预设信息;
为所述至少两个预设信息分别设置状态标记值,其中,所述状态标记值用于表征各预设信息为垃圾信息或者正常信息;
将所述各预设信息进行分词,并根据所述预设词向量模型获取所述各预设信息中的各个词的词向量;
根据所述各预设信息中的各个词的词向量,生成所述各预设信息所对应的词向量序列;
根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络。
在一个实施例中,在根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络之前,所述方法还包括:
判断所述各预设信息所对应的词向量序列中的词向量的数目是否相同;
当所述各预设信息所对应的词向量序列中的词向量的数目不相同时,将所述各预设信息所对应的词向量序列中的词向量的数目进行统一化,使得所述各预设信息所对应的词向量序列中的词向量的数目均等于预设数目。
在一个实施例中,所述根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
调用所述预设循环神经网络,并将所述各预设信息所对应的词向量序列中的各个词的词向量依次作为所述预设循环神经网络的输入;
依次获取所述各预设信息所对应的词向量序列中的各词向量经过所述预设循环神经网络之后对应的输出,其中,所述各预设信息所对应的词向量序列中的第i个词向量对应的输出和第i+1个词向量同为所述第i+1个词向量针对所述预设循环神经网络的输入;
根据所述各预设信息所对应的词向量序列中的各词向量对应的输出和所述各预设信息的状态标记值对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
在一个实施例中,所述根据所述各预设信息所对应的词向量序列中的各词向量对应的输出和所述各预设信息的状态标记值对所述预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
在一个实施例中,所述根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
确定所述各预设信息所对应的词向量序列中的最后一个词向量对应的输 出为第二分类结果参考值,其中,所述第二分类结果参考值为所述各预设信息所对应的词向量序列经过所述预设循环神经网络之后得到的值,且所述第二分类结果参考值用于计算所述各预设信息所对应的词向量序列的第二信息分类结果;
根据所述各预设信息所对应的词向量序列的第二分类结果参考值,计算所述各预设信息所对应的词向量序列的第二信息分类结果;
计算所述各预设信息所对应的词向量序列的第二信息分类结果与所述各预设信息对应的状态标记值两者之间的分类偏差值;
根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,其中,所述预设参数至少用于计算所述各预设信息中的各个词的词向量对应的输出。
在一个实施例中,所述根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,包括:
根据所述各预设信息对应的分类偏差值,计算所述至少两个预设信息之间的分类偏差平均值;
根据所述至少两个预设信息之间的分类偏差平均值和反向传导算法对所述预设参数进行训练,以获取所述目标循环神经网络。
根据本公开实施例的第二方面,提供一种垃圾信息的判断装置,包括:
分词模块,用于在接收到目标信息时,对所述目标信息进行分词;
第一获取模块,用于根据预设词向量模型,获取所述分词模块分词后的每个词的词向量;
第二获取模块,用于根据所述第一获取模块获取到的所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,其中,所述第一信息分类结果用于表征所述目标信息为垃圾信息的概率;
第一判断模块,用于根据所述第二获取模块获取到的所述第一信息分类结果判断所述目标信息是否为所述垃圾信息。
在一个实施例中,所述第二获取模块包括:
处理子模块,用于调用所述目标循环神经网络,并将所述每个词的词向量依次作为所述目标循环神经网络的输入;
第一获取子模块,用于依次获取所述每个词的词向量经过所述处理子模块所调用的所述目标循环神经网络之后对应的输出,其中,所述目标信息中的第n个词的词向量对应的输出和第n+1个词的词向量同为所述第n+1个词的词向量针对所述目标循环神经网络的输入;
第二获取子模块,用于根据所述第一获取子模块获取到的所述每个词的词向量对应的输出,获取所述第一信息分类结果,其中,n为正整数。
在一个实施例中,所述第n个词的词向量对应的输出包括:所述第n个词的词向量对应的状态输出值和所述第n个词的词向量对应的第一分类结果参考值,且所述第一分类结果参考值用于计算所述第一信息分类结果;
所述第二获取子模块包括:
获取单元,用于根据所述目标信息中的最后一个词的词向量对应的输出,获取所述第一信息分类结果。
在一个实施例中,所述装置还包括:
第三获取模块,用于在根据所述第二获取模块获取所述目标信息的第一信息分类结果之前,获取至少两个预设信息;
设置模块,用于为所述至少两个预设信息分别设置状态标记值,其中,所述状态标记值用于表征各预设信息为垃圾信息或者正常信息;
第一处理模块,用于将所述各预设信息进行分词,并根据所述预设词向量模型获取所述各预设信息中的各个词的词向量;
生成模块,用于根据所述第一处理模块获取到的所述各预设信息中的各个词的词向量,生成所述各预设信息所对应的词向量序列;
训练模块,用于根据所述生成模块生成的所述各预设信息所对应的词向量序列和所述设置模块为所述各预设信息设置的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络。
在一个实施例中,所述装置还包括:
第二判断模块,用于在根据所述各预设信息所对应的词向量序列对预设循环神经网络进行训练之前,判断所述各预设信息所对应的词向量序列中的词向量的数目是否相同;
第二处理模块,用于当所述第二判断模块的判断结果为所述各预设信息所对应的词向量序列中的词向量的数目不相同时,将所述各预设信息所对应的词向量序列中的词向量的数目进行统一化,使得所述各预设信息所对应的词向量序列中的词向量的数目均等于预设数目。
在一个实施例中,所述训练模块包括:
调用子模块,用于调用所述预设循环神经网络,并将所述各预设信息所对应的词向量序列中的各个词的词向量依次作为所述预设循环神经网络的输入;
第三获取子模块,用于依次获取所述各预设信息所对应的词向量序列中的各词向量经过所述调用子模块调用的所述预设循环神经网络之后对应的输出,其中,所述各预设信息所对应的词向量序列中的第i个词向量对应的输出和第i+1个词向量同为所述第i+1个词向量针对所述预设循环神经网络的输入;
训练子模块,用于根据所述各预设信息所对应的词向量序列中的各词向量对应的输出和所述各预设信息的状态标记值对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
在一个实施例中,所述训练子模块包括:
训练单元,用于根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网 络进行训练,以获取所述目标循环神经网络。
在一个实施例中,所述训练单元包括:
确定子单元,用于确定所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出为第二分类结果参考值,其中,所述第二分类结果参考值为所述各预设信息所对应的词向量序列经过所述预设循环神经网络之后得到的值,且所述第二分类结果参考值用于计算所述各预设信息所对应的词向量序列的第二信息分类结果;
第一计算子单元,用于根据所述各预设信息所对应的词向量序列的第二分类结果参考值,计算所述各预设信息所对应的词向量序列的第二信息分类结果;
第二计算子单元,用于计算所述各预设信息所对应的词向量序列的第二信息分类结果与所述各预设信息对应的状态标记值两者之间的分类偏差值;
训练子单元,用于根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,其中,所述预设参数至少用于计算所述各预设信息中的各个词的词向量对应的输出。
在一个实施例中,所述训练子单元具体用于:
根据所述各预设信息对应的分类偏差值,计算所述至少两个预设信息之间的分类偏差平均值;
根据所述至少两个预设信息之间的分类偏差平均值和反向传导算法对所述预设参数进行训练,以获取所述目标循环神经网络。
根据本公开实施例的第三方面,提供了一种垃圾信息的判断装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在接收到目标信息时,对所述目标信息进行分词;
根据预设词向量模型,获取分词后的每个词的词向量;
根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,其中,所述第一信息分类结果用于表征所述目标信息为垃圾信息的概率;
根据所述第一信息分类结果判断所述目标信息是否为所述垃圾信息。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开的实施例提供的技术方案,在接收到目标信息时,可以对目标信息进行分词,进而获取目标信息中的每个词的词向量,而在获取到目标信息中的每个词的词向量之后,可以基于该每个词的词向量和预先训练得到的目标循环神经网络,计算出该目标信息的第一信息分类结果,进而根据该第一信息分类结果可以准确地判断目标信息是否为垃圾信息,从而提高了对目标信息的识别精度和准确度,有助于后期对垃圾信息进行标注或拦截,以避免垃圾信息给用户带来很大困扰。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种垃圾信息的判断方法的流程图。
图2是根据一示例性实施例示出的另一种垃圾信息的判断方法的流程图。
图3是根据一示例性实施例一示出的又一种垃圾信息的判断方法的流程图。
图4是根据一示例性实施例一示出的再一种垃圾信息的判断方法的流程图。
图5是根据一示例性实施例一示出的再一种垃圾信息的判断方法的流程 图。
图6是根据一示例性实施例一示出的再一种垃圾信息的判断方法的流程图。
图7是根据一示例性实施例一示出的再一种垃圾信息的判断方法的流程图。
图8是根据一示例性实施例一示出的再一种垃圾信息的判断方法的流程图。
图9是根据一示例性实施例一示出的再一种垃圾信息的判断方法的流程图。
图10是根据一示例性实施例示出的预设循环神经网络的结构示意图。
图11至图14分别示出了图10所示的预设循环神经网络中的A部分中的每个步骤和相应步骤的运算公式的示意图。
图15是根据一示例性实施例示出的一种垃圾信息的判断装置的框图。
图16是根据一示例性实施例示出的另一种垃圾信息的判断装置的框图。
图17是根据一示例性实施例示出的又一种垃圾信息的判断装置的框图。
图18是根据一示例性实施例示出的再一种垃圾信息的判断装置的框图。
图19是根据一示例性实施例示出的再一种垃圾信息的判断装置的框图。
图20是根据一示例性实施例示出的适用于垃圾信息的判断装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
目前,信息已经渗透到日常生活中的各个角落,用户接收到的信息也越 来越多,例如短信、微信等各种即时通信信息,但在相关技术中,用户往往会收到一些垃圾信息,且由于垃圾信息被伪装的越来越像正常信息,使得终端往往无法准确地判断信息是否为垃圾信息,从而导致用户经常接收到垃圾信息,而这给用户带来很大困扰。
为了解决上述技术问题,本公开实施例提供了一种垃圾信息的判断方法,该方法可用于垃圾信息的判断程序、系统或装置中,且该方法对应的执行主体可以是手机、平板、计算机等各种终端或者还可以是服务器,如图1所示,该方法包括步骤S101至步骤S104:
在步骤S101中,在接收到目标信息时,对目标信息进行分词;
目标信息可以是短信、微信等各种即时通信信息,而对该目标信息进行分词就是将目标信息进行顺序拆分,得到一个个单独的词,例如:当该目标信息是“感谢您的预约,我是XX的客户经理”时,分词后得到的每个词就是“感谢”“您”“的”“预约”“我”“是”“XX”“的”客户经理”。
在步骤S102中,根据预设词向量模型,获取分词后的每个词的词向量;
其中,词向量就是用来将语言中的词进行数学化的一种方式,其基本思想是通过训练将每个词映射成一个K维实数向量(其中,K一般为模型中的超参数,可以为200),而两个词对应的词向量之间的距离可以用于判断两个词之间的语义相似度,例如:可以用两个词的词向量之间的Cosine(词向量)值或者欧氏距离来表征这两个词的语音相似度。
而经过训练之后,预设词向量模型中就存储有海量词的词向量。
另外,在训练预设词向量模型时,可以使用训练词向量的软件工具Word2vec进行训练,而由于训练词向量模型时,不需要对信息类型做标注,所以,为了能够更全面地获取到每个词的词向量,在训练预设词向量模型时,可以在云端使用海量真实的语料(如真实的短信、真实的文章、文库等各种语句)来进行训练,例如:设定词向量维度为N(如200),对1千万条短信分词后,用Word2Vec即可训练出预设词向量模型,在训练完该预设词向量模 型时,使用“手机”一词对训练完成的预设词向量模型测试后即可查找到最相似的词结果如下所示:
在步骤S103中,根据每个词的词向量和预先训练得到的目标循环神经网络,获取目标信息的第一信息分类结果,其中,第一信息分类结果用于表征目标信息为垃圾信息的概率;
目标循环神经网络可以是RNN(循环神经网路,Recurrent Neural Networks)中的LSTM(时间递归神经网络,Long-Short Term Memory)。
在步骤S104中,根据第一信息分类结果判断目标信息是否为垃圾信息,其中,如果预设设置垃圾信息的状态标记值为1且正常信息的状态标记值为0,则当第一信息分类结果大于或等于0.5时,该目标信息为垃圾信息,当第一信息分类结果小于0.5时,该目标信息为正常信息。
在获取到目标信息中的每个词的词向量之后,可以基于该每个词的词向 量和预先训练得到的目标循环神经网络,计算出该目标信息的第一信息分类结果,进而根据该第一信息分类结果可以准确地判断目标信息是否为垃圾信息,从而提高了对目标信息的识别精度和准确度,有助于后期对垃圾信息进行标注或拦截,以避免垃圾信息给用户带来很大困扰。
如图2所示,在一个实施例中,上述图1所示的步骤S103可被执行为:
在步骤A1中,调用目标循环神经网络,并将每个词的词向量依次作为目标循环神经网络的输入;
在步骤A2中,依次获取每个词的词向量经过目标循环神经网络之后对应的输出,其中,目标信息中的第n个词的词向量对应的输出和第n+1个词的词向量同为第n+1个词的词向量针对目标循环神经网络的输入;
“目标信息中的第n个词的词向量对应的输出和第n+1个词的词向量同为第n+1个词的词向量针对目标循环神经网络的输入”这一特性,使得目标循环神经网络具有记性功能,使得后面时间的节点可以感知前面时间的节点即下一个词的词向量对应的输出一直与前面所有词的词向量对应的输出和该词本身的词向量这两者均有关联,这也确保了每个词的词向量对应的输出是准确的。
在步骤A3中,根据每个词的词向量对应的输出,获取第一信息分类结果,其中,n为正整数。
在获取到每个词的词向量对应的输出之后,可以根据每个词的词向量对应的输出和预设计算公式,准确地获取到该目标信息的第一信息分类结果,以提高对该目标信息的识别准确度和精度,其中,该预设计算公式可以是:
Zi=WT*ht+b 公式1)
Gi=1/(1+exp(-Zi)) (公式2),
其中,在本次计算时,Gi为目标信息的第一信息分类结果,ht为每个词的词向量对应的输出,而WT和b均是逻辑回归参数,是待调整的一部分预设参数。
如图3所示,在一个实施例中,第n个词的词向量对应的输出包括:第 n个词的词向量对应的状态输出值(当n=t-1时,状态输出值就如图10所示的Ct-1的值)和第n个词的词向量对应的第一分类结果参考值(当n=t-1时,第一分类结果参考值如图10所示的ht-1的值),且第n个词的词向量对应的状态输出值和第一分类结果参考值用于计算第一信息分类结果;
上述图2所示的步骤A3可被执行为:
在步骤B1中,根据目标信息中的最后一个词的词向量对应的输出,获取第一信息分类结果。
由于第n个词的词向量对应的输出和第n+1个词的词向量同为第n+1个词的词向量针对目标循环神经网络的输入,因而,目标信息中的第n+1个词的词向量针对目标循环神经网络的输出就与第n个词的词向量对应的输出和第n+1个词的词向量有关,所以,目标信息中的最后一个词的词向量对应的输出就与目标信息中前面所有词的词向量对应的输出和最后一个词的词向量同时有关,因而,为了降低计算复杂度同时为了确保对目标信息的识别精度和准确度,可以根据目标信息中的最后一个词的词向量对应的输出和上述预设计算公式来准确地获取到该目标信息的第一信息分类结果,以在降低计算复杂度的基础上,提高对该目标信息的识别准确度和精度。
如图4所示,在一个实施例中,在执行图1所示的步骤S103之前,上述方法还可包括:
在步骤S401中,获取至少两个预设信息;
在步骤S402中,为至少两个预设信息分别设置状态标记值,其中,状态标记值用于表征各预设信息为垃圾信息或者正常信息;
至少两个预设信息可以来自海量真实的信息(如真实的短信、真实的文章、文库等各种语句),且为了使得目标循环神经网络更为精准,该至少两个预设信息的数目可以尽可能的多。
状态标记值可以分别为0和1,其中,0表示相应的预设信息为正常信息,1表示相应的预设信息为垃圾信息,且状态标记值是人为设置的,便于后期 结合预设循环神经网络自动获取到的第二信息分类结果,对预设循环神经网络进行训练,以获得目标循环神经网络。
在步骤S403中,将各预设信息进行分词,并根据预设词向量模型获取各预设信息中的各个词的词向量;
将各预设信息进行分词后,由于预设词向量模型存储有各种词的词向量,因而,根据预设词向量模型可以查找到各预设信息中的各个词的词向量。
另外,如果预设词向量模型确实未存储有某个词的词向量,则可以为该词赋一个初始的词向量,如为该词赋一个每维均是量的K维向量。
在步骤S404中,根据各预设信息中的各个词的词向量,生成各预设信息所对应的词向量序列;
将各预设信息中的各个词的词向量按照各个词在相应的预设信息中的排列进行排列,即可得到各预设信息所对应的词向量序列。
在步骤S405中,根据各预设信息所对应的词向量序列和各预设信息的状态标记值对预设循环神经网络进行训练,以获取目标循环神经网络。
在获取到各预设信息所对应的词向量序列之后,可以根据各预设信息所对应的词向量序列和各预设信息的状态标记值对预设循环神经网络进行训练,以获取输出结果精度较高的目标循环神经网络。
如图5所示,在一个实施例中,在执行图4所示的步骤S405之前,上述方法还可包括:
在步骤S501中,判断各预设信息所对应的词向量序列中的词向量的数目是否相同;
在步骤S502中,当各预设信息所对应的词向量序列中的词向量的数目不相同时,将各预设信息所对应的词向量序列中的词向量的数目进行统一化,使得各预设信息所对应的词向量序列中的词向量的数目均等于预设数目。
当各预设信息所对应的词向量序列中的词向量的数目不相同(包括部分预设信息所对应的词向量序列中的词向量的数目不同或者所有预设信息所对 应的词向量序列中的词向量的数目均不同)时,说明各预设信息所对应的词向量序列中的词向量的数目至少不完全相等,有长、有短,很不方便进行训练运算,因而,可以将各预设信息所对应的词向量序列中的词向量的数目进行统一化,使得各预设信息所对应的词向量序列中的词向量的数目均是固定的且等于预设数目,以便于后期对预设循环神经网络进行训练,获得输出结果精度较高的目标循环神经网络,例如:据统计大部分短信分词后的词数量均少于40,因而,可以将词向量序列长度设置为40(即预设数目等于40),而对于词向量数目小于40的短信,用零向量在词向量序列前面补齐,对于词向量数目大于40的短信短信,截取后面40个词的词向量,前面多余的词的词向量可以丢弃。
如图6所示,在一个实施例中,上述图4和图5所示的步骤S405可被执行为:
在步骤C1中,调用预设循环神经网络,并将各预设信息所对应的词向量序列中的各个词的词向量依次作为预设循环神经网络的输入;
其中,预设循环神经网络中的预设参数的值是初始值,是需要经过不断调整的,而预设参数的值一旦被调整(即被训练)为精度更高的值、能够使得循环神经网络的判断结果的准确度达到预设准确度,则预设循环神经网络就被训练成了目标循环神经网络。
在步骤C2中,依次获取各预设信息所对应的词向量序列中的各词向量经过预设循环神经网络之后对应的输出,其中,各预设信息所对应的词向量序列中的第i个词向量对应的输出和第i+1个词向量同为第i+1个词向量针对预设循环神经网络的输入;
由于各预设信息所对应的词向量序列中的第n个词的词向量对应的输出和第n+1个词的词向量同为第n+1个词的词向量针对预设循环神经网络的输入,因而,各预设信息所对应的词向量序列中的第n+1个词的词向量针对预设循环神经网络的输出就与该词向量序列中第n个词的词向量对应的输出和 第n+1个词的词向量有关,所以,各预设信息所对应的词向量序列中的最后一个词的词向量对应的输出与预设信息中前面所有词的词向量对应的输出和最后一个词的词向量同时有关。
在步骤C3中,根据各预设信息所对应的词向量序列中的各词向量对应的输出和各预设信息的状态标记值对预设循环神经网络进行训练,以获取目标循环神经网络,其中,各预设信息所对应的词向量序列中的每个词的词向量均对应一个输出,因而,各词向量对应的输出的数目等于各预设信息所对应的词向量序列中词向量的数目之和。
根据各预设信息所对应的词向量序列中的各词向量对应的输出和各预设信息的状态标记值,可以对预设循环神经网络进行训练,以调整预设循环神经网络中的预设参数的初始值,从而获取输出结果精度较高的目标循环神经网络。
另外,该实施例可以与上述任一实施例(如可以和图5所示的实施例相结合)相结合。
如图7所示,在一个实施例中,上述图6所示的步骤C3可被执行为:
在步骤D1中,根据各预设信息所对应的词向量序列中的最后一个词向量对应的输出和各预设信息的状态标记值,对预设循环神经网络进行训练,以获取目标循环神经网络。
由于各预设信息所对应的词向量序列中的最后一个词向量对应的输出与各预设信息所对应的词向量序列中前面所有的词向量对应的输出和最后一个词的词向量同时有关,因而,为了降低计算复杂度同时为了确保目标循环神经网络的输出结果的精度,可以根据各预设信息所对应的词向量序列中的最后一个词向量对应的输出和各预设信息的状态标记值对预设循环神经网络进行训练,以在降低计算复杂度的基础上,获取输出结果精度较高的目标循环神经网络。
如图8所示,在一个实施例中,上述图7所示的步骤D1可被执行为:
在步骤E1中,确定各预设信息所对应的词向量序列中的最后一个词向量对应的输出为第二分类结果参考值,其中,第二分类结果参考值为各预设信息所对应的词向量序列经过预设循环神经网络之后得到的值,且第二分类结果参考值(即图10和图14中的ht,且第二分类结果参考值的计算方式如图10至图14所示)用于计算各预设信息所对应的词向量序列的第二信息分类结果;
在步骤E2中,根据各预设信息所对应的词向量序列的第二分类结果参考值,计算各预设信息所对应的词向量序列的第二信息分类结果;
在计算各预设信息所对应的词向量序列的第二信息分类结果时,仍然可以根据以下预设计算公式来计算,
Zi=WT*ht+b (公式1)
Gi=1/(1+exp(-Zi)) (公式2),
其中,在本次计算时,Gi为各预设信息的第二信息分类结果,ht为各预设信息所对应的词向量序列的第二分类结果参考值,而WT和b均是其中的两项预设参数。
在步骤E3中,计算各预设信息所对应的词向量序列的第二信息分类结果与各预设信息对应的状态标记值两者之间的分类偏差值;
计算分类偏差值时,可以采用交叉熵代价函数作为损失函数,则损失函数为:
Ci=-(yilnGi+(1–yi)ln(1-Gi)),其中,
y为各预设信息的状态标记值为0或者1,Gi为各预设信息的第二信息分类结果,Ci分类偏差值为各预设信息的对应的分类偏差值。
在步骤E4中,根据各预设信息对应的分类偏差值,对预设循环神经网络中的预设参数进行训练,以获取目标循环神经网络,其中,预设参数至少用于计算各预设信息中的各个词的词向量对应的输出,且目标循环神经网络与预设循环神经网络中的预设参数的值至少部分不同。
根据各预设信息对应的分类偏差值,可以对预设循环神经网络中的预设参数进行训练,以调整预设循环神经网络中的预设参数的初始值,从而获取输出结果精度较高的预设参数的值更加精准的目标循环神经网络。
如图9所示,在一个实施例中,上述图8所示的步骤E4可被执行为:
在步骤F1中,根据各预设信息对应的分类偏差值,计算至少两个预设信息之间的分类偏差平均值;
在步骤F2中,根据至少两个预设信息之间的分类偏差平均值和反向传导算法对预设参数进行训练,以获取目标循环神经网络,其中,反向传导算法又称反向传播算法是一种监督学习算法,常被用来训练多层感知机。
由于每个预设信息均对应一个分类偏差值,因而,可以采用批量梯度下降法,批量计算至少两个预设信息之间的分类偏差平均值,进而根据该分类偏差平均值和反向传导算法对预设参数进行训练,以获取输出结果精度较高的目标循环神经网络,以便于后期能够通过该目标循环神经网络和预设词向量模型对接收到的目标信息进行精确识别。
下面将举例说明,在本公开中,如果使用短信样本对预设循环神经网络进行训练,则获取目标循环神经网络的具体步骤如步骤1和步骤2所示:
首先在执行步骤1和步骤2之前,需要说明的是:
由于短信文本长度不固定,对短信样本分词后,每条短信样本的词数不固定,所以,用词向量模型映射后的向量个数也是不固定的,因而,为了便于训练计算,需要将所有短信映射后的向量序列做一个固定长度处理。
根据统计,大部分短信分词后的词数量均少于40,因而,可以将词向量序列长度设置为40(即预设数目等于40),而对于词向量数目小于40的短信,用零向量在词向量序列前面补齐,对于词向量数目大于40的短信短信,截取后面40个词的词向量,前面多余的词的词向量可以丢弃。
步骤1,为短信设置状态标记值:
垃圾短信识别是一个文本二分类问题,因而,对于要加入训练样本的短 信,要先人工标记每条短信的类别,这里用0来标记正常短信,用1来标记垃圾短信,例如:下面两条短信中(1)为垃圾短信、状态标记值是1,(2)是正常短信、状态标记值是0。
(1)“还在为资/金周/转烦恼吗?我处为你轻松解决,最高5-50W,年息10%,手续简便,当天放款!下款前无任何费用。电:150XXXX7557”
(2)“支付验证码:144584,您本次银行卡支付的交易金额为50.00元【易宝支付】”
预处理分词后的结果是:
(1)还在为资金周转烦恼吗我处为你轻松解决最高年息手续简便当天放款下款前无任何费用电
(2)支付验证码您本次银行卡支付的交易金额为元易宝支付
(1)(2)分词后分别是22、13个词,预设词向量模型中查找(1)和(2)中每个词对应的词向量,得到(1)(2)分别对应的词向量序列为{v(1,1),v(1,2),v(1,3),……v(1,22)},{v(2,1),v(2,2),v(2,3),……v(2,13)}。v(n,k)表示第n条短信样本的第k个词对应的词向量,每个词的词向量为N维向量。由于向量个数不足40,所以要在序列前面补齐零向量v0(v0是N维全零向量),如(1)的词向量队列要补齐40–22=18个零向量,(2)需要补齐27个零向量,得到统一长度为40的序列,从而得到(1)的词向量序列x1和(2)的词向量序列x2:
x1={v0,v0,v0……v0,v(1,1),v(1,2),v(1,3),……v(1,22)}
x2={v0,v0,v0……v0,v(2,1),v(2,2),v(2,3),……v(2,13)}
对应的状态标记值分别为:
y1=1
y2=0
如果短信分词后的词数量大于40,则取后面40个词向量,如第i条短 信样本词数量为j,则其词向量序列为:
xi={v(i,j-39),v(i,j-38),v(i,37),……v(i,j)}yi={y|y∈(0,1)}
这样,所有短信样本处理完成后得到统一表示的数据格式,每个样本对应一个长度为40的词向量序列,和一个(0,1)标签的标记。
步骤2,对预设循环神经网络进行训练:
根据上述步骤1预处理完毕后得到的样本为:
(xi,yi)
i是短信样本编号,大于1且小于或等于短信样本数量
xi是第i个短信样本对应的词向量序列,长度为40
xi={Xi,1,Xi,2,Xi,3,……Xi,40}
yi是第i个短信样本的分类,取值是0或1(0正常短信,1垃圾短信)
用LSTM做短信分类,具有下面特点:
1.本公开中的词向量是预先训练好的,所以训练预设神经网络仅仅需要训练LSTM的参数,不需要训练词向量模型。
2.对于RNN模型,每个短信样本代表一个序列,序列的每一个词向量都会有对应的输出,如图10所示,hi代表短信样本序列中的第i个词向量对应的输出(准确地说,hi代表短信样本序列中的第i个词向量对应的分类结果参考值,如第二分类结果参考值),那么一个短信样本序列就对应着40个输出。而本公开采取的是短信样本序列中最后一个词向量对应的输出作为整个序列的输出,忽略前面39个词向量对应的输出。
而经过将每个样本(xi,yi)中的xi序列输入LSTM后,选取短信样本序列中最后一个词向量对应的输出hi,40(即第二分类结果参考值)进行逻辑回归,即可得到每个样本(xi,yi)的第二信息分类结果。
Zi=WT*hi,40+b
Gi=1/(1+exp(-Zi))
经过上述运算得到最终逻辑回归的结果Gi,其中,Gi>0.5表示第i条短信为垃圾短信,G<0.5表示第i条短信为正常短信。
另外,本公开采用交叉熵代价函数作为损失函数,则损失函数为:
Ci=-(yilnGi+(1–yi)ln(1-Gi))
采用批量梯度下降法,批量损失函数为Ci的平均值,训练时根据损失函数计算误差,用反向传导算法来训练模型中的各个参数,这一步与相关技术类似,此处不再赘述,而模型中需要训练的预设参数有:
图11到图14中的Wf,bf,Wi,bi,Wc,bc,Wo,bo,还有上面逻辑回归的参数WT,b。
另外,图11到图14这4张图分别是图10中A部分的一步步骤,即LSTM的计算过程,是Sigmoid函数,tanh是双曲函数。为了简化表示,图11到图14中xt表示任意短信样本(xi,yi)的第t个序列,即Xi,t简化为xt,其中,图10中的实施例仅表示出了一个短信样本的第t个序列在预设循环神经网络中的输出示意图,因而,Xt没有添加下标i,而本领域技术人员应该理解的是,对于第i个短信样本的Xt,Xt应该被修改为Xi,t,这种描述更为准确,此处不再赘述。
对应本公开实施例提供的上述垃圾信息的判断方法,本公开实施例还提供一种垃圾信息的判断装置,如图15所示,该装置包括:
分词模块1501,被配置为在接收到目标信息时,对目标信息进行分词;
第一获取模块1502,被配置为根据预设词向量模型,获取分词模块1501分词后的每个词的词向量;
第二获取模块1503,被配置为根据第一获取模块1502获取到的每个词的词向量和预先训练得到的目标循环神经网络,获取目标信息的第一信息分类结果,其中,第一信息分类结果被配置为表征目标信息为垃圾信息的概率;
第一判断模块1504,被配置为根据第二获取模块1503获取到的第一信息分类结果判断目标信息是否为垃圾信息。
如图16所示,在一个实施例中,上述图15所示的第二获取模块1503可以包括:
处理子模块15031,被配置为调用目标循环神经网络,并将每个词的词向量依次作为目标循环神经网络的输入;
第一获取子模块15032,被配置为依次获取每个词的词向量经过处理子模块15031所调用的目标循环神经网络之后对应的输出,其中,目标信息中的第n个词的词向量对应的输出和第n+1个词的词向量同为第n+1个词的词向量针对目标循环神经网络的输入;
第二获取子模块15033,被配置为根据第一获取子模块15031获取到的每个词的词向量对应的输出,获取第一信息分类结果,其中,n为正整数。
在一个实施例中,第n个词的词向量对应的输出包括:第n个词的词向量对应的状态输出值(即如12至图14中的Ct或者Ct-1)和第n个词的词向量对应的第一分类结果参考值,且第一分类结果参考值被配置为计算第一信息分类结果;
第二获取子模块15033可以包括:
获取单元,被配置为根据目标信息中的最后一个词的词向量对应的输出,获取第一信息分类结果。
如图17所示,在一个实施例中,装置还包括:
第三获取模块1701,被配置为在根据第二获取模块获取目标信息的第一信息分类结果之前,获取至少两个预设信息;
设置模块1702,被配置为为至少两个预设信息分别设置状态标记值,其中,状态标记值被配置为表征各预设信息为垃圾信息或者正常信息;
第一处理模块1703,被配置为将各预设信息进行分词,并根据预设词向量模型获取各预设信息中的各个词的词向量;
生成模块1704,被配置为根据第一处理模块1703获取到的各预设信息中的各个词的词向量,生成各预设信息所对应的词向量序列;
训练模块1705,被配置为根据生成模块1704生成的各预设信息所对应的词向量序列和设置模块1702为各预设信息设置的状态标记值对预设循环神经网络进行训练,以获取目标循环神经网络。
如图18所示,在一个实施例中,上述图17所示的装置还可包括:
第二判断模块1801,被配置为在根据各预设信息所对应的词向量序列对预设循环神经网络进行训练之前,判断各预设信息所对应的词向量序列中的词向量的数目是否相同;
第二处理模块1802,被配置为当第二判断模块1801的判断结果为各预设信息所对应的词向量序列中的词向量的数目不相同时,将各预设信息所对应的词向量序列中的词向量的数目进行统一化,使得各预设信息所对应的词向量序列中的词向量的数目均等于预设数目。
如图19所示,在一个实施例中,上述图18所示的训练模块1705可以包括:
调用子模块17051,被配置为调用预设循环神经网络,并将各预设信息所对应的词向量序列中的各个词的词向量依次作为预设循环神经网络的输入;
第三获取子模块17052,被配置为依次获取各预设信息所对应的词向量序列中的各词向量经过调用子模块17051调用的预设循环神经网络之后对应的输出,其中,各预设信息所对应的词向量序列中的第i个词向量对应的输出和第i+1个词向量同为第i+1个词向量针对预设循环神经网络的输入;
训练子模块17053,被配置为根据第三获取子模块17052获取到的各预设信息所对应的词向量序列中的各词向量对应的输出和各预设信息的状态标记值对预设循环神经网络进行训练,以获取目标循环神经网络。
在一个实施例中,训练子模块17053可以包括:
训练单元,被配置为根据各预设信息所对应的词向量序列中的最后一个词向量对应的输出和各预设信息的状态标记值,对预设循环神经网络进行训 练,以获取目标循环神经网络。
在一个实施例中,训练单元包括:
确定子单元,被配置为确定各预设信息所对应的词向量序列中的最后一个词向量对应的输出为第二分类结果参考值,其中,第二分类结果参考值为各预设信息所对应的词向量序列经过预设循环神经网络之后得到的值,且第二分类结果参考值被配置为计算各预设信息所对应的词向量序列的第二信息分类结果;
第一计算子单元,被配置为根据各预设信息所对应的词向量序列的第二分类结果参考值,计算各预设信息所对应的词向量序列的第二信息分类结果;
第二计算子单元,被配置为计算各预设信息所对应的词向量序列的第二信息分类结果与各预设信息对应的状态标记值两者之间的分类偏差值;
训练子单元,被配置为根据各预设信息对应的分类偏差值,对预设循环神经网络中的预设参数进行训练,以获取目标循环神经网络,其中,预设参数至少被配置为计算各预设信息中的各个词的词向量对应的输出。
在一个实施例中,训练子单元具体被配置为:
根据各预设信息对应的分类偏差值,计算至少两个预设信息之间的分类偏差平均值;
根据至少两个预设信息之间的分类偏差平均值和反向传导算法对预设参数进行训练,以获取目标循环神经网络。
根据本公开实施例的第三方面,提供一种垃圾信息的判断装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
在接收到目标信息时,对所述目标信息进行分词;
根据预设词向量模型,获取分词后的每个词的词向量;
根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所 述目标信息的第一信息分类结果,其中,所述第一信息分类结果用于表征所述目标信息为垃圾信息的概率;
根据所述第一信息分类结果判断所述目标信息是否为所述垃圾信息。
上述处理器还可被配置为:
所述根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,包括:
调用所述目标循环神经网络,并将所述每个词的词向量依次作为所述目标循环神经网络的输入;
依次获取所述每个词的词向量经过所述目标循环神经网络之后对应的输出,其中,所述目标信息中的第n个词的词向量对应的输出和第n+1个词的词向量同为所述第n+1个词的词向量针对所述目标循环神经网络的输入;
根据所述每个词的词向量对应的输出,获取所述第一信息分类结果,其中,n为正整数。
上述处理器还可被配置为:
所述第n个词的词向量对应的输出包括:所述第n个词的词向量对应的状态输出值和所述第n个词的词向量对应的第一分类结果参考值,且所述第n个词的词向量对应的状态输出值和所述第一分类结果参考值用于计算所述第一信息分类结果;
所述根据所述每个词的词向量对应的输出,获取所述第一信息分类结果,包括:
根据所述目标信息中的最后一个词的词向量对应的输出,获取所述第一信息分类结果。
上述处理器还可被配置为:
在根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果之前,所述方法还包括:
获取至少两个预设信息;
为所述至少两个预设信息分别设置状态标记值,其中,所述状态标记值用于表征各预设信息为垃圾信息或者正常信息;
将所述各预设信息进行分词,并根据所述预设词向量模型获取所述各预设信息中的各个词的词向量;
根据所述各预设信息中的各个词的词向量,生成所述各预设信息所对应的词向量序列;
根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络。
上述处理器还可被配置为:
在根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络之前,所述方法还包括:
判断所述各预设信息所对应的词向量序列中的词向量的数目是否相同;
当所述各预设信息所对应的词向量序列中的词向量的数目不相同时,将所述各预设信息所对应的词向量序列中的词向量的数目进行统一化,使得所述各预设信息所对应的词向量序列中的词向量的数目均等于预设数目。
上述处理器还可被配置为:
所述根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
调用所述预设循环神经网络,并将所述各预设信息所对应的词向量序列中的各个词的词向量依次作为所述预设循环神经网络的输入;
依次获取所述各预设信息所对应的词向量序列中的各词向量经过所述预设循环神经网络之后对应的输出,其中,所述各预设信息所对应的词向量序列中的第i个词向量对应的输出和第i+1个词向量同为所述第i+1个词向量针对所述预设循环神经网络的输入;
根据所述各预设信息所对应的词向量序列中的各词向量对应的输出和所 述各预设信息的状态标记值对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
上述处理器还可被配置为:
所述根据所述各预设信息所对应的词向量序列中的各词向量对应的输出和所述各预设信息的状态标记值对所述预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
上述处理器还可被配置为:
所述根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
确定所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出为第二分类结果参考值,其中,所述第二分类结果参考值为所述各预设信息所对应的词向量序列经过所述预设循环神经网络之后得到的值,且所述第二分类结果参考值用于计算所述各预设信息所对应的词向量序列的第二信息分类结果;
根据所述各预设信息所对应的词向量序列的第二分类结果参考值,计算所述各预设信息所对应的词向量序列的第二信息分类结果;
计算所述各预设信息所对应的词向量序列的第二信息分类结果与所述各预设信息对应的状态标记值两者之间的分类偏差值;
根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,其中,所述预设参数至少用于计算所述各预设信息中的各个词的词向量对应的输出。
上述处理器还可被配置为:
所述根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,包括:
根据所述各预设信息对应的分类偏差值,计算所述至少两个预设信息之间的分类偏差平均值;
根据所述至少两个预设信息之间的分类偏差平均值和反向传导算法对所述预设参数进行训练,以获取所述目标循环神经网络。
图20是根据一示例性实施例示出的一种用于垃圾信息的判断装置2000的框图,该装置适用于终端设备。例如,装置2000可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个用户数字助理等。
参照图20,装置2000可以包括以下一个或至少两个组件:处理组件2002,存储器2004,电源组件2006,多媒体组件2008,音频组件2010,输入/输出(I/O)接口2012,传感器组件2014,以及通信组件2016。
处理组件2002通常控制装置2000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件2002可以包括一个或至少两个处理器2020来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件2002可以包括一个或至少两个模块,便于处理组件2002和其他组件之间的交互。例如,处理组件2002可以包括多媒体模块,以方便多媒体组件2008和处理组件2002之间的交互。
存储器2004被配置为存储各种类型的数据以支持在装置2000的操作。这些数据的示例包括用于在装置2000上操作的任何存储对象或方法的指令,联系用户数据,电话簿数据,消息,图片,视频等。存储器2004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件2006为装置2000的各种组件提供电源。电源组件2006可以包括电源管理系统,一个或至少两个电源,及其他与为装置2000生成、管理和分配电源相关联的组件。
多媒体组件2008包括在所述装置2000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或至少两个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件2008包括一个前置摄像头和/或后置摄像头。当装置2000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件2010被配置为输出和/或输入音频信号。例如,音频组件2010包括一个麦克风(MIC),当装置2000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器2004或经由通信组件2016发送。在一些实施例中,音频组件2010还包括一个扬声器,用于输出音频信号。
I/O接口2012为处理组件2002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件2014包括一个或至少两个传感器,用于为装置2000提供各个方面的状态评估。例如,传感器组件2014可以检测到装置2000的打开/关闭状态,组件的相对定位,例如所述组件为装置2000的显示器和小键盘,传感器组件2014还可以检测装置2000或装置2000一个组件的位置改变,用户与装置2000接触的存在或不存在,装置2000方位或加速/减速和装置2000 的温度变化。传感器组件2014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件2014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件2014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件2016被配置为便于装置2000和其他设备之间有线或无线方式的通信。装置2000可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件2016经由广播信道接收来自外部广播管理系统的广播信号或广播相关目标信息。在一个示例性实施例中,所述通信组件2016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置2000可以被一个或至少两个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器2004,上述指令可由装置2000的处理器2020执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由上述装置2000的处理器执行时,使得上述装置2000能够执行一种垃圾信息的判断方法,包括:
在接收到目标信息时,对所述目标信息进行分词;
根据预设词向量模型,获取分词后的每个词的词向量;
根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所 述目标信息的第一信息分类结果,其中,所述第一信息分类结果用于表征所述目标信息为垃圾信息的概率;
根据所述第一信息分类结果判断所述目标信息是否为所述垃圾信息。
在一个实施例中,所述根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,包括:
调用所述目标循环神经网络,并将所述每个词的词向量依次作为所述目标循环神经网络的输入;
依次获取所述每个词的词向量经过所述目标循环神经网络之后对应的输出,其中,所述目标信息中的第n个词的词向量对应的输出和第n+1个词的词向量同为所述第n+1个词的词向量针对所述目标循环神经网络的输入;
根据所述每个词的词向量对应的输出,获取所述第一信息分类结果,其中,n为正整数。
在一个实施例中,所述第n个词的词向量对应的输出包括:所述第n个词的词向量对应的状态输出值和所述第n个词的词向量对应的第一分类结果参考值,且所述第n个词的词向量对应的状态输出值和所述第一分类结果参考值用于计算所述第一信息分类结果;
所述根据所述每个词的词向量对应的输出,获取所述第一信息分类结果,包括:
根据所述目标信息中的最后一个词的词向量对应的输出,获取所述第一信息分类结果。
在一个实施例中,在根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果之前,所述方法还包括:
获取至少两个预设信息;
为所述至少两个预设信息分别设置状态标记值,其中,所述状态标记值用于表征各预设信息为垃圾信息或者正常信息;
将所述各预设信息进行分词,并根据所述预设词向量模型获取所述各预 设信息中的各个词的词向量;
根据所述各预设信息中的各个词的词向量,生成所述各预设信息所对应的词向量序列;
根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络。
在一个实施例中,在根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络之前,所述方法还包括:
判断所述各预设信息所对应的词向量序列中的词向量的数目是否相同;
当所述各预设信息所对应的词向量序列中的词向量的数目不相同时,将所述各预设信息所对应的词向量序列中的词向量的数目进行统一化,使得所述各预设信息所对应的词向量序列中的词向量的数目均等于预设数目。
在一个实施例中,所述根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
调用所述预设循环神经网络,并将所述各预设信息所对应的词向量序列中的各个词的词向量依次作为所述预设循环神经网络的输入;
依次获取所述各预设信息所对应的词向量序列中的各词向量经过所述预设循环神经网络之后对应的输出,其中,所述各预设信息所对应的词向量序列中的第i个词向量对应的输出和第i+1个词向量同为所述第i+1个词向量针对所述预设循环神经网络的输入;
根据所述各预设信息所对应的词向量序列中的各词向量对应的输出和所述各预设信息的状态标记值对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
在一个实施例中,所述根据所述各预设信息所对应的词向量序列中的各词向量对应的输出和所述各预设信息的状态标记值对所述预设循环神经网络 进行训练,以获取所述目标循环神经网络,包括:
根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
在一个实施例中,所述根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
确定所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出为第二分类结果参考值,其中,所述第二分类结果参考值为所述各预设信息所对应的词向量序列经过所述预设循环神经网络之后得到的值,且所述第二分类结果参考值用于计算所述各预设信息所对应的词向量序列的第二信息分类结果;
根据所述各预设信息所对应的词向量序列的第二分类结果参考值,计算所述各预设信息所对应的词向量序列的第二信息分类结果;
计算所述各预设信息所对应的词向量序列的第二信息分类结果与所述各预设信息对应的状态标记值两者之间的分类偏差值;
根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,其中,所述预设参数至少用于计算所述各预设信息中的各个词的词向量对应的输出。
在一个实施例中,所述根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,包括:
根据所述各预设信息对应的分类偏差值,计算所述至少两个预设信息之间的分类偏差平均值;
根据所述至少两个预设信息之间的分类偏差平均值和反向传导算法对所述预设参数进行训练,以获取所述目标循环神经网络。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (19)

1.一种垃圾信息的判断方法,其特征在于,包括:
在接收到目标信息时,对所述目标信息进行分词;
根据预设词向量模型,获取分词后的每个词的词向量;
根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,其中,所述第一信息分类结果用于表征所述目标信息为垃圾信息的概率;
根据所述第一信息分类结果判断所述目标信息是否为所述垃圾信息。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,包括:
调用所述目标循环神经网络,并将所述每个词的词向量依次作为所述目标循环神经网络的输入;
依次获取所述每个词的词向量经过所述目标循环神经网络之后对应的输出,其中,所述目标信息中的第n个词的词向量对应的输出和第n+1个词的词向量同为所述第n+1个词的词向量针对所述目标循环神经网络的输入;
根据所述每个词的词向量对应的输出,获取所述第一信息分类结果,其中,n为正整数。
3.根据权利要求2所述的方法,其特征在于,
所述第n个词的词向量对应的输出包括:所述第n个词的词向量对应的状态输出值和所述第n个词的词向量对应的第一分类结果参考值,且所述第n个词的词向量对应的状态输出值和所述第一分类结果参考值用于计算所述第一信息分类结果;
所述根据所述每个词的词向量对应的输出,获取所述第一信息分类结果,包括:
根据所述目标信息中的最后一个词的词向量对应的输出,获取所述第一信息分类结果。
4.根据权利要求1至3中任一项所述的方法,其特征在于,
在根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果之前,所述方法还包括:
获取至少两个预设信息;
为所述至少两个预设信息分别设置状态标记值,其中,所述状态标记值用于表征各预设信息为垃圾信息或者正常信息;
将所述各预设信息进行分词,并根据所述预设词向量模型获取所述各预设信息中的各个词的词向量;
根据所述各预设信息中的各个词的词向量,生成所述各预设信息所对应的词向量序列;
根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络。
5.根据权利要求4所述的方法,其特征在于,
在根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络之前,所述方法还包括:
判断所述各预设信息所对应的词向量序列中的词向量的数目是否相同;
当所述各预设信息所对应的词向量序列中的词向量的数目不相同时,将所述各预设信息所对应的词向量序列中的词向量的数目进行统一化,使得所述各预设信息所对应的词向量序列中的词向量的数目均等于预设数目。
6.根据权利要求4所述的方法,其特征在于,
所述根据所述各预设信息所对应的词向量序列和所述各预设信息的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
调用所述预设循环神经网络,并将所述各预设信息所对应的词向量序列中的各个词的词向量依次作为所述预设循环神经网络的输入;
依次获取所述各预设信息所对应的词向量序列中的各词向量经过所述预设循环神经网络之后对应的输出,其中,所述各预设信息所对应的词向量序列中的第i个词向量对应的输出和第i+1个词向量同为所述第i+1个词向量针对所述预设循环神经网络的输入;
根据所述各预设信息所对应的词向量序列中的各词向量对应的输出和所述各预设信息的状态标记值对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
7.根据权利要求6所述的方法,其特征在于,
所述根据所述各预设信息所对应的词向量序列中的各词向量对应的输出和所述各预设信息的状态标记值对所述预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
8.根据权利要求7所述的方法,其特征在于,
所述根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网络进行训练,以获取所述目标循环神经网络,包括:
确定所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出为第二分类结果参考值,其中,所述第二分类结果参考值为所述各预设信息所对应的词向量序列经过所述预设循环神经网络之后得到的值,且所述第二分类结果参考值用于计算所述各预设信息所对应的词向量序列的第二信息分类结果;
根据所述各预设信息所对应的词向量序列的第二分类结果参考值,计算所述各预设信息所对应的词向量序列的第二信息分类结果;
计算所述各预设信息所对应的词向量序列的第二信息分类结果与所述各预设信息对应的状态标记值两者之间的分类偏差值;
根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,其中,所述预设参数至少用于计算所述各预设信息中的各个词的词向量对应的输出。
9.根据权利要求8所述的方法,其特征在于,
所述根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,包括:
根据所述各预设信息对应的分类偏差值,计算所述至少两个预设信息之间的分类偏差平均值;
根据所述至少两个预设信息之间的分类偏差平均值和反向传导算法对所述预设参数进行训练,以获取所述目标循环神经网络。
10.一种垃圾信息的判断装置,其特征在于,包括:
分词模块,用于在接收到目标信息时,对所述目标信息进行分词;
第一获取模块,用于根据预设词向量模型,获取所述分词模块分词后的每个词的词向量;
第二获取模块,用于根据所述第一获取模块获取到的所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,其中,所述第一信息分类结果用于表征所述目标信息为垃圾信息的概率;
第一判断模块,用于根据所述第二获取模块获取到的所述第一信息分类结果判断所述目标信息是否为所述垃圾信息。
11.根据权利要求10所述的装置,其特征在于,
所述第二获取模块包括:
处理子模块,用于调用所述目标循环神经网络,并将所述每个词的词向量依次作为所述目标循环神经网络的输入;
第一获取子模块,用于依次获取所述每个词的词向量经过所述处理子模块所调用的所述目标循环神经网络之后对应的输出,其中,所述目标信息中的第n个词的词向量对应的输出和第n+1个词的词向量同为所述第n+1个词的词向量针对所述目标循环神经网络的输入;
第二获取子模块,用于根据所述第一获取子模块获取到的所述每个词的词向量对应的输出,获取所述第一信息分类结果,其中,n为正整数。
12.根据权利要求11所述的装置,其特征在于,
所述第n个词的词向量对应的输出包括:所述第n个词的词向量对应的状态输出值和所述第n个词的词向量对应的第一分类结果参考值,且所述第一分类结果参考值用于计算所述第一信息分类结果;
所述第二获取子模块包括:
获取单元,用于根据所述目标信息中的最后一个词的词向量对应的输出,获取所述第一信息分类结果。
13.根据权利要求10至12中任一项所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于在根据所述第二获取模块获取所述目标信息的第一信息分类结果之前,获取至少两个预设信息;
设置模块,用于为所述第三获取模块获取到的至少两个预设信息分别设置状态标记值,其中,所述状态标记值用于表征各预设信息为垃圾信息或者正常信息;
第一处理模块,用于将所述各预设信息进行分词,并根据所述预设词向量模型获取所述各预设信息中的各个词的词向量;
生成模块,用于根据所述第一处理模块获取到的所述各预设信息中的各个词的词向量,生成所述各预设信息所对应的词向量序列;
训练模块,用于根据所述生成模块生成的所述各预设信息所对应的词向量序列和所述设置模块为所述各预设信息设置的状态标记值对预设循环神经网络进行训练,以获取所述目标循环神经网络。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于在根据所述各预设信息所对应的词向量序列对预设循环神经网络进行训练之前,判断所述各预设信息所对应的词向量序列中的词向量的数目是否相同;
第二处理模块,用于当所述第二判断模块的判断结果为所述各预设信息所对应的词向量序列中的词向量的数目不相同时,将所述各预设信息所对应的词向量序列中的词向量的数目进行统一化,使得所述各预设信息所对应的词向量序列中的词向量的数目均等于预设数目。
15.根据权利要求13所述的装置,其特征在于,
所述训练模块包括:
调用子模块,用于调用所述预设循环神经网络,并将所述各预设信息所对应的词向量序列中的各个词的词向量依次作为所述预设循环神经网络的输入;
第三获取子模块,用于依次获取所述各预设信息所对应的词向量序列中的各词向量经过所述调用子模块调用的所述预设循环神经网络之后对应的输出,其中,所述各预设信息所对应的词向量序列中的第i个词向量对应的输出和第i+1个词向量同为所述第i+1个词向量针对所述预设循环神经网络的输入;
训练子模块,用于根据所述第三获取子模块获取到的所述各预设信息所对应的词向量序列中的各词向量对应的输出和所述各预设信息的状态标记值对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
16.根据权利要求15所述的装置,其特征在于,
所述训练子模块包括:
训练单元,用于根据所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出和所述各预设信息的状态标记值,对所述预设循环神经网络进行训练,以获取所述目标循环神经网络。
17.根据权利要求16所述的装置,其特征在于,
所述训练单元包括:
确定子单元,用于确定所述各预设信息所对应的词向量序列中的最后一个词向量对应的输出为第二分类结果参考值,其中,所述第二分类结果参考值为所述各预设信息所对应的词向量序列经过所述预设循环神经网络之后得到的值,且所述第二分类结果参考值用于计算所述各预设信息所对应的词向量序列的第二信息分类结果;
第一计算子单元,用于根据所述各预设信息所对应的词向量序列的第二分类结果参考值,计算所述各预设信息所对应的词向量序列的第二信息分类结果;
第二计算子单元,用于计算所述各预设信息所对应的词向量序列的第二信息分类结果与所述各预设信息对应的状态标记值两者之间的分类偏差值;
训练子单元,用于根据所述各预设信息对应的分类偏差值,对所述预设循环神经网络中的预设参数进行训练,以获取所述目标循环神经网络,其中,所述预设参数至少用于计算所述各预设信息中的各个词的词向量对应的输出。
18.根据权利要求17所述的装置,其特征在于,
所述训练子单元具体用于:
根据所述各预设信息对应的分类偏差值,计算所述至少两个预设信息之间的分类偏差平均值;
根据所述至少两个预设信息之间的分类偏差平均值和反向传导算法对所述预设参数进行训练,以获取所述目标循环神经网络。
19.一种垃圾信息的判断装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在接收到目标信息时,对所述目标信息进行分词;
根据预设词向量模型,获取分词后的每个词的词向量;
根据所述每个词的词向量和预先训练得到的目标循环神经网络,获取所述目标信息的第一信息分类结果,其中,所述第一信息分类结果用于表征所述目标信息为垃圾信息的概率;
根据所述第一信息分类结果判断所述目标信息是否为所述垃圾信息。
CN201610516024.1A 2016-07-01 2016-07-01 垃圾信息的判断方法及装置 Active CN106202330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610516024.1A CN106202330B (zh) 2016-07-01 2016-07-01 垃圾信息的判断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610516024.1A CN106202330B (zh) 2016-07-01 2016-07-01 垃圾信息的判断方法及装置

Publications (2)

Publication Number Publication Date
CN106202330A true CN106202330A (zh) 2016-12-07
CN106202330B CN106202330B (zh) 2020-02-07

Family

ID=57465529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610516024.1A Active CN106202330B (zh) 2016-07-01 2016-07-01 垃圾信息的判断方法及装置

Country Status (1)

Country Link
CN (1) CN106202330B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777250A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种分词结果选择方法和装置
CN106934008A (zh) * 2017-02-15 2017-07-07 北京时间股份有限公司 一种垃圾信息的识别方法及装置
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107135494A (zh) * 2017-04-24 2017-09-05 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN107180077A (zh) * 2017-04-18 2017-09-19 北京交通大学 一种基于深度学习的社交网络谣言检测方法
CN107239447A (zh) * 2017-06-05 2017-10-10 厦门美柚信息科技有限公司 垃圾信息识别方法及装置、系统
CN107729403A (zh) * 2017-09-25 2018-02-23 中国工商银行股份有限公司 互联网信息风险提示方法及系统
CN107835496A (zh) * 2017-11-24 2018-03-23 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和服务器
CN107872772A (zh) * 2017-12-19 2018-04-03 北京奇虎科技有限公司 诈骗短信的检测方法及装置
CN108062303A (zh) * 2017-12-06 2018-05-22 北京奇虎科技有限公司 垃圾短信的识别方法及装置
CN108304387A (zh) * 2018-03-09 2018-07-20 联想(北京)有限公司 文本中噪音词的识别方法、装置、服务器组及存储介质
CN108446388A (zh) * 2018-03-22 2018-08-24 平安科技(深圳)有限公司 文本数据质检方法、装置、设备及计算机可读存储介质
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN108566627A (zh) * 2017-11-27 2018-09-21 浙江鹏信信息科技股份有限公司 一种利用深度学习识别诈骗短信的方法及系统
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
CN108960772A (zh) * 2018-06-27 2018-12-07 北京窝头网络科技有限公司 基于深度学习的企业评审辅助方法及系统
CN109189918A (zh) * 2018-07-12 2019-01-11 北京奇艺世纪科技有限公司 一种内容识别、内容分发方法、装置及电子设备
CN109213843A (zh) * 2018-07-23 2019-01-15 北京密境和风科技有限公司 一种垃圾文本信息的检测方法及装置
CN109659033A (zh) * 2018-12-18 2019-04-19 浙江大学 一种基于循环神经网络的慢性疾病病情变化事件预测装置
CN109726239A (zh) * 2018-12-25 2019-05-07 厦门市美亚柏科信息股份有限公司 一种对取证数据进行分析的方法、装置及可读存储介质
CN109947932A (zh) * 2017-10-27 2019-06-28 中移(苏州)软件技术有限公司 一种推送信息分类方法及系统
CN110414544A (zh) * 2018-04-28 2019-11-05 杭州海康威视数字技术股份有限公司 一种目标状态分类方法、装置及系统
CN110633466A (zh) * 2019-08-26 2019-12-31 深圳安巽科技有限公司 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN110913353A (zh) * 2018-09-17 2020-03-24 阿里巴巴集团控股有限公司 短信的分类方法及装置
CN110929506A (zh) * 2019-12-04 2020-03-27 杭州安恒信息技术股份有限公司 一种垃圾信息检测方法、装置、设备及可读存储介质
CN111241269A (zh) * 2018-11-09 2020-06-05 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106742A1 (en) * 2001-06-14 2007-05-10 Bellegarda Jerome R Method and apparatus for filtering email
US20100058178A1 (en) * 2006-09-30 2010-03-04 Alibaba Group Holding Limited Network-Based Method and Apparatus for Filtering Junk Messages
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
CN104866550A (zh) * 2015-05-12 2015-08-26 湖北光谷天下传媒股份有限公司 一种模拟神经网络的文本过滤方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106742A1 (en) * 2001-06-14 2007-05-10 Bellegarda Jerome R Method and apparatus for filtering email
US20100058178A1 (en) * 2006-09-30 2010-03-04 Alibaba Group Holding Limited Network-Based Method and Apparatus for Filtering Junk Messages
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
CN104866550A (zh) * 2015-05-12 2015-08-26 湖北光谷天下传媒股份有限公司 一种模拟神经网络的文本过滤方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZAIDAH IBRAHIM ET AL: "document zone content classification for technical document images using Artificial Neural Networks and Support Vector Machines", 《2009 SECOND INTERNATIONAL CONFERENCE ON THE APPLICATIONS OF DIGITAL INFORMATION AND WEB TECHNOLOGIES》 *
王龙等: "基于循环神经网络的汉语语言模型并行优化算法", 《应用科学学报》 *
董月琴: "基于Android的垃圾短信处理系统的研究与设计", 《万方学位论文库》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777250A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种分词结果选择方法和装置
CN106777250B (zh) * 2016-12-27 2020-06-02 广州市交互式信息网络有限公司 一种分词结果选择方法和装置
CN106934008A (zh) * 2017-02-15 2017-07-07 北京时间股份有限公司 一种垃圾信息的识别方法及装置
CN106934008B (zh) * 2017-02-15 2020-07-21 北京时间股份有限公司 一种垃圾信息的识别方法及装置
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
CN107180077A (zh) * 2017-04-18 2017-09-19 北京交通大学 一种基于深度学习的社交网络谣言检测方法
CN107135494A (zh) * 2017-04-24 2017-09-05 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN107135494B (zh) * 2017-04-24 2020-06-19 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107239447A (zh) * 2017-06-05 2017-10-10 厦门美柚信息科技有限公司 垃圾信息识别方法及装置、系统
CN107729403A (zh) * 2017-09-25 2018-02-23 中国工商银行股份有限公司 互联网信息风险提示方法及系统
CN109947932A (zh) * 2017-10-27 2019-06-28 中移(苏州)软件技术有限公司 一种推送信息分类方法及系统
CN107835496A (zh) * 2017-11-24 2018-03-23 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和服务器
CN107835496B (zh) * 2017-11-24 2021-09-07 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和服务器
CN108566627A (zh) * 2017-11-27 2018-09-21 浙江鹏信信息科技股份有限公司 一种利用深度学习识别诈骗短信的方法及系统
CN108062303A (zh) * 2017-12-06 2018-05-22 北京奇虎科技有限公司 垃圾短信的识别方法及装置
CN107872772A (zh) * 2017-12-19 2018-04-03 北京奇虎科技有限公司 诈骗短信的检测方法及装置
CN107872772B (zh) * 2017-12-19 2021-02-26 北京奇虎科技有限公司 诈骗短信的检测方法及装置
CN108304387A (zh) * 2018-03-09 2018-07-20 联想(北京)有限公司 文本中噪音词的识别方法、装置、服务器组及存储介质
CN108446388A (zh) * 2018-03-22 2018-08-24 平安科技(深圳)有限公司 文本数据质检方法、装置、设备及计算机可读存储介质
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN108509596B (zh) * 2018-04-02 2021-06-04 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN110414544A (zh) * 2018-04-28 2019-11-05 杭州海康威视数字技术股份有限公司 一种目标状态分类方法、装置及系统
CN110414544B (zh) * 2018-04-28 2023-01-03 杭州海康威视数字技术股份有限公司 一种目标状态分类方法、装置及系统
CN108960772A (zh) * 2018-06-27 2018-12-07 北京窝头网络科技有限公司 基于深度学习的企业评审辅助方法及系统
CN109189918A (zh) * 2018-07-12 2019-01-11 北京奇艺世纪科技有限公司 一种内容识别、内容分发方法、装置及电子设备
CN109213843A (zh) * 2018-07-23 2019-01-15 北京密境和风科技有限公司 一种垃圾文本信息的检测方法及装置
CN110913353B (zh) * 2018-09-17 2022-01-18 阿里巴巴集团控股有限公司 短信的分类方法及装置
CN110913353A (zh) * 2018-09-17 2020-03-24 阿里巴巴集团控股有限公司 短信的分类方法及装置
CN111241269A (zh) * 2018-11-09 2020-06-05 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质
CN111241269B (zh) * 2018-11-09 2024-02-23 中移(杭州)信息技术有限公司 一种短信文本分类方法、装置、电子设备及存储介质
CN109659033A (zh) * 2018-12-18 2019-04-19 浙江大学 一种基于循环神经网络的慢性疾病病情变化事件预测装置
CN109726239A (zh) * 2018-12-25 2019-05-07 厦门市美亚柏科信息股份有限公司 一种对取证数据进行分析的方法、装置及可读存储介质
CN110633466B (zh) * 2019-08-26 2021-01-19 深圳安巽科技有限公司 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN110633466A (zh) * 2019-08-26 2019-12-31 深圳安巽科技有限公司 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN110929506A (zh) * 2019-12-04 2020-03-27 杭州安恒信息技术股份有限公司 一种垃圾信息检测方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN106202330B (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN106202330A (zh) 垃圾信息的判断方法及装置
TW202113756A (zh) 圖像處理方法及裝置、電子設備、儲存媒體和電腦程式
CN107239535A (zh) 相似图片检索方法及装置
CN105631403A (zh) 人脸识别方法及装置
CN106372204A (zh) 推送消息处理方法及装置
CN106528709A (zh) 社交信息推荐方法及装置
CN105631406A (zh) 图像识别处理方法和装置
CN105975961B (zh) 人脸识别的方法、装置及终端
CN105404863A (zh) 人物特征识别方法及系统
CN104408402A (zh) 人脸识别方法及装置
CN105975156A (zh) 应用界面显示方法及装置
CN106250430A (zh) 智能设备列表的排序方法及装置
CN104820549B (zh) 社交应用消息的发送方法、装置及终端
CN107230137A (zh) 商品信息获取方法及装置
CN107463903A (zh) 人脸关键点定位方法及装置
CN107220614A (zh) 图像识别方法、装置及计算机可读存储介质
CN111461304A (zh) 分类神经网络的训练方法、文本分类方法、装置及设备
CN105824955A (zh) 短信聚类方法及装置
CN105098882B (zh) 输入电流分配方法及装置
CN106572268A (zh) 信息显示方法及装置
CN108764283A (zh) 一种分类模型的损失值获取方法及装置
CN105551047A (zh) 图片内容的检测方法和装置
CN104850592B (zh) 生成模型文件的方法和装置
CN104268149A (zh) 聚类方法及装置
CN109214175A (zh) 基于样本特征训练分类器的方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant