CN107515852A - 特定类型信息识别方法及装置 - Google Patents
特定类型信息识别方法及装置 Download PDFInfo
- Publication number
- CN107515852A CN107515852A CN201610429970.2A CN201610429970A CN107515852A CN 107515852 A CN107515852 A CN 107515852A CN 201610429970 A CN201610429970 A CN 201610429970A CN 107515852 A CN107515852 A CN 107515852A
- Authority
- CN
- China
- Prior art keywords
- information
- analyzed
- word frequency
- participle
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供了一种特定类型信息识别方法及装置,其中的特定类型信息识别方法包括:对待分析信息进行分词处理以获得待分析信息包含的各分词;根据预设的词频词典查找各分词各自对应的词频;基于各分词各自对应的词频判断所述待分析信息是否为特定类型信息。本申请提供的技术方案提高了特定类型信息(如垃圾信息)的识别准确性。
Description
技术领域
本申请涉及通讯技术,尤其涉及一种特定类型信息识别方法以及特定类型信息识别装置。
背景技术
随着互联网尤其是移动互联网的快速发展,智能电子设备(如移动电话尤其是智能移动电话)已经成为很多人日常工作以及娱乐生活中不可或缺的电子设备。
用户的智能电子设备(如移动电话)经常会接收到特定类型信息,如接收到以产品推销或者诈骗等为目的的垃圾短信息(也可以称为垃圾短信或者垃圾短消息)以及垃圾多媒体信息(也可以称为彩信)等特定类型信息。为了避免特定类型信息(如垃圾信息)对用户的打扰,通常会在智能电子设备(如移动电话)接收到新信息时,对新信息进行特定类型信息过滤处理,以识别出智能电子设备接收到的新信息是否为特定类型信息,从而可以针对识别出的特定类型信息采取相应的处理操作,如删除特定类型信息(如垃圾信息)或者不产生接收到新信息的提示信息等。
现有的特定类型信息过滤处理的实现方式通常为:基于用户设置的发送方黑名单(如电话号码黑名单)和/或者用户设置的敏感词对智能电子设备接收到的新信息进行过滤。
发明人在实现本申请过程中发现,特定类型信息(如垃圾信息)的内容形式日渐繁多,现有的特定类型信息过滤方式需要不断的完善,以不断的提高识别特定类型信息的准确性。
发明内容
本申请的目的是提供一种特定类型信息识别方法及装置。
根据本申请的一个方面,提供了一种特定类型信息识别方法,该方法包括:对待分析信息进行分词处理;根据预设的词频词典查找各分词各自对应的词频;基于各分词各自对应的词频判断待分析信息是否为特定类型信息。
根据本申请的另一个方面,还提供了一种特定类型信息识别装置,且该装置包括:分词处理模块,用于对待分析信息进行分词处理;确定词频模块,用于根据预设的词频词典查找各分词各自对应的词频;识别模块,用于基于各分词各自对应的词频判断所述待分析信息是否为特定类型信息。
较佳的,前述特定类型信息识别装置,其中,所述装置还包括下述至少一个:第一过滤模块,用于根据敏感词集合对待分析信息进行特定类型信息过滤处理;第二过滤模块,用于根据发送方黑名单对待分析信息进行特定类型信息过滤处理;第三过滤模块,用于根据表征发送方被举报次数的发送分值集合对待分析信息进行特定类型信息过滤处理;且所述分词处理模块具体用于,对特定类型信息过滤处理结果为非特定类型信息的待分析信息进行分词处理。
较佳的,前述特定类型信息识别装置,其中,所述识别模块包括:计算概率值模块,用于将各分词各自对应的词频输入预设分类模型,以获得待分析信息的概率值;判断模块,用于根据所述待分析信息的概率值的大小判断所述待分析信息是否为特定类型信息。
较佳的,前述特定类型信息识别装置,其中,所述预设分类模型包括:贝叶斯分类模型。
较佳的,前述特定类型信息识别装置,其中,所述贝叶斯分类模型包括:基于分词对应的词频以及至少一个参数及其对应的权重值而设置的朴素贝叶斯分类模型;且所述参数包括下述至少一个:基于待分析信息所包含的敏感词数量而设置的第一参数、基于待分析信息的发送方是否属于移动电话的通讯录而设置的第二参数以及基于表征待分析信息的发送方被举报次数的发送分值而设置的第三参数。
较佳的,前述特定类型信息识别装置,其中,所述装置还包括下述至少一个:设置第一参数值模块,用于根据敏感词集合确定待分析信息所包含的敏感词数量,并根据所述敏感词数量为该待分析信息设置第一参数值;设置第二参数值模块,用于根据待分析信息的发送方是否属于移动电话的通讯录为该待分析信息设置第二参数值;设置第三参数值模块,用于根据表征发送方被举报次数的发送分值集合确定待分析信息的发送方对应的发送分值,并根据该对应的发送分值为该待分析信息设置第三参数值。
较佳的,前述特定类型信息识别装置,其中,所述确定词频模块具体用于:根据预设的词频词典查找各分词各自对应的黑词频;和/或,根据预设的词频词典查找各分词各自对应的白词频;
且所述计算概率值模块具体用于:将各分词自对应的黑词频、第一参数值、第二参数值以及第三参数值输入贝叶斯分类模型以获得待分析信息为特定类型信息的第一概率值;和/或,将各分词各自对应的白词频、第一参数值、第二参数值以及第三参数值输入贝叶斯分类模型以获得待分析信息为非特定类型信息的第二概率值。
较佳的,前述特定类型信息识别装置,其中,所述判断模块包括:第一判断子模块,用于在确定出第一概率值超过第一概率阈值的情况下,将所述待分析信息确定为特定类型信息,否则,将所述待分析信息确定为非特定类型信息;或者,第二判断子模块,用于在确定出第二概率值超过第二概率阈值的情况下,将所述待分析信息确定为非特定类型信息,否则,将所述待分析信息确定为特定类型信息;或者,第三判断子模块,用于在确定出第一概率值超过第二概率值的情况下,将所述待分析信息确定为特定类型信息,否则,将所述待分析信息确定为非特定类型信息。
较佳的,前述特定类型信息识别装置,其中,所述装置还包括:获取特征值模块,用于针对信息样本集合中的信息样本的各发送行为特征项在信息样本集合中进行统计,以获得信息样本的各发送行为特征项的特征值;计算分值模块,用于根据各发送行为特征项的特征值及其权值计算所述信息样本的分值;判别黑白样本模块,用于在所述信息样本的分值达到/超过预定分值的情况下,将所述信息样本确定为用于训练贝叶斯分类模型的信息黑样本,否则,将所述信息样本确定为用于训练贝叶斯分类模型的信息白样本。
较佳的,前述特定类型信息识别装置,其中,所述装置还包括:提取指纹模块,用于提取所述待分析信息所包含的图片的指纹;计算相似度模块,用于计算所述指纹与预设的指纹库中的指纹的相似度;确定模块,用于在计算出的相似度满足预设的相似度要求的情况下,确定所述待分析信息为特定类型信息,否则,确定所述待分析信息为非特定类型信息。
根据本申请的再一个方面,还提供了一种特定类型信息识别方法,且该方法包括:将音频/视频信息转换为文本格式的待分析信息;对所述待分析信息进行分词处理以获得各分词;根据预设的词频词典查找各分词各自对应的词频;基于各分词各自对应的词频判断音频/视频信息是否为特定类型信息。
与现有技术相比,本申请具有以下优点:本申请利用词频词典可以确定出待分析信息的分词所对应的词频(如白词频和/或黑词频),由于特定类型信息所使用的词具有一定的共性,且在特定类型信息的内容形式等发生变化时,通过调整词频词典中的内容,可以使词频词典随之发生相应的变化,因此,本申请通过对各分词对应的词频进行判断,可以较为准确的识别出待分析信息是否为特定类型信息;从而本申请提供的技术方案提高了特定类型信息的识别准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1A为本实施例的具体应用系统的示意图;
图1为本申请实施例一的特定类型信息识别方法流程图;
图2为本申请实施例一的基于敏感词集合实现特定类型信息过滤处理的流程图;
图3为本申请实施例一的基于发送方号码黑名单实现特定类型信息过滤处理的流程图;
图4为本申请实施例一的基于发送方号码的发送分值集合实现特定类型信息过滤处理的一个流程图;
图5为本申请实施例一的基于发送方号码的发送分值集合实现特定类型信息过滤处理的另一个流程图;
图6为本申请实施例一的网络侧的黑词频词典的设置及更新过程的流程图;
图7为本申请实施例一的网络侧的白词频词典的设置及更新过程的流程图;
图8为本申请实施例一的获取用于训练贝叶斯分类模型的信息黑样本和信息白样本的流程图;
图9为本申请实施例一的对评论进行特征量化处理过程的第四个具体例子的流程图;
图10A为本申请实施例一的特定类型信息识别方法的一个具体例子的流程图;
图10为本申请实施例三的特定类型信息识别装置的第一结构示意图;
图11为本申请实施例三的特定类型信息识别装置的第二结构示意图;
图12为本申请实施例三的特定类型信息识别装置的第三结构示意图;
图13为本申请实施例三的特定类型信息识别装置的第四结构示意图;
图14为本申请实施例三的特定类型信息识别装置的第五结构示意图;
图15为本申请实施例三的判断模块的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施例作详细描述。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然本申请的流程图将各项操作描述成顺序的处理,但是,其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本实施例中的服务器包括但不限于单个网络服务器、多个网络服务器组成的服务器组或者基于云计算(Cloud Computing)的由大量计算机或者网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述服务器可以接入网络并与网络中的其他设备进行信息交互操作。其中,所述服务器所能够接入的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述服务器以及网络等仅为举例,其他现有的或今后可能出现的服务器或者网络如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。
后面描述所讨论的方法(其中一些通过流程图示出)实施例可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合的形式来实施。当用软件、固件、中间件或者微代码来实施时,用以实施必要任务的程序代码或者代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本申请的示例性实施例的目的,但是,本申请可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或者“耦合”到另一个单元时,其可以直接连接或者耦合到所述另一个单元,也可以存在中间单元。与此相对的,当一个单元被称为“直接连接”或者“直接耦合”到另一个单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如,“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例,而不是意图限制示例性实施例。除非上下文中明确地另有所指,否则,这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定了所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或者添加一个或更多的其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换的实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
技术术语说明:
待分析信息,例如需要进行特定类型信息判别的信息。
分词处理,如从待分析信息中提取出至少一个分词的处理操作。
词频词典,如一个分词与其词频的对应关系集合。
词频,例如分词在样本集合中出现的次数。
下面结合附图对本申请的技术方案作进一步详细描述。
本申请的技术方案的一个具体应用系统如图1A所示。
图1A中的应用系统主要包括:服务器1以及多个智能电子设备2(如移动电话或者平板电脑等),在智能电子设备2为移动电话的情况下,该系统还可以包括:基站(图1A中未示出)等用于使移动电话接收到短信/彩信等信息的网络设备。
服务器1主要用于在各智能电子设备2中设置配置信息,如在各智能电子设备2中设置词频词典(一个具体的例子如表1所示),再如在各智能电子设备2中设置预设分类模型(如贝叶斯分类模型等)、敏感词集合、发送方号码黑名单以及发送分值集合等,其中的预设分类模型用于确定各分词出现在特定类型信息中的概率值,其中的发送分值集合中设置有发送方号码与其发送分值的对应关系,通过发送分值可以通常情况下,一个发送方号码所对应的发送分值可以随着该发送方号码被举报的次数的增加而降低,当然,一个发送方号码所对应的发送分值也可以随着该发送方号码被举报的次数的增加而增加。另外,服务器1也可以自己执行对待分析信息的识别处理,如虽然智能电子设备2确定出待分析信息不是特定类型信息,但是,判断出该待分析信息存在为特定类型信息的倾向时,智能电子设备2可以将该分析信息提供给服务器1,以便于由服务器1可以自己执行对该待分析信息的识别处理。
表1
分词 | 词频(单位:次) |
顾客 | 10 |
客您 | 9 |
您好 | 20 |
智能电子设备2主要用于根据服务器1设置的词频词典等配置信息对待分析信息(如其接收到的短信/彩信等)进行识别,以确定待分析信息是否为特定类型信息(如垃圾短信/彩信等),如智能电子设备2先利用服务器1预先为其设置的敏感词集合、发送方号码黑名单以及发送分值集合对短信/彩信等待分析信息进行过滤处理,然后,再利用词频词典以及预设分类模型(如贝叶斯分类模型)等配置信息对待分析信息进行识别,即利用词频词典确定每一个分词的词频,再利用预设分类模型对各分词的词频信息进行计算,预设分类模型输出的其计算出的概率值超过预设门限(如0.5)时,确定该待分析信息为特定类型信息,否则,确定该待分析信息不是特定类型信息。
一个具体的例子,一条短信的内容为“公司代开发普票”,首先基于敏感词集合、发送方号码黑名单以及发送分值集合对该短信进行过滤,在过滤的结果为该短信是垃圾短信时,不再进行后续的利用词频进行概率值计算以及概率值判别的操作;在过滤的结果为该短信不是垃圾短信时,获取该短信在分词处理后所获得的各分词,如基于采用2-gram方式所获得的分词包括:公司、司代、代开、开发、发普、普票;然后,根据预设的词频词典查找上述各分词各自对应的词频,设定查找到的各分词所对应的词频如下表2所示:
表2
然后,将上述表2中的词频输入预设分类模型(如贝叶斯分类模型)中,由预设分类模型对词频进行计算,并输出计算获得的概率值(如0.6),将预设分类模型输出的概率值与预设门限(如0.5)进行比较,在预设分类模型输出的概率值超过预设门限时,确定该短信为垃圾短信,否则,确定该短信为非垃圾短信。
另外,在智能电子设备2识别出待分析信息为特定类型信息的情况下,智能电子设备1还可以将该分析信息提供给服务器2,服务器2可以对该待分析信息进行进一步处理,如利用该待分析信息进行贝叶斯分类模型训练或者更新词频词典等。
实施例一、特定类型信息识别方法。图1为本实施例的特定类型信息识别方法流程图。
在图1中,本实施例的方法主要包括:步骤S100、步骤S110以及步骤120,且图1所示的步骤S100、步骤S110以及步骤120可以在位于用户侧的智能电子设备中执行(如上述各步骤可以由移动电话中安装的应用执行),也可以在位于网络侧的服务器中执行(如上述各步骤可以在智能电子设备中安装的相应应用所对应的服务器中执行)。
本实施例的特定类型信息识别方法可以适用于对非特定类型信息以及特定类型信息(如正常信息以及垃圾信息)进行区别处理的应用中,如本实施例的一个应用可以为:在智能电子设备(如移动电话)接收到新信息为特定类型信息(如垃圾信息)时,不产生智能电子设备(如移动电话)接收到新信息的弹出框提示信息、音频提示信息以及震动提示信息等,以避免特定类型信息(如垃圾信息)对用户的打扰。
下面对图1中的各步骤分别进行详细描述。
S100、对待分析信息进行分词处理以获得信息包含的各分词。
作为示例,本实施例中的待分析信息可以是智能电子设备(如移动电话)接收到的信息,如移动电话接收到的新的短消息(即短信)或者多媒体消息(即彩信)等,也可以是其他类型的智能电子设备接收到的信息。另外需要说明的是,本实施例中的待分析信息通常是文本格式的信息,如智能电子设备接收到的文本格式的信息,再如,通过对音频信息进行语音识别而获得的文本格式的信息,再如,通过对视频信息中的视频帧进行文字识别而获得的文本格式的信息等。
下面以智能电子设备为移动电话、且待分析信息为移动电话接收到的信息、以及特定类型信息为垃圾信息为例对本实施例进行说明,且在智能电子设备为其他类型的智能电子设备、待分析信息是智能电子设备接收到的其他类型的信息以及特定类型信息为信用卡消费等其他类型的信息的情况下,其特定类型信息识别的过程可以参照本实施例中的下述描述。
作为示例,在步骤S100的执行主体为用户侧的移动电话的情况下,本实施例中的移动电话接收到的信息可以是移动电话中的应用(APP)通过监听而获得的信息。在步骤S100的执行主体为网络侧的服务器的情况下,本实施例中的移动电话接收到的信息可以是移动电话中的应用向相应的服务器上报的信息,如移动电话中的应用通过监听获得了移动电话接收到的信息,该应用将其监听获得的该信息上报至网络侧的服务器。
作为示例,本实施例可以采用2-gram方式对移动电话接收到的信息进行分词处理,即分词处理所获得的分词由两个字组成,如对短消息中的“顾客您好”进行分词处理所获得分词为:“顾客”、“客您”、“您好”。本实施例也可以采用其他方式(如3-gram方式)对移动电话接收到的信息进行分词处理,本实施例不限制分词处理的具体实现方式。
作为示例,本实施例在对移动电话接收到的信息进行分词处理之前,可以对该信息进行垃圾信息过滤处理,以利用垃圾信息过滤处理识别出明显为垃圾信息的信息,在垃圾信息过滤处理之后,对于保留下来的没有被识别为垃圾信息的信息再进行分词处理。当然,本实施例也可以在分词处理之后再执行过滤处理操作。
作为示例,本实施例对信息所执行的垃圾信息过滤处理可以包括下述三种垃圾信息过滤处理方式的任意一种,也可以包括下述三种垃圾信息过滤处理方式中的任意两种,当然,还可以包括下述三种垃圾信息过滤处理方式。
方式一、基于敏感词集合实现垃圾信息过滤处理;
具体的,本方式中预先设置有包含一个或多个敏感词的敏感词集合,本方式的具体实现过程如图2所示。
图2中,S200、在敏感词集合中查找通过分词处理所获得的各分词,以确定通过分词处理所获得的各分词中属于敏感词集合的分词。
S210、根据属于敏感词集合的分词来判断该信息是否明显为垃圾信息。
步骤S210中的判断方式可以有多种,一个具体的例子,对通过分词处理所获得的各分词中属于敏感词集合的分词的数量进行统计,如果统计获得的分词的数量达到预定数量,则确定出该信息明显为垃圾信息,否则,确定出该信息并不明显为垃圾信息;另一个具体的例子,敏感词集合中的敏感词具有的敏感程度存在差异(即敏感词集合包括多种敏感程度,每一个敏感词对应一种敏感程度),且不同敏感程度所对应的权值并不相同,本方式可以根据通过分词处理所获得的各分词中属于敏感词集合的不同敏感程度的分词的数量及其相应的敏感程度对应的权值进行计算,并判断计算的结果是否达到预定值,如果判断出计算的结果达到预定值,则确定该信息明显为垃圾信息,否则,确定该信息并不明显为垃圾信息。
本方式中的敏感词集合可以仅包括用户自主设置的敏感词,也可以仅包括网络侧设置的敏感词,还可以既包括用户自主设置的敏感词,又包括网络侧设置的敏感词。在步骤S200和S210的执行主体为用户侧的移动电话的情况下,移动电话本地存储的敏感词集合可以由网络侧和/或用户侧分别进行更新,以添加新的敏感词或者设置/调整敏感词的敏感程度等,且移动电话本地存储的敏感词集合也可以定时/不定时的上传至网络侧进行备份,以便于用户在更换移动电话等情况下,可以继续使用其敏感词集合。在步骤S200和S210的执行主体为网络侧的服务器的情况下,网络侧存储的敏感词集合同样可以由网络侧和/或用户侧分别进行更新,以在敏感词集合中添加新的敏感词或者设置/调整敏感词的敏感程度等。
需要特别说明的是,针对移动电话接收到的信息或者过滤处理而保留下来的信息(即过滤处理结果为非垃圾信息的信息,也即并不明显为垃圾信息的信息),本实施例可以根据该信息所包含的敏感词数量为该信息设置贝叶斯分类模型中的第一参数的取值(即第一参数值),即本实施例中的贝叶斯分类模型是在考虑了信息所包含的敏感词的基础上而建立的。本实施例的根据信息所包含的敏感词数量来设置第一参数值的方式有多种,一个具体的例子,将信息所包含的敏感词数量作为第一参数值;另一个具体的例子,将上述方式一中描述的根据通过分词处理所获得的各分词中属于敏感词集合的不同敏感程度的分词的数量及其相应的敏感程度对应的权值进行计算的结果作为第一参数值。本实施例不限制根据该信息所包含的敏感词数量为该信息设置贝叶斯分类模型的第一参数值的具体实现方式。
方式二、基于发送方号码黑名单(即发送方黑名单)实现垃圾信息过滤处理;
具体的,本方式中预先设置有包含一个或多个发送方号码的发送方号码黑名单(下述简称为黑名单),本方式的具体实现过程如图3所示。
图3中,S300、从移动电话接收到的信息中获取该信息的发送方号码。
S310、在黑名单中查找上述获取到的发送方号码,以判断上述获取到的发送方号码是否属于黑名单,如果属于黑名单,则到步骤S320,否则,到步骤S330。
S320、确定出该信息明显为垃圾信息。
S330、确定出该信息并不明显为垃圾信息。
本方式中的黑名单可以仅包括用户自主设置的发送方号码,也可以仅包括网络侧设置的发送方号码,还可以既包括用户自主设置的发送方号码,又包括网络侧设置的发送方号码。在步骤S300-步骤S330的执行主体为用户侧的移动电话的情况下,移动电话本地存储的黑名单可以由网络侧和/或用户侧分别进行更新,以添加新的发送方号码,且移动电话本地存储的黑名单也可以定时/不定时的上传至网络侧进行备份,以便于用户在更换移动电话等情况下,可以继续使用其黑名单。在步骤S300-步骤S330的执行主体为网络侧的服务器的情况下,网络侧存储的黑名单同样可以由网络侧和/或用户侧分别进行更新,以在黑名单中添加新的发送方号码等。
需要特别说明的是,针对移动电话接收到的信息或者过滤处理而保留下来的信息(即过滤处理结果为非垃圾信息的信息,也即并不明显为垃圾信息的信息),本实施例可以根据该信息的发送方号码是否属于移动电话的通讯录为该信息设置贝叶斯分类模型的第二参数的取值(即第二参数值),即本实施例中的贝叶斯分类模型是在考虑了移动电话的通讯录所包含的各电话号码的基础上建立的。本实施例根据信息的发送方号码是否属于移动电话的通讯录来设置第二参数值的方式有多种,一个具体的例子,在信息的发送方号码属于移动电话的通讯录时,将第二参数值设置为第一值(如0),而在信息的发送方号码不属于移动电话的通讯录时,将第二参数值设置为第二值(如1);另一个具体的例子为:移动电话的通讯录的不同分组具有不同的权值,在信息的发送方号码不属于移动电话的通讯录时,将第二参数值设置为第二值(如1),而在信息的发送方号码属于移动电话的通讯录时,将第二参数值设置为该发送方号码所在的用户分组的权值。本实施例不限制根据该信息的发送方号码是否属于移动电话的通讯录为该信息设置贝叶斯分类模型的第二参数值的具体实现方式。
方式三、基于发送方号码(即发送方)的发送分值集合实现垃圾信息过滤处理;
具体的,本方式中的发送方号码的发送分值可以表示出一个发送方号码被举报的次数,且该被举报的次数可以包括:被举报为诈骗的次数和/或被举报为推销的次数等,另外,该被举报的次数可以为被举报为诈骗以及推销等总的被举报次数。
本方式中预先设置有包含一个或多个发送方号码与其发送分值的对应关系的发送分值集合,通常情况下,一个发送方号码所对应的发送分值可以随着该发送方号码被举报的次数的增加而降低,当然,一个发送方号码所对应的发送分值也可以随着该发送方号码被举报的次数的增加而增加。
下面以一个发送方号码所对应的发送分值随着该发送方号码被举报的次数的增加而降低为例,结合图4对本方式进行说明。
图4中,S400、从移动电话接收到的信息中获取该信息的发送方号码。
S410、在发送分值集合中查找上述获取到的发送方号码,以判断发送分值集合中是否存在与上述获取到的发送方号码相匹配的对应关系,如果发送分值集合中存在相匹配的对应关系,则到步骤S420,否则,到步骤S450。
S420、从该匹配的对应关系中获取发送分值,到步骤S430。
S430、判断该发送分值是否低于预定分值,如果低于预定分值,则到步骤S440,否则,到步骤S450。
S440、确定出该信息明显为垃圾信息。
S450、确定出该信息并不明显为垃圾信息。
下面以一个发送方号码所对应的发送分值随着该发送方号码被举报的次数的增加而增加为例,结合图5对本方式进行说明。
图5中,S400、从移动电话接收到的信息中获取该信息的发送方号码。
S510、在发送分值集合中查找上述获取到的发送方号码,以判断发送分值集合中是否存在与上述获取到的发送方号码相匹配的对应关系,如果发送分值集合中存在相匹配的对应关系,则到步骤S520,否则,到步骤S550。
S520、从该匹配的对应关系中获取发送分值,到步骤S530。
S530、判断该发送分值是否高于预定分值,如果高于预定分值,则到步骤S540,否则,到步骤S550。
S540、确定出该信息明显为垃圾信息。
S550、确定出该信息并不明显为垃圾信息。
需要特别说明的是,针对移动电话接收到的信息或者过滤处理而保留下来的信息(即过滤处理结果为非垃圾信息的信息,也即并不明显为垃圾信息的信息),本实施例可以根据该信息的发送方号码对应的发送分值为该信息设置贝叶斯分类模型的第三参数的取值(即第三参数值),即本实施例中的贝叶斯分类模型是在考虑了信息的发送方号码对应的发送分值的基础上而建立的。本实施例根据信息的发送方号码对应的发送分值来设置第三参数值的方式有多种,一个具体的例子为:在发送分值集合中存在与信息的发送方号码相匹配的对应关系时,将第三参数值设置为第一值(如1),而在发送分值集合中不存在与信息的发送方号码相匹配的对应关系时,将第三参数值设置为发送分值初始值(如99999);另一个具体的例子为:在发送分值集合中存在与信息的发送方号码相匹配的对应关系时,将第三参数值设置为该相匹配的对应关系中的发送分值,而在发送分值集合中不存在与信息的发送方号码相匹配的对应关系时,将第三参数值设置为发送分值初始值(如99999)。本实施例不限制根据该信息的发送方号码对应的发送分值为该信息设置贝叶斯分类模型的第三参数值的具体实现方式。
S110、根据预设的词频词典查找各分词各自对应的词频。
作为示例,本实施例中的预设的词频词典是指分词与分词的词频的对应关系集合,且本实施例中的分词与分词的词频的对应关系可以为分词与黑词频的对应关系(即一个分词对应一个黑词频),也可以为分词与白词频的对应关系(即一个分词对应一个白词频),还可以为分词与黑词频和白词频的对应关系(即一个分词对应一个黑词频和一个白词频)。本实施例中的分词对应的黑词频是指该分词在黑样本集合中的各信息黑样本中出现的次数,本实施例中分词对应的白词频是指该分词在白样本集合中的各信息白样本中出现的次数。
本实施例中的预设的词频词典可以为一个词频词典,且该词频词典可以仅用于存储分词与黑词频的对应关系,也可以仅用于存储分词与白词频的对应关系,还可以既用于存储分词与黑词频的对应关系,又用于存储分词与白词频的对应关系。
本实施例中的预设的词频词典也可以为两个词频词典,且其中一个词频词典可以称为黑词频词典,该黑词频词典仅用于存储分词与黑词频的对应关系;其中另一个词频词典可以称为白词频词典,该白词频词典仅用于存储分词与白词频的对应关系。
本实施例可以利用步骤S100中获得的各分词在预设的词频词典中分别进行匹配查找,以获得与各分词分别匹配的对应关系,从而可以从相应的匹配的对应关系中获得各分词各自对应的词频,如从黑词频词典中获得各分词分别对应的黑词频,再如从白词频词典中获得各分词分别对应的白词频,再如从一个词频词典中获得各分词各自对应的黑词频和白词频。另外,如果在词频词典中没有查找到某个分词对应的词频(白词频和/或黑词频),则可以将该分词对应的词频设置为非零的缺省值(如1)。
在步骤S110的执行主体为用户侧的移动电话的情况下,移动电话本地存储的词频词典通常是由网络侧生成并设置于移动电话中的,且网络侧在更新其本地的词频词典时(如修改词频词典中的某个分词对应的词频,再如增加新的分词与词频的对应关系等),应及时的对移动电话当前存储的词频词典进行版本维护,如在移动电话中的应用所设置的配置信息包括:移动电话通过WIFI接入网络的情况下对词频词典进行版本维护,则该应用可以在检测到移动电话通过WIFI接入网络时,产生维护请求,并向相应的服务器发送该维护更新请求,网络侧的服务器在接收到该维护请求时,根据维护请求中携带的移动电话中的词频词典的最新维护时间在确定出移动电话中的词频词典需要维护时,向移动电话发送本地存储的最新的词频词典。
本实施例网络侧的黑词频词典的设置及更新过程的一个具体例子如图6所示。
在图6中,S600、获取当前的黑词频词典以及黑样本集合。本步骤所获取到的黑词频词典可能为空,也可能已经包含有多个分词与黑词频的对应关系。本步骤所获取到的黑样本集合可以包括过去一段时间(如昨天)内用户上报的垃圾信息,也可以包括过去一段时间内本实施例的贝叶斯分类模型识别出的垃圾信息,还可以包括过去一段时间内利用上述垃圾信息过滤处理方式所识别出的垃圾信息,当然,还可以包括利用下述图8所示的方法而识别出的垃圾信息。
S610、判断该黑样本集合中是否存在未被处理的信息黑样本,如果黑样本集合中存在未被处理的信息黑样本,则到步骤S620,而如果黑样本集合中已经不存在未被处理的信息黑样本,则到步骤S670。
S620、按照信息黑样本的排列顺序从黑样本集合中顺序读取出一条未被处理的信息黑样本。
S630、对该信息黑样本进行分词处理,并将黑样本集合中的该信息黑样本标记为已处理。
S640、针对分词处理所获得的每一个分词,分别判断黑词频词典中是否包含有该分词,在黑词频词典中没有包含该分词的情况下,到步骤S650,否则,到步骤S660。
S650、将该分词放入黑词频词典中,并为该分词设置初始黑词频,如将该分词对应的初始黑词频设置为1。到步骤S610。
S660、在黑词频词典中已经包含有该分词的情况下,更新黑词频词典中该分词所对应的黑词频,如使该分词所对应的黑词频增加1。到步骤S610。
S670、黑词频词典的建立或者更新过程结束。
本实施例网络侧的白词频词典的设置及更新过程的一个具体例子如图7所示。
在图7中,S700、获取当前的白词频词典以及白样本集合。本步骤所获取到的白词频词典可能为空,也可能已经包含有多个分词与白词频的对应关系。本步骤所获取到的白样本集合可以包括过去一段时间内本实施例的贝叶斯分类模型识别出的非垃圾信息,也可以包括利用下述图8所示的方法而识别出的非垃圾信息。
S710、判断该白样本集合中是否存在未被处理的信息白样本,如果白样本集合中存在未被处理的信息白样本,则到步骤S720,而如果白样本集合中已经不存在未被处理的信息白样本,则到步骤S770。
S720、按照信息白样本的排列顺序从白样本集合中顺序读取出一条未被处理的信息白样本。
S730、对该信息白样本进行分词处理,并将白样本集合中的该信息白样本标记为已处理。
S740、针对分词处理所获得的每一个分词,分别判断白词频词典中是否包含有该分词,在白词频词典中没有包含该分词的情况下,到步骤S750,否则,到步骤S760。
S750、将该分词放入白词频词典中,并为该分词设置初始白词频,如将该分词对应的初始白词频设置为1。到步骤S710。
S760、在白词频词典中已经包含有该分词的情况下,更新白词频词典中该分词所对应的白词频,如使该分词所对应的白词频增加1。到步骤S710。
S770、白词频词典的建立或者更新过程结束。
需要特别说明的是,在黑词频词典和白词频词典合并为一个词频词典的情况下(即在一个词频词典中存储有分词与黑词频和白词频的对应关系的情况下),本实施例建立以及更新该词频词典的过程可以参见上述图6和图7的相关描述,在此不再重复说明。
S120、基于各分词各自对应的词频判断待分析信息是否为垃圾信息。
作为示例,本实施例可以先将各分词各自对应的词频输入贝叶斯分类模型以获得待分析信息的概率值,然后,根据待分析信息的概率值的大小判断该待分析信息是否为垃圾信息。本实施例可以使用贝叶斯分类模型来计算待分析信息的概率值,如将各分词各自对应的词频输入贝叶斯分类模型以获得上述信息的概率值。本实施例中的贝叶斯分类模型可以为基于分词对应的词频而建立的朴素贝叶斯分类模型,且该朴素贝叶斯分类模型可以表述为下述公式(1)和/或公式(2)的形式:
P(M|B)=P(a|B)P(b|B)......P(x|B) 公式(1)
P(M|W)=P(a|W)P(b|W)......P(x|W) 公式(2)
在上述公式(1)以及公式(2)中,P(M|B)表示信息M为垃圾信息的概率,P(M|W)表示信息M为非垃圾信息的概率,a、b……x均为信息M中的分词,P(a|B)表示分词a出现在垃圾信息中的概率,P(b|B)表示分词b出现在垃圾信息中的概率,P(x|B)表示分词x出现在垃圾信息中的概率,P(a|W)表示分词a出现在非垃圾信息中的概率,P(b|W)表示分词b出现在非垃圾信息中的概率,P(x|W)表示分词x出现在非垃圾信息中的概率。
本实施例中的贝叶斯分类模型也可以为基于分词对应的词频、上述第一参数及其对应的权重值、上述第二参数及其对应的权重值以及上述第三参数及其对应的权重值而建立的朴素贝叶斯分类模型,且该朴素贝叶斯分类模型可以表述为下述公式(3)和/或公式(4)的形式:
P(M|B)=P(a|B)P(b|B)......P(x|B)+a1×w1+a2×w2+a3×w3 公式(3)
P(M|W)=P(a|W)P(b|W)......P(x|W)+a1×w1+a2×w2+a3×w3 公式(4)
在上述公式(3)以及公式(4)中,P(M|B)表示信息M为垃圾信息的概率,P(M|W)表示信息M为非垃圾信息的概率,a、b……x均为信息M中的分词,P(a|B)表示分词a出现在垃圾信息中的概率,P(b|B)表示分词b出现在垃圾信息中的概率,P(x|B)表示分词x出现在垃圾信息中的概率,P(a|W)表示分词a出现在非垃圾信息中的概率,P(b|W)表示分词b出现在非垃圾信息中的概率,P(x|W)表示分词x出现在非垃圾信息中的概率,a1为第一参数,w1为第一参数对应的权重值,a2为第二参数,w2为第二参数对应的权重值,a3为第三参数,w3为第三参数对应的权重值。
在本实施例中的贝叶斯分类模型为基于分词对应的词频而建立的如上述公式(1)所示的朴素贝叶斯分类模型的情况下,本实施例可以将上述步骤S110所获得的各分词各自对应的黑词频均输入如公式(1)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为垃圾信息的第一概率值;从而使本实施例的后续步骤可以根据该第一概率值与第一概率阈值的大小比较来判断信息是否为垃圾信息。
在本实施例中的贝叶斯分类模型为基于分词对应的词频而建立的如上述公式(2)所示的朴素贝叶斯分类模型的情况下,本实施例可以将上述步骤S110所获得的各分词各自对应的白词频均输入如公式(2)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出该信息为非垃圾信息的第二概率值;从而使本实施例的后续步骤可以根据该第二概率值与第二概率阈值的大小比较来判断信息是否为垃圾信息。
在本实施例中的贝叶斯分类模型为基于分词对应的词频而建立的如公式(1)以及公式(2)所示的朴素贝叶斯分类模型的情况下,本实施例可以将上述步骤S110所获得的各分词各自对应的黑词频均输入如公式(1)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为垃圾信息的第一概率值,本实施例还应将上述步骤S110所获得的各分词各自对应的白词频均输入如公式(2)所示的朴素贝叶斯分类模型中,该朴素贝叶斯分类模型会输出该信息为非垃圾信息的第二概率值,从而本实施例的后续步骤可以根据该第一概率值和第二概率值的大小比较来判断信息是否为垃圾信息。
在本实施例中的贝叶斯分类模型为基于分词对应的词频、第一参数及其对应的权重值、第二参数及其对应的权重值以及第三参数及其对应的权重值而建立的如公式(3)所示的朴素贝叶斯分类模型的情况下,本实施例可以将上述步骤S110所获得的各分词各自对应的黑词频、上述步骤S100中获得的第一参数值、第二参数值及第三参数值均输入如公式(3)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为垃圾信息的第一概率值;从而使本实施例的后续步骤可以根据该第一概率值与第一概率阈值的大小比较来判断信息是否为垃圾信息。
在本实施例中的贝叶斯分类模型为基于分词对应的词频、第一参数及其对应的权重值、第二参数及其对应的权重值以及第三参数及其对应的权重值而建立的如公式(4)所示的朴素贝叶斯分类模型的情况下,本实施例可以将上述步骤S110所获得的各分词各自对应的白词频、上述步骤S100中获得的第一参数值、第二参数值及第三参数值均输入如公式(4)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为非垃圾信息的第二概率值;从而使本实施例的后续步骤可以根据该第二概率值与第二概率阈值的大小比较来判断信息是否为垃圾信息。
在本实施例中的贝叶斯分类模型为基于分词对应的词频、第一参数及其对应的权重值、第二参数及其对应的权重值以及第三参数及其对应的权重值而建立的如公式(3)以及公式(4)所示的朴素贝叶斯分类模型的情况下,本实施例可以将上述步骤S110所获得的各分词各自对应的黑词频、步骤S100获得的第一参数值、第二参数值以及第三参数值均输入如公式(3)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为垃圾信息的第一概率值;且本实施例还应将上述步骤S110所获得的各分词各自对应的白词频、步骤S100中获得的第一参数值、第二参数值以及第三参数值均输入如公式(4)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为非垃圾信息的第二概率值;从而使本实施例的后续步骤可以根据该第一概率值与第二概率阈值的大小比较来判断信息是否为垃圾信息。
在步骤S120的执行主体为用户侧的移动电话的情况下,移动电话本地存储的贝叶斯分类模型(如朴素贝叶斯分类模型)通常是由网络侧生成并设置于移动电话中的,且网络侧在更新其本地的贝叶斯分类模型(如修改贝叶斯分类模型中的某个参数的权重值,再如增加新的参数及其权重值等),应及时的对移动电话当前存储的贝叶斯分类模型进行版本维护,如在移动电话中的应用所设置的配置信息包括:移动电话通过WIFI接入网络的情况下对贝叶斯分类模型进行版本维护,则该应用可以在检测到移动电话通过WIFI接入网络时,产生维护请求,并向相应的服务器发送该维护更新请求,网络侧的服务器在接收到该维护请求时,根据维护请求中携带的移动电话中的贝叶斯分类模型的最新维护时间确定出移动电话中的贝叶斯分类模型需要维护时,向移动电话发送本地存储的最新的贝叶斯分类模型。
本实施例中的贝叶斯分类模型是通过大量的信息白样本和信息黑样本进行训练而形成的,对贝叶斯分类模型的训练可以包括:调整第一参数、第二参数以及第三参数的权重值,也可以包括:调整训练所使用的信息黑样本以及信息白样本的数量以及信息黑样本的种类等等,且通过调整训练所使用的信息黑样本以及信息白样本可以调整词频词典中相应分词所对应的词频。
本实施例中的用于训练贝叶斯分类模型的信息黑样本和信息白样本可以通过下述图8所示的过程获得。
图8中,S800、获取信息样本集合。
S810、判断该信息样本集合中是否存在未处理的信息样本,如果存在未处理的信息样本,则到步骤S820,否则,到步骤S880。
S820、根据信息样本的排列顺序从信息样本集合中读取一条未处理的信息样本,并将该信息样本设置为已处理。
S830、针对该读取的信息样本的各发送行为特征项在信息样本集合中进行统计,以获得该信息样本的各发送行为特征项的特征值,每一个特征值均可以为整型,且为正数。
上述发送行为特征项可以具体包括下述任意一个或者多个:
a、iMessageSendNum,即信息样本的内容被发送的次数;如果同一发送方就相同的内容向同一用户发送了N次,则次数计为N;
b、iMessageSendUniqNum,即信息样本的内容被发送给用户的用户数量;如果同一发送方就相同的内容向同一用户发送了N次,则该特征项的特征值计为1;
c、iMessageLength,即信息样本的内容的长度;该特征项的特征值可以为信息样本中的文本信息长度;
d、iReportedNum,即信息样本的发送方被举报的次数;如果同一发送方就相同的内容向同一用户发送了N次,而用户就该内容举报了N次,则该特征项的特征值计为N;
e、iSendNumConntectedNum,即与信息样本的发送方联系的次数;如果信息样本的发送方发送了100条信息,且该发送方接收了100条信息,则该特征项的特征值计为200;
f、iSendNumBeConnectedNum,即信息样本的发送方接收信息的次数;如果信息样本的发送方接收到了两条信息,不论这两条信息是否由同一用户发送而来,也不论这两条信息的内容是否相同,该特征项的特征值计为2;
g、iSendNumBeConntectedPhoneNum,即与信息样本的发送方联系过的用户数量;如果信息样本的发送方向50个用户发送了100条信息,且该发送方接收到了前述50个用户回复的100条信息,则该特征项的特征值计为50。
S840、根据上述各发送行为特征项的特征值及其对应的权值计算该信息样本的分值。
S850、判断该信息样本的分值是否达到/超过预定分值,如果达到或者超过预定分值,则到步骤S860,否则,到步骤S870。
S860、将该信息样本确定为用于训练贝叶斯分类模型的信息黑样本,可以将该信息样本添加到黑样本集合中,并到步骤S810。
S870、将该信息样本确定为用于训练贝叶斯分类模型的信息白样本,可以将该信息样本添加到白样本集合中,并到步骤S810。
S880、本次获取用于训练贝叶斯分类模型的信息黑样本和信息白样本的过程结束。
作为示例,本实施例可以根据上述获得的第一概率值来判断信息(即待分析信息,如移动电话接收到的信息)是否为非垃圾信息,如在确定出上述第一概率值大于第一概率阈值的情况下,本实施例将该信息识别为垃圾信息,而在确定出上述第一概率值不大于第一概率阈值的情况下,本实施例将该信息识别为非垃圾信息。
作为示例,本实施例可以根据上述步骤S120获得的第二概率值来判断信息是否为非垃圾信息,如在确定出上述第二概率值大于第二概率阈值的情况下,本实施例将该信息识别为非垃圾信息,而在确定出上述第二概率值不大于第二概率阈值的情况下,本实施例将该信息识别为垃圾信息。
作为示例,本实施例可以根据上述步骤S120获得的第一概率值和第二概率值来判断信息是否为非垃圾信息,如在确定出上述第一概率值大于第二概率值的情况下,本实施例将该信息识别为垃圾信息,而在确定出上述第一概率值不大于第二概率值的情况下,本实施例将该信息识别为非垃圾信息。另外,本实施例所记载的步骤S100、S110以及S120在用户侧的移动电话中执行的情况下,如果第一概率值与第二概率值之间的差值较小(如差值小于预定差值)的情况下,则本实施例可以向网络侧上报该信息,以由网络侧对该信息进行进一步的识别或者由网络侧利用该信息对贝叶斯分类模型进行训练调整。
作为示例,本实施例还可以针对包含有图片的信息进行是否为垃圾信息的识别,具体的识别过程如图9所示。
在图9中,S900、提取移动电话接收到的信息所包含的图片的指纹,如本实施例可以采用PHash(Perceptual Hash algorithm,感知哈希算法)为一张图片生成一个指纹(fingerprint);且在移动电话接收到的信息包含有多张图片的情况下,可以为每一张图片生成一个指纹。
另外,在移动电话接收到的信息包含有视频的情况下,本实施例可以将该视频中的一个或者多个抽帧作为移动电话接收到的信息所包含的图片,如将视频的第一帧和/或中间帧作为移动电话接收到的信息所包含的图片。
S910、计算该指纹与预设的指纹库中的指纹的相似度。
本实施例的指纹库中通常设置有多个指纹,且指纹库中的每一个指纹均为从垃圾信息所包含的图片中提取出的指纹。
本实施例在从移动电话接收到的信息所包含的多个图片中提取出多个指纹的情况下,可以针对提取出的每一个指纹分别计算指纹与预设的指纹库中的各指纹的相似度。两个指纹之间的相似度可以根据两个指纹之间的距离来设置。
S920、判断上述计算出的相似度是否满足预设的相似度要求,在计算出的相似度满足预设的相似度要求的情况下,到S930,否则,到S940。
上述预设的相似度要求可以为:一个指纹与预设的指纹库中的其中任意一个指纹之间的相似度达到/超过预设相似度阈值;且在移动电话接收到的信息包含有多张图片的情况下,只要其中一张图片的指纹与预设的指纹库中的其中任意一个指纹之间的相似度达到/超过预设相似度阈值,则可以认为计算出的相似度满足预设的相似度要求。
S930、确定移动电话接收到的该信息为垃圾信息,且可以将该信息添加在黑样本集合中。另外,在预设的指纹库中没有包含该垃圾信息所包含的图片的指纹的情况下,本实施例还可以将该指纹添加到预设的指纹库中。
S940、确定移动电话接收到的该信息为非垃圾信息,且可以将该信息添加在白样本集合中。
作为示例,本实施例的方法可以用于移动电话识别垃圾短信/彩信,具体的识别过程如图10A所示。
图10A中,S1001、根据移动电话中预先存储的敏感词集合对移动电话当前接收到的短信/彩信进行敏感词过滤处理;其中的敏感词集合通常是由服务器配置于移动电话中的,并由服务器负责维护。在根据敏感词过滤处理的结果确定出该短信/彩信不是垃圾短信/彩信的情况下,到S1002,否则,本次垃圾短信/彩信的识别过程结束,可以不针对该短信/彩信提示用户接收到新信息。另外,敏感词过滤处理的过程可以如上述针对图2的描述,在此不再详细说明。
S1002、根据移动电话中预先设置的发送方号码黑名单对上述过滤处理后的非垃圾短信/彩信进行过滤处理;其中的发送方号码黑名单中的发送方号码可以由用户自己配置,也可以由服务器配置。在根据发送方号码黑名单过滤处理的结果确定出该短信/彩信不是垃圾短信/彩信的情况下,到S1003,否则,本次垃圾短信/彩信的识别过程结束,可以不针对该短信/彩信提示用户接收到新信息。另外,根据发送方号码黑名单进行过滤处理的过程可以如上述针对图3的描述,在此不再详细说明。
S1003、根据预定电话中预先设置的表征发送方被举报次数的发送分值集合对上述过滤处理后的非垃圾短信/彩信进行过滤处理;其中的发送分值集合可以由用户自己配置,也可以由服务器配置。在根据发送分值集合过滤处理的结果确定出该短信/彩信不是垃圾短信/彩信的情况下,到步骤S1004,否则,本次垃圾短信/彩信的识别过程结束,可以不针对该短信/彩信提示用户接收到新信息。另外,根据发送分值集合进行过滤处理的过程可以如上述针对图4和图5的描述,在此不再详细说明。
S1004、对上述过滤处理后的非垃圾短信/彩信中的文本内容进行过滤处理,即利用预设的词频词典查找各分词各自对应的词频,并根据各分词各自对应的词频利用朴素的贝叶斯分类模型来判断该短信/彩信是否为垃圾短信/彩信,如果不是垃圾短信/彩信,到步骤S1005,否则,本次垃圾短信/彩信的识别过程结束,可以不针对该短信/彩信提示用户接收到新信息。
上述词频词典(如白词频词典和/或者黑词频词典)通常是由服务器配置于移动电话中的,并由服务器负责维护。另外,利用词频词典查找各分词各自对应的词频的过程如上述针对S110中的描述,且利用朴素的贝叶斯分类模型判断该短信/彩信是否为垃圾短信/彩信的过程如上述针对S120中的描述,在此不再详细说明。
S1005、在上述过滤处理后的非垃圾短信/彩信包含有图片的情况下,对短信/彩信中的图片内容进行过滤处理,即基于短信/彩信中的图片的指纹以及移动电话中预先设置的指纹库来判断短信/彩信是否为垃圾短信/彩信;其中的指纹库通常是由服务器配置于移动电话中的,并由服务器负责维护。在利用指纹库进行过滤处理的结果确定出该短信/彩信不是垃圾短信/彩信的情况下,到S1006,否则,本次垃圾短信/彩信的识别过程结束,可以不针对该短信/彩信提示用户接收到新信息。另外,基于指纹库进行过滤处理的过程可以如上述针对图9的描述,在此不再详细说明。
S1006、针对该短信/彩信提示用户接收到新信息。
实施例二、特定类型信息识别方法。
在本实施例中,特定类型信息为信用卡消费信息。
首先,对待分析信息(如短信或者彩信等)进行过滤处理,以利用过滤处理识别出明显为信用卡消费信息的信息;如基于敏感词集合实现信用卡消费信息过滤处理,再如基于发送方号码名单(即发送方名单)实现信用卡消费信息过滤处理,再如,基于发送方号码(即发送方)的发送分值集合实现信用卡消费信息过滤处理。
其次,在过滤处理之后,对于保留下来的没有被识别为信用卡消费信息的待分析信息进行分词处理,以获得该待分析信息所包含的各分词,如采用2-gram方式对待分析信息进行分词处理。
再次,根据预设的词频词典查找该待分析信息中的各分词各自对应的词频,如在预设的黑词频词典中查找该待分析信息中的各分词各自对应的词频,再如在预设的白词频词典中查找该待分析信息中的各分词各自对应的词频。
最后,基于各分词各自对应的词频判断待分析信息是否为信用卡消费信息,如将各分词各自对应的词频输入贝叶斯分类模型以获得待分析信息的概率值,根据待分析信息的概率值的大小判断该待分析信息是否为信用卡消费信息。本实施例中的贝叶斯分类模型可以具体如上述实施例一中的描述,再次不再详细说明。
实施例三、特定类型信息识别装置。
图10为本实施例的特定类型信息识别装置示意图。图10中,本实施例的装置主要包括:分词处理模块1000、确定词频模块1010以及识别模块1011,且其中的识别模块1011包括:计算概率值模块1020以及判断模块1030。图10所示的各模块可以设置于用户侧的智能电子设备(如移动电话)中,也可以设置于网络侧的服务器中。本实施例的特定类型信息识别装置可以适用于对非特定类型信息以及特定类型信息(如正常信息以及垃圾信息)进行区别处理的应用中,如本实施例的一个应用可以为:在智能电子设备(如移动电话)接收到新信息为特定类型信息(如垃圾信息)时,不产生智能电子设备(如移动电话)接收到新信息的弹出框提示信息、音频提示信息以及震动提示信息等,以避免特定类型信息(如垃圾信息)对用户的打扰。
在第一个应用场景中,本实施例的装置还可以可选的包括:第一过滤模块1040、第二过滤模块1050以及第三过滤模块1060中的至少一个(如图11所示)。在第二个应用场景中,本实施例的装置还可以可选的包括:设置第一参数值模块1070、设置第二参数值模块1080以及设置第三参数值模块1090中的至少一个(如图12所示)。在第三个应用场景中,本实施例的装置还可以可选的包括:获取特征值模块1100、计算分值模块1200以及判别黑白样本模块1300(如图13所示)。在第四个应用场景中,本实施例的装置还可以可选的包括:提取指纹模块1400、计算相似度模块1500以及确定模块1600(如图14所示)。下面结合图10-图15对本实施例的特定类型信息识别装置的结构进行说明。
分词处理模块1000主要用于对待分析信息进行分词处理以获得信息包含的各分词。
作为示例,分词处理模块1000进行分词处理的待分析信息可以是智能电子设备(如移动电话)接收到的信息,如移动电话接收到的新的短消息(即短信)或者多媒体消息(即彩信)等,也可以是其他类型的智能电子设备接收到的信息。下面以智能电子设备为移动电话、且待分析信息为移动电话接收到的信息以及特定类型信息为垃圾信息为例对本实施例进行说明,且在智能电子设备为其他类型的智能电子设备、待分析信息是智能电子设备接收到的其他类型的信息以及特定类型信息为信用卡消费等其他类型的信息的情况下,本实施例的装置的特定类型信息识别的过程可以参照本实施例中的下述描述。
作为示例,在分词处理模块1000设置于用户侧的移动电话中的情况下,分词处理模块1000进行分词处理的信息可以是移动电话中的应用(APP)通过监听而获得的信息。在分词处理模块1000设置于网络侧的服务器中的情况下,分词处理模块1000进行分词处理的信息可以是移动电话中的应用向相应的服务器所上报的信息,如移动电话中的应用通过监听获得了移动电话接收到的信息,该应用将其监听获得的该信息上报至网络侧的服务器。
作为示例,分词处理模块1000可以采用2-gram方式对移动电话接收到的信息进行分词处理,即分词处理模块1000进行分词处理所获得的分词由两个字组成,如分词处理模块1000对短消息中的“顾客您好”进行分词处理所获得分词为:“顾客”、“客您”、“您好”。分词处理模块1000也可以采用其他方式(如3-gram方式)对移动电话接收到的信息进行分词处理,本实施例不限制分词处理模块1000所执行的分词处理的具体实现方式。
作为示例,分词处理模块1000在对移动电话接收到的信息进行分词处理之前,可以由第一过滤模块1040、第二过滤模块1050以及第三过滤模块1060中的至少一个模块对该信息进行垃圾信息过滤处理,以利用垃圾信息过滤处理识别出明显为垃圾信息的信息,在垃圾信息过滤处理之后,分词处理模块1000对于保留下来的没有被识别为垃圾信息的信息再进行分词处理。
第一过滤模块1040用于根据敏感词集合对移动电话接收到的信息进行垃圾信息过滤处理;且第一过滤模块1040所执行的过滤处理操作如上述实施例一中针对图2的描述,在此不再详细说明。第二过滤模块1050用于根据发送方号码黑名单对移动电话接收到的信息进行垃圾信息过滤处理;且第二过滤模块1050所执行的过滤处理操作如上述实施例一中针对图3的描述,在此不再详细说明。第三过滤模块1060用于根据表征发送方号码被举报次数的发送分值集合对移动电话接收到的信息进行垃圾信息过滤处理,第三过滤模块1060所执行的过滤处理操作如上述实施例一中针对图4和图5的描述,在此不再详细说明。
针对移动电话接收到的信息或者执行过滤处理后而保留下来的信息(即过滤处理结果为非垃圾信息的信息,也即并不明显为垃圾信息的信息),可以由设置第一参数值模块1070根据该信息所包含的敏感词数量为该信息设置贝叶斯分类模型中的第一参数的取值(即第一参数值),设即置第一参数值模块1070主要用于根据敏感词集合确定信息所包含的敏感词数量,并根据敏感词数量为该信息设置第一参数值。设置第一参数值模块1070根据信息所包含的敏感词数量来设置第一参数值的方式有多种,如设置第一参数值模块1070将信息所包含的敏感词数量作为第一参数值;再如设置第一参数值模块1070将根据各分词中属于敏感词集合的不同敏感程度的分词的数量及其相应的敏感程度对应的权值进行计算的结果作为第一参数值。本实施例不限制设置第一参数值模块1070根据该信息所包含的敏感词数量为该信息设置贝叶斯分类模型的第一参数值的具体实现方式。
针对移动电话接收到的信息或者过滤处理后而保留下来的信息(即过滤处理结果为非垃圾信息的信息,也即并不明显为垃圾信息的信息),可以由设置第二参数值模块1080根据该信息的发送方号码是否属于移动电话的通讯录为该信息设置贝叶斯分类模型的第二参数的取值(即第二参数值),即设置第二参数值模块1080主要用于根据信息的发送方号码是否属于移动电话的通讯录为该信息设置第二参数值。设置第二参数值模块1080根据信息的发送方号码是否属于移动电话的通讯录来设置第二参数值的方式有多种,一个具体的例子,在信息的发送方号码属于移动电话的通讯录时,设置第二参数值模块1080将第二参数值设置为第一值(如0),而在信息的发送方号码不属于移动电话的通讯录时,设置第二参数值模块1080将第二参数值设置为第二值(如1);另一个具体的例子为:移动电话的通讯录的不同分组具有不同的权值,在信息的发送方号码不属于移动电话的通讯录时,设置第二参数值模块1080将第二参数值设置为第二值(如1),而在信息的发送方号码属于移动电话的通讯录时,设置第二参数值模块1080将第二参数值设置为该发送方号码所在的用户分组的权值。本实施例不限制设置第二参数值模块1080根据该信息的发送方号码是否属于移动电话的通讯录为该信息设置贝叶斯分类模型的第二参数值的具体实现方式。
针对移动电话接收到的信息或者过滤处理后而保留下来的信息(即过滤处理结果为非垃圾信息的信息,也即并不明显为垃圾信息的信息),可以由设置第三参数值模块1090根据该信息的发送方号码对应的发送分值为该信息设置贝叶斯分类模型的第三参数的取值(即第三参数值),即设置第三参数值模块1090主要用于根据表征发送方号码被举报次数的发送分值集合确定信息的发送方号码对应的发送分值,并根据该对应的发送分值为该信息设置第三参数值。设置第三参数值模块1090根据信息的发送方号码对应的发送分值来设置第三参数值的方式有多种,一个具体的例子为:在发送分值集合中存在与信息的发送方号码相匹配的对应关系时,设置第三参数值模块1090将第三参数值设置为第一值(如1),而在发送分值集合中不存在与信息的发送方号码相匹配的对应关系时,设置第三参数值模块1090将第三参数值设置为发送分值初始值(如99999);另一个具体的例子为:在发送分值集合中存在与信息的发送方号码相匹配的对应关系时,设置第三参数值模块1090将第三参数值设置为该相匹配的对应关系中的发送分值,而在发送分值集合中不存在与信息的发送方号码相匹配的对应关系时,设置第三参数值模块1090将第三参数值设置为发送分值初始值(如99999)。本实施例不限制设置第三参数值模块1090根据该信息的发送方号码对应的发送分值为该信息设置贝叶斯分类模型的第三参数值的具体实现方式。
确定词频模块1010主要用于根据预设的词频词典查找各分词各自对应的词频。
作为示例,确定词频模块1010所使用的词频词典是指分词与分词的词频的对应关系集合,且分词与分词的词频的对应关系可以为分词与黑词频的对应关系,也可以为分词与白词频的对应关系,还可以为分词与黑词频和白词频的对应关系。分词对应的黑词频是指该分词在黑样本集合中的各信息黑样本中出现的次数,分词对应的白词频是指该分词在白样本集合中的各信息白样本中出现的次数。
确定词频模块1010所使用的词频词典可以为一个词频词典,且该词频词典可以仅用于存储分词与黑词频的对应关系,也可以仅用于存储分词与白词频的对应关系,还可以既用于存储分词与黑词频的对应关系,又用于存储分词与白词频的对应关系。
确定词频模块1010所使用的词频词典也可以为两个词频词典,且其中一个词频词典可以称为黑词频词典,该黑词频词典仅用于存储分词与黑词频的对应关系;其中另一个词频词典可以称为白词频词典,该白词频词典仅用于存储分词与白词频的对应关系。
确定词频模块1010可以利用各分词在预设的词频词典中分别进行匹配查找,以获得与各分词分别匹配的对应关系,从而可以从相应的匹配的对应关系中获得各分词各自对应的词频,如确定词频模块1010从黑词频词典中获得各分词分别对应的黑词频,再如确定词频模块1010从白词频词典中获得各分词分别对应的白词频,再如确定词频模块1010从一个词频词典中获得各分词各自对应的黑词频和白词频。另外,如果确定词频模块1010在词频词典中没有查找到某个分词对应的词频(白词频和/或黑词频),则确定词频模块1010可以将该分词对应的词频设置为非零的缺省值(如1)。
在确定词频模块1010设置于执行主体为用户侧的移动电话的情况下,移动电话本地存储的词频词典通常是由网络侧的维护模块生成并设置于移动电话中的,且维护模块在更新网络侧本地的词频词典时(如修改词频词典中的某个分词对应的词频,再如增加新的分词与词频的对应关系等),应及时的对移动电话当前存储的词频词典进行版本维护。网络侧的维护模块设置并更新黑词频词典以及白词频词典的一个具体例子如上述实施例一中针对图6和图7的描述,在此不再详细说明。
识别模块1011主要用于基于各分词各自对应的词频判断待识别信息是否为垃圾信息。
识别模块1011中的计算概率值模块1020主要用于基于各分词各自对应的词频计算待分析信息(即本实施例中的移动电话接收到的信息)的概率值,且该概率值用于表示待分析信息为垃圾信息/非垃圾信息的倾向。
作为示例,计算概率值模块1020可以将各分词各自对应的词频输入贝叶斯分类模型以获得待分析信息的概率值。计算概率值模块1020所使用的贝叶斯分类模型可以为基于分词对应的词频而建立的朴素贝叶斯分类模型,且该朴素贝叶斯分类模型可以表述为上述实施例一中的公式(1)和/或公式(2)的形式。
作为示例,计算概率值模块1020所使用的贝叶斯分类模型也可以为基于分词对应的词频、上述第一参数及其对应的权重值、上述第二参数及其对应的权重值以及上述第三参数及其对应的权重值而建立的朴素贝叶斯分类模型,且该朴素贝叶斯分类模型可以表述为上述实施例一中的公式(3)和/或公式(4)的形式。
计算概率值模块1020可以将各分词各自对应的黑词频均输入如公式(1)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为垃圾信息的第一概率值。
计算概率值模块1020可以将各分词各自对应的白词频均输入如公式(2)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出该信息为非垃圾信息的第二概率值。
计算概率值模块1020可以将各分词各自对应的黑词频均输入如公式(1)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为垃圾信息的第一概率值,计算概率值模块1020还应将各分词各自对应的白词频均输入如公式(2)所示的朴素贝叶斯分类模型中,该朴素贝叶斯分类模型会输出该信息为非垃圾信息的第二概率值。
计算概率值模块1020可以将各分词各自对应的黑词频、第一参数值、第二参数值及第三参数值均输入如公式(3)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为垃圾信息的第一概率值。
计算概率值模块1020可以将各分词各自对应的白词频、第一参数值、第二参数值及第三参数值均输入如公式(4)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为非垃圾信息的第二概率值。
计算概率值模块1020可以将各分词各自对应的黑词频、第一参数值、第二参数值及第三参数值均输入如公式(3)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为垃圾信息的第一概率值;计算概率值模块1020还应该将各分词各自对应的白词频、第一参数值、第二参数值以及第三参数值均输入如公式(4)所示的朴素贝叶斯分类模型中,从而该朴素贝叶斯分类模型会输出信息为非垃圾信息的第二概率值。
在计算概率值模块1020设置于用户侧的移动电话中的情况下,移动电话本地存储的贝叶斯分类模型(如朴素贝叶斯分类模型)通常是由网络侧的维护模块生成并设置于移动电话中的,且网络侧的维护模块在更新其本地的贝叶斯分类模型(如修改贝叶斯分类模型中的某个参数的权重值,再如增加新的参数及其权重值等),应及时的对移动电话当前存储的贝叶斯分类模型进行版本维护。
计算概率值模块1020所使用的贝叶斯分类模型是通过大量的信息白样本和信息黑样本进行训练而形成的,对贝叶斯分类模型的训练可以包括:调整第一参数、第二参数以及第三参数的权重值,也可以包括:调整训练所使用的信息黑样本以及信息白样本的数量以及信息黑样本的种类等等,且通过调整训练所使用的信息黑样本以及信息白样本可以调整词频词典中相应分词所对应的词频。
本实施例中的用于训练贝叶斯分类模型的信息黑样本和信息白样本可以通过获取特征值模块1100、计算分值模块1200以及判别黑白样本模块1300获得;其中的获取特征值模块1100主要用于针对信息样本集合中的信息样本的各发送行为特征项在信息样本集合中进行统计,以获得信息样本的各发送行为特征项的特征值;其中的计算分值模块1200主要用于根据各发送行为特征项的特征值及其权值计算所述信息样本的分值;其中的判别黑白样本模块1300主要用于在所述信息样本的分值达到/超过预定分值的情况下,将所述信息样本确定为用于训练贝叶斯分类模型的信息黑样本,否则,将所述信息样本确定为用于训练贝叶斯分类模型的信息白样本。
上述获取特征值模块1100、计算分值模块1200以及判别黑白样本模块1300具体执行的操作如上述针对图8的描述,在此不再重复说明。
识别模块1011中的判断模块1030主要用于根据待分析信息(即本实施例中的移动电话接收到的信息)的概率值的大小确定该待分析信息是否为垃圾信息。该判断模块1030可以包括:第一判断子模块1031、第二判断子模块1032以及第三判断子模块1033中的任意一个(如图15所示)。
作为示例,第一判断子模块1031可以根据上述第一概率值来判断信息是否为非垃圾信息,如第一判断子模块1031在确定出上述第一概率值大于第一概率阈值的情况下,将该信息识别为垃圾信息,而在确定出上述第一概率值不大于第一概率阈值的情况下,第一判断子模块1031将该信息识别为非垃圾信息。
作为示例,第二判断子模块1032可以根据上述第二概率值来判断信息是否为非垃圾信息,如第二判断子模块1032在确定出上述第二概率值大于第二概率阈值的情况下,将该信息识别为非垃圾信息,而在确定出上述第二概率值不大于第二概率阈值的情况下,第二判断子模块1032将该信息识别为垃圾信息。
作为示例,第三判断子模块1033可以根据上述第一概率值和第二概率值来判断信息是否为非垃圾信息,如第三判断子模块1033在确定出上述第一概率值大于第二概率值的情况下,将该信息识别为垃圾信息,而在确定出上述第一概率值不大于第二概率值的情况下,第三判断子模块1033将该信息识别为非垃圾信息。另外,在第三判断子模块1033设置于用户侧的移动电话中的情况下,如果第一概率值与第二概率值之间的差值较小(如差值小于预定差值)的情况下,则第三判断子模块1033可以向网络侧上报该信息,以由网络侧对该信息进行进一步的识别或者由网络侧利用该信息对贝叶斯分类模型进行训练调整。
作为示例,本实施例的装置还可以利用提取指纹模块1400、计算相似度模块1500以及确定模块1600针对包含有图片的信息进行是否为垃圾信息的识别;其中的提取指纹模块1400主要用于提取所述信息所包含的图片的指纹;其中的计算相似度模块1500主要用于计算所述指纹与预设的指纹库中的指纹的相似度;其中的确定模块1600主要用于在计算出的相似度满足预设的相似度要求的情况下,确定所述信息为垃圾信息,否则,确定所述信息为非垃圾信息。提取指纹模块1400、计算相似度模块1500以及确定模块1600所执行的具体操作如上述实施例一中针对图9的描述,在此不再详细说明。
需要注意的是,本申请的一部分可以被应用为计算机程序产品,例如计算机程序指令,当其被智能电子设备(如计算机或者服务器等)执行时,通过该智能电子设备的操作可以调用或者提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或者其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的智能电子设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请并不局限于上述示范性实施例的细节,而且在不背离本申请的精神或者基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将本申请的实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或者装置或者模块也可以由一个单元或者装置或者模块通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (14)
1.一种特定类型信息识别方法,其中,所述方法包括以下步骤:
对待分析信息进行分词处理以获得各分词,其中,所述分词为预设的信息表述的最小单位;
根据预设的词频词典查找各分词各自对应的词频,其中,所述词频表示分词出现的次数;
基于各分词各自对应的词频判断所述待分析信息是否为特定类型信息。
2.根据权利要求1所述的方法,其中,所述方法还包括下述至少一个步骤:
根据敏感词集合对待分析信息进行特定类型信息过滤处理;
根据发送方号码黑名单对待分析信息进行特定类型信息过滤处理;
根据表征发送方被举报次数的发送分值集合对待分析信息进行特定类型信息过滤处理。
3.根据权利要求1所述的方法,其中,所述基于各分词各自对应的词频判断所述待分析信息是否为特定类型信息的步骤包括:
将各分词各自对应的词频输入预设分类模型,以获得待分析信息的概率值;
根据所述待分析信息的概率值的大小判断所述待分析信息是否为特定类型信息。
4.根据权利要求1所述的方法,其中,所述预设分类模型包括:贝叶斯分类模型。
5.根据权利要求4所述的方法,其中,所述贝叶斯分类模型包括:基于分词对应的词频以及至少一个参数及其对应的权重值而设置的朴素贝叶斯分类模型;且所述参数包括下述至少一个:
基于待分析信息所包含的敏感词数量而设置的第一参数、基于待分析信息的发送方是否属于智能电子设备的通讯录而设置的第二参数以及基于表征待分析信息的发送方被举报次数的发送分值而设置的第三参数。
6.根据权利要求5所述的方法,其中,所述方法还包括下述至少一个步骤:
根据敏感词集合确定待分析信息所包含的敏感词数量,并根据所述敏感词数量为该待分析信息设置第一参数值;
根据待分析信息的发送方是否属于智能电子设备的通讯录为该待分析信息设置第二参数值;
根据表征发送方被举报次数的发送分值集合确定待分析信息的发送方对应的发送分值,并根据该对应的发送分值为该待分析信息设置第三参数值。
7.根据权利要求6所述的方法,其中,所述根据预设的词频词典查找各分词各自对应的词频的步骤包括:
根据预设的词频词典查找各分词各自对应的黑词频;和/或
根据预设的词频词典查找各分词各自对应的白词频;
且所述将各分词各自对应的词频输入贝叶斯分类模型以获得待分析信息的概率值的步骤包括:
将各分词各自对应的黑词频、第一参数值、第二参数值以及第三参数值输入贝叶斯分类模型以获得待分析信息为特定类型信息的第一概率值;和/或
将各分词各自对应的白词频、第一参数值、第二参数值以及第三参数值输入贝叶斯分类模型以获得待分析信息为非特定类型信息的第二概率值。
8.根据权利要求7所述的方法,其中,所述根据所述待分析信息的概率值的大小确定所述待分析信息是否为特定类型信息的步骤包括:
在确定出第一概率值超过第一概率阈值的情况下,将所述待分析信息确定为特定类型信息,否则,将所述待分析信息确定为非特定类型信息;或者
在确定出第二概率值超过第二概率阈值的情况下,将所述待分析信息确定为非特定类型信息,否则,将所述待分析信息确定为特定类型信息;或者
在确定出第一概率值超过第二概率值的情况下,将所述待分析信息确定为特定类型信息,否则,将所述待分析信息确定为非特定类型信息。
9.根据权利要求4所述的方法,其中,所述方法还包括:
针对信息样本集合中的信息样本的各发送行为特征项在信息样本集合中进行统计,以获得信息样本的各发送行为特征项的特征值;
根据各发送行为特征项的特征值及其权值计算所述信息样本的分值;
在所述信息样本的分值达到/超过预定分值的情况下,将所述信息样本确定为用于训练贝叶斯分类模型的信息黑样本,否则,将所述信息样本确定为用于训练贝叶斯分类模型的信息白样本。
10.根据权利要求9所述的方法,其中,所述发送行为特征项包括:信息样本的内容被发送的次数、信息样本的内容被发送给用户的用户数量、信息样本的内容的长度、信息样本的发送方被举报的次数、与信息样本的发送方联系的次数、信息样本的发送方接收信息的次数、与信息样本的发送方联系过的用户数量中的一个或者多个。
11.根据权利要求1至10中任一权利要求所述的方法,其中,所述方法还包括:
提取所述待分析信息所包含的图片的指纹;
计算所述指纹与预设的指纹库中的指纹的相似度;
在计算出的相似度满足预设的相似度要求的情况下,确定所述待分析信息为特定类型信息,否则,确定所述待分析信息为非特定类型信息。
12.一种特定类型信息识别装置,其中,所述装置包括:
分词处理模块,用于对待分析信息进行分词处理以获得待分析信息包含的各分词;
确定词频模块,用于根据预设的词频词典查找各分词各自对应的词频;
识别模块,用于基于各分词各自对应的词频计算判断所述待分析信息是否为特定类型信息。
13.根据权利要求12所述的装置,其中,所述识别模块包括:
计算概率值模块,用于将各分词各自对应的词频输入贝叶斯分类模型以获得待分析信息的概率值;
判断模块,用于根据所述待分析信息的概率值的大小判断所述待分析信息是否为特定类型信息。
14.一种特定类型信息识别方法,其中,所述方法包括以下步骤:
将音频/视频信息转换为文本格式的待分析信息;
对所述待分析信息进行分词处理以获得各分词;
根据预设的词频词典查找各分词各自对应的词频;
基于各分词各自对应的词频判断所述音频/视频信息是否为特定类型信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610429970.2A CN107515852A (zh) | 2016-06-16 | 2016-06-16 | 特定类型信息识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610429970.2A CN107515852A (zh) | 2016-06-16 | 2016-06-16 | 特定类型信息识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107515852A true CN107515852A (zh) | 2017-12-26 |
Family
ID=60720100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610429970.2A Pending CN107515852A (zh) | 2016-06-16 | 2016-06-16 | 特定类型信息识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107515852A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108632639A (zh) * | 2017-03-23 | 2018-10-09 | 北京小唱科技有限公司 | 一种视频类型判断方法及服务器 |
CN108874852A (zh) * | 2018-03-20 | 2018-11-23 | 中国科学院信息工程研究所 | 一种舆情信息中的个性化垃圾信息过滤方法及系统 |
CN109714356A (zh) * | 2019-01-08 | 2019-05-03 | 北京奇艺世纪科技有限公司 | 一种异常域名的识别方法、装置及电子设备 |
CN109840428A (zh) * | 2018-12-29 | 2019-06-04 | 北京奇安信科技有限公司 | 一种敏感短信的上报处理方法及装置 |
CN110457694A (zh) * | 2019-07-29 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 消息提醒方法及装置、场景类型识别提醒方法及装置 |
CN110532805A (zh) * | 2019-09-05 | 2019-12-03 | 国网山西省电力公司阳泉供电公司 | 数据脱敏方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722709A (zh) * | 2012-05-23 | 2012-10-10 | 杭州朗和科技有限公司 | 一种垃圾图片识别方法和装置 |
CN103634473A (zh) * | 2013-12-05 | 2014-03-12 | 南京理工大学连云港研究院 | 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统 |
CN104794125A (zh) * | 2014-01-20 | 2015-07-22 | 中国科学院深圳先进技术研究院 | 一种垃圾短信的识别方法及装置 |
-
2016
- 2016-06-16 CN CN201610429970.2A patent/CN107515852A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722709A (zh) * | 2012-05-23 | 2012-10-10 | 杭州朗和科技有限公司 | 一种垃圾图片识别方法和装置 |
CN103634473A (zh) * | 2013-12-05 | 2014-03-12 | 南京理工大学连云港研究院 | 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统 |
CN104794125A (zh) * | 2014-01-20 | 2015-07-22 | 中国科学院深圳先进技术研究院 | 一种垃圾短信的识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
黄文良 等: "一个大规模垃圾短信实时过滤系统", 《北京邮电大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108632639A (zh) * | 2017-03-23 | 2018-10-09 | 北京小唱科技有限公司 | 一种视频类型判断方法及服务器 |
CN108874852A (zh) * | 2018-03-20 | 2018-11-23 | 中国科学院信息工程研究所 | 一种舆情信息中的个性化垃圾信息过滤方法及系统 |
CN109840428A (zh) * | 2018-12-29 | 2019-06-04 | 北京奇安信科技有限公司 | 一种敏感短信的上报处理方法及装置 |
CN109714356A (zh) * | 2019-01-08 | 2019-05-03 | 北京奇艺世纪科技有限公司 | 一种异常域名的识别方法、装置及电子设备 |
CN110457694A (zh) * | 2019-07-29 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 消息提醒方法及装置、场景类型识别提醒方法及装置 |
CN110457694B (zh) * | 2019-07-29 | 2023-09-22 | 腾讯科技(上海)有限公司 | 消息提醒方法及装置、场景类型识别提醒方法及装置 |
CN110532805A (zh) * | 2019-09-05 | 2019-12-03 | 国网山西省电力公司阳泉供电公司 | 数据脱敏方法及装置 |
CN110532805B (zh) * | 2019-09-05 | 2023-01-24 | 国网山西省电力公司阳泉供电公司 | 数据脱敏方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515852A (zh) | 特定类型信息识别方法及装置 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
EP2681895B1 (en) | Method and apparatus for grouping client devices based on context similarity | |
CN103117903B (zh) | 上网流量异常检测方法及装置 | |
CN110334241A (zh) | 客服录音的质检方法、装置、设备及计算机可读存储介质 | |
CN103731832A (zh) | 防电话、短信诈骗的系统和方法 | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN103258535A (zh) | 基于声纹识别的身份识别方法及系统 | |
CN114760172B (zh) | 射频基带综合特征信号识别方法与装置 | |
CN112001170A (zh) | 一种识别经过变形的敏感词的方法和系统 | |
CN115798459B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN113191787A (zh) | 电信数据的处理方法、装置电子设备及存储介质 | |
CN108766464A (zh) | 基于电网频率波动超矢量的数字音频篡改自动检测方法 | |
CN109117622A (zh) | 一种基于音频指纹的身份认证方法 | |
CN103218368A (zh) | 一种挖掘热词的方法与装置 | |
CN114610840A (zh) | 基于敏感词的账务监控方法、装置、设备及存储介质 | |
KR102171658B1 (ko) | 크라우드전사장치 및 그 동작 방법 | |
CN117745237A (zh) | 内容审查方法、装置、设备以及存储介质 | |
CN112966296A (zh) | 基于规则配置和机器学习的敏感信息过滤方法和系统 | |
CN117238322A (zh) | 一种基于智能感知的自适应语音调控方法及系统 | |
Nandakumar et al. | Scamblk: A voice recognition-based natural language processing approach for the detection of telecommunication fraud | |
CN113573029B (zh) | 一种基于iot的多方音视频交互方法及系统 | |
CN111464687A (zh) | 一种陌生呼叫请求的处理方法及装置 | |
CN114330369A (zh) | 基于智能语音分析的地产营销管理方法、装置及设备 | |
CN113011503B (zh) | 一种电子设备的数据取证方法、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1248344 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171226 |