CN105320765B - 消息异常度值的获取方法和装置 - Google Patents
消息异常度值的获取方法和装置 Download PDFInfo
- Publication number
- CN105320765B CN105320765B CN201510702448.2A CN201510702448A CN105320765B CN 105320765 B CN105320765 B CN 105320765B CN 201510702448 A CN201510702448 A CN 201510702448A CN 105320765 B CN105320765 B CN 105320765B
- Authority
- CN
- China
- Prior art keywords
- theme
- message
- nucleotide sequence
- subject nucleotide
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000002773 nucleotide Substances 0.000 claims abstract description 87
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 87
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 31
- 230000002159 abnormal effect Effects 0.000 claims description 29
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 26
- 238000012163 sequencing technique Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 230000005856 abnormality Effects 0.000 abstract description 7
- 238000009412 basement excavation Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种消息异常度值的获取方法和装置。所述方法包括:从非结构化文本消息中提取消息的主题和所述主题对应的概率;获取消息的发送方信息;将相同发送方信息的主题组成主题集合;按照消息的发送时刻将主题集合中主题进行排序,以得到主题有序集合;从主题有序集合中提取主题序列;利用主题对应的概率计算主题序列的概率支持度;利用概率支持度计算全局背景值;利用概率支持度和全局背景值,获取消息异常度值。本发明实施例提供的消息异常度值的获取方法和装置,通过从时序文本消息中抽取主题序列,获取序列的概率支持度和用户行为的异常度,从而实现了从大量非结构化文本消息中进行消息异常度值的挖掘。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种消息异常度值的获取方法和装置。
背景技术
数据库是组织、存储和管理数据的仓库,其中存储着大量的数据,隐藏着许多重要信息。从数据库的海量数据中挖掘有用信息的技术,称为数据挖掘。在数据库中,数据表中可能包含一些数据对象,它们反映着与一般用户行为不一致的行为模型,这些行为被称为异常行为,从数据库中发现这些行为的过程称为异常行为数据挖掘,它是一种重要的数据挖掘技术。
在实际应用中,大多数信息是以文本形式存储在数据库中的,如电子邮件、Web页面、即时消息等。数据库中存储的文本数据既包括结构化内容,例如电子邮件文档,这些文档包含结构字段,如标题、发送人、接收人、发送时间等,也包含大量非结构化文本成分,如邮件正文内容。这些文本数据具有时序性的特点,不同时间的文本消息之间可能存在一定的关联,其中可能隐藏着一些具有重要影响的异常行为。因此,需要面向时序文本消息进行异常行为数据挖掘。
常用的异常数据挖掘方法包括:(1)基于统计的方法,对给定的数据集合假设了一个分布或者概率模型(例如正态分布),然后根据模型采用不一致性检验来确定异常点数据。(2)基于距离的方法,根据数据对象间的距离确定对象的近邻个数,将近邻个数小于阈值的对象确定为异常对象。(3)基于偏差的方法,通过观察一个连续序列后,发现其中某些与其它数据明显不同的异常数据对象。(4)基于密度的方法,基于密度聚类算法,通过获取对象局部异常因子来确定异常数据,异常因子的值反映了数据的异常程度。
基于统计的方法要求数据符合假设的分布模型,基于距离、偏差,以及密度的方法主要针对属性为数值型的对象,而且它们都面向结构化数据,不适用于非结构化文本数据的挖掘。而且,传统文本挖掘的研究主要集中于对文本表示、分词、特征选择等算法,没有考虑在时序文本的应用场景中,不同文本数据之间的关联,即文本上下文的语义信息,因而不能满足从时序文本中挖掘异常行为的需求。
发明内容
本发明提供了一种消息异常度值的获取方法和装置,通过从时序文本消息中抽取主题序列,获取序列的概率支持度和用户行为的异常度,从而实现了从大量非结构化文本消息中挖掘出异常行为消息。
第一方面,本发明提供了一种消息异常度值的获取方法,所述方法包括:
从非结构化文本消息中提取消息的主题和所述主题对应的概率;
获取所述消息的发送方信息;
将相同发送方信息的主题组成主题集合;
按照消息的发送时刻将所述主题集合中主题进行排序,以得到主题有序集合;
从所述主题有序集合中提取主题序列;
利用主题对应的概率计算所述主题序列的概率支持度,其中,所述概率支持度为所述主题序列发生的概率的最大值;
利用所述概率支持度计算全局背景值;
利用所述概率支持度和所述全局背景值,获取消息异常度值。
结合第一方面,在第一方面的第一种可能的实现方式中,所述按照消息的发送时刻将所述主题集合中主题进行排序,以得到主题有序集合具体包括:
从所述文本消息中提取非结构化文本消息的发送时刻;
按照消息发送时刻的先后顺序对主题进行排序,得到所述主题有序集合。
结合第一方面,在第一方面的第二种可能的实现方式中,所述从所述主题有序集合中提取主题序列具体为:
从所述主题有序集合的元素中提取一元序列和/或多元序列,构成一组主题序列,其中,所述一元序列包括一个主题,所述多元序列包括多个主题,且所述多元序列中的主题均不包括在所述主题集合中的同一个元素内。
结合第一方面,在第一方面的第三种可能的实现方式中,所述利用主题对应的概率计算所述主题序列的概率支持度具体为:
根据公式获取到主题序列的概率支持
度,其中,αi为第i个主题序列,pj为第j个
主题的概率,ψi为第i个主题序列集合,|Ru|为主题序列的数量。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述利用所述概率支持度计算全局背景值具体为:
根据公式获取到全局背景值,其中,|U|为消息发送方的数量,uj为第j个发送方。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述利用所述概率支持度和所述全局背景值,获取所述消息的异常度值具体为:
根据公式
获取
到所述消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(α,β)为序列α和序列β的
相似度。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,在利用所述概率支持度和所述全局背景值,获取消息异常度值之后,所述方法还包括:
输出包含所述异常度值的异常信息。
结合第一方面至第一方面的第六种可能的实现方式中的任一种,在第一方面的第七种可能的实现方式中,在从非结构化文本消息中提取消息的主题和所述主题对应的概率之前,所述方法还包括:
从文本消息中提取非结构化文本消息。
第二方面,本发明提供了一种消息异常度值的获取装置,所述装置包括:
第一提取单元,用于从非结构化文本消息中提取消息的主题和所述主题对应的概率;
第一获取单元,用于获取所述消息的发送方信息;
处理单元,用于将相同发送方信息的主题组成主题集合;
排序单元,用于按照消息的发送时刻将所述主题集合中主题进行排序,以得到主题有序集合;
第二提取单元,用于从所述主题有序集合中提取主题序列;
第二获取单元,用于利用主题对应的概率计算所述主题序列的概率支持度,其中,所述主题的概率支持度为所述主题序列发生的概率的最大值;
还用于利用所述概率支持度计算全局背景值;
还用于利用所述概率支持度和所述全局背景值,获取消息异常度值。
结合第二方面,在第二方面的第一种可能的实现方式中,所述排序单元具体用于:
从所述文本消息中提取非结构化文本消息的发送时刻;
按照消息发送时刻的先后顺序对主题进行排序,以得到排序后的主题有序集合。
结合第二方面,在第二方面的第二种可能的实现方式中,所述第二提取单元,具体用于:从所述主题有序集合的元素中提取一元序列和/或多元序列,构成一组主题序列,其中,所述一元序列包括一个主题,所述多元序列包括多个主题,且所述多元序列中的主题均不包括在所述主题集合中的同一个元素内。
结合第二方面,在第二方面的第三种可能的实现方式中,所述第二获取单元具体用于:
根据公式获取到主题序列的概率支持
度,其中,αi为第i个主题序列,pj为第j个
主题的概率,ψi为第i个主题序列集合,|Ru|为主题序列的数量。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述第二获取单元具体用于:
根据公式获取到全局背景值,其中,|U|为消息发送方的数量,uj为第j个发送方。
结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,所述第二获取单元具体用于:
根据公
获取到所述消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(α,β)为序列α和序列
β的相似度。
结合第二方面,在第二方面的第六种可能的实现方式中,所述装置还包括:
输出单元,用于输出包含所述异常度值的异常信息。
结合第二方面至第二方面的第六种可能的实现方式中的任一种,在第二方面第七种可能的实现方式中,所述装置还包括:
第三提取单元,用于所述从文本消息中提取非结构化文本消息。
第三方面,本发明提供了一种消息异常度值的获取装置,所述装置包括:
主节点和从节点;
所述主节点包括:分类模块和汇总模块;
所述分类模块,用于从非结构化文本消息中提取消息的主题和所述主题对应的概率;
还用于获取所述消息的发送方信息;
还用于将相同发送方信息的主题组成主题集合,并将所述主题集合发送到所述从节点。
所述汇总模块,用于对从节点获取到的消息异常度值进行汇总。
所述从节点包括:排序模块、提取模块和获取模块;
所述排序模块,用于接收所述主节点发送的所述主题集合,按照消息的发送时刻将所述主题集合中主题进行排序,以得到主题有序集合;
所述提取模块,用于从所述主题有序集合中提取主题序列;
所述获取模块,用于利用主题对应的概率计算所述主题序列的概率支持度,其中,所述主题的概率支持度为所述主题序列发生的概率的最大值;
还用于利用所述概率支持度计算全局背景值;
还用于利用所述概率支持度和所述全局背景值,获取消息异常度值。
结合第三方面,在第三方面的第一种可能的实现方式中,所述排序模块具体用于:
从所述文本消息中提取非结构化文本消息的发送时刻;
按照消息发送时刻的先后顺序对主题进行排序,以得到排序后的主题有序集合。
结合第三方面,在第三方面的第二种可能的实现方式中,所述提取模块具体用于:
从所述主题有序集合的元素中提取一元序列和/多元序列,构成一组主题序列,其中,所述一元序列包括一个主题,所述多元序列包括多个主题,且所述多元序列中的主题均不包括在所述主题集合中的同一个元素内。
结合第三方面,在第三方面的第三种可能的实现方式中,所述获取模块具体用于:
根据公式获取到主题序列的概率支持
度,其中,αi为第i个主题序列,pj为第j个
主题的概率,ψi为第i个主题序列集合,|Ru|为主题序列的数量。
结合第三方面的第三种可能的实现方式,在第三方面的第四种可能的实现方式中,所述获取模块具体用于:
根据公式获取到全局背景值,其中,|U|为消息发送方的数量,uj为第j个发送方。
结合第三方面的第四种可能的实现方式,在第三方面的第五种可能的实现方式中,所述获取模块具体用于:
根据公
获取到所述消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(α,β)为序列α和序列
β的相似度。
结合第三方面,在第三方面的第六种可能的实现方式中,所述主节点还包括:输出模块;
所述输出模块,用于输出包含所述异常度值的异常信息。
结合第三方面至第三方面的第六种可能的实现方式中的任一种,在第三方面的第七种可能的实现方式中,所述主节点还包括:消息提取模块;
所述消息提取模块,用于从文本消息中提取非结构化文本消息。
本发明实施例提供的消息异常度值的获取方法和装置,通过从时序文本消息中抽取主题序列,获取序列的概率支持度和用户行为的异常度,从而实现了从大量非结构化文本消息中挖掘出异常行为消息。
附图说明
图1为本发明实施例一提供的消息异常度值的获取方法的流程图;
图2为本发明实施例二提供的消息异常度值的获取装置示意图;
图3为本发明实施例三提供的消息异常度值的获取装置示意图;
图4为本发明实施例四提供的消息异常度值的获取装置示意图。
具体实施方式
下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。
本发明实施例提供的消息异常度值的获取方法,应用于对具有时序性的文本消息数据库中存在的异常行为数据进行挖掘。时序文本消息的内容包括:发送发和接收方;消息的发送时间;消息的正文内容。其中,消息的正文内容为非结构化文本消息。
图1为本发明实施例一提供的消息异常度值的获取方法的流程图,如图1所示,所述方法包括如下步骤:
步骤110,从非结构化文本消息中提取消息的主题和主题对应的概率。
具体地,采用文本主题挖掘技术,从非结构化文本消息中提取消息的主题和所述主题对应的概率,组成二元数组集合。
例如,一个文本消息提取主题和对应的概率后可以表示为二元数组集合<(z1,0.5),(z2,0.25)>,其中,z1和z2为提取出的主题,每个文本消息可以提取一个或多个主题,0.5和0.25分别为z1和z2对应的概率。
其中,消息的主题为对消息内容的语义抽象。文本主题挖掘技术为现有技术,此处不作详细描述。
需要说明的是,从非结构化文本消息中提取出消息的主题之后,可以结合主题数据库,将提取出的主题与主题数据库中的数据进行比对,判断提取出的主题是否已经存在于主题数据库中,如果是,则输出所述主题,如果不是,则将提取出的主题更新到主题数据库。
可选地,在从非结构化文本消息中提取消息的主题和所述主题对应的概率之前,还包括:
从文本消息中提取非结构化文本消息。
步骤120,获取消息的发送方信息。
具体地,从文本消息中获取消息的发送方信息。
步骤130,将相同发送方信息的主题组成主题集合。
具体地,根据步骤120中获取到的消息发送方信息对步骤110中提取出的主题进行分类,将相同发送方发送的消息的主题组成一个主题集合,得到不同发送方发送的消息的多个主题集合。
步骤140,按照消息的发送时刻将主题集合中的主题进行排序,以得到主题有序集合。
具体地,从文本消息中提取非结构化文本消息的发送时刻;按照消息发送时刻的先后顺序对消息对应的主题进行排序,得到排序后的主题集合。
步骤150,从主题有序集合中提取主题序列。
具体地,从主题有序集合的元素中提取一元和/或多元序列,构成一组主题序列,其中一元序列包括一个主题,多元序列包括多个主题,且多元序列中的主题均不包括在主题集合中的同一个元素内。
例如,发送方u1发送的非结构化文本消息经过步骤110~步骤140处理后,得到主题有序集合{<(z1,0.5),(z2,0.25)>,<(z3,0.2)>},从中提取主题序列,得到以下一组一元和二元序列:{z1}、{z2}、{z3}、{z1→z3}、{z2→z3}。
需要说明的是,多元序列代表主题的迁移,就像发送方向接收方发送多条短信时,第一条短信中主题是体操,而在第二条短信中的主题是锦标赛。即发送短信内容中的主题从一个过渡到另一个。而同一条短信中的两个主题不会同时出现在第一条短信和第二条短信中。例如上述所说的主题集合中z1和z2是同一非结构化文本消息中的两个主题,而不在第二条非结构化文本消息中出现。因此,主题序列中将不会出现{z1→z2}这一组序列,也就是多元序列中的主题均不包括在主题集合中的同一个元素内。
步骤160,利用主题对应的概率获取所述主题序列的概率支持度。
具体地,概率支持度为主题序列发生的概率的最大值,具体可以根据公式
获取到主题序列的概率支持度,其中, αi为第i个主题序列,pj为第j个主题的概率,ψi为第i个主题序列集合,|Ru|为主题序列的数量。
步骤170,利用概率支持度获取全局背景值。
具体地,根据公式
获取到全局背景值,其中,|U|为消息发送方的数量,uj为第j个发送方。
步骤180,利用概率支持度和全局背景值,获取消息异常度值。
具体地,根据公式
获取到消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(α,β)为序列α和序列β的相似度。
其中,序列相似度获取方法为现有技术,此处不作详细描述。
需要说明的是,公式(3)结合了异常行为主题数据库,通过异常行为主题数据库中与序列α相似度最高的序列β的异常度值来获取序列α的异常度值。如果不结合异常行为主题数据库,则序列α的异常度值通过以下公式获取:
可选地,在利用所述概率支持度和所述全局背景值,获取消息异常度值之后,还包括:输出包含异常度值的异常信息。
在一个具体的例子中,输出的异常信息如表1所示:
表1
发送方 | 主题序列 | 发送时间 | 异常度值 |
u<sub>1</sub> | {z<sub>1</sub>→z<sub>3</sub>} | 2013-04-05 14:25:26 | 0.45 |
u<sub>2</sub> | {z<sub>2</sub>→z<sub>4</sub>→z<sub>3</sub>} | 2013-04-06 00:26:31 | 0.32 |
…… | …… | …… | …… |
需要说明的是,本发明实施例提供的消息异常度值的获取方法的实现,可以通过在数据库中使用存储过程和触发器,使得每次新数据到达后,触发执行步骤110~步骤180的过程,将获取到的异常行为信息更新到异常行为信息数据库;另外,用户也可以通过结构化查询语言(Structured Query Language,SQL)接口,对序列文本消息表和主题库、异常行为信息数据库进行联接查询,得到异常用户行为分析的结果。
本发明实施例提供的消息异常度值的获取方法,通过从时序文本消息中抽取主题序列,获取序列的概率支持度和用户行为的异常度,从而实现了从大量非结构化文本消息中挖掘出异常行为消息。
图2为本发明实施例二提供的消息异常度值的获取装置示意图,如图2所示,所述装置包括:第一提取单元201、第一获取单元202、处理单元203、排序单元204、第二提取单元205和第二获取单元206。
第一提取单元201,用于从非结构化文本消息中提取消息的主题和主题对应的概率;
第一获取单元202,用于获取消息的发送方信息;
处理单元203,用于将相同发送方信息的主题组成主题集合;
排序单元204,用于按照消息的发送时刻将主题集合中主题进行排序,得到主题有序集合;
第二提取单元205,用于从主题有序集合中提取主题序列;
第二获取单元206,用于利用主题对应的概率计算主题序列的概率支持度,其中主题的概率支持度为主题序列发生的概率的最大值;
还用于利用概率支持度计算全局背景值;
还用于利用概率支持度和全局背景值,获取消息异常度值。
排序单元204具体用于:
从文本消息中提取非结构化文本消息的发送时刻;
按照消息发送时刻的先后顺序对主题进行排序,以得到排序后的主题集合。
第二提取单元205具体用于:从主题有序集合的元素中提取一元序列和/或多元序列,构成一组主题序列,其中,所述一元序列包括一个主题,多元序列包括多个主题,且多元序列中的主题均不包括在主题集合中的同一个元素内。
例如,发送方u1发送的非结构化文本消息经过相应的处理后,第二提取单元205得到主题有序集合{<(z1,0.5),(z2,0.25)>,<(z3,0.2)>},从中提取主题序列,得到以下一组一元序列和二元序列:{z1}、{z2}、{z3}、{z1→z3}、{z2→z3}。
需要说明的是,多元序列代表主题的迁移,就像发送方向接收方发送多条短信时,第一条短信中主题是体操,而在第二条短信中的主题是锦标赛。即发送短信内容中的主题从一个过渡到另一个。而同一条短信中的两个主题不会同时出现在第一条短信和第二条短信中。例如上述所说的主题集合中z1和z2是同一非结构化文本消息中的两个主题,而不在第二条非结构化文本消息中出现。因此,主题序列中将不会出现{z1→z2}这一组序列,也就是多元序列中的主题均不包括在主题集合中的同一个元素内。
所述第二获取单元206具体用于:
根据公式获取到主题序列的概率支持
度,其中,αi为第i个主题序列,pj为第j个
主题的概率,ψi为第i个主题序列集合,|Ru|为主题序列的数量;
根据公式获取到全局背景值,其中,|U|为消息发送方的数量,uj为第j个发送方;
根据公
获取到所述消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(α,β)为序列α和序列
β的相似度。
可选地,装置还包括:第三提取单元207,用于在第一提取单元201从非结构化文本消息中提取消息的主题和主题对应的概率之前,从文本消息中提取非结构化文本消息。
另外,所述装置还可以包括:
输出单元208,用于输出包含所述异常度值的异常信息。
本申请实施例二提供的装置植入了本申请实施例一提供的方法,因此,本申请提供的装置的具体工作过程,在此不复赘述。
本发明实施例提供的消息异常度值的获取装置,通过从时序文本消息中抽取主题序列,获取序列的概率支持度和用户行为的异常度,从而实现了从大量非结构化文本消息中挖掘出异常行为消息。
图3为本发明实施例三提供的消息异常度值的获取装置示意图,如图3所示,所述装置包括:主节点301和从节点302;
所述主节点301包括:分类模块3011和汇总模块3012;
所述分类模块3011,用于从非结构化文本消息中提取消息的主题和主题对应的概率;
还用于获取消息的发送方信息;
还用于将相同发送方信息的主题组成主题集合,并将主题集合发送到从节点。
所述汇总模块3012,用于对从节点获取到的消息异常度值进行汇总。
从节点302包括:排序模块3021、提取模块3022和获取模块3023;
排序模块3021,用于接收主节点发送的主题集合,按照消息的发送时刻将主题集合中的主题进行排序,以得到主题有序集合;
提取模块3022,用于从主题有序集合中提取主题序列;
所述获取模块3023,用于利用主题对应的概率获取主题序列的概率支持度,其中,主题的概率支持度为主题序列发生的概率的最大值;
还用于利用概率支持度获取全局背景值;
还用于利用概率支持度和全局背景值,获取消息异常度值。
所述排序模块3021具体用于:
从文本消息数据库中提取非结构化文本消息的发送时刻;
按照消息发送时刻的先后顺序对主题进行排序,以得到排序后的主题集合。
提取模块3022具体用于:
从主题有序集合的元素中提取一元序列和/多元序列,构成一组主题序列,其中,一元序列包括一个主题,多元序列包括多个主题,且多元序列中的主题均不包括在主题集合中的同一个元素内。
例如,发送方u1发送的非结构化文本消息经过相应的处理后,排序模块3021得到主题有序集合{<(z1,0.5),(z2,0.25)>,<(z3,0.2)>},从中提取主题序列,得到以下一组一元序列和二元序列:{z1}、{z2}、{z3}、{z1→z3}、{z2→z3}。
需要说明的是,多元序列代表主题的迁移,就像发送方向接收方发送多条短信时,第一条短信中主题是体操,而在第二条短信中的主题是锦标赛。即发送短信内容中的主题从一个过渡到另一个。而同一条短信中的两个主题不会同时出现在第一条短信和第二条短信中。例如上述所说的主题集合中z1和z2是同一非结构化文本消息中的两个主题,而不在第二条非结构化文本消息中出现。因此,主题序列中将不会出现{z1→z2}这一组序列,也就是多元序列中的主题均不包括在主题集合中的同一个元素内。
获取模块3023具体用于:
根据公式获取到主题序列的概率支持
度,其中,αi为第i个主题序列,pj为第j个
主题的概率,ψi为第i个主题序列集合,|Ru|为主题序列的数量;
根据公式获取到全局背景值,其中,|U|为消息发送方的数量,uj为第j个发送方;
根据公
获取到消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(α,β)为序列α和序列β的
相似度。
可选地,主节点还包括:消息提取模块3013;
消息提取模块3013,用于从文本消息中提取非结构化文本消息。
另外,主节点301还可以包括:输出模块3014;
输出模块3014,用于输出包含异常度值的异常信息。
需要说明的是,本实施例三应用于大规模并行处理系统(Massively ParallelProcessing,MPP),所述从节点可以为多个。
本发明实施例提供的消息异常度值的获取装置,通过从时序文本消息中抽取主题序列,获取序列的概率支持度和用户行为的异常度,从而实现了从大量非结构化文本消息中挖掘出异常行为消息。
图4为本发明实施例四提供的消息异常度值的获取装置示意图。如图4所示,所述消息异常度值的获取装置包括:处理器401、存储器402、通信接口403和总线404。其中,处理器401、存储器402和通信接口403通过总线404实现彼此之间的通信连接。
处理器401可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现前述本发明方法实施例所提供的技术方案。
存储器402可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器402可以存储操作系统和其他应用程序。在通过软件或者固件来实现本发明实施例提供的技术方案时,用于实现本发明前述方法实施例提供的任一可选技术方案的程序代码保存在存储器402中,并由处理器401来执行。
通信接口403用以与SDN网络中其他交换机或控制服务器通信。
总线404可包括一通路,在所述消息异常度值的获取装置各个部件(例如处理器401、存储器402和通信接口403)之间传送信息。
本发明实施例提供的消息异常度值的获取装置,通过从时序文本消息中抽取主题序列,获取序列的概率支持度和用户行为的异常度,从而实现了从大量非结构化文本消息中挖掘出异常行为消息。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、获取机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (24)
1.一种消息异常度值的获取方法,其特征在于,所述方法包括:
从非结构化文本消息中提取消息的主题和所述主题对应的概率;
获取所述消息的发送方信息;
将相同发送方信息的主题组成主题集合;
按照消息的发送时刻将所述主题集合中主题进行排序,以得到主题有序集合;
从所述主题有序集合中提取主题序列;
利用主题对应的概率计算所述主题序列的概率支持度,其中,所述概率支持度为所述主题序列发生的概率的值;
利用所述概率支持度计算全局背景值;
利用所述概率支持度和所述全局背景值,获取消息异常度值。
2.根据权利要求1所述的方法,其特征在于,所述按照消息的发送时刻将所述主题集合中主题进行排序,以得到主题有序集合具体包括:
从所述文本消息中提取非结构化文本消息的发送时刻;
按照消息发送时刻的先后顺序对主题进行排序,得到所述主题有序集合。
3.根据权利要求1所述的方法,其特征在于,所述从所述主题有序集合中提取主题序列具体为:
从所述主题有序集合的元素中提取一元序列和/或多元序列,构成一组主题序列,其中,所述一元序列包括一个主题,所述多元序列包括多个主题,且所述主题有序集合中同一非结构化文本消息中的两个主题构成的多元序列不包括在所提取的所述主题序列内。
4.根据权利要求1所述的方法,其特征在于,所述利用主题对应的概率计算所述主题序列的概率支持度具体为:
根据公式获取到主题序列的概率支持度,其中,αi为第i个主题序列,pj为第j个主题的概率,ψi为第i个主题序列集合,|Ru|为主题序列的数量,n为主题的数目,u为消息发送方。
5.根据权利要求4所述的方法,其特征在于,所述利用所述概率支持度计算全局背景值具体为:
根据公式获取到全局背景值,其中,|U|为消息发送方的数量,uj为第j个发送方。
6.根据权利要求5所述的方法,其特征在于,所述利用所述概率支持度和所述全局背景值,获取所述消息的异常度值具体为:
根据公式
获取到所述消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(α,β)为序列α和序列β的相似度。
7.根据权利要求6所述的方法,其特征在于,在利用所述概率支持度和所述全局背景值,获取消息异常度值之后,所述方法还包括:
输出包含所述异常度值的异常信息。
8.根据权利要求1-7中任一项所述的方法,其特征在于,在从非结构化文本消息中提取消息的主题和所述主题对应的概率之前,所述方法还包括:
从文本消息中提取非结构化文本消息。
9.一种消息异常度值的获取装置,其特征在于,所述装置包括:
第一提取单元,用于从非结构化文本消息中提取消息的主题和所述主题对应的概率;
第一获取单元,用于获取所述消息的发送方信息;
处理单元,用于将相同发送方信息的主题组成主题集合;
排序单元,用于按照消息的发送时刻将所述主题集合中主题进行排序,以得到主题有序集合;
第二提取单元,用于从所述主题有序集合中提取主题序列;
第二获取单元,用于利用主题对应的概率计算所述主题序列的概率支持度,其中,所述概率支持度为所述主题序列发生的概率的值;
还用于利用所述概率支持度计算全局背景值;
还用于利用所述概率支持度和所述全局背景值,获取消息异常度值。
10.根据权利要求9所述的装置,其特征在于,所述排序单元具体用于:
从所述文本消息中提取非结构化文本消息的发送时刻;
按照消息发送时刻的先后顺序对主题进行排序,得到排序后的主题有序集合。
11.根据权利要求9所述的装置,其特征在于,所述第二提取单元,具体用于:从所述主题有序集合的元素中提取一元序列和/或多元序列,构成一组主题序列,其中,所述一元序列包括一个主题,所述多元序列包括多个主题,且所述主题有序集合中同一非结构化文本消息中的两个主题构成的多元序列不包括在所提取的所述主题序列内。
12.根据权利要求9所述的装置,其特征在于,所述第二获取单元具体用于:
根据公式获取到主题序列的概率支持度,其中,αi为第i个主题序列,pj为第j个主题的概率,ψi为第i个主题序列集合,|Ru|为主题序列的数量,n为主题的数目,u为消息发送方。
13.根据权利要求12所述的装置,其特征在于,所述第二获取单元还用于:
根据公式获取到全局背景值,其中,|U|为消息发送方的数量,uj为第j个发送方。
14.根据权利要求13所述的装置,其特征在于,所述第二获取单元还用于:
根据公获取到所述消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(α,β)为序列α和序列β的相似度。
15.根据权利要求9所述的装置,其特征在于,所述装置还包括:
输出单元,用于输出包含所述异常度值的异常信息。
16.根据权利要求9-15任一项所述的装置,其特征在于,所述装置还包括:
第三提取单元,用于所述从文本消息中提取非结构化文本消息。
17.一种消息异常度值的获取装置,其特征在于,所述装置包括:主节点和从节点;
所述主节点包括:分类模块和汇总模块;
所述分类模块,用于从非结构化文本消息中提取消息的主题和所述主题对应的概率;
还用于获取所述消息的发送方信息;
还用于将相同发送方信息的主题组成主题集合,并将所述主题集合发送到所述从节点;
所述汇总模块,用于对从节点获取到的消息异常度值进行汇总;
所述从节点包括:排序模块、提取模块和获取模块;
所述排序模块,用于接收所述主节点发送的所述主题集合,按照消息的发送时刻将所述主题集合中主题进行排序,以得到主题有序集合;
所述提取模块,用于从所述主题有序集合中提取主题序列;
所述获取模块,用于利用主题对应的概率计算所述主题序列的概率支持度,其中,所述概率支持度为所述主题序列发生的概率的值;
还用于利用所述概率支持度计算全局背景值;
还用于利用所述概率支持度和所述全局背景值,获取消息异常度值。
18.根据权利要求17所述的装置,其特征在于,所述排序模块具体用于:
从所述文本消息中提取非结构化文本消息的发送时刻;
按照消息发送时刻的先后顺序对主题进行排序,以得到排序后的主题有序集合。
19.根据权利要求17所述的装置,其特征在于,所述提取模块具体用于:
从所述主题有序集合的元素中提取一元序列和/多元序列,构成一组主题序列,其中,所述一元序列包括一个主题,所述多元序列包括多个主题,且所述主题有序集合中同一非结构化文本消息中的两个主题构成的多元序列不包括在所提取的所述主题序列内。
20.根据权利要求17所述的装置,其特征在于,所述获取模块具体用于:
根据公式获取到主题序列的概率支持度,其中,αi为第i个主题序列,pj为第j个主题的概率,ψi为第i个主题序列集合,|Ru|为主题序列的数量,n为主题的数目,u为消息发送方。
21.根据权利要求20所述的装置,其特征在于,所述获取模块还用于:
根据公式获取到全局背景值,其中,|U|为消息发送方的数量,uj为第j个发送方。
22.根据权利要求21所述的装置,其特征在于,所述获取模块还用于:
根据公获取到所述消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(α,β)为序列α和序列β的相似度。
23.根据权利要求17所述的装置,其特征在于,所述主节点还包括:输出模块;
所述输出模块,用于输出包含所述异常度值的异常信息。
24.根据权利要求17-23任一项所述的装置,其特征在于,所述主节点还包括:消息提取模块;
所述消息提取模块,用于从文本消息中提取非结构化文本消息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510702448.2A CN105320765B (zh) | 2015-10-26 | 2015-10-26 | 消息异常度值的获取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510702448.2A CN105320765B (zh) | 2015-10-26 | 2015-10-26 | 消息异常度值的获取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105320765A CN105320765A (zh) | 2016-02-10 |
CN105320765B true CN105320765B (zh) | 2019-02-05 |
Family
ID=55248151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510702448.2A Active CN105320765B (zh) | 2015-10-26 | 2015-10-26 | 消息异常度值的获取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320765B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112822686A (zh) * | 2019-11-18 | 2021-05-18 | 中国移动通信集团广东有限公司 | 一种异常短消息的检测方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411599A (zh) * | 2011-08-01 | 2012-04-11 | 中国民生银行股份有限公司 | 数据仓库中异常行为的处理方法及监测服务器 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和系统 |
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IN2014MU00919A (zh) * | 2014-03-20 | 2015-09-25 | Tata Consultancy Services Ltd |
-
2015
- 2015-10-26 CN CN201510702448.2A patent/CN105320765B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411599A (zh) * | 2011-08-01 | 2012-04-11 | 中国民生银行股份有限公司 | 数据仓库中异常行为的处理方法及监测服务器 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和系统 |
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
Non-Patent Citations (4)
Title |
---|
"A SIMPLE OUTLIER DETECTION METHOD FOR INTRA-SUBJECT TIME-SERIES DATA";David R. Mullineaux ET AL;《ResearchGate》;20140131;全文 |
"基于数据挖掘的网络舆情分析模型";赵纪涛 等;《现代计算机》;20140731;全文 |
"基于社交网站的数据挖掘应用研究";张娅楠;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150515;全文 |
《A Novel Fuzzy Clustering Method for Outlier Detection in Data Mining》;Binu Thomas ET AL;《International Journal of Recent Trends in Engineering》;20090531;第2卷(第1期);全文 |
Also Published As
Publication number | Publication date |
---|---|
CN105320765A (zh) | 2016-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106096066A (zh) | 基于随机近邻嵌入的文本聚类方法 | |
Carpena et al. | Level statistics of words: Finding keywords in literary texts and symbolic sequences | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
Lee | Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams | |
JP2012523621A5 (zh) | ||
CN103282903A (zh) | 话题提取装置和程序 | |
Kim et al. | Mining frequent itemsets with normalized weight in continuous data streams | |
CN106294418A (zh) | 检索方法和检索系统 | |
Leão et al. | Evolutionary patterns in the geographic range size of Atlantic Forest plants | |
CN109657060B (zh) | 安全生产事故案例推送方法及系统 | |
Yan | Mapreduce and semantics enabled event detection using social media | |
CN105320765B (zh) | 消息异常度值的获取方法和装置 | |
Errecalde et al. | ITSA⋆: An effective iterative method for short-text clustering tasks | |
Cheung et al. | On mining micro-array data by order-preserving submatrix | |
CN107562822A (zh) | 一种舆情事件挖掘方法和系统 | |
Ahmed et al. | Efficient mining of weighted frequent patterns over data streams | |
Apostolico et al. | Speedup for a periodic subgraph miner | |
Nurulhaq et al. | Sequential pattern mining on hotspot data in Riau Province using the PrefixSpan algorithm | |
EP2219121A1 (en) | Efficient computation of ontology affinity matrices | |
CN105159905A (zh) | 基于转发关系的微博聚类方法 | |
de Moura | Social network analysis at scale: graph-based analysis of Twitter trends and communities | |
CN106156259A (zh) | 一种用户行为信息展示方法及系统 | |
CN103955526A (zh) | 数据存储方法和装置 | |
Kaleel et al. | Event detection and trending in multiple social networking sites | |
Guo et al. | A FP-tree-based method for inverse frequent set mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220216 Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province Patentee after: Huawei Cloud Computing Technologies Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
TR01 | Transfer of patent right |