CN102195899A - 通信网络的信息挖掘方法与系统 - Google Patents
通信网络的信息挖掘方法与系统 Download PDFInfo
- Publication number
- CN102195899A CN102195899A CN2011101419875A CN201110141987A CN102195899A CN 102195899 A CN102195899 A CN 102195899A CN 2011101419875 A CN2011101419875 A CN 2011101419875A CN 201110141987 A CN201110141987 A CN 201110141987A CN 102195899 A CN102195899 A CN 102195899A
- Authority
- CN
- China
- Prior art keywords
- mrow
- communication
- msub
- nodes
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006854 communication Effects 0.000 title claims abstract description 314
- 238000004891 communication Methods 0.000 title claims abstract description 310
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005065 mining Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 85
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000007781 pre-processing Methods 0.000 claims description 22
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种通信网络的信息挖掘方法,包括:对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;根据预处理结果创建用于反映通信网络结构的通联关系网络,由通联关系网络得到用于表示通信网络中的通信发送方、通信接收方的节点,以及用于表示通信发送方、通信接收方间通信关系的边;根据用户提供的查询词构造需求文本向量与通信文本向量;计算通联关系网络中各个节点的节点中心度;节点中心度包括节点中介度、节点紧密度以及节点联系度;计算通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对节点间的边的满意度。
Description
技术领域
本发明涉及数据挖掘领域,特别涉及一种通信网络的信息挖掘方法与系统。
背景技术
随着通信技术的不断发展,飞信、邮件、MSN、QQ等多种类型的通信工具逐渐成为人们进行信息交流的重要手段,使用这些通信工具的众多用户所形成的网络被称为通信网络,通信网络是社交关系在互联网上的体现。通信网络中的数据被称为通信数据,通信数据为社交规律的发现提供了研究样本。
通常情况下,通信网络上用户众多、规模巨大,因此通信数据属于典型的海量数据,要通过通信数据来发现其中所蕴含的社交规律需要做信息挖掘。在信息挖掘的过程中,挖掘何种信息以及如何进行信息挖掘十分重要,这涉及到之后所提取的社交规律是否准确、全面,能否反映社会的客观现实。
现有的信息挖掘方法在挖掘信息时有不同的关注点,主要分为两种:
一种关注的是通信网络的拓扑结构,主要将通信数据抽象成节点集、边集和通信权值,其中的节点集反映了通信网络中的各个节点,边集反映了通信网络中的节点间的通信关系,而通信权值则反映了节点间的通信频率。在提取这些信息时,重点关注的是节点间的拓扑关系,忽略了节点的其它通信特征,如通信时间,节点拓扑特征等。此类信息挖掘方法的缺点是没有考虑通信文本,从而在该模型上进行信息挖掘得到的结果在某些情况下并不是用户需要的。例如,一用户节点频繁地向通信网络中的另一节点发送垃圾信息,采用此类信息挖掘方法,该用户节点很可能会被挖掘出并作为所述另一节点的“朋友”,但实际上这一结果并不是用户真正想要的。
另一种关注的是垃圾信息的筛选和通信主题的发现,所以此类信息挖掘方法并不考虑拓扑信息。该类信息挖掘方法主要提取通信文本的语义信息,通过机器学习、贝叶斯分类器等方法进行分类,然后筛选出垃圾信息和通信主题。该类信息挖掘方法的缺点是复杂度较高,并且得到的结果是基于通信文本的,没有关注网络的拓扑结构和节点的重要程度。
发明内容
本发明的目的是克服现有的通信网络的信息挖掘方法所挖掘的信息较为单一,无法全面体现通信网络实际情况的缺陷,从而提供一种全面、准确的信息挖掘方法。
为了实现上述目的,本发明提供了一种通信网络的信息挖掘方法,包括:
步骤1)、对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;
步骤2)、根据步骤1)所得到的预处理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边;
步骤3)、根据用户提供的查询词构造需求文本向量与通信文本向量;
步骤4)、计算所述通联关系网络中各个节点的节点中心度;所述节点中心度包括节点中介度、节点紧密度以及节点联系度;
步骤5)、计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度。
上述技术方案中,所述的步骤3)包括:
步骤3-1)、在步骤1)所得到的通信内容经过分词所得到的分词结果的基础上,利用索引字典以及停用词表构建倒排索引;
步骤3-2)、由用户提供的查询词以及所述查询词所占的权重创建需求文本向量;
步骤3-3)、将与所述需求文本向量中的查询词具有一定关联度的词语添加到所述需求文本向量中,以扩展所述需求文本向量。
上述技术方案中,所述的步骤3-3)包括:
步骤3-3-1)、计算与所述查询词在一文本中的词项的共现频度;
步骤3-3-2)、在计算出所述共现频度后,计算所述词项与所述查询词间的关联度;
步骤3-3-3)、由所述关联度计算评估函数,由所述评估函数的计算结果判定是否要将所述词项扩展到所述需求文本向量中。
上述技术方案中,在所述的步骤4)中,
所述节点中介度的计算包括:
将通过节点k的最短路径数的平均值称为节点k的中介度系数,记为CA(k),则:
其中,gij(k)是一个二值变量,表示结点i、j之间的最短路径是否通过结点k,通过k则为1,否则为0;
所述节点联系度的计算包括:
将与节点k直接相连的节点数的平均值称为节点k的联系度系数,记为CB(k),则:
其中n是一个网络的结点数,a(i,k)是一个二值变量,为1说明结点i,k之间直接相连,为0说明不直接相连;
所述节点紧密度的计算包括:
将节点k和网络中所有结点之间的最短路径之和的平均值称为k的紧密度系数,记为CC(k),则:
其中l(i,k)为结点i、k之间的最短路径长度。
所述节点k的中心度向量C(k)=(CA(k),CB(k),CC(k))。
上述技术方案中,在所述的步骤5)中,
所述的计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度包括:
步骤5-1-1)、计算节点间的通信次数comm_numcomm_numij;
步骤5-1-2)、计算节点间的通信时间跨度dur_dayij;
步骤5-1-3)、计算节点间的最短路径长度shortest_lenij;
步骤5-1-4)、计算节点间的共享邻居数sharenode_numij;
步骤5-1-5)、计算用于评估两个节点通联关系强度的函数closeness(i,j);所述函数closeness(i,j)的计算公式为:
其中,Max_num为所有节点间交互的最大通信次数;Max_day为所有节点间交互的最大时间跨度;Max_node为所有节点间交互的最大共享邻居数;Max_len为所有节点间交互的最长的最短路径;ki为权重系数。
上述技术方案中,在所述的步骤5)中,
所述的计算所述通联关系网络中存在通联关系的各个节点之间的边之间的相似度包括:
步骤5-2-1)、将任意两个节点间的边的向量定义为这两个节点之间所有通信文本向量的平均值;
步骤5-2-2)、利用余弦公式计算任意两边的向量之间的相似度。
上述技术方案中,在所述的步骤5)中,
所述的计算用户对所述节点间的边的满意度包括:
步骤5-3-1)、计算需求文本向量的权重;
步骤5-3-2)、计算步骤5-3-1)所得到的通信文本的向量与所述通信文本的需求文本向量之间的相似值,得到用户对所述通信文本的满意度;
步骤5-3-3)、计算两个节点间所有通信文本满意度的平均值,得到节点间的边的用户满意度。
上述技术方案中,所述的步骤5-3-1)包括:
步骤5-3-1-1)、构造一个初始查询向量;
步骤5-3-1-2)、根据用户指定的满足需求的文本对其逐步修改,直到达到一个理想的结果;
本发明还提供了一种通信网络的信息挖掘系统,包括数据预处理模块、通联关系网络创建模块、文本向量构造模块、节点中心度计算模块、边属性计算模块;其中,
所述的数据预处理模块对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;
所述的通联关系网络创建模块根据所述数据预处理模块所得到的预处理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边;
所述的文本向量构造模块根据用户提供的查询词构造需求文本向量与通信文本向量;
所述的节点中心度计算模块计算所述通联关系网络中各个节点的节点中心度;所述节点中心度包括节点中介度、节点紧密度以及节点联系度;
所述的边属性计算模块计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度。
本发明的优点在于:
本发明的方法与系统从通信网络中提取了包括用于表示所述通信网络中的通信发送方、通信接收方的节点,用于表示所述通信发送方、通信接收方间通信关系的边,节点中心度,各个节点间的通联关系强度,各个节点间的边之间的相似度以及用户对所述节点间的边的满意度在内的较为丰富的信息,为后续的通信数据的挖掘和分析提供了技术支持。
附图说明
图1为本发明的通信网络的信息挖掘方法在一个实施例中的流程图;
图2为在一个实施例中所涉及的用于存储经过预处理的表格的示意图;
图3为本发明的通信网络的信息挖掘系统在一个实施例中的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行说明。
在对本发明的实施方式做详细说明前,首先对本发明中与所要挖掘的信息相关的概念进行说明。
1、节点集N
节点集N是通信网络中各个通信节点的集合。
2、边集E
边集E用来记录通信过程中作为发送方的通信节点与作为接收方的通信节点之间的通信关系,通常表示为一个0、1矩阵,其中eij=1表示节点i和节点j之间有边连接,eij=0表示节点i和节点j之间没有边连接。
3、用户需求Q
考虑到通信网络的规模十分庞大,为了提高准确率,用户需要提供需求文本来锁定目标范围。例如,一用户想锁定关于“证券”的信息,则该用户需要提供如“证券”、“股票”等关键词作为需求文本来进行查询,所有讨论过这些词的人将被锁定。所述的用户需求通常是以词的形式出现。需要说明的是,即使用户需求明确,也会由于用词的不一致而导致歧义,如“人大”既可能是人民大学,也可能是人民代表大会,所以还要对需求文本进行扩展,从而构建用户查询向量Q。
4、节点属性集LN
对于节点i的属性集LN包含以下三项:
1)、通信账号:
记录节点和通信账号之间的映射关系。
2)、邻居节点信息表:
如果节点i和节点j之间有边连接,则节点i称为节点j的邻居,各个节点有自身的邻居节点信息表。一节点的邻居节点的信息保存在该节点的邻居节点信息表中。
3)、节点中心度C:
在通信网络中每个节点由于其拓扑结构上的不同而具有不同的地位。节点中心度C是综合考虑节点紧密度、中介度和联系度的一个用于指示通信节点重要程度的指标,通常用一个矩阵加以表示。
5、边属性集LE
对于边eij的属性集LE包含以下三项:
1)、通联强度矩阵W
在通信网络中,需要评估节点之间的通信通联强度(简称通联强度)。如果节点之间有直接通信行为,则通联强度反映的是其在现实中联络强度;如果没有直接通信行为,则通联强度反映的是其在现实中产生信息交流的可能性。可综合考虑通信时间、通信频率、拓扑结构等信息来构建通联强度矩阵W。
2)、相似度矩阵S
将边表示为具有语义的向量,根据向量计算边之间的相似度。相似度矩阵S为聚类分析提供支持。
3)、用户满意度CE
根据用户需求文本可以将每条边赋予一个用户满意度CE,用户满意度用来判定此边是否在用户的兴趣范围内。
以上是对本发明的相关概念的说明,在下面的实施例中,将以邮件网络为例,对如何挖掘邮件网络中的信息的过程进行说明。在其他实施例中,参照相关过程也可以建立对诸如固定电话、移动终端等通信网络的信息挖掘。
在对邮件网络进行分析之前,必然要求有邮件通信的相关数据。这些数据可以利用现有技术从诸如互联网的通信网络上获取,在此不再重复。下面参考图1,对如何根据邮件通信数据由通信网络挖掘信息的过程进行说明。
步骤10、对邮件通信数据的预处理。
对邮件通信数据的预处理主要是要获取以下多个方面的信息:
1)、通信数据ID
对通信数据进行编号,ID是区分通信数据的唯一标识。在本实施例中,通常为一封邮件赋予一个ID。而在其他实施例中,如在MSN和QQ等即时通信中,为一次对话赋予一个ID。
2)、发送方信息
通信数据中发送方的信息。在本实施例中,发送方信息可以是发送方的电子邮件地址,在其他实施例中,也可以是发送方的账号、IP地址等,只要能够唯一标识发送方即可。
3)、接收方信息
通信数据中接收方的信息。在本实施例中,接收方信息可以是接收方的电子邮件地址,在其他实施例中,也可以是接收方的账号、IP地址等,只要能够唯一标识接收方即可。
4)、通信时间
通信数据的发生时间。在本实施例中,通信时间可以是发送方发送邮件的时间,或者是接收方接收到邮件的时间。在其他实施例中,如即时通信过程中,也可以有其他的通信时间标识方法,如以一次网络聊天的聊天开始时间作为通信时间。
5)、通信内容
通信内容就是通信数据的文本内容,如电子邮件的主题与正文,在本实施例中,不将邮件附件中的信息作为通信内容。在其他实施例中,也可以通过相关软件读取附件中的文本信息,并将其作为通信内容。由于在中文中,词与词之间并没有明显的分界线,因此,作为一种优选实现方式,需要对通信数据中的文本内容做分词处理,得到由多个词语组成的通信内容。
通信网络中的一次通信过程都可以获得上述五个方面的信息,将整个通信网络在一段时间内的所有或部分通信过程的信息集中起来就能够形成用于建立邮件通信模型的基础数据。可以对这些基础数据加以分类,并将分类结果用多个表分别加以存储。
在本实施例中,参考图2,经过分类后的数据存储在下面几个表格中:
A、映射表:该表格为一映射表,通过查询该表可以找到通信账号所对应的节点姓名信息;
B、邮件信息:该表格为通信内容表,“邮件编号”为该表的主键,对于每次通信都有唯一的“邮件编号”作为标识,如果为邮件则该表主要记录了通信的主题及正文,如果为其他通信格式则为聊天记录;
C、接收方信息表:该表格为通信内容接收信息表,在该表中,通过字段“邮件编号”可以在“邮件信息”表中查询到基本信息;
D、关联信息表:该表格为联络表,在该表格中记录了通信账号之间的收发信息;
E、权重表:该表格为通信账号联系的权重信息表;
F、交互信息表:该表为通信账号之间的交互信息表,包括文本信息向量和用户满意度。
步骤20、根据前一步骤所得到的预处理结果创建通联关系网络。
在之前的步骤中,从实际的邮件通信中获取了相应的数据,这些数据本身并不能直观地反映邮件网络的整体状况,因此需要在本步骤中根据邮件数据建立通联关系网络。
在建立通联关系网络的过程中,为每个通信账号创建一个通信节点,然后根据预处理后所得到的表格中的内容决定在通信节点间是否需要创建边。如果两个通信账号之间存在通信关系,那么这两个通信账号所对应的通信节点之间有边存在,否则,就不存在相应的边。
根据邮件通信数据建立通联关系网络的同时,可以得到节点集N和边集E。节点集N和边集E的组成与数据结构在前文中已经有相应的说明,因此不在此处重复。
步骤30、构造通信文本向量和需求文本向量。
在步骤10的预处理过程中已经提到,由预处理过程可得到通信过程中的文本信息(即通信内容),且已经对这些文本信息做了分词处理,下面通过下列操作对这些文本信息做如下处理。
步骤31、构建倒排索引
在分词结果的基础上,利用索引字典以及停用词表构建倒排索引。索引字典、停用词表以及利用索引字典与停用词表构建倒排索引的过程为本领域的公知常识,因此不在此处重复。
步骤32、创建需求文本向量与通信文本向量
在通信文本中包含有多种方面的内容,其中包括有由用户提供的、通常以查询词的形式表示的用户需求。这些与用户需求有关的文本被称为需求文本,由需求文本所创建的向量被称为需求文本向量。需求文本向量Q的形式如下:
{(t1,tw1),(t2,tw2),...,(tm,twm)}
其中,t1,t2,...,tm为查询词项,这些词都按照升序排列;tw1,tw2,...,twm为查询词项在用户心目中所占的权重。
通过需求文本的查询词项可以构建通信文本向量{(t1,tw1),(t2,tw2),...,(tm,twm)},而查询词项的权重可通过下列公式加以计算,计算邮件j中的特征词ti的权重twji:
其中fij是通信文本集合中的邮件j中包含词ti的数目,N是通信文本集合的数目。
通过上述公式计算出权重twji后,经过加权计算就可以算出各个查询词项t1,t2,...,tm在整个通信文本集合中的权重tw1,tw2,...,twm。需要说明的是,虽然在上文中,在需求文本向量与特征文本向量中,查询词项的权重都用诸如tw的形式表示,但该权重在需求文本向量中反映的是对应的查询此项在用户心中的重要程度,而通信文本向量中则与查询词项在通信文本中出现的频率相关。
步骤33、扩展需求文本
考虑到用户所使用的查询词的多样性,如在一个查询关于电脑信息的实例中,有的用户会将电脑称为“计算机”,为了使得查询结果更加准确、完整,需要扩展需求文本。
在扩展需求文本时,需要通过一定的策略加入相关词项,使扩展后的文本能完整地描述隐含的概念或主题。
扩展需求文本的操作可以包括以下步骤:
步骤33-1、首先计算一词项t和查询词项q在文本j中的共现频度:
cof(t,q|j)=log(tf(t,j)+1.0)×log(tf(q,j)+1.0)
其中,tf(t,j)或tf(q,j)表示词t或q在文本j中的出现次数。
步骤33-2、在得到一词项与查询词项的共现频度后,可进一步计算该词项与查询词项间的关联度。
假设初始需求文本Q中的每个词之间相互独立,可以根据词项t与Q中每个词在局部文本集S中的共现频度的乘积来度量词项t与Q的关联度。词项t与Q在S中的关联度定义为:
其中idf(|C)定义为:
df(|C)表示语料集C中出现某个词项的文本数目,μ为一个大于0的可调参数,缺省值为100。
步骤33-3、由关联度计算评估函数,由所述评估函数的计算结果判定是否要将所述词项t扩展到需求文本中。
在前述关联度计算公式的基础上,两边取对数,得到评估函数score(t)的计算公式如下:
下面定义loddQ,C(t,q|S)为给定全局文本集C和用户需求文本向量Q的条件下,词项t与查询词q在局部文档集合S中的局部依赖度(LocalDependence Degree),其计算公式如下:
loddQ,C(t,q|S)=idf(q|C)idf(t|C)log(cood(t,q|S)+1.0)
则之前的评估函数可简化为:
在得到评估函数的评分值以后,就可以选择评分值较高的词项进行需求文本扩展,一方面对那些在局部文本集S中与查询向量Q中的词频繁共现的词项赋予较高的评分值,另一方面对那些在全局邮件集中具有较高频度的词项则进行一定程度的惩罚(通过idf计算公式中的参数μ来调节惩罚的程度),使得最终选取的评分值最高的词项与用户需求文本的主题具有较高的相关性。
步骤40、计算节点中心度。
在前文的定义部分已经提到,节点中心度包括节点中介度、节点紧密度以及节点联系度三个指标,下面分别就如何计算这些指标进行说明。
步骤41、计算节点中介度
通过节点k的最短路径数的平均值称为节点k的中介度系数,记为CA(k),则:
其中,gij(k)是一个二值变量,表示结点i、j之间的最短路径是否通过结点k,通过k则为1,否则为0。
步骤42、计算节点联系度
将与节点k直接相连的节点数的平均值称为节点k的联系度系数,记为CB(k),则:
其中n是一个网络的结点数,a(i,k)是一个二值变量,为1说明结点i,k之间直接相连,为0说明不直接相连。
步骤43、节点紧密度
节点k和网络中所有结点之间的最短路径之和的平均值称为k的紧密度系数,记为CC(k),则:
其中l(i,k)为结点i、k之间的最短路径长度。
在得到节点中介度、节点紧密度以及节点联系度后就可以计算节点k的中心度向量C(k)=(CA(k),CB(k),CC(k))。
步骤50、计算通联强度矩阵W
对节点i,j之间的通联关系强度评估包括四个指标:通信次数、通信时间跨度、最短路径长度、共享邻居数。下面分别对这些指标的计算过程进行说明。
步骤51、计算通信次数
结点间通信次数越多,表明其交往频繁,关系越紧密。结点i、j的通信次数计算如下:
comm_numij=sendij+receiveij
其中,sendij表示节点i向节点j发起通信的次数,receiveij表示节点i接收到节点j发起的通信次数。
步骤52、计算通信时间跨度
节点间通信时间跨度越长,表明相关节点交往历史越久,关系越紧密,节点i、j的通信时间跨度为:
dur_dayij=latest_dayij-earliest_dayij
其中,latest_dayij是最近监测到的节点i、j间的通信时间,earliest_dayij是节点i、j间的初始通信时间。
步骤53、计算最短路径长度
节点间的最短路径长度越短,表明其交往的直接性越强,关系越紧密。节点i,j间的最短路径长度用shortest_lenij表示,它是指节点i到j的所有路径中具有最少边数的路径所包含的边数。
步骤54、共享邻居数
节点间共享邻居结点越多,表明其同处一交往圈的可能性越大,关系越紧密。扫描节点i和j的邻居节点集合得到共享邻居数为:
sharenode_numij=|neighbori∩neighborj|
步骤55、在计算得到通信次数、通信时间跨度、最短路径长度、共享邻居数后,就可以计算用于评估两个节点通联关系强度的函数closeness(i,j),多个维度上的函数closeness(i,j)值组成了所述的通联强度矩阵W。所述函数closeness(i,j)的计算公式为:
其中,Max_num为所有节点间交互的最大通信次数;Max_day为所有节点间交互的最大时间跨度;Max_node为所有节点间交互的最大共享邻居数;Max_len为所有节点间交互的最长的最短路径;ki为权重系数。
步骤60、计算相似度矩阵S
步骤61、利用向量空间模型对节点i和节点j之间的边向量进行统一表示,每条边为一个向量。节点i和节点j之间的边向量定义为节点i和节点j之间所有通信文本向量的平均值。即:
其中,
其中,Ew-IDw(mk,tj)表示特征词tj在通信文本mk中的权重.步骤62、计算任意两边之间的相似度
步骤63、构造相似度矩阵S
根据前述步骤对边进行两两相似度计算的基础上,得到相似度矩阵S:
步骤70、计算用户满意度CE
通过对用户需求文本进行扩展,可以将通信内容引入到模型中。具体过程如下:
步骤71、计算需求文本的权重
为了得到用户满意程度首先需要确定各个查询词项在用户心目中的权重,在计算需求文本的权重之前首先做如下定义:
R表示满足用户需求的文本集合;
C表示全体的文本集合;
N_C表示集合中所有文本数目
N_sim表示集合中所有满足用户需求的文本数目。
计算需求文本的权重可以采用现有技术的相关方法,在本实施例中,可根据Rocchio的相关反馈实验,将需求文本作为查询向量,把满足需求的文本与不满足需求的文本都区分开来的理想查询向量在每个维度上的值作为需求文本的权重。所述理想查询向量的计算公式为:
实际情况中,由于满足需求的文本个数是无法预先知道的,因此在实际计算时首先构造一个初始查询向量,然后根据用户指定的满足需求的文本对其逐步修改,直到达到一个理想的结果。Rocchio提出的经典算法如下:
步骤72、计算文本m的用户满意度
文本m的满意度sm表示为文本m的向量Tm与用户需求文本向量TQ之间的相似值。
步骤73、计算边用户满意度
节点i和节点j通信的所有文本满意度的平均值称为边用户满意度CE:
其中,Nk为节点i和节点j通信的文本数量。
本发明还提供了一种通信网络的信息挖掘系统,参考图3,包括数据预处理模块、通联关系网络创建模块、文本向量构造模块、节点中心度计算模块、边属性计算模块;其中,
所述的数据预处理模块对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;
所述的通联关系网络创建模块根据所述数据预处理模块所得到的预处理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边;
所述的文本向量构造模块根据用户提供的查询词构造需求文本向量与通信文本向量;
所述的节点中心度计算模块计算所述通联关系网络中各个节点的节点中心度;所述节点中心度包括节点中介度、节点紧密度以及节点联系度;
所述的边属性计算模块计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度。
通过上述的方法与系统,可以得到诸如节点中心度、通联关系强度、边之间的相似度以及用户对边的满意度等信息,有了这些信息以后,就可以利用这些信息做相关的应用,如对通信网络进行社区划分,找出一邮件通信网络中有密切联系的用户群体等。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种通信网络的信息挖掘方法,包括:
步骤1)、对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;
步骤2)、根据步骤1)所得到的预处理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边;
步骤3)、根据用户提供的查询词构造需求文本向量与通信文本向量;
步骤4)、计算所述通联关系网络中各个节点的节点中心度;所述节点中心度包括节点中介度、节点紧密度以及节点联系度;
步骤5)、计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度。
2.根据权利要求1所述的通信网络的信息挖掘方法,其特征在于,所述的步骤3)包括:
步骤3-1)、在步骤1)所得到的通信内容经过分词所得到的分词结果的基础上,利用索引字典以及停用词表构建倒排索引;
步骤3-2)、由用户提供的查询词以及所述查询词所占的权重创建需求文本向量;
步骤3-3)、将与所述需求文本向量中的查询词具有一定关联度的词语添加到所述需求文本向量中,以扩展所述需求文本向量。
3.根据权利要求2所述的通信网络的信息挖掘方法,其特征在于,所述的步骤3-3)包括:
步骤3-3-1)、计算与所述查询词在一文本中的词项共现频度;
步骤3-3-2)、在计算出所述共现频度后,计算所述词项与所述查询词间的关联度;
步骤3-3-3)、由所说关联度计算评估函数,由所述评估函数的计算结果判定是否要将所述词项扩展到所述需求文本向量中。
4.根据权利要求1所述的通信网络的信息挖掘方法,其特征在于,在所述的步骤4)中,
所述节点中介度的计算包括:将通过节点k的最短路径数的平均值称为节点k的中介度系数,记为CA(k),则:
其中,n是所述通联关系网络中的节点数,gij(k)是一个二值变量,表示结点i、j之间的最短路径是否通过结点k,通过k则为1,否则为0;
所述节点联系度的计算包括:
将与节点k直接相连的节点数的平均值称为节点k的联系度系数,记为CB(k),则:
其中,a(i,k)是一个二值变量,为1说明结点i,k之间直接相连,为0说明不直接相连;
所述节点紧密度的计算包括:
将节点k和网络中所有结点之间的最短路径之和的平均值称为k的紧密度系数,记为CC(k),则:
其中,l(i,k)为结点i、k之间的最短路径长度。
所述节点k的中心度向量C(k)=(CA(k),CB(k),CC(k))。
5.根据权利要求1所述的通信网络的信息挖掘方法,其特征在于,在所述的步骤5)中,
所述的计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度包括:
步骤5-1-1)、计算节点间的通信次数comm_numcomm_numij;
步骤5-1-2)、计算节点间的通信时间跨度dur_dayij;
步骤5-1-3)、计算节点间的最短路径长度shortest_lenij;
步骤5-1-4)、计算节点间的共享邻居数sharenode_numij;
步骤5-1-5)、计算用于评估两个节点通联关系强度的函数closeness(i,j);所述函数closeness(i,j)的计算公式为:
其中,Max_num为所有节点间交互的最大通信次数;Max_day为所有节点间交互的最大时间跨度;Max_node为所有节点间交互的最大共享邻居数;Max_len为所有节点间交互的最长的最短路径;ki为权重系数。
6.根据权利要求1所述的通信网络的信息挖掘方法,其特征在于,在所述的步骤5)中,
所述的计算所述通联关系网络中存在通联关系的各个节点之间的边之间的相似度包括:
步骤5-2-1)、将任意两个节点间的边的向量定义为这两个节点之间所有通信文本向量的平均值;
步骤5-2-2)、利用余弦公式计算任意两边的向量之间的相似度。
7.根据权利要求1所述的通信网络的信息挖掘方法,其特征在于,在所述的步骤5)中,
所述的计算用户对所述节点间的边的满意度包括:
步骤5-3-1)、计算需求文本向量的权重;
步骤5-3-2)、计算步骤5-3-1)所得到的通信文本的向量与所述通信文本的需求文本向量之间的相似值,得到用户对所述通信文本的满意度;
步骤5-3-3)、计算两个节点间所有通信文本满意度的平均值,得到节点间的边的用户满意度。
9.一种通信网络的信息挖掘系统,其特征在于,包括数据预处理模块、通联关系网络创建模块、文本向量构造模块、节点中心度计算模块、边属性计算模块;其中,
所述的数据预处理模块对通信数据进行预处理,获取包括通信数据ID、发送方信息、接收方信息、通信时间、通信内容在内的关于通信数据的信息;
所述的通联关系网络创建模块根据所述数据预处理模块所得到的预处理结果创建用于反映所述通信网络结构的通联关系网络,由所述通联关系网络得到用于表示所述通信网络中的通信发送方、通信接收方的节点,以及用于表示所述通信发送方、通信接收方间通信关系的边;
所述的文本向量构造模块根据用户提供的查询词构造需求文本向量与通信文本向量;
所述的节点中心度计算模块计算所述通联关系网络中各个节点的节点中心度;所述节点中心度包括节点中介度、节点紧密度以及节点联系度;
所述的边属性计算模块计算所述通联关系网络中存在通联关系的各个节点之间的通联关系强度、各个节点间的边之间的相似度以及用户对所述节点间的边的满意度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110141987.5A CN102195899B (zh) | 2011-05-30 | 2011-05-30 | 通信网络的信息挖掘方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110141987.5A CN102195899B (zh) | 2011-05-30 | 2011-05-30 | 通信网络的信息挖掘方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102195899A true CN102195899A (zh) | 2011-09-21 |
CN102195899B CN102195899B (zh) | 2014-05-07 |
Family
ID=44603305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110141987.5A Expired - Fee Related CN102195899B (zh) | 2011-05-30 | 2011-05-30 | 通信网络的信息挖掘方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102195899B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103338460A (zh) * | 2013-06-17 | 2013-10-02 | 北京邮电大学 | 用于动态网络环境的节点中心度的计算方法 |
WO2015043070A1 (zh) * | 2013-09-29 | 2015-04-02 | 北大方正集团有限公司 | 一种知识点隐性关系获取方法及其系统 |
CN104809132A (zh) * | 2014-01-27 | 2015-07-29 | 阿里巴巴集团控股有限公司 | 一种获取网络主体社交关系类型的方法及装置 |
CN104813353A (zh) * | 2012-10-30 | 2015-07-29 | 阿尔卡特朗讯 | 用于生成用户流失预测的系统和方法 |
CN104915879A (zh) * | 2014-03-10 | 2015-09-16 | 华为技术有限公司 | 基于金融数据的社会关系挖掘的方法及装置 |
CN106921504A (zh) * | 2015-12-24 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 一种确定不同用户的关联路径的方法和设备 |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
CN109102111A (zh) * | 2018-07-26 | 2018-12-28 | 北京工商大学 | 一种度量导演与演员合作可能性的方法 |
CN112565060A (zh) * | 2020-12-04 | 2021-03-26 | 南京中新赛克科技有限责任公司 | 基于qq文本流量分析目标通联对端的系统及其方法 |
CN112887923A (zh) * | 2021-01-22 | 2021-06-01 | 中国科学院自动化研究所 | 基于动态通信网络的无监督异常短文本监测方法及系统 |
CN116109121A (zh) * | 2023-04-17 | 2023-05-12 | 西昌学院 | 基于大数据分析的用户需求挖掘方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006083694A2 (en) * | 2005-01-28 | 2006-08-10 | United Parcel Service Of America, Inc. | Registration and maintenance of address data for each service point in a territory |
CN101079072A (zh) * | 2007-06-22 | 2007-11-28 | 中国科学院研究生院 | 一种文本聚类元学习方法及装置 |
US20080147688A1 (en) * | 2001-09-04 | 2008-06-19 | Frank Beekmann | Sampling approach for data mining of association rules |
WO2010040125A1 (en) * | 2008-10-03 | 2010-04-08 | Beliefnetworks, Inc. | Systems and methods for automatic creation of agent-based systems |
-
2011
- 2011-05-30 CN CN201110141987.5A patent/CN102195899B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147688A1 (en) * | 2001-09-04 | 2008-06-19 | Frank Beekmann | Sampling approach for data mining of association rules |
WO2006083694A2 (en) * | 2005-01-28 | 2006-08-10 | United Parcel Service Of America, Inc. | Registration and maintenance of address data for each service point in a territory |
CN101079072A (zh) * | 2007-06-22 | 2007-11-28 | 中国科学院研究生院 | 一种文本聚类元学习方法及装置 |
WO2010040125A1 (en) * | 2008-10-03 | 2010-04-08 | Beliefnetworks, Inc. | Systems and methods for automatic creation of agent-based systems |
Non-Patent Citations (1)
Title |
---|
HUIJIE YANG: "《Discovering Important Nodes through Comprehensive》", 《2010 3RD INTERNATIONAL CONFERENCE ON BIOMEDICAL ENGINEERING AND INFORMATICS》, 31 December 2010 (2010-12-31) * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104813353A (zh) * | 2012-10-30 | 2015-07-29 | 阿尔卡特朗讯 | 用于生成用户流失预测的系统和方法 |
CN103338460A (zh) * | 2013-06-17 | 2013-10-02 | 北京邮电大学 | 用于动态网络环境的节点中心度的计算方法 |
CN103338460B (zh) * | 2013-06-17 | 2016-03-30 | 北京邮电大学 | 用于动态网络环境的节点中心度的计算方法 |
WO2015043070A1 (zh) * | 2013-09-29 | 2015-04-02 | 北大方正集团有限公司 | 一种知识点隐性关系获取方法及其系统 |
US10210281B2 (en) | 2013-09-29 | 2019-02-19 | Peking University Founder Group Co., Ltd. | Method and system for obtaining knowledge point implicit relationship |
CN104809132B (zh) * | 2014-01-27 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种获取网络主体社交关系类型的方法及装置 |
CN104809132A (zh) * | 2014-01-27 | 2015-07-29 | 阿里巴巴集团控股有限公司 | 一种获取网络主体社交关系类型的方法及装置 |
CN104915879A (zh) * | 2014-03-10 | 2015-09-16 | 华为技术有限公司 | 基于金融数据的社会关系挖掘的方法及装置 |
CN104915879B (zh) * | 2014-03-10 | 2019-08-13 | 华为技术有限公司 | 基于金融数据的社会关系挖掘的方法及装置 |
CN106921504A (zh) * | 2015-12-24 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 一种确定不同用户的关联路径的方法和设备 |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
US11205046B2 (en) | 2017-04-07 | 2021-12-21 | Ping An Technology (Shenzhen) Co., Ltd. | Topic monitoring for early warning with extended keyword similarity |
CN109102111A (zh) * | 2018-07-26 | 2018-12-28 | 北京工商大学 | 一种度量导演与演员合作可能性的方法 |
CN112565060A (zh) * | 2020-12-04 | 2021-03-26 | 南京中新赛克科技有限责任公司 | 基于qq文本流量分析目标通联对端的系统及其方法 |
CN112565060B (zh) * | 2020-12-04 | 2022-06-10 | 南京中新赛克科技有限责任公司 | 基于qq文本流量分析目标通联对端的系统及其方法 |
CN112887923A (zh) * | 2021-01-22 | 2021-06-01 | 中国科学院自动化研究所 | 基于动态通信网络的无监督异常短文本监测方法及系统 |
CN112887923B (zh) * | 2021-01-22 | 2022-02-15 | 中国科学院自动化研究所 | 基于动态通信网络的无监督异常短文本监测方法及系统 |
CN116109121A (zh) * | 2023-04-17 | 2023-05-12 | 西昌学院 | 基于大数据分析的用户需求挖掘方法及系统 |
CN116109121B (zh) * | 2023-04-17 | 2023-06-30 | 西昌学院 | 基于大数据分析的用户需求挖掘方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102195899B (zh) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102195899B (zh) | 通信网络的信息挖掘方法与系统 | |
CN102202012B (zh) | 通信网络的社团划分方法与系统 | |
US10565233B2 (en) | Suffix tree similarity measure for document clustering | |
Sharma et al. | A novel method for detecting spam email using KNN classification with spearman correlation as distance measure | |
Yilmaz et al. | SPR2EP: A semi-supervised spam review detection framework | |
US8527436B2 (en) | Automated parsing of e-mail messages | |
Basavaraju et al. | A novel method of spam mail detection using text based clustering approach | |
Faguo et al. | Research on short text classification algorithm based on statistics and rules | |
Kulkarni | Contextual data representation using prime number route mapping method and ontology | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN104933113A (zh) | 一种基于语义理解的表情输入方法和装置 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN103324665A (zh) | 一种基于微博的热点信息提取的方法和装置 | |
CN103218400B (zh) | 基于链接与文本内容的网络社区用户群划分方法 | |
CN105893484A (zh) | 一种基于文本特征和行为特征的微博Spammer识别方法 | |
CN110008306A (zh) | 一种数据关系分析方法、装置及数据服务系统 | |
Lota et al. | A systematic literature review on sms spam detection techniques | |
Hadi et al. | Trigonometric words ranking model for spam message classification | |
Zhang et al. | Spam comments detection with self-extensible dictionary and text-based features | |
Arif et al. | Social network extraction: a review of automatic techniques | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
Hong et al. | Effective topic modeling for email | |
de Moura | Social network analysis at scale: graph-based analysis of Twitter trends and communities | |
CN115827817A (zh) | 一种文本类别的确定方法、相关装置以及设备 | |
AbdelRahman et al. | A new email retrieval ranking approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140507 Termination date: 20160530 |