发明内容
本发明的目的是提供一种面向大规模社交网络、考虑连接的强弱及节点的属性特征、针对某一区域的测定结果的社交网络交流影响力的测定方法及系统,用于解决当前移动环境社交网络社会影响力测定复杂度过高、影响力测定的标准单一、测定结果不准确等问题。本发明可显著提高移动环境社交网络社会影响力测定的速度和准确度,并降低移动环境社交网络社会影响力应用的开发成本。
本发明的技术解决方案是:
一种社交网络交流影响力的测定方法,
获取社交网络中成员的社交信息;
利用双重循环检索技术,对社交网络的交流记录进行分析,对所有的文本进行分词;
对文本数据进行相似性分析,完成文本回归语义谱聚类;
由影响概率因子计算网络交流约束和成员在社交网络中的影响力。
进一步地,
步骤一:获取社交网络中成员的社交信息,将获取的语音、图像、视频内容信息处理转换为对应的文本信息,与社交网络方式交流文本信息一起,存放到知识库中;
步骤二:利用双重循环检索技术对文本数据预处理;
步骤三:文本数据相似性分析,采用基于短语构建文本的概念文本模型,在相似度基础上融合词语的相关性,最后给出相似度匹配的结果;
步骤四:文本回归语义谱聚类;
步骤五:由影响概率因子计算网络交流约束和成员在社交网络中的影响力。
进一步地,步骤二的具体步骤为:对社交网络的交流记录进行分析,对所有的文本进行分词,利用双重循环检索技术,先获取字的个数,后获取每个字的组词个数,然后索引表分配一块空间给WordItems,将字词的相关信息放在WordItems结构中。
进一步地,采用文本索引图(DIG)来实现文本关键短语匹配,使算法能够达到近线性的时间;在DIG中,短语匹配以增量的方式实现;所有文本与文本的关键短语的关系用DIG结构图表示;当新的文本增加进来时,新的文本与图中的先前的文本进行匹配,并且新的文本也加入到图中;整个过程以时间线性的方式产生所有文本对完整的短语匹配输出。
进一步地,步骤三的具体步骤为:基于短语构建文本的概念文本模型,给出了文本语义相似度计算模型,包括四个部分:
第一独立义原Sim1(S1,S2);
第一独立义原以外的所有其他独立义原相似度Sim2(S1,S2);
关系义原Sim3(S1,S2);
符号义原Sim4(S1,S2)。
进一步地,步骤四的具体步骤为:
将分词后的文本依据语义相似性进行聚类,得到若干主题类;
对每个主题进行分析,得到社交网络中成员的影响因子;
对不同时期的同一社交网络的交流记录进行分析,对不同时期的主题进行比较,得到该社交网络的专业绝对系数与相对专业系数。
进一步地,采用基于图谱的文本聚类模型,并将图划分问题转化为求解Laplacian矩阵的第二小特征向量问题,并分为文本粗聚类和文本子类细聚类来完成整个文本的谱聚类,进而得到成员的影响因子。
进一步地,步骤五的具体步骤为:成员i的社交网络交流约束Ni由他与其他成员交流的影响力概率因子pij决定:
一种社交网络交流影响力的测定系统,客户端从成员移动终端中获取各类社交网络交流的信息,并将语音、图像、视频内容信息处理转换为对应的文本信息,与社交网络方式交流文本信息一起,存放到知识库中;
知识库存储从移动客户端传递来的社交网络交流信息及相应的成员标识信息、交流记录时间、交流工具标识信息,为推理机提供相应的推理知识,同时存储推理机的推理结果,作为经验规则以供进一步推理用;
推理机进行社交网络影响力的测定,依据权利要求2中步骤二与步骤三给定的方法,从知识库中取出相应的成员交流信息所形成的知识,计算出社交网络中成员的实时影响力,并反馈给移动终端成员和其他舆情分析、监控、预测系统,并将结果保存到知识库中。
进一步地,客户端采用移动终端动态实时主动推送的方式完成,并将无效信息自动过滤。
本发明的有益效果是:本发明提出了基于网络交流约束的社交网络交流影响力测定中间件的新型开发方法,以及使用该方法开发出的新型社交网络交流影响力测定系统。本发明使用语义计算基于网络交流约束,形成社交网络交流影响力测定中间件,具有如下一些显著优点,都是目前其它社交网络交流影响力测定中间件及其开发方法所不具备的:
一、降低了社会影响力测定复杂度:为了解决文本关键短语匹配的高复杂度问题,采用文本索引图来实现,使得算法能够达到近线性的时间,远低于其O(n2)的复杂度。短语匹配以增量的方式实现;所有文本与文本的关键短语的关系用DIG结构图表示;当新的文本增加进来时,新的文本与图中的先前的文本进行匹配,并且新的文本也加入到图中。整个过程以时间线性的方式产生所有文本对完整的短语匹配输出。
二、丰富了社会影响力测定方式:影响力测定不是单一地利用节点间的连接关系,而且用到了成员节点中的各种属性及其相互之间的关系,包括语文转换、图像内容文字化与视频内容文字化,与QQ、微博、博客和论坛等社交网络方式交流文本信息一起,包括相应的成员标识信息、交流记录时间(取年、月、日)、交流工具标识信息如QQ号与所交流的内容等,立体地刻画与测定社会影响力。
三、提高了社会影响力测定准确度:考虑连接的强弱及节点的属性特征,使用语义计算基于网络交流约束,整个系统包括文本的读取、TF统计、IDF计算、词汇加权、文本相似度匹配、文本回归语义谱聚类、影响概率因子生成及社交网络交流约束计算等,其社会影响力测定内涵准确度有了很大提高。
四、同时具有全局与局部影响力测定的可适应性:与以前的影响力测定方法不同,在本发明中不是静态地依据全部已有数据一次性地完成影响力测定的计算,而是动态地依据各个局部社交网络中的数据完成当前状态下的影响力的测定,并且对各局部社交网络中所测定的成员的影响力进行叠加,进而得到当前实时的成员的社交影响力。
五、提供中间件异构物联移动设备之间的交互能力:为不同型号、不同操作系统的移动终端提供普适性的社交网络交流影响力测定的中间件,对于不同平台,只需要依所提供的配置文件完成相应的配置即可与其它平台的移动中间件进行交流。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例是一种社交网络交流影响力测定方法,可以应用于各种现有的移动社交网络平台。实施例通过将网络交流约束引入到移动社交网络交流影响力测定的开发中,其目标是通过网络交流约束来测定社交网络中成员交流影响力,降低社交网络中成员交流影响力测定的复杂度,提高影响力测定的速度和准确度。
实现一种基于网络交流约束的社交网络交流影响力测定方法,应具有如下特征:社交网络交流影响力测定的主体不是网络节点中所需要推荐的物,而是所需要推荐的物背后的成员;成员在社交网络中的影响力用网络交流约束来刻画,网络交流约束越低,成员社交影响力越大;网络交流约束由成员交流的概率来决定,一个成员的社交影响力越大,其在相同时间内与其它成员交流的人数越多,其对应的网络交流约束越小;成员交流的概率由成员在社交网络中的有效活动所形成的文字、声音、图像、视频等记录的语义相似性聚类系数即影响因子所决定。
社交网络交流分为3种基本类型:一种是一个成员周围存在若干个成员在协同工作;一种是通过远程电话或视频交流;一种是通过短信或QQ等文本形式的交流。前一种认为是直接协同,其对应网络交流约束为NCi;后两种认为是远程交互,其对应网络交流约束为NIi。在社交网络所有的成员中,NCi与NIi最小的成员,称为最佳协同成员和最有交流影响力的成员,将其相关信息发送给团队项目组其他所有的成员,从而改进成员的协作与交流意识。
图1给出了社交网络交流影响力的测定的整个架构。移动社交感知器、远程服务器及加速器、蓝牙与话筒等设备构成了社交网络交流影响力测定系统。
手机上有三种类型的传感器:加速器、蓝牙与话筒。对传递过来的每一次感知,对应一个应答,若传递过来的传感器数据是有效的,则为正向应答,否则为负向应答。
所要处理的任务包括判断语音是否为合理的语音,如静音或忙音均为不合理语音,双方对话音一般为合理语音,对合理语音时长的统计,对短信字节数的统计,对蓝牙探测到对象时长的统计等。
分布式计算量的分流主要考虑三个方面的要求:手机的电池量及其它场所耗能、网络的延迟和需要向网络传输的单位时间的数据量(数据拥塞),这三者都可以实时进行获取。
将手机上要处理的任务T分成若干个子任务ti,并决定,哪些任务在手机本地执行,哪些任务远程执行,及在哪里执行。若共有n个子任务需要执行,则需n个可执行的场所,先选择耗能低、网络的延迟小、网络传输的数据量少的场所来完成任务。为统一计算场所的耗能、网络的延迟与向网络传输的数据量,需要进行去量纲处理,设场所ck,每一个子任务都可能在场所ck进行处理(总共有2n个可能组合选择),设子任务i在所有场所中进行处理对应最小的耗能、网络的延迟与向网络传输的数据量分别为emin、lmin与dmin;子任务i在场所ck处理时所对应的耗能、网络的延迟与向网络传输的数据量分别为ei、li与di,则处理量纲后所对应的无量纲耗能、网络的延迟与向网络传输的数据量分别为uei、uli与udi。
对社交网络的交流记录进行分析,将每一个ID对应的交流记录看成是一个文本,对所有的文本进行分词;将分词后的文本依据单词的相似性进行聚类,得到若干主题类;对每个主题进行分析,发贴量最大的ID称为该主题的贴主,其余的贴称为贴主的跟随贴,跟随贴数称社交网络中成员的影响因子;占有主题最多的贴主称为该群这一时期的群主。设计合适的数据结构与算法,找出贴主与群主,并给出其影响因子。对不同时期的同一社交网络的交流记录进行分析,对不同时期的主题进行比较,不同时期内相同的主题数,称为该社交网络的专业绝对系数,专业绝对系数除以总主题数(不相同),称为该社交网络的专业相对系数,专业相对系数越大,则该社交网络越专业;在不同时期内相同主题的具有最多的相同贴主数,则该贴主称为该主题的专家,设计合适的数据结构与算法,找出该社交网络的若干时期内的所有专家,并给出该社交网络的相对专业系数。
基于网络交流约束的社交网络交流影响力测定的开发过程具体如下:
步骤一:获取社交网络中成员的社交信息。将语音、图像、视频内容信息处理转换为对应的文本信息,为社交信息的语义处理作准备,这包括语文转换、图像内容文字化与视频内容文字化,与QQ、微博、博客和论坛等社交网络方式交流文本信息一起,包括相应的成员标识信息、交流记录时间(取年、月、日)、交流工具标识信息如QQ号与所交流的内容等存放到知识库中。以上过程采用移动终端动态实时主动推送的方式完成,并将盲音等无效信息自动过滤。
步骤二:文本数据预处理。对社交网络的交流记录进行分析,对所有的文本进行分词,利用双重循环检索技术,先获取字的个数,后获取每个字的组词个数,然后索引表分配一块空间给WordItems,将字词的相关信息放在WordItems结构中。为了解决文本关键短语匹配的高复杂度问题,采用文本索引图(DIG)来实现,使得算法能够达到近线性的时间,远低于其O(n2)的复杂度。在DIG中,短语匹配以增量的方式实现;所有文本与文本的关键短语的关系用DIG结构图表示;当新的文本增加进来时,新的文本与图中的先前的文本进行匹配,并且新的文本也加入到图中。整个过程以时间线性的方式产生所有文本对完整的短语匹配输出。
步骤三:文本数据相似性分析。基于短语构建文本的概念文本模型,给出了文本语义相似度计算模型,包括四个部分:第一独立义原Sim1(S1,S2);第一独立义原以外的所有其他独立义原相似度Sim2(S1,S2);关系义原Sim3(S1,S2);符号义原Sim4(S1,S2)。为了反映两个词语互相关联的程度,即词语之间的组合特点,它可以用词语在同一个语境中共现的可能性来衡量,在相似度基础上融合词语的相关性,最后给出相似度匹配的结果。
步骤四:文本回归语义谱聚类。将分词后的文本依据语义相似性进行聚类,得到若干主题类;对每个主题进行分析,得到社交网络中成员的影响因子;对不同时期的同一社交网络的交流记录进行分析,对不同时期的主题进行比较,得到该社交网络的专业绝对系数与相对专业系数。语义相似性进行聚类是关键的方法,具体技术路线如图2所示,图2自上而下表示典型的社交网络交流影响力的测定中间件中语义相似性进行聚类开发的整个流程。
为了能在任意形状的样本空间上得到文本聚类,且收敛于全局最优解,实施例给出了基于图谱的文本聚类模型,给出了图划分的最小割集准则、规范割集准则、比例割集准则、平均割集准则、最小最大割集准则、多路规范割集准则,并将图划分问题转化为求解Laplacian矩阵的第二小特征向量问题,并分为文本粗聚类和文本子类细聚类来完成整个文本的谱聚类,进而得到成员的影响因子。
在文本聚类中,单个短语可能属于多个类,单个文本可能是多主题的文本,本发明采用模糊聚类的方法解决。模糊聚类算法有着很好的弹性,能够允许单个短语可同时属于多个类,单个文本可同时属于多个文本类。
无向加权图G=<V,E,W>,V={d1,d2,…,dn};其表示形式为一对称矩阵:[wij]n×n其中W={w1,w2,…,wm}是边权重,代表两个文本间相似度。计算文本的词频以及文本间的相似度,将文本粗化的聚成无关或是相关度极小的c个文本子类。首先除去在所有文本中出现的高频词;然后提取剩下词汇的短语存入词根表中。收集这些短语形成一个索引短语集T。短语t在文本di中权重为:
tfit定义为短语t在文本中di出现的频率;dft定义为含有短语t的文本数量;L定义为文本di中包含的索引短语的数量;N定义为文本的数量。p_term_document(t,di)的值代表着短语t在文本di中的重要性,取值范围是[0,1]。计算出短语的权重,可以将短语表示成向量:di=(wi1,wi2,…,wis),其中0≤wij≤1,s代表索引短语表中词的数量。则两个文本di与dj的相似度可定义为:
sim(di,dj)∈[0,1]
由wij=sim(di,dj),建立模糊相似矩阵W∈Rn×n,其中当i=j时,令Wii=0。由相似矩阵求得传递闭包t(W),选取一个合适的λ值得到一个λ截集,得到的将是一个0,1矩阵,记为t(R)。由此矩阵可以分成c个文本类,即A={A1,A2,…,Ac},满足了文本类间的相似性极小,将c个文本集看成c个子图。
判断各个文本子类中如果存在只有一个文本的类,将其并入其他与其相似度最高的子类中,变成c*个子图。
输入c*个子图,用基于谱图分割简单的谱聚类算法对每个子图G的顶点集Vk={v1,v2,…,vn},进行聚类,得到每个子图的聚类结果及其对应的类别数ki,其中i∈[1,c*]。计算出ki的和即为总的聚类数K。输入一个数据集X={x1,x2,…,xk},,输出由以上的数据集分割出来的k个子集。
计算每个子图的亲密矩阵S,当i≠j时,Sij=exp(-d(xi-xj)/2σ2),Sii=0。构造拉普拉斯矩阵L,L=D-1/2SD-1/2,其中D为对角阵计算L的前k个特征值特征向量ζ1,ζ2,…,ζk(重复特征值取其互相正交的特征向量),按照大小顺序将相应的特征向量排列构成矩阵:U=[ζ1,ζ2,…,ζk]∈Rn×k,初始化聚类数m=2。令ki=m。取U的前ki个列向量构成矩阵Y,即Y=U(:,1:k),归一化Y为矩阵V,其中
在ki维空间里,每个坐标轴的正负方向分别标记一个聚类。把V的行向量看作是ki维空间的点,将其标记为距离最近的坐标轴所标记的聚类。这样最多可以产生2ki个聚类。除去空聚类和只有少数点的聚类,可以得到此时的聚类数m≤2k。比较m和ki,如果两者不等,重复上面过程。如果m=ki,则所得到的m就是确定的聚类数,同时得到相应聚类数下V的行向量聚类。当且仅当V的第i行为聚类j时,则原始数据点xi为第j类。计算ki的和得到总的聚类数k,和聚类结果。
将分词后的文本依据语义相似性进行聚类,得到若干主题类;对每个主题进行分析,得到社交网络中成员m与其他成员n交流的影响概率因子pmm。
步骤五:由影响概率因子计算网络交流约束和成员在社交网络中的影响力。成员i的社交网络交流约束Ni由他与其他成员交流的影响力概率因子pij决定:
一个成员的社会影响力越大,其在相同时间内与其它成员交流的人数越多,其对应的网络交流约束Ni越低。
步骤六:将所开发的社交网络影响力测定中间件部署到移动社交网络中。在移动社交网络中部署社交网络影响力测定中间件应用的基础设施如图3所示,图3表示使用本发明方法的应用部署时包括的组件:移动客户端、知识库、推理机。一个典型的该类应用通常需要下面几个部件:
移动客户端,客户端从成员移动终端中获取各类社交网络交流的信息,并将语音、图像、视频内容信息处理转换为对应的文本信息,包括语文转换、图像内容文字化与视频内容文字化,与QQ、微博、博客和论坛等社交网络方式交流文本信息一起,包括相应的成员标识信息、交流记录时间(取年、月、日)、交流工具标识信息如QQ号与所交流的内容等存放到知识库中。以上过程采用移动终端动态实时主动推送的方式完成,并将盲音等无效信息自动过滤。
知识库,存储从移动客户端传递来的社交网络交流信息及相应的成员标识信息、交流记录时间(取年、月、日)、交流工具标识信息如QQ号与所交流等内容,为推理机提供相应的推理知识,同时存储推理机的推理结果,作为经验规则以供进一步推理用。
推理机,推理机的核心是社交网络影响力的测定,依据步骤二与步骤三给定的方法,从知识库中取出相应的成员交流信息所形成的知识,计算出社交网络中成员的实时影响力,并反馈给移动终端成员和其他舆情分析、监控、预测系统,并将结果保存到知识库中。
部署完成基础设施之后就可以开始使用社交网络影响力测定中间件执行软件应用。
为了方便描述,假定有如下应用实例:开发一个基于网络交流约束的社交网络交流影响力测定应用,应用的基本需求是在社交网络各移动终端节点创建影响力测定中间件,并将它所采集的成员交流信息处理成知识后主动推送到知识库,推理机依据知识库中的知识完成各成员各阶段的影响力的测定,并将测定结果推送到成员所在社交网络终端。
具体实施方案为:
(1)开发人员根据需求创建实现社交网络交流影响力测定功能的设计;
(2)开发人员构建社交网络移动客户端节点环境;
(3)开发人员构建知识库环境;
(4)开发人员选择服务器,构建推理机环境;
(5)选择移动中间件平台,开发可以嵌入消息知识化处理和推送能力的社交网络交流影响力测定客户端,此步骤可以与具体实施方式(1)(2)(3)同时进行;
(6)网络管理人员根据需要,确定社交网络成员节点数,在各节点部署(5)所确定的社交网络交流影响力测定中间件客户端(此时中间件并未被创建);
(7)网络管理站应用程序调用社交网络交流影响力测定中间件WebService,创建社交网络交流影响力测定中间件A,此时A开始整个生命周期;
(8)影响力测定中间件A启动各成员节点客户端,实时监控社交网络中成员交流情况,采集相应的文本、语音、图像与视频等交流信息;
(9)中间件A成员节点客户端对所采集的交流信息进行预处理,过滤无效交流信息;
(10)中间件A成员节点客户端对所采集的交流信息进行文本化;
(11)中间件A成员节点客户端对文本化后的交流信息提取相应的文本摘要(关键短语),形成知识;
(12)中间件A成员节点客户端将各成员知识推送到知识库;
(13)中间件A服务端推理机依据各成员推送知识到知识库的时间和知识库中的知识完成文本关键短语匹配,计算文本语义相似度;
(14)中间件A服务端推理机依据文本语义相似度完成文本回归语义谱聚类,得到主题类;
(15)中间件A服务端推理机对主题进行分析,得到社交网络中成员与其他成员交流的影响力概率因子;
(16)中间件A服务端推理机由影响力概率因子计算网络交流约束和成员在社交网络中的影响力;
中间件A服务端推理机将成员在社交网络中的影响力计算结果保存到知识库,并主动推送到所需的各成员客户端,并结束A的一次生命周期。