CN104462592B - 基于不确定语义的社交网用户行为关系推演系统及方法 - Google Patents
基于不确定语义的社交网用户行为关系推演系统及方法 Download PDFInfo
- Publication number
- CN104462592B CN104462592B CN201410848410.1A CN201410848410A CN104462592B CN 104462592 B CN104462592 B CN 104462592B CN 201410848410 A CN201410848410 A CN 201410848410A CN 104462592 B CN104462592 B CN 104462592B
- Authority
- CN
- China
- Prior art keywords
- activity
- user
- entry
- similarity
- uncertain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000000694 effects Effects 0.000 claims abstract description 323
- 239000011159 matrix material Substances 0.000 claims description 124
- 230000006399 behavior Effects 0.000 claims description 91
- 238000004364 calculation method Methods 0.000 claims description 54
- 230000014509 gene expression Effects 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 abstract description 5
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000011160 research Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- FGXWKSZFVQUSTL-UHFFFAOYSA-N domperidone Chemical compound C12=CC=CC=C2NC(=O)N1CCCN(CC1)CCC1N1C2=CC=C(Cl)C=C2NC1=O FGXWKSZFVQUSTL-UHFFFAOYSA-N 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明一种基于不确定语义的社交网用户行为关系推演系统及方法,属于数据挖掘和服务信息推荐领域,本发明基于用户地理位置相似性与用户活动相似性推演出用户是否具有行为关系;通过地理位置与活动相似性推断出与用户具有行为关系的用户,从而可以对未知用户行为做出准确预测,可以极大地提升信息推荐服务的质量;实验证明,本发明在未知本发明在未知用户行为预测的准确性上优于现在已有的行为预测方法,具有很高的实际应用价值,所以如果能够得到推广,将能极大地提高用户行为预测的准确性,对企事业明确目标客户人群,做出正确决策具有显著的意义。
Description
技术领域
本发明属于数据挖掘和服务信息推荐领域,具体涉及一种基于不确定语义的社交网用户行为关系推演系统及方法。
背景技术
在线社交网络成为了使用户之间相互联系,分享各种信息的重要平台,如Twitter、Facebook、Instagram等知名社交网络。其中,由于Twitter具有内容简洁性及强大的用户实时交互性,已经成为当今国外主流社交媒体。
Tweet(推特)中的“@”字符表示“提及”,意思是“向某人说”,不难看出,“@”操作是揭示用户间紧密关系的有效途径之一。但查阅资料后得知,目前学术界和工业界对社交关系研究,一方面,仅局限于“关注/被关注”关系,或者是“Retweet关系”,即通过计算用户相似度、分析网络拓扑结构、度量用户交互性等手段来分析静态的社交网用户关系及其强度,缺乏对“@”关系的深入探讨,但事实是,在体现用户紧密程度方面,“@”关系比“关注/被关注”关系更强,因为只有关注了某个用户,才能去“@”该用户,因此目前社交网关系研究遗漏了对更紧密相似语义行为关系的挖掘。另一方面,尽管有些研究工作提出了与位置有关的用户关系推断,但只研究了“关注”和“推送”这种简单的显式连接关系,对用户间是否具有更复杂的隐式语义连接,比如通过“活动”所体现出来的餐饮、旅行、购物等语义关系尚未作出探讨,事实上,利用位置所体现的语义信息能更准确地找到相似用户,但这一点被忽略。综上所述,社交网用户行为关系的研究尚不够深入和完善,行为关系挖掘技术也不全面,这些不足最终导致信息推荐服务对象不够准确。基于此,本专利系统深入探讨了如何通过“提及”关系来更有效地挖掘用户间的相似语义行为关系,旨在进一步完善行为关系发现技术,以有助于商业服务推荐、广告精准投放等,因此本专利具有重要理论研究价值和实际应用意义。
发明内容
针对现有技术的缺点,本发明提出一种基于不确定语义的社交网用户行为关系推演系统及方法,以达到提高用户行为预测的准确性的目的。
一种基于不确定语义的社交网用户行为关系推演系统,包括不确定词条活动库构建模块、未知地理位置推演模块、推特文本词条提取模块、推特文本词条表达活动概率值推演模块、用户对活动相似性概率矩阵计算模块、用户对物理位置相似度矩阵计算模块、用户对语义行为关系矩阵推演模块和用户对语义行为关系聚类推演模块;其中,
不确定词条活动库构建模块:用于获取第三方应用中的活动类别及各活动类别中所包含的不确定词条,根据每个不确定词条在不同活动类别中的词频和每个不确定词条的逆向文本频率,获得每个不确定词条在不同活动类别中的重要性权重值,并根据设定的两个重要性权重阈值和每个不确定词条在不同活动类别中的重要性权重值,对每个不确定词条进行分类,再根据分类情况计算词条属于各活动类别的概率值,最终根据获得的活动类别、各活动类别中所包含的不确定词条、各不确定词条的类型和各不确定词条所属活动类别的概率值,构建不确定词条活动库;
未知地理位置推演模块:用于获取社交网中提及目标用户的其他用户的已知物理位置经度和纬度,计算其他用户的已知物理位置方差,并根据上述方差,采用最大似然估计法获得目标用户的未知物理位置,发送至用户对物理位置相似度矩阵计算模块中;
推特文本词条提取模块:用于通过分词工具将社交网中提及目标用户的其他用户所发文本进行词条提取,并发送至推特文本词条表达活动概率值推演模块中;
推特文本词条表达活动概率值推演模块:用于在不确定词条活动库中对所提取的词条进行匹配,并确定词条在不同活动类别中的词条类型和概率值,并获得所提取的词条所属活动类别的所有组合情况,并计算各活动类别中每种词条组合情况的概率值;
用户对活动相似性概率矩阵计算模块:用于采用杰卡德相似系数计算获得任意用户对所产生的各类活动的相似度和相似概率,并将大于设定阈值的相似度所对应的活动相似概率进行求和,获得该用户对活动相似概率,进而获得所有目标用户对活动相似概率,并构建用户对相似行为活动概率下三角矩阵;
用户对物理位置相似度矩阵计算模块:用于将目标用户的地理经度和纬度转换成平面距离,根据平面距离计算任意用户对间物理位置的相似度,并获取用户对间物理位置的相似度大于设定阈值的相似度值,并将上述相似度值保存至用户对物理位置相似度下三角矩阵中,完成用户对物理位置相似度下三角矩阵的构建;
用户对语义行为关系矩阵推演模块:用于根据构建完成的用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵,获取目标用户对在用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵中对应位置的两数值,并将两数值相乘,获得目标用户对用户对语义行为关系值,并构建用户对用户对语义行为关系矩阵;
用户对语义行为关系聚类推演模块;用于根据用户对用户对语义行为关系矩阵构建连通图,即将用户作为连通图的节点,用户对间的用户对语义行为关系值作为连通图节点之间的连通边,删除用户对语义行为关系值小于设定阈值的连通边,将剩余连通边构成的每个连通子图作为一组用户对语义行为关系,完成社交网用户语义行为关系的推演。
采用基于不确定语义的社交网用户行为关系推演系统进行的推演方法,包括以下步骤:
步骤1、构建不确定词条活动库,具体步骤如下:
步骤1-1、获取第三方应用中的活动类别及各活动类别中所包含的不确定词条;
步骤1-2、根据每个不确定词条在不同活动类别中的词频和每个不确定词条的逆向文本频率,获得每个不确定词条在不同活动类别中的重要性权重值;
步骤1-3、设置不确定词条在不同活动类别中的两个重要性权重阈值,根据两个重要性权重阈值和每个不确定词条在不同活动类别中的重要性权重值,对每个不确定词条进行分类;
具体如下:
若不确定词条的重要性权重值同时小于两个重要性权重阈值,则该不确定词条为活动不相关词条;
若不确定词条的重要性权重值同时大于两个重要性权重阈值,则该不确定词条为活动相关词条;
若不确定词条的重要性权重值介于两个重要性权重阈值之间,则该不确定词条为活动半相关词条;
步骤1-4、根据活动半相关词条在某类活动类别中的权重值和该类活动类别中全部词条中权重值最大值,确定活动半相关词条属于该活动类别的概率值;
步骤1-5、根据获得的活动类别、各活动类别中所包含的不确定词条、各不确定词条的类型和各不确定词条所属活动类别的概率值,构建不确定词条活动库;
步骤2、采用未知地理位置推演模块获取社交网中提及目标用户的其他用户的已知物理位置经度和纬度,计算其他用户的已知物理位置方差,并根据上述方差,采用最大似然估计法获得目标用户的未知物理位置;
步骤3、采用推特文本词条提取模块,通过分词工具将社交网中提及目标用户的其他用户所发文本进行词条提取;
步骤4、采用推特文本词条表达活动概率值推演模块,推演出社交网中用户所提取的词条所属活动类别集合,具体如下:
步骤4-1、在不确定词条活动库中对所提取的词条进行匹配,并确定词条在不同活动类别中的词条类型和概率值;
步骤4-2、获得所提取的词条所属活动类别的所有组合情况,并计算各活动类别中每种词条组合情况的概率值;
步骤5、采用用户对活动相似性概率矩阵计算模块,获得社交网中任意用户对产生相似活动的概率,并构建用户对相似行为活动概率下三角矩阵,具体如下:
步骤5-1、采用杰卡德相似系数计算获得任意用户对所产生的各类活动的相似度和相似概率,并将大于设定阈值的相似度所对应的活动相似概率进行求和,获得该用户对活动相似概率;
步骤5-2、反复执行步骤5-1,直至获得所有目标用户对活动相似概率,并构建用户对相似行为活动概率下三角矩阵;
步骤6、采用用户对物理位置相似度矩阵计算模块,获得社交网中任意用户对物理位置相似度,并构建用户对物理位置相似度下三角矩阵,具体如下:
步骤6-1、将目标用户的地理经度和纬度转换成平面距离,根据平面距离计算任意用户对间物理位置的相似度;
步骤6-2、获取用户对间物理位置的相似度大于设定阈值的相似度值,并将上述相似度值保存至用户对物理位置相似度下三角矩阵中,完成用户对物理位置相似度下三角矩阵的构建;
步骤7、采用UPSBR关系矩阵推演模块,根据构建完成的用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵,获取目标用户对在用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵中对应位置的两数值,并将两数值相乘,获得目标用户对用户对语义行为关系值,并构建用户对用户对语义行为关系矩阵;
步骤8、采用用户对语义行为关系聚类推演模块构建连通图,即将用户作为连通图的节点,用户对间的用户对语义行为关系值作为连通图节点之间的连通边,删除用户对语义行为关系值小于设定阈值的连通边,将剩余连通边构成的每个连通子图作为一组用户对语义行为关系,完成社交网用户语义行为关系的推演。
步骤1-3所述的设置不确定词条在不同活动类别中的两个重要性权重阈值,具体步骤如下:
步骤1-3-1、获得活动相关词条判断阈值,计算公式如下:
θr=αθmax (1)
其中,θr为活动相关词条的判断阈值,θmax为某类活动中词条集合中权重排序第一的词条权重,α为一个调节参数,取值范围为0.3~0.4;
步骤1-3-2、删除权重值大于活动相关词条判断阈值的不确定词条,将剩余的不确定词条按照由大到小进行排序;
步骤1-3-3、在排序后的词条中,寻找相邻词条间权重值差值最大的位置,以该位置处排序靠前的词条权重值作为活动半相关词条判断阈值;
步骤1-3-4、将获得的活动相关词条判断阈值和活动半相关词条判断阈值作为在该类活动中的两个重要性权重阈值。
步骤5-1所述的设定阈值取值范围为0.4~0.6。
步骤6-2所述的设定阈值取值范围为0.5~0.6。
步骤8所述的设定阈值取值范围为0.4~0.5。
本发明优点:
本发明一种基于不确定语义的社交网用户行为关系推演系统及方法,基于用户地理位置相似性与用户活动相似性推演出用户是否具有行为关系;通过地理位置与活动相似性推断出与用户具有行为关系的用户,从而可以对未知用户行为做出准确预测,可以极大地提升信息推荐服务的质量;实验证明,本发明在未知本发明在未知用户行为预测的准确性上优于现在已有的行为预测方法,具有很高的实际应用价值,所以如果能够得到推广,将能极大地提高用户行为预测的准确性,对企事业明确目标客户人群,做出正确决策具有显著的意义。
附图说明
图1是本发明一种实施例的基于不确定语义的社交网用户行为关系推演系统结构框图;
图2是本发明一种实施例的基于不确定语义的社交网用户行为关系推演方法流程图;
图3是本发明一种实施例的一对用户间UPSBR关系推演示意图;
图4是本发明一种实施例的推演一个用户对间具有UPSBR关系的样例示意图;
图5为本发明一种实施例的对应一个UPSBR关系矩阵的连通图,其中,图(a)为UPSBR关系矩阵M所对应的最大树连通图,图(b)为为UPSBR关系矩阵M对应生成的连通子图;
图6为本发明一种实施例的物理位置推演测试结果图,其中,图(a)为不同ED段的物理位置推演测试结果图,图(b)为“@-次数”对不同ED段的物理位置推演的影响结果图;
图7为本发明一种实施例的UPSBR推演测试结果图;
图8为本发明一种实施例的UGSBR关系聚类精度测试结果图,其中,图(a)为NMI测试结果图;图(b)为F1-Measure测试结果图,
图9为本发明一种实施例的UGSBR关系聚类参数敏感性测试结果图,其中,图(a)为参数θsim敏感测试结果图;图(b)为参数α敏感测试结果图,
具体实施方式
下面结合附图对本发明一种实施例做进一步说明。
针对目前信息推荐服务对象不够准确,本发明以用户Tweets(推特)内容中“@”关系为核心研究如何有效挖掘用户间的相似行为关系,首先,提出了一种“语义行为关系”概念,简称SBR(Semantic Behavior Relationship),SBR体现了在相似地理位置进行相似活动的语义行为;进一步,将SBR关系又分为“用户对语义行为关系”(User Pair SemanticBehavior Relationship,简称UPSBR)和“用户群语义行为关系”(User Group SemanticBehavior Relationship-UGSBR),其中,UPSBR体现的是一对用户间的行为关系,UGSBR体现的是用户群之间的行为关系。其次,本发明还提出了一种基于不确定活动词条的社交网用户语义行为关系推演系统,即SBR-IS(Semantic Behavior Relationship-InferringSystem),该系统设置于计算机中,如图1所示,包括八个模块:不确定词条活动库构建模块、未知地理位置推演模块、推特(Tweets)文本词条提取模块、推特(Tweets)文本词条表达活动概率值推演模块、用户对活动相似性概率矩阵计算模块、用户对物理位置相似度矩阵计算模块、用户对语义行为(UPSBR)关系矩阵推演模块和用户对语义行为(UPSBR)关系聚类推演模块;其中,
不确定词条活动库构建模块:用于获取第三方应用中的活动类别及各活动类别中所包含的不确定词条,根据每个不确定词条在不同活动类别中的词频和每个不确定词条的逆向文本频率,获得每个不确定词条在不同活动类别中的重要性权重值,并根据设定的两个重要性权重阈值和每个不确定词条在不同活动类别中的重要性权重值,对每个不确定词条进行分类,再根据分类情况计算词条属于各活动类别的概率值,最终根据获得的活动类别、各活动类别中所包含的不确定词条、各不确定词条的类型和各不确定词条所属活动类别的概率值,构建不确定词条活动库;
本发明实施例中,不确定词条活动库构建模块根据第三方应用Foursquare(四方)的活动类别和维基百科词条分类构建社交网用户活动词条库,然后抽取出每类活动包含的词条,并通过TF·IDF(TF:统计词条的词频,IDF:词条的逆向文本频率)方法给出词条表达活动的重要性权值,再将词条划分为活动相关词条、活动半相关词条和活动不相关词条,并赋予词条表达活动的概率值;
未知地理位置推演模块:用于获取社交网中提及目标用户的其他用户的已知物理位置经度和纬度,计算其他用户的已知物理位置方差,并根据上述方差,采用最大似然估计法获得目标用户的未知物理位置,发送至用户对物理位置相似度矩阵计算模块中;
本发明实施例中,未知地理位置推演模块用于对“@关系”进行概率产生可能性的最大化计算,并通过“@关系”中“提及者”发布Tweets的若干已知历史位置信息计算出“提及者”历史位置方差,然后根据“提及者”历史位置方差和当前所在已知地理位置用最大似然估计法推演出“@”关系中“被提及者”的未知地理位置;
推特文本词条提取模块:用于通过分词工具将社交网中提及目标用户的其他用户所发文本进行词条提取,并发送至推特文本词条表达活动概率值推演模块中;
本发明实施例中,推特文本词条提取模块用于根据Lucene分词工具对“@关系”中“提及者”所发Tweets文本进行文本解析,经过去停用词等操作提取出文本包含的词条;
推特文本词条表达活动概率值推演模块:用于在不确定词条活动库中对所提取的词条进行匹配,并确定词条在不同活动类别中的词条类型和概率值,并获得所提取的词条所属活动类别的所有组合情况,并计算各活动类别中每种词条组合情况的概率值;
本发明实施例中,推特文本词条表达活动概率值推演模块用于将所提Tweets文本词条与不确定词条活动库中的词条进行匹配,然后列出匹配上的Tweets文本词条活动表达集合的所有可能存在形式,并根据对应的不确定词条活动库中词条被赋予的概率值推演出每种Tweets文本词条活动表达集合形式下所具有的概率值;
用户对活动相似性概率矩阵计算模块:用于采用杰卡德相似系数计算获得任意用户对所产生的各类活动的相似度和相似概率,并将大于设定阈值的相似度所对应的活动相似概率进行求和,获得该用户对活动相似概率,进而获得所有目标用户对活动相似概率,并构建用户对相似行为活动概率下三角矩阵;
本发明实施例中,用户对活动相似性概率矩阵计算模块用于根据待推演的每对用户间的活动相似度及这对用户各自的词条表达活动概率值集合,计算出对应的用户对的活动相似性概率,并将每对概率值作为活动相似性矩阵元素构建活动相似性概率矩阵A。
用户对物理位置相似度矩阵计算模块:用于将目标用户的地理经度和纬度转换成平面距离,根据平面距离计算任意用户对间物理位置的相似度,并获取用户对间物理位置的相似度大于设定阈值的相似度值,并将上述相似度值保存至用户对物理位置相似度下三角矩阵中,完成用户对物理位置相似度下三角矩阵的构建;
本发明实施例中,用户对物理位置相似度矩阵计算模块用于根据欧氏距离计算出待推演的每对用户间的物理位置相似度,并将每对相似度值作为矩阵元素构建物理位置相似度矩阵L。
用户对语义行为关系矩阵推演模块:用于根据构建完成的用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵,获取目标用户对在用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵中对应位置的两数值,并将两数值相乘,获得目标用户对用户对语义行为关系值,并构建用户对用户对语义行为关系矩阵;
本发明实施例中,UPSBR关系矩阵推演模块用于根据待推演的每对用户间的用户对活动相似性概率矩阵值和用户对物理位置相似度矩阵值计算出每对用户是否具有UPSBR关系,如果二者的活动相似性概率值和物理位置相似度值均大于预先设定的阈值范围,那么可以推出二者具有UPSBR关系,并将活动相似性概率值和物理位置相似度值的乘积作为矩阵元素以生成UPSBR关系矩阵M。
用户对语义行为关系聚类推演模块;用于根据用户对用户对语义行为关系矩阵构建连通图,即将用户作为连通图的节点,用户对间的用户对语义行为关系值作为连通图节点之间的连通边,删除用户对语义行为关系值小于设定阈值的连通边,将剩余连通边构成的每个连通子图作为一组用户对语义行为关系,完成社交网用户语义行为关系的推演。
本发明实施例中,UGSBR关系聚类推演模块用于根据最大树聚类技术对生成的UPSBR关系矩阵M进行关系聚类,如果M对应的连通图的最小生成树中一些边的权值小于预先给定阈值,就将这些边剪掉,于是剩余连通子图便是UGSBR关系聚类结果,而每个类则表示一组具有UGSBR关系的用户群体。
采用基于不确定语义的社交网用户行为关系推演系统进行的推演方法,本发明实施例中(如图4所示),以用户u2和用户u5为例,判断二者是否具有UPSBR关系;然后,再判断用户u1、用户u2、用户u3、用户u4和用户u5间是否具有UGSBR关系,方法流程图如图2所示,包括以下步骤:
步骤1、构建不确定词条活动库,具体步骤如下:
步骤1-1、获取第三方应用中的活动类别及各活动类别中所包含的不确定词条;
本发明实施例中,借鉴第三方应用FourSquare的活动分类信息并根据实际需要,将活动分为以下六类:
(1)Food(美食):主要包括各种餐厅,如中国餐馆等。
(2)Shopping(购物):主要有商店等。
(3)Travel(旅行):主要包括著名旅游景点。
(4)Art(艺术):主要包括一些博物馆等。
(5)Entertainment(娱乐):主要包括游泳馆、足球场等。
(6)Business(商业):主要包括开会地点等。
每类活动下存储表示该类活动的词条,由于活动分类词条与社交应用本身紧密相关,即存在一定语义偏斜,因此本实施例中在构建活动分类词条集合时,根据类别语义通过维基百科增加了部分相关词条,以改善语义倾斜问题。
步骤1-2、根据每个不确定词条在不同活动类别中的词频和每个不确定词条的逆向文本频率,获得每个不确定词条在不同活动类别中的重要性权重值;
步骤1-2-1、统计每个不确定词条在不同活动类别中的词频
计算公式如下:
其中,TF表示词条ti在第j类活动中出现的词频,fij表示词条ti在第j类活动Aj中出现的次数,∑f表示在所有活动中包含的词条总数;
步骤1-2-2、统计每个不确定词条的逆向文本频率
计算公式如下:
其中,IDF表示词条ti的逆向文本频率,|A|表示全部活动个数,|Ai|表示包含词条ti的活动个数;
步骤1-2-3、获得词条的重要性权重。
词条ti在多少个活动中出现过,对ti与某个活动的相关性大小有重要影响:若ti在越多的活动中出现,则ti与某个活动能够的相关性越低;反之,若ti在越少的活动中出现,则ti与活动的相关性越高;因此,用TF·IDF方法计算词条表达活动的重要性权重,
计算公式如下:
w=TF·IDF (4)
其中,w表示词条ti在活动Aj中的重要性权重,并将公式(2)和(3)代入;
步骤1-3、设置不确定词条在不同活动类别中的两个重要性权重阈值,根据两个重要性权重阈值和每个不确定词条在不同活动类别中的重要性权重值,对每个不确定词条进行分类;
所述的设置不确定词条在不同活动类别中的两个重要性权重阈值,具体步骤如下:
步骤1-3-1、获得活动相关词条判断阈值θr,计算公式如下:
θr=αθmax (1)
其中,θr为活动相关词条的判断阈值,θmax为某类活动中词条集合中权重排序第一的词条权重,α为一个调节参数,通过实验确定取值为0.3;
步骤1-3-2、删除权重值大于活动相关词条判断阈值的不确定词条,将剩余的不确定词条按照由大到小进行排序;
步骤1-3-3、在排序后的词条中,寻找相邻词条间权重值差值最大的位置l,以该位置处排序靠前的词条权重值作为活动半相关词条判断阈值θu;
相邻词条间权重值差值最大的位置l计算公式如下:
w[l]-w[l+1]=max1≤v≤z-1{w[v]-w[v+1]} (5)
其中,w[v]表示排在第v位词条的权重,w[v+1]表示排在第v+1位词条的权重,z表示除rt外的词条个数;
步骤1-3-4、将获得的活动相关词条判断阈值θr和活动半相关词条判断阈值θu作为在该类活动中的两个重要性权重阈值。
分类具体如下:
若不确定词条的重要性权重值同时小于两个重要性权重阈值,则该不确定词条为活动不相关词条ut;
若不确定词条的重要性权重值同时大于两个重要性权重阈值,则该不确定词条为活动相关词条rt;
若不确定词条的重要性权重值介于两个重要性权重阈值之间,则该不确定词条为活动半相关词条st;
步骤1-4、根据活动半相关词条在某类活动类别中的权重值和该类活动类别中全部词条中权重值最大值,确定活动半相关词条属于该活动类别的概率值;
本发明实施例中,词条ti是活动相关词条rt时,表达活动Aj的概率为1,词条ti是活动不相关词条ut时,表达活动Aj的概率为0,词条ti是活动半相关词条st时,计算其表达活动Aj的概率;计算公式如下:
其中,表示词条ti为rt时表达活动Aj的概率,w(ti)表示词条ti的权重,wmax表示全部词条的最大权重值,于是
步骤1-5、根据获得的活动类别、各活动类别中所包含的不确定词条、各不确定词条的类型和各不确定词条所属活动类别的概率值,构建不确定词条活动库;
本发明实施例中,六类活动及其包含的词条如表1所示(仅列出部分词条)。表中词条后括号中的“字母-数字”表明该词条是活动相关(用字母r表示),还是活动半相关(用字母s表示)。注意,此处活动不相关词条由于对活动表达无关,因此被删去;数字则表示该词条表达所属活动的权重值。
表1
步骤2、采用未知地理位置推演模块获取社交网中提及目标用户的其他用户的已知物理位置经度和纬度,计算其他用户的已知物理位置方差,并根据上述方差,采用最大似然估计法获得目标用户的未知物理位置;
步骤2-1、计算“@”用户ui的第1个用户的物理位置方差具体步骤如下:
根据图3,此处假定有m个用户在Tweets中“@”了ui,即ui是“被提及者”,m个用户是“提及者”,“@”ui的第r个“提及者”用表示,每个“提及者”到“被提及者”的“@关系”用表示;
步骤2-1-1、提取出用户在一周内发布的所有Tweets文本;
本发明实施例中Tweets文本需要满足以下3个条件:
1)从Tweet中能获取到“@ui”的第1个用户的物理位置,即的和分别表示的已知物理位置经度和纬度;
2)Tweet中含有“@”其他用户的信息,即存在边;k1表示一周内@其他用户次数
3)从Tweet中能获取“@”其他用户时所处物理位置;
本发明实施例中,存在u1、u2、u3、u4和u5五位用户,其中u1和u4分别“@”了u2,u3“@”了u5;u1、u3和u4的语义活动和物理位置已知,且他们在一周内“@”其他用户的Tweets文本和发布位置也已知;u2和u5的语义活动和物理位置均未知;
由图4可知,本发明实施例中,“@”u2的第一个“提及者”(即u1)的已知物理位置的经度纬度一周内“@”其他三个用户时已知物理位置的经度和纬度分别为
步骤2-1-2、计算用户的位置方差
计算公式如下:
其中,表示“提及者”的物理位置方差,和Y1 w分别表示一周内“@”第w(1≤w≤k1)个用户时已知的物理位置经度和纬度;
根据公式(7)可得“提及者”的物理位置方差为:
类似地,可计算出“@”u2的其他位置已知的“提及者”的未知物理位置方差。假定的已知经度纬度并
步骤2-1-3:重复步骤1-2-1和1-2-2,计算出“@”ui的剩余m-1个“提及者”的位置方差到
步骤2-2、利用最大似然估计模型对“@”了某个用户(假定ui)的全部“@关系”建立概率产生的最大化计算公式,
计算公式如下:
其中,表示产生边的概率;表示所处物理位置的方差;和分别表示ui未知物理位置的经度和纬度;和则分别表示已知物理位置的经度和纬度。
本发明实施例中,公式(8)中包含着三个未知变量和其中可以通过对“提及者”的已知历史位置数据计算求出,于是对未知变量和的概率计算就演变为当它们分别取什么值时可以让值最大,此时和所取的值就是“被提及者”ui未知位置的推演结果,换句话说,值越大,和就越接近实际情况。
步骤2-3、推演“被提及者”ui未知物理位置的精度和纬度;
计算公式如下:
其中,和分别为ui未知物理位置的经度和纬度,和分别为已知物理位置的经度和纬度,为的已求得的物理位置方差。
本发明实施例中,根据公式(9)可计算出“被提及者”ui的未知物理位置的经度和纬度分别为
本发明实施例中,u5的经、纬度计算结果为(41.54,-73.82)。
步骤2-4、重复步骤2-1到步骤2-3,求出所有其他用户具有“@关系”的“被提及者”的未知物理位置;
步骤3、采用推特文本词条提取模块,通过分词工具将社交网中提及目标用户的其他用户所发文本进行词条提取;
本发明实施例中,采用计算机中的Tweets文本词条提取模块,利用Lucene分词工具,通过去停用词等操作对所有@关系”中的“提及者”所发Tweets文本进行词条提取。
本发明实施例中,从“@”u2的所有Tweets文本中提取的不确定活动词条集合如下:
从“@”u5的所有Tweets文本中提取的不确定活动词条集合如下:
经过与词条库匹配可得mall、KFC和sales为活动相关词条,clothes和spend为活动半相关词条,且w(mall)=1,w(KFC)=0.95,w(sales)=0.9,w(clothes)=0.8,w(spend)=0.6,wmax=1。根据公式(6)可算出,活动半相关词条clothes和spend的相关概率分别为:
p(clothes)=w(clothes)/wmax=0.8;p(spend)=w(spend)/wmax=0.6;
将活动相关词条和活动半相关词条加入到描述用户活动的词条集合中。
步骤4、采用推特文本词条表达活动概率值推演模块,推演出社交网中用户所提取的词条所属活动类别集合,具体如下:
步骤4-1、在不确定词条活动库中对所提取的词条进行匹配,并确定词条在不同活动类别中的词条类型和概率值;
本发明实施例中,“@”u2的所有“提及者”,即u1和u4发布Tweets文本所包含的不确定活动词条已被解析出来且经过词库词条匹配获得;“@”u5的所有“提及者”,即u3发布Tweets文本所包含的不确定活动词条已被解析出来且经过词库词条匹配获得;
步骤4-2、获得所提取的词条所属活动类别的所有组合情况,并计算各活动类别中每种词条组合情况的概率值;
步骤4-2-1、去掉用户的(表示“@”ui的第一个“提及者”所发布得Tweets文本(此处ui即为u2))所对应的不确定活动词条集合中不相关活动词条;
本发明实施例中,令其中表示第b个活动词条。因为活动不相关词条概率p(ut)=0,对于活动表示没有任何意义,则就变为仅含相关活动词条和半相关活动词条的即其中表示第br个活动相关词条;表示第bs个活动半相关词条;
步骤4-2-2、得出提取词条表达可能产生活动的所有组合形式,并计算各活动类别中每种词条组合情况的概率;
用多种带概率值的不确定活动词条集合表示则每种表达形式都存在一个概率值,计算公式如下:
其中,是的第种表达形式;如果某个活动半相关词条出现在中,则否则
步骤4-2-3、重复步骤4-2-1和4-2-2,完成对到以及剩余用户的“提及者”所发布文本中词条表达活动工作;
本发明实施例中,推演“@”u2的Tweets文本词条所代表的活动表达集合及其概率为以下4种形式:
“@”u5的Tweets文本词条所代表的活动表达集合及其概率为以下2种形式:
步骤5、采用用户对活动相似性概率矩阵计算模块,获得社交网中任意用户对产生相似活动的概率,并构建用户对相似行为活动概率下三角矩阵,具体如下:步骤5-1、采用杰卡德(Jaccard)相似系数计算获得任意用户对所产生的各类活动的相似度和相似概率,并将大于设定阈值0.6的相似度所对应的活动相似概率进行求和,获得该用户对活动相似概率;
本发明实施例中,利用Jaccard相似系数计算出一对用户间的活动相似度,计算公式如下:
其中,表示用户ui与用户uj间的活动相似度,表示用户ui语义行为表达的第种概率活动词条描述集合,表示用户uj语义行为表达的第种概率活动词条描述集合;
计算用户ui与用户uj间相似活动的概率值:
选出和的所有概率活动词条描述集合中相似度大于活动相似度阈值θsim的描述集合,θsim=0.6,则任意一对用户间相似活动的概率值是这些集合的概率值相加,
计算公式如下:
其中,表示用户ui和用户uj间相似活动的概率值,即大于活动相似度阈值的这些集合中的词条能够以多大概率代表两个用户产生某类或某几类相似活动;表示所有概率活动词条描述集合中相似度大于活动相似度阈值范围θsim的第个描述集合;表示所有概率活动词条描述集合中相似度大于活动相似度阈值范围θsim的第个描述集合;
步骤5-2、反复执行步骤5-1,直至获得所有目标用户对活动相似概率,并构建用户对相似行为活动概率下三角矩阵;
本发明实施例中,将所有和中词条对应的某类或某几类活动的概率值作为第j行和第i列元素存入矩阵A中;
本发明实施例中,计算出u2和u5活动相似度如表2中活动相似度一列所示。
表2
本发明实施例中θsim=0.6,则即u2和u5的活动相似性概率为0.656,将0.656填入矩阵A的第5行和第2列。类似地,计算出其他用户对间的活动相似度概率,最终计算出的用户对活动相似概率矩阵A如下:
步骤6、采用用户对物理位置相似度矩阵计算模块,获得社交网中任意用户对物理位置相似度,并构建用户对物理位置相似度下三角矩阵,具体如下:
步骤6-1、将目标用户的地理经度和纬度转换成平面距离,根据平面距离计算任意用户对间物理位置的相似度;
步骤6-1-1、将用户地理经、纬度转换成平面距离;
计算公式如下:
其中,D(ui,uj)表示一对用户间的平面距离,表示弧度值,λ表示经度差,β表示纬度差,γ表示地球半径(γ=6378.137公里);
本发明实施例中,根据公式(13)计算出
步骤6-1-2、计算一对用户间物理位置的相似度;
计算公式如下:
其中,表示一对用户间物理位置的相似度。
根据公式(14)计算出
步骤6-2、获取用户对间物理位置的相似度大于设定阈值0.5的相似度值,并将上述相似度值保存至用户对物理位置相似度下三角矩阵中,完成用户对物理位置相似度下三角矩阵的构建;
本发明实施例中,将大于阈值ε2=0.5的值填入矩阵L对应的第i行和第j列中,重复步骤6-1和步骤6-2,完成对所有用户对的物理位置相似度计算并生成下三角矩阵L;
本发明实施例中,将0.66填入矩阵L的第5行和第2列。类似地,计算出其他用户间的物理位置相似度值。同理,此处假定其他用户对间的物理位置相似度已计算完毕,并给出了具体值。最终计算出的用户对物理位置相似度矩阵L如下:
步骤7、采用UPSBR关系矩阵推演模块,根据构建完成的用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵,获取目标用户对在用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵中对应位置的两数值,并将两数值相乘,获得目标用户对用户对语义行为关系值,并构建用户对用户对语义行为关系矩阵;
步骤7-1、扫描A和L中第i行和第j列元素,如果其中ε1=0.5,ε2=0.5,那么推出ui和uj具有UPSBR关系;
本发明实施例中,扫描A和L中第5行和第2列元素,由于(预先定义ε1=0.5),(预先定义ε2=0.5);
步骤7-2、生成用户对用户对语义行为关系矩阵M中的第j行和第i列元素;
计算公式如下:
Mji=Aji·Lji (15)
本发明实施例中,计算出A52·L52=0.656×0.66=0.433,将0.433填入矩阵位置M52中,同时推出u2和u5具有UPSBR关系。
步骤7-3、重复步骤7-1和7-2,直至扫描完用户对相似行为活动概率下三角矩阵A和用户对物理位置相似度下三角矩阵L的所有下三角元素,完成所有用户对的UPSBR关系推演,并生成用户对用户对语义行为关系矩阵M。
本发明实施例中,计算出其他用户对的关系值,则最终生成的UPSBR关系矩阵M如下:
步骤8、采用用户对语义行为关系聚类推演模块构建连通图,即将用户作为连通图的节点,用户对间的用户对语义行为关系值作为连通图节点之间的连通边,删除用户对语义行为关系值小于设定阈值0.4的连通边,将剩余连通边构成的每个连通子图作为一组用户对语义行为关系,完成社交网用户语义行为关系的推演。
具体步骤如下:
步骤8-1、根据M构建对应的连通图G;
步骤8-1-1、将M的用户作为连通图G的节点;
步骤8-1-2、将用户对间的矩阵值作为对应节点之间的边;
步骤8-1-3、重复步骤8-1-1和8-1-2,完成所有用户对操作;
步骤8-2、选择G中任意一个顶点v(ui)加入到最小生成树已选顶点集合;
步骤8-3、选择一条代价最小的边e(ui,uj)加入到最小生成树中;
步骤8-4、重复步骤8-2和8-3,生成G的最小生成树T;
步骤8-5、根据最小生成树T进行用户群聚类;
步骤8-5-1、取定一个阈值0.4;
步骤8-5-2、去掉最小生成树T中边权重小于λ的连通边;
步骤8-5-3、剩余边构成的每个连通子图即为一组UGSBR关系;
本发明实施例中,计算推演出的UPSBR关系矩阵M所对应的最大树如图5(a)所示;设定λ=0.4,则对应生成的连通子图如图5(b)所示,即用户被聚成两类,分别是C1={u1,u2,u3,u5},C2={u4}。
本发明中,通过实验验证了所提基于不确定活动词条的社交网用户语义行为关系推演系统SBR-IS的有效性和可行性。
图6(a)给出了SBR-IS(语义行为关系推演系统中文)中未知物理位置推演测试结果。当预测距离与实际距离的ED大约处在16km范围内时,SBR-IS推演出的用户比例略高于现有方法UOW(Users Own Words),且在实际应用中,大部分用户一般都被定位在误差16km范围内,因此说明在衡量位置推断准确性时,SBR-IS比UOW的准确性要高一些。其次,图6(a)中的两条曲线都呈现出先下降再略有上升的趋势,只不过SBR-IS在曲线尾部即大约512km处上升,而UOW在大约16km处上升,说明有一些用户会在发布距离较远的Tweet文本中“提及”该测试用户,但目的不是为了体现二者相近地理位置,更多的是为表达一种相关联系,比如某种思念之情等。
图6(b)说明了@次数对不同ED段的物理位置推演的影响。在实验中,分别测试了@次数为1、2、3及3次以上,ED分别取不同范围值的物理位置推演情况,并以用户比例的分布来衡量预测效果。从图6(b)可以看出,随着@次数的增加,用户比例略呈上升趋势,即准确度有所提高,说明@次数的多少在某种程度上对位置推演的准确度有一定影响。
图7给出了SBR-IS中UPSBR推演正确率的测试结果。从图7可以看出,随着ε1的逐渐增大,正确率呈下降趋势。因为ε1越大,行为相似可能性就越小,满足UPSBR条件用户对越少,进而使得正确率减少;反之,ε1越小,行为相似可能性就越大,满足UPSBR条件用户对越多,从而导致正确率增加。
图8(a)和(b)分别从NMI(互信息)和F1-Measure(综合了准确率和召回率的评价指标)两个性能指标测试了本专利所用最大树聚类BRMC算法对推演UGSBR关系的聚类精度性能。为有相对比较,本专利将逐行扫描活动相似性矩阵元素来发现UGSBR的方法命名为A-BR(Activity-Behavior Relationship)方法。从图8可以看出,SBR-IS采用的BRMC方法的聚类精度好于简单的A-BR算法。
图9(a)和(b)分别从F1-Measure(综合了准确率和召回率的评价指标)性能指标测试了本专利所用最大树聚类BRMC算法对推演UGSBR关系的聚类参数敏感性。从图9中可以看出,θsim=[0.4,0.6]、α=0.3均是性能较好的可选参数值范围。
综上所述,本发明提出的SBR-IS系统具有很好的推测物理位置准确度和SBR关系预测效果。
Claims (6)
1.一种基于不确定语义的社交网用户行为关系推演系统,其特征在于,包括不确定词条活动库构建模块、未知地理位置推演模块、推特文本词条提取模块、推特文本词条表达活动概率值推演模块、用户对活动相似性概率矩阵计算模块、用户对物理位置相似度矩阵计算模块、用户对语义行为关系矩阵推演模块和用户对语义行为关系聚类推演模块;其中,
不确定词条活动库构建模块:用于获取第三方应用中的活动类别及各活动类别中所包含的不确定词条,根据每个不确定词条在不同活动类别中的词频和每个不确定词条的逆向文本频率,获得每个不确定词条在不同活动类别中的重要性权重值,并根据设定的两个重要性权重阈值和每个不确定词条在不同活动类别中的重要性权重值,对每个不确定词条进行分类,再根据分类情况计算词条属于各活动类别的概率值,最终根据获得的活动类别、各活动类别中所包含的不确定词条、各不确定词条的类型和各不确定词条所属活动类别的概率值,构建不确定词条活动库;
具体为:根据第三方应用的活动类别和词条分类构建社交网用户活动词条库,然后抽取出每类活动包含的词条,并通过统计词条的词频与词条的逆向文本频率相乘的方法给出词条表达活动的重要性权值,再根据设定阈值将词条划分为活动相关词条、活动半相关词条和活动不相关词条,并赋予词条表达活动的概率值;
未知地理位置推演模块:用于获取社交网中提及目标用户的其他用户的已知物理位置经度和纬度,计算其他用户的已知物理位置方差,并根据上述方差,采用最大似然估计法获得目标用户的未知物理位置,发送至用户对物理位置相似度矩阵计算模块中;
推特文本词条提取模块:用于通过分词工具将社交网中提及目标用户的其他用户所发文本进行词条提取,并发送至推特文本词条表达活动概率值推演模块中;
推特文本词条表达活动概率值推演模块:用于在不确定词条活动库中对所提取的词条进行匹配,并确定词条在不同活动类别中的词条类型和概率值,并获得所提取的词条所属活动类别的所有组合情况,并计算各活动类别中每种词条组合情况的概率值;
用户对活动相似性概率矩阵计算模块:用于采用杰卡德相似系数计算获得任意用户对所产生的各类活动的相似度和相似概率,并将大于设定阈值的相似度所对应的活动相似概率进行求和,获得该用户对活动相似概率,进而获得所有目标用户对活动相似概率,并构建用户对相似行为活动概率下三角矩阵;
用户对物理位置相似度矩阵计算模块:用于将目标用户的地理经度和纬度转换成平面距离,根据平面距离计算任意用户对间物理位置的相似度,并获取用户对间物理位置的相似度大于设定阈值的相似度值,并将上述相似度值保存至用户对物理位置相似度下三角矩阵中,完成用户对物理位置相似度下三角矩阵的构建;
用户对语义行为关系矩阵推演模块:用于根据构建完成的用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵,获取目标用户对在用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵中对应位置的两数值,并将两数值相乘,获得目标用户对用户对语义行为关系值,并构建用户对用户对语义行为关系矩阵;
用户对语义行为关系聚类推演模块;用于根据用户对用户对语义行为关系矩阵构建连通图,即将用户作为连通图的节点,用户对间的用户对语义行为关系值作为连通图节点之间的连通边,删除用户对语义行为关系值小于设定阈值的连通边,将剩余连通边构成的每个连通子图作为一组用户对语义行为关系,完成社交网用户语义行为关系的推演。
2.采用权利要求1所述的基于不确定语义的社交网用户行为关系推演系统进行的推演方法,其特征在于,包括以下步骤:
步骤1、构建不确定词条活动库,具体步骤如下:
步骤1-1、获取第三方应用中的活动类别及各活动类别中所包含的不确定词条;
步骤1-2、根据每个不确定词条在不同活动类别中的词频和每个不确定词条的逆向文本频率,获得每个不确定词条在不同活动类别中的重要性权重值;
步骤1-3、设置不确定词条在不同活动类别中的两个重要性权重阈值,根据两个重要性权重阈值和每个不确定词条在不同活动类别中的重要性权重值,对每个不确定词条进行分类;
具体如下:
若不确定词条的重要性权重值同时小于两个重要性权重阈值,则该不确定词条为活动不相关词条;
若不确定词条的重要性权重值同时大于两个重要性权重阈值,则该不确定词条为活动相关词条;
若不确定词条的重要性权重值介于两个重要性权重阈值之间,则该不确定词条为活动半相关词条;
步骤1-4、根据活动半相关词条在某类活动类别中的权重值和该类活动类别中全部词条中权重值最大值,确定活动半相关词条属于该活动类别的概率值;
步骤1-5、根据获得的活动类别、各活动类别中所包含的不确定词条、各不确定词条的类型和各不确定词条所属活动类别的概率值,构建不确定词条活动库;
步骤2、采用未知地理位置推演模块获取社交网中提及目标用户的其他用户的已知物理位置经度和纬度,计算其他用户的已知物理位置方差,并根据上述方差,采用最大似然估计法获得目标用户的未知物理位置;
步骤3、采用推特文本词条提取模块,通过分词工具将社交网中提及目标用户的其他用户所发文本进行词条提取;
步骤4、采用推特文本词条表达活动概率值推演模块,推演出社交网中用户所提取的词条所属活动类别集合,具体如下:
步骤4-1、在不确定词条活动库中对所提取的词条进行匹配,并确定词条在不同活动类别中的词条类型和概率值;
步骤4-2、获得所提取的词条所属活动类别的所有组合情况,并计算各活动类别中每种词条组合情况的概率值;
步骤5、采用用户对活动相似性概率矩阵计算模块,获得社交网中任意用户对产生相似活动的概率,并构建用户对相似行为活动概率下三角矩阵,具体如下:
步骤5-1、采用杰卡德相似系数计算获得任意用户对所产生的各类活动的相似度和相似概率,并将大于设定阈值的相似度所对应的活动相似概率进行求和,获得该用户对活动相似概率;
步骤5-2、反复执行步骤5-1,直至获得所有目标用户对活动相似概率,并构建用户对相似行为活动概率下三角矩阵;
步骤6、采用用户对物理位置相似度矩阵计算模块,获得社交网中任意用户对物理位置相似度,并构建用户对物理位置相似度下三角矩阵,具体如下:
步骤6-1、将目标用户的地理经度和纬度转换成平面距离,根据平面距离计算任意用户对间物理位置的相似度;
步骤6-2、获取用户对间物理位置的相似度大于设定阈值的相似度值,并将上述相似度值保存至用户对物理位置相似度下三角矩阵中,完成用户对物理位置相似度下三角矩阵的构建;
步骤7、采用UPSBR关系矩阵推演模块,根据构建完成的用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵,获取目标用户对在用户对相似行为活动概率下三角矩阵和用户对物理位置相似度下三角矩阵中对应位置的两数值,并将两数值相乘,获得目标用户对用户对语义行为关系值,并构建用户对用户对语义行为关系矩阵;
所述的UPSBR表示:用户对语义行为关系;
步骤8、采用用户对语义行为关系聚类推演模块构建连通图,即将用户作为连通图的节点,用户对间的用户对语义行为关系值作为连通图节点之间的连通边,删除用户对语义行为关系值小于设定阈值的连通边,将剩余连通边构成的每个连通子图作为一组用户对语义行为关系,完成社交网用户语义行为关系的推演。
3.根据权利要求2所述的推演方法,其特征在于,步骤1-3所述的设置不确定词条在不同活动类别中的两个重要性权重阈值,具体步骤如下:
步骤1-3-1、获得活动相关词条判断阈值,计算公式如下:
θr=αθmax (1)
其中,θr为活动相关词条的判断阈值,θmax为某类活动中词条集合中权重排序第一的词条权重,α为一个调节参数,取值范围为0.3~0.4;
步骤1-3-2、删除权重值大于活动相关词条判断阈值的不确定词条,将剩余的不确定词条按照由大到小进行排序;
步骤1-3-3、在排序后的词条中,寻找相邻词条间权重值差值最大的位置,以该位置处排序靠前的词条权重值作为活动半相关词条判断阈值;
步骤1-3-4、将获得的活动相关词条判断阈值和活动半相关词条判断阈值作为在该类活动中的两个重要性权重阈值。
4.根据权利要求2所述的推演方法,其特征在于,步骤5-1所述的设定阈值取值范围为0.4~0.6。
5.根据权利要求2所述的推演方法,其特征在于,步骤6-2所述的设定阈值取值范围为0.5~0.6。
6.根据权利要求2所述的推演方法,其特征在于,步骤8所述的设定阈值取值范围为0.4~0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410848410.1A CN104462592B (zh) | 2014-12-29 | 2014-12-29 | 基于不确定语义的社交网用户行为关系推演系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410848410.1A CN104462592B (zh) | 2014-12-29 | 2014-12-29 | 基于不确定语义的社交网用户行为关系推演系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462592A CN104462592A (zh) | 2015-03-25 |
CN104462592B true CN104462592B (zh) | 2017-07-07 |
Family
ID=52908627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410848410.1A Active CN104462592B (zh) | 2014-12-29 | 2014-12-29 | 基于不确定语义的社交网用户行为关系推演系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462592B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765873B (zh) * | 2015-04-24 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 用户相似度确定方法和装置 |
CN106209567B (zh) * | 2015-04-29 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 提供用户状态信息的方法及装置 |
CN104867056A (zh) * | 2015-05-28 | 2015-08-26 | 西安交通大学 | 一种基于用户数据分析的智能社交方法 |
CN106445961B (zh) * | 2015-08-10 | 2021-02-23 | 北京奇虎科技有限公司 | 新闻推送方法及装置 |
CN106713380A (zh) * | 2015-08-14 | 2017-05-24 | 江贻芳 | 一种基于位置感知的信息共享、推送与交换系统 |
CN105354244A (zh) * | 2015-10-13 | 2016-02-24 | 广西师范学院 | 一种用于社交网络社区挖掘的时空lda模型 |
CN105719191B (zh) * | 2016-01-20 | 2019-10-11 | 东北大学 | 多尺度空间下不确定行为语义的社交群体发现方法 |
CN108885623B (zh) * | 2016-09-02 | 2022-05-10 | 浙江核新同花顺网络信息股份有限公司 | 基于知识图谱的语意分析系统及方法 |
CN111104609B (zh) * | 2018-10-26 | 2023-10-10 | 百度在线网络技术(北京)有限公司 | 人际关系的预测方法及其装置、存储介质 |
CN113379174A (zh) * | 2020-03-09 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 业务数据处理方法、装置、计算机设备和存储介质 |
CN111652451B (zh) * | 2020-08-06 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 社交关系的获取方法和装置及存储介质 |
CN112182498B (zh) * | 2020-10-10 | 2023-04-18 | 深圳市万佳安物联科技股份有限公司 | 一种基于网络表示学习的老人看护装置与方法 |
CN112529671A (zh) * | 2021-02-08 | 2021-03-19 | 杭州拼便宜网络科技有限公司 | 商品推荐方法、装置、电子设备及存储介质 |
CN113344759B (zh) * | 2021-06-30 | 2023-04-25 | 北京建筑大学 | 一种移动源污染排放的分析方法 |
CN114897041A (zh) * | 2022-03-17 | 2022-08-12 | 高德软件有限公司 | 停车场出入口确定方法、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104038788A (zh) * | 2014-06-19 | 2014-09-10 | 中山大学深圳研究院 | 一种小区社交网络系统及内容推荐方法 |
CN104182495A (zh) * | 2014-08-13 | 2014-12-03 | 墨仕(厦门)电子商务有限公司 | 一种基于场景的社交网络位置信息匹配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7630972B2 (en) * | 2007-01-05 | 2009-12-08 | Yahoo! Inc. | Clustered search processing |
-
2014
- 2014-12-29 CN CN201410848410.1A patent/CN104462592B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104038788A (zh) * | 2014-06-19 | 2014-09-10 | 中山大学深圳研究院 | 一种小区社交网络系统及内容推荐方法 |
CN104182495A (zh) * | 2014-08-13 | 2014-12-03 | 墨仕(厦门)电子商务有限公司 | 一种基于场景的社交网络位置信息匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104462592A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462592B (zh) | 基于不确定语义的社交网用户行为关系推演系统及方法 | |
CN103795613B (zh) | 一种在线社交网络中朋友关系预测的方法 | |
Cai et al. | Behavior enhanced deep bot detection in social media | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN110837602B (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
Nettleton | Data mining of social networks represented as graphs | |
CN105719191B (zh) | 多尺度空间下不确定行为语义的社交群体发现方法 | |
CN103793484B (zh) | 分类信息网站中的基于机器学习的欺诈行为识别系统 | |
CN107835113A (zh) | 一种基于网络映射的社交网络中异常用户检测方法 | |
CN108647800B (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN105389505A (zh) | 基于栈式稀疏自编码器的托攻击检测方法 | |
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
CN107330798A (zh) | 一种基于种子节点传播的社交网络间用户身份识别方法 | |
CN104239399A (zh) | 社交网络中的潜在好友推荐方法 | |
Ruan et al. | GADM: Manual fake review detection for O2O commercial platforms | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN113919440A (zh) | 一种融合双重注意力机制和图卷积社交网络谣言检测系统 | |
Desai et al. | Efficient regression algorithms for classification of social media data | |
Ogudo et al. | Sentiment analysis application and natural language processing for mobile network operators’ support on social media | |
Lu et al. | Predicting viral news events in online media | |
Nair et al. | Classification of Trust in Social networks using Machine Learning algorithms | |
CN118071400A (zh) | 基于图计算技术在信息消费领域的应用方法及系统 | |
CN110008975B (zh) | 基于免疫危险理论的社交网络水军检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |