CN111080463A - 一种关键通讯节点识别方法、装置及介质 - Google Patents

一种关键通讯节点识别方法、装置及介质 Download PDF

Info

Publication number
CN111080463A
CN111080463A CN201911285935.8A CN201911285935A CN111080463A CN 111080463 A CN111080463 A CN 111080463A CN 201911285935 A CN201911285935 A CN 201911285935A CN 111080463 A CN111080463 A CN 111080463A
Authority
CN
China
Prior art keywords
communication
group
personnel
key
communication node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911285935.8A
Other languages
English (en)
Other versions
CN111080463B (zh
Inventor
林文楷
吴文
王国威
王海滨
鄢小征
王兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201911285935.8A priority Critical patent/CN111080463B/zh
Publication of CN111080463A publication Critical patent/CN111080463A/zh
Application granted granted Critical
Publication of CN111080463B publication Critical patent/CN111080463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Abstract

本发明提供了一种关键通讯节点识别方法、装置及存储介质,该方法包括:基于通讯的内容从群通讯人员中确定需要重点关注的人员作为重点通讯节点;对群通讯人员中除重点通讯人员之外的人员进行共同通讯判断,如果具有共同通讯特征,则将具有共同通讯特征的节点作为共同通讯节点;将重点通讯节点和共同通讯节点进行合并组成核心人员集合;基于人员在群中的身份类型、活跃度、发言内容及加入群数确定核心人员集合中的人是否为关键通讯节点,如果是,则将该人标记关键通讯节点的标签。本发明对所有通讯节点进行逐级递进式的分析,进而自动发现处于塔尖的关键通讯节点,其发现关键通讯节点的效率高。

Description

一种关键通讯节点识别方法、装置及介质
技术领域
本发明涉及人工智能技术领域,特别是一种关键通讯节点识别方法、装置及介质。
背景技术
目前社交软件成为各种网络活动的重要工具和阵地,各类社交软件和即时通信工具,与移动互联网相结合,已经成为当今互联网的主旋律,其传播快、影响大、覆盖广、社会动员能力强等特点,使社交软件成为网络违法行为的常用工具,许多专业化的违法团伙利用社交软件组织和实施违法活动,而且上下线关系庞大复杂,严重影响社会的稳定,威胁着国家安全。
在当前的手机取证产品中,缺乏有效的手段提取关键通讯节点等线索信息,导致在调查组织架构复杂的违法行为过程中,无法快速定位到关键线索,经常面临追踪难、调查难的困境。
此外,为了提高用户体验,需要将参与同一话题的通讯人员提取出来,比如参与购买同一商品的人员,这样可以方便商家向这些用户推荐商品,并提供团购优惠等等,也可以是一起讨论某项违法活动的人员等等,方便国家机关将这些人员控制。
由于社交软件覆盖着工作、生活等方方面面的应用,各种应用层出不穷,每把手机都会存储大量的社交群体信息,通过人工方式去发现和识别实施违法行为的关键通讯节点的信息,费时费力,难以满足实际需要。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种关键通讯节点识别方法,该方法包括:
重点通讯节点确定步骤,基于通讯的内容从群通讯人员中确定需要重点关注的人员作为重点通讯节点;
共同通讯节点确定步骤,对群通讯人员中除重点通讯人员之外的人员进行共同通讯判断,如果具有共同通讯特征,则将具有共同通讯特征的节点作为共同通讯节点;
核心集合生成步骤,将重点通讯节点和共同通讯节点进行合并组成核心人员集合;
关键通讯节点确定步骤,基于人员在群中的身份类型、活跃度、发言内容及加入群数确定核心人员集合中的人是否为关键通讯节点,如果是,则将该人标记关键通讯节点的标签。
更进一步地,所述重点通讯节点确定步骤包括:
提取每个群体的群成员分布和发言内容,使用语义分析模型基于发言内容确定交流场景;
对每个群体的成员的发言内容涉及的活动类型进行分析,当某一群中同一活动类型的成员≧n个时,则将该成员之间的通讯关系加到该活动类型的聚类;
对活动类型的聚类中的通讯关系涉及的人员标记重点通讯节点的标签。
更进一步地,所述语义分析模型的构建步骤包括:
导入某一类型人员的通联内容,搭建训练语义分析模型;
提取所述通联内容中各关键词出现的次数和比重,得到关键词的权重及分布概率,结合人工标注方式得到训练语义分析模型的正反样本;
将新的样本再加入训练语义分析模型,调整关键词的权重和分布概率的阀值,对训练语义分析模型进行循环训练,得到训练好的训练语义分析模型。
更进一步地,所述共同通讯节点确定步骤包括:
统计每个群中的成员数、参与同一话题的人员数、活跃成员数、同一话题的分布地域数及最后发言时间距离系统日期的天数;
利用加权计算法计算群体的重要性,如果计算群体的重要性超过第一阈值,则群中的参与同一话题的人员为共同通讯节点,其中:
群体的重要性=(k1*a1+k2*a2+k3*a3+k4*a4)/(k1+k2+k3+k4),k1为参与同一话题的人员数,a1为k1的权重,k2为活跃成员数,a2为k2的权重,k3为群成员的分布地域数,a3为k3的权重,k4为最后发言时间距离系统日期的天数,a4为k4的权重。
更进一步地,所述关键通讯节点确定步骤包括:
计算核心人员集合中的人员重要性,如果重要性是否低于第二阈值,如果是,则该人员的通讯节点不是关键通讯节点,如过否,则该人员为核心人员;
其中:
Figure BDA0002317976840000031
X代表身份类型,Y代表活跃度,L代表发言内容次数,Z代表加入群数,i、m为为整数;
利用加权计算法计算核心人员的可信度,如果可信度超过第三阈值,则将该核心人员标记关键通讯节点的标签。
其中,核心人员的可信度=(X*w1+Y*w2+L*w3+Z*w4)/(X+Y+L+Z),w1、w2、w3、w4为权重。
本发明还提出了一种关键通讯节点识别装置,该装置包括:
重点通讯节点确定单元,基于通讯的内容从群通讯人员中确定需要重点关注的人员作为重点通讯节点;
共同通讯节点确定单元,对群通讯人员中除重点通讯人员之外的人员进行共同通讯判断,如果具有共同通讯特征,则将具有共同通讯特征的节点作为共同通讯节点;
核心集合生成单元,将重点通讯节点和共同通讯节点进行合并组成核心人员集合;
关键通讯节点确定单元,基于人员在群中的身份类型、活跃度、发言内容及加入群数确定核心人员集合中的人是否为关键通讯节点,如果是,则将该人标记关键通讯节点的标签。
更进一步地,所述重点通讯节点确定单元执行的操作包括:
提取每个群体的群成员分布和发言内容,使用语义分析模型基于发言内容确定交流场景;
对每个群体的成员的发言内容涉及的活动类型进行分析,当某一群中同一活动类型的成员≧n个时,则将该成员之间的通讯关系加到该活动类型的聚类;
对活动类型的聚类中的通讯关系涉及的人员标记重点通讯节点的标签。
更进一步地,所述语义分析模型的构建单元执行的操作包括:
导入某一类型人员的通联内容,搭建训练语义分析模型;
提取所述通联内容中各关键词出现的次数和比重,得到关键词的权重及分布概率,结合人工标注方式得到训练语义分析模型的正反样本;
将新的样本再加入训练语义分析模型,调整关键词的权重和分布概率的阀值,对训练语义分析模型进行循环训练,得到训练好的训练语义分析模型。
更进一步地,所述共同通讯节点确定单元执行的操作包括:
统计每个群中的成员数、参与同一话题的人员数、活跃成员数、同一话题的分布地域数及最后发言时间距离系统日期的天数;
利用加权计算法计算群体的重要性,如果计算群体的重要性超过第一阈值,则群中的参与同一话题的人员为共同通讯节点,其中:
群体的重要性=(k1*a1+k2*a2+k3*a3+k4*a4)/(k1+k2+k3+k4),k1为参与同一话题的人员数,a1为k1的权重,k2为活跃成员数,a2为k2的权重,k3为群成员的分布地域数,a3为k3的权重,k4为最后发言时间距离系统日期的天数,a4为k4的权重。
更进一步地,所述关键通讯节点确定单元执行的操作包括:
计算核心人员集合中的人员重要性,如果重要性是否低于第二阈值,如果是,则该人员的通讯节点不是关键通讯节点,如过否,则该人员为核心人员;
其中:
Figure BDA0002317976840000061
X代表身份类型,Y代表活跃度,L代表发言内容次数,Z代表加入群数,i、m为为整数;
利用加权计算法计算核心人员的可信度,如果可信度超过第三阈值,则将该核心人员标记关键通讯节点的标签。
其中,核心人员的可信度=(X*w1+Y*w2+L*w3+Z*w4)/(X+Y+L+Z),w1、w2、w3、w4为权重。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的关键通讯节点识别方法,该方法包括:基于通讯的内容从群通讯人员中确定需要重点关注的人员作为重点通讯节点;对群通讯人员中除重点通讯人员之外的人员进行共同通讯判断,如果具有共同通讯特征,则将具有共同通讯特征的节点作为共同通讯节点;将重点通讯节点和共同通讯节点进行合并组成核心人员集合;基于人员在群中的身份类型、活跃度、发言内容及加入群数确定核心人员集合中的人是否为关键通讯节点,如果是,则将该人标记关键通讯节点的标签。本发明基于利用金字塔算法的理念,对所有通讯节点进行逐级递进式的分析,进而自动发现处于塔尖的关键通讯节点,即先发现重要通讯节点,再发现共同通讯节点,再从其中找出关键通讯节点,其发现关键通讯节点的效率高,且在具体的实现中,提出了人工智能的重要节点确定算法、共同节点确定算法及关键节点确定算法。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种关键通讯节点识别方法的流程图。
图2是根据本发明的实施例的一种关键通讯节点识别装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种关键通讯节点识别方法,该方法包括:
重点通讯节点确定步骤S101,基于通讯的内容从群通讯人员中确定需要重点关注的人员作为重点通讯节点;重点通讯节点分析的基于是物与类聚、人以群分,通过分析每个群体的群成员分布和发言内容,可以快速得到违法活动的重点通讯节点线索。
共同通讯节点确定步骤S102,对群通讯人员中除重点通讯人员之外的人员进行共同通讯判断,如果具有共同通讯特征,则将具有共同通讯特征的节点作为共同通讯节点;多个组织成员共同产生的通讯关系,往往是需要高度关注的线索,对分析组织架构具有非常重要的意义;比如,参与讨论某一特定话题的人员,比如商品,再比如社会热点话题,或者违规话题等等。
核心集合生成步骤S103,将重点通讯节点和共同通讯节点进行合并组成核心人员集合;其就是将上面的得出的重点通讯节点和共同通讯节点进行合并,便于后续处理。
关键通讯节点确定步骤S104,基于人员在群中的身份类型、活跃度、发言内容及加入群数确定核心人员集合中的人是否为关键通讯节点,如果是,则将该人标记关键通讯节点的标签。
本发明的方法基于利用金字塔算法的理念,对所有通讯节点进行逐级递进式的分析,进而自动发现处于塔尖的关键通讯节点,即先发现重要通讯节点,再发现共同通讯节点,再从其中找出关键通讯节点,其发现关键通讯节点的效率高,提高了用户体验,这是本发明的重要发明点之一。
在一个实施例中,从一个群中确定重点通讯节点,本发明中是基于TensorFlow,搭建同一聊天场景的训练模型,结合权重计算和概率统计等方法,智能研判每个群体的发言内容对应的业务场景,如:购物场景、聚餐场景等,所述重点通讯节点确定步骤包括:
提取每个群体的群成员分布和发言内容,使用语义分析模型基于发言内容确定交流场景;
对每个群体的成员的发言内容涉及的活动类型进行分析,当某一群中同一活动类型的成员≧n个时,则将该成员之间的通讯关系加到该活动类型的聚类,n一般来说等于3,当然本领域技术人员可根据实际设定,对活动类型的聚类中的通讯关系涉及的人员标记重点通讯节点的标签。具体可以利用基于密度的方法DBSCAN算法,对每个群体的成员的违法活动类型进行分析,当某一群体中同类型案件的成员超过3个,则将该通讯关系加到该违法活动类型的聚类中去,具体实现方法:
输入:群成员数据集:MemberDataSet,给定点在邻域内成为核心对象的最小邻域点数MinPts:5,邻域半径eps:3
输出:3个或3个以上同类案件涉嫌人员加入的通讯关系集合
Figure BDA0002317976840000091
Figure BDA0002317976840000101
如果计算的某聚类区域中的点少于3,则只对该群体做数量标识,
本发明所使用的群体信息:获取每部手机所有记录的社交群体记录,定义如下表。
Figure BDA0002317976840000102
本发明使用的群成员信息:获取所有加入社交群体的成员信息,定义如下表。
Figure BDA0002317976840000103
Figure BDA0002317976840000111
在一个实施例中,所述语义分析模型的构建步骤包括:
导入某一类型人员的通联内容,搭建训练语义分析模型;
提取所述通联内容中各关键词出现的次数和比重,得到关键词的权重及分布概率,结合人工标注方式得到训练语义分析模型的正反样本;
将新的样本再加入训练语义分析模型,调整关键词的权重和分布概率的阀值,对训练语义分析模型进行循环训练,得到训练好的训练语义分析模型。具体可以使用TensorFlow进行构建,可以构建购物、聚餐、违规等聊天内容的识别模型。
在一个实施例中,所述共同通讯节点确定步骤包括:
统计每个群中的成员数、参与同一话题的人员数、活跃成员数、同一话题的分布地域数及最后发言时间距离系统日期的天数。
利用加权计算法计算群体的重要性,如果计算群体的重要性超过第一阈值,则群中的参与同一话题的人员为共同通讯节点,第一阈值可以为0.75-0.9,优选的,设为0.85,其中:
群体的重要性=(k1*a1+k2*a2+k3*a3+k4*a4)/(k1+k2+k3+k4),k1为参与同一话题的人员数,a1为k1的权重,范围为50%-70%,k2为活跃成员数,a2为k2的权重,范围为3%-10%,k3为群成员的分布地域数,a3为k3的权重,范围为10%-20%,k4为最后发言时间距离系统日期的天数,a4为k4的权重,范围为3%-15%。
在一个实施例中,所述关键通讯节点确定步骤包括:
计算核心人员集合中的人员重要性,如果重要性是否低于第二阈值,第二阈值可以为0.7-0.85,优选的,设为0.8,如果是,则该人员的通讯节点不是关键通讯节点,如过否,则该人员为核心人员;
其中:
Figure BDA0002317976840000121
X代表身份类型,Y代表活跃度,L代表发言内容次数,Z代表加入群数,i、m为为整数;
利用加权计算法计算核心人员的可信度,如果可信度超过第三阈值,第三阈值可以为0.7-0.95,优选的,设为0.9,则将该核心人员标记关键通讯节点的标签。
其中,核心人员的可信度=(X*w1+Y*w2+L*w3+Z*w4)/(X+Y+L+Z),w1、w2、w3、w4为权重。
例如:群成员张三,两个群管理员、每天都发言、经常发布某一类活动内容、同时加入5个核心群体,那根据权重模型,就得出张三为关键通讯节点的可信度为高,打上“关键通讯节点”标签,推送给用户,比如张三经常推送保险的内容,可以确定张三为保险推销员。
本发明提出了人工智能的重要节点确定算法、共同节点确定算法及关键节点确定算法,这是本发明的另一个重要发明点。
图2示出了本发明的一种关键通讯节点识别方法,该方法包括:
重点通讯节点确定单元201,基于通讯的内容从群通讯人员中确定需要重点关注的人员作为重点通讯节点;重点通讯节点分析的基于是物与类聚、人以群分,通过分析每个群体的群成员分布和发言内容,可以快速得到违法活动的重点通讯节点线索。
共同通讯节点确定单元202,对群通讯人员中除重点通讯人员之外的人员进行共同通讯判断,如果具有共同通讯特征,则将具有共同通讯特征的节点作为共同通讯节点;多个组织成员共同产生的通讯关系,往往是需要高度关注的线索,对分析组织架构具有非常重要的意义;比如,参与讨论某一特定话题的人员,比如商品,再比如社会热点话题,或者违规话题等等。
核心集合生成单元203,将重点通讯节点和共同通讯节点进行合并组成核心人员集合;其就是将上面的得出的重点通讯节点和共同通讯节点进行合并,便于后续处理。
关键通讯节点确定单元204,基于人员在群中的身份类型、活跃度、发言内容及加入群数确定核心人员集合中的人是否为关键通讯节点,如果是,则将该人标记关键通讯节点的标签。
本发明的方法基于利用金字塔算法的理念,对所有通讯节点进行逐级递进式的分析,进而自动发现处于塔尖的关键通讯节点,即先发现重要通讯节点,再发现共同通讯节点,再从其中找出关键通讯节点,其发现关键通讯节点的效率高,提高了用户体验,这是本发明的重要发明点之一。
在一个实施例中,从一个群中确定重点通讯节点,本发明中是基于TensorFlow,搭建同一聊天场景的训练模型,结合权重计算和概率统计等方法,智能研判每个群体的发言内容对应的业务场景,如:购物场景、聚餐场景等,所述重点通讯节点确定单元执行的具体操作:
提取每个群体的群成员分布和发言内容,使用语义分析模型基于发言内容确定交流场景;
对每个群体的成员的发言内容涉及的活动类型进行分析,当某一群中同一活动类型的成员≧n个时,则将该成员之间的通讯关系加到该活动类型的聚类,n一般来说等于3,当然本领域技术人员可根据实际设定,对活动类型的聚类中的通讯关系涉及的人员标记重点通讯节点的标签。具体可以利用基于密度的方法DBSCAN算法,对每个群体的成员的违法活动类型进行分析,当某一群体中同类型案件的成员超过3个,则将该通讯关系加到该违法活动类型的聚类中去,具体实现方法:
输入:群成员数据集:MemberDataSet,给定点在邻域内成为核心对象的最小邻域点数MinPts:5,邻域半径eps:3
输出:3个或3个以上同类案件涉嫌人员加入的通讯关系集合
Figure BDA0002317976840000141
Figure BDA0002317976840000151
如果计算的某聚类区域中的点少于3,则只对该群体做数量标识,
本发明所使用的群体信息:获取每部手机所有记录的社交群体记录,定义如下表。
Figure BDA0002317976840000152
Figure BDA0002317976840000161
本发明使用的群成员信息:获取所有加入社交群体的成员信息,定义如下表。
Figure BDA0002317976840000162
在一个实施例中,所述语义分析模型的构建单元执行的具体操作:
导入某一类型人员的通联内容,搭建训练语义分析模型;
提取所述通联内容中各关键词出现的次数和比重,得到关键词的权重及分布概率,结合人工标注方式得到训练语义分析模型的正反样本;
将新的样本再加入训练语义分析模型,调整关键词的权重和分布概率的阀值,对训练语义分析模型进行循环训练,得到训练好的训练语义分析模型。具体可以使用TensorFlow进行构建,可以构建购物、聚餐、违规等聊天内容的识别模型。
在一个实施例中,所述共同通讯节点确定单元执行的具体操作:
统计每个群中的成员数、参与同一话题的人员数、活跃成员数、同一话题的分布地域数及最后发言时间距离系统日期的天数。
利用加权计算法计算群体的重要性,如果计算群体的重要性超过第一阈值,则群中的参与同一话题的人员为共同通讯节点,第一阈值可以为0.75-0.9,优选的,设为0.85,其中:
群体的重要性=(k1*a1+k2*a2+k3*a3+k4*a4)/(k1+k2+k3+k4),k1为参与同一话题的人员数,a1为k1的权重,范围为50%-70%,k2为活跃成员数,a2为k2的权重,范围为3%-10%,k3为群成员的分布地域数,a3为k3的权重,范围为10%-20%,k4为最后发言时间距离系统日期的天数,a4为k4的权重,范围为3%-15%。
在一个实施例中,所述关键通讯节点确定单元执行的具体操作:
计算核心人员集合中的人员重要性,如果重要性是否低于第二阈值,第二阈值可以为0.7-0.85,优选的,设为0.8,如果是,则该人员的通讯节点不是关键通讯节点,如过否,则该人员为核心人员;
其中:
Figure BDA0002317976840000171
X代表身份类型,Y代表活跃度,L代表发言内容次数,Z代表加入群数,i、m为为整数;
利用加权计算法计算核心人员的可信度,如果可信度超过第三阈值,第三阈值可以为0.7-0.95,优选的,设为0.9,则将该核心人员标记关键通讯节点的标签。
其中,核心人员的可信度=(X*w1+Y*w2+L*w3+Z*w4)/(X+Y+L+Z),w1、w2、w3、w4为权重。
例如:群成员张三,两个群管理员、每天都发言、经常发布某一类活动内容、同时加入5个核心群体,那根据权重模型,就得出张三为关键通讯节点的可信度为高,打上“关键通讯节点”标签,推送给用户,比如张三经常推送保险的内容,可以确定张三为保险推销员。
本发明提出了人工智能的重要节点确定算法、共同节点确定算法及关键节点确定算法,这是本发明的另一个重要发明点。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (11)

1.一种关键通讯节点识别方法,其特征在于,该方法包括:
重点通讯节点确定步骤,基于通讯的内容从群通讯人员中确定需要重点关注的人员作为重点通讯节点;
共同通讯节点确定步骤,对群通讯人员中除重点通讯人员之外的人员进行共同通讯判断,如果具有共同通讯特征,则将具有共同通讯特征的节点作为共同通讯节点;
核心集合生成步骤,将重点通讯节点和共同通讯节点进行合并组成核心人员集合;
关键通讯节点确定步骤,基于人员在群中的身份类型、活跃度、发言内容及加入群数确定核心人员集合中的人是否为关键通讯节点,如果是,则将该人标记关键通讯节点的标签。
2.根据权利要求1所述的方法,其特征在于,所述重点通讯节点确定步骤包括:
提取每个群体的群成员分布和发言内容,使用语义分析模型基于发言内容确定交流场景;
对每个群体的成员的发言内容涉及的活动类型进行分析,当某一群中同一活动类型的成员≧n个时,则将该成员之间的通讯关系加到该活动类型的聚类;
对活动类型的聚类中的通讯关系涉及的人员标记重点通讯节点的标签。
3.根据权利要求2所述的方法,其特征在于,所述语义分析模型的构建步骤包括:
导入某一类型人员的通联内容,搭建训练语义分析模型;
提取所述通联内容中各关键词出现的次数和比重,得到关键词的权重及分布概率,结合人工标注方式得到训练语义分析模型的正反样本;
将新的样本再加入训练语义分析模型,调整关键词的权重和分布概率的阀值,对训练语义分析模型进行循环训练,得到训练好的训练语义分析模型。
4.根据权利要求3所述的方法,其特征在于,所述共同通讯节点确定步骤包括:
统计每个群中的成员数、参与同一话题的人员数、活跃成员数、同一话题的分布地域数及最后发言时间距离系统日期的天数;
利用加权计算法计算群体的重要性,如果计算群体的重要性超过第一阈值,则群中的参与同一话题的人员为共同通讯节点,其中:
群体的重要性=(k1*a1+k2*a2+k3*a3+k4*a4)/(k1+k2+k3+k4),k1为参与同一话题的人员数,a1为k1的权重,k2为活跃成员数,a2为k2的权重,k3为群成员的分布地域数,a3为k3的权重,k4为最后发言时间距离系统日期的天数,a4为k4的权重。
5.根据权利要求4所述的方法,其特征在于,所述关键通讯节点确定步骤包括:
计算核心人员集合中的人员重要性,如果重要性是否低于第二阈值,如果是,则该人员的通讯节点不是关键通讯节点,如过否,则该人员为核心人员;
其中:
Figure FDA0002317976830000031
X代表身份类型,Y代表活跃度,L代表发言内容次数,Z代表加入群数,i、m为为整数;
利用加权计算法计算核心人员的可信度,如果可信度超过第三阈值,则将该核心人员标记关键通讯节点的标签。
其中,核心人员的可信度=(X*w1+Y*w2+L*w3+Z*w4)/(X+Y+L+Z),w1、w2、w3、w4为权重。
6.一种关键通讯节点识别装置,其特征在于,该装置包括:
重点通讯节点确定单元,基于通讯的内容从群通讯人员中确定需要重点关注的人员作为重点通讯节点;
共同通讯节点确定单元,对群通讯人员中除重点通讯人员之外的人员进行共同通讯判断,如果具有共同通讯特征,则将具有共同通讯特征的节点作为共同通讯节点;
核心集合生成单元,将重点通讯节点和共同通讯节点进行合并组成核心人员集合;
关键通讯节点确定单元,基于人员在群中的身份类型、活跃度、发言内容及加入群数确定核心人员集合中的人是否为关键通讯节点,如果是,则将该人标记关键通讯节点的标签。
7.根据权利要求6所述的装置,其特征在于,所述重点通讯节点确定单元执行的操作包括:
提取每个群体的群成员分布和发言内容,使用语义分析模型基于发言内容确定交流场景;
对每个群体的成员的发言内容涉及的活动类型进行分析,当某一群中同一活动类型的成员≧n个时,则将该成员之间的通讯关系加到该活动类型的聚类;
对活动类型的聚类中的通讯关系涉及的人员标记重点通讯节点的标签。
8.根据权利要求7所述的装置,其特征在于,所述语义分析模型的构建单元执行的操作包括:
导入某一类型人员的通联内容,搭建训练语义分析模型;
提取所述通联内容中各关键词出现的次数和比重,得到关键词的权重及分布概率,结合人工标注方式得到训练语义分析模型的正反样本;
将新的样本再加入训练语义分析模型,调整关键词的权重和分布概率的阀值,对训练语义分析模型进行循环训练,得到训练好的训练语义分析模型。
9.根据权利要求8所述的装置,其特征在于,所述共同通讯节点确定单元执行的操作包括:
统计每个群中的成员数、参与同一话题的人员数、活跃成员数、同一话题的分布地域数及最后发言时间距离系统日期的天数;
利用加权计算法计算群体的重要性,如果计算群体的重要性超过第一阈值,则群中的参与同一话题的人员为共同通讯节点,其中:
群体的重要性=(k1*a1+k2*a2+k3*a3+k4*a4)/(k1+k2+k3+k4),k1为参与同一话题的人员数,a1为k1的权重,k2为活跃成员数,a2为k2的权重,k3为群成员的分布地域数,a3为k3的权重,k4为最后发言时间距离系统日期的天数,a4为k4的权重。
10.根据权利要求4所述的装置,其特征在于,所述关键通讯节点确定单元执行的操作包括:
计算核心人员集合中的人员重要性,如果重要性是否低于第二阈值,如果是,则该人员的通讯节点不是关键通讯节点,如过否,则该人员为核心人员;
其中:
Figure FDA0002317976830000051
X代表身份类型,Y代表活跃度,L代表发言内容次数,Z代表加入群数,i、m为为整数;
利用加权计算法计算核心人员的可信度,如果可信度超过第三阈值,则将该核心人员标记关键通讯节点的标签;
其中,核心人员的可信度=(X*w1+Y*w2+L*w3+Z*w4)/(X+Y+L+Z),w1、w2、w3、w4为权重。
11.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。
CN201911285935.8A 2019-12-13 2019-12-13 一种关键通讯节点识别方法、装置及介质 Active CN111080463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911285935.8A CN111080463B (zh) 2019-12-13 2019-12-13 一种关键通讯节点识别方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911285935.8A CN111080463B (zh) 2019-12-13 2019-12-13 一种关键通讯节点识别方法、装置及介质

Publications (2)

Publication Number Publication Date
CN111080463A true CN111080463A (zh) 2020-04-28
CN111080463B CN111080463B (zh) 2022-09-02

Family

ID=70314491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911285935.8A Active CN111080463B (zh) 2019-12-13 2019-12-13 一种关键通讯节点识别方法、装置及介质

Country Status (1)

Country Link
CN (1) CN111080463B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881577A (zh) * 2023-07-18 2023-10-13 南京拓界信息技术有限公司 一种手机取证中分析重点人物的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3040932A1 (en) * 2014-12-29 2016-07-06 Deutsche Telekom AG A method for tracking discussion in social media
CN106156117A (zh) * 2015-04-07 2016-11-23 中国科学院信息工程研究所 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统
CN106161127A (zh) * 2015-04-08 2016-11-23 深圳市腾讯计算机系统有限公司 用户类别检测方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3040932A1 (en) * 2014-12-29 2016-07-06 Deutsche Telekom AG A method for tracking discussion in social media
CN106156117A (zh) * 2015-04-07 2016-11-23 中国科学院信息工程研究所 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统
CN106161127A (zh) * 2015-04-08 2016-11-23 深圳市腾讯计算机系统有限公司 用户类别检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李纲 等: "微信群信息交流网络中的关键节点识别研究", 《情报理论与实践》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881577A (zh) * 2023-07-18 2023-10-13 南京拓界信息技术有限公司 一种手机取证中分析重点人物的方法

Also Published As

Publication number Publication date
CN111080463B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN106780263B (zh) 基于大数据平台的高危人员分析和识别方法
Tong et al. A shilling attack detector based on convolutional neural network for collaborative recommender system in social aware network
CN108228559A (zh) 一种用于用户业务的人机交互实现方法及系统
CN113127633B (zh) 智能会议管理方法、装置、计算机设备及存储介质
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN111882403A (zh) 一种基于用户数据的金融服务平台智能推荐方法
Nancy et al. A comparison on performance of data mining algorithms in classification of social network data
Gliwa et al. Models of social groups in blogosphere based on information about comment addressees and sentiments
CN110046648A (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
Jia et al. Telecom Big Data Based Precise User Classification Scheme
Chen et al. Distributed web mining using bayesian networks from multiple data streams
CN111080463B (zh) 一种关键通讯节点识别方法、装置及介质
Rafique et al. A graph theory based method to extract social structure in the society
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
CN116633589A (zh) 社交网络中恶意账户检测方法、设备及存储介质
CN114048294B (zh) 相似人群扩展模型训练方法、相似人群扩展方法和装置
CN113705247B (zh) 主题模型效果评估方法、装置、设备、存储介质和产品
Kurniawan et al. Exploring Tourist Feedback on Riau Attractions Through Indonesian Language YouTube Opinion Using Naïve Bayes Algorithm
CN110941638A (zh) 应用分类规则库构建方法、应用分类方法及装置
CN114896977A (zh) 一种物联网实体服务信任值的动态评估方法
Oro et al. A Methodology for Identifying Influencers and their Products Perception on Twitter.
Gupta et al. An analytical review of sentiment analysis on twitter
CN113742495B (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
CN111191882B (zh) 一种识别异质信息网络中有影响力的开发者的方法及装置
Li et al. DeepPick: a deep learning approach to unveil outstanding users with public attainable features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant