CN106202031B

CN106202031B - 一种基于群聊数据对群成员进行关联的系统及方法

Info

Publication number: CN106202031B
Application number: CN201610482435.3A
Authority: CN
Inventors: 刘肖凡; 李正龙
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2020-03-31
Anticipated expiration: 2036-06-27
Also published as: CN106202031A

Abstract

本发明公开了一种基于在线社交平台中的群聊数据对群成员进行关联的方法和系统，属于信息技术领域。该方法包括：获取并分析群聊数据，对群聊信息做处理并抽取出能够表征群成员交互行为的群聊特征；分析在线社交网络中群聊信息的语篇情境，并根据不同的语篇情境设计不同的启发式规则来判断群成员之间是否具有交流行为；遍历群聊数据并根据群聊片段所处的语篇情境，选择相应的启发式规则判断消息片段之间是否具有交流关系，并根据交流行为的密切程度赋予相应权重；将群成员的关联关系以图论的形式可视化的展示出来。本发明弥补了现有技术中根据群聊内容关联群成员技术的缺失。

Description

一种基于群聊数据对群成员进行关联的系统及方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于在线社交平台群聊数据对群成员进行关联的系统及方法。

背景技术

在线社交软件的发展，极大地方便了人们之间的联系。人们之间的沟通更多的借助于在线社交软件提供的平台，廉价、快速的交换消息，从而免去了线下交流带来的不便。

目前，在线社交平台提供的消息交换形式主要分为两种，一种是点对点形式，另一种是群组聊天形式。在点对点消息交互中，用户之间的关系简单明确，交流行为可以明确判定，因此可以很容易根据用户之间是否有消息交互行为，交互频率等特征将两个用户进行关联。

但是，在群聊形式中，用户(即群成员)之间的交互行为并没有类似点对点形式中清晰明确的判定方法。例如，(1)群组中多个群成员之间交叉发言，某一个成员的某条回复可能是同时对多个群成员的回应，也可能只是对之前某个群成员的回应，需要判定群聊中每条发言内容是对哪些发言内容的回复；(2)群聊内容多为短文本，并且带有很强的口语化特征，在判定两个文本之间的相似性的时候不太适用长文本的计算方法。(3)某个群成员可能在群中是消息的发布者而其他成员是消息的接收者，需要找到一种方法能区分出发布者和接收者。群聊的上述特征使得群组成员间的关联关系较难判断。

发明内容

发明目的：针对现有技术解决上述问题，本发明提出了一种基于在线社交平台的群聊数据对群成员进行关联的方法和系统。本方法和系统能够基于群成员在群组内的发言内容、发言时间等特征，判断群中哪些成员之间的具有交流关系以及交流密切程度，并据此将群组中交互关系密切的成员进行关联，最后以可视化的方式展现关联关系以及关联密切程度。

技术方案：一种基于在线社交平台群聊数据对群成员进行关联的方法，包括以下步骤：

步骤1：获取并分析在线社交平台的群聊数据，对群聊消息做处理并抽取出表征群成员交互行为的群聊特征；

步骤2：分析在线社交网络中群聊消息的语篇情境，并根据不同的语篇情境设计不同的启发式规则来判断群成员之间是否具有交流行为；

步骤3：遍历群聊数据，根据群聊片段所处的语篇情境，选择相应的启发式规则判断消息片段之间是否具有交流关系，并根据交流行为的密切程度赋予消息发送成员之间相应权重。在该步骤中，依据时间先后顺序遍历群聊数据，每次选择群中不同群成员所发表的两条消息，然后根据启发式规则判断这两条消息处于何种语篇情境下，接着根据不同的语篇情境选择相应的启发式规则来判断这两条消息片段之间是否具有交流行为。若判断为有交流行为，则计算这两条发言片段之间的关联程度的权重值，同时查找发布这两条发言片段的两个群成员之间是否有关联关系，若群成员之间没有关联关系，则将这两个群成员之间添加关联关系，并将消息关联程度的权重值赋予此关联关系，作为群成员之间的关联程度；若群成员之间已经具有关联关系，则将消息关联程度的权重赋予值累加到原先的权重值中，更新关联权重值。最后通过遍历所有不同群成员之间所发的所有消息来确定不同群成员之间是否具关联关系以及关联强弱程度。

所述步骤1中所获取的在线社交平台的群聊数据包含了一个或者多个群的全部群聊数据或者其在某个时间段内的群聊数据，所述群聊数据包括：群成员信息、群聊消息的发送方、群聊消息的发送时间、群聊消息的具体内容。

所述步骤1中对群聊消息进行处理的方法具体包括：将所获取的群聊数据进行清洗与预处理，剔除非群成员发布的消息；拆分群聊内容，将每个群成员的每一条发言行为的发言时间、发言内容作为一条单独的待分析数据保存。

所述步骤1中所抽取的表征群成员交互行为的群聊特征具体包括如下六种：直接提名特征、时序特征、对话密度特征、文本相似性特征、回应词特征、非文本类数据特征。

所述步骤2具体包括：分析并归纳在线群聊内容中出现的不同语篇情境，并设计如下三种启发式规则：应答语篇情境下启发式规则、孤立语篇情境下启发式规则和其他语篇情境下启发式规则。每种规则都会选择不同的群聊交互特征，组合并赋予每种特征一定的权重来综合判定两条不同消息片段之间是否具有交流关系，同时能判定交流关系强弱。

所述每种启发式规则都选择不同的群聊群成员交互行为特征，组合并赋予每种特征一定的权重来综合判定两条不同消息片段之间是否具有交流关系，同时能判定交流关系强弱。

一种基于在线社交平台群聊数据对群成员进行关联的系统，包含以下模块：

群聊数据获取模块，用于获取某个群或某些群的全部群聊消息或者在某个时间跨度内的群聊消息，并将获取的群聊数据保存在本地存储模块中以待分析；

群成员关联关系计算模块，用于计算待分析群组中成员之间的关联关系，同时将计算所得的关联关系结果保存在数据库中；

群成员关联关系可视化模块，用于将群成员之间的关联关系用网络的方式展现出来；该模块根据群成员关联关系计算模块中计算得到的关联消息，将群成员之间的关联关系用网络的方式可视化的展现出来。其中，不同群成员用不同的点表示，群成员之间的关联关系用有向边来表示。

本地存储模块，用于存储群聊数据以及群成员关联关系数据。

所述群聊数据获取模块将获取的群聊数据保存在本地存储模块；所述群成员关联关系计算模块从本地存储模块中取群聊数据加以分析计算，并将计算得到的群成员关联关系存储到本地存储模块中；所述群成员关联关系可视化模块从本地存储模块或者群成员关联关系计算模块中取群成员关联关系数据，并加以可视化。

有益效果：相对于现有技术，本发明通过分析群的群聊内容来将群中具有交流行为的群成员之间建立关联关系，并能通过权重区分不同群成员之间关联程度强弱，最后通过可视化模块将群成员之间的相互关联关系展示出来。本发明弥补了现有技术中根据群聊内容关联群成员技术的缺失，并且能快速分析群成员之间的关联关系。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的方法流程图；

图3为本发明的方法中步骤1的具体步骤流程图；

图4为本发明的方法中步骤3的具体步骤流程图；

图5为本发明的实施例一的具体实施方法步骤流程图；

图6为本发明的群成员关联关系可视化展示方式示例图。

具体实施方式

下面将结合附图，对本发明的实施案例进行详细的描述；

图1所示的是本发明的系统结构示意图，该图描述了本系统的组成模块以及每个模块之间的联系。

本系统由群聊数据获取模块1、本地存储模块2、群成员关联关系计算模块3、群成员关联关系可视化模块4组成。以下具体介绍每个模块的作用以及模块之间的配合关系。

群聊数据获取模块1。该模块可以根据待分析需求，选择从社交服务提供商平台的服务器端或者数据库中提取出某个群或者某些群的完整聊天记录，或者在某个时间段内的聊天记录，该模块取得的群聊数据存入本地存储模块2中，以待进一步分析处理群聊内容。

本地存储模块2。该模块用于保存从群聊数据获取模块1中取得的群聊内容，或者保存群成员关联关系计算模块3中计算所得的群成员关联关系数据。

群成员关联关系计算模块3。该模块从本地存储模块2中提取需要分析的群成员的群聊内容，然后用本发明中提出的基于在线社交平台群聊数据对群成员进行关联的方法，计算群成员之间的关联关系，所得结果保存在本地存储模块2中，并且可以同时传送给群成员关联关系可视化模块4。

群成员关联关系可视化模块4。该模块可以从本地存储模块2中取得已经完成的群成员关联关系数据并加以可视化；也可以直接接受群成员关联关系计算模块计算得到的数据并加以可视化。

该系统的各个模块之间的配合流程为：群聊数据获取模块1获取群聊数据并保存到本地存储模块2中；群成员关联关系计算模块3从本地存储模块2中取出群聊数据并加以分析计算，将计算所得的群成员关联关系数据保存到本地存储模块2，或者同时将该数据传递给群成员关联关系可视化模块4；群成员关联关系可视化模块4从群成员关联关系计算模块3或者本地存储模块2中提取群成员关联关系数据并加以可视化。

其中，群成员关联关系计算模块3中所用到的计算方法便是本发明提出的基于在线社交平台群聊数据对群成员进行关联的方法。以下结合流程图具体说明该方法。

图2所示是本发明中提出的基于在线社交平台群聊数据对群成员进行关联的方法的流程图，该方法具体包括以下步骤：

步骤S1，获取并分析群聊数据，对群聊消息做处理并抽取出能够表征群成员交互行为的群聊特征。

该步骤中又具体包含如下三个步骤，如图3所示，具体包含：

步骤S1.1，获取群聊数据。该步骤获取在线社交平台的群聊数据，这些数据包括一个或者多个群的全部群聊消息或者其在某个时间段内的群聊消息。这些群聊消息包括：群成员消息、群聊消息的发送方、群聊消息的发送时间、群聊消息的具体内容。

步骤S1.2，对群聊数据进行清洗与预处理。该步骤中需要剔除系统通知等非群成员发布的消息，并且需要划分群聊数据，提取出群聊消息的发送者、发送时间以及发送内容。然后对每条消息的文本内容进行分词处理，并且将已经分好的文本过滤停用词，将对文本处理没有意义的词组过滤掉。

步骤S1.3，分析群聊内容特点并抽取出能够表征群成员间交互行为的特征。在本发明中，定义了如下六种群聊交互特征。

(1)直接提名特征。该特征具体定义为：对于群聊中的成员A与成员B，若成员A发布的某条消息中含有成员B的名称，则认为成员A在向成员B发送消息。

(2)时序特征。该特征具体定义为：对于成员A和成员B之间待分析的两条消息片段，成员A的消息先于成员B的消息出现，两个消息片段之间出现的时间间隔大于最小时间间隔阈值并且小于最大时间间隔阈值，则认为成员B所发送的消息与成员A之间构成交流关系。其中最大时间间隔阈值和最小时间间隔阈值是人为设定的一个时间阈值。

(3)对话密度特征。该特征具体定义为：对于一段时间内的群聊内容，若检测出多次出现成员A与成员B，则统计该时间段内成员A与成员B所发出消息总数，并且统计该时间段内所有成员所发出消息总量，然后根据成员A与成员B所发消息总数和所有成员所发消息总数来计算对话密度。本发明中，该密度特征计算方式为用成员A与成员B所发消息总数除以这段时间内所有成员所发消息总数来决定的。

(4)文本相似性特征。该特征具体定义为：对于成员A和成员B之间待分析的两条消息片段，首先构造出这两个消息片段的文本向量，然后对两个文本向量中的词组做同义词近义词处理，最后使用余弦相似性计算文本之间的相似程度。若计算所得的值大于设定阈值，则认为这两个文本之间具有文本相似性。

(5)回应词特征。该特征具体定义为：若成员A发布的消息为问答、问候等形式，成员B随后发布了一条具有回应性质的消息，并且两个成员发布消息的时间间隔小于规定的阈值，则认为成员B所发消息是对成员A所发消息的一种回应。

(6)非文本类数据特征。该特征具体定义为：当遇到表情、图片、语音、视频或者链接等非文本类消息时候，对这类消息做统一处理。对两个在时间上紧密相邻的消息片段，若其中任何一个消息中包含此类非文本类消息，则认为这两个消息之间存在交互关系。

步骤S2，分析在线社交网络中群聊消息的语篇情境，并根据不同的语篇情境设计不同的启发式规则来判断群成员之间是否具有交流行为。

在该步骤中，本发明通过研究与分析群聊内成员的沟通特点，总结了如下几种群聊中常见的语篇情境，并针对每种语篇情境选取了不同的群聊交互特征来构建启发式规则。每种规则都会选择不同的群聊交互特征，组合并赋予每种特征赋予一定的权重来综合判定两条不同消息片段之间是否具有交流关系，同时能判定交流关系强弱。

(1)应答语篇情境下启发式规则。该启发式规则具体定义为：首先判断待分析的两条消息片段所处的会话语篇情境是否为回应情境。判断方法是通过语料库匹配会话消息——若在一段内容中匹配到多个带有回应性质的词组，则认为该会话情境为应答语篇情境。然后选取直接提名特征，回应词特征、非文本数据特征作为待分析特征。接着分别用上述三种特征去分别判断成员A与成员B之间的两条消息片段是否符合上述特征，若符合某个特征，则该特征值取1，否则取值0。最后用如下公式加权计算该启发式规则权重：

weight_应答(A,B)＝a×直接提名特征+b×回应词特征+c×非文本类数据特征

其中的a、b和c是系数。若weight_应答(A,B)计算所得的值大于设定的阈值T_应答，则判定两个消息片段之间具有交流关系。

(2)孤立语篇情境下启发式规则。该启发式规则具体定义为：若检测到成员A的发言片段与其前继消息和后继消息的时间间隔都大于一个给定时间阈值，则认为其发言情境为孤立语篇情境。接着搜寻成员A的后继成员B所发布的消息，若成员B所发布的消息仍然构成孤立语篇情境，则直接认定B所发布的消息是对A的回应，将成员A与成员B之间赋予一定权重；若成员B的消息不构成孤立效应，则选取直接提名特征、文本相似性特征、回应词特征和非文本类数据特征。接着分别用上述四种特征去分别判断成员A与成员B之间的两条消息片段是否符合上述特征，若符合某个特征，则该特征值取1，否则取值0。最后用如下公式加权计算该启发式规则权重：

weight_孤立(A,B)＝d×直接提名特征+e×文本相似性特征+f×回应词特征+g×非文本类数据特征

其中的d、e、f和g是系数。若weight_孤立(A,B)计算所得的值大于设定的阈值T_孤立，则判定两个消息片段之间具有交流关系。

(3)其他语篇情境下启发式规则。除了应答语篇情境和孤立语篇情境之外的语篇情境都归类于其他语篇情境。该启发式规则具体定义为：对于成员A和成员B的两条消息片段，直接选取直接提名特征、时序特征、对话密度特征、文本相似性特征、回应词特征和非文本类特征。赋予此六种特征相应权重。接着分别用上述六种特征去分别判断成员A与成员B之间的两条消息片段是否符合上述特征，若符合某个特征，则该特征的取值1，否则取值0。最后用如下公式加权计算该启发式规则权重：

weight_其他(A,B)＝h×直接提名特征+i×时序特征+j×对话密度特征+k×文本相似性特征+m×回应词特征+n×非文本类特征

其中，h、i、j、k、m和n是系数。若weight_其他(A,B)计算所得的值大于设定的阈值T_其他，则判定两个消息片段之间具有交流关系。

步骤S3。遍历群聊数据并根据群聊片段所处的语篇情境，选择相应的启发式规则判断消息片段之间是否具有交流关系，并根据交流行为的密切程度赋予相应权重。

该步骤中又具体包含如下五个步骤，如图4所示，具体包含：

步骤S3.1，选择两个不同的群成员的两条发言片段。该步骤中，依照时间先后顺序遍历群聊数据。每次选择群中不同群成员所发表的两条消息。这一步中选择的两个消息片段之间的时间差不应当大于设定的最大时间间隔阈值。定义时间上先发生的消息片段的发送者为成员A，时间上后发生的消息片段的发送者为成员B。

步骤S3.2，判断发言片段所处语篇情境并选择对应的启发式规则计算权重。该步骤中，依次选择应答语篇情境下启发式规则、孤立语篇情境下启发式规则和其他语篇情境下启发式规则来判断步骤S3.1中的两个消息属于何种语篇情境。若这两个消息片段满足某个启发式规则，则用该规则来判断并计算这两个消息之间是否具有关联关系以及权重。

步骤S3.3，更新这两个群成员之间的关联关系。在该步骤中，根据上一步中计算所得的结果来更新群成员之间的关联关系。若上一步中判定两个消息片段之间具有关联关系并且两个消息片段的发送者并没有被关联，则将发送这两个消息的群成员之间添加关联关系，关联关系用有向线段表示，有向线段从成员A指向成员B，有向线段的权重为上一步中计算所得权重；若上一步中判定两个消息片段之间具有关联关系并且两个消息片段的发送者之间已经具有关联关系了，则将上一步计算所得的权重累加至原先的权重中，更新权重值；若上一步中判定两个消息片段之间没有关联关系，则跳过这个步骤。

步骤S3.4，判断是否所有消息片段之间都被处理过。若仍有消息片段之间未处理过，则返回步骤S3.1，否则跳到步骤S3.5。

步骤S3.5，输出群成员之间的关联关系。

以下通过一个具体实施例描述本发明。

实施例一，参见图5，包括下列具体步骤：

步骤S101，开始。

步骤S102，判断群成员的可视化关系数据是否已经存储在本地存储模块中，若已经存在，则跳转到步骤S107,否则跳转到步骤S103。

步骤S103，判断群聊数据是否已经存储在本地存储模块中，若已经存在，则跳转到步骤S105，否则跳转到步骤S104。

步骤S104，群聊数据获取模块根据待分析需求，选择从社交服务提供商平台的服务器端或者数据库中提取出某个群或者某些群的完整聊天记录，或者在某个时间段内的聊天记录，并将取得的群聊数据存入本地存储模块。

步骤S105，该步骤从本地存储模块中提取出群聊数据并将按照图2中的S1步骤中的方法对数据进行预处理。

步骤S106，计算并存储群成员可视化关系。该步骤中计算群成员可视化关系的方法按照图2中的S2和S3的所述步骤计算。计算所得结果保存在本地存储模块中。

步骤S107，获取可视化关系数据。在该步骤中，从本地数据存储模块中提取出群成员关联关系数据。

步骤S108，群成员关联关系可视化模块对群成员关联关系进行可视化展示。

步骤S109，结束。

图6为群成员关联关系可视化模块对群成员关联关系进行展示的示例图，该图中群成员用点表示，群成员之间的关联关系用有向边表示，有向边的方向代表交互进行方向，有向边的粗细代表关联关系紧密程度。该系统能十分直观的展示群成员之间的关联关系。

本发明属于信息技术领域。该方法包括：获取并分析群聊数据，对群聊信息做处理并抽取出能够表征群成员交互行为的群聊特征；分析在线社交网络中群聊信息的语篇情境，并根据不同的语篇情境设计不同的启发式规则来判断群成员之间是否具有交流行为；遍历群聊数据并根据群聊片段所处的语篇情境，选择相应的启发式规则判断消息片段之间是否具有交流关系，并根据交流行为的密切程度赋予相应权重；将群成员的关联关系以图论的形式可视化的展示出来。本发明弥补了现有技术中根据群聊内容关联群成员技术的缺失。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于在线社交平台群聊数据对群成员进行关联的方法，其特征在于，包括以下步骤：

步骤1：获取并分析在线社交平台的群聊数据，对群聊消息做处理并抽取出表征群成员交互行为的群聊特征，具体包括如下六种：直接提名特征、时序特征、对话密度特征、文本相似性特征、回应词特征、非文本类数据特征；

步骤2：分析在线社交网络中群聊消息的语篇情境，并根据不同的语篇情境设计不同的启发式规则来判断群成员之间是否具有交流行为；其中，启发式规则具体包括应答语篇情境下启发式规则、孤立语篇情境下启发式规则和其他语篇情境下启发式规则，每种规则的判断方法为：

(1)应答语篇情境下启发式规则：该规则的判断方法为：首先判断待分析的两条消息片段所处的会话语篇情境是否为回应情境，判断方法是通过语料库匹配会话消息——若在一段内容中匹配到多个带有回应性质的词组，则认为该会话情境为应答语篇情境；然后选取直接提名特征，回应词特征、非文本类数据特征作为待分析特征，接着分别用上述三种特征去分别判断成员A与成员B之间的两条消息片段是否符合上述特征，若符合某个特征，则该特征值取1，否则取值0，最后用如下公式加权计算该启发式规则权重：

其中的a、b和c是系数，若weight_应答(A,B)计算所得的值大于设定的阈值T_应答，则判定两个消息片段之间具有交流关系；

(2)孤立语篇情境下启发式规则：该规则的判断方法为：若检测到成员A的发言片段与其前继消息和后继消息的时间间隔都大于一个给定时间阈值，则认为其发言情境为孤立语篇情境；然后搜寻成员A的后继成员B所发布的消息，若成员B所发布的消息仍然构成孤立语篇情境，则直接认定B所发布的消息是对A的回应，将成员A与成员B之间赋予设定权重；若成员B的消息不构成孤立效应，则选取直接提名特征、文本相似性特征、回应词特征和非文本类数据特征，接着分别用上述四种特征去分别判断成员A与成员B之间的两条消息片段是否符合上述特征，若符合某个特征，则该特征值取1，否则取值0，最后用如下公式加权计算该启发式规则权重：

其中的d、e、f和g是系数，若weight_孤立(A,B)计算所得的值大于设定的阈值T_孤立，则判定两个消息片段之间具有交流关系；

(3)其他语篇情境下启发式规则：除了应答语篇情境和孤立语篇情境之外的语篇情境都归类于其他语篇情境，该规则的判断方法为：对于成员A和成员B的两条消息片段，直接选取直接提名特征、时序特征、对话密度特征、文本相似性特征、回应词特征和非文本类数据特征，赋予此六种特征相应权重，接着分别用上述六种特征去分别判断成员A与成员B之间的两条消息片段是否符合上述特征，若符合某个特征，则该特征的取值1，否则取值0，最后用如下公式加权计算该启发式规则权重：

weight_其他(A,B)＝h×直接提名特征+i×时序特征+j×对话密度特征+k×文本相似性特征+m×回应词特征+n×非文本类数据特征

其中，h、i、j、k、m和n是系数，若weight_其他(A,B)计算所得的值大于设定的阈值T_其他，则判定两个消息片段之间具有交流关系；

步骤3：遍历群聊数据，根据群聊片段所处的语篇情境，选择相应的启发式规则判断消息片段之间是否具有交流关系，并根据交流行为的密切程度赋予消息发送成员之间相应权重。

2.根据权利要求1所述的基于在线社交平台群聊数据对群成员进行关联的方法，其特征在于，所述步骤1中所获取的在线社交平台的群聊数据包含了一个或者多个群的全部群聊数据或者其在某个时间段内的群聊数据，所述群聊数据包括：群成员信息、群聊消息的发送方、群聊消息的发送时间、群聊消息的具体内容。

3.根据权利要求1所述的基于在线社交平台群聊数据对群成员进行关联的方法，其特征在于，所述步骤1中对群聊消息进行处理的方法具体包括：将所获取的群聊数据进行清洗与预处理，剔除非群成员发布的消息；拆分群聊内容，将每个群成员的每一条发言行为的发言时间、发言内容作为一条单独的待分析数据保存。