CN113779237A

CN113779237A - 构建社交行为序列图的方法、系统、移动终端及可读存储介质

Info

Publication number: CN113779237A
Application number: CN202010517234.9A
Authority: CN
Inventors: 束博; 段继平
Original assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2021-12-10
Anticipated expiration: 2040-06-09
Also published as: CN113779237B

Abstract

本发明公开了一种构建社交行为序列图的方法，包括：获取社交行为记录集；将社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录；将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率；给社交行为记录集中的每个人物的每个社交行为构建一个节点，并得到节点间为因果关系的概率；根据节点间为因果关系的概率构建社交序列图，能够提取在若干人之间进行、包含若干主题的、语句或行为之间有明确的因果关系的完整的社交行为序列，扩大使用场景。

Description

构建社交行为序列图的方法、系统、移动终端及可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种构建社交行为序列图的方法、移动终端及可读存储介质。

背景技术

人们日常沟通越来越依赖于社交聊天软件，例如微信、QQ等，目前基于诸如微信、QQ等的社交行为序列提取通常基于2个人之间的对话记录，只针对连续对话片段基于主题词对对话文本进行聚类，即将2个人之间的对话在时间上划分成若干段，每一段包含一个或若干主题，但其不能处理下列一些情况，导致使用场景受限：

1、若干人之间的对话；

2、关于多个主题的对话；

3、关于某一个主题的间隔式对话(即不同主题穿插进行)；

4、对话中穿插一些不属于文本的其他互动行为(如转账、文件传输等)；

5、对话过程中主题发生了变化。

发明内容

有鉴于此，本发明提出一种构建社交行为序列图的方法、移动终端及可读存储介质，能够提取在若干人之间进行、包含若干主题的、语句或行为之间有明确的因果关系的完整的社交行为序列，扩大使用场景。

首先，为实现上述目的，本发明提出一种构建社交行为序列图的方法，所述方法包括：

获取社交行为记录集；

将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录；

将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率，其中，所述因果关系判断模型为使用对话数据集训练的用于判断两个社交行为是否为因果关系的模型；

给所述社交行为记录集中的每个人物的每个社交行为构建一个节点，并根据所述序列记录间为因果关系的概率得到节点间为因果关系的概率；

根据所述节点间为因果关系的概率构建社交序列图。

可选地，所述根据所述节点间为因果关系的概率构建社交序列图的步骤，具体包括如下步骤：

判断两个节点之间为因果关系的概率是否大于第一预设值；

当两个节点之间为因果关系的概率大于所述第一预设值时，于所述两个节点之间构建一个从原因指向结果的有向边以构建社交序列图。

可选地，所述因果关系判断模型的训练步骤包括：

从所述对话训练集中提取预设段完整的只包含两个人物的对话；

将每段对话中的文本内容按时间排序生成一个对话内容序列；

根据所述对话内容序列生成构成因果关系的n个正样本及n个负样本；

根据所有的正样本和负样本构成训练数据集；

将所述训练数据集输入神经分类网络，训练所述神经分类网络以得到所述因果关系判断模型。

可选地，所述根据所述对话内容序列生成构成因果关系的n个正样本及n个负样本的步骤，具体包括：

步骤A：从一个对话内容序列中随机提取相邻的两个文本内容，构成因果关系的正样本；

步骤B：随机从两个不同的对话序列中各随机提取一个文本内容，构成因果关系的负样本；

步骤C：重复执行n次步骤A和步骤B以得到n个正样本和n个负样本。

可选地，两个文本内容为因果关系的概率大于第二预设值时为正样本；

两个文本内容为因果关系的概率小于所述第二预设值时为负样本。

优选地，所述将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录的步骤，具体包括如下步骤：

判断所述每个社交行为记录是否为文本内容；

若为文本内容，将所述文本内容转换为标准文本格式；

若为非文本的互动行为，使用所述标准文本格式对所述非文本的互动行为进行描述。

优选地，所述将所述文本内容转换为标准文本格式的步骤，具体包括如下步骤：

提取所述每个社交行为记录发生的时间、发送者以及内容；

将所述每个社交行为记录按照发生的时间、发送者以及内容进行描述。

优选地，将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率的步骤，具体包括：

结合第一公式计算所有发生时间早于一序列记录的其他记录和该一序列记录是因果关系的概率：

第一公式：p_ij＝p(c_i|c_j)/log|t_i-t_j+e|；

其中c_i表示第i个序列记录的文本内容；

c_j表示发生时间早于第i个序列记录的第j个序列记录的文本内容；

t_i表示第i个序列记录的发生时间，其单位以能够区分记录中任意2个序列记录的发生顺序为准，e表示自然对数的底数；

p(c_i|c_j)是表示所述因果关系判断模型计算得到的序列记录c_j是序列记录c_i的原因或序列记录c_i是序列记录c_j的结果的概率；

p_ij表示序列记录i是序列记录j的结果的概率。

为实现上述目的，本发明还提供一种构建社交行为序列图的系统，所述系统包括：

获取模块，用于获取社交行为记录集；

转换模块，用于将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录；

计算模块，用于将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率，其中所述因果关系判断模型为使用对话数据集训练的用于判断两个社交行为是否为因果关系的模型；

构建模块，用于给所述社交行为记录集中的每个人物的每个社交行为构建一个节点，并根据所述序列记录间为因果关系的概率得到节点间为因果关系的概率；还用于根据所述节点间为因果关系的概率构建社交序列图。

为实现上述目的，本发明还提供一种移动终端，所述移动终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的构建社交行为序列图的系统，所述构建社交行为序列图的系统被所述处理器执行时实现上述的构建社交行为序列图的方法的步骤。

为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质存储有构建社交行为序列图的系统，所述构建社交行为序列图的系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的构建社交行为序列图的方法的步骤。

相较于现有技术，本实施方式所提出的构建社交行为序列图的方法，首先获取社交行为记录集；接着，将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录，并将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率；进一步地，给所述社交行为记录集中的每个人物的每个社交行为构建一个节点，并根据所述序列记录间为因果关系的概率得到节点间为因果关系的概率；最后，根据所述节点间为因果关系的概率构建社交序列图，从而能够提取在若干人之间进行、包含若干主题的、语句或行为之间有明确的因果关系的完整的社交行为序列，扩大使用场景。

附图说明

图1是本发明移动终端一可选的硬件架构的示意图；

图2是本发明构建社交行为序列图的系统第一实施方式的功能模块示意图；

图3是本发明构建社交行为序列图的系统构建从原因节点指向结果节点的有向边的社交序行为示意图；

图4是本发明构建社交行为序列图的系统第二实施方式的功能模块示意图；

图5为本发明构建社交行为序列图的方法第一实施方式的实施流程示意图；

图6为本发明构建社交行为序列图的方法第二实施方式的实施流程示意图。

附图标记：

移动终端	2
		存储器	11
处理器	12
		网络接口	13
构建社交行为序列图的系统	200
		获取模块	201
转换模块	202
		计算模块	203
构建模块	204
		提取模块	205
生成模块	206
		输入模块	207

本发明目的的实现、功能特点及优点将结合实施方式，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施方式，对本发明进行进一步详细说明。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施方式中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明使用的术语是仅仅出于描述特定实施方式的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本发明的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本发明及区别每一步骤，因此不能理解为对本发明的限制。

参阅图1所示，是图1中移动终端2一可选的硬件架构的示意图。本实施方式中，所述移动终端2可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-13的移动终端2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施方式中，所述存储器11可以是所述移动终端2的内部存储单元，例如该移动终端2的硬盘或内存。在另一些实施方式中，所述存储器11也可以是所述移动终端2的外部存储设备，例如该移动终端2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器11还可以既包括所述移动终端2的内部存储单元也包括其外部存储设备。本实施方式中，所述存储器11通常用于存储安装于所述移动终端2的操作系统和各类应用软件，例如所述构建社交行为序列图的系统200的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施方式中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述移动终端2的总体操作，例如执行与所述移动终端2进行数据交互或者通信相关的控制和处理等。本实施方式中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的构建社交行为序列图的系统200等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述移动终端2与其他计算机设备之间建立通信链接。例如，网络接口13用于通过网络将所述移动终端2与外部终端相连，在所述移动终端2与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

至此，己经详细介绍了本发明各个实施方式的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本发明的各个实施方式。

首先，本发明提出一种构建社交行为序列图的系统200。

参阅图2所示，是本发明构建社交行为序列图的系统200第一实施方式的功能模块图。本实施方式中，所述构建社交行为序列图的系统200可以被分割成一个或多个模块，所述一个或者多个模块被存储于所述存储器11中，并由一个或多个处理器(本实施方式中为所述处理器12)所执行，以完成本发明。例如，在图2中，所述构建社交行为序列图的系统200可以被分割成获取模块201、转换模块202、计算模块203、构建模块204。本发明所称的功能模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述构建社交行为序列图的系统200在所述移动终端2中的执行过程。以下将就各功能模块201-204的功能进行详细描述。

所述获取模块201，用于获取社交行为记录集。

具体地，所述获取模块201获取需要提取社交行为序列的社交行为记录集，每个社交行为记录都包括但不限于时间、发送者、内容。

所述转换模块202，用于将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录。

具体地，所述获取模块202首先判断所述每个社交行为记录是否为文本内容，接着，若社交行为记录为文本内容，将所述文本内容转换为标准文本格式，最后，若社交行为记录为非文本的互动行为，使用所述标准文本格式对所述非文本的互动行为进行描述。

在本实施方式中，若社交行为记录为文本内容，所述转换模块203还提取所述每个社交行为记录发生的时间、发送者以及内容，进而将所述每个社交行为记录按照发送的时间、发送者以及内容进行描述。

举例而言，如a在12:00发送了“今天天气怎么样”，该社交行为记录为文本内容，则转换为标准格式<12:00,a,“今天天气怎么样？”>。如在12:00时a向b转账100块，该社交行为记录为非文本的互动行为，则使用所述标准文本格式进行描述：<12:00,a,"转账100块">。又如12:00时a向b发送一张北京颐和园的照片，该社交行为记录为非文本的互动行为,则使用所述标准文本格式进行描述：<12:00,a,"北京颐和园照片">。

所述计算模块203，用于将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率，其中，所述因果关系判断模型为使用对话数据集训练的用于判断两个社交行为是否为因果关系的模型。

具体地，在本实施方式中，构建社交行为序列图的系统还可以包括训练模块(图未示)，用于使用对话数据集训练的判断两个社交行为是否具有因果关系的模型，从而实现预先构建所述因果关系判断模型。

举例而言，假设两个社交行为为微信对话：微信文本“今天天气怎么样”和微信文本“还不错”，所述因果关系判断模型计算该微信对话为因果关系的概率为0.9。假设两个社交行为为短信对话：短信文本“今天天气怎么样”和短信文本“我在北京”，所述因果关系判断模型计算该短信对话为因果关系的概率为0.1。假设两个社交行为为QQ对话，QQ文本“北京秋天怎么样”和QQ发送一张在北京拍的照片，所述因果关系判断模型计算该QQ对话为因果关系的概率为0.8。

在本实施方式中，所述计算模块203结合第一公式计算所有发生时间早于一序列记录的其他记录和该一序列记录是因果关系的概率：

第一公式：p_ij＝p(c_i|c_j)/log|t_i-t_j+e|；

其中c_i表示第i个序列记录的文本内容；

p_ij表示序列记录i是序列记录j的结果的概率。

举例而言，所述转换模块202将社交行为记录转换为标准文本格式的序列记录有如下：

<12:00,a,“今天下午开会”>

<12:01,b,“收到”>

<12:02,c,“收到”>

<12:03,a,“ppt准备好了吗”>

<12:04,d,“收到”>

<12:05,b,“准备好了”>

所述计算模块203计算每个序列记录与之前序列记录的因果概率，如表1所示：

表1

所述构建模块204，用于给所述社交行为记录集中的每个人物的每个社交行为构建一个节点，并根据所述序列记录间为因果关系的概率得到节点间为因果关系的概率。

所述构建模块204，还用于根据所述节点间为因果关系的概率构建社交序列图。

具体地，所述构建模块204首先判断两个节点之间为因果关系的概率是否大于第一预设值；进而当两个节点之间为因果关系的概率大于所述第一预设值时，于所述两个节点之间构建一个从原因指向结果的有向边以构建社交序列图。

结合上述表1的内容，对表1中的每个人物(a、b、c)的每个社交行为构建一个节点。假设第一预设值为0.5，当两个节点之间为因果关系的概率大于第一预设值0.5时，在这两个节点之间构建一个从原因节点指向结果节点的有向边。如表2所示，序列记录与之前序列记录的因果概率大于第一预设值0.5的有四个。

表2

记录i	记录j	p<sub>ij</sub>
			<12:01,b,“收到”>	<12:00,a,“今天下午开会”>	0.9
<12:02,c,“收到”>	<12:00,a,“今天下午开会”>	0.88
			<12:04,d,“收到”>	<12:00,a,“今天下午开会”>	0.85
<12:05,b,“准备好了”>	<12:03,a,“ppt准备好了吗”>	0.9

结合表2，在两个节点之间构建一个从原因节点指向结果节点的有向边，构建一个社交序行为图，如图3所示。图3中每个从原因节点指向结果节点的连通子图表示一个具有因果关系的社交行为序列。

本实施方式所提出的构建社交行为序列图的系统200，首先获取社交行为记录集；接着，将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录，并将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率；进一步地，给所述社交行为记录集中的每个人物的每个社交行为构建一个节点，并根据所述序列记录间为因果关系的概率得到节点间为因果关系的概率；最后，根据所述节点间为因果关系的概率构建社交序列图，从而能够提取在若干人之间进行、包含若干主题的、语句或行为之间有明确的因果关系的完整的社交行为序列，扩大使用场景。

进一步地，基于本发明构建社交行为序列图的系统200的上述第一实施方式，提出本发明的第二实施方式(如图4所示)。在本实施方式中，所述构建社交行为序列图的系统200包括提取模块205、生成模块206以及输入模块207，其中，

所述提取模块205，用于从所述对话训练集中提取预设段完整的只包含两个人物的对话。

例如，所述提取模块205从豆瓣的中文多轮对话训练集里提取了下列对话：

A：昆明哪里配眼镜比较便宜？B：云大附近很多店，应该有竞争，价格会下来一点的吧。A：给推荐个云大附近的吧，谢谢。B：去了就能看到，比如云光什么的。

所述提取模块205还从微信的中文多轮对话训练集里提取了下列对话：

C：无争围棋的棋友们大家互相认识一下吧。C：我先介绍一下自己，软件工程师，现居深圳，无争围棋的发起人和主要维护者，爱下围棋有近二十年棋龄，但水平不高。D：打不开无争网了，郁闷。C：已经恢复正常，服务器偶有不稳定情况，惭愧，见谅。

所述生成模块206，用于将每段对话中的文本内容按时间排序生成一个对话内容序列。

例如，将上述对话生成下列对话内容序列，如表3及表4所示：

表3

昆明哪里配眼镜比较便宜？
	云大附近很多店，应该有竞争，价格会下来一点的吧。
给推荐个云大附近的吧，谢谢。
	去了就能看到，比如云光什么的。

表4

所述生成模块206，还用于根据所述对话内容序列生成构成因果关系的n个正样本及n个负样本。n通常大于或等于10000。

具体地，所述生成模块206执行以下步骤：步骤A：通过所述提取模块206从一个对话内容序列中随机提取相邻的两个文本内容，构成因果关系的正样本；步骤B：随机从两个不同的对话序列中各随机提取一个文本内容，构成因果关系的负样本；步骤C：重复执行n次步骤A和步骤B以得到n个正样本和n个负样本。在本实施方式中，两个文本内容为因果关系的概率大于第二预设值时为正样本；两个文本内容为因果关系的概率小于所述第二预设值时为负样本。

例如，从表3的对话内容序列中提取相邻的两个对话文本内容：

(1)昆明哪里配眼镜比较便宜？

(2)云大附近很多店，应该有竞争，价格会下来一点的吧。

上述对话文本内容(1)及对话文本内容(2)构成因果关系的正样本。

又例如，从表3的对话内容序列中提取一个文本内容：

(1)昆明哪里配眼镜比较便宜？

进而从表4的对话内容序列中提取一个文本内容：

(3)打不开无争网了，郁闷。

上述对话文本内容(1)及对话文本内容(3)构成因果关系的负样本。

重复执行上述步骤n次，以得到n个正样本和n个负样本。

所述生成模块206，还用于根据所有的正样本和负样本构成训练数据集；

所述输入模块207，用于将所述训练数据集输入神经分类网络，训练所述神经分类网络以得到所述因果关系判断模型。

具体地，将所述训练数据集输入BERT(Bidirectional Encoder Representationfrom Transformers，Transformer的双向编码器表示)+分类的网络，训练该网络以得到所述因果关系判断模型。所述因果关系判断模型能够计算并输出两个社交行为为因果关系的概率。

例如当将对话文本内容(1)昆明哪里配眼镜比较便宜？及对话文本内容(2)云大附近很多店，应该有竞争，价格会下来一点的吧，输入所述因果关系判断模型，所述因果关系判断模型输出概率0.9。

又例如当将对话文本内容(1)昆明哪里配眼镜比较便宜？及对话文本内容(3)打不开无争网了，郁闷，输入所述因果关系判断模型，所述因果关系判断模型输出概率0.1。

本发明所提出的构建社交行为序列图的系统200通过训练模型，使得所述因果关系判断模型可以计算并输出两个社交行为为因果关系的概率。

此外，本发明还提出一种构建社交行为序列图的方法。

参阅图5所示，是本发明构建社交行为序列图的方法第一实施方式的实施流程示意图。在本实施方式中，根据不同的需求，图5所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S501：获取社交行为记录集。

具体地，移动终端2获取需要提取社交行为序列的社交行为记录集，每个社交行为记录都包括但不限于时间、发送者、内容。

步骤S502：将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录。

在本实施方式中，所述步骤S502：将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录的步骤，包括：

判断所述每个社交行为记录是否为文本内容；

若社交行为记录为文本内容，将所述文本内容转换为标准文本格式；

若社交行为记录为非文本的互动行为，使用所述标准文本格式对所述非文本的互动行为进行描述。

在本实施方式中，所述将所述文本内容转换为标准文本格式的步骤，具体包括：

提取所述每个社交行为记录发生的时间、发送者以及内容；

将所述每个社交行为记录按照发送的时间、发送者以及内容进行描述。

举例而言，如a在12:00发送了“今天天气怎么样”，该社交行为记录为文本内容，则转换为标准格式<12:00,a,“今天天气怎么样？”>。如在12:00时a向b转账100块，该社交行为记录为非文本的互动行为，则使用所述标准文本格式进行描述：<12:00,a,"转账100块">。又如12:00时a向b发送一张北京颐和园的照片，该社交行为记录为非文本的互动行为，则使用所述标准文本格式进行描述：<12:00,a,"北京颐和园照片">。

步骤S503：将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率，其中，所述因果关系判断模型为使用对话数据集训练的用于判断两个社交行为是否为因果关系的模型。

具体地，在本实施方式中，移动终端2使用对话数据集训练的判断两个社交行为是否具有因果关系的模型，从而实现预先构建所述因果关系判断模型。

在本实施方式中，结合第一公式计算所有发生时间早于一序列记录的其他记录和该一序列记录是因果关系的概率：

第一公式：p_ij＝p(c_i|c_j)/log|t_i-t_j+e|；

其中c_i表示第i个序列记录的文本内容；

p_ij表示序列记录i是序列记录j的结果的概率。

举例而言，将社交行为记录转换为标准文本格式的序列记录有如下：

<12:00,a,“今天下午开会”>

<12:01,b,“收到”>

<12:02,c,“收到”>

<12:03,a,“ppt准备好了吗”>

<12:04,d,“收到”>

<12:05,b,“准备好了”>

计算每个序列记录与之前序列记录的因果概率，如表1所示：

表1

步骤S504：给所述社交行为记录集中的每个人物的每个社交行为构建一个节点，并根据所述序列记录间为因果关系的概率得到节点间为因果关系的概率。

步骤S505：根据所述节点间为因果关系的概率构建社交序列图。

具体地，所述步骤S505：根据所述节点间为因果关系的概率构建社交序列图，具体包括：

判断两个节点之间为因果关系的概率是否大于第一预设值；

表2

结合表2，在两个节点之间构建一个从原因节点指向结果节点的有向边，构建一个社交序行为列图，如图3所示。图3中每个从原因节点指向结果节点的连通子图表示一个具有因果关系的社交行为序列。

本实施方式所提出的构建社交行为序列图的方法，首先获取社交行为记录集；接着，将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录，并将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率；进一步地，给所述社交行为记录集中的每个人物的每个社交行为构建一个节点，并根据所述序列记录间为因果关系的概率得到节点间为因果关系的概率；最后，根据所述节点间为因果关系的概率构建社交序列图，从而能够提取在若干人之间进行、包含若干主题的、语句或行为之间有明确的因果关系的完整的社交行为序列，扩大使用场景。

进一步地，基于本发明构建社交行为序列图的方法的上述第一实施方式，提出本发明构建社交行为序列图的方法的第二实施方式。

如图6所示，是本发明构建社交行为序列图的方法第二实施方式的实施流程示意图。本实施方式中，上述第一实施方式中的使用对话数据集训练的用于判断两个社交行为是否为因果关系的模型的训练步骤，具体包括如下步骤：

步骤S601：从所述对话训练集中提取预设段完整的只包含两个人物的对话。

例如，移动终端2从豆瓣的中文多轮对话训练集里提取了下列对话：

移动终端2还从微信的中文多轮对话训练集里提取了下列对话：

步骤S602：将每段对话中的文本内容按时间排序生成一个对话内容序列。

表3

表4

步骤S603：根据所述对话内容序列生成构成因果关系的n个正样本及n个负样本，n≥10000。

具体地，所述步骤S603：根据所述对话内容序列生成构成因果关系的n个正样本及n个负样本，具体包括如下步骤：

步骤A：通过所述提取模块206从一个对话内容序列中随机提取相邻的两个文本内容，构成因果关系的正样本；

在本实施方式中，两个文本内容为因果关系的概率大于第二预设值时为正样本；两个文本内容为因果关系的概率小于所述第二预设值时为负样本。

(1)昆明哪里配眼镜比较便宜？

(2)云大附近很多店，应该有竞争，价格会下来一点的吧。

又例如，从表3的对话内容序列中提取一个对话文本内容：

(1)昆明哪里配眼镜比较便宜？

进而从表4的对话内容序列中提取一个对话文本内容：

(3)打不开无争网了，郁闷。

重复执行上述步骤n次，以得到n个正样本和n个负样本。

步骤S604:根据所有的正样本和负样本构成训练数据集；

步骤S605：将所述训练数据集输入神经分类网络，训练所述神经分类网络以得到所述因果关系判断模型。

具体地，将所述训练数据集输入BERT+分类的网络，训练该网络以得到所述因果关系判断模型。所述因果关系判断模型能够计算并输出两个社交行为为因果关系的概率。

本发明所提出的构建社交行为序列图的方法通过训练模型，使得所述因果关系判断模型可以计算并输出两个社交行为为因果关系的概率。

上述本发明实施方式序号仅仅为了描述，不代表实施方式的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方式方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，移动终端，空调器，或者网络设备等)执行本发明各个实施方式所述的方法。

以上仅为本发明的优选实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种构建社交行为序列图的方法，其特征在于，所述方法包括：

获取社交行为记录集；

给所述社交行为记录集中的每个人物的每个社交行为构建一个节点，并根据所述序列记录间为因果关系的概率得到节点间为因果关系的概率；及

根据所述节点间为因果关系的概率构建社交序列图。

2.如权利要求1所述的构建社交行为序列图的方法，其特征在于，所述根据所述节点间为因果关系的概率构建社交序列图的步骤，具体包括如下步骤：

判断两个节点之间为因果关系的概率是否大于第一预设值；及

当两个节点之间为因果关系的概率大于所述第一预设值时，在所述两个节点之间构建一个从原因指向结果的有向边以构建社交序列图。

3.如权利要求1所述的构建社交行为序列图的方法，其特征在于，所述因果关系判断模型的训练步骤包括：

根据所有的正样本和负样本构成训练数据集；及

4.如权利要求3所述的构建社交行为序列图的方法，其特征在于，所述根据所述对话内容序列生成构成因果关系的n个正样本及n个负样本的步骤，具体包括如下步骤：

步骤B：随机从两个不同的对话序列中各随机提取一个文本内容，构成因果关系的负样本；及

5.如权利要求4所述的构建社交行为序列图的方法，其特征在于：

两个文本内容为因果关系的概率大于第二预设值时为正样本；

6.如权利要求1所述的构建社交行为序列图的方法，其特征在于，所述将所述社交行为记录集中的每个社交行为记录转换为标准文本格式的序列记录的步骤，具体包括如下步骤：

判断所述每个社交行为记录是否为文本内容；

若为文本内容，将所述文本内容转换为标准文本格式；及

7.如权利要求6所述的构建社交行为序列图的方法，其特征在于，所述将所述文本内容转换为标准文本格式的步骤，具体包括如下步骤：

提取所述每个社交行为记录发生的时间、发送者以及内容；及

8.如权利要求1所述的构建社交行为序列图的方法，其特征在于，所述将所述序列记录输入预先构建的因果关系判断模型，通过所述因果关系判断模型计算所有发生时间早于一序列记录的其他序列记录和该一序列记录为因果关系的概率，得到序列记录间为因果关系的概率的步骤，具体包括：

结合第一公式计算所有发生时间早于一序列记录的其他记录和该序列记录是因果关系的概率：

第一公式：p_ij＝p(c_i|c_j)/log|t_i-t_j+e|；

其中c_i表示第i个序列记录的文本内容；

p_ij表示序列记录i是序列记录j的结果的概率。

9.一种构建社交行为序列图的系统，其特征在于，所述系统包括：

获取模块，用于获取社交行为记录集；

10.一种移动终端，其特征在于，所述移动终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的构建社交行为序列图的系统，所述构建社交行为序列图的系统被所述处理器执行时实现如权利要求1-8中任一项所述的构建社交行为序列图的方法的步骤。

11.一种可读存储介质，所述可读存储介质存储有构建社交行为序列图的系统，所述构建社交行为序列图的系统可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-8中任一项所述的构建社交行为序列图的方法的步骤。