CN110232102A

CN110232102A - 一种基于迁移学习的人员关系模型建模方法

Info

Publication number: CN110232102A
Application number: CN201910511284.3A
Authority: CN
Inventors: 李晋; 纪浩博; 邹德润; 马超; 程建华
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-09-13
Anticipated expiration: 2039-06-13
Also published as: CN110232102B

Abstract

本发明公开了一种基于迁移学习的人员关系模型建模方法，在给定的人员关系源模型基础上，通过迁移学习，挖掘出数据集中新关系，优化该模型，包括：步骤1：将数据集输入给定的人员关系源模型，分析人员之间的关系；步骤2：当源模型无法解析人员数据记录之间的关系特征或者出现解析不准确的情况时，通过迁移学习对人员关系源模型的关系种类集R进行优化，获得新关系集R′；步骤3：根据新关系集，获得目的模型。根据建模方法设计并实现了一个人员关系系统，该系统自动绘制人员关系模型。本发明通过挖掘社交网络中人员之间的新关系来优化给定的人员关系模型，并以可视化的形式展示。

Description

一种基于迁移学习的人员关系模型建模方法

技术领域

本发明涉及一种人员关系模型建模及可视化方法，特别是一种基于迁移学习的人员关系模型建模及可视化方法，属于知识模型领域。

背景技术

迁移学习作为机器学习的一大分支，本质上就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的，所以，通过迁移学习，可以将已经学到的模型参数，通过某种方式来分享给新模型从而加快并优化模型的学习效率。

传统的机器学习方法尤其是有监督学习，对数据的样本数量、数据分布的统一性、标签的完整性等都有着严苛的要求。在解决问题的过程中，传统的机器学习方法最常见的障碍在于训练模型过程中所需的海量数据。需要如此多的数据，原因在于机器在学习的过程中会在模型中遇到大量参数。在面对某一领域的具体问题时，通常可能无法得到构建模型所需规模的数据。

由于没有足够能力利用大数据快速进行模型的训练。利用迁移学习的思想，将那些大公司在大数据上已经训练好的模型迁移到给定任务中。针对这个任务，对模型进行微调，从而在大数据上训练出模型。

迁移学习是机器学习领域的一个重要分支。因此，其应用并不局限于特定的领域。凡是满足迁移学习问题情景的应用，迁移学习都可以发挥作用。比如，迁移学习已被广泛地应用于计算机视觉的研究中。特别地，在计算机视觉中，迁移学习方法被称为DomainAdaptation。Domain adaptation的应用场景有很多，比如图片分类、图片哈希等。再比如，由于文本数据有其领域特殊性，因此，在一个领域上训练的分类器，不能直接拿来作用到另一个领域上。这就需要用到迁移学习。例如，在电影评论文本数据集上训练好的分类器，不能直接用于图书评论的预测。这就需要进行迁移学习。

JointJs是一个HTML5的开源JavaScript库，用于创建完全互动式的图表，它极易上手且操作简单，并且支持所有的现代浏览器，用户可以使用JointJs已提供的图元素绘图，也可根据需求自定义一些图元素。除此之外，JointJs创建的图表就是SVG图形，它具有SVG的所有优点，但是用户却不必在意SVG的那些元素是怎么定义的，不用在意那些标签规则，用户更注重的是逻辑，只要通过封装好的方法把想法表现即可。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种借助迁移学习的方法来构建人员关系模型，分析社交网络中人员之间的潜在关系，读取方便快捷，避免使用庞大冗杂的数据库的一种基于迁移学习的人员关系模型建模及可视化方法。

为解决上述技术问题，本发明的一种基于迁移学习的人员关系模型建模方法，包括以下步骤：

步骤1：将数据集输入给定的人员关系源模型SourceModel，分析人员之间的关系；

步骤2：当源模型SourceModel无法解析人员数据记录之间的关系特征或者出现解析不准确的情况时，通过迁移学习对人员关系源模型SourceModel的关系种类集R进行优化，获得扩展标记关系种类集R′；

步骤3：根据扩展标记关系种类集R′，获得目的模型TargetModel；

步骤4：将目标模型TargetModel的分析结果以可视化模型展示出来。

本发明还包括：

1.人员关系源模型SourceModel具体为：

设人员数据集为D＝{x₁,x₂,…,x_m}，其中，x_i代表人员数据集D中第i条人员数据记录，标记关系种类集R为：

R＝{＜r₁,f₁(p,q)＞,＜r₂,f₂(p,q)＞,…＜r_n,f_n(p,q)＞}

其中，r_i为第i种关系，f_i(p,q)为bool型函数，返回人员数据记录p和q是否具有关系r_i，标记关系记录集合M为：

M＝{＜(p₁,q₁),r₁＞,＜(p₂,q₂),r₂＞,…＜(p_k,q_k),r_k＞}

其中＜(p_i,q_i),r_i＞代表人员p_i和q_i之间具有关系r_i，源模型SourceModel即为:将数据集D中的两条人员数据记录p和q组成二元组＜p,q＞,向SourceModel输入任意上述格式二元组，SourceModel能够准确判断两个人员＜p,q＞是否具有R中标记的关系，如果有，则输出具体关系。

2.迁移学习包括：当引入新的人员数据记录x进行测试时，当SourceModel无法解析人员数据记录x与数据集D中的人员数据记录y的关系特征或者出现解析不准确的情况，则创建一个新的关系种类r_n+1作为新关系种类，然后引入具有与人员数据记录x和y同类特征的人员数据记录构成辅助关系数据集M′：

M′＝{＜(p₁,q₁),r_n+1＞,＜(p₂,q₂),r_n+1＞,…＜(p_s,q_s),r_n+1＞}

然后使用TrAdaBoost算法，将M和M′作为该算法的输入，使源模型SourceModel完成迁移学习，扩展标记关系种类集为:

R′＝{＜r₁,f₁(p,q)＞,＜r₂,f₂(p,q)＞,…＜r_n,f_n(p,q)＞,＜r_n+1,f_n+1(p,q)＞}

3.TrAdaBoost算法包括：

步骤1：初始化权重向量，训练出一个弱分类器；

步骤2：通过计算分类器的错误率，对权重向量进行更新；

步骤3：依据新的权重向量，得到一个优化分类器；

步骤4：迭代步骤2和3，最后得到当前最优分类器。

4.目标模型TargetModel具体为：将数据集D中的两条人员数据记录p和q组成二元组＜p,q＞,向TargetModel输入任意上述格式二元组，TargetModel能够准确判断两个人员＜p,q＞是否具有R′中标记的关系，如果有，则输出具体关系。

5.将目标模型TargetModel的分析结果以可视化模型展示出来包括：

步骤1：创建集合S，向目标模型TargetModel中输入两条人员数据记录a和b，该模型会输出a和b之间的关系r,组成一个三元组＜a,b,r＞，表示人员数据记录a和b之间存在关系r,并将该三元组保存在集合S中；

步骤2：创建哈希表PIM作为人员身份表，其中键为人员的身份，值为一个用来绘制对应身份人员的图元类，类的属性表述该类人员所共有的画图属性，包含颜色，图标，标签等属性；

步骤3：扫描人员数据集D,在人员身份表PIM中，查询数据记录x_i的身份x_i-identify，若查询为空，则将x_i-identify作为键添加到PIM，然后创建一个图元类，并设置类的属性，并将这个类作为键x_i-identify的值；

步骤4：创建哈希表RM作为关系表，键为关系名称，值为一个用来绘制相关关系的连接线类，类的属性表述该类关系所共有的画图属性，包含颜色，线型(直线，曲线，折线)等属性；

步骤5：扫描关系种类集R′,在关系表RM中，查询数据记录r_i的名称r_i-name，若查询为空，则将r_i-name作为键添加到RM，然后创建一个连接线类，并设置类的属性，并将这个类作为键r_i-name的值；

步骤6：设计实现画图操作和图形编辑，图形编辑包括图元的复制、粘贴、模型的放大、缩小，将画图操作和图形编辑封装为一个系统,该系统能够实现人员关系模型的绘制与保存。

6.人员关系模型的绘制包括：

步骤1：读取集合S中的一个三元组＜a_i,b_i,r_i＞，识别人员a_i的身份a_i-identify,查询在PIM中键值等于a_i-identify的值，为人员a_i创建一个对象，继承父类PIM[a_i-identify]的属性；对人员b_i做相同处理；识别关系r_i的名称r_i-name，查询在RM中键值等于r_i-name的值，为关系r_i创建一个对象，继承父类RM[r_i-name]关系属性；

步骤2：在画布Paper上，将人员a_i和b_i实例化为图元对象Element,图元分为上下两部分，上半部分包含父类的身份名称label，颜色color,图标icon；下半部分包含人员的相关信息；将r_i实例化为连接线link,连接代表人员a_i和b_i的图元，在连接线上表述该关系的名称；

步骤3：继续处理集合S中其他三元组，直至全部完成，实现人员关系模型的可视化。

7.人员关系模型的保存包括：

步骤1：获取画布Paper上的所有图元对象Element，提取图元对象Element的属性，依据这些属性为每一个图元对象Element创建一个json对象；

步骤2：获取画布Paper上的所有连接线对象Link，提取连接线对象Link的相关属性，依据这些属性为每一个连接线对象Link创建一个json对象；

步骤3：通过Ajax将这些json对象从画布Paper前台传至后台，在后台接收json对象然后通过Java方法创建XML文件并将json对象的相关属性写入XML文件，实现人员关系模型的保存；

步骤4：在前台读取本地XML文件，获取XML文件中存储的图元对象Element和连接线对象Link的相关属性，在画布Paper上依据这些属性创建所有的图元对象Element和连接线对象Link，最终还原完整的人员关系模型。

本发明有益效果：本发明在给定的源模型基础上，通过迁移学习，挖掘出数据集中的新关系，优化该模型。目前迁移学习的应用范围主要集中在“计算机视觉”和“文本分类”两方面，本发明的主要内容是借助迁移学习的方法来构建人员关系模型，分析社交网络中人员之间的潜在关系。使用XML文件保存数据，读取方便快捷，避免使用庞大冗杂的数据库。本发明将人员之间的关系，以图形的形式进行展示，具有直观、形象、生动、具体等特点，可以使复杂的人员关系网络简单化、通俗化、形象化，使人一目了然，便于理解和比较。

附图说明

图1是一种基于迁移学习方法生成人员关系模型的建模方法；

图2是TrAdaBoost算法流程图；

图3是系统功能结构图；

具体实施方式

下面结合附图对本发明具体实施方式做进一步说明。

本发明的一种基于迁移学习的人员关系模型建模方法，实现方法为，在给定的源模型基础上，通过迁移学习，挖掘出数据集中的新关系种类，优化该模型，得到目标模型。具体步骤为：首先初始化权重向量，训练出一个弱分类器；其次通过计算该分类器的错误率，对权重向量进行更新；再次依据新的权重向量，得到一个优化分类器，迭代上述操作，最后得到当前最优分类器。根据建模方法设计并实现了一个人员关系系统，该系统自动绘制人员关系模型。通过上述方式，本发明通过挖掘社交网络中人员之间的新关系种类来优化给定的人员关系模型，并以可视化的形式展示。

如图1所示，在给定的源模型基础上，通过迁移学习，挖掘出数据集中的新关系，优化该模型。所述方法包括如下步骤：

步骤1：将数据集输入给定的源模型SourceModel，分析人员之间的关系；

步骤2：当源模型SourceModel无法解析人员数据记录之间的关系特征或者出现解析不准确的情况时，通过迁移学习对其关系进行优化，获得新关系集；

步骤3：根据新关系集，获得目的模型TargetModel；

根据上述建模方法，设计并实现了一个人员关系系统。

上述的一种基于迁移学习的人员关系模型建模方法的人员关系源模型SourceModel具体为：

R＝{＜r₁,f₁(p,q)＞,＜r₂,f₂(p,q)＞,…＜r_n,f_n(p,q)＞}

其中，r_i为第i种关系，f_i(p,q)为bool型函数，返回人员数据记录p和q是否具有关系r_i。标记关系记录集合M为：

M＝{＜(p₁,q₁),r₁＞,＜(p₂,q₂),r₂＞,…＜(p_k,q_k),r_k＞}

其中＜(p_i,q_i),r_i＞代表人员p_i和q_i之间具有关系r_i。所述源模型SourceModel即为:将数据集D中的两条人员数据记录p和q组成二元组＜p,q＞,向SourceModel输入任意上述格式二元组，SourceModel能够准确判断两个人员＜p,q＞是否具有R中标记的关系，如果有，则输出具体关系。

上述的一种基于迁移学习的人员关系模型建模方法的迁移学习的具体实现步骤为：

步骤1：模型迁移当引入新的人员数据记录x进行测试时，SourceModel无法解析人员数据记录x与其他人员数据记录y的关系特征或者出现解析不准确的情况，则创建一个新的关系种类r_n+1作为新关系。然后引入较多条具有与人员数据记录x和y同类特征的人员数据记录构成辅助关系数据集：

M'＝{＜(p₁,q₁),r_n+1＞,＜(p₂,q₂),r_n+1＞,…＜(p_s,q_s),r_n+1＞}

然后使用TrAdaBoost算法，将M和M'作为该算法得到的最优分类器的输入，使源模型SourceModel完成迁移学习，输出的扩展标记关系种类集为:

使源模型得到优化。

步骤2：模型应用具体是设经过迁移学习后的目标模型为TargetModel,当向目标模型中输入两条人员数据记录a和b，该模型会输出a和b之间的关系r,这些数据组成一个三元组＜a,b,r＞，表示人员数据记录a和b之间存在关系r,并将该三元组保存在集合S中。

如图2所示，步骤1中TrAdaBoost算法的具体实现步骤为：

步骤1：设X_b为源样例空间，X_a为辅助样例空间。源样例空间这里就是后面引入的关系记录数据集M'的组件<p,q>集合，辅助样例空间就是原有的关系记录数据集M的组件<p,q>集合。设Y＝{0，1}为标签空间，0代表p与q之间的关系不是r_n+1，1代表p与q之间的关系是r_n+1。这样构成训练数据现将训练数据划分为两个数据集：

其中c(x)代表样本数据x的真实所属标签(0/1)

步骤2：初始化权重向量其中

步骤3：设迭代循环N次，最大迭代次数N根据计算机的性能而定，设置参数

步骤4：迭代循环N次，设t＝1，2，……，N，为当前循环轮数，最大迭代次数N根据计算机的性能而定，循环体内具体为：

步骤4.1：求权重分布

步骤4.2：使用具有权值分布p^t的训练数据集学习，得到可以应用到测试集合上的分类器h_t:X→Y

步骤4.3：计算h_t在T_b上的错误率：

步骤4.4：设置参数

步骤4.5：设置新的权重向量

步骤5：输出最终分类器

上述的一种基于迁移学习的人员关系模型建模方法设计并实现一个人员关系系统的具体实现为：

步骤1：创建哈希表PIM(Personnel Identification Map)作为人员身份表，其中键(Key)为人员的身份(Identify)，值(Value)为一个用来绘制相关身份人员的图元类，类的属性表述该类人员所共有的画图属性，包含颜色，图标，标签等属性。

步骤2：扫描人员数据集D,在人员身份表PIM中，查询数据记录x_i的身份x_i-identify，若查询为空，则将x_i-identify作为键添加到PIM，然后创建一个图元类，并设置类的属性，并将这个类作为键x_i-identify的值。

步骤3：创建哈希表RM(Relationship Map)作为关系表，键(Key)为关系名称(Relationship Name)，值(Value)为一个用来绘制相关关系的连接线类，类的属性表述该类关系所共有的画图属性，包含颜色，线型(直线，曲线，折线)等属性。

步骤4：扫描关系种类集R,在关系表RM中，查询数据记录r_i的名称r_i-name，若查询为空，则将r_i-name作为键添加到RM，然后创建一个连接线类，并设置类的属性，并将这个类作为键r_i-name的值。

步骤5：设计实现常用的画图操作，包括图元的复制、粘贴、模型的放大、缩小等，将之封装为一个系统,该系统能够实现人员关系模型的绘制与保存。

根据上述的人员关系系统，步骤5中人员关系模型的绘制具体是读取集合S中三元组＜a,b,r＞，并将其在画布上实例化，完成人员关系模型的可视化，其具体实现步骤为：

步骤1：读取集合S中的一个三元组＜a_i,b_i,r_i＞，识别人员a_i的身份a_i-identify,查询在PIM中键值等于a_i-identify的值，为人员a_i创建一个对象，继承父类PIM[a_i-identify]的属性；对人员b_i做相同处理。识别关系r_i的名称r_i-name，查询在RM中键值等于r_i-name的值，为关系r_i创建一个对象，继承父类RM[r_i-name]关系属性。

步骤2：在画布Paper上，将人员a_i和b_i实例化为图元对象Element,图元分为上下两部分，上半部分包含父类的身份名称label，颜色color,图标icon.下半部分包含人员的相关信息。将r_i实例化为连接线link,连接代表人员a_i和b_i的图元，在连接线上表述该关系的名称。

步骤5中人员关系模型的保存具体是将画布上已经绘制的模型的相关信息保存在后台的XML文件中，并支持通过XML文件在空白画布上还原模型，具体实现步骤为：

步骤1：获取画布Paper上的所有图元对象Element，提取图元对象Element的相关属性，依据这些属性为每一个图元对象Element创建一个json对象。

步骤2：获取画布Paper上的所有连接线对象Link，提取连接线对象Link的相关属性，依据这些属性为每一个连接线对象Link创建一个json对象。

步骤3：通过Ajax将这些json对象从画布Paper前台传至后台，在后台接收json对象然后通过Java方法创建XML文件并将json对象的相关属性写入XML文件，实现人员关系模型的保存。

本发明具体实施方式还包括：

本发明包括以下步骤：

步骤3：根据新关系集，获得目的模型TargetModel；

根据上述建模方法，设计并实现了一个人员关系系统。

上述的一种基于迁移学习的人员关系模型建模方法，人员关系源模型SourceModel具体为：

R＝{＜r₁,f₁(p,q)＞,＜r₂,f₂(p,q)＞,…＜r_n,f_n(p,q)＞}

M＝{＜(p₁,q₁),r₁＞,＜(p₂,q₂),r₂＞,…＜(p_k,q_k),r_k＞}

迁移学习的具体实现步骤为：

M'＝{＜(p₁,q₁),r_n+1＞,＜(p₂,q₂),r_n+1＞,…＜(p_s,q_s),r_n+1＞}

然后使用TrAdaBoost算法，将M和M'作为该算法的输入，使源模型SourceModel完成迁移学习，扩展标记关系种类集为:

R＝{＜r₁,f₁(p,q)＞,＜r₂,f₂(p,q)＞,…＜r_n,f_n(p,q)＞,＜r_n+1,f_n+1(p,q)＞}

使源模型得到优化。

TrAdaBoost算法的具体实现步骤为：

步骤1：初始化权重向量，训练出一个弱分类器。

步骤2：通过计算分类器的错误率，对权重向量进行更新

步骤3：依据新的权重向量，得到一个优化分类器

步骤4：迭代步骤2和3，最后得到当前最优分类器

所述设计并实现一个人员关系系统的具体实现为：

步骤5中人员关系模型的绘制具体是读取集合S中三元组＜a,b,r＞，并将其在画布上实例化，完成人员关系模型的可视化，其具体实现步骤为：

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于迁移学习的人员关系模型建模方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于迁移学习的人员关系模型建模方法，其特征在于：所述人员关系源模型SourceModel具体为：

R＝{<r₁,f₁(p,q)>,<r₂,f₂(p,q)>,…<r_n,f_n(p,q)>}

M＝{<(p₁,q₁),r₁>,<(p₂,q₂),r₂>,…<(p_k,q_k),r_k>}

其中<(p_i,q_i),r_i>代表人员p_i和q_i之间具有关系r_i，源模型SourceModel即为:将数据集D中的两条人员数据记录p和q组成二元组<p,q>,向SourceModel输入任意上述格式二元组，SourceModel能够准确判断两个人员<p,q>是否具有R中标记的关系，如果有，则输出具体关系。

3.根据权利要求1所述的一种基于迁移学习的人员关系模型建模方法，其特征在于：所述迁移学习包括：当引入新的人员数据记录x进行测试时，当SourceModel无法解析人员数据记录x与数据集D中的人员数据记录y的关系特征或者出现解析不准确的情况，则创建一个新的关系种类r_n+1作为新关系种类，然后引入具有与人员数据记录x和y同类特征的人员数据记录构成辅助关系数据集M′：

M′＝{<(p₁,q₁),r_n+1>,<(p₂,q₂),r_n+1>,…<(p_s,q_s),r_n+1>}

R′＝{<r₁,f₁(p,q)>,<r₂,f₂(p,q)>,…<r_n,f_n(p,q)>,<r_n+1,f_n+1(p,q)>}

4.根据权利要求3所述的一种基于迁移学习的人员关系模型建模方法，其特征在于：TrAdaBoost算法包括：

步骤1：初始化权重向量，训练出一个弱分类器；

步骤2：通过计算分类器的错误率，对权重向量进行更新；

步骤3：依据新的权重向量，得到一个优化分类器；

步骤4：迭代步骤2和3，最后得到当前最优分类器。

5.根据权利要求1所述的一种基于迁移学习的人员关系模型建模方法，其特征在于：目标模型TargetModel具体为：将数据集D中的两条人员数据记录p和q组成二元组<p,q>,向TargetModel输入任意上述格式二元组，TargetModel能够准确判断两个人员<p,q>是否具有R′中标记的关系，如果有，则输出具体关系。

6.根据权利要求1所述的一种基于迁移学习的人员关系模型建模方法，其特征在于：将目标模型TargetModel的分析结果以可视化模型展示出来包括：

步骤1：创建集合S，向目标模型TargetModel中输入两条人员数据记录a和b，该模型会输出a和b之间的关系r,组成一个三元组<a,b,r>，表示人员数据记录a和b之间存在关系r,并将该三元组保存在集合S中；

7.根据权利要求6所述的一种基于迁移学习的人员关系模型建模方法，其特征在于：所述人员关系模型的绘制包括：

步骤1：读取集合S中的一个三元组<a_i,b_i,r_i>，识别人员a_i的身份a_i-identify,查询在PIM中键值等于a_i-identify的值，为人员a_i创建一个对象，继承父类PIM[a_i-identify]的属性；对人员b_i做相同处理；识别关系r_i的名称r_i-name，查询在RM中键值等于r_i-name的值，为关系r_i创建一个对象，继承父类RM[r_i-name]关系属性；

8.根据权利要求6所述的一种基于迁移学习的人员关系模型建模方法，其特征在于：所述人员关系模型的保存包括：