CN115809432A

CN115809432A - 人群社会关系提取方法、设备及存储介质

Info

Publication number: CN115809432A
Application number: CN202211453377.3A
Authority: CN
Inventors: 郭克华; 李雪滢; 胡斌
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-03-17
Anticipated expiration: 2042-11-21
Also published as: CN115809432B

Abstract

本发明公开了一种人群社会关系提取方法、设备及存储介质，使用预训练的语言模型提取文本信息的特征向量，得到文本特征向量；提取头部实体的特征向量和尾部实体的特征向量，对头部实体的特征向量和尾部实体的特征向量进行编码，得到编码后的特征向量；融合文本特征向量和编码后的特征向量，并对融合后的特征进行归一化处理；将归一化后的特征作为跨域少样本模块的输入，预测所述文本信息和面部图像之间的社会关系，将概率最大的社会关系作为输出结果。本发明无需大量的带标注的数据，节省了人力和物力，提高了社会关系提取精度。本发明通过将面部信息嵌入到文本信息中，可以尽快消除不可能存在的社会关系，提高了社会关系预测的鲁棒性。

Description

人群社会关系提取方法、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是一种人群社会关系提取方法、设备及存储介质。

背景技术

深度学习在图像处理领域的巨大成功在很大程度上依赖于大规模的有标签数据集的出现，但是，当样本数量有限时，深度学习模型很容易出现过拟合。因此，少样本学习是一个十分具有发展前景和挑战的计算机视觉方向。它模仿人类认知新事物的思维模式，即通过少数的几个例子就能够对一个从未见过的对象进行准确识别，这似乎是一种教会机器如何像人类一样认知新事物的有效方法，进一步拉近了人工智能与人类智慧之间的距离。经典的少样本学习从源域迁移知识到目标域，源域和目标域处于同一个域，分布基本一致^[1]。然而，在许多应用中，源域和目标域之间存在域间隔，跨域少样本从源域有限种类和数量的样本中学习到一些知识并推演到目标域新的类别中是很具有挑战和实际意义的。针对该问题的研究大多还是停留在分类任务上，并且现有的方法仍不能令人满意，远远达不到工业应用水准。一方面，样本的不足必然带来模型泛化能力差的问题；另一方面，在源域上训练模型推广到目标域是极其困难的。

跨域少样本学习的目的是提高样本的利用率，探索如何利用少量样本就使模型达到与以往的深度学习模型相媲美甚至更优的性能。如今面部编码的关键是依靠庞大的数据集和重复的训练，但是现实生活中经常会存在样本数量不足的情况，感染者接触者的照片会更少，远不能支持深度学习的训练条件，并且使用较少的样本难以获得推广性较好的识别性能，许多面部识别算法在实际应用中往往需要庞大的网络结构与海量的训练数据，面部样本采集困难导致的训练样本不足，使得这些面部识别算法在实际应用中并未得到其理想的识别效果。所以本实施例利用跨域少样本学习的方法，对面部图像进行编码，具有较为重要的理论意义与实践意义。

社会关系是人类日常生活中特有的关系。它们定义了两个人在物理或虚拟世界中的联系。社会关系提取旨在从文本、个人专辑和电影等中推断出两个人之间的社会关系。它可以捕捉社会联系，使机器更好地理解人类行为。在疫情常态化的今天，社会关系提取为寻找感染者的接触者提供便利，比如通过社会关系我们可以快速寻找到与感染者可能有接触的人员，有效定位疫情风险人群，预防了疫情的扩散。

一般来说，现有的社会关系抽取方法只考虑从文本或图像等单峰信息中抽取社会关系，而忽略了多峰信息的高耦合性，样本量也不足。

总而言之，现有方法存在以下缺陷：

1)传统的方法需要大量的带标注的数据，不仅需要耗费大量的人力物力，而且由于感染者的面部信息是不足的，数据集很可能出现长尾分布问题，影响最终的判断结果。

2)现有的基于面部信息定位疫情风险人群方法较少，没有一个经过预训练的模型作为后续测试的支撑，导致对风险人群的定位不明确。

3)现有的方法只考虑从文本或图像等单模态信息中提取社会关系，而忽略了多模态信息中的高耦合，不能很好地对存在的社会关系进行提取。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种人群社会关系提取方法、设备及存储介质，

为解决上述技术问题，本发明所采用的技术方案是：一种人群社会关系提取方法，包括以下步骤：

S1、给定一个元组(s,h,t,g_h,g_t)，其中s代表文本信息，h表示头部实体，t表示尾部实体，g_h表示包含头部实体的面部图像，g_t表示包含尾部实体的面部图像；所述头部实体指参照者，所述尾部实体指需要判断的与参照者存在社会关系的人；

S2、使用预训练的语言模型提取所述文本信息的特征向量，得到文本特征向量；对所述头部实体的面部图像和尾部实体的面部图像进行编码，得到编码后的特征向量；

S3、融合所述文本特征向量和编码后的特征向量，并对融合后的特征进行归一化处理；

S4、将归一化后的特征作为跨域少样本模块的输入，预测所述文本信息和面部图像之间的社会关系，将概率最大的社会关系作为输出结果。

本发明能够在面部图像和文本信息不足的情况下，充分提取面部信息，和文本数据相结合有效提取社会关系，以便定位相关人群。本发明无需大量的带标注的数据，节省了人力和物力，提高了社会关系提取精度。本发明通过将面部信息嵌入到文本信息中，可以尽快消除不可能存在的社会关系，提高了社会关系预测的鲁棒性。

步骤S2中，所述预训练的语言模型为Bert模型。Bert作为一种预训练模型，在特定场景使用时不需要用大量的语料来进行训练，节约时间效率高效，泛化能力较强。此外，Bert是一种端到端的模型，不需要调整网络结构，只需要在最后加上特定于下游任务的输出层。

步骤S2中，编码后的特征向量的获取过程包括：

对于一张包含两个存在社会关系的人的图片，提取图片中头部实体的面部图像和尾部实体的面部图像；

将头部实体的面部图像和尾部实体的面部图像输入FaceNet网络，得到编码后的特征向量。

FaceNet网络使用经过训练的深度卷积网络，模型准确率高，通用性好。

本发明中，步骤S3中，利用跨模态编码器融合所述文本特征向量和编码后的特征向量。

所述跨模态编码器包括多个级联的卷积模块，最后一个卷积模块与至少一个级联的全连接层连接。跨模态编码器将文本特征向量和面部特征向量作为输入进行融合，结合两者的长处，以达到互补短处的目的，其中使用多个卷积模块能够对特征融合方法中需要的权重参数进行学习，不用再人为进行参数设置。

步骤S4中，对所述跨域少样本模块的输入进行N way K shot设置，每一次训练包括N个类别，每个类别有K个样本，预测所述文本信息和面部图像之间的社会关系。

本发明还提供了一种终端设备，包括存储器、处理器及存储在存储器上的计算机程序；所述处理器执行所述计算机程序，以实现本发明上述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序/指令；所述计算机程序/指令被处理器执行时实现本发明上述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：本发明针对现有的仅根据文本信息提取社会关系存在的问题，在疫情背景下，提出了一种文本信息与面部信息相结合的方法，同时结合跨域少样本学习，与现有方法相比，本发明不但更加准确地估计出人物存在的社会关系，而且有效改善了疫情中存在的溯源困难问题。经过实验证明，本发明的可行性高，能有效判断人物间存在的社会关系。

附图说明

图1为本发明实施例1方法原理图；

图2为本发明实施例1原型网络原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中，术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性，而是仅仅用于对不同的元件进行区分。在本文中，术语“一”、“一个”和其它类似词语并不意在表示只存在一个所述事物，而是表示有关描述仅仅针对所述事物中2的一个，所述事物可能具有一个或多个。在本文中，术语“包含”、“包括”和其它类似词语意在表示逻辑上的相互关系，而不能视作表示空间结构上的关系。例如，“A包括B”意在表示在逻辑上B属于A，而不表示在空间上B位于A的内部。另外，术语“包含”、“包括”和其它类似词语的含义应视为开放性的，而非封闭性的。例如，“A包括B”意在表示 B属于A，但是B不一定构成A的全部，A还可能包括C、D、E等其它元素。

实施例1

本实施例结合文本和图像中的多模态特征，解决了疫情背景下风险人群定位困难的问题。由于单个模态提供的信息有限，结合文本和图像的信息能有效提取出人物间的社会关系。，本实施例提出了基于跨域少样本面部学习的社会关系提取方法，其中编码器部分由3部分组成，包括风险人群文本编码器，风险人群面部编码器和跨模态编码器。此外，跨域少样本学习部分利用经典的原型网络，采用少样本学习的 N-way k-shot设置，分类部分采用欧几里得距离，得到图片中人物对应的社会关系，如图1和图2所示。

本实施例的编码器由三部分组成：(1)风险人群文本编码器。在风险人群文本编码器中，每个句子由预训练好的BERT模型来进行编码，将第一个词牌的BERT编码向量经过一个全连接层得到句子特征表示。(2)风险人群面部编码器。面部编码器建立在FaceNet基础上，采用了GoogleNet的inception网络作为主干结构。不同的是，本实施例去掉了inception网络的最后一层全连接层并且从最后一个平均池化层中提取特征。(3)跨模态编码器。跨模态编码器整合句子特征表示和面部图像特征表示，本实施例中对两个表示进行融合然后应用了一个标准化层来避免梯度消失或梯度爆炸的问题。

融合特征的目的就是结合不同特征的长处，以达到互补短处的目的，所以更好地融合文本特征和面部特征能提高模型的预测能力。但是，现有方法大多为简单的特征拼接，这为估计社会关系带来了巨大的挑战，为了准确定位风险人群，本实施例提出了一种特征融合方法，该方法能提高模型对感染者社会关系提取的准确性。

X＝LayerNorm[O] (2)

本实施例为每个输入增加一个额外的权重w_i，可以通过神经网络进行学习，其中，I_i包括文本特征和面部图像特征，根据公式(1)可以得到将文本特征和面部特征融合后的特征O，然后根据公式(2)对融合后的特征进行归一化处理得到X，为后续的跨域小样本分类提供支持。

在现有方法中，因为只考虑到文本数据的单峰信息，在对人物之间存在的社会关系进行预测时，可能会存在将错误预测情况较多的现象，比如兄弟关系被预测成妻子关系等，但是如果考虑到面部图像，这种类型的预测错误将不再发生，因为有了面部信息能识别出图像中的面部都是男性。本实施例的方法有效解决了一些只使用文本数据时会导致的问题，通过将面部信息嵌入到文本信息中，，可以尽快消除不可能存在的社会关系，提高社会关系预测的鲁棒性，进一步为疫情防控中感染病例溯源提供支持。当然，为了获得更好的特征提取器，让后续感染者社会关系提取更加容易，也可以采用本实施例的方法提前在四大名著的文本和图像上进行预训练。本实施例具体流程如下：

第一步：给定一个元组(s,h,t,g_h,g_t),其中s代表文本信息，h表示头部实体，指感染者(参照者)，t表示尾部实体，指需要判断的与感染者存在何种社会关系的人，g_h表示包含头部实体的面部图像，g_t表示包含尾部实体的面部图像。

第二步：风险人群文本编码器使用预先训练的语言模型BERT作为基础，从预训练的语言模型中提取文本特征向量，其中每个文本信息将被编码为一个向量。

第三步：风险人群面部编码器使用FaceNet网络作为主干网络用于提取面部特征，输入一张包含两个存在一定社会关系的人的图片，将图片中的g_h和g_t截取出来并调整大小为160*160像素的图片，然后将裁剪后的图片分别送入FaceNet网络，FaceNet网络的输出是对面部进行编码后的特征向量，将g_h和g_t送入FaceNet网络后，分别得到编码后的头部实体的向量和尾部实体的向量。

第四步：使用提出的跨模态编码器，它由六个卷积模块和两个全连接层组成，最后一个全连接层输出特征融合所需要的权重参数w_i，将文本特征向量和编码后的面部特征向量(即编码后的头部实体的向量和尾部实体的向量)进行集成，即首先将文本特征和面部特征进行融合，然后对融合的特征进行归一化处理以避免梯度消失或爆炸。

第五步：将处理后的特征送入跨域少样本模块^[4]，使用N way K shot^[5]设置，对文本和面部中存在的社会关系进行预测，将概率最大的关系作为输出结果。

表1本实施例方法与原型网络(BERT)正确率比较(％)

方法	5 way 1 shot	5way 3 shot	3 way 1 shot	3 way 3 shot
					原型网络(BERT)	73.93	75.03	83.84	86.75
本实施例方法	79.07	79.89	87.58	90.12

本实施例采集了300张面部图片和他们日常的对话作为数据集，同时，为了验证本实施例方法的有效性，使用一个基于BERT的模型与本实施例方法进行对比，BERT是一种预训练的语言模型，已被证明在许多自然语言处理任务中非常有前途。实验中，本实施例考虑了四种不同的少样本学习设置:5 way 1 shot、5way 3 shot、3 way 1 shot和3 way 3shot，从表1可以看出本实施例的方法与BERT模型相比，准确率取得了不同程度的提升。

实施例2

本发明实施例2提供一种对应上述实施例1的终端设备，终端设备可以是用于客户端的处理设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述实施例的方法。

本实施例的终端设备包括存储器、处理器及存储在存储器上的计算机程序；处理器执行存储器上的计算机程序，以实现上述实施例1方法的步骤。

在一些实现中，存储器可以是高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

在另一些实现中，处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器，在此不做限定。

实施例3

本发明实施例3提供了一种对应上述实施例1的计算机可读存储介质，其上存储有计算机程序/指令。计算机程序/指令被处理器执行时，实现上述实施例1方法的步骤。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

参考文献：

[1]Chen W Y,Liu Y C,Kira Z,et al.A Closer Look at Few-shotClassification[C]//International Conference on Learning Representations.2019.

[2]Tseng H Y,Lee H Y,Huang J B,et al.Cross-domain few-shotclassification via learned feature-wise transformation[J].arXiv preprintarXiv:2001.08735,2020.

[3]Cheng P P,Hariharan B.Self-training for Few-shot Transfer AcrossExtreme Task Differences[C]//International Conference on LearningRepresentations.2021.

[4]Snell,J.；Swersky,K.；and Zemel,R.2017a.Prototypical Networks forFew-shot Learning.In NIPS, 4077–4087.

[5]B.Lake,R.Salakhutdinov,J.Gross,et al.One shot learning of simplevisual concepts[C].Proceed- ings of the Annual Meeting of the CognitiveScience Society,2011:2568-2573.

Claims

1.一种人群社会关系提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的人群社会关系提取方法，其特征在于，步骤S2中，所述预训练的语言模型为Bert模型。

3.根据权利要求1所述的人群社会关系提取方法，其特征在于，步骤S2中，编码后的特征向量的获取过程包括：

4.根据权利要求1所述的人群社会关系提取方法，其特征在于，步骤S3中，利用跨模态编码器融合所述文本特征向量和编码后的特征向量。

5.根据权利要求4所述的人群社会关系提取方法，其特征在于，所述跨模态编码器包括多个级联的卷积模块，最后一个卷积模块与至少一个级联的全连接层连接。

6.根据权利要求1所述的人群社会关系提取方法，其特征在于，步骤S4中，对所述跨域少样本模块的输出进行N way K shot设置，预测所述文本信息和面部图像之间的社会关系。

7.一种终端设备，包括存储器、处理器及存储在存储器上的计算机程序；其特征在于，所述处理器执行所述计算机程序，以实现权利要求1～6之一所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序/指令；其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1～6之一所述方法的步骤。