CN114817516A

CN114817516A - 零样本条件下基于逆向匹配的画像映射方法、装置和介质

Info

Publication number: CN114817516A
Application number: CN202210448769.4A
Authority: CN
Inventors: 任博雅; 吕远; 李婧蕾; 佟玲玲; 井雅琪; 徐雅静; 段运强; 孙旷怡; 余翠玲
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-29

Abstract

本发明涉及一种零样本条件下基于逆向匹配的画像映射方法，包括在数据特征标签和画像标签两个不同体系间建构双相关文本语料库，使用逆向匹配对语料库进行筛选修正；通过人工标注构建分类语料库，并训练模型建立画像体系间的映射关系；采用基于持续响应衰减的更新机制，并结合标签历史状态对时序变化的画像相关更新数据进行修正。本方法从扩展数据的角度出发，采用基于逆向匹配的文本库构建方法，引入与原始标签相关的外部文本数据扩展并增强标签的语义表达，再引入与用户画像相关的外部数据进行标注建立扩展标签和标注数据之间的联系，从而挖掘出原始特征标签隐含的丰富含义，达到从少量标签序列中计算目标画像的目的。

Description

零样本条件下基于逆向匹配的画像映射方法、装置和介质

技术领域

本发明涉及用户画像领域，特别涉及零样本条件下基于逆向匹配的画像映射方法、装置和介质。

背景技术

随着互联网的飞速发展，网络数据呈现爆炸式增长，合理地对网络大规模数据进行批量、准确、可靠的分类、画像描述、群组分析有助于提升网络舆情和访问态势分析等技术的研究发展水平。近年来，自然语言处理技术成为解决网络信息增速快、复杂性高与人工标注低效率、不稳定之间矛盾的主要手段之一，尤其是针对海量网络数据，使用基于自然语言处理的画像技术可以更加高效、快速、精细化的分析日志数据，提升不同场景下的分析处置效率。

但是，随着信息安全的不断发展与数据安全、隐私保护相关领域规范的不断完善，在包含特殊信息、需脱敏数据、隐私数据等数据保护场景的画像任务中取得完整的样本数据的难度在日益提升，因此，在仅有少量与访问内容相关的特征标签却没有任何原始文本数据的零样本条件下，通常的画像技术所依赖的训练数据无法获取，后续特征工程也就难以为分类器提供有效、可靠的分类特征，这对现有的用户画像任务带来了极大的挑战。

现有的用户画像技术主要有两类方法：一类是基于深度学习的方法，如CNN、RNN、LSTM等；另一类是基于规则的方法，如组合标签技术。通过特征工程分析、标注数据训练模型的分类特征，或者通过经验法分析大量数据来完成用户画像任务。但在隐私保护等场景下，待分析的日志数据中不含用户访问的原始文本数据、仅提供与访问数据相关的少量信息标签——称为原始标签，因此，在这种已知数据的信息缺失和不完整的条件下，原始标签不足以支撑用户画像的特征分析，也无法直接人工标注原始标签对应的用户画像分类。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供零样本条件下基于逆向匹配的画像映射方法、装置和介质。

本发明解决上述技术问题的技术方案如下：

一种零样本条件下基于逆向匹配的画像映射方法，所述方法包括：

S1、根据目标画像体系标签搜集外部文本知识，构建文本语料库，采用无监督的方式扩充已知特征标签以增加得到的文本语料库中特征标签的命中率，得到扩展特征词典；

S2、基于所述扩展特征词典，对所述文本语料库中的样本进行筛选，筛去不包含所述扩展特征词典中特征的样本，逆向构建已知特征标签-目标画像体系双相关的语料库，对所述已知特征标签-目标画像体系双相关的语料库进行人工数据标注，得到训练集；

S3、基于所述扩展特征词典，将所述训练集转化为样本的特征表示，建立所述特征标签与所述训练集中的训练文本的映射关系，以所述已知特征标签-目标画像体系双相关的语料库中的标注样本为中间媒介，训练从所述特征标签到目标画像标签的分类器，得到映射模型；

S4、将利用所述分类器对从所述特征标签到目标画像标签进行分类的分类结果与历史分类状态相结合，得到所述已知特征标签到所述目标画像标签的映射。

本方法发明的有益效果是：提出了一种零样本条件下基于逆向匹配的画像映射方法，包括在数据特征标签和画像标签两个不同体系间建构双相关文本语料库，使用逆向匹配对语料库进行筛选修正；通过人工标注构建分类语料库，并训练模型建立画像体系间的映射关系；采用基于持续响应衰减的更新机制，并结合标签历史状态对时序变化的画像相关更新数据进行修正。本方法从扩展数据的角度出发，采用基于逆向匹配的文本库构建方法，引入与原始标签相关的外部文本数据扩展并增强标签的语义表达，再引入与用户画像相关的外部数据进行标注建立扩展标签和标注数据之间的联系，从而挖掘出原始特征标签隐含的丰富含义，达到从少量标签序列中计算目标画像的目的。

本发明解决上述技术问题的另一技术方案如下：

一种零样本条件下基于逆向匹配的画像映射装置，所述装置包括：

构建模块，用于根据目标画像体系标签搜集外部文本知识，构建文本语料库，采用无监督的方式扩充已知特征标签以增加得到的文本语料库中特征标签的命中率，得到扩展特征词典；

训练模块，用于基于所述扩展特征词典，对所述文本语料库中的样本进行筛选，筛去不包含所述扩展特征词典中特征的样本，逆向构建已知特征标签-目标画像体系双相关的语料库，对所述已知特征标签-目标画像体系双相关的语料库进行人工数据标注，得到训练集；

建模模块，用于基于所述扩展特征词典，将所述训练集转化为样本的特征表示，建立所述特征标签与所述训练集中的训练文本的映射关系，以所述已知特征标签-目标画像体系双相关的语料库中的标注样本为中间媒介，训练从所述特征标签到目标画像标签的分类器，得到映射模型；

映射模块，用于将利用所述分类器对从所述特征标签到目标画像标签进行分类的分类结果与历史分类状态相结合，得到所述已知特征标签到所述目标画像标签的映射。

此外，本发明还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现上述技术方案中任一项所述方法的步骤。

本发明还提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现上述技术方案中任一项所述方法的步骤。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的一种零样本条件下基于逆向匹配的画像映射方法的流程示意图；

图2为本发明另一实施例所述的一种零样本条件下基于逆向匹配的画像映射装置的模块示意图；

图3为本发明另一实施例所述的一种零样本条件下基于逆向匹配的画像映射方法的实施示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

基于以上的背景，本发明通过一种新的基于原始标签逆向扩展的文本库构建方法，解决了零样本场景下传统画像技术所依赖的可靠数据难以获取的问题，并实现了不同业务场景下用户级归属程度与置信度的量化描述。

如图1本发明实施例所述的一种零样本条件下基于逆向匹配的画像映射方法，包括以下步骤：

S1、根据目标画像体系标签搜集外部文本知识，构建文本语料库，采用无监督的方式扩充已知特征标签以增加得到的文本语料库中特征标签的命中率，得到扩展特征词典。

S2、基于所述扩展特征词典，对所述文本语料库中的样本进行筛选，筛去不包含所述扩展特征词典中特征的样本，逆向构建已知特征标签-目标画像体系双相关的语料库，对所述已知特征标签-目标画像体系双相关的语料库进行人工数据标注，得到训练集。

S3、基于所述扩展特征词典，将所述训练集转化为样本的特征表示，建立所述特征标签与所述训练集中的训练文本的映射关系，以所述已知特征标签-目标画像体系双相关的语料库中的标注样本为中间媒介，训练从所述特征标签到目标画像标签的分类器，得到映射模型。

进一步地，所述S1中具体包括：

对网页信息特征标签集合中的特征标签进行分词，得到特征词典的种子集。

使用预处理后的图像建立图像库，利用互联网文本信息无监督预训练得到词向量模型。

将所述特征词典种子集中的词语依次输入所述词向量模型中，得到所述特征词典种子集中的词语的近义词，将所述近义词加入所述特征词典，得到所述扩展特征词典。

进一步地，所述S2中具体包括：

根据目标IP画像体系中的IP画像标签，搜集与所述IP画像标签相关的主流网站及应用程序APP；

利用爬虫工具爬取所述主流网站和所述应用程序APP的非结构化文本信息，构建目标画像域的文本语料库。

根据所述扩展特征词典，使用AC自动机对所述文本语料库进行筛选。

进一步地，所述S3中具体包括：

人工对所述已知特征标签-目标画像体系双相关的语料库进行标注，得到训练集。

根据所述扩展特征词典生成特征标签的向量表示。

使用监督分类模型对每个所述IP画像标签进行映射建模。

进一步地，所述S4中具体包括：

基于网页信息特征标签集合中的特征标签生成向量，使用所述映射模型，对当前时段更新的所述目标IP画像体系中的IP画像标签计算IP画像；

根据当前时段计算得到的所述IP画像和前一时刻的综合历史状态，计算当前时刻用户的最终的综合分组归属程度预测状态，并为下一时刻的历史状态进行迭代；

根据归属阈值和所述当前时刻用户的最终的综合分组归属程度预测状态，得到所述IP画像归属判别标签，其中所述归属阈值由所有所述IP画像的标签值进行计算分级得到。

应理解，上述实施例从扩展数据的角度出发解决零样本条件下信息不足的问题，采用基于逆向匹配的文本库构建方法，引入与原始标签相关的外部文本数据扩展并增强标签的语义表达，再引入与用户画像相关的外部数据进行标注，之后通过统计命中率的方式建立扩展标签和标注数据之间的联系，从而挖掘出原始特征标签隐含的丰富含义，达到从少量标签序列中计算目标画像的目的。

具体地，如图3所示，包括如下步骤：

步骤(1)：根据目标画像体系标签搜集外部文本知识构建文本语料库，为了增加文本语料库中特征标签的命中率，采用无监督的方式扩充已知特征标签，构建扩展特征词典。

步骤(2)：基于步骤(1)得到的扩展特征词典，对文本语料库中的样本进行筛选，筛去不包含扩展特征词典中特征的样本，逆向构建已知特征标签-目标画像体系双相关的语料库对，语料库进行人工数据标注，得到目标画像体系标签的标注训练集。

步骤(3)：基于步骤(1)中的扩展特征词典，将步骤(2)中得到的训练集转化为样本的特征表示，建立特征标签与训练文本的映射关系，以语料库中的标注样本为中间媒介，训练从特征标签到目标画像标签的分类器，得到映射关系建模；

步骤(4)：由于语料库中某些样本包含的特征标签较少，会形成稀疏表示，造成步骤(3)中的分类结果不够准确，使用分类结果与历史分类状态相结合的方法降低分类错误的影响，得到有效的已知特征标签到目标画像标签的映射。

为了更好的描述本方法，定义变量如下：

1)网页信息特征标签集合记为F＝{f₁,f₂,f₃,f₄,…,f_n}，其中f_i的形式通常为一个词语或短语。

2)目标画像体系下各类别标签集合记为L＝{l₁,l₂,,…,l_m}。

3)文本语料库集合记为C＝{c₁,c₂,…,c_y}，其中c_i的形式为一条文本。

下面将对每个步骤进行具体的说明：

步骤(1)：构建源域特征词典。

(1.1)：对F中的特征标签进行分词，构建特征词典的种子集W_seed＝w₁,w₂,…,w_s}，其中w_i为一个词语；

(1.2)：特征词典种子集中的词语依次放入词向量模型M_w2v模型中获得其近义词，词向量模型M_w2v根据海量互联网文本信息无监督预训练得到。取各个词语相似度top_k的近义词，在本实例中k＝5，经过人工评估并修正数据，加入特征词典中，存储为词典形式作为扩展特征标签库W＝{w₁：[s₁₁,s₁₂,…,s₁₅],…,w_s：[s_s1,s_s2,…,s_s5]}，其中w_i为原种子集中的特征词语，s_ij为特征词w_i的第j个近义词；

步骤(2)：逆向构建目标域文本语料库。

(2.1)：根据目标IP画像体系的画像标签，搜集与IP画像标签相关的主流网站及APP。

(2.2)：使用爬虫工具爬取上述网站及APP的非结构化文本信息，构建目标画像域文本语料库C_initial＝{c₁,c₂,…,c_p}，其中c_i为目标画像域的文本语料。

(2.3):根据(1)中得到的扩展特征标签库W，使用AC自动机对文本语料库C_initial进行筛选，具体步骤如下:

初始化空语料库C

遍历C_initial，对

遍历扩展特征标签库W，对

if文本样本c_k包含特征词w_j:

将w_j添加至C

输出：已知特征标签-目标IP画像体系双相关的语料库C＝{c₁,c₂,…,c_y}，其中c_i为特征标签-目标IP画像体系双相关特征词。

步骤(3)：已知数据特征标签与IP画像体系分类标签映射关系建模。

(3.1)：由人工从语料库C中进行标注得到训练集；

(3.2)：依据扩展特征标签库W，生成特征标签向量表示，本例中将训练样本由文本转化为特征标签对应的向量表示E＝{e₁,e₂,…,e_y}，其中y为样本数量，e_i为第i个样本的特征标签向量，e_i的维度d由IP画像标签类型数目决定，具体步骤如下：

遍历C，对

遍历W，对

e_ki＝c_k中w_i及其近义词出现频次的总和

输出：特征标签向量矩阵E＝{e₁,e₂,…,e_y}

(3.3)：为进行映射建模，模型采用有监督分类模型M_cls，本例中采用多个XGboost二分类器，即针对每一个IP画像标签，构建一个分类模型M_cls，因此，多个IP画像标签就训练多个使用上述特征标签向量训练的模型，进行映射建模。

步骤(4)：结合历史状态迭代分类

(4.1)：基于(1)中得到的特征标签特征库W生成向量，使用(3)中训练的映射模型M_cls对当前时段更新的IP画像库特征标签进行IP画像计算，假设IP画像标签共有n个，得到当前时段IP画像的结果P_t＝{p₁,p₂,…,p_n}。

(4.2)：根据当前时段预测的IP画像P_t和前一时刻的综合历史状态S_t-1，计算当前用户的最终的综合分组归属程度预测状态S_t，结合方式如下公式所示，S_t即作为下一时刻的历史状态进行迭代。

S_t＝S_t-1×α+P_t×(1-α)

其中，α采用动态选取的方式，将sigmoid函数的斜率作为α，模拟存在群组归属与不存在群组归属预测结果影响错误损失的不同权重，公式如下：

前一时刻的历史状态S_t-1＝{s₁,s₂,…,s_n}，采用基于牛顿冷却定律的时间衰减函数来计算，如下公式所示，初始的历史状态S₀＝P₀，λ＝0.95：

S_t-1＝S_t-x×e^-λ(x-1)

(4.3)：一般来说，S_t中的同一类画像会有多个互斥标签，每一类画像我们称为一个分组画像，则S_t＝{S_g1,S_g2,…,S_gt}，S_gi＝{s₁,s₂,…s_l}，其中l<n，每个分组内的多个画像标签的状态s_i，根据归属阈值ζ，该阈值由所有IP的当前画像标签值进行head-tail计算分级得到，做出最终IP画像归属判别得到label，判别决策具体如下：

本实施例具有以下有益效果：

首先，在数据特征标签和画像标签两个不同体系间建构双相关语料库，使用逆向匹配对语料库进行筛选修正，提升了特征的可靠性、准确性与可解释性，有效缓解了画像映射问题中端到端映射的黑箱问题，解决了零样本场景下跨域画像任务中不同标签体系间由媒介缺失所造成的基于规则映射不可行、基于神经网络效果差的问题。

其次，由于访问日志中相同用户的多条访问记录构成时序序列数据，随着时间推移，用户画像具有动态性。因此，采用基于持续响应衰减的更新机制，使用牛顿冷却公式和S型生长曲线控制衰减速度，并结合标签历史状态对时序变化的画像相关更新数据进行修正，实现了对用户画像的量化描述。

最后，结合各个用户画像标签的历史状态，对于同类标签内部互斥标签进行分组归属修正，实现对具有多个类别互斥标签的用户画像的最终归属程度描述。

如图2所示，一种零样本条件下基于逆向匹配的画像映射装置，所述装置包括：

构建模块，用于根据目标画像体系标签搜集外部文本知识，构建文本语料库，采用无监督的方式扩充已知特征标签以增加得到的文本语料库中特征标签的命中率，得到扩展特征词典。

训练模块，用于基于所述扩展特征词典，对所述文本语料库中的样本进行筛选，筛去不包含所述扩展特征词典中特征的样本，逆向构建已知特征标签-目标画像体系双相关的语料库，对所述已知特征标签-目标画像体系双相关的语料库进行人工数据标注，得到训练集。

建模模块，用于基于所述扩展特征词典，将所述训练集转化为样本的特征表示，建立所述特征标签与所述训练集中的训练文本的映射关系，以所述已知特征标签-目标画像体系双相关的语料库中的标注样本为中间媒介，训练从所述特征标签到目标画像标签的分类器，得到映射模型。

进一步地，所述构建模块，具体用于对网页信息特征标签集合中的特征标签进行分词，得到特征词典的种子集。

进一步地，所述训练模块，具体用于根据目标IP画像体系中的IP画像标签，搜集与所述IP画像标签相关的主流网站及应用程序APP；

过以上实施方式的描述，所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现，但前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现，该软件产品存储在一个存储介质中，包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。以上所述的本发明实施方式，并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种零样本条件下基于逆向匹配的画像映射方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述S1中具体包括：

对网页信息特征标签集合中的特征标签进行分词，得到特征词典的种子集；

使用预处理后的图像建立图像库，利用互联网文本信息无监督预训练得到词向量模型；

3.如权利要求2所述的方法，其特征在于，所述S2中具体包括：

利用爬虫工具爬取所述主流网站和所述应用程序APP的非结构化文本信息，构建目标画像域的文本语料库；

4.如权利要求3所述的方法，其特征在于，所述S3中具体包括：

人工对所述已知特征标签-目标画像体系双相关的语料库进行标注，得到训练集；

根据所述扩展特征词典生成特征标签的向量表示；

使用监督分类模型对每个所述IP画像标签进行映射建模。

5.如权利要求4所述的方法，其特征在于，所述S4中具体包括：

6.一种零样本条件下基于逆向匹配的画像映射装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，

所述构建模块，具体用于对网页信息特征标签集合中的特征标签进行分词，得到特征词典的种子集；

8.如权利要求6所述的装置，其特征在于，

所述训练模块，具体用于根据目标IP画像体系中的IP画像标签，搜集与所述IP画像标签相关的主流网站及应用程序APP；

9.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1至5中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至5中任一项所述方法的步骤。