CN112633394A

CN112633394A - 一种智能用户标签确定方法、终端设备及存储介质

Info

Publication number: CN112633394A
Application number: CN202011590641.9A
Authority: CN
Inventors: 林淑强; 陈晨林; 陈子沣; 张永光; 魏炜途; 朱聚江
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-09
Anticipated expiration: 2040-12-29
Also published as: CN112633394B

Abstract

本发明涉及一种智能用户标签确定方法、终端设备及存储介质，该方法包括以下步骤：根据确定用户标签所需的数据来源将用户标签分成简单标签和复杂标签，其中，简单标签只需要结构化数据，复杂标签信息同时存在多模态数据中；简单标签采用单一模态标签确定方法来确定，以及复杂标签采用深度学习算法确定方法来确定。本发明利用多模态数据之间的互补性，并剔除多模态数据间的冗余性，从而能够更准确、更全面确定用户标签和提高用户标签确定方法的泛化性能，更好地推广和应用。

Description

一种智能用户标签确定方法、终端设备及存储介质

技术领域

本发明涉及大数据处理领域，具体地涉及一种基于多模态数据的智能用户标签确定方法、终端设备及存储介质。

背景技术

近几年随着移动互联网、智能终端和云存储的迅猛发展，多样化的社交媒体网络应运而生。用户在不同的社交、媒体和各种政务平台留下了丰富的用户信息和海量的结构化与非结构化数据,尤其是非结构化数据，如文本信息，图像，视频和语音等数据，这些数据具有不同模态，且有非常高的真实性跟多样性，对用户标签的确定具有重要的意义。

用户标签指对某一类特定群体或对象的某项特征进行的抽象分类和概括，具有分类特征。基于确定的用户标签，有很多应用可以开展，商业方面如精准营销、产品效果评估和数据挖掘等，在社会治理方面如精准的侦查识别、人员分类和公共安全的风险预测等。因此用户标签确定的准确性显得非常重要。

目前针对用户标签的确定主要有两个办法：1.基于单一模态的数据来确定用户标签，如利用结构化的数据，采用机器学习来确定用户标签；2.基于多个单一模态的用户标签结果，人为或者专家法则进行标签结果的融合，最终确定用户标签。上述办法不足如下：方法1利用单一模态确定用户标签，对于简单的用户标签效果还行，如用户性别、年龄等标签；但对于稍微复杂标签，如用户兴趣爱好标签，社会治理中用户涉毒、涉黄等标签，并不能准确地刻画用户标签；面对如今海量的结构化跟非结构化数据，人为和专家法则的方法，具有人工投入量大且效率低，同时专家法则是基于先验知识，算法的准确率和泛化效果往往比较差。

发明内容

本发明旨在提供一种基于多模态数据的智能用户标签确定方法、终端设备及存储介质，以解决上述问题。为此，本发明采用的具体技术方案如下：

根据本发明的一方面，提供了一种智能用户标签确定方法，其包括以下步骤：

根据确定用户标签所需的数据来源将用户标签分成简单标签和复杂标签，其中，简单标签只需要结构化数据，复杂标签信息同时存在多模态数据中；

简单标签采用单一模态标签确定方法来确定，以及复杂标签采用深度学习算法确定方法来确定。

进一步地，所述单一模态标签确定方法为基于规则解析判断。

进一步地，复杂标签采用深度学习算法确定方法来确定的具体过程是，首先通过深度学习算法分别从所述多模态数据中提取标签特征信息，利用分类器确定标签，然后对从所述多模态数据确定的标签进行合并融合，从而确定用户标签，其中，所述多模态数据包括文本、图片、视频和音频数据。

进一步地，对于图片数据，其标签确定方法具体如下：

采用的深度神经网络算法包括依次连接的M层卷积层、池化层、全连接层和softmax层；

将图片img_src进行预处理得到N*N尺寸大小的图像img_t1；

img_t1输入到M层卷积层和池化层，输出标签特征向量

特征向量

为一个1×d的矩阵，l表示神经网络第l层；

全连接层，即标签分类器，每个全连接层的权重参数为d×n矩阵，其中，

n表示标签类别个数，全连接层的具体权重参数为

偏置参数为

将

依次输入到标签分类器，得到标签分类结果：

把R^l+1通过softmax层，将每个用户标签的分类结果映射到(0,1)概率区间，其中，softmax层函数为：

其中，

P_i表示该图片属于标签类别i的概率；

设定标签确定阈值ε，如果P_i-max≥ε，则该图片标签类别为i，其中，P_i-max表示最大P_i。

进一步地，对于视频数据，其标签确定方法具体如下：

对视频数据按设定抽样频率抽取图片；

按照图片数据的标签确定方法确定图片的标签类别；

统计每个标签类别的图片数，按预定策略设置阈值N，即一个视频中，如果标签类别i的图片数≥N，则该视频标签类别为i。

进一步地，对于文本数据，其标签确定方法具体如下：

采用的深度神经网络算法包括依次连接BERT网络模型、全连接层和softmax层；

将文本text_src进行预处理，然后输入到BERT网络模型，提取文本高级语义特征F₇₆₈，768表示F特征维度为768；

全连接层，即标签分类器，全连接层的权重参数为768×n矩阵，其中，n表示标签类别个数，全连接层的具体权重参数为

偏置参数B＝[b₁₀,...,b_1(n-1)]；将F₇₆₈依次输入到标签分类器，得到标签分类结果：

R＝F₇₆₈W+B＝[z_label-0,z_label-1,...z_label-(n-1)]；

把R通过softmax层，将每个用户标签的分类结果映射到(0,1)概率区间，其中，softmax层函数如下：

其中

P_i表示该文本属于标签类别i的概率；

设定标签确定阈值ε，如果P_i-max≥ε，则该文本标签类别为i，其中，P_i-max表示最大P_i。

进一步地，对于音频数据，其标签确定方法具体如下：

利用语音识别工具，将音频数据进行语音识别，提取音频数据中的文本信息text；

按照文本数据标签确定方法对文本信息text进行处理，从而确定语音标签类别。

进一步地，所述的将所提取的标签特征信息进行合并融合，确定用户标签具体是，

统计各模态数据的各类标签个数，用cnt_label-i-img、cnt_{label-i-video}、cnt_label-i-text、cnt_{label-i-voice}表示标签i在图片、视频、文本和语音上的个数；

把不同模态的相同标签个数加起来，cnt_label-i＝cnt_label-i-img+cnt_{label-i-video}+cnt_label-i-text+cnt_{label-i-voice}，如果cnt_label-i≥cnt_label-i-ε，则确定标签i为该用户的标签，其中，cnt_label-i-ε是用来确定用户标签设定的标签i个数阈值。

根据本发明的另一方面，提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

根据本发明的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明采用上述技术方案，具有的有益效果是：本发明利用多模态数据之间的互补性，并剔除多模态数据间的冗余性，从而能够更准确、更全面确定用户标签和提高用户标签确定方法的泛化性能，更好地推广和应用。

附图说明

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

图1是本发明的一种智能用户标签确定方法的流程图；

图2是本发明的基于图片和视频数据的用户标签确定方法的流程图；

图3是本发明的基于文本和音频数据的用户标签确定方法的流程图。

具体实施方式

现结合附图和具体实施方式对本发明进一步说明。

如图1所示，一种智能用户标签确定方法可包括以下步骤：

根据确定用户标签所需的数据来源来区分简单标签和复杂标签。简单标签，只需要结构化数据，如用户基本属性标签，身高，年龄，生日，性别等，这类属性基于单一模态的数据，且基于单一模态的数据(已结构化数据)就可以达到很高的准确率，则采用单一模态标签确定方法确定标签类别，其分析方法包括基于规则解析判断。复杂标签，信息同时存在多个模态数据中，如文字，图像，视频和语音等，则采用深度学习算法确定方法，如用户兴趣爱好标签，社会治理中的涉黄、涉毒标签等。

利用深度学习算法，分别从文本、图片、视频和语音等不同模态数据，提取标签特征信息，确定用户标签信息，具体方法如下：

1)图片数据标签确定方法，如图2所示，采用的深度神经网络算法包括依次连接的M层卷积层、池化层、全连接层和softmax层；

a.将图片img_src进行预处理得到N*N尺寸大小的图像img_t1；

b.img_t1输入到M层卷积层和池化层，输出标签特征向量

特征向量为一个1×d的矩阵，l表示神经网络第l层；

c.全连接层，即标签分类器，每个全连接层权重参数为d×n矩阵，其中，n表示标签类别个数，全连接层的具体权重参数为

偏置参数

将

依次输入到标签分类器，得到标签分类结果：

d.把R^l+1通过softmax层，将每个用户标签的分类结果映射到(0,1)概率区间，其中，softmax层函数如下：

其中

P_i表示该图片属于标签类别i的概率；

e.设定标签确定阈值ε，如果最大P_i(用P_i-max表示)≥ε，则该图片标签类别为i；

2)视频数据标签确定方法，如图2：

a.对视频数据按设定抽样频率(每秒1帧)抽取图片，图片再按照上文1)所述的图片数据标签确定方法确定标签类别；

b.统计每个标签类别的图片数，按预定策略设置阈值N，即一个视频中，如果标签类别i的图片数≥N，则该视频标签类别为i；

3)文本数据标签确定方法，如图3，采用的深度神经网络算法包括依次连接BERT网络模型、全连接层和softmax层；

a.将文本text_src进行预处理，然后输入到BERT网络模型，提取文本高级语义特征F₇₆₈，768表示F特征维度为768；

b.全连接层，即标签分类器，全连接层权重参数为768×n矩阵，其中，n表示标签类别个数，全连接层的具体权重参数为

R＝F₇₆₈W+B＝[z_label-0,z_label-1,...z_label-(n-1)]

c.把R通过softmax层，将每个用户标签的分类结果映射到(0,1)概率区间，其中，softmax层函数如下：

其中

P_i表示该文本属于标签类别i的概率；

d.设定标签确定阈值ε，如果最大P_i(用P_i-max表示)≥ε，则该文本标签类别为i；

4)音频数据标签确定方法，如图3：

a.利用语音识别工具，将音频数据进行语音识别，提取音频数据中的文本信息text；

b.将text输入到3)中，通过文本标签方法，确定语音标签方法；

5)通过多模态数据标签确定用户标签

由于上面1)～4)多模态数据标签确定方法是针对单张图片、单个视频、文本和语音，而用户数据每个模态都有大量数据，因此设定通过多模态数据标签确定用户标签策略方法：

a.统计各模态数据的各类标签(分类概率超过设定阈值的)的个数，用cnt_label-i-img，cnt_{label-i-video}，cnt_label-i-text，cnt_{label-i-voice}表示标签i在图片、视频、文本和语音上的个数；

b.把不同模态的相同标签个数加起来，cnt_label-i＝cnt_label-i-img+cnt_{label-i-video}+cnt_label-i-text+cnt_{label-i-voice}，如果cnt_label-i≥cnt_label-i-ε(cnt_label-i-ε是用来确定用户标签设定的标签个数阈值)，则确定标签i为该用户的标签。

本发明利用多模态数据之间的互补性，并剔除多模态数据间的冗余性，从而能够更准确、更全面确定用户标签和提高用户标签确定方法的泛化性能，更好地推广和应用。

在本发明的实施例中，还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

进一步地，该终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述终端设备的组成结构仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法步骤中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种智能用户标签确定方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述单一模态标签确定方法为基于规则解析判断。

3.如权利要求1所述的方法，其特征在于，复杂标签采用深度学习算法确定方法来确定的具体过程是，首先通过深度学习算法分别从所述多模态数据中提取标签特征信息，利用分类器确定标签，然后对从所述多模态数据确定的标签进行合并融合，从而确定用户标签，其中，所述多模态数据包括文本、图片、视频和音频数据。

4.如权利要求3所述的方法，其特征在于，对于图片数据，其标签确定方法具体如下：

将图片img_src进行预处理得到N*N尺寸大小的图像img_t1；

img_t1输入到M层卷积层和池化层，输出标签特征向量

特征向量

为一个1×d的矩阵，l表示神经网络第l层；

全连接层，即标签分类器，每个全连接层的权重参数为d×n矩阵，其中，n表示标签类别个数，全连接层的具体权重参数为

偏置参数为

将

依次输入到标签分类器，得到标签分类结果：

其中，

P_i表示该图片属于标签类别i的概率；

5.如权利要求4所述的方法，其特征在于，对于视频数据，其标签确定方法具体如下：

对视频数据按设定抽样频率抽取图片；

按照图片数据的标签确定方法确定图片的标签类别；

6.如权利要求5所述的方法，其特征在于，对于文本数据，其标签确定方法具体如下：

R＝F₇₆₈W+B＝[z_label-0,z_label-1,...z_label-(n-1)]；

其中

P_i表示该文本属于标签类别i的概率；

7.如权利要求6所述的方法，其特征在于，对于音频数据，其标签确定方法具体如下：

按照文本数据标签确定方法对文本信息text进行处理，从而确定音频数据的标签类别。

8.如权利要求7所述的方法，其特征在于，所述的对从所述多模态数据确定的标签进行合并融合，从而确定用户标签具体过程为：

把不同模态的相同标签个数加起来，cnt_label-i＝cnt_label-i-img+cnt_{label-i-video}+cnt_label-i-text+cnt_{label-i-voice}，如果cnt_label-i≥cnt_label-i-ε，则确定标签i为该用户的标签，其中，cnt_label-i-ε是用来确定用户标签设定的标签个数阈值。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述方法的步骤。