CN115994203A

CN115994203A - 一种基于ai的数据标注处理方法、系统及ai中台

Info

Publication number: CN115994203A
Application number: CN202310136924.3A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Guangzhou Bairui Network Technology Co ltd
Current assignee: Guangzhou Bairui Network Technology Co ltd
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-04-21
Anticipated expiration: 2043-02-20
Also published as: CN115994203B

Abstract

本发明提供的一种基于AI的数据标注处理方法、系统及AI中台，涉及数据标注处理技术领域。本发明对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量；对该第二用户行为描述文本组合进行关键信息挖掘处理，以输出该第二用户行为描述文本组合对应的第二组合场景行为描述向量；分析出第一用户和第二用户之间是否具有用户行为层面的用户关联关系。本发明提高了基于AI中台的关联标注的可靠度，只需要通过少量的数据标注，即可在AI中台上实现对同种类型数据的自动智能化标注功能，提升效率的同时保证AI中台上数据标注的准确性，提高AI中台的数据智能化标注效率。

Description

一种基于AI的数据标注处理方法、系统及AI中台

技术领域

本发明涉及数据标注处理技术领域，具体而言，涉及一种基于AI的数据标注处理方法、系统及AI中台。

背景技术

随着AI能力的应用越来越广泛和细化，对AI能力进行有效管理成为了一个重要的课题，AI中台应运而生。并成为创新型企业运转不可或缺的基础设施，在未来，AI 中台将融入企业成长的全生命周期，企业建设、应用和运营 AI 中台的能力，将成为衡量未来发展潜力和成长价值的关键指标，助力构筑企业核心竞争力。AI中台系统主要由应用层、能力层和基础层构成。其中，基础层提供数据存取，容器管理、镜像管理以及负载均衡等多种底层支撑技术；能力层包括AI能力的数据标注、模型训练和部署，以及从第三方AI厂商购买的AI能力。能力层实现了AI接口统一，方便应用接入和升级AI能力；应用层是AI中台提供的管理功能，包括AI资产管理、客户管理、应用管理等多个功能模块。

在AI中台上，对数据进行标注的技术，有较多的应用场景，例如，可以用于对用户之间是否关联进行标注，使得可以基于标注的关联关系，进行用户的关联处理，如媒体资源的关联推送等，包括但不限于，图像信息、文本信息的关联推送，如将用户A关注的图像信息推送给与用户A关联的用户B。但是，在现有技术中，存在这关联标注的可靠度不佳的问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于AI的数据标注处理方法、系统及AI中台，以在一定程度上提高关联标注的可靠度。

为实现上述目的，本发明实施例采用如下技术方案：

一种基于AI的数据标注处理方法，包括：

确定出待进行关系标注的第一用户和第二用户，并确定出所述第一用户在多个应用场景中分别具有的第一用户行为描述文本，以及，确定出所述第二用户在所述多个应用场景中分别具有的第二用户行为描述文本；

对于每两个第一用户行为描述文本，将该两个第一用户行为描述文本进行数据组合处理，以形成对应的一个第一用户行为描述文本组合，以及，对于每两个第二用户行为描述文本，将该两个第二用户行为描述文本进行数据组合处理，以形成对应的一个第二用户行为描述文本组合；

对于每一个所述第一用户行为描述文本组合，对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量，以及，对于每一个所述第二用户行为描述文本组合，对该第二用户行为描述文本组合进行关键信息挖掘处理，以输出该第二用户行为描述文本组合对应的第二组合场景行为描述向量；

基于全部的第一组合场景行为描述向量和全部的第二组合场景行为描述向量，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系，以及，在所述第一用户和所述第二用户之间具有用户行为层面的用户关联关系的情况下，对所述第一用户和所述第二用户进行关联标注，对于关联标注的用户，用于在用户之间进行关注图像或关注文本的相互推送，所述关注图像和所述关注文本属于所述多个应用场景。

在一些优选的实施例中，在上述基于AI的数据标注处理方法中，所述对于每一个所述第一用户行为描述文本组合，对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量的步骤，包括：

将所述第一用户行为描述文本组合中的一个第一用户行为描述文本标记为第一维度用户行为描述文本、另一个第一用户行为描述文本标记为第二维度用户行为描述文本；

将第一用户行为描述文本组合中的第一维度用户行为描述文本进行关键信息挖掘处理，输出对应的第一维度场景行为描述向量，以及，将所述第一用户行为描述文本组合中的第二维度用户行为描述文本进行关键信息挖掘处理，输出对应的第二维度场景行为描述向量；

对所述第一维度场景行为描述向量和所述第二维度场景行为描述向量进行级联组合处理，形成对应的组合维度场景行为描述向量；

将所述组合维度场景行为描述向量进行多次特征空间投射处理，以输出对应的多个特征空间投射描述向量；以及，基于所述多个特征空间投射描述向量，分析出对应的待处理特征空间投射描述向量；

将所述待处理特征空间投射描述向量、所述第二维度场景行为描述向量和所述第一维度场景行为描述向量进行向量聚合处理，形成所述第一用户行为描述文本组合对应的第一组合场景行为描述向量；其中，所述将所述待处理特征空间投射描述向量、所述第二维度场景行为描述向量和所述第一维度场景行为描述向量进行向量聚合处理，形成所述第一用户行为描述文本组合对应的第一组合场景行为描述向量的步骤，包括：

将所述待处理特征空间投射描述向量和所述第二维度场景行为描述向量进行向量聚合处理，以形成对应的第一向量聚合处理结果；将所述待处理特征空间投射描述向量和所述第一维度场景行为描述向量进行向量聚合处理，以形成对应的第二向量聚合处理结果；以及，将所述第一向量聚合处理结果和所述第二向量聚合处理结果进行向量聚合处理，以形成所述第一用户行为描述文本组合对应的第一组合场景行为描述向量。

在一些优选的实施例中，在上述基于AI的数据标注处理方法中，所述将所述组合维度场景行为描述向量进行多次特征空间投射处理，以输出对应的多个特征空间投射描述向量的步骤，包括：

通过多个特征空间投射模型，将所述组合维度场景行为描述向量分别进行特征空间投射处理，以形成多个特征空间投射描述向量，所述特征空间投射描述向量一一对应于所述特征空间投射模型；

每两个所述特征空间投射描述向量之间的向量层级一致，每两个所述特征空间投射描述向量之间包括的描述向量参数不一致。

在一些优选的实施例中，在上述基于AI的数据标注处理方法中，所述基于所述多个特征空间投射描述向量，分析出对应的待处理特征空间投射描述向量的步骤，包括：

确定出包括多个标准描述向量的标准描述向量集合；

分别对每一个所述特征空间投射描述向量与所述标准描述向量集合中的每一个标准描述向量进行分析，输出每一个所述特征空间投射描述向量与所述标准描述向量集合中的每一个标准描述向量之间的向量匹配度；

依据每一个所述特征空间投射描述向量与所述标准描述向量集合中的每一个标准描述向量之间的向量匹配度，分析输出每一个所述特征空间投射描述向量对应的向量重要性表征系数；

依据每一个所述特征空间投射描述向量对应的向量重要性表征系数，将所述多个特征空间投射描述向量进行融合处理，以形成对应的待处理特征空间投射描述向量。

在一些优选的实施例中，在上述基于AI的数据标注处理方法中，所述标准描述向量集合中标准描述向量的数量等于第一数量，所述特征空间投射描述向量的数量等于第二数量，第二数量个所述特征空间投射描述向量排列形成有特征空间投射描述向量有序集合，所述第二数量不小于2，所述第一数量不小于2；

所述确定出包括多个标准描述向量的标准描述向量集合的步骤，包括：

对所述特征空间投射描述向量有序集合中前第一数值个特征空间投射描述向量的平均描述向量进行确定，以及，通过将所述第一数值进行轮询，以形成第二数量个平均描述向量，所述第一数值为不超过所述第二数量；

在所述第二数量不大于所述第一数量的情况下，对所述第二数量个平均描述向量进行标记处理，以形成对应的标准描述向量，以及，组合形成包括所述第二数量个所述标准描述向量的标准描述向量集合；

在所述第二数量超过所述第一数量的情况下，在所述第二数量个平均描述向量中，确定出第一数量个平均描述向量，标记为标准描述向量，以及，组合形成包括所述第一数量个所述标准描述向量的标准描述向量集合。

在一些优选的实施例中，在上述基于AI的数据标注处理方法中，所述在所述第二数量超过所述第一数量的情况下，在所述第二数量个平均描述向量中，确定出第一数量个平均描述向量，标记为标准描述向量，以及，组合形成包括所述第一数量个所述标准描述向量的标准描述向量集合的步骤，包括：

基于确定出所述平均描述向量的排序关系，将所述第二数量个平均描述向量进行组合，以形成对应的平均描述向量有序集合；

在所述平均描述向量有序集合中，以末位的集合位置对应的平均描述向量为起点，依次确定出第一数量个所述平均描述向量，并标记为对应的标准描述向量，以及，组合形成包括所述第一数量个所述标准描述向量的标准描述向量集合。

在一些优选的实施例中，在上述基于AI的数据标注处理方法中，所述依据每一个所述特征空间投射描述向量与所述标准描述向量集合中的每一个标准描述向量之间的向量匹配度，分析输出每一个所述特征空间投射描述向量对应的向量重要性表征系数的步骤，包括：

对于每一个所述特征空间投射描述向量进行以下处理：

分别依据所述特征空间投射描述向量对应的每一个所述向量匹配度，计算出每一个所述向量匹配度对应的匹配度递增函数值，以及，对各所述匹配度递增函数值累计计算，以输出所述特征空间投射描述向量对应的累计匹配度递增函数值；

对每一个所述匹配度递增函数值和所述累计匹配度递增函数值进行商值计算，以输出每一个所述匹配度递增函数值对应的初始重要性表征系数；

对最大的所述初始重要性表征系数进行标记处理，以标记为所述特征空间投射描述向量对应的向量重要性表征系数。

确定出包括多个标准描述向量的标准描述向量集合；

分别对所述标准描述向量集合中的每一个所述标准描述向量和每一个所述特征空间投射描述向量进行分析，以输出所述标准描述向量集合中的每一个所述标准描述向量和每一个所述特征空间投射描述向量之间的向量匹配度；

依据所述标准描述向量集合中的每一个所述标准描述向量和每一个所述特征空间投射描述向量之间的向量匹配度，输出所述标准描述向量集合中每一个所述标准描述向量对应的向量重要性表征系数；以及，依据每一个所述标准描述向量对应的向量重要性表征系数，将所述多个标准描述向量进行融合处理，以形成对应的待处理特征空间投射描述向量；

其中，所述依据所述标准描述向量集合中的每一个所述标准描述向量和每一个所述特征空间投射描述向量之间的向量匹配度，输出所述标准描述向量集合中每一个所述标准描述向量对应的向量重要性表征系数的步骤，包括：对于所述标准描述向量集合中的每一个所述标准描述向量，对该标准描述向量执行以下的步骤：

依据所述标准描述向量对应的每一个所述向量匹配度，分析出每一个所述向量匹配度对应的匹配度递增函数值；对每一个所述匹配度递增函数值进行累计计算，以输出对应的累计匹配度递增函数值；对每一个所述匹配度递增函数值和所述累计匹配度递增函数值进行商值计算，以输出每一个所述匹配度递增函数值对应的初始重要性表征系数；以及，对最大的所述初始重要性表征系数进行标记处理，以标记为所述标准描述向量对应的向量重要性表征系数。

在一些优选的实施例中，在上述基于AI的数据标注处理方法中，所述基于全部的第一组合场景行为描述向量和全部的第二组合场景行为描述向量，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系的步骤，包括：

对全部的第一组合场景行为描述向量进行级联组合处理，以形成目标第一组合场景行为描述向量，并对全部的第二组合场景行为描述向量进行级联组合处理，以形成目标第二组合场景行为描述向量，以及，对所述目标第一组合场景行为描述向量和所述目标第二组合场景行为描述向量进行向量匹配度的确定处理，以及，基于确定出的向量匹配度，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系；或

分别计算每一个第一组合场景行为描述向量和每一个第二组合场景行为描述向量之间的向量匹配度，以及，基于每一个第一组合场景行为描述向量和每一个第二组合场景行为描述向量之间的向量匹配度，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系。

本发明实施例还提供一种基于AI的数据标注处理系统，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现上述的基于AI的数据标注处理方法。

优选地，本发明还公开了一种AI中台，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现所述的基于AI的数据标注处理方法。

本发明提供的一种基于AI的数据标注处理方法、系统及AI中台，可以先确定出待进行关系标注的第一用户和第二用户，并确定出第一用户在多个应用场景中分别具有的第一用户行为描述文本，以及，确定出第二用户在多个应用场景中分别具有的第二用户行为描述文本；对于每两个第一用户行为描述文本，将该两个第一用户行为描述文本进行数据组合处理，以形成对应的一个第一用户行为描述文本组合，以及，对于每两个第二用户行为描述文本，将该两个第二用户行为描述文本进行数据组合处理，以形成对应的一个第二用户行为描述文本组合；对于每一个第一用户行为描述文本组合，对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量，以及，对于每一个第二用户行为描述文本组合，对该第二用户行为描述文本组合进行关键信息挖掘处理，以输出该第二用户行为描述文本组合对应的第二组合场景行为描述向量；基于全部的第一组合场景行为描述向量和全部的第二组合场景行为描述向量，分析出第一用户和第二用户之间是否具有用户行为层面的用户关联关系。基于上述内容，由于在处理的过程中，是将用户行为描述文本进行两两组合，然后，对组合形成的户行为描述文本组合进行关键信息挖掘处理，使得得到的组合场景行为描述向量的可靠度更高，提高关联标注的依据的可靠度，从而可以在一定程度上提高关联标注的可靠度，进而改善现有技术中存在的关联标注的可靠度不佳的问题。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本发明实施例提供的基于AI的数据标注处理系统的结构框图。

图2为本发明实施例提供的基于AI的数据标注处理方法包括的各步骤的流程示意图。

图3为本发明实施例提供的基于AI的数据标注处理装置包括的各模块的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于AI的数据标注处理系统。其中，所述基于AI的数据标注处理系统可以包括存储器和处理器。

本发明实施例还提供了一种AI中台，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现所述的基于AI的数据标注处理方法。

详细地，所述存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件（firmware）的形式，存在的软件功能模块（计算机程序）。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序，从而实现本发明实施例提供的基于AI的数据标注处理方法。

举例来说，在一些实施方式中，所述存储器可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（Erasable ProgrammableRead-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable ProgrammableRead-Only Memory，EEPROM）等。所述处理器可以是一种通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）、片上系统(System on Chip，SoC)等；还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

举例来说，在一些实施方式中，所述基于AI的数据标注处理系统可以是一种具备数据处理能力的服务器。

结合图2，本发明实施例还提供一种基于AI的数据标注处理方法，可应用于上述基于AI的数据标注处理系统。其中，所述基于AI的数据标注处理方法有关的流程所定义的方法步骤，可以由所述基于AI的数据标注处理系统实现。下面将对图2所示的具体流程，进行详细阐述。

步骤S110，确定出待进行关系标注的第一用户和第二用户，并确定出所述第一用户在多个应用场景中分别具有的第一用户行为描述文本，以及，确定出所述第二用户在所述多个应用场景中分别具有的第二用户行为描述文本。

在本发明实施例中，所述基于AI的数据标注处理系统可以确定出待进行关系标注的第一用户和第二用户，并确定出所述第一用户在多个应用场景中分别具有的第一用户行为描述文本，以及，确定出所述第二用户在所述多个应用场景中分别具有的第二用户行为描述文本（示例性地，所述第一用户和所述第二用户可以为网络用户，也可以为非网络用户，所述第一用户行为描述文本和所述第二用户行为描述文本对应的用户行为可以是指网络行为，也可以是指非网络行为，所述多个应用场景可以是指网络应用场景，也可以是指非网络应用场景，如网络应用场景可以是指基于不同的网络平台提高的用户服务等，如游戏平台、视频观看平台等）。

步骤S120，对于每两个第一用户行为描述文本，将该两个第一用户行为描述文本进行数据组合处理，以形成对应的一个第一用户行为描述文本组合，以及，对于每两个第二用户行为描述文本，将该两个第二用户行为描述文本进行数据组合处理，形成对应的一个第二用户行为描述文本组合。

在本发明实施例中，所述基于AI的数据标注处理系统可以对于每两个第一用户行为描述文本，将该两个第一用户行为描述文本进行数据组合处理，以形成对应的一个第一用户行为描述文本组合，以及，对于每两个第二用户行为描述文本，将该两个第二用户行为描述文本进行数据组合处理，形成对应的一个第二用户行为描述文本组合（如此，可以实现两两组合）。

步骤S130，对于每一个所述第一用户行为描述文本组合，对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量，以及，对于每一个所述第二用户行为描述文本组合，对该第二用户行为描述文本组合进行关键信息挖掘处理，以输出该第二用户行为描述文本组合对应的第二组合场景行为描述向量。

在本发明实施例中，所述基于AI的数据标注处理系统可以对于每一个所述第一用户行为描述文本组合，对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量，以及，对于每一个所述第二用户行为描述文本组合，对该第二用户行为描述文本组合进行关键信息挖掘处理，以输出该第二用户行为描述文本组合对应的第二组合场景行为描述向量（示例性地，所述关键信息挖掘处理，可以是指将数据投射到特征空间，然后，可以进一步对投射到特征空间形成的数据进行处理，如知识抽取等，即通过卷积核进行卷积运算或者通过滤波矩阵进行滤波处理等）。

步骤S140，基于全部的第一组合场景行为描述向量和全部的第二组合场景行为描述向量，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系，以及，在所述第一用户和所述第二用户之间具有用户行为层面的用户关联关系的情况下，对所述第一用户和所述第二用户进行关联标注。

在本发明实施例中，所述基于AI的数据标注处理系统可以基于全部的第一组合场景行为描述向量和全部的第二组合场景行为描述向量，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系，以及，在所述第一用户和所述第二用户之间具有用户行为层面的用户关联关系的情况下，对所述第一用户和所述第二用户进行关联标注。对于关联标注的用户，用于在用户之间进行关注图像或关注文本的相互推送，所述关注图像和所述关注文本属于所述多个应用场景。

基于上述内容（如步骤S110-步骤S140），由于在处理的过程中，是将用户行为描述文本进行两两组合，然后，对组合形成的户行为描述文本组合进行关键信息挖掘处理，使得得到的组合场景行为描述向量的可靠度更高，提高关联标注的依据的可靠度，从而可以在一定程度上提高关联标注的可靠度，进而改善现有技术中存在的关联标注的可靠度不佳的问题。

举例来说，在一些实施方式中，在执行所述对于每一个所述第一用户行为描述文本组合，对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量的步骤的过程中，具体可以执行以下的具体子步骤：

将所述第一用户行为描述文本组合中的一个第一用户行为描述文本标记为第一维度用户行为描述文本、另一个第一用户行为描述文本标记为第二维度用户行为描述文本（可以进行任意的标记）；

将第一用户行为描述文本组合中的第一维度用户行为描述文本进行关键信息挖掘处理（如前所述），输出对应的第一维度场景行为描述向量，以及，将所述第一用户行为描述文本组合中的第二维度用户行为描述文本进行关键信息挖掘处理，输出对应的第二维度场景行为描述向量；

对所述第一维度场景行为描述向量和所述第二维度场景行为描述向量进行级联组合处理，形成对应的组合维度场景行为描述向量（示例性地，可以将所述第一维度场景行为描述向量和所述第二维度场景行为描述向量组合在一起，如在所述组合维度场景行为描述向量中，所述第一维度场景行为描述向量在前，所述第二维度场景行为描述向量在后）；

将所述待处理特征空间投射描述向量、所述第二维度场景行为描述向量和所述第一维度场景行为描述向量进行向量聚合处理，形成所述第一用户行为描述文本组合对应的第一组合场景行为描述向量。

其中，举例来说，在一些实施方式中，在执行所述将第一用户行为描述文本组合中的第一维度用户行为描述文本进行关键信息挖掘处理，输出对应的第一维度场景行为描述向量的步骤的过程中，具体可以执行以下的具体子步骤：

分别将所述第一维度用户行为描述文本中的每一个第一维度描述文本片段进行关键信息挖掘处理，输出每一个所述第一维度描述文本片段对应的局部第一维度场景行为描述向量（示例性地，每一个第一维度描述文本片段可以用于描述一个用户行为，所述第一维度用户行为描述文本可以包括多个第一维度描述文本片段，用于分别描述多个用户行为）；

对每一个所述局部第一维度场景行为描述向量进行向量聚合处理，输出对应的第一维度场景行为描述向量（示例性地，可以将每一个所述局部第一维度场景行为描述向量按照对应的第一维度描述文本片段在所述第一维度用户行为描述文本中的先后关系，进行级联组合处理，以形成对应的第一维度场景行为描述向量）。

举例来说，在一些实施方式中，在执行所述将所述组合维度场景行为描述向量进行多次特征空间投射处理，以输出对应的多个特征空间投射描述向量的步骤的过程中，具体可以执行以下的具体子步骤：

通过多个特征空间投射模型，将所述组合维度场景行为描述向量分别进行特征空间投射处理，以形成多个特征空间投射描述向量，所述特征空间投射描述向量一一对应于所述特征空间投射模型（在所述特征空间投射模型中，每一个神经元与其前一层的所有神经元进行全连接，且在所述特征空间投射模型中，进行线性的处理，如基于权重参数进行加权计算，基于移位参数进行移位计算，即进行叠加处理，其中，每两个特征空间投射模型之间，至少部分的权重参数和移位参数不同）；每两个所述特征空间投射描述向量之间的向量层级一致（可以理解为向量的维度都是一致的；另外，所述组合维度场景行为描述向量在进行特征空间投射处理的过程中，可以进行向量层级的处理，以使得得到的特征空间投射描述向量与第二维度场景行为描述向量和第一维度场景行为描述向量的向量层级一致），每两个所述特征空间投射描述向量之间包括的描述向量参数不一致。

举例来说，在一些实施方式中，在执行所述基于所述多个特征空间投射描述向量，分析出对应的待处理特征空间投射描述向量的步骤的过程中，具体可以执行以下的具体子步骤：

确定出包括多个标准描述向量的标准描述向量集合；

依据每一个所述特征空间投射描述向量对应的向量重要性表征系数，将所述多个特征空间投射描述向量进行融合处理，以形成对应的待处理特征空间投射描述向量（示例性地，可以将所述向量重要性表征系数作为加权系数，对所述多个特征空间投射描述向量进行加权叠加，以形成对应的待处理特征空间投射描述向量）。

举例来说，在一些实施方式中，所述标准描述向量集合中标准描述向量的数量等于第一数量，所述特征空间投射描述向量的数量等于第二数量，第二数量个所述特征空间投射描述向量排列形成有特征空间投射描述向量有序集合，所述第二数量不小于2，所述第一数量不小于2，基于此，在执行所述确定出包括多个标准描述向量的标准描述向量集合的步骤的过程中，具体可以执行以下的具体子步骤：

对所述特征空间投射描述向量有序集合中前第一数值个特征空间投射描述向量的平均描述向量进行确定，以及，通过将所述第一数值进行轮询，以形成第二数量个平均描述向量（如前1个特征空间投射描述向量的平均描述向量、前2个特征空间投射描述向量的平均描述向量、前3个特征空间投射描述向量的平均描述向量、前4个特征空间投射描述向量的平均描述向量、前5个特征空间投射描述向量的平均描述向量、前6个特征空间投射描述向量的平均描述向量），所述第一数值为不超过所述第二数量；

举例来说，在一些实施方式中，在执行所述在所述第二数量超过所述第一数量的情况下，在所述第二数量个平均描述向量中，确定出第一数量个平均描述向量，标记为标准描述向量，以及，组合形成包括所述第一数量个所述标准描述向量的标准描述向量集合的步骤的过程中，具体可以执行以下的具体子步骤：

在所述平均描述向量有序集合中，以末位的集合位置对应的平均描述向量为起点（即所述特征空间投射描述向量有序集合中最后一个特征空间投射描述向量对应的平均描述向量），依次确定出第一数量个所述平均描述向量，并标记为对应的标准描述向量，以及，组合形成包括所述第一数量个所述标准描述向量的标准描述向量集合。

举例来说，在一些实施方式中，在执行所述依据每一个所述特征空间投射描述向量与所述标准描述向量集合中的每一个标准描述向量之间的向量匹配度，分析输出每一个所述特征空间投射描述向量对应的向量重要性表征系数的步骤的过程中，具体可以执行以下的具体子步骤：

对于每一个所述特征空间投射描述向量进行以下处理：

分别依据所述特征空间投射描述向量对应的每一个所述向量匹配度，计算出每一个所述向量匹配度对应的匹配度递增函数值（示例性地，可以将所述向量匹配度作为因变量，基于一个递增函数进行计算，如指数函数，以得到匹配度递增函数值），以及，对各所述匹配度递增函数值累计计算，以输出所述特征空间投射描述向量对应的累计匹配度递增函数值（示例性地，可以对各所述匹配度递增函数值进行叠加）；

确定出包括多个标准描述向量的标准描述向量集合（如前所述）；

分别对所述标准描述向量集合中的每一个所述标准描述向量和每一个所述特征空间投射描述向量进行分析，以输出所述标准描述向量集合中的每一个所述标准描述向量和每一个所述特征空间投射描述向量之间的向量匹配度；以及，依据所述标准描述向量集合中的每一个所述标准描述向量和每一个所述特征空间投射描述向量之间的向量匹配度，输出所述标准描述向量集合中每一个所述标准描述向量对应的向量重要性表征系数；以及，依据每一个所述标准描述向量对应的向量重要性表征系数，将所述多个标准描述向量进行融合处理，以形成对应的待处理特征空间投射描述向量。

举例来说，在一些实施方式中，在执行所述依据所述标准描述向量集合中的每一个所述标准描述向量和每一个所述特征空间投射描述向量之间的向量匹配度，输出所述标准描述向量集合中每一个所述标准描述向量对应的向量重要性表征系数的步骤的过程中，可以执行以下的具体子步骤：

对于所述标准描述向量集合中的每一个所述标准描述向量，对该标准描述向量执行以下的步骤：

依据所述标准描述向量对应的每一个所述向量匹配度，分析出每一个所述向量匹配度对应的匹配度递增函数值（如前相关描述）；对每一个所述匹配度递增函数值进行累计计算，以输出对应的累计匹配度递增函数值（如前相关描述）；对每一个所述匹配度递增函数值和所述累计匹配度递增函数值进行商值计算，以输出每一个所述匹配度递增函数值对应的初始重要性表征系数；以及，对最大的所述初始重要性表征系数进行标记处理，以标记为所述标准描述向量对应的向量重要性表征系数。

举例来说，在一些实施方式中，在执行所述将所述待处理特征空间投射描述向量、所述第二维度场景行为描述向量和所述第一维度场景行为描述向量进行向量聚合处理，形成所述第一用户行为描述文本组合对应的第一组合场景行为描述向量的步骤的过程中，可以执行以下的具体子步骤：

将所述待处理特征空间投射描述向量和所述第二维度场景行为描述向量进行向量聚合处理，以形成对应的第一向量聚合处理结果；

将所述待处理特征空间投射描述向量和所述第一维度场景行为描述向量进行向量聚合处理，以形成对应的第二向量聚合处理结果；

将所述第一向量聚合处理结果和所述第二向量聚合处理结果进行向量聚合处理，以形成所述第一用户行为描述文本组合对应的第一组合场景行为描述向量（示例性地，可以将所述第一向量聚合处理结果和所述第二向量聚合处理结果进行级联组合处理，形成第一组合场景行为描述向量）。

其中，举例来说，在一些实施方式中，所述向量聚合处理基于关键信息聚合神经网络形成，所述关键信息聚合神经网络包括第一关键信息聚合模型和第二关键信息聚合模型，基于此，在执行所述将所述待处理特征空间投射描述向量和所述第二维度场景行为描述向量进行向量聚合处理，以形成对应的第一向量聚合处理结果的步骤的过程中，可以执行以下子步骤：

通过所述第一关键信息聚合模型，将所述待处理特征空间投射描述向量和所述第二维度场景行为描述向量进行向量聚合处理，以形成对应的初始第一组合场景行为描述向量；通过所述第二关键信息聚合模型，将所述待处理特征空间投射描述向量和所述初始第一组合场景行为描述向量进行向量聚合处理，以形成对应的中间第一组合场景行为描述向量；以及，对所述初始第一组合场景行为描述向量和所述中间第一组合场景行为描述向量进行级联组合处理，以形成对应的第一向量聚合处理结果。

其中，举例来说，在一些实施方式中，在执行所述通过所述第一关键信息聚合模型，将所述待处理特征空间投射描述向量和所述第二维度场景行为描述向量进行向量聚合处理，以形成对应的初始第一组合场景行为描述向量的步骤的过程中，可以执行以下的具体子步骤：

对所述待处理特征空间投射描述向量进行聚焦特征分析（如将所述待处理特征空间投射描述向量和所述待处理特征空间投射描述向量进行相乘，再将相乘的结果进行向量参数映射处理，以使得映射后的向量参数等于大于或等于0、小于或等于1），以输出所述待处理特征空间投射描述向量对应的第一自身聚焦特征参数矩阵，以及，对所述第一自身聚焦特征参数矩阵和所述待处理特征空间投射描述向量进行相乘，以输出所述待处理特征空间投射描述向量对应的聚焦待处理特征空间投射描述向量；

对所述第二维度场景行为描述向量进行聚焦特征分析（如将所述第二维度场景行为描述向量和所述第二维度场景行为描述向量进行相乘，再将相乘的结果进行向量参数映射处理，以使得映射后的向量参数等于大于或等于0、小于或等于1），以输出所述第二维度场景行为描述向量对应的第二自身聚焦特征参数矩阵，以及，对所述第二自身聚焦特征参数矩阵和所述第二维度场景行为描述向量进行相乘，以输出所述第二维度场景行为描述向量对应的聚焦第二维度场景行为描述向量；

将所述待处理特征空间投射描述向量和所述聚焦第二维度场景行为描述向量进行级联组合处理，以输出对应的第一级联组合描述向量；以及，将所述待处理特征空间投射描述向量和所述第一级联组合描述向量进行相乘，以及，对相乘的结果进行向量参数映射处理，以输出对应的第一融合聚焦特征参数矩阵，以及，对所述第一融合聚焦特征参数矩阵和所述第一级联组合描述向量进行相乘，以输出对应的第一关联描述向量；

将所述第二维度场景行为描述向量和所述聚焦待处理特征空间投射描述向量进行级联组合处理，以输出对应的第二级联组合描述向量；以及，将所述第二维度场景行为描述向量和所述第二级联组合描述向量进行相乘，以及，对相乘的结果进行向量参数映射处理，以输出对应的第二融合聚焦特征参数矩阵，以及，对所述第二融合聚焦特征参数矩阵和所述第二级联组合描述向量进行相乘，以输出对应的第二关联描述向量；

将所述第一关联描述向量和所述第二关联描述向量进行叠加处理，以输出对应的初始第一组合场景行为描述向量。

举例来说，在一些实施方式中，在执行所述基于全部的第一组合场景行为描述向量和全部的第二组合场景行为描述向量，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系的步骤的过程中，具体可以执行以下的具体子步骤：

对全部的第一组合场景行为描述向量进行级联组合处理，以形成目标第一组合场景行为描述向量，并对全部的第二组合场景行为描述向量进行级联组合处理，以形成目标第二组合场景行为描述向量，以及，对所述目标第一组合场景行为描述向量和所述目标第二组合场景行为描述向量进行向量匹配度的确定处理，以及，基于确定出的向量匹配度，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系（示例性地，在所述向量匹配度大于或等于预先配置的向量相似度参考值的情况下，可以确定所述第一用户和所述第二用户之间具有用户行为层面的用户关联关系，反之，不具有用户行为层面的用户关联关系）；或

分别计算每一个第一组合场景行为描述向量和每一个第二组合场景行为描述向量之间的向量匹配度，以及，基于每一个第一组合场景行为描述向量和每一个第二组合场景行为描述向量之间的向量匹配度，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系（示例性地，可以对每一个第一组合场景行为描述向量和每一个第二组合场景行为描述向量之间的向量匹配度进行均值等处理，以输出对应的代表向量匹配度，然后，可以将该代表向量匹配度与预先配置的向量相似度参考值进行大小比较，从而确定是否具有用户行为层面的用户关联关系）。

结合图3，本发明实施例还提供一种基于AI的数据标注处理装置，可应用于上述基于AI的数据标注处理系统。其中，所述基于AI的数据标注处理装置可以包括以下的各软件功能模块：

用户行为信息获取模块，用于确定出待进行关系标注的第一用户和第二用户，并确定出所述第一用户在多个应用场景中分别具有的第一用户行为描述文本，以及，确定出所述第二用户在所述多个应用场景中分别具有的第二用户行为描述文本；

数据组合处理模块，用于对于每两个第一用户行为描述文本，将该两个第一用户行为描述文本进行数据组合处理，以形成对应的一个第一用户行为描述文本组合，以及，对于每两个第二用户行为描述文本，将该两个第二用户行为描述文本进行数据组合处理，以形成对应的一个第二用户行为描述文本组合；

关键信息挖掘模块，用于对于每一个所述第一用户行为描述文本组合，对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量，以及，对于每一个所述第二用户行为描述文本组合，对该第二用户行为描述文本组合进行关键信息挖掘处理，以输出该第二用户行为描述文本组合对应的第二组合场景行为描述向量；

用户关联标注模块，用于基于全部的第一组合场景行为描述向量和全部的第二组合场景行为描述向量，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系，以及，在所述第一用户和所述第二用户之间具有用户行为层面的用户关联关系的情况下，对所述第一用户和所述第二用户进行关联标注，对于关联标注的用户，用于在用户之间进行关注图像或关注文本的相互推送，所述关注图像和所述关注文本属于所述多个应用场景。

综上所述，本发明提供的一种基于AI的数据标注处理方法、系统及AI中台，可以先确定出待进行关系标注的第一用户和第二用户，并确定出第一用户在多个应用场景中分别具有的第一用户行为描述文本，以及，确定出第二用户在多个应用场景中分别具有的第二用户行为描述文本；对于每两个第一用户行为描述文本，将该两个第一用户行为描述文本进行数据组合处理，以形成对应的一个第一用户行为描述文本组合，以及，对于每两个第二用户行为描述文本，将该两个第二用户行为描述文本进行数据组合处理，以形成对应的一个第二用户行为描述文本组合；对于每一个第一用户行为描述文本组合，对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量，以及，对于每一个第二用户行为描述文本组合，对该第二用户行为描述文本组合进行关键信息挖掘处理，以输出该第二用户行为描述文本组合对应的第二组合场景行为描述向量；基于全部的第一组合场景行为描述向量和全部的第二组合场景行为描述向量，分析出第一用户和第二用户之间是否具有用户行为层面的用户关联关系。基于上述内容，由于在处理的过程中，是将用户行为描述文本进行两两组合，然后，对组合形成的户行为描述文本组合进行关键信息挖掘处理，使得得到的组合场景行为描述向量的可靠度更高，提高关联标注的依据的可靠度，从而可以在一定程度上提高关联标注的可靠度，进而改善现有技术中存在的关联标注的可靠度不佳的问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于AI的数据标注处理方法，其特征在于，包括：

2.如权利要求1所述的基于AI的数据标注处理方法，其特征在于，所述对于每一个所述第一用户行为描述文本组合，对该第一用户行为描述文本组合进行关键信息挖掘处理，以输出该第一用户行为描述文本组合对应的第一组合场景行为描述向量的步骤，包括：

将所述待处理特征空间投射描述向量和所述第二维度场景行为描述向量进行向量聚合处理，以形成对应的第一向量聚合处理结果；将所述待处理特征空间投射描述向量和所述第一维度场景行为描述向量进行向量聚合处理，以形成对应的第二向量聚合处理结果；以及，将所述第一向量聚合处理结果和所述第二向量聚合处理结果进行向量聚合处理，以形成所述第一用户行为描述文本组合对应的第一组合场景行为描述向量；

所述将所述组合维度场景行为描述向量进行多次特征空间投射处理，以输出对应的多个特征空间投射描述向量的步骤，包括：

3.如权利要求2所述的基于AI的数据标注处理方法，其特征在于，所述基于所述多个特征空间投射描述向量，分析出对应的待处理特征空间投射描述向量的步骤，包括：

确定出包括多个标准描述向量的标准描述向量集合；

4.如权利要求3所述的基于AI的数据标注处理方法，其特征在于，所述标准描述向量集合中标准描述向量的数量等于第一数量，所述特征空间投射描述向量的数量等于第二数量，第二数量个所述特征空间投射描述向量排列形成有特征空间投射描述向量有序集合，所述第二数量不小于2，所述第一数量不小于2；

5.如权利要求4所述的基于AI的数据标注处理方法，其特征在于，所述在所述第二数量超过所述第一数量的情况下，在所述第二数量个平均描述向量中，确定出第一数量个平均描述向量，标记为标准描述向量，以及，组合形成包括所述第一数量个所述标准描述向量的标准描述向量集合的步骤，包括：

6.如权利要求4所述的基于AI的数据标注处理方法，其特征在于，所述依据每一个所述特征空间投射描述向量与所述标准描述向量集合中的每一个标准描述向量之间的向量匹配度，分析输出每一个所述特征空间投射描述向量对应的向量重要性表征系数的步骤，包括：

对于每一个所述特征空间投射描述向量进行以下处理：

7.如权利要求2所述的基于AI的数据标注处理方法，其特征在于，所述基于所述多个特征空间投射描述向量，分析出对应的待处理特征空间投射描述向量的步骤，包括：

确定出包括多个标准描述向量的标准描述向量集合；

8.如权利要求1-7任意一项所述的基于AI的数据标注处理方法，其特征在于，所述基于全部的第一组合场景行为描述向量和全部的第二组合场景行为描述向量，分析出所述第一用户和所述第二用户之间是否具有用户行为层面的用户关联关系的步骤，包括：

9.一种基于AI的数据标注处理系统，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现权利要求1-8任意一项所述的基于AI的数据标注处理方法。

10.一种AI中台，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现权利要求1-8任意一项所述的基于AI的数据标注处理方法。