CN113449104A

CN113449104A - 标签增强模型构建方法、系统、电子设备及存储介质

Info

Publication number: CN113449104A
Application number: CN202110690955.4A
Authority: CN
Inventors: 朱志强; 徐凯波
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-09-28

Abstract

本发明提出一种标签增强模型构建方法、系统、电子设备及存储介质，其方法技术方案包括会话知识编码步骤，对一会话文本进行向量化处理，得到所述会话文本的会话文本编码，并对所述会话文本进行实体概念化处理和实体向量化处理，得到知识编码；编码特征融合步骤，对所述会话文本编码和所述知识编码按照一预设比例进行融合；标签分类输出步骤，将所述会话文本编码和所述知识编码融合后得到的特征输入至神经网络NN中得到所述会话文本对应的标签概率，根据所述标签概率确定一标签输出，得到训练完成的标签增强模型。本申请解决了现有深度学习领域中标签标注效率低下的问题。

Description

标签增强模型构建方法、系统、电子设备及存储介质

技术领域

本发明属于深度学习技术领域，尤其涉及一种标签增强模型构建方法、系统、电子设备及存储介质。

背景技术

在监督学习中，标签作为一个非常重要的角色在一定程度上决定了算法在实际场景的表现。目前数据标签的来源主要依靠数据标注工程师来完成，该工作不仅代价高，而且数据质量一定程度上取决于工程师们的标注经验。此外，互联网大数据已经呈现出爆炸趋势，如何更好地解决这些大数据的标注问题已经变得急不可待，如果单纯依赖人工去完成数据打标任务，将在一定程度上限制算法的迭代速度。如何更好地利用已有的数据，对新获取的数据进行标注，提高标注数据的利用率，提高算法模型的性能就显得比较重要了。

对于基于人工的数据标签扩充，对于新获取的数据采用人工标注的方法进行标注，获得对应的数据标签，然后再基于该标签进行模型的训练学习，完成相关任务。而对于基于迁移学习的数据标签扩充，利用深度学习技术将某一领域的数据知识迁移到目标领域中来，然后基于该领域的数据标签进行后续算法的训练、微调，但是该方法不能解决领域知识的跨域问题，从而导致对已有知识的利用率并不是很高，而且如果相关领域的数据知识并不存在的情况下，深度学习方法也表现的无能为力。

发明内容

本申请实施例提供了一种标签增强模型构建方法、系统、电子设备及存储介质，以至少解决现有深度学习领域中标签标注效率低下的问题。

第一方面，本申请实施例提供了一种标签增强模型构建方法，包括：会话知识编码步骤，对一会话文本进行向量化处理，得到所述会话文本的会话文本编码，并对所述会话文本进行实体概念化处理和实体向量化处理，得到知识编码；编码特征融合步骤，对所述会话文本编码和所述知识编码按照一预设比例进行融合；标签分类输出步骤，将所述会话文本编码和所述知识编码融合后得到的特征输入至神经网络NN中得到所述会话文本对应的标签概率，根据所述标签概率确定一标签输出，得到训练完成的标签增强模型。

优选的，所述会话知识编码步骤进一步包括：会话文本编码步骤，根据所述会话文本的语境信息得到一会话序列，将所述会话序列向量化表示得到一向量编码，并将所述向量编码输入至一深度学习模型中得到一会话文本编码。

优选的，所述会话知识编码步骤进一步包括：知识编码生成步骤，对所述会话文本进行实体识别得到实体属性，通过知识图谱对所述实体属性概念化表示为概念实体，通过所述概念实体得到所述知识编码。

优选的，所述知识编码生成步骤进一步包括：将所述概念实体向量化表示得到一概念实体向量，将所述概念实体向量输入至一深度学习模型中得到一概念实体编码，并进一步将所述概念实体编码通过自注意力机制得到所述知识编码。

第二方面，本申请实施例提供了一种标签增强模型构建系统，适用于上述一种标签增强模型构建方法，包括：会话知识编码模块，对一会话文本进行向量化处理，得到所述会话文本的会话文本编码，并对所述会话文本进行实体概念化处理和实体向量化处理，得到知识编码；编码特征融合模块，对所述会话文本编码和所述知识编码按照一预设比例进行融合；标签分类输出模块，将所述会话文本编码和所述知识编码融合后得到的特征输入至神经网络NN中得到所述会话文本对应的标签概率，根据所述标签概率确定一标签输出，得到训练完成的标签增强模型。

在其中一些实施例中，所述会话知识编码模块进一步包括：会话文本编码单元，根据所述会话文本的语境信息得到一会话序列，将所述会话序列向量化表示得到一向量编码，并将所述向量编码输入至一深度学习模型中得到一会话文本编码。

在其中一些实施例中，所述会话知识编码模块进一步包括：知识编码生成单元，对所述会话文本进行实体识别得到实体属性，通过知识图谱对所述实体属性概念化表示为概念实体，通过所述概念实体得到所述知识编码。

在其中一些实施例中，所述知识编码生成单元进一步包括：将所述概念实体向量化表示得到一概念实体向量，将所述概念实体向量输入至一深度学习模型中得到一概念实体编码，并进一步将所述概念实体编码通过自注意力机制得到所述知识编码。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的一种标签增强模型构建方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的一种标签增强模型构建方法。

本申请可应用于数据能力技术领域。相比于相关技术，本申请实施例提供的一种标签增强模型构建方法，基于会话文本解决数据标签的热更新问题，实现数据标签的增量式更新问题，降低甚至直接去除人工打标的参与过程，直接利用会话数据直接完成标签的增量更新问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明的标签增强模型构建方法流程图；

图2为图1中步骤S1的分步骤流程图；

图3为本发明的标签增强模型构建系统的框架图；

图4为本发明的电子设备的框架图；

以上图中：

1、会话知识编码模块；2、编码特征融合模块；3、标签分类输出模块；11、会话文本编码单元；12、知识编码生成单元；60、总线；61、处理器；62、存储器；63、通信接口。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下，结合附图详细介绍本发明的实施例：

在具体实施中，首先基于已有的会话文本和对应的数据标签构建训练数据集和测试数据集，可选的，其中训练集和测试集按照8:2的比例进行划分，80％的数据用于训练模型，20％的数据用于测试。

图1为本发明的标签增强模型构建方法流程图，请参见图1，本发明标签增强模型构建方法包括如下步骤：

S1：对一会话文本进行向量化处理，得到所述会话文本的会话文本编码，并对所述会话文本进行实体概念化处理和实体向量化处理，得到知识编码。

可选的，图2为图1中步骤S1的分步骤流程图，请参见图2：

S11：根据所述会话文本的语境信息得到一会话序列，将所述会话序列向量化表示得到一向量编码，并将所述向量编码输入至一深度学习模型中得到一会话文本编码。

在具体实施中，因为会话文本具有很强的上下文依赖性，特定的文本只有在特定的会话场景下才能够去表达含义，一旦脱离其会话上下文就没有任何意义，因此首先需要对会话文本进行预处理，即还原会话文本的上下文语境信息，在实际场景中可以将固定时间短的会话文本拼接为一条完整的会话预料，得到一系列的会话序列。

在具体实施中，基于预处理得到的会话序列，对会话序列进行向量化表示，可选的，可利用Word Embedding(词嵌入)等技术实现。在具体实施中，将其会话序列映射到高维向量空间，得到会话序列的向量编码。

在具体实施中，将得到的高维空间向量表示输入至深度学习模型中，对其进行统一编码，可选的，可以采用类似于Bert的模型去对会话文本序列embedding进行编码，得到高层次的语义表示，得到最终的会话文本编码。

S12：知识编码生成步骤，对所述会话文本进行实体识别得到实体属性，通过知识图谱对所述实体属性概念化表示为概念实体，通过所述概念实体得到所述知识编码。

可选的，将所述概念实体向量化表示得到一概念实体向量，将所述概念实体向量输入至一深度学习模型中得到一概念实体编码，并进一步将所述概念实体编码通过自注意力机制得到所述知识编码。

在具体实施中，基于现有的实体链接方法，首先对会话文本进行实体识别，得到其对应的实体属性。然后利用知识图谱从中获取实体属性对应的概念化表示。本申请提供一具体实施例对此作进一步说明：

在文本“乔布斯出生在美国”中，通过实体链接得到实体集为E＝{乔布斯}，然后将实体“乔布斯”概念化得到其对应的概念实体表示C＝{人，企业家，CEO})。

在具体实施中，对于得到一系列概念实体，首先将其表示为模型可接受的embedding表示形式，类似上面的会话文本，本申请利用Concept Embedding(概念潜入)对概念实体进行向量化表示，也将其映射到高维空间，得到概念实体的向量化表示形式。

在具体实施中，将得到的概念实体向量表示输入到深度学习模型中完成对概念实体的编码，可选的，可以采用类似于Bert的模型。

同时考虑到概念表示存在一定的语义歧义性，例如在文本“他使用苹果手机已经十年了”中，这句话中的“苹果”，可以在KB中检索到“水果”和“苹果手机”，显然，“水果”在这个例子中并不合适。

此外，还需考虑到内容概念的相对重要性问题，例如在文本“乔布斯是苹果公司的CEO”中，这句话中的“乔布斯”，我们可以在知识图谱中检索到“人”和“企业家”，显然，“企业家”对于分类的重要性更强。因此在语义编码后也将其输入到Self-attention模块中进一步的编码，通过神经网络的迭代更新，得到最终的知识编码。

请继续参见图1：

S2：对所述会话文本编码和所述知识编码按照一预设比例进行融合。

在具体实施中，对于得到的会话编码和知识编码，由于是在各自的语义空间下得到的编码表示，原始的会话文本和其对应的概念实体之间缺少信息交互，为了解决此问题，将两者编码按照一定的比例进行融合。

可选的，假设会话编码为a，知识编码为b，则最终融合后的编码表示为qa+(1-q)b,其中q为超参数，可以人工指定，也可以采用神经网络迭代学习的方法。

S3：将所述会话文本编码和所述知识编码融合后得到的特征输入至神经网络NN中得到所述会话文本对应的标签概率，根据所述标签概率确定一标签输出，得到训练完成的标签增强模型。

在具体实施中，基得到的融合后的特征，将其最后再输入神经网络NN中得到会话文本对应的标签概率，然后将概率值最大的标签作为短文本对应的标签输出。基于上述步骤进行模型训练，得到训练完成的标签增强模型。

在具体实施中，利用测试集数据验证模型性能，进行模型微调，并可利用微调后的模型实现对新增会话文本的标签增强。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例提供了一种标签增强模型构建系统，适用于上述的一种标签增强模型构建方法。如以下所使用的，术语“单元”、“模块”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件、或者软件和硬件的组合的实现也是可能并被构想的。

图3为根据本发明的标签增强模型构建系统的框架图，请参见图3，包括：

会话知识编码模块1：对一会话文本进行向量化处理，得到所述会话文本的会话文本编码，并对所述会话文本进行实体概念化处理和实体向量化处理，得到知识编码。

可选的，会话知识编码模块1还包括：

会话文本编码单元11：根据所述会话文本的语境信息得到一会话序列，将所述会话序列向量化表示得到一向量编码，并将所述向量编码输入至一深度学习模型中得到一会话文本编码。

知识编码生成单元12：知识编码生成步骤，对所述会话文本进行实体识别得到实体属性，通过知识图谱对所述实体属性概念化表示为概念实体，通过所述概念实体得到所述知识编码。

请继续参见图1：

编码特征融合模块2：对所述会话文本编码和所述知识编码按照一预设比例进行融合。

标签分类输出模块3：将所述会话文本编码和所述知识编码融合后得到的特征输入至神经网络NN中得到所述会话文本对应的标签概率，根据所述标签概率确定一标签输出，得到训练完成的标签增强模型。

另外，结合图1、图2描述的一种标签增强模型构建方法可以由电子设备来实现。图4为本发明的电子设备的框架图。

电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。

具体地，上述处理器61可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器62可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器62可在数据处理装置的内部或外部。在特定实施例中，存储器62是非易失性(Non-Volatile)存储器。在特定实施例中，存储器62包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器61所执行的可能的计算机程序指令。

处理器61通过读取并执行存储器62中存储的计算机程序指令，以实现上述实施例中的任意一种标签增强模型构建方法。

在其中一些实施例中，电子设备还可包括通信接口63和总线60。其中，如图4所示，处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。

通信端口63可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线60包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线60可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以执行本申请实施例中的一种标签增强模型构建方法。

另外，结合上述实施例中的一种标签增强模型构建方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种标签增强模型构建方法。

而前述的存储介质包括：U盘、移动硬盘、只读存储器(ReadOnly Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种标签增强模型构建方法，其特征在于，包括：

会话知识编码步骤，对一会话文本进行向量化处理，得到所述会话文本的会话文本编码，并对所述会话文本进行实体概念化处理和实体向量化处理，得到知识编码；

编码特征融合步骤，对所述会话文本编码和所述知识编码按照一预设比例进行融合；

标签分类输出步骤，将所述会话文本编码和所述知识编码融合后得到的特征输入至神经网络NN中得到所述会话文本对应的标签概率，根据所述标签概率确定一标签输出，得到训练完成的标签增强模型。

2.根据权利要求1所述的标签增强模型构建方法，其特征在于，所述会话知识编码步骤进一步包括：

会话文本编码步骤，根据所述会话文本的语境信息得到一会话序列，将所述会话序列向量化表示得到一向量编码，并将所述向量编码输入至一深度学习模型中得到一会话文本编码。

3.根据权利要求1所述的标签增强模型构建方法，其特征在于，所述会话知识编码步骤进一步包括：

知识编码生成步骤，对所述会话文本进行实体识别得到实体属性，通过知识图谱对所述实体属性概念化表示为概念实体，通过所述概念实体得到所述知识编码。

4.根据权利要求3所述的标签增强模型构建方法，其特征在于，所述知识编码生成步骤进一步包括：

将所述概念实体向量化表示得到一概念实体向量，将所述概念实体向量输入至一深度学习模型中得到一概念实体编码，并进一步将所述概念实体编码通过自注意力机制得到所述知识编码。

5.一种标签增强模型构建系统，其特征在于，包括：

会话知识编码模块，对一会话文本进行向量化处理，得到所述会话文本的会话文本编码，并对所述会话文本进行实体概念化处理和实体向量化处理，得到知识编码；

编码特征融合模块，对所述会话文本编码和所述知识编码按照一预设比例进行融合；

标签分类输出模块，将所述会话文本编码和所述知识编码融合后得到的特征输入至神经网络NN中得到所述会话文本对应的标签概率，根据所述标签概率确定一标签输出，得到训练完成的标签增强模型。

6.根据权利要求5所述的标签增强模型构建系统，其特征在于，所述会话知识编码模块进一步包括：

会话文本编码单元，根据所述会话文本的语境信息得到一会话序列，将所述会话序列向量化表示得到一向量编码，并将所述向量编码输入至一深度学习模型中得到一会话文本编码。

7.根据权利要求5所述的标签增强模型构建系统，其特征在于，所述会话知识编码模块进一步包括：

知识编码生成单元，对所述会话文本进行实体识别得到实体属性，通过知识图谱对所述实体属性概念化表示为概念实体，通过所述概念实体得到所述知识编码。

8.根据权利要求7所述的标签增强模型构建系统，其特征在于，所述知识编码生成单元进一步包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的标签增强模型构建方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的标签增强模型构建方法。