CN114020930A

CN114020930A - 基于会话场景的用户标签识别方法及装置

Info

Publication number: CN114020930A
Application number: CN202111294221.0A
Authority: CN
Inventors: 李煜; 丑晓慧
Original assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Current assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-08

Abstract

本申请涉及一种基于会话场景的用户标签识别方法、装置、计算机设备和存储介质。所述方法包括：对对话短文本进行文本预处理，得到最小语义单元；最小语义单元中包含多个一级标签；将最小语义单元输入预先训练的一级标签识别模型；一级标签识别模型包括：向量转换模块和语义识别模块；通过向量转换模块对最小语义单元进行向量转换，得到一维向量组；一维向量组中的向量融合之后输入语义识别模块，得到语义向量；语义向量为一级标签识别结果；从语义向量中获取二级标签列表，根据二级标签列表的属性分别输入对应训练的二级标签识别模型进行标签识别，得到二级标签识别结果。采用本方法能够能够提高标签识别准确率。

Description

基于会话场景的用户标签识别方法及装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于会话场景的用户标签识别方法、装置、计算机设备和存储介质。

背景技术

通常情况下，大部分客服系统包括人工智能客服都会积累大量的用户会话数据，有效的提取会话数据中的关键信息，方便对用户进行精准定位，用户的个性化需求也一目了然。客服人员可随时了解客户背景和需求，帮助回忆话题和关键信息。在最大程度做到挖掘更多意向用户，提取用户的核心价值。

然而，现有的标签识别方法没办法从上下文感知的角度提取用户的语义标签。在标签语义信息利用过程中存在文本特征提取不充分、文本特征信息丢失的问题。另外，标签的类型不一致也会导致无法用统一的模型进行识别。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高标签识别准确率的基于会话场景的用户标签识别方法、装置、计算机设备和存储介质。

一种基于会话场景的用户标签识别方法，所述方法包括：

获取用户会话场景信息；用户会话场景信息中包含多个对话短文本；

对对话短文本进行文本预处理，得到最小语义单元；最小语义单元中包含多个一级标签；

将最小语义单元输入预先训练的一级标签识别模型；一级标签识别模型包括：向量转换模块和语义识别模块；

通过向量转换模块对最小语义单元进行向量转换，得到一维向量组；一维向量组包括字向量、文本向量和位置向量；

将字向量、文本向量和位置向量融合之后输入语义识别模块，得到语义向量；语义向量为一级标签识别结果；

从语义向量中获取二级标签列表，根据二级标签列表的属性分别输入对应训练的二级标签识别模型进行标签识别，得到二级标签识别结果；

一级标签识别结果和二级标签识别结果为用户标签识别结果。

在其中一个实施例中，获取会话样本；会话样本中包含多个一级标签，以及所述一级标签包含多个二级标签；利用会话样本和会话样本中的一级标签对一级标签识别模型进行训练，得到训练的一级标签识别模型；根据一级标签训练时输出的预测一级标签和会话样本中的二级标签对二级标签识别模型进行训练，得到训练的二级标签识别模型。

在其中一个实施例中，向量转换模块为BERT模型。

在其中一个实施例中，语义识别模块为Dense+softmax网络单元或BiLSTM+softmax网络单元或CNN+softmax网络单元。

在其中一个实施例中，字向量、文本向量和位置向量融合之后输入语义识别模块，得到语义向量，包括：将字向量、文本向量和位置向量进行相加，将加和输入语义识别模块，得到语义向量；语义向量为融合最小语义单元的全部语义信息的向量表示。

在其中一个实施例中，通过向量转换模块对最小语义单元进行向量转换，得到一维向量组，包括：向量转换模块通过查询字向量表对最小语义单元进行向量转换，得到一维向量组。

在其中一个实施例中，预处理包括去除特殊符号、去除标点符号、去除富文本信息以及去除停用词。

一种基于会话场景的用户标签识别装置，其特征在于，所述装置包括：

数据处理模块，用于获取用户会话场景信息；用户会话场景信息中包含多个对话短文本；对对话短文本进行文本预处理，得到最小语义单元；最小语义单元中包含多个一级标签；

一级标签识别模块，用于将最小语义单元输入预先训练的一级标签识别模型；一级标签识别模型包括：向量转换模块和语义识别模块；通过向量转换模块对最小语义单元进行向量转换，得到一维向量组；一维向量组包括字向量、文本向量和位置向量；将字向量、文本向量和位置向量融合之后输入语义识别模块，得到语义向量；语义向量为一级标签识别结果；

二级标签识别模块，用于从语义向量中获取二级标签列表，根据二级标签列表的属性分别输入对应训练的二级标签识别模型进行标签识别，得到二级标签识别结果；一级标签识别结果和二级标签识别结果为用户标签识别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于会话场景的用户标签识别方法、装置、计算机设备和存储介质，首先对对话短文本进行文本预处理，将得到的充分考虑上下文感知信息的最小语义单元作为预先训练的一级标签识别模型的输入，从得到语义向量中获取二级标签列表，根据二级标签列表的属性分别输入对应预先训练的二级标签识别模型进行标签识别。本申请一方面，通过大量的样本预先训练了一级标签识别模型，对样本中的语义信息进行整合，得到了多个一级标签，一级标签是具有结构化的，其中包含多个二级标签，将根据一级标签训练时输出的预测一级标签对二级标签识别模型进行训练，使得训练的二级标签识别模型更加准确，另一方面，通过构建层级结构的标签模型，将一级标签识别结果作为二级标签识别模型的输入，会使得识别结果更加准确，并且二级标签识别模型中的各个模型之间是相互独立的，能够灵活的适配标签体系中标签增减，根据不同的标签类型，分别适配不同的标签识别模型，充分考虑文本特征信息，提升了标签的识别准确率。

附图说明

图1为一个实施例中一种基于会话场景的用户标签识别方法的流程示意图；

图2为一个实施例中一种基于会话场景的用户标签识别装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于会话场景的用户标签识别方法，包括以下步骤：

步骤102，获取用户会话场景信息；用户会话场景信息中包含多个对话短文本；对对话短文本进行文本预处理，得到最小语义单元；最小语义单元中包含多个一级标签。

用户会话场景信息中，单一角色可能会产生多句表达，将连续的同角色表达合并成一句，形成不同角色交替出现的会话文本，会话文本存在角色信息，为了完整的表示这段对话的完整意图，将单轮对话作为对话短文本，对对话短文本进行预处理过程，如去特殊符号、标点符号、富文本信息及停用词等，预处理后的对话短文本为最小语义单元，最小语义单元充分考虑上下文感知信息，并且包含了多个一级标签。

步骤104，将最小语义单元输入预先训练的一级标签识别模型；一级标签识别模型包括：向量转换模块和语义识别模块。

最小语义单元一般包含多个一级标签，比如：“我的女儿是一个律师”这句话中就包含了子女标签和职业标签，故一级标签识别模型为多标签分类模型。

步骤106，通过向量转换模块对最小语义单元进行向量转换，得到一维向量组；一维向量组包括字向量、文本向量和位置向量。

向量转换模块为BERT模型，字向量为各字对应的融合全文语义信息后的向量表示，文本向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合，同时，由于出现在文本不同位置的字/词所携带的语义信息存在差异，BERT模型对不同位置的字/词分别附加一个位置向量以作区分。

步骤108，将字向量、文本向量和位置向量融合之后输入语义识别模块，得到语义向量；语义向量为一级标签识别结果。

语义向量为包含更为准确的语义信息的向量表示，即语义信息中的一级标签。

步骤110，从语义向量中获取二级标签列表，根据二级标签列表的属性分别输入对应训练的二级标签识别模型进行标签识别，得到二级标签识别结果；一级标签识别结果和二级标签识别结果为用户标签识别结果。

二级标签识别模型包括多分类模型，多标签分类模型和命名实体识别模型。二级标签列表中，如：职业，学历等标签信息只有一种选项，不会产生多种选择，所以这类二级标签对应的模型属于多分类模型。如：子女信息，购买的生活用品等标签，可以包含多个选择，所以这类二级标签对应的模型属于多标签分类模型。如：家庭地址，工作单位等标签，需要识别出具体的地址信息，这类二级标签对应的模型属于命名实体识别模型。分别利用对应的二级标签识别模型进行识别，使得二级标签识别结果更加准确。

上述基于会话场景的用户标签识别方法中，首先对对话短文本进行文本预处理，将得到的充分考虑上下文感知信息的最小语义单元作为预先训练的一级标签识别模型的输入，从得到语义向量中获取二级标签列表，根据二级标签列表的属性分别输入对应预先训练的二级标签识别模型进行标签识别。本申请通过大量的样本预先训练了一级标签识别模型，对样本中的语义信息进行整合，得到了多个一级标签，一级标签是具有结构化的，其中包含多个二级标签，将根据一级标签训练时输出的预测一级标签对二级标签识别模型进行训练，使得训练的二级标签识别模型更加准确，通过构建层级结构的标签模型，将一级标签识别结果作为二级标签识别模型的输入，会使得识别结果更加准确，并且二级标签识别模型中的各个模型之间是相互独立的，能够灵活的适配标签体系中标签增减，根据不同的标签类型，分别适配不同的标签识别模型，充分考虑文本特征信息，提升了标签的识别准确率。

通过大量的样本预先训练了一级标签识别模型，对样本中的语义信息进行整合，得到了多个一级标签，一级标签是具有结构化的，将根据一级标签训练时输出的预测一级标签对二级标签识别模型进行训练，使得训练的二级标签识别模型更加准确，提升了标签的识别准确率。

在另一个实施例中，二级标签识别模型包括多分类模型，多标签分类模型和命名实体识别模型。

多分类模型包括向量转换模块和语义识别模块，其中向量转换模块为BERT模型，语义识别模块为Dense+sigmod网络单元或BiLSTM+sigmod网络单元或CNN+sigmod网络单元。命名实体识别模型包括向量转换模块和语义识别模块，其中向量转换模块为BERT模型或BiLSTM模型，语义识别模块为CRF网络单元或Dense网络单元。

在其中一个实施例中，向量转换模块为BERT模型。

BERT是一种预训练语言表示的方法，在大量文本语料上训练了一个通用的语言理解模型，该模型用于执行想做的NLP任务。BERT是第一个用在预训练NLP上的无监督的、深度双向系统，使用预训练的BERT模型来进行新词的发现具有更好的表现。

具体的，将待识别数据集的句子输入BERT+CRF模型的BERT层，得到句子中单词的编码向量；然后，将句子中单词的编码向量输入BERT+CRF模型的CRF层，得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵；其次，BERT+CRF模型的CRF层采用维特比算法处理每个句子的概率矩阵，得到最优标注序列；从最优标注序列得到句子中每个单词的标签作为命名实体识别结果，即发现的新标签。

将字向量、文本向量和位置向量融合之后输入语义识别模块，可以充分考虑最小语义单元的全部语义信息，得到的语义向量更加准确，使得从语义向量中获取的二级标签列表也更加准确。

应该理解的是，虽然图1流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于会话场景的用户标签识别装置，包括：数据处理模块202、一级标签识别模块204和二级标签识别模块206，其中：

数据处理模块202，用于获取用户会话场景信息；用户会话场景信息中包含多个对话短文本；对对话短文本进行文本预处理，得到最小语义单元；最小语义单元中包含多个一级标签。

一级标签识别模块204，用于将最小语义单元输入预先训练的一级标签识别模型；一级标签识别模型包括：向量转换模块和语义识别模块；通过向量转换模块对最小语义单元进行向量转换，得到一维向量组；一维向量组包括字向量、文本向量和位置向量；将字向量、文本向量和位置向量融合之后输入语义识别模块，得到语义向量；语义向量为一级标签识别结果。

二级标签识别模块206，用于从语义向量中获取二级标签列表，根据二级标签列表的属性分别输入对应训练的二级标签识别模型进行标签识别，得到二级标签识别结果；一级标签识别结果和二级标签识别结果为用户标签识别结果。

在其中一个实施例中，还包括模型训练模块，用于获取会话样本；会话样本中包含多个一级标签，以及所述一级标签包含多个二级标签；利用会话样本和会话样本中的一级标签对一级标签识别模型进行训练，得到训练的一级标签识别模型；根据一级标签训练时输出的预测一级标签和会话样本中的二级标签对二级标签识别模型进行训练，得到训练的二级标签识别模型。

在其中一个实施例中，一级标签识别模块204，还用于将字向量、文本向量和位置向量进行相加，将加和输入语义识别模块，得到语义向量；语义向量为融合最小语义单元的全部语义信息的向量表示。

在其中一个实施例中，一级标签识别模块204，还用于向量转换模块通过查询字向量表对最小语义单元进行向量转换，得到一维向量组。

在其中一个实施例中，数据处理模块202还用于去除特殊符号、去除标点符号、去除富文本信息以及去除停用词。

关于一种基于会话场景的用户标签识别装置的具体限定可以参见上文中对于一种基于会话场景的用户标签识别方法的限定，在此不再赘述。上述一种基于会话场景的用户标签识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于会话场景的用户标签识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于会话场景的用户标签识别方法，其特征在于，所述方法包括：

获取用户会话场景信息；所述用户会话场景信息中包含多个对话短文本；

对所述对话短文本进行文本预处理，得到最小语义单元；所述最小语义单元中包含多个一级标签；

将所述最小语义单元输入预先训练的一级标签识别模型；所述一级标签识别模型包括：向量转换模块和语义识别模块；

通过所述向量转换模块对所述最小语义单元进行向量转换，得到一维向量组；所述一维向量组包括字向量、文本向量和位置向量；

将所述字向量、文本向量和位置向量融合之后输入所述语义识别模块，得到语义向量；所述语义向量为一级标签识别结果；

从所述语义向量中获取二级标签列表，根据所述二级标签列表的属性分别输入对应训练的二级标签识别模型进行标签识别，得到二级标签识别结果；

所述一级标签识别结果和所述二级标签识别结果为用户标签识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取会话样本；所述会话样本中包含多个一级标签，以及所述一级标签包含多个二级标签；

利用所述会话样本和会话样本中的一级标签对一级标签识别模型进行训练，得到训练的一级标签识别模型；

根据一级标签训练时输出的预测一级标签和会话样本中的二级标签对所述二级标签识别模型进行训练，得到训练的二级标签识别模型。

3.根据权利要求2所述的方法，其特征在于，所述向量转换模块为BERT模型。

4.根据权利要求3所述的方法，其特征在于，所述语义识别模块为Dense+softmax网络单元或BiLSTM+softmax网络单元或CNN+softmax网络单元。

5.根据权利要求1所述的方法，其特征在于，将所述字向量、文本向量和位置向量融合之后输入所述语义识别模块，得到语义向量，包括：

将所述字向量、文本向量和位置向量进行相加，将加和输入所述语义识别模块，得到语义向量；所述语义向量为融合所述最小语义单元的全部语义信息的向量表示。

6.根据权利要求1所述的方法，其特征在于，通过所述向量转换模块对所述最小语义单元进行向量转换，得到一维向量组，包括：

所述向量转换模块通过查询字向量表对所述最小语义单元进行向量转换，得到一维向量组。

7.根据权利要求6所述的方法，其特征在于，所述预处理包括去除特殊符号、去除标点符号、去除富文本信息以及去除停用词。

8.一种基于会话场景的用户标签识别装置，其特征在于，所述装置包括：

数据处理模块，用于获取用户会话场景信息；所述用户会话场景信息中包含多个对话短文本；对所述对话短文本进行文本预处理，得到最小语义单元；所述最小语义单元中包含多个一级标签；

一级标签识别模块，用于将所述最小语义单元输入预先训练的一级标签识别模型；所述一级标签识别模型包括：向量转换模块和语义识别模块；通过所述向量转换模块对所述最小语义单元进行向量转换，得到一维向量组；所述一维向量组包括字向量、文本向量和位置向量；将所述字向量、文本向量和位置向量融合之后输入所述语义识别模块，得到语义向量；所述语义向量为一级标签识别结果；

二级标签识别模块，用于从所述语义向量中获取二级标签列表，根据所述二级标签列表的属性分别输入对应训练的二级标签识别模型进行标签识别，得到二级标签识别结果；所述一级标签识别结果和所述二级标签识别结果为用户标签识别结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。