CN115510865A

CN115510865A - 产品标题实体识别方法及装置

Info

Publication number: CN115510865A
Application number: CN202211272946.4A
Authority: CN
Inventors: 童楚婕
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2022-12-23

Abstract

本发明公开了一种产品标题实体识别方法及装置，应用于人工智能技术领域，其中该方法包括：获取当前产品的标题文本；确定当前产品的标题文本中每一词语及对应的语义特征；将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中，识别得到当前产品的标题实体；所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立，在建立所述模型的过程中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。本发明避免了人工标注，减少了人力成本，提高了产品标题实体识别的效率和准确率，进而提升了后续产品搜索和推荐的准确性，提升了用户体验感。

Description

产品标题实体识别方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种产品标题实体识别方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

手机银行中的理财产品、贵金属商品、优惠券商品等产品标题包含了产品的关键信息，产品标题实体识别是自然语言处理应用中的一项核心基础任务，产品标题文本的实体密度高、实体粒度细，如何从其中提取相关的实体，为多种下游场景所复用，从标题文本中低成本、高效且准确抽取出商品相关实体，提升检索、推荐等业务场景下的用户体验和平台效率是当前面临的问题。

发明内容

本发明实施例提供一种产品标题实体识别方法，用以避免人工标注，减少人力成本，提高产品标题实体识别的效率和准确率，进而提升后续产品搜索和推荐的准确性，该方法包括：

获取当前产品的标题文本；

确定当前产品的标题文本中每一词语及对应的语义特征；

将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中，识别得到当前产品的标题实体；所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立，在建立所述模型的过程中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。

本发明实施例还提供一种产品标题实体识别装置，用以避免人工标注，减少人力成本，提高产品标题实体识别的效率和准确率，进而提升后续产品搜索和推荐的准确性，该装置包括：

获取模块，用于获取当前产品的标题文本；

确定模块，用于确定当前产品的标题文本中每一词语及对应的语义特征；

识别模块，用于将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中，识别得到当前产品的标题实体；所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立，在建立所述模型的过程中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述产品标题实体识别方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述产品标题实体识别方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述产品标题实体识别方法。

本发明实施例中，通过获取当前产品的标题文本；确定当前产品的标题文本中每一词语及对应的语义特征；将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中，识别得到当前产品的标题实体；所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立，在建立所述模型的过程中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。在上述过程中，本发明实施例利用预训练模型对产品标题实体识别模型进行训练，并标注出产品标题文本中的词语的语义特征，根据产品标题实体识别模型，获得产品的标题实体，从而避免人工标注，减少人力成本，提高了产品标题实体识别的效率和准确率，进而提升了后续产品搜索和推荐的准确性，提升用户体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中产品标题实体识别方法的原理图；

图2为本发明实施例中产品标题实体识别方法的流程图；

图3为本发明实施例中建立产品标题实体识别模型的流程图；

图4为本发明实施例中选择最佳产品标题实体识别模型的流程图；

图5为本发明实施例中产品标题实体识别装置的示意图；

图6为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

下面对本发明实施例涉及的术语进行解释：

1.实体：在NLP中通常所说的实体指的是人名、地名、机构名，在新闻领域，我们希望了解突发事件的主体，比如人物、地点、机构等等。如果扩展的话，就是你所关心的词语，比如在商品标题中，我们会关心品牌词、物品词、物品属性词，通过这些词+情感极性词，可以更详细地了解顾客的购物意愿；

2.实体识别：机器识别实体的方法；

3.ERNIE:Enhanced Language Representation with Informative Entities。ERNIE模型通过建模海量数据中的实体概念等先验语义知识，学习真实世界的语义关系。具体来说，ERNIE模型通过对词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。相较于BERT学习原始语言信号，ERNIE直接对先验语义知识单元进行建模，增强了模型语义表示能力。ERNIE模型本身保持基于字特征输入建模，使得模型在应用时不需要依赖其他信息，具备更强的通用性和可扩展性。相对词特征输入模型，字特征可建模字的组合语义，例如建模红色，绿色，蓝色等表示颜色的词语时，通过相同字的语义组合学到词之间的语义关系。

图1为本发明实施例中产品标题实体识别方法的原理图，由图1可知，本发明实施例利用预训练模型对产品标题实体识别模型进行训练，并标注出产品标题文本中的词语的语义特征，根据产品标题实体识别模型，获得产品的标题实体，从而避免人工标注，减少人力成本，提高了产品标题实体识别的效率和准确率，进而提升了后续产品搜索和推荐的准确性，提升用户体验感。

图2为本发明实施例中产品标题实体识别方法的流程图，如图2所示，该方法包括如下步骤：

步骤201，获取当前产品的标题文本；

步骤202，确定当前产品的标题文本中每一词语及对应的语义特征；

步骤203，将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中，识别得到当前产品的标题实体；所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立，在建立所述模型的过程中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。

本发明实施例提供的产品标题实体识别方法，工作时：获取当前产品的标题文本；确定当前产品的标题文本中每一词语及对应的语义特征；将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中，识别得到当前产品的标题实体；所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立，在建立所述模型的过程中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。在上述过程中，本发明实施例利用预训练模型对产品标题实体识别模型进行训练，并标注出产品标题文本中的词语的语义特征，根据产品标题实体识别模型，获得产品的标题实体，从而避免人工标注，减少人力成本，提高了产品标题实体识别的效率和准确率，进而提升了后续产品搜索和推荐的准确性，提升用户体验感。下面详细说明每一步骤。

在步骤201中，获取当前产品的标题文本。

在一实施例中，产品可以为银行产品。

在一实施例中，产品可以包括：银行理财产品、优惠券产品、活动产品或贵金属产品。

在步骤202中，确定当前产品的标题文本中每一词语及对应的语义特征。

具体实施例中，语义特征可以包括词性、位置等。

在步骤203中，将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中，识别得到当前产品的标题实体；所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立，在建立所述模型的过程中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。

图3为本发明实施例中建立产品标题实体识别模型的流程图，在一实施例中，还包括：按照如下方法预先建立所述产品标题实体识别模型：

步骤301，接收多个历史产品标题数据集样本数据；

步骤302，将所述样本数据按照预设比例随机划分为训练集和验证集；

步骤303，为训练集和验证集中的每一产品标题数据加工标签，以使得每一产品标题数据中每一词语具有语义特征标签；

步骤304，根据每一产品标题数据中每一词语具有语义特征标签，得到每一产品标题数据中每一词语与语义特征标签之间的关系；

步骤305，根据所述关系，利用预训练模型，将每一产品标题数据中每一词语标注对应的语义特征标签，得到用于建立产品标题实体识别模型的训练集和验证集；

步骤306，利用所述训练集进行多轮模型训练，得到多个产品标题实体识别模型，从多个产品标题实体识别模型中选择出最佳产品标题实体识别模型；

步骤307，利用所述验证集验证所述最佳产品标题实体识别模型，得到最终的初步产品标题实体识别模型。

图4为本发明实施例中选择最佳产品标题实体识别模型的流程图，在一实施例中，利用所述训练集进行多轮模型训练，得到多个产品标题实体识别模型，从多个产品标题实体识别模型中选择出最佳产品标题实体识别模型，包括：

步骤401，通过不断从训练集中拿取批样本数据进入模型训练过程做前向计算；

步骤402，使用前向计算结果，利用损失函数和预设评价指标，计算损失值；

步骤403，根据损失值反向回传更新梯度后，重新拿取批样本数据重复来训练模型，直到所述最佳产品标题实体识别模型。

在一实施例中，识别得到的标题实体用于产品搜索和产品推荐。

在一实施例中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注，可以包括：

利用ERINE预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。

具体实施例中，从产品标题数据集中获取训练数据，利用ERNIE预训练模型训练产品标题实体识别模型，经过多轮模型训练，提升产品标题实体识别模型性能，选择效果最佳的产品标题实体识别模型，识别出标题中的实体，如品牌词、商品词、商品属性词等，可以进一步提升语义特征标注的效率和准确率。

为了便于理解本发明如何实施，下面再结合附图1进行详细介绍。

手机银行的产品或者活动标题包含了商品的大量关键信息，商品标题实体识别是NLP应用中的一项核心基础任务，能为多种下游场景所复用，从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。

近年来随着深度学习的发展，模型参数的数量飞速增长。为了训练这些参数，就需要更大的数据集来避免过拟合。然而，对于大部分NLP任务来说，构建大规模的标注数据集非常困难(成本过高)，特别是对于句法和语义相关的任务。但是标注数据更是一个昂贵资源。需要耗费大量的人力物力。

基于上面提到的技术问题，本发明实施例提出一种产品标题实体识别方法，该方法为一种基于手机银行商品标题实体识别的方法，即该产品标题实体识别方法为一种手机银行的功能，该方法利用手机银行理财产品、贵金属商品、优惠券商场或者活动标题等数据，通过常用的文本处理方法，利用通过基于大型语料库的预训练ERNIE模型从大量无标注数据中进行预训练，获得显著的性能提升，学习通用的语言表示作为模型输入多轮训练模型，选择预测效果最佳的模型进行预测，识别出标题中的实体，如品牌词、商品词、商品属性词等，通过这些词+情感极性词为后续的商品搜索和推荐提升准确性，为用户体验的提升打下基础。

如图1所示，该产品标题实体识别方法应用装置可以包括如下模块：

1.输入模块：用于接收待输入的手机银行理财产品、优惠券商品、活动商品、贵金属商品等的标题数据集文本，数据划分比例和超参数；该输入模块可以实现上面步骤301。

2.数据划分模块：对输入的数据集进行用户指定的分割比例对数据进行随机划分训练集和验证集；该数据划分模块可以实现上面步骤302。

3.数据标签生成模块：对数据集文本加工标签，将数据集中的每条数据加工，使每条数据包含一句文本以及这条文本中中每个汉字及数字对应的label标签；该数据标签生成模块可以实现上面步骤303。

4.数据处理模块：该模块对原始输入文本进行编码，包括词性、位置等，主要作用是将文本转化为模型可以接受的输入数据形式；该数据处理模块可以实现上面步骤304。

5.预训练模块：使用ERINE为与训练模型完成序列标注任务；该预训练模块可以实现上面步骤305。

6.模型训练模块：通过不断从训练数据中拿取批数据进入模型训练过程做前向计算，使用前向计算结果利用损失函数和评价方法计算损失值和评价指标，根据损失值反向回传，更新梯度，重新拿取批数据重复来训练模型；该预训练模块可以实现上面步骤306。

7.模型预测模块：在训练模型中寻找最好的模型，输入新的商品标题数据进行预测，抽取商品相关的实体，便于后续任务进行更好的检索和推荐；该模型预测模块可以实现上面步骤307。

8.输出模块：输出预测结果，支持业务人员进行手工干预，并将最终结果加入训练数据中。

具体实施时，基于上述模块，本发明实施例提供的产品标题实体识别方法的流程可以包括如下过程：

1.收集手机银行理财商品、优惠券商品、活动商品、贵金属商品等的标题数据集文本，手动提取相关实体；

2.进行数据的划分、构建标签表和数据处理；

3.训练预训练模型学习通用的语言表示；

4.根据进行了预训练的数据进行模型训练；

5.模型预测；

6.结果输出。

本发明实施例还提出一种产品标题实体识别装置，其原理与产品标题实体识别方法类似，这里不再赘述。图5为本发明实施例中产品标题实体识别装置的示意图，包括：

获取模块501，用于获取当前产品的标题文本；

确定模块502，用于确定当前产品的标题文本中每一词语及对应的语义特征；

识别模块503，用于将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中，识别得到当前产品的标题实体；所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立，在建立所述模型的过程中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。

在一实施例中，还包括产品标题实体识别模型建立模块，用于按照如下方法预先建立所述产品标题实体识别模型：

接收多个历史产品标题数据集样本数据；

将所述样本数据按照预设比例随机划分为训练集和验证集；

为训练集和验证集中的每一产品标题数据加工标签，以使得每一产品标题数据中每一词语具有语义特征标签；

根据每一产品标题数据中每一词语具有语义特征标签，得到每一产品标题数据中每一词语与语义特征标签之间的关系；

根据所述关系，利用预训练模型，将每一产品标题数据中每一词语标注对应的语义特征标签，得到用于建立产品标题实体识别模型的训练集和验证集；

利用所述训练集进行多轮模型训练，得到多个产品标题实体识别模型，从多个产品标题实体识别模型中选择出最佳产品标题实体识别模型；

利用所述验证集验证所述最佳产品标题实体识别模型，得到最终的初步产品标题实体识别模型。

在一实施例中，利用所述训练集进行多轮模型训练，得到多个产品标题实体识别模型，从多个产品标题实体识别模型中选择出最佳产品标题实体识别模型，包括：

通过不断从训练集中拿取批样本数据进入模型训练过程做前向计算；

使用前向计算结果，利用损失函数和预设评价指标，计算损失值；

根据损失值反向回传更新梯度后，重新拿取批样本数据重复来训练模型，直到所述最佳产品标题实体识别模型。

在一实施例中，产品为银行产品。

在一实施例中，产品包括：银行理财产品、优惠券产品、活动产品或贵金属产品。

在一实施例中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注，包括：

综上所述，在本发明实施例提出的装置中，通过获取当前产品的标题文本；确定当前产品的标题文本中每一词语及对应的语义特征；将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中，识别得到当前产品的标题实体；所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立，在建立所述模型的过程中，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。在上述过程中，本发明实施例利用预训练模型对产品标题实体识别模型进行训练，并标注出产品标题文本中的词语的语义特征，根据产品标题实体识别模型，获得产品的标题实体，从而避免人工标注，减少人力成本，提高了产品标题实体识别的效率和准确率，进而提升了后续产品搜索和推荐的准确性，提升用户体验感。

本发明实施例还提供一种计算机设备，图6为本发明实施例中计算机设备的示意图，所述计算机设备600包括存储器610、处理器620及存储在存储器610上并可在处理器620上运行的计算机程序630，所述处理器620执行所述计算机程序630时实现上述产品标题实体识别方法。

本发明实施例提供的产品标题实体识别方案的优点为：

1.通过利用预训练模型来避免对大量文本数据的标注工作，避免人工标注，减少了人力成本，提高效率；

2.预训练的模型学习出通用的语言表示作为模型输入，显著提升了模型性能；通过模型训练和预测对产品标题进行实体识别，结果可以为多种下游场景所复用；

3.识别出标题中的实体，如品牌词、商品词、商品属性词等，通过这些词+情感极性词为后续的商品搜索和推荐提升准确性，为用户体验的提升打下基础。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种产品标题实体识别方法，其特征在于，包括：

获取当前产品的标题文本；

确定当前产品的标题文本中每一词语及对应的语义特征；

2.如权利要求1所述的方法，其特征在于，还包括：按照如下方法预先建立所述产品标题实体识别模型：

接收多个历史产品标题数据集样本数据；

将所述样本数据按照预设比例随机划分为训练集和验证集；

3.如权利要求2所述的方法，其特征在于，利用所述训练集进行多轮模型训练，得到多个产品标题实体识别模型，从多个产品标题实体识别模型中选择出最佳产品标题实体识别模型，包括：

4.如权利要求1所述的方法，其特征在于，所述产品为银行产品。

5.如权利要求1所述的方法，其特征在于，所述产品包括：银行理财产品、优惠券产品、活动产品或贵金属产品。

6.如权利要求1所述的方法，其特征在于，识别得到的标题实体用于产品搜索和产品推荐。

7.如权利要求1所述的方法，其特征在于，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注，包括：

8.一种产品标题实体识别装置，其特征在于，包括：

获取模块，用于获取当前产品的标题文本；

9.如权利要求8所述的装置，其特征在于，还包括产品标题实体识别模型建立模块，用于按照如下方法预先建立所述产品标题实体识别模型：

接收多个历史产品标题数据集样本数据；

将所述样本数据按照预设比例随机划分为训练集和验证集；

10.如权利要求9所述的装置，其特征在于，利用所述训练集进行多轮模型训练，得到多个产品标题实体识别模型，从多个产品标题实体识别模型中选择出最佳产品标题实体识别模型，包括：

11.如权利要求8所述的装置，其特征在于，所述产品为银行产品。

12.如权利要求8所述的装置，其特征在于，所述产品包括：银行理财产品、优惠券产品、活动产品或贵金属产品。

13.如权利要求8所述的装置，其特征在于，识别得到的标题实体用于产品搜索和产品推荐。

14.如权利要求8所述的装置，其特征在于，利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注，包括：

15.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。