CN113705159A

CN113705159A - 商户名称的标注方法、装置、设备及存储介质

Info

Publication number: CN113705159A
Application number: CN202110379582.9A
Authority: CN
Inventors: 林岳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-11-26

Abstract

本申请实施例公开了一种商户名称的标注方法、装置、设备及存储介质，属于自然语言处理技术领域。该方法包括：获取样本文本；利用样本文本对第一文本标注模型进行预训练；对训练完成的第一文本标注模型进行知识蒸馏，得到第二文本标注模型。本申请实施例利用第二文本标注模型对商户名称进行自动化标注，提升了对商户名称的标注效率，只需人工标注少量的商户名称，减少了人工标注成本；并且，先利用样本文本对结构复杂但精度较高的第一文本标注模型进行训练，再对训练完成的第一文本标注模型进行知识蒸馏得到结构简单的第二文本标注模型，得到具有复杂模型推理能力的简单模型，便于应用阶段模型的部署，且能够节省商户名称标注时的计算资源。

Description

商户名称的标注方法、装置、设备及存储介质

技术领域

本申请实施例涉及自然语言处理技术领域，特别涉及一种商户名称的标注方法、装置、设备及存储介质。

背景技术

在网络业务应用场景中，经常需要对文本内容进行标注，例如，对于资讯类应用程序，需要对待发布的内容进行标注(如科技、美食、旅游等)，以便用户查阅，或者对于线上支付类应用程序，需要对各个商户所属的行业类目进行标注，以便用户进行搜索或统计支出等。

相关技术中，目前较为普遍的文本标注方式为人工标注，由多人组成的标注小组，按照相同的标注准则标注同一份文本数据，通过审核机制的审核，得到最终的标注结果。

然而，网络业务场景中通常存在大量的待标注文本，依靠人力进行文本标注的效率较低，并且为了提高标注的准确率，需要花费时间进行培训，且需要多人协作标注同一份文本，因此人工标注所需的成本较高。

发明内容

本申请实施例提供了一种商户名称的标注方法、装置、设备及存储介质，能够减少人工标注成本，并且便于模型部署。所述技术方案如下：

一方面，本申请实施例提供了一种商户名称的标注方法，所述方法包括：

获取样本文本，所述样本文本是携带有样本标签的商户名称，所述样本标签由人工预标注所述样本文本得到，所述样本标签用于表征所述样本文本的商户类别；

利用所述样本文本对第一文本标注模型进行预训练，所述第一文本标注模型用于识别所述商户名称对应的所述商户类别；

对训练完成的所述第一文本标注模型进行知识蒸馏，得到第二文本标注模型，所述第二文本标注模型用于识别所述商户名称对应的所述商户类别，且所述第二文本标注模型的模型复杂度小于所述第一文本标注模型的模型复杂度。

另一方面，本申请实施例提供了一种商户名称的标注方法，所述方法包括：

获取待标注的目标商户名称；

将所述目标商户名称输入第二文本标注模型，得到所述第二文本标注模型的输出结果，所述第二文本标注模型通过对第一文本标注模型进行知识蒸馏以及训练得到，所述第一文本标注模型的模型复杂度高于所述第二文本标注模型的模型复杂度，所述输出结果用于指示所述目标商户名称对应的目标商户类别；

基于所述目标商户类别，对所述目标商户名称进行标注。

另一方面，本申请实施例提供了一种商户名称的标注装置，所述装置包括：

第一获取模块，用于获取样本文本，所述样本文本是携带有样本标签的商户名称，所述样本标签由人工预标注所述样本文本得到，所述样本标签用于表征所述样本文本的商户类别；

第一训练模块，用于利用所述样本文本对第一文本标注模型进行预训练，所述第一文本标注模型用于识别所述商户名称对应的所述商户类别；

第二训练模块，用于对训练完成的所述第一文本标注模型进行知识蒸馏，得到第二文本标注模型，所述第二文本标注模型用于识别所述商户名称对应的所述商户类别，且所述第二文本标注模型的模型复杂度小于所述第一文本标注模型的模型复杂度。

可选的，所述第二训练模块，包括：

第一获取单元，用于将所述样本文本输入所述第一文本标注模型以及所述第二文本标注模型，得到所述第一文本标注模型的输出向量以及所述第二文本标注模型的输出向量，其中，所述第一文本标注模型的输出向量为训练所述第二文本标注模型的软目标；

第一训练单元，用于利用所述第二文本标注模型的输出向量、所述第一文本标注模型的输出向量以及所述样本标签，对所述第二文本标注模型的初始模型进行训练，得到训练完成的所述第二文本标注模型。

可选的，所述第一训练单元，还用于：

基于第一交叉熵与第二交叉熵，确定模型损失，所述第一交叉熵为所述第二文本标注模型的输出向量与所述第一文本标注模型的输出向量的交叉熵，所述第二交叉熵为所述第二文本标注模型的输出向量与所述样本标签的交叉熵；

基于所述模型损失对所述第二文本标注模型进行训练。

可选的，所述第一训练单元，还用于：

基于当前训练次数，确定所述第一交叉熵对应的第一损失权重以及所述第二交叉熵对应的第二损失权重，所述第一损失权重与训练次数呈负相关关系，所述第二损失权重与所述训练次数呈正相关关系；

基于所述第一交叉熵、所述第二交叉熵、所述第一损失权重以及所述第二损失权重，确定所述模型损失。

可选的，所述第一文本标注模型为Bret模型；

所述第一训练模块，包括：

第二获取单元，用于将所述样本文本输入所述第一文本标注模型，得到所述第一文本标注模型对所述样本文本的输出向量；

评估单元，用于利用所述第一文本标注模型的输出向量以及所述样本标签，采用多分类模型评估指标对所述第一文本标注模型进行模型评估，所述多分类模型评估指标包括混淆矩阵、AUC、准确率以及召回率中的至少一种；

第二训练单元，用于响应于模型评估的评估结果指示所述第一文本标注模型满足训练完成条件，停止训练。

可选的，所述第一获取模块，包括：

第三获取单元，用于按照预设比例，从商户名称中随机抽取得到待标注文本；

分组单元，用于对所述待标注文本进行随机分组，得到待标注文本组，各个待标注文本组中待标注文本的数量相同；

发送单元，用于将各个待标注文本组发送至对应的标注设备，所述标注设备用于基于标注输入操作生成各个待标注文本对应的样本标签；

接收单元，用于接收所述标注设备反馈的所述样本文本。

可选的，所述发送单元，还用于：

将所述待标注文本组发送至至少两个标注设备；

所述第一训练模块，包括：

第一确定单元，用于基于所述至少两个标注设备对同一待标注文本组反馈的所述样本文本，确定所述待标注文本组的标注一致率，所述标注一致率为各个标注设备所生成的样本标签一致的待标注文本占所述待标注文本组的比例；

第三训练单元，用于响应于所述标注一致率大于阈值，利用所述样本文本对所述第一文本标注模型进行预训练。

可选的，所述第一获取模块，包括：

第三获取单元，用于获取待标注文本，所述待标注文本是基于商户名称上传操作获取到的所述商户名称；

第二确定单元，用于将携带有关联商户类别的所述待标注文本确定为所述样本文本，所述关联商户类别基于所述商户名称上传操作得到。

可选的，所述装置还包括：

输入模块，用于将待标注文本输入所述第二文本标注模型；

第三获取模块，用于获取所述第二文本标注模型输出的置信区间；

第三训练模块，用于响应于所述预测区间及所述置信区间不满足模型应用条件，利用所述待标注文本生成所述样本文本并对所述第二文本标注模型进行模型重训练。

第二获取模块，用于获取待标注的目标商户名称；

输入模块，用于将所述目标商户名称输入第二文本标注模型，得到所述第二文本标注模型的输出结果，所述第二文本标注模型通过对第一文本标注模型进行知识蒸馏以及训练得到，所述第一文本标注模型的模型复杂度高于所述第二文本标注模型的模型复杂度，所述输出结果用于指示所述目标商户名称对应的目标商户类别；

标注模块，用于基于所述目标商户类别，对所述目标商户名称进行标注。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器；所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的商户名称的标注方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的商户名称的标注方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的商户名称的标注方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例中，利用样本文本进行模型训练，得到第二文本标注模型，从而实现利用第二文本标注模型对商户名称进行自动化标注，提升了对商户名称的标注效率，只需人工标注少量的商户名称，减少了人工标注成本；并且，先利用样本文本对结构复杂但精度较高的第一文本标注模型进行训练，再对训练完成的第一文本标注模型进行知识蒸馏得到结构简单的第二文本标注模型，得到具有复杂模型推理能力的简单模型，便于应用阶段模型的部署，且能够节省商户名称标注时的计算资源。

附图说明

图1是本申请一个示例性实施例提供的商户名称的标注方法的流程图；

图2是本申请另一个示例性实施例提供的商户名称的标注方法的流程图；

图3是本申请一个示例性实施例提供的混淆矩阵的示意图；

图4是本申请一个示例性实施例提供的知识蒸馏过程的示意图；

图5是本申请另一个示例性实施例提供的商户名称的标注方法的流程图；

图6是本申请另一个示例性实施例提供的商户名称的标注方法的流程图；

图7是本申请一个示例性实施例提供的商户名称的标注装置的结构框图；

图8是本申请另一个示例性实施例提供的商户名称的标注装置的结构框图；

图9是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

首先，对本申请实施例中涉及的名词进行介绍：

自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着线上支付业务的发展，第三方支付平台等业务方经常需要针对业务场景进行数据分析，例如用户消费行为分析、商户行业分布分析、交易网络安全性检测等，需要对商户进行行业分类，因而需要基于商户名称进行文本标注，生成各个商户对应的商户类别标签。相关技术中，较为普遍的文本标注方式为人工标注，然而网络业务场景中通常存在大量的待标注文本，依靠人力进行文本标注的效率较低，并且为了提高标注的准确率，需要花费时间进行培训，人工标注所需的成本较高。

为了解决上述技术问题，本申请实施例提供了一种商户名称的标注方法，该方法应用于具有模型训练以及模型推理能力的计算机设备。计算机设备通过利用第二文本标注模型对商户名称进行自动化标注，提升了对商户名称的标注效率，只需人工标注少量的商户名称，能够降低人工标注成本，先利用样本文本对结构复杂但精度较高的第一文本标注模型进行训练，再对训练完成的第一文本标注模型进行知识蒸馏得到结构简单的第二文本标注模型，得到具有复杂模型推理能力的简单模型，便于模型部署。

图1示出了本申请一个示例性实施例提供的商户名称的标注方法的流程图。本实施例以该方法用于能够搭载神经网络模型的计算机设备为例进行说明，该方法包括如下步骤：

步骤101，获取样本文本，样本文本是携带有样本标签的商户名称，样本标签由人工预标注样本文本得到，样本标签用于表征样本文本的商户类别。

第三方支付平台的业务方在进行用户消费行为分析、商户行业分布分析等业务时，需要对商户进行分类，若完全利用人工标注的方式对各个商户标注商户类别，需要较长的时间以及人力成本。本申请实施例利用少量带有商户类别的商户名称作为样本文本，使机器学习模型学习文本标注，从而实现自动化的商户名称标注。

在一种可能的实施方式中，计算机设备(例如第三方支付平台的后台服务器)从已注册帐号的商户中随机获取预设数量的商户名称，发送至开发人员的设备，由开发人员对获取到的商户名称进行人工标注，得到商户名称对应的商户类别，将标注后的商户名称作为样本文本，对应的商户类别即为样本标签。

示意性的，商户类别用于表征商户所属的行业，例如，“A牌火锅”对应的商户类别为“餐饮”，“B牌西服”对应的商户类别为“服饰”，“C牌智能手机”对应的商户类别为“电子产品”等。

步骤102，利用样本文本对第一文本标注模型进行预训练，第一文本标注模型用于识别商户名称对应的商户类别。

第一文本标注模型是能够对自然语言进行分类标注的机器学习模型，为了提高商户名称的标注准确度，本申请实施例中的第一文本标注模型采用模型结构较为复杂但推理能力较强的文本标注模型。

计算机设备将样本文本输入第一文本标注模型，得到第二文本标注模型的预测值，再利用样本标签(即真实值)作为监督，对第一文本标注模型进行模型训练，更新第一文本标注模型的模型参数，再对更新后的第一文本标注模型进行迭代训练，直至满足第一文本标注模型的训练结束条件(例如第一文本标注模型收敛或训练次数达到预设次数等)，完成第一文本标注模型的预训练。

步骤103，对训练完成的第一文本标注模型进行知识蒸馏，得到第二文本标注模型，第二文本标注模型用于识别商户名称对应的商户类别，且第二文本标注模型的模型复杂度小于第一文本标注模型的模型复杂度。

预训练过程采用了模型复杂度较高且推理能力较强、预测准确度较高的第一文本标注模型，但由于该模型结构复杂，对设备性能的需求较高，不便于后期模型应用阶段的模型部署，且所需计算资源(例如存储空间、计算单元等)的成本较高。

在一种可能的实施方式中，计算机设备完成对第一文本标注模型的预训练后，对第一文本标注模型进行知识蒸馏，得到第二文本标注模型。其中，知识蒸馏(KnowledgeDistillation，KD)是指通过引入与教师网络(Teacher Network)相关的软目标(soft-target)作为模型整体损失(totalloss)的一部分，以诱导学生网络(Student Network)的训练，实现知识迁移(Knowledge Transfer)的过程，教师网络结构复杂但推理性能优越，而学生网络结构精简且具有较低的复杂度。本申请实施例中的第一文本标注模型即为教师模型，第二文本标注模型即为学生模型。

可选的，第二文本标注模型采用与第一文本标注模型同类型的机器学习模型，但第二文本标注模型的结构较为简化(例如网络层数较少或各层计算节点的数量较少等)；或者，第二文本标注模型采用与第一文本标注模型不同类型的机器学习模型，本申请实施例对此不作限定。

知识蒸馏结束后，得到结构精简但具有与第一文本标注模型相当的推理能力的第二文本标注模型，从而在应用阶段可以直接通过第二文本标注模型对商户名称进行标注。

综上所述，本申请实施例中，利用样本文本进行模型训练，得到第二文本标注模型，从而实现利用第二文本标注模型对商户名称进行自动化标注，提升了对商户名称的标注效率，只需人工标注少量的商户名称，减少了人工标注成本；并且，先利用样本文本对结构复杂但精度较高的第一文本标注模型进行训练，再对训练完成的第一文本标注模型进行知识蒸馏得到结构简单的第二文本标注模型，得到具有复杂模型推理能力的简单模型，便于应用阶段模型的部署，且能够节省商户名称标注时的计算资源。

针对利用第一文本标注模型进行知识蒸馏，得到第二文本标注模型的过程，图2示出了本申请另一个示例性实施例提供的商户名称的标注方法的流程图。本实施例以该方法用于能够搭载神经网络模型的计算机设备为例进行说明，该方法包括如下步骤：

步骤201，获取样本文本，样本文本是携带有样本标签的商户名称，样本标签由人工预标注样本文本得到，样本标签用于表征样本文本的商户类别。

步骤201的具体实施方式可以参考上述步骤101，本申请实施例在此不再赘述。

步骤202，将样本文本输入第一文本标注模型，得到第一文本标注模型对样本文本的输出向量。

在一种可能的实施方式中，第一文本标注模型采用基于转换器的双向编码表征模型(Bidirectional Encoder Representations from Transformers，BERT模型)。BERT模型是自然语言处理领域中的一种语言处理模型，BERT模型使用了Transformer模型作为算法的主要框架，通过查询字向量表将文本中的每个字转换为一维向量，作为模型输入，模型输出则是融合全文语义信息后的向量表示。

计算机设备搭载BERT模型的框架并进行初始化，得到初始的第一文本标注模型，在获取到样本文本后，将样本文本输入第一文本标注模型，得到样本文本对应的预测值，即输出向量。

步骤203，利用第一文本标注模型的输出向量以及样本标签，采用多分类模型评估指标对第一文本标注模型进行模型评估。

其中，多分类模型评估指标包括混淆矩阵、感受性曲线下面积(Area UnderCurve，AUC)、准确率以及召回率中的至少一种。

混淆矩阵(confusion matrix)也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。在人工智能中，混淆矩阵是可视化工具，特别用于监督学习。示意性的，图3示出了一种混淆矩阵的示意图，其中，矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。例如，图4中第一行第一列的数值13，表示有13个实际归属类1的实例被预测为类1，同理，第一行第二列的0表示有0个实际归属为类1的实例被错误预测为类2。

AUC被定义为感受性曲线(Receiver Operating Characteristic curve，ROC曲线)下与坐标轴围成的面积，该面积的数值不会大于1。由于ROC曲线通常处于y＝x这条直线的上方，所以AUC的取值范围在0.5与1之间。AUC越接近1，检测方法的真实性越高；等于0.5时，则真实性最低，无实际应用价值。

准确率是针对样本的预测结果而言的，用于表示预测为某一类的样本中有多少是真正属于该类的样本，而召回率是针对样本本身而言的，用于表示有多少样本被正确预测。

计算机设备基于上述多项指标，确定第一文本标注模型的评估结果。

步骤204，响应于模型评估的评估结果指示第一文本标注模型满足训练完成条件，停止训练。

当第一文本标注模型对样本文本的输出向量能够满足上述各项指标时，确定第一文本标注模型训练完成；响应于模型评估的评估结果指示第一文本标注模型不满足训练完成条件，基于第一文本标注模型的输出向量以及样本标签确定模型损失，从而对第一文本标注模型进行参数更新并迭代训练，直至满足训练完成条件。

步骤205，将样本文本输入第一文本标注模型以及第二文本标注模型，得到第一文本标注模型的输出向量以及第二文本标注模型的输出向量，其中，第一文本标注模型的输出向量为训练第二文本标注模型的软目标。

第一文本标注模型训练结束后，计算机设备利用训练完成的第一文本标注模型计算soft target(软目标)，也就是教师模型“软化后”再经过归一化指数函数(Softmax)的输出向量。同样地，计算机设备将样本文本输入第二文本标注模型，经过归一化指数函数，得到第二文本标注模型的输出向量。

步骤206，利用第二文本标注模型的输出向量、第一文本标注模型的输出向量以及样本标签，对第二文本标注模型的初始模型进行训练，训练完成的第二文本标注模型。

计算机设备利用第一文本标注模型的输出向量作为软目标，将样本标签作为硬目标(hardtarget)，对第二文本标注模型进行训练。在一种可能的实施方式中。步骤206包括如下步骤：

步骤206a，基于第一交叉熵与第二交叉熵，确定模型损失，第一交叉熵为第二文本标注模型的输出向量与第一文本标注模型的输出向量的交叉熵，第二交叉熵为第二文本标注模型的输出向量与样本标签的交叉熵。

本申请实施例中的第一文本标注模型和第二文本标注模型均采用交叉熵函数作为损失函数，计算各自的模型损失。而在进行第二文本标注模型的训练时，由于第二文本标注模型需要学习第一文本标注模型的推理能力，因此并不能仅依靠样本标签进行模型训练，还需要获取第一文本标注模型对样本文本的预测结果，因此第二文本标注模型的模型损失是基于第一交叉熵与第二交叉熵得到的。

可选的，第一交叉熵和第二交叉熵均为基于经过蒸馏操作的第二文本标注模型计算得到的交叉熵；或者，第一交叉熵是基于经过蒸馏操作的第二文本标注模型计算得到的交叉熵，第二交叉熵是基于未经过蒸馏操作的第二文本标注模型计算得到的交叉熵。

软目标交叉熵占模型损失的比重越大，表明迁移诱导越依赖教师网络的贡献，在模型训练的初期阶段有助于让学生网络更轻松的鉴别简单样本，但训练后期需要适当减小软目标的比重，让真实值帮助模型鉴别困难样本，即随着模型训练次数的增多，第一交叉熵的比重降低，第二交叉熵的比重升高。在一种可能的实施方式中，步骤206a还包括如下步骤：

步骤一，基于当前训练次数，确定第一交叉熵对应的第一损失权重以及第二交叉熵对应的第二损失权重，第一损失权重与训练次数呈负相关关系，第二损失权重与训练次数呈正相关关系。

在一种可能的实施方式中，开发人员预先设置不同训练阶段的第一损失权重以及第二损失权重，计算机设备每次进行模型训练时，需要确定当前训练过程对应的第一损失权重以及第二损失权重，进而计算模型损失。

例如，模型训练前半段，第一损失权重为8，第二损失权重为2，模型训练后半段，第一损失权重为2，第二损失权重为8等。

步骤二，基于第一交叉熵、第二交叉熵、第一损失权重以及第二损失权重，确定模型损失。

在一种可能的实施方式中，模型损失(totalloss)设计为软目标与硬目标所对应的交叉熵的加权平均。计算机设备基于第一损失权重以及第二损失权重，对第一交叉熵与第二交叉熵进行加权平均计算，得到模型损失。示意性的，图4示出了对第一文本标注模型进行知识蒸馏，得到第二文本标注模型的过程。

步骤206b，基于模型损失对第二文本标注模型进行训练。

计算机设备基于上述步骤计算得到的模型损失，更新第二文本标注模型的参数，利用参数更新后的第二文本标注模型重新得到对样本文本的输出向量，再次计算得到模型损失，返负迭代计算，直至第二文本标注模型收敛，得到训练完成的第二文本标注模型。

本申请实施例中，利用第一文本标注模型对样本文本的预测值作为第二文本标注模型的训练软目标，将样本标签作为硬目标，结合硬目标与软目标共同计算模型损失，进行模型训练，使第二文本标注模型在基于学习样本标签进行训练的同时，能够学习第一文本标注模型的推理能力；并且，随着模型训练阶段的推移，逐渐降低第一交叉熵的比重，提高第二交叉熵的比重，在模型训练前期让第二文本标注模型更轻松地鉴别简单样本，并在训练后期利用真实值鉴别困难样本，提高第二文本标注模型的标注准确率。

上述实施例示出了利用样本文本进行模型训练的过程，对于样本文本的获取方式，图5示出了本申请另一个示例性实施例提供的商户名称的标注方法的流程图。本实施例以该方法用于能够搭载神经网络模型的计算机设备为例进行说明，该方法包括如下步骤：

步骤501，按照预设比例，从商户名称中随机抽取得到待标注文本。

在模型训练之前，首先需要进行人工预标注，得到用于模型训练的样本文本。由于本申请利用了结构复杂、推理能力强的BERT模型作为第一文本标注模型，因此所需的样本文本数量较少。例如，计算机设备从待标注文本(即待标注的商户名称)中随机抽取5％进行人工标注，作为样本文本进行模型训练。

可选的，计算机设备中预设有样本文本的数量阈值(例如500)，样本文本的总数需大于数量阈值，以保证样本文本的多样性。

步骤502，对待标注文本进行随机分组，得到待标注文本组，各个待标注文本组中待标注文本的数量相同。

在一种可能的实施方式中，若所有的待标注文本全部由同一个人进行标注，则样本标签的错误率较高，因此，计算机设备对待标注文本进行随机分组，得到样本文本组，将各个待标注文本组发送至不同的设备进行标注。例如，将全部待标注文本的1/5划分为一组。

步骤503，将各个待标注文本组发送至对应的标注设备，标注设备用于基于标注输入操作生成各个待标注文本对应的样本标签。

本申请实施例中，用于模型训练的计算机设备为应用程序的后台服务器，后台服务器获取到待标注文本后，对其进行分组，并发送至标注人员对应的计算机设备。标注人员利用计算机设备对待标注文本进行人工标注。

在一种可能的实施方式中，步骤503包括如下步骤：

将待标注文本组发送至至少两个标注设备。

为了确保样本文本的可靠性，避免由于人工标注的失误导致模型训练失败，计算机设备将同一组待标注文本组发送至至少两个计算机设备进行人工标注，最终基于至少两份标注结果(即样本标签)的一致性，判断样本文本是否可用。

步骤504，接收标注设备反馈的样本文本。

步骤505，利用样本文本对第一文本标注模型进行预训练，第一文本标注模型用于识别商户名称对应的商户类别。

在一种可能的实施方式中，步骤505包括如下步骤：

步骤505a，基于至少两个标注设备对同一待标注文本组反馈的样本文本，确定待标注文本组的标注一致率，标注一致率为各个标注设备所生成的样本标签一致的待标注文本占待标注文本组的比例。

步骤505b，响应于标注一致率大于阈值，利用样本文本对第一文本标注模型进行预训练。

例如，计算机设备将第一组文本发送至设备a和设备b，分别得到设备a反馈的样本标签以及设备b反馈的样本标签，计算机设备检测设备a和设备b所反馈的样本标签的一致性，若样本标签一致的样本文本占第一组文本总数的90％以上，则确定预标注达标。可选的，计算机设备利用设备a和设备b中任意一组样本标签及对应的样本文本进行模型训练，或者，计算机设备将标签一致的文本作为样本文本进行模型训练。

当标注一致率小于阈值，则对改组文本进行重新人工标注。

在另一种可能的实施方式中，商户在注册帐号时可以主动选择商户类别，计算机设备将主动设置商户类别的商户名称确定文样本文本，上述步骤501至步骤504可以替换为如下步骤：

步骤三，获取待标注文本，待标注文本是基于商户名称上传操作获取到的商户名称。

步骤四，将携带有关联商户类别的待标注文本确定为样本文本，关联商户类别基于商户名称上传操作得到。

示意性的，应用程序中的商户帐号注册界面提供有商户类别选择机制，商户方在进行注册时，输入商户名称并选择商户类别，商户方的设备基于商户名称上传操作，将商户名称以及关联商户类别发送至后台服务器。后台服务器在获取样本文本时，直接将携带有关联商户类别的待标注文本确定为样本文本，从而进一步减少人工标注的工作量。

步骤506，对训练完成的第一文本标注模型进行知识蒸馏，得到第二文本标注模型，第二文本标注模型用于识别商户名称对应的商户类别，且第二文本标注模型的模型复杂度小于第一文本标注模型的模型复杂度。

步骤505至步骤506的具体实施方式可以参考上述步骤202至步骤203，本申请实施例在此不再赘述。

步骤507，将待标注文本输入第二文本标注模型。

在一种可能的实施方式中，计算机设备对第一文本标注模型进行知识蒸馏，得到第二文本标注模型后，将其余待标注文本(即未进行人工标注的商户名称)输入第二文本标注模型，基于第二文本标注模型对待标注文本的标注结果判断第二文本标注模型是否训练成功。

步骤508，获取第二文本标注模型输出的置信区间。

置信区间是指由样本统计量所构造的总体参数的估计区间，即以统计量的置信上限和置信下限为上下界构成的区间。在机器学习中是指样本估计总体平均值误差范围的区间。一般来说，选定某一个置信区间的目的是为了让"置信区间内包含总体平均值"的结果有一特定的概率，这个概率就是置信水平。例如常用的95％置信水平，意味着100次抽样中，有95次的置信区间包含了总体均值。

步骤509，响应于置信区间不满足模型应用条件，利用待标注文本生成样本文本并对第二文本标注模型进行模型重训练。

在一种可能的实施方式中，开发人员预先根据需求设置有预设置信区间，计算机设备将获取到的置信区间与预设置信区间进行比较，若置信区间在预设置信区间范围之外，则确定置信区间不满足模型应用条件，若置信区间包含于预设置信区间内，则确定置信区间满足模型应用条件。

当置信区间不满足模型应用条件时，说明第二文本标注模型的训练效果不理想，计算机设备利用待标注文本对第二文本标注模型进行模型重训练。

本申请实施例中，计算机设备首先从待标注文本中抽取少量文本，作为样本文本进行模型训练，模型训练完成后，利用其余未标注的文本进行模型评估，当模型的输出结果不理想时，利用未标注的文本获取样本文本，进行模型重训练，以提高模型标注的准确率；并且，将同一组待标注文本发送至至少两个标注设备获取样本标签，基于标签一致性确定是否能够用作样本文本，提高了样本文本的可靠性。

上述各个实施例示出了模型训练的过程，模型训练完成后，即可用于对商户名称进行标注。图6示出了本申请一个示例性实施例提供的商户名称的标注方法的流程图。本实施例以该方法用于能够搭载神经网络模型的计算机设备为例进行说明，该方法包括如下步骤：

步骤601，获取待标注的目标商户名称。

当需要对目标商户进行分类时，例如需要获取线上网络交易平台中商户的行业分布情况、用户的消费情况等，计算机设备获取目标商户的目标商户名称，利用神经网络模型进行自动化标注，以减少人工标注成本，提高标注效率。

步骤602，将目标商户名称输入第二文本标注模型，得到第二文本标注模型的输出结果，第二文本标注模型通过对第一文本标注模型进行知识蒸馏以及训练得到。

其中，第一文本标注模型的模型复杂度高于第二文本标注模型的模型复杂度，输出结果用于指示目标商户名称对应的目标商户类别。

在一种可能的实施方式中，考虑到文本标注的准确性以及模型部署和推理的成本，在模型训练阶段，计算机设备首先采用复杂度较高但推理能力较强的第一文本标注模型进行模型训练，基于训练完成的第一文本标注模型进行知识蒸馏，得到模型复杂度较低的第二文本标注模型，且第二文本标注模型能够学习到第一文本标注模型的推理能力，相比于直接利用第二文本标注模型进行模型训练，能够很大程度上提高第二文本标注模型的标注准确性。

步骤603，基于目标商户类别，对目标商户名称进行标注。

计算机设备基于第二文本标注模型的输出结果，对目标商户名称进行标注，确定目标商户对应的商户类别。

综上所述，本申请实施例中，利用模型结构精简，但具有与复杂模型相当的推理能力的第二文本标注模型，对商户名称进行自动化标注，无需人工对商户名称进行标注，提高了商户名称的标注效率以及准确率。

图7是本申请一个示例性实施例提供的商户名称的标注装置的结构框图，该装置包括：

第一获取模块701，用于获取样本文本，所述样本文本是携带有样本标签的商户名称，所述样本标签由人工预标注所述样本文本得到，所述样本标签用于表征所述样本文本的商户类别；

第一训练模块702，用于利用所述样本文本对第一文本标注模型进行预训练，所述第一文本标注模型用于识别所述商户名称对应的所述商户类别；

第二训练模块703，用于对训练完成的所述第一文本标注模型进行知识蒸馏，得到第二文本标注模型，所述第二文本标注模型用于识别所述商户名称对应的所述商户类别，且所述第二文本标注模型的模型复杂度小于所述第一文本标注模型的模型复杂度。

可选的，所述第二训练模块703，包括：

可选的，所述第一训练单元，还用于：

基于所述模型损失对所述第二文本标注模型进行训练。

可选的，所述第一训练单元，还用于：

可选的，所述第一文本标注模型为Bret模型；

所述第一训练模块702，包括：

可选的，所述第一获取模块701，包括：

接收单元，用于接收所述标注设备反馈的所述样本文本。

可选的，所述发送单元，还用于：

将所述待标注文本组发送至至少两个标注设备；

所述第一训练模块702，包括：

可选的，所述第一获取模块701，包括：

可选的，所述装置还包括：

输入模块，用于将待标注文本输入所述第二文本标注模型；

图8是本申请一个示例性实施例提供的商户名称的标注装置的结构框图，该装置包括：

第二获取模块801，用于获取待标注的目标商户名称；

输入模块802，用于将所述目标商户名称输入第二文本标注模型，得到所述第二文本标注模型的输出结果，所述第二文本标注模型通过对第一文本标注模型进行知识蒸馏以及训练得到，所述第一文本标注模型的模型复杂度高于所述第二文本标注模型的模型复杂度，所述输出结果用于指示所述目标商户名称对应的目标商户类别；

标注模块803，用于基于所述目标商户类别，对所述目标商户名称进行标注。

请参考图9，其示出了本申请一个实施例提供的计算机设备的结构示意图。具体来讲：

所述计算机设备900包括中央处理单元(Central Processing Unit，CPU)901、包括随机存取存储器(Random Access Memory，RAM)902和只读存储器(Read Only Memory，ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(Input/Output，I/O)控制器906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存或其他固态存储其技术，CD-ROM、数字视频光盘(Digital Video Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本申请的各种实施例，所述计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述商户名称的标注方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的商户名称的标注方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种商户名称的标注方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对训练完成的所述第一文本标注模型进行知识蒸馏，得到第二文本标注模型，包括：

将所述样本文本输入所述第一文本标注模型以及所述第二文本标注模型，得到所述第一文本标注模型的输出向量以及所述第二文本标注模型的输出向量，其中，所述第一文本标注模型的输出向量为训练所述第二文本标注模型的软目标；

利用所述第二文本标注模型的输出向量、所述第一文本标注模型的输出向量以及所述样本标签，对所述第二文本标注模型的初始模型进行训练，得到训练完成的所述第二文本标注模型。

3.根据权利要求2所述的方法，其特征在于，所述利用所述第二文本标注模型的输出向量、所述第一文本标注模型的输出向量以及所述样本标签，对所述第二文本标注模型的初始模型进行训练，包括：

基于所述模型损失对所述第二文本标注模型进行训练。

4.根据权利要求3所述的方法，其特征在于，所述基于第一交叉熵与第二交叉熵，确定模型损失，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述第一文本标注模型为基于转换器的双向编码表征BERT模型；

所述利用所述样本文本对第一文本标注模型进行预训练，包括：

将所述样本文本输入所述第一文本标注模型，得到所述第一文本标注模型对所述样本文本的输出向量；

利用所述第一文本标注模型的输出向量以及所述样本标签，采用多分类模型评估指标对所述第一文本标注模型进行模型评估，所述多分类模型评估指标包括混淆矩阵、感受性曲线下面积AUC、准确率以及召回率中的至少一种；

响应于模型评估的评估结果指示所述第一文本标注模型满足训练完成条件，停止训练。

6.根据权利要求1至4任一所述的方法，其特征在于，所述获取样本文本，包括：

按照预设比例，从商户名称中随机抽取得到待标注文本；

对所述待标注文本进行随机分组，得到待标注文本组，各个待标注文本组中待标注文本的数量相同；

将各个待标注文本组发送至对应的标注设备，所述标注设备用于基于标注输入操作生成各个待标注文本对应的样本标签；

接收所述标注设备反馈的所述样本文本。

7.根据权利要求6所述的方法，其特征在于，所述将各个待标注文本组发送至对应的标注设备，包括：

将所述待标注文本组发送至至少两个标注设备；

基于所述至少两个标注设备对同一待标注文本组反馈的所述样本文本，确定所述待标注文本组的标注一致率，所述标注一致率为各个标注设备所生成的样本标签一致的待标注文本占所述待标注文本组的比例；

响应于所述标注一致率大于阈值，利用所述样本文本对所述第一文本标注模型进行预训练。

8.根据权利要求1至4任一所述的方法，其特征在于，所述获取样本文本，还包括：

获取待标注文本，所述待标注文本是基于商户名称上传操作获取到的所述商户名称；

将携带有关联商户类别的所述待标注文本确定为所述样本文本，所述关联商户类别基于所述商户名称上传操作得到。

9.根据权利要求1至4任一所述的方法，其特征在于，所述对训练完成的所述第一文本标注模型进行知识蒸馏，得到第二文本标注模型之后，所述方法还包括：

将待标注文本输入所述第二文本标注模型；

获取所述第二文本标注模型输出的置信区间；

响应于所述预测区间及所述置信区间不满足模型应用条件，利用所述待标注文本生成所述样本文本并对所述第二文本标注模型进行模型重训练。

10.一种商户名称的标注方法，其特征在于，所述方法包括：

获取待标注的目标商户名称；

基于所述目标商户类别，对所述目标商户名称进行标注。

11.一种商户名称的标注装置，其特征在于，所述装置包括：

12.一种商户名称的标注装置，其特征在于，所述装置包括：

第二获取模块，用于获取待标注的目标商户名称；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的商户名称的标注方法，或，权利要求10所述的商户名称的标注方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至9任一所述的商户名称的标注方法，或，权利要求10所述的商户名称的标注方法。