CN115130464A

CN115130464A - 实体检测模型训练方法、实体检测方法和计算机设备

Info

Publication number: CN115130464A
Application number: CN202210741056.7A
Authority: CN
Inventors: 崔路男; 曹利; 潘树燊
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-30

Abstract

本申请涉及一种实体检测模型训练方法、实体检测方法、计算机设备和计算机程序产品。通过待训练实体检测模型获取音乐文本中的多个字符对，并输出由实体边缘字符组成的样本实体对对应的样本实体及其样本实体类型，根据样本实体与真实实体的相似度以及样本实体类型与真实实体类型的相似度调整待训练实体检测模型的模型参数，得到实体检测模型。在识别时通过实体检测模型获取实体检测模型输出的音乐文本中包含的实体以及每个实体的实体类型。相较于传统的通过片段排列进行实体识别，本方案通过音乐文本构建多个字符对，基于字符对训练实体检测模型，从而通过实体检测模型检测音乐文本中的实体边缘字符，得到对应的实体，提高了实体检测的效率。

Description

实体检测模型训练方法、实体检测方法和计算机设备

技术领域

本申请涉及数据处理技术领域，特别是涉及一种实体检测模型训练方法、实体检测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

在音乐领域中，包含有多种音乐相关的资料，在对音乐相关资料的分析过程中，需要对这些音乐相关资料中的实体进行检测，实体是指多个字组成的实体信息，一般强调整体。而一些句子会存在嵌套的实体，因此需要对嵌套的实体进行检测。目前检测嵌套实体的方式通常是通过span level(跨越行层)的方式对句子进行片段排列并识别。然而，通过对句子进行片段排列再识别的方式，需要通过多尺寸窗口多次解码，导致识别的效率下降。

因此，目前对音乐资料的实体检测方法存在检测效率低的缺陷。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高检测效率的实体检测模型训练方法、实体检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种实体检测模型训练方法，所述方法包括：

获取包含多个实体的音乐文本，确定所述音乐文本中的真实实体以及真实实体类型；

将所述音乐文本输入待训练实体检测模型，由所述待训练实体检测模型对所述音乐文本中的各个字符进行组合得到多个字符对，并输出对所述多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型；所述样本实体对由多个实体边缘字符组成，所述实体边缘字符表征实体的起始字符或结尾字符；

根据所述样本实体与所述真实实体的相似度以及所述样本实体类型与所述真实实体类型的相似度，调整所述待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型。

在其中一个实施例中，所述由所述待训练实体检测模型对所述音乐文本中的各个字符进行组合得到多个字符对，包括：

针对所述音乐文本中的每个字符，由所述待训练实体检测模型根据该字符以及所述音乐文本中该字符之后的各个字符，组合得到多个字符对。

构建与所述音乐文本的字符数对应长度的二维矩阵，并将所述音乐文本中的各个字符作为所述二维矩阵的各个维度的元素，得到所述音乐文本对应的标注矩阵；

根据所述标注矩阵，获取所述音乐文本中的多个字符对。

在其中一个实施例中，所述根据所述标注矩阵，获取所述音乐文本中的多个字符对，包括：

针对所述音乐文本中的每个字符，获取所述标注矩阵中的上三角矩阵中包含该字符的多个目标矩阵单元，根据所述多个目标矩阵单元对应字符对，得到所述音乐文本中的多个字符对。

在其中一个实施例中，所述输出对所述多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型，包括：

通过所述待训练实体检测模型获取每个字符对中各个字符的至少一个相邻字符；

根据所述各个字符的至少一个相邻字符确定所述各个字符的实体边缘特征，并根据所述实体边缘特征与预设特征阈值的比较结果确定各个字符是否为实体边缘字符；

若检测到该字符对中的每个字符均为实体边缘字符时，获取该字符对对应的样本实体类型，得到该字符对对应的包含所述样本实体类型的样本实体对；

获取所述音乐文本中所述样本实体对对应的样本实体，并输出所述样本实体及其样本实体类型。

在其中一个实施例中，所述根据所述各个字符的至少一个相邻字符确定所述各个字符的实体边缘特征，包括：

若所述相邻字符为一个，根据每个字符对中各个字符的相邻字符的语义特征向量确定各个字符的实体边缘特征；

若所述相邻字符为多个，根据每个字符对中各个字符的前一相邻字符的语义特征向量和后一相邻字符的语义特征向量的差值，确定各个字符的实体边缘特征。

在其中一个实施例中，所述根据所述样本实体与所述真实实体的相似度以及所述样本实体类型与所述真实实体类型的相似度，调整所述待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型，包括：

根据所述样本实体与对应的真实实体的实体类型相似度确定第一损失值，根据所述样本实体与对应的真实实体的字符相似度确定第二损失值；

根据所述第一损失值和所述第二损失值确定目标损失值，根据所述目标损失值调整所述待训练实体检测模型的模型参数，直到所述目标损失值小于或等于预设损失阈值时，将当前的待训练实体检测模型作为训练完成的实体检测模型。

第二方面，本申请提供了一种实体检测方法，所述方法包括：

获取音乐文本，将所述音乐文本输入实体检测模型；所述实体检测模型基于上述的方法训练得到；

获取所述实体检测模型输出的所述音乐文本中包含的实体以及每个实体的实体类型。

第三方面，本申请提供了一种实体检测模型训练装置，所述装置包括：

获取模块，用于获取包含多个实体的音乐文本，确定所述音乐文本中的真实实体以及真实实体类型；

训练模块，用于将所述音乐文本输入待训练实体检测模型，由所述待训练实体检测模型对所述音乐文本中的各个字符进行组合得到多个字符对，并输出对所述多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型；所述样本实体对由多个实体边缘字符组成，所述实体边缘字符表征实体的起始字符或结尾字符；

调整模块，用于根据所述样本实体与所述真实实体的相似度以及所述样本实体类型与所述真实实体类型的相似度，调整所述待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型。

第四方面，本申请提供了一种实体检测装置，所述装置包括：

输入模块，用于获取音乐文本，将所述音乐文本输入实体检测模型；所述实体检测模型基于上述的方法训练得到；

检测模块，用于获取所述实体检测模型输出的所述音乐文本中包含的实体以及每个实体的实体类型。

第五方面，本申请提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

第六方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第七方面，本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的方法的步骤。

上述实体检测模型训练方法、实体检测方法、装置、计算机设备、存储介质和计算机程序产品，通过获取包含多个实体的音乐文本中的真实实体以及真实实体类型，并将音乐文本输入待训练实体检测模型，由待训练实体检测模型对音乐文本中的各个字符进行组合得到多个字符对，并输出对多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型，并根据样本实体与真实实体的相似度以及样本实体类型与真实实体类型的相似度调整待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型。从而在需要识别实体时可以将音乐文本输入实体检测模型，获取实体检测模型输出的音乐文本中包含的实体以及每个实体的实体类型。相较于传统的通过片段排列进行实体识别，本方案通过音乐文本构建多个字符对，基于字符对训练实体检测模型，从而通过实体检测模型检测音乐文本中的实体边缘字符，得到对应的实体，提高了实体检测的效率。

附图说明

图1为一个实施例中实体检测模型训练方法的流程示意图；

图2为一个实施例中标注矩阵的结构示意图；

图3为一个实施例中实体对识别步骤的流程示意图；

图4为一个实施例中实体检测方法的流程示意图；

图5为一个实施例中实体识别结果的示意图；

图6为另一个实施例中实体检测方法的流程示意图；

图7为一个实施例中实体检测模型训练方法的结构框图；

图8为一个实施例中实体检测装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种实体检测模型训练方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现，包括以下步骤：

步骤S202，获取包含多个实体的音乐文本，确定音乐文本中的真实实体以及真实实体类型。

其中，音乐文本可以是音乐领域的多种类型的文本，例如音乐评论、音乐百科、艺人简介和影视简介等。其中，上述音乐文本中可以包括多个实体，例如音乐文本可以包括至少一个句子，每个句子中可以包含多个实体信息。实体是指多个字组成的实体信息，一般强调整体，如时间、地点、人物等。例如，对于文本“A先生，被粉丝爱称为超级AA。”中，可以包括“A先生”、“AA”、“超级AA”等人名实体，并且，“AA”和“超级AA”是嵌套存在的实体，终端可以通过训练一个实体检测模型识别带有嵌套实体的音乐文本。终端可以获取包含多个实体的音乐文本。并且终端还可以确定音乐文本中的真实实体以及真实实体的实体类型。其中，真实实体可以是音乐文本中存在的实体信息，例如上述的人名、时间和地点等信息。具体地，相关工作人员可以对音乐文本中存在的真实实体以及真实实体的实体类型进行标注，工作人员可以通过对音乐文本进行直接标注，也可以通过由实体检测模型构建的标注矩阵进行实体信息的标注。其中，标注矩阵可以是由音乐文本中的各个字符构成的矩阵，矩阵中的每个元素均为音乐文本中的任意两个不同的字符构成的字符对，从而可以通过标注字符对的方式，确定字符对对应的实际文本作为上述真实实体，并将该实际文本的实体类型作为真实实体类型，从而能够解决嵌套标注的问题。终端可以接收工作人员对音乐文本标注出来的真实实体以及真实实体类型。另外，在一些实施例中，终端也可以自行标注出音乐文本中的真实实体以及真实实体类型。

步骤S204，将音乐文本输入待训练实体检测模型，由待训练实体检测模型对音乐文本中的各个字符进行组合得到多个字符对，并输出对多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型；样本实体对由多个实体边缘字符组成，实体边缘字符表征实体的起始字符或结尾字符。

其中，待训练实体检测模型可以是需要进行训练的实体检测模型。其中，实体检测模型可以用于检测文本中的实体信息，例如音乐文本中包含的时间、地点、人名等信息。终端可以通过上述获取的音乐文本对待训练的实体检测模型进行训练。终端可以将上述音乐文本输入待训练实体检测模型中，待训练实体检测模型可以获取音乐文本中包含的多个字符对。例如，终端可以通过待训练实体检测模型对音乐文本中的各个字符进行组合，从而得到音乐文本对应的多个字符对。其中，这些字符对代表的是音乐文本中字符对所在句子中，由字符对中每个字符在该句子中的位置之间的字符以及该字符对中每个字符本身构成的短语。在一些实施例中，在待训练实体检测模型对音乐文本中的各个字符进行组合时，终端可以通过待训练实体检测模型将音乐文本中每个字符与该字符之后的各个字符进行组合。例如，在一个实施例中，由待训练实体检测模型对音乐文本中的各个字符进行组合得到多个字符对，包括：针对音乐文本中的每个字符，由待训练实体检测模型根据该字符以及音乐文本中该字符之后的各个字符，组合得到多个字符对。本实施例中，上述音乐文本中可以包括多个字符，对于音乐文本中的每个字符，终端可以由上述待训练实体检测模型，根据该字符以及音乐文本中该字符之后的各个字符(例如音乐文本中该字符所在句子中，该字符之后的各个字符)，将该字符与之后的每个字符进行组合，得到多个字符对。其中，上述待训练实体检测模型可以基于文本本身进行上述字符的组合，而在另外一些实施例中，终端也可以由待训练实体检测模型基于上述标注矩阵进行字符的组合。上述字符对可以是一种token pair(标记对)对，上述字符对中的各个字符可以是一种token。需要说明的是，上述字符对的组合方式也可以是终端通过待训练实体检测模型在音乐文本中进行随机选择的方式得到多个字符对。

终端通过待训练实体检测模型后，还可以通过待训练实体检测模型对多个字符对中的实体边缘字符进行检测，得到样本实体对。其中，样本实体对由多个实体边缘字符构成，实体边缘字符表征实体的起始字符或结尾字符，例如上述实体“超级AA”中的“超”为实体起始字符，“A”为实体结尾字符。即终端可以通过待训练实体检测模型识别标注出的字符对中的各个字符是否为实体的边界字符，并得到由边界字符构成的样本实体对。终端可以通过待训练实体检测模型获输出每个样本实体对在上述音乐文本中对应的样本实体以及该样本实体的实体类型。例如，终端通过待训练实体检测模型获取样本实体对“超A”在其音乐文本中对应的样本实体“超级AA”以及该样本实体对应的样本实体类型，即人名。需要说明的是，上述待训练实体检测模型输出的样本实体以及样本实体类型可以存在正确的检测结果，也可以存在错误的检测结果。

步骤S206，根据样本实体与真实实体的相似度以及样本实体类型与真实实体类型的相似度，调整待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型。

其中，终端可以通过待训练实体检测模型根据音乐文本确定多个字符对，并通过待训练实体检测模型对多个字符对终端样本实体对进行识别，从而将样本实体对在音乐文本中对应的样本实体及其实体类型进行输出。终端可以将上述样本实体与预先确定的真实实体进行相似度比较，终端可以根据样本实体与真实实体的相似度以及样本实体类型与真实实体类型的相似度，调整待训练实体检测模型的模型参数，从而终端可以在满足模型训练条件时，得到训练完成的实体检测模型。例如，终端在检测到待训练实体检测模型输出的样本实体及其样本实体类型的与真实实体及其真实实体类型的相似度达到一定程度时，能够确定满足模型训练条件。其中，上述样本实体与真实实体的比较可以是样本实体与对应真实实体之间的比较，例如，在数据准备阶段，终端确定出音乐文本中某个实体为真实实体，则该真实实体存在其对应的真实实体对，该真实实体对可能会作为训练数据输入到待训练实体检测模型中，则待训练实体检测模型将该真实实体对看做样本实体对进行检测，则终端可以将待训练实体检测模型根据该样本实体对进行输出的样本实体与其对应的真实实体进行比较，并基于该比较结果进行模型参数的调整。

上述实体检测模型训练方法中，通过获取包含多个实体的音乐文本中的真实实体以及真实实体类型，并将音乐文本输入待训练实体检测模型，由待训练实体检测模型对音乐文本中的各个字符进行组合得到多个字符对，并输出对多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型，并根据样本实体与真实实体的相似度以及样本实体类型与真实实体类型的相似度调整待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型。从而在需要识别实体时可以将音乐文本输入实体检测模型，获取实体检测模型输出的音乐文本中包含的实体以及每个实体的实体类型。相较于传统的通过片段排列进行实体识别，本方案通过音乐文本构建多个字符对，基于字符对训练实体检测模型，从而通过实体检测模型检测音乐文本中的实体边缘字符，得到对应的实体，提高了实体检测的效率。

在一个实施例中，由待训练实体检测模型对音乐文本中的各个字符进行组合得到多个字符对，包括：构建与音乐文本的字符数对应长度的二维矩阵，并将音乐文本中的各个字符作为二维矩阵的各个维度的元素，得到音乐文本对应的标注矩阵；根据标注矩阵，获取音乐文本中的多个字符对。

本实施例中，待训练实体检测模型可以是需要被训练用作检测音乐文本中的实体的模型。在训练过程中，终端可以将上述音乐文本输入待训练实体检测模型，通过待训练实体检测模型可以对音乐文本中的各个字符进行组合，得到多个字符对。其中，终端可以通过由待训练实体检测模型对音乐文本构建矩阵的方式进行字符对的获取。终端可以构建与音乐文本的字符数对应长度的二维矩阵，并将上述音乐文本中的各个字符作为二维矩阵中各个维度的元素，从而得到音乐文本对应的标注矩阵。其中，上述标注矩阵可以是一种网格形状的矩阵，如图2所示，图2为一个实施例中标注矩阵的结构示意图。终端可以将上述音乐文本分别作为矩阵的各个维度，具体地，若音乐文本中有多个句子，终端可以对每个句子构建一个标注矩阵。例如上述音乐文本“A先生，被粉丝爱称为超级AA。”，终端可以在实体检测模型中将该文本中的各个字符作为矩阵中每个维度的元素，得到如图2所示的标注矩阵。终端得到上述标注矩阵后，可以通过实体检测模型将终端可以在上述标注矩阵中获取多个字符对。例如，终端可以将上述标注矩阵中每个方格对应的横竖两个字符组合为一个字符对，即标注矩阵中每个方格均对应两个字符，这两个字符组合能够成为字符对，从而终端可以得到由实体检测模型对音乐文本中各个字符组合而成的多个字符对。其中，终端还可以通过实体检测模型对标注矩阵中特定区域的方格进行字符对获取，作为音乐文本对应的多个字符对。例如，在一个实施例中，根据标注矩阵，获取音乐文本中的多个字符对，包括：针对音乐文本中的每个字符，获取标注矩阵中的上三角矩阵中包含该字符的多个目标矩阵单元，根据多个目标矩阵单元对应字符对，得到音乐文本中的多个字符对。本实施例中，终端可以将音乐文本中的每个字符作为标注矩阵中每个维度的元素，从而构建出如图2的标注矩阵，在获取音乐文本中的字符对时，对于上述音乐文本中的每个字符，终端可以获取上述目标矩阵中的上三角矩阵中包含的多个目标矩阵单元，并根据多个目标矩阵单元对应的字符对，得到音乐文本中的多个字符对。例如，对于图2所示的标注矩阵，在斜线上方的方格组成的矩阵称为上三角矩阵，对于音乐文本中每个字符，以图2中的“超”为例，其对应的多个目标矩阵单元可以是上三角矩阵中，其所在的一行中的各个方格，则由这些方格可以得到字符“超”对应的多个字符对，包括“超超”、“超级”、“超A”、“超A”等。终端可以由实体检测模型通过上述目标矩阵，从上三角矩阵中获取音乐文本中每个字符对应的多个字符对，从而得到音乐文本对应的多个字符对。

另外，终端还可以在上述目标矩阵中标注出真实实体对应的字符对。上述标注矩阵中的各个字符对可以是一种token pair对，每个字符可以是一个token。终端由实体检测模型得到的各个字符对可以分别对应一个短语，而终端可以从上述标注矩阵中各个方格对应字符对对应的短语中，确定出是实体的短语，从而将实体的短语对应的字符对标记为实体字符对以及标记出该实体的类型。例如，上述图2的标注矩阵中的列中的“超”token和行中的“A”token在音乐文本中对应的位置形成的短语是一个人名实体，而列中的“A”token和行中的“A”token在音乐文本中对应的位置形成的短语也是一个人名实体，则终端可以在上述标注矩阵中标注出实体对应的方格，得到实体对应的字符对以及该实体的类型。其中，上述在标注矩阵中确定实体对应的字符对还可以是人工在标注矩阵中进行标注，终端可以接收到人工标注的各个实体对应的字符对以及每个实体字符对的实体类型。

通过上述实施例，终端可以通过实体检测模型构建音乐文本对应的标注矩阵，并在标注矩阵中确定多个表征短语的头尾字符的字符对，以及在标注矩阵中确定出实体对应的字符对，解决了文本中存在嵌套标注时无法标注出所有实体的问题，并且通过在上三角矩阵中确定字符对，减少在训练过程中字符对之间的稀疏性，提高模型训练效率，进而提高了实体检测的效率。

在一个实施例中，输出对多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型，包括：通过待训练实体检测模型获取每个字符对中各个字符的至少一个相邻字符；根据各个字符的至少一个相邻字符确定各个字符的实体边缘特征，并根据实体边缘特征与预设特征阈值的比较结果确定各个字符是否为实体边缘字符；若检测到该字符对中的每个字符均为实体边缘字符时，获取该字符对对应的样本实体类型，得到该字符对对应的包含样本实体类型的样本实体对；获取音乐文本中样本实体对对应的样本实体，并输出样本实体及其样本实体类型。

本实施例中，终端在训练待训练实体检测模型过程中，可以通过待训练实体检测模型对上述获取的每个字符对中的实体边缘字符对进行检测，即终端可以利用待训练实体检测模型检测上述各个字符对中各个字符是否为实体的起始或结尾字符。终端可以通过相邻字符的语义特征确定字符对中的各个字符是否为实体边缘字符。终端可以通过上述待训练实体检测模型，获取上述每个字符对中各个字符的至少一个相邻字符，例如，对于音乐文本中文本开头的第一个字符和结尾的最后一个字符，则这些在文本边缘的字符的相邻字符可以是一个；对于非文本边缘的字符，这些字符的相邻字符可以是两个，即一左一右的两个相邻字符。终端利用待训练实体检测模型得到各个字符对应的至少一个相邻字符后，可以根据各个字符的至少一个相邻字符确定各个字符的实体边缘特征，并且终端还可以在待训练实体检测模型中获取实体边缘特征与预设特征阈值的比较结果，并根据实体边缘特征与预设特征阈值的比较结果确定各个字符是否为实体边缘字符。例如，当终端检测到该字符的实体边缘特征大于或等于预设特征阈值时，终端可以确定该实体边缘特征对应的字符为实体边缘字符，即为实体的起始字符或结尾字符。否则确定为非实体边缘字符。当终端确定一个字符对中每个字符均为实体边缘字符时，可以确定上述字符对为实体对应的样本实体对，终端可以获取该样本实体对在其所在的音乐文本中对应的样本实体及其样本实体类型。并获取上述待训练实体检测模型输出的该样本实体对对应的样本实体以及样本实体类型。终端可以通过上述待训练实体检测模型，对每个字符对均进行上述实体边缘字符检测，从而终端可以得到待训练实体检测模型输出的音乐文本中的多个样本实体及其样本实体类型。

通过本实施例，终端可以利用待训练实体检测模型，对音乐文本中的各个字符对中的各个字符进行是否是实体边缘字符的检测，从而确定出由实体边缘字符构成的样本实体对，并得到待训练实体检测模型输出的音乐文本中的样本实体及其样本实体类型，从而终端可以基于样本实体与样本实体类型训练待训练实体检测模型，通过使用训练完成的实体检测模型检测音乐文本中的实体，提高了实体检测的效率。

在一个实施例中，根据各个字符的至少一个相邻字符确定各个字符的实体边缘特征，包括：若相邻字符为一个，根据每个字符对中各个字符的相邻字符的语义特征向量确定各个字符的实体边缘特征；若相邻字符为多个，根据每个字符对中各个字符的前一相邻字符的语义特征向量和后一相邻字符的语义特征向量的差值，确定各个字符的实体边缘特征。

本实施例中，终端可以根据上述字符对中的各个字符在音乐文本中的相邻字符确定该字符是否实体边缘字符。其中，每个字符的在音乐文本中的相邻字符可以有一个或两个。若相邻字符为一个，则终端可以获取每个字符对中各个字符的相邻字符的特征根据每个字符对中各个字符的相邻字符的语义特征向量确定各个字符的实体边缘特征。上述字符的相邻字符有多个时，例如有两个时，终端可以获取每个字符对中各个字符的前一相邻字符的语义特征向量和后一相邻字符的语义特征向量的差值，并根据该差值确定各个字符的实体边缘特征。即终端可以利用实体检测模型检测标注出的字符对中的各个字符是否为音乐文本中的实体边缘字符。

具体地，终端利用上述待训练实体检测模型检测实体边缘字符的过程可以如图3所示，图3为一个实施例中实体对识别步骤的流程示意图。对于每个字符对，终端通过待训练实体检测模型，对字符对中的每个字符的前置字符和后置字符向量做差，得到判断实体边界的GAP(global average pooling，全局平均池化)特征，作为上述实体边缘特征，该实体边缘特征可以是一种上下文语义表征判断的方式。终端可以通过实体检测模型提取上述字符对的上下文表征，并在最后使用全连接层对字符对进行分类，得到其在音乐文本中对应的实体，从而增强了字符与实体信息之间的隐性依赖。以上述音乐文本“A先生，被粉丝爱称为超级AA。”为例，如图3所示，模型中的字符对包括“超超”、“超级”、“超A”、“超A”、“级A”、“级A”、“AA”、“AA”等，对于字符对“超A”，终端可以获取该字符对中各个字符其在音乐文本中的相邻字符，即“超”对应的相邻字符为“为”和“级”，“A”对应的相邻字符为“A”和“。”。终端可以获取上述各对相邻字符的语义特征向量差值，基于该差值确定各对相邻字符之间的字符是否为实体边缘字符。例如图3中，终端通过实体检测模型确定“超A”字符对中，“超”和“A”均为实体边缘字符，则实体检测模型可以确定“超A”在音乐文本中对应的实体“超级AA”为实体，并且其实体类型为人名。其中，终端可以通过实体检测模型识别音乐文本中不同实体类型的字符对，例如Per可以是人名实体，记为1；Loc可以是地点实体，记为2。上述实体类型可以不局限与上述的两种实体类型。

通过本实施例，终端可以利用待训练实体检测模型，通过获取上述字符对中各个字符在音乐文本中的相邻字符之间的向量差值，确定出由实体边缘字符构成的样本实体对，并基于样本实体对得到音乐文本中对应的样本实体及其实体类型，从而终端可以基于样本实体与样本实体类型训练待训练实体检测模型，通过使用训练完成的实体检测模型检测音乐文本中的实体，提高了实体检测的效率。

在一个实施例中，根据样本实体与真实实体的相似度以及样本实体类型与真实实体类型的相似度，调整待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型，包括：根据样本实体与对应的真实实体的实体类型相似度确定第一损失值，根据样本实体与对应的真实实体的字符相似度确定第二损失值；根据第一损失值和第二损失值确定目标损失值，根据目标损失值调整待训练实体检测模型的模型参数，直到目标损失值小于或等于预设损失阈值时，将当前的待训练实体检测模型作为训练完成的实体检测模型。

本实施例中，终端在训练待训练实体检测模型时，可以获取待训练实体检测模型输出的样本实体及其样本实体类型，终端可以预先标记出上述音乐文本中的真实实体及其真实实体类型，则终端可以根据样本实体与对应的真实实体的相关信息的相似度，对待训练实体检测模型的模型参数进行调整。例如，终端可以根据样本实体与对应的真实实体的实体类型相似度确定第一损失值，并根据样本实体与对应的真实实体的字符相似度确定第二损失值，即终端可以将样本实体与对应的真实实体之间进行包括实体类型的比较以及具体字符的比较。终端可以根据第一损失值和第二损失值确定目标损失值，并根据目标损失值调整待训练实体检测模型参数，直到上述目标损失值小于或等于预设损失阈值时，终端可以将当前的待训练实体检测模型作为训练完成的实体检测模型。其中，上述目标损失值可以根据第一损失值和第二损失值的和得到，另外，在一些实施例中，终端也可以在第一损失值小于或等于第一损失阈值，且第二损失值小于或等于第二损失阈值时，确定实体检测模型训练完成。上述预设损失阈值、第一损失阈值和第二损失阈值可以根据实际情况进行设定。

通过本实施例，终端可以基于样本实体和对应的真实实体之间的实体字符相似度和实体类型相似度对待训练实体检测模型进行调整，从而得到能够用于识别音乐文本中的实体的实体检测模型，提高了实体检测的效率。

在一个实施例中，如图4所示，提供了一种实体检测方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现，包括以下步骤：

步骤S302，获取音乐文本，将音乐文本输入实体检测模型；实体检测模型基于上述的实体检测模型训练方法训练得到。

其中，音乐文本可以是需要进行实体识别的文本，例如音乐评论、音乐百科、艺人简介和影视简介等。实体检测模型可以是终端通过待训练实体检测模型提取音乐文本中的各个字符对，并检测出由实体边缘字符构成的样本实体对后，输出样本实体对在音乐文本中对应的样本实体和样本实体类型，并通过将样本实体和样本实体类型与对应的真实实体和真实实体类型的相似度训练得到的模型。实体检测模型可以用于检测上述音乐文本中的实体及其实体类型。具体地，实体检测模型可以通过计算每个字符对中各个字符的相邻字符之间的语义特征向量差来确定该字符是否为实体边缘字符，从而得到样本实体对。终端可以获取上述音乐文本，并输入但上述训练完成的实体检测模型中，利用实体检测模型检测音乐文本中的实体以及实体类型。

步骤S304，获取实体检测模型输出的音乐文本中包含的实体以及每个实体的实体类型。

其中，实体检测模型可以根据输入的音乐文本，构建相应的标注矩阵，并从中获取多个字符对，获取各个字符对中各个字符在音乐文本中的相邻字符之间的语义特征向量差，确定出各个字符均为实体边缘字符的实体对，并获取音乐文本中与该实体对对应的实体及其实体类型后，输出至终端中，从而终端可以获取实体检测模型输出的音乐文本中包含的实体以及每个实体的实体类型。

具体地，如图5所示，图5为一个实施例中实体识别结果的示意图。以上述音乐文本“A先生，被粉丝爱称为超级AA。”为例，该音乐文本中包含有人名嵌套实体“超级AA”和“AA”，则通过上述实体检测模型对该音乐文本进行实体识别后，可以得到其中包含的实体“超级AA”和“AA”，以及各自的实体类型，即人名实体。

上述实体检测方法中，通过获取包含多个实体的音乐文本中的真实实体以及真实实体类型，并将音乐文本输入待训练实体检测模型，由待训练实体检测模型对音乐文本中的各个字符进行组合得到多个字符对，并输出对多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型，并根据样本实体与真实实体的相似度以及样本实体类型与真实实体类型的相似度调整待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型。从而在需要识别实体时可以将音乐文本输入实体检测模型，获取实体检测模型输出的音乐文本中包含的实体以及每个实体的实体类型。相较于传统的通过片段排列进行实体识别，本方案通过音乐文本构建多个字符对，基于字符对训练实体检测模型，从而通过实体检测模型检测音乐文本中的实体边缘字符，得到对应的实体，提高了实体检测的效率。

在一个实施例中，如图6所示，图6为另一个实施例中实体检测方法的流程示意图。本实施例中，为解决现有嵌套实体抽取方案效率较低，覆盖类型不全和准确率不高的问题，终端可以基于字符对训练一个实体检测模型，检测音乐文本中的实体及其实体类型。终端可以首先获取包括但不限于音乐评论、音乐百科、艺人简介和影视简介在内的各种音乐文本，并将音乐文本输入到实体检测模型中，通过实体检测模型，基于上述的各个识别步骤进行实体识别，并输出实体识别结果，包括实体对应的字符以及实体的类型，终端可以获取实体检测模型输出的原文本以及对应的实体。并且，终端还可以将上述实体检测模型应用到推荐搜索等任务中，从而终端能够将实体检测模型识别出的实体作为推荐或搜索的关键词。

其中，上述实体识别的方式可以是一种Token Pair Link(标记对连接)解码的嵌套命名实体识别方式，终端基于上述实体检测方式，可以更准确地检测出音乐文本中的实体。具体地，终端可以通过Span解码、指针解码和Token Pair Link解码的方式分别对音乐文本中的实体进行识别，各自识别得到的结果可以如下表所示：

其中，P表示查准率，代表检测中查找准确个数的比例；R表示查全率，代表检测中真正预测对的占音乐文本中真正有的实体的比例；F1表示基于查准率和查全率得到的权重值，其公式为F1＝2*P*R/(P+R)。由上表可知，本方案提供的基于Token Pair Link(标记对连接)解码的嵌套命名实体识别方式，准确度、全面度均大于传统的Span解码和指针解码的识别方式。则上述三种解码方式对应的ACC(Accuracy，准确度)可以如下表所示：

解码方式	ACC
		Span解码	72.1
指针解码	69.3
		Token Pair Link解码	82.7

由上表可知，使用本方案的Token Pair Link解码识别实体时，模型的准确率达到82.7％，超过传统方法10个百分点以上，提升效果明显，基于上述表格可知本方案提供的实体检测模型可以有效抽取出音乐领域普通实体和嵌套实体信息。

通过上述实施例，终端通过音乐文本构建多个字符对，基于字符对训练实体检测模型，从而通过实体检测模型检测音乐文本中的实体边缘字符，得到对应的实体，提高了实体检测的效率，并且，通过直接链接字符对建模实体头尾信息，可以完全解决实体交叉和嵌套的问题，通过将标注的字符对矩阵转为为上三角矩阵降低实体标签之间稀疏性，提升解码效率，降低时间复杂度。并且上述实体检测模型还能够提升字符与实体之间的隐形以来，提升了嵌套实体识别准确率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的实体检测模型训练方法、实体检测方法的实体检测模型训练方法、实体检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个实体检测模型训练方法、实体检测装置实施例中的具体限定可以参见上文中对于实体检测模型训练方法、实体检测方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种实体检测模型训练装置，包括：获取模块500、训练模块502和调整模块504，其中：

获取模块500，用于获取包含多个实体的音乐文本，确定音乐文本中的真实实体以及真实实体类型。

训练模块502，用于将音乐文本输入待训练实体检测模型，由待训练实体检测模型对音乐文本中的各个字符进行组合得到多个字符对，并输出对多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型；样本实体对由多个实体边缘字符组成，实体边缘字符表征实体的起始字符或结尾字符。

调整模块504，用于根据样本实体与真实实体的相似度以及样本实体类型与真实实体类型的相似度，调整待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型。

在一个实施例中，上述训练模块502，具体用于针对音乐文本中的每个字符，由待训练实体检测模型根据该字符以及音乐文本中该字符之后的各个字符，组合得到多个字符对。

在一个实施例中，上述训练模块502，具体用于构建与音乐文本的字符数对应长度的二维矩阵，并将音乐文本中的各个字符作为二维矩阵的各个维度的元素，得到音乐文本对应的标注矩阵；根据标注矩阵，获取音乐文本中的多个字符对。

在一个实施例中，上述训练模块502，具体用于针对音乐文本中的每个字符，获取标注矩阵中的上三角矩阵中包含该字符的多个目标矩阵单元，根据多个目标矩阵单元对应字符对，得到音乐文本中的多个字符对。

在一个实施例中，上述训练模块502，具体用于通过待训练实体检测模型获取每个字符对中各个字符的至少一个相邻字符；根据各个字符的至少一个相邻字符确定各个字符的实体边缘特征，并根据实体边缘特征与预设特征阈值的比较结果确定各个字符是否为实体边缘字符；若检测到该字符对中的每个字符均为实体边缘字符时，获取该字符对对应的样本实体类型，得到该字符对对应的包含样本实体类型的样本实体对；获取音乐文本中样本实体对对应的样本实体，并输出样本实体及其样本实体类型。

在一个实施例中，上述训练模块502，具体用于若相邻字符为一个，根据每个字符对中各个字符的相邻字符的语义特征向量确定各个字符的实体边缘特征；若相邻字符为多个，根据每个字符对中各个字符的前一相邻字符的语义特征向量和后一相邻字符的语义特征向量的差值，确定各个字符的实体边缘特征。

在一个实施例中，上述调整模块504，具体用于根据样本实体与对应的真实实体的实体类型相似度确定第一损失值，根据样本实体与对应的真实实体的字符相似度确定第二损失值；根据第一损失值和第二损失值确定目标损失值，根据目标损失值调整待训练实体检测模型的模型参数，直到目标损失值小于或等于预设损失阈值时，将当前的待训练实体检测模型作为训练完成的实体检测模型。

在一个实施例中，如图8所示，提供了一种实体检测装置，包括：输入模块600和检测模块602，其中：

输入模块600，用于获取音乐文本，将音乐文本输入实体检测模型；实体检测模型基于上述的实体检测模型训练方法训练得到。

检测模块602，用于获取实体检测模型输出的音乐文本中包含的实体以及每个实体的实体类型。

上述实体检测模型训练方法、实体检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种实体检测模型训练方法和实体检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述的实体检测模型训练方法和实体检测方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的实体检测模型训练方法和实体检测方法。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的实体检测模型训练方法和实体检测方法。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种实体检测模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述由所述待训练实体检测模型对所述音乐文本中的各个字符进行组合得到多个字符对，包括：

3.根据权利要求1所述的方法，其特征在于，所述由所述待训练实体检测模型对所述音乐文本中的各个字符进行组合得到多个字符对，包括：

根据所述标注矩阵，获取所述音乐文本中的多个字符对。

4.根据权利要求3所述的方法，其特征在于，所述根据所述标注矩阵，获取所述音乐文本中的多个字符对，包括：

5.根据权利要求1所述的方法，其特征在于，所述输出对所述多个字符对中的实体边缘字符进行检测后得到的样本实体对对应的样本实体及其样本实体类型，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述各个字符的至少一个相邻字符确定所述各个字符的实体边缘特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述样本实体与所述真实实体的相似度以及所述样本实体类型与所述真实实体类型的相似度，调整所述待训练实体检测模型的模型参数，直至满足模型训练条件时得到实体检测模型，包括：

8.一种实体检测方法，其特征在于，所述方法包括：

获取音乐文本，将所述音乐文本输入实体检测模型；所述实体检测模型基于权利要求1至7任一项所述的方法训练得到；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。