CN115906853A

CN115906853A - 实体信息确定方法、装置和设备

Info

Publication number: CN115906853A
Application number: CN202211622292.3A
Authority: CN
Inventors: 李渊
Original assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Zeekr Intelligent Technology Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Zeekr Intelligent Technology Co Ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-04-04
Also published as: WO2024124913A1

Abstract

本申请提供一种实体信息确定方法、装置和设备，该方法包括：获取语音文本，并提取语音文本中每一文字的语义特征，其中，语音文本中包括N个文字，N为大于1的正整数；根据每一文字的语义特征，确定各个文字的位置特征，其中，位置特征表征对应文字相对于语音文本中其他文字的相对位置特征；根据每一文字的语义特征和位置特征，确定每一文字对应的文字分数；根据各个文字的文字分数，确定语音文本的实体信息。这个过程中提取了语音文本中的每一文字的高层的位置特征信息，提高了实体信息识别的准确性。

Description

实体信息确定方法、装置和设备

技术领域

本申请涉及智能车辆领域，尤其涉及一种实体信息确定方法、装置和设备。

背景技术

车载语音系统的自然语言理解包含语音文本所包括的实体识别阶段，其识别效果决定了车载功能是否可以成功执行。因此提高车载语音系统的实体识别的准确率是非常重要的。

现有技术中，通常通过提取文字的语义特征信息以及特征信息的关联来进行实体信息的识别。

然而现有技术中，对于复杂场景下，非连续命名实体的识别准确性较低。

发明内容

本申请提供一种实体信息确定方法、装置和设备，用以解决非连续命名实体的识别准确性较低的问题。

第一方面本申请提供一种实体信息确定方法，所述方法包括：

获取语音文本，并提取所述语音文本中每一文字的语义特征，其中，所述语音文本中包括N个文字，N为大于1的正整数；

根据每一文字的语义特征，确定各个文字的位置特征，其中，所述位置特征表征对应文字相对于所述语音文本中其他文字的相对位置特征；

根据每一文字的语义特征和位置特征，确定每一文字对应的文字分数，其中，所述文字分数表征对应文字的实体识别类别分数；

根据各个文字的文字分数，确定所述语音文本的实体信息。

在可选的一种实施方式中，根据每一文字的语义特征，确定各个文字的位置特征，包括：

根据预设的第一权重矩阵，对每一文字的语义特征进行特征映射，确定各个文字的位置特征信息，其中，所述第一权重矩阵用于表征每一文字的语义特征与所述文字位置特征两者之间的相关性。

在可选的一种实施方式中，根据每一文字的语义特征和位置特征，确定每一文字的文字分数，包括：

根据每一文字的语义特征和位置特征，确定每一所述文字的最终特征；

根据每一文字的最终特征，确定每一文字的文字分数。

在可选的一种实施方式中，根据每一文字的语义特征和位置特征，确定每一所述文字的最终特征，包括：

根据预设的第二权重矩阵，确定每一文字的位置特征所占对应文字的最终特征的特征比例，其中，所述第二权重矩阵用于表征对应文字在所述语音文本中的位置重要性；

根据每一文字的所述特征比例、位置特征以及语义特征，确定每一所述文字的最终特征。

在可选的一种实施方式中，根据每一文字的最终特征，确定每一文字的文字分数，包括：

对每一文字的最终特征进行矩阵转化处理，确定每一所述文字在各个实体分类的文字分数。

在可选的一种实施方式中，根据各个文字的文字分数，确定所述语音文本的实体信息，包括：

若文字分数大于预设阈值，则确定所述语音文本的实体信息包括所述文字分数对应的实体分类；

若文字分数小于或等于所述预设阈值，则确定所述语音文本的实体信息不包括所述文字分数对应的实体分类。

第二方面，本申请提供一种实体信息确定装置，所述装置包括：

第一处理单元，用于获取语音文本，并提取所述语音文本中每一文字的语义特征，其中，所述语音文本中包括N个文字，N为大于1的正整数；

第一确定单元，用于根据每一文字的语义特征，确定各个文字的位置特征，其中，所述位置特征表征对应文字相对于所述语音文本中其他文字的相对位置特征；

第二确定单元，用于根据每一文字的语义特征和位置特征，确定每一文字对应的文字分数，其中，所述文字分数表征对应文字的实体识别类别分数；

第二处理单元，用于根据各个文字的文字分数，确定所述语音文本的实体信息。

第三方面，本申请提供一种电子设备，所述电子设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于读取所述存储器存储的计算机程序，并根据所述存储器中的计算机程序执行如第一方面所述的实体信息确定方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面所述的实体信息确定方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的实体信息确定方法。

本申请提供的实体信息确定方法、装置和设备，通过以下步骤：获取语音文本，并提取语音文本中每一文字的语义特征，其中，语音文本中包括N个文字，N为大于1的正整数；根据每一文字的语义特征，确定各个文字的位置特征，其中，位置特征表征对应文字相对于语音文本中其他文字的相对位置特征；根据每一文字的语义特征和位置特征，确定每一文字对应的文字分数；根据各个文字的文字分数，确定语音文本的实体信息。这个过程中提取了语音文本中的每一文字的高层的位置特征信息，提高了实体信息识别的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种实体信息确定方法的流程图；

图2为本申请实施例提供的另一种实体信息确定方法的流程图；

图3为本申请实施例提供的一种实体信息确定装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图；

图5为本申请实施例提供的一种电子设备的框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

一个示例中，通过预训练语言表征模型(Bidirectional EncoderRepresentation from Transformers，简称BERT)提取语音文本中文字的语义特征信息，再通过条件随机域：自然语言处理(Conditional Random Field，简称CRF)进行文字间特征信息的关联，进而实现语音文本中实体信息的识别确定。

然而，现有的实体识别确定方法对于复杂场景下，语音文本中的所包含的命名实体分散不连续的情况，识别准确性较低。

本申请提供的实体信息确定方法，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的一种实体信息确定方法的流程图，如图1所示，该方法包括：

101、获取语音文本，并提取语音文本中每一文字的语义特征，其中，语音文本中包括N个文字，N为大于1的正整数。

示例性地，获取语音文本，例如车载语音文本，将车载语音文本通过预训练模型BERT进行语义特征信息提取，输出语音文本中每一文字的语义特征，例如，语音文本中的第i个文本文字的特征输出为特征向量h_i，进而整个语音文本的语音特征可以表示为一个特征向量序列h，其中，语音文本中包括N个文字，N为大于1的正整数。

102、根据每一文字的语义特征，确定各个文字的位置特征，其中，位置特征表征对应文字相对于语音文本中其他文字的相对位置特征。

示例性地，基于特征提取网络，例如胶囊网络中的胶囊层，对每一文字的特征向量进行空间关系编码，映射每一文字的低层特征和高层特征的相关性，即语义特征和位置特征的相关性，确定各个文字的位置特征，其中，位置特征表征对应文字相对于语音文本中其他文字的相对位置特征。

103、根据每一文字的语义特征和位置特征，确定每一文字对应的文字分数，其中，文字分数表征对应文字的实体识别类别分数。

示例性地，不同文字在语音文本中的重要程度是不一样的，例如一个完整的语音文本中就可以包括用户所需表达的意图关键字文字以及用以辅助表达用户意图的语气词、形容词等文字，可以根据不同文字的重要程度，对不同文字进行位置特征重要性加成，进而可以根据添加位置重要性的文字的特征进行实体信息识别，计算确定每一文字对应的文字分数。

104、根据各个文字的文字分数，确定语音文本的实体信息。

示例性地，每一文字针对不同类别的实体，有对应的文字分数，可以整合计算分析各个文字的文字分数，例如确定各个文字中哪些文字分数属于对应的实体信息是可以忽略的，哪些又是不可忽略的等，进而汇总确定语音文本的所包含的实体信息。

综上，本实施例提供的实体信息确定方法，通过以下步骤：获取语音文本，并提取语音文本中每一文字的语义特征，其中，语音文本中包括N个文字，N为大于1的正整数；根据每一文字的语义特征，确定各个文字的位置特征，其中，位置特征表征对应文字相对于语音文本中其他文字的相对位置特征；根据每一文字的语义特征和位置特征，确定每一文字对应的文字分数；根据各个文字的文字分数，确定语音文本的实体信息。这个过程中提取了语音文本中的每一文字的高层的位置特征信息，提高了实体信息识别的准确性。

图2为本申请实施例提供的另一种实体信息确定方法的流程图，如图2所示，该方法包括：

201、获取语音文本，并提取语音文本中每一文字的语义特征，其中，语音文本中包括N个文字，N为大于1的正整数。

示例性地，本步骤参见步骤101，不再赘述。

202、根据预设的第一权重矩阵，对每一文字的语义特征进行特征映射，确定各个文字的位置特征信息，其中，第一权重矩阵用于表征每一文字的语义特征与文字位置特征两者之间的相关性，其中，位置特征表征对应文字相对于语音文本中其他文字的相对位置特征。

示例性地，基于胶囊网络中的胶囊层，对每一文字的特征向量进行空间关系编码，通过一个可训练的位置权重矩阵，即预设的第一权重矩阵，来映射每一文字的低层特征和高层特征的相关性，即语义特征和位置特征的相关性，确定各个文字的位置特征，其中，位置特征表征对应文字相对于语音文本中其他文字的相对位置特征，可训练的位置权重矩阵表征了各个文字之间的位置信息。

一个示例中，低层特征与高层特征的映射可由下式表示：

S_j|i＝W_ijh_i

其中W_ij表示一个可训练的位置权重矩阵，h_i表示文字i的语义特征向量，S_j|i表征文字i的位置特征信息。

203、根据每一文字的语义特征和位置特征，确定每一文字的最终特征。

示例性地，确定文字的语义特征和位置特征的特征占比，进而整合确定每一文字的最终特征。

一个示例中，步骤203包括以下步骤：

根据预设的第二权重矩阵，确定每一文字的位置特征所占对应文字的最终特征的特征比例，其中，第二权重矩阵用于表征对应文字在语音文本中的位置重要性；

根据每一文字的特征比例、位置特征以及语义特征，确定每一文字的最终特征。

示例性地，根据预设的第二权重矩阵，即连接权重矩阵，确定每一文字的位置特征所占对应文字的最终特征的特征比例，其中，第二权重矩阵用于表征对应文字在语音文本中的位置重要性，其中包括每一文字相对于语音文本中其他文字之间的连接权重；根据每一文字的特征比例、位置特征以及语义特征，确定每一文字的最终特征。

一个示例中，预设的第二权重矩阵是可以通过训练并调整的，可以通过胶囊网络中的动态路由计算每个胶囊向量输出U_i，进行训练调整，计算公式如下：

其中，n表示文字个数，C_i表示文字i相对于语音文本中其他文字之间的连接权重，S_j|i表示表征文字i的位置特征信息。

U_i通过squash非线性变化函数得到胶囊输出V_i，根据胶囊输出V_i动态调整权重C_i，当文字对文本重要性越大，权重C_i越大。

一个示例中，得到每个文字的位置重要性权重C_i后，可以进行权重相乘，每个文字加入相对位置信息及重要性：

L_i＝C_iS_i

其中，L_i为文字i的最终特征向量。

204、根据每一文字的最终特征，确定每一文字的文字分数，其中，文字分数表征对应文字的实体识别类别分数。

一个示例中，步骤204包括：对每一文字的最终特征进行矩阵转化处理，确定每一文字在各个实体分类的文字分数。

示例性地，对每一文字的最终特征进行矩阵转化处理，例如对每一文字的最终特征进行Multi-head矩阵计算，确定每一文字的文字分数，例如第1个品类类别的得分，第2个非品类类别的得分。

一个示例中，通过Multi-head矩阵计算，得到文字i在第t个实体类的实体识别类别得分，针对实体类别t，进行文字i特征向量与语音文本中其他文字j的特征向量之间遍历计算，即二维矩阵计算，得到文字i在第t个实体类的实体识别类别得分，如下式：

f(L_i，L_j，t)＝W_tL_ij+b_t

其中，L_ij＝tanh(W_L[L_i，L_j])+b_h，W_t为实体类别t对应的权重参数；

W_L表示特征向量i和特征向量j的拼接向量的权重向量，b_h是计算L_ij的偏移量；L_ij表示L_ij的权重向量，b_t是计算类别得分的偏移量。

205、根据各个文字的文字分数，确定语音文本的实体信息。

一个示例中，步骤205包括以下步骤：

若文字分数大于预设阈值，则确定语音文本的实体信息包括文字分数对应的实体分类；

若文字分数小于或等于预设阈值，则确定语音文本的实体信息不包括文字分数对应的实体分类。

示例性地，可以整合计算分析各个文字的文字分数，例如若文字分数大于预设阈值，则确定语音文本的实体信息包括文字分数对应的实体分类；若文字分数小于或等于预设阈值，则确定语音文本的实体信息不包括文字分数对应的实体分类。从而根据语音文本中每一文字的实体得分进行语音文本中非连续实体信息的提取确定。

综上，本实施例提供的实体信息确定方法，提取了每一文字的语义特征、相对位置特征，并且添加位置重要性，再通过Multi-head矩阵计算得到对应的文字分数，进而根据各个文字的文字分数，确定语音文本的实体信息，提高了实体信息识别的准确性。

图3为本申请实施例提供的一种实体信息确定装置的结构示意图，如图3所示，该装置包括：

第一处理单元31，用于获取语音文本，并提取语音文本中每一文字的语义特征，其中，语音文本中包括N个文字，N为大于1的正整数。

第一确定单元32，用于根据每一文字的语义特征，确定各个文字的位置特征，其中，位置特征表征对应文字相对于语音文本中其他文字的相对位置特征。

第二确定单元33，用于根据每一文字的语义特征和位置特征，确定每一文字对应的文字分数，其中，文字分数表征对应文字的实体识别类别分数。

第二处理单元34，用于根据各个文字的文字分数，确定语音文本的实体信息。

一个示例中，第一确定单元32具体用于：

根据预设的第一权重矩阵，对每一文字的语义特征进行特征映射，确定各个文字的位置特征信息，其中，第一权重矩阵用于表征每一文字的语义特征与文字位置特征两者之间的相关性。

一个示例中，第二确定单元33包括：

第一确定子单元，用于根据每一文字的语义特征和位置特征，确定每一文字的最终特征。

第二确定子单元，用于根据每一文字的最终特征，确定每一文字的文字分数。

一个示例中，第二确定子单元包括：

第一处理模块，用于根据预设的第二权重矩阵，确定每一文字的位置特征所占对应文字的最终特征的特征比例，其中，第二权重矩阵用于表征对应文字在语音文本中的位置重要性。

第二处理模块，用于根据每一文字的特征比例、位置特征以及语义特征，确定每一文字的最终特征。

一个示例中，第二确定子单元具体用于：

对每一文字的最终特征进行矩阵转化处理，确定每一文字在各个实体分类的文字分数。

一个示例中，第二处理单元34包括：

第一处理子单元，用于若文字分数大于预设阈值，则确定语音文本的实体信息包括文字分数对应的实体分类。

第二处理子单元，用于若文字分数小于或等于预设阈值，则确定语音文本的实体信息不包括文字分数对应的实体分类。

图4为本申请实施例提供的一种电子设备的结构示意图，如图4所示，电子设备包括：存储器41，处理器42。

存储器，用于存储计算机程序。

处理器，用于读取存储器存储的计算机程序，并根据存储器中的计算机程序执行上述任一实施例的方法。

图5为本申请实施例提供的一种电子设备的框图，该设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种非临时性计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例提供的方法。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种实体信息确定方法，其特征在于，所述方法包括：

根据各个文字的文字分数，确定所述语音文本的实体信息。

2.根据权利要求1所述的方法，其特征在于，根据每一文字的语义特征，确定各个文字的位置特征，包括：

3.根据权利要求1所述的方法，其特征在于，根据每一文字的语义特征和位置特征，确定每一文字对应的文字分数，包括：

根据每一文字的最终特征，确定每一文字的文字分数。

4.根据权利要求3所述的方法，其特征在于，根据每一文字的语义特征和位置特征，确定每一所述文字的最终特征，包括：

5.根据权利要求3所述的方法，其特征在于，根据每一文字的最终特征，确定每一文字的文字分数，包括：

6.根据权利要求5所述的方法，其特征在于，根据各个文字的文字分数，确定所述语音文本的实体信息，包括：

7.一种实体信息确定装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于读取所述存储器存储的计算机程序，并根据所述存储器中的计算机程序执行上述权利要求1-6任一项所述的实体信息确定方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-6任一项所述的实体信息确定方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的实体信息确定方法。