CN109741732A

CN109741732A - 命名实体识别方法、命名实体识别装置、设备及介质

Info

Publication number: CN109741732A
Application number: CN201811005796.4A
Authority: CN
Inventors: 胡风硕
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-05-10
Anticipated expiration: 2038-08-30
Also published as: US11514891B2; US20200251097A1; WO2020043123A1; CN109741732B

Abstract

公开了一种命名实体识别方法、命名实体识别装置、命名实体识别设备及介质，包括：采集特定场景下的语音信号；提取语音信号中的语音特征向量；基于语音信号进行语音识别后的文字结果，提取所述文字结果中的文字特征向量；将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量；将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果。

Description

命名实体识别方法、命名实体识别装置、设备及介质

技术领域

本公开涉及人工智能领域，更具体地涉及一种命名实体识别方法、命名实体识别装置、命名实体识别设备及介质。

背景技术

随着人工智能和大数据技术的发展，对于语音识别和自然语言处理的技术需求不断提高，其中，命名实体识别作为语义理解、语音合成等任务的必要前操作，在自然语言理解中具有重要的作用。

目前常用的实体识别方法多针对广泛应用场景中的语音识别，然而在特殊场景，如复杂特殊名称的艺术品、书籍、外国人名等，现有的命名实体识别方法难以良好的识别。

因此，需要一种能够在特殊场景下具有良好识别精度和准确率的命名实体识别方法。

发明内容

针对以上问题，本公开提供了一种命名实体识别方法及装置。将文字中不包含的语音信息，如重音、停顿、语调等同文字特征归一化融合，引入深度学习模型中，共同指导命名实体识别的过程。解决了特殊场景下复杂特殊名称对于判断句子结构、识别实体的影响，提高了实体识别的精度和准确率，并进一步地增大了实体识别应用的范围。

根据本公开的一方面，提出了一种命名实体识别方法，包括：采集语音信号；提取语音信号中的语音特征向量；基于语音信号进行语音识别后的文字结果，提取所述文字结果中的文字特征向量；将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量；将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果。

在一些实施例中，提取语音信号中的语音特征向量包括提取语音句特征向量和提取语音字特征向量。

在一些实施例中，提取语音信号中的语音句特征向量包括：根据预设语音句库中的语音参数对照表，将所述语音信号中语音的句特征转换为与之对应的语音句特征向量。

在一些实施例中，提取语音信号中的语音字特征向量包括：通过对语音信号进行语音分析，得到语音信号中的语音字特征向量。

在一些实施例中，对语音信号进行语音分析包括：对于语音信号进行时间和频域上的离散化采样，得到数字语音信号；对于数字语音信号中的每个字在时域上和频域上分别进行处理，得到其时域特征向量及频域的特征向量；；对于语音信号中的每个字，将其时域特征向量和频域特征向量进行拼接，得到对应于每个字的语音字特征向量。

在一些实施例中，基于语音信号进行语音识别后的文字结果，提取所述文字结果中的文字特征向量包括提取字特征向量和提取分词嵌入特征向量。

在一些实施例中，提取所述文字结果中的分词嵌入特征向量包括：根据预设词库中的词组对照表，划分所述文字结果中的词组和单字；根据预设变换规则，将所述词组中的每个字和所述单字分别转换为与对应的分词嵌入特征向量。

在一些实施例中，提取所述文字结果中的字特征向量包括：根据预设字库中的文字及向量值对照表，将所述文字转换为与之对应的字特征向量。

在一些实施例中，将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量包括：对于所提取的语音特征向量、文字特征向量分别进行归一化处理；将归一化处理后得到的针对语音信号中每个字的稠密文字特征向量和稠密语音特征向量进行向量拼接，得到针对语音信号中每个字的复合特征向量。

在一些实施例中，将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量包括：将得到的针对语音信号中每个字的稠密文字特征向量和稠密语音特征向量进行向量拼接，得到针对语音信号中每个字的复合特征向量；对于所得到的复合特征向量中的语音特征向量、文字特征向量分别进行归一化处理。

在一些实施例中，对于所提取的语音特征向量和文字特征向量分别进行归一化处理包括：对所述语音特征向量和所述文字特征向量分别进行线性函数归一化。

在一些实施例中，对于所提取的语音特征向量和文字特征向量分别进行归一化处理包括：对所述语音特征向量和所述文字特征向量分别进行0均值标准化。

在一些实施例中，将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果包括：将所述复合特征向量发送至所选取的深度学习模型的输入端；经由所选取的深度学习模型中的各层对于所述复合特征向量进行处理；在所述深度学习模型的输出端获取命名实体的识别结果。

在一些实施例中，在语音信号中包括多个句子的情况下，将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果之前，还包括：根据对应于语音信号中当前句的句长特征值，对得到的所述语音信号的全部复合特征向量进行截断，得到多个复合特征向量序列，所述复合特征向量序列的数量等于语音信号中所包含的句子的数量，所述多个复合特征向量序列中的每一个所具有的复合特征向量的个数等于对应于语音信号中当前句的句长特征值。

在一些实施例中，语音信号中当前句的句长特征值由语音信号中的语音特征向量获得。

在一些实施例中，语音信号中当前句的句长特征值由语音信号进行语音识别后的文字结果获得。

根据本公开的另一方面，提供一种命名实体识别装置，包括：语音信号采集模块，用于采集语音信号；语音特征向量提取模块，配置为提取语音信号中的语音特征向量；文字特征向量提取模块，配置为基于语音信号进行语音识别后的文字结果，提取所述文字结果中的文字特征向量；复合向量生成模块，配置为将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量；命名实体识别模块，配置为将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果。

根据本公开的另一方面，提供一种命名实体识别设备，其中所述设备包括语音采集装置、处理器和存储器，所述存储器包含一组指令，所述一组指令在由所述处理器执行时使所述命名实体识别设备执行如上所述的方法。

根据本公开的另一方面，提供一种计算机可读存储介质，其特征在于，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行如上所述的方法。

利用本公开提供的命名实体识别方法、装置及设备，通过采用语音信号分析辅助实体命名识别，将传统方法只针对文字进行命名实体识别的过程向前扩展，提高命名实体识别的精度和应用范围。特别地，本公开所述方法可以良好地克服在特殊场景中，采集到的语音信号存在多个复杂特殊名称时命名实体识别困难的问题，进一步提高命名实体识别的鲁棒性及其识别准确度。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本公开的主旨。

图1示出了根据本公开的实施例的命名实体识别设备的示例性的框图；

图2示出了根据本公开的实施例的命名实体识别方法的示例性的流程图；

图3A示出了根据本公开实施例的特殊场景下提取语音信号中语音句特征向量的示意图；

图3B示出了根据本公开实施例的特殊场景下提取语音信号中语音字特征向量的示意图；

图3C示出了根据本公开实施例提取语音信号中语音字特征向量的示例性流程图；

图4示出了根据本公开实施例提取语音信号中文字特征向量的示例性流程图；

图5示出了根据本公开的实施例将语音特征向量与文字特征向量进行拼接的示例性流程图；

图6示出了根据本公开的实施例对所述语音信号的全部复合特征向量进行截断以得到多个复合特征向量序列的示意图；

图7示出了根据本公开的实施例的命名实体识别装置的示意性的框图。

具体实施方式

下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本公开的部分实施例，而不是全部的实施例。基于本公开实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本公开保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1示出了根据本公开的实施例的命名实体识别设备的示例性框图。如图1所示的命名实体识别设备100可以实现为包括语音采集装置130和一个或多个专用或通用的计算机处理系统模块或部件，语音采集装置例如麦克风组件，其可包括麦克风、麦克风套管、安装杆、连接线等；其也可为无线麦克风或麦克风电路。一个或多个专用或通用的计算机处理系统模块或部件例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personaldigital assistance，PDA)、智能眼镜、智能手表、智能指环、智能头盔及任何智能便携设备，其可以包括至少一个处理器110及存储器120。

其中，所述至少一个处理器用于执行程序指令。所述存储器120在命名实体识别设备100中可以以不同形式的程序储存单元以及数据储存单元存在，例如硬盘、只读存储器(ROM)、随机存取存储器(RAM)，其能够用于存储处理器处理和/或执行命名实体识别过程中使用的各种数据文件，以及处理器所执行的可能的程序指令。虽然未在图中示出，但命名实体识别设备100还可以包括一个输入/输出组件，支持命名实体识别设备100与其他组件(如屏幕显示装置)之间的输入/输出数据流。命名实体识别设备100也可以通过通信端口从网络发送和接收信息及数据。

在一些实施例中，命名实体识别设备100可以采集来自周围特定场景中所产生的语音信号，并对接收的语音信号执行下文描述的命名实体识别方法。所述特定场景中的语音信号可以为人声信号，具体地可以例如为博物馆或艺术展览中的解说词、书画赏析及评论的论述内容、针对人物或历史课程的授课内容等。

尽管在图1中，处理器110、存储器120、语音采集装置130呈现为单独的模块，本领域技术人员可以理解，上述装置模块可以被实现为单独的硬件设备，也可以被集成为一个或多个硬件设备，例如集成在智能手表或其他智能设备之中。只要能够实现本公开描述的原理，不同的硬件设备的具体实现方式不应作为限制本公开保护范围的因素。

基于特定场景，由语音采集装置所采集130所采集的语音信号中可能包括大量的复杂特殊名称，例如在书画赏析的特定场景中所采集的语音可包括“这里的黎明静悄悄”、“在雨中漫步”、“当我在谈跑步时我谈些什么”等复杂的画作、书籍名称。

因此，为在特定场景中出现多种复杂特殊名称的情况下，良好地判断其语句结构、识别命名实体，本公开提出了一种命名实体识别方法。图2示出了根据本公开的实施例的命名实体识别方法的示例性流程图。

如图2所示，根据命名实体识别方法200，首先在步骤S201中，采集特定场景下的语音信号。如前所述，该特定场景下的语音信号可以是通过分立的语音采集装置采集，或者也可以是通过与计算机处理系统集成的语音采集模块采集。在本公开实施例不受语音信号的来源及获取方式的限制。例如可以为由独立的麦克风，或者也可以是通过与计算机处理系统相集成的麦克风电路采集。

基于已采集的语音信号，在步骤S202中，提取语音信号中的语音特征向量。提取语音信号中的语音特征向量例如可以通过对于语音信号进行时域及频域的特征提取得出，或者可以通过对于语音信号进行滤波及加窗分析而得出。

基于已采集的语音信号，在步骤S203中，将进一步基于语音信号进行语音识别后的文字结果，提取所述文字结果中的文字特征向量。其中所述语音识别可以通过例如深度学习算法或其他语音信号识别方法实现，本公开实施例不受语音识别方法及过程的限制。基于语音识别后的文字结果，提取所述文字结果中的文字特征向量例如可通过与字库或词库的对照而得出，从中识别命名实体，也可以通过对于句子结构的判断得出。

应了解，步骤S202和S203的操作可以并行进行，或者按照顺序执行，在此不对其作出任何限制。进一步地，根据需要，步骤S202及S203可基于经预处理后得到的不同语音信号进行操作，只要这些语音信号皆来源于相同的原始语音信号即可。

完成语音特征向量和文字特征向量提取后，在步骤S204中，将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量。该拼接过程例如可通过将二者的特征向量进行连接，形成复合特征向量，也可以通过将上述语音特征向量与文字特征向量进行归一化处理，得到归一化向量。

基于所得到的复合特征向量，在步骤S205中，将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果。其中深度学习模型可以为采用基于统计方法的模型，例如隐马尔可夫模型(HiddenMarkovModel，HMM)、最大熵(MaxmiumEntropy，ME)、支持向量机(Support VectorMachine，SVM)，也可以为采用基于时间序列上样本关系的模型，例如长短期记忆网络(LSTM)、循环神经网络(RNN)。

在一些实施例中，提取语音信号中语音特征向量可进一步地包括提取语音句向量和提取语音字向量。其中，提取语音句向量可以更具体地描述，例如提取语音信号中的基频、语速、共振峰等韵律方面的特征，或者也可以提取语音信号频谱相关的特征，例如梅尔频率倒谱系数(MFCC)。提取语音字向量可以例如将语音信号按字分段，提取其中每个字对应的发音时长、本字开始时间点、本字结束时间点，或者也可以提取语音信号中每个字的发音最大频率、最大音强、发音音强积分均值等。下面将结合图3A、图3B对其进一步说明。

图3A示出了在根据本公开实施例的特殊场景下提取语音信号中语音句特征向量的示意图。例如，该特殊场景为艺术展览，其中语音信号为展览中的讲解词。在该特殊场景下，可将所提取的语音信号中的语音句特征向量进一步设定为：提取其帧级的低层次特征向量。更具体地，例如基于当前艺术展览讲解词的语音信号中的每一句，提取其基频特征、声音质量特征、梅尔频率倒谱系数(MFCC)，由此得到基于每一句的句特征向量。

其中，基频特征可以反映出语音的整体性能，例如在普遍情况下，女性的基频特征高于男性，因此可以用来进行性别区分，并在进一步处理后，剔除掉其中混入的其他性别人声的杂音，获取较为精确的句长特征值，通过该特征可以对于语音识别的文字结果中的句长进行辅助修正，避免在所采集语音中由于混入环境音或其他人声而造成识别错误。梅尔频率倒谱系数则可进一步用于辨识声音属性，区分语音中存在的不同人声。

基于在本公开实施例中所提取的特征向量内容，在提取语音信号中的语音句特征向量时，根据本公开的实施例，例如在提取梅尔频率倒谱系数特征向量时，首先可基于预处理、分帧、加窗等过程，得到初步的信号处理结果，其后，在该初步处理结果之上采用傅里叶变换，并进一步对于变换后的信号进行滤波处理及离散余弦变化(DCT)，最终得到对应于该句的动态特征向量(Delta MFCC)，即句特征向量。对于基频特征、声音质量特征等向量，则可采取不同的统计函数，将每个句子时长不等的基础声学特征转换为定长的静态特征。这些统计函数可包括最大最小值、均值、时长、方差等。

在一些实施例中，提取语音信号中的语音句特征向量，可以通过将上述所提取的语音特性与预设语音句库中的语音参数对照表对照，将其转换为与其特性对应的语音句特征向量。其可以具体描述为，例如在语音预设对照表中，若将男性发声的频率范围设置为100至480赫兹，女性发声的频率范围设置为160至1000赫兹，则针对所提取的句子中的基频特征可将其进行分类标识，例如若采集到的当前句平均频率值为780赫兹，则可将其判别为女声，并基于表格的预设规则得到特征向量值，例如将其对应的语音句特征向量值赋值为1。

图3B示出了在根据本公开实施例的特殊场景下提取语音信号中语音字特征向量的示意图。例如，该特殊场景为文学赏析，其中语音信号为针对文学的评论内容。在该特殊场景下，可将所提取的语音信号中的语音字特征向量进一步设定为包括其时域特征向量和频域特征向量。更具体地，语音字特征向量可以包括该字在全局的序号、该字的开始时间点、发音时长、与前一字的停顿时长、本字发音最大音强、本字发音最小音强、本字发音最大及最小频率、短时平均幅度、短时平均过零率。

其中平均过零率可分辨当前字为浊音还是轻音，特别地，即使在语音信号清浊音有交叠的情况下，其仍具有良好的分辨效果，这使得它可以用于对语音识别的文字结果中因语速较快而引起的清浊音连读或模糊进行修正，如修正快速连读时的“少年维特的烦恼”中“特”和“的”的连读引起的识别错误。短时平均能量可用作为判断声母韵母、有声无声的依据。基于其可对于语音识别的文字结果中断句位置和词语连续性进行校验和修正，且其与停顿时长数据相结合，可进一步依据此断句得到当前句的句长。本字发音最大、最小音强可用于表征本字音频特征，可以对于在环境背景嘈杂或语速较慢的情况下，修正语音识别的文字结果中因语速过慢而将隶属于一个字的首尾部分别识别为独立字的情况，如将诗朗诵中的“笑谈渴饮匈奴血”中的“可”识别为“可恶”。

提取如上所述的语音信号中语音字特征可通过对语音信号进行语音分析实现。参照图3C，在语音分析300中，首先需要经过步骤S301对于语音信号进行时间和频域上的离散化采样，得到数字语音信号。例如，可以采用单位脉冲序列以预设采样频率对于语音信号进行采样，特别地，其采样值可根据奈奎斯特采样定理选择。其中语音信号可为由麦克风直接采集到的语音信号或经由计算机预处理或降噪后的语音信号。

完成语音信号在时间和频域上的离散化采样后，通过步骤S302进一步地对于数字语音信号中的每个字在时域上和频域上分别进行处理，得到其时域特征向量及频域的特征向量。具体而言，在对于语音信号进行时域处理的过程中，例如可通过加窗处理，得到语音信号线性尺度下的短时平均能量、短时过电平率在对语音信号的频域处理中，例如可经过信号分析，提取的对于每个字的本字最大发音频率、倒谱参数，得到包含最大发音频率特征、倒谱参数特征的频域字特征向量。

在获得了语音信号中每个字的语音句特征向量和语音字特征向量后，在步骤S303，对于语音信号中的每个字，将其时域特征向量和频域特征向量进行拼接，得到对应于每个字的语音字特征向量。该拼接例如可以通过将时域特征向量和频域特征向量直接连接得到，也可以将其进行基于后续判别的需求分类，将隶属相同类别的时域及频域向量进行分组拼接。

以上步骤可以更具体地描述，例如所得到的时域特征向量T为(t₁,t₂,t₃),所得到的频域特征向量F为(f₁,f ₂,f ₃)，则将其拼接后可得到对应于当前字的字特征向量M_V，其特征向量M_V为(t₁,t₂,t₃,f₁,f ₂,f ₃)。

图4示出了根据本公开实施例提取语音信号中文字特征向量的示意图。

如图4所示，提取语音信号中的文字特征向量的方法400包括提取文字的字特征向量和分词嵌入特征向量。所述文字的字特征向量标识语音识别后所识别出的每个字，例如采用不同的数值表征转换后的不同字。所述分词嵌入向量标识目前句子中出现的词组及其组成结构关系，例如其可以通过不同的数值表示词组和数值，也可以通过数值的正负表示一个词组中的首字、中间字和结尾字。

基于如上所述，进一步地，在步骤S401提取所述文字结果中的字特征向量中，通过步骤S4011，根据预设字库中的文字及向量值对照表，将所述文字转换为与之对应的字特征向量。其中预设字库可以为现有的语料素材数据集，例如维基百科所公开的100维中文字向量，或者可以为自行设计的针对特定场景高频词汇的语料素材数据集，如针对文艺复兴时期绘画艺术的相关字向量。

以上步骤可以更具体地描述，例如针对语音识别所获取的文字结果中“我想看莫奈的撑阳伞的女人”一句，对照维基百科所公开的100维中文字向量，可得到此句所对应的离散向量D_V，所述离散向量D_V为(28,36,108,196,300,3,314,180,204,3,91,29)，向量中的每一个数值即为对应于句子中每一个文字的字特征值。

得到了与所述文字对应的字特征向量后，进一步通过步骤S402提取所述文字结果中的分词嵌入特征向量。如图4所示，首先通过步骤S4021，根据预设词库中的词组对照表，划分所述文字结果中的词组和单字。其中预设词库可以为现有的词组语料素材库，也可以为自行设计的针对特定场景高频词汇的词组语料素材数据集。划分词组和单字可通过不同的数值大小或正负。完成所述文字结果中的词组和单字的划分后，通过步骤S4022，根据预设变换规则，将所述词组中的每个字和所述单字分别转换为与对应的分词嵌入特征向量。其中，所述变换规则可基于词组中的起始字、中间字和结尾字，分别赋予预设数值，也可基于词组中的字数，对于词组中的每个字，基于其在词组中的位置顺序编号。

以上步骤可以更具体地描述，例如针对语音识别所获取的文字结果中“你怎么看村上春树的当我在谈跑步时我在谈什么”，如所采用的换规则为：单字对应的数值为0，词组中的起始字对应的数值为1，中间字(除起始字和结尾字皆可视为中间字)对应的数值为2，结尾字对应的数值为3。则基于上述的变换规则，将上述文字结果拆分后，依照变换规则转换，可得到分词嵌入特征向量P_V，所述分词嵌入特征向量P_V为(0,1,1,0,1,2,2,3,0,1,2,2,2,2,2,2,2,2,2,2,3)，对于“我想看莫奈的撑阳伞的女人”一句，其对应的分词嵌入特征向量P_V为(0,0,0,1,3,0,1,2,2,2,2,3)。

应了解，步骤S401和S402的操作可以并行进行，或者按照顺序执行，在此不对其作出任何限制。进一步地，根据需要，步骤S401和S402可基于经预处理后得到的不同语音信号进行操作，只要这些语音信号皆来源于相同的原始语音信号即可。

如上所述，得到语音信号的语音特征向量与文字特征向量后，进一步将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量。其中，将语音特征向量与文字特征向量进行拼接，例如可以通过将其直接连接形成新向量，或者可以通过将其内部向量组成部分按照性能或作用进行分类拼接。

在一些实施例中，将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量的步骤包括：对于所提取的语音特征向量、文字特征向量分别进行归一化处理；将归一化处理后得到的针对语音信号中每个字的稠密文字特征向量和稠密语音特征向量进行向量拼接，得到针对语音信号中每个字的复合特征向量。

图5示出了根据本公开的实施例将语音特征向量与文字特征向量进行拼接的示例性流程图。作为示例，下面将参考图5，进一步说明将语音特征向量与文字特征向量进行拼接的方法500的步骤。

如图5所示，首先通过步骤S501，对于所提取的语音特征向量、文字特征向量分别进行归一化处理。所述归一化处理，在一些实施例中，包括对所述语音特征向量和所述文字特征向量分别进行线性函数归一化。具体而言，即利用如下归一化公式对其进行处理：

X_norm＝(X-X_min)/(X_max-X_min)

其中，X_norm为归一化后的稠密数据，X为原始数据，X_max和X_min代表原始数据集中的最大值和最小值。

具体而言，对于文字的分词嵌入向量而言，若向量中数据的最大值为3，最小值为0，则对于分词嵌入向量P_V＝(0,0,0,1,3,0,1,2,2,2,2,3)而言，其采用线性函数方法进行归一化后，所得到的稠密分词嵌入向量P_N为(0,0,0,0.3,1,0,0.3,0.6,0.6,0.6,0.6,1)。

在另一些实施例中，所述归一化处理包括对所述语音特征向量和所述文字特征向量分别进行0均值标准化。具体而言，即利用如下归一化公式对其进行处理：

z＝(x-μ)/σ

其中z为归一化后的稠密数据，x为原始数据，μ和σ代表原始数据集中的均值和方差。

具体而言，对于文字的语音字向量而言，若向量中数据的均值μ为57，方差值σ为12.5，则对于语音字向量M_V中的向量(49,54,60,62,47,66)而言，其采用0均值标准化方法归一化后所得到的稠密字向量M_N为(-0.64，-0.24,0.24,0.4,-0.8,0.72)。

完成文字特征向量及语音特征向量的归一化后，通过步骤S502，对于归一化后的稠密文字特征向量和稠密语音特征向量进行拼接，得到针对语音信号中每个字的复合特征向量。其例如可以通过直接拼接，或按照既定顺序将其中各子向量依序拼接。作为示例，接下来具体说明按照既定顺序将归一化后的文字特征向量和语音特征向量进行拼接的过程。

具体而言，若基于分别归一化后所得到的各稠密向量中对应于其中第i个文字Wi的稠密语音字向量M_Vi为(t_i,f_i)，对应于文字Wi的稠密语音句向量S_Vi为(s_i1,s_i2,……s_i20)，Wi的文字的稠密字特征向量D_Ni为(d_i)，稠密分词嵌入特征向量P_Ni为(p_i1,p_i2，……p_i98)，在采用语音特征向量(语音句向量-语音字向量)-文字特征向量(文字的字向量-分词嵌入向量)的顺序进行拼接的情况下，例如可通过预设各特征向量的长度实现拼接。具体而言，可对于所获取的稠密文字的字特征向量的长度进行比较，选择其中长度最大值作为基准值，据此将稠密文字的字特征向量的预设长度设定为大于或等于该基准值。基于该预设长度对于该句中的所有文字的稠密文字的字特征向量进行扩充，将其扩充至预设长度，该扩充过程例如可通过对其进行补零操作。如上所述方法，可对于上述向量分别设定向量预设长度，并基于预设长度对其分别扩充，例如设稠密语音字向量的预设长度为5，其中可进一步设定，时域语音字向量的预设长度为2，频域语音字向量的预设长度为3，稠密语音句向量的预设长度为20，文字的稠密字特征向量的预设长度为5，稠密分词嵌入特征向量的预设长度为100，则进行扩充补零后，文字Wi的稠密语音字向量M_Vi为(t_i1,0，f_i,0,0)，对应于文字Wi的稠密语音句向量S_Vi为(s_i1,s_i2,……s_i20)，Wi的文字的稠密字特征向量D_Ni为(d_i,0,0,0,0)，稠密分词嵌入特征向量P_Ni为(p_i1,p_i2，……p_i98,0,0)则顺序拼接后针对文字Wi的复合特征向量为行向量，其具体为(s_i1,s_i2,……s_i20，t_i1,0，f_i,0,0，d_i,0,0,0,0，p_i1,p_i2，……p_i98,0,0)。

在进行拼接时，也可以将属于每个字的多个特征向量分列于不同行之中，形成特征向量矩阵。在此处的拼接过程中，例如可首先查看当前的所有特征向量，得到当前多个特征向量中，具有最多向量组成成员的特征向量，即该向量中包含最多子向量元素。如在当前字Wi中，其稠密分词嵌入特征向量P_Ni为(p_i1,p_i2，……p_i98)中具有最多的向量组成成员，其包含的子向量个数为98个。则可基于该最大子向量数，将其余特征向量进行扩充，使之扩充至与当前分词嵌入特征向量P_Ni具有相同的子向量数，例如可进行补零操作对其扩充。补零后可得到的文字Wi的稠密语音字向量M_Vi、对应于Wi的文字的稠密语音句向量S_Vi、对应于Wi的文字的稠密字特征向量D_Ni均为包含98个子向量的特征向量，接下来，可同样采用语音特征向量(语音句向量-语音字向量)-文字特征向量(文字的字向量-分词嵌入向量)的顺序，将其顺序组合，形成为4行，每行具有98列的特征向量矩阵，该矩阵即为表征文字Wi的特征矩阵。

应了解，对于特征向量的归一化及拼接过程不限于上述实施例所描述的顺序，在另一些实施例中，可先对其进行上述拼接过程，例如经由设定预设长度得到拼接后的文字特征行向量、或者经由将属于每个字的多个特征向量分列于不同行之中，形成特征向量矩阵。其后，再对于上述拼接后的特征向量的不同组成部分分别进行归一化处理。

基于所得到的复合特征向量，在步骤S205中，将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果。具体而言，首先，将所述复合特征向量发送至所选取的深度学习模型的输入端，其中所述复合向量例如可采取以字或词组的划分方式依次输入深度学习模型中，也可以通过预设句长或段落长度截取后输入深度学习模型中。其后，经由所选取的深度学习模型中的各层对于所述复合特征向量进行处理，其中所选取的深度学习模型可例如为马尔科夫模型，或者条件随机场模型。且所述深度模型亦可为复合深度学习模型，例如将双向长短时记忆循环神经网络结合条件随机场算法所形成的复合深度学习模型(BiLSTM+CRF)。具体而言，例如选择双向长短时记忆循环神经网络结合所形成的复合深度学习模型时，输入向量数据经过双向长短时记忆循环神经网络中的前向层、反向层的计算，随后经由条件随机场算法层的处理，最终得到深度学习的处理结果。随后，在所述深度学习模型的输出端即可获取命名实体的识别结果。

在一些实施例中，在语音信号中包括多个句子的情况下，将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果之前，还包括对得到的所述语音信号的全部复合特征向量进行截断的步骤。

图6示出了根据本公开的实施例对所述语音信号的全部复合特征向量进行截断，得到多个复合特征向量序列的示意图。参照图6可知，根据语音信号复合向量的截断方法600，首先需经由步骤S601，获取当前语音信号当前句的句长特征值，其中所述句长特征值标识语音信号中当前句的句子长度，在一些实施例中，其可根据在语音信号中提取的语音特征向量的数据所获得，例如通过前述语音句特征向量中的句长特征，或通过语音字特征向量中，基于每个字与前一字停顿时长来划分断句。在一些实施例中，其也可根据语音信号进行语音识别后的文字结果中的断句特征统计得到。

基于所得到的对应于语音信号中当前句的句长特征值，通过步骤S602对得到的所述语音信号的全部复合特征向量进行截断，即，基于语音信号当前句的句长特征值，按顺序截取语音信号的复合特征向量，截断所得到的多个复合向量序列分别表征语音信号中的多个句子。

基于如上的截断方式，在S603中得到多个复合特征向量序列，所述复合特征向量序列的数量等于语音信号中所包含的句子的数量，所述多个复合特征向量序列中的每一个所具有的复合特征向量的个数等于对应于语音信号中当前句的句长特征值。

在一些实施方式中，进一步地，为了便于神经网络模型的识别或基于后续处理的需要，对于截断后得到的多个序列，可进一步根据语音信号中当前句的句长特征值的最大值设置预设句长，基于预设句长对各个序列进行扩充，对于不足的向量数据补充预设值，例如将其设置为0，使得每个序列的长度等于预设句长，其中预设句长大于或等于当前句的句长特征值的最大值。

如图7所示，命名实体识别装置700可以包括语音信号采集模块710、语音特征向量提取模块720、文字特征向量提取模块730、复合向量生成模块740和命名实体识别模块750。其中，语音信号采集模块710，用于采集语音信号；语音特征向量提取模块720配置为提取语音信号中的语音特征向量，具体而言，其例如可执行图3C中所示出的流程，实现如图3A和图3B中所示出的特征提取。文字特征向量提取模块730，配置为基于语音信号进行语音识别后的文字结果，提取所述文字结果中的文字特征向量，具体而言，其例如可执行图4中所示出的流程，实现对于文字特征向量的提取。复合向量生成模块740配置为将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量。具体而言，其例如可执行图5所示出的流程，实现对于语音特征向量与文字特征向量的拼接。命名实体识别模块750配置为将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果。具体而言，其例如可执行图6所示出的流程，经由深度学习模型的处理结果，得到相应的实体识别结果。

根据本公开的另一方面，还提供了一种计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从指尖检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供命名实体识别所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种命名实体识别方法，包括：

采集语音信号；

提取语音信号中的语音特征向量；

基于语音信号进行语音识别后的文字结果，提取所述文字结果中的文字特征向量；

将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量；

将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果。

2.如权利要求1所述的命名实体识别方法，其中提取语音信号中的语音特征向量包括提取语音句特征向量和提取语音字特征向量。

3.如权利要求2所述的命名实体识别方法，其中提取语音信号中的语音句特征向量包括：

根据预设语音句库中的语音参数对照表，将所述语音信号中语音的句特征转换为与之对应的语音句特征向量。

4.如权利要求2所述的命名实体识别方法，其中提取语音信号中的语音字特征向量包括：

通过对语音信号进行语音分析，得到语音信号中的语音字特征向量。

5.如权利要求4所述的命名实体识别方法，其中对语音信号进行语音分析包括：

对于语音信号进行时间和频域上的离散化采样，得到数字语音信号；

对于数字语音信号中的每个字在时域上和频域上分别进行处理，得到其时域特征向量及频域特征向量；

对于语音信号中的每个字，将其时域特征向量和频域特征向量进行拼接，得到对应于每个字的语音字特征向量。

6.如权利要求1所述的命名实体识别方法，其中，基于语音信号进行语音识别后的文字结果，提取所述文字结果中的文字特征向量包括提取字特征向量和提取分词嵌入特征向量。

7.如权利要求6所述的命名实体识别方法，其中，提取所述文字结果中的字特征向量包括：

根据预设字库中的文字及向量值对照表，将所述文字转换为与之对应的字特征向量。

8.如权利要求6所述的命名实体识别方法，其中，提取所述文字结果中的分词嵌入特征向量包括：

根据预设词库中的词组对照表，划分所述文字结果中的词组和单字；

根据预设变换规则，将所述词组中的每个字和所述单字分别转换为与对应的分词嵌入特征向量。

9.如权利要求1所述的命名实体识别方法，其中，将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量包括：

对于所提取的语音特征向量、文字特征向量分别进行归一化处理；

将归一化处理后得到的针对语音信号中每个字的稠密文字特征向量和稠密语音特征向量进行向量拼接，得到针对语音信号中每个字的复合特征向量。

10.如权利要求1所述的命名实体识别方法，其中，将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量包括：

将得到的针对语音信号中每个字的稠密文字特征向量和稠密语音特征向量进行向量拼接，得到针对语音信号中每个字的复合特征向量；

对于所得到的复合特征向量中的语音特征向量、文字特征向量分别进行归一化处理。

11.如权利要求9或10中所述的命名实体识别方法，其中，进行归一化处理包括：

对所述语音特征向量和所述文字特征向量分别进行线性函数归一化。

12.如权利要求9或10中所述的命名实体识别方法，其中，进行归一化处理包括：

对所述语音特征向量和所述文字特征向量分别进行0均值标准化。

13.如权利要求1所述的命名实体识别方法，其中，将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果包括：

将所述复合特征向量发送至所选取的深度学习模型的输入端；

经由所选取的深度学习模型中的各层对于所述复合特征向量进行处理；

在所述深度学习模型的输出端获取命名实体的识别结果。

14.如权利要求1所述的命名实体识别方法，其中，在语音信号中包括多个句子的情况下，将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果之前，还包括：

根据对应于语音信号中当前句的句长特征值，对得到的所述语音信号的全部复合特征向量进行截断，得到多个复合特征向量序列，所述复合特征向量序列的数量等于语音信号中所包含的句子的数量，所述多个复合特征向量序列中的每一个所具有的复合特征向量的个数等于对应于语音信号中当前句的句长特征值。

15.如权利要求14所述的命名实体识别方法，其中，语音信号中当前句的句长特征值由语音信号中的语音特征向量获得。

16.如权利要求14所述的命名实体识别方法，其中，语音信号中当前句的句长特征值由语音信号进行语音识别后的文字结果获得。

17.一种命名实体识别装置，包括：

语音信号采集模块，用于采集语音信号；

语音特征向量提取模块，配置为提取语音信号中的语音特征向量；

文字特征向量提取模块，配置为基于语音信号进行语音识别后的文字结果，提取所述文字结果中的文字特征向量；

复合向量生成模块，配置为将语音特征向量与文字特征向量进行拼接，得到所述语音信号中每个字的复合特征向量；

命名实体识别模块，配置为将语音信号中每个字的所述复合特征向量通过深度学习模型进行处理，得到命名实体的识别结果。

18.一种命名实体识别设备，其中所述设备包括语音采集装置、处理器和存储器，所述存储器包含一组指令，所述一组指令在由所述处理器执行时使所述命名实体识别设备执行上述权利要求1-16中任意一项所述的方法。

19.一种计算机可读存储介质，其特征在于，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行上述权利要求1-16中任意一项所述的方法。