CN110348021A

CN110348021A - 基于命名实体模型的字符串识别方法、电子设备、存储介质

Info

Publication number: CN110348021A
Application number: CN201910646802.2A
Authority: CN
Inventors: 黄海荣; 李林峰
Original assignee: Hubei Ecarx Technology Co Ltd
Current assignee: Ecarx Hubei Tech Co Ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-10-18
Anticipated expiration: 2039-07-17
Also published as: CN110348021B

Abstract

本发明提供了一种基于命名实体模型的字符串识别方法，包括：命名实体模型的输入层接收用户输入的字符串，将字符串转化为字索引数组并输出至字嵌入层，字嵌入层将字索引数组中的每个元素分别转化为多维字向量并输出至双向长短记忆网络层。双向长短记忆网络层的sigmoid激活函数单元或tanh激活函数单元接收到输入数据时，生成sigmoid查表请求或tanh查表请求，并调用预置函数接口，针对不同查表请求，利用预置函数接口采用不同的查表方式在同一个预设查找表中查找对应的数据，并将查找到的数据作为相应激活函数单元的输出结果。双向长短记忆网络层对激活函数单元的输出结果进行逻辑处后输出至全连接层，由全连接层为输出结果数据添加实体标签。本发明方案能有效提高激活函数的数据处理效率。

Description

基于命名实体模型的字符串识别方法、电子设备、存储介质

技术领域

本发明涉及字符识别技术领域，特别是涉及一种基于命名实体模型的字符串识别方法、电子设备及计算机存储介质。

背景技术

在汽车车机NLP(Natural Language Processing,自然语言处理)领域，命名实体识别(Named Entity Recognition，NER)是一项很基础的任务，就是指从文本中识别出命名性指称项，为关系抽取等任务做铺垫。狭义上，是识别出人名、地名和组织机构名这三类命名实体，广义上可以识别更多命名实体，比如歌手、歌名等。由于NER模型中双向长短记忆网络层的sigmoid和tanh函数是指数函数，在计算时需要用到浮点单元或者专用硬件模块，而在汽车车机中，当前大部分车载芯片没有浮点单元或者专用硬件加速模块，并且采用通用处理器软件来模拟指数运算的性能又很低，无法达到更高效地运算效果。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于命名实体模型的字符串识别方法、电子设备及计算机存储介质。

依据本发明一方面，提供了一种基于命名实体模型的字符串识别方法，所述命名实体模型包括输入层、字嵌入层、双向长短记忆网络层和全连接层，所述方法包括：

所述输入层接收用户输入的字符串，将所述字符串转化为字索引数组并输出至字嵌入层，字索引数组的元素为所述字符串中每个字的索引号；

所述字嵌入层将所述字索引数组中的每个元素分别转化为多维字向量，并将多维字向量依次输出至双向长短记忆网络层；

所述双向长短记忆网络层的sigmoid激活函数单元或tanh激活函数单元接收到输入数据时，生成sigmoid查表请求或tanh查表请求，并调用预置函数接口；

针对所述sigmoid查表请求，利用所述预置函数接口将所述输入数据作为查表数据，利用所述查表数据在预设查找表中进行数据查找，将查找到的数据作为所述sigmoid激活函数单元的输出结果；

针对所述tanh查表请求，利用所述预置函数接口将所述输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据，利用所述查表数据在所述预设查找表中进行数据查找，将查找到的数据还原为适用tanh激活函数的数据，并作为所述tanh激活函数单元的输出结果；

所述双向长短记忆网络层对所述sigmoid激活函数单元的输出结果和tanh激活函数单元的输出结果进行逻辑处理，将逻辑处理后得到的数据输出至所述全连接层，由所述全连接层为输出结果数据添加实体标签。

可选地，利用所述预置函数接口将所述输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据，利用所述查表数据在所述预设查找表中进行数据查找，将查找到的数据还原为适用tanh激活函数的数据，并作为所述tanh激活函数单元的输出结果，包括：

利用所述预置函数接口将所述输入数据扩大2倍得到适用sigmoid激活函数的数据，且将扩大2倍后的数据作为查表数据；

利用所述查表数据在所述预设查找表中进行数据查找，将查找到的数据按照公式y＝2*y’-1计算得到适用tanh激活函数的数据，并作为所述tanh激活函数单元的输出结果；

其中，y’表示查找到的数据，y表示适用tanh激活函数的数据。

可选地，在sigmoid激活函数单元或tanh激活函数单元接收到输入数据时，生成sigmoid查表请求或tanh查表请求，包括：

在sigmoid激活函数单元接收到输入数据时，若判断出所述输入数据位于第一数据范围内，生成sigmoid查表请求；

在tanh激活函数单元接收到输入数据时，若判断出所述输入数据位于第二数据范围内，生成tanh查表请求；

其中，所述第一数据范围包含了sigmoid激活函数曲线的纵坐标饱和值之外的纵坐标数值所对应的横坐标数值，所述第二数据范围包含了tanh激活函数曲线的纵坐标饱和值之外的纵坐标数值所对应的横坐标数值。

可选地，所述预设查找表按照如下方式进行创建：

基于sigmoid激活函数曲线定义样本数据范围和对应的输出数据范围，其中，所述样本数据范围不小于所述第一数据范围，且一个样本数据对应一个输出数据；

将所述样本数据范围量化为样本整数范围，将输出数据范围量化为输出整数范围；

从所述样本整数范围中等数值间距H选取N个样本整数，从所述输出整数范围等数值间距H选取N个输出整数，H为整数；

将所述N个样本整数添加指定偏移量得到N个样本正整数并生成输入序列，利用所述N个输出整数生成输出序列，所述输入序列和输出序列中的数据依据数据值的大小排列；

将所述输入序列中N个样本正整数除以H得到与其位置对应的序号值；

将转换为序号值后的N个样本正整数作为输出序列中对应位置的输出整数的下标，建立所述N个输出整数和各自对应下标之间的映射关系，依据所述映射关系创建所述预设查找表。

可选地，利用所述查表数据在所述预设查找表中进行数据查找，包括：

将所述查表数据量化为正整数后除以H，得到转换结果数据；

在所述预设查找表中查找与所述转换结果数据相等的下标对应的输出整数。

可选地，所述预设查找表按照如下方式进行创建：

基于所述sigmoid激活函数曲线定义样本数据范围和对应的输出数据范围，其中，所述样本数据范围不小于所述第一数据范围，且一个样本数据对应一个输出数据；

从所述样本整数范围中等数值间H距选取N个样本整数，从所述输出整数范围等数值间距H选取N个输出整数，H为整数；

从所述N个样本整数中选取小于0的N/2个样本整数，并从所述N个输出整数中选取对应的N/2个输出整数；

将N/2个样本整数添加指定偏移量得到N/2个样本正整数并生成输入序列，利用所述N/2个输出整数生成输出序列，所述输入序列和输出序列中的数据依据数据值的大小排列；

将所述输入序列中N/2个样本正整数除以H得到与其位置对应的序号值；

将转换为序号值后的N/2个样本正整数作为输出序列中对应位置的输出整数的下标，建立所述N/2个输出整数和各自对应下标之间的映射关系，依据所述映射关系创建所述预设查找表。

可选地，针对所述sigmoid查表请求，利用所述预置函数接口将所述输入数据作为查表数据，利用所述查表数据在预设查找表中进行数据查找，将查找到的数据作为所述sigmoid激活函数单元的输出结果，包括：

针对所述sigmoid查表请求，若判断出输入数据小于0，利用所述预置函数接口将所述输入数据作为查表数据；

将所述查表数据量化为正整数后除以H得到转换结果数据，在所述预设查找表中查找与所述转换结果数据相等的下标对应的输出整数；

将查找到的输出整数作为所述sigmoid激活函数单元的输出结果。

可选地，所述方法还包括：

针对所述sigmoid查表请求，若判断出输入数据大于0，利用所述预置函数接口将所述输入数据的负值作为查表数据；

将查找到的输出整数按照公式y＝1–y’计算，将计算结果数据作为所述sigmoid激活函数单元的输出结果；

其中，y’表示查找到的数据，y表示计算结果数据。

依据本发明另一方面，还提供了一种电子设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述电子设备执行上文任意实施例中所述的基于命名实体模型的字符串识别方法。

依据本发明另一方面，还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行上文任意实施例中所述的基于命名实体模型的字符串识别方法。

在本发明实施例中，NER命名实体模型的输入层接收用户输入的字符串后，依次经由输入层、字嵌入层、双向长短记忆网络层、全连接层进行相应的数据处理，从而实现对字符串的实体识别结果。通过对双向长短记忆网络层中的sigmoid激活函数单元或tanh激活函数单元的数据处理方式进行改进，即在两类激活函数单元接收到输入数据时，不是采用通常方式对输入数据进行繁琐的指数函数处理，而是采用定点量化查表法，从预设查找表中查找与输入数据对应的数据，从而可以有效地提高激活函数的数据处理效率，对于命名实体的过程需要的计算力更少，且反应速度更快，提高了用户体验。进一步地，通过将tanh激活函数单元接收到的输入数据转换为适用sigmoid激活函数的数据，从而可以使得两类激活函数单元各自在接收到输入数据后通过查找同一份预设查找表来查找与输入数据对应的结果数据，在保证数据处理效率的基础上节省了预设查找表占用的内存空间，节约了内存资源。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于命名实体模型的字符串识别方法的流程示意图；

图2a示出了根据本发明一个实施例的包含sigmoid激活函数和tanh激活函数的LSTM网络的部分内部结构示意图；

图2b示出了根据本发明一个实施例的LSTM网络的数据流向示意图；

图3示出了根据本发明一个实施例的sigmoid激活函数曲线图；

图4示出了根据本发明一个实施例的tanh激活函数曲线图；

图5示出了根据本发明另一个实施例的sigmoid激活函数曲线图；

图6示出了根据本发明一个实施例的NER命名实体模型的结构框架示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决上述技术问题，本发明实施例提供了一种基于命名实体模型的字符串识别方法，其中，命名实体模型包括输入层、字嵌入层、双向长短记忆网络层和全连接层。图1示出了根据本发明一个实施例的基于命名实体模型的字符串识别方法的流程示意图。参见图1，该方法至少包括步骤S102至步骤S112。

步骤S102，输入层接收用户输入的字符串，将字符串转化为字索引数组并输出至字嵌入层，字索引数组的元素为字符串中每个字的索引号。

步骤S104，字嵌入层将字索引数组中的每个元素分别转化为多维字向量，并将多维字向量依次输出至双向长短记忆网络层。

步骤S106，双向长短记忆网络层的sigmoid激活函数单元或tanh激活函数单元接收到输入数据时，生成sigmoid查表请求或tanh查表请求，并调用预置函数接口。

步骤S108，针对sigmoid查表请求，利用预置函数接口将输入数据作为查表数据，利用查表数据在预设查找表中进行数据查找，将查找到的数据作为sigmoid激活函数单元的输出结果。

步骤S110，针对tanh查表请求，利用预置函数接口将输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据，利用查表数据在预设查找表中进行数据查找，将查找到的数据还原为适用tanh激活函数的数据，并作为tanh激活函数单元的输出结果。

步骤S112，双向长短记忆网络层对sigmoid激活函数单元的输出结果和tanh激活函数单元的输出结果进行逻辑处理，将逻辑处理后得到的数据输出至全连接层，由全连接层为输出结果数据添加实体标签。

本发明实施例通过对双向长短记忆网络层中的sigmoid激活函数单元或tanh激活函数单元的数据处理方式进行改进，即在两类激活函数单元接收到输入数据时，不是采用通常方式对输入数据进行繁琐的指数函数处理，而是采用定点量化查表法，从预设查找表中查找与输入数据对应的数据，从而可以有效地提高激活函数的数据处理效率，对于命名实体的过程需要的计算力更少，且反应速度更快，提高了用户体验。进一步地，通过将tanh激活函数单元接收到的输入数据转换为适用sigmoid激活函数的数据，从而可以使得两类激活函数单元各自在接收到输入数据后通过查找同一份预设查找表来查找与输入数据对应的结果数据，在保证数据处理效率的基础上节省了预设查找表占用的内存空间，节约了内存资源。

参见上文步骤S102，在本发明一实施例中，NER模型的输入层接收用户输入的字符串(例如一句文字语言“我要听刘德华的忘情水”)，该字符串经过输入层后转换成一个个字的索引号，即转换成一个索引号的数组。通常用户在讲一句话时使用的字数少于70个字，因此，本实施例可以定义字符串的最大长度为70个字，通常从字符串最前面的字算起，对超过的字数部分截断丢弃。由此，输入层的输出是一个最长为70个元素的字索引数组，且将字索引数组输出至字嵌入层。

参见上文步骤S104，在本发明一实施例中，字嵌入层可以用一个多维的浮点数据表示每个字的意思，比如128维的浮点数据，这样每个字就用128个元素的一维数组表示。输入层输出的字索引数组经过字嵌入层变成一个个多维字向量，所以前面的70个字的索引号就变成一个[70,128]的矩阵。另外，还会将浮点数据变成量化值，可以采用8位字长的量化方式，例如，一个量化前的浮点数为0.5，采用8位位宽量化方法，其中7位表示小数位，1位表示整数位，量化后就变成8位的整型64(0.5*2⁷＝64)。

在本发明实施例中，命名实体识别一般是使用LSTM(Long Short-Term Memory，长短记忆网络，简称LSTM)来实现。LSTM是一个广泛应用的神经网络模型，它在处理一句话时，会考虑整句话中的每一个字，而不是只考虑最近的一个字或者几个字，因此，在采用双向LSTM网络做命名实体识别的过程中，例如，在处理“我要听刘德华的忘情水”这句话时，最后一个词是“忘情水”，前面有“我要听”和“刘德华”，LSTM长短网络在识别“忘情水”时，考虑了前面的“我要听”、“刘德华”等实体，结合了上下文，所以能更准确的判断出“忘情水”可能是一首歌名。如果只针对整句话的一个方向识别，LSTM就会丢失字符串中字、词顺序的信息，比如“我爱你”和“你爱我”意思区分不出来。而使用NER模型双向LSTM可以进行区分，一个正向LSTM处理“我爱你”，反向LSTM处理“你爱我”，2个LSTM处理的结果合并起来，从而得到输入的字符串中每个字、词的顺序关系。

作为LSTM模块的一个子功能块，通常1个LSTM中有5个激活函数，其中包括3个sigmoid激活函数和2个tanh激活函数，如图2a和图2b所示的LSTM网络中的sigmoid激活函数单元(表示)和tanh激活函数单元。激活函数的作用是给网络带来非线性特征。

在本发明实施例中，结合上文步骤S106，双向长短记忆网络层的sigmoid激活函数单元接收到输入数据时，会生成sigmoid查表请求，并调用预置函数接口，tanh激活函数单元接收到输入数据时，会生成tanh查表请求，并调用预置函数接口，这里的输入数据是字嵌入层输出的多维字向量。进而由预置函数接口针对不同的查表请求采用不同的方式进行查表。该实施例通过设置一个预置函数接口来统一处理sigmoid函数和tanh函数，可以实现API接口的通用性。

结合图3和图4并参见上文步骤S110，本发明实施例针对tanh查表请求利用预置函数接口查找预设查表的过程进行具体介绍。

结合sigmoid激活函数公式和tanh激活函数公式以及图3和图4可知，sigmoid激活函数的横坐标是tanh激活函数横坐标的2倍拉伸，tanh激活函数的纵坐标是sigmoid激活函数的纵坐标的2倍拉伸后向下位移1，即tanh激活函数和sigmoid激活函数的转换公式为tanh(x)＝2*sigmoid(2*x)–1。

因此，为了实现两类激活函数可以调用同一预置函数接口并查找同一预设查找表，可以将tanh激活函数的处理转化为sigmoid激活函数的处理。参照上述tanh激活函数和sigmoid激活函数的转换公式，将输入数据转换为适用sigmoid激活函数的数据的方式为，将输入数据扩大2倍，从而得到适用sigmoid激活函数的数据，以将扩大2倍后的数据作为查表数据。

在利用查表数据在预设查找表中查找到对应的数据后，将查找到的数据还原为适用tanh激活函数的数据的方式为，将查找到的数据按照公式y＝2*y’-1计算，以将查找数据还原至适用tanh激活函数的数据。其中，y’表示查找到的数据，y表示适用tanh激活函数的数据。

此外，需要说明的是本发明实施例对上文步骤S108和步骤S110的顺序不做具体的限定。

在本发明实施例中，对于输入至sigmoid激活函数单元和tanh激活函数单元的输入数据，还可以为其添加特有的flag标识，例如输入至sigmoid激活函数单元的输入数据添加flag为1，输入至sigmoid激活函数单元的输入数据添加flag为2。

在本发明一个实施例中，继续参见图3的sigmoid激活函数曲线和图4的tanh激活函数曲线，可知，当sigmoid激活函数的输入x<-5或者x>5时，对应的输出结果已经饱和，基本上分别为0和1，因此，可以不用考虑输入数据为[-5,5]以外的情况。当tanh激活函数的输入x<-2.5或者x>2.5时，对应的输出结果已经饱和，基本上分别为-1和1，因此，可以不用考虑输入数据为[-2.5,2.5]以外的情况。

因此，对于sigmoid激活函数单元，可以设置第一数据范围，即sigmoid激活函数曲线的纵坐标饱和值之外的纵坐标数值所对应的横坐标数值范围。并且，为了精度不下降，可以放点余量，即有效输入数据范围设置为[-8.0，8.0]，第一数据范围为[-8.0，8.0]。sigmoid激活函数单元接收到输入数据后，可以判断该输入数据是否位于第一数据范围，若是，再生成sigmoid查表请求。而对于输入数据小于-8的情况，直接返回结果0；输入数据大于8的情况，直接返回结果1。

对于tanh激活函数单元，可以设置第二数据范围，即tanh激活函数曲线的纵坐标饱和值之外的纵坐标数值所对应的横坐标数值范围。并且，为了精度不下降，可以放点余量，即有效输入数据范围设置为[-6,6]，第二数据范围为[-6,6]。tanh激活函数单元接收到的输入数据后，可以判断该输入数据是否位于第二数据范围，若是，再生成tanh查表请求。而对于输入数据小于-6的情况，直接返回结果-1；输入数据大于6的情况，直接返回结果1。

本发明一实施例中，可以按照如下方法步骤S12至步骤S16来创建预设查找表。

步骤S11，基于sigmoid激活函数曲线定义样本数据范围和对应的输出数据范围。

在该步骤中，样本数据范围不小于上文步骤中的第一数据范围，若第一数据范围为[-8.0，8.0]，那么样本数据范围也可以为[-8.0，8.0]，相应的输出数据范围为[0.0，1.0]，且一个样本数据对应一个输出数据。

步骤S12，将样本数据范围量化为样本整数范围，并对应的将输出数据范围量化为输出整数范围。

该步骤中，若样本数据范围为[-8.0，8.0]，则采用16位数据类型11位表示小数(即乘211，或者左移11位)，得到量化后的样本整数范围为[-16384，16384]。若输出数据范围为[0.0，1.0]，由于输出范围比较小，因此采用8位数据类型7位表示小数，以保证有足够的精度，得到量化后的输出整数范围为[0，2048]。本发明实施例对样本数据范围和输出数据范围的具体量化方式不做限定。

步骤S13，从样本整数范围等数值间距H选取N个样本整数，从输出整数范围等数值间距H选取N个输出整数，H为整数。

例如，等数值间距H为128，16384*2/128＝256，则可以将样本整数范围中的数值分别间隔128个数值选取256个样本正整数，相应的，在输出整数范围中也选取256个输出整数。本发明实施例对H和N的具体数值不做限定。

步骤S14，将N个样本整数添加指定偏移量得到N个样本正整数并生成输入序列，利用N个输出整数生成输出序列，输入序列和输出序列中的数据依据数据值的大小排列。

该步骤可以将选取的N个样本整数添加16384的偏移量得到N个样本正整数，并利用N个样本正整数生成输入序列[0，128，256，…，32768]。利用选取的N个输出整数生成输出序列[0，8，16，…，2048]。

步骤S15，将输入序列中N个样本正整数除以H得到与其位置对应的序号值。

若输入序列为[0，128，256，…，32768]，将每个样本正整数除以128，得到的序列为[0，1，2，…，255]，这个序列中的数值为输入序列中N个样本整数的位置序号。

步骤S16，将转换为序号值后的N个样本正整数作为输出序列中对应位置的输出整数的下标，建立N个输出整数和各自对应下标之间的映射关系，依据映射关系创建预设查找表。

在该步骤中，通过建立输出序列[0，8，16，…，2048]中N个输出整数和对应的下标序列[0，1，2，…，255]中下标值的映射关系，可以依据映射关系创建预设查找表。

基于该实施例中创建的预设查表，在执行上文步骤S106和步骤S108中的利用查表数据在预设查找表中进行数据查找时，则可以先将查找数据量化为正整数后除以H，得到转换结果数据。然后，在预设查找表中查找与转换结果数据相等的下标对应的输出整数。

例如，若上文中的样本数据采用16位数据类型且11位表示小数(即乘211，或者左移11位)，那么，此处将查找数据量化为正整数的方式为，将查找数据采用16位数据类型且11位表示小数，并且添加16384的偏移量。将添加偏移量后的正整数后除以256(即右移8位)后，得到转换结果数据。然后，在预设查找表中查找与转换结果数据相等的下标，然后依据N个输出整数和各自对应下标之间的映射关系，查找对应的输出整数。

若查找到的输出整数是针对sigmoid查表请求，那么可以直接将该输出整数作为sigmoid激活函数单元的输出结果。若查找到的输出整数是针对tanhd查表请求，则还需要将该输出整数还原为适用tanh激活函数的数据，进而得到tanh激活函数单元的输出结果。对于将输出整数还原为适用tanh激活函数的数据的过程请参见上文实施例，此处不做具体的赘述。

本发明实施例可以将sigmoid激活函数和tanh激活函数进行合并处理，以查找同一份预设查找表，有效地节省了预设查找表占用的内存空间。比如，2份16位512格的查找表，其大小为2KByte，通过采用一份1Kbyte的预设查找表，则可以减少1KByte的高速内存开销。

由于sigmoid激活函数存在指数函数公式且sigmoid激活函数曲线基于纵轴上下斜对称，对称点为x＝0，y＝0.5。因此，为了进一步地节约预设查找表所占用的内存空间，可以通过只保留sigmoid激活函数对称点的半幅(只保留图5所示的下半幅)数据，将预设查找表的输出整数保留一半，进而可以利用对称公式sigmoid(x)＝1-sigmoid(-x)来计算sigmoid激活函数对称点的另外半幅数据。

在该实施例中，可以按照如下方法步骤S21至步骤S27来创建预设查找表。

步骤S21，基于sigmoid激活函数曲线定义样本数据范围和对应的输出数据范围，其中，样本数据范围不小于第一数据范围，且一个样本数据对应一个输出数据。

例如，第一数据范围为[-8.0，8.0]，那么样本数据范围也可以为[-8.0，8.0]，相应的输出数据范围为[0.0，1.0]，且一个样本数据对应一个输出数据。

步骤S22，将样本数据范围量化为样本整数范围，并对应的将输出数据范围量化为输出整数范围。

具体量化过程可以参见上文创建预设查找表的过程，例如，量化得到样本整数范围为[-32768，32768]，输出整数范围为[0，2048]。本发明实施例对样本数据范围和输出数据范围的具体量化方式不做限定。

步骤S23，从样本整数范围等数值间H距选取N个样本整数，从输出整数范围等数值间距H选取N个输出整数，H为整数。

该步骤中可以选取H为128，N为256。本发明实施例对H和N的具体数值不做限定。

步骤S24，从N个样本整数中选取小于0的N/2个样本整数，并从N个输出整数中选取对应的N/2个输出数据。

步骤S25，将N/2个样本整数添加指定偏移量得到N/2个样本正整数并生成输入序列，利用N/2个输出整数生成输出序列，输入序列和输出序列中的数据依据数据值的大小排列。

例如，将N/2个样本整数添加16384的偏移量得到N/2个样本正整数，并利用N/2个样本正整数生成的输入序列为[0，128，256，…，16384]。利用上步中选取的N/2个输出整数生成的输出序列为[0，8，16，…，1024]。

步骤S26，将输入序列中N/2个样本正整数除以H得到与其位置对应的序号值。

若输入序列为[0，128，256，…，16384]，将每个样本正整数除以128，得到的序列为[0，1，2，…，128]，这个序列中的数值为输入序列中N/2个样本整数的位置序号。

步骤S27，将转换为序号值后的N/2个样本整数作为输出序列中对应位置的输出整数的下标，建立N/2个输出整数和各自对应下标之间的映射关系，依据映射关系创建预设查找表。

在该步骤中，通过建立输出序列[0，8，16，…，1024]中N/2个输出整数和对应的下标序列[0，1，2，…，128]中下标值的映射关系，以依据映射关系创建预设查找表。

基于该实施例中创建的预设查表，在执行上文步骤S108时，针对sigmoid查表请求，可以先判断输入数据是大于0还是小于0，若输入数据小于0，利用预置函数接口将输入数据作为查表数据，然后，将查表数据量化为正整数后除以H得到转换结果数据，在预设查找表中查找与转换结果数据相等的下标对应的输出整数。进而将查找到的输出整数作为sigmoid激活函数单元的输出结果。

若判断出输入数据大于0，利用预置函数接口将输入数据的负值作为查表数据。将查表数据量化为正整数后除以H得到转换结果数据，在预设查找表中查找与转换结果数据相等的下标对应的输出整数。将查找到的输出整数按照公式y＝1–y’计算，将计算结果数据作为sigmoid激活函数单元的输出结果。其中，y’表示查找到的数据，y表示计算结果数据。

基于该实施例中创建的预设查表，在执行上文步骤S110时，针对tanh查表请求，则需要先将tanh激活函数单元接收到的数据扩大2倍得到适用sigmoid激活函数的数据，然后再判断扩大2倍后的数据大于0还是小于0，进而依据针对sigmoid查表请求的方式查找预设查找表，此处不再赘述。在找到对应的输出整数后，将输出整数依据公式y＝2*y’-1计算得到适用tanh激活函数的数据，并作为tanh激活函数单元的输出结果。

本发明实施例通过保留sigmoid激活函数对称点的下半幅数据来创建预设查找表，当然，也可以通过保留sigmoid激活函数对称点的上半幅数据来创建预设查找表，本发明实施例对此不做具体的限定。

参见上文步骤S112，在本发明实施例中，上文已经介绍过双向长短记忆网络层输入是前面字嵌入层的输出，双向长短记忆网络层接收到字嵌入层输出的[70,128]矩阵，且将[70,128]矩阵中的每个数值相应的输入至激活函数单元进行查表处理，每次查表结果(y)可以临时保存起来，用于参与到后续的逻辑计算中，直到70个字全部经过双向长短记忆网络层。双向长短记忆网络层在利用激活函数处理每个数值后还会将各激活函数单元的输出结果进行逻辑处理，如图2a和图2b中，例如，将一个sigmoid激活函数的输出结果与一个tanh激活函数的输出结果乘积，将另一tanh激活函数的输出结果与另一sigmoid激活函数的输出结果乘积等等运算处理，最终输出一个大小是[2*70,HIDDENUNIT]的矩阵，其中，70是指70个字，正向LSTM加反向LSTM就是140，HIDDENUNIT是预设的长度，比如128。70个字进入双向长短记忆网络层70次，每次进入一个字的128个一维向量。输出的矩阵中每个元素都是量化后的整型值。

另外，参见图2b，X_t-1、X_t、X_t+1分别表示t-1时刻、t时刻、t+1时刻进入双向长短记忆网络层的不同字的向量，h_t-1、h_t、h_t+1分别表示t-1时刻、t时刻、t+1时刻从双向长短记忆网络层输出的结果。例如，当t时刻输入至双向长短记忆网络层的向量X_t后，双向长短记忆网络层利用激活函数对X_t进行逻辑处理过程中，还会结合向量X_t-1的输出结果h_t-1对X_t进行综合处理，例如将输出结果h_t-1与一个tanh激活函数的输出结果乘积等等，以帮助更有效地识别出向量X_t对应的字，进而更准确得到字符串的识别结果。

双向长短记忆网络层将逻辑处理后得到的[2*70,HIDDENUNIT]的矩阵输出至全连接层，由全连接层为输出结果数据添加实体标签(即NER标签)，从而可以实现对用户输入字符串中的每个字添加标签。全连接层将接收到的矩阵[2*70,HIDDENUNIT]转换成新的矩阵[70,OUTPUTDIM]，其中70代表最大70个字，OUTPUTDIM代表NER标签数量，比如歌名、歌手等NER标签。每个字产生OUTPUTDIM个可能的标签，并且每个标签可以用一个量化后的整数表示，数值越大表示可能性越大。

在本发明一实施例中，当全连接层为用户输入的字符串中的每个字添加标签之后，还可以将实体标签输出至维特比解码层(Viterbi decode)。例如，全连接层输出的矩阵格式是[70,OUTPUTDIM]，由于最终每个字只能有一个标签，70个字就是70个标签，维特比解码层可以将接收到的矩阵[70,OUTPUTDIM]转换为一维数组，即维特比解码层输出格式是70个元素的一维数组。进而，维特比解码层将一维数组输出到输出层后，由输出层输出。

对于维特比解码层对数据的处理过程，具体的维特比解码会把每一条链路的值相加，并且加上转移矩阵，最终得到整条链路的值，选择最大的那一条链路，就是最有可能的标签路径。其中转移矩阵是在训练时产生的，运行时放在内存中共维特比解码使用。维特比解码层输出的结果作为NER模型的最终输出结果，它是一个70个整型数据元素的一维数组的矩阵，数组中每个整型值都是一个标签的号码，号码与标签字符串的对应关系，在训练前就已经固定好，比如号码1代表标签“歌手”，号码2代表标签“歌名”，所以这里很容易得到具体的标签。

例如，用户输入的字符串为“我要听刘德华的忘情水”，最终，经NER模型的输出层输出的结果是“刘德华”为歌手，“忘情水”为歌名。

本发明实施例还提供了一种电子设备，包括处理器；存储有计算机程序代码的存储器；当计算机程序代码被处理器运行时，导致电子设备执行上文任意实施例中的基于命名实体模型的字符串识别方法。

本发明实施例还提供了一种计算机存储介质，计算机存储介质存储有计算机程序代码，当计算机程序代码在计算设备上运行时，导致计算设备执行上文任意实施例中的基于命名实体模型的字符串识别方法。

基于同一发明构思，本发明实施例还创建了一种新的NER命名实体模型，参见图6，NER命名实体模型包含了输入层、字嵌入层、双向长短记忆网络层、全连接层和维特比解码层和输出层。其中，双向长短记忆网络层包括正向LSTM层和反向LSTM层。

输入层可以用于接收用户输入的字符串，并将字符串转化为字索引数组并输出至字嵌入层，字索引数组的元素为字符串中每个字的索引号。例如，用户输入的字符串为图6中的“我要听刘德华的忘情水”。

字嵌入层用于将字索引数组中的每个元素分别转化为多维字向量，并将多维字向量依次输出至双向长短记忆网络层。多维字向量先正序依次输出至正向LSTM层，然后再倒序依次输出至反向LSTM层。

本发明方案对双向长短记忆网络层中的sigmoid激活函数单元或tanh激活函数单元，新增了查表功能。具体的，双向长短记忆网络层的sigmoid激活函数单元或tanh激活函数单元接收到输入数据时，会生成sigmoid查表请求或tanh查表请求，并调用预置函数接口。针对sigmoid查表请求，利用预置函数接口将输入数据作为查表数据，利用查表数据在预设查找表中进行数据查找，将查找到的数据作为sigmoid激活函数单元的输出结果。针对tanh查表请求，利用预置函数接口将输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据，利用查表数据在预设查找表中进行数据查找，将查找到的数据还原为适用tanh激活函数的数据，并作为tanh激活函数单元的输出结果。

双向长短记忆网络层对sigmoid激活函数单元的输出结果和tanh激活函数单元的输出结果进行逻辑处理后，将逻辑处理后得到的数据输出至全连接层。

全连接层，用于对接收到的输出结果数据添加实体标签，并将添加标签后的数据输出至维特比解码层。

维特比解码层，用于依据号码与实体标签的对应关系将实体标签用对应的号码表示并最终经输出层输出。例如，经输出层输出的号码代表的实体标签为[刘德华]歌手、[忘情水]歌名。标签“歌手”对应的号码为1，标签“歌名”对应的号码为2，本发明实施例对此不做具体的限定。

根据上述任意一个优选实施例或多个优选实施例的组合，本发明实施例能够达到如下有益效果：

所属领域的技术人员可以清楚地了解到，上述描述NER命名实体模型内的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种基于命名实体模型的字符串识别方法，所述命名实体模型包括输入层、字嵌入层、双向长短记忆网络层和全连接层，所述方法包括：

2.根据权利要求1所述的方法，其中，利用所述预置函数接口将所述输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据，利用所述查表数据在所述预设查找表中进行数据查找，将查找到的数据还原为适用tanh激活函数的数据，并作为所述tanh激活函数单元的输出结果，包括：

3.根据权利要求1所述的方法，其中，在sigmoid激活函数单元或tanh激活函数单元接收到输入数据时，生成sigmoid查表请求或tanh查表请求，包括：

4.根据权利要求3所述的方法，其中，所述预设查找表按照如下方式进行创建：

5.根据权利要求4所述的方法，其中，利用所述查表数据在所述预设查找表中进行数据查找，包括：

将所述查表数据量化为正整数后除以H，得到转换结果数据；

6.根据权利要求3所述的方法，其中，所述预设查找表按照如下方式进行创建：

7.根据权利要求6所述的方法，其中，针对所述sigmoid查表请求，利用所述预置函数接口将所述输入数据作为查表数据，利用所述查表数据在预设查找表中进行数据查找，将查找到的数据作为所述sigmoid激活函数单元的输出结果，包括：

8.根据权利要求6所述的方法，其中，还包括：

其中，y’表示查找到的数据，y表示计算结果数据。

9.一种电子设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述电子设备执行权利要求1-8任一项所述的基于命名实体模型的字符串识别方法。

10.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行权利要求1-8任一项所述的基于命名实体模型的字符串识别方法。