CN111061840A

CN111061840A - 数据识别方法、装置及计算机可读存储介质

Info

Publication number: CN111061840A
Application number: CN201911314985.4A
Authority: CN
Inventors: 王景禾; 周蓝珺; 潘树燊
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-24

Abstract

本发明实施例提供一种数据识别方法、装置及计算机可读存储介质，其中的方法包括接收来自客户端的识别请求，识别请求包括待识别文本；获取预设领域数据库中与待识别文本相匹配的候选实体集合，并确定候选实体集合的领域特征信息；获取预设语料数据库中与待识别文本相匹配的第一词信息及字符信息，并确定第一词信息的第一词序列特征，及字符信息的字符序列特征；交叉融合领域特征信息、第一词序列特征及字符序列特征，生成识别结果；发送识别结果至客户端。本发明实施例提供一种数据识别方法，能够提高实体识别的准确性和灵活性。

Description

数据识别方法、装置及计算机可读存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种数据识别方法、装置及计算机可读存储介质。

背景技术

命名实体识别(Named Entity Recognition，NER)是指识别文本中具有特定意义的实体，包括：人名、地名、机构名、专有名词等，可应用在信息提取、问答系统、句法分析等领域。目前，命名实体识别的方法主要包括以下两种：第一种是采用规则与传统机器学习相结合的方式识别较短的文本；第二种是采用神经网络与条件随机场(Conditional RandomField，CRF)相结合的方式识别较长的文本。但是第一种方法需要针对特定的问题制定不同的规则，难以在同领域的不同问题之间迁移；第二种方法难以引入特定领域内特有的知识，使其不能消除领域内非自然语言类的歧义，识别出正确的实体。

发明内容

本发明实施例提供一种数据识别方法、装置及计算机可读存储介质，可以提高实体识别的准确性和灵活性。

第一方面，本发明实施例提供一种数据识别方法，包括：

接收来自客户端的识别请求，所述识别请求包括待识别文本；

获取预设领域数据库中与所述待识别文本相匹配的候选实体集合，并确定所述候选实体集合的领域特征信息；

获取预设语料数据库中与所述待识别文本相匹配的第一词信息及字符信息，并确定所述第一词信息的第一词序列特征，及所述字符信息的字符序列特征；

交叉融合所述领域特征信息、所述第一词序列特征及所述字符序列特征，生成识别结果；

发送所述识别结果至所述客户端。

在该技术方案中，服务器在接收到客户端的识别请求的情况下，基于领域的先验知识对该识别请求中的待识别文本进行实体匹配、字词切分及特征提取，服务器基于领域的先验知识对该识别请求中的待识别文本进行实体匹配及特征提取，并通过神经网络对各类特征进行交叉融合，生成识别结果返回至客户端。通过这种方法，有利于消除歧义，提高了实体识别的准确性及灵活性。

第二方面，本发明实施例提供一种数据识别装置，包括：

收发单元，用于接收来自客户端的识别请求，所述识别请求包括待识别文本；

处理单元，用于获取预设领域数据库中与所述待识别文本相匹配的候选实体集合，并确定所述候选实体集合的领域特征信息；获取预设语料数据库中与所述待识别文本相匹配的第一词信息及字符信息，并确定所述第一词信息的第一词序列特征，及所述字符信息的字符序列特征；交叉融合所述领域特征信息、所述第一词序列特征及所述字符序列特征，生成识别结果；

所述收发单元，还用于发送所述识别结果至所述客户端。

第三方面，本发明实施例提供一种数据识别装置，包括处理器、存储器和通信接口，所述处理器、所述存储器和所述通信接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面所描述的方法。该处理设备解决问题的实施方式以及有益效果可以参见上述第一方面所描述的方法以及有益效果，重复之处不再赘述。

第四方面，本发明实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如第一方面所描述的方法。

本申请实施例中，客户端在发送识别请求后，服务器基于预设领域数据库对该识别请求中的待识别文本进行实体匹配及领域特征提取，并基于预设语料数据库对待识别文本进行切字和切词，得到字和词的序列特征，通过神经网络对领域特征及字词序列特征进行交叉融合，生成识别结果返回至客户端。通过本方法，有利于消除歧义，提高了实体识别的准确性及灵活性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据识别系统的架构图；

图2是本发明实施例提供的数据识别方法的示例图；

图3本发明实施例提供的一种数据识别方法的流程示意图；

图4是本发明实施例提供的一种特征提取的流程示意图；

图5是本发明实施例提供的一种神经网络的结构示意图；

图6是本发明实施例提供的另一种数据识别方法的流程示意图；

图7是本发明实施例提供的又一种数据识别方法的流程示意图；

图8是本发明实施例提供的一种数据识别装置的结构示意图；

图9是本发明实施例提供的又一种数据识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

目前，第一种数据识别方法，采用规则与传统机器学习相结合的方式，这种方式的识别精度高，主要适用于较短文本的实体识别。但是这种方式不能保证结果的有效召回率，且对特定的问题需要制定不同的规则，难以在同领域的不同问题之间迁移。灵活性较差。第二种数据识别方法，采用神经网络与条件随机场相结合的方式，这种方式的迁移性较好，主要适用于中长文本中的实体识别。但是这种方式的解释性差，由于难以引入特定领域内特有的知识，使得该方式不能消除领域内非自然语言类的歧义，难以识别出正确的实体。

为解决上述问题，本发明实施例提供一种数据识别方法、装置及计算机可读存储介质，可以提高实体识别的准确性和灵活性。该数据识别方法应用于音乐领域的命名实体识别。例如，本发明实施例在神经网络的输入侧引入音乐领域先验知识得到领域业务相关的特征，将领域业务相关的特征以及通用自然语言处理(Natural Language Processing，NLP)任务中的字词的嵌入(embedding)特征在神经网络中充分交互，保证了较高的召回率及准确率。具体的，本发明实施例可以从音乐平台中抽取如播放量、权威度及点击意图等数据特征以及如上下文特征、类型特征(type_indicator)等离散型特征融入神经网络，可以更有效的消除歧义。本发明实施例还可以通过修改输入的领域特征得到不同的实体识别结果，若得到的实体识别结果有错误，还可以调整输入的领域特征，使得该方法具有较强的迁移性和解释性。

本发明实施例除了可以应用于音乐领域的命名实体识别外，还可以应用于其他领域的命名实体识别，例如视频领域的命名实体识别等。本发明实施例以音乐领域的命名实体识别为例，其他领域的命名实体识别可参考音乐领域的命名实体识别。

其中，命名实体识别是指识别文本中具有特定意义的实体，是信息提取、问答系统、句法分析、机器翻译等领域的重要基础工具，该识别过程通常包括两个部分：①实体边界识别；②确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志，所以实体边界识别相对容易，任务的重点是确定实体的类别。而对于汉语命名实体边界及类别识别任务更为复杂。本发明实施例引入音乐领域先验知识，以提高识别的准确性。领域先验知识是音乐领域先于经验的知识，用于在排除该待识别文本不可能属于的一些类别，例如：用户输入“找一下太阳”，此处的“太阳”可以是歌手名也可以是歌曲名，单从语义本身几乎无法区分，通过引入音乐领域先验知识有利于消除歧义。

上述所提及的数据识别方法可应用于如图1所示的数据识别系统中，该数据识别系统可包括客户端101及服务器102。其中，客户端101可以为以下任一种：终端、独立的应用程序、应用程序编程接口(Application Programming Interface，API)或者软件开发工具包(Software Development Kit，SDK)。终端可以是手机、个人计算机、便捷式计算机等。服务器102可以包括但不限于集群服务器。客户端101向服务器102发送识别请求，服务器102根据识别请求获取实体及确定各类实体特征，交叉融合各类实体特征生成识别结果，并向客户端101反馈识别结果。

请参见图2所示，为本发明实施例提供的数据识别方法的示例图，以音乐领域的命名实体识别为例。具体的，客户端将识别请求发送给服务器，该识别请求包括待识别文本(即图2中需要识别命名实体的文本)，服务器将客户端发送的待识别文本与模板数据库相匹配，其中，模板数据库可以描述为高频模板集合，该模板数据库可以通过文本语料集合离线挖掘，并加入领域数据库中的音乐领域知识配置得到，该领域数据库可以描述为音乐曲库词典。进一步的，若模板数据库中存在与待识别文本匹配的识别结果，则返回识别结果；若模板数据库中不存在与待识别文本匹配的识别结果，则从预设领域数据库提取待识别文本的领域特征，从预设语料数据库提取待识别文本的字符特征、词特征。并将字符特征、词特征及领域特征输入至预先通过文本语料集合离线训练的神经网络，以得到识别结果并返回客户端。

请参见图3，图3为本发明实施例提供的一种数据识别方法的流程示意图，如图3所述，该数据识别方法可以包括301～307部分，其中：

301、客户端发送识别请求至服务器，相应的，服务器接收来自客户端的识别请求。

具体的，客户端发送识别请求至服务器，该识别请求包括待识别文本。其中，待识别文本可以为用户通过客户端可视化界面的搜索框输入的查询(query)语句，例如：找一下周杰伦的七里香。待识别文本还可以为用户原创内容(User Generated Content，UGC)，其中，用户原创内容是指用户通过互联网平台展示或者提供给其他用户的原创内容。可以理解的是，本发明实施例可以对query进行命名实体识别，还可以对UGC进行命名实体识别。

302、服务器获取预设领域数据库中与待识别文本相匹配的候选实体集合。

具体的，服务器通过正逆向最大匹配找出预设领域数据库中与待识别文本相匹配的候选实体集合，该预设领域数据库可以描述为音乐平台词典，可以包括音乐领域知识以及音乐平台日志信息。

具体的，候选实体集合为从待识别文本中获取的候选实体的集合，在获取候选的实体时，由于中文与英文不同，英文的分词是以单词间的空格进行分隔的，而中文中一个句子的分隔以字为单位的。所以对于中文的待识别文本，需要采取分词匹配来获取候选的实体，正逆向最大匹配是一种分词匹配方法。其中，正向最大匹配算法是从左到右将待识别本文中的几个连续字符与预设领域数据库相匹配，如果匹配上，则切分出一个实体。逆向最大匹配法从待识别本文的末端开始匹配扫描，每次取最末端开始匹配，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。例如：待识别文本为“愿得一人心”，预设领域数据库中存在的实体包括：“愿得”、“一人”、“心”、“人心”、“一”，等等。则对“愿得一人心”进行正向最大匹配的过程可如表1所示：

表1

正向最大匹配输出的候选实体集合为“愿得”、“一人”、“心”。

对“愿得一人心”进行逆向最大匹配的过程可如表2所示：

表2

则逆向最大匹配输出的候选实体集合为“人心”、“一”、“愿得”。

303、服务器确定候选实体集合的领域特征信息。

具体的，服务器在从预设领域数据库中获取到与待识别文本相匹配的候选实体集合的情况下，基于该预设领域数据库中的音乐领域知识及音乐平台日志，可以进一步获取该候选实体集合中每个候选实体的领域特征信息。

进一步的，领域特征信息可以包括类型特征信息，该类型特征信息是候选实体集合中每个候选实体类型特征的数据形式集合。其中，类型特征是侯选实体的一种离散型特征，例如：在“周杰伦的七里香”这个文本中“周杰伦”的类型特征可以为歌手名，其中，“周”可以进一步标记为“歌手名的开头”、“杰”可以为“歌手名中间”、“伦”可以为“歌手名结尾”。该类型特征信息可采用multi-hot编码的方式进行定义。其中，multi-hot编码是将特征向量化的一种方式，对应位置存在实体则标记为1，否则标记为0。可选的，在每个候选实体字符的类型特征信息均定义完成后，对每个候选实体按照待识别文本中候选实体的位置进行排序，并将每个候选实体字符的类型特征信息分别标记在对应的候选实体的字符处。在标记完成的情况下，将该类型特征信息输出为一个矩阵的形式，该矩阵的表达式为：

Fea_{type_id}∈R^L*N

其中，L为待识别文本的长度，N为实体类型的数目。

基于该方式，可以根据预设领域数据库，有效的从待识别文本中提取每个候选实体在该领域的类型特征，有利于消除歧义，提高实体识别的准确性。

进一步的，领域特征信息可以包括数值型特征信息，该数值型特征信息是候选实体集合中每个候选实体数值型特征信息的数据形式集合。其中，数值型特征可以包括一个或多个特征，例如：候选实体的热度、权威度、实体名点击后验等的数值型特征。具体的，可以根据日志数据库计算候选实体集合中每个候选实体的数值型特征信息，该日志数据库可以描述为音乐平台日志，其中，日志数据库中可以记录每个候选实体的搜索播放的数据情况，用于计算每个候选实体的数值型特征信息，例如：“周杰伦”在一个月内的搜索量为10000次。在完成数值型特征计算的情况下，将计算得到的每一类数值型特征信息分别输出为一个矩阵，假设共有K个数值特征，第k个特征相对于每一种实体类型的维度为d_k，则第k个特征的矩阵表达式为：

其中，L为待识别文本的长度，K为数值特征的数目，d_k为第k个特征相对于每一种实体类型的维度，N为实体类别的数目。

基于该方式，可以从音乐平台中抽取如播放量、权威度等数值型特征融入神经网络，有效的从待识别文本中提取每个候选实体在该领域的数值型特征，有利于消除歧义，提高实体识别的准确性。

进一步的，领域特征信息可以包括上下文特征信息，该上下文特征信息是候选实体集合中每个候选实体上下文特征的数据形式集合。其中，上下文特征用于识别出在每个候选实体的上下文出现的目标文本的频率特征，具体的，可以通过扫描上下文数据库中与候选实体集合中每个候选实体相匹配的文本集合，根据文本集合确定出在每个候选实体的上下文出现频率较高的目标文本集合。目标文本集合为在候选实体的上下文出现的频率较高的目标文本片段的集合。例如：候选实体为“休息”，则常出现在该候选实体的上下文片段，可以为“适合”、“的时候”、“的歌曲”，等等。其中，上下文数据库可以描述为上下文片段集合。该上下文特征信息采用multi-hot编码的方式进行定义。multi-hot编码的方式可参见上文，此处不再赘述。该上下文特征信息输出矩阵的表达式为：

Fea_context∈R^L*vc

其中，L为待识别文本的长度，vc为挖掘出上下文片段的数目。

基于该方式，可以根据上下文数据库，有效的从待识别文本中提取每个候选实体的上下文特征信息，获取出现过的上下文片段，有利于消除歧义，提高实体识别的准确性。

可选的，该目标文本集合中每个目标文本的置信度均大于预设置信度阈值，且目标文本集合中每个目标文本的出现次数均大于预设次数阈值。具体的，在训练上下文数据库时，只保留置信度大于预设置信度阈值且出现次数大于预设次数阈值的上下文文本。则在获取上下文数据库中与候选实体集合中每个候选实体相匹配的目标文本集合时，所获取到的目标文本集合中的每个目标文本的置信度均大于预设置信度阈值且出现次数均大于预设次数阈值。其中，目标文本出现的次数可以通过直接计数获得，置信度可以通过如下公式计算得到：

其中，count(w,type)表示目标文本w在实体类型上下文出现的次数，count(w)表示目标文本w在语料中出现的总次数。

基于该可选方式，可以找出出现次数最多的目标文本，使获取到的上下文特征更精确，提高实体识别的准确性。

304、服务器获取预设语料数据库中与待识别文本相匹配的第一词信息及字符信息。

具体的，可以根据预设语料数据库对待识别文本进行切词，得到第一词信息，该切词方法可以包括但不限于：正向最大匹配法、逆向最大匹配法、最少切分法及双向最大匹配法，等等。字符信息可以通过对待识别文本按照字符切开得到。

305、服务器确定第一词信息的第一词序列特征，及字符信息的字符序列特征。

具体的，可以通过第一词信息及字符信息与预设语料数据库建立的映射关系，得到第一词信息的第一词序列特征及字符信息的字符序列特征，其中，预设语料数据库可以描述为语料字典表或词典表，第一词序列特征及字符序列特征可以为表示映射关系的id向量。

具体的，待识别文本的领域特征信息、第一词序列特征及字符序列特征的提取流程可参见图4所示。其中，图4中各个步骤的具体实施方式可参见步骤302、303、304及305。例如：在获取到待识别文本的情况下，通过正逆向最大匹配待识别文本得到候选实体，并确定候选实体的类型特征及上下文特征，即图4中的步骤1和步骤6，该步骤可以参见上述实施例中步骤302和303中的描述；整合匹配到的候选实体，获取候选实体的如：热度、权威度等的数值型特征，并将得到的各类特征分配到待识别文本中对应的字，每一类特征输出一个二维矩阵，即图4中的步骤2和步骤3，该两个步骤均可以参见上述实施例中步骤303中的描述；在获取到待识别文本的情况下，也可以对待识别文本进行切词，得到字符序列和词序列，即图4中步骤4，该步骤可以参见上述实施例中步骤304中的描述，其中，字符序列可以描述为字符信息，词序列可以描述为第一词信息；在获取到字符序列和词序列的情况下，进一步获取字符序列的字符特征向量及词序列的词特征向量，即图4中步骤5，该步骤可以参见上述实施例中步骤305中的描述。

进一步的，在获取到待识别文本的领域特征信息、第一词序列特征及字符序列特征后，将每个特征按照文本最大长度填充(Padding)输出结果，基于该方式，可以将不同长度的特征文本输出成一样的长度，以方便机器学习过程。

306、服务器交叉融合领域特征信息、第一词序列特征及字符序列特征，生成识别结果。

具体的，采用神经网络对领域特征信息、第一词序列特征及字符序列特征进行交叉融合，得到待识别文本识别结果。其中，该神经网络可以通过离线训练神经网络模型得到，该离线训练方法可以包括但不限于：反向传播算法。交叉融合领域特征信息、第一词序列特征及字符序列特征的方法，具体可以为，在获取到待识别文本的类型特征信息、数值型特征信息及上下文特征信息的情况下，对类型特征信息进行特征嵌入得到第一嵌入结果，对上下文特征信息进行特征嵌入得到第二嵌入结果，将第一嵌入结果、第二嵌入结果及数值型特征信息进行特征交叉，得到第一结果。同时，对待识别文本的第一词序列特征进行特征嵌入得到第一词嵌入结果，对待识别文本的字符序列特征进行特征嵌入得到字符嵌入结果，对第一词嵌入结果及字符嵌入结果进行特征融合，生成第二结果。对第一结果及第二结果分别进行局部自注意力处理，并对完成自注意力处理的第一结果及第二结果进行特征融合、双向长短记忆处理及条件随机场处理，生成识别结果。

具体的，上述的交叉融合过程可以由神经网络中的各个模块实现，该神经网络的结构可参见图5。其网络结构具体可包括：嵌入模块、融合模块、深度交叉(deep cross)模块、局部自注意力(self-attention)模块、双向长短记忆(Blistm)模块及条件随机场模块，等等。在获取到待识别文本的领域特征信息、第一词序列特征及字符序列特征的情况下，对第一词序列特征、字符序列特征通过嵌入模块进行特征嵌入，并对领域特征中的类型特征和上下文特征也通过嵌入模块进行特征嵌入。对嵌入完成的类型特征、嵌入完成的上下文特征及至少一类数值型特征通过深度交叉模块进行特征深度交叉处理，并通过局部自注意力模块进行局部自注意力处理。同时，对嵌入完成的第一词序列特征及嵌入完成的字符序列特征通过融合模块进行特征融合处理，得到字词融合特征信息，并通过局部自注意力模块对字词融合特征信息进行局部自注意力处理。在分别完成自注意力处理的情况下，将已完成自注意力处理的字词融合特征信息与已完成自注意力处理的领域特征信息，通过融合模块进行特征融合，并通过双向长短记忆模块及条件随机场模块进行进一步的实体识别处理。其中，本实施方式中所涉及模块的具体描述，可参见如下所述：

具体的，嵌入模块用于将一个离散特征线性映射为连续性的特征，即从高维空间映射到一个低维空间，用低维的向量表示一个词，或是一个物体，等等。以获得特征更泛化的表示。此处的离散特征可以包括第一词序列特征、字符序列、类型特征及上下文特征，等等。通过这种方式，可以将每个特征从一个庞大的编码向量转换为一个嵌入矩阵，从而可以通过神经网络探索在高维空间中那些词语之间具有相似性。具有相似性的词语距离会更接近，例如：“周杰伦”和“双截棍”的距离会很近，但“周杰伦”和“模特”的距离会远一些。其中，若该离散特征矩阵的表达为F∈R^L*v；映射矩阵的表达式为W∈R^v*d，则嵌入结果可以表示为：

Embedding(F)＝FW

其中，L为待识别文本的长度，v是离散特征的维度，d是映射参数。

融合模块用于将第一词序列特征及字符序列特征进行特征融合，该融合方式包括但不限于特征拼接(concat)和门(gate)控。其中，特征拼接是将第一词序列特征及字符序列特征的特征向量拼接成一个字符串。而门控是根据第一词序列特征及字符序列特征学习出一个参数，通过参数加权的方式融合特征。

深度交叉模块用于对输入的类型特征信息、上下文特征信息及数值型特征信息做交叉，该模块主要采用了深度交叉网络(deep and cross network，DCN)中的交叉(cross)部分，该交叉网络，在每一层都应用特征拼接，自动对不同的输入特征做交叉，从而提取到更多的信息，也避免了手动交叉的繁琐。其中，若1个时间步的输入特征的表达为F∈R^d*1，则该时间步的输出为：

Cross(F)＝FF^TW+b+F

其中，W为网络权重，是参考矩阵W∈R^d*1得到的；b为偏置，是参考矩阵b∈R^d*1得到的，d是映射参数。

局部自注意力模块为自注意力机制的变种，用于使每一个时间步的特征只与领域内的几个时间步交互，而不是与全部时间步的特征进行交互。在命名实体识别任务中，当前位置的实体类别与附近位置字符的特征关系更加密切。其中，若输入特征的表达为F∈R^L*d，则该模块的输出为：

F＝[F₀，F₁…F_L-1]

K＝FW_k

V＝FW_v

Q＝FW_q

P＝[P_-d，F_-d+1…F_d]

其中，F_i表示第i个时间步的特征；K为句子中的关键实体词(key)，相当于编码器的内容；V为关键实体词的集合输出的语境矢量值(value)，相当于编码器的内容；Q为目标识别语句，相当于解码器的内容，在运行中，可以与各个关键词分别进行相似度计算；P为相对位置编码，是参考矩阵P∈R^2*d*L得到的，可以表示句子中词与相对位置关系。

双向长短记忆模块是将前向的长短期记忆网络(Long Short-Term Memory，LSTM)与后向的长短期记忆网络结合，例如：前向的长短期记忆网络中“我”，“爱”，“你”三个实体对应的向量为{h_L0,h_L1,h_L2},后向的长短期记忆网络中“你”，“爱”，“我”三个实体对应的向量为{h_R0,h_R1,h_R2}，则通过前后向向量拼接的到{h_L0,h_R2}，{h_L1,h_R1}，{h_L2,h_R0}，即可以表示为{h₀,h₁,h₂}。

条件随机场模块是一种鉴别式机率模型，主要用于判别概率，该模块可以在标记数据的时候，考虑相邻数据的标记信息，从而提高识别结果的精度。

307、服务器发送所述识别结果至客户端。

具体的，服务器在生成识别结果后，将结果发送至客户端，例如：对于待识别文本“找一下周杰伦的七里香”，输出的识别结果可以为歌手名为“周杰伦”，歌曲名为“七里香”的结果。

可见，通过实施图3所描述的方法，客户端在发送识别请求后，服务器基于领域的先验知识对该识别请求中的待识别文本进行实体匹配及特征提取，并通过神经网络对各类特征进行交叉融合，生成识别结果返回至客户端。通过本实施例的方法，有利于消除歧义，提高实体识别的准确性及灵活性。

将本实施方法提出的命名实体识别框架应用于用户查询语句的槽位识别，以及从互联网爬取的视频标题中提取歌手名任务，离线评估的效果如表3所示：

表3

请参见图6，图6为本发明实施例提供的一种数据识别方法的流程示意图，如图6所述，该数据识别方法可以包括601～608部分，其中：

601、客户端发送识别请求至服务器，相应的，服务器接收来自客户端的识别请求。

602、服务器获取预设领域数据库中与待识别文本相匹配的候选实体集合。

步骤601、602的具体实现方式可参见上述步骤301、302的描述，在此不赘述。

603、服务器确定候选实体集合的领域特征信息。

步骤603的具体实现方式可参见上述步骤303的描述，在此不赘述。

作为一种可选的实施方式，领域特征信息可以包括特征提取参数，具体的，可以获取待识别文本的所属领域的公共特征，其中，领域公共特征可以通过额外的特征提取器提取，然后通过对抗学习训练该特征提取器的参数。对抗学习是通过在对抗样本上训练模型，是让两个网络相互竞争对抗，例如：可以通过特征提取器将输入的噪声文本转变成新的样本，即假数据。另一个是判别器网络，它可以同时观察真实和假造的文本数据，判断这个数据到底是不是真的。通过反复对抗，达到训练该特征提取器的参数的目的。则在进行命名实体识别任务时，可以引入该特征提取参数，本实施方式可以在接收客户端的识别请求之前执行，也可以在接收客户端的识别请求之后执行，本发明不做限定。基于该可选方式，在待识别文本的标注数据质量较低的情况下，仍然可以从高质量标注数据的任务中学习有用信息，提高实体识别的准确性。

604、服务器获取预设语料数据库中与待识别文本相匹配的字符信息。

具体的，从预设语料数据库中与待识别文本相匹配的字符信息的方法可参见步骤304中字符信息的获取方式，在此不赘述。

605、服务器确定与字符信息相匹配的第二词信息。

具体的，可以采用卷积网络作用于已经切取得到的字符信息，基于外部分词器，获取该字符信息的第二词信息。该卷积网络是一类包含卷积计算且具有深度结构的前馈神经网络。主要包括特征提取层及特征映射层，可以用于语音合成和语言建模，本实施方案将卷积网络作用于已经切取得到的字符信息，可以达到类似于“组词”的效果

606、服务器确定第二词信息的第二词序列特征，及字符信息的字符序列特征。

具体的，字符序列特征的确定方法可参见步骤305中字符序列特征的确定方式，第二词序列特征的确定方法可参见步骤305中第一词序列特征的确定方式的相关描述，在此不赘述。

607、服务器交叉融合领域特征信息、第二词序列特征及字符序列特征，生成识别结果。

608、服务器发送所述识别结果至客户端。

步骤607、608的具体实现方式可参见上述步骤306、307的描述，在此不赘述。

可见，通过实施图6所描述的方法，可以引入外部特征提取器提取领域公共特征，同时基于字符信息引入外部分词器提取第二词信息，使得在待识别文本的标注数据质量较低的情况下，仍然可以保证实体识别的准确性。

请参见图7，图7为本发明实施例提供的一种数据识别方法的流程示意图，如图7所述，该数据识别方法可以包括701～708部分，其中：

701、客户端发送识别请求至服务器，相应的，服务器接收来自客户端的识别请求。

步骤701的具体实现方式可参见上述步骤301的描述，在此不赘述。

702、服务器判断模板数据库中是否存在与待识别文本匹配的识别结果。

具体的，服务器在接收到识别请求后，先判断模板数据库中是否存在与待识别文本匹配的识别结果。若模板数据库中不存在与待识别文本匹配的识别结果，则触发执行获取预设领域数据库中与待识别文本相匹配的候选实体集合的步骤，即步骤703。若模板数据库中存在与待识别文本匹配的识别结果，则触发执行发送识别结果至客户端的步骤，即步骤708。其中，模板数据库可以通过文本语料集合离线挖掘，并加入领域数据库中的音乐领域知识配置得到。该模板数据库也可以描述为高频模板集合，其离线挖掘方法可以包括但不限于：fp-growth(一种数据挖掘算法)、prefix-span(一种数据挖掘算法)。

703、服务器获取预设领域数据库中与待识别文本相匹配的候选实体集合。

704、服务器确定候选实体集合的领域特征信息。

705、服务器获取预设语料数据库中与待识别文本相匹配的第一词信息及字符信息。

706、服务器确定第一词信息的第一词序列特征，及字符信息的字符序列特征。

707、服务器交叉融合领域特征信息、第一词序列特征及字符序列特征，生成识别结果。

708、服务器发送所述识别结果至客户端。

步骤703～708的具体实现方式可参见上述步骤302～307的描述，在此不赘述。

可见，通过实施图7所描述的方法，可以先判断模板数据库中是否存在与待识别文本匹配的识别结果，若存在，则直接返回结果，否则执行识别任务，此方法能够减少不必要的识别操作，节约了服务器资源，在保证实体识别准确性的基础上，还提高了识别速度。

基于上述方法实施例的描述，本发明实施例还提出一种数据识别装置。该数据识别装置可以是运行于处理设备中的计算机程序(包括程序代码)；请参见图8所示，该数据识别装置可以运行如下单元：

收发单元801，用于接收来自客户端的识别请求，所述识别请求包括待识别文本；

处理单元802，用于获取预设领域数据库中与所述待识别文本相匹配的候选实体集合，并确定所述候选实体集合的领域特征信息；获取预设语料数据库中与所述待识别文本相匹配的第一词信息及字符信息，并确定所述第一词信息的第一词序列特征，及所述字符信息的字符序列特征；交叉融合所述领域特征信息、所述第一词序列特征及所述字符序列特征，生成识别结果；

所述收发单元801，还用于发送所述识别结果至所述客户端。

在一种实施方式中，所述领域特征信息包括类型特征信息、数值型特征信息及上下文特征信息；

所述确定所述候选实体集合的领域特征信息，处理单元802，还可用于确定所述候选实体集合中每个候选实体的类型特征信息；

根据日志数据库计算所述候选实体集合中每个候选实体的所述数值型特征信息；

根据上下文数据库中与所述候选实体集合中每个候选实体相匹配的目标文本集合，确定所述上下文特征信息。

再一种实施方式中，处理单元802，还可用于所述目标文本集合中每个目标文本的置信度大于预设置信度阈值，且所述目标文本集合中每个目标文本的出现次数大于预设次数阈值。

再一种实施方式中，所述通过交叉融合所述领域特征信息、所述第一词序列特征及所述字符序列特征，生成识别结果，处理单元802，还可用于交叉所述候选实体集合中每个候选实体的所述类型特征信息、所述数值型特征信息及所述上下文特征信息，生成第一结果；

融合所述第一词序列特征及所述字符序列特征，生成第二结果；

根据所述第一结果及所述第二结果，生成所述识别结果。

再一种实施方式中，所述领域特征信息包括特征提取参数，处理单元802，还可用于获取所述待识别文本所属领域的领域公共特征；

根据所述领域公共特征，通过对抗学习获取所述特征提取参数。

再一种实施方式中，处理单元802，还可用于获取所述预设语料数据库中与所述待识别文本相匹配的字符信息；

确定与所述字符信息相匹配的第二词信息，并确定所述第二词信息的第二词序列特征，及所述字符信息的所述字符序列特征。

再一种实施方式中，所述获取预设领域数据库中与所述待识别文本相匹配的候选实体集合之前，处理单元802，还可用于若模板数据库中不存在与所述待识别文本匹配的所述识别结果，则触发执行获取预设领域数据库中与所述待识别文本相匹配的候选实体集合的步骤；

若所述模板数据库中存在与所述待识别文本匹配的所述识别结果，则触发执行发送所述识别结果至所述客户端的步骤。

根据本发明的一个实施例，图3、图6及图7所示的数据识别方法所涉及的部分步骤可由数据识别装置中的处理单元来执行。例如，图3中所示的步骤301和307可由收发单元801执行；又如，图3所示的步骤302可由处理单元802执行。根据本发明的另一个实施例，数据识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。

请参见图9，是本发明实施例提供的一种数据识别装置的结构示意图，该数据识别装置包括处理器901、存储器902及通信接口903，处理器901、存储器902及通信接口903通过至少一条通信总线连接，处理器901被配置为支持处理设备执行图3、图6及图7方法中处理设备相应的功能。

存储器902用于存放有适于被处理器加载并执行的至少一条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。

通信接口903用于接收数据和用于发送数据。例如，通信接口903用于发送识别请求等。

在本发明实施例中，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

通过通信接口903接收来自客户端的识别请求，所述识别请求包括待识别文本；

通过通信接口903发送所述识别结果至所述客户端。

作为一种可选的实施方式，所述领域特征信息包括类型特征信息、数值型特征信息及上下文特征信息；

所述确定所述候选实体集合的领域特征信息，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

确定所述候选实体集合中每个候选实体的类型特征信息；

作为一种可选的实施方式，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

所述目标文本集合中每个目标文本的置信度大于预设置信度阈值，且所述目标文本集合中每个目标文本的出现次数大于预设次数阈值。

作为一种可选的实施方式，所述通过交叉融合所述领域特征信息、所述第一词序列特征及所述字符序列特征，生成识别结果，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

交叉所述候选实体集合中每个候选实体的所述类型特征信息、所述数值型特征信息及所述上下文特征信息，生成第一结果；

根据所述第一结果及所述第二结果，生成所述识别结果。

作为一种可选的实施方式，所述领域特征信息包括特征提取参数，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

获取所述待识别文本所属领域的领域公共特征；

获取所述预设语料数据库中与所述待识别文本相匹配的字符信息；

作为一种可选的实施方式，所述获取预设领域数据库中与所述待识别文本相匹配的候选实体集合之前，该处理器901可以调用存储器902中存储的程序代码以执行以下操作：

若模板数据库中不存在与所述待识别文本匹配的所述识别结果，则触发执行获取预设领域数据库中与所述待识别文本相匹配的候选实体集合的步骤；

本发明实施例还提供了一种计算机可读存储介质(Memory)，可以用于存储图3、图6及图7中所示实施例中处理设备所用的计算机软件指令，在该存储空间中还存放了适于被处理器加载并执行的至少一条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。

上述计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据识别方法，其特征在于，所述方法包括：

通过交叉融合所述领域特征信息、所述第一词序列特征及所述字符序列特征，生成识别结果；

发送所述识别结果至所述客户端。

2.根据权利要求1所述的方法，其特征在于，所述领域特征信息包括类型特征信息、数值型特征信息及上下文特征信息；

所述确定所述候选实体集合的领域特征信息，包括：

确定所述候选实体集合中每个候选实体的类型特征信息；

3.根据权利要求2所述的方法，其特征在于，所述目标文本集合中每个目标文本的置信度大于预设置信度阈值，且所述目标文本集合中每个目标文本的出现次数大于预设次数阈值。

4.根据权利要求2所述的方法，其特征在于，所述通过交叉融合所述领域特征信息、所述第一词序列特征及所述字符序列特征，生成识别结果，包括：

根据所述第一结果及所述第二结果，生成所述识别结果。

5.根据权利要求1所述的方法，其特征在于，所述领域特征信息包括特征提取参数，所述方法还包括：

获取所述待识别文本所属领域的领域公共特征；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述获取预设领域数据库中与所述待识别文本相匹配的候选实体集合之前，所述方法还包括：

8.一种数据识别装置，其特征在于，包括：

所述收发单元，还用于发送所述识别结果至所述客户端。

9.一种数据识别装置，其特征在于，包括处理器、存储器和通信接口，所述处理器、所述存储器和所述通信接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-7任一项所述的方法。