CN109033070A

CN109033070A - 一种数据处理方法、服务器及计算机可读介质

Info

Publication number: CN109033070A
Application number: CN201810629038.3A
Authority: CN
Inventors: 刘均; 刘新; 邓思超
Original assignee: Shenzhen Launch Technology Co Ltd
Current assignee: Shenzhen Launch Technology Co Ltd
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2018-12-18
Anticipated expiration: 2038-06-19
Also published as: CN109033070B

Abstract

本申请实施例公开了一种数据处理方法、服务器及计算机可读介质，其中，该方法可以包括：对接收的由终端发送的原始数据进行分词处理得到第一分词结果；从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点，根据统计的所述至少一个关键词对应的节点的出现次数以及统计的与所述至少一个关键词对应的节点相关联的父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率；根据计算得到的概率，从所述各个命名实体中确定出目标命名实体。采用本申请实施例，可以提高命名实体识别的准确度和速率。

Description

一种数据处理方法、服务器及计算机可读介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、服务器及计算机可读介质。

背景技术

在进行关键词匹配时，目前所采用的关键词匹配原则通常就是搜索出语句中与某个特定关键词相关的信息，或者采用条件随机场对语句进行命名实体识别以确定出相关的信息。然而，在关键词匹配过程中，语句中包含了部分词语的简写(缩写)和较长语句被拆分后添加了连接词等情况会干扰命名实体的识别过程，从而导致命名实体识别的准确率较低。

发明内容

本申请实施例提供了一种数据处理方法、服务器及计算机可读介质，可以提高命名实体识别准确率和速率。

第一方面，本申请实施例提供了一种数据处理方法，包括：

接收终端发送的原始数据，并对所述原始数据进行分词处理得到第一分词结果；所述第一分词结果包括一个或者多个关键词；从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点；提取所述至少一个关键词对应的节点，并统计所述至少一个关键词对应的节点的出现次数以及与所述至少一个关键词对应的节点相关联的父节点的出现次数；根据所述至少一个关键词对应的节点的出现次数、所述父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率；根据计算得到的概率，从所述各个命名实体中确定出目标命名实体。

可选地，所述从所述各个命名实体中确定出目标命名实体具体包括：将所述各个命名实体出现的概率最大的命名实体确定为目标命名实体。

可选地，所述方法还包括：创建图结构；所述图结构至少包括第一节点和第二节点；所述第一节点为所述第二节点的父节点；为所述图结构中的第一节点设置第一关键词，为所述第二节点设置第二关键词；所述第二关键词的类别为第一关键词的类别的子类别；将所述第一关键词、与所述第一关键词相关联的命名实体、以及在目标语句中存在第一关键词的情况下，所述目标语句存在与所述第一关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第一节点中或者存储在所述图结构中；将所述第二关键词、与所述第二关键词相关联的命名实体、以及在目标语句中存在第二关键词的情况下，所述目标语句存在与所述第二关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第二节点中或者存储在所述图结构中。

可选地，所述方法还包括：对样本数据中的每条语句进行分词处理得到第二分词结果；所述第二分词结果包括一个或多个关键词；所述样本数据中标记了命名实体；将所述第二分词结果中与图结构中相同的关键词定义为目标关键词；所述目标关键词至少包括所述第一关键词或所述第二关键词；对所述每条语句中的各个命名实体进行统计以计算各个命名实体出现的概率；所述各个命名实体包括目标命名实体；计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率；根据所述目标关键词出现的概率以及所述目标命名实体出现的概率计算出在第二目标语句中存在目标关键词的情况下，所述第二目标语句中存在所述目标命名实体的概率。

可选地，所述对所述每条语句中的命名实体进行统计以计算出各个命名实体出现的概率，包括：统计所述样本数据中包含目标命名实体的语句的数量，并统计所述样本数据中总的语句的数量；将所述包含目标命名实体的语句的数量与所述总的语句的数量的比值作为目标命名实体出现的概率。

可选地，所述计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率，包括：统计所述样本数据中存在目标命名实体且存在目标关键词的语句的数量，并统计所述样本数据中存在所述目标命名实体的语句的数量；将存在目标命名实体且存在目标关键词的语句的数量与在各语句中存在目标命名实体的语句数量的比值，作为在所述第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在所述目标关键词的概率。

第二方面，本申请实施例提供了一种服务器，包括：

接收单元，用于接收终端发送的原始数据；分词单元，用于对所述原始数据进行分词处理得到第一分词结果；所述第一分词结果包括一个或者多个关键词；查询单元，用于从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点；处理单元，用于提取所述至少一个关键词对应的节点，并统计所述至少一个关键词对应的节点的出现次数以及与所述至少一个关键词对应的节点相关联的父节点的出现次数；计算单元，用于根据所述至少一个关键词对应的节点的出现次数、所述父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率；确定单元，用于根据计算得到的概率，从所述各个命名实体中确定出目标命名实体。

可选地，所述确定单元从所述各个命名实体中确定出目标命名实体具体包括：将所述各个命名实体出现的概率最大的命名实体确定为目标命名实体。

可选地，所述服务器还包括：创建单元，用于创建图结构；所述图结构至少包括第一节点和第二节点；所述第一节点为所述第二节点的父节点；设置单元，用于为所述图结构中的第一节点设置第一关键词，为所述第二节点设置第二关键词；所述第二关键词的类别为第一关键词的类别的子类别；存储单元，用于将所述第一关键词、与所述第一关键词相关联的命名实体、以及在目标语句中存在第一关键词的情况下，所述目标语句存在与所述第一关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第一节点中或者存储在所述图结构中；所述存储单元，还用于将所述第二关键词、与所述第二关键词相关联的命名实体、以及在目标语句中存在第二关键词的情况下，所述目标语句存在与所述第二关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第二节点中或者存储在所述图结构中。

可选地，所述分词单元，还用于对样本数据中的每条语句进行分词处理得到第二分词结果；所述第二分词结果包括一个或多个关键词；所述样本数据中标记了命名实体；所述确定单元，还用于将所述第二分词结果中与图结构中相同的关键词定义为目标关键词；所述目标关键词至少包括所述第一关键词或所述第二关键词；所述计算单元，还用于对所述每条语句中的各个命名实体进行统计以计算各个命名实体出现的概率；所述各个命名实体包括目标命名实体；所述计算单元，还用于计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率，并根据所述目标关键词出现的概率以及所述目标命名实体出现的概率计算出在第二目标语句中存在目标关键词的情况下，所述第二目标语句中存在所述目标命名实体的概率。

可选地，所述计算单元对所述每条语句中的命名实体进行统计以计算出各个命名实体出现的概率，具体为统计所述样本数据中包含目标命名实体的语句的数量，并统计所述样本数据中总的语句的数量；将所述包含目标命名实体的语句的数量与所述总的语句的数量的比值作为目标命名实体出现的概率。

可选地，所述计算单元计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率，具体为统计所述样本数据中存在目标命名实体且存在目标关键词的语句的数量，并统计所述样本数据中存在所述目标命名实体的语句的数量；将存在目标命名实体且存在目标关键词的语句的数量与在各语句中存在目标命名实体的语句数量的比值，作为在所述第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在所述目标关键词的概率。

第三方面，本申请实施例还提供了一种服务器，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面及其任一种可选方式所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面及其任一种可选方式所述的方法。

综上所述，服务器可以对终端发送的原始数据进行分词处理得到第一分词结果，并可以预设图结构中查询出与该第一分词结果匹配的至少一个关键词对应的节点，从而根据该至少一个关键词对应的节点的出现次数、该父节点的出现次数、与该至少一个关键词相关联的第一命名实体出现的概率、与该父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率，并根据计算得到的概率确定出目标命名实体，从而提高命名实体识别的准确度和速率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理系统的架构示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是本申请实施例提供的另一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种服务器的结构示意图；

图5是本申请实施例提供的另一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参阅图1，为本申请实施例提供的一种数据处理系统的架构示意图。其中，该数据处理系统包括终端10、服务器20。终端10与服务器20之间可以进行通信。其中，该终端10包括但不限于智能手机、平板电脑、智能机器人等具有图像处理功能、语音识别功能或文字处理功能等功能的电子设备。该服务器20可以为互联网中一个单独的服务器或服务器集群。

终端10可以接收用户输入的原始数据，并可以将该原始数据发送到服务器20，服务器20可以将对该原话数据进行命名实体识别处理以得到目标命名实体。

该服务器20对该原始数据进行命名实体识别处理，具体可以为：服务器20对该原始数据进行分词处理以得到多个关键词(该多个关键词可以包括关键词)，并可以从预设图结构中为该多个关键词匹配出至少一个节点，从而可以根据统计到的该至少一个节点的出现次数，该至少一个节点相关联的父节点的出现次数，与该多个关键词相关联的命名实体出现的概率、与该父节点对应的关键词相关联的命名实体出现的概率，从各个命名实体中确定出目标命名实体，有效地提高了命名实体识别的速率和准确度。

在一个实施例中，该预设图结构可以是参见概率图模型创建的。

在一个实施例中，服务器可以将该目标命名实体返回至终端。

在一个实施例中，服务器还可以返回与该目标命名实体相关联的信息至终端，例如，返回与该目标命名实体相关联的解决方案至终端。

在一个实施例中，若该原始数据是用于对与该终端进行通信的其它设备执行控制等操作，则服务器还可以将该目标命名实体发送至该其它设备以对该其它设备执行控制等操作。

在一个实施例中，若该原始数据是用于对与该终端进行通信的其它设备执行信息推送等操作，则服务器还可以将该目标命名实体相关联的信息发送至该其它设备以对该其它设备执行信息推送等操作。

在一个实施例中，服务器还可以利用该目标命名实体执行图结构更新、模型更新等操作，本申请实施例对其不做限制。

请参阅图2，为本申请实施例提供的一种数据处理方法的流程示意图。该方法可以应用在图1所示的数据处理系统中。具体地，该方法可以包括：

S101、接收终端发送的原始数据，并对所述原始数据进行分词处理得到第一分词结果。

其中，该原始数据包括但不限于语音、文字等数据。该第一分词结果包括一个或者多个关键词。该关键词可以包括关键字。

例如，假设原始数据为语句A：汽油消耗量过大是什么原因。服务器在对语句A进行分词处理后，可以得到第一分词结果＝{汽油,消耗,量,过大,是,什么,原因}。本申请实施例还可以包括其它分词方式，在此不一一列举。

本申请实施例中，通过对原始数据进行分词处理，可以有效避免自然语言中的缩写或者连接词干扰实体识别。

S102、从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点。

本申请实施例中，该预设图结构可以包括多个节点，每个节点可以设有关键词。

服务器可以从预设图结构中查询出与该第一分词结果匹配的至少一个关键词对应的节点。该至少一个关键词是指与所述第一分词结果中关键词相同的关键词。

例如，若第一分词结果包括关键词A，服务器可以在预设图结构中查询出与关键词A匹配的关键词A'所对应的节点为节点1，其中，关键词A与关键词A'为同一关键词。

在一个实施例中，为每个节点设置的关键词可以为该每个节点的索引。各个节点的索引和节点的对应关系可以记录在一个或多个列表中。通过索引，可以快速地对节点进行定位查询。

S103、提取所述至少一个关键词对应的节点，并统计所述至少一个关键词对应的节点的出现次数以及与所述至少一个关键词对应的节点相关联的父节点的出现次数。

服务器可以统计至少一个关键词对应的节点的出现次数，并可以确定出该至少一个关键词对应的节点相关联的父节点，提取该至少一个关键词对应的节点相关联的父节点，以统计至少一个关键词对应的节点相关联的父节点的出现次数。

例如，假设至少一个关键词包括关键词A'和关键词B'，服务器统计出关键词A'对应的节点的出现次数为2次，关键词B'对应的节点的出现次数为1次。若确定关键词A'对应的节点对应的父节点为节点1，关键词B'对应的节点的父节点为节点2。该节点1和节点2不为父节点、子节点的关系。服务器可以统计出节点1的出现次数为2次，节点2的出现次数为1次。

在一个实施例中，若父节点可以作为子节点且关联有自己的第一父节点，则服务器还可以统计出第一父节点的出现次数。例如，若节点1为节点3的子节点，则服务器还可以统计出节点3的出现次数为3次。

以此类推，该第一父节点可以作为子节点且关联有自己的第二父节点时，则服务器还可以统计出第二父节点的出现次数。

在一个实施例中，服务器统计至少一个关键词对应的节点的出现次数，可以为服务器统计至少一个关键词的出现次数。例如，服务器可以将关键词A'的出现次数2次，作为关键词A'对应的节点的出现次数。

在一个实施例中，服务器统计至少一个关键词对应的节点相关联的父节点的出现次数，可以为服务器统计父节点对应的关键词出现次数。

S104、根据所述至少一个关键词对应的节点的出现次数、所述父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率。

本申请实施例中，图结构中的每个节点可以设有对应的关键词、与该关联词关联的至少一个命名实体、以及语句中存在该关键词的情况下，该语句中存在该至少一个命名实体中任一命名实体的概率之间的对应关系。其中，每个节点对应的关键词不同。

举例来说，图结构可以包括节点1，节点1可以设有关键词A'，与该关键词A'相关联的至少一个命名实体：命名实体a，语句中存在关键词A'的情况下，该语句中存在命名实体a的概率三者之间的对应关系。若与该关键词A'相关联的至少一个命名实体还包括命名实体b，则该预设图结构的节点1还可以设有关键词A'、命名实体b、语句中在存在关键词A'的情况下，该语句中存在命名实体b的概率三者之间的对应关系。

在一个实施例中，服务器可以采用如下公式计算出各个命名实体中任一命名实体出现的概率：P(B_i)＝∑_j{P(B_i|A_j)*n_j}；

其中，n_j表示关键词A_j对应的节点出现次数。P(B_i|A_j)表示语句中存在关键词A_j的情况下，该语句中存在命名实体B_i的概率。该P(B_i|A_j)是预先计算好的，可以通过为各个节点设置的上述对应关系查询出来。

上述公式利用关键词之间的联系，来求各个命名实体的概率，使得命名实体的识别过程可以更为准确，更具可参考性。

S105、根据计算得到的概率，从所述各个命名实体中确定出目标命名实体。

本申请实施例中，该第一命名实体和第二命名实体可以构成命名实体集合，该各个命名实体是指的命名实体集合中的实体。

在一个实施例中，该从该各个命名实体中确定出目标命名实体具体包括：将该各个命名实体出现的概率最大的命名实体确定为目标命名实体。。

例如，若该各个命名实体包括命名实体1、命名实体2、命名实体3，命名实体4，若命名实体1出现的概率为0.67、命名实体2出现的概率为0.71、命名实体3出现的概率为0.75、命名实体4出现的概率为0.85，通过比较可以确定命名实体4出现的概率最大，因此可以从这4个命名实体中选取命名实体4作为目标命名实体。

可见，图2所示的实施例中，服务器可以对终端发送的原始数据进行分词处理得到第一分词结果，并可以预设图结构中查询出与该第一分词结果匹配的至少一个关键词对应的节点，从而根据该至少一个关键词对应的节点的出现次数、该父节点的出现次数、与该至少一个关键词相关联的第一命名实体出现的概率、与该父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率，并根据计算得到的概率确定出目标命名实体，从而提高了命名实体识别的准确度和速率。

请参阅图3，为本申请实施例提供的另一种数据处理方法的流程示意图。该方法可以应用于图1所示的数据处理系统中。具体地，该方法可以包括：

S201、创建图结构。

该图结构至少可以包括第一节点和第二节点。其中，该第一节点为该第二节点的父节点。

例如，该图结构可以包括节点1、节点2、节点3、节点4、节点5、节点6、节点7，其中，节点1为节点2和节点3的父节点、节点4和节点5为节点2的父节点、节点6和节点7为节点3的父节点。

S202、为所述图结构中的第一节点设置第一关键词，为所述第二节点设置第二关键词。

该第二关键词的类别为第一关键词的类别的子类别。

例如，若该图结构包括节点1、节点2、节点3、节点4、节点5、节点6、节点7，其中，节点1为节点2和节点3的父节点、节点4和节点5为节点2的父节点、节点6和节点7为节点3的父节点，则可以为节点3设置关键词C'，为节点6设置关键词D'，为节点7设置关键词E'，其中关键词D'和关键词E'的类别属于关键词C'的子类别。假设关键词C'为雨，则关键词D'可以为大雨、关键词E'可以为小雨。

S203、将所述第一关键词、与所述第一关键词相关联的命名实体、以及在目标语句中存在第一关键词的情况下，所述目标语句存在与所述第一关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第一节点中或者存储在所述图结构中。

S204、将所述第二关键词、与所述第二关键词相关联的命名实体、以及在目标语句中存在第二关键词的情况下，所述目标语句存在与所述第二关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第二节点中或者存储在所述图结构中。

其中，与该第一关键词相关联的命名实体为一个或多个。与该第二关键词相关联的命名实体为一个或多个。该目标语句至少可以包括第一目标语句和/或第二目标语句。

本申请实施例中，服务器可以对样本数据中的每条语句进行分词处理得到第二分词结果；将该第二分词结果中与图结构中相同的关键词定义为目标关键词；对该每条语句中的各个命名实体进行统计以计算各个命名实体出现的概率，计算在第一目标语句中存在该目标命名实体的情况下，该第一目标语句中存在目标关键词的概率；根据该目标关键词出现的概率以及该目标命名实体出现的概率计算出在第二目标语句中存在目标关键词的情况下，该第二目标语句中存在该目标命名实体的概率。其中，该样本数据中标记了命名实体；该各个命名实体包括目标命名实体；该第二分词结果包括一个或多个关键词；该目标关键词至少包括该第一关键词或该第二关键词。该第一目标语句可以与该第二目标语句相同或不同。

通过上述步骤，可以得到在目标语句中存在第一关键词的情况下，该目标语句存在与该第一关键词相关联的命名实体的概率，还可以得到在目标语句中存在第二关键词的情况下，该目标语句存在与该第二关键词相关联的命名实体的概率。

在一个实施例中，在第二目标语句中存在目标关键词的情况下，该第二目标语句中存在该目标命名实体的概率，可以通过如下的贝叶斯全概率公式计算得到：

其中，目标命名实体可以为命名实体B_i，目标关键词可以为关键词A。P(B_i)可以表示存在目标命名实体的概率。P(A|B_i)表示在第一目标语句中存在该目标命名实体的情况下，该第一目标语句中存在目标关键词的概率。P(B_i|A)表示在第二目标语句中存在目标关键词的情况下，该第二目标语句中存在该目标命名实体的概率。

在一个实施例中，该对该每条语句中的命名实体进行统计以计算出各个命名实体出现的概率，可以包括：统计该样本数据中包含目标命名实体的语句的数量，并统计该样本数据中总的语句的数量；将该包含目标命名实体的语句的数量与该总的语句的数量的比值作为目标命名实体出现的概率。

例如，出现命名实体B_i的概率＝样本数据中出现命名实体B_i的语句的数量/样本数据中总的语句的数量。

在一个实施例中，该计算在第一目标语句中存在该目标命名实体的情况下，该第一目标语句中存在目标关键词的概率，包括：统计该样本数据中存在目标命名实体且存在目标关键词的语句的数量，并统计该样本数据中存在该目标命名实体的语句的数量；将存在目标命名实体且存在目标关键词的语句的数量与在各语句中存在目标命名实体的语句数量的比值，作为在该第一目标语句中存在该目标命名实体的情况下，该第一目标语句中存在该目标关键词的概率。

例如，在该第一目标语句中存在该目标命名实体的情况下，该第一目标语句中存在该目标关键词的概率P(B_i|A_j)＝存在目标命名实体且存在目标关键词的语句的数量/在各语句中存在目标命名实体的语句数量。

本申请实施例中，图结构或图结构中的每个节点可以存储各自对应的关键词、与该关联词关联的至少一个命名实体、以及语句中存在该关键词的情况下，该语句中存在该至少一个命名实体中任一命名实体的概率之间的对应关系，从而便于服务器可以根据原始数据快速地查询出语句中存在该关键词的情况下，该语句中存在该至少一个命名实体中任一命名实体的概率，以计算出该语句中出现至少一个命名实体中任一命名实体的概率，使得命名实体识别过程更为快速。

S205、接收终端发送的原始数据，并对所述原始数据进行分词处理得到第一分词结果。

S206、从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点。

S207、提取所述至少一个关键词对应的节点，并统计所述至少一个关键词对应的节点的出现次数以及与所述至少一个关键词对应的节点相关联的父节点的出现次数。

S208、所述至少一个关键词对应的节点的出现次数、所述父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率；

S209、根据计算得到的概率，从所述各个命名实体中确定出目标命名实体。

需要说明的是，步骤S205-S209可以参见图2实施例中的步骤S101-S105，本申请实施例在此不做赘述。

可见，图3所示的实施例中，服务器可以创建图结构，并可以将关键词、与该关键词相关联的命名实体、以及目标语句中存在该关键词的情况下，该目标语句存在与该关键词相关联的命名实体的概率三者之间的对应关系，存储在该图结构对应的节点中或者存储在图结构中，以便服务器对终端发送的原始数据进行分词处理得到第一分词结果，并从预设图结构中查询出与该第一分词结果匹配的至少一个关键词对应的节点之后，可以根据该至少一个关键词对应的节点的出现次数、该父节点的出现次数、与该至少一个关键词相关联的第一命名实体出现的概率、与该父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率以确定出目标命名实体。本申请实施例通过上述图结构和预设的对应关系，有效地提高了命名实体识别的准确度和速率。

请参阅图4，为本申请实施例提供的一种服务器的示意图。该服务器可以应用于图2-图3所示的实施例中。具体地，该服务器可以包括：

接收单元10，用于接收终端发送的原始数据。

分词单元20，用于对所述原始数据进行分词处理得到第一分词结果；所述第一分词结果包括一个或者多个关键词。

查询单元30，用于从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点。

处理单元40，用于提取所述至少一个关键词对应的节点，并统计所述至少一个关键词对应的节点的出现次数以及与所述至少一个关键词对应的节点相关联的父节点的出现次数。

计算单元50，用于根据所述至少一个关键词对应的节点的出现次数、所述父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率。

确定单元60，用于根据计算得到的概率，从所述各个命名实体中确定出目标命名实体。

在一种可选的实施方式中，所述确定单元60从所述各个命名实体中确定出目标命名实体具体包括：将所述各个命名实体出现的概率最大的命名实体确定为目标命名实体。在一种可选的实施方式中，创建单元70，用于创建图结构。其中，所述图结构至少包括第一节点和第二节点；所述第一节点为所述第二节点的父节点。

在一种可选的实施方式中，设置单元80，用于为所述图结构中的第一节点设置第一关键词，为所述第二节点设置第二关键词；所述第二关键词的类别为第一关键词的类别的子类别。

在一种可选的实施方式中，存储单元90，用于将所述第一关键词、与所述第一关键词相关联的命名实体、以及在目标语句中存在第一关键词的情况下，所述目标语句存在与所述第一关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第一节点中或者存储在所述图结构中。其中，所述与所述第一关键词相关联的命名实体为一个或多个；

在一种可选的实施方式中，所述存储单元90，还用于将所述第二关键词、与所述第二关键词相关联的命名实体、以及在目标语句中存在第二关键词的情况下，所述目标语句存在与所述第二关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第二节点中或者存储在所述图结构中。其中，所述与所述第二关键词相关联的命名实体为一个或多个。

在一种可选的实施方式中，所述分词单元20，还用于对样本数据中的每条语句进行分词处理得到第二分词结果。其中，所述第二分词结果包括一个或多个关键词；所述样本数据中标记了命名实体。

在一种可选的实施方式中，所述确定单元60，还用于将所述第二分词结果中与图结构中相同的关键词定义为目标关键词。其中，所述目标关键词至少包括所述第一关键词或所述第二关键词。

在一种可选的实施方式中，所述计算单元50，还用于对所述每条语句中的各个命名实体进行统计以计算各个命名实体出现的概率；所述各个命名实体包括目标命名实体。

在一种可选的实施方式中，所述计算单元50，还用于计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率，并根据所述目标关键词出现的概率以及所述目标命名实体出现的概率计算出在第二目标语句中存在目标关键词的情况下，所述第二目标语句中存在所述目标命名实体的概率。

在一种可选的实施方式中，所述计算单元50对所述每条语句中的命名实体进行统计以计算出各个命名实体出现的概率，具体为统计所述样本数据中包含目标命名实体的语句的数量，并统计所述样本数据中总的语句的数量；将所述包含目标命名实体的语句的数量与所述总的语句的数量的比值作为目标命名实体出现的概率。

在一种可选的实施方式中，所述计算单元50计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率，具体为统计所述样本数据中存在目标命名实体且存在目标关键词的语句的数量，并统计所述样本数据中存在所述目标命名实体的语句的数量；将存在目标命名实体且存在目标关键词的语句的数量与在各语句中存在目标命名实体的语句数量的比值，作为在所述第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在所述目标关键词的概率。

可见，图4所示的实施例中，服务器可以对终端发送的原始数据进行分词处理得到第一分词结果，并可以预设图结构中查询出与该第一分词结果匹配的至少一个关键词对应的节点，从而根据该至少一个关键词对应的节点的出现次数、该父节点的出现次数、与该至少一个关键词相关联的第一命名实体出现的概率、与该父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率，并根据计算得到的概率确定出目标命名实体，从而提高命名实体识别的准确度和速率。

请参阅图5，为本申请实施例提供的另一种服务器的结构示意图。如图5所示的本实施例中的服务器可以包括：一个或多个处理器501；一个或多个输入设备502，一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器502用于存储计算机程序，所述计算机程序包括程序指令，处理器501用于执行存储器502存储的程序指令。可选地，该输入设备502可以是上述申请实施例中的接收单元10。

在本申请实施例中，由处理器501加载并执行计算机存储介质中存放的一条或一条以上指令，以实现上述图2-图3所示方法流程的相应步骤；具体实现中，计算机存储介质中的一条或一条以上指令由处理器501加载并执行如下步骤：

通过输入设备502接收终端发送的原始数据；

对所述原始数据进行分词，得到词序列；所述词序列包括一个或多个关键词；

对所述词序列进行词性识别处理，得到第一类词对序列和第二类词对序列；

对所述第一类词对序列进行命名实体识别，得到一个或者多个为预设类别的实体，并对所述实体以及所述第二类词对序列进行处理，得到目标意向词对；

通过输出设备503将与所述目标意向词对对应的关联信息发送至所述终端。接收终端发送的原始数据，并对所述原始数据进行分词处理得到第一分词结果；所述第一分词结果包括一个或者多个关键词；

从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点；

提取所述至少一个关键词对应的节点，并统计所述至少一个关键词对应的节点的出现次数以及与所述至少一个关键词对应的节点相关联的父节点的出现次数；

根据所述至少一个关键词对应的节点的出现次数、所述父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率；

根据计算得到的概率，从所述各个命名实体中确定出目标命名实体。

可选地，所述目标命名实体出现的概率是所述各个命名实体出现的概率中最大的。该至少一条程序指令还由该处理器501加载并执行所述从所述各个命名实体中确定出目标命名实体，具体用于执行以下步骤：将所述各个命名实体出现的概率最大的命名实体确定为目标命名实体。

可选地，该至少一条程序指令还由该处理器501加载并执行创建图结构；所述图结构至少包括第一节点和第二节点；所述第一节点为所述第二节点的父节点；为所述图结构中的第一节点设置第一关键词，为所述第二节点设置第二关键词；所述第二关键词的类别为第一关键词的类别的子类别；将所述第一关键词、与所述第一关键词相关联的命名实体、以及在目标语句中存在第一关键词的情况下，所述目标语句存在与所述第一关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第一节点中或者存储在所述图结构中；将所述第二关键词、与所述第二关键词相关联的命名实体、以及在目标语句中存在第二关键词的情况下，所述目标语句存在与所述第二关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第二节点中或者存储在所述图结构中。

可选地，该至少一条程序指令还由该处理器501加载并执行对样本数据中的每条语句进行分词处理得到第二分词结果；所述第二分词结果包括一个或多个关键词；所述样本数据中标记了命名实体；将所述第二分词结果中与图结构中相同的关键词定义为目标关键词；所述目标关键词至少包括所述第一关键词或所述第二关键词；对所述每条语句中的各个命名实体进行统计以计算各个命名实体出现的概率；所述各个命名实体包括目标命名实体；计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率；根据所述目标关键词出现的概率以及所述目标命名实体出现的概率计算出在第二目标语句中存在目标关键词的情况下，所述第二目标语句中存在所述目标命名实体的概率。

可选地，该至少一条程序指令由该处理器501加载并执行所述对所述每条语句中的命名实体进行统计以计算出各个命名实体出现的概率，具体用于执行以下步骤：统计所述样本数据中包含目标命名实体的语句的数量，并统计所述样本数据中总的语句的数量；将所述包含目标命名实体的语句的数量与所述总的语句的数量的比值作为目标命名实体出现的概率。

可选地，该至少一条程序指令由该处理器501加载并执行所述计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率，具体用于执行以下步骤：统计所述样本数据中存在目标命名实体且存在目标关键词的语句的数量，并统计所述样本数据中存在所述目标命名实体的语句的数量；将存在目标命名实体且存在目标关键词的语句的数量与在各语句中存在目标命名实体的语句数量的比值，作为在所述第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在所述目标关键词的概率。

应当理解，所称处理器501可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备502可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备503可以包括显示器(LCD等)、扬声器等。该输入设备502与输出设备503还可以为标准的有线或无线通信接口。

该存储器504可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如，存储器504还可以存储数据库。

在本申请的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现本申请实施例提供的图2和图3所描述的数据处理方法的实现方式。

该计算机可读存储介质可以是前述任一实施例的终端的内部存储单元，例如终端的硬盘或内存。该计算机可读存储介质也可以是终端的外部存储设备，例如终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，该计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及所述终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、服务器和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

接收终端发送的原始数据，并对所述原始数据进行分词处理得到第一分词结果；所述第一分词结果包括一个或者多个关键词；

2.根据权利要求1所述的方法，其特征在于，所述从所述各个命名实体中确定出目标命名实体具体包括：将所述各个命名实体出现的概率最大的命名实体确定为目标命名实体。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

创建图结构；所述图结构至少包括第一节点和第二节点；所述第一节点为所述第二节点的父节点；

为所述图结构中的第一节点设置第一关键词，为所述第二节点设置第二关键词；所述第二关键词的类别为第一关键词的类别的子类别；

将所述第一关键词、与所述第一关键词相关联的命名实体、以及在目标语句中存在第一关键词的情况下，所述目标语句存在与所述第一关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第一节点中或者存储在所述图结构中；将所述第二关键词、与所述第二关键词相关联的命名实体、以及在目标语句中存在第二关键词的情况下，所述目标语句存在与所述第二关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第二节点中或者存储在所述图结构中。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对样本数据中的每条语句进行分词处理得到第二分词结果；所述第二分词结果包括一个或多个关键词；所述样本数据中标记了命名实体；

将所述第二分词结果中与图结构中相同的关键词定义为目标关键词；所述目标关键词至少包括所述第一关键词或所述第二关键词；

对所述每条语句中的各个命名实体进行统计以计算各个命名实体出现的概率；所述各个命名实体包括目标命名实体；

计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率；

根据所述目标关键词出现的概率以及所述目标命名实体出现的概率计算出在第二目标语句中存在目标关键词的情况下，所述第二目标语句中存在所述目标命名实体的概率。

5.根据权利要求4所述的方法，其特征在于，所述对所述每条语句中的命名实体进行统计以计算出各个命名实体出现的概率，包括：

统计所述样本数据中包含目标命名实体的语句的数量，并统计所述样本数据中总的语句的数量；

将所述包含目标命名实体的语句的数量与所述总的语句的数量的比值作为目标命名实体出现的概率。

6.根据权利要求4所述的方法，其特征在于，所述计算在第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在目标关键词的概率，包括：

统计所述样本数据中存在目标命名实体且存在目标关键词的语句的数量，并统计所述样本数据中存在所述目标命名实体的语句的数量；

将存在目标命名实体且存在目标关键词的语句的数量与在各语句中存在目标命名实体的语句数量的比值，作为在所述第一目标语句中存在所述目标命名实体的情况下，所述第一目标语句中存在所述目标关键词的概率。

7.一种服务器，其特征在于，包括：

接收单元，用于接收终端发送的原始数据；

分词单元，用于对所述原始数据进行分词处理得到第一分词结果；所述第一分词结果包括一个或者多个关键词；

查询单元，用于从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点；

处理单元，用于提取所述至少一个关键词对应的节点，并统计所述至少一个关键词对应的节点的出现次数以及与所述至少一个关键词对应的节点相关联的父节点的出现次数；

计算单元，用于根据所述至少一个关键词对应的节点的出现次数、所述父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率，计算出各个命名实体出现的概率；

确定单元，用于根据计算得到的概率，从所述各个命名实体中确定出目标命名实体。

8.根据权利要求7所述的服务器，其特征在于，所述服务器还包括：

创建单元，用于创建图结构；所述图结构至少包括第一节点和第二节点；所述第一节点为所述第二节点的父节点；

设置单元，用于为所述图结构中的第一节点设置第一关键词，为所述第二节点设置第二关键词；所述第二关键词的类别为第一关键词的类别的子类别；

存储单元，用于将所述第一关键词、与所述第一关键词相关联的命名实体、以及在目标语句中存在第一关键词的情况下，所述目标语句存在与所述第一关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第一节点中或者存储在所述图结构中；所述存储单元，还用于将所述第二关键词、与所述第二关键词相关联的命名实体、以及在目标语句中存在第二关键词的情况下，所述目标语句存在与所述第二关键词相关联的命名实体的概率三者之间的对应关系，存储在所述第二节点中或者存储在所述图结构中。

9.一种服务器，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。