CN112836498A

CN112836498A - 数据处理方法、识别方法、装置及计算设备

Info

Publication number: CN112836498A
Application number: CN201911157158.9A
Authority: CN
Inventors: 丁瑞雪; 谢朋峻; 马春平; 黄非; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-05-25

Abstract

本申请实施例提供一种数据处理方法、识别方法、装置及计算设备。其中，将训练文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；将多个不同类型的词典分别表示为节点；以节点之间的关联关系表征节点之间的边，构建第一图形；利用所述第一图形及为所述多个元素分别标注的训练标签，训练文本识别模型；利用所述文本识别模型可以识别获得待处理文本中的特征词，本申请实施例提供的技术方案提高了文本表达准确度，提高了模型训练准确度，提高了文本识别准确度。

Description

数据处理方法、识别方法、装置及计算设备

技术领域

本申请实施例涉及计算机应用技术领域，尤其涉及一种数据处理方法、装置及移动终端。

背景技术

序列标注问题是自然语言处理中的常见问题，通过序列标注可以解决分词、命名实体识别、关键词提取等问题。

所谓序列标注是指对序列中的每个元素打上标签集合中的某个类型的标签，并进行模型训练，使得模型可以实现待处理序列中元素标签的识别。在自然语言处理中，序列即可以是指通过对文本进行分词或者分字切分形成的多个元素构成，序列标注问题本质上也即是文本识别问题。以命名实体识别为例，即可以实现文本中的不同命名实体类型的命名实体词的识别。

由于序列标注问题中的标签依赖于人工标注，为了提高模型准确度，提高文本识别准确度，可以在模型中引入外部知识，用来作为标注数据的补充，词典是外部知识的一种，每个词典存储一个标签类型对应的词语。而如何在模型中引入词典，以有效提高模型准确度成为目前需要解决的技术问题。

发明内容

本申请实施例提供一种数据处理方法、装置及计算设备，用以解决现有技术中模型准确度低，文本识别准确低的技术问题。

第一方面，本申请实施例中提供了一种数据处理方法，包括：

将训练文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第一图形；

利用所述第一图形以及为所述多个元素分别标注的训练标签，训练文本识别模型。

第二方面，本申请实施例中提供了一种识别方法，包括：

将待处理文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第二图形；

基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。

第三方面，本申请实施例中提供了一种数据处理方法，包括：

将多个不同命名实体类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第一图形；

利用所述第一图形及为所述多个元素分别标注的训练标签，训练文本识别模型。

第四方面，本申请实施例中提供了一种识别方法，包括：

将多个不同命名实体类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第二图形；

基于所述第二图形利用文本识别模型识别所述待处理文本中的命名实体词。

第五方面，本申请实施例中提供了一种处理方法，包括：

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第二图形；

基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词；

基于所述特征词，进行相应处理。

第六方面，本申请实施例中提供了一种数据处理装置，包括：

第一确定模块，用于将训练文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；

第二确定模块，用于将多个不同类型的词典分别表示为节点；

第一构建模块，用于以节点之间的关联关系表征节点之间的边，构建第一图形；

模型训练模块，用于利用所述第一图形及为所述多个元素分别标注的训练标签，训练文本识别模型。

第七方面，本申请实施例中提供了一种识别装置，包括：

第三确定模块，用于将待处理文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；

第四确定模块，用于将多个不同类型的词典分别表示为节点；

第二构建模块，用于以节点之间的关联关系表征不同节点之间的边，构建第二图形；

文本识别模块，用于基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。

第八方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行；

所述处理组件用于：

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征不同节点之间的边，构建第一图形；

第九方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述处理组件用于：

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征不同节点之间的边，构建第二图形；

本申请实施例中，通过将训练文本切分得到的元素表示为节点，以及将不同类型的词典表示为节点，并建立节点之间的边，构建第一图形，再利用第一图形以及为元素标注的训练标签，训练文本识别模型，本申请实施例，融合了词典信息，并将文本建模为图形，实现文本识别模型的训练，使得可以提高文本表达准确度以及词典融合准确度，提高了模型训练准确度，进而可以提高文本识别准确度。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请提供的一种数据处理方法一个实施例的流程图；

图2示出了本申请实施例在一个实际应用中的图形编码过程示意图；

图3示出了本申请提供的一种识别方法一个实施例的流程图；

图4示出了本申请实施例在一个实际应用中模型训练过程示意图；

图5示出了本申请提供的一种数据处理装置一个实施例的结构示意图；

图6示出了本申请提供的一种计算设备一个实施例的结构示意图；

图7示出了本申请提供的一种识别装置一个实施例的结构示意图；

图8示出了本申请提供的一种计算设备又一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例的技术方案主要应用于自然语言处理中涉及序列标注问题的场景中，例如分词、命名实体识别、关键词识别等等。

以命名实体识别为例，命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础。命名实体识别是需要从待处理文本中识别获得命名实体词，其中，命名实体可以包括人名、机构名、地名以及其他所有以名称为标识的实体。此外，还可以包括数字、日期、货币、地址、百分比等等。现有技术中，通常会将训练文本切分得到多个元素，可以利用 Word2vec(word to vector，词转换为词向量)技术，将元素表示为特征向量，从而将训练文本建模为输入特征，将输入特征作为模型输入，将为元素标注的训练标签作为模型输出，即可以实现模型训练。但是，这种方式，由于元素标签依赖人工标注，仅依赖人工标注比较费时费力成本大，且不够准确，因此，发明人想到是否可以引入外部知识，也即词典，作为标注数据的补充，那么如何引入词典呢，发明人在研究中提出，一种方式，可以将训练文本的 N-gram(N元)分词与各个词典分别进行匹配，若某个分词命中词典，即可以将词典位置标记为1，否则标记0，从而采用one-hot编码可以将每个分词表示为词典特征，再将各个词的词典特征拼接在训练文本的输入特征后边，即可以作为模型输入，而各个元素的训练标签作为模型输出，即可以实现模型训练。但是，由于中文词义的丰富性，与各个词典相片匹配的词可能会非常多，通常会将词典特征进行压缩之后再拼接，这种导致信息损失，因此采用这种方式仍然无法准确表示文本，从而会影响模型训练的准确度。

为了模型训练准确度，发明人经过一系列研究提出了本申请的技术方案，本申请实施例通过图形结构表达文本，并融合了词典信息，提高文本表达准确度，从而可以提高模型训练准确度，提高文本识别准确度。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供了一种数据处理方法一个实施例的流程图，本实施例主要从模型训练角度对本申请技术方案进行描述。该方法可以包括以下几个步骤：

101：将训练文本切分获得的多个元素分别表示为节点。

其中，所述元素由单字或多字组成。

其中，该多个元素可以对训练文本进行分词和/或分字处理获得。因此，每个元素可以由单字或多字组成，若为多字，该多字为训练文本中的连续单字组成，以形成训练文本中的词语。

102：将多个不同类型的词典分别表示为节点。

根据序列识别任务，可以创建多个不同类型的词典。比如，对于文本识别任务，词典类型可以根据命名实体类型区分，如词典类型可以包括人名、地名、机构名等。

可知，本申请实施例中的节点可以包括词典节点以及元素节点。

103：以节点之间的关联关系表征节点之间的边，构建第一图形。

本申请实施例，图是一种数据结构，它对一组对象(节点)及其关系(边) 进行建模获得。

通过将词典及元素表示为节点，再基于不同节点之间的关联关系，可以确定节点之间的边，从而利用边将节点连接起来，形成图数据结构，本申请实施例中为了便于描述和区别，命名为第一图形。

可选地，节点之间的关联关系可以根据元素之间的上下文关系以及元素与词典之间的匹配关系确定，因此，所述以节点之间的关联关系表征节点之间的边，构建第一图形可以包括：

基于不同元素之间的上下文关系及不同元素与不同词典之间的匹配关系，确定不同节点之间的边；

基于不同节点之间的边，构建第一图形。

上下文关系可以是指两个元素在训练文本中是否相邻，若是，则具有上下文关系，比如训练文本为“我喜欢吃蛋糕”，其中单字“喜”以及“欢” 即具有上下文信息。

作为一种可选方式，词典与元素之间的匹配关系，可以是指词典和与其匹配的匹配词语的各个元素具有匹配关系，其中，与词典匹配的匹配词语可以是指词典中包括该词语。比如训练文本为“张三在北京人民公园”，其中， “人民公园”命中某个词典，则元素“人”、“民”、“公”以及“园”均与该词典具有匹配关系。

作为另一种可选方式，词典与元素之间的匹配关系，可以是指词典是与其匹配的匹配词语的首个元素以及末尾元素具有匹配关系。

其中，与词典匹配的匹配词语中的各个元素之间也具有匹配关系，比如仍以训练文本为“张三在北京人民公园”为例，其中，“人民公园”命中某个词典，则元素“人”、以及“园”均与该词典具有匹配关系。元素“人” 与元素“民”、元素“民”与元素“公”、元素“公”以及元素“园”不仅具有上下文关系，还具有匹配关系。

因此，可选地，基于不同元素之间的上下文关系及不同元素与不同词典之间的匹配关系，确定不同节点之间的边可以是：

基于不同元素之间的上下文关系或者匹配关系，确定不同元素对应节点之间的边；

基于不同元素与不同词典之间的匹配关系，建立元素对应节点与词典对应节点之间的边。

在一种可能的实现方式中，每个词典可以采用两个节点表示，分别表示匹配开始以及匹配结束，为了方便描述，可以分别用第一节点以及第二节点进行表述代表词典的两个节点。因此，在某些实施例中，所述将多个不同类型的词典分别表示为节点包括：

将多个不同类型的词典分别表示为第一节点及第二节点；其中，所述第一节点表示与元素匹配开始，所述第二节点表示与元素匹配结束。

其中，第一节点以及第二节点可以均与词典匹配的匹配词语中的各个词语之间具有匹配关系，也可以是第一节点，也即表示匹配开始的节点，仅与匹配词语中的首个元素具有匹配关系，而第二节点仅与匹配词语中的末尾元素具有匹配关系。

此外，该第一图形可以为无向图，也可以为有向图。

若第一图形为有向图，也即节点之间的边具有方向，对于具有上下文关系的节点，边方向可以是上文元素对应节点(后续描述中也多以上文节点表述)指向下文元素对应节点(后续描述中也多以下文节点表述)，对于具有匹配关系的节点，边方向可以包括词典对应节点(后续描述中也多以词典节点表述)指向元素对应节点(后续描述中也多以元素节点表述)、以及上文节点指向下文节点。

若每个词典可以采用两个节点表示，分别表示匹配开始以及匹配结束，则第一节点，即表示匹配开始的节点与元素节点之间的边方向可以是第一节点指向元素节点；第二节点，即表示匹配结束的节点与元素节点之间的边方向可以是元素节点指第二节点。

104：利用所述第一图形及为所述多个元素分别标注的训练标签，训练文本识别模型。

该文本识别模型可以包括图神经网络，从而可以实现对第一图形进行编码获得该多个元素的特征向量。图神经网络可以跟随文本识别模型的训练而实现训练，获得图神经网络的参数。

当然，也可以通过独立的图神经模型对第一图形编码获得多个元素的特征向量，再基于该多个元素的特征向量以及所述多个元素分别标注的训练标签，训练文本识别模型。图神经模型可以通过样本图形以及样本特征向量训练获得等。

从而利用所述文本识别模型可以识别获得待处理文本中属于不同标签类型的特征词。

本实施例中，通过图形结构表达文本，并融合了词典信息，提高文本表达准确度，从而可以提高模型训练准确度，提高文本识别准确度。

在某些实施例中，所述利用所述第一图形及所述多个元素分别标注的训练标签，训练文本识别模型可以包括：

将所述第一图形输入文本识别模型，经由所述文本识别模型进行编码获得所述多个元素的特征向量；

基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签，训练所述文本识别模型。

所述文本识别模型可以具体用于基于待处理文本建立的第二图形，对所述待处理文本进行识别以确定所述待处理文本中的特征词。

在某些实施例中，所述基于所述多个元素的特征向量以及所述多个元素分别标注的标签，训练所述文本识别模型包括：

将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果，并基于所述多个元素的特征向量，训练所述文本识别模型。

其中，文本识别模型可以为神经网络模型，由上文描述可知，文本识别模型可以包括图神经网络，图神经网络可以作为文本识别模型的输入层。因此，在某些实施例中，所述文本识别模型可以包括图形编码网络及文本识别网络；

所述将所述第一图形输入文本识别模型，经由所述文本识别模型进行编码获得所述多个元素的特征向量包括：

将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络对所述第一图形进行编码以获得所述多个元素的特征向量；

所述将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果，并并基于所述多个元素的特征向量，训练所述文本识别模型包括：

将所述多个元素的特征向量作为所述文本识别网络的输入数据，所述为所述多个元素分别标注的训练标签作为所述识别网络的输出结果，训练所述文本识别模型，以获得所述图形编码网络的模型参数以及所述文本识别网络的模型参数。

其中，图神经网络可以采用GCN(Graph Convolutional Neural Network、图卷积神经网络)或者GGNN(Gated Graph Sequence Neural Networks，门控神经网络)等实现，文本识别网络可以采用LSTM(Long Short-Term Memory，长短期记忆网络)+CRF(conditional random field algorithm，条件随机场)实现。

其中，图神经网络可以是对第一图形中的各个节点分别进行编码，为了进一步提高元素特征向量的准确度，可以进行重复编码操作。因此，在某些实施例中，将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络型对所述第一图形进行编码以获得所述多个元素的特征向量可以包括：

将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络结合每个节点相邻的各个节点的当前编码向量，对每个节点进行多次重复编码操作；其中，基于各节点的初始向量进行各节点的第一次编码操作；

将最后一次编码获得的所述多个元素对应节点的编码向量，分别作为所述多个元素的特征向量。

其中，基于各个节点的初始向量进行各个节点的第一次编码操作；对于元素节点的初始向量，可以是指词向量或字向量，可以通过Word2vec(word to vector，词转换为词向量)或者skip-gram(一种词向量转换模型)模型等技术转换获得，与现有技术相同，在此将不再过多赘述。对于词典节点的初始向量可以随机设置。

其中，对每个节点进行多次重复编码操作，每一次编码操作均基于每个节点相邻的各个节点的当前编码向量实现，从而可以使得每个节点编码的编码向量可以包含更多信息。每一次编码操作，每个节点既接受相邻节点的信息，又向相邻节点发送信息。

其中，重复编码次数可以结合实际应用情况进行预先设定。最后一次编码获得的元素节点的编码向量，即可以作为元素的特征向量。

为了方便理解图形编码过程，现举例说明，如图2中所示，示出了第一图形的示意图，假设该第一图形包括六个节点：A、B、C、D、E、F，该六个节点根据彼此之间的关联关系相连接形成节点之间的边。每个节点具有初始向量，对于元素节点，初始向量可以是Word2vec向量。对于词典节点，可以任意设置。

利用图神经网络可以计算每个节点的编码向量，例如，对于图2中，节点A和节点B、C、D相邻，那么节点A的编码向量具体可以结合节点B、C 以及D的初始向量计算而来。为了可以使得编码向量包含更多信息，例如可以将相隔较远的节点信息编码至节点A，因此可以通过重复编码操作的方式，也就是说，由A、B、C、D四个节点的初始向量计算可得节点A的第一次编码向量，在重复编码操作时，利用节点A、B、C、D第一次图编码向量计算可得节点A的第二次编码向量，由于节点C的第一次编码向量含有节点E以及节点F的信息，所以节点A的第二次编码向量也就含有了E、F的信息。如图2中所示，节点B的第一次编码向量中包含了节点A、C的信息，节点 C的第一次编码向量中包含节点A、B、E、F的信息；节点D的第一次编码向量中包含节点A的信息，对于节点A进行第二次编码时，由于需要结合节点B、C以及D的第一次编码向量计算获得，而节点C的第一次编码向量中包含E以及节点F的信息，因此节点A的第二次编码向量也就含有了E、F 的信息。

其中，重复编码次数可以结合实际任务设定，通常可以不超过4次。

在一个实际应用中，利用图神经网络对节点进行编码获得编码向量时，可以按照以下公式实现：

其中，H表示|V|个节点第t-1次的编码向量构成的矩阵，t为大于等于1 的整数；

表示第v个节点第t次编码获得的编码向量；W^l表示边的权重参数；

为更新因子，用于控制遗忘信息，表示选择记住哪些新产生信息；

为调整因子，控制新产生的信息，决定从哪些过去的信息中产生新信息；

为临界矩阵参数；

表示选择遗忘哪些过去的信息；

表示新产生的信息，

即表示最终节点状态，也即编码向量，此外，公式中其它参量均为模型参数。

由上文描述可知，每个词典可以采用两个节点进行表示，分别表示匹配开始以及匹配结束，因此，在某些实施例中，所述将多个不同类型的词典分别表示为节点包括：

其中，每个词典的第一节点可以具体与其匹配词语的首个元素具有匹配关系，第二节点具体与其匹配词语的末尾元素具有匹配关系。

例如，训练文案通过分字获得多个元素，每个元素由单字组成，假设词语“人民公园”命中某个词典，则该词典对应的第一节点与元素“人”节点具有匹配关系，第二节点与元素“园”节点具有匹配关系，而元素“人”与元素“民”、元素“民”与元素“公”、元素“公”与元素“园”分别具有上下文关系以及匹配关系。在第一图形为有向图时，第一节点与元素节点之间的边方向可以是第一节点指向元素节点，第二节点与元素节点之间的边方向可以是元素节点指向第二节点。例如，第一节点指向元素“人”节点，元素“园”节点指向第二节点、对于具有上下文关系以及匹配关系的节点，由上文节点指向下文节点，如元素“人”节点指向元素“民”节点。也即元素节点之间可能存在两条边。

当然，本领域技术人员可以理解的是，词典对应的节点表示方式、文本对应的节点表示方式并不仅限于本申请实施例中所述方式，任何可以表示词典以及任何可以表示文本的节点表示方式均应落在本申请的保护范围内。

其中，在一个实际应用中，训练文本切分得到的元素可以由单字构成，也即对训练文本进行分字获得，则各个元素的训练标签可以按照如下方式设定。在某些实施例中，所述利用所述第一图形及所述多个元素分别标注的训练标签，训练文本识别模型可以包括：

针对每个单字，根据所述单字构成的特征词的标签类型，以及所述单字为其构成的特征词中的开始字、中间字、结束字、单字或不属于任意标签类型的组成字，设置每个单字的训练标签；

利用所述第一图形及各个单字的训练标签，训练文本识别模型。

在某些实施例中，训练标签中还可以加入位置信息，因此，针对每个单字，根据所述单字构成的特征词的标签类型，以及所述单字为其构成的特征词中的开始字、中间字、结束字、单字或不属于任意标签类型的组成字，设置每个单字的训练标签可以包括：

针对每个单字，根据所述单字在所述训练文本中的文本位置、所述单字构成的特征词的标签类型及所述单字为其构成的特征词中的开始字、中间字、结束字、单字或不属于任意标签类型的组成字，设置每个单字的训练标签。

其中，单字为其构成的特征词中的开始字、中间字、结束字或单字是指：比如特征词为“火车站”，“火”即为开始字、“车”为中间字、“站”为结束字。当然，若特征词只有两个字，则这两个字分别为开始字和结束字；若特征词只有一个字，其即为单字。

若训练文本中的某个字不构成任意特征词，其基于不属于任意标签类型的组成字。

需要说明的是，本申请实施例中的特征词是指序列标注任务中需要识别的属于某个标签类型的特定词语，比如特征词可以是命名实体词，标签类型即为命名实体类型。

为了方便进行标签标注，可以采用字母B、E、I、S，分别代表开始字、结束字、中间字、单字，如果存在6种标签类型，6种标签类型也可以采用不同标识符号表示，则基于6种标签类型以及开始字、结束字、中间字、单字，可以设置24个标签，对于不属于任意标签类型的组成字可以利用标签O 表示，即总共25个标签。

例如，在命名实体识别场景中，假设包括时间(符号TIME表示)、地点(符号LOC表示)、人名(符号PER表示)、机构(符号ORG表示)四个命名实体类型，如训练文本“张三在人民公园”，其中，张三为人名，人民公园为地点，在不属于任意命名实体类型，则“张三在人民公园”对应的标签序列即可以为“B-PER、E-PER、O、B-LOC、I-LOC、I-LOC、E-LOC”。

对所述第一图形进行编码，获得所述多个元素的特征向量；

基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签，训练文本识别模型。

其中，对所述第一图形进行编码可以通过独立的图神经网络模型实现，该图神经网络模型可以基于样本图形以及样本向量训练获得。

图3为本申请实施例提供的一种识别方法一个实施例的流程图，本实施例主要从文本识别角度对本申请技术方案进行描述。该方法可以包括以下几个步骤：

301：将待处理文本切分获得的多个元素分别表示为节点。

其中，所述元素由单字或多字组成。

该多个元素可以对待处理文本进行分词或者分字处理获得。

302：将多个不同类型的词典分别表示为节点。

303：以节点之间的关联关系表征节点之间的边，构建第二图形。

其中，不同节点之间的关联关系可以包括元素之间的上下文关系以及元素与词典之间的匹配关系。

其中，上下文关系可以是指两个元素在训练文本中是否相邻，元素与词典之间的匹配关系可以是指，若某个元素或者某个元素与其它元素组成的词语，命中某个词典，也即某个词典中包含某个元素或者某个元素与其它至少一个元素组成的词语，则即可以表示元素与词典之间存在匹配关系。

其中，该第二图形可以为无向图，也可以为有向图，若第一图形为有向图，也即节点之间的边具有方向，对于具有上下文关系的节点，边方向可以是上文节点指向下文节点，对于具有匹配关系的节点，边方向可以是词典节点指向元素节点。

在一个实际应用中，每个词典可以采用两个节点表示，分别表示匹配开始以及匹配结束，表示匹配开始的节点与其匹配词语的首个元素具有匹配关系，表示匹配结束的节点与其匹配词语的末尾元素具有匹配关系，表示匹配开始的节点与元素节点之间的边方向可以是表示匹配开始的节点指向元素节点，表示匹配结束的节点与元素节点之间的边方向可以是元素节点指向表示匹配结束的节点。

其中，第二图形构建方式与第一图形构建方式相同，仅是针对不同文本，详细可以参见图1所示实施例中所述。

304：基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。

其中，该文本识别模型的具体训练方式可以参见上述各个实施例的数据处理方法中所述，在此将不再重复赘述。

本实施例中，通过图形结构表达文本，并融合了词典信息，提高文本表达准确度，提高了文本识别准确度。

在某些实施例中，所述基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词可以包括：

基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签；

基于所述多个元素分别对应的标签，确定所述待处理文本中的特征词。

例如，元素为单字构成时，结合上文描述可知，可以设置25个标签，由于标签代表了单字所属的标签类型以及位于其构成的特征词中的开始字、中间字、结束字或者单字等，因此，基于不同单字的标签，即可以得到待处理文本中的特征词。

其中，待处理文本中可以包括至少一个特征词。

在某些实施例中，所述基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签包括：

将所述第二图形输入所述文本识别模型，由所述文本识别模型对所述第二图形进行编码获得所述多个元素的特征向量；

基于所述多个元素的特征向量，识别所述多个元素分别对应的标签。

其中，结合上文描述可知，所述文本识别模型可以包括图形编码网络及文本识别网络；因此，在某些实施例中，所述将所述第二图形输入所述文本识别模型，由所述文本识别模型对所述第二图形进行编码获得所述多个元素的特征向量可以包括：

将所述第二图形输入所述文本识别模型，由所述图形编码网络将所述第二图形进行编码获得所述多个元素的特征向量；

所述基于所述多个元素的特征向量，识别所述多个元素分别对应的标签可以包括：

基于所述多个元素的特征向量，利用所述文本识别网络识别所述多个元素分别对应的标签。

其中，所述将所述第二图形输入所述文本识别模型，由所述图形编码网络将所述第二图形进行编码获得所述多个元素的特征向量可以包括：

将所述第二图形输入所述文本识别模型，利用图形编码网络具体是结合每个节点相邻的各节点的当前编码向量，对每个节点进行多次重复编码操作；其中，基于各节点的初始向量进行各节点的第一次编码操作；

在某些实施例中，所述基于不同节点之间的关联关系建立不同节点之间的边，以构建第二图形可以包括：

基于不同元素之间的上下文关系及不同元素与不同词典之间的匹配关系，建立不同节点之间的边，以构建第二图形。

在某些实施例中，所述将多个不同类型的词典分别表示为节点可以包括：

其中，每个词典的第一节点具体与其匹配词语的首个元素具有匹配关系，第二节点具体与其匹配词语的末尾元素具有匹配关系。

在一个实际应用中，本申请实施例的技术方案具体可以应用于命名实体识别场景中。词典类型具体根据命名实体类型划分，因此可以将多个不同命名实体类型的词典分别表示为节点。

因此，在命名实体识别场景中，本申请实施例还提供了一种数据处理方法，可以包括：

将多个不同命名实体类型的词典分别表示为节点；

基于不同节点之间的关联关系建立不同节点之间的边，以构建第一图形；

本申请实施例还提供了一种识别方法，可以包括：

将多个不同命名实体类型的词典分别表示为节点；

基于不同节点之间的关联关系建立不同节点之间的边，以构建第二图形；

为了便于理解，现举例说明，假设训练文本为“张三在北京人民公园”，可以对该训练文本进行分字处理获得多个单字，如图4中所述，假设该多个单字分别表示为节点c1、c2、c3……，也该训练文本各个单字可以分别表示为：张(c1)、三(c2)、在(c3)、北(c4)、京(c5)、人(c6)、民(c7)、公(c8)、园(c9)。其中，相邻单字之间具有上下文关系，因此可以基于各个单字的上下文关系，确定各个单字节点的边，例如，c1与c2具有上下文关系、c2与c3具有上下文关系等等。

假设存在4个命名实体类型(地名、机构、人名及其它实体，分别以LOC、ORG、PER、及OTH表示)的词典。在一个实际应用中，每个词典可以用两个节点表示，因此可以获得8个词典节点，分别表示为节点LOC1、LOC2、 ORG1、ORG2、PER1、PER2、OTH1及PTH2。其中，LOC1、ORG1、PER1、及OTH1分别表示匹配开始的节点，LOC2、ORG2、PER2、及OTH2分别表示匹配结束的节点。

其中，表示匹配开始的节点具体与其匹配词语的首个单字具有匹配关系，表示匹配结束的节点具体与其匹配词语的末尾单字具有匹配关系。且命中词典的匹配词语中各个单字中的相邻单字之间也具有匹配关系。例如，“张三” 命中人名词典，则PER1与c1具有匹配关系，PER2与c2具有匹配关系，c1 以及c2之间具有匹配关系。

假设“张三”以及“张三在”命中词典PER，“北京人”命中词典OTH、 “北京”命中词典ORG以词典LOC、“人民公园”命中词典LOC，具体边关系可以参见图4中所示的第一图形401，虚线表示匹配关系，实线表示上下文关系。

第一图形为有向图时，边方向可以具体如图4中第一图形401中的箭头所指，总体为上文节点指向下文节点、表示匹配开始的节点指向单字节点、以及单字节点指向表示匹配结束的节点。

构建获得第一图形之后，各个单字的训练标签，可以根据每个单字构成的命名实体词的命名实体类型，以及所述单字为其构成的命名实体词中的开始字、中间字、结束字、单字或不属于任意命名实体类型的组成字，设置每个单字的训练标签。

从而，第一图形以及各个单字的训练标签，即可以训练文本识别模型。

其中，文本识别模型可以由图神经网络402以及文本识别网络构成，在实际应用中，文本识别网络可以由LSTM网络403以及CRF网络404构成。

从而第一图形输入图神经网络402，经由图神经网络402进行编码，获得各个单字对应的特征向量；

将各个单字的特征向量作为文本识别模型的输入数据，各个单字的训练标签作为输出数据，即可以实现文本识别模型的训练，经由大量训练样本进行训练，即可以获得图形编码网络的模型参数以及所述文本识别网络的模型参数。

从而，利用获得文本识别模型即可以对待处理文本进行命名实体识别，以确定待处理文本中各个单字所属标签，基于各个单字所属标签，即可以确定待处理文本中的命名实体词。

在实际应用中，存在很多场景需要识别获得待处理文本中的特征词，特别是特征词为命名实体词时，在信息提取、问答系统、句法分析、机器翻译等应用场景下，都需要首先进行命名实体识别。

因此，本申请实施例还提供了一种处理方法，可以包括如下几个步骤：

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第二图形；

基于所述特征词，进行相应处理。

作为一种可选方式，所述特征词可以是指口语化词，通过识别待处理文本中的口语化词，可以消除待处理文本的口语化错误，以获得规范文本。因此，所述基于所述特征词，进行相应处理可以包括：

从所述待处理文本中消除所述口语化词，获得规范文本。

其中，消除所述口语化词可以是指从待处理文本中删除所述口语化词等。

此外，所述特征词可以是指命名实体词，在命名实体识别场景中，基于识别获得的命名实体词可以多种应用。作为另一种可选方式，所述基于所述特征词，进行相应处理可以包括：

根据所述命名实体词以及所述命名实体词的命名实体类型，对所述待处理文本进行信息抽取，获得结构化文本。

由于文本识别模块基于不同命名实体类型的词典训练获得，训练标签中包括命名实体类型，因此通过文本识别模块可以获得命名实体类型。从而根据所述命名实体词以及所述命名实体词的命名实体类型，可以对所述待处理文本进行信息抽取，获得结构化文本。

其中，信息抽取的具体实现方式与现有技术相同，只是命名实体词的识别可以按照本申请实施例的技术方案进行，因此对于结构化文本的获得本申请在此将不再重复赘述。

将待处理文本进行结构化，可以适用于庭审场景中对起诉书等庭审文本进行标准化等。对庭审文本等可以通过命名实体识别确定特定的法律术语、被告名称、原告名称等等。

作为又一种可选方式，所述将待处理文本切分获得的多个元素分别表示为节点之前，所述方法还包括：

获取用户输入的所述待处理文本；

所述基于所述特征词，进行相应处理包括：

基于所述命名实体词进行对象搜索，获得搜索结果；

将所述搜索结果提供给所述用户。比如在电商场景中，通过命名实体识别可以查找商品名称，识别获得的命名实体词也即为商品名称，进而基于商品名称可以查找商品，搜索结果可以是包括商品搜索结果页面。

此外，待处理文本可以是指通过语音识别技术转换获得的语音识别文本，因此通过识别语音识别文本中的特征词，可以对语音识别文本进行检测，实现对语音识别文本的校正等。因此，作为又一种可选方式，所述基于所述特征词，进行相应处理可以包括：

对所述特征词进行校验，并基于校验结果校正所述语音识别文本。

其中，可以是结合特征词类型，对所述特征词进行校验，并基于校验结果校正所述语音识别文本，比如特征词为口语化词时，可以从语音识别文本中消除该口语化词，特征词为命名实体词时，可以结合命名实体类型对应的词库查找是否特征词在该词库中，若否，则可以提示用户校正语音识别文本等。

图5为本申请提供的一种数据处理装置一个实施例的结构示意图，该装置可以包括：

第一确定模块501，用于将训练文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；

第二确定模块502，用于将多个不同类型的词典分别表示为节点；

第一构建模块503，用于以节点之间的关联关系表征节点之间的边，构建第一图形；

模型训练模块504，用于利用所述第一图形及为所述多个元素分别标注的训练标签，训练文本识别模型。

在某些实施例中，所述模型训练模块具体用于将所述第一图形输入文本识别模型，经由所述文本识别模型进行编码获得所述多个元素的特征向量；基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签，训练所述文本识别模型。

其中，该文本识别模型可以用于基于待处理文本建立的第二图形，对所述待处理文本进行识别以确定所述待处理文本中的特征词。

在某些实施例中，所述模型训练模块基于所述多个元素的特征向量以及所述多个元素分别标注的训练标签，训练所述文本识别模型包括将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果，并基于所述多个元素的特征向量，训练所述文本识别模型。

在某些实施例中，所述文本识别模型包括图形编码网络及文本识别网络；

所述模型训练模块将所述第一图形输入文本识别模型，经由所述文本识别模型进行编码获得所述多个元素的特征向量包括：将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络对所述第一图形进行编码以获得所述多个元素的特征向量；

所述模型训练模块将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果，并基于所述多个元素的特征向量，训练所述文本识别模型包括：将所述多个元素的特征向量作为所述文本识别网络的输入数据，所述为所述多个元素分别标注的训练标签作为所述文本识别网络的输出结果，训练所述文本识别模型，以获得所述图形编码网络的模型参数以及所述文本识别网络的模型参数。

在某些实施例中，所述模型训练模块将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络型对所述第一图形进行编码以获得所述多个元素的特征向量包括：

将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络结合每个节点相邻的各节点的当前编码向量，对每个节点进行多次重复编码操作；其中，基于各节点的初始向量进行各节点的第一次编码操作；

在某些实施例中，所述第一构建模块具体用于基于不同元素之间的上下文关系及不同元素与不同词典之间的匹配关系，确定不同节点之间的边；基于不同节点之间的边，构建第一图形。

在某些实施例中，所述第二确定模块具体用于将多个不同类型的词典分别表示为第一节点及第二节点；其中，所述第一节点表示与元素匹配开始，所述第二节点表示与元素匹配结束。

在某些实施例中，所述元素由单字组成；

所述模型训练模块具体用于针对每个单字，根据所述单字构成的特征词的标签类型，以及所述单字为所述特征词中的开始字、中间字、结束字、单字或不属于任意标签类型的组成字，设置每个单字的训练标签；

在某些实施例中，所述模型训练模块具体用于对所述第一图形进行编码，获得所述多个元素的特征向量；

在一个实际应用中，本申请技术方案可以应用于命名实体识别场景中，在命名实体识别场景中：

所述第一确定模块具体用于将训练文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；

所述第二确定模块具体用于将多个不同命名实体类型的词典分别表示为节点。

图5所述的数据处理装置可以执行图1所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图5所示实施例的数据处理装置可以实现为计算设备，如图6所示，该计算设备可以包括存储组件601以及处理组件602；

所述存储组件601存储一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理组件602调用执行。

所述处理组件602用于：

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第一图形；

其中，处理组件602可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件601被配置为存储各种类型的数据以支持在计算设备中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器 (EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

当然，计算设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

其中，该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等，此时计算设备即可以是指云服务器，上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。因此，如在本文所使用的，“计算设备”可以是指远程web服务器、服务器、计算机联网设备、芯片组、台式计算机、笔记本式计算机、工作站，或任何其他处理设备或者装备。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述图1所示实施例的数据处理方法。

图7为本申请实施例提供的一种识别装置一个实施例的结构示意图，该装置可以包括：

第三确定模块701，用于将待处理文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；

第四确定模块702，用于将多个不同类型的词典分别表示为节点；

第二构建模块703，用于以节点之间的关联关系表征节点之间的边，构建第二图形；

文本识别模块704，用于基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词。

在某些实施例中，所述文本识别模块具体用于基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签；

在某些实施例中，所述文本识别模块基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签具体是：

将所述第二图形输入所述文本识别模型，由所述文本识别模型对所述第二图形进行编码获得所述多个元素的特征向量；基于所述多个元素的特征向量，识别所述多个元素分别对应的标签。

所述文本识别模块将所述第二图形输入所述文本识别模型，由所述文本识别模型对所述第二图形进行编码获得所述多个元素的特征向量；基于所述多个元素的特征向量，识别所述多个元素分别对应的标签包括：

将所述第二图形输入所述文本识别模型，由所述图形编码网络将所述第二图形进行编码获得所述多个元素的特征向量；基于所述多个元素的特征向量，利用所述文本识别网络识别所述多个元素分别对应的标签。

所述第三确定模块具体用于将待处理文本切分获得的多个元素分别表示为节点；其中，所述元素由单字或多字组成；

所述第四确定模块具体用于将多个不同命名实体类型的词典分别表示为节点；

所述第二构建模块具体用于以节点之间的关联关系表征节点之间的边，构建第二图形；

所述文本识别模块具体用于基于所述第二图形利用文本识别模型识别所述待处理文本中的命名实体词。

图7所述的识别装置可以执行图3所示实施例所述的识别方法，其实现原理和技术效果不再赘述。对于上述实施例中的识别装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图7所示实施例的识别装置可以实现为计算设备，如图8所示，该计算设备可以包括存储组件801以及处理组件802；

所述存储组件801存储一条或多条计算机指令，其中，所述一条或多条计算机指令供所述处理组件802调用执行。

所述处理组件802用于：

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第二图形；

其中，处理组件802可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件801被配置为存储各种类型的数据以支持在计算设备中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器 (EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第一图形；

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一图形及所述多个元素分别标注的训练标签，训练文本识别模型包括：

3.根据权利要求2所述的方法，其特征在于，所述文本识别模型用于基于待处理文本建立的第二图形，对所述待处理文本进行识别以确定所述待处理文本中的特征词。

4.根据权利要求2所述的方法，其特征在于，所述基于所述多个元素的特征向量以及所述多个元素分别标注的标签，训练所述文本识别模型包括：

将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果，并并基于所述多个元素的特征向量，训练所述文本识别模型。

5.根据权利要求4所述的方法，其特征在于，所述文本识别模型包括图形编码网络及文本识别网络；

所述将所述多个元素分别标注的训练标签作为所述文本识别模型的输出结果，并基于所述多个元素的特征向量，训练所述文本识别模型包括：

将所述多个元素的特征向量作为所述文本识别网络的输入数据，所述为所述多个元素分别标注的训练标签作为所述文本识别网络的输出结果，训练所述文本识别模型的训练，以获得所述图形编码网络的模型参数以及所述文本识别网络的模型参数。

6.根据权利要求5所述的方法，其特征在于，将所述第一图形作为所述文本识别模型的输入数据，经由所述图形编码网络型对所述第一图形进行编码以获得所述多个元素的特征向量包括：

7.根据权利要求1所述的方法，其特征在于，所述以节点之间的关联关系表征节点之间的边，构建第一图形包括：

基于不同节点之间的边，构建第一图形。

8.根据权利要求1所述的方法，其特征在于，所述将多个不同类型的词典分别表示为节点包括：

9.根据权利要求1所述的方法，其特征在于，所述元素由单字组成；

所述利用所述第一图形及所述多个元素分别标注的训练标签，训练文本识别模型包括：

针对每个单字，根据所述单字构成的特征词的标签类型，以及所述单字为所述特征词中的开始字、中间字、结束字、单字或不属于任意标签类型的组成字，设置每个单字的训练标签；

10.根据权利要求1所述的方法，其特征在于，所述利用所述第一图形及所述多个元素分别标注的训练标签，训练文本识别模型包括：

对所述第一图形进行编码，获得所述多个元素的特征向量；

11.一种识别方法，其特征在于，包括：

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第二图形；

12.根据权利要求11所述的方法，其特征在于，所述基于所述第二图形利用文本识别模型识别所述待处理文本中的特征词包括：

13.根据权利要求12所述的方法，其特征在于，所述基于所述第二图形利用文本识别模型识别所述待处理文本中所述多个元素分别对应的标签包括：

14.根据权利要求13所述的方法，其特征在于，所述文本识别模型包括图形编码网络及文本识别网络；

所述将所述第二图形输入所述文本识别模型，由所述文本识别模型对所述第二图形进行编码获得所述多个元素的特征向量包括：

所述基于所述多个元素的特征向量，识别所述多个元素分别对应的标签包括：

15.一种数据处理方法，其特征在于，包括：

将多个不同命名实体类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第一图形；

16.一种识别方法，其特征在于，包括：

将多个不同命名实体类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第二图形；

17.一种处理方法，其特征在于，包括：

将多个不同类型的词典分别表示为节点；

以节点之间的关联关系表征节点之间的边，构建第二图形；

基于所述特征词，进行相应处理。

18.根据权利要求17所述的方法，其特征在于，所述特征词为口语化词；所述基于所述特征词，进行相应处理包括：

从所述待处理文本中消除所述口语化词，获得规范文本。

19.根据权利要求17所述的方法，其特征在于，所述特征词为命名实体词；所述基于所述特征词，进行相应处理包括：

20.根据权利要求17所述的方法，其特征在于，所述特征词为命名实体词；所述将待处理文本切分获得的多个元素分别表示为节点之前，所述方法还包括：

获取用户输入的所述待处理文本；

所述基于所述特征词，进行相应处理包括：

基于所述命名实体词进行对象搜索，获得搜索结果；

将所述搜索结果提供给所述用户。

21.根据权利要求17所述的方法，其特征在于，所述待处理文本为语音识别文本；

所述基于所述特征词，进行相应处理包括：

22.一种数据处理装置，其特征在于，包括：

23.一种识别装置，其特征在于，包括：

24.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述处理组件用于：

将多个不同类型的词典分别表示为节点；

25.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述处理组件用于：

将多个不同类型的词典分别表示为节点；