CN109582675A

CN109582675A - 标签匹配方法、装置、服务器及存储介质

Info

Publication number: CN109582675A
Application number: CN201811446459.9A
Authority: CN
Inventors: 王树强
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-04-05

Abstract

本公开是关于一种标签匹配方法、装置、服务器及存储介质，属于数据处理技术领域。本公开的实施例提供的技术方案通过将待匹配的至少一个第二标签与树形数据集中存储的至少一个第一标签进行匹配，通过树形数据集的形式，来进行标签匹配的过程，能够提高标签匹配的自动化程度，大大减少了人工进行标签匹配的成本，也能够避免由于人工匹配而造成的匹配错误，提高了标签匹配的正确率。

Description

标签匹配方法、装置、服务器及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种标签匹配方法、装置、服务器及存储介质。

背景技术

在人工智能领域，数据标注是一项基础工作，例如，对数据进行分类标注、对数据进行标框标注以及对数据进行区域标注等，该项工作通常由外包人员进行。其中，在对数据进行分类标注的过程中，为了便于外包人员准确地对每个数据标注与其对应的标签，在对数据进行分类标注之前，需要先将每个标签与相应的描述信息进行匹配。

相关技术中，常用的标签匹配方法为：由相关人员创建说明描述集，该说明描述集中存储了大量的标签样本，以及与每个标签样本相关联的描述信息，该描述信息可以为相应的标签样本对应的定义及示例性说明等。进而，相关人员可以对该说明描述集中大量的标签样本进行整理归纳，将该大量的标签样本划分为至少一个一级标签及其分别对应的至少一个二级标签。基于上述说明描述集，相关人员可以将待匹配描述信息的标签与上述说明描述集中的标签样本及其描述信息进行匹配，得到与每个待匹配描述信息的标签相符的描述信息。

基于上述标签匹配方法，需要借助大量的人力，将待匹配的标签与说明描述集中相应的描述信息进行匹配，该过程耗时耗力，且，当待匹配的标签很多时，很容易造成匹配错误，进而导致后续的数据标注等发生错误。

发明内容

为克服相关技术中存在的标签匹配耗时耗力且易出错的问题，本公开提供一种标签匹配方法、装置、服务器及存储介质。

根据本公开实施例的第一方面，提供一种标签匹配方法，所述方法应用在服务器上，包括：

获取树形数据集，所述树形数据集存储有至少一个第一标签，每个第一标签具有相关联的描述信息；

基于待匹配的至少一个第二标签，与所述树形数据集中的至少一个第一标签进行匹配，得到每个第二标签的目标标签，每个第二标签与对应的目标标签之间的字符相似程度符合预设条件；

将所述每个第二标签与所述每个第二标签对应的目标标签相关联的目标描述信息进行关联。

在一种可能的设计中，所述基于待匹配的至少一个第二标签，与所述树形数据集中的至少一个第一标签进行匹配，得到每个第二标签的目标标签包括：

对每个第二标签进行分词，得到所述每个第二标签的至少一个第二字符串；

基于每个第二字符串中的各个第二字符，与所述树形数据集中与所述各个第二字符对应的节点所存储的第一字符进行匹配，输出匹配到的第一字符对应的第一标签；

基于所述匹配到的第一字符对应的第一标签，获取所述每个第二标签的目标标签。

在一种可能的设计中，所述基于每个第二字符串中的各个第二字符，与所述树形数据集中与所述各个第二字符对应的节点所存储的第一字符进行匹配包括：

对于所述每个第二字符串中的任一个第二字符，当确定所述第二字符匹配成功的第一节点时，将所述第二字符的下一个第二字符与所述第一节点的子节点进行匹配，所述第一节点所存储的字符与所述第二字符相同。

在一种可能的设计中，所述将所述第二字符的下一个第二字符与所述第一节点的子节点进行匹配包括：

获取下一个第二字符的哈希值；

基于所述哈希值和预设数值，确定所述下一个第二字符对应的节点范围下标；

基于所述节点范围下标，在所述第一节点的子节点中，确定所述下一个第二字符对应的至少一个子节点；

将所述第二字符的下一个第二字符与所述下一个第二字符对应的至少一个子节点进行匹配。

在一种可能的设计中，所述方法还包括：

对于所述每个第二字符串中的第一个第二字符，在所述树形数据集的根节点的下一层节点中，确定所述第一个第二字符对应的至少一个节点。

在一种可能的设计中，所述获取树形数据集包括：

对每个第一标签进行分词，得到所述每个第一标签的至少一个第一字符串；

基于每个第一字符串中的各个第一字符和各个字符关系，生成与所述各个第一字符对应的各个节点和与所述各个字符关系对应的各个节点父子关系，生成所述树形数据集。

在一种可能的设计中，所述基于每个第一字符串中的各个第一字符和各个字符关系，生成与所述各个第一字符对应的各个节点和与所述各个字符关系对应的各个节点父子关系包括：

基于每个第一字符，与已存在的节点进行匹配，当未匹配到与所述每个第一字符对应的节点时，为所述每个第一字符的上一个字符对应的父节点创建新子节点，所述新子节点存储有所述每个第一字符。

根据本公开实施例的第二方面，提供一种标签匹配装置，所述装置应用在服务器上，包括：

获取模块，被配置为获取树形数据集，所述树形数据集存储有至少一个第一标签，每个第一标签具有相关联的描述信息；

匹配模块，被配置为基于待匹配的至少一个第二标签，与所述树形数据集中的至少一个第一标签进行匹配，得到每个第二标签的目标标签，每个第二标签与对应的目标标签之间的字符相似程度符合预设条件；

关联模块，被配置为将所述每个第二标签与所述每个第二标签对应的目标标签相关联的目标描述信息进行关联。

在一种可能的设计中，所述匹配模块包括：

第一分词单元，被配置为对每个第二标签进行分词，得到所述每个第二标签的至少一个第二字符串；

匹配单元，被配置为基于每个第二字符串中的各个第二字符，与所述树形数据集中与所述各个第二字符对应的节点所存储的第一字符进行匹配，输出匹配到的第一字符对应的第一标签；

获取单元，被配置为基于所述匹配到的第一字符对应的第一标签，获取所述每个第二标签的目标标签。

在一种可能的设计中，所述匹配单元被配置为：

获取下一个第二字符的哈希值；

在一种可能的设计中，所述装置还包括：

确定模块，被配置为对于所述每个第二字符串中的第一个第二字符，在所述树形数据集的根节点的下一层节点中，确定所述第一个第二字符对应的至少一个节点。

在一种可能的设计中，所述获取模块包括：

第二分词单元，被配置为对每个第一标签进行分词，得到所述每个第一标签的至少一个第一字符串；

生成单元，被配置为基于每个第一字符串中的各个第一字符和各个字符关系，生成与所述各个第一字符对应的各个节点和与所述各个字符关系对应的各个节点父子关系，生成所述树形数据集。

在一种可能的设计中，所述生成单元被配置为：

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行一种标签匹配方法，所述方法包括：

根据本公开实施例的第五方面，提供一种应用程序，包括一条或多条指令，该一条或多条指令可以由服务器的处理器执行时，使得服务器能够执行一种标签标注方法，所述方法包括：

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开的实施例提供的技术方案通过将待匹配的至少一个第二标签与树形数据集中存储的至少一个第一标签进行匹配，通过树形数据集的形式，来进行标签匹配的过程，能够提高标签匹配的自动化程度，大大减少了人工进行标签匹配的成本，也能够避免由于人工匹配而造成的匹配错误，提高了标签匹配的正确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种标签匹配方法的流程图。

图2是根据一示例性实施例示出的一种标签匹配方法的流程图。

图3是根据一示例性实施例示出的树形数据集中的节点及节点父子关系。

图4是根据一示例性实施例示出的树形数据集中的节点及节点父子关系。

图5是根据一示例性实施例示出的树形数据集中的节点及节点父子关系。

图6是根据一示例性实施例示出的生成树形数据集的流程图。

图7是根据一示例性实施例示出的一种标签匹配方法的流程图。

图8是根据一示例性实施例示出的一种标签匹配装置框图。

图9是根据一示例性实施例示出的一种用于标签匹配的服务器900的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种标签匹配方法的流程图，如图1所示，该标签匹配方法应用于服务器中，包括以下步骤：

在步骤101中，获取树形数据集，该树形数据集存储有至少一个第一标签，每个第一标签具有相关联的描述信息。

在步骤102中，基于待匹配的至少一个第二标签，与该树形数据集中的至少一个第一标签进行匹配，得到每个第二标签的目标标签，每个第二标签与对应的目标标签之间的字符相似程度符合预设条件。

在步骤103中，将该每个第二标签与该每个第二标签对应的目标标签相关联的目标描述信息进行关联。

在一些实施例中，该基于待匹配的至少一个第二标签，与该树形数据集中的至少一个第一标签进行匹配，得到每个第二标签的目标标签包括：

对每个第二标签进行分词，得到该每个第二标签的至少一个第二字符串；

基于每个第二字符串中的各个第二字符，与该树形数据集中与该各个第二字符对应的节点所存储的第一字符进行匹配，输出匹配到的第一字符对应的第一标签；

基于该匹配到的第一字符对应的第一标签，获取该每个第二标签的目标标签。

在一些实施例中，该基于每个第二字符串中的各个第二字符，与该树形数据集中与该各个第二字符对应的节点所存储的第一字符进行匹配包括：

对于该每个第二字符串中的任一个第二字符，当确定该第二字符匹配成功的第一节点时，将该第二字符的下一个第二字符与该第一节点的子节点进行匹配，该第一节点所存储的字符与该第二字符相同。

在一些实施例中，该将该第二字符的下一个第二字符与该第一节点的子节点进行匹配包括：

获取下一个第二字符的哈希值；

基于该哈希值和预设数值，确定该下一个第二字符对应的节点范围下标；

基于该节点范围下标，在该第一节点的子节点中，确定该下一个第二字符对应的至少一个子节点；

将该第二字符的下一个第二字符与该下一个第二字符对应的至少一个子节点进行匹配。

在一些实施例中，该方法还包括：

对于该每个第二字符串中的第一个第二字符，在该树形数据集的根节点的下一层节点中，确定该第一个第二字符对应的至少一个节点。

在一些实施例中，该获取树形数据集包括：

对每个第一标签进行分词，得到该每个第一标签的至少一个第一字符串；

基于每个第一字符串中的各个第一字符和各个字符关系，生成与该各个第一字符对应的各个节点和与该各个字符关系对应的各个节点父子关系，生成该树形数据集。

在一些实施例中，该基于每个第一字符串中的各个第一字符和各个字符关系，生成与该各个第一字符对应的各个节点和与该各个字符关系对应的各个节点父子关系包括：

基于每个第一字符，与已存在的节点进行匹配，当未匹配到与该每个第一字符对应的节点时，为该每个第一字符的上一个字符对应的父节点创建新子节点，该新子节点存储有该每个第一字符。

图2是根据一示例性实施例示出的一种标签匹配方法的流程图，如图2所示，该标签匹配方法应用于服务器中，在标签匹配过程中，服务器可以基于至少一个标签样本生成树形数据集，使得待匹配的标签可以在该树形数据集中进行标签匹配，在该实施例中，第一标签即为标签样本，第二标签即为待匹配的标签。该生成树形数据集的过程包括以下步骤：

在步骤201中，服务器对每个第一标签进行分词，得到该第一标签的至少一个第一字符串。

在本公开实施例中，该第一标签可以用于表示数据的类别，服务器基于大量的第一标签构造树形数据集，该树形数据集中的每个第一标签都具有相关联的描述信息，也即是，当服务器找到该每个第一标签时，也就可以基于该每个第一标签，获取到与该每个第一标签相关联的描述信息。其中，可以在构造树形数据集之前，通过人工的方式将每个第一标签与相应的描述信息进行关联，当然，也可以通过其他方式将每个第一标签与相应的描述信息进行关联，本公开实施例在此不做限定。

具体地，每个第一标签可以具有一个标签ID(Identification，号码标识)，当服务器找到一个第一标签时，服务器可以根据该第一标签的标签ID，从存储描述信息的数据库中调取与该第一标签的标签ID相关联的描述信息。当然，在其他实施例中，服务器还可以根据其他方式获取到与该第一标签相关联的描述信息，本公开实施例在此不做限定。

上述树形数据集是由多个节点以及节点之间的父子关系形成的，其中，多个节点包括一个根节点以及与该一个根节点相连的多层节点，该根节点是空节点，该多层节点中存储了至少一个第一标签中的字符，每层节点最多可以容纳预设数目个节点范围，每个节点范围具有节点范围下标，用于表示该节点范围在该层节点中的位置。例如，一层节点中可以容纳32个节点范围，当一个节点范围下标为4时，表示该节点范围时该层节点的第四个节点范围，当然，还可以设定每层节点可以容纳其他数量的节点范围，本公开实施例在此不做限定。

服务器在基于上述至少一个第一标签构造上述树形数据集时，可以先对每个第一标签进行分词，再基于得到的每个第一标签的至少一个第一字符串构造该树形数据集，可以使得形成的树形数据集的枝杈更多，也即是使得该树形数据集中具有更加丰富的节点父子关系。其中，在本公开实施例中，每个第一标签的至少一个第一字符串可以包括该第一标签本身和字符数小于该第一标签字符数的第一字符串。以第一标签为“我爱中国”为例，基于“我爱中国”得到的第一字符串可以为“我爱”、“中国”和“我爱中国”。

具体地，服务器可以通过机械分词法对每个第一标签进行分词，可以在服务器中预设语料库，该语料库中可以存储有大量的文本，服务器将每个第一标签与该语料库中的文本进行对比，从而得到与每个第一标签相匹配的至少一个第一字符串，其中，每个第一字符串可以包括至少一个字符。例如，第一标签为“小女孩”，将“小女孩”进行机械分词后得到的第一字符串可以为“小”、“女孩”以及“小女孩”。当然，在其他实施例中，还可以采用其他分词方法对每个第一标签进行分词，本公开实施例在此不做限定。

在步骤202中，对于每个第一字符串中的第一个第一字符，服务器在根节点的下一层节点中，确定该第一个第一字符对应的节点范围。

在本公开实施例中，基于上述对每个第一标签得到的至少一个第一字符串，服务器需要基于每个第一字符串中的每个第一字符构造树形数据集。其中，对于每个第一字符串，服务器需要从一个第一字符串中的第一个第一字符开始构造该树形数据集，直到基于该第一字符串中的最后一个第一字符构造完树形数据集之后，服务器再从另一个第一字符串的第一个第一字符开始构造树形数据集，其中，基于每个第一字符串构造树形数据集时，都要从与同一个根节点的下一层节点开始构造。

服务器可以先将一个第一字符串作为基础字符串，基于该基础字符串构造树形数据集的至少一个基础节点及基础节点父子关系，该基础节点父子关系与该基础字符串中各个字符的先后顺序相对应，以基础字符串为“我爱你”为例，基于“我爱你”构造的至少一个基础节点及基础节点父子关系如图3所示。接下来，服务器以该至少一个基础节点及基础节点父子关系为基础，将另一个第一字符串的各个第一字符与该至少一个基础节点进行匹配，当未匹配到与另一个第一字符串的第一字符对应的基础节点时，则在预设位置创建与上述未匹配成功的第一字符对应的节点，以此类推，直到基于至少一个字符串中的至少一个字符全部生成对应的节点以及节点父子关系，形成一个具有相同根节点的树形数据集。

基于上述至少一个基础节点以及基础节点父子关系，以服务器从另一个第一字符串中的第一个第一字符开始构造树形数据集为例，服务器需要在根节点的下一层节点中，确定该第一个第一字符对应的节点范围。具体地，对于该第一个第一字符，服务器可以获取该第一个第一字符的哈希值，该哈希值为将该第一个第一字符压缩得到的摘要，用于唯一标识该第一个第一字符，在本公开实施例中，哈希值可以为标识相应的第一字符的数字。服务器可以通过哈希算法，例如MD5(Message-Digest Algorithm，消息摘要算法)算法，得到上述第一个第一字符的哈希值，当然，服务器也可以通过其他算法得到该第一个第一字符的哈希值，本公开实施例在此不做限定。

进一步地，服务器可以基于该第一个第一字符的哈希值和预设数值，在根节点的下一层节点中，确定该第一个第一字符对应的节点范围下标。其中，该预设数值可以为该根节点的下一层节点所包括的节点范围的最大数量，例如，服务器可以设定该最大数量为32，也即是该预示数值为32，当然，该预设数值还可以为其他数值，本公开实施例在此不做限定。

在一种实施例中，服务器可以用该第一个第一字符的哈希值除以该预设数值，将得到的余数作为该第一个第一字符对应的节点范围下标，例如该第一个字符的哈希值为1000，该预设数值为32，用1000除以32得到的余数为8，则该第一个第一字符对应的节点范围下标为8，也即是，该第一个第一字符对应与该根节点的下一层的第9个节点范围。当然，还可以通过其他方式来计算该第一个第一字符对应的节点范围下标，本公开实施例在此不做限定。

基于上述得到的该第一个第一字符对应的节点范围下标，服务器可以根据该节点范围下标确定该第一个第一字符对应的节点范围。

在步骤203中，服务器基于该第一个第一字符，与该节点范围中的至少一个节点进行匹配，当服务器未匹配到与该第一个第一字符对应的节点时，在该节点范围中创建新节点，该新节点存储有该第一个第一字符。

在本公开实施例中，基于步骤202确定的该第一个第一字符对应的节点范围，服务器将该第一个第一字符与该节点范围中的至少一个节点进行匹配，当服务器未匹配到与该第一个第一字符对应的节点时，也即是上述对应的节点范围中不存在与该第一个第一字符相同的第一字符时，在该节点范围的末尾位置创建一个新的同级节点，该新的同级节点中存储有该第一个第一字符。如图4所示，以根节点的下一层节点中下标为“0”的节点范围中存储有字符“我”，当服务器获取到另一个字符串的第一个字符“中”对应的节点范围下标也为“0”时，服务器将字符“中”与图4中字符“我”所在的节点范围中的节点进行匹配，未匹配到与字符“中”对应的节点，则服务器在字符“我”的末尾位置创建一个同级节点，该同级节点中存储有字符“中”。

当然，在其他实施例中，对于该未匹配到节点的第一个第一字符，服务器也可以在其他位置创建新的同级节点，本公开实施例在此不做限定。

在步骤204中，对于第二个第一字符，服务器在该新节点的下一层创建一个新子节点，该新子节点存储有该第二个第一字符。

在本公开实施例中，对于一个第一字符串，当基于该第一字符串中的第一个第一字符创建新节点之后，无需将该第一字符串中的其他字符与已经存在的其他节点进行匹配，只需以上述新节点作为父节点，依次在该父节点的下一层创建新子节点即可，每个新子节点中存储有对应的该第一字符串的其他字符。

基于步骤203中为第一个第一字符创建的新节点，对于当前第一字符串中的第二个第一字符，服务器在上述新节点的下一层创建一个新子节点。具体地，服务器可以基于该第二个第一字符，确定该第二个第一字符对应的子节点范围，在该子节点范围内创建一个新子节点，该新子节点中存储有该第二个第一字符。其中，确定该第二个第一字符对应的子节点范围的方法与步骤203中确定第一个第一字符对应的节点范围的方法相同，本公开实施例在此不做一一赘述。

上述步骤203至步骤204为当服务器未匹配到与第一个第一字符对应的节点时的处理方法，当服务器在上述节点范围内匹配到与该第一个第一字符对应的节点时，确定该匹配到的节点为当前父节点，将上述第一字符串中的第二个第一字符与当前父节点的至少一个子节点进行匹配。具体地，服务器可以基于该第二个第一字符，确定该第二个第一字符对应的子节点范围下标，将该第二个第一字符与上述子节点范围下标对应的至少一个子节点进行匹配，当服务器在该子节点范围中，未匹配到与该第二个第一字符对应的子节点时，服务器在该子节点范围的末尾位置创建新的同级子节点，该新的同级子节点中存储有上述第二个第一字符。其中，服务器确定该第二个第一字符对应的子节点范围下标的方法，与上述服务器确定第一个第一字符对应的节点范围下标的方法类似，本公开实施例在此不做一一赘述。

在步骤205中，以此类推，直到基于每个第一字符串中的各个第一字符，生成与该各个第一字符对应的节点和与各个字符关系对应的节点父子关系，得到树形数据集。

在本公开实施例中，基于步骤204创建的一个新子节点，若该第一字符串中除上述第一个第一字符和第二个第一字符之外，还有其他字符，则将上述新子节点作为新父节点，依次为该新父节点创建新子节点，直到基于该第一字符串中的各个第一字符创建完对应的各级节点，其中，该各级节点中依次存储有该第一字符串的各个字符。若该第一字符串中只有上述第一个第一字符和第二个第一字符，则服务器基于另一个第一字符进行与上述同理的过程，以构造树形数据集。

当服务器在上述子节点范围中匹配到与该第二个第一字符对应的子节点时，确定该匹配到的子节点为当前父节点，将上述第一字符串中的第三个第一字符与当前父节点的至少一个子节点进行匹配，该匹配过程与上述基于第二个第一字符的匹配过程类似，本公开实施例在此不再一一赘述。

基于上述过程，直到基于上述第一字符串中的所有字符，生成对应的节点和对应的节点父子关系之后，服务器再基于其他第一字符中的各个字符，进行与上述过程类似的步骤，直到基于每个第一字符串中的各个第一字符，生成对应的各个节点和节点父子关系，得到树形数据集。

以图5所示树形数据集为例，在构造该树形数据集的过程中，在基于“我爱你中国”和“我爱你北京”这两个第一字符串形成对应的节点和节点父子关系基础上，再基于第一字符串“我爱你上海”生成对应的节点和节点父子关系，其中，当“我爱你上海”中的“我”“爱”“你”分别匹配到对应的节点之后，将“上”与“你”对应的节点的子节点进行匹配，假如基于“上”确定的节点范围与“北”对应的节点范围相同，则将“上”与该节点范围中的至少一个节点进行匹配，当“上”未匹配到具有相同字符的节点时，也即是，在图5中，“上”与“北”不相同，则为“北”对应的节点创建一个新的同级节点，该新的的同级节点中存储有“上”，且该新的同级节点与“北”对应的节点范围相同。基于该新的同级节点，再创建一个新的子节点，该新的子节点中存储有“海”。

上述基于每个第一字符进行构造树形数据集的过程中，只需将该每个第一字符与对应的节点范围中的至少一个节点进行匹配，而无需将每个第一字符与对应层中的所有节点进行匹配，大大减少了服务器的遍历次数，减轻了服务器的负担。

需要说明的是，每个节点还可以具有节点属性信息，该节点属性信息用于描述当前节点是否为对应的第一字符串的结束节点、当前节点所存储的字符的长度、当前节点对应的第一字符串ID、当前节点所属的节点范围等，当然，该节点属性信息还可以用于描述其他内容，且每个节点还可以具有其他信息，本公开实施例在此不做限定。

上述步骤201至步骤205为服务器获取树形数据集的过程，该获取过程是基于至少一个第一标签，得到该至少一个第一标签对应的所有第一字符串，并基于该所有的第一字符串生成树形数据集的过程，当然，在其他实施例中，服务器还可以直接获取到已经构造好的树形数据集，本公开实施例在此对服务器获取树形数据集的具体过程不做限定。

如图6所示，图6是根据一示例性实施例示出的生成树形数据集的流程图，对于一个第二字符串，假设该第二字符串中的第i个字符已匹配到对应的节点，则设置该第i个字符对应的节点为当前父节点，接下来服务器对该第二字符串中的第i+1个字符进行匹配，基于该第i+1个字符，服务器在当前父节点的下一层，确定该第i+1个字符对应的子节点范围，基于该第i+1个字符遍历该子节点范围，也即是，将该第i+1个字符与该子节点范围中的至少一个节点进行匹配，当服务器匹配到与该第i+1个字符对应的子节点时，设置该匹配到的子节点为当前父节点，再基于第i+2个字符与该父节点的子节点进行匹配，以此类推。当服务器未匹配到与上述第i+1个字符对应的子节点时，在上述子节点范围中创建新的同级子节点，该同级子节点中存储有该第i+1个字符，并将该新的同级子节点作为当前父节点，创建当前父节点的子节点，该创建的子节点中存储有第i+2个字符，以此类推，直到基于当前第二字符串建立对应的节点和节点父子关系。

图7是根据一示例性实施例示出的一种标签匹配方法的流程图，如图7所示，该标签匹配方法应用于服务器中，在服务器生成树形数据集之后，每个待匹配的标签都可以基于该树形数据集进行标签匹配，在该实施例中，第二标签即为待匹配的标签。每个第二标签的匹配过程包括以下步骤：

在步骤701中，服务器对每个第二标签进行分词，得到该每个第二标签的至少一个第二字符串。

在本公开实施例中，服务器需要基于该待匹配的至少一个第二标签，与上述步骤201至步骤205生成的树形数据集中的至少一个第一标签进行匹配，进而服务器可以得到与上述匹配成功的第一标签相关联的描述信息，从而可以得到与每个第二标签对应的描述信息。

服务器可以对每个待匹配的第二标签进行分词，将每个第二标签分词后的至少一个第二字符串分别与树形数据集中的至少一个第一标签进行匹配，大大提高了匹配的准确率，避免了当第二标签缺词时，无法匹配到对应的第一标签。例如，当第二标签为“我爱你中”时，基于字符串“我爱你中”可能无法匹配到对应的第一标签，此时，将“我爱你中”分词成“我爱你”、“中”等字符串，再基于该各个字符串分别与树形数据集中的至少一个第一标签进行匹配，就可能匹配到对应的至少第一标签。再根据设定的筛选策略，对该匹配到的至少一个第一标签进行筛选，最终得到与“我爱你中”最匹配的第一标签。

具体地，与步骤201对每个第一标签进行分词的过程同理，服务器可以通过机械分词法对每个第二标签进行分词，本公开实施例在此对该机械分词的具体过程不做一一赘述。当然，服务器还可以通过其他分词方法对每个第二标签进行分词，本公开实施例在此不做限定。

在步骤702中，服务器基于每个第二字符串中的第一个第二字符，在树形数据集的根节点的下一层节点中，确定该第一个第二字符对应的节点范围。

在本公开实施例中，对于每个第二字符串与树形数据集中的至少一个第一标签的匹配过程，服务器需要从该每个第二字符串中的第一个第二字符开始进行匹配，当该第一个第二字符与树形数据集中的一个节点进行匹配成功之后，再将当前第二字符串中的第二个字符串与上述匹配成功的节点的子节点进行匹配，当该第一个第二字符未匹配到对应的节点，则服务器结束对当前第二字符串的匹配，开始对其他第二字符串进行匹配。

其中，对于第一个第二字符的匹配过程，服务器要确定该第一个第二字符对应的节点范围，具体地，确定该第一个第二字符对应的节点范围的方法与上述步骤202中确定第一个第一字符对应的节点范围的方法同理，本公开实施例在此不做一一赘述。

在步骤703中，服务器基于该第一个第二字符，与该节点范围中的至少一个节点进行匹配，当服务器匹配到与该第一个第二字符对应的第一节点时，在该第一节点的子节点中，对第二个第二字符进行匹配。

在本公开实施例中，基于上述步骤702确定的该第一个第二字符对应的节点范围，服务器可以将该第一个第二字符与该节点范围中的至少一个节点进行匹配，当服务器在该节点范围中匹配到与该第一个第二字符对应的节点时，确定该匹配到的节点为第一节点，其中，该第一节点所存储的字符与上述第一个第二字符相同。

基于上述匹配到的第一节点，服务器将当前待匹配的第二字符串中的第二个第二字符，与上述第一节点的子节点继续进行匹配，具体地，与上述第一个第一字符的匹配过程同理，也即是，服务器需要基于该第二个第二字符，在上述第一节点的下一层子节点中，确定与该第二个第二字符对应的子节点范围，服务器将该第二个第二字符与上述子节点范围中的至少一个子节点进行匹配，当服务器在该子节点范围中匹配到与该第二个第二字符对应的子节点时，确定该匹配到的子节点为第二节点，再将第三个第二字符与该第二节点的子节点进行匹配，匹配过程与上述对第一个第二字符和第二个第二字符的匹配过程同理，直到服务器基于当前第二字符串，在上述树形数据集中匹配到与当前第二字符串对应的各个节点。

在步骤704中，以此类推，直到服务器基于该每个第二字符串中的各个第二字符，在树形数据集中匹配到对应的节点，匹配成功的节点所存储的第一字符与对应的第二字符相同。

在本公开实施例中，与上述步骤702至步骤703中对第一个第二字符和第二个第二字符的匹配过程同理，服务器可以对当前第二字符串中的其他第二字符继续与树形数据集中对应的节点进行匹配，直到服务器基于当前第二字符串中的各个第二字符得到对应的至少一个第一字符，再对其他第二字符串进行匹配，直到对每个第二标签的各个第二字符串完成上述匹配过程。

需要说明的是，当上述匹配过程中，对于当前第二字符串中的任一第二字符，当服务器在与该任一第二字符对应的节点范围中未匹配到对应的节点时，则结束对当前第二字符串的匹配过程，表示对当前第二字符串匹配失败，继续对另一个第二字符串进行与上述过程相同的匹配过程。

在步骤705中，服务器输出匹配到的第一字符对应的第一标签。

在本公开实施例中，上述树形数据集中的每个节点所存储的第一字符都可以携带该第一字符对应的第一标签ID，其中。每个第一字符可以携带至少一个第一标签ID，同一个第一字符串中的至少一个第一字符分别携带的第一标签ID是相同的。当服务器基于当前待匹配的第二字符串，匹配到与该第二字符串对应的至少一个第一字符时，服务器可以基于该至少一个第一字符携带的第一标签ID，输出该第一标签ID所对应的第一标签。

例如，树形数据集中存储了“我爱中国”和“我爱北京”这两个第一个标签，假设，“我爱中国”的ID为“1”，“我爱北京”的ID为2，则，“我”携带的ID为“1”和“2”，“爱”携带的ID为“1”和“2”，“中”携带的ID为“1”，“国”携带的ID为“1”，“北”携带的ID为“2”，“京”携带的ID为“2”，则当服务器基于一个“我爱”这个第二字符串匹配到的第一字符为“我”和“爱”时，基于“我”和“爱”所携带的ID，服务器输出的与“我爱”这个第二字符串对应的第一标签为“我爱中国”和“我爱北京”。同理，当待匹配的第二字符串为“我爱中国”，服务器输出的匹配到的第一标签为“我爱中国”。

当然，在其他实施例中，服务器除了通过上述第一标签ID的方式，找到上述匹配到的第一字符对应的第一标签之外，还可以通过其他方式找到与该匹配到的第一字符对应的第一标签，本公开实施例在此不做限定。

在步骤706中，服务器基于该匹配到的第一字符对应的第一标签，得到该每个第二标签的目标标签。

在本公开实施例中，服务器基于匹配到的第一字符，可能得到至少一个与该匹配到的第一字符对应的第一标签，当服务器得到一个上述第一标签时，则将该第一标签作为当前待匹配的第二标签的目标标签。当服务器得到两个或者两个以上上述第一标签时，服务器可以根据预设的筛选策略，对该两个或者两个以上的第一标签进行筛选，最终得到与当前待匹配的第二标签之间的字符相似程度符合预设条件的一个第一标签，将该一个第一标签作为上述待匹配的第二标签的目标标签。

例如，服务器可以获取上述两个或者两个以上的第一标签分别对应的字符串长度，并基于上述字符串长度，筛选出与待匹配的第二标签的字符串长度之差最小的第一标签，将该第一标签作为该待匹配的第二标签的目标标签。

当然，服务器还可以基于上述各个第一标签的字符串长度和待匹配的第二标签的字符串长度，筛选出与该第二标签的字符串长度最为接近的预设数目个第一标签，然后再通过人工校验，从该预设数目个第一标签中找到与该第二标签的目标标签。当然，也可以通过人工，对上述匹配到的所有第一标签进行校验，以得到上述第二标签的目标标签。本公开实施例在此对得到每个第二标签的目标标签的具体方式不做限定。

上述步骤701至步骤706为服务器基于待匹配的至少一个第二标签，与上述树形数据集中的至少一个第一标签进行匹配，得到每个第二标签的目标标签的过程，上述过程为从每个第二字符串的第一个第二字符开始匹配进行说明的，当然，在其他实施例中，对于每个第二标签，服务器还可以通过其他方式与该树形数据集中的至少一个第一标签进行匹配，本公开实施例在此不做限定。

在步骤707中，服务器将该每个第二标签与该每个第二标签对应的目标标签相关联的目标描述信息进行关联。

在本公开实施例中，上述树形数据集中存储的每个第一标签都具有相关联的描述信息，因此，基于上述步骤706得到的每个第二标签对应的目标标签也具有相关联的目标描述信息，其中，该目标描述信息可以为对应的目标标签的定义、具体说明以及示例性说明等信息，当然，该目标描述信息也可以为其他有关上述目标标签的信息，本公开实施例在此不做限定。

服务器可以将该目标描述信息与对应的第二标签关联起来，以便于工作人员在对数据进行分类标注时，可以基于每个第二标签获取到与该每个第二标签相关联的目标描述信息，以根据该目标描述信息了解对应的每个第二标签所表示的含义等内容，进而便于工作人员更加精准地对相应的数据进行分类标注。

具体地，上述每个第二标签可以具有对应的第二标签ID，上述目标标签具有的目标描述信息可以存储在一个信息数据库中，服务器可以将该信息数据库中的目标描述信息与对应的第二标签ID关联起来，当然，服务器还可以通过其他方式将上述每个第二标签与对应的目标标签相关联的目标描述信息进行关联，本公开实施例在此不做限定。

图8是根据一示例性实施例示出的一种标签匹配装置框图。参照图8，该装置包括获取模块801，匹配模块802和关联模块803。

获取模块801，被配置为获取树形数据集，该树形数据集存储有至少一个第一标签，每个第一标签具有相关联的描述信息；

匹配模块802，被配置为基于待匹配的至少一个第二标签，与该树形数据集中的至少一个第一标签进行匹配，得到每个第二标签的目标标签，每个第二标签与对应的目标标签之间的字符相似程度符合预设条件；

关联模块803，被配置为将该每个第二标签与该每个第二标签对应的目标标签相关联的目标描述信息进行关联。

在一种可能的设计中，该匹配模块802，包括：

第一分词单元，被配置为对每个第二标签进行分词，得到该每个第二标签的至少一个第二字符串；

匹配单元，被配置为基于每个第二字符串中的各个第二字符，与该树形数据集中与该各个第二字符对应的节点所存储的第一字符进行匹配，输出匹配到的第一字符对应的第一标签；

获取单元，被配置为基于该匹配到的第一字符对应的第一标签，获取该每个第二标签的目标标签。

在一种可能的设计中，该匹配单元被配置为：

获取下一个第二字符的哈希值；

在一种可能的设计中，该装置还包括：

确定模块，被配置为对于该每个第二字符串中的第一个第二字符，在该树形数据集的根节点的下一层节点中，确定该第一个第二字符对应的至少一个节点。

在一种可能的设计中，该获取模块801，包括：

第二分词单元，被配置为对每个第一标签进行分词，得到该每个第一标签的至少一个第一字符串；

生成单元，被配置为基于每个第一字符串中的各个第一字符和各个字符关系，生成与该各个第一字符对应的各个节点和与该各个字符关系对应的各个节点父子关系，生成该树形数据集。

在一种可能的设计中，该生成单元被配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于标签匹配的服务器900的框图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central p rocessing units，CPU)901和一个或一个以上的存储器902，其中，该存储器902中存储有至少一条指令，该至少一条指令由该处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由服务器900的处理器执行以完成上述标签匹配方法。例如，该非临时性计算机可读存储介质可以是(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序，包括一条或多条指令，该一条或多条指令可以由服务器900的处理器执行，以完成上述标签匹配方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种标签匹配方法，其特征在于，所述方法应用在服务器上，包括：

基于待匹配的至少一个第二标签，与所述树形数据集中的所述至少一个第一标签进行匹配，得到每个第二标签的目标标签，每个第二标签与对应的目标标签之间的字符相似程度符合预设条件；

2.根据权利要求1所述的标签匹配方法，其特征在于，所述基于待匹配的至少一个第二标签，与所述树形数据集中的所述至少一个第一标签进行匹配，得到每个第二标签的目标标签包括：

对所述每个第二标签进行分词，得到所述每个第二标签的至少一个第二字符串；

3.根据权利要求2所述的标签匹配方法，其特征在于，所述基于每个第二字符串中的各个第二字符，与所述树形数据集中与所述各个第二字符对应的节点所存储的第一字符进行匹配包括：

对于所述每个第二字符串中的任一个第二字符，当确定所述任一个第二字符匹配成功的第一节点时，将所述任一个第二字符的下一个第二字符与所述第一节点的子节点进行匹配，所述第一节点所存储的字符与所述任一个第二字符相同。

4.根据权利要求3所述的标签匹配方法，其特征在于，所述将所述任一个第二字符的下一个第二字符与所述第一节点的子节点进行匹配包括：

获取所述下一个第二字符的哈希值；

将所述下一个第二字符与所述下一个第二字符对应的至少一个子节点进行匹配。

5.根据权利要求3或4所述的标签匹配方法，其特征在于，所述方法还包括：

对于所述每个第二字符串中的第一个第二字符，在所述树形数据集的根节点的下一层节点中，确定第一个第二字符对应的至少一个节点。

6.根据权利要求1所述的标签匹配方法，其特征在于，所述获取树形数据集包括：

7.根据权利要求6所述的标签匹配方法，其特征在于，所述基于每个第一字符串中的各个第一字符和各个字符关系，生成与所述各个第一字符对应的各个节点和与所述各个字符关系对应的各个节点父子关系包括：

8.一种标签匹配装置，其特征在于，所述装置应用在服务器上，包括：

匹配模块，被配置为基于待匹配的至少一个第二标签，与所述树形数据集中的所述至少一个第一标签进行匹配，得到每个第二标签的目标标签，每个第二标签与对应的目标标签之间的字符相似程度符合预设条件；

一字符。

9.一种服务器，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行一种标签匹配方法，所述方法包括：