CN102279843A

CN102279843A - 处理短语数据的方法以及装置

Info

Publication number: CN102279843A
Application number: CN2010102078835A
Authority: CN
Inventors: 陈小宾; 申排伟; 杜宇程; 马晋元
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2010-06-13
Filing date: 2010-06-13
Publication date: 2011-12-14

Abstract

本发明提供一种处理短语数据的方法以及装置，涉及数据领域，为解决现有技术中短语之间相似度算法区分度不高的技术问题而发明。所述处理短语数据的方法，包括：获取属于同一语义类型的第一短语和第二短语，以及第一短语和所述第二短语的语义类型；根据所述语义类型，查找所述语义类型对应的拆分模板；根据拆分模板，分别将第一短语和第二短语拆分成字段，并根据所述顺序关系，标识拆分后的字段对应的字段类型；分别获取字段类型相同的所述第一短语的字段与所述第二短语的字段之间的字段间相似度；根据所述字段间相似度，计算所述第一短语和所述第二短语之间的语义相似度。本发明能够应用于导航领域名称、地址数据的相似度计算，用于去除冗余数据。

Description

处理短语数据的方法以及装置

技术领域

本发明涉及数据领域，特别是指一种处理短语数据的方法以及装置。

背景技术

短语间的相似度计算技术是规范数据格式、去除冗余数据的一个重要技术手段之一，相似度计算技术还有许多其它的重要应用，如文本聚类、自动问答等。

以电子地图中POI(Point Of Interest，兴趣点)为例，POI是指可查找、可定位的包含衣食住行等附属社会信息的地理位置。POI数据具有文本简短和内容丰富的特点，由于POI数据生产厂商获取的POI源数据途径多、来源广，而且由于自然语言表达方式的丰富多样，造成实质上同一个POI有多种不同的表达形式。因此，规范数据格式、去除冗余数据显得尤为重要，这样，既能节约存储空间，提高运行效率，又能改善用户体验。

短语间的相似度是指两个短语的相似程度，即在某一领域背景下可以相互替换使用，而不改变文本的句法、语义以及结构的程度。通常，相似度用0到1之间的实数表示，越相似，相似度值就越大，0表示完全不同，1表示完全相同。

现有技术中，计算短语间的相似度通常为：先计算短语间的距离，再转化为相似度值，距离越小，相似度越高；距离越大，相似度越低。目前计算短语间距离的方法有很多，例如欧氏距离、夹角余弦距离、最长公共子串以及编辑距离方法等，然后通过转换函数，将短语距离转化为短语间相似度。基于通用的计算方法，这种短语间相似度计算方法比较笼统，容易造成相似度值聚集，使得短语间区分不明显，为后期的数据处理带来不利影响。

发明内容

本发明要解决的技术问题是提供一种处理短语数据的方法和装置，能够提高短语间的区分度。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种处理短语数据的方法，包括：

步骤1，获取第一短语和第二短语，以及所述第一短语和所述第二短语的语义类型，所述第一短语的语义类型和所述第二短语的语义类型相同；

步骤2，根据所述语义类型，查找所述语义类型对应的拆分模板，所述拆分模板包含：至少两个字段类型以及所述字段类型的顺序关系；

步骤3，根据所述拆分模板，分别将所述第一短语和第二短语拆分成字段，并根据所述顺序关系，标识拆分后的所述字段对应的字段类型；

步骤4，分别获取所述第一短语的字段与所述第二短语的字段之间的字段间相似度，所述第一短语的字段的字段类型与所述第二短语的字段的字段类型相同；

步骤5，根据所述字段间相似度，计算所述第一短语和所述第二短语之间的语义相似度；

步骤6，根据所述语义相似度，对所述第一短语和所述第二短语进行处理。

所述步骤5之前，还包括：分别获取所述字段类型的权重；

所述步骤5具体为：根据所述字段间相似度以及所述字段类型的权重，计算所述第一短语和所述第二短语之间的语义相似度。

所述根据所述字段间相似度以及所述字段类型的权重，计算所述第一短语和所述第二短语之间的语义相似度的步骤具体为：

其中，S₁为所述第一短语，S₂为所述第二短语，S_1i为所述第一短语的第i个字段，S_2i为所述第二短语的第i个字段，Sim(S₁，S₂)为所述第一短语和所述第二短语之间的语义相似度，W_i是第i个字段类型的权重，Sim(S_1i，S_2i)是所述第一短语的第i个字段与第二短语的第i个字段之间的字段间相似度，m为所述拆分模板的字段类型的数量，1≤i≤m。

所述分别获取所述字段类型的权重的步骤之前，还包括：

通过训练算法，生成所述字段类型的权重。

所述步骤4具体为：

判断预先设置的语义关系数据库中，是否保存有所述第一短语的字段与所述第二短语的字段对应的语义关系；

如果有，则获取所述语义关系；并根据所述语义关系，获取所述第一短语的字段与所述第二短语的字段之间的字段间相似度；

如果没有，则计算所述第一短语的字段和所述第二短语的字段之间的字段间相似度。

所述根据所述语义关系获取第一短语的字段与第二短语的字段之间的字段间相似度的步骤具体为：

当所述第一短语的字段与所述第二短语的字段对应的语义关系为省略语关系时，字段间相似度为1；

当所述第一短语的字段与所述第二短语的字段对应的语义关系为同义词时，字段间相似度为1；

当所述第一短语的字段与所述第二短语的字段对应的语义关系为近义词时，字段间相似度为0.8-0.95之间的值；

当所述第一短语的字段与所述第二短语的字段对应的语义关系为相关词时，字段间相似度为0.7-08之间的值。

另一方面，提供一种处理短语数据的装置，其特征在于，包括：

短语获取单元，用于获取第一短语和第二短语，以及所述第一短语和所述第二短语的语义类型，所述第一短语的语义类型和所述第二短语的语义类型相同；

查找单元，用于根据所述语义类型，查找所述语义类型对应的拆分模板，所述拆分模板包含：至少两个字段类型以及所述字段类型的顺序关系；

拆分单元，用于根据所述拆分模板，分别将所述第一短语和第二短语拆分成字段，并根据所述顺序关系，标识拆分后的所述字段对应的字段类型；

字段相似度获取单元，用于分别获取第一短语的字段与第二短语的字段之间的字段间相似度，所述第一短语的字段的字段类型与所述第二短语的字段的字段类型相同；

计算单元，用于根据所述字段间相似度，计算所述第一短语和所述第二短语之间的语义相似度；

处理单元，根据所述语义相似度，对所述第一短语和所述第二短语进行处理。

所述的处理短语数据的装置，还包括：

权重获取单元，用于分别获取所述字段类型的权重；

所述计算单元具体为：根据所述字段间相似度以及所述字段类型的权重，计算所述第一短语和所述第二短语之间的语义相似度。

所述的处理短语数据的装置，还包括：

权重生成单元，用于通过训练算法，生成所述字段类型的权重。

所述字段间相似度获取单元包括：

判断子单元，用于判断预先设置的语义关系数据库中，是否保存有第一短语的字段与第二短语的字段对应的语义关系，生成判断结果；

语义关系获取子单元，用于当所述判断结果为有时，获取所述语义关系；

字段间相似度获取子单元，用于根据所述语义关系获取第一短语的字段与第二短语的字段之间的字段间相似度。

计算子单元，用于当所述判断结果为否时，计算第一短语的字段和第二短语的字段之间的字段间相似度。

本发明的实施例具有以下有益效果：

上述方案中，分别将所述第一短语和第二短语拆分成字段，然后，分别获取字段类型相同的所述第一短语的字段与所述第二短语的字段之间的字段间相似度；根据所述字段间相似度，计算所述第一短语和所述第二短语之间的语义相似度。将整条短语之间的相似度比较转化为粒度更小的各切分字段的相似度比较，考虑了各短语内部的字段之间的不同，增加了各短语之间比较的区分度。

附图说明

图1为本发明所述的处理短语数据的方法的流程示意图；

图2为本发明所述的处理短语数据的方法实施例的流程示意图；

图3为本发明所述的处理短语数据的方法应用场景的示意图；

图4为本发明所述的处理短语数据的装置的结构示意图；

图5为图4所述的处理短语数据的装置中字段间相似度获取单元的结构示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

图1为本发明所述的一种处理短语数据的方法，包括：

步骤11，获取属于同一语义类型的第一短语和第二短语，以及所述第一短语和所述第二短语的语义类型；语义类型例如可以为导航领域中表述地址的短语，也可以为导航领域中表述公司名称的短语，每个语义类型有不同的表达习惯，因此，可以对应不同的拆分模板。

步骤12，根据所述语义类型，查找所述语义类型对应的拆分模板，所述拆分模板包含：至少两个字段类型以及所述字段类型的顺序关系；拆分模板是根据各个不同领域中表述不同语义的表达习惯以及语法规则等预先设置的，例如导航领域中表述地址的模板，或者导航领域中表述公司名称的模板。

步骤13，根据所述拆分模板，分别将所述第一短语和第二短语拆分成字段，并根据所述顺序关系，标识拆分后的所述字段对应的字段类型。

步骤14，分别获取字段类型相同的所述第一短语的字段与所述第二短语的字段之间的字段间相似度。

步骤15，根据所述字段间相似度，计算所述第一短语和所述第二短语之间的语义相似度。具体为：

其中，Sim(S₁，S₂)为所述第一短语和所述第二短语之间的语义相似度，Sim(S_1i，S_2i)是所述第一短语的第i个字段与第二短语的第i个字段之间的字段间相似度，m为所述拆分模板的字段类型的数量。

步骤16，根据所述语义相似度，对所述第一短语和所述第二短语进行处理。所述处理包括：规范数据格式、去除冗余数据、文本聚类、自动问答等。

图2为本发明所述的一种处理短语数据的方法，包括：

步骤21，获取属于同一语义类型的第一短语和第二短语，以及所述第一短语和所述第二短语的语义类型。

步骤22，根据所述语义类型，查找所述语义类型对应的拆分模板，所述拆分模板包含：至少两个字段类型以及所述字段类型的顺序关系。

步骤23，根据所述拆分模板，分别将所述第一短语和第二短语拆分成字段，并根据所述顺序关系，标识拆分后的所述字段对应的字段类型。

步骤24，判断预先设置的语义关系数据库中，是否保存有字段类型相同的第一短语的字段与第二短语的字段对应的语义关系；如果有，则转向步骤25；否则，转向步骤27。

步骤25，获取所述语义关系。

步骤26，根据所述语义关系，获取第一短语的字段与第二短语的字段之间的字段间相似度，具体为：当所述第一短语的字段与所述第二短语的字段对应的语义关系为省略语关系时，字段间相似度为1；当所述第一短语的字段与所述第二短语的字段对应的语义关系为同义词时，字段间相似度为1；当所述第一短语的字段与所述第二短语的字段对应的语义关系为近义词时，字段间相似度为0.8-0.95之间的值；当所述第一短语的字段与所述第二短语的字段对应的语义关系为相关词时，字段间相似度为0.7-08之间的值。然后，转向步骤28。

步骤27，计算字段类型相同的第一短语的字段和第二短语的字段之间的字段间相似度，然后转向步骤28。

步骤28，通过训练算法，生成所述字段类型的权重。

步骤29，分别获取所述字段类型的权重。

步骤210，根据所述字段间相似度以及所述字段类型的权重，计算所述第一短语和所述第二短语之间的语义相似度。具体为：

其中，Sim(S₁，S₂)为所述第一短语和所述第二短语之间的语义相似度，W_i是第i个字段类型的权重，Sim(S_1i，S_2i)是所述第一短语的第i个字段与第二短语的第i个字段之间的字段间相似度，m为所述拆分模板的字段类型的数量。

图3中，给定两个短语数据，分别为第一短语数据S₁和第二短语数据S₂。第一短语数据S₁拆成字段S₁₁、S₁₂...S_1m等m个字段；类似地，第二短语数据S₂拆成字段S₂₁、S₂₂...S_2m等m个字段。假设拆分后的各字段类型的权值分别为W＝(W₁，W₂，W₃，...，W_m)。第一短语数据S₁与第二短语数据S₂中相应的拆分字段一一对应地计算字段间的语义相似度，生成Sim(S_1i，S_2i)(1≤i≤m)，Sim(S_1i，S_2i)是序号为i的字段类型的字段S_1i与S_2i之间的字段间相似度。将各拆分字段的语义相似度进行加权求和，作为短语间的语义相似度，

步骤211，根据所述语义相似度，对所述第一短语和所述第二短语进行处理。所述处理包括：规范数据格式、去除冗余数据、文本聚类、自动问答等。以下描述本发明所述的处理短语数据的方法的应用场景，以导航领域的POI为例。包括以下步骤：

步骤31，获取第一短语：“中国人民财产保险股份有限公司增城支公司朱村营销服务部”和第二短语“人财保险有限公司增城分公司朱村营销部”，第一短语和第二短语都为名称语义类型。

步骤32，查找名称语义类型对应的名称拆分模板。

拆分模板是根据技术领域特点、行业规则、各个行业领域的短语数据的语义结构特征、短语数据的统计特征以及人工处理经验，在保持拆分字段语义完整的前提下确定的，拆分模板的每个字段表示完整的语义。制定拆分模板时，由于待处理数据的领域特点、行业规则有差异，因此，语义字段的结构特征及语义字段数目也有所不同，尽量使得模板适应性强，力求覆盖行业领域的全部数据，并且尽量使拆分结果唯一。

下面以导航领域POI数据的名称数据拆分模板的制定为例，说明模板制定的具体方法。

表一为名称拆分模板字段表，是根据导航领域中名称通用的表达习惯而制定的。考虑到POI名称数据的复杂性，可能有些名称中包含多级区域、关键词、行业特点、功能特征词。

表一

序号	字段类型	字段说明	举例	权重
					1	区域1	第一个出现的表示区域的字段	北京；四川省绵阳市	0.05
2	关键词1	公司字号、设施名称等(该字段非空，当拆分此字段为空时，将区域1与行业特点1组合作为关键词；关键词1中可能包含数字、英文及中文等，英文按空格拆分，不做语义解析)		0.3
					3	行业特点1	表示所经营或所处的行业	商贸、科技	0.2
4	功能特征1	表示功能	大厦；医院；有限公司	0.05
					5	区域2	二级子设施中表述区域的字段		0.025
6	关键词2	二级子设施的关键词(该字段非空，当拆分此字段为空时，将区域2与行业特点2组合作为关键词；关键词2中可能包含数字、英文及中文等，英文按空格拆分，不做语义解析)		0.1
					7	行业特点2	二级子设施的行业特点		0.05
8	功能特征2	表述二级子设施的功能		0.025
					9	区域3	三级子设施中表述区域的字段		0.025
10	关键词3	三级子设施的关键词(该字段非空，当拆分此字段为空时，将区域3与行业特点3组合作为关键词；关键词3中可能包含数字、英文及中文等，英文按空格拆分，不做语义解析)		0.1
					11	行业特点3	三级子设施的行业特点		0.05
12	功能特征3	表述三级子设施的功能		0.025
					13	其他	无意义的字符或软件无法定位的字段	村居委会D	0

综上所述，名称拆分模板包含：“区域1关键词1行业特点1功能特征1区域2关键词2行业特点2功能特征2关键词3行业特点3功能特征3其他”，并且，模板中字段类型的顺序关系表示了短语中字段的顺序关系。类似的，可以指定语义类型为地址的拆分模板。

步骤33，拆分POI数据并将拆分后的各字段标注上模板中相应的字段类型。

依据制定的拆分模板，在保持最小语义完整的前提下，对POI数据进行结构拆分，将POI数据拆分成粒度更小的字段，拆分之后的每个字段可以表达独立的语义信息，并标注每个字段的对应的字段类型。

基于业务规则的POI数据拆分，是一种以POI数据的语义字段为粒度单元的的中文分词过程。地址数据与名称数据的处理方法相似。

具体过程为：根据通用中文分词算法对数据进行拆分。为了使得分词后的字段和拆分模板更加匹配，拆分结果更加合理，将领域词典及现有的相关资源，如行政区划词表(包含完整的省、市、区县名称)，道路名称词表等，加入分词词典，以辅助中文分词。以名称领域词典的构建为例，利用通用中文分词方法切分POI数据，统计POI数据的高频特征词，组成行业词典候选词，然后以词频为基础，结合人工经验来确定导航领域POI数据的行业特点、功能特征词，构建领域词典。

拆分模板中，字段类型包括关键词类型和指示词类型，例如，名称拆分模板中，关键词类型包括关键词1、关键词2、关键词3等，指示词类型包括指示区域类型、指示行业特点类型、指示功能特征类型等。每种类型可以有多个，可以用序号表示他们位置顺序，例如，指示区域类型1、指示区域类型2。每个指示词类型对应一个词典，拆分后的字段如果与词典匹配，则可以根据词典的类型确定该字段对应的指示词类型。

关键词类型的字段可以根据该字段的前一个字段和后一个字段的字段类型来确定，例如，如果一个字段的前一个字段的字段类型为“区域1”，后一个字段的字段类型为“行业特点1”，则可以判断出该字段的字段类型为“关键词1”。

考虑到实际POI名称数据的复杂多样性，设置了三级“区域、关键词、行业特点、功能特征词”字段(例如，分别为区域1、区域2、区域3)，而且实际POI名称数据的每一级“区域、关键词、行业特点、功能特征词”的4个字段通常有确定的相对先后顺序关系。属于同一词典的多个字段，则根据字段在短语中出现的顺序和字段类型在模板中的顺序，来确定属于那一级的字段类型。

应用通用中文分词方法拆分POI数据之后，结合拆分字段在源POI数据的位置信息，利用拆分模板优先匹配类型明确的字段，对类型标注不够明确的拆分字段借助其它已标注的字段的标注类型信息推测其字段类型，最终实现为所有字段标注类型。

为了进一步提高拆分、字段类型标注的精确度，模拟人工理解POI数据拆分、字段类型标注的思维过程，可以将通用中文分词作为一种拆分手段，利用其它语言信息来进一步提高拆分的准确率。方法一是，基于特征词的分段拆分方法。首先，在待拆分的POI数据中识别出一些带有明显特征的词，然后以这些特征词作为断点，将原字符串分为较小的串片段，再对这些较小的串片段进行分词，从而降低拆分的错误率；另一种方法是，将拆分和类型标注结合起来，拆分后的起始字段类型及相邻字段的类型间具有一定的统计规律，利用这些类型信息检验并调整拆分决策，可以有效地提高拆分精度，而反过来正确的拆分又是正确地标注类型的前提，因此，拆分和类型标注是一个相辅相成、相互促进的过程。将拆分和类型标注结合起来，将有效提高拆分及类型标注的准确率。

下面以第一名称短语“中国人民财产保险股份有限公司增城支公司朱村营销服务部”为例，说明POI数据拆分及其字段类型标注的具体过程。

首先，预先设置各种领域词典。每个字段类型对应一个字段类型词典。词典中包含该字段类型对应的词，假设功能特征词词典库中包含“股份有限公司”、“支公司”、“服务部”等词；行业特点词典中包含“保险”、“营销”等词，区域词典中包含“中国”、“增城”等词。

然后，通过中文分词工具，将名称数据分成多个字段，若拆分后各字段以空格分隔开，示例的数据拆分后的结果为：“中国人民财产保险股份有限公司增城支公司朱村营销服务部”。

然后，查询字段类型的词典，字段“股份有限公司”、“支公司”、“服务部”在功能特征词词典库中查询到，则将这些字段的字段类型标注为“功能特征词”。结合各功能特征词在POI数据的位置顺序，与名称拆分模板匹配，则“股份有限公司”对应的字段类型为“功能特征词1”、“支公司”对应的字段类型为“功能特征词2”、“服务部”对应的字段类型为“功能特征词3”。

同样，字段“保险”、“营销”在行业特点词典中匹配成功，将其字段类型标注为“行业特点”，考虑到这些字段在POI数据中的相对位置关系，短语“保险”之后是“股份有限公司”，“营销”之后是“服务部”，而“股份有限公司”对应的标注类型为“功能特征词1”，“服务部”对应的标注类型为“功能特征词3”，与名称拆分模板匹配，“保险”对应的字段类型为“行业特点1”，“营销”对应的字段类型为“行业特点3”。

类似地，短语“中国”、“增城”在区域词典中匹配成功，所以其字段类型为“区域”类型。与名称拆分模板匹配，由于短语“中国”在POI数据的开头位置，对应的字段类型为“区域1”，短语“增城”在“支公司”之前的位置，而“支公司”标注类型为“功能特征词2”，所以短语“增城”对应的字段类型为“区域2”。

短语“人民财产”介于“中国”与“保险”之间，而其前后的的字段类型分别为“区域1”，“行业特点1”，所以“人民财产”对应的的字段类型为“关键词1”；短语“朱村”的位置介于“支公司”与“营销”之间，前后分段的字段类型分别为“功能特征词2”、“行业特点3”，所以短语“朱村”的字段类型为“区域3”或“关键词3”，根据名词拆分模板的规定，关键词3字段不能为空，当此字段为空时，将“区域3”或“行业特点3”字段作为对应的“关键词3”，因此，“朱村”的标注类型为“关键词3”。

综上所述，若各拆分字段间以空格分隔开，拆分字段中“/”之前的短语为每个拆分字段，“/”之后的斜体字表示拆分字段对应的标注类型，第一名称短语拆分并标注字段类型的结果如下：“中国/区域1人民财产/关键词1保险/行业特点1股份有限公司/功能特征词1增城/区域2支公司/功能特征词2朱村/关键词3营销/行业特点3服务部/功能特征词3”。

类似的，第二名称短语“人财保险有限公司增城分公司朱村营销部”拆分并标注字段类型的结果如下“人财/关键词1保险/行业特点1有限公司/功能特征词1增城/区域2分公司/功能特征词2朱村/关键词3营销/行业特点3部/功能特征词3”。第一名称短语和第二名称短语拆分后的各字段填充到名称拆分模板中，如表二所示：

步骤34，获取拆分字段的语义字段相似度。

首先，借助领域语义词典，获取词语间的语义关联关系，如同义、近义、相关等关系，然后根据语义关联关系计算字段间相似度。

如果短语间不存在语义关系，则采用通用的相似度计算技术，例如采用计算最长公共子串技术，利用动态规划策略，计算拆分字段短语间相似度。为了便于比较不同长度短语的相似度，计算相似度时需考虑短语长度信息，降低长度差异对相似度计算的影响。

以下描述语义词典的构建。构建各个类型字段的领域语义词典(也就是上文所述的语义关系数据库)，具体为：根据领域知识，通过领域分析和概念相似度分析，针对各拆分字段构建语义词典，如行业特点词典，功能特征词词典等，语义词典记录词语间的语义相同、相似或相关等语义关系，即同义、近义、相关关系等。领域语义词典，从语义层面计算各字段的相似度，将两个词语间的相似度计算，转化为与词相关联的概念之间的相似度计算，从而使表层字面不同，深层语义相同的词被考虑进来。领域语义词典库可以方便进行数据的插入、删除、更改操作，可以不断补充和丰富，与POI数据拆分准确度相互促进。领域语义词典一方面作为语料辅助计算机拆分数据，有效提高拆分精确度；另一方面，可以将拆分字段中提取出的各字段的关键字，填充到语义词典中，丰富语义词典。以拆分后的字段作为相似度计算的对象，从而将领域特点、行业特征统计信息引入到相似度计算技术中。

拆分POI数据后，部分拆分字段可能出现空缺。计算拆分后字段间相似度时，对应的拆分后字段空缺现象，有以下三种情形：

(1)对应的拆分后字段均非空缺；空缺是指没有出现拆分模板的其中一个字段类型对应的字段；例如，表二中，关键词1的字段均非空缺。

(2)对应的拆分后字段均空缺；例如，表二中，关键词2的字段均空缺。

(3)对应的拆分字段一个非空缺，另一个空缺。例如，表二中区域1的字段，第一个短语在该字段非空缺，第二个短语在该字段空缺。

情形(2)、(3)计算相似度时，需综合考虑拆分字段区分整条POI相似性的能力，预先设置适当的相似度值。不同字段类型空缺时，相似度值可以设置为不同。

基于拆分字段为粒度单元的语义相似度计算，不仅考虑了短语的词形、词序等表层信息，而且，借助领域语义词典，考虑了短语自身的语义信息，从语义层次上理解短语，增加了相似度比较的区分能力。

例如，预先设置同义词相似度设置为1，近义词相似度设置为0.95，相关词相似度设置为0.8。领域语义词典中保存有：“增城”和“增城市”对应的语义关系为“省略语关系”，“支公司”“分公司”对应的语义关系为“近义词”，“乌市”、“乌鲁木齐”及“乌鲁木齐市”对应的语义关系是同义词，“酒店”和“宾馆”对应的语义关系是近义词，“度假村”和“酒店”对应的语义关系是相关词。那么，从领域语义词典中查询得出，关键词1字段“人民财产”与“人财”是同义词，则可以确定“人民财产”与“人财”的字段间相似度为1。区域2的“增城”与“增城市”是同义词，则可以确定“增城”与“增城市”的字段间相似度为1。功能特征词1的字段“股份有限公司”与“有限公司”是相关词，则可以确定“股份有限公司”与“有限公司”的字段间相似度为0.8；功能特征词2的字段“支公司”与“分公司”是近义词，则可以确定“支公司”与“分公司”的字段间相似度为0.95。该应用场景中，当相互比较的拆分字段其中一个为空时，区域1、关键词1，行业特点1以及功能特征词1的字段，默认相似度分别设置为0.6，0.05，0.05，0.8；当相互比较的两个字段均为空时，默认相似度均设置为1。例如，表二中区域1的字段，第一个短语在该字段非空缺，第二个短语在该字段空缺，则第一个短语和第二个短语在该区域1字段的字段间相似度为0.6。表二中，关键词2的字段均空缺，则第一个短语和第二个短语在该关键词2字段的字段间相似度为1。

第一字段的“保险”和第二短语的“保险”通过比较，完全相同，则相似度为1。第一字段的“服务部”和第二短语的“部”在语义词典中没有查询到他们对应的语义关系，则根据通用的相似度算法计算他们之间的字段间相似度。例如表二中示出了获取的各字段间的相似度。

步骤35，训练各字段类型对应的权重。

根据各字段类型的语义表达功能、相似度区分能力赋予各字段类型适当权重，即根据拆分后的各语义字段对区分整个POI的相似性贡献大小，赋予不同权重，权重可以是预先设定，然后，对照相似度结果对权值进行适当调整，使权重能够更真实地反映实际情况。训练各字段权重和现有技术中的处理过程类似，此处不赘述。

步骤36，获取各字段类型对应的权重。本实施例中，获取表一中示出的各字段类型的权重。

步骤37，POI语义相似度计算。对各字段类型的权重及各拆分后字段间的语义相似度值加权求和，作为整条POI数据的语义相似度。

该应用场景中，假设区域1、关键词1、行业特点1...等13个拆分字段分别赋予权重W＝(0.05，0.3，0.2，0.05，0.025，0.1，0.05，0.025，0.025，0.1，0.05，0.025，0)，结合字段间相似度，计算得出第一名称短语和第二名称短语之间的语义相似度为0.985。

步骤38，根据所述语义相似度，对所述第一短语和所述第二短语进行处理。

如图4所示，为本发明所述的处理短语数据的装置，包括：

短语获取单元41，用于获取属于同一语义类型的第一短语和第二短语，以及所述第一短语和所述第二短语的语义类型；

查找单元42，用于根据所述语义类型，查找所述语义类型对应的拆分模板，所述拆分模板包含：至少两个字段类型以及所述字段类型的顺序关系；

拆分单元43，用于根据所述拆分模板，分别将所述第一短语和第二短语拆分成字段，并根据所述顺序关系，标识拆分后的所述字段对应的字段类型；

字段相似度获取单元44，用于分别获取字段类型相同的第一短语的字段与第二短语的字段之间的字段间相似度；

计算单元45，用于根据所述字段间相似度，计算所述第一短语和所述第二短语之间的语义相似度；

处理单元48，根据所述语义相似度，对所述第一短语和所述第二短语进行处理。

所述的处理短语数据的装置，还包括：

权重获取单元46，用于分别获取所述字段类型的权重；

所述计算单元45具体为：根据所述字段间相似度以及所述字段类型的权重，计算所述第一短语和所述第二短语之间的语义相似度。具体为：

其中，Sim(S₁，S₂)为所述第一短语和所述第二短语之间的语义相似度，W_i是第i个字段类型的权重，Sim(S_1i，S_2i)是所述第一短语的第i个字段与第二短语的第i个字段之间的字段间相似度，m为所述拆分模板的字段类型的数量，1≤i≤m。

所述的处理短语数据的装置，还包括：

权重生成单元47，用于通过训练算法，生成所述字段类型的权重。

所述字段间相似度获取单元44包括：

判断子单元441，用于判断预先设置的语义关系数据库中，是否保存有字段类型相同的第一短语的字段与第二短语的字段对应的语义关系，生成判断结果；

语义关系获取子单元442，用于当所述判断结果为有时，获取所述语义关系；

字段间相似度获取子单元443，用于根据所述语义关系获取第一短语的字段与第二短语的字段之间的字段间相似度。具体为：当所述第一短语的字段与所述第二短语的字段对应的语义关系为省略语关系时，字段间相似度为1；当所述第一短语的字段与所述第二短语的字段对应的语义关系为同义词时，字段间相似度为1；当所述第一短语的字段与所述第二短语的字段对应的语义关系为近义词时，字段间相似度为0.8-0.95之间的值；当所述第一短语的字段与所述第二短语的字段对应的语义关系为相关词时，字段间相似度为0.8-07之间的值。

计算子单元444，用于当所述判断结果为否时，计算字段类型相同的第一短语的字段和第二短语的字段之间的字段间相似度。

本发明以领域特点、行业业务规则为基础，挖掘短语的内部结构特征，在保证最小语义完整的前提下，制定拆分模板，并对拆分的各语义字段赋予适当权重。基于业务规则拆分的短语语义相似度计算反应了以下几个重要特征：词的表层字面信息特征、各字段的语义关系、基于业务规则的短语数据内部结构特征及句法结构特征，这样更加全面、准确地反应短语数据之间的相似性，相似度计算结果区分度更高，效果更好。

本发明所述的处理短语数据的方法，考虑了语义信息，这种语义相似度计算方法不仅考虑了位置信息、词语间的语义关系，如同义词、近义词、相关词等关系，还考虑了短语数据内部结构中的更小粒度字段所占权重。与现有技术中把POI视为一个整体，内部各部分特征视为无差异的处理方式有所不同，本发明区别看待POI内部各语义字段的信息表达能力，依据各拆分字段区分短语相似性的贡献大小赋予不同的权重。因此，对短语的特征理解更精细、更简洁明了，不同权重加权计算得到的语义相似度结果更符合实际情况，更符合人们的日常体验。

本发明所述的处理短语数据的方法，由于特定短语(以POI为例)具有文本简短、结构特征明显及表达信息丰富的特点，将POI数据作为一个整体进行相似度计算不足以体现其内部结构特征及语义信息，因此，从处理对象的粒度角度考虑，以语义理解为基础，对POI数据进行结构拆分，把POI数据拆分成多个语义字段，将拆分后的字段作为最小粒度进行相似度计算，本发明的相似度计算方法以处理对象的粒度角度为切入点，对于短语之间细微的区别敏感，将整条POI数据的相似度计算转化为粒度更小的各切分字段的语义相似度计算，不仅考虑了POI的内部结构，词语的词义、权重，还考虑了词语之间的语义关系，如同义词，近义词、相关词等。较大粒度对象即整条POI数据相似度计算建立在拆分后较小粒度相似度计算基础上进行。

相对将POI视为一个整体进行相似度计算的方法而言，本发明对短语(以POI为例)数据拆分的过程，是结构分析、语义理解的过程，通过将POI拆分成粒度更小的语义单元，从而把POI的句法结构特征考虑进来。本发明借助数据拆分对POI数据进行了更深入、细致的分析，结合领域特点考虑了POI数据的内部结构信息、字面表层特征，构建了概念语义词典，从语义层面分析短语间的关系，根据各拆分单元对相似度贡献的大小赋予不同的权重，增强了对POI内部细微变化的敏感性及精确度。因此，相对现有技术而言，基于业务规则拆分的语义相似度计算由于对POI数据理解更细致、更充分，从而得到的相似度精确度更高，而且相似的POI集、不相似的POI集的相似度结果区分度更高，表达效果更好。

本发明所述的处理短语数据的方法，不仅考虑字符串的表面特征，而且考虑到POI数据的领域特点、结构信息、位置信息及语义信息，更准确地反映了实际情况，符合自然语言理解的思维习惯。

本发明实施例以导航领域为例，短语可以为名称数据、地址数据。也可以应用于其他领域。

所述方法实施例是与所述装置实施例相对应的，在方法实施例中未详细描述的部分参照装置实施例中相关部分的描述即可，在装置实施例中未详细描述的部分参照方法实施例中相关部分的描述即可。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括如上述方法实施例的步骤，所述的存储介质，如：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

在本发明各方法实施例中，所述各步骤的序号并不能用于限定各步骤的先后顺序，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，对各步骤的先后变化也在本发明的保护范围之内。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种处理短语数据的方法，其特征在于，包括：

2.根据权利要求1所述的处理短语数据的方法，其特征在于，所述步骤5之前，还包括：分别获取所述字段类型的权重；

3.根据权利要求2所述的处理短语数据的方法，其特征在于，所述根据所述字段间相似度以及所述字段类型的权重，计算所述第一短语和所述第二短语之间的语义相似度的步骤具体为：

4.根据权利要求2所述的处理短语数据的方法，其特征在于，所述分别获取所述字段类型的权重的步骤之前，还包括：

通过训练算法，生成所述字段类型的权重。

5.根据权利要求1所述的处理短语数据的方法，其特征在于，所述步骤4具体为：

6.根据权利要求5所述的处理短语数据的方法，其特征在于，所述根据所述语义关系获取第一短语的字段与第二短语的字段之间的字段间相似度的步骤具体为：

7.一种处理短语数据的装置，其特征在于，包括：

8.根据权利要求7所述的处理短语数据的装置，其特征在于，还包括：

权重获取单元，用于分别获取所述字段类型的权重；

9.根据权利要求7所述的处理短语数据的装置，其特征在于，还包括：

10.根据权利要求7所述的处理短语数据的装置，其特征在于，所述字段间相似度获取单元包括：