CN110222139A

CN110222139A - 道路实体数据去重方法、装置、计算设备和介质

Info

Publication number: CN110222139A
Application number: CN201910517165.9A
Authority: CN
Inventors: 马赛; 李江龙; 李烜赫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-09-10
Anticipated expiration: 2039-06-14
Also published as: CN110222139B

Abstract

本发明实施例公开了一种道路实体数据去重方法、装置、计算设备和介质，其中，该方法包括：获取道路源数据，并按照道路实体事件类型将道路源数据分类为至少一个数据子集，其中，一个数据子集对应一种道路实体事件类型，道路源数据用于描述道路实体事件；确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称；根据每条道路源数据对应的文本内容中的道路名称和地理区域名称，在与对应数据子集属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定每个数据子集中的重复文本。本发明实施例可以提高互联网数据中关于道路实体数据的去重有效性，进而提高海量道路实体数据的处理效率。

Description

道路实体数据去重方法、装置、计算设备和介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种道路实体数据去重方法、装置、计算设备和介质。

背景技术

对于地图产品，及时有效地获取真实世界中道路变化信息，对地图进行更新，提高地图时效性，是保证地图数据准确性与用户满意度的重要因素。互联网上有海量的关于道路更新的信息，因此，对互联网上道路信息的抓取、挖掘与作业生效，是保证地图道路数据质量的重要环节。面对海量的互联网道路情报(例如，网页新闻、微博官文和公众号文章等)，重复情报存在的概率非常大，对互联网道路情报进行去重处理，对于减少人力成本，提高作业工效非常必要。

目前，互联网道路情报去重方案中，通常采用网页链接去重和文本相似度去重的方式，其中，网页链接去重是针对每条抓取到的情报，如果该情报的URL(统一资源定位符)已经存在数据库中，则该情报不进行入库下发；文本相似度去重是针对每条抓取到的情报，和预设抓取周期(例如3天)内抓取的情报内容，各提取预设字数的文本(例如前200字的文本)，进行文本相似度计算，如果文本相似度高于设定阈值(例如90％)，则认为当前抓取的情报属于重复情报，不进行入库下发。

然而，由于情报发布的表述差异性，即使是同一个道路变化事件，不同的媒体发布的情报内容也不尽相同，导致直接使用网页链接去重和文本相似度去重，均无法有效进行重复情报的判定。

发明内容

本发明实施例提供一种道路实体数据去重方法、装置、计算设备和介质，以提高互联网数据中关于道路实体数据的去重有效性，进而提高海量道路实体数据的处理效率。

第一方面，本发明实施例提供了一种道路实体数据去重方法，该方法包括：

获取至少一条道路源数据，并按照道路实体事件类型将所述至少一条道路源数据分类为至少一个数据子集，其中，一个数据子集对应一种道路实体事件类型，所述道路源数据用于描述道路实体事件；

确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称；

根据所述每条道路源数据对应的文本内容中的道路名称和地理区域名称，在与对应数据子集属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定所述每个数据子集中的重复文本。

第二方面，本发明实施例还提供了一种道路实体数据去重装置，该装置包括：

道路源数据获取模块，用于获取至少一条道路源数据，并按照道路实体事件类型将所述至少一条道路源数据分类为至少一个数据子集，其中，一个数据子集对应一种道路实体事件类型，所述道路源数据用于描述道路实体事件；

道路和地理区域名称确定模块，用于确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称；

去重模块，用于根据所述每条道路源数据对应的文本内容中的道路名称和地理区域名称，在与对应数据子集属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定所述每个数据子集中的重复文本。

第三方面，本发明实施例还提供了一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的道路实体数据去重方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的道路实体数据去重方法。

本发明实施例通过按照道路实体事件类型将获取的道路源数据进行分类，使得分类得到的每个数据子集各自对应一种道路实体事件类型，然后在每个数据子集中，按照道路源数据对应的文本内容中的道路名称和地理区域名称，在属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定每个数据子集中的重复文本，从而实现对道路实体数据的去重，解决了现有的道路实体数据去重方案有效性较低的问题，提高了互联网数据中关于道路实体数据的去重有效性，进而提高了海量道路实体数据的处理效率。

附图说明

图1是本发明实施例一提供的道路实体数据去重方法的流程图；

图2是本发明实施例二提供的道路实体数据去重方法的流程图；

图3是本发明实施例三提供的道路实体数据去重方法的流程图；

图4是本发明实施例四提供的道路实体数据去重方法的流程图；

图5是本发明实施例五提供的道路实体数据去重方法的流程图；

图6是本发明实施例五提供的另一道路实体数据去重方法的流程图；

图7是本发明实施例六提供的道路实体数据去重装置的结构示意图；

图8是本发明实施例七提供的一种计算设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的道路实体数据去重方法的流程图，本实施例可适用于针对从互联网中获取的道路源数据，例如与道路相关的各种网络媒体数据，对关于同一道路实体的重复数据进行去除的情况，尤其是针对需要进行全文分析才能确定道路源数据是否为描述重复道路实体事件的数据的情况，道路实体数据可以理解为道路源数据中存在处理价值的有效数据，该方法可以由道路实体数据去重装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在任意的计算设备中，包括但不限于服务器等。

如图1所示，本实施例提供的道路实体数据去重方法可以包括：

S110、获取至少一条道路源数据，并按照道路实体事件类型将至少一条道路源数据分类为至少一个数据子集，其中，一个数据子集对应一种道路实体事件类型，道路源数据用于描述道路实体事件。

道路源数据是指互联网中传播的与道路相关的任意媒体数据，例如基于网站、微博和公众号等平台发布的用于描述道路实体事件的公告或新闻等。道路实体是统指与道路相关的实际环境中的各种实物要素，例如交通标志、特定路段、高速服务站和电子眼等。本实施例中不同类型的道路实体事件用于描述不同道路实体的状态变更情况，一种道路实体事件类型可以用于描述一种道路实体的特定状态变更情况，例如红路灯故障、电子眼的安装、特定路段的维修和高速服务站的关闭等，分别属于不同类型的道路实体事件。

计算设备可以通过开放平台的API(应用编程接口)或者网络爬虫工具等周期性地获取道路源数据，例如，通过网络爬虫抓取最新的新闻报道网页，作为道路源数据，一个新闻报道网页对应一条道路源数据，然后利用Xpath(即XML路径语言)对新闻网页进行解析，确定新闻网页中包含的关于道路实体事件的文本。在每一个数据处理周期内，按照预先设置的道路实体事件类型，将当前数据获取周期内获取的道路源数据进行分类，并存储。

可选的，按照道路实体事件类型将至少一条道路源数据分类为至少一个数据子集，包括：对至少一条道路源数据对应的文本进行内容解析，其中，道路源数据对应的文本指道路实体事件的描述文本，内容解析的目的即在于确定道路源数据描述的具体道路实体事件；根据文本内容解析结果与道路实体事件类型，将至少一条道路源数据分类为至少一个数据子集，每个数据子集中包括预设数量的道路源数据。当获取的道路源数据属于非文本形式的数据时，例如道路源数据是图像数据或者语音数据等，可以通过图像识别、文字提取或者语音识别等确定道路源数据对应的文本，然后再进行文本内容解析，确定每条道路源数据描述的道路实体事件，结合预先设置的道路实体事件类型，实现对大量道路源数据的分类。其中，关于文本内容解析与分类，可以利用经典的文本分类模型实现，包括但不限于朴素贝叶斯模型、支持向量机模型(SVM)、三层贝叶斯概率模型(LDA)和Word2vec模型等，本实施例不作具体限定。

如果一条道路源数据对应多种道路实体事件类型，可以将该条道路源数据分类至多个相应的数据子集中，避免该道路源数据中道路实体数据的遗漏。

S120、确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称。

在每条道路源数据对应的文本内容解析过程中，已经对文本内容进行分词，因此，在确定道路名称和地理区域名称的过程中对分词结果直接使用即可。通过对每个词语进行分析，并去除停用词等无效的噪声词语，确定文本内容中出现的道路名称和地理区域名称。其中，地理区域名称可以包括省级、市级和县级的行政区域名称，具体的，与预设的地理区域划分规则有关。道路名称和地理区域名称可以用于对道路实体事件的发生位置进行精准定位。

本实施例中可用的分词方式包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。具体的，基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最小切分法和双向最大匹配法等；基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果，其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象；基于统计的分词方法是在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律，从而实现对未知文本的切分，可用的模型包括N元文法模型、隐马尔可夫模型、最大熵模型和条件随机场模型等。

S130、根据每条道路源数据对应的文本内容中的道路名称和地理区域名称，在与对应数据子集属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定每个数据子集中的重复文本。

历史道路源数据是指在历史数据处理周期内，已经存储的道路源数据，例如当前数据处理周期的上一个数据处理周期内存储的道路源数据。数据处理是一个重复进行的过程，历史道路源数据和当前获取的道路源数据的处理流程相同。相同道路实体事件类型下的道路源数据中涉及的道路实体相同，描述的道路实体状态变更情况相同，因此，根据每条道路源数据涉及的道路名称和地理区域名称，便可实现区分不同的道路源数据对应的文本。在当前数据处理周期内，依据每个数据子集中每条道路源数据对应的文本内容中的道路名称与行政区域名称，将当前道路源数据对应的文本与相同道路实体事件类型下历史道路源数据对应文本进行匹配，如果匹配成功，则确定当前道路源数据对应的文本属于重复文本，该重复文本即可看作重复的道路实体数据，即当前道路源数据用于描述重复的道路实体事件。通过道路实体数据去重，可以减少道路实体数据的处理量，进而提高海量道路实体数据的处理效率。道路实体数据的处理效率得以提升，可以将有效的道路实体数据及时应用于相关的后续业务中，确保该后续业务的数据时效性，例如，将道路实体数据及时用于生成或者更新地图数据，可以提高地图的数据质量，保证地图的时效性与准确性，并且，道路名称和地理区域名称的确定，可以实现道路实体的快速定位，提高地图生成效率。

本实施例的技术方案通过按照道路实体事件类型将获取的道路源数据进行分类，使得分类得到的每个数据子集各自对应一种道路实体事件类型，然后在每个数据子集中，按照道路源数据对应的文本内容中的道路名称和地理区域名称，在属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定每个数据子集中的重复文本，从而实现对道路实体数据的去重，解决了现有的道路实体数据去重方案有效性较低的问题，提高了互联网数据中关于道路实体数据的去重有效性，进而提高了海量道路实体数据的处理效率，还可以保证需要利用道路实体数据的相关下游业务的数据质量。

实施例二

图2是本发明实施例二提供的道路实体数据去重方法的流程图，本实施例是在上述实施例的基础上进一步进行优化与扩展。如图2所示，该方法可以包括：

S210、获取至少一条道路源数据，并按照道路实体事件类型将至少一条道路源数据分类为至少一个数据子集，其中，一个数据子集对应一种道路实体事件类型，道路源数据用于描述道路实体事件。

S220、将对每个数据子集中每条道路源数据对应的文本内容进行分词得到的第一词语，作为道路候选词。

本实施例中的第一词语是指一定数量的具有描述道路名称特点的词语。示例性的，可以在对每条道路源数据对应的文本内容进行解析的过程中，利用正向最大匹配算法，进行文本分词，得到第一词语，第一词语可以具有如下词语后缀：“路”、“道”或者“街”等。

S230、将道路候选词在地图数据中进行匹配，将匹配成功的道路候选词确定为第一道路名称。

地图数据中存储有全国已经存在的各个地区的道路名称，如果道路候选词在地图数据中匹配成功，则说明当前道路源数据中涉及的道路是已经存在的道路。可选的，将道路候选词在地图数据中进行匹配，将匹配成功的道路候选词确定为第一道路名称，包括：将地图数据中的道路名称数据加载为字典数据；将道路候选词与字典数据进行匹配，将匹配成功的道路候选词确定为第一道路名称。字典数据采用键值对(key-value)的形式存储，可以提高道路名称匹配的效率。

S240、利用预设道路名称发现算法，确定每个数据子集中每条道路源数据对应的文本内容中的第二道路名称。

其中，第二道路名称是指还未收录在地图数据中的新建道路的名称，因此，不能通过与地图数据进行匹配的方式确定。预设道路名称发现算法是指可以用于提取文本中属于新建道路名称的任意算法，例如基于CRF(条件随机场)序列标注技术和特征凝固度计算的算法，其中，凝固度用于表示一个字组合片段里面字与字之间的紧密程度。通过CRF序列标注和特征凝固度计算的结合利用，可以准确提取出文本中的新建道路名称，避免道路名称的遗漏。

S250、将第一道路名称和第二道路名称进行融合，将融合结果作为每个数据子集中每条道路源数据对应的文本内容中的道路名称。

融合处理的目的即基于第一道路名称和第二道路名称保证最终确定的道路名称的合理性与准确性。示例性的，可以将得到的第一道路名称和第二道路名称的并集，作为道路名称融合结果，例如，得到的第一道路名称包括X1道、X2道和X3道，得到的第二道路名称包括Y1道，则将X1道、X2道、X3道和Y1道均作为道路源数据对应的文本内容中的道路名称，即道路源数据中同时涉及已存在道路名称和新建道路名称。此外，如果第一道路名称和第二道路名称之间存在重叠词语或者包含关系，则将存在重叠词语或者包含关系的至少两个道路名称中字符数量较多的道路名称确定为最终的道路名称，例如，第一道路名称是A-B路，第二道路名称是B路(此处的字符A和B分别代表不同的文字含义)，从名称上而言，词语B属于词语A-B的一部分，则将A-B路作为最终的道路名称。

S260、将对每个数据子集中每条道路源数据对应的文本内容进行分词得到的第二词语，作为地理区域候选词。

其中，第二词语是指一定数量的具有描述区域名称特点的词语。示例性的，可以在对每条道路源数据对应的文本内容进行解析的过程中，利用正向最大匹配算法，进行文本分词，得到第二词语，第二词语可以具有如下词语后缀：“省”、“市”、“县”或者“区”等。

S270、将地理区域候选词在地图数据中进行匹配，将匹配成功的地理区域候选词作为每个数据子集中每条道路源数据对应的文本内容中的地理区域名称。

示例性的，将地图数据中的地理区域名称数据加载为字典数据；将地理区域候选词与字典数据进行匹配，将匹配成功的地理区域候选词确定为每条道路源数据对应的文本内容中的地理区域名称。字典数据采用键值对(key-value)的形式存储，可以提高地理区域名称匹配的效率。

需要说明的是，上述操作S220-S250与操作S260-S270之间并无严格的执行顺序限定，可以同时执行，也可以不同时执行。

S280、根据每条道路源数据对应的文本内容中的道路名称和地理区域名称，在与对应数据子集属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定每个数据子集中的重复文本。

本实施例的技术方案通过按照道路实体事件类型将获取的道路源数据进行分类，在分类得到每个数据子集中，将依据每条道路源数据对应的文本内容确定的地图数据中已经存储的道路名称和新建道路名称之间的融合结果，作为每条道路源数据涉及的道路名称，保证了确定道路实体事件所在的道路信息的准确性，结合确定的地理区域名称，可以对每条道路源数据描述的道路实体事件进行精准定位；同时，将每条道路源数据涉及的道路名称和地理区域名称作为与历史道路源数据的区分依据，实现对道路实体数据的有效去重，解决了现有的道路实体数据去重方案有效性较低的问题，提高了互联网数据中关于道路实体数据的去重有效性，进而提高了海量道路实体数据的处理效率，还可以保证需要利用道路实体数据的相关下游业务的数据质量。

实施例三

图3是本发明实施例三提供的道路实体数据去重方法的流程图，本实施例是在上述实施例的基础上进一步进行优化与扩展。如图3所示，该方法可以包括：

S310、获取至少一条道路源数据，并按照道路实体事件类型将至少一条道路源数据分类为至少一个数据子集，其中，一个数据子集对应一种道路实体事件类型，道路源数据用于描述道路实体事件。

S320、确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称。

S330、针对从每个数据子集中每条道路源数据对应的文本内容中确定的至少一个道路名称和至少两个地理区域名称，根据道路和地理区域之间的隶属关系，对确定的至少两个地理区域名称进行加权计算。

S340、根据加权计算结果确定每个数据子集中每条道路源数据对应的文本内容中的目标地理区域名称。

通常，道路名称和地理区域名称除了词语后缀不同外，会出现词语重复的现象，例如，一个省会名称也可以作为道路名称使用，因此，本实施例中通过对每条道路源数据涉及的至少两个地理区域名称进行加权计算，可以实现对确定的地理区域名称的复查验证，保证地理区域名称的准确性。

道路和地理区域之间的隶属关系是指从行政区域管辖的角度而言，特定道路位于特定的地理区域内。示例性的，词语B既可以用于省市名称，又可以用于道路名称，道路源数据描述的道路实体事件为“A市的B道路和C道路上增设了电子眼设备”，然而，通过文本分词以及与地图数据的匹配，确定该道路源数据涉及的道理名称包括道路B和C，省市名称包括市A和B，可以看出省市名称中不应该出现市B，即当前地理区域名称确定存在错误。根据道路B和C分别与市A和B的隶属关系，确定市A和市B的权重值，然后根据确定的各个地理区域名称的权重值与权重阈值的关系，确定最终的目标地理区域名称。示例性的，关于权重计算的过程，可以采用如下方式：

首先根据作为市名的词语A和B在文本中的后缀，为市A和B分配初始权重值，例如，词语A在文本中的后缀是表征地理区域的词语后缀“市”，为市A分配初始权重值x1，词语B在文本中的后缀是表征道路的词语后缀“道”，为市B分配初始权重值y1，x1大于y1；然后，按照文本中词语的排版顺序，确定第一个出现的道路B分别与市A和B的隶属关系，例如，如果确定道路B与市A和B均存在隶属关系，则继续为市A和B分配相同的权重值，如果确定道路B只与市A存在隶属关系，则为市A分配权重值x2，为市B分配权重值y2，x2大于y2；如果根据各个市名的当前权重累计结果已经可以对市A和B进行区分，则直接将权重值较大的词语确定为目标地理区域名称，如果根据当前的权重累计结果仍无法对市A和B进行区分，则继续验证后续出现的道路与市A和B的隶属关系，为市A和B分配不同的权重，直至可以将两个市名进行区分。

S350、根据每个数据子集中不同道路源数据对应的文本内容中道路名称之间的包含关系以及地理区域名称之间的相似度，将道路名称具有包含关系且地理区域名称相同的对应文本内容进行合并，以基于文本内容合并后的每个数据子集进行重复文本的确定。

本实施例中不同文本内容中道路名称之间的包含关系，是指不同的道路源数据描述的道路实体事件所在的道路存在重合，如果道路实体事件所在的地理区域名称相同(可以认为是地理区域名称相似度满足设定要求)，则可以将该不同的道路源数据对应的文本内容进行合并，相当于将不同的道路源数据进行打包合并处理。例如，在一个数据子集中，其中的一条道路源数据描述的道路实体事件是“A市的B道路和C道路的交汇处增设了电子眼设备”，另一条道路源数据描述的道路实体事件是“A市的B道路m路段上增设了电子眼设备”，这两条道路源数据中道路实体事件所在的地理区域均是A市，且道路实体事件所在的道路存在重合，均发生在B道路，则将这两条道路源数据对应的文本内容进行合并，从而减少道路实体数据去重过程中的数据处理量，加快去重处理效率。

需要说明的是，在上述方案中，操作S330-S340中对地理区域名称的复查验证，与操作S350中对不同道路源数据对应的文本内容的合并，并无严格的执行顺序限定，作为一种优选方案，可以在完成对地理区域名称的复查验证后，再执行不同道路源数据对应的文本内容的合并。

S360、根据每条道路源数据对应的文本内容中的道路名称和目标地理区域名称，在与对应数据子集属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定每个数据子集中的重复文本。

本实施例的技术方案通过按照道路实体事件类型将获取的道路源数据进行分类，在分类得到每个数据子集中，对于已经确定的每条道路源数据涉及的道路名称与地理区域名称，根据道路和地理区域之间的隶属关系，对地理区域名称进行复查验证，保证了地理区域名称确定的精准性，为道路实体数据去重的有效性和精准性奠定基础；同时，根据不同道路源数据对应的文本内容中道路名称之间的包含关系和地理区域名称之间的相似性，将道路名称具有包含关系且地理区域名称相同的对应文本内容进行合并，减少了道路实体数据去重处理过程中的数据处理量，有助于提高去重效率。

实施例四

图4是本发明实施例四提供的道路实体数据去重方法的流程图，本实施例是在上述实施例的基础上进一步进行优化与扩展。如图4所示，该方法可以包括：

S410、获取至少一条道路源数据，并按照道路实体事件类型将至少一条道路源数据分类为至少一个数据子集，其中，一个数据子集对应一种道路实体事件类型，道路源数据用于描述道路实体事件。

S420、按照每个数据子集中每条道路源数据对应的文本内容的段落数量，对每条道路源数据对应的文本进行内容拆分，使得拆分得到每个候选子文本各自对应一个地理位置的道路实体事件。

本实施例是针对一条道路源数据中可能描述了关于至少两个地理位置的道路实体事件的情况，地理位置可以具体到不同的道路级别，例如同一网页中同时发布了某市关于X1道路、X2道路和X3道路增设电子眼的事件。通过道路源数据的拆分，可以增加道路实体数据去重处理的条理性。具体的，本实施例中按照道路源数据对应的文本内容的段落进行拆分。按照文本段落进行拆分，符合大多数情况下关于不同地理位置的道路实体事件的发布规律。

S430、获取每个候选子文本与道路实体事件发生的地理位置之间一一对应关系的审核结果。

S440、根据审核结果，确定每条道路源数据对应的文本内容经内容拆分得到的目标子文本，以基于每条道路源数据对应的目标子文本确定道路名称和地理区域名称。

其中，审核结果是指人工校验的审核结果，即人工确定按照文本段落拆分得到的各个候选子文本是否真正地各自对应一个地理位置的道路实体事件。如果人工审核结果为通过，则可以将当前候选子文本确定为一个目标子文本；如果人工审核结果为不通过，则需确认当前候选子文本是否需要进一步进行内容拆分，使得候选子文本经再次拆分后得到的子文本各自对应一个地理位置的道路实体事件，并将再次拆分后得到的子文本确定为目标子文本。此外，如果人工审核结果为通过，并且确定至少两个候选子文本同时对应一个地理位置的道路实体事件，则可以将该至少两个候选子文本再次进行合并，将合并文本作为一个目标子文本。

S450、确定每个数据子集中每条道路源数据对应的目标子文本内容中的道路名称和地理区域名称。

S460、根据每条道路源数据对应的目标子文本内容中的道路名称和地理区域名称，在与对应数据子集属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定每个数据子集中的重复文本。

本实施例技术方案通过按照道路实体事件类型将获取的道路源数据进行分类，在分类得到的每个数据子集中，按照每条道路源数据对应的文本内容段落，对每条道路源数据对应的文本进行拆分，使得拆分得到的每个候选子文本各自对应一个地理位置的道路实体事件，然后通过人工审核对基于文本内容段落的拆分结果进行确认，从道路实体事件发生的地理位置的角度，增加了道路实体数据去重处理的条理性；然后在每个数据子集中，基于每条道路源数据对应的经拆分得到的多个目标子文本，确定相应的道路名称和地理区域名称，进而通过在历史道路源数据中进行文本匹配，实现道路实体数据去重，解决了现有的道路实体数据去重方案有效性较低的问题，提高了互联网数据中关于道路实体数据的去重有效性。

实施例五

图5是本发明实施例五提供的道路实体数据去重方法的流程图，本实施例是在上述实施例的基础上进一步进行优化与扩展。如图5所示，该方法可以包括：

S510、获取至少一条道路源数据，并按照道路实体事件类型将至少一条道路源数据分类为至少一个数据子集，其中，一个数据子集对应一种道路实体事件类型，道路源数据用于描述道路实体事件。

S520、针对每个数据子集中，将每个数据子集中的每条道路源数据对应的文本与属于相同道路实体事件类型的历史道路源数据对应的文本进行内容相似度计算。

本实施例中，内容相似度计算算法可以采用现有技术中任意可用的算法实现，例如基于欧几里得距离的相似度计算、基于皮尔逊相关系数的相似度计算以及余弦相似度计算等。

S530、根据计算得到的内容相似度与预设阈值的关系，确定每个数据子集中的目标道路源数据，以对目标道路源数据对应的文本内容进行道路名称和地理区域名称的确定。

其中，预设阈值可以根据道路实体数据的初始去重需求进行适应性设置，本实施例不作具体限定，例如，可以将预设阈值设置为90％，将每个数据子集中内容相似度阈值超过90％时对应的道路源数据确定为目标道路源数据。

S540、确定每个数据子集中每条目标道路源数据对应的文本内容中的道路名称和地理区域名称。

S550、根据每条目标道路源数据对应的文本内容中的道路名称和地理区域名称，在与对应数据子集属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定每个数据子集中的重复文本。

图6作为示例，示出了本实施例提供的另一道路实体数据去重方法的流程图。如图6所示，道路源数据(或称为情报)具体为互联网道路网页数据，通过网页内容提取，确定道路源数据对应的文本，对文本内容进行分词处理，实现文本内容解析，并按照道路实体事件类型对获取的大量道路源数据进行分类，得到多个数据子集；在每个数据子集中，将各条道路源数据对应的文本与相同道路实体事件类型下的历史道路源数据对应的文本进行内容相似度计算，如果得到的内容相似度大于预设阈值，则将相应的道路源数据作为重复的道路实体数据，不进行下发处理(下发处理指将道路源数据或道路实体数据用于后续的下游业务)；如果得到的内容相似度值小于预设阈值，则在每个数据子集中，进行相应道路源数据对应的文本内容拆分(即情报拆分)，基于拆分后的每条道路源数据，通过最大正则匹配算法提取已存储在地图数据中的行政区域名称和道路名称，同时通过CRF序列标注技术和特征凝固度计算，提取新建道路名称，将已存在道路名称和新建道路名称进行融合处理，确定最终的道路名称；针对每个数据子集中每条道路源数据，根据最终确定的道路名称和行政区域名称，在与每个数据子集属于相同道路实体类型下的历史道路源数据对应的文本中进行匹配，如果匹配成功，则将相应的道路源数据作为重复的道路实体数据，不进行下发处理；如果匹配不成功，则将相应的道路源数据作为非重复的道路实体数据，进行下发处理。

本实施例的技术方案通过按照道路实体事件类型将获取的道路源数据进行分类，在分类得到的每个数据子集中，首先进行每条道路源数据与相同道路实体事件类型下的历史道路源数据之间对应文本的相似度计算，实现对道路实体数据的初步去重处理，然后按照道路源数据对应的文本内容中的道路名称和地理区域名称，在属于相同道路实体事件类型的历史道路源数据中进行文本匹配，实现对道路实体数据的精确去重处理，解决了现有的道路实体数据去重方案有效性较低的问题，提高了互联网数据中关于道路实体数据的去重有效性，进而提高了海量道路实体数据的处理效率，还可以保证需要利用道路实体数据的相关下游业务的数据质量。

实施例六

图7是本发明实施例六提供的道路实体数据去重装置的结构示意图，本实施例可适用于针对从互联网中获取的道路源数据，例如与道路相关的各种网络媒体数据，对关于同一道路实体的重复数据进行去除的情况。该装置可以采用软件和/或硬件的方式实现，并可集成在任意的计算设备中，包括但不限于服务器等。

如图7所示，本实施例提供的道路实体数据去重装置可以包括道路源数据获取模块710、道路和地理区域名称确定模块720和去重模块730，其中：

道路源数据获取模块710，用于获取至少一条道路源数据，并按照道路实体事件类型将至少一条道路源数据分类为至少一个数据子集，其中，一个数据子集对应一种道路实体事件类型，道路源数据用于描述道路实体事件；

道路和地理区域名称确定模块720，用于确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称；

去重模块730，用于根据每条道路源数据对应的文本内容中的道路名称和地理区域名称，在与对应数据子集属于相同道路实体事件类型的历史道路源数据中进行文本匹配，确定每个数据子集中的重复文本。

可选的，道路和地理区域名称确定模块720包括道路名称确定单元，该道路名称确定单元包括：

道路候选词确定子单元，用于将对每个数据子集中每条道路源数据对应的文本内容进行分词得到的第一词语，作为道路候选词；

第一道路名称确定子单元，用于将道路候选词在地图数据中进行匹配，将匹配成功的道路候选词确定为第一道路名称；

第二道路名称确定子单元，用于利用预设道路名称发现算法，确定每个数据子集中每条道路源数据对应的文本内容中的第二道路名称；

道路名称融合子单元，用于将第一道路名称和第二道路名称进行融合，将融合结果作为每个数据子集中每条道路源数据对应的文本内容中的道路名称。

可选的，第一道路名称确定子单元具体用于：

将地图数据中的道路名称数据加载为字典数据；

将道路候选词与字典数据进行匹配，将匹配成功的道路候选词确定为第一道路名称。

可选的，道路和地理区域名称确定模块720包括地理区域名称确定单元，该地理区域名称确定单元包括：

地理区域候选词确定子单元，用于将对每个数据子集中每条道路源数据对应的文本内容进行分词得到的第二词语，作为地理区域候选词；

地理区域候选词匹配子单元，用于将地理区域候选词在地图数据中进行匹配，将匹配成功的地理区域候选词作为每个数据子集中每条道路源数据对应的文本内容中的地理区域名称。

可选的，该装置还包括：

加权计算模块，用于针对从每个数据子集中每条道路源数据对应的文本内容中确定的至少一个道路名称和至少两个地理区域名称，根据道路和地理区域之间的隶属关系，对确定的至少两个地理区域名称进行加权计算；

目标地理区域名称确定模块，用于根据加权计算结果确定每个数据子集中每条道路源数据对应的文本内容中的目标地理区域名称。

可选的，在道路和地理区域名称确定模块720执行确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称之前，该装置还包括：

文本内容拆分模块，用于按照每个数据子集中每条道路源数据对应的文本内容的段落数量，对每条道路源数据对应的文本进行内容拆分，使得拆分得到每个候选子文本各自对应一个地理位置的道路实体事件；

审核结果获取模块，用于获取每个候选子文本与道路实体事件发生的地理位置之间一一对应关系的审核结果；

目标子文本确定模块，用于根据审核结果，确定每条道路源数据对应的文本内容经内容拆分得到的目标子文本，以基于每条道路源数据对应的目标子文本确定道路名称和地理区域名称。

内容相似度计算模块，用于针对每个数据子集中，将每个数据子集中的每条道路源数据对应的文本与属于相同道路实体事件类型的历史道路源数据对应的文本进行内容相似度计算；

目标道路源数据确定模块，用于根据计算得到的内容相似度与预设阈值的关系，确定每个数据子集中的目标道路源数据，以对目标道路源数据对应的文本内容进行道路名称和地理区域名称的确定。

可选的，该装置还包括：

文本内容合并模块，用于根据每个数据子集中不同道路源数据对应的文本内容中道路名称之间的包含关系以及地理区域名称之间的相似度，将道路名称具有包含关系且地理区域名称相同的对应文本内容进行合并，以基于文本内容合并后的每个数据子集进行重复文本的确定。

可选的，道路源数据获取模块710包括：

文本内容解析单元，用于获取至少一条道路源数据，并对至少一条道路源数据对应的文本进行内容解析；

数据子集确定单元，用于根据文本内容解析结果与道路实体事件类型，将至少一条道路源数据分类为至少一个数据子集。

本发明实施例所提供的道路实体数据去重装置可执行本发明任意实施例所提供的道路实体数据去重方法，具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本发明任意方法实施例中的描述。

实施例七

图8是本发明实施例七提供的一种计算设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性计算设备812的框图。图8显示的计算设备812仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。计算设备812可以是任意的具有计算能力的设备。

如图8所示，计算设备812以通用计算设备的形式表现。计算设备812的组件可以包括但不限于：一个或者多个处理器816，存储装置828，连接不同系统组件(包括存储装置828和处理器816)的总线818。

总线818表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算设备812典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备812访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置828可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)830和/或高速缓存存储器832。计算设备812可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统834可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM),数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线818相连。存储装置828可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块842的程序/实用工具840，可以存储在例如存储装置828中，这样的程序模块842包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块842通常执行本发明所描述的实施例中的功能和/或方法。

计算设备812也可以与一个或多个外部设备814(例如键盘、指向终端、显示器824等)通信，还可与一个或者多个使得用户能与该计算设备812交互的终端通信，和/或与使得该计算设备812能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口822进行。并且，计算设备812还可以通过网络适配器820与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器820通过总线818与计算设备812的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备812使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器816通过运行存储在存储装置828中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例所提供的道路实体数据去重方法，该方法可以包括：

实施例八

本发明实施例八还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的道路实体数据去重方法，该方法可以包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种道路实体数据去重方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定每个数据子集中每条道路源数据对应的文本内容中的道路名称，包括：

将对所述每个数据子集中每条道路源数据对应的文本内容进行分词得到的第一词语，作为道路候选词；

将所述道路候选词在地图数据中进行匹配，将匹配成功的道路候选词确定为第一道路名称；

利用预设道路名称发现算法，确定所述每个数据子集中每条道路源数据对应的文本内容中的第二道路名称；

将所述第一道路名称和所述第二道路名称进行融合，将融合结果作为所述每个数据子集中每条道路源数据对应的文本内容中的道路名称。

3.根据权利要求2所述的方法，其特征在于，将所述道路候选词在地图数据中进行匹配，将匹配成功的道路候选词确定为第一道路名称，包括：

将所述地图数据中的道路名称数据加载为字典数据；

将所述道路候选词与所述字典数据进行匹配，将匹配成功的道路候选词确定为所述第一道路名称。

4.根据权利要求1所述的方法，其特征在于，所述确定每个数据子集中每条道路源数据对应的文本内容中的地理区域名称，包括：

将对所述每个数据子集中每条道路源数据对应的文本内容进行分词得到的第二词语，作为地理区域候选词；

将所述地理区域候选词在地图数据中进行匹配，将匹配成功的地理区域候选词作为所述每个数据子集中每条道路源数据对应的文本内容中的地理区域名称。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对从所述每个数据子集中每条道路源数据对应的文本内容中确定的至少一个道路名称和至少两个地理区域名称，根据道路和地理区域之间的隶属关系，对所述确定的至少两个地理区域名称进行加权计算；

根据加权计算结果确定所述每个数据子集中每条道路源数据对应的文本内容中的目标地理区域名称。

6.根据权利要求1所述的方法，其特征在于，在所述确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称之前，所述方法还包括：

按照所述每个数据子集中每条道路源数据对应的文本内容的段落数量，对所述每条道路源数据对应的文本进行内容拆分，使得拆分得到的每个候选子文本各自对应一个地理位置的道路实体事件；

获取所述每个候选子文本与所述道路实体事件发生的地理位置之间一一对应关系的审核结果；

根据所述审核结果，确定所述每条道路源数据对应的文本内容经所述内容拆分得到的目标子文本，以基于所述每条道路源数据对应的目标子文本确定所述道路名称和地理区域名称。

7.根据权利要求1所述的方法，其特征在于，在所述确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称之前，所述方法还包括：

针对所述每个数据子集中，将所述每个数据子集中的每条道路源数据对应的文本与属于相同道路实体事件类型的历史道路源数据对应的文本进行内容相似度计算；

根据计算得到的内容相似度与预设阈值的关系，确定所述每个数据子集中的目标道路源数据，以对所述目标道路源数据对应的文本内容进行道路名称和地理区域名称的确定。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述每个数据子集中不同道路源数据对应的文本内容中道路名称之间的包含关系以及地理区域名称之间的相似度，将道路名称具有所述包含关系且地理区域名称相同的对应文本内容进行合并，以基于文本内容合并后的每个数据子集进行所述重复文本的确定。

9.根据权利要求1所述的方法，其特征在于，所述按照道路实体事件类型将所述至少一条道路源数据分类为至少一个数据子集，包括：

对所述至少一条道路源数据对应的文本进行内容解析；

根据文本内容解析结果与所述道路实体事件类型，将所述至少一条道路源数据分类为所述至少一个数据子集。

10.一种道路实体数据去重装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述道路和地理区域名称确定模块包括道路名称确定单元，所述道路名称确定单元包括：

道路候选词确定子单元，用于将对所述每个数据子集中每条道路源数据对应的文本内容进行分词得到的第一词语，作为道路候选词；

第一道路名称确定子单元，用于将所述道路候选词在地图数据中进行匹配，将匹配成功的道路候选词确定为第一道路名称；

第二道路名称确定子单元，用于利用预设道路名称发现算法，确定所述每个数据子集中每条道路源数据对应的文本内容中的第二道路名称；

道路名称融合子单元，用于将所述第一道路名称和所述第二道路名称进行融合，将融合结果作为所述每个数据子集中每条道路源数据对应的文本内容中的道路名称。

12.根据权利要求11所述的装置，其特征在于，所述第一道路名称确定子单元具体用于：

将所述地图数据中的道路名称数据加载为字典数据；

13.根据权利要求10所述的装置，其特征在于，所述道路和地理区域名称确定模块包括地理区域名称确定单元，所述地理区域名称确定单元包括：

地理区域候选词确定子单元，用于将对所述每个数据子集中每条道路源数据对应的文本内容进行分词得到的第二词语，作为地理区域候选词；

地理区域候选词匹配子单元，用于将所述地理区域候选词在地图数据中进行匹配，将匹配成功的地理区域候选词作为所述每个数据子集中每条道路源数据对应的文本内容中的地理区域名称。

14.根据权利要求10所述的装置，其特征在于，所述装置还包括：

加权计算模块，用于针对从所述每个数据子集中每条道路源数据对应的文本内容中确定的至少一个道路名称和至少两个地理区域名称，根据道路和地理区域之间的隶属关系，对所述确定的至少两个地理区域名称进行加权计算；

目标地理区域名称确定模块，用于根据加权计算结果确定所述每个数据子集中每条道路源数据对应的文本内容中的目标地理区域名称。

15.根据权利要求10所述的装置，其特征在于，在所述道路和地理区域名称确定模块执行所述确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称之前，所述装置还包括：

文本内容拆分模块，用于按照所述每个数据子集中每条道路源数据对应的文本内容的段落数量，对所述每条道路源数据对应的文本进行内容拆分，使得拆分得到的每个候选子文本各自对应一个地理位置的道路实体事件；

审核结果获取模块，用于获取所述每个候选子文本与所述道路实体事件发生的地理位置之间一一对应关系的审核结果；

目标子文本确定模块，用于根据所述审核结果，确定所述每条道路源数据对应的文本内容经所述内容拆分得到的目标子文本，以基于所述每条道路源数据对应的目标子文本确定所述道路名称和地理区域名称。

16.根据权利要求10所述的装置，其特征在于，在所述道路和地理区域名称确定模块执行所述确定每个数据子集中每条道路源数据对应的文本内容中的道路名称和地理区域名称之前，所述装置还包括：

内容相似度计算模块，用于针对所述每个数据子集中，将所述每个数据子集中的每条道路源数据对应的文本与属于相同道路实体事件类型的历史道路源数据对应的文本进行内容相似度计算；

目标道路源数据确定模块，用于根据计算得到的内容相似度与预设阈值的关系，确定所述每个数据子集中的目标道路源数据，以对所述目标道路源数据对应的文本内容进行道路名称和地理区域名称的确定。

17.根据权利要求10所述的装置，其特征在于，所述装置还包括：

文本内容合并模块，用于根据所述每个数据子集中不同道路源数据对应的文本内容中道路名称之间的包含关系以及地理区域名称之间的相似度，将道路名称具有所述包含关系且地理区域名称相同的对应文本内容进行合并，以基于文本内容合并后的每个数据子集进行所述重复文本的确定。

18.根据权利要求10所述的装置，其特征在于，所述道路源数据获取模块包括：

文本内容解析单元，用于获取所述至少一条道路源数据，并对所述至少一条道路源数据对应的文本进行内容解析；

数据子集确定单元，用于根据文本内容解析结果与所述道路实体事件类型，将所述道路源数据分类为所述至少一个数据子集。

19.一种计算设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的道路实体数据去重方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的道路实体数据去重方法。