CN115757565B

CN115757565B - 一种文本数据的地理位置定位方法和装置

Info

Publication number: CN115757565B
Application number: CN202310026952.XA
Authority: CN
Inventors: 柴亚团; 陈思远
Original assignee: Wuxi Rongzhi Technology Co ltd
Current assignee: Wuxi Rongzhi Technology Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-05-16
Anticipated expiration: 2043-01-09
Also published as: CN115757565A

Abstract

本发明涉及文本数据处理技术领域,公开了一种文本数据的地理位置定位方法和装置，本发明方法通过对用户输入的文本数据进行标签提取，生成标签集合，以及通过查找标签集合中的每个标签的实际地理位置，并通过将标签集合中的每个标签的实际地理位置中出现次数最高的实际地理位置作为文本数据的最终地理位置，从而实现文本数据的地理位置定位，且由于不用人工识别数据判断，能节约人力投入，提高文本数据处理速度。

Description

一种文本数据的地理位置定位方法和装置

技术领域

本发明涉及文本数据处理技术领域，具体涉及一种文本数据的地理位置定位方法和装置。

背景技术

在一些事务处理、问题反馈的处理系统中，都会提供供用户输入的输入界面，用户在输入界面输入文本数据来进行事务反馈或者问题反馈，在用户输入文本数据后，由系统工作人员进行筛选和判断，从而将对应的数据分发到对应的处理部门，目前我国对应的基础处理部门是街道。而通过这种方式实现文本数据的地理位置定位由于需要人工去判断，则会导致需要大量的人力投入，且效率较低，另外由于文本数据表述不准，会出现一些误判断情况。除此之外，有时候用户输入的文本数据中包括多个不同的地理位置，但是对于同一个事务或者问题只需要将其反馈至一个处理部门即可，不用把文本数据发送到文本数据中所涉及的所有地理位置对应的部门中。

发明内容

鉴于背景技术的不足，本发明是提供了一种文本数据的地理位置定位方法和装置，所要解决的技术问题是现有文本数据内容大多通过人工定位，效率慢。

为解决以上技术问题，第一方面本发明提供了一种文本数据的地理位置定位方法，包括如下步骤：

S1：对所述文本数据进行位置标签提取，生成标签集合，所述标签集合中的每个位置标签包括至少一个特征值；

S2：查询与所述标签集合中的每个位置标签的特征值所对应的地理位置，并计算出每个特征值与其有关的地理位置的相似度，并针对每个位置标签生成相似度数据集合；

S3：将所述标签集合中的每个位置标签的相似度数据集合中相似度最大的地理位置作为每个位置标签的实际地理位置；

S4：将所述标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置作为所述文本数据的最终地理位置。

在第一方面的某种实施方式中，在执行步骤S1之前先判断所述文本数据是否为空，如果不为空，则执行步骤S1。

在第一方面的某种实施方式中，在执行完步骤S1且未执行步骤S2之前，将所述标签集合与所述文本数据进行打标，生成第一数据包，并将所述第一数据包放入第一缓存队列中；

步骤S2中从所述第一缓存队列中取出第一数据包，查询与第一数据包中的标签集合中的每个位置标签的特征值有关的地理位置。

在第一方面的某种实施方式中，步骤S2中，当所述标签集合中的每个位置标签都生成相似度数据集合后，将所述标签集合中的每个位置标签的相似度数据集合放入到总相似度数据集合中，并将总相似度数据集合放入到第二缓存队列中；

步骤S3中先从所述第二缓存队列中取出总相似度数据集合，然后将所述标签集合中的每个位置标签的相似度数据集合中相似度最大的地理位置作为每个位置标签的实际地理位置。

在第一方面的某种实施方式中，在步骤S3中，将每个位置标签的相似度数据集合中相似度最大的地理位置作为每个位置标签的实际地理位置的步骤如下：

S30：在所述相似度数据集合中，将小于判断阈值的相似度去除掉；

S31：在所述相似度数据集合中的剩余相似度中查找最大的相似度，最大的相似度所对应的地理位置为该位置标签的实际地理位置。

在第一方面的某种实施方式中，在步骤S3中，当得到所述标签集合中的每个位置标签的实际地理位置后，将标签集合中的每个位置标签的实际地理位置生成为一个地理数据集合，将地理数据集合放入到第三缓存队列中；

步骤S4中先从所述第三缓存队列中取出地理数据集合，然后在所述地理数据集合中查找所述标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置，最后将所述出现次数最多的实际地理位置作为所述文本数据的最终地理位置。

在第一方面的某种实施方式中，在步骤S4中，在所述地理数据集合中查找所述标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置的步骤如下：

先遍历所述地理数据集合，为所述地理数据集合中的实际地理位置打上出现频率；

然后将频率与所述实际地理位置映射成频率位置集合；

最后遍历所述频率位置集合来获取所述频率位置集合中最大频率所对应的实际地理位置。

在第一方面的某种实施方式中，在步骤S1中，通过数据模型对所述文本数据进行位置标签提取，所述数据模型通过位置标签训练和通过地理位置数据库进行数据训练得到。

在第一方面的某种实施方式中，当所述文本数据提取失败时，提取失败的文本数据放入到训练样本中供所述数据模型学习训练。

第二方面，本发明还提供了一种文本数据的地理位置定位装置，包括提取单元、第一缓存单元、位置查找单元、第二缓存单元、标签位置确定单元、第三缓存单元和文本数据位置确定单元；

所述提取单元被配置于对所述文本数据进行位置标签提取，生成标签集合，所述标签集合中的每个位置标签包括至少一个特征值，并将所述标签集合与所述文本数据进行打标，生成第一数据包，以及将所述第一数据包放入第一缓存单元中；

所述第一缓存单元用于缓冲所述第一数据包；

所述位置查找单元从所述第一缓存单元中取出第一数据包，然后查询与第一数据包中的标签集合中的每个位置标签的特征值有关的地理位置，接着计算出每个特征值与其有关的地理位置的相似度，然后针对每个位置标签生成相似度数据集合，接着将所述标签集合中的每个位置标签的相似度数据集合放入到总相似度数据集合中，最后将总相似度数据集合放入到第二缓存单元中；

所述第二缓存单元用于缓冲所述总相似度数据集合；

所述标签位置确定单元用于从所述第二缓存单元中取出总相似度数据集合，然后将所述标签集合中的每个位置标签的相似度数据集合中相似度最大的地理位置作为每个位置标签的实际地理位置，接着在得到所述标签集合中的每个位置标签的实际地理位置后，将标签集合中的每个位置标签的实际地理位置生成为一个地理数据集合，将地理数据集合放入到第三缓存单元中；

所述第三缓存单元用于缓冲所述地理数据集合；

所述文本数据位置确定单元用于从所述第三缓存单元中取出地理数据集合，然后在所述地理数据集合中查找所述标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置，最后将所述出现次数最多的实际地理位置作为所述文本数据的最终地理位置。

本发明与现有技术相比所具有的有益效果是：本发明通过对用户输入的文本数据进行位置标签提取，生成标签集合，以及通过查找标签集合中的每个位置标签的实际地理位置，并通过将标签集合中的每个位置标签的实际地理位置中出现次数最高的实际地理位置作为文本数据的最终地理位置，从而实现文本数据的地理位置定位，且由于不用人工识别数据判断，能节约人力投入，提高文本数据处理速度；

另外在文本数据处理过程中，本发明的第一数据包、总相似度数据集合和地理数据集合都是先进行缓存，然后再被提取处理，这样在文本数据较多时，可以保证本发明的整个流程正常进行，不会出现处理紊乱情况。

附图说明

图1为实施例中的本发明的定位方法的流程图；

图2为实施例中的本发明的定位装置的结构示意图；

图3为实施例中的步骤S4的流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，一种文本数据的地理位置定位方法，包括以下步骤：

S1：对文本数据进行位置标签提取，生成标签集合，所述标签集合中的每个位置标签包括至少一个特征值。

在实际使用时，有可能文本数据输入为空，此时并不需要执行本发明，因此需要在执行步骤S1之前进行过滤，即先判断文本数据是否为空，如果不为空，则执行步骤S1。

具体地，步骤S1中，通过数据模型对文本数据进行位置标签提取，数据模型通过位置标签训练和通过地理位置数据库进行数据训练得到。另外，对于一些提取失败的文本数据，可以将提取失败的文本数据放入到训练样本中供数据模型学习训练，从而能不断提高识别准确度。

本实施例中，进行位置标签提取是指将文本数据中的关于位置的标签提取出来，例如小区、学校、街道、地址、公司名和工厂等标签，特征值是该标签对应的地方名称。以学校为例，在“光明小学和阳光小学要在那个地方举办足球赛？”这段文本数据中，对这段文本位置标签提取可以提取出学校这个标签，这个标签有光明小学和阳光小学这两个特征值；同样的，小区这个标签中的特征值指的是具体小区名称，例如“幸福小区和美好小区就联谊大会的举办地址存在异议”的文本数据中，幸福小区和美好小区就是小区这个标签的两个特征值。

在实际使用时，标签并不限于小区、学校、街道、地址、公司名和工厂这几个标签，可以增大数据模型的训练文本数量来提高可提取的标签的种类数量。

在实际使用时，当需要处理的文本数据数量太多时，为了保证后续处理正常进行，在执行完步骤S1且未执行步骤S2之前，将标签集合与文本数据进行打标，生成第一数据包，并将第一数据包放入第一缓存队列中，后续处理只需依次从第一缓存队列中将第一数据包提取出来处理即可。

S2：查询与标签集合中的每个位置标签的特征值所对应的地理位置，并计算出每个特征值与其有关的地理位置的相似度，并针对每个位置标签生成相似度数据集合。

在实际使用时，当获得每个位置标签时，可以在地图上查找每个位置标签的特征值对应的地理位置，另外也可以依据事务处理范围提前设置好查询范围，这样可以缩短查找时间，减少不必要的干扰，例如针对无锡市的事务或者问题反馈，可以将查找范围设置在无锡市行政区，又或者是针对全国的事务或者问题反馈，可以将查找范围设置在全国。

在实际使用时，当一个位置标签有多个特征值时，需要查找与每个特征值有关的地理位置，然后计算每个特征值及与其有关的地理位置的相似度。

在实际使用时，当第一缓存队列中有两个以上的第一数据包时，步骤S2中从第一缓存队列中依次取出第一数据包，然后查询与第一数据包中的标签集合中的每个位置标签的特征值有关的地理位置，接着计算出每个特征值与其有关的地理位置的相似度。而这样依次从第一缓存队列中取出第一数据包是为了保证第一数据包数量较多且每步处理时间或者处理速度不一样时，每个处理步骤之间互不影响，不会出现紊乱。其中，计算出每个特征值与其有关的地理位置的相似度是指分别计算出每个特征值与其有关的地理位置的相似度。

在步骤S2中，当标签集合中的每个位置标签都生成相似度数据集合后，将标签集合中的每个位置标签的相似度数据集合放入到总相似度数据集合中，并将总相似度数据集合放入到第二缓存队列中。

S3：将标签集合中的每个位置标签的相似度数据集合中相似度最大的地理位置作为每个位置标签的实际地理位置。

具体地，步骤S3中先依次从第二缓存队列中取出总相似度数据集合，然后将标签集合中的每个位置标签的相似度数据集合中相似度最大的地理位置作为每个位置标签的实际地理位置。在实际使用时，通过依次在第二缓存队列中取出总相似度数据集合可以保证在要处理的文本数据数量较多时，可以保证步骤S3依次对每个文本数据所对应的总相似度数据集合进行处理，不会出现错乱情况。

具体地，在步骤S3中，将每个位置标签的相似度数据集合中相似度最大的地理位置作为每个位置标签的实际地理位置的步骤如下：

S30：在相似度数据集合中，将小于判断阈值的相似度去除掉；

S31：在相似度数据集合中的剩余相似度中查找最大的相似度，最大的相似度所对应的地理位置为该位置标签的实际地理位置。

在实际使用时，判断阈值是提前设置好的，例如可以设置为80%、85%或者90%。另外通过提前过滤出小于判定阈值的相似度、然后在相似度数据集合中的剩余相似度中查找最大的相似度，可以减少步骤S3的执行时间，提高文本数据的定位速度。

对于步骤S3，在查找最大的相似度时，如果出现相似度为100%，则停止查找，将相似度为100%所对应的地理位置作为该位置标签的实际地理位置。

另外，在文本数据数量较多时，为了避免步骤S3在处理总相似度数据集合的速度大于步骤S4的处理速度时，让步骤S4接收多个文本数据的标签结合的实际地理位置，从而影响步骤S4的执行，在步骤S3中，当得到标签集合中的每个位置标签的实际地理位置后，将标签集合中的每个位置标签的实际地理位置生成为一个地理数据集合，将地理数据集合放入到第三缓存队列中。

S4：将标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置作为文本数据的最终地理位置。

具体地，步骤S4中先依次从第三缓存队列中取出地理数据集合，然后在地理数据集合中查找标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置，最后将出现次数最多的实际地理位置作为文本数据的最终地理位置。

更进一步的，在步骤S4中，在地理数据集合中查找标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置的步骤如下：

先遍历地理数据集合，为地理数据集合中的实际地理位置打上出现频率；

然后将频率与实际地理位置映射成频率位置集合；

最后遍历频率位置集合来获取频率位置集合中最大频率所对应的实际地理位置，其中最大频率所对应的实际地理位置就是文本数据的最终地理位置。

在实际使用时，如果得到文本数据的最终地理位置后只是知道了文本数据的待处理位置在那里，还需要将文本数据分发到待处理位置，因此在执行完步骤S4中，本发明还可执行步骤S5，即将文本数据下发到其最终地理位置的处理机构中，例如可以将文本数据下发到对应的街道办事处，让街道办事处进行处理。

综上，本发明通过对用户输入的文本数据进行位置标签提取，生成标签集合，以及通过查找标签集合中的每个位置标签的实际地理位置，并通过将标签集合中的每个位置标签的实际地理位置中出现次数最高的实际地理位置作为文本数据的最终地理位置，从而实现文本数据的地理位置定位，且由于不用人工识别数据判断，能节约人力投入，提高文本数据处理速度；

另外，如图2所述，本发明还提供了一种文本数据的地理位置定位装置，包括提取单元 1、第一缓存单元2、位置查找单元3、第二缓存单元4、标签位置确定单元5、第三缓存单元6和文本数据位置确定单元7；

提取单元1被配置于对文本数据进行位置标签提取，生成标签集合，标签集合中的每个位置标签包括至少一个特征值，并将标签集合与文本数据进行打标，生成第一数据包，以及将第一数据包放入第一缓存单元2中；

第一缓存单元2用于缓冲第一数据包；

位置查找单元3从第一缓存单元中取出第一数据包，然后查询与第一数据包中的标签集合中的每个位置标签的特征值有关的地理位置，接着计算出每个特征值与其有关的地理位置的相似度，然后针对每个位置标签生成相似度数据集合，接着将标签集合中的每个位置标签的相似度数据集合放入到总相似度数据集合中，最后将总相似度数据集合放入到第二缓存单元4中；

第二缓存单元4用于缓冲总相似度数据集合；

标签位置确定单元5用于从第二缓存单元4中取出总相似度数据集合，然后将标签集合中的每个位置标签的相似度数据集合中相似度最大的地理位置作为每个位置标签的实际地理位置，接着在得到标签集合中的每个位置标签的实际地理位置后，将标签集合中的每个位置标签的实际地理位置生成为一个地理数据集合，将地理数据集合放入到第三缓存单元6中；

第三缓存单元6用于缓冲地理数据集合；

文本数据位置确定单元7用于从第三缓存单元6中取出地理数据集合，然后在地理数据集合中查找标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置，最后将出现次数最多的实际地理位置作为文本数据的最终地理位置。

上述依据本发明为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种文本数据的地理位置定位方法，其特征在于，包括如下步骤：

S1：对所述文本数据进行位置标签提取和所述位置标签的特征值提取，生成标签集合，所述标签集合中的每个位置标签包括至少一个特征值，所述特征值为位置标签对应的地方名称；所述位置标签提取是指将文本数据中关于位置的标签提取出来；

当得到所述标签集合中的每个位置标签的实际地理位置后，将标签集合中的每个位置标签的实际地理位置生成为一个地理数据集合，将地理数据集合放入到第三缓存队列中；

S4：将所述标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置作为所述文本数据的最终地理位置，步骤如下：

先从所述第三缓存队列中取出地理数据集合，然后在所述地理数据集合中查找所述标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置，最后将所述出现次数最多的实际地理位置作为所述文本数据的最终地理位置；

其中在地理数据集合中查找标签集合中每个位置标签的实际地理位置中出现次数最多的实际地理位置的步骤如下：

然后将频率与所述实际地理位置映射成频率位置集合；

2.根据权利要求1所述的一种文本数据的地理位置定位方法，其特征在于，在执行步骤S1之前先判断所述文本数据是否为空，如果不为空，则执行步骤S1。

3.根据权利要求1所述的一种文本数据的地理位置定位方法，其特征在于，在执行完步骤S1且未执行步骤S2之前，将所述标签集合与所述文本数据进行打标，生成第一数据包，并将所述第一数据包放入第一缓存队列中；

4.根据权利要求1所述的一种文本数据的地理位置定位方法，其特征在于，步骤S2中，当所述标签集合中的每个位置标签都生成相似度数据集合后，将所述标签集合中的每个位置标签的相似度数据集合放入到总相似度数据集合中，并将总相似度数据集合放入到第二缓存队列中；

5.根据权利要求1或4所述的一种文本数据的地理位置定位方法，其特征在于，在步骤S3中，将每个位置标签的相似度数据集合中相似度最大的地理位置作为每个位置标签的实际地理位置的步骤如下：

6.根据权利要求1所述的一种文本数据的地理位置定位方法，其特征在于，在步骤S1中，通过数据模型对所述文本数据进行位置标签提取，所述数据模型通过位置标签进行训练和通过地理位置数据库进行数据训练得到。

7.根据权利要求6所述的一种文本数据的地理位置定位方法，其特征在于，当所述文本数据提取失败时，提取失败的文本数据放入到训练样本中供所述数据模型学习训练。

8.一种文本数据的地理位置定位装置，其特征在于，包括提取单元、第一缓存单元、位置查找单元、第二缓存单元、标签位置确定单元、第三缓存单元和文本数据位置确定单元；

所述提取单元被配置于对所述文本数据进行位置标签提取和所述位置标签的特征值提取，生成标签集合，所述标签集合中的每个位置标签包括至少一个特征值，所述特征值为位置标签对应的地方名称，所述位置标签提取是指将文本数据中关于位置的标签提取出来；所述提取单元还将所述标签集合与所述文本数据进行打标，生成第一数据包，以及将所述第一数据包放入第一缓存单元中；

所述第一缓存单元用于缓冲所述第一数据包；

所述第二缓存单元用于缓冲所述总相似度数据集合；

所述第三缓存单元用于缓冲所述地理数据集合；