CN111950280A - 地址匹配方法及装置 - Google Patents
地址匹配方法及装置 Download PDFInfo
- Publication number
- CN111950280A CN111950280A CN202010462252.1A CN202010462252A CN111950280A CN 111950280 A CN111950280 A CN 111950280A CN 202010462252 A CN202010462252 A CN 202010462252A CN 111950280 A CN111950280 A CN 111950280A
- Authority
- CN
- China
- Prior art keywords
- address
- matched
- information
- chinese information
- matching result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims description 57
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本申请涉及一种地址匹配方法及装置,属于计算机技术领域,该方法包括:获取参考地址的第一中文信息和待匹配地址的第二中文信息;确定第一中文信息对应的第一地理坐标和第二中文信息对应的第二地理坐标;将第一地理坐标与第二地理坐标进行匹配,得到位置匹配结果;对第一中文信息和第二中文信息进行文本匹配,得到文本匹配结果;基于位置匹配结果和/或文本匹配结果确定待匹配地址是否与参考地址相匹配;可以解决现有的地址匹配方法的匹配结果不准确的问题;可实现比对参考地址和待匹配地址是否为同一地址,提高匹配结果的准确度。
Description
技术领域
本申请涉及一种地址匹配方法及装置,属于计算机技术领域。
背景技术
中文地名的书写方法为按顺序从大到小范围地书写各级区域地址。
现有的中文地址匹配或识别方法大多直接采用语义相似度类型的方法来计算地址间的匹配度,这类方式主要分为转化为统计词频的方法,或是直接通过粗糙地计算地址在语义上整体相似度。
而现有的方法受限于中文连续无分隔空间特性以及表述不一等因素影响,对各级行政区的分割边界较不明显,且同一个地名多种表述的使用习惯也大大加深了匹配的难度。除此之外,单纯从语义角度来计算地名的相似度,而没有其它额外的校验机制对地址的同一性进行验证,会在一定程度上影响匹配的准确性。
发明内容
本申请提供了一种地址匹配方法及装置,可以解决现有的地址匹配方法的匹配结果不准确的问题。本申请提供如下技术方案:
第一方面,提供了一种地址匹配方法,所述方法包括:
获取参考地址的第一中文信息和待匹配地址的第二中文信息;
确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标;
将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果;
对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果;
基于所述位置匹配结果和/或所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配。
可选地,所述第二地理坐标的数量为n个,所述n为大于1的整数;所述将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果,包括:
从n个第二地理坐标中确定与所述第一地理坐标距离最近的第二地理坐标;
将所述第一地理坐标与所述距离最近的第二地理坐标进行匹配,得到所述位置匹配结果。
可选地,所述第二地理坐标的数量为n个,所述n为大于1的整数;所述将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果,包括:
将所述第一地理坐标为中心位置、n个第二地理坐标为观测位置,确定所述中心位置与所述观测位置之间的第一欧式距离;
将n个第二地理坐标对应的第一欧式距离与预设距离阈值进行比较,确定所述第一欧式距离小于所述预设距离阈值的第二地理坐标;
将所述第一地理坐标与所述第一欧式距离小于所述预设距离阈值的第二地理坐标进行匹配,得到位置匹配结果。
可选地,所述确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标,包括:
将所述第一中文信息输入地理编码服务接口,得到所述第一地理坐标;
将所述第二中文信息输入所述地理编码服务接口,得到所述第二地理坐标。
可选地,所述对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果,包括:
获取地址分段模型,所述地址分段模型使用所述待匹配地址所属区域的行政区预料进行训练得到;
对所述第一中文信息和所述第二中文信息分别进行行政区域分段,得到分段后的地址信息;
获取Word2Vec语言模型,所述Word2Vec语言模型是使用所述行政区语料进行训练得到的;
将所述第一中文信息的分段后的地址信息输入所述Word2Vec语言模型,得到每个分段后的地址信息对应的第一向量值;
将所述第二中文信息的分段后的地址信息输入所述Word2Vec语言模型,得到每个分段后的地址信息对应的第二向量值;
对所述第一中文信息中每个分段后的地址信息对应的第一向量值与所述第二中文信息中每个分段后的地址信息对应的第二向量值进行匹配,得到所述文本匹配结果。
可选地,所述对所述第一中文信息中每个分段后的地址信息对应的第一向量值与所述第二中文信息中每个分段后的地址信息对应的第二向量值进行匹配,得到所述文本匹配结果,包括:
对于所述第一中文信息中每个分段后的地址信息的各个第一向量值构成的第一向量集合和所述第二中文信息中每个分段后的地址信息的第二向量值构成的第二向量集合,以点积的方式依次获取第一向量集合和所述第二向量集合之间的第二欧式距离;
将最小的第二欧式距离所对应的第一向量集合对应的分段后的地址信息和第二向量集合对应的分段后的地址信息确定为匹配的分段后的地址信息。
可选地,所述对所述第一中文信息中每个分段后的地址信息对应的第一向量值与所述第二中文信息中每个分段后的地址信息对应的第二向量值进行匹配之后,还包括:
确定各个分段后的地址信息对应的最小的第二欧式距离的权重;
计算各个最小的第二欧式距离与对应的权重相乘之和,得到匹配结果的不可置信度;
在所述不可置信度大于或等于所述预设阈值时,确定所述参考地址与所述待匹配地址不匹配。
可选地,所述基于所述位置匹配结果和/或所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配,包括:
在所述位置匹配结果指示所述待匹配地址与所述参考地址相匹配时,不执行所述对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果的步骤,确定所述待匹配地址与所述参考地址相匹配;
在所述位置匹配结果指示所述待匹配地址与所述参考地址不匹配时,若所述文本匹配结果指示所述待匹配地址与所述参考地址相匹配,则确定所述待匹配地址与所述参考地址相匹配;若所述文本匹配结果指示所述待匹配地址与所述参考地址不匹配,则确定所述待匹配地址与所述参考地址不匹配。
可选地,所述确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标之后,还包括:
在未确定出所述第一地址坐标和/或所述第二地址坐标时,触发执行所述对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果;基于所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配的步骤。
第二方面,提供了一种地址匹配装置,所述装置包括:
地址获取模块,用于获取参考地址的第一中文信息和待匹配地址的第二中文信息;
坐标确定模块,用于确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标;
位置匹配模块,用于将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果;
文本匹配模块,用于对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果;
地址匹配模块,用于基于所述位置匹配结果和/或所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配。
本申请的有益效果在于:通过获取参考地址的第一中文信息和待匹配地址的第二中文信息;确定第一中文信息对应的第一地理坐标和第二中文信息对应的第二地理坐标;将第一地理坐标与第二地理坐标进行匹配,得到位置匹配结果;对第一中文信息和第二中文信息进行文本匹配,得到文本匹配结果;基于位置匹配结果和/或文本匹配结果确定待匹配地址是否与参考地址相匹配;可以解决现有的地址匹配方法的匹配结果不准确的问题;通过同时引入地理坐标及文本分析方法来识别地址相似程度;地理坐标作为最为精准的表达,可快速判断是否为同一地点,为首选的校验方案;而文本分析方法则可在地理坐标无法返回正确结果时进行判断,可实现比对参考地址和待匹配地址是否为同一地址,提高匹配结果的准确度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
图1是本申请一个实施例提供的地址匹配方法的流程图;
图2是本申请一个实施例提供的获取地理坐标的示意图;
图3是本申请一个实施例提供的第一地理坐标和第二地理坐标的示意图;
图4是本申请一个实施例提供的位置匹配过程的示意图;
图5是本申请一个实施例提供的文本匹配过程的示意图;
图6是本申请一个实施例提供的确定匹配结果的示意图;
图7是本申请一个实施例提供的地址匹配装置的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
首先,对本申请涉及的若干名词进行介绍。
词到向量(word to vector,Word2vec)模型:是用来产生词向量的相关模型。是一种简化的神经网络。Word2vec模型包括输入层、隐藏层和输出层。输入层的输入为独热编码(One-Hot编码,又称一位有效编码);隐藏层为线性单元;输出层的维度与输入层的维度相同。
BERT(Bidirectional Encoder Representations from Transformers)模型:通过联合调节所有层中的上下文来预先训练深度双向表示,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理。
BiLSTM-CRF模型:用于进行序列标注的神经网络模型。BiLSTM-CRF模型包括表示层、BiLSTM层和CRF层。其中,表示层用于将每个句子表示为词向量和字向量;BiLSTM层接收词向量和字向量,输出句子的每个词的所有标签的各自得分;CRF层使用BiLSTM层的输出(即每个词的所有标签的各自得分)以及转移概率矩阵,获得标签序列的概率。
可选地,本申请以各个实施例的执行主体为电子设备为例进行说明,该电子设备可以为终端或者服务器,终端可以是计算机、手机、平板电脑等设备,本实施例不对电子设备的设备类型作限定。
图1是本申请一个实施例提供的地址匹配方法的流程图。该方法至少包括以下几个步骤:
步骤101,获取参考地址的第一中文信息和待匹配地址的第二中文信息。
参考地址是指作为匹配标准的地址;待匹配地址是指需要进行匹配的地址。以匹配各个应用平台提供的企业地址为例,参考地址可以是企业的备案地址;待匹配地址即为各个应用平台提供的企业地址,比如:招聘应用平台提供的企业地址。
比如:企业的备案地址为:江苏省苏州市工业园区仁爱路xxx号;应用平台1提供的待匹配地址为:苏州市仁爱路xxx号;应用平台2提供的待匹配地址为:江苏苏州yyy大学。
步骤102,确定第一中文信息对应的第一地理坐标和第二中文信息对应的第二地理坐标。
可选地,电子设备将第一中文信息输入地理编码服务接口,得到第一地理坐标;将第二中文信息输入地理编码服务接口,得到第二地理坐标。
地理编码服务器接口为地图服务商提供的,该地理编码服务器接口支持将输入的文字地址换为对应的坐标点(或者说为经纬度坐标)。参考图2所示的坐标转换的示意图,将地址数据“北京市海淀区上地十街”输入地理编码服务器接口后,可以得到对应的地理坐标(111.7535253,36.746374)。
然而,由于地图服务器上提供的原地址数据可能不完整,或地图供应商提供的地图数据不全等因素,可能导致电子设备无法确定中文信息对应的地理坐标,此时,在未确定出第一地址坐标和/或第二地址坐标时,直接执行步骤104,不执行103。
另外,第二中文信息对应的第二地理坐标可能为一个或多个。
步骤103,将第一地理坐标与第二地理坐标进行匹配,得到位置匹配结果。
由于地理编码服务接口可能输出第二中文信息对应的多个第二地理坐标,此时,第二地理坐标的数量为n个,n为大于1的整数。将第一地理坐标与第二地理坐标进行匹配,得到位置匹配结果的方式包括但不限于以下几种中的至少一种:
第一种:从n个第二地理坐标中确定与第一地理坐标距离最近的第二地理坐标;将第一地理坐标与距离最近的第二地理坐标进行匹配,得到位置匹配结果。
第二种:将第一地理坐标为中心位置、n个第二地理坐标为观测位置,确定中心位置与观测位置之间的第一欧式距离;将n个第二地理坐标对应的第一欧式距离与预设距离阈值进行比较,确定第一欧式距离小于预设距离阈值的第二地理坐标;将第一地理坐标与第一欧式距离小于预设距离阈值的第二地理坐标进行匹配,得到位置匹配结果。
参考图3,假设ci为第一地理坐标,将该第一地理坐标为中心点(如图3中的位置31),xj为第j个第二地理坐标,将该第二地理坐标作为观测位置(如图3中的位置32-38),dE为ci和xj之间的第一欧式距离为:
将各个第二地理坐标对应的第一欧式距离与预设距离阈值进行比较,输出布尔值判断结果。比如:通过0(或者False)表示第一欧式距离大于或等于预设距离阈值;通过1(或者True)表示第一欧式距离小于预设距离阈值。
在地理编码服务接口输出第二中文信息对应的一个第二地理坐标时,直接将该第二地理坐标与第一地理坐标进行匹配,得到位置匹配结果。
为了更清楚地理解位置匹配过程,本实施例对该位置匹配过程举一个实例进行说明。参考图4,备案地址输入地理编码服务接口后得到第一地理坐标;平台地址输入地理编码服务接口后得到n个第二地理坐标;计算第一地理坐标与各个第二地理坐标之间的第一欧氏距离;确定小于预设距离阈值的第一欧式距离对应的第二地理坐标;将该第二地理坐标与第一地理坐标进行匹配,得到位置匹配结果。
可选地,在位置匹配结果指示待匹配地址与参考地址相匹配时,不执行步骤104直接确定待匹配地址与参考地址相匹配;在位置匹配结果指示待匹配地址与参考地址不匹配时,执行步骤104。
步骤104,对第一中文信息和第二中文信息进行文本匹配,得到文本匹配结果。
在一个示例中,对第一中文信息和第二中文信息进行文本匹配,得到文本匹配结果,包括以下几个步骤:
1、获取地址分段模型,地址分段模型使用待匹配地址所属区域的行政区预料进行训练得到。
可选地,地址分段模型采用利用通过所测区域当地行政区语料进行预训练后的BERT模型,并结合BiLSTM-CRF序列标注模型进行地名的命名实体识别,用以中文地址文本的行政区域分段。
2、对第一中文信息和第二中文信息分别进行行政区域分段,得到分段后的地址信息。
3、获取Word2Vec语言模型,Word2Vec语言模型是使用行政区语料进行训练得到的。
Word2Vec语言模型用于计算每个分段后的地址信息的相近字段。比如:对共指歧义表达的分段(如:“江苏省”和“江苏”等表达)进行相近程度计算。
4、将第一中文信息的分段后的地址信息输入Word2Vec语言模型,得到每个分段后的地址信息对应的第一向量值。
5、将第二中文信息的分段后的地址信息输入Word2Vec语言模型,得到每个分段后的地址信息对应的第二向量值。
可选地,步骤4可以在步骤5之前执行;或者,可以在步骤5之后执行,本实施例不对步骤4和步骤5之间的执行顺序作限定。
6、对第一中文信息中每个分段后的地址信息对应的第一向量值与第二中文信息中每个分段后的地址信息对应的第二向量值进行匹配,得到文本匹配结果。
具体地,对于第一中文信息中每个分段后的地址信息的各个第一向量值构成的第一向量集合和第二中文信息中每个分段后的地址信息的第二向量值构成的第二向量集合,以点积的方式依次获取第一向量集合和第二向量集合之间的第二欧式距离;将最小的第二欧式距离所对应的第一向量集合对应的分段后的地址信息和第二向量集合对应的分段后的地址信息确定为匹配的分段后的地址信息。
比如:参考地址X所有的分段为(x={x1,x2,…,xn},x∈|X|);待匹配地址Y所有的分段为(y={y1,y2,…,yn},y∈|Y|),和以点积的方式获取各段对应的欧几里德距离(第二欧式距离),具体公式如下:
ρ为点(x1,y1)与点(x2,y2)之间的第二欧氏距离;|X|为点(x2,y2)到原点的第二欧氏距离。最终可获得两条地址各行政区域级别分段的所有相互对应的欧式距离值,取其值最小的分段作为匹配的分段。
本实施例中,若遇到长度或分段不对齐的两条地址(如备案地址为:“江苏省/苏州市/工业园区/独墅湖科教创新区/仁爱路111号”,平台地址为:“苏州市/工业园区/仁爱路111号”),通过获取两条地址所有分段的词向量之间的第二欧式距离,并选择最小的第二欧式距离的两个分段作为匹配项,可大大增加匹配到正确分段的概率。因此,可找出两条地址间匹配分段的第二欧式距离。
然而,即使所有的分段均匹配到正确的项,在后续欧式距离总乘积(不可置信度)的计算过程中还会出现以下情况:如企业备案地址为:“江苏省/苏州市/工业园区/独墅湖科教创新区/仁爱路111号”,在A平台中的平台企业地址为:“苏州市/工业园区/仁爱路111号”,在B平台中的平台企业地址为:“江苏省/苏州市/工业园区”。由于在A、B两个平台的地址分段长度相同,分别与备案地址计算出的第二欧式距离存在完全相同的可能性,但很明显在B平台的地址比在A平台的地址缺失很多具体的位置信息(具体街道名及门牌号),其不可置信度的值应明显高于A平台的地址。
基于上述技术问题,本实施例中,电子设备还会确定各个分段后的地址信息对应的最小的第二欧式距离的权重;计算各个最小的第二欧式距离与对应的权重相乘之和,得到匹配结果的不可置信度;在不可置信度大于或等于预设阈值时,确定参考地址与待匹配地址不匹配。在不可置信度小于预设阈值时,确定参考地址与待匹配地址匹配。
在一个示例中,电子设备对每条地址从左至右的分段引入了依序递减的权值调整措施。依照汉语地址中门牌号或房屋单元等重要且具体的地址放在最后几位的书写习惯,按最少分段地址的分段数量mn分配给所有的分段,从左到右依次等比递减的权值,且所有分段的权值总和不超过1(归一化)。如:“苏州市/工业园区/仁爱路111号”这三个分段的权重分配到对应的三个权重,分别为:
这些权值将会乘以各分段的第二欧式距离值ρi,以改变各分段先后顺序对总体距离所占的比例,公式如下:
计算所有匹配到分段的加权第二欧式距离的总乘积W(地址文本的不可置信度),公式如下:
电子设备计算其不可置信度W是否超过预设阈值区间(依据阈值范围可分段为2级:[0,0.5]为相关地址(True,1),[0.5,1]为完全不相关地址(False,0),其判断结果用Text表示)。
为了更清楚地理解文本匹配过程,本实施例对该文本匹配过程举一个实例进行说明。参考图5,备案地址(正式地址)和平台地址(地址文本)进行分段后,输入Word2Vec语言模型,得到各个分段后的地址信息的词向量;计算备案地址的词向量与平台地址的词向量之间的第二欧式距离;确定地址的不可置信度,得到地址的匹配结果。
步骤105,基于位置匹配结果和/或文本匹配结果确定待匹配地址是否与参考地址相匹配。
通过对上述两种方法得出的地址一致性判断结果,可能存在以下几种情况:1.两个地址在语义层上相关度较高,但在地图上返回的结果和目标地址的一致性较低(可能由于地址描述与正式表达存在偏差或地图提供方无收录数据等原因)。2.两个地址在语义层上相关度较低(可能受限于地址描述信息缺失或与正式地址名称存在偏差等情况),但在地图上匹配度较高(存在表述数据适用地图提供方内部的语义识别算法,但模型未训练过此类数据因而无法识别该类型表述方式)。对此,将采用逻辑运算中的“或运算(OR)”方法,即:在位置匹配结果指示待匹配地址与参考地址相匹配时,不执行对第一中文信息和第二中文信息进行文本匹配,得到文本匹配结果的步骤,确定待匹配地址与参考地址相匹配;在位置匹配结果指示待匹配地址与参考地址不匹配时,若文本匹配结果指示待匹配地址与参考地址相匹配,则确定待匹配地址与参考地址相匹配;若文本匹配结果指示待匹配地址与参考地址不匹配,则确定待匹配地址与参考地址不匹配。
换句话说,参加运算的两个对象(地址文本匹配的判断结果Text和地理坐标匹配的判断结果Geo)只要有一个为真(Ture),其判断结果便为真(Ture),即该所述地址为真实地址,反之则判定为虚假地址。
为了更清楚地理解匹配结果获取过程,本实施例对该匹配结果获取过程举一个实例进行说明。参考图6,将文本匹配结果(地址文本判断结果)和位置匹配结果(地理坐标判断结果)输入或运算模型,得到综合判断结果。
综上所述,本实施例提供的地址匹配方法,通过获取参考地址的第一中文信息和待匹配地址的第二中文信息;确定第一中文信息对应的第一地理坐标和第二中文信息对应的第二地理坐标;将第一地理坐标与第二地理坐标进行匹配,得到位置匹配结果;对第一中文信息和第二中文信息进行文本匹配,得到文本匹配结果;基于位置匹配结果和/或文本匹配结果确定待匹配地址是否与参考地址相匹配;可以解决现有的地址匹配方法的匹配结果不准确的问题;通过同时引入地理坐标及文本分析方法来识别地址相似程度;地理坐标作为最为精准的表达,可快速判断是否为同一地点,为首选的校验方案;而文本分析方法则可在地理坐标无法返回正确结果时进行判断,可实现比对参考地址和待匹配地址是否为同一地址,提高匹配结果的准确度。
另外,通过使用地名词汇表Word2Vec语言模型的迁移学习方法,较传统规则匹配的方法,可有效减少由手工编写地名规则的工作量,减少在特征工程阶段上的时间、人力等成本消耗。
另外,由于中文地址较其它语种书写方式不同,并未采取换行方式来区分地址分段,而是采用从“国/省/市/区(县)/路/号”等行文方式。同时,中文的连续排列方式使得其并未有像英文每个词语有独立的空格作为分割,因此还需对中文地址进行进一步的依照各级行政区划进行分段(Segment);其次,地址在书写时或因篇幅限制或是编写者习惯不一,时常出现对部分行政区划填写疏漏的现象,这对行政区划分段的匹配造成了一定的困扰,同时信息的不完整也可能降低地址定位的准确度。而本实施例中,通过依据迁移学习好的语言模型直接返回各行政区划地名的向量值,对共指歧义表达的分段(如:“江苏省”和“江苏”等表达)进行相近程度计算,并匹配两个地址中最相近的分段,实现真正意义上的地址相似度计算。
另外,传统的文本地址相似度计算普遍直接采用先转换为独热编码的形式(即判断两个目标地址是否共现出相同词汇而输出由0和1构成的向量序列),并做余弦相似度来计算两个目标比对地址信息是否相近;这类方法存在着受限于不同地址编写者表述上偏差、地址信息不完整、或是地名改变程度较大等因素的限制,同时还非常依赖严格的地址书写规范程度等缺点;本申请提供的能够提供更为精细准确的地址相似度判断。
图7是本申请一个实施例提供的地址匹配装置的框图。该装置至少包括以下几个模块:地址获取模块710、坐标确定模块720、位置匹配模块730、文本匹配模块740和地址匹配模块750。
地址获取模块710,用于获取参考地址的第一中文信息和待匹配地址的第二中文信息;
坐标确定模块720,用于确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标;
位置匹配模块730,用于将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果;
文本匹配模块740,用于对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果;
地址匹配模块750,用于基于所述位置匹配结果和/或所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的地址匹配装置在进行地址匹配时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将地址匹配装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的地址匹配装置与地址匹配方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的地址匹配方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的地址匹配方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种地址匹配方法,其特征在于,所述方法包括:
获取参考地址的第一中文信息和待匹配地址的第二中文信息;
确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标;
将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果;
对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果;
基于所述位置匹配结果和/或所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配。
2.根据权利要求1所述的方法,其特征在于,所述第二地理坐标的数量为n个,所述n为大于1的整数;所述将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果,包括:
从n个第二地理坐标中确定与所述第一地理坐标距离最近的第二地理坐标;
将所述第一地理坐标与所述距离最近的第二地理坐标进行匹配,得到所述位置匹配结果。
3.根据权利要求1所述的方法,其特征在于,所述第二地理坐标的数量为n个,所述n为大于1的整数;所述将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果,包括:
将所述第一地理坐标为中心位置、n个第二地理坐标为观测位置,确定所述中心位置与所述观测位置之间的第一欧式距离;
将n个第二地理坐标对应的第一欧式距离与预设距离阈值进行比较,确定所述第一欧式距离小于所述预设距离阈值的第二地理坐标;
将所述第一地理坐标与所述第一欧式距离小于所述预设距离阈值的第二地理坐标进行匹配,得到位置匹配结果。
4.根据权利要求1所述的方法,其特征在于,所述确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标,包括:
将所述第一中文信息输入地理编码服务接口,得到所述第一地理坐标;
将所述第二中文信息输入所述地理编码服务接口,得到所述第二地理坐标。
5.根据权利要求1所述的方法,其特征在于,所述对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果,包括:
获取地址分段模型,所述地址分段模型使用所述待匹配地址所属区域的行政区预料进行训练得到;
对所述第一中文信息和所述第二中文信息分别进行行政区域分段,得到分段后的地址信息;
获取Word2Vec语言模型,所述Word2Vec语言模型是使用所述行政区语料进行训练得到的;
将所述第一中文信息的分段后的地址信息输入所述Word2Vec语言模型,得到每个分段后的地址信息对应的第一向量值;
将所述第二中文信息的分段后的地址信息输入所述Word2Vec语言模型,得到每个分段后的地址信息对应的第二向量值;
对所述第一中文信息中每个分段后的地址信息对应的第一向量值与所述第二中文信息中每个分段后的地址信息对应的第二向量值进行匹配,得到所述文本匹配结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述第一中文信息中每个分段后的地址信息对应的第一向量值与所述第二中文信息中每个分段后的地址信息对应的第二向量值进行匹配,得到所述文本匹配结果,包括:
对于所述第一中文信息中每个分段后的地址信息的各个第一向量值构成的第一向量集合和所述第二中文信息中每个分段后的地址信息的第二向量值构成的第二向量集合,以点积的方式依次获取第一向量集合和所述第二向量集合之间的第二欧式距离;
将最小的第二欧式距离所对应的第一向量集合对应的分段后的地址信息和第二向量集合对应的分段后的地址信息确定为匹配的分段后的地址信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述第一中文信息中每个分段后的地址信息对应的第一向量值与所述第二中文信息中每个分段后的地址信息对应的第二向量值进行匹配之后,还包括:
确定各个分段后的地址信息对应的最小的第二欧式距离的权重;
计算各个最小的第二欧式距离与对应的权重相乘之和,得到匹配结果的不可置信度;
在所述不可置信度大于或等于所述预设阈值时,确定所述参考地址与所述待匹配地址不匹配。
8.根据权利要求1至7任一所述的方法,其特征在于,所述基于所述位置匹配结果和/或所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配,包括:
在所述位置匹配结果指示所述待匹配地址与所述参考地址相匹配时,不执行所述对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果的步骤,确定所述待匹配地址与所述参考地址相匹配;
在所述位置匹配结果指示所述待匹配地址与所述参考地址不匹配时,若所述文本匹配结果指示所述待匹配地址与所述参考地址相匹配,则确定所述待匹配地址与所述参考地址相匹配;若所述文本匹配结果指示所述待匹配地址与所述参考地址不匹配,则确定所述待匹配地址与所述参考地址不匹配。
9.根据权利要求1至7任一所述的方法,其特征在于,所述确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标之后,还包括:
在未确定出所述第一地址坐标和/或所述第二地址坐标时,触发执行所述对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果;基于所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配的步骤。
10.一种地址匹配装置,其特征在于,所述装置包括:
地址获取模块,用于获取参考地址的第一中文信息和待匹配地址的第二中文信息;
坐标确定模块,用于确定所述第一中文信息对应的第一地理坐标和所述第二中文信息对应的第二地理坐标;
位置匹配模块,用于将所述第一地理坐标与所述第二地理坐标进行匹配,得到位置匹配结果;
文本匹配模块,用于对所述第一中文信息和所述第二中文信息进行文本匹配,得到文本匹配结果;
地址匹配模块,用于基于所述位置匹配结果和/或所述文本匹配结果确定所述待匹配地址是否与所述参考地址相匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010462252.1A CN111950280A (zh) | 2020-05-27 | 2020-05-27 | 地址匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010462252.1A CN111950280A (zh) | 2020-05-27 | 2020-05-27 | 地址匹配方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950280A true CN111950280A (zh) | 2020-11-17 |
Family
ID=73337696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010462252.1A Pending CN111950280A (zh) | 2020-05-27 | 2020-05-27 | 地址匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950280A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN114089101A (zh) * | 2021-11-11 | 2022-02-25 | 广东电网有限责任公司广州供电局 | 一种低压电网故障台区判断方法及装置 |
CN115271834A (zh) * | 2022-09-29 | 2022-11-01 | 平安银行股份有限公司 | 房屋的定位方法、装置、计算机设备及可读存储介质 |
CN115757565A (zh) * | 2023-01-09 | 2023-03-07 | 无锡容智技术有限公司 | 一种文本数据的地理位置定位方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
JP2010055150A (ja) * | 2008-08-26 | 2010-03-11 | Sakano Kazuhito | 配送支援ナビゲーションシステム、荷物配送方法、管理サーバ、アドレスマッチングプログラム及びコンピュータ等で読み取り可能な記録媒体 |
CN102867004A (zh) * | 2011-07-06 | 2013-01-09 | 高德软件有限公司 | 一种地址匹配的方法及设备 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN108804398A (zh) * | 2017-05-03 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 地址文本的相似度计算方法及装置 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
-
2020
- 2020-05-27 CN CN202010462252.1A patent/CN111950280A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
JP2010055150A (ja) * | 2008-08-26 | 2010-03-11 | Sakano Kazuhito | 配送支援ナビゲーションシステム、荷物配送方法、管理サーバ、アドレスマッチングプログラム及びコンピュータ等で読み取り可能な記録媒体 |
CN102867004A (zh) * | 2011-07-06 | 2013-01-09 | 高德软件有限公司 | 一种地址匹配的方法及设备 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN108804398A (zh) * | 2017-05-03 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 地址文本的相似度计算方法及装置 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN112560478B (zh) * | 2020-12-16 | 2024-03-12 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN114089101A (zh) * | 2021-11-11 | 2022-02-25 | 广东电网有限责任公司广州供电局 | 一种低压电网故障台区判断方法及装置 |
CN115271834A (zh) * | 2022-09-29 | 2022-11-01 | 平安银行股份有限公司 | 房屋的定位方法、装置、计算机设备及可读存储介质 |
CN115757565A (zh) * | 2023-01-09 | 2023-03-07 | 无锡容智技术有限公司 | 一种文本数据的地理位置定位方法和装置 |
CN115757565B (zh) * | 2023-01-09 | 2023-05-16 | 无锡容智技术有限公司 | 一种文本数据的地理位置定位方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
WO2020182019A1 (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN111950280A (zh) | 地址匹配方法及装置 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN111522910B (zh) | 一种基于文物知识图谱的智能语义检索方法 | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN111666427A (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
CN113887930B (zh) | 问答机器人健康度评估方法、装置、设备及存储介质 | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN111666376A (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN111259115B (zh) | 内容真实性检测模型的训练方法、装置和计算设备 | |
CN112182275A (zh) | 一种基于多维度特征融合的商标近似检索系统和方法 | |
CN111680264A (zh) | 一种多文档阅读理解方法 | |
CN116701734B (zh) | 地址文本的处理方法、设备及计算机可读存储介质 | |
CN111143515B (zh) | 文本匹配方法及装置 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN115438674B (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN114064269A (zh) | 一种地址匹配方法、装置及终端设备 | |
CN114595329A (zh) | 一种原型网络的少样本事件抽取系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |