CN116306627A - 多路融合地址相似度计算方法、装置、存储介质和设备 - Google Patents

多路融合地址相似度计算方法、装置、存储介质和设备 Download PDF

Info

Publication number
CN116306627A
CN116306627A CN202310090048.5A CN202310090048A CN116306627A CN 116306627 A CN116306627 A CN 116306627A CN 202310090048 A CN202310090048 A CN 202310090048A CN 116306627 A CN116306627 A CN 116306627A
Authority
CN
China
Prior art keywords
address
text pair
similarity
similarity score
address text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310090048.5A
Other languages
English (en)
Inventor
杨娟
杨再飞
翟士丹
王道广
于政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haizhi Xingtu Technology Co ltd
Original Assignee
Beijing Haizhi Xingtu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haizhi Xingtu Technology Co ltd filed Critical Beijing Haizhi Xingtu Technology Co ltd
Priority to CN202310090048.5A priority Critical patent/CN116306627A/zh
Publication of CN116306627A publication Critical patent/CN116306627A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种多路融合地址相似度计算方法、装置、存储介质和设备,所述方法包括:接收待确定相似度的地址文本对,地址文本对包括多个地址元素;将地址文本对与标准地址库进行比对后切分为第一地址文本对和第二地址文本对,计算第一地址文本对的相似度,获得第一相似度得分;将第二地址文本对输入自然语言处理模型按照地址元素进行级别划分,得到标准化后的第二地址文本对;计算标准化后的第二地址文本对的相似度,获得第二相似度得分;计算第二地址文本对的字符串相似度,获得第三相似度得分;将第一相似度得分、第二相似度得分和第三相似度得分融合后,获得地址文本对的相似度得分。本发明能够提高地址文本对的相似度得分的准确率和速度。

Description

多路融合地址相似度计算方法、装置、存储介质和设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多路融合地址相似度计算方法、装置、存储介质和设备。
背景技术
当前,在金融、保险等领域中,地址相似度计算的技术被广泛使用。比如,反欺诈场景,利用相似度计算挖掘同地址关系,然后会依赖这些关系做社群划分。另外会基于个体特征和团伙特征识别欺诈客户。
目前常用的地址相似度判断的方法主要有:
利用编辑距离计算两段文本的相似程度,此种方式忽略了文本的语义内涵,例如“南京市解放大道50号”和“北京市解放大道50号”,从文本上10个字符中仅相差1个字符,二者的编辑距离相同,但是实际上完全不指代同一地址或是接近的地址。因此,如果利用编辑距离进行地址相似度的判断,则可信度和准确度都较低。
发明内容
有鉴于此,本发明提供一种多路人融合地址相似度计算方法、装置、存储介质和设备,能够快速且准确的进行地址相似度的计算。
第一方面,本发明实施例提供一种多路融合地址相似度计算方法,所述方法包括:
接收待确定相似度的地址文本对,所述地址文本对包括多个地址元素;
将所述地址文本对与标准地址库进行比对,将所述地址文本对切分为第一地址文本对和第二地址文本对,其中,所述第一地址文本对指的是所述地址文本对中能与所述标准地址库匹配的地址元素,所述第二地址文本对指的是不能与所述标准地址库匹配的地址元素;
计算所述第一地址文本对中同一级别的地址元素之间的相似度,获得第一相似度得分;
将所述第二地址文本对输入自然语言处理模型按照地址元素进行级别划分,得到标准化后的第二地址文本对;
计算所述标准化后的第二地址文本对中同一级别的地址元素之间的相似度,获得第二相似度得分;
计算所述第二地址文本对的字符串相似度,获得第三相似度得分;
将所述第一相似度得分、第二相似度得分和第三相似度得分融合后,获得所述地址文本对的相似度得分。
进一步地,按照级别从高到低依次计算所述第一地址文本对中同一级别的地址元素之间的相似度。
进一步地,当所述第一地址文本对中上一级别的地址元素之间的相似度得分大于阈值时,计算下一级别的地址元素之间的相似度得分。
进一步地,当所述第一地址文本对中上一级别的地址元素之间的相似度得分不大于阈值时,则当前级别及往下级别的地址元素的相似度得分为0。
进一步地,将第一地址文本对中不同级别的地址元素之间的相似度得分乘以各级别对应权重后进行求和,获得第一相似度得分。
进一步地,将第二地址文本对中不同级别的地址元素之间的相似度得分乘以各级别对应权重后进行加权求和,获得第二相似度得分。
进一步地,所述第一相似度得分、第二相似度得分和第三相似度得分分别对应不同的权重,将所述第一相似度得分、第二相似度得分和第三相似度得分分别乘以各自对应权重后进行求和运算,获得地址文本对的相似度得分。
第二方面,本发明实施例一种多路融合地址相似度计算装置,所述装置包括:
接收模块,用于接收待确定相似度的地址文本对,所述地址文本对包括多个地址元素;
切分模块,用于将所述地址文本对与标准地址库进行比对,将所述地址文本对切分为第一地址文本对和第二地址文本对,其中,所述第一地址文本对指的是所述地址文本对中能与所述标准地址库匹配的地址元素,所述第二地址文本对指的是不能与所述标准地址库匹配的地址元素;
第一计算模块,用于计算所述第一地址文本对中同一级别的地址元素之间的相似度,获得第一相似度得分;
标准化模块,用于将所述第二地址文本对输入自然语言处理模型按照地址元素进行级别划分,得到标准化后的第二地址文本对;
第二计算模块,用于计算所述标准化后的第二地址文本对中同一级别的地址元素之间的相似度,获得第二相似度得分;
第三计算模块,用于计算所述第二地址文本对的字符串相似度,获得第三相似度得分;
融合模块,用于将所述第一相似度得分、第二相似度得分和第三相似度得分融合后,获得所述地址文本对的相似度得分。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述第一方面中任一项所述的方法。
第四方面,本发明实施例提供一种设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述第一方面中任一项所述的方法。
本发明提供的技术方案,通过将待确定相似度的地址文本对与标准地址库进行比对后,划分为能与所述标准地址库匹配的第一地址文本对和不能与所述标准地址库匹配的第二地址文本对,之后对第一地址文本对和第二地址文本对分别采用不同的相似度计算方法,针对第一地址文本对,计算第一地址文本对中同一级别的地址元素之间的相似度,获得第一相似度得分,针对第二地址文本对,分别采用两种方法计算相似度,第一种方法是是将第二地址文本对输入自然语言处理模型中按照地址元素进行级别划分,得到标准化后的第二地址文本对,之后计算标准化后的第二地址文本对的相似度,得到第二相似度得分,第二种方法是计算第二地址文本对的字符串相似度,得到第三相似度得分,最后将第一相似度得分、第二相似度得分和第三相似度得分融合后获得待确定相似度的地址文本的相似度得分。由此,本申请通过将待确定的地址文本对划分为第一地址文本对和第二地址文本对,并对第一地址文本对和第二地址文本对分别采用不同的相似度计算方法后再将相似度得分进行融合,能够提高地址文本对的相似度得分的准确率和速度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1是本发明实施例提供的一种多路融合地址相似度计算方法的流程图;
图2是本发明实施例提供的一种多路融合地址相似度计算方法的示意图;
图3是本发明实施例提供的一种多路融合地址相似度计算装置的结构图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种重大突发事件的分析方法的流程图,所述方法包括以下步骤:
步骤101、接收待确定相似度的地址文本对,所述地址文本对包括多个地址元素。
在本步骤中,地址文本,比如“南京市解放大道50号”、“广东省深圳市南山区翠苑街道后海大道2378号翠苑小区”等包含地址信息的文本。地址文本包括多个级别从高到低排列的地址元素。
地址文本对,指的是待确定相似度的两个地址文本。
地址元素,指的是构成地址文本的各个粒度的要素,比如“广东省深圳市南山区翠苑街道后海大道2378号翠苑小区”,“广东省”表示省级行政区、“深圳市”表示市级行政区、“南山区”表示县级行政区、“翠苑街道”表示乡级行政区、“后海大道”表示道路、村、社区、“2378号”表示门牌、道路号、“翠苑小区”表示住宅小区。
地址级别,指的是地址中的地址元素对应的区域具有大小包含的关系,即地址元素具有相应的地址级别,例如:省、市、县、乡、道路/村/社区、门牌/道路号、小区。其中,“南京市”和“深圳市”是具有相同级别的地址元素。
由于地址文本天然包含层级关系,不同级别的地址元素在地址相似度计算中起到不同的作用。本发明实施例利用地址文本中的层级关系自动生成不同级别地址元素的权重。
步骤102、将所述地址文本对与标准地址库进行比对,将所述地址文本对切分为第一地址文本对和第二地址文本对,其中,所述第一地址文本对指的是所述地址文本对中能与所述标准地址库匹配的地址元素,所述第二地址文本对指的是不能与所述标准地址库匹配的地址元素。
在本步骤中,标准地址库指的是已有的五级行政地址文本构造的地址树,也可以是已有的七级行政地址文本构造的地址树,本发明对行政级别的划分级数不作限定。
将待确定相似度的地址文本对与标准地址库进行比对,将待确定相似度的两个地址文本均切分为第一地址文本和第二地址文本,其中,所述第一地址文本对指的是所述地址文本对中能与所述标准地址库匹配的地址元素,所述第二地址文本对指的是不能与所述标准地址库匹配的地址元素。由于第一地址文本对和第二地址文本的地址元素具各自的特点,因此,针对第一地址文本和第二地址文本采用不同的计算相似度的方法,以提高相似度计算的准确性和可靠性。
步骤103、计算所述第一地址文本对中同一级别的地址元素之间的相似度,获得第一相似度得分。
在本步骤中,按照级别从高到低依次计算第一地址文本对中同一级别的地址元素之间的相似度。例如,第一地址文本对中省级行政区的地址元素的相似度,再计算市级行政区的地址元素的相似度。
在一些实施例中,当上一级别的地址元素之间的相似度的得分大于阈值时,才能计算下一级别的地址元素之间的相似度,当所述第一地址文本对中上一级别的地址元素之间的相似度得分不大于阈值时,则当前级别及往下级别的地址元素的相似度得分为0。
例如:当第一地址文本对中省级行政区的地址元素的相似度得分大于阈值时,也即省级行政区的地址元素完全匹配,接下来计算市级行政区的地址元素的相似度得分,按照级别从高到低依次计算各级别的地址元素的相似度;当第一地址文本对中县级行政区的地址元素的相似度得分不大于阈值时,则直接将乡级行政区、道路/村/社区、门牌/道路号、小区等后续级别的地址元素的相似度得分记为0分。
在一些实施例中,将第一地址文本对中不同级别的地址元素之间的相似度得分乘以各级别对应权重后进行求和,获得第一相似度得分。
例如,以上述例子为例,假如省级行政区的地址元素的相似度得分为a1,权重为w1,市级行政区的地址元素的相似度得分为a2,权重为w2,县级行政区、乡级行政区、道路/村/社区、门牌/道路号、小区等地址元素的相似度得分为0,则第一相似度得分为a1*w1+a2*w2。
步骤104、将所述第二地址文本对输入自然语言处理模型按照地址元素进行级别划分,得到标准化后的第二地址文本对。
在本步骤中,自然语言处理模型可以是NLP(NaturalLanguageProcess,简称NLP)模型,将第二地址文本对中的两个地址文本分别输入NLP模型中按照地址元素进行级别划分,分别得到标准化后的第二地址文本对。
步骤105、计算所述标准化后的第二地址文本对中同一级别的地址元素之间的相似度,获得第二相似度得分。
在本步骤中,针对标准化后的第二地址文本对,可以采用跟步骤103中第一地址文本对中相似度的方法来计算标准化后第二地址文本对的相似度。可参照步骤103中阐述的内容进行理解,此处不再赘述。
步骤106、计算所述第二地址文本对的字符串相似度,获得第三相似度得分。
在步骤中,为了进一步提高第二地址文本对的相似度得分的精度,此处采用第二种方法计算第二地址文本对的相似度得分,即比较第二地址文本对中两个文本相同字符个数,从而得出其相似度。本申请中采用的字符串相似度得分计算方法可以是余弦相似、欧式距离、编辑距离、海明距离、Dice距离、J-W距离中的任何一种。
步骤107、将所述第一相似度得分、第二相似度得分和第三相似度得分融合后,获得所述地址文本对的相似度得分。
在本步骤中,第一相似度得分、第二相似度得分和第三相似度得分分别有对应的权重,所述权重可以是本领域技术人员根据经验设定的值,将第一相似度得分、第二相似度得分和第三相似度得分乘以各自对应的权重后进行加和运算,得到待确定相似度的地址文本对的最终相似度得分。
请参照图2,图2是本发明实施例提供的多路融合地址相似度计算方法的示意图。
第一步,输入地址文本1和地址文本2。
第二步,分别将地址文本1和地址文本2跟已有的五级行政地址树匹配,获得地址文本1的最匹配的行政地址(第一地址文本1)和地址文本2的最匹配的行政地址(第一地址文本2),若步骤2中地址文本1和地址文本2与五级行政地址树完全匹配,则可以直接计算地址文本1和地址文本2的相似度获得最终的相似度得分;若步骤2中地址文本1和地址文本2与五级行政地址树不完全匹配,则获得地址文本1的不能被行政化的后半部分地址(第二地址文本1)和地址文本2的不能被行政化的后半部分地址(第二地址文本2)。
在第二步中,第一地址文本1和第一地址文本2的最匹配的行政地址按照级别从高到低依次计算相似度得分,当上一级地址要素完全匹配时,才能进入下一级地址要素的相似度计算,否则,后续级别的地址要素不再计算相似度,直接将后续级别的地址要素的相似度得分记录为0。其中,将各级别的地址要素的相似度得分进行加权后获得基于层级地址要素的行政地址相似度得分(第一相似度得分)
第三步,地址文本1和地址文本2中不能被行政地址匹配的后半部分(第二地址文本1、第二地址文本2),将其分别输入NLP模型按照地址要素进行级别划分,分别得到标准化后的第二地址文本1和标准化后的第二地址文本2,之后采用第二步中第一地址文本1和第一地址文本2的相似度得分类似的方法,计算标准化后第二地址文本1和标准化后的第二地址文本2的相似得分,即基于地址要素的像素得分(第二相似度得分)。
第四步,对第二地址文本1和第二地址文本2进各种字符串的相似度计算,获得基于字符的地址相似度得分(第三相似度得分)。
第五步,将第二步、第三步、第四步中得到的第一相似度得分、第二相似度得分、第三相似度得分进行加权求和,得到融合结果,即最终的相似度得分。
请参照图3,图3是本发明实施例提供的一种多路融合地址相似度计算装置的结构图,所述装置包括:
接收模块21,用于接收待确定相似度的地址文本对,所述地址文本对包括多个地址元素;
切分模块22,用于将所述地址文本对与标准地址库进行比对,将所述地址文本对切分为第一地址文本对和第二地址文本对,其中,所述第一地址文本对指的是所述地址文本对中能与所述标准地址库匹配的地址元素,所述第二地址文本对指的是不能与所述标准地址库匹配的地址元素;
第一计算模块23,用于计算所述第一地址文本对中同一级别的地址元素之间的相似度,获得第一相似度得分;
标准化模块24,用于将所述第二地址文本对输入自然语言处理模型按照地址元素进行级别划分,得到标准化后的第二地址文本对;
第二计算模块25,用于计算所述标准化后的第二地址文本对中同一级别的地址元素之间的相似度,获得第二相似度得分;
第三计算模块26,用于计算所述第二地址文本对的字符串相似度,获得第三相似度得分;
融合模块27,用于将所述第一相似度得分、第二相似度得分和第三相似度得分融合后,获得所述地址文本对的相似度得分。
在一些优选实施例中,第一计算模块23按照级别从高到低依次计算所述第一地址文本对中同一级别的地址元素之间的相似度。
在一些优选实施例中,第一计算模块23,当所述第一地址文本对中上一级别的地址元素之间的相似度得分大于阈值时,计算下一级别的地址元素之间的相似度得分。
在一些优选实施例中,第一计算模块23,当所述第一地址文本对中上一级别的地址元素之间的相似度得分不大于阈值时,则当前级别及往下级别的地址元素的相似度得分为0。
在一些优选实施例中,第一计算模块23将第一地址文本对中不同级别的地址元素之间的相似度得分乘以各级别对应权重后进行求和,获得第一相似度得分。
在一些优选实施例中,第二计算模块25将第二地址文本对中不同级别的地址元素之间的相似度得分乘以各级别对应权重后进行加权求和,获得第一相似度得分。
在一些优选实施例中,所述第一相似度得分、第二相似度得分和第三相似度得分分别对应不同的权重,融合模块27将所述第一相似度得分、第二相似度得分和第三相似度得分分别乘以各自对应权重后进行求和运算,获得地址文本对的相似度得分。
本发明提供的技术方案,通过将待确定相似度的地址文本对与标准地址库进行比对后,划分为能与所述标准地址库匹配的第一地址文本对和不能与所述标准地址库匹配的第二地址文本对,之后对第一地址文本对和第二地址文本对分别采用不同的相似度计算方法,针对第一地址文本对,计算第一地址文本对中同一级别的地址元素之间的相似度,获得第一相似度得分,针对第二地址文本对,分别采用两种方法计算相似度,第一种方法是是将第二地址文本对输入自然语言处理模型中按照地址元素进行级别划分,得到标准化后的第二地址文本对,之后计算标准化后的第二地址文本对的相似度,得到第二相似度得分,第二种方法是计算第二地址文本对的字符串相似度,得到第三相似度得分,最后将第一相似度得分、第二相似度得分和第三相似度得分融合后获得待确定相似度的地址文本的相似度得分。由此,本申请通过将待确定的地址文本对划分为第一地址文本对和第二地址文本对,并对第一地址文本对和第二地址文本对分别采用不同的相似度计算方法后再将相似度得分进行融合,能够提高地址文本对的相似度得分的准确率和速度。
需要说明的是,本发明实施例中的多路融合地址相似度计算装置与上述实施例中的多路融合地址相似度计算方法属于相同的发明构思,未在本装置中详述的技术细节可参见前面对方法的相关描述,在此不再赘述。
此外,本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行前面所述的方法。
图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如空闲检测方法。
在一些实施例中,空闲检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时,可以执行上文描述的空闲检测方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行空闲检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种多路融合地址相似度计算方法,其特征在于,所述方法包括:
接收待确定相似度的地址文本对,所述地址文本对包括多个地址元素;
将所述地址文本对与标准地址库进行比对,将所述地址文本对切分为第一地址文本对和第二地址文本对,其中,所述第一地址文本对指的是所述地址文本对中能与所述标准地址库匹配的地址元素,所述第二地址文本对指的是不能与所述标准地址库匹配的地址元素;
计算所述第一地址文本对中同一级别的地址元素之间的相似度,获得第一相似度得分;
将所述第二地址文本对输入自然语言处理模型按照地址元素进行级别划分,得到标准化后的第二地址文本对;
计算所述标准化后的第二地址文本对中同一级别的地址元素之间的相似度,获得第二相似度得分;
计算所述第二地址文本对的字符串相似度,获得第三相似度得分;
将所述第一相似度得分、第二相似度得分和第三相似度得分融合后,获得所述地址文本对的相似度得分。
2.根据权利要求1所述的方法,其特征在于,按照级别从高到低依次计算所述第一地址文本对中同一级别的地址元素之间的相似度。
3.根据权利要求2所述的方法,其特征在于,当所述第一地址文本对中上一级别的地址元素之间的相似度得分大于阈值时,计算下一级别的地址元素之间的相似度得分。
4.根据权利要求3所述的方法,其特征在于,当所述第一地址文本对中上一级别的地址元素之间的相似度得分不大于阈值时,则当前级别及往下级别的地址元素的相似度得分为0。
5.根据权利要求4所述的方法,其特征在于,将第一地址文本对中不同级别的地址元素之间的相似度得分乘以各级别对应权重后进行求和,获得第一相似度得分。
6.根据权利要求1所述的方法,其特征在于,将第二地址文本对中不同级别的地址元素之间的相似度得分乘以各级别对应权重后进行加权求和,获得第二相似度得分。
7.根据权利要求1所述的方法,其特征在于,所述第一相似度得分、第二相似度得分和第三相似度得分分别对应不同的权重,将所述第一相似度得分、第二相似度得分和第三相似度得分分别乘以各自对应权重后进行求和运算,获得地址文本对的相似度得分。
8.一种多路融合地址相似度计算装置,其特征在于,所述装置包括:
接收模块,用于接收待确定相似度的地址文本对,所述地址文本对包括多个地址元素;
切分模块,用于将所述地址文本对与标准地址库进行比对,将所述地址文本对切分为第一地址文本对和第二地址文本对,其中,所述第一地址文本对指的是所述地址文本对中能与所述标准地址库匹配的地址元素,所述第二地址文本对指的是不能与所述标准地址库匹配的地址元素;
第一计算模块,用于计算所述第一地址文本对中同一级别的地址元素之间的相似度,获得第一相似度得分;
标准化模块,用于将所述第二地址文本对输入自然语言处理模型按照地址元素进行级别划分,得到标准化后的第二地址文本对;
第二计算模块,用于计算所述标准化后的第二地址文本对中同一级别的地址元素之间的相似度,获得第二相似度得分;
第三计算模块,用于计算所述第二地址文本对的字符串相似度,获得第三相似度得分;
融合模块,用于将所述第一相似度得分、第二相似度得分和第三相似度得分融合后,获得所述地址文本对的相似度得分。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的方法。
10.一种设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的方法。
CN202310090048.5A 2023-02-09 2023-02-09 多路融合地址相似度计算方法、装置、存储介质和设备 Pending CN116306627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310090048.5A CN116306627A (zh) 2023-02-09 2023-02-09 多路融合地址相似度计算方法、装置、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310090048.5A CN116306627A (zh) 2023-02-09 2023-02-09 多路融合地址相似度计算方法、装置、存储介质和设备

Publications (1)

Publication Number Publication Date
CN116306627A true CN116306627A (zh) 2023-06-23

Family

ID=86795105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310090048.5A Pending CN116306627A (zh) 2023-02-09 2023-02-09 多路融合地址相似度计算方法、装置、存储介质和设备

Country Status (1)

Country Link
CN (1) CN116306627A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628811A (zh) * 2018-04-10 2018-10-09 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN111274811A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 地址文本相似度确定方法以及地址搜索方法
CN113743080A (zh) * 2021-08-16 2021-12-03 南京星云数字技术有限公司 一种分层级地址文本相似度比对方法、装置及介质
CN114048797A (zh) * 2021-10-20 2022-02-15 盐城金堤科技有限公司 确定地址相似度的方法、装置、介质及电子设备
CN115048516A (zh) * 2022-06-10 2022-09-13 中国工商银行股份有限公司 一种地址相似度的确定方法和装置
CN115544197A (zh) * 2022-10-22 2022-12-30 武汉烽火普天信息技术有限公司 一种细粒度地址匹配方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628811A (zh) * 2018-04-10 2018-10-09 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN111274811A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 地址文本相似度确定方法以及地址搜索方法
CN113743080A (zh) * 2021-08-16 2021-12-03 南京星云数字技术有限公司 一种分层级地址文本相似度比对方法、装置及介质
CN114048797A (zh) * 2021-10-20 2022-02-15 盐城金堤科技有限公司 确定地址相似度的方法、装置、介质及电子设备
CN115048516A (zh) * 2022-06-10 2022-09-13 中国工商银行股份有限公司 一种地址相似度的确定方法和装置
CN115544197A (zh) * 2022-10-22 2022-12-30 武汉烽火普天信息技术有限公司 一种细粒度地址匹配方法及系统

Similar Documents

Publication Publication Date Title
CN107992596A (zh) 一种文本聚类方法、装置、服务器和存储介质
CN114244795B (zh) 一种信息的推送方法、装置、设备及介质
CN112767935B (zh) 唤醒指标监测方法、装置及电子设备
CN112529159B (zh) 网络训练方法、装置及电子设备
CN116340518A (zh) 文本关联矩阵的建立方法、装置、电子设备及存储介质
CN116306627A (zh) 多路融合地址相似度计算方法、装置、存储介质和设备
CN114756691A (zh) 结构图生成方法、模型的训练方法、图谱生成方法及装置
CN115292467A (zh) 信息处理与模型训练方法、装置、设备、介质及程序产品
CN112560437B (zh) 文本通顺度的确定方法、目标模型的训练方法及装置
CN112784600B (zh) 信息排序方法、装置、电子设备和存储介质
CN113901901A (zh) 图像处理模型的训练方法、装置、电子设备和介质
CN113010721A (zh) 一种图片审核方法、装置、电子设备及存储介质
CN113360798B (zh) 泛滥数据识别方法、装置、设备和介质
CN116628167B (zh) 一种响应确定方法、装置、电子设备及存储介质
CN115481285B (zh) 跨模态的视频文本匹配方法、装置、电子设备及存储介质
CN115131709B (zh) 视频类别预测方法、视频类别预测模型的训练方法及装置
CN115482809B (zh) 关键词检索方法、装置、电子设备以及存储介质
CN116186549B (zh) 模型的训练方法、装置、设备和介质
CN116611477B (zh) 数据剪枝方法和序列模型的训练方法、装置、设备和介质
CN113591464B (zh) 变体文本检测方法、模型训练方法、装置及电子设备
EP4099319A1 (en) Wake-up index monitoring method and apparatus, and electronic device
CN117611290A (zh) 一种商户节点的排序方法、装置、设备及存储介质
CN118051670A (zh) 业务推荐方法、装置、设备和介质
CN114898374A (zh) 一种图像的语义识别方法、装置、设备和存储介质
CN114281988A (zh) 文本处理方法、设备、装置、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230623