CN110276021A - 基于语义相似度的地名匹配方法及装置 - Google Patents

基于语义相似度的地名匹配方法及装置 Download PDF

Info

Publication number
CN110276021A
CN110276021A CN201910357292.7A CN201910357292A CN110276021A CN 110276021 A CN110276021 A CN 110276021A CN 201910357292 A CN201910357292 A CN 201910357292A CN 110276021 A CN110276021 A CN 110276021A
Authority
CN
China
Prior art keywords
sentence
similarity
eigenvalue
place name
dryness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910357292.7A
Other languages
English (en)
Inventor
岳祥瑞
吴峰
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wheel Interconnection Technology Shanghai Co ltd
Original Assignee
Xiaolun (shanghai) Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaolun (shanghai) Network Technology Co Ltd filed Critical Xiaolun (shanghai) Network Technology Co Ltd
Priority to CN201910357292.7A priority Critical patent/CN110276021A/zh
Publication of CN110276021A publication Critical patent/CN110276021A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于语义相似度的地名匹配方法及装置的方式,通过包括:获取进行相关度匹配的第一语句和第二语句;分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;确定所述第一特征值和第二特征值之间的相似度;根据所述相似度确定所述第一语句与所述第二语句之间是否相关联。本申请中采用的语义相似度匹配方法,利用语义相似度匹配算法,进行多种语境相似度模糊匹配,只要不同语句的相似度在阈值以上即可判定不同的语句匹配上了。本发明解决了不同语句间极大数据量的模糊匹配,比传统意义的匹配广度更广,匹配数据量更大,同时能够极大地释放了人力成本。

Description

基于语义相似度的地名匹配方法及装置
技术领域
本申请涉及语义识别技术领域,具体而言,涉及一种基于语义相似度的地名匹配方法及装置。
背景技术
现有技术中的语义识别,基本上是通过关键字精准匹配进行的;例如,当存在如下所述多个不同的位置信息时:
A:绵阳市涪城区绵兴东路38号;
B:高新区绵兴东路38号(万向汽车城)意菲Jeep4S店;
C:绵阳市高新区绵兴东路38号(万向汽车城)。
1、当通过关键字精准匹配时,由于这种匹配效率低下,不能将模糊的语义匹配在一起。例如上述列入的ABC如果精准语句的话。ABC就不会匹配在一起;但实际上ABC在我们正常理解都指向同一个地址。
2、由于数据量极大。这种精准匹配完后,需要浪费大量人力介入匹配。极其浪费人力物力。
针对相关技术中存在的诸多技术问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种基于语义相似度的地名匹配方法及装置,以解决相关技术中存在的至少一个技术问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于语义相似度的地名匹配方法。
根据本申请的基于语义相似度的地名匹配方法包括:
获取进行相关度匹配的第一语句和第二语句;
分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;
确定所述第一特征值和第二特征值之间的相似度;
根据所述相似度确定所述第一语句与所述第二语句之间是否相关联。
进一步的,如前述的基于语义相似度的地名匹配方法,还包括:预先确定用于进行去燥的去燥函数;所述预先确定用于进行去燥的去燥函数具体包括:
确定可替换为空的非关键词,并将所有所述非关键词写入非关键词库中;
获取各个路名与位置信息之间的对应关系;
根据所述非关键词库以及对应关系确定所述去燥函数。
进一步的,如前述的基于语义相似度的地名匹配方法,所述分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;包括:
通过所述去燥函数中的非关键词库分别确定所述第一语句和第二语句中的第一非关键词和第二非关键词;以及
通过所述去燥函数中的对应关系确定分别与所述第一语句和第二语句对应的第一位置信息和第二位置信息;
在所述第一语句中将所述第一非关键词和第一位置信息替换为空,并得到所述第一特征值;以及
在所述第二语句中将所述第二非关键词和第二位置信息替换为空,并得到所述第二特征值。
进一步的,如前述的基于语义相似度的地名匹配方法,所述确定所述第一特征值和第二特征值之间的相似度,包括:
基于余弦定理相似度语义匹配确定所述第一特征值和第二特征值之间的相似度。
进一步的,如前述的基于语义相似度的地名匹配方法,所述根据所述相似度确定所述第一语句与所述第二语句之间是否相关联,包括:
预设判定两个语句相互关联的关联阈值;
判断所述相似度是否超过所述关联阈值;
若超过所述关联阈值,则判定所述所述第一语句与所述第二语句之间相关联;否则,判定所述所述第一语句与所述第二语句之间不相关联。
为了实现上述目的,根据本申请的另一方面,提供了一种基于语义相似度的地名匹配装置。
根据本申请的基于语义相似度的地名匹配装置包括:
语句获取单元,用于获取进行相关度匹配的第一语句和第二语句;
特征值获取单元,用于分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;
相似度判断单元,用于确定所述第一特征值和第二特征值之间的相似度;
判定单元,用于根据所述相似度确定所述第一语句与所述第二语句之间是否相关联。
进一步的,如前述的基于语义相似度的地名匹配装置,还包括:去燥函数确定单元;所述去燥函数确定单元包括:
非关键词库模块,用于确定可替换为空的非关键词,并将所有所述非关键词写入非关键词库中;
对应模块,用于获取各个路名与位置信息之间的对应关系;
函数确定模块,用于根据所述非关键词库以及对应关系确定所述去燥函数。
进一步的,如前述的基于语义相似度的地名匹配装置,所述特征值获取单元包括:
非关键词确定模块,用于通过所述去燥函数中的非关键词库分别确定所述第一语句和第二语句中的第一非关键词和第二非关键词;以及
位置信息确定模块,用于通过所述去燥函数中的对应关系确定分别与所述第一语句和第二语句对应的第一位置信息和第二位置信息;
第一特征值确定模块,用于在所述第一语句中将所述第一非关键词和第一位置信息替换为空,并得到所述第一特征值;以及
第二特征值确定模块,用于在所述第二语句中将所述第二非关键词和第二位置信息替换为空,并得到所述第二特征值。
进一步的,如前述的基于语义相似度的地名匹配装置,所述相似度判断单元,具体包括:
基于余弦定理相似度语义匹配确定所述第一特征值和第二特征值之间的相似度。
进一步的,如前述的基于语义相似度的地名匹配装置,所述判定单元包括:
关联阈值预设模块,用于预设判定两个语句相互关联的关联阈值;
判断模块,用于判断所述相似度是否超过所述关联阈值;
判定模块,用于若超过所述关联阈值,则判定所述所述第一语句与所述第二语句之间相关联;否则,判定所述所述第一语句与所述第二语句之间不相关联。
在本申请实施例中,采用一种基于语义相似度的地名匹配方法及装置的方式,通过包括:获取进行相关度匹配的第一语句和第二语句;分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;确定所述第一特征值和第二特征值之间的相似度;根据所述相似度确定所述第一语句与所述第二语句之间是否相关联。本申请中采用的语义相似度匹配方法,利用语义相似度匹配算法,进行多种语境相似度模糊匹配,只要不同语句的相似度在阈值以上即可判定不同的语句匹配上了。本发明解决了不同语句间极大数据量的模糊匹配,比传统意义的匹配广度更广,匹配数据量更大;以10万数据为基准,传统精准匹配只能匹配不到10分之一,但语义相似度匹配匹配数据量大概在3/4;极大释放了人力成本。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的基于语义相似度的地名匹配方法的方法流程示意图;以及
图2是根据本申请一种实施例的基于语义相似度的地名匹配装置的功能模块结构示意图;
图3是根据本申请的基于语义相似度的地名匹配方法的一应用场景。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例,提供了一种基于语义相似度的地名匹配方法。如图1所示,该方法包括如下的步骤S1至步骤S4:
根据本申请的基于语义相似度的地名匹配方法包括:
S1.获取进行相关度匹配的第一语句和第二语句;
具体的,在此基础上还可以包括第三语句、第四语句等等;
S2.分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;
S3.确定所述第一特征值和第二特征值之间的相似度;
具体的,所述相似度可以通过判断所述第一特征值和第二特征值之间一致的词得到,优选的,为防止语句在输入或采集的过程中出现错误,可以对语音及字形进行纠错处理,以提高匹配的准确率;
S4.根据所述相似度确定所述第一语句与所述第二语句之间是否相关联。
一般的,相似度越高则说明所述第一语句与所述第二语句之间的关联度越高。
在一些实施例中,如前述的基于语义相似度的地名匹配方法,还包括:预先确定用于进行去燥的去燥函数;所述预先确定用于进行去燥的去燥函数具体包括:
确定可替换为空的非关键词,并将所有所述非关键词写入非关键词库中;
一般的,所述非关键词可以是例如:的、了、和、吗等连接词或语气词,以及有限公司、科技、集团等无法表现出主要特征的词;因此可以减少无用的词,减少数据处理量;
获取各个路名与位置信息之间的对应关系;
具体的,当路名是南京西路时,则获取南京西路对应的位置信息:上海市静安区;因此在处理时,当语句中存在相应的位置信息时,可以将对应的位置信息进行删除,减少匹配的数据处理量;
根据所述非关键词库以及对应关系确定所述去燥函数。
也就是说,通过该去燥函数可以根据所述非关键词库以及对应关系去除相应的非关键词以及位置信息;优选的,采用将非关键词以及位置信息替换为空的方式进行去除。
在一些实施例中,如前述的基于语义相似度的地名匹配方法,所述分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;包括:
通过所述去燥函数中的非关键词库分别确定所述第一语句和第二语句中的第一非关键词和第二非关键词;以及
通过所述去燥函数中的对应关系确定分别与所述第一语句和第二语句对应的第一位置信息和第二位置信息;
也就是说,通过上述方法将所述第一语句和第二语句中非特征的词进行删除;
在所述第一语句中将所述第一非关键词和第一位置信息替换为空,并得到所述第一特征值;以及
在所述第二语句中将所述第二非关键词和第二位置信息替换为空,并得到所述第二特征值。
具体的,将上述非特征的词替换为空,可以大大减少数据处理量。
在一些实施例中,如前述的基于语义相似度的地名匹配方法,所述确定所述第一特征值和第二特征值之间的相似度,包括:
基于余弦定理相似度语义匹配确定所述第一特征值和第二特征值之间的相似度。
具体的,所述余弦定理相似度语义匹配的原理是:
(1)分别统计第一特征值和第二特征值中所有字出现的频率,从而得出两个文本对应的向量;
(2)利用余弦定理计算这两个向量的夹角余弦值。
在一些实施例中,如前述的基于语义相似度的地名匹配方法,所述根据所述相似度确定所述第一语句与所述第二语句之间是否相关联,包括:
预设判定两个语句相互关联的关联阈值;
判断所述相似度是否超过所述关联阈值;
若超过所述关联阈值,则判定所述所述第一语句与所述第二语句之间相关联;否则,判定所述所述第一语句与所述第二语句之间不相关联。
在一些实施例中,所述根据所述相似度确定所述第一语句与所述第二语句之间是否相关联,还包括:
预设相似度的距离阈值;
获取与所述第一语句中的位置对应的第一经纬度信息;以及
获取与所述第二语句中的位置对应的第二经纬度信息;
也就是说,判定所述所述第一语句以及第二语句
判定所述第一经纬度信息与所述第二经纬度信息之间的相似度;其中,该实施例中的所述相似度为:第一经纬度信息与所述第二经纬度信息之间的距离;
判断所述相似度是否超过所述距离阈值;
若小于所述距离阈值,则判定所述所述第一语句与所述第二语句之间相关联;否则,判定所述所述第一语句与所述第二语句之间不相关联。
也就是说,当所述第一语句与所述第二语句所得到的定位位置之间的距离大于所述距离阈值时,则判定两个语句指向的不是同一个位置,则判定两个语句不相关联;否则判定两个位置相关联。一般的,本申请尤其适用于同一品牌不同店铺之间进行数据统计时的语句识别,因此,由于一般不会出现两个店铺相邻很近的情况,只要在距离阈值内时,即可判定两个语句指向的都是同一个店铺。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述基于语义相似度的地名匹配方法的基于语义相似度的地名匹配装置,如图2所示,该装置包括:
语句获取单元1,用于获取进行相关度匹配的第一语句和第二语句;
特征值获取单元2,用于分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;
相似度判断单元3,用于确定所述第一特征值和第二特征值之间的相似度;
判定单元4,用于根据所述相似度确定所述第一语句与所述第二语句之间是否相关联。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的基于语义相似度的地名匹配装置,还包括:去燥函数确定单元;所述去燥函数确定单元包括:
非关键词库模块,用于确定可替换为空的非关键词,并将所有所述非关键词写入非关键词库中;
对应模块,用于获取各个路名与位置信息之间的对应关系;
函数确定模块,用于根据所述非关键词库以及对应关系确定所述去燥函数。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的基于语义相似度的地名匹配装置,所述特征值获取单元包括:
非关键词确定模块,用于通过所述去燥函数中的非关键词库分别确定所述第一语句和第二语句中的第一非关键词和第二非关键词;以及
位置信息确定模块,用于通过所述去燥函数中的对应关系确定分别与所述第一语句和第二语句对应的第一位置信息和第二位置信息;
第一特征值确定模块,用于在所述第一语句中将所述第一非关键词和第一位置信息替换为空,并得到所述第一特征值;以及
第二特征值确定模块,用于在所述第二语句中将所述第二非关键词和第二位置信息替换为空,并得到所述第二特征值。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的基于语义相似度的地名匹配装置,所述相似度判断单元,具体包括:
基于余弦定理相似度语义匹配确定所述第一特征值和第二特征值之间的相似度。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
在一些实施例中,如前述的基于语义相似度的地名匹配装置,所述判定单元包括:
关联阈值预设模块,用于预设判定两个语句相互关联的关联阈值;
判断模块,用于判断所述相似度是否超过所述关联阈值;
判定模块,用于若超过所述关联阈值,则判定所述所述第一语句与所述第二语句之间相关联;否则,判定所述所述第一语句与所述第二语句之间不相关联。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
如图3所示,图3是根据归属位置寄存器(HLR)内存储的签约移动用户的位置信息,通过私有信息中心号码向短信服务中心发送用户所在地名位置信息,通过本申请提出的基于语义相似度的地名匹配方法,对接收到的地名位置信息进行匹配处理,并将处理结果发送至终端。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于语义相似度的地名匹配方法,其特征在于,包括:
获取进行相关度匹配的第一语句和第二语句;
分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;
确定所述第一特征值和第二特征值之间的相似度;
根据所述相似度确定所述第一语句与所述第二语句之间是否相关联。
2.根据权利要求1所述的基于语义相似度的地名匹配方法,其特征在于,还包括:预先确定用于进行去燥的去燥函数;所述预先确定用于进行去燥的去燥函数具体包括:
确定可替换为空的非关键词,并将所有所述非关键词写入非关键词库中;
获取各个路名与位置信息之间的对应关系;
根据所述非关键词库以及对应关系确定所述去燥函数。
3.根据权利要求2所述的基于语义相似度的地名匹配方法,其特征在于,所述分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;包括:
通过所述去燥函数中的非关键词库分别确定所述第一语句和第二语句中的第一非关键词和第二非关键词;以及
通过所述去燥函数中的对应关系确定分别与所述第一语句和第二语句对应的第一位置信息和第二位置信息;
在所述第一语句中将所述第一非关键词和第一位置信息替换为空,并得到所述第一特征值;以及
在所述第二语句中将所述第二非关键词和第二位置信息替换为空,并得到所述第二特征值。
4.根据权利要求1所述的基于语义相似度的地名匹配方法,其特征在于,所述确定所述第一特征值和第二特征值之间的相似度,包括:
基于余弦定理相似度语义匹配确定所述第一特征值和第二特征值之间的相似度。
5.根据权利要求4所述的基于语义相似度的地名匹配方法,其特征在于,所述根据所述相似度确定所述第一语句与所述第二语句之间是否相关联,包括:
预设判定两个语句相互关联的关联阈值;
判断所述相似度是否超过所述关联阈值;
若超过所述关联阈值,则判定所述所述第一语句与所述第二语句之间相关联;否则,判定所述所述第一语句与所述第二语句之间不相关联。
6.一种基于语义相似度的地名匹配装置,其特征在于,包括:
语句获取单元,用于获取进行相关度匹配的第一语句和第二语句;
特征值获取单元,用于分别对所述第一语句和第二语句进行去燥并得到第一特征值和第二特征值;
相似度判断单元,用于确定所述第一特征值和第二特征值之间的相似度;
判定单元,用于根据所述相似度确定所述第一语句与所述第二语句之间是否相关联。
7.根据权利要求6所述的基于语义相似度的地名匹配装置,其特征在于,还包括:去燥函数确定单元;所述去燥函数确定单元包括:
非关键词库模块,用于确定可替换为空的非关键词,并将所有所述非关键词写入非关键词库中;
对应模块,用于获取各个路名与位置信息之间的对应关系;
函数确定模块,用于根据所述非关键词库以及对应关系确定所述去燥函数。
8.根据权利要求7所述的基于语义相似度的地名匹配装置,其特征在于,所述特征值获取单元包括:
非关键词确定模块,用于通过所述去燥函数中的非关键词库分别确定所述第一语句和第二语句中的第一非关键词和第二非关键词;以及
位置信息确定模块,用于通过所述去燥函数中的对应关系确定分别与所述第一语句和第二语句对应的第一位置信息和第二位置信息;
第一特征值确定模块,用于在所述第一语句中将所述第一非关键词和第一位置信息替换为空,并得到所述第一特征值;以及
第二特征值确定模块,用于在所述第二语句中将所述第二非关键词和第二位置信息替换为空,并得到所述第二特征值。
9.根据权利要求6所述的基于语义相似度的地名匹配装置,其特征在于,所述相似度判断单元,具体包括:
基于余弦定理相似度语义匹配确定所述第一特征值和第二特征值之间的相似度。
10.根据权利要求9所述的基于语义相似度的地名匹配装置,其特征在于,所述判定单元包括:
关联阈值预设模块,用于预设判定两个语句相互关联的关联阈值;
判断模块,用于判断所述相似度是否超过所述关联阈值;
判定模块,用于若超过所述关联阈值,则判定所述所述第一语句与所述第二语句之间相关联;否则,判定所述所述第一语句与所述第二语句之间不相关联。
CN201910357292.7A 2019-04-29 2019-04-29 基于语义相似度的地名匹配方法及装置 Withdrawn CN110276021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910357292.7A CN110276021A (zh) 2019-04-29 2019-04-29 基于语义相似度的地名匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910357292.7A CN110276021A (zh) 2019-04-29 2019-04-29 基于语义相似度的地名匹配方法及装置

Publications (1)

Publication Number Publication Date
CN110276021A true CN110276021A (zh) 2019-09-24

Family

ID=67960379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910357292.7A Withdrawn CN110276021A (zh) 2019-04-29 2019-04-29 基于语义相似度的地名匹配方法及装置

Country Status (1)

Country Link
CN (1) CN110276021A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325235A (zh) * 2020-01-19 2020-06-23 南京师范大学 面向多语种的通用地名语义相似度计算方法及其应用
CN111625468A (zh) * 2020-06-05 2020-09-04 中国银行股份有限公司 一种测试案例去重方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325235A (zh) * 2020-01-19 2020-06-23 南京师范大学 面向多语种的通用地名语义相似度计算方法及其应用
WO2021142968A1 (zh) * 2020-01-19 2021-07-22 南京师范大学 面向多语种的通用地名语义相似度计算方法及其应用
CN111325235B (zh) * 2020-01-19 2023-04-25 南京师范大学 面向多语种的通用地名语义相似度计算方法及其应用
CN111625468A (zh) * 2020-06-05 2020-09-04 中国银行股份有限公司 一种测试案例去重方法及装置
CN111625468B (zh) * 2020-06-05 2024-04-16 中国银行股份有限公司 一种测试案例去重方法及装置

Similar Documents

Publication Publication Date Title
CN109299110B (zh) 数据查询方法、装置、存储介质和电子设备
CN105550298B (zh) 一种关键词模糊匹配的方法及装置
CN104834855B (zh) 一种系统数据的获取方法、装置和移动终端
CN105528372A (zh) 一种地址搜索方法和设备
CN110276021A (zh) 基于语义相似度的地名匹配方法及装置
CN101986672B (zh) 一种信息处理方法及装置
CN105808251A (zh) 一种基于虚函数表劫持绕过安全检测的方法与系统
CN103902535A (zh) 获取联想词的方法、装置及系统
CN111143597A (zh) 图像检索方法、终端及存储装置
CN108040354A (zh) 一种连接蓝牙设备的方法、系统、电子设备及服务器
CN109871251A (zh) 一种响应数据的处理方法、装置、存储介质及终端设备
CN112559745A (zh) 一种确定热点事件的方法和相关装置
CN112328910A (zh) 一种涵盖aoi和poi标准地址匹配引擎的方法及系统
CN113837669B (zh) 一种标签体系的评价指标构建方法和相关装置
CN111027316A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN105302827A (zh) 一种事件的搜索方法和设备
CN105574112A (zh) 一种通信过程的评论信息处理方法及系统
CN108833110A (zh) 数字资产处理方法及装置
CN110263120A (zh) 语料标注方法及装置
CN110234082A (zh) 一种移动终端的寻址方法、装置、存储介质和服务器
CN112817967B (zh) 流量数据存储方法、装置、电子设备及存储介质
WO2021012772A1 (zh) 语音信息的处理方法及装置、存储介质和电子装置
CN110636164B (zh) 陌生号码匹配方法、装置、设备及存储介质
CN109033070B (zh) 一种数据处理方法、服务器及计算机可读介质
KR20220139626A (ko) 인공신경망 기반 오픈소스 한국어 이해 파이프라인 최적화 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210207

Address after: Room 308, 3 / F, unit 2, No. 231, Shibo Village Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 200131

Applicant after: Wheel interconnection technology (Shanghai) Co.,Ltd.

Address before: Room jt3151, 7 / F, building 7, No. 328, Jiajian Road, Jiading District, Shanghai 200125

Applicant before: Xiaolun (Shanghai) Network Technology Co.,Ltd.

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190924