CN105528372B - 一种地址搜索方法和设备 - Google Patents

一种地址搜索方法和设备 Download PDF

Info

Publication number
CN105528372B
CN105528372B CN201410525978.XA CN201410525978A CN105528372B CN 105528372 B CN105528372 B CN 105528372B CN 201410525978 A CN201410525978 A CN 201410525978A CN 105528372 B CN105528372 B CN 105528372B
Authority
CN
China
Prior art keywords
address
information
subaddress
address information
searched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410525978.XA
Other languages
English (en)
Other versions
CN105528372A (zh
Inventor
齐泉
张九龙
李航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410525978.XA priority Critical patent/CN105528372B/zh
Priority to EP15846022.0A priority patent/EP3153978B1/en
Priority to PCT/CN2015/079816 priority patent/WO2016050088A1/zh
Publication of CN105528372A publication Critical patent/CN105528372A/zh
Priority to US15/398,260 priority patent/US10783171B2/en
Application granted granted Critical
Publication of CN105528372B publication Critical patent/CN105528372B/zh
Priority to US16/929,611 priority patent/US20200349175A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3611Destination input or retrieval using character input or menus, e.g. menus of POIs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种地址搜索方法和设备,包括:获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,提升了提取目标地址信息的正确率;而且有效地提高了地址匹配的正确率及地址搜索的精度。

Description

一种地址搜索方法和设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种地址搜索方法和设备。
背景技术
随着通信技术和终端技术的发展,越来越多的应用依赖移动终端。尤其是导航类应用。例如:用户可以通过语音方式或者文字输入方式向移动终端发起导航请求,由导航类应用根据接收到的导航请求选择导航路线,并将选择的导航路线推送给用户。
具体地,导航类应用根据接收到的导航请求选择导航路线的方式包括但不限于:
当所述导航请求以文字形式输入时,采用CRF(英文:Condition RandomField;中文:条件随机场)算法,从接收到的导航请求中提取地址名称、建筑名称/单位名称,利用提取出的地址名称、建筑名称/单位名称确定导航请求的目标地址。
当所述导航请求以语音形式输入时,以该语音中包含的地址信息作为搜索依据,确定导航请求的目标地址。
存在的缺陷是:在确定目标地址时,单一利用从文字或者语音中提取出的地址名称(或者建筑名称/单位名称)和地址数据库中的地址信息进行匹配,使得确定出的目标地址集合中包含大量不相关的地址,降低了地址的搜索精度。
发明内容
有鉴于此,本发明实施例提供了一种地址搜索方法和设备,用于解决目前存在的在地址搜索过程中,搜索到大量不相关的地址,导致地址的搜索精度较低的问题。
根据本发明的第一方面,提供了一种地址搜索方法,包括:
获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;
将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;
将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;
将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。
结合本发明第一方面可能的实施方式,在第一种可能的方式中,获取地址搜索请求信息,包括:
接收输入的语音数据,其中,所述语音数据用以发起地址搜索;
对所述语音数据进行识别,得到所述语音数据中包含的待搜索的目标地址信息。
结合本发明第一方面可能的实施方式,或者结合本发明第一方面第一种可能的实施方式,在第二种可能的方式中,通过以下方式得到待搜索的目标地址信息:
确定所述地址搜索请求信息中包含的至少一个关键词;
针对确定的每一个关键词,执行:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词;
利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息;
在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串;
将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
结合本发明第一方面第二种可能的实施方式,在第三种可能的实施方式中,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串,包括:
确定所述字符串组包含的字符串为多个、且在多个字符串分别替换的关键词在所述地址搜索请求信息中位置连续;
若多个字符串不存在重复时,将所述多个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串;
若多个字符串存在重复时,去除重复的字符串,并将去除重复的字符串后的至少一个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串。
结合本发明第一方面可能的实施方式,或者结合本发明第一方面第一种可能的实施方式,或者结合本发明第一方面第二种可能的实施方式,或者结合本发明第一方面第三种可能的实施方式,在第四种可能的方式中,将所述目标地址信息拆分为至少一个子地址信息,包括:
根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
结合本发明第一方面可能的实施方式,或者结合本发明第一方面第一种可能的实施方式,或者结合本发明第一方面第二种可能的实施方式,或者结合本发明第一方面第三种可能的实施方式,或者结合本发明第一方面第四种可能的实施方式,在第五种可能的方式中,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
结合本发明第一方面可能的实施方式,或者结合本发明第一方面第一种可能的实施方式,或者结合本发明第一方面第二种可能的实施方式,或者结合本发明第一方面第三种可能的实施方式,或者结合本发明第一方面第四种可能的实施方式,或者结合本发明第一方面第五种可能的实施方式,在第六种可能的方式中,将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,包括:将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
结合本发明第一方面可能的实施方式,或者结合本发明第一方面第一种可能的实施方式,或者结合本发明第一方面第二种可能的实施方式,或者结合本发明第一方面第三种可能的实施方式,或者结合本发明第一方面第四种可能的实施方式,或者结合本发明第一方面第五种可能的实施方式,在第七种可能的方式中,将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,包括:
从地址数据库中选择一个地址信息,确定选择的地址信息中包含的子地址信息;
分别将待搜索的目标地址中包含的至少一个子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,其中,进行匹配计算的所述待搜索的目标地址中包含的子地址信息的地址类型与选择的地址信息中包含的子地址信息的地址类型相同;
根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
结合本发明第一方面第七种可能的实施方式,在第八种可能的方式中,根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度,包括:
将选择的地址信息与待搜索的目标地址信息进行匹配计算,得到第二匹配度;
根据所述第一匹配度和所述第二匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
结合本发明第一方面第六种可能的实施方式,或者结合本发明第一方面第七种可能的实施方式,或者结合本发明第一方面第八种可能的实施方式,在第九种可能的方式中,将待搜索的目标地址中包含的子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,包括:
针对待搜索的目标地址信息中包含的每一个子地址信息,执行:
针对该子地址信息,从选择的地址信息中查找出与该子地址信息属于同一地址类型的子地址信息;
计算将该子地址信息与查找到的子地址信息进行相互转换所需的编辑距离;
根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度。
结合本发明第一方面第六种可能的实施方式,或者结合本发明第一方面第七种可能的实施方式,或者结合本发明第一方面第八种可能的实施方式,或者结合本发明第一方面第九种可能的实施方式,在第十种可能的方式中,将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
根据本发明的第二方面,提供了一种地址搜索设备,包括:
获取模块,用于获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;
拆分模块,用于将所述获取模块确定的所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;
搜索模块,用于将所述拆分模块得到的所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。
结合本发明第二方面可能的实施方式,在第一种可能的方式中,所述获取模块,具体用于接收输入的语音数据,其中,所述语音数据用以发起地址搜索;
对所述语音数据进行识别,得到所述语音数据中包含的待搜索的目标地址信息。
结合本发明第二方面可能的实施方式,或者结合本发明第二方面第一种可能的实施方式,在第二种可能的方式中,所述获取模块,具体用于通过以下方式得到待搜索的目标地址信息:
确定所述地址搜索请求信息中包含的至少一个关键词;
针对确定的每一个关键词,执行:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词;
利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息;
在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串;
将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
结合本发明第二方面第二种可能的实施方式,在第三种可能的实施方式中,所述获取模块,具体用于根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串,具体包括:
确定所述字符串组包含的字符串为多个、且在多个字符串分别替换的关键词在所述地址搜索请求信息中位置连续;
若多个字符串不存在重复时,将所述多个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串;
若多个字符串存在重复时,去除重复的字符串,并将去除重复的字符串后的至少一个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串。
结合本发明第二方面可能的实施方式,或者结合本发明第二方面第一种可能的实施方式,或者结合本发明第二方面第二种可能的实施方式,或者结合本发明第二方面第三种可能的实施方式,在第四种可能的方式中,所述拆分模块,具体用于根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
结合本发明第二方面可能的实施方式,或者结合本发明第二方面第一种可能的实施方式,或者结合本发明第二方面第二种可能的实施方式,或者结合本发明第二方面第三种可能的实施方式,或者结合本发明第二方面第四种可能的实施方式,在第五种可能的方式中,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
结合本发明第二方面可能的实施方式,或者结合本发明第二方面第一种可能的实施方式,或者结合本发明第二方面第二种可能的实施方式,或者结合本发明第二方面第三种可能的实施方式,或者结合本发明第二方面第四种可能的实施方式,或者结合本发明第二方面第五种可能的实施方式,在第六种可能的方式中,所述搜索模块,具体用于将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
结合本发明第二方面可能的实施方式,或者结合本发明第二方面第一种可能的实施方式,或者结合本发明第二方面第二种可能的实施方式,或者结合本发明第二方面第三种可能的实施方式,或者结合本发明第二方面第四种可能的实施方式,或者结合本发明第二方面第五种可能的实施方式,在第七种可能的方式中,所述搜索模块,具体用于从地址数据库中选择一个地址信息,确定选择的地址信息中包含的子地址信息;
分别将待搜索的目标地址中包含的至少一个子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,其中,进行匹配计算的所述待搜索的目标地址中包含的子地址信息的地址类型与选择的地址信息中包含的子地址信息的地址类型相同;
根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
结合本发明第二方面第七种可能的实施方式,在第八种可能的方式中,所述搜索模块,具体用于根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度,具体包括:
将选择的地址信息与待搜索的目标地址信息进行匹配计算,得到第二匹配度;
根据所述第一匹配度和所述第二匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
结合本发明第二方面第六种可能的实施方式,或者结合本发明第二方面第七种可能的实施方式,或者结合本发明第二方面第八种可能的实施方式,在第九种可能的方式中,所述搜索模块,具体用于将待搜索的目标地址中包含的子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,具体包括:
针对待搜索的目标地址信息中包含的每一个子地址信息,执行:
针对该子地址信息,从选择的地址信息中查找出与该子地址信息属于同一地址类型的子地址信息;
计算将该子地址信息与查找到的子地址信息进行相互转换所需的编辑距离;
根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度。
结合本发明第二方面第六种可能的实施方式,或者结合本发明第二方面第七种可能的实施方式,或者结合本发明第二方面第八种可能的实施方式,或者结合本发明第二方面第九种可能的实施方式,在第十种可能的方式中,所述搜索模块,具体用于将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,具体包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
根据本发明的第三方面,提供了一种地址搜索设备,包括:
信号接收器,用于获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;
处理器,用于将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;
将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。
结合本发明第三方面可能的实施方式,在第一种可能的方式中,所述处理器,具体执行:
接收输入的语音数据,其中,所述语音数据用以发起地址搜索;
对所述语音数据进行识别,得到所述语音数据中包含的待搜索的目标地址信息。
结合本发明第三方面可能的实施方式,或者结合本发明第三方面第一种可能的实施方式,在第二种可能的方式中,所述处理器,具体执行:
通过以下方式得到待搜索的目标地址信息:
确定所述地址搜索请求信息中包含的至少一个关键词;
针对确定的每一个关键词,执行:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词;
利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息;
在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串;
将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
结合本发明第三方面第二种可能的实施方式,在第三种可能的实施方式中,所述处理器,具体执行:
根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串,包括:
确定所述字符串组包含的字符串为多个、且在多个字符串分别替换的关键词在所述地址搜索请求信息中位置连续;
若多个字符串不存在重复时,将所述多个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串;
若多个字符串存在重复时,去除重复的字符串,并将去除重复的字符串后的至少一个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串。
结合本发明第三方面可能的实施方式,或者结合本发明第三方面第一种可能的实施方式,或者结合本发明第三方面第二种可能的实施方式,或者结合本发明第三方面第三种可能的实施方式,在第四种可能的方式中,所述处理器31,具体执行:
将所述目标地址信息拆分为至少一个子地址信息,包括:
根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
结合本发明第三方面可能的实施方式,或者结合本发明第三方面第一种可能的实施方式,或者结合本发明第三方面第二种可能的实施方式,或者结合本发明第三方面第三种可能的实施方式,或者结合本发明第三方面第四种可能的实施方式,在第五种可能的方式中,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
结合本发明第三方面可能的实施方式,或者结合本发明第三方面第一种可能的实施方式,或者结合本发明第三方面第二种可能的实施方式,或者结合本发明第三方面第三种可能的实施方式,或者结合本发明第三方面第四种可能的实施方式,或者结合本发明第三方面第五种可能的实施方式,在第六种可能的方式中,所述处理器,具体执行:将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
结合本发明第三方面可能的实施方式,或者结合本发明第三方面第一种可能的实施方式,或者结合本发明第三方面第二种可能的实施方式,或者结合本发明第三方面第三种可能的实施方式,或者结合本发明第三方面第四种可能的实施方式,或者结合本发明第三方面第五种可能的实施方式,在第七种可能的方式中,所述处理器,具体执行:
将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,包括:
从地址数据库中选择一个地址信息,确定选择的地址信息中包含的子地址信息;
分别将待搜索的目标地址中包含的至少一个子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,其中,进行匹配计算的所述待搜索的目标地址中包含的子地址信息的地址类型与选择的地址信息中包含的子地址信息的地址类型相同;
根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
结合本发明第三方面第七种可能的实施方式,在第八种可能的方式中,所述处理器,具体执行:
根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度,具体包括:
将选择的地址信息与待搜索的目标地址信息进行匹配计算,得到第二匹配度;
根据所述第一匹配度和所述第二匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
结合本发明第三方面第六种可能的实施方式,或者结合本发明第三方面第七种可能的实施方式,或者结合本发明第三方面第八种可能的实施方式,在第九种可能的方式中,所述处理器,具体执行:
将待搜索的目标地址中包含的子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,包括:
针对待搜索的目标地址信息中包含的每一个子地址信息,执行:
针对该子地址信息,从选择的地址信息中查找出与该子地址信息属于同一地址类型的子地址信息;
计算将该子地址信息与查找到的子地址信息进行相互转换所需的编辑距离;
根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度。
结合本发明第三方面第六种可能的实施方式,或者结合本发明第三方面第七种可能的实施方式,或者结合本发明第三方面第八种可能的实施方式,或者结合本发明第三方面第九种可能的实施方式,在第十种可能的方式中,所述处理器,具体执行:
将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
本发明有益效果如下:
本发明实施例获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。由于本发明实施例在获取地址搜索请求信息时,从地址搜索请求信息中提取出目标地址信息对应的子地址信息,提升了提取目标地址信息的正确率;利用提取出的子地址信息以及所述目标地址信息与地址数据库中包含的不同的地址信息进行匹配,进而将匹配度大于设定阈值的地址信息作为搜索到的目标地址信息,有效地提高了地址匹配的正确率以及地址搜索的精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种地址搜索系统的结构示意图;
图2为本发明实施例二提供的一种地址搜索设备的结构示意图;
图3为本发明实施例三提供的一种地址搜索设备的结构示意图;
图4为本发明实施例四提供的一种地址搜索方法的流程示意图。
具体实施方式
为了实现本发明的目的,本发明实施例提供了一种地址搜索方法和设备,获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。由于本发明实施例在获取地址搜索请求信息时,从地址搜索请求信息中提取出目标地址信息对应的子地址信息,提升了提取目标地址信息的正确率;利用提取出的子地址信息以及所述目标地址信息与地址数据库中包含的不同的地址信息进行匹配,进而将匹配度大于设定阈值的地址信息作为搜索到的目标地址信息,有效地提高了地址匹配的正确率以及地址搜索的精度。
下面结合说明书附图对本发明各个实施例作进一步地详细描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一:
如图1所示,为本发明实施例一提供的一种地址搜索系统的结构示意图。所述地址搜索系统包括:接收设备11、地址提取设备12和地址匹配设备13。
所述接收设备11,用于获取地址搜索请求信息。
所述地址提取设备12,用于确定所述地址搜索请求信息中包含的待搜索的目标地址信息,并将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型。
具体地,所述接收设备11,具体用于接收输入的文本数据,其中,所述文本数据用以发起地址搜索。
所述地址提取设备12,具体用于对所述文本数据进行识别,得到所述文本数据中包含的待搜索的目标地址信息。
例如:接收输入的文本数据为“上海市曹杨路站4号出口”,由此可以确定所述文本数据中包含的待搜索的目标地址信息为:上海市曹杨路站4号出口。
所述接收设备11,具体用于接收输入的语音数据,其中,所述语音数据用以发起地址搜索。
所述地址提取设备12,具体用于对所述语音数据进行识别,得到所述语音数据中包含的待搜索的目标地址信息。
例如:接收输入的语音数据为“到上海市曹杨路站4号出口”,由此可以确定所述语音数据中包含的待搜索的目标地址信息为:上海市曹杨路站4号出口。
也就是说,所述地址搜索请求信息中除了包含待搜索的目标地址信息之外,还可以根据语言习惯包含其他辅助信息,例如:“到”、“去”等文字信息。
所述地址提取设备12,具体用于通过以下方式得到待搜索的目标地址信息:
确定所述地址搜索请求信息中包含的至少一个关键词;
针对确定的每一个关键词,执行:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词;
利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息;
在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串;
将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
需要说明的是,由于地址信息是分层级的,即有表示一个地址区域的地址信息,例如:行政区域对应的地址信息,例如:北京市作为一个地址信息,那么在地图上,“北京市”对应一个地址区域;还有表示一个具体位置的地址信息,例如:XX市XX区XX路XX号XX大厦,那么这条地址信息对应的就是XX大厦所在的具体位置。
为此,根据地址信息的不同层级,将地址信息划分成不同的地址类型。所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
例如:对于“XX市XX区XX路XX号XX大厦XX层XX室”这一条地址信息,“XX市XX区”对应的地址类型为:行政区域信息;“XX路”对应的地址类型为:道路名称信息;“XX号”对应的地址类型为:道路名称的附属内容;“XX大厦”对应的地址类型为:建筑/单位名称信息;“XX层XX室”对应的地址类型为:建筑/单位名称的附属内容。
需要说明的是,道路名称的附属内容说明离开了其前面的道路名称是没有任何意义的,无法单一地通过道路名称的附属内容定位到具体的地址;同样地,建筑/单位名称的附属内容说明离开了其前面的建筑/单位名称也是没有任何意义的,无法单一地通过建筑/单位名称的附属内容定位到具体的地址。
预先设置的对应不同地址类型的文本地址词典至少包括:行政区域词典,具体包含了行政区域信息,例如:省、市、区、县、镇、乡、村、州、盟、旗等,具体例如:北京市、北京、上海市、上海、深圳市、深圳等;单位/建筑尾部词词典,包含了单位/建筑尾部词名称,例如:派出所、大厦、中心、大楼等;街道名称词典,包含了街道名称,例如:XX路、XX道、XX站等;此外,还包含了停止词词典,包含的语言中表示终止的字或词,例如:到达等;符号词典,包括标点符号;数字词典,包括数字等。
例如:所述地址搜索请求信息中包含的至少一个关键字为:到、上海市、曹杨路、站、4号出口。
此时,针对得到的每一个关建字执行:
第一步:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词。
例如:“到”属于停止词词典;“上海市”属于行政区域词典;“曹杨路”和“站”属于街道名称词典;“4号出口”中“4”属于数字词典;“4号出口”中“号”和“出口”属于尾部词典。
而停止词词典对应的地址类型的字符串为SSS,行政区域词典对应的地址类型的字符串为AAA,街道名词词典对应的地址类型的字符串为RRR,数字词典对应的地址类型的字符串为DDD,尾部词典对应的地址类型的字符串为OOO。
那么替换后得到的字符串组可以为:SSSAAARRRRRRDDDOOOOOO;也可以为:SSSAAA市RRR路站DDDOOOOOO,这里对于是否替换关键字中用于表示地址类型的文字不做具体限定。
第二步:利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息,并在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串。
需要说明的是,正则表达式使用单个字符串来描述、匹配符合某个句法规则的字符串,本发明实施例所涉及的正则表达式描述的是地址信息。
例如:对于每一个关键词被替换为对应的字符串后构成的字符串组,通过正则表达式,判断该字符串组是否表示地址信息。
“AAA市”、“RRR路站”通过正则表达式的判断可能表示地址信息;“SSS”通过正则表达式的判断可能不表示地址信息。
第三步:将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
需要说明的是,将所述准地址字符串作为一个条件随机场CRF特征,但是在基于CRF算法提取目标地址信息的CRF特征不限于所述准地址字符串这么一个,还可以包含多个,但是基于CRF算法提取目标地址信息的CRF特征中包含所述准地址字符串作为的一个条件随机场CRF特征。
此时提取得到的目标地址信息为:上海市曹杨路站4号出口。
所述地址提取设备12,具体用于根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串,具体包括:
确定所述字符串组包含的字符串为多个、且在多个字符串分别替换的关键词在所述地址搜索请求信息中位置连续;
若多个字符串不存在重复时,将所述多个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串;
若多个字符串存在重复时,去除重复的字符串,并将去除重复的字符串后的至少一个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串。
例如:得到的多个字符串:AAA市、RRR路站、DDD,不存在重复,则合并得到一个准地址字符串:AAA市RRR路站DDD。
得到的多个字符串:AAA、RRR、RRR、DDD、OOO、OOO,存在重复的字符串,则合并得到的一个准地址字符串:AAARRRDDDOOO。
所述地址提取设备12,用于将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型。
具体地,所述地址提取设备12,具体用于根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
例如:将“上海市曹杨路站4号出口”拆分得到的子地址信息为:行政区域信息:上海市;街道名称信息:曹杨路站;街道名称的附属信息:4号出口。
所述地址匹配设备13,用于将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。
所述地址匹配设备13,具体用于将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
所述地址匹配设备13,具体用于从地址数据库中选择一个地址信息,确定选择的地址信息中包含的子地址信息;分别将待搜索的目标地址中包含的至少一个子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,其中,进行匹配计算的所述待搜索的目标地址中包含的子地址信息的地址类型与选择的地址信息中包含的子地址信息的地址类型相同;根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
也就是说,将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配,所述地址匹配设备13以子地址信息对应的地址类型为粒度,依次将待搜索的目标地址信息中表示一种地址类型的子地址信息与选择的地址信息中表示同一种地址类型的子地址信息进行匹配计算,计算得到子地址信息对应的第一匹配度。
此时,根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
可选地,在此基础上,计算待搜索的目标地址信息与选择的地址信息进行匹配计算,得到第二匹配度。
通过这两步匹配度的计算,可以有效排除掉通过第一匹配度获取的地址信息中仅仅包含了待搜索的目标地址信息一个或者少数个子地址信息的地址信息,例如:地址信息中仅包含:4号出口的地址信息。
根据所述第一匹配度和所述第二匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
所述地址匹配设备13,具体用于将待搜索的目标地址中包含的子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,具体包括:
针对待搜索的目标地址信息中包含的每一个子地址信息,执行:
针对该子地址信息,从选择的地址信息中查找出与该子地址信息属于同一地址类型的子地址信息;
计算将该子地址信息与查找到的子地址信息进行相互转换所需的编辑距离;
根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度。
需要说明的是,编辑距离是指两个字符串之间,由一个字符串转换成另一个字符串所需的最少编辑操作次数。所谓编辑操作是指一个字符替换成另一个字符,或者插入一个字符,或者删除一个字符等。
所述地址匹配设备13,具体用于根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度,具体包括:
将待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离进行求和,得到的和值即为计算所述第一匹配度。
所述地址匹配设备13,具体用于将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,具体包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
需要说明的是,设定的相似阈值可以是系统默认参数定义,还可以是根据实际需要确定,这里不做具体限定。
需要说明的是,设定个数可以是系统默认参数定义,还可以是根据实际需要确定,这里不做具体限定。
通过本发明实施例提供的地址搜索系统,在获取地址搜索请求信息时,从地址搜索请求信息中提取出目标地址信息对应的子地址信息,提升了提取目标地址信息的正确率;利用提取出的子地址信息以及所述目标地址信息与地址数据库中包含的不同的地址信息进行匹配,进而将匹配度大于设定阈值的地址信息作为搜索到的目标地址信息,有效地提高了地址匹配的正确率以及地址搜索的精度。
实施例二:
如图2所示,为本发明实施例二提供的一种地址搜索设备的结构示意图。所述地址搜索设备包括:获取模块21、拆分模块22和搜索模块23,其中:
获取模块21,用于获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;
拆分模块22,用于将所述获取模块确定的所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;
搜索模块23,用于将所述拆分模块得到的所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。
具体地,所述获取模块21,具体用于接收输入的语音数据,其中,所述语音数据用以发起地址搜索;
对所述语音数据进行识别,得到所述语音数据中包含的待搜索的目标地址信息。
所述获取模块21,具体用于通过以下方式得到待搜索的目标地址信息:
确定所述地址搜索请求信息中包含的至少一个关键词;
针对确定的每一个关键词,执行:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词;
利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息;
在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串;
将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
所述获取模块21,具体用于根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串,具体包括:
确定所述字符串组包含的字符串为多个、且在多个字符串分别替换的关键词在所述地址搜索请求信息中位置连续;
若多个字符串不存在重复时,将所述多个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串;
若多个字符串存在重复时,去除重复的字符串,并将去除重复的字符串后的至少一个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串。
所述拆分模块22,具体用于根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
所述搜索模块23,具体用于将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
所述搜索模块23,具体用于从地址数据库中选择一个地址信息,确定选择的地址信息中包含的子地址信息;
分别将待搜索的目标地址中包含的至少一个子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,其中,进行匹配计算的所述待搜索的目标地址中包含的子地址信息的地址类型与选择的地址信息中包含的子地址信息的地址类型相同;
根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
具体地,所述搜索模块23,具体用于根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度,具体包括:
将选择的地址信息与待搜索的目标地址信息进行匹配计算,得到第二匹配度;
根据所述第一匹配度和所述第二匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
所述搜索模块23,具体用于将待搜索的目标地址中包含的子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,具体包括:
针对待搜索的目标地址信息中包含的每一个子地址信息,执行:
针对该子地址信息,从选择的地址信息中查找出与该子地址信息属于同一地址类型的子地址信息;
计算将该子地址信息与查找到的子地址信息进行相互转换所需的编辑距离;
根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度。
所述搜索模块23,具体用于将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,具体包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
需要说明的是,本发明实施例所述的地址搜索设备可以通过硬件方式实现,也可以通过软件方式实现,对于实现方式这里不做限定。
地址搜索设备在获取地址搜索请求信息时,从地址搜索请求信息中提取出目标地址信息对应的子地址信息,提升了提取目标地址信息的正确率;利用提取出的子地址信息以及所述目标地址信息与地址数据库中包含的不同的地址信息进行匹配,进而将匹配度大于设定阈值的地址信息作为搜索到的目标地址信息,有效地提高了地址匹配的正确率以及地址搜索的精度。
实施例三
如图3所示,为本发明实施例三提供的一种地址搜索设备的结构示意图。所述地址搜索设备具备了本发明实施例四所述的功能。所述地址搜索设备可以采用通用计算机系统结构,计算机系统可具体是基于处理器的计算机。所述地址搜索设备包含了至少一个处理器31和信号接收器32。其中,处理器31和信号接收器32之间通过通信总线33连接。
信号接收器32,用于获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;
处理器31,用于将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;
将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。
在一种可能的实现方式中,所述处理器31,具体执行:
接收输入的语音数据,其中,所述语音数据用以发起地址搜索;
对所述语音数据进行识别,得到所述语音数据中包含的待搜索的目标地址信息。
在一种可能的实现方式中,所述处理器31,具体执行:
通过以下方式得到待搜索的目标地址信息:
确定所述地址搜索请求信息中包含的至少一个关键词;
针对确定的每一个关键词,执行:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词;
利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息;
在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串;
将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
在一种可能的实现方式中,所述处理器31,具体执行:
根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串,包括:
确定所述字符串组包含的字符串为多个、且在多个字符串分别替换的关键词在所述地址搜索请求信息中位置连续;
若多个字符串不存在重复时,将所述多个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串;
若多个字符串存在重复时,去除重复的字符串,并将去除重复的字符串后的至少一个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串。
在一种可能的实现方式中,所述处理器31,具体执行:
将所述目标地址信息拆分为至少一个子地址信息,包括:
根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
在一种可能的实现方式中,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
在一种可能的实现方式中,所述处理器31,具体执行:将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
在一种可能的实现方式中,所述处理器31,具体执行:
将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,包括:
从地址数据库中选择一个地址信息,确定选择的地址信息中包含的子地址信息;
分别将待搜索的目标地址中包含的至少一个子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,其中,进行匹配计算的所述待搜索的目标地址中包含的子地址信息的地址类型与选择的地址信息中包含的子地址信息的地址类型相同;
根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
在一种可能的实现方式中,所述处理器31,具体执行:
根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度,具体包括:
将选择的地址信息与待搜索的目标地址信息进行匹配计算,得到第二匹配度;
根据所述第一匹配度和所述第二匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
在一种可能的实现方式中,所述处理器31,具体执行:
将待搜索的目标地址中包含的子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,包括:
针对待搜索的目标地址信息中包含的每一个子地址信息,执行:
针对该子地址信息,从选择的地址信息中查找出与该子地址信息属于同一地址类型的子地址信息;
计算将该子地址信息与查找到的子地址信息进行相互转换所需的编辑距离;
根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度。
在一种可能的实现方式中,所述处理器31,具体执行:
将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
其中,处理器31可以是一个通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。
本发明实施例提供的地址搜索设备在获取地址搜索请求信息时,从地址搜索请求信息中提取出目标地址信息对应的子地址信息,提升了提取目标地址信息的正确率;利用提取出的子地址信息以及所述目标地址信息与地址数据库中包含的不同的地址信息进行匹配,进而将匹配度大于设定阈值的地址信息作为搜索到的目标地址信息,有效地提高了地址匹配的正确率以及地址搜索的精度。
实施例四:
如图4所示,为本发明实施例四提供的一种地址搜索方法的流程示意图。所述方法可以如下所示。
步骤401:获取地址搜索请求信息。
其中,所述地址搜索请求信息中包含了待搜索的目标地址信息。
在步骤401中,获取地址搜索请求信息的方式包括但不限于以下方式:
接收输入的文本数据,其中,所述文本数据用以发起地址搜索;或,
接收输入的语音数据,其中,所述语音数据用以发起地址搜索。
需要说明的是,若地址搜索请求信息为语音数据,那么所述方法还包括:
将接收到的语音数据进行识别,得到该语音数据对应的文字数据。
步骤402:确定所述地址搜索请求信息中包含的待搜索的目标地址信息。
在步骤402中,通过以下方式得到待搜索的目标地址信息:
确定所述地址搜索请求信息中包含的至少一个关键词;
针对确定的每一个关键词,执行:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词;
利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息;
在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串;
将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
具体地,由于地址信息是分层级的,即有表示一个地址区域的地址信息,例如:行政区域对应的地址信息,例如:北京市作为一个地址信息,那么在地图上,“北京市”对应一个地址区域;还有表示一个具体位置的地址信息,例如:XX市XX区XX路XX号XX大厦,那么这条地址信息对应的就是XX大厦所在的具体位置。
为此,根据地址信息的不同层级,将地址信息划分成不同的地址类型。所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
例如:对于“XX市XX区XX路XX号XX大厦XX层XX室”这一条地址信息,“XX市XX区”对应的地址类型为:行政区域信息;“XX路”对应的地址类型为:道路名称信息;“XX号”对应的地址类型为:道路名称的附属内容;“XX大厦”对应的地址类型为:建筑/单位名称信息;“XX层XX室”对应的地址类型为:建筑/单位名称的附属内容。
需要说明的是,道路名称的附属内容说明离开了其前面的道路名称是没有任何意义的,无法单一地通过道路名称的附属内容定位到具体的地址;同样地,建筑/单位名称的附属内容说明离开了其前面的建筑/单位名称也是没有任何意义的,无法单一地通过建筑/单位名称的附属内容定位到具体的地址。
预先设置的对应不同地址类型的文本地址词典至少包括:行政区域词典,具体包含了行政区域信息,例如:省、市、区、县、镇、乡、村、州、盟、旗等,具体例如:北京市、北京、上海市、上海、深圳市、深圳等;单位/建筑尾部词词典,包含了单位/建筑尾部词名称,例如:派出所、大厦、中心、大楼等;街道名称词典,包含了街道名称,例如:XX路、XX道、XX站等;此外,还包含了停止词词典,包含的语言中表示终止的字或词,例如:到达等;符号词典,包括标点符号;数字词典,包括数字等。
例如:所述地址搜索请求信息中包含的至少一个关键字为:到、上海市、曹杨路、站、4号出口。
此时,针对得到的每一个关建字执行:
第一步:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词。
例如:“到”属于停止词词典;“上海市”属于行政区域词典;“曹杨路”和“站”属于街道名称词典;“4号出口”中“4”属于数字词典;“4号出口”中“号”和“出口”属于尾部词典。
而停止词词典对应的地址类型的字符串为SSS,行政区域词典对应的地址类型的字符串为AAA,街道名词词典对应的地址类型的字符串为RRR,数字词典对应的地址类型的字符串为DDD,尾部词典对应的地址类型的字符串为OOO。
那么替换后得到的字符串组可以为:SSSAAARRRRRRDDDOOOOOO;也可以为:SSSAAA市RRR路站DDDOOOOOO,这里对于是否替换关键字中用于表示地址类型的文字不做具体限定。
第二步:利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息,并在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串。
需要说明的是,正则表达式使用单个字符串来描述、匹配符合某个句法规则的字符串,本发明实施例所涉及的正则表达式描述的是地址信息。
例如:对于每一个关键词被替换为对应的字符串后构成的字符串组,通过正则表达式,判断该字符串组是否表示地址信息。
“AAA市”、“RRR路站”通过正则表达式的判断可能表示地址信息;“SSS”通过正则表达式的判断可能不表示地址信息。
第三步:将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
需要说明的是,将所述准地址字符串作为一个条件随机场CRF特征,但是在基于CRF算法提取目标地址信息的CRF特征不限于所述准地址字符串这么一个CRF特征,还可以包含多个CRF特征,但是基于CRF算法提取目标地址信息的CRF特征中包含所述准地址字符串作为的一个条件随机场CRF特征。
此时提取得到的目标地址信息为:上海市曹杨路站4号出口。
可选地,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串,具体包括:
确定所述字符串组包含的字符串为多个、且在多个字符串分别替换的关键词在所述地址搜索请求信息中位置连续;
若多个字符串不存在重复时,将所述多个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串;
若多个字符串存在重复时,去除重复的字符串,并将去除重复的字符串后的至少一个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串。
步骤403:将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型。
在步骤403中,根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
例如:将“上海市曹杨路站4号出口”拆分得到的子地址信息为:行政区域信息:上海市;街道名称信息:曹杨路站;街道名称的附属信息:4号出口。
步骤404:将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配;将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。
其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息。
在步骤404中,首先,从地址数据库中选择一个地址信息,确定选择的地址信息中包含的子地址信息。
其次,分别将待搜索的目标地址中包含的至少一个子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,其中,进行匹配计算的所述待搜索的目标地址中包含的子地址信息的地址类型与选择的地址信息中包含的子地址信息的地址类型相同。
具体地,将待搜索的目标地址中包含的子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,具体包括:
针对待搜索的目标地址信息中包含的每一个子地址信息,执行:
针对该子地址信息,从选择的地址信息中查找出与该子地址信息属于同一地址类型的子地址信息;
计算将该子地址信息与查找到的子地址信息进行相互转换所需的编辑距离;
根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度。
需要说明的是,编辑距离是指两个字符串之间,由一个字符串转换成另一个字符串所需的最少编辑操作次数。所谓编辑操作是指一个字符替换成另一个字符,或者插入一个字符,或者删除一个字符等。
假设从地址数据库中选择的一条地址数据为:XX市XXX区XXX站。此时,从待搜索的目标地址信息“上海市曹杨路站4号出口”中选择一个子地址信息“上海市”,确定其对应的地址类型为行政区域,那么从“XX市XXX区XXX站”查找出表示行政区域的子地址信息“XX市”,计算“XX市”与“上海市”进行相互转换所需的编辑距离。
若“XX市”为上海市,那么“XX市”与“上海市”进行相互转换所需的编辑距离为0;若“XX市”为北京市,那么“XX市”与“上海市”进行相互转换所需的编辑距离为2。
在确定编辑距离之后,根据计算得到的编辑距离,得到待搜索的目标地址信息中该子地址信息与选择的地址信息中相同地址类型的子地址信息之间的第一匹配度。
例如:第一匹配度=1-编辑距离/MAX(待搜索的目标地址信息中该子地址信息对应的字符串个数,选择的地址信息中相同地址类型的子地址信息对应的字符串个数);或者,第一匹配度=编辑距离/MAX(待搜索的目标地址信息中该子地址信息对应的字符串个数,选择的地址信息中相同地址类型的子地址信息对应的字符串个数)。
在得到待搜索的目标地址信息中包含的每一个子地址信息对应的第一匹配度时,根据得到的第一匹配度,计算得到待搜索的目标地址信息中包含的子地址信息与选择的地址信息中包含的子地址信息之间的第一匹配度。
最后,根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
一种方式,将得到的第一匹配度作为选择的地址信息与待搜索的目标地址信息的总匹配度。
另一种方式,继续将选择的地址信息与待搜索的目标地址信息进行匹配计算,得到第二匹配度。
根据所述第一匹配度和所述第二匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
具体地,将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,具体包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
需要说明的是,设定的相似阈值可以是系统默认参数定义,还可以是根据实际需要确定,这里不做具体限定。
需要说明的是,设定个数可以是系统默认参数定义,还可以是根据实际需要确定,这里不做具体限定。
通过本发明实施例四的方案,获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;将所述至少一个子地址信息或者所述至少一子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出。由于本发明实施例在获取地址搜索请求信息时,从地址搜索请求信息中提取出目标地址信息对应的子地址信息,提升了提取目标地址信息的正确率;利用提取出的子地址信息以及所述目标地址信息与地址数据库中包含的不同的地址信息进行匹配,进而将匹配度大于设定阈值的地址信息作为搜索到的目标地址信息,有效地提高了地址匹配的正确率以及地址搜索的精度。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (34)

1.一种地址搜索方法,其特征在于,包括:
获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;
将所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;
将所述至少一个子地址信息或者所述至少一个子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;
将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出;
将所述至少一个子地址信息或者所述至少一个子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,包括:
从地址数据库中选择一个地址信息,确定选择的地址信息中包含的子地址信息;
分别将待搜索的目标地址中包含的至少一个子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,其中,进行匹配计算的所述待搜索的目标地址中包含的子地址信息的地址类型与选择的地址信息中包含的子地址信息的地址类型相同;
根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
2.如权利要求1所述的地址搜索方法,其特征在于,获取地址搜索请求信息,包括:
接收输入的语音数据,其中,所述语音数据用以发起地址搜索;
对所述语音数据进行识别,得到所述语音数据中包含的待搜索的目标地址信息。
3.如权利要求1或2所述的地址搜索方法,其特征在于,通过以下方式得到待搜索的目标地址信息:
确定所述地址搜索请求信息中包含的至少一个关键词;
针对确定的每一个关键词,执行:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词;
利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息;
在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串;
将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
4.如权利要求3所述的地址搜索方法,其特征在于,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串,包括:
确定所述字符串组包含的字符串为多个、且在多个字符串分别替换的关键词在所述地址搜索请求信息中位置连续;
若多个字符串不存在重复时,将所述多个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串;
若多个字符串存在重复时,去除重复的字符串,并将去除重复的字符串后的至少一个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串。
5.如权利要求1、2、4任一所述的地址搜索方法,其特征在于,将所述目标地址信息拆分为至少一个子地址信息,包括:
根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
6.如权利要求3所述的地址搜索方法,其特征在于,将所述目标地址信息拆分为至少一个子地址信息,包括:
根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
7.如权利要求1、2、4、6任一所述的地址搜索方法,其特征在于,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
8.如权利要求3所述的地址搜索方法,其特征在于,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
9.如权利要求5所述的地址搜索方法,其特征在于,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
10.如权利要求1、2、4、6、8、9任一所述的地址搜索方法,其特征在于,将所述至少一个子地址信息或者所述至少一个子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,包括:将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
11.如权利要求3所述的地址搜索方法,其特征在于,将所述至少一个子地址信息或者所述至少一个子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,包括:将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
12.如权利要求5所述的地址搜索方法,其特征在于,将所述至少一个子地址信息或者所述至少一个子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,包括:将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
13.如权利要求7所述的地址搜索方法,其特征在于,将所述至少一个子地址信息或者所述至少一个子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,包括:将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
14.如权利要求1所述的地址搜索方法,其特征在于,根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度,包括:
将选择的地址信息与待搜索的目标地址信息进行匹配计算,得到第二匹配度;
根据所述第一匹配度和所述第二匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
15.如权利要求1或14所述的地址搜索方法,其特征在于,将待搜索的目标地址中包含的子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,包括:
针对待搜索的目标地址信息中包含的每一个子地址信息,执行:
针对该子地址信息,从选择的地址信息中查找出与该子地址信息属于同一地址类型的子地址信息;
计算将该子地址信息与查找到的子地址信息进行相互转换所需的编辑距离;
根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度。
16.如权利要求1或14所述的地址搜索方法,其特征在于,将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
17.如权利要求15所述的地址搜索方法,其特征在于,将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
18.一种地址搜索设备,其特征在于,包括:
获取模块,用于获取地址搜索请求信息,并确定所述地址搜索请求信息中包含的待搜索的目标地址信息;
拆分模块,用于将所述获取模块确定的所述目标地址信息拆分为至少一个子地址信息,所述目标地址信息为由多个不同的子地址信息组成的,所述多个不同的子地址信息分别对应不同的地址类型;
搜索模块,用于将所述拆分模块得到的所述至少一个子地址信息或者所述至少一个子地址信息和所述目标地址信息与地址数据库中包含的不同地址信息进行匹配,其中,所述地址数据库中存储的每一条地址信息包含构成该地址信息的不同子地址信息;将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出;
所述搜索模块,具体用于从地址数据库中选择一个地址信息,确定选择的地址信息中包含的子地址信息;
分别将待搜索的目标地址中包含的至少一个子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,其中,进行匹配计算的所述待搜索的目标地址中包含的子地址信息的地址类型与选择的地址信息中包含的子地址信息的地址类型相同;
根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
19.如权利要求18所述的地址搜索设备,其特征在于,
所述获取模块,具体用于接收输入的语音数据,其中,所述语音数据用以发起地址搜索;
对所述语音数据进行识别,得到所述语音数据中包含的待搜索的目标地址信息。
20.如权利要求18或19所述的地址搜索设备,其特征在于,所述获取模块,具体用于通过以下方式得到待搜索的目标地址信息:
确定所述地址搜索请求信息中包含的至少一个关键词;
针对确定的每一个关键词,执行:在预先设置的对应不同地址类型的文本地址词典中,找到包含该关键词的文本地址词典;利用用于表征找到的文本地址词典对应的地址类型的字符串,替换该关键词;
利用用以表示地址信息的正则表达式,判断每一个关键词被替换为对应的字符串后构成的字符串组是否表示地址信息;
在确定所述字符串组表示地址信息时,根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串;
将所述准地址字符串作为一个条件随机场CRF特征,基于CRF算法在所述地址搜索请求信息中提取待搜索的目标地址信息。
21.如权利要求20所述的地址搜索设备,其特征在于,
所述获取模块,具体用于根据所述字符串组确定待搜索的目标地址信息对应的准地址字符串,具体包括:
确定所述字符串组包含的字符串为多个、且在多个字符串分别替换的关键词在所述地址搜索请求信息中位置连续;
若多个字符串不存在重复时,将所述多个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串;
若多个字符串存在重复时,去除重复的字符串,并将去除重复的字符串后的至少一个字符串基于替换的关键词的位置连续性合并为一个字符串组,作为待搜索的目标地址信息对应的准地址字符串。
22.如权利要求18、19、21任一所述的地址搜索设备,其特征在于,
所述拆分模块,具体用于根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
23.如权利要求20所述的地址搜索设备,其特征在于,
所述拆分模块,具体用于根据预先设置的对应不同地址类型的文本地址词典所表示的地址类型,从所述目标地址信息中拆分出对应不同地址类型的子地址信息。
24.如权利要求18、19、21、23任一所述的地址搜索设备,其特征在于,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
25.如权利要求20所述的地址搜索设备,其特征在于,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
26.如权利要求22所述的地址搜索设备,其特征在于,所述地址类型包括下述中的一种或多种信息组合:
行政区域信息、道路名称信息、建筑/单位名称信息、所述道路名称的附属内容、所述建筑/单位名称的附属内容。
27.如权利要求18、19、21、23、25、26任一所述的地址搜索设备,其特征在于,
所述搜索模块,具体用于将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
28.如权利要求20所述的地址搜索设备,其特征在于,
所述搜索模块,具体用于将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
29.如权利要求22所述的地址搜索设备,其特征在于,
所述搜索模块,具体用于将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
30.如权利要求24所述的地址搜索设备,其特征在于,
所述搜索模块,具体用于将所述目标地址信息中的至少一个子地址信息分别与所述地址数据库中地址类型相同的子地址信息进行相应匹配。
31.如权利要求18所述的地址搜索设备,其特征在于,所述搜索模块,具体用于根据所述第一匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度,具体包括:
将选择的地址信息与待搜索的目标地址信息进行匹配计算,得到第二匹配度;
根据所述第一匹配度和所述第二匹配度,得到选择的地址信息与待搜索的目标地址信息的总匹配度。
32.如权利要求18或31所述的地址搜索设备,其特征在于,
所述搜索模块,具体用于将待搜索的目标地址中包含的子地址信息与选择的地址信息中包含的子地址信息进行匹配计算,得到第一匹配度,具体包括:
针对待搜索的目标地址信息中包含的每一个子地址信息,执行:
针对该子地址信息,从选择的地址信息中查找出与该子地址信息属于同一地址类型的子地址信息;
计算将该子地址信息与查找到的子地址信息进行相互转换所需的编辑距离;
根据待搜索的目标地址信息中包含的每一个子地址信息分别对应得到的编辑距离,计算所述第一匹配度。
33.如权利要求18或31所述的地址搜索设备,其特征在于,
所述搜索模块,具体用于将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,具体包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
34.如权利要求32所述的地址搜索设备,其特征在于,
所述搜索模块,具体用于将匹配得到的匹配度大于设定阈值的地址信息,作为搜索到的目标地址信息进行输出,具体包括:
根据计算得到每一次选择的地址信息与待搜索的目标地址信息的总匹配度,按照总匹配度从大到小的顺序,依次确定设定个数的总匹配度;
将确定的总匹配度分别对应选择的地址信息,作为搜索到的目标地址信息进行输出。
CN201410525978.XA 2014-09-30 2014-09-30 一种地址搜索方法和设备 Active CN105528372B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201410525978.XA CN105528372B (zh) 2014-09-30 2014-09-30 一种地址搜索方法和设备
EP15846022.0A EP3153978B1 (en) 2014-09-30 2015-05-26 Address search method and device
PCT/CN2015/079816 WO2016050088A1 (zh) 2014-09-30 2015-05-26 一种地址搜索方法和设备
US15/398,260 US10783171B2 (en) 2014-09-30 2017-01-04 Address search method and device
US16/929,611 US20200349175A1 (en) 2014-09-30 2020-07-15 Address Search Method and Device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410525978.XA CN105528372B (zh) 2014-09-30 2014-09-30 一种地址搜索方法和设备

Publications (2)

Publication Number Publication Date
CN105528372A CN105528372A (zh) 2016-04-27
CN105528372B true CN105528372B (zh) 2019-05-24

Family

ID=55629404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410525978.XA Active CN105528372B (zh) 2014-09-30 2014-09-30 一种地址搜索方法和设备

Country Status (4)

Country Link
US (2) US10783171B2 (zh)
EP (1) EP3153978B1 (zh)
CN (1) CN105528372B (zh)
WO (1) WO2016050088A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766383B (zh) * 2016-08-22 2020-04-07 平安科技(深圳)有限公司 地址定位的方法和装置
CN108132956A (zh) * 2016-12-01 2018-06-08 北京搜狗科技发展有限公司 一种搜索方法、装置及电子设备
CN109255565B (zh) * 2017-07-14 2022-12-16 菜鸟智能物流控股有限公司 地址的归属识别和物流任务的分发方法及其装置
CN110998589B (zh) * 2017-07-31 2023-06-27 北京嘀嘀无限科技发展有限公司 用于分割文本的系统和方法
CN107577744A (zh) * 2017-08-28 2018-01-12 苏州科技大学 非标地址自动匹配模型、匹配方法以及模型建立方法
CN108197188B (zh) * 2017-12-26 2020-06-30 北京星选科技有限公司 地址信息处理方法及装置
CN108416062A (zh) * 2018-03-26 2018-08-17 国家电网公司客户服务中心 一种基于地址匹配技术的电网数据关联方法
ES2968555T3 (es) * 2018-04-17 2024-05-10 Huawei Tech Co Ltd Método de procesamiento de imágenes y equipo relacionado
JP7183600B2 (ja) * 2018-07-20 2022-12-06 株式会社リコー 情報処理装置、システム、方法およびプログラム
CN109388634B (zh) * 2018-09-18 2024-05-03 平安科技(深圳)有限公司 地址信息的处理方法、终端设备及计算机可读存储介质
CN111488409A (zh) * 2019-01-25 2020-08-04 阿里巴巴集团控股有限公司 一种城市地址库构建方法、检索方法及装置
CN112115214B (zh) * 2019-06-20 2024-04-02 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN112884390A (zh) * 2019-11-29 2021-06-01 北京三快在线科技有限公司 订单处理的方法、装置、可读存储介质及电子设备
CN113111230B (zh) * 2020-02-13 2024-04-12 北京明亿科技有限公司 基于正则表达式的接处警文本户籍地地址提取方法和装置
CN113111229B (zh) * 2020-02-13 2024-04-12 北京明亿科技有限公司 基于正则表达式的接处警文本轨迹地地址提取方法和装置
CN111522901B (zh) * 2020-03-18 2023-10-20 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
US11523250B1 (en) * 2021-05-12 2022-12-06 Valassis Digital Corp. Computer system with features for determining reliable location data using messages with unreliable location data
CN113515677B (zh) * 2021-07-22 2023-10-27 中移(杭州)信息技术有限公司 地址匹配方法、装置及计算机可读存储介质
CN114064953A (zh) * 2021-11-26 2022-02-18 北京度友信息技术有限公司 图片搜索方法、装置、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487495B1 (en) 2000-06-02 2002-11-26 Navigation Technologies Corporation Navigation applications using related location-referenced keywords
EP1160694A3 (en) 2000-06-02 2005-08-03 Navteq North America, LLC Method and system for forming a keyword database for referencing physical locations
US7376636B1 (en) * 2002-06-07 2008-05-20 Oracle International Corporation Geocoding using a relational database
US6934634B1 (en) * 2003-09-22 2005-08-23 Google Inc. Address geocoding
US8150848B2 (en) * 2008-01-04 2012-04-03 Google Inc. Geocoding multi-feature addresses
US8867999B2 (en) * 2009-01-26 2014-10-21 Qualcomm Incorporated Downlink interference cancellation methods
CN101719128B (zh) * 2009-12-31 2012-05-23 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
US20110270815A1 (en) * 2010-04-30 2011-11-03 Microsoft Corporation Extracting structured data from web queries
CN101996248B (zh) * 2010-11-10 2012-10-10 百度在线网络技术(北京)有限公司 地址查询方法及装置
US9575963B2 (en) * 2012-04-20 2017-02-21 Maluuba Inc. Conversational agent
US9544721B2 (en) * 2013-07-26 2017-01-10 Apple Inc. Address point data mining

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法

Also Published As

Publication number Publication date
EP3153978A4 (en) 2017-10-18
WO2016050088A1 (zh) 2016-04-07
CN105528372A (zh) 2016-04-27
US20200349175A1 (en) 2020-11-05
EP3153978B1 (en) 2020-04-22
EP3153978A1 (en) 2017-04-12
US20170116224A1 (en) 2017-04-27
US10783171B2 (en) 2020-09-22

Similar Documents

Publication Publication Date Title
CN105528372B (zh) 一种地址搜索方法和设备
CN104142915B (zh) 一种添加标点的方法和系统
CN107526800B (zh) 信息推荐的装置、方法及计算机可读存储介质
CN103971684B (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
CN103580939B (zh) 一种基于账号属性的异常消息检测方法及设备
CN110059264B (zh) 基于知识图谱的地点检索方法、设备及计算机存储介质
CN108304484A (zh) 关键词匹配方法及装置、电子设备和可读存储介质
WO2021189977A1 (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
CN110147544B (zh) 一种基于自然语言的指令生成方法、装置以及相关设备
US20190056235A1 (en) Path querying method and device, an apparatus and non-volatile computer storage medium
CN108228657B (zh) 一种关键字检索的实现方法及装置
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN103514230A (zh) 一种用于根据语料序列训练语言模型的方法与设备
CN105160707A (zh) 基于视点索引的三维模型快速可视化方法
CN106202224B (zh) 搜索处理方法及装置
CN105159927B (zh) 目标文本主题词的选取方法、装置及终端
CN106802958B (zh) Cad数据到gis数据的转换方法及系统
CN103559177A (zh) 一种地名识别方法及装置
CN104298786B (zh) 一种图像检索方法及装置
CN104077320A (zh) 一种用于生成待发布信息的方法和装置
CN109145633A (zh) 轨迹数据隐私保护方法、电子设备、存储介质及系统
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
CN114491056A (zh) 数字警务场景下的改进poi搜索的方法和系统
CN112861532B (zh) 地址标准化处理方法、装置、设备及在线搜索系统
CN104978553A (zh) 图像分析的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant