CN105224622A - 面向互联网的地名地址提取与标准化方法 - Google Patents
面向互联网的地名地址提取与标准化方法 Download PDFInfo
- Publication number
- CN105224622A CN105224622A CN201510607640.3A CN201510607640A CN105224622A CN 105224622 A CN105224622 A CN 105224622A CN 201510607640 A CN201510607640 A CN 201510607640A CN 105224622 A CN105224622 A CN 105224622A
- Authority
- CN
- China
- Prior art keywords
- place name
- name address
- address
- information
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向互联网的地名地址提取与标准化方法,该方法针对互联网网页中地名地址的存在方式及结构特征,利用地名地址的识别规则及动态关系,以国家行政区划信息、全国基础地名地址库为基础进行识别,研究多级地名地址表达模型与提取方法,再通过地名地址在文中的上下级语义关系,参考地名地址标准模型,实现互联网网页文本信息中文地名地址的自动识别、提取与标准化,为地理实体、事件等相关地理信息的空间定位提供技术基础。
Description
技术领域
本发明涉及一种地名地址提取与标准化方法,具体涉及一种面向互联网、基于互联网信息文本信息的特征、对地名地址信息进行提取与标准化的方法,该方法能够为地理实体、互联网事件等地理信息的空间定位提供技术基础。
背景技术
随着互联网技术的迅速发展,网络成为地理信息的最大聚集处,互联网地理信息已经进入大数据时代,未来10年至少80%以上的人机交互文本数据涉及地理信息,互联网将成为不断更新的大型地理信息数据库,如何将这些地理信息挖掘出并利用到地理信息服务中是主要问题。
地名地址数据是最常用的社会公共信息资源,与大众的日常生活紧密相关,同时,地名地址信息也是政府基础行政管理的基础资源。将地名地址信息提取并标准化,使其转化为地理信息服务的基础成果,为大众的生产生活提供支撑,已成为一项迫切的需要。
现有的地理位置信息挖掘算法主要是利用关键字匹配的方法,由于在互联网环境下文本中的地名地址信息存在描述错误、不准确、同音字、不够标准等问题,所以基于关键字匹配的位置信息挖据算法准确率较低,不足以满足各行各业对地理信息的要求。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种对地名地址信息进行提取与标准化的方法,该方法能够大大提升互联网地名地址信息提取及标准化的准确性,从而为基于地名地址信息的地址匹配过程及地理实体、事件等相关地理信息的空间定位提供技术基础。
为了实现上述目标,本发明采用如下的技术方案:
一种面向互联网的地名地址提取与标准化方法,其特征在于,包括以下步骤:
一、建立地名地址基础资源库、形成地名表达模型和结构化地名词典;
二、自动解析及提取网页信息;
三、切分文本信息,将文字描述的地名地址切分为结构化的多个地址要素;
四、匹配识别地名地址信息;
五、基于认知度提取地名地址信息;
六、标准化处理地名地址信息。
前述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤一中,
对标注的基础地名地址样本数据进行多级地址的关联分析以及各级地址及其描述信息的结构化处理,通过建立关系数据库形成用于地名地址识别的基础资源库以及地名表达模型和结构化地名词典,
前述标注的基础地名地址样本数据包括:地名数据、国家基础地名数据和国家行政区划数据,
前述用于地名地址识别的基础资源库包括:规则库、模型库和关联关系库。
前述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤二中,
利用元搜索引擎技术进行Web网页的自动收录,并根据HTML结构和解析规则进行Web网页的自动解析和信息提取。
前述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤三中,
利用步骤一建立的地名地址基础资源库,在中文自动分词词典的基础上进行扩充,对互联网文本信息数据进行切分,将文字描述的地名地址切分为结构化的多个地址要素。
前述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤四中,
利用地名地址以关键词结尾的规律,构建地名地址识别规则和表达模型,对已切分的数据结果进行文本环境下的地名地址识别匹配,前述地名地址识别匹配包括:基于篇幅的地名地址识别和匹配、基于局部的地名地址识别和匹配。
前述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤五中,
利用地名地址标准化表达方式和结构化地名词典进行基于认知度的地名地址提取,从而实现面向Web的中文地名地址自动识别和提取,提取的地名地址信息包括:地标信息、著名景点、商圈。
前述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤六中,
利用标准化地名地址模型,对提取的地名地址信息进行标准化处理,最终输出符合既定标准的地名地址结果。
本发明的有益之处在于:实现了互联网网页文本信息中文地名地址的自动识别、提取与标准化,提升了互联网地名地址信息提取及标准化的准确性,为基于地名地址信息的地址匹配过程及地理实体、事件等相关地理信息的空间定位提供了技术基础。
附图说明
图1是本发明的地名地址提取与标准化方法的流程图;
图2是地名地址数据模型关系图;
图3是地址表达模型图;
图4是标准化地名地址模型图。
具体实施方式
本发明针对互联网网页中地名地址的存在方式及结构特征,利用地名地址的识别规则及动态关系,以国家行政区划信息、全国基础地名地址库为基础进行识别,研究多级地名地址表达模型与提取方法,再通过地名地址在文中的上下级语义关系,参考地名地址标准模型,实现互联网网页文本信息中文地名地址的自动识别、提取与标准化,从而提升了互联网地名地址信息提取及标准化的准确性,为基于地名地址信息的地址匹配过程及地理实体、事件等相关地理信息的空间定位提供了技术基础。
为了使本发明的技术方案更加清楚、易于理解,以下结合附图和具体实施例对本发明作进一步详细的介绍。
参照图1,本发明的面向互联网的地名地址提取与标准化方法,其包括以下步骤:
步骤一:建立地名地址基础资源库、地名表达模型和结构化地名词典
对标注的地名数据、国家基础地名数据、国家行政区划数据等基础地名地址样本数据进行多级地址的关联分析以及各级地址及其描述信息的结构化处理,形成用于地名地址识别的规则库、模型库和关联关系库等基础资源库以及地名表达模型和结构化地名词典。
1、样本训练
通过训练样本库,建立地名地址信息的规则模型,同时抽取各级地名地址关联关系,形成地名地址识别规则库及动态的地名关联关系库。
地名地址识别规则库:从真实文本语料库抽取训练样本,通过统计及分析得到统计结果以及针对地名地址信息特点总结出来的规则,形成地名地址识别规则库。
动态地名关联关系库:从训练样本库中依据地名地址的概念决策方法,抽取地名地址的关系信息,参据如图2所示的地名地址数据模型关系图,形成动态的地名关联关系库。
2、模型构建
通过对国家基础地名数据和国家行政区划数据进行结构化分析和关系处理,形成地名表达模型和结构化地名词典。
地名表达模型:从地名地址提取的应用需求出发,设计一个地名类型本体模型,该模型表达了地名类型之间的继承关系以及对空间关系的约束依据地址编码规则,结合地名数据的实际情况及规律,建立地名表达模型,为地名匹配地名提取做参考。
结构化地名词典:地名词典是一个具有地理意义的字典或名录,是一定区域内的地理要素及其相互联系的数据集合,主要描述地名的名称、要素类型、空间位置等重要参考信息,编制结构化的地名词典,为后续基于认知显著度的地名提取打下基础。
步骤二:自动解析及提取网页信息
利用元搜索引擎技术进行Web网页的自动收录,并根据HTML结构和解析规则进行Web网页的自动解析和信息提取。
元搜索引擎:一种调用其它独立搜索引擎的引擎。在这里,“元”为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。元搜索引擎像是一个过滤通道,以多个独立搜索引擎的输出结果作为输入,经过一番提取、剔除、萃取等操作,形成最终结果,然后将最终结果输出给用户。通过元搜索技术进行信息解析和提取元搜索引擎就是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。元搜索引擎一般没有自己独立的数据库,却更多地提供统一连接界面,形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟整体。用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。元搜索引擎中各独立搜索引擎被称为“目标搜索引擎”,或者“成员搜索引擎”,它们各自保持其原来的局部数据模式和自己的检索指令,元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。
Web网页自动解析及信息提取:Web上的信息很多存储在HTML页面上,针对网页信息的结构特点及其在HTML层次结构中的体现方式,建立具有普遍使用性的提取信息判断规则以及干扰信息判断规则,进行网页主体信息的自动解析和信息提取。
步骤三:切分文本信息
利用样本训练提取建立的地名识别规则库和动态地名关系数据库以及地名表达模型等能够参考的基础资源,在中文自动分词词典的基础上进行扩充,对Web网页上解析并提取的文本信息进行切分,将文字描述的地名地址切分为结构化的多个地址要素。
步骤四:匹配识别地名地址信息
地名地址具有一定的规律性,一般以省、市、区、县、镇、社区等关键词结尾,利用这个已形成的地名地址识别规律,如图3所示,构建地名地址识别规则和表达模型,对已切分的数据结果进行文本环境下的地名地址模糊识别匹配,该地名地址模糊识别匹配包括基于篇幅和局部的地名识别和匹配。对待识别匹配的分词后的地名地址信息进行相似度计算,从低级别地址开始匹配可减少计算量,根据不同权值得出的相似度结果进行地名地址模糊识别匹配。
步骤五:基于认知度提取地名地址信息
利用地名地址标准化表达方式和结构化地名词典进行基于认知度的地名地址提取,从而实现面向Web的中文地名地址自动识别和提取方法。
提取的地名地址信息包括:地标信息、著名景点、商圈等信息。
步骤六:标准化处理地名地址信息
利用标准化地名地址模型,对提取的地名地址信息进行标准化处理,最终输出符合既定标准的地名地址结果。
地址标准化的过程是根据标准化地址表达方式将一个具体的地址表达出来,并根据地址编码模型中各要素的从属关系自动填补上级缺失部分的过程。使得其能够形成以该地址的最低端为结尾,前面各部分都填充满的标准化地址表达式。利用分词技术提取出来的地名地址信息,参考《中华人民共和国国家标准GB/T23705-2009数字城市地理信息公共平台地名/地址编码规则》的规定,结合最终标准化地名地址信息的预期目标进行标准化处理。
参照图3,根据设计的地址编码模型,可以得出标准地址表达式:
<标准地址>::=<[国家名][省名][市名][区|县名]><[基础地址][扩展地址]><[基础子地址][扩展子地址]>。
参考《中华人民共和国国家标准GB/T23705-2009数字城市地理信息公共平台地名/地址编码规则》可以得到如图4所示的标准化地名地址模型。
考虑到三级行政区划标准化难度较低,先参考图3的模型进行标准化,保证地名地址信息的前三级信息完整标准,并将其余信息规范为基础地址及其扩展地址和基础子地址及其扩展子地址,再对基础地址及其扩展地址和基础子地址及其扩展子地址。
综上所述,因为本发明的提取及标准化的方法是基于结构化地名词典并结合大量样本训练得出的,所以本发明的方法大大提升了互联网地名地址信息提取及标准化的速度及准确性。
需要说明的是,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (7)
1.一种面向互联网的地名地址提取与标准化方法,其特征在于,包括以下步骤:
一、建立地名地址基础资源库、形成地名表达模型和结构化地名词典;
二、自动解析及提取网页信息;
三、切分文本信息,将文字描述的地名地址切分为结构化的多个地址要素;
四、匹配识别地名地址信息;
五、基于认知度提取地名地址信息;
六、标准化处理地名地址信息。
2.根据权利要求1所述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤一中,
对标注的基础地名地址样本数据进行多级地址的关联分析以及各级地址及其描述信息的结构化处理,通过建立关系数据库形成用于地名地址识别的基础资源库以及地名表达模型和结构化地名词典,
所述标注的基础地名地址样本数据包括:地名数据、国家基础地名数据和国家行政区划数据,
所述用于地名地址识别的基础资源库包括:规则库、模型库和关联关系库。
3.根据权利要求1所述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤二中,
利用元搜索引擎技术进行Web网页的自动收录,并根据HTML结构和解析规则进行Web网页的自动解析和信息提取。
4.根据权利要求1所述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤三中,
利用步骤一建立的地名地址基础资源库,在中文自动分词词典的基础上进行扩充,对互联网文本信息数据进行切分,将文字描述的地名地址切分为结构化的多个地址要素。
5.根据权利要求1所述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤四中,
利用地名地址以关键词结尾的规律,构建地名地址识别规则和表达模型,对已切分的数据结果进行文本环境下的地名地址识别匹配,所述地名地址识别匹配包括:基于篇幅的地名地址识别和匹配、基于局部的地名地址识别和匹配。
6.根据权利要求1所述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤五中,
利用地名地址标准化表达方式和结构化地名词典进行基于认知度的地名地址提取,从而实现面向Web的中文地名地址自动识别和提取,提取的地名地址信息包括:地标信息、著名景点、商圈。
7.根据权利要求1所述的面向互联网的地名地址提取与标准化方法,其特征在于,在步骤六中,
利用标准化地名地址模型,对提取的地名地址信息进行标准化处理,最终输出符合既定标准的地名地址结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510607640.3A CN105224622A (zh) | 2015-09-22 | 2015-09-22 | 面向互联网的地名地址提取与标准化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510607640.3A CN105224622A (zh) | 2015-09-22 | 2015-09-22 | 面向互联网的地名地址提取与标准化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105224622A true CN105224622A (zh) | 2016-01-06 |
Family
ID=54993590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510607640.3A Pending CN105224622A (zh) | 2015-09-22 | 2015-09-22 | 面向互联网的地名地址提取与标准化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105224622A (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843797A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 归一化方法及装置 |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
CN107016084A (zh) * | 2017-03-31 | 2017-08-04 | 江苏速度信息科技股份有限公司 | 一种地名地址快速定位与查询的方法 |
CN107092680A (zh) * | 2017-04-21 | 2017-08-25 | 中国测绘科学研究院 | 一种基于地理网格的政务信息资源整合方法 |
CN107301227A (zh) * | 2017-06-21 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的搜索信息解析方法及装置 |
CN107368471A (zh) * | 2017-06-29 | 2017-11-21 | 中国测绘科学研究院 | 一种网页文本中地名地址的提取方法 |
CN107527312A (zh) * | 2016-06-22 | 2017-12-29 | 顺丰科技有限公司 | 快件地址处理系统和方法 |
CN107562834A (zh) * | 2017-08-23 | 2018-01-09 | 四川长虹电器股份有限公司 | 地理位置标准化提取的方法 |
CN107679160A (zh) * | 2017-09-28 | 2018-02-09 | 深圳市华傲数据技术有限公司 | 基于图数据库的数据处理方法及装置 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN108416062A (zh) * | 2018-03-26 | 2018-08-17 | 国家电网公司客户服务中心 | 一种基于地址匹配技术的电网数据关联方法 |
CN109086064A (zh) * | 2018-08-01 | 2018-12-25 | 南京茂毓通软件科技有限公司 | 基于自定义标签语言的http协议要素通用抽取方法 |
CN109145095A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 地名信息匹配方法、信息匹配方法、装置及计算机设备 |
WO2019018982A1 (en) * | 2017-07-24 | 2019-01-31 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR PROVIDING INFORMATION FOR SERVICE ON DEMAND |
CN109359200A (zh) * | 2018-10-11 | 2019-02-19 | 北京国信达数据技术有限公司 | 地名地址数据智能解析系统 |
CN109359186A (zh) * | 2018-10-25 | 2019-02-19 | 杭州时趣信息技术有限公司 | 一种确定地址信息的方法、装置和计算机可读存储介质 |
CN110399448A (zh) * | 2019-07-31 | 2019-11-01 | 浪潮软件集团有限公司 | 中文地名地址搜索匹配方法、终端、计算机可读存储介质 |
CN110765773A (zh) * | 2019-10-31 | 2020-02-07 | 北京金堤科技有限公司 | 地址数据获取方法以及装置 |
CN110825950A (zh) * | 2019-09-25 | 2020-02-21 | 中国科学院信息工程研究所 | 一种基于元搜索的隐藏服务发现方法 |
CN111198954A (zh) * | 2019-11-28 | 2020-05-26 | 深圳市跨越新科技有限公司 | 一种下单地址结构化解析方法和系统 |
CN111723164A (zh) * | 2019-03-18 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法和装置 |
CN111881680A (zh) * | 2020-08-04 | 2020-11-03 | 医渡云(北京)技术有限公司 | 文本的标准化处理方法、装置、电子设备及计算机介质 |
CN112835922A (zh) * | 2021-01-29 | 2021-05-25 | 上海寻梦信息技术有限公司 | 地址区划分类方法、系统、设备及存储介质 |
WO2021246954A1 (en) * | 2020-06-03 | 2021-12-09 | Grabtaxi Holdings Pte. Ltd. | Processing apparatus and method for determining road names |
CN113836357A (zh) * | 2021-10-12 | 2021-12-24 | 北京商越网络科技有限公司 | 基于文本相似度计算的地址库数据处理方法和控制系统 |
CN114417022A (zh) * | 2022-03-30 | 2022-04-29 | 阿里巴巴(中国)有限公司 | 模型训练方法、数据处理方法及其装置 |
CN114925151A (zh) * | 2022-05-07 | 2022-08-19 | 武汉大学 | 一种城市poi地址信息实时自动生成方法 |
CN115410158A (zh) * | 2022-09-13 | 2022-11-29 | 北京交通大学 | 一种基于监控摄像头的地标提取方法 |
CN116384948A (zh) * | 2023-06-02 | 2023-07-04 | 北京拓普丰联信息科技股份有限公司 | 一种标讯项目所在地的抽取方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110080A (zh) * | 2007-08-21 | 2008-01-23 | 北京大学 | 一种网络地图服务中未登录地名的定位方法 |
CN101110081A (zh) * | 2007-08-21 | 2008-01-23 | 北京大学 | 一种文本上下文中实体地址信息的提取方法 |
CN101719122A (zh) * | 2009-12-04 | 2010-06-02 | 中国人民解放军信息工程大学 | 一种从文本数据中提取中文命名实体的方法 |
US20150082452A1 (en) * | 2003-09-29 | 2015-03-19 | Ebay Inc. | Method and apparatus for geolocation of a network user |
-
2015
- 2015-09-22 CN CN201510607640.3A patent/CN105224622A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150082452A1 (en) * | 2003-09-29 | 2015-03-19 | Ebay Inc. | Method and apparatus for geolocation of a network user |
CN101110080A (zh) * | 2007-08-21 | 2008-01-23 | 北京大学 | 一种网络地图服务中未登录地名的定位方法 |
CN101110081A (zh) * | 2007-08-21 | 2008-01-23 | 北京大学 | 一种文本上下文中实体地址信息的提取方法 |
CN101719122A (zh) * | 2009-12-04 | 2010-06-02 | 中国人民解放军信息工程大学 | 一种从文本数据中提取中文命名实体的方法 |
Non-Patent Citations (1)
Title |
---|
王克永: ""面向网页文本的地理信息要素提取与空间定位方法研究"", 《万方学位论文》 * |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843797A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 归一化方法及装置 |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
CN107527312A (zh) * | 2016-06-22 | 2017-12-29 | 顺丰科技有限公司 | 快件地址处理系统和方法 |
CN107016084A (zh) * | 2017-03-31 | 2017-08-04 | 江苏速度信息科技股份有限公司 | 一种地名地址快速定位与查询的方法 |
CN107092680A (zh) * | 2017-04-21 | 2017-08-25 | 中国测绘科学研究院 | 一种基于地理网格的政务信息资源整合方法 |
CN107092680B (zh) * | 2017-04-21 | 2019-12-10 | 中国测绘科学研究院 | 一种基于地理网格的政务信息资源整合方法 |
CN109145095B (zh) * | 2017-06-16 | 2024-03-29 | 贵州小爱机器人科技有限公司 | 地名信息匹配方法、信息匹配方法、装置及计算机设备 |
CN109145095A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 地名信息匹配方法、信息匹配方法、装置及计算机设备 |
CN107301227A (zh) * | 2017-06-21 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的搜索信息解析方法及装置 |
US10657325B2 (en) | 2017-06-21 | 2020-05-19 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for parsing query based on artificial intelligence and computer device |
CN107368471A (zh) * | 2017-06-29 | 2017-11-21 | 中国测绘科学研究院 | 一种网页文本中地名地址的提取方法 |
CN107368471B (zh) * | 2017-06-29 | 2020-11-27 | 中国测绘科学研究院 | 一种网页文本中地名地址的提取方法 |
CN110832476A (zh) * | 2017-07-24 | 2020-02-21 | 北京嘀嘀无限科技发展有限公司 | 用于为按需服务提供信息的系统和方法 |
WO2019018982A1 (en) * | 2017-07-24 | 2019-01-31 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR PROVIDING INFORMATION FOR SERVICE ON DEMAND |
CN107562834A (zh) * | 2017-08-23 | 2018-01-09 | 四川长虹电器股份有限公司 | 地理位置标准化提取的方法 |
CN107679160A (zh) * | 2017-09-28 | 2018-02-09 | 深圳市华傲数据技术有限公司 | 基于图数据库的数据处理方法及装置 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN108416062A (zh) * | 2018-03-26 | 2018-08-17 | 国家电网公司客户服务中心 | 一种基于地址匹配技术的电网数据关联方法 |
CN109086064A (zh) * | 2018-08-01 | 2018-12-25 | 南京茂毓通软件科技有限公司 | 基于自定义标签语言的http协议要素通用抽取方法 |
CN109086064B (zh) * | 2018-08-01 | 2022-01-14 | 南京茂毓通软件科技有限公司 | 基于自定义标签语言的http协议要素通用抽取方法 |
CN109359200A (zh) * | 2018-10-11 | 2019-02-19 | 北京国信达数据技术有限公司 | 地名地址数据智能解析系统 |
CN109359186A (zh) * | 2018-10-25 | 2019-02-19 | 杭州时趣信息技术有限公司 | 一种确定地址信息的方法、装置和计算机可读存储介质 |
CN109359186B (zh) * | 2018-10-25 | 2020-12-08 | 杭州时趣信息技术有限公司 | 一种确定地址信息的方法、装置和计算机可读存储介质 |
CN111723164A (zh) * | 2019-03-18 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法和装置 |
CN111723164B (zh) * | 2019-03-18 | 2023-12-12 | 阿里巴巴集团控股有限公司 | 地址信息的处理方法和装置 |
CN110399448A (zh) * | 2019-07-31 | 2019-11-01 | 浪潮软件集团有限公司 | 中文地名地址搜索匹配方法、终端、计算机可读存储介质 |
CN110399448B (zh) * | 2019-07-31 | 2023-06-09 | 浪潮软件集团有限公司 | 中文地名地址搜索匹配方法、终端、计算机可读存储介质 |
CN110825950A (zh) * | 2019-09-25 | 2020-02-21 | 中国科学院信息工程研究所 | 一种基于元搜索的隐藏服务发现方法 |
CN110825950B (zh) * | 2019-09-25 | 2022-05-17 | 中国科学院信息工程研究所 | 一种基于元搜索的隐藏服务发现方法 |
CN110765773A (zh) * | 2019-10-31 | 2020-02-07 | 北京金堤科技有限公司 | 地址数据获取方法以及装置 |
CN111198954A (zh) * | 2019-11-28 | 2020-05-26 | 深圳市跨越新科技有限公司 | 一种下单地址结构化解析方法和系统 |
CN111198954B (zh) * | 2019-11-28 | 2023-08-22 | 深圳市跨越新科技有限公司 | 一种下单地址结构化解析方法和系统 |
US11821748B2 (en) | 2020-06-03 | 2023-11-21 | Grabtaxi Holdings Pte. Ltd. | Processing apparatus and method for determining road names |
WO2021246954A1 (en) * | 2020-06-03 | 2021-12-09 | Grabtaxi Holdings Pte. Ltd. | Processing apparatus and method for determining road names |
CN111881680A (zh) * | 2020-08-04 | 2020-11-03 | 医渡云(北京)技术有限公司 | 文本的标准化处理方法、装置、电子设备及计算机介质 |
CN112835922A (zh) * | 2021-01-29 | 2021-05-25 | 上海寻梦信息技术有限公司 | 地址区划分类方法、系统、设备及存储介质 |
CN113836357A (zh) * | 2021-10-12 | 2021-12-24 | 北京商越网络科技有限公司 | 基于文本相似度计算的地址库数据处理方法和控制系统 |
CN113836357B (zh) * | 2021-10-12 | 2022-09-16 | 北京商越网络科技有限公司 | 基于文本相似度计算的地址库数据处理方法和控制系统 |
CN114417022B (zh) * | 2022-03-30 | 2022-06-28 | 阿里巴巴(中国)有限公司 | 模型训练方法、数据处理方法及其装置 |
CN114417022A (zh) * | 2022-03-30 | 2022-04-29 | 阿里巴巴(中国)有限公司 | 模型训练方法、数据处理方法及其装置 |
CN114925151A (zh) * | 2022-05-07 | 2022-08-19 | 武汉大学 | 一种城市poi地址信息实时自动生成方法 |
CN114925151B (zh) * | 2022-05-07 | 2024-07-26 | 武汉大学 | 一种城市poi地址信息实时自动生成方法 |
CN115410158A (zh) * | 2022-09-13 | 2022-11-29 | 北京交通大学 | 一种基于监控摄像头的地标提取方法 |
CN116384948B (zh) * | 2023-06-02 | 2023-08-25 | 北京拓普丰联信息科技股份有限公司 | 一种标讯项目所在地的抽取方法、装置、设备及介质 |
CN116384948A (zh) * | 2023-06-02 | 2023-07-04 | 北京拓普丰联信息科技股份有限公司 | 一种标讯项目所在地的抽取方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105224622A (zh) | 面向互联网的地名地址提取与标准化方法 | |
CN107092680B (zh) | 一种基于地理网格的政务信息资源整合方法 | |
CN102395965B (zh) | 用于在数据库中搜索对象的方法 | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN109657074B (zh) | 基于地址树的新闻知识图谱构建方法 | |
CN107609052A (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
CN104462227A (zh) | 一种图形化知识谱系自动构建方法 | |
CN109359200A (zh) | 地名地址数据智能解析系统 | |
CN107368471A (zh) | 一种网页文本中地名地址的提取方法 | |
CN100354865C (zh) | 仿人工细粒度网页信息采集方法 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
CN109165273A (zh) | 一种面向大数据环境的通用中文地址匹配方法 | |
CN110781670A (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
CN107908627A (zh) | 一种多语言的地图poi 搜索系统 | |
WO2017193471A1 (zh) | 一种东巴经典古籍传承体系数字化国际共享平台 | |
WO2015018247A1 (zh) | 事件多维度信息显示装置和方法 | |
CN107577744A (zh) | 非标地址自动匹配模型、匹配方法以及模型建立方法 | |
CN102169591A (zh) | 一种制图中文本注记分行方法以及绘制方法 | |
CN117151659B (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 | |
CN108268445A (zh) | 一种处理地址信息的方法及装置 | |
CN115129719A (zh) | 一种基于知识图谱的定性位置空间范围构建方法 | |
CN104765763B (zh) | 一种基于概念格的异构空间信息服务分类的语义匹配方法 | |
CN111325235B (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
CN116701648A (zh) | 基于规范标准映射知识图谱及schema设计方法 | |
Yang et al. | Knowledge graph representation method for semantic 3D modeling of Chinese grottoes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160106 |