CN106021556A - 地址信息处理方法及装置 - Google Patents
地址信息处理方法及装置 Download PDFInfo
- Publication number
- CN106021556A CN106021556A CN201610370136.0A CN201610370136A CN106021556A CN 106021556 A CN106021556 A CN 106021556A CN 201610370136 A CN201610370136 A CN 201610370136A CN 106021556 A CN106021556 A CN 106021556A
- Authority
- CN
- China
- Prior art keywords
- address
- node
- mark
- participle
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种地址信息处理方法及装置。本发明的地址信息处理方法包括:获取多个地址的文本信息;对每个文本信息进行切分得到多个分词;为每个分词添加标注,所述标注用于区分地址的行政区域级别;根据分词的标注构建每个文本信息对应的地址片段;按照预定的融合规则,融合多个地址片段构建地址库。本发明的地址信息处理方法,将文本格式的地址信息以图数据的形式存储,以便实现精确地地址识别。
Description
技术领域
本发明涉及一种地址信息处理方法及装置。
背景技术
同一个地点的邮政地址,不同用户可能给出不同的描述。
以“广东省深圳市南山区中区高新中一道9号软件大厦”这一地址为例,用户输入的地址可能是“深圳市南山区高新中一道软件大厦”,可能是“深圳市南山区高新中一道与科技中三道交叉口的软件大厦”,甚至可能是“深圳市软件大厦”。后台需要根据接收到的邮政地址信息,进行精确的地址识别。
现有技术,例如高德地图、百度地图等,是利用搜索引擎技术进行地址识别,搜索引擎技术对应的数据库存储的是文本信息,这种文本信息的存储方式不利于精确地查找地址。
发明内容
针对现有技术中的缺陷,本发明提供的地址信息处理方法及装置,将文本格式的地址以图数据的形式存储,以便实现精确地地址识别。
本发明提供的一种地址信息处理方法包括:获取多个地址的文本信息;对每个文本信息进行切分得到多个分词;为每个分词添加标注,所述标注用于区分地址的行政区域级别;根据分词的标注构建每个文本信息对应的地址片段;按照预定的融合规则,融合多个地址片段构建地址库。
本发明提供的地址信息处理方法,结合分词、标注、融合等技术,将文本格式的地址以图数据的形式存储,以便实现精确地地址识别。
可选地,所述根据分词的标注构建每个文本信息对应的地址片段,包括:将每个文本信息的每个分词定义为一个节点,并按照标注对应的行政区域级别顺序定义有向边,构成地址片段;所述节点的信息包括所述节点的标注和所述节点的描述信息,所述描述信息包括所述节点的名称和所述节点的父节点的描述信息,所述节点的名称为所述节点对应的分词。
可选地,所述融合规则包括:将名称相同且有相同上级节点的多个节点合并为一个节点;参考知识库中的先验信息进行合并。
可选地,所述节点的信息还包括该节点的名称的别名信息。
可选地,所述为每个分词添加标注包括:根据知识库中预先保存的信息,为每个分词添加标注;若无法根据知识库中的信息为分词添加标注,则通过特征词猜测的方式添加标注。
可选地,若构建地址库的过程中出现异常,还包括:提取异常信息,生成工单,由人工处理;或,提取异常信息,在知识库中匹配处理规则,按照匹配的处理规则处理。
本发明提供的一种地址信息处理装置,包括:信息获取模块,用于获取多个地址的文本信息;信息切分模块,用于对每个文本信息进行切分得到多个分词;标注添加模块,用于为每个分词添加标注,所述标注用于区分地址的行政区域级别;地址片段构建模块,用于根据分词的标注构建每个文本信息对应的地址片段;地址片段融合模块,用于按照预定的融合规则,融合多个地址片段构建地址库。
本发明提供的地址信息处理装置,结合分词、标注、融合等技术,将文本格式的地址以图数据的形式存储,以便实现精确地地址识别。
可选地,所述地址片段构建模块具体用于:将每个文本信息的每个分词定义为一个节点,并按照标注对应的行政区域级别顺序定义有向边,构成地址片段;所述节点的信息包括所述节点的标注和所述节点的描述信息,所述描述信息包括所述节点的名称和所述节点的父节点的描述信息,所述节点的名称为所述节点对应的分词。
可选地,所述地址片段融合模块中的所述融合规则包括:将名称相同且有相同上级节点的多个节点合并为一个节点;参考知识库中的先验信息进行合并。
可选地,所述标注添加模块具体用于:根据知识库中预先保存的信息,为每个分词添加标注;若无法根据知识库中的信息为分词添加标注,则通过特征词猜测的方式添加标注。
附图说明
图1为本发明实施例所提供的一种地址信息处理方法的流程图;
图2为本发明实施例所提供的一种地址信息处理装置的结构框图;
图3为通过本发明实施例的方法得到的地址片段;
图4为通过本发明实施例的方法得到的融合后的地址片段。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明提供的地址信息处理方法及装置适用场景广泛,可用于报警、接警系统和电子地图系统等等需要建立地址库的系统中。
如图1所示,本发明实施例提供了一种地址信息处理方法包括:
步骤S101,获取多个地址的文本信息。
步骤S102,对每个文本信息进行切分得到多个分词。
对文本信息切分,主要是根据地名的行政区域级别进行切分,例如,“深圳市南山区高新中一道软件大厦”经切分后,获取如下分词:深圳市,南山区,高新中一道,软件大厦。步骤S102可以采用现有任何分词技术实现切分。
步骤S103,为每个分词添加标注,标注用于区分地址的行政区域级别。
其中,标注主要用于区分地址的行政区域级别,例如,深圳市的标注为“市”,南山区的标注为“区”,高新中一道的标注为“街道”,软件大厦的标注为“写字楼”。当然,还可以进行其他标注,本发明不做限定。步骤S103可以采用现有技术进行分词标注。
步骤S104,根据分词的标注构建每个文本信息对应的地址片段。
步骤S105,按照预定的融合规则,融合多个地址片段构建地址库。
本发明提供的地址信息处理方法,将文本格式的地址以图数据的形式存储,以便实现精确地地址识别。
本发明实施例提供了步骤S103的一种优选方式,包括:根据知识库中预先保存的信息,为每个分词添加标注;若无法根据知识库中的信息为分词添加标注,则通过特征词猜测的方式添加标注。通过特征词猜测的方式进行标注,可采用现有技术实现。特征词可以是“大厦”“楼”“小区”“工厂”等等。
本发明实施例提供了步骤S104的一种优选方式,包括:将每个文本信息的每个分词定义为一个节点,并按照标注对应的行政区域级别顺序定义有向边,构成地址片段。
如图3所示,地址片段一中的深圳市、南山区、软件大厦都是节点,深圳市与南山区之间的连线为一个有向边,南山区与软件大厦之间的连线为一个有向边。预定顺序可以是按行政区的级别由高到低进行排序,如图3中,深圳市与南山区之间的连线为深圳市指向南山区的一个有向边。
其中,节点的信息包括:该节点的标注和该节点的描述信息。描述信息是一个词集合,该词集合包含了节点的名称和父节点的描述信息,节点的名称为该节点对应的分词。以图4中的地址库为例,“软件大厦”的描述信息为{软件大厦、高新中一道、南山区、深圳市}“南山区”的描述信息为{南山区、深圳市}。
实际生活中,一个地点可能会存在多个不同的名称,为了避免同一地点对应多个节点的问题,节点的信息还包括该节点名称的别名信息,这样不管一个地点有多少个不同的名称,它在地址库中都只对应一个节点,这样可以有效减少节点数量,从而减小最终建立的地址库的体积。
步骤S105中的融合规则包括:将名称相同且有相同上级节点的多个节点合并为一个节点;参考知识库中的先验信息进行合并。具体表述为以下3种规则:
融合规则1:当几个节点的名称相同,且这些节点都有相同的父节点时,即可确定是这些节点是同一个点。
融合规则2:当几个节点的名称相同,且不具有相同的父节点,但这几个节点具有相同的上级节点,则认为这几个节点是同一个节点。但此规则仅限于,在相同上级节点下,实际只存在唯一的一个地址,比如,深圳市有两个软件大厦,一个在南山区,一个在福田区,在地址片段中,这两个软件大厦都具有相同的上级节点“深圳市”,这就情况就不能将两个“软件大厦”合并为一个节点。
融合规则3:参考知识库中的先验信息进行合并。知识库中会预先存储有一些信息,根据这些信息对节点进行合并,比如在“天安门”在北京市是天然唯一的一个地址,那么不管你的地址片段是什么样的形式,这些名称为“天安门”的节点都可以合并为一个点。
上级节点为某个节点之前的所有节点,父节点为与某节点相邻的上级节点,如“深圳市”为“南山区”的父节点,“南山区”为“软件大厦”的父节点,而“深圳市”和“南山区”都是“软件大厦”的上级节点。
下面结合图3和图4对融合规则的具体应用作出说明。
地址片段一:深圳市——南山区——软件大厦
地址片段二:深圳市——南山区——高新中一道——软件大厦
地址片段一中的“南山区”和地址片段二中的“南山区”具有相同的名称,且其父节点都为“深圳市”,这种情况就满足融合规则1,则这两个地址片段中的“南山区”就可以做合并。
地址片段一中的“软件大厦”和地址片段二中的“软件大厦”具有相同的名称,但是它们的父节点不同,地址片段二中的“软件大厦”的父节点以上的节点有“南山区”,地址片段一中的“软件大厦”的上级节点也有“南山区”,且南山区只有一个软件大厦,那么地址片段一和地址片段二中的节点“软件大厦”就可以采用融合规则2合并为一个点。
通过上述的融合规则即可得到如图4所示的融合后的地址片段。
实际在建立地址库的过程中,需要处理的地址片段的数量是巨大的,具体的融合规则需要根据实际情况设置,不限于上述的3条融合规则,任何现有的融合方法都可以采用,在此不再赘述。
为了降低地址库的出错概率,本发明实施例还提供了地址库纠正方法,包括人工纠正和自动纠正两种方式。人工纠正方式为:若构建地址库的过程中出现异常,将异常信息生成工单,交由人工处理。自动纠正方式为:提取异常信息,在知识库中找到匹配的处理规则,按照匹配的处理规则处理。
如图2所示,基于与上述地址信息处理方法相同的发明构思,本发明实施例还提供了一种地址信息处理装置,包括:信息获取模块101,用于获取多个地址的文本信息;信息切分模块102,用于对每个文本信息进行切分得到多个分词;标注添加模块103,用于为每个分词添加标注,标注用于区分地址的行政区域级别;地址片段构建模块104,用于根据分词的标注构建每个文本信息对应的地址片段;地址片段融合模块105,用于按照预定的融合规则,融合多个地址片段构建地址库。
本发明实施例提供的地址信息处理装置,将文本格式的地址以图数据的形式存储,以便实现精确地地址识别。
其中,地址片段构建模块具体用于:将每个文本信息的每个分词定义为一个节点,并按照标注对应的行政区域级别顺序定义有向边,构成地址片段;节点的信息包括节点的标注和节点的描述信息,描述信息包括节点的名称和节点的父节点的描述信息,节点的名称为节点对应的分词。
其中,地址片段融合模块中的融合规则包括:将名称相同且有相同上级节点的多个节点合并为一个节点;参考知识库中的先验信息进行合并。
其中,标注添加模块具体用于:根据知识库中预先保存的信息,为每个分词添加标注;若无法根据知识库中的信息为分词添加标注,则通过特征词猜测的方式添加标注。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种地址信息处理方法,其特征在于,包括:
获取多个地址的文本信息;
对每个文本信息进行切分得到多个分词;
为每个分词添加标注,所述标注用于区分地址的行政区域级别;
根据分词的标注构建每个文本信息对应的地址片段;
按照预定的融合规则,融合多个地址片段构建地址库。
2.根据权利要求1所述的方法,其特征在于,所述根据分词的标注构建每个文本信息对应的地址片段,包括:
将每个文本信息的每个分词定义为一个节点,并按照标注对应的行政区域级别顺序定义有向边,构成地址片段;
所述节点的信息包括所述节点的标注和所述节点的描述信息,所述描述信息包括所述节点的名称和所述节点的父节点的描述信息,所述节点的名称为所述节点对应的分词。
3.根据权利要求2所述的方法,其特征在于,所述融合规则包括:
将名称相同且有相同上级节点的多个节点合并为一个节点;
参考知识库中的先验信息进行合并。
4.根据权利要求2或3所述的方法,其特征在于,所述节点的信息还包括该节点的名称的别名信息。
5.根据权利要求1所述的方法,其特征在于,所述为每个分词添加标注包括:
根据知识库中预先保存的信息,为每个分词添加标注;
若无法根据知识库中的信息为分词添加标注,则通过特征词猜测的方式添加标注。
6.根据权利要求1所述的方法,其特征在于,若构建地址库的过程中出现异常,还包括:
提取异常信息,生成工单,由人工处理;或
提取异常信息,在知识库中匹配处理规则,按照匹配的处理规则处理。
7.一种地址信息处理装置,其特征在于,包括:
信息获取模块,用于获取多个地址的文本信息;
信息切分模块,用于对每个文本信息进行切分得到多个分词;
标注添加模块,用于为每个分词添加标注,所述标注用于区分地址的行政区域级别;
地址片段构建模块,用于根据分词的标注构建每个文本信息对应的地址片段;
地址片段融合模块,用于按照预定的融合规则,融合多个地址片段构建地址库。
8.根据权利要求7所述的装置,其特征在于,所述地址片段构建模块具体用于:
将每个文本信息的每个分词定义为一个节点,并按照按照标注对应的行政区域级别顺序定义有向边,构成地址片段;
所述节点的信息包括所述节点的标注和所述节点的描述信息,所述描述信息包括所述节点的名称和所述节点的父节点的描述信息,所述节点的名称为所述节点对应的分词。
9.根据权利要求8所述的装置,其特征在于,所述地址片段融合模块中的所述融合规则包括:
将名称相同且有相同上级节点的多个节点合并为一个节点;
参考知识库中的先验信息进行合并。
10.根据权利要求7所述的装置,其特征在于,所述标注添加模块具体用于:
根据知识库中预先保存的信息,为每个分词添加标注;
若无法根据知识库中的信息为分词添加标注,则通过特征词猜测的方式添加标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610370136.0A CN106021556A (zh) | 2016-05-30 | 2016-05-30 | 地址信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610370136.0A CN106021556A (zh) | 2016-05-30 | 2016-05-30 | 地址信息处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106021556A true CN106021556A (zh) | 2016-10-12 |
Family
ID=57092630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610370136.0A Pending CN106021556A (zh) | 2016-05-30 | 2016-05-30 | 地址信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106021556A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563631A (zh) * | 2018-03-23 | 2018-09-21 | 江苏速度信息科技股份有限公司 | 一种自然语言地址描述的自动识别方法 |
WO2019018982A1 (en) * | 2017-07-24 | 2019-01-31 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR PROVIDING INFORMATION FOR SERVICE ON DEMAND |
CN109426415A (zh) * | 2017-08-31 | 2019-03-05 | 北京国双科技有限公司 | 一种生成级联选择器的方法及装置 |
CN109614472A (zh) * | 2018-06-13 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 文本中地址信息的提取方法及装置 |
CN111414357A (zh) * | 2019-01-07 | 2020-07-14 | 阿里巴巴集团控股有限公司 | 地址数据处理方法、装置、系统和存储介质 |
CN111488409A (zh) * | 2019-01-25 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 一种城市地址库构建方法、检索方法及装置 |
CN111723172A (zh) * | 2020-06-10 | 2020-09-29 | 广东世纪高通科技有限公司 | 一种数据融合方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298585A (zh) * | 2010-06-24 | 2011-12-28 | 高德软件有限公司 | 一种地址切分及级别标注方法和地址切分及级别标注装置 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN104484790A (zh) * | 2014-12-26 | 2015-04-01 | 清华大学深圳研究生院 | 一种物流业务的地址匹配方法及装置 |
CN104657361A (zh) * | 2013-11-18 | 2015-05-27 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN104679867A (zh) * | 2015-03-05 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
CN104679850A (zh) * | 2015-02-13 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
-
2016
- 2016-05-30 CN CN201610370136.0A patent/CN106021556A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298585A (zh) * | 2010-06-24 | 2011-12-28 | 高德软件有限公司 | 一种地址切分及级别标注方法和地址切分及级别标注装置 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN104657361A (zh) * | 2013-11-18 | 2015-05-27 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN104484790A (zh) * | 2014-12-26 | 2015-04-01 | 清华大学深圳研究生院 | 一种物流业务的地址匹配方法及装置 |
CN104679850A (zh) * | 2015-02-13 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
CN104679867A (zh) * | 2015-03-05 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
龚健雅: "《对地观测数据处理与分析研究进展》", 31 December 2007 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019018982A1 (en) * | 2017-07-24 | 2019-01-31 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR PROVIDING INFORMATION FOR SERVICE ON DEMAND |
CN110832476A (zh) * | 2017-07-24 | 2020-02-21 | 北京嘀嘀无限科技发展有限公司 | 用于为按需服务提供信息的系统和方法 |
CN109426415A (zh) * | 2017-08-31 | 2019-03-05 | 北京国双科技有限公司 | 一种生成级联选择器的方法及装置 |
CN108563631A (zh) * | 2018-03-23 | 2018-09-21 | 江苏速度信息科技股份有限公司 | 一种自然语言地址描述的自动识别方法 |
CN109614472A (zh) * | 2018-06-13 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 文本中地址信息的提取方法及装置 |
CN111414357A (zh) * | 2019-01-07 | 2020-07-14 | 阿里巴巴集团控股有限公司 | 地址数据处理方法、装置、系统和存储介质 |
CN111488409A (zh) * | 2019-01-25 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 一种城市地址库构建方法、检索方法及装置 |
CN111723172A (zh) * | 2020-06-10 | 2020-09-29 | 广东世纪高通科技有限公司 | 一种数据融合方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106021556A (zh) | 地址信息处理方法及装置 | |
CN102737057B (zh) | 一种商品类目信息的确定方法及装置 | |
Zhao et al. | Rest: A reference-based framework for spatio-temporal trajectory compression | |
CN104080054B (zh) | 一种异常兴趣点的获取方法及装置 | |
CN105976604B (zh) | 一种基于gis和公交gps数据的公交线路匹配方法 | |
CN105808609B (zh) | 一种信息点数据冗余的判别方法和设备 | |
CN104679801B (zh) | 一种兴趣点搜索方法和装置 | |
CN102289467A (zh) | 确定目标网点的方法和装置 | |
CN105045847B (zh) | 一种从文本信息中提取中文机构单位名称的方法 | |
CN105740440A (zh) | 一种加快区块链查询的索引方法 | |
CN108038090B (zh) | 一种文本地址的处理方法和装置 | |
CN111291277A (zh) | 一种基于语义识别和高级语言搜索的地址标准化方法 | |
CN105528372A (zh) | 一种地址搜索方法和设备 | |
CN104504135B (zh) | 推广账户结构的生成方法和装置 | |
CN104252507B (zh) | 一种企业数据匹配方法和装置 | |
CN106126383A (zh) | 一种日志处理方法和装置 | |
CN108228657B (zh) | 一种关键字检索的实现方法及装置 | |
CN105373590A (zh) | 知识数据的处理方法及装置 | |
CN108712414B (zh) | 一种基于序列比对的二进制未知协议报文格式划分方法 | |
CN106202028A (zh) | 一种地址信息识别方法及装置 | |
CN105045880B (zh) | 一种不同数据源的兴趣点的模糊匹配方法 | |
CN106874287A (zh) | 一种兴趣点poi地址编码的处理方法及装置 | |
CN102403715B (zh) | 用于电力系统的数据匹配方法 | |
CN104615782A (zh) | 基于滑动窗口最大匹配算法的地址匹配方法 | |
CN103559177A (zh) | 一种地名识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161012 |