CN104679867A - 基于图的地址知识处理方法及装置 - Google Patents
基于图的地址知识处理方法及装置 Download PDFInfo
- Publication number
- CN104679867A CN104679867A CN201510097452.0A CN201510097452A CN104679867A CN 104679867 A CN104679867 A CN 104679867A CN 201510097452 A CN201510097452 A CN 201510097452A CN 104679867 A CN104679867 A CN 104679867A
- Authority
- CN
- China
- Prior art keywords
- address
- word
- node
- knowledge
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于图的地址知识处理方法及装置。该方法包括:步骤10、将地址文本切分为地址词序列;步骤20、根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词进行词性标注;步骤30、按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,得出反映实体地址词之间依存关系的边;步骤40、与地址知识库原有内容进行比较,将新增的节点或边输入地址知识库。本发明还提供了基于图的地址知识处理装置。本发明基于图的地址知识处理方法及装置能够按照地址间的固有逻辑组织地址信息,形成地址知识库;能够利用地址知识库提高地址查询精准度;能够支持基于地址知识的推理功能。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于图的地址知识处理方法及装置。
背景技术
以可靠、高效、通用、自动处理复杂数据和分布数据为目标的新一代量质融合数据管理基础软件的系统设计研究中,包含了图查询中如何捕捉有意义的匹配、如何应对图数据的动态特性和查询的复杂性、如何查询分布式的图数据的研究。
地址是一串的字符,内含国家、省份、城市或乡村、街道、门牌号码、屋邨、大厦等建筑物名称,或者再加楼层数目、房间编号等。一个有效的地址应该是独一无二,有助邮差等物流从业员派送邮件,或者上门收件。当前地址识别的技术主要是搜索,并没有在地址应用场景中纳入地址语义信息。
图模型是将数据抽象成点和关系(边),利用点和边来描述复杂的逻辑。谷歌搜索已经加入了知识图谱(Knowledge Graph)技术,其使用语义检索从多种来源收集信息,用来提高谷歌搜索的质量。知识图谱是一张庞大的语义网络,其节点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。“图谱”是指经过系统编辑并根据实物描述的图。该技术是自动构建地址知识库系统的重要环节甚至是关键环节。其基本任务是确定句子的句法结构或者句子中词汇之间的关系。但是,一般来说,地址的结构化并不是一个地址知识库处理任务的最终目标。在该技术中包括但不限于以下技术:自动分词,词性标注,句法分析和实体关系提取等。
语言学上,词是最小的能够独立运用的语言单位。中文作为一种孤立语系语言,协同很多黏着语系的语言(例如日语),在文本中不像西方屈折语系如英语的文本那样有显式的词边界,因此,自动分词问题就成了计算机处理孤立语和黏着语文本时面临的首要基础性工作,是诸多应用系统不可或缺的一个重要环节。自中文自动分词问题被提出以来,众多专家提出了很多分词方法,包括最大正向匹配法(FMM),逆向最大匹配法(BMM),双向扫描法,逐词遍历法等,一般统称为基于词表的分词方法。随着统计方法的迅速发展,人们又提出了若干基于统计模型的分词方法,以及规则方法与统计方法相结合的分词技术,使汉语分词问题得到了更加深入的研究。其中,基于隐马尔可夫模型(HMM)的分词技术正是一种典型的基于统计模型的分词方法。
在语言学中,词性(part-of-speech)是词汇基本的语法属性。词性标注就是在给定的句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是自然语言处理中一个具有重要意义的研究方向,词性标注的方法有很多,大体上可以归为两类,基于规则的方法和基于统计的方法,而基于隐马尔可夫模型(HMM)的词性标注技术正是统计方法的典型例子。具体到地址的切分与标注,现有技术中基于词表的分词方法可参见中国专利申请CN103440311A以及CN102298585A。
另一方面,用词与词之间的依存关系来描述语言结构的框架称为依存句法(Dependency Grammar),是由法国语言学家L.Tesniere最先提出,将句子分析成一颗依存树(Dependency Tree)来描述出各个词语之间的依存关系。现有依存句法分析算法大致归为生成式的分析方法、判别式的分析方法、确定性的(决策式的)分析方法以及基于约束满足的分析方法。当前,基于依存句法的自然语言处理技术不断得到发展和完善。但是,现有技术中基于依存句法对自然语言做分析时一般采用依存树来表示依存关系,而且主要按照主语、谓语、宾语等语言学语法特性来分析自然语言的析依存关系,并没有针对地址的数据结构特点进行专门的地址结构化研究,同时单纯的树状结构也不能表示地址中的复杂关系。
发明内容
本发明的目的在于提供一种基于图的地址知识处理方法及装置,按照地址间的固有逻辑组织地址信息。
为实现上述目的,本发明提供了一种基于图的地址知识处理方法,包括:
步骤10、将地址文本切分为地址词序列;
步骤20、根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词进行词性标注;
步骤30、按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反映地址结构的依存句法图结构;
步骤40、与地址知识库原有内容进行比较,将新增的节点或边输入地址知识库。
其中,步骤40中,地址文本根据其依存句法图结构按照节点包含关系逐级遍历各节点并输入地址知识库。
其中,包括步骤50、基于地址知识库中的节点和边对节点之间的关系进行推理。
其中,包括步骤60、基于地址知识库结合推理功能查询地址时,按照步骤10、步骤20及步骤30处理待查询地址文本,按照节点包含关系逐级确认地址知识库与待查询地址文本的对应关系,对于不能确定的级别进行推理猜测,最终从地址知识库中选定可能性高的对应节点作为查询结果。
其中,所述地址为中文地址。
其中,所述词性标注集包括代表实体地址词所占据空间的标签。
其中,所述代表实体地址词所占据空间的标签为国家、省、市、区、街道、社区、片区、道路、门牌号、楼栋、房间、交汇处或地铁线。
其中,所述预定义的依存关系规则为包含关系、门牌号指向关系、邻接关系、方位关系、部分整体关系或同名关系。
本发明还提供了一种基于图的地址知识处理装置,包括:
地址文本切分模块,用于将地址文本切分为地址词序列;
地址词标注模块,用于根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词进行词性标注;
依存句法分析模块,按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反映地址结构的依存句法图结构;
地址知识库输入模块,与地址知识库原有内容进行比较,将新增的节点或边输入地址知识库。
其中,还包括地址知识库推理模块,用于基于地址知识库中的节点和边对节点之间的关系进行推理
综上所述,本发明基于图的地址知识处理方法及装置能够按照地址间的固有逻辑组织地址信息,形成地址知识库;能够利用地址知识库提高地址查询精准度;能够支持基于地址知识的推理功能。
附图说明
图1为本发明基于图的地址知识处理方法一较佳实施例的流程图;
图2为本发明基于图的地址知识处理方法一较佳实施例中处理示例地址文本所得到的依存句法图结构;
图3至图8为本发明基于图的地址知识处理方法一较佳实施例进行地址知识入库的迭代过程示意图;
图9为本发明基于图的地址知识处理装置的方框图。
具体实施方式
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
参见图1,其为本发明基于图的地址知识处理方法一较佳实施例的流程图。主要包括:步骤10、将地址文本切分为地址词序列;步骤20、根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词进行词性标注;步骤30、按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反映地址结构的依存句法图结构;步骤40、与地址知识库原有内容进行比较,将新增的节点或边输入地址知识库。
考虑到地址说法的随意性,以及地址间具有比较稳定的逻辑关系,因此在本发明中提出了一种按照地址间固有逻辑对地址进行合理组织的方案。如地址“广东省深圳市高新区中区高新中一道9号软件大厦7楼713”,在对该地址进行分析之后会发现该地址中蕴含着如下信息(知识):
广东省/省-包含->深圳市/市
深圳市/市-包含->高新区/社区
高新区/社区-包含->中区/片区
中区/片区-包含->高新中一道/道路
中区-/片区-包含->软件大厦/楼栋
高新中一道/道路-路旁->软件大厦/楼栋
高新中一道/道路-包含->9号/门牌号
9号/门牌号-门牌号->软件大厦/楼栋
软件大厦/楼栋-包含->7楼/楼栋
7楼/楼栋-包含->713/房间
其中“广东省/省-包含->深圳市/市”描述的是:“广东省”是一个“省”,“深圳市”是一个“市”,并且“广东省”下包含一个名叫“深圳市”的地方,其他信息的解读方式类似,不再赘述。
由于文本地址中蕴含着丰富的信息,因此一个直观的地址处理方案就是将大量文本地址中的信息分析出来,将这些信息合理组织到一起将会得到一个很有价值的地址知识库。这个知识库的整理过程中涉及到:单条地址的信息分析、多条地址的信息整理到一起。利用这样一个有着丰富信息的地址知识库就可以做出地址相关的逻辑推理,如“软件大厦”的门牌号是多少、“科技中三路5号”是哪栋建筑的门牌号等。在这样的地址知识库上对字串型地址进行查询可以结合库中的知识加上部分推理使查询结果精准度更高。
按照上面的描述,接下来从如下几个角度对本发明的相关内容进行阐述。
1.单条地址的知识分析
单条地址知识分析就是在字符串型的地址中解析出可处理的信息。为此本发明定义了地址的分词、标注、结构化过程,通过步骤10,20及30来执行。其中分词是对文本串完成切分的过程,标注是为分词序列中的每一项打标签,结构化是将词/标签序列中的相互关系定义出来。
以“深圳市南山区高新中一道软件大厦713”为例,首先通过步骤10进行地址切分,该地址表示为“深圳市——南山区——高新中一道——软件大厦——713”,得到了地址词的序列,然后,通过步骤20进行地址标注,该地址表示为了标注序列“深圳市/市——南山区/区——高新中一道/道路——软件大厦/楼栋——713/房间”。
由于屈折语系的语言自带词分隔符,地址切分相对简单,下面仅以中文地址为例来说明本发明。本发明所指的中文地址,是由Unicode中CJK字符集所收录的字符组成,包含了绝大部分中文,以及小部分非中文的字符。
在当前任务中,地址切分,或者叫做地址分词,目的就是将中文地址中的“词”切割出来。由于地址词的概念在哪一个地方都没有明确的定义,所以很难有确定的正确答案。所以遇到切分歧义问题不代表系统或者方法是不可靠的或者一定有一种是错误的。本发明按照两个切分基本的原则来确保在一般情况下地址词不产生歧义:
1)最小单位原则,切分出来的词是否能保持不丧失语义,并且不增加歧义。
2)无水波效应原则,对一个词的切分是否影响了其他词的语义。保证词的切分对其他词没有影响。
在本发明一较佳实施例中,首先使用纯粹的统计模型HMM来进行地址词的切分。该方法是常见的分词方法,不再赘述。然后,再根据预定的词性标注集(tagging set)进行地址标注。本发明的地址标注任务和通常的词性标注很类似,只不过判断的是每个词实际的物理空间范畴,这个范畴由本发明的地址标注系统给出。也就是说,本发明进行词性标注的过程与一般的自然语言词性标注过程相同,但是本发明的词性标注集主要关注于地址词所表示的物理空间范畴,而非词的名词、动词、形容词或其他词性。
为了方便处理地址,本发明按照地址词所占据空间的特点,提出了标注的主干。然后,为了兼容另一部分语句,引入了一部分词性标注,比如“与”标签(tag)。请注意,标注只代表地址词所占据空间的性质,并不存在强制的层级包含关系。比如在新加坡“国家”和“市”是同一个空间。在梵蒂冈,“国家”在空间上从属于罗马“市”。在标注的时候关注它的性质,而不是它的空间大小。如下表一是本发明一较佳实施例的标注系统的详细内容。本发明称对应于地址实体的地址词为实体地址词,实体地址词可以对应用表一中的国家、省、市、区、街道、社区、片区、道路、门牌号、楼栋、房间、交汇处或地铁线等标签来标注。
表一、地址标注体系
地址词标注与分词一样,是地址信息处理面临的重要的基础性问题,而且两者有着密切的关系。在本发明该较佳实施例中采用规则和统计相结合的方法进行标注。基于规则的标注方法是人们提出较早的一种标注方法,其基本思想是按兼类词搭配关系和上下文语境建造词类消歧规则。人工干预的策略简单,不需要了解大量的背景知识。该较佳实施例中,首先使用HMM统计模型进行第一步的粗标注,然后通过事先预定的专门规则系统对粗标注结果进行修正。
在该较佳实施例的标注过程中,之所以没有仅选择纯粹的统计模型,是基于以下几个考虑:
1)实现基于HMM的标注方法时,模型的参数估计是其中的关键问题。本发明可以随机地初始化HMM的所有参数,但是,这将使标注问题过于缺乏限制。
2)另外一个需要注意的问题是HMM模型参数对训练语料的适应性。也就是说,由于不同的语料中概率有所差异,HMM的参数也应随着语料的变化而变化。在经典的HMM理论框架下,利用标注过的语料对模型初始化以后,已标注的语料就难以再发挥作用。
由于有上述的问题,所以该较佳实施例增加由人工维护的规则系统对结果做修正。本发明的方法结合了统计和规则的方法,主要有两个好处:一方面利用标注语料对统计模型进行参数训练,可以得到统计排歧所需要的不同参数;另一方面,通过将机器自动标注的结果与人工规则的结果进行比较,可以发现自动处理的错误所在,从中总结出大量有用的信息以补充和调整规则库的内容。
在该较佳实施例中,地址的切分和标注都选用了基于隐马尔可夫模型的方式。实践中也可以选取其它适当的分词/标注方法进行地址切分/标注,可参见中国专利申请CN103440311A以及CN102298585A。
接下来,步骤30中通过预定义的地址词依存关系规则得到词与词之间的关系,通过依存句法分析来使地址结构化,得到了实体地址词节点和反映实体地址词之间依存关系的边,也就是说,实际上得到了可以反映地址结构的依存句法图结构。在地址中,“依存”就是指词与词之间支配与被支配的关系,这种关系不是对等的,而是有方向的。处于支配地位的成分称为支配者(governor,regent,head),而处于被支配地位的成分称为从属者(modifier,subordinate,dependency)。
根据地址文本(句子)的数据特点,不同于一般的自然语言依存句法分析,为了最终按照依存句法图结构来结构化地址,本发明提出了地址依存句法图结构应该满足的充分必要条件为:
1)单一头结点,一个句子只能有一个头结点。即只出不进的结点。
2)连通,一个句子形成的依存结构要保持连通状态。
3)无环,句子中任何一种依存关系都不能在成分之间形成环。
4)可投射,如果成分A直接从属于B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分。
为了能保证地址的依存句法的合理性,本发明提出了以下的地址词依存关系规则。
1)包含关系(CONTAIN),表示实体地址词空间上的包含关系。
2)门牌号指向关系(NUMBER),表示道路门牌号系统对空间的指向关系。
3)邻接关系(SIDE),主要用于表示和道路的邻接关系。
4)方位关系(DIRECTION),主要表达实体与实体间存在的相对位置关系。
地址辅助关系:
1)部分整体关系(PARTOF),主要用于表示部分实体与整体之间的关系,如深南大道在福田区、南山区的路段与深南大道之间的关系。
2)同义关系(ALIASES),或称为别名关系,由主名称指向别名实体。
由于依存句法分析技术为现有技术,本发明在此仅使用基于规则的确定性依存分析方法作为具体示例。确定性依存分析方法以特定的方向逐次取一个待分析词,为每次输入的词产生一个单一的分析结果,直至序列的最后一个词。这类算法在每一步分析中都要根据当前分析状态做出决策(如判断其是否与前一个词发生依存关系),因此,也称这种方法为决策式分析方法。
本发明通过一个确定的分析动作序列来得到一个唯一的句法表达,即依存图(有时可能会有回溯和修补),这是本发明所使用方法的基本思想。具体分析过程与现有技术中采用依存句法分析自然语句的过程相类似,只是以地址词代替了主语、谓语、宾语等,并且依存关系也替换为地址词之间的依存关系。比如,分析结果为“深圳市”-[CONTAIN]->“南山区”,“高新中一道”-[SIDE]->“软件大厦”等等关系。通过词对之间的关系,将地址结构化,构成地址依存图结构。
如图2所示,其为本发明基于图的地址知识处理方法一较佳实施例中处理示例地址文本所得到的依存句法图结构。通过按照预定义的地址词依存关系规则如[CONTAIN],[SIDE]等,对标注后的地址词序列“深圳市/市——南山区/区——高新中一道/道路——软件大厦/楼栋——713/房间”进行依存句法分析,即可以得到示例文本地址“深圳市南山区高新中一道软件大厦713”的依存句法图结构。图2中,对于类似A-[CONTAIN]->B,B-[CONTAIN]->C,A-[CONTAIN]->C的情况,由于传递性,A-[CONTAIN]->C可由A-[CONTAIN]->B且B-[CONTAIN]->C自动推导出,因此在图2所示依存句法图结构中省略了A-[CONTAIN]->C的标注。
标注后的地址词序列通过规则系统进行确定性依存分析的分析算法的简单形式如下所示:
For wordi in sentence:
For wordj in sentence:
satisfy(wordi,wordj)):#满足规则系统的约束,地址词wordi和wordj满足预定义的地址词依存关系规则时,在wordi和wordj间建立相应的依存关系。
具体实施时,为了能更好的表示规则,本发明还提出了一种关于地址的规则描述语法。本发明预定义的标注规则和地址词依存关系规则都可以使用相同的逻辑和语法标记。如语句'if:'是条件句起始,每个条件单独一行,各条件间是“与”关系,每条语句由两部分组成用":"隔开,前面表示相对位置i的概念(Notion,或称为标注)或值(Value,或称为词),后面表示满足的条件,条件是“或”关系,概念满足条件。
'then:'是执行句起始。条件句中'N'起始代表概念,'V'起始代表值。
字母后的数字为相对位置,当前检查位置为0,如果相对位置为-1代表前一个词,如果相对位置为1代表后一个词。
1:(.*公司)(前.*):公司,楼栋
if:
N0:市,省
N-1:楼栋,门牌号
N1:公司
then Merge:
0<>1:公司
Then connect
-1-c->2
简单来说上面语句表达的意思就是:
如果当前概念为'市',前一个概念为“楼栋”,后一个概念为“公司”。则可以将当前值和后一值合并,并给新值赋予概念为“公司”。最后,将相对位置为-1的词和相对位置为2的词建立连接。
2.多条地址的信息整理
多条地址的信息整理目的是将每条地址中分析出的信息整理到一起,组成一个大的地址图(地址知识库)。通过步骤10,20及30将每条地址结构化的表示为实体节点及边,再通过步骤40将多条地址融合在一起形成地址知识库。多条地址入库的过程,实际上就是与地址知识库原有内容进行比较,将新增的节点或边输入地址知识库的过程。
在本发明一较佳实施例中,该地址融合过程中依赖了如下假设进行完成,提高了入库效率。
假设1:任意实体地址词节点下利用相同依存关系/相同地址名称/标注指定的是同一个实体节点。举例来说:“深圳市”这一实体节点下,“南山区/区”表达的是一个明确的含义,而且深圳市与它的关系是包含关系。
假设2:除“中华人民共和国”这一根节点可以不依附其他节点存在,其他任何实体地址词节点都应当依赖于某个已存在的节点(被某个实体地址词节点包含)。
假设3:一般来说,实体地址词节点之间不允许出现包含的环路关系。
如图3至图8所示,其为本发明基于图的地址知识处理方法一较佳实施例进行地址知识入库的迭代过程示意图。地址文本可以根据其依存句法图结构按照节点包含关系逐级遍历各节点并输入地址知识库;多条地址文本可以分别处理同时进行入库,以提高入库效率。
入库地址分别为:入库记录1——广东省深圳市高新区中区高新中一道9号软件大厦7楼713;入库记录2——深圳市南山区高新区科技园软件大厦。
基于以上假设和单条地址的知识分析(依存句法图结构),步骤40中多条地址入库的流程案例可参考如下过程。
迭代1:由图3可见,作为空间层级参照,用于标注实体地址词所占据空间的标签国家、省、市、区、街道、社区、片区、道路、门牌号、楼栋、房间、POI(兴趣点)等按照空间层次逐级排列,并且以实线箭头表示不同层级之间的包含关系,以虚线箭头表示不同层级之间的其它关系,例如,门牌号可能与片区,楼栋或房间存在门牌号指向关系;入库记录1,入库记录2已经结构化表示为依存句法图结构,图库(地址知识库)中内容也是以依存句法图结构来表示;对于入库记录1,入库记录2,分别按照包含关系逐节点遍历并与图库中内容进行比较,当发现相较于图库中内容新增(以虚线表示)的节点(实体地址词)或边(依存关系)时,将新增(以虚线表示)的节点或边输入地址知识库作为下一次迭代的基础;迭代1中将节点“南山区”和“高新区”及相应的边输入地址知识库。
迭代2:图4中,将节点“中区”及相应的边,以及节点“南山区”与“高新区”之间的边输入地址知识库,同时由于传递性,节点“深圳市”与“高新区”之间的边在图5中省去。
迭代3:图5中,新增节点“软件大厦”、“高新中一道”、“科技园”及相应的边输入地址知识库。
迭代4:图6中,新增节点“9号”、“7楼”及“软件大厦”及相应的边输入地址知识库;在此较佳实施例中,为了表现“软件大厦”可以从属于不同节点下的情况,生成两个“软件大厦”节点,可以反映生活中楼栋重名或相同的楼栋具有不同的地址表述方式等情况。
迭代5:图7中,新增节点“713”、及相应的边输入地址知识库。
图8中,通过多次迭代,入库记录1,入库记录2最终输入地址知识库。
基于地址知识库,能够利用地址间的复杂逻辑提升地址相关业务的效果,是本专利的独创之处。
3.地址图(地址知识库)上的逻辑推理
在地址图中已经存储了实体地址词名称(如“深圳市”)、实体地址词级别(如“市”)、实体地址词间的关系(如“深圳市”包含“南山区”)。可以基于地址知识库中的节点和边对节点之间的关系进行推理,也就是利用实体间的固有关系可以完成如下几种推理过程:
a.门牌号推理建筑名称,利用门牌号关系;
b.建筑名称推理门牌号,利用门牌号关系;
c.道路穿过多少个社区/街道/区,利用部分整体关系和包含关系;
d.深圳市有多少条路,利用包含关系和部分整体关系;
e.某小区有多少栋楼,利用包含关系;
等等。
4.地址图(地址知识库)上的结构化查询
在地址图上结合推理功能进行查询的过程,首先要将待查询字串按照单条地址的结构分析进行信息分析,然后利用当前的地址图逐级确认地址图与当前地址知识的对应关系,对于不能确定的级别进行部分推理猜测,最终选定可能性高的地址图中的对应实体地址词(节点)作为查询结果。
如图9所示,其为本发明基于图的地址知识处理装置的方框图。本发明相应提供了基于图的地址知识处理装置,主要包括:
地址文本切分模块1,用于将地址文本切分为地址词序列;
地址词标注模块2,用于根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词进行词性标注;
依存句法分析模块3,按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反映地址结构的依存句法图结构;
地址知识库输入模块4,与地址知识库原有内容进行比较,将新增的节点或边输入地址知识库。
还可以包括地址知识库推理模块,用于基于地址知识库中的节点和边对节点之间的关系进行推理。
综上所述,本发明基于图的地址知识处理方法及装置能够按照地址间的固有逻辑组织地址信息,形成地址知识库;能够利用地址知识库提高地址查询精准度;能够支持基于地址知识的推理功能。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图的地址知识处理方法,其特征在于,包括:
步骤10、将地址文本切分为地址词序列;
步骤20、根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词进行词性标注;
步骤30、按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反映地址结构的依存句法图结构;
步骤40、与地址知识库原有内容进行比较,将新增的节点或边输入地址知识库。
2.根据权利要求1所述的基于图的地址知识处理方法,其特征在于,步骤40中,地址文本根据其依存句法图结构按照节点包含关系逐级遍历各节点并输入地址知识库。
3.根据权利要求1所述的基于图的地址知识处理方法,其特征在于,包括步骤50、基于地址知识库中的节点和边对节点之间的关系进行推理。
4.根据权利要求1所述的基于图的地址知识处理方法,其特征在于,包括步骤60、基于地址知识库结合推理功能查询地址时,按照步骤10、步骤20及步骤30处理待查询地址文本,按照节点包含关系逐级确认地址知识库与待查询地址文本的对应关系,对于不能确定的级别进行推理猜测,最终从地址知识库中选定可能性高的对应节点作为查询结果。
5.根据权利要求1所述的基于图的地址知识处理方法,其特征在于,所述地址为中文地址。
6.根据权利要求1所述的基于图的地址知识处理方法,其特征在于,所述词性标注集包括代表实体地址词所占据空间的标签。
7.根据权利要求6所述的基于图的地址知识处理方法,其特征在于,所述代表实体地址词所占据空间的标签为国家、省、市、区、街道、社区、片区、道路、门牌号、楼栋、房间、交汇处或地铁线。
8.根据权利要求1所述的基于图的地址知识处理方法,其特征在于,所述预定义的依存关系规则为包含关系、门牌号指向关系、邻接关系、方位关系、部分整体关系或同名关系。
9.一种基于图的地址知识处理装置,其特征在于,包括:
地址文本切分模块,用于将地址文本切分为地址词序列;
地址词标注模块,用于根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词进行词性标注;
依存句法分析模块,按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反映地址结构的依存句法图结构;
地址知识库输入模块,与地址知识库原有内容进行比较,将新增的节点或边输入地址知识库。
10.如权利要求9所述的基于图的地址知识处理装置,其特征在于,还包括地址知识库推理模块,用于基于地址知识库中的节点和边对节点之间的关系进行推理。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510097452.0A CN104679867B (zh) | 2015-03-05 | 2015-03-05 | 基于图的地址知识处理方法及装置 |
PCT/CN2015/094373 WO2016138773A1 (zh) | 2015-03-05 | 2015-11-12 | 基于图的地址知识处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510097452.0A CN104679867B (zh) | 2015-03-05 | 2015-03-05 | 基于图的地址知识处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104679867A true CN104679867A (zh) | 2015-06-03 |
CN104679867B CN104679867B (zh) | 2018-05-29 |
Family
ID=53314909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510097452.0A Active CN104679867B (zh) | 2015-03-05 | 2015-03-05 | 基于图的地址知识处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104679867B (zh) |
WO (1) | WO2016138773A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016138773A1 (zh) * | 2015-03-05 | 2016-09-09 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
CN106021556A (zh) * | 2016-05-30 | 2016-10-12 | 深圳市华傲数据技术有限公司 | 地址信息处理方法及装置 |
CN106776862A (zh) * | 2016-11-28 | 2017-05-31 | 北京奇艺世纪科技有限公司 | 一种游戏视频搜索方法及装置 |
CN109739997A (zh) * | 2019-01-28 | 2019-05-10 | 致诚阿福技术发展(北京)有限公司 | 地址对比方法、装置及系统 |
CN110147420A (zh) * | 2019-05-07 | 2019-08-20 | 武大吉奥信息技术有限公司 | 一种基于图谱模型的地名地址匹配查询方法及系统 |
CN110427471A (zh) * | 2019-07-26 | 2019-11-08 | 四川长虹电器股份有限公司 | 一种基于知识图谱的自然语言问答方法及系统 |
CN112445976A (zh) * | 2020-12-01 | 2021-03-05 | 苏州金螳螂怡和科技有限公司 | 一种基于拥堵指数图谱的城市地址定位方法 |
CN112528174A (zh) * | 2020-11-27 | 2021-03-19 | 暨南大学 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
CN116050402A (zh) * | 2022-05-23 | 2023-05-02 | 荣耀终端有限公司 | 文本地址识别方法、电子设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171237A (zh) * | 2017-12-08 | 2018-06-15 | 众安信息技术服务有限公司 | 一种文本行图像单字切分方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090106681A1 (en) * | 2007-10-19 | 2009-04-23 | Abhinav Gupta | Method and apparatus for geographic specific search results including a map-based display |
CN102298585A (zh) * | 2010-06-24 | 2011-12-28 | 高德软件有限公司 | 一种地址切分及级别标注方法和地址切分及级别标注装置 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009163689A (ja) * | 2008-01-10 | 2009-07-23 | Nec Corp | 住所認識方法及び装置、並びに郵便あて名区分機 |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN104679867B (zh) * | 2015-03-05 | 2018-05-29 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
-
2015
- 2015-03-05 CN CN201510097452.0A patent/CN104679867B/zh active Active
- 2015-11-12 WO PCT/CN2015/094373 patent/WO2016138773A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090106681A1 (en) * | 2007-10-19 | 2009-04-23 | Abhinav Gupta | Method and apparatus for geographic specific search results including a map-based display |
CN102298585A (zh) * | 2010-06-24 | 2011-12-28 | 高德软件有限公司 | 一种地址切分及级别标注方法和地址切分及级别标注装置 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016138773A1 (zh) * | 2015-03-05 | 2016-09-09 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
CN106021556A (zh) * | 2016-05-30 | 2016-10-12 | 深圳市华傲数据技术有限公司 | 地址信息处理方法及装置 |
CN106776862A (zh) * | 2016-11-28 | 2017-05-31 | 北京奇艺世纪科技有限公司 | 一种游戏视频搜索方法及装置 |
CN106776862B (zh) * | 2016-11-28 | 2021-07-23 | 北京奇艺世纪科技有限公司 | 一种游戏视频搜索方法及装置 |
CN109739997A (zh) * | 2019-01-28 | 2019-05-10 | 致诚阿福技术发展(北京)有限公司 | 地址对比方法、装置及系统 |
CN110147420A (zh) * | 2019-05-07 | 2019-08-20 | 武大吉奥信息技术有限公司 | 一种基于图谱模型的地名地址匹配查询方法及系统 |
CN110427471A (zh) * | 2019-07-26 | 2019-11-08 | 四川长虹电器股份有限公司 | 一种基于知识图谱的自然语言问答方法及系统 |
CN112528174A (zh) * | 2020-11-27 | 2021-03-19 | 暨南大学 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
CN112445976A (zh) * | 2020-12-01 | 2021-03-05 | 苏州金螳螂怡和科技有限公司 | 一种基于拥堵指数图谱的城市地址定位方法 |
CN116050402A (zh) * | 2022-05-23 | 2023-05-02 | 荣耀终端有限公司 | 文本地址识别方法、电子设备及存储介质 |
CN116050402B (zh) * | 2022-05-23 | 2023-10-20 | 荣耀终端有限公司 | 文本地址识别方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104679867B (zh) | 2018-05-29 |
WO2016138773A1 (zh) | 2016-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104679867B (zh) | 基于图的地址知识处理方法及装置 | |
CN104679850B (zh) | 地址结构化方法及装置 | |
CN107291687B (zh) | 一种基于依存语义的中文无监督开放式实体关系抽取方法 | |
US9710458B2 (en) | System for natural language understanding | |
CN109597855A (zh) | 基于大数据驱动的领域知识图谱构建方法及系统 | |
CN104657440B (zh) | 结构化查询语句生成系统及方法 | |
CN101414310A (zh) | 一种自然语言搜索的方法和装置 | |
CN104657439A (zh) | 用于自然语言精准检索的结构化查询语句生成系统及方法 | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
CN101329666A (zh) | 基于语料库及树型结构模式匹配的汉语句法自动分析方法 | |
Cai et al. | TAG: Type auxiliary guiding for code comment generation | |
CN113609838B (zh) | 文档信息抽取及图谱化方法和系统 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
Wang et al. | Multi-scale Information Retrieval for BIM using Hierarchical Structure Modelling and Natural Language Processing. | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN113886527A (zh) | 一种自然语言语义提取方法和系统 | |
CN111291573A (zh) | 有向图意义导向模型驱动的短语语义挖掘方法 | |
Sun | A natural language interface for querying graph databases | |
Li et al. | Neural factoid geospatial question answering | |
CN113868382A (zh) | 从中文自然语言中抽取结构化知识的方法和装置 | |
Al-Arfaj et al. | Towards ontology construction from Arabic texts-a proposed framework | |
CN110210033B (zh) | 基于主述位理论的汉语基本篇章单元识别方法 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN114997398B (zh) | 一种基于关系抽取的知识库融合方法 | |
Wang et al. | NALMO: Transforming queries in natural language for moving objects databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 518057 2203/2204, Building 1, Huide Building, North Station Community, Minzhi Street, Longhua District, Shenzhen, Guangdong Province Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. Address before: 518057 Rooms 713, 715 and 716, 7/F, Software Building, No. 9, High-tech Middle Road, High-tech Zone, Nanshan District, Shenzhen, Guangdong Province Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. |
|
CP02 | Change in the address of a patent holder |