CN113255346A - 一种基于图嵌入与crf知识融入的地址要素识别方法 - Google Patents
一种基于图嵌入与crf知识融入的地址要素识别方法 Download PDFInfo
- Publication number
- CN113255346A CN113255346A CN202110746162.XA CN202110746162A CN113255346A CN 113255346 A CN113255346 A CN 113255346A CN 202110746162 A CN202110746162 A CN 202110746162A CN 113255346 A CN113255346 A CN 113255346A
- Authority
- CN
- China
- Prior art keywords
- address
- model
- crf
- address elements
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于图嵌入与CRF知识融入的地址要素识别方法,具体包括如下步骤:S1:构建地址要素关系图;S2:图嵌入模型输出地址要素的向量表征;S3:统计语料中各类地址要素之间的转移矩阵;S4:将S3中的转移矩阵作为CRF模型的转移矩阵;S5:由Word2Vec词嵌入模型输出地址要素的向量表征;S6:构建并训练一个BiLSTM模型,输出抽取出的地址要素的向量表征;S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型,得到地址要素的最终识别结果。本发明能从两个角度融入地址要素相关的先验知识,加速模型收敛,提升模型的精度。
Description
技术领域
本发明涉及一种基于图嵌入与CRF知识融入的地址要素识别方法。
背景技术
网络上存在大量与地址信息相关的文本,如物流服务、智慧城市建设,都需要涉及到地址要素的提取与分析。
地址要素识别可以分为传统的基于字符匹配的方法、基于统计机器学习与目前主流的基于深度学习的方法。传统的基于字符匹配的方法需要人为设计特定的规则识别其中的关键字,针对某类比较规范的地址可以取得较好效果,但是费时费力,而且适用场景有限,不能识别未登录词。后来统计机器学习的方法一定程度上避免了人工规则的设计,能取得不错的效果,但是提取到的语义信息有限。有些是同时使用规则匹配与统计机器学习方法,在原有基础上得到提升。
之前基于深度学习的地址要素识别方法忽略了先验知识的融入,因此模型收敛速度较慢,同时也一定程度上影响了模型的精度。
现有技术中存在的问题:1.现有进行地址要素识别的深度学习方法,没有同时考虑到地址要素的同质性和结构性信息。2.现有的地址要素识别方法中虽然使用了条件随机场,有些是使用了字符间的转移概率,但是忽略了先验的不同种类地址要素之间的转移概率。
发明内容
本发明的目的是提供一种基于图嵌入与CRF知识融入的地址要素识别方法,使用深度学习方法不仅避免了人工设计规则,自动提取地址文本的深层语义,同时从两个角度融入地址要素相关的先验知识,加速模型收敛,提升模型的精度。
为达到上述目的而采用了一种基于图嵌入与CRF知识融入的地址要素识别方法,具体包括如下步骤:
S1:构建地址要素关系图;
S2:构建并训练一个图嵌入模型,向图嵌入模型输入S1中的地址要素关系图,由图嵌入模型输出地址要素关系图中的地址要素的向量表征;
S3:统计语料中各类地址要素之间的转移矩阵;
S4:构建一个CRF模型,在CRF模型初始化时,将S3中的转移矩阵作为CRF模型的转移矩阵;
S5:构建并训练一个Word2Vec词嵌入模型,向词嵌入模型输入地址要素文本,由词嵌入模型输出地址要素文本中的地址要素的向量表征;
S6:构建并训练一个BiLSTM模型,使用S2中与S5中输出的地址要素的向量表征,共同作为BiLSTM模型的输入,由BiLSTM模型抽取出语料中的地址要素,输出抽取出的地址要素的向量表征;
S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型对其进行训练,通过收敛后的CRF模型,得到地址要素的最终识别结果。
作为本发明基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S1中:
所述地址要素关系图包括:全国行政区划图,其中的市与对应的省连线。
作为本发明基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S2中:
所述图嵌入模型中具有Node2Vec网络,设定采样策略,按照采样策略对地址要素关系图进行序列采样,获得序列训练Node2Vec网络,由Node2Vec网络输出地址要素的向量表征。
作为本发明基于图嵌入与CRF知识融入的地址要素识别方法进一步的改进,S3中,转移矩阵,如公式(1):
其中,t是地址要素的总的种类数,n i,j 表示第i类地址要素后面是第j类地址要素的样本的数量。
本发明的有益效果如下:
(1)在地址要素识别任务中,本发明提出了一个基于图嵌入与CRF知识融入的地址要素识别方法。
(2)本发明解决了在地址要素识别过程中先验知识不足,精度较低的问题。
(3)本发明构造了一个表示行政区划的地址要素关系图,来表示各个地址要素之间的关系,然后使用Node2Vec算法学习地址要素的同质性和结构性特征,从而融入各个地址要素的同质性和结构性相关的先验知识。
(4)该方法对语料中各类地址要素之间的转移概率进行统计,然后将其作为条件随机场(Conditional Random Fields,CRF)的转移矩阵,从而融入先验知识。
(5)经试验表明,基于图嵌入与CRF知识融入的地址要素识别方法能有效提高地址要素识别的精度。
附图说明
图1为基于图嵌入与CRF知识融入的地址要素识别方法主要步骤。
图2为地址要素关系图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、 “第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、 “相连”、 “连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
1.基于图嵌入与CRF知识融入的地址要素识别方法及其步骤,如图1所示。地址要素识别网络包含BiLSTM和CRF两部分,前一部分为BiLSTM,后一部分为CRF。
1.1 基于图嵌入表征地址要素的知识融入;
训练地址要素的向量表征的具体步骤:
步骤一:构建地址要素关系图,如图2。
步骤二:使用图嵌入中的Node2Vec算法,首先根据采样策略对地址要素关系图进行序列采样,然后使用神经网络对这些序列进行学习,获取地址要素的向量表征。
优点:同时考虑到地址要素的同质性和结构性信息。
1.2基于CRF模型的地址要素关系知识融入;
基于CRF模型的地址要素关系知识融入的具体步骤:
步骤一:统计语料中各类地址要素之间的转移矩阵。如公式(1):
其中,t是地址要素的总的种类数,n i,j 表示第i类地址要素后面是第j类地址要素的样本的数量。
步骤二:在模型初始化时,将上一步骤所得转移矩阵作为CRF模型的转移矩阵。
优点:使模型在初始化时拥有正确的先验知识,提升模型性能,加速模型收敛。
1.3 地址要素识别网络
步骤一:使用Node2Vec算法训练得到的地址要素向量表征作为输入的一部分,同时也使用Word2Vec训练地址要素的向量表征,共同作为模型的输入。
步骤二:使用BiLSTM抽取地址文本的语义特征。
步骤三:使用含有先验知识的CRF模型处理BiLSTM得到的结果,并得到最终结果。
本发明融入了地址要素相关的先验知识,不仅帮助模型学习到地址要素关键特征,而且缩小了模型的搜索空间,防止了模型的过拟合。其中基于地址要素关系的图嵌入模型使用Node2Vec的有偏性采样策略,使用深度优先遍历和广度优先遍历相结合的方式,综合考虑地址要素关系图中的同质性和结构性,从而获取更加完整有效的地址要素向量表征。基于地址要素关系的CRF模型是指通过统计语料中各类地址要素的状态转移概率来获取地址要素之间关系的先验知识,然后将其作为CRF层中的状态转移概率矩阵的初始值。
本发明在深圳地址数据集和湖南-江苏地址匹配数据集上进行实验,并对结果进行分析,说明基于CRF与图嵌入的知识融入方法的可靠性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。
Claims (4)
1.一种基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,具体包括如下步骤:
S1:构建地址要素关系图;
S2:构建并训练一个图嵌入模型,向图嵌入模型输入S1中的地址要素关系图,由图嵌入模型输出地址要素关系图中的地址要素的向量表征;
S3:统计语料中各类地址要素之间的转移矩阵;
S4:构建一个CRF模型,在CRF模型初始化时,将S3中的转移矩阵作为CRF模型的转移矩阵;
S5:构建并训练一个Word2Vec词嵌入模型,向词嵌入模型输入地址要素文本,由词嵌入模型输出地址要素文本中的地址要素的向量表征;
S6:构建并训练一个BiLSTM模型,使用S2中与S5中输出的地址要素的向量表征,共同作为BiLSTM模型的输入,由BiLSTM模型抽取出语料中的地址要素,输出抽取出的地址要素的向量表征;
S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型对其进行训练,通过收敛后的CRF模型,得到地址要素的最终识别结果。
2.根据权利要求1所述的基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,S1中:
所述地址要素关系图包括:全国行政区划图,其中的市与对应的省连线。
3.根据权利要求1所述的基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,S2中:
所述图嵌入模型中具有Node2Vec网络,设定采样策略,按照采样策略对地址要素关系图进行序列采样,获得序列训练Node2Vec网络,由Node2Vec网络输出地址要素的向量表征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110746162.XA CN113255346B (zh) | 2021-07-01 | 2021-07-01 | 一种基于图嵌入与crf知识融入的地址要素识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110746162.XA CN113255346B (zh) | 2021-07-01 | 2021-07-01 | 一种基于图嵌入与crf知识融入的地址要素识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255346A true CN113255346A (zh) | 2021-08-13 |
CN113255346B CN113255346B (zh) | 2021-09-14 |
Family
ID=77190412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110746162.XA Active CN113255346B (zh) | 2021-07-01 | 2021-07-01 | 一种基于图嵌入与crf知识融入的地址要素识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255346B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449528A (zh) * | 2021-08-30 | 2021-09-28 | 企查查科技有限公司 | 一种地址要素提取方法、装置、计算机设备和存储介质 |
CN113765928A (zh) * | 2021-09-10 | 2021-12-07 | 湖南工商大学 | 物联网入侵检测方法、系统、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583562A (zh) * | 2017-09-28 | 2019-04-05 | 西门子股份公司 | Sgcnn:结构的基于图的卷积神经网络 |
CN110245238A (zh) * | 2019-04-18 | 2019-09-17 | 上海交通大学 | 基于规则推理和句法图式的图嵌入方法及系统 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110569322A (zh) * | 2019-07-26 | 2019-12-13 | 苏宁云计算有限公司 | 地址信息解析方法、装置、系统及数据获取方法 |
CN111144370A (zh) * | 2019-12-31 | 2020-05-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 单据要素抽取方法、装置、设备及存储介质 |
CN111291277A (zh) * | 2020-01-14 | 2020-06-16 | 浙江邦盛科技有限公司 | 一种基于语义识别和高级语言搜索的地址标准化方法 |
US10839156B1 (en) * | 2019-01-03 | 2020-11-17 | Amazon Technologies, Inc. | Address normalization using deep learning and address feature vectors |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN112613312A (zh) * | 2020-12-18 | 2021-04-06 | 平安科技(深圳)有限公司 | 实体命名识别模型的训练方法、装置、设备及存储介质 |
-
2021
- 2021-07-01 CN CN202110746162.XA patent/CN113255346B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583562A (zh) * | 2017-09-28 | 2019-04-05 | 西门子股份公司 | Sgcnn:结构的基于图的卷积神经网络 |
US10839156B1 (en) * | 2019-01-03 | 2020-11-17 | Amazon Technologies, Inc. | Address normalization using deep learning and address feature vectors |
CN110245238A (zh) * | 2019-04-18 | 2019-09-17 | 上海交通大学 | 基于规则推理和句法图式的图嵌入方法及系统 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110569322A (zh) * | 2019-07-26 | 2019-12-13 | 苏宁云计算有限公司 | 地址信息解析方法、装置、系统及数据获取方法 |
CN111144370A (zh) * | 2019-12-31 | 2020-05-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 单据要素抽取方法、装置、设备及存储介质 |
CN111291277A (zh) * | 2020-01-14 | 2020-06-16 | 浙江邦盛科技有限公司 | 一种基于语义识别和高级语言搜索的地址标准化方法 |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN112613312A (zh) * | 2020-12-18 | 2021-04-06 | 平安科技(深圳)有限公司 | 实体命名识别模型的训练方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
李芳芳: "基于语义关联的中文网页主题词提取方法研究", 《计算机应用研究》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449528A (zh) * | 2021-08-30 | 2021-09-28 | 企查查科技有限公司 | 一种地址要素提取方法、装置、计算机设备和存储介质 |
CN113765928A (zh) * | 2021-09-10 | 2021-12-07 | 湖南工商大学 | 物联网入侵检测方法、系统、设备及介质 |
CN113765928B (zh) * | 2021-09-10 | 2023-03-24 | 湖南工商大学 | 物联网入侵检测方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113255346B (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN107463666B (zh) | 一种基于文本内容的敏感词过滤方法 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN113255346B (zh) | 一种基于图嵌入与crf知识融入的地址要素识别方法 | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN111783419A (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN106776544A (zh) | 人物关系识别方法及装置和分词方法 | |
CN112988917B (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN109739997A (zh) | 地址对比方法、装置及系统 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN109086306A (zh) | 基于混合隐马尔可夫模型的原子事件标签的提取方法 | |
CN106886565A (zh) | 一种基础房型自动聚合方法 | |
CN112347771A (zh) | 一种实体关系的抽取方法和设备 | |
CN113312498B (zh) | 用无向图嵌入知识图谱的文本信息抽取方法 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN110334204B (zh) | 一种基于用户记录的习题相似度计算推荐方法 | |
CN115858733A (zh) | 跨语言实体词检索方法、装置、设备及存储介质 | |
CN115359486A (zh) | 一种文档图像中自定义信息的确定方法及系统 | |
CN109299456B (zh) | 一种地名识别方法 | |
CN112883735A (zh) | 一种表单图像的结构化处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |