CN110781670A

CN110781670A - 基于百科知识库和词向量的中文地名语义消歧方法

Info

Publication number: CN110781670A
Application number: CN201911029961.4A
Authority: CN
Inventors: 张春菊; 陈玉冰; 张雪英; 汪陈; 张凯
Original assignee: Nanjing Normal University; Hefei Polytechnic University
Current assignee: Nanjing Normal University; Hefei Polytechnic University
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-11
Anticipated expiration: 2039-10-28
Also published as: JP7228946B2; JP2022532451A; WO2021082370A1; CN110781670B

Abstract

本发明公开了一种基于百科知识库和词向量的中文地名语义消歧方法，包括：预训练词向量模型的生成；基于Bi‑LSTM与CRF集成的地名识别模型的生成；待消歧地名所在文本中地名识别和词向量表示；歧义地名义项名及其义项内容获取；歧义地名义项内容中的地名识别和词向量表示；歧义地名所在文本中的地名列表词向量与歧义地名义项内容中的地名列表词向量进行相似度计算；歧义地名的义项频率统计；歧义地名最可能指代的地理位置的综合评估。本发明能够有效解决位置服务中同一地名可能对应多个地理位置和同一位置可能有多个描述名称的问题，适应于互联网+时代背景下文本描述中地名分布离散、稀疏的情况，满足智能化位置服务、全息位置地图等的迫切需求。

Description

基于百科知识库和词向量的中文地名语义消歧方法

技术领域

本发明属于地理信息技术领域，具体涉及一种基于百科知识库和词向量的中文地名语义消歧方法。

背景技术

地名是人们赋予宇宙中特定地理实体的代号，是区别某一特定地理实体与其他地理实体的一种标志。地名作为最常用的社会公共信息之一，是地理空间信息的重要组成部分，是测绘数字产品不可缺少的信息，也是寻常百姓最易接受的定位方式。特别是，当今世界正进入泛在信息社会和大数据时代(李德仁，2012；Goodchild，2017；林珲，2018)。位置大数据成为大数据的重要组成部分，世界上80％的信息都与位置相关(刘经南，2014)。文本是人类最常用的一种自然语言，也是泛在地理大数据源的典型代表。文本中地名是位置信息的重要组成部分，是实现智能化位置服务、全息位置地图、地理空间数据挖掘等的关键。

文本中地名描述具有歧义现象，包括同一地名可能对应多个地理位置和同一地址可能有多个描述名称(Buscaldi，2008；Leidner，2008)。例如，地名“鼓楼区”可能对应南京市鼓楼区、徐州市鼓楼区、北京市鼓楼区、福州市鼓楼区等。然而，高精度、高覆盖度且符合人类认知的地名数据是实现LBS高效服务的前提和保障。目前地名消歧方法可归纳为四种类型：(1)认知实验法通过设计基于地标的问卷调查和支持向量回归方法，确定各地标属于“歧义地名”的隶属度(刘瑜，2008)。(2)借助地名词典、地理本体的概念类型之间的语义信息消除地名的歧义。该方法简单易行，且支持歧义地名的推理，但是受到地名词典规模和覆盖度的限制，正确率不高(杜萍，2012)。(3)利用地名描述的上下文信息，通过计算地名在语料库上下文中的概率权重，或者构建歧义地名的行政隶属关系树状图，并根据树结构的健壮性判断歧义地名的空间语义(唐旭日，2010；王宇，2012)。针对地名实体相互交叉混杂、空间信息粒度大小不一、不具名地名大量存在，基于地理关联度计算，辅以词典和规则模型相结合的位置信息消岐与融合方法，有效地实现位置信息从自然语言表达到结构化、规范化的形式转换(余丽，2015；马雷雷，2016；王星光，2017)。(4)利用大众点评兴趣点(POI)等互联网数据，基于自适应核密度的模糊集方法，构建场所范围自动化提取，为进一步理解城市场所的模糊认知范围提供了可视化解决方案(王圣音，2018)。但是上述方法适应于文本描述中地名出现较为集中的情况，不适应于当今互联网+时代背景下文本描述中地名分布离散、稀疏的情况。正确理解文本描述中地名的语义信息，特别是地名的空间语义，可有效解决当前地名数据库建设与社会需求之间的矛盾，满足地理位置服务和地理信息检索技术等的迫切需求。

发明内容

发明目的：本发明目的在于提供一种基于百科知识库和词向量的中文地名语义消歧方法，以解决位置服务中同一地名可能对应多个地理位置和同一位置可能有多个描述名称的问题，适应于互联网+时代背景下文本描述中地名分布离散、稀疏的情况，满足智能化位置服务、全息位置地图、地理空间数据挖掘等的迫切需求。

技术方案：为实现上述发明目的，本发明采用如下技术方案：

一种基于百科知识库和词向量的中文地名语义消歧方法，包括如下步骤：

步骤一：采用开源中文维基百科语料，利用Jieba工具进行分词，基于Word2vec工具进行训练得到预训练词向量模型；

步骤二：利用地名标注语料对Bi-LSTM与CRF集成的地名识别模型进行训练得到预训练地名识别模型；

步骤三：采用步骤二得到的预训练地名识别模型，识别待消歧地名所在文本中的所有地名，形成地名列表Q，并通过步骤一得到的预训练词向量模型进行表示，得到词向量Vec_Q；

步骤四：基于百科知识库，搜索歧义地名，并利用网络爬虫技术通过抓取百科内层的URL地址并解析，获取歧义地名对应的义项名列表和义项内容；

步骤五：采用步骤二得到的预训练地名识别模型，对步骤四中每条义项内容进行地名识别，分别生成对应的地名列表K_i，并通过步骤一得到的预训练词向量模型进行表示，得到词向量

步骤六：使用余弦相似度方法计算Vec_Q与每个

的相似度，得到词向量相似度

步骤七：采用Jieba工具对歧义地名的每个义项名进行分词，得到歧义地名的共现词组列表；然后进行歧义地名的义项频率统计，统计词组列表中的每个词组在地名列表Q中出现的频率P_i；

步骤八：采用评分方式对词向量相似度

和义项频率P_i进行综合考虑，得分最高的义项名即为歧义地名最可能指代的地理位置。

进一步地，所述步骤二中具体包括：

Step 1：获取地名训练语料：包括中国大百科全书中国地理语料和微软语料；

Step 2：将两种语料进行混合，将实验语料分为85％的训练集，8％的测试集和7％的验证集三个部分；

Step 3：将Step 2中训练语料转化为将输入层的句子序列作为Bi-LSTM各个时间步的输入，再将正向LSTM隐输出序列与反向LSTM隐输入序列按位置拼接，得到完整的隐输出序列，充分考虑上文和下文的语义描述信息，实现特征的深度学习与表示；

Step 4：结合CRF模型，预测句子的序列标注，并与所输入句子的序列标注标签进行比对和迭代，得到最终预训练的地名识别模型。

进一步地，所述步骤六中使用余弦相似度方法判断待消歧地名所在文本中的地名列表对应的词向量与歧义地名的每个义项内容中的地名列表对应的词向量的相似度，计算公式为：

上式中，Vec_Q表示待消歧地名所在文本中的地名列表对应的词向量，

表示歧义地名的每个义项内容中的地名列表对应的词向量，N表示歧义地名的义项名个数。

进一步地，所述步骤七中义项频率计算公式为：

式中，n_i表示第i个义项名的共现词组在待消歧文本生成的地名列表Q中出现的次数，M表示从待消岐文本中识别出的地名总数，N表示歧义地名的义项名个数。

进一步地，所述步骤八中采用评分方式对词向量相似度

和义项频率P_i进行综合考虑的计算公式为：

式中，参数α∈(0,1)，表示比重。

有益效果：本发明公开的一种基于百科知识库和词向量的中文地名语义消歧方法，利用在线实时更新的百科知识库，采用Bi-LSTM与CRF集成模型识别歧义地名描述文本和义项内容中的地名并进行词向量表示，设计地名词向量的相似度计算和义项频率统计算法，综合评估歧义地名最可能指代的地理位置，有效解决了位置服务中同一地名可能对应多个地理位置和同一位置可能有多个描述名称的问题，特别适应于互联网+时代背景下文本描述中地名分布离散、稀疏的情况，满足智能化位置服务、全息位置地图、地理空间数据挖掘等等的迫切需求。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例中的Bi-LSTM与CRF集成的地名识别模型示意图。

图3为本发明实施例中歧义地名“人民路”示例截图。

图4为本发明实施例中预训练词向量模型中部分地名向量可视化结果截图。

图5为本发明实施例中百科搜索的义项及其义项内容描述截图。

图6为本发明实施例中歧义地名“鼓楼区”最可能指代的地理位置判断流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

如图1所示，本发明实施例公开的一种基于百科知识库和词向量的中文地名语义消歧方法，主要包括两个部分：地名识别技术和歧义地名的语义判断，其基本步骤如下：

步骤一：预训练词向量模型的生成

采用开源中文维基百科语料，采用Jieba工具进行分词，基于Word2vec工具进行训练得到预训练词向量模型；

步骤二：生成基于Bi-LSTM与CRF集成的预训练地名识别模型

以Bi-LSTM模型为基础，使用预训练的词向量模型、正则化策略(dropout)，最大限度的获取文本特征，并通过CRF预测句子序列标注。具体包括：

Step 1：获取地名训练语料：包括《中国大百科全书中国地理》语料(简称地理百科语料，http://www.geoip.com.cn:9004/ITIS/corpus.html)和微软语料。《中国大百科全书中国地理》语料由南京师范大学虚拟地理环境教育部重点实验室所构建的“中文地名标注语料库”，(约118万字，人工标注10万个地名)，地名分布较为集中，描述具有较强的规律性；微软语料(约236万字)中地名实体在文本中数量较少且分布稀疏，不均匀，描述方式较为自由。

Step 2：将两种语料进行混合，将实验语料分为85％的训练集，8％的测试集和7％的验证集三个部分。

Step 3：将Step 2中训练语料转化为将输入层的句子序列(x₁,x₂,…x_n)作为Bi-LSTM各个时间步的输入，再将正向LSTM隐输出序列(f₁,f₂,…f_n)与反向LSTM隐输入序列(b₁,b₂,…b_n)按位置拼接，得到完整的隐输出序列(f₁,f₂,…f_n,b₁,b₂,…b_n)，充分考虑上文和下文的语义描述信息，实现特征的深度学习与表示，其中n表示句子中字的个数。

Step 4：结合CRF模型，预测句子的序列标注，并与所输入句子的序列标注标签进行比对和迭代，最终得到性能较好的预训练的地名识别模型；

步骤三：待消歧地名所在文本中地名识别和词向量表示

采用步骤二的地名识别模型，识别待消歧地名所在文本中的所有地名，形成地名列表Q，并通过步骤一的预训练词向量模型进行表示，得到词向量Vec_Q；

步骤四：歧义地名义项名及其义项内容获取

基于百度百科知识库，搜索歧义地名(如“人民路”)，并利用网络爬虫技术通过抓取百科内层的URL地址并解析，获取歧义地名对应的义项名列表和义项内容(即每一条义项的描述性文本)。

步骤五：地名义项内容中的地名识别和词向量表示

采用步骤二的预训练地名识别模型，对步骤四中每条义项内容进行地名识别，分别生成对应的地名列表K_i(i＝1,2...)，并通过步骤一的预训练词向量模型进行表示，得到词向量

(i＝1,2...)；

步骤六：歧义地名的语义判断

Step1：Vec_Q与

的词向量相似度计算

使用余弦相似度方法计算Vec_Q与每个

(i＝1,2...)的相似度，得到词向量相似度

(i＝1,2...)；计算公式为：

Step2：歧义地名的义项频率统计

采用Jieba工具对歧义地名的每个义项名进行分词，得到歧义地名的共现词组列表；例如：歧义地名“人民路”的义项包括“苏州市人民路”、“广州市人民路”、“南通市人民路”、“上海市人民路”等23个，经过Jieba分词之后，分别获取“人民路”的共现词组列表[上海市]、[苏州市]等。然后进行歧义地名的义项频率统计，即统计词组列表中的每个词组在地名列表Q中出现的频率P_i(i＝1,2...)。义项频率计算公式为：

Step1：歧义地名最可能指代的地理位置的综合评估

采用评分方式对词向量相似度

(i＝1,2...)和义项频率P_i(i＝1,2...)进行综合考虑，得分最高的义项名即为歧义地名最可能指代的地理位置。计算方法参见公式(3)。

式中，参数α∈(0,1)，在本消歧方法中，α＝0.5，表示词向量相似度和义项频率占有同样的比重。

为说明本发明的效果，下面结合具体的应用例对本发明实施例的方法进行进一步说明。对于歧义地名“鼓楼区”，以两段文本描述为例：“南京市的中心城区，鼓楼区是国家重要的科技创新中心和航运物流服务中心，国家东部地区的国际商务、金融、经济中心，华东地区高端产业和总部企业集聚区，是南京经济、文化、教育的中心，也是江苏省委、省政府机关及江苏省军区政治部所在地，江苏省的政治、文化、行政中心。”与“福州市鼓楼区(古属福州府闽县、侯官县)位于福州市市区西北部，中国首批37个国家服务业综合改革试点，为福州全市的经济、文化、政治中心及现代金融服务业中心，也是福州市初等、中等教育资源最雄厚的区。鼓楼区号称八闽首善之区，是福建省省政府和福州市市政府所在地。”。

(1)预训练词向量模型的生成

采用开源中文维基百科语料，通过Jieba工具进行分词，基于Word2vec工具进行训练得到预训练词向量模型。Word2vec训练参数如表1所示，预训练词向量模型中部分地名向量可进行可视化，可视化结果见图4。

表1 Word2vec训练参数

(2)基于Bi-LSTM与CRF集成的地名识别模型的生成

将地名标注语料(地理百科语料和微软语料)转化为输入层的句子序列(x₁,x₂,…x_n)作为Bi-LSTM各个时间步的输入，再将正向LSTM隐输出序列(f₁,f₂,…f_n)与反向LSTM隐输入序列(b₁,b₂,…b_n)按位置拼接，得到完整的隐输出序列(f₁,f₂,…f_n,b₁,b₂,…b_n)，实现基于Bi-LSTM模型的地名上下文特征的深度学习与表示。结合CRF模型，预测句子的序列标注，与所输入句子的序列标注标签进行比对和迭代，最终得到性能较好的预训练地名识别模型；

(3)通过预训练地名识别模型识别待消歧文本中的所有地名，形成地名列表。即地名列表1“['南京市','华东地区','南京','江苏省']”和地名列表2“['福州市','福州府','闽县','侯官县','福州市','中国','福州','福州市','福建省','福州市']”。对上述地名列表采用(1)中预训练的词向量模型进行表示，得到词向量Vec_Q；

(4)在百科知识库中获取歧义地名的义项名及其义项内容

输入地名“鼓楼区”，通过解析网页获得歧义地名“鼓楼区”对应四个义项名及其义项内容。义项名分别为：['南京市鼓楼区','徐州市鼓楼区','开封市鼓楼区','福州市鼓楼区']，百度百科搜索的义项和该义项的描述见图5。

(5)歧义地名义项内容中地名识别与词向量表示

通过(2)中的预训练地名识别模型识别四个义项内容中的所有地名，分别生成对应的地名列表K_i(i＝1,2...)。并通过(1)中的预训练词向量模型进行表示，得到词向量

(i＝1,2...)。地名列表如表2所示。

表2歧义地名“鼓楼区”的义项名和义项内容地名列表

(7)词向量相似度

(i＝1,2...)与地名的义项频率计算

采用评分方式对词向量相似度

(i＝1,2...)和义项频率P_i(i＝1,2...)进行综合考虑，得分最高的义项名即为歧义地名最可能指代的地理位置(见图6)。词向量相似度

计算结果见表3，歧义地名各个义项频率见表4，最佳匹配义项值见表5。

表3词向量相似度计算结果

表4歧义地名“鼓楼区”各个义项分布频率

歧义地名各个义项	分布频率1	分布频率2
			南京市	0.5	0
徐州市	0	0
			开封市	0	0
福州市	0	0.5

表5歧义地名“鼓楼区”最佳义项值计算结果

歧义地名义项	最佳义项值1	最佳义项值2
			南京市鼓楼区	0.7275825	0.389078
徐州市鼓楼区	0.412604	0.335731
			福州市鼓楼区	0.3892675	0.741367
开封市鼓楼区	0.345154	0.268026

故在“南京市的中心城区，鼓楼区是国家重要的科技创新中心和航运物流服务中心，国家东部地区的国际商务、金融、经济中心，华东地区高端产业和总部企业集聚区，是南京经济、文化、教育的中心，也是江苏省委、省政府机关及江苏省军区政治部所在地，江苏省的政治、文化、行政中心。”这段话中最佳值为南京市鼓楼区：0.7275825最高，故所指的鼓楼区是属于南京市鼓楼区。

而在“福州市鼓楼区(古属福州府闽县、侯官县)位于福州市市区西北部，中国首批37个国家服务业综合改革试点，为福州全市的经济、文化、政治中心及现代金融服务业中心，也是福州市初等、中等教育资源最雄厚的区。鼓楼区号称八闽首善之区，是福建省省政府和福州市市政府所在地。”这段话中福州市鼓楼区：0.741367最高，故所指的鼓楼区是福州市鼓楼区。