CN110781670A - 基于百科知识库和词向量的中文地名语义消歧方法 - Google Patents

基于百科知识库和词向量的中文地名语义消歧方法 Download PDF

Info

Publication number
CN110781670A
CN110781670A CN201911029961.4A CN201911029961A CN110781670A CN 110781670 A CN110781670 A CN 110781670A CN 201911029961 A CN201911029961 A CN 201911029961A CN 110781670 A CN110781670 A CN 110781670A
Authority
CN
China
Prior art keywords
place name
word vector
place
ambiguous
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911029961.4A
Other languages
English (en)
Other versions
CN110781670B (zh
Inventor
张春菊
陈玉冰
张雪英
汪陈
张凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Hefei Polytechnic University
Original Assignee
Nanjing Normal University
Hefei Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University, Hefei Polytechnic University filed Critical Nanjing Normal University
Priority to CN201911029961.4A priority Critical patent/CN110781670B/zh
Publication of CN110781670A publication Critical patent/CN110781670A/zh
Priority to JP2022504557A priority patent/JP7228946B2/ja
Priority to PCT/CN2020/086173 priority patent/WO2021082370A1/zh
Application granted granted Critical
Publication of CN110781670B publication Critical patent/CN110781670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于百科知识库和词向量的中文地名语义消歧方法,包括:预训练词向量模型的生成;基于Bi‑LSTM与CRF集成的地名识别模型的生成;待消歧地名所在文本中地名识别和词向量表示;歧义地名义项名及其义项内容获取;歧义地名义项内容中的地名识别和词向量表示;歧义地名所在文本中的地名列表词向量与歧义地名义项内容中的地名列表词向量进行相似度计算;歧义地名的义项频率统计;歧义地名最可能指代的地理位置的综合评估。本发明能够有效解决位置服务中同一地名可能对应多个地理位置和同一位置可能有多个描述名称的问题,适应于互联网+时代背景下文本描述中地名分布离散、稀疏的情况,满足智能化位置服务、全息位置地图等的迫切需求。

Description

基于百科知识库和词向量的中文地名语义消歧方法
技术领域
本发明属于地理信息技术领域,具体涉及一种基于百科知识库和词向量的中文地名语义消歧方法。
背景技术
地名是人们赋予宇宙中特定地理实体的代号,是区别某一特定地理实体与其他地理实体的一种标志。地名作为最常用的社会公共信息之一,是地理空间信息的重要组成部分,是测绘数字产品不可缺少的信息,也是寻常百姓最易接受的定位方式。特别是,当今世界正进入泛在信息社会和大数据时代(李德仁,2012;Goodchild,2017;林珲,2018)。位置大数据成为大数据的重要组成部分,世界上80%的信息都与位置相关(刘经南,2014)。文本是人类最常用的一种自然语言,也是泛在地理大数据源的典型代表。文本中地名是位置信息的重要组成部分,是实现智能化位置服务、全息位置地图、地理空间数据挖掘等的关键。
文本中地名描述具有歧义现象,包括同一地名可能对应多个地理位置和同一地址可能有多个描述名称(Buscaldi,2008;Leidner,2008)。例如,地名“鼓楼区”可能对应南京市鼓楼区、徐州市鼓楼区、北京市鼓楼区、福州市鼓楼区等。然而,高精度、高覆盖度且符合人类认知的地名数据是实现LBS高效服务的前提和保障。目前地名消歧方法可归纳为四种类型:(1)认知实验法通过设计基于地标的问卷调查和支持向量回归方法,确定各地标属于“歧义地名”的隶属度(刘瑜,2008)。(2)借助地名词典、地理本体的概念类型之间的语义信息消除地名的歧义。该方法简单易行,且支持歧义地名的推理,但是受到地名词典规模和覆盖度的限制,正确率不高(杜萍,2012)。(3)利用地名描述的上下文信息,通过计算地名在语料库上下文中的概率权重,或者构建歧义地名的行政隶属关系树状图,并根据树结构的健壮性判断歧义地名的空间语义(唐旭日,2010;王宇,2012)。针对地名实体相互交叉混杂、空间信息粒度大小不一、不具名地名大量存在,基于地理关联度计算,辅以词典和规则模型相结合的位置信息消岐与融合方法,有效地实现位置信息从自然语言表达到结构化、规范化的形式转换(余丽,2015;马雷雷,2016;王星光,2017)。(4)利用大众点评兴趣点(POI)等互联网数据,基于自适应核密度的模糊集方法,构建场所范围自动化提取,为进一步理解城市场所的模糊认知范围提供了可视化解决方案(王圣音,2018)。但是上述方法适应于文本描述中地名出现较为集中的情况,不适应于当今互联网+时代背景下文本描述中地名分布离散、稀疏的情况。正确理解文本描述中地名的语义信息,特别是地名的空间语义,可有效解决当前地名数据库建设与社会需求之间的矛盾,满足地理位置服务和地理信息检索技术等的迫切需求。
发明内容
发明目的:本发明目的在于提供一种基于百科知识库和词向量的中文地名语义消歧方法,以解决位置服务中同一地名可能对应多个地理位置和同一位置可能有多个描述名称的问题,适应于互联网+时代背景下文本描述中地名分布离散、稀疏的情况,满足智能化位置服务、全息位置地图、地理空间数据挖掘等的迫切需求。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
一种基于百科知识库和词向量的中文地名语义消歧方法,包括如下步骤:
步骤一:采用开源中文维基百科语料,利用Jieba工具进行分词,基于Word2vec工具进行训练得到预训练词向量模型;
步骤二:利用地名标注语料对Bi-LSTM与CRF集成的地名识别模型进行训练得到预训练地名识别模型;
步骤三:采用步骤二得到的预训练地名识别模型,识别待消歧地名所在文本中的所有地名,形成地名列表Q,并通过步骤一得到的预训练词向量模型进行表示,得到词向量VecQ
步骤四:基于百科知识库,搜索歧义地名,并利用网络爬虫技术通过抓取百科内层的URL地址并解析,获取歧义地名对应的义项名列表和义项内容;
步骤五:采用步骤二得到的预训练地名识别模型,对步骤四中每条义项内容进行地名识别,分别生成对应的地名列表Ki,并通过步骤一得到的预训练词向量模型进行表示,得到词向量
步骤六:使用余弦相似度方法计算VecQ与每个
Figure BDA0002249844730000022
的相似度,得到词向量相似度
步骤七:采用Jieba工具对歧义地名的每个义项名进行分词,得到歧义地名的共现词组列表;然后进行歧义地名的义项频率统计,统计词组列表中的每个词组在地名列表Q中出现的频率Pi
步骤八:采用评分方式对词向量相似度
Figure BDA0002249844730000031
和义项频率Pi进行综合考虑,得分最高的义项名即为歧义地名最可能指代的地理位置。
进一步地,所述步骤二中具体包括:
Step 1:获取地名训练语料:包括中国大百科全书中国地理语料和微软语料;
Step 2:将两种语料进行混合,将实验语料分为85%的训练集,8%的测试集和7%的验证集三个部分;
Step 3:将Step 2中训练语料转化为将输入层的句子序列作为Bi-LSTM各个时间步的输入,再将正向LSTM隐输出序列与反向LSTM隐输入序列按位置拼接,得到完整的隐输出序列,充分考虑上文和下文的语义描述信息,实现特征的深度学习与表示;
Step 4:结合CRF模型,预测句子的序列标注,并与所输入句子的序列标注标签进行比对和迭代,得到最终预训练的地名识别模型。
进一步地,所述步骤六中使用余弦相似度方法判断待消歧地名所在文本中的地名列表对应的词向量与歧义地名的每个义项内容中的地名列表对应的词向量的相似度,计算公式为:
Figure BDA0002249844730000032
上式中,VecQ表示待消歧地名所在文本中的地名列表对应的词向量,
Figure BDA0002249844730000033
表示歧义地名的每个义项内容中的地名列表对应的词向量,N表示歧义地名的义项名个数。
进一步地,所述步骤七中义项频率计算公式为:
Figure BDA0002249844730000034
式中,ni表示第i个义项名的共现词组在待消歧文本生成的地名列表Q中出现的次数,M表示从待消岐文本中识别出的地名总数,N表示歧义地名的义项名个数。
进一步地,所述步骤八中采用评分方式对词向量相似度
Figure BDA0002249844730000035
和义项频率Pi进行综合考虑的计算公式为:
Figure BDA0002249844730000041
式中,参数α∈(0,1),表示比重。
有益效果:本发明公开的一种基于百科知识库和词向量的中文地名语义消歧方法,利用在线实时更新的百科知识库,采用Bi-LSTM与CRF集成模型识别歧义地名描述文本和义项内容中的地名并进行词向量表示,设计地名词向量的相似度计算和义项频率统计算法,综合评估歧义地名最可能指代的地理位置,有效解决了位置服务中同一地名可能对应多个地理位置和同一位置可能有多个描述名称的问题,特别适应于互联网+时代背景下文本描述中地名分布离散、稀疏的情况,满足智能化位置服务、全息位置地图、地理空间数据挖掘等等的迫切需求。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例中的Bi-LSTM与CRF集成的地名识别模型示意图。
图3为本发明实施例中歧义地名“人民路”示例截图。
图4为本发明实施例中预训练词向量模型中部分地名向量可视化结果截图。
图5为本发明实施例中百科搜索的义项及其义项内容描述截图。
图6为本发明实施例中歧义地名“鼓楼区”最可能指代的地理位置判断流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。
如图1所示,本发明实施例公开的一种基于百科知识库和词向量的中文地名语义消歧方法,主要包括两个部分:地名识别技术和歧义地名的语义判断,其基本步骤如下:
步骤一:预训练词向量模型的生成
采用开源中文维基百科语料,采用Jieba工具进行分词,基于Word2vec工具进行训练得到预训练词向量模型;
步骤二:生成基于Bi-LSTM与CRF集成的预训练地名识别模型
以Bi-LSTM模型为基础,使用预训练的词向量模型、正则化策略(dropout),最大限度的获取文本特征,并通过CRF预测句子序列标注。具体包括:
Step 1:获取地名训练语料:包括《中国大百科全书中国地理》语料(简称地理百科语料,http://www.geoip.com.cn:9004/ITIS/corpus.html)和微软语料。《中国大百科全书中国地理》语料由南京师范大学虚拟地理环境教育部重点实验室所构建的“中文地名标注语料库”,(约118万字,人工标注10万个地名),地名分布较为集中,描述具有较强的规律性;微软语料(约236万字)中地名实体在文本中数量较少且分布稀疏,不均匀,描述方式较为自由。
Step 2:将两种语料进行混合,将实验语料分为85%的训练集,8%的测试集和7%的验证集三个部分。
Step 3:将Step 2中训练语料转化为将输入层的句子序列(x1,x2,…xn)作为Bi-LSTM各个时间步的输入,再将正向LSTM隐输出序列(f1,f2,…fn)与反向LSTM隐输入序列(b1,b2,…bn)按位置拼接,得到完整的隐输出序列(f1,f2,…fn,b1,b2,…bn),充分考虑上文和下文的语义描述信息,实现特征的深度学习与表示,其中n表示句子中字的个数。
Step 4:结合CRF模型,预测句子的序列标注,并与所输入句子的序列标注标签进行比对和迭代,最终得到性能较好的预训练的地名识别模型;
步骤三:待消歧地名所在文本中地名识别和词向量表示
采用步骤二的地名识别模型,识别待消歧地名所在文本中的所有地名,形成地名列表Q,并通过步骤一的预训练词向量模型进行表示,得到词向量VecQ
步骤四:歧义地名义项名及其义项内容获取
基于百度百科知识库,搜索歧义地名(如“人民路”),并利用网络爬虫技术通过抓取百科内层的URL地址并解析,获取歧义地名对应的义项名列表和义项内容(即每一条义项的描述性文本)。
步骤五:地名义项内容中的地名识别和词向量表示
采用步骤二的预训练地名识别模型,对步骤四中每条义项内容进行地名识别,分别生成对应的地名列表Ki(i=1,2...),并通过步骤一的预训练词向量模型进行表示,得到词向量
Figure BDA0002249844730000051
(i=1,2...);
步骤六:歧义地名的语义判断
Step1:VecQ
Figure BDA0002249844730000052
的词向量相似度计算
使用余弦相似度方法计算VecQ与每个
Figure BDA0002249844730000061
(i=1,2...)的相似度,得到词向量相似度
Figure BDA0002249844730000062
(i=1,2...);计算公式为:
Figure BDA0002249844730000063
上式中,VecQ表示待消歧地名所在文本中的地名列表对应的词向量,
Figure BDA0002249844730000064
表示歧义地名的每个义项内容中的地名列表对应的词向量,N表示歧义地名的义项名个数。
Step2:歧义地名的义项频率统计
采用Jieba工具对歧义地名的每个义项名进行分词,得到歧义地名的共现词组列表;例如:歧义地名“人民路”的义项包括“苏州市人民路”、“广州市人民路”、“南通市人民路”、“上海市人民路”等23个,经过Jieba分词之后,分别获取“人民路”的共现词组列表[上海市]、[苏州市]等。然后进行歧义地名的义项频率统计,即统计词组列表中的每个词组在地名列表Q中出现的频率Pi(i=1,2...)。义项频率计算公式为:
Figure BDA0002249844730000065
式中,ni表示第i个义项名的共现词组在待消歧文本生成的地名列表Q中出现的次数,M表示从待消岐文本中识别出的地名总数,N表示歧义地名的义项名个数。
Step1:歧义地名最可能指代的地理位置的综合评估
采用评分方式对词向量相似度
Figure BDA0002249844730000066
(i=1,2...)和义项频率Pi(i=1,2...)进行综合考虑,得分最高的义项名即为歧义地名最可能指代的地理位置。计算方法参见公式(3)。
Figure BDA0002249844730000067
式中,参数α∈(0,1),在本消歧方法中,α=0.5,表示词向量相似度和义项频率占有同样的比重。
为说明本发明的效果,下面结合具体的应用例对本发明实施例的方法进行进一步说明。对于歧义地名“鼓楼区”,以两段文本描述为例:“南京市的中心城区,鼓楼区是国家重要的科技创新中心和航运物流服务中心,国家东部地区的国际商务、金融、经济中心,华东地区高端产业和总部企业集聚区,是南京经济、文化、教育的中心,也是江苏省委、省政府机关及江苏省军区政治部所在地,江苏省的政治、文化、行政中心。”与“福州市鼓楼区(古属福州府闽县、侯官县)位于福州市市区西北部,中国首批37个国家服务业综合改革试点,为福州全市的经济、文化、政治中心及现代金融服务业中心,也是福州市初等、中等教育资源最雄厚的区。鼓楼区号称八闽首善之区,是福建省省政府和福州市市政府所在地。”。
(1)预训练词向量模型的生成
采用开源中文维基百科语料,通过Jieba工具进行分词,基于Word2vec工具进行训练得到预训练词向量模型。Word2vec训练参数如表1所示,预训练词向量模型中部分地名向量可进行可视化,可视化结果见图4。
表1 Word2vec训练参数
Figure BDA0002249844730000071
(2)基于Bi-LSTM与CRF集成的地名识别模型的生成
将地名标注语料(地理百科语料和微软语料)转化为输入层的句子序列(x1,x2,…xn)作为Bi-LSTM各个时间步的输入,再将正向LSTM隐输出序列(f1,f2,…fn)与反向LSTM隐输入序列(b1,b2,…bn)按位置拼接,得到完整的隐输出序列(f1,f2,…fn,b1,b2,…bn),实现基于Bi-LSTM模型的地名上下文特征的深度学习与表示。结合CRF模型,预测句子的序列标注,与所输入句子的序列标注标签进行比对和迭代,最终得到性能较好的预训练地名识别模型;
(3)通过预训练地名识别模型识别待消歧文本中的所有地名,形成地名列表。即地名列表1“['南京市','华东地区','南京','江苏省']”和地名列表2“['福州市','福州府','闽县','侯官县','福州市','中国','福州','福州市','福建省','福州市']”。对上述地名列表采用(1)中预训练的词向量模型进行表示,得到词向量VecQ
(4)在百科知识库中获取歧义地名的义项名及其义项内容
输入地名“鼓楼区”,通过解析网页获得歧义地名“鼓楼区”对应四个义项名及其义项内容。义项名分别为:['南京市鼓楼区','徐州市鼓楼区','开封市鼓楼区','福州市鼓楼区'],百度百科搜索的义项和该义项的描述见图5。
(5)歧义地名义项内容中地名识别与词向量表示
通过(2)中的预训练地名识别模型识别四个义项内容中的所有地名,分别生成对应的地名列表Ki(i=1,2...)。并通过(1)中的预训练词向量模型进行表示,得到词向量
Figure BDA0002249844730000081
(i=1,2...)。地名列表如表2所示。
表2歧义地名“鼓楼区”的义项名和义项内容地名列表
Figure BDA0002249844730000082
(7)词向量相似度
Figure BDA0002249844730000083
(i=1,2...)与地名的义项频率计算
采用评分方式对词向量相似度
Figure BDA0002249844730000084
(i=1,2...)和义项频率Pi(i=1,2...)进行综合考虑,得分最高的义项名即为歧义地名最可能指代的地理位置(见图6)。词向量相似度
Figure BDA0002249844730000085
计算结果见表3,歧义地名各个义项频率见表4,最佳匹配义项值见表5。
表3词向量相似度计算结果
Figure BDA0002249844730000086
Figure BDA0002249844730000091
表4歧义地名“鼓楼区”各个义项分布频率
歧义地名各个义项 分布频率1 分布频率2
南京市 0.5 0
徐州市 0 0
开封市 0 0
福州市 0 0.5
表5歧义地名“鼓楼区”最佳义项值计算结果
歧义地名义项 最佳义项值1 最佳义项值2
南京市鼓楼区 0.7275825 0.389078
徐州市鼓楼区 0.412604 0.335731
福州市鼓楼区 0.3892675 0.741367
开封市鼓楼区 0.345154 0.268026
故在“南京市的中心城区,鼓楼区是国家重要的科技创新中心和航运物流服务中心,国家东部地区的国际商务、金融、经济中心,华东地区高端产业和总部企业集聚区,是南京经济、文化、教育的中心,也是江苏省委、省政府机关及江苏省军区政治部所在地,江苏省的政治、文化、行政中心。”这段话中最佳值为南京市鼓楼区:0.7275825最高,故所指的鼓楼区是属于南京市鼓楼区。
而在“福州市鼓楼区(古属福州府闽县、侯官县)位于福州市市区西北部,中国首批37个国家服务业综合改革试点,为福州全市的经济、文化、政治中心及现代金融服务业中心,也是福州市初等、中等教育资源最雄厚的区。鼓楼区号称八闽首善之区,是福建省省政府和福州市市政府所在地。”这段话中福州市鼓楼区:0.741367最高,故所指的鼓楼区是福州市鼓楼区。

Claims (5)

1.一种基于百科知识库和词向量的中文地名语义消歧方法,其特征在于,包括如下步骤:
步骤一:采用开源中文维基百科语料,利用Jieba工具进行分词,基于Word2vec工具进行训练得到预训练词向量模型;
步骤二:利用地名标注语料对Bi-LSTM与CRF集成的地名识别模型进行训练得到预训练地名识别模型;
步骤三:采用步骤二得到的预训练地名识别模型,识别待消歧地名所在文本中的所有地名,形成地名列表Q,并通过步骤一得到的预训练词向量模型进行表示,得到词向量VecQ
步骤四:基于百科知识库,搜索歧义地名,并利用网络爬虫技术通过抓取百科内层的URL地址并解析,获取歧义地名对应的义项名列表和义项内容;
步骤五:采用步骤二得到的预训练地名识别模型,对步骤四中每条义项内容进行地名识别,分别生成对应的地名列表Ki,并通过步骤一得到的预训练词向量模型进行表示,得到词向量
Figure FDA0002249844720000011
步骤六:使用余弦相似度方法计算VecQ与每个
Figure FDA0002249844720000012
的相似度,得到词向量相似度
Figure FDA0002249844720000013
步骤七:采用Jieba工具对歧义地名的每个义项名进行分词,得到歧义地名的共现词组列表;然后进行歧义地名的义项频率统计,统计词组列表中的每个词组在地名列表Q中出现的频率Pi
步骤八:采用评分方式对词向量相似度
Figure FDA0002249844720000014
和义项频率Pi进行综合考虑,得分最高的义项名即为歧义地名最可能指代的地理位置。
2.根据权利要求1所述的基于百科知识库和词向量的中文地名语义消歧方法,其特征在于:所述步骤二中具体包括:
Step 1:获取地名训练语料:包括地理百科语料和微软语料;
Step 2:将两种语料进行混合,将实验语料分为85%的训练集,8%的测试集和7%的验证集三个部分;
Step 3:将Step 2中训练语料转化为将输入层的句子序列作为Bi-LSTM各个时间步的输入,再将正向LSTM隐输出序列与反向LSTM隐输入序列按位置拼接,得到完整的隐输出序列,充分考虑上文和下文的语义描述信息,实现特征的深度学习与表示;
Step 4:结合CRF模型,预测句子的序列标注,并与所输入句子的序列标注标签进行比对和迭代,得到最终预训练的地名识别模型。
3.根据权利要求1所述的基于百科知识库和词向量的中文地名语义消歧方法,其特征在于:所述步骤六中使用余弦相似度方法判断待消歧地名所在文本中的地名列表对应的词向量与歧义地名的每个义项内容中的地名列表对应的词向量的相似度,计算公式为:
Figure FDA0002249844720000021
上式中,VecQ表示待消歧地名所在文本中的地名列表对应的词向量,
Figure FDA0002249844720000022
表示歧义地名的每个义项内容中的地名列表对应的词向量,N表示歧义地名的义项名个数。
4.根据权利要求1所述的基于百科知识库和词向量的中文地名语义消歧方法,其特征在于:所述步骤七中义项频率计算公式为:
Figure FDA0002249844720000023
式中,ni表示第i个义项名的共现词组在待消歧文本生成的地名列表Q中出现的次数,M表示从待消岐文本中识别出的地名总数,N表示歧义地名的义项名个数。
5.根据权利要求1所述的基于百科知识库和词向量的中文地名语义消歧方法,其特征在于:所述步骤八中采用评分方式对词向量相似度
Figure FDA0002249844720000024
和义项频率Pi进行综合考虑的计算公式为:
式中,参数α∈(0,1),表示比重。
CN201911029961.4A 2019-10-28 2019-10-28 基于百科知识库和词向量的中文地名语义消歧方法 Active CN110781670B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911029961.4A CN110781670B (zh) 2019-10-28 2019-10-28 基于百科知识库和词向量的中文地名语义消歧方法
JP2022504557A JP7228946B2 (ja) 2019-10-28 2020-04-22 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法
PCT/CN2020/086173 WO2021082370A1 (zh) 2019-10-28 2020-04-22 基于百科知识库和词向量的中文地名语义消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911029961.4A CN110781670B (zh) 2019-10-28 2019-10-28 基于百科知识库和词向量的中文地名语义消歧方法

Publications (2)

Publication Number Publication Date
CN110781670A true CN110781670A (zh) 2020-02-11
CN110781670B CN110781670B (zh) 2023-03-03

Family

ID=69386882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911029961.4A Active CN110781670B (zh) 2019-10-28 2019-10-28 基于百科知识库和词向量的中文地名语义消歧方法

Country Status (3)

Country Link
JP (1) JP7228946B2 (zh)
CN (1) CN110781670B (zh)
WO (1) WO2021082370A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428482A (zh) * 2020-03-26 2020-07-17 北京明略软件系统有限公司 一种信息识别方法和装置
CN111797628A (zh) * 2020-06-03 2020-10-20 武汉理工大学 一种基于时间地理学的游记地名消歧方法
CN112257443A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
WO2021082370A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于百科知识库和词向量的中文地名语义消歧方法
CN113822057A (zh) * 2021-08-06 2021-12-21 北京百度网讯科技有限公司 地点信息确定方法、装置、电子设备以及存储介质
CN117610579A (zh) * 2024-01-19 2024-02-27 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742029B (zh) * 2022-04-20 2022-12-16 中国传媒大学 一种汉语文本比对方法、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017217661A1 (ko) * 2016-06-15 2017-12-21 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
CN108446269A (zh) * 2018-03-05 2018-08-24 昆明理工大学 一种基于词向量的词义消歧方法及装置
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5115631B2 (ja) * 2011-01-21 2013-01-09 日本電気株式会社 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置
JP6662689B2 (ja) * 2016-04-11 2020-03-11 株式会社Nttドコモ 単語判定装置
CN108572960A (zh) * 2017-03-08 2018-09-25 富士通株式会社 地名消岐方法和地名消岐装置
CN107861939B (zh) * 2017-09-30 2021-05-14 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
US11120086B2 (en) * 2018-02-13 2021-09-14 Oracle International Corporation Toponym disambiguation
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN110134956A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于blstm-crf的地名组织名识别方法
CN110781670B (zh) * 2019-10-28 2023-03-03 合肥工业大学 基于百科知识库和词向量的中文地名语义消歧方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017217661A1 (ko) * 2016-06-15 2017-12-21 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN108446269A (zh) * 2018-03-05 2018-08-24 昆明理工大学 一种基于词向量的词义消歧方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
向宇等: "多策略中文微博实体词消歧及实体链接", 《计算机应用与软件》 *
吕晓伟等: "基于词向量的无监督词义消歧方法", 《软件导刊》 *
马雷雷等: "地名知识辅助的中文地名消歧方法", 《地理与地理信息科学》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082370A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于百科知识库和词向量的中文地名语义消歧方法
CN111428482A (zh) * 2020-03-26 2020-07-17 北京明略软件系统有限公司 一种信息识别方法和装置
CN111428482B (zh) * 2020-03-26 2023-11-24 北京明略软件系统有限公司 一种信息识别方法和装置
CN111797628A (zh) * 2020-06-03 2020-10-20 武汉理工大学 一种基于时间地理学的游记地名消歧方法
CN111797628B (zh) * 2020-06-03 2024-03-08 武汉理工大学 一种基于时间地理学的游记地名消歧方法
CN112257443A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN112257443B (zh) * 2020-09-30 2024-04-02 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN113822057A (zh) * 2021-08-06 2021-12-21 北京百度网讯科技有限公司 地点信息确定方法、装置、电子设备以及存储介质
CN113822057B (zh) * 2021-08-06 2022-10-18 北京百度网讯科技有限公司 地点信息确定方法、装置、电子设备以及存储介质
CN117610579A (zh) * 2024-01-19 2024-02-27 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及系统
CN117610579B (zh) * 2024-01-19 2024-04-16 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及系统

Also Published As

Publication number Publication date
JP7228946B2 (ja) 2023-02-27
JP2022532451A (ja) 2022-07-14
WO2021082370A1 (zh) 2021-05-06
CN110781670B (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
Deepak et al. A novel firefly driven scheme for resume parsing and matching based on entity linking paradigm
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN109271640B (zh) 文本信息的地域属性识别方法及装置、电子设备
Hamzei et al. Place questions and human-generated answers: A data analysis approach
Qiu et al. ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network
Galina et al. Method for generating subject area associative portraits: different examples
Zhang et al. Recognition method of new address elements in Chinese address matching based on deep learning
CN106897274B (zh) 一种跨语种的点评复述方法
CN115982379A (zh) 基于知识图谱的用户画像构建方法和系统
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN115129719A (zh) 一种基于知识图谱的定性位置空间范围构建方法
CN114091454A (zh) 一种互联网文本中地名信息提取及空间定位方法
Gaio et al. Geoparsing and geocoding places in a dynamic space context
CN115203429B (zh) 一种用于构建审计领域本体框架的知识图谱自动扩充方法
CN111104492A (zh) 一种基于层次化Attention机制的民航领域自动问答方法
Vicentiy et al. The technology of spatial relations visualization based on the analysis of natural language texts
Tran et al. Improving Human Resources’ Efficiency with a Generative AI-Based Resume Analysis Solution
CN112182204A (zh) 构建中文命名实体标注的语料库的方法、装置
Devi et al. Big Data Analytics Based Sentiment Analysis Using Superior Expectation-Maximization Vector Neural Network in Tourism
Lee et al. Building place-specific sentiment Lexicon

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant