CN108388559B - 地理空间应用下的命名实体识别方法及系统、计算机程序 - Google Patents

地理空间应用下的命名实体识别方法及系统、计算机程序 Download PDF

Info

Publication number
CN108388559B
CN108388559B CN201810159195.2A CN201810159195A CN108388559B CN 108388559 B CN108388559 B CN 108388559B CN 201810159195 A CN201810159195 A CN 201810159195A CN 108388559 B CN108388559 B CN 108388559B
Authority
CN
China
Prior art keywords
place names
named entity
place
place name
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810159195.2A
Other languages
English (en)
Other versions
CN108388559A (zh
Inventor
宋俊平
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN201810159195.2A priority Critical patent/CN108388559B/zh
Publication of CN108388559A publication Critical patent/CN108388559A/zh
Application granted granted Critical
Publication of CN108388559B publication Critical patent/CN108388559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机软件技术领域,公开了一种地理空间应用下的命名实体识别方法及系统、计算机程序,语义建模,利用大规模的地名库,对地名中的字构建共现矩阵,然后通过梯度下降获得地名中字的语义表征;命名实体识别模型的训练,利用条件随机场模型,结合字的语义特征,训练模型;映射步,主要是将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,存在映射歧义,则根据地名的上下文进行消歧。本发明将地名进行层级化,并缓存到内存中,大大提高了地名检索匹配的效率,同时基于上下文的语义信息,对匹配到的地名进行消歧,从而使映射到的经纬度更加准确,提高了在地理空间应用的准确性。

Description

地理空间应用下的命名实体识别方法及系统、计算机程序
技术领域
本发明属于计算机软件技术领域,尤其涉及一种地理空间应用下的命名实 体识别方法及系统、计算机程序。
背景技术
目前,业内常用的现有技术是这样的:伴随着互联网的迅速发展和空间信 息技术的逐步繁荣,地理空间文本数据正呈现出爆炸式的增长,但这些数据来 源各异、形式多样,为地理空间文本数据的结构化存储、检索和管理带来了极 大的挑战。命名实体识别是利用机器学习方法从非结构化的自由文本中,提取 出结构化的人名、地名、组织名和时间等结构要素,从而实现对海量数据的关 键信息结构化和快速查询检索。命名实体识别技术由来已久,并呈相对成熟的 趋势,也在很多领域得到了广泛的应用。命名实体识别是信息抽取的重要的一 个研究方向,其基本任务是从非结构化文本中抽取出人名、地名和组织名,而在地理空间下,对地名进行精确识别,并将地名转化为经纬度进行空间表示尤 为重要。随着机器学习的发展,诞生了许多基于机器学习的命名识别方法,如 层叠隐马尔科夫模型(cascaded hidden markov model,cascaded HMM;在统一 的隐马尔可夫模型中识别各类命名实体,并在这些隐马尔可夫模型中建立起一 定的联系,形成一个一体化的命名实体识别系统)和条件随机场(conditional random field,CRF;给定一组输入随机变量条件下另一组输出随机变量的条件 概率分布模型,其特点为假设输出随机变量构成马尔可夫随机场)等。针对地 理空间应用场景,往往借助地名规则和地理数据库进行辅助,提高地名识别能 力。现有基于机器学习的命名实体识别方法通常是监督学习的,其任务主要是 依赖自动内容抽取会议(ACE)和人民日报语料进行。
综上所述,现有技术存在的问题是:虽然传统的命名实体识别的准确率已 经很高,但是在地理空间应用上,由于传统的机器学习方法缺少大规模的地名 标注数据且难以充分利用已有的地名库数据,因此导致现有技术还面临着如下 缺陷和挑战:
(1)传统的命名实体识别在地理空间文本中,地名较为丰富和繁杂,伴随 着各种歧义现象,传统的命名实体方法的效果较差,因此许多研究者试图通过 引入一些地名规则来指导机器的学习,但是这种规则需要繁重的人工劳动,并 且难以覆盖所有的规则,从而导致提高不是很明显。
(2)传统的命名实体识别对于地理空间的应用,只是识别出地名是远远不 够的,更重要的是要把地名映射到精确的经纬度坐标上,这样才能结合当前的 数字地球进行可视化展示和统计。
解决上述技术问题的难度和意义:由于以上原因,在使用传统的机器学习 方法,如CRF,在地理空间文本数据中进行命名实体识别时,评测的F1值仅为 67.7%,难以在实际应用中取得很好的效果。在地理空间领域,存在着大量的结 构化的地名库,但是怎样将地名库作为特征融入到传统机器学习中,来提升地 名实体识别效果,是一个难度较大且亟待解决的问题。本发明从这个角度出发, 将大规模的地名转化为语义向量表示,降低了特征维度,从而能更好的融入到 传统的机器学习中进行训练。在人工标注的数据中进行实验,结果证明,该方 法在地名识别中取得了75.5%的F1值,比传统的方法提升了将近8%,使得在 地理空间应用中,提取更加精确,为地理空间应用中数据挖掘和可视化等高层 应用奠定了坚实的基础。
发明内容
针对现有技术存在的问题,本发明提供了一种地理空间应用下的命名实体 识别方法及系统、计算机程序。
本发明是这样实现的,一种地理空间应用下的命名实体识别方法,所述地 理空间应用下的命名实体识别方法包括以下步骤:
步骤一,语义建模,利用大规模的地名库,对地名中的字构建共现矩阵, 然后通过梯度下降获得地名中字的语义表征;
步骤二,命名实体识别模型的训练,利用条件随机场模型,结合字的语义 特征,训练模型;
步骤三,映射步,主要是将抽取出的地名进行层级树表示,并按照层次进 行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,存在映射歧 义,则根据地名的上下文进行消歧。
进一步,所述步骤一包括以下步骤:
(1)对特征进行表示,利用地名中字与字之间的共现建立全局的共现矩阵, 表示为:
Figure BDA0001582405860000031
其中,X代表共现矩阵,i和j表示地名库中两个字的索引,Ldi表示文档d 中要素i所在的位置,D是数据集的大小,在遍历完整个数据集后,Xij代表地 名库中两个字i和j的全局共现程度;求得地名字j出现在地名字i的上下文的概 率为:
Figure BDA0001582405860000032
其中,Pij即为地名字之间的共现概率;
(2)将字数学化为浮点向量的形式,并引入向量函数、对称性原理,从而 可以将共现概率近似为如下形式:
Figure BDA0001582405860000033
其中
Figure BDA0001582405860000034
代表地名库中的字向量,
Figure BDA0001582405860000035
分别为
Figure BDA0001582405860000036
的两个偏置量。该表达 式的基本思想是采用地名库中字之间向量的余弦相似度来近似两个字之间的共 现概率。
(3)表示成损失函数的形式如下:
Figure BDA0001582405860000041
其中V为地名库中所有字的数量,J为代价函数,利用自适应梯度下降的方 法对代价函数进行优化,获得地名库中每个字对应的向量。
进一步,所述步骤二采用序列标注中常用的条件随机场模型进行命名实体 识别的建模,其中所用到的特征有两个,其中一个是上下文信息,即当前词的 前后两个词的信息;另一个则是第一步得到的字的向量表示。
进一步,所述步骤三具体包括:对地名库的层级树的表示;每接收到一个 地名,后台启动映射服务,将识别到的地名在内存中进行层级检索,逐层进行 检索,当检索完毕后返回检索到的所有可能的路径,构成一系列长的匹配地名 集合。
进一步,集合中只找到一个路径,则返回最低层次节点值;存在多种可能 则需要根据地名的上下文进行消歧,首先将检索到的地名进行向量表示。
本发明的另一目的在于提供一种所述地理空间应用下的命名实体识别方法 的地理空间应用下的命名实体识别系统,所述地理空间应用下的命名实体识别 系统包括:
语义建模模块,利用大规模的地名库,对地名中的字构建共现矩阵,通过 梯度下降获得地名中字的语义表征;
命名实体识别模型训练模块,利用条件随机场模型,结合字的语义特征, 训练模型;
映射模块,用于将抽取出的地名进行层级树表示,并按照层次进行搜索映 射,获得地名对应的经纬度,如果对应的经纬度有多个,即存在映射歧义,则 根据地名的上下文进行消歧。
本发明的另一目的在于提供一种实现所述地理空间应用下的命名实体识别 方法的计算机程序。
本发明的另一目的在于提供一种实现所述地理空间应用下的命名实体识别 方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在 计算机上运行时,使得计算机执行所述的地理空间应用下的命名实体识别方法。
综上所述,本发明的优点及积极效果为:本发明包含地名语义规则表征、 命名实体识别的模型训练和地名解析映射三个步骤,无需进行繁重的人工规则 制定,而是直接利用丰富的地名库本身的特点,从全库出发,建立全局的共现 矩阵,从而利用共现矩阵呈现的全局信息进行地名的向量表示,向量表示不仅 有利于计算和模型训练,其内在蕴含的语义信息也为地名识别和消歧带来准确 率的提升。本发明将地名进行层级化,并缓存到内存中,大大提高了地名检索 匹配的效率,同时基于上下文的语义信息,对匹配到的地名进行消歧,从而使 映射到的经纬度更加准确,提高了在地理空间应用的准确性。
为了验证本发明的有效性,我们执行了一个人工标注计划,三个独立的标 注者对随机选出的100篇地理空间文本数据进行标注,标注内容包括人名、地 名和组织名。在同样的运行环境下运行传统的CRF方法和加入地名库的CRF方 法,从地名识别效果上,将获得的准确率、召回率和F1值等参数统计如下:
方法/参数 准确率(%) 召回率(%) F1(%)
传统的CRF 65.6 69.9 67.7
加入地名库的CRF 77.3 73.8 75.5
从表中可以看出,相对于传统的CRF模型,在加入了地名库特征后,性能得到 很大的提升,在F1角度,提升率达8%。
附图说明
图1是本发明实施例提供的地理空间应用下的命名实体识别方法流程图。
图2是本发明实施例提供的地理空间应用下的命名实体识别系统结构示意 图;
图中:1、语义建模模块;2、命名实体识别模型训练模块;3、映射模块。
图3是本发明实施例提供的地理空间应用下的命名实体识别方法实现流程 图。
图4是本发明实施例提供的省市县三级的层级树示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例, 对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以 解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种新的地理空间应用下的命名 实体识别方法,通过全局共现矩阵来自动建模地名规则,获得地名元素在语义 空间上的分布和关系,然后通过地名层次逐层匹配的方法进行地名到经纬度的 映射,从而提高了命名实体识别的准确率,F1值提高率达8%。
如图1所示,本发明实施例提供的地理空间应用下的命名实体识别方法包 括以下步骤:
S101:语义建模,利用大规模的地名库,对地名中的字构建共现矩阵,然 后通过梯度下降获得地名中字的语义表征,这种语义表征不仅能很好表达地名 的语义,还蕴含了地名之间的语义关联;
S102:命名实体识别模型的训练,利用条件随机场模型(CRF),结合字 的语义特征,训练模型;
S103:映射步,主要是将抽取出的地名进行层级树表示,并按照层次进行 搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,即存在映射歧 义,则根据地名的上下文进行消歧。
如图2所示,本发明实施例提供的地理空间应用下的命名实体识别系统包 括:
语义建模模块1,利用大规模的地名库,对地名中的字构建共现矩阵,通过 梯度下降获得地名中字的语义表征;
命名实体识别模型训练模块2,利用条件随机场模型(CRF),结合字的语 义特征,训练模型。
映射模块3,用于将抽取出的地名进行层级树表示,并按照层次进行搜索映 射,获得地名对应的经纬度,如果对应的经纬度有多个,即存在映射歧义,则 根据地名的上下文进行消歧。
如图3所示,本发明实施例提供的地理空间应用下的命名实体识别方法具 体包括以下步骤:
第一步,对特征进行表示。传统的命名识别方法采用的常用特征包括上下 文特征、词性特征等,为了更好的建模语义信息,以及发现地名的关联规则, 本发明将关系型全局向量模型引入到地名规则表征中,其基本思想是,首先利 用地名中字与字之间的共现建立全局的共现矩阵,用公式表示为:
Figure BDA0001582405860000071
其中,X代表共现矩阵,i和j表示地名库中两个字的索引,Ldi表示文档d 中要素i所在的位置,D是数据集的大小。从上式可以看出,在遍历完整个数据 集后,Xij就代表了地名库中两个字i和j的全局共现程度。由共现矩阵可以求得 地名字j出现在地名字i的上下文的概率,即共现概率为:
Figure BDA0001582405860000072
其中,Pij即为地名字之间的共现概率,如果几个字经常组合起来表示成一 个地名,那么他们的共现概率就越高。
然后将字数学化为浮点向量的形式,并引入向量函数、对称性原理,从而 可以将共现概率近似为如下形式:
Figure BDA0001582405860000073
其中
Figure BDA0001582405860000074
代表地名库中的字向量,
Figure BDA0001582405860000075
分别为
Figure BDA0001582405860000076
的两个偏置量。该表达 式的基本思想是采用地名库中字之间向量的余弦相似度来近似两个字之间的共 现概率。
最后,将上式表示成损失函数的形式如下:
Figure BDA0001582405860000081
其中V为地名库中所有字的数量,J为代价函数,利用自适应梯度下降的方 法对代价函数进行优化,即可获得地名库中每个字对应的向量。相对于传统的 人工设计规则,利用语义向量表示的优势在于算法能够从地名库的数据本身出 发,直接发现地名潜在的语法和语义规则,从而大大节约了人工设计成本。同 理方法,可以在命名实体识别标注语料上进行学习,得到普通词中的字向量。
第二步,本发明采用序列标注中常用的条件随机场模型进行命名实体识别 的建模,其中所用到的特征有两个,其中一个是上下文信息,即当前词的前后 两个词的信息;另一个则是第一步得到的字的向量表示。
第三步可以分成两个部分,其中第一个部分是对地名库的层级树的表示, 以省市县三级为例,建立如图4所示的层级树,其中每一个节点用地名的名称 表示,实际上存储的是一个键值对,即地名和经纬度的对应表。由于每识别到 一个地名就需要实时的对地名进行映射,因此需要将地名层级树缓存到内存中, 从而使得每次进行地名匹配时能够迅速进行映射。第二部分中,每接收到一个 地名,后台启动映射服务,将识别到的地名在内存中进行层级检索,即逐层进 行检索,当检索完毕后返回检索到的所有可能的路径,构成一系列长的匹配地 名集合,如果集合中只找到一个路径,则返回最低层次节点值;如果存在多种可能则需要根据地名的上下文进行消歧,其基本思想是首先将检索到的地名进 行向量表示。地名的向量为整个路径中从根节点到当前节点的所有地名向量的 加权平均,例如山东省菏泽市东明县的词向量由“中国”、“山东省”、“菏泽市” 和“东明县”三个地名的向量加权平均得到。然后将识别到的地名所在的句子作为 整体计算句子的向量,通过比较加权地名向量和句子向量的相似度,从而获得 最可能的匹配地名。其中地名向量和句子向量的获取都是通过字向量的加权平 均获得的。这种消歧方法的优点在于能够充分利用全局语义和局部语义信息, 从而达到很好的定位效果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组 合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程 序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指 令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可 以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算 机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向 另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、 计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或 无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据 中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用 介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。 所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、 或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

Claims (6)

1.一种地理空间应用下的命名实体识别方法,其特征在于,所述地理空间应用下的命名实体识别方法包括以下步骤:
步骤一,语义建模,利用大规模的地名库,对地名中的字构建共现矩阵,然后通过梯度下降获得地名中字的语义表征;
步骤二,命名实体识别模型的训练,利用条件随机场模型,结合字的语义特征,训练模型;
步骤三,映射步,将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,存在映射歧义,则根据地名的上下文进行消歧;
所述步骤一包括以下步骤:
(1)对特征进行表示,利用地名中字与字之间的共现建立全局的共现矩阵,表示为:
Figure FDA0003192320850000011
其中,X代表共现矩阵,i和j表示地名库中两个字的索引,Ldi表示文档d中要素i所在的位置,D是数据集的大小,在遍历完整个数据集后,Xij代表地名库中两个字i和j的全局共现程度;求得地名字j出现在地名字i的上下文的概率为:
Figure FDA0003192320850000012
其中,Pij即为地名字之间的共现概率;
(2)将字数学化为浮点向量的形式,并引入向量函数、对称性原理,从而可以将共现概率近似为如下形式:
Figure FDA0003192320850000021
其中w∈Rd代表地名库中的字向量,bi
Figure FDA0003192320850000022
分别为wi
Figure FDA0003192320850000023
的两个偏置量,表达式采用地名库中字之间向量的余弦相似度来近似两个字之间的共现概率;
(3)表示成损失函数的形式如下:
Figure FDA0003192320850000024
其中V为地名库中所有字的数量,J为代价函数,利用自适应梯度下降的方法对代价函数进行优化,获得地名库中每个字对应的向量;
所述步骤二采用序列标注中常用的条件随机场模型进行命名实体识别的建模,其中所用到的特征有两个,其中一个是上下文信息,即当前词的前后两个词的信息;另一个则是第一步得到的字的向量表示。
2.如权利要求1所述的地理空间应用下的命名实体识别方法,其特征在于,所述步骤三具体包括:对地名库的层级树的表示;每接收到一个地名,后台启动映射服务,将识别到的地名在内存中进行层级检索,逐层进行检索,当检索完毕后返回检索到的所有可能的路径,构成一系列长的匹配地名集合。
3.如权利要求2所述的地理空间应用下的命名实体识别方法,其特征在于,集合中只找到一个路径,则返回最低层次节点值;存在多种可能则需要根据地名的上下文进行消歧,首先将检索到的地名进行向量表示。
4.一种如权利要求1所述地理空间应用下的命名实体识别方法的地理空间应用下的命名实体识别系统,其特征在于,所述地理空间应用下的命名实体识别系统包括:
语义建模模块,利用大规模的地名库,对地名中的字构建共现矩阵,通过梯度下降获得地名中字的语义表征;
命名实体识别模型训练模块,利用条件随机场模型,结合字的语义特征,训练模型;
映射模块,用于将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,即存在映射歧义,则根据地名的上下文进行消歧。
5.一种实现权利要求1~3任意一项所述地理空间应用下的命名实体识别方法的信息数据处理终端。
6.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任意一项所述的地理空间应用下的命名实体识别方法。
CN201810159195.2A 2018-02-26 2018-02-26 地理空间应用下的命名实体识别方法及系统、计算机程序 Active CN108388559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810159195.2A CN108388559B (zh) 2018-02-26 2018-02-26 地理空间应用下的命名实体识别方法及系统、计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810159195.2A CN108388559B (zh) 2018-02-26 2018-02-26 地理空间应用下的命名实体识别方法及系统、计算机程序

Publications (2)

Publication Number Publication Date
CN108388559A CN108388559A (zh) 2018-08-10
CN108388559B true CN108388559B (zh) 2021-11-19

Family

ID=63069200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810159195.2A Active CN108388559B (zh) 2018-02-26 2018-02-26 地理空间应用下的命名实体识别方法及系统、计算机程序

Country Status (1)

Country Link
CN (1) CN108388559B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710927B (zh) * 2018-12-12 2022-12-20 东软集团股份有限公司 命名实体的识别方法、装置、可读存储介质及电子设备
CN109885825A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 基于注意力机制的命名实体识别方法、装置和计算机设备
CN110245277B (zh) * 2019-06-12 2022-04-15 杭州数澜科技有限公司 用于确定地名串的方法和系统
CN110597943B (zh) * 2019-09-16 2022-04-01 腾讯科技(深圳)有限公司 基于人工智能的兴趣点处理方法、装置及电子设备
CN111858787A (zh) * 2019-09-24 2020-10-30 北京嘀嘀无限科技发展有限公司 一种poi信息获取的方法及装置
CN110781670B (zh) * 2019-10-28 2023-03-03 合肥工业大学 基于百科知识库和词向量的中文地名语义消歧方法
CN110889293B (zh) * 2019-12-06 2020-11-27 浙江大搜车软件技术有限公司 多层级主题向量空间的构建方法、装置、设备和存储介质
CN111402866B (zh) * 2020-03-23 2024-04-05 北京声智科技有限公司 语义识别方法、装置及电子设备
CN111797628B (zh) * 2020-06-03 2024-03-08 武汉理工大学 一种基于时间地理学的游记地名消歧方法
CN112559658B (zh) * 2020-12-08 2022-12-30 中国科学技术大学 一种地址匹配方法及装置
CN112835897B (zh) * 2021-01-29 2024-03-15 上海寻梦信息技术有限公司 地理区域划分管理方法、数据转换方法及相关设备
CN113076389A (zh) * 2021-03-16 2021-07-06 百度在线网络技术(北京)有限公司 文章地域识别方法、装置、电子设备及可读存储介质
CN113807102B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 建立语义表示模型的方法、装置、设备和计算机存储介质
CN114861667B (zh) * 2022-05-16 2023-04-28 中电金信软件有限公司 一种命名实体标签识别方法及装置
CN115238692A (zh) * 2022-06-29 2022-10-25 青岛海尔科技有限公司 一种地点名称识别方法、系统、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN104199840A (zh) * 2014-08-05 2014-12-10 杭州安恒信息技术有限公司 基于统计模型的智能地名识别技术
KR20150050140A (ko) * 2013-10-31 2015-05-08 한국전자통신연구원 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法
CN105260360A (zh) * 2015-10-27 2016-01-20 小米科技有限责任公司 命名实体的识别方法及装置
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN105630887A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 中文问答系统知识标记语言的表示方法及中文问答系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
CN104408148B (zh) * 2014-12-03 2017-12-01 复旦大学 一种基于通用百科网站的领域百科构建系统
CN104850539B (zh) * 2015-05-28 2017-08-25 宁波薄言信息技术有限公司 一种自然语言理解方法及基于该方法的旅游问答系统
CN106484664B (zh) * 2016-10-21 2019-03-01 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
KR20150050140A (ko) * 2013-10-31 2015-05-08 한국전자통신연구원 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
CN104199840A (zh) * 2014-08-05 2014-12-10 杭州安恒信息技术有限公司 基于统计模型的智能地名识别技术
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法
CN105260360A (zh) * 2015-10-27 2016-01-20 小米科技有限责任公司 命名实体的识别方法及装置
CN105630887A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 中文问答系统知识标记语言的表示方法及中文问答系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Glove: Global Vectors for Word Representation;Pennington J等;《Conference on Empirical Methods in Natural Language Processing》;20141029;1-12 *
面向军事文本的命名实体识别;冯蕴天等;《计算机科学》;20150715;第42卷(第7期);15-18、47 *

Also Published As

Publication number Publication date
CN108388559A (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN108388559B (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN110019732B (zh) 一种智能问答方法以及相关装置
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
US11397855B2 (en) Data standardization rules generation
CN113127506B (zh) 目标查询语句的构建方法、装置、存储介质和电子装置
CN111325022B (zh) 识别层级地址的方法和装置
JP7362998B2 (ja) Poi状態情報を取得する方法、及び装置
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN116737915B (zh) 基于知识图谱的语义检索方法、装置、设备及存储介质
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN110674313B (zh) 一种基于用户日志动态更新知识图谱的方法
CN109033370A (zh) 一种查找相似店铺的方法及装置、店铺接入的方法及装置
CN117033816A (zh) 停车推荐方法、装置、电子设备及存储介质
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN108241650B (zh) 训练分类标准的训练方法和装置
CN116431625A (zh) 一种地理实体的定位分析方法、装置及计算机设备
CN115658919A (zh) 一种文化信息数字化存储方法
CN115408532A (zh) 一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质
CN112416754B (zh) 一种模型评测方法、终端、系统及存储介质
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
Pu et al. A vision-based approach for deep web form extraction
CN114491076A (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN113326698A (zh) 检测实体关系的方法、模型训练方法及电子设备
CN112069273A (zh) 地址文本的分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant