CN107133220B - 一种地理学科领域命名实体识别方法 - Google Patents

一种地理学科领域命名实体识别方法 Download PDF

Info

Publication number
CN107133220B
CN107133220B CN201710422919.3A CN201710422919A CN107133220B CN 107133220 B CN107133220 B CN 107133220B CN 201710422919 A CN201710422919 A CN 201710422919A CN 107133220 B CN107133220 B CN 107133220B
Authority
CN
China
Prior art keywords
word
model
words
geographic
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710422919.3A
Other languages
English (en)
Other versions
CN107133220A (zh
Inventor
李慧颖
徐飞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201710422919.3A priority Critical patent/CN107133220B/zh
Publication of CN107133220A publication Critical patent/CN107133220A/zh
Application granted granted Critical
Publication of CN107133220B publication Critical patent/CN107133220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种地理学科领域命名实体识别方法,识别出地理学科核心术语类和地理区域位置类实体,主要包括三个步骤:(1)地理学科领域词典构建,采用新词发现算法无监督地识别出地理学科领域新词。(2)基于条件随机场(CRF)模型和多通道卷积神经网络(MCCNN)模型进行训练与测试。(3)基于规则的方法,纠错和融合模型识别出的实体。本发明采用新词发现算法无监督识别领域新词作为词典,以提高分词效果。从大规模未标注数据中无监督地学习词的语义向量,并综合词的基础特征,作为MCCNN模型的输入特征,避免了手动选取和构建特征。自定义规则融合两种模型的预测结果,纠正识别过程中的错误标记问题。

Description

一种地理学科领域命名实体识别方法
技术领域
本发明属于信息抽取技术领域,特别涉及一种地理学科领域命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是信息抽取的基础环节,应用于后续任务,比如关系抽取、实体链接,广泛应用于自动问答、机器翻译等自然语言处理领域。
对于地理学科高考问答系统,构建面向基础教育的地理学科知识图谱,显得尤为重要。为了从地理学科资源中获取知识,构建地理学科知识图谱,命名实体识别通常是首要任务。本专利首次尝试面向地理学科领域进行命名实体识别,抽取的命名实体类别包括地理学科核心术语和地理区域位置。地理学科领域命名实体识别不仅具有汉语命名实体识别固有的难点,而且还面临领域分词困难以及缺乏大规模人工标注训练语料等诸多问题。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种能够有效融合序列标注模型和神经网络模型优点的框架,来实现命名实体识别,以及便于一系列后续应用开展的地理学科领域命名实体识别方法。
技术方案:为解决上述技术问题,本发明提供一种地理学科领域命名实体识别方法,包括如下步骤:
1)先标注语料,然后采用新词发现算法构建地理学科领域词典;
2)通过无标注的文本和步骤1中构建的地理学科领域词典,进行学习单词的特征表示;
3)通过多通道卷积神经网络模型训练和预测,多通道中其中一个通道的输入是句子中每个单词wi的上下文特征φ(wi),倾向于捕捉词的句法和语义信息;另一个通道的输入是单词wi的基础特征,选取词性、词长和词频,关于词的基本特征,倾向于捕捉词的表层特征;
4)首先对无标注的文本和地理学科领域词典构成的数据集进行预处理,然后进行分词、词性标注,并采用BIO标注方式对数据集进行标注;针对地理学科领域特点,进行特征选取,选取出常用特征和地理学科领域特征,最后根据条件随机场模型进行训练和预测;
5)采用基于规则的方法对步骤3和步骤4预测结果进行纠错和融合,得到最后的预测结果。
进一步的,所述步骤1中采用新词发现算法构建地理学科领域词典的具体步骤如下,通过计算单词w的左侧和右侧的上下文熵,单词w在语料X中出现的次数是n,出现在左侧的词语的集合为α={a1,a2,…,as},出现在它右侧的词语的集合为β={b1,b2,…,bt},单词w的左侧上下文熵和右侧上下文熵定义如下所示:
Figure BDA0001315460650000021
Figure BDA0001315460650000022
其中,Count(ai,w)是ai和w共同出现的次数,Count(bj,w)是bj和w共同出现的次数;当一个词项的左右侧上下文熵都较大,则说明与该词项左右相邻的不同词项个数较多,那么这个词项与左右侧相邻的词项构成新词的概率就较低。
进一步的,所述步骤2中学习单词特征表示的具体步骤如下:在无标注语料库Q中获取一个窗口大小为d的单词序列p=(w1,w2,…,wd);该模型的目标就是能够区别正确的单词序列p以及一个随机单词序列pr,其中pr表示把单词序列p的中间单词替换为后的单词序列,r表示中间单词替换词,该模型的目标函数就是最小化与参数θ相关的排序损失:
Figure BDA0001315460650000023
其中,p是无标记语料库训练样本Q中所有的长度为d的单词序列,
Figure BDA0001315460650000024
是单词词典,fθ(p)是p的得分,无标记语料库训练样本Q中所有的单词序列用于学习该语言模型;正例是语料库U中的单词序列,负例是把这些单词序列的中心词替换为随机词的结果。
进一步的,所述步骤3中通过多通道卷积神经网络模型训练和预测的整个模型训练过程如下:
使用每个单词wi及其对应的标记t(wi),MCCNN模型对每个单词wi输出向量o(wi)。这时定义交叉熵作为训练集上的损失函数:
Figure BDA0001315460650000031
其中θ为参数权重,λ为正则化参数,权重参数θ通过后向传播算法计算,模型采用AdaGrad算法计算最小化损失函数。
进一步的,所述步骤4中常用特征包括单词特征,词性特征,形态特征,上下文特征和词频信息。
进一步的,所述步骤4中地理学科领域特征包括前后缀特征和指示词特征。
进一步的,所述步骤4中根据条件随机场模型进行训练和预测的具体步骤如下:在观测序列X取值为x的条件下,标记序列Y取值为y的条件概率具有如下形式:
Figure BDA0001315460650000032
其中,Z(x)=∑yexp(∑i,kλktk(yi-1,yi,x,i)+∑i,lμlsl(yi,x,i)),tk和sl是特征函数,λk和μl是对应的权值。Z(x)是规范化因子,在所有可能的输出序列上进行求和。
进一步的,步骤5中采用基于规则的方法对预测结果进行纠错和融合得到最后的预测结果的评判规则如下:
A、如果CRF模型预测的实体的开始单词不是实体首部标注B,而是实体内部标注I,那么通过MCCNN模型的预测结果查看该单词的预测分值,若满足阈值∈则将该单词改为实体首部标注B;
B、如果MCCNN模型预测的实体内部的多个单词出现多种实体类别,即该实体的类别不确定,此时选择CRF模型预测的实体类别作为该实体的类别。
与现有技术相比,本发明的优点在于:
本发明针对地理学科领域实体识别问题,采用MCCNN和CRF模型对地理学科核心术语和地理区域位置两类实体进行识别。基于规则融合两种模型的预测结果,纠正了识别过程中的错误标记问题;从大规模未标注数据中无监督地学习词的语义向量,并综合词的基础特征,作为MCCNN模型的输入特征,避免了手动选取和构建特征。因此本发明能够融合模型优点,弥补模型的不足,来实现地理学科领域实体识别,以及便于一系列后续应用(如实体链接、关系抽取)的开展。
当将命名实体识别作为一个序列标注任务,可以采用条件随机场模型。其中,条件随机场模型综合隐马尔可夫模型和最大熵马尔可夫模型的优点,克服了隐马尔可夫模型严格的独立性假设,并通过全局归一化解决了最大熵马尔可夫模型所固有的标记偏置问题。同时,条件随机场模型可以重叠使用非独立的特征,易于融合地理学科领域的新特征。因此,针对地理学科领域进行特征选取并利用条件随机场模型进行命名实体识别。
词向量是将最小语义单元映射为一组低维、连续的实值向量,向量中每一维表示某种隐含的句法和语义信息。因此采用多通道卷积神经网络模型,组合词向量特征和基础特征,作为模型的输入特征,进行地理学科领域命名实体识别。
附图说明
图1为本发明的总体流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
一种基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法,如图1所示,该方法包含基于新词发现算法构建领域词典、基于CRF和MCCNN模型进行训练与预测以及基于规则融合CRF和MCCNN模型预测结果三个步骤。
问题可以描述如下:用U表示中文维基百科语料,用G无标注地理学科领域语料G,地理学科领域命名实体识别的任务就是基于CRF模型和MCCNN模型对地理学科核心术语和地理区域位置两类实体进行识别,最后基于规则融合两种模型的预测结果,纠正识别过程中的错误标记。在下面的叙述中标记和实体会交替使用,具有相同的含义。
一、基于新词发现算法构建领域词典
步骤1,采用新词发现算法,无监督地从无标注语料中,抽取领域新词,构建词典。对于一个词w,通过计算w的互信息用来定义词w的内部凝固程度;计算w的左侧上下文熵和右侧上下文熵用来定义词w的自由程度。综合w的内部凝固程度和自由程度,可以挖掘无标注语料中的领域新词。
二、基于CRF和MCCNN模型进行训练与预测
步骤2,基于神经语言模型学习单词的特征表示,将无标记的语料库U中的每个单词wi通过基于神经语言模型转化为一个低维、连续的实值向量,其中,i=1…n,n为语料库U单词的个数。
步骤3,基于多通道卷积神经网络(MCCNN)模型训练和测试。模型输入采用多通道,其中一个通道的输入是句子中每个单词wi的上下文特征φ(wi),倾向于捕捉词的句法、语义信息;另一个通道的输入是单词wi的基础特征,选取词性、词长和词频,关于词的基本特征,倾向于捕捉词的表层特征。
对于句子中每个词的标签分类,综合使用基础特征和词向量特征,进行地理学科领域命名实体识别。具体地,对于一个句子{w1,w2,…,ws},选取句子中的当前词wi,上文两个词wi-1,wi-2和下文两个词wi+1,wi+2,并将每个词转换成对应词向量V,其中
Figure BDA0001315460650000051
m表示单词的个数,模型中取值为5,k表示词向量的维度。然后采用卷积操作,得到特征ci=f(W0·V+b0),其中i=1,2,…,n,n为卷积核的个数,权值矩阵
Figure BDA0001315460650000052
偏置向量
Figure BDA0001315460650000053
f(·)是非线性函数。在池化层,采用
Figure BDA0001315460650000054
得到特征图谱向量r0。对于词的基础特征,采样同样方式得到特征图谱r1,当前词的特征向量表示为
Figure BDA0001315460650000055
其中
Figure BDA0001315460650000056
表示连接符号。模型的输出层对当前词wi的特征向量r,采用Softmax回归,得到预测标记为:t(wi)=softmax(r)。模型训练过程,模型采用AdaGrad算法(一种动态调整学习率的随机梯度下降算法)最小化损失函数。
步骤4,基于条件随机场(CRF)模型训练和测试。首先对数据集进行预处理,包括过滤清洗、特殊符号处理等操作,然后进行分词、词性标注,并采用BIO标注方式对数据集进行标注;针对地理学科领域特点,进行特征选取:常用特征和地理学科领域特征。常用特征包括单词特征、词性特征、形态特征、上下文特征和词频信息;地理学科领域特征包括前后缀特征和指示词特征。在观测序列X取值为x的条件下,标记序列Y取值为y的条件概率具有如下形式:
Figure BDA0001315460650000057
其中,Z(x)=∑yexp(∑i,kλktk(yi-1,yi,x,i)+∑i,lμlsl(yi,x,i)),tk和sl是特征函数,λk和μl是对应的权值。Z(x)是规范化因子,在所有可能的输出序列上进行求和。
三、基于规则融合CRF和MCCNN模型预测结果
步骤5,基于规则纠错融合MCCNN模型和CRF模型的预测结果。采用MCCNN模型是对单词进行标签分类,而通常命名实体会包含多个单词,因此分类预测后的结果可能会出现矛盾。采用基于规则的方法对预测结果进行纠错和融合。
基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别算法流程如下:
Figure BDA0001315460650000061
Figure BDA0001315460650000071
本发明在实验过程中,使用word2vec开源工具训练词向量,参数设置如下:上下文窗口选取为5,词向量的维度选取为100;使用开源工具CRF++0.58训练CRF模型。本发明提出的基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法,在自建的地理学科数据集上,精确率达到92.59%,F1值到达92.77%,性能达到项目应用效果。
本发明提出的基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法,可以实现对地理学科核心术语和地理区域位置两类实体进行识别,有利于一系列自然语言处理相关应用(如实体链接、关系抽取)的展开。从大规模未标注数据中无监督地学习词的语义向量,并综合词的基础特征,作为MCCNN模型的输入特征,避免了手动选取和构建特征。此外,本发明提出的基于规则融合两种模型的预测结果,纠正了识别过程中的错误标记问题。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (7)

1.一种地理学科领域命名实体识别方法,其特征在于,包括如下步骤:
1)先标注语料,然后采用新词发现算法构建地理学科领域词典;
2)通过无标注的文本和步骤1) 中构建的地理学科领域词典,进行学习单词的特征表示;
3)通过多通道卷积神经网络模型训练和预测,多通道中其中一个通道的输入是句子中每个单词wi的上下文特征φ(wi),倾向于捕捉词的句法和语义信息;另一个通道的输入是单词wi的基础特征,选取词性、词长和词频,关于词的基础特征,倾向于捕捉词的表层特征;
4)首先对无标注的文本和地理学科领域词典构成的数据集进行预处理,然后进行分词、词性标注,并采用BIO标注方式对数据集进行标注;针对地理学科领域特点,进行特征选取,选取出常用特征和地理学科领域特征,最后根据条件随机场模型进行训练和预测;
5)采用基于规则的方法对步骤3) 和步骤4) 预测结果进行纠错和融合,得到最后的预测结果;
步骤4)中常用特征包括单词特征,词性特征,形态特征,上下文特征和词频信息。
2.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤1)中采用新词发现算法构建地理学科领域词典的具体步骤如下,通过计算单词w的左侧和右侧的上下文熵,单词w在语料X中出现的次数是n,出现在左侧的词语的集合为α={a1,a2,…,as},出现在它右侧的词语的集合为β={b1,b2,…,bt},单词w的左侧上下文熵和右侧上下文熵定义如下所示:
Figure FDA0002700586190000011
Figure FDA0002700586190000012
其中,Count(ai,w)是ai和w共同出现的次数,Count(bj,w)是bj和w共同出现的次数。
3.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤2)中学习单词特征表示的具体步骤如下:在无标注语料库Q中获取一个窗口长度为d的单词序列p=(w1,w2,…,wd);词向量生成模型的目标是能够区别长度为d的单词序列p以及一个随机单词序列pr,其中pr表示把长度为d的单词序列p的中间单词替换后的单词序列,r表示中间单词替换词,词向量生成模型的目标函数就是最小化与参数θ相关的排序损失:
Figure FDA0002700586190000021
其中,p是无标注语料库Q中所有的长度为d的单词序列,
Figure FDA0002700586190000024
是单词词典,fθ(p)是p的得分,无标注语料库Q中所有的单词序列用于学习神经语言模型;正例是语料库U中的单词序列,负例是把这些单词序列的中心词替换为随机词的结果。
4.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤3)中通过多通道卷积神经网络模型训练和预测的整个模型训练过程如下:
使用每个单词wi及其对应的标记t(wi),多通道卷积神经网络模型对每个单词wi输出向量o(wi);这时定义交叉熵作为训练集上的损失函数:
Figure FDA0002700586190000022
其中θ为权重参数,λ为正则化参数,权重参数θ通过后向传播算法计算,模型采用AdaGrad算法计算最小化损失函数。
5.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤4)中地理学科领域特征包括前后缀特征和指示词特征。
6.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤4)中根据条件随机场模型进行训练和预测的具体步骤如下:在观测序列X取值为x的条件下,标记序列Y取值为y的条件概率具有如下形式:
Figure FDA0002700586190000023
其中,Z(x)=∑yexp(∑i,kλktk(yi-1,yi,x,i)+∑i,lμlsl(yi,x,i)),tk和sl是特征函数,λk和μl是对应的权值;Z(x)是规范化因子,在所有可能的输出序列上进行求和。
7.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,步骤1)中采用基于规则的方法对预测结果进行纠错和融合得到最后的预测结果的评判规则如下:
A、如果CRF模型预测的实体的开始单词不是实体首部标注B,而是实体内部标注I,那么通过多通道卷积神经网络模型的预测结果查看该单词的预测分值,若满足阈值∈则将该单词改为实体首部标注B;
B、如果多通道卷积神经网络模型预测的实体内部的多个单词出现多种实体类别,即该实体的类别不确定,此时选择CRF模型预测的实体类别作为该实体的类别。
CN201710422919.3A 2017-06-07 2017-06-07 一种地理学科领域命名实体识别方法 Active CN107133220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710422919.3A CN107133220B (zh) 2017-06-07 2017-06-07 一种地理学科领域命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710422919.3A CN107133220B (zh) 2017-06-07 2017-06-07 一种地理学科领域命名实体识别方法

Publications (2)

Publication Number Publication Date
CN107133220A CN107133220A (zh) 2017-09-05
CN107133220B true CN107133220B (zh) 2020-11-24

Family

ID=59733822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710422919.3A Active CN107133220B (zh) 2017-06-07 2017-06-07 一种地理学科领域命名实体识别方法

Country Status (1)

Country Link
CN (1) CN107133220B (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622050B (zh) * 2017-09-14 2021-02-26 武汉烽火普天信息技术有限公司 基于Bi-LSTM和CRF的文本序列标注系统及方法
CN107908635B (zh) * 2017-09-26 2021-04-16 百度在线网络技术(北京)有限公司 建立文本分类模型以及文本分类的方法、装置
CN107844477B (zh) * 2017-10-25 2021-03-19 西安影视数据评估中心有限公司 一种影视剧本人物名称的提取方法和装置
CN107832296A (zh) * 2017-11-09 2018-03-23 南京邮电大学 一种基于条件随机场的电信领域命名实体识别方法
CN109800409A (zh) * 2017-11-17 2019-05-24 普天信息技术有限公司 一种中文分词方法及系统
CN108268447B (zh) * 2018-01-22 2020-12-01 河海大学 一种藏文命名实体的标注方法
CN108491472A (zh) * 2018-03-07 2018-09-04 新博卓畅技术(北京)有限公司 一种基于crf++分词构建医疗特征库的方法和系统
CN108563617B (zh) * 2018-03-12 2021-09-21 云知声智能科技股份有限公司 汉语句子混合模板的挖掘方法及装置
CN108536679B (zh) * 2018-04-13 2022-05-20 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110414301B (zh) * 2018-04-28 2023-06-23 中山大学 一种基于双摄头的列车车厢人群密度估计方法
CN110555206A (zh) * 2018-06-01 2019-12-10 中兴通讯股份有限公司 一种命名实体识别方法、装置、设备及存储介质
CN108805290B (zh) * 2018-06-28 2021-03-12 国信优易数据股份有限公司 一种实体类别的确定方法及装置
CN110728147B (zh) * 2018-06-28 2023-04-28 阿里巴巴集团控股有限公司 一种模型训练方法及命名实体识别方法
CN108959566B (zh) * 2018-07-04 2019-09-10 哈尔滨工业大学 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN109086268A (zh) * 2018-07-13 2018-12-25 上海乐言信息科技有限公司 一种基于迁移学习的领域文法学习系统和方法
CN109189900A (zh) * 2018-08-03 2019-01-11 北京捷易迅信息技术有限公司 一种用于bot系统的实体抽取方法
CN109614457B (zh) * 2018-11-28 2021-01-01 武汉大学 一种基于深度学习的地理信息的识别方法及装置
CN111368541A (zh) * 2018-12-06 2020-07-03 北京搜狗科技发展有限公司 命名实体识别方法及装置
CN111382570B (zh) * 2018-12-28 2024-05-03 深圳市优必选科技有限公司 文本实体识别方法、装置、计算机设备及存储介质
CN111414757B (zh) * 2019-01-04 2023-06-20 阿里巴巴集团控股有限公司 一种文本识别方法及装置
CN109800437B (zh) * 2019-01-31 2023-11-14 北京工业大学 一种基于特征融合的命名实体识别方法
CN109858041B (zh) * 2019-03-07 2023-02-17 北京百分点科技集团股份有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN110210023A (zh) * 2019-05-23 2019-09-06 竹间智能科技(上海)有限公司 一种实用有效的命名实体识别的计算方法
CN111985235B (zh) * 2019-05-23 2024-05-07 北京地平线机器人技术研发有限公司 文本处理方法、装置、计算机可读存储介质和电子设备
CN110287495A (zh) * 2019-07-01 2019-09-27 国网江苏省电力有限公司电力科学研究院 一种电力营销专业词识别方法及系统
CN110472062B (zh) * 2019-07-11 2020-11-10 新华三大数据技术有限公司 识别命名实体的方法及装置
CN110377912A (zh) * 2019-07-24 2019-10-25 贵州大学 一种基于多通道深度神经网络的关系识别方法
CN112347263B (zh) * 2019-08-06 2023-04-14 上海智臻智能网络科技股份有限公司 一种知识图谱构建方法
CN110688467A (zh) * 2019-08-23 2020-01-14 北京百度网讯科技有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN110837730B (zh) * 2019-11-04 2023-05-05 北京明略软件系统有限公司 一种未知实体词汇的确定方法及装置
CN111125371B (zh) * 2019-12-13 2023-06-20 中国地质大学(武汉) 一种基于深度学习的地质灾害文献知识图谱构建方法
CN111079436B (zh) * 2019-12-20 2021-09-21 中南大学 一种地质命名实体的提取方法及装置
CN111079425B (zh) * 2019-12-20 2021-07-09 中南大学 一种地质文档词项分级方法及装置
CN111144118B (zh) * 2019-12-26 2023-05-12 携程计算机技术(上海)有限公司 口语化文本中命名实体的识别方法、系统、设备和介质
CN111428502A (zh) * 2020-02-19 2020-07-17 中科世通亨奇(北京)科技有限公司 一种面向军事语料的命名实体标注方法
CN111651991B (zh) * 2020-04-15 2022-08-26 天津科技大学 一种利用多模型融合策略的医疗命名实体识别方法
CN111538893B (zh) * 2020-04-29 2021-01-05 四川大学 一种从非结构化数据中提取网络安全新词的方法
CN111737560B (zh) * 2020-07-20 2021-01-08 平安国际智慧城市科技股份有限公司 内容搜索方法、领域预测模型训练方法、装置及存储介质
CN112231472B (zh) * 2020-09-18 2022-07-29 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN112256888A (zh) * 2020-10-30 2021-01-22 南京师范大学 地理知识获取方法
CN112633012B (zh) * 2020-12-31 2024-02-02 浙大城市学院 一种基于实体类型匹配的未登录词替换方法
CN112446216B (zh) * 2021-02-01 2021-05-04 华东交通大学 一种融合中心词信息的嵌套命名实体识别方法与装置
CN112818694A (zh) * 2021-03-02 2021-05-18 浙江工业大学 一种基于规则和改进预训练模型的命名实体识别方法
CN113191118B (zh) * 2021-05-08 2023-07-18 山东省计算中心(国家超级计算济南中心) 一种基于序列标注的文本关系抽取方法
CN113807102B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 建立语义表示模型的方法、装置、设备和计算机存储介质
CN116050419B (zh) * 2023-03-30 2023-06-02 西南科技大学 一种面向科学文献知识实体的无监督识别方法及系统
CN116911305A (zh) * 2023-09-13 2023-10-20 中博信息技术研究院有限公司 一种基于融合模型的中文地址识别方法
CN116976351B (zh) * 2023-09-22 2024-01-23 之江实验室 基于学科实体的语言模型构建方法以及学科实体识别装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138973A (zh) * 2015-08-11 2015-12-09 北京天诚盛业科技有限公司 人脸认证的方法和装置
CN105955955A (zh) * 2016-05-05 2016-09-21 东南大学 一种基于纠错输出编码的无需消歧的无监督词性标注方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138973A (zh) * 2015-08-11 2015-12-09 北京天诚盛业科技有限公司 人脸认证的方法和装置
CN105955955A (zh) * 2016-05-05 2016-09-21 东南大学 一种基于纠错输出编码的无需消歧的无监督词性标注方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
中文地名识别研究;孙虹;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20140315(第03期);全文 *
中文微博的地理位置命名实体识别研究;官登水;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20170515(第05期);正文第20页第8行至第52页第5行 *
基于多通道卷积神经网的实体关系抽取;肜博辉等;《计算机应用研究》;20170331;第34卷(第03期);第690页右栏第23-27行 *
基于微博内容的新词发现方法;霍帅等;《模式识别与人工智能(月刊)》;20170228;第27卷(第02期);第143页左栏6-31行 *
基于词典与机器学习的基因命名实体识别机制研究;夏光辉;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20131215(第S2期);全文 *
多分类器融合中的动态模糊测度;李雪非;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20120315(第03期);摘要1-9行 *

Also Published As

Publication number Publication date
CN107133220A (zh) 2017-09-05

Similar Documents

Publication Publication Date Title
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN110110585B (zh) 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN106407333B (zh) 基于人工智能的口语查询识别方法及装置
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN106484674B (zh) 一种基于深度学习的中文电子病历概念抽取方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN105868184A (zh) 一种基于循环神经网络的中文人名识别方法
CN107943784A (zh) 基于生成对抗网络的关系抽取方法
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN108681532B (zh) 一种面向中文微博的情感分析方法
CN110633467A (zh) 一种基于改进特征融合的语义关系抽取方法
CN112417862A (zh) 知识点预测方法、系统和可读存储介质
CN111680684B (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN112784601B (zh) 关键信息提取方法、装置、电子设备和存储介质
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN115757815A (zh) 知识图谱的构建方法、装置及存储介质
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN114579706B (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
CN116361454A (zh) 一种基于Bloom分类法的课程教学案例自动评估方法
CN113095087B (zh) 一种基于图卷积神经网络的中文词义消歧方法
CN107992482A (zh) 数学主观题解答步骤的规约方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant