CN111144119B - 一种改进知识迁移的实体识别方法 - Google Patents
一种改进知识迁移的实体识别方法 Download PDFInfo
- Publication number
- CN111144119B CN111144119B CN201911374613.0A CN201911374613A CN111144119B CN 111144119 B CN111144119 B CN 111144119B CN 201911374613 A CN201911374613 A CN 201911374613A CN 111144119 B CN111144119 B CN 111144119B
- Authority
- CN
- China
- Prior art keywords
- word
- auxiliary
- sentence
- domain
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013508 migration Methods 0.000 title claims abstract description 21
- 230000005012 migration Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 10
- 230000001419 dependent effect Effects 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000011225 shan shi Nutrition 0.000 description 1
- 230000005476 size effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及一种景点实体识别方法,利用知识迁移的思想解决了旅游领域标注数据难获取的问题,同时解决了利用深度学习方法识别景点中严重依赖标注数据以及标注数据质量问题,此外用融合语言模型的BERT+BiLSTM+CRF方法解决了中文命名实体识别特征表示的一词多义问题。本发明借助已有的辅助领域样本的标注数据,根据关键词,句子,可扩展能力三个级别的评估,利用评估结果扩展目标领域训练集。经过实验证明,本发明仅取1/4的标注数据,就可以获得比较显著的识别效果。此外,在无需进行大量的人工数据标注的前提下,借助已有的辅助领域样本的标注数据进行扩展,在不影响识别效率的前提下,减少了人工标注数据所花费的时间和精力。
Description
技术领域
本发明涉及一种景点实体识别方法,尤其涉及一种改进知识迁移的景点实体识别模型。
背景技术
在对类似旅游游记这种海量非结构化文本进行高效信息管理和数据挖掘对旅游领域问答系统、舆情分析、个性化推荐等研究具有重要的意义,而对景点的实体识别精确率直接影响对旅游领域的信息抽取。
针对旅游景点的识别,目前主要有以下几类:基于机器学习(隐马尔可夫模型和条件随机场)和基于深度学习(卷积神经网络)的方法。隐马尔可夫模型识别景点是一个双重随机过程,该方法未能考虑到上下文之间的语义信息,且在对文本提取特征的过程中未能解决文本特征表示的一词多义问题,旅游领域景点词语一般会存在不同语境下不同含义,比如“黄山”在不同语境下可以指安徽省黄山市,属于地名,也可以指旅游景区“黄山”等,继而景点实体识别效率一般。基于条件随机场方法主要依赖人工构建特征模板,对于旅游领域,景点实体数量过多,无法一一列举,且在人工构建特征模板的时候耗时耗力,未能考虑到上下文语境和语义的信息。基于卷积神经网络的方法,对景点识别效率较高,但是需要大量的人工标注语料,且识别结果严重依赖语料标注质量,此外人工标注耗费巨大精力,自动化标注的训练集语料质量直接影响识别效率。所以针对旅游景点识别目前最大的问题就是:1)对于旅游景点重名,景点词语在不同语境下的不同含义问题,在文本特征表示的时候得不到解决;2)对于特定的旅游领域,景点实体数量过多,无法一一列举,且在人工构建特征模板的时候耗时耗力,使用机器学习算法进行学习需要人工标注数据,且模型严重依赖标注数据的质量,标注数据难获取的问题等;
发明内容
本发明的目的就是为了解决上述问题,提供了一种改进知识迁移的景点实体识别模型。辅助领域文本为规范标注化的数据,所以迁移的难点在于如何评估辅助领域到目标领域的相似性,保证特征提取和知识迁移的过程中,将辅助领域中尽可能多的关于目标领域的语义信息扩展但不产生负迁移。
对此,本文针对旅游领域文本特点,提出了关键词重要性,样本可扩展性两种不同的计算方式来评估一个样本的好坏。设计了三种不同程度的相似度来评估辅助领域与目标领域的相似度。它具有利用辅助领域扩展目标领域训练集的优点,能够准确有效识别景点。
为了实现上述目的,本发明采用如下技术方案:
一种改进知识迁移的景点实体识别模型,具体步骤为:
步骤一:利用辅助领域训练集使用BERT+BiLSTM+CRF方法训练中文命名实体识别模型,中文命名实体识别模型包括BERT模型、BiILSTM、CRF层,具体为:训练集经过BERT模型得到文本字向量,然后通过BiILSTM深度学习上下文特征信息,进行命名实体识别,最后使用CRF层对BiLSTM的输出序列处理。
步骤二:用辅助领域训练集训练word2Vec模型,训练完成后的word2Vec模型称为辅助领域词向量化模型,用目标领域训练集训练word2Vec模型,训练完成后的word2Vec模型称为目标领域词向量化模型;
步骤三:对辅助领域训练集中的每一个样本,计算词语重要性,并将词语重要性根据由大到小的顺序排列,前m个词语为辅助领域关键词;对目标领域训练集中的每一个样本,计算词语重要性,并将词语重要性根据由大到小的顺序排列,前m个词语为目标领域关键词;
步骤四:计算步骤二获取的辅助领域关键词与目标领域关键词的相似性,设置关键词级别相似度阈值;
步骤五:计算辅助领域句子与目标领域句子的相似性,设置句子级别相似度阈值;
步骤六:计算辅助领域样本可扩展能力,设置可扩展能力阈值;
步骤七:用辅助领域样本扩展目标领域样本;用扩展后的目标领域样本训练景点实体识别分类器;
如权利要求1所述改进知识迁移的景点实体识别模型,其特征是,所述步骤一中的中文命名实体识别模型构成方法:
(1-1)辅助领域训练集为从人民日报采集的标注了人名、地名、机构名的文本集,将辅助领域训练集输入到BERT模型中,BERT模型输出文本字向量;
(1-2)中文命名实体识别模型输入为步骤(1-1)中的文本词向量;用BiILSTM深度学习方法提取上下文信息;
(1-3)用CRF层对BiLSTM的输出序列处理,结合CRF中的状态转移矩阵,根据相邻之间标签得到一个全局最优序列。
(1-4)中文命名实体识别模型的输出为预测所得的实体标签;
所述步骤二中具体步骤为:
(2-1)目标领域样本集为人工爬取的马蜂窝等旅游网站上的游记;
(2-2)对辅助领域样本集用jieba分词方法分词得到辅助领域分词文本,用目标领域样本集使用jieba分词方法分词得到目标领域分词文本;
(2-3)加载停用词和用户自定义词典。其中用户自定义词典由词语构成,表达的含义为不想被分词器分开的词语;
(2-4)用辅助领域分词文本训练word2Vec模型,得到辅助领域词向量化模型,用目标领域分词文本训练word2Vec模型,得到辅助领域词向量化模型;
所述步骤三中具体步骤为:
(3-1)对目标领域样本计算句子中的关键词频率KFi,j,对辅助领域样本计算句子中的关键词频率KFi,j′,其中第i个关键词频率KFi,j的计算方式为:式子中,KFi,j表示关键字i在句子j中的出现频率,ni,j表示关键词i在句子j中出现的次数。
(3-2)为辅助领域样本计算样本反句子频率ISF,为目标领域样本计算样本反句子频率ISF′;
其中:SF(Sentence Frequency)表示句子频率,ISF(Inverse SentenceFrequency)表示反句子频率,ISFi表示词语i的反句子频率,|S|句子总数量,|j:ti∈Sj|表示ti∈Sj出现次数,为防止分母变零,导致式子无意义,加1。
(3-3)为辅助领域样本计算某个词语i在句子j中的重要程度,计算公式为:I(i,j)=KFi,j*ISFi;
(3-4)为目标领域样本计算某个词语i在句子j中的重要程度,计算公式为:I(i,j)=KFi,j′*ISFi′;
所述步骤四具体步骤为:
(4-1)对辅助领域关键词用步骤二训练所得的辅助领域word2Vec语言模型计算得到Lword={l1,l2,…,ln};
(4-2)对目标领域关键词用步骤二训练所得的目标领域word2Vec语言模型计算得到Mword={m1,m2,…,mn};
(4-3)为步骤三中的和/>根据余弦相似性计算关键词相似性,计算方式为:
(4-4)设置关键词级别相似度阈值(0.4,0.6);
所述步骤五具体步骤为:
(5-1)对辅助领域样本中的每一个句子xs用步骤二训练所得的辅助领域word2Vec语言模型计算句子向量得到Lsen={l1,l2,…,ln};
(5-2)对目标领域样本中的每一个句子xs用步骤二训练所得的目标领域word2Vec语言模型计算句子向量得到Msen={m1,m2,…,mn};
(5-3)对Lsen和Msen根据余弦相似性计算句子级别相似性,计算方式为:
(5-4)设置句子级别相似性阈值(0.4,0.6);
所述步骤六为确定样本可扩展能力,具体步骤为:
(6-1)根据前文得到simsen和simword,由 计算样本可扩展能力SEA,其中α为句子级别相似性所占SEA权重,β为关键词相似性所占SEA权重;
(6-2)设置可扩展能力阈值(0.4,0.6);
所述步骤七具体步骤为:
(7-1)根据关键词相似性阈值,将关键词相似性高的样本扩展到目标领域样本集中;
(7-2)根据句子级别相似性阈值,将句子相似性高的样本扩展到目标领域样本中;
(7-3)根据样本可扩展能力相似性阈值,将可扩展能力高的样本扩展到目标领域样本中;
有益效果:
本发明利用了知识迁移的思想解决了旅游领域标注数据难获取的问题,同时解决了利用深度学习方法识别景点中严重依赖标注数据以及标注数据质量问题。利用迁移学习的思想,借助已有的辅助领域样本的标注数据,根据关键词,句子,可扩展能力三个级别的评估,根据评估结果扩展目标领域训练集。
经过大量实验证明,本发明仅取1/4的标注数据,就可以获得比较显著的识别效果。此外,在无需进行大量的人工数据标注的前提下,可以借助已有的辅助领域样本的标注数据进行扩展,实现目标领域样本的实体提取,在不影响识别效率的前提下,大大减少了人工标注数据所花费的时间和精力。
附图说明
图1为本发明的算法结构图
图2为分类器模型图
图3为分类器分层验证的曲线图
图4为不同关键词相似度阈值的曲线图
图5为不同句子相似度阈值的曲线图
图6为不同SEA的曲线图
图7为不同目标领域样本大小影响结果的曲线图
具体实施方式
下面结合附图与实施例对本发明作进一步说明
如图1所示,一种改进知识迁移实体识别模型研究与应用,具体步骤为:
(1)对辅助领域样本Xs和少量目标领域样本Xt使用图2的分类器模型训练中文实体识别分类器C1(x)和景点实体识别分类器C2(x)。C1(x)用于检测中文命名实体识别中的一词多义问题,C2(x)用于检测旅游领域命名实体识别中的景点实体识别问题。图2分类器的设计上,使用BERT嵌入的实体识别模型,目的在于特征提取的时候解决中文一词多义的文本表示问题,使用双向长短时记忆神经网的方法学习上下文特征信息,使用条件随机场对上一层的输出序列处理,结合条件随机场中的状态转移矩阵,提取全局最优序列。
对辅助领域样本测试集使用C1(x)进行测试,得到如图3的测试结果曲线图,其中P值为准确率,R值为召回率,F值为综合评价指标。
(2)初始化相似度阈值m,目标领域少量标注样本集在扩展后训练集中的占比μ;
(3)对每一个Xt=Trt,对Xs、Xt预处理,分别训练对应的语言模型,对任意一个x(s)∈Xs,有n为向量维度,对x(t)∈Xt,有/>
(4)对辅助领域中的每一个样本和目标领域中样本计算两者关键词频率、文本相似性以及可扩展能力
①计算词语重要性,获取前m个最相关关键词/>和/>计算方法为:I(i,j)=KFi,j*ISFi
其中KFi,j表示关键i在句子j中的出现频率,ISFi表示词语i的反句子频率
②对每一个样本vsen(xt)∈v(xt)计算句子级别的文本相似性,计算方法为:
③对每一个辅助领域样本有:计算其可扩展能力,计算方法为:
其中α和β表示权重系数;
(4)根据(2)中的③求得的SEA值对辅助领域样本集中可扩展能力较强的样本扩展到目标领域样本集Trt中得到
(5)对扩展后的使用BERT+BiLSTM+CRF方法训练新的景点实体识别模型c(x);
(6)使用目标领域测试集Tet得到一组识别结果;
(7)更新m值,重复验证,得到如图5的实验结果;
(8)更新SEA阈值,重复验证,得到如图6的实验结果;
(9)更新μ值,重复验证,得到如图7的实验结果;
可以看出:本方法所提供的方法在仅有1/4的目标领域标注数据,测试结果准确率高达95.06%。
Claims (10)
1.一种改进知识迁移的实体识别方法,其特征在于:
步骤一:利用辅助领域训练集使用BERT+BiLSTM+CRF方法训练中文命名实体识别分类器,中文命名实体识别分类器包括BERT模型、BiILSTM、CRF层,具体为:辅助领域训练集经过BERT模型得到文本字向量,然后通过BiILSTM深度学习上下文特征信息,进行命名实体识别,最后使用CRF层对BiLSTM的输出序列处理,得到训练后的中文命名实体识别分类器;
步骤二:用辅助领域训练集训练word2Vec模型,训练完成后的word2Vec模型称为辅助领域词向量化模型,用目标领域训练集训练word2Vec模型,训练完成后的word2Vec模型称为目标领域词向量化模型;
步骤三:对每一个辅助领域样本,计算词语重要程度,并将词语重要程度根据由大到小的顺序排列,前m个词语为辅助领域关键词对每一个目标领域样本,计算词语重要程度,并将词语重要程度根据由大到小的顺序排列,前m个词语为目标领域关键词/>
步骤四:计算步骤三获取的辅助领域关键词与目标领域关键词/>的相似性,得到关键词相似性,设置相似度阈值;
步骤五:根据步骤二得到的辅助领域词向量化模型和目标领域词向量化模型,计算辅助领域句子与目标领域句子的相似性,得到句子相似性,设置句子级别相似度阈值;
步骤六:根据步骤四、五得到的关键词相似性和句子相似性,计算辅助领域样本可扩展能力,设置可扩展能力阈值;
步骤七:根据步骤六中的可扩展能力阈值,将辅助领域训练集扩展到目标领域训练集,得到扩展后的目标领域样本集;对扩展后的目标领域样本集使用步骤一的BERT+BiLSTM+CRF方法训练景点实体识别分类器,得到训练后的景点实体识别分类器,其中景点实体识别分类器和中文命名实体识别分类器结构相同,使用目标领域测试集对训练后的景点实体识别分类器进行验证得到景点实体识别结果。
2.如权利要求1所述改进知识迁移的实体识别方法,其特征在于:所述步骤一具体如下:(1-1)辅助领域训练集为从人民日报收集的标注了人名、地名、机构名的文本集,将辅助领域训练集输入到BERT模型中,BERT模型输出文本字向量;
(1-2)将步骤(1-1)中的文本字向量输入BiILSTM,提取上下文信息;
(1-3)用CRF层对BiLSTM的输出序列处理得到预测的不同类实体标签的分数值;
其中,模型采用最优化方法最大似然估计损失函数,标签为命名实体识别标注BIO标注模式。
3.如权利要求1所述改进知识迁移的实体识别方法,其特征在于,步骤三
所述的目标领域样本为人工爬取的旅游网站上的游记;
进一步的,对辅助领域样本使用jieba分词方法分词,得到辅助领域分词文本,对目标领域样本使用jieba分词方法分词,得到目标领域分词文本;
进一步的,jieba分词方法包括加载停用词词典和用户自定义词典,其中用户自定义词典由词语构成,包括不想被分词器分开的词语。
4.如权利要求1所述改进知识迁移的实体识别方法,其特征在于,所述步骤三中辅助领域词语重要程度具体计算步骤如下:
(3-1)计算辅助领域样本句子中的词频率,其中,第i个词在句子j中的出现频率KFi,j由下式得到:
式中,ni,j表示第i个词在句子j中出现的次数;
(3-2)为辅助领域样本计算样本反句子频率ISF,其中词语i的反句子频率ISFi由下式得到;
其中:|S|表示辅助领域样本集中句子的总数量,|j:ti∈Sj|表示ti∈Sj出现次数,ti表示句子中词语,Sj表示第j个句子;
(3-3)计算辅助领域样本中词语在句子中的重要程度,其中,词语i在句子j中的重要程度I(i,j)由下式计算:
I(i,j)=KFi,j*ISFi。
5.如权利要求4所述改进知识迁移的实体识别方法,其特征在于,所述步骤三中目标领域关键词的计算方法与辅助领域关键词的计算方法相同,唯一区别在于涉及的数据均为目标领域训练集中的样本。
6.如权利要求1所述改进知识迁移的实体识别方法,其特征在于,所述步骤四具体步骤为:
(4-1)利用步骤二训练得到的辅助领域词向量化模型,得到每一个辅助领域关键词的词向量Lword;
(4-2)利用步骤二训练得到的目标领域词向量化模型,得到每一个目标领域关键词的词向量Mword;
(4-3)根据余弦相似性计算辅助领域关键词和目标领域关键词/>的相似性,具体计算公式为:
Lword={l1,l2,…,ln}表示辅助领域关键词的词向量,Mword={m1,m2,…,mn}表示目标领域关键词的词向量。
7.如权利要求1所述改进知识迁移的实体识别方法,其特征在于,步骤四中所述的关键词级别相似度阈值的取值范围是(0.4,0.6)。
8.如权利要求1所述改进知识迁移的实体识别方法,其特征在于,步骤五所述辅助领域句子与目标领域句子相似性的计算方法如下:
(5-1)利用步骤二训练得到的辅助领域词向量化模型,得到辅助领域样本中的每一个句子xs的句子向量Lsen={l1,l2,…,ln};
(5-2)利用步骤二训练得到的目标领域词向量化模型得到目标领域样本中每一个句子xt的句子向量Msen={m1,m2,…,mn};
(5-3)对Lsen和Msen根据余弦相似性计算句子级别相似性,计算方式为:
步骤五所述句子级别相似性阈值的取值范围是(0.4,0.6)。
9.如权利要求1所述改进知识迁移的实体识别方法,其特征在于,步骤六所述辅助领域样本可扩展能力SEA计算方法如下:
其中α,β为权重系数,取值范围为(0,0.5);
所述可扩展能力阈值的取值范围是(0.4,0.6)。
10.如权利要求1所述改进知识迁移的实体识别方法,其特征在于,步骤七所述的样本扩展条件为:
(7-1)根据关键词相似性阈值,将关键词相似性高于阈值的样本扩展到目标领域样本集中;
(7-2)根据句子级别相似性阈值,将句子相似性高于阈值的样本扩展到目标领域样本中;(7-3)根据样本可扩展能力相似性阈值,将可扩展能力高于阈值的样本扩展到目标领域样本中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374613.0A CN111144119B (zh) | 2019-12-27 | 2019-12-27 | 一种改进知识迁移的实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374613.0A CN111144119B (zh) | 2019-12-27 | 2019-12-27 | 一种改进知识迁移的实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144119A CN111144119A (zh) | 2020-05-12 |
CN111144119B true CN111144119B (zh) | 2024-03-29 |
Family
ID=70520780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911374613.0A Active CN111144119B (zh) | 2019-12-27 | 2019-12-27 | 一种改进知识迁移的实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144119B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666414B (zh) * | 2020-06-12 | 2023-10-17 | 上海观安信息技术股份有限公司 | 一种敏感数据检测云服务的方法和云服务平台 |
CN111695346B (zh) * | 2020-06-16 | 2024-05-07 | 广州商品清算中心股份有限公司 | 一种提升金融风险防控领域舆情实体识别率的方法 |
CN113076745A (zh) * | 2021-04-29 | 2021-07-06 | 平安科技(深圳)有限公司 | 基于人工智能的数据处理方法、装置、设备和介质 |
CN113191148A (zh) * | 2021-04-30 | 2021-07-30 | 西安理工大学 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
CN114610852B (zh) * | 2022-05-10 | 2022-09-13 | 天津大学 | 一种基于课程学习的细粒度中文句法分析方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9971763B2 (en) * | 2014-04-08 | 2018-05-15 | Microsoft Technology Licensing, Llc | Named entity recognition |
-
2019
- 2019-12-27 CN CN201911374613.0A patent/CN111144119B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
武惠 ; 吕立 ; 于碧辉 ; .基于迁移学习和BiLSTM-CRF的中文命名实体识别.小型微型计算机系统.2019,(第06期),全文. * |
王红斌 ; 沈强 ; 线岩团 ; .融合迁移学习的中文命名实体识别.小型微型计算机系统.2017,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111144119A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144119B (zh) | 一种改进知识迁移的实体识别方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN109284400B (zh) | 一种基于Lattice LSTM和语言模型的命名实体识别方法 | |
CN110765775B (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN109033374B (zh) | 基于贝叶斯分类器的知识图谱检索方法 | |
CN108804612B (zh) | 一种基于对偶神经网络模型的文本情感分类方法 | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN104794169B (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
CN107480200B (zh) | 基于词标签的词语标注方法、装置、服务器及存储介质 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN110717324B (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN112131872A (zh) | 一种文献作者重名消歧方法和构建系统 | |
CN106202543A (zh) | 基于机器学习的本体匹配方法和系统 | |
CN110688836A (zh) | 基于监督学习的领域词典自动化构建方法 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN110705292B (zh) | 一种基于知识库和深度学习的实体名称提取方法 | |
CN113869053A (zh) | 一种面向司法文本命名实体识别的方法及系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN110110116A (zh) | 一种整合深度卷积网络和语义分析的商标图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |