CN113283242A - 一种基于聚类与预训练模型结合的命名实体识别方法 - Google Patents

一种基于聚类与预训练模型结合的命名实体识别方法 Download PDF

Info

Publication number
CN113283242A
CN113283242A CN202110602241.3A CN202110602241A CN113283242A CN 113283242 A CN113283242 A CN 113283242A CN 202110602241 A CN202110602241 A CN 202110602241A CN 113283242 A CN113283242 A CN 113283242A
Authority
CN
China
Prior art keywords
bert
result
model
clustering
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110602241.3A
Other languages
English (en)
Other versions
CN113283242B (zh
Inventor
朱磊
吴江浩
黑新宏
王一川
姬文江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110602241.3A priority Critical patent/CN113283242B/zh
Publication of CN113283242A publication Critical patent/CN113283242A/zh
Application granted granted Critical
Publication of CN113283242B publication Critical patent/CN113283242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于机器学习与Bert模型结合的命名实体识别方法对Bert训练后的结果结合机器学习的方法来改进Bert与NER任务的精确度。首先对Bert的结果提取其中的每个词的特征向量。首次迭代时,首先通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了认为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果的人为因素。通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,真正做到TopicBert的作用,并在运用训练后的参数进行NER或其他任务中提高效果。

Description

一种基于聚类与预训练模型结合的命名实体识别方法
技术领域
本发明属于人工智能技术领域,涉及人工智能NLP方向,具体涉及一种基于聚类与预训练模型结合的命名实体识别方法,提高对知识图谱构建时数据收集的效率。
背景技术
随着信息科技的发展,互联网信息总量指数式翻增,传统信息量大而杂的现象已经难以处理,深度学习的重要领域自然语言处理可以为传统信息智能化提供好的思路。
网络化信息来源广泛,内容错综复杂,很难获取每个信息节点之间的关系,知识图谱的构建很大的解决的信息之间的关联性问题,通过图数据库展示每个信息节点之间的关系,让来源不同的信息不在孤立节点而是以二元组的形式体现出来。目前知识图谱在构建的构建分为知识抽取,知识融合,知识储存,知识推理。而对于知识抽取的过程中,命名实体识别为主要任务,命名实体识别的精度越高效率越好,对于后期的处理工作就更容易进行,并且还能简化清洗数据的过程,不但能让知识抽取效果更好,还能提高图谱的构建准确度。目前命名实体识别主要的模型就是BiLSTM-CRF和BERT-BiLSTM-CRF。但是这两种模型都不能自动的生成一个数据集对应的分类Topic,使其在对数据处理时无法有效的抓住更多的数据信息。本发明基于BERT结合Canopy-Kmeans并行聚类来提升BERT训练效果,从而更提高NER的精度。
发明内容
本发明旨在提供一种基于聚类与预训练模型结合的命名实体识别方法。采用topic机制的方式解决了现有技术中存在的BERT模型在训练的精度较低,在执行NER任务时准确性不高的问题。
本发明所采用的技术方案是,将机器学习的Canopy-Kmeans聚类算法与深度学习BERT的训练结果结合,通过Topic标签的方式来提高BERT在NER任务中的准确性。
一种基于聚类与预训练模型结合的命名实体识别方法,首先对Bert的结果提取其中的每个词的特征向量;在进行对特征向量的首次迭代时,通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了人为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果产生的影响;通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,从而得到一个结合了Topic类别标记的Bert训练模型,并在运用训练后的参数进行NER时中提高识别效率和准确性。
具体操作步骤如下:
步骤1,模型的预训练语义段落来源于中文Wikipedia数据库,先从中文Wikipedia数据库中爬取数据;
步骤2,对步骤1中的数据进行数据清洗,制作成训练可用的数据集保存在数据库中;
步骤3,配置Bert的模型参数包括初始学习率,隐藏层个数,自注意力头数,Encoder-Decoder层数,全连接层维度;
步骤4,调用步骤3中完成基本参数配置后的Bert模型,同时将步骤2中存储在数据库中的预训练数据集作为Bert模型的输入,运行Bert模型并在成功产生输出结果后保存Bert的结果中的高维特征向量的结果并将高维特征向量结果放在数据库中;
步骤5,利用Canopy粗聚类算法与步骤4中词性的高维数据向量确定初始聚类簇数目K与中心节点集合Canopy;
步骤6,将步骤5中,中心节点集合Canopy为聚类的K个初始点;
步骤7,计算每个在步骤4中得出的的高维特征向量到K个中心点的欧氏距离;
步骤8,对步骤7中的欧式距离结果按照距离中心点最小距离原则对所有高维特征向量进行分簇;
步骤9,采用误差平方和目标函数对一个簇内所有节点求平均值C,C就为下次迭代时中心节点;
步骤10,重复步骤7,步骤8,步骤9直到中心节点位置收敛即可;
步骤11,依据聚类的K个类别将数据进行划分并标记Topic;
步骤12,将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并重新回送到输出序列中;
步骤13,对完成步骤12后的新的TopicBert进行NER任务的测试与运行,通过改进的TopicBert模型在处理NER任务上比原先的Bert模型的效率和准确性有明显的提升。
步骤4中,Bert模型的输出是一个与上下文相关的一个字向量矩阵,其中[CLS]为句子的开始表示符,用于对句子的进行分类与运行。
步骤5中,采取先进行粗聚类算法以确定一个聚类簇数K,并且初始节点的选取合理性决定了后面运算的效率,我们用Canopy来确定初始的中心节点;Canopy的两个阈值T1,T2。T1用于确定两个中心点之间距离,T2用于确认每个簇中的节点个数,两个阈值就能确定数据集中大概的分类个数与合理的起始点,便于提高效率。
步骤7中,计算欧式距离
Figure BDA0003093079340000041
得到了两个特征向量之间的相似度。
步骤8中,距离中心最小原则的目的就是得到和中心节点相关程度高的一系列节点,对其进行分类,形成一个Topic来代表这个簇中元素;
步骤9中,所述目标函数具体为
Figure BDA0003093079340000042
将寻找中心节点的问题化为一个多元线性规划问题,目的函数明确并且对SSE求偏导后发现中心节点就是一个簇中每个节点之和的平均值
Figure BDA0003093079340000043
C就为下次迭代时中心点。直到中心节点在迭代时收敛就能认为聚类已经结束。
步骤12中,由于[CLS]在每个句子的唯一性存在,将聚类产生的topic与Bert模型相结合可以大幅提高命名实体识别过程中的识别效率。
本发明的有益效果是:
本发明的目的是提供一种方法,对Bert训练后的结果结合机器学习的方法来改进Bert与NER任务的精确度。首先对Bert的结果提取其中的每个词的特征向量。首次迭代时,首先通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了认为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果的人为因素。通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,真正做到TopicBert的作用,并在运用训练后的参数进行NER或其他任务中提高准确率。
附图说明
图1为本发明一种基于机器学习与Bert模型结合的命名实体识别方法的总流程图;
图2为本发明一种基于机器学习与Bert模型结合的命名实体识别方法进行首次粗聚类时的Canopy算法流程图;
图3为本发明一种基于机器学习与Bert模型结合的命名实体识别方法Bert模型的训练过程流程图;
图4为本发明一种基于机器学习与Bert模型结合的命名实体识别方法与Topic相关的Bert模型结果集TopicBert的获得方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于聚类与预训练模型结合的命名实体识别方法,首先对Bert的结果提取其中的每个词的特征向量;在进行对特征向量的首次迭代时,通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了人为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果产生的影响;通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,从而得到一个结合了Topic类别标记的Bert训练模型,并在运用训练后的参数进行NER时中提高识别效率和准确性。
具体操作步骤如下:
步骤1,模型的预训练语义段落来源于中文Wikipedia数据库,先从中文Wikipedia数据库中爬取数据;
步骤2,对步骤1中的数据进行数据清洗,制作成训练可用的数据集保存在数据库中;
步骤3,配置Bert的模型参数包括初始学习率,隐藏层个数,自注意力头数,Encoder-Decoder层数,全连接层维度;
步骤4,调用步骤3中完成基本参数配置后的Bert模型,同时将步骤2中存储在数据库中的预训练数据集作为Bert模型的输入,运行Bert模型并在成功产生输出结果后保存Bert的结果中的高维特征向量的结果并将高维特征向量结果放在数据库中;
步骤5,利用Canopy粗聚类算法与步骤4中词性的高维数据向量确定初始聚类簇数目K与中心节点集合Canopy;
步骤6,将步骤5中,中心节点集合Canopy为聚类的K个初始点;
步骤7,计算每个在步骤4中得出的的高维特征向量到K个中心点的欧氏距离;
步骤8,对步骤7中的欧式距离结果按照距离中心点最小距离原则对所有高维特征向量进行分簇;
步骤9,采用误差平方和目标函数对一个簇内所有节点求平均值C,C就为下次迭代时中心节点;
步骤10,重复步骤7,步骤8,步骤9直到中心节点位置收敛即可;
步骤11,依据聚类的K个类别将数据进行划分并标记Topic;
步骤12,将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并得到新的TopicBert,重新回送到输出序列中;
步骤13,对完成步骤12后的新的TopicBert进行NER任务的测试与运行,通过改进的TopicBert模型在处理NER任务上比原先的Bert模型的效率和准确性有明显的提升。
步骤4中,Bert模型的输出是一个与上下文相关的一个字向量矩阵,其中[CLS]为句子的开始表示符,用于对句子的进行分类与运行。
步骤5中,采取先进行粗聚类算法以确定一个聚类簇数K,并且初始节点的选取合理性决定了后面运算的效率,我们用Canopy来确定初始的中心节点;Canopy的两个阈值T1,T2。T1用于确定两个中心点之间距离,T2用于确认每个簇中的节点个数,两个阈值就能确定数据集中大概的分类个数与合理的起始点,便于提高效率。
步骤7中,计算欧式距离
Figure BDA0003093079340000071
得到了两个特征向量之间的相似度。
步骤8中,距离中心最小原则的目的就是得到和中心节点相关程度高的一系列节点,对其进行分类,形成一个Topic来代表这个簇中元素;
步骤9中,所述目标函数具体为
Figure BDA0003093079340000081
将寻找中心节点的问题化为一个多元线性规划问题,目的函数明确并且对SSE求偏导后发现中心节点就是一个簇中每个节点之和的平均值
Figure BDA0003093079340000082
C就为下次迭代时中心点。直到中心节点在迭代时收敛就能认为聚类已经结束。
步骤12中,由于[CLS]在每个句子的唯一性存在,将聚类产生的topic与Bert模型相结合可以大幅提高命名实体识别过程中的识别效率。
如图1,发明一种基于机器学习与Bert模型结合的命名实体识别方法,用Canopy-Kmeans对数据特征向量进行聚类分组构建Topic标签,然后将Topic标签与Bert模型的结果最终层的[CLS]向量结合形成TopicBert以提高NER效率,具体包括以下步骤;
步骤1,利用Python网络爬虫或在现有数据集库中爬取或下载训练用数据集保存于1.txt中;
步骤2,利用Python和正则表达式对1.txt中的数据集进行处理去除掉多余干扰信息与错误数据集保存在2.txt;
步骤3,配置Bert的模型参数包括初始学习率,隐藏层个数,自注意力头数,Encoder-Decoder层数,全连接层维度;
步骤3的过程如图3,伪代码如下:
Figure BDA0003093079340000091
步骤4,Bert模型n层Encoder-Decoder编码解码器进行训练得到的输出是上下文相关的字词的特征向量,并将结果保存进数据库中;
步骤4的伪代码如下:
Figure BDA0003093079340000092
步骤5,从步骤4中的数据库将步骤4的特征向量结果取出保存进text.txt中,使用Canopy算法进行粗聚类,返回Canopy的中心点集保存在test1.txt中,如图2所示;
步骤5的过程如图2,伪代码如下:
Figure BDA0003093079340000101
步骤6,取步骤5中的中心点作为往后聚类的初始点,将中心节点的个数作为聚类的分类个数K;
步骤7,依据高维欧式距离的计算方法,计算每个特征向量到K个中心点的欧氏距离
Figure BDA0003093079340000111
步骤8,按照每个点到中心点的最小距离最小原则对当前所有节点进行分簇;
步骤9,
Figure BDA0003093079340000112
作为目标函数,并且对每个类别中所有节点求平均值
Figure BDA0003093079340000113
此时C(x,y)就作为下次迭代中心节点;
步骤10,重复步骤7,步骤8,步骤9直到中心点位置收敛即可认为聚类结束,并将聚类结果保存在3.txt中;
步骤11,依据聚类的K个类别将数据进行划分并标记Topic;
步骤12,将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并重新回送到输出序列中;
步骤12过程如图4,伪代码如下:
Figure BDA0003093079340000114
Figure BDA0003093079340000121
步骤13,对完成步骤12后的新的TopicBert进行NER等任务的测试与运行;
本发明提供一种对BERT训练结果的进行进一步提升的方法。通过将BERT模型中输入的每个字的Word Embedding提取出来,对其使用机器学习的Canopy-Kmeans并行聚类算法的方法对每个Embedding进行聚类分析。目的在于将散落在高维空间上的N个信息节点聚类生成指定个数K的簇的过程,返回的聚类簇标签与BERT的Final Layer的[CLS]相结合,以topic机制的方式提高BERT在训练的精度与NER任务的准确性,最后投入到NER相关的任务中。

Claims (8)

1.一种基于聚类与预训练模型结合的命名实体识别方法,其特征在于,首先对Bert的结果提取其中的每个词的特征向量;在进行对特征向量的首次迭代时,通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了人为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果产生的影响;通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,从而得到一个结合了Topic类别标记的Bert训练模型,并在运用训练后的参数进行NER时中提高识别效率和准确性。
2.具体操作步骤如下:
步骤1,模型的预训练语义段落来源于中文Wikipedia数据库,先从中文Wikipedia数据库中爬取数据;
步骤2,对步骤1中的数据进行数据清洗,制作成训练可用的数据集保存在数据库中;
步骤3,配置Bert的模型参数包括初始学习率,隐藏层个数,自注意力头数,Encoder-Decoder层数,全连接层维度;
步骤4,调用步骤3中完成基本参数配置后的Bert模型,同时将步骤2中存储在数据库中的预训练数据集作为Bert模型的输入,运行Bert模型并在成功产生输出结果后保存Bert的结果中的高维特征向量的结果并将高维特征向量结果放在数据库中;
步骤5,利用Canopy粗聚类算法与步骤4中词性的高维数据向量确定初始聚类簇数目K与中心节点集合Canopy;
步骤6,将步骤5中,中心节点集合Canopy为聚类的K个初始点;
步骤7,计算每个在步骤4中得出的的高维特征向量到K个中心点的欧氏距离;
步骤8,对步骤7中的欧式距离结果按照距离中心点最小距离原则对所有高维特征向量进行分簇;
步骤9,采用误差平方和目标函数对一个簇内所有节点求平均值C,C就为下次迭代时中心节点;
步骤10,重复步骤7,步骤8,步骤9直到中心节点位置收敛即可;
步骤11,依据聚类的K个类别将数据进行划分并标记Topic;
步骤12,将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并重新回送到输出序列中;
步骤13,对完成步骤12后的新的TopicBert进行NER任务的测试与运行,通过改进的TopicBert模型在处理NER任务上比原先的Bert模型的效率和准确性有明显的提升。
3.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤4中,Bert模型的输出是一个与上下文相关的一个字向量矩阵,其中[CLS]为句子的开始表示符,用于对句子的进行分类与运行。
4.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤5中,采取先进行粗聚类算法以确定一个聚类簇数K,并且初始节点的选取合理性决定了后面运算的效率,我们用Canopy来确定初始的中心节点;Canopy的两个阈值T1,T2。T1用于确定两个中心点之间距离,T2用于确认每个簇中的节点个数,两个阈值就能确定数据集中大概的分类个数与合理的起始点,便于提高效率。
5.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤7中,计算欧式距离
Figure FDA0003093079330000031
得到了两个特征向量之间的相似度。
6.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤8中,距离中心最小原则的目的就是得到和中心节点相关程度高的一系列节点,对其进行分类,形成一个Topic来代表这个簇中元素。
7.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤9中,所述目标函数具体为
Figure FDA0003093079330000032
将寻找中心节点的问题化为一个多元线性规划问题,目的函数明确并且对SSE求偏导后发现中心节点就是一个簇中每个节点之和的平均值
Figure FDA0003093079330000033
C就为下次迭代时中心点。直到中心节点在迭代时收敛就能认为聚类已经结束。
8.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于,所述步骤12中,由于[CLS]在每个句子的唯一性存在,将聚类产生的topic与Bert模型相结合可以大幅提高命名实体识别过程中的识别效率。
CN202110602241.3A 2021-05-31 2021-05-31 一种基于聚类与预训练模型结合的命名实体识别方法 Active CN113283242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110602241.3A CN113283242B (zh) 2021-05-31 2021-05-31 一种基于聚类与预训练模型结合的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110602241.3A CN113283242B (zh) 2021-05-31 2021-05-31 一种基于聚类与预训练模型结合的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN113283242A true CN113283242A (zh) 2021-08-20
CN113283242B CN113283242B (zh) 2024-04-26

Family

ID=77282853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110602241.3A Active CN113283242B (zh) 2021-05-31 2021-05-31 一种基于聚类与预训练模型结合的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113283242B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763590A (zh) * 2018-06-20 2018-11-06 合肥工业大学 一种基于双变加权核fcm算法的数据聚类方法
CN108898166A (zh) * 2018-06-13 2018-11-27 北京信息科技大学 一种图像标注方法
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110909548A (zh) * 2019-10-10 2020-03-24 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN111797898A (zh) * 2020-06-03 2020-10-20 武汉大学 一种基于深度语义匹配的在线评论自动回复方法
KR20210058059A (ko) * 2019-11-13 2021-05-24 주식회사 셀바스에이아이 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898166A (zh) * 2018-06-13 2018-11-27 北京信息科技大学 一种图像标注方法
CN108763590A (zh) * 2018-06-20 2018-11-06 合肥工业大学 一种基于双变加权核fcm算法的数据聚类方法
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110909548A (zh) * 2019-10-10 2020-03-24 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
KR20210058059A (ko) * 2019-11-13 2021-05-24 주식회사 셀바스에이아이 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스
CN111797898A (zh) * 2020-06-03 2020-10-20 武汉大学 一种基于深度语义匹配的在线评论自动回复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马孟铖;杨晴雯;艾斯卡尔・艾木都拉;吐尔地・托合提;: "基于词向量和条件随机场的中文命名实体分类", 计算机工程与设计, no. 09, 16 September 2020 (2020-09-16) *

Also Published As

Publication number Publication date
CN113283242B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN101561805B (zh) 文档分类器生成方法和系统
CN110110858B (zh) 一种基于强化学习的自动化机器学习方法
CN111597347B (zh) 知识嵌入的缺陷报告重构方法及装置
CN112215013B (zh) 一种基于深度学习的克隆代码语义检测方法
CN113190699A (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN103324954A (zh) 一种基于树结构的图像分类方法及其系统
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN115268719B (zh) 一种定位界面上目标元素的方法、介质及电子设备
CN110909785B (zh) 基于语义层级的多任务Triplet损失函数学习方法
CN116737967A (zh) 一种基于自然语言的知识图谱构建和完善系统及方法
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN114444571A (zh) 一种自主学习的声纳目标个体识别方法
CN115481844A (zh) 基于特征提取和改进的svr模型的配网物资需求预测系统
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN111597400A (zh) 基于寻路算法的计算机检索系统及方法
Lei et al. Coca: Cost-effective collaborative annotation system by combining experts and amateurs
CN115268867B (zh) 一种抽象语法树裁剪方法
CN113283242B (zh) 一种基于聚类与预训练模型结合的命名实体识别方法
Senthil et al. Efficient time series data classification using sliding window technique based improved association rule mining with enhanced support vector machine
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
Szymczak et al. Coreference detection in XML metadata

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant