CN113283242A - 一种基于聚类与预训练模型结合的命名实体识别方法 - Google Patents
一种基于聚类与预训练模型结合的命名实体识别方法 Download PDFInfo
- Publication number
- CN113283242A CN113283242A CN202110602241.3A CN202110602241A CN113283242A CN 113283242 A CN113283242 A CN 113283242A CN 202110602241 A CN202110602241 A CN 202110602241A CN 113283242 A CN113283242 A CN 113283242A
- Authority
- CN
- China
- Prior art keywords
- bert
- result
- model
- clustering
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 39
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010276 construction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于机器学习与Bert模型结合的命名实体识别方法对Bert训练后的结果结合机器学习的方法来改进Bert与NER任务的精确度。首先对Bert的结果提取其中的每个词的特征向量。首次迭代时,首先通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了认为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果的人为因素。通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,真正做到TopicBert的作用,并在运用训练后的参数进行NER或其他任务中提高效果。
Description
技术领域
本发明属于人工智能技术领域,涉及人工智能NLP方向,具体涉及一种基于聚类与预训练模型结合的命名实体识别方法,提高对知识图谱构建时数据收集的效率。
背景技术
随着信息科技的发展,互联网信息总量指数式翻增,传统信息量大而杂的现象已经难以处理,深度学习的重要领域自然语言处理可以为传统信息智能化提供好的思路。
网络化信息来源广泛,内容错综复杂,很难获取每个信息节点之间的关系,知识图谱的构建很大的解决的信息之间的关联性问题,通过图数据库展示每个信息节点之间的关系,让来源不同的信息不在孤立节点而是以二元组的形式体现出来。目前知识图谱在构建的构建分为知识抽取,知识融合,知识储存,知识推理。而对于知识抽取的过程中,命名实体识别为主要任务,命名实体识别的精度越高效率越好,对于后期的处理工作就更容易进行,并且还能简化清洗数据的过程,不但能让知识抽取效果更好,还能提高图谱的构建准确度。目前命名实体识别主要的模型就是BiLSTM-CRF和BERT-BiLSTM-CRF。但是这两种模型都不能自动的生成一个数据集对应的分类Topic,使其在对数据处理时无法有效的抓住更多的数据信息。本发明基于BERT结合Canopy-Kmeans并行聚类来提升BERT训练效果,从而更提高NER的精度。
发明内容
本发明旨在提供一种基于聚类与预训练模型结合的命名实体识别方法。采用topic机制的方式解决了现有技术中存在的BERT模型在训练的精度较低,在执行NER任务时准确性不高的问题。
本发明所采用的技术方案是,将机器学习的Canopy-Kmeans聚类算法与深度学习BERT的训练结果结合,通过Topic标签的方式来提高BERT在NER任务中的准确性。
一种基于聚类与预训练模型结合的命名实体识别方法,首先对Bert的结果提取其中的每个词的特征向量;在进行对特征向量的首次迭代时,通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了人为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果产生的影响;通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,从而得到一个结合了Topic类别标记的Bert训练模型,并在运用训练后的参数进行NER时中提高识别效率和准确性。
具体操作步骤如下:
步骤1,模型的预训练语义段落来源于中文Wikipedia数据库,先从中文Wikipedia数据库中爬取数据;
步骤2,对步骤1中的数据进行数据清洗,制作成训练可用的数据集保存在数据库中;
步骤3,配置Bert的模型参数包括初始学习率,隐藏层个数,自注意力头数,Encoder-Decoder层数,全连接层维度;
步骤4,调用步骤3中完成基本参数配置后的Bert模型,同时将步骤2中存储在数据库中的预训练数据集作为Bert模型的输入,运行Bert模型并在成功产生输出结果后保存Bert的结果中的高维特征向量的结果并将高维特征向量结果放在数据库中;
步骤5,利用Canopy粗聚类算法与步骤4中词性的高维数据向量确定初始聚类簇数目K与中心节点集合Canopy;
步骤6,将步骤5中,中心节点集合Canopy为聚类的K个初始点;
步骤7,计算每个在步骤4中得出的的高维特征向量到K个中心点的欧氏距离;
步骤8,对步骤7中的欧式距离结果按照距离中心点最小距离原则对所有高维特征向量进行分簇;
步骤9,采用误差平方和目标函数对一个簇内所有节点求平均值C,C就为下次迭代时中心节点;
步骤10,重复步骤7,步骤8,步骤9直到中心节点位置收敛即可;
步骤11,依据聚类的K个类别将数据进行划分并标记Topic;
步骤12,将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并重新回送到输出序列中;
步骤13,对完成步骤12后的新的TopicBert进行NER任务的测试与运行,通过改进的TopicBert模型在处理NER任务上比原先的Bert模型的效率和准确性有明显的提升。
步骤4中,Bert模型的输出是一个与上下文相关的一个字向量矩阵,其中[CLS]为句子的开始表示符,用于对句子的进行分类与运行。
步骤5中,采取先进行粗聚类算法以确定一个聚类簇数K,并且初始节点的选取合理性决定了后面运算的效率,我们用Canopy来确定初始的中心节点;Canopy的两个阈值T1,T2。T1用于确定两个中心点之间距离,T2用于确认每个簇中的节点个数,两个阈值就能确定数据集中大概的分类个数与合理的起始点,便于提高效率。
步骤8中,距离中心最小原则的目的就是得到和中心节点相关程度高的一系列节点,对其进行分类,形成一个Topic来代表这个簇中元素;
步骤9中,所述目标函数具体为将寻找中心节点的问题化为一个多元线性规划问题,目的函数明确并且对SSE求偏导后发现中心节点就是一个簇中每个节点之和的平均值C就为下次迭代时中心点。直到中心节点在迭代时收敛就能认为聚类已经结束。
步骤12中,由于[CLS]在每个句子的唯一性存在,将聚类产生的topic与Bert模型相结合可以大幅提高命名实体识别过程中的识别效率。
本发明的有益效果是:
本发明的目的是提供一种方法,对Bert训练后的结果结合机器学习的方法来改进Bert与NER任务的精确度。首先对Bert的结果提取其中的每个词的特征向量。首次迭代时,首先通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了认为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果的人为因素。通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,真正做到TopicBert的作用,并在运用训练后的参数进行NER或其他任务中提高准确率。
附图说明
图1为本发明一种基于机器学习与Bert模型结合的命名实体识别方法的总流程图;
图2为本发明一种基于机器学习与Bert模型结合的命名实体识别方法进行首次粗聚类时的Canopy算法流程图;
图3为本发明一种基于机器学习与Bert模型结合的命名实体识别方法Bert模型的训练过程流程图;
图4为本发明一种基于机器学习与Bert模型结合的命名实体识别方法与Topic相关的Bert模型结果集TopicBert的获得方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于聚类与预训练模型结合的命名实体识别方法,首先对Bert的结果提取其中的每个词的特征向量;在进行对特征向量的首次迭代时,通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了人为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果产生的影响;通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,从而得到一个结合了Topic类别标记的Bert训练模型,并在运用训练后的参数进行NER时中提高识别效率和准确性。
具体操作步骤如下:
步骤1,模型的预训练语义段落来源于中文Wikipedia数据库,先从中文Wikipedia数据库中爬取数据;
步骤2,对步骤1中的数据进行数据清洗,制作成训练可用的数据集保存在数据库中;
步骤3,配置Bert的模型参数包括初始学习率,隐藏层个数,自注意力头数,Encoder-Decoder层数,全连接层维度;
步骤4,调用步骤3中完成基本参数配置后的Bert模型,同时将步骤2中存储在数据库中的预训练数据集作为Bert模型的输入,运行Bert模型并在成功产生输出结果后保存Bert的结果中的高维特征向量的结果并将高维特征向量结果放在数据库中;
步骤5,利用Canopy粗聚类算法与步骤4中词性的高维数据向量确定初始聚类簇数目K与中心节点集合Canopy;
步骤6,将步骤5中,中心节点集合Canopy为聚类的K个初始点;
步骤7,计算每个在步骤4中得出的的高维特征向量到K个中心点的欧氏距离;
步骤8,对步骤7中的欧式距离结果按照距离中心点最小距离原则对所有高维特征向量进行分簇;
步骤9,采用误差平方和目标函数对一个簇内所有节点求平均值C,C就为下次迭代时中心节点;
步骤10,重复步骤7,步骤8,步骤9直到中心节点位置收敛即可;
步骤11,依据聚类的K个类别将数据进行划分并标记Topic;
步骤12,将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并得到新的TopicBert,重新回送到输出序列中;
步骤13,对完成步骤12后的新的TopicBert进行NER任务的测试与运行,通过改进的TopicBert模型在处理NER任务上比原先的Bert模型的效率和准确性有明显的提升。
步骤4中,Bert模型的输出是一个与上下文相关的一个字向量矩阵,其中[CLS]为句子的开始表示符,用于对句子的进行分类与运行。
步骤5中,采取先进行粗聚类算法以确定一个聚类簇数K,并且初始节点的选取合理性决定了后面运算的效率,我们用Canopy来确定初始的中心节点;Canopy的两个阈值T1,T2。T1用于确定两个中心点之间距离,T2用于确认每个簇中的节点个数,两个阈值就能确定数据集中大概的分类个数与合理的起始点,便于提高效率。
步骤8中,距离中心最小原则的目的就是得到和中心节点相关程度高的一系列节点,对其进行分类,形成一个Topic来代表这个簇中元素;
步骤9中,所述目标函数具体为将寻找中心节点的问题化为一个多元线性规划问题,目的函数明确并且对SSE求偏导后发现中心节点就是一个簇中每个节点之和的平均值C就为下次迭代时中心点。直到中心节点在迭代时收敛就能认为聚类已经结束。
步骤12中,由于[CLS]在每个句子的唯一性存在,将聚类产生的topic与Bert模型相结合可以大幅提高命名实体识别过程中的识别效率。
如图1,发明一种基于机器学习与Bert模型结合的命名实体识别方法,用Canopy-Kmeans对数据特征向量进行聚类分组构建Topic标签,然后将Topic标签与Bert模型的结果最终层的[CLS]向量结合形成TopicBert以提高NER效率,具体包括以下步骤;
步骤1,利用Python网络爬虫或在现有数据集库中爬取或下载训练用数据集保存于1.txt中;
步骤2,利用Python和正则表达式对1.txt中的数据集进行处理去除掉多余干扰信息与错误数据集保存在2.txt;
步骤3,配置Bert的模型参数包括初始学习率,隐藏层个数,自注意力头数,Encoder-Decoder层数,全连接层维度;
步骤3的过程如图3,伪代码如下:
步骤4,Bert模型n层Encoder-Decoder编码解码器进行训练得到的输出是上下文相关的字词的特征向量,并将结果保存进数据库中;
步骤4的伪代码如下:
步骤5,从步骤4中的数据库将步骤4的特征向量结果取出保存进text.txt中,使用Canopy算法进行粗聚类,返回Canopy的中心点集保存在test1.txt中,如图2所示;
步骤5的过程如图2,伪代码如下:
步骤6,取步骤5中的中心点作为往后聚类的初始点,将中心节点的个数作为聚类的分类个数K;
步骤8,按照每个点到中心点的最小距离最小原则对当前所有节点进行分簇;
步骤10,重复步骤7,步骤8,步骤9直到中心点位置收敛即可认为聚类结束,并将聚类结果保存在3.txt中;
步骤11,依据聚类的K个类别将数据进行划分并标记Topic;
步骤12,将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并重新回送到输出序列中;
步骤12过程如图4,伪代码如下:
步骤13,对完成步骤12后的新的TopicBert进行NER等任务的测试与运行;
本发明提供一种对BERT训练结果的进行进一步提升的方法。通过将BERT模型中输入的每个字的Word Embedding提取出来,对其使用机器学习的Canopy-Kmeans并行聚类算法的方法对每个Embedding进行聚类分析。目的在于将散落在高维空间上的N个信息节点聚类生成指定个数K的簇的过程,返回的聚类簇标签与BERT的Final Layer的[CLS]相结合,以topic机制的方式提高BERT在训练的精度与NER任务的准确性,最后投入到NER相关的任务中。
Claims (8)
1.一种基于聚类与预训练模型结合的命名实体识别方法,其特征在于,首先对Bert的结果提取其中的每个词的特征向量;在进行对特征向量的首次迭代时,通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了人为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果产生的影响;通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,从而得到一个结合了Topic类别标记的Bert训练模型,并在运用训练后的参数进行NER时中提高识别效率和准确性。
2.具体操作步骤如下:
步骤1,模型的预训练语义段落来源于中文Wikipedia数据库,先从中文Wikipedia数据库中爬取数据;
步骤2,对步骤1中的数据进行数据清洗,制作成训练可用的数据集保存在数据库中;
步骤3,配置Bert的模型参数包括初始学习率,隐藏层个数,自注意力头数,Encoder-Decoder层数,全连接层维度;
步骤4,调用步骤3中完成基本参数配置后的Bert模型,同时将步骤2中存储在数据库中的预训练数据集作为Bert模型的输入,运行Bert模型并在成功产生输出结果后保存Bert的结果中的高维特征向量的结果并将高维特征向量结果放在数据库中;
步骤5,利用Canopy粗聚类算法与步骤4中词性的高维数据向量确定初始聚类簇数目K与中心节点集合Canopy;
步骤6,将步骤5中,中心节点集合Canopy为聚类的K个初始点;
步骤7,计算每个在步骤4中得出的的高维特征向量到K个中心点的欧氏距离;
步骤8,对步骤7中的欧式距离结果按照距离中心点最小距离原则对所有高维特征向量进行分簇;
步骤9,采用误差平方和目标函数对一个簇内所有节点求平均值C,C就为下次迭代时中心节点;
步骤10,重复步骤7,步骤8,步骤9直到中心节点位置收敛即可;
步骤11,依据聚类的K个类别将数据进行划分并标记Topic;
步骤12,将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并重新回送到输出序列中;
步骤13,对完成步骤12后的新的TopicBert进行NER任务的测试与运行,通过改进的TopicBert模型在处理NER任务上比原先的Bert模型的效率和准确性有明显的提升。
3.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤4中,Bert模型的输出是一个与上下文相关的一个字向量矩阵,其中[CLS]为句子的开始表示符,用于对句子的进行分类与运行。
4.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤5中,采取先进行粗聚类算法以确定一个聚类簇数K,并且初始节点的选取合理性决定了后面运算的效率,我们用Canopy来确定初始的中心节点;Canopy的两个阈值T1,T2。T1用于确定两个中心点之间距离,T2用于确认每个簇中的节点个数,两个阈值就能确定数据集中大概的分类个数与合理的起始点,便于提高效率。
6.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤8中,距离中心最小原则的目的就是得到和中心节点相关程度高的一系列节点,对其进行分类,形成一个Topic来代表这个簇中元素。
8.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于,所述步骤12中,由于[CLS]在每个句子的唯一性存在,将聚类产生的topic与Bert模型相结合可以大幅提高命名实体识别过程中的识别效率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602241.3A CN113283242B (zh) | 2021-05-31 | 2021-05-31 | 一种基于聚类与预训练模型结合的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602241.3A CN113283242B (zh) | 2021-05-31 | 2021-05-31 | 一种基于聚类与预训练模型结合的命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283242A true CN113283242A (zh) | 2021-08-20 |
CN113283242B CN113283242B (zh) | 2024-04-26 |
Family
ID=77282853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110602241.3A Active CN113283242B (zh) | 2021-05-31 | 2021-05-31 | 一种基于聚类与预训练模型结合的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283242B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763590A (zh) * | 2018-06-20 | 2018-11-06 | 合肥工业大学 | 一种基于双变加权核fcm算法的数据聚类方法 |
CN108898166A (zh) * | 2018-06-13 | 2018-11-27 | 北京信息科技大学 | 一种图像标注方法 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN110909548A (zh) * | 2019-10-10 | 2020-03-24 | 平安科技(深圳)有限公司 | 中文命名实体识别方法、装置及计算机可读存储介质 |
CN111797898A (zh) * | 2020-06-03 | 2020-10-20 | 武汉大学 | 一种基于深度语义匹配的在线评论自动回复方法 |
KR20210058059A (ko) * | 2019-11-13 | 2021-05-24 | 주식회사 셀바스에이아이 | 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스 |
-
2021
- 2021-05-31 CN CN202110602241.3A patent/CN113283242B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108898166A (zh) * | 2018-06-13 | 2018-11-27 | 北京信息科技大学 | 一种图像标注方法 |
CN108763590A (zh) * | 2018-06-20 | 2018-11-06 | 合肥工业大学 | 一种基于双变加权核fcm算法的数据聚类方法 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN110909548A (zh) * | 2019-10-10 | 2020-03-24 | 平安科技(深圳)有限公司 | 中文命名实体识别方法、装置及计算机可读存储介质 |
KR20210058059A (ko) * | 2019-11-13 | 2021-05-24 | 주식회사 셀바스에이아이 | 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스 |
CN111797898A (zh) * | 2020-06-03 | 2020-10-20 | 武汉大学 | 一种基于深度语义匹配的在线评论自动回复方法 |
Non-Patent Citations (1)
Title |
---|
马孟铖;杨晴雯;艾斯卡尔・艾木都拉;吐尔地・托合提;: "基于词向量和条件随机场的中文命名实体分类", 计算机工程与设计, no. 09, 16 September 2020 (2020-09-16) * |
Also Published As
Publication number | Publication date |
---|---|
CN113283242B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101561805B (zh) | 文档分类器生成方法和系统 | |
CN110110858B (zh) | 一种基于强化学习的自动化机器学习方法 | |
CN111597347B (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
CN112215013B (zh) | 一种基于深度学习的克隆代码语义检测方法 | |
CN113190699A (zh) | 一种基于类别级语义哈希的遥感图像检索方法及装置 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN109829065B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN103324954A (zh) | 一种基于树结构的图像分类方法及其系统 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
CN115268719B (zh) | 一种定位界面上目标元素的方法、介质及电子设备 | |
CN110909785B (zh) | 基于语义层级的多任务Triplet损失函数学习方法 | |
CN116737967A (zh) | 一种基于自然语言的知识图谱构建和完善系统及方法 | |
CN110765781A (zh) | 一种领域术语语义知识库人机协同构建方法 | |
CN114444571A (zh) | 一种自主学习的声纳目标个体识别方法 | |
CN115481844A (zh) | 基于特征提取和改进的svr模型的配网物资需求预测系统 | |
CN117494760A (zh) | 一种基于超大规模语言模型的富语义标签数据增广方法 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN111597400A (zh) | 基于寻路算法的计算机检索系统及方法 | |
Lei et al. | Coca: Cost-effective collaborative annotation system by combining experts and amateurs | |
CN115268867B (zh) | 一种抽象语法树裁剪方法 | |
CN113283242B (zh) | 一种基于聚类与预训练模型结合的命名实体识别方法 | |
Senthil et al. | Efficient time series data classification using sliding window technique based improved association rule mining with enhanced support vector machine | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统 | |
Szymczak et al. | Coreference detection in XML metadata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |