CN108710894B - 一种基于聚类代表点的主动学习标注方法和装置 - Google Patents

一种基于聚类代表点的主动学习标注方法和装置 Download PDF

Info

Publication number
CN108710894B
CN108710894B CN201810343307.XA CN201810343307A CN108710894B CN 108710894 B CN108710894 B CN 108710894B CN 201810343307 A CN201810343307 A CN 201810343307A CN 108710894 B CN108710894 B CN 108710894B
Authority
CN
China
Prior art keywords
clustering
data
training
training data
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810343307.XA
Other languages
English (en)
Other versions
CN108710894A (zh
Inventor
孙朝旭
王宏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201810343307.XA priority Critical patent/CN108710894B/zh
Publication of CN108710894A publication Critical patent/CN108710894A/zh
Application granted granted Critical
Publication of CN108710894B publication Critical patent/CN108710894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于聚类代表点的主动学习标注方法和装置。该方法包括:1)对训练数据中的特征属性进行特征提取,得到特征向量;2)根据用户输入匹配相关训练数据;3)根据聚类代表点算法对匹配的相关训练数据的特征向量进行聚类,并提取聚类后形成的各个簇的代表点;4)计算簇间最短距离,并根据该最短距离对聚类后产生的簇建立最小支撑树,提取最小支撑树的代表点作为待标注数据移交给专家进行标注;5)将用户输入与专家的标注结果形成训练数据对,用训练数据对进行机器学习模型的训练;6)重复步骤2)‑5)以进行迭代训练,直到机器学习模型满足性能要求。本发明可有效地在保持模型精度的情况下减少数据标注量、加快模型训练速度。

Description

一种基于聚类代表点的主动学习标注方法和装置
技术领域
本发明属于机器学习领域,涉及一种基于聚类代表点的主动学习标注方法和装置。本发明结合主动学习和聚类代表点方法的优点,对机器学习标注问题进行优化。
背景技术
随着大数据时代的到来,如何使用机器学习方法更好地解决数据挖掘问题成为人工智能领域研究的重点。在一般情况下,机器学习算法的训练效果与准确性验证非常依赖于带有标签的数据样本。尤其是在使用一些搜索排序算法的时候,往往是训练样本规模越大,算法的效果就越好。然而标记数据的代价通常是很大的,一般需要领域内的专家来进行人工标注,需要花费大量的时间成本和极高的经济成本。而往往获取标记样本的代价远高于获取未标记样本的代价,在某些领域,例如生物医学领域、信息检测等这种代价显得更为昂贵。而且,如果训练样本的规模过于庞大,训练的时间花费也会比较多。
在机器学习领域中,根据对学习样本的处理方法不同,可以将机器学习分为被动学习和主动学习。传统的通过不断积累训练集的机器学习方式被称为被动学习,它属于一种静态的随机采样。被动学习忽略了模型本身也有跟环境交流获取数据的能力,通常需要大量的标记数据进行训练,而主动学习提出了一种新的思路。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度。主动学习正是利用了模型的这种能力,通过模拟人的学习过程,选择合适的样本加入训练集。不同于被动学习被动的接受知识,主动学习能够选择性地获取知识,并不断更新模型的表达。
主动学习的关键假设是如果模型能够从它学到的知识选择数据,那么它就可以利用少量的训练集获得更好的模型。目前,主动学习己经被大量应用到了信息检索、图像识别、语音识别、自然语言处理、文本分类等各种领域当中。相关研究表明,主动学习能够有效地提高机器学习算法性能。
发明内容
针对上述问题,本发明的主要目的在于提出一种基于聚类代表点的主动学习标注方法和装置,基于聚类代表点的方法主动选择数据进行标注,在保持模型精准度的同事可以大大减少数据标注量、加快模型训练速度。
本发明结合主动学习和聚类代表点方法的优点,对标注问题进行优化。本发明不仅适用于普遍的机器学习分类问题、还适用于搜索排序等多种问题,同时该方法还具有减少标注量、提高了机器学习算法的训练速度等优点。本发明不仅可以单独作为数据采样方法使用,还可以扩展为多种机器学习算法中的预训练部分,提高机器学习模型质量。
本发明采用的技术方案如下:
一种基于聚类代表点的主动学习标注方法,其步骤为:
1)对训练数据中的特征属性进行特征提取,然后对提取的特征进行归一化处理并转化成向量形式,得到特征向量;
2)根据用户输入匹配相关训练数据;
3)根据聚类代表点算法对匹配的相关训练数据的特征向量进行聚类,并提取聚类后形成的各个簇的代表点;
4)计算簇间最短距离,并根据该最短距离对聚类后产生的簇建立最小支撑树,提取最小支撑树的代表点作为待标注数据移交给专家进行标注;
5)将用户输入与专家的标注结果形成训练数据对,用训练数据对进行机器学习模型的训练;
6)重复步骤2)-5)以进行迭代训练,直到机器学习模型满足性能要求。
进一步的,重复步骤2)-5)建立测试数据集,该测试数据集不对机器学习模型参数进行更新,当机器学习模型在测试数据集表现良好及稳定后即可在实际生活中进行应用。
进一步的,步骤1)所述的特征属性包括离散值与连续值。对特征属性进行归一化处理保证归一化后的数据符合0到1区间,能够在提升模型的收敛速度的同时,提升模型的精度。
进一步的,离散值将按照独热编码(即One-Hot编码)处理。One-Hot编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的。One-Hot编码的优点主要有:解决了分类器不好处理属性数据的问题;在一定程度上也起到了扩充特征的作用。现有的多个编程语言都提供开源的One-Hot编码实现库,例如Python语言的scikit-learn库、pandas的get_dummies函数等。
进一步的,对特征属性为连续值的特征进行归一化处理,连续属性归一化的方法包括最小-最大标准化(Min-max normalization)、0-1标准化(0-1normalization)等现存方法,参考相关文献即可实现:Shalabi L A,Shaaban Z,Kasasbeh B.Data mining:apreprocessing engine[J].Journal of Computer Science,2006,2(9)。
进一步的,步骤2)中所述匹配根据实际情况有所不同。对于一般分类算法而言,在小数据情况下,优选的,直接采用全部数据作为训练数据;在大数据情况下,优选的,采用采样或分区等方法来选取训练数据。对于推荐、搜索排序等问题,优选的,采用根据用户输入来筛选数据的方案进行选取训练数据。步骤2)所述用户输入是指在搜索排序等问题中用户的查询语句或推荐算法中的用户偏好等。
进一步的,步骤3)所述聚类代表点算法属于层次聚类方法。层次聚类是一种自底向上的策略,首先将每个对象单独作为一个簇,然后依次逐步合并最相似以及次相似的原子簇为越来越大的簇,直到最终所有的对象都在一个簇中,或者某个终结条件被满足。本发明提出了改进的CURE(Clustering Using Representatives)聚类方法,该方法具体步骤为:
1)在开始时,每个点都是一个簇。根据文档数据集的特征建立K-维树(K-Dimensional,KD-Tree),并利用KD-Tree,根据归一化的向量,快速计算每个点v到其相邻最近点v’的距离d,将距离d存入最小堆H中,并更新最小堆H。
2)从当前最小堆H中提取最小的距离d,合并距离d对应的两个向量(两个点)以建立新的簇,如果这两个点分属于两个簇则合并这两个簇中的所有向量以建立新的簇。
3)计算新的簇的中心点,并提取距离中心点最远的C个点作为代表点,参数C值设定可根据实际问题在10~20中进行选择,并按照下面公式,利用收缩因子α对代表点进行收缩处理,代表点为p,中心点为meanpoint:
p=(p+α*(meanpoint–p)
4)将新的簇中的所有点从KD-Tree中删除,并将新计算出的代表点p插入KD-Tree。
5)重复以上1)-4)步直到簇的个数等于K或无法继续合并。
6)计算簇之间距离最近的代表点,并将这些代表点存入集合S。
进一步的,步骤(4)根据豪斯多夫距离(Hausdorff distance)计算簇间最短距离D:
Figure BDA0001631111720000031
其中,S1、S2表示相邻的两个簇,
Figure BDA0001631111720000032
表示两个簇之间最近的两个代表点。
进一步的,步骤4)所述最小支撑树也称作最小生成树,现有的构建最小生成树方法有Prim方法和Krusal方法,本发明采用Prim方法在计算簇间豪斯多夫距离后构建最小支撑树,并提取出组成最小支撑树的代表点点集作为待标注数据。
进一步的,将组成最小支撑树的代表点集提取出来,作为需要标注的数据提交给专家进行标注,专家需要根据原始查询条件以及查询语句对集合S中文档与查询语句的相关性进行排序。这样,专家需要标记的数据不再是所有文档数据库中的数据集,而是改进的CURE聚类方法处理后返回的数据集合。
进一步的,根据步骤5)中所述的过程通过专家标注后的代表点点集对机器学习模型进行多次训练,训练次数以及训练时间跟训练结果的精度相关,训练的终止条件为机器学习模型在测试数据集表现良好及稳定。
进一步的,将测试数据输入步骤5)训练得到的机器学习模型,即可得到测试数据的算法结果,根据测试结果可判断机器学习模型是否可用于实际应用中。
一种基于聚类代表点的主动学习标注装置,其包括:
特征提取模块,负责对训练数据中的特征属性进行特征提取,然后对提取的特征进行归一化处理并转化成向量形式,得到特征向量;
数据匹配模块,负责根据用户输入匹配相关训练数据;
聚类模块,负责根据聚类代表点算法对数据匹配模块匹配的相关训练数据的特征向量进行聚类,并提取聚类后形成的各个簇的代表点;
专家标注模块,负责计算簇间最短距离,并根据该最短距离对聚类后产生的簇建立最小支撑树,提取最小支撑树的代表点作为待标注数据移交给专家进行标注;
迭代训练模块,负责将用户输入与专家的标注结果形成训练数据对,用训练数据对进行机器学习模型的训练,通过迭代训练使机器学习模型满足性能要求。
本发明的有益效果是:
本发明提出的基于聚类代表点的主动学习标注方法不仅能够在保持模型结果精度稳定性的前提下提高模型的训练速度,而且对模型的标注问题进行优化。利用步骤(3)聚类后形成的各个簇的代表点代替原始的数据集,作为待标注数据,在步骤(4)中返回给专家进行标注,能够大大减少数据标注的工作量,对标注问题进行有效的优化。
附图说明
图1.搜索排序算法所需数据格式;
图2.主动学习方法概念图;
图3.采用本发明的主动学习算法训练学习排序算法的流程图;
图4.本发明与其他主动学习方法在二分类数据集上比较结果;
图5.本发明与其他主动学习方法在多分类数据集上比较结果。
具体实施方式
下面将结合实施例和附图,对本发明的技术方案进行清楚、完整地描述。本实施例的主动学习算法以学习排序算法为例进行具体实施描述(学习排序算法是本发明所述的机器学习模型中的一种)。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本实施例基于学习排序方法所需的数据格式。图中数据格式为label qid:id feaid:feavalue feaid:feavalue。其中,label表示样本与查询请求的相关程度,该值根据相关程度到底划分为从1到5的五个等级,qid表示查询序号,id表示一次查询中结果的顺序,feaid表示特征的序号,feavalue表示特征的值。每行表示一个样本,相同的查询请求的样本qid相同,图中范例就是两个对qid为“1”的查询,该数据格式可由搜索引擎日志转换形式导出,具体特征根据文档特征有所不同。
本实施例在已有相关数据的基础上,详细设计了主动学习的数据选择方法,图2是主动学习方法的概念图,详细选择的流程如图3所示。
步骤1:应用服务器首先获得训练数据。训练数据包含文档编号、文档特征、文档内容和多组用户查询语句。然后应用服务器对原始数据文件进行存储,并且重新归一化相关数据向量、将训练数据按照图1的形式重新组织。再相关训练数据向量与对应文档编号存储到数据库中保存。
步骤2:应用服务器对用户查询语句进行实时分词,并剔除停用词。应用服务器根据分词结果从训练数据中查询出相关文档,并根据文档编号调出相关文档数据向量。
步骤3:从整理后数据中获得数据向量集合,并且把向量集合输入聚类代表点算法中。先在数据向量集合中进行聚类,定义聚类数目K。通过聚类代表点算法将会获得筛选出的待标注数据向量。
步骤4:在步骤3获得待标注数据向量后,通过数据向量对应的文档编号从训练数据中调出相关文档内容,将相关文档列表、文档内容以及用户查询语句提交给领域专家进行初步标注,标注形式参考图1形式。
步骤5:通过步骤4获取到的标注好的数据,更新应用服务器中的学习排序算法参数。输入相关训练数据,通过应用服务器中学习排序算法进行迭代学习,并保存当前参数。
步骤6:重复以上2-4步,通过不同的查询语句以及不同排序结果建立训练数据集以及测试数据集,通过训练数据集对学习排序算法进行迭代训练以更新参数,通过测试数据集对学习排序算法效果进行测试。当学习排序算法在测试数据集效果表现良好及稳定后即可将学习排序算法应用在实际用户查询过程中。
本发明基于libact(Yang Y Y,Lee S C,Yuan C,et al.libact:Pool-basedActive Learning in Python[J].2017.暂无中文翻译)所发布的数据集以及相关主动学习方法进行对比试验,所采用的机器学习模型为支撑向量机模型(SVM)。如图4所示,可看出在二分类数据集下本发明的方法相较于不确定性采样方法(Uncertainty sampling)以及随机采样方法(Random)随着训练轮数增多模型误差减少的更快。如图5所示,可以看出在多分类数据集下本发明的方法相较于不确定性采样方法(Uncertainty sampling)、随机采样方法(Random)、委员会法(QUIRE)最大模型变化方法(MMC)、二分版本空间最小化方法(BinaryMinimization)也有显著效果。
本文所述主动学习标注方法还可以应用在一般的机器学习分类算法中。在网上公开的数据集中也都表现出良好的效果。使用者也可以根据实际问题采用其他参数或者距离计算方式以适应不同类型的数据。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (8)

1.一种基于聚类代表点的主动学习标注方法,其步骤包括:
1)应用服务器获得训练数据,对训练数据中的特征属性进行特征提取,对提取的特征进行归一化处理并转化成向量形式,得到特征向量;其中训练数据包含文档编号、文档特征、文档内容和多组用户查询语句;
2)应用服务器根据用户输入匹配相关训练数据,包括:应用服务器对用户查询语句进行实时分词,并剔除停用词;应用服务器根据分词结果从训练数据中查询出相关文档,并根据文档编号调出相关文档数据向量;
3)根据聚类代表点算法对匹配的相关训练数据的特征向量进行聚类,并提取聚类后形成的各个簇的代表点;
4)计算簇间最短距离,并根据该最短距离对聚类后产生的簇建立最小支撑树,提取最小支撑树的代表点作为待标注数据移交给专家进行标注;
5)将用户输入与专家的标注结果形成训练数据对,用训练数据对进行机器学习模型的训练;
6)重复步骤2)-5)以进行迭代训练,直到机器学习模型满足性能要求;
所述聚类代表点算法首先将每个对象单独作为一个簇,然后依次逐步合并最相似以及次相似的原子簇为越来越大的簇,直到最终所有的对象都在一个簇中,或者某个终结条件被满足;
所述聚类代表点算法为改进的CURE聚类方法,包括以下步骤:
1)在开始时,每个点都是一个簇;根据文档数据集的特征建立KD-Tree,并利用KD-Tree,根据归一化的向量,快速计算每个点v到其相邻最近点v’的距离d,将距离d存入最小堆H中,并更新最小堆H;
2)从当前最小堆H中提取最小的距离d,合并距离d对应的两个点以建立新的簇,如果这两个点分属于两个簇则合并这两个簇中的所有向量以建立新的簇;
3)计算新的簇的中心点,并提取距离中心点最远的C个点作为代表点,并按照下面公式,利用收缩因子α对代表点进行收缩处理,代表点为p,中心点为meanpoint:
p=(p+α*(meanpoint–p);
4)将新的簇中的所有点从KD-Tree中删除,并将新计算出的代表点p插入KD-Tree;
5)重复以上1)-4)步直到簇的个数等于K或无法继续合并;
6)计算簇之间距离最近的代表点,并将这些代表点存入集合S。
2.如权利要求1所述的方法,其特征在于,重复步骤2)-5)建立测试数据集,该测试数据集不对机器学习模型参数进行更新,当机器学习模型在测试数据集表现良好及稳定后即可在实际生活中进行应用。
3.如权利要求1所述的方法,其特征在于,所述的特征属性包括离散值与连续值;对特征属性进行归一化处理保证归一化后的数据符合0到1区间。
4.如权利要求3所述的方法,其特征在于,所述离散值采用独热编码进行归一化处理,所述连续值采用最小-最大标准化方法或0-1标准化方法进行归一化处理。
5.如权利要求1所述的方法,其特征在于,所述匹配根据实际情况有所不同:在小数据情况下,直接采用全部数据作为训练数据;在大数据情况下,采用采样或分区方法来选取训练数据;对于推荐、搜索排序问题,采用根据用户输入来筛选数据的方案进行训练数据的选取。
6.如权利要求1所述的方法,其特征在于,根据豪斯多夫距离计算簇间最短距离,采用Prim方法在计算簇间豪斯多夫距离后构建最小支撑树,并提取出组成最小支撑树的代表点点集作为待标注数据。
7.如权利要求1所述的方法,其特征在于,通过专家标注后的代表点点集对模型进行多次训练,训练次数以及训练时间跟训练结果的精度相关,训练的终止条件为机器学习模型在测试数据集表现良好及稳定。
8.一种采用权利要求1~7中任一权利要求所述方法的基于聚类代表点的主动学习标注装置,其特征在于,包括:
特征提取模块,负责对训练数据中的特征属性进行特征提取,然后对提取的特征进行归一化处理并转化成向量形式,得到特征向量;
数据匹配模块,根据用户输入匹配相关训练数据;
聚类模块,负责根据聚类代表点算法对数据匹配模块匹配的相关训练数据的特征向量进行聚类,并提取聚类后形成的各个簇的代表点;
专家标注模块,负责计算簇间最短距离,并根据该最短距离对聚类后产生的簇建立最小支撑树,提取最小支撑树的代表点作为待标注数据移交给专家进行标注;
迭代训练模块,负责将用户输入与专家的标注结果形成训练数据对,用训练数据对进行机器学习模型的训练,通过迭代训练使机器学习模型满足性能要求。
CN201810343307.XA 2018-04-17 2018-04-17 一种基于聚类代表点的主动学习标注方法和装置 Active CN108710894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810343307.XA CN108710894B (zh) 2018-04-17 2018-04-17 一种基于聚类代表点的主动学习标注方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810343307.XA CN108710894B (zh) 2018-04-17 2018-04-17 一种基于聚类代表点的主动学习标注方法和装置

Publications (2)

Publication Number Publication Date
CN108710894A CN108710894A (zh) 2018-10-26
CN108710894B true CN108710894B (zh) 2022-06-28

Family

ID=63867224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810343307.XA Active CN108710894B (zh) 2018-04-17 2018-04-17 一种基于聚类代表点的主动学习标注方法和装置

Country Status (1)

Country Link
CN (1) CN108710894B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934354A (zh) * 2019-03-12 2019-06-25 北京信息科技大学 基于主动学习的异常数据检测方法
CN110045371A (zh) * 2019-04-28 2019-07-23 软通智慧科技有限公司 一种鉴定方法、装置、设备及存储介质
CN111901282A (zh) * 2019-05-05 2020-11-06 四川大学 一种生成恶意代码流量行为检测结构的方法
US11409589B1 (en) 2019-10-23 2022-08-09 Relativity Oda Llc Methods and systems for determining stopping point
CN111062440B (zh) * 2019-12-18 2024-02-02 腾讯科技(深圳)有限公司 一种样本选择方法、装置、设备及存储介质
CN111178421B (zh) * 2019-12-25 2023-10-20 贝壳技术有限公司 检测用户状态的方法、装置、介质以及电子设备
CN111345779A (zh) * 2020-03-06 2020-06-30 重庆金山医疗技术研究院有限公司 生理数据特征值获取方法、分类器建立方法、分类方法、分类器及分类系统
CN111507480B (zh) * 2020-04-16 2023-06-20 光际科技(上海)有限公司 标注方法、装置、设备及存储介质
CN111597336B (zh) * 2020-05-14 2023-12-22 腾讯科技(深圳)有限公司 训练文本的处理方法、装置、电子设备及可读存储介质
US12039007B2 (en) * 2020-10-09 2024-07-16 GE Precision Healthcare LLC Systems and methods of automatic medical image labeling
CN115272870A (zh) * 2022-09-19 2022-11-01 北京数慧时空信息技术有限公司 基于地学信息和主动学习的遥感样本标注方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176701A (zh) * 2011-02-18 2011-09-07 哈尔滨工业大学 一种基于主动学习的网络数据异常检测方法
CN103400144A (zh) * 2013-07-17 2013-11-20 山东师范大学 一种基于k近邻的支持向量机主动学习的方法
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176701A (zh) * 2011-02-18 2011-09-07 哈尔滨工业大学 一种基于主动学习的网络数据异常检测方法
CN103400144A (zh) * 2013-07-17 2013-11-20 山东师范大学 一种基于k近邻的支持向量机主动学习的方法
CN103617429A (zh) * 2013-12-16 2014-03-05 苏州大学 一种主动学习分类方法和系统

Also Published As

Publication number Publication date
CN108710894A (zh) 2018-10-26

Similar Documents

Publication Publication Date Title
CN108710894B (zh) 一种基于聚类代表点的主动学习标注方法和装置
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN109446332B (zh) 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN110264372B (zh) 一种基于节点表示的主题社团发现方法
CN112347284A (zh) 一种组合商标图像检索方法
CN112883722B (zh) 一种基于云数据中心分布式文本摘要方法
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN111858896A (zh) 一种基于深度学习的知识库问答方法
CN113486670A (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN118227790A (zh) 基于多标签关联的文本分类方法、系统、设备及介质
CN107622047B (zh) 一种设计决策知识的提取和表达方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN115563311B (zh) 一种文档标注和知识库管理方法及知识库管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant