CN101872343A - 半监督式的海量数据层次分类方法 - Google Patents

半监督式的海量数据层次分类方法 Download PDF

Info

Publication number
CN101872343A
CN101872343A CN200910030588A CN200910030588A CN101872343A CN 101872343 A CN101872343 A CN 101872343A CN 200910030588 A CN200910030588 A CN 200910030588A CN 200910030588 A CN200910030588 A CN 200910030588A CN 101872343 A CN101872343 A CN 101872343A
Authority
CN
China
Prior art keywords
node
training set
training
webpage
mass data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910030588A
Other languages
English (en)
Inventor
罗彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN200910030588A priority Critical patent/CN101872343A/zh
Publication of CN101872343A publication Critical patent/CN101872343A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

针对海量数据层次分类器人工标注时间多、花费大的问题,本发明提出一种半监督式的海量数据层次分类方法,包括以下步骤:对网页库中的网页进行特征提取;在已有的层次分类本体库上,利用规则集和扩展规则来自动产生叶节点的训练集;对已有的各个叶节点的网页进行聚类,在聚类的基础上对未标注集进行分类,并把未标注集中与训练集相似的例子加入相应叶节点的训练集,从而扩大了训练集的规模;使用随机梯度下降的方法来对各个节点的正则线性分类器进行训练;如果分类器的结果满足停止条件,则停止,否则进行至步骤F;用通过步骤C,D建立的层次分类器来对未标注进行分类;并且把具有高信心度分类的网页加入训练集;返回步骤C,重复步骤C-F。

Description

半监督式的海量数据层次分类方法
技术领域
本发明涉及数据挖掘,机器学习和自然语言处理领域,是一种对海量文本数据的半监督层次分类方法,即一种半监督式的海量数据层次分类方法。
背景技术
随着我们进入信息爆炸的时代,互联网为人们提供了大量知识和内容,网上的知识对人们的衣食住行提供了极大的帮助。Google,百度,搜狗和有道等网站提供了中文搜索的业务,人们可以通过对关键词检索来找到相关信息的网页。然而,基于关键词的检索经常无法提供人们所需求的网页,用户需要自己浏览大量的搜索结果最终找到需要的网页。所以,基于语义的搜索引擎最近引起了人们的极大兴趣并成为行业的热点。语义搜索通过对网页内容的概念和概念间的关系提取,层次分类和情感分析来准确的理解挖掘网页内容的含义,从而方便人们对内容的查找。
海量文本的层次分类是语义分析和搜索的一个重要环节,对网页准确的层次分类能够帮助对网页整体内容的语义理解。图1是一个网页层次类别的例子,每一个节点代表一个类别,父子节点之间是相互包含或从属的关系。例如节点“机器学习”是“人工智能”的一个子节点,节点“人工智能”是“计算机”的一个子节点,而节点“计算机”是根节点的一个子节点。
然而目前应用的层次分类器具有如下缺陷:
1.当层级结构庞大的时候,需要大量的人工标注来为分类器提供训练集,以达到所需要的分类精度,而这个人工标注所需的时间和花费都是很大的。
2.高精度的文本分类器(正则化的线性分类器,包括支持矢量机)的训练需要大量的运行时间,无法对海量文本数据建立分类模型。
发明内容
为解决以上的问题,本发明提出一种半监督式的海量数据层次分类方法(半监督的海量层次分类器),用来减少人工标注量;并且能够解决在海量数据下使用高精度分类器进行建模。
针对现有研究和应用中所存在的问题,本发明使用了半监督的学习方法(semi-supervisedlearning)来减少人工标注训练集的工作量,同时提出了随机渐进式地方法来训练正则线性分类器,使分类器能够利用海量文本数据来训练并产生高精度的分类模型。
本发明的基本思路是对层级结构中每一个节点(非根节点)建立一个分类器来对流经其父节点的网页分类至其子节点;我们在各节点选用高准确度的正则线性分类器来提高分类效果;在训练过程中我们使用随机梯度下降(Stochastic gradient decent)的方法来对海量训练集进行多次遍历,将计算复杂度降低到O(N),从而解决了大规模数据集的训练问题。该层次分类器的分类步骤如下:
A、对网页库中的网页进行特征提取;
B、在已有的层次分类本体库上,利用规则集和扩展规则来自动产生叶节点的训练集;
C、对已有的各个叶节点的网页进行聚类,在聚类的基础上对未标注集进行分类,并把未标注集中与训练集相似的例子加入相应叶节点的训练集,从而扩大了训练集的规模;
D、使用随机梯度下降的方法来对各个节点的正则线性分类器进行训练;
E、如果分类器的结果满足停止条件,则停止,否则进行至步骤F;
F、用通过步骤C,D建立的层次分类器来对未标注进行分类;并且把具有高信心度分类的网页加入训练集;
G.返回步骤C,重复步骤C-F。
步骤C中对叶节点内的网页聚类产生虚拟的子叶节点,并使用虚拟子叶节点来构造中心分类器,对未标注集的网页分类,从而扩大训练集。步骤D中使用随机梯度下降的方法来对每个节点的正则线性分类器进行训练,从而将训练的计算复杂度下降到线性。步骤F中把具有很高信心的分类结果加入训练集,从而帮助扩展训练集,提高分类器的准确率。
下面详细说明各步骤。
步骤A是对所有网页集进行特征提取,把网页的文本转化成一个特征矢量。其具体过程包括对网页或文本的内容提取,分词,计算词频,词性标注,词语过滤(过滤高频,低频和垃圾词),建立词表,以词语为坐标把每个网页映射成为各个特征向量,之后使用tf-idf或者其他的一些权重计算方法对特征向量进行转化。
步骤B假设我们已经拥有一个概括多层级概念关系的层级结构或本体库。该层级结构图可用于用户自己构建的领域分类,或者yahoo的open directory,DMOZ的层级结构。假设该层级结构图中的叶节点名称有较好的描述性,我们可以使用规则集来自动产生与各叶节点类别相对应的初始标注集。例如节点K“机器学习”,我们可以使用如下规则集进行分类:
如果该页面对应的链接锚文本含有词语“机器学习”或“机器学习”的同义词,那么这个网页属于节点K;
如果页面主题(title)含有词语“机器学习”或“机器学习”的同义词,那么这个网页属于节点K;
这些关键词的同义词可以来自语料库,如英文的WordNet,中文WordNet,知网;也可以来源于对搜索引擎的查询日志分析;也可以来源于对于各叶节点的类别与关键词的关联关系。这样,我们通过这些规则集把一部分网页分类到各个叶节点,构成初始训练集。
步骤C首先对每个叶节点内的网页进行聚类,可以使用任何运行速度较快的聚类算法,例如k-means聚类方法。其目的是把各叶节点中松散关系的网页分配到概念紧密的子类中,帮助下一步使用中心分类器(Centroid classifier),并对未标注集进行分类。当训练集中的网页都在概念紧密的子类之中,我们使用各子类中的网页来构造中心分类器,并对未标注集进行分类。这样,各叶节点下的训练集网页数目得到大大的增加。
步骤D使用随机渐进式的训练方法来对正则线性分类器进行学习。一般的正则线性分类器是优化目标函数E(x,y),其中L(y,<w,x>)可以使用不同的方程来定义错误函数,λ是正则因子,用来防止过度训练(overfitting)的。
E ( x , y ) = 1 N &Sigma; i = 1 N L ( y i , < w , x i > ) + &lambda;&Lambda; ( w )
支持向量机是正则线性分类器的典型例子,模型的训练要通过Quadratic programming或者SMO(Sequential minimal optimization)来完成,训练的算法复杂度是在O(N2)和O(N3)之间,N是训练集中标注例子的数目。因此在海量数据的情况下,使用支持向量机是无法完成训练过程的。为了解决这个问题,我们使用了随机梯度下降的方法来进行训练,这样通过多次遍历训练集和使用随机梯度下降方法,优化函数E(x,y)达到收敛。为了进一步提高收敛速度,我们还可以选择将正则因子置零,而使用在校验数据集上的早停止(early stop)的方法来防止过度训练。
步骤E的停止条件一般可选择:
Ⅰ.在有校验集的情况下,可参考校验集的准确率,以连续几个遍历中准确率没有上升作为停止条件;
Ⅱ.在没有校验集且正则因子不为零的情况下,可以根据E(x,y)在连续几个遍历中无显著变化作为停止条件;
Ⅲ.当遍历训练集的次数达到一定数目的时候。
一般在数据量很大的情况,遍历几次即可停止。
步骤F利用建好的层次分类器对所有未标注数据进行分类,同时将分类信心度高的例子加入训练集。
附图说明
图1为多层级概念关系的示意图
图2是本发明的半监督层次分类流程图
具体实施方式
一种半监督式的海量数据层次分类方法,使用半监督的学习方法(semi-supervised learning)来减少人工标注训练集的工作量,同时提出了随机渐进式地方法来训练正则线性分类器,使分类器能够利用海量文本数据来训练并产生高精度的分类模型。
本发明的基本思路是对层级结构中每一个节点(非根节点)建立一个分类器来对流经其父节点的网页分类至其子节点;我们在各节点选用高准确度的正则线性分类器来提高分类效果;在训练过程中我们使用随机梯度下降(Stochastic gradient decent)的方法来对海量训练集进行多次遍历,将计算复杂度降低到O(N),从而解决了大规模数据集的训练问题。该层次分类器的分类步骤如下:
A、对网页库中的网页进行特征提取;
B、在已有的层次分类本体库上,利用规则集和扩展规则来自动产生叶节点的训练集;
C、对已有的各个叶节点的网页进行聚类,在聚类的基础上对未标注集进行分类,并把未标注集中与训练集相似的例子加入相应叶节点的训练集,从而扩大了训练集的规模;
D、使用随机梯度下降的方法来对各个节点的正则线性分类器进行训练;
E、如果分类器的结果满足停止条件,则停止,否则进行至步骤F;
F、用通过步骤C,D建立的层次分类器来对未标注进行分类;并且把具有高信心度分类的网页加入训练集;
G.返回步骤C,重复步骤C-F。
步骤C中对叶节点内的网页聚类产生虚拟的子叶节点,并使用虚拟子叶节点来构造中心分类器,对未标注集的网页分类,从而扩大训练集。步骤D中使用随机梯度下降的方法来对每个节点的正则线性分类器进行训练,从而将训练的计算复杂度下降到线性。步骤F中把具有很高信心的分类结果加入训练集,从而帮助扩展训练集,提高分类器的准确率。
下面详细说明各步骤。
步骤A是对所有网页集进行特征提取,把网页的文本转化成一个特征矢量。其具体过程包括对网页或文本的内容提取,分词,计算词频,词性标注,词语过滤(过滤高频,低频和垃圾词),建立词表,以词语为坐标把每个网页映射成为各个特征向量,之后使用tf-idf或者其他的一些权重计算方法对特征向量进行转化。
步骤B假设我们已经拥有一个概括多层级概念关系的层级结构或本体库。该层级结构图可用于用户自己构建的领域分类,或者yahoo的open directory,DMOZ的层级结构。假设该层级结构图中的叶节点名称有较好的描述性,我们可以使用规则集来自动产生与各叶节点类别相对应的初始标注集。例如节点K“机器学习”,我们可以使用如下规则集进行分类:
如果该页面对应的链接锚文本含有词语“机器学习”或“机器学习”的同义词,那么这个网页属于节点K;
如果页面主题(title)含有词语“机器学习”或“机器学习”的同义词,那么这个网页属于节点K;
这些关键词的同义词可以来自语料库,如英文的WordNet,中文WordNet,知网;也可以来源于对搜索引擎的查询日志分析;也可以来源于对于各叶节点的类别与关键词的关联关系。这样,我们通过这些规则集把一部分网页分类到各个叶节点,构成初始训练集。
步骤C首先对每个叶节点内的网页进行聚类,可以使用任何运行速度较快的聚类算法,例如k-means聚类方法。其目的是把各叶节点中松散关系的网页分配到概念紧密的子类中,帮助下一步使用中心分类器(Centroid classifier),并对未标注集进行分类。当训练集中的网页都在概念紧密的子类之中,我们使用各子类中的网页来构造中心分类器,并对未标注集进行分类。这样,各叶节点下的训练集网页数目得到大大的增加。
步骤D使用随机渐进式的训练方法来对正则线性分类器进行学习。一般的正则线性分类器是优化目标函数E(x,y),其中L(y,<w,x>)可以使用不同的方程来定义错误函数,λ是正则因子,用来防止过度训练(overfitting)的。
E ( x , y ) = 1 N &Sigma; i = 1 N L ( y i , < w , x i > ) + &lambda;&Lambda; ( w )
支持向量机是正则线性分类器的典型例子,模型的训练要通过Quadratic programming或者SMO(Sequential minimal optimization)来完成,训练的算法复杂度是在O(N2)和O(N3)之间,N是训练集中标注例子的数目。因此在海量数据的情况下,使用支持向量机是无法完成训练过程的。为了解决这个问题,我们使用了随机梯度下降的方法来进行训练,这样通过多次遍历训练集和使用随机梯度下降方法,优化函数E(x,y)达到收敛。为了进一步提高收敛速度,我们还可以选择将正则因子置零,而使用在校验数据集上的早停止(early stop)的方法来防止过度训练。
步骤E的停止条件一般可选择:
Ⅰ.在有校验集的情况下,可参考校验集的准确率,以连续几个遍历中准确率没有上升作为停止条件;
Ⅱ.在没有校验集且正则因子不为零的情况下,可以根据E(x,y)在连续几个遍历中无显著变化作为停止条件;
Ⅲ.当遍历训练集的次数达到一定数目的时候。
一般在数据量很大的情况,遍历几次即可停止。
步骤F利用建好的层次分类器对所有未标注数据进行分类,同时将分类信心度高的例子加入训练集。
下面结合图2来说明半监督式的海量数据层次分类过程。
步骤S1使用叶节点名称的同义词和近义词而产生的规则集,把一些网页分类到各叶节点中。
步骤S2使用k-means或者其他的快速聚类器,把每个叶节点下的网页在进行聚类,产生虚拟的子叶节点。
步骤S3计算虚拟的子叶节点中网页的中心矢量(centroid)d,并且使用最近距离的方法来对未标注网页进行分类。如果以下表达式为真,即xi(网页i的特征矢量)与d的相似度大于阈值f,则我们认为xi属于该子叶节点所对应的叶节点。
(xi,d)>f
步骤S4使用随机梯度下降的方法来对训练集进行多次遍历,训练新的层次分类器。假设E(x,y)是前面提到的正则分类器的优化函数
E ( x , y ) = 1 N &Sigma; i = 1 N L ( y i , < w , x i > ) + &lambda;&Lambda; ( w )
随机梯度下降是通过训练集中每一个网页矢量xi的优化函数的相对w的梯度方向来进行权重更新。其中α是步长。在初始训练时,我们使用较大的步长来增加收敛速度;而在训练临近结束时,我们使用较小的步长来找到最优点。我们经常对α进行指数级的衰减来实现这一目的。
w &LeftArrow; w + &alpha; &dtri; w E ( x i , y )
步骤S5判断是否停止对节点的训练。这里如果某一节点满足停止条件,则停止对该节点的训练,其他节点的训练继续进行。只有当所有节点都满足停止条件时,我们才会停止对整个层次分类器的训练。
步骤S6使用S4步骤产生的层次分类器来对未标注集进行分类。(wk,bk)代表第k个节点分类器,bk是分类器的阈值。当oki>0,网页xi属于k节点。
oki=<wk,xi>+bk

Claims (5)

1.一种海量数据的半监督的分类方法,其特征在于混合使用监督和无监督的机器学习方法来减少对人工标注的依赖,使用随机梯度下降方法来训练海量数据的正则线性分类器,其训练过程包括如下步骤:
A、对网页库中的网页进行特征提取;
B、在已有的层次分类本体库上,利用规则集和扩展规则来自动产生叶节点的训练集;
C、对已有的各个叶节点的网页进行聚类,在聚类的基础上对未标注集进行分类,并把未标注集中与训练集相似的例子加入相应叶节点的训练集,从而扩大了训练集的规模;
D、使用随机梯度下降的方法来对各个节点的正则线性分类器进行训练;
E、如果分类器的结果满足停止条件,则停止,否则进行至步骤F;
F、用通过步骤C,D建立的层次分类器来对未标注进行分类;并且把具有高信心度分类的网页加入训练集;
2.根据权利要求1所述的海量数据的半监督的分类方法,其特征在于步骤B中使用叶节点名称的同义词或者近义词生成规则集,利用规则集把网页分类到各个叶节点。
3.根据权利要求1所述的海量数据的半监督的分类方法,其特征在于步骤C中对叶节点内的网页聚类产生虚拟的子叶节点,并使用虚拟子叶节点来构造中心分类器,对未标注集的网页分类,从而扩大训练集。
4.根据权利要求1所述的海量数据的半监督的分类方法,其特征在于步骤D中使用随机梯度下降的方法来对每个节点的正则线性分类器进行训练,从而将训练的计算复杂度下降到线性。
5.根据权利要求1所述的海量数据的半监督的分类方法,其特征在于步骤F中把具有很高信心的分类结果加入训练集,从而帮助扩展训练集,提高分类器的准确率。
CN200910030588A 2009-04-24 2009-04-24 半监督式的海量数据层次分类方法 Pending CN101872343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910030588A CN101872343A (zh) 2009-04-24 2009-04-24 半监督式的海量数据层次分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910030588A CN101872343A (zh) 2009-04-24 2009-04-24 半监督式的海量数据层次分类方法

Publications (1)

Publication Number Publication Date
CN101872343A true CN101872343A (zh) 2010-10-27

Family

ID=42997208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910030588A Pending CN101872343A (zh) 2009-04-24 2009-04-24 半监督式的海量数据层次分类方法

Country Status (1)

Country Link
CN (1) CN101872343A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064855A (zh) * 2011-10-21 2013-04-24 铭传大学 分类文件的方法及系统
CN103116893A (zh) * 2013-03-15 2013-05-22 南京大学 基于多示例多标记学习的数字图像标注方法
CN103268346A (zh) * 2013-05-27 2013-08-28 翁时锋 半监督分类方法及系统
CN104598565A (zh) * 2015-01-09 2015-05-06 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN105354186A (zh) * 2015-11-05 2016-02-24 同济大学 一种新闻事件抽取方法及系统
CN106022356A (zh) * 2016-05-11 2016-10-12 华东师范大学 一种基于梯度下降法的多视图gepsvm网页分类算法
CN106663169A (zh) * 2015-07-24 2017-05-10 策安保安有限公司 使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法
CN108460499A (zh) * 2018-04-02 2018-08-28 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN109871401A (zh) * 2018-12-26 2019-06-11 北京奇安信科技有限公司 一种时间序列异常检测方法及装置
CN110717036A (zh) * 2018-07-11 2020-01-21 阿里巴巴集团控股有限公司 一种统一资源定位符的去重方法、装置及电子设备
CN110826101A (zh) * 2019-11-05 2020-02-21 安徽数据堂科技有限公司 用于企业的私有化部署数据处理方法
WO2020207179A1 (zh) * 2019-04-09 2020-10-15 山东科技大学 一种从视频字幕中提取概念词的方法
CN113434675A (zh) * 2021-06-25 2021-09-24 竹间智能科技(上海)有限公司 一种标签修正的方法及系统

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064855A (zh) * 2011-10-21 2013-04-24 铭传大学 分类文件的方法及系统
CN103064855B (zh) * 2011-10-21 2016-01-27 铭传大学 分类文件的方法及系统
CN103116893A (zh) * 2013-03-15 2013-05-22 南京大学 基于多示例多标记学习的数字图像标注方法
CN103116893B (zh) * 2013-03-15 2015-07-01 南京大学 基于多示例多标记学习的数字图像标注方法
CN103268346B (zh) * 2013-05-27 2016-08-10 翁时锋 半监督分类方法及系统
CN103268346A (zh) * 2013-05-27 2013-08-28 翁时锋 半监督分类方法及系统
CN104598565B (zh) * 2015-01-09 2018-08-14 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN104598565A (zh) * 2015-01-09 2015-05-06 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN106663169B (zh) * 2015-07-24 2021-03-09 策安保安有限公司 使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法
CN106663169A (zh) * 2015-07-24 2017-05-10 策安保安有限公司 使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法
CN105354186A (zh) * 2015-11-05 2016-02-24 同济大学 一种新闻事件抽取方法及系统
CN106022356A (zh) * 2016-05-11 2016-10-12 华东师范大学 一种基于梯度下降法的多视图gepsvm网页分类算法
CN106022356B (zh) * 2016-05-11 2019-07-26 华东师范大学 一种基于梯度下降法的多视图gepsvm网页分类方法
CN108460499A (zh) * 2018-04-02 2018-08-28 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN108460499B (zh) * 2018-04-02 2022-03-08 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN110717036B (zh) * 2018-07-11 2023-11-10 阿里巴巴集团控股有限公司 一种统一资源定位符的去重方法、装置及电子设备
CN110717036A (zh) * 2018-07-11 2020-01-21 阿里巴巴集团控股有限公司 一种统一资源定位符的去重方法、装置及电子设备
CN109871401B (zh) * 2018-12-26 2021-05-25 北京奇安信科技有限公司 一种时间序列异常检测方法及装置
CN109871401A (zh) * 2018-12-26 2019-06-11 北京奇安信科技有限公司 一种时间序列异常检测方法及装置
WO2020207179A1 (zh) * 2019-04-09 2020-10-15 山东科技大学 一种从视频字幕中提取概念词的方法
CN110826101B (zh) * 2019-11-05 2021-01-05 安徽数据堂科技有限公司 用于企业的私有化部署数据处理方法
CN110826101A (zh) * 2019-11-05 2020-02-21 安徽数据堂科技有限公司 用于企业的私有化部署数据处理方法
CN113434675A (zh) * 2021-06-25 2021-09-24 竹间智能科技(上海)有限公司 一种标签修正的方法及系统

Similar Documents

Publication Publication Date Title
CN101872343A (zh) 半监督式的海量数据层次分类方法
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN102902806B (zh) 一种利用搜索引擎进行查询扩展的方法及系统
US7827125B1 (en) Learning based on feedback for contextual personalized information retrieval
CN103605729B (zh) 一种基于局部随机词汇密度模型poi中文文本分类的方法
CN106649272B (zh) 一种基于混合模型的命名实体识别方法
CN105005589A (zh) 一种文本分类的方法和装置
CN105512209A (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN103235772A (zh) 一种文本集人物关系自动提取方法
CN110309268A (zh) 一种基于概念图的跨语言信息检索方法
CN101609450A (zh) 基于训练集的网页分类方法
CN111931506A (zh) 一种基于图信息增强的实体关系抽取方法
CN109271640B (zh) 文本信息的地域属性识别方法及装置、电子设备
CN108710663A (zh) 一种基于本体模型的数据匹配方法及系统
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN109345007A (zh) 一种基于XGBoost特征选择的有利储层发育区预测方法
Hashida et al. Classifying sightseeing tweets using convolutional neural networks with multi-channel distributed representation
CN107180026A (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN106126605A (zh) 一种基于用户画像的短文本分类方法
CN107292348A (zh) 一种Bagging_BSJ短文本分类方法
CN110111143A (zh) 一种建立移动端用户画像的控制方法以及控制装置
Zhou et al. [Retracted] TextRank Keyword Extraction Algorithm Using Word Vector Clustering Based on Rough Data‐Deduction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Luo Tong

Document name: Notification of Decision on Request for Restoration of Right

DD01 Delivery of document by public notice

Addressee: Luo Tong

Document name: Notification to Go Through Formalities of Registration

DD01 Delivery of document by public notice

Addressee: Luo Tong

Document name: Notification that Entitlement to Patent Deemed Abandoned

AD01 Patent right deemed abandoned

Effective date of abandoning: 20101027

C20 Patent right or utility model deemed to be abandoned or is abandoned