CN110059181A - 面向大规模分类体系的短文本标签方法、系统、装置 - Google Patents
面向大规模分类体系的短文本标签方法、系统、装置 Download PDFInfo
- Publication number
- CN110059181A CN110059181A CN201910202727.0A CN201910202727A CN110059181A CN 110059181 A CN110059181 A CN 110059181A CN 201910202727 A CN201910202727 A CN 201910202727A CN 110059181 A CN110059181 A CN 110059181A
- Authority
- CN
- China
- Prior art keywords
- short text
- classification
- information set
- text information
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 131
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 238000005516 engineering process Methods 0.000 claims abstract description 26
- 238000011430 maximum method Methods 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 230000005540 biological transmission Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000013135 deep learning Methods 0.000 claims description 9
- 239000010813 municipal solid waste Substances 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。
Description
技术领域
本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置。
背景技术
随着互联网官方媒体以及微信公众号自媒体、微博、贴吧等新型互联平台的广泛使用,针对这些平台上发布的短文本的自动化标签系统具有重要的意义。随着文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。短文本的自动化标签作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便准确地定位所需的信息和分流信息。作为信息过滤、信息检索、搜索引擎、文本数据库等领域的技术基础,短文本的自动化标签技术有着广泛的应用前景。面向大规模分类体系的短文本标签系统可以帮助有关部门有效掌握互联网内容的发展趋势,有助于互联网舆情监控等应用。通过将短文本标签化,可以大大压缩文本内容,实现将文本从非结构化数据转换为精简的结构化数据。此外,通过短文本自动化标签,可以实现对特定关注类型文本的监测与封堵,帮助舆情监控部门掌握社会主流话题的动向。
近年来随着深度学习为主的机器学习技术不断发展,区别于传统机器学习方法,深度学习最大的优势就是避免了繁琐的特征提取过程,词语使用连续向量进行表示,可以使用预训练的word2vec进行初始化。通过多层的神经网络进行高维抽象特征提取,最后经过softmax进行多分类。主要代表如:Tomas Mikolov,IlyaSutskever,Kai Chen,GregCorrado,and Jeffrey Dean.Distributed Representations of Words and Phrases andtheir Compositionality.In Proceedings of NIPS,2013.和Kim Y.Convolutionalneural networks for sentence classification[J].arXiv preprint arXiv:1408.5882,2014。
然而有监督的神经网络方法需要标注数据以及大量的训练数据集,而且很有可能在训练数据集上过拟合,对于大规模分类体系容易出现数据不足的问题。而简单的基于规则的无监督方法性能又不稳定,很难保证完成相关的任务。因此在有限数据情况下保证面向大规模分类体系的短文本标签系统的稳定性是目前函待解决的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题,本发明的第一方面,提出了一种面向大规模分类体系的短文本自动化标签方法,该方法包括以下步骤:
步骤M100,获取待分类的短文本信息集合,作为第一短文本信息集合;
步骤M200,基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;
步骤M300,基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;
步骤M400,基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;
步骤M500,基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。
在一些优选实施方式中,步骤M200“基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理”,其方法为:
对于所述短文本信息集合中每一个短文本,采用正向最大匹配分词将完整句子进行分割,进行词性标注处理,并过滤掉停用词,然后根据分词后的文本,构建词典和训练语料,继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示。
在一些优选实施方式中,所述规则的分类方法为基于规则的双数组Trie树的关键词匹配算法;所述有监督的神经网络分类方法为基于多种神经网络结构的深度学习方法。
在一些优选实施方式中,所述有监督的神经网络分类方法,其网络结构为卷积神经网络CNN,或循环神经网络RNN,或双向长短时记忆网络BiLSTM。
在一些优选实施方式中,步骤M300“对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合”,其方法为:基于规则的分类方法、有监督的神经网络分类方法分别以所述第二短文本信息集合为输入,对所述第二短文本信息集合中各短文本信息,分别输出各自分类方法下的分类概率,通过取平均方法得到综合的分类概率,以最大概率作为对应短文本信息的分类,并基于此分类对对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合。
在一些优选实施方式中,步骤M100“获取待分类的短文本信息集合”,其方法为:基于设定关键词,通过网络抓取技术从互联网上获取待分类的短文本信息集合。
本发明的第二方面,提出了一种面向大规模分类体系的短文本自动化标签系统,该系统包括短文本获取单元、预处理单元、垃圾信息过滤单元、第一分类单元、第二分类单元;
所述短文本获取单元,配置为获取待分类的短文本信息集合,作为第一短文本信息集合;
所述预处理单元,配置为基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;
所述垃圾信息过滤单元,配置为基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;
所述第一分类单元,配置为基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;
所述第二分类单元,配置为基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。
在一些优选实施方式中,所述预处理单元中“基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理”,其方法为:
对于所述短文本信息集合中每一个短文本,采用正向最大匹配分词将完整句子进行分割,进行词性标注处理,并过滤掉停用词,然后根据分词后的文本,构建词典和训练语料,继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的面向大规模分类体系的短文本自动化标签方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的面向大规模分类体系的短文本自动化标签方法。
本发明的有益效果:
本发明实施对于输入的短文本,综合运用基于规则和基于神经网络的分类算法和半监督的标签传播算法,提出一种多级分类方案,实现面向大规模分类体系的短文本自动化标签系统。对于大规模分类体系,有监督的神经网络方法容易出现数据不足的问题。所采用的多级分类方案降低模型复杂度,可以避免在数据不足条件下直接进行大规模类别分类训练。而半监督的标签传播算法可以解决类别较多、样本从属多类、动态调整等问题。本文提出的综合多种基于规则、有监督和半监督方法的多级分类方案,既保证了工程上的实施,又提高了系统的稳定性,大大提高了面向大规模分类体系的短文本标签系统的稳定性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的面向大规模分类体系的短文本自动化标签方法流程示意图;
图2是本发明一种实施例的面向大规模分类体系的短文本自动化标签系统框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例的主要技术构思是针对互联网上大量的短文本信息,如微博等,建立面向大规模分类体系的自动化标签系统。该系统面临诸多挑战,如标签总数庞大(超过1000个),标签呈多级树状结构分布,标签内容随业务需求动态调整等。针对上述挑战,我们采用多级分类方案,综合运用基于规则的分类方法、有监督的神经网络分类方法,和半监督的标签传播方法,构建面向大规模分类体系的短文本自动化标签系统。首先该系统从互联网获取短文本内容,并完成分词和词向量表示等预处理工作。其次进入垃圾信息判别分类。该分类为二分类问题,我们将不关注的垃圾信息过滤掉,保留需要关注的信息。接下来,进入第一、二级的大类别分类。该分类是一个多分类问题,按照较大的第一、二级的类别标签,将短文本信息分门别类。上两步分类问题,采用综合基于规则和基于神经网络的分类算法来解决。具体来讲,我们运用基于规则的双数组Trie树的关键词匹配算法来保证准确率,使用多种神经网络结构的深度学习方法来提升召回率。最后第三、四级标签传播。我们采用“短文本-标签”二部图链接,表示标记关系。基于三大标签传播技术假设:平滑假设、聚类假设、流形假设,进行半监督学习的第三、四级小类标签传播的分类,从而解决类别较多、样本从属多类、动态调整等问题。所采用的多级分类方案降低模型复杂度,可以避免在数据不足条件下直接进行大规模类别分类训练。
为了更清晰地对本发明进行说明,下面结合附图对本方发明各部分内容进行展开详述。
本发明一种实施例的面向大规模分类体系的短文本自动化标签方法,其特征在于,如图1所示,该方法包括以下步骤:
步骤M100,获取待分类的短文本信息集合,作为第一短文本信息集合。
该步骤基于设定关键词,通过网络抓取技术从互联网上获取待分类的短文本信息集合。其中,获取渠道包括各大互联网平台包括微博,微信公众号,贴吧等。
步骤M200,基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合。
对于所述短文本信息集合中每一个短文本,采用正向最大匹配分词将完整句子进行分割,进行词性标注处理,并过滤掉停用词,然后根据分词后的文本,构建词典和训练语料,继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示,通过对应词向量表示的各短文本构成了第二短文本信息集合。
步骤M210,正向最大匹配分词,从左向右扫描寻找词的最大匹配。最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的。正向最大匹配算法,首先可以规定一个词的最大长度,每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配,如果没有找到,就缩短长度继续寻找,直到找到或者成为单字。
步骤M220:词向量化表示word2vec(word to vector,一个将单词转换成向量形式的工具)就是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为多维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似,为文本数据寻求更加深层次的特征表示。
Word2vec使用的词向量不是One-hot Representation(独热表示)词向量,而是Distributed representation(分布式表示)的词向量表示方式。其基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数),通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。其采用一个三层的神经网络,输入层-隐层-输出层。有个核心的技术是根据词频用Huffman编码,使得所有词频相似的词隐藏层激活的内容基本一致,出现频率越高的词语,他们激活的隐藏层数目越少,这样有效的降低了计算的复杂度。
Word2Vec包含两种不同的方法:Continuous Bag of Words(CBOW)和Skip-gram。CBOW的目标是根据上下文来预测当前词语的概率。Skip-gram刚好相反:根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初,每个单词都是一个随机N维向量。经过训练之后,该算法利用CBOW或者Skip-gram的方法获得了每个单词的最优向量。
步骤M300,基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合。
该步骤中的二分类规则是不需要关注的垃圾信息和需要关注的正常信息的分类规则,而分类的目的是识别出第二短文本信息集合中的垃圾短文本,从而将其去除。综合运用基于规则的分类方法、有监督的神经网络分类方法将不关注的垃圾短文本过滤掉,保留需要关注的短文本信息。该实施例中规则的分类方法为基于规则的双数组Trie树的关键词匹配算法,以保证准确率;有监督的神经网络分类方法为基于多种神经网络结构的深度学习方法(如卷积神经网络CNN、循环神经网络RNN、双向长短时记忆网络BiLSTM),以提高召回率。本实施例中基于规则的分类方法、有监督的神经网络分类方法分别以所述第二短文本信息集合为输入,对所述第二短文本信息集合中各短文本信息,分别输出各自分类方法下的分类概率,通过取平均方法得到综合的分类概率,以最大概率作为对应短文本信息的分类,并基于此分类对对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合。,当然还可以采用其他方式依据两种算法的输出的分类概率得到综合的分类概率,例如加权求和等方式,然后在依据最终输出的分类概率确定分类结果(需要关注的短文本信息、不需要关注的短文本信息),并去除不需要关注的短文本信息,得到第三短文本信息集合。
步骤M310:对第二文本信息集合,采用基于规则的双数组Trie树的关键词匹配算法,获得各文本信息的分类概率。基于规则的双数组Trie树的关键词匹配算法可以保证分类的准确率。Trie树是搜索树的一种,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机(DFA),每个节点代表自动机的一个状态。在词典中这此状态包括“词前缀”,“已成词”等。用Trie树搜索一个关键码的时间与关键码自身及其长度有关,最快是O(1),即在第一层即可判断是否搜索到,最坏的情况是O(n),n为Trie树的层数。由于很多时候Trie树的大多数结点分支很少,因此Trie树结构空间浪费比较多。
为了减少Trie树结构的空间浪费,同时保证Trie树查询的效率,可以用三个线性数组表示Trie树,也可以在此基础上进一步改进,用两个数组来表示Trie树,也就是双数组Trie树。双数组Trie(double array Trie)是trie树的一个简单而有效的实现,由两个整数数组构成,一个是base[],另一个是check[]。设数组下标为i,如果base[i],check[i]均为0,表示该位置为空。如果base[i]为负值,表示该状态为词语。check[i]表示该状态的前一状态,t=base[i]+a,check[t]=i。双数组Trie树算法有效的降低了Trie树结构的空间浪费。
步骤M320:对第二文本信息集合,采用基于多种神经网络结构的深度学习方法,获得各文本信息的分类概率。基于多种神经网络结构的深度学习方法可以提升召回率。本实施例中,基于多种神经网络结构的深度学习方法可以为卷积神经网络CNN、循环神经网络RNN、双向长短时记忆网络BiLSTM。CNN原来是用于对图像分类,后来按照其形式用到了对自然语言处理上,处理原理相同,首先是对句子的每一个词生成一个实值的词向量,然后按照句子合并成一个词向量矩阵,这个词向量矩阵就相当于一个图像的像素,剩下的就如同图像处理一样,使用卷积核进行卷积以及进行池化等。但CNN有个最大问题是固定的视野,无法建模更长的序列信息。CNN本质是做文本的特征表达工作,而自然语言处理中更常用的是递归神经网络(RNN,Recurrent Neural Network),能够更好的表达上下文信息。具体在文本分类任务中,Bi-directional RNN(实际使用的是双向LSTM)从某种意义上可以理解为可以捕获变长且双向的的"n-gram"信息。
步骤M400,基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签。
该步骤基于规则的分类方法、有监督的神经网络分类方法的分类方法与步骤M300类似,区别在于预设的分类规则不一样,此处的分类规则包含了四级分类(该规则中类别从第一级到第四级依次减小),但该步骤中只进行第一、第二级分类,因此,在其它实施例中,分类规则还可以为只包含第一、第二级分类的规则。例如:第一级大类标签包括政治、生活、自然、娱乐、科教、文化、社会、经济、体育等,而第二级大类标签,如自然下有动物、植物、自然灾害、自然现象、自然资源等。
步骤M500,基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。
第三、四级小类分类通过半监督学习的标签传播实现,从而解决类别较多、样本从属多类、动态调整等问题。比如针对电子产品的二级标签,下面有手机通讯、笔记本、平板电脑、摄影摄像、硬件外设、家用电器、智能硬件等三级标签。手机通讯下的四级标签包括4G、安卓、苹果、移动电源、手机软件等标签。基于“短文本-标签”二部图链接,表示标记关系,并且运用三大标签传播技术假设进行标签传播,具体包括:
平滑假设:相似的数据具有相同的标签;
聚类假设:处于同一个聚类下的数据具有相同标签;
流形假设:处于同一流形结构下的数据具有相同标签。
标签传播算法是不重叠社区发现的经典算法,其基本思想是:将一个节点的邻居节点的标签中数量最多的标签作为该节点自身的标签。给每个节点添加标签以代表它所属的社区,并通过标签的“传播”形成同一标签的“社区”结构。
给每个节点添加标签以代表它所属的社区,并通过标签的“传播”形成同一标签的“社区”结构。一个节点的标签取决于它邻居节点的标签:假设节点z的邻居节点有z1至zk,那么哪个社区包含z的邻居节点最多z就属于那个社区(或者说z的邻居中包含哪个社区的标签最多,z就属于哪个社区)。优点是收敛周期短,无需任何先验参数(不需事先指定社区个数和大小),算法执行过程中不需要计算任何社区指标。时间复杂度接近线性:对顶点分配标签的复杂度为O(n),每次迭代时间为O(m),找出所有社区的复杂度为O(n+m),但迭代次数难以估计。
半监督的标签传播主要分为两个步骤:
1)相似矩阵构建:标签传播算法是基于图模型的,因此需要先构建一个图。为所有的数据构建一个图,图的节点就是一个数据点,包含已标签和未标签的数据。节点i和节点j的边表示他们的相似度。这个图的构建方法有很多,这里假设这个图是全连接的,节点i和节点j的边权重wij为:
其中,xi、xj分别为节点i和节点j的坐标向量,该向量为文本表示向量,α是超参。
2)根据相似矩阵,进行标签传播,让相似的数据具有相同的标签:标签传播算法非常简单,通过节点之间的边传播标签。边的权重越大,表示两个节点越相似,那么标签越容易传播过去。定义概率转移矩阵P(大小为N*N,其中N为节点总个数),该矩阵中从节点i转移到节点j的概率Pij为:
其中,wij为i节点到j节点的相似度。
本实施例中将各个步骤按照上述先后次序的方式进行了描述,本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时执行或执行次序颠倒,这些简单的变化都在本发明的保护范围之内。
如图2所示,本发明一种实施例的面向大规模分类体系的短文本自动化标签系统10,包括短文本获取单元101、预处理单元102、垃圾信息过滤单元103、第一分类单元104、第二分类单元105;
短文本获取单元101,配置为获取待分类的短文本信息集合,作为第一短文本信息集合;
预处理单元102,配置为基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;
垃圾信息过滤单元103,配置为基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;
第一分类单元104,配置为基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;
第二分类单元105,配置为基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。
本实施例的预处理单元中“基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理”,其方法为:
对于所述短文本信息集合中每一个短文本,采用正向最大匹配分词将完整句子进行分割,进行词性标注处理,并过滤掉停用词,然后根据分词后的文本,构建词典和训练语料,继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的面向大规模分类体系的短文本自动化标签系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明一种实施例的存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的面向大规模分类体系的短文本自动化标签方法。
本发明一种实施例的处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的面向大规模分类体系的短文本自动化标签方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种面向大规模分类体系的短文本标签方法,其特征在于,该方法包括以下步骤:
步骤M100,获取待分类的短文本信息集合,作为第一短文本信息集合;
步骤M200,基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;
步骤M300,基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;
步骤M400,基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;
步骤M500,基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。
2.根据权利要求1所述的面向大规模分类体系的短文本标签方法,其特征在于,步骤M200“基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理”,其方法为:
对于所述短文本信息集合中每一个短文本,采用正向最大匹配分词将完整句子进行分割,进行词性标注处理,并过滤掉停用词,然后根据分词后的文本,构建词典和训练语料,继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示。
3.根据权利要求1所述的面向大规模分类体系的短文本标签方法,其特征在于,所述规则的分类方法为基于规则的双数组Trie树的关键词匹配算法;所述有监督的神经网络分类方法为基于多种神经网络结构的深度学习方法。
4.根据权利要求3所述的面向大规模分类体系的短文本标签方法,其特征在于,所述有监督的神经网络分类方法,其网络结构为卷积神经网络CNN,或循环神经网络RNN,或双向长短时记忆网络BiLSTM。
5.根据权利要求1所述的面向大规模分类体系的短文本标签方法,其特征在于,步骤M300“对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合”,其方法为:基于规则的分类方法、有监督的神经网络分类方法分别以所述第二短文本信息集合为输入,对所述第二短文本信息集合中各短文本信息,分别输出各自分类方法下的分类概率,通过取平均方法得到综合的分类概率,以最大概率作为对应短文本信息的分类,并基于此分类对对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合。
6.根据权利要求1-5任一项所述的面向大规模分类体系的短文本标签方法,其特征在于,步骤M100“获取待分类的短文本信息集合”,其方法为:基于设定关键词,通过网络抓取技术从互联网上获取待分类的短文本信息集合。
7.一种面向大规模分类体系的短文本标签系统,其特征在于,该系统包括短文本获取单元、预处理单元、垃圾信息过滤单元、第一分类单元、第二分类单元;
所述短文本获取单元,配置为获取待分类的短文本信息集合,作为第一短文本信息集合;
所述预处理单元,配置为基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;
所述垃圾信息过滤单元,配置为基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;
所述第一分类单元,配置为基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;
所述第二分类单元,配置为基于半监督学习的标签传播方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第三、四级分类标签。
8.根据权利要求7所述的面向大规模分类体系的短文本标签系统,其特征在于,所述预处理单元中“基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理”,其方法为:
对于所述短文本信息集合中每一个短文本,采用正向最大匹配分词将完整句子进行分割,进行词性标注处理,并过滤掉停用词,然后根据分词后的文本,构建词典和训练语料,继续通过word2vec词向量表示技术获取训练语料中每个词的词向量表示。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的面向大规模分类体系的短文本标签方法。
10.一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的面向大规模分类体系的短文本标签方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910202727.0A CN110059181B (zh) | 2019-03-18 | 2019-03-18 | 面向大规模分类体系的短文本标签方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910202727.0A CN110059181B (zh) | 2019-03-18 | 2019-03-18 | 面向大规模分类体系的短文本标签方法、系统、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059181A true CN110059181A (zh) | 2019-07-26 |
CN110059181B CN110059181B (zh) | 2021-06-25 |
Family
ID=67316282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910202727.0A Active CN110059181B (zh) | 2019-03-18 | 2019-03-18 | 面向大规模分类体系的短文本标签方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059181B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647919A (zh) * | 2019-08-27 | 2020-01-03 | 华东师范大学 | 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统 |
CN110688833A (zh) * | 2019-09-16 | 2020-01-14 | 苏州创意云网络科技有限公司 | 文本校正方法、装置和设备 |
CN110705298A (zh) * | 2019-09-23 | 2020-01-17 | 四川长虹电器股份有限公司 | 一种改进的前缀树与循环神经网络结合的领域分类方法 |
CN110795539A (zh) * | 2019-11-06 | 2020-02-14 | 长春嘉诚信息技术股份有限公司 | 一种基于逻辑表达式的短文本标签识别方法 |
CN110837735A (zh) * | 2019-11-17 | 2020-02-25 | 太原蓝知科技有限公司 | 一种数据智能分析识别方法及系统 |
CN111339301A (zh) * | 2020-02-28 | 2020-06-26 | 创新奇智(青岛)科技有限公司 | 标签确定方法、装置、电子设备及计算机可读存储介质 |
CN111444342A (zh) * | 2020-03-24 | 2020-07-24 | 湖南董因信息技术有限公司 | 一种基于多重弱监督集成的短文本分类方法 |
CN111488457A (zh) * | 2020-04-13 | 2020-08-04 | 上海枫河软件科技有限公司 | 一种电商评论标签分类方法 |
CN112015913A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 用于训练处罚实体分类模型的方法及装置 |
CN112559733A (zh) * | 2019-09-26 | 2021-03-26 | 阿里巴巴集团控股有限公司 | 信息获取方法、装置、电子设备及计算机可读存储介质 |
WO2021081837A1 (zh) * | 2019-10-30 | 2021-05-06 | 深圳市欢太科技有限公司 | 模型构建方法、分类方法、装置、存储介质及电子设备 |
CN113360657A (zh) * | 2021-06-30 | 2021-09-07 | 安徽商信政通信息技术股份有限公司 | 一种公文智能分发办理方法、装置及计算机设备 |
CN113705728A (zh) * | 2021-09-18 | 2021-11-26 | 全知科技(杭州)有限责任公司 | 一种分类分级清单智能打标方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140236578A1 (en) * | 2013-02-15 | 2014-08-21 | Nec Laboratories America, Inc. | Question-Answering by Recursive Parse Tree Descent |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN106778832A (zh) * | 2016-11-28 | 2017-05-31 | 华南理工大学 | 基于多目标优化的高维数据半监督集成分类方法 |
US9792534B2 (en) * | 2016-01-13 | 2017-10-17 | Adobe Systems Incorporated | Semantic natural language vector space |
CN108073677A (zh) * | 2017-11-02 | 2018-05-25 | 中国科学院信息工程研究所 | 一种基于人工智能的多级文本多标签分类方法及系统 |
CN108897805A (zh) * | 2018-06-15 | 2018-11-27 | 江苏大学 | 一种专利文本自动分类方法 |
CN109376361A (zh) * | 2018-11-16 | 2019-02-22 | 北京九狐时代智能科技有限公司 | 一种意图识别方法及装置 |
-
2019
- 2019-03-18 CN CN201910202727.0A patent/CN110059181B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140236578A1 (en) * | 2013-02-15 | 2014-08-21 | Nec Laboratories America, Inc. | Question-Answering by Recursive Parse Tree Descent |
US9792534B2 (en) * | 2016-01-13 | 2017-10-17 | Adobe Systems Incorporated | Semantic natural language vector space |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN106778832A (zh) * | 2016-11-28 | 2017-05-31 | 华南理工大学 | 基于多目标优化的高维数据半监督集成分类方法 |
CN108073677A (zh) * | 2017-11-02 | 2018-05-25 | 中国科学院信息工程研究所 | 一种基于人工智能的多级文本多标签分类方法及系统 |
CN108897805A (zh) * | 2018-06-15 | 2018-11-27 | 江苏大学 | 一种专利文本自动分类方法 |
CN109376361A (zh) * | 2018-11-16 | 2019-02-22 | 北京九狐时代智能科技有限公司 | 一种意图识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
孔庆超等: "社交网站中用户评论行为预测", 《智能系统学报》 * |
王文霞: "基于分级策略和聚类索引树的构件检索方法", 《计算机技术与发展》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647919A (zh) * | 2019-08-27 | 2020-01-03 | 华东师范大学 | 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统 |
CN110688833A (zh) * | 2019-09-16 | 2020-01-14 | 苏州创意云网络科技有限公司 | 文本校正方法、装置和设备 |
CN110688833B (zh) * | 2019-09-16 | 2022-12-02 | 苏州创意云网络科技有限公司 | 文本校正方法、装置和设备 |
CN110705298A (zh) * | 2019-09-23 | 2020-01-17 | 四川长虹电器股份有限公司 | 一种改进的前缀树与循环神经网络结合的领域分类方法 |
CN110705298B (zh) * | 2019-09-23 | 2022-06-21 | 四川长虹电器股份有限公司 | 一种改进的前缀树与循环神经网络结合的领域分类方法 |
CN112559733A (zh) * | 2019-09-26 | 2021-03-26 | 阿里巴巴集团控股有限公司 | 信息获取方法、装置、电子设备及计算机可读存储介质 |
WO2021081837A1 (zh) * | 2019-10-30 | 2021-05-06 | 深圳市欢太科技有限公司 | 模型构建方法、分类方法、装置、存储介质及电子设备 |
CN110795539B (zh) * | 2019-11-06 | 2023-04-18 | 长春嘉诚信息技术股份有限公司 | 一种基于逻辑表达式的短文本标签识别方法 |
CN110795539A (zh) * | 2019-11-06 | 2020-02-14 | 长春嘉诚信息技术股份有限公司 | 一种基于逻辑表达式的短文本标签识别方法 |
CN110837735A (zh) * | 2019-11-17 | 2020-02-25 | 太原蓝知科技有限公司 | 一种数据智能分析识别方法及系统 |
CN110837735B (zh) * | 2019-11-17 | 2023-11-03 | 内蒙古中媒互动科技有限公司 | 一种数据智能分析识别方法及系统 |
CN111339301A (zh) * | 2020-02-28 | 2020-06-26 | 创新奇智(青岛)科技有限公司 | 标签确定方法、装置、电子设备及计算机可读存储介质 |
CN111339301B (zh) * | 2020-02-28 | 2023-11-28 | 创新奇智(青岛)科技有限公司 | 标签确定方法、装置、电子设备及计算机可读存储介质 |
CN111444342A (zh) * | 2020-03-24 | 2020-07-24 | 湖南董因信息技术有限公司 | 一种基于多重弱监督集成的短文本分类方法 |
CN111488457A (zh) * | 2020-04-13 | 2020-08-04 | 上海枫河软件科技有限公司 | 一种电商评论标签分类方法 |
CN112015913A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 用于训练处罚实体分类模型的方法及装置 |
CN113360657A (zh) * | 2021-06-30 | 2021-09-07 | 安徽商信政通信息技术股份有限公司 | 一种公文智能分发办理方法、装置及计算机设备 |
CN113360657B (zh) * | 2021-06-30 | 2023-10-24 | 安徽商信政通信息技术股份有限公司 | 一种公文智能分发办理方法、装置及计算机设备 |
CN113705728A (zh) * | 2021-09-18 | 2021-11-26 | 全知科技(杭州)有限责任公司 | 一种分类分级清单智能打标方法 |
CN113705728B (zh) * | 2021-09-18 | 2023-08-01 | 全知科技(杭州)有限责任公司 | 一种分类分级清单智能打标方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110059181B (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059181A (zh) | 面向大规模分类体系的短文本标签方法、系统、装置 | |
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN108875051A (zh) | 面向海量非结构化文本的知识图谱自动构建方法及系统 | |
Amine et al. | Evaluation of text clustering methods using wordnet. | |
CN111581949B (zh) | 学者人名的消歧方法、装置、存储介质及终端 | |
Ju et al. | An efficient method for document categorization based on word2vec and latent semantic analysis | |
CN109325231A (zh) | 一种多任务模型生成词向量的方法 | |
CN107205016A (zh) | 物联网设备的检索方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
Saleh et al. | A semantic based Web page classification strategy using multi-layered domain ontology | |
Mahalakshmi et al. | Ensembling of text and images using deep convolutional neural networks for intelligent information retrieval | |
CN114741519A (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN116127084A (zh) | 基于知识图谱的微电网调度策略智能检索系统及方法 | |
Chakraborty et al. | Bangla document categorisation using multilayer dense neural network with tf-idf | |
MidhunChakkaravarthy | Evolutionary and incremental text document classifier using deep learning | |
Adek et al. | Online newspaper clustering in Aceh using the agglomerative hierarchical clustering method | |
Li et al. | Multi-label text classification via hierarchical Transformer-CNN | |
Ding et al. | The research of text mining based on self-organizing maps | |
de Oliveira et al. | A syntactic-relationship approach to construct well-informative knowledge graphs representation | |
CN107908749A (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
Jia et al. | Query Rewriting and Semantic Annotation in Semantic-Based Image Retrieval under Heterogeneous Ontologies of Big Data. | |
Kovács et al. | Conceptualization with incremental bron-kerbosch algorithm in big data architecture | |
Ahmed et al. | Equation attention relationship network (EARN): A geometric deep metric framework for learning similar math expression embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |