CN107463658B - 文本分类方法及装置 - Google Patents

文本分类方法及装置 Download PDF

Info

Publication number
CN107463658B
CN107463658B CN201710639782.7A CN201710639782A CN107463658B CN 107463658 B CN107463658 B CN 107463658B CN 201710639782 A CN201710639782 A CN 201710639782A CN 107463658 B CN107463658 B CN 107463658B
Authority
CN
China
Prior art keywords
text
classified
subgraph
nodes
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710639782.7A
Other languages
English (en)
Other versions
CN107463658A (zh
Inventor
彭浩
李建欣
何雨
刘垚鹏
包梦蛟
宋阳秋
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou HKUST Fok Ying Tung Research Institute
Original Assignee
Guangzhou HKUST Fok Ying Tung Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou HKUST Fok Ying Tung Research Institute filed Critical Guangzhou HKUST Fok Ying Tung Research Institute
Priority to CN201710639782.7A priority Critical patent/CN107463658B/zh
Publication of CN107463658A publication Critical patent/CN107463658A/zh
Application granted granted Critical
Publication of CN107463658B publication Critical patent/CN107463658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本分类方法及装置,其中,所述方法包括步骤:接收输入的待分类文本,将所述文本进行预处理后,构造所述待分类文本的图结构,根据所述待分类文本的图结构构造若干个子图,将每一所述子图进行归一化处理;其中,所述待分类文本的图结构中,节点与所述待分类文本中的单词一一对应;以每一所述子图中的词向量表示作为已训练的神经网络的输入,根据所述神经网络的输出待分类文本的类别,本方案中各个子图具有非连续性、长距离的语义信息,通过神经网络可对各个子图的特征进行提取和融合,从而得到准确的文本分类结果。

Description

文本分类方法及装置
技术领域
本发明涉及机器学习领域,尤其涉及一种文本分类方法及装置。
背景技术
随着电子计算机应用技术的日益成熟和互联网的迅速发展,人类社会进入了一个信息爆炸的时代。在这个信息爆炸的时代,知识合理分类的期望与需求愈发迫切。如何在海量信息中快速有效地找到用户所需要的信息,是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息,其作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。
文本分类是指依据文本的内容,由计算机根据某种自动分类算法,把文本盘分为预先定义好的类别。从数学的角度来说,文本分类是一个映射过程,它将未标明类别的文本映射到已经建立好的类别体系中。该映射可以是一对一映射,也可以是一对多映射。
为了对文本进行分类,传统方法为基于知识工程的分类方法,即由专业人员手工编写分类规则来指导分类,存在准确率低、耗时耗力的缺点
发明内容
本发明实施例的目的是提供一种文本分类方法及装置,能有效解决现有技术存在准确率低、耗时耗力的缺点,准确性高。
为实现上述目的,本发明实施例提供了一种文本分类方法,包括步骤:
接收输入的待分类文本,将所述文本进行预处理后,构造所述待分类文本的图结构,根据所述待分类文本的图结构构造若干个子图,将每一所述子图进行归一化处理;其中,所述待分类文本的图结构中,节点与所述待分类文本中的单词一一对应;
以每一所述子图中的词向量表示作为已训练的神经网络的输入,根据所述神经网络的输出得到待分类文本的类别。
与现有技术相比,本发明实施例公开了一种文本分类方法,通过先基于待分类文本构造所述待分类文本的图结构,根据所述待分类文本的图结构,构造若干个子图,将每一子图进行归一化处理,以每一所述子图中的词向量表示作为已训练的神经网络的输入,根据所述神经网络的输出得到待分类文本的类别,本方案中各个子图具有非连续性、长距离的语义信息,通过神经网络可对各个子图的特征进行提取和融合,从而得到准确的文本分类结果。
作为上述方案的改进,所述将所述文本进行预处理具体为:
对所述待分类文本进行分词处理后,去除所述待分类文本的噪点和停用词,并提取所述待分类文本中每一单词的词干;其中,所述噪点包括标点符号和数字,所述停用词包括代词、连词、介词、冠词。
作为上述方案的改进,构造所述待分类文本的图结构具体为:
采用词的共现关系构造所述待分类文本的图结构,具体为:
通过预设大小的滑动窗口对所述待分类文本进行遍历,当任意两个单词同时处在所述滑动窗口内时,在所述两个单词间构造边,所述边由前一个单词指向后一个单词。
作为上述方案的改进,每一所述子图中的词向量采用word2vec模型或glove模型表示。
作为上述方案的改进,根据所述文本的图结构构造若干个子图具体为:
提取所述文本的图结构的节点,将所述节点依照贡献值的大小进行排序;其中;所述贡献值由每一所述节点的度、所述节点对应的词在文本中的词频以及和所述节点和邻域节点的共线率依次决定。
选取所述节点中排序前N的节点作为特征项,以每一所述特征项作为根节点,通过广度优先搜索算法构造子图;其中,所述子图包括至少k个节点;其中,N>0,k>0。
作为上述方案的改进,以每一所述特征项作为根节点,通过广度优先搜索算法构造子图具体为:
获取所述根节点的邻接节点,若所述根节点的邻接节点的个数大于k-1,则以所述根节点、所述根节点的邻接节点和所述根节点和所述邻接节点的边构造子图;
若所述根节点的邻接节点的个数小于k-1,则逐级获取所述根节点的次级邻接节点,直到获取到的邻接节点和次级邻接节点的总个数大于或等于k或无法继续获取到所述次级邻接节点时停止,根据所述根节点、所述根节点的邻接节点和次级邻接节点、所述根节点和所述邻接节点的边、所述根节点的邻接节点和次级邻接节点的边以及所述次级邻接节点之间的边构造子图;其中,所述次级邻接节点为与所述根节点间接连接的节点。
作为上述方案的改进,将每一子图进行归一化处理具体为:
根据所述子图构建生成树,利用广度优先算法对所述生成树的节点由浅层到深层进行排序;
在同一层中,根据所述贡献值的大小对所述根节点的邻接节点进行排序;
当所述子图中的节点大于k时,保留所述生成树中排序前k的节点,从而完成所述子图的归一化过程;
当所述子图中的节点小于k时,在所述子图中增加若干个哑元节点,以使得所述子图中的节点个数等于k,从而完成所述子图的归一化过程;其中,所述哑元节点和原始的所述子图中的任一节点均不连接。
作为上述方案的改进,将每一子图进行归一化处理前还包括步骤:
根据以下公式对所述子图进行标记:
Figure GDA0002356375760000041
其中,G为预设标记为s的子图,AS(G)为子图G的邻接矩阵,DA(.,.)为两个矩阵的距离测度,DG(.,.)为两个子图的距离测度,s*为子图G'的标记结果。
作为上述方案的改进,所述神经网络为卷积神经网络,包括输入层、卷积层、池化层、全连接层和类别输出层。
本发明实施例还提供了一种文本分类装置,包括:
子图构造模块,用于接收输入的文本,将所述文本进行预处理后,构造所述文本的图结构,根据所述文本的图结构构造若干个子图,将每一子图进行归一化处理;所述文本的图结构中,节点与所述文本中的单词相对应;
类别预测模块,用于以每一所述子图作为神经网络的输入,根据所述神经网络的输出预测文本的类别。
与现有技术相比,本发明实施例公开了一种文本分类的装置,通过子图构造模块先基于待分类文本构造所述待分类文本的图结构,根据所述待分类文本的图结构,构造若干个子图,将每一子图进行归一化处理,然后通过类别预测模块以每一所述子图中的词向量表示作为已训练的神经网络的输入,根据所述神经网络的输出得到待分类文本的类别,本方案中各个子图具有非连续性、长距离的语义信息,通过神经网络可对各个子图的特征进行提取和融合,从而得到准确的文本分类结果。
附图说明
图1是本发明实施例1提供的一种文本分类方法的流程示意图。
图2是本发明根据原始文本构造的图结构的示意图。
图3是本发明实施例2提供的一种文本分类方法的流程示意图。
图4是本发明子图的构造和归一化的过程示意图。
图5是本发明实施例3提供的一种文本分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种文本分类方法的流程示意图,包括步骤:
S1、接收输入的待分类文本,将所述待分类文本进行预处理后,构造所述待分类文本的图结构,根据所述待分类文本的图结构构造若干个子图,将每一子图进行归一化处理;所述待分类文本的图结构中,节点与所述待分类文本中的单词一一对应;
其中,将所述文本进行预处理具体为:对所述文本进行分词处理后,去除所述文本的噪点和停用词,并提取所述文本中每一单词的词干;其中,所述噪点包括标点符号和数字,所述停用词包括代词、连词、介词、冠词。具体的,由于噪点和停用词自身并无实际意义,几乎不携带任何信息,除了对语言模型和感情分析有作用外,对文本的区分能力很弱,因此,在文本分类中需要将这些噪点和词去除。在实际应用中,通常预先建立一个停用词表,然后对分词得到的词语停用词表进行匹配,如果词存在于表中,则表明该词为停用词,则删除;若不在表中,则保留。此外,在文本中除了存在一些停用词外,还存在大量语义不明确的副词、数词和方位词等,如“在”、“一”和“很”等,这些词对文本的内容贡献不大,因此也需要去掉语义不强的非实际意义的词,对于突出文本的主题,准确分类是很有必要的。
在该步骤中,构造文本的图结构,从而可结合现有的图的神经网络的分类方法对文本进行分类,准确性高,且易于训练模型的参数。其中,图是由顶点的有穷非空集合和顶点之间的边构成的一种数据结构,通常表示为G=(V,E,W),G表示一个图,V是图G中顶点的集合,E是图G中边的集合,W顶点和边的权重集合。也就是,一个图结构是由节点,连接节点的有向边,以及表示节点和边的重要程度的权重组成的结构。
需要说明的是,基于待分类文本的图结构构建若干个子图,所述子图可认为是远距离的N元模型(N-gram),即非连续性的语义特征。
S2、以每一所述子图中的词向量表示作为已训练的神经网络的输入,根据所述神经网络的输出得到待分类文本的类别。
在该步骤中,通过向已训练的神经网络输入子图的词向量,可融合子图的语义特征,先提取所述待分类文本的低级特征,再进一步提取所述待分类文本的高级特征,从而根据分类器获取所述待分类文本的类别。
需要说明的是,所述待分类文本的图结构的构建包括三种方法,分别为基于共现关系、基于句法关系和基于语义关系。其中,基于共现关系是最普遍也是最简单的构建方法,如果两个词都出现在同一个文本窗口中,则在两者之间建立一条边;基于句法的构建方法是通过此在句子中的语法作用以及相应的语法关系来建立边的连接;基于语义的关系是根据词之间的语义关系建立边,这种语义关系主要包括同义、近义等。优选地,本实施例中采用词的共现关系构造所述文本,具体为:
通过预设大小的滑动窗口对所述文本进行遍历,当任意两个单词同时处在所述滑动窗口内时,在所述两个单词间构造边,所述边由前一个单词指向后一个单词。如图2所示,滑动窗口的大小为3,每共线一次就构建一条边。当然,可将每两个单词之间的边减少为一条,所述边的权重与所述边对应的两个单词的共线率呈正比关系或所述边的权重和所述边连接的两个词的相似度呈正比关系。
基于上述方案,先基于待分类文本构造所述待分类文本的图结构,根据所述待分类文本的图结构,构造若干个子图,将每一子图进行归一化处理,以每一所述子图中的词向量表示作为已训练的神经网络的输入,根据所述神经网络的输出得到待分类文本的类别,本方案中,各个子图具有非连续性、长距离的语义信息,通过神经网络可对各个子图的特征进行提取和融合,从而得到准确的文本分类结果。
参见图3,为本发明实施例2提供的一种文本分类方法的流程示意图,其在实施例1的基础上,步骤S1具体为:
S11、接收输入的待分类文本,将所述文本进行预处理后,构造所述待分类文本的图结构;其中,所述待分类文本的图结构中,节点与所述待分类文本中的单词一一对应;
S12、提取所述文本的图结构的节点,将所述节点依照贡献值的大小进行排序;其中;所述贡献值由每一所述节点的度、所述节点对应的词在文本中的词频以及和所述节点和邻域节点的共线率依次决定;
S13、选取所述节点中排序前N的节点作为关键节点,以每一所述关键节点作为根结点,通过广度优先搜索算法构造子图,将每一所述子图进行归一化处理;其中,所述子图包括至少k个节点;其中,N>0,k>0。
在该步骤中,通过获取关键节点可快速对文本进行分类,减小计算机的计算量。进一步地,通过广度优先搜索策略构造子图,提高分类的准确度的同时降低了时间复杂度。
其中,步骤S13中以每一所述关键节点作为根节点,通过广度优先搜索算法构造子图具体为:
获取所述根节点的邻接节点,若所述根节点的邻接节点的个数大于k-1,则以所述根节点、所述根节点的邻接节点和所述根节点和所述邻接节点的边构造子图;
若所述根节点的邻接节点的个数小于k-1,则逐级获取所述根节点的次级邻接节点,直到获取到的邻接节点和次级邻接节点的总个数大于或等于k或无法继续获取到所述次级邻接节点时停止,根据所述根节点、所述根节点的邻接节点和次级邻接节点、所述根节点和所述邻接节点的边、所述根节点的邻接节点和次级邻接节点的边以及所述次级邻接节点之间的边构造子图;其中,所述次级邻接节点为与所述根节点间接连接的节点。
在将每个子图作为神经网络的输入时,需要获取每个词的向量表示,即所谓的词向量,word embedding,就是讲自然语言中的词数字符号化,用一串连续的数字向量进行单词表示。一种最简单的词向量表示方式为one-hot词向量表示,向量的长度为词典的大小,向量的位数中只有一位为1,1所在的位置为该词在词典中的位置。另一种词向量的表示方法为分布式词向量表示(Distribution Representation),其是通过模型训练得到的关于单词语义的表示。优选地,本方案可采用word2vec模型或glove模型表示词向量。其中,word2vec包括CBOW(continuous Bag-of-Words)和Skip-gram两种模型,所述CBOW是一种前向神经类似的模型,其是给定上下文预测目标词的概率分布,Skip-gram模型是给定目标词预测上下文的概率值,两者都是设定一个目标函数,随后采用优化方法找到模型的最佳参数解,从而获得词向量表示。所述word2vec模型可简化词的向量表示,其向量空间上的距离可以用来表示文本语义的相似度,而且考虑了词序和上下文语义信息。
进一步地,为了后续作为神经网络的输入,需要对每一所述子图进行归一化处理,所述归一化处理具体为:
根据所述子图构建生成树,利用广度优先算法对所述生成树的节点由浅层到深层进行排序;
在同一层中,根据所述贡献值的大小对所述根节点的邻接节点进行排序;
当所述子图中的节点大于k时,保留所述生成树中排序前k的节点,从而完成所述子图的归一化过程;
当所述子图中的节点小于k时,在所述子图中增加若干个哑元节点,以使得所述子图中的节点个数等于k,从而完成所述子图的归一化过程;其中,所述哑元节点和原始的所述子图中的任一节点均不连接。
如图4所示,为子图构造和归一化的具体示意图,根据贡献值获得的关键节点分别为“goalscor”、“england”“club”“fit”“high”“great”“unit”“true”,则分别以上述关键节点作为根结点进行广度优先搜索策略进行遍历获得若干个具有不同语义的子图,对各个子图进行归一化处理即可作为神经网络的输入进行各个子图的特征提取和融合。
此外,对未进行归一化的子图,需要对子图中的各个节点进行排序以利于后续的神经网络的处理过程,则需对子图的各个节点进行标记,具体地,根据以下公式对所述子图进行标记:
Figure GDA0002356375760000091
其中,G为预设标记为s的子图,AS(G)为子图G的邻接矩阵,DA(.,.)为两个矩阵的距离测度,DG(.,.)为两个子图的距离测度,s*为子图G'的标记结果。
优选地,所述神经网络为卷积神经网络,包括输入层、卷积层、池化层、全连接层和类别输出层。卷积神经网络作为一种深度学习最常用的模型,是从人的视觉系统结构启发而来的结构模型,能够自动学习特征,具有分类准确率高的特点。对于现有通过卷积神经网络进行图像分类的过程中,图像的空间相关性也与距离有关,距离近的像素之间相关性大,距离远的像素之间相关性很小。因而,局部特征显得极为重要,只需进行更加简便地局部感知就可以了。这是因为,全局特征是通过综合底层局部特征得到的,所以神经元也不需要全局感知了,所以只采用局部连接的方式既符合视觉神经学理论又能有效地简化网络的复杂度。同样地,本方案通过对文本的图结构进行子图的构造,可充分利用神经网络中的局部特征提取功能,先提取低级特征再提取高级特征,从具体到抽象,从而获得准确的分类结果。
参见图5,是本发明实施例3提供的一种文本分类装置的结构示意图,包括:
子图构造模块101,用于接收输入的待分类文本,将所述待分类文本进行预处理后,构造所述待分类文本的图结构,根据所述待分类文本的图结构构造若干个子图,将每一所述子图进行归一化处理;所述待分类文本的图结构中,节点与所述待分类文本中的单词相对应;
类别预测模块102,用于以每一所述子图作为神经网络的输入,根据所述神经网络的输出得到所述待分类文本的类别。
优选地,所述将所述文本进行预处理具体为:
对所述待分类文本进行分词处理后,去除所述待分类文本的噪点和停用词,并提取所述待分类文本中每一单词的词干;其中,所述噪点包括标点符号和数字,所述停用词包括代词、连词、介词、冠词。
优选地,构造所述待分类文本的图结构具体为:
采用词的共现关系构造所述待分类文本的图结构,具体为:
通过预设大小的滑动窗口对所述待分类文本进行遍历,当任意两个单词同时处在所述滑动窗口内时,在所述两个单词间构造边,所述边由前一个单词指向后一个单词。
优选地,每一所述子图中的词向量采用word2vec模型或glove模型表示。
优选地,所述子图构造模块101根据所述待分类文本的图结构构造若干个子图具体为:
提取所述待分类文本的图结构的节点,将所述节点依照贡献值的大小进行排序;其中;所述贡献值由每一所述节点的度、所述节点对应的词在文本中的词频以及和所述节点和邻域节点的共线率依次决定;
选取所述节点中排序前N的节点作为关键节点,以每一所述关键节点作为根结点,通过广度优先搜索算法构造子图;其中,所述子图包括至少k个节点;其中,N>0,k>0。
其中,所述以每一所述关键节点作为根节点,通过广度优先搜索算法构造子图具体为:
获取所述根节点的邻接节点,若所述根节点的邻接节点的个数大于k-1,则以所述根节点、所述根节点的邻接节点和所述根节点和所述邻接节点的边构造子图;
若所述根节点的邻接节点的个数小于k-1,则逐级获取所述根节点的次级邻接节点,直到获取到的邻接节点和次级邻接节点的总个数大于或等于k或无法继续获取到所述次级邻接节点时停止,根据所述根节点、所述根节点的邻接节点和次级邻接节点、所述根节点和所述邻接节点的边、所述根节点的邻接节点和次级邻接节点的边以及所述次级邻接节点之间的边构造子图;其中,所述次级邻接节点为与所述根节点间接连接的节点。
优选地,所述子图构造模块101将每一所述子图进行归一化处理具体为:
根据所述子图构建生成树,利用广度优先算法对所述生成树的节点由浅层到深层进行排序;
在同一层中,根据所述贡献值的大小对所述根节点的邻接节点进行排序;
当所述子图中的节点大于k时,保留所述生成树中排序前k的节点,从而完成所述子图的归一化过程;
当所述子图中的节点小于k时,在所述子图中增加若干个哑元节点,以使得所述子图中的节点个数等于k,从而完成所述子图的归一化过程;其中,所述哑元节点和原始的所述子图中的任一节点均不连接。
其中,将每一子图进行归一化处理前还包括步骤:
根据以下公式对所述子图进行标记:
Figure GDA0002356375760000121
其中,G为预设标记为s的子图,AS(G)为子图G的邻接矩阵,DA(.,.)为两个矩阵的距离测度,DG(.,.)为两个子图的距离测度,s*为子图G'的标记结果。
优选地,所述神经网络为卷积神经网络,包括输入层、卷积层、池化层、全连接层和类别输出层。
本实施例提供的文本分类装置的实施过程和工作原理可参考上述对文本分类方法的具体描述,在此不再赘述。
综上,本发明实施例公开了一种文本分类方法及装置,先基于待分类文本构造所述待分类文本的图结构,根据所述待分类文本的图结构,构造若干个子图,将每一子图进行归一化处理,以每一所述子图中的词向量表示作为已训练的神经网络的输入,根据所述神经网络的输出得到待分类文本的类别,本方案中各个子图具有非连续性、长距离的语义信息,通过神经网络可对各个子图的特征进行提取和融合,从而得到准确的文本分类结果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种文本分类方法,其特征在于,包括步骤:
接收输入的待分类文本,将所述文本进行预处理后,构造所述待分类文本的图结构,根据所述待分类文本的图结构构造若干个子图,将每一所述子图进行归一化处理;其中,所述待分类文本的图结构中,节点与所述待分类文本中的单词一一对应;
以每一所述子图中的词向量表示作为已训练的神经网络的输入,根据所述神经网络的输出得到待分类文本的类别。
2.如权利要求1所述的文本分类方法,其特征在于,所述将所述文本进行预处理具体为:
对所述待分类文本进行分词处理后,去除所述待分类文本的噪点和停用词,并提取所述待分类文本中每一单词的词干;其中,所述噪点包括标点符号和数字,所述停用词包括代词、连词、介词、冠词。
3.如权利要求1所述的文本分类方法,其特征在于,构造所述待分类文本的图结构具体为:
采用词的共现关系构造所述待分类文本的图结构,具体为:
通过预设大小的滑动窗口对所述待分类文本进行遍历,当任意两个单词同时处在所述滑动窗口内时,在所述两个单词间构造边,所述边由前一个单词指向后一个单词。
4.如权利要求1所述的文本分类方法,其特征在于,每一所述子图中的词向量采用word2vec模型或glove模型表示。
5.如权利要求1所述的文本分类方法,其特征在于,根据所述待分类文本的图结构构造若干个子图具体为:
提取所述待分类文本的图结构的节点,将所述节点依照贡献值的大小进行排序;其中;所述贡献值由每一所述节点的度、所述节点对应的词在文本中的词频以及和所述节点和邻域节点的共线率依次决定;
选取所述节点中排序前N的节点作为关键节点,以每一所述关键节点作为根结点,通过广度优先搜索算法构造子图;其中,所述子图包括至少k个节点;其中,N>0,k>0。
6.如权利要求5所述的文本分类方法,其特征在于,所述以每一所述关键节点作为根节点,通过广度优先搜索算法构造子图具体为:
获取所述根节点的邻接节点,若所述根节点的邻接节点的个数大于k-1,则以所述根节点、所述根节点的邻接节点和所述根节点和所述邻接节点的边构造子图;
若所述根节点的邻接节点的个数小于k-1,则逐级获取所述根节点的次级邻接节点,直到获取到的邻接节点和次级邻接节点的总个数大于或等于k或无法继续获取到所述次级邻接节点时停止,根据所述根节点、所述根节点的邻接节点和次级邻接节点、所述根节点和所述邻接节点的边、所述根节点的邻接节点和次级邻接节点的边以及所述次级邻接节点之间的边构造子图;其中,所述次级邻接节点为与所述根节点间接连接的节点。
7.如权利要求6所述的文本分类方法,其特征在于,将每一所述子图进行归一化处理具体为:
根据所述子图构建生成树,利用广度优先算法对所述生成树的节点由浅层到深层进行排序;
在同一层中,根据所述贡献值的大小对所述根节点的邻接节点进行排序;
当所述子图中的节点大于k时,保留所述生成树中排序前k的节点,从而完成所述子图的归一化过程;
当所述子图中的节点小于k时,在所述子图中增加若干个哑元节点,以使得所述子图中的节点个数等于k,从而完成所述子图的归一化过程;其中,所述哑元节点和原始的所述子图中的任一节点均不连接。
8.如权利要求7所述的文本分类方法,其特征在于,将每一子图进行归一化处理前还包括步骤:
根据以下公式对所述子图进行标记:
Figure FDA0002356375750000031
其中,G为预设标记为s的子图,AS(G)为子图G的邻接矩阵,DA(.,.)为两个矩阵的距离测度,DG(.,.)为两个子图的距离测度,s*为子图G'的标记结果。
9.如权利要求1所述的文本分类方法,其特征在于,所述神经网络为卷积神经网络,包括输入层、卷积层、池化层、全连接层和类别输出层。
10.一种文本分类装置,其特征在于,包括:
子图构造模块,用于接收输入的待分类文本,将所述待分类文本进行预处理后,构造所述待分类文本的图结构,根据所述待分类文本的图结构构造若干个子图,将每一所述子图进行归一化处理;所述待分类文本的图结构中,节点与所述待分类文本中的单词相对应;
类别预测模块,用于以每一所述子图作为神经网络的输入,根据所述神经网络的输出得到所述待分类文本的类别。
CN201710639782.7A 2017-07-31 2017-07-31 文本分类方法及装置 Active CN107463658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710639782.7A CN107463658B (zh) 2017-07-31 2017-07-31 文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710639782.7A CN107463658B (zh) 2017-07-31 2017-07-31 文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN107463658A CN107463658A (zh) 2017-12-12
CN107463658B true CN107463658B (zh) 2020-03-31

Family

ID=60547142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710639782.7A Active CN107463658B (zh) 2017-07-31 2017-07-31 文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN107463658B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287819A (zh) * 2018-01-12 2018-07-17 深圳市富途网络科技有限公司 一种实现财经新闻自动关联到股票的方法
CN110309293A (zh) * 2018-02-13 2019-10-08 北京京东尚科信息技术有限公司 文本推荐方法和装置
CN108388651B (zh) * 2018-02-28 2021-09-28 北京理工大学 一种基于图核和卷积神经网络的文本分类方法
CN108563622B (zh) * 2018-05-04 2020-04-07 清华大学 一种具有风格多样性的绝句生成方法及装置
CN108875072B (zh) * 2018-07-05 2022-01-14 第四范式(北京)技术有限公司 文本分类方法、装置、设备以及存储介质
CN109542986B (zh) * 2018-11-30 2020-10-30 北京锐安科技有限公司 网络数据的要素归一化方法、装置、设备及存储介质
CN110245227B (zh) * 2019-04-25 2021-12-28 义语智能科技(广州)有限公司 文本分类的融合分类器的训练方法及设备
CN110363283B (zh) * 2019-06-06 2021-06-22 哈尔滨工业大学(深圳) 基于深度学习的用户属性预测方法及相关装置
CN110674301A (zh) * 2019-09-30 2020-01-10 出门问问信息科技有限公司 一种情感倾向预测方法、装置、系统及存储介质
CN112883187B (zh) * 2019-11-29 2022-08-05 武汉渔见晚科技有限责任公司 一种用户知识概念网络的构建方法及装置、用户知识的评价方法
CN111598093B (zh) * 2020-05-25 2024-05-14 深圳前海微众银行股份有限公司 图片中文字的结构化信息生成方法、装置、设备及介质
US11562028B2 (en) 2020-08-28 2023-01-24 International Business Machines Corporation Concept prediction to create new intents and assign examples automatically in dialog systems
CN114491029B (zh) * 2022-01-18 2023-07-25 四川大学 基于图神经网络的短文本相似度计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039838A (ja) * 2009-08-12 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> パターン分類装置およびパターン分類方法
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN106547735A (zh) * 2016-10-25 2017-03-29 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039838A (ja) * 2009-08-12 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> パターン分類装置およびパターン分類方法
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN106547735A (zh) * 2016-10-25 2017-03-29 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
利用图结构进行半监督学习的短文本分类研究;张倩等;《图书情报工作》;20131130;第57卷(第21期);第126-131页 *
基于图模型的文本分类方法的研究;孟海东等;《计算机与现代化》;20101231(第9期);第38-40页 *
基于语义和图的文本聚类算法研究;蒋旦等;《中文信息学报》;20160930;第30卷(第5期);第121-127页 *

Also Published As

Publication number Publication date
CN107463658A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463658B (zh) 文本分类方法及装置
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN105183715B (zh) 一种基于词分布和文档特征的垃圾评论自动分类方法
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN112559684A (zh) 一种关键词提取及信息检索方法
CN110705292B (zh) 一种基于知识库和深度学习的实体名称提取方法
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN116881436A (zh) 基于知识图谱的文献检索方法、系统、终端及存储介质
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN106021424B (zh) 一种文献作者重名检测方法
CN114997288A (zh) 一种设计资源关联方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant