CN114091451A - 一种文本分类方法、装置、设备及存储介质 - Google Patents

一种文本分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114091451A
CN114091451A CN202111396144.XA CN202111396144A CN114091451A CN 114091451 A CN114091451 A CN 114091451A CN 202111396144 A CN202111396144 A CN 202111396144A CN 114091451 A CN114091451 A CN 114091451A
Authority
CN
China
Prior art keywords
word
nodes
subject
node
semantic distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111396144.XA
Other languages
English (en)
Inventor
王伟
黄勇其
于翠翠
张黔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Runlian Software System Shenzhen Co Ltd
Original Assignee
Runlian Software System Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Runlian Software System Shenzhen Co Ltd filed Critical Runlian Software System Shenzhen Co Ltd
Priority to CN202111396144.XA priority Critical patent/CN114091451A/zh
Publication of CN114091451A publication Critical patent/CN114091451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例属于人工智能领域,尤其涉及一种文本分类方法、装置、设备及存储介质,所述方法包括:获取待分析文本,对文本进行分词形成分词集合,并根据主题模型获取文本的主题词形成主题词集合;获取主题词集合中每个词的词嵌入向量,将词嵌入向量降维映射到平面上,并根据平面上的映射点构造维诺图;计算非主题词与主题词之间的语义距离,将非主题词加入到维诺图中;识别维诺图中每个词的词节点类型,根据词节点类型通过对应的算法计算出词节点之间的语义距离;将词节点之间的语义距离输入预先构建的图卷积神经网络输出图隐含向量,根据图隐含向量进行文本分类。本发明提高了文本分类的准确性。

Description

一种文本分类方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本分类方法、装置、设备及存储介质。
背景技术
文本分类是自然语言处理领域中的常见任务。近年来,从传统基于特征工程+机器学习分类法,诸如基于TF-IDF(词频-逆文档频率)提取特征再训练机器学习分类器,到将各种基于CNN(卷积神经网络)、RNN(循环神经网络)的深度学习方法引入文本分类,例如fasttext、textCNN、TextRNN等。再如近年来基于深度神经网络的预训练语言模型BERT(基于变换器的双向编码器表示技术)、ELMO(语言模型的嵌入)等出现,使得文本分类的准确率已经得到了很大提高。
但是发明人发现,现有方法主要着眼于局部特征的捕捉,从整体上获取更高层面、更隐含信息的技术手段依然有限。
发明内容
本发明实施例的目的在于提出一种文本分类方法、装置、设备及存储介质,解决了现有技术中基于局部特征的捕捉进行文本分类的问题,从多维度多个维度提取语义特征,提高了文本分类的准确率。
为了解决上述技术问题,本发明实施例提供一种文本分类方法,包括:获取待分析文本,对所述文本进行分词形成分词集合,并根据主题模型获取所述文本的主题词形成主题词集合;获取所述主题词集合中每个词的词嵌入向量,将所述词嵌入向量降维映射到平面上,并根据所述平面上的映射点构造维诺图;计算非主题词与所述主题词之间的语义距离,根据所述语义距离将所述非主题词加入到所述维诺图中;识别所述维诺图中每个词的词节点类型,根据所述词节点类型通过对应的算法计算出词节点之间的语义距离;将所述词节点之间的语义距离输入预先构建的图卷积神经网络输出图隐含向量,根据所述图隐含向量进行文本分类。
进一步的,所述获取所述主题词集合中每个词的词嵌入向量,将所述词嵌入向量降维映射到平面上,并根据所述平面上的映射点构造维诺图的步骤,包括:根据词向量模型,获得所述主题词集合中每个词的词嵌入向量;根据t-随机邻近嵌入法将主题词集合中每个词的词嵌入向量降维映射到平面上,并基于所有的映射点构造网格,形成维诺图。
进一步的,所述计算非主题词与所述主题词之间的语义距离,将所述非主题词加入到所述维诺图中的步骤,包括:根据所述分词集合和主题词集合的差集形成差集集合,计算所述差值集合中的每个非主题词到所述主题词集合中的每个主题词的语义距离,并根据所述语义距离将所述差值集合中的每个非主题词划分到距离最近的主题词所在的所述维诺图的网格中。
进一步的,所述词节点类型包括普通词节点和实体节点;所述识别所述维诺图中每个词的词节点类型,包括:通过命名实体识别来识别实体节点,如果不是实体节点,则确定为普通词节点。
进一步的,所述识别所述维诺图中每个词的词节点类型,根据所述词节点类型通过对应的算法计算出词节点之间的语义距离的步骤,包括:
判断待计算的两个词节点的词节点类型是否相同;
若类型不同,则计算所述普通词节点的词嵌入向量和所述实体节点的词嵌入向量之间的余弦距离,作为待计算的两个词节点之间的语义距离;
若类型相同,则确定所述词节点是普通节点还是实体节点,若为普通节点,则根据普通节点对应的普通算法计算出词节点之间的语义距离,若为实体节点,则根据实体节点对应的实体算法计算出词节点之间的语义距离。
进一步的,所述确定所述词节点是普通节点还是实体节点,若为普通节点,则根据普通节点对应的普通算法计算出词节点之间的语义距离,若为实体节点,则根据实体节点对应的实体算法计算出词节点之间的语义距离的步骤,包括:
如果待计算的两个词节点均是普通词节点,则确定待计算的两个普通词节点的位置,按照不同位置选择对应的普通算法计算出词节点之间的语义距离;
如果待计算的两个词节点均是实体节点,则按照以下公式计算实体节点Ei和Ej之间的语义距离:
Figure BDA0003370413610000031
其中,
Figure BDA0003370413610000032
为层级权重,sim(Ei,Ej)为实体节点之间的嵌入向量余弦相似度,∑REi为实体节点Ei所有连接边的嵌入向量之和,∑REj为实体节点Ej所有连接边的嵌入向量之和。
进一步地,所述确定待计算的两个普通词节点的位置,按照不同位置选择对应的普通算法计算出词节点之间的语义距离的步骤,包括:判断待计算的两个普通词节点的位置是否处于同一个网格;
如果处于同一个网格hk中,则按照以下公式计算词节点wi与wj之间语义距离:
Figure BDA0003370413610000033
如果不处于同一个网格hk中,则按照以下公式计算普通词节点wi与wj之间的语义距离:
Figure BDA0003370413610000034
其中,Sum_word(hk)为所在网格中节点总数,Sum_totalword为维诺图中全部词节点数量,cos(wi,wj)为wi与wj之间词嵌入向量的余弦相似度。
为了解决上述技术问题,本发明实施例还提供一种文本分类装置,包括:第一处理模块,用于获取待分析文本,对所述文本进行分词形成分词集合,并根据主题模型获取所述文本的主题词形成主题词集合;第二处理模块,用于获取所述主题词集合中每个词的词嵌入向量,将所述词嵌入向量降维映射到平面上,并根据所述平面上的映射点构造维诺图;第一计算模块,用于计算非主题词与所述主题词之间的语义距离,根据所述语义距离将所述非主题词加入到所述维诺图中;第二计算模块,用于识别所述维诺图中每个词的词节点类型,根据所述词节点类型通过对应的算法计算出词节点之间的语义距离;文本分类模块,用于将所述词节点之间的语义距离输入预先构建的图卷积神经网络输出图隐含向量,根据所述图隐含向量进行文本分类。
为了解决上述技术问题,本发明实施例还提供一种文本分类设备,所述文本分类设备包括处理器,存储器以及存储在所述存储器中的文本分类程序,所述文本分类程序被所述处理器运行时,实现如前所述的文本分类方法的步骤。
为了解决上述技术问题,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序被处理器运行时,实现实现如前所述的文本分类方法的步骤。
与现有技术相比,本发明实施例主要有以下有益效果:通过区分主题词,并将主题词的词嵌入向量降维映射到平面上构造维诺图,计算其他词与主题词之间的语义距离,将其他词划分到语义距离最近的主题词在维诺图中网格中,从而在第一维度上体现出词与词之间隐含的联系;再通过识别维诺图中每个词的词节点类型,并根据词节点类型来计算出词节点之间的语义距离,从而在第二维度上体现出词与词之间隐含的联系;进一步将词节点之间的语义距离输入图卷积神经网络输出图隐含向量,并根据图隐含向量进行文本分类。即本发明实施例通过多个维度提取不同的语义特征,再采用图卷积神经网络提取深层次语义特征,使得文本分类效果更为准确。
附图说明
为了更清楚地说明本发明中的方案,下面将对本发明实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1根据本发明文本分类方法的一个实施例的流程图;
图2是根据本发明构建维诺图的一个实施例的示意图;
图3是根据本发明文本分类装置的一个实施例的结构示意图;
图4是根据本发明的文本分类设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本发明的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本发明的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本发明方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提出了一种文本分类方法、装置、设备及存储介质。本发明实施例的文本分类方法一般由终端设备执行,该终端设备可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
如图1所示,示出了根据本发明的文本分类方法的一个实施例的流程图。所述的文本分类方法,包括以下步骤:
步骤101,获取待分析文本,对所述文本进行分词形成分词集合,并根据主题模型获取所述文本的主题词形成主题词集合。
在本发明实施例中,获取待分析文本,如果文本多于一个,则将所有文本拼接形成新的一个待分析文本。
按照一定的策略对待分析文本进行分词,形成分词集合Sw={w1,w2,...,wm}。所选用的分词策略可以是基于字典的分词,例如先把句子按照字典切分成词,再寻找词的最佳组合方式;所采用的算法可以是最大匹配分词算法、最短路径分词算法、基于n-gram model的分词算法等。也可以是基于字的分词,例如由字构词,先把句子分成一个个字,再将字组合成词,寻找最优的切分策略,同时也可以转化成序列标注;所采用的算法可以是生成式模型分词算法、判别式模型分词算法、神经网络分词算法等。以上各种分词算法仅为举例,但并不限于此。
根据主题模型获取反映所述文本中心思想的主题词集合Swl={wl1,wl2,...,wln},其中所述主题模型可以采用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)。LDA是一种词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
步骤102,获取所述主题词集合中每个词的词嵌入向量,将所述词嵌入向量降维映射到平面上,并根据所述平面上的映射点构造维诺图。
在本发明实施例中,根据词向量模型,获得所述主题词集合中每个词的词嵌入向量。词向量模型可采用谷歌开源的word2vec词嵌入向量,或者随机初始化谷歌开源的word2vec是一种词嵌入工具,它能生成词向量,通过词向量可以度量词与词之间的相似性。
采用T-SNE(t-distributed stochastic neighbor embedding,t-随机邻近嵌入法)将主题词集合中每个词的词嵌入向量降维映射到2-D平面上作定性的可视化观察,可以通过可视化直观的验证有效性。如图2所示,映射到该平面上的映射点Xi即代表词,一个点对应一个词。基于所有的映射点构造维诺(Voronoi)图,该图中每个映射点Xi所在区域定义为Xi所在的网格。
步骤103,计算非主题词与所述主题词之间的语义距离,根据所述语义距离将所述非主题词加入到所述维诺图中。
在本发明实施例中,根据所述分词集合和主题词集合的差集形成差集集合,定义差集集合
Figure BDA0003370413610000071
是所述分词集合Sw与所述主题词集合Swl的差集,即
Figure BDA0003370413610000072
中包含的是分词集合中除去主题词集合的主题词,也就是非主题词。设定在Voronoi图中每个主题词所在的网格为hi。对差集集合
Figure BDA0003370413610000073
中的每个非主题词,可采用词嵌入向量之间的余弦相似度计算非主题词到主题词集合Swl中主题词的语义距离,从而将差集集合中的每个非主题词划分到距离最近的主题词wli所在的网格。设定主题词集合中第i个主题词wli所在的网格为hi
步骤104,识别所述维诺图中每个词的词节点类型,根据所述词节点类型通过对应的算法计算出词节点之间的语义距离。
在本发明实施例中,所述词节点类型包括普通词节点和实体节点,可以通过命名实体识别(Named Entity Recognition,NER)来识别是否是实体节点,如果不是实体节点,则确定为普通词节点。
根据所述词节点类型通过对应的算法计算出词节点之间的语义距离,具体包括:判断待计算的两个词节点的词节点类型是否相同;若类型不同,则计算所述普通词节点的词嵌入向量和所述实体节点的词嵌入向量之间的余弦距离,作为待计算的两个词节点之间的语义距离;若类型相同,则确定所述词节点是普通节点还是实体节点,若为普通节点,则根据普通节点对应的普通算法计算出词节点之间的语义距离,若为实体节点,则根据实体节点对应的实体算法计算出词节点之间的语义距离。
(1),对于普通词节点,通过预训练语言模型,例如Bert,输出得到其对应的词嵌入向量。在进行普通词节点之间的语义距离计算时,还需要先识别普通词节点是否处于同一个网络中。
如果待计算的两个词节点均是普通词节点wi与wj且处于同一个网格hk,设其所在网格中节点总数为Sum_word(hk),全部词节点数量为Sum_totalword,wi与wj之间词嵌入向量的余弦相似度为cos(wi,wj),则按照以下公式计算wi与wj之间语义距离:
Figure BDA0003370413610000081
如果待计算的两个词节点均是普通词节点wi与wj但不处于同一个网格hk,则按照以下公式计算wi与wj之间语义距离:
Figure BDA0003370413610000082
(2),如果待计算的两个词节点均是实体节点,根据实体节点在知识图谱KGmapping中位于的层级和实体节点的嵌入向量余弦相似度,通过以下公式来计算实体节点Ei和Ej之间的语义距离Ds(Ei,Ej):
Figure BDA0003370413610000083
上式中,
Figure BDA0003370413610000084
为层级权重,sim(Ei,Ej)为实体节点之间的嵌入向量余弦相似度,∑REi为实体节点Ei所有连接边的嵌入向量之和,∑REj为实体节点Ej所有连接边的嵌入向量之和。
例如,位于同一层级的实体节点Ei与Ej
Figure BDA0003370413610000085
定义为1,例如苹果和梨子、北京和上海;而对于类似汽车、轮胎这样的实体节点,具有自顶向下的关系或者自底向上的关系,实体节点Ei对于其上/下一层实体节点Ei
Figure BDA0003370413610000091
为1,再上/下一层为预先指定的系数λ,以此类推为λn;例如设λ=0.8,传动轴对于发动机的
Figure BDA0003370413610000092
为0.8,对汽车的
Figure BDA0003370413610000093
为0.64。
其中,知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是
Figure BDA0003370413610000095
实体-关系-实体
Figure BDA0003370413610000094
三元组,以及实体及其相关属性-值对,实体之间通过关系相互联结,构成网状的知识结构。通过知识图谱,可以实现Web从网页链接向概念链接转变,支持用户按主题而不是字符串检索。
(3),如果待计算的两个词节点分别是普通词节点和实体节点,它们之间的语义距离即普通词节点的实体节点各自词嵌入向量之间的余弦距离。
步骤105,将所述词节点之间的语义距离输入预先构建的图卷积神经网络输出图隐含向量,根据所述图隐含向量进行文本分类。
在本发明实施例中,预先构建图卷积神经网络(Graph Convolutional Network,GCN)。图卷积神经网络中设置邻接语义距离矩阵,该邻接语义距离矩阵中的元素即词节点i与j之间的语义距离。GCN的层数可以自行设置。任一图卷积层为一非线性函数:Hl+1=f(Hl,A),其中,H0=X为第一层的输入,X∈RN*D,N为图的节点个数,D为每个节点特征向量的维度,A为邻接矩阵,不同模型的差异点在于函数f的实现不同,f为σ非线性激活函数。
将计算出的所有词节点之间的语义距离输入图卷积神经网络,输出图隐含向量,根据图隐含向量采用Softmax函数进行分类,其中损失函数采用交叉熵函数。
在本发明实施例中,通过区分主题词,并将主题词的词嵌入向量降维映射到平面上构造维诺图,计算其他词与主题词之间的语义距离,将其他词划分到语义距离最近的主题词在维诺图中网格中,从而在第一维度上体现出词与词之间隐含的联系;再通过识别维诺图中每个词的词节点类型,并根据词节点类型来计算出词节点之间的语义距离,从而在第二维度上体现出词与词之间隐含的联系;进一步将词节点之间的语义距离输入图卷积神经网络输出图隐含向量,并根据图隐含向量进行文本分类。即本发明实施例通过多个维度提取不同的语义特征,再采用图卷积神经网络提取深层次语义特征,使得文本分类效果更为准确。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图1所示方法的实现,本发明提供了一种文本分类装置300的一个实施例,该装置实施例与图1所示的方法实施例相对应。如图3所示,本发明实施例还提供一种文本分类装置300,包括:
第一处理模块31,用于获取待分析文本,对所述文本进行分词形成分词集合,并根据主题模型获取所述文本的主题词形成主题词集合;
第二处理模块32,用于获取所述主题词集合中每个词的词嵌入向量,将所述词嵌入向量降维映射到平面上,并根据所述平面上的映射点构造维诺图;
第一计算模块33,用于计算非主题词与所述主题词之间的语义距离,根据所述语义距离将所述非主题词加入到所述维诺图中;
第二计算模块34,用于识别所述维诺图中每个词的词节点类型,根据所述词节点类型通过对应的算法计算出词节点之间的语义距离;
文本分类模块35,用于将所述词节点之间的语义距离输入预先构建的图卷积神经网络输出图隐含向量,根据所述图隐含向量进行文本分类。
其中,所述第二处理模块包括获取子模块和图形生成子模块,所述获取子模块用于根据词向量模型,获得所述主题词集合中每个词的词嵌入向量;所述图形生成子模块用于根据t-随机邻近嵌入法将主题词集合中每个词的词嵌入向量降维映射到平面上,并基于所有的映射点构造网格,形成维诺图。
所述第一计算模块包括集合形成子模块、第一计算子模块和分配子模块,所述集合形成模块用于根据所述分词集合和主题词集合的差集形成差集集合;所述计算子模块用于计算所述差值集合中的每个非主题词到所述主题词集合中的每个主题词的语义距离;所述分配子模块用于根据所述语义距离将所述差值集合中的每个非主题词划分到距离最近的主题词所在的所述维诺图的网格中。
所述第二计算模块包括识别子模块和第二计算子模块,所述识别子模块用于通过命名实体识别来识别实体节点,如果不是实体节点,则确定为普通词节点;第二计算子模块用于:判断待计算的两个词节点的词节点类型是否相同;若类型不同,则计算所述普通词节点的词嵌入向量和所述实体节点的词嵌入向量之间的余弦距离,作为待计算的两个词节点之间的语义距离;若类型相同,则确定所述词节点是普通节点还是实体节点,若为普通节点,则根据普通节点对应的普通算法计算出词节点之间的语义距离,若为实体节点,则根据实体节点对应的实体算法计算出词节点之间的语义距离。
其中如果待计算的两个词节点均是普通词节点,则确定待计算的两个普通词节点的位置,按照不同位置选择对应的普通算法计算出词节点之间的语义距离;
如果待计算的两个词节点均是实体节点,则按照以下公式计算实体节点Ei和Ej之间的语义距离:
Figure BDA0003370413610000121
其中,
Figure BDA0003370413610000122
为层级权重,sim(Ei,Ej)为实体节点之间的嵌入向量余弦相似度,∑REi为实体节点Ei所有连接边的嵌入向量之和,∑REj为实体节点Ej所有连接边的嵌入向量之和;
确定待计算的两个普通词节点的位置,按照不同位置选择对应的普通算法计算出词节点之间的语义距离的步骤,包括:判断待计算的两个普通词节点的位置是否处于同一个网格;如果计算的两个词节点处于同一个网格hk中,则按照以下公式计算词节点wi与wj之间的语义距离:
Figure BDA0003370413610000123
如果待计算的两个词节点不处于同一个网格hk中,则按照以下公式计算普通词节点wi与wj之间的语义距离:
Figure BDA0003370413610000124
其中,Sum_word(hk)为所在网格中节点总数,Sum_totalword为维诺图中全部词节点数量,cos(wi,wj)为wi与wj之间词嵌入向量的余弦相似度。
所述各模块所涉及到的处理方法、计算方法和分类方法可参照本发明文本前述的文本分类方法发各个实施例,此处不再赘述。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如文本分类方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述文本分类方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序被处理器运行时,实现实现如前所述的文本分类方法的步骤。所述文本分类程序被执行时所实现的方法可参照本发明文本分类方法发各个实施例,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,附图中给出了本发明的较佳实施例,但并不限制本发明的专利范围。本发明可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。

Claims (10)

1.一种文本分类方法,其特征在于,包括下述步骤:
获取待分析文本,对所述文本进行分词形成分词集合,并根据主题模型获取所述文本的主题词形成主题词集合;
获取所述主题词集合中每个词的词嵌入向量,将所述词嵌入向量降维映射到平面上,并根据所述平面上的映射点构造维诺图;
计算非主题词与所述主题词之间的语义距离,根据所述语义距离将所述非主题词加入到所述维诺图中;
识别所述维诺图中每个词的词节点类型,根据所述词节点类型通过对应的算法计算出词节点之间的语义距离;
将所述词节点之间的语义距离输入预先构建的图卷积神经网络输出图隐含向量,根据所述图隐含向量进行文本分类。
2.根据权利要求1所述的文本分类方法,其特征在于,所述获取所述主题词集合中每个词的词嵌入向量,将所述词嵌入向量降维映射到平面上,并根据所述平面上的映射点构造维诺图的步骤,包括:
根据词向量模型,获得所述主题词集合中每个词的词嵌入向量;
根据t-随机邻近嵌入法将主题词集合中每个词的词嵌入向量降维映射到平面上,并基于所有的映射点构造网格,形成维诺图。
3.根据权利要求2所述的文本分类方法,其特征在于,所述计算非主题词与所述主题词之间的语义距离,根据所述语义距离将所述非主题词加入到所述维诺图中的步骤,包括:
根据所述分词集合和主题词集合的差集形成差集集合,计算所述差值集合中的每个非主题词到所述主题词集合中的每个主题词的语义距离,并根据所述语义距离将所述差值集合中的每个非主题词划分到距离最近的主题词所在的所述维诺图的网格中。
4.根据权利要求1所述的文本分类方法,其特征在于,所述词节点类型包括普通词节点和实体节点;
所述识别所述维诺图中每个词的词节点类型,包括:通过命名实体识别来识别实体节点,如果不是实体节点,则确定为普通词节点。
5.根据权利要求4所述的文本分类方法,其特征在于,所述根据所述词节点类型通过对应的算法计算出词节点之间的语义距离的步骤,包括:
判断待计算的两个词节点的词节点类型是否相同;
若类型不同,则计算所述普通词节点的词嵌入向量和所述实体节点的词嵌入向量之间的余弦距离,作为待计算的两个词节点之间的语义距离;
若类型相同,则确定所述词节点是普通节点还是实体节点,若为普通节点,则根据普通节点对应的普通算法计算出词节点之间的语义距离,若为实体节点,则根据实体节点对应的实体算法计算出词节点之间的语义距离。
6.根据权利要求5所述的文本分类方法,其特征在于,所述确定所述词节点是普通节点还是实体节点,若为普通节点,则根据普通节点对应的普通算法计算出词节点之间的语义距离,若为实体节点,则根据实体节点对应的实体算法计算出词节点之间的语义距离的步骤,包括:
如果待计算的两个词节点均是普通词节点,则确定待计算的两个普通词节点的位置,按照不同位置选择对应的普通算法计算出词节点之间的语义距离;
如果待计算的两个词节点均是实体节点,则按照以下公式计算实体节点Ei和Ej之间的语义距离:
Figure FDA0003370413600000021
其中,
Figure FDA0003370413600000022
为层级权重,sim(Ei,Ej)为实体节点之间的嵌入向量余弦相似度,∑REi为实体节点Ei所有连接边的嵌入向量之和,∑REj为实体节点Ej所有连接边的嵌入向量之和。
7.根据权利要求6所述的文本分类方法,其特征在于,所述确定待计算的两个普通词节点的位置,按照不同位置选择对应的普通算法计算出词节点之间的语义距离的步骤,包括:
判断待计算的两个普通词节点的位置是否处于同一个网格;
如果处于同一个网格hk中,则按照以下公式计算词节点wi与wj之间的语义距离:
Figure FDA0003370413600000031
如果不处于同一个网格hk中,则按照以下公式计算普通词节点wi与wj之间的语义距离:
Figure FDA0003370413600000032
其中,Sum_word(hk)为所在网格中节点总数,Sum_totalword为维诺图中全部词节点数量,cos(wi,wj)为wi与wj之间词嵌入向量的余弦相似度。
8.一种文本分类装置,其特征在于,包括:
第一处理模块,用于获取待分析文本,对所述文本进行分词形成分词集合,并根据主题模型获取所述文本的主题词形成主题词集合;
第二处理模块,用于获取所述主题词集合中每个词的词嵌入向量,将所述词嵌入向量降维映射到平面上,并根据所述平面上的映射点构造维诺图;
第一计算模块,用于计算非主题词与所述主题词之间的语义距离,根据所述语义距离将所述非主题词加入到所述维诺图中;
第二计算模块,用于识别所述维诺图中每个词的词节点类型,根据所述词节点类型通过对应的算法计算出词节点之间的语义距离;
文本分类模块,用于将所述词节点之间的语义距离输入预先构建的图卷积神经网络输出图隐含向量,根据所述图隐含向量进行文本分类。
9.一种文本分类设备,其特征在于,所述文本分类设备包括处理器,存储器以及存储在所述存储器中的文本分类程序,所述文本分类程序被所述处理器运行时,实现如权利要求1-7中任一项所述的文本分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序被处理器运行时,实现如权利要求1-7中任一项所述的文本分类方法的步骤。
CN202111396144.XA 2021-11-23 2021-11-23 一种文本分类方法、装置、设备及存储介质 Pending CN114091451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111396144.XA CN114091451A (zh) 2021-11-23 2021-11-23 一种文本分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111396144.XA CN114091451A (zh) 2021-11-23 2021-11-23 一种文本分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114091451A true CN114091451A (zh) 2022-02-25

Family

ID=80303450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111396144.XA Pending CN114091451A (zh) 2021-11-23 2021-11-23 一种文本分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114091451A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937277A (zh) * 2022-05-18 2022-08-23 北京百度网讯科技有限公司 基于图像的文本获取方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937277A (zh) * 2022-05-18 2022-08-23 北京百度网讯科技有限公司 基于图像的文本获取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110532381B (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
CN114780727A (zh) 基于强化学习的文本分类方法、装置、计算机设备及介质
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN112084779B (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN113505601A (zh) 一种正负样本对构造方法、装置、计算机设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN114091451A (zh) 一种文本分类方法、装置、设备及存储介质
CN115730237B (zh) 垃圾邮件检测方法、装置、计算机设备及存储介质
CN112182157A (zh) 在线序列标注模型的训练方法、在线标注方法及相关设备
CN116755688A (zh) 组件处理方法、装置、计算机设备及存储介质
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN112732913B (zh) 一种非均衡样本的分类方法、装置、设备及存储介质
CN116363686B (zh) 一种在线社交网络视频平台来源检测方法及其相关设备
CN115495541B (zh) 语料数据库、语料数据库的维护方法、装置、设备和介质
Ghaemmaghami et al. Integrated-Block: A New Combination Model to Improve Web Page Segmentation
CN113688268B (zh) 图片信息抽取方法、装置、计算机设备及存储介质
CN113987115A (zh) 一种文本相似度计算方法、装置、设备及存储介质
CN117011874A (zh) 基于人工智能的文本检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination