CN110019653B - 一种融合文本和标签网络的社交内容表征方法和系统 - Google Patents

一种融合文本和标签网络的社交内容表征方法和系统 Download PDF

Info

Publication number
CN110019653B
CN110019653B CN201910277671.5A CN201910277671A CN110019653B CN 110019653 B CN110019653 B CN 110019653B CN 201910277671 A CN201910277671 A CN 201910277671A CN 110019653 B CN110019653 B CN 110019653B
Authority
CN
China
Prior art keywords
label
words
network
representation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910277671.5A
Other languages
English (en)
Other versions
CN110019653A (zh
Inventor
李建欣
宁元星
彭浩
龚其然
李培文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201910277671.5A priority Critical patent/CN110019653B/zh
Publication of CN110019653A publication Critical patent/CN110019653A/zh
Application granted granted Critical
Publication of CN110019653B publication Critical patent/CN110019653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种融合文本和标签网络的社交内容表征方法和系统,所述方法包括:对文本数据进行处理,得到该文本数据的图表示,并对得到的子图中节点按照BFS进行排序;对所述图表示进行数据结构化处理;建立标签网络,并根据元路径在标签网络中随机游走得到标签的向量表示;将处理得到的结构化数据输入神经网络中,基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练。

Description

一种融合文本和标签网络的社交内容表征方法和系统
技术领域
本申请涉及神经网络技术,尤其涉及一种融合文本和标签网络的社交内容表征方法和系统。
背景技术
文本分类是自然语言处理(Natural Language Processing,NLP)领域的一项基础工作,在工业界拥有大量且丰富的应用场景。传统的文本分类需要依赖很多词法、句法相关的人为提取的特征,而利用深度学习能够实现无监督的训练。自深度学习技术快速发展之后,尤其是循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural NetWork,CNN)在NLP领域逐渐获得广泛应用,使得传统的文本分类任务变得更加容易,准确率也不断提升。基于预先训练好的词嵌入向量(wordembedding),采用CNN训练了一个词级别的句子分类器,并进行了一系列的实验来验证分类效果。实验证明,一个简单的CNN模型,如图1所示,只需要调整少量超参数和wordembedding,在多个标准数据集上都取得了很好的效果。RNN也是NLP任务中最常用的网络结构之一,因为它的递归结构非常适合处理不同长度的文本。RNN可以基于词(word)的嵌入向量(embedding),把句子文本抽取成一个矩阵。
然而利用文本CNN(Text CNN)模型完成文本分类时,创建的文本序列的矩阵包括2个维度,一个维度是文本中的词,另一个维度是各个词维度。在进行卷积操作的时候并不能对矩阵的宽维度进行卷积,只能用与矩阵宽度一样的卷积核,进行卷积操作的结果会得到一个列向量,无法继续进行卷积。
并且,目前的技术没有利用文本多标签分类中标签之间的关联,对于复杂的文本数据集,如RCV1,20news这样存在标签的网络,标签之间有不同的距离,目前没有很好的办法能够利用这个距离来优化分类效果。
申请内容
为解决上述技术问题,本申请实施例提供了一种融合文本和标签网络的社交内容表征方法和系统。
本申请实施例提供的神经网络处理数据的方法,包括:
对文本数据进行处理,得到该文本数据的图表示,并对得到的子图中节点按照BFS进行排序;
对所述图表示进行数据结构化处理;建立标签网络,并根据元路径在标签网络中随机游走得到标签的向量表示;
将处理得到的结构化数据输入神经网络中,基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练。
本申请实施例提供的神经网络处理数据的装置,包括:
图表示模块,用于对文本数据进行处理,得到该文本数据的图表示,并对得到的子图中节点按照BFS进行排序;
结构化处理模块,用于对所述图表示进行数据结构化处理;建立标签网络,并根据元路径在标签网络中随机游走得到标签的向量表示;
训练模块,用于将处理得到的结构化数据输入神经网络中,基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练。
采用本申请实施例的上述技术方案,1)有效地利用显式和隐式标签依赖信息,非连续和长距离语义文本建模,字嵌入和LSTM+RNN网络方法来学习高级和区分文本特征;2)在多标签文本分类方面展示了强大的成果。甚至,极大地推动了从单标签到多标签任务的转移学习;3)实现了正则化的对抗LSTM+RNN网络,用于多任务文本分类。4)算法多参数可调,可根据需求设置,算法内部耦合性低,可移植性好。5)提出了层次分类嵌入方法来测量标签之间的距离,并且标签距离也被整合到新的加权交叉熵中。
附图说明
图1为Text CNN的结构图;
图2为本申请实施例提供的神经网络处理数据的方法的流程示意图;
图3为本申请实施例提供的原理整体架构图;
图4为本申请实施例提供的数据结构化表示与所用的深度神经网络结构图;
图5为本申请实施例提供的标签网络及元路径的示意图;
图6为本申请实施例提供的神经网络处理数据的装置的结构组成示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于计算机系统/服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本申请实施例的技术方案基于宽度图模型建立更复杂的文本表示方法,使原来不能在宽度方向进行卷积操作的问题,通过增加了一个维度后,能够进行卷积,并用于深度神经网络。同时,本申请实施例的技术方案我们改进了神经网络的训练过程,利用数据集中的标签之间的关系优化了神经网络训练过程。
图2为本申请实施例提供的神经网络处理数据的方法的流程示意图,如图2所示,所述神经网络处理数据的方法包括以下步骤:
步骤201:对文本数据进行处理,得到该文本数据的图表示,并对得到的子图中节点按照BFS进行排序。
需要说明的是,本申请实施例中的方法步骤可以在部署和配置python的tensorflow运行环境中实现,不局限于此,本申请实施例中的方法步骤还可以在其他机器学习框架中实现。
本申请实施例中,文本数据首先需要进行图(graph)表示,具体地,可以通过以下步骤来实现文本数据的graph表示:
1)对所述文本数据进行分词,去掉词中的停用词;
2)利用固定的滑动窗口尺寸计算词之间的共生程度,得到所述文本数据对应的词网络图,其中节点是文本单词,如果两个单词存在于同一个滑动窗口内,则它们之间具有一条边。
步骤202:对所述图表示进行数据结构化处理;建立标签网络,并根据元路径在标签网络中随机游走得到标签的向量表示。
本申请实施例中,为了使神经网络能够对图表示进行处理,需要对所述图表示进行数据结构化处理。具体地,可以通过以下步骤来实现数据结构化处理:
1)在所述图表示中,按照紧密中心度对图中所有节点进行排序,取最大的N个词,N为正整数;
2)对于所述N个词中的每个词,使用广度优先搜索算法得到与该词最相邻的KS个词,其中KS个词的排列顺序与它们通过BFS加入的顺序一致,将该词和所述KS个词组成长度为M的序列,其中,M=KS+1;
3)将K维词嵌入表示运用到所述序列中,得到N*M*K的文本表示。
本申请实施例中,元路径分为父子父,子父子,在标签网络中按照这两条元路径进行随机游走得到语料,将语料放入word2vec中进行训练得到标签的向量表示。
步骤203:将处理得到的结构化数据输入神经网络中,基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练。
本申请实施例中,在对所述神经网络进行LSTM+RNN训练的过程中,利用标签网络调节所述神经网络中的损失系数,所述标签网络包含有标签之间的关联关系。
具体地,获取所述标签网络中各个标签的嵌入表示,基于所述各个标签的嵌入表示计算标签与标签之间的余弦相似度,其中,Simm,n表示标签m与标签n之间的余弦相似度;
计算标签n对应的参数
Figure GDA0003070685090000051
其中,t为所述文本数据命中的标签集合;
其中,所述标签n对应的Sn的取值越大,则表明所述标签n与正确的标签越相近,减慢损失系数对应于所述标签n的学习速率;所述标签n对应的Sn的取值越小,则表明所述标签n与正确的标签越不相近,加快损失系数对应于所述标签n的学习速率;损失系数为ln=-wn[yn·logxn+(1-yn)·log(1-xn)],xn是第n个标签的预测,yn是第n个标签的label。
优选地,所述神经网络的损失系数的权重基于以下公式确定:
Figure GDA0003070685090000061
其中,wn代表损失系数的权重,p为常数。
以下结合具体应用实例对本申请实施例的技术方案做进一步说明。参照图3,图3为本申请实施例提供的原理整体架构图。
(1)文本数据的Graph表示
将文本转化成矩阵,我们需要考虑到单词的共生,文本中的每个单词都不是独立的,他们与各个单词之间都是有关系的,将他们的关系使用Graph的形式表现出来。
首先我们对文本分词,去掉词中各种停用词来减少噪声,同时还要对单词进行词源化。正如在设计图中的样子,我们利用滑动窗口来计算单词之间的共生程度,有一个滑动的窗口在词组中向前滑动,窗口里的词都算是共生,同时统计各个词之间的共生程度。这样我们就能得到整个文本的词网络图,以及利用每个点的邻近点集组成的子图。
(2)对graph表示进行数据结构化处理
统计词组中出现最多的词,取前N个词,对于选择的每个词,从他的子图中使用广度优先搜索算法得到与词最相邻的KS个词,加上这个词的本身,组成长度为M=KS+1的序列。将K维词嵌入表示(word-Embedding)运用到该矩阵中,获得N*M*K的文本表示。
举个例子,N=100,M=20,K=50,参照图4,图4为本申请实施例提供的数据结构化表示与所用的深度神经网络结构图。
(3)多标签分类与标签网络
对于多标签分类方法,主要使用二元交叉熵损失(Binary Cross Entropy Loss)系数,本申请实施例的技术方案利用多标签数据集中的标签网络来调节损失(Loss)系数,公式如下:
Figure GDA0003070685090000062
其中,ln=-wn[yn·logxn+(1-yn)·log(1-xn)]。
其中,标签网络可以参照图5所示,标签网络包含了标签之间的关系,其中,(1)为元路径1(meta-path1),一个父节点(Father0)连接两个子节点(Child1和Child2)。(2)为元路径2(meta-path2),两个父节点(Father1和Father2)连接1个子节点(Child0)。(3)为各个标签的层次化和图形化结构(hierarchical and graphical structure oflabels),组成了标签网络。
利用节点嵌入表示(Node Embedding)获得各个标签的N维嵌入表示(Embedding),根据这个计算出标签与标签之间的余弦相似度:Simm,n,其中,0<Simm,n<1,表明标签m与标签n之间的余弦相似度。标签n与标签m之间关联度越大,Simm,n越大,反之Simm,n越小。
对于一个样本,命中了t={a,b,c,.....},那么这个样本中ya=1,yb=1.......,本申请实施例定义在这个样本中其他未标签到这命中标签可表示为:
Figure GDA0003070685090000071
当标签n的Sn比较大时,证明在这个样本中标签n与正确的标签相近,此时应该减慢Loss在标签n时的学习速率,在loss中应该减少-yn·logxn的大小,那么应该加一个小于1的权重,反之则加一个大于1的权重。为了平衡命中和未命中的情况,避免加了参数后学习不平衡,本申请实施例最终确定损失系数权重的公式为:
Figure GDA0003070685090000072
其中,wn代表损失系数的权重,p为常数,优选地,p=1.581978。
图6为本申请实施例提供的神经网络处理数据的装置的结构组成示意图,如图6所示,所述装置包括:
图表示模块601,用于对文本数据进行处理,得到该文本数据的图表示,并对得到的子图中节点按照BFS进行排序;
结构化处理模块602,用于对所述图表示进行数据结构化处理;建立标签网络,并根据元路径在标签网络中随机游走得到标签的向量表示;
训练模块603,用于将处理得到的结构化数据输入神经网络中,基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练。
在一实施方式中,所述图表示模块601,用于:
对所述文本数据进行分词,去掉词中的停用词;
利用固定的滑动窗口尺寸计算词之间的共生程度,得到所述文本数据对应的词网络图,其中节点是文本单词,如果两个单词存在于同一个滑动窗口内,则它们之间具有一条边。
在一实施方式中,所述结构化处理模块602,用于:
在所述图表示中,按照紧密中心度对图中所有节点进行排序,取最大的N个词,N为正整数;
对于所述N个词中的每个词,使用广度优先搜索算法得到与该词最相邻的KS个词,其中KS个词的排列顺序与它们通过BFS加入的顺序一致,将该词和所述KS个词组成长度为M的序列,其中,M=KS+1;
将K维词嵌入表示运用到所述序列中,得到N*M*K的文本表示。
在一实施方式中,所述结构化处理模块602,用于:在标签网络中按照父子父,子父子这两条元路径进行随机游走得到语料,将语料放入word2vec中进行训练得到标签的向量表示。
在一实施方式中,所述训练模块603,用于:
利用标签网络调节所述神经网络中的损失系数,所述标签网络包含有标签之间的关联关系。
在一实施方式中,所述训练模块603,用于:
获取所述标签网络中各个标签的嵌入表示,基于所述各个标签的嵌入表示计算标签与标签之间的余弦相似度,其中,Simm,n表示标签m与标签n之间的余弦相似度;
计算标签n对应的参数
Figure GDA0003070685090000081
其中,t为所述文本数据命中的标签集合;
其中,所述标签n对应的Sn的取值越大,则表明所述标签n与正确的标签越相近,减慢损失系数对应于所述标签n的学习速率;所述标签n对应的Sn的取值越小,则表明所述标签n与正确的标签越不相近,加快损失系数对应于所述标签n的学习速率;损失系数为ln=-wn[yn·logxn+(1-yn)·log(1-xn)],xn是第n个标签的预测,yn是第n个标签的label。
在一实施方式中,所述神经网络的损失系数的权重基于以下公式确定:
Figure GDA0003070685090000091
其中,wn代表损失系数的权重,p为常数。
本领域技术人员应当理解,图6所示的神经网络处理数据的装置中的各模块的实现功能可参照前述神经网络处理数据的方法的相关描述而理解。图6所示的神经网络处理数据的装置中的各模块的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本申请的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用,并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims (8)

1.一种融合文本和标签网络的社交内容表征方法,其特征在于,所述方法包括:
对文本数据进行处理,得到该文本数据的图表示,并对得到的图表示中的子图节点按照BFS进行排序;
在所述图表示中,按照紧密中心度对图中所有节点进行排序,取最大的N个词,N为正整数;对于所述N个词中的每个词,使用广度优先搜索算法得到与该词最相邻的KS个词,其中KS个词的排列顺序与该KS个词通过广度优先搜索算法BFS加入的顺序一致,将该词和所述KS个词组成长度为M的序列,其中,M=KS+1;将K维词嵌入表示运用到所述序列中,得到N*M*K的文本表示;
建立标签网络,标签网络中的元路径分为父子父,子父子,在标签网络中按照这两条元路径进行随机游走得到语料,将语料放入word2vec中进行训练得到标签的向量表示;
将处理得到的N*M*K的文本表示输入神经网络中,基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练。
2.根据权利要求1所述的方法,其特征在于,所述对文本数据进行处理,得到该文本数据的图表示,包括:
对所述文本数据进行分词,去掉词中的停用词;
利用固定的滑动窗口尺寸计算词之间的共生程度,得到所述文本数据对应的词网络图,其中节点是文本单词,如果两个单词存在于同一个滑动窗口内,则它们之间具有一条边。
3.根据权利要求1所述的方法,其特征在于,所述基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练,包括:
在对所述神经网络进行LSTM+RNN训练的过程中,利用标签网络调节所述神经网络中的损失系数,所述标签网络包含有标签之间的关联关系。
4.根据权利要求3所述的方法,其特征在于,所述利用标签网络调节所述神经网络中的损失系数,包括:
获取所述标签网络中各个标签的嵌入表示,基于所述各个标签的嵌入表示计算标签与标签之间的余弦相似度,其中,Simm,n表示标签m与标签n之间的余弦相似度;
计算标签n对应的参数
Figure FDA0003070685080000021
其中,t为所述文本数据命中的标签集合;
其中,所述标签n对应的Sn的取值越大,则表明所述标签n与正确的标签越相近,减慢损失系数对应于所述标签n的学习速率;所述标签n对应的Sn的取值越小,则表明所述标签n与正确的标签越不相近,加快损失系数对应于所述标签n的学习速率;损失系数为ln=-wn[yn·logxn+(1-yn)·log(1-xn)],xn是第n个标签的预测,yn是第n个标签的label,wn代表损失系数的权重;
所述神经网络的损失系数的权重基于以下公式确定:
Figure FDA0003070685080000022
其中,p为常数。
5.一种神经网络处理数据的装置,其特征在于,所述装置包括:
图表示模块,用于对文本数据进行处理,得到该文本数据的图表示,并对得到的图表示中的子图节点按照BFS进行排序;
结构化处理模块,用于在所述图表示中,按照紧密中心度对图中所有节点进行排序,取最大的N个词,N为正整数;对于所述N个词中的每个词,使用广度优先搜索算法得到与该词最相邻的KS个词,其中KS个词的排列顺序与该KS个词通过广度优先搜索算法BFS加入的顺序一致,将该词和所述KS个词组成长度为M的序列,其中,M=KS+1;将K维词嵌入表示运用到所述序列中,得到N*M*K的文本表示;建立标签网络,标签网络中的元路径分为父子父,子父子,在标签网络中按照这两条元路径进行随机游走得到语料,将语料放入word2vec中进行训练得到标签的向量表示;
训练模块,用于将处理得到的N*M*K的文本表示输入神经网络中,基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练。
6.根据权利要求5所述的装置,其特征在于,所述图表示模块,用于:
对所述文本数据进行分词,去掉词中的停用词;
利用固定的滑动窗口尺寸计算词之间的共生程度,得到所述文本数据对应的词网络图,其中节点是文本单词,如果两个单词存在于同一个滑动窗口内,则它们之间具有一条边。
7.根据权利要求5所述的装置,其特征在于,所述训练模块,用于:
利用标签网络调节所述神经网络中的损失系数,所述标签网络包含有标签之间的关联关系。
8.根据权利要求7所述的装置,其特征在于,所述训练模块,用于:
获取所述标签网络中各个标签的嵌入表示,基于所述各个标签的嵌入表示计算标签与标签之间的余弦相似度,其中,Simm,n表示标签m与标签n之间的余弦相似度;
计算标签n对应的参数
Figure FDA0003070685080000031
其中,t为所述文本数据命中的标签集合;
其中,所述标签n对应的Sn的取值越大,则表明所述标签n与正确的标签越相近,减慢损失系数对应于所述标签n的学习速率;所述标签n对应的Sn的取值越小,则表明所述标签n与正确的标签越不相近,加快损失系数对应于所述标签n的学习速率;损失系数为ln=-wn[yn·logxn+(1-yn)·log(1-xn)],xn是第n个标签的预测,yn是第n个标签的label,wn代表损失系数的权重;
所述神经网络的损失系数的权重基于以下公式确定:
Figure FDA0003070685080000032
其中,p为常数。
CN201910277671.5A 2019-04-08 2019-04-08 一种融合文本和标签网络的社交内容表征方法和系统 Active CN110019653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910277671.5A CN110019653B (zh) 2019-04-08 2019-04-08 一种融合文本和标签网络的社交内容表征方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910277671.5A CN110019653B (zh) 2019-04-08 2019-04-08 一种融合文本和标签网络的社交内容表征方法和系统

Publications (2)

Publication Number Publication Date
CN110019653A CN110019653A (zh) 2019-07-16
CN110019653B true CN110019653B (zh) 2021-07-02

Family

ID=67190739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910277671.5A Active CN110019653B (zh) 2019-04-08 2019-04-08 一种融合文本和标签网络的社交内容表征方法和系统

Country Status (1)

Country Link
CN (1) CN110019653B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078820B (zh) * 2019-11-26 2023-04-25 复旦大学 基于权重符号社交网络嵌入的边权预测方法
US11551277B2 (en) * 2020-09-11 2023-01-10 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for automatic generation of knowledge-powered content planning
CN113408090B (zh) * 2021-05-31 2023-10-27 上海师范大学 一种基于符号网络的节点关系获取方法及存储介质
CN114398488A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于注意力机制的bilstm多标签文本分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451613A (zh) * 2017-07-31 2017-12-08 广州市香港科大霍英东研究院 异构信息网络的半监督学习方法及装置
CN107526785A (zh) * 2017-07-31 2017-12-29 广州市香港科大霍英东研究院 文本分类方法及装置
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109543114A (zh) * 2018-11-14 2019-03-29 南京邮电大学 异构信息网络链接预测方法、可读存储介质和终端
CN109543176A (zh) * 2018-10-17 2019-03-29 中山大学 一种基于图向量表征的丰富短文本语义方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174062A1 (en) * 2016-12-21 2018-06-21 Ca, Inc. Root cause analysis for sequences of datacenter states

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451613A (zh) * 2017-07-31 2017-12-08 广州市香港科大霍英东研究院 异构信息网络的半监督学习方法及装置
CN107526785A (zh) * 2017-07-31 2017-12-29 广州市香港科大霍英东研究院 文本分类方法及装置
CN109543176A (zh) * 2018-10-17 2019-03-29 中山大学 一种基于图向量表征的丰富短文本语义方法及装置
CN109543114A (zh) * 2018-11-14 2019-03-29 南京邮电大学 异构信息网络链接预测方法、可读存储介质和终端
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"RNN文本分类-从原始数据处理到预测类别标签";littlely_II;《CSDN,https://blog.csdn.net/littlely_ll/article/details/79337893》;20180219;第1-9页 *

Also Published As

Publication number Publication date
CN110019653A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019653B (zh) 一种融合文本和标签网络的社交内容表征方法和系统
CN106649434B (zh) 一种跨领域知识迁移的标签嵌入方法和装置
Al-Azani et al. Hybrid deep learning for sentiment polarity determination of Arabic microblogs
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN107862046B (zh) 一种基于短文本相似度的税务商品编码分类方法及系统
US20220171936A1 (en) Analysis of natural language text in document
CN110442857B (zh) 情感智能判断方法、装置及计算机可读存储介质
CN110009430B (zh) 作弊用户检测方法、电子设备及计算机可读存储介质
CN105975459B (zh) 一种词项的权重标注方法和装置
CN107844533A (zh) 一种智能问答系统及分析方法
CN110427480B (zh) 个性化文本智能推荐方法、装置及计算机可读存储介质
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN113449084A (zh) 基于图卷积的关系抽取方法
CN113723542A (zh) 一种日志聚类处理方法及系统
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN110020214B (zh) 一种融合知识的社交网络流式事件检测系统
CN110704611A (zh) 基于特征解交织的非法文本识别方法及装置
Annam et al. Entropy based informative content density approach for efficient web content extraction
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
Lim et al. Comparing Machine Learning and Deep Learning Based Approaches to Detect Customer Sentiment from Product Reviews
CN113962221A (zh) 一种文本摘要的提取方法、装置、终端设备和存储介质
CN108021548A (zh) 一种情感特征的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant