CN112434720B - 一种基于图注意力网络的中文短文本分类方法 - Google Patents
一种基于图注意力网络的中文短文本分类方法 Download PDFInfo
- Publication number
- CN112434720B CN112434720B CN202011141057.5A CN202011141057A CN112434720B CN 112434720 B CN112434720 B CN 112434720B CN 202011141057 A CN202011141057 A CN 202011141057A CN 112434720 B CN112434720 B CN 112434720B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- nodes
- adopting
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图注意力网络的中文短文本分类方法,包括以下步骤:对文本数据进行预处理,得到文本对应的词列表集合;文本特征提取:对本文对应的词列表集合,采用特征嵌入工具进行词嵌入处理,得到对应的词向量;采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图;建立图注意力网络文本分类模型;采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型;输出文本所属类别:将节点特征通过softmax分类层得到最终分类的类别;本发明在短文本信息量不足的条件下能够较充分的提取文本特征,并重点关注到对文本分类存在较大价值的信息,有效地提高了分类的准确率。
Description
技术领域
本发明涉及计算机自然语言处理的研究领域,特别涉及一种基于图注意力网络的中文短文本分类方法。
背景技术
近年来,计算机技术、互联网及其附属产业飞速发展,网络上每天都会产生难以计数的以文本为主的数据,呈现大数据特征,如何对海量杂乱文本进行快速分类及分析是亟待解决的难题。文本分类是自然语言处理任务中的一项重要工作,对文本资源进行整理和归类,同时其也是解决文本信息过载问题的关键环节,在数字化图书馆、信息检索等领域应用广泛。运用正确的文本分类技术,从大量文本数据中提取出蕴含的有效语义信息,进而挖掘分析出作者的真实情感及所表达的内容特征,具有极大的运用价值,对提高文本的分类甄别和筛选等工作的效率有着重要意义。精准地进行文本分类已成为当前工业界和学术界的迫切要求,使得文本分类成为自然语言处理领域的一个热点研究方向。
现有技术中,没有重点关注到对分类存在较大价值的特征而导致分类存在较多的冗余特征的问题,当今中文短文本分类方法存在局限性
作为文本分类的一项重要工作,中文短文本分类主要对较短的中文文本进行自动分类,由于如今人们越来越习惯于在网络上对自己感兴趣的事物发表包含个人观点的评论和信息,中文短文本经常出现在社交平台和电商网站等网络平台中,一般不超过500字,例如微博内容,用户商品评论等。对于这些蕴含个人情感和观点的文本进行分类对于舆情监控、电商营销、情感分析等方面都具有重要意义。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于图注意力网络的中文短文本分类方法,本发明对中文短文本的分类采用建图的方法解决了短文本信息量不足的问题,并采用图注意力机制解决了现有分类方法中没有重点关注到对分类存在较大价值的特征而导致分类存在较多的冗余特征的问题,从而克服了当今中文短文本分类方法的局限性。
本发明的目的通过以下的技术方案实现:
一种基于图注意力网络的中文短文本分类方法,其特征在于,包括以下步骤:
获取文本数据,对文本数据进行预处理,得到文本对应的词列表集合;所述预处理包括噪声信息去除、分词处理和停用词处理;
文本特征提取;对本文对应的词列表集合,采用特征嵌入工具进行词嵌入处理,得到对应的词向量;
采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图;
建立图注意力网络文本分类模型;采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型;
输出文本所属类别;待分类的文本数据经过图注意力网络文本分类模型后,得到节点特征,将节点特征通过softmax分类层得到最终的中文短文本分类的类别。
进一步地,所述对文本数据进行预处理,具体如下:
噪声信息去除:通过正则表达式对中文短文本数据进行预处理,将噪声信息过滤;
分词处理:对噪声信息去除后的中文短文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表集合;
停用词处理:对分词后对应的词列表集合,采用停用词表进行停用词处理,得到预处理后的词列表集合。
进一步地,所述文本特征提取采用word2vc词特征嵌入工具训练得到文本对应词列表的初始词嵌入向量,然后在每个词向量中加上表示词位置的位置向量得到融合了词位置信息的词嵌入向量。
进一步地,所述采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图,具体如下:
将文本和词均作为节点,采用确定边权的方式连边建立异构图,如下所示:
其中,TF-IDFi,j,词节点ci与文本节点tj之间,用于确定词节点与文本节点之间的边权;PMIi,j,词节点ci与词节点cj之间,用于衡量词节点和词节点之间的边权;CosineSimilarityi,j,文本节点ti和文本节点tj之间,用于衡量文本节点和文本节点之间的边权;
进一步地,所述计算具体为:
其中,对于某词与文本的TF-IDF值计算如下:
词频t为该词在文本中出现的次数,X为文本的总词数,逆文档频率为文本总数,为包含该词的文本数,TF-IDF=TF×IDF,即词频乘以逆文档频率;
点互信息计算如下:
其中,N(i,j)为同时包含词节点ci和词节点cj的滑动窗口数,N(i)为包含词节点i的滑动窗口数,N为滑动窗口总数;
余弦相似度Cosine Similarity,对于文本矩阵A和文件矩阵B的余弦相似度计算如下:
其中,n为整个语料中词的数量,A和B分别表示两文本中各词出现次数的维向量,|A|和|B|分别表示两向量的模,Ai表示文本A中词i出现的次数,Bi表示文本B中词i出现的次数;
进一步地,所述建立图注意力网络文本分类模型,具体为:
输入图注意力网络N个图节点的特征矩阵,h={h1,h2,...,hN},其中,hi∈RF, F为每个节点的特征数;
进入两层的图注意力网络中,对节点训练权值矩阵W∈RF′×F,用于衡量输入特征与输出特征之间的关系;
每层图注意力层采用多头图注意力机制,节点之间的注意力互相关系数其中P是一个单层前馈神经网络,由权值向量γ∈R2F′确定,采用LeakyRelu激活函数进行非线性激活,采用softmax函数对所有节点的相邻节点进行正则化,即:
则有,每层的注意力机制为:
其中,T表示进行矩阵转置,||表示进行拼接操作;
在输出层采用多头注意力机制得到节点的输出特征,计算如下:
其中,K表示注意力机制的头数,Ni表示词节点i的邻接节点集合,表示第m头注意力机制中词i与词j的注意力值,Wm表示第m头注意力机制的权重矩阵,hj表示词节点j的特征向量。
进一步地,所述采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型,具体为:对建立的图注意力网络文本分类模型,采用网络开源的带类别标准的中文短文本语料数据集按照设定的比例划分为训练集、验证集和测试集;采用训练集对初步建立的图注意力网络文本分类模型进行训练,根据验证集调整模型相应的超参数,并采用测试集测试不同超参数的效果,再筛选出最佳效果的超参数,从而得到最终的图注意力网络中文短文本分类模型。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提出了一种基于图注意力网络的中文短文本分类方法,在短文本信息量不足的条件下能够较充分的提取文本特征,并重点关注到对文本分类存在较大价值的信息,有效地提高了分类的准确率。
附图说明
图1是本发明所述一种基于图注意力网络的中文短文本分类方法的流程图;
图2为本发明所述实施例中文本词向量特征嵌入的训练过程示意图;
图3为本发明所述实施例中中文短文本分类模型的结构示意图;
图4为本发明所述实施例中图注意力层的结构示意图;
图5为本发明所述实施例中多头图注意力机制的工作示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明的一种基于图注意力网络的中文短文本分类方法的主要步骤流程为:文本数据预处理、文本特征提取、将文本和词作为节点建立异构图、输入图注意力网络分类模型进行类别分类,输出文本类别。
下面对各步骤进行详细说明:
第一步、文本数据预处理
文本数据的预处理过程主要包括噪声信息去除、分词处理和停用词处理。
S1.1噪声信息去除
对于需要进行分类的社交平台、电商平台等得到的中文短文本,文本数据中极有可能会含有用户昵称、URL、乱码字符等与分类无关的噪声信息,采用正则表达式对文本进行预处理将这些噪声信息过滤掉。
S1.2分词处理
对经过噪声信息去除后的中文短文本数据,接下来采用jieba分词工具实现对文本的分词,将文本序列转换为分词后对应的词列表。
S1.3停用词处理
对于中文分词后得到的词列表集合,其中有些词语对于分类是没有实际意义的,因此在分词处理后采用哈工大停用词表进行停用词处理,优化分词后的结果,缩小词列表集合,提高模型的工作效率。
第二步、文本特征提取
对于步骤S1得到的词集合,采用word2vec工具包进行词嵌入处理,得到对应的词向量,其工作原理是:采用神经网络特征嵌入的方式训练文本对应的词,映射每个词到一个向量来表示词对词之间的关系,工作原理示意图见附图2。
第三步、将文本和词作为节点建立异构图
为采用图结构建立分类模型,首先对文本和文本中的词建立异构图,具体构造方式为:将文本和词均作为节点,采用如下确定边权的方式连边建立异构图。
如下所示:
其中,TF-IDFi,j,词节点ci与文本节点tj之间,用于确定词节点与文本节点之间的边权;PMIi,j,词节点ci与词节点cj之间,用于衡量词节点和词节点之间的边权;CosineSimilarityi,j,文本节点ti和文本节点tj之间,用于衡量文本节点和文本节点之间的边权。
TF-IDF(term frequency–inverse document frequency),是评估某词对于文本的重要程度的一种加权技术,用以确定词节点与文本节点之间的边权,对于某词与一文本的TF-IDF值的计算方式如下:
词频t为该词在文本中出现的次数,X为文本的总词数,逆文档频率为文本总数,为包含该词的文本数,TF-IDF=TF×IDF,即词频乘以逆文档频率;
点互信息PMI(Pointwise Mutual Information),用以衡量词节点和词节点之间的边权,采用固定大小的滑动窗口来确定,其计算方式如下:
其中,N(i,j)为同时包含词节点ci和词节点cj的滑动窗口数,N(i)为包含词节点i的滑动窗口数,N为滑动窗口总数;
余弦相似度Cosine Similarity,评估文本之间的相似程度,用以衡量文本节点之间的边权,对于文本矩阵A和文件矩阵B的余弦相似度计算如下:
其中,n为整个语料中词的数量,A和B分别表示两文本中各词出现次数的维向量,|A|和|B|分别表示两向量的模,Ai表示文本A中词i出现的次数,Bi表示文本B中词i出现的次数;
第四步、建立图注意力网络文本分类模型
采用网络开源的带类别标注的新浪微博语料和电商平台评论语料作为训练语料数据集,采用上述建图方式建立异构图,训练两层的图注意力网络模型进行中文短文本分类,模型结构示意图见附图3。每层网络的示意图见附图4,工作原理描述如下:
S4.1输入图注意力网络N个图节点的特征矩阵,h={h1,h2,...,hN},其中, hi∈RF,F为每个节点的特征数;
S4.2进入两层的图注意力网络中,对节点训练权值矩阵W∈RF′×F,用于衡量输入特征与输出特征之间的关系;
每层图注意力层采用多头图注意力机制,节点之间的注意力互相关系数其中P是一个单层前馈神经网络,由权值向量γ∈R2F′确定,采用LeakyRelu激活函数进行非线性激活,采用softmax函数对所有节点的相邻节点进行正则化,即:
则有,每层的注意力机制为:
其中,T表示进行矩阵转置,||表示进行拼接操作;
S4.3在输出层采用多头注意力机制得到节点的输出特征,其工作原理示意图见附图5,运算公式为:
其中,K表示注意力机制的头数,Ni表示词节点i的邻接节点集合,表示第m头注意力机制中词i与词j的注意力值,Wm表示第m头注意力机制的权重矩阵,hj表示词节点j的特征向量。
第五步、输出文本类别
将经过两层图注意力层后得到的节点特征通过softmax分类层得到最终的中文短文本分类的类别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种基于图注意力网络的中文短文本分类方法,其特征在于,包括以下步骤:
获取文本数据,对文本数据进行预处理,得到文本对应的词列表集合;所述预处理包括噪声信息去除、分词处理和停用词处理;
文本特征提取;对本文对应的词列表集合,采用特征嵌入工具进行词嵌入处理,得到对应的词向量;
采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图;具体如下:
将文本和词均作为节点,采用确定边权的方式连边建立异构图,如下所示:
其中,TF-IDFi,j配置在词节点ci与文本节点tj之间,用于确定词节点与文本节点之间的边权;PMIi,j配置在词节点ci与词节点cj之间,用于衡量词节点和词节点之间的边权;Cosine Similarityi,j配置在文本节点ti和文本节点tj之间,用于衡量文本节点和文本节点之间的边权;
建立图注意力网络文本分类模型;采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型;
所述建立图注意力网络文本分类模型,具体为:
输入图注意力网络N个图节点的特征矩阵,h={h1,h2,...,hN},其中,hi∈RF,F为每个节点的特征数;
进入两层的图注意力网络中,对节点训练权值矩阵W∈RF′×F,用于衡量输入特征与输出特征之间的关系;
每层图注意力层采用多头图注意力机制,节点之间的注意力互相关系数其中P是一个单层前馈神经网络,由权值向量γ∈R2F′确定,采用LeakyRelu激活函数进行非线性激活,采用softmax函数对所有节点的相邻节点进行正则化,即:
则有,每层的注意力机制为:
其中,Τ表示进行矩阵转置,||表示进行拼接操作;
在输出层采用多头注意力机制得到节点的输出特征,计算如下:
其中,K表示注意力机制的头数,Ni表示词节点i的邻接节点集合,表示第m头注意力机制中词i与词j的注意力值,Wm表示第m头注意力机制的权重矩阵,hj表示词节点j的特征向量;
输出文本所属类别;待分类的文本数据经过图注意力网络文本分类模型后,得到节点特征,将节点特征通过softmax分类层得到最终的中文短文本分类的类别。
2.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法,其特征在于,所述对文本数据进行预处理,具体如下:
噪声信息去除:通过正则表达式对中文短文本数据进行预处理,将噪声信息过滤;
分词处理:对噪声信息去除后的中文短文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表集合;
停用词处理:对分词后对应的词列表集合,采用停用词表进行停用词处理,得到预处理后的词列表集合。
3.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法,其特征在于,所述文本特征提取采用word2vc词特征嵌入工具训练得到文本对应词列表的初始词嵌入向量,然后在每个词向量中加上表示词位置的位置向量得到融合了词位置信息的词嵌入向量。
4.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法,其特征在于,计算具体为:
其中,对于某词与文本的TF-IDF值计算如下:
词频t为该词在文本中出现的次数,X为文本的总词数,逆文档频率为文本总数,为包含该词的文本数,TF-IDF=TF×IDF,即词频乘以逆文档频率;
点互信息计算如下:
其中,N(i,j)为同时包含词节点ci和词节点cj的滑动窗口数,N(i)为包含词节点i的滑动窗口数,N为滑动窗口总数;
余弦相似度Cosine Similarity,对于文本矩阵A和文件矩阵B的余弦相似度计算如下:
其中,n为整个语料中词的数量,A和B分别表示两文本中各词出现次数的n维向量,|A|和|B|分别表示两向量的模,Ai表示文本A中词i出现的次数,Bi表示文本B中词i出现的次数。
5.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法,其特征在于,所述采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型,具体为:对建立的图注意力网络文本分类模型,采用网络开源的带类别标准的中文短文本语料数据集按照设定的比例划分为训练集、验证集和测试集;采用训练集对初步建立的图注意力网络文本分类模型进行训练,根据验证集调整模型相应的超参数,并采用测试集测试不同超参数的效果,再筛选出最佳效果的超参数,从而得到最终的图注意力网络中文短文本分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011141057.5A CN112434720B (zh) | 2020-10-22 | 2020-10-22 | 一种基于图注意力网络的中文短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011141057.5A CN112434720B (zh) | 2020-10-22 | 2020-10-22 | 一种基于图注意力网络的中文短文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434720A CN112434720A (zh) | 2021-03-02 |
CN112434720B true CN112434720B (zh) | 2023-08-29 |
Family
ID=74695899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011141057.5A Active CN112434720B (zh) | 2020-10-22 | 2020-10-22 | 一种基于图注意力网络的中文短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434720B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312477A (zh) * | 2021-04-19 | 2021-08-27 | 上海快确信息科技有限公司 | 一种基于图注意力的半结构文本分类方案 |
CN113111134A (zh) * | 2021-04-21 | 2021-07-13 | 山东省人工智能研究院 | 一种基于自编码和注意力机制的异构图节点特征嵌入方法 |
CN113239148B (zh) * | 2021-05-14 | 2022-04-05 | 电子科技大学 | 基于机器阅读理解的科技资源检索方法 |
CN113436694B (zh) * | 2021-05-21 | 2023-06-27 | 山东大学 | 小样本电子病历icd代码预测方法及系统 |
CN113254648B (zh) * | 2021-06-22 | 2021-10-22 | 暨南大学 | 一种基于多层次图池化的文本情感分析方法 |
CN113378567B (zh) * | 2021-07-05 | 2022-05-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
CN113593698B (zh) * | 2021-08-03 | 2023-04-18 | 电子科技大学 | 一种基于图注意网络的中医证型识别方法 |
CN114154493B (zh) * | 2022-01-28 | 2022-06-28 | 北京芯盾时代科技有限公司 | 一种短信类别的识别方法及装置 |
CN114332872B (zh) * | 2022-03-14 | 2022-05-24 | 四川国路安数据技术有限公司 | 一种基于图注意力网络的合同文档容错信息提取方法 |
CN116821452B (zh) * | 2023-08-28 | 2023-11-14 | 南京邮电大学 | 一种图节点分类模型训练方法、图节点分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN111274405A (zh) * | 2020-02-26 | 2020-06-12 | 北京工业大学 | 一种基于gcn的文本分类方法 |
CN111368087A (zh) * | 2020-03-23 | 2020-07-03 | 中南大学 | 基于多输入注意力网络的中文文本分类方法 |
CN111598710A (zh) * | 2020-05-11 | 2020-08-28 | 北京邮电大学 | 社交网络事件的检测方法和装置 |
-
2020
- 2020-10-22 CN CN202011141057.5A patent/CN112434720B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN111274405A (zh) * | 2020-02-26 | 2020-06-12 | 北京工业大学 | 一种基于gcn的文本分类方法 |
CN111368087A (zh) * | 2020-03-23 | 2020-07-03 | 中南大学 | 基于多输入注意力网络的中文文本分类方法 |
CN111598710A (zh) * | 2020-05-11 | 2020-08-28 | 北京邮电大学 | 社交网络事件的检测方法和装置 |
Non-Patent Citations (1)
Title |
---|
Visual question answering via Attention-based syntactic structure tree-LSTM;Yun Liu 等;《Applied Soft Computing Journal》;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112434720A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434720B (zh) | 一种基于图注意力网络的中文短文本分类方法 | |
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
US7987417B2 (en) | System and method for detecting a web page template | |
CN110287409B (zh) | 一种网页类型识别方法及装置 | |
CN108363784A (zh) | 一种基于文本机器学习的舆情走向预测方法 | |
Sindhu et al. | Subjectivity detection for sentiment analysis on Twitter data | |
CN114742071B (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN116956289B (zh) | 动态调整潜在黑名单和黑名单的方法 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
Sumathi et al. | Fake review detection of e-commerce electronic products using machine learning techniques | |
Huang | Research on sentiment classification of tourist destinations based on convolutional neural network | |
Parihar | A study on sentiment analysis of product reviews | |
Baoyue et al. | Sentiment Analysis System for Image and Text Based Social Media Data | |
CN117852553B (zh) | 基于聊天记录提取元器件交易场景信息的语言处理系统 | |
CN118171645B (zh) | 一种基于文本分类的商业信息分析方法及系统 | |
Prasad et al. | Sentiment Analysis Using Transfer Learning for E-Commerce Websites | |
Corpuz | ISO 9001: 2015 quality management system requirements and audit findings classification using support vector machine and long short-term memory neural network: An optimization method | |
Chen et al. | Modeling Emotion Influence Using Attention-based Graph Convolutional Recurrent Network | |
Weerasinghe et al. | Enhancing Web Scraping with Artificial Intelligence: A Review | |
Bhole et al. | Mining Wikipedia and relating named entities over time | |
Stoykov et al. | Analysing privacy policies | |
Ren et al. | Research on False Comment Detection Model Based on the Fusion of Convolutional Neural Network and GRU | |
CN116720482A (zh) | 虚拟数字人自动化写作方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |