CN114692605A - 一种融合句法结构信息的关键词生成方法及装置 - Google Patents

一种融合句法结构信息的关键词生成方法及装置 Download PDF

Info

Publication number
CN114692605A
CN114692605A CN202210415569.9A CN202210415569A CN114692605A CN 114692605 A CN114692605 A CN 114692605A CN 202210415569 A CN202210415569 A CN 202210415569A CN 114692605 A CN114692605 A CN 114692605A
Authority
CN
China
Prior art keywords
word
text
keywords
graph
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210415569.9A
Other languages
English (en)
Inventor
杨鹏
戈妍妍
方海生
于晓潭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210415569.9A priority Critical patent/CN114692605A/zh
Publication of CN114692605A publication Critical patent/CN114692605A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种融合句法结构信息的关键词生成方法及装置,能够为新闻文章自动地生成关键词。本发明首先使用爬虫工具采集新闻文章,并采取人工标注参考关键词构造出新闻文章数据集;然后对文本进行预处理,依存句法分析和过滤停用词;接着基于循环神经网络的顺序编码器和基于图卷积网络的图编码器分别获取文章的上下文语义和结构特征,并利用聚类方法将文本分为包含不同子主题部分,并利用多个基于注意力机制的解码器并行生成关键词;采样交叉熵损失进行模型参数优化;最后基于训练后的模型对待处理的新闻文章进行自动关键词生成。本发明通过句法结构信息弥补顺序编码存在的长距离单词依赖信息损失问题,从而提高生成关键词的质量。

Description

一种融合句法结构信息的关键词生成方法及装置
技术领域
本发明涉及一种融合句法结构信息的关键词生成方法及装置,属于互联网与人工智能技术领域。
背景技术
随着计算机网络的普及和通信技术的发展,在社会经济文化活动以及日常生活中,人们接触到各式各样的媒体平台发布的新闻文章。在数据规模呈指数型增长的时代,运用计算机技术对新闻长文章进行信息压缩,提炼出核心内容,可以帮助读者快速地甄别出有价值的信息。
当前关键词生成模型都是基于一种序列到序列(Sequence to Sequence,Seq2Seq)模型。该模型采用编码器-解码器架构,其中编码器负责将输入文本序列编码为一个中间向量,解码器从该向量中进行解码,生成对应的输入序列。然而,现有的方法通常使用循环神经网络(RerrentNeuralNetwork,RNN)实现编码器和解码器,而RNN存在长时遗忘问题,不能有效地捕获文章全局信息。另一方面,基础的Seq2Seq模型不能很好地建模文章和其关键词之间的“一对多”关系。为此,本发明提出基于文本句法结构信息的关键词生成模型,利用图卷积网络(Graph ConvolutionalNetwork,GCN)挖掘文本深层结构信息,并通过聚类方式显示指导解码器生成多样化的关键词。
发明内容
针对现有技术中存在的问题与不足,本发明提供一种融合句法结构信息的关键词生成方法及装置,通过文本的句法结构将序列化文本转化为图结构,并通过GCN学习节点的向量表示,表示中包含文本的结构特征,通过结构化信息弥补RNN编码存在的不足,利用聚类方法显示指导模型生成具有差异的关键词,提高关键词的质量。
为实现上述发明目的,本发明所述的一种融合句法结构信息的关键词生成方法,首先利用对文章进行分句分词,利用句法依存分析工具得到句法分析结果;然后根据句法分析结构构造句法图,将文本单词映射为图中节点,单词之间的关系通过边体现;之后构建顺序和图编码器得到文章的特征表示;最后将特征表示输入解码器生成新闻文章的关键词。本发明方法主要包括四个步骤,具体如下:
步骤1:新闻文章采集。通过爬虫工具收集多个媒体平台的新闻文章,积累样本数据集,然后对样本数据集进行过滤以减少样本重复率;对样本集中每一个样本采用人工标注构造训练样例:新闻文章和标准关键词;
步骤2:文本预处理。对文章进行分句、分词,利用句法依存分析工具得到句法分析结果;其次根据句法分析结构构造句法图,将文本单词映射为图中节点,单词之间的关系通过边体现;
步骤3:训练基于句法结构信息融合的关键词生成模型。首先通过顺序编码和结构编码双编码方式学习单词表示。然后子图聚类网络根据整个文本的含义,对文本内容进行划分,从而为每个解码器构建独特的子主题表示。之后带注意力机制的顺序解码器根据生成的子主题表示生成相应的关键词;最后利用交叉熵作为损失函数对模型参数进行优化;
步骤4:对待处理的新闻文章生成关键词。对于需预测关键词的新闻文章,首先用句法依存分析工具分析句法,再构建文本句法图,将新闻文章原文与句法图输入到步骤3中训练好的关键词生成模型中,生成该新闻文章的关键词。
进一步的,所述步骤3包括如下子步骤:
子步骤3-1,构建输入层,输入层接收文本单词序列作为输入,利用预训练的word2vec模型将每个词映射为对应的词向量,得到原文单词向量表示序列EW
子步骤3-2,构建文本编码层,采用一个两层BiGRU对词向量序列Ew进行顺序语义编码,得到词向量序列Ew的隐层状态向量BiGRU(Ew):
Figure BDA0003605776620000021
Figure BDA0003605776620000022
Figure BDA0003605776620000023
其中ut为词嵌入,
Figure BDA0003605776620000024
表示前一个GRU单元的状态向量,
Figure BDA0003605776620000025
表示下一个GRU单元的状态向量;
采用GCN网络学习构建好的文本图数据;GCN利用邻居节点聚合方式进行节点信息更新,定义如下:
Hl=ReLU(AHl-1Wl)
其中A是文本图的邻接矩阵,Hl表示当前层的输出结果,用单词的表示初始化每个节点表示,Wl是训练参数;对于L层的图卷积网络,节点获得了L阶邻居节点的信息,因此在节点的特征向量表示中具有了结构信息;
子步骤3-3,构建子图生成层,在文本图基础上,对文本图进行拆分聚类,得到多个包含文章不同方面的子图;对于每个节点,利用下式计算节点属于每个子图的概率:
assigments=softmax(WaHL+ba)
其中,HL表示GCN最后一层的输出,Wa、ba是可学习参数,a表示计算注意力权重的网络,softmax是归一化函数;
之后,对节点表示加权求和可获得子图的表示:
Figure BDA0003605776620000031
子步骤3-4,构建关键词解码层;采用多个相同的解码器并行解码方式生成关键词;其中,单个解码器采用单向GRU实现,并结合复制机制;在解码时间步j时,根据上一个单词的表示uj-1和上一个时刻隐层状态sj-1,计算得到当前隐藏状态:
sj=GRU(uj-1,sj-1)
之后,利用注意力机制,计算输入文本中每个单词的注意力权重:
Figure BDA0003605776620000032
αj=softmax(ej)
其中,
Figure BDA0003605776620000033
表示文本序列第i个单词经过BiGRU计算得到的特征向量,eij衡量预测的第j个单词与原文第i个单词相关程度,ej表示预测第j个单词时原文单词的注意力权重;
通过对单词特征向量加权求和,得到当前上下文表示向量:
Figure BDA0003605776620000034
然后,结合子图表示、上下文向量和隐藏状态,得到单词在词表上的分布:
Pvocab=softmax(Wg[sj;cj;g]+bg)
其中,g为计算得到词表分布的网络;
最终,时间步j时,预测单词的最后分布如下式所示,
Pfinal=(1-λj)·Pvocabj·Pcopy
λj=sigmoid(Wλ[cj;uj-1;sj;g]+bλ)
其中Pcopy=αj,λj表示从原文复制单词的概率,λ是计算复制概率的网络;
子步骤3-5,构建损失函数层,本层生成的关键词与参考关键词的交叉熵损失作为所述模型的训练损失函数;按如下损失函数计算公式得到本组样本的训练损失:
Figure BDA0003605776620000035
其中,D为训练数据集,x为输入文本,y为目标关键词,θ为模型的参数集合;
子步骤3-6,训练所述模型;采用随机初始化的方式初始化所有待训练参数,在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,当训练损失不再下降或训练轮数超过一定轮数时,模型训练结束。
进一步的,所述句法依存分析工具为HanLP。
本发明还提供了一种融合句法结构信息的关键词生成装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的融合句法结构信息的关键词生成方法。
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明引入结构化知识,能够有效地提取文本的结构特征弥补顺序编码存在的不足,顺序语义与结构语义相互补充,有效提高了模型捕捉文本全局特征信息的能力,克服现有关键词生成方法无法有效捕捉全局信息的问题,从而提高关键词生成质量;
(2)本发明采用聚类方法,显示的将新闻文章划分多个包含子主题的部分,并为每个子主题分配独立的编码器,采用多解码器并行解码方法生成关键词,能够提高模型生成关键词的多样性。
附图说明
图1为本发明实施例的处理流程图。
图2为本发明实施例的方法总体框架图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供的一种融合句法结构信息的关键词生成方法,其处理流程如图1所示,实现框架如图2所示,包括如下具体实施步骤:
步骤1,新闻文章数据集采集。不失一般性,本实施例首先通过爬虫工具从互联网上搜集大量新闻文章,然后进行过滤以减少样本重复率;并采取人工标注训练样例:新闻文章和标准关键词,它们共同构成样本数据集D。
步骤2,数据预处理,首先对数据集D的每篇新闻文章预处理,进行分词、分句,然后采用句法分析工具HanLP对文本进行句法解析,得到文本的句法依存关系;过滤停用词;根据句法分析结果构造句法图,将文本单词映射为图中节点,单词之间的关系通过边体现。
步骤3,利用步骤2处理后的数据集D对融合句法结构信息的关键词生成模型进行训练,该步骤的实施可以分为以下子步骤:
子步骤3-1,构建输入层,输入层接收文本单词序列作为输入,利用预训练的word2vec模型将每个词映射为对应的词向量,得到原文单词向量表示序列EW
子步骤3-2,构建文本编码层,本实施例采用一个两层BiGRU对词向量序列Ew进行顺序语义编码,得到词向量序列Ew的隐层状态向量BiGRU(Ew):
Figure BDA0003605776620000051
Figure BDA0003605776620000052
Figure BDA0003605776620000053
其中ut为词嵌入,
Figure BDA0003605776620000054
表示前一个GRU单元的状态向量,
Figure BDA0003605776620000055
表示下一个GRU单元的状态向量。
采用GCN网络学习构建好的文本图数据。通过多层的GCN,单词节点不仅能够获取邻居的单词信息,也能获取到更远的单词信息。GCN利用邻居节点聚合方式进行节点信息更新,定义如下:
Hl=ReLU(AHl-1Wl)
其中A是文本图的邻接矩阵,Hl表示当前层的输出结果,用单词的表示初始化每个节点表示,Wl是训练参数。对于L层的图卷积网络,节点获得了L阶邻居节点的信息,因此在节点的特征向量表示中具有了结构信息。
子步骤3-3,构建子图生成层,在文本图基础上,对文本图进行拆分聚类,得到多个包含文章不同方面的子图。对于每个节点,利用下式计算节点属于每个子图的概率:
assigments=softmax(WaHL+ba)
其中,HL表示GCN最后一层的输出,Wa、ba是可学习参数,a表示计算注意力权重的网络,softmax是归一化函数。
之后,对节点表示加权求和可获得子图的表示:
Figure BDA0003605776620000056
子步骤3-4,构建关键词解码层。本实施例采用多个相同的解码器并行解码方式生成关键词。其中,单个解码器采用单向GRU实现,并结合复制机制。在解码时间步j时,根据上一个单词的表示uj-1和上一个时刻隐层状态sj-1,计算得到当前隐藏状态:
sj=GRU(uj-1,sj-1)
之后,利用注意力机制,计算输入文本中每个单词的注意力权重:
Figure BDA0003605776620000057
αj=softmax(ej)
其中,
Figure BDA0003605776620000058
是可学习参数,
Figure BDA0003605776620000059
表示文本序列第i个单词经过BiGRU计算得到的特征向量,eij衡量预测的第j个单词与原文第i个单词相关程度,ej表示预测第j个单词时原文单词的注意力权重(未归一化)。
通过对单词特征向量加权求和,得到当前上下文表示向量:
Figure BDA0003605776620000061
其中,Hs为原文单词特征向量构成的特征矩阵。
然后,结合子图表示、上下文向量和隐藏状态,得到单词在词表上的分布:
Pvocab=softmax(Wg[sj;cj;g]+bg)
其中,g为计算得到词表分布的网络。除了从词表生成单词,从源文本复制单词也是生成单词一种方式。在复制机制中,可以将单词的注意力权重视为当前时刻,生成的单词在源文本中的分布。
最终,时间步j时,预测单词的最后分布如下式所示,
Pfinal=(1-λj)·Pvocabj·Pcopy
λj=sigmoid(Wλ[cj;uj-1;sj;g]+bλ)
其中Pcopy=αj,λj表示从原文复制单词的概率,g为子主题特征向量。
子步骤3-5,构建损失函数层,本层生成的关键词与参考关键词的交叉熵损失作为所述模型的训练损失函数。按如下损失函数计算公式得到本组样本的训练损失:
Figure BDA0003605776620000062
其中,D为训练数据集,x为输入文本,y为目标关键词,θ为模型的参数集合。
子步骤3-6,训练所述模型。本实施例采用随机初始化的方式初始化所有待训练参数,在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,初始学习率设置为0.001。当训练损失不再下降或训练轮数超过10轮时,模型训练结束。
步骤4,利用训练完毕的参数初始化关键词模型生成关键词。该模型以经过文本预处理后的新闻文章为输入,首先用句法依存分析工具HanLP分析句法,再构建文本句法图,具体先对文章进行顺序编码和结构编码,然后在解码层逐词生成短语作为目标关键词,初始单词为一个特殊的开始标记“<START>”,每一时刻的预测词为指针生成层输出的概率最大的词,当输出结束标记“<END>”时,停止单词的生成,输出已生成的单词序列作为输入新闻文章的预测关键词。
基于相同的发明构思,本发明实施例还提供一种融合句法结构信息的关键词生成装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的融合句法结构信息的关键词生成方法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (4)

1.一种融合句法结构信息的关键词生成方法,其特征在于,包括如下步骤:
步骤1:新闻文章采集
通过爬虫工具收集多个媒体平台的新闻文章,积累样本数据集,然后对样本数据集进行过滤以减少样本重复率;对样本集中每一个样本采用人工标注构造训练样例:新闻文章和标准关键词;
步骤2:文本预处理
对文章进行分句、分词,利用句法依存分析工具得到句法分析结果;其次根据句法分析结构构造句法图,将文本单词映射为图中节点,单词之间的关系通过边体现;
步骤3:训练基于句法结构信息融合的关键词生成模型
首先通过顺序编码和结构编码双编码方式学习单词表示;然后子图聚类网络根据整个文本的含义,对文本内容进行划分,从而为每个解码器构建独特的子主题表示;之后带注意力机制的顺序解码器根据生成的子主题表示生成相应的关键词;最后利用交叉熵作为损失函数对模型参数进行优化;
步骤4:对待处理的新闻文章生成关键词
对于需预测关键词的新闻文章,首先用句法依存分析工具分析句法,再构建文本句法图,将新闻文章原文与句法图输入到步骤3中训练好的关键词生成模型中,生成该新闻文章的关键词。
2.根据权利要求1所述的融合句法结构信息的关键词生成方法,其特征在于,所述步骤3包括如下子步骤:
子步骤3-1,构建输入层,输入层接收文本单词序列作为输入,利用预训练的word2vec模型将每个词映射为对应的词向量,得到原文单词向量表示序列EW
子步骤3-2,构建文本编码层,采用一个两层BiGRU对词向量序列Ew进行顺序语义编码,得到词向量序列Ew的隐层状态向量BiGRU(Ew):
Figure FDA0003605776610000011
Figure FDA0003605776610000012
Figure FDA0003605776610000013
其中ut为词嵌入,
Figure FDA0003605776610000014
表示前一个GRU单元的状态向量,
Figure FDA0003605776610000015
表示下一个GRU单元的状态向量;
采用GCN网络学习构建好的文本图数据;GCN利用邻居节点聚合方式进行节点信息更新,定义如下:
Hl=ReLU(AHl-1Wl)
其中A是文本图的邻接矩阵,Hl表示当前层的输出结果,用单词的表示初始化每个节点表示,Wl是训练参数;对于L层的图卷积网络,节点获得了L阶邻居节点的信息,因此在节点的特征向量表示中具有了结构信息;
子步骤3-3,构建子图生成层,在文本图基础上,对文本图进行拆分聚类,得到多个包含文章不同方面的子图;对于每个节点,利用下式计算节点属于每个子图的概率:
assigments=softmax(WaHL+ba)
其中,HL表示GCN最后一层的输出,Wa、ba是可学习参数,a表示计算注意力权重的网络,softmax是归一化函数;
之后,对节点表示加权求和可获得子图的表示:
Figure FDA0003605776610000023
子步骤3-4,构建关键词解码层;采用多个相同的解码器并行解码方式生成关键词;其中,单个解码器采用单向GRU实现,并结合复制机制;在解码时间步j时,根据上一个单词的表示uj-1和上一个时刻隐层状态sj-1,计算得到当前隐藏状态:
sj=GRU(uj-1,sj-1)
之后,利用注意力机制,计算输入文本中每个单词的注意力权重:
Figure FDA0003605776610000021
αj=softmax(ej)
其中,
Figure FDA0003605776610000024
表示文本序列第i个单词经过BiGRU计算得到的特征向量,g为子主题特征向量,eij衡量预测的第j个单词与原文第i个单词相关程度,ej表示预测第j个单词时原文单词的注意力权重;
通过对单词特征向量加权求和,得到当前上下文表示向量:
Figure FDA0003605776610000022
其中,Hs为原文单词特征向量构成的特征矩阵;
然后,结合子图表示、上下文向量和隐藏状态,得到单词在词表上的分布:
Pvocab=softmax(Wg[sj;cj;g]+bg)
其中,g为计算得到词表分布的网络;
最终,时间步j时,预测单词的最后分布如下式所示:
Pfinal=(1-λj)·Pvocabj·Pcopy
λj=sigmoid(Wλ[cj;uj-1;sj;g]+bλ)
其中Pcopy=αj,λj表示从原文复制单词的概率,λ是计算复制概率的网络;
子步骤3-5,构建损失函数层,本层生成的关键词与参考关键词的交叉熵损失作为所述模型的训练损失函数;按如下损失函数计算公式得到本组样本的训练损失:
Figure FDA0003605776610000031
其中,D为训练数据集,x为输入文本,y为目标关键词,θ为模型的参数集合;
子步骤3-6,训练所述模型;采用随机初始化的方式初始化所有待训练参数,在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,当训练损失不再下降或训练轮数超过一定轮数时,模型训练结束。
3.根据权利要求1所述的融合句法结构信息的关键词生成方法,其特征在于,所述句法依存分析工具为HanLP。
4.一种融合句法结构信息的关键词生成装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,该计算机程序被加载至处理器时实现权利要求1-3中任意一项所述的融合句法结构信息的关键词生成方法。
CN202210415569.9A 2022-04-20 2022-04-20 一种融合句法结构信息的关键词生成方法及装置 Pending CN114692605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210415569.9A CN114692605A (zh) 2022-04-20 2022-04-20 一种融合句法结构信息的关键词生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210415569.9A CN114692605A (zh) 2022-04-20 2022-04-20 一种融合句法结构信息的关键词生成方法及装置

Publications (1)

Publication Number Publication Date
CN114692605A true CN114692605A (zh) 2022-07-01

Family

ID=82142861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210415569.9A Pending CN114692605A (zh) 2022-04-20 2022-04-20 一种融合句法结构信息的关键词生成方法及装置

Country Status (1)

Country Link
CN (1) CN114692605A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050401A (zh) * 2023-03-31 2023-05-02 云南师范大学 基于Transformer问题关键词预测的多样性问题自动生成方法
CN116932686A (zh) * 2023-09-19 2023-10-24 苏州元脑智能科技有限公司 主题挖掘方法、装置、电子设备及存储介质
CN117094291A (zh) * 2023-10-19 2023-11-21 济南伊特网络信息有限公司 基于智能写作的自动新闻生成系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050401A (zh) * 2023-03-31 2023-05-02 云南师范大学 基于Transformer问题关键词预测的多样性问题自动生成方法
CN116050401B (zh) * 2023-03-31 2023-07-25 云南师范大学 基于Transformer问题关键词预测的多样性问题自动生成方法
CN116932686A (zh) * 2023-09-19 2023-10-24 苏州元脑智能科技有限公司 主题挖掘方法、装置、电子设备及存储介质
CN116932686B (zh) * 2023-09-19 2024-01-23 苏州元脑智能科技有限公司 主题挖掘方法、装置、电子设备及存储介质
CN117094291A (zh) * 2023-10-19 2023-11-21 济南伊特网络信息有限公司 基于智能写作的自动新闻生成系统
CN117094291B (zh) * 2023-10-19 2024-01-19 济南伊特网络信息有限公司 基于智能写作的自动新闻生成系统

Similar Documents

Publication Publication Date Title
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN112507699B (zh) 一种基于图卷积网络的远程监督关系抽取方法
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN107357899B (zh) 基于和积网络深度自动编码器的短文本情感分析方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN113127737B (zh) 融合注意力机制的个性化搜索方法和搜索系统
CN117475038B (zh) 一种图像生成方法、装置、设备及计算机可读存储介质
CN109918477A (zh) 一种基于变分自编码器的分布式检索资源库选择方法
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN113254782A (zh) 问答社区专家推荐方法及系统
CN114429122A (zh) 一种基于循环注意力的方面级情感分析系统和方法
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN116720519B (zh) 一种苗医药命名实体识别方法
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置
CN114741473B (zh) 一种基于多任务学习的事件抽取方法
CN116910190A (zh) 多任务感知模型获取方法、装置、设备及可读存储介质
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination