CN114925195A - 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 - Google Patents

一种融合词汇编码与结构编码的标准内容文本摘要生成方法 Download PDF

Info

Publication number
CN114925195A
CN114925195A CN202210475184.1A CN202210475184A CN114925195A CN 114925195 A CN114925195 A CN 114925195A CN 202210475184 A CN202210475184 A CN 202210475184A CN 114925195 A CN114925195 A CN 114925195A
Authority
CN
China
Prior art keywords
vector
text
encoder
coding
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210475184.1A
Other languages
English (en)
Inventor
胡燕祝
赵兴昊
张国开
庄育锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210475184.1A priority Critical patent/CN114925195A/zh
Publication of CN114925195A publication Critical patent/CN114925195A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了融合词汇编码与结构编码的标准内容文本摘要生成方法,步骤是:(1)确定标准内容的序列化向量;(2)经TextCNN模型处理进行词汇编码输出;(3)经TreeLSTM模型处理进行结构编码输出;(4)经Att‑LSTM模型处理进行解码;(5)确定损失函数。本发明相对于传统的编码能够提取到更精确的局部信息及句法结构信息,将文本中的核心词汇及重点语法在摘要表述中进一步加强,有效提高了标准内容文本摘要生成的准确度。

Description

一种融合词汇编码与结构编码的标准内容文本摘要生成方法
技术领域
本发明涉及文本摘要生成与标准数字化领域,具体的说,主要是一种融合词汇编码与结构编码的标准内容文本摘要生成方法。
背景技术
标准内容的摘要提取是标准数字化过程中一个必不可少的环节,也是标准数字化管理的必须环节,准确的提取标准内容的摘要,能极大的提高用户检索相应标准的效率。目前文本摘要任务依据实现方式可以分为两类:抽取式摘要和生成式摘要。抽取式摘要采用特定的评分规则和排序方法,从原文本中抽取若干重要句子组成摘要。生成式摘要则在通过理解上下文语义信息,自动地生成语义连贯的简短文本。与抽取式摘要相比,生成式摘要更加符合人类对于语言认知的习惯。在文本生成任务中常使用循环神经网络作为编码器和解码器,通过利用其逐词处理序列的优点,能够有效且准确的理解源文本表达的信息并转换为另一种形式,在生成领域取得了很好的成果。
发明人在实现本发明实施例的过程中,发现背景技术中至少存在以下缺陷。由于RNN及其变体必须等待上一个神经元的输出作为当前神经元输入,难以实现并行化计算,致使在训练和生成阶段的效率较低,且存在生成的摘要准确率低和重复率高的问题;传统的摘要生成方式虽然对局部信息能够实现较好的提取,但完全忽略了文本的结构特征,无法生成令人满意的摘要。
标准内容具有明显交叉引用的特点,概念之间相互交叉重叠,不同词的关键性差异明显,为此需要一种能够完成局部信息提取任务情况下,较好的考虑文本的结构特征的提取摘要方法,用于标准内容摘要提取,从而提高摘要提取准确度,标准内容文本摘要生成提供支持。
发明内容
针对上述现有的技术中存在的问题,本发明要解决的技术问题是提供一种融合词汇编码与结构编码的标准内容文本摘要生成方法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)确定标准内容的序列化向量E:
使用BERT模型预训练的词嵌入向量对输入文本的词进行向量表示。BERT模型可以通过对大规模文本数据的训练得到低维且稠密的词向量,这些词向量能够表示词的语义信息,在语义表达信息的准确性方面效果较好。
在文本中获取句子表示
W=[w1,w2,...,wN]
在经过词嵌入层后,文本表示转换为
E=[e1,e2,...,eN],ei∈Rd
其中,E表示句子文本经预处理后的字符数组,ei表示文本中第i个词的序列化字符,d 为词向量维度。
(2)经TextCNN模型处理进行词汇编码输出r:
本发明使用一个TextCNN神经网络来实现词汇编码器,通过TextCNN利用多个不同尺度的卷积核来提取句子中的关键信息,从而更好的捕捉局部相关性。其输入向量序列为E=[e1,e2,...,eN],大小为(N×d),N表示文本单词的数量,d表示词向量的维度。
设置长度为(2,3,4)的等宽卷积核,其中每种长度的卷积核包括M个,卷积操作的过程为:
convi=f(w·ei:i+h-1+b)
其中,h表示卷积核的长度;w为卷积核的权重;b是偏置项;函数f表示非线性激活函数ReLU;K为卷积核的宽度。对于(h×K)大小的卷积核,通过卷积操作得到特征图大小为(N-h+1,1)。
特征图向量表示为:
c=[c1,c2,...,cN-h+1]
通过最大池化层,取单个特征图最大的数值,得到
Figure BDA0003625098260000021
Figure BDA0003625098260000022
将所有特征图最大响应值
Figure BDA0003625098260000023
进行拼接,得到文本表示向量r,优化参数包括W词向量矩阵、w卷积核权重、b偏置项:
Figure BDA0003625098260000024
(3)经TreeLSTM模型处理进行结构编码输出h:
早期的摘要生成算法完全忽略了文本的结构特征,无法生成令人满意的文本摘要。本发明运用基于LSTM优化的变体TreeLSTM模型来提取文本结构信息进行编码。方法如下:
输入向量序列E=[e1,e2,...,eN],N表示文本单词的数量;
循环结构通过如下公式更新隐藏层变量h(t),h(t)计算如下:
ht=f(ht-1,et)
ft=σ(Wf·[ht-1,et]+bf)
it=σ(Wt·[ht-1,et]+bi)
Ct=ft×Ct-1+it×tanh(Wf·[ht-1,et]+bc)
ot=σ(W0·[ht-1,et]+b0)
ht=ot·tanh(Ct)
其中,f是结构编码器中TreeLSTM单元映射;ht-1是上一个时间节点的隐藏状态变量; Wf和bf是输入门的权重矩阵和偏置向量;Wf和bf是遗忘门的权重矩阵和偏置向量;Wo和bo是输入门的权重矩阵和偏置向量;σ和tanh是模型的激活函数,各参数通过监督训练求解。
输入向量经过结构编码器编码映射,最终形成隐藏层状态:
h=[h1,h2,...,hn]
(4)经Att-LSTM模型处理进行解码:
解码器由基于混合注意力机制的LSTM神经网络神经网络搭建完成,根据编码器的文本表示向量r和隐层状态向量h依次输出每个预测摘要词汇的概率分布:
p(yi|y1,y2,...,yi-1)=g(yi-1,si,ci)
Figure BDA0003625098260000033
g是用来预测生成词汇yi的概率分布的非线性变换;si表示解码器当前阶段的隐层输出向量;ci是注意力机制中定义的环境向量,计算方式见下文。
Figure BDA0003625098260000031
ci是词汇编码器的文本表示向量r和结构编码器的隐层输出向量h与注意力权重系数的加权和;rj,hj分别是词汇编码器的文本表示向量和结构编码器的隐层输出向量;αijij分别是词汇编码器和结构编码器的注意力系数。
Figure BDA0003625098260000032
qij=a(si-1,rj)
上式为词汇编码器对应的注意力系数αij的计算方法,其中,qij词汇编码器文本表示向量 r和解码器状态向量si-1的对齐程度,a是注意力机制中的相似度计算函数。
Figure BDA0003625098260000041
qij=a(si-1,hj)
上式为结构编码器对应的注意力系数βij的计算方法,q'ij是结构编码器隐层状态向量h和解码器状态向量si-1的对齐程度,a是注意力机制中的相似度计算函数。
(5)确定损失函数H:
使用最小化的交叉熵定义模型训练的损失函数:
Figure BDA0003625098260000042
N为样本数量,l为目标摘要长度,
Figure BDA0003625098260000043
表示生成的第i个摘要中第j个词汇。H(y)的最小值使用梯度下降的方法进行优化。
本发明比现有技术具有的优点:
(1)本发明使用了两个独立的子编码器进行词汇和句子结构重点信息的提取,相对于传统的编码能够提取到更精确的局部信息及句法结构信息,对摘要的准确度有较大改进。
(2)本发明方法提供了一种混合注意力机制的方法,将文本中的核心词汇及重点语法在摘要表述中进一步加强。
附图说明
为了更好地理解本发明,下面结合附图作进一步的说明。
图1是建立融合词汇编码与结构编码的标准内容文本摘要生成方法的步骤流程图;
图2是建立融合词汇编码与结构编码的标准内容文本摘要生成方法的算法流程图;
图3是建立融合词汇编码与结构编码的标准内容文本摘要生成方法的网络模型示意图;
图4是建立融合词汇编码与结构编码的标准内容文本摘要生成方法的准确度比较图;
具体实施方式
下面通过实施案例对本发明做进一步详细说明。
本实施案例中选用燃气事故标准、危化品事故标准两个标准数据进行测试,每类标准集包含150个标准,假设最大摘要长度为40,输入原文长度为100字符。
本发明所提供的融合词汇编码与结构编码的标准内容文本摘要生成方法,算法流程如图2所示,具体步骤如下:
(1)确定标准内容的序列化向量E:
使用BERT模型预训练的词嵌入向量对输入文本的词进行向量表示。BERT模型可以通过对大规模文本数据的训练得到低维且稠密的词向量,这些词向量能够表示词的语义信息,在语义表达信息的准确性方面效果较好。
在文本中获取句子表示
W=[w1,w2,...,w100]
在经过词嵌入层后,文本表示转换为
E=[e1,e2,...,e100],ei∈Rd
其中,E表示句子文本经预处理后的字符数组,ei表示文本中第i个词的序列化字符,d 为词向量维度;词向量维度d=512。
(2)经TextCNN模型处理进行词汇编码输出r:
本发明使用一个TextCNN神经网络来实现词汇编码器,通过TextCNN利用多个不同尺度的卷积核来提取句子中的关键信息,从而更好的捕捉局部相关性。其输入向量序列为E=[e1,e2,...,e100],大小为(N×d),N表示文本单词的数量,d表示词向量的维度。
设置长度为(2,3,4)的等宽卷积核,卷积操作的过程为:
convi=f(w·ei:i+h-1+b),1≤i≤100,2≤h≤4
其中,h表示卷积核的长度;w为卷积核的权重,为可学习的参数矩阵,b是偏置项,初始值为0.01,线性激活函数ReLU;d为卷积核的宽度。对于(h×d)大小的卷积核,通过卷积操作得到特征图大小为(N-h+1,1)。
特征图向量表示为:
c=[c1,c2,...,cN-h+1]
通过最大池化层,取单个特征图最大的数值,得到
Figure BDA0003625098260000051
Figure BDA0003625098260000052
将所有特征图最大响应值
Figure BDA0003625098260000061
进行拼接,得到文本表示向量r,优化参数包括W词向量矩阵、w卷积核权重、b偏置项:
Figure BDA0003625098260000062
(3)经TreeLSTM模型处理进行结构编码输出h:
早期的摘要生成算法完全忽略了文本的结构特征,无法生成令人满意的文本摘要。本发明运用基于LSTM优化的变体TreeLSTM模型来提取文本结构信息进行编码。方法如下:
输入向量序列E=[e1,e2,...,e100],N表示文本单词的数量;
循环结构通过如下公式更新隐藏层变量h(t),h(t)计算如下:
ht=f(ht-1,et),1≤t≤100
ft=σ(Wf·[ht-1,et]+bf),1≤t≤100
it=σ(Wt·[ht-1,et]+bi),1≤t≤100
Ct=ft×Ct-1+it×tanh(Wf·[ht-1,et]+bc),1≤t≤100
ot=σ(W0·[ht-1,et]+b0),1≤t≤100
ht=ot·tanh(Ct),1≤t≤100
其中,f是结构编码器中TreeLSTM单元映射;ht-1是上一个时间节点的隐藏状态变量;Wf和bf是输入门的权重矩阵和偏置向量,矩阵初始化分布满足
Figure BDA0003625098260000063
的随机分布,b初始值为0;Wf和bf是遗忘门的权重矩阵和偏置向量,权重矩阵W初始化分布满足
Figure BDA0003625098260000064
的随机分布,b初始化为0;Wo和bo是输入门的权重矩阵和偏置向量,权重矩阵W初始化分布满足
Figure BDA0003625098260000065
的随机分布,b初始化为0;σ和tanh是模型的激活函数,各参数通过监督训练求解。
输入向量经过结构编码器编码映射,最终形成隐藏层状态:
h=[h1,h2,...,hn],n=100。
(4)经Att-LSTM模型处理进行解码:
解码器由基于混合注意力机制的LSTM神经网络神经网络搭建完成,根据编码器的文本表示向量r和隐层状态向量h依次输出每个预测摘要词汇的概率分布:
p(yi|y1,y2,...,yi-1)=g(yi-1,si,ci),1≤i≤100
Figure BDA0003625098260000076
g是用来预测生成词汇yi的概率分布的非线性变换;si表示解码器当前阶段的隐层输出向量;ci是注意力机制中定义的环境向量,计算方式见下文。
Figure BDA0003625098260000071
ci是词汇编码器的文本表示向量r和结构编码器的隐层输出向量h与注意力权重系数的加权和;rj,hj分别是词汇编码器的文本表示向量和结构编码器的隐层输出向量;αijij分别是词汇编码器和结构编码器的注意力系数。
Figure BDA0003625098260000072
qij=a(si-1,rj)
上式为词汇编码器对应的注意力系数αij的计算方法,其中,qij词汇编码器文本表示向量 r和解码器状态向量si-1的对齐程度,a是注意力机制中的相似度计算函数。
Figure BDA0003625098260000073
qij=a(si-1,hj)
上式为结构编码器对应的注意力系数βij的计算方法,q'ij是结构编码器隐层状态向量h和解码器状态向量si-1的对齐程度,a是注意力机制中的相似度计算函数,网络模型示意如图3 所示。
(5)确定损失函数H:
使用最小化的交叉熵定义模型训练的损失函数:
Figure BDA0003625098260000074
N为样本数量,l为目标摘要长度,
Figure BDA0003625098260000075
表示生成的第i个摘要中第j个词汇。H(y)的最小值使用梯度下降的方法进行优化。
为了验证本发明的有效性,对本发明进行了摘要生成实验,实验结果如图4所示。由图 4可以看出,使用本方法在数据集的模型相对于其他模型的性能均有明显提高。

Claims (1)

1.一种融合词汇编码与结构编码的标准内容文本摘要生成方法,其特征在于,包括以下步骤:
步骤一:确定标准内容的序列化向量E:
使用BERT模型预训练的词嵌入向量对输入文本的词进行向量表示;BERT模型可以通过对大规模文本数据的训练得到低维且稠密的词向量,这些词向量能够表示词的语义信息,在语义表达信息的准确性方面效果较好;
在文本中获取句子表示:
W=[w1,w2,...,wN];
在经过词嵌入层后,文本表示转换为:
E=[e1,e2,...,eN],ei∈Rd
其中,E表示句子文本经预处理后的字符数组,ei表示文本中第i个词的序列化字符,d为词向量维度:
步骤二:经TextCNN模型处理进行词汇编码输出r:
本发明使用一个TextCNN神经网络来实现词汇编码器,通过TextCNN利用多个不同尺度的卷积核来提取句子中的关键信息,从而更好的捕捉局部相关性;其输入向量序列为E=[e1,e2,...,eN],大小为(N×d),N表示文本单词的数量,d表示词向量的维度;
设置长度为(2,3,4)的等宽卷积核,其中每种长度的卷积核包括M个,卷积操作的过程为:
convi=f(w·ei:i+h-1+b);
其中,h表示卷积核的长度;w为卷积核的权重;b是偏置项;函数f表示非线性激活函数ReLU;K为卷积核的宽度;对于(h×K)大小的卷积核,通过卷积操作得到特征图大小为(N-h+1,1);
特征图向量表示为:
c=[c1,c2,...,cN-h+1];
通过最大池化层,取单个特征图最大的数值,得到
Figure FDA0003625098250000011
Figure FDA0003625098250000012
将所有特征图最大响应值
Figure FDA0003625098250000013
进行拼接,得到文本表示向量r,优化参数包括W词向量矩阵、w卷积核权重、b偏置项:
Figure FDA0003625098250000021
步骤三:经TreeLSTM模型处理进行结构编码输出h:
早期的摘要生成算法完全忽略了文本的结构特征,无法生成令人满意的文本摘要。本发明运用基于LSTM优化的变体TreeLSTM模型来提取文本结构信息进行编码;方法如下:
输入向量序列E=[e1,e2,...,eN],N表示文本单词的数量;
循环结构通过如下公式更新隐藏层变量h(t),h(t)计算如下:
ht=f(ht-1,et);
ft=σ(Wf·[ht-1,et]+bf);
it=σ(Wt·[ht-1,et]+bi);
Ct=ft×Ct-1+it×tanh(Wf·[ht-1,et]+bc);
ot=σ(W0·[ht-1,et]+b0);
ht=ot·tanh(Ct);
其中,f是结构编码器中TreeLSTM单元映射;ht-1是上一个时间节点的隐藏状态变量;Wf和bf是输入门的权重矩阵和偏置向量;Wf和bf是遗忘门的权重矩阵和偏置向量;Wo和bo是输入门的权重矩阵和偏置向量;σ和tanh是模型的激活函数,各参数通过监督训练求解;
输入向量经过结构编码器编码映射,最终形成隐藏层状态:
h=[h1,h2,...,hn];
步骤四:经Att-LSTM模型处理进行解码:
解码器由基于混合注意力机制的LSTM神经网络神经网络搭建完成,根据编码器的文本表示向量r和隐层状态向量h依次输出每个预测摘要词汇的概率分布:
p(yi|y1,y2,...,yi-1)=g(yi-1,si,ci);
Figure FDA0003625098250000022
g是用来预测生成词汇yi的概率分布的非线性变换;si表示解码器当前阶段的隐层输出向量;ci是注意力机制中定义的环境向量,计算方式见下文;
Figure FDA0003625098250000023
ci是词汇编码器的文本表示向量r和结构编码器的隐层输出向量h与注意力权重系数的加权和;rj,hj分别是词汇编码器的文本表示向量和结构编码器的隐层输出向量;αijij分别是词汇编码器和结构编码器的注意力系数;
Figure FDA0003625098250000031
qij=a(si-1,rj);
上式为词汇编码器对应的注意力系数αij的计算方法,其中,qij词汇编码器文本表示向量r和解码器状态向量si-1的对齐程度,a是注意力机制中的相似度计算函数;
Figure FDA0003625098250000032
qij=a(si-1,hj);
上式为结构编码器对应的注意力系数βij的计算方法,q’ij是结构编码器隐层状态向量h和解码器状态向量si-1的对齐程度,a是注意力机制中的相似度计算函数;
步骤五:确定损失函数H:
使用最小化的交叉熵定义模型训练的损失函数:
Figure FDA0003625098250000033
N为样本数量,l为目标摘要长度,
Figure FDA0003625098250000034
表示生成的第i个摘要中第j个词汇;H(y)的最小值使用梯度下降的方法进行优化。
CN202210475184.1A 2022-04-29 2022-04-29 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 Pending CN114925195A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210475184.1A CN114925195A (zh) 2022-04-29 2022-04-29 一种融合词汇编码与结构编码的标准内容文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210475184.1A CN114925195A (zh) 2022-04-29 2022-04-29 一种融合词汇编码与结构编码的标准内容文本摘要生成方法

Publications (1)

Publication Number Publication Date
CN114925195A true CN114925195A (zh) 2022-08-19

Family

ID=82806738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210475184.1A Pending CN114925195A (zh) 2022-04-29 2022-04-29 一种融合词汇编码与结构编码的标准内容文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN114925195A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221873A (zh) * 2022-09-20 2022-10-21 深圳大道云科技有限公司 输入词汇的补全方法、装置、设备及存储介质
CN115906768A (zh) * 2023-01-04 2023-04-04 深圳市迪博企业风险管理技术有限公司 企业信息化数据合规性评估方法、系统和可读存储介质
CN115994542A (zh) * 2023-03-23 2023-04-21 南京邮电大学 基于特征融合与注意力机制的医疗问答文本情感分析方法
CN117407051A (zh) * 2023-12-12 2024-01-16 武汉大学 一种基于结构位置感知的代码自动摘要方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221873A (zh) * 2022-09-20 2022-10-21 深圳大道云科技有限公司 输入词汇的补全方法、装置、设备及存储介质
CN115221873B (zh) * 2022-09-20 2023-01-17 深圳大道云科技有限公司 输入词汇的补全方法、装置、设备及存储介质
CN115906768A (zh) * 2023-01-04 2023-04-04 深圳市迪博企业风险管理技术有限公司 企业信息化数据合规性评估方法、系统和可读存储介质
CN115994542A (zh) * 2023-03-23 2023-04-21 南京邮电大学 基于特征融合与注意力机制的医疗问答文本情感分析方法
CN117407051A (zh) * 2023-12-12 2024-01-16 武汉大学 一种基于结构位置感知的代码自动摘要方法
CN117407051B (zh) * 2023-12-12 2024-03-08 武汉大学 一种基于结构位置感知的代码自动摘要方法

Similar Documents

Publication Publication Date Title
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN107358948B (zh) 基于注意力模型的语言输入关联性检测方法
CN114925195A (zh) 一种融合词汇编码与结构编码的标准内容文本摘要生成方法
CN112560503A (zh) 融合深度特征和时序模型的语义情感分析方法
CN112926303B (zh) 一种基于BERT-BiGRU的恶意URL检测方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN110210032A (zh) 文本处理方法及装置
CN110569505A (zh) 一种文本输入方法及装置
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN111353040A (zh) 基于gru的属性级别情感分析方法
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN108549703A (zh) 一种基于循环神经网络的蒙古语语言模型的训练方法
CN113128206A (zh) 基于单词重要性加权的问题生成方法
CN113012822A (zh) 一种基于生成式对话技术的医疗问答系统
CN114254645A (zh) 一种人工智能辅助写作系统
CN116403231A (zh) 基于双视图对比学习与图剪枝的多跳阅读理解方法及系统
CN116775862A (zh) 融合情感词的Bi-LSTM的情感分类方法
CN115114432A (zh) 一种融合全局语义特征与拼接特征的标准内容文本分类方法
CN114510576A (zh) 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination