CN109325110A - 印尼语文档摘要生成方法、装置、存储介质及终端设备 - Google Patents

印尼语文档摘要生成方法、装置、存储介质及终端设备 Download PDF

Info

Publication number
CN109325110A
CN109325110A CN201810979183.4A CN201810979183A CN109325110A CN 109325110 A CN109325110 A CN 109325110A CN 201810979183 A CN201810979183 A CN 201810979183A CN 109325110 A CN109325110 A CN 109325110A
Authority
CN
China
Prior art keywords
indonesian
vector
output
model
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810979183.4A
Other languages
English (en)
Other versions
CN109325110B (zh
Inventor
蒋盛益
林楠铠
蔡泽枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN201810979183.4A priority Critical patent/CN109325110B/zh
Publication of CN109325110A publication Critical patent/CN109325110A/zh
Application granted granted Critical
Publication of CN109325110B publication Critical patent/CN109325110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种印尼语文档摘要生成方法,包括:对印尼语文档进行预处理;根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量;基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量;根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要。相应的,本发明还公开了一种印尼语文档摘要生成装置、计算机可读存储介质及终端设备,采用本发明的技术方案能够实现印尼语文档摘要的自动生成,并且摘要结果具有连贯性,能够完整地概括文档内容。

Description

印尼语文档摘要生成方法、装置、存储介质及终端设备
技术领域
本发明涉及信息技术中的自然语言处理领域,尤其涉及一种印尼语文档摘要生成方法、装置、计算机可读存储介质及终端设备。
背景技术
用户在阅读长文本时需要耗费大量时间,文档自动摘要技术通过自动提取文档的摘要提供文档的概括性信息,用户只需阅读简短的摘要就可以初步窥探全文的重点内容,大大方便了用户的阅读与信息的获取,提升了用户获取或理解信息的效率。
在自动提取文档摘要的研究中,现有技术提供的一种使用较为广泛的摘要提取方法是摘要自动抽取方法,该方法基于词频、词特征等信息将文档中最重要的几个句子抽取出来作为文档的摘要,操作简单且保证了单个句子的可读性,但却存在摘要的句子与句子之间不连贯、摘要整体可读性差、摘要不能完整概括文档等缺点;另外,由于印尼语属于小语种,现有技术提供的摘要提取方法多用于中文、英文等常用语言文档的自动摘要生成,对印尼语并不适用。
发明内容
本发明实施例所要解决的技术问题在于,提供一种印尼语文档摘要生成方法、装置、计算机可读存储介质及终端设备,能够实现印尼语文档摘要的自动生成,并且摘要结果具有连贯性,能够完整地概括文档内容。
为了解决上述技术问题,本发明实施例提供了一种印尼语文档摘要生成方法,包括:
对印尼语文档进行预处理;
根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量;
基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量;
根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
进一步地,所述印尼语摘要模型为融合了多层GRU神经网络与attention机制的seq2seq模型;其中,所述seq2seq模型的encoder为GRU-based+attention模型,所述seq2seq模型的decoder为GRU-based模型。
进一步地,所述基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量,具体包括:
基于所述GRU-based+attention模型对所述输入向量进行编码,生成中间向量;
基于所述GRU-based模型对所述中间向量进行解码,生成所述输出向量的一个输出元素;
根据当前生成的输出元素和所述印尼语摘要模型生成所述当前生成的输出元素的下一相邻输出元素,直至生成所述输出向量的所有输出元素为止;
根据生成的所述所有输出元素获得所述输出向量。
进一步地,所述方法通过以下步骤根据所述当前生成的输出元素和所述印尼语摘要模型生成所述当前生成的输出元素的下一相邻输出元素:
将所述当前生成的输出元素发送至所述GRU-based+attention模型;
所述GRU-based+attention模型根据所述当前生成的输出元素对attention层进行更新,获得更新后的中间向量;
基于所述GRU-based模型对所述更新后的中间向量进行解码,生成所述当前生成的输出元素的下一相邻输出元素。
进一步地,所述对印尼语文档进行预处理,具体包括:
对所述印尼语文档进行分句处理和分词处理。
进一步地,所述映射字典包括词-代码映射字典;
则所述根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量,具体包括:
根据所述词-代码映射字典将预处理后的所述印尼语文档转化为所述输入向量。
进一步地,所述映射字典还包括代码-词映射字典;
则所述根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要,具体包括:
根据所述代码-词映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
为了解决上述技术问题,本发明实施例还提供了一种印尼语文档摘要生成装置,包括:
预处理模块,用于对印尼语文档进行预处理;
输入向量转化模块,用于根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量;
输出向量获取模块,用于基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量;以及,
文档摘要生成模块,用于根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的印尼语文档摘要生成方法。
本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的印尼语文档摘要生成方法。
与现有技术相比,本发明实施例提供了一种印尼语文档摘要生成方法、装置、计算机可读存储介质及终端设备,通过对印尼语文档进行预处理,并根据预设的映射字典将预处理后的印尼语文档转化为输入向量,从而基于预先训练的印尼语摘要模型根据输入向量获得输出向量,并根据映射字典将输出向量转化为印尼语文档的文档摘要,实现了印尼语文档摘要的自动生成,并且获得的摘要结果具有连贯性,能够完整地概括文档内容。
附图说明
图1是本发明提供的一种印尼语文档摘要生成方法的一个优选实施例的流程图;
图2是本发明实施例提供的一种seq2seq模型的结构示意图;
图3是本发明实施例提供的一种GRU神经网络的结构示意图;
图4是本发明提供的一种印尼语文档摘要生成方法的步骤S13的一个优选实施例的具体流程图;
图5是本发明提供的一种印尼语文档摘要生成方法的一个优选实施例的示意图;
图6是本发明提供的一种印尼语文档摘要生成装置的一个优选实施例的结构框图;
图7是本发明提供的一种终端设备的一个优选实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,是本发明提供的一种印尼语文档摘要生成方法的一个优选实施例的流程图,包括步骤S11至步骤S14:
步骤S11、对印尼语文档进行预处理;
步骤S12、根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量;
步骤S13、基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量;
步骤S14、根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
具体的,预先使用了大规模的印尼语语料对印尼语摘要模型进行训练,当需要提取一篇印尼语文档的文档摘要时,首先对整篇印尼语文档进行预处理,并根据预先设置的映射字典将预处理后的印尼语文档对应转化为一个输入向量[x1,x2,···,xn],然后将该输入向量[x1,x2,···,xn]输入训练后的印尼语摘要模型中,根据训练后的印尼语摘要模型相应获得一个输出向量[y1,y2,···,ym],最后根据预先设置的映射字典将输出向量[y1,y2,···,ym]对应转化为若干个印尼语句子,从而由转化生成的印尼语句子得到印尼语文档的文档摘要。
需要说明的是,预先设置的映射字典表明了每个印尼语单词与输入向量中的元素xi(i=1,2,···,n)之间以及与输出向量中的元素yj(j=1,2,···,m)之间的映射关系。
另外,使用大规模的印尼语语料对印尼语摘要模型进行训练,提高了模型的可靠性与准确性。
本发明实施例所提供的一种印尼语文档摘要生成方法,通过对印尼语文档进行预处理,并根据预设的映射字典将预处理后的印尼语文档转化为输入向量,从而基于预先训练的印尼语摘要模型根据输入向量获得输出向量,并根据映射字典将输出向量转化为印尼语文档的文档摘要,实现了印尼语文档摘要的自动生成,并且获得的摘要结果具有连贯性,能够完整地概括文档内容。
在另一个优选实施例中,所述印尼语摘要模型为融合了多层GRU神经网络与attention机制的seq2seq模型;其中,所述seq2seq模型的encoder为GRU-based+attention模型,所述seq2seq模型的decoder为GRU-based模型。
在本实施例中,由于印尼语与英语同属拉丁语系,但与英语相比又存在一定的差别,因此本实施例没有采用传统的seq2seq模型,而是采用了融合多层GRU神经网络与attention机制的seq2seq模型,其中,每一层GRU神经网络的输出作为下一层GRU神经网络的输入。
需要说明的是:
(1)seq2seq模型
seq2seq(sequence-to-sequence)模型是一个encoder-decoder结构的网络,它的输入是一个序列,输出也是一个序列,通过编码器(encoder)将一个长度可变的信号序列转化为长度固定的向量表达,通过解码器(decoder)将这个长度固定的向量表达转化为长度可变的目标信号序列。
参见图2所示,是本发明实施例提供的一种seq2seq模型的结构示意图,seq2seq模型包含了三部分,分别为encoder、decoder以及连接encoder和decoder的中间向量(StateVector),[x1,x2,···,xn]为模型的输入,[y1,y2,···,ym]为模型的输出。
encoder通过学习输入[x1,x2,···,xn],将其编码成一个固定大小的中间向量,继而将中间向量传给decoder,decoder再通过对中间向量的学习来进行解码,从而获得输出[y1,y2,···,ym]。
(2)GRU神经网络
GRU(Gated Recurrent Unit)神经网络模型包含了两个门(Gate),分别为更新门和重置门;更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大,说明前一时刻的状态信息带入越多;重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小,说明忽略得越多。
参见图3所示,是本发明实施例提供的一种GRU神经网络的结构示意图,图中xt为t时刻的输入值,ht-1为t-1时刻的输出值,ht为t时刻的输出值,zt为更新门计算处理的值,rt为重置门计算处理的值,为rt经过激活函数后计算处理的值,具体计算过程如下:
其中,[]表示两个向量相连接,*表示矩阵元素相乘,yt为模型最终的输出结果。
(3)attention机制
attention机制为注意力机制,在序列学习任务上具有巨大的提升作用,在编解码器框架内,在编码阶段加入attention机制,对源数据序列进行数据加权变换,通过增加对输入数据的注意力(权重)分配,增大包含重要信息的维度的权值来提高模型的准确率。
设未使用attention机制时,中间向量为[c1,c2,…,ck],中间向量中的每个元素代表输入信息中某个时间片或者空间位置上的输入信息。
使用attention机制时,对中间向量中每个元素进行softmax归一化计算:
经过attention机制后中间向量表示为:
例如,采用5万篇印尼语新闻以及与新闻对应的新闻摘要对上述印尼语摘要模型进行训练,优选设置GRU的层数为5层,其他参数优选设置如下:
Epoch(所有样本的训练次数):30
Batch_size(每次输入的样本数):128
GRU_size(GRU模型每层的单元数):1024
Encoding_embedding_size(Encoder端输入的每一个单词维度):150
Decoding_embedding_size(Dncoder端输入的每一个单词维度):150
Learning_rate:0.01
在模型的训练过程中,通过实验结果发现,上述印尼语摘要模型在30次Epoch进行收敛;由于印尼语语料的新闻长度有长有短,因此需要不断调整参数,并且当Batch_size为128以及GRU_sieze为1024时模型效果最好;由于印尼语具有词汇开放性的特点,吸收了大量外来词汇,其单词语义表达相对丰富,Embeding_size表示每个单词的语义空间,因此将Encoding_embeding_size与Decoding_embedding_size设置得较大(150)。
本发明实施例所提供的一种印尼语文档摘要生成方法,使用的印尼语摘要模型为融合了多层GRU神经网络与attention机制的seq2seq模型,在传统的seq2seq模型的基础上,采用了多层GRU神经网络,seq2seq模型中的encoder与decoder利用GRU神经网络进行编码与解码,克服了RNN神经网络无法很好处理远距离依赖的问题,并且比采用LSTM神经网络时的结构更加简单,同时引入了attention机制,使模型在输出结果时增大了对重要信息的权重,从而使获得的摘要结果更加可靠、更加准确。
参见图4所示,是本发明提供的一种印尼语文档摘要生成方法的步骤S13的一个优选实施例的具体流程图,所述基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量,具体包括步骤S1301至步骤S1304:
步骤S1301、基于所述GRU-based+attention模型对所述输入向量进行编码,生成中间向量;
步骤S1302、基于所述GRU-based模型对所述中间向量进行解码,生成所述输出向量的一个输出元素;
步骤S1303、根据当前生成的输出元素和所述印尼语摘要模型生成所述当前生成的输出元素的下一相邻输出元素,直至生成所述输出向量的所有输出元素为止;
步骤S1304、根据生成的所述所有输出元素获得所述输出向量。
具体的,结合上述实施例,将输入向量[x1,x2,···,xn]输入训练后的印尼语摘要模型中,根据GRU-based+attention模型对输入向量[x1,x2,···,xn]进行编码,相应生成中间向量,并将中间向量传送至GRU-based模型,GRU-based模型对接收到的中间向量进行解码,相应生成输出向量的一个输出元素yj,并根据输出元素yj和训练后的印尼语摘要模型生成输出元素yj的下一相邻输出元素yj+1,同理,根据输出元素yj+1和训练后的印尼语摘要模型生成输出元素yj+1的下一相邻输出元素yj+2,直至生成输出向量的所有输出元素为止,从而根据生成的所有的输出元素得到输出向量[y1,y2,···,ym]。
在又一个优选实施例中,所述方法通过以下步骤根据所述当前生成的输出元素和所述印尼语摘要模型生成所述当前生成的输出元素的下一相邻输出元素:
将所述当前生成的输出元素发送至所述GRU-based+attention模型;
所述GRU-based+attention模型根据所述当前生成的输出元素对attention层进行更新,获得更新后的中间向量;
基于所述GRU-based模型对所述更新后的中间向量进行解码,生成所述当前生成的输出元素的下一相邻输出元素。
具体的,结合上述实施例,将当前生成的输出元素yj传回给GRU-based+attention模型,GRU-based+attention模型根据接收到的输出元素yj对attention层进行更新,重新分配中间向量中的元素的权重,获得更新后的中间向量,并将更新后的中间向量传送至GRU-based模型,GRU-based模型对接收到的更新后的中间向量进行解码,相应生成输出元素yj的下一相邻输出元素yj+1
结合图5所示,是本发明提供的一种印尼语文档摘要生成方法的一个优选实施例的示意图,将输入向量[x1,x2,···,xn]输入多层GRU神经网络进行编码,并结合attention机制获得中间向量,其中,中间向量的每个元素被分配了相应的权重,将中间向量传给多层GRU神经网络进行解码,首先生成输出元素y1,将输出元素y1传回给attention机制以对attention机制进行更新,重新获得中间向量,其中,重新获得的中间向量的每个元素被重新分配了相应的权重,将重新获得的中间向量传给多层GRU神经网络进行解码,对应生成输出元素y1的下一相邻输出元素y2,以此类推,直至生成最后一个输出元素ym为止,从而根据生成的所有的输出元素得到输出向量[y1,y2,···,ym]。
本发明实施例所提供的一种印尼语文档摘要生成方法,通过将当前生成的输出元素返回给GRU-based+attention模型以对attention层进行更新,可以避免包已经获得的输出元素连续重复生成。
在又一个优选实施例中,所述对印尼语文档进行预处理,具体包括:
对所述印尼语文档进行分句处理和分词处理。
可以理解的,映射字典表明了印尼语单词与输入向量中的元素之间的映射关系,为了根据印尼语文档获得相应的输入向量,需要对印尼语文档进行预处理,先对印尼语文档进行分句处理,再对每个印尼语句子进行分词处理,从而将整篇印尼语文档划分为若干个印尼语单词,以便根据预先设置的映射字典将预处理后的印尼语文档转化为输入向量。。
在又一个优选实施例中,所述映射字典包括词-代码映射字典;
则所述根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量,具体包括:
根据所述词-代码映射字典将预处理后的所述印尼语文档转化为所述输入向量。
具体的,预先设置的映射字典包括词-代码映射字典(word2id字典,包括标点符号映射),根据word2id字典可以将不同的印尼语单词映射为不同的代码表示,从而可以将预处理后的印尼语文档转化为输入向量。
在又一个优选实施例中,所述映射字典还包括代码-词映射字典;
则所述根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要,具体包括:
根据所述代码-词映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
具体的,预先设置的映射字典还包括代码-词映射字典(id2word字典,包括标点符号映射),根据id2word字典可以将不同代码映射为不同的印尼语单词,从而可以将输出向量转化为若干个印尼语句子,由转化生成的印尼语句子得到印尼语文档的文档摘要。
本发明实施例还提供了一种印尼语文档摘要生成装置,能够实现上述任一实施例所提供的印尼语文档摘要生成方法的所有流程,装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所提供的印尼语文档摘要生成方法的作用以及实现的技术效果对应相同,这里不再赘述。
参见图6所示是本发明提供的一种印尼语文档摘要生成装置的一个优选实施例的结构框图,包括:
预处理模块11,用于对印尼语文档进行预处理;
输入向量转化模块12,用于根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量;
输出向量获取模块13,用于基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量;以及,
文档摘要生成模块14,用于根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
优选地,所述印尼语摘要模型为融合了多层GRU神经网络与attention机制的seq2seq模型;其中,所述seq2seq模型的encoder为GRU-based+attention模型,所述seq2seq模型的decoder为GRU-based模型。
优选地,所述输出向量获取模块具体包括:
编码单元,用于基于所述GRU-based+attention模型对所述输入向量进行编码,生成中间向量;
解码单元,用于基于所述GRU-based模型对所述中间向量进行解码,生成所述输出向量的一个输出元素;
优化单元,用于根据当前生成的输出元素和所述印尼语摘要模型生成所述当前生成的输出元素的下一相邻输出元素,直至生成所述输出向量的所有输出元素为止;以及,
输出向量获取单元,用于根据生成的所述所有输出元素获得所述输出向量。
优选地,所述优化单元通过以下步骤根据所述当前生成的输出元素和所述印尼语摘要模型生成所述当前生成的输出元素的下一相邻输出元素:
将所述当前生成的输出元素发送至所述GRU-based+attention模型;
所述GRU-based+attention模型根据所述当前生成的输出元素对attention层进行更新,获得更新后的中间向量;
基于所述GRU-based模型对所述更新后的中间向量进行解码,生成所述当前生成的输出元素的下一相邻输出元素。
优选地,所述预处理模块具体包括:
分句和分词处理单元,用于对所述印尼语文档进行分句处理和分词处理。
优选地,所述映射字典包括词-代码映射字典;
则所述输入向量转化模块具体包括:
输入向量转化单元,用于根据所述词-代码映射字典将预处理后的所述印尼语文档转化为所述输入向量。
优选地,所述映射字典还包括代码-词映射字典;
则所述文档摘要生成模块具体包括:
文档摘要生成单元,用于根据所述代码-词映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的印尼语文档摘要生成方法。
本发明实施例还提供了一种终端设备,参见图7所示,是本发明提供的一种终端设备的一个优选实施例的结构框图,包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10在执行所述计算机程序时实现上述任一实施例所述的印尼语文档摘要生成方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······),所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器10也可以是任何常规的处理器,所述处理器10是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器20主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器20可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器20也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图7结构框图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
综上,本发明实施例所提供的一种印尼语文档摘要生成方法、装置、计算机可读存储介质及终端设备,通过对印尼语文档进行预处理,并根据预设的映射字典将预处理后的印尼语文档转化为输入向量,从而基于预先训练的印尼语摘要模型根据输入向量获得输出向量,并根据映射字典将输出向量转化为印尼语文档的文档摘要,实现了印尼语文档摘要的自动生成,并且获得的摘要结果具有连贯性,能够完整地概括文档内容。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种印尼语文档摘要生成方法,其特征在于,包括:
对印尼语文档进行预处理;
根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量;
基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量;
根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
2.如权利要求1所述的印尼语文档摘要生成方法,其特征在于,所述印尼语摘要模型为融合了多层GRU神经网络与attention机制的seq2seq模型;其中,所述seq2seq模型的encoder为GRU-based+attention模型,所述seq2seq模型的decoder为GRU-based模型。
3.如权利要求2所述的印尼语文档摘要生成方法,其特征在于,所述基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量,具体包括:
基于所述GRU-based+attention模型对所述输入向量进行编码,生成中间向量;
基于所述GRU-based模型对所述中间向量进行解码,生成所述输出向量的一个输出元素;
根据当前生成的输出元素和所述印尼语摘要模型生成所述当前生成的输出元素的下一相邻输出元素,直至生成所述输出向量的所有输出元素为止;
根据生成的所述所有输出元素获得所述输出向量。
4.如权利要求3所述的印尼语文档摘要生成方法,其特征在于,所述方法通过以下步骤根据所述当前生成的输出元素和所述印尼语摘要模型生成所述当前生成的输出元素的下一相邻输出元素:
将所述当前生成的输出元素发送至所述GRU-based+attention模型;
所述GRU-based+attention模型根据所述当前生成的输出元素对attention层进行更新,获得更新后的中间向量;
基于所述GRU-based模型对所述更新后的中间向量进行解码,生成所述当前生成的输出元素的下一相邻输出元素。
5.如权利要求1所述的印尼语文档摘要生成方法,其特征在于,所述对印尼语文档进行预处理,具体包括:
对所述印尼语文档进行分句处理和分词处理。
6.如权利要求1所述的印尼语文档摘要生成方法,其特征在于,所述映射字典包括词-代码映射字典;
则所述根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量,具体包括:
根据所述词-代码映射字典将预处理后的所述印尼语文档转化为所述输入向量。
7.如权利要求1所述的印尼语文档摘要生成方法,其特征在于,所述映射字典还包括代码-词映射字典;
则所述根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要,具体包括:
根据所述代码-词映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
8.一种印尼语文档摘要生成装置,其特征在于,包括:
预处理模块,用于对印尼语文档进行预处理;
输入向量转化模块,用于根据预设的映射字典将预处理后的所述印尼语文档转化为输入向量;
输出向量获取模块,用于基于预先训练的印尼语摘要模型根据所述输入向量获得输出向量;以及,
文档摘要生成模块,用于根据所述映射字典将所述输出向量转化为所述印尼语文档的文档摘要。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任一项所述的印尼语文档摘要生成方法。
10.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1至7中任一项所述的印尼语文档摘要生成方法。
CN201810979183.4A 2018-08-24 2018-08-24 印尼语文档摘要生成方法、装置、存储介质及终端设备 Active CN109325110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810979183.4A CN109325110B (zh) 2018-08-24 2018-08-24 印尼语文档摘要生成方法、装置、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810979183.4A CN109325110B (zh) 2018-08-24 2018-08-24 印尼语文档摘要生成方法、装置、存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN109325110A true CN109325110A (zh) 2019-02-12
CN109325110B CN109325110B (zh) 2021-06-25

Family

ID=65263562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810979183.4A Active CN109325110B (zh) 2018-08-24 2018-08-24 印尼语文档摘要生成方法、装置、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN109325110B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929024A (zh) * 2019-12-10 2020-03-27 哈尔滨工业大学 一种基于多模型融合的抽取式文本摘要生成方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004025496A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106933785A (zh) * 2017-02-23 2017-07-07 中山大学 一种基于递归神经网络的摘要生成方法
EP3209311A1 (en) * 2014-10-21 2017-08-30 University of Massachusetts Recombinant aav variants and uses thereof
CN107274738A (zh) * 2017-06-23 2017-10-20 广东外语外贸大学 基于移动互联网的汉英翻译教学评分系统
CN107766419A (zh) * 2017-09-08 2018-03-06 广州汪汪信息技术有限公司 一种基于阈值去噪的TextRank文档摘要方法及装置
CN107909421A (zh) * 2017-09-29 2018-04-13 中国船舶重工集团公司第七0九研究所 一种基于用户空间的多gru层神经网络的隐含反馈推荐方法及系统
CN107944915A (zh) * 2017-11-21 2018-04-20 北京深极智能科技有限公司 一种游戏用户行为分析方法及计算机可读存储介质
CN108021616A (zh) * 2017-11-06 2018-05-11 大连理工大学 一种基于循环神经网络的社区问答专家推荐方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004025496A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置
EP3209311A1 (en) * 2014-10-21 2017-08-30 University of Massachusetts Recombinant aav variants and uses thereof
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106933785A (zh) * 2017-02-23 2017-07-07 中山大学 一种基于递归神经网络的摘要生成方法
CN107274738A (zh) * 2017-06-23 2017-10-20 广东外语外贸大学 基于移动互联网的汉英翻译教学评分系统
CN107766419A (zh) * 2017-09-08 2018-03-06 广州汪汪信息技术有限公司 一种基于阈值去噪的TextRank文档摘要方法及装置
CN107909421A (zh) * 2017-09-29 2018-04-13 中国船舶重工集团公司第七0九研究所 一种基于用户空间的多gru层神经网络的隐含反馈推荐方法及系统
CN108021616A (zh) * 2017-11-06 2018-05-11 大连理工大学 一种基于循环神经网络的社区问答专家推荐方法
CN107944915A (zh) * 2017-11-21 2018-04-20 北京深极智能科技有限公司 一种游戏用户行为分析方法及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PANDU PRAKOSO TARDAN 等: "Automatic Text Summarization Based on Semantic Analysis Approach for Documents in Indonesian Language", 《2013 INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY AND ELECTRICAL ENGINEERING (ICITEE)》 *
鹿忠磊 等: "基于预读及简单注意力机制的句子压缩方法", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929024A (zh) * 2019-12-10 2020-03-27 哈尔滨工业大学 一种基于多模型融合的抽取式文本摘要生成方法
CN110929024B (zh) * 2019-12-10 2021-07-02 哈尔滨工业大学 一种基于多模型融合的抽取式文本摘要生成方法

Also Published As

Publication number Publication date
CN109325110B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
Zhu et al. CAN-NER: Convolutional attention network for Chinese named entity recognition
JP7122365B2 (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
WO2020107878A1 (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
Zhang et al. A context-aware recurrent encoder for neural machine translation
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
CN108062388A (zh) 人机对话的回复生成方法和装置
CN109657226B (zh) 多联结注意力的阅读理解模型、系统及方法
WO2021022816A1 (zh) 一种基于深度学习网络的意图识别方法
CN110598191B (zh) 一种基于神经网络的复杂pdf结构解析方法及装置
Wang et al. An experimental study of LSTM encoder-decoder model for text simplification
JP7096919B2 (ja) エンティティワードの認識方法と装置
CN108153864A (zh) 基于神经网络生成文本摘要的方法
CN114676234A (zh) 一种模型训练方法及相关设备
CN111881292B (zh) 一种文本分类方法及装置
CN108664465A (zh) 一种自动生成文本方法以及相关装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
US11615247B1 (en) Labeling method and apparatus for named entity recognition of legal instrument
JP2024515199A (ja) 要素テキスト処理方法、装置、電子機器及び記憶媒体
CN109508457A (zh) 一种基于机器阅读到序列模型的迁移学习方法
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
KR20210058059A (ko) 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스
CN109902273A (zh) 关键词生成模型的建模方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant