CN111813923A - 文本摘要方法、电子设备及存储介质 - Google Patents
文本摘要方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111813923A CN111813923A CN201911202894.1A CN201911202894A CN111813923A CN 111813923 A CN111813923 A CN 111813923A CN 201911202894 A CN201911202894 A CN 201911202894A CN 111813923 A CN111813923 A CN 111813923A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- text
- knowledge
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 298
- 238000006243 chemical reaction Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 66
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 239000000126 substance Substances 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 2
- 239000000203 mixture Substances 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Abstract
本发明公开一种文本摘要方法、电子设备及存储介质,方法包括:将待摘要文本进行分词;将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;将待摘要文本每个词对应的综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列;将所述输出向量序列的词向量转换为对应的词,得到文本摘要。本发明通过为知识图谱建立网络,捕捉实体的组成的关系,从而解决缺少单元语义的问题。此外,利用知识图谱中的知识点关系,通过分布式表示的方式引入文本摘要模型,与基础向量序列结合,解决一词多义问题。本发明能使文本摘要结果更专业,跟人的知识体系更接近。
Description
技术领域
本发明涉及自然语言分析相关技术领域,特别是一种文本摘要方法、电子设备及存储介质。
背景技术
文本摘要技术,是利用机器学习或者深度学习等方法,将一段“长文本”概括为“短文本”的技术。在当前信息量爆炸的时代,快速的获取信息成为人们高效生产生活的必要帮助。该技术的应用场景非常广泛,例如新闻摘要生成、标题生成、客服对话工单标题生成等。以客服对话工单标题生成为例,客服需要在与用户的对话中捕获用户的目的、解决方案、满意程度等等,并在服务结束之后总结服务内容录入工单系统。着往往需要分析大段文本的信息,文本摘要技术就能很好的帮助他们进行服务内容总结,更加高效的提供服务。此外,在日常生活中阅读一篇文章需要耗费大量的时间,通过文本摘要技术获取文章的梗概,可以辅助快速理解文章内容,过滤无效信息。
知识图谱技术,是通过对海量的知识进行发掘,获得知识中各种实体和实体之间的对应关系,将这些实体和关系构成巨大的语义网络。知识图谱的应用场景也很丰富,主要体现在其庞大的知识储备和更具个性化的特点。比如在搜索上,可以通过知识图谱在搜索结果中接入更多相似的内容推荐。在客服问答场景中,遇到一些专业性较强的问题,客服的知识储备可能无法回答,则可以利用常用的知识图谱技术构建知识问答,帮助克服回答用户这些更加专业的问题。
虽然文本摘要技术在近几年不断发展,摘要效果也在不断接近人类,但还是存在一些不足的地方。
-比如对于一些没见过的词(未登录词,OOV),文本摘要技术可能无法正确的捕获这样的词,甚至会错误理解句子的含义,给出错误的摘要信息。例如,“滴滴公司推出了专车服务,针对…,服务…,致力于…。”,如果文本摘要技术不能理解“专车”这个词汇,就无法生成“滴滴推出专车服务”的摘要信息。
-还有一些词,可能在不同的句子场景下,会有不同的意思,即一词多义,文本摘要技术可能会无法分辨这样的场景的区别,而只使用这些词的单一意思。这是由于文本摘要对于语料的依赖性造成的,若其没在语料中见过这样的词或句子场景,它很难能给出正确的摘要结果,就跟我们在文本摘要时,遇到没见过或不了解的单词的其他含义,会没法理解句子的含义一样。例如,“滴滴推出了专车服务,针对…,服务…,致力于…。”,如果文本摘要技术不能理解“滴滴”这个词汇是一个公司的名称,而作为“水声”的释义,就无法生成“滴滴推出专车服务”的摘要信息。
现有主流的神经网络文本摘要技术是基于序列到序列(Sequence to Sequence,seq2seq)框架的,即编码器-解码器(encoder-decoder)结构的网络。它的输入是一段源序列,编码器将序列转换为固定长度的向量,在通过解码器将该向量转换为目标序列输出。该框架有3个主要的技术方案,即长短期记忆网络(Long Short-Term Memory,LSTM)、卷积神经网络简介(Convolutional Neural Networks,CNN)和自注意力(self-attention)三种,以下将对他们做简要的介绍。
-基于LSTM的seq2seq:基于循环神经网络(RNN,Recurrent Neural Networks,RNN)的seq2seq是最早提出的技术方案,而LSTM结构是RNN中的一个代表。RNN网络都具有循环结构,通过上一个神经元的反馈结果,和当前输入决定该单元的输出。但随着序列不断变长,开始输入的信息对后面的影响会不断减少。而LSTM则通过记忆单元,不断学习哪些输入信息需要被记忆,哪些可以被遗忘,从而很好的解决了这种长距离依赖问题。但仍有一些缺点没有解决,比如无法并行化计算。
-基于CNN的seq2seq:基于CNN的seq2seq在其后被提出。虽然单个CNN单元通过在在序列上的移动,只能捕获所设定n-gram消息。但将多层CNN进行堆叠,则可以实现长距离的语义信息的捕获。而且相比于RNN的seq2seq,CNN的可以完成并行化计算,大大的加速了训练速度,更能满足工业上实时性的要求。而相应的缺点仍是没有本质解决长距离依赖问题,在摘要任务上效果不如RNN的seq2seq。
-基于self-attention的seq2seq:基于self-attention的seq2seq是近年提出的最新方案。该方案通过将原输入中的所有词进行attention计算,目的是学习句子内部词之间的依赖关系,更好的捕获句子的内部结构。这样的设计能够很好的捕获长距离依赖关系,而且attention的计算可以完全并行化进行,同时具有了RNN和CNN结构的优点,在很多的自然语言处理的任务中获得最佳的效果,逐渐成为了主流的技术方案。
但是针对OOV词问题、以及一次多义的问题,单纯的神经网络框架并不能很好的处理,因此业界对这些难题进行了研究。
字节对码化(BytePair Encoding,BPE),是目前缓解OOV问题的主要方法之一。它的思路是,词组通常都有常见的前缀或尾缀,通过将一个OOV词分为两个常见短词,可以帮助模型理解这个OOV的含义。BPE通过统计高频短词之间的共现关系,构建BPE词表。利用这个词表,在遇到OOV词时,可以将OOV词进行切割,分成常见的短词,通过摘要这种常见短词可以一定程度上减少OOV词的影响。但是这并没有完全解决这个问题,当分成的短词和原词之间并没有任何语义关系的情况出现时,这样的做法会使模型的摘要结果完全不能理解。例如,“专车”拆成“专@”,“车”,词义就发生了巨大的变化。此外,相关的技术方案并不能处理“一词多义”的情况,例如“滴滴推出了专车服务,针对…,服务…,致力于…”和“水声滴滴答答”中,“滴滴”具有多种意思。
发明内容
基于此,有必要针对现有技术无法有效解决未登陆词及一词多义的技术问题,提供一种文本摘要方法、电子设备及存储介质。
本发明提供一种文本摘要方法,包括:
将待摘要文本进行分词;
将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
将待摘要文本每个词对应的综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列;
将所述输出向量序列的词向量转换为对应的词,得到文本摘要。
进一步地,每个词对应的综合向量包括该词的词向量及所对应的知识图谱向量。
更进一步地,所述将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,具体包括:
将待摘要文本的每个词进行向量转换,得到每个词对应的词向量;
根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系;
将每个词对应的知识图谱实体转换为知识图谱实体向量,将每个词对应的知识图谱关系转换为知识图谱关系向量,所述知识图谱实体向量和/或知识图谱关系向量作为知识图谱向量;
将每个词的词向量以及知识图谱向量作为该词对应的综合向量。
再进一步地,根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系,具体包括:
将包含在预先确定的知识图谱中的词转换为对应的知识图谱实体、以及知识图谱关系;
将不包含在预先确定的知识图谱中的词转换为预设的空白知识图谱实体、以及预设的空白知识图谱关系。
进一步地,还包括:
获取多个训练长文本、以及对应的训练摘要文本;
将每个所述训练长文本以及对应的训练摘要文本分别进行分词;
将训练长文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
将训练摘要文本的每个词进行向量转换,得到每个词对应的词向量;
将训练长文本每个词对应的综合向量组成输入向量序列,将训练摘要文本每个词对应的词向量组成输出向量序列,训练摘要模型。
进一步地,所述将待摘要文本进行分词,具体包括:
将待摘要文本进行分词得到词,对分词得到的词进行字节对码化处理,得到处理后的词。
本发明提供一种文本摘要电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
将待摘要文本进行分词;
将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
将待摘要文本每个词对应的综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列;
将所述输出向量序列的词向量转换为对应的词,得到文本摘要。
进一步地,每个词对应的综合向量包括该词的词向量及所对应的知识图谱向量。
更进一步地,所述将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,具体包括:
将待摘要文本的每个词进行向量转换,得到每个词对应的词向量;
根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系;
将每个词对应的知识图谱实体转换为知识图谱实体向量,将每个词对应的知识图谱关系转换为知识图谱关系向量,所述知识图谱实体向量和/或知识图谱关系向量作为知识图谱向量;
将每个词的词向量以及知识图谱向量作为该词对应的综合向量。
再进一步地,根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系,具体包括:
将包含在预先确定的知识图谱中的词转换为对应的知识图谱实体、以及知识图谱关系;
将不包含在预先确定的知识图谱中的词转换为预设的空白知识图谱实体、以及预设的空白知识图谱关系。
进一步地,所述处理器还能够:
获取多个训练长文本、以及对应的训练摘要文本;
将每个所述训练长文本以及对应的训练摘要文本分别进行分词;
将训练长文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
将训练摘要文本的每个词进行向量转换,得到每个词对应的词向量;
将训练长文本每个词对应的综合向量组成输入向量序列,将训练摘要文本每个词对应的词向量组成输出向量序列,训练摘要模型。
进一步地,所述将待摘要文本进行分词,具体包括:
将待摘要文本进行分词得到词,对分词得到的词进行字节对码化处理,得到处理后的词。
本发明提供一种存储介质,所述存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行如前所述的文本摘要方法的所有步骤。
本发明通过为知识图谱建立网络,捕捉实体的组成的关系,从而解决缺少单元语义的问题。此外,利用知识图谱中的知识点关系,通过分布式表示的方式引入文本摘要模型,与基础向量序列结合,解决一词多义问题。本发明能使文本摘要结果更专业,跟人的知识体系更接近。
附图说明
图1为本发明一种文本摘要方法的工作流程图;
图2为本发明一实施例一种文本摘要方法的工作流程图;
图3为本发明最佳实施例摘要模型示意图;
图4为本发明最佳实施例一种文本摘要方法的工作流程图;
图5为本发明一种基于搜索引擎的无线热点与兴趣点匹配电子设备的硬件结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
实施例一
如图1所示为本发明一种文本摘要方法的工作流程图,包括:
步骤S101,将待摘要文本进行分词;
步骤S102,将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
步骤S103,将待摘要文本每个词对应的综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列;
步骤S104,将所述输出向量序列的词向量转换为对应的词,得到文本摘要。
具体来说,步骤S101将待摘要文本进行分词,分词可以采用现有的各种分词模型或分词工具实现。步骤S102对分词后的每个词进行向量转换,得到综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱。因此,每个词将与相应的知识图谱关联。
步骤S103将综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列。摘要模型可以采用现有的各种摘要模型。例如如图3所示的基于self-attention的seq2seq模型。图3中左边为编码(Encoder)部分31,右边为解码(Decoder)部分32,这两个部分都由转换(transformer)结构33堆叠组成。Transformer结构33,由自注意结构(self-attention)与其他结构一起组成,包括多头自注意结构34,前馈网络(Feed forward network)35,残差连接和norm层36等。Decoder与Encoder的transformer结构有一些细节的差异,其中有一层多头自注意结构34和掩码多头自注意结构37。
这样完全由self-attention结构为主构建的seq2seq模型,可以进行并行化计算,大大的加速了训练速度,方便进行模型的迭代以及更新。而且自注意结构能够完全捕获长距离的依赖关系,让文本摘要的结果更合理。训练时decoder层每一步的输入为训练数据的目标语言序列,而在推断时,decoder层的每一步输入为上一步的输出。其中,损失函数为交叉熵损失函数,优化器为Adam。
图3所示的模型中的输入嵌入层38采用步骤S102的方式转换为综合向量进行嵌入处理,输出嵌入层39采用词向量进行嵌入处理。
将步骤S101分词后的待摘要文本输入图3中的输入嵌入层38,即采用步骤S102的综合向量进行嵌入处理,然后执行步骤S103经过该摘要模型运算后,输出嵌入层39得到输出向量序列,执行步骤S104,将所述输出向量序列的词向量转换为对应的词,得到文本摘要。
本发明通过为知识图谱建立网络,捕捉实体的组成的关系,从而解决缺少单元语义的问题。此外,利用知识图谱中的知识点关系,通过分布式表示的方式引入文本摘要模型,与基础向量序列结合,解决一词多义问题。本发明能使文本摘要结果更专业,跟人的知识体系更接近。
实施例二
如图2所示为本发明第二实施例一种文本摘要方法的工作流程图,包括:
步骤S201,获取多个训练长文本、以及对应的训练摘要文本。
步骤S202,将每个所述训练长文本以及对应的训练摘要文本分别进行分词。
具体来说,训练长文本分词时可以将待摘要文本进行分词得到词,对分词得到的词进行字节对码化处理,得到处理后的词。
字节对码化(BytePair Encoding,BPE)将分词得到的词中,不常见的词分为两个或多个常见的短词或者子字词(subword)。例如将“专车”拆成“专@”,“车”等。
现有技术进行BPE处理后,词义就发生了巨大的变化。而本实施例通过增加知识图谱,降低OOV词的出现概率。通过为知识图谱建立网络,将这样海量的实体映射成固定长度的向量序列,捕捉实体的组成的关系,例如“专”和“车”是“专车”的一部分,从而解决BPE中子字词(subword)不含有单元语义的问题。
步骤S203,将训练长文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱。
具体来说,将训练长文本的每个词进行向量转换,得到每个词对应的词向量;
将包含在预先确定的知识图谱中的词转换为对应的知识图谱实体、以及知识图谱关系;
将不包含在预先确定的知识图谱中的词转换为预设的空白知识图谱实体、以及预设的空白知识图谱关系;
将每个词对应的知识图谱实体转换为知识图谱实体向量,将每个词对应的知识图谱关系转换为知识图谱关系向量,所述知识图谱实体向量和/或知识图谱关系向量作为知识图谱向量。
将每个词的词向量以及知识图谱向量作为该词对应的综合向量,训练长文本每个词对应的综合向量包括该词的词向量及所对应的知识图谱向量。
步骤S204,将训练摘要文本的每个词进行向量转换,得到每个词对应的词向量。
步骤S205,将训练长文本每个词对应的综合向量组成输入向量序列,将训练摘要文本每个词对应的词向量组成输出向量序列,训练摘要模型。
步骤S206,将待摘要文本进行分词得到词,对分词得到的词进行字节对码化处理,得到处理后的词。
字节对码化(Byte Pair Encoding,BPE)将分词得到的词中,不常见的词分为两个或多个常见的短词或者子字词(subword)。例如将“专车”拆成“专@”,“车”等。
步骤S207,将待摘要文本的每个词进行向量转换,得到每个词对应的词向量。
步骤S208,根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系。
在其中一个实施例中,根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系,具体包括:
将包含在预先确定的知识图谱中的词转换为对应的知识图谱实体、以及知识图谱关系;
将不包含在预先确定的知识图谱中的词转换为预设的空白知识图谱实体、以及预设的空白知识图谱关系。
步骤S209,将每个词对应的知识图谱实体转换为知识图谱实体向量,将每个词对应的知识图谱关系转换为知识图谱关系向量,所述知识图谱实体向量和/或知识图谱关系向量作为知识图谱向量。
具体来说,对于知识图谱,每一个节点表示一个实体,每一条边表示实体与实体之间的关系,建立这样的三元组表示,即<实体a,关系r,实体b>。这样可以把庞大的知识图谱简化为很多对这样的三元组表示。这样设置的目的是获得实体和关系的向量表示,这时可以作出这样的假设,即实体a的向量加上关系r的向量,应尽可能与实体b的向量相等。
有了这样的假设后,这样设置的目的就可以确定了,即d(a,r,b)=||a+r–b||尽可能小,也就有了如上的算法。先通过随机初始化,对所有的实体和关系设定初始值。通过随机抽样其中的三元组和将其中的一些三元组替换构建假组合,共同组成一个批处理,通过随机梯度下降更新参数。通过多轮迭代后即可获得我们所需要的向量表示。除了这些实体词外,加入一个随机生成的空白词向量和空白关系向量,以对应空白知识图谱实体、以及空白知识图谱关系。具体可以采用TransE算法得到三元组中实体a、关系r、实体b对应的向量。
将知识图谱应用到步骤S210中,将实体a对应词,关系r对应知识图谱关系,实体b对应知识图谱实体。从而通过上述方式得到每个词对应的知识图谱实体向量及知识图谱关系向量。其中实体a为对应的词的词向量,通过该词向量将能够得到对应的关系r的向量和实体b的向量。词向量的生成方式可以采用现有词向量生成方式实现。
步骤S210,将每个词的词向量以及知识图谱向量作为该词对应的综合向量,每个词对应的综合向量包括该词的词向量及所对应的知识图谱向量。
具体来说,可以将每个词的词向量、知识图谱实体向量、以及知识图谱关系向量联合作为该词对应的综合向量。例如一个词的词向量为100维向量,知识图谱实体向量为100维向量,知识图谱关系向量为100维向量,则综合向量为词向量、知识图谱实体向量、以及知识图谱关系向量联合得到的300维向量。
步骤S211,将待摘要文本每个词对应的综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列。
步骤S212,将所述输出向量序列的词向量转换为对应的词,得到文本摘要。
本实施例结合BPE及知识图谱算法。能够利用知识图谱的海量知识,优化摘要模型,减少稀有词对摘要结果的影响。改进了BPE解决oov词汇是subword缺乏语义信息的问题,加入了更多的语义信息,提高了摘要的效果。改进了摘要过程中一次多义的问题,提高了摘要的结果。
实施例三
如图4所示为本发明最佳实施例一种文本摘要方法的工作流程图,包括:
步骤S401,通过收集字典、维基百科等途径,组成知识库,将这样的知识库经过实体识别,关系识别等的方法处理后,将识别的实体及相应的对应关系进行对齐,形成用于摘要的知识图谱,利用这样的知识图谱来构建三元组库。
例如<滴滴,提供方,打车服务>,<水,发出,滴滴>。此外,BPE相关的信息也会加入其中,例如,“专车”拆成“专@”和“车”,它们的三元组为<专@,is-subword-of,专车>和<车,is-subword-of,专车>。
步骤S402,获得实体、关系的分布式表示。
通过上文提到的TransE算法,计算知识图谱实体的向量表示、以及关系的向量表示。
例如,将获得“专@”,“专车”,“车”和“is-subword-of”的分布式向量表示。
步骤S403,摘要模型的训练语料清洗。
将收集到的训练语料进行如下的处理,包括去掉过长句子,去掉含特殊符号的句子,去除重复句子等操作,构建一份干净的语料,在该语料上进行数据预处理。预处理包括分词、实体词替换、BPE等步骤。对于例如“滴滴提供专车服务”,最终获得“滴滴提供专@车服务”的词。
步骤S404,引入知识图谱的实体、关系,为每个词引入更多的语义信息。
将经过如上的处理后的语料输入文本摘要模型,摘要模型的嵌入层须作如下的处理,嵌入层除了词嵌入,还需加入实体层向量序列以及关系向量序列。即替换后的实体词要加上对应的实体向量和关系向量,非实体词则加上空白词向量和/或空白关系向量。
引入知识图谱的实体、关系表示,将为每个词引入更多的语义信息。举例来说:“专车”通过BPE方式编码成为“专@”和”车”,引入步骤S402所述的“is-subword-of”关系信息,使“专@”和“车”具有更对的语义信息,更好的帮助文本摘要。
引入知识图谱的实体、关系表示,还将解决一词多义问题。举例来说:
-对于“滴滴公司推出了专车服务”,通过知识图谱发现“滴滴”和“服务”之间有一个“提供者”的关系,所以对“滴滴”这个词是一个“公司”的含义,将加入“公司”相关的分布式表示,从而将“滴滴”理解成一家公司。
-对于“水声滴滴答答”,通过知识图谱发现“滴滴”是一种声音,是对水声的形容,在这里加入相应的关系信息,可以正确的将“滴滴”理解,避免错误的文本摘要。
步骤S405,训练摘要模型。
基于self-attention的模型transformer进行摘要模型训练。经过训练后,得到摘要模型。训练完成后,将模型保存,用于部署到线上推断服务。
步骤S406,线上推断。
线上推断的部分跟前述的离线训练的步骤类似,输入数据经过分词、实体词替换、BPE处理后,输入文本摘要模型,得到摘要序列,将摘要序列转换为对应的词后,得到摘要文本。
实施例四
如图5所示为本发明一种文本摘要电子设备的硬件结构示意图,包括:
至少一个处理器501;以及,
与所述至少一个处理器501通信连接的存储器502;其中,
所述存储器502存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
将待摘要文本进行分词;
将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
将待摘要文本每个词对应的综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列;
将所述输出向量序列的词向量转换为对应的词,得到文本摘要。
电子设备优选为服务器。图5中以一个处理器501为例。
电子设备还可以包括:输入装置503和显示装置504。
处理器501、存储器502、输入装置503及显示装置504可以通过总线或者其他方式连接,图中以通过总线连接为例。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的文本摘要方法对应的程序指令/模块,例如,图1所示的方法流程。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行各种功能应用以及数据处理,即实现上述实施例中的文本摘要方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本摘要方法的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至执行文本摘要方法的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置503可接收输入的用户点击,以及产生与文本摘要方法的用户设置以及功能控制有关的信号输入。显示装置504可包括显示屏等显示设备。
在所述一个或者多个模块存储在所述存储器502中,当被所述一个或者多个处理器501运行时,执行上述任意方法实施例中的文本摘要方法。
本发明通过为知识图谱建立网络,捕捉实体的组成的关系,从而解决缺少单元语义的问题。此外,利用知识图谱中的知识点关系,通过分布式表示的方式引入文本摘要模型,与基础向量序列结合,解决一词多义问题。本发明能使文本摘要结果更专业,跟人的知识体系更接近。
实施例五
本发明第五实施例一种文本摘要预警电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取多个训练长文本、以及对应的训练摘要文本。
将每个所述训练长文本以及对应的训练摘要文本分别进行分词。
将训练长文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱。
将训练摘要文本的每个词进行向量转换,得到每个词对应的词向量。
将训练长文本每个词对应的综合向量组成输入向量序列,将训练摘要文本每个词对应的词向量组成输出向量序列,训练摘要模型。
将待摘要文本进行分词得到词,对分词得到的词进行字节对码化处理,得到处理后的词。
将待摘要文本的每个词进行向量转换,得到每个词对应的词向量。
根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系。
在其中一个实施例中,根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系,具体包括:
将包含在预先确定的知识图谱中的词转换为对应的知识图谱实体、以及知识图谱关系;
将不包含在预先确定的知识图谱中的词转换为预设的空白知识图谱实体、以及预设的空白知识图谱关系。
将每个词对应的知识图谱实体转换为知识图谱实体向量,将每个词对应的知识图谱关系转换为知识图谱关系向量,所述知识图谱实体向量和/或知识图谱关系向量作为知识图谱向量。
将每个词的词向量以及知识图谱向量作为该词对应的综合向量,每个词对应的综合向量包括该词的词向量及所对应的知识图谱向量。
将待摘要文本每个词对应的综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列。
将所述输出向量序列的词向量转换为对应的词,得到文本摘要。
本实施例结合BPE及知识图谱算法。能够利用知识图谱的海量知识,优化摘要模型,减少稀有词对摘要结果的影响。改进了BPE解决oov词汇是subword缺乏语义信息的问题,加入了更多的语义信息,提高了摘要的效果。改进了摘要过程中一次多义的问题,提高了摘要的结果。
本发明第六实施例提供一种存储介质,所述存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行如前所述的文本摘要方法的所有步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (13)
1.一种文本摘要方法,其特征在于,包括:
将待摘要文本进行分词;
将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
将待摘要文本每个词对应的综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列;
将所述输出向量序列的词向量转换为对应的词,得到文本摘要。
2.根据权利要求1所述的文本摘要方法,其特征在于,每个词对应的综合向量包括该词的词向量及所对应的知识图谱向量。
3.根据权利要求2所述的文本摘要方法,其特征在于,所述将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,具体包括:
将待摘要文本的每个词进行向量转换,得到每个词对应的词向量;
根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系;
将每个词对应的知识图谱实体转换为知识图谱实体向量,将每个词对应的知识图谱关系转换为知识图谱关系向量,所述知识图谱实体向量和/或知识图谱关系向量作为知识图谱向量;
将每个词的词向量以及知识图谱向量作为该词对应的综合向量。
4.根据权利要求3所述的文本摘要方法,其特征在于,根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系,具体包括:
将包含在预先确定的知识图谱中的词转换为对应的知识图谱实体、以及知识图谱关系;
将不包含在预先确定的知识图谱中的词转换为预设的空白知识图谱实体、以及预设的空白知识图谱关系。
5.根据权利要求1所述的文本摘要方法,其特征在于,还包括:
获取多个训练长文本、以及对应的训练摘要文本;
将每个所述训练长文本以及对应的训练摘要文本分别进行分词;
将训练长文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
将训练摘要文本的每个词进行向量转换,得到每个词对应的词向量;
将训练长文本每个词对应的综合向量组成输入向量序列,将训练摘要文本每个词对应的词向量组成输出向量序列,训练摘要模型。
6.根据权利要求1所述的文本摘要方法,其特征在于,所述将待摘要文本进行分词,具体包括:
将待摘要文本进行分词得到词,对分词得到的词进行字节对码化处理,得到处理后的词。
7.一种文本摘要电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
将待摘要文本进行分词;
将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
将待摘要文本每个词对应的综合向量表示组成输入向量序列,将输入向量序列输入经过训练的摘要模型,得到包括词向量的输出向量序列;
将所述输出向量序列的词向量转换为对应的词,得到文本摘要。
8.根据权利要求7所述的文本摘要电子设备,其特征在于,每个词对应的综合向量包括该词的词向量及所对应的知识图谱向量。
9.根据权利要求8所述的文本摘要电子设备,其特征在于,所述将待摘要文本的每个词进行向量转换,得到每个词对应的综合向量,具体包括:
将待摘要文本的每个词进行向量转换,得到每个词对应的词向量;
根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系;
将每个词对应的知识图谱实体转换为知识图谱实体向量,将每个词对应的知识图谱关系转换为知识图谱关系向量,所述知识图谱实体向量和/或知识图谱关系向量作为知识图谱向量;
将每个词的词向量以及知识图谱向量作为该词对应的综合向量。
10.根据权利要求9所述的文本摘要电子设备,其特征在于,根据预先确定的知识图谱,获取每个词对应的知识图谱实体、以及知识图谱关系,具体包括:
将包含在预先确定的知识图谱中的词转换为对应的知识图谱实体、以及知识图谱关系;
将不包含在预先确定的知识图谱中的词转换为预设的空白知识图谱实体、以及预设的空白知识图谱关系。
11.根据权利要求7所述的文本摘要电子设备,其特征在于,所述处理器还能够:
获取多个训练长文本、以及对应的训练摘要文本;
将每个所述训练长文本以及对应的训练摘要文本分别进行分词;
将训练长文本的每个词进行向量转换,得到每个词对应的综合向量,每个词对应的综合向量表示该词及该词所对应的知识图谱;
将训练摘要文本的每个词进行向量转换,得到每个词对应的词向量;
将训练长文本每个词对应的综合向量组成输入向量序列,将训练摘要文本每个词对应的词向量组成输出向量序列,训练摘要模型。
12.根据权利要求7所述的文本摘要电子设备,其特征在于,所述将待摘要文本进行分词,具体包括:
将待摘要文本进行分词得到词,对分词得到的词进行字节对码化处理,得到处理后的词。
13.一种存储介质,其特征在于,所述存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行如权利要求1-7任一项所述的文本摘要方法的所有步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911202894.1A CN111813923B (zh) | 2019-11-29 | 文本摘要方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911202894.1A CN111813923B (zh) | 2019-11-29 | 文本摘要方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111813923A true CN111813923A (zh) | 2020-10-23 |
CN111813923B CN111813923B (zh) | 2024-05-03 |
Family
ID=
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507112A (zh) * | 2020-12-07 | 2021-03-16 | 中国平安人寿保险股份有限公司 | 评论生成的方法、装置、设备及存储介质 |
CN112528039A (zh) * | 2020-12-16 | 2021-03-19 | 中国联合网络通信集团有限公司 | 词语处理方法、装置、设备及存储介质 |
CN112784035A (zh) * | 2020-12-31 | 2021-05-11 | 山西三友和智慧信息技术股份有限公司 | 一种多篇文档重点信息提取方法 |
CN116484010A (zh) * | 2023-03-15 | 2023-07-25 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN108108345A (zh) * | 2016-11-25 | 2018-06-01 | 上海掌门科技有限公司 | 用于确定新闻主题的方法与设备 |
CN109145582A (zh) * | 2018-06-05 | 2019-01-04 | 中国科学院信息工程研究所 | 一种基于字节对编码的密码猜测集生成方法、密码破解方法及装置 |
JP2019159814A (ja) * | 2018-03-13 | 2019-09-19 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN110427619A (zh) * | 2019-07-23 | 2019-11-08 | 西南交通大学 | 一种基于多通道融合与重排序的中文文本自动校对方法 |
CN110442733A (zh) * | 2019-08-08 | 2019-11-12 | 恒生电子股份有限公司 | 一种主题生成方法、装置和设备及介质 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108345A (zh) * | 2016-11-25 | 2018-06-01 | 上海掌门科技有限公司 | 用于确定新闻主题的方法与设备 |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
JP2019159814A (ja) * | 2018-03-13 | 2019-09-19 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN109145582A (zh) * | 2018-06-05 | 2019-01-04 | 中国科学院信息工程研究所 | 一种基于字节对编码的密码猜测集生成方法、密码破解方法及装置 |
CN110427619A (zh) * | 2019-07-23 | 2019-11-08 | 西南交通大学 | 一种基于多通道融合与重排序的中文文本自动校对方法 |
CN110442733A (zh) * | 2019-08-08 | 2019-11-12 | 恒生电子股份有限公司 | 一种主题生成方法、装置和设备及介质 |
Non-Patent Citations (2)
Title |
---|
G NAVARRO 等: "Compressed representations for web and social graphs", 《KNOWLEDGE AND INFORMATION SYSTEMS》, vol. 40, 26 April 2013 (2013-04-26), pages 279 - 313 * |
张胜刚 等: "亚词及单词深度维汉机器翻译模型对比", 《计算机工程与设计》, vol. 40, no. 8, 16 August 2019 (2019-08-16), pages 2326 - 2330 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507112A (zh) * | 2020-12-07 | 2021-03-16 | 中国平安人寿保险股份有限公司 | 评论生成的方法、装置、设备及存储介质 |
CN112507112B (zh) * | 2020-12-07 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 评论生成的方法、装置、设备及存储介质 |
CN112528039A (zh) * | 2020-12-16 | 2021-03-19 | 中国联合网络通信集团有限公司 | 词语处理方法、装置、设备及存储介质 |
CN112784035A (zh) * | 2020-12-31 | 2021-05-11 | 山西三友和智慧信息技术股份有限公司 | 一种多篇文档重点信息提取方法 |
CN116484010A (zh) * | 2023-03-15 | 2023-07-25 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
CN116484010B (zh) * | 2023-03-15 | 2024-01-16 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
Gaddy et al. | What's going on in neural constituency parsers? an analysis | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN113011189A (zh) | 开放式实体关系的抽取方法、装置、设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN112256860A (zh) | 客服对话内容的语义检索方法、系统、设备及存储介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN115309877B (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN111090727A (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN113657100A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN113343692B (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN109657071B (zh) | 词汇预测方法、装置、设备和计算机可读存储介质 | |
CN114611529B (zh) | 意图识别方法和装置、电子设备及存储介质 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |