CN111401045A

CN111401045A - 一种文本生成方法、装置、存储介质和电子设备

Info

Publication number: CN111401045A
Application number: CN202010179950.0A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-10
Anticipated expiration: 2040-03-16
Also published as: CN111401045B

Abstract

本申请实施例公开了一种文本生成方法、装置、存储介质和电子设备，所述方法涉及人工智能领域中的自然语言处理方向，包括：获取对象描述摘要文本对应的关键词，将对象描述摘要文本划分为多个子文本，对多个子文本分别进行分词处理，得到多个词语，计算关键词与每个词语之间的相似度，当关键词与词语之间的相似度超过预设阈值时，将词语所在的子文本确定为待保留子文本，基于待保留子文本，生成对象描述摘要文本对应的目标文本。该方案可以提升文本生成的准确性。

Description

一种文本生成方法、装置、存储介质和电子设备

技术领域

本申请涉及计算机技术领域，具体涉及一种文本生成方法、装置、存储介质和电子设备。

背景技术

摘要是以提供文本内容梗概为目的，不加评论和补充解释，简明、确切地记述文本中重要内容的短文。读者可以通过阅读摘要，了解文本的核心思想，并对文本内容有一个初步的了解。然而在用户通过终端登录搜索平台，搜索某领域的文本时，由于终端的内容显示空间有限，因此用户能够看到的摘要内容针对整体文本内容而言准确性较差。

发明内容

本申请实施例提供一种文本生成方法、装置、存储介质和电子设备，该方案可以提升文本生成的准确性。

本申请实施例提供一种文本生成方法，包括：

获取对象描述摘要文本对应的关键词；

将所述对象描述摘要文本划分为多个子文本；

对所述多个子文本分别进行分词处理，得到多个词语；

计算所述关键词与每个所述词语之间的相似度；

当所述关键词与所述词语之间的相似度超过预设阈值时，将所述词语所在的子文本确定为待保留子文本；

基于所述待保留子文本，生成所述对象描述摘要文本对应的目标文本。

相应的，本申请实施例还提供一种文本生成装置，包括：

获取模块，用于获取对象描述摘要文本对应的关键词；

划分模块，用于将所述对象描述摘要文本划分为多个子文本；

处理模块，用于对所述多个子文本分别进行分词处理，得到多个词语；

计算模块，用于计算所述关键词与每个所述词语之间的相似度；

确定模块，用于当所述关键词与所述词语之间的相似度超过预设阈值时，将所述词语所在的子文本确定为待保留子文本；

生成模块，用于基于所述待保留子文本，生成所述对象描述摘要文本对应的目标文本。

可选的，在一些实施例中，所述获取模块可以包括第一获取子模块、提取子模块和第一确定子模块，如下：

第一获取子模块，用于获取对象描述摘要文本对应的文本关键词；

提取子模块，用于从所述对象描述摘要文本的文本标题中提取标题关键词；

第一确定子模块，用于基于所述文本关键词、以及所述标题关键词，确定所述对象描述摘要文本对应的关键词。

则此时，所述第一获取子模块，具体可以用于获取对象描述摘要文本对应的初始关键词、以及所述对象描述摘要文本描述的对象类型，获取所述对象类型对应的待删除词语集合，基于所述待删除词语集合，从所述初始关键词中筛选出所述对象描述摘要文本对应的文本关键词。

可选的，在一些实施例中，所述提取子模块可以包括第二获取子模块、分词子模块、筛选子模块和第二确定子模块，如下：

第二获取子模块，用于获取所述对象描述摘要文本的文本标题；

分词子模块，用于对所述文本标题进行分词处理，得到多个标题词语；

筛选子模块，用于对所述多个标题词语进行筛选，得到筛选后标题词语；

第二确定子模块，用于基于所述筛选后标题词语对应的词语频率信息，从所述筛选后标题词语中确定标题关键词。

则此时，所述筛选子模块，具体可以用于从所述多个标题词语中，筛选出满足预设词语类型的预设类型标题词语，基于待删除词语集合，从所述预设类型标题词语中，筛选出筛选后标题词语。

可选的，在一些实施例中，所述处理模块可以包括处理子模块、第三确定子模块和第四确定子模块，如下：

处理子模块，用于对每个子文本进行分词处理，得到所述每个子文本对应的多个初始词语；

第三确定子模块，用于当所述初始词语与预设待删除词语匹配时，将所述初始词语确定为待删除词语；

第四确定子模块，用于基于所述多个初始词语、以及所述待删除词语，确定多个词语。

则此时，所述第四确定子模块，具体可以用于将所述待删除词语所在的子文本确定为待删除子文本，从所述多个子文本中删除所述待删除子文本，得到多个删除后子文本，基于所述删除后子文本对应的初始词语，确定多个词语。

则此时，所述生成模块，具体可以用于按照预设顺序对所述待保留子文本进行排列，得到排列后文本，基于预设文本字数，从所述排列后文本中截取出所述对象描述摘要文本对应的目标文本。

此外，本申请实施例还提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例提供的任一种文本生成方法中的步骤。

此外，本申请实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本申请实施例提供的任一种文本生成方法中的步骤。

本申请实施例可以获取对象描述摘要文本对应的关键词，将对象描述摘要文本划分为多个子文本，对多个子文本分别进行分词处理，得到多个词语，计算关键词与每个词语之间的相似度，当关键词与词语之间的相似度超过预设阈值时，将词语所在的子文本确定为待保留子文本，基于待保留子文本，生成对象描述摘要文本对应的目标文本。该方案可以提升文本生成的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本生成系统的场景示意图；

图2是本申请实施例提供的文本生成方法的第一流程图；

图3是本申请实施例提供的文本生成方法的第二流程图；

图4是本申请实施例提供的文本生成方法的第三流程图；

图5是本申请实施例提供的Word2vec模型结构示意图；

图6是本申请实施例提供的文本生成方法的第四流程图；

图7是本申请实施例提供的文本生成装置的结构示意图；

图8是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供一种文本生成方法、装置、存储介质和电子设备。具体地，本申请实施例的文本生成方法可以由电子设备执行，其中，该电子设备可以为终端或者服务器等设备，该终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC，Personal Computer)等设备。其中，终端可以包括客户端，该客户端可以是视频客户端或浏览器客户端等，服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群。

例如，参见图1，以该文本生成方法由电子设备执行为例，该电子设备可以获取对象描述摘要文本对应的关键词，将对象描述摘要文本划分为多个子文本，对多个子文本分别进行分词处理，得到多个词语，计算关键词与每个词语之间的相似度，当关键词与词语之间的相似度超过预设阈值时，将词语所在的子文本确定为待保留子文本，基于待保留子文本，生成对象描述摘要文本对应的目标文本。

本申请实施例提供的文本生成方法涉及人工智能领域中的自然语言处理方向。本申请实施例可以通过整句划分将对象描述摘要文本划分为多个子文本，通过分词处理将多个子文本划分为多个词语，并根据对象描述摘要文本中的词语与关键词之间的关联程度，确定出需要保留的子文本，然后生成目标文本。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。

其中，自然语言处理(Nature Language processing,NLP)研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例提供了一种文本生成方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以文本生成方法由终端执行为例来进行说明，如图2所示，该文本生成方法的具体流程可以如下：

201、获取对象描述摘要文本对应的关键词。

其中，对象描述摘要文本可以为对象描述文本所对应的摘要，摘要是以提供文献内容梗概为目的，不加评论和补充解释，简明、确切地记述文献重要内容的短文，摘要中可以包括研究工作的主要对象和范围、采用的手段和方法、得出的结论等。比如，该对象描述文本可以为对某个医疗问题进行阐述的文献，那么对象描述文本摘要就可以是该对象描述文本对应的摘要，该对象描述文本摘要通常字数为300～500。

其中，关键词是为了文献标引工作从报告、论文中选取出来的用以表示全文主题内容信息款目的单词或术语，其中，单词是指能包含一个词素的词或语言里最小的可以自由运用的单位，术语则是指某个学科中的专业用语。比如，文献《细胞因子诱导的免疫细胞治疗苯中毒再生障碍性贫血的临床研究》所对应的关键词可以为“苯中毒”、“再生障碍性贫血”、“免疫细胞治疗”、“细胞因子”。

在实际应用中，很多医学文献，尤其是医疗论文都要求作者写作时提交一篇300～500字的摘要，并给出几个关键词作为该篇论文的概要性描述。随着医疗论文的电子化归档、以及搜索引擎的出现，越来越多的医生在跟进学习相应前沿医疗问题时往往会使用医疗搜索引擎进行信息搜索。然而，由于搜索结果能够显示的摘要字数有限，如用户在PC上利用医疗搜索引擎进行信息搜索时，界面上会包括多个文献对应的区域，又由于每个文献对应的区域空间有限，因此不能将该文献对应的摘要中所有的内容都显示出来，只能显示部分摘要内容，如只能显示100个字，那么用户只能通过这100个字的部分摘要文本，对文献建立初步的了解。

由于进行医学学术搜索的大部分用户都是医学专业人士，对于他们来说，显示出的部分摘要内容中，包含更多真正和文献所重点阐述的问题相关的内容更重要，此时若显示出的部分摘要内容中大多为非文献主旨的引言性描述或者背景介绍等，用户通过这些内容依旧不能够了解文献中重点阐述的内容，无法得知该文献是否是用户当前需要的文献，还需进行后续操作获取到完整的摘要或者文献，才能够了解用户需要的信息，这样无形中降低了用户搜索的效率。因此，需要获取到能够更准确地概括文献内容的部分摘要文本(也即目标文本)。比如，由于关键词能够很好地表明文献内容，因此，可以利用对象描述摘要文本对应的关键词，获取对象描述摘要文本的目标文本。

在一实施例中，由于作者写作文献时，会同时给出至少一个初始关键词作为该文献的概要性描述，因此可以对作者给出的初始关键词进行筛选，获取到需要的关键词；又由于标题是标明文献内容的简短语句，因此还可以从文献的标题中提取出需要的关键词。具体地，步骤“获取对象描述摘要文本对应的关键词”，可以包括：

获取对象描述摘要文本对应的文本关键词；

从所述对象描述摘要文本的文本标题中提取标题关键词；

基于所述文本关键词、以及所述标题关键词，确定所述对象描述摘要文本对应的关键词。

比如，可以首先获取对象描述文本《细胞因子诱导的免疫细胞治疗苯中毒再生障碍性贫血的临床研究》、以及该对象描述文本所对应的对象描述摘要文本、和作者给出的初始关键词“苯中毒”、“再生障碍性贫血”、“免疫细胞治疗”和“细胞因子”。然后对多个初始关键词进行筛选，得到文本关键词“免疫细胞治疗”和“细胞因子”，并从文本标题中提取出标题关键词“临床研究”，此时可以确定对象描述摘要文本对应的关键词为“免疫细胞治疗”、“细胞因子”和“临床研究”。

在一实施例中，由于医学方向的对象描述文本大多是介绍某个疾病、某个症状、或者某种药物的文本，对于这种文本而言，关键词中再包含相应的疾病、症状、或者药物的词语的意义不大，因此可以将这种词语过滤掉，以提升获取到的关键词的准确性。具体地，步骤“获取对象描述摘要文本对应的文本关键词”，可以包括：

获取对象描述摘要文本对应的初始关键词、以及所述对象描述摘要文本描述的对象类型；

获取所述对象类型对应的待删除词语集合；

基于所述待删除词语集合，从所述初始关键词中筛选出所述对象描述摘要文本对应的文本关键词。

在实际应用中，比如，可以获取对象描述摘要文本对应的初始关键词“苯中毒”、“再生障碍性贫血”、“免疫细胞治疗”和“细胞因子”、以及确定该对象描述摘要文本所描述的对象类型为医学类型，并获取医疗知识词典，其中，该医疗知识词典就是医学类型对应的待删除词语集合。若待删除词语集合中包括与初始关键词相同的词语“苯中毒”和“再生障碍性贫血”，那么可以将这种词语进行删除，得到对象描述摘要文本对应的文本关键词“免疫细胞治疗”和“细胞因子”。

在一实施例中，还可以从文本标题中提取出所需要的关键词。具体地，步骤“从所述对象描述摘要文本的文本标题中提取标题关键词”，可以包括：

获取所述对象描述摘要文本的文本标题；

对所述文本标题进行分词处理，得到多个标题词语；

对所述多个标题词语进行筛选，得到筛选后标题词语；

基于所述筛选后标题词语对应的词语频率信息，从所述筛选后标题词语中确定标题关键词。

在实际应用中，比如，可以获取对象描述摘要文本对应的文本标题“细胞因子诱导的免疫细胞治疗苯中毒再生障碍性贫血的临床研究”，并对该文本标题进行粗粒度分词处理，得到分词后的多个标题词语，然后将多个标题词语中不适合作关键词的词语删除掉，得到筛选后标题词语。然后计算每个筛选后标题词语对应的词语频率信息，将词语频率信息超过预设频率阈值k的筛选后标题词语，确定为标题关键词。

其中，词语频率信息是能够表明词语对于文本集或者语料库中的一份文本的重要程度，比如，词语频率信息可以通过TF-IDF(信息检索数据挖掘的常用加权技术，termfrequency–inverse document frequency)获取到。其中，TF-IDF是一种统计方法，用以评估词语文本集或者语料库中的一份文本的重要程度。词语的重要性随着它在文本中出现次数成正比增加，但是会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是：如果某个词语在一个文本中出现的频率高，并且在其他文本中很少出现，则认为该词语具有很好的类别区分能力，适合用来分类。

其中，在一份给定的文本里，词频(term frequency，TF)指的是某一个给定的词语在该文本中出现的频率。利用词频进行计算可以避免由于长文本中同一个词语出现的次数更高，而直接认定为该词更重要。对于某一特定文本里的词语来说，它的词频重要性可以表示为：

其中，上式中分子表示该词语在文本中出现的次数，分母表示文本中所有词语出现次数之和。

其中，逆向文本频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的逆向文本频率重要性可以由语料库中总文本数目、以及包含该词语的文本的数目得到，可以表示为：

其中，|D|可以表示语料库中的文本总数。J表示包含词语的文本数目。若该词语不在语料库中，就会导致分母为零，因此一般情况下都适用。

在一实施例中，由于停用词和非名词词语都不适合作关键词，因此可以将这种词语进行剔除。具体地，步骤“对所述多个标题词语进行筛选，得到筛选后标题词语”，可以包括：

从所述多个标题词语中，筛选出满足预设词语类型的预设类型标题词语；

基于待删除词语集合，从所述预设类型标题词语中，筛选出筛选后标题词语。

其中，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。

在实际应用中，比如，可以将分词后的多个标题词语中的停用词和非名词词语删除，得到预设类型标题词语，这些预设类型标题词语都是名词。若对象描述摘要文本所描述的对象类型为医学类型，那么待删除词语集合就是医疗知识词典，可以将预设类型标题词语中医疗知识词典中的词语删除，得到筛选后标题词语。其中，删除医疗知识词典中词语的原因与上文中原因类似，即由于文献一般讲的是当前某个疾病某个具体的方面，而不是泛泛而谈疾病自身，因此文本标题中包含的疾病或者症状等词，虽然是表面意义上的关键词，但不适合做摘要的关键词。

在一实施例中，从对象描述摘要文本的文本标题中提取标题关键词时，不仅可以采用上述词语频率信息的方式获取关键词，还可以基于一些语言学模板先验特征统计，比如，由于许多文献的标题往往都是“xx疾病临床试验”、“xx疾病临床研究”、“xx症状作用”等等，因此，可以直接将标题最后一个名词作为当前标题的候选关键词，如“临床试验”、“临床研究”、“作用”等。

202、将对象描述摘要文本划分为多个子文本。

在实际应用中，由于本申请实施例需要将原始的对象描述摘要文本精简为更准确的目标文本，因此，可以通过对原来摘要中的多个句子进行筛选，再将保留下来的句子进行整合，以得到需要的目标文本，因此需要将整个摘要划分为多个整句。比如，获取到对象描述摘要文本后，可以按照特定标点符号，将对象描述摘要文本划分为多个整句，也即划分为多个子文本。其中，特定标点符号可以为能够表明一句话结束的标点符号，比如句号、问号、叹号等。

203、对多个子文本分别进行分词处理，得到多个词语。

在实际应用中，可以通过对比摘要中的词语与已经获取到的关键词之间的关联程度，对原摘要中的多个整句进行筛选，因此，需要将对象描述摘要文本分为多个词语。比如，获取到对象描述摘要文本的多个子文本后，可以将每个子文本都进行粗粒度分词处理，并得到多个分词后的词语。

在一实施例中，为了提升文本生成方法的效率，可以在进行比较词语与关键词之间关联程度之前，对词语进行筛选，将没有必要进行相似度计算的词语提前剔除掉。具体地，步骤“对所述多个子文本分别进行分词处理，得到多个词语”，可以包括：

对每个子文本进行分词处理，得到所述每个子文本对应的多个初始词语；

当所述初始词语与预设待删除词语匹配时，将所述初始词语确定为待删除词语；

基于所述多个初始词语、以及所述待删除词语，确定多个词语。

其中，预设待删除词语可以为预先设定需要删除的词语，这种词语没有必要进行相似度计算，比如，由于关键词中不包括文本标题中的医学专有名词，因此这样的词语没有必要与关键词进行相似度的计算，此时预设待删除词语可以设定为文本标题中的疾病、症状或者药品词。

在实际应用中，比如，可以对每个子文本进行粗粒度分词处理，得到每个子文本对应的多个初始词语，然后将初始词语中与预设待删除词语相同的词语，确定为待删除词语，并基于多个初始词语、以及待删除词语，确定最终需要进行相似度比较的多个词语。

在一实施例中，当某个词语被确定为待删除词语时，可以说明该词语所在整句的内容可能是对该疾病、症状或者药品的介绍或背景，对于搜索文本的用户而言，这样的介绍性内容并不是与该文本最贴合的内容，因此可以将这种词语所在的整句都删除。具体地，步骤“基于所述多个初始词语、以及所述待删除词语，确定多个词语”，可以包括：

将所述待删除词语所在的子文本确定为待删除子文本；

从所述多个子文本中删除所述待删除子文本，得到多个删除后子文本；

基于所述删除后子文本对应的初始词语，确定多个词语。

在实际应用中，比如，可以将待删除词语所在的整句都确定为待删除子文本，并将这部分待删除子文本进行删除，此时剩余的子文本可以称为删除后子文本，这些删除后子文本所对应的初始词语，就是需要进行相似度比较的词语。

204、计算关键词与每个词语之间的相似度。

其中，为了计算词语之间的相似度，可以首先将词语转化为容易计算相似度的词向量的形式。其中，词向量可以将自然语言转换成为计算机能够理解的向量，词向量能够抓住词语的上下文、以及语义，并衡量词与词之间的相似性，因此在文本分类、情感分析等许多自然语言处理领域有着重要作用。

其中，生成词向量的方法可以有多种，如神经网络、单词共生矩阵的降维、概率模型、可解释的知识库方法和术语的显式表示单词出现的背景。本申请实施例可以利用Word2vec获取词语对应的词向量，其中，如图5所示，Word2vec是一种用来产生词向量的浅而双层的神经网络模型，可以用来训练以重新建构语言学之词文本。Word2vec模型可用来映射每个词到一个向量，包括输入层、隐藏层和输出层。

其中，可以利用医疗相关的文本语料对Word2vec模型进行训练，比如，可以获取作为训练样本的医疗文本，并对其进行分词，然后将分词后的多个词语输入至Word2vec模型中，得到每个词语的向量表示形式，然后根据获取到的向量对Word2vec模型进行训练，训练后的模型就可以用于将词语映射成为词向量。

在实际应用中，比如，可以获取已经训练好的Word2vec模型，并利用该Word2vec模型将每个关键词映射为词向量的形式，并将每个词语也映射为词向量的形式，然后计算关键词的词向量与每个词语的词向量之间的余弦相似度，并将该余弦相似度作为。关键词与每个词语之间的相似度。

在一实施例中，本申请实施例中的相似度可以指余弦相似度，其中，余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度可以应用于计算词语之间的相似度，分别获取两个词语对应的词向量，并计算这两个词向量之间的余弦值，就可以得知两个词语在统计学方法中的相似度情况，其中，余弦相似度的计算公式可以如下：

其中，向量A＝(A1,A2,…,An)，向量B＝(B1,B2,…,Bn)

205、当关键词与词语之间的相似度超过预设阈值时，将词语所在的子文本确定为待保留子文本。

在实际应用中，比如，获取到关键词与每个词语之间的相似度后，当该相似度大于预设阈值K时，可以将该词语所在的子文本确定为待保留子文本。其中，该预设阈值可以根据实际情况进行调整，如若仅获取到一个或两个满足条件的待保留子文本时，可以相应地将预设阈值的数值降低；同理，若获取到过多满足条件的待保留子文本时，可以相应地将预设阈值的数值提高。

在一实施例中，由于从对象描述摘要文本提取出的词语有多个，而对象描述摘要文本对应的关键词可能有一个，也可能有多个，因此分为两种情况分别进行解释：

比如，若仅获取到一个关键词，那么可以对该关键词的词向量与每个词语的词向量之间计算余弦相似度，并将余弦相似度数值大于预设阈值K的词语所在的子文本，确定为待保留子文本。

又比如，若获取到多个关键词A1、A2和A3，多个词语B1,B2,…,Bn，可以将每个关键词的词向量与每个词语的词向量之间计算余弦相似度，也即计算关键词A1的词向量与词语B1的词向量之间的余弦相似度C₁₁、关键词A2的词向量与词语B1的词向量之间的余弦相似度C₁₂、关键词A3的词向量与词语B1的词向量之间的余弦相似度C₁₃、关键词A1的词向量与词语B2的词向量之间的余弦相似度C₂₁，等等。此时对于词语A1而言，分别对应着C₁₁、C₁₂和C₁₃三个余弦相似度，因此可以赋予每个余弦相似度以一个权重，并根据每个余弦相似度对应的权重，对C₁₁、C₁₂和C₁₃三个余弦相似度进行融合，得到词语A1对应的融合后余弦相似度C1。通过类似的方法获取词语A2对应的融合后余弦相似度C2、以及词语A3对应的融合后余弦相似度C3。然后将融合后余弦相似度C1、融合后余弦相似度C2、以及融合后余弦相似度C3与预设阈值K进行比较，当大于预设阈值时，就将该词语所在的子文本，确定为待保留子文本。

又比如，若获取到多个关键词A1、A2和A3，多个词语B1,B2,…,Bn，此时，可以从多个关键词中选取一个关键词，该关键词最能提现文本内容，或者是用户最感兴趣的内容，并利用这个关键词计算余弦相似度，进而确定待保留子文本。

206、基于待保留子文本，生成对象描述摘要文本对应的目标文本。

在实际应用中，比如，获取到多个待保留子文本后，可以将这多个带保留子文本进行排列，组合成为一个新的文本，该文本就是对象描述摘要文本对应的目标文本。

在一实施例中，为了便于用户阅读，可以将多个待保留子文本按照一定的顺序进行排列。具体地，步骤“基于所述待保留子文本，生成所述对象描述摘要文本对应的目标文本”，可以包括：

按照预设顺序对所述待保留子文本进行排列，得到排列后文本；

基于预设文本字数，从所述排列后文本中截取出所述对象描述摘要文本对应的目标文本。

在实际应用中，比如，由于所有的子文本都来自于原始的对象描述摘要文本，因此，在将对象描述摘要文本分为多个整句的时候，这些整句就已经有一个排列顺序，这个排列顺序就是这些整句在原始的对象描述摘要文本的排列顺序。那么当剔除了一些不适宜的子文本后，剩下的待保留子文本也有着这样的排列顺序，就可以直接按照这样的排列顺序对待保留子文本进行排列，得到排列后文本。

在一实施例中，比如，当得到排列后文本之后，如果该排列后文本的字数很少，比如不到100字，而终端可以显示摘要中的100个字，此时就不再需要对该排列后文本进行截取的步骤，因为排列后文本所有的内容都可以显示在终端界面上，因此可以直接将该排列后文本作为最终需要获取到的目标文本。

又比如，当得到排列后文本之后，如果该排列后文本的字数很多，比如超过100字，而终端可以显示摘要中的100个字，那么就可以以100个字作为预设文本字数，从排列后文本中从前到后截取前100个字作为最终的目标文本，使得目标文本中的内容可以完整的展示在终端界面上。

又比如，当得到排列后文本之后，如果该排列后文本的字数很多，比如超过100字，而终端可以显示摘要中的100个字，那么就可以以100个字作为预设文本字数，从排列后文本中从前到后截取前100个字，然而由于截取到的第100个字，可能使得最后一句话不完整，影响用户阅读的体验，因此，还可以将第100个字所在的整句删除，使得目标文本中包含的都是内容完整的整句，并且能够完整的展示在终端界面上。

由上可知，本申请实施例可以获取对象描述摘要文本对应的关键词，将对象描述摘要文本划分为多个子文本，对多个子文本分别进行分词处理，得到多个词语，计算关键词与每个词语之间的相似度，当关键词与词语之间的相似度超过预设阈值时，将词语所在的子文本确定为待保留子文本，基于待保留子文本，生成对象描述摘要文本对应的目标文本。该方案可以通过比较摘要中的词语与关键词之间的相似性，判断是否应当将词语所在的整句保留，并根据保留的句子构建新的文本。由于最终获取到目标文本中的每句话，都包括与用户关注的关键词相关联的词语，因此，通过这种方式获取到的目标文本包含更多真正跟本论文重点阐述问题相关的内容，更能符合用户的需求。同时由于终端界面限制，原始的对象描述摘要文本不能够完全显示在终端界面上，而目标文本相当于是对原始的对象描述摘要文本的精缩，因此能够全部显示在终端界面上，用户无需进行其他操作即可阅读目标文本的全文，并准确获取文献所主要描述的内容，从而迅速判定这篇文献是否是用户需要的文献。

根据前面实施例所描述的方法，以下将以该文本生成装置具体集成在电子设备中举例作进一步详细说明。

参考图3，本申请实施例的文本生成方法的具体流程可以如下：

301、电子设备获取医疗论文对应的原始摘要、医疗论文的文本标题、以及医疗论文对应的原始关键词。

在实际应用中，比如，电子设备可以获取医疗论文的作者在撰写论文时提供的300～500字的原始摘要，确定医疗论文的文本标题“细胞因子诱导的免疫细胞治疗苯中毒再生障碍性贫血的临床研究”，并获取医疗论文的作者在撰写论文时提供的原始关键词“苯中毒”、“再生障碍性贫血”、“免疫细胞治疗”和“细胞因子”。

302、电子设备基于医疗知识词典对原始关键词进行过滤，得到文本关键词。

在实际应用中，由于该医疗论文是医学相关，这类论文一般就是介绍某个疾病、某个症状或者某种药物，因此该篇论文摘要的关键词中再包含相应的疾病、症状或者药物词语的意义不大，因此可以获取医疗知识词典，并对原始关键词中的每个词进行检测，若原始关键词中出现医疗知识词典中的词语时，将这部分词语进行删除，剩余的词语即为文本关键词。比如，由于文本关键词是根据论文作者给出的原始关键词进行筛选得到的，那么如果论文作者提供的原始关键词是“苯中毒”、“再生障碍性贫血”、“免疫细胞治疗”和“细胞因子”，筛选后得到的文本关键词可以为“免疫细胞治疗”和“细胞因子”。

303、电子设备将文本标题分词，得到多个标题词语，并对多个标题词语进行筛选，得到筛选后标题词语。

在实际应用中，比如，如图4所示，可以将文本标题“细胞因子诱导的免疫细胞治疗苯中毒再生障碍性贫血的临床研究”进行分词，得到多个标题词语，但这多个标题词语并不都是需要的关键词，因此可以对多个标题词语进行筛选。首先可以从多个标题词语中去除停用词、以及非名词词语，并延续上文中获取文本关键词的逻辑，基于医疗知识词典对剩余的名词进行筛选，得到筛选后标题词语。

304、电子设备计算每个筛选后标题词语对应的词语权重，当词语权重大于阈值k时，将筛选后标题词语确定为标题关键词。

在实际应用中，比如，可以计算每个筛选后标题词语对应的词语权重，也即tf*idf值，其中，词语权重可以包括词频部分权重tf_i,j、以及逆向文件频率部分权重idf_i，计算公式可以如下：

其中，词语权重公式中分子表示该词语在文本中出现的次数，分母表示文本中所有词语出现次数之和。逆向文件频率部分权重公式中|D|可以表示语料库中的文本总数，j表示包含词语的文本数目。

计算得到每个筛选后标题词语对应的词语权重之后，当该词语权重大于阈值k时，就可以将筛选后标题词语确定为标题关键词。比如，可以根据文本标题“细胞因子诱导的免疫细胞治疗苯中毒再生障碍性贫血的临床研究”，确定出标题关键词“临床研究”。

305、电子设备基于文本关键词和标题关键词，确定原始摘要对应的关键词。

在实际应用中，比如，此时获取到了文本关键词“免疫细胞治疗”和“细胞因子”、以及标题关键词“临床研究”，那么原始摘要对应的关键词可以为“免疫细胞治疗”、“细胞因子”和“临床研究”。

306、电子设备将原始摘要划分为多个整句，并对多个整句进行分词得到多个初始词语。

在实际应用中，比如，如图6所示，可以按照句号、问号等表示语句结束的标点符号，将原始摘要划分为多个整句，并且对多个整句进行粗粒度分词，得到多个初始词语，其中每个整句都对应着至少一个初始词语。

307、电子设备基于预设待删除词语，对多个初始词语进行筛选，得到多个词语。

在实际应用中，比如，可以将文本标题中的疾病、症状或者药品词语作为预设待删除词语，当初始词语中包括这种词语时，就可以将其确定为待删除词语，并将待删除词语所在的整句确定为待删除整句，然后从所有的整句中将待删除整句删除，此时剩余的整句所对应的初始词语，就是需要得到的多个词语。

308、电子设备计算关键词与每个词语之间的相似度。

在实际应用中，比如，可以利用Word2vec模型，将多个关键词映射为词向量的形式，并将多个词语也映射成词向量的形式，然后计算关键词的词向量与每个词语的词向量之间的余弦相似度。其中，由于关键词可能有多个，在关键词有多个的情况下，可以获取词语与每个关键词之间的相似度，并对每个相似度赋予一个权重，根据权重对多个相似度进行融合，并将融合后的相似度作为关键词与词语之间的相似度。

309、当相似度大于阈值K时，电子设备将词语所在的整句确定为待保留整句。

在实际应用中，比如，获取到关键词与每个词语之间的相似度后，当检测到相似度数值大于阈值K时，可以将该词语所在的整句确定为待保留整句。

310、电子设备基于多个待保留整句、以及预设摘要字数，生成目标摘要。

在实际应用中，比如，由于多个整句在原始摘要中有一定的排列顺序，因此，在生成目标摘要的时候，还可以延续整句在原始摘要中的排列顺序，即根据整句在原始摘要中的排列顺序，对多个待保留整句进行排列，得到排列后摘要。另外，由于终端界面显示空间有限，如终端界面只能显示摘要中的100个字，那么可以将摘要的字数控制在100个字以内。若排列后摘要的字数不足100，那么无需删除，可以直接将排列后摘要作为目标摘要；若排列后摘要的字数超过100，那么可以从前到后截取排列后摘要的前100个字，但是由于是按照字数进行截取，因此最后一句话可能由于截取而不完整，此时可以将不完整的最后一句话予以删除，得到最终的目标文本，这样既能保证目标文本可以完整的展示在终端界面上，又可以保证目标文本中都是内容完整的语句。

由上可知，本申请实施例可以通过电子设备获取医疗论文对应的原始摘要、医疗论文的文本标题、以及医疗论文对应的原始关键词，基于医疗知识词典对原始关键词进行过滤，得到文本关键词，将文本标题分词，得到多个标题词语，并对多个标题词语进行筛选，得到筛选后标题词语，计算每个筛选后标题词语对应的词语权重，当词语权重大于阈值k时，将筛选后标题词语确定为标题关键词，基于文本关键词和标题关键词，确定原始摘要对应的关键词，将原始摘要划分为多个整句，并对多个整句进行分词得到多个初始词语，基于预设待删除词语，对多个初始词语进行筛选，得到多个词语，计算关键词与每个词语之间的相似度，当相似度大于阈值K时，电子设备将词语所在的整句确定为待保留整句，基于多个待保留整句、以及预设摘要字数，生成目标摘要。该方案可以通过比较摘要中的词语与关键词之间的相似性，判断是否应当将词语所在的整句保留，并根据保留的句子构建新的文本。由于最终获取到目标文本中的每句话，都包括与用户关注的关键词相关联的词语，因此，通过这种方式获取到的目标文本包含更多真正跟本论文重点阐述问题相关的内容，更能符合用户的需求。同时由于终端界面限制，原始的对象描述摘要文本不能够完全显示在终端界面上，而目标文本相当于是对原始的对象描述摘要文本的精缩，因此能够全部显示在终端界面上，用户无需进行其他操作即可阅读目标文本的全文，并准确获取文献所主要描述的内容，从而迅速判定这篇文献是否是用户需要的文献。

为了更好地实施以上方法，相应的，本申请实施例还提供一种文本生成装置，该文本生成装置可以集成在电子设备中，参考图7，该文本生成装置包括获取模块71、划分模块72、处理模块73、计算模块74、确定模块75和生成模块76，如下：

获取模块71，用于获取对象描述摘要文本对应的关键词；

划分模块72，用于将所述对象描述摘要文本划分为多个子文本；

处理模块73，用于对所述多个子文本分别进行分词处理，得到多个词语；

计算模块74，用于计算所述关键词与每个所述词语之间的相似度；

确定模块75，用于当所述关键词与所述词语之间的相似度超过预设阈值时，将所述词语所在的子文本确定为待保留子文本；

生成模块76，用于基于所述待保留子文本，生成所述对象描述摘要文本对应的目标文本。

在一实施例中，所述获取模块71可以包括第一获取子模块711、提取子模块712和第一确定子模块713，如下：

第一获取子模块711，用于获取对象描述摘要文本对应的文本关键词；

提取子模块712，用于从所述对象描述摘要文本的文本标题中提取标题关键词；

第一确定子模块713，用于基于所述文本关键词、以及所述标题关键词，确定所述对象描述摘要文本对应的关键词。

在一实施例中，所述第一获取子模块711可以具体用于：

获取所述对象类型对应的待删除词语集合；

在一实施例中，所述提取子模块712可以包括第二获取子模块7121、分词子模块7122、筛选子模块7123和第二确定子模块7124，如下：

第二获取子模块7121，用于获取所述对象描述摘要文本的文本标题；

分词子模块7122，用于对所述文本标题进行分词处理，得到多个标题词语；

筛选子模块7123，用于对所述多个标题词语进行筛选，得到筛选后标题词语；

第二确定子模块7124，用于基于所述筛选后标题词语对应的词语频率信息，从所述筛选后标题词语中确定标题关键词。

在一实施例中，所述筛选子模块7123可以具体用于：

在一实施例中，所述处理模块73可以包括处理子模块731、第三确定子模块732和第四确定子模块733，如下：

处理子模块731，用于对每个子文本进行分词处理，得到所述每个子文本对应的多个初始词语；

第三确定子模块732，用于当所述初始词语与预设待删除词语匹配时，将所述初始词语确定为待删除词语；

第四确定子模块733，用于基于所述多个初始词语、以及所述待删除词语，确定多个词语。

在一实施例中，所述第四确定子模块733可以具体用于：

将所述待删除词语所在的子文本确定为待删除子文本；

基于所述删除后子文本对应的初始词语，确定多个词语。

在一实施例中，所述生成模块76可以具体用于：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本申请实施例可以通过获取模块71获取对象描述摘要文本对应的关键词，通过划分模块72将对象描述摘要文本划分为多个子文本，通过处理模块73对多个子文本分别进行分词处理，得到多个词语，通过计算模块74计算关键词与每个词语之间的相似度，当关键词与词语之间的相似度超过预设阈值时，通过确定模块75将词语所在的子文本确定为待保留子文本，通过生成模块76基于待保留子文本，生成对象描述摘要文本对应的目标文本。该方案可以通过比较摘要中的词语与关键词之间的相似性，判断是否应当将词语所在的整句保留，并根据保留的句子构建新的文本。由于最终获取到目标文本中的每句话，都包括与用户关注的关键词相关联的词语，因此，通过这种方式获取到的目标文本包含更多真正跟本论文重点阐述问题相关的内容，更能符合用户的需求。同时由于终端界面限制，原始的对象描述摘要文本不能够完全显示在终端界面上，而目标文本相当于是对原始的对象描述摘要文本的精缩，因此能够全部显示在终端界面上，用户无需进行其他操作即可阅读目标文本的全文，并准确获取文献所主要描述的内容，从而迅速判定这篇文献是否是用户需要的文献。

本申请实施例还提供一种电子设备，该电子设备可以集成本申请实施例所提供的任一种文本生成装置。

例如，如图8所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器81、一个或一个以上计算机可读存储介质的存储器82、电源83和输入单元84等部件。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中：

处理器81是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器82内的软件程序和/或模块，以及调用存储在存储器82内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器81可包括一个或多个处理核心；优选的，处理器81可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器81中。

存储器82可用于存储软件程序以及模块，处理器81通过运行存储在存储器82的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器82可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器82可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器82还可以包括存储器控制器，以提供处理器81对存储器82的访问。

电子设备还包括给各个部件供电的电源83，优选的，电源83可以通过电源管理系统与处理器81逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源83还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元84，该输入单元84可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器81会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文本加载到存储器82中，并由处理器81来运行存储在存储器82中的应用程序，从而实现各种功能，如下：

获取对象描述摘要文本对应的关键词，将对象描述摘要文本划分为多个子文本，对多个子文本分别进行分词处理，得到多个词语，计算关键词与每个词语之间的相似度，当关键词与词语之间的相似度超过预设阈值时，将词语所在的子文本确定为待保留子文本，基于待保留子文本，生成对象描述摘要文本对应的目标文本。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种电子设备，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种文本生成方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种文本生成方法中的步骤，因此，可以实现本申请实施例所提供的任一种文本生成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种文本生成方法、装置、存储介质和电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本生成方法，其特征在于，包括：

获取对象描述摘要文本对应的关键词；

将所述对象描述摘要文本划分为多个子文本；

对所述多个子文本分别进行分词处理，得到多个词语；

计算所述关键词与每个所述词语之间的相似度；

2.根据权利要求1所述的文本生成方法，其特征在于，获取对象描述摘要文本对应的关键词，包括：

获取对象描述摘要文本对应的文本关键词；

从所述对象描述摘要文本的文本标题中提取标题关键词；

3.根据权利要求2所述的文本生成方法，其特征在于，获取对象描述摘要文本对应的文本关键词，包括：

获取所述对象类型对应的待删除词语集合；

4.根据权利要求2所述的文本生成方法，其特征在于，从所述对象描述摘要文本的文本标题中提取标题关键词，包括：

获取所述对象描述摘要文本的文本标题；

对所述文本标题进行分词处理，得到多个标题词语；

对所述多个标题词语进行筛选，得到筛选后标题词语；

5.根据权利要求4所述的文本生成方法，其特征在于，对所述多个标题词语进行筛选，得到筛选后标题词语，包括：

6.根据权利要求1所述的文本生成方法，其特征在于，对所述多个子文本分别进行分词处理，得到多个词语，包括：

7.根据权利要求6所述的文本生成方法，其特征在于，基于所述多个初始词语、以及所述待删除词语，确定多个词语，包括：

将所述待删除词语所在的子文本确定为待删除子文本；

基于所述删除后子文本对应的初始词语，确定多个词语。

8.根据权利要求1所述的文本生成方法，其特征在于，基于所述待保留子文本，生成所述对象描述摘要文本对应的目标文本，包括：

9.一种文本生成装置，其特征在于，包括：

获取模块，用于获取对象描述摘要文本对应的关键词；

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-8任一项所述的文本生成方法。

11.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。