CN108664465B - 一种自动生成文本方法以及相关装置 - Google Patents

一种自动生成文本方法以及相关装置 Download PDF

Info

Publication number
CN108664465B
CN108664465B CN201810185592.7A CN201810185592A CN108664465B CN 108664465 B CN108664465 B CN 108664465B CN 201810185592 A CN201810185592 A CN 201810185592A CN 108664465 B CN108664465 B CN 108664465B
Authority
CN
China
Prior art keywords
candidate
sentences
sentence
integer programming
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810185592.7A
Other languages
English (en)
Other versions
CN108664465A (zh
Inventor
陈海林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Trueland Information Technology Shanghai Co ltd
Original Assignee
Trueland Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Trueland Information Technology Shanghai Co ltd filed Critical Trueland Information Technology Shanghai Co ltd
Priority to CN201810185592.7A priority Critical patent/CN108664465B/zh
Publication of CN108664465A publication Critical patent/CN108664465A/zh
Application granted granted Critical
Publication of CN108664465B publication Critical patent/CN108664465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种自动生成文本方法,包括:对原始文本进行分句处理得到多个候选句子;从候选句子的语义以及句法结构方面,确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;根据获取的关键词和相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用整数规划模型执行近似求解操作;根据整数规划结果,从所有候选句子中抽取得到多个目标句子和所有目标句子的位置顺序,得到目标文本。通过根据关键词及相似度矩阵抽取目标句子并确定目标句子的位置顺序,从而优化目标文本的连贯性,增强生成文本的可读性,提高用户的阅读体验。本申请还公开了一种自动生成文本装置、服务器以及计算机可读存储介质,具有上述有益效果。

Description

一种自动生成文本方法以及相关装置
技术领域
本申请涉及计算机技术领域,特别涉及一种自动生成文本方法、自动生成文本装置、服务器以及计算机可读存储介质。
背景技术
自动生成文本是自然语言处理领域的一个分支,其主要目的就是使机器可以自动生成文本,使文本传递一定的信息。简单的说,就是使机器可以像人一样写作出文本,甚至是创作出优秀的自然语言文本。可以大量的应用在新闻等行业,拥有巨大的前景。
目前,自动生成文本的方法主要分为4类:从意义到文本的生成、从数据到文本的生成、从图像到文本的生成、从文本到文本的生成。由于自然语言的语义尚未形成一致的定义,意义到文本的生成方法不多。数据到文本的研究旨在根据提供的数据生成相关描述文本,该方法应用非常广泛,主要应用领域有:天气、财经、医疗等。而随着深度学习的兴起,图像到文本的生成也取得了很大进步。典型地,将图像语义标注与自动生成文本合并起来,图像语义标注采用深度卷积神经网络建模,自动生成文本采用循环神经网络建模,实现从图像到文本的生成。
区别于上述三种自动生成文本方法,从文本到文本的生成,由于是直接将文本进行处理,得到新的文本,会具有更加稳定的结构以及语义。并且由于生成文本的效果较好,在该领域具有较多的相关方法,可以得到最终的文本。
但是,由于一般的从文本到文本的生成,在生成的时候没有考虑到连贯性,导致最终的文本语句不通畅,使用户的阅读体验较差。
因此,如何提高从文本生成文本的连贯性,使用户阅读顺畅,提高用户的阅读体验,是本领域技术人员所关注的重点问题。
发明内容
本申请的目的是提供一种自动生成文本方法、自动生成文本装置、服务器以及计算机可读存储介质,通过对候选句子进行相似度计算,得到每个候选句子与其他候选句子的相似度矩阵,可以根据该相似度矩阵和关键词抽取出目标句子,并根据相似度矩阵调整目标句子的位置顺序,使目标文本的相似度总和最大,从而达到优化目标文本连贯性的目的,使文本在阅读时更加顺畅,提高用户的阅读体验。
为解决上述技术问题,本申请提供一种自动生成文本方法,包括:
对原始文本进行分句处理得到多个候选句子;
对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;
根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;
根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。
可选的,对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵,包括:
对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵;
根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果,包括:
根据获取的所述关键词和所述语义相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果。
可选的,对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵,包括:
对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量;
根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵。
可选的,对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量,包括:
通过语义预测工具结合训练语料进行训练模型处理,得到语义预测模型;
通过所述语义预测模型预测所有所述候选句子的语义分布,得到每个候选句子的语义向量。
可选的,根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵,包括:
根据每个候选句子的语义向量与其他候选句子的语义向量进行余弦相似度计算,得到对应的余弦相似度;
将所有所述余弦相似度作为所述语义相似度,得到所述语义相似度矩阵。
可选的,对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵,包括:
对所有所述候选句子进行句子结构分析处理,根据句子结构分析处理的结果确定每个候选句子与其他候选句子的结构相似度,得到结构相似度矩阵;
根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果,包括:
根据获取的所述关键词和所述结构相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果。
可选的,对所有所述候选句子进行句子结构分析处理,根据所述句子结构分析处理的结果确定每个候选句子与其他候选句子的结构相似度,得到结构相似度矩阵,包括:
对所有所述候选句子进行实体提取处理,得到多个实体;
通过树形分析树分析每个实体在每个候选句子中的角色,得到实体角色矩阵;
根据所述实体角色矩阵统计每个实体在每个候选句子中角色转移次数,得到每个实体对应的角色转移次数;
根据每个候选句子与其他候选句子中的所有实体的角色转移次数确定每个候选句子与其他候选句子的结构相似度,得到所述结构相似度矩阵。
本申请还提供一种自动生成文本装置,包括:
候选句子获取模块,用于对原始文本进行分句处理得到多个候选句子;
相似度矩阵获取模块,用于对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;
整数规划建模模块,用于根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;
目标文本获取模块,用于根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的自动生成文本方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的自动生成文本方法的步骤。
本申请所提供的一种自动生成文本方法,包括:对原始文本进行分句处理得到多个候选句子;对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。
通过对候选句子进行相似度计算,得到每个候选句子与其他候选句子的相似度矩阵,就可以根据该相似度矩阵和关键词抽取出目标句子,并根据相似度矩阵调整目标句子的位置顺序,使目标文本的相似度总和最大,从而达到优化目标文本连贯性的目的,使文本在阅读时更加顺畅,提高用户的阅读体验。
本申请还提供一种自动生成文本装置、服务器以及计算机可读存储介质,具有上述有益效果,在此不做赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种自动生成文本方法的流程图;
图2为本申请实施例所提供的另一种自动生成文本方法的流程图;
图3为本申请实施例所提供的还一种自动生成文本方法的流程图;
图4为本申请实施例所提供的一种自动生成文本装置的结构示意图;
图5为本申请实施例所提供的还一种自动生成文本方法中的结构相似度计算处理的角色转移示意图。
具体实施方式
本申请的核心是提供一种自动生成文本方法、自动生成文本装置、服务器以及计算机可读存储介质,通过对候选句子进行相似度计算,得到每个候选句子与其他候选句子的相似度矩阵,就可以根据该相似度矩阵和关键词抽取出目标句子,并根据相似度矩阵调整目标句子的位置顺序,使目标文本的相似度总和最大,从而达到优化目标文本连贯性的目的,使文本在阅读时更加顺畅,提高用户的阅读体验。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种自动生成文本方法的流程图。
本实施例提供一种自动生成文本方法,可以提高文本的连贯性,该方法可以包括:
S101,对原始文本进行分句处理得到多个候选句子;
本步骤旨在获取生成文本所用的候选句子,具体的,本步骤主要通过对原始文本进行分句处理,获取该候选句子。其中,候选句子的获取方法的主要目的是对原始文本进行分句处理,以得到多个候选句子。
S102,对所有候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;
在步骤S101的基础上,步骤S102旨在对获取的候选句子进行相似度计算,获取相应的相似度矩阵。由于将相似度较大的目标句子摆放在相邻的位置,可以提高两个目标句子之间的连贯性,因此在本步骤中计算所有候选句子之间的相似度,用以调整句子与句子之间的位置关系。
具体的,由于在自然语言处理领域,对于文本的处理主要从文本的语义分析和结构分析入手,现有的分析方法较多,并且功能丰富,可以提供不同角度的分析结果,因此本步骤中可以对所有候选句子进行语义预测处理和/或句子结构分析处理,得到对应的相似度矩阵。
需要说明的是,在具体实施例中的过程中可以单独对候选句子进行语义预测处理,或单独进行句子结构分析处理,单独使用一种处理方式可以加快处理的速度,降低系统资源的利用率。也可以将语义预测处理和句子结构分析处理同时进行,再根据对应的处理结果得到对应的相似度矩阵,可以提高相似度判断的准确率,使连贯性调整更加准确。
S103,根据获取的关键词和相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用整数规划模型执行近似求解操作,得到整数规划结果;
在步骤S102的基础上,本步骤旨在根据获取的关键词和相似度矩阵进行整数规划建模处理,得到整数规划模型。
其中,关键词是自动生成文本的输入,决定了最后生成文本的大致主题或内容方向。而目标句子就是根据关键词生成文本的句子,也即目标文本的句子。
在一般的自动生成文本的方法中,是将句子的信息量和冗余度作为抽取目标句子的考量因素,得到相应的目标句子后再调整目标句子的顺序提高连贯性。由于在抽取句子的阶段没有考虑到连贯度,就导致了抽取出的目标句子本身不连贯,再调整顺序仍然改善不了目标文本的连贯性。
因此,本步骤中需要根据计算得到的相似度矩阵进行整数规划建模处理,在抽取句子阶段就考虑连贯性。但是本步骤中没有描述其他考量因素,因为与常用的技术手段相同,在此不做赘述。
其中,建模处理可以是将抽取的公式建模成“最大相似度的最小集合覆盖”,具体的可以参考后续实施例。
其中,执行近似求解操作的目的就是将得到目标文本的句子之间的相似度的总和最大,具体在实施中,可以理解为将抽取后的句子进行组合排列,并计算每种组合排列的相似度总和,挑选相似度最大的组合排列作为最后输出的文本。
S104,根据整数规划结果,从所有候选句子中抽取得到多个目标句子和所有目标句子的位置顺序,得到目标文本。
在步骤S103的基础上,本步骤旨在根据整数规划结果,从所有候选句子中抽取得到多个目标句子和所有目标句子的位置顺序,得到目标文本。
综上,本实施例通过对候选句子进行相似度计算,得到每个候选句子与其他候选句子的相似度矩阵,可以根据该相似度矩阵和关键词抽取出目标句子,并根据相似度矩阵调整目标句子的位置顺序,使目标文本的相似度总和最大,从而达到优化目标文本连贯性的目的,使文本在阅读时更加顺畅,提高用户的阅读体验。
请参考图2,图2为本申请实施例所提供的另一种自动生成文本方法的流程图。
本实施例提供另一种自动生成文本方法,可以包括:
S201,对原始文本进行分句处理得到多个候选句子;
S202,对所有候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵;
S203,根据获取的关键词和语义相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用整数规划模型执行近似求解操作,得到整数规划结果;
S204,根据整数规划结果,从所有候选句子中抽取得到多个目标句子和所有目标句子的位置顺序,得到目标文本。
可选的,本实施例中的步骤S202可以包括:
步骤一,对所有候选句子进行语义预测处理,得到每个候选句子的语义向量;
本步骤旨在根据对句子进行语义预测处理得到每个句子的语义向量。其中,语义向量是一种表示语义的空间向量模型,可以通过语义预测处理得到。并且,随着语义预测处理方法的不同,所得到的语义向量的表示形式也会变得不同。
本实施例中使用语义向量表示语义预测的结果,可以方便语义相似度的计算,减少计算复杂度。
步骤二,根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵。
在步骤一的基础上,本步骤旨在根据上一步骤得到的语义向量计算每个向量之间的相似度,即确定每个候选句子与其他候选句子的语义相似度。当得到每个候选句子与其他候选句子之间的语义相似度之后,也就得到了关于这些所有候选句子的语义相似度矩阵。
具体的,上一可选方案可以包括:
步骤一、通过语义预测工具结合训练语料进行训练模型处理,得到语义预测模型;
其中,语义预测工具进行训练模型处理,可以是通过使用JGibbLDA工具训练其对应的LDA模型,对应的语义预测模型即为LDA模型。其中使用的训练语料可以从人民日报中获取,可以提高语料的准确性以及普遍性。
步骤二、通过语义预测模型预测所有候选句子的语义分布,得到每个候选句子的语义向量;
在步骤一的基础上,本步骤旨在通过获取的语义预测模型预测所有候选句子的语义分布,也就是通过LDA模型预测所有候选句子的LDA主题分布,进一步可以通过某一个候选句子的所有LDA主题分布得到该候选句子的语义向量。其中,LDA主题分布可以看作是该候选句子主题的概率分布模型,再将不同主题之间的概率分布组合成语义向量。
步骤三、根据每个候选句子的语义向量与其他候选句子的语义向量进行余弦相似度计算,得到对应的余弦相似度;
在步骤二的基础上,本步骤旨在计算每个语义向量与其他语义向量之间的向量相似度。本可选方案中主要是通过余弦相似度进行向量相似度的计算。其中,余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。
步骤四、将所有余弦相似度作为语义相似度,得到语义相似度矩阵。
在步骤三的基础上,本步骤旨在将上一步骤得到余弦相似度作为本实施例中的语义相似度,得到语义相似度矩阵。
综上,本实施例通过对候选句子在语义方面进行相似度计算,得到相应的语义相似度矩阵,可以根据该语义相似度矩阵在生成新文本时调整其中句子的顺序,使文本的语义相似度总和最大,从而达到优化文本连贯性的目的,使文本在阅读时更加顺畅,提高用户的阅读体验。
请参考图3,图3为本申请实施例所提供的还一种自动生成文本方法的流程图。
本实施例还提供一种自动生成文本方法,可以包括:
S301,对原始文本进行分句处理得到多个候选句子;
S302,对所有候选句子进行句子结构分析处理,根据句子结构分析处理的结果确定每个候选句子与其他候选句子的结构相似度,得到结构相似度矩阵;
S303,根据获取的关键词和结构相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用整数规划模型执行近似求解操作,得到整数规划结果;
S304,根据整数规划结果,从所有候选句子中抽取得到多个目标句子和所有目标句子的位置顺序,得到目标文本。
可选的,本实施例中的步骤S302可以包括:
步骤一,对所有候选句子进行实体提取处理,得到多个实体;
本步骤旨在提取所有候选句子的实体,得到多个实体。
其中,实体是指句子中的字词,可以根据所设计的结构相似度计算方式的不同而变化。具体的,在本实施例中是通过句子中的主语和宾语计算结构的相似度,因此本步骤中的实体是句子中的主语、宾语以及非主语和宾语的词汇。同时,本步骤中选用主语和宾语作为结构分析的实体,可以使结构分析更加符合实际阅读的情况,提高结构相似度计算的准确率。
步骤二,通过树形分析树分析每个实体在每个候选句子中的角色,得到实体角色矩阵;
在步骤一的基础上,本步骤旨在通过树形分析树分析每个实体在每个候选句子中的角色,得到实体角色矩阵。
基于上一步骤获取的实体,本步骤中分析得到的实体角色包括:主语、宾语、非主语非宾语实体以及未出现,其中由于是分析每个实体在每个候选句子中的角色,有可能会出现该实体未在该候选句子中出现的情况,就可以将该实体的角色作为未出现。
通过树形分析的结果就可以得到每个实体与每个候选句子之间的实体角色矩阵。
步骤三,根据实体角色矩阵统计每个实体在每个候选句子中角色转移次数,得到每个实体对应的角色转移次数;
在根据上一步骤中得到实体角色矩阵统计每个实体在每个候选句子中的角色转移次数,也就是对比两个句子中实体的转移情况,例如从主语到宾语的转移,从宾语到未出现的转移。一共四个角色所以有16种转移情况,并且通过符号进行表示:S(主语)、O(宾语)、X(出现在句中但非主语宾语)、-(未出现),所以16种转移情况是SS、SO、SX、S-、OO、OS、OX、O-、XX、XS、XO、X-、--、-S、-O、-X。进一步的,由于没在句中出现的实体对优化连贯性无贡献,此处本申请只统计SS、SO、SX、OO、OS、OX、XX、XS、XO这9种情况。就可以得到每个实体对应的角色转移次数。
请参考图5,图5为本申请实施例所提供的还一种自动生成文本方法中的结构相似度计算处理的角色转移示意图。
如图5所示为一种统计角色转移的方式,表示的是实体在不同候选句子中的角色转移情况。其中,横排表示为从候选句子中提取出的实体,竖排表示为第几个候选句子。
步骤四,根据每个候选句子与其他候选句子中的所有实体的角色转移次数确定每个候选句子与其他候选句子的结构相似度,得到结构相似度矩阵。
在步骤S303的基础上,本步骤旨在通过所有实体的角色转移次数计算确定每个候选句子与其他候选句子的结构相似度,得到结构相似度矩阵。
具体的,本步骤可以通过以下公式实现结构相似度计算:
Figure BDA0001590142410000111
Figure BDA0001590142410000112
其中,ek表示实体,#ek(a)ek(b)表示实体ek从角色a转移到角色b的次数,n表示候选文档集合中候选句子的个数,K表示候选文档集合中的文档数量,
Figure BDA0001590142410000113
表示实体ek从角色a转移到角色b的平均次数,Si表示第i个候选句子,Sj表示第j个候选句子,gain(Si,Sj)表示将第i个候选句子和第j个候选句子中所有的实体ek在两个候选句子之间的决策转移
Figure BDA0001590142410000114
值相加得到的两个候选句子之间的结构相似度,由此得到每个候选句子之间的相似度矩阵。
可选的,本实施例还可以以以下公式进行相应的目标文本的生成。
Figure BDA0001590142410000115
s.t.part1:
yi,j∈{0,1},i,j=1,2,...,n
xi∈{0,1},i=1,2,...,n
Figure BDA0001590142410000116
Figure BDA0001590142410000117
Figure BDA0001590142410000118
Figure BDA0001590142410000119
s.t.part2:
Yij∈{0,1},i=1,2,..,,j=1,2,..,m
Figure BDA0001590142410000121
xj=1表示句子Sj包含在自动生成的目标文本内,xj=0表示Sj不在自动生成的目标文本内。yi,j=1表示句子Si和Sj放在相邻的位置,yi,j=0表示句子Si和Sj未放在相邻的位置。为了找到起始句和结束句,另外定义了一个0和t作为与起始句和结束句相连的虚拟点,连接这两个点的边不带权值。Yi,j=1表示第i个关键字wi在Sj内,Yi,j=0表示i个关键字wi不在Sj内。公式(1)确保虚拟结点0的出度为1,即必须有一个句子排在它后面,公式(2)确保虚拟结点t的入度为1,即必有有一个句子排在它前面,公式(3)确保所有真实结点的出度与入度相同,公式(4)确保所有节点(真实结点和虚拟结点)的出度等于抽取的句子个数,也就是通过该公式将相似度矩阵作为了整数线性规划中的限制条件,实现了根据相似度矩阵抽取目标句子。公式(5)确保抽取出的目标句子能覆盖住所有关键词集合中的关键词。
以上计算方法为整数线性规划方法,通过以上线性规划方程可以从所有候选句子中抽取出最少的目标句子覆盖所有关键词,并且将相似度最大的候选句子放在相邻位置,保持目标文本的输出顺序是最连贯的。
综上,本实施例通过对候选句子进行相似度计算,得到每个候选句子与其他候选句子的相似度矩阵,可以根据该相似度矩阵和关键词抽取出目标句子,并根据相似度矩阵调整目标句子的位置顺序,使目标文本的相似度总和最大,从而达到优化目标文本连贯性的目的,使文本在阅读时更加顺畅,提高用户的阅读体验。
下面对本申请实施例提供的一种自动生成文本装置进行介绍,下文描述的一种自动生成文本装置与上文描述的一种自动生成文本方法可相互对应参照。
请参考图4,图4为本申请实施例所提供的一种自动生成文本装置的结构示意图。
本实施例提供一种自动生成文本装置,可以包括:
候选句子获取模块100,用于对原始文本进行分句处理得到多个候选句子;
相似度矩阵获取模块200,用于对所有候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;
整数规划建模模块300,用于根据获取的关键词和相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用整数规划模型执行近似求解操作,得到整数规划结果;
目标文本获取模块400,用于根据整数规划结果,从所有候选句子中抽取得到多个目标句子和所有目标句子的位置顺序,得到目标文本。
本申请实施例还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时可以实现如以上实施例的自动生成文本方法的步骤。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如以上实施例的自动生成文本方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种自动生成文本方法、自动生成文本装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种自动生成文本方法,其特征在于,包括:
对原始文本进行分句处理得到多个候选句子;
对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;
根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;
根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本;
其中,根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本,包括:
Figure FDA0003920307330000011
s.t.part1:
yi,j∈{0,1},i,j=1,2,...,n;
xi∈{0,1},i=1,2,...,n;
Figure FDA0003920307330000012
Figure FDA0003920307330000013
Figure FDA0003920307330000014
Figure FDA0003920307330000015
s.t.part2:
Yij∈{0,1},i=1,2,..,,j=1,2,..,m;
Figure FDA0003920307330000016
其中,si表示第i个候选句子;gaini,j表示将第i个候选句子和第j个候选句子中所有的实体在两个候选句子之间的决策转移值相加得到的两个候选句子之间的结构相似度,xj=1表示句子Sj包含在自动生成的目标文本内,xj=0表示Sj不在自动生成的目标文本内,yi,j=1表示句子Si和Sj放在相邻的位置,yi,j=0表示句子Si和Sj未放在相邻的位置,Yi,j=1表示第i个关键字wi在Sj内,Yi,j=0表示i个关键字wi不在Sj内。
2.根据权利要求1所述的自动生成文本方法,其特征在于,对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵,包括:
对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵;
根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果,包括:
根据获取的所述关键词和所述语义相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果。
3.根据权利要求2所述的自动生成文本方法,其特征在于,对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵,包括:
对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量;
根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵。
4.根据权利要求3所述的自动生成文本方法,其特征在于,对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量,包括:
通过语义预测工具结合训练语料进行训练模型处理,得到语义预测模型;
通过所述语义预测模型预测所有所述候选句子的语义分布,得到每个候选句子的语义向量。
5.根据权利要求4所述的自动生成文本方法,其特征在于,根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵,包括:
根据每个候选句子的语义向量与其他候选句子的语义向量进行余弦相似度计算,得到对应的余弦相似度;
将所有所述余弦相似度作为所述语义相似度,得到所述语义相似度矩阵。
6.根据权利要求1所述的自动生成文本方法,其特征在于,对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵,包括:
对所有所述候选句子进行句子结构分析处理,根据句子结构分析处理的结果确定每个候选句子与其他候选句子的结构相似度,得到结构相似度矩阵;
根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果,包括:
根据获取的所述关键词和所述结构相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果。
7.根据权利要求6所述的自动生成文本方法,其特征在于,对所有所述候选句子进行句子结构分析处理,根据所述句子结构分析处理的结果确定每个候选句子与其他候选句子的结构相似度,得到结构相似度矩阵,包括:
对所有所述候选句子进行实体提取处理,得到多个实体;
通过树形分析树分析每个实体在每个候选句子中的角色,得到实体角色矩阵;
根据所述实体角色矩阵统计每个实体在每个候选句子中角色转移次数,得到每个实体对应的角色转移次数;
根据每个候选句子与其他候选句子中的所有实体的角色转移次数确定每个候选句子与其他候选句子的结构相似度,得到所述结构相似度矩阵。
8.一种自动生成文本装置,其特征在于,包括:
候选句子获取模块,用于对原始文本进行分句处理得到多个候选句子;
相似度矩阵获取模块,用于对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;
整数规划建模模块,用于根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;
目标文本获取模块,用于根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本;
其中,根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本,包括:
Figure FDA0003920307330000041
s.t.part1:
yi,j∈{0,1},i,j=1,2,...,n;
xi∈{0,1},i=1,2,...,n;
Figure FDA0003920307330000042
Figure FDA0003920307330000043
Figure FDA0003920307330000044
Figure FDA0003920307330000045
s.t.part2:
Yij∈{0,1},i=1,2,..,,j=1,2,..,m;
Figure FDA0003920307330000046
其中,Si表示第i个候选句子;gaini,j表示将第i个候选句子和第j个候选句子中所有的实体在两个候选句子之间的决策转移值相加得到的两个候选句子之间的结构相似度,xj=1表示句子Sj包含在自动生成的目标文本内,xj=0表示Sj不在自动生成的目标文本内,yi,j=1表示句子Si和Sj放在相邻的位置,yi,j=0表示句子Si和Sj未放在相邻的位置,Yi,j=1表示第i个关键字wi在Sj内,Yi,j=0表示i个关键字wi不在Sj内。
9.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的自动生成文本方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的自动生成文本方法的步骤。
CN201810185592.7A 2018-03-07 2018-03-07 一种自动生成文本方法以及相关装置 Active CN108664465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810185592.7A CN108664465B (zh) 2018-03-07 2018-03-07 一种自动生成文本方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810185592.7A CN108664465B (zh) 2018-03-07 2018-03-07 一种自动生成文本方法以及相关装置

Publications (2)

Publication Number Publication Date
CN108664465A CN108664465A (zh) 2018-10-16
CN108664465B true CN108664465B (zh) 2023-06-27

Family

ID=63784786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810185592.7A Active CN108664465B (zh) 2018-03-07 2018-03-07 一种自动生成文本方法以及相关装置

Country Status (1)

Country Link
CN (1) CN108664465B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399601B (zh) * 2019-07-26 2023-07-07 北京香侬慧语科技有限责任公司 一种识别文档顺序的方法、装置、存储介质及电子设备
CN111159359B (zh) * 2019-12-31 2023-04-21 达闼机器人股份有限公司 文档检索方法、装置及计算机可读存储介质
CN111737961B (zh) * 2020-06-28 2021-08-10 网易(杭州)网络有限公司 一种故事生成的方法、装置、计算机设备和介质
CN111914568B (zh) * 2020-07-31 2024-02-06 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN111832275B (zh) * 2020-09-21 2022-02-25 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质
CN116306558B (zh) * 2022-11-23 2023-11-10 北京语言大学 一种计算机辅助中文文本改编的方法及装置
CN116340481B (zh) * 2023-02-27 2024-05-10 华院计算技术(上海)股份有限公司 自动回复提问的方法及装置、计算机可读存储介质、终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739434A (zh) * 2008-11-20 2010-06-16 张曦 基于多层流程图组织对话语料的自然语言问答方法
CN101599071B (zh) * 2009-07-10 2012-04-18 华中科技大学 对话文本主题的自动提取方法
CN102254011A (zh) * 2011-07-18 2011-11-23 哈尔滨工业大学 一种动态多文档文摘建模方法
US9336186B1 (en) * 2013-10-10 2016-05-10 Google Inc. Methods and apparatus related to sentence compression
US20150163206A1 (en) * 2013-12-11 2015-06-11 Intralinks, Inc. Customizable secure data exchange environment
CN104216875B (zh) * 2014-09-26 2017-05-03 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
CN104820694B (zh) * 2015-04-28 2019-03-15 中国科学院自动化研究所 基于多知识库和整数线性规划ilp的自动问答方法和系统
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置
CN106874469B (zh) * 2017-02-16 2020-05-05 北京大学 一种新闻综述生成方法与系统
CN107133213B (zh) * 2017-05-06 2020-09-25 广东药科大学 一种基于算法的文本摘要自动提取方法与系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王素格等.面向高考阅读理解观点类问题的答案抽取方法.郑州大学学报(理学版).2018,第50卷(第01期),第55页-59页. *

Also Published As

Publication number Publication date
CN108664465A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108664465B (zh) 一种自动生成文本方法以及相关装置
Al-Sabahi et al. A hierarchical structured self-attentive model for extractive document summarization (HSSAS)
Deng et al. Syntax-guided hierarchical attention network for video captioning
CN109508400B (zh) 图文摘要生成方法
Zhou et al. A real-time global inference network for one-stage referring expression comprehension
CN107526798B (zh) 一种基于神经网络的实体识别和规范化联合方法及模型
CN109086357A (zh) 基于变分自动编码器的情感分类方法、装置、设备及介质
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
Xue et al. A better way to attend: Attention with trees for video question answering
CN109697288B (zh) 一种基于深度学习的实例对齐方法
CN110442872B (zh) 一种文本要素完整性审核方法及装置
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN110895656B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
US20220043975A1 (en) Disentangle syntax and semantics in sentence representation with decomposable variational autoencoder
Wu et al. Modeling visual and word-conditional semantic attention for image captioning
Cheng et al. A hierarchical multimodal attention-based neural network for image captioning
CN113051932A (zh) 语义和知识扩展主题模型的网络媒体事件的类别检测方法
Lyu et al. Deep learning for textual entailment recognition
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113408282A (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN112287667A (zh) 一种文本生成方法及设备
Fan et al. Long-term recurrent merge network model for image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant