CN110162595A - 用于生成文本摘要的方法、装置、设备以及可读存储介质 - Google Patents

用于生成文本摘要的方法、装置、设备以及可读存储介质 Download PDF

Info

Publication number
CN110162595A
CN110162595A CN201910252981.1A CN201910252981A CN110162595A CN 110162595 A CN110162595 A CN 110162595A CN 201910252981 A CN201910252981 A CN 201910252981A CN 110162595 A CN110162595 A CN 110162595A
Authority
CN
China
Prior art keywords
sentence
word
beginning
standard
text snippet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910252981.1A
Other languages
English (en)
Other versions
CN110162595B (zh
Inventor
李新锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201910252981.1A priority Critical patent/CN110162595B/zh
Publication of CN110162595A publication Critical patent/CN110162595A/zh
Application granted granted Critical
Publication of CN110162595B publication Critical patent/CN110162595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本公开提供了一种用于生成文本摘要的方法,包括:从文章中提取包括至少两个句子的候选文本摘要;对于所述候选文本摘要中的每个句子,基于所述句子的句首词以及所述句子之前的至少一个句子的句首词确定所述句子是否满足第一标准;在确定所述句子不满足第一标准的情况下,基于所述文章中所述句子的相邻句子更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准;和将更新后的候选文本摘要确定为生成的文本摘要。

Description

用于生成文本摘要的方法、装置、设备以及可读存储介质
技术领域
本公开涉及人工智能领域,具体的涉及一种用于生成文本摘要的方法、装置、设备以及可读存储介质。
背景技术
自然语言可以理解为人们日常所使用的语言,自然语言处理(NLP)用于实现计算机与人之间通过自然语言来进行有效的通信,是人工智能领域与计算机科学领域中的一个重要的研究方向。准确的判断句子的连贯性和通顺性,在需要生成或识别连贯句子的各类自然语言处理领域具有广泛的实用价值,例如可以应用于诸如语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等与人工智能相关应用领域。
发明内容
根据本公开的一方面,提供了一种用于生成文本摘要的方法,包括:从文章中提取包括至少两个句子的候选文本摘要;对于所述候选文本摘要中的每个句子,基于所述句子的句首词以及所述句子之前的至少一个句子的句首词确定所述句子是否满足第一标准;在确定所述句子不满足第一标准的情况下,基于所述文章中所述句子的相邻句子更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准;和将更新后的候选文本摘要确定为生成的文本摘要。
根据本公开的一些实施例,基于所述文章中所述句子的相邻句子更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准包括:基于更新后的所述句子的句首词和所述句子之前的至少一个句子的句首词确定更新后的所述句子是否满足第一标准,在确定更新后的所述句子不满足第一标准的情况下,基于所述文章中更新后的所述句子的相邻句子,对更新后的所述句子进行更新。
根据本公开的一些实施例,所述确定所述句子是否满足第一标准包括:基于所述句子的句首词关于所述句子之前的至少一个句子的句首词之间的转移概率确定所述句子是否满足第一标准,其中,所述转移概率为在出现所述句子之前的至少一个句子的句首词的前提下,出现所述句子的句首词的概率。
根据本公开的一些实施例,更新所述候选文本摘要中的所述句子,包括:将所述句子与所述句子的相邻句子一起作为所述候选文本摘要中更新后的所述句子。
根据本公开的一些实施例,所述方法还包括:基于预定范围来在所述文章中确定所述句子的相邻句子。
根据本公开的一些实施例,所述方法还包括:对于所述候选文本摘要中的每个句子,确定所述句子的句首词是否满足第二标准,在确定所述句子的句首词不满足第二标准的情况下,直接将所述句子确定为不满足第一标准。
根据本公开的另一方面,提供了一种用于生成文本摘要的装置,包括:提取单元,配置成从文章中提取包括至少两个句子的候选文本摘要;确定单元,配置成对于所述候选文本摘要中的每个句子,基于所述句子的句首词以及所述句子之前的至少一个句子的句首词确定所述句子是否满足第一标准;更新单元,配置成在确定所述句子不满足第一标准的情况下,基于所述文章中所述句子的相邻句子更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准;和生成单元,配置成将更新后的候选文本摘要确定为生成的文本摘要。
根据本公开的一些实施例,所述确定单元还配置成:基于更新后的所述句子的句首词和所述句子之前的至少一个句子的句首词确定更新后的所述句子是否满足第一标准,以及在所述确定单元确定更新后的所述句子不满足第一标准的情况下,所述更新单元基于所述文章中更新后的所述句子的相邻句子,对更新后的所述句子进行更新。
根据本公开的一些实施例,所述确定单元基于所述句子的句首词关于所述句子之前的至少一个句子的句首词之间的转移概率确定所述句子是否满足第一标准,其中,所述转移概率为在出现所述句子之前的至少一个句子的句首词的前提下,出现所述句子的句首词的概率。
根据本公开的一些实施例,所述更新单元将所述句子与所述句子的相邻句子一起作为所述候选文本摘要中更新后的所述句子。
根据本公开的一些实施例,所述更新单元还配置成基于预定范围来在所述文章中确定所述句子的相邻句子。
根据本公开的一些实施例,所述确定单元还配置成:对于所述候选文本摘要中的每个句子,确定所述句子的句首词是否满足第二标准,以及在确定所述句子的句首词是否满足第二标准的情况下,所述确定单元直接将所述句子确定为不满足第一标准。
根据本公开的又一方面,提供了一种用于生成文本摘要的设备,包括:一个或多个处理器;和一个或多个存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时,执行如上所述的用于生成文本摘要的方法。
根据本公开的又一方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如上所述的用于生成文本摘要的方法。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本公开实施例的用于生成文本摘要的方法的流程图;
图2A示出了根据本公开实施例的用于生成文本摘要的装置的示意图;
图2B示出了实施本公开实施例的装置生成的文本摘要的示意图;
图3示出了根据本公开实施例的用于生成文本摘要的设备的示意图;
图4示出了根据本公开实施例的示例性计算设备的架构的示意图;
图5示出了根据本公开实施例的存储介质的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中。
在自然语言处理中,对于包括多个句子的一段话,可以通过语言模型(LanguageModel)来判断所述多个句子之间的连贯性,即判断这段话是否通顺。所述句子可以理解为以句号、叹号、问号等符号分隔的一句话,例如,“我是中国人。”可以是一个句子,“我爱我的祖国!”可以是一个句子。由此,“我是中国人。我爱我的祖国!”可以是包括两个句子的一段话。
在自然语言领域,可以将判断句子间连贯性理解为判断该段话中的句子之间是否流畅、通顺。换句话说,在上述举例中,“我是中国人。我爱我的祖国!”可以对应于句子间连贯性较高的一段话,即,不会引起阅读者的阅读障碍,阅读者可以理解该段话的语义。而对于诸如:“我是中国人。然而,我不知道怎么做。”或者“我想回家。但是,我忘记了。”可以对应于句子间连贯性较低的一段话,即,会引起阅读者的阅读障碍,可能导致阅读者无法理解这段话的语义。
在通过语言模型来判断句子之间连贯性的实现方式中,所述语言模型是一个概率模型。具体的,对于一个句子,所述语言模型可以根据所述句子中在先出现的词语计算所述句子中在后出现的词语的概率,从而计算整个句子出现的概率。
具体的,由S表示一个句子,所述句子S中包括n个词语w1,w2,w3,…,wn,则句子S出现的概率可以表示为:
P(S)=P(w1,w2,w3,...,wn) (1)
其中,P(S)是词语级别的语言模型,用于表示一个句子中的词语之间的转移概率,所述转移概率可以是在在先出现的k个词语w1,w2,…wk的条件下,出现第k+1个词语wk+1的概率。
举例来说,在诸如“我是中国人。”的句子S中,可以包括n=3个词语,即w1“我”、w2“是”和w3“中国人”,所述语言模型P(S)可以包括:基于在先出现的词语w1“我”和w2“是”来计算词语w3“中国人”出现的概率。
根据概率公式的链式法则,可以将上述公式(1)进一步扩展为:
其中,P(w1)表示出现词语w1的概率,P(w2/w1)表示在出现词语w1的条件下,出现词语w2的概率,P(w3/w1,w2)表示在出现词语w1和w2的条件下,出现词语w3的概率,以此类推。可以将公式(1)中包括的P(w1)、P(w2/w1)和P(w3/w1,w2)等称为词语之间的转移概率(或者称为条件概率),并用句子中的词语之间的转移概率的乘积来表示所述句子S出现的概率。
在以上公式(2)中,计算P(S)需要估计(或者计算)公式中的转移概率P(wi|w1,w2,...,wi-1),可以将此过程称为参数估计的过程,即,将P(w1)、P(w2/w1)和P(w3/w1,w2)等作为语言模型P(S)的参数。
具体的,可以基于最大似然估计(Maximum Likelihood Estimation,MLE)和训练语料库来估计上述转移概率。上述转移概率可以表示为:
其中,C(w1,w2,…,wi-1)表示词语序列w1,w2,…,wi-1在训练语料库中出现的次数,C(w1,w2,…,wi)表示词语序列w1,w2,…,wi在训练语料库中出现的次数,即可以根据上述次数的比值来计算所述转移概率。
所述训练语料库可以是经科学取样和加工的大规模电子文本库,其中包括在自然语言的实际使用过程中真实出现过的语言材料,并以计算机为载体,承载语言材料的基础资源。关于上述训练语料库的来源,本申请并不作具体限制。
然而,在上述词语级别的语言模型中存在一些问题,例如,数据稀疏(DataSparseness)和参数空间过大。
对于训练语料库,其中包括的语料的数据量越全面,参数估计的结果越可靠,即计算得到的概率值越准确。然而,即使在语料的数据量很大的情况下,很多语言现象在训练语料库中仍然存在没有出现过的可能,这将会导致根据语料库统计的概率值较低,甚至为0。举例来说,即使是将包括500万字人民日报作为训练语料库,其中,仍然存在一些低频词语w’,对于包括这些低频词语w’的句子S’,计算得到的转移概率的值可能非常低,甚至为0,可以将这种现象称为数据稀疏。由于上述数据稀疏现象的存在,使得关于上述低频词语估计的转移概率是不准确的。
此外,对于训练语料库,其中包括的数据量越全面,即意味着数据量越大、参数空间越大,需要统计的数据量越大,即,通过上述公式(3)中计算转移概率所需的计算量越大。
此处,可以基于马尔科夫假设(Markov Assumption)来缓解上述训练语料库的数据稀疏和参数空间过大的问题。所述马尔科夫假设可以是:对于句子中每个词语出现的转移概率仅依赖于所述词语前面的N-1个词语,即
P(wi|w1,w2,...,wi-1)≈P(wi|wi-(N-1),wi-(N-2),...,wi-1) (4)
基于以上公式(4)中的假设,公式(2)的语言模型可以简化为:
以上公式(5)所表示的词语级别的语言模型可以称为N词语言模型(N-GramLanguage Model)。其中,当N较大时,所述语言模型可以提供较多的上下文语境信息。然而,在N较大的情况下,需要统计的数据量也较大,即计算转移概率所需统计的数据量较多,计算代价大,并由于上述数据稀疏的问题可能导致参数的估计不可靠。当N较小时,虽然语言模型提供的上下文语境较少,但需要的统计的参数个数也较少,计算代价较小,参数估计可能更可靠。
例如,在实际中应用中,上述公式(5)表示的语言模型中的N可以取值为2或者3。在N为2时,对于一个词语wi,则表示基于所述词语前1个词语wi-1来计算所述词语wi的转移概率,即在出现词语wi-1的条件下,出现词语wi的概率。可以将N为2时的词语级别的语言模型P(S)称为二词语言模型。在N为3时,对于词语wi,则表示基于所述词语前2个词语wi-1和wi-2来计算所述词语wi出现的转移概率,即在出现词语wi-1和wi-2的条件下,出现词语wi的概率。可以将N为3时的词语级别的语言模型P(S)称为三词语言模型。
需要注意的是,上述词语级别的语言模型仅可以表示一个句子中的词语之间的转移概率。在利用上述词语级别的语言模型来判断多个句子之间的连贯性时,可以将所述多个句子看作是一个加长句,换句话说,所述加长句中包括多个句子。然后,可以基于公式(5)计算所述加长句出现的概率,并将所述计算得到的概率作为判断句子间连贯性的依据。
以包括两个句子的一个加长句,诸如,“我想回家。但是,我忘记了。”为例,其中,所述加长句中包括两个句子:
句子1:“我想回家。”
句子2:“但是,我忘记了。”
对于句子1,其包括n1=3个词语,即:“我”、“想”和“回家”。对于句子2,其包括n2=3个词语,即:“但是”、“我”、“忘记了”。所述加长句出现的概率可以基于以上公式(5)得到,其中的n=n1+n2。
如上所述,可以基于上述公式(5)计算得到包括多个句子的加长句出现的转移概率,并依据计算得到的概率值来判断所述多个句子之间的连贯性。例如,在所述概率值大于某个设定的阈值时,则确定所述多个句子是连贯的,或者确定所述多个句子之间的连贯性较高。
然而,上述词语级别的语言模型在计算转移概率时仅考虑了一个句子中距离较近的词语之间的依赖关系,即仅基于与第i个词语直接相邻的N-1个词语来计算所述第i个词语的转移概率。在利用上述词语级别的语言模型来计算关于上述加长句的转移概率,从而判断句子间连贯性的应用中,由于未考虑多个句子中,属于不同句子的、距离较远的词语之间的依赖关系,使得计算得到的转移概率表示句子间连贯性的能力较弱。例如,对于上述加长句“我想回家。但是,我忘记了。”,可能由于仅考虑了词语“想”与“回家”或者“我”与“忘记”之间的依赖关系,而未考虑句子1中的“我”与句子2中的“但是”之间的依赖关系,使得计算得到转移概率的值不能准确的反应句子之间的连贯性。
除了上述利用词语级别的语言模型来判断句子间连贯性的方法,还可以基于句子中的词对所包括的词语之间的关联关系来判断句子之间的连贯性。在本文中,词对所包括的词语之间的关联关系可以称为所述词对的关联关系。
例如,对于句子“我是中国人”,其中包括三个词语,w1“我”、w2“是”和w3“中国人”,所述3个词语可以两两组成一个词对,即,所述句子可以包括3个词对,词对1(w1,w2)、词对2(w1,w3)和词对3(w2,w3)。可以通过构建上述句子中的词对的关联关系来判断句子间的连贯性。
上述词对的关联关系可以由以下公式(6)表示:
其中,以词对1(w1,w2)为例,C11表示在训练语料库中同时包含词语w1和w2的句子数,C12表示在训练语料库中不包含词语w1但包含词语w2的句子数,C21表示在训练语料库中包含词语w1但不包含词语w2的句子,C22表示在训练语料库中既不包含词语w1也不包含词语w2的句子数。
上述词对1(w1,w2)的关联关系可以如下表1所示:
表1词对(w1,w2)的关联关系统计
其中,公式(6)中的Q值的取值范围为[-1,1],基于训练语料库统计得到的Q值越大,表示两个词语之间的关联联系越紧密。即,若两个词语在训练语料库中经常出现在同一个句之中,则Q的值接近1,反之,若两个词语在训练语料库中很少出现在同一个句子中,则Q的值接近-1。
接着,可以将一个句子S看作是一组集合{(Q1,d1),(Q2,d2),…,(Qn,dx)},其中,x表示句子S中包括的词对的个数,Qi表示句子S中第i个词对的关联关系,di表示组成所述第i个词对的两个词语(例如,词语w1和w2)之间的距离。例如,如上所述,对于包括三个词语w1“我”、w2“是”和w3“中国人”的句子S“我是中国人”,可以组成3个词对,词对1(w1,w2)、词对2(w1,w3)和词对3(w2,w3)。其中,词对1中的两个词语之间的距离d1为1,词对2中的两个词语之间的距离d2为2,词对3中的两个词语之间的距离d3为1。
假设,上述句子中各个词对的关联关系彼此独立,则可以基于公式(6)中词对的关联关系来确定一个句子的关联关系,表示为如下所示:
其中,D(Qi|di,S)可以是基于训练语料库按照公式(6)统计得到的值,L(S)表示句子S的关联关系。
然后,可以基于上述句子中的词对的关联关系来判断多个句子间的连贯性,例如,如上关于语言模型中所描述的,将多个句子看作是一个加长句,并计算所述加长句中包括的词对的关联关系,从而判断所述多个句子之间的连贯性。
此外,在基于词对的关联关系来确定句子间连贯性的实现方式中,还可以在训练语料库中抽取一些基于词语的浅层特征,诸如词对数量、句子长度、超过某一阈值(例如,关联关系阈值)的词对占全部词对的百分比、未登录词对、句子关联性等特征。然后,根据决策树算法结合上述特征来判断句子间的连贯性。
与上述基于词语级别的语言模型来判断句子间连贯性的方法相比,这种基于词对的关联关系来判断句子间连贯性的方法,不仅考虑句子中距离较短的词对的关联关系,还考虑了句子中距离较远的词对的关联关系(即,句子中距离较远的两个词语组成的词对的关联关系)。
然而,上述基于词对的关联关系来判断句子间连贯性的公式(7)仅表征词对中两个词语之间出现的紧密性,换句话说,如果词对中的两个词语在训练语料库中经常同时出现或者同时不出现在一个句子中,则表示所述两个词语之间的紧密性较高,即共现频率较高;如果词对中的两个词语在训练语料库中经常单独出现在一个句子中,则表示所述两个词语之间的紧密性较低。换句话说,所述词对的关联关系并不直接的表征词语之间的转移概率,即依据上述公式(7),无法直接地计算得到在词语w2出现的条件下,词语w1出现的转移概率。
因此,在上述基于词对的关联关系的方法中,需要构造大量的人工特征(如上所述的词对数量、句子长度、超过某一阈值的词对占全部词对的百分比、未登录词对、句子关联性等),这些特征极大地依赖领域专家的经验来进行标注,由此使得迁移到其他领域时成本很高。除此之外,由于这种方法是一种监督式的学习式算法,需要大量的人工成本来在训练语料库中标注上述特征,这对于大规模的工业应用来说人工成本太高,难以实现。
综上所述,以上词语级别的语言模型仅考虑了句子中距离较近(例如,直接相邻)的词语间的依赖关系,而忽略了长距离词语间(不同句子中的词语)的依赖关系。然而,判断句子间的连贯性恰恰需要考虑不同句子间长距离词语间的依赖关系,因此,直接将如公式(5)所示的词语级别的语言模型用于判断句子间的连贯性效果不佳。
而以上基于句子中词对的关联关系来判断句子间连贯性的方法,虽然考虑了长距离词对的关联关系,即,使用长距离的词对的关联关系作为特征来判断句子之间的连贯性,却忽略了长距离词语间的转移概率,此外,还存在需要人工标注,跨领域迁移成本高的问题。
准确的判断句子间的连贯性对于诸如语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等与人工智能相关应用领域有重要的作用。
由此,本公开提供了一种用于生成文本摘要的方法,基于不同句子的句首词之间的转移概率来判断句子间的连贯性,既考虑了长距离词语之间的转移概率,又无需面临上述基于词对的关联关系的方法需要面临的问题,然后基于判断的句子间的连贯性来生成文本摘要,使得生成的文本摘要连贯、通顺。
图1示出了根据本公开实施例的用于生成文本摘要的方法的流程图。
如图1所示,首先,在步骤S101,从文章中提取包括至少两个句子的候选文本摘要。
例如,可以从包括M个句子的文章中提取包括N个句子的候选文本摘要A。其中,N为大于等于2的正整数,M为大于N的正整数。在此步骤S101中,可以从包括M个句子的一段话或者一篇文章中首先抽取N个句子,作为候选文本摘要A。
例如,所述候选文本摘要中的句子可以是从文章中随机提取的,也可以是依据现有的生成文本摘要的软件自动生成的,在此不作限制。
如图1所示,在获得候选文本摘要之后,接着,在步骤S102,对于所述候选文本摘要中的每个句子,基于所述句子的句首词以及所述句子之前的至少一个句子的句首词确定所述句子是否满足第一标准。
例如,以所述候选文本摘要中的N个句子中的第j个句子为例,可以基于第j至第j-m个句子的句首词确定所述第j个句子是否满足第一标准。其中,j为大于1小于等于N的正整数,m为大于等于1小于j的正整数。
所述句首词可以是一个句子中的第一个词语,例如,在“我是中国人。”的句子中,句首词为“我”,又例如,在“但是,我忘记了。”的句子中,句首词为“但是”,以此类推可以提取候选文本摘要中的多个句子的句首词。
根据本公开实施例,在满足所述第一标准的情况下,可以认为所述句子的连贯性较高,或者称为符合句子间连贯性的标准,不会引发阅读障碍。而在不满足所述第一标准的情况下,可以认为所述句子的连贯性较低,或者称为不符合句子间连贯性的标准,会引发阅读障碍。
具体的,在生成文本摘要的应用中,需要判断生成的摘要中的句子之间的连贯性,用于保证生成的文本摘要不会引发阅读障碍。即判断从文章中提取的多个句子之间是否通顺,如果,句子间的连贯性较低,则很可能使得生成的文本摘要会引发阅读障碍,使得诸如用户无法理解摘要中的语义。
在此处,可以将自然语言中的多个句子间的连贯性的问题理解为表达流畅性的问题,一个句子以及句子与句子之间的流畅性在一定程度上依赖于人类的阅读感受,同时也受不同的人的阅读理解能力的限制。例如,单独出现句子“再看渝东南地区,则是另一种景象。”时,很可能会引起阅读者的疑问,词语“再看”上文内容缺失会引发阅读上的突兀感,即所述句子可以对应于一个连贯性较低,会引发阅读障碍的句子。
通常来说,在自然语言处理领域,可以将一个不太可能引起阅读者障碍的句子看作是一个流畅的句子,可以基于如上所述的基于词语级别的语言模型或者依据句子中词对所包括的词语之间的关联关系来判断句子的连贯性。在本文中,词对所包括的词语之间的关联关系可以称为所述词对的关联关系。由此,给出所述句子是否连贯的判断依据,以进行人机之间的自然语言的交互。
在根据本公开的实施例中,可以对如上所述的阅读流畅性的问题做出以下限定:
限定1:独立句子(Independent Sentence):如果一个句子在不需要上下文的情况下,单独出现不会引发阅读的流畅性问题,则可以将所述句子称为独立句子;
限定2:非独立句子(Non-Independent Sentence):如果一个句子需要与其上下文的句子同时出现,才能表达一个完整意思,而单独出现会引发阅读的流畅性问题,则称该句子为非独立句子。
例如,“北京是中华人民共和国的首都。”这个句子在单独出现时没有阅读上的障碍,可以表示为一个独立句子。而句子“再看渝东南地区,则是另一种景象。”单独出现时,则会引发阅读上的障碍,可以表示为一个非独立句子。
在以上限定的基础上,可以做出以下假设:
假设1:独立句子与独立句子之间是连贯的,即符合句子间连贯性的标准。
假设2:独立句子与非独立句子之间、以及非独立句子与非独立句子之间是不连贯的,即不符合句子间连贯性的标准。
根据以上限定,可以通过判断候选文本摘要中的句子是否包括非独立句子来判断该包括多个句子的候选文本摘要的连贯性。换句话说,如果确定所述候选文本摘要中包括会引发阅读障碍的非独立句子,则可以将所述候选文本摘要确定为不符合句子间连贯性的标准。如果,确定所述候选文本摘要中不包括会引发阅读障碍的非独立句子,由于独立句子与独立句子之间不会产生连贯性问题,则可以将所述候选文本摘要确定为符合句子间连贯性的标准。
进一步地,基于以上关于是否包括非独立句子的判断结果,例如在判断得到候选文本摘要中的某个句子为非独立句子的情况下,可以基于生成候选文本摘要的文章来将所述非独立句子更新为一个独立句子。通过将所述候选文本摘要中的非独立句子均更新为独立句子,从而保证更新后的候选文本摘要不会引发阅读障碍,即满足句子间连贯性的标准,上述将非独立句子更新为独立句子的具体过程将在后文详细描述。
由此,上述判断句子间连贯性的过程转换为判断一个句子是独立句子还是非独立句子的过程。
对于一个给定的句子,判断所述句子是独立句子还是非独立句子,这是一个二分类问题,即P(C|S),其中,S表示所述给定的句子,C={0,1}表示类别,C=0表示独立句子,C=1表示非独立句子。根据贝叶斯定理,有以下公式(8):
其中,P(C=1)表示在训练语料库中非独立句子出现的概率,可以根据极大似然估计(Maximum Likelihood Estimation,MLE)计算得到。在生成文本摘要的应用中,可以假设所述训练语料库中每个段落中的第一个句子为独立句子,而段落中的其他句子为非独立句子,这样P(C=1)可以如下计算:
其中,NC=1表示训练语料库中的独立句子数,N表示训练语料库中的句子总数。对于特定的训练语料库,P(C=1)可以是固定的值。
根据本公开实施例,其中,在步骤S102中,所述基于所述句子的句首词以及所述句子之前的至少一个句子的句首词确定所述句子是否满足第一标准可以包括基于所述句子的句首词关于所述句子之前的至少一个句子的句首词之间的转移概率确定所述句子是否满足第一标准。其中,所述转移概率为在出现所述句子之前的至少一个句子的句首词的前提下,出现所述句子的句首词的概率。
例如,可以基于第j个句子的句首词关于第j-1至第j-m个句子的句首词之间的转移概率确定所述第j个句子是否满足第一标准,其中,所述转移概率为在出现第j-1至第j-m个句子的句首词的前提下,出现第j个句子的句首词的概率。计算句首词之间的转移概率的过程可以参考如上关于词语级别的语言模型中的描述。
具体的,句首词之间转移概率可以表示为如下公式:
其中,表示候选文本摘要A中第j个句子的句首词,即第j个句子中的第1个词语,表示在出现前两个句子的句首词的条件下,出现下一个句子的句首词的转移概率。
可以将式(10)中的语言模型称为句子级别的语言模型(Sentence LevelLanguage Model),以区别于以上公式(5)所表示的词语级别的语言模型。与词语级别的语言模型(例如:三词语言模型)相比,句子级别的语言模型考虑了以句首词语为代表的句子粒度间的依赖关系,能够基于不同句子之间的长距离词语之间的依赖关系来更准确的判断句子间的连贯性。
公式(8)中,P(S)表示训练语料库中句子S出现的概率,可以基于以上公式(5)获得。
这样,公式(8)中的P(C=1)与P(S|C=1)可以基于训练语料库,按照公式(9)与公式(10)计算得到,从而给定任意一个句子S可以计算其作为非独立句子的概率P(C=1|S)。
根据本公开实施例,对于一个给定的句子S,在未改变训练语料库的情况下,句子S作为非独立句子的概率取决于根据公式(10)计算得到的句首词之间的转移概率与P(S)之间的比值。在此基础上,可以通过判断句首词之间的转移概率与P(S)之间的比值是否大于第一阈值来确定所述句子S是否满足第一标准。
在根据本公开的其他实施例中,还可以基于根据公式(10)计算得到的句首词之间的转移概率来确定所述句子S是否满足第一标准。在此基础上,可以通过判断句首词之间的转移概率是否大于第一阈值来确定所述句子S是否满足第一标准。例如,在所述转移概率小于第一阈值的情况下,则所述句子S不满足所述第一标准,即可以将所述句子S确定为非独立句子。在所述转移概率大于第一阈值的情况下,则所述句子S满足所述第一标准,即可以将所述句子S确定为不是非独立句子,换句话说,可以将所述句子S确定为独立句子。根据本公开实施例,可以基于训练数据库的数据量、实际应用需求等来动态地设置所述第一阈值。
此外,根据本公开实施例,还可以类似地按照以下公式(11)来计算给定的句子S作为独立句子的概率:
其中,P(C=0)表示在训练语料库中独立句子出现的概率,可以参照公式(9)类似地计算得到,在此不再赘述。
接着,如图1所示,在步骤S103,在确定所述句子不满足第一标准的情况下,基于所述文章中所述句子的相邻句子更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准。根据本公开实施例,更新所述候选文本摘要中的所述句子,包括:将所述句子与所述句子的相邻句子一起作为所述候选文本摘要中更新后的所述句子。
以第j个句子为例,在确定所述第j个句子不满足第一标准的情况下,基于所述文章中所述第j个句子的相邻句子更新所述候选文本摘要中的第j个句子。其中,更新所述候选文本摘要中的第j个句子包括:将所述第j个句子与所述第j个句子的相邻句子一起作为所述候选文本摘要中更新后的第j个句子。
具体的,基于预定范围来在所述文章中确定所述句子的相邻句子。例如,可以基于预定范围来在所述文章中确定所述第j个句子的相邻句子。以下将结合具体的示例来说明上述更新候选文本摘要中的第j个句子的过程。
所述包括M个句子的文章B,可以如下所示:
“重庆第二机场落户哪里的希望最大?参考国内几个第二机场的选址和距离,首先可以基本排除的是合川、长寿等北部地区,由于已有江北机场的存在,且距离很近,因此不可能再建设一个国际机场。再看渝东南地区,则是另一种景象。虽然有梁平、垫江等地势平坦之地,但由于万州机场距离较近,并且即将升级为国际机场,所以机会也不大。所以这样看来,希望最大的还是在渝西片区。”
首先,基于步骤S101,可以从以上文章B中提取包括N个句子的候选文本摘要A,例如,提取的候选文本摘要可以是如下所示:
“重庆第二机场落户哪里的希望最大?再看渝东南地区,则是另一种景象。所以这样看来,希望最大的还是在渝西片区。”
其中,候选文本摘要A中包括M=3个句子,对于第2个句子,可以基于以上步骤S102中描述的公式来计算句首词之间的转移概率,即在第1个句子的句首词“重庆”出现的条件下,所述第2个句子的句首词出现的转移概率。在所述转移概率不满足第一标准的情况下,即表示所述第2个句子为非独立句子,单独出现,会引发阅读障碍。
由此,可以在所述文章中,基于所述第2个句子的上下文信息来更新所述第2个句子,从而使得所述更新后的第2个句子满足第一标准,即将原先非独立的第2个句子转换成更新后的、独立的第2个句子。
根据本公开实施例,首先可以基于预定范围来在所述文章中确定所述第j个句子的相邻句子。所述预定范围可以设置成在文章B中与所述第2个句子直接相邻的两个句子,即对应于文章B中的上文句子“参考国内几个第二机场的选址和距离,首先可以基本排除的是合川、长寿等北部地区,由于已有江北机场的存在,且距离很近,因此不可能再建设一个国际机场。”和下文句子“虽然有梁平、垫江等地势平坦之地,但由于万州机场距离较近,并且即将升级为国际机场,所以机会也不大。”。
在此基础上,可以将以上两个相邻句子一起作为所述候选文本摘要A中更新后的第2个句子,即,更新后的第2个句子可以是“参考国内几个第二机场的选址和距离,首先可以基本排除的是合川、长寿等北部地区,由于已有江北机场的存在,且距离很近,因此不可能再建设一个国际机场。再看渝东南地区,则是另一种景象。虽然有梁平、垫江等地势平坦之地,但由于万州机场距离较近,并且即将升级为国际机场,所以机会也不大。”
在根据本公开的其他实施例中,还可以将所述预定范围设置成在文章B中与所述第2个句子的直接相邻的一个上文句子,即对应于文章B中“参考国内几个第二机场的选址和距离,首先可以基本排除的是合川、长寿等北部地区,由于已有江北机场的存在,且距离很近,因此不可能再建设一个国际机场。”。
在此基础上,可以将以上一个相邻句子一起作为所述候选文本摘要A中更新后的第2个句子,即,更新后的第2个句子可以是“参考国内几个第二机场的选址和距离,首先可以基本排除的是合川、长寿等北部地区,由于已有江北机场的存在,且距离很近,因此不可能再建设一个国际机场。再看渝东南地区,则是另一种景象。”。
需要注意的是,在根据本公开的其他实施例中,还可以以其他的方式来设置所述预定范围,例如,所述预定范围可以是文章B中与所述第2个句子直接相邻的两个上文句子、或者是文章B中与所述第2个句子直接相邻的一个下文句子等,在此不作限制。
在步骤S103中,更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准还可以包括以下步骤。例如,在更新了所述候选文本摘要中的第j个句子之后,基于所述更新后的第j个句子至第j-m个句子的句首词确定所述更新后的第j个句子是否满足第一标准,以及在确定所述更新后的第j个句子不满足第一标准的情况下,基于所述文章中所述更新后的第j个句子的相邻句子,更新所述候选文本摘要中的第j个句子。
上述过程可以理解为,在更新了第j个句子之后,继续按照如上步骤S102的描述来确定更新后的第j个句子是否满足第一标准,即所述更新后的第j个句子是否为非独立句子,在所述更新的后的第j个句子仍为非独立句子的情况下,按照如上步骤S103中的描述,再次更新所述第j个句子,直到所述更新后的第j个句子为独立句子为止。
如图1所示,接着,在步骤S104,将更新后的候选文本摘要确定为生成的文本摘要。根据本公开实施例,可以在确定所述候选文本摘要中的句子均满足第一标准的情况下,将所述候选文本摘要确定为生成的文本摘要。可以理解的是,经过步骤S102和S103之后,此处的更新后的候选文本摘要中包括的句子均是独立句子。由于以上假设1,即独立句子之间是连贯的,由此可以认为所述更新后的候选文本摘要是连贯的,即将所述候选文本摘要符合句子间连贯性的标准,不会引发阅读者的阅读障碍。
根据本公开实施例的用于生成文本摘要的方法还可以包括对于所述候选文本摘要中的每个句子,确定所述句子的句首词是否满足第二标准,在确定所述句子的句首词不满足第二标准的情况下,直接将所述句子确定为不满足第一标准。
例如,对于所述N个句子中的第j个句子,确定所述第j个句子的句首词是否满足第二标准,在确定所述第j个句子的句首词不满足第二标准的情况下,直接将所述第j个句子确定为不满足第一标准。
上述基于如公式(10)所示的句子级别的语言模型来确定候选文本摘要中的第j个句子是否为独立句子的过程中,需要设置所述第一阈值,用于确定所述转移概率是否满足第一标准。需要注意的是,在实际应用中,所述第一阈值的选择会面临一些困难,例如,如果第一阈值设置的偏大,将会使得第一标准过于严格。即,所述第一阈值太大或者太小都会造成一定程度的判断的不准确性。
根据本公开实施例,还可以在基于如上所述的句子级别的语言模型来计算第j个句子的句首词之间的转移概率之前,首先判断所述第j个句子的句首词是否满足第二标准。
可以注意到,上述独立句子与非独立句子的句首词之间存在较大的差异性,例如,某些词语更倾向于或者更可能出现在独立句子的句首,例如词语“最近”。而另一些词语更倾向于或者更可能出现在非独立句子的句首,例如:词语“同时”、“但是”、“再者”等。
由此,可以通过统计上述高频句首词在独立句子和非独立句子中的概率来首先判断一个句子的句首词是否有较大的可能出现在非独立句子的句首。具体的,针对一个句首词w1,可以计算得到以下概率值的比值p=p1/p0
其中,p1=P(w1|C=1)表示句首词w1在训练语料库中是非独立句子的句首词的概率,p0=P(w1|C=0)表示句首词w1在训练语料库中是独立句子的句首词的概率,通过确定所述比值p是否满足第二标准来确定所述句首词w1是否具有较高的可能出现在非独立句子的句首。以下表2中示例性的示出了在训练语料库中具有较高比值的一些句首词:
表2通过p=p1/p0统计高频的非独立句子句首词
根据本公开实施例,可以通过设置第二阈值来确定所述第二标准。例如,以表2为例,可以将所述第二阈值设置为3.53,即,可以将表2中比值高于3.53的句首词认为是高频的非独立句子的句首词,换句话说,包含比值高于第二阈值的句首词的句子很可能是非独立句子。
在判断所述第j个句子的句首词的比值高于第二阈值的情况下,可以直接将所述第j个句子确定为不满足所述第一标准,即不符合句子间连贯性,在此种情况下,可以不再进行上述基于句子级别的语言模型的计算,而直接地基于所述第j个句子的相邻句子来更新所述第j个句子。
根据本公开实施例,在以上直接更新了所述第j个句子之后,可以如步骤S102所描述的确定所述更新后的第j个句子的句首词是否满足第一标准。
根据本公开的其他实施例,对于以上直接更新的所述第j个句子,可以继续判断所述更新后的第j个句子的句首词是否满足第二标准,即,确定是否更新后的句首词仍具有较高的可能出现的非独立句子的句首,如果其比值仍高于第二阈值,则再次将所述句子直接确定为不满足第一标准,并再次地更新所述第j个句子,直到所述第j个句子的句首词不再满足第二标准为止。此后,可以继续依据步骤S102来确定所述更新后的第j个句子的句首词是否满足第一标准,步骤S102的流程如上所述,在此不再赘述。
本公开所提供的用于生成文本摘要的方法,可以计算不同句子之间的长距离的句首词之间的转移概率来判断句子之间的连贯性,具体的,通过构建句子级别的语言模型来计算所述转移概率,并在所述转移概率不符合第一标准的情况下,即在确定一个句子为非独立句子的情况下,基于文章中的相邻句子来更新所述非独立句子,使得最终生成的文本摘要中的句子均为独立句子,即,不会引发阅读者的阅读障碍,保证了文本摘要的流畅性。
本公开还提供了一种用于生成文本摘要的装置。图2A示出了根据本公开实施例的装置1000的示意图。所述装置1000可以包括提取单元1010、确定单元1020、更新单元1030以及生成单元1040。
所述提取单元1010配置成配置成从文章中提取包括至少两个句子的候选文本摘要。所述确定单元1020配置成对于所述候选文本摘要中的每个句子,基于所述句子的句首词以及所述句子之前的至少一个句子的句首词确定所述句子是否满足第一标准。所述更新单元1030配置成在确定所述句子不满足第一标准的情况下,基于所述文章中所述句子的相邻句子更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准。以及,所述生成单元1040配置成将更新后的候选文本摘要确定为生成的文本摘要。
根据本公开的一些实施例,所述确定单元1020还配置成基于更新后的所述句子的句首词和所述句子之前的至少一个句子的句首词确定更新后的所述句子是否满足第一标准,以及在所述确定单元1020确定更新后的所述句子不满足第一标准的情况下,所述更新单元1030基于所述文章中更新后的所述句子的相邻句子,对更新后的所述句子进行更新。
根据本公开的一些实施例,所述确定单元1020基于所述句子的句首词关于所述句子之前的至少一个句子的句首词之间的转移概率确定所述句子是否满足第一标准,其中,所述转移概率为在出现所述句子之前的至少一个句子的句首词的前提下,出现所述句子的句首词的概率。
根据本公开的一些实施例,所述更新单元1030将所述句子与所述句子的相邻句子一起作为所述候选文本摘要中更新后的所述句子。
根据本公开的一些实施例,所述更新单元1030还配置成基于预定范围来在所述文章中确定所述句子的相邻句子。
根据本公开的一些实施例,所述确定单元1020还配置成:对于所述候选文本摘要中的每个句子,确定所述句子的句首词是否满足第二标准,以及在确定所述句子的句首词是否满足第二标准的情况下,所述确定单元1020直接将所述句子确定为不满足第一标准。
根据本公开的用于生成文本摘要的装置1000生成文本摘要的过程与以上结合图1描述的用于生成文本摘要的方法的过程相似,在此不再赘述。
图2B示出了实施本公开实施例的装置生成的文本摘要的示意图。
例如,根据本公开的用于生成文本摘要的装置可以应用于诸如移动设备或电脑等设备中,以自动地生成文本摘要。如图2B中所示出的,首先,在需要生成文本摘要的应用中,诸如用户可以通过所述输入设备在页面1100中输入关键词语,例如关键词语“重庆”和“高铁”。实施或应用所述装置的设备、或者可以执行所述用于生成文本摘要的方法的设备可以自动地生成如页面1200所示的文本摘要列表。所述文本摘要可以是基于搜索到的文章自动生成的。页面1300示意性地示出了根据本公开的方法生成的文本摘要的一个示例。由于根据本公开的用于生成文本摘要的方法考虑了不同句子之间的长距离词语之间的转移概率,并通过句子级别的语言模型来判断句子之间的连贯性,保证生成的文本摘要中不存在会引起阅读障碍的非独立句子,使得自动生成的文本摘要连贯、通顺,例如可以提升用户的体验。
此外,根据本公开的用于生成文本摘要的方法和装置可以应用于诸如诸如语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等与人工智能相关应用领域。
根据本公开的又一方面,还提供了一种用于生成文本摘要的设备。图3示出了根据本公开实施例的设备2000的示意图。
如图3所示,所述设备2000可以包括一个或多个处理器2010,和一个或多个存储器2020。其中,所述存储器2020中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器2010运行时,可以执行如上所述的用于生成文本摘要的方法。
根据本公开实施例的方法或装置也可以借助于图4所示的计算设备3000的架构来实现。如图4所示,计算设备3000可以包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如ROM 3030或硬盘3070可以存储本公开提供的用于生成文本摘要的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800还可以包括用户界面3080。当然,图4所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图4示出的计算设备中的一个或多个组件。
根据本公开的又一方面,还提供了一种计算机可读存储介质。图5示出了根据本公开的存储介质的示意图4000。
如图5所示,所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的用于生成文本摘要的方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,虽然本公开对根据本公开的实施例的系统中的某些单元做出了各种引用,然而,任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的,并且所述系统和方法的不同方面可以使用不同单元。
本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims (14)

1.一种用于生成文本摘要的方法,包括:
从文章中提取包括至少两个句子的候选文本摘要;
对于所述候选文本摘要中的每个句子,基于所述句子的句首词以及所述句子之前的至少一个句子的句首词确定所述句子是否满足第一标准;
在确定所述句子不满足第一标准的情况下,基于所述文章中所述句子的相邻句子更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准;和
将更新后的候选文本摘要确定为生成的文本摘要。
2.根据权利要求1所述的方法,其中,基于所述文章中所述句子的相邻句子更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准包括:
基于更新后的所述句子的句首词和所述句子之前的至少一个句子的句首词确定更新后的所述句子是否满足第一标准,
在确定更新后的所述句子不满足第一标准的情况下,基于所述文章中更新后的所述句子的相邻句子,对更新后的所述句子进行更新。
3.根据权利要求1或2所述的方法,其中,所述确定所述句子是否满足第一标准包括:
基于所述句子的句首词关于所述句子之前的至少一个句子的句首词之间的转移概率确定所述句子是否满足第一标准,其中,
所述转移概率为在出现所述句子之前的至少一个句子的句首词的前提下,出现所述句子的句首词的概率。
4.根据权利要求1或2所述的方法,其中,更新所述候选文本摘要中的所述句子,包括:
将所述句子与所述句子的相邻句子一起作为所述候选文本摘要中更新后的所述句子。
5.根据权利要求1所述的方法,还包括:基于预定范围来在所述文章中确定所述句子的相邻句子。
6.根据权利要求1或2所述的方法,还包括:
对于所述候选文本摘要中的每个句子,确定所述句子的句首词是否满足第二标准,
在确定所述句子的句首词不满足第二标准的情况下,直接将所述句子确定为不满足第一标准。
7.一种用于生成文本摘要的装置,包括:
提取单元,配置成从文章中提取包括至少两个句子的候选文本摘要;
确定单元,配置成对于所述候选文本摘要中的每个句子,基于所述句子的句首词以及所述句子之前的至少一个句子的句首词确定所述句子是否满足第一标准;
更新单元,配置成在确定所述句子不满足第一标准的情况下,基于所述文章中所述句子的相邻句子更新所述候选文本摘要中的所述句子,以使得更新后的所述句子满足第一标准;和
生成单元,配置成将更新后的候选文本摘要确定为生成的文本摘要。
8.根据权利要求7所述的装置,其中,所述确定单元配置成:基于更新后的所述句子的句首词和所述句子之前的至少一个句子的句首词确定更新后的所述句子是否满足第一标准,以及
在所述确定单元确定更新后的所述句子不满足第一标准的情况下,所述更新单元基于所述文章中更新后的所述句子的相邻句子,对更新后的所述句子进行更新。
9.根据权利要求7或8所述的装置,其中,所述确定单元基于所述句子的句首词关于所述句子之前的至少一个句子的句首词之间的转移概率确定所述句子是否满足第一标准,其中,
所述转移概率为在出现所述句子之前的至少一个句子的句首词的前提下,出现所述句子的句首词的概率。
10.根据权利要求7或8所述的装置,其中,所述更新单元将所述句子与所述句子的相邻句子一起作为所述候选文本摘要中更新后的所述句子。
11.根据权利要求7所述的装置,所述更新单元还配置成基于预定范围来在所述文章中确定所述句子的相邻句子。
12.根据权利要求7或8所述的装置,所述确定单元还配置成:对于所述候选文本摘要中的每个句子,确定所述句子的句首词是否满足第二标准,以及
在确定所述句子的句首词是否满足第二标准的情况下,所述确定单元直接将所述句子确定为不满足第一标准。
13.一种用于生成文本摘要的设备,包括:
一个或多个处理器;和
一个或多个存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时,执行权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-6中任一项所述的方法。
CN201910252981.1A 2019-03-29 2019-03-29 用于生成文本摘要的方法、装置、设备以及可读存储介质 Active CN110162595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910252981.1A CN110162595B (zh) 2019-03-29 2019-03-29 用于生成文本摘要的方法、装置、设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910252981.1A CN110162595B (zh) 2019-03-29 2019-03-29 用于生成文本摘要的方法、装置、设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN110162595A true CN110162595A (zh) 2019-08-23
CN110162595B CN110162595B (zh) 2023-08-29

Family

ID=67638402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910252981.1A Active CN110162595B (zh) 2019-03-29 2019-03-29 用于生成文本摘要的方法、装置、设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN110162595B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339788A (zh) * 2020-02-18 2020-06-26 北京字节跳动网络技术有限公司 交互式机器翻译方法、装置、设备和介质
CN111428448A (zh) * 2020-03-02 2020-07-17 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0091317A2 (en) * 1982-04-07 1983-10-12 Kabushiki Kaisha Toshiba Syntax analyzing method and apparatus
WO2000074394A2 (en) * 1999-06-01 2000-12-07 Maimonides Innovative Technologies Ltd. Interactive application generation system and text processing system
CN103294663A (zh) * 2013-05-03 2013-09-11 苏州大学 一种文本连贯性检测方法和装置
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
CN107315737A (zh) * 2017-07-04 2017-11-03 北京奇艺世纪科技有限公司 一种语义逻辑处理方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0091317A2 (en) * 1982-04-07 1983-10-12 Kabushiki Kaisha Toshiba Syntax analyzing method and apparatus
WO2000074394A2 (en) * 1999-06-01 2000-12-07 Maimonides Innovative Technologies Ltd. Interactive application generation system and text processing system
CN103294663A (zh) * 2013-05-03 2013-09-11 苏州大学 一种文本连贯性检测方法和装置
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
CN107315737A (zh) * 2017-07-04 2017-11-03 北京奇艺世纪科技有限公司 一种语义逻辑处理方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339788A (zh) * 2020-02-18 2020-06-26 北京字节跳动网络技术有限公司 交互式机器翻译方法、装置、设备和介质
CN111339788B (zh) * 2020-02-18 2023-09-15 北京字节跳动网络技术有限公司 交互式机器翻译方法、装置、设备和介质
CN111428448A (zh) * 2020-03-02 2020-07-17 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
CN111428448B (zh) * 2020-03-02 2024-05-07 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN110162595B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN110457675B (zh) 预测模型训练方法、装置、存储介质及计算机设备
CN105528349B (zh) 知识库中问句解析的方法及设备
CN110019732B (zh) 一种智能问答方法以及相关装置
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN109388743B (zh) 语言模型的确定方法和装置
CN103971677A (zh) 一种声学语言模型训练方法和装置
EP3599559A1 (en) Word clustering and categorization
CN109271640B (zh) 文本信息的地域属性识别方法及装置、电子设备
CN111949802A (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
CN110162595A (zh) 用于生成文本摘要的方法、装置、设备以及可读存储介质
WO2018057427A1 (en) Syntactic re-ranking of potential transcriptions during automatic speech recognition
CN108304373A (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN105243083B (zh) 文档主题挖掘方法及装置
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
CN109902290A (zh) 一种基于文本信息的术语提取方法、系统和设备
CN106815215B (zh) 生成标注库的方法和装置
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN115309915A (zh) 知识图谱构建方法、装置、设备和存储介质
AU2018226420B2 (en) Voice assisted intelligent searching in mobile documents
CN109657052A (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置
CN107122378B (zh) 对象处理方法、装置及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant