CN110852110B - 目标语句提取方法、问题生成方法以及信息处理设备 - Google Patents
目标语句提取方法、问题生成方法以及信息处理设备 Download PDFInfo
- Publication number
- CN110852110B CN110852110B CN201810827532.0A CN201810827532A CN110852110B CN 110852110 B CN110852110 B CN 110852110B CN 201810827532 A CN201810827532 A CN 201810827532A CN 110852110 B CN110852110 B CN 110852110B
- Authority
- CN
- China
- Prior art keywords
- document
- semantic sequence
- sequence
- word
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
提供了目标语句提取方法、问题生成方法以及信息处理设备。目标语句提取方法包括:通过将待处理文档中的每个词用词向量表示,构建第一语义序列;利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,第二语义序列的每个元素与第一语义序列中的每个词向量对应并且体现了与该词向量有关的上下文信息;基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
Description
技术领域
本公开总体上涉及信息服务领域,具体而言,涉及一种从待处理文档中提取目标语句的目标语句提取方法、基于待处理文档生成问题的问题生成方法、以及能够实现目标语句提取和/或问题生成的功能的信息处理设备。
背景技术
在信息服务领域,如何高效、准确地从待处理文档中提取感兴趣的信息一直是得到广泛关注的问题。
现有的提取感兴趣信息的方式之一是信息检索,其根据用户查询,返回从相关文档中获取的检索结果。由于一般用户的查询关键词不一定准确或完备,可能需要人工查看每一个文档的具体内容,找出相关的有用信息。这样做不但费时费力,而且很容易由于不正确的查询导致返回文档的不正确,或者由于不仔细地阅读导致忽略了一个相关的信息条目。
因此,需要提供一种改进的从待处理文档中提取感兴趣信息的方法。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于对现有的信息服务进行改进的需求,本发明的目的之一是提供一种从待处理文档中提取目标语句的方法,其能够从待处理文档中自动提取作为关注信息(诸如潜在问题的回答)的目标语句。
根据本公开的第一方面,提供了一种目标语句提取方法,用于从待处理文档中提取目标语句。该方法包括:通过将待处理文档中的每个词用词向量表示,构建待处理文档的第一语义序列;利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;以及利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
根据本公开的第二方面,提供了一种问题生成方法,用于基于待处理文档生成问题。该方法包括:利用本公开的第一方面的一种问题生成方法从待处理文档中提取出目标语句作为回答,并将其转换为由词向量表示的回答语义序列;利用编码模型对回答语义序列进行处理,以获得编码语义序列,编码语义序列的每个元素与回答语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;基于所提取的目标语句中的各个词在预先获得的问题和回答对数据库中的匹配结果,分别对编码语义序列中的各个元素进行加权处理;以及利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列,作为与所提取的目标语句对应的问题,其中,解码语义序列中的当前元素是解码模型基于加权处理后的编码语义序列以及解码语义序列中的前一元素进行处理而获得的,其中,编码模型和解码模型是利用标记好的训练回答和训练问题而预先训练获得的、基于深度学习的模型。
依据本公开的再一方面,还提供了一种信息处理设备,其包括处理器,该处理器被配置为执行本公开第一方面的目标语句提取方法。
替选地,本公开还可以提供一种信息处理设备,其包括处理器,该处理可以被配置为执行本公开第二方面的问题生成方法。
依据本公开的其它方面,还提供了一种程序,其使得计算机实现如上所述的目标语句提取方法或问题生成方法。
依据本公开的又一方面,还提供了相应的存储介质,其存储有机器可读取的指令代码,所述指令代码在由机器读取并执行时,能够使得机器执行如上所述的目标语句提取方法或问题生成方法。
上述根据本公开实施例的各个方面,至少能够获得以下益处:利用本公开所提供的目标语句提取方法,能够从待处理文档中自动提取作为关注信息(诸如潜在问题的回答)的目标语句;而利用本公开所提供的问题生成方法,能够在从待处理文档中自动提取作为潜在问题的回答的目标语句的之后,生成相应的问题,从而自动基于目标语句生成问题-回答对。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的目标语句提取方法的一个示例流程的流程图;
图2示出了图1的实施例中采用的作为深度学习模型的RNN网络的示意性原理图;
图3示出了图1的实施例中采用的模型架构的一个示例;
图4是示意性地示出根据本公开实施例的目标语句提取方法的另一个示例流程的流程图;
图5示出了图4的实施例中采用的模型架构的一个示例;
图6是示意性地示出根据本公开实施例的目标语句提取设备的一个示例结构的示意性框图;
图7是示意性地示出根据本公开实施例的目标语句提取设备的另一个示例结构的示意性框图;
图8是示意性地示出根据本公开实施例的问题生成方法的一个示例流程的流程图。
图9是用于说明图8的实施例中采用的解码模型的原理的示意性说明图;
图10示出了图8的实施例中采用的模型架构的一个示例;
图11是用于说明图8的实施例中采用的另一个解码模型的原理的示意性说明图;
图12示出了图8所示的示例中采用的模型架构的另一个示例;
图13是示意性地示出根据本公开实施例的问题生成设备的一个示例结构的示意性框图;
图14是示出了可用来实现根据本公开实施例的信息处理方法和设备的一种可能的硬件配置的结构简图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
根据本公开的一个方面,提供了一种目标语句提取方法。图1是示意性地示出根据本公开实施例的目标语句提取方法100的示例流程的流程图。
如图1所示,目标语句提取方法100可以包括:第一语义序列构建步骤S101,通过将待处理文档中的每个词用词向量表示,构建待处理文档的第一语义序列;第二语义序列获得步骤S103,利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;匹配加权步骤S105,基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;以及标注步骤S107,利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
作为示例,本公开实施例的目标语句提取方法所适用的待处理文档可以包括书籍(或书籍中的文章)或技术文档。例如,待处理文档可以包括诸如散文集、小说集的书籍或其中的文章,或者包括特定技术领域的技术文档等。从待处理文档中提取的目标语句例如可以是散文集中的一篇散文的中心思想、技术文档中的摘要语句等。在以下说明中,将以包含词语词wi的待处理文档W为例进行进一步的说明,其中,i=1,2,…,K,K为自然数并且表示待处理文档中的词的数量。
在第一语义序列构建步骤S101中,可以采用任意适当方式来将待处理文档W中的各个词wi转换为词向量,以构建待处理文档的第一语义序列X={xi},i=1,2,…,K。作为示例,可以采用word embedding(“词嵌入”)方法,将待处理文档中的每个词wi用一个n维浮点向量xi表示,其中n例如可以为50、100、200等。在本实施例中,可以假设第一语义序列X中的每个元素xi为100维浮点向量。
然后,在第二语义序列获得步骤S103中,利用诸如递归神经网络(RNN)的深度学习模型对于所获得的第一语义序列X={xi}进行处理,获得第二语义序列H1={h1i},i=1,2,…,K,其中每个元素h1i分别与第一语义序列X中的每个词向量xi对应,并且体现了与该词向量xi有关的上下文信息。
图2示出了本实施例采用的作为深度学习模型的RNN网络的示意性原理图。图2示意性地示出了K=3层的RNN网络,其中,第i层(i=1,2,3)的输入是第一语义序列X中的一个词向量xi,oi是每一层的输出,h1i是第i层的隐藏状态,其负责整个神经网络的记忆功能。第i层的隐藏状态h1i由上一层的隐藏状态h1,i-1和本层的输入xi共同决定,即,h1i=f(h1,i-1,xi),f是非线性的激活函数,比如tanh或ReLU。初始的隐藏状态h10可以任意地设定,只有其维度与h11等一致即可。由于每一层的h1i都会向后一直传递,所以理论上h1i能够捕获到前面每一层发生的事情。利用这样的隐藏状态h1i构成第二语义序列H1={h1i},i=1,2,…,K,可以使得每个元素h1i分别与第一语义序列X中的每个词向量xi对应,并且体现了与该词向量xi有关的上下文信息。
经过诸如RNN网络的深度学习模型处理后得到的第二语义序列H1中的每个元素h1i的维度由深度学习模型的规模决定,例如可以从100维变为200或400维。在本实施例中,假设第二语义序列H1中的每个元素h1i为200维向量。
作为示例,此处使用的深度学习模型例如还可以包括长短期记忆(LSTM)神经网络、双向长短期记忆(BLSTM)神经网络、GRU(门控递归单元)等。BLSTM神经网络的模型可以认为是相当于在图2的模型基础上增加了反向传递的h’1i=f’(h’1,i+1,xi),并以h1i和h’1i共同作为第i层的隐藏状态。因此,BLSTM模型可以更好的获得上下文信息:理论上,经由双向网络变换得到的第二语义序列中的每个元素都包含了整个句子甚至整个文档的信息。
在利用诸如图2的RNN网络的深度学习模型获得了第二语义序列H1={h1i}之后,在匹配加权步骤S105中,基于待处理文档W中的各个词wi在预先获得的文档和语句对数据库、即(D,A)库中的匹配结果,分别对第二语义序列H1中的各个元素h1i进行加权处理,得到加权处理后的第二语义序列H2={h2i},i=1,2,…,K。
在一个优选实施例中,针对待处理文档W中的各个词wi,可以基于该词wi在文档和语句对数据库中的匹配结果构建标注向量ui,并将标注向量ui与第二语义序列H1中的对应元素h1i进行合并,从而得到加权处理后的第二语义序列H2中的相应元素h2i=h1i+ui。
作为示例,构建标注向量时,例如可以采用传统的信息检索方法,针对待处理文档中的当前词wi对已有的文档和语句对数据库(D,A)库进行检索,并基于该词wi与(D,A)库中p个最相似的(文档,语句)对、即(D,A)对的匹配程度确定标注向量中的每个元素的取值,从而得到p维标注向量ui,其中p为预先确定的标注向量的维度。
更具体地,在本示例中,针对待处理文档中的当前词wi对(D,A)库进行检索,以获得相关的文档和语句并返回针对该词wi的(D,A)对列表。在该列表中,每个条目(即,(D,A)对)按照与该词的相似度进行排序。假定针对当前词wi,例如仅考虑从(D,A)库返回的列表中的前50个(D,A)对(即预先确定标注向量的维度p=50),以构建50维的标注向量ui,每一维的取值为-1,0,1,2中的一个,其中,-1表示表示该词未在检索回来的(D,A)对中出现,0表示该词只在(D,A)对的文档中出现,1表示该词只在(D,A)对的语句中出现,2表示既在(D,A)对的文档中出现、又在(D,A)对的语句中出现。之后,将标注向量ui拼接在第二语义序列H1中的对应元素h1i(例如为200维向量)之后以进行合并,从而得到加权处理后的第二语义序列H2中的相应元素h2i=h1i+ui(例如为250维向量)。
注意,尽管此处说明了维度为50维、取值范围为{-1,0,1,2}的标注向量,但本领域技术人员可以理解,这些参数设置仅作为示例。在本公开内容的基础上,本领域技术人员可以根据文档和语句对数据库的规模、期望的处理精度、以及系统的数据处理能力等各种因素来适当地设置标注向量的维度和取值范围,在此不再展开描述。
作为示例,待处理文档可以包括书籍(例如散文集、小说集,或这些书籍中的文章),或者可以包括技术文档等。相应地,诸如上述(D,A)库的文档和语句对数据库中的文档可以包括与待处理文档涉及类似内容的书籍或技术文档,并且该数据库中的对应语句包括基于这些书籍或技术文档的针对读者关注问题的回答。
举例而言,上述涉及类似内容的书籍可以包括与作为待处理文档的书籍属于同一类别(诸如散文、小说、诗歌、戏剧)或属于同一作者的其他书籍,并且文档和语句对数据库中的对应语句可以包括这些书籍中蕴含的针对读者关注问题的回答(即关注信息),例如,能够体现文章中的中心思想或作者情感的语句等。此外,涉及类似内容的技术文档可以包括与作为待处理文档的技术文档属于同一技术领域的技术文档,并且文档和语句对数据库中的对应语句可以包括这些技术文档中蕴含的针对读者关注问题的回答(即关注信息),例如,技术文档的摘要语句等。这样,利用已有的类似文档及基于这些文档的、针对读者关注问题的回答,本实施例的语句提取方法可以从待处理文档中提取相应的关注信息,作为目标语句,其可被视为对于潜在的读者关注问题的回答。
在一个优选实施例中,待处理文档可以为产品使用手册。相应地,诸如上述(D,A)库的文档和语句对数据库中的文档可以包括与待处理文档涉及相同类型产品的产品使用手册,并且该数据库中的对应语句可以包括基于该产品使用手册的针对用户常用问题的回答(例如,“安装本产品需要进行如下操作……”等)。作为示例,待处理文档可以为诸如手机、平板电脑等消费电子类产品的产品使用手册。文档和语句对数据库中的文档可以包括与待处理文档涉及相同类型的已有产品(例如更早版本的类似产品)的产品使用手册。
这样,利用已有的同类型产品的产品使用手册及针对用户常用问题的回答,本优选实施例的语句提取方法可以从新的产品使用手册中提取可能作为用户常见问题回答的重要信息,作为目标语句。
在基于文档和语句对数据库进行匹配加权步骤S105之后,进行标注步骤S107。在该步骤中,利用序列标注模型对加权处理后的第二语义序列H2={h2i}进行标注,并基于标注结果获取待处理文档中的目标语句。
作为示例,序列标注模型可以是基于条件随机场(CRF)的分类器,该CRF分类器设定四个标签类别B、I、E、O,其中B表示目标语句的开始部分,I表示目标语句的中间部分,E表示目标语句的结尾部分,O表示待处理文档中除了B、I、E以外的其他部分(即,除了目标语句以外的部分)。针对第二语义序列H2中的每个元素h2i,利用该CRF分类器计算该元素对应于四个标签类别B、I、E、O的概率分布,并以概率分布最大的标签类别作为该元素的标签,从而可以获得第二语义序列H2中的每个元素h2i的标签。
本领域技术人员可以理解,上述CRF分类器只是本发明中采用的序列标注模型一个具体示例,可以采用任意适当的其他序列标注模型来进行标注步骤S107中的序列标注。
利用上述方式标注之后,可以从第二语义序列H2中得到若干具有B开头的元素构成的连续片段,将与这些元素对应的词从待处理文档中提取出来,即得到所提取的目标语句S={sl},l=1,2,…,L,其中L为自然数,表示目标语句中所包括的词的数量。
注意,以上第二语义序列获得步骤S103和标注步骤S107步骤中使用的深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。可以采用各种现有方式获得上述深度学习模型和序列标注模型。
图3示出了本实施例的目标语句提取方法中采用的模型架构的一个示例。如图3所示,该模型架构包括步骤S101中使用的Word embedding(词嵌入)处理,步骤S103中使用的RNN网络,步骤S105中使用的匹配检索处理,以及步骤S105中使用的CRF分类器。在应用本实施例的目标语句提取方法之前,可以采用端到端的训练方式,利用标记好的训练文档和训练语句而预先训练对该模型架构中的RNN网络(深度学习模型的示例)和CRF分类器(序列标注模型的示例)进行训练,以获得优化的模型参数。可以采用各种现有方式进行上述训练,在此不再展开描述。
以上参照图1至图3描述了根据本公开实施例的目标语句提取方法的一个示例流程。利用该目标语句提取方法,能够从待处理文档中自动提取作为关注信息(诸如潜在问题的回答)的目标语句。
接下来,参照图4和图5描述根据本公开实施例的目标语句提取方法的另一个示例流程。图4是示意性地示出根据本公开实施例的目标语句提取方法的另一个示例流程的流程图。如图4所示,本实施例的目标语句提取方法400与图1的目标语句提取方法100的区别在于,还包括注意力加权步骤S406,在该步骤中,针对基于匹配结果分别对第二语义序列中的各个元素进行加权而得到的序列中的每个元素,应用注意力模型基于该序列中各个元素对该元素的影响而对该序列中各个元素进行加权求和,作为应用注意力模型加权处理后的第二语义序列中的对应元素;相应地,在标注步骤S407中,序列标注模型对应用注意力模型加权处理后的第二语义序列进行标注。除了上述区别之外,本实施例的目标语句提取方法400中的其余步骤与图1的目标语句提取方法100的相应步骤完全相同。
因此,可以继续考虑参照图1描述待处理文档W的示例,该文档W包括K个词Wi,i=1,2,…,K,K为自然数。在本实施例中的目标语句提取方法400中,对于待处理文档W,在与步骤S101-S105对应的步骤S401-S405之后,得到匹配加权处理后的第二语义序列H2={h2i},i=1,2,…,K。
此后,在注意力加权步骤S406中,针对匹配加权处理后的第二语义序列H2的每个元素h2i,应用注意力模型基于该序列H2中各个元素h2j对该元素h2i的影响aj,i而对该序列中各个元素h2j进行加权求和作为应用注意力模型加权处理后的第二语义序列H3中的对应元素/>其中,i,j=1,2,…,K。
通过这样的注意力加权步骤S406,可以通过注意力模型强调待处理文档的上下文对该序列中的当前元素的影响,从而可以在后续的标注处理中获得更准确的标注结果。
作为示例,此处应用的模型可以为自注意力模型(self-attention model),其中,表示匹配加权处理后的第二语义序列H2中的元素h2j对元素h2i的影响的因子aj,i可以通过计算元素的相似度获得,即
其中,SimHj,i表示第二语义序列中两个元素h2j和h2i之间的相似度,/>则表示使用Softmax归一化之后的相似度,其中i,j,k=1,2,…,K。
可以以各种方式计算上述相似度SimHj,i。作为示例,可以计算两个向量元素h2j和h2i之间的点积或余弦相似度等作为SimHj,i。替选地,可以构建一个另外的神经网络计算该相似度,在此不再展开说明。
图5示出了本实施例的目标语句提取方法中采用的模型架构的一个示例。如图5所示,该模型架构包括与图3中类似的Word embedding(词嵌入)处理、RNN网络、匹配检索处理以及CRF模型,区别之处在于在匹配检索的处理之后,另外应用了注意力模型,并且基于应用了注意力模型加权的结果提供给CRF模型。
以上参照图4和图5描述了根据本公开实施例的目标语句提取方法的另一示例。利用该示例的目标语句提取方法,可以通过注意力模型强调待处理文档的上下文对语义序列中的当前元素的影响,从而可以在后续的标注处理中获得更准确的标注结果。
此外,根据根本公开,提供了一种目标语句提取设备。图6是示意性地示出根据本公开实施例的目标语句提取设备的一个示例结构的示意性框图。
如图6所示,目标语句提取设备600可以包括:第一语义序列构建单元601,通过将待处理文档中的每个词用词向量表示,构建待处理文档的第一语义序列;第二语义序列获得单元602,利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;匹配加权单元603,基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;以及标注单元604,利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
上述目标语句提取设备及其各个单元例如可以进行以上参照图1至图3描述的本公开实施例的示例目标语句提取方法及其各个步骤的操作和/或处理并实现类似的效果,在此不再进行重复说明。
图7是示意性地示出根据本公开实施例的目标语句提取设备的另一个示例结构的示意性框图。
如图7所示,目标语句提取设备700与图6的目标语句提取设备600的区别在于,除了分别与图6单元601至604对应的第一语义序列构建单元701、第二语义序列获得单元702、匹配加权单元703、标注单元705之外,目标语句提取设备700还另外地包括注意力加权单元704。注意力加权单元704针对基于匹配结果分别对第二语义序列中的各个元素进行加权而得到的序列中的每个元素,应用注意力模型基于该序列中各个元素对该元素的影响而对该序列中各个元素进行加权求和,作为应用注意力模型加权处理后的第二语义序列中的对应元素。相应地,在标注单元705中,序列标注模型对应用注意力模型加权处理后的第二语义序列进行标注。除了上述区别之外,本实施例的目标语句提取设备700与图6的目标语句提取设备600的完全相同,因此不再展开描述。
上述目标语句提取设备及其各个单元例如可以进行以上参照图4和图5描述的本公开实施例的示例目标语句提取方法及其各个步骤的操作和/或处理并实现类似的效果,在此不再进行重复说明。
通过上述的目标语句提取方法或目标语句提取设备得到的目标语句是待处理文档中的关注语句,例如可以是针对潜在问题的回答。因此,可以利用获得的目标语句继续基于待处理文档中得到相应的问题,从而得到完整的问题-回答对。
因此,根据本公开的第二方面,提供了一种问题生成方法。图8是示意性地示出根据本公开实施例的问题生成方法的一个示例流程的流程图。
如图8所示,本实施例的问题生成方法800包括:回答语义序列获取步骤S801,利用根据本公开实施例的目标语句提取方法从待处理文档中提取出目标语句作为回答,并将其转换为由词向量表示的回答语义序列;编码步骤S803,利用编码模型对回答语义序列进行处理,以获得编码语义序列,编码语义序列的每个元素与回答语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;匹配加权步骤S805,基于所提取的目标语句中的各个词在预先获得的问题和回答对数据库中的匹配结果,分别对编码语义序列中的各个元素进行加权处理;以及解码步骤S807,利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列,作为与所提取的目标语句对应的问题,其中,解码语义序列中的当前元素是解码模型基于加权处理后的编码语义序列以及解码语义序列中的前一元素进行处理而获得的,其中,编码模型和解码模型是利用标记好的训练回答和训练问题而预先训练获得的、基于深度学习的模型。
为便于说明,以下仍以以上参照图1至图5描述本公开的目标语句提取方法时所参考的待处理文档W、所提取的目标语句S、以及相关的各个序列为例,描述本实施例中的问题生成方法。
在回答语义序列获取步骤S801中,利用例如以上参照图1至图5描述的目标语句提取方法100或400从待处理文档W中提取出目标语句S={sl}作为回答,并将其转换为由词向量表示的回答语义序列S’={s’l},其中,l=1,2,…,L,L为自然数,表示提取出的作为回答的目标语句的词的数量。作为示例,可以采用与图1中的目标语句提取方法中的步骤S101中类似的word embedding(词嵌入)方法,将所提取的目标语句S中的每个词sl用一个n维浮点向量s’l表示,其中n例如可以为100。
然后,在编码步骤S803中,可以利用编码模型对于所获得的回答语义序列S’={s’l}进行处理,以获得编码语义序列E1={e1l},l=1,2,…,L,编码语义序列的每个元素e1l与回答语义序列中的每个词向量s’l对应,并且体现了与该词向量有关的上下文信息。编码模型可以是深度学习模型,例如可以是与以上描述的目标语句提取方法中使用的深度学习模型类似的模型,诸如RNN网络,如LSTM模型、BLSTM模型、GRU模型等。作为示例,采用与图2中所示RNN网络类似的编码模型,并以该网络的各个隐藏层作为编码语义序列E1中的各个元素e1l。另外,可选地,也可以采用BLSTM神经网络作为编码模型,以更好地获得上下文信息。
经过诸如RNN网络的编码模型处理后得到的编码语义序列E1中的每个元素e1l的维度可根据作为编码模型的RNN网络的规模而发生改变,例如从100维变为200维。
接着,在匹配加权步骤S805中,基于所提取的目标语句S中的各个词sl在预先获得的问题和回答对数据库、即(Q,A)库中的匹配结果,分别对编码语义序列E1中的各个元素e1l进行加权处理,得到加权处理后的编码序列E2={e21},l=1,2,…,L。
在一个优选实施例中,针对所提取的目标语句S中的各个词sl,可以基于该词sl在问题和回答对数据库、即(Q,A)库中的匹配结果构建标注向量vl,并将该标注向量vl与编码语义序列E1中的对应元素e1l进行合并,从而得到加权处理后的编码语义序列E2中的相应元素e2l=e1l+vl。
作为示例,构建标注向量时,例如可以采用与图1的匹配加权步骤S105中类似的方式。即,通过传统的信息检索方法,针对所提取的目标语句S中的每个词sl对已有的问题和回答对数据库(Q,A)库进行检索,并基于该词sl与(Q,A)库中c个最相似的(问题,回答)对((Q,A)对)的匹配程度确定标注向量中的每个元素的取值,从而得到c维标注向量vl,其中c为预先确定的标注向量的维度。
更具体地,在本示例中,针对目标语句S中的当前词sl对(Q,A)库进行检索,以获得相关的问题和回答对并返回针对该词sl的(Q,A)对列表,其中每个条目(即,(Q,A)对)按照与该词的相似度进行排序。假定针对当前词sl仅考虑从(Q,A)库返回的列表中的前50个(Q,A)对(即预先确定标注向量的维度c=50),以构建50维的标注向量vl,每一维的取值为-1,0,1,2中的一个,其中,-1表示表示该词未在检索回来的(Q,A)对中出现,0表示该词只在(Q,A)对的问题中出现,1表示该词只在(Q,A)对的回答中出现,2表示既在(Q,A)对的问题中出现、又在(Q,A)对的回答中出现。之后,将标注向量vl拼接在编码语义序列E1中的对应元素e1l(例如为200维向量)之后以进行合并,从而得到加权处理后的编码语义序列E2中的相应元素e2l=e1l+vl(例如为250维向量)。
注意,尽管此处说明了维度为50维、取值范围为{-1,0,1,2}的标注向量,但本领域技术人员可以理解,这些参数设置仅作为示例。在本公开内容的基础上,本领域技术人员可以根据问题和回答对数据库的规模、期望的处理精度、以及系统的数据处理能力等各种因素来适当地设置标注向量的维度和取值范围,在此不再展开描述。
作为示例,待处理文档可以包括书籍(或书籍中的文章)或技术文档。例如,待处理文档可以包括诸如散文集、小说集的书籍(或这些书籍中的文章),或者包括特定技术领域的技术文档等。相应地,诸如上述(Q,A)库的问题和回答对数据库中的问题可以包括与待处理文档涉及类似内容的书籍或技术文档中的读者关注问题,并且该数据库中的对应回答包括针对该读者关注问题的回答。
举例而言,上述涉及类似内容的书籍可以包括与作为待处理文档的书籍属于同一类别(诸如散文、小说、诗歌、戏剧)或属于同一作者的其他书籍。相应地,问题和回答对数据库中的问题可以例如为“这本书/这篇文章的中心思想是什么?”、“作者在这本书/这篇文章中体现了怎样的情感?”等,并且问题和回答对数据库中的对应回答可以包括针对这些问题的回答。此外,涉及类似内容的技术文档例如可以包括与作为待处理文档的技术文档属于同一技术领域的技术文档。相应地,问题和回答对数据库中的问题可以包括这些技术文档中的读者关注问题,例如“这篇文档的摘要是什么?”,并且该数据库中的对应回答包括这些技术文档中蕴含的针对读者关注问题的回答,例如,技术文档的摘要语句等。
这样,在通过诸如图1至图5描述的目标语句提取方法从新的待处理文档中得到目标语句作为回答之后,利用已有的类似文档以及针对这些文档的常见问题和回答,本实施例的问题生成方法可以继续基于从新的待处理文档得到相应的问题,从而自动得到新的完整的问题-回答对。
在一个优选实施例中,待处理文档可以为产品使用手册。相应地,诸如上述(Q,A)库的问题和回答对数据库中的问题可以包括与待处理文档涉及相同类型产品的产品使用手册中的常见用户问题(例如,“如何安装本产品?”等),并且该数据库中的对应回答可以包括针对该用户常用问题的回答。作为示例,待处理文档可以为诸如手机、平板电脑等消费电子类产品的产品使用手册。文档和语句对数据库中的文档可以包括与待处理文档涉及相同类型的已有产品(例如更早版本的类似产品)的产品使用手册。
这样,在通过诸如图1至图5描述的目标语句提取方法从新的产品使用手册中得到目标语句作为回答之后,利用已有的同类型产品的产品使用手册以及针对用户常用问题的问题和回答,本优选实施例的问题生成方法可以继续基于从新的产品使用手册得到相应的问题,从而自动得到新的完整的问题-回答对。
在基于问题和回答对数据库进行匹配加权步骤S805之后,进行解码步骤S807。在该步骤中,利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列Y={yt},作为与所提取的目标语句对应的问题,其中,t=1,2,…,T,T为自然数并且表示解码语义序列中的词的数量,并且其中,解码语义序列中的当前元素yt是解码模型基于加权处理后的编码语义序列E2以及解码语义序列中的前一元素yt-1进行处理而获得的。
作为示例,所采用的解码模型可以是基于神经网络的深度学习模型,诸如RNN网络构成的解码模型,如包括LSTM模型、BLSTM模型、GRU模型等。
图9示出了本实施例中用于获取解码序列Y的解码模型的示意图。如图9所示,在本示例中,解码序列Y中的每个元素yt是基于加权后编码序列E2中的各个元素e2l、解码语义序列中的前一元素yt-1、以及解码模型中的相应隐藏层的状态zt进行处理而获得的。解码模型的一般原理是通过计算条件概率pt(yt|y1,...yt-1,E2)并使得{pt}的联合分布最大,得到输出的解码语义序列Y={yt}。在本示例的解码模型中,上述条件概率pt(yt|y1,...yt-1,E2)=pt(yt|yt-1,zt,E2),并通过并使得{pt}的联合分布最大得到输出的解码语义序列。
注意,以上编码步骤S803和解码步骤S807步骤中使用的编码模型和解码模型是利用标记好的训练回答和训练问题而预先训练获得的、基于深度学习的模型。
图10示出了本实施例的目标语句提取方法中采用的模型架构的一个示例。如图10所示,该模型架构包括步骤S801中使用的Word embedding(词嵌入)处理,步骤S803中使用的编码模型,步骤S805中使用的匹配检索处理,以及步骤S807中使用的解码模型。在应用本实施例的问题生成方法之前,可以采用端到端的训练方式,利用标记好的训练回答和训练问题而对该模型架构中的编码模型和解码模型进行训练,以获得优化的模型参数。可以采用各种现有方式进行上述训练,在此不再展开描述。
以上参照图8至图10描述了根据本公开实施例的问题生成方法的示例。利用该问题生成方法,能够在从待处理文档中自动提取作为潜在问题的回答的目标语句的之后,生成相应的问题,从而自动基于目标语句生成问题-回答对。
在本公开实施例的问题生成方法的一个优选实施例中,在解码步骤S807中,利用解码模型对加权处理后的编码语义序列进行处理以获得解码语义序列可以包括下述处理:
针对解码语义序列Y中的当前元素yt,对基于匹配结果加权的编码语义序列E2应用注意力模型,其中,根据基于匹配结果加权的编码语义序列E2中各个元素e2l对解码语义序列Y中的当前元素yt的影响bt,l,对基于匹配结果加权的编码语义序列E2中各个元素e2l进行加权求和处理,作为应用注意力模型的结果
进行上述注意力模型加权处理之后,解码模型可以基于针对解码语义序列Y中的当前元素yt对基于匹配结果加权处理后的编码语义序列E2应用注意力模型的结果ct、以及解码语义序列中的前一元素yt-1进行处理,获得解码语义序列中的当前元素yt。
换言之,此时,以上参考图9描述的解码语义序列的当前元素yt的条件概率pt(yt|y1,...yt-1,E2)=pt(yt|yt-1,zt,E2)可以变为pt(yt|yt-1,zt,ct),通过使得这样得到的{pt}的联合分布最大,可以得到输出的解码语义序列Y={yt}。图11是本优选实施例中的解码模型的原理的示意性说明图,其示意性地示出了在图9的基础上应用注意力加权的解码模型。由于应用了影响因子bt,l,在图11所示的解码模型中,可以基于编码语义序列中各个元素对解码语义序列中的当前元素的影响而进行解码处理,从而改进了解码处理的准确度。
在一个优选实施例中,基于匹配结果加权的编码语义序列E2中各个元素e2l对解码语义序列中的当前元素的影响bt,l可以计算为其中,SimDt,l=SimD(st-1,e2l),表示解码语义序列Y中的当前元素yt的前一隐藏状态st-1与匹配加权后的编码语义序列E2中的元素e2l之间的“相似度”或“对准”。作为示例,可以采用SimD(zt-1,e2l)=vavanh(Wazt-1+Uae2l)的形式来计算,其中,Va、Wa、Ua为参数向量或矩阵。
图12示出了本优选实施例的问题生成方法中采用的模型架构的一个示例。如图12所示,该模型架构包括与图10中类似的Word embedding(词嵌入)处理、编码模型、匹配检索处理以及解码模型,区别之处在于在匹配检索的处理之后,另外应用了注意力模型,并且将应用了注意力模型加权的结果提供给解码模型。
以上参照图11至图12描述了根据本公开实施例的问题生成方法的一个优选实施例。利用该优选实施例,可以在解码的过程中视编码语义序列中的各个元素对解码语义序列的当前元素的影响而对编码语义序列中的各个元素设置不同的权重,从而获得更准确的解码结果。
此外,根据根本公开,还提供了一种问题生成设备。图13是示意性地示出根据本公开实施例的问题生成设备的一个示例结构的示意性框图。
如图13所示,问题生成设备1300可以包括:回答语义序列获取单元1301,利用根据本公开实施例的目标语句提取方法从待处理文档中提取出目标语句作为回答,并将其转换为由词向量表示的回答语义序列;编码单元1302,利用编码模型对回答语义序列进行处理,以获得编码语义序列,编码语义序列的每个元素与回答语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;匹配加权单元1302,基于所提取的目标语句中的各个词在预先获得的问题和回答对数据库中的匹配结果,分别对编码语义序列中的各个元素进行加权处理;以及解码单元1304,利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列,作为与所提取的目标语句对应的问题,其中,解码语义序列中的当前元素是解码模型基于加权处理后的编码语义序列以及解码语义序列中的前一元素进行处理而获得的,其中,编码模型和解码模型是利用标记好的训练回答和训练问题而预先训练获得的、基于深度学习的模型。
上述问题生成设备及其各个单元例如可以进行以上参照图8至图12描述的本公开实施例的示例问题生成方法及其各个步骤的操作和/或处理并实现类似的效果,在此不再进行重复说明。
另外,根据根本公开,还提供了一种信息处理设备,其包括处理器,该处理器被配置为执行此前描述的目标语句提取方法或问题生成方法。
更具体地,在一个实施例中,该处理器可以被配置为以下述方式执行此前描述的目标语句提取方法:将待处理文档中的每个词用词向量表示,以构建待处理文档的第一语义序列;利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练目标语句而预先训练获得的。
作为示例,待处理文档可以包括书籍(或书籍中的文章)或技术文档。相应地,文档和语句对数据库中的文档可以包括与待处理文档涉及类似内容的书籍或技术文档,并且该数据库中的对应语句可以包括基于这些书籍或技术文档的针对读者关注问题的回答。
作为示例,处理器可以被配置为通过下述方式对第二语义序列中的各个元素进行加权:针对待处理文档中的每个词,基于该词在文档和语句对数据库中的匹配结果构建标注向量,并将标注向量与第二语义序列中的对应元素进行合并。
在一个优选实施例中,处理器还可以被配置为:针对基于匹配结果分别对第二语义序列中的各个元素进行加权而得到的序列中的每个元素,应用注意力模型基于该序列中各个元素对该元素的影响而对该序列中各个元素进行加权求和,作为应用注意力模型加权处理后的第二语义序列中的对应元素,其中,序列标注模型对应用注意力模型加权处理后的第二语义序列进行标注。
在一个优选实施例中,待处理文档可以为产品使用手册。相应地,文档和语句对数据库中的文档包括与待处理文档涉及相同类型产品的产品使用手册,并且该数据库中的对应语句包括基于该产品使用手册的针对用户常用问题的回答。
在另一个实施例中,该处理器可以被配置为以下述方式执行此前描述的问题生成方法:利用根据本公开实施例的目标语句提取方法从待处理文档中提取出目标语句作为回答,并将其转换为由词向量表示的回答语义序列;利用编码模型对回答语义序列进行处理,以获得编码语义序列,编码语义序列的每个元素与回答语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;基于所提取的目标语句中的各个词在预先获得的问题和回答对数据库中的匹配结果,分别对编码语义序列中的各个元素进行加权处理;以及利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列,作为与所提取的目标语句对应的问题,其中,解码语义序列中的当前元素是解码模型基于加权处理后的编码语义序列以及解码语义序列中的前一元素进行处理而获得的,其中,编码模型和解码模型是利用标记好的训练回答和训练问题而预先训练获得的、基于深度学习的模型。
图14是示出了可用来实现根据本公开实施例的信息处理设备以及目标语句提取方法或问题生成方法的一种可能的硬件配置1400的结构简图。
在图14中,中央处理单元(CPU)1401根据只读存储器(ROM)1402中存储的程序或从存储部分1408加载到随机存取存储器(RAM)1403的程序执行各种处理。在RAM 1403中,还根据需要存储当CPU 1401执行各种处理等等时所需的数据。CPU 1401、ROM 1402和RAM 1403经由总线1404彼此连接。输入/输出接口1405也连接到总线1404。
下述部件也连接到输入/输出接口1405:输入部分1406(包括键盘、鼠标等等)、输出部分1407(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1408(包括硬盘等)、通信部分1409(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1409经由网络例如因特网执行通信处理。根据需要,驱动器1410也可连接到输入/输出接口1405。可拆卸介质1411例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1410上,使得从中读出的计算机程序可根据需要被安装到存储部分1408中。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开实施例的目标语句提取方法或问题生成方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
即,本公开还提出了一种存储介质,其存储有机器可读取的指令代码,所述指令代码在由机器读取并执行时,能够使得机器执行一种目标语句提取方法或问题生成方法。。
上述存储介质例如可以包括但不限于磁盘、光盘、磁光盘、半导体存储器等。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,根据本公开实施例,本公开提供了如下方案,但不限于此:
方案1.一种目标语句提取方法,用于从待处理文档中提取目标语句,该方法包括:
通过将待处理文档中的每个词用词向量表示,构建待处理文档的第一语义序列;
利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;
基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;以及
利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,
其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
方案2.如方案1所述的目标语句提取方法,其中,对第二语义序列中的各个元素进行加权包括:
针对待处理文档中的每个词,基于该词在文档和语句对数据库中的匹配结果构建标注向量,并将标注向量与第二语义序列中的对应元素进行合并。
方案3.如方案1所述的目标语句提取方法,还包括:
针对基于匹配结果分别对第二语义序列中的各个元素进行加权而得到的序列中的每个元素,应用注意力模型基于该序列中各个元素对该元素的影响而对该序列中各个元素进行加权求和,作为应用注意力模型加权处理后的第二语义序列中的对应元素,
其中,序列标注模型对应用注意力模型加权处理后的第二语义序列进行标注。
方案4.如方案1所述的目标语句提取方法,其中,
待处理文档包括书籍或技术文档;
文档和语句对数据库中的文档包括与待处理文档涉及类似内容的书籍或技术文档,并且该数据库中的对应语句包括基于该书籍或技术文档的针对读者关注问题的回答。
方案5.如方案1至4中任一项所述的目标语句提取方法,其中,
待处理文档为产品使用手册;
文档和语句对数据库中的文档包括与待处理文档涉及相同类型产品的产品使用手册,并且该数据库中的对应语句包括基于该产品使用手册的针对用户常用问题的回答。
方案6.一种问题生成方法,用于基于待处理文档生成问题,该方法包括:
利用方案1至3中任一项的方法从待处理文档中提取出目标语句作为回答,并将其转换为由词向量表示的回答语义序列;
利用编码模型对回答语义序列进行处理,以获得编码语义序列,编码语义序列的每个元素与回答语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;
基于所提取的目标语句中的各个词在预先获得的问题和回答对数据库中的匹配结果,分别对编码语义序列中的各个元素进行加权处理;以及
利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列,作为与所提取的目标语句对应的问题,其中,解码语义序列中的当前元素是解码模型基于加权处理后的编码语义序列以及解码语义序列中的前一元素进行处理而获得的,
其中,编码模型和解码模型是利用标记好的训练回答和训练问题而预先训练获得的、基于深度学习的模型。
方案7.如方案6所述的问题生成方法,其中,对编码语义序列中的各个元素进行加权包括:
针对所提取的目标语句中的每个词,基于该词在问题和回答对数据库中的匹配结果构建标注向量,并将该标注向量与编码语义序列中的对应元素进行合并。
方案8.如方案6所述的问题生成方法,其中,利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列包括:
针对解码语义序列中的当前元素,对基于匹配结果加权的编码语义序列应用注意力模型,其中,根据基于匹配结果加权的编码语义序列中各个元素对解码语义序列中的当前元素的影响,对基于匹配结果加权的编码语义序列中各个元素进行加权求和处理,作为应用注意力模型的结果,
其中,解码模型基于针对当前元素对基于匹配结果加权处理后的编码语义序列应用注意力模型的结果、以及解码语义序列中的前一元素进行处理,获得解码语义序列中的当前元素。
方案9.如方案6所述的问题生成方法,其中,
待处理文档包括书籍或技术文档;
问题和回答对数据库中的问题包括与待处理文档涉及类似内容的书籍或技术文档中的读者关注问题,并且该数据库中的对应回答包括针对该读者关注问题的回答。
方案10.如方案6至9中任一项所述的方法,其中,
待处理文档为产品使用手册;
问题和回答对数据库中的问题包括与待处理文档涉及相同类型产品的产品使用手册中的常见用户问题,并且该数据库中的对应回答包括针对该用户常用问题的回答。
方案11.一种信息处理设备,包括
处理器,被配置为
将待处理文档中的每个词用词向量表示,以构建待处理文档的第一语义序列;
利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;
基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;
利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,
其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练目标语句而预先训练获得的。
方案12.如方案11所述的信息处理设备,其中,处理器被配置为通过下述方式对第二语义序列中的各个元素进行加权:
针对待处理文档中的每个词,基于该词在文档和语句对数据库中的匹配结果构建标注向量,并将标注向量与第二语义序列中的对应元素进行合并。
方案13.如方案11所述的信息处理设备,其中,处理器还被配置为:
针对基于匹配结果分别对第二语义序列中的各个元素进行加权而得到的序列中的每个元素,应用注意力模型基于该序列中各个元素对该元素的影响而对该序列中各个元素进行加权求和,作为应用注意力模型加权处理后的第二语义序列中的对应元素,
其中,序列标注模型对应用注意力模型加权处理后的第二语义序列进行标注。
方案14.如方案11所述的信息处理设备,其中,
待处理文档包括书籍或技术文档;
问题和回答对数据库中的问题包括与待处理文档涉及类似内容的书籍或技术文档中的读者关注问题,并且该数据库中的对应回答包括针对该读者关注问题的回答。
方案15.如方案11至14中任一项所述的信息处理设备,其中,
待处理文档为产品使用手册;
文档和语句对数据库中的文档包括与待处理文档涉及相同类型产品的产品使用手册,并且该数据库中的对应语句包括基于该产品使用手册的针对用户常用问题的回答。
最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备可能不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。
Claims (10)
1.一种目标语句提取方法,用于从待处理文档中提取目标语句,该方法包括:
通过将待处理文档中的每个词用词向量表示,构建待处理文档的第一语义序列;
利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;
基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理,其中,待处理文档中的每个词的匹配结果表示下述四种结果之一:该词未在所述数据库的文档和语句对中出现;该词只在所述数据库的文档和语句对的文档中出现;该词只在所述数据库的文档和语句对的语句中出现;该词在所述数据库的文档和语句对的文档和语句两者中出现;以及
利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,
其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
2.如权利要求1所述的目标语句提取方法,其中,对第二语义序列中的各个元素进行加权包括:
针对待处理文档中的每个词,基于该词在文档和语句对数据库中的匹配结果构建标注向量,并将标注向量与第二语义序列中的对应元素进行合并。
3.如权利要求1所述的目标语句提取方法,还包括:
针对基于匹配结果分别对第二语义序列中的各个元素进行加权而得到的序列中的每个元素,应用注意力模型基于该序列中各个元素对该元素的影响而对该序列中各个元素进行加权求和,作为应用注意力模型加权处理后的第二语义序列中的对应元素,
其中,序列标注模型对应用注意力模型加权处理后的第二语义序列进行标注。
4.如权利要求1所述的目标语句提取方法,其中,
待处理文档包括书籍或技术文档;
文档和语句对数据库中的文档包括与待处理文档涉及类似内容的书籍或技术文档,并且该数据库中的对应语句包括基于该书籍或技术文档的针对读者关注问题的回答。
5.如权利要求1至4中任一项所述的目标语句提取方法,其中,
待处理文档为产品使用手册;
文档和语句对数据库中的文档包括与待处理文档涉及相同类型产品的产品使用手册,并且该数据库中的对应语句包括基于该产品使用手册的针对用户常用问题的回答。
6.一种问题生成方法,用于基于待处理文档生成问题,该方法包括:
利用权利要求1至3中任一项的方法从待处理文档中提取出目标语句作为回答,并将其转换为由词向量表示的回答语义序列;
利用编码模型对回答语义序列进行处理,以获得编码语义序列,编码语义序列的每个元素与回答语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;
基于所提取的目标语句中的各个词在预先获得的问题和回答对数据库中的匹配结果,分别对编码语义序列中的各个元素进行加权处理,其中,所提取的目标语句中的每个词的匹配结果表示下述四种结果之一:该词未在所述数据库的问题和回答对中出现;该词只在所述数据库的问题和回答对的问题中出现;该词只在所述数据库的问题和回答对的回答中出现;该词在所述数据库的问题和回答语句对的问题和回答两者中出现;以及
利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列,作为与所提取的目标语句对应的问题,其中,解码语义序列中的当前元素是解码模型基于加权处理后的编码语义序列以及解码语义序列中的前一元素进行处理而获得的,
其中,编码模型和解码模型是利用标记好的训练回答和训练问题而预先训练获得的、基于深度学习的模型。
7.如权利要求6所述的问题生成方法,其中,对编码语义序列中的各个元素进行加权包括:
针对所提取的目标语句中的每个词,基于该词在问题和回答对数据库中的匹配结果构建标注向量,并将该标注向量与编码语义序列中的对应元素进行合并。
8.如权利要求6所述的问题生成方法,其中,利用解码模型对加权处理后的编码语义序列进行处理,以获得解码语义序列包括:
针对解码语义序列中的当前元素,对基于匹配结果加权的编码语义序列应用注意力模型,其中,根据基于匹配结果加权的编码语义序列中各个元素对解码语义序列中的当前元素的影响,对基于匹配结果加权的编码语义序列中各个元素进行加权求和处理,作为应用注意力模型的结果,
其中,解码模型基于针对当前元素对基于匹配结果加权处理后的编码语义序列应用注意力模型的结果、以及解码语义序列中的前一元素进行处理,获得解码语义序列中的当前元素。
9.如权利要求6至8中任一项所述的问题生成方法,其中,
待处理文档包括书籍或技术文档;
问题和回答对数据库中的问题包括与待处理文档涉及类似内容的书籍或技术文档中的读者关注问题,并且该数据库中的对应回答包括针对该读者关注问题的回答。
10.一种信息处理设备,包括
处理器,被配置为将待处理文档中的每个词用词向量表示,以构建待处理文档的第一语义序列;
利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,其中,第二语义序列的每个元素与第一语义序列中的每个词向量对应,并且体现了与该词向量有关的上下文信息;
基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理,其中,待处理文档中的每个词的匹配结果表示下述四种结果之一:该词未在所述数据库的文档和语句对中出现;该词只在所述数据库的文档和语句对的文档中出现;该词只在所述数据库的文档和语句对的语句中出现;该词在所述数据库的文档和语句对的文档和语句两者中出现;
利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,
其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练目标语句而预先训练获得的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810827532.0A CN110852110B (zh) | 2018-07-25 | 2018-07-25 | 目标语句提取方法、问题生成方法以及信息处理设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810827532.0A CN110852110B (zh) | 2018-07-25 | 2018-07-25 | 目标语句提取方法、问题生成方法以及信息处理设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852110A CN110852110A (zh) | 2020-02-28 |
CN110852110B true CN110852110B (zh) | 2023-08-04 |
Family
ID=69594338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810827532.0A Active CN110852110B (zh) | 2018-07-25 | 2018-07-25 | 目标语句提取方法、问题生成方法以及信息处理设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852110B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858911A (zh) * | 2020-04-21 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 工单描述信息的生成方法、装置、电子设备及存储介质 |
CN113672708B (zh) * | 2020-05-13 | 2024-10-08 | 武汉Tcl集团工业研究院有限公司 | 语言模型训练方法、问答对生成方法、装置及设备 |
CN111695359B (zh) * | 2020-06-12 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 生成词向量的方法、装置、计算机存储介质和电子设备 |
CN111859916B (zh) * | 2020-07-28 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 古诗关键词提取、诗句生成方法、装置、设备及介质 |
CN112115250A (zh) * | 2020-09-28 | 2020-12-22 | 四川长虹电器股份有限公司 | 一种问句自动生成方法及系统 |
CN112732896B (zh) * | 2020-12-31 | 2023-04-07 | 天津开心生活科技有限公司 | 目标信息显示方法、装置、电子设备和介质 |
CN113609863B (zh) * | 2021-02-04 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种训练、使用数据转换模型的方法、装置及计算机设备 |
CN113051396B (zh) * | 2021-03-08 | 2023-11-17 | 北京百度网讯科技有限公司 | 文档的分类识别方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
WO2016125949A1 (ko) * | 2015-02-02 | 2016-08-11 | 숭실대학교 산학협력단 | 문서 자동 요약 방법 및 서버 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
CN107704563A (zh) * | 2017-09-29 | 2018-02-16 | 广州多益网络股份有限公司 | 一种问句推荐方法及系统 |
CN107766559A (zh) * | 2017-11-06 | 2018-03-06 | 第四范式(北京)技术有限公司 | 对话模型的训练方法、训练装置、对话方法及对话系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9720977B2 (en) * | 2014-06-10 | 2017-08-01 | International Business Machines Corporation | Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system |
-
2018
- 2018-07-25 CN CN201810827532.0A patent/CN110852110B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016125949A1 (ko) * | 2015-02-02 | 2016-08-11 | 숭실대학교 산학협력단 | 문서 자동 요약 방법 및 서버 |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
CN107704563A (zh) * | 2017-09-29 | 2018-02-16 | 广州多益网络股份有限公司 | 一种问句推荐方法及系统 |
CN107766559A (zh) * | 2017-11-06 | 2018-03-06 | 第四范式(北京)技术有限公司 | 对话模型的训练方法、训练装置、对话方法及对话系统 |
Non-Patent Citations (1)
Title |
---|
Liu Yang等.aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model.CIKM '16: Proceedings of the 25th ACM International on Conference on Information and Knowledge Management.2016,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110852110A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852110B (zh) | 目标语句提取方法、问题生成方法以及信息处理设备 | |
US11244207B2 (en) | Deep learning tag-based font recognition utilizing font classification | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN111027327B (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
Kang et al. | Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition | |
Chen et al. | Ensemble application of convolutional and recurrent neural networks for multi-label text categorization | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111897954B (zh) | 一种用户评论方面挖掘系统、方法、及存储介质 | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
CN116450796A (zh) | 一种智能问答模型构建方法及设备 | |
CN116303977B (zh) | 一种基于特征分类的问答方法及系统 | |
CN118171149B (zh) | 标签分类方法、装置、设备、存储介质和计算机程序产品 | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
Ayyadevara | Neural Networks with Keras Cookbook: Over 70 recipes leveraging deep learning techniques across image, text, audio, and game bots | |
CN117113937A (zh) | 一种基于大规模语言模型的电力领域阅读理解方法和系统 | |
CN116362833A (zh) | 一种基于层次化对比学习的商品推荐方法及系统 | |
Maalej et al. | Recognition of handwritten Arabic words with dropout applied in MDLSTM | |
CN117171746A (zh) | 恶意代码同源性分析方法、装置、电子设备及存储介质 | |
CN115269984A (zh) | 一种专业情报推荐方法和系统 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN113822018A (zh) | 实体关系联合抽取方法 | |
CN114116971A (zh) | 用于生成相似文本的模型训练方法、装置及计算机设备 | |
Singha et al. | Bengali Text Summarization with Attention-Based Deep Learning | |
US11983489B1 (en) | Extractive summary generation by abstractive trained model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |