CN109344234A

CN109344234A - 机器阅读理解方法、装置、计算机设备和存储介质

Info

Publication number: CN109344234A
Application number: CN201811036255.8A
Authority: CN
Inventors: 陈温淋; 黄华伦; 刘建
Original assignee: United States (shenzhen) Information Technology Ltd By Share Ltd
Current assignee: United States (shenzhen) Information Technology Ltd By Share Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2019-02-15

Abstract

本发明涉及一种机器阅读理解方法、装置、计算机设备和存储介质。该方法包括：根据核心语句和预设的文档定位方法，从数据库中获取核心语句对应的文档段落集合；对核心语句和文档段落集合进行文本分词处理，得到分词后的核心语句和分词后的文档段落集合；根据核心语句与答案位置之间的对应关系，从分词后的文档段落集合中确定分词后的核心语句对应的各答案段落；根据各答案段落的概率值确定分词后的核心语句对应的目标答案段落。该方法不仅可以对非结构化的数据进行处理，还可以提高目标答案段落的准确性。

Description

机器阅读理解方法、装置、计算机设备和存储介质

技术领域

本发明涉及人工智能领域，特别是涉及一种机器阅读理解方法、装置、计算机设备和存储介质。

背景技术

近年来，机器阅读成为人工智能领域一个热门的研究主题。机器阅读能够让计算机帮助用户在大量文本中找到所需的信息，从而减轻人们对信息获取的成本，而文档抽取在这方面发挥着重要作用。

目前，机器阅读是基于人工构造的比较简单的结构化或半结构化数据集，采用机器学习、数据挖掘、知识发现等自动化知识提取方法来获取用户所需的信息。

然而，对于部分非结构化的数据集，使用上述方法很难获得用户所需的信息，无法满足用户需求。

发明内容

基于此，有必要针对现有技术中无法满足用户需求的问题，提供一种能够满足用户需求的机器阅读理解方法、装置、计算机设备和存储介质。

第一方面，本发明实施例提供一种机器阅读理解方法，所述方法包括：

根据核心语句和预设的文档定位方法，从数据库中获取所述核心语句对应的文档段落集合；所述数据库包括对非结构化数据进行格式化处理之后的数据，所述文档段落集合包括所述核心语句所在的文档段落；

对所述核心语句和所述文档段落集合进行文本分词处理，得到分词后的核心语句和分词后的文档段落集合；

根据核心语句与答案位置之间的对应关系，从所述分词后的文档段落集合中确定所述分词后的核心语句对应的各答案段落；

根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。

本实施例提供的机器阅读理解方法，计算机设备根据核心语句和预设的文档定位方法，从数据库中获取核心语句对应的文档段落集合；并对核心语句和文档段落集合进行文本分词处理，得到分词后的核心语句和分词后的文档段落集合；进而根据核心语句与答案位置之间的对应关系，从分词后的文档段落集合中确定分词后的核心语句对应的各答案段落；根据各答案段落的概率值确定分词后的核心语句对应的目标答案段落。该方法根据预设的文档定位方法，从数据库中获取核心语句对应的文档段落集合，从而确定用户问题的核心语句对应的目标答案段落，提高了确定的目标答案段落的准确性，对于非结构化的数据集，用户使用该方法也能获得所需的信息，从而提高了用户的使用需求。

在其中一个实施例中，所述方法还包括：

根据预设的问题模板，获取所述核心语句与答案位置之间的对应关系；所述问题模板用于确定核心语句的答案在所述文档段落集合中的位置。

在其中一个实施例中，所述方法还包括：

根据业务词典，从用户问题中提取所述核心语句；所述业务词典为通过机器学习得到的名词库。

在其中一个实施例中，所述根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落之前，所述方法还包括：

获取所述分词后的核心语句在各所述答案段落中出现的次数；

根据各所述答案段落对应的次数和所述分词后的文档段落集合中的文档段落总数目确定所述概率值。

在其中一个实施例中，所述根据各所述答案段落对应的次数和所述分词后的文档段落集合中的文档段落总数目确定所述概率值，包括：

获取各所述答案段落对应的次数与所述分词后的文档段落集合中的文档段落总数目之间的比值；

根据各所述答案段落对应的比值，确定各所述答案段落的概率值。

在其中一个实施例中，所述根据各所述答案段落对应的比值，确定各所述答案段落的概率值之后，所述方法还包括：

将相邻两个所述答案段落对应的比值进行比较，确定候选答案段落；所述候选答案段落为所述相邻两个所述答案段落中比值最大的答案段落；

所述根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落，包括：

根据各所述候选答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。

在其中一个实施例中，所述根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落，包括：

根据各所述候选答案段落的概率值，获取各所述答案段落的权重；

根据所述分词后的核心语句在各所述答案段落中出现的次数，确定各所述答案段落的量化值；

根据各所述答案段落的权重和量化值，确定所述分词后的核心语句对应的目标答案段落。

在其中一个实施例中，所述根据各所述答案段落的权重和量化值，确定所述分词后的核心语句对应的目标答案段落，包括：

将满足预设的选择条件的候选答案段落，确定为所述目标答案段落；所述选择条件包括所述权重大于第一阈值和/或所述量化值大于第二阈值。

在其中一个实施例中，所述对所述核心语句和所述文档段落集合进行文本分词处理，包括：

对所述核心语句和所述文档段落集合进行预处理，得到预处理后的核心语句和文档段落集合；所述预处理包括丢弃非文本词句和停用词；

根据预设的文本分词模型，对所述预处理后的核心语句和文档段落集合进行文本分词处理。

第二方面，本发明实施例提供一种机器阅读理解装置，所述装置包括：

第一获取模块，用于根据核心语句和预设的文档定位方法，从数据库中获取所述核心语句对应的文档段落集合；所述数据库包括对非结构化数据进行格式化处理之后的数据，所述文档段落集合包括所述核心语句所在的文档段落；

处理模块，用于对所述核心语句和所述文档段落集合进行文本分词处理，得到分词后的核心语句和分词后的文档段落集合；

第一确定模块，用于根据核心语句与答案位置之间的对应关系，从所述分词后的文档段落集合中确定所述分词后的核心语句对应的各答案段落；

第二确定模块，用于根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。

第三方面，本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本发明实施例提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本实施例提供的机器阅读理解装置、计算机设备和存储介质，能够使得计算机设备根据核心语句和预设的文档定位方法，从数据库中获取核心语句对应的文档段落集合；并对核心语句和文档段落集合进行文本分词处理，得到分词后的核心语句和分词后的文档段落集合；进而根据核心语句与答案位置之间的对应关系，从分词后的文档段落集合中确定分词后的核心语句对应的各答案段落；根据各答案段落的概率值确定分词后的核心语句对应的目标答案段落。该方法中编辑人员将数据录入数据库中，计算机设备通过对录入数据进行格式化处理，尤其的对于非结构化的数据进行格式化处理之后，相当于计算机设备可以处理非结构话的数据，满足用户的需求；另外，计算机设备从格式化的数据库中获取核心语句对应的文档段落集合，从而确定用户问题的核心语句对应的目标答案段落，提高了确定的目标答案段落的速率和准确性。

附图说明

图1为一个实施例提供的计算机设备的内部结构示意图；

图2为一个实施例提供的一种机器阅读理解方法的流程示意图；

图3为一个实施例提供的一种提取用户问题核心语句的示意图；

图4为一个实施例提供的一种机器阅读理解方法的流程示意图；

图5为一个实施例提供的一种机器阅读理解方法的流程示意图；

图6为一个实施例提供的一种机器阅读理解方法的流程示意图；

图7为一个实施例提供的一种机器阅读理解方法的流程示意图；

图8为一个实施例提供的一种机器阅读理解方法的流程示意图；

图9为一个实施例提供的一种机器阅读理解方法的流程示意图；

图10为一个实施例提供的机器阅读理解装置结构示意图；

图11为一个实施例提供的机器阅读理解装置结构示意图；

图12为一个实施例提供的机器阅读理解装置结构示意图；

图13为一个实施例提供的机器阅读理解装置结构示意图；

图14为一个实施例提供的机器阅读理解装置结构示意图；

图15为一个实施例提供的机器阅读理解装置结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明实施例提供的机器阅读理解方法，可以适用于如图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器，该存储器中存储有计算机程序，处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选的，该计算机设备还可以包括网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。可选的，该计算机设备可以是服务器，可以是PC，还可以是个人数字助理，还可以是其他的终端设备，例如PAD、手机等等，还可以是云端或者远程服务器，本发明实施例对计算机设备的具体形式并不做限定。

传统的技术方案中，计算机设备基于人工构造的比较简单的结构化或半结构化数据集，采用机器学习、数据挖掘、知识发现等自动化知识提取方法来获取用户所需的信息，对于部分非结构化的数据集，使用该方法很难获得用户所需的信息，无法满足用户需求。为此，本发明实施例提供一种机器阅读理解方法、装置、计算机设备和可读存储介质，旨在解决传统技术的如上技术问题。

本申请实施例提供的机器阅读理解方法的执行主体为图1所示场景实施例中的计算机设备。

下面以具体的实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为一个实施例提供的一种机器阅读理解方法的流程示意图，本实施例涉及的是根据核心语句从数据库中获取答案的具体实现过程。如图2所示，该方法可以包括：

S201，根据核心语句和预设的文档定位方法，从数据库中获取所述核心语句对应的文档段落集合；所述数据库包括对非结构化数据进行格式化处理之后的数据，所述文档段落集合包括所述核心语句所在的文档段落。

其中，核心语句是根据用户问题提取出的代表句子中心思想的语句，例如，用户问题是“龙卡信用卡最近有什么优惠活动？”那用户问题的核心语句就是“龙卡信用卡”、“优惠活动”。

在本实施例中，不能用二维逻辑在数据库表中来表现的数据称为非结构化数据，非结构化数据可以包括资料数据、对话数据、文档数据等。对非结构化数据进行格式化的处理可以包括对文档的内容处理、对标题中包含“分类：内容”形式的文本处理、对文档的内容处理、对文档段落的处理等。其中，对文档的内容处理包括：按照一级标题(即中文数字，如：一，二，三)，二级标题(即带括号的中文数字，如(一)，(二)，(三))，三级标题(即阿拉伯数字，如1,2,3)等形式进行对文档段落进行处理；对标题中包含“分类：内容”形式的文本处理包括：将分类作为标题，将内容写入标题下的内容文本，例如：某个文档的标题-内容格式为：“活动时间：1月1号至1月10号”则将该文档处理后，标题栏对应的是活动时间，内容栏对应的是1月1号至1月10号；对文档的内容处理包括：统一采用中文格式书写整个文档，并根据上述的一级标题、二级标题、三级标题的形式进行对整个文档进行处理；对文档段落的处理包括：对段落间的空行进行处理，例如，删掉空行。

在本实施例中，预设的文档定位方法可以包括：根据文档的标题格式进行定位，即根据文档的大标题、小标题顺序依次定位；或者，根据文档的标题-内容格式进行定位，即标题中若包含“分类：内容”形式的文本，则根据分类-内容的顺序进行定位，例如：某个文档的标题-内容格式为：“活动时间：1月1号至1月10号”，则活动时间即为分类，1月1号至1月10号即为内容；或者，根据段落格式定位。

具体的，编辑人员将数据录入数据库中，计算机设备对录入数据进行格式化处理，可以将非结构化数据转化为可用二维逻辑表示的结构化数据。当用户需要查询一些信息时，计算机设备提取出用户问题中的核心语句后，根据核心语句和预设的文档定位方法，定位核心语句在数据库文档段落中的位置，将核心语句所在的文档段落组成文档段落集合。

可选的，如图3所示，计算机设备提取用户问题的核心语句可以通过如下方式实现：计算机设备首先定义一个无向有权图，然后对用户问题采用HanLP(汉语言处理包)或者Jieba分词库进行分词和词性标注，依次遍历分词结果，如果某个词i满足过滤条件，则将它作为候选关键词，其中，过滤条件是指词i的词性在词性过滤集合中，词i的长度大于等于2，并且词i不是停用词，词性过滤集合中的词包括名词、动词、形容词。选取词i之后窗口长度为K＝5范围内的词j(词j也需要满足过滤条件)，将词i和词j作为作为共现词典中的元素key＝(词i，词j)，词i和词j出现的次数作为value，添加到共现词典中；依次遍历共现词典，将词典中每个元素key＝(词i，词j)中的词i作为一条边的起始点，词j作为该边的终止点，词i和词j出现的次数value作为边的权重，添加到之前定义的无向有权图中。然后计算机设备对所述无向有权图中边的权重采用TextRank算法(关键词提取算法)公式，对该无向有权图中边的权重进行迭代，直至达到预设的收敛条件为止，达到预设的收敛条件时每个词都对应了一个指标值，根据指标值对无向有权图中的词进行降序排序，最后输出topK个词，作为候选关键词，在用户问题中进行标记，若所述K个词形成相邻词组，则组合所述K个候选关键词作为核心语句。所述预设的收敛条件包括：迭代阈值设置为0.0001，迭代次数设置为20-30次。

S202，对所述核心语句和所述文档段落集合进行文本分词处理，得到分词后的核心语句和分词后的文档段落集合。

具体的，计算机设备得到用户问题的核心语句和文档段落集合后，对核心语句和文档段落集合进行文本分词处理，例如，根据预设的文本分词模型，对核心语句和文档段落集合进行文本分词处理，得到分词后的核心语句和文档段落集合。可选的，可以采用HanLP文本分词模型对核心语句和文档段落集合进行分词处理，也可以采用Jieba文本分词模型对核心语句和文档段落集合进行分词处理，得到分词后的核心语句和分词后的文档段落集合。可选的，文本分词方法还可以采用基于词典的分词算法或基于统计的机器学习算法等，本实施例在此不作具体限定。

S203，根据核心语句与答案位置之间的对应关系，从所述分词后的文档段落集合中确定所述分词后的核心语句对应的各答案段落。

具体的，计算机设备得到分词后的核心语句和分词后的文档段落集合后，可以是采用统计学方法、机器学习方法、深度学习法等得到的核心语句与答案位置之间的对应关系，也可以是基于业务词典和一些问题模板得到的核心语句与答案位置之间的对应关系。获取到用户问题中的核心语句之后，可以根据核心语句与答案位置之间的对应关系，从分词后的文档段落集合中确定分词后的核心语句对应的各答案段落的位置，再根据各答案段落的位置确定分词后的核心语句对应的各答案段落。

S204，根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。

具体的，概率值可以表示答案段落被确定为目标答案段落的概率，例如，答案段落的概率值越高，该答案段落为目标答案段落的概率越大，答案段落的概率值越低，该答案段落为目标答案段落的概率越小。可选的，计算机设备可以确定各答案段落的概率值中最大值对应的答案段落，为分词后的核心语句对应的目标答案段落；也可以确定各答案段落的概率值超过预设阈值的答案段落，为分词后的核心语句对应的目标答案段落。

本实施例提供的机器阅读理解方法，计算机设备根据核心语句和预设的文档定位方法，从数据库中获取核心语句对应的文档段落集合，并对核心语句和文档段落集合进行文本分词处理，得到分词后的核心语句和分词后的文档段落集合，然后根据核心语句与答案位置之间的对应关系，从分词后的文档段落集合中确定分词后的核心语句对应的各答案段落，最终根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。在确定目标答案段落的过程中，计算机设备通过对录入数据进行格式化处理，尤其的对于非结构化的数据进行格式化处理之后，相当于计算机设备可以处理非结构话的数据，满足用户的需求；另外，计算机设备从格式化的数据库中获取核心语句对应的文档段落集合，从而确定用户问题的核心语句对应的目标答案段落，提高了确定的目标答案段落的速率和准确性。

在上述图2实施例的基础上，作为一种可选的实施方式，该方法还包括：根据预设的问题模板，获取所述核心语句与答案位置之间的对应关系；所述问题模板用于确定核心语句的答案在所述分词后的文档段落集合中的位置。

其中，预设的问题模板是一种使用符合语言学表达的规则来描述实体关系，例如，问题模板为“XXX和XXXX的区别是什么”，其中，XXX和XXXX为核心语句，当用户输入的问题为想知道信用卡和存储卡有什么区别，则提取的核心语句为“信用卡”和“存储卡”，套用上述模板，可以得到“信用卡和存储卡的区别是什么”，或者当用户输入的是“信用卡和存储卡的不同”也可以套用上述模板，或者，针对“的区别”、“有什么不同”、“哪里不一样”、“有什么不一样”、“一样吗”、“是否一样”、“有哪些区别”、“的不同”、“的主要区别”、“有什么区别”、“有啥区别”、“有啥不同”等词句出现时，都可以采用“XXX和XXXX的区别是什么”这一问题模板。例如，问题模板为“什么是XXXX”，则想知道“个人本票是什么”，“什么是信用卡预借现金”，“什么时候消费最划算”，“什么是备用金存款”，“什么是储蓄卡直付”，“什么是超级网银”等用户问题都使用“什么是XXXX”这一问题模板。或者，问题模板为“如何XXXX”，则“如何办理个人通知存款取消通知”，“如何查看信用卡到期还款日”，“如何申请IC卡片”，“如何进行到期换卡申请”，“如何开通个人版支付”等用户问题都使用“如何XXXX”这一问题模板。

具体的，编辑人员将预设的问题模板输入计算机设备中，计算机设备根据预设的问题模板，确定核心语句的答案在分词后的文档段落集合中的位置，然后根据核心语句的答案在分词后的文档段落集合中的位置，获取核心语句与答案位置之间的对应关系。

在上述实施例的基础上，进一步地，所述方法还包括：根据业务词典，从用户问题中提取所述核心语句；所述业务词典为通过机器学习得到的名词库。

其中，业务词典是由一些名词组成的名词库，在不同的业务领域，对应不同的业务词典。例如，金融行业的业务词典为：个人业务、公司业务、中小企业业务、境外银行、账户预开立、存款业务、融资业务、供应链金融业务、国际业务、投行业务、中间业务、同业业务、资金业务、托管业务、政府与公共项目业务、现金管理、便利服务、支付结算、投资理财、转账汇款等。保险行业的业务词典为：意外伤害保险、保证保险、信用保险业务、健康保险、财产保险、团体保险、养老保险等。手机通信行业的业务词典为：本地通话、漫游通话、增值业务、来电显示、信息点播、话费减免等。

在本实施例中，计算机设备通过机器学习得到名词库，将该名词库确定为业务词典存储于数据库中，然后计算机设备根据该业务词典，从用户问题中提取核心语句。例如：一般的分词工具jieba对核心语句“个人业务”进行文本分词处理后得到的分词是[“个人”，“业务”]这两个名词，然而，基于业务词典，针对核心语句“个人业务”进行文本分词处理后得到的分词是“个人业务”这一个名词，可见，在不同的领域，根据该领域的业务词典得到的分词结果更加的准确，从而提高了确定核心语句的答案在分词后的文档段落集合中的位置准确性。

图4为一个实施例提供的一种机器阅读理解方法的流程示意图，本实施例涉及的是根据各答案段落在分词后的文档段落集合中出现的次数和分词后的文档段落集合中的文档段落总数目，确定各答案段落概率值的具体实现过程。如图4所示，在上述实施例的基础上，可选的，上述方法还包括：

S401，获取所述分词后的核心语句在各所述答案段落中出现的次数。

可选的，计算机设备可以依次遍历对应的答案段落中的文字，获取核心语句在对应答案段落中出现的次数；也可以提取出答案段落中的核心语句，统计提取出的核心语句的个数，获取核心语句在对应答案段落中出现的次数，本实施例在此不做具体限定。

S402，根据各所述答案段落对应的次数和所述分词后的文档段落集合中的文档段落总数目确定所述概率值。

具体的，计算机设备获取各答案段落对应的次数后，根据各答案段落对应的次数与分词后的文档段落集合中的文档段落总数目之间的比值关系，确定各答案段落的概率值。例如，计算机设备可以分别求出各答案段落对应的次数与分词后的文档段落集合中的文档段落总数目之间的比值，可以将该比值确定为各答案段落的概率值；或者，还可以对比值进行修正等处理，将处理后的比值确定为各答案段落的概率值。

可选的，在图4所示实施例的基础上，如图5所示，上述S402包括：

S501，获取各所述答案段落对应的次数与所述分词后的文档段落集合中的文档段落总数目之间的比值。

S502，根据各所述答案段落对应的比值，确定各所述答案段落的概率值。

可选的，计算机设备可以将该比值确定为各答案段落的概率值，也可以对各答案段落的比值进行校验，对校验不合格的比值，重新统计分词后的核心语句在该答案段落中出现的次数和分词后的文档段落集合中的文档段落总数目，重新计算该答案段落的比值，确定各答案段落的概率值；或者，对于明显异常的比值，计算机设备对该答案段落的比值进行重新计算或者直接丢弃，比如，比值为1或者大于0.8的比值都视为异常。

在本实施例中，计算机设备获取各所述答案段落对应的次数与所述分词后的文档段落集合中的文档段落总数目之间的比值后，根据各答案段落对应的比值，确定各答案段落的概率值，提高了确定的各答案段落的概率值的准确性。

图6为一个实施例提供的一种机器阅读理解方法的流程示意图，本实施例涉及的是根据各答案段落的概率值确定分词后的核心语句对应的目标答案段落的具体实现过程。如图6所示，在上述实施例的基础上，可选的，上述S502之后，上述方法还包括：

S601，将相邻两个所述答案段落对应的比值进行比较，确定候选答案段落；所述候选答案段落为所述相邻两个所述答案段落中比值最大的答案段落。

具体的，计算机设备获取各答案段落对应的比值后，分别将相邻两个段落的比值进行比较，取其中较大的比值对应的段落为候选答案段落。例如，段落A、段落B和段落C依次相邻，段落A的比值为0.2，段落B的比值为0.4，段落C的比值为0.3，将相邻的段落A和段落B的比值进行比较后，确定段落B为候选答案段落，再将相邻段落B和段落C的比值进行比较，确定段落B为候选的答案段落，若段落C的比值为0.5，那么段落B和段落C的比值进行比较时，确定段落C为候选的答案段落。需要说明的是，候选的答案段落可以是一个，也可以是多个。可选的，可以计算相邻两个答案段落对应的比值的差值，确定候选答案段落，例如，用答案段落A的比值减去答案段落B的比值，若差值为正，则确定答案段落A为候选答案段落，若差值为负，则确定答案段落B为候选答案段落。

S602，根据各所述候选答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。

可选的，可以确定各候选答案段落中概率值最大的段落为分词后的核心语句对应的目标答案段落，也可把候选答案段落的概率值排序，取前N个概率值对应的答案段落为目标答案段落，其中N大于等于1；或者，采用冒泡排序，取概率值最大的候选答案段落为目标答案段落；也可以将概率值大于预设阈值的候选答案段落确定为目标答案段落。

在本实施例中，计算机设备将分词后的段落集合中相邻两个答案段落中比值最大的答案段落确定为候选答案段落，根据各候选答案段落的概率值确定分词后的核心语句对应的目标答案段落，提高了得到目标答案段落的准确性，同时，该确定过程的每个步骤都十分简单，提高了确定候选答案段落的确定效率。

图7为一个实施例提供的一种机器阅读理解方法的流程示意图，本实施例涉及的是根据各候选答案段落的概率值确定分词后的核心语句对应的目标答案段落的具体实现过程。如图7所示，在上述图6所示实施例的基础上，可选的，上述S602包括：

S701，根据各所述候选答案段落的概率值，获取各所述答案段落的权重。

具体的，计算机设备确定各候选答案段落的概率后，可用TF-IDF公式来获取各答案段落的权重；或者，还可以根据一些规则来设置各所述答案段落的权重，例如，各候选答案段落的概率值越高，那么该候选答案段落的权重越高，各候选答案段落的概率值越低，那么该候选答案段落的权重越低。

S702，根据所述分词后的核心语句在各所述答案段落中出现的次数，确定各所述答案段落的量化值。

其中，答案段落的量化值指的是根据核心语句在段落中出现的次数来对答案段落进行评分。可选地，核心语句在段落中出现的次数越多，那么该候选答案段落对应的量化值越高，核心语句在段落中出现的次数越少，那么该候选答案段落对应的量化值越低。可选的，计算机设备也可以根据核心语句在各答案段落中的所占的比例，确定各答案段落的量化值，可选地，核心语句在各答案段落中所占的比例越大，那么该候选答案段落对应的量化值越大，核心语句在各答案段落中所占的比例越小，那么该候选答案段落对应的量化值越小。

S703，根据各所述答案段落的权重和量化值，确定所述分词后的核心语句对应的目标答案段落。

具体的，计算机设备获取各答案段落的权重和量化值后，可选的，可以确定各答案段落中权重值最大的段落为目标答案段落，或者确定各答案段落中量化值最大的段落为目标答案段落，也可以设置不同的上限值和下限值对各答案段落的权重值和量化值进行进一步的判断，从而确定目标段落。

在本实施例中，计算机设备根据各候选答案段落的概率值，确定各候选答案段落的权重和量化值，根据各候选答案段落的权重和量化值确定分词后的核心语句对应的目标答案段落，在候选答案段落的基础上进一步确定目标答案段落，从而提高了得到目标答案段落的准确性。

在上述实施例的基础上，作为一种可选的实施方式，所述根据各所述答案段落的权重和量化值，确定所述分词后的核心语句对应的目标答案段落，包括：将满足预设的选择条件的答案段落，确定为所述目标答案段落；所述选择条件包括所述权重大于第一阈值和/或所述量化值大于第二阈值。

具体的，计算机设备将各答案段落的权重值与第一阈值进行比较，确定各答案段落中权重值大于第一阈值的候选答案段落为目标答案段落；或者将各答案段落的量化值与第二阈值进行比较，确定各答案段落中量化值大于第二阈值的候选答案段落为目标答案段落，或者确定各答案段落中权重值大于第一阈值并且量化值大于第二阈值的候选答案段落为目标答案段落。例如，第一阈值为10％，第二阈值为30％，若候选答案段落的权重值为30％，量化值为40％，该候选答案段落的权重值大于第一阈值并且量化值大于第二阈值，那么可以确定该候选答案段落为目标答案段落；若候选答案段落的权重值为20％,量化值为25％，该候选答案段落的权重值大于第一阈值，量化值小于第二阈值，那么也可以确该候选答案段落为目标答案段落。如果得到的候选答案段落的权重值为50％，量化值为60％，则表示得到的目标段落中有一半语句是核心语句，显然这种情况是不存在的，应过滤掉该权重或者量化值对应的目标段落，重新确定目标段落。

在本实施例中，根据各候选答案段落的权重和量化值与预设的选择条件进行比较，确定分词后的核心语句对应的目标答案段落，过滤掉候选段落中不合理的目标答案段落，从而提高了得到目标答案段落的准确性。

图8为一个实施例提供的一种机器阅读理解方法的流程示意图，本实施例涉及的是对所述核心语句和所述文档段落集合进行文本分词处理的具体实现过程。如图8所示，在上述图2所述实施例的基础上，可选的，上述S202包括：

S801，对所述核心语句和所述文档段落集合进行预处理，得到预处理后的核心语句和文档段落集合；所述预处理包括丢弃非文本词句和停用词。

其中，非文本词句、停用词是为了提高阅读效率，过滤掉的一些字或词，非文本词句包括空格、换行以及标点符号等，停用词包括语气助词、副词、介词、连接词等，例如“的、是、在、了”。

S802，根据所述预设的文本分词模型，对所述预处理后的核心语句和文档段落集合进行文本分词处理。

具体的，计算机设备根据预设的文本分词模型，对丢弃掉非文本词句以及停用词的核心语句和文档段落集合进行分词处理，得到分词后的核心语句和文档段落集合。可选的，可以采用HanLP文本分词模型对核心语句和文档段落集合进行分词处理，也可以采用Jieba文本分词模型对核心语句和文档段落集合进行分词处理。

在本实施例中，计算机设备对核心语句和文档段落集合进行预处理，对丢弃掉非文本词句以及停用词的核心语句和文档段落集合进行分词处理，得到分词后的核心语句和文档段落集合，提高了确定目标答案段落的准确性。

为了便于本领域技术人员的理解，以下对本发明提供的模型处理方法进行详细介绍，如图9所示，该方法可以包括：

S901，提取用户问题的核心语句，根据核心语句和预设的文档定位方法，从数据库中获取所述核心语句对应的文档段落集合；所述数据库包括对非结构化数据进行格式化处理之后的数据，所述文档段落集合包括所述核心语句所在的文档段落。

S902，对所述核心语句和所述文档段落集合进行预处理，得到预处理后的核心语句和文档段落集合；所述预处理包括丢弃非文本词句和停用词。

S903，根据预设的文本分词模型，对所述预处理后的核心语句和文档段落集合进行文本分词处理。

S904，根据业务词典，从用户问题中提取所述核心语句；所述业务词典为通过机器学习得到的名词库。

S905，根据核心语句与答案位置之间的对应关系，从所述分词后的文档段落集合中确定所述分词后的核心语句对应的各答案段落。

S906，获取所述分词后的核心语句在各所述答案段落中出现的次数与所述分词后的文档段落集合中的文档段落总数目之间的比值，根据各所述答案段落对应的比值，确定各所述答案段落的概率值。

S907，将相邻两个所述答案段落对应的比值进行比较，确定候选答案段落；所述候选答案段落为所述相邻两个所述答案段落中比值最大的答案段落。

S908，根据各候选答案段落的概率值，获取各所述答案段落的权重。

S909，根据所述分词后的核心语句在各所述答案段落中出现的次数，确定各所述答案段落的量化值。

S910，将满足预设的选择条件的答案段落，确定为所述目标答案段落；所述选择条件包括所述权重大于第一阈值和/或所述量化值大于第二阈值。

需要说明的是，针对上述S901-S910中的描述可以参见上述实施例中相关的描述，且其效果类似，本实施例在此不再赘述。

应该理解的是，虽然图2-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-9中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图10为一个实施例提供的机器阅读理解装置结构示意图。如图10所示，该装置可以包括：第一获取模块10、处理模块11、第一确定模块12和第二确定模块13。

具体的，第一获取模块10，用于根据核心语句和预设的文档定位方法，从数据库中获取所述核心语句对应的文档段落集合；所述数据库包括对非结构化数据进行格式化处理之后的数据，所述文档段落集合包括所述核心语句所在的文档段落；

处理模块11，用于对所述核心语句和所述文档段落集合进行文本分词处理，得到分词后的核心语句和分词后的文档段落集合；

第一确定模块12，用于根据核心语句与答案位置之间的对应关系，从所述分词后的文档段落集合中确定所述分词后的核心语句对应的各答案段落；

第二确定模块13，用于根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。

本实施例提供的机器阅读理解装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在上述实施例的基础上，所述装置还包括：第二获取模块14。

具体的，第二获取模块14，用于根据预设的问题模板，获取所述核心语句与答案位置之间的对应关系；所述问题模板用于确定核心语句的答案在所述分词后的文档段落集合中的位置。

在上述实施例的基础上，所述装置还包括：提取模块15。

具体的，提取模块15，用于根据业务词典，从用户问题中提取所述核心语句；所述业务词典为通过机器学习得到的名词库。

图11为一个实施例提供的机器阅读理解装置结构示意图。在上述实施例的基础上，如图11所示，该装置还包括：第三获取模块16和第三确定模块17。

具体的，第三获取模块16，用于获取所述分词后的核心语句在各所述答案段落中出现的次数；

第三确定模块17，用于根据各所述答案段落对应的次数和所述分词后的文档段落集合中的文档段落总数目确定所述概率值。

图12为一个实施例提供的机器阅读理解装置结构示意图。在上述图11所示的实施例的基础上，如图12所示，上述第三确定模块17包括：第一获取单元171、第一确定单元172。

具体的，第一获取单元171，用于获取各所述答案段落对应的次数与所述分词后的文档段落集合中的文档段落总数目之间的比值。

第一确定单元172，用于根据各所述答案段落对应的比值，确定各所述答案段落的概率值。

图13为一个实施例提供的机器阅读理解装置结构示意图。在上述图10所示的实施例的基础上，如图13所示，上述第二确定模块13包括：第二确定单元131和第三确定单元132。

具体的，第二确定单元131，用于将相邻两个所述答案段落对应的比值进行比较，确定候选答案段落；所述候选答案段落为所述相邻两个所述答案段落中比值最大的答案段落。

第三确定单元132，用于根据各所述候选答案段落的概率值确定所述分词后的核心语句对应的目标答案段落。

图14为一个实施例提供的机器阅读理解装置结构示意图。在上述图13所示的实施例的基础上，如图14所示，上述第三确定单元132包括：第一获取子单元1321、第一确定子单元1322和第二确定子单元1323。

具体的，第一获取子单元1331，用于根据各所述候选答案段落的概率值，获取各所述答案段落的权重。

第一确定子单元1332，用于根据所述分词后的核心语句在各所述答案段落中出现的次数，确定各所述答案段落的量化值。

第二确定子单元1333，用于根据各所述答案段落的权重和量化值，确定所述分词后的核心语句对应的目标答案段落。

在一个实施例中，第二确定子单元1333，具体用于将满足预设的选择条件的候选答案段落，确定为所述目标答案段落；所述选择条件包括所述权重大于第一阈值和/或所述量化值大于第二阈值。

图15为一个实施例提供的机器阅读理解装置结构示意图。在上述图10所示的实施例的基础上，如图15所示，上述处理模块11包括：第一处理单元111和第二处理单元112。

具体的，第一处理单元111，用于对所述核心语句和所述文档段落集合进行预处理，得到预处理后的核心语句和文档段落集合；所述预处理包括丢弃非文本词句和停用词。

第二处理单元112，用于根据预设的文本分词模型，对所述预处理后的核心语句和文档段落集合进行文本分词处理。

关于机器阅读理解装置的具体限定可以参见上文中对于机器阅读理解方法的限定，在此不再赘述。上述机器阅读理解装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

上述实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

上述实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种机器阅读理解方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据预设的问题模板，获取所述核心语句与答案位置之间的对应关系；所述问题模板用于确定核心语句的答案在所述分词后的文档段落集合中的位置。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据各所述答案段落的概率值确定所述分词后的核心语句对应的目标答案段落之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据各所述答案段落对应的次数和所述分词后的文档段落集合中的文档段落总数目确定所述概率值，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据各所述答案段落对应的比值，确定各所述答案段落的概率值之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据各所述候选答案段落的概率值确定所述分词后的核心语句对应的目标答案段落，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据各所述答案段落的权重和量化值，确定所述分词后的核心语句对应的目标答案段落，包括：

9.根据权利要求1-3任一项所述的方法，其特征在于，所述对所述核心语句和所述文档段落集合进行文本分词处理，包括：

10.一种机器阅读理解装置，其特征在于，包括：

11.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-9中任一项所述方法的步骤。

12.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法的步骤。