CN116226478B

CN116226478B - 信息处理方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN116226478B
Application number: CN202211707355.5A
Authority: CN
Inventors: 姜文斌; 吕雅娟; 佘俏俏; 吴华; 吴甜; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2024-03-19
Anticipated expiration: 2042-12-27
Also published as: CN116226478A

Abstract

本公开提供了信息处理方法、模型训练方法、装置、设备及存储介质，涉及计算机技术领域，尤其涉及人工智能、自然语言处理等技术领域。具体实现方案为：获取问题描述信息；在知识库中检索问题描述信息相关的知识，得到检索结果；对问题描述信息和检索结果进行内容理解，得到待处理信息；基于待处理信息生成有向无环图，有向无环图中包括至少一个基本推理算子；基于有向无环图处理待处理信息，得到处理结果，并输出有向无环图中各基本推理算子的输入信息和输出结果。本公开实施例可以将推理过程表达和输出出来，能够便于用户了解推理过程，因此提高了认知智能的可解释性，为完善认知智能业务和其他业务提供了数据支持。

Description

信息处理方法、模型训练方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能、自然语言处理等技术领域。

背景技术

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

自然语言处理技术一个重要的方向是认知智能。其中，问答类和决策类是认知智能中最重要的两类任务。这两类任务在输入输出和计算过程上具有显著共性。例如，输入均为问题相关的描述，输出为问题答案或决策结果。

目前，不同行业对认知智能业务需求在不断加深，例如，医疗场景中的问答和诊断，金融场景中的咨询和风控，以及工业场景中的故障诊断等等。这些需求广泛存在，具有巨大的应用价值。但由于问题本身的复杂度，需要提高认知智能业务在处理问题过程中的可解释性。然而，当前并没有成熟可用的解决方案。

发明内容

本公开提供了一种信息处理方法、模型训练方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种信息处理方法，包括：

获取问题描述信息；

在知识库中检索问题描述信息相关的知识，得到检索结果；

对问题描述信息和检索结果进行内容理解，得到待处理信息；

基于待处理信息生成有向无环图，有向无环图中包括至少一个基本推理算子；

基于有向无环图处理待处理信息，得到处理结果，并输出有向无环图中各基本推理算子的输入信息和输出结果。

根据本公开的另一方面，提供了一种模型训练方法，包括：

获取训练样本，训练样本中包括问题样本和样本标签；

在知识库中检索问题样本相关的知识，得到相关知识；

对问题样本和相关知识进行内容理解，得到输入样本；

将输入样本输入到待训练网络，得到待训练网络输出的有向无环图；其中，有向无环图中包括至少一个基本推理算子；

基于待训练网络输出的有向无环图和样本标签，确定损失值；

基于损失值调整待训练网络的模型参数，在满足训练收敛条件的情况下，得到用于生成有向无环图的图生成网络。

根据本公开的另一方面，提供了一种信息处理装置，包括：

第一获取模块，用于获取问题描述信息；

第一检索模块，用于在知识库中检索问题描述信息相关的知识，得到检索结果；

内容理解模块，用于对问题描述信息和检索结果进行内容理解，得到待处理信息；

第一生成模块，用于基于待处理信息生成有向无环图，有向无环图中包括至少一个基本推理算子；

执行模块，用于基于有向无环图处理待处理信息，得到处理结果，并输出有向无环图中各基本推理算子的输入信息和输出结果。

根据本公开的另一方面，提供了一种模型训练装置，包括：

第二获取模块，用于获取训练样本，训练样本中包括问题样本和样本标签；

第二检索模块，用于在知识库中检索问题样本相关的知识，得到相关知识；

内容理解模块，用于对问题样本和相关知识进行内容理解，得到输入样本；

第二生成模块，用于将输入样本输入到待训练网络，得到待训练网络输出的有向无环图；其中，有向无环图中包括至少一个基本推理算子；

损失确定模块，用于基于待训练网络输出的有向无环图和样本标签，确定损失值；

调整模块，用于基于损失值调整待训练网络的模型参数，在满足训练收敛条件的情况下，得到用于生成有向无环图的图生成网络。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

本公开实施例可以将推理过程表达和输出出来，能够便于用户了解推理过程，因此提高了认知智能的可解释性，为完善认知智能业务和其他业务提供了数据支持。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的信息处理方法的流程示意图；

图2是根据本公开一实施例的认知智能业务的框架示意图；

图3是根据本公开一实施例的有向无环图生成的流程示意图；

图4是根据本公开一实施例的生成有向无环图的流程示意图；

图5是根据本公开一实施例的又一生成有向无环图的流程示意图；

图6是根据本公开一实施例的生成有向无环图的流程示意图；

图7是根据本公开一实施例的执行基本算子的场景示意图；

图8是根据本公开一实施例的模型训练方法的流程示意图；

图9是根据本公开一实施例的生成有向无环图的流程示意图；

图10是根据本公开一实施例的确定损失值的示意图；

图11是根据本公开一实施例的进行问答的场景示例图；

图12是根据本公开一实施例的又一进行问答的场景示例图；

图13是根据本公开一实施例的信息处理装置的结构示意图；

图14是根据本公开一实施例的模型训练装置的结构示意图；

图15是用来实现本公开实施例的信息处理方法和/或模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

提高认知智能业务在处理问题过程中的可解释性，能够帮助理解认知智能如何处理问题，能够协助用户了解认知智能，帮助开发者更好的优化认知智能或开展下游业务。

有鉴于此，本公开实施例提供了一种信息处理方法，如图1所示，为该方法的流程示意图，包括：

S101，获取问题描述信息。

其中，问题描述信息包括输入问题及问题上下文。例如多轮对话中，问题描述信息包括当前输入的语句，还包括多轮对话的上下文以便于认知智能能够更好的理解用户意图。

S102，在知识库中检索问题描述信息相关的知识，得到检索结果。

实施时，为了更好的理解用户意图，给出合适的回答或决策，在获得问题描述信息的基础上，需要在知识库中检索相关的知识，以便于后续正确的响应问题描述信息。例如，AI(Artificial Intelligence，人工智能)医疗领域，如果用户询问高血压情况下适用的感冒药，那么需要检索高血压的相关知识，以便于寻找高血压患者可用的感冒药。

S103，对问题描述信息和检索结果进行内容理解，得到待处理信息。

也即，为了能够正确理解问题，需要对问题描述信息和检索结果进行内容理解，以便于后续基于理解的内容进行推理，得到准确的回答或决策结果。

S104，基于待处理信息生成有向无环图，有向无环图中包括至少一个基本推理算子。

也即，本公开实施例中，预先定义好了多个基本推理算子，这些基本推理算子构建的有向无环图能够用来处理问题描述信息和相关知识，以便于得到答案。为了提高认知智能业务的可解释性，本公开实施例中，执行S105帮助用户梳理推理过程。

S105，基于有向无环图处理待处理信息，得到处理结果，并输出有向无环图中各基本推理算子的输入信息和输出结果。

由此，本公开实施例中，基于问题描述信息和检索的相关知识来生成有向无环图。该有向无环图中包括基本推理算子，在处理问题描述信息和相关知识得到处理结果的过程中，会输出基本推理算子的输入信息和输出结果。由此，将推理过程能够表达和输出出来，能够便于用户了解推理过程，因此提高了认知智能的可解释性，为完善认知智能业务和其他业务提供了数据支持。

在一些实施例中，有向无环图中各基本推理算子以状态转移的方式逐步执行，以完成复杂的推理过程。如图2所示，为整个认知智能业务的框架示意图。如图2所示，认知智能业务的整体处理流程中由知识检索、内容理解、决策、生成/执行四大环节构成。

图2中的输入为问题语句，其数据形式不限。例如，可以是无结构的文档、视频也可以是结构化的表格或相关知识。这里的相关知识是通过图2中的知识检索环节获取的。

图2中的知识检索环节用以根据输入的问题描述信息检索相关的外部知识，作为辅助证据参与推理过程。知识检索环节用于实现S102中的相关操作。实施时，可提供外部知识图谱这一知识数据库。不同业务场景下对知识的要求不同，例如机场服务、高铁运输服务对携带的物品有要求，那么不同业务场景可拥有自己的外部知识图谱数据库。在机场服务、高铁运输服务场景中，用户询问是否可携带具体物品时，需要根据机场要求和高铁运输要求相关的知识为用户作答。此外，有些业务场景可能不需要相应的外部知识，本公开实施例中均可以进行知识的检索，在检索到相关知识的情况下，检索结果为相关知识，在没有检索到相关知识的情况下，检索结果可以为空。一种可能的实施方式中，可以从问题描述信息中提取出关键词；基于关键词在知识库检索与关键词匹配的知识，得到检索结果。另一种可能的实施方式中，也可以提取问题描述信息的向量表示，和知识库中的向量表示进行匹配，检索出与问题描述信息的向量表示接近的知识作为检索结果。

图2中的内容理解环节用以获得输入的特征表示，通常采用预训练模型进行。该环节用于执行S103从问题描述信息和检索结果中进行内容理解。具体可实施为：将问题描述信息和检索结果输入神经网络模型进行内容理解；将神经网络模型提取的特征表示，确定为待处理信息。这里的神经网络模型即预训练模型，用于对问题描述信息和检索结果进行内容理解，抽取出更有意义的信息供后续决策，以提高信息处理的准确性。如图2所示，内容理解环节，包括问题理解、数据理解和对知识表示的理解，理解的这些内容形成特征表示输入给决策环节执行推理过程。

图2中的决策环节，用于基于输入的特征表示生成有向无环图，以便于对输入的特征表示进行推理。

图2中的生成/执行环节用以基于决策环节执行的结果生成答案语句，或执行由基本推理算子构成的计算图(即有向无环图)。以生成答案语句为例，用户问“今天北京天气怎么样”则会获取时间点为“今天”、位置为“北京”的天气，得到北京的天气情况并回答用户。如图2所示，生成/执行环境负责答案生成，或指令执行。这里的指令执行，即执行基本推理算子，得到最终结果。并根据处理结果响应问题描述信息。例如，输出的答案形式可以是语句、数字、图像中的至少一种。同时，可以输出答案的置信度。即给出得到该答案的正确概率是多少。此外，对整个推理过程进行解释，给出决策依据、决策过程。解释的实现可依赖输出每个基本推理算子的输入和输出来实现。有可能的情况下，还可以输出基本推理算子的中间推理过程。实施时，可使用语义/指令语法，用于执行基本推理算子。此外，可提供启发式规则来执行生成/执行环节。启发式规则，使得图2中的整个框架能够自动学习处理方式，提高认知智能的智能化程度。

图2中的内容理解、生成/执行和知识检索这三个环节，要么负责基础的操作，要么负责微观的操作，且目前都有较为成熟的解决方案，因此可理解为这三个环境不涉及到知识推理和可解释性的核心。

由于图2中的决策环节负责根据内容理解环节对输入的问题描述信息及检索知识的理解，给出能够完成推理任务的推理过程。也即，决策环节负责生成由基本推理算子构成的有向无环的计算图。以便于将推理过程拆解为多个基本推理算子，进而能够展示各基本推理算子的推理过程，提高推理过程的可解释性。如图2所示，决策环境可包括黑盒决策和透明决策中的至少一种。其中，神经网络模型可以理解为一种黑盒决策，可视为一种基本推理算子。透明决策，即可以拆解为至少一个基本推理算子的决策过程。

本公开实施例中，基本推理算子，是基本的计算单元。实施时，可根据不同场景的业务需求，拆解出相应的基本推理算子。

此外，本公开实施例提供候选计算单元集合。该集合用于提供基本推理算子，候选计算单元集合中包括以下基本推理算子中的至少一种：

匹配判定单元、用于对输入信息和判定条件进行匹配操作并输出匹配结果；

因果逻辑单元、用于确定输入信息之间的因果关系；

逻辑计算单元、用于执行交叉并补操作；

算术计算单元、用于执行加法操作、减法操作、乘法操作和除法操作中的至少一种；

比较操作单元、用于比较输入信息和目标信息之间的大小关系；

聚合操作单元、用于执行求和操作和计数操作中的至少一种。

本公开实施例中通过提供具体的通用的基本推理算子，为生成有向无环图提供数据基础，以便于提高认知智能的可解释性。

在具有了通用的基本推理算子的基础上，可以基于基本推理算子生成有向无环图。以便于将推理过程拆解为依序执行的多个基本推理算子的步骤执行，并可以理解各基本推理算子的推理过程，从而提高认知智能的可解释性。

一种可能的实施方式中，可以将待处理信息输入到图生成网络，得到有向无环图。如图3所示，对问题描述信息和检索结果通过内容理解提取特征表示之后，将该特征表示即待处理信息，输入到图生成网络中，得到图生成网络输出的有向无环图。该有向无环图中包括至少一个基本推理算子。

由此，本公开实施例通过图生成网络可以智能的生成有向无环图，通过图生成网络可以准确的理解问题描述信息和相关知识，以便于准确的生成有向无环图来对问题描述信息进行推理，得到具有解释性的基本推理算子。

本公开实施例中，图生成网络可以一次性将有向无环图中各基本推理算子均输出，也可以逐个生成有向无环图中的各基本推理算子。

图生成网络一次性生成有向无环图的实施方式可执行为，如图4所示，包括：

S411，将待处理信息输入图生成网络，得到图生成网络输出的有序执行的至少一个基本推理算子。

S412，基于至少一个基本推理算子的执行顺序，构建有向无环图。

如图5所示，待处理信息输入图生成网络，该图生成网络一次输出了包含三个基本推理算子的有向无环图。例如，图5中的基本推理算子a用于根据条件A筛选出第一类结果，基本推理算子b用于根据条件B筛选出第二类结果，基本推理算子c用于从第一类结果和第二类结果中筛选出相同的结果。

本公开实施例中，图生成网络能够一次生成有向无环图的所有基本推理算子，生成了可解释性强的推理过程，为能够展示各个基本推理算子的推理过程提供了数据支撑。

逐个生成有向无环图中各基本推理算子的实施方式可执行为，如图4所示，包括：

S421，将待处理信息输入图生成网络，得到有向无环图中的首个基本推理算子。

S422，针对有向无环图中的每个待生成的基本推理算子，分别执行：将已生成的基本推理算子构建的待完善有向无环图，以及待处理信息输入图生成网络，得到有向无环图中的待生成的基本推理算子。

例如，图6所示，将待处理信息输入图生成网络，得到第一个基本推理算子n1。之后，如图6所示，将第一个基本推理算子n1和待处理信息再次输入图生成网络，得到第二个基本推理算子n2。接着，将第一个基本推理算子n1、第二个基本推理算子n2构成的计算图和待处理信息输入图生成网络，得到第三个基本推理算子n3。以此类推，第1-i个基本推理算子n1-ni构成的计算图，以及待处理信息输入图生成网络，得到第i+1个基本推理算子n(i+1)。

本公开实施例中，能够基于已生成的基本推理算子生成下一个基本推理算子，由此在逐个生成基本推理算子的过程中参考了上下文环境来生成下一个基本推理算子，使得生成的基本推理算子较为准确，能够得到准确的可解释性强的推理过程，得到问题描述信息合理的处理结果。

在本公开实施例中基于待处理信息对有向无环图进行预测。基于输入的待处理信息确定任务求解所需的推理计算图。认知智能业务中所面临的复杂推理问题通常具有类似的求解逻辑，先求解最细小的问题，再逐步求解更上层的问题。有向无环图是由基本推理算子构成的推理计算图，描述的是整个问题求解过程应该分解成哪些步骤。通俗而言，即确定应该先算什么、再算什么、最后算什么。基于输入的待处理信息确定有向无环图，可以采用多种具体的实施方式。例如可以借助端到端神经网络(如图生成网络)直接将输入的待处理信息预测为基本推理算子的序列表达或树状表达，也可以逐步地基于输入的待处理信息和当前已经得到的计算图预测下一个推理算子直至得到整个有向无环图。这两种策略本质上都是步进式的状态转移的过程，都可以做到随时中断和干预。

需要说明的是，本公开实施例提出了将输入的待处理信息映射为一个清晰的由基本推理算子构成的有向无环图的思路，而不限定采用何种映射策略预测有向无环图。

在得到有向无环图的基础上，可以对问题描述信息进行处理，以完成认知智能所需执行的任务。在问答场景中，可以基于有向无环图处理待处理信息，生成与问题描述信息匹配的问答类答案；基于问答类答案响应问题描述信息。例如，问题描述信息为“请播放张某某的描述夏天的歌”，则可以检索得到该歌手的所有歌曲，并对所有歌曲和问题描述信息进行理解，然后基于内容理解得到的特征表示，得到由多个基本推理算子构建的有向无环图，之后基于有向无环图处理问题，得到张某某的描述夏天的歌，并反馈给用户。

本公开实施例中，可以将推理过程拆解为由基本推理算子依序执行的各个步骤，能够帮助理解问答场景中认知智能的处理过程，提高了处理过程的可解释性，以便于用户理解和梳理处理过程，对出现的问题进行定位，也便于扩展其他业务的功能。

在另一些实施例中，可在有向无环图中的基本推理算子为需要执行的决策策略的情况下，执行决策策略，得到执行结果；基于执行结果响应问题描述信息。例如，问题描述信息为“从北京天安门到香山的自驾路线”，则可以检索地图得到北京的地图信息，然后将问题和地图信息一起进行内容理解，得到由多个基本推理算子构建的有向无环图，之后基于有向无环图处理问题，得到处理结果，然后生成路线反馈给用户。

本公开实施例中，可以将推理过程拆解为由基本推理算子依序执行的各个步骤，能够帮助理解决策场景中认知智能的处理过程，提高了处理过程的可解释性，以便于用户理解和梳理处理过程，对出现的问题进行定位，也边缘扩展其他业务的功能。

为了能够较好的理解推理过程，本公开实施例中输出有向无环图中各基本推理算子的输入信息和输出结果可实施为：在有向无环图的基础上，标记出各基本推理算子的执行顺序、各基本推理算子的输入信、以及各基本推理算子的输出结果。

例如图7所示，包括基本推理算子1、基本推理算子2和基本推理算子3依序执行构建的有向无环图。可以展示出基本推理算子1的输入信息A以及输出信息A1，然后展示出基本推理算子2的输入信息A1以及输出信息A2，之后展示出基本推理算子3的输入信息A2和输出信息A3。由此，整个的推理过程，均被明确的展示出来，能够便于用户理解推理的过程，查看各个基本推理算子推理的结果是否准确，由此可以很好的解释推理过程。

综上，本公开实施例中将整个推理过程拆解为由基本推理算子构建的有向无环图，能够展示出推理过程所采用的基本推理算子及其执行推理的过程，使得认知智能业务的处理过程能够被解释和理解。

基于相同的技术构思，本公开实施例还提供一种模型训练方法，该模型用于生成前述的有向无环图。如图8所示，该方法包括以下步骤：

S801，获取训练样本，训练样本中包括问题样本和样本标签。

实施时，问题样本由预先采集的问题描述信息构成。一条问题描述信息对应一个训练样本。样本标签即对该问题描述信息进行处理所需的整个处理过程，该处理过程由多个基本推理算子构建的有向无环图来表示。也即，样本标签是一个正确的有向无环图。

S802，在知识库中检索问题样本相关的知识，得到相关知识。

如前文所阐述的，检索可以基于知识库进行，得到的检索结果既可以为空也可以不为空。

S803，对问题样本和相关知识进行内容理解，得到输入样本。

S804，将输入样本输入到待训练网络，得到待训练网络输出的有向无环图；其中，有向无环图中包括至少一个基本推理算子。

S805，基于待训练网络输出的有向无环图和样本标签，确定损失值。

S806，基于损失值调整待训练网络的模型参数，在满足训练收敛条件的情况下，得到用于生成有向无环图的图生成网络。

其中，训练收敛条件可以为训练的损失值基本不再变化，或迭代训练指定次数。

本公开实施例中，通过训练模型，使之能够生成包含基本推理算子的有向无环图,以便于在认知智能的处理过程中能够基于基本推理算子了解推理过程，提高认知智能业务的可解释性。

如前文所阐述的，本公开实施例中基本推理算子包括以下中的至少一种：

因果逻辑单元、用于确定输入信息之间的因果关系；

逻辑计算单元、用于执行交叉并补操作；

需要说明的是，本公开实施例中并不限定具体的基本推理算子，实施时，可根据需求设置合理的基本推理算子。

基本推理算子是执行推理过程的基本计算单元。

实施时，与前文阐述的类似，本公开实施例中，可一次输出完整的有向无环图，也可以逐步生成有向无环图。

一次输出完整的有向无环图可实施为：将输入样本输入到待训练网络，得到待训练网络输出的有序执行的至少一个基本推理算子；基于至少一个基本推理算子的执行顺序，构建有向无环图。

逐步生成有向无环图可实施为：将输入样本输入到待训练网络，得到有向无环图中的首个基本推理算子；

针对有向无环图中的每个待生成的基本推理算子，分别执行：

将已生成的基本推理算子构建的待完善有向无环图，以及待处理信息输入待训练网络，得到有向无环图中的待生成的基本推理算子。

如图9所示，输入问题描述信息Question和相关知识，以及待完善的计算图。初始阶段，待完善的计算图为空。

问题描述信息和相关知识经过问题编码器(Question Encoder)编码后提取出特征表示，即待处理信息。图编码器(Graph Encoder)对待完善的计算图进行编码后，得到编码图；两个编码器的输出结果进行交叉学习(Interaction)，处理结果交由动作预测单元(Aciton Predictor)处理，得到基本推理算子的预测结果。例如图9所示，可以给出每个预测的基本推理算子的预测置信度(如图9中的0.85为预测出的最后一个基本推理算子的预测置信度)。整个过程，可实施为如图9右侧所示的步骤，包括：

S901，获取待处理信息。即输入Input为Question，以及待完善的计算图。

S902，获取输入的特征表示。即获取Question，以及部分图(PartialGraph)的交互学习的特征表示。

S903，基于预测单元(Stepwise Decider)预测出下一个基本推理算子，并给出基本推理算子的预测置信度Confidence，以及与其相连的基本推理算子的连接边(Edge)。

S904，确定是否结束预测，若结束预测，则输出最终的有向无环图。若不结束预测，将更新后的计算图作为新的输入，继续预测。

实施时，可以将结束节点设置为一个基本推理算子，在预测到结束节点的情况下，确定结束预测，在没有预测到结束节点的情况下，确定继续预测有向无环图。

由此，本公开实施例中，能够基于已知的基本推理算子生成下一个基本推理算子，由此在逐个生成基本推理算子的过程中参考了上下文环境来生成下一个基本推理算子，使得生成的基本推理算子较为准确，能够准确的执行推理过程，得到问题描述信息合理的处理结果。

无论采用何种方式生成有向无环图，本公开实施例中基于待训练网络输出的有向无环图和样本标签，确定损失值，可实施为：

在待训练网络输出的有向无环图与样本标签一致的情况下，确定损失值为第一值；

在待训练网络输出的有向无环图与样本标签不一致的情况下，确定损失值为第二值。

例如，当生成的有向无环图与样本标签的有向无环图一致时，可确定损失值为0，当生的有向无环图与样本标签的有向无环图不一致时，可确定损失值为-1，由此可通过损失值调整模型参数，使得模型能够正确输出有向无环图。

本公开实施例中，能够描述预测的有向无环图的整体准确度，以便于采用损失值来调整模型参数，使得待训练网络能够基于输入的信息预测出正确的有向无环图。

在另一种实施方式中，基于待训练网络输出的有向无环图和样本标签，确定损失值，还可以实施为：

将待训练网络输出的有向无环图中第n个基本推理算子与样本标签中的第n个参考推理算子进行比对，其中n为正整数；n为有向无环图中的任意一个基本推理算组；

在比对结果一致的情况下，确定第n个基本推理算子对应第一损失值；

在比对结果不一致的情况下，确定第n个基本推理算子对应第二损失值；

将有向无环图中各基本推理算子对应的损失值相加，得到用于调整模型参数的损失值。

例如图10所示，训练标签中有向无环图中包括3个参考推理算子分别为A1、A2和A3。图生成网络预测的有向无环图中包括3个基本推理算子，分别为B1、B2和B3。

将B1和A1进行比对，若二者一致，则确定待训练网络正确预测了基本推理算子A1，对应的损失值为第一损失值，例如可以为0，若二者不一致，则确定待训练网络未能正确预测基本推理算子A1，对应的损失值为第二损失值，例如可以为-1。

以此类推，比对相同位置上的基本推理算子，得到各位置上的基本推理算子预测的正确性，并给予相应的损失值。由此，可以累加三个基本推理算子的损失值，得到的总损失值用于调整模型参数。

本公开实施例中，能够准确的描述有向无环图的中各基本推理算子的预测准确度，以便于采用损失值来调整模型参数，使得待训练网络能够基于输入的信息正确预测有向无环图。

为便于理解，下面以两个实施例为例对本公开实施例提供的信息处理方法进行说明。

如图11所示，问题描述信息为：“小糊涂仙能带上飞机吗？”。通过知识检索可得到通用知识1：小糊涂仙是酒。此外，还得到通用知识2：小糊涂仙的度数是38/52度。此外，通过机场规定知识，可得到行业知识1：酒精含量低于70％且体积不超过5L(升)。由此，基本推理算子采用CHECK(匹配判定)算子。该CHECK算子的输入包括arg1和arg2。arg1包括问题、通用知识1和通用知识2。第二个输入arg2包括行业知识1。对两个输入进行匹配判定，可以返回匹配的结果。

另一个实施例如图12所示，问题描述信息为：“喝大了头很痛吃点啥药？”，可以检索到通用知识1：喝大了，其近义为饮酒过量；行业知识1：头疼镇痛药物有XYZ；行业知识2：与酒精冲突的药物为XY。基于问题描述信息和检索到的知识，可生成包含三个基本推理算子的有向无环图。如图12所示，包括PROJECT1(匹配判定单元1)、PROJECT2(匹配判定单元2)和FILTER(匹配判断单元3)。其中，PROJECT1的输入为arg1，包括问题和行业知识1，以及arg2适配药物，其返回的结果为头痛阵痛药物。PROJECT2的输入为arg1，包括通用知识1和行业知识2，以及arg2禁忌药物，其返回的结果为与酒精冲突药物。PROJECT1和PROJECT2的处理结果作为FILTER的输入，即其输入包括arg1头痛镇痛要药物以及arg2酒精冲突药物，返回结果为合规药物。由此，得到与酒精不冲突的头痛阵痛药物，反馈给用户。

此外，为了便于用户了解整个推理过程，不仅可以向研发人员展示推理过程中各个基本推理算子的推理过程，还可以向提供服务的用户展示推理过程，以便于用户了解推理过程，提高认知智能反馈结果的可信度。

基于相同的技术构思，本公开实施例还提供一种信息处理装置，如图13所示，包括：

第一获取模块1301，用于获取问题描述信息；

第一检索模块1302，用于在知识库中检索问题描述信息相关的知识，得到检索结果；

内容理解模块1303，用于对问题描述信息和检索结果进行内容理解，得到待处理信息；

第一生成模块1304，用于基于待处理信息生成有向无环图，有向无环图中包括至少一个基本推理算子；

执行模块1305，用于基于有向无环图处理待处理信息，得到处理结果，并输出有向无环图中各基本推理算子的输入信息和输出结果。

在一些实施例中，候选计算单元集合提供用于生成有向无环图的基本推理算子，候选计算单元集合中包括以下基本推理算子中的至少一种：

因果逻辑单元、用于确定输入信息之间的因果关系；

逻辑计算单元、用于执行交叉并补操作；

在一些实施例中，第一生成模块1304，用于：

将待处理信息输入到图生成网络，得到有向无环图。

在一些实施例中，第一生成模块1304，用于：

将待处理信息输入图生成网络，得到图生成网络输出的有序执行的至少一个基本推理算子；

基于至少一个基本推理算子的执行顺序，构建有向无环图。

在一些实施例中，执行模块1305，用于：

将待处理信息输入图生成网络，得到有向无环图中的首个基本推理算子；

将已生成的基本推理算子构建的待完善有向无环图，以及待处理信息输入图生成网络，得到有向无环图中的待生成的基本推理算子。

在一些实施例中，内容理解模块1303，用于：

将问题描述信息和检索结果输入神经网络模型进行内容理解；

将神经网络模型提取的特征表示，确定为待处理信息。

在一些实施例中，执行模块1305包括：

答案生成子模块，用于基于有向无环图处理待处理信息，生成与问题描述信息匹配的问答类答案；

答案响应子模块，用于基于问答类答案响应问题描述信息。

在一些实施例中，执行模块1305，包括：

决策执行子模块，用于在有向无环图中的基本推理算子为需要执行的决策策略的情况下，执行决策策略，得到执行结果；

决策响应子模块，用于基于执行结果响应问题描述信息。

在一些实施例中，执行模块1305，用于：

在有向无环图的基础上，标记出各基本推理算子的执行顺序、各基本推理算子的输入信息、以及各基本推理算子的输出结果。

基于相同的技术构思，本公开还提供了一种模型训练装置，如图14所示包括：

第二获取模块1401，用于获取训练样本，训练样本中包括问题样本和样本标签；

第二检索模块1402，用于在知识库中检索问题样本相关的知识，得到相关知识；

内容理解模块1403，用于对问题样本和相关知识进行内容理解，得到输入样本；

第二生成模块1404，用于将输入样本输入到待训练网络，得到待训练网络输出的有向无环图；其中，有向无环图中包括至少一个基本推理算子；

损失确定模块1405，用于基于待训练网络输出的有向无环图和样本标签，确定损失值；

调整模块1406，用于基于损失值调整待训练网络的模型参数，在满足训练收敛条件的情况下，得到用于生成有向无环图的图生成网络。

在一些实施例中，第二生成模块1404，用于：

将输入样本输入到待训练网络，得到待训练网络输出的有序执行的至少一个基本推理算子；

基于至少一个基本推理算子的执行顺序，构建有向无环图。

在一些实施例中，第二生成模块1404，用于：

将输入样本输入到待训练网络，得到有向无环图中的首个基本推理算子；

在一些实施例中，损失确定模块1405，用于：

将待训练网络输出的有向无环图中第n个基本推理算子与样本标签中的第n个参考推理算子进行比对，其中n为正整数；

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如信息处理方法/模型训练方法。例如，在一些实施例中，信息处理方法/模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的信息处理方法/模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息处理方法/模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信息处理方法，包括：

获取问题描述信息；

在知识库中检索所述问题描述信息相关的知识，得到检索结果；所述检索结果作为辅助证据参与推理过程；

对所述问题描述信息和所述检索结果进行内容理解，得到待处理信息；

基于所述待处理信息生成有向无环图，所述有向无环图中包括至少一个基本推理算子；生成所述有向无环图的方式包括基于图生成网络，一次性生成所述有向无环图或逐步生成所述有向无环图；

基于所述有向无环图处理所述待处理信息，得到处理结果，并输出所述有向无环图中各基本推理算子的输入信息和输出结果。

2.根据权利要求1所述的方法，其中，候选计算单元集合提供用于生成所述有向无环图的基本推理算子，所述候选计算单元集合中包括以下基本推理算子中的至少一种：

因果逻辑单元、用于确定输入信息之间的因果关系；

逻辑计算单元、用于执行交叉并补操作；

3.根据权利要求1所述的方法，其中，在基于图生成网络，一次性生成所述有向无环图的情况下，所述基于所述待处理信息生成有向无环图，包括：

将所述待处理信息输入所述图生成网络，得到所述图生成网络输出的有序执行的至少一个基本推理算子；

基于所述至少一个基本推理算子的执行顺序，构建所述有向无环图。

4.根据权利要求1所述的方法，其中，在基于图生成网络，逐步生成所述有向无环图的情况下，所述基于所述待处理信息生成有向无环图，包括：

将所述待处理信息输入所述图生成网络，得到所述有向无环图中的首个基本推理算子；

针对所述有向无环图中的每个待生成的基本推理算子，分别执行：

将已生成的基本推理算子构建的待完善有向无环图，以及所述待处理信息输入所述图生成网络，得到所述有向无环图中的所述待生成的基本推理算子。

5.根据权利要求1-4中任一项所述的方法，其中，所述对所述问题描述信息和所述检索结果进行内容理解，得到待处理信息，包括：

将所述问题描述信息和所述检索结果输入神经网络模型进行内容理解；

将所述神经网络模型提取的特征表示，确定为所述待处理信息。

6.根据权利要求1-4中任一项所述的方法，其中，所述基于所述有向无环图处理所述待处理信息，得到处理结果，包括：

基于所述有向无环图处理所述待处理信息，生成与所述问题描述信息匹配的问答类答案；

基于所述问答类答案响应所述问题描述信息。

7.根据权利要求1-4中任一项所述的方法，其中，所述基于所述有向无环图处理所述待处理信息，得到处理结果，包括：

在所述有向无环图中的基本推理算子为需要执行的决策策略的情况下，执行所述决策策略，得到执行结果；

基于所述执行结果响应所述问题描述信息。

8.根据权利要求1-4中任一项所述的方法，其中，所述输出所述有向无环图中各基本推理算子的输入信息和输出结果，包括：

在所述有向无环图的基础上，标记出各基本推理算子的执行顺序、各基本推理算子的输入信息、以及各基本推理算子的输出结果。

9.一种模型训练方法，包括：

获取训练样本，所述训练样本中包括问题样本和样本标签；

在知识库中检索所述问题样本相关的知识，得到相关知识；

对所述问题样本和所述相关知识进行内容理解，得到输入样本；

将所述输入样本输入到待训练网络，得到所述待训练网络输出的有向无环图；其中，所述有向无环图中包括至少一个基本推理算子；

基于所述待训练网络输出的有向无环图和所述样本标签，确定损失值；

基于所述损失值调整所述待训练网络的模型参数，在满足训练收敛条件的情况下，得到用于生成有向无环图的图生成网络。

10.根据权利要求9所述的方法，其中，所述将所述输入样本输入到待训练网络，得到所述待训练网络输出的有向无环图，包括：

将所述输入样本输入到所述待训练网络，得到所述待训练网络输出的有序执行的至少一个基本推理算子；

11.根据权利要求9所述的方法，其中，所述将所述输入样本输入到待训练网络，得到所述待训练网络输出的有向无环图，包括：

将所述输入样本输入到所述待训练网络，得到所述有向无环图中的首个基本推理算子；

将已生成的基本推理算子构建的待完善有向无环图，以及待处理信息输入所述待训练网络，得到所述有向无环图中的所述待生成的基本推理算子。

12.根据权利要求10或11所述的方法，其中，所述基于所述待训练网络输出的有向无环图和所述样本标签，确定损失值，包括：

在所述待训练网络输出的有向无环图与所述样本标签一致的情况下，确定所述损失值为第一值；

在所述待训练网络输出的有向无环图与所述样本标签不一致的情况下，确定所述损失值为第二值。

13.根据权利要求10或11所述的方法，其中，所述基于所述待训练网络输出的有向无环图和所述样本标签，确定损失值，包括：

将所述待训练网络输出的有向无环图中第n个基本推理算子与所述样本标签中的第n个参考推理算子进行比对，其中n为正整数；

在比对结果一致的情况下，确定所述第n个基本推理算子对应第一损失值；

在比对结果不一致的情况下，确定所述第n个基本推理算子对应第二损失值；

将所述有向无环图中各基本推理算子对应的损失值相加，得到用于调整模型参数的损失值。

14.一种信息处理装置，包括：

第一获取模块，用于获取问题描述信息；

第一检索模块，用于在知识库中检索所述问题描述信息相关的知识，得到检索结果；所述检索结果作为辅助证据参与推理过程；

内容理解模块，用于对所述问题描述信息和所述检索结果进行内容理解，得到待处理信息；

第一生成模块，用于基于所述待处理信息生成有向无环图，所述有向无环图中包括至少一个基本推理算子；生成所述有向无环图的方式包括基于图生成网络，一次性生成所述有向无环图或逐步生成所述有向无环图；

执行模块，用于基于所述有向无环图处理所述待处理信息，得到处理结果，并输出所述有向无环图中各基本推理算子的输入信息和输出结果。

15.根据权利要求14所述的装置，其中，候选计算单元集合提供用于生成所述有向无环图的基本推理算子，所述候选计算单元集合中包括以下基本推理算子中的至少一种：

因果逻辑单元、用于确定输入信息之间的因果关系；

逻辑计算单元、用于执行交叉并补操作；

16.根据权利要求14所述的装置，其中，所述第一生成模块，用于：

17.根据权利要求14所述的装置，其中，所述第一生成模块，用于：

18.根据权利要求14-17中任一项所述的装置，其中，所述内容理解模块，用于：

19.根据权利要求14-17中任一项所述的装置，其中，所述执行模块包括：

答案生成子模块，用于基于所述有向无环图处理所述待处理信息，生成与所述问题描述信息匹配的问答类答案；

答案响应子模块，用于基于所述问答类答案响应所述问题描述信息。

20.根据权利要求14-17中任一项所述的装置，其中，所述执行模块包括：

决策执行子模块，用于在所述有向无环图中的基本推理算子为需要执行的决策策略的情况下，执行所述决策策略，得到执行结果；

决策响应子模块，用于基于所述执行结果响应所述问题描述信息。

21.根据权利要求14-17中任一项所述的装置，其中，所述执行模块，用于在所述有向无环图的基础上，标记出各基本推理算子的执行顺序、各基本推理算子的输入信息、以及各基本推理算子的输出结果。

22.一种模型训练装置，包括：

第二获取模块，用于获取训练样本，所述训练样本中包括问题样本和样本标签；

第二检索模块，用于在知识库中检索所述问题样本相关的知识，得到相关知识；

内容理解模块，用于对所述问题样本和所述相关知识进行内容理解，得到输入样本；

第二生成模块，用于将所述输入样本输入到待训练网络，得到所述待训练网络输出的有向无环图；其中，所述有向无环图中包括至少一个基本推理算子；

损失确定模块，用于基于所述待训练网络输出的有向无环图和所述样本标签，确定损失值；

调整模块，用于基于所述损失值调整所述待训练网络的模型参数，在满足训练收敛条件的情况下，得到用于生成有向无环图的图生成网络。

23.根据权利要求22所述的装置，其中，所述第二生成模块，用于：

24.根据权利要求22所述的装置，其中，所述第二生成模块，用于：

25.根据权利要求23或24所述的装置，其中，所述损失确定模块，用于：

26.根据权利要求23或24所述的装置，其中，所述损失确定模块，用于：

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。