CN113220895B

CN113220895B - 基于强化学习的信息处理方法、装置、终端设备

Info

Publication number: CN113220895B
Application number: CN202110443567.6A
Authority: CN
Inventors: 林玥煜; 邓侃
Original assignee: Beijing RxThinking Ltd
Current assignee: Beijing RxThinking Ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2024-02-02
Anticipated expiration: 2041-04-23
Also published as: CN113220895A

Abstract

本公开的实施例公开了基于强化学习的信息处理方法、装置、终端设备。该方法的一具体实施方式包括：获取用户输入的目标文档和目标数据对集获取目标文档和目标数据对集；基于目标文档和目标数据对集，生成目标知识图谱；将目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标；响应于指标表征“0”，将候选信息集合确定为目标信息集合。该实施方式将目标文档转化为目标知识图谱，利用图的方法有效表征目标文档中的信息关系。将目标知识图谱输入预先确定的学习模型中，根据输出指标的表征进行多次学习，能够有效利用图结构的目标知识图谱，提高对目标信息集合的学习准确度。

Description

基于强化学习的信息处理方法、装置、终端设备

技术领域

本公开的实施例涉及计算机技术领域，具体涉及信息处理方法、装置、终端设备。

背景技术

随着人工智能技术的发展，知识图谱、分类、聚类等方法已经成为了人工智能应用的基础技术。同时，智慧医疗作为人工智能应用的主要组成部分，得到了越来越多的关注。权威医学文献、医学论文以及每年的权威专家论述逐渐增多，医院中诊断病例的电子化进程也在不断推进。如何整合医学相关数据形成医学知识图谱，并基于知识图谱提供疾病诊断服务成为了关键问题。引入临床辅助决策的技术，模拟医生的临床诊治思路，辅助医生进行疾病诊断，能够解决医疗资源分布不均的问题。

然而，当在疾病诊断过程中引入人工智能技术进行信息处理时，经常会存在如下技术问题：

第一，医学知识图谱中信息量巨大，根据知识图谱中的信息进行疑似病因排除，需要对大量的化验、影像、症状、查体结果进行逐一验证，耗费时间长且病人需要花费较高的费用配合检查，此外最终确定的信息准确度也较低。

第二，受限于医学知识图谱中的信息不完整，利用人工智能方法进行模型或算法的参数、结构训练，会出现算法失偏的问题，这种一次预测和判断的方法准确度较低。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了基于强化学习的信息处理方法、装置、终端设备，来解决以上背景技术部分提到的技术问题中的一项或多项。

第一方面，本公开的一些实施例提供了一种基于强化学习的信息处理方法，该方法包括：获取目标文档和目标数据对集，其中，目标数据对集包括第一数目个目标数据对，目标数据对为编号和值组成的数据对；基于目标文档和目标数据对集，生成目标知识图谱；将目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标；响应于指标表征“0”，将候选信息集合确定为目标信息集合。

在一些实施例中，所述预先确定的学习模型包括第一数目个神经网络，所述神经网络利用下式生成输出：

其中，A表示所述权重矩阵，I表示单位矩阵，n表示阶次，In表示n阶单位矩阵，D为预先确定的加权矩阵，H表示所述特征表示集合中的特征表示，W表示参数矩阵，t为计数，H^t表示第t个神经网络的特征表示，H^t+1表示第t+1个神经网络的特征表示。

第二方面，本公开的一些实施例提供了一种基于强化学习的信息处理装置，该装置包括：接收单元，被配置成获取目标文档和目标数据对集，其中，目标数据对集包括第一数目个目标数据对，目标数据对为编号和值组成的数据对；生成单元，被配置成基于目标文档和目标数据对集，生成目标知识图谱；处理单元，被配置成将目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标；确定单元，被配置成响应于指标表征“0”，将所述候选信息集合确定为目标信息集合。

第三方面，本公开的一些实施例提供了一种终端设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一的方法。

本公开的上述各个实施例中具有如下有益效果：通过本公开的一些实施例的基于强化学习的信息处理方法能够利用目标数据对集将目标文档转化为目标知识图谱，利用图的方法有效表征目标文档中的信息关系。将目标知识图谱输入预先确定的学习模型中，根据输出指标的表征进行多次学习，能够有效利用图结构的目标知识图谱，提高对目标信息集合的学习准确度。具体来说，发明人发现，造成目前信息处理准确度不高的原因在于：知识图谱中的信息量大且存在信息不完整的问题，对知识图谱中涉及的大量的化验、影像、症状、查体结果进行逐一验证，耗时长、花费高、准确度低。基于此，首先，本公开的一些实施例获取目标文档和目标数据对集。其次，利用目标数据对集根据目标文档生成目标知识图谱。目标知识图谱是图结构的信息表征方式，能够通过图的形式更好的表征节点之间的关系。然后，将目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标。根据指标表征判断是否进行多次学习。响应于指标表征“1”，更新候选信息集合和指标。响应于指标表征“0”，将候选信息集合确定为目标信息集合。利用图结构的预先确定的学习模型，能够有效利用图结构知识图谱中的信息，减少重复验证的过程。通过多次学习，能够进一步提高目标信息集合的准确度。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1是本公开的一些实施例可以应用于其中的示例性系统的架构图；

图2是根据本公开的基于强化学习的信息处理方法的一些实施例的流程图；

图3是示例性的授权提示框；

图4是根据本公开的基于强化学习的信息处理装置的一些实施例的流程图；

图5是适于用来实现本公开的一些实施例的终端设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的基于强化学习的信息处理方法的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如信息处理应用、信息生成应用、数据分析应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种终端设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的终端设备中。其可以实现成多个软件或软件模块(例如用来提供目标文档和目标数据对集输入等)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103输入的目标文档进行存储的服务器等。服务器可以对接收到的目标文档进行处理，并将处理结果(例如目标信息集合)反馈给终端设备。

需要说明的是，本公开实施例所提供的基于强化学习的信息处理方法可以由服务器105，也可以由终端设备执行。

需要指出的是，服务器105的本地也可以直接存储目标文档和目标数据对集，服务器105可以直接提取本地的目标文档和目标数据对集通过处理后得到目标信息集合，此时，示例性系统架构100可以不包括终端设备101、102、103和网络104。

还需要指出的是，终端设备101、102、103中也可以安装有基于强化学习的信息处理应用，此时，处理方法也可以由终端设备101、102、103执行。此时，示例性系统架构100也可以不包括服务器105和网络104。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供信息处理服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本公开的基于强化学习的信息处理方法的一些实施例的流程200。该基于强化学习的信息处理方法，包括以下步骤：

步骤201，响应于检测到操作授权信号，获取用户输入的目标文档和目标数据对集。

在一些实施例中，基于强化学习的信息处理方法的执行主体(例如图1所示的服务器)响应于检测到操作授权信号，获取用户输入的目标文档和目标数据对集。上述操作授权信号可以是上述目标文档和目标数据对集对应的用户，对目标控件执行目标操作产生的信号。上述目标控件可以包含于授权提示框中。上述授权提示框可以在目标终端设备显示。上述目标终端设备可以是登录有上述用户对应账号的终端设备。上述终端设备可以是“手机”，也可以是“电脑”。上述目标操作可以是“点击操作”，也可以是“滑动操作”。上述目标控件可以是“确认按钮”。

作为示例，上述授权提示框可以如图3所示。上述授权提示框可以包括：提示信息显示部分301和控件302。其中，上述提示信息显示部分301可以用于显示提示信息。上述提示信息可以是“是否允许获取目标文档和目标数据对集”。上述控件302可以是“确认按钮”，也可以是“取消按钮”。

具体的，目标文档可以是医学文档。目标文档可以包括但不限于以下之一：医学书籍、医学词典、医学论文、专家论述资料、电子病历。其中，医学词典、电子病历中的医学信息具有结构化的特点，包括但不限于以下信息之一：人口学信息、化验报告、诊断结果、处方、医嘱。医学书籍、医学论文、专家论述资料中的医学信息具有非结构化的特点，主要由使用自然语言撰写的段落组成。

具体的，目标数据对集包括第一数目个目标数据对。目标数据对为编号和值组成的数据对。具体的，目标数据对集可以如下表1所示。

表1

具体的，第一数目可以是1502。数据对可以是(100，趋势加重)，数据对也可以是(202，右上)，数据对还可以是(1500，水样便)。目标数据对集可以是根据历史数据确定的。

步骤202，基于目标文档和目标数据对集，生成目标知识图谱。

在一些实施例中，上述执行主体基于目标文档和目标数据对集，生成目标知识图谱。可选的，上述执行主体基于目标文档，生成结构化段落集合。具体的，生成初始结构化段落集合，其中，初始结构化段落集合为空集。对于目标文档中的结构化信息，将结构化信息直接放入初始结构化段落集合中。对于目标文档中的非结构化信息，将该非结构化信息进行翻译处理后，得到结构化段落。具体的，对于如下非结构化信息“患者2017-05无意发现右颈部一枣子大小的肿物，无疼痛、破溃，无发热、心悸、性格、食欲改变，无声音嘶哑，无吞咽困难，无呼吸困难，无饮水呛咳，无头颈部疼痛，无胸廓出口综合征，2017-05-25到医院就诊，进行甲状腺超声检查示：甲状腺双侧叶多发实性及混合性回声团，疑结节性甲状腺肿可能。现为求进一步诊疗来确诊，门诊以“结节性甲状腺肿”收住院治疗。自发病以来，病人精神状态良好，体力情况良好，食欲食量良好，睡眠情况良好，体重无明显变化，大便正常，小便正常。”，可以将其翻译为结构化段落“[{"甲状腺超声"：["所见"："回声团"：["位置"："甲状腺双侧叶"，"性质"："发实性，混合性"]]，"结论"："结节性甲状腺肿"]}，"精神"："良好"，"体力"："良好"，"食欲"："良好"，"食量"："良好"，"体重"："无变化"，"大便"："正常"，"小便"："正常"]”。将该结构化段落放入初始结构化段落集合中。将最终处理完毕的初始结构化段落集合确定为结构化段落集合。

可选的，基于目标数据对集，生成初始目标知识图谱。其中，初始知识图谱包括初始节点集合和初始边集合。初始节点为目标数据对集中的编号，初始边表示不同初始节点之间的关系，初始边集合为空集，初始节点集合包括第一数目个初始节点。具体的，将目标数据对集中的编号确定为初始节点，以得到初始节点集合。根据目标数据对集生成的初始边集合为空集。具体的，目标数据对集中的各个编号可以不存在依赖关系。

可选的，基于结构化段落集合和初始目标知识图谱，生成目标知识图谱。其中，目标知识图谱包括节点和边，节点为所述初始节点，边表示不同节点之间的关系。边的权重为不同节点间的累计连接次数。具体的，可以根据结构化段落集合中的各个结构化段落确定初始目标知识图谱中各个节点之间的关系，以得到边。

步骤203，将目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标。

在一些实施例中，上述执行主体将目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标。

可选的，利用目标知识图谱，生成特征表示集合和权重矩阵。利用下式，基于目标知识图谱，生成特征表示集合：

其中，e表示向量，e₁为目标知识图谱中的第一个节点，e₂为目标知识图谱中的第二个节点，右下角标为计数。[]₊表示[]内的值大于0的部分，γ表示任意正整数，r表示边，d()为一阶范式。(e₁，r，e₂)∈S表示由e₁、e₂、r组成的实体关系对，L表示特征表示集合。

可选的，利用目标知识图谱，生成权重矩阵。其中，权重矩阵中的元素为目标知识图谱中的边的权重。具体的，将目标知识图谱中的各个节点和节点之间的关系构建为二维矩阵，矩阵的行和列的长度分别为目标知识图谱中包含的节点数目。将各个节点和节点之间的边的权重确定为权重矩阵中对应的元素的值。

可选的，将特征表示集合和权重矩阵输入预先确定的学习模型中，以得到候选信息集合和指标。可选的，预先确定的学习模型包括第一数目个神经网络。该神经网络利用下式生成输出：

其中，A表示权重矩阵。I表示单位矩阵，n表示阶次，I_n表示n阶单位矩阵。D为预先确定的加权矩阵。H表示特征表示集合中的特征表示，W表示参数矩阵t为计数，H^t表示第t个神经网络的特征表示。H^t+1表示第t+1个神经网络的特征表示。H^t+1为该神经网络的输出。

可选的，将指标的值确定为“1”。具体的，预先确定的学习模型包括第一数目个神经网络。H^t+1表示预先确定的学习模型中的第t个神经网络的输出。将预先确定的学习模型的各个层输出的集合确定为候选信息集合。将候选信息集合与预先确定的知识图谱库进行比对。具体的，预先确定的知识图谱库可以是根据医学文献、资料进行梳理确定的知识图谱库。预先确定的知识图谱库中的预先确定的节点可以是根据医学文献、资料梳理得到的医学病症、病症属性值。预先确定的医学知识图谱库中的预先确定的边可以是根据医学文献、资料梳理得到的医学病症、病症属性之间的关系。预先确定的知识图谱库中可以包括第二数目个预先确定的知识图谱。预先确定的知识图谱可以与病症对应。具体的，预先确定的知识图谱可以是“肺癌”对应的知识图谱。预先确定的知识图谱也可以是“支气管炎”对应的知识图谱。响应于候选信息集合与预先确定的医学知识图谱中的各个预先确定的节点匹配成功，将指标的值确定为“0”。

步骤204，响应于指标表征“0”，将候选信息集合确定为目标信息集合。

在一些实施例中，上述执行主体响应于指标表征“0”，将候选信息集合确定为目标信息集合。

可选的，响应于指标表征“1”，基于候选信息集合、目标知识图谱，生成更新知识图谱。响应于指标表征“1”，基于候选信息集合，生成候选实体集合和候选关系集合。具体的，将候选信息集合中的各个候选信息确定为候选实体，以得到候选实体集合。根据预先确定的医学知识图谱进行查找，以确定候选关系集合。

可选的，基于候选实体集合和候选关系集合，更新目标知识图谱，以得到候选更新知识图谱。具体的，对于候选实体集合中的每个候选实体，响应于该候选实体不存在于目标知识图谱的节点中，将该候选实体确定为目标知识图谱中的节点，以得到候选更新知识图谱。对于候选关系集合中的每个候选关系，根据该候选关系更新候选更新知识图谱中的节点之间的关系，以得到候选更新知识图谱。

基于预先确定的知识图谱库和候选更新知识图谱，确定更新知识图谱。具体的，把候选更新知识图谱投射到预先确定的知识图谱库中，可以基于候选更新知识图谱中的节点在预先确定的知识图谱库中进行查找，可以将候选更新知识图谱中的节点与预先确定的知识图谱库中的各个节点进行比对。响应于在预先确定的知识图谱库中查找到对应的节点，可以确定该节点对应的病症。通过专家辅助方式可以确认或排除疑似病症。

可选的，将更新知识图谱输入预先确定的学习模型中，以得到更新候选信息集合和更新指标。可选的，预先确定的学习模型包括第一数目个神经网络。该神经网络利用下式生成输出：

可选的，将指标的值确定为“1”。具体的，预先确定的学习模型包括第一数目个神经网络。H^t+1表示预先确定的学习模型中的第t个神经网络的输出。将预先确定的学习模型的各个层输出的集合确定为更新候选信息集合。将候选信息集合与预先确定的知识图谱库进行比对。响应于更新候选信息集合与预先确定的医学知识图谱中的各个预先确定的节点匹配成功，将指标的值确定为“0”。

可选的，将更新候选信息集合确定为候选信息集合。将更新指标确定为指标。

在一些实施例中，上述执行主体将目标信息集合推送至目标终端设备，以及控制目标终端设备进行报警相关操作。其中，目标终端设备可以是与上述执行主体通信连接的设备，可以根据接收到的目标信息集合进行报警相关操作。例如，当上述执行主体输出的目标信息集合可以是病症的集合，具体的，目标信息集合可以是(小细胞肺癌，非小细胞肺癌，肺腺癌，肺鳞癌)。目标终端设备可以发出报警指示信号，提示针对上述疾病进行进一步的处理或治疗。通过多次、强化计算能够生成预测准确度高的目标信息集合，从而提升报警相关操作的准确度。

上述步骤203-204中的可选内容，即：“通过多次、强化计算生成候选信息集合和指标的技术内容”作为本公开的实施例的一个发明点，解决了背景技术提及的技术问题二“受限于医学知识图谱中的信息不完整，利用人工智能方法进行模型或算法的参数、结构训练，会出现算法失偏的问题，这种一次预测和判断的方法准确度较低。”。导致一次预测和判断的方法准确度较低的因素往往如下：目标知识图谱中包含的信息有限，基于目标知识图谱进行模型或算法预测，由于可利用的有效信息有限，导致一次预测和判断的准确度较低。如果解决了上述因素，就能达到提高预测结果准确度的效果。为了达到这一效果，本公开引入多次强化学习的方法。首先，将目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标。其次，预先得到预先确定的知识图谱库。该知识图谱库可以根据医学文献、资料进行梳理确定的。预先确定的知识图谱库中的预先确定的节点可以是根据医学文献、资料梳理得到的医学病症、病症属性值。预先确定的医学知识图谱库中的预先确定的边可以是根据医学文献、资料梳理得到的医学病症、病症属性之间的关系。然后，利用预先确定的知识图谱库验证候选信息集合以确定指标。响应于指标表征“1”，当前候选信息集合中的候选信息无法准确匹配预先确定的知识图谱库中的各个预先确定的节点，需要继续进行学习。响应于指标表征“0”，候选信息集合与预先确定的医学知识图谱中的各个预先确定的节点匹配成功，候选信息集合能够明确病人的病症，学习过程结果。通过多次、强化学习，能够有效利用预先确定的知识图谱库中的信息，从而弥补目标知识图谱中信息缺失的问题，提高预测结果准确度，从而解决了技术问题二。

图2给出的一个实施例具有如下有益效果：获取用户输入的目标文档和目标数据对集获取目标文档和目标数据对集；基于目标文档和目标数据对集，生成目标知识图谱；将目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标；响应于指标表征“0”，将候选信息集合确定为目标信息集合。该实施方式将目标文档转化为目标知识图谱，利用图的方法有效表征目标文档中的信息关系。将目标知识图谱输入预先确定的学习模型中，根据输出指标的表征进行多次学习，能够有效利用图结构的目标知识图谱，提高对目标信息集合的学习准确度。

进一步参考图4，作为对上述各图上述方法的实现，本公开提供了一种基于强化学习的信息处理装置的一些实施例，这些装置实施例与图2上述的那些方法实施例相对应，该装置具体可以应用于各种终端设备中。

如图4所示，一些实施例的基于强化学习的信息处理装置400，装置包括：接收单元401、生成单元402、处理单元403、确定单元404。其中，其中，接收单元401，被配置成获取用户输入的目标文档和目标数据对集。其中，目标数据对集包括第一数目个目标数据对，目标数据对为编号和值组成的数据对。生成单元402，被配置成基于目标文档和目标数据对集，生成目标知识图谱。处理单元403，被配置成将目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标。确定单元404，被配置成响应于指标表征“0”，将候选信息集合确定为目标信息集合。

可以理解的是，该装置400中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置400及其中包含的单元，在此不再赘述。

下面参考图5，其示出了适于用来实现本公开实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU，Central Processing Unit)501，其可以根据存储在只读存储器(ROM，Read Only Memory)502中的程序或者从存储部分508加载到随机访问存储器(RAM，Random Access Memory)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O，Input/Output)接口505也连接至总线504。

以下部件连接至I/O接口505：包括硬盘等的存储部分506；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分507。通信部分507经由诸如因特网的网络执行通信处理。驱动器508也根据需要连接至I/O接口505。可拆卸介质509，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器508上，以便于从其上读出的计算机程序根据需要被安装入存储部分506。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分507从网络上被下载和安装，和/或从可拆卸介质509被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本公开的方法中限定的上述功能。需要说明的是，本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于强化学习的信息处理方法，包括：

获取用户输入的目标文档和目标数据对集，其中，所述目标数据对集包括第一数目个目标数据对，所述目标数据对为编号和值组成的数据对；

基于所述目标文档和所述目标数据对集，生成目标知识图谱；

将所述目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标；

响应于所述指标表征“0”，将所述候选信息集合确定为目标信息集合；

其中，所述将所述目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标，包括：

利用所述目标知识图谱，生成特征表示集合和权重矩阵，包括：利用下式，基于所述目标知识图谱，生成所述特征表示集合：其中，e表示向量，e₁为目标知识图谱中的第一个节点，e₂为目标知识图谱中的第一个节点，右下角标为计数，[]₊表示[]内的值大于0的部分，γ为任意正整数，r表示目标知识图谱中的边，d()为一阶范式，(e₁，r，e₂)∈S表示由e₁、e₂、r组成的实体关系对，L表示所述特征表示集合；利用所述目标知识图谱，生成所述权重矩阵，其中，所述权重矩阵中的元素为所述目标知识图谱中的边的权重；

将所述特征表示集合和所述权重矩阵输入预先确定的学习模型中，以得到所述候选信息集合和所述指标，包括：将目标知识图谱中的各个节点和节点之间的关系构建为二维矩阵，矩阵的行和列的长度分别为目标知识图谱中包含的节点数目，将各个节点和节点之间的边的权重确定为权重矩阵中对应的元素的值；

其中，所述预先确定的学习模型包括第一数目个神经网络，所述神经网络利用下式生成输出：

2.根据权利要求1所述的方法，其中，所述方法还包括：

响应于所述指标表征“1”，基于所述候选信息集合、所述目标知识图谱，生成更新知识图谱；

将所述更新知识图谱输入预先确定的学习模型中，以得到更新候选信息集合和更新指标；

将所述更新候选信息集合确定为所述候选信息集合；

将所述更新指标确定为所述指标。

3.根据权利要求2所述的方法，其中，所述基于所述目标文档和所述目标数据对集，生成目标知识图谱，包括：

基于所述目标文档，生成结构化段落集合；

基于所述目标数据对集，生成初始目标知识图谱，其中，所述初始知识图谱包括初始节点集合和初始边集合，所述初始节点为所述目标数据对集中的编号，所述初始边表示不同初始节点之间的关系，所述初始边集合为空集，所述初始节点集合包括第一数目个初始节点；

基于所述结构化段落集合和所述初始目标知识图谱，生成所述目标知识图谱，其中，所述目标知识图谱包括节点和边，所述节点为所述初始节点，所述边表示不同节点之间的关系，所述边的权重为不同节点间的累计连接次数。

4.根据权利要求3所述的方法，其中，所述响应于所述指标为“1”，基于所述候选信息集合、所述目标知识图谱，生成更新知识图谱，包括：

响应于所述指标表征“1”，基于所述候选信息集合，生成候选实体集合和候选关系集合；

基于所述候选实体集合和所述候选关系集合，更新所述目标知识图谱，以得到候选更新知识图谱；

基于所述预先确定的知识图谱库和所述候选更新知识图谱，确定所述更新知识图谱。

5.根据权利要求4所述的方法，其中，所述方法还包括将所述目标信息集合推送至目标终端设备，以及控制所述目标终端设备进行报警相关操作。

6.一种基于强化学习的信息处理装置，包括：

检测单元，被配置成检测是否从目标终端设备接收到操作授权信号，其中，所述操作授权信号是用户对目标控件执行目标操作产生的信号；

接收单元，被配置成响应于检测到操作授权信号，获取用户输入的目标文档和目标数据对集，其中，所述目标数据对集包括第一数目个目标数据对，所述目标数据对为编号和值组成的数据对；

生成单元，被配置成基于所述目标文档和所述目标数据对集，生成目标知识图谱；

处理单元，被配置成将所述目标知识图谱输入预先确定的学习模型中，以得到候选信息集合和指标；

确定单元，被配置成响应于所述指标表征“0”，将所述候选信息集合确定为目标信息集合；

其中，所述处理单元，进一步被配置成：利用所述目标知识图谱，生成特征表示集合和权重矩阵，包括：利用下式，基于所述目标知识图谱，生成所述特征表示集合：其中，e表示向量，e₁为目标知识图谱中的第一个节点，e₂为目标知识图谱中的第一个节点，右下角标为计数，[]₊表示[]内的值大于0的部分，γ为任意正整数，r表示目标知识图谱中的边，d()为一阶范式，(e₁，r，e₂)∈S表示由e₁、e₂、r组成的实体关系对，L表示所述特征表示集合；利用所述目标知识图谱，生成所述权重矩阵，其中，所述权重矩阵中的元素为所述目标知识图谱中的边的权重；将所述特征表示集合和所述权重矩阵输入预先确定的学习模型中，以得到所述候选信息集合和所述指标，包括：将目标知识图谱中的各个节点和节点之间的关系构建为二维矩阵，矩阵的行和列的长度分别为目标知识图谱中包含的节点数目，将各个节点和节点之间的边的权重确定为权重矩阵中对应的元素的值；

其中，所述预先确定的学习模型包括第一数目个神经网络，所述神经网络利用下式生成输出：其中，A表示所述权重矩阵，I表示单位矩阵，n表示阶次，In表示n阶单位矩阵，D为预先确定的加权矩阵，H表示所述特征表示集合中的特征表示，W表示参数矩阵，t为计数，H^t表示第t个神经网络的特征表示，H^t+1表示第t+1个神经网络的特征表示。

7.一种第一终端设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。