CN117035087A

CN117035087A - 用于医疗推理的事理图谱生成方法、装置、设备及介质

Info

Publication number: CN117035087A
Application number: CN202311293688.2A
Authority: CN
Inventors: 徐博; 陈小梅; 肖娟; 刘晓华
Original assignee: Beijing Yiyong Technology Co ltd
Current assignee: Beijing Yiyong Technology Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-11-10
Anticipated expiration: 2043-10-09
Also published as: CN117035087B

Abstract

本发明提供了用于医疗推理的事理图谱生成方法、装置、设备及介质。该方法包括获取每个文本数据中包括多个经标识事件的训练医疗文本数据集，每个事件对之间存在确定的转移概率；按照多个经标识事件的顺序，依次输入具有BiLSTM的神经网络进行训练，以基于转移概率生成包括以任一经标识事件为起点的多个逻辑路径的马尔科夫链；将多个逻辑路径与临床路径进行比较以确定与多个逻辑路径相匹配的、包括临床路径事件集合的至少一个匹配路径；基于临床路径事件集合，确定训练医疗文本数据中存在与至少一个经标识事件具有因果关系的未被标识的证据事件；以及基于多个逻辑路径以及未被标识的证据事件与至少一个经标识事件的因果关系，构建事理图谱。

Description

用于医疗推理的事理图谱生成方法、装置、设备及介质

技术领域

本发明涉及数据处理领域，更具体地，涉及用于医疗推理的事理图谱生成方法、装置、设备及介质。

背景技术

随着信息产业的快速进步，发展出了利用大数据来辅助治疗的各种各样的技术。例如，一些技术通过使用大数据构建事理图谱，并基于事理图谱所提供的信息来辅助治疗。

事理图谱是一种事理逻辑知识库，该事理逻辑知识库描述了事件之间的演化规律和模式。从事理图谱的结构角度来看，事理图谱是一个有向有环图，节点代表事件，有向边代表事件之间的顺承、因果、条件和上下位等逻辑关系。基于这种特性，医学事理图谱可以基于已知的诊疗信息，通过多种类型事件之间的关联关系，以时间为维度针对患者的诊疗流程进行事件预测、病理推断和/或辅助决策。

因此，一种能够有效针对癌症进行辅助诊断的事理图谱是目前急需的医疗解决方案之一。为了准确地实现尤其是针对癌症的事件预测、病理推断和/或辅助决策，需要准确地构建医学事理图谱中各个事件之间的关联关系。然而，在大数据环境下，医疗机构所使用的用于记载关于癌症诊疗信息的文件数据类型繁多，缺乏一致性。此外，此类医疗数据多为非结构化的文本数据（例如，例如不同医生书写的病例）。换句话说，医疗文本数据通常具有多源异构性、复杂性和海量性等特性。在这种情况下，如何在海量数据中快速地提取非结构化数据并且生成准确的诊疗路径的事理图谱面临着巨大挑战。例如，通常的医疗文本数据中可能缺少事件证据，从而无法准确地表示两个事件间的因果关系等关系。这将导致所生成的事理图谱经常会遗漏从一个事件转移到另一个事件中间可能的一个或多个其他事件，进而导致生成的事理图谱无法准确地用于医疗推理。

因此，需要一种准确的事理图谱生成方法来解决上述技术问题。

发明内容

针对上述问题，本发明提供了一种用于医疗推理的事理图谱生成方法、装置、设备及介质。该方法通过使用具有BiLSTM的神经网络对包括经标识事件的数据集进行训练，基于经标识事件之间的转移概率生成多个逻辑路径的马尔科夫链，并且将生成的多个逻辑路径与临床路径进行比较以确定存在与至少一个经标识事件具有因果关系的未被标识的证据事件，进而基于多个逻辑路径以及未被标识的证据事件与至少一个经标识事件的因果关系来构建事理图谱。通过这样的方式生成事理图谱避免了因训练数据中存在未标识事件而导致事理图谱缺少事件和/或事件之间的关系，进而使得所生成的事理图谱可以更加准确地用于癌症医疗路径推理。

根据本发明的一方面提供了一种用于医疗推理的事理图谱生成方法，包括：获取训练医疗文本数据集，其中所述训练医疗文本数据集的每个训练医疗文本数据中包括多个经标识事件，所述多个经标识事件包括与癌症医疗相关的事件，并且所述多个经标识事件的每个事件对之间存在确定的转移概率；按照所述多个经标识事件在所述训练文本数据中的顺序，将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链，其中所述马尔科夫链包括以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径；将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径，其中所述至少一个匹配路径包括临床路径事件集合；基于所述临床路径事件集合，确定所述训练医疗文本数据中存在未被标识的证据事件，其中所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件具有因果关系；以及基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱。

根据本发明的一些实施例，将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链还包括针对所述经标识事件子集中的每个经标识事件对之间的转移概率确定相应的奖励值；基于每个经标识事件对之间的相应奖励值，确定以所述经标识事件子集中的任一事件为起点的多个逻辑路径各自的最终奖励值；确定具有最高的最终奖励值的逻辑路径作为以所述任一事件为起点的最优逻辑路径；以及基于所述最优逻辑路径更新所述马尔科夫链中的参数以生成更新后的马尔科夫链。

根据本发明的一些实施例，基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱还包括基于所述最优逻辑路径构建所述用于癌症医疗路径推理的事理图谱。

根据本发明的一些实施例，基于每个经标识事件对之间的相应奖励值，确定以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径各自的最终奖励值包括针对所述多个逻辑路径中的任一逻辑路径，以所述任一经标识事件为起点并且基于所述经标识事件子集在所述特定逻辑路径中的顺序，通过衰减系数对所述任一逻辑路径中的奖励值进行加权求和，以确定所述任一逻辑路径的最终奖励值。

根据本发明的一些实施例，基于以下公式计算所述任一逻辑路径的最终奖励值：

其中，G表示所述最终奖励值；R表示当前经标识事件到下一经标识事件的奖励值；y表示预设的衰减函数，其中0<y<1，k大于等于0。

根据本发明的一些实施例，基于以下奖励函数获得每个经标识事件对之间的奖励值：

R_ki =A_ki·R（S,E），

其中R表示当前经标识事件到下一经标识事件的奖励值并且R包括正值和/或负值，A表示当前经标识事件到下一经标识事件的动作，k大于等于0。

根据本发明的一些实施例，将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链包括对所述多个经标识事件进行预处理以将所述多个经标识事件转换为具有固定维度的多个经标识事件向量；将所述多个经标识事件向量输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成描述由所述多个经标识事件的经标识事件子集形成的马尔科夫链的高维向量。

根据本发明的一些实施例，将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径包括基于所述多个逻辑路径中的每个逻辑路径中的经标识事件转移方向与所包含的经标识事件子集，确定描述所述马尔科夫链的所述高维向量与所述临床路径的距离，基于所述高维向量与所述临床路径的距离，确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径。

根据本发明的一些实施例，基于所述临床路径事件集合，确定所述训练医疗文本数据中存在未被标识的证据事件包括将所述临床路径事件集合中所包含的第一临床路径事件与所述训练文本数据进行文本匹配以确定所述第一临床路径事件存在于所述训练医疗文本数据中并且所述第一临床路径事件不属于经标识事件；将所述第一临床路径事件作为所述训练医疗文本数据中存在未被标识的证据事件。

根据本发明的一些实施例，所述方法还包括基于所述第一临床路径事件在所述匹配路径中的位置，确定所述匹配路径中与所述第一临床路径事件相关联的至少一个第二临床路径事件；响应于所述第二临床路径事件与所述经标识事件子集中的一个经标识事件相对应，基于所述第一临床路径事件与所述第二临床路径事件的关联，确定所述未被标识的证据事件与所述一个经标识事件具有因果关系。

根据本发明的一些实施例，所述确定的转移概率是基于先验知识获取的。

根据本发明的一些实施例，所述事理图谱用于针对癌症的医疗决策，构建所述事理图谱还包括基于病例类型、转移类型和/或分期类型的关系构建所述事理图谱。

根据本发明的一些实施例，所述临床路径包括经过验证的标准临床路径和/或真实世界临床路径。

根据本发明的一些实施例，获取训练医疗文本数据集包括获取待处理的训练医疗文本数据集，对待处理的训练医疗文本数据集中的每个待处理的训练医疗文本数据进行纳排，其中对待处理的训练医疗文本数据进行纳排包括根据所述待处理的训练医疗文本数据的语义，将所述待处理的训练医疗文本数据划分为多个经标识事件；确定所述多个经标识事件的组合条件，其中所述组合条件包括所述多个经标识事件的时间关系、组合关系以及筛选信息；基于所述组合条件对所述待处理的训练医疗文本数据中的多个经标识事件进行纳排存储以生成训练医疗文本数据。

根据本发明的一些实施例，所述多个经标识事件的时间关系指示所述一个或多个时间与最早起始事件时间或者最早起始事件时间及一个或多个其他时间锚点之间的时间先后顺序。

根据本发明的另一方面，提供了一种用于医疗推理的事理图谱生成装置，包括训练数据集获取单元，被配置为获取训练医疗文本数据集，其中所述训练医疗文本数据集的每个训练医疗文本数据中包括多个经标识事件，所述多个经标识事件包括与癌症医疗相关的事件，并且所述多个经标识事件的每个事件对之间存在确定的转移概率；神经网络训练单元，被配置为按照所述多个经标识事件在所述训练文本数据中的顺序，将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链，其中所述马尔科夫链包括以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径；路径匹配单元，被配置为将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径，其中所述至少一个匹配路径包括临床路径事件集合；证据事件确定单元，被配置为基于所述临床路径事件集合，确定所述训练医疗文本数据中存在未被标识的证据事件，其中所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件具有因果关系；以及事理图谱生成单元，被配置为基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱。

根据本发明的一些实施例，为了将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链，所述神经网络训练单元还被配置为针对所述经标识事件子集中的每个经标识事件对之间的转移概率确定相应的奖励值；基于每个经标识事件对之间的相应奖励值，确定以所述经标识事件子集中的任一事件为起点的多个逻辑路径各自的最终奖励值；确定具有最高的最终奖励值的逻辑路径作为以所述任一事件为起点的最优逻辑路径；以及基于所述最优逻辑路径更新所述马尔科夫链中的参数以生成更新后的马尔科夫链。

根据本发明的一些实施例，为了基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱，所述事理图谱生成单元还被配置为基于所述最优逻辑路径构建所述用于癌症医疗路径推理的事理图谱。

根据本发明的一些实施例，为了基于每个经标识事件对之间的相应奖励值，确定以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径各自的最终奖励值，所述神经网络训练单元还被配置为针对所述多个逻辑路径中的任一逻辑路径，以所述任一经标识事件为起点并且基于所述经标识事件子集在所述特定逻辑路径中的顺序，通过衰减系数对所述任一逻辑路径中的奖励值进行加权求和，以确定所述任一逻辑路径的最终奖励值。

R_ki =A_ki·R（S,E），

根据本发明的一些实施例，为了将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链，所述神经网络训练单元还被配置为对所述多个经标识事件进行预处理以将所述多个经标识事件转换为具有固定维度的多个经标识事件向量；将所述多个经标识事件向量输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成描述由所述多个经标识事件的经标识事件子集形成的马尔科夫链的高维向量。

根据本发明的一些实施例，为了将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径，所述路径匹配单元还被配置为基于所述多个逻辑路径中的每个逻辑路径中的经标识事件转移方向与所包含的经标识事件子集，确定描述所述马尔科夫链的所述高维向量与所述临床路径的距离，基于所述高维向量与所述临床路径的距离，确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径。

根据本发明的一些实施例，所述证据事件确定单元还被配置为将所述临床路径事件集合中所包含的第一临床路径事件与所述训练文本数据进行文本匹配以确定所述第一临床路径事件存在于所述训练医疗文本数据中并且所述第一临床路径事件不属于经标识事件；将所述第一临床路径事件作为所述训练医疗文本数据中存在未被标识的证据事件。

根据本发明的一些实施例，所述证据事件确定单元还被配置为基于所述第一临床路径事件在所述匹配路径中的位置，确定所述匹配路径中与所述第一临床路径事件相关联的至少一个第二临床路径事件；响应于所述第二临床路径事件与所述经标识事件子集中的一个经标识事件相对应，基于所述第一临床路径事件与所述第二临床路径事件的关联，确定所述未被标识的证据事件与所述一个经标识事件具有因果关系。

根据本发明的一些实施例，所述训练数据集获取单元还被配置为获取待处理的训练医疗文本数据集，对待处理的训练医疗文本数据集中的每个待处理的训练医疗文本数据进行纳排，其中对待处理的训练医疗文本数据进行纳排包括：根据所述待处理的训练医疗文本数据的语义，将所述待处理的训练医疗文本数据划分为多个经标识事件；确定所述多个经标识事件的组合条件，其中所述组合条件包括所述多个经标识事件的时间关系、组合关系以及筛选信息；基于所述组合条件对所述待处理的训练医疗文本数据中的多个经标识事件进行纳排存储以生成训练医疗文本数据。

根据本发明的另一方面提供了一种电子设备，包括：处理器；以及存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述处理器执行时，实现前述方法。

根据本发明的另一方面提供了种非暂时性计算机可读存储介质，存储有计算机可读指令，其中，当所述计算机可读指令在由处理器执行时，实现前述方法。

因此，根据本发明实施例的用于医疗推理的事理图谱生成方法、装置、设备及介质，通过使用具有BiLSTM的神经网络对包括经标识事件的数据集进行训练，基于经标识事件之间的转移概率生成多个逻辑路径的马尔科夫链，并且将生成的多个逻辑路径与临床路径进行比较以确定文本数据中存在与至少一个经标识事件具有因果关系的未被标识的证据事件，进而基于多个逻辑路径以及未被标识的证据事件与至少一个经标识事件的因果关系来构建事理图谱。通过这样的方式生成事理图谱避免了因训练数据中存在未标识事件而导致事理图谱缺少事件和/或事件之间的关系，进而使得所生成的事理图谱可以更加准确地用于癌症医疗路径推理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些示例性实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本发明的一些实施例的事理图谱构建的框架图；

图2示出了根据本发明的一些实施例的用于医疗推理的事理图谱生成方法的流程图；

图3示出了根据本发明的一些实施例的生成马尔科夫链的流程图；

图4示出了根据本发明的一些实施例的所生成的马尔科夫链的示意图；

图5示出了根据本发明的一些实施例的示例文本数据输入至具有BiLSTM的神经网络中的示意图；

图6示出了根据本发明的一些实施例的生成的事理图谱的示意图；

图7示出了根据本发明的一些实施例的基于表格获取待处理的训练医疗文本数据的示意图；

图8示出了根据本发明的一些实施例的用于医疗推理的事理图谱生成装置的框图；

图9示出了根据本发明的一些实施例的电子设备的结构图。

具体实施方式

为了使得本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。为了保持本发明实施例的以下说明清楚且简明，本发明省略了部分已知功能和已知部件的详细说明。

本发明中使用了流程图用来说明根据本发明的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步。

在本发明的说明书和附图中，根据实施例，元素以单数或复数的形式来描述。然而，单数和复数形式被适当地选择用于所提出的情况仅仅是为了方便解释而无意将本发明限制于此。因此，单数形式可以包括复数形式，并且复数形式也可以包括单数形式，除非上下文另有明确说明。

下面将参照附图对本发明提供的用于医疗推理的事理图谱生成方法、装置、设备及介质进行详细的说明。

<第一实施例>

图数据结构存储可以高效的将已经处理的关系事件以及关系实体进行更高效的检索，这可以在某种程度上解决事理图谱在实际应用中的性能问题。事理图谱的结构与常见的知识图谱结构不同，其更依赖于逻辑关系。事理图谱的逻辑包括顺承、转折、因果、递进、关联、解释等，所以构建事理图谱的过程与传统的知识图谱结构大不相同，事理图谱的结构也更加灵活。以医学数据为例，常见的图谱均以检查、诊断、治疗、药物、手术、化疗为关系构建知识图谱，然而在实际应用中这一类型的图谱并不能实际分析解决问题。因此需要在此基础上建立多元化场景，围绕数据例如肿瘤分期阶段、细胞角蛋白抗体、组织学标志物等多维度建立事理图谱，从而实现可以快速地在医学诊断中提供更好的决策。

图1示出了根据本发明的一些实施例的事理图谱构建的框架图，并且图2示出了根据本发明的一些实施例的用于医疗推理的事理图谱生成方法的流程图。

如图1所示，事理图谱构建的框架图可以包括首先获取生语料。在一些示例中，生语料又可以被称为（待处理的）文本数据、医疗文本数据等。

由于医学文本大多为非结构化数据，所以首先需要将非结构数据进行转换成结构化数据，然后再将结构化数据抽象成事理规则，通过推理计算可以让机器具备认知事件发展规律的能力。

具体地，在获取生语料后，可以对生语料进行数据清洗。例如，数据清洗可以包括缺失值处理、删除重复值、数据列命名、数据排序、异常值处理等。

在数据清洗后，可以对经清洗的数据进行诸如自然语言处理（nature languageprocessing，NLP）的预处理。在一个示例中，NLP预处理例如可以包括文本分词、词性标注、词干提取、去掉停用词等处理。

在NLP预处理后，可以对文本数据中的事件进行抽取和泛化，生成候选的事件对（即，相互之间可能存在关系的事件），并进一步识别事件对之间的顺承关系、顺承方向、因果关系，计算事件对之间的转移概率，从而构建事理图谱。

然而，如上述图1的事理图谱构建的框架图所示，在进行事件泛化和抽取、生成候选事件对以及识别关系等时，可能由于医疗文本数据中缺少事件证据（例如，缺少时间证据），从而无法准确地表示两个事件间的因果关系等关系（例如，还包括顺承关系、顺承方向等）。这将导致所生成的事理图谱经常会遗漏例如从一个事件转移到另一个事件中间可能的一个或多个其他事件，进而导致生成的事理图谱无法准确地用于医疗推理。

因此，本发明下面将结合图2来详细描述对图1所示的事理图谱架构的进一步的改进。

首先，在步骤S202，可以获取训练医疗文本数据集，其中训练医疗文本数据集的每个训练医疗文本数据中可以包括多个经标识事件，该多个经标识事件可以包括与癌症医疗相关的事件，并且该多个经标识事件的每个事件对之间存在确定的转移概率。

在一个示例中，训练医疗文本数据集可以是训练医疗文本数据的一个集合，其中可以包括一个或多个训练医疗文本数据。这些训练医疗文本数据可以例如是基于患者的身份信息通过患者主索引（EMPI）来获取的。EMPI是指为同一个患者提供不同ID之间的相互索引。根据用户的身份信息，使用EMPI来获取用户相关的医疗数据，可以保证患者隐私的安全性。

在一个示例中，训练医疗文本数据可以是经过数据清洗和NLP预处理之后的医疗文本数据，以避免未经处理的医疗文本数据中的不期望的信息对训练过程产生干扰。

在一个示例中，训练医疗文本数据中的经标识事件可以是人工标识的或者基于机器学习模型标识的。在标识的过程中，可以同时确定多个经标识事件中的每个事件对之间的转移概率。例如，一个训练医疗文本数据中可以包括例如事件A、B、C、D等，并且经标识事件包括其中的A、B、C。所确定的转移概率包括A和B、B和C以及A和C之间的概率。根据本发明的一个实施例，转移概率的确定是基于训练好的模型或者先验知识确定的。例如先验知识可以是根据医学知识确定事件的转移概率确定规则，从而可以保证时间之间的转移符合医学规律。此外，可以进一步生成描述转移概率确定规则的数据库或者可以进一步生成基于转移概率确定规则的训练好的模型，从而基于事件对之间的关系快速确定转移概率。

在获取训练医疗文本数据集后，在步骤S204中，可以按照多个经标识事件在训练文本数据中的顺序，将该多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于转移概率生成由该多个经标识事件的经标识事件子集形成的马尔科夫链，其中马尔科夫链包括以该经标识事件子集中的任一经标识事件为起点的多个逻辑路径。

本发明通过引入转移概率将事理图谱中的逻辑规则的路径配合上每一步的权重值，然后通过统计学建模可以更好的解决噪声复杂数据的图谱的抽取。

在处理这些连续的有关系的数据时，可以通过马尔科夫链配合浅层神经该网络的方式来实现端到端的逻辑规则的条件因果学习。通过预先设定奖惩函数来计算每个逻辑规则的条件概率，再利用整条链的概率乘上链中每条规则的概率，输出每条马尔科夫链中事件实体关系的因果得分，从而可以更好的解决隐式因果关系难以被发现，以及自动化抽取的性能问题。

由上述条件可知事件的实体关系的连接为r_e=(e_e1,e_e2)，该连接表示了两个事件之间的因果关系，然后将每一个连接通过函数P进行概率假设，，其中/>是标准化常数，通过事件对（E,R）来生成前置医学逻辑规则，然后利用上述网络进行逻辑路径的推理。

图3示出了根据本发明的一些实施例的生成马尔科夫链的流程图。根据本发明的实施例，将多个经标识事件依次输入具有BiLSTM的神经网络进行训练，以基于转移概率生成由该多个经标识事件的经标识事件子集形成的马尔科夫链可以包括以下如图3所示的具体步骤。

在步骤302中，可以针对经标识事件子集中的每个经标识事件对之间的转移概率确定相应的奖励值。

根据本发明的一个实施例，可以基于以下奖励函数获得每个经标识事件对之间的奖励值：

R_ki =A_ki·R（S,E），

其中R表示当前经标识事件到下一经标识事件的奖励值并且R包括正值和/或负值，A表示当前经标识事件到下一经标识事件的动作，k大于等于0，S指示观察到的状态，E指示事件。

具体地，事件的抽取通常在于触发词和其相关联的实体，其过程可以被视为是一个序列标注问题，其核心特点就是长时依赖，因此适合使用强化学习，结合上述的事件模型可以作为强化学习的生成模型。另一方面，对于判别模型，本发明则采用角色标记，即对于所有触发词和下一节点的实体关系进行R奖励，但是传统的奖励机制只考虑正关联，忽略很多情况导致很难收敛，为了保证公平的对待每一对关系，本发明采用不同阶段不同奖励值（R_ki）的方式。其中，利用A来区分动作，在不同动作下区分不同阶段从而采用不同奖励值R_ki=A_ki·R（S,E）。这种方式可以更真实的反应不同阶段的真实奖励。

根据不同的场景和阶段，本发明还可以提供多种判别模型，例如针对原发、淋巴转移、血行转移等阶段进行动作描述可以客观对病人的状态进行描述，同时针对其类似的事件簇补足该事件的阶段奖励，从而加深对其事理逻辑的判断，其判断边界为，其中s为状态，a为动作。

在确定奖励值后，在步骤304中，可以基于每个经标识事件对之间的相应奖励值，确定以经标识事件子集中的任一事件为起点的多个逻辑路径各自的最终奖励值。

根据本发明的一个实施例，可以针对多个逻辑路径中的任一逻辑路径，以该任一经标识事件为起点并且基于经标识事件子集在特定逻辑路径中的顺序，通过衰减系数对该任一逻辑路径中的奖励值进行加权求和，以确定该任一逻辑路径的最终奖励值。

根据本发明的一个实施例，可以基于以下公示计算该任一逻辑路径的最终奖励值：

其中，G表示最终奖励值；R表示当前经标识事件到下一经标识事件的奖励值；y表示预设的衰减函数，其中0<y<1，k大于等于0。

除了基于奖励值来确定最优逻辑路径以更新马尔科夫链之外，在本发明的一个示例中，还可以利用高维向量来对因果路径进行表示。例如，通过对高维向量的预先距离可以找到与之相匹配的事件集合。通过预设事件作为起点在所有相似事件簇中寻找和该事件相关的证据事件，然后通过证据事件的相关路径构建逻辑规则的自动因果路径表示。

根据本发明的一个实施例，可以对多个经标识事件进行预处理以将多个经标识事件转换为具有固定维度的多个经标识事件向量。在获得具有固定维度的多个经标识事件向量后，可以将多个经标识事件向量输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于转移概率生成描述由多个经标识事件的经标识事件子集形成的马尔科夫链的高维向量。

在确定多个逻辑路径各自的最终奖励值之后，在步骤306中，可以确定具有最高的最终奖励值的逻辑路径作为以该任一事件为起点的最优逻辑路径，并且在步骤308中，可以基于最优逻辑路径更新马尔科夫链中的参数以生成更新后的马尔科夫链。图4示出了根据本发明的一些实施例的所生成的马尔科夫链的示意图。通过马尔科夫链的奖励函数，最终可以为以每一个事件为起点的多个路径确定最终的价值，从而确定最优的逻辑路径，进而可以优化所生成的事理图谱的逻辑路径。

在一个示例中，由于事件在医疗文本数据中的先后顺序在一定程度上反映了不同事件之间的部分关系，因此，经标识时间需要按照在训练文本数据中的顺序输入具有BiLSTM的神经网络中。例如，图5示出了根据本发明的一些实施例的示例文本数据（例如“开始试管转移…肝”）输入至具有BiLSTM的神经网络中的示意图。

此外，在本发明的一个示例中，因为事件实体之间有相关依赖关系，所以基于依赖关系通过浅层的BiLSTM对齐进行编码。由于事件实体的相似性，可以容易地得到事件的相关度，也可以构建事件的嵌入编码。然后，基于一组相关的源任务预训练一个深度策略网络, 通过监督信号的指导, 使得单一的策略网络可以学会各自任务相对应的策略，并且可以将学习到的知识迁移到相似的新任务中。

在生成马尔科夫链后，在步骤S206中，可以将该多个逻辑路径与临床路径进行比较以确定与该多个逻辑路径相匹配的临床路径中的至少一个匹配路径，其中该至少一个匹配路径包括临床路径事件集合。

根据本发明的一个实施例，临床路径包括经过验证的标准临床路径和/或真实世界临床路径，从而保证所匹配的路径是符合医学规律的。

例如，符合医学规律的临床路径例如可以如下所示：患者体检发现食管癌1月余后2020年11月19日行全身PET-CT，见食管胸中上段局部管壁增厚，伴代谢增高，侵犯黏膜下层，符合食管癌。初步临床分期：T1N0M0。入院后积极完善相关检查，于2020年12月07日，行胸腹腔镜下食管中段癌切除食管胃左颈部吻合加喉返神经解剖术。上述内容经过验证符合食管癌“T1b及以上I期首选外科手术治疗”的临床路径。

符合医学规律的临床路径还可以例如是患者2021年5月无明显诱因出现渐进性吞咽困难，于2021年7月医院就诊行胃镜病理诊断：（1）（食管18-25cm(5)）中分化鳞状细胞癌。于2021年7月进行CT：食管上段可见管壁不规则增厚，最厚处约1.6cm，强化不均匀，余未见异常。患者出现症状，经影像学及内镜下病理学检查后确诊为食管鳞癌，符合常规的临床诊断路径。

根据本发明的一个实施例，在使用高维向量来确定马尔科夫链的情况下，可以基于多个逻辑路径中的每个逻辑路径中的经标识事件转移方向与所包含的经标识事件子集，确定描述马尔科夫链的高维向量与临床路径的距离。在确定高维向量与临床路径的距离之后，可以基于高维向量与临床路径的距离，确定与多个逻辑路径相匹配的临床路径中的至少一个匹配路径。

还可以由高到低排序路径匹配程度，例如匹配路径可以分为首选推荐、次选推荐和其他推荐的标准临床路径和/或真实世界临床路径。该标准临床路径和/或真实世界临床路径至少包括检查、诊断、治疗、康复随访的医疗全程信息中的一种或几种作为核心语料，用于辅助图谱识别与抽取。核心语料来自基于国际标准、国家标准以及多年的历史数据的挖掘和提取，可以更加全面的覆盖真实世界的复杂情况，在事理图谱应用方面可以更好的帮助识别出被标准NLP忽略的实体，协助发现遗漏项并归一，建立健全完整的事理图谱的路径。

例如，对于食管癌而言，参考卫健委及CSCO食管癌诊疗指南在内的专业临床文档，可以形成针对食管癌的推荐标准临床路径。例如，食管内镜下活检确诊是食管癌诊断金标准。在拒绝或不具备条件行内镜检查时，可综合上消化道造影、胸腹部增强CT、全身PET-CT或食管超声内镜或超声支气管镜引导下穿刺活检辅助诊断。食管癌的治疗包括内镜下治疗、手术治疗、放射治疗、系统性药物治疗等。早期食管癌推荐行内镜下治疗，如内镜下黏膜剥离术（ESD）、内镜下黏膜切除术（EMR）等。可手术切除的食管癌治疗方案应结合疾病累及部位、临床分期、患者合并症等多因素综合制定手术方式，包括McKeown、Ivor Lewis、Sweet等术式。放射治疗涉及术前新辅助、术后辅助、根治性、姑息性治疗等多方面。非计划手术或拒绝手术治疗的患者可行根治性同步放化疗。药物治疗包括针对局部晚期患者的新辅助治疗和辅助治疗，以及针对晚期患者的化疗、分子靶向治疗和免疫治疗。

在确定与该多个逻辑路径相匹配的临床路径中的至少一个匹配路径后，在步骤S208中，可以基于临床路径事件集合，确定训练医疗文本数据中存在未被标识的证据事件，其中该未被标识的证据事件与经标识事件子集中的至少一个经标识事件具有因果关系。

如前所述，事理图谱常见的问题例如是缺少时间证据，这导致两个实体（即，事件）间的隐式因果关系很难被发现，还会影响事理图谱的事件抽取性能。继续前面的示例，如在具有A、B、C、D等的训练医疗文本数据中，经标识事件包括其中的A、B、C。然而，事件D可能存在与A、B、C其中的一个或多个的隐式关系，由于事件D未被标注，导致基于该训练医疗文本数据生成的事理图谱将是不准确地，甚至可能是错误的。因此基于临床路径事件集合，可以确定训练医疗文本数据中是否存在未被标识的证据事件，从而可以避免生成的事理图谱不准确。

具体地，根据本发明的一个实施例，可以将临床路径事件集合中所包含的第一临床路径事件与训练文本数据进行文本匹配以确定第一临床路径事件存在于训练医疗文本数据中并且该第一临床路径事件不属于经标识事件。在得到上述确定后，可以将该第一临床路径事件作为训练医疗文本数据中存在未被标识的证据事件。

在确定训练医疗文本数据中存在未经标识的事件，例如第一临床路径事件之后，根据本发明的一个实施例，还可以基于第一临床路径事件在匹配路径中的位置，确定匹配路径中与第一临床路径事件相关联的至少一个第二临床路径事件。响应于第二临床路径事件与经标识事件子集中的一个经标识事件相对应，基于第一临床路径事件与第二临床路径事件的关联，确定未被标识的证据事件与该一个经标识事件具有因果关系。

最后，在确定训练医疗文本数据中存在未被标识的证据事件后，在步骤S210中，可以基于多个逻辑路径以及未被标识的证据事件与经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱。由此可以将未经标识的事件以及其相关联的因果关系都纳入构建的事理图谱中，从而可以获得更加准确地、符合临床路径的事理图谱。图6示出了根据本发明的一些实施例的生成的事理图谱的示意图。

根据本发明的一个实施例，在确定具有最高奖励值的逻辑路径作为以该任一事件为起点的最优逻辑路径，基于最优逻辑路径更新马尔科夫链的情况下，还可以基于最优逻辑路径构建用于癌症医疗路径推理的事理图谱。

根据本发明的一个实施例，事理图谱可以用于针对癌症的医疗决策。在事理图谱用于针对癌症的医疗决策的情况下，构建事理图谱还可以基于病例类型、转移类型和/或分期类型的关系构。通过此类关系构建事理图谱可以更好地基于医疗决策。

以上结合图1-图6详细描述了用于医疗推理的事理图谱生成方法，通过使用具有BiLSTM的神经网络对包括经标识事件的数据集进行训练，基于经标识事件之间的转移概率生成多个逻辑路径的马尔科夫链，并且将生成的多个逻辑路径与临床路径进行比较以确定文本数据中存在与至少一个经标识事件具有因果关系的未被标识的证据事件，进而基于多个逻辑路径以及未被标识的证据事件与至少一个经标识事件的因果关系来构建事理图谱。通过这样的方式生成事理图谱避免了因训练数据中存在未标识事件而导致事理图谱缺少事件和/或事件之间的关系，进而使得所生成的事理图谱可以更加准确地用于癌症医疗路径推理。

<第二实施例>

本发明除了提供上述用于医疗推理的事理图谱生成方法，还提供了事理图谱生成过程中对待处理的训练医疗文本数据进行纳排的具体方式。

首先，在处理待处理的训练医疗文本数据之前，获取待处理的训练医疗文本数据可以从例如数据库、表格中获取包括年龄、地区、家族肿瘤史、吸烟史、饮酒史、影像学检查、病理学检查、及手术治疗、放射治疗、系统性药物治疗等在内的患者信息。然后，可以对患者信息按照医学诊断路径关系进行识别、提取、结构化处理。图7示出了根据本发明的一些实施例的基于表格获取待处理的训练医疗文本数据的示意图。在另一个示例中，还可以由医生提供用于训练的医疗文本信息，其至少可以包括语音、文字、图像及在相应的前端引导信息下查询患者的信息。例如：食管癌的典型临床症状包括进行性吞咽困难等，中晚期阶段可能出现颈部淋巴结肿大、黄疸、肝区压痛等体征。食管癌检查包括胸腹CT、MRI、超声、PET-CT等影像学检查以及普通内镜、超声内镜等内镜学检查。

这里没用采用先识别后检验的方式，是因为事理图谱天生自带因果顺承及条件关系，可以很好的协助生成更加标准化的患者特征数据。如果存在完全匹配的标准临床路径和/或真实世界临床路径，由于真实世界的临床路径更加复杂且条件要素类型更多，则可以调取完全匹配的标准临床路径数据集合和/或真实世界临床路径数据集合，并将信息存储到数据纳排存储。

根据本发明的一个实施例，在获取待处理的训练医疗文本数据集后，可以对待处理的训练医疗文本数据集中的每个待处理的训练医疗文本数据进行纳排，通过数据纳排方式对医疗文本数据进行预处理，以便数据可以更好地用于生成准确的事理图谱。具体地，对待处理的训练医疗文本数据进行纳排可以根据待处理的训练医疗文本数据的语义，将待处理的训练医疗文本数据划分为多个经标识事件；确定多个经标识事件的组合条件，其中组合条件包括多个经标识事件的时间关系、组合关系以及筛选信息；基于组合条件对待处理的训练医疗文本数据中的多个经标识事件进行纳排存储以生成训练医疗文本数据。

在一个示例中，纳排的组合条件可以例如如下所示：

数据规模

起始事件

事件（组）

事件的进一步筛选

事件（组）之间的组合关系

基线时间T0（时间锚点）

（任何、最早、最晚、正数倒数第X次）起始事件发生的时间

入排条件

事件（组）

事件的进一步筛选

事件（组）与T0的关系或者与其他时间锚点的关系

事件（组）之间的组合关系

更多的时间锚点（P1）

由入排条件中的事件定义更多的时间锚点（T1，T2，……）

起始事件、入排条件之间的关系

患者维度取并集

患者维度取并集后剔除符合某入排条件的患者

其中，根据本发明的一个实施例，多个经标识事件的时间关系指示一个或多个时间与最早起始事件时间或者最早起始事件时间及一个或多个其他时间锚点之间的时间先后顺序。这样通过数据纳排处理的医疗文本数据中的经标识事件的顺序将更清晰。此外，在一个示例中，一个或多个事件的组合关系指示一个或多个事件具有并列、任一或者互斥关系。一个或多个事件的筛选信息指示与一个或多个事件相关联的诊断信息、检查结果信息、治疗信息和疗效信息中的一个或多个。在对数据进行纳排后，经纳排的数据可以依据多种维度进行存储，至少包括症状、体征、病史和/或检查结果。

以上结合图7详细描述了用于医疗推理的事理图谱生成方法中对数据纳排的处理方式，通过特定的数据纳排标准生成的用于提供临床诊疗路径的事理图谱，以更准确地为患者提供有效的治疗、诊断等方案。

<第三实施例>

本发明除了提供上述用于医疗推理的事理图谱生成方法，还提供了用于医疗推理的事理图谱生成装置，接下来将结合图7对此进行详细描述。

图8示出了根据本发明的一些实施例的用于医疗推理的事理图谱生成装置的框图。如图8所示，本发明所述的用于医疗推理的事理图谱生成装置800可以包括训练数据集获取单元810、神经网络训练单元820、路径匹配单元830、证据事件确定单元840以及事理图谱生成单元850。

根据本发明的一些实施例，训练数据集获取单元810可以被配置为获取训练医疗文本数据集，其中训练医疗文本数据集的每个训练医疗文本数据中包括多个经标识事件，多个经标识事件包括与癌症医疗相关的事件，并且多个经标识事件的每个事件对之间存在确定的转移概率。

根据本发明的一些实施例，神经网络训练单元820可以被配置为按照多个经标识事件在训练文本数据中的顺序，将多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于转移概率生成由多个经标识事件的经标识事件子集形成的马尔科夫链，其中马尔科夫链包括以经标识事件子集中的任一经标识事件为起点的多个逻辑路径。

根据本发明的一些实施例，路径匹配单元830可以被配置为将多个逻辑路径与临床路径进行比较以确定与多个逻辑路径相匹配的临床路径中的至少一个匹配路径，其中至少一个匹配路径包括临床路径事件集合。

根据本发明的一些实施例，证据事件确定单元840可以被配置为基于临床路径事件集合，确定训练医疗文本数据中存在未被标识的证据事件，其中未被标识的证据事件与经标识事件子集中的至少一个经标识事件具有因果关系。

根据本发明的一些实施例，事理图谱生成单元850可以被配置为基于多个逻辑路径以及未被标识的证据事件与经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱。

根据本发明的一些实施例，为了将多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于转移概率生成由多个经标识事件的经标识事件子集形成的马尔科夫链，神经网络训练单元820还可以被配置为针对经标识事件子集中的每个经标识事件对之间的转移概率确定相应的奖励值；基于每个经标识事件对之间的相应奖励值，确定以经标识事件子集中的任一事件为起点的多个逻辑路径各自的最终奖励值；确定具有最高的最终奖励值的逻辑路径作为以任一事件为起点的最优逻辑路径；以及基于最优逻辑路径更新马尔科夫链中的参数以生成更新后的马尔科夫链。

根据本发明的一些实施例，为了基于多个逻辑路径以及未被标识的证据事件与经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱，事理图谱生成单元850还可以被配置为基于最优逻辑路径构建用于癌症医疗路径推理的事理图谱。

根据本发明的一些实施例，为了基于每个经标识事件对之间的相应奖励值，确定以经标识事件子集中的任一经标识事件为起点的多个逻辑路径各自的最终奖励值，神经网络训练单元820还可以被配置为针对多个逻辑路径中的任一逻辑路径，以任一经标识事件为起点并且基于经标识事件子集在特定逻辑路径中的顺序，通过衰减系数对任一逻辑路径中的奖励值进行加权求和，以确定任一逻辑路径的最终奖励值。

根据本发明的一些实施例，可以基于以下公式计算任一逻辑路径的最终奖励值：

根据本发明的一些实施例，可以基于以下奖励函数获得每个经标识事件对之间的奖励值：

R_ki =A_ki·R（S,E），

根据本发明的一些实施例，为了将多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于转移概率生成由多个经标识事件的经标识事件子集形成的马尔科夫链，神经网络训练单元820还可以被配置为对多个经标识事件进行预处理以将多个经标识事件转换为具有固定维度的多个经标识事件向量；将多个经标识事件向量输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于转移概率生成描述由多个经标识事件的经标识事件子集形成的马尔科夫链的高维向量。

根据本发明的一些实施例，为了将多个逻辑路径与临床路径进行比较以确定与多个逻辑路径相匹配的临床路径中的至少一个匹配路径，路径匹配单元830还可以被配置为基于多个逻辑路径中的每个逻辑路径中的经标识事件转移方向与所包含的经标识事件子集，确定描述马尔科夫链的高维向量与临床路径的距离，基于高维向量与临床路径的距离，确定与多个逻辑路径相匹配的临床路径中的至少一个匹配路径。

根据本发明的一些实施例，证据事件确定单元840还可以被配置为将临床路径事件集合中所包含的第一临床路径事件与训练文本数据进行文本匹配以确定第一临床路径事件存在于训练医疗文本数据中并且第一临床路径事件不属于经标识事件；将第一临床路径事件作为训练医疗文本数据中存在未被标识的证据事件。

根据本发明的一些实施例，证据事件确定单元840还可以被配置为基于第一临床路径事件在匹配路径中的位置，确定匹配路径中与第一临床路径事件相关联的至少一个第二临床路径事件；响应于第二临床路径事件与经标识事件子集中的一个经标识事件相对应，基于第一临床路径事件与第二临床路径事件的关联，确定未被标识的证据事件与一个经标识事件具有因果关系。

根据本发明的一些实施例，确定的转移概率是基于先验知识获取的。

根据本发明的一些实施例，事理图谱用于针对癌症的医疗决策，构建事理图谱还包括基于病例类型、转移类型和/或分期类型的关系构建事理图谱。

根据本发明的一些实施例，临床路径包括经过验证的标准临床路径和/或真实世界临床路径。

根据本发明的一些实施例，训练数据集获取单元810还可以被配置为获取待处理的训练医疗文本数据集，对待处理的训练医疗文本数据集中的每个待处理的训练医疗文本数据进行纳排，其中对待处理的训练医疗文本数据进行纳排包括：根据待处理的训练医疗文本数据的语义，将待处理的训练医疗文本数据划分为多个经标识事件；确定多个经标识事件的组合条件，其中组合条件包括多个经标识事件的时间关系、组合关系以及筛选信息；基于组合条件对待处理的训练医疗文本数据中的多个经标识事件进行纳排存储以生成训练医疗文本数据。

根据本发明的一些实施例，多个经标识事件的时间关系指示一个或多个时间与最早起始事件时间或者最早起始事件时间及一个或多个其他时间锚点之间的时间先后顺序。

关于图8所示的用于医疗推理的事理图谱生成装置的一些具体细节还可以参考图1至图7中所示的用于医疗推理的事理图谱生成方法的内容。

图9示出了根据本发明的一些实施例的电子设备的结构图。

参见图9，电子设备900可以包括处理器901和存储器902。处理器901和存储器902都可以通过总线903相连。电子设备900可以是任何类型的便携式设备（如智能相机、智能手机、平板电脑等）也可以是任何类型的固定设备（如台式计算机、服务器等）。

处理器901可以根据存储在存储器902中的程序执行各种动作和处理。具体地，处理器901可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

存储器902存储有计算机可执行指令，在计算机可执行指令被处理器901执行时实现上述用于医疗推理的事理图谱生成方法。存储器902可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM）、可编程只读存储器（PROM）、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）或闪存。易失性存储器可以是随机存取存储器（RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、同步动态随机存取存储器（SDRAM）、双倍数据速率同步动态随机存取存储器DDRSDRAM）、增强型同步动态随机存取存储器（ESDRAM）、同步连接动态随机存取存储器（SLDRAM）和直接内存总线随机存取存储器（DR RAM）。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

此外，根据本发明的用于医疗推理的事理图谱生成方法可被记录在计算机可读记录介质中。具体地，根据本发明，可提供一种存储有计算机可执行指令的计算机可读记录介质，当所述计算机可执行指令被处理器执行时，可促使处理器执行如上所述的用于医疗推理的事理图谱生成方法。

需要说明的是，附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其它方面可以在可以由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其它图像表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备，或其某些组合中实施。

除非另有定义，这里使用的所有术语（包括技术和科学术语）具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种用于医疗推理的事理图谱生成方法，包括：

获取训练医疗文本数据集，其中所述训练医疗文本数据集的每个训练医疗文本数据中包括多个经标识事件，所述多个经标识事件包括与癌症医疗相关的事件，并且所述多个经标识事件的每个事件对之间存在确定的转移概率；

按照所述多个经标识事件在所述训练文本数据中的顺序，将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链，其中所述马尔科夫链包括以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径；

将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径，其中所述至少一个匹配路径包括临床路径事件集合；

基于所述临床路径事件集合，确定所述训练医疗文本数据中存在未被标识的证据事件，其中所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件具有因果关系；以及

基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱。

2.根据权利要求1所述的事理图谱生成方法，其中，将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链还包括：

针对所述经标识事件子集中的每个经标识事件对之间的转移概率确定相应的奖励值；

基于每个经标识事件对之间的相应奖励值，确定以所述经标识事件子集中的任一事件为起点的多个逻辑路径各自的最终奖励值；

确定具有最高的最终奖励值的逻辑路径作为以所述任一事件为起点的最优逻辑路径；以及

基于所述最优逻辑路径更新所述马尔科夫链中的参数以生成更新后的马尔科夫链。

3.根据权利要求2所述的事理图谱生成方法，其中，基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱还包括：

基于所述最优逻辑路径构建所述用于癌症医疗路径推理的事理图谱。

4.根据权利要求2或3所述的事理图谱生成方法，其中，基于每个经标识事件对之间的相应奖励值，确定以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径各自的最终奖励值包括：

针对所述多个逻辑路径中的任一逻辑路径，以所述任一经标识事件为起点并且基于所述经标识事件子集在所述特定逻辑路径中的顺序，通过衰减系数对所述任一逻辑路径中的奖励值进行加权求和，以确定所述任一逻辑路径的最终奖励值。

5.根据权利要求4所述的事理图谱生成方法，其中，基于以下公式计算所述任一逻辑路径的最终奖励值：

6.根据权利要求2或3所述的事理图谱生成方法，其中，基于以下奖励函数获得每个经标识事件对之间的奖励值：

R_ki =A_ki·R（S,E），

7.根据权利要求1所述的事理图谱生成方法，其中，将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链包括：

对所述多个经标识事件进行预处理以将所述多个经标识事件转换为具有固定维度的多个经标识事件向量；

将所述多个经标识事件向量输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成描述由所述多个经标识事件的经标识事件子集形成的马尔科夫链的高维向量。

8.根据权利要求7所述的事理图谱生成方法，其中，将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径包括：

基于所述多个逻辑路径中的每个逻辑路径中的经标识事件转移方向与所包含的经标识事件子集，确定描述所述马尔科夫链的所述高维向量与所述临床路径的距离，

基于所述高维向量与所述临床路径的距离，确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径。

9.根据权利要求1所述的事理图谱生成方法，其中基于所述临床路径事件集合，确定所述训练医疗文本数据中存在未被标识的证据事件包括：

将所述临床路径事件集合中所包含的第一临床路径事件与所述训练文本数据进行文本匹配以确定所述第一临床路径事件存在于所述训练医疗文本数据中并且所述第一临床路径事件不属于经标识事件；

将所述第一临床路径事件作为所述训练医疗文本数据中存在未被标识的证据事件。

10.根据权利要求9所述的事理图谱生成方法，还包括：

基于所述第一临床路径事件在所述匹配路径中的位置，确定所述匹配路径中与所述第一临床路径事件相关联的至少一个第二临床路径事件；

响应于所述第二临床路径事件与所述经标识事件子集中的一个经标识事件相对应，基于所述第一临床路径事件与所述第二临床路径事件的关联，确定所述未被标识的证据事件与所述一个经标识事件具有因果关系。

11.根据权利要求1所述的事理图谱生成方法，其中，所述确定的转移概率是基于先验知识获取的。

12.根据权利要求1所述的事理图谱生成方法，其中，所述事理图谱用于针对癌症的医疗决策，构建所述事理图谱还包括基于病例类型、转移类型和/或分期类型的关系构建所述事理图谱。

13.根据权利要求1所述的事理图谱生成方法，其中，所述临床路径包括经过验证的标准临床路径和/或真实世界临床路径。

14.根据权利要求1所述的事理图谱生成方法，其中，获取训练医疗文本数据集包括：

获取待处理的训练医疗文本数据集，对待处理的训练医疗文本数据集中的每个待处理的训练医疗文本数据进行纳排，其中对待处理的训练医疗文本数据进行纳排包括：

根据所述待处理的训练医疗文本数据的语义，将所述待处理的训练医疗文本数据划分为多个经标识事件；

确定所述多个经标识事件的组合条件，其中所述组合条件包括所述多个经标识事件的时间关系、组合关系以及筛选信息；

基于所述组合条件对所述待处理的训练医疗文本数据中的多个经标识事件进行纳排存储以生成训练医疗文本数据。

15.根据权利要求14所述的事理图谱生成方法，其中，所述多个经标识事件的时间关系指示所述一个或多个时间与最早起始事件时间或者最早起始事件时间及一个或多个其他时间锚点之间的时间先后顺序。

16.一种用于医疗推理的事理图谱生成装置，包括：

训练数据集获取单元，被配置为获取训练医疗文本数据集，其中所述训练医疗文本数据集的每个训练医疗文本数据中包括多个经标识事件，所述多个经标识事件包括与癌症医疗相关的事件，并且所述多个经标识事件的每个事件对之间存在确定的转移概率；

神经网络训练单元，被配置为按照所述多个经标识事件在所述训练文本数据中的顺序，将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链，其中所述马尔科夫链包括以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径；

路径匹配单元，被配置为将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径，其中所述至少一个匹配路径包括临床路径事件集合；

证据事件确定单元，被配置为基于所述临床路径事件集合，确定所述训练医疗文本数据中存在未被标识的证据事件，其中所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件具有因果关系；以及

事理图谱生成单元，被配置为基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱。

17.根据权利要求16所述的事理图谱生成装置，其中，为了将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链，所述神经网络训练单元还被配置为：

18.根据权利要求17所述的事理图谱生成装置，其中，为了基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系，构建用于癌症医疗路径推理的事理图谱，所述事理图谱生成单元还被配置为：

19.根据权利要求17或18所述的事理图谱生成装置，其中，为了基于每个经标识事件对之间的相应奖励值，确定以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径各自的最终奖励值，所述神经网络训练单元还被配置为：

20.根据权利要求19所述的事理图谱生成装置，其中，基于以下公式计算所述任一逻辑路径的最终奖励值：

21.根据权利要求17或18所述的事理图谱生成装置，其中，基于以下奖励函数获得每个经标识事件对之间的奖励值：

R_ki =A_ki·R（S,E），

22.根据权利要求16所述的事理图谱生成装置，其中，为了将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练，以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链，所述神经网络训练单元还被配置为：

23.根据权利要求22所述的事理图谱生成装置，其中，为了将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径，所述路径匹配单元还被配置为：

24.根据权利要求16所述的事理图谱生成装置，其中所述证据事件确定单元还被配置为：

25.根据权利要求24所述的事理图谱生成装置，所述证据事件确定单元还被配置为：

26.根据权利要求16所述的事理图谱生成装置，其中，所述确定的转移概率是基于先验知识获取的。

27.根据权利要求16所述的事理图谱生成装置，其中，所述事理图谱用于针对癌症的医疗决策，构建所述事理图谱还包括基于病例类型、转移类型和/或分期类型的关系构建所述事理图谱。

28.根据权利要求16所述的事理图谱生成装置，其中，所述临床路径包括经过验证的标准临床路径和/或真实世界临床路径。

29.根据权利要求16所述的事理图谱生成装置，其中，所述训练数据集获取单元还被配置为：

30.根据权利要求29所述的事理图谱生成装置，其中，所述多个经标识事件的时间关系指示所述一个或多个时间与最早起始事件时间或者最早起始事件时间及一个或多个其他时间锚点之间的时间先后顺序。

31. 一种电子设备，包括：

处理器；以及

存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述处理器执行时，实现权利要求1-15中任一项所述的用于医疗推理的事理图谱生成方法。

32.一种非暂时性计算机可读存储介质，存储有计算机可读指令，其中，当所述计算机可读指令在由处理器执行时，实现权利要求1-15中任一项所述的用于医疗推理的事理图谱生成方法。