CN114678132A

CN114678132A - 一种基于临床行为反馈的自学习医疗风控系统及方法

Info

Publication number: CN114678132A
Application number: CN202210355136.9A
Authority: CN
Inventors: 周禹同; 魏先友
Original assignee: Beijing Yisheng Intelligent Technology Co ltd
Current assignee: Beijing Yisheng Intelligent Technology Co ltd
Priority date: 2022-02-22
Filing date: 2022-03-31
Publication date: 2022-06-28
Anticipated expiration: 2042-03-31
Also published as: CN114678132B

Abstract

本发明涉及一种基于临床行为反馈的自学习医疗风控系统及方法，包括至少一个医生端和服务端；服务端接收临床医生通过医生端在诊疗过程中产生第一数据文件；在对第一数据文件进行结构化处理后，通过内置的风控模型进行处理得到风控结果，并反馈回到对应的医生端；临床医生通过医生端，根据风控结果对第一数据文件进行修改和/或补充得到第二数据文件；服务端接收医生端发送的第二数据文件，根据对应的第一数据文件、第二数据文件和风控结果对本次风控结果进行评价，并依据评价结果通过自学习的方式更新风控模型。本发明利用医生临床行为的反馈对模型进行评价，使模型基于策略逻辑自我迭代更新，判断依据更加的精准。

Description

一种基于临床行为反馈的自学习医疗风控系统及方法

技术领域

本发明属于医疗辅助风险识别技术领域、医疗辅助决策技术领域以及神经网络技术领域，具体涉及一种基于临床行为反馈的自学习医疗风控系统及方法。

背景技术

现有医疗决策类系统或者风险评判类系统，如临床决策支持系统、病案质控系统，通常会使用规则或人工智能(如：机器学习算法)算法对病历(病案)这类非结构化数据文本进行自然语言处理或识别，并基于自动化或者规则的方式进行数据提取，以形成结构化的数据。结合这些经过结构化的病案以及其他本身就是结构化的数据信息(如：医嘱、病案首页数据、实验室检验结果等)人为设定规则以形成决策依据或者风险识别依据，如患者尿酸测定值超过420μmol/L即被认定为痛风。然而，实际临床对于诊断的下达或者病情的分析并不完全基于某一种客观化指标，而是结合各类因素(如：临床表现)综合判定。因此尽管使用了各种人工智能的算法，但在决策依据的判断以及风险识别依据的判断中还是基于专家经验的简单化设定，因此于临床实际情况存在较大差异，也导致临床对于这类系统的认可度较低。

发明内容

鉴于上述的分析，本发明旨在公开了一种基于临床行为反馈的自学习医疗风控系统及方法，利用医生临床行为的反馈对模型的效力进行综合评价，使模型基于一定的策略逻辑而自我迭代更新，使其在依据判断中更加的精准。

本发明公开了一种基于临床行为反馈的自学习医疗风控系统，包括至少一个医生端和服务端；所述服务端与每个医生端通信连接进行数据交互；

所述服务端接收临床医生通过某个医生端在诊疗过程中产生的包括病案数据在内的第一数据文件；在对第一数据文件进行结构化处理后，通过内置的风控模型进行处理得到风控结果，并反馈回到对应的医生端；临床医生通过所述医生端，根据风控结果对所述第一数据文件进行修改和/或补充得到第二数据文件；

所述服务端接收所述医生端发送的第二数据文件，根据对应的第一数据文件、第二数据文件和风控结果对本次风控结果进行自动评价，并依据评价结果，通过自学习的方式更新风控模型。

进一步地，所述服务端包括结构化处理模块、评价模块、风控模型和自学习训练数据库；

所述结构化处理模块，用于采用NLP方法，对第一数据文件或第二数据文件进行处理得到结构化的第一数据文件S_t或第二数据文件S_t+1；

所述风控模型，用于根据所述结构化的第一数据文件S_t进行处理得到风控结果a_t；

所述评价模块，用于根据每次诊疗过程中对应的结构化的第一数据文件S_t、第二数据文件S_t+1和风控结果a_t，对每次风控结果进行评价得到评价结果r_t；

所述自学习训练数据库，用于将每次医疗风控中对应的第一数据文件S_t、第二数据文件S_t+1、风控结果a_t和评价结果r_t作为1组医疗风控记录数据进行存储；

所述风控模型为自学习的神经网络模型，通过从自学习训练数据库中调取多组的医疗风控记录数据进行自学习训练，更新模型参数。

进一步地，所述风控模型包括第一风控模型和/或第二风控模型；

所述第一风控模型为风险识别模型，用于对包括病案数据在内的结构化的第一数据文件S_t中存在的包括选择错误、内容漏填和内容冲突在内的风险进行识别输出风控结果a_t；风控结果a_t反馈到医生端后，临床医生在医生端参照风控结果a_t对所述第一数据文件S_t进行修改得到第二数据文件S_t+1；

所述第二风控模型为辅助决策模型，用于依据包括病案数据在内的结构化的第一数据文件S_t产生后续诊疗辅助决策结果的风控结果a_t；辅助决策结果反馈到医生端后，临床医生在医生端参照辅助决策结果对所述第一数据文件S_t进行诊疗决策内容的补充得到第二数据文件S_t+1。

进一步地，所述第一风控模型或第二风控模型的结构相同，均包括：

神经网络结构相同的当前策略网络和目标策略网络；神经网络结构相同的当前价值网络和目标价值网络；

其中，

所述当前策略网络，以结构化的第一数据文件S_t为输入，输出对所述第一数据文件的风控结果a_t；在风控模型的每次自学习后，对当前策略网络的网络参数进行更新；

所述目标策略网络，其网络参数为延时同步的当前决策网络的网络参数；用于在风控模型的自学习过程中，根据输入的结构化后的第二数据文件S_t+1，产生对第二数据文件的风控结果a_t+1；

所述当前价值网络，用于在风控模型的自学习过程中，根据输入的结构化后的第一数据文件S_t和对应的风控结果a_t进行预测得到当前自学习过程的Q值；在风控模型的每次自学习后，对当前策略网络的网络参数进行更新；

所述目标价值网络，用于在风控模型的自学习过程中，根据输入的第二数据文件S_t+1和以第二数据文件S_t+1为输入在所述目标策略网络中输出的风控结果a_t+1进行预测得到当前自学习过程的Q’值；其网络参数为延时同步的当前价值网络参数。

进一步地，所述自学习的学习过程中，包括以下步骤：

从自学习训练数据库随机采样N组医疗风控记录数据{S_t，j、a_t，j、r_t，j、S_t+1，j}；j＝1,2,3…N；S_t，j为第j组数据中的结构化的第一数据文件，a_t，j为第j组数据中的结构化的风控结果；r_t，j为第j组数据中的评价结果；S_t+1，j为第j组数据中的结构化的第二数据文件；

使用S_t，j和a_t，j在所述当前价值网络中进行预测，计算出S_t，j为输入的预测价值Q；

使用S_t+1，j在目标策略网络中计算出a_t+1，j；

结合S_t+1，j和a_t+1，j在所述目标价值网络中进行预测，计算出以S_t+1，j为输入的目标的预测价值Q’；

结合Q’和r_t，j计算出以S_t，j为输入的目标价值；

根据N次学习的损失梯度来更新当前价值网络参数；所述损失梯度根据S_t，j为输入的预测价值和目标价值确定；

使用N次学习的最大化预测价值来更新当前策略网络的参数。

进一步地，所述结构化处理模块，采用NLP算法将非结构化的病案数据转换为语义空间中的高维度向量表示；

在所述高维度向量表示中，病案数据中每个句子的文本数据对应一个句子向量，每个句子向量均包括一个字段名向量和多个词向量。

进一步地，风控模型中的策略网络采用端到端结构的神经网络；包括编码器网络和解码器网络；

所述编码器网络，用于对语义空间中的包括每个句子的字段名向量和词向量的高维度向量进行编码得到向量空间中的所有句子编码后的高维编码向量；

解码器网络，用于对所述编码器网络输出的高维编码向量进行解码，输出质控结果；

所述解码器网络的解码过程为循环解码；每次解码输出一个质控点结果，多次解码输出多个质控点结果；

在每次解码过程中，将所述编码器网络输出的高维编码向量配合上一次解码输出的质控点结果作为本次解码的输入。

进一步地，所述编码器网络包括第一编码网络和第二编码网络；

所述第一编码网络中，包括与句子向量数量相同的句子编码网络；

每个句子编码网络对句子向量进行编码，得到包括句子位置+内容编码向量的句编码向量；所述句子位置编码向量为对语义空间中的句子向量的字段名向量进行编码的结果；所述内容编码向量是对语义空间中的句子向量的词向量进行编码的结果；

所述第二编码网络，以第一编码网络输出的多个句编码向量为输入，通过编码运算建立句子之间的关联关系，输出每个句子的高维编码向量。

进一步地，所述第一编码网络中的每个句子编码网络结构，包括位置Embedding模块、文字Embedding模块、第一LSTM模块和向量合并模块；

所述位置Embedding模块对输入的字段名向量进行语义空间到向量空间的映射，得到句子位置编码向量；

所述文字Embedding模块对输入的词向量进行语义空间到向量空间的映射，得到多维的词向量；

所述第一LSTM模块对文字Embedding模块输出的多维的词向量进行处理，得到内容编码向量；

所述向量合并模块；将所述句子位置编码向量和内容编码向量进行拼接得到句编码向量；

所述第二编码网络为一个LSTM网络，对第一编码网络中依次输入的多个句编码向量进行编码，输出病案中所有句子编码后的高维编码向量。

进一步地，所述解码器网络包括相加模块和解码模块；

所述第一拼接模块，用于将所述编码器网络输出的高维编码向量和解码输出的上一个质控点结果进行拼接得到拼接结果；

所述解码模块，采用包括卷积层、池化层、全连接层和输出层的CNN网络，用于对拼接结果进行解码分类，输出当前质控点结果。

进一步地，风控模型中的价值网络包括编码器网络、累加网络和拼接输出网络；

所述编码器网络，用于对语义空间中的包括每个句子的字段名向量和词向量的高维度向量进行编码得到向量空间的每个句子的高维编码向量；

所述累加网络，用于将输入的质控结果中所有的质控点进行累加，输出累加向量；

所述拼接输出网络，用于将编码器网络和累加网络的输出向量进行拼接，然后传入全连接层输出一个预测的结果值。

进一步地，在所述评价模块中，对第一数据文件和对应的第二数据文件进行文本比对，找出两个文件中相区别的文本位置和文本内容；再与风控结果中所涉及的文本位置和文本内容相比较；对比较结果进行量化，得到评价结果。

进一步地，所述服务端还包括第一预训练数据库和/或第二预训练数据库；

所述第一预训练数据库，用于在第一风控模型进行冷启动时，对第一风控模型的当前策略网络进行预训练得到当前策略网络的网络参数；

所述第二预训练数据库，用于在第二风控模型进行冷启动时，对第二风控模型的当前策略网络进行预训练得到当前策略网络的网络参数；

所述第一预训练数据库或第二预训练数据库中的样本数据为历史病案文件以及对历史病案文件进行分析后得到修改结果和/或补充结果。

进一步地，其特征在于，还包括数据采集端；

所述医生端与医院的电子病案系统连接；

所述医生端将临床医生在诊疗过程中产生第一数据文件以及第二数据文件存储到医院的电子病案系统中；

所述数据采集端与医院的电子病案系统和服务端分别通信连接，用于从医院电子病案系统提取第一数据文件以及第二数据文件，输出到服务端中。

本发明还公开了一种基于临床行为反馈的自学习医疗风控方法，包括以下步骤：

步骤S1、对服务端进行冷启动，通过预训练数据对服务端中的风控模型进行训练，初始化服务端中的风控模型参数；

步骤S2、服务端接收临床医生通过某个医生端在诊疗过程中产生的包括病案数据在内的第一数据文件；

步骤S3、在对第一数据文件进行结构化处理后，通过内置的风控模型进行处理得到风控结果a_t，并反馈回到对应的医生端；

步骤S4、临床医生通过所述医生端，根据风控结果a_t对所述第一数据文件进行处理；

步骤S5、所述服务端按照设定的时间间隔接收医生端发送的处理后的第一数据文件形成第二数据文件，根据对应的结构化后的第一数据文件S_t、第二数据文件S_t+1和风控结果a_t对本次风控结果进行评价得到评价结果r_t；

步骤S6、将每次医疗风控中对应的第一数据文件S_t、第二数据文件S_t+1、风控结果a_t和评价结果r_t作为1组医疗风控记录数据进行存储；

步骤S7、调取N组的医疗风控记录数据对风控模型进行自学习训练，更新模型参数；

步骤S8、返回步骤S2，循环进行自学习，不断对风控模型参数进行迭代更新。

本发明至少可实现以下有益效果之一：

1)本发明，采用医生临床行为进行自学习迭代，减少通过专家经验设定规则的比重；大幅度减少甚至无需人工智力活动参与调整规则，直接通过算法实现功能价值。

2)本发明增加普适性与鲁棒性。不用重复的和人工开发，可以使系统自动的根据使用者的交互进行学习更新决策。对于开始未考虑到的情况，在自动学习过程中也会自动学习进系统，亦减少了开发工作量。

3)提升了系统的准确度，从单一的根据人为设定规则生成的决策系统的考虑不周全，到根据大量不同客户的实际使用情况进行自动学习更新决策系统的考虑周全，使得准确度得到大幅度的提升。

4)提升了客户的满意度，可以根据实际使用客户的不同要求进行学习更新，既满足准确性，也符合客户要求，使得客户满意度提升。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例中的基于临床行为反馈的自学习医疗风控系统的组成连接框图；

图2为本发明实施例中的服务端的组成连接框图；

图3为本发明实施例中的模型学习更新过程示意图；

图4为本发明实施例中策略网络的编码器网络结构图；

图5为本发明实施例中策略网络的解码器网络结构图；

图6为本发明实施例中价值网络结构图；

图7为本发明实施例中的自学习医疗风控系统组成连接框图；

图8为本发明实施例中的基于临床行为反馈的自学习医疗风控方法流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明的一个实施例公开了一种基于临床行为反馈的自学习医疗风控系统，如图1所示，包括至少一个医生端和服务端；所述服务端与每个医生端通信连接进行数据交互；实现在医疗过程中包括风险识别、辅助决策在内的医疗风控。

在数据交互过程中，

所述服务端接收所述医生端发送的第二数据文件，根据对应的第一数据文件、第二数据文件和风控结果对本次风控结果进行评价，并依据评价结果，通过自学习的方式更新风控模型。

在只需要完成包括病案质控在内的风险识别任务时，临床医生通过所述医生端根据风控结果对所述第一数据文件中的错误进行修改得到第二数据文件；

在只需要完成包括根据包括检查结果在内的医疗信息进行辅助决策任务时，临床医生通过所述医生端根据风控结果对所述第一数据文件中内容进行决策补充得到第二数据文件；

在需要同时完成两种任务时，临床医生通过所述医生端根据风控结果对所述第一数据文件中错误进行修改和进行决策补充得到第二数据文件。

如图2所示，所述服务端包括结构化处理模块、评价模块、风控模型和自学习训练数据库；

具体的，以所述第一数据文件或第二数据文件中的病案数据为例，进行所述结构化处理模块的功能描述。

病案数据包含病案首页、入院记录、病程记录、围手术期记录、护理记录、出院记录、医嘱、知情同意书等等非结构化的病案数据及包括实验室检验结果等其他结构化的数据信息。

其中，非结构化的病案数据利用自然语言处理算法的NLP算法进行标注和结构化；

优选的，可采用但不限于Word2Vec、Bert、LSTM等NLP算法将非结构化的病案数据转换为一个高维度的文本向量表示。

具体的，所述风控模型中包括第一风控模型和/或第二风控模型；

其中，所述第一风控模型为风险识别模型，用于对包括病案数据在内的结构化的第一数据文件S_t中存在的包括主要就诊原因表达不清晰、鉴别诊断未结合病例特点、关键检查检验结果分析不全面、前后内容冲突在内的风险进行识别输出风险识别结果；风险识别结果反馈到医生端后，临床医生在医生端参照风险识别结果对所述第一数据文件进行修改得到第二数据文件；

所述第二风控模型为辅助决策模型，用于依据包括病案数据在内的结构化的第一数据文件S_t产生后续诊疗的辅助决策结果；辅助决策结果反馈到医生端后，临床医生在医生端参照辅助决策结果对所述第一数据文件进行诊疗决策内容的补充得到第二数据文件。

在只需要完成包括病案质控在内的风险识别任务时，所述风控模型包括第一风控模型；

在只需要完成包括根据检查结果进行辅助决策任务时，所述风控模型包括第二风控模型；

在需要同时完成两种任务时，所述风控模型包括第一风控模型和第二风控模型。

具体的，所述第一风控模型或第二风控模型的结构相同，均包括：策略网络和价值网络；

其中，

策略网络中包括神经网络结构相同的当前策略网络和目标策略网络；

价值网络中包括神经网络结构相同的当前价值网络和目标价值网络。

上述四个神经网络均可以使用包括CNN、RNN、Bert等在内的算法，采用不同的神经网络应用本发明的方案，均应视为在本发明的覆盖范围之内。

并且，第一风控模型和第二风控模型的任务不同，因此，两个模型的策略网络和价值网络结构可以是不同种类的神经网络，或者是根据任务各自调整后的相同种类的神经网络。

所述当前策略网络，以结构化的第一数据文件S_t为输入，输出对所述第一数据文件S_t的质控结果a_t；在风控模型的每次自学习后，对当前策略网络的网络参数进行更新；

所述目标策略网络，其网络参数为延时同步的当前决策网络的网络参数；用于在风控模型的自学习过程中，以结构化的第二数据文件S_t+1为输入，输出对所述第二数据文件S_t+1的质控结果a_t+1；

所述当前价值网络，用于在风控模型的自学习过程中，根据输入的结构化的第一数据文件S_t和对应的质控结果a_t进行预测得到当前自学习过程的Q值；在风控模型的每次自学习后，对当前策略网络的网络参数进行更新；

所述目标价值网络，用于在风控模型的自学习过程中，根据输入的结构化的第二数据文件S_t+1，和以第二数据文件S_t+1为输入在所述目标策略网络中输出的质控结果a_t+1进行预测得到当前自学习过程的Q’值；其网络参数为延时同步的当前价值网络参数。

所述自学习的学习过程中，包括以下步骤：

1)从自学习训练数据库随机采样N组医疗风控记录数据{S_t，j、a_t，j、r_t，j、S_t+1，j}；j＝1,2,3…N；S_t，j为第j组数据中的结构化的第一数据文件，a_t，j为第j组数据中的结构化的质控结果；r_t，j为第j组数据中的评价结果；S_t+1，j为第j组数据中的结构化的第二数据文件；

2)使用S_t，j和a_t，j在所述当前价值网络中进行预测，计算出S_t，j为输入的预测价值Q；

3)使用S_t+1，j在目标策略网络中计算出a_t+1，j；

4)结合S_t+1，j和a_t+1，j在所述目标价值网络中进行预测，计算出以S_t+1，j为输入的目标的预测价值Q’；

5)结合Q’和r_t，j计算出以S_t，j为输入的目标价值；

6)根据N次学习的损失梯度来更新当前价值网络的参数；所述损失梯度根据S_t，j为输入的预测价值和目标价值确定；

以均方误差来计算损失，根据损失的梯度来更新当前价值网络的参数，损失函数为

其中，w为当前价值网络的网络参数，w′为目标价值网络的网络参数；

7)使用N次学习的最大化预测价值来更新当前策略网络的参数；

使用最大化预测Q值来更新当前策略网络的参数，损失函数为：

其中，θ为当前策略网络的网络参数。

根据以上的单步自学习过程，循环训练，如图3所示，学习更新，得到新的风控结果再次推送给临床医生，逐步优化，达到自动学习的目的。

具体的，所述第一风控模型的当前策略网络输出的质控结果为风险识别结果，包括第一数据文件中存在的风险的文本“位置”，以及风险识别“结果”的内容；例如对病案中存在的风险识别结果包括，位置：入院记录-现病史；结果：本次主要就诊原因不明确。位置：病程记录-危急值记录；结果：危急值记录未记录处理措施。位置：病程记录-日常病程记录；结果：实验室检查中【痰培养】结果回报【铜绿假单胞菌】，病程中未进行分析讨论。等等。

所述第二风控模型的当前策略网络输出的质控结果为辅助决策结果，包括第一数据文件中进行辅助决策的文本“位置”，以及决策的“结果”的内容。

通过质控结果中“位置”和“结果”，临床医生可以很方便的找到第一数据文件中对应的位置，查看结果的内容是否正确，是否需要对第一数据文件中内容进行补充得到第二数据文件。

具体的，在所述评价模块中，对第一数据文件S_t和对应的第二数据文件S_t+1进行文本比对，找出两个文件中相区别的文本位置和文本内容；再与质控结果中所涉及的文本位置和文本内容相比较，对比较结果进行量化，得到评价结果。

其中，在进行第一风控模型的风险识别时，如果对第二数据文件中的修改位置、内容与质控结果中的相同，说明医生接受了风险识别结果，则赋予相应的量化后的奖赏值；否则赋予相应的量化后的惩罚值；将所有的奖赏值与惩罚值相加后作为评价结果输出；

在进行第二风控模型的辅助决策时，如果对第二数据文件中的补充位置、内容与质控结果中的相同，说明医生接受了辅助决策结果，则赋予相应的量化后的奖赏值；否则赋予相应的量化后的惩罚值；将所有的奖赏值与惩罚值相加后作为评价结果输出。

本实施例中，针对病案质控结果的风险识别为例给出了所述评价模块的一个评价方法，其他的风险识别结果以及辅助决策的结果均可参照该方法进行适应性调整，从而形成可以针对不同任务的评价方法。

具体的评价方法为：

(1)质控结果对应病案位置内容无修改，表示可能质控结果错误，则每项计-5分；

(2)质控结果对应病案位置内容有修改，表示可能质控结果准确，则每项计+10分；

(3)无质控结果对应的位置内容有修改，表示可能有未发现的决策依据或风险识别依据，则每处计-20分；

(4)无质控结果，且病案无修改，表示可能病案书写规范且决策依据或风险识别依据准确，则计5分；

以上评价方法及分数仅为示例，可以扩展也可以细化，不作为保护范围的限制，为参数设定，可以修改，根据目标策略要求调整。

评价结果表示在每一次接收到临床医生反馈之后，计算此次反馈的得分，计算每次质控的奖励分数，上述设定的分值只为表示每一种情况的影响程度，不限制为最终的分值。

具体的，为实现在新设置本实施例系统的医院或科室中能够更快速、更准确的进行自学习实现对风控结果的准确输出。本实施例中的所述服务端还包括第一预训练数据库和/或第二预训练数据库；

在只需要完成包括病案质控在内的风险识别任务时，服务端包括第一预训练数据库；

在只需要完成包括根据检查结果进行辅助决策任务时，服务端包括第二预训练数据库；

在需要同时完成两种任务时，服务端包括第一预训练数据库和第二预训练数据库。

所述第二预训练数据库，用于在第二风控模型进行冷启动时，对第二风控模型的当前策略网络进行预训练得到当前策略网络的网络参数。

所述第一预训练数据库或第二预训练数据库中的样本数据为历史病案文件以及对历史病案文件进行分析后得到修改结果或补充结果。

冷启动只用于整个模型在首次形成行为反馈之前时使用，用于产生初始质控结果。在模型进行反馈之后，并应用在新的医院或者科室应用时，可以在模型的当前状态上直接进行应用，无需重新冷启动。

具体的，在历史病案文件进行分析时，可参考现有的《病案书写规范》(2017年版)、《医疗质量安全核心制度》、《外科学》(第9版)等(包含但不限于此)，通过人工的方法提取出质控点和质控逻辑；

提取质控点和质控逻辑，形成每一个质控点的样本数据；“质控结果一般指病案存在的问题，包含描述和问题及发生在病案中的位置”

再根据这些质控点和质控逻辑对病案进行判断，最终对于判断后的病案及质控结果可以形成每一个质控点的样本数据(有缺陷和无缺陷)；所述的质控点的数量随着质控的细分进一步增加，位置：入院记录-现病史；结果：本次主要就诊原因不明确。位置：病程记录-危急值记录；结果：危急值记录未记录处理措施。位置：病程记录-日常病程记录；结果：实验室检查中【痰培养】结果回报【铜绿假单胞菌】，病程中未进行分析讨论。

在本实施例中的另一个具体的方案中，所述服务端中的结构化处理模块，采用NLP算法将非结构化的病案数据转换为语义空间中的高维度向量表示；

在所述高维度向量表示中，病案数据中每一句文本数据均对应一个字段名向量和多个词向量；其中，字段名向量为病案中固有的格式化文字内容(非医生填写的内容)，词向量为临床医生根据字段名向量的文字内容所填写、补充或修改的文字内容。

举一个一般性的病案中的具体内容：

(1)入院记录-现病史(2022-03-13 15:34):患者自述半年前无明显诱因进食热食时感胸骨后疼痛，无吞咽困难，偶有反酸、烧心不适，无腹痛，无腹胀，伴有厌油，无明显黄疸，饮食改变时伴有大便次数增多，每天1-4次黄色稀大便，伴有体重减轻，无发热、盗汗，无恶心、呕吐，无咳嗽、咳痰、喘息，无心悸、胸痛、气促，无黑矇、晕厥，无皮疹、关节痛，伴有尿频、尿急，无尿痛，无多食，无皮疹，无关节疼痛。未行任何诊治，为求进一步诊治，今日就诊我院门诊，已查新冠核酸阴性后，门诊以“消瘦查因”收入院。自起病以来，患者精神、饮食量尚可、睡眠尚可，大便如上，伴有尿频、尿急，无尿痛，伴有黄色泡沫尿，半年内体重有下降7kg。

(2)入院记录-婚育史(2022-03-13 15:34)：已婚(24岁结婚)，配偶：体健，现育有1子0女，健康状况：良好。

(3)科主任查房记录(2021-03-15 10:30)：今晨8:25随XX科主任查房，患者诉腹部疼痛较前减轻。精神、睡眠较差，饮食尚可，便泻交替，次数多，每次量少，小便正常。查体：全身皮肤及巩膜黄染，全腹软，腹部未见肠型、蠕动波、腹壁曲张静脉，全腹无压痛，无反跳痛、肌紧张，莫非氏征阴性，肋缘下可触及肿大胆囊，未触及肝、脾，肝区轻叩痛，无肾区叩痛，肠鸣音正常，约4次/分，双下肢肿胀，呈凹陷性水肿，活动自如。XX科主任查房后示：患者目前病情较重，具有手术指征，完善相关检查无明显禁忌症，拟于明日行“胰腺+十二指肠切除术”，遵嘱执行。

(4)术后巡视记录(2022-03-16 18:06)：术后18:00巡视病房，患者诉术口疼痛，可耐受，无发热、畏寒，无恶心、呕吐等不适，持续心电、血氧饱和度监测中，生命征平稳。查体：心肺检查(-)，腹部敷料干燥固定，引流管固定在位，通畅，引流液为淡血性，尿管固定在位，尿色稍黄。XX科主任查看病人后分析指示：患者生命征平稳，目前继续予抗炎、补液、营养支持等对症治疗，监测患者生命体征，监测引流液的量及颜色，余不变，继观病情变化。

在病案中的具体内容中，“入院记录-现病史(2022-03-13 15:34)”、“入院记录-婚育史(2022-03-13 15:34)”、“科主任查房记录(2021-03-15 10:30)”、“术后巡视记录(2022-03-16 18:06)”为字段名，字段名后为字段名对应的文字内容。

在本实施例中的方案中，给出了风控模型的具体结构；

所述风控模型的具体结构，可作为第一风控模型或第二风控模型的具体结构；通过基于不同任务的学习训练过程实现第一风控模型或第二风控模型的功能，得到对应的风控结果。

具体的，风控模型中包括两个类型的神经网络结构，一个用于策略网络，另一个用于目标策略；

其中，策略网络采用端到端结构的神经网络；包括编码器网络和解码器网络；

所述编码器网络，用于对语义空间中的包括每个句子的字段名向量和词向量的高维度向量进行编码得到向量空间中的每个句子的高维编码向量；实现病案数据从语义空间到向量空间的转换。

解码器网络，用于对所述编码器网络输出的高维编码向量进行解码，输出质控结果；所述解码器网络的解码过程为循环解码；每次解码输出一个质控点结果，多次解码输出多个质控点结果；在每次解码过程中，将所述编码器网络输出的高维编码向量配合上一次解码输出的质控点作为本次解码的输入。

并且，在计算第一个质控点时，输入解码器网络的是所述编码器网络输出的高维编码向量配合一个预先规定的固定标签<start>，在随后的质控点计算时，输入解码器网络的是编码器网络输出的高维编码向量配合上一次解码输出的质控点结果；循环解码到最后一个质控点结果后，解码器网络输出固定标签<end>，解码结束。

更具体的，编码器网络包括第一编码网络和第二编码网络；

每个句子编码网络对句子向量进行编码，得到包括句子位置+内容编码向量的句编码向量；所述句子位置编码向量为对语义空间中的句子向量的字段名向量进行编码的结果；所述内容编码向量是对语义空间中的句子向量的词向量进行编码的结果。

如图4所示，在一个具体的实施例中，所述第一编码网络中的每个句子编码网络结构，包括位置Embedding模块、文字Embedding模块、第一LSTM模块和向量合并模块；

所述第一LSTM模块对文字Embedding模块输出的多维的词向量进行处理，通过编码运算建立句子中的词之间的关联关系，得到内容编码向量；

所述向量合并模块；将所述句子位置编码向量和内容编码向量进行拼接得到句编码向量。

所述第二编码网络为一个LSTM网络，对第一编码网络中依次输入的多个句编码向量进行编码，建立句子之间的关联关系，依次输出病案中每个句子的高维编码向量。

如图5所示，在一个具体的实施例中，所述解码器网络包括相加模块和解码模块；

所述解码器网络包括相加模块和解码模块；

所述输出层采用softmax函数进行分类；所述卷积层、池化层和全连接层的卷积核、池化方式和全连接层的规模、参数可根据需求调整，并可以采用Adam优化器进行优化提高网络性能，以及添加自注意力网络提高网络性能。

softmax函数中的类别包括所有的可识别的质控点类别，和作为一个类别的固定标签<end>，每次解码后输出一个质控点类别对应一个质控点结果，循环解码分类，顺序输出每一个质控点类别对应的结果，直到分类到固定标签<end>，输出<end>，解码结束。

每一个质控点结果输出后转换为病案文件中存在的风险的字段名向量，以及风险识别“结果”的词向量；或者为病案文件中进行辅助决策的字段名向量，以及决策的“结果”的词向量。

如图6所示，风控模型中的价值网络，包括编码器网络、累加网络和拼接输出网络；

其中，

编码器网络采用与策略网络中相同结构的神经网络；用于对语义空间中的包括每个句子的字段名向量和词向量的高维度向量进行编码得到向量空间的每个句子的高维编码向量；实现病案数据从语义空间到向量空间的转换。

累加网络，用于将输入的质控结果中所有的质控点进行累加，输出累加向量；

具体的，第一风控模型或第二风控模型中均包括两个如上所述的策略网络和目标策略；其中，

一个策略网络作为当前策略网络，另一个策略网络作为目标策略网络；

当前策略网络的输入为第一数据文件S_t；输出为质控结果a_t；

目标策略网络的输入为第二数据文件S_t+1；输出为质控结果a_t+1；

一个价值网络作为当前价值网络，另一个价值网络作为目标价值网络。

当前价值网络的输入为的输入为第一数据文件S_t和质控结果a_t；输出为预测价值Q；

目标价值网络的输入为的输入为第二数据文件S_t+1和质控结果a_t+1；输出为预测价值Q’。

具体的，所述评价模块中的评价过程包括：

1)对经过结构化处理模块处理的第一数据文件S_t和对应的第二数据文件S_t+1进行文本比对；

第一数据文件S_t和对应的第二数据文件S_t+1中包括病案数据中每一句的一个字段名向量和多个词向量；

通过比对相同字段名向量中词向量是否相同，找出第二数据文件S_t+1相对于第一数据文件S_t的修改过的词向量对应的字段名向量；

2)从风控模型输出的质控结果中每一个质控点的字段名向量，以及提示风险的词向量进行比对，判断修改的字段名向量与质控结果中质控点的字段名向量是否相同，以及修改的词向量与提示风险的词向量是否相同；赋予相应的量化后的奖赏值或惩罚值；并将所有的奖赏值与惩罚值相加后作为评价结果r_t输出。

利用本实施例中所述服务端的结构化处理模块、评价模块和风控模型，利用自学习训练数据库，进行自学习通过循环训练，得到新的风控结果再次推送给临床医生，逐步优化，达到自动学习的目的。

本实施例的一个方案，还提供了一种不改变现有的医院病案管理系统的自学习医疗风控系统；在上述方案的基础上，还包括数据采集端；

如图7所示，所述医生端与医院的电子病案系统连接；

所述医生端与服务端参见上述的医生端与服务端的具体内容。

综上所述，本发明实施例的基于临床行为反馈的自学习医疗风控系统具有以下优点：

1、减少通过专家经验设定规则的比重。传统方法通过专家智力活动人为设定大量的规则实现产品或者功能价值，规则的穷举量决定了功能价值的呈现能力。本技术方法通过人工智能的手段，自动生成、调整优化规则，除模型最初启动外，大幅度减少甚至无需人工智力活动参与调整规则，直接通过算法实现功能价值。

2、增加普适性与鲁棒性。面对与不同医疗机构与临床科室、不同临床医生，在对于同类决策的细微差距可以自适应找到更具有普适性的解读与理解方式，不用重复的和人工开发，可以使系统自动的根据使用者的交互进行学习更新决策。对于开始未考虑到的情况，在自动学习过程中也会自动学习进系统，亦减少了开发工作量。

3、提升了系统的准确度，从单一的根据人为设定规则生成的决策系统的考虑不周全，到根据大量不同客户的实际使用情况进行自动学习更新决策系统的考虑周全，使得准确度得到大幅度的提升。

4、提升了客户的满意度，可以根据实际使用客户的不同要求进行学习更新，既满足准确性，也符合客户要求，使得客户满意度提升。

本发明实施例还公开了一种基于临床行为反馈的自学习医疗风控方法，如图8所示，包括以下步骤：

步骤S3、在对第一数据文件进行结构化处理后，通过内置的风控模型进行处理得到风控结果，并反馈回到对应的医生端；

临床医生对第一数据文件的处理包括：

当医生接受风控结果a_t时，参照风控结果a_t的推荐对第一数据文件进行修改或补充；

当医生不接受风控结果a_t时，不对第一数据文件进行修改或补充；或医生未参照风控结果a_t的推荐对第一数据文件进行修改或补充。

所述设定时间间隔可以根据具体需求进行设定。例如设定为临床医生对第一数据文件修改和/或补充所需的时间，或者设定为半天或一天等时间间隔。

步骤S6、将每次医疗风控中对应的结构化后的第一数据文件S_t、结构化后的第二数据文件S_t+1、风控结果a_t和评价结果r_t作为1组医疗风控记录数据进行存储；

步骤S7、调取N组的医疗风控记录数据对风控模型进行自学习训练，更新模型参数。

步骤S8、返回步骤S2，循环进行自学习，不断对风控模型参数进行迭代更新。实现风控结果越来越准确的目标。

本实施例中基于临床行为反馈的自学习医疗风控方法中具体的技术细节和技术效果可参见上一实施例基于临床行为反馈的自学习医疗风控系统的内容，在此就不一一赘述了。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于临床行为反馈的自学习医疗风控系统，其特征在于，包括至少一个医生端和服务端；所述服务端与每个医生端通信连接进行数据交互；

2.根据权利要求1所述的自学习医疗风控系统，其特征在于，所述服务端包括结构化处理模块、评价模块、风控模型和自学习训练数据库；

3.根据权利要求2所述的自学习医疗风控系统，其特征在于，所述风控模型包括第一风控模型和/或第二风控模型；

4.根据权利要求3所述的自学习医疗风控系统，其特征在于，所述第一风控模型或第二风控模型的结构相同，均包括：

其中，

5.根据权利要求4所述的自学习医疗风控系统，其特征在于，

所述自学习的学习过程中，包括以下步骤：

使用S_t+1，j在目标策略网络中计算出a_t+1，j；

结合Q’和r_t，j计算出以S_t，j为输入的目标价值；

使用N次学习的最大化预测价值来更新当前策略网络的参数。

6.根据权利要求2所述的自学习医疗风控系统，其特征在于，

所述结构化处理模块，采用NLP算法将非结构化的病案数据转换为语义空间中的高维度向量表示；

7.根据权利要求6所述的自学习医疗风控系统，其特征在于，

风控模型中的策略网络采用端到端结构的神经网络；包括编码器网络和解码器网络；

8.根据权利要求7所述的自学习医疗风控系统，其特征在于，所述编码器网络包括第一编码网络和第二编码网络；

9.根据权利要求8所述的自学习医疗风控系统，其特征在于，所述第一编码网络中的每个句子编码网络结构，包括位置Embedding模块、文字Embedding模块、第一LSTM模块和向量合并模块；

10.根据权利要求7所述的自学习医疗风控系统，其特征在于，

所述解码器网络包括相加模块和解码模块；

11.根据权利要求6所述的自学习医疗风控系统，其特征在于，风控模型中的价值网络包括编码器网络、累加网络和拼接输出网络；

12.根据权利要求2所述的自学习医疗风控系统，其特征在于，在所述评价模块中，对第一数据文件和对应的第二数据文件进行文本比对，找出两个文件中相区别的文本位置和文本内容；再与风控结果中所涉及的文本位置和文本内容相比较；对比较结果进行量化，得到评价结果。

13.根据权利要求3所述的自学习医疗风控系统，其特征在于，所述服务端还包括第一预训练数据库和/或第二预训练数据库；

14.根据权利要求1-13任一项所述的自学习医疗风控系统，其特征在于，还包括数据采集端；

所述医生端与医院的电子病案系统连接；

15.一种基于临床行为反馈的自学习医疗风控方法，其特征在于，包括以下步骤：