CN110797101B

CN110797101B - 医学数据处理方法、装置、可读存储介质和计算机设备

Info

Publication number: CN110797101B
Application number: CN201911031533.5A
Authority: CN
Inventors: 鲁国珍; 邹宇宁; 王小军; 孙长举; 周旋; 常佳; 杨昊臻
Original assignee: Tencent Healthcare Shenzhen Co Ltd
Current assignee: Tencent Healthcare Shenzhen Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2023-11-03
Anticipated expiration: 2039-10-28
Also published as: CN110797101A

Abstract

本申请涉及一种医学数据处理方法、装置、可读存储介质和计算机设备，方法包括：获取目标医学报告以及与目标医学报告对应的第一标注；将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注，其中，标注验证模型是根据医学验证数据训练而成的；将第一标注和第二标注对比，当第一标注与第二标注相匹配时，确定第一标注为正确标注。本申请提供的方案可以提高医学数据处理效率。

Description

医学数据处理方法、装置、可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种医学数据处理方法、装置、计算机可读存储介质和计算机设备。

背景技术

在出具了医学报告后，需要对医学报告进行标注。传统的标注方式依靠医生的经验，即医生经验越足，那么认为标注的正确率越高。对于一些资历较浅的医生，通常会让经验丰富的医生对该标注进行评估或者多个其他医生对该标注进行评估。然而，传统的医学数据处理方法，存在效率不高的问题。

发明内容

基于此，有必要针对传统的医学数据处理方法效率低的技术问题，提供一种医学数据处理方法、装置、计算机可读存储介质和计算机设备，能够提高医学数据处理的效率。

一种医学数据处理方法，包括：

获取目标医学报告以及与所述目标医学报告对应的第一标注；

将所述目标医学报告输入至标注验证模型中，得到所述目标医学报告对应的第二标注，其中，所述标注验证模型是根据医学验证数据训练而成的；

将所述第一标注和所述第二标注对比，当所述第一标注与所述第二标注相匹配时，确定所述第一标注为正确标注。

一种医学数据处理装置，所述装置包括：

获取模块，获取目标医学报告以及与所述目标医学报告对应的第一标注；

输入模块，将所述目标医学报告输入至标注验证模型中，得到所述目标医学报告对应的第二标注，其中，所述是标注验证模型根据医学验证数据训练而成的；

对比模块，用于将所述第一标注和所述第二标注对比，当所述第一标注与所述第二标注相匹配时，确定所述第一标注为正确标注。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

上述医学数据处理方法、装置、计算机可读存储介质和计算机设备，获取目标医学报告以及与目标医学报告对应的第一标注，将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注，其中，标注验证模型根据医学验证数据训练而成，将第一标注与第二标注对比，当第一标注与第二标注相匹配时，确定第一标注为正确标注，能够获取到可信度更高的医学验证数据训练而成的模型得到的标注结果，自动验证第一标注的标注质量，并且实时验证无需人工介入，提高医学数据处理效率。

附图说明

图1为一个实施例中医学数据处理方法的应用环境图；

图2为一个实施例中医学数据处理方法的流程示意图；

图3(a)为一个实施例中标注为正常对应的影像数据；

图3(b)为一个实施例中标注为病变对应的影像数据；

图4为一个实施例中对医学报告处理得到第二标注的流程示意图；

图5为一个实施例中循环神经网络(RNN)的结构示意图；

图6为一个实施例中获取目标医学报告中每个词语对应的权重的流程示意图；

图7为另一个实施例中医学数据处理方法的流程示意图；

图8为一个实施例中医学数据处理装置的结构框图；

图9为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中医学数据处理方法的应用环境图。图1中包括第一计算机设备110和第二计算机设备120。第一计算机设备110和第二计算机设备120均可为终端或者服务器。终端具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。医学数据处理方法通过医学数据处理程序实现。医学数据处理程序应用于第二计算机设备120。或者，医学数据处理程序可应用于仅包含第二计算机设备的应用环境中。

第一计算机设备110可获取目标医学报告以及与该目标医学报告对应的第一标注。第一计算机设备110向第二计算机设备120发送该目标医学报告对应的第一标注。第二计算机设备120获取目标医学报告以及对应的第一标注，将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注；将第一标注和第二标注对比，当第一标注和第二标注相匹配时，确定第一标注为正确标注；当第一标注和第二标注不匹配时，确定第一标注为错误标注。第二计算机设备120可向第一计算机设备110发送对第一标注的评估结果，即正确标注或者错误标注。其中，计算机设备110不限数量。计算机设备110可以是医生所在计算机设备、报告标注模型所在计算机设备中至少一种但不限于此。

如图2所示，在一个实施例中，提供了一种医学数据处理方法。本实施例主要以该方法应用于上述图1中的第二计算机设备120来举例说明。参照图2，该医学数据处理方法具体包括如下步骤：

步骤202，获取目标医学报告以及与目标医学报告对应的第一标注。

其中，医学报告是指动物在做医学检查后医院出具的报告。医学报告中的数据可包括影像数据、文字数据中至少一种。影像数据可为病理影像、内镜影像、CT(ComputedTomography，电子计算机断层扫描)影像等不限于此。第一标注为除了标注验证模型之外的其他对象对目标医学报告进行标注得到的。第一标注可以是文字标注、语音标注等不限于此。当第一标注为语音标注时，可将语音转化成文本后处理。

具体地，医学数据处理程序获取除了标注验证模型之外的其他模型对目标医学报告进行标注得到的第一标注。例如，医学数据处理程序可获取目标医学报告以及用户对目标医学报告的第一标注。其中，用户可以是医生。或者，医学数据处理程序可获取目标医学报告，以及报告标注模型对目标医学报告进行处理得到的第一标注。

步骤204，将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注，其中，标注验证模型是根据医学验证数据训练而成的。

其中，标注验证模型可用于验证第一标注的正确性。标注验证模型可根据医学验证数据并通过文本分类神经网络训练而成。例如文本分类神经网络可以是循环神经网络(Recurrent Neural Network,RNN)、TextCNN(Text Convolutional Neural Networks,文本卷积神经网络)、TextANN(Artificial Neural Network，人工神经网络)、TextCRNN(Convolutional Recurrent Neural Network，卷积递归神经网络)、TextFast(文本分类器)、TextHAN(Hierarchy Attention Network层次注意力网络)等不限于此。医学验证数据可在标注验证模型的训练过程中运用。

医学验证数据的可信度可高于或等于目标医学报告的可信度。即医学验证数据在医学领域的权威性可高于目标医学报告在医学领域的权威性。例如医学验证数据可以包括病理报告中的数据。病理报告可以包括病理报告中的文字数据、病理报告中的影像数据中至少一种。在临床诊断中如果想要确诊，病理检查是必不可少的手段，病理报告是医学领域100％的金标准。以病理诊断结论评估目标对象的标注质量方案符合医学诊断操作规范。

具体地，医学数据处理程序将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注。其中，标注验证模型可根据医学验证数据构建词向量，从而提取医学验证数据的上下文特征，再输入至神经网络模型实现分类。

步骤206，将第一标注和第二标注对比，当第一标注与第二标注相匹配时，确定第一标注为正确标注。

其中，相匹配可以是指第一标注和第二标注完全相同，或者第一标注和第二标注之间的相似度达到阈值。

具体地，医学数据处理程序将第一标注和第二标注对比，当第一标注与第二标注相匹配时，确定第一标注为正确标注。当第一标注与第二标注无法匹配时，确定第一标注为错误标注。例如，标注验证模型对报告标注得到标注X。由于报告一般描述为某部位发现某疾病，则X可为“良性病变”。医生对影像标注得到Y，医生的标注任务包括但不限于圈定病灶范围、给出病灶大小、确定其良恶性等，则Y可为“良性病变”。当X与Y同属于一个维度范畴，比如此处都是关于疾病性质的描述，则可对比X与Y是否一致。由于医学验证数据本身可信度高于目标医学报告，则Y与X相同时，确定Y为正确标注；当Y与X不同时，确定Y为错误标注。亦可构建其他维度范畴的对比，比如X描述为胃部，Y标注为食管，X与Y不一致，认为Y错。

本实施例中，第一标注可以是在终端界面上选中的一个选项。该选项与标注验证模型得到的结果中的某一结果相同。因此当第一标注与第二标注完全相同时，第一标注与第二标注相匹配。

本实施例中，医学数据处理程序可获取目标医学报告，以及与目标医学报告中的影像数据对应的第一标注。如图3(a)所示，为一个实施例中标注为正常对应的影像数据。如图3(b)所示，为一个实施例中标注为病变对应的影像数据。将目标医学报告中的文本数据输入至标注验证模型中，得到目标医学报告对应的第二标注。其中，标注验证模型根据医学文本验证数据训练而成。即医学数据处理程序可根据文本数据训练而成的标注验证模型，来验证影像数据对应的第一标注是否准确。

本实施例中，医学数据处理程序可获取目标医学报告以及与目标医学报告中文本数据对应的第一标注。医学数据处理程序可将该目标医学报告中的影像数据输入至标注验证模型中，得到第二标注，其中，标注验证模型根据医学影像验证数据训练而成。即，医学数据处理程序可根据影像数据训练而成的标注验证模型，来验证文本数据对应的第一标注是否准确。

本实施例中，医学数据处理程序可获取目标医学报告以及与目标医学报告中文本数据对应的第一标注。将目标医学报告中的文本数据输入至标注验证模型中，得到目标医学报告对应的第二标注。其中，标注验证模型根据医学文本验证数据训练而成。即医学数据处理程序可根据文本数据训练而成的标注验证模型，来验证文本数据对应的第一标注是否准确。

本实施例中，医学数据处理程序可获取目标医学报告，以及与目标医学报告中的影像数据对应的第一标注。医学数据处理程序可将该目标医学报告中的影像数据输入至标注验证模型中，得到第二标注，其中，标注验证模型根据医学影像验证数据训练而成。即，医学数据处理程序可根据影像数据训练而成的标注验证模型，来验证影像数据对应的第一标注是否准确。

上述医学数据处理方法，获取目标医学报告以及与目标医学报告对应的第一标注，将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注，其中，标注验证模型根据医学验证数据训练而成，将第一标注与第二标注对比，当第一标注与第二标注相匹配时，确定第一标注为正确标注，能够获取到可信度更高的医学验证数据训练而成的模型得到的标注结果，采用可信度更高的验证模型自动验证第一标注的标注质量，并且实时验证无需人工介入，摆脱了基于人质控的主观影响，降低了成本投入，提高医学数据处理效率以及实时性。

在一个实施例中，将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注，包括：对目标医学报告进行向量转化，得到目标医学报告对应的向量；将向量输入至标注验证模型中，得到目标医学报告对应的第二标注。

其中，标注验证模型中可包含对医学报告进行向量转化的模型，也可以不包含对医学报告进行向量转化的模型。

具体地，医学数据处理程序通过结巴分词、HLP分词等方式对目标医学报告进行分词，并通过word2vec模型等向量转化模型或者基于TF-IDF(term frequency–inversedocument frequency，词频-逆向文件频率)对目标医学报告进行向量转化，得到目标医学报告对应的向量。医学数据处理程序将向量输入至标注验证模型中，可得到目标医学报告对应的第二标注。

本实施例中，考虑到病理报告的描述范式相对固定，一般包括“活检情况描述”和“病理诊断结论”两部分内容，利用RNN技术自动识别诸如“非腺瘤性息肉”、“腺癌”等结论的准召率可达95％+。

本实施例中，人工神经网络和卷积神经网络均假设元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。但现实世界很多元素是相互连接的，比如病理报告“‘横结肠’增生性息肉伴间质内见较多吞噬脂褐素细胞，考虑黑变病。‘乙状结肠’增生性息肉伴间质内见少量吞噬脂褐素细胞，考虑＿＿。”这里填空的正确标注应该填“黑变病”，因为可以根据上下文的内容做出推断，但如果要机器也做到这一步，就需要他像人一样拥有记忆的能力。循环神经网络(RNN)能够记忆前面的信息，并综合当前输入和之前记忆给出判断，从而模仿人的上下文推断能力。如图4所示，为一个实施例中对医学报告处理得到第二标注的流程示意图。医学数据处理程序对目标医学报告进行分词，并将目标医学报告中的词语转化为词向量，进行拼接后得到句向量。医学数据处理程序将句子向量输入至LSTM(LongShort-Term Memory，长短期记忆网络)中进行特征提取，再将LSTM在不同时间的输出进行平均池化，采用softmax函数进行处理得到文本分类结果。

本实施例中，如图5所示，为一个实施例中循环神经网络(RNN)的结构示意图。左半边的单元实际是神经网络的一个单元，由于其他单元完全相同因此折叠表示，此处亦可看出RNN的特点是一个单元结构的重复使用。假设t时刻的输入表示为X_t，t时刻的输出表示为O_t，t时刻的记忆表示为S_t，由于当前输出需要综合考虑之前的记忆和当前输入，转化为数学运算即为他们的线性组合以及一个非线性变换，如下：

S_t＝f(U*X_t+W*S_t-1)

线性组合将之前记忆和当前输入进行融合，非线性变换的激活函数则用于提取最重要的信息，比如一般认为与当前时刻最邻近的记忆最有用，历史记忆对当前预测的影响则很小。有了当前时刻的记忆S_t，即可预测下一个词出现的概率，这里给S_t添加一个系数矩阵，再用softmax给出下一个词的概率，公式如下：

O_t＝softmax(V*S_t)

则O_t为期望的预测值。

经过文本特征的词向量构建和RNN神经网络的训练即可构造AI自动标注模块，可高效准确的获取病理报告的诊断标签。

上述医学数据处理方法，通过对目标医学报告进行向量转化，得到目标医学报告对应的向量，将向量输入至标注验证模型中，得到目标医学报告对应的第二标注，能够通过模型得到目标医学报告对应的参考性较高的标注，并进行对比，提高医学数据处理效率以及标注评估的准确性。

在一个实施例中，对目标医学报告进行向量转化，得到目标医学报告对应的向量，包括：对目标医学报告进行分词处理，得到目标医学报告中的词语；获取目标医学报告中每个词语对应的权重；根据每个词语对应的权重得到目标医学报告对应的向量。

其中，医学数据处理程序通过结巴分词、HLP分词等方式不限于此，对目标医学报告进行分词处理，得到目标医学报告中的词语。医学数据处理程序获取目标医学报告中每个词语对应的权重。其中，在医学语料库中出现次数多的词语对应的权重较小。类似于“的”、“伴”、“内”等副词，权重较小。医学数据处理程序根据每个词语对应的权重进行拼接得到目标医学报告对应的向量。

上述医学数据处理方法，通过对目标医学报告进行分词处理，得到目标医学报告中的词语，获取目标医学报告中每个词语对应的权重，根据每个词语对应的权重得到目标医学报告对应的向量，能够通过模型得到目标医学报告对应的参考性较高的标注，并进行对比，提高医学数据处理效率以及标注评估的准确性。

在一个实施例中，如图6所示，为一个实施例中获取目标医学报告中每个词语对应的权重的流程示意图，包括：

步骤602，获取医学语料库中医学报告总数量以及包含目标词语的报告个数。

其中，医学语料库中包含多个医学报告。医学语料库中也可以包含多种医学报告。医学报告一份为数量一。

具体地，医学数据处理程序获取在医学语料库中的医学报告总数量，以及在医学语料库中包含某个词语的报告个数。例如，医学报告总数量为10000份，需要获取的目标医学报告中的词语为“良性病变”，在医学语料库中包含该词语的报告个数为500份。

步骤604，根据医学报告总数量以及包含目标词语的报告个数，得到目标词语对应的逆向文档频率。

其中，逆向文档频率(Inverse Document Frequency，IDF)可用于度量词语的重要性。如果一个词语经常出现在语料库中，它意味着它并没有携带特定文档的特殊信息。IDF也可用于用来量化词语提供的信息多少，公式如下：

其中，|D|是医学语料库中的医学报告总数量。文件频率DF(t,D)是在医学语料库中包含词语t的报告的个数。由于采用了对数，如果一个词语出现在所有医学报告中，其IDF值会为0。

步骤606，获取目标词语在目标医学报告中的出现频率。

具体地，医学数据处理程序获取目标词语在目标医学报告中的出现频率。例如，目标词语为t，目标词语在目标医学报告d中出现次数为2次，目标医学报告中总次数为100个，那么t在目标医学报告d中的出现频率为2/100＝0.02。

步骤608，根据目标词语对应的逆向文档频率以及出现频率，得到目标词语对应的词频-逆向文件频率。

其中，如果只是用词频来衡量重要性，容易过度强调报告中经常出现而并没有太多与报告有关信息的词语，比如“伴”“内”等副词。词频-逆向文件频率(term frequency–inverse document frequency，TFIDF)的计算公式如下：

TFIDF(t，d，D)＝TF(t，d)·IDF(t，D)

词频TF(t,d)是词语t在目标医学报告d中的出现频率。IDF(t,D)为目标词语在医学语料库中的逆向文档频率。TF(t,d)与IDF(t,D)相乘得到TFIDF(t，d，D)。

具体地，医学数据处理程序根据目标词语对应的逆向文档频率以及出现频率，计算得到目标词语对应的词频-逆向文件频率。

步骤610，将词频-逆向文件频率作为目标词语对应的权重。

具体地，医学数据处理程序将词频-逆向文档频率作为该目标词语对应的权重。医学数据处理程序获取每个目标词语对应的权重，拼接成目标医学报告对应的向量。

上述医学数据处理方法，获取在医学语料库中的医学报告总数量以及包含目标词语的报告个数，根据医学报告总数量以及包含目标词语的报告个数，得到目标词语对应的逆向文档频率，获取目标词语在目标医学报告中的出现频率，根据目标词语对应的逆向文档频率以及出现频率，得到目标词语对应的词频-逆向文件频率，将词频-逆向文件频率作为目标词语对应的权重，能够快速并准确地获取目标词语对应的权重，提高标注验证模型得到第二标注的准确性。

在一个实施例中，根据每个词语对应的权重得到目标医学报告对应的向量，包括：按照目标医学报告中词语的顺序，将每个词语对应的权重拼接得到目标医学报告对应的向量。

具体地，医学数据处理程序按照目标医学报告中词语的顺序，将每个词语对应的权重拼接得到目标医学报告对应的向量。例如，“考虑黑变病”，考虑对应0.001权重，黑变病对应0.1权重，那么拼接得到向量(0.001，0.1)。

上述医学数据处理方法，按照目标医学报告中词语的顺序，将每个词语对应的权重拼接得到目标医学报告对应的向量，能够快速得到目标医学报告中的向量，提高医学数据处理效率。

在一个实施例中，获取与目标医学报告对应的第一标注，包括：将目标医学报告输入至报告标注模型，得到第一标注，其中，报告标注模型根据医学报告训练而成。

其中，报告标注模型可以是用任意一种医学报告训练而成的。

具体地，标注验证模型也可用于验证其他报告标注模型得到的标注是否正确。医学数据处理程序将目标医学报告输入至报告标注模型中，报告标注模型对该目标医学报告进行处理得到第一标注。

上述医学数据处理方法，将目标医学报告输入至报告标注模型，得到第一标注，其中，报告标注模型根据医学报告训练而成，则标注验证模型也可用于验证其他报告标注模型得到的标注是否正确，提高了标注验证模型的可用性。

在一个实施例中，该医学数据处理方法还包括：当第一标注和第二标注匹配失败时，确定第一标注为错误标注；将错误标注对应的医学报告作为负反馈样本；将负反馈样本输入至报告标注模型中，调整报告标注模型的参数，得到调整后的报告标注模型。

其中，负反馈样本可用于对报告标注模型进行再训练。

具体地，当一个模型投入使用或者训练完成时，该模型中的权重值固定不会变更。当投入使用时，报告标注模型和刚从业的医生一样，需要不断优化去提升自身的诊断水平。提升报告标注模型的准确性的方式就是在使用过程中得到错误病例再训练学习。由于标注验证模型的可信度更高，那么当第一标注和第二标注匹配失败时，医学数据处理程序确定第一标注为错误标注。医学数据处理程序保存该错误标注对应的医学报告。医学数据处理程序将错误标注对应的医学报告作为负反馈样本。医学数据处理程序将负反馈样本输入至报告标注模型中对报告标注模型进行再训练，在训练过程中调整报告标注模型的参数，得到调整后的报告标注模型。例如，报告标注模型对目标医学报告的标注为“疑似癌”，标注验证模型得到的第二标注为“良性病变”，那么确定第一标注为错误标注，对应的医学报告为负反馈样本。累积较多负反馈后，基于此可以分析报告标注模型的问题主要集中在哪，比如总是将良性病变错判为癌，基于该结论可以对原来固定好参数的报告标注模型再训练，相当于系统升级而达到系统优化的目标。

如图7所示，为另一个实施例中医学数据处理方法的流程示意图。702可为自动标注模块，704为医生标注模块或其他AI标注模块，706为验证模块。图中的报告数据可为目标医学报告中的文本数据，将文本数据输入至文本AI即标注验证模型中，得到第二标注。图中的影像数据可为目标医学报告中的影像数据，目标对象对影像数据进行标注得到第一标注。目标对象可以是指标注医生或者影像AI，即报告标注模型等不限于此。医学数据处理程序将第一标注和第二标注对比，能够得到标注正确率。将第一标注和第二标注做比对，如果第一标注错误，第一标注对应的医学报告可作为影像AI的训练数据进行训练，提高AI的准确率。第二标注可以直接评估得到影像AI的准确率。

上述医学数据处理方法，报告标注模型之所以无法及时评估准确率，归根究底仍是缺乏标注数据带来的局限性，通过自动提取病理诊断结论，数据的标注评估问题可通过标注验证模型自动完成，评测数据的累积只需依赖检查量的自然增长，评测结果可在医院自动完成，无需人工接入；当第一标注和第二标注匹配失败时，确定第一标注为错误标注，将错误标注对应的医学报告作为负反馈样本，将负反馈样本输入至报告标注模型中，调整报告标注模型的参数，得到调整后的报告标注模型，评测中的负反馈样本可反向指导报告标注模型的优化，实现产品使用效果的自动追踪，提高报告标注模型使用的准确性。

在一个实施例中，标注验证模型的训练方式，包括：获取医学验证数据以及医学验证数据对应的参考标注；将医学验证报告数据输入至标注验证模型中，得到目标标注；根据参考标注与目标标注的匹配度调整标注验证模型中的权重参数，当满足迭代条件时，得到训练完成的标注验证模型。

其中，参考标注可视为正确标注。目标标注为标注验证模型在训练过程中得到的标注。迭代条件可以是指训练达到预设次数等不限于此。

具体地，医学数据处理程序获取医学验证数据以及医学验证数据对应的参考标注。医学数据处理程序将医学验证报告数据输入至标注验证模型中，得到目标标注。医学数据处理程序根据参考标注与目标标注的匹配度调整标注验证模型中的权重参数。权重参数如式子中的U、V和W参数。当满足迭代条件时，医学数据处理程序得到训练完成的标注验证模型。例如，标注验证模型采用病理报告作为数据源，收集近300例病理报告样本，其中80％的病理报告样本可用于训练标注验证模型，20％的病理报告样本可用于测试标注验证模型的标注结果的准确率。标注验证模型的准召率在95％以上，基于标注验证模型对医生的第一标注的评估准确率如表1：

表1

医生标识	标注图片数	标注正确图片数	标注正确率
				1989	143	116	81％
1998	178	150	84％
				1059	140	110	79％
1992	325	258	79％
				1993	409	336	82％
1184	247	209	85％
				1991	372	263	71％
1988	381	315	83％
				1173	441	317	72％

经论证，标注验证模型得到的第二标注的可信概率达95％以上，其提取结果可直接作为标注结果。且对于医生基于影像数据的第一标注，第二标注能直接用于评估第一标注的正误，实现标注质量的自动控制；对于已经投入使用的医学报告标注模型，标注验证模型亦可处理得到第二标注，实时追踪报告标注模型作为“类医生”的诊断准确率。

上述医学数据处理方法，获取医学验证数据以及医学验证数据对应的参考标注；将医学验证报告数据输入至标注验证模型中，得到目标标注；根据参考标注与目标标注的匹配度调整标注验证模型中的权重参数，当满足迭代条件时，得到训练完成的标注验证模型，能够训练得到可信度更高的标注验证模型，用于实时并自动评估其他模型或者医生对医学报告标注的正确性，提高医学报告数据处理的效率。

在一个实施例中，深度学习在图像处理领域的突破性进展促进了医学报告AI(Artificial Intelligence，人工智能)辅助诊断系统的诞生，而这背后默默发挥价值的是海量、优质的标注数据，这些标注数据的质量决定了医学报告AI的天花板。然而实际情况是，标签未知所以需要医生标注，标注质量如何由于无标签因此无法评估。由于标签未知，目前无法实现标注质量的自动评估，只能通过“多医生交叉标注、高年资医生质控”的流程，基于“多人投票+权威认证”的逻辑主观认为多数人都认可的标注即是正确的标注、相对权威的医生认可的标注即是正确的标注。该方式在标注过程首先需要至少3个医生对影像数据进行独立标注，如果得到的3个标注结果一致，则构成标签数据库并拆分为训练数据和评测数据，训练数据用于构建影像AI，评测数据用于评估影像AI的准确率；同时，引入的质控医生也需要再对影像数据进行独立标注，由于其年资更高因此标注结果置信度更高，将3个标注医生的结果与之对比判断正误，进而实现医生的标注质量评估。多数医生给出的标签如果一致，那大概率就是正确的；相对权威的医生更为专业，那标签大概率也是正确的，落实在执行层面就是多数医生的标签一致即是正确标签，权威医生给出的标签即是正确标签。整个过程强依赖于医生的主观判断和专业水平，具体正确率缺乏一个量化评估。

上述“多医生交叉标注、高年资医生质控”的方案虽然也可引入医学影像的标注质控工作，然而面对海量的标注数据需求，流程复杂性带来的时间投入往往不可承受，为了在稀缺的质控资源与高质量的标注要求之间平衡，往往只能通过抽检质控进行妥协。并且，受限于人的质控还具有后置性，等医生审核完成，可能更多的问题数据已经标注完成，则基于标注质量指导标注任务分配的决策不能及时实现，对不达标数据的重新标注不可避免。

此外，以拥有1500万张标注图片的数据集为例，它花费了来自167个国家、48940名工作者2年的时间，通过清洗、分类、标注近十亿张互联网图片才得到。对于医学影像AI，标注医生要求具备足够的专业知识，质控医生还需拥有丰富的临床经验，在本就繁忙的工作之余支持海量标注工作着实不易。以某结直肠辅助诊断系统为例，10w级别的训练数据花费了40+医生近1年的时间完成，整个过程人力消耗巨大且周期很长。

除了实验室场景，成熟的影像AI产品会在医院投入使用，此时系统的诊断准确率是否与实验室评测结果相当、版本升级更新后准确率是否确有提升，这些问题对于保证服务质量、降低安全风险意义重大。影像AI作为一个“类医生”角色，诊断的过程也相当于在实时打标签，如果标注的质量评估仍需要采用传统的“收集-标注-质控-评测”流程，仅构建100例大小的评测集，假设每例患者有50张图，则总的标注任务共5000张图，假设医学影像标注复杂度和普通图片相同，仅做分类和勾线，平均一人天可标注40张图，则完成评测需要的标注时间共125人天；即每追踪一次系统的使用效果就需要多一次125人天的标注投入，从时间和成本上都无法满足产品使用的持续追踪。

本申请实施例通过自动识别病理诊断，实现机器的自动标注，医生的标注质量评估可在标注过程中自动完成，摆脱了基于人质控的主观影响、成本投入，用更为快速、轻量的方式得到可信度高的质控结果。

在一个实施例中，一种医学数据处理方法，包括：

步骤(a1)，将目标医学报告输入至报告标注模型，得到第一标注，其中，报告标注模型根据医学报告训练而成。

步骤(a2)，对目标医学报告进行分词处理，得到目标医学报告中的词语。

步骤(a3)，获取在医学语料库中的医学报告总数量以及包含目标词语的报告个数。

步骤(a4)，根据医学报告总数量以及包含目标词语的报告个数，得到目标词语对应的逆向文档频率。

步骤(a5)，获取目标词语在目标医学报告中的出现频率。

步骤(a6)，根据目标词语对应的逆向文档频率以及出现频率，得到目标词语对应的词频-逆向文件频率。

步骤(a7)，将词频-逆向文件频率作为目标词语对应的权重。

步骤(a8)，按照目标医学报告中词语的顺序，将每个词语对应的权重拼接得到目标医学报告对应的向量。

步骤(a9)，将向量输入至标注验证模型中，得到目标医学报告对应的第二标注，其中，标注验证模型是获取医学验证数据以及医学验证数据对应的参考标注，将医学验证数据输入至标注验证模型中得到目标标注，根据参考标注与目标标注的匹配度调整标注验证模型中的权重参数，当满足迭代条件时训练而成的。

步骤(a10)，当第一标注和第二标注匹配失败时，确定第一标注为错误标注。

步骤(a11)，将错误标注对应的医学报告作为负反馈样本。

步骤(a12)，将负反馈样本输入至报告标注模型中，调整报告标注模型的参数，得到调整后的报告标注模型。

上述步骤(a1)至步骤(a12)并不是必然按照数字指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。

图2和6为一个实施例中医学数据处理方法的流程示意图。应该理解的是，虽然图2和6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，为一个实施例中医学数据处理装置的结构框图，包括获取模块802、输入模块804和对比模块806，其中：

获取模块802，获取目标医学报告以及与目标医学报告对应的第一标注；

输入模块804，将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注，其中，是标注验证模型根据医学验证数据训练而成的；

对比模块806，用于将第一标注和第二标注对比，当第一标注与第二标注相匹配时，确定第一标注为正确标注。

上述医学数据处理装置，获取目标医学报告以及与目标医学报告对应的第一标注，将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注，其中，标注验证模型根据医学验证数据训练而成，将第一标注与第二标注对比，当第一标注与第二标注相匹配时，确定第一标注为正确标注，能够获取到可信度更高的医学验证数据训练而成的模型得到的标注结果，采用可信度更高的验证模型自动验证第一标注的标注质量，并且实时验证无需人工介入，摆脱了基于人质控的主观影响，降低了成本投入，提高医学数据处理效率以及实时性。

在一个实施例中，输入模块804用于对目标医学报告进行向量转化，得到目标医学报告对应的向量；将向量输入至标注验证模型中，得到目标医学报告对应的第二标注。

上述医学数据处理装置，通过对目标医学报告进行向量转化，得到目标医学报告对应的向量，将向量输入至标注验证模型中，得到目标医学报告对应的第二标注，能够通过模型得到目标医学报告对应的参考性较高的标注，并进行对比，提高医学数据处理效率以及标注评估的准确性。

在一个实施例中，输入模块804用于对目标医学报告进行分词处理，得到目标医学报告中的词语；获取目标医学报告中每个词语对应的权重；根据每个词语对应的权重得到目标医学报告对应的向量。

上述医学数据处理装置，通过对目标医学报告进行分词处理，得到目标医学报告中的词语，获取目标医学报告中每个词语对应的权重，根据每个词语对应的权重得到目标医学报告对应的向量，能够通过模型得到目标医学报告对应的参考性较高的标注，并进行对比，提高医学数据处理效率以及标注评估的准确性。

在一个实施例中，输入模块804用于获取医学语料库中医学报告总数量以及包含目标词语的报告个数；根据医学报告总数量以及包含目标词语的报告个数，得到目标词语对应的逆向文档频率；获取目标词语在目标医学报告中的出现频率；根据目标词语对应的逆向文档频率以及出现频率，得到目标词语对应的词频-逆向文件频率；将词频-逆向文件频率作为目标词语对应的权重。

上述医学数据处理装置，获取在医学语料库中的医学报告总数量以及包含目标词语的报告个数，根据医学报告总数量以及包含目标词语的报告个数，得到目标词语对应的逆向文档频率，获取目标词语在目标医学报告中的出现频率，根据目标词语对应的逆向文档频率以及出现频率，得到目标词语对应的词频-逆向文件频率，将词频-逆向文件频率作为目标词语对应的权重，能够快速并准确地获取目标词语对应的权重，提高标注验证模型得到第二标注的准确性。

在一个实施例中，输入模块804用于按照目标医学报告中词语的顺序，将每个词语对应的权重拼接得到目标医学报告对应的向量。

上述医学数据处理装置，按照目标医学报告中词语的顺序，将每个词语对应的权重拼接得到目标医学报告对应的向量，能够快速得到目标医学报告中的向量，提高医学数据处理效率。

在一个实施例中，获取模块802用于将目标医学报告输入至报告标注模型，得到第一标注，其中，报告标注模型根据医学报告训练而成。

上述医学数据处理装置，将目标医学报告输入至报告标注模型，得到第一标注，其中，报告标注模型根据医学报告训练而成，则标注验证模型也可用于验证其他报告标注模型得到的标注是否正确，提高了标注验证模型的可用性。

在一个实施例中，医学数据处理装置还包括训练模块。训练模块用于当第一标注和第二标注匹配失败时，确定第一标注为错误标注；将错误标注对应的医学报告作为负反馈样本；将负反馈样本输入至报告标注模型中，调整报告标注模型的参数，得到调整后的报告标注模型。

上述医学数据处理装置，报告标注模型之所以无法及时评估准确率，归根究底仍是缺乏标注数据带来的局限性，通过自动提取病理诊断结论，数据的标注评估问题可通过标注验证模型自动完成，评测数据的累积只需依赖检查量的自然增长，评测结果可在医院自动完成，无需人工接入；当第一标注和第二标注匹配失败时，确定第一标注为错误标注，将错误标注对应的医学报告作为负反馈样本，将负反馈样本输入至报告标注模型中，调整报告标注模型的参数，得到调整后的报告标注模型，评测中的负反馈样本可反向指导报告标注模型的优化，实现产品使用效果的自动追踪，提高报告标注模型使用的准确性。

在一个实施例中，训练模块用于获取医学验证数据以及医学验证数据对应的参考标注；将医学验证报告数据输入至标注验证模型中，得到目标标注；根据参考标注与目标标注的匹配度调整标注验证模型中的权重参数，当满足迭代条件时，得到训练完成的标注验证模型。

上述医学数据处理装置，获取医学验证数据以及医学验证数据对应的参考标注；将医学验证报告数据输入至标注验证模型中，得到目标标注；根据参考标注与目标标注的匹配度调整标注验证模型中的权重参数，当满足迭代条件时，得到训练完成的标注验证模型，能够训练得到可信度更高的标注验证模型，用于实时并自动评估其他模型或者医生对医学报告标注的正确性，提高医学报告数据处理的效率。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的第一计算机设备110或第二计算机设备120。图9的计算机设备可为终端。如图9所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现医学数据处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行医学数据处理方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的医学数据处理装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该医学数据处理装置的各个程序模块，比如，图8所示的获取模块、输入模块和对比模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的医学数据处理方法中的步骤。

例如，图9所示的计算机设备可以通过如图8所示的医学数据处理装置中的获取模块执行获取目标医学报告以及与目标医学报告对应的第一标注。计算机设备可通过输入模块执行将目标医学报告输入至标注验证模型中，得到目标医学报告对应的第二标注，其中，是标注验证模型根据医学验证数据训练而成的。计算机设备可通过对比模块执行将第一标注和第二标注对比，当第一标注与第二标注相匹配时，确定第一标注为正确标注。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述医学数据处理方法的步骤。此处医学数据处理方法的步骤可以是上述各个实施例的医学数据处理方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述医学数据处理方法的步骤。此处医学数据处理方法的步骤可以是上述各个实施例的医学数据处理方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种医学数据处理方法，包括：

获取医学验证数据以及所述医学验证数据对应的参考标注；

将所述医学验证数据输入至标注验证模型中，得到目标标注；

根据所述参考标注与所述目标标注的匹配度调整所述标注验证模型中的权重参数，当满足迭代条件时，得到训练完成的标注验证模型；

获取目标医学报告，以及对所述目标医学报告进行人工标注所得到的第一标注；

将所述目标医学报告输入至所述训练完成的标注验证模型中，得到所述目标医学报告对应的第二标注；

将所述第一标注和所述第二标注对比，以对所述第一标注进行质量评估，得到所述第一标注的质控结果；所述质控结果表征所述第一标注与所述第二标注相匹配时，所述第一标注为正确标注。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标医学报告输入至所述训练完成的标注验证模型中，得到所述目标医学报告对应的第二标注，包括：

对所述目标医学报告进行向量转化，得到所述目标医学报告对应的向量；

将所述向量输入至所述训练完成的标注验证模型中，得到所述目标医学报告对应的第二标注。

3.根据权利要求2所述的方法，其特征在于，所述对所述目标医学报告进行向量转化，得到所述目标医学报告对应的向量，包括：

对所述目标医学报告进行分词处理，得到所述目标医学报告中的词语；

获取所述目标医学报告中每个词语对应的权重；

根据所述每个词语对应的权重得到所述目标医学报告对应的向量。

4.根据权利要求3所述的方法，其特征在于，所述获取所述目标医学报告中每个词语对应的权重，包括：

获取在医学语料库中的医学报告总数量以及包含目标词语的报告个数；

根据所述医学报告总数量以及包含所述目标词语的报告个数，得到所述目标词语对应的逆向文档频率；

获取所述目标词语在所述目标医学报告中的出现频率；

根据所述目标词语对应的逆向文档频率以及所述出现频率，得到所述目标词语对应的词频-逆向文件频率；

将所述词频-逆向文件频率作为所述目标词语对应的权重。

5.根据权利要求3所述的方法，其特征在于，所述根据所述每个词语对应的权重得到所述目标医学报告对应的向量，包括：

按照所述目标医学报告中词语的顺序，将所述每个词语对应的权重拼接得到所述目标医学报告对应的向量。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

将所述目标医学报告输入至报告标注模型，得到第一标注，其中，所述报告标注模型根据医学报告训练而成。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

当所述第一标注和所述第二标注匹配失败时，确定所述第一标注为错误标注；

将所述错误标注对应的医学报告作为负反馈样本；

将所述负反馈样本输入至所述报告标注模型中，调整所述报告标注模型的参数，得到调整后的报告标注模型。

8.一种医学数据处理装置，其特征在于，所述装置包括：

训练模块，用于获取医学验证数据以及所述医学验证数据对应的参考标注；将所述医学验证数据输入至标注验证模型中，得到目标标注；根据所述参考标注与所述目标标注的匹配度调整所述标注验证模型中的权重参数，当满足迭代条件时，得到训练完成的标注验证模型；

获取模块，获取目标医学报告，以及对所述目标医学报告进行人工标注所得到的第一标注；

输入模块，将所述目标医学报告输入至所述训练完成的标注验证模型中，得到所述目标医学报告对应的第二标注；

对比模块，用于将所述第一标注和所述第二标注对比，以对所述第一标注进行质量评估，得到所述第一标注的质控结果；所述质控结果表征所述第一标注与所述第二标注相匹配时，所述第一标注为正确标注。

9.根据权利要求8所述的装置，其特征在于，所述输入模块，还用于对所述目标医学报告进行向量转化，得到所述目标医学报告对应的向量；将所述向量输入至所述训练完成的标注验证模型中，得到所述目标医学报告对应的第二标注。

10.根据权利要求9所述的装置，其特征在于，所述输入模块，还用于对所述目标医学报告进行分词处理，得到所述目标医学报告中的词语；获取所述目标医学报告中每个词语对应的权重；根据所述每个词语对应的权重得到所述目标医学报告对应的向量。

11.根据权利要求10所述的装置，其特征在于，所述输入模块，还用于获取在医学语料库中的医学报告总数量以及包含目标词语的报告个数；根据所述医学报告总数量以及包含所述目标词语的报告个数，得到所述目标词语对应的逆向文档频率；获取所述目标词语在所述目标医学报告中的出现频率；根据所述目标词语对应的逆向文档频率以及所述出现频率，得到所述目标词语对应的词频-逆向文件频率；将所述词频-逆向文件频率作为所述目标词语对应的权重。

12.根据权利要求10所述的装置，其特征在于，所述输入模块，还用于按照所述目标医学报告中词语的顺序，将所述每个词语对应的权重拼接得到所述目标医学报告对应的向量。

13.根据权利要求8至12中任一项所述的装置，其特征在于，所述获取模块，还用于将所述目标医学报告输入至报告标注模型，得到第一标注，其中，所述报告标注模型根据医学报告训练而成。

14.根据权利要求13所述的装置，其特征在于，所述装置还包括训练模块；所述训练模块，用于当所述第一标注和所述第二标注匹配失败时，确定所述第一标注为错误标注；将所述错误标注对应的医学报告作为负反馈样本；将所述负反馈样本输入至所述报告标注模型中，调整所述报告标注模型的参数，得到调整后的报告标注模型。

15.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

16.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。