CN112037909A

CN112037909A - 诊断信息复核系统

Info

Publication number: CN112037909A
Application number: CN202010895447.5A
Authority: CN
Inventors: 付亚州
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-04
Anticipated expiration: 2040-08-31
Also published as: CN112037909B

Abstract

本发明涉及人工智能领域，公开了一种诊断信息复核系统，用于审核用户的诊断结果，诊断信息复核系统包括获取模块，用于获取患者的诊断单，提取其中的诊断语料和诊断结果；语料提取模块，用于对诊断语料中的停用句进行删除处理，得到纯诊断语料；预处理模块，用于将纯诊断语料进行预处理，得到诊断分词，并提取特征；第一诊断模块，用于将特征输入第一诊断模型，得到若干个第一诊断值；第二诊断模块，用于获取患者的个人信息，并将个人信息输入第二诊断模型，得到若干个第二诊断值；筛选模块，用于从第一诊断值和第二诊断值中筛选出预设数量的诊断值作为诊断审核结果；比对模块，用于比对诊断审核结果与诊断结果，基于比对的结果得到审核结果。

Description

诊断信息复核系统

技术领域

本发明涉及人工智能领域，尤其涉及一种诊断信息复核系统。

背景技术

智能诊断是医学人工智能中一个重要的领域，医学人工智能，是医疗机构、医生个人或者医疗公司利用现代信息技术收集、管理和分析医学数据和信息，创造和累计医学知识和见解，即时检索相关方案与标准，采取有效的医学行为，完善各种医学流程，规范病历与健康档案，辅助诊断与治疗，提升医疗各方面效率，改善医学决策水平的智慧和能力。智能诊断系统是根据患者的基本信息、患者对自身疾病的描述以及体格检查、检验结果推断出诊断结果，按照诊断结果由高到低推断潜在疾病可能性，提高诊断效率。

传统的智能诊断系统在提取症状、检查等信息方面比较耗时，并且提取的都是一些浅层的信息，在关系抽取上有很大欠缺，导致智能诊断根据数据得出的诊断结果不够准确，缺少对诊断结果的复核导致错诊、漏诊的情况发生。

发明内容

本提案为了解决现有的缺少对诊断结果的复核导致错诊、漏诊的问题。

本发明提供了一种诊断信息复核系统包括：至少一个处理器和与所述处理器互连的存储器；

以及至少一个诊断信息复核程序，所述诊断信息复核程序存储在所述存储器中，且经配置由所述至少一个处理器执行实现诊断信息复核，所述诊断信息复核程序包括以下功能模块：

所述获取模块，用于获取患者的诊断单，提取所述诊断单中的诊断语料和诊断结果，并将所述诊断语料发送至所述语料提取模块和向所述比对模块发送所述诊断结果；

所述语料提取模块，用于对所述诊断语料中的停用句进行删除处理，得到纯诊断语料，并将所述纯诊断语料发送至所述预处理模块；

所述预处理模块，用于将所述纯诊断语料进行预处理，得到诊断分词，并提取所述诊断分词的特征，并将所述特征发送至所述第一诊断模块；

所述第一诊断模块，用于将所述特征输入预设的第一诊断模型，得到至少一个第一诊断值，并将所述第一诊断值发送至所述排序模块；

所述第二诊断模块，用于获取患者的个人信息，并将所述个人信息输入预设的第二诊断模型，得到至少一个第二诊断值，并将所述第二诊断值发送至所述筛选模块；

所述筛选模块，用于从所述第一诊断值和所述第二诊断值中筛选出预设数量的诊断值作为诊断审核结果，并将所述诊断审核结果发送至所述比对模块；

所述比对模块，用于将所述诊断审核结果与所述诊断结果进行比对，基于比对的结果得到审核结果。

可选的，在本发明第一方面的第一种实现方式中，所述预处理模块包括分词单元、删词单元和权重计算单元；其中：

所述分词单元，用于根据结巴分词法将所述纯诊断语料进行分词，得到第一分词集，并将所述第一分词集发送至所述删词单元；

所述删词单元，用于根据预设的停用词集，删除所述第一分词集中的停用词，得到第二分词集，并将所述第二分词集中的分词作为诊断分词，并将所述诊断分词发送至所述权重计算单元；

所述权重计算单元，用于根据预设的词权重算法，计算所述第二分词集中所有诊断分词的词权重，并提取所述诊断分词的特征，并将所述特征发送至所述第一诊断模块。

可选的，在本发明第一方面的第二种实现方式中，所述权重计算单元包括词频计算子单元、乘积子单元和特征提取子单元；其中：

所述词频计算子单元，用于计算所述第二分词集中所有诊断分词在所述诊断语料中的词频，并将所述发送至所述乘积子单元；

所述乘积子单元，用于获取预设的所有诊断分词的逆文档频率指数，并将所述词频乘以所述逆文档频率指数，得到所述诊断分词的词权重发送至所述第一诊断模块；

所述特征提取子单元，用于提取所述诊断分词的特征，并将所述特征发送至所述第一诊断模块。

可选的，在本发明第一方面的第三种实现方式中，所述特征提取子单元具体用于：

将所述诊断分词按照在所述诊断语料中的顺序进行排序，根据所述诊断分词的字节长度进行大小为N的滑动窗口操作，生成多个分词数为N的分词片段序列，其中，所述N为不小于1的自然数；

统计所述分词片段序列在所述诊断语料中的频次，并通过预设的频次阈值对所有所述分词片段序列进行过滤，形成关键序列列表；

将所述关键序列列表中的分词片段序列作为所述诊断分词的特征集，并将所述特征集中的特征发送是所述第一诊断模块。

可选的，在本发明第一方面的第四种实现方式中，所述第一诊断模块具体用于：

根据预设的疾病数据库中所有目标疾病的发生次数，计算每种目标疾病的发生频率，得到每种目标疾病的第一概率；

将所述特征集中所有特征对应的诊断分词的词权重归一化取乘积后得到第二概率；

利用朴素贝叶斯公式计算所述第一概率和所述第二概率的乘积；

遍历所述疾病数据库中所有目标疾病，并将对应的乘积构建向量模型，得到所述诊断语料下至少一个目标疾病的概率，并将所述目标疾病的概率作为第一诊断值，并将所述第一诊断值发送至所述筛选模块。

可选的，在本发明第一方面的第五种实现方式中，所述第二诊断模块包括序列确定单元、输入单元和预测单元

序列确定单元，用于获取所述患者的个人信息，并将所有所述个人信息进行拼接，确定所述个人信息的目标词序列，其中所述目标词序列的长度为M+1，M为不小于的自然数，并将所述目标词序列发送至所述输入单元；

输入单元，用于将所述目标词序列输入至预设的目标BERT模型，得到目标向量序列，其中所述目标向量序列中的向量与所述目标词序列中的词项一一对应，并将目标向量序列发送至所述预测单元；

预测单元，用于根据所述目标向量序列中的第M+1个向量预测所述患者可能患有的疾病类别及概率并作为第二诊断值输出至所述筛选模块。

可选的，在本发明第一方面的第六种实现方式中，所述预测单元具体用于：

确定预设的疾病数据库中的目标疾病的类别；

基于所述目标疾病的类别，通过第一预设公式对第n+1个向量进行计算，以得到所述患者分别属于不同类别的所述目标疾病的类别的概率；

将所述患者可能患有的疾病类别及概率作为第二诊断值输出至所述筛选模块。

可选的，在本发明第一方面的第七种实现方式中，所述筛选模块具体用于：

将所述第一诊断值和所述第二诊断值，按照数值从大到小进行排序，得到诊断结果序列；

选择所述诊断结果序列中按序靠前的若干个诊断值，并将所述若干个诊断值作为所述患者的诊断审核结果。

可选的，在本发明第一方面的第八种实现方式中，所述语料提取模块具体用于：

计算所述诊断语料与预设的停用句词典的词向量相似度；

判断词向量相似度是否大于预设阈值；

若是，则将对应的诊断语料进行删除处理，得到纯诊断语料，并将所述纯诊断语料发送至所述预处理模块。

可选的，在本发明第一方面的第九种实现方式中，所述诊断信息复核系统还包括模型训练模块，所述模型训练模块具体用于：

获取原始BERT模型及训练数据集；

通过所述训练数据集对所述原始BERT模型进行训练，以得到所述目标BERT模型，并将所述目标BERT模型发送至所述第二诊断模块。

本发明的技术方案中，提供一种诊断信息复核系统，所述诊断信息复核系统包括获取模块，语料提取模块，预处理模块，第一诊断模块，第二诊断模块，筛选模块，比对模块；其中：所述获取模块，用于获取患者的诊断单，提取所述诊断单中的诊断语料和诊断结果，并将所述诊断语料发送至所述语料提取模块和向所述比对模块发送所述诊断结果；所述语料提取模块，用于对所述诊断语料中的停用句进行删除处理，得到纯诊断语料，并将所述纯诊断语料发送至所述预处理模块；所述预处理模块，用于将所述纯诊断语料进行预处理，得到诊断分词，并提取所述诊断分词的特征，并将所述特征发送至所述第一诊断模块；所述第一诊断模块，用于将所述特征输入预设的第一诊断模型，得到至少一个第一诊断值，并将所述第一诊断值发送至所述排序模块；所述第二诊断模块，用于获取患者的个人信息，并将所述个人信息输入预设的第二诊断模型，得到至少一个第二诊断值，并将所述第二诊断值发送至所述筛选模块；所述筛选模块，用于从所述第一诊断值和所述第二诊断值中筛选出预设数量的诊断值作为诊断审核结果，并将所述诊断审核结果发送至所述比对模块；所述比对模块，用于将所述诊断审核结果与所述诊断结果进行比对，基于比对的结果得到审核结果。

附图说明

图1为本发明实施例中诊断信息复核系统的第一个实施例示意图；

图2为本发明实施例中诊断信息复核程序的第一种模块结构示意图；

图3为本发明实施例中诊断信息复核程序的第二种模块结构示意图；

图4为本发明实施例中诊断信息复核系统的第二个实施例示意图；

具体实施方式

本发明实施例提供了一种诊断信息复核系统，解决了由于对诊断结果缺少审核，导致出现错诊漏诊的问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了模块、单元或系统不必限于清楚地列出的那些模块或单元，而是可包括没有清楚地列出的或对于系统固有的其它模块或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明第一实施例中的诊断信息复核系统包括至少一个处理器11和与所述处理器11互连的存储器12；以及至少一个诊断信息复核程序120，所述诊断信息复核程序120存储在所述存储器12中，且经配置由所述至少一个处理器11执行实现诊断信息复核，所述诊断信息复核程序120包括以下功能模块：

获取模块121，语料提取模块122，预处理模块123，第一诊断模块124，第二诊断模块125，筛选模块126，比对模块127；其中：

获取模块121，用于获取患者的诊断单，提取所述诊断单中的诊断语料和诊断结果，并将所述诊断语料发送至所述语料提取模块12和向所述比对模块127发送所述诊断结果；

在实际应用中，医生在对病人进行诊断前需要先与病人交流，通过了解病人的身体情况以及病症等信息，结合行医经验进行诊断，发送诊断单，诊断单中会包括和患者进行交流的部分内容，在本实施例中，诊断单中医生与病人之间交流的内容即可作为诊断语料，诊断语料的获取可以是通过诊断单中医生撰写的部分内容，也可以是通过病人在应用所述诊断信息复核方法的客户端上。

语料提取模块121，用于对所述诊断语料中的停用句进行删除处理，得到纯诊断语料，并将所述纯诊断语料发送至所述预处理模块123；

具体的，所述语料提取模块121用于：

计算所述诊断语料与预设的停用句词典的词向量相似度；

判断词向量相似度是否大于预设阈值；

在本实施例中，获取到的诊断语料由于是通过病人与医生进行沟通获取到的，所以在诊断语料中包含了部分无意义的语料，例如需要对这些语料进行删除，减少后续的计算量，可以通过预设的停用句库，将所有诊断语料与所述停用句库做对比，计算诊断语料与停用句之间的相似度，若某句诊断语料与停用句库中的停用句的相似度达到一定阈值，则将该诊断语料进行删除，也可以是人工根据预设的停用句词典，对诊断语料中的停用句进行删除，本实施例不做限定。

预处理模块123，用于将所述纯诊断语料进行预处理，得到诊断分词，并提取所述诊断分词的特征，并将所述特征发送至所述第一诊断模块124；

在本实施例中，所述预处理包括将诊断语料进行分词，所述分词主要是通过结巴分词法进行的主要是通过结巴分词法对所述诊断语料进行分词处理，结巴分词法为Python的结巴分词模块，该方法支持精确模式、全模式和搜索引擎模式三种分词模式。本发明采用具有词性标注功能的精确分词模式，方便后续进行停用词的删除，例如对于“我今天已经联系你们的客服多次，但是仍然没有对我进行有效的答复，我感觉很生气”通过分词处理以及词性标注，形成分析结果“我/n今天/f已经/d联系/v你们/n的/p客服/n多次/m，/w但是/c仍然/p没有/ad对/p我/n进行/v有效/ad的/p答复/n，/w我/n感觉/v很/adv生气/v”。

在本实施例中，所述预处理还包括对进行分词后的词汇进行删除停用词处理，主要是通过预设的停用词集，所述的停用词集可以是根据词性构建，例如数词、量词、代词、副词、介词、连词、助词、拟声词和标点的数据，在前面进行分词的过程中，通过结巴分词法的精确模式，可以对所述聊天语料进行词性标注，在使用停用词库在所述聊天语料中的停用词进行清除时可直接基于前面的词性标注进行上述词性的清除，同时根据不同需求可以增加停用词集的停用词数量，本技术方案用于对患者的诊断结果进行辅助性的诊断信息复核，所以一些不必要的名称也可以加入停用词集，例如疾病发生的地点“浴室”“办公室”等，删除停用词后剩下的分词即为诊断分词。

在本实施例中，预处理还包括计算诊断分词的词权重，所述词权重算法为TF-IDF(term frequency–inverse document frequency，频率与逆文档频率指数)算法，主要通过两部分组成，分别为TF和IDF，其中，TF指的是某一个给定的词语在该文件中出现的次数，也就是词频这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件，IDF为逆向文件频率，主要思想是：如果包含词条t的文档越少,IDF越大，则说明词条具有很好的类别区分能力。

在本实施例中，所述提取诊断分词的方法主要是通过N-gram模型，N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

第一诊断模块124，用于将所述特征输入预设的第一诊断模型，得到至少一个第一诊断值，并将所述第一诊断值发送至所述排序模块；

在本实施例中，所述第一诊断模型为多分类贝叶斯分类器，是一种朴素贝叶斯分类算法，朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法，先通过已给定的训练集，以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于学习到的模型，输入求出使得后验概率最大的输出，由于存在不同疾病，本方案使用多分类贝叶斯分类器，计算出不同疾病的概率，并将不同疾病以及相应的概率作为第一诊断值输出。

具体的所述第一诊断模块124用于：

遍历所述疾病数据库中所有目标疾病，并将对应的乘积构建向量模型，得到所述诊断语料下至少一个目标疾病的概率，并将所述目标疾病的概率作为第一诊断值，并将所述第一诊断值发送至所述筛选模块126。

在本实施例中，对于第一概率的计算，假设在数据库中有100万次就诊记录，每次就诊记录都对应一种疾病，在这100万次中，统计出A病出现的次数为10万次，B病为20万次，C病的次数为30万次，D病为40万次，则出现ABCD四种病的概率分别为10％、20％、30％、40％，在统计学中，当数据量足够大时，频率可以代替概率，因此疾病ABCD出现的概率分别为10％、120％、30％、40％，第二概率主要是通过对前面获取的诊断分词的词权重进行归一化处理后去乘积，取第一概率和第二概率的乘积后构建向量模型，即可得到每种疾病的概率并作为第一诊断值输出。

第二诊断模块125，用于获取患者的个人信息，并将所述个人信息输入预设的第二诊断模型，得到至少一个第二诊断值，并将所述第二诊断值发送至所述筛选模块126；

在本实施例中，所述第二诊断模型为bert模型，BERT模型是一种应用于自然语言处理任务的开源的语言模型。BERT模型具有包含多层transformer结构。其中，Transformer结构是一种基于注意力机制(Attention)的网络结构。该网络结构能够计算一个文本中的每个词与该文本中所有词的相互关系，并基于词与词之间的相互关系计算各词的重要程度(权重)，从而获得每个词新的表达(例如新的向量)。上述新的表达不但涉及了该词本身的特征，还涉及了其他词与这个词的关系，因此和传统的词向量相比更具有全局性。由于BERT模型使用多层transformer结构(具体为transformer结构中的编码器(encoder))，因而，BERT模型能够学习到文本中词之间的上下文关系。此外，transformer的encoder是采用一次性读取的方式进行文本的读取，支持了BERT模型对文本的双向学习，由此，相对于仅支持对文本单向学习的语言模型，BERT模型可更准确地学习到文本中的各词的上下文关系，对语境的理解比单向的语言模型更深刻，从而能够准确地对长尾搜索词等不易理解的文本进行处理。由此，BERT模型相较于处理自然语言处理任务的其他模型，具有更好的任务处理效果。

筛选模块126，用于从所述第一诊断值和所述第二诊断值中筛选出预设数量的诊断值作为诊断审核结果，并将所述诊断审核结果发送至所述比对模块127；

具体的，所述筛选模块126用于：

选择所述诊断结果序列中按序靠前的若干个诊断值，并将所述若干个诊断值作为所述患者的诊断审核结果，并将所述诊断审核结果发送至所述比对模块127。

在本实施例中，第一诊断模型和第二诊断模型都会输出多个诊断值，每个诊断值对应用户可能罹患某种疾病类型的概率，本方法只需要输出预设数量分诊断结果，所以需要根据诊断结果的置信度进行输出，方法主要是将两个模型输出的诊断结果按照置信度的数值进行从大到小的排序，得到诊断结果序列，并将诊断结果序列中置信度在预设数量的排名内的诊断结果作为诊断审核结果进行输出，通过两个诊断模型，也就是bayes网络和深度学习网络bert的结合，在知识推理方面和语义推理上有了极大的突破。

比对模块127，用于将所述诊断审核结果与所述诊断结果进行比对，基于比对的结果得到审核结果。

在本实施例中，通过将输出的诊断审核结果对诊断结果进行审核，能够判断诊断结果是否存在漏诊或者错诊，若没有漏诊或错诊，则将审核正确作为审核结果输出，若存在漏诊或错诊，则将审核错误作为审核结果输出。

提供一种诊断信息复核系统，所述诊断信息复核系统包括获取模块，语料提取模块，预处理模块，第一诊断模块，第二诊断模块，筛选模块，比对模块；其中：所述获取模块，用于获取患者的诊断单，提取所述诊断单中的诊断语料和诊断结果，并将所述诊断语料发送至所述语料提取模块和向所述比对模块发送所述诊断结果；所述语料提取模块，用于对所述诊断语料中的停用句进行删除处理，得到纯诊断语料，并将所述纯诊断语料发送至所述预处理模块；所述预处理模块，用于将所述纯诊断语料进行预处理，得到诊断分词，并提取所述诊断分词的特征，并将所述特征发送至所述第一诊断模块；所述第一诊断模块，用于将所述特征输入预设的第一诊断模型，得到至少一个第一诊断值，并将所述第一诊断值发送至所述排序模块；所述第二诊断模块，用于获取患者的个人信息，并将所述个人信息输入预设的第二诊断模型，得到至少一个第二诊断值，并将所述第二诊断值发送至所述筛选模块；所述筛选模块，用于从所述第一诊断值和所述第二诊断值中筛选出预设数量的诊断值作为诊断审核结果，并将所述诊断审核结果发送至所述比对模块；所述比对模块，用于将所述诊断审核结果与所述诊断结果进行比对，基于比对的结果得到审核结果，通过审核结果，知晓诊断结果是否正确，避免错诊、漏诊的问题。

请参阅图1和图2，可选的，本发明第二实施例中的诊断信息复核系统包括至少一个处理器11和与所述处理器11互连的存储器12；以及至少一个诊断信息复核程序120，所述诊断信息复核程序120存储在所述存储器12中，且经配置由所述至少一个处理器11执行实现诊断信息复核，所述诊断信息复核程序120包括以下功能模块：获取模块121，语料提取模块122，预处理模块123，第一诊断模块124，第二诊断模块125，筛选模块126，比对模块127；

具体的，所述预处理模块123包括分词单元1231、删词单元1232和权重计算单元1233，其中，

分词单元1231，用于根据结巴分词法将所述纯诊断语料进行分词，得到第一分词集，并将所述第一分词集发送至所述删词单元1232；

本实施例中，结巴分词法为Python的结巴分词模块，该方法支持精确模式、全模式和搜索引擎模式三种分词模式。本发明采用具有词性标注功能的精确分词模式，方便后续进行停用词的删除，例如对于“我今天已经联系你们的客服多次，但是仍然没有对我进行有效的答复，我感觉很生气”通过分词处理以及词性标注，形成分析结果“我/n今天/f已经/d联系/v你们/n的/p客服/n多次/m，/w但是/c仍然/p没有/ad对/p我/n进行/v有效/ad的/p答复/n，/w我/n感觉/v很/adv生气/v”。

删词单元1232，用于根据预设的停用词集，删除所述第一分词集中的停用词，得到第二分词集，并将所述第二分词集中的分词作为诊断分词，并将所述诊断分词发送至所述权重计算单元1233；

本实施例中，主要是通过预设的停用词集，所述的停用词集可以是根据词性构建，例如数词、量词、代词、副词、介词、连词、助词、拟声词和标点的数据，在前面进行分词的过程中，通过结巴分词法的精确模式，可以对所述聊天语料进行词性标注，在使用停用词库在所述聊天语料中的停用词进行清除时可直接基于前面的词性标注进行上述词性的清除，同时根据不同需求可以增加停用词集的停用词数量，本技术方案用于对患者的诊断结果进行辅助性的诊断信息复核，所以一些不必要的名称也可以加入停用词集，例如疾病发生的地点“浴室”“办公室”等，删除停用词后剩下的分词即为诊断分词。

权重计算单元1233，用于根据预设的词权重算法，计算所述第二分词集中所有诊断分词的词权重，并提取所述诊断分词的特征，并将所述特征发送至所述第一诊断模块；

在本实施例中，所述词权重算法，应用到的是TF-IDF(term frequency–inversedocument frequency，频率与逆文档频率指数)，主要思想是：如果某个词在一篇文档中出现的频率高(即TF高)，并且在语料库中其他文档中很少出现(即IDF高)，则认为这个词具有很好的类别区分能力，主要计算词频和逆文档频率指数的乘积。

进一步的，所述权重计算单元1233包括词频计算子单元12331、乘积子单元12332和特征提取子单元12333；其中

词频计算子单元12331，用于计算所述第二分词集中所有诊断分词在所述诊断语料中的词频，并将所述发送至所述乘积子单元12332；

所述词频的计算公式为：

或者为：

乘积子单元12332，用于获取预设的所有诊断分词的逆文档频率指数，并将所述词频乘以所述逆文档频率指数，得到所述诊断分词的词权重发送至所述第一诊断模块；

所述逆文档频率指数需要事先构建一个语料库，所述语料库中包括了多条诊断语料，逆文档频率指数的计算公式为：

将两者的计算结果相乘，得到的即为诊断分词的词权重。

所述特征提取子单元12333，用于提取所述诊断分词的特征，并将所述特征发送至所述第一诊断模块。

具体的，所述特征提取子单元12333用于：将所述诊断分词按照在所述诊断语料中的顺序进行排序，根据所述诊断分词的字节长度进行大小为N的滑动窗口操作，生成多个分词数为N的分词片段序列，其中，所述N为不小于1的自然数；

在本实施例中，提取诊断分词的特征所使用的方法为N-gram模型，诊断分词为“腹部疼痛”，则可以将其切分为“腹/部/疼/痛”，部分命名实体中包括大量的数字信息，例如表示数量的短语和表示时间的短语等等。然而，在识别的过程中，如果不关心命名实体代表的数值大小，而只关心命名实体的特定位置出现了数值，则可以将连续的数字切分为一个独立的字，将除数字以外的其他字符按字符进行切分。例如，当诊断分词为“大约500ML”时，可以将其切分为“大/约/500/M/L”，将500作为一个独立的字对待，此外，还可以将切分后数字所在的位置使用统一的字符代替，例如“大约500ML”和“1.3米左右”的切分结果可以为“大/约/digit/M/L”和“digit/米/左/右”，从而使诊断分词的特征的形式更规范，降低识别的复杂度。

在本实施例中，N-gram是一种多元语法模型。该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关。因此，N-gram模型能够反映字之间的上下文关系，待识别的短语中的N-gram特征是指待识别的短语中连续的字的组合，n表示特征中的字数。例如，对于“腹/部/疼/痛”，其N-gram特征包括腹、部、疼、痛，2-gram特征包括腹部、部疼、疼痛。通常地，从待识别的短语中提取字数在预设阈值范围内的N-gram特征，该阈值范围例如可以为1～3。

本实施例在上一实施例的基础上，详细介绍了预处理模块的构成，包括分词单元、删词单元和权重计算单元，其中所述分词单元，用于根据结巴分词法将所述纯诊断语料进行分词，得到第一分词集，并将所述第一分词集发送至所述删词单元；所述删词单元，用于根据预设的停用词集，删除所述第一分词集中的停用词，得到第二分词集，并将所述第二分词集中的分词作为诊断分词，并将所述诊断分词发送至所述权重计算单元；所述权重计算单元，用于根据预设的词权重算法，计算所述第二分词集中所有诊断分词的词权重，并提取所述诊断分词的特征，并将所述特征发送至所述第一诊断模块，通过预处理模块的各个单元，能够将纯诊断语料分词拆解，得到特征，输入第一诊断模块中快速计算诊断值。

请参阅图1和图3，本发明第三实施例中的诊断信息复核系统包括至少一个处理器11和与所述处理器11互连的存储器12；以及至少一个诊断信息复核程序120，所述诊断信息复核程序120存储在所述存储器12中，且经配置由所述至少一个处理器11执行实现诊断信息复核，所述诊断信息复核程序120包括以下功能模块：获取模块121，语料提取模块122，预处理模块123，第一诊断模块124，第二诊断模块125，筛选模块126，比对模块127；

具体的，第二诊断模块125包括序列确定单元1251、输入单元1252和预测单元1253；其中：

序列确定单元1251，用于获取所述患者的个人信息，并将所有所述个人信息进行拼接，确定所述个人信息的目标词序列，其中所述目标词序列的长度为M+1，M为不小于的自然数，并将所述目标词序列发送至所述输入单元1252；

输入单元1252，用于将所述目标词序列输入至预设的目标BERT模型，得到目标向量序列，其中所述目标向量序列中的向量与所述目标词序列中的词项一一对应，并将目标向量序列发送至所述预测单元1253；

预测单元1253，用于根据所述目标向量序列中的第M+1个向量预测所述患者可能患有的疾病类别及概率并作为第二诊断值输出至所述筛选模块126。

在本实施例中，所述患者的个人信息包括患者的信息，年龄、性别、症状表述、检查结果等，将所述个人信息拼接后，根据预设分词工具对个人信息进行拆分，以得到原始词序列，根据拼接后的个人信息确定目标词序列；目标词序列可以表示为：w＝[w1，w2，...，wM+1]，；目标向量序列可以表示为：V＝[v1，v2，…，vM+1]，在原始词序列的末端增加目标字符，以得到目标词序列。其中，目标字符可以是特殊字符“[CLS]”，得到的目标词序列，通过填加目标字符，可直接利用目标字符的输出进行疾病的预测，通过根据所述目标向量序列中的第M+1个向量预测所述目标患者可能患有的疾病类别及概率并作为第二诊断值输出包括：确定数据库中的疾病类别，基于所述不同的疾病，通过第一预设公式对第M+1个向量进行计算，以得到所述中文病例分别属于所述不同的疾病的概率；其中，通过第一预设公式对第M+1个向量进行计算，得到概率如下：p＝softmax(vM+1×W1+b1)，W1和b1是随机初始化且可以学习的参数，与疾病相关，随着疾病的不同数值也会变化。本实施例使用的第二诊断模型中的BERT模型的获取包括，获取原始BERT模型及训练数据集；通过所述训练数据集对所述原始BERT模型进行训练，以得到满足要求的BERT模型。

具体的，所述预测单元1253用于：

确定预设的疾病数据库中的目标疾病的类别；

将所述患者可能患有的疾病类别及概率作为第二诊断值输出至所述筛选模块126。

本实施例在第二实施例的基础上，详细描述了第二诊断模块中的各个单元，包括序列确定单元，用于获取所述患者的个人信息，并将所有所述个人信息进行拼接，确定所述个人信息的目标词序列，其中所述目标词序列的长度为M+1，M为不小于的自然数，并将所述目标词序列发送至所述输入单元；输入单元，用于将所述目标词序列输入至预设的目标BERT模型，得到目标向量序列，其中所述目标向量序列中的向量与所述目标词序列中的词项一一对应，并将目标向量序列发送至所述预测单元；预测单元，用于根据所述目标向量序列中的第M+1个向量预测所述患者可能患有的疾病类别及概率并作为第二诊断值输出至所述筛选模块，通过将患者的个人信息推测出患者的诊断值，进而为后续对诊断结果进行复核。

图4是本发明实施例提供的一种诊断信息复核系统的结构示意图，该诊断信息复核系统400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)410(例如，一个或一个以上处理器)和存储器420，一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对诊断信息复核系统400中的一系列指令操作。更进一步地，处理器410可以设置为与存储介质430通信，在诊断信息复核系统400上执行存储介质430中的一系列指令操作。

诊断信息复核系统400还可以包括一个或一个以上电源440，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口460，和/或，一个或一个以上操作系统431，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图4示出的诊断信息复核系统结构并不构成对本申请提供的诊断信息复核系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种诊断信息复核系统，其特征在于，所述诊断信息复核系统包括：

至少一个处理器和与所述处理器互连的存储器；

2.根据权利要求1所述的诊断信息复核系统，其特征在于，所述预处理模块包括分词单元、删词单元和权重计算单元；其中：

3.根据权利要求2所述的诊断信息复核系统，其特征在于，所述权重计算单元包括词频计算子单元、乘积子单元和特征提取子单元；其中：

4.根据权利要求3所述的诊断信息复核系统，所述特征提取子单元具体用于：

5.根据权利要求4所述的诊断信息复核系统，其特征在于，所述第一诊断模块具体用于：

6.根据权利要求1所述的诊断信息复核系统，其特征在于，所述第二诊断模块包括序列确定单元、输入单元和预测单元；其中：

7.根据权利要求6所述的诊断信息复核系统，其特征在于，所述预测单元具体用于：

确定预设的疾病数据库中的目标疾病的类别；

8.根据权利要求1所述的诊断信息复核系统，其特征在于，所述筛选模块具体用于：

9.根据权利要求1所述的诊断信息复核系统，其特征在于，所述语料提取模块具体用于：

计算所述诊断语料与预设的停用句词典的词向量相似度；

判断词向量相似度是否大于预设阈值；

10.根据权利要求6所述的诊断信息复核系统，其特征在于，所述诊断信息复核系统还包括模型训练模块，所述模型训练模块具体用于：

获取原始BERT模型及训练数据集；