CN106919793B

CN106919793B - 一种医疗大数据的数据标准化处理方法及装置

Info

Publication number: CN106919793B
Application number: CN201710101827.5A
Authority: CN
Inventors: 金以东; 黄玉丽; 李雪莉
Original assignee: Heilongjiang Teshi Information Technology Co Ltd
Current assignee: Yi Bao Interconnected Medical Information Technology (Beijing) Co., Ltd.
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2019-12-06
Anticipated expiration: 2037-02-24
Also published as: CN106919793A

Abstract

本发明提供了一种医疗大数据的数据标准化处理方法及装置，涉及医疗实体识别技术领域。方法包括：根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；根据预先设置的医学本体术语抽词策略对待处理语句进行抽词，确定第二组候选实体；从第一组候选实体和第二组候选实体中确定待处理语句中的实体；根据预先设置的句法分析筛选规则进行筛选，确定待处理语句中的候选标准化术语；在待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功，将待处理语句中的候选标准化术语确定为标准化术语；若匹配失败，生成匹配失败问题报告或对匹配失败且术语类型为疾病类的候选标准化术语进行模糊匹配，以确定标准化术语。

Description

一种医疗大数据的数据标准化处理方法及装置

技术领域

本发明涉及医疗实体识别技术领域，尤其涉及一种医疗大数据的数据标准化处理方法及装置。

背景技术

近年来随着医疗卫生信息化的发展，医疗卫生领域已进入到了大数据时代。医疗业务过程同样也是个医疗大数据累积的过程，并对医疗卫生行业产生巨大的影响。例如，通过对医学大数据的分析挖掘，实现临床操作的比较效果研究、临床决策支持系统建设、基于卫生经济学和疗效研究、疾病模式的分析研究等，从而促进医学发展、提高临床医学质量。当前的医疗大数据包括临床数据(如电子病历、健康档案数据等)，临床结算数据，日常生活习惯数据，医学文献数据等多种类型复杂数据，具有数据量庞大、结构复杂、分析难度大等特点。在实现对医疗大数据的利用和挖掘过程中，医疗大数据的标准化是基础也是难点之一。

目前，研究最多的是医疗大数据结构标准化的方法和技术，例如，现有技术中有人利用基于医学术语字典的双向最大匹配分词算法，对医疗文本数据进行分词，得到结构化数据，实现了简单意义上的医疗大数据结构标准化。然而，该方法的缺点是1)仅仅依靠术语字典匹配，缺少上下文语境语义识别；2)医学术语字典即便再大，也不可能囊括所有的医疗术语，切分出术语有限，结构化效果受限。另外，现有技术中还有关于医疗信息标准化的研究，典型案例如现有技术的一种标准化系统，该系统为医生、护士提供一套标准化术语以供他们记录病人在就医过程中产生的治疗信息、护理信息以及药物信息时使用标准术语，利于医疗信息在不同系统中传输(专利申请号：200480023968.0)。此方案的缺点是标准化过程是人工选择过程，而非自动过程，无法满足在大数据时代的数据处理要求。

可见，目前现有技术中还没有关于医疗大数据的自动术语标准化的研究，且现有技术的匹配分词方式较为单一，难以针对海量医疗大数据进行准确的标准化处理。

发明内容

本发明的实施例提供一种医疗大数据的数据标准化处理方法及装置，以解决目前现有技术中还没有关于医疗大数据的自动术语标准化的研究，且现有技术的匹配分词方式较为单一，难以针对海量医疗大数据进行准确的标准化处理的问题。

为达到上述目的，本发明采用如下技术方案：

一种医疗大数据的数据标准化处理方法，包括：

获取原始数据中的待处理语句；

将所述待处理语句进行单字切分，确定待处理语句中的每个文字；

根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；

根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；

根据预先设置的医学本体术语抽词策略，对所述待处理语句进行抽词，确定第二组候选实体；

若第一组候选实体和第二组候选实体不相同，根据预先设置的判断策略从第一组候选实体和第二组候选实体中确定待处理语句中的实体，并确定实体类型；

根据预先设置的句法分析筛选规则，对待处理语句中的实体进行筛选，确定待处理语句中的候选标准化术语，并根据所述实体类型确定候选标准化术语类型；

将所述待处理语句中的候选标准化术语与预先设置的医学本体术语库进行匹配；

若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型；

若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，则根据候选标准化术语类型，生成匹配失败问题报告或者对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配；

若进行模糊匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。

具体的，所述根据预先设置的判断策略从第一组候选实体和第二组候选实体中确定待处理语句中的实体，并确定实体类型，包括：

确定来源于相同待处理语句的原始字符串的第一组候选实体和第二组候选实体中，实体个数少，且实体包含的字符数多的一组实体作为待处理语句中的实体；

在所述第一组候选实体和第二组候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述原始数据包括结构化数据、半结构化数据或非结构化数据；所述结构化数据包括医疗结算单数据、网络医疗文本数据、医疗知识库数据以及医疗文献库数据；所述非结构化数据包括电子病例数据和健康档案数据。

具体的，根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列，包括：

从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值；

根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j；

将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

具体的，根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体，包括：

在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

进一步的，所述医疗大数据的数据标准化处理方法，还包括：

在所述待处理语句未在预先设置的语料库中被标注，根据公式：确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率；

将待处理语句中不确定值为1的实体与预先设置的医学本体库匹配，若匹配成功，则将匹配成功的实体的实体标记进行保存；

确定待处理语句的预测置信度和字典匹配标记的实体比例；

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新；

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积；

所述字典匹配标记的实体比例为：其中，C为待处理语句中预测出的实体总数中出现在预设字典中的实体数；B为待处理语句中预测出的实体总数。

具体的，所述根据预先设置的医学本体术语抽词策略，对所述待处理语句进行抽词，确定第二组候选实体，包括：

将所述待处理语句采用逆向最大匹配原则与预先设置的医学本体术语库进行匹配，将所述待处理语句中与医学本体术语库中的标准术语名称或同义词相匹配的字符串抽出，作为第二组候选实体，并将所述标准术语名称或同义词所对应的术语类型作为第二组候选实体的实体类型。

具体的，根据预先设置的句法分析筛选规则，对待处理语句中的实体进行筛选，确定待处理语句中的候选标准化术语，并根据所述实体类型确定候选标准化术语类型，包括：

判断待处理语句是否满足预先设置的句法结构；

在待处理语句满足预先设置的句法结构时，将待处理语句中的实体舍弃；

在待处理语句不满足预先设置的句法结构时，判断待处理语句中的实体的实体类型是否包括药品的剂型实体、规格实体或者包材实体；

若待处理语句中的实体的实体类型包括药品的剂型实体、规格实体或者包材实体，且待处理语句中的实体还包括药品名称实体，则将药品的剂型实体、规格实体或者包材实体保留；

若待处理语句中的实体的实体类型包括药品的剂型实体、规格实体或者包材实体，且待处理语句中的实体未包括药品名称实体，则将药品的剂型实体、规格实体以及包材实体舍弃。

具体的，所述预先设置的医学本体术语库包括诊断词表、诊疗词表、药品名称表、药品大概念表、剂型表、规格表、包装规格表、包材表和生产企业表；

将所述待处理语句中的候选标准化术语与预先设置的医学本体术语库进行匹配，包括：

将待处理语句中的候选标准化术语与诊断词表、诊疗词表、药品名称表、药品大概念表、剂型表、规格表、包装规格表、包材表和生产企业表依次进行匹配。

进一步的，所述的医疗大数据的数据标准化处理方法，还包括：

若待处理语句中被确定的标准化术语的标准化术语类型为产品名或商品名类型，通过预先设置的药品名称转换表将所述产品名或商品名类型对应的标准化术语转换为标准通用名。

若待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名、剂型、规格、包装规格、包材和生产企业类型，则将药品的通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语与预先设置的药品表中的通用名、剂型、规格、包装规格、包材以及生产企业字段匹配，并在匹配成功后将药品通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语确定为标准化结果；

若待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名和剂型，则将所述药品的通用名和剂型对应的标准化术语与预先设置的通用名加剂型加给药途径表进行匹配，并在匹配成功后将所述药品的通用名和剂型对应的标准化术语确定为标准化结果。

具体的，对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配，包括：

判断匹配失败且术语类型为疾病类的候选标准化术语中是否包括预先设置的可删减字符；所述可删减字符包括疾病限定词、解剖词、微生物词、标点符号；

若匹配失败且术语类型为疾病类的候选标准化术语中包括预先设置的可删减字符，则将匹配失败且术语类型为疾病类的候选标准化术语中的可删减字符删除，再与预先设置的医学本体术语库进行匹配。

一种医疗大数据的数据标准化处理装置，包括：

待处理语句获取单元，用于获取原始数据中的待处理语句；

单字切分单元，用于将所述待处理语句进行单字切分，确定待处理语句中的每个文字；

实体标记序列确定单元，用于根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；

第一组候选实体确定单元，用于根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；

第二组候选实体确定单元，用于根据预先设置的医学本体术语抽词策略，对所述待处理语句进行抽词，确定第二组候选实体；

待处理语句实体确定单元，用于在第一组候选实体和第二组候选实体不相同，根据预先设置的判断策略从第一组候选实体和第二组候选实体中确定待处理语句中的实体，并确定实体类型；

候选标准化术语确定单元，用于根据预先设置的句法分析筛选规则，对待处理语句中的实体进行筛选，确定待处理语句中的候选标准化术语，并根据所述实体类型确定候选标准化术语类型；

医学本体术语库匹配单元，用于将所述待处理语句中的候选标准化术语与预先设置的医学本体术语库进行匹配；

标准化术语确定单元，用于在所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功，将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型；

匹配失败处理单元，用于在所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，根据候选标准化术语类型，生成匹配失败问题报告或者对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配；在进行模糊匹配成功，将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。

具体的，所述待处理语句实体确定单元，包括：

待处理语句实体确定模块，用于确定来源于相同待处理语句的原始字符串的第一组候选实体和第二组候选实体中，实体个数少，且实体包含的字符数多的一组实体作为待处理语句中的实体；

实体类型确定模块，用于在所述第一组候选实体和第二组候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述待处理语句获取单元获取的原始数据包括结构化数据、半结构化数据或非结构化数据；所述结构化数据包括医疗结算单数据、网络医疗文本数据、医疗知识库数据以及医疗文献库数据；所述非结构化数据包括电子病例数据和健康档案数据。

具体的，所述实体标记序列确定单元，包括：

CRF统计特征值提取模块，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值；

训练模型确定模块，用于根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

实体标记计算模块，用于根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j；

实体标记序列确定模块，用于将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

此外，所述第一组候选实体确定单元，具体用于：

进一步的，所述的医疗大数据的数据标准化处理装置，还包括语料库更新单元，用于：

确定待处理语句的预测置信度和字典匹配标记的实体比例；

此外，所述第二组候选实体确定单元，具体用于：

具体的，所述候选标准化术语确定单元，包括：

句法分析模块，用于判断待处理语句是否满足预先设置的句法结构；

实体舍弃模块，用于在待处理语句满足预先设置的句法结构时，将待处理语句中的实体舍弃；

实体类型判断模块，用于在待处理语句不满足预先设置的句法结构时，判断待处理语句中的实体的实体类型是否包括药品的剂型实体、规格实体或者包材实体；

实体筛选模块，用于在待处理语句中的实体的实体类型包括药品的剂型实体、规格实体或者包材实体，且待处理语句中的实体还包括药品名称实体，则将药品的剂型实体、规格实体或者包材实体保留；在待处理语句中的实体的实体类型包括药品的剂型实体、规格实体或者包材实体，且待处理语句中的实体未包括药品名称实体，则将药品的剂型实体、规格实体以及包材实体舍弃。

此外，所述医学本体术语库匹配单元中的预先设置的医学本体术语库包括诊断词表、诊疗词表、药品名称表、药品大概念表、剂型表、规格表、包装规格表、包材表和生产企业表；

所述医学本体术语库匹配单元，具体用于：

进一步的，所述的医疗大数据的数据标准化处理装置，还包括：

标准通用名转化单元，用于在待处理语句中被确定的标准化术语的标准化术语类型为产品名或商品名类型时，通过预先设置的药品名称转换表将所述产品名或商品名类型对应的标准化术语转换为标准通用名。

进一步的，所述的医疗大数据的数据标准化处理装置，还包括标准化结果确定单元，用于在待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名、剂型、规格、包装规格、包材和生产企业类型时，将药品的通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语与预先设置的药品表中的通用名、剂型、规格、包装规格、包材以及生产企业字段匹配，并在匹配成功后将药品通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语确定为标准化结果；在待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名和剂型，将所述药品的通用名和剂型对应的标准化术语与预先设置的通用名加剂型加给药途径表进行匹配，并在匹配成功后将所述药品的通用名和剂型对应的标准化术语确定为标准化结果。

具体的，所述匹配失败处理单元，包括：

可删减字符判断模块，用于判断匹配失败且术语类型为疾病类的候选标准化术语中是否包括预先设置的可删减字符；所述可删减字符包括疾病限定词、解剖词、微生物词、标点符号；

可删减字符删除模块，用于在匹配失败且术语类型为疾病类的候选标准化术语中包括预先设置的可删减字符时，将匹配失败且术语类型为疾病类的候选标准化术语中的可删减字符删除，再与预先设置的医学本体术语库进行匹配。

本发明实施例提供的一种医疗大数据的数据标准化处理方法及装置，首先获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；根据预先设置的医学本体术语抽词策略，对所述待处理语句进行抽词，确定第二组候选实体；若第一组候选实体和第二组候选实体不相同，根据预先设置的判断策略从第一组候选实体和第二组候选实体中确定待处理语句中的实体，并确定实体类型；根据预先设置的句法分析筛选规则，对待处理语句中的实体进行筛选，确定待处理语句中的候选标准化术语，并根据所述实体类型确定候选标准化术语类型；将所述待处理语句中的候选标准化术语与预先设置的医学本体术语库进行匹配；若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型；若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，则根据候选标准化术语类型，生成匹配失败问题报告或者对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配；若进行模糊匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。这样，采用本发明医疗大数据的数据标准化处理，可以实现医疗大数据的自动术语标准化，且匹配过程采用了句法分析、基于机器学习的实体识别、基于医学本体的匹配以及模糊匹配的方式，避免了现有技术的匹配分词方式较为单一，难以针对海量医疗大数据进行准确的标准化处理的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种医疗大数据的数据标准化处理方法的流程图一；

图2为本发明实施例提供的一种医疗大数据的数据标准化处理方法的流程图二的A部分；

图3为本发明实施例提供的一种医疗大数据的数据标准化处理方法的流程图二的B部分；

图4为本发明实施例提供的一种医疗大数据的数据标准化处理装置的结构示意图一；

图5为本发明实施例提供的一种医疗大数据的数据标准化处理装置的结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种医疗大数据的数据标准化处理方法，包括：

步骤101、获取原始数据中的待处理语句。

步骤102、将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

步骤103、根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列。

步骤104、根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体。

步骤105、根据预先设置的医学本体术语抽词策略，对所述待处理语句进行抽词，确定第二组候选实体。

步骤106、若第一组候选实体和第二组候选实体不相同，根据预先设置的判断策略从第一组候选实体和第二组候选实体中确定待处理语句中的实体，并确定实体类型。

步骤107、根据预先设置的句法分析筛选规则，对待处理语句中的实体进行筛选，确定待处理语句中的候选标准化术语，并根据所述实体类型确定候选标准化术语类型。

步骤108、将所述待处理语句中的候选标准化术语与预先设置的医学本体术语库进行匹配。

在步骤108之后执行步骤109或者步骤110。

步骤109、若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。

步骤110、若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，则根据候选标准化术语类型，生成匹配失败问题报告或者对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配。

在步骤110之后，执行步骤111。

步骤111、若进行模糊匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。

本发明实施例提供的一种医疗大数据的数据标准化处理方法，首先获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；根据预先设置的医学本体术语抽词策略，对所述待处理语句进行抽词，确定第二组候选实体；若第一组候选实体和第二组候选实体不相同，根据预先设置的判断策略从第一组候选实体和第二组候选实体中确定待处理语句中的实体，并确定实体类型；根据预先设置的句法分析筛选规则，对待处理语句中的实体进行筛选，确定待处理语句中的候选标准化术语，并根据所述实体类型确定候选标准化术语类型；将所述待处理语句中的候选标准化术语与预先设置的医学本体术语库进行匹配；若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型；若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，则根据候选标准化术语类型，生成匹配失败问题报告或者对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配；若进行模糊匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。这样，采用本发明医疗大数据的数据标准化处理，可以实现医疗大数据的自动术语标准化，且匹配过程采用了句法分析、基于机器学习的实体识别、基于医学本体的匹配以及模糊匹配的方式，避免了现有技术的匹配分词方式较为单一，难以针对海量医疗大数据进行准确的标准化处理的问题。

为了使本领域的技术人员更好的了解本发明，下面结合具体的实例来说明本发明。如图2和图3所示(其中，图2为一种医疗大数据的数据标准化处理方法的A部分，图3为一种医疗大数据的数据标准化处理方法的B部分，此处分为A、B部分是由于本发明实施例的步骤较多，并非表示实际意义上的区别，A部分与B部分形成整个步骤201至步骤224，其中图2示出了步骤201至步骤212，图3示出了步骤213至步骤224。)，本发明实施例提供一种医疗大数据的数据标准化处理方法，包括：

步骤201、获取原始数据中的待处理语句。

具体的，所述原始数据包括结构化数据、半结构化数据或非结构化数据；所述结构化数据包括医疗结算单数据、网络医疗文本数据、医疗知识库数据以及医疗文献库数据；所述非结构化数据包括电子病例数据和健康档案数据等，但不仅局限于此。

步骤202、将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

例如，待处理语句为“高血压如何治疗”，则单字切分后，每个文字为：“高”“血”“压”“如”“何”“治”“疗”。

步骤203、从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值。

所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。

对于预先设置的语料库可以由人为预先标注，例如语句：

“高血压能否吃华法林？

高血压怎么治疗？”

则对于实体，可以标注出：

c＝高血压 P＝1:0 1:2 t＝疾病

c＝华法林 P＝1:6 1:8 t＝药品

c＝高血压 P＝2:0 2:2 t＝疾病

其中，c表示实体，P表示实体所在语料中句子的行号及句子中字符位置，t表示实体类别。

对于CRF统计特征值，例如语句“高血压怎么治疗？”，其实体标记序列为“BIEOOOOO”。例如，对于“压”字，CRF统计特征说明如下表1所示：

表1：

步骤204、根据每个字在各语句中的CRF统计特征值，确定一训练模型。

其中，所述训练模型为：

步骤205、根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j。

其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数，训练得到的模型参数可使句子的训练模型p(y|x)的和达到最大；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

对于f_i(y_j,y_j-1,x)，其表示若y_j、y_j-1、x均出现在语料中，则f_i(y_j,y_j-1,x)＝1，否则为0。

步骤206、将每个文字的实体标记进行组合，形成待处理语句的实体标记序列。

例如语句“高血压怎么治疗？”，其实体标记序列为“BIEOOOOO”。

步骤207、在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

例如，对于“高血压怎么治疗？”，其实体标记序列为“BIEOOOOO”，因此，可识别出第一组候选实体为“高血压”。

步骤208、将所述待处理语句采用逆向最大匹配原则与预先设置的医学本体术语库进行匹配，将所述待处理语句中与医学本体术语库中的标准术语名称或同义词相匹配的字符串抽出，作为第二组候选实体，并将所述标准术语名称或同义词所对应的术语类型作为第二组候选实体的实体类型。

此处，预先设置的医学本体术语库可以包括如疾病本体术语，症状体征本体术语，手术操作本体术语，检查检验本体术语，一般诊疗本体术语，药品相关本体术语(名称、剂型、规格)，耗材本体术语，保健食品本体术语，企业机构本体术语等。

而将所述标准术语名称或同义词所对应的术语类型作为第二组候选实体的实体类型，是例如：与疾病本体匹配成功，则第二组候选实体的实体类型为疾病，与药品的规格实体匹配成功，则第二组候选实体的实体类型为规格，与药品的包装规格匹配成功，则第二组候选实体的实体类型为包装规格。

步骤209、确定来源于相同待处理语句的原始字符串的第一组候选实体和第二组候选实体中，实体个数少，且实体包含的字符数多的一组实体作为待处理语句中的实体。

步骤210、在所述第一组候选实体和第二组候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

例如，原始数据为“患者患有高血压(3级)，正服用高血压速降丸”。

第一组候选实体为“高血压(3级)【疾病】高血压速降丸【药品】”；

第二组候选实体为“高血压【疾病】高血压速降丸【药品】”；

则，最终结果为“高血压(3级)【疾病】高血压速降丸【药品】”。

另外，为了实现对语料库进行更新，可以由人工总结发现新的句型特征，并人工标注加入到语料库中；另外，还可以在所述待处理语句未在预先设置的语料库中被标注，根据公式：确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率。

例如，“1级高血压吃什么好？”，实体标记序列为“O O B I E O O O OO”，位置序列为“0 1 2 3 4 5 6 7 8 9”，看出实体为“高血压”，位置为“2 3 4”，因此，Kstart为2，Kend为4。

将待处理语句中不确定值为1的实体与预先设置的医学本体库匹配，若匹配成功，则将匹配成功的实体的实体标记进行保存。

确定待处理语句的预测置信度和字典匹配标记的实体比例。

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新。

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积。

可见，通过语料库的更新，可以实现实体识别所需语料数据利用半监督自学习方法，实现语料库不断丰富，解决了语料库数目不足、不完整的问题。

步骤211、判断待处理语句是否满足预先设置的句法结构。

此处，预先设置的句法结构可以记录于句法结构表中，如下表2所示：

表2

句法结构模式	待处理语句举例
		否认…..病史/接触史/接种史	否认高血压、糖尿病和卒中病史
无…..史	无输血史
		无…..病史	无肝炎、结核等传染病及遗传病史
无…..	无发热、黄疸
		无重大….史	无重大手术史
….未见异常	尿常规未见异常
		……无明显异常

步骤212、在待处理语句满足预先设置的句法结构时，将待处理语句中的实体舍弃。

步骤213、在待处理语句不满足预先设置的句法结构时，判断待处理语句中的实体的实体类型是否包括药品的剂型实体、规格实体或者包材实体。

在步骤213之后，执行步骤214或者步骤215。

步骤214、若待处理语句中的实体的实体类型包括药品的剂型实体、规格实体或者包材实体，且待处理语句中的实体还包括药品名称实体，则将药品的剂型实体、规格实体或者包材实体保留。

步骤215、若待处理语句中的实体的实体类型包括药品的剂型实体、规格实体或者包材实体，且待处理语句中的实体未包括药品名称实体，则将药品的剂型实体、规格实体以及包材实体舍弃。

此处，由于待处理语句中的实体若未包括药品名称实体，则药品的剂型实体、规格实体以及包材实体可能不具备实际意义，需要舍弃。

在步骤214和步骤215之后继续执行步骤216。

步骤216、将所述待处理语句中的候选标准化术语与预先设置的医学本体术语库进行匹配。

此处，所述预先设置的医学本体术语库可以包括诊断词表、诊疗词表、药品名称表、药品大概念表、剂型表、规格表、包装规格表、包材表和生产企业表，但不仅仅局限于此。需要知道的是医学本体术语库的内容众多，还可以包括如科室词表、药品名称转换表、药品制剂表、Drug(药品)信息标准表等。

例如，下面列举几种预先设置的医学本体术语库中的词表。

表3，诊断词表：

表4，诊疗词表：

表5，科室词表：

表6，Drug(药品)信息标准表

值得说明的是，上述表3至表6仅仅为了说明医学本体术语库中的词表的内容，其并非医学本体术语库的全部内容。

此处可以采用依次匹配的方式，如首先与诊断词表匹配，匹配成功的输出标准化术语，匹配不成功则调用诊断NLP模糊匹配接口，进行模糊匹配，判断模糊匹配结果是否唯一，如果唯一，输出匹配出的标准化术语及术语类型(例如疾病或/和症状)，如果不唯一则继续进行下一步匹配。下一步匹配中，与诊疗词表匹配，匹配成功则输出标准化术语及术语类型(如诊疗)作为标化结果，不成功进入下一步匹配。以此类推，直至与药品名称表、药品大概念表、剂型表、规格表、包装规格表、包材表和生产企业表依次匹配完毕。

在步骤216之后，执行步骤217或者步骤221，或者步骤222。

步骤217、若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。

步骤218、若待处理语句中被确定的标准化术语的标准化术语类型为产品名或商品名类型，通过预先设置的药品名称转换表将所述产品名或商品名类型对应的标准化术语转换为标准通用名。

步骤219、若待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名、剂型、规格、包装规格、包材和生产企业类型，则将药品的通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语与预先设置的药品表(drug表)中的通用名、剂型、规格、包装规格、包材以及生产企业字段匹配，并在匹配成功后将药品通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语确定为标准化结果。

步骤220、若待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名和剂型，则将所述药品的通用名和剂型对应的标准化术语与预先设置的通用名加剂型加给药途径表进行匹配，并在匹配成功后将所述药品的通用名和剂型对应的标准化术语确定为标准化结果。

步骤221、若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，且候选标准化术语类型不是诊断类术语，生成匹配失败问题报告。

所述匹配失败问题报告的目的是便于后续人工处理来完成标准化术语的识别和处理。

步骤222、若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，且术语类型为疾病类，判断匹配失败且术语类型为疾病类的候选标准化术语中是否包括预先设置的可删减字符。

所述可删减字符包括疾病限定词、解剖词、微生物词、标点符号。

步骤223、若匹配失败且术语类型为疾病类的候选标准化术语中包括预先设置的可删减字符，则将匹配失败且术语类型为疾病类的候选标准化术语中的可删减字符删除，再与预先设置的医学本体术语库进行匹配。

例如匹配失败且术语类型为疾病类的候选标准化术语为“血压高(3级)”，在医学本体中存在同义词“高血压”，对应标准词为“高血压病”，则模糊匹配后的结果为“高血压病”，术语类型为“疾病”。此处需要将(3级)删除，再与预先设置的医学本体术语库进行匹配。

步骤224、若进行模糊匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。

通过上述步骤201至步骤224，可以实现医疗大数据中，数据的标准化，例如：

标准化的效果展示可以如下表7所示：

表7：

对应于上述图1、图2和图3所示的方法实施例，如图4所示，本发明实施例提供一种医疗大数据的数据标准化处理装置，包括：

待处理语句获取单元31，用于获取原始数据中的待处理语句。

单字切分单元32，用于将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

实体标记序列确定单元33，用于根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列。

第一组候选实体确定单元34，用于根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体。

第二组候选实体确定单元35，用于根据预先设置的医学本体术语抽词策略，对所述待处理语句进行抽词，确定第二组候选实体。

待处理语句实体确定单元36，用于在第一组候选实体和第二组候选实体不相同，根据预先设置的判断策略从第一组候选实体和第二组候选实体中确定待处理语句中的实体，并确定实体类型。

候选标准化术语确定单元37，用于根据预先设置的句法分析筛选规则，对待处理语句中的实体进行筛选，确定待处理语句中的候选标准化术语，并根据所述实体类型确定候选标准化术语类型。

医学本体术语库匹配单元38，用于将所述待处理语句中的候选标准化术语与预先设置的医学本体术语库进行匹配。

标准化术语确定单元39，用于在所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功，将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。

匹配失败处理单元40，用于在所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，根据候选标准化术语类型，生成匹配失败问题报告或者对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配；在进行模糊匹配成功，将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。

具体的，如图5所示，所述待处理语句实体确定单元36，包括：

待处理语句实体确定模块361，用于确定来源于相同待处理语句的原始字符串的第一组候选实体和第二组候选实体中，实体个数少，且实体包含的字符数多的一组实体作为待处理语句中的实体。

实体类型确定模块362，用于在所述第一组候选实体和第二组候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述待处理语句获取单元31获取的原始数据包括结构化数据、半结构化数据或非结构化数据；所述结构化数据包括医疗结算单数据、网络医疗文本数据、医疗知识库数据以及医疗文献库数据；所述非结构化数据包括电子病例数据和健康档案数据。

具体的，如图5所示，所述实体标记序列确定单元33，包括：

CRF统计特征值提取模块331，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。

训练模型确定模块332，用于根据每个字在各语句中的CRF统计特征值，确定一训练模型。所述训练模型为：

实体标记计算模块333，用于根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j。

实体标记序列确定模块334，用于将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

此外，所述第一组候选实体确定单元34，具体用于：在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

进一步的，如图5所示，所述的医疗大数据的数据标准化处理装置，还包括语料库更新单元41，用于：

在所述待处理语句未在预先设置的语料库中被标注，根据公式：确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率。

确定待处理语句的预测置信度和字典匹配标记的实体比例。

此外，所述第二组候选实体确定单元35，具体用于：

具体的，如图5所示，所述候选标准化术语确定单元37，包括：

句法分析模块371，用于判断待处理语句是否满足预先设置的句法结构。

实体舍弃模块372，用于在待处理语句满足预先设置的句法结构时，将待处理语句中的实体舍弃。

实体类型判断模块373，用于在待处理语句不满足预先设置的句法结构时，判断待处理语句中的实体的实体类型是否包括药品的剂型实体、规格实体或者包材实体。

实体筛选模块374，用于在待处理语句中的实体的实体类型包括药品的剂型实体、规格实体或者包材实体，且待处理语句中的实体还包括药品名称实体，则将药品的剂型实体、规格实体或者包材实体保留；在待处理语句中的实体的实体类型包括药品的剂型实体、规格实体或者包材实体，且待处理语句中的实体未包括药品名称实体，则将药品的剂型实体、规格实体以及包材实体舍弃。

此外，所述医学本体术语库匹配单元38中的预先设置的医学本体术语库包括诊断词表、诊疗词表、药品名称表、药品大概念表、剂型表、规格表、包装规格表、包材表和生产企业表。

所述医学本体术语库匹配单元38，具体用于：

进一步的，如图5所示，所述的医疗大数据的数据标准化处理装置，还包括：

标准通用名转化单元42，用于在待处理语句中被确定的标准化术语的标准化术语类型为产品名或商品名类型时，通过预先设置的药品名称转换表将所述产品名或商品名类型对应的标准化术语转换为标准通用名。

进一步的，如图5所示，所述的医疗大数据的数据标准化处理装置，还包括标准化结果确定单元43，用于在待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名、剂型、规格、包装规格、包材和生产企业类型时，将药品的通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语与预先设置的药品表中的通用名、剂型、规格、包装规格、包材以及生产企业字段匹配，并在匹配成功后将药品通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语确定为标准化结果；在待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名和剂型，将所述药品的通用名和剂型对应的标准化术语与预先设置的通用名加剂型加给药途径表进行匹配，并在匹配成功后将所述药品的通用名和剂型对应的标准化术语确定为标准化结果。

具体的如图5所示，所述匹配失败处理单元40，包括：

可删减字符判断模块401，用于判断匹配失败且术语类型为疾病类的候选标准化术语中是否包括预先设置的可删减字符；所述可删减字符包括疾病限定词、解剖词、微生物词、标点符号。

可删减字符删除模块402，用于在匹配失败且术语类型为疾病类的候选标准化术语中包括预先设置的可删减字符时，将匹配失败且术语类型为疾病类的候选标准化术语中的可删减字符删除，再与预先设置的医学本体术语库进行匹配。

值得说明的是，本发明实施例提供的一种医疗大数据的数据标准化处理装置的具体实现方式可以参见上述图1至图3所对应的方法实施例，此处不再赘述。

本发明实施例提供的一种医疗大数据的数据标准化处理装置，首先获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；根据预先设置的医学本体术语抽词策略，对所述待处理语句进行抽词，确定第二组候选实体；若第一组候选实体和第二组候选实体不相同，根据预先设置的判断策略从第一组候选实体和第二组候选实体中确定待处理语句中的实体，并确定实体类型；根据预先设置的句法分析筛选规则，对待处理语句中的实体进行筛选，确定待处理语句中的候选标准化术语，并根据所述实体类型确定候选标准化术语类型；将所述待处理语句中的候选标准化术语与预先设置的医学本体术语库进行匹配；若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型；若所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，则根据候选标准化术语类型，生成匹配失败问题报告或者对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配；若进行模糊匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型。这样，采用本发明医疗大数据的数据标准化处理，可以实现医疗大数据的自动术语标准化，且匹配过程采用了句法分析、基于机器学习的实体识别、基于医学本体的匹配以及模糊匹配的方式，避免了现有技术的匹配分词方式较为单一，难以针对海量医疗大数据进行准确的标准化处理的问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种医疗大数据的数据标准化处理方法，其特征在于，包括：

获取原始数据中的待处理语句；

若进行模糊匹配成功，则将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型；

所述根据预先设置的判断策略从第一组候选实体和第二组候选实体中确定待处理语句中的实体，并确定实体类型，包括：

在所述第一组候选实体和第二组候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型；

根据预先设置的医学本体术语抽词策略，对所述待处理语句进行抽词，确定第二组候选实体，包括：

将所述待处理语句采用逆向最大匹配原则与预先设置的医学本体术语库进行匹配，将所述待处理语句中与医学本体术语库中的标准术语名称或同义词相匹配的字符串抽出，作为第二组候选实体，并将所述标准术语名称或同义词所对应的术语类型作为第二组候选实体的实体类型；

根据预先设置的句法分析筛选规则，对待处理语句中的实体进行筛选，确定待处理语句中的候选标准化术语，并根据所述实体类型确定候选标准化术语类型，包括：

判断待处理语句是否满足预先设置的句法结构；

2.根据权利要求1所述的医疗大数据的数据标准化处理方法，其特征在于，所述原始数据包括结构化数据、半结构化数据或非结构化数据；所述结构化数据包括医疗结算单数据、网络医疗文本数据、医疗知识库数据以及医疗文献库数据；所述非结构化数据包括电子病例数据和健康档案数据。

3.根据权利要求2所述的医疗大数据的数据标准化处理方法，其特征在于，根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列，包括：

4.根据权利要求3所述的医疗大数据的数据标准化处理方法，其特征在于，根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体，包括：

5.根据权利要求4所述的医疗大数据的数据标准化处理方法，其特征在于，还包括：

确定待处理语句的预测置信度和字典匹配标记的实体比例；

6.根据权利要求1所述的医疗大数据的数据标准化处理方法，其特征在于，所述预先设置的医学本体术语库包括诊断词表、诊疗词表、药品名称表、药品大概念表、剂型表、规格表、包装规格表、包材表和生产企业表；

7.根据权利要求6所述的医疗大数据的数据标准化处理方法，其特征在于，还包括：

8.根据权利要求7所述的医疗大数据的数据标准化处理方法，其特征在于，还包括：

9.根据权利要求8所述的医疗大数据的数据标准化处理方法，其特征在于，对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配，包括：

10.一种医疗大数据的数据标准化处理装置，其特征在于，包括：

待处理语句获取单元，用于获取原始数据中的待处理语句；

匹配失败处理单元，用于在所述待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配失败，根据候选标准化术语类型，生成匹配失败问题报告或者对匹配失败且术语类型为疾病类的候选标准化术语根据预先设置的模糊匹配策略，进行模糊匹配；在进行模糊匹配成功，将所述待处理语句中的候选标准化术语确定为标准化术语，并根据候选标准化术语类型确定标准化术语类型；

所述待处理语句实体确定单元，包括：

实体类型确定模块，用于在所述第一组候选实体和第二组候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型；

所述第二组候选实体确定单元，具体用于：

候选标准化术语确定单元，包括：

实体类型判断模块，用于在待处理语句不满足预先设置的句法结构，判断待处理语句中的实体的实体类型是否包括药品的剂型实体、规格实体或者包材实体；

11.根据权利要求10所述的医疗大数据的数据标准化处理装置，其特征在于，所述待处理语句获取单元获取的原始数据包括结构化数据、半结构化数据或非结构化数据；所述结构化数据包括医疗结算单数据、网络医疗文本数据、医疗知识库数据以及医疗文献库数据；所述非结构化数据包括电子病例数据和健康档案数据。

12.根据权利要求11所述的医疗大数据的数据标准化处理装置，其特征在于，所述实体标记序列确定单元，包括：

13.根据权利要求12所述的医疗大数据的数据标准化处理装置，其特征在于，所述第一组候选实体确定单元，具体用于：

14.根据权利要求13所述的医疗大数据的数据标准化处理装置，其特征在于，还包括语料库更新单元，用于：

确定待处理语句的预测置信度和字典匹配标记的实体比例；

15.根据权利要求10所述的医疗大数据的数据标准化处理装置，其特征在于，所述医学本体术语库匹配单元中的预先设置的医学本体术语库包括诊断词表、诊疗词表、药品名称表、药品大概念表、剂型表、规格表、包装规格表、包材表和生产企业表；

所述医学本体术语库匹配单元，具体用于：

16.根据权利要求15所述的医疗大数据的数据标准化处理装置，其特征在于，还包括：

17.根据权利要求16所述的医疗大数据的数据标准化处理装置，其特征在于，还包括标准化结果确定单元，用于在待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名、剂型、规格、包装规格、包材和生产企业类型时，将药品的通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语与预先设置的药品表中的通用名、剂型、规格、包装规格、包材以及生产企业字段匹配，并在匹配成功后将药品通用名、剂型、规格、包装规格、包材和生产企业类型分别对应的标准化术语确定为标准化结果；在待处理语句中被确定的标准化术语的标准化术语类型包括药品的通用名和剂型，将所述药品的通用名和剂型对应的标准化术语与预先设置的通用名加剂型加给药途径表进行匹配，并在匹配成功后将所述药品的通用名和剂型对应的标准化术语确定为标准化结果。

18.根据权利要求17所述的医疗大数据的数据标准化处理装置，其特征在于，所述匹配失败处理单元，包括：