CN109256216B

CN109256216B - 医学数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN109256216B
Application number: CN201810924547.9A
Authority: CN
Inventors: 王玉婷; 胡雪莹; 胡帆
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2023-06-27
Anticipated expiration: 2038-08-14
Also published as: CN109256216A

Abstract

本申请涉及一种基于自然语言处理的医学数据处理方法、装置、计算机设备和存储介质。所述方法包括：获取待多个待处理医学数据，从每个待处理医学数据中提取待处理医学词语；对每个待处理医学词语进行匹配，得到多个匹配子词语；获取与每个匹配子词语对应的目标子编码；将对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码；获取终端发送的查询请求；查询请求携带了查询条件；查询与查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至终端。采用本方法能够提高医学数据查询全面性。

Description

医学数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种医学数据处理方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，医学数据的类型变得复杂且医学数据的数据量也十分庞大。然而，医学数据受医生习惯等多种因素影响，相同的医学词语在不同的医学数据中表达结果千变万化。传统方式中，医学数据仅仅是堆砌存储在数据库中，当需要通过医学词语对数据库中的医学数据进行查询时，难以查询到全面的相关医学数据。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高医学数据查询全面性的医学数据处理方法、装置、计算机设备和存储介质。

一种医学数据处理方法，所述方法包括：获取待多个待处理医学数据，从每个所述待处理医学数据中提取待处理医学词语；对每个所述待处理医学词语进行匹配，得到多个匹配子词语；获取与每个所述匹配子词语对应的目标子编码；将对应每个所述匹配子词语的目标子编码进行拼装，得到与所述待处理医学词语对应的目标编码；获取终端发送的查询请求；所述查询请求携带了查询条件；查询与所述查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至所述终端。

在其中一个实施例中，所述对每个所述待处理医学词语进行匹配，得到多个匹配子词语，包括：对每个所述待处理医学词语进行拆词，得到多个医学子词语；获取每个所述医学子词语所属的词语类型；在与所述词语类型对应的语义树上对每个所述医学子词语进行匹配，得到与每个所述医学子词语对应的匹配子词语。

在其中一个实施例中，所述在与所述词语类型对应的语义树上对每个所述医学子词语进行匹配，得到与每个所述医学子词语对应的匹配子词语，包括：获取与每个所述词语类型对应的语义树；根据每个所述医学子词语，遍历相应医学子词语所属的词语类型对应的语义树；每个所述语义树中包含多个语义节点词语；计算每个所述医学子词语与每个遍历的语义节点词语的匹配度；将最大匹配度对应的语义节点词语标记为与相应医学子词语对应的匹配子词语。

在其中一个实施例中，在所述计算每个所述医学子词语与每个遍历的语义节点词语的匹配度之后，还包括：获取与每个所述词语类型对应的词语权重；根据每个所述医学子词语对应的最大匹配度和与相应医学子词语所属的词语类型对应的词语权重，加权求和得到与所述待处理医学词语对应的词语相似度；当所述词语相似度大于预设阈值时，执行所述获取与每个所述匹配子词语对应的目标子编码的步骤；当所述词语相似度小于预设阈值时，将所述待处理医学数据发送至校验数据库。

在其中一个实施例中，所述获取待处理医学数据，从所述医学数据中提取待处理医学词语，包括：当所述待处理医学数据为扫描图像时，提取所述扫描图像的文本区域图像；对所述文本区域图像进行图像预处理，得到预处理图像；所述预处理图像中包含多个待识别字符；提取每个所述待识别字符相应的字符特征数据；将所述字符特征数据输入预设的文本识别模型，得到输出的识别后字符；拼接多个所述识别后字符得到待处理医学词语。

在其中一个实施例中，在所述将所述字符特征数据输入预设的文本识别模型，得到输出的待处理医学词语之前，还包括：获取多个训练文本图像以及与每个所述训练文本图像对应的目标字符；每个所述训练文本图像中包含待训练字符；获取包含初始模型参数的文本识别模型；根据所述多个训练文本图像以及与每个所述训练文本图像对应的目标字符，对所述包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型。

在其中一个实施例中，所述根据所述多个训练文本图像以及与每个所述训练文本图像对应的目标字符，对所述包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型，包括：提取每个所述训练文本图像的字符特征数据；将所述训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符；根据每个待验证字符与对应训练文本图像的目标字符计算所述文本识别模型的识别误差率；当所述识别误差率大于误差率阈值时，根据所述待验证字符与所述训练文本图像调整所述文本识别模型的模型参数，将调整后的模型参数作为初始模型参数，并返回将所述训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符的步骤继续训练，直至所述识别误差率小于误差率阈值；将最后一次调整后的模型参数作为所构建的文本识别模型的目标模型参数。

一种医学数据处理装置，所述装置包括：获取模块，用于获取待多个待处理医学数据，从每个所述待处理医学数据中提取待处理医学词语；匹配模块，用于对每个所述待处理医学词语进行匹配，得到多个匹配子词语；编码模块，用于获取与每个所述匹配子词语对应的目标子编码；将对应每个所述匹配子词语的目标子编码进行拼装，得到与所述待处理医学词语对应的目标编码；查询模块，用于获取终端发送的查询请求；所述查询请求携带了查询条件；查询与所述查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至所述终端。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各个实施例中所述的医学数据处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个实施例中所述的医学数据处理方法的步骤。

上述医学数据处理方法、装置、计算机设备和存储介质，服务器获取多个待处理数据，并从每个待处理医学数据中提取待处理医学词语。服务器对每个待处理医学词语匹配之后可得到多个匹配子词语，获取每个匹配子词语对应的目标子编码。通过将对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码。经过上述步骤相同含义不同表述的待处理医学词语也会由相同的目标编码进行映射。通过对待处理医学词语进行规范化的编码，使得终端进行查询的时候，服务器能够快速确定与查询条件匹配的目标编码，从而从数据库中获取与目标编码相应多种待处理医学词语对应的目标医学数据，并将目标医学数据发送至终端，提高了医学数据查询全面性。

附图说明

图1为一个实施例中医学数据处理方法的应用场景图；

图2为一个实施例中医学数据处理方法的流程示意图；

图3另一个实施例中医学数据处理方法的流程示意图；

图4为一个实施例中医学数据处理装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的医学数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104获取多个待处理医学数据，从每个待处理医学数据中提取一个或多个待处理医学词语之后，服务器104可对每个待处理医学词语进行匹配，得到多个匹配子词语。服务器104可获取与每个匹配子词语对应的目标子编码，对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码。服务器104在获取到终端102发送的查询请求之后，可根据查询请求携带的查询条件确定相应的目标编码，并根据目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至终端102。

在一个实施例中，如图2所示，提供了一种医学数据处理方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，获取待多个待处理医学数据，从每个待处理医学数据中提取待处理医学词语。

待处理医学数据是指需要进行处理的医学数据。其中，医学数据包括但不限于医疗诊断书、医学报告、病人病历，还可以是医生开具的纸质或电子处方等。待处理医学数据可以是由与服务器通信的多个终端上传至服务器的，也可以是服务器通过网络爬虫从网络中采集到的。待处理医学词语是指处于待处理医学数据中的医学用语。医学用语可以是疾病名称、药品名称、治疗方法等，但不限于此。

传统方式中，由于医生习惯、书写错误、翻译差异等多种因素影响，用于表达同一个含义的医学用语可在实际的待处理医学数据中可被表述为不同的待处理医学词语。比如说，“左示指粉碎性骨折”、“左侧食指粉碎性骨折”及“左手食指粉碎骨折”表达的实际是相同的含义，三者可为相同或不同的待处理医学数据中的待处理医学词语。但是若在检索医学数据的时候只根据关键词“左示指粉碎性骨折”进行检索，则无法查找到与“左侧食指粉碎性骨折”及“左手食指粉碎骨折”对应的医学数据，检索到的医学数据不够全面。

在一个实施例中，当待处理医学数据是扫描图像时，比如医生开具的纸质处方的扫描件，可通过OCR(Optical Character Recognition，光学字符识别)技术对扫描图像进行识别，生成电子文件之后，再从电子版的待处理医学数据中提取待处理医学词语。

步骤204，对每个待处理医学词语进行匹配，得到多个匹配子词语。

匹配子词语是指标准化的医学用语。可针对标准化的医学用语预先构建语义树，语义树中每个语义节点词语都是标准化的医学词语，比如说语义树可以是ICD(International Classification of Diseases，国际疾病分类)编码体系的语义树。如下表1所示，以针对部位“耳”的部分语义树进行举例：

表1

由上表可见，语义树可具有多层级结构，层级越高，则说明是对根节点对应的语义节点词语“耳”越细化表述的医学用语。

在一个实施例中，对每个待处理医学词语进行匹配，得到多个匹配子词语，包括：对每个待处理医学词语进行拆词，得到多个医学子词语；获取每个医学子词语所属的词语类型；在与词语类型对应的语义树上对每个医学子词语进行匹配，得到与每个医学子词语对应的匹配子词语。

医学子词语是指对待处理医学词语进行拆词之后得到的待处理的词语。举例来说，疾病名称通常由四类医学子词语构成，分别是方位、部位、程度、疾病。可针对每个类型的医学子词语预先构建语义树。当对待处理词语“左示指粉碎性骨折”进行拆词，比如可通过NLP(Neuro-Linguistic Programming，神经语言程序学)算法对待处理医学词语进行拆词。得到多个医学子词语分别是：“左”、“示指”、“粉碎性”、“骨折”。其中，“左”即对应方位，“示指”即对应部位，“粉碎性”即对应程度，“骨折”即对应疾病。可分别在方位对应的语义树上对“左”进行匹配，得到匹配子词语“左侧”；在部位对应的语义树上对“示指”进行匹配，得到匹配子词语“食指”；在程度对应的语义树上对“粉碎性”进行匹配，得到匹配子词语“粉碎性”；在疾病对应的语义树上对“骨折”进行匹配，得到匹配子词语“骨折”。

在一个实施例中，对每个待处理医学词语进行拆词，得到多个医学子词语，包括：对待处理医学词语进行正向匹配拆词，得到多个正向子词语；对待处理医学词语进行逆向匹配拆词，得到多个逆向子词语；将多个正向子词语与多个逆向子词语进行匹配，从多个正向子词语和多个逆向子词语中筛选出多个医学子词语。

可通过正向最大匹配中文分词算法对待处理医学词语进行正向匹配拆词，通过逆向最大匹配中文分词算法对待处理医学词语进行正逆向匹配拆词。可根据所拆分得到的多个正向子词语或多个逆向子词语分别对应的待处理医学数据的数量，从多个正向子词语和多个逆向子词语中筛选出多个医学子词语。

步骤206，获取与每个匹配子词语对应的目标子编码。

目标子编码是指对语义树上每个标准化的医学用语预设的编码。目标子编码可通过字母、数字、标点符号等其中一种或多种构成。比如，将疾病名称按方位、部位、程度、疾病等不同维度进行划分，且为每一维度赋予一种编码规律。方位对应的医学用语都通过“F”开头进行编码，部位对应的医学用语都通过“B”开头进行编码，程度对应的医学用语都通过“C”开头进行编码，疾病对应的医学用语都通过“J”开头进行编码。

在一个实施例中，一个待处理医学词语可在每个维度有一个或多个匹配子词语。比如说，待处理医学词语“糖尿病伴失明”对应的匹配子词语分别是“糖尿病”、“伴”、“失明”，“糖尿病”和“失明”都属于疾病维度。

步骤208，将对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码。

目标编码是指对待处理医学词语进行规范化之后的编码。多个表达相同含义的不同待处理医学词语可对应相同的目标编码。比如说，经过上述匹配及拼装之后，待处理医学词语“左示指粉碎性骨折”、“左侧食指粉碎性骨折”及“左手食指粉碎骨折”都可对应一个相同的目标编码。

举例来说，分别查找到“左侧”对应的目标子编码是“F001”，“食指”对应的目标子编码是“B001”，“粉碎性”对应的目标子编码是“C001”，“骨折”对应的目标子编码是“J001”之后，通过对“F001”、“B001”、“C001”、“J001”进行拼装，则得到与待处理医学词语“左示指粉碎性骨折”对应的目标编码是“F001B001C001J0001”。

步骤210，获取终端发送的查询请求；查询请求携带了查询条件。

查询请求是指终端发送的用于查询目标医学数据的请求。查询条件是指用于筛选出目标医学数据的条件。目标医学数据是指用户想要查询到的数据。查询条件可以是查询编码或查询词语等其中一种或多种的组合。

在一个实施例中，终端可提供一个数据查询界面，数据查询界面上可包含文本输入框、下拉选择框等输入控件以及确认查询控件。当用户通过输入控件输入了查询条件之后，比如输入查询编码之后，检测到作用于确认查询控件的点击操作时，则可根据该查询条件生成查询请求，终端还可将该查询请求发送至服务器。

步骤212，查询与查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至终端。

在一个实施例中，当查询条件为查询编码时，可直接查找与查询编码匹配的目标编码，并执行进一步的查询步骤；当查询条件为查询词语时，则可对查询词语进行匹配，得到多个查询词语的匹配子词语，获取与每个查询词语的匹配子词语对应的查询子编码，并对通过拼装获取的多个查询子编码，得到与查询词语对应的查询编码。

在一个实施例中，服务器可构建每个待处理医学词语与所确定的目标编码之间的映射关系，可生成映射表或索引文件等。还可以将每个处理后的医学数据上标记相应的目标编码。当需要查询目标医学数据时，可通过映射表或索引文件查询到与查询词语对应的目标编码，并查找标记有该目标编码的目标医学数据。

举例来说，待处理医学词语“左示指粉碎性骨折”、“左侧食指粉碎性骨折”及“左手食指粉碎骨折”都可对应一个相同的目标编码“F001B001C001J0001”。当查询请求携带的查询编码为“F001B001C001J0001”，则可查询与“左示指粉碎性骨折”、“左侧食指粉碎性骨折”及“左手食指粉碎骨折”对应的目标医学数据。

上述医学数据处理方法中，服务器获取多个待处理数据，并从每个待处理医学数据中提取待处理医学词语。服务器对每个待处理医学词语匹配之后可得到多个匹配子词语，获取每个匹配子词语对应的目标子编码。通过将对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码。经过上述步骤相同含义不同表述的待处理医学词语也会由相同的目标编码进行映射。通过对待处理医学词语进行规范化的编码，使得终端进行查询的时候，服务器能够快速确定与查询条件匹配的目标编码，从而从数据库中获取与目标编码相应多种待处理医学词语对应的目标医学数据，并将目标医学数据发送至终端，提高了医学数据查询全面性。

在一个实施例中，在与词语类型对应的语义树上对每个医学子词语进行匹配，得到与每个医学子词语对应的匹配子词语，包括：获取与每个词语类型对应的语义树；根据每个医学子词语，遍历相应医学子词语所属的词语类型对应的语义树；每个语义树中包含多个语义节点词语；计算每个医学子词语与每个遍历的语义节点词语的匹配度；将最大匹配度对应的语义节点词语标记为与相应医学子词语对应的匹配子词语。

针对每个词语类型可预先构建相应的语义树。比如针对部位，可构建如表1所示的语义树。通过计算医学子词语与在其所属词语类型对应的语义树上每个语义节点词语的匹配度，确定最匹配的匹配子词语。可通过基于同义词词典计算词语匹配度。

在一个实施例中，由于语义树可具有多层级结构，层级越高，则说明是对根节点对应的语义节点词语“耳”越细化表述的医学用语。比如匹配子词语为“外耳”和“耳蜗”所定位的词的精准性是不同的，“耳蜗”是相较于“外耳”更细化的医学词语。若都以相同的标准来确定匹配度，肯定会使得结果有偏差。因此需要对计算得到的匹配度进行修正。可基于路径计算词匹配度，针对每层级预设相应的层级权值。比如，五级为1、四级为0.95、三级为0.95、二级为0.85、一级为0.8。将初始的待处理医学词语中部位所对应的匹配子词语会与语义树中的每个语义节点词语进行计算可得到匹配度，确定语义树中最大匹配度对应的语义节点词语所在的层级，以及与层级相应的层级权值。通过层级权值乘以初始的匹配度得到修正后的匹配度。还可以附加规则，当匹配的词为语义树的叶子节点时，说明该词已处于精准度最高的层级，则无论该词处于哪个层级，权值都为1。通过预定义层级权值，能够提高计算的匹配度的准确性。

在一个实施例中，还可对语义树的每个语义节点词语预设语义权重，按照语义权重由低到高顺序在语义树上查找语义词汇。比如说，分别对第二层级语义节点词语外耳、中耳、内耳进行匹配之后，得到最匹配的词是内耳之后，则在内耳分支下的词汇继续进行匹配，而无需再对外耳和中耳分支下的语义节点词语进行匹配，从而节约匹配的时间。

在一个实施例中，在计算每个医学子词语与每个遍历的语义节点词语的匹配度之后，还包括：获取与每个词语类型对应的词语权重；根据每个医学子词语对应的最大匹配度和与相应医学子词语所属的词语类型对应的词语权重，加权求和得到与待处理医学词语对应的词语相似度；当词语相似度大于预设阈值时，执行获取与每个匹配子词语对应的目标子编码的步骤；当词语相似度小于预设阈值时，将待处理医学数据发送至校验数据库。

由于不同词语类型对于待处理医学词语有不同的重要程度，因此可对不同类型的词语类型预设不同的词语权重，针对一个待处理医学词语对应的所有词语类型的词语权重可为1。比如，疾病名称共有四种词语类型，分别是部位、疾病、程度、方位。且词语类型的重要程度是，部位>疾病>程度词>方位词。四类词汇类型的词语权重可分别预设如下表2所示：

表2

若待处理医学词语中只有其中三类或两类，则权重分值需要重新划分，以保证权重分值之和为1，如只有部位、疾病和方位三类时，则权重分值如下表3所示：

表3

词性	部位	疾病	方位
				词语权重	0.4/(0.4+0.3+0.1)	0.3/(0.4+0.3+0.1)	0.1/(0.4+0.3+0.1)

词语相似度是指待处理医学词语与所有匹配子词语的综合相似度。举例来说，待处理医学词语中的“左”与匹配子词语“左侧”的匹配度为1且词语类型方位对应的词语权重为0.1，待处理医学词语中的“示指”与匹配子词语“食指”的匹配度为0.8且词语类型部位对应的词语权重为0.4，待处理医学词语中的“粉碎性”与匹配子词语“粉碎性”的匹配度为1且词语类型程度对应的词语权重为0.2，待处理医学词语中的“骨折”与匹配子词语“骨折”的匹配度为1且词语类型疾病对应的词语权重为0.3，则可计算得到“左示指粉碎性骨折”与“左侧食指粉碎性骨折”词语相似度为0.1*1+0.4*0.8+0.2*1+0.3*1＝0.92。

当词语相似度大于预设阈值时，说明待处理医学词语与所有匹配子词语基本符合匹配要求，可执行获取与每个匹配子词语对应的目标子编码的步骤；当词语相似度小于预设阈值时，说明处理医学词语与所有匹配子词语不符合匹配要求，则可将待处理医学数据发送至校验数据库进行进一步人工审核校验。

在一个实施例中，获取待处理医学数据，从医学数据中提取待处理医学词语，包括：当待处理医学数据为扫描图像时，提取扫描图像的文本区域图像；对文本区域图像进行图像预处理，得到预处理图像；预处理图像中包含多个待识别字符；提取每个待识别字符相应的字符特征数据；将字符特征数据输入预设的文本识别模型，得到输出的识别后字符；拼接多个识别后字符得到待处理医学词语。

扫描图像中可包含文本区域图像和/或图片区域图像等。对文本区域图像的预处理包括但不限于首先将文本区域图像进行灰度化、二值化及去噪等其中一种或多种处理方式生成二值化的预处理图像，预处理图像中包含多个待识别字符。将该二值化的预处理图像进行字符分割，生成对应数量的待识别字符图像。其中，该二值化的预处理图像包括只含有黑像素点和白像素点的预处理图像。通过将每个待识别字符图像输入预设的文本识别模型，可得到相应的识别后字符；拼接多个识别后字符得到待处理医学词语。

在一起实施例中，在将字符特征数据输入预设的文本识别模型，得到输出的待处理医学词语之前，还包括：获取多个训练文本图像以及与每个训练文本图像对应的目标字符；每个训练文本图像中包含待训练字符；获取包含初始模型参数的文本识别模型；根据多个训练文本图像以及与每个训练文本图像对应的目标字符，对包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型。

文本识别模型可以是具有识别能力的机器学习模型，比如卷积神经网络模型(Convolutional Neural Network，CNN)等。通过预先构建训练文本图像对文本识别模型进行不断训练，并根据每次训练结果调节初始模型参数，直至训练得到符合条件的包含目标模型参数的文本识别模型。

在一个实施例中，根据多个训练文本图像以及与每个训练文本图像对应的目标字符，对包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型，包括：提取每个训练文本图像的字符特征数据；将训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符；根据每个待验证字符与对应训练文本图像的目标字符计算文本识别模型的识别误差率；当识别误差率大于误差率阈值时，根据待验证字符与训练文本图像调整文本识别模型的模型参数，将调整后的模型参数作为初始模型参数，并返回将训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符的步骤继续训练，直至识别误差率小于误差率阈值；将最后一次调整后的模型参数作为所构建的文本识别模型的目标模型参数。

字符特征数据可以是训练文本图像中每行目标像素点的和以及每列目标像素点的和，还可以包括所有目标像素点占训练文本图像中总像素点的比例。目标像素点是待训练字符在所对应的训练文本图像中占据的像素点。可根据每行目标像素点的和以及每列目标像素点的和等数据构建与训练文本图像对应的特征矢量。识别误差率是指通过比较每个待验证字符与对应训练文本图像中的目标字符是否一致而计算生成的概率，该识别误差率也属于模型参数。比如，通过文本识别模型识别100个训练文本图像，其中识别出的待验证字符中有70个与对应的目标字符一致，则该文本识别模型的识别误差率为30％。通过对文本识别模型的参数不断调整，使得最终包含目标模型参数的文本识别模型的识别误差率小于误差率阈值，从而能够通过该构建好的文本识别模型更加准确地识出待处理医学数据中的待处理词语。

在一个实施例中，如图3所示，提供了一种医学数据处理方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤302，获取待多个待处理医学数据，从每个待处理医学数据中提取待处理医学词语。

步骤304，对每个待处理医学词语进行拆词，得到多个医学子词语。

步骤306，获取每个医学子词语所属的词语类型。

步骤308，获取与每个词语类型对应的语义树。

步骤310，根据每个医学子词语，遍历相应医学子词语所属的词语类型对应的语义树；每个语义树中包含多个语义节点词语。

步骤312，计算每个医学子词语与每个遍历的语义节点词语的匹配度。

步骤314，将最大匹配度对应的语义节点词语标记为与相应医学子词语对应的匹配子词语。

步骤316，获取与每个词语类型对应的词语权重。

步骤318，根据每个医学子词语对应的最大匹配度和与相应医学子词语所属的词语类型对应的词语权重，加权求和得到与待处理医学词语对应的词语相似度。

步骤320，当词语相似度大于预设阈值时，获取与每个匹配子词语对应的目标子编码。

步骤322，将对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码。

步骤324，获取终端发送的查询请求；查询请求携带了查询条件。

步骤326，查询与查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至终端。

上述医学数据处理方法中，服务器获取多个待处理数据，并从每个待处理医学数据中提取待处理医学词语。服务器对每个待处理医学词语匹配之后可得到多个匹配子词语，获取每个匹配子词语对应的目标子编码。通过将对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码。经过上述步骤相同含义不同表述的待处理医学词语也会由相同的目标编码进行映射。通过对待处理医学词语进行规范化的编码，使得终端进行查询的时候，服务器能够快速确定与查询条件匹配的目标编码，从而从数据库中获取与目标编码相应多种待处理医学词语对应的目标医学数据，并将目标医学数据发送至终端，提高了医学数据查询全面性。通过计算待处理医学词语对应的词语相似度，能够有效筛除一些匹配度不高的待处理医学词语，使得在查询的时候能够获取更加精准的目标医学数据。

应该理解的是，虽然图2-图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种医学数据处理装置400，包括：获取模块402，用于获取待多个待处理医学数据，从每个待处理医学数据中提取待处理医学词语；匹配模块404，用于对每个待处理医学词语进行匹配，得到多个匹配子词语；编码模块406，用于获取与每个匹配子词语对应的目标子编码；将对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码；查询模块408，用于获取终端发送的查询请求；查询请求携带了查询条件；查询与查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至终端。

在一个实施例中，匹配模块404还用于对每个待处理医学词语进行拆词，得到多个医学子词语；获取每个医学子词语所属的词语类型；在与词语类型对应的语义树上对每个医学子词语进行匹配，得到与每个医学子词语对应的匹配子词语。

在一个实施例中，匹配模块404还用于获取与每个词语类型对应的语义树；根据每个医学子词语，遍历相应医学子词语所属的词语类型对应的语义树；每个语义树中包含多个语义节点词语；计算每个医学子词语与每个遍历的语义节点词语的匹配度；将最大匹配度对应的语义节点词语标记为与相应医学子词语对应的匹配子词语。

在一个实施例中，该装置还包括加权模块，用于获取与每个词语类型对应的词语权重；根据每个医学子词语对应的最大匹配度和与相应医学子词语所属的词语类型对应的词语权重，加权求和得到与待处理医学词语对应的词语相似度；当词语相似度大于预设阈值时，执行获取与每个匹配子词语对应的目标子编码的步骤；当词语相似度小于预设阈值时，将待处理医学数据发送至校验数据库。

在一个实施例中，获取模块402还用于当待处理医学数据为扫描图像时，提取扫描图像的文本区域图像；对文本区域图像进行图像预处理，得到预处理图像；预处理图像中包含多个待识别字符；提取每个待识别字符相应的字符特征数据；将字符特征数据输入预设的文本识别模型，得到输出的识别后字符；拼接多个识别后字符得到待处理医学词语。

在一个实施例中，该装置还包括训练模块，用于获取多个训练文本图像以及与每个训练文本图像对应的目标字符；每个训练文本图像中包含待训练字符；获取包含初始模型参数的文本识别模型；根据多个训练文本图像以及与每个训练文本图像对应的目标字符，对包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型。

在一个实施例中，训练模块还用于提取每个训练文本图像的字符特征数据；将训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符；根据每个待验证字符与对应训练文本图像的目标字符计算文本识别模型的识别误差率；当识别误差率大于误差率阈值时，根据待验证字符与训练文本图像调整文本识别模型的模型参数，将调整后的模型参数作为初始模型参数，并返回将训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符的步骤继续训练，直至识别误差率小于误差率阈值；将最后一次调整后的模型参数作为所构建的文本识别模型的目标模型参数。

关于医学数据处理装置的具体限定可以参见上文中对于医学数据处理方法的限定，在此不再赘述。上述医学数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语义树等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医学数据处理方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待多个待处理医学数据，从每个待处理医学数据中提取待处理医学词语；对每个待处理医学词语进行匹配，得到多个匹配子词语；获取与每个匹配子词语对应的目标子编码；将对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码；获取终端发送的查询请求；查询请求携带了查询条件；查询与查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至终端。

在一个实施例中，处理器执行计算机程序时，所实现的对每个待处理医学词语进行匹配，得到多个匹配子词语的步骤，包括以下步骤：对每个待处理医学词语进行拆词，得到多个医学子词语；获取每个医学子词语所属的词语类型；在与词语类型对应的语义树上对每个医学子词语进行匹配，得到与每个医学子词语对应的匹配子词语。

在一个实施例中，处理器执行计算机程序时，所实现的在与词语类型对应的语义树上对每个医学子词语进行匹配，得到与每个医学子词语对应的匹配子词语的步骤，包括以下步骤：获取与每个词语类型对应的语义树；根据每个医学子词语，遍历相应医学子词语所属的词语类型对应的语义树；每个语义树中包含多个语义节点词语；计算每个医学子词语与每个遍历的语义节点词语的匹配度；将最大匹配度对应的语义节点词语标记为与相应医学子词语对应的匹配子词语。

在一个实施例中，处理器执行计算机程序时，在所实现的计算每个医学子词语与每个遍历的语义节点词语的匹配度的步骤之后，还包括以下步骤：获取与每个词语类型对应的词语权重；根据每个医学子词语对应的最大匹配度和与相应医学子词语所属的词语类型对应的词语权重，加权求和得到与待处理医学词语对应的词语相似度；当词语相似度大于预设阈值时，执行获取与每个匹配子词语对应的目标子编码的步骤；当词语相似度小于预设阈值时，将待处理医学数据发送至校验数据库。

在一个实施例中，处理器执行计算机程序时，所实现的获取待处理医学数据，从医学数据中提取待处理医学词语的步骤，包括以下步骤：当待处理医学数据为扫描图像时，提取扫描图像的文本区域图像；对文本区域图像进行图像预处理，得到预处理图像；预处理图像中包含多个待识别字符；提取每个待识别字符相应的字符特征数据；将字符特征数据输入预设的文本识别模型，得到输出的识别后字符；拼接多个识别后字符得到待处理医学词语。

在一个实施例中，处理器执行计算机程序时，在所实现的将字符特征数据输入预设的文本识别模型，得到输出的待处理医学词语的步骤之前，还包括以下步骤：获取多个训练文本图像以及与每个训练文本图像对应的目标字符；每个训练文本图像中包含待训练字符；获取包含初始模型参数的文本识别模型；根据多个训练文本图像以及与每个训练文本图像对应的目标字符，对包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型。

在一个实施例中，处理器执行计算机程序时，所实现的根据多个训练文本图像以及与每个训练文本图像对应的目标字符，对包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型的步骤，包括以下步骤：提取每个训练文本图像的字符特征数据；将训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符；根据每个待验证字符与对应训练文本图像的目标字符计算文本识别模型的识别误差率；当识别误差率大于误差率阈值时，根据待验证字符与训练文本图像调整文本识别模型的模型参数，将调整后的模型参数作为初始模型参数，并返回将训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符的步骤继续训练，直至识别误差率小于误差率阈值；将最后一次调整后的模型参数作为所构建的文本识别模型的目标模型参数。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待多个待处理医学数据，从每个待处理医学数据中提取待处理医学词语；对每个待处理医学词语进行匹配，得到多个匹配子词语；获取与每个匹配子词语对应的目标子编码；将对应每个匹配子词语的目标子编码进行拼装，得到与待处理医学词语对应的目标编码；获取终端发送的查询请求；查询请求携带了查询条件；查询与查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至终端。

在一个实施例中，计算机程序被处理器执行时，所实现的对每个待处理医学词语进行匹配，得到多个匹配子词语的步骤，包括以下步骤：对每个待处理医学词语进行拆词，得到多个医学子词语；获取每个医学子词语所属的词语类型；在与词语类型对应的语义树上对每个医学子词语进行匹配，得到与每个医学子词语对应的匹配子词语。

在一个实施例中，计算机程序被处理器执行时，所实现的在与词语类型对应的语义树上对每个医学子词语进行匹配，得到与每个医学子词语对应的匹配子词语的步骤，包括以下步骤：获取与每个词语类型对应的语义树；根据每个医学子词语，遍历相应医学子词语所属的词语类型对应的语义树；每个语义树中包含多个语义节点词语；计算每个医学子词语与每个遍历的语义节点词语的匹配度；将最大匹配度对应的语义节点词语标记为与相应医学子词语对应的匹配子词语。

在一个实施例中，计算机程序被处理器执行时，在所实现的计算每个医学子词语与每个遍历的语义节点词语的匹配度的步骤之后，还包括以下步骤：获取与每个词语类型对应的词语权重；根据每个医学子词语对应的最大匹配度和与相应医学子词语所属的词语类型对应的词语权重，加权求和得到与待处理医学词语对应的词语相似度；当词语相似度大于预设阈值时，执行获取与每个匹配子词语对应的目标子编码的步骤；当词语相似度小于预设阈值时，将待处理医学数据发送至校验数据库。

在一个实施例中，计算机程序被处理器执行时，所实现的获取待处理医学数据，从医学数据中提取待处理医学词语的步骤，包括以下步骤：当待处理医学数据为扫描图像时，提取扫描图像的文本区域图像；对文本区域图像进行图像预处理，得到预处理图像；预处理图像中包含多个待识别字符；提取每个待识别字符相应的字符特征数据；将字符特征数据输入预设的文本识别模型，得到输出的识别后字符；拼接多个识别后字符得到待处理医学词语。

在一个实施例中，计算机程序被处理器执行时，在所实现的将字符特征数据输入预设的文本识别模型，得到输出的待处理医学词语的步骤之前，还包括以下步骤：获取多个训练文本图像以及与每个训练文本图像对应的目标字符；每个训练文本图像中包含待训练字符；获取包含初始模型参数的文本识别模型；根据多个训练文本图像以及与每个训练文本图像对应的目标字符，对包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型。

在一个实施例中，计算机程序被处理器执行时，所实现的根据多个训练文本图像以及与每个训练文本图像对应的目标字符，对包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型的步骤，包括以下步骤：提取每个训练文本图像的字符特征数据；将训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符；根据每个待验证字符与对应训练文本图像的目标字符计算文本识别模型的识别误差率；当识别误差率大于误差率阈值时，根据待验证字符与训练文本图像调整文本识别模型的模型参数，将调整后的模型参数作为初始模型参数，并返回将训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符的步骤继续训练，直至识别误差率小于误差率阈值；将最后一次调整后的模型参数作为所构建的文本识别模型的目标模型参数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种医学数据处理方法，所述方法包括：

获取待多个待处理医学数据，从每个所述待处理医学数据中提取待处理医学词语；

对每个所述待处理医学词语进行匹配，得到多个匹配子词语；

获取与每个所述匹配子词语对应的目标子编码；

将对应每个所述匹配子词语的目标子编码进行拼装，得到与所述待处理医学词语对应的目标编码；

获取终端发送的查询请求；所述查询请求携带了查询条件，所述查询条件包括查询编码和/或查询词语；

查询与所述查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至所述终端；

所述对每个所述待处理医学词语进行匹配，得到多个匹配子词语，包括：

对每个所述待处理医学词语进行拆词，得到多个医学子词语；

获取每个所述医学子词语所属的词语类型，所述词语类型包括方位、部位、程度、疾病；

在与所述词语类型对应的语义树上对每个所述医学子词语进行匹配，得到与每个所述医学子词语对应的匹配子词语，所述语义树是根据所述词语类型预先构建得到。

2.根据权利要求1所述的方法，其特征在于，所述在与所述词语类型对应的语义树上对每个所述医学子词语进行匹配，得到与每个所述医学子词语对应的匹配子词语，包括：

获取与每个所述词语类型对应的语义树；

根据每个所述医学子词语，遍历相应医学子词语所属的词语类型对应的语义树；每个所述语义树中包含多个语义节点词语；

计算每个所述医学子词语与每个遍历的语义节点词语的匹配度；

将最大匹配度对应的语义节点词语标记为与相应医学子词语对应的匹配子词语。

3.根据权利要求2所述的方法，其特征在于，在所述计算每个所述医学子词语与每个遍历的语义节点词语的匹配度之后，还包括：

获取与每个所述词语类型对应的词语权重；

根据每个所述医学子词语对应的最大匹配度和与相应医学子词语所属的词语类型对应的词语权重，加权求和得到与所述待处理医学词语对应的词语相似度；

当所述词语相似度大于预设阈值时，执行所述获取与每个所述匹配子词语对应的目标子编码的步骤；

当所述词语相似度小于预设阈值时，将所述待处理医学数据发送至校验数据库。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述获取待处理医学数据，从所述医学数据中提取待处理医学词语，包括：

当所述待处理医学数据为扫描图像时，提取所述扫描图像的文本区域图像；

对所述文本区域图像进行图像预处理，得到预处理图像；所述预处理图像中包含多个待识别字符；

提取每个所述待识别字符相应的字符特征数据；

将所述字符特征数据输入预设的文本识别模型，得到输出的识别后字符；

拼接多个所述识别后字符得到待处理医学词语。

5.根据权利要求4所述的方法，其特征在于，在所述将所述字符特征数据输入预设的文本识别模型，得到输出的待处理医学词语之前，还包括：

获取多个训练文本图像以及与每个所述训练文本图像对应的目标字符；每个所述训练文本图像中包含待训练字符；

获取包含初始模型参数的文本识别模型；

根据所述多个训练文本图像以及与每个所述训练文本图像对应的目标字符，对所述包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述多个训练文本图像以及与每个所述训练文本图像对应的目标字符，对所述包含初始模型参数的文本识别模型进行训练，得到包含目标模型参数的文本识别模型，包括：

提取每个所述训练文本图像的字符特征数据；

将所述训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符；

根据每个待验证字符与对应训练文本图像的目标字符计算所述文本识别模型的识别误差率；

当所述识别误差率大于误差率阈值时，根据所述待验证字符与所述训练文本图像调整所述文本识别模型的模型参数，将调整后的模型参数作为初始模型参数，并返回将所述训练文本图像中的字符特征数据导入包含初始模型参数的文本识别模型中进行处理，生成待验证字符的步骤继续训练，直至所述识别误差率小于误差率阈值；将最后一次调整后的模型参数作为所构建的文本识别模型的目标模型参数。

7.一种医学数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取待多个待处理医学数据，从每个所述待处理医学数据中提取待处理医学词语；

匹配模块，用于对每个所述待处理医学词语进行匹配，得到多个匹配子词语，具体包括：对每个所述待处理医学词语进行拆词，得到多个医学子词语，获取每个所述医学子词语所属的词语类型，所述词语类型包括方位、部位、程度、疾病，在与所述词语类型对应的语义树上对每个所述医学子词语进行匹配，得到与每个所述医学子词语对应的匹配子词语，所述语义树是根据所述词语类型预先构建得到；

编码模块，用于获取与每个所述匹配子词语对应的目标子编码；将对应每个所述匹配子词语的目标子编码进行拼装，得到与所述待处理医学词语对应的目标编码；

查询模块，用于获取终端发送的查询请求；所述查询请求携带了查询条件，所述查询条件包括查询编码和/或查询词语；查询与所述查询条件匹配的目标编码，并根据查询到的目标编码获取相应的目标医学数据，将多个获取的目标医学数据发送至所述终端。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

加权模块，用于获取与每个所述词语类型对应的词语权重；根据每个所述医学子词语对应的最大匹配度和与相应医学子词语所属的词语类型对应的词语权重，加权求和得到与所述待处理医学词语对应的词语相似度；当所述词语相似度大于预设阈值时，执行所述获取与每个所述匹配子词语对应的目标子编码的步骤；当所述词语相似度小于预设阈值时，将所述待处理医学数据发送至校验数据库。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。