CN104156415A

CN104156415A - 解决医疗数据标准编码对照问题的映射处理系统及方法

Info

Publication number: CN104156415A
Application number: CN201410374349.1A
Authority: CN
Inventors: 李轶强; 马国耀; 蔡军; 孙勇韬; 肖华
Original assignee: Shenyang Rui Yite Software Engineering Co Ltd
Current assignee: Shenyang Rui Yite Software Engineering Co Ltd
Priority date: 2014-07-31
Filing date: 2014-07-31
Publication date: 2014-11-19
Anticipated expiration: 2034-07-31
Also published as: CN104156415B

Abstract

本发明提供一种解决医疗数据标准编码对照问题的映射处理系统及方法，该系统包括资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元；该方法包括：从医疗数据源获取数据，根据目标值域库存储的标准码或匹配表存储的存储映射匹配规则信息，对获取的数据进行精确匹配映射；对从数据源获取的数据进行模糊语义分析；对模拟语义分词结果进行模糊匹配处理，并生成映射匹配结果；根据匹配表中的映射匹配规则信息将医疗数据映射成标准码，生成医疗数据映射处理结果。本发明建立了一种自动化映射匹配的处理流程，通过模糊匹配、人工校验、机器训练等技术相结合的方式，实现映射匹配结果的较高准确性和匹配精度。

Description

解决医疗数据标准编码对照问题的映射处理系统及方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种解决医疗数据标准编码对照问题的映射处理系统及方法。

背景技术

在医疗数据的使用过程中，通常需要对数据值域内容进行匹配处理，将医疗数据值根据标准要求映射成其它值，即基于标准编码的映射处理。通常，该处理过程需要根据实际业务情况来进行手工配置，手工配置方式匹配效率低、匹配错误率高、工作量大，在实际业务数据匹配构建过程中无法根据实际情况进行快速构建。因此，需要一种可以实现高效、简便的映射处理方法来解决数据编码的标准化对照问题，可以基于已有的编码规则来快速实现数据编码标准化映射，而无需手工重新对照映射。

发明内容

针对现有技术存在的问题，本发明提供一种解决医疗数据标准编码对照问题的映射处理系统及方法。

本发明的技术方案是：

解决医疗数据标准编码对照问题的映射处理系统，包括：资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元；

资源词库：存储有基础词汇和医疗专业词汇；

目标值域库：用于存储标准码，即GB/T或医疗行业规范定义的编码值；

模拟语义分词单元：包括分词模块、词库加载模块、词元处理模块、相似度评估模块和分析模块；

所述分词模块用于采用最细粒度分词方式或智能分词方式对数据源提供的数据信息进行语义分解和分词切分处理；

所述词库加载模块用于实现字典加载管理，对资源词库信息进行加载，将资源词库中的基础词汇和医疗专业词汇加载到缓存中，为词元处理模块提供词元信息；

所述词元处理模块对词库加载模块提供的词元信息进行缓存，对中文词汇、数量词汇、字母词汇进行分类处理，并为分析模块提供词元支撑；

所述相似度评估模块用于对分类处理后数据的相似度评估，得到相似度评估结果；

所述分析模块用于对调度分词模块、相似度评估模块、词元处理模块进行协调调度，并将相似度评估结果作为模拟语义分词结果输出至模糊匹配单元；

模糊匹配单元：包括语法分析模块、索引创建模块、索引存储模块、索引库、索引搜索模块、相关性排序模块和匹配优化模块；

模糊匹配单元用于根据目标值域库信息对模拟语义分词处理结果进行模糊匹配处理；

所述语法分析模块用于对模拟语义分词结果进行语法分析和语言处理形成若干词；

所述索引创建模块用于根据语法分析模块形成的若干词生成词典索引和反向索引；

所述索引存储模块用于根据词典索引和反向索引对形成的若干词进行关联后存储到索引库中；

所述索引库用于存储词典索引和反向索引；

所述索引搜索模块用于将索引库中的词典索引和反向索引载入到内存，利用查询树搜索索引，得到每个词对应的数据源信息链表，对该信息链表进行布尔运算后获得数据源信息的具体指向位置，从而得到索引搜索结果；

所述相关性排序模块用于计算索引搜索结果与源词库中的医疗专业词汇的相关度并进行排序；

所述匹配优化模块用于根据相关度阈值来选取资源词库中的医疗专业词汇与数据源信息链的最佳匹配关联关系，并经过人工校验后将该最佳匹配关联关系作为模糊匹配结果存储至匹配表中；

精确匹配单元：包括数据获取模块和精确匹配模块；

所述数据获取模块用于获取数据源提供的数据信息；

所述精确匹配模块用于根据数据获取模块获取的数据源提供的数据信息与目标值域库存储的标准码或者匹配表存储的映射匹配规则信息进行精确匹配映射，生成数据映射匹配结果，即精确匹配结果；

所述匹配表用于存储映射匹配规则信息，映射匹配规则信息即数据源的数据信息与目标值域库间的匹配关联关系；

人工管理单元：用于对资源词库、目标值域库与匹配表进行调整。

采用所述的解决医疗数据标准编码对照问题的映射处理系统的医疗数据映射处理方法，包括以下步骤：

步骤1：从医疗数据源获取数据，根据目标值域表存储的标准码或匹配表存储的存储映射匹配规则信息，对获取的数据进行精确匹配映射：若获取的数据与匹配表存储的映射匹配规则信息完全匹配，则执行步骤4；否则，执行步骤2；

步骤2：对从数据源获取的数据进行模糊语义分析；

步骤2-1：通过对资源词库信息进行加载，将资源词库中的基础词汇和医疗专业词汇加载到缓存中，为词元处理提供词元信息；

步骤2-2：采用最细粒度分词方式或智能分词方式对数据源提供的数据信息进行分词处理，包括语义分解和分词切分处理；

步骤2-3：进行词元处理：对资源词库中的基础词汇和医疗专业词汇进行缓存，对中文词汇、数量词汇、字母词汇进行分类处理；

步骤2-4：对加载的词元信息与分词处理后的数据进行相似度评估，得到相似度评估结果；

步骤2-5：将相似度评估结果作为模拟语义分词结果；

步骤3：对模拟语义分词结果进行模糊匹配处理，并生成映射匹配结果；

步骤3-1：对模拟语义分词结果进行语法分析和语言处理形成若干词；

步骤3-2：根据形成的若干词生成词典索引和反向索引；

步骤3-3：根据词典索引和反向索引对形成的若干词进行关联后存储到索引库中；

步骤3-4：将索引库中的词典索引和反向索引载入到内存，利用查询树搜索索引，得到每个词对应的数据源信息链表，对该信息链表进行布尔运算后获得数据源信息的具体指向位置，从而得到索引搜索结果；

步骤3-5：计算各索引搜索结果与目标值域库中的标准码之间的关联度，并对各关联度进行排序；

步骤3-6：人工设定关联度阈值，对符合关联度阈值的索引搜索结果进行人工校验，并建立匹配关联关系，该匹配关联关系作为映射匹配规则信息存储至匹配表中；

步骤4：根据匹配表中的映射匹配规则信息将医疗数据映射成标准码，生成医疗数据映射处理结果。

有益效果：

本发明解决了在医疗信息向标准化卫生平台上报过程中的编码规范化问题，建立了一种自动化映射匹配的处理流程，同时提供了比较完备的业务处理能力。通过模糊匹配、人工校验、机器训练等技术相结合的方式，实现映射匹配结果的较高准确性和匹配精度。本方法首先通过模糊匹配，根据关联度值的情况完成映射匹配，匹配结果经人工校校验后得到正确的匹配关联关系，此匹配关联关系会被系统进行记录和学习。在进行多次固定行业的映射匹配后，匹配的精度和准确性会随着行业实践次数的积累而线性提升。本发明成功实施在医疗信息的处理项目汇总，使得业务数据得到稳定高效的处理和发布，从而推动医疗卫生体系的建设和管理，为区域医疗系统的构建提供有力支撑。

附图说明

图1是本发明具体实施方式的解决医疗数据标准编码对照问题的映射处理系统结构框图；

图2是本发明具体实施方式的模拟语义分词单元结构框图；

图3是本发明具体实施方式的模糊匹配单元结构框图；

图4是本发明具体实施方式的精确匹配单元结构框图；

图5是本发明具体实施方式的人工管理单元工作原理示意图；

图6是本发明具体实施方式的解决医疗数据标准编码对照问题的映射处理系统应用结构示意图；

图7是本发明具体实施方式的对从医疗数据源中获取的数据进行结构标准化处理的示意图；

图8是本发明具体实施方式的模拟语义分词单元处理示意图；

图9是本发明具体实施方式的解决医疗数据标准编码对照问题的映射处理方法；

图10是本发明具体实施方式的根据内容类型进行分类后得到的结果示意图；

图11是本发明具体实施方式的据资源词库内容得到分词结果得到的结果示意图；

图12是本发明具体实施方式的分词结果链表；

图13是本发明具体实施方式的对分词结果创建的缓存表；

图14是本发明具体实施方式的根据缓存表生成的倒排链表。

具体实施方式

下面结合附图对本发明具体实施方式进行详细说明。

针对医疗数据源实施本发明的技术方案，数据源是指提供某种所需要数据的器件或原始媒体，医疗数据源则是存储医疗业务数据的器件或原始媒体，而医疗数据具有数据量庞大、存储类型灵活多变、标准约束性强等特点。

本实施方式提供一种实现医院端数据清洗和映射匹配的实施方式。在网络构建结构上，本实施方式的解决医疗数据标准编码对照问题的映射处理系统部署于不同区域医院信息系统中，从区域医院信息系统中的HIS数据库中获取所需的医疗业务数据，部署方式可采用分布式部署，根据需要来对指定单个系统或集群数据源系统(HIS数据库)进行数据的标准对码映射处理，本实施方式的解决医疗数据标准编码对照问题的映射处理系统应用结构如图6所示。

如图1所示，解决医疗数据标准编码对照问题的映射处理系统，包括：资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元；

资源词库：存储有基础词汇和医疗专业词汇；

目标值域库：用于存储标准码，即GB/T或医疗行业规范定义的编码值；目标值域库中包括标准值域表和标准结构表，其中标准值域表记录规范的标准编码和描述信息，而标准结构表记录标准的业务模型结构信息；

分词模块用于采用最细粒度分词方式或智能分词方式对数据源提供的数据信息进行语义分解和分词切分处理；

词库加载模块用于实现字典加载管理，对资源词库信息进行加载，将资源词库中的基础词汇和医疗专业词汇加载到缓存中，为词元处理模块提供词元信息；

词元处理模块对词库加载模块提供的词元信息进行缓存，对中文词汇、数量词汇、字母词汇进行分类处理，并为分析模块提供词元支撑；

相似度评估模块用于对分类处理后数据的相似度评估，得到相似度评估结果；

分析模块用于对调度分词模块、相似度评估模块、词元处理模块进行协调调度，并将相似度评估结果作为模拟语义分词结果输出至模糊匹配单元；

语法分析模块用于对模拟语义分词结果进行语法分析和语言处理形成若干词；

索引创建模块用于根据语法分析模块形成的若干词生成词典索引和反向索引；

索引存储模块用于根据词典索引和反向索引对形成的若干词进行关联后存储到索引库中；

索引库用于存储词典索引和反向索引；

索引搜索模块用于将索引库中的词典索引和反向索引载入到内存，利用查询树搜索索引，得到每个词对应的数据源信息链表，对该信息链表进行布尔运算后获得数据源信息的具体指向位置，从而得到索引搜索结果；

相关性排序模块用于计算索引搜索结果与源词库中的医疗专业词汇的相关度并进行排序；

匹配优化模块用于根据相关度阈值来选取资源词库中的医疗专业词汇与数据源信息链的最佳匹配关联关系，并经过人工校验后将该最佳匹配关联关系作为模糊匹配结果存储至匹配表中，用于在进行精确匹配时提升匹配效率，对精确匹配单元提供匹配支持。

精确匹配单元：包括数据获取模块和精确匹配模块，如图4所示；

数据获取模块用于获取数据源提供的数据信息；通过编辑SQL脚本的方式，使用JDBC数据源连通方式，将医疗数据源中需要映射匹配的信息进行加载；

精确匹配模块用于根据数据获取模块获取的数据源提供的数据信息与目标值域库存储的标准码或者匹配表存储的映射匹配规则信息进行精确匹配映射，生成数据映射匹配结果，即精确匹配结果；精确匹配模块根据匹配表中记录的映射管理关系，对从数据源加载的医疗数据进行映射匹配处理。匹配映射是基于对具体数据项展开的映射匹配过程，即将具体数据项映射成为目标值域库中指定的编码值，目标值域库是基于医疗卫生行业机构分类单元以及GB/T国标来定义，具有极强的标准符合性。

匹配表用于存储映射匹配规则信息，映射匹配规则信息即数据源的数据信息与目标值域表间的匹配关联关系；

人工管理单元：用于对资源词库、目标值域库与匹配表进行调整，实现对数据的基础性维护。

本系统的精确匹配单元获取数据源信息后，根据数据源信息与匹配表进行匹配对照，如果匹配表中存在与当前数据源信息匹配的记录信息时，根据匹配表中记录信息将数据源信息匹配映射成目标值域库要求的结果，并生成匹配结果；如果匹配表中不含当前数据源信息，精确匹配单元的映射处理工作交由模糊匹配单元进行。

模糊匹配单元在获得数据源信息后，将数据源信息交由模拟语义分词单元进行分词处理。模拟语义分词单元根据资源词库中记录的行业词汇对信息进行词元切分处理，切分处理后的信息被重新送至模糊匹配单元。模糊匹配单元根据切分处理的数据源信息与目标值域进行模糊匹配，模糊匹配结果经匹配优化模块校验后，保存至匹配表中，更新后的匹配表为本方法执行精确匹配时提供支持。模糊匹配的匹配优化模块提供人工校验接口，为人工审核模糊匹配结果提供功能支持，如果不经过人工校验，那么模糊匹配单元会根据数据源与目标值域相似度评估算法来给出最佳的匹配关联关系，并根据此关联关系进行映射处理，并生成最终映射匹配结果。

如图2所示，模拟语义分词单元对数据源信息进行语义分析和分词处理，并将经过模拟语义分词处理后的数据发回模糊匹配单元。模拟语义分词单元的分析模块实现数据源信息的主体语义分词处理，首先分词模块选取分词的方式，即使用最细粒度分词策略或智能分词策略，为分析模块提供分词策略支持，并对提供的数据源信息进行语义分解，根据选取的分词策略来对信息进行分词切分处理；词库加载模块实现词典加载管理功能，通过词典检索算法来完成对资源词库信息的加载，将资源词库中基础词汇和专业词汇加载到缓存中，为词元处理模块提供词元信息支撑；词元处理模块负责对词元信息进行缓存，对中文词汇、数量词汇、字母词汇进行分类处理，并为分析模块提供词元支撑；相似度评估模块根据词元相似度算法，实现词元处理模块对加载的词元信息与分词模块提供的分词后数据的相似度评估，为分析模块提供分词处理提供分词相似度评估值支持。分析模块实现对数据源数据进行综合分词处理，协调调度分词模块、相似度评估模块、词元处理模块来实现基于语义的职能分词处理，并将处理结果反馈至模糊匹配单元。

如图3所示，模糊匹配单元对数据源信息映射配置过程主要分为索引过程和搜索过程两个步骤。索引过程的目的在于对数据源信息建立索引信息；搜索过程的目的在于根据建立的索引信息进行反向查询出符合要求的数据源信息。索引过程首先将数据源信息经过模拟语义分词单元进行语法分析和语言处理形成一系列词，词经过本单元索引创建模块形成词典和反向索引信息，而索引存储模块则将词典与反向索引信息进行对应关联后存储到索引库中，待模糊匹配单元的搜索过程利用。搜索过程首先将需要进行映射匹配的目标值域信息通过语法分析模块生成一个查询树，通过索引搜索模块将索引库信息载入到内存，利用查询树进行搜索索引，得到每个词的数据源信息链表，对信息链表进行布尔运算后获得数据源信息具体指向位置，从而得到搜索结果，通过相关性排序模块对搜索结果进行排序后，匹配优化模块会根据相关度域值来选取目标值域与数据源信息链最佳匹配关联关系，并经过人工校验后保存至匹配表。

如图4所示，精确匹配单元实现对数据源信息根据匹配表进行的精确匹配映射，并根据匹配表生成数据映射匹配结果。匹配表中持久化了映射匹配规则信息，该匹配规则为数据源信息与目标值域间的匹配关联关系。精确匹配单元用于执行匹配表中持久化的映射匹配关系，将数据源信息映射成标准码信息，并生成最终匹配结果。同时，精确匹配模块也根据匹配表中记录情况来判断本单元是否可以完成此轮数据源信息的映射匹配操作，即当匹配表中不含有当前数据源信息与目标值域库中标准值域表的标准码的匹配关系时，精确匹配模块将匹配映射工作交由模糊匹配单元进行，并将数据源信息转发至模糊匹配单元进行匹配映射处理。其中，数据获取模块实现对数据源提供的原始数据的获取，完成对转换数据的加载。

如图5所示，人工管理单元实现对本方法中涉及的资源词库、目标值域库与匹配的手工调整，对本方法的数据进行基础性维护。在本方法中，需要对一类持久化文件进行维护和管理，包括对模糊语义分词单元中资源词库的管理维护；对目标值域库中标准码信息进行管理维护；以及在进行模糊匹配过程中进行人工校验，对匹配过程值进行人工干预和确认，并将干预和确认的结果记录在匹配表中，用于提升下轮映射匹配精度。

采用上述的解决医疗数据标准编码对照问题的映射处理系统的医疗数据映射处理方法，如图9所示，包括以下步骤：

本实施方式实现对医疗数据源基于标准编码的映射匹配处理功能，在实际使用过程中，通常需要首先对从医疗数据源中获取的数据进行结构标准化处理，即使用目标值域库中的标准结构表对数据获取模块通过编辑SQL脚本的方式获得数据信息结构进行标准化，关联关系如图7中①所示；之后，对SQL脚本的方式获得数据信息内容进行匹配映射，关联关系如图7中②所示。

例如，卫生数据接收平台需要提供根据《GB/T 2261.1-2003个人基本信息分类与代码第1部分：性别代码》来获得医疗记录中的性别编码(标准码)，并假设目标值域库的标准结构表中已经建立针对性别编码的标准列“性别”。

第一步：将从医疗数据源获取的数据字段名称映射成卫生数据接收平台端业务要求的标准列名称，该标准列名对应标准库中标准结构表内容。标准结构表记录的标准列用于医疗平台端对具体上报数据项的解析。本实施方式是将通过编辑SQL脚本的方式获得数据信息结构中医疗数据源中的字段名列“P_SEX”映射为标准列的“性别”；再对医疗数据源中的字段名列“P_SEX”查询内容根据GB/T 2261.1-2003表中“描述”列中的关联关系进行模糊匹配。

表1 GB/T 2261.1-2003性别编码/标准码表

编码	描述
		0	未知性别
1	男性
		2	女性
9	未说明的性别

表2 标准结构表

标准列
	性别代码表
....

第二步：在对数据源获取的数据字段内具体数据项，根据匹配表中数据进行指定，将其映射成该数据记录对应的编码。目标值域库中标准值域表记录了最终上报到医疗卫生数据接收平台端映射后的数据编码，而匹配表记录了医疗数据项与编码间的关联关系。

本实施方式是数据获取模块执行SQL脚本“SELECT P_NAME,P_SEX,P_AGE FROM PATIENTINFO”获得医疗数据源中患者信息表中患者名称、患者性别、患者年龄3个字段的记录，执行结果如表3所示。

表3 患者信息表

P_NAME	P_SEX	P_AGE
			李强	男	29
张军	男性	43
			徐志峰	男子	35
刘晓军	Man	35

此时，需要对P_SEX字段的内容进行映射匹配。

根据匹配表，患者信息表中字段P_SEX关联标准结构表的“性别代码表”信息，即P_SEX与GB/T 2261.1-2003性别代码表逻辑关联，在进行数据处理过程中，GB/T 2261.1-2003性别代码表是P_SEX字段信息的处理依据和基础。匹配表中“原数据”列中记录了哪些数据内容可以映射成表4匹配表中“编码”中的标准值。精确匹配单元就表1患者信息表的P_SEX字段内容与匹配表进行精确对照，其中“男”、“男性”内容被映射成标准码“1”，而“男子”、“Man”则无法进行映射处理，对于此列录入不规范的医疗数据，根据与P_SEX字段关联的GB/T 2261.1-2003性别代码表的规定，将有录入信息但不规范的数据统一映射成未知性别代码“0”。

在匹配表中，存在以下匹配关系的记录，如表4所示。

表4 匹配表

原数据	编码	原列	标准列
				男	1	P_SEX	性别代码表
男性	1	P_SEX	性别代码表

第三步：对映射处理的后的数据生成上报XML结构数据，进行上报。

第四步：当在原始数据的记录在匹配表中未记录对应的映射匹配规则时，精确匹配模块将记录这样的原始数据记录，并生成记录集发送至模糊匹配单元进行模糊匹配处理。

步骤2：对从数据源获取的数据进行模糊语义分析，如图8所示；

本实施方式中，通过词典检索算法来完成对资源词库信息的加载，将资源词库中基础词汇和专业词汇加载到缓存中，为词元处理模块提供词元信息支撑；基于词典库的快速检索算法作为一种词典检索算法，使用基于哈希索引算法建立相应的对应关系，在查找时只有根据这个对应关系找到给定值的像，而给定值就是索引关键字。算法基本步骤如下：首先根据词的首字利用哈希函数得到首字编号；根据首字编号，从哈希表中获得相应的数组指针，以及以该首字开头的词数，即数组大小，若数组指针为空，说明词典中没有收录以该首字开头的词，则查找失败，返回空信息；否则，根据数据指针和数组大小，在数据中进行二分查找，若数据块内没有词，则查找失败，返回空信息；若数据块中有词，则查找成功，同时得到该词条在词典文件中的位置；根据词条结束标志，即词条分隔符，将要查找的词条读入缓存区，查找结束。

模拟语义分词单元逐条获得精确匹配失败数据记录，对每个数据项进行分词处理。

对数据项的分词过程基于基础词库、专业词库以及分词算法，其中基础词库记录了汉字、英文单词、数字等一类常用的词汇；专业词库是对基础词库的特定行业拓展，本实施例中专业词库记录了医疗卫生行业的专业词汇，用于在医疗行业数据进行分词处理过程中提升分词精度。模拟语义分词单元利用资源词库中存储的基础词汇和医疗专业词汇来实现对数据项信息的分词处理；

筛选掉数据项中标点符号以及特殊字符，将数据进行粗切分；将数据中的中文词汇、数量词汇、字母词汇进行分割，分割后的数据形成一个字符类型链表来分别进行分词处理；

分别对不同的类型字符链表进行分词处理，处理方式如下：

(1)中文词汇的处理：基于资源词库，可以将中文词汇切分成具有最细粒度的词元单元，也可根据词典库中词元信息切分成以词典库词元为最小单元的词组序列，这两种切分的策略取决于在实施过程中本方法实际的设置。中文词汇处理的基本原理是将汉字字符序列构造成一棵Trie串集合查找树，查找树应用于中文词汇的查询，具有较高的查询效率，用于中文句子与词典库词元间的查询匹配。

(2)字母词汇的处理：基于资源词库，首先需要将字母词汇序列进行停词处理，即将英文句子中如is、a、the、this、to等语法词汇进行筛除，留下句子中有意义的单纯序列；之后，将句子所以字母小写化，用于后续查词；然后对句子中的英文单词转换为词根形式，如切掉名称的复数形式、动词去掉动名词形式等，将英文单词还原成基本型；根据词典库中记录的基础词汇和医疗专业词汇，将英文句子进行分词处理，形成单词链表，并筛除资源词库中不存在的单词。

(3)数量词汇的处理过程，处理过程的基本原理是从遇到的第一个数量字符开始向后遍历自第一个非数量字符为止，将这一系列字符切分成一个单词。

经分词处理后的数据项信息，将以一个单词链的形式发送至模糊匹配单元，模糊匹配单元将对单词链表中单词逐个进行模糊匹配映射处理。

本实施方式中，对于数据项内容“2014年06月19日，布洛芬混悬滴剂1毫升，口服”，得到数据项如下：

2014

年

06

月

19

日

，

布洛芬混悬

滴剂

1

毫升

，

口服

根据资源词库对内容进行最细粒度切分后，得到：

2014

年

06

月

19

日

布洛芬混悬

滴剂

1

毫升

口服

根据内容类型进行分类后得到的结果如图10所示；

假设在资源词库的医疗专业词库中存在“布洛芬混悬滴剂”专业词，根据资源词库内容得到分词结果得到如图11所示的结果。

步骤2-5：将相似度评估结果作为模拟语义分词结果；

模糊匹配单元根据模拟语义分词单元处理后的分词结果，对步骤902产生的数据创建索引信息，以及对索引信息的查询，实现对索引信息的反向索引查询，从索引项来定位医疗数据项。

步骤3-2：根据形成的若干词生成词典索引和反向索引；

生成词典索引和反向索引的过程，首先遍历模拟语义分词单元生成的单词链表，逐个获取单词节点内容来生成反向索引表，并将索引表持久化到模糊匹配单元的索引库中。

a.遍历单词链表，创建一个字典缓存表，并在该字典缓存表中记录单词出现的顺序，及第i次出现的次数；

b.对字典缓存表进行顺序排序，并生成文档倒排链表；

c.将倒排链表以记录的方式存储到索引表中。

如图9所示，以T_i来表示单词链表L＝<T₁,T₂,T₃...T_n>中第i个单词，F_i代表单词T_i第i次出现的次数，I代表单词T_i第i次出现。在倒排链表中，倒排链表去掉了原链表中的重复的单词节点，以T_k表示倒排链表中第k个单词节点，其中k≤n。

例如有如图12所示的分词结果链表；

对分词结果创建一个缓存表，并在该缓存表中记录单词出现的顺序，得到如图13所示结果；

根据上述缓存表，生成如图14所示的倒排链表。

在上面的实施例中，为方便说明本方法处理过程，一直以精确匹配失败结果的单条记录为例进行介绍，而实际的处理过程是同时对多条记录进行分词以及创建索引，单条记录与多条记录区别，主要是需要在索引库记录该记录的指向位置，下面的介绍内容将引入多条记录时反向索引的处理方法。

步骤3-5：计算各索引搜索结果与目标值域库中标准值域表的标准码之间的关联度，并对各关联度进行排序；

搜索索引过程，首先需要根据目标值域库中记录，经过关联度排序得到与目标值域库的标准值域表中描述项最为关联度最高的单词。

计算单词的权重，TF为单词在单词链表出现的频率，TF越大该说明该词越重要；RF为单词在多条记录中出现的频率；RF越大说明该单词越不重要。

权重：

W_t,r＝TF_t,r·Log(n/RF_t)

其中，W_t,r为单词t在记录r中的权重，TF_t,r单词t在记录r中的频率，n为记录个数，RF_t记录包含单词t的次数。

可以把记录R看出是一系列词T的集合，每个词都有独立的权重W，不同的词T根据其在R中的权重W来计算其记录相关性Cos。

其中，记录集R＝{T₁,T₂,T₃...T_n}，记录权重集W＝{W₁,W₂,W₃...W_n}；

目标值域库的标准值域表单词集S＝{ST₁,ST₂,ST₃...ST_n}，记录权重集SW＝{SW₁,SW₂,SW₃...SW_n}；

将所有的记录向量与目标值域库中标准值域表向量都放到一个n维空间中，计算两种向量间的余弦值Cos，其中余弦值越大，向量夹角越小，相关性越大。n为两个向量空间并集，当词T在某个向量空间中不存在，其权重记为0。

Cos (s, r) = \frac{{\overset{&RightArrow;}{V}}_{s} \cdot {\overset{&RightArrow;}{V}}_{r}}{| {\overset{&RightArrow;}{V}}_{s} | | {\overset{&RightArrow;}{V}}_{r} |} = \frac{Σ_{i = 1}^{n} W_{i, s} W_{i, r}}{\sqrt{Σ_{i = 1}^{n} {W^{2}}_{i, s}} \sqrt{Σ_{i = 1}^{n} {W^{2}}_{i, r}}}

对于本实施方式中，对含有单词T的多个数据记录进行相关计算后，得到得分最高的记录，并以此作为最优记录而得到与目标值域库的标准值域表关联度最高的记录项。

在本实施方式中，对3条记录中11个单词进行权重计算，得到权重如表1所示。

表1 权重值表

	T₁	T₂	T₃	T₄	T₅	T₆	T₇	T₈	T₉	T₁₀	T₁₁
												R₁	0	0	0.477	0	0.477	0.176	0	0	0	0.176	0
R₂	0	0.176	0	0.477	0	0	0	0	0.954	0	0.176
												R₃	0	0.176	0	0	0	0.176	0	0	0	0.176	0.176
S	0	0	0	0	0	0.176	0	0	0.477	0	0.176

对上述权重进行关联度计算得到：

Cos(S,R₁)≈0.08

Cos(S,R₂)≈0.82

Cos(S,R₃)≈0.32

可以发现，记录2与目标值域库内标准值域表的信息的关联程度最高，记录3其次，记录1关联度最差。这时，通过倒排链表记录的信息通过索引库来反向查询获得关联到的记录，并将该记录映射成目标值域库的标准值域表的编码，并最终生成映射匹配结果。

人工调整过程是通过手工的方式，对符合期望的记录内容进行人工调整，即通过人工确认的方式将记录的映射匹配过程关联关系添加到匹配表中，而不采用人工的方式则默认将关联度计算值最高的记录项添加到匹配表中。

虽然以上描述了本发明的具体实施方式，但是本领域内的熟练的技术人员应当理解，这些仅是举例说明，可以对这些实施方式做出变更或修改，而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims

1.一种解决医疗数据标准编码对照问题的映射处理系统，其特征在于：包括：资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元；

资源词库：存储有基础词汇和医疗专业词汇；

所述索引库用于存储词典索引和反向索引；

精确匹配单元：包括数据获取模块和精确匹配模块；

所述数据获取模块用于获取数据源提供的数据信息；

2.采用权利要求1所述的解决医疗数据标准编码对照问题的映射处理系统的医疗数据映射处理方法，其特征在于：包括以下步骤：

步骤1：从医疗数据源获取数据，根据目标值域库存储的标准码或匹配表存储的存储映射匹配规则信息，对获取的数据进行精确匹配映射：若获取的数据与匹配表存储的映射匹配规则信息完全匹配，则执行步骤4；否则，执行步骤2；

步骤2：对从数据源获取的数据进行模糊语义分析；

步骤2-5：将相似度评估结果作为模拟语义分词结果；

步骤3-2：根据形成的若干词生成词典索引和反向索引；