CN105956359A

CN105956359A - 一种用于异构系统的药品项目名称对照转译方法

Info

Publication number: CN105956359A
Application number: CN201610234562.1A
Authority: CN
Inventors: 陈杰
Original assignee: 陈杰
Current assignee: SHANGHAI JINSHIDA WEINING SOFTWARE TECHNOLOGY Co.,Ltd.
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2016-09-21
Anticipated expiration: 2036-04-15
Also published as: CN105956359B

Abstract

本发明记载了一种用于异构系统的药品项目名称对照转译方法，包括六个步骤：数据提取及预处理、名称级联搜索、初步统计分词、回归全部预料库并再次分词、确定各分词的合理性以及量化组合分词的差异。使得本发明通过大数据挖掘分析，发现各个地区间三目录的差异，以此为出发点，构建各地各异构系统间的三目录差异特征库，建立可靠的药品项目名称匹配算法，有效替代传统的人工对照匹配三目录并解决异构系统间的三目录对照映射周期较长的问题，充分发挥大数据的价值，提高医疗数据流转效率；同时，也不需要专业的语法分词工具来对各个药品项目名称进行语义分析，从而降低了整个算法过程的复杂度。

Description

一种用于异构系统的药品项目名称对照转译方法

技术领域

本发明涉及医疗卫生领域，尤其涉及一种用于异构系统的药品项目名称对照转译方法。

背景技术

2012年，国务院发布《关于印发“十二五”期间深化医药卫生体制改革规划暨实施方案的通知》，要求积极探索建立重特大疾病保障机制，在提高基本医保最高支付限额和高额医疗费用支付比例的基础上，统筹协调基本医保和商业健康保险政策，积极探索利用基本医保基金购买商业大病保险或建立补充保险等方式，有效提高重特大疾病保障水平。同年发改委等六部委《关于开展城乡居民大病保险工作的指导意见》，明确采取向商业保险机构购买大病保险的方式开展城乡居民大病保险工作。经3年左右的探索与实践，2015年8月，国务院办公厅发布《关于全面实施城乡居民大病保险的意见》，要求在2015年底前，大病保险覆盖所有城镇居民基本医疗保险、新型农村合作医疗(以下统称城乡居民基本医保)参保人群，大病患者看病就医负担有效减轻；到2017年，建立起比较完善的大病保险制度，以“大病保险”为主要代表的商业医疗(健康)保险对于我国基本医疗保险/保障制度的补充作用与地位已基本明确。

然而，随着医保的机构参与方越来越多，如何正确的进行数据交互流转和分析，同时又能对于不同地区的差异性进行分析，以及如何避免因三目录(药品、项目、材料)的编码和名称不一致导致的分析结果假阳性差异等问题急需得到解决。

发明内容

为了解决上述问题，本发明提供一种用于异构系统的药品项目名称对照转译方法，针对目前国家推进全民医保、医疗卫生改革、各方医疗、保险机构参与的背景下，医疗数据(包括结算数据)的流转分析过程中，如何将异构系统中的三目录(药品、诊疗、材料)进行互换转译，形成统一的三目录名称对照标准，促进医疗数据的流转和归集，形成大数据产业，同时提高分析效率和挖掘结果的精准性。同时，采用数据挖掘分析的方式，并通过传统数据库的数据采集工具和网络爬虫建立分析语料库，利用基本的统计分析、关联算法、TF-IDF算法，建立起常规药品项目名称的分词结果库，利用该分词结果库，可能准确识别需要对照转译的第三方不规则的药品项目名称，促进医疗数据的流转分析。

上述的一种用于异构系统的药品项目名称对照转译方法，包括以下步骤：

S1、数据提取及预处理：对于个别药品项目名称不规整或不规则的符号进行筛选；

S2、名称级联搜索：通过余弦公式计算各组项目名称和对照名称的相似度，对大于0.7的对照关系组中的任意名称进行级联查询，拓展出更多的项目对照组可能，直到该组对照词间的相似度低于0.7为止；

S3、初步统计分词：按频次排序，将频数小于1/8分位数的对应关系删去，减少不明显的对应关系干扰；同时，统计分析每组对照的连续相同的字符并插入固定分隔符，形成各组对照的初步分词结果；

S4、回归全部预料库并再次分词：对于字符较长的，算法可以优先尝试在该字符串的开头或结尾删除某个字符，如果删除后的字符串在整个预料可中的出现频率与删除前的频率没有发生明显的变化，则该步骤使得该字符串变得更具有原子性；但对于原子字符串，算法的最低要求是具有至少两个字符；同时，对于单个字符的分词结果，算法更倾向于拓宽字符长度，如果添加后的字符串在整个预料可中的出现频率与添加前的频率没有发生明显的变化，那么执行添加字符操作，合成新的分词结果；

S5、确定各分词的合理性：采用TF-IDF算法，判断各个分词是否普遍于整个语料库，量化每个药品项目名称下的各个分词结果的权重；

S6、量化组合分词的差异：对于分词后的各个分词结果，需要按照一定的顺序组织，采用贝叶斯公式找到几组合理地分词结果组合以确定要被对照的药品项目名称具体符合那种分词方式，从而准确对照该药品项目名称到现有语料库里的名称。

上述方法中，所述步骤S1中的数据提取包括对常规的商业保险和医疗保险的业务结算数据、药品说明书、以及零散临床知识的提取。

本发明的优点和有益效果在于：本发明提供了一种用于异构系统的药品项目名称对照转译方法，通过大数据挖掘分析，发现各个地区间三目录的差异，以此为出发点，构建各地各异构系统间的三目录差异特征库，建立可靠的药品项目名称匹配算法，有效替代传统的人工对照匹配三目录并解决异构系统间的三目录对照映射周期较长的问题，充分发挥大数据的价值，提高医疗数据流转效率；同时，也不需要专业的语法分词工具来对各个药品项目名称进行语义分析，从而降低了整个算法过程的复杂度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明中药品项目名称对照转译方法的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明记载了一种用于异构系统的药品项目名称对照转译方法，包括以下步骤：

S1、数据提取及预处理：对于个别药品项目名称不规整或不规则的符号进行筛选；例如：药品项目名称中带“自费”、“材料费”、“一次性材料”、“中成药自费”、“准字号自费药”、“西药费自费”、“生育其他自费(生育)”、“自费材料”、“自费项目”等等，它们都无法明确具体是什么药品项目，都需要删除。

其中，数据提取包括常规的商业保险和医疗保险的业务结算数据、药品说明书、零散的临床知识的提取；临床知识和药品说明书等准确性毋庸置疑的结果由于量相对业务结算数据量，几乎可以忽略不计，并且其绝对量确实很少(万数量级)，能以知识结果入库直接应用。

例如：

项目名称	对照名称	频次
			10％葡萄糖注射液	10％葡萄糖	17
10％葡萄糖注射液	10％葡萄糖注射液(500ml双筏软袋)	40
			10％葡萄糖注射液	10％葡萄糖注射液(医)	18
10％葡萄糖注射液	10％葡萄糖注射液(双阀)	117
			10％葡萄糖注射液	10％葡萄糖注射液/100ml:10g/袋	89
10％葡萄糖注射液	10％葡萄糖注射液250ml	33
			10％葡萄糖注射液	10％葡萄糖注射液☆▲	241

通过上表可以发现药品10％葡萄糖注射液可能的对照结果，但这对照频次数明显比较少。为了拓宽可能的对照结果，该方法不严格区分项目名称和对照名称的主次关系，级联出更多的对照关系。

S3、初步统计分词：按频次排序，将频数小于1/8分位数的对应关系删去，减少不明显的对应关系干扰；同时，统计分析每组对照的连续相同的字符并插入固定分隔符，形成各组对照的初步分词结果；例如：

将上表按频次排序，将频数小于1/8分位数的对应关系(频次较低)删去，减少不明显的对应关系干扰，并统计分析每组对照的连续相同的字符并插入固定分隔符“‖”，形成各组对照的初步分词结果，即可得到下表：

由上述表格可知，葡糖糖注射液的大概分词结果包括：葡萄糖注射液、葡萄糖、注射液、10％等字词，验证这些字词的原子性，需要回归到语料库中进行验证。

例如：分词结果中的葡萄糖注射液，它虽然是10％葡萄糖注射液的一种分词结果，但其任然可分。在整个预料库中，还有药品名称为氯化钠注射液，与葡萄糖注射液比较，发现它们共同包含的字符有注射液，说明“葡萄糖注射液”非原子性分词结果，需要结合整个语料库进行进一步分词。

S5、确定各分词的合理性：采用TF-IDF算法，判断各个分词是否普遍于整个语料库，量化每个药品项目名称下的各个分词结果的权重，该TF-IDF(termfrequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，即一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。本步骤具体为：通过上述步骤形成的各个分词结果，基本可以拆分语料库里地所有药品项目名称了，但需要确定具体哪些分词结果强关联哪些药品项目名称。通常的做法是使用关联规则，但具体到例如“注射液”这个字符串，该字符串可能与许多溶液剂的药品项目名称关联度很高，但如果将该字符串作为核心关键字，其判断权重很可能失真。所以本算法亦考虑了此种情况。同时，由于汉语文化的博大精深，会出现“通假字”的情况，例如：吉西他滨，在语料库里存在部分“吉西他宾”，类似的情况不一而足。针对此种情况，我们采纳了电子字典，对于各个原子分词大部分字符“逻辑一致”仅个别汉字的拼音类似的分词进行归并，等同识别。

S6、量化组合分词的差异：对于分词后的各个分词结果，需要按照一定的顺序组织，或者可以理解成不是所有的分词结果以全排列的方式都能找到相应地药品项目名称的，所以该步骤旨在找到几组合理地分词结果组合以确定要被对照的药品项目名称具体符合那种分词方式，从而准确对照该药品项目名称到现有语料库里的名称。该步骤的算法主要采用贝叶斯公式，因为一般的药品项目名称可以拆分成不超过4个原子字符串，所以在利用贝叶斯公式进行计算的时候，其复杂度并没有很大。即采用贝叶斯公式找到几组合理地分词结果组合以确定要被对照的药品项目名称具体符合那种分词方式，从而准确对照该药品项目名称到现有语料库里的名称。

通过上述步骤S1～S6的实施，便可以建立起了常规药品项目名称的对照匹配模式，对于异构系统间交互的不标准药品项目名称可进行标准化转译，并量化其可靠性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于异构系统的药品项目名称对照转译方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种用于异构系统的药品项目名称对照转译方法，其特征在于，所述步骤S1中的数据提取包括对常规的商业保险和医疗保险的业务结算数据、药品说明书、以及零散临床知识的提取。