CN105956359A - 一种用于异构系统的药品项目名称对照转译方法 - Google Patents

一种用于异构系统的药品项目名称对照转译方法 Download PDF

Info

Publication number
CN105956359A
CN105956359A CN201610234562.1A CN201610234562A CN105956359A CN 105956359 A CN105956359 A CN 105956359A CN 201610234562 A CN201610234562 A CN 201610234562A CN 105956359 A CN105956359 A CN 105956359A
Authority
CN
China
Prior art keywords
character
title
participle
word segmentation
segmentation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610234562.1A
Other languages
English (en)
Other versions
CN105956359B (zh
Inventor
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI JINSHIDA WEINING SOFTWARE TECHNOLOGY Co.,Ltd.
Original Assignee
陈杰
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 陈杰 filed Critical 陈杰
Priority to CN201610234562.1A priority Critical patent/CN105956359B/zh
Publication of CN105956359A publication Critical patent/CN105956359A/zh
Application granted granted Critical
Publication of CN105956359B publication Critical patent/CN105956359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • G06F19/328
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明记载了一种用于异构系统的药品项目名称对照转译方法,包括六个步骤:数据提取及预处理、名称级联搜索、初步统计分词、回归全部预料库并再次分词、确定各分词的合理性以及量化组合分词的差异。使得本发明通过大数据挖掘分析,发现各个地区间三目录的差异,以此为出发点,构建各地各异构系统间的三目录差异特征库,建立可靠的药品项目名称匹配算法,有效替代传统的人工对照匹配三目录并解决异构系统间的三目录对照映射周期较长的问题,充分发挥大数据的价值,提高医疗数据流转效率;同时,也不需要专业的语法分词工具来对各个药品项目名称进行语义分析,从而降低了整个算法过程的复杂度。

Description

一种用于异构系统的药品项目名称对照转译方法
技术领域
本发明涉及医疗卫生领域,尤其涉及一种用于异构系统的药品项目名称对照转译方法。
背景技术
2012年,国务院发布《关于印发“十二五”期间深化医药卫生体制改革规划暨实施方案的通知》,要求积极探索建立重特大疾病保障机制,在提高基本医保最高支付限额和高额医疗费用支付比例的基础上,统筹协调基本医保和商业健康保险政策,积极探索利用基本医保基金购买商业大病保险或建立补充保险等方式,有效提高重特大疾病保障水平。同年发改委等六部委《关于开展城乡居民大病保险工作的指导意见》,明确采取向商业保险机构购买大病保险的方式开展城乡居民大病保险工作。经3年左右的探索与实践,2015年8月,国务院办公厅发布《关于全面实施城乡居民大病保险的意见》,要求在2015年底前,大病保险覆盖所有城镇居民基本医疗保险、新型农村合作医疗(以下统称城乡居民基本医保)参保人群,大病患者看病就医负担有效减轻;到2017年,建立起比较完善的大病保险制度,以“大病保险”为主要代表的商业医疗(健康)保险对于我国基本医疗保险/保障制度的补充作用与地位已基本明确。
然而,随着医保的机构参与方越来越多,如何正确的进行数据交互流转和分析,同时又能对于不同地区的差异性进行分析,以及如何避免因三目录(药品、项目、材料)的编码和名称不一致导致的分析结果假阳性差异等问题急需得到解决。
发明内容
为了解决上述问题,本发明提供一种用于异构系统的药品项目名称对照转译方法,针对目前国家推进全民医保、医疗卫生改革、各方医疗、保险机构参与的背景下,医疗数据(包括结算数据)的流转分析过程中,如何将异构系统中的三目录(药品、诊疗、材料)进行互换转译,形成统一的三目录名称对照标准,促进医疗数据的流转和归集,形成大数据产业,同时提高分析效率和挖掘结果的精准性。同时,采用数据挖掘分析的方式,并通过传统数据库的数据采集工具和网络爬虫建立分析语料库,利用基本的统计分析、关联算法、TF-IDF算法,建立起常规药品项目名称的分词结果库,利用该分词结果库,可能准确识别需要对照转译的第三方不规则的药品项目名称,促进医疗数据的流转分析。
上述的一种用于异构系统的药品项目名称对照转译方法,包括以下步骤:
S1、数据提取及预处理:对于个别药品项目名称不规整或不规则的符号进行筛选;
S2、名称级联搜索:通过余弦公式计算各组项目名称和对照名称的相似度,对大于0.7的对照关系组中的任意名称进行级联查询,拓展出更多的项目对照组可能,直到该组对照词间的相似度低于0.7为止;
S3、初步统计分词:按频次排序,将频数小于1/8分位数的对应关系删去,减少不明显的对应关系干扰;同时,统计分析每组对照的连续相同的字符并插入固定分隔符,形成各组对照的初步分词结果;
S4、回归全部预料库并再次分词:对于字符较长的,算法可以优先尝试在该字符串的开头或结尾删除某个字符,如果删除后的字符串在整个预料可中的出现频率与删除前的频率没有发生明显的变化,则该步骤使得该字符串变得更具有原子性;但对于原子字符串,算法的最低要求是具有至少两个字符;同时,对于单个字符的分词结果,算法更倾向于拓宽字符长度,如果添加后的字符串在整个预料可中的出现频率与添加前的频率没有发生明显的变化,那么执行添加字符操作,合成新的分词结果;
S5、确定各分词的合理性:采用TF-IDF算法,判断各个分词是否普遍于整个语料库,量化每个药品项目名称下的各个分词结果的权重;
S6、量化组合分词的差异:对于分词后的各个分词结果,需要按照一定的顺序组织,采用贝叶斯公式找到几组合理地分词结果组合以确定要被对照的药品项目名称具体符合那种分词方式,从而准确对照该药品项目名称到现有语料库里的名称。
上述方法中,所述步骤S1中的数据提取包括对常规的商业保险和医疗保险的业务结算数据、药品说明书、以及零散临床知识的提取。
本发明的优点和有益效果在于:本发明提供了一种用于异构系统的药品项目名称对照转译方法,通过大数据挖掘分析,发现各个地区间三目录的差异,以此为出发点,构建各地各异构系统间的三目录差异特征库,建立可靠的药品项目名称匹配算法,有效替代传统的人工对照匹配三目录并解决异构系统间的三目录对照映射周期较长的问题,充分发挥大数据的价值,提高医疗数据流转效率;同时,也不需要专业的语法分词工具来对各个药品项目名称进行语义分析,从而降低了整个算法过程的复杂度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明中药品项目名称对照转译方法的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,本发明记载了一种用于异构系统的药品项目名称对照转译方法,包括以下步骤:
S1、数据提取及预处理:对于个别药品项目名称不规整或不规则的符号进行筛选;例如:药品项目名称中带“自费”、“材料费”、“一次性材料”、“中成药自费”、“准字号自费药”、“西药费自费”、“生育其他自费(生育)”、“自费材料”、“自费项目”等等,它们都无法明确具体是什么药品项目,都需要删除。
其中,数据提取包括常规的商业保险和医疗保险的业务结算数据、药品说明书、零散的临床知识的提取;临床知识和药品说明书等准确性毋庸置疑的结果由于量相对业务结算数据量,几乎可以忽略不计,并且其绝对量确实很少(万数量级),能以知识结果入库直接应用。
S2、名称级联搜索:通过余弦公式计算各组项目名称和对照名称的相似度,对大于0.7的对照关系组中的任意名称进行级联查询,拓展出更多的项目对照组可能,直到该组对照词间的相似度低于0.7为止;
例如:
项目名称 对照名称 频次
10%葡萄糖注射液 10%葡萄糖 17
10%葡萄糖注射液 10%葡萄糖注射液(500ml双筏软袋) 40
10%葡萄糖注射液 10%葡萄糖注射液(医) 18
10%葡萄糖注射液 10%葡萄糖注射液(双阀) 117
10%葡萄糖注射液 10%葡萄糖注射液/100ml:10g/袋 89
10%葡萄糖注射液 10%葡萄糖注射液250ml 33
10%葡萄糖注射液 10%葡萄糖注射液☆▲ 241
通过上表可以发现药品10%葡萄糖注射液可能的对照结果,但这对照频次数明显比较少。为了拓宽可能的对照结果,该方法不严格区分项目名称和对照名称的主次关系,级联出更多的对照关系。
S3、初步统计分词:按频次排序,将频数小于1/8分位数的对应关系删去,减少不明显的对应关系干扰;同时,统计分析每组对照的连续相同的字符并插入固定分隔符,形成各组对照的初步分词结果;例如:
将上表按频次排序,将频数小于1/8分位数的对应关系(频次较低)删去,减少不明显的对应关系干扰,并统计分析每组对照的连续相同的字符并插入固定分隔符“‖”,形成各组对照的初步分词结果,即可得到下表:
S4、回归全部预料库并再次分词:对于字符较长的,算法可以优先尝试在该字符串的开头或结尾删除某个字符,如果删除后的字符串在整个预料可中的出现频率与删除前的频率没有发生明显的变化,则该步骤使得该字符串变得更具有原子性;但对于原子字符串,算法的最低要求是具有至少两个字符;同时,对于单个字符的分词结果,算法更倾向于拓宽字符长度,如果添加后的字符串在整个预料可中的出现频率与添加前的频率没有发生明显的变化,那么执行添加字符操作,合成新的分词结果;
由上述表格可知,葡糖糖注射液的大概分词结果包括:葡萄糖注射液、葡萄糖、注射液、10%等字词,验证这些字词的原子性,需要回归到语料库中进行验证。
例如:分词结果中的葡萄糖注射液,它虽然是10%葡萄糖注射液的一种分词结果,但其任然可分。在整个预料库中,还有药品名称为氯化钠注射液,与葡萄糖注射液比较,发现它们共同包含的字符有注射液,说明“葡萄糖注射液”非原子性分词结果,需要结合整个语料库进行进一步分词。
S5、确定各分词的合理性:采用TF-IDF算法,判断各个分词是否普遍于整个语料库,量化每个药品项目名称下的各个分词结果的权重,该TF-IDF(termfrequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,即一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。本步骤具体为:通过上述步骤形成的各个分词结果,基本可以拆分语料库里地所有药品项目名称了,但需要确定具体哪些分词结果强关联哪些药品项目名称。通常的做法是使用关联规则,但具体到例如“注射液”这个字符串,该字符串可能与许多溶液剂的药品项目名称关联度很高,但如果将该字符串作为核心关键字,其判断权重很可能失真。所以本算法亦考虑了此种情况。同时,由于汉语文化的博大精深,会出现“通假字”的情况,例如:吉西他滨,在语料库里存在部分“吉西他宾”,类似的情况不一而足。针对此种情况,我们采纳了电子字典,对于各个原子分词大部分字符“逻辑一致”仅个别汉字的拼音类似的分词进行归并,等同识别。
S6、量化组合分词的差异:对于分词后的各个分词结果,需要按照一定的顺序组织,或者可以理解成不是所有的分词结果以全排列的方式都能找到相应地药品项目名称的,所以该步骤旨在找到几组合理地分词结果组合以确定要被对照的药品项目名称具体符合那种分词方式,从而准确对照该药品项目名称到现有语料库里的名称。该步骤的算法主要采用贝叶斯公式,因为一般的药品项目名称可以拆分成不超过4个原子字符串,所以在利用贝叶斯公式进行计算的时候,其复杂度并没有很大。即采用贝叶斯公式找到几组合理地分词结果组合以确定要被对照的药品项目名称具体符合那种分词方式,从而准确对照该药品项目名称到现有语料库里的名称。
通过上述步骤S1~S6的实施,便可以建立起了常规药品项目名称的对照匹配模式,对于异构系统间交互的不标准药品项目名称可进行标准化转译,并量化其可靠性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种用于异构系统的药品项目名称对照转译方法,其特征在于,包括以下步骤:
S1、数据提取及预处理:对于个别药品项目名称不规整或不规则的符号进行筛选;
S2、名称级联搜索:通过余弦公式计算各组项目名称和对照名称的相似度,对大于0.7的对照关系组中的任意名称进行级联查询,拓展出更多的项目对照组可能,直到该组对照词间的相似度低于0.7为止;
S3、初步统计分词:按频次排序,将频数小于1/8分位数的对应关系删去,减少不明显的对应关系干扰;同时,统计分析每组对照的连续相同的字符并插入固定分隔符,形成各组对照的初步分词结果;
S4、回归全部预料库并再次分词:对于字符较长的,算法可以优先尝试在该字符串的开头或结尾删除某个字符,如果删除后的字符串在整个预料可中的出现频率与删除前的频率没有发生明显的变化,则该步骤使得该字符串变得更具有原子性;但对于原子字符串,算法的最低要求是具有至少两个字符;同时,对于单个字符的分词结果,算法更倾向于拓宽字符长度,如果添加后的字符串在整个预料可中的出现频率与添加前的频率没有发生明显的变化,那么执行添加字符操作,合成新的分词结果;
S5、确定各分词的合理性:采用TF-IDF算法,判断各个分词是否普遍于整个语料库,量化每个药品项目名称下的各个分词结果的权重;
S6、量化组合分词的差异:对于分词后的各个分词结果,需要按照一定的顺序组织,采用贝叶斯公式找到几组合理地分词结果组合以确定要被对照的药品项目名称具体符合那种分词方式,从而准确对照该药品项目名称到现有语料库里的名称。
2.如权利要求1所述的一种用于异构系统的药品项目名称对照转译方法,其特征在于,所述步骤S1中的数据提取包括对常规的商业保险和医疗保险的业务结算数据、药品说明书、以及零散临床知识的提取。
CN201610234562.1A 2016-04-15 2016-04-15 一种用于异构系统的药品项目名称对照转译方法 Active CN105956359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610234562.1A CN105956359B (zh) 2016-04-15 2016-04-15 一种用于异构系统的药品项目名称对照转译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610234562.1A CN105956359B (zh) 2016-04-15 2016-04-15 一种用于异构系统的药品项目名称对照转译方法

Publications (2)

Publication Number Publication Date
CN105956359A true CN105956359A (zh) 2016-09-21
CN105956359B CN105956359B (zh) 2018-06-05

Family

ID=56917481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610234562.1A Active CN105956359B (zh) 2016-04-15 2016-04-15 一种用于异构系统的药品项目名称对照转译方法

Country Status (1)

Country Link
CN (1) CN105956359B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545023A (zh) * 2017-05-11 2018-01-05 新华三大数据技术有限公司 文本型指标的提取方法和装置
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质
CN110970103A (zh) * 2019-10-09 2020-04-07 北京雅丁信息技术有限公司 一种寻找电子病历中诊断与药品相关性的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009026850A1 (en) * 2007-08-23 2009-03-05 Google Inc. Domain dictionary creation
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN102708147A (zh) * 2012-03-26 2012-10-03 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
CN104239500A (zh) * 2014-09-10 2014-12-24 百度在线网络技术(北京)有限公司 保健食品关联知识库构建方法和装置
CN104978347A (zh) * 2014-04-11 2015-10-14 中国中医科学院中医临床基础医学研究所 中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统
CN105184713A (zh) * 2015-07-17 2015-12-23 四川久远银海软件股份有限公司 一种利于医保药品对照的智能匹配排序系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009026850A1 (en) * 2007-08-23 2009-03-05 Google Inc. Domain dictionary creation
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN102708147A (zh) * 2012-03-26 2012-10-03 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
CN104978347A (zh) * 2014-04-11 2015-10-14 中国中医科学院中医临床基础医学研究所 中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统
CN104239500A (zh) * 2014-09-10 2014-12-24 百度在线网络技术(北京)有限公司 保健食品关联知识库构建方法和装置
CN105184713A (zh) * 2015-07-17 2015-12-23 四川久远银海软件股份有限公司 一种利于医保药品对照的智能匹配排序系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄运高 等: "基于 K-means 和 TF-IDF 的中文药名聚类分析", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545023A (zh) * 2017-05-11 2018-01-05 新华三大数据技术有限公司 文本型指标的提取方法和装置
CN107545023B (zh) * 2017-05-11 2020-03-06 新华三大数据技术有限公司 文本型指标的提取方法和装置
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质
CN110970103A (zh) * 2019-10-09 2020-04-07 北京雅丁信息技术有限公司 一种寻找电子病历中诊断与药品相关性的方法

Also Published As

Publication number Publication date
CN105956359B (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
CN107656952B (zh) 平行智能病例推荐模型的建模方法
CN105830064B (zh) 情态生成装置以及计算机可读取记录介质
Biemann Creating a system for lexical substitutions from scratch using crowdsourcing
CN106104519B (zh) 短语对收集装置以及计算机可读取的存储介质
Vicient et al. Unsupervised topic discovery in micro-blogging networks
Hai et al. One seed to find them all: mining opinion features via association
US20070005621A1 (en) Information system using healthcare ontology
CN114817386A (zh) 一种结构化医疗数据生成方法及装置
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN108984500A (zh) 金额信息的提取方法、终端设备及介质
KR101335540B1 (ko) 온톨로지 기반의 문서 분류 방법 및 장치
CN106372117B (zh) 一种基于词共现的文本分类方法及其装置
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
Blohm et al. Using the web to reduce data sparseness in pattern-based information extraction
Zipp et al. Particle verbs across first and second language varieties of English
Delespierre et al. Empirical advances with text mining of electronic health records
CN105956359A (zh) 一种用于异构系统的药品项目名称对照转译方法
Schadd et al. Maasmatch results for oaei 2011
Dong et al. TCMPR: TCM Prescription recommendation based on subnetwork term mapping and deep learning
TWI254880B (en) Method for classifying electronic document analysis
CN104820775A (zh) 一种中药方剂核心药物的发现方法
CN115906805A (zh) 基于词细粒度的长文本摘要生成方法
CN110399493A (zh) 一种基于增量学习的作者消歧方法
CN112667781A (zh) 一种恶性肿瘤文献获取方法及装置
CN106844325A (zh) 医疗信息处理方法和医疗信息处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190426

Address after: Room 902, Baohua Center, 355 Guangzhong Road, Zhabei District, Shanghai

Co-patentee after: Shanghai Jinshida Weining Software Technology Co., Ltd.

Patentee after: Chen Jie

Address before: Room 902, Baohua Center, 355 Guangzhong Road, Zhabei District, Shanghai

Patentee before: Chen Jie

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210409

Address after: 200123 1st floor, No. 65, Lane 799, huanlin East Road, Pudong New Area, Shanghai

Patentee after: SHANGHAI JINSHIDA WEINING SOFTWARE TECHNOLOGY Co.,Ltd.

Address before: Room 902, Baohua Center, 355 Guangzhong Road, Zhabei District, Shanghai

Patentee before: Chen Jie

Patentee before: SHANGHAI JINSHIDA WEINING SOFTWARE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right