CN102622337A - 基于ihe pix规范的中文自然语言信息匹配方法 - Google Patents

基于ihe pix规范的中文自然语言信息匹配方法 Download PDF

Info

Publication number
CN102622337A
CN102622337A CN201210043588XA CN201210043588A CN102622337A CN 102622337 A CN102622337 A CN 102622337A CN 201210043588X A CN201210043588X A CN 201210043588XA CN 201210043588 A CN201210043588 A CN 201210043588A CN 102622337 A CN102622337 A CN 102622337A
Authority
CN
China
Prior art keywords
matching
chinese
pix
coupling
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210043588XA
Other languages
English (en)
Other versions
CN102622337B (zh
Inventor
马雄伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHEJIANG HEREN TECHNOLOGY CO., LTD.
Original Assignee
ZHEJIANG HEREN HEALTH SERVICES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHEJIANG HEREN HEALTH SERVICES Co Ltd filed Critical ZHEJIANG HEREN HEALTH SERVICES Co Ltd
Priority to CN201210043588.XA priority Critical patent/CN102622337B/zh
Publication of CN102622337A publication Critical patent/CN102622337A/zh
Application granted granted Critical
Publication of CN102622337B publication Critical patent/CN102622337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种利用IHE PIX规范所实现的个人主索引(MPI)或企业级个人主索引(eMPI)系统,在中文语言环境下完成信息匹配的方法。本发明先将需要匹配的输入项转换为一定格式的拼音,再利用配置文件事先定义的算法和匹配阀值进行匹配,最后利用PIX交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI系统计算最终匹配值。本发明可以根据实际需要设置模糊音、通配符,并设置需匹配的属性、调节属性所占权重及匹配阀值上限,使匹配结果按照需求进行设计和调整,有助于解决录入过程中由于中文发音不准、录入失误等原因引起的信息匹配不准或遗漏,提高匹配成功率。

Description

基于IHE PIX规范的中文自然语言信息匹配方法
技术领域
本发明涉及一种在中文自然语言环境下的信息匹配方法,尤其是在构建IHE PIX规范下的交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI时的中文自然语言信息匹配方法。
背景技术
随着用户需求的不断变化和增加,机构信息系统数量越来越多,机构内部、机构之间的信息孤岛现象也越来越严重,同一机构的不同时期、不同机构所建设的信息系统在编码方面没有统一的标准,这使得系统中存在多种重复的、或需要合并的信息,例如相同的用户信息在这些系统中存在多个,它们之间的信息无法相互关联,导致该用户的信息无法被完整地获取。尤其在一些行业例如医疗卫生,当患者在不同医院、不同时候进行登记挂号时,其登记的个人信息可能存在偏差甚至误写,这直接导致该患者在这些医院中的信息无法关联,其诊疗信息也相应地缺失。
解决这一问题尽管有很多种方案,但由于这些方案的思路和方法各不相同,导致按照这些方案整合后的系统在将来互连时仍是信息孤岛。IHE(Integration Healthcare Enterprise,集成医疗企业)概念是由美国的医学专家和相关部门、信息技术专家和企业共同发起的,目的是提供一种更好的方法让医学信息系统之间更好地进行集成,1988年由北美放射协会(RSNA)和国际医疗信息管理系统协会(HIMSS)两个组织牵头,组织有关学会和设备厂商共同建立了IHE,至目前IHE已经取得了强有力的国际支持,2005年IHE中国开始筹备,并于2007年8月18日成立,IHE体系规范已经成为中国医疗卫生改革中信息化建设的理论支撑。
IHE PIX(Patient Identifer Cross-referencing)集成规范可用于各种规模的医疗机构,以保证位于这些机构内的多个患者ID之间,提供同一个患者的不同ID的相互索引。在实际应用环境中,有些机构希望能建立个人主索引(MPI, master patient identifiers)或机构级个人主索引(eMPI,  enterprise master patient identifiers)系统,此时构建的个人主索引相对其他各机构系统的索引有更大的应用范围。
IHE PIX规范下的交叉索引管理器(PIX)、个人主索引(MPI)以及机构级的个人主索引(eMPI)实现的核心思路是一致的,可以说eMPI系统是PIX集成规范实施过程的一个特例,它是个人信息标识源与PIX管理器的结合体。PIX管理器的核心功能之一是个人身份信息匹配,这方面国外已经有比较成熟的算法,包括基于英文的身份信息相似度计算。
在国内,个人身份信息完整性存在的最大困难在于信息在登记时,身份信息填写不规范、相关信息填写不全、关键信息经常变更等,特别是同音词、模糊音词等在信息填写和收集时常常存在较大的偏差,例如“张山(shan)”与“张三(san)”,使得PIX管理器在进行个人身份信息匹配时存在较大的难度,或者在进行严格匹配时会遗漏属于同一个身份的多条信息。图1说明在未经本专利设定方法进行PIX交叉索引管理器匹配时的流程。图2为未经本发明所述方法进行PIX交叉索引管理器匹配时的实例说明。
解决PIX管理器在中文自然语言环境下的信息匹配方法,是将输入源待匹配的中文信息按照同音词、模糊音,以及通配符规则进行预处理,再利用国内外成熟的PIX管理器个人身份信息匹配算法完成匹配。
发明内容
本发明为解决上述问题,提供了一种基于IHE PIX规范的中文自然语言信息匹配方法,利用拼音模糊音、通配符,对机构内大量的个人身份信息进行相似度匹配,提高匹配的范围。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
基于IHE PIX规范的中文自然语言信息匹配方法,针对中文自然语言,利用汉语拼音转化匹配项,并利用IHE PIX规范所实现的交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI系统进行匹配,其特征在于:
通过定义模糊音,扩大可能的匹配范围;
通过定义通配符,对匹配项设置有规律的匹配需求;
包括以下步骤:
1)在配置文件中设置匹配项属性、可采用的模糊音或通配符,并设置该匹配项属性所占权重、匹配阀值上限;
2)输入需要待匹配的信息,若为中文则依据配置文件转换为拼音清单;
3)匹配目标值若为中文的,则转换为标准拼音;
4)输入到交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI系统执行匹配;
5)计算出的最终匹配值,并返回匹配、不匹配结果。
本发明提供的用户输入源信息匹配方法,可以根据实际需要配置待匹配属性、调节匹配属性所占权重及匹配阀值上限,使匹配结果更加可靠,还能处理由于中文发音不准,录入失误等原因引起的信息不准,提高匹配范围和匹配率。
附图说明
图1为未经本发明所述方法进行PIX交叉索引管理器匹配时的流程。
图2为未经本发明所述方法进行PIX交叉索引管理器匹配时的实例。
图3为使用本发明所述方法进行PIX交叉索引管理器的匹配流程。
图4为使用本发明所述方法进行PIX交叉索引管理器的匹配流程实例。
具体实施方式
下面结合实施例对本发明作进一步详细描述。
如图3所示,本发明的匹配方法包括以下步骤:
1)在配置文件中设置匹配项属性、可采用的模糊音或通配符,并设置该匹配项属性所占权重、匹配阀值上限;
2)输入需要待匹配的信息,若为中文则依据配置文件转换为拼音清单;
3)匹配目标值若为中文的,则转换为标准拼音;
4)输入到交叉索引管理器执行匹配;
5)计算出的最终匹配值,并返回匹配、不匹配结果。
对个人身份信息输入源的预处理过程,就是将输入源信息按照规则转换为拼音,考虑到中文自然语言的复杂性,将平音、翘舌音、后鼻音、地方口音相关的发音,设置为可模糊匹配,彻底解决PIX索引管理器在中文语言环境下的输入源信息匹配问题。
一个预处理过程的规则文件包含:等同项、权重、禁用/启用,在PIX交叉索引管理器工作时,读取规则进行转换。
在PIX交叉索引管理器具体工作时,会有多项个人身份信息输入源,例如姓名、居住地址、身份证号、工作地址、手机号码等,当输入源信息为中文时,首先将其按照规则文件设定,形成可能的输入源信息转换表,再提交PIX交叉索引管理器进行匹配,多个匹配结果按照权值进行累加,满足整体权重的匹配结果被认为匹配通过。
如图4所示,现有系统A存放了用户的基本属性,包括姓名、性别、居住地址、身份证号,在PIX交叉索引管理器设计时,要求使用如下规则:
1. 匹配项及其总体权重要求如下:
姓名:20%;身份证号:80%
2. 要求对“姓名”进行模糊匹配,具体要求是:
(1)sh与s等同,权重设置为70%;
(2)ch与c等同,权重设置为90%;
(3)zh与z等同,权重设置为90%;
(4)eng与en等同,权重设置为90%;
(5)ing与in等同,权重设置为100%;
(6)符合四川地方口音对“h”和“f”的模糊音识别,权重设置为95%;
3. 最终匹配权重设置为90%。
系统A中已有一条记录:
姓名 性别 居住地址 身份证号
张山风 四川省新津县吴旗县利辛村 320123197802116311
现有输入源:
姓名:张三丰
身份证号:320123197802116311
未使用本发明时,输入源与系统A的数据由于姓名不同,因此不匹配。
使用本发明后:
姓名项输入为:张三丰
姓名项拼音为:zhangsanfeng
规则同意:sh=s,eng=en,因此姓名项应扩大为:zhangsanfeng, zhangshanfen
已存在记录的姓名项:zhangshanfeng
匹配结果:在匹配“姓名”时,按规则文件说明,sh=s占70%,eng=en占90%,此项实际值为0.63,整个匹配结果中:“姓名”占0.63×20%=0.126;“身份证号”占0.8,最终结果为:0.126+0.8=0.926,系统判断“张山风”和“张三丰”为同一个人。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (1)

1.基于IHE PIX规范的中文自然语言信息匹配方法,针对中文自然语言,利用汉语拼音转化匹配项,并利用IHE PIX规范所实现的交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI系统进行匹配,其特征在于:
通过定义模糊音,扩大可能的匹配范围;
通过定义通配符,对匹配项设置有规律的匹配需求;
包括以下步骤:
1)在配置文件中设置匹配项属性、可采用的模糊音或通配符,并设置该匹配项属性所占权重、匹配阀值上限;
2)输入需要待匹配的信息,若为中文则依据配置文件转换为拼音清单;
3)匹配目标值若为中文的,则转换为标准拼音;
4)输入到交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI系统执行匹配;
5)计算出的最终匹配值,并返回匹配、不匹配结果。
CN201210043588.XA 2012-02-24 2012-02-24 基于ihe pix规范的中文自然语言信息匹配方法 Active CN102622337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210043588.XA CN102622337B (zh) 2012-02-24 2012-02-24 基于ihe pix规范的中文自然语言信息匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210043588.XA CN102622337B (zh) 2012-02-24 2012-02-24 基于ihe pix规范的中文自然语言信息匹配方法

Publications (2)

Publication Number Publication Date
CN102622337A true CN102622337A (zh) 2012-08-01
CN102622337B CN102622337B (zh) 2014-05-07

Family

ID=46562260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210043588.XA Active CN102622337B (zh) 2012-02-24 2012-02-24 基于ihe pix规范的中文自然语言信息匹配方法

Country Status (1)

Country Link
CN (1) CN102622337B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870668A (zh) * 2012-12-17 2014-06-18 上海联影医疗科技有限公司 一种面向区域医疗的病人主索引建立方法和装置
CN111414366A (zh) * 2020-03-26 2020-07-14 Tcl移动通信科技(宁波)有限公司 一种联系人保存及查找的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727535A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种跨系统患者交叉索引方法及其系统
CN201886477U (zh) * 2010-08-10 2011-06-29 杭州电子科技大学 一种基于ihe pix的医疗影像转诊设备
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
CN102214238A (zh) * 2011-07-01 2011-10-12 临沂大学 一种汉语词语相近性匹配装置及方法
CN102314478A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种患者身份识别与匹配的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727535A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种跨系统患者交叉索引方法及其系统
CN201886477U (zh) * 2010-08-10 2011-06-29 杭州电子科技大学 一种基于ihe pix的医疗影像转诊设备
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
CN102214238A (zh) * 2011-07-01 2011-10-12 临沂大学 一种汉语词语相近性匹配装置及方法
CN102314478A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种患者身份识别与匹配的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870668A (zh) * 2012-12-17 2014-06-18 上海联影医疗科技有限公司 一种面向区域医疗的病人主索引建立方法和装置
CN111414366A (zh) * 2020-03-26 2020-07-14 Tcl移动通信科技(宁波)有限公司 一种联系人保存及查找的方法

Also Published As

Publication number Publication date
CN102622337B (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN110032728B (zh) 疾病名称标准化的转换方法和装置
Pine The qualculative dimension of healthcare data interoperability
Moses III et al. Biomedical research in an age of austerity
CN110580942A (zh) 一种新型体检报告生成方法、装置、介质及终端设备
Rosenzweig et al. Sibling deaths in the anamneses of schizophrenic patients
Diehl et al. Systolic Blood Pressures in Young Men: Including a Special Study of Those with Hypertension
JP6679954B2 (ja) 属性付与制御プログラム、情報処理装置および属性付与制御方法
Nafilyan et al. Evaluation of risk factors for postbooster Omicron COVID-19 deaths in England
CN102622337B (zh) 基于ihe pix规范的中文自然语言信息匹配方法
Abbasi et al. How the Supreme Court’s COVID-19 vaccine mandate rulings could shape the pandemic’s next phase
Van Nooten et al. Improving Dutch vaccine hesitancy monitoring via multi-label data augmentation with GPT-3.5
Chitwood et al. Estimated testing, tracing, and vaccination targets for containment of the US mpox outbreak
US20180285438A1 (en) Database system and method for identifying a subset of related reports
Bushinak et al. Recognizing the electronic medical record data from unstructured medical data using visual text mining techniques
van Mens et al. Clarifying diagnoses to laymen by employing the SNOMED CT hierarchy
Adams et al. Assessing the prospects for physician supply and demand in Canada: wishing it was rocket science
BERKOFF CONTACT DERMATITIS FROM HORN-RIMMED SPECTACLES: REPORT OF A CASE
CN108231152A (zh) 医疗处方结果生成方法与装置
CN107169278A (zh) 一种数据治理方法及医疗信息化系统
Uskenbayeva et al. Technology of integration of diverse databases on the example of medical records
Pourtaheri et al. Impact of a Cleft and craniofacial center on an academic health system
Smith Adenoma of the trachea
Hugo et al. Clarifying Diagnoses to Laymen by
JAMBOR et al. BENIGN INOCULATION LYMPHORETICULOSIS (CAT-SCRATCH DISEASE): Report of Two Cases with Positive Skin Tests
Chevarley STATISTICAL BRIEF# 485

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: ZHEJIANG HEREN TECHNOLOGY CO., LTD.

Free format text: FORMER NAME: ZHEJIANG HEREN TECHNOLOGY LTD.

CP01 Change in the name or title of a patent holder

Address after: Hangzhou City, Zhejiang province 310053 Dongxin Road No. 66 building E Room 302

Patentee after: ZHEJIANG HEREN TECHNOLOGY CO., LTD.

Address before: Hangzhou City, Zhejiang province 310053 Dongxin Road No. 66 building E Room 302

Patentee before: Zhejiang Heren Health Services Co., Ltd.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Hangzhou City, Zhejiang Province, 310000 Binjiang District West Road No. 625 New Street

Patentee after: ZHEJIANG HEREN TECHNOLOGY CO., LTD.

Address before: Hangzhou City, Zhejiang province 310053 Dongxin Road No. 66 building E Room 302

Patentee before: ZHEJIANG HEREN TECHNOLOGY CO., LTD.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Chinese natural language information matching method based on IHE pix specification

Effective date of registration: 20220614

Granted publication date: 20140507

Pledgee: Industrial and Commercial Bank of China Limited Hangzhou Qianjiang Branch

Pledgor: ZHEJIANG HEREN TECHNOLOGY Co.,Ltd.

Registration number: Y2022330000936