CN114388142B - 一种值域代码映射快速处理方法 - Google Patents

一种值域代码映射快速处理方法 Download PDF

Info

Publication number
CN114388142B
CN114388142B CN202210286596.0A CN202210286596A CN114388142B CN 114388142 B CN114388142 B CN 114388142B CN 202210286596 A CN202210286596 A CN 202210286596A CN 114388142 B CN114388142 B CN 114388142B
Authority
CN
China
Prior art keywords
matching
value
field
value range
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210286596.0A
Other languages
English (en)
Other versions
CN114388142A (zh
Inventor
马攀
张晓宇
石丹杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Ruihua Kangyuan Technology Co ltd
Zhejiang Ruihua Kangyuan Technology Co ltd
Original Assignee
Chengdu Ruihua Kangyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Ruihua Kangyuan Technology Co ltd filed Critical Chengdu Ruihua Kangyuan Technology Co ltd
Priority to CN202210286596.0A priority Critical patent/CN114388142B/zh
Publication of CN114388142A publication Critical patent/CN114388142A/zh
Application granted granted Critical
Publication of CN114388142B publication Critical patent/CN114388142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及值域代码处理领域,具体公开了一种值域代码映射快速处理方法,应用最长公共子序列匹配方法,将值域代码除了文本不同但含义相同特例,还有多个属性字段应参与匹配、属性值不规范的情况,如药品进行统一匹配,提高不同特征值域代码的文本匹配分数问题。提供灵活的匹配规则定义,可以针对值域代码特点,更改规则匹配,提高匹配分数。

Description

一种值域代码映射快速处理方法
技术领域
本发明涉及值域代码处理领域,具体涉及一种值域代码映射快速处理方法。
背景技术
值域代码表示某种共同属性(或特征)的事物(或概念)的允许值集合,值一般由代码、名称组成。
值域代码映射是指同种类型下的两个值域代码,将含义相同的代码建立映射关系的过程。在医疗场景下,通常是由于医院采用了非标准值域代码,在向上级平台上传数据时,需要将数据中的非标准值域代码转为标准值域代码。
在现有值域代码映射过程中,一般采用人工、文本匹配方式。由于医疗值域代码通常数量较多、专业性强,仅依靠人工匹配需要协调较多医疗专业人员参与、耗时长、效率低。
文本匹配主要应用正则表达式、基于分词等匹配方法。值域代码除了文本不同但含义相同特例,还有多个属性字段应参与匹配、属性值不规范的情况,如,药品字典,有通用名、商品名、规格、剂型、生产厂家多个属性。已有方法无法针对值域代码特征优化匹配分数计算,灵活度、准确度不足。
发明内容
针对现有技术中的上述不足,本发明提供了一种值域代码映射快速处理方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种值域代码映射快速处理方法,包括如下步骤:
S1、选择待匹配的医院值域代码,并将其与平台值域代码的类型名称进行匹配,确认类型间的匹配关系;
S2、判断所选择的值域代码类型的类型间的匹配关系是否正确,若否则判认定匹配失败,结束流程;若是,则进入步骤S3;
S3、对确认后的类型间的匹配关系的值域代码进行文本匹配,按匹配分数高低得到所推荐的值域代码匹配结果;
S4、确认所推荐的值域代码匹配结果,并记录对应的映射关系。
进一步的,所述S1中具体包括:
S11、将医院值域代码的类型名称与平台全部值域代码的类型名称进行逐一匹配;
S12、利用最长公共子序列计算匹配分数,并按照匹配分数由高到低推荐类型间的匹配关系。
进一步的,所述S12中匹配分数的计算方式为:
Figure 686073DEST_PATH_IMAGE001
;
其中,
Figure 891927DEST_PATH_IMAGE002
表示不同文本中第
Figure 884153DEST_PATH_IMAGE003
位和第
Figure 782839DEST_PATH_IMAGE004
位之前的最长公共子序列的长度,其中
Figure 24465DEST_PATH_IMAGE005
为第一文本内被拆分出的连续字符串,
Figure 34009DEST_PATH_IMAGE006
为第二文本内被拆分出 的连续字符串。
进一步的,所述S3中值域代码进行文本匹配的具体方式为:
S31、将确认好类型间的匹配关系的医院值域代码的值与平台值域代码的值进行逐一匹配,并计算匹配分数;
S32、按照S31计算的匹配分数的由高到低得到所推荐的文本匹配结果。
进一步的,所述S31中计算匹配分数的具体规则为:
若为单属性字段,则确认匹配字段的文本内容和权重,并设定其默认权重为1;
若为多属性字段,则分别为多个属性的匹配字段分配不同的权重,且其权重和为1;
若为组合字段,则将多个字段合并为一个,视为一个单属性字段进行匹配。
进一步的,所述S32中得到所推荐的文本匹配结果具体方式为:
Figure 880742DEST_PATH_IMAGE007
;
其中,
Figure 684750DEST_PATH_IMAGE008
为值域代码匹配结果数量,
Figure 882513DEST_PATH_IMAGE009
为第
Figure 430169DEST_PATH_IMAGE008
个值域代码匹配结果的分数,
Figure 193726DEST_PATH_IMAGE010
为所 推荐的值域代码匹配结果总数,
Figure 903056DEST_PATH_IMAGE011
为第
Figure 588115DEST_PATH_IMAGE010
个所推荐值域代码匹配分数,
Figure 736200DEST_PATH_IMAGE012
为自动匹配分 数,
Figure 557525DEST_PATH_IMAGE013
为值域代码匹配结果的最低推荐分数,
Figure 700406DEST_PATH_IMAGE014
为最大权重值域代码的最低匹配分数,
Figure 403920DEST_PATH_IMAGE015
为第
Figure 293379DEST_PATH_IMAGE016
个字段的权重,
Figure 969211DEST_PATH_IMAGE017
为值域代码推荐数量阈值。
本发明具有以下有益效果:
一是提高不同特征值域代码的文本匹配分数问题。提供灵活的匹配规则定义,可以针对值域代码特点,更改规则匹配,提高匹配分数。
二是在现阶段都不能实现百分之百含义匹配的场景下,匹配结果百分之百准确问题。一方面由人工确定百分之百匹配规则的定义。另一方面文本匹配仅为人工匹配,提供匹配推荐,最终由人工确认映射关系。
附图说明
图1为本发明一种值域代码映射快速处理方法流程示意图。
图2为本发明实施例值域代码匹配及计算流程示意图。
图3为本发明实施例文本匹配流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
一种值域代码映射快速处理方法,如图1所示,包括如下步骤:
S1、选择待匹配的医院值域代码,并将其与平台值域代码的类型名称进行匹配,确认类型间的匹配关系。
本实施例里,医院、平台之间一般有很多不同类型的值域代码需要匹配,首先需要确认类型间匹配关系,本实施例中,将医院值域代码的类型名称与平台全部值域代码的类型名称逐一进行文本匹配,采用最长公共子序列(以下简称LCS)计算匹配分数,按匹配分数由高到低推荐。
LCS定义:子序列是从最初序列通过去除某些元素但不破坏余下元素的相对位置(在前或在后)而形成的新序列。一个序列,如果分别是两个或多个已知数列的子序列,且是所有符合此条件序列中最长的,则称为已知序列的最长公共子序列。
具体而言,如图2所示:
S11、将医院值域代码的类型名称与平台全部值域代码的类型名称进行逐一匹配;
将文本1、文本2分别拆分为一串连续的字符
Figure 285922DEST_PATH_IMAGE018
Figure 476732DEST_PATH_IMAGE019
设有
Figure 169882DEST_PATH_IMAGE020
表示Xi位和Yj位之前的最长公共子序列的长度;
则有:
Figure 700220DEST_PATH_IMAGE021
Figure 453413DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
表示当X的
Figure 600360DEST_PATH_IMAGE003
位和Y的
Figure 566042DEST_PATH_IMAGE004
位的字符相同时为“1”,否则为“0”。
S12、利用最长公共子序列计算匹配分数,并按照匹配分数由高到低推荐类型间的匹配关系。
匹配分数的计算方式为:
设有
Figure 13204DEST_PATH_IMAGE024
表示文本1与文本2的匹配分数,则
Figure 937298DEST_PATH_IMAGE001
;
其中,
Figure 40383DEST_PATH_IMAGE002
表示不同文本中第
Figure 75335DEST_PATH_IMAGE003
位和第
Figure 377003DEST_PATH_IMAGE004
位之前的最长公共子序列的长度,其中
Figure 206419DEST_PATH_IMAGE005
为第一文本内被拆分出的连续字符串;
Figure 62380DEST_PATH_IMAGE006
为第二文本内被拆分出 的连续字符串。
S2、判断所选择的值域代码类型的类型间的匹配关系是否正确,若否则判认定匹配失败,结束流程;若是,则进入步骤S3;
本实施例里,如图2所示,类型匹配结果由人工确认,从推荐中选择匹配的平台值域代码类型,并进入步骤S3。
S3、对确认后的类型间的匹配关系的值域代码进行文本匹配,按匹配分数高低得到所推荐的值域代码匹配结果;
本实施例里,如图2所示,将医院值域代码的值与平台值域代码的值逐一进行匹配,采用LCS、知识库计算匹配分数。先确认如下匹配规则:
1、确认匹配字段、匹配权重。大多数值域代码值仅由代码、名称组成,默认匹配字段为名称、权重1。可为多个属性字段情况,设置为多个匹配字段、分配不同权重。权重之和为1。
文本匹配分数的计算方式为:
设有A表示医院值域代码,B表示平台值域代码,共配置n个匹配字段。
Am表示A中的第m个匹配字段,Bm表示B中的第m个匹配字段
Pm表示AmBm的单字段匹配分数,匹配过程如图3所示。
Wm表示第m个字段的权重。
P表示AB的匹配分数。
则有:
Figure DEST_PATH_IMAGE025
;
Figure 635443DEST_PATH_IMAGE026
;
2、确认组合字段。若医院、平台值域代码值中一个字段对应另一方多个字段。可以将多个字段合并为一个,视为一个匹配字段。
字段合并公式:
设有
Figure 57198DEST_PATH_IMAGE027
A中多个字段
Figure 323094DEST_PATH_IMAGE028
合并,
则有:
Figure 138122DEST_PATH_IMAGE029
;
3、确认自动匹配分数:当匹配分数超过自动匹配分数后,仅推荐超过自动匹配分数的结果,不推荐低匹配分数结果,默认自动匹配分数为100。
本实施例里,具体的文本匹配结果推荐方式为:
设有自动匹配分数为
Figure 577193DEST_PATH_IMAGE012
值域代码匹配分数结果数量为
Figure 56716DEST_PATH_IMAGE008
,
Figure 227934DEST_PATH_IMAGE009
表示第
Figure 589646DEST_PATH_IMAGE008
个值域代码匹配结果的分数,
所推荐的值域代码匹配结果总数量为
Figure 504512DEST_PATH_IMAGE010
Figure 838541DEST_PATH_IMAGE011
表示第
Figure 242978DEST_PATH_IMAGE010
个所推荐值域代码匹配分 数,且均按分数倒序排列,则有:
Figure 295248DEST_PATH_IMAGE030
本申请中,值域代码匹配结果具有最低分数限制,当匹配分数低于最低分数时,不推荐低于该最低分数的结果,即是
设有
Figure 748226DEST_PATH_IMAGE013
,则
Figure 202341DEST_PATH_IMAGE031
当具有最大权重的字段的值域代码匹配分数低于最低分数时,不推荐低于该分数的结果,在多个匹配字段时,避免最大权重字段匹配分数低,即是:
Figure 777679DEST_PATH_IMAGE032
其中,
Figure 51665DEST_PATH_IMAGE014
为最大权重值域代码的最低分数。
同时,按照数据最后的匹配数量,不推荐大于数量限制的结果,即是值域代码匹配数量具有最大限制,
Figure 573913DEST_PATH_IMAGE034
Figure 679273DEST_PATH_IMAGE017
为最大数据量。
S4、确认所推荐的值域匹配结果,并记录对应的映射关系。
本实施例里为两个文本建立映射关系,匹配分数为常量100。
知识库分数公式:
设知识库中映射文本1、文本2的匹配分数为P,
则有:
Figure 628774DEST_PATH_IMAGE035
最后的匹配结果由人工进行选择并确认,将已记录映射关系中LCS匹配分数低但含义相同的文本添加到知识库,下次文本匹配时,将优先按照知识库进行匹配。知识库即百分之百匹配规则,也可以手动维护知识库。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.一种值域代码映射快速处理方法,其特征在于,包括如下步骤:
S1、选择待匹配的医院值域代码,并将其与平台值域代码的类型名称进行匹配,确认类型间的匹配关系;
S2、判断所选择的值域代码类型的类型间的匹配关系是否正确,若否则判认定匹配失败,结束流程;若是,则进入步骤S3;
S3、对确认后的类型间的匹配关系的值域代码进行文本匹配,按匹配分数高低得到所推荐的值域代码匹配结果,具体方式为:
S31、将确认好类型间匹配关系的医院值域代码的值与平台值域代码的值进行逐一匹配,并计算匹配分数;其中,若为单属性字段,则确认匹配字段的文本内容和权重,并设定其默认权重为1;
若为多属性字段,则分别为多个属性的匹配字段分配不同的权重,且其权重和为1;
若为组合字段,则将多个字段合并为一个,视为一个单属性字段进行匹配;
S32、按照S31计算的匹配分数的由高到低得到所推荐的文本匹配结果,具体的推荐方式为:
Figure FDA0003631899690000011
其中,k为值域代码匹配结果数量,Pk为第k个值域代码匹配结果的分数,l为所推荐的值域代码匹配结果总数,RPl为第l个所推荐值域代码匹配分数,AP为自动匹配分数,LP为值域代码匹配结果的最低推荐分数,WLP为最大权重值域代码的最低匹配分数,Wm为第m个字段的权重,LN为值域代码推荐数量阈值;
S4、确认所推荐的值域代码匹配结果,并记录对应的映射关系。
2.根据权利要求1所述的一种值域代码映射快速处理方法,其特征在于,所述S1中具体包括:
S11、将医院值域代码的类型名称与平台全部值域代码的类型名称进行逐一匹配;
S12、利用最长公共子序列计算匹配分数,并按照匹配分数由高到低得到所推荐的类型间的匹配关系。
3.根据权利要求2所述的一种值域代码映射快速处理方法,其特征在于,所述S12中匹配分数的计算方式为:
Figure FDA0003631899690000021
其中,C(i,j)表示不同文本中第i位和第j位之前的最长公共子序列的长度。
CN202210286596.0A 2022-03-23 2022-03-23 一种值域代码映射快速处理方法 Active CN114388142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210286596.0A CN114388142B (zh) 2022-03-23 2022-03-23 一种值域代码映射快速处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210286596.0A CN114388142B (zh) 2022-03-23 2022-03-23 一种值域代码映射快速处理方法

Publications (2)

Publication Number Publication Date
CN114388142A CN114388142A (zh) 2022-04-22
CN114388142B true CN114388142B (zh) 2022-06-21

Family

ID=81205224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210286596.0A Active CN114388142B (zh) 2022-03-23 2022-03-23 一种值域代码映射快速处理方法

Country Status (1)

Country Link
CN (1) CN114388142B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502615A (zh) * 2019-08-28 2019-11-26 中国医学科学院医学信息研究所 卫生信息数据元标准数据生成方法及系统
CN111292820A (zh) * 2020-05-08 2020-06-16 成都金盘电子科大多媒体技术有限公司 医疗信息化数据标准体系快速构建系统、方法及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463417B1 (en) * 2000-02-22 2002-10-08 Carekey.Com, Inc. Method and system for distributing health information
US7548915B2 (en) * 2005-09-14 2009-06-16 Jorey Ramer Contextual mobile content placement on a mobile communication facility
CN103365777B (zh) * 2013-07-04 2015-12-02 卫生部统计信息中心 一种测试用例生成方法及系统
CN110246592B (zh) * 2019-06-25 2023-07-14 山东浪潮智慧医疗科技有限公司 实现医疗机构异构数据值域代码标准化的映射方法及系统
CN111797207B (zh) * 2020-07-14 2024-03-26 山东浪潮智慧医疗科技有限公司 一种实现医院诊断数据标准化的方法
CN113807657A (zh) * 2021-08-18 2021-12-17 山东健康医疗大数据有限公司 一种实现医院药品数据标准化的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502615A (zh) * 2019-08-28 2019-11-26 中国医学科学院医学信息研究所 卫生信息数据元标准数据生成方法及系统
CN111292820A (zh) * 2020-05-08 2020-06-16 成都金盘电子科大多媒体技术有限公司 医疗信息化数据标准体系快速构建系统、方法及服务器

Also Published As

Publication number Publication date
CN114388142A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN108509484B (zh) 分类器构建及智能问答方法、装置、终端及可读存储介质
US8532988B2 (en) Searching for symbol string
WO2022134421A1 (zh) 基于多知识图谱的智能答复方法、装置、计算机设备及存储介质
CN104036187B (zh) 计算机病毒类型确定方法及其系统
CN110600057B (zh) 演奏声音信息和曲谱信息比对方法及比对系统
CN107807915B (zh) 基于纠错平台的纠错模型建立方法、装置、设备和介质
CN109829478B (zh) 一种基于变分自编码器的问题分类方法和装置
CN112162977B (zh) 一种面向mes的海量数据去冗余方法和系统
WO2019201295A1 (zh) 文件识别方法和特征提取方法
CN114091450A (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
CN114388142B (zh) 一种值域代码映射快速处理方法
CN113420291B (zh) 基于权重集成的入侵检测特征选择方法
CN112182243B (zh) 基于实体识别模型构建知识图谱的方法、终端及存储介质
US20220318506A1 (en) Method and apparatus for event extraction and extraction model training, device and medium
CN111950274A (zh) 一种专业领域语料的中文分词方法及装置
CN114580354B (zh) 基于同义词的信息编码方法、装置、设备和存储介质
CN108810640B (zh) 一种电视节目的推荐方法
CN116304728A (zh) 一种基于句子表征的短文本相似度匹配方法及应用
CN112765136B (zh) 医学编码词典的存储方法、升级方法和装置
CN113190508B (zh) 一种面向管理的自然语言识别方法
CN109271584B (zh) 基于改进版PageRank以及综合影响力的推荐方法
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN110781304B (zh) 一种利用单词信息聚类的句子编码方法
CN112132367A (zh) 一种用于企业经营管理风险识别的建模方法及装置
CN113609304B (zh) 一种实体匹配方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230802

Address after: Room 1501, 15th Floor, Unit 1, Building 1, No. 333 Jiqing Third Road, Chengdu High tech Zone, China (Sichuan) Pilot Free Trade Zone, Chengdu City, Sichuan Province, 610000

Patentee after: Chengdu Ruihua Kangyuan Technology Co.,Ltd.

Patentee after: ZHEJIANG RUIHUA KANGYUAN TECHNOLOGY Co.,Ltd.

Address before: 610000 No. 601, 611, 612 and 613, 6 / F, building 1, No. 530, middle section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan

Patentee before: Chengdu Ruihua Kangyuan Technology Co.,Ltd.