CN116662479A - 一种用于医保目录的文本匹配方法 - Google Patents
一种用于医保目录的文本匹配方法 Download PDFInfo
- Publication number
- CN116662479A CN116662479A CN202310496678.2A CN202310496678A CN116662479A CN 116662479 A CN116662479 A CN 116662479A CN 202310496678 A CN202310496678 A CN 202310496678A CN 116662479 A CN116662479 A CN 116662479A
- Authority
- CN
- China
- Prior art keywords
- text
- query
- matching
- matched
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 101710088194 Dehydrogenase Proteins 0.000 description 40
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 description 40
- 238000003556 assay Methods 0.000 description 28
- 239000004310 lactic acid Substances 0.000 description 20
- 235000014655 lactic acid Nutrition 0.000 description 20
- 102000003855 L-lactate dehydrogenase Human genes 0.000 description 14
- 108700023483 L-lactate dehydrogenases Proteins 0.000 description 14
- 238000005259 measurement Methods 0.000 description 12
- 238000002843 lactate dehydrogenase assay Methods 0.000 description 10
- 210000002966 serum Anatomy 0.000 description 9
- 206010048612 Hydrothorax Diseases 0.000 description 8
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 7
- 206010003445 Ascites Diseases 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000006356 dehydrogenation reaction Methods 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 108010050201 2-hydroxybutyrate dehydrogenase Proteins 0.000 description 1
- CYDQOEWLBCCFJZ-UHFFFAOYSA-N 4-(4-fluorophenyl)oxane-4-carboxylic acid Chemical compound C=1C=C(F)C=CC=1C1(C(=O)O)CCOCC1 CYDQOEWLBCCFJZ-UHFFFAOYSA-N 0.000 description 1
- 102100031126 6-phosphogluconolactonase Human genes 0.000 description 1
- 108010029731 6-phosphogluconolactonase Proteins 0.000 description 1
- 101000950981 Bacillus subtilis (strain 168) Catabolic NAD-specific glutamate dehydrogenase RocG Proteins 0.000 description 1
- 108010018962 Glucosephosphate Dehydrogenase Proteins 0.000 description 1
- 102000016901 Glutamate dehydrogenase Human genes 0.000 description 1
- 239000008156 Ringer's lactate solution Substances 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- BMLSTPRTEKLIPM-UHFFFAOYSA-I calcium;potassium;disodium;hydrogen carbonate;dichloride;dihydroxide;hydrate Chemical compound O.[OH-].[OH-].[Na+].[Na+].[Cl-].[Cl-].[K+].[Ca+2].OC([O-])=O BMLSTPRTEKLIPM-UHFFFAOYSA-I 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- NCGMIBYQHQSCGQ-PPHPATTJSA-M levofloxacin sodium Chemical compound [Na+].C([C@@H](N1C2=C(C(C(C([O-])=O)=C1)=O)C=C1F)C)OC2=C1N1CCN(C)CC1 NCGMIBYQHQSCGQ-PPHPATTJSA-M 0.000 description 1
- 239000012567 medical material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 239000008354 sodium chloride injection Substances 0.000 description 1
- 239000001540 sodium lactate Substances 0.000 description 1
- 229940005581 sodium lactate Drugs 0.000 description 1
- 235000011088 sodium lactate Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种用于医保目录的文本匹配方法,包括:获取医疗文本并进行预处理;根据获取的医保目录语料库文档,基于BM25算法分别对各关键词集合进行粗匹配,获得对应的匹配得分;对各关键词集合中第i个关键词与各个文档之间的匹配得分进行降序排列,获得第i个关键词的候选匹配目录文本集,并对关键词集合中所有关键词的候选匹配目录文本集取交集作为对应待匹配文本的候选结果;根据对应的候选结果,利用编辑距离与Jaccard系数对待匹配文本进行精细匹配获得加权相似度,并将加权相似度最大时对应的返回结果作为当前待匹配文本的最终匹配结果。该方法提高了零星报销审核效率和医保费用审核的准确度。
Description
技术领域
本发明属于一种用于医保目录的文本匹配方法领域,具体涉及一种用于医保目录的文本匹配方法。
背景技术
基本医疗保险是社会保险制度中最重要的险种之一,其是为补偿劳动者因疾病风险造成的经济损失而建立的一项社会保险制度。随着全民参保的逐渐深入,尤其是城镇居民、农村居民加入医疗保险以及医保涵盖范围的逐渐增大,待遇享受人次持续升高,医保经办机构在经办医疗费用零星报销业务的压力持续叠加。
医疗费用零星报销作为医保部门的一项重要日常工作,一定程度上反映了医保基金的整体运转情况,备受社会的关注。医保零星报销情况大多数为异地就医或在本地临时应急情况下的就医。每年产生的医疗票据及报销凭证数以亿计,一方面传统的零星报销业务完全依靠医保经办人员通过人工记忆、手动查询等方式进行医保报销审核、拨付报销资金,存在医保零星报销业务工作量大,处理周期较长等弊端,另一方面,医保报销过程中,医保经办人员需要将医疗票据中的医疗机构具体诊疗项目与国家医保目录进行匹配,由于相同国家医保条目对应不同医疗机构中的具体诊疗项目各不相同,加之国家医保目录数据庞大,存在审核不够精准、难度高、效率低、风险大等问题。此外,传统的医疗费用零星报销依赖人工进行逐条审核,花费大量的时间和人工成本,人工录入信息慢,严重依赖工作人员经验,出现错漏只能通过事后检查发现并处置,给基金安全带来隐患。因此,本发明提出了一种用于医保目录的文本匹配方法。
发明内容
本发明的目的在于针对上述问题,提出一种用于医保目录的文本匹配方法,提高了零星报销审核效率和医保费用审核的准确度。
为实现上述目的,本发明所采取的技术方案为:
本发明提出的一种用于医保目录的文本匹配方法,包括如下步骤:
步骤1、获取医疗文本并进行预处理,预处理具体如下:
步骤1.1、利用电子凭证识别医疗文本,并对识别后的医疗文本进行子句切分;
步骤1.2、遍历切分后的子句,对各子句执行如下操作:
步骤1.2.1、对当前子句进行文本清洗形成待匹配文本query;
步骤1.2.2、对待匹配文本query进行分词处理,获得分词词组;
步骤1.2.3、根据构建的停用词表去除分词词组中的停用词,获得关键词集合Term={t1,t2,...,ti,...,tn},ti为第i个关键词,i=1~n,n为关键词集合中关键词的数量;
步骤2、根据获取的医保目录语料库文档d,基于BM25算法分别对各关键词集合Term={t1,t2,...,ti,...,tn}进行粗匹配,获得对应关键词集合中第i个关键词ti与第j个文档之间的匹配得分,1≤j≤docCount,docCount为医保目录语料库文档d中的文档总数;
步骤3、对各关键词集合中第i个关键词ti与各个文档之间的匹配得分进行降序排列,取前M个匹配得分对应的文档组成第i个关键词ti的候选匹配目录文本集Dti,并对关键词集合中所有关键词的候选匹配目录文本集取交集作为对应待匹配文本query的候选结果D={D1,D2,...,Dk,...,Dm},M为预设数量,Dk表示第k个返回结果,m为交集元素个数;
步骤4、根据对应的候选结果D={D1,D2,...,Dk,...,Dm},利用编辑距离与Jaccard系数对待匹配文本query进行精细匹配获得加权相似度,并将加权相似度最大时对应的返回结果作为当前待匹配文本query的最终匹配结果Dmatch。
优选地,基于BM25算法分别对各关键词集合Term={t1,t2,...,ti,...,tn}进行粗匹配,获得对应关键词集合中第i个关键词ti与第j个文档之间的匹配得分,具体如下:
步骤2.1、计算第i个关键词ti在医保目录语料库文档d中的出现频率f(ti,d);
步骤2.2、计算第i个关键词ti与医保目录语料库文档d之间的相关性R(ti,d),公式如下:
其中,FieldLenj为第j个文档内容的长度,avgFieldLen为医保目录语料库文档d中全部文档内容的平均长度,b为权重调节参数,k为词频的饱和度调节参数;
步骤2.3、计算第i个关键词ti出现的文档数f(ti),即医保目录语料库文档d中包含关键词ti的文档个数;
步骤2.4、计算第i个关键词ti的权重IDF(ti),公式如下:
步骤2.5、计算第i个关键词ti与第j个文档之间的匹配得分Score(query,d)ij,公式如下:
优选地,利用编辑距离与Jaccard系数对待匹配文本query进行精细匹配获得加权相似度,具体如下:
步骤4.1、计算待匹配文本query与第k个返回结果Dk之间的编辑距离d(query,Dk),公式如下:
其中,querys为待匹配文本query的第s个字符,Dkt为第k个返回结果Dk的第t个字符,d(query-1,Dk)表示删除querys后的编辑距离,d(query,Dk-1)表示插入Dkt后的编辑距离,d(query-1,Dk-1)表示替换Dkt为querys后的编辑距离;
步骤4.2、计算待匹配文本query与第k个返回结果Dk之间的相似度Scoreedit_dis(query,Dk),公式如下:
步骤4.3、计算待匹配文本query与第i个返回结果Dk之间的Jaccard系数ScoreJaccard(query,Dk),公式如下:
其中,Inter(query,Dk)为待匹配文本query与第i个返回结果Dk之间共现的词汇数目;Union(query,Dk)为待匹配文本query与第i个返回结果Dk构成的合集词汇数目。
步骤4.4、计算加权相似度Score(query,Dk),公式如下:
Score(query,Dk)=ρ1Scoreedit_dis(query,Dk)+ρ2ScoreJaccard(query,Dk)
其中,ρ1+ρ2=1,0<ρ2≤ρ1<1。
优选地,对识别后的医疗文本进行子句切分,具体如下:
对识别后的医疗文本基于正则表达式规则匹配花括号内容进行子句切分。
优选地,文本清洗,具体如下:
对当前子句进行编码形成编码数据;
基于正则表达式规则去除编码数据的无效内容,获得待匹配文本query,无效内容包括空字符、单位符号、html标签、非文本数据、标点符号。
优选地,对当前子句进行编码采用UTF-8编码方式实现。
优选地,对待匹配文本query进行分词处理采用Jieba分词模型实现。
优选地,医疗文本为医疗票据,电子凭证用于进行OCR文字识别。
与现有技术相比,本发明的有益效果为:
本发明通过对获取的医疗文本进行预处理,包括对子句切分后的医疗文本依次进行文本清洗、分词处理、去除停用词操作,并采用BM25算法计算医疗文本与医保目录间的相关性,得到待匹配文本的候选结果,根据候选结果采用编辑距离与Jaccard系数定义加权相似度,得到最终匹配结果,该方法通过将现有技术中人工逐条判断项目类别变为自动匹配,可完成零星报销场景中的审核匹配业务,提高了零星报销审核效率,确保了医保费用审核的准确度。
附图说明
图1为本发明用于医保目录的文本匹配方法的流程图;
图2为本发明预处理的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语均属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
如图1-2所示,一种用于医保目录的文本匹配方法,包括如下步骤:
步骤1、获取医疗文本并进行预处理,预处理具体如下:
步骤1.1、利用电子凭证识别医疗文本,并对识别后的医疗文本进行子句切分;
步骤1.2、遍历切分后的子句,对各子句执行如下操作:
步骤1.2.1、对当前子句进行文本清洗形成待匹配文本query;
步骤1.2.2、对待匹配文本query进行分词处理,获得分词词组;
步骤1.2.3、根据构建的停用词表去除分词词组中的停用词,获得关键词集合Term={t1,t2,...,ti,...,tn},ti为第i个关键词,i=1~n,n为关键词集合中关键词的数量。
在一实施例中,对识别后的医疗文本进行子句切分,具体如下:
对识别后的医疗文本基于正则表达式规则匹配花括号内容进行子句切分。
在一实施例中,文本清洗,具体如下:
对当前子句进行编码形成编码数据;
基于正则表达式规则去除编码数据的无效内容,获得待匹配文本query,无效内容包括空字符、单位符号、html标签、非文本数据、标点符号。具体去除的无效内容还可根据实际需求调整。
在一实施例中,对当前子句进行编码采用UTF-8编码方式实现。或还可采用现有技术中的其他编码方式。
在一实施例中,对待匹配文本query进行分词处理采用Jieba分词模型实现。或还可采用现有技术中的其他分词模型实现。
在一实施例中,医疗文本为医疗票据,电子凭证用于进行OCR文字识别。需要说明的是,医疗文本还可为现有技术中的其他医疗材料,电子凭证可对应识别。
步骤2、根据获取的医保目录语料库文档d,基于BM25算法分别对各关键词集合Term={t1,t2,...,ti,...,tn}进行粗匹配,获得对应关键词集合中第i个关键词ti与第j个文档之间的匹配得分,1≤j≤docCount,docCount为医保目录语料库文档d中的文档总数。
在一实施例中,基于BM25算法分别对各关键词集合Term={t1,t2,...,ti,...,tn}进行粗匹配,获得对应关键词集合中第i个关键词ti与第j个文档之间的匹配得分,具体如下:
步骤2.1、计算第i个关键词ti在医保目录语料库文档d中的出现频率f(ti,d);
步骤2.2、计算第i个关键词ti与医保目录语料库文档d之间的相关性R(ti,d),公式如下:
其中,FieldLenj为第j个文档内容的长度,avgFieldLen为医保目录语料库文档d中全部文档内容的平均长度,b为权重调节参数,k为词频的饱和度调节参数;
步骤2.3、计算第i个关键词ti出现的文档数f(ti),即医保目录语料库文档d中包含关键词ti的文档个数;
步骤2.4、计算第i个关键词ti的权重IDF(ti),公式如下:
步骤2.5、计算第i个关键词ti与第j个文档之间的匹配得分Score(query,d)ij,公式如下:
步骤3、对各关键词集合中第i个关键词ti与各个文档之间的匹配得分进行降序排列,取前M个匹配得分对应的文档组成第i个关键词ti的候选匹配目录文本集Dti,并对关键词集合中所有关键词的候选匹配目录文本集取交集作为对应待匹配文本query的候选结果D={D1,D2,...,Dk,...,Dm},M为预设数量,Dk表示第k个返回结果,m为交集元素个数。
步骤4、根据对应的候选结果D={D1,D2,...,Dk,...,Dm},利用编辑距离与Jaccard系数对待匹配文本query进行精细匹配获得加权相似度,并将加权相似度最大时对应的返回结果作为当前待匹配文本query的最终匹配结果Dmatch。
在一实施例中,利用编辑距离与Jaccard系数对待匹配文本query进行精细匹配获得加权相似度,具体如下:
步骤4.1、计算待匹配文本query与第k个返回结果Dk之间的编辑距离d(query,Dk),公式如下:
其中,querys为待匹配文本query的第s个字符,Dkt为第k个返回结果Dk的第t个字符,d(query-1,Dk)表示删除querys后的编辑距离,d(query,Dk-1)表示插入Dkt后的编辑距离,d(query-1,Dk-1)表示替换Dkt为querys后的编辑距离;
步骤4.2、计算待匹配文本query与第k个返回结果Dk之间的相似度Scoreedit_dis(query,Dk),公式如下:
步骤4.3、计算待匹配文本query与第i个返回结果Dk之间的Jaccard系数ScoreJaccard(query,Dk),公式如下:
其中,Inter(query,Dk)为待匹配文本query与第i个返回结果Dk之间共现的词汇数目;Union(query,Dk)为待匹配文本query与第i个返回结果Dk构成的合集词汇数目。
步骤4.4、计算加权相似度Score(query,Dk),公式如下:
Score(query,Dk)=ρ1Scoreedit_dis(query,Dk)+ρ2ScoreJaccard(query,Dk)
其中,ρ1+ρ2=1,0<ρ2≤ρ1<1。
以下为便于理解进行举例说明,具体实施可进行根据实际情况调整。
如图2所示,医疗文本预处理的具体流程如下:
由于字符格式等多样,首先选取UTF-8编码方式对电子凭证识别后的文本数据进行统一编码,之后通过正则表达式规则去除无效内容,包括空字符、单位符号等,通过设定正则表达式规则精准提取医院项目明细文本数据集,得到医院项目名称,即待匹配文本query,完成文本清洗。如:
(1)电子凭证识别后的文本数据:<[{"itemPrice":"10.00","itemQuantity":1013.00000000,,"nameCoord":"128,4,1038,438","ocrName":"乳酸脱氢酶测定/项002503060050000","pinyin":null,"priceCoord":"1415,309,1581,379","quantityCoord":"2286,309,2374,379","xxx":"xxx",...},{"itemPrice":"4.00","itemQuantity":200.00000000,,"nameCoord":"128,4,1038,438","ocrName":"CK-MBmass)测定C3测定","pinyin":null,"priceCoord":"1415,400,1581,989","quantityCoord":"2240,111,3454,411","xxx":"xxx",...},...]>
(2)待匹配文本query:<乳酸脱氢酶测定/项002503060050000-CK-MBmass)测定C3测定...>
采用Jieba模型对待匹配文本query进行分词处理,获得分词词组,具体如下:在将电子凭证识别产生的文本数据进行文本清洗之后,便可以对最后得到的待匹配文本query进行切分工作,即分词。具体为:对于根据自带的语料资源词典中已经收录的词,首先基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能的成词情况所构成的有向无环图(Directed Acyclic Graph,DAG);其次采用动态规划算法查找最大概率路径,找到基于词频的最大切分组合,即得到分词词组。对于未被收录的词,采用基于汉字成词能力的隐马尔科夫模型(Hidden Markov Model,HMM)及维特比(Viterbi)算法来生成分词词组。为本领域人员熟知的现有技术,在此不再赘述。如:
(1)<乳酸脱氢酶测定/项002503060050000->
(2)<乳酸脱氢酶测定项>
(3)<乳酸脱氢酶脱氢测定项>
之后构造Set集合,将所有的停用词加载到Set集合中。对于文本的分词结果,遍历Set集合,将分词结果依次进行比对。对于比对成功的词语,进行删除操作。如:
(1)删除前:<乳酸脱氢酶脱氢测定项>
(2)删除后:<乳酸脱氢酶脱氢>
(1)基于BM25算法的医疗文本粗匹配,具体如下:
输入:关键词集合Term={t1,t2,...,ti,...,tn}
输出:候选匹配医保目录的集合D={D1,D2,...,Dm}
流程:
1.将得到分词后的关键词集合Term={t1,t2,...,ti,...,tn},利用BM25算法进行检索;
2.计算第i个关键词ti在医保目录语料库文档d中的出现频率,得到f(ti,d),医保目录语料库文档d可为根据实际需求场景人为预先构建的语料库,也可以直接采用现有技术中构建好的语料库;
3.计算第i个关键词ti与医保目录语料库文档d之间的相关性R(ti,d);
4.计算第i个关键词ti的权重IDF(ti);
5.对影响分值的几类分数汇总计算对应的匹配得分Score(query,d)ij;
6.最终分别得到对应关键词的前10条候选匹配目录文本集对/>取交集得到D={D1,D2,...,Dm},m≤10。如:
(1)候选匹配目录文本集:
<乳酸>==》<乳酸脱氢酶测定(干化学法)乳酸脱氢酶测定(速率法)乳酸脱氢酶测定血清乳酸脱氢酶测定脑脊液乳酸脱氢酶测定胸腹水乳酸脱氢酶测定乳酸钠林格注射液乳酸测定血浆乳酸测定(全血乳酸测定加收)乳酸左氧氟沙星氯化钠注射液>
<脱氢酶>==》<乳酸脱氢酶测定(干化学法)乳酸脱氢酶测定(速率法)乳酸脱氢酶测定血清乳酸脱氢酶测定脑脊液乳酸脱氢酶测定胸腹水乳酸脱氢酶测定血清α羟基丁酸脱氢酶测定血糖试片(葡萄糖脱氢酶法)葡萄糖6-磷酸脱氢酶活性检测血清谷氨酸脱氢酶测定>
...
(2)候选结果:<乳酸脱氢酶测定(干化学法)乳酸脱氢酶测定(速率法)乳酸脱氢酶测定血清乳酸脱氢酶测定脑脊液乳酸脱氢酶测定胸腹水乳酸脱氢酶测定>
(2)结合编辑距离与Jaccard系数的精细匹配,具体如下:
输入:相似度计算文本组<query,Dk>
输出:最终匹配结果Dmatch
流程:
1.对待匹配文本query及第k个返回结果Dk进行加权相似度计算并排序,获取最优结果。如:
待匹配文本:
(1)<乳酸脱氢酶测定/项002503060050000->
(2)<乳酸脱氢酶测定项>
(3)<乳酸脱氢酶项>
候选匹配目录文本集:
<乳酸脱氢酶测定(干化学法)>,<乳酸脱氢酶测定(速率法)>,<乳酸脱氢酶测定>,<血清乳酸脱氢酶测定>,<脑脊液乳酸脱氢酶测定>,<胸腹水乳酸脱氢酶测定>分别进行文本预处理得到:
<乳酸脱氢酶干化学法>,<乳酸脱氢酶速率法>,<乳酸脱氢酶>,<血清乳酸脱氢酶>,<脑脊液乳酸脱氢酶>,<胸腹水乳酸脱氢酶>
可以得到对应的相似度计算文本组<query,Dk>
<乳酸脱氢酶项,乳酸脱氢酶干化学法>
<乳酸脱氢酶项,乳酸脱氢酶速率法>
<乳酸脱氢酶项,乳酸脱氢酶>
<乳酸脱氢酶项,血清乳酸脱氢酶>
<乳酸脱氢酶项,脑脊液乳酸脱氢酶>
<乳酸脱氢酶项,胸腹水乳酸脱氢酶>
计算每个文本组的相似度,如下:
(1)计算待匹配文本query与第k个返回结果Dk之间的编辑距离d(query,Dk),计算其相似度Scoreedit_dis(query,Dk),得到:
(2)计算待匹配文本query与第k个返回结果Dk之间的Jaccard系数,得到:
(3)综合进行计算,得到:
Score(query,Dk)=ρ1Scoreedit_dis(query,Dk)+ρ2ScoreJaccard(query,Dk)
得到加权相似度降序排序结果:
<乳酸脱氢酶测定/项002503060050000-,乳酸脱氢酶测定>
<乳酸脱氢酶测定/项002503060050000-,乳酸脱氢酶测定(速率法)>
<乳酸脱氢酶测定/项002503060050000-,乳酸脱氢酶测定(干化学法)>
<乳酸脱氢酶测定/项002503060050000-,血清乳酸脱氢酶>
<乳酸脱氢酶测定/项002503060050000-,脑脊液乳酸脱氢酶>
<乳酸脱氢酶测定/项002503060050000-,胸腹水乳酸脱氢酶>
得到最终匹配结果为<乳酸脱氢酶测定>。
本发明通过对获取的医疗文本进行预处理,包括对子句切分后的医疗文本依次进行文本清洗、分词处理、去除停用词操作,并采用BM25算法计算医疗文本与医保目录间的相关性,得到待匹配文本的候选结果,根据候选结果采用编辑距离与Jaccard系数定义加权相似度,得到最终匹配结果,该方法通过将现有技术中人工逐条判断项目类别变为自动匹配,可完成零星报销场景中的审核匹配业务,提高了零星报销审核效率,确保了医保费用审核的准确度。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种用于医保目录的文本匹配方法,其特征在于:所述用于医保目录的文本匹配方法包括如下步骤:
步骤1、获取医疗文本并进行预处理,所述预处理具体如下:
步骤1.1、利用电子凭证识别医疗文本,并对识别后的医疗文本进行子句切分;
步骤1.2、遍历切分后的子句,对各子句执行如下操作:
步骤1.2.1、对当前子句进行文本清洗形成待匹配文本query;
步骤1.2.2、对待匹配文本query进行分词处理,获得分词词组;
步骤1.2.3、根据构建的停用词表去除分词词组中的停用词,获得关键词集合Term={t1,t2,...,ti,...,tn},ti为第i个关键词,i=1~n,n为关键词集合中关键词的数量;
步骤2、根据获取的医保目录语料库文档d,基于BM25算法分别对各关键词集合Term={t1,t2,...,ti,...,tn}进行粗匹配,获得对应关键词集合中第i个关键词ti与第j个文档之间的匹配得分,1≤j≤docCount,docCount为医保目录语料库文档d中的文档总数;
步骤3、对各关键词集合中第i个关键词ti与各个文档之间的匹配得分进行降序排列,取前M个匹配得分对应的文档组成第i个关键词ti的候选匹配目录文本集Dti,并对关键词集合中所有关键词的候选匹配目录文本集取交集作为对应待匹配文本query的候选结果D={D1,D2,...,Dk,...,Dm},M为预设数量,Dk表示第k个返回结果,m为交集元素个数;
步骤4、根据对应的候选结果D={D1,D2,...,Dk,...,Dm},利用编辑距离与Jaccard系数对待匹配文本query进行精细匹配获得加权相似度,并将加权相似度最大时对应的返回结果作为当前待匹配文本query的最终匹配结果Dmatch。
2.如权利要求1所述的用于医保目录的文本匹配方法,其特征在于:所述基于BM25算法分别对各关键词集合Term={t1,t2,...,ti,...,tn}进行粗匹配,获得对应关键词集合中第i个关键词ti与第j个文档之间的匹配得分,具体如下:
步骤2.1、计算第i个关键词ti在医保目录语料库文档d中的出现频率f(ti,d);
步骤2.2、计算第i个关键词ti与医保目录语料库文档d之间的相关性R(ti,d),公式如下:
其中,FieldLenj为第j个文档内容的长度,avgFieldLen为医保目录语料库文档d中全部文档内容的平均长度,b为权重调节参数,k为词频的饱和度调节参数;
步骤2.3、计算第i个关键词ti出现的文档数f(ti),即医保目录语料库文档d中包含关键词ti的文档个数;
步骤2.4、计算第i个关键词ti的权重IDF(ti),公式如下:
步骤2.5、计算第i个关键词ti与第j个文档之间的匹配得分Score(query,d)ij,公式如下:
3.如权利要求1所述的用于医保目录的文本匹配方法,其特征在于:所述利用编辑距离与Jaccard系数对待匹配文本query进行精细匹配获得加权相似度,具体如下:
步骤4.1、计算待匹配文本query与第k个返回结果Dk之间的编辑距离d(query,Dk),公式如下:
其中,querys为待匹配文本query的第s个字符,Dkt为第k个返回结果Dk的第t个字符,d(query-1,Dk)表示删除querys后的编辑距离,d(query,Dk-1)表示插入Dkt后的编辑距离,d(query-1,Dk-1)表示替换Dkt为querys后的编辑距离;
步骤4.2、计算待匹配文本query与第k个返回结果Dk之间的相似度Scoreedit_dis(query,Dk),公式如下:
步骤4.3、计算待匹配文本query与第i个返回结果Dk之间的Jaccard系数ScoreJaccard(query,Dk),公式如下:
其中,Inter(query,Dk)为待匹配文本query与第i个返回结果Dk之间共现的词汇数目;Union(query,Dk)为待匹配文本query与第i个返回结果Dk构成的合集词汇数目。
步骤4.4、计算加权相似度Score(query,Dk),公式如下:
Score(query,Dk)=ρ1Scoreedit_dis(query,Dk)+ρ2ScoreJaccard(query,Dk)
其中,ρ1+ρ2=1,0<ρ2≤ρ1<1。
4.如权利要求1所述的用于医保目录的文本匹配方法,其特征在于:所述对识别后的医疗文本进行子句切分,具体如下:
对识别后的医疗文本基于正则表达式规则匹配花括号内容进行子句切分。
5.如权利要求1所述的用于医保目录的文本匹配方法,其特征在于:所述文本清洗,具体如下:
对当前子句进行编码形成编码数据;
基于正则表达式规则去除编码数据的无效内容,获得待匹配文本query,所述无效内容包括空字符、单位符号、html标签、非文本数据、标点符号。
6.如权利要求5所述的用于医保目录的文本匹配方法,其特征在于:所述对当前子句进行编码采用UTF-8编码方式实现。
7.如权利要求1所述的用于医保目录的文本匹配方法,其特征在于:所述对待匹配文本query进行分词处理采用Jieba分词模型实现。
8.如权利要求1所述的用于医保目录的文本匹配方法,其特征在于:所述医疗文本为医疗票据,所述电子凭证用于进行OCR文字识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496678.2A CN116662479A (zh) | 2023-04-27 | 2023-04-27 | 一种用于医保目录的文本匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496678.2A CN116662479A (zh) | 2023-04-27 | 2023-04-27 | 一种用于医保目录的文本匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116662479A true CN116662479A (zh) | 2023-08-29 |
Family
ID=87725099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310496678.2A Pending CN116662479A (zh) | 2023-04-27 | 2023-04-27 | 一种用于医保目录的文本匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662479A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216217A (zh) * | 2023-09-19 | 2023-12-12 | 山东汇商脉网络科技有限公司 | 一种档案智能分类与检索方法 |
-
2023
- 2023-04-27 CN CN202310496678.2A patent/CN116662479A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216217A (zh) * | 2023-09-19 | 2023-12-12 | 山东汇商脉网络科技有限公司 | 一种档案智能分类与检索方法 |
CN117216217B (zh) * | 2023-09-19 | 2024-03-22 | 山东汇商脉网络科技有限公司 | 一种档案智能分类与检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059311B (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
Cohen et al. | Exploiting dictionaries in named entity extraction: combining semi-markov extraction processes and data integration methods | |
CN107341264B (zh) | 一种支持自定义实体的电子病历检索系统及方法 | |
CN111178074A (zh) | 一种基于深度学习的中文命名实体识别方法 | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN111950283B (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
CN113282689B (zh) | 基于领域知识图谱的检索方法、装置 | |
Bellare et al. | Learning extractors from unlabeled text using relevant databases | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN115983233B (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN106886565B (zh) | 一种基础房型自动聚合方法 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN108153851B (zh) | 一种基于规则和语义的通用论坛主题帖页面信息抽取方法 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN116662479A (zh) | 一种用于医保目录的文本匹配方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN109344233B (zh) | 一种中文人名识别方法 | |
CN109543001A (zh) | 一种表征科研论文研究内容的科技词条抽取方法 | |
CN115828854B (zh) | 一种基于上下文消歧的高效表格实体链接方法 | |
CN111538805A (zh) | 一种基于深度学习和规则引擎的文本信息抽取方法及系统 | |
CN116720511A (zh) | 一种融合多层图与时序特征的论文推荐方法 | |
Al-Sultany et al. | Enriching tweets for topic modeling via linking to the wikipedia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |