CN112733528B - 医学数据的对码方法、装置、设备及存储介质 - Google Patents
医学数据的对码方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112733528B CN112733528B CN202011635794.0A CN202011635794A CN112733528B CN 112733528 B CN112733528 B CN 112733528B CN 202011635794 A CN202011635794 A CN 202011635794A CN 112733528 B CN112733528 B CN 112733528B
- Authority
- CN
- China
- Prior art keywords
- matching
- medical
- statement
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及人工智能领域,公开了医学数据的对码方法、装置、设备及存储介质,应用于智慧医疗领域,用于缩短数据对码的时长,提高对码效率。本发明方法包括:获取原始数据,其中,原始数据为需要对码的原始医疗语句;对原始数据进行预处理,得到初始医疗语句;调用预置的置信度模型对初始医疗语句进行匹配,得到目标匹配结果;若目标匹配结果中包括目标医疗匹配语句,则将目标医疗匹配语句确定为初始医疗语句对应的正确对码语句并进行标记,其中,正确对码语句为不需要校验的医疗语句;若目标匹配结果中不包括目标医疗匹配语句,则调用预置的相似度模型对初始医疗语句进行匹配,得到多个候选对码语句,其中,候选对码语句为需要校验的医疗语句。
Description
技术领域
本发明涉及关键字匹配领域,尤其涉及一种医学数据的对码方法、装置、设备及存储介质。
背景技术
现阶段,各医院系统数据仍未标准化,医保局在对诊疗、疾病、开药等医疗数据进行分析时,如果不对这些术语化的数据进行标准化,则很难有效地利用这些数据进行大数据分析及其他相关的应用。
目前,市场上虽有一些医学数据治理的产品,但是这些产品对码后的结果,没有明确标识出哪些数据结果是100%准确的,哪些可能正确但仍需人工去核验。导致对医学数据进行对码后,得到的数据仍然需要核验。
发明内容
本发明提供了一种医学数据的对码方法、装置、设备及存储介质,用于缩短数据对码的时长,并提高对码效率。
本发明实施例的第一方面提供一种医学数据的对码方法,包括:获取原始数据,其中,所述原始数据为需要对码的原始医疗语句;对所述原始数据进行预处理,得到初始医疗语句;调用预置的置信度模型对所述初始医疗语句进行匹配,得到目标匹配结果;若所述目标匹配结果中包括目标医疗匹配语句,则将所述目标医疗匹配语句确定为所述初始医疗语句对应的正确对码语句并进行标记,其中,所述正确对码语句为不需要校验的医疗语句;若所述目标匹配结果中不包括所述目标医疗匹配语句,则调用预置的相似度模型对所述初始医疗语句进行匹配,得到多个候选对码语句,其中,所述候选对码语句为需要校验的医疗语句。
可选的,在本发明实施例第一方面的第一种实现方式中,所述调用预置的置信度模型对所述初始医疗语句进行匹配,得到目标匹配结果,包括:通过预置的置信度模型中的Lucene索引库对所述初始医疗语句中的多个目标词语进行第一次匹配,得到第一匹配结果;若所述第一匹配结果为空,则调用预置规则引擎对所述多个目标词语进行第二次匹配,得到第二匹配结果;若所述第二匹配结果为空,则根据召回数据对所述初始医疗语句进行评分,并根据评分结果确定目标匹配结果。
可选的,在本发明实施例第一方面的第二种实现方式中,所述若所述第二匹配结果为空,则根据召回数据对所述初始医疗语句进行评分,并根据评分结果确定目标匹配结果,包括:若所述第二匹配结果为空,则在所述Lucene索引库中进行数据召回,得到多个召回语句;调用预置公式对所述多个召回语句和所述初始医疗语句依次进行评分并按照分值大小进行降序排列,得到分值序列;计算所述分值序列中位于前两位的第一分值与第二分值的比值;若所述比值大于阈值,则将所述第一分值对应的语句确定为目标匹配结果。
可选的,在本发明实施例第一方面的第三种实现方式中,所述若所述目标匹配结果中不包括所述目标医疗匹配语句,则调用预置的相似度模型对所述初始医疗语句进行匹配,得到多个候选对码语句,其中,所述候选对码语句为需要校验的医疗语句,包括:若所述目标匹配结果中不包括所述目标医疗匹配语句,则调用预置的相似度模型;通过所述预置的相似度模型计算Lucene索引库中每个语句与所述初始医疗语句的相似度,得到多个相似度值及对应的多个候选语句;将所述多个相似度值进行降序排列,得到相似度序列;在所述相似度序列中选择排序前列的N个相似度,并将所述N个相似度对应的N个需要校验的医疗语句确定为候选对码语句,得到多个候选对码语句,其中,N为正整数。
可选的,在本发明实施例第一方面的第四种实现方式中,所述对所述原始数据进行预处理,得到初始医疗语句,包括:将所述原始数据的全角字符转换为半角字符,得到半角语句;删除所述半角语句中的停用词,得到无停顿语句;将所述无停顿语句中的标点符号进行删除,得到无标点语句;对所述无标点语句进行同义词替换,生成初始医疗语句。
可选的,在本发明实施例第一方面的第五种实现方式中,在所述获取原始数据之前,所述医学数据的对码方法还包括:生成Lucene索引库。
可选的,在本发明实施例第一方面的第六种实现方式中,所述生成Lucene索引库,包括:获取不同基表版本的业务数据,并根据所述业务数据构建多个同义词基表;对所述多个同义词基表进行预处理,得到处理后的同义词基表;基于所述处理后的同义词基表生成Lucene索引库。
本发明实施例的第二方面提供了一种医学数据的对码装置,包括:数据获取模块,用于获取原始数据,其中,所述原始数据为需要对码的原始医疗语句;预处理模块,用于对所述原始数据进行预处理,得到初始医疗语句;第一匹配模块,用于调用预置的置信度模型对所述初始医疗语句进行匹配,得到目标匹配结果;确定标记模块,若所述目标匹配结果中包括目标医疗匹配语句,则用于将所述目标医疗匹配语句确定为所述初始医疗语句对应的正确对码语句并进行标记,其中,所述正确对码语句为不需要校验的医疗语句;第二匹配模块,若所述目标匹配结果中不包括所述目标医疗匹配语句,则用于调用预置的相似度模型对所述初始医疗语句进行匹配,得到多个候选对码语句,其中,所述候选对码语句为需要校验的医疗语句。
可选的,在本发明实施例第二方面的第一种实现方式中,第一匹配模块包括:第一匹配单元,用于通过预置的置信度模型中的Lucene索引库对所述初始医疗语句中的多个目标词语进行第一次匹配,得到第一匹配结果;第二匹配单元,若所述第一匹配结果为空,则用于调用预置规则引擎对所述多个目标词语进行第二次匹配,得到第二匹配结果;评分确定单元,若所述第二匹配结果为空,则用于根据召回数据对所述初始医疗语句进行评分,并根据评分结果确定目标匹配结果。
可选的,在本发明实施例第二方面的第二种实现方式中,评分确定单元具体用于:若所述第二匹配结果为空,则在所述Lucene索引库中进行数据召回,得到多个召回语句;调用预置公式对所述多个召回语句和所述初始医疗语句依次进行评分并按照分值大小进行降序排列,得到分值序列;计算所述分值序列中位于前两位的第一分值与第二分值的比值;若所述比值大于阈值,则将所述第一分值对应的语句确定为目标匹配结果。
可选的,在本发明实施例第二方面的第三种实现方式中,第二匹配模块具体用于:若所述目标匹配结果中不包括所述目标医疗匹配语句,则调用预置的相似度模型;通过所述预置的相似度模型计算Lucene索引库中每个语句与所述初始医疗语句的相似度,得到多个相似度值及对应的多个候选语句;将所述多个相似度值进行降序排列,得到相似度序列;在所述相似度序列中选择排序前列的N个相似度,并将所述N个相似度对应的N个需要校验的医疗语句确定为候选对码语句,得到多个候选对码语句,其中,N为正整数。
可选的,在本发明实施例第二方面的第四种实现方式中,预处理模块具体用于:将所述原始数据的全角字符转换为半角字符,得到半角语句;删除所述半角语句中的停用词,得到无停顿语句;将所述无停顿语句中的标点符号进行删除,得到无标点语句;对所述无标点语句进行同义词替换,生成初始医疗语句。
可选的,在本发明实施例第二方面的第五种实现方式中,医学数据的对码装置还包括:索引库生成模块,用于生成Lucene索引库。
可选的,在本发明实施例第二方面的第六种实现方式中,索引库生成模块具体用于:获取不同基表版本的业务数据,并根据所述业务数据构建多个同义词基表;对所述多个同义词基表进行预处理,得到处理后的同义词基表;基于所述处理后的同义词基表生成Lucene索引库。
本发明实施例的第三方面提供了一种医学数据的对码设备,存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述医学数据的对码设备执行上述的医学数据的对码方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被处理器执行时实现上述任一实施方式所述的医学数据的对码方法的步骤。
本发明实施例提供的技术方案中,获取原始数据,其中,原始数据为需要对码的原始医疗语句;对原始数据进行预处理,得到初始医疗语句;调用预置的置信度模型对初始医疗语句进行匹配,得到目标匹配结果;若目标匹配结果中包括目标医疗匹配语句,则将目标医疗匹配语句确定为初始医疗语句对应的正确对码语句并进行标记,其中,正确对码语句为不需要校验的医疗语句;若目标匹配结果中不包括目标医疗匹配语句,则调用预置的相似度模型对初始医疗语句进行匹配,得到多个候选对码语句,其中,候选对码语句为需要校验的医疗语句。本发明实施例,通过预置模型标记出对码结果中绝对正确的对码语句,并通过预置模型为不能保证绝对正确的医疗语句,输出一个或多个候选对码语句,缩短了数据对码的时长,并提高了对码效率。
附图说明
图1为本发明实施例中医学数据的对码方法的一个实施例示意图;
图2为本发明实施例中医学数据的对码方法的另一个实施例示意图;
图3为本发明实施例中医学数据的对码装置的一个实施例示意图;
图4为本发明实施例中医学数据的对码装置的另一个实施例示意图;
图5为本发明实施例中医学数据的对码设备的一个实施例示意图。
具体实施方式
本发明提供了一种医学数据的对码方法、装置、设备及存储介质,用于缩短数据对码的时长,并提高对码效率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本发明实施例提供的医学数据的对码方法的流程图,具体包括:
101、获取原始数据,其中,原始数据为需要对码的原始医疗语句。
服务器获取原始数据,其中,原始数据为需要对码的原始医疗语句。其中,原始医疗语句为未经处理的语料,该语料中包括语气助词、标点符号等无用字符,还可以包括其他无用字符,具体此处不做限定。
可以理解的是,本发明的执行主体可以为医学数据的对码装置,还可以是服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、对原始数据进行预处理,得到初始医疗语句。
服务器原始数据进行预处理,得到初始医疗语句。
具体的,服务器将原始数据的全角字符转换为半角字符,得到半角语句;服务器删除半角语句中的停用词,得到无停顿语句;服务器将无停顿语句中的标点符号进行删除,得到无标点语句;服务器对无标点语句进行同义词替换,生成初始医疗语句。
例如,“ca”是全角字符,需要转换成半角的“ca”,否则“ca”和“ca”其实是同一个词,但是由于全半角的关系,两个词的相似度会为0。又例如,停用词可以包括“的”、“呢”、“了”等,具体此处不做限定。
需要说明的是,对无标点语句中部分词语进行同义词替换,替换后的同义词为标准医疗词语,例如,“妇产科”对应的标准同义词为“产科”,“验孕纸”对应的标准同义词为“验孕试纸”,具体此处不再赘述。
103、调用预置的置信度模型对初始医疗语句进行匹配,得到目标匹配结果。
服务器调用预置的置信度模型对初始医疗语句进行匹配,得到目标匹配结果。具体的,服务器通过预置的置信度模型中的Lucene索引库对初始医疗语句中的多个目标词语进行第一次匹配,得到第一匹配结果;若第一匹配结果为空,则服务器调用预置规则引擎对多个目标词语进行第二次匹配,得到第二匹配结果;若第二匹配结果为空,则服务器根据召回数据对初始医疗语句进行评分,并根据评分结果确定目标匹配结果。
具体的,Lucene索引库为预先构建的,其中,第一次匹配为硬搜索,通过项查询TermQuery方式进行数据查询,若能查询出数据,则作为第一匹配结果,若不能查询出数据,则确定第一匹配结果为空,进入下一个步骤。
其中,预置规则引擎为预先设定好的,通过大量的标注数据挖掘并验证,得到多个规则并生成预置的规则引擎。例如,采用easy_rules规则引擎技术,实现规则的配置化,设定多个规则,并生成规则引擎。当需要添加、删除或修改规则时,直接修改配置即可,无需重启应用。
需要说明的是,使用规则引擎,使规则可配置化,可根据需要随时添加、删除或修改规则,而无需重启应用,实现热部署。
104、若目标匹配结果中包括目标医疗匹配语句,则将目标医疗匹配语句确定为初始医疗语句对应的正确对码语句并进行标记,其中,正确对码语句为不需要校验的医疗语句。
若目标匹配结果中包括目标医疗匹配语句,则服务器将目标医疗匹配语句确定为初始医疗语句对应的正确对码语句并进行标记,其中,正确对码语句为不需要校验的医疗语句。
需要说明的是,正确对码语句为与初始医疗语句正确匹配的语句,且已经完成自动对码,不需要进行再次校验。
105、若目标匹配结果中不包括目标医疗匹配语句,则调用预置的相似度模型对初始医疗语句进行匹配,得到多个候选对码语句,其中,候选对码语句为需要校验的医疗语句。
具体的,若目标匹配结果中不包括目标医疗匹配语句,则服务器调用预置的相似度模型;服务器通过预置的相似度模型计算Lucene索引库中每个语句与初始医疗语句的相似度,得到多个相似度值及对应的多个候选语句;服务器将多个相似度值进行降序排列,得到相似度序列;服务器在相似度序列中选择排序前列的N个相似度,并将N个相似度对应的N个需要校验的医疗语句确定为候选对码语句,得到多个候选对码语句,其中,N为正整数。
本发明实施例,通过预置模型标记出对码结果中绝对正确的对码语句,并通过预置模型为不能保证绝对正确的医疗语句,输出一个或多个候选对码语句,缩短了数据对码的时长,并提高了对码效率。并且本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
请参阅图2,本发明实施例提供的医学数据的对码方法的另一个流程图,具体包括:
201、获取不同基表版本的业务数据,并根据业务数据构建多个同义词基表。
服务器获取不同基表版本的业务数据,并根据业务数据构建多个同义词基表。
可以理解的是,本发明的执行主体可以为医学数据的对码装置,还可以是服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
202、对多个同义词基表进行预处理,得到处理后的同义词基表。
服务器对多个同义词基表进行预处理,得到处理后的同义词基表。
例如,同义词基表中的“in”、“once”、“too”等词没有什么实际意义,中文中的“的”“是”等字通常也无具体含义,这些不代表概念的词可以过滤掉。
203、基于处理后的同义词基表生成Lucene索引库。
服务器基于处理后的同义词基表生成Lucene索引库。
具体的,服务器创建索引组件,并将处理后的同义词基表(索引对象)传入索引组件,生成字典;服务器对字典按字母顺序进行排序,合并相同的词,生成文档倒排链表,根据文档倒排链表生成Lucene索引库。
204、获取原始数据,其中,原始数据为需要对码的原始医疗语句。
服务器获取原始数据,其中,原始数据为需要对码的原始医疗语句。其中,原始医疗语句为未经处理的语料,该语料中包括语气助词、标点符号等无用字符,还可以包括其他无用字符,具体此处不做限定。
205、对原始数据进行预处理,得到初始医疗语句。
服务器原始数据进行预处理,得到初始医疗语句。
具体的,服务器将原始数据的全角字符转换为半角字符,得到半角语句;服务器删除半角语句中的停用词,得到无停顿语句;服务器将无停顿语句中的标点符号进行删除,得到无标点语句;服务器对无标点语句进行同义词替换,生成初始医疗语句。
例如,“ca”是全角字符,需要转换成半角的“ca”,否则“ca”和“ca”其实是同一个词,但是由于全半角的关系,两个词的相似度会为0。又例如,停用词可以包括“的”、“呢”、“了”等,具体此处不做限定。
需要说明的是,对无标点语句中部分词语进行同义词替换,替换后的同义词为标准医疗词语,例如,“妇产科”对应的标准同义词为“产科”,“验孕纸”对应的标准同义词为“验孕试纸”,具体此处不再赘述。
206、通过预置的置信度模型中的Lucene索引库对初始医疗语句中的多个目标词语进行第一次匹配,得到第一匹配结果。
服务器通过预置的置信度模型中的Lucene索引库对初始医疗语句中的多个目标词语进行第一次匹配,得到第一匹配结果。
具体的,Lucene索引库为预先构建的,其中,第一次匹配为硬搜索,通过项查询TermQuery方式进行数据查询,若能查询出数据,则作为第一匹配结果,若不能查询出数据,则确定第一匹配结果为空,进入下一个步骤。
207、若第一匹配结果为空,则服务器调用预置规则引擎对多个目标词语进行第二次匹配,得到第二匹配结果。
其中,预置规则引擎为预先设定好的,通过大量的标注数据挖掘并验证,得到多个规则,生成预置的规则引擎。例如,采用easy_rules规则引擎技术,实现规则的配置化,设定好多个规则,并生成规则引擎。当需要添加、删除或修改规则时,直接修改配置即可,无需重启应用。
需要说明的是,使用规则引擎,使规则可配置化,可根据需要随时添加、删除或修改规则,而无需重启应用,实现热部署。服务器利用已标注数据,使用基于公共子串进行规则的挖掘及自动核验,可以挖掘更多的规则,减少人力分析定义规则。
可选的,若第一匹配结果不为空,则将第一匹配结果确定为目标匹配结果。
208、若第二匹配结果为空,则服务器根据召回数据对初始医疗语句进行评分,并根据评分结果确定目标匹配结果。
具体的,若第二匹配结果为空,则服务器在Lucene索引库中进行数据召回,得到多个召回语句;服务器调用预置公式对多个召回语句和初始医疗语句依次进行评分并按照分值大小进行降序排列,得到分值序列;服务器计算分值序列中位于前两位的第一分值与第二分值的比值;若比值大于阈值,则服务器将第一分值对应的语句确定为目标匹配结果。
需要说明的是,其中,预置公式为:
其中,score(q,d)是指查询输入q和当前文档d的相关性得分,coord(q,d)表示输入的q被当前文档d匹配到的比例,t指包含域信息的搜索项Term,tf(t,d)表示输入的t在当前文档d中出现的频率;idf(t)表示输入的一个t的频率级别,t.getBoost()表示查询时指定的权重,norm(t,d)表示当前文档d的Term数量的一个权重。
需要说明的是,score(q,d)是指查询输入q和当前文档d的相关性得分;queryNorm(q)是查询输入归一化因子,其作用是使最终的得分不至于太大,从而具有一定的可比性,计算每个查询条目的方差和,此值并不影响排序,而仅仅使得不同的query之间的分数可以比较;coord(q,d)是协调因子,表示输入的Token被文档匹配到的比例,一次搜索可能包含多个搜索词,而一篇文档中也可能包含多个搜索词,此项表示,当一篇文档中包含的搜索词越多,则此文档则打分越高;tf(t,d)表示输入的t在文档d中出现的频率,频率越高,得分越高;idf(t)表示输入的t在几篇文档中出现的频率级别,它具体的计算与当前文档无关,而是与索引中出现的频率相关,出现频率越低,说明这个词是个稀缺词,得分会越高;t.getBoost()是查询时指定的权重;norm(t,d)是指当前文档的Term数量的一个权重,它在索引阶段就已经计算好,由于存储的关系,它最终值是0.125的倍数。其中,标准化因子,它包括三个参数:Document boost、Field boost和lengthNorm(field),Document boost:此值越大,说明此文档越重要;Field boost:此域越大,说明此域越重要;engthNorm(field)=(1.0/Math.sqrt(numTerms)):一个域中包含的Term总数越多,也即文档越长,此值越小,文档越短,此值越大。
可选的,若第二匹配结果不为空,则将第二匹配结果确定为目标匹配结果。
209、若目标匹配结果中包括目标医疗匹配语句,则将目标医疗匹配语句确定为初始医疗语句对应的正确对码语句并进行标记,其中,正确对码语句为不需要校验的医疗语句。
若目标匹配结果中包括目标医疗匹配语句,则服务器将目标医疗匹配语句确定为初始医疗语句对应的正确对码语句并进行标记,其中,正确对码语句为不需要校验的医疗语句。
需要说明的是,正确对码语句为与初始医疗语句正确匹配的语句,且已经完成自动对码,不需要进行再次校验。
210、若目标匹配结果中不包括目标医疗匹配语句,则调用预置的相似度模型对初始医疗语句进行匹配,得到多个候选对码语句,其中,候选对码语句为需要校验的医疗语句。
具体的,若目标匹配结果中不包括目标医疗匹配语句,则服务器调用预置的相似度模型;服务器通过预置的相似度模型计算Lucene索引库中每个语句与初始医疗语句的相似度,得到多个相似度值及对应的多个候选语句;服务器将多个相似度值进行降序排列,得到相似度序列;服务器在相似度序列中选择排序前列的N个相似度,并将N个相似度对应的N个需要校验的医疗语句确定为候选对码语句,得到多个候选对码语句,其中,N为正整数。
本发明实施例,通过预置模型标记出对码结果中绝对正确的对码语句,并通过预置模型为不能保证绝对正确的医疗语句,输出一个或多个候选对码语句,缩短了数据对码的时长,并提高了对码效率。并且本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
上面对本发明实施例中医学数据的对码方法进行了描述,下面对本发明实施例中医学数据的对码装置进行描述,请参阅图3,本发明实施例中医学数据的对码装置的一个实施例包括:
数据获取模块301,用于获取原始数据,其中,所述原始数据为需要对码的原始医疗语句;
预处理模块302,用于对所述原始数据进行预处理,得到初始医疗语句;
第一匹配模块303,用于调用预置的置信度模型对所述初始医疗语句进行匹配,得到目标匹配结果;
确定标记模块304,若所述目标匹配结果中包括目标医疗匹配语句,则用于将所述目标医疗匹配语句确定为所述初始医疗语句对应的正确对码语句并进行标记,其中,所述正确对码语句为不需要校验的医疗语句;
第二匹配模块305,若所述目标匹配结果中不包括所述目标医疗匹配语句,则用于调用预置的相似度模型对所述初始医疗语句进行匹配,得到多个候选对码语句,其中,所述候选对码语句为需要校验的医疗语句。
本发明实施例,通过预置模型标记出对码结果中绝对正确的对码语句,并通过预置模型为不能保证绝对正确的医疗语句,输出一个或多个候选对码语句,缩短了数据对码的时长,并提高了对码效率。并且本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
请参阅图4,本发明实施例中医学数据的对码装置的另一个实施例包括:
数据获取模块301,用于获取原始数据,其中,所述原始数据为需要对码的原始医疗语句;
预处理模块302,用于对所述原始数据进行预处理,得到初始医疗语句;
第一匹配模块303,用于调用预置的置信度模型对所述初始医疗语句进行匹配,得到目标匹配结果;
确定标记模块304,若所述目标匹配结果中包括目标医疗匹配语句,则用于将所述目标医疗匹配语句确定为所述初始医疗语句对应的正确对码语句并进行标记,其中,所述正确对码语句为不需要校验的医疗语句;
第二匹配模块305,若所述目标匹配结果中不包括所述目标医疗匹配语句,则用于调用预置的相似度模型对所述初始医疗语句进行匹配,得到多个候选对码语句,其中,所述候选对码语句为需要校验的医疗语句。
可选的,第一匹配模块303包括:
第一匹配单元3031,用于通过预置的置信度模型中的Lucene索引库对所述初始医疗语句中的多个目标词语进行第一次匹配,得到第一匹配结果;
第二匹配单元3032,若所述第一匹配结果为空,则用于调用预置规则引擎对所述多个目标词语进行第二次匹配,得到第二匹配结果;
评分确定单元3033,若所述第二匹配结果为空,则用于根据召回数据对所述初始医疗语句进行评分,并根据评分结果确定目标匹配结果。
可选的,评分确定单元3033具体用于:
若所述第二匹配结果为空,则在所述Lucene索引库中进行数据召回,得到多个召回语句;
调用预置公式对所述多个召回语句和所述初始医疗语句依次进行评分并按照分值大小进行降序排列,得到分值序列;
计算所述分值序列中位于前两位的第一分值与第二分值的比值;
若所述比值大于阈值,则将所述第一分值对应的语句确定为目标匹配结果。
可选的,第二匹配模块305具体用于:
若所述目标匹配结果中不包括所述目标医疗匹配语句,则调用预置的相似度模型;
通过所述预置的相似度模型计算Lucene索引库中每个语句与所述初始医疗语句的相似度,得到多个相似度值及对应的多个候选语句;
将所述多个相似度值进行降序排列,得到相似度序列;
在所述相似度序列中选择排序前列的N个相似度,并将所述N个相似度对应的N个需要校验的医疗语句确定为候选对码语句,得到多个候选对码语句,其中,N为正整数。
可选的,预处理模块302具体用于:
将所述原始数据的全角字符转换为半角字符,得到半角语句;
删除所述半角语句中的停用词,得到无停顿语句;
将所述无停顿语句中的标点符号进行删除,得到无标点语句;
对所述无标点语句进行同义词替换,生成初始医疗语句。
可选的,医学数据的对码装置还包括:
索引库生成模块306,用于生成Lucene索引库。
可选的,索引库生成模块306具体用于:
获取不同基表版本的业务数据,并根据所述业务数据构建多个同义词基表;
对所述多个同义词基表进行预处理,得到处理后的同义词基表;
基于所述处理后的同义词基表生成Lucene索引库。
本发明实施例,通过预置模型标记出对码结果中绝对正确的对码语句,并通过预置模型为不能保证绝对正确的医疗语句,输出一个或多个候选对码语句,缩短了数据对码的时长,并提高了对码效率。并且本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
上面图3至图4从模块化功能实体的角度对本发明实施例中的医学数据的对码装置进行详细描述,下面从硬件处理的角度对本发明实施例中医学数据的对码设备进行详细描述。
图5是本发明实施例提供的一种医学数据的对码设备的结构示意图,该医学数据的对码设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对医学数据的对码设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在医学数据的对码设备500上执行存储介质530中的一系列指令操作。
医学数据的对码设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的医学数据的对码设备结构并不构成对医学数据的对码设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述医学数据的对码方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种医学数据的对码方法,其特征在于,包括:
获取原始数据,其中,所述原始数据为需要对码的原始医疗语句;
对所述原始数据进行预处理,得到初始医疗语句;
调用预置的置信度模型对所述初始医疗语句进行匹配,得到目标匹配结果;
若所述目标匹配结果中包括目标医疗匹配语句,则将所述目标医疗匹配语句确定为所述初始医疗语句对应的正确对码语句并进行标记,其中,所述正确对码语句为不需要校验的医疗语句;
若所述目标匹配结果中不包括所述目标医疗匹配语句,则调用预置的相似度模型对所述初始医疗语句进行匹配,得到多个候选对码语句,其中,所述候选对码语句为需要校验的医疗语句;
所述调用预置的置信度模型对所述初始医疗语句进行匹配,得到目标匹配结果,包括:
通过预置的置信度模型中的Lucene索引库对所述初始医疗语句中的多个目标词语进行第一次匹配,得到第一匹配结果;
若所述第一匹配结果为空,则调用预置规则引擎对所述多个目标词语进行第二次匹配,得到第二匹配结果;
若所述第二匹配结果为空,则根据召回数据对所述初始医疗语句进行评分,并根据评分结果确定目标匹配结果;
所述若所述第二匹配结果为空,则根据召回数据对所述初始医疗语句进行评分,并根据评分结果确定目标匹配结果,包括:
若所述第二匹配结果为空,则在所述Lucene索引库中进行数据召回,得到多个召回语句;
计算所述分值序列中位于前两位的第一分值与第二分值的比值;
若所述比值大于阈值,则将所述第一分值对应的语句确定为目标匹配结果。
2.根据权利要求1所述的医学数据的对码方法,其特征在于,所述若所述目标匹配结果中不包括所述目标医疗匹配语句,则调用预置的相似度模型对所述初始医疗语句进行匹配,得到多个候选对码语句,其中,所述候选对码语句为需要校验的医疗语句,包括:
若所述目标匹配结果中不包括所述目标医疗匹配语句,则调用预置的相似度模型;
通过所述预置的相似度模型计算Lucene索引库中每个语句与所述初始医疗语句的相似度,得到多个相似度值及对应的多个候选语句;
将所述多个相似度值进行降序排列,得到相似度序列;
在所述相似度序列中选择排序前列的N个相似度,并将所述N个相似度对应的N个需要校验的医疗语句确定为候选对码语句,得到多个候选对码语句,其中,N为正整数。
3.根据权利要求1所述的医学数据的对码方法,其特征在于,所述对所述原始数据进行预处理,得到初始医疗语句,包括:
将所述原始数据的全角字符转换为半角字符,得到半角语句;
删除所述半角语句中的停用词,得到无停顿语句;
将所述无停顿语句中的标点符号进行删除,得到无标点语句;
对所述无标点语句进行同义词替换,生成初始医疗语句。
4.根据权利要求1-3中任一项所述的医学数据的对码方法,其特征在于,在所述获取原始数据之前,所述医学数据的对码方法还包括:
生成Lucene索引库。
5.根据权利要求4所述的医学数据的对码方法,其特征在于,所述生成Lucene索引库,包括:
获取不同基表版本的业务数据,并根据所述业务数据构建多个同义词基表;
对所述多个同义词基表进行预处理,得到处理后的同义词基表;
基于所述处理后的同义词基表生成Lucene索引库。
6.一种医学数据的对码装置,其特征在于,包括:
数据获取模块,用于获取原始数据,其中,所述原始数据为需要对码的原始医疗语句;
预处理模块,用于对所述原始数据进行预处理,得到初始医疗语句;
第一匹配模块,用于调用预置的置信度模型对所述初始医疗语句进行匹配,得到目标匹配结果;
确定标记模块,若所述目标匹配结果中包括目标医疗匹配语句,则用于将所述目标医疗匹配语句确定为所述初始医疗语句对应的正确对码语句并进行标记,其中,所述正确对码语句为不需要校验的医疗语句;
第二匹配模块,若所述目标匹配结果中不包括所述目标医疗匹配语句,则用于调用预置的相似度模型对所述初始医疗语句进行匹配,得到多个候选对码语句,其中,所述候选对码语句为需要校验的医疗语句;
所述调用预置的置信度模型对所述初始医疗语句进行匹配,得到目标匹配结果,包括:
通过预置的置信度模型中的Lucene索引库对所述初始医疗语句中的多个目标词语进行第一次匹配,得到第一匹配结果;
若所述第一匹配结果为空,则调用预置规则引擎对所述多个目标词语进行第二次匹配,得到第二匹配结果;
若所述第二匹配结果为空,则根据召回数据对所述初始医疗语句进行评分,并根据评分结果确定目标匹配结果;
所述若所述第二匹配结果为空,则根据召回数据对所述初始医疗语句进行评分,并根据评分结果确定目标匹配结果,包括:
若所述第二匹配结果为空,则在所述Lucene索引库中进行数据召回,得到多个召回语句;
计算所述分值序列中位于前两位的第一分值与第二分值的比值;
若所述比值大于阈值,则将所述第一分值对应的语句确定为目标匹配结果。
7.一种医学数据的对码设备,其特征在于,所述医学数据的对码设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述医学数据的对码设备执行如权利要求1-5中任意一项所述的医学数据的对码方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被处理器执行时实现如权利要求1-5中任意一项所述的医学数据的对码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011635794.0A CN112733528B (zh) | 2020-12-31 | 2020-12-31 | 医学数据的对码方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011635794.0A CN112733528B (zh) | 2020-12-31 | 2020-12-31 | 医学数据的对码方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733528A CN112733528A (zh) | 2021-04-30 |
CN112733528B true CN112733528B (zh) | 2023-02-14 |
Family
ID=75608618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011635794.0A Active CN112733528B (zh) | 2020-12-31 | 2020-12-31 | 医学数据的对码方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733528B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184053B (zh) * | 2015-08-13 | 2018-09-07 | 易保互联医疗信息科技(北京)有限公司 | 一种中文医疗服务项目信息的自动编码方法及系统 |
CN106919793B (zh) * | 2017-02-24 | 2019-12-06 | 黑龙江特士信息技术有限公司 | 一种医疗大数据的数据标准化处理方法及装置 |
US11023679B2 (en) * | 2017-02-27 | 2021-06-01 | Medidata Solutions, Inc. | Apparatus and method for automatically mapping verbatim narratives to terms in a terminology dictionary |
CN108922633A (zh) * | 2018-06-22 | 2018-11-30 | 北京海德康健信息科技有限公司 | 一种疾病名称标准化规范方法及规范系统 |
CN110060750B (zh) * | 2019-03-25 | 2023-11-24 | 平安科技(深圳)有限公司 | 医疗数据推送方法、系统、计算机设备及可读存储介质 |
CN110782965B (zh) * | 2019-10-12 | 2022-10-11 | 深圳平安医疗健康科技服务有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN111046882B (zh) * | 2019-12-05 | 2023-01-24 | 清华大学 | 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统 |
CN111797207B (zh) * | 2020-07-14 | 2024-03-26 | 山东浪潮智慧医疗科技有限公司 | 一种实现医院诊断数据标准化的方法 |
-
2020
- 2020-12-31 CN CN202011635794.0A patent/CN112733528B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112733528A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107993724B (zh) | 一种医学智能问答数据处理的方法及装置 | |
Aizawa et al. | NTCIR-11 Math-2 Task Overview. | |
US6055528A (en) | Method for cross-linguistic document retrieval | |
US9031935B2 (en) | Search system, search method, and program | |
US20160140187A1 (en) | System and method for answering natural language question | |
CN112037920A (zh) | 医疗知识图谱构建方法、装置、设备及存储介质 | |
US9659004B2 (en) | Retrieval device and method | |
US20050278292A1 (en) | Spelling variation dictionary generation system | |
Yerra et al. | A sentence-based copy detection approach for web documents | |
CN108427702B (zh) | 目标文档获取方法及应用服务器 | |
JP2021022359A (ja) | 管理システム及び管理方法 | |
Al-Kabi et al. | Benchmarking and assessing the performance of Arabic stemmers | |
CN110502620B (zh) | 导诊相似问题对生成方法、系统及计算机设备 | |
Kosinov | Evaluation of N-grams Conflation Approach in Text-Based Information Retrieval. | |
CN112733528B (zh) | 医学数据的对码方法、装置、设备及存储介质 | |
Kumar et al. | An Efficient Approach to Query Reformulation in Web Search | |
Blair-Goldensohn et al. | A hybrid approach for answering definitional questions | |
Williams Jr | Functions of a man‐machine interactive information retrieval system | |
Gavrila | Constrained recombination in an example-based machine translation system | |
CN114048312B (zh) | 一种自然语言查询任务的模型输入信息处理方法及装置 | |
JPH03150668A (ja) | 検索システムの入力文字列正規化方式 | |
US20230162031A1 (en) | Method and system for training neural network for generating search string | |
JP3752535B2 (ja) | 訳語選択装置、及び翻訳装置 | |
CN111930928B (zh) | 一种文本检索结果评分方法、检索方法和装置 | |
Gondaliya et al. | Journey of Information Retrieval to Information Retrieval Tools-IR&IRT A Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220531 Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |