CN109325105A - 代码匹配方法、装置及存储介质 - Google Patents
代码匹配方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109325105A CN109325105A CN201811403873.1A CN201811403873A CN109325105A CN 109325105 A CN109325105 A CN 109325105A CN 201811403873 A CN201811403873 A CN 201811403873A CN 109325105 A CN109325105 A CN 109325105A
- Authority
- CN
- China
- Prior art keywords
- text
- matching degree
- word segmentation
- code
- default
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000011218 segmentation Effects 0.000 claims abstract description 165
- 238000002790 cross-validation Methods 0.000 abstract description 6
- 239000002245 particle Substances 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000009434 installation Methods 0.000 description 6
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 210000000936 intestine Anatomy 0.000 description 2
- 241001191009 Gymnomyza Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种代码匹配方法、装置及存储介质,该方法包括:获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系,接着,根据逐个载取词法对第一文本以及第二文本进行分词处理,获取分词结果,进一步,根据分词结果,获取第一文本与每个第二文本的匹配度,再根据匹配度以及预设完全采信阈值,生成代码对照表。本发明通过对源代码表和目标代码表进行最小粒度的分词处理,使得分词结果细化程度越高,有利于提高匹配的准确度,之后根据分词结果将第一文本与第二文本进行交叉对比,通过简单的算法即可实现,在保证了准确度的基础上,有效提高匹配效率。
Description
技术领域
本发明涉及领域计算机技术领域,尤其涉及一种代码匹配方法、装置及存储介质。
背景技术
针对姓名、国家、城市、疾病、地址等通用信息,在不同的应用系统中常常采用不同的编码规则体系,在不同的多个应用系统对接的开发中,由于所使用的编码规则体系不同,常常需要将不同系统的代码表进行相互匹配。
现有技术中通常采用人工匹配的方式进行转换,但是,由于数据量庞大,人工匹配的方式效率极低。
发明内容
本发明提供一种代码匹配方法、装置及存储介质,以实现不同应用系统之间代码表的自动匹配,提高匹配效率。
第一方面,本发明提供一种代码匹配方法,包括:
获取待匹配的源代码表和目标代码表,其中,所述源代码表包括至少一组第一代码与第一文本的对应关系,所述目标代码表包括至少一组第二代码与第二文本的对应关系;
根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果;
根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度;
根据所述匹配度以及预设完全采信阈值,生成代码对照表。
可选地,所述根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果,包括:
按照预设取词长度,对每个所述第一文本中的字符串逐位进行取词,获取所述第一文本对应的分词序列,每个所述第一文本对应的分词序列包括至少一个词汇;
按照所述预设取词长度,对每个所述第二文本中的字符串逐位进行取词,获取所述第二文本对应的分词序列,每个所述第一文本对应的分词序列包括至少一个词汇;
可选地,所述预设取词长度为2。
可选地,所述根据所述匹配度以及预设完全采信阈值,生成代码对照表,包括:
若所述匹配度大于所述预设完全采信阈值的第二文本为一个,确定所述第一文本与所述第二文本匹配;
若所述匹配度大于所述预设完全采信阈值的第二文本为多个,确定所述第一文本与最大所述匹配度对应的第二文本匹配。
可选地,所述根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度,包括:
根据所述第一文本对应的分词序列以及每个所述第二文本对应的分词序列,获取所述第一文本对应的分词序列中的词汇包含于每个所述第二文本对应的分词序列的词汇数量;
根据所述第一文本对应的分词序列中的词汇包含于每个所述第二文本对应的分词序列的词汇数量以及所述第一文本对应的分词序列的词汇总数,获取所述第一文本与每个所述第二文本的匹配度。
可选地,所述匹配度为所述第一文本对应的分词序列中的词汇包含于所述第二文本对应的分词序列的词汇数量与所述第一文本对应的分词序列的词汇总数的比值。
可选地,所述根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果之后,所述方法还包括:
根据预设忽略词汇表对所述分词结果进行处理,获取处理后的分词结果;
相应地,所述根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度,包括:
根据所述处理后的分词结果,获取所述第一文本与每个所述第二文本的匹配度。
可选地,所述方法还包括:
根据所述匹配度、所述预设完全采信阈值以及预设采集阈值,生成待确认的关联文本,所述关联文本包括第一文本以及与所述第一文本的匹配度小于所述预设完全采信阈值,且大于所述预设采集阈值的所有所述第二文本;所述关联文本中所述第二文本按照所述匹配度降序排序
其中,所述预设完全采信阈值大于所述预设采集阈值。
第二方面,本发明提供一种代码匹配装置,该装置包括:
获取模块,用于获取待匹配的源代码表和目标代码表,其中,所述源代码表包括至少一组第一代码与第一文本的对应关系,所述目标代码表包括至少一组第二代码与第二文本的对应关系;
分词模块,用于根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果;
匹配度获取模块,用于根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度;
生成模块,用于根据所述匹配度以及预设完全采信阈值,生成代码对照表。
第三方面,本发明提供一种代码匹配装置,该装置包括:存储器和处理器;
所述存储器存储程序指令;
所述程序指令在被所述处理器执行时,以执行第一方面所述的方法。
第四方面,本发明提供一种存储介质,包括:程序;
所述程序在被处理器执行时,以执行第一方面所述的方法。
本发明提供一种代码匹配方法、装置及存储介质,该方法包括:获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系,接着,根据逐个载取词法对每个第一文本以及每个第二文本进行分词处理,获取分词结果,进一步,根据分词结果,获取第一文本与每个第二文本的匹配度,再根据匹配度以及预设完全采信阈值,生成代码对照表。本实施例提供的代码匹配方法,通过对源代码表和目标代码表进行最小粒度的分词处理,使得分词结果细化程度越高,有利于提高匹配的准确度,之后根据分词结果将第一文本与第二文本进行交叉对比,通过简单的算法即可实现,在保证了准确度的基础上,有效提高匹配效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的代码匹配方法实施例一的流程示意图;
图2为本发明提供的代码匹配方法实施例二的流程示意图;
图3为本发明提供的代码匹配方法实施例三的流程示意图;
图4为本发明提供的代码匹配方法实施例四的流程示意图;
图5为本发明提供的代码匹配装置实施例一的结构示意图;
图6为本发明提供的代码匹配装置实施例二的结构示意图;
图7为本发明提供的代码匹配装置实施例三的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的代码匹配方法实施例一的流程示意图。其中,本实施例的代码匹配方法的执行主体可以为本发明中的代码匹配装置,该装置可以通过任意的软件和/或硬件的方式实现,例如,该代码匹配装置可以为计算机、笔记本电脑等等。
如图1所示,本实施例所示的方法包括:
S101、获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系。
在一个实施例中,源代码表如表1所示,包括至少一组第一代码与第一文本的对应关系,例如,代码1100012与文本“北京昌平卫生学校附属医院”的对应关系,代码1100014与文本“北京长青肛肠医院”的对应关系,代码1100015与文本“北京朝阳光华医院”的对应关系等等。目标代码表如表2所示,包括至少一组第二代码与第二文本的对应关系,例如,代码3003与文本“北京世纪康乐医院”的对应关系,代码3004与文本“北京众安康中医骨科医院”的对应关系,代码3005与文本“北京同安骨科医院”的对应关系,等等。
表1源代码表
第一代码 | 第一文本 |
1100012 | 北京昌平卫生学校附属医院 |
1100014 | 北京长青肛肠医院 |
1100015 | 北京朝阳光华医院 |
1100021 | 北京城建水碓子医院 |
1100025 | 北京大学第一医院 |
1100041 | 北京二毛医院 |
1100043 | 北京市房山区第二医院(北京市房山区良乡医院) |
1100044 | 北京市房山区鹏园医院 |
1100045 | 北京丰台医星医院 |
1100051 | 北京骨髓炎医院 |
1100055 | 北京航空航天大学校医院 |
表2目标代码表
本实施例中,代码匹配装置能够获取源代码表和目标代码表,具体地,代码匹配装置可以根据用户输入的控制指令显示相应的输入界面,用户可在该输入界面上输入源代码表和目标代码表中的具体内容,或者,源代码表和目标代码表均以文档的形式存储于存储介质中,代码匹配装置与该存储介质相连接,用户通过相应的输入界面将源代码表和目标代码表导入代码匹配装置中。
在本实施例中,目标代码表为用于与源代码表进行匹配的代码表,目标代码表可以为一个,也可以为多个,源代码表和目标代码表是相对的,源代码表和目标代码表在不同的匹配过程中可以互换。
S102、根据逐个载取词法对第一文本以及第二文本进行分词处理,获取分词结果。
具体地,按照逐个载取词法以及预设取词长度,对源代码表中的所有第一文本分别进行分词处理,以及对目标代码表中的所有第二文本分别进行分词处理,获取分词结果,分词结果可以序列的形式存储于代码匹配装置中。
S103、根据分词结果,获取第一文本与每个第二文本的匹配度。
本步骤的目的在于,根据上述分词结果,通过将源代码表中的第一文本逐一与目标代码表中的第二文本进行交叉对比,获取第一文本与每个第二文本的匹配度。具体地,代码匹配装置可按照源代码表中第一文本的顺序循环处理第一文本与第二文本的匹配过程,或者,代码匹配装置可硬件配置以及用户预先设定的规则,并行处理多个第一文本与第二文本的匹配过程,从而获取匹配度。
在具体实现的过程中,代码匹配装置可根据分词结果,通过循环执行第一文本与第二文本之间字符串匹配的步骤,从而简化算法,有效提高匹配效率。
S104、根据匹配度以及预设完全采信阈值,生成代码对照表。
在获取到第一文本与每个第二文本的匹配度之后,为了能够准确筛选出与第一文本匹配的第二文本,可根据匹配度以及预设完全采信阈值进行判断,其中,预设完全采信阈值越大,生成的代码对照表的准确度越高,预设完全采信阈值越小,生成的代码对照表的准确度越低。预设完全采信阈值可根据待匹配的源代码表和目标代码表中包括的字符总数确定,或者,也可根据多次匹配的统计值进行确定。本发明实施例对于预设完全采信阈值的确定方式不做限制。
一种可能的实现方式,可按照以下方式筛选出与第一文本匹配的第二文本:
若匹配度大于预设完全采信阈值的第二文本为一个,确定第一文本与该第二文本匹配;若匹配度大于预设完全采信阈值的第二文本为多个,确定第一文本与最大匹配度对应的第二文本匹配。
优选地,预设完全采信阈值为0.8。
本实施例中,获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系,接着,根据逐个载取词法对每个第一文本以及每个第二文本进行分词处理,获取分词结果,进一步,根据分词结果,获取第一文本与每个第二文本的匹配度,再根据匹配度以及预设完全采信阈值,生成代码对照表。本实施例提供的代码匹配方法,通过对源代码表和目标代码表进行最小粒度的分词处理,使得分词结果细化程度越高,有利于提高匹配的准确度,之后根据分词结果将第一文本与第二文本进行交叉对比,通过简单的算法即可实现,在保证了准确度的基础上,有效提高匹配效率。
图2为本发明提供的代码匹配方法实施例二的流程示意图。如图2所示,图1所示实施例中,步骤S102、根据逐个载取词法对第一文本以及第二文本进行分词处理,获取分词结果,可包括以下步骤:
S201、按照预设取词长度,对第一文本中的字符串逐位进行取词,获取第一文本对应的分词序列,第一文本对应的分词序列包括至少一个词汇。
S202、按照预设取词长度,对第二文本中的字符串逐位进行取词,获取第二文本对应的分词序列,第一文本对应的分词序列包括至少一个词汇。
在实际应用中,按照预设取词长度N,对一个包含M个字符的字符串进行分词,逐位取其之后的N个字符,可得到M-N+1个长度为N的词汇。
本实施例中,优选地,预设取词长度为2。
为使本实施例中的技术方案更加清楚,下面举例说明根据逐个载取词法对字符串进行分词的过程:
例如,源代码表中某第一文本为包括“北京昌平卫生学校附属医院”这个12字符的字符串,当预设取词长度为2时,从此字符串中依次将截取到11个2字词汇,这11个词汇形成第一文本对应的词汇序列Sa,该序列Sa包括:北京、京昌、昌平、平卫、卫生、生学、学校、校附、附属、属医、医院。
通过上述方式对源代码表中的所有第一文本分别进行分词处理,获取每个第一文本对应的词汇序列Sa,对目标代码表中的所有第二文本分别进行分词处理,获取每个第二文本对应的词汇序列Sb。
需要说明的是,步骤S202也可在步骤S201之前执行,或者,步骤S201和步骤S202也可并行执行,步骤S201和步骤S202的执行顺序并不会对分词结果产生影响。
本实施例中,按照预设取词长度,对第一文本中的字符串逐位进行取词,获取第一文本对应的分词序列,按照预设取词长度,对第二文本中的字符串逐位进行取词,获取第二文本对应的分词序列,通过对源代码表和目标代码表进行最小粒度的分词处理,使得分词结果细化程度越高,有利于提高匹配的准确度。
图3为本发明提供的代码匹配方法实施例三的流程示意图。如图3所示,图1所示实施例中,步骤S103、根据分词结果,获取第一文本与每个第二文本的匹配度,可以包括以下步骤:
S301、根据第一文本对应的分词序列以及每个第二文本对应的分词序列,获取第一文本对应的分词序列中的词汇包含于每个第二文本对应的分词序列的词汇数量。
一种可能的实现方式,可设置一计数器,该计数器初始值为0,将第一文本对应的分词序列中包含的词汇逐一与第二文本对应的分词序列中的词汇进行匹配,当匹配成功时,计数器加一,通过循环执行上述匹配过程,从而获取第一文本对应的分词序列中的词汇包含于每个第二文本对应的分词序列的词汇数量,该词汇数量可记为Count。
S302、根据第一文本对应的分词序列中的词汇包含于每个第二文本对应的分词序列的词汇数量以及第一文本对应的分词序列的词汇总数,获取第一文本与每个第二文本的匹配度。
具体地,匹配度为第一文本对应的分词序列中的词汇包含于第二文本对应的分词序列的词汇数量与第一文本对应的分词序列的词汇总数的比值。匹配度可通过公式(1)表示:
Rate=Count/Size(Sa)公式(1)
其中,Rate表示匹配度,Count表示第一文本对应的分词序列中的词汇包含于每个第二文本对应的分词序列的词汇数量,Size(Sa)表示第一文本对应的分词序列的词汇总数。
本实施例中,首先,根据第一文本对应的分词序列以及每个第二文本对应的分词序列,获取第一文本对应的分词序列中的词汇包含于每个第二文本对应的分词序列的词汇数量,接着,根据第一文本对应的分词序列中的词汇包含于每个第二文本对应的分词序列的词汇数量以及第一文本对应的分词序列的词汇总数,获取第一文本与每个第二文本的匹配度。根据分词结果将第一文本与第二文本进行交叉对比,通过简单的算法即可实现,在保证了准确度的基础上,有效提高匹配效率。
图4为本发明提供的代码匹配方法实施例四的流程示意图。如图4所示,本实施例所示的方法包括:
S401、获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系。
S402、根据逐个载取词法对第一文本以及第二文本进行分词处理,获取分词结果。
本实施例中步骤S401和S402与图1所示实施例中步骤S101和S102类似,此处不再赘述。
S403、根据预设忽略词汇表对分词结果进行处理,获取处理后的分词结果。
由于在一些特定的应用场景下,源代码表和目标代码表中都会存在重复出现的常用词,例如,在医院名称匹配中,“医院”二字即为常用词,为了减小这些常用词对匹配度的影响,可建立预设忽略词汇表,该预设忽略词汇表包含的可忽略词汇可根据源代码表以及目标代码表中的具体内容以及应用场景确定。
具体地,根据预设忽略词汇表,将源代码表中第一文本对应的分词序列中出现的可忽略词汇删除,将目标代码表中第二文本对应的分词序列中出现的可忽略词汇删除,从而获取处理后的分词结果,根据处理后的分词结果进行代码匹配,匹配准确度更高。
S404、根据处理后的分词结果,获取所述第一文本与每个所述第二文本的匹配度。
S405、根据匹配度以及预设完全采信阈值,生成代码对照表。
本实施例中,步骤S404和S405与图1所示实施例中步骤S103和S104类似,此处不再赘述。
本实施例中,获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系,接着,根据逐个载取词法对每个第一文本以及每个第二文本进行分词处理,获取分词结果,再根据预设忽略词汇表对分词结果进行处理,获取处理后的分词结果,进一步,根据处理后的分词结果,获取第一文本与每个第二文本的匹配度,再根据匹配度以及预设完全采信阈值,生成代码对照表。本实施例提供的代码匹配方法,通过对源代码表和目标代码表进行最小粒度的分词处理,使得分词结果细化程度越高,有利于提高匹配的准确度,通过预设忽略词汇表对分词结果中出现的常用词进行处理,减小常用词对于匹配度的影响,大大提高了匹配准确度,同时,减小了分词结果中词汇数量,能够减小代码匹配装置的计算量,有利于提高匹配效率,之后根据分词结果将第一文本与第二文本进行交叉对比,通过简单的算法即可实现,在保证了准确度的基础上,有效提高匹配效率。
可选地,在图4所示实施例的基础上,所述方法还包括:
S406、根据匹配度、预设完全采信阈值以及预设采集阈值,生成待确认的关联文本。
本步骤中,生成的关联文本包括第一文本以及与第一文本的匹配度小于预设完全采信阈值,且大于预设采集阈值的所有第二文本,在关联文本中,第二文本按照匹配度降序排序,预设完全采信阈值大于预设采集阈值。
通过生成疑似匹配的关联文本,进行重复确认,能够提高匹配的准确度。且在关联文本中,第二文本按照匹配度大小降序排序,在后续进行重复确认时,仅需查看关联文本中匹配度最高的第二文本与第一文本是否匹配即可,无需在整个关联文本中进行查找确认,能够大大提高匹配效率。
将上述实施例中的代码匹配方法应用于公司核心管理系统与中保信平台之间的接口信息中的编码对照表编制,对于全国医院、病种的不同编码规则体系,包含数万条对应关系的源代码表(格式如图1实施例中表1所示)和目标代码表(格式如图1实施例中表2所示)之间的匹配工作。
在实际应用中,通过执行以下步骤完成源代码表与目标代码表之间的匹配工作:
步骤一,根据逐个载取词法对源代码表和目标代码表进行分词处理,其中,预设取词长度为2。
将源代码表中的每个第一文本记为Ra,将目标代码表中的每个第二文本记为Rb。对源代码表和目标代码表中的文本Ra和Rb都根据逐个载取词方法进行分词处理,从而获取每个第一文本Ra对应的分词序列Sa和每个第二文本Rb对应的分词序列Sb。
具体地,设置预设取词长度为2,对源代码表中的第一文本和目标代码表中的第二文本进行分词处理,可以参照图2所示实施例中对于“北京昌平卫生学校附属医院”这个12字长的文本进行分词的过程。
步骤二,将源代码表中的第一文本Ra,逐一与目标代码表中的所有第二文本做交叉对比,获取第一文本与所有第二文本的对应的匹配度。
具体地,循环捡取目标代码表的中每一个第二文本Rb,对每一个第二文本Rb执行以下步骤:
步骤a、设计数器Count,初始值为0;
步骤b、从目标源表包含的第一文本Ra对应的分词序列Sa中,循环捡取每一个词汇Wa,如果Wa被包含于第二文本Rb对应的分词序列Sb中,那么,计数器Count加一;
步骤c、完成一条Rb的检查之后,取匹配度Rate=Count/Size(Sa)。
通过循环执行上述过程,可获取每个第一文本与所有第二文本的匹配度。
步骤三,将与第一文本Ra的匹配度大于预设采集阈值RL的第二文本Rb形成集合Ms,在集合Ms中第二文本按照匹配度降序排序,将集合Ms与第一文本Ra关联保存,其中,预设采集阈值RL为0.5。
步骤四,若集合Ms中的第一条匹配记录M1(即与第一文本的匹配度最高的第二文本)的匹配度大于预设完全采信阈值Rt,那么,可直接采信,确定第一文本Ra与M1匹配,即生成第一文本Ra到M1所指向的第二文本的匹配记录。
若集合Ms中的第一条匹配记录M1(即与第一文本的匹配度最高的第二文本)的匹配度大于预设完全采信阈值Rt,那么,将集合Ms与第一文本Ra生成关联文本进行保存,并标识为“待确认关联文本”,之后,可由工作人员进行人工确认。
在本实施例实践中,将分词长度设为2,预设完全采信阈值设为0.8,得到99%以上的关联成功结果。人工确认其它少量存疑的关联文本时,由于已经按匹配度降序排序(高者在前),无需在整个目标代码表中人工查找,处理效率与正确率也高出数十倍。本实施例实践中仅用了不到一个小时的时间就完成了包含数万条对应关系的源代码表和目标代码表之间的匹配工作,并且还发现了原先由人工匹配出的代码对照表中存在的多处错误,由此可以看出,本发明实施例所提供的方法能够保证匹配的准确度,且大大提高匹配效率。
另外,将上述实施例中的代码匹配方法应用于A公司和B公司的系统中的全国医疗机构表匹配时,源代码表中包括4848条第一代码与医疗机构名称的对应关系,目标代码表中包括39418条第二代码与医疗机构名称的对应关系,人工匹配的最快速度为每分钟两条对应关系,大约需要一周时间才能完成,而采用本申请实施例所示的代码匹配方法,仅用1分钟20秒就可以完成源代码表和目标代码表的自动匹配。
图5为本发明提供的代码匹配装置实施例一的结构示意图。如图1所示,本实施例所示的装置50包括:获取模块51、分词模块52、匹配度获取模块53和生成模块54。
获取模块51,用于获取待匹配的源代码表和目标代码表,其中,源代码表包括至少一组第一代码与第一文本的对应关系,目标代码表包括至少一组第二代码与第二文本的对应关系。
分词模块52,用于根据逐个载取词法对第一文本以及第二文本进行分词处理,获取分词结果。
匹配度获取模块53,用于根据分词结果,获取第一文本与每个第二文本的匹配度。
第一生成模块54,用于根据匹配度以及预设完全采信阈值,生成代码对照表。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在一些实施例中,分词模块52,具体用于按照预设取词长度,对每个第一文本中的字符串逐位进行取词,获取第一文本对应的分词序列,每个第一文本对应的分词序列包括至少一个词汇;按照预设取词长度,对每个第二文本中的字符串逐位进行取词,获取第二文本对应的分词序列,每个第一文本对应的分词序列包括至少一个词汇;其中,预设取词长度为2。
在一些实施例中,第一生成模块54,具体用于按照以下方式生成代码对照表:
若匹配度大于预设完全采信阈值的第二文本为一个,确定第一文本与第二文本匹配;若匹配度大于预设完全采信阈值的第二文本为多个,确定第一文本与最大匹配度对应的第二文本匹配。
在一些实施例中,匹配度获取模块53,具体用于根据第一文本对应的分词序列以及每个第二文本对应的分词序列,获取第一文本对应的分词序列中的词汇包含于每个第二文本对应的分词序列的词汇数量;以及,根据第一文本对应的分词序列中的词汇包含于每个第二文本对应的分词序列的词汇数量以及第一文本对应的分词序列的词汇总数,获取第一文本与每个第二文本的匹配度。
可选地,匹配度为第一文本对应的分词序列中的词汇包含于第二文本的对应的分词序列的词汇数量与第一文本的对应的分词序列的词汇总数的比值。
匹配度可用公式Rate=Count/Size(Sa)表示,其中,Rate表示匹配度,Count表示第一文本对应的分词序列中的词汇包含于每个第二文本对应的分词序列的词汇数量,Size(Sa)表示第一文本对应的分词序列的词汇总数。
图6为本发明提供的代码匹配装置实施例二的结构示意图。如图6所示,本实施例的装置60在图5所示实施例的基础上,还包括:处理模块55。
处理模块55,具体用于在分词模块52根据逐个载取词法对第一文本以及第二文本进行分词处理,获取分词结果之后,根据预设忽略词汇表对分词结果进行处理,获取处理后的分词结果。
相应地,匹配度获取模块53,用于根据处理后的分词结果,获取第一文本与每个第二文本的匹配度。
本实施例所示的装置可用于执行图4所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选地,在图4所示实施例的基础上,还包括:第二生成模块56,用于根据匹配度、预设完全采信阈值以及预设采集阈值,生成待确认的关联文本,关联文本包括第一文本以及与第一文本的匹配度小于预设完全采信阈值,且大于预设采集阈值的所有第二文本,关联文本中第二文本按照匹配度降序排序;其中,预设完全采信阈值大于预设采集阈值。
图7为本发明提供的代码匹配装置实施例三的结构示意图。如图7所示,本实施例的装置70包括:存储器71、处理器72。
其中,存储器71可以是独立的物理单元,与处理器72可以通过总线73连接。存储器71、处理器72也可以集成在一起,通过硬件实现等。
存储器71用于存储实现以上方法实施例的程序,处理器72调用该程序,执行以上方法实施例的操作。
可选地,当上述实施例的方法中的部分或全部通过软件实现时,上述代码匹配装置70也可以只包括处理器。用于存储程序的存储器位于代码匹配装置70之外,处理器通过电路/电线与存储器连接,用于读取并执行存储器中存储的程序。
处理器72可以是中央处理器(Central Processing Unit,CPU),网络处理器(Network Processor,NP)或者CPU和NP的组合。
处理器72还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit,ASIC),可编程逻辑器件(ProgrammableLogic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD),现场可编程逻辑门阵列(Field-Programmable GateArray,FPGA),通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。
存储器71可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random-Access Memory,RAM);存储器也可以包括非易失性存储器(Non-volatileMemory),例如快闪存储器(Flash Memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-state Drive,SSD);存储器还可以包括上述种类的存储器的组合。
另外,本发明还提供一种程序产品,例如,计算机存储介质,包括:程序,程序在被处理器执行时用于执行以上方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种代码匹配方法,其特征在于,包括:
获取待匹配的源代码表和目标代码表,其中,所述源代码表包括至少一组第一代码与第一文本的对应关系,所述目标代码表包括至少一组第二代码与第二文本的对应关系;
根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果;
根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度;
根据所述匹配度以及预设完全采信阈值,生成代码对照表。
2.根据权利要求1所述的方法,其特征在于,所述根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果,包括:
按照预设取词长度,对每个所述第一文本中的字符串逐位进行取词,获取所述第一文本对应的分词序列,每个所述第一文本对应的分词序列包括至少一个词汇;
按照所述预设取词长度,对每个所述第二文本中的字符串逐位进行取词,获取所述第二文本对应的分词序列,每个所述第一文本对应的分词序列包括至少一个词汇。
3.根据权利要求2所述的方法,其特征在于,所述根据所述匹配度以及预设完全采信阈值,生成代码对照表,包括:
若所述匹配度大于所述预设完全采信阈值的第二文本为一个,确定所述第一文本与所述第二文本匹配;
若所述匹配度大于所述预设完全采信阈值的第二文本为多个,确定所述第一文本与最大所述匹配度对应的第二文本匹配。
4.根据权利要求2所述的方法,其特征在于,所述根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度,包括:
根据所述第一文本对应的分词序列以及每个所述第二文本对应的分词序列,获取所述第一文本对应的分词序列中的词汇包含于每个所述第二文本对应的分词序列的词汇数量;
根据所述第一文本对应的分词序列中的词汇包含于每个所述第二文本对应的分词序列的词汇数量以及所述第一文本对应的分词序列的词汇总数,获取所述第一文本与每个所述第二文本的匹配度。
5.根据权利要求4所述的方法,其特征在于,所述匹配度为所述第一文本对应的分词序列中的词汇包含于所述第二文本对应的分词序列的词汇数量与所述第一文本对应的分词序列的词汇总数的比值。
6.根据权利要求1所述的方法,其特征在于,所述根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果之后,所述方法还包括:
根据预设忽略词汇表对所述分词结果进行处理,获取处理后的分词结果;
相应地,所述根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度,包括:
根据所述处理后的分词结果,获取所述第一文本与每个所述第二文本的匹配度。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
根据所述匹配度、所述预设完全采信阈值以及预设采集阈值,生成待确认的关联文本,所述关联文本包括第一文本以及与所述第一文本的匹配度小于所述预设完全采信阈值,且大于所述预设采集阈值的所有所述第二文本,所述关联文本中所述第二文本按照所述匹配度降序排序;
其中,所述预设完全采信阈值大于所述预设采集阈值。
8.一种代码匹配装置,其特征在于,包括:
获取模块,用于获取待匹配的源代码表和目标代码表,其中,所述源代码表包括至少一组第一代码与第一文本的对应关系,所述目标代码表包括至少一组第二代码与第二文本的对应关系;
分词模块,用于根据逐个载取词法对所述第一文本以及所述第二文本进行分词处理,获取分词结果;
匹配度获取模块,用于根据所述分词结果,获取所述第一文本与每个所述第二文本的匹配度;
第一生成模块,用于根据所述匹配度以及预设完全采信阈值,生成代码对照表。
9.一种代码匹配装置,其特征在于,包括:存储器和处理器;
所述存储器存储程序指令;
所述程序指令在被所述处理器执行时,以执行权利要求1-7中任一项所述的方法。
10.一种存储介质,其特征在于,包括:程序;
所述程序在被处理器执行时,以执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811403873.1A CN109325105B (zh) | 2018-11-23 | 2018-11-23 | 代码匹配方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811403873.1A CN109325105B (zh) | 2018-11-23 | 2018-11-23 | 代码匹配方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325105A true CN109325105A (zh) | 2019-02-12 |
CN109325105B CN109325105B (zh) | 2021-06-29 |
Family
ID=65258544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811403873.1A Active CN109325105B (zh) | 2018-11-23 | 2018-11-23 | 代码匹配方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325105B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489127A (zh) * | 2019-08-12 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 错误代码确定方法、装置、计算机可读存储介质及设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799807A (zh) * | 2009-02-10 | 2010-08-11 | 中国移动通信集团公司 | 一种异构数据表的合并方法及其系统 |
CN102200968A (zh) * | 2011-05-30 | 2011-09-28 | 深圳市五巨科技有限公司 | 一种excel表格数据排重的方法和装置 |
CN103546320A (zh) * | 2013-10-23 | 2014-01-29 | 北京千禧维讯科技有限公司 | 一种基于sdh的传输网络的交叉链接数据的对接方法 |
CN104156832A (zh) * | 2014-08-28 | 2014-11-19 | 国家电网公司 | 系统间数据核对方法及装置 |
US20140379335A1 (en) * | 2013-06-21 | 2014-12-25 | Tencent Technology (Shenzhen) Company Limited | Method and device of matching speech input to text |
CN104346443A (zh) * | 2014-10-20 | 2015-02-11 | 北京国双科技有限公司 | 网络文本处理方法及装置 |
CN105205068A (zh) * | 2014-06-19 | 2015-12-30 | 富士通株式会社 | 用于在第一表和第二表之间进行域匹配的方法和装置 |
CN106446133A (zh) * | 2016-09-19 | 2017-02-22 | 广东中标数据科技股份有限公司 | 同时对接两个数据库的方法及装置 |
CN106611060A (zh) * | 2016-12-29 | 2017-05-03 | 苏碧云 | 一种用于gis的数据处理方法 |
CN108595614A (zh) * | 2018-04-20 | 2018-09-28 | 成都智信电子技术有限公司 | 应用于his系统的数据表映射方法 |
-
2018
- 2018-11-23 CN CN201811403873.1A patent/CN109325105B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799807A (zh) * | 2009-02-10 | 2010-08-11 | 中国移动通信集团公司 | 一种异构数据表的合并方法及其系统 |
CN102200968A (zh) * | 2011-05-30 | 2011-09-28 | 深圳市五巨科技有限公司 | 一种excel表格数据排重的方法和装置 |
US20140379335A1 (en) * | 2013-06-21 | 2014-12-25 | Tencent Technology (Shenzhen) Company Limited | Method and device of matching speech input to text |
CN103546320A (zh) * | 2013-10-23 | 2014-01-29 | 北京千禧维讯科技有限公司 | 一种基于sdh的传输网络的交叉链接数据的对接方法 |
CN105205068A (zh) * | 2014-06-19 | 2015-12-30 | 富士通株式会社 | 用于在第一表和第二表之间进行域匹配的方法和装置 |
CN104156832A (zh) * | 2014-08-28 | 2014-11-19 | 国家电网公司 | 系统间数据核对方法及装置 |
CN104346443A (zh) * | 2014-10-20 | 2015-02-11 | 北京国双科技有限公司 | 网络文本处理方法及装置 |
CN106446133A (zh) * | 2016-09-19 | 2017-02-22 | 广东中标数据科技股份有限公司 | 同时对接两个数据库的方法及装置 |
CN106611060A (zh) * | 2016-12-29 | 2017-05-03 | 苏碧云 | 一种用于gis的数据处理方法 |
CN108595614A (zh) * | 2018-04-20 | 2018-09-28 | 成都智信电子技术有限公司 | 应用于his系统的数据表映射方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489127A (zh) * | 2019-08-12 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 错误代码确定方法、装置、计算机可读存储介质及设备 |
CN110489127B (zh) * | 2019-08-12 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 错误代码确定方法、装置、计算机可读存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109325105B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948029B2 (en) | Access control for encrypted data in machine-readable identifiers | |
US8930223B2 (en) | Patient cohort matching | |
Zhang et al. | Comparing keywords plus of WOS and author keywords: A case study of patient adherence research | |
CN103888254B (zh) | 一种网络验证信息的方法和装置 | |
CN104361139B (zh) | 数据导入装置和方法 | |
CN107239479A (zh) | 一种基于区块链的数据存储以及查询的方法及装置 | |
CN107577697A (zh) | 一种数据处理方法、装置及设备 | |
CN108549850A (zh) | 一种图像识别方法及电子设备 | |
WO2019019375A1 (zh) | 核保决策树的创建方法、装置、计算机设备及存储介质 | |
US20210141834A1 (en) | Dynamic database updates using probabilistic determinations | |
CN111091881A (zh) | 医疗信息分类方法、医疗分类信息的存储方法及计算设备 | |
US20170220412A1 (en) | Systems and methods for providing error code detection using non-power-of-two flash cell mapping | |
CN109325105A (zh) | 代码匹配方法、装置及存储介质 | |
CN110660395B (zh) | 一种基于语音识别的安全报告生成方法和装置 | |
US20160232303A1 (en) | Automatically handling natural-language patient inquiries about health insurance information | |
CN112309565A (zh) | 用于匹配药品信息和病症信息的方法、装置、电子设备和介质 | |
US10997252B2 (en) | Methods, apparatuses, and computer storage media for data searching | |
Chen et al. | Adherence to CONSORT items in randomized controlled trials of integrative medicine for colorectal cancer published in Chinese journals | |
CN111128325A (zh) | 医疗数据存储方法及装置、电子设备和存储介质 | |
CN109543772A (zh) | 数据集自动匹配方法、装置、设备和计算机可读存储介质 | |
CN109491971A (zh) | 一种文件过滤方法、装置、设备及计算机可读存储介质 | |
CN107705849A (zh) | 远程会诊意见整合方法和装置 | |
Mills et al. | Professional medical writing support and the reporting quality of randomized controlled trial abstracts among high-impact general medical journals | |
CN110245115A (zh) | 一种文件处理方法、引擎及系统 | |
CN113126981B (zh) | 一种基于Excel的医疗数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |