发明内容
本公开的目的在于提供一种药品信息匹配方法及药品信息匹配系统,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,提供一种药品信息匹配方法,包括:
获取目标信息,其中,所述目标信息包含与所述目标信息的各参考系对应的各目标子信息;
对所述目标信息的各所述目标子信息与标准信息集合中每一标准信息对应的标准子信息进行关联度识别以得到关联度识别结果;
判断所述关联度识别结果是否满足预设关联要求,并在判断出所述关联度识别结果满足所述预设关联要求时,将满足所述预设关联要求的所述目标信息与一个或多个标准信息分别配置成一个或多个候选信息对;
针对各所述候选信息对分别计算所述目标信息的各目标子信息与标准信息中对应的各标准子信息的相似度,并基于计算出的所述相似度分别计算出各所述候选信息对的综合匹配分值;以及
将最大的综合匹配分值对应的候选信息对中的标准信息确定为所述目标信息的匹配信息。
在本公开的一种示例性实施例中,所述药品信息匹配方法还包括:
在判断出所述关联度识别结果未满足所述预设关联要求时,按所述目标信息的各参考系的预设判断阈值对所述各目标子信息进行排序以形成一目标序列;
按所述目标序列依次对各所述目标子信息的数据质量进行分析并根据分析结果发送与各所述目标子信息对应的各修正提示信息;以及
分别接收基于各所述修正提示信息而反馈的各要素修正信息,并将各所述要素修正信息与对应的目标子信息结合。
在本公开的一种示例性实施例中,所述药品匹配方法还包括:
构建所述目标信息和所述标准信息的取值凭证与计算标识之间的关系结构;
根据所述关系结构存取所述目标信息、所述标准信息以及与所述目标信息和所述标准信息相关的信息。
在本公开的一种示例性实施例中,所述药品信息匹配方法还包括:
对所述标准信息的各参考系进行分类索引,并统计出各参考系下每一标准子信息的数量;
以<第一键,<第二键,值>>的方式存储各所述标准信息的参考系、参考系下的标准子信息以及标准子信息的数量;其中,第一键为各标准信息的参考系、第二键为第一键表示的参考系下的标准子信息以及值为第二键表示的标准子信息的数量。
在本公开的一种示例性实施例中,所述对所述目标信息的各所述目标子信息与标准信息集合中每一标准信息对应的标准子信息进行关联度识别以得到关联度识别结果包括:
计算各所述目标子信息与对应的标准子信息的关联值;
判断所述关联值是否大于第一预设阈值;
在判断出所述关联值大于所述第一预设阈值时,获取所述关联值对应的各标准信息;以及
根据各参考系的预设权重计算所述关联值对应的各标准信息与所述目标信息的匹配分值。
在本公开的一种示例性实施例中,所述判断所述关联度识别结果是否满足预设关联要求包括:
判断所述匹配分值是否大于第二预设阈值;
其中,预设关联要求为所述匹配分值大于所述第二预设阈值。
在本公开的一种示例性实施例中,所述根据各参考系的预设权重计算所述关联值对应的各标准信息与所述目标信息的匹配分值包括:
根据各参考系的预设权重在各参考系下对与各标准信息对应的关联值进行加权求和;
根据所述加权求和的结果计算所述关联值对应的各标准信息与所述目标信息的匹配分值。
在本公开的一种示例性实施例中,所述针对各所述候选信息对分别计算所述目标信息的各目标子信息与标准信息中对应的各标准子信息的相似度包括:
针对各所述候选信息,计算不同编码类型的所述目标子信息组的匹配相容度并且将匹配相容度最大的编码类型设定为最大相容类型;
判断所述目标子信息组的最大匹配相容度是否小于所述目标子信息组的参考系的相容度预设值以得到判断结果,并且采用与所述判断结果对应的计算模块计算所述目标子信息组的相似度。
在本公开的一种示例性实施例中,所述目标子信息组的相似度包括所述目标子信息组的直接相似度或所述目标子信息组的间接相似度。
在本公开的一种示例性实施例中,所述药品信息匹配方法还包括:
对不同计算模块中的各基础性操作进行修改,以使不同计算模块在执行计算操作时采用相同的基础性操作。
在本公开的一种示例性实施例中,所述采用与所述判断结果对应的计算模块计算所述目标子信息组的相似度包括:
在判断出所述目标子信息组的最大匹配相容度不小于所述目标子信息组的参考系的相容度预设值时,根据所述最大相容类型调用的直接计算模块来计算该所述目标子信息组的直接相似度;
在判断出所述目标子信息组的最大匹配相容度小于所述目标子信息组的参考系的相容度预设值时,提取所述目标子信息组的最大相容信息,并且针对所述最大相容信息并根据所述最大相容类型调用的间接计算模块来计算该所述目标子信息组的间接相似度。
在本公开的一种示例性实施例中,所述基于计算出的所述相似度分别计算出各所述候选信息对的综合匹配分值包括:
基于计算出的所述相似度计算各目标子信息的差异值;
对各目标子信息的差异值进行加权平均以得到各所述候选信息对的综合匹配分值。
在本公开的一种示例性实施例中,所述基于计算出的所述相似度计算各目标子信息的差异值包括:
在目标子信息的相似度大于该所述目标子信息对应的判断阈值时,
差异值=相似度*log(c/d,n)*e
在目标子信息的相似度不大于该所述目标子信息对应的判断阈值时,
差异值=相似度*log((1-c)/(1-d),n)*e
其中,f为判断阈值、c为相容概率、d为排斥概率、n为差异因子数以及e为放大系数。
根据本公开的一个方面,提供一种药品信息匹配系统,包括:
获取模块,用于获取目标信息,其中,所述目标信息包含与所述目标信息的各参考系对应的各目标子信息;
关联度识别模块,用于对所述目标信息的各所述目标子信息与标准信息集合中每一标准信息对应的标准子信息进行关联度识别以得到关联度识别结果;
判断模块,用于判断所述关联度识别结果是否满足预设关联要求,并在判断出所述关联度识别结果满足所述预设关联要求时,将满足所述预设关联要求的所述目标信息与一个或多个标准信息分别配置成一个或多个候选信息对;
计算模块,用于针对各所述候选信息对分别计算所述目标信息的各目标子信息与标准信息中对应的各标准子信息的相似度,并基于计算出的所述相似度分别计算出各所述候选信息对的综合匹配分值;以及
确定模块,用于将最大的综合匹配分值对应的候选信息对中的标准信息确定为所述目标信息的匹配信息。
根据本公开的一个方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的药品信息匹配方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的药品信息匹配方法。
在本公开的一些实施例所提供的技术方案中,首先,确定目标信息的各目标子信息与标准信息对应的标准子信息的关联度识别结果,并在关联度识别结果满足预设关联要求的情况下,对各目标子信息与各标准子信息进行相似度计算,随后,结合相似度计算结果计算出目标信息与各标准信息的综合匹配分值,并将最大的综合匹配分值对应的目标信息确定为目标信息的匹配信息,本公开在实现了信息匹配的同时,一方面,通过所述关联度识别结果,可以确定出各目标子信息与标准子信息的关联度;另一方面,在判断出关联度识别结果满足预设关联要求时配置候选信息对,并对候选信息对进行进一步处理,由此减少了待进一步处理的信息对,从而提高了信息处理效率;再一方面,基于计算出的相似度计算出综合匹配分值,相当于对相似度进行了进一步处理,使匹配结果更准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
下面将以药品信息为例对本公开的示例性实施方式进行说明,然而,应当注意的是,本公开所描述的信息匹配的方法及系统不限于应用于药品信息,还可以应用于对其他信息进行匹配,本公开对此不做特殊限定。
参考图1,一些技术方案为了将非标准药品信息识别为标准药品信息,通常将m条非标准药品信息与n条标准药品信息一一构成信息对。在这种情况下,随着非标准药品信息的数量以及标准药品信息的数量的增加,构成的信息对的数据也将越来越多,运算量也将越来越大。此外,研究发现m*n个信息对中存在大量的无效信息对,也就是说,构成信息对的非标准药品信息与标准药品信息差距较大,无法确定该非标准药品信息对应的标准药品信息。
鉴于此,本公开提供了一种药品信息匹配方法。
图2示意性示出了本公开的示例性实施方式的药品信息匹配方法的流程图。参考图2,所述药品信息匹配方法可以包括以下步骤:
S10.获取目标信息,其中,所述目标信息包含与所述目标信息的各参考系对应的各目标子信息;
S20.对所述目标信息的各所述目标子信息与标准信息集合中每一标准信息对应的标准子信息进行关联度识别以得到关联度识别结果;
S30.判断所述关联度识别结果是否满足预设关联要求,并在判断出所述关联度识别结果满足所述预设关联要求时,将满足所述预设关联要求的所述目标信息与一个或多个标准信息分别配置成一个或多个候选信息对;
S40.针对各所述候选信息对分别计算所述目标信息的各目标子信息与标准信息中对应的各标准子信息的相似度,并基于计算出的所述相似度分别计算出各所述候选信息对的综合匹配分值;以及
S50.将最大的综合匹配分值对应的候选信息对中的标准信息确定为所述目标信息的匹配信息。
在本公开的示例性实施方式的药品信息匹配方法中,首先,确定目标信息的各目标子信息与标准信息对应的标准子信息的关联度识别结果,并在关联度识别结果满足预设关联要求的情况下,对各目标子信息与各标准子信息进行相似度计算,随后,结合相似度计算结果计算出目标信息与各标准信息的综合匹配分值,并将最大的综合匹配分值对应的目标信息确定为目标信息的匹配信息,本公开在实现了信息匹配的同时,一方面,通过所述关联度识别结果,可以确定出各目标子信息与标准子信息的关联度;另一方面,在判断出关联度识别结果满足预设关联要求时配置候选信息对,并对候选信息对进行进一步处理,由此减少了待进一步处理的信息对,从而提高了信息处理效率;再一方面,基于计算出的相似度计算出综合匹配分值,相当于对相似度进行了进一步处理,使匹配结果更准确。
下面将对本公开的示例性实施方式药品信息匹配方法的各步骤进行说明。
在步骤S10中,目标信息可以包含多个目标子信息,每个目标子信息对应一参考系。图3示出了根据本公开的示例性实施方式的具有多个参考系的药品信息的示意图。参考图3,参考系可以包括但不限于药品编号、批准文号、药品名称(中文)、药品名称(英文)、制剂规格、药品剂型、厂商名称等,而目标子信息可以是对应参考下的具体信息内容。
例如,在参考系为药品名称(中文)的情况下,对应的目标子信息可以是“黄体酮注射液”、“呋嘛滴鼻液”、“诺氟沙星滴眼液”等具体的药品名称。再例如,在参考系为制剂规格的情况下,对应的目标子信息可以是“10ml”、“150g”、“10mg”等具体的制剂规格。
在以药品信息为例的本公开的实施方式中,可以从医院的HIS(医院信息系统)、EMR(电子病历)等医疗信息系统中获取目标信息,但不限于此,还可以从医院的CIS(临床信息系统)或者医院的药品信息数据库中获取目标信息,本公开对此不做特殊限定。另外,可以对医院信息系统中的不同类型的数据库如MySQL、SQL Server Oracle、DB2等配置统一接口,并且可以通过该统一接口获取各数据库中的目标信息。
在步骤S20中,标准信息可以为根据《中国药典》制定的标准药品数据,也可以为根据其他医药标准如《美国药典》、《欧洲药典》、《WHO国际药典》、卫生部发布的《中药成方制剂》以及《国家中成药标准汇编》等指定的标准药品信息,本公开对此不做特殊限定。
在本步骤中,首先,可以计算目标信息的各目标子信息与标准信息对应的标准子信息的关联值。具体的,可以通过计算各目标子信息与对应的标准子信息之间的距离来确定关联值。根据本公开的一些实施例,所述距离可以包括海明距离、欧式距离、余弦距离中的一种或多种,但不限于此,所述距离还可以包括马氏距离、曼哈顿距离等。
进一步的,根据另外一些实施例,为了提高信息处理效率,可以对标准信息的各参考系进行分类索引,并统计出各参考系下每一标准子信息的数量;以及以<第一键,<第二键,值>>的方式存储各标准信息的参考系、参考系下的标准子信息以及标准子信息的数量;其中,第一键为各标准信息的参考系、第二键为第一键表示的参考系下的标准子信息以及值为第二键表示的标准子信息的数量。
具体的,仍参考图3,深色区域表示标准信息。以药品剂型参考系为例,标准子信息为片剂的数量为1、标准子信息为滴眼剂的数量为5、标准子信息为注射剂的数量为3,因此,在药品剂型参考系下,可以以<药品剂型,<片剂,1>>、<药品剂型,<滴眼剂,5>>、<药品剂型,<注射剂,3>>的数据结构来存储各标准信息。此外,为了进一步提高信息处理效率,还可以缓存以<第一键,<第二键,值>>数据结构存储的各标准信息。
此外,由于可以对多条标准信息的各标准子信息进行分类索引,并且可以统计出每一标准子信息的数量,因此,在对一条标准信息的标准子信息进行关联值计算时,可以同时计算出相同的标准子信息的关联值,例如,在标准子信息滴眼液的数量为5时,可以同时计算出5个标准子信息的关联值,从而可以显著提高关联值的计算效率。
在步骤S20中,随后,判断计算出的关联值是否大于第一预设阈值。并且在判断出关联值大于第一预设阈值时,获取该关联值对应的各标准信息。例如,针对药品剂型参考系,在计算出目标信息的目标子信息(滴眼液)与标准子信息的关联值大于第一预设阈值时,可以获得5条标准信息,所述5条标准信息为上述该关联值对应的标准信息。因此,在本实施方式中,可以快速获取每一参考系对应的标准信息。
例如,继续参考图3,在目标数据mk的药品名称为“甘露醇注射液”、制剂规格为“250mL:50g”、药品剂型为“注射液”的情况下,可以将各参考系下的标准药品数据集表示为{n9}、{n9,n10}以及{n9,n10,n11}。
进一步,为了更高效地处理获取的标准信息,还可以根据各参考系下获取的同一标准信息的总数量来对标准药品数据进行排序。例如,n9在各参考系下出现的次数是3,n10在各参考系下出现的次数为2,n11在各参考系下出现的次数为1,因此对与mk对应的标准信息进行排序的结果为n9>n10>n11。
在步骤S20中,然后,可以根据各参考系的预设权重计算关联值对应的各标准信息与目标信息的匹配分值。
在本公开的示例性实施方式中,可以根据各参考系下具体信息的特点预先对标准信息的各参考系设置权重。例如,可以将药品名称的权重设定为较高,将厂商名称的权重设定为较低。此外,还可以根据目标信息处理中得到的结果不断修正各参考系的预设权重。
根据本公开的一些实施例,可以根据各参考系的预设权重在各参考系下对与各标准信息对应的关联值进行加权求和;并根据加权求和的结果计算关联值对应的各标准信息与目标信息的匹配分值。
在步骤S30中,根据本公开的一些实施例,判断关联度标识结果是否满足预设关联要求可以包括:判断匹配分值是否大于第二预设阈值,并且其中,预设关联要求为匹配分值大于该第二预设阈值。也就是说,在一些实施例中,当判断出步骤S20计算出的匹配分值大于第二预设阈值时,将匹配分值大于第二预设阈值对应的目标信息与一个或多个标准信息分别配置为一个或多个候选信息对。
进一步的,还可以根据匹配分值对获取的标准信息进行排序。在图4中,右侧部分中每一个圆表示一条标准信息,例如,当目标信息落在四个圆交汇的中心部分n(例如n=4)时,表示获取4条标准信息,再例如,当目标信息落在n-1处时,表示获取3条标准信息。此外,图4左侧部分中,经填充的方块可以为候选信息对,无填充的方块可以为目标信息以及未与目标信息匹配的标准信息组成的信息对。另外,针对候选信息,不同的填充类型可以表示不同的匹配分值,例如,竖线填充的匹配分值高于用斜线填充的匹配分值,用斜线填充的匹配分值高于用黑点填充的匹配分值。对标准信息进行排序后,通过选取匹配分值较高的标准信息作为候选信息,可以进一步减少需要处理的信息对,提高了信息处理的效率。
在步骤S40中,针对步骤S30中配置的一个或多个候选信息对,可以分别计算目标信息的各目标子信息与标准信息对应的各标准子信息的相似度。
具体的,首先,可以对各目标子信息组进行不同类型的编码,在本公开的示例性实施方式中,对目标子信息组进行编码可以包括对目标子信息组进行字符编码、对目标子信息组进行字形编码以及对目标子信息组进行语音编码等。然而,应当理解的是,上述编码类型仅是常用的编码类型且是示例性的,本公开还可以包括其他编码类型。
通过对目标子信息组进行不同类型的编码,实现了目标子信息组不同维度的表示方式,为随后精确计算相似度提供了基础。
随后,针对同一目标子信息组,计算出与不同编码类型对应的匹配相容度,在本公开的示例性实施方式中,匹配相容度可以是根据具体信息内容确定的表示目标子信息组中各目标子信息关联程度的值。例如,可以判断两条目标子信息中具有连续相同字符的长度,并且将所述具有连续相同字符的长度作为匹配相容度的要素来计算匹配相容度,然而不限于此,基于信息内容的组成形式,匹配相容度还可以通过其他方式计算出,本公开对此不做特殊限定。
在编码类型包括字符编码、字形编码和语音编码的情况下,可以分别计算出字符编码后的目标子信息组的匹配相容度、字形编码后的目标子信息组的匹配相容度和语音编码后的目标子信息组的匹配相容度,并将此三种匹配相容度的计算结果进行比较。此外,可以将匹配相容度最大的编码类型设定为最大相容类型。
例如,可以以数字的形式表示计算出的匹配相容度,若字符编码后的匹配相容度最大,则可以将字符编码设定为最大相容类型。
然后,可以判断目标子信息组的最大匹配相容度是否小于目标子信息组的相容度预设值。针对目标信息对中的每一参考系可以设置有相容度预设值,用于确定计算相似度所用计算模块的类型。另外,可以根据参考系的不同权重来预先设定不同的相容度预设值,例如,可以将权重大的参考系的相容度预设值设置为较小的值,将权重小的参考系的相容度预设值设置为较大的值。然而,由于不同参考系所限定的信息内容不同,所以在一些情况下,可以将权重大的参考系的相容度预设值设置为较大的值,并且将权重小的参考系的相容度预设值设置为较小的值。本示例性实施方式中对此不做特殊限定。
此外,计算目标子信息组相似度的计算模块所采用的计算方法可以包括词组拆分、字符编码、发音编码、下标索引、位差计算、字频计算等。在本公开的示例性实施方式中,可以采用不同的算法对目标子信息组的相似度进行计算,例如,针对字符编码的计算方法可以包括但不限于Boyer-Moore算法、Horspool算法、Sunday算法、KMP算法、KR算法、AC算法等。
另外,对于上述各算法,可能存在相同的基础性操作,例如,Sunday算法利用了Boyer-Moore算法中的坏字符规则的操作过程,因此,在应用到本公开的实施方式之前,可以对类似于坏字符规则的基础性操作进行修改,以达到复用相同的基础性操作的目的,从而提高了计算效率。
类似地,可以分别采用现有的针对字形编码和针对语音编码的计算方法及其变型来对相似度进行计算,同时,可以确定功能相同的基础性操作,并对所述基础性操作进行满足本公开相似性计算的修改,以达到提高计算效率的目的。
根据本公开的一些实施例,在判断出目标子信息组的最大匹配相容度不小于该目标子信息组的参考系的相容度预设值时,根据最大相容类型调用的直接计算模块来计算该目标子信息组的直接相似度。
具体的,假设针对一目标子信息组的最大相容类型为字符编码,则可以调用集成有直接字符编码计算方法的直接计算模块对该目标子信息组的直接相似度进行计算。其中,直接计算模块中的直接字符编码计算方法可以根据该字符编码的具体内容而发生变化,例如,可以将Boyer-Moore算法作为直接计算模块中的字符编码计算方法,但不限于此,在针对另一些字符编码,可以使用Horspool算法计算出目标子信息组的直接相似度。此外,针对最大相容类型为字形编码或语音编码的情况也有类似的处理过程,在此不再赘述。
根据另外一些实施例,在判断出目标子信息组的最大匹配相容度小于目标子信息组的参考系的相容度预设值时,提取该目标子信息组的最大相容信息,并且针对该最大相容信息并根据最大相容类型调用的间接计算模块来计算该目标子信息组的间接相似度。
具体的,假设针对一目标子信息组的最大相容类型为字符编码,例如,最大相容信息可以是该目标子信息组的连续相同字符。针对该连续相同字符,可以调用集成有间接字符编码计算方法的间接计算模块对间接相似度进行计算,此时,计算连续相同字符的相似度即是计算该目标自信息组的间接相似度。其中,与直接计算模块类似,间接计算模块中的间接字符编码计算方法可以根据该字符编码的具体内容而发生变化。应当说明的是,直接计算模块中的直接字符编码计算方法的权重可以大于间接计算模块中的间接字符编码计算方法的权重。另外,可以根据具体药品信息的情况自行定义不同计算方法的权重。此外,针对最大相容类型为字形编码或语音编码的情况也有类似的处理过程,在此不再赘述。
此外,计算所述相似度的过程还可以包括根据计算出的各目标子信息组的直接相似度或间接相似度并结合直接计算模块和间接计算模块的权重确定目标信息对的相似度。
具体的,例如,可以通过将各目标子信息组的直接相似度或间接相似度与直接计算模块的权重或间接计算模块的权重相乘,并将各目标子信息组的所述相乘结果累加,以得到最终目标信息对的相似度,但不限于此,还可以存在其他确定最终目标信息对的计算方法,本公开对此不做具体限定。
在步骤S40中,还可以根据基于计算出的相似度分别计算出各候选信息对的综合匹配分值。
具体的,表1示出了计算出的相似度,其中,NID所在的列表示标准信息,MID所在的列表示目标信息,R1至R6表示不同的参考系,例如参考系可以为药品编号、批准文号、药品名称(中文)、药品名称(英文)、制剂规格、药品剂型。
表1.
NID |
MID |
R1 |
R2 |
R3 |
R4 |
R5 |
R6 |
N102 |
M185 |
91.06427 |
83.02689 |
55.76598 |
85.38511 |
42.87573 |
83.00242 |
N102 |
M423 |
67.88041 |
67.07605 |
89.16404 |
75.7294 |
75.68885 |
60.30778 |
N102 |
M902 |
86.84194 |
63.75839 |
88.71935 |
58.84218 |
66.24005 |
65.45528 |
N102 |
M580 |
76.63916 |
84.76704 |
62.67677 |
64.97011 |
72.45706 |
62.17329 |
N102 |
M1022 |
56.88255 |
93.85251 |
49.15134 |
91.16981 |
82.73499 |
49.01752 |
N102 |
M276 |
45.39508 |
49.52274 |
80.3929 |
39.7603 |
73.90614 |
40.16648 |
N102 |
M986 |
56.07566 |
47.0751 |
48.23597 |
55.15449 |
57.2735 |
56.68381 |
N102 |
M556 |
21.67067 |
50.90629 |
21.7255 |
57.97105 |
29.45841 |
32.19147 |
N102 |
M851 |
38.69177 |
22.67075 |
32.35278 |
36.74417 |
39.38383 |
34.78763 |
N102 |
M265 |
13.63181 |
75.12384 |
23.11756 |
60.24734 |
5.905576 |
24.16077 |
N102 |
M897 |
28.86901 |
84.51688 |
16.08536 |
16.22755 |
17.17475 |
24.42942 |
在本公开的示例性实施方式中,为了更好地对相似度进行区别性处理,可以根据各参考系的权重来预设各参考系的相似度的判断阈值。此外,还可以对判断阈值进行修正。随后,可以将各参考系的相似度与对应的判断阈值进行比较,并且在相似度大于对应的判断阈值时,对相似度进行正向放大处理;在相似度小于对应的判断阈值时,对相似度进行负向放大处理。
举例而言,在本示例实施例中,假设判断阈值为f、纠正系数为h、相容概率为c、排斥概率为d、差异因子数为n以及放大系数为e,则可以直接将相似度与对应的判断阈值f进行比较,也可以将相似度与对应的判断阈值和纠正系数之和例如f+h进行比较,此外,还可以将相似度与数学式f+h*(f+h)的值进行比较,这同样在本公开的保护范围内。表2示出了根据本示例实施例与各参考系对应的判断阈值f、纠正系数h、相容概率c、排斥概率d的预设值。
表2
参考系 |
判断阈值 |
纠正系数 |
相容概率 |
排斥概率 |
R1 |
53.05839 |
0.05031834 |
0.7703145 |
0.2933824 |
R2 |
65.66332 |
-0.1913443 |
0.8428367 |
0.0861728 |
R3 |
51.58069 |
-0.0240676 |
0.9510112 |
0.0806468 |
R4 |
58.38195 |
-0.0771713 |
0.9676309 |
0.1304032 |
R5 |
51.19081 |
-0.0369349 |
0.785452 |
0.2617031 |
R6 |
48.39781 |
0.03709961 |
0.9866528 |
0.3030836 |
需要说明的是,上述预设值仅是本示例实施例中的举例说明,还可以根据处理结果对与各参考系对应的判断阈值f、纠正系数h、相容概率c、排斥概率d的预设值进行修正,这同样在本公开的本公开的保护范围内。
进一步地,将相似度与对应的判断阈值进行比较之后,可以根据比较结果结合对应的判断阈值、相容概率以及排斥概率对相似度采用指数放大方式得到差异值。例如,在相似度大于对应的判断阈值时,通过下式对所述相似度进行指数放大得到的差异值:
差异值=相似度*log(c/d,n)*e
其中,f为判断阈值、c为相容概率、d为排斥概率、n为差异因子数以及e为放大系数;以及
在相似度小于对应的判断阈值时,通过下式对所述相似度进行指数缩小得到的差异值:
差异值=相似度*log((1-c)/(1-d),n)*e
举例而言,表3示出了对相似度进行指数放大之后得到的差异值。在表3中,NID所在的列表示标准信息,MID所在的列表示非标准的目标信息,R1至R6表示不同的参考系,例如参考系可以为药品编号、批准文号、药品名称(中文)、药品名称(英文)、制剂规格、药品剂型。
表3
NID |
MID |
R1 |
R2 |
R3 |
R4 |
R5 |
R6 |
N102 |
M185 |
126.8221 |
273.154268 |
198.5142 |
246.8891 |
-76.4432 |
141.3387 |
N102 |
M423 |
94.5347 |
220.676804 |
317.4037 |
218.9698 |
120.0116 |
102.6937 |
N102 |
M902 |
120.9418 |
209.761874 |
315.8207 |
170.1408 |
105.0297 |
111.459 |
N102 |
M580 |
106.7327 |
278.879278 |
223.115 |
187.8596 |
114.8873 |
105.8703 |
N102 |
M1022 |
79.21836 |
308.769993 |
-207.915 |
263.6154 |
131.1839 |
-279.712 |
N102 |
M276 |
-73.5977 |
-125.77079 |
286.1804 |
-188.768 |
117.185 |
-229.205 |
N102 |
M986 |
78.09464 |
-119.55462 |
-204.043 |
159.478 |
90.81239 |
96.52271 |
N102 |
M556 |
-35.134 |
-129.28452 |
-91.901 |
167.622 |
-52.5214 |
-183.697 |
N102 |
M851 |
-62.7298 |
-57.575931 |
-136.855 |
-174.449 |
-70.2174 |
-198.511 |
N102 |
M265 |
-22.1008 |
247.15363 |
-97.7895 |
174.2038 |
-10.5291 |
-137.87 |
N102 |
M897 |
-46.8045 |
278.056272 |
-68.0426 |
-77.0429 |
-30.6209 |
-139.403 |
接下来,可以对各差异值进行加权平均得到所述候选信息对的综合匹配分值。
在本示例实施例中,可以直接计算各差异值的平均值来得到候选信息对的综合匹配分值,也可以对各差异值进行加权平均来得到候选信息对的综合匹配分值,各差异值的权重可以根据各参考系的内容的重要程度来确定。
具体而言,表4示出了对相似度直接求平均值得到的综合匹配分值和对差异值直接求平均值得到的综合匹配分值。在表4中,NID所在的列表示标准信息,MID所在的列表示非标准的目标信息,R1至R6表示不同的参考系,例如参考系可以为药品编号、批准文号、药品名称(中文)、药品名称(英文)、制剂规格、药品剂型,AVG为各相似度的平均值即综合匹配分值,POW为各差异值的平均值即综合匹配分值。通过表4可以看出,采用了本示例实施例的方法计算的综合匹配分值之间的差异明显地扩大了,从而能够对各候选信息对进行有效区分,能够提高匹配的准确性,进一步提高了匹配效率。
表4
NID |
MID |
R1 |
R2 |
R3 |
R4 |
R5 |
R6 |
AVG |
POW |
N102 |
M185 |
91.06427 |
83.02689 |
55.76598 |
85.38511 |
42.87573 |
83.00242 |
73.52007 |
151.7125 |
N102 |
M423 |
67.88041 |
67.07605 |
89.16404 |
75.7294 |
75.68885 |
60.30778 |
72.64109 |
179.0484 |
N102 |
M902 |
86.84194 |
63.75839 |
88.71935 |
58.84218 |
66.24005 |
65.45528 |
71.64287 |
172.1923 |
N102 |
M580 |
76.63916 |
84.76704 |
62.67677 |
64.97011 |
72.45706 |
62.17329 |
70.6139 |
169.5574 |
N102 |
M1022 |
56.88255 |
93.85251 |
49.15134 |
91.16981 |
82.73499 |
49.01752 |
70.46812 |
49.19343 |
N102 |
M276 |
45.39508 |
49.52274 |
80.3929 |
39.7603 |
73.90614 |
40.16648 |
54.85727 |
-35.6627 |
N102 |
M986 |
56.07566 |
47.0751 |
48.23597 |
55.15449 |
57.2735 |
56.68381 |
53.41642 |
16.88505 |
N102 |
M556 |
21.67067 |
50.90629 |
21.7255 |
57.97105 |
29.45841 |
32.19147 |
35.6539 |
-54.1526 |
N102 |
M851 |
38.69177 |
22.67075 |
32.35278 |
36.74417 |
39.38383 |
34.78763 |
34.10515 |
-116.723 |
N102 |
M265 |
13.63181 |
75.12384 |
23.11756 |
60.24734 |
5.905576 |
24.16077 |
33.69782 |
25.51128 |
N102 |
M897 |
28.86901 |
84.51688 |
16.08536 |
16.22755 |
17.17475 |
24.42942 |
31.21716 |
-13.9763 |
更直观地,参照图5所示,在图5中较平缓的曲线表示各相似度的平均值AVG,较陡峭的曲线表示各差异值的平均值POW,因此,采用本示例实施例中的方法可以显著地增大候选信息对的匹配分值之间的差异,从而可以提高匹配的准确性。
进一步地,在本示例实施例中,还可以根据所得到的候选信息对的综合匹配分值的大小来对候选信息对进行排序,从而可以快速地得到与非标准的药品记录数据的匹配分值最高的标准药品数据。
根据本公开的另一些实施例,本公开的药品信息匹配方法还可以包括对针对所有的标准信息均未满足预设关联要求的目标信息进行处理的方法。如图6所示,n1至ny表示y条标准信息,m1至mx表示x条目标信息,另外,填充区域对应的目标信息的数据质量较好,可以与对应的标准信息匹配;未填充区域对应的目标信息的数据质量较差,无法与标准信息进行匹配。接下来的处理过程针对的是数据质量较差的无法使用前述方法进行处理的目标信息,例如目标信息mj。
在本公开的实施例中,可以根据目标信息的各参考系的预设判断阈值对各目标子信息进行排序,以形成一目标序列;可以按目标序列依次对各目标子信息的数据质量进行分析并根据分析结果发送与各目标子信息对应的各修正提示信息;以及分别接收基于各修正提示信息而反馈的各要素修正信息,并将各要素修正信息与对应的目标子信息结合。
具体的,可以综合考虑信息的完整性、规范性、准确性以确定各目标子信息的数据质量,在此不做具体限定。
首先,可以对第n个目标子信息的数据质量进行分析,其中,n为正整数且n的上限可以是目标信息的参考系的数量。具体的,可以将目标序列中第n个目标子信息与标准信息集合中与第n个目标子信息对应的标准子信息进行比较。例如,在第n个目标子信息对应的参考系为药品名称时,可以将目标子信息与标准信息集合中参考系为药品名称的标准子信息进行比较;再例如,在第n个目标子信息对应的参考系为制剂规格时,可以将目标子信息与标准信息集合中参考系为制剂规格的标准子信息进行比较,其中,比较的方式可以包括字符比较、字形比较、发音比较等,本示例性实施方式中对此不做具体限定。
另外,根据比较结果确定待修正的信息要素,例如,在参考系为制剂规格的情况下,第n个目标子信息可能为“5ml”,而与该第n个目标子信息对应的标准子信息可能包括“5ml/支”,则待修正的信息要素可以为“/支”。并生成第n个目标子信息可能缺少信息要素“/支”的修正提示信息。
应当说明的是,第n个目标子信息对应的修正提示信息可能包含多个修正提示内容。例如,第n个目标子信息为“麻滴鼻液”,而标准信息集合中对应的标准子信息可以包括“磺麻滴鼻液”、“呋麻滴鼻呀”、“苯麻滴鼻液”等,此时,系统可以生成第n个目标子信息可能缺少信息要素“磺”、“呋”或“苯”的修正提示信息。
此外,还可以将修正提示信息发送至一终端,有助于指引修正信息要素的人员对第n个目标子信息进行信息要素修正。
随后,在修正信息要素的人员接收到生成的修正提示信息后,修正信息要素的人员可以根据该修正提示信息发送一要素修正信息,系统在接收到该要素修正提示信息后,可以将该要素修正信息与第n个目标子信息结合。
例如,在目标子信息为“5ml”并接收到该目标子信息可能缺少信息要素“/支”的修正提示信息的情况下,修正信息要素的人员可以发送例如将“/支”添加到该目标子信息的要素修正信息。再例如,在目标子信息为“麻滴鼻液”并接收到该目标子信息可能缺少信息要素“磺”、“呋”或“苯”的修正提示信息的情况下,修正信息要素的人员可以根据除该目标子信息之外的其他信息确定例如“呋”为待修正的信息要素,并且发送将“呋”添加到该目标子信息的要素修正信息。
本领域技术人员容易理解的是,上面的实例仅是对添加要素进行了示例性描述,然而,对要素进行删除、对要素进行替换等操作也应当属于本发明的保护范围。也就是说,本公开中所述的要素修正信息可以包括要素添加信息、要素删除信息和要素替换信息中的一种或多种。
例如,目标子信息可能是“10ml/支/mg”,而系统在遍历标准信息集合后,可以将表示“/mg”是多余信息并删除的修正提示信息发送给修正信息要素的人员,该修正信息要素的人员可以将删除要素“/mg”的指令作为要素修正信息发送给系统,由系统执行删除要素“/mg”的操作,最终可以将该目标子信息修正为“10ml/支”。
此外,在一要素修正信息与一目标子信息结合后,可以将标准信息集合缩小至与该要素修正信息相关的标准信息子集合,并且将该标准信息子集合作为与目标序列中下一目标子信息进行比较的标准信息集合。其中,标准信息子集合中的每一标准信息均包含该要素修正信息。也就是说,在一要素修正信息与第n个目标子信息结合后,将所述标准信息集合缩小至与该要素修正信息相关的标准信息子集合,其中,该标准信息子集合可以是与目标序列中第n+1个目标子信息进行比较的标准信息集合。
可以理解的是,在对目标信息中的各目标子信息不断进行要素修正的过程中,标准信息集合的范围逐渐缩小,当标准信息集合的范围缩小到一定程度时,该目标信息可以与标准信息集合中的标准信息匹配,此时,完成了药品信息要素修正的过程。
在上述对目标信息进行匹配的处理过程中,同一信息对象(标准信息或目标信息)可能会被不同的算法与流程反复操作,这就导致运算量巨大的问题。鉴于此,本公开所述的药品信息匹配方法还可以包括:构建目标信息和标准信息的取值凭证与计算标识之间的关系结构,并且根据构建的关系结构存取目标信息、标准信息以及与目标信息和标准信息相关的信息。其中,与目标信息和标准信息相关的信息可以包括对目标信息进行匹配的处理过程中预设的信以及生成的各种处理结果。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本示例实施方式中还提供了一种药品信息匹配系统。
图7示意性示出了本公开的示例性实施方式的药品信息匹配系统的方框图。参考图7,根据本公开的示例性实施方式的药品信息匹配系统1可以包括获取模块10、关联度识别模块20、判断模块30、计算模块40和确定模块50,其中:
获取模块10,可以用于获取目标信息,其中,所述目标信息包含与所述目标信息的各参考系对应的各目标子信息;
关联度识别模块20,可以用于对所述目标信息的各所述目标子信息与标准信息集合中每一标准信息对应的标准子信息进行关联度识别以得到关联度识别结果;
判断模块30,可以用于判断所述关联度识别结果是否满足预设关联要求,并在判断出所述关联度识别结果满足所述预设关联要求时,将满足所述预设关联要求的所述目标信息与一个或多个标准信息分别配置成一个或多个候选信息对;
计算模块40,可以用于针对各所述候选信息对分别计算所述目标信息的各目标子信息与标准信息中对应的各标准子信息的相似度,并基于计算出的所述相似度分别计算出各所述候选信息对的综合匹配分值;以及
确定模块50,可以用于将最大的综合匹配分值对应的候选信息对中的标准信息确定为所述目标信息的匹配信息。
由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同,因此在此不再赘述。
应当注意,尽管在上文详细描述中提及了程序运行性能分析装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
进一步的,本示例实施方式中还提出了一种非暂态存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的药品信息匹配方法。
存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质中包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等,或者上述的任意合适的组合。
进一步的,本示例实施方式中还提出了一种电子设备,该电子设备包括处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的药品信息匹配方法。
图8示出了根据本公开的示例性实施方式的电子设备的示意性框图。参照图8,电子设备500包括处理组件522,其进一步可以包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述方法。
电子设备500还可以包括:一个电源组件526,电源组件526被配置成对执行电子设备500进行电源管理;一个有线或无线网络接口550,被配置成将电子设备500连接到网络;以及一个输入输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。