CN115359925A

CN115359925A - 一种药品归集方法、设备及存储介质

Info

Publication number: CN115359925A
Application number: CN202211286677.7A
Authority: CN
Inventors: 沈伟富; 贺勇; 张顺; 曾震宇; 李兆融; 叶旭辉
Original assignee: Hangzhou Health Development Center; Alibaba China Co Ltd
Current assignee: Hangzhou Health Development Center; Alibaba China Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2022-11-18
Anticipated expiration: 2042-10-20
Also published as: CN115359925B

Abstract

本申请实施例提供一种药品归集方法、设备及存储介质。在本申请实施例中，可获取第一类型的药品的药品记录；根据从各药品记录中识别到的名称信息和剂型信息，计算各药品记录之间的相似度；基于相似度，对各药品记录进行聚类，以获得多个药品聚类集合；分别为多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库。这样，可以收集到的第一类型的药品的药品记录为基础，实现第一类型的药品的标准记录从无到有。在此基础上，还可根据针对第一类型的药品的标准库和现有的针对第二类型的药品的标准库，得到药品标准库，从而可实现药品标准库的自动化扩充，提高药品标准库的全面性，为药品归一化提供更完善的依据。

Description

一种药品归集方法、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种药品归集方法、设备及存储介质。

背景技术

目前，在医保数据中台中，首要的目标便是将医疗数据或医保数据进行集中存储与管理，在这些数据中，药品数据则是非常重要的一部分。由于这些数据可能来源于不同的医疗机构，而在不同的医疗机构中，普遍使用不同的描述方式来记录同一种药品，因此，医保数据中台的一项很重要的工作即是将接收到的药品数据归一化至药品标准库中，以提高数据质量，也提高下游的数据展示、数据分析、数据挖掘的准确性。

但是，目前的药品标准库中仅包含医保目录下的药品，因此，对于非医保目录下的药品将无法完成上述的归一化，这导致医保数据中台无法处理非医保目录下的药品数据。

发明内容

本申请的多个方面提供一种药品归集方法、设备及存储介质，用以实现药品标准库的自动化扩充。

本申请实施例提供一种药品归集方法，包括：

获取至少一条药品记录，所述药品记录为对应于第一类型的药品的；

根据从各所述药品记录中识别到的名称信息和剂型信息，计算各所述药品记录之间的相似度；

基于所述相似度，对各所述药品记录进行聚类，以获得多个药品聚类集合；

分别为所述多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库；

根据所述针对第一类型的药品的标准库与针对第二类型的药品的标准库，得到药品标准库。

本申请实施例提供一种计算设备，包括存储器、处理器和通信组件；

所述存储器用于存储一条或多条计算机指令；

所述处理器与所述存储器和所述通信组件耦合，用于执行所述一条或多条计算机指令，以用于：

本申请实施例还提供一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行前述的药品归集方法。

在本申请实施例中，可获取第一类型的药品的药品记录；根据从各药品记录中识别到的名称信息和剂型信息，计算各药品记录之间的相似度；基于相似度，对各药品记录进行聚类，以获得多个药品聚类集合；分别为多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库。这样，可以收集到的第一类型的药品的药品记录为基础，实现第一类型的药品的标准记录从无到有。在此基础上，还可根据针对第一类型的药品的标准库和现有的针对第二类型的药品的标准库，得到药品标准库，从而可实现药品标准库的自动化扩充，提高药品标准库的全面性，为药品归一化提供更完善的依据。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请一示例性实施例提供的一种药品归集方法的流程示意图；

图1b为本申请一示例性实施例提供的一种药品归集方法的应用场景示意图；

图2为本申请一示例性实施例提供的一种药品归集方法的示例性实现方式的示意图；

图3为本申请一示例性实施例提供的一种聚类方案的逻辑示意图；

图4为本申请另一示例性实施例提供的一种计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，药品标准库中仅包含医保目录下的药品，则对于非医保目录下的药品将无法完成上述的归一化，这导致医保数据中台无法处理非医保目录下的药品数据。为此，本申请的一些实施例中：可获取第一类型的药品的药品记录；根据从各药品记录中识别到的名称信息和剂型信息，计算各药品记录之间的相似度；基于相似度，对各药品记录进行聚类，以获得多个药品聚类集合；分别为多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库。这样，可以收集到的第一类型的药品的药品记录为基础，实现第一类型的药品的标准记录从无到有。在此基础上，还可根据针对第一类型的药品的标准库和现有的针对第二类型的药品的标准库，得到药品标准库，从而可实现药品标准库的自动化扩充，提高药品标准库的全面性，为药品归一化提供更完善的依据。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1a为本申请一示例性实施例提供的一种药品归集方法的流程示意图。该方法可由数据处理装置执行，该数据处理装置可实现为软件和/或硬件的结合，该数据处理装置可集成在计算设备中。参考图1a，该方法可包括：

步骤100、获取至少一条药品记录，药品记录为对应于第一类型的药品的；

步骤101、根据从各药品记录中识别到的名称信息和剂型信息，计算各药品记录之间的相似度；

步骤102、基于相似度，对各药品记录进行聚类，以获得多个药品聚类集合；

步骤103、分别为多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库；

步骤104、根据针对第一类型的药品的标准库与针对第二类型的药品的标准库，得到药品标准库。

本实施例提供的药品归集方法可应用于需要使用到药品标准库的场景中，例如，医保管理场景、卫健管理场景等，本实施例对应用场景不做限定。

目前，我国的医疗保障部门为部分药品制定并发布了统一的药品目录，并将发布的药品目录作为药品标准库。也即是，目前的药品标准库中仅包含部分药品的标准记录。其中，本实施例中，第二类型的药品可以是指医疗保障部门已经发布统一药品目录的那些药品。例如，第二类型的药品可以是医保药品。相应地，本实施例中，将医疗保障部门尚未发布统一药品目录的那些药品描述为第一类型的药品。例如，第一类型的药品可以是非医保药品。由于第一类型的药品层出不穷，且不同医疗机构往往都是按照自己的记录习惯来提供第一类型的药品的药品记录，这导致对第一类型的药品缺乏归一化依据，不同医疗机构之间的第一类型的药品数据很难连通，因此，不得不引入大量的人工成本来处理第一类型的药品数据。本实施例提供的药品归集方法则可实现对药品标准库的自动化扩充，使得药品标准库可覆盖到第一类型的药品，从而解决当前的困境。根据真实数据的实践，本实施例提供的药品归集方案的准确度非常高，不需要人工干预，可实现自动化与智能化，大大提升效率，特别是海量的数据场景，特别适合数据中台中的数据治理，不同医疗机构之间的数据连通场景。图1b为本申请一示例性实施例提供的一种药品归集方法的应用场景示意图，在图1b中，以医保药品和非医保药品为例，对药品归集方法的逻辑进行了展示。

参考图1a，在步骤100中，可获取至少一条药品记录，其中，获取到的药品记录是对应于第一类型的药品的。本实施例中，可从不同医疗机构上报的药品数据中抽取出第一类型的药品的药品记录。通常，医保机构上报的药品数据中会有一个属性字段用于标识药品的类型属性，例如，可使用“是否属于医保范围”这样的字段来进行标识。参考图1b对于医保药品，该字段下的描述将为“是”，而对于非医保药品，该字段下的描述将为“否“。当然，这仅是示例性的，本实施例中，还可采用其它方式来收集到第一类型的药品的药品记录，而并不限于此。

在步骤101中，可从各药品记录中识别名称信息和剂型信息。其中，名称信息中可包括但不限于药品名、商品名、别名等多种名称内容。剂型信息中则可包括药品的剂型。对于剂型信息来说，若药品记录中存在剂型字段，则可直接使用，若不存在剂型字段，则可从名称信息中进行识别。实际应用中，若收集到的药品记录为文本形式，则可通过自然语言处理NLP（Natural Language Processing）等内容理解技术，从药品记录中识别出名称信息和剂型信息。例如，一条示例性的的药品记录可以是“对乙酰氨基酚混悬剂[XXXX生物制药]10ml：0.3g”，对此，可从该条药品记录中识别出药品名“对乙酰氨基酚混悬剂”作为名称信息，识别出“混悬剂”作为剂型信息。

图2为本申请一示例性实施例提供的一种药品归集方法的示例性实现方式的示意图。

参考图2，优选地，为了提高识别的精度，本实施例中，还可对收集到的药品记录进行一些数据预处理操作，包括但不限于去除无意义字符，如标点符号等。例如，“*阿莫西林(西药)”，经过预处理后可获得“阿莫西林”。另外，为节省计算量，本实施例中，还可对收集到的若干第一类型的药品的药品记录进行去重，以清洗收集到的药品记录。去重的方式可以是在收集到的第一类型的药品的药品记录中检测等值的药品记录，并进行等值合并。其中，等值是指药品记录之间的名称信息、剂型信息及规格信息等指定信息均一致，这样可将多条重复的药品记录进行去重。当然，本实施例中，还可采用其它预处理方式来对收集到的第一类型的药品的药品记录进行数据预处理，以更好地支持本实施例中的归集方案，在此不作穷举。

在此基础上，可根据从药品记录中识别到的名称信息和剂型信息，计算药品记录之间的相似度。本实施例中，可采用多种实现方式来计算药品记录之间的相似度，具体的实现细节将在后续实施例中进行详述。

优选地，在步骤101中，还可从收集到的第一类型的药品的药品记录中，筛选出需要计算相似度的至少一个药品记录对，并且，可仅对筛选出的药品记录对执行“计算相似度”的操作，而对于其它的药品记录之间，则无需在计算相似度而可直接确定它们相互之间无相似性。在一种示例性的筛选方案中：可根据从各药品记录中识别到的名称信息，确定至少一个药品记录对，药品记录对中包括的两条待处理药品记录的名称信息之间存在相同字段。这里，相同片段可以是单字符或多字符，本实施例对此不做限定。其中，可采用多种实现方式来判断两条药品记录中识别到的名称信息之间是否存在相同片段：

在一种实现方式中，可对各药品记录中识别到的名称信息分别进行分词，得到各药品记录各自对应的分词结果；若第一药品记录和第二药品记录各自对应的分词结果中，存在重合的分词结果，则将第一药品记录和第二药品记录确定为一个药品记录对。其中，第一药品记录和第二药品记录可以是步骤100中获取到的任意两条药品记录。参考图2，在该实现方式中，可采用分词作为名称信息的索引，基于分词索引对收集到的药品记录进行分桶（位于同一分词下的药品处于一个桶中），桶内的药品记录之间可两两作为需要计算相似度的药品记录对。

举例来说，对于药品1的名称信息[“散利痛”，“复方对乙酰氨基酚片”，“扑感敏片”]，其商品名为“散利痛”，通用名为“复方对乙酰氨基酚片”，别名为“扑感敏片”；药品2的名称信息[“散列通”，“复方对乙酰氨基酚片(Ⅱ)”，“”]，其商品名为“散列通”，通用名为“对乙酰氨基酚片”；药品3的名称信息[“”, “小儿对乙酰氨基酚缓释片”，“”]，其通用名为“小儿对乙酰氨基酚缓释片。那么，经过分词后，这三个药品的分词索引分别为：{“散利痛”,“复方”, “对乙酰氨基酚”，“片”}、{“散列通”，“复方”，“对乙酰氨基酚”,“片”, “Ⅱ”}与{“小儿”，“对乙酰氨基酚”，“缓释片”}。在此基础上，可确定出：索引“散利痛”下的药品为：{药品1}，索引“复方”下的药品为：{药品1，药品2}，索引“对乙酰氨基酚”下的药品为：{药品1，药品2，药品3}，索引“片”下的药品为：{药品1，药品2}，索引“散列通”下的药品为：{药品2}，索引“Ⅱ”下的药品为：{药品2}，索引“小儿”下的药品为：{药品3}，索引“缓释片”下的药品为：{药品3}。因为索引“复方” 和“片”而导致{药品1，药品2}位于一个桶中，因为索引“对乙酰氨基酚”而导致{药品1，药品2，药品3}位于一个桶中。这样，可确定需要计算相似度的药品记录对为【药品1，药品2】、【药品2，药品3】和【药品1，药品3】。

在另一种实现方式中，可对各药品记录中识别到的名称信息分别进行连续双字符拆分，以获得各药品记录各自对应的连续双字符集合；若第三药品记录和第四药品记录各自对应的连续双字符集合之间存在重合的连续双字符，则将第三药品记录和第四药品记录确定为一个药品记录对。其中，第三药品记录和第四药品记录可以是步骤100中获取到的任意两条药品记录。在该实现方式中，可采用连续双字符作为名称信息的索引，其中，连续双字符是指字符串中任意两个连续的字符。例如，对于字符串“abcd”，其对应的连续双字符的集合可以是{‘ab’,‘bc’, ‘cd’}。参考图2，这样，可基于连续双字符索引对收集到的药品记录进行分桶，桶内的药品记录之间可两两作为需要计算相似度的药品记录对。

承接上例，经过连续双字符提取后，这三个药品的连续双字符索引分别为：{“散利”，“利痛”，“复方”，“方对”，“对乙”，“乙酰”，“酰氨”，“氨基”，“基酚”，“酚片”，“片扑”，“扑感”，“感敏”，“敏片”}、{“散列”，“列通”，“复方”，“方对”， “对乙”，“乙酰”，“酰氨”，“氨基”，“基酚”，“酚片”，“片Ⅱ”}和{“小儿”， “对乙”，“乙酰”，“酰氨”，“氨基”，“基酚”，“酚缓”，“缓释”，“释片”}。在此基础上，可确定出：索引“散利”下的药品为：{药品1}，索引“利痛”下的药品为：{药品1}，索引“复方”下的药品为：{药品1，药品2}，索引“方对”下的药品为：{药品1，药品2}，索引“对乙”下的药品为：{药品1，药品2，药品3}，索引“乙酰”下的药品为：{药品1，药品2，药品3}，索引“酰氨”下的药品为：{药品1，药品2，药品3}，索引“氨基”下的药品为：{药品1，药品2，药品3}，索引“基酚”下的药品为：{药品1，药品2，药品3}，索引“酚片”下的药品为：{药品1，药品2，药品3}，索引“散列”下的药品为：{药品2}，索引“列通”下的药品为：{药品2}，索引“片Ⅱ”下的药品为：{药品2}，索引“小儿”下的药品为：{药品3}，索引“缓释”下的药品为：{药品3}，索引“释片”下的药品为：{药品3}…等。同样，可确定需要计算相似度的药品记录对为【药品1，药品2】、【药品2，药品3】和【药品1，药品3】。

当然，除了上述两种实现方式外，本实施例中，还可采用其它实现方式来判断两条药品记录对应的名称信息之间是否存在相同片段。在此不再穷举。另外，在查找两条药品记录对应的名称信息之间是否存在相同片段之前，还可对从名称信息中提取出的片段进行精简，从中剔除掉没有区分度的片段之后，基于剩余的片段来判断两者之间是否存在相同片段。一种示例性的剔除方案中，可对所有药品记录对应的名称信息进行片段提取操作；统计提取出的各个片段的出现总次数，将出现总次数符合预设标准的片段（预设标准可以是出现总次数最多的N个片段，或出现总次数高于指定次数的片段，等），确定为没有区分度的片段。例如，药品记录中经常出现ABC胶囊、XYZ胶囊等，其中的片段“胶囊”出现总次数非常高，则片段“胶囊”将被确定为没有区分度的片段。

应当理解的是，无论是上述哪种实现方式，即使两个药品记录之间可能存在多个相同片段，但这些相同片段仅用于不断证明这两个药品记录之间需要计算相似性，而不应导致本案中针对同一个药品记录对执行多次重复的相似度计算操作。

另外，除了上述通过判断两条药品记录对应的名称信息之间是否存在相同片段的方式来筛选出需要计算相似度的药品记录对之外，还可采用更多的维度来继续精简需要计算相似度的药品记录对。一种示例性的维度可以是用药对象的维度，在该维度下，若根据两条药品记录对应的名称信息确定该两条药品记录的用药对象不同，则可将该两条药品记录排除在需要计算相似度的药品记录对之外。例如，药品记录A的用药对象为儿童，药品记录B的用药对象为成人，则可直接确定药品记录A和B之间无需计算相似度，两者无相似性。另一种示例性的维度可以是适用性别维度，在该维度下，若根据两条药品记录对应的名称信息确定该两条药品记录的适用性别不同，则可将该两条药品记录排除在需要计算相似度的药品记录对之外。例如，药品记录A的适用性别为女性，药品记录B的适用性别为男性，则可直接确定药品记录A和B之间无需计算相似度，两者无相似性。又一种示例性的维度可以是复方属性维度，在该维度下，若根据两条药品记录对应的名称信息确定该两条药品记录的复方属性不同，则可将该两条药品记录排除在需要计算相似度的药品记录对之外。例如，药品记录A为复方药品，药品记录B则为非复方药品，则可直接确定药品记录A和B之间无需计算相似度，两者无相似性。又一种示例性的维度还可以是复方成分维度，在该维度下，若两条药品记录均属于复方药品，则可从两条药品记录中识别复方成分，若两条药品记录对应的复方成分不同，则可将该两条药品记录排除在需要计算相似度的药品记录对之外。例如，药品记录A为复方药品，且复方成分包括a、b和c，药品记录B为复方药品，且复方成分包括b、c和d，则可直接确定药品记录A和B之间无需计算相似度，两者无相似性。又一种示例性的维度还可以是剂型维度，在该维度下，若从两条药品记录中识别出的剂型信息不一致，则可将该两条药品记录排除在需要计算相似度的药品记录对之外。例如，药品记录A对应的剂型为“片剂”，药品记录B对应的剂型则为“注射剂”，则可直接确定药品记录A和B之间无需计算相似度，两者无相似性。

这样，可更高效低筛选出需要计算相似度的药品记录对，通过精简药品记录对的数量，可减少不必要的计算量，进而可提高药品标准库的扩充效率。

继续参考图1a，在步骤102中，可基于相似度，对药品记录进行聚类，以获得多个药品聚类集合。其中，药品记录之间的相似度可表征药品记录之间的相似程度。因此，在步骤102中，可设定一标准阈值来对相似度进行评价，若两个药品记录之间的相似度高于该标准阈值，则确定该两个药品记录之间具备相似性，否则，可确定该两个药品记录之间无相似性。而对于具备相似性的两个药品记录之间则可建立起聚类关系，这样，可实现基于相似度的药品聚类操作，从而获得多个药品聚类集合。这样，在步骤102中，可将相似度满足预设要求的多个药品记录确定为一个药品聚类集合，预设要求可以是基于相似度确定药品记录之间存在聚类关系。图3为本申请一示例性实施例提供的一种聚类方案的逻辑示意图，参考图3，在一种示例性的聚类方案中：可采用图计算的方式来实现聚类。在该示例性方案中，可在相似度满足预设要求（如，相似度高于前述的标准阈值）的两个药品记录之间建立关联的边，以构建起药品记录关联图，药品记录关联图中包含多个非连通的子图，单个子图对应一个药品聚类集合。

以下提供几条示例性的第一类型的药品的药品记录，并结合图3简单说明按照本实施例提供的技术方案而获得多个药品聚类集合的过程。几条示例性的第一类型的药品的药品记录如下：

药品记录A：对乙酰氨基酚滴剂(蜜雪儿) 15ml：1.5g；识别出的名称信息及剂型信息包括 [“蜜雪儿”，“对乙酰氨基酚滴剂”，“口服液”，“15ml：0.5g”]

药品记录B：对乙酰氨基酚混悬滴[XXXX生物制药] 10ml：0.3g；识别出的名称信息及剂型信息包括 [“”，“对乙酰氨基酚混悬滴”，“口服液”，“10ml：0.3g”]

药品记录C：对乙酰氨基酚口服液（基药） 10ml：0.25g；识别出的名称信息及剂型信息包括[“”，“对乙酰氨基酚混悬滴”，“口服液”，“10ml：0.25g”]

药品记录D：对乙酰氨基酚片(地奥成都) 0.5g；识别出的名称信息及剂型信息包括[“地奥成都”，“对乙酰氨基酚片”，“片剂”，“0.5g”]

药品记录E：对乙酰氨基酚片万通 0.65g；识别出的名称信息及剂型信息包括[“万通”，“对乙酰氨基酚片”，“片剂”，“0.65g”]

药品记录F：复方对乙酰氨基酚片(Ⅱ) 对乙酰氨基酚：0.126g,阿司匹林：0.23g,咖啡因：30mg；识别出的名称信息及剂型信息包括[“”，“复方对乙酰氨基酚片(Ⅱ)”，“片剂”，“对乙酰氨基酚：0.126g；阿司匹林：0.23g；咖啡因：30mg”]

按照本实施例提供的技术方案对上述5条示例性的药品记录执行“相似度计算处理”以及“聚类处理”后，可获得如图3所示的非连通的3个子图，基于此，可将药品记录A、B、C归集到一起，药品记录D、E归集到一起，而药品记录F单独，从而获得单个药品聚类集合。

在此基础上，参考图1a，在步骤103中，可分别为多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库。参考图1b提供的示例性应用场景中，不轴103中可产生非医保药品的标准库。通常，药品标准库中的标准记录需具有指定字段下的信息，这些指定字段可包括但不限于商品名、药品名、别名、剂型、厂家、规格等。为了适配药品标准库的字段要求，本实施例中，可按照药品标准库中所需的字段，分别对目标药品聚类集合中包含的各条药品记录执行字段提取，以获得目标药品聚类集合中各条药品记录对应的标准记录；从目标药品聚类集合下的各条标准记录中选取主记录；将目标药品聚类集合下的其它标准记录作为主记录关联的从属记录；将主记录及从属记录作为一项标准记录，添加至第一类型的药品的标准库中。其中，目标药品聚类集合可以是步骤102中聚类出的多个药品聚类集合中的任意一个。这样，对于聚类出的每一个药品聚类集合来说，都可对应产生自身的标准记录，且标准记录中包含主记录和从属记录，以更加全面地承载药品聚类集合中所有药品记录的内容。当然，本实施例中，为药品聚类集合生成的标准记录中的内容可按需进行配置，例如，也可仅将前述的主记录作为标准记录而不再携带从属记录等，本实施例在此不做限定。

这样，可通过对聚类出的多个药品聚类集合进行字段标准化，来产生多个药品聚类集合对应的标准记录，从而组成针对第一类型的药品的标准库。也即是，步骤103中获得的针对第一类型的药品的标准库中可包括各个第一类型的药品记录对应的标准记录。

参考图1a，在步骤104中，可根据针对第一类型的药品的标准库与针对第二类型的药品的标准库，得到药品标准库。这样，可实现对药品标准库的自动化扩充，将针对第一类型的药品的标准记录自动化地补充到药品标准库中，扩充后的药品标准库可覆盖第二类型的药品及第一类型的药品。参考图1b，在图1b的示例性应用场景中，在步骤104中，可根据针对非医保药品的标准库与针对医保药品的标准库而得到药品标准库。

另外，本实施例中，为了不断提升药品标准库的全面性，可在后续利用药品标准库进行药品归一化的过程中，收集无法归一化至药品标准库中的药品记录。并可按照本实施例中提供的药品归集方案对这些无法归一化的药品记录进行相似度计算、聚类等处理，以基于这些无法归一化的药品记录归纳出相关的标准记录，并补充到药品标准库中，这样，可随着新药品的不断出现而不断地扩充药品标准库，保证药品标准库的全面性。当然，本实施例中也可采用其它方式来提升药品标准库的全面性，例如，定期收集足量的第一类型的药品的药品记录并执行本实施例提供的药品归集方案，这可保证收集到的第一类型的药品的药品记录更加全面，进而提升药品标准库的全面性。

基于本实施例中构建起的药品标准库，可更好地支持药品的归一化需求。为此，参考图2，本实施例中，还可接收针对目标药品记录的归一化请求；从药品标准库中，查找与目标药品记录适配的目标标准记录；将目标药品记录归一化至目标标准记录。其中，目标药品记录可以是需要进行归一化的任意药品记录，其可以来源于任意的医疗机构。归一化则是指将同一药品的不同记录归一化至该药品记录对应的标准记录。

在一种示例性的查找方案：可首先采用等值查找的方式来查找药品标准库中是否存在与目标药品记录等值的标准记录，如果存在，则可直接将目标药品记录归一化至其等值的标准记录上。其中，等值的含义可参考前文，在此不再重复赘述。而若为查找到与目标药品记录等值的标准记录，则可从药品标准库中，筛选与从目标药品记录中识别到的名称信息存在相同片段的标准记录，以获得候选记录集合；计算目标药品记录与候选记录集合中各个候选记录之间的相似度；基于相似度，从候选记录集合中选择与目标药品记录适配的目标标准记录。也即是，可采用前文中提及相同片段来初步筛选出可能与目标药品记录相似的标准记录，作为候选记录，这可有效减少计算相似度操作所消耗的计算量，从而提高归一化效率。另外，目标药品记录与各个候选记录之间计算相似度的过程可参考本实施例中步骤101及后续实施例中描述的方案，在此不再赘述。这里有一种特殊请求，若某个候选记录的结构如前文中提及的“主记录+从属记录”的结构，则在计算目标药品记录与该候选记录之间相似度的过程中，可分别计算目标药品记录与该候选记录中主记录及各个从属记录之间的相似度，并从计算出的多个相似度中确定出最大值、平均值或者中值等代表值，来作为目标药品记录与该候选记录之间的相似度。

据此，本实施例中，可获取第一类型的药品的药品记录；根据从各药品记录中识别到的名称信息和剂型信息，计算各药品记录之间的相似度；基于相似度，对各药品记录进行聚类，以获得多个药品聚类集合；分别为多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库。这样，可以收集到的第一类型的药品的药品记录为基础，实现第一类型的药品的标准记录从无到有。在此基础上，还可根据针对第一类型的药品的标准库和现有的针对第二类型的药品的标准库，得到药品标准库，从而可实现药品标准库的自动化扩充，提高药品标准库的全面性，为药品归一化提供更完善的依据。

在上述或下述实施例中，可采用多种实现方式计算药品记录之间的相似度。

在一种实现方式中：若从两条药品记录中识别到的剂型信息一致，则根据从两条药品记录中分别识别到名称信息，计算两条药品记录之间的名称相似度；根据名称相似度，确定两条药品记录之间的相似度。而正如前文中以及提及的，若从两条药品记录中识别到的剂型信息不一致，则可直接确定两条药品记录之间无相似性，不再需要计算相似度。其中，两条药品记录可以是步骤100中收集到的任意两条药品记录，优选地，承接上文实施例，两条药品记录可以是筛选出的需要计算相似度的任意药品记录对。

在该实现方式中，可首选判断两条药品记录中识别到的剂型信息是否一致。在一种示例性方案中：可基于预置的剂型信息与剂型类型之间的映射关系，检测从两条药品记录中识别到的剂型信息各自所属的剂型类型；若为两条药品记录检测出的剂型类型一致，则确定从两条药品记录中识别到的剂型信息一致。在该示例性方案中，考虑到剂型信息是从药品记录中识别出的，而不同药品记录中采用的剂型记录方式具有多样性，为此，提出了对剂型信息进行归类的方案，以下示例性地提供集中剂型类型，以及各个剂型类型可映射到的多种剂型信息：

注射剂：注射剂，注射用，注射液，水针剂，油针剂，粉针剂；

片剂：压制片，糖衣片，泡腾片，咀嚼片，多层片，植入片，缓释片，

控释片，含片，片；

胶囊：硬胶囊剂，软胶囊剂，肠溶胶囊剂，胶囊剂，硬胶囊，软胶囊，肠溶胶囊，胶囊；

口服液：口服液，溶液剂，糖浆剂，乳剂，混悬剂，溶液，糖浆，混悬栓，栓，滴剂；

丸剂：丸剂，浓缩丸，胶丸，糖丸，滴丸，丸；

贴膏剂：贴膏剂，贴膏，软膏剂，软膏；

颗粒剂：颗粒剂，冲剂，颗粒；

散剂：散剂，冻干粉。

应当理解的是，上述提供的剂型类型仅是示例性的，在该示例性方案中并不限于此。这样，可将从药品记录中识别出的剂型信息进行标准化，在此基础上，可更加准确地判断出两条药品记录对应的剂型信息是否一致。例如，从药品记录A中识别到的剂型信息为“稀释片”，从药品记录B中识别到的剂型信息为“片”，则可确认药品记录A和药品记录B对应的剂型信息一致，因为两者的剂型信息均可映射至同一剂型类型“片剂”。

在该实现方式中，在确定从两条药品记录中识别到的剂型信息一致的情况下，则可根据从两条药品记录中分别识别到名称信息，计算两条药品记录之间的名称相似度。在该实现方式中，可针对名称相似度提供多样的度量维度。举例来说，可计算两条药品记录对应的名称信息之间的第一相似度；将两条药品记录对应的名称信息之间的重合字符个数与两条药品记录的字符数量和值之间的比值，作为第二相似度；根据第一相似度和/或第二相似度，确定两条药品记录之间的名称相似度。其中，计算第一相似度的过程中，可采用最长公共子序列LCS等技术，当然，本实施例并不限于此。

示例性地，第一相似度的计算逻辑可表征为：

其中，name表示药品记录中的名称信息，sim_lcs（）表示两条药品记录之间的第一相似度，lcs（）表示两个药品记录对应的名称信息之间的最长公共子序列的长度，len（）表示药品记录的名称信息的长度。另外，正如前文提及的，名称信息中可包含多种名称内容，在该实现方式中，可针对多种名称内容分别计算相似度。举例来说，若药品1的商品名的长度为3，通用名的长度为9，别名的长度为0；药品2的商品名的长度为3，通用名的长度为9，别名的长度为4，则药品1和药品2之间的第一相似度的计算过程可以是：

实践中，若名称信息中包含多种名称内容，则可取基于多种名称内容计算出的相似度中的最大值作为两条药品记录对应的名称信息之间的第一相似度，当然，这仅是示例性的，而并不限于此。

示例性地，第二相似度的计算逻辑可表征为：

其中，sim_jac（）表示两条药品记录之间的第二相似度，set（）表示求取药品记录对应的名称信息的字符集合，intersection（）表示两个集合取交集；len（）表示集合长度，union（）表示两个集合取并集。同样，对于名称信息中包含多种名称内容的情况下，可针对多种名称内容分别计算相似度。承接上例，药品1和药品2之间的第二相似度可取以下几个相似度中的最大值：

其中，sim_jac（商品名）表示基于商品名而计算出的第二相似度，sim_jac（通用名）可表示基于通用名而计算出的第二相似度，sim_jac（通用名）则表示基于别名而计算出的第二相似度。

在此基础上，可根据第一相似度和/或第二相似度，确定两条药品记录之间的名称相似度。例如，可直接使用第一相似度来表示两条药品记录直接的名称相似度，也可以直接使用第二相似度来表示两条药品记录之间的名称相似度，还可对第一相似度和第二相似度进行取最值、取均值、加权求和等方式来计算出两条药品记录之间的名称相似度。

另外，在该实现方式中，为了提高名称相似度的准确性，还可引入更多的名称相似性度量维度，一种示例性的维度可以是：判断两条药品记录对应的名称信息之间是否存在子字符串关系，以获得第一判断结果；另一种示例性的维度可以是：判断两条药品记录对应的名称信息之间是否存在子序列关系，以获得第二判断结果。其中，若两条药品记录之间存在重合的连续字符串，则确定两条药品记录之间存在子字符串关系；若从两条药品记录中的其中一条药品记录中删除部分字符后获得另一条药品记录，则确定两条药品记录之间存成子序列关系。

基于引入的这两个度量维度，可对根据前述的第一相似度和/或第二相似度确定出的名称相似度的有效性进行判断，几种示例性的判断条件可以是：

第一相似度不小于第一阈值；

第二相似度不小于第二阈值；

第一相似度与第二相似度中的任意一个不小于第三阈值且第一判断结果与第二判断结果中的任意一个为是。

满足上述判断条件中的任意一项，则可确定上述计算出的名称相似度有效；否则，可确定上述计算出的名称相似度无效，将计算出的名称相似度归0。这样，可更加准确地度量两条药品记录之间的名称相似度，避免因有些药品并不是同一药品但名称相似度却不为0而影响后续聚类结果的准确性。

据此，名称相似度可用于作为确定两条药品记录之间相似度的依据。

进一步，在该实现方式中，除了可以名称相似度作为确定两条药品记录之间的相似度的依据之外，还可引入其它的依据。为此，在该实现方式中，可进一步从两条药品记录中识别规格信息，规格信息用于描述药品的规格；并可根据从两条药品记录中识别到的规格信息，计算两条药品记录之间的规格相似度。在此基础上，可根据两条药品记录之间的名称相似度和规格相似度，计算两条药品记录之间的相似度。其中，规格信息的识别操作可与前述的名称信息及剂型信息的识别操作一同执行。例如，前文中对几条示例性的第一类型的药品的药品记录进行识别的例子中，实际已经涉及到了规格信息的识别。前文例子中的药品记录A：对乙酰氨基酚滴剂(蜜雪儿) 15ml：1.5g；其识别结果 [“蜜雪儿”，“对乙酰氨基酚滴剂”，“口服液”，“15ml：0.5g”]中，除了包含名称信息及剂型信息外，也包含了规格信息“15ml：0.5g”。

在一种计算规格相似度的示例性方案中，可按照剂型类型与规格标准之间的关联关系，将从两条药品记录中识别到的规格信息，按照两条药品记录各自的剂型类型对应的规格标准进行单位转换，以获得两条药品记录各自对应的标准规格数据；基于两条药品记录各自对应的标准规格数据，计算两条药品记录之间的规格相似度。

在该示例性方案中，考虑到不同的剂型类型，其规格标准不同，因此，提出对不同剂型类型的规格进行标准化，包括统一度量单位与数字描述。举例来说：重量单位：统一使用“g”，不同重量表达方式都统一转换为“g”，如“克”转换为“g”，“1mg”转换为0.001g；容量单位：统一使用“ml”，不同容量表达方式都统一转换为“ml”，如“好受”转换为“ml”，“1l”转换为1000ml。

以下提供几种示例性的剂型类型与关联的规格标准：

注射剂：xml：yg。

其中，x表示阿拉伯数字，ml是容量单位，y是阿拉伯数字，g是重量单位。如：10ml：0.2g。

片剂：xg。

其中，x表示阿拉伯数字，g是重量单位，如：1g。

胶囊：xg。

其中，x表示阿拉伯数字，g是重量单位，如：1g。

口服液：xml：yg、xg：yg。

其中，x表示阿拉伯数字，ml是容量单位，y是阿拉伯数字，g是重量单位。如：150ml：1.5g、6.5g：0.5g。

丸剂：xg。

其中，x表示阿拉伯数字，g是重量单位，如：1.5g。

贴膏剂：x%。

其中，x表示阿拉伯数字，%是百分号。

颗粒剂：xg。

其中，x表示阿拉伯数字，g是重量单位，如：1.5g。

散剂：xg。

其中，x表示阿拉伯数字，g是重量单位，如：1.5g。

应当理解的是，上述几种剂型类型与其关联的规格标准仅是示例性的，本实施例并不限于此。另外，对于复方药品，规格信息中可包含多种成分各自的规格内容，每种成分的规格内容均可按照上述的关联关系进行标准化，并且，在计算规格相似度的过程中，要求成分一致，且相同成分之间进行规格相似度的计算，最终，可根据针对各个成分计算出的相似度计算出最值、均值、中值、加权求和值等代表值来作为两条复方的药品记录之间的规格相似度。

示例性的，两条药品记录之间的规格相似度的计算逻辑可以是：【1.0-（两者的标准规格数据差值的绝对值）】/两者中较大的标准规格数据。对于前述的xml：yg格式的，则y/x之后再计算，对于xg格式的可直接计算。比如：“100ml：1g”与“100ml：0.8g”的相似度为：1.0-(1/100-0.8/100)/(1/100)=0.8；又比如：“1g”与“0.8g”的相似度为：1.0-(1.0-0.8)/1.0=0.8。

这样，通过将从药品记录中识别到的规格信息进行标准化后，可非常便于计算与比较，从而更加高效地确定出药品记录之间的规格相似度。

在此基础上，可以名称相似度和规格相似度同时作为确定两条药品记录之间相似度的依据。其中，可通过对名称相似度和规格相似度执行取最值、取均值、加权求和等方式，来计算出两条药品记录之间的相似度。举例来说，两条药品记录之间的相似度可以是：0.7*名称相似度+0.3*规格相似度，其中，0.7和0.3分别为权重。

当然，本实施例中，还可采用其它实现方式来计算计算药品记录之间的相似度，在此不再赘述。

据此，本实施例中，对于药品所具备的不同类型的属性，设计了不同的度量方式，且可将多维度下度量出的相似度进行融合，以更加准确、更加合理地确定出药品记录之间的相似度，从而可有效提高药品标准库的准确性。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤103的执行主体可以为设备A；又比如，步骤101和102的执行主体可以为设备A，步骤103的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的相似度等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图4为本申请另一示例性实施例提供的一种计算设备的结构示意图。如图4所示，该计算设备包括：存储器40和处理器41。

处理器41，与存储器40耦合，用于执行存储器40中的计算机程序，以用于：

获取至少一条药品记录，药品记录为对应于第一类型的药品的；

根据从各药品记录中识别到的名称信息和剂型信息，计算各药品记录之间的相似度；

基于相似度，对各药品记录进行聚类，以获得多个药品聚类集合；

分别为多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库；

根据针对第一类型的药品的标准库与针对第二类型的药品的标准库，得到药品标准库。

在一可选实施例中，处理器41在根据从各药品记录中识别到的名称信息和剂型信息，计算各药品记录之间的相似度的过程中，可用于：

根据从各药品记录中识别到的名称信息，确定至少一个药品记录对，药品记录对中包括的两条待处理药品记录的名称信息之间存在相同字段；

对各药品记录对中的待处理药品记录，分别计算相似度。

在一可选实施例中，处理器41在根据从各药品记录中识别到的名称信息，确定至少一个药品记录对的过程中，可用于：

对各药品记录中识别到的名称信息分别进行分词处理，得到各药品记录各自对应的分词结果；

若第一药品记录和第二药品记录各自对应的分词结果中，存在重合的分词结果，则将第一药品记录和第二药品记录确定为一个药品记录对。

对各药品记录中识别到的名称信息分别进行连续双字符拆分，得到各药品记录各自对应的连续双字符集合；

若第三药品记录和第四药品记录各自对应的连续双字符集合中，存在重合的连续双字符，则将第三药品记录和第四药品记录确定为一个药品记录对。

在一可选实施例中，处理器41在根据从药品记录中识别到的名称信息和剂型信息，计算药品记录之间的相似度的过程中，可用于：

若从两条药品记录中识别到的剂型信息一致，则根据从两条药品记录中分别识别到名称信息，计算两条药品记录之间的名称相似度；

根据名称相似度，确定两条药品记录之间的相似度。

在一可选实施例中，处理器41在根据从两条药品记录中分别识别到名称信息，计算两条药品记录之间的名称相似度的过程中，可用于：

计算两条药品记录对应的名称信息之间的第一相似度；

将两条药品记录对应的名称信息之间的重合字符个数与两条药品记录的字符数量和值之间的比值，作为第二相似度；

根据第一相似度和/或第二相似度，确定两条药品记录之间的名称相似度。

在一可选实施例中，处理器41还可用于：

若第一相似度不小于第一阈值，则确定名称相似度有效；或者，

若第二相似度不小于第二阈值，则确定名称相似度有效；或者，

若第一相似度和第二相似度中的任意一个不小于第三阈值且两条药品记录之间存在子字符串关系和子序列关系中的任意一种关系，则确定名称相似度有效；

其中，若两条药品记录之间存在重合的连续字符串，则确定两条药品记录之间存在子字符串关系；若从两条药品记录中的其中一条药品记录中删除部分字符后获得另一条药品记录，则确定两条药品记录之间存成子序列关系。

在一可选实施例中，处理器41还可用于：

基于预置的剂型信息与剂型类型之间的映射关系，检测从两条药品记录中识别到的剂型信息各自所属的剂型类型；

若为两条药品记录检测出的剂型类型一致，则确定从两条药品记录中识别到的剂型信息一致。

在一可选实施例中，处理器41在根据名称相似度，确定两条药品记录之间的相似度的过程中，可用于：

根据从两条药品记录中识别到的规格信息，计算两条药品记录之间的规格相似度；

根据两条药品记录之间的名称相似度和规格相似度，计算两条药品记录之间的相似度。

在一可选实施例中，处理器41在根据从两条药品记录中识别到的规格信息，计算两条药品记录之间的规格相似度的过程中，可用于：

按照剂型类型与规格标准之间的关联关系，将从两条药品记录中识别到的规格信息，按照两条药品记录各自的剂型类型对应的规格标准进行单位转换，以获得两条药品记录各自对应的标准规格数据；

基于两条药品记录各自对应的标准规格数据，计算两条药品记录之间的规格相似度。

在一可选实施例中，处理器41在基于相似度，对药品记录进行聚类，以获得多个药品聚类集合的过程中，可用于：

在相似度满足预设要求的两个药品记录之间建立关联的边，以构建起药品记录关联图，药品记录关联图中包含多个非连通的子图，单个子图对应一个药品聚类集合。

在一可选实施例中，处理器41在分别为多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库的过程中，可用于：

按照药品标准库中所需的字段，分别对目标药品聚类集合中包含的各条药品记录执行字段提取，以获得目标药品聚类集合中各条药品记录对应的标准记录；

从目标药品聚类集合下的各条标准记录中选取主记录；

将目标药品聚类集合下的其它标准记录作为主记录关联的从属记录；

将主记录及从属记录作为一项标准记录，添加至第一类型的药品的标准库中；

其中，目标药品聚类集合为多个药品聚类集合中的任意一个。

在一可选实施例中，处理器41还可用于：

接收针对目标药品记录的归一化请求；

从药品标准库中，查找与目标药品记录适配的目标标准记录；

将目标药品记录归一化至目标标准记录。

在一可选实施例中，处理器41在从药品标准库中，查找与目标药品记录适配的目标标准记录的过程中，可用于：

从药品标准库中，筛选与从目标药品记录中识别到的名称信息存在相同片段的标准记录，以获得候选记录集合；

计算目标药品记录与候选记录集合中各个候选记录之间的相似度；

基于相似度，从候选记录集合中选择与目标药品记录适配的目标标准记录。

进一步，如图4所示，该计算设备还包括：通信组件42、电源组件43等其它组件。图4中仅示意性给出部分组件，并不意味着计算设备只包括图4所示组件。

值得说明的是，上述关于计算设备各实施例中的技术细节，可参考前述的方法实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成本申请保护范围的损失。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。

上述图4中的存储器，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

上述图4中的通信组件，被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述图4中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种药品归集方法，包括：

2.根据权利要求1所述的方法，所述根据从各所述药品记录中识别到的名称信息和剂型信息，计算各所述药品记录之间的相似度，包括：

根据从各所述药品记录中识别到的名称信息，确定至少一个药品记录对，所述药品记录对中包括的两条待处理药品记录的名称信息之间存在相同字段；

对各所述药品记录对中的待处理药品记录，分别计算相似度。

3.根据权利要求2所述的方法，所述根据从各所述药品记录中识别到的名称信息，确定至少一个药品记录对，包括：

对各所述药品记录中识别到的名称信息分别进行分词处理，得到各所述药品记录各自对应的分词结果；

若第一药品记录和第二药品记录各自对应的分词结果中，存在重合的分词结果，则将所述第一药品记录和第二药品记录确定为一个药品记录对。

4.根据权利要求2所述的方法，所述根据从各所述药品记录中识别到的名称信息，确定至少一个药品记录对，包括：

对各所述药品记录中识别到的名称信息分别进行连续双字符拆分，得到各所述药品记录各自对应的连续双字符集合；

若第三药品记录和第四药品记录各自对应的连续双字符集合中，存在重合的连续双字符，则将所述第三药品记录和第四药品记录确定为一个药品记录对。

5.根据权利要求1所述的方法，所述根据从药品记录中识别到的名称信息和剂型信息，计算药品记录之间的相似度，包括：

若从两条药品记录中识别到的剂型信息一致，则根据从所述两条药品记录中分别识别到名称信息，计算所述两条药品记录之间的名称相似度；

根据所述名称相似度，确定所述两条药品记录之间的相似度。

6.根据权利要求5所述的方法，所述根据从所述两条药品记录中分别识别到名称信息，计算所述两条药品记录之间的名称相似度，包括：

计算所述两条药品记录对应的名称信息之间的第一相似度；

将所述两条药品记录对应的名称信息之间的重合字符个数与所述两条药品记录的字符数量和值之间的比值，作为第二相似度；

根据所述第一相似度和/或所述第二相似度，确定所述两条药品记录之间的名称相似度。

7.根据权利要求6所述的方法，还包括：

若所述第一相似度不小于第一阈值，则确定所述名称相似度有效；或者，

若所述第二相似度不小于第二阈值，则确定所述名称相似度有效；或者，

若所述第一相似度和所述第二相似度中的任意一个不小于第三阈值且所述两条药品记录之间存在子字符串关系和子序列关系中的任意一种关系，则确定所述名称相似度有效；

其中，若所述两条药品记录之间存在重合的连续字符串，则确定所述两条药品记录之间存在子字符串关系；若从所述两条药品记录中的其中一条药品记录中删除部分字符后获得另一条药品记录，则确定所述两条药品记录之间存成子序列关系。

8.根据权利要求5所述的方法，还包括：

基于预置的剂型信息与剂型类型之间的映射关系，检测从所述两条药品记录中识别到的剂型信息各自所属的剂型类型；

若为所述两条药品记录检测出的剂型类型一致，则确定从两条药品记录中识别到的剂型信息一致。

9.根据权利要求5所述的方法，所述根据所述名称相似度，确定所述两条药品记录之间的相似度，包括：

根据从所述两条药品记录中识别到的规格信息，计算所述两条药品记录之间的规格相似度；

根据所述两条药品记录之间的名称相似度和规格相似度，计算所述两条药品记录之间的相似度。

10.根据权利要求9所述的方法，所述根据从所述两条药品记录中识别到的规格信息，计算所述两条药品记录之间的规格相似度，包括：

按照剂型类型与规格标准之间的关联关系，将从所述两条药品记录中识别到的规格信息，按照所述两条药品记录各自的剂型类型对应的规格标准进行单位转换，以获得所述两条药品记录各自对应的标准规格数据；

基于所述两条药品记录各自对应的标准规格数据，计算所述两条药品记录之间的规格相似度。

11.根据权利要求1所述的方法，所述基于相似度，对所述药品记录进行聚类，以获得多个药品聚类集合，包括：

在相似度满足预设要求的两个药品记录之间建立关联的边，以构建起药品记录关联图，所述药品记录关联图中包含多个非连通的子图，单个子图对应一个药品聚类集合。

12.根据权利要求1所述的方法，所述分别为所述多个药品聚类集合生成对应的标准记录，以组成针对第一类型的药品的标准库，包括：

按照所述药品标准库中所需的字段，分别对目标药品聚类集合中包含的各条药品记录执行字段提取，以获得所述目标药品聚类集合中各条药品记录对应的标准记录；

从所述目标药品聚类集合下的各条标准记录中选取主记录；

将所述目标药品聚类集合下的其它标准记录作为所述主记录关联的从属记录；

将所述主记录及所述从属记录作为一项标准记录，添加至所述第一类型的药品的标准库中；

其中，所述目标药品聚类集合为所述多个药品聚类集合中的任意一个。

13.根据权利要求1所述的方法，还包括：

接收针对目标药品记录的归一化请求；

从所述药品标准库中，查找与所述目标药品记录适配的目标标准记录；

将所述目标药品记录归一化至所述目标标准记录。

14.根据权利要求13所述的方法，所述从所述药品标准库中，查找与所述目标药品记录适配的目标标准记录，包括：

从所述药品标准库中，筛选与从所述目标药品记录中识别到的名称信息存在相同片段的标准记录，以获得候选记录集合；

计算所述目标药品记录与所述候选记录集合中各个候选记录之间的相似度；

基于所述相似度，从所述候选记录集合中选择与所述目标药品记录适配的目标标准记录。

15.一种计算设备，包括存储器、处理器和通信组件；

所述存储器用于存储一条或多条计算机指令；

16.一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1-13任一项所述的药品归集方法。