CN113722377A

CN113722377A - 一种药品标准库的搭建方法及系统

Info

Publication number: CN113722377A
Application number: CN202111007459.0A
Authority: CN
Inventors: 黎云; 吕静; 沈章
Original assignee: Wuhan Haiyun Health Technology Co ltd
Current assignee: Wuhan Haiyun Health Technology Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-30

Abstract

本发明涉及一种药品标准库的搭建方法及系统，读取并整合客户商品库数据，并初始化药品标准库，所述药品标准库中存储有药品标准字段；对客户商品库中每一条商品数据进行字段完整性和准确性分析并进行数据清洗，筛选保留用于相似度计算的字段；根据Levenshtein Distance算法，计算商品数据的每个字段与药品标准字段的字段相似度；根据经验设置权重并对商品数据的字段相似度进行加权求和，得到商品数据与药品标准库中药品的相似度匹配结果，并根据匹配结果利用字段“medicine_code”将商品数据与药品标准库中的药品数据进行关联。通过编辑距离算法计算客户商品库和药品标准库中指定字段的相似度，自动筛选相同或相似的数据进行匹配，大大节约时间成本和人力费用。

Description

一种药品标准库的搭建方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于模糊匹配技术的药品标准库的搭建方法及系统。

背景技术

在居民消费水平提高、人口老龄化、新一轮医药改革等因素的推动下，我国医药市场规模持续扩大，医药零售行业发展较快。数据显示，2019年我国药品三大终端六大市场药品销售额达17955亿元，同比增长4.8％。从2010年的39.9万家到2019年的52.4万家，中国药店总体数量总体呈现增长态势，2019年的同比增长率为7％。

医药零售行业是与民众生活息息相关的，因此充分的行业研究有利于为民众提供更好的服务，研究行业特性与市场行情，能够更好的把握投资方向。

对于一些医药零售连锁企业，由于连锁众多，容易导致商品数据标准不统一，在数据整合过程中则会遇到以下问题：

①对于商品数据定义的字段不同。比如A连锁有药品分类字段，B连锁可能没有，也可能分类标准不一致；

②命名规则不同。同一个商品录入系统时，A连锁以通用名称为标准，比如阿莫西林胶囊，B连锁习惯添加商品名称，如白云山阿莫西林；

③数据空值。一个药品的基本参数包含条形码、通用名称、商品名称、规格、包装、生产厂家等，但存在很多空值，如没有录入条形码；

④数据错误。如商品名称中的错别字；

⑤数据省略。最典型的是生产厂家，如把汤臣倍健股份有限公司简写为汤臣倍健；

⑥顺序错误。如某个药品的标准规格为0.25g*20s，但录入时写成20s*0.25g。

⑦数据部分缺失。如某个药品的标准规格为0.25g*20s，但录入时写成20s。

基于上述原因，需要建立一个商品标准库，与各连锁商品数据做关联，提高在进行行业以及连锁数据分析时的结果的准确性。

发明内容

本发明针对现有技术中存在的技术问题，提供一种药品标准库的搭建方法及系统，通过编辑距离算法计算客户商品库和药品标准库中指定字段的相似度，自动筛选相同或相似的数据进行匹配，大大节约时间成本和人力费用。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种药品标准库的搭建方法，包括以下步骤：

S1，读取并整合客户商品库数据，并初始化药品标准库，所述药品标准库中存储有药品标准字段；

S2，对客户商品库中每一条商品数据进行字段完整性和准确性分析并进行数据清洗，筛选保留用于相似度计算的字段；

S3，根据Levenshtein Distance算法，计算商品数据的每个字段与药品标准字段的字段相似度；

S4，根据经验设置权重并对商品数据的字段相似度进行加权求和，得到商品数据与药品标准库中药品的相似度匹配结果，并根据匹配结果利用字段“medicine_code”将商品数据与药品标准库中的药品数据进行关联；所述字段“medicine_code”为一关联字段，用于关联客户商品库与药品标准库中的药品数据。

进一步的，所述的用于相似度计算的字段包括：“商品名称”、“规格”、“生产厂家”。

进一步的，所述的数据清洗包括剔除无效字符、统一中英文符号及统一计量单位。

进一步的，所述步骤S4还包括：对相似度匹配结果进行排序，输出相似度最高的若干个结果；对输出的若干个结果进行人工校验，筛选正确匹配的匹配结果并保留，并对错误匹配结果中的商品数据与药品标准库中的药品数据解除关联。

进一步的，所述步骤S4还包括：设置相似度阈值，输出超过相似度阈值的匹配结果。

第二方面，本发明还提供一种药品标准库的搭建系统，包括：

数据读取及初始化模块，读取并整合客户商品库数据，并初始化药品标准库，所述药品标准库中存储有药品标准字段；

数据处理模块，对客户商品库中每一条商品数据进行字段完整性和准确性分析并进行数据清洗，筛选保留用于相似度计算的字段；

字段相似度计算模块，根据Levenshtein Distance算法，计算商品数据的每个字段与药品标准字段的字段相似度；

匹配关联模块，根据经验设置权重并对商品数据的字段相似度进行加权求和，得到商品数据与药品标准库中药品的相似度匹配结果，并根据匹配结果利用字段“medicine_code”将商品数据与药品标准库中的药品数据进行关联。

进一步的，所述匹配模块还用于：对相似度匹配结果进行排序，输出相似度最高的若干个结果；对输出的若干个结果进行人工校验，筛选正确匹配的匹配结果并保留，并对错误匹配结果中的商品数据与药品标准库中的药品数据解除关联。

进一步的，所述匹配模块还用于：设置相似度阈值，输出超过相似度阈值的匹配结果。

第三方面，本发明还提供一种电子设备，包括：

存储器，用于存储计算机软件程序；

处理器，用于读取并执行所述存储器中存储的计算机软件程序，进而实现本发明第一方面所述的一种药品标准库的搭建方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，该存储介质中存储有用于实现本发明第一方面所述的一种药品标准库的搭建方法的计算机软件程序。

本发明的有益效果是：本发明方法通过编辑距离算法计算客户商品库和药品标准库中指定字段的相似度，自动筛选相同或相似的数据进行匹配，大大节约时间成本和人力费用。另外，通过人工校验过程，在对标准库进行修正和补充的同时，也可以达到算法优化的目的。

附图说明

图1为本发明实施例提供的一种药品标准库的搭建方法流程示意图；

图2为本发明实施例提供的一种药品标准库的搭建系统结构示意图。

图3为本发明实施例提供的电子设备结构示意图。

图4为本发明实施例提供的一种计算机可读存储介质结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

一个商品有很多字段来标识它的唯一性，如条形码、商品编码、商品名称、通用名称、规格、包装、生产厂家、批准文号等等。字段选取越多，匹配的准确率越高，但匹配率越低，反之，字段选取得越少，匹配率越高，精准率越低。且每个字段的重要程度不同，字段的数据完整性、准确性也有所差异，存在空值、错值、异常值。

Python提供了模糊字符串匹配工具包，它依据Levenshtein Distance算法，计算两个序列之间的差异。Levenshtein Distance算法，又称为编辑距离算法，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。例如：

“Saturday”和”Sundays”之间的Levenshtein距离是4

Saturday-->Sturday//删除第一个a

Sturday-->Surday//删除第一个t

Surday-->Sunday//替换r为n

Sunday-->Sundays//结尾添加s

据此，我们可以将我们的标准库与客户的商品库进行比对，当比对结果认为某条客户商品数据与我们标准库相同时，则用标准库的字段medicine_code对该条商品进行标记，最终形成两条商品的匹配。

本发明实施例提供一种基于模糊匹配技术的药品标准库的搭建方法。首先，两条商品数据是否为同一个商品，需要满足哪些条件。我们定义当商品的“商品名称”、“规格”、“生产厂家”均一致时，我们认为这是同一个商品；由于实际连锁数据中，“条形码”数值缺失严重，所以我们暂不考虑这个字段。但实际匹配过程中，很难找到完全相同的两条数据，所以我们计算相似度，定义阈值，大于这个阈值，说明相似度很高，我们就默认为约等于相同。至于阈值取值多少，我们会根据样本的计算结果不断调整，取最优值。

具体的，本发明实施例提供的药品标准库的搭建方法如图1所示，包括以下步骤：

S2，针对客户商品库中的每一条商品数据，分析字段完整性和准确性并进行数据清洗，剔除无效字符、中英文符号及单位统一等，筛选保留用于相似度计算的字段。

在本实施例中，筛选保留的字段包括：“商品名称”、“规格”、“生产厂家”。这三个字段中，最复杂的是规格，由于规格的组成为剂量和包装，且存在多个剂量或多个包装值，需要进行特殊处理。整体步骤如下：

●对规格字段：

①无效字符剔除，包含空格及其它特殊字符。

②字符统一。如字母均转换为小写，中文单位转换成英文，毫克->mg，微克->μg等。

③错别字修正。代->袋，版->板等。

④单位转换。g->mg，l->ml等。

●对生产厂家字段：

①剔除集团有限公司、责任有限公司、有限公司、公司、制药厂、科技等与厂家名称主体无关的字段。

②转换中文括号、逗号等为英文格式

●对商品名称：

①无效字符剔除，包含空格及其它特殊字符。

②剔除括号及括号内字段，通常为品牌名称。

S3，根据Levenshtein Distance算法，计算商品数据的每个字段与药品标准字段的字段相似度。分别计算商品名称、规格、生产厂家相似度；如果客户商品库中某一商品的子字符串与标准库中的字符串一致，则认为相似度为1。

这里应当注意的是，模糊匹配的方式有很多，如正则表达式或SQL中的模糊查询匹配，但它们要么只能匹配到或匹配不到结果，要么对数据格式和规律的多样性有所要求，不能很好的满足业务需求。而Levenshtein Distance算法的匹配结果以相似度排序，可以显示满足指定阈值或数量的多个选项。

S4，根据经验设置权重并对商品数据的字段相似度进行加权求和，得到商品数据与药品标准库中药品的相似度匹配结果，然后分别比较样本准确率，选择最佳权重分布。

在本实施例中，将“商品名称”、“规格”、“生产厂家”三个字段的权重分别设置为(0.4，0.3，0.3)、(0.3，0.4，0.3)、(0.4，0.4，0.2)，比较三种权重设置模式下的样本匹配准确率。通过验证，将三个字段的权重设置为(0.3，0.4，0.3)能够得到较好的匹配效果。

将每一条客户商品数据，根据相似度匹配结果，对应标记药品标准库的字段“medicine_code”。即，根据匹配结果利用字段“medicine_code”将商品数据与药品标准库中的药品数据进行关联。

所述字段“medicine_code”为一关联字段，用于关联客户商品库与药品标准库中的药品数据。在药品标准库中medicine_code是自动生成的一串随机且唯一的字符，对应每一条药品数据。

在未匹配标记之前，客户商品库中药品对应的“medicine_code”为空值。当客户的一条商品与标准库正确匹配时，则给这条客户商品的medicine_code赋同一值。通过字段“medicine_code”将客户商品库与药品标准库中的药品数据关联起来。

具体的，在商品数据与药品标准库中药品的相似度匹配结果后，对相似度匹配结果进行排序，输出相似度最高的前几个结果。本实施例中选取前5个匹配结果。这样做的原因是药品标准库中可能存在“商品名称”“生产厂家”均一致，仅在规格上有差异的多个药品数据，那么在匹配时，一条客户商品库中的数据则可能匹配到多个相似度十分接近的结果。输出相似度最高的前几个结果后，需要进行步骤S5：人工校验，筛选正确匹配的匹配结果并保留，并对错误匹配结果中的商品数据与药品标准库中的药品数据解除关联。同时由于初始的药品标准库中可能存在数据不全的问题，在输出匹配结果后，则会出现匹配错误的问题，因此也需要进行人工校验。人工校验的意义在于：1)检查匹配结果是否正确，错误的进行修正，2)修正的结果可以用于算法优化，3)如果客户数据库中的某条商品，在标准库中关联、匹配不到，有可能是由于新品等原因，标准库中不存在这条数据，那就需要人工进行添加补充。

在该方法经过一定时间段的使用后，可以在步骤S4中设置相似度阈值，这时则无需输出相似度最高的前几个结果，仅输出超过相似度阈值的匹配结果即可，然后将每一条客户商品数据，对应标记药品标准库的字段“medicine_code”。

通过本发明方法可以大大节约时间成本和人力费用。

基于上述方法，本发明实施例还提供一种药品标准库的搭建系统，包括：

进一步的，所述匹配模块还用于：对相似度匹配结果进行排序，输出相似度最高的若干个结果；对输出的若干个结果进行人工校验，筛选正确匹配的匹配结果并保留，并对其他匹配结果中的商品数据与药品标准库中的药品数据解除关联。

请参阅图3，图3为本发明实施例提供的电子设备的实施例示意图。如图3所示，本发明实施例提了一种电子设备，包括存储器510、处理器520及存储在存储器520上并可在处理器520上运行的计算机程序511，处理器520执行计算机程序511时实现以下步骤：

S4，根据经验设置权重并对商品数据的字段相似度进行加权求和，得到商品数据与药品标准库中药品的相似度匹配结果，并根据匹配结果利用字段“medicine_code”将商品数据与药品标准库中的药品数据进行关联。

请参阅图4，图4为本发明实施例提供的一种计算机可读存储介质的实施例示意图。如图4所示，本实施例提供了一种计算机可读存储介质600，其上存储有计算机程序611，该计算机程序611被处理器执行时实现如下步骤：

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种药品标准库的搭建方法，其特征在于，包括以下步骤：

S3，根据LevenshteinDistance算法，计算商品数据的每个字段与药品标准字段的字段相似度；

2.根据权利要求1所述的方法，其特征在于，所述的用于相似度计算的字段包括：“商品名称”、“规格”、“生产厂家”。

3.根据权利要求2所述的方法，其特征在于，所述的数据清洗包括剔除无效字符、统一中英文符号及统一计量单位。

4.根据权利要求1所述的方法，其特征在于，所述步骤S4还包括：对相似度匹配结果进行排序，输出相似度最高的若干个结果；对输出的若干个结果进行人工校验，筛选正确匹配的匹配结果并保留，并对错误匹配结果中的商品数据与药品标准库中的药品数据解除关联。

5.根据权利要求1所述的方法，其特征在于，所述步骤S4还包括：设置相似度阈值，输出超过相似度阈值的匹配结果。

6.一种药品标准库的搭建系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述匹配模块还用于：对相似度匹配结果进行排序，输出相似度最高的若干个结果；对输出的若干个结果进行人工校验，筛选正确匹配的匹配结果并保留，并对错误匹配结果中的商品数据与药品标准库中的药品数据解除关联。

8.根据权利要求6所述的系统，其特征在于，所述匹配模块还用于：设置相似度阈值，输出超过相似度阈值的匹配结果。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机软件程序；

处理器，用于读取并执行所述存储器中存储的计算机软件程序，进而实现权利要求1-5任一项所述的一种药品标准库的搭建方法。

10.一种非暂态计算机可读存储介质，其特征在于，该存储介质中存储有用于实现权利要求1-5任一项所述的一种药品标准库的搭建方法的计算机软件程序。