CN107784058B - 药品数据处理方法及装置 - Google Patents
药品数据处理方法及装置 Download PDFInfo
- Publication number
- CN107784058B CN107784058B CN201710234062.2A CN201710234062A CN107784058B CN 107784058 B CN107784058 B CN 107784058B CN 201710234062 A CN201710234062 A CN 201710234062A CN 107784058 B CN107784058 B CN 107784058B
- Authority
- CN
- China
- Prior art keywords
- medicine
- information
- drug
- data
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 811
- 229940079593 drug Drugs 0.000 title claims abstract description 255
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 30
- 230000010354 integration Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 45
- 238000013507 mapping Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 30
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000012795 verification Methods 0.000 claims description 17
- 238000012986 modification Methods 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 13
- 238000012550 audit Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 206010067484 Adverse reaction Diseases 0.000 description 5
- 230000006838 adverse reaction Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 239000004615 ingredient Substances 0.000 description 3
- 239000002547 new drug Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010561 standard procedure Methods 0.000 description 3
- 229940126680 traditional chinese medicines Drugs 0.000 description 3
- METKIMKYRPQLGS-GFCCVEGCSA-N (R)-atenolol Chemical compound CC(C)NC[C@@H](O)COC1=CC=C(CC(N)=O)C=C1 METKIMKYRPQLGS-GFCCVEGCSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 229960002274 atenolol Drugs 0.000 description 2
- 229940046236 drug tradename Drugs 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 206010013710 Drug interaction Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006651 lactation Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 229940127557 pharmaceutical product Drugs 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 231100000027 toxicology Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Child & Adolescent Psychology (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种药品数据处理方法,所述方法包括以下步骤:获取药品数据,从所述药品数据中提取药品信息,将所述药品信息中的通用名信息与药品数据库中的药品记录进行通用名信息匹配,当所述药品数据库中存在与所述通用名信息匹配的所述药品记录时,将所述药品信息与成功匹配的所述药品记录进行信息整合;当所述药品数据库中不存在与所述通用名信息匹配的所述药品记录时,根据所述药品信息生成新的药品记录。此外,还对应提供了一种药品数据处理装置。上述药品数据处理方法及装置能够将分散的药品信息进行关联。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种药品数据处理方法及装置。
背景技术
目前市场上存在品种繁多的药品信息来源数据,但是各种来源数据中收录的药品信息侧重范围不尽相同。每一种药品均需要经过化学成分研究、制剂研究、动物实验、临床实验、药品审核等多个阶段才能上市销售,并且销售后还需要进行监管和售后反馈。因此,药品不同来源数据的收录信息侧重不一,并且不同来源数据之间相互独立,药品不同类别的信息碎片化存在、内容分散、无法进行关联,从而不便于对药品信息进行全方位的查阅及使用。
发明内容
基于此,有必要针对上述药品信息来源分散、关联性差的问题,提供一种药品数据处理方法及装置。
一种药品数据处理方法,所述方法包括以下步骤:
获取药品数据;
从所述药品数据中提取药品信息;
将所述药品信息中的通用名信息与药品数据库中的药品记录进行通用名信息匹配;
当所述药品数据库中存在与所述通用名信息匹配的所述药品记录时,将所述药品信息与成功匹配的所述药品记录进行信息整合;当所述药品数据库中不存在与所述通用名信息匹配的所述药品记录时,根据所述药品信息生成新的药品记录。
在其中一个实施例中,所述将所述药品信息中的通用名信息与药品数据库中的药品记录进行通用名信息匹配的步骤之前,还包括:
对所述药品数据进行数据格式校验;
当所述数据格式校验通过时,对所述药品信息中的批准文号信息进行校验;
当所述批准文号信息校验通过时,根据所述批准文号信息判定所述药品数据对应药品的药品类别;
获取与所述药品类别对应的基础信息;
根据所述基础信息判断所述药品信息中是否包含所有基础信息;当所述药品信息中包含所有基础信息时,所述药品数据通过审核。
在其中一个实施例中,所述从所述药品数据中提取药品信息的步骤,包括:
根据预设提取规则从所述药品数据中提取药品信息字段名和与所述药品信息字段名对应的药品信息字段;
获取字段名映射表;
从所述字段名映射表中查找与所述药品信息字段名匹配的标准字段名;
将所述药品信息字段名替换为所述标准字段名。
在其中一个实施例中,在所述根据预设提取规则从所述药品数据中提取药品信息字段名和与所述药品信息字段名对应的药品信息字段的步骤之后,还包括:
根据所述药品信息字段名判断所述药品信息字段是否属于合并字段;
当所述药品信息字段属于所述合并字段时,获取与所述合并字段对应的预设子字段提取规则;
根据所述预设子字段提取规则从所述合并字段中提取子字段名和与所述子字段名对应的子字段并将所述子字段作为新增药品信息字段。
在其中一个实施例中,所述将所述药品信息与成功匹配的所述药品记录进行信息整合的步骤包括:
判断所述药品记录中是否存在与所述药品信息字段的字段名相同的字段;
当不存在字段名相同的字段时,将所述药品信息字段添加至所述药品记录;
当存在字段名相同的字段时,获取所述字段所属的原始药品数据;评定所述药品数据的权威性等级和所述原始药品数据的权威性等级,并将所述药品数据和所述原始药品数据的权威性等级进行比较,将所述药品数据和所述原始药品数据中权威性等级较高的数据中的所述字段保留在所述药品记录中。
在其中一个实施例中,所述评定所述药品数据的权威性等级的步骤包括:
提取所述药品数据中的评定要素;
根据评定标准判定每项所述评定要素的评定分;
将每项所述评定要素的所述评定分乘以对应的权重后进行求和得到权威性等级分值;
根据所述权威性等级分值和等级划分标准评定所述药品数据的权威性等级。
一种药品数据处理装置,所述装置包括:
数据获取模块,用于获取药品数据;
信息提取模块,用于从所述药品数据中提取药品信息;
信息匹配模块,用于将所述药品信息中的通用名信息与药品数据库中的药品记录进行通用名信息匹配;
信息整合模块,用于当所述药品数据库中存在与所述通用名信息匹配的所述药品记录时,将所述药品信息与成功匹配的所述药品记录进行信息整合;
记录生成模块,用于当所述药品数据库中不存在与所述通用名信息匹配的所述药品记录时,根据所述药品信息生成新的药品记录。
在其中一个实施例中,所述装置还包括:
格式校验模块,用于对所述药品数据进行数据格式校验;
文号校验模块,用于当数据格式校验通过时,对所述药品信息中的批准文号进行校验;
类别判定模块,用于当所述批准文号信息校验通过时,根据所述批准文号信息判定所述药品数据对应药品的药品类别;
基础信息获取模块,用于获取与所述药品类别对应的基础信息;
基础信息判断模块,用于根据所述基础信息判断所述药品信息中是否包含所有基础信息;当所述药品信息中包含所有基础信息时,所述药品数据通过审核。
在其中一个实施例中,所述信息提取模块包括:
字段提取模块,用于根据预设提取规则从所述药品数据中提取药品信息字段名和与所述药品信息字段名对应的药品信息字段;
映射表获取模块,用于获取字段名映射表;
字段名查找模块,用于从所述字段名映射表中查找与所述药品信息字段名匹配的标准字段名;
字段名替换模块,用于将所述药品信息字段名替换为所述标准字段名。
在其中一个实施例中,所述信息整合模块包括:
字段名判断模块,用于判断所述现有药品记录中是否存在与所述药品信息字段的字段名相同的字段;
字段添加模块,用于当不存在字段名相同的字段时,将所述药品信息字段添加至所述药品记录;
等级评定模块,用于当存在字段名相同的字段时,获取所述字段所属的原始药品数据;评定所述药品数据的权威性等级和所述原始药品数据的权威性等级,并将所述药品数据和所述原始药品数据的权威性等级进行比较,将所述药品数据和所述原始药品数据中权威性等级较高的数据中的所述字段保留在所述药品记录中。
上述药品数据处理方法及装置,通过从药品数据中提取药品信息,并将药品信息信息与现有药品记录进行通用名信息的匹配,可以自动从药品数据库中查找出通用名匹配的药品记录并将药品数据与药品记录的药品信息进行整合,以对药品数据库中已经存储的药品记录进行补充,当没有匹配的记录时根据药品信息自动生成新的药品记录。从而可以将同一种药品不同来源的药品数据通过通用名进行关联,并将不同来源数据中分散的药品信息整合在一条药品记录中,便于对药品信息进行全方位的查阅。
附图说明
图1为一个实施例中药品数据处理方法的流程图;
图2为一个实施例中药品数据审核的步骤的方法流程图;
图3为一个实施例中用于执行药品数据处理方法的终端的内部结构示意图;
图4为一个实施例中药品数据处理装置的结构示意图;
图5为另一个实施例中药品数据处理装置的结构示意图;
图6为再一个实施例中药品数据处理装置的结构示意图;
图7为又一个实施例中药品数据处理装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在一个实施例中,如图1所示,提供了一种药品数据处理方法,该方法可应用于终端或服务器,以该方法应用于终端为例进行说明,所述方法包括以下步骤:
步骤110,获取药品数据。
在本实施例中,终端可以访问预先设置的一个或多个权威医学网站的网页链接,通过网页链接定期从医学网站上批量下载其所公布的药品数据,用户也可以自行收集更新的药品数据,将药品数据批量导入终端。
其中,药品数据包括各种来源的药品数据,如药品说明书、处方集、常用药物手册、药典标准、临床用药须知、临床应用相关文本和相关论文等。不同来源的药品数据收录的药品信息侧重点不同,有的数据侧重于介绍药品的化学组成分析,有的数据侧重于介绍药品的临床使用说明。
在一个实施例中,终端获取药品数据之后,对药品数据进行去重处理,终端对获取的批量药品数据进行比对,计算药品数据之间的字符重复率。当不同药品数据之间的字符重复率超过预设重复率阈值时,只保留其中一份药品数据,对其他重复的药品数据进行删除。预设重复率阈值可以根据相关专业人员的统计经验进行设置,例如,可以设置为90%、93%、95%等。终端可以随机保留重复的药品数据,也可以保留最先获取到、或最后获取到的药品数据。
步骤120,从药品数据中提取药品信息。
终端判断药品数据的来源种类,获取与药品来源种类相对应的药品信息提取规则,终端根据药品信息提取规则从药品数据中提取出相应的药品信息。
具体的,在一个实施例中,药品数据的文件名中包含了资源来源信息,终端对药品数据的文件名进行识别,根据文件名判断药品数据是属于药品说明书、还是临床用药须知或是其他来源数据。在另一个实施例中,终端识别药品数据中的标题,标题包括药品数据的名称,并采用与正文不同字体字号的文字,终端根据标题判断药品数据的来源种类。需要说明的是,也可以根据实际情况采用其他方法来判断药品数据的来源种类。
不同的药品数据中包含的药品信息的内容、排列结构可以不相同。因此,每种药品来源数据可以分别预先设置有各自的药品信息提取规则。药品信息包括药品通用名、药品商品名、药品批准文号等各种来源数据中均存在的通用信息,药品信息也包括临床试验、不良反应、药品应用原则、药品处方管理等各种来源数据中的特有信息。药品信息提取规则根据药品数据中具体的药品信息要素,要素识别符进行相应地设置。具体的,终端首先识别药品信息的信息主题,再提取出与信息主题所对应的药品信息。需要解释的是,药品信息是指药品通用名、药品商品名、临床试验、不良反应等的具体内容,而“药品通用名”、“药品商品名”、“临床试验”和“不良反应”这些词都可以看作是信息主题。
步骤130,将药品信息中的通用名信息与药品数据库中的药品记录进行通用名信息匹配。
终端的数据库中包含多个子数据库,子数据库中包括药品数据库,药品数据库中存储有多条药品记录,药品记录是由终端已处理过的原有药品数据生成的。药品记录中包含已处理过的药品数据中的所有药品信息。需要说明的是,药品数据库也可以设置在服务器上,终端可以通过访问服务器获取药品记录。
无论哪种来源的药品数据均会包含药品的通用名信息,因此,可以选用通用名信息将不同来源的药品数据进行关联,但是,同一药品的不同的药品数据来源中的药品通用名的表述之间可能会存在差别。例如,“阿替洛尔”和“氨酰心安”为同一药品的两种通用名。
具体的,在一个实施例中,将同一药品的各种表述方式的药品通用名进行关联映射生成通用名映射表。终端在药品数据库中查找是否存在通用名信息与药品信息中的通用名信息相同的药品记录,当查找不到时,终端获取通用名映射表,查找与药品信息中的通用名信息相关联的其他表述方式的药品通用名,终端在药品数据库中查找是否存在通用名信息与关联的药品通用名相同的药品记录,当遍历所有关联的药品通用名都查找不到通用名相同的药品记录时,匹配失败。当查找到与药品信息中的通用名信息相同的或是与其中任意一个关联的药品通用名相同的药品记录时,匹配成功。
当匹配失败时,终端输出新增通用名处理选项,当通用名映射表中存在与新增通用名匹配的通用名而未将两者建立联系时,用户可以通过新增通用名处理选项可以将新增的药品通用名与通用名映射表中已存储的通用名建立匹配关联关系;当通用名映射表中不存在与新增药品通用名匹配的通用名时,用户可以通过新增通用名处理选项直接在通用名映射表中添加新增药品通用名。终端接收用户的操作指令后,根据操作指令将通用名映射表进行实时更新。
在其他实施例中,终端也可以通过药品批准文号、药品本位码等信息将不同来源的药品数据进行关联。终端在药品信息中查找是否存在药品批准文号或药品本位码与药品信息中的药品批准文号或药品本位码相同的药品记录,当查找到时,匹配成功,否则,匹配失败。
步骤140,当药品数据库中存在与通用名信息匹配的药品记录时,将药品信息与成功匹配的药品记录进行信息整合。
当药品数据库中存在与通用名信息匹配的药品记录时,终端将提取出的药品信息与药品记录中的药品信息进行比较,判断药品记录中是否存在与提取出的药品信息的信息主题重合的药品信息,当药品记录中不存在信息主题重合的药品信息时,直接将提取出的药品信息添加至成功匹配的药品记录中。
在一个实施例中,当药品记录中存在信息主题重合的药品信息时,终端可以将信息主题重合的提取出的药品信息直接进行合并至药品记录中对应的药品信息中。
在另一个实施例中,当药品记录中存在信息主题重合的药品信息时,终端可以将信息主题重合的信息进行比较,判断两者的内容是否一致,当判断两者内容一致时,只保留其中一个即可,可以只保留原药品记录中的药品信息,也可以将提取出的药品信息替换药品记录中原有的药品信息;当判断两者内容不一致时,可以将信息主题重合的药品信息直接进行合并,并对合并后的药品信息进行标注,方便后期审核人员进行审核;当判断两者内容不一致时,终端也可以比较两个药品信息来源数据的置信度,将置信度较高的药品信息保留在药品记录中。
进一步的,终端在药品信息与成功匹配的药品记录进行信息整合后,可以将药品记录中的各药品信息按照预设的顺序进行排序,使不同药品的药品记录的形式进行统一,便于用户进行查看。
步骤150,当药品数据库中不存在与通用名信息匹配的药品记录时,根据药品信息生成新的药品记录。
当药品数据库中不存在与通用名信息匹配的药品记录时表明终端获取的药品数据为一种新增药品的数据,药品数据库中并未收录这种药品的任何信息,终端根据提取出来的药品信息生成这种药品的药品记录。用户输入需要查询的药品名称或是药品批准文号时,终端将待查询的药品的整条药品记录进行显示,进一步地,终端可以按照药品记录的预设排列顺序将各药品信息进行排列并显示,便于用户对药品记录进行统一查看。
上述实施例中的药品数据处理方法,通过将从药品数据中提取出的药品信息与现有药品记录进行通用名信息的匹配,可以自动查找到药品数据库中同一药品的相关信息,并将药品数据的药品数据与匹配的药品记录中的药品信息进行整合,从而可以将同一种药品不同来源的药品数据通过通用名进行关联,并将不同来源数据中分散的药品信息整合在一条药品记录中,提高药品信息的关联性,便于用户从更多的信息维度对药品进行了解,也便于用户对药品信息进行全方位的查阅。
在一个实施例中,如图2所示,在执行步骤130之前还包括以下药品数据审核的步骤:
步骤121:对药品数据进行数据格式校验。
药品数据的数据格式校验主要包括对药品数据中字符数量的校验和对字符格式的校验。
其中,字符数量的校验方法可以是终端统计药品数据总的字符数,判断总的字符数是否超过预设字符阈值。例如,可以对药品数据的普遍字数规律进行总结将预设字符阈值设置为300个、400个或500个等。当终端统计出的总字符数大于等于预设字符阈值时,继续对字符格式进行校验,当字符数量小于预设字符阈值时,药品数据的字符数量不合格,直接将药品数据进行删除。
字符格式的校验方法为终端识别药品数据终端的乱码字符,并判断乱码字符是否超过最大乱码数阈值,例如,可以将最大乱码数阈值设定为5个、8个、10个等,可以根据具体情况进行设置。当乱码字符超过最大乱码数阈值时,药品数据的字符格式不合格,直接将药品数据进行删除。当乱码字符不超过最大乱码数阈值时,终端继续执行步骤122。需要说明的是,终端也可以先进行字符格式的校验步骤再进行字符数量的校验步骤。
在一个实施例中,终端在对字符数量进行校验之前,首先将药品数据中的助动字符和无具体语义的字符如“的”、“了”等删除,并对乱码字符进行删除,只统计有效内容的字符数量,对药效内容的字符数量进行校验。
在另一个实施例中,终端在对字符数量进行校验之前,首先根据药品名称判断药品数据化学药品还是中药药品,药品名称可以是通用名也可以是商品名,具体的,终端可以通过查找化学药品名录、中药药品名录进行判断。当判断药品是化学药品时,终端判断字符数量是否超过预设化学字符阈值,当判断是中药药品时,终端判断字符数量是否超过预设中药字符阈值。因为化学药品和中药药品本身的特性差异,根据经验可以将化学字符阈值和预设中药字符阈值设置为不同的值,例如,将化学字符阈值设置为300字,将中药字符阈值设置为500字等。
步骤122:当数据格式校验通过时,对药品信息中的批准文号信息进行校验。
终端对提取出的批准文号信息进行校验。药品的批准文号存在以下三种标准格式:
格式1:一个字母(H/Z/S/F中的其中一个)+8位数字;
格式2:两个字母(ZC/HC/SC中的其中一个)+8位数字;
格式3:4个汉字(国药准字或国药试字)+一个字母(J/B/H/Z/S/F中的其中一个)+8位数字。
对药品信息中的批准文号信息进行校验的方法具体包括:
终端判断批准文号字段中是否存在“国药准字”或“国药试字”四字中文字符,当存在“国药准字”或“国药试字”四字中文字符时,判断四字中文字符后是否存在“J/B/H/Z/S/F”字母,若有,则判断字母后是否为连续的8位数字,若是,则符合药品批准文号的标准格式;若中间过程中任一判断结果为否,则不符合药品批准文号的标准格式。
当不存在“国药准字”或“国药试字”四字中文字符,则判断是否存在“Z/H/S”字母。当存在“Z/H/S”字母时,判断字母之后是否为“C”字母,若是,判断后面是否为连续的8位数字,若是,则符合药品批准文号的标准格式;若中间过程中任一判断结果为否,则不符合药品批准文号的标准格式。
当不存在“Z/H/S”字母时,则判断是否存在“F”字母,若是,判断后面是否为连续的8位数字,若是,则符合药品批准文号的标准格式;若中间过程中任一判断结果为否,则不符合药品批准文号的标准格式。
当批准文号字段符合标准格式时,继续执行步骤123,当判断出药品批准文号不符合标准格式时,将药品数据直接删除。药品批准文号是我国行政管理部门进行管理的一种统一编号,因此,如果药品批准文号不正确就无法保证药品数据来源的可信性,药品数据中所包含的信息质量就得不到保障。
步骤123:当批准文号信息校验通过时,根据批准文号信息判定药品数据对应药品的药品类别。
在药品的批准文号为格式1或格式2时,终端根据第一个字母判断药品的药品类别,当药品的批准文号为格式3时,终端根据4个汉字后面的第一个字母判断药品的药品类别。当字母为“H”时判断药品类别为化学药品,当字母为“Z”时判断药品类别为中药药品,当字母为“S”时判断药品类别为生物制品。
步骤124:获取与药品类别对应的基础信息。
基础信息是指每份药品数据中都应该包含的最基础的药品信息。不同药品的药品数据中所包含的基础信息不同,终端根据判断出的药品类别获取与其相对应的基础信息。化学药品和生物制品的药品数据中必须包含以下基础信息:产品名称、成份、适应症、用法用量、不良反应或注意事项或禁忌症(只有任一含有即可)、执行标准、生产企业、批准文号;中药药品的药品数据中必须包含以下基础信息:产品名称、成份、适应症(或功能主治)、用法用量、执行标准、生产企业、批准文号。
步骤125:根据基础信息判断药品信息中是否包含所有基础信息;当药品信息中包含所有基础信息时,药品数据通过审核。
终端将获取的基础信息与提取出的所有药品信息的信息主题进行一一比对,判断药品信息的信息主题是否完全包括基础信息的信息主题,当药品信息的信息主题完全包括基础信息的信息主题时,终端判定药品信息中包含所有基础信息,药品数据通过审核,可以继续执行步骤130。当药品信息的信息主题不完全包括基础信息的信息主题时,直接将药品数据进行删除。
上述实施例中对药品数据进行审核的方法,通过对药品数据进行格式校验、批准文号的校验,以及对药品数据中的基础信息进行校验,可以从来源广泛的药品数据中筛选出格式、基本信息符合标准的药品数据,并删除格式不符合标准、基本信息出现错误的、数据质量没有置信度的药品数据,对药品数据的质量和权威性进行把关,并提高药品信息的可信性。
在一个实施例中,步骤120具体包括以下步骤:根据预设提取规则从药品数据中提取药品信息字段名和与药品信息字段名对应的药品信息字段;获取字段名映射表;从字段名映射表中查找与药品信息字段名匹配的标准字段名;将药品信息字段名替换为标准字段名。
不同类型的来源数据的药品数据中的数据格式不同,但一般都会包含许多小标题即上文提及的药品信息主题,如成分、功能主治、用法用量等,将药品数据中的每一个小标题称为药品信息字段名,每个小标题对应的内容称为药品信息字段。因为不同类型来源数据中的数据格式不同,因此,每种类型的来源数据均有其对应的预设提取规则。
具体的,下面以药品数据为药品说明书为例来说明药品信息字段名和药品信息字段的提取规则:终端在进行药品信息字段名的提取时,首先识别出药品说明书中的标题标识符,例如“【】”符号,然后将标题标识符中的字符提取出来作为药品信息字段名。终端将识别到的药品信息字段名的标题标识符转化为普通字符,然后将从普通字符开始至下一个标题标识符前面的内容提取出来作为药品信息字段名对应的药品信息字段。例如,将原始字段名前后的“【】”符号变为[],然后将“[”至下一个“【”前的内容提取出来。需要说明的是,在其他的药品数据如处方集、临床用药须知中可以根据数据中的具体数据结构和标题标识符号设置提取规则对药品信息字段名和药品信息字段进行提取。
终端将药品信息字段名和药品信息字段提取出来之后,获取预先存储的字段名映射表。在实际情况中会遇到同一主题的信息在不同的药品数据中采用不同表述方式的情况,即药品信息字段名的表述方式过多,会导致药品数据的内容分散、不能进行统一和信息的整合。
字段名映射表中存储了不同表述方式的药品信息字段名所对应的统一标准化的标准字段名。例如,不同药品数据中的“临床试验”字段对应的药品信息字段名包括“临床试验”、“国际临床研究经验”、“国内临床试验”、“临床成绩”等多种表述方式,这些表述方式称为关联字段名,并用标准字段名“临床试验”将这些关联字段名进行统一命名。可以看出,每一个药品信息字段名也可以是其对应的关联字段名。
终端将提取出的药品信息字段名与字段名映射表进行匹配,查找字段名映射表中是否存在与其对应的标准字段名,若存在,则匹配成功,若不存在,则匹配失败。在一个实施例中,终端采用精确匹配的方式将药品信息字段名与字段名映射表中的标准字段名进行匹配,具体包括以下步骤:查找字段名映射表中是否存在与药品信息字段名相同的关联字段名,当存在相同的关联字段名时,在字段名映射表中查找关联字段名所归属的标准字段名。
在另一个实施例中,终端也可以采用模糊匹配的方式将药品信息字段名与字段名映射表中的标准字段名进行匹配,具体的,查找字段名归类表中是否存在与药品信息字段名一致的标准字段名,若存在则匹配成功,若不存在,则将药品信息字段名进行字符拆分,进一步的,采用语义分析法对药品信息字段名进行拆分,药品信息字段名拆分为具有独立语义的字符,将拆分后的具有独立语义的字符与标准字段名进行匹配,若存在包含拆分后字符的标准字段名,则匹配成功;若不存在,则匹配失败。
当终端在字段名映射表中查找到与药品信息字段名匹配的标准字段名时,将药品信息字段名替换为标准字段名。当终端在字段名映射表中查找不到与药品信息字段名匹配的标准字段名时,提取出的药品信息字段名为新增字段名,终端在显示界面输出新增字段名处理选项,用户通过新增标准字段名处理选项可以输入将未被标准化的药品信息字段名进行标准化的标准字段名,终端接收用户的操作指令,根据操作指令中的标准字段名信息在字段名映射表中添加与药品信息字段名匹配的标准字段名,以对字段名映射表进行实时更新。因为有新的药品研发上市,字段名映射表也需要对新增药品相关数据中出现的未收录的药品信息字段名进行实时更新。在本实施例中,通过将新增的药品信息字段名进行标准化,并将新增的标准字段名添加至字段名映射表中,可以对字段名映射表进行实时扩充和更新,便于后续药品信息字段名的匹配。
上述实施方式中的药品信息提取方法,通过将从药品数据中提取药品信息字段名和药品信息字段,并将药品信息字段名进行标准化,使得不同药品说明书中的同类药品信息经处理生成的药品信息字段均与同一标准字段名相对应,实现了对格式、内容分散的药品数据结构的标准化,提高了不同药品数据之间药品信息的关联性,便于用户对药品数据中的某些药品信息进行筛选和查找。
在一个实施例中,根据预设提取规则从药品数据中提取药品信息字段名和与药品信息字段名对应的药品信息字段的步骤之后还包括以下步骤:
根据药品信息字段名判断药品信息字段是否属于合并字段;当药品信息字段属于合并字段时,获取与合并字段对应的预设子字段提取规则;根据预设子字段提取规则从合并字段中提取子字段名和与子字段名对应的子字段并将子字段作为新增药品信息字段。
药品数据中一个标题对应的标题内容可能存在包含多个药品信息的情况,这种情况下提取出的药品信息字段属于合并字段。例如,提取出的药品信息字段名为“生产企业”的字段中包含企业名称、注册地址、邮编、联系电话、传真等多项内容,如果将这么多的内容均归于生产企业字段下,不便于用户对企业的具体信息进行查看。因此,需要将这些合并字段中包含的多项药品信息分别拆分出来。具体的,事先对属于合并字段的合并字段名称进行整理生成合并字段集合,终端获取合并字段集合,查找合并字段集合中是否存在与提取出的药品信息字段名相同的合并字段名,若查找不到,则继续执行获取字段名映射表的步骤;若查找到相同的合并字段名,则获取与合并字段对应的预设子字段提取规则。
因为每个合并字段中的被合并的子字段名均不相同,预设子字段提取规则中包含被合并的子字段名信息。终端根据预设子字段提取规则中的子字段信息从合并字段中识别出子字段名,将两个子字段名之间的内容提取为与前一个子字段名对应的子字段,并将提取出的子字段添加为新增的药品信息字段。将合并字段进行拆分提取后,继续执行将药品信息字段名进行标准化的步骤。
在一个实施例中,将子字段提取出来之后,对提取出来的子字段进行字符校验。终端将子字段中的无效字符如“<b>”、“</b>”、“.”等删除保留有效字符,统计有效字符的字符数并与子字段名对应的预设最小字符数进行比较,若有效字符数小于预设最小字符数,则提取出的子字段不符合标准,将子字段删除,若有效字符数不小于预设最小字符数,则保留提取出的子字段。不同的子字段对应的预设最小字符数不同,如企业名称子字段、注册地址子字段的预设最小字符数为5个字符、联系电话子字段、传真子字段的预设最小字符数为7个字符。每个子字段的预设最小字符数根据实际情况进行设定。
在上述实施例中,通过将包含多项药品信息的合并字段进行拆分,可以对药品数据的药品信息进行深度挖掘和提取,并且可以增强药品信息的易读性,便于用户查看和查找药品信息。
在一个实施例中,步骤140具体包括以下步骤:
判断药品记录中是否存在与药品信息字段的字段名相同的字段;当不存在字段名相同的字段时,将药品信息字段添加至药品记录;当存在字段名相同的字段时,获取字段所属的原始药品数据;评定药品数据的权威性等级和原始药品数据的权威性等级,并将药品数据和原始药品数据的权威性等级进行比较,将药品数据和原始药品数据中权威性等级较高的数据中的字段保留在药品记录中。
同一药品的不同来源的药品数据中很可能会出现部分药品信息内容重合的情况。在将提取出的药品信息字段与匹配成功的药品记录进行信息整合之前,终端将提取出的药品信息字段名与匹配成功的药品记录中字段内容不为空的字段名进行比对,判断药品记录中是否存在与药品信息字段名相同的字段名。当药品记录中不存在与药品信息字段名相同的字段名时,将提取出的药品信息字段添加值药品记录中,并与相应的字段名进行对应。当药品记录中存在与药品信息字段名相同的字段名时,终端需要对重合的药品信息的内容进行比较,对重合的药品信息进行取舍。例如,匹配成功的药品记录中贮藏字段的内容为“遮光、密封、在凉暗处保存”,而获取的药品数据中的贮藏字段的内容为“遮光、密封、在不超过20度的环境中保存”,二者的内容不完全相同,需要对二者进行取舍。
具体的,终端在生成的药品记录中都会将药品记录中的每个字段添加字段原始来源药品数据的链接。终端通过药品记录中重合的字段可以查找到字段所属的原始来源药品数据,终端对获取的药品数据和查找到的原始来源药品数据的权威性等级进行评定。
在一个实施例中,评定药品数据的权威性等级的步骤具体包括以下步骤:提取药品数据中的评定要素,根据评定标准判定每项评定要素的评定分;将每项评定要素的评定分乘以对应的权重后进行求和得到权威性等级分值;根据权威性等级分值和等级划分标准评定药品数据的权威性等级。
在本实施例中,评定要素包括药品数据的执行标准日期、修改日期、药品数据中所包含的总药品信息数量、标准药品信息数量和药品数据的有效字符数。在其他实施例中,还可以根据需要添加其他评定要素或删除不必要的评定要素。
药品的执行标准指反映药物质量特性的全方位产品标准,即国家标准、药品行业标准等。药品的执行标准包括名称、版本信息,如“《中国药典》2005年版三部”、“《卫生部药品标准》中药成方制剂第十五册WS3-B-2888-98”等、或者是药品标准编号如“WS 4-(S-067)-2005Z”、进口药品注册标准“JX20100034”等,上述执行标准中的执行标准日期分别为2005年、1998年、2005年和2009年。
终端根据上述实施例中所述的字段提取规则从药品数据中提取出执行标准日期字段,以进口药品注册标准为例来说明从执行标准日期字段识别出执行标准日期的方法,进口药品注册标准的药品编号包括两种形式“字母+四位年份数字+四位数字”,如“JS20050081”,其年份为2005,或者“字母+四位数字+四位年份数字”,如“YBS00322009”,其年份为2009。终端首先识别从左端的字母开始识别,提取字母后面的4位数字,将提取出的4位数字与当前正常年份做校验,若校验通过,则将4位数字作为执行标准日期;若校验不通过,则将最后4位数字提取出来并与当前正常年份做校验,若校验通过,则将最后4位数字作为执行标准日期,若校验不通过,则将此药品数据的执行标准日期评定为0分。需要说明的是,其他的执行标准根据各自特有的标准格式进行日期年份的识别。当从一份药品数据中提取出多个执行标准日期时,将最新的日期作为执行标准日期。
此外,在本实施例中,终端将执行标准日期在2010年之后的评定为5分、2000年~2009年的评定为4分,1995年~1999年的评定为3分,1990年~1994年的评定为2分,1990年之前的评定为1分。需要说明的是,在其他实施例中,还可以采用其他日期区间的划分方法对执行标准日期进行评分,并不限于本实施中的执行标准日期评分标准。
修改日期为药品数据被国家权威药品监管机构如国家食品药品监督管理局核准的日期,有的药品数据中记录最新的修改日期,有的药品数据中记载了所有的历史修改日期。终端根据上述实施例中所述的字段提取规则从药品数据中提取出修改日期字段,并识别出修改日期字段中的最新日期作为修改日期。在本实施例中,终端将修改日期在2012年之后的评定为5分、2009年~2011年的评定为4分,2000年~2008年的评定为3分,1990年~1999年的评定为2分,1990年的评定为1分。需要说明的是,在其他实施例中,还可以采用其他日期区间的划分方法对修改日期进行评分,并不限于本实施中的修改日期评分标准。
药品数据中所包含的总药品信息数量是指终端从药品数据中提取出的总的药品信息字段的数量。进一步的,总的药品信息字段中包括合并字段经过拆分提取后的子字段。终端根据上述实施例中所述的字段提取规则识别药品数据中的药品信息字段并对字段数量进行统计。当终端判断出字段数量大于25个时评定为5分,20个~24个的评定为4分,17~19个的评定为3分,14~16个的评定为2分,14个以下的评定为1分。需要说明的是,在其他实施例中,还可以采用其他字段数量评分标准方法对总的药品信息字段数量进行评分,并不限于本实施中的字段数量评分标准。
药品数据中所包含的标准药品信息数量是指从药品数据中提取出的药品信息字段中所包含的标准字段的数量。不同类别的药品数据中所包含的标准字段不同,以药品说明书为例,药品说明书中所包含的标准字段是根据《化学药品和治疗用生物制品说明书规范细则》、《预防用生物制品说明书规范细则》、《中药、天然药物处方药说明书格式》、《中药、天然药物处方药说明书内容书写要求》以及《中药、天然药物处方药说明书撰写指导原则》要求进行设置的。化学药品、生物制品或中药药品的药品说明书中标准字段共有23个,具体包括以下字段:产品名称、性状、成份、规格、适应症、用法用量、儿童用药、孕妇及哺乳期妇女用药、老年用药、禁忌、警示语、不良反应、注意事项、药物相互作用、药理毒理、贮藏、包装、有效期、临床试验、药代动力学、执行标准、批准文号和生产企业。其他类别的来源数据中的标准字段根据各自所包含的药品内容具体设置。
在本实施例中,终端统计识别出的药品信息字段中包含的标准字段中的数量。终端判断出标准字段数量大于20个时评定为5分,17个~19个的评定为4分,14~16个的评定为3分,11~13个的评定为2分,11个以下的评定为1分。需要说明的是,在其他实施例中,还可以采用其他标准字段数量评分标准方法对标准字段的数量区间进行评分,并不限于本实施中的标准字段数量评分标准。
药品数据的有效字符数是指药品数据剔除无效字符后的总字符个数。终端识别药品数据中的无效字符并将无效字符进行删除后统计余下的有效字符的个数。在本实施例中,化学药品药品数据中字符个数在700以上评定为5分,650至700之间的评定为4分,600至650之间的评定为3分,550至600之间的评定为2分,500至550之间的评定为1分。中药药品字符个数的评分规则可以类比化学药品进行相应的设置,在此不再赘述。需要说明的是,在其他实施例中,还可以采用其他字符数量评分标准方法对有效的数量区间进行评分,并不限于本实施中的字符数量评分标准。
终端在判定完各项要素的评定分之后,获取每项评定要素对应的权重。在本实施例中,各项评定要素对应的权重分别为:药品数据的执行标准日期占40%、修改日期占20%、药品数据中所包含的总药品信息数量占10%、标准药品信息数量占20%和药品数据的有效字符数占10%,在其他实施例中,各项评定要素对应的权重可以设置为其他数值,并不限于本实施例中所列的权重赋值。
终端将各项要素的评定分乘以对应的权重后的值进行求和得到权威性等级分值。在本实施例中最高的等级分值为5分,将权威性等级划分为第一等级(4.5~5分)、第二等级(3.5~4.5分)、第三等级(2.5~3.5分)和第四等级(2.5分以下),其中,第一等级高于第二等级、第二等级高于第三等级且第三等级高于第四等级。在其他实施例中,也可以设置其他的划分等级,并不限于本实施例中的划分区间标准。
终端将获取的药品数据和查找到的药品数据按照上述方法评定出权威性等级后,将两者的权威性等级进行比较,将权威性等级较高的数据中的相应字段保留在药品记录中,当两者的权威性等级相同时,终端比较两者的权威性等级分值,将权威性等级分值较高的数据中的相应字段保留在药品记录中,当两者的权威性等级分值也相同时,将两个数据中的字段内容进行合并填入药品记录的相应字段中,并对此字段进行标注,便于后期审核人员对其进行审核。在一个实施例中,当需要对药品记录中的字段内容进行替换时,终端同样对替换字段的药品数据链接进行替换更新。
上述实施方式中,在根据提取出的药品信息对成功匹配的药品记录进行信息整合时,通过判断提取出的药品信息与药品记录是否存在主题重合的字段内容,当存在主题重合的字段内容时,终端可以根据预先设定的权威性等级评判方法判断两个主题重合的字段所属数据的权威性等级,从而能够自动对药品记录中需要保留的内容进行甄别和筛选,大大减少了人工的审核工作。此外,终端通过计算具体的权威等级分值和划分权威等级能够较精确地评定数据的置信度,提高药品数据处理的准确性。
在一个实施例中,如图3所示,为一个终端的内部结构示意图。该终端包括通过系统总线连接的处理器、非易失性存储介质和内存储器。其中,终端的非易失性存储介质存储有操作系统和数据库,还包括一种药品数据处理装置。数据库用于存储于实现一种药品数据处理方法相关的数据,数据库可以包含多个子数据库,子数据库中包含药品数据库,药品数据库中存储有由已处理的药品数据生成的多条药品记录。药品数据处理装置用于实现一种药品数据处理方法。该处理器用于提供计算和控制能力,支撑整个终端的运行。终端中的内存储器为非易失性存储介质中的药品数据处理装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种药品数据处理方法。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,如图4所示,提供了一种药品数据处理装置,该装置包括:
数据获取模块410,用于获取药品数据。
信息提取模块420,用于从药品数据中提取药品信息。
信息匹配模块430,用于将药品信息中的通用名信息与药品数据库中的药品记录进行通用名信息匹配。
信息整合模块440,用于当药品数据库中存在与通用名信息匹配的药品记录时,将药品信息与成功匹配的药品记录进行信息整合。
记录生成模块450,用于当药品数据库中不存在与通用名信息匹配的药品记录时,根据药品信息生成新的药品记录。
在一个实施例中,如图5所示,所述装置还包括:
格式校验模块421,用于对药品数据进行数据格式校验;
文号校验模块422,用于当数据格式校验通过时,对药品信息中的批准文号进行校验;
类别判定模块423,用于当批准文号信息校验通过时,根据批准文号信息判定药品数据对应药品的药品类别;
基础信息获取模块424,用于获取与药品类别对应的基础信息;
基础信息判断模块425,用于根据基础信息判断药品信息中是否包含所有基础信息;当药品信息中包含所有基础信息时,药品数据通过审核。
在一个实施例中,如图6所示,信息提取模块420包括:
字段提取模块4202,用于根据预设提取规则从药品数据中提取药品信息字段名和与药品信息字段名对应的药品信息字段;
映射表获取模块4204,用于获取字段名映射表;
字段名查找模块4206,用于从字段名映射表中查找与药品信息字段名匹配的标准字段名;
字段名替换模块4208,用于将药品信息字段名替换为标准字段名。
在一个实施例中,如图7所示,信息整合模块440包括:
字段名判断模块4402,用于判断现有药品记录中是否存在与药品信息字段的字段名相同的字段;
字段添加模块4404,用于当不存在字段名相同的字段时,将药品信息字段添加至药品记录;
等级评定模块4406,用于当存在字段名相同的字段时,获取字段所属的原始药品数据;评定药品数据的权威性等级和原始药品数据的权威性等级,并将药品数据和原始药品数据的权威性等级进行比较,将药品数据和原始药品数据中权威性等级较高的数据中的字段保留在药品记录中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种药品数据处理方法,其特征在于,所述方法包括以下步骤:
获取药品数据;
判断所述药品数据的来源种类,获取与所述来源种类相对应的药品信息提取规则,根据所述药品信息提取规则从所述药品数据中提取药品信息;
对所述药品数据进行数据格式校验;
当所述数据格式校验通过时,对所述药品信息中的批准文号信息进行校验;
当所述批准文号信息校验通过时,根据所述批准文号信息判定所述药品数据对应药品的药品类别;
获取与所述药品类别对应的基础信息;
根据所述基础信息判断所述药品信息中是否包含所有基础信息;当所述药品信息中包含所有基础信息时,所述药品数据通过审核;
将所述药品信息中的通用名信息与药品数据库中的药品记录进行通用名信息匹配;所述药品数据库存储有多条药品记录,所述药品记录是由已处理过的原有药品数据生成的;
当所述药品数据库中存在与所述通用名信息匹配的所述药品记录时,判断所述药品记录中是否存在与所述药品信息字段的字段名相同的字段;当不存在字段名相同的字段时,将所述药品信息字段添加至所述药品记录;当存在字段名相同的字段时,获取所述字段所属的原始药品数据;评定所述药品数据的权威性等级和所述原始药品数据的权威性等级,并将所述药品数据和所述原始药品数据的权威性等级进行比较,将所述药品数据和所述原始药品数据中权威性等级较高的数据中的所述字段保留在所述药品记录中;
当所述药品数据库中不存在与所述通用名信息匹配的所述药品记录时,根据所述药品信息生成新的药品记录。
2.根据权利要求1所述的药品数据处理方法,其特征在于,所述从所述药品数据中提取药品信息的步骤,包括:
根据预设提取规则从所述药品数据中提取药品信息字段名和与所述药品信息字段名对应的药品信息字段;
获取字段名映射表;
从所述字段名映射表中查找与所述药品信息字段名匹配的标准字段名;
将所述药品信息字段名替换为所述标准字段名。
3.根据权利要求2所述的药品数据处理方法,其特征在于,在所述根据预设提取规则从所述药品数据中提取药品信息字段名和与所述药品信息字段名对应的药品信息字段的步骤之后,还包括:
根据所述药品信息字段名判断所述药品信息字段是否属于合并字段;
当所述药品信息字段属于所述合并字段时,获取与所述合并字段对应的预设子字段提取规则;
根据所述预设子字段提取规则从所述合并字段中提取子字段名和与所述子字段名对应的子字段并将所述子字段作为新增药品信息字段。
4.根据权利要求1所述的药品数据处理方法,其特征在于,所述评定所述药品数据的权威性等级的步骤包括:
提取所述药品数据中的评定要素;
根据评定标准判定每项所述评定要素的评定分;
将每项所述评定要素的所述评定分乘以对应的权重后进行求和得到权威性等级分值;
根据所述权威性等级分值和等级划分标准评定所述药品数据的权威性等级。
5.根据权利要求4所述的药品数据处理方法,其特征在于,所述评定要素包括所述药品数据的执行标准日期、修改日期、所述药品数据中所包含的总药品信息数量、标准药品信息数量和所述药品数据的有效字符数。
6.一种药品数据处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取药品数据;
信息提取模块,用于判断所述药品数据的来源种类,获取与所述来源种类相对应的药品信息提取规则,根据所述药品信息提取规则从所述药品数据中提取药品信息;
格式校验模块,用于对所述药品数据进行数据格式校验;
文号校验模块,用于当数据格式校验通过时,对所述药品信息中的批准文号进行校验;
类别判定模块,用于当所述批准文号信息校验通过时,根据所述批准文号信息判定所述药品数据对应药品的药品类别;
基础信息获取模块,用于获取与所述药品类别对应的基础信息;
基础信息判断模块,用于根据所述基础信息判断所述药品信息中是否包含所有基础信息;当所述药品信息中包含所有基础信息时,所述药品数据通过审核;
信息匹配模块,用于将所述药品信息中的通用名信息与药品数据库中的药品记录进行通用名信息匹配;所述药品数据库存储有多条药品记录,所述药品记录是由已处理过的原有药品数据生成的;
信息整合模块,用于当所述药品数据库中存在与所述通用名信息匹配的所述药品记录时,判断所述药品记录中是否存在与所述药品信息字段的字段名相同的字段;当不存在字段名相同的字段时,将所述药品信息字段添加至所述药品记录;当存在字段名相同的字段时,获取所述字段所属的原始药品数据;评定所述药品数据的权威性等级和所述原始药品数据的权威性等级,并将所述药品数据和所述原始药品数据的权威性等级进行比较,将所述药品数据和所述原始药品数据中权威性等级较高的数据中的所述字段保留在所述药品记录中;
记录生成模块,用于当所述药品数据库中不存在与所述通用名信息匹配的所述药品记录时,根据所述药品信息生成新的药品记录。
7.根据权利要求6所述的药品数据处理装置,其特征在于,所述信息提取模块包括:
字段提取模块,用于根据预设提取规则从所述药品数据中提取药品信息字段名和与所述药品信息字段名对应的药品信息字段;
映射表获取模块,用于获取字段名映射表;
字段名查找模块,用于从所述字段名映射表中查找与所述药品信息字段名匹配的标准字段名;
字段名替换模块,用于将所述药品信息字段名替换为所述标准字段名。
8.根据权利要求7所述的药品数据处理装置,其特征在于,所述信息提取模块还用于:
根据所述药品信息字段名判断所述药品信息字段是否属于合并字段;
当所述药品信息字段属于所述合并字段时,获取与所述合并字段对应的预设子字段提取规则;
根据所述预设子字段提取规则从所述合并字段中提取子字段名和与所述子字段名对应的子字段并将所述子字段作为新增药品信息字段。
9.根据权利要求6所述的药品数据处理装置,其特征在于,所述信息整合模块还用于:
提取所述药品数据中的评定要素;
根据评定标准判定每项所述评定要素的评定分;
将每项所述评定要素的所述评定分乘以对应的权重后进行求和得到权威性等级分值;
根据所述权威性等级分值和等级划分标准评定所述药品数据的权威性等级。
10.根据权利要求9所述的药品数据处理装置,其特征在于,所述评定要素包括所述药品数据的执行标准日期、修改日期、所述药品数据中所包含的总药品信息数量、标准药品信息数量和所述药品数据的有效字符数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710234062.2A CN107784058B (zh) | 2017-04-11 | 2017-04-11 | 药品数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710234062.2A CN107784058B (zh) | 2017-04-11 | 2017-04-11 | 药品数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107784058A CN107784058A (zh) | 2018-03-09 |
CN107784058B true CN107784058B (zh) | 2020-11-13 |
Family
ID=61437803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710234062.2A Active CN107784058B (zh) | 2017-04-11 | 2017-04-11 | 药品数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107784058B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637671A (zh) * | 2018-11-13 | 2019-04-16 | 郭金荣 | 一种药品不良反应监测管理分析方法 |
CN110399434A (zh) * | 2019-07-25 | 2019-11-01 | 北京明略软件系统有限公司 | 字段分类方法及装置、存储介质、电子装置 |
CN110427375B (zh) * | 2019-07-29 | 2022-12-09 | 北京明略软件系统有限公司 | 字段类别的识别方法及装置 |
CN110532273A (zh) * | 2019-08-30 | 2019-12-03 | 北京明略软件系统有限公司 | 数据表的处理方法及装置、存储介质、电子装置 |
CN110659287A (zh) * | 2019-09-11 | 2020-01-07 | 北京亚信数据有限公司 | 一种表格的字段名处理方法及计算设备 |
CN111198887B (zh) * | 2019-12-31 | 2021-02-26 | 北京左医健康技术有限公司 | 药品索引方法、药品检索方法及系统 |
CN111180087A (zh) * | 2020-01-02 | 2020-05-19 | 中国中医科学院中医药信息研究所 | 上市药品信息标准化方法、设备、服务器及存储介质 |
CN111312357B (zh) * | 2020-01-20 | 2023-06-27 | 和宇健康科技股份有限公司 | 一种药品分析方法及系统 |
CN111933244A (zh) * | 2020-08-17 | 2020-11-13 | 医渡云(北京)技术有限公司 | 药品数据编码方法、装置、计算机可读介质及电子设备 |
CN112116239A (zh) * | 2020-09-16 | 2020-12-22 | 山东健康医疗大数据有限公司 | 一种实现药品标准化的方法 |
CN112463895B (zh) * | 2020-12-01 | 2024-06-11 | 零氪科技(北京)有限公司 | 基于药物名称挖掘自动发现药物成分的方法和装置 |
CN112857709A (zh) * | 2021-01-14 | 2021-05-28 | 北京赛而生物药业有限公司 | 一种检测药品包装密封性的方法和装置 |
CN112989791B (zh) * | 2021-03-30 | 2024-08-16 | 北京拓普丰联信息科技股份有限公司 | 一种基于文本信息抽取结果的去重方法、系统以及介质 |
CN113130038A (zh) * | 2021-04-30 | 2021-07-16 | 康键信息技术(深圳)有限公司 | 药品数据匹配方法、装置、设备及存储介质 |
CN113706257B (zh) * | 2021-09-01 | 2024-08-16 | 北京京东振世信息技术有限公司 | 物品信息处理方法、搜索方法和装置 |
CN115510049B (zh) * | 2022-11-15 | 2023-03-21 | 阿里健康科技(杭州)有限公司 | 药品的标品数据录入方法、装置、设备和存储介质 |
CN116955497B (zh) * | 2023-04-07 | 2024-07-23 | 广州标点医药信息股份有限公司 | 一种中成药数据的分类方法 |
CN117056376B (zh) * | 2023-08-30 | 2024-07-19 | 浙江星汉博纳医药科技有限公司 | 一种信息处理方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799807A (zh) * | 2009-02-10 | 2010-08-11 | 中国移动通信集团公司 | 一种异构数据表的合并方法及其系统 |
CN102073701A (zh) * | 2010-12-30 | 2011-05-25 | 浪潮集团山东通用软件有限公司 | 一种基于语义定义的多数据源的数据查询方法 |
CN105335378A (zh) * | 2014-06-25 | 2016-02-17 | 富士通株式会社 | 多数据源的信息处理装置、服务器及方法 |
CN105893526A (zh) * | 2016-03-30 | 2016-08-24 | 上海坤士合生信息科技有限公司 | 多源数据融合系统和方法 |
-
2017
- 2017-04-11 CN CN201710234062.2A patent/CN107784058B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799807A (zh) * | 2009-02-10 | 2010-08-11 | 中国移动通信集团公司 | 一种异构数据表的合并方法及其系统 |
CN102073701A (zh) * | 2010-12-30 | 2011-05-25 | 浪潮集团山东通用软件有限公司 | 一种基于语义定义的多数据源的数据查询方法 |
CN105335378A (zh) * | 2014-06-25 | 2016-02-17 | 富士通株式会社 | 多数据源的信息处理装置、服务器及方法 |
CN105893526A (zh) * | 2016-03-30 | 2016-08-24 | 上海坤士合生信息科技有限公司 | 多源数据融合系统和方法 |
Non-Patent Citations (1)
Title |
---|
多源信息融合型竞争情报方法在银行客户信息整合中的应用;梁倩;《中国优秀硕士学位论文全文数据库工程科技辑》;20170215;第I143-166页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107784058A (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107784058B (zh) | 药品数据处理方法及装置 | |
CN107783950B (zh) | 药品说明书处理方法及装置 | |
US10025904B2 (en) | Systems and methods for managing a master patient index including duplicate record detection | |
Beckwith et al. | Development and evaluation of an open source software tool for deidentification of pathology reports | |
US8145644B2 (en) | Systems and methods for providing access to medical information | |
US10572461B2 (en) | Systems and methods for managing a master patient index including duplicate record detection | |
US9652530B1 (en) | Generating and applying event data extraction templates | |
CN107784611B (zh) | 药品编码方法及装置 | |
US10216837B1 (en) | Selecting pattern matching segments for electronic communication clustering | |
US20100169348A1 (en) | Systems and Methods for Handling Multiple Records | |
CN112329055A (zh) | 用户数据脱敏的方法及装置、电子设备、存储介质 | |
CN112632989A (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
CN110765199B (zh) | 医疗保险药品目录的遴选方法、存储介质及计算机设备 | |
CN114153962A (zh) | 一种数据匹配方法、装置及电子设备 | |
Stiller et al. | Automatic enrichments with controlled vocabularies in Europeana: Challenges and consequences | |
CN110619212B (zh) | 一种基于字符串的恶意软件识别方法、系统及相关装置 | |
Wong | Statistical classification of drug incidents due to look-alike sound-alike mix-ups | |
CN112530597A (zh) | 基于Bert字模型的数据表分类方法、装置及介质 | |
CN113918705A (zh) | 带有预警和推荐功能的投稿审核方法及系统 | |
CN112183113A (zh) | 基于健康医疗大数据的保险客户名单筛选方法及装置 | |
Cheung et al. | Application of text mining to the development and validation of a geographic search filter to facilitate evidence retrieval in Ovid MEDLINE: An example from the United States | |
CN114090076A (zh) | 应用程序的合规性判别方法和装置 | |
Shaik et al. | Analyzing race and country of citizenship bias in wikidata | |
US10586616B2 (en) | Systems and methods for generating subsets of electronic healthcare-related documents | |
Harinarayana et al. | Methodological approach to assess the library catalogues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220525 Address after: 518048 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Patentee after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Patentee before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
TR01 | Transfer of patent right |