CN111180087A

CN111180087A - 上市药品信息标准化方法、设备、服务器及存储介质

Info

Publication number: CN111180087A
Application number: CN202010002703.3A
Authority: CN
Inventors: 朱彦; 刘丽红; 贾李蓉; 刘静; 高博; 陈超; 聂莹; 乔幸潮
Original assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Current assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-19

Abstract

本发明的实施方式涉及上市药品信息标准化的方法、设备、服务器及计算机可读存储介质。该方法包括：从药品标准中采集药品标准数据；对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据；采集药品数据，所述药品数据包括药品名称和批准文号；将所采集的药品数据在经结构化处理的药品标准数据中进行匹配；以及在成功匹配的情况下，在网络上自动检索与所述药品数据相对应的药品说明书，并且将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中。从而，提供了一种更加快速、全面地收集和提供标准化的上市药品信息的方法。

Description

上市药品信息标准化方法、设备、服务器及存储介质

技术领域

本公开涉及药品信息标准化的技术领域，更具体而言，涉及用于上市药品信息标准化方法、设备、服务器及计算机可读存储介质。

背景技术

随着中国加入国际人用药品注册技术协调会(ICH)，中国药品注册技术要求与国际接轨已全面启动。中国的药品研发与注册也正在全面进入全球化时代，这就要求药品信息的标准化要求更高，不但要满足中国国内的使用，还需要与现有的国际标准进行对接。另一方面，药品的组成、剂型、适应症和分类等相关标准化信息，也是实现临床辅助用药决策的基础。

现有的关于上市药品信息标准化的方法，都是直接基于药品说明书来进行标准化。然而，在实际操作中发现这样的并不适合，问题主要表现在如下方面：

(1)上市药品信息的数据量太大。截止目前，国家药监部门批准的药品数量已经超过了16万条，涉及的药品品种数也达到了1.6万种之多。从而将药品说明书全部收集的工作量巨大。

(2)药品说明书覆盖不全。药品说明书多种多样，有的在公共互联网可以检索到，有的并不能检索到。现有药品信息标准化厂商采集并向公众提供的药品说明书数量有限，目前最全的数据提供商(如药智网)，只有7.7万条记录，去除不同时间版本及说明书模板记录，预计只有3万种左右的药品，无法保证对所有药品信息的高覆盖率。

(3)药品说明书具有滞后性。只有药品上市一段时间后，才能公开收集到药品说明书，而这个不确定的滞后性对于数据的定期收集更新带来困难。

(4)数据质量无法保证。现有开放数据源收集到的说明书，分为图片和文本形式。根据我们的数据调研，文本形式的说明书质量无法保证，而且经常是各个网站互相拷贝。而图片格式的数量比较少，而且发布的日期跨度非常大。

(5)药品信息不完整。药品说明书中有一部分中成药由于某些原因会对组成的药物省略描述，如“人参、白术等14味药”。另外，药品说明书中的药物组成信息缺少剂量及单位，这对于后续药品信息的应用带来较大的限制。

背景技术部分的内容仅仅是发明人所知晓的技术，并不当然代表本领域的现有技术。

发明内容

有鉴于此，本公开实施方式的目的之一旨在解决前述的一个或多个问题，提供一种相对而言更加快速和全面地收集和提供标准化的上市药品信息解决方案。

在第一方面，本公开实施方式提供一种对上市药品信息进行标准化的方法，包括：从药品标准中采集药品标准数据；对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据；采集药品数据，所述药品数据包括药品名称和批准文号；将所采集的药品数据在经结构化处理的药品标准数据中进行匹配；以及在成功匹配的情况下，在网络上自动检索与所述药品数据相对应的药品说明书，并且将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中。

在一个实施例中，所述对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据进一步包括：对采集的药品标准数据的粗文本进行校对，得到药品标准数据的精校文本；以及从精校文本中提取与以下各项中的一项或多项字段相对应的信息，形成经结构化处理的药品标准数据：正式名称、别名、拼音名、英文名、药品类型标识、标准来源书籍、标准编号、处方、制法、性状、鉴别、检查、功能与主治、类别、用法与用量、规格、贮藏方法。从精校文本中提取信息可以使用正则表达式方法。

在一个实施例中，对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据进一步包括：整理采集到的药品标准数据，其中如果是采集到的药品标准数据是图像格式，则对图像格式的药品标准数据进行OCR自动识别，得到药品标准数据的文本格式的粗文本。

在一个实施例中，药品标准数据的精校文本的处方字段对应的信息是一段自由文本，所述对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据进一步包括：将所述自由文本中的物质、剂量和单位抽取出来，并利用物质术语表、剂量术语表和单位术语表来进行标准化，具体包括：准备物质表、剂量表和单位表；以及对所述自由文本进行中文分词，识别出多个“物质-剂量-剂量单位”单元。

在一个实施例中，所述方法可以进一步包括：对剂型、厂家等信息进行标准化。

在一个实施例中，所述方法还包括：在未能成功匹配的情况下，更新所述经结构化处理的药品标准数据。

在第二方面，本公开实施方式提供一种对上市药品信息进行标准化的设备，包括：药品标准数据采集装置，用于从药品标准中采集药品标准数据；结构化处理装置，用于对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据；药品数据采集装置，用于采集药品数据，所述药品数据包括药品名称和批准文号；匹配装置，用于将所采集的药品数据在经结构化处理的药品标准数据中进行匹配；以及药品说明书检索装置，用于在成功匹配的情况下，在网络上自动检索与所述药品数据相对应的药品说明书，并且将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中。

在一个实施例中，结构化处理装置可以进一步包括：自动校对装置，用于对采集的药品标准数据的粗文本进行校对，得到药品标准数据的精校文本；以及提取装置，用于从精校文本中提取与以下各项中的一项或多项字段相对应的信息，形成经结构化处理的药品标准数据：正式名称、别名、拼音名、英文名、药品类型标识、标准来源书籍、标准编号、处方、制法、性状、鉴别、检查、功能与主治、类别、用法与用量、规格、贮藏方法。从精校文本中提取信息可以使用正则表达式方法。

在一个实施例中，结构化处理装置可以进一步包括：数据格式转换装置，用于整理采集到的药品标准数据，其中如果是采集到的药品标准数据是图像格式，则对图像格式的药品标准数据进行OCR自动识别，得到药品标准数据的粗文本。

在一个实施例中，药品标准数据的精校文本的处方字段对应的信息是一段自由文本，所述结构化处理装置可以进一步包括：抽取装置，用于将所述自由文本中的物质、剂量和单位抽取出来，并利用物质术语表、剂量术语表和单位术语表来进行标准化，具体包括：准备模块，用于准备物质表、剂量表和单位表；以及分词模块，用于对所述自由文本进行中文分词，识别出多个“物质-剂量-剂量单位”单元。

在一个实施例中，该设备还可以包括：用于对剂型、厂家等信息进行标准化的装置。

在一个实施例中，该设备还可以包括：更新装置，用于在未能成功匹配的情况下，更新所述经结构化处理的药品标准数据。

在第三方面，本公开实施方式提供一种服务器，包括：存储器，被配置为存储程序代码，以及处理器，被配置为执行所述程序代码以执行前述的方法。

在第四方面，本公开实施方式提供一种计算机可读存储介质,包括存储于其上的计算机可执行指令，所述可执行指令在被处理器执行时执行前述方法。

根据本发明的各种实施方式，可以通过行政机关颁布的药品标准数据库等药品标准库来收集药品标准，对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据，采集药品数据，在经结构化处理的药品标准数据中匹配药品数据，基于药品数据来在互联网络上搜索药品说明书，并且将各个制药厂家的药品说明书与药品标准建立关联，从而利用格式化的数据库来收集和维护标准化的药品信息。从而，可以提供一种更加快速和全面地收集和提供标准化的上市药品信息的技术方案。

附图说明

构成本公开的一部分的附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1示意性示出了根据本发明一种实施方式的用于对上市药品信息进行标准化的方法的示意图；

图2示意性示出了根据本发明另一种实施方式的用于对上市药品信息进行标准化的方法的示意图；

图3A示意性示出了根据本发明一种实施方式的数据库的表示物质的构成的示意图；

图3B示意性示出了根据本发明一种实施方式的能兼容中药和西药的通用数据模型的构建的示意图；

图4A示意性示出了根据本发明一种实施方式对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据的方法的示意图；

图4B示意性示出了根据本发明一种实施方式的所采集的图片格式的药品标准数据；

图4C示意性示出了根据本发明一种实施方式的对图4B所示的图片格式的药品标准数据进行结构化处理后的药品标准数据的示意图；

图5A示意性示出了根据本发明一种实施方式的对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据的方法的示意图；

图5B示意性示出了根据本发明一种实施方式的对处方的自由文本进行标准化处理的示意图；

图6A示意性示出了根据本发明一种实施方式的剂型信息原始数据的示意图；

图6B示意性示出了根据本发明一种实施方式的对图6A所示的剂型信息原始数据进行结构化处理后的剂型术语的示意图；以及

图7示意性示出了根据本发明一种实施方式的用于对上市药品信息进行标准化的设备的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本公开的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下文的公开提供了许多不同的实施方式或例子用来实现本公开的不同结构。为了简化本公开的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本公开。此外，本公开可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。此外，本公开提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。

附图中的流程图和框图，图示了按照本发明各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现预定的逻辑功能的可执行指令。应当注意，在有些作为备选的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也应当注意，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。此外，为了示意的方便，下述具体实施方式中的可选的步骤以虚线框的形式示出。

以下结合附图对本公开的具体实施例进行详细说明，应当理解，此处所描述的优选实施例仅用于说明和解释本公开，并不用于限定本公开。

图1示意性示出了根据本发明一种实施方式的用于对上市药品信息进行标准化的方法100的示意图。

在步骤S110，从药品标准中采集药品标准数据。上市的药品必须符合药品标准。药品标准可以是指国家食品药品监督管理局颁布的《中华人民共和国药典》、药品注册标准和其他药品标准，其内容包括质量指标、检验方法以及生产工艺等技术要求。可以从《中华人民共和国药典》、药品注册标准和其他药品标准采集药品标准数据，也可以通过其他可行的渠道中采集。所述药品标准数据通常包括药品名称、标准编号、批准文号、处方、制法等。

在步骤S120，对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据。药品标准数据通常是文本格式的，也可以是图像格式的。根据本公开的实施方式，设计中西药通用数据模型，构建药品信息数据库，并且对文本格式的药品标准数据进行格式化处理，将经结构化处理的药品标准数据存储在药品信息数据库中。

在步骤S130，采集药品数据，所述药品数据可以包括药品名称和批准文号，还可以包括药品制造厂家和/或药品剂型等信息。药品数据主要取自国家药品监督管理局的国产药品数据库，也可以由人工零散地提取。

在步骤S140，将所采集的药品数据在经结构化处理的药品标准数据中进行匹配。例如，可以根据药品数据中包括的药品名称和批注文号中的一者或二者，将药品信息匹配到所遵循的标准上。

在步骤S150，在成功匹配的情况下，在网络上自动检索(抓取)与所述药品数据相对应的药品说明书，并且将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中。该存储例如可以以经结构化处理的药品信息数据库中的药品名称、标准编号、批准文号中的一项或多项为数据库表中关键字。药品说明书数据主要取自：第三方数据提供商和网站开放的数据，或者也可以由人工零散地提取。

图2示意性示出了根据本发明另一种实施方式的用于对上市药品信息进行标准化的方法200的示意图。方法200中的步骤S210、S220、S230、S240和S250与方法100中的步骤S110、S120、S130、S140和S250相同，进一步包括步骤S242和S260。

在步骤242，判断匹配是否成功。在匹配成功的情形下，方法前进到步骤S250，在匹配不成功的情形下，方法前进到步骤S260。

在步骤S250，在成功匹配的情况下，在网络上自动检索(抓取)与所述药品数据相对应的药品说明书，并且将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中。该存储例如可以以经结构化处理的药品信息数据库中的药品名称、标准编号、批准文号中的一项或多项为关键字。

在步骤S260，在未能成功匹配的情况下，更新所述经结构化处理的药品标准数据。采集的药品数据和经结构化处理的药品标准数据未能匹配的原因主要是，采集的药品数据中的药品信息的名称与药品标准数据中的药品名称不能进行匹配，例如，药品信息的名称使用的是某个药品的别名，而该别名未收录在药品标准数据中的药品名称的信息中，也有可能是药品更名了，此时都需要更新经结构化处理的药品标准数据，例如再次从从药品标准中采集药品标准数据，例如访问或获取国家药品监督管理局或药典委员会等发布的公开药品标准数据。

根据本发明的实施方式，基于采集的药品标准数据，能够对图像格式或文本格式的药品标准数据进行格式化处理，结合需要实现的特殊功能，构建了能兼容中药和西药的通用数据模型，以此为基础完成了药品信息数据库的设计，构建了药品信息数据库。之后，可以将经结构化处理的药品标准数据存储在药品信息数据库中。

在数据库中，将中药饮片和化学成分抽象为“物质”。这样中西药包含的不同类型的组成药物都能兼容。中药饮片是指经过炮制处理而形成的供配方用的中药，其中可能包含中药国家标准的编码、炮制方法等信息。西药的化学成分包含化学分子式、CAS号等信息。数据库的包括的字段可以是物质的不同属性，包括但不限于唯一物质ID号、正式名称、别名、英文名、拼音、物质类型ID(表示是中药饮片还是化学成分)、父类物质ID等。

物质存在多个层次的含义，有的物质还可以细分为其他物质类型。如：“倍他米松”又分为“醋酸倍他米松”、“苯甲酸倍他米松”和“戊酸倍他米松”等；“黄连”又可细分为“雅莲”、“云莲”等。本公开针对这种情况进行设计，即增加了一个“父类物质ID”，这样在子类物质的记录中记录其父类物质的ID，能达到搜索更完整准确的目的。图3A示意性示出了根据本发明一种实施方式的数据库的表示物质的构成的示意图。如图3A所示，由于设置了父类物质ID，搜索“倍他米松”，可以把包含“醋酸倍他米松”的醋酸倍他米松搽剂和包含“戊酸倍他米松”的倍他米松乳膏都能检索出来。图3B示意性示出了根据本发明一种实施方式的能兼容中药和西药的通用数据模型的构建的示意图。如图3B所示，其示出了将药品标准进行结构化的过程。例如，药品标准包括药品标准标识(ID)、药品名称、配方ID和厂家ID，其中药品标准标识作为主关键字。配方ID链接到配方标准库，厂家ID链接到生产厂家库。图3B还示出了配方标准库和生产厂家库的标准化过程。

参考图4A，其示意性根据一种本发明实施方式对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据的方法400的示意图。

在步骤S410,对采集的药品标准数据的粗文本进行校对，得到标准数据的精校文本。校对可以由计算机辅助完成、或者由人工进行。

在步骤S420,从精校文本中提取与预设字段字段相对应的信息，形成经结构化处理的药品标准数据。预设字段例如可以是以下各项中的一项或多项：正式名称、别名、拼音名、英文名、药品类型标识、标准来源书籍、标准编号、处方、制法、性状、鉴别、检查、功能与主治、类别、用法与用量、规格、贮藏方法等。提取可以使用正则表达式方法。

正则表达式是由普通字符(例如字符a到z)以及特殊字符(称为“元字符”)组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

参考图4B和图4C，图4B示出了根据一个实施例的所采集的图片格式的药品标准数据，图4C示出了根据本发明一种实施方式的对图4B所示的图片格式的药品标准数据进行结构化处理后的药品标准数据的示意图。图4B所示的图片格式可以进行OCR文字识别转换文本格式，然后对其进行结构化处理，形成图4C所示的结构化处理后的数据。

在一个实施例中，在步骤S410之前，可以包括步骤：整理采集到的标准数据，其中如果是采集到的标准数据是图像格式，则对图像格式的标准数据进行OCR自动识别，得到标准数据的粗文本。

在一个实施例中，标准数据的精校文本的处方字段对应的信息是一段自由文本。参考图5A，其示意性根据本发明一个实施方式的对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据的方法500的示意图。药品信息最核心的数据是药物组成信息，也是方法500主要处理的对象。利用方法500，可以将处方的自由文本中的物质、剂量和单位这三个要素抽取出来，并利用物质术语表、剂量术语表和单位术语表来进行标准化。

在步骤S510，准备物质术语表、剂量术语表和单位术语表。将物质、计量和单位的规范术语的正式名称、别名等加入到用户词典(术语表)中，并且加入到分词算法包中。规范术语的获取可以包括，采集与药品相关的规范术语，所述规范术语包括规范的中药名称术语和化学成分术语的正式名称、别名。规范的中药及化学成分术语例如可以主要来自：《中华人民共和国药典》和/或国家标准化委员会制定的国家标准《GB/T 31774-2015中药编码规则及编码基本信息》。

在步骤S520，对处方的自由文本进行中文分词，识别出多个“物质-剂量-剂量单位”单元，例如“川芎(酒炒)-40-g”等。

在可选的步骤S530，对物质部分的词进行再匹配，看是否有炮制信息，如果有，则匹配对应的具有炮制信息的饮片；如“川芎(酒炒)”，可以得到“川芎”的炮制信息为“酒炒”，故匹配到“酒川芎”上。

在可选的步骤S540，对剂量部分进行验证，如果是可识别的数字，则采用，否则舍弃提醒用户。

在可选的步骤S550，对剂量单位部分进行转换。例如，统一转换为克。

进一步地，用户可以对自动识别的结果进行审核。

参考图5B，其示出了根据一个实施例的将处方的自由文本进行标准化的处理的示意图。由图可见，已经从药品金鹿丸的处方信息中识别出其中包括的多个“物质-剂量-剂量单位”单元。

在进一步的实施例中，在将采集的药品标准数据加入到所构建的结构化的药品信息数据库中时，还可以对剂型、厂家等信息进行标准化。可以先制定剂型和厂家等相关信息，制定成对应的标准表。然后，可以使用计算机通过字符模糊匹配等方法，结合人工校对，完成剂型等信息的标准化。参考图6A和图6B，图6A示出了根据一个实施例的剂型信息原始数据，图6B示出了对图6A所示的剂型信息原始数据进行结构化处理后的剂型术语的示意图。

根据本发明的各种实施方式，基于前述各种来源的各种数据的采集，采用了计算机自动搜索和可选地人工校对相结合的模式进行数据加工。根据药品的名称、厂家和/或批准文号等信息，在网络上自动检索获得说明书数据，其中图片格式优先，文本型的只作为参考。若发现不匹配，则检索并分析所采纳的药品标准是否进行了修订，采集的说明书信息是否已经失效等因素，进行修订或记录。

在进一步的实施例中，在前述步骤S150和前述步骤S250中，在所采集的药品数据在经结构化处理的药品标准数据成功匹配的情况下，进一步将所采集的药品说明书和经结构化处理的药品信息数据库中的对应条目进行第二匹配处理。只有在该第二匹配处理成功的情况下，才将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目。上述第二匹配处理是将经结构化处理的药品标准数据中的预设字段中的一项或多项字段与从药品说明书中提取的对应字段进行匹配，例如，可以是药品说明书和已构建的格式化的数据库二者之间的“物质-剂量-剂量单位”单元之间的比较和匹配。若再次发现不匹配，则检索并分析所采纳的药品标准是否进行了修订，采集的说明书信息是否已经失效等因素，进行修订或记录。

在第二方面，本公开还提供一种用于上市药品信息进行标准化的设备。如图7所示，其示意性示出了根据本发明实施方式的用于对上市药品信息进行标准化的设备700的示意图。该设备700包括：

药品标准采集装置710，用于从药品标准中采集药品标准数据。

结构化处理装置720，用于对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据。

药品数据采集装置730，用于在步骤S130，采集药品数据，所述药品数据可以包括药品名称和批准文号，还可以包括药品制造厂家。药品数据主要取自国家药品监督管理局的国产药品数据库，也可以由人工零散地提取。

匹配装置740，用于将所采集的药品数据在经结构化处理的药品标准数据中进行匹配。

药品说明书检索装置750，用于在成功匹配的情况下，在网络上自动检索(抓取)与所述药品数据相对应的药品说明书，并且将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中。

进一步地，设备700还可以包括：判断装置，用于判断匹配是否成功。还可以包括：更新装置，用于在未能成功匹配的情况下，更新所述经结构化处理的药品标准数据。判断装置，还用于在成功匹配的情况下，启动药品说明书检索装置，并且在未能成功匹配的情况下，启动更新装置。

在一个实施例中，结构化处理装置可以进一步包括：自动校对装置，用于对采集的药品标准数据的粗文本进行校对，得到标准数据的精校文本；以及提取装置，用于从精校文本中提取与预设字段字段相对应的信息，形成经结构化处理的药品标准数据。预设字段例如可以是以下各项中的一项或多项：正式名称、别名、拼音名、英文名、药品类型标识、标准来源书籍、标准编号、处方、制法、性状、鉴别、检查、功能与主治、类别、用法与用量、规格、贮藏方法。所述提取可以使用正则表达式方法。

在一个实施例中，结构化处理装置可以进一步包括：数据格式转换装置，用于整理采集到的标准数据，其中如果是采集到的标准数据是图像格式，则对图像格式的标准数据进行OCR自动识别，得到标准数据的粗文本。

进一步地，所述标准数据的精校文本的处方字段对应的信息是一段自由文本，所述结构化处理装置可以进一步包括：抽取模块，用于将所述自由文本中的物质、剂量和单位抽取出来，并利用物质术语表、剂量术语表和单位术语表来进行标准化，具体包括：准备模块，用于准备物质表、剂量表和单位表；以及分词模块，用于对所述自由文本进行中文分词，识别出多个“物质-剂量-剂量单位”单元。

进一步地，设备700可以进一步包括：用于对剂型、厂家等信息进行标准化的装置。

进一步地，药品说明书检索装置750还可以包括：第二匹配装置，用于将所采集的药品说明书和经结构化处理的药品信息数据库中的对应条目这二者中预设字段所对应的信息进行再次匹配，只有所述在此匹配成功的情况下，才将将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中；以及第二更新装置，用于在所述再次匹配失败的情形下，更新所述经结构化处理的药品标准数据。

应当理解，设备700中记载的每个装置或模块与参考图1、图2、图4A、5A描述的方法中的每个步骤相对应。由此，上文针对本发明各种实施方式的方法进行描述的操作和特征同样适用于设备700及其中包含的装置或模块，在此不再赘述。

还应当理解，设备700和其中包括的各种装置或模块可以利用各种方式来实现。例如，在某些实施方式中，设备700可以利用软件和/或固件模块来实现。此外，设备700也可以利用硬件模块来实现。现在已知或者将来开发的其他方式也是可行的，本发明的范围在此方面不受限制。

在第三方面，本公开还提供一种服务器，包括：存储器，被配置为存储程序代码；以及处理器，被配置为执行所述程序代码以执行根据前文所述的方法。

本领域技术人员容易理解，存储器和处理器可以在本地部署、或者远程地部署，可以利用软件和/或固件模块来实现，也可以利用硬件模块或者它们的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的装置和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的装置及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。这些都在本发明的保护范围内。

特别地，本发明的实施方式可以通过计算机程序产品的形式实现。例如，参考图1、图2、图4A、5A描述的方法可以通过计算机程序产品来实现。

在第四方面，本公开还提供一种计算机可读存储介质,包括存储于其上的计算机可执行指令，所述可执行指令在被处理器执行时执行根据前文所述的方法。

相比于现有技术中的直接基于药品说明书来进行上市药品信息标准化方法，根据据本发明实施方式的直接基于药品标准来进行数据标准化、并且辅助药品说明书进行核对来对对上市药品信息进行标准化的方法具有如下所述的一种或多种优势：

(1)相比于直接收集上市药品的说明书，收集药品标准的工作相对要小一些。

(2)药品说明书覆盖不全，而收集药品标准的渠道相对单一，但药品标准的覆盖相对更全。

(3)药品说明书具有滞后性，药品说明书是各个厂家基于药品标准来制定发布的，而且会随着标准修订而发布更新。相对而言，药品标准更为及时，在药品真正上市检索前就有可能检索到。

(4)药品说明书的格式多样(图片、文字)，在网站上较为分散地散布，而收集药品标准的渠道相对单一，格式相对规范。

(5)药品说明书中的药品信息不完整，而药品标准中除了保密的品种，信息一般都记录齐全。因此，通过直接收集药品标准，可以使得收集的信息更为全面。

(6)不同药品说明书容易出现冲突。对于同一个品种，不同时期的不同厂家发布的说明书可能会有冲突，此时就难以处理了。而直接使用标准就不会有这个问题。

应当注意，尽管在上文详细描述中提及了设备的若干装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置或模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个装置或模块的特征和功能可以进一步划分为由多个模块来具体化。

最后应说明的是：以上所述仅为本公开的较佳实施例而已，并不用于限制本公开，尽管参照前述实施例对本公开进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种对上市药品信息进行标准化的方法，其特征在于，包括：

从药品标准中采集药品标准数据；

对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据；

采集药品数据，所述药品数据包括药品名称和批准文号；

将所采集的药品数据在经结构化处理的药品标准数据中进行匹配；以及

在成功匹配的情况下，在网络上自动检索与所述药品数据相对应的药品说明书，并且将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中。

2.根据权利要求1所述的方法，其特征在于，所述对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据进一步包括：

对采集的药品标准数据的粗文本进行校对，得到标准数据的精校文本；以及

从精校文本中提取与以下各项中的一项或多项字段相对应的信息，形成经结构化处理的药品标准数据：正式名称、别名、拼音名、英文名、药品类型标识、标准来源书籍、标准编号、处方、制法、性状、鉴别、检查、功能与主治、类别、用法与用量、规格、贮藏方法，

其中所述提取使用正则表达式方法。

3.根据权利要求2所述的方法，其特征在于，所述对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据进一步包括：

整理采集到的药品标准数据，其中如果采集到的药品标准数据是图像格式，则对图像格式的药品标准数据进行OCR自动识别，得到药品标准数据的文本格式的粗文本。

4.根据权利要求2所述的方法，其特征在于，所述药品标准数据的精校文本的处方字段对应的信息是一段自由文本，所述对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据进一步包括：

将所述自由文本中的物质、剂量和单位抽取出来，并利用物质术语表、剂量术语表和单位术语表来进行标准化，具体包括：

准备物质表、剂量表和单位表；以及

对所述自由文本进行中文分词，识别出多个“物质-剂量-剂量单位”单元。

5.根据权利要求1-4中任一项所述的方法，其特征在于，还包括：

在未能成功匹配的情况下，更新所述经结构化处理的药品标准数据；和/或，

所述将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中进一步包括：将所采集的药品说明书和经结构化处理的药品信息数据库中的对应条目这二者中预设字段所对应的信息进行再次匹配，只有所述在此匹配成功的情况下，才将将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中，否则，更新所述经结构化处理的药品标准数据。

6.一种对上市药品信息进行标准化的设备，其特征在于，包括：

药品标准数据采集装置，用于从药品标准中采集药品标准数据；

结构化处理装置，用于对所采集的药品标准数据进行结构化处理来形成经结构化处理的药品标准数据；

药品数据采集装置，用于采集药品数据，所述药品数据包括药品名称和批准文号；

匹配装置，用于将所采集的药品数据在经结构化处理的药品标准数据中进行匹配；以及

药品说明书检索装置，用于在成功匹配的情况下，在网络上自动检索与所述药品数据相对应的药品说明书，并且将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中。

7.根据权利要求6所述的设备，其特征在于，所述结构化处理装置进一步包括：

自动校对装置，用于对采集的药品标准数据的粗文本进行校对，得到药品标准数据的精校文本；以及

提取装置，用于从精校文本中提取与以下各项中的一项或多项字段相对应的信息，形成经结构化处理的药品标准数据：正式名称、别名、拼音名、英文名、药品类型标识、标准来源书籍、标准编号、处方、制法、性状、鉴别、检查、功能与主治、类别、用法与用量、规格、贮藏方法，

其中所述提取使用正则表达式方法。

优选地，所述药品标准数据的精校文本的处方字段对应的信息是一段自由文本，所述结构化处理装置装置进一步包括：

抽取装置，用于将所述自由文本中的物质、剂量和单位抽取出来，并利用物质术语表、剂量术语表和单位术语表来进行标准化，具体包括：

准备模块，用于准备物质表、剂量表和单位表；

分词模块，用于对所述自由文本进行中文分词，识别出多个“物质-剂量-剂量单位”单元。

8.根据权利要求6或7所述的设备，其特征在于，所述结构化处理装置进一步包括：

更新装置，用于在未能成功匹配的情况下，更新所述经结构化处理的药品标准数据；和/或，

所述药品说明书检索装置还包括：第二匹配装置，用于将所采集的药品说明书和经结构化处理的药品信息数据库中的对应条目这二者中预设字段所对应的信息进行再次匹配，只有所述在此匹配成功的情况下，才将将所采集的药品数据和所采集的药品说明书相关联地存储在经结构化处理的药品信息数据库中的对应条目中；以及第二更新装置，用于在所述再次匹配失败的情形下，更新所述经结构化处理的药品标准数据。

9.一种服务器，其特征在于，包括：

存储器，被配置为存储程序代码，以及

处理器，被配置为执行所述程序代码以执行根据权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质,其特征在于，包括存储于其上的计算机可执行指令，所述可执行指令在被处理器执行时执行根据权利要求1-5中任一项所述的方法。