CN115398420A

CN115398420A - 制药过程

Info

Publication number: CN115398420A
Application number: CN202180031751.8A
Authority: CN
Inventors: J·沃纳; D·施拉普斯
Original assignee: Merck Patent GmbH
Current assignee: Merck Patent GmbH
Priority date: 2020-04-30
Filing date: 2021-04-29
Publication date: 2022-11-25
Also published as: EP4143698A1; JP2023523761A; US20230170099A1; IL297715A; WO2021219827A1; AU2021265189A1; DE102020002607A1; CA3181613A1

Abstract

本公开涉及一种用于消除分类信息系统的障碍的计算机实现的方法，并且公开了一种同质数据管理系统，其目的是使数据集成流水线化和自动化，以富集与制药产品的监管状态相关联的制药监管语义模型。

Description

制药过程

本公开涉及用于挖掘制药环境中的监管信息或数据的系统、方法和计算机可读介质。具体讲，本公开使得能够对各种各样的结构化或非结构化数据资源进行高效的数据处理和数据检索，以管理与产品的开发和监管批准有关的监管数据。

在受产品监管的市场中（例如健康护理环境），制药药品批准变得越来越困难。制药、生物技术和医疗设备公司面临着高产品开发成本、艰巨的竞争和广泛监管。用于获得监管审查和批准的规则和程序经常改变，监管机构或当局内的人员也是如此。同时，公司在获得快速的监管批准并保持产品符合要求方面面临着巨大的压力。

许多当今的产品需要监管批准或授权。例如，在新药可以上市之前，制药和生物技术公司必须获得来自监管机构（例如美国食品和药品管理局（FDA））的批准。这些公司可能具有监管事务法人部门来管理公司和与其应对的各个监管机构之间的所有通信。监管事务部门还必须与公司内的许多其他团体或部门（例如负责质量控制、研发以及销售和营销的团体或部门）一起工作，以确保以协调的方式满足监管要求。

监管事务部门必须管理的数据量可能是巨大的。实际上，监管事务法人部门经常负责受到全世界许多监管机构监管的许多产品。随着与这些机构的通信的持续发展，这些产品的监管数据量每年会呈指数增长。此外，公司和监管机构通常要求该监管数据保持容易地可用于权威检测和商业规划。

然而，监管数据通常遍布公司的各个位置。监管事务部门的人员必须经常使用许多个人手动系统来跟踪与他们负责的产品有关的数据。此外，对于特定产品，监管数据通常不容易被跟踪、访问或引用。在这样的环境中，定位与关键监管活动有关的集合信息是复杂且非常耗时的。

随着数据和信息的大小和复杂性的增长，知识管理需求也在增长。通常，在大型和小型企业中，较大的数据和信息部分以非结构化格式驻留，而不是以结构化格式驻留。为了解决跨分布的、不同的和异构的数据和信息源的数据和信息集成的需要，已经发展并研究了若干技术。另外，若干技术描述了链接非结构化数据与结构化数据。在链接非结构化数据与结构化数据的常规过程中，数据的各个部分被分类成静态和动态部分。标识数据的静态和动态部分的方面对于优化如查询时间的各种性能度量来说是有用的。

知识和数据的爆炸性增长超出了传统信息管理机制管理或甚至描述的能力。语义Web技术（例如本体）和新语言（例如OWL（Web本体语言）和RDF（资源描述框架））使得能够以先前不可能的细节和以人类和机器都可理解的方式来描述链接概念（例如健康、医学或工程）的描述。这些本体通常由主题专家小组（本体专家）创建，并且经常是可被公众获得的。

本体对准的需要起因于集成异构数据库的需要，异构数据库是独立开发的并且因此每个具有它们自己的数据词汇表。在涉及提供其自己本体的许多参与者的语义Web上下文中，本体匹配已经成为帮助异构资源互操作的关键地方。本体对准工具找到“语义上等效的”数据类别，例如“卡车”和“货运汽车”。这些类别不一定逻辑上相同。

此外，缺乏与制药监管过程相关的数据的本体分配具有不能实现无缝数据集成并且因此数据的质量显著降低的风险。

因此，从不同源上下文中检索相关的结构化或非结构化制药数据是针对数据分析工具的挑战。因此，具有允许高效检索结构化或非结构化数据以富集语义模型的系统和方法将是有利的。

因此，需要可以在制药产业中高效管理监管数据集成的系统、方法。此外，需要可以管理制药产业中的监管数据使得其可以以可跟踪方式被检索（例如，关于区域、特定产品或产品组、制造地点、监管等）的系统和方法。

本公开克服了现有技术中发现的上述限制。

本公开的技术可被用于基于本体匹配算法来挖掘数据。与这些挖掘的数据相关联的富集的注释和元数据可被用于增强数据分析工具，该数据分析工具包含了人工智能（AI）和机器学习（ML）算法，以用于分析富集的语义模型。

本公开的实施例涉及结构化和非结构化文本数据源的自动集成的方法、系统和计算机程序。

本公开提供了从具有不同格式的模板中可靠地提取结构化机器可读上下文数据的方法。此外，本公开涉及用于提取域特定数据以对用于术语增强的神经网络和机器学习方法中使用的语义模型进行富集的方法和装置。

还提供了使用受控词汇表来改进挖掘与制药监管过程相关的文本数据的方法和装置。本公开的方法可以与现有的受控词汇表和/或本体组合。此外，提供了包括程序的计算机可读介质，其在由计算机执行时，执行本公开的方法。本公开可以解决上面解决的技术问题和/或上面没有解决的其他技术问题。

本公开的方法可以用于例如构建标题21的可搜索资源，该标题21是联邦法规法典（21 CFR）的一部分，其链接到其他法规、指南和监管过程。本公开的方法可以单独使用或者与用于非结构化信息管理的已知算法（例如但不限于非结构化信息管理体系结构（UIMA）Apache Solr NLP算法等）组合使用。本公开的方法的使用案例可以在于例如从HealthLeven Seven（HL7）结构化产品标签（SPL）中的处方药品标签提取与药品不良反应（ADR）相关的信息。

另外的方面将在随后的描述中部分地阐述，并且部分地将从描述中显而易见，或者可以通过所呈现的示例性实施例的实践而获知。

根据本公开的示例性实施例的一个方面，提供了一种用于富集与制药产品的监管状态相关联的制药语义模型的制药监管语义模型富集系统，包括：数据准备单元，所述数据准备单元被配置成经由通信网络从多个发布的制药监管信息异构数据源访问源文件；计算机处理模块，所述计算机处理模块被配置成：根据预定的监管状态文件格式，选择经由数据准备单元而访问的所述源文件；基于预定的F1度量值并根据预定的本体匹配算法，从所选择的源文件中挖掘至少一个实体，其与用户输入查询匹配；提取包括与所挖掘实体相关联的本体相关互连监管元数据的至少一个数据组；将所述提取的数据组存储在数据存储单元中；将所提取的数据组链接到制药监管语义模型的一个或多个节点。

根据本公开的另一示例性实施例，制药监管语义模型富集系统还包括所述计算机处理模块，其被配置成基于预定的F1度量值并根据预定的本体匹配算法来挖掘多种语言中的所选择的源文件，其与用户输入查询匹配。

根据本公开的另一示例性实施例，制药监管语义模型富集系统还包括神经网络设备，所述神经网络设备具有至少两个层，用于基于经训练的本体匹配算法从所选择的源文件中挖掘至少一个实体，其与用户输入查询匹配。

根据本公开的另一示例性实施例，制药监管语义模型富集系统还包括所述计算机处理模块，其被配置成基于产品特征概述（SmPC）或化学和制造控制（CMC）文件格式来选择数据源文件。

根据本公开的另一示例性实施例，制药监管语义模型富集系统的所述数据准备单元可以被配置成经由通信网络从多个发布的制药监管异构数据源访问与组织管理服务（OMS）或参考管理服务（RMS）相关的源文件。

根据本公开的另一示例性实施例，提供了一种用于富集与制药产品的监管状态相关联的制药语义模型的制药监管语义模型富集方法，包括：经由通信网络从多个发布的制药监管信息异构数据源访问源文件；基于预定的监管格式从所述访问的数据源选择数据记录；基于预定的F1度量值并根据预定的本体匹配算法，从所选择的源文件中挖掘至少一个实体，其与用户输入查询匹配；提取包括与所挖掘实体相关联的本体相关互连监管元数据的至少一个数据组；将所述提取的数据组存储在数据存储单元中；将所提取的数据组链接到制药监管语义模型的一个或多个节点。

根据本公开的另一示例性实施例，制药监管语义模型富集方法还包括：基于预定的F1度量值并根据预定的本体匹配算法，从多种语言中的所选择的源文件中挖掘至少一个实体，其与用户输入查询匹配。

根据本公开的另一示例性实施例，制药监管语义模型富集方法还包括：基于具有至少两个层的神经网络上的经训练的本体匹配算法，从所选择的源文件中挖掘至少一个实体，其与用户输入查询匹配。

根据本公开的另一示例性实施例，制药监管语义模型富集方法还包括：基于产品特征概述（SmPC）或化学和制造控制（CMC）文件格式来选择数据源文件。

根据本公开的另一示例性实施例，制药监管语义模型富集方法还包括：经由通信网络从多个发布的制药监管信息异构数据源访问与组织管理服务（OMS）或参考管理服务（RMS）相关的源文件。

尽管上面列举了具体优点，但是各种实施例可以包括所列举的优点中的一些、不包括所列举的优点、或者包括所列举的优点中的全部。

在阅读了下面的附图和描述之后，其他技术优点对于本领域普通技术人员来说可以变得显而易见。

首先应当理解，尽管在附图中示出了并在下面描述了示例性实施例，但是也可以使用任何数量的技术来实现本公开的原理，无论当前已知的还是未知的。本公开决不应限于附图中所示和以下描述的示例性实现和技术。

在不脱离本公开的范围的情况下，可以对本文描述的系统和方法进行修改、添加或省略。例如，系统和方法的组件可以是集成的或分离的。此外，本文公开的系统和方法的操作可由更多、更少或其他组件来执行，并且所描述的方法可以包括更多、更少或其他步骤。另外，可以以任何合适的顺序执行步骤。如在本文档中所使用的，“每个”指的是一组中的每个成员或一组的子组中的每个成员。

附图说明

从下面结合附图对示例性实施例的描述中，这些和/或其他方面将变得显而易见并且更容易理解，其中：

图1是示出根据一个示例性实施例的制药监管语义模型富集系统（SMES）的概念图；

图2是用于描述根据一个示例性实施例的由制药监管语义模型富集系统（SMES）执行的计算步骤的示意图。

具体实施方式

现在将详细参考示例性实施例，其示例在附图中示出，其中，相同的标号始终表示相同的要素。在这点上，本示例性实施例可以具有不同的形式，并且不应被解释为局限于这里阐述的描述。因此，下面仅通过参考附图来描述示例性实施例，以解释各方面。如本文所使用的，术语“和/或”包括一个或多个相关联的所列项目的任何和所有组合。当在要素列表之前时，例如“至少一个”的表达修改整个要素列表，而不修改列表的单独要素。

在整个说明书中使用的术语“根据一些示例性实施例”或“根据一个示例性实施例”不必指同一示例性实施例。

本公开的一些示例性实施例可以由功能块配置和各种处理操作来表示。这些功能块中的一些或全部可以使用执行特定功能的各种数量的硬件和/或软件组件来实现。例如，本公开的功能块可以使用用于给定功能的一个或多个微处理器或电路来实现。此外，例如，本公开的功能块可以以各种编程或脚本语言来实现。功能块可以用在一个或多个处理器上运行的算法来实现。本公开还可以采用用于电子配置、信号处理和/或数据处理的常规技术。术语“机构”、“元件”、“单元”和“配置”可以在广义上使用，并且不限于机械和物理配置，并且可以以硬件、固件、软件和/或其组合来实现。

而且，附图中所示的组件之间的连接线或连接构件仅是功能连接和/或物理或电路连接的说明。在实际的设备中，组件之间的连接可以由可以被替换或添加的各种功能连接、物理连接或电路连接来表示。

同时，关于本文所使用的术语，模板可以指具有不同文件扩展名的任何可执行或不可执行文件格式。模板还可以指物理或虚拟文档的任何图像表示（如网页或扫描图像），或者可以从中获得关于（一个或多个）化学结构的数字化信息的任何其他虚拟实体。模板的图像表示可以包括物理或虚拟文档的（一个或多个）部分段的全部。模板还可以包括与监管指南兼容的标准交换文件格式，例如但不限于产品特征概述（SmPC）或化学、制造和控制（CMC）监管事务（RA）等。

此外，本体可以指词汇表和在描述制药监管过程的词汇表中使用的术语的含义的规范。例如但不限于，本体可以包括用于描述在SmPC或化学、制造和控制（CMC）模块3中的信息的描述符。这可以包括例如药物产品的名称、定性和定量的组成、制药形式、临床细节（例如剂量学和给药方法、禁忌症、用药过量、不合期望的效果等）、药理学属性（例如药效学或药代动力学属性）、或制药细节（例如保存期限、容器的性质和内容物等）。

另外，异构数据源可以指但不限于包括结构化、半结构化和非结构化数据源的数据源。结构化数据是遵守预定义数据模型并因此直接分析的数据。结构化数据符合具有不同行和列之间的关系的表格格式。结构化数据的常见示例是Excel文件或SQL数据库。这些中的每一个都具有可以被分类的结构化行和列。非结构化数据是不具有预定义数据模型或不以预定义方式组织的信息。非结构化信息通常是重文本型的，但也可以包含例如日期、数字和事实之类的数据。这导致不规则和模糊，与存储在结构化数据库中的数据相比，使得使用传统程序难以理解。非结构化数据的常见示例包括音频、视频文件或No-SQL数据库。半结构化数据是不符合与关系数据库或其他形式的数据表相关联的数据模型的形式结构的结构化数据的形式，但是包含标签或其他标记以分离语义元素并强制数据内的记录和字段的层次。元数据是关于数据的一种数据。它不是单独的数据结构，并且提供关于如上列出的任何类别的一组特定数据的附加信息。

此外，挖掘可以指分析大量数据以便发现模式或基于参数值或属性从大量数据中选择数据。它还可以是试图从大数据组中获得更细化的数据组的过程。

另外，术语“含义”旨在表示特定本体术语、内容字段名等的语义解释。因此，术语含义包括本体术语或内容字段的预期含义，例如，以计及例如同音异义词、同义词、部分词等问题，如将在下面更详细描述的。

另外，术语匹配可以指本体匹配。在技术术语中，它是使用本体匹配算法在两个本体（例如用户输入查询和挖掘实体）之间的语义映射。术语实体可以指基于用户的输入查询的语义映射本体。

此外，术语链接可指语义模型和与挖掘实体相关联的元数据之间的链接的创建。它创建了允许重新使用现有知识的链接数据范例。链接数据标准可被应用于元数据，例如用于元数据的资源描述框架（RDF）。因此，通过利用现有词汇表而链接的数据可以用于增强现有语义模型。

为了在以下描述中说明的目的，术语“源”用于指一种数据存储，例如从中提取数据的数据库或文件，而术语“目标”也用于指一种数据存储，例如向其中存储数据的数据库或文件。这些术语仅用于说明的目的，例如，用于区分可能的源和目标之间，而不是旨在是限制性的。

术语“内容实例”指的是从源提取和/或传送到目标的单个内容片段，并且也不旨在是限制性的。例如，术语内容实例可以指具有存储在多个不同数据库字段中的值的数据库记录、或者一组相关的数据库记录，或者可以替换地指存储在单个字段内的单个值。

此外，域可以指与监管过程相关的指南中的任何层次分类，例如但不限于产品特性概述（SmPC）或化学、制造和控制（CMC）监管事务（RA）等。

另外，规则集可以指通过找到本体的语义相关实体之间的对应关系来匹配本体。这减小了相同域的不同重叠表示之间的语义间隙。这些对应关系可被用于各种任务，例如本体合并、查询应答或数据翻译。因此，匹配本体使得关于匹配本体而表达的知识和数据能够互操作。本公开的方法可以与任何已知的本体匹配算法（例如但不限于基于正式或非正式资源的、基于字符串的、基于语言的、基于约束的、基于分类的、基于草案的、基于实例的、或基于模型的等）一起使用。

另外，人工神经网络（ANN）可以指完全或部分连接单元的集合，包括将输入数据转换为输出数据的信息。

此外，机器学习（ML）可以指使用分类器的基于ML的本体对准系统，所述分类器使用例如但不限于支持向量机（SVM）、K最近邻（KNN）、决策树（DT）、AdaBoost等技术。

另外，度量测量可以指用于评估基于本体的信息提取的度量。本公开可以与不同类型的度量组合，例如但不限于基于成本的评估度量、测量本体填充得有多好的学习准确性度量、增强的精度和回索率度量、或使用精度、回索率度量的F1度量。其中，精度测量正确标识项目的数量作为标识项目数量的百分比，并且回索率测量正确标识项目的数量作为正确项目总数的百分比。

此外，结构化数据是指具有任何种类信息的数据，其作为元数据被加到原始数据中以便对原始数据的部分进行分组，从而促进所得信息的自动下游处理。

在下文中，将参考附图详细描述本公开的示例性实施例。

现在将参考图1描述用于从例如发布的制药监管数据库等之类的外部数据库富集制药监管语义模型的过程的示例。

图1描绘了示出制药监管语义模型富集系统（SMES）10的示例的示例性过程。SMES10包括网络接口（未示出）、数据准备单元（DP）15、数据存储单元（DI）16、计算机处理模块17、数据管理器和集成器单元（DC）（未示出）、用户界面（未示出）、以及用于监管过程19的语义模型。

制药监管语义模型富集系统（SMES）10经由网络接口14与外部数据源连接，所述外部数据源比如是外部数据库12、基于云的服务13、web资源11。

SMES 10通过直观用户界面（UI）（图1中未示出）来控制，通过所述直观用户界面（UI），用户编写和提交查询；查看找到的信息；选择报告偏好；并输出（例如打印）报告。用户被标识，并且在请求经由分配的用户密码和标识符访问SMES 10时，通过安全系统对他们的访问进行认证。标识符定义了用户的访问级别和他们具有访问权限的信息类型。例如，用户可能仅对访问与医疗设备有关的监管信息感兴趣。因此，其他监管信息类别（即，制药或环境危害）将不是可访问的。

SMES 10可以从多个异构信息源访问源文件，每个异构信息源可以具有不同的信息类型（例如，不同的文件、每个文件的不同记录、每个记录内的不同字段等）。从公共网站11提取一些信息类型，其中，该信息可以驻留在网页的文本内或者在可下载的文件中。例如，欧洲药品管理局（EMA）发布了关于人类或兽类药物（制药产品）在其生命周期的各个阶段的信息，从早期开发到初步评估到授权后改变、安全性审查和授权撤回。同样作为示例，用于医疗设备的不良事件报告通常包含在可下载的文件中，该文件可以被导入到数据库中并且可以从MedDRA（用于监管活动的医疗词典）中获得。

每个被访问的数据源都具有其自己的用于呈现数据的特征和样式。因此，来自每个源的数据都具有定义的规则集和用于在数据准备单元DP 15内转换的方案。所访问的数据记录中的每个信息类型都可以被转换成适于导入到电子数据库中的一致数字格式。例如，检索的数据可以采用便携数据格式（.PDF）或采用标签分隔文本格式。在网页上发布的表格被提取、分解成指定的数据字段，并被转换成电子表或转换成标签分隔文本。在数据提取步骤之前完成所访问的数据记录的适当转换。

数据准备单元DP 15还对数据不一致性进行数据校正，以允许合并和集成来自多个源的数据。从信息源获得的数据组中可能存在错误。例如，药品临床试验的临床调查员的数据列表可以包括以序列“YYY”开始的多个列表。如果该数据没有被校正，则针对“ManuelSchmidt”的搜索将不会识别针对“Manuel YYYSchmidt”的记录。可以由软件和/或硬件来提供用于标识这种错误并校正它们的装置，例如一个或多个预定过滤器。当发现新的差异时，该系统和方法可以加入、改变或删除一个或多个预定过滤器，以便标识差异并且在标识出差异时校正它们。

随着时间的推移，信息源可以改变信息被收集和/或报告的方式。例如，信息源正在日益不断地将其频繁使用的信息（例如，不良事件报告或企业注册）经由web接口转换成可搜索的格式。SMES 10包括内部检查，其检测发生的改变以便适当地调整数据访问频率。

术语上的不一致性可能会跨越异构信息源（例如，不同的数据源），这可能是由于每个数据源是在考虑到与其他数据源的不同而特定使用情况下创建的。然后，在数据管理和集成18之前必须对这些数据进行归一化。随着监管要求的改变，整个信息方案都可改变。SMES 10检测并允许补偿这些改变。

计算机处理模块17基于用户的输入或输入查询列表，通过对所访问的数据源执行本体匹配来挖掘实体。该返回可以返回来自所访问的数据源的本体匹配的数据记录。或者，还有来自所访问的数据源的匹配数据记录的数据组也可由本公开的制药监管语义模型富集系统（SMES）10提取。

根据本示例的计算机处理模块17通过考虑所访问的数据记录的元素与其元数据元素之间的关系来实现语义匹配，以增强本体匹配的范围。

计算机处理模块17可试图将搜索结果的范围扩展到例如包含表格、图表、报告、示意图、过滤的图表/表格、以及类似元素的电子表文档之类的规章状态文档。这些元素中的一些可以由与电子表文档相关联的电子表应用之外的应用生成，并且静态地或动态地（即，元素数据驻留在外部源处）嵌入到电子表文档中。所访问的数据源中的示例性电子表文档可以包括文本报告、表格、图表和视频数据（演示）。文本报告包括到各个非文本元素的链接。此外，表格和图表可以相关联（例如，表格中的数据的一部分可以显示在图表中）。其他关系也是可能的。

计算机处理模块17可以提取包含监管状态相关信息的细节的元数据。例如，所访问的数据记录中的电子表文档可以包括多个表格过滤表。每个过滤表可以包括各种过滤器。电子表文档还可以包括基于存储在电子表文档中和/或存储在外部资源（例如，另一电子表文档、数据存储等）处的数据的示意图和/或图表。可以基于根据过滤表中的一个或多个过滤器过滤数据来生成图表和/或示意图。因此，电子表文档中的元素可能不反映可用数据的整个范围。此外，元素之间（例如，表格与图表、视频数据与表格等之间）的关系可能在确定所检索数据的重要性或相关性以及动态地驱动搜索客户端用户界面和结果显示方面对用户是有用的。

由于电子表文档中的数据可能是有限的（例如，从外部数据源处的可用数据中过滤），所以计算机处理模块17可以从数据源检索附加信息以富集搜索结果。例如，可以从数据源处的数据中检索所应用的过滤器组件之外的附加维度组件。还可以检索所存储数据的尺寸、层次和度量信息。因此，详细的元数据和数据组可以以结构和有意义的方式被提取，并且被用于将搜索结果的范围限制到监管状态相关文档中，并且动态地驱动呈现应用的结果内容显示中的改变。

虽然该示例专用于从关系数据库中选择数据记录，但是应当理解，类似的概念也可以应用于其他数据结构或非结构化数据源，并且该示例仅用于说明的目的而不旨在是限制性的。

所提取的数据记录和/或数据组可被存储在本地数据存储单元16中，以便进一步处理和随后使用。

计算机处理模块17的输出被输入到数据管理器和集成器单元（DC）。DC对都包括关联元数据的提取的数据记录或数据组执行质量检查，并将提取的信息在语义上链接到制药监管语义模型的一个或多个节点。因此，富集了制药监管语义模型。

现在将描述由计算机处理模块17使用本体匹配算法执行的基于F-度量值的提取的示例。

F得分是算法保真度的度量，并且可以基于本体比较算法精度和回索率来计算。精度是准确性或保真度的度量，而回索率是完整性的度量。精度和回索率可以是基于概念字符串关联的真阳性（tp）、真阴性（tn）、假阳性（fp）和假阴性（fn）。精度可以基于以下等式：

精度=tp/（tp+fp）

回索率可以基于以下等式：

回索率=tp/（tp+fn）

在上述实施例中，F1得分值越接近1.0，精度和回索率的程度就都越高。以下等式可用于计算F1得分值：

F1-得分值=2*（精度*回索率）/（精度+回索率）

制药监管语义模型富集系统（SMES）使用受控词汇表来执行挖掘，并且源文件中的实体是基于0.95至1之间的F1得分来挖掘的。

图2描绘了用于富集与制药产品的监管状态相关联的制药监管语义模型的示例性方法步骤。

在步骤S201中，数据准备单元15经由通信网络从多个已发布的制药监管信息异构数据源访问源文件。数据可以从各种源访问，所述源比如是外部数据库12、基于云的服务13、web资源11。数据可以通过数据库连接来访问，该数据库连接允许制药监管语义模型富集系统（SMES）与数据库服务器软件对话。应用驱动器可以与SMES一起使用，其中，连接到数据库或云服务等所需的信息被包括在SMES中，其提示用户在建立连接之前进行认证。或者，实例合并模块可以用于创建用于建立连接的实例环境。SMES可以包括用于通过web访问数据服务器的套接字等。

在步骤S202中，计算机处理模块17根据预定的监管状态文件格式来选择源文件。这可以通过在数据源上创建过滤器来执行，从而减少从数据源中可用的数据中选择的数据量。例如，具有类似于Angular和ReactJS框架的Javascript/jQuery Grid可被用于选择符合预定的监管状态文件格式的源文件。

在步骤S203，本体匹配算法基于预定的F1度量值来挖掘与用户输入查询匹配的实体。通常，F1测量值被选择为尽可能接近1。可以使用本体匹配算法，例如但不限于基于正式或非正式资源的、基于字符串的、基于语言的、基于约束的、基于分类的、基于草案的、基于实例的或基于模型的等。

在步骤S204中，计算机处理模块17提取包括与所挖掘的实体相关联的元数据的数据组。这可以使用web刮擦工具或类似文档解析或令牌化的技术来实现。或者，也可以使用如命名实体识别的技术来从文本中标识如药品含量、剂量、疾病等的重要名称。在步骤204中，SMES可以使用基于训练的方法/辞典和语法基础的命名实体识别。此外，如条件随机字段或隐马尔可夫模型的序列标记方法可用于基于训练的方法。语义解析可以用于分析文本中的不同句法和语义方面，并连接非结构化数据中存在的不同词语。对于本领域技术人员来说显然的是，该步骤也可以用独立的数据提取工具结合SMES 10来实现。

在步骤S205a（未示出），提取的数据组可被本地存储以便重新使用。或者，所提取的数据组也可以直接用于链接包括元数据的数据组，其用于富集与制药产品的监管状态相关联的制药监管语义模型。

在步骤S205中，根据本公开的系统链接包括元数据的所提取的数据组，该元数据用于富集与制药产品的监管状态相关联的制药监管语义模型。其可以通过创建语义模型和与所挖掘的实体相关联的元数据之间的链接来实现。链接的数据标准可被应用于元数据，例如用于元数据的资源描述框架（RDF）。链接可以使用HTML锚来建立。

根据本公开的制药监管语义模型富集系统（SMES）的示例可以采用语言感知本体匹配。语言感知或多语言匹配作为一种类型的本体匹配，其中，制药监管语义模型富集系统（SMES）可以匹配以多种语言表达的本体。根据本公开的该示例的制药监管语义模型富集系统包括作为背景知识主要源的可扩展多语言知识库和可扩展到新语言的多语言标签处理器。背景知识是包含用于所支持的每种语言的词汇数据库（即词汇网络）的知识库、用作国际语的概念的语言独立本体。标签处理包括语言感知标签解析步骤。标签解析是针对轻量本体标签的语言而优化的多语言自然语言处理任务，并且可通过语言特定的NLP组件来扩展。标签解析由以下子步骤组成：（a）使每个输入树的语言显式的语言检测，以及使用句法NLP技术（其部分地一般化并且部分地适于所支持的每种语言）来解析标签的公式结构的计算、将标签中的有意义词语形式化为语言无关概念的原子概念的计算。

因此，多语言源文件可以被挖掘并且可以用于富集制药监管语义模型。

根据本公开的另一示例，制药监管语义模型富集系统（SMES）可以包括监督或非监督机器学习设备。

机器学习设备分两个阶段操作：（i）学习或训练阶段和（ii）分类或匹配阶段。在学习阶段期间，例如通过手动匹配两个本体来创建用于学习过程的训练，使得系统从该数据中学习匹配器（经训练的本体匹配算法）。在匹配阶段的分类期间，使用经学习的本体匹配算法从外部源文件挖掘相关元数据。将所挖掘的数据组的准确性反馈到系统以用于进一步改进。

因此，富集了语义模型。

此外，上述示例可以以包括可由计算机执行的指令的记录介质的形式来实现，例如由计算机执行的程序模块。计算机可读介质可以是可由计算机访问的任何记录介质，并且可以包括易失性和非易失性介质以及可移动和不可移动介质。计算机可读介质可以包括存储一个或多个指令的非暂时性计算机可读介质，所述一个或多个指令在由一个或多个处理器执行时，使得一个或多个处理器执行与本文描述的示例性实施例相关联的操作。此外，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括使用任何方法或技术实现的易失性和非易失性以及可移动和不可移动介质，以存储例如计算机可读指令、数据结构、程序模块或其他数据之类的信息。通信介质包括计算机可读指令、数据结构、程序模块、或调制数据信号或其他传输机制中的其他数据，并包括任何传送介质。

另外，在整个说明书中，术语“系统”可以是例如微处理器或电路之类的硬件组件和/或由例如FGPA之类的硬件组件执行的软件组件。

本公开的上述描述是为了说明的目的而提供的，并且本领域技术人员应当理解，在不改变本公开的技术构思和必要特征的情况下，可以进行各种改变和修改。因此，很明显，上述说明性示例性实施例在所有方面都是说明性的，并且不限制本公开。例如，被描述为单个类型的每个组件可以以分布式方式实现。同样，被描述为分布式的组件可以以组合的方式实现。

应当理解，这里描述的示例性实施例应当被认为仅是描述性意义的，而不是为了限制的目的。每个示例性实施例内的特征或方面的描述通常应当被认为可用于其他示例性实施例中的其他类似特征或方面。

尽管已经参照附图描述了一个或多个示例性实施例，但是本领域普通技术人员应当理解，在不脱离所附权利要求所限定的精神和范围的情况下，可以在形式和细节上对其进行各种改变。

Claims

1.一种用于富集与制药产品的监管状态相关联的语义模型的制药监管制药监管语义模型富集系统，包括：

数据准备单元，所述数据准备单元被配置成经由通信网络从多个发布的制药监管信息异构数据源访问源文件；

计算机处理模块，所述计算机处理模块被配置成：

根据预定的监管状态文件格式，选择经由数据准备单元而访问的所述源文件；

基于预定的F1度量值并根据预定的本体匹配算法，从所选择的源文件中挖掘至少一个实体，其与用户输入查询匹配；

提取包括关于所挖掘实体的本体相关互连监管元数据的至少一个数据组；

将所述提取的数据组存储在数据存储单元中；

将所提取的数据组链接到制药监管语义模型的一个或多个节点。

2.根据权利要求1所述的系统，还包括所述计算机处理模块，其被配置成基于预定的F1度量值并根据预定的本体匹配算法来挖掘多种语言中的所选择的源文件，其与用户输入查询匹配。

3.根据权利要求1或2所述的系统，还包括神经网络设备，所述神经网络设备具有至少两个层，用于基于经训练的本体匹配算法从所选择的源文件中挖掘至少一个实体，其与用户输入查询匹配。

4.根据权利要求1至3中任一项所述的系统，还包括所述计算机处理模块，其被配置成基于产品特征概述（SmPC）或化学和制造控制（CMC）文件格式来选择数据源文件。

5.根据权利要求1至4中任一项所述的系统，其中，所述数据准备单元被配置成经由通信网络从多个发布的制药监管异构数据源访问与组织管理服务（OMS）或参考管理服务（RMS）相关的源文件。

6.一种用于富集与制药产品的监管状态相关联的语义模型的制药监管语义模型富集方法，包括：

经由通信网络从多个发布的制药监管信息异构数据源访问源文件；

基于预定的监管格式从所述访问的数据源选择数据记录；

将所述提取的数据组存储在数据存储单元中；

7.根据权利要求6所述的方法，还包括：基于预定的F1度量值并根据预定的本体匹配算法，从多种语言中的所选择的源文件中挖掘至少一个实体，其与用户输入查询匹配。

8.根据权利要求6或7所述的方法，还包括：基于具有至少两个层的神经网络上的经训练的本体匹配算法，从所选择的源文件中挖掘至少一个实体，其与用户输入查询匹配。

9.根据权利要求6至8中任一项所述的方法，还包括：基于产品特征概述（SmPC）或化学和制造控制（CMC）文件格式来选择数据源文件。

10.根据权利要求6至9中任一项所述的方法，还包括：经由通信网络从多个发布的制药监管信息异构数据源访问与组织管理服务（OMS）或参考管理服务（RMS）相关的源文件。

11.一种包括指令的计算机可读介质，所述指令在由计算机执行时使所述计算机执行根据权利要求6至10中任一项所述的方法的步骤。

12.一种包括指令的计算机程序，所述指令在所述程序由计算机执行时，使所述计算机执行根据权利要求6至10中任一项所述的方法的步骤。