CN109844733A - 针对不利药物事件根据社交媒体和生物医学文献的知识发现 - Google Patents
针对不利药物事件根据社交媒体和生物医学文献的知识发现 Download PDFInfo
- Publication number
- CN109844733A CN109844733A CN201780064428.4A CN201780064428A CN109844733A CN 109844733 A CN109844733 A CN 109844733A CN 201780064428 A CN201780064428 A CN 201780064428A CN 109844733 A CN109844733 A CN 109844733A
- Authority
- CN
- China
- Prior art keywords
- ade
- report
- drug
- monitoring
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 claims abstract description 139
- 229940079593 drug Drugs 0.000 claims abstract description 113
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012544 monitoring process Methods 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 24
- 230000008901 benefit Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000002411 adverse Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000001766 physiological effect Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 229910002056 binary alloy Inorganic materials 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000474 nursing effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 206010061623 Adverse drug reaction Diseases 0.000 description 2
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 206010012735 Diarrhoea Diseases 0.000 description 1
- 206010013710 Drug interaction Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 206010036018 Pollakiuria Diseases 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004596 appetite loss Effects 0.000 description 1
- 206010003119 arrhythmia Diseases 0.000 description 1
- 230000006793 arrhythmia Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 201000010235 heart cancer Diseases 0.000 description 1
- 208000024348 heart neoplasm Diseases 0.000 description 1
- 230000000147 hypnotic effect Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 235000021266 loss of appetite Nutrition 0.000 description 1
- 208000019017 loss of appetite Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 239000000955 prescription drug Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 229940001470 psychoactive drug Drugs 0.000 description 1
- 239000004089 psychotropic agent Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 150000003431 steroids Chemical class 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
在不利药物事件(ADE)监视和报告中,检测在一个或多个社交媒体消息流中的药物相关消息(60)作为包括受监视药物的名称的消息。使用ADE分类器(46)从所述药物相关消息中提取ADE报告(62)。通过与存储在ADE知识库(64)中的受监视药物的已知ADE进行比较,来验证所提取的ADE报告。在未经验证的ADE报告数据库(72)中收集未通过验证的提取的ADE报告。生成包括关于至少一个先前未识别的ADE的信息的报告(74),针对所述至少一个先前未识别的ADE,在所述未经验证的ADE报告数据库中的提取的ADE报告满足先前未识别的ADE标准(就消息数量或者报告ADE的独特患者的数量而言)。
Description
技术领域
下文总体涉及制药领域、制药测试领域、药物警戒领域以及相关领域。
背景技术
在美国,针对新的制药的批准过程包括评估药物对其预期用途的功效,以及评估副作用(更一般而言,“不利药物事件”或ADE)。这些评估是通过对照临床试验来完成的。这些研究采用相对较小的测试群体,这会限制在临床试验期间发现所有ADE的能力。为解决该问题,制药和监管机构采用上市后监督计划,以通过监视在更大的患者群体中对药物的使用来捕捉先前未发现的副作用。
然而,上市后ADE监管系统在数据处理中遭受报告不足和显著的时间延迟,导致与药品使用相关的未识别的不利事件的高发生率。报告不足是主要依赖于患者、医生或医学机构的自我报告的结果。这种自我报告是这些个人和机构的次要任务,其主要关注点是患者的福利。对于医生而言,通常忙于患者(和其他患者)的福利以至于他们忘记自我报告。许多机构没有一致或既定的自我报告流程。通常在没有补偿或任何期望的补偿的情况下提供自我报告,并且因此,患者、医生或机构没有强烈的动机来自我报告。
针对药物警戒的类似方法通常也被用于美国以外的国家。
发明内容
在一个公开的方面中,一种不利药物事件(ADE)监视和报告设备,包括:计算机,其被编程为执行ADE监视和报告方法,所述方法包括:检测在一个或多个社交媒体消息流中的药物相关消息作为包括受监视药物的名称的消息;使用ADE分类器从所述药物相关消息中提取ADE报告;通过与存储在ADE知识库中的受监视药物的已知ADE进行比较来验证所提取的ADE报告;在未经验证的ADE报告数据库中收集未通过验证的所提取的ADE报告;并且生成包括关于至少一个先前未识别的ADE的信息的报告,针对所述至少一个先前未识别的ADE,在所述未经验证的ADE报告数据库中的提取的ADE报告满足先前未识别的ADE标准。
在另一公开的方面中,一种非瞬态存储介质,存储由计算机可读且可运行以针对具有已知ADE的集合的受监视药物执行ADE监视和报告方法的指令。所述方法包括:识别在一个或多个社交媒体消息流中的药物相关消息,其中,每条药物相关消息包括受监视药物的名称;通过使用从所述药物相关消息中提取的n元语法(n-grams)作为ADE分类器的特征对所述药物相关消息进行分类,从所述药物相关消息中提取ADE报告;并且响应于指示先前未识别的ADE的提取的ADE报告的累积,识别不在针对所述受监视药物的已知ADE的集合中的先前未识别的ADE。
在另一公开的方面中,一种针对受监视药物执行的ADE监视和报告方法。所述方法包括:识别包括受监视药物的名称的药物相关消息;通过使用ADE分类器对所述药物相关消息的文本进行分类,从所识别的ADE报告消息中提取ADE报告;并且输出关于所提取的ADE报告的报告。
一个优点在于提供了对先前未识别的不利药物事件(ADE)的经改进的发现。
另一优点在于提供了对先前未识别的ADE的快速发现。
另一优点在于提供了了关于与药物相关的各种ADE的相对出现频率的信息。
给定实施例可以不提供前述优点或者提供前述优点中的一个、两个、更多或全部优点,和/或可以提供其他优点,这对于本领域普通技术人员在阅读和理解本公开内容后将变得显而易见。
附图说明
本发明可以采取各种部件和部件布置以及各种步骤和步骤安排的形式。附图仅仅用于说明优选实施例的目的,而不应当被解释为限制本发明。
图1示意性示出了提供不利药物事件(ADE)监视和报告的示例性药物警戒设备。
图2和图3分别示意性示出了通过由图1的药物警戒设备所采用的卷积神经网络(CNN)的前向传播和后向传播。
图4示意性示出了由图1的设备适当地执行的ADE监视和报告方法。
具体实施方式
诸如Twitter和Facebook的社交媒体消息流被全世界的许多人用于交流其日常生活中的事件。在社交媒体话语的过程中,用户可能发送抱怨或者以其他方式讨论社交媒体用户所经历的不利药物事件(ADE)的消息。实际上,患者可能发送关于ADE的社交媒体消息,因为其每天都使用这些服务;相比之下,许多患者并不知道可用于提交“官方”ADE报告的报告选项,即使在其知道报告选项的情况下,也可能不会花费时间和精力来制作此类官方报告。
在本文中所公开的ADE监视和报告方法中,监视实时社交媒体消息以检测ADE报告消息,例如,特别提到所述受监视药物的ADE报告消息。通过与所述受监视药物相关联的已知ADE的知识库进行比较来验证所检测到的ADE报告消息。收集不能够如此被验证的ADE报告消息(因为根据知识库不知道所报告的ADE与所述受监视药物相关联),并且如果累积了足够这样的报告,则将其报告为先前未识别的ADE。在一些说明性实施例中,自然语言处理(NLP)和深度学习(DL)算法被用于检测社交媒体消息中的ADE。
用于验证从社交媒体消息中提取的ADE报告的知识库可以根据在线医学知识源生成,诸如PubMed文章、药理学文本和药物处方集、食品和药物管理局(FDA)不利事件数据库以及来自公开可访问源(诸如WebMD或健康热线)的药物副作用信息。所述方法能够导致快速发现先前未被识别的ADE,以用于在临床试验中以及通过其他类型的上市后监督未被检测到的受监视药物。
如在本文中所使用的,“患者”是接收(或者登记以接收)医学护理的人,所述医学护理包括服用所述受监视药物和/或对所述受监视药物开处方。在本文中所使用的术语“患者”不受其他限制,例如不限于医院患者、住院患者、诊断患有任何特定疾病的患者、在特定医生护理下的患者,“患者”也不限于服用处方药物(即,所述受监视药物可以是非处方药或“自买”药物)的患者。
如在本文中所使用的“药物”指示当摄入或者以其他方式施予给患者时具有或意图具有某种期望的生理效应的药物或其他物质。所期望的“生理效应”例如可以是:减轻疼痛、处置感染或疾病、减少肿胀、诱导睡眠等。在某些情况下,所期望的“生理效应”可以包括心理效应,即药物可以是精神活性药物。在一些情况下,所期望的生理效应可能对患者是不愉快的,例如,出于临床上有益的目的而诱导呕吐,并且如果药物的目的是诱发令人不快的效果,则其不是ADE。
如在本文中所使用的术语“不利药物事件”或ADE涵盖药物的不同于所期望的生理效应的任何效果,并且其可能以某种方式对患者有害和/或对于患者是不愉快的或不期望的。通过非限制性说明性范例,ADE可包括:疼痛、不适等;呼吸困难;心律失常;心理影响,诸如幻觉、抑郁、自杀倾向等;生活方式的影响,诸如排尿频率增加、腹泻或睡眠困难;发病率的影响,诸如心脏病发作、癌症或其他疾病的可能性增加;不利药物相互作用,即,前述的任意内容与服用受监视药物和特定的第二种药物两者相关;等等。
在本文中所使用的术语“先前未被识别的ADE”是在受监视药物的背景下的——亦即,所述ADE先前未被识别为所述受监视药物的潜在不利影响,但是其可能是针对某些其他一种或多种药物的已知ADE。此外,在本文中所公开的ADE监视和报告设备的背景下,“先前未识别的ADE”更具体是这样的ADE:其未包含在被存储在由ADE监视和报告设备利用的ADE知识库中的针对受监视药物的已知ADE的集合中。因此,“先前未识别的ADE”实际上可能被(一个或多个)某些人(例如,由与操作ADE监视和报告设备的制药公司没有沟通的一些医师)认为与所述受监视药物相关联——但是“先前未识别的ADE”不是对于所述ADE监视和报告设备已知的已知ADE中的一个ADE。
如在本文中所使用的“社交媒体消息流”是基于互联网的服务,其使得用户能够创建和共享内容并且由此彼此交互。通常为用户分配由用户名标识的用户账户(可以是虚构的或者非个人标识的),并且用户账户可以受密码保护或者以其他方式来保护。社交媒体消息流通常是公共的,但是能够以各种方式来限制访问,例如,对于具有社交网络的用户账户的个体或实体,或者个体用户可以限制对用户的联系人的访问。社交媒体消息流可以是通用的,或者可以是领域特定的,例如,致力于特定爱好、兴趣、职业、医学状况等的论坛。社交媒体消息流的“消息”是由用户生成的信息的单元。这样的消息通常是基于文本的,但是其也可以包括诸如嵌入的图像或视频、超链接、音频文件等的多媒体内容。在此假设所述ADE监视和报告设备至少具有对检测到药物相关消息的每个社交媒体消息流的读取访问权。
在一个实施例中,数据收集和准备引擎通过参考源自统一医学语言系统(UMLS)元词表和/或其他医学/药理学词典的药物名称和副作用的数据库来收集实时社交媒体(例如,Twitter、Facebook)消息并且过滤与ADE相关的帖子(提及药物名称和副作用)。药物副作用数据库任选地通过利用医学非专业术语和构建神经嵌入等来扩展,以识别与副作用相关的附加短语。生成经专家注释的社交媒体消息,指示ADE在半监督分类阶段中用作训练数据。半监督深度神经网络架构包括在未标记的社交媒体数据和医学概念文本上训练的无监督特征学习模块,以学习预测ADE的文本特征。所学习的文本特征被用作半监督深度神经网络中的特征,以预测新社交媒体消息(测试数据)的标签(ADE或非ADE)。基于知识的验证引擎通过组合针对已知ADE药物和副作用对的诸如PubMed、WebMD和FDA数据库等在线知识源来构建ADE知识库。通过所述半监督深度学习分类器识别为描述ADE的社交媒体消息相对于ADE知识库进行验证。如果从社交媒体消息取回的ADE与知识库中的现有证据的语义属性相关,则所述消息被用于调谐所述ADE分类器的参数。否则,未经验证的ADE和对应的社交媒体消息被存储在知识库中,同时解析其他输入消息以获得关于相同ADE的附加报告。如果未经验证的ADE由多个社交媒体消息(不包括重新分发,例如转发推特)报告并且超过经验报告阈值,则所述系统生成关于新发现的(即,先前未识别的)ADE的警报/报告。在备选实施例中,用于报告先前未识别的ADE的标准基于在社交消息中报告ADE的不同患者的数量,而不是消息的总数量。这种备选方法能够避免在社交媒体上非常活跃的单个患者制作报告相同ADE事件的众多帖子的情况。
现在参考图1,描述了一种提供ADE监视和报告的说明性药物警戒设备。在图1的范例中,下文详细描述了示意性表示的位置1-18,其中,示意性指示了部件或者也标记了其他实体。所述ADE监视和报告设备适当地在计算机20上实施,例如网络服务器计算机(“服务器”)、计算集群、云计算资源等。将进一步意识到,所公开的ADE监视和报告设备实施例可以被实施为存储由这样的计算机20可读且可运行的指令(即,对计算机20进行编程的指令)以执行所公开的操作的非瞬态存储介质。所述非瞬态存储介质例如可以包括:硬盘驱动器或者其他磁存储介质,和/或光盘或其他光存储介质,和/或FLASH存储器,固态驱动器或者其他电子存储介质,其各种组合等。
如在1处所指示的,使用流送和/或安静的应用程序接口(API)实时收集公共可用的社交媒体消息22。使用例如源自UMLS的药物名称列表24来过滤所述消息。可以注意到,单种药物可以具有两个或更多个不同的药物名称,例如,一些药物在不同国家中被不同地命名,和/或可能存在通用药品名称,或者药物有时可能由其活性成分或活性剂被提及;药物名称列表24优选捕获这样的区域化和/或通用药物名称。由于药物名称常常是长并且复杂的,所以药物名称列表24还可以包括一些常见的拼写错误和/或药物名称的缩写版本。这是有益的,因为社交媒体消息有时在发布之前未经过仔细校对,因此偶尔会出现药物名称拼写错误;类似地,社交媒体帖子有时使用简写名称,尤其是在诸如Twitter的社交媒体中,其限制每条消息的单词和/或字符的数量。输出是经过滤的消息集合26,其包含药物名称和/或提及至少一个ADE(如接下来以2开始所描述地识别的)。注意,由于经过滤的消息26形成用于训练ADE检测器的数据库,因此药物名称列表24并不限于其ADE由图1的所述ADE监视和报告设备来监视的特定药物。
如在2处所指示的,使用医学术语参考文献28、诸如UMLS元词表和/或一种或多种其他精心策划的医学和药理学词典来创建副作用术语数据库。优选通过利用从可用在线医学非专业映射词典或其他源的汇集而策划的对应非专业术语或短语30替换或扩充副作用短语中的医学术语来扩展副作用术语数据库。例如,“幻觉”的非专业术语是“看见事物”,并且因此能够将短语“看见事物”添加到副作用列表中。通过非专业术语的扩充有利地改善了检测通常在社交媒体帖子中呈现的类型的非技术和会话语言中所描述的健康状况的能力。如在3处所指示的,神经嵌入算法32接收经过滤的消息26以及经扩展的副作用列表(来自2)作为输入以作为针对模型的训练数据,构建词汇表,并且基于句子中存在的单词的上下文来学习单词的向量表示(语义和句法关系)。给定单词,所述模型预测邻近的单词。该无监督训练32不需要标记的数据,并且因此能够在大数据集上有效地训练。如在4处所指示的,神经词嵌入模型32被用于搜索针对每种副作用的相似短语。所述相似短语被附加到原始副作用列表,以通过在非技术术语中描述ADE的短语进一步丰富语料库副作用术语,以便构建ADE术语的经扩展的语料库34。如在5处所指示的,经扩展的副作用34被用于对消息流22的消息进行过滤以识别提及至少一个ADE的消息。
如在6处所指示的,经过滤的消息26被用作无监督特征学习模块40的输入,其在说明性范例中采用卷积神经网络(CNN)架构。基于二元分类(“ADE”或“非ADE”),专家注释者(例如,药理学家、临床医师或者其他医学专业人员)在手动标记操作42中进一步标记经过滤的消息26的子集或全部。“ADE”标签指示所述消息包含对药物名称的提及,并且还提到在药物治疗时经历的副作用(具有负极性)。“非ADE”标签指示所述消息指示没有提及任何药品名称或者任何ADE。
继续参考图1并且进一步参考图2,如在8处所指示的,在无监督特征学习模块40中,训练CNN以学习来自未标记的文本数据的短语的嵌入(n元语法)。首先通过将ADE描述性短语(诸如“不能够入睡”或“食欲不振”)转换为低维词袋或n元语法袋特征向量,并且然后针对给定的短语,训练以预测上下文(相邻短语),来生成训练数据。所学习的短语的向量表示被用作在下一步骤中在受监督CNN分类器44中识别ADE的特征。如在图2中所示的,前馈神经网络40(即,用于特征提取的CNN 40)在最左侧接收n元语法x,其被分类为“ADE”或“非ADE”。CNN 40包括卷积层,随后是非线性(例如,S形、ReLU、tanh或者其他非线性函数),接着是池化层(例如,最大或平均池化层),其输出具有值“ADE”或值“非ADE”的二进制标签y。
继续参考图1并且进一步参考图3,如在9和10处所指示的,在半监督CNN架构的第二阶段中,受监督CNN 44利用嵌入短语(从无监督训练中学习的,如在8处所指示的)和注释的ADE数据(由手动标记42提供的消息以及其标签)进行训练以产生ADE分类器46。如在图3中所示的,通过经由子采样和卷积层的反向传播的分类错误(不正确的标签y),并且调节网络权重以降低总体成本,来学习针对受监督CNN 44的网络参数。
到目前为止所描述的图1的所述ADE监视和报告设备的部分可以近似地被分为生成训练数据的数据收集和准备部分50以及学习半监督ADE分类器46的深度学习部件52。所述方法利用社交媒体消息的大数据集,其中的大多数会是未标记的并且被用于训练第一阶段ADE分类40。有利地,仅需要通过手动标记42来标记该数据集的小子集以便提供用于在受监督训练阶段44中调节网络权重的反馈。
说明性实施例采用CNN作为ADE分类器;然而,备选地考虑其他类型的分类器,诸如支持向量机(SVM)分类器、内核分类器等。可以使用半监督训练(如在说明性实施例中)或者使用完全监督训练来训练这样的备选分类器。在一种这样的备选方法中,训练二进制SVM分类器以检测在扩展的列表34中的每个不同的ADE(其中,二进制SVM输出“1”用于“ADE”,而输出“0”用于“非ADE”),并且然后使用这些二进制SVM分类器的输出的逻辑“或”来构造整体ADE分类器。
在数据收集/准备和训练阶段50、52之后,在推断阶段使用所得到的ADE分类器46来检测包含经历ADE监视的药物名称的消息中的ADE。图1的所述ADE监视和报告设备的该部分采用基于知识的验证部件54,接下来将对其进行描述。
如在11和12处所指示的,包含被监视药物的名称的消息60(在此也被称为“药物相关消息”)由ADE分类器46进行分类。更具体地,接收到的社交媒体消息60首先被处理以确定其是否包含对由所述ADE监视和报告设备所监视的药物的提及。由于给定的药物通常由一个或者至多数个不同的名称(不同的区域名称,和/或活性成分名称,和/或通用药物名称)来识别,因此对包含所述受监视药物的至少一次提及的消息的识别需要搜索该消息是否包含这些数个药物名称中的任意药物名称(并且可能是药物名称的一种或多种常见的拼写错误和/或一种或多种常见的简写或缩写版本,诸如可能预期在相对非正式的社交媒体帖子中出现的)。包含对所述受监视药物的至少一次提及的那些消息是ADE分类器46的输入,ADE分类器46将每个消息分类为ADE或非ADE,并且识别消息内指示所述分类的n元语法(ADE短语)。包含药物名称的消息60中的每个这样的ADE识别构成ADE报告62。
如在13处所指示的,通过组合来自一个或多个在线医学知识资源66(诸如监管机构)的药物副作用数据、来自诸如WebMD的公共访问医学网站的药物和副作用数据、关于FDA不利事件报告系统的用户-报告数据、诸如FAERS、PubMed文章等,来创建ADE知识数据库64。如在14处所指示的,ADE报告62相对于ADE知识数据库64中的证据进行验证。该验证可能需要例如根据医学资源66中的信息将ADE知识数据库64生成为针对所述受监视药物的已知ADE的集合,并且如果其是这些已知ADE中的一个ADE,则对ADE报告62进行验证。更一般而言,能够通过匹配受监视药物的名称并且测量在包含ADE报告62的社交媒体消息60中发现的负面副作用短语相对于在针对所述受监视药物的ADE知识库64中定义的已知ADE的集合中的ADE的语义相似性,来测量ADE的相关性。在药物相关消息60被分解为由ADE分类器46分类的n元语法的实施例中,这需要在存储在ADE知识库64中的针对所述受监视药物的已知ADE的集合中识别ADE n元语法(即,被分类为ADE的n元语法)。
如在15和16处所指示的,当来自社交媒体消息的ADE报告62在语义上与在ADE知识库64中找到的证据相关时,ADE报告在决策68处被验证,并且该经验证的ADE报告任选地在反馈回路中被发送回受监督分类器训练块44以微调模型参数,从而使得ADE分类器46更鲁棒。另外地或地备选地,能够收集社交媒体中针对所述受监视药物的经验证的ADE报告的统计70,以提供关于在通过所述验证的ADE报告中的已知ADE的相对出现频率的信息。例如,通过所述验证的ADE报告可以由已知ADE来分组,并且每个ADE的频率是报告所述已知ADE的消息的数量(或者备选地,报告所述已知ADE的独特患者的数量)。能够对这些计数进行归一化以提供相对频率。
如在17处所指示的,当ADE报告62与ADE知识库64中的证据不匹配(亦即,ADE不是所述受监视药物的已知副作用)时,那么未经验证的ADE报告被存储在未经验证的ADE报告的存储库72中。如在18处所指示的,如果在多条社交媒体消息中报告了该未经验证的ADE,并且如果这样的ADE报告的数量超过经验阈值δ,则将该ADE识别为先前未知的ADE。所述阈值δ通常针对提及ADE以及受监视药物的社交媒体消息的总数量。在备选实施例中,所述阈值δ针对在社交媒体中报告所述ADE的接收所述受监视药物的独特患者的总数量。后一种方法有利地能够过滤掉在社交媒体中非常活跃并且因此可能在许多不同的社交媒体帖子中提及与所述受监视药物有关的ADE的患者;然而,对独特患者的阈值处理需要识别在所述社交媒体消息中的接收所述受监视药物的患者。一种方法是将接收所述受监视药物的患者标识为发布社交媒体消息的用户的用户名。这种方法是不精确的,因为个体有时在不同的社交媒体网站上使用不同的用户名,并且因为发布者可能正在描述其他人的ADE。患者识别中的后一种误差源可以通过对消息的自然语言文本的深度语义分析进行减少,尽管这以增加的计算复杂性为代价。
作为范例,如果阈值δ=10并且如果至少10条不同的消息(或者,在备选实施例中,10位不同的、即独特的患者)报告在知识库64中未找到的相同ADE,则该ADE被指定为所述受监视药物的先前未识别的ADE,并且因此被包含在关于所述受监视药物的新(即,先前未识别的)ADE的报告74中。任选地,周期性地更新知识库64,并且如果先前未识别的ADE现在出现在经更新的知识库64中,则将其从报告74中移除。报告74有利地通过提供对先前未识别的ADE的快速识别来提供经改善的药物警戒。
可以不同地使用报告74。例如,其可以打印或存储为PDF文件并且在计算机或计算机终端78的显示器76上查看,或者其内容可以被剪切/粘贴到由制药公司的雇员准备的上市后的FDA报告中。在一些实施例中,报告74还总结了关于已知ADE的相对出现频率的信息统计70,以便提供关于在实际上市后患者群体中这些已知ADE的(相对)流行度的信息。
图1的所述ADE监视和报告设备能够被用于仅通过输入提及要受监视的各种药物的社交媒体消息60,并且以所提及的药物对结果70、72进行分类,来监视社交媒体上针对各种药物的ADE报告。还应当注意,“药物”任选地可以包括一族药物或一类药物,例如,所述ADE监视和报告设备应当被用于监视一类基于类固醇的药物的ADE,或者更一般地,监视所有都采用相同活性成分的一类药物。
还应当注意,由于预备和训练部件50、52采用不特定于特定受监视药物的药物名称24和ADE术语28、30的列表,因此可以使用(或者重复使用)所得到的ADE分类器46以用于针对各种不同的特定受监视药物的ADE监视/报告。
在图1的设备中,经验证的ADE报告被反馈给CNN学习器44以用于调谐,如在16处所指示的。相反,未经验证的ADE报告不被反馈给CNN学习器44以进行调谐。这是因为不知道未经验证的ADE报告是否正确。另一方面,如果通过有助于指示相同ADE的未经验证的ADE报告的汇总而被确认,则所述未经验证的ADE报告是有用的,因为这证明所述未经验证的ADE报告正在报告所述受监视药物的先前未识别的ADE。
参考图4,描述了由图1的设备适当地执行的药物监视和报告方法。在操作80中,由设备部分50执行社交媒体消息收集和处理以生成训练数据(具有由标记42选择注释的经过滤的消息26)。在操作82中,使用深度学习部件52训练ADE分类器46。在操作84中,包含受监视药物的名称(或者,包含药物名称的区域性速记或者其他变型中的一种或多种)的社交媒体消息被识别并且使用ADE分类器46分类为其是否包含至少一个ADE报告62。在操作86中,使用所述设备的验证部分54来验证每个ADE报告62。在决策90处,如果ADE报告62被验证,那么将该经验证的结果反馈92以更新分类器训练82,和/或将针对已知ADE的ADE报告添加到经验证(即,已知)的ADE相对频率的存储装置94中。另一方面,如果在决策90处ADE报告62未被验证,那么将未经验证的ADE报告添加到未经验证的ADE报告的存储装置96中。在操作100中,生成关于经由社交媒体监视而识别的先前未识别的ADE的报告。先前未被识别的ADE是那些其在社交媒体中的ADE报告超过提及受监视药物和ADE的社交媒体消息的数量的某个阈值δ的那些。在备选实施例中,所述先前未识别的ADE是ADE报告指示独特患者的某个阈值δ报告ADE以及社交媒体上的受监视药物的那些ADE。在操作102中,任选地生成关于在通过所述验证的ADE报告中的已知ADE的相对报告频率(即,出现频率)的报告。
在一些实施例中,设想到了省略所述ADE监视和报告设备的验证部分54。在这样的实施例中,适当地记录所有ADE报告,并且可以对检测到的ADE以及其在社交媒体消息中的相对出现频率进行报告。
已经参考优选实施例描述了本发明。在阅读和理解了前文的详细描述时,他人能够想到修改和变更。本发明旨在被解释为包括所有这些修改和变更,只要其落入所附权利要求或者其等同物的范围之内。
Claims (21)
1.一种不利药物事件(ADE)监视和报告设备,包括:
计算机(20),其被编程为执行ADE监视和报告方法,所述方法包括:
检测在一个或多个社交媒体消息流中的药物相关消息(60)作为包括受监视药物的名称的消息;
使用ADE分类器(46)从所述药物相关消息中提取ADE报告(62);
通过与存储在ADE知识库(64)中的所述受监视药物的已知ADE进行比较来验证提取的ADE报告;
在未经验证的ADE报告数据库(72)中收集未通过所述验证的提取的ADE报告;并且
生成包括关于至少一个先前未识别的ADE的信息的报告(74),针对所述至少一个先前未识别的ADE,在所述未经验证的ADE报告数据库中的提取的ADE报告满足先前未识别的ADE标准。
2.根据权利要求1所述的ADE监视和报告设备,其中,所述计算机(20)被编程为执行的所述ADE监视和报告方法还包括:
使用通过所述验证的提取的ADE报告来调谐所述ADE分类器(46),而不使用未通过所述验证的提取的ADE报告来调谐所述ADE分类器。
3.根据权利要求1-2中的任一项所述的ADE监视和报告设备,其中,所述计算机(20)被编程为执行的所述ADE监视和报告方法还包括:
由已知ADE对通过所述验证的ADE报告进行分组;
其中,所生成的报告(74)还包括关于在通过所述验证的所述ADE报告中的已知ADE的相对出现频率的信息(70)。
4.根据权利要求3所述的ADE监视和报告设备,其中,所述提取的ADE报告(62)包括接收所述受监视药物的患者的标识,并且已知ADE的所述相对出现频率是针对接收所述受监视药物的独特患者的。
5.根据权利要求1-4中的任一项所述的ADE监视和报告设备,其中,所述ADE分类器(46)包括在从来自所述一个或多个社交媒体流(22)的消息中提取的n元语法上训练的卷积神经网络(CNN)分类器,以使用所述n元语法作为特征关于所述消息是否报告ADE而对所述消息进行分类。
6.根据权利要求1-5中的任一项所述的ADE监视和报告设备,其中,所述ADE分类器(46)被训练为检测由包括针对ADE的非专业术语(30)的ADE术语(28、30)表示的ADE。
7.根据权利要求1-6中的任一项所述的ADE监视和报告设备,其中:
所述提取包括从所述药物相关消息(60)中提取表示ADE的ADE n元语法;并且
所述验证包括在所述ADE知识库(64)中识别所述ADE n元语法。
8.根据权利要求1-7中的任一项所述的ADE监视和报告设备,其中,所述先前未识别的ADE标准包括:具有所述未经验证的ADE报告数据库中的指示所述先前未识别的ADE的至少一个未经验证的ADE报告的独特患者的数量超过阈值。
9.根据权利要求1-7中的任一项所述的ADE监视和报告设备,其中,所述先前未识别的ADE标准包括:所述未经验证的ADE报告数据库中的指示所述先前未识别的ADE的未经验证的ADE报告的数量超过阈值。
10.根据权利要求1-9中的任一项所述的ADE监视和报告设备,其中,所述检测包括:
从所述一个或多个社交媒体消息流中检测药物相关消息,作为包括所述受监视药物的多个名称中的任意名称的消息。
11.一种非瞬态存储介质,存储由计算机(20)可读且可运行以执行针对具有已知ADE的集合的受监视药物的不利药物事件(ADE)监视和报告方法,所述方法包括:
识别在一个或多个社交媒体消息流中的药物相关消息,其中,每条药物相关消息包括所述受监视药物的名称;
通过使用从所述药物相关消息中提取的n元语法作为ADE分类器(46)的特征对所述药物相关消息进行分类,从所述药物相关消息中提取ADE报告(62);并且
响应于指示所述先前未识别的ADE的提取的ADE报告的累积,而识别不在针对所述受监视药物的所述已知ADE的集合中的先前未识别的ADE。
12.根据权利要求11所述的非瞬态存储介质,其中:
所述提取包括提取作为所述ADE报告的对象的患者;并且
所述识别包括:响应于指示所述先前未识别的ADE的提取的ADE报告的累积至少达到不同患者的阈值数量,而识别所述先前未识别的ADE。
13.根据权利要求11所述的非瞬态存储介质,其中,所述识别包括:响应于指示所述先前未识别的ADE的提取的ADE报告的数量超过阈值,而识别所述先前未识别的ADE。
14.根据权利要求11-13中的任一项所述的非瞬态存储介质,还包括:
使用指示已知ADE的提取的ADE报告来调谐所述ADE分类器(46),而不使用未指示已知ADE的提取的ADE报告来调谐所述ADE分类器。
15.根据权利要求11-14中的任一项所述的非瞬态存储介质,还包括:
基于指示已知ADE的提取的ADE报告,来生成针对所述已知ADE的相对出现频率数据(70)。
16.根据权利要求11-15中的任一项所述的非瞬态存储介质,其中,所述ADE分类器(46)包括在从来自所述一个或多个社交媒体流的消息中提取的n元语法上训练的卷积神经网络(CNN)分类器。
17.根据权利要求11-16中的任一项所述的非瞬态存储介质,其中,所述ADE分类器(46)被训练为检测由包括针对ADE的非专业术语(30)的ADE术语(28、30)表示的ADE。
18.一种针对受监视药物执行的不利药物事件(ADE)监视和报告方法,所述方法包括:
识别包括所述受监视药物的名称的药物相关消息(60);
通过使用ADE分类器(46)对所述药物相关消息的文本进行分类,从所识别的ADE报告消息中提取ADE报告;并且
输出关于提取的ADE报告的报告(74)。
19.根据权利要求18所述的ADE监视和报告方法,还包括:
收集指示不在针对所述受监视药物的已知ADE的集合中的ADE的提取的ADE报告;
其中,所述报告(74)包括关于从指示不在所述已知ADE的集合中的ADE的提取的ADE报告的汇集中识别的至少一个先前未识别的ADE的信息。
20.根据权利要求19所述的ADE监视和报告方法,还包括:
使用指示在所述已知ADE的集合中的ADE的所述提取的ADE报告,而不使用指示不在所述已知ADE的集合中的ADE的所述提取的ADE报告,来调谐所述ADE分类器(46)。
21.根据权利要求18-20中的任一项所述的ADE监视和报告方法,还包括:
生成针对提取的ADE报告的相对出现频率统计(70);
其中,所述报告(74)还包括关于所生成的相对出现频率统计的信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662377778P | 2016-08-22 | 2016-08-22 | |
US62/377,778 | 2016-08-22 | ||
PCT/EP2017/070814 WO2018036894A1 (en) | 2016-08-22 | 2017-08-17 | Knowledge discovery from social media and biomedical literature for adverse drug events |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109844733A true CN109844733A (zh) | 2019-06-04 |
Family
ID=59677234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780064428.4A Pending CN109844733A (zh) | 2016-08-22 | 2017-08-17 | 针对不利药物事件根据社交媒体和生物医学文献的知识发现 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190214122A1 (zh) |
EP (1) | EP3500952A1 (zh) |
CN (1) | CN109844733A (zh) |
WO (1) | WO2018036894A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177516A (zh) * | 2019-12-30 | 2020-05-19 | 嘉兴太美医疗科技有限公司 | 药物警戒系统及其处理反馈数据的方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10789942B2 (en) * | 2017-10-24 | 2020-09-29 | Nec Corporation | Word embedding system |
US10978066B2 (en) | 2019-01-08 | 2021-04-13 | International Business Machines Corporation | Analyzing information to provide topic avoidance alerts |
US11011158B2 (en) * | 2019-01-08 | 2021-05-18 | International Business Machines Corporation | Analyzing data to provide alerts to conversation participants |
US11216614B2 (en) * | 2019-07-25 | 2022-01-04 | Wipro Limited | Method and device for determining a relation between two or more entities |
US20210074398A1 (en) * | 2019-09-10 | 2021-03-11 | Medstar Health, Inc. | Evaluation of patient safety event reports from free-text descriptions |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120253792A1 (en) * | 2011-03-30 | 2012-10-04 | Nec Laboratories America, Inc. | Sentiment Classification Based on Supervised Latent N-Gram Analysis |
EP2985711A1 (en) * | 2014-08-14 | 2016-02-17 | Accenture Global Services Limited | System for automated analysis of clinical text for pharmacovigilance |
US20160092793A1 (en) * | 2014-09-26 | 2016-03-31 | Thomson Reuters Global Resources | Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6993402B2 (en) * | 2001-02-28 | 2006-01-31 | Vigilanz Corporation | Method and system for identifying and anticipating adverse drug events |
US9412369B2 (en) * | 2011-06-17 | 2016-08-09 | Microsoft Technology Licensing, Llc | Automated adverse drug event alerts |
EP3433795A4 (en) * | 2016-03-24 | 2019-11-13 | Ramot at Tel-Aviv University Ltd. | METHOD AND SYSTEM FOR CONVERTING A TEXT IMAGE |
WO2018017775A1 (en) * | 2016-07-20 | 2018-01-25 | Chesapeake Therapeutics, Llc | Methods of attenuating drug excipient cross reactivity |
-
2017
- 2017-08-17 CN CN201780064428.4A patent/CN109844733A/zh active Pending
- 2017-08-17 US US16/325,646 patent/US20190214122A1/en not_active Abandoned
- 2017-08-17 WO PCT/EP2017/070814 patent/WO2018036894A1/en active Application Filing
- 2017-08-17 EP EP17754705.6A patent/EP3500952A1/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120253792A1 (en) * | 2011-03-30 | 2012-10-04 | Nec Laboratories America, Inc. | Sentiment Classification Based on Supervised Latent N-Gram Analysis |
EP2985711A1 (en) * | 2014-08-14 | 2016-02-17 | Accenture Global Services Limited | System for automated analysis of clinical text for pharmacovigilance |
US20160092793A1 (en) * | 2014-09-26 | 2016-03-31 | Thomson Reuters Global Resources | Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts |
WO2016046744A1 (en) * | 2014-09-26 | 2016-03-31 | Thomson Reuters Global Resources | Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts |
Non-Patent Citations (3)
Title |
---|
ERIC W. BURGER ET AL: "Social Media Communications Networks and Pharmacovigilance: SequelAE-2.0", 《2013 IEEE 15TH INTERNATIONAL CONFERENCE ON E-HEALTH NETWORKING,APPLICATIONS AND SERVICES》 * |
RACHEL GINN ET AL: "Mining Twitter for Adverse Drug Reaction Mentions:A Corpus and Classification Benchmark", 《COMPUTER SCIENCE》 * |
XIAO LIU ET AL: "A research framework for pharmacovigilance in health social media:Identification and evaluation of patient adverse drug event reports", 《JOURNAL OF BIOMEDICAL INFORMATICS》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177516A (zh) * | 2019-12-30 | 2020-05-19 | 嘉兴太美医疗科技有限公司 | 药物警戒系统及其处理反馈数据的方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018036894A1 (en) | 2018-03-01 |
US20190214122A1 (en) | 2019-07-11 |
EP3500952A1 (en) | 2019-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Le Glaz et al. | Machine learning and natural language processing in mental health: systematic review | |
Uddin et al. | Deep learning for prediction of depressive symptoms in a large textual dataset | |
CN109844733A (zh) | 针对不利药物事件根据社交媒体和生物医学文献的知识发现 | |
Monselise et al. | Topics and sentiments of public concerns regarding COVID-19 vaccines: Social media trend analysis | |
Foufi et al. | Mining of textual health information from Reddit: Analysis of chronic diseases with extracted entities and their relations | |
Rosenbloom et al. | Data from clinical notes: a perspective on the tension between structure and flexible documentation | |
Pestian et al. | Suicide note classification using natural language processing: A content analysis | |
Fu et al. | Dynamic non-parametric joint sentiment topic mixture model | |
Jo et al. | Time series analysis of nursing notes for mortality prediction via a state transition topic model | |
Rizvi et al. | Analyzing social media data to understand consumer information needs on dietary supplements | |
Jiang et al. | Designing and evaluating a clustering system for organizing and integrating patient drug outcomes in personal health messages | |
Peral et al. | An ontology-oriented architecture for dealing with heterogeneous data applied to telemedicine systems | |
Tri Sakti et al. | Mining of opinions on COVID-19 large-scale social restrictions in Indonesia: public sentiment and emotion analysis on online media | |
Ru et al. | A content analysis of patient-reported medication outcomes on social media | |
CN108140044A (zh) | 用于确定与临床医生相关的信息的设备、系统和方法 | |
Fairie et al. | Categorising patient concerns using natural language processing techniques | |
Sprint et al. | Multimodal fusion of smart home and text-based behavior markers for clinical assessment prediction | |
Patel et al. | Automatic identification of self-reported COVID-19 vaccine information from vaccine adverse events reporting system | |
Rana et al. | Content‐based health recommender systems | |
Gaudet-Blavignac et al. | Building a shared, scalable, and sustainable source for the problem-oriented medical record: developmental study | |
Luna et al. | Terminology services: standard terminologies to control medical vocabulary.“Words are not what they say but what they mean” | |
Chaturvedi et al. | Development of a corpus annotated with medications and their attributes in psychiatric health records | |
Archana et al. | Drugs categorization based on sentence polarity analyzer for Twitter data | |
Martınez et al. | MC-UC3M participation at TAC 2017 adverse drug reaction extraction from drug labels | |
Cui | Ontology-guided health information extraction, organization, and exploration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190604 |