CN113033210A - 一种基于社交媒体数据分析的药物潜在副作用挖掘方法 - Google Patents
一种基于社交媒体数据分析的药物潜在副作用挖掘方法 Download PDFInfo
- Publication number
- CN113033210A CN113033210A CN202110596995.2A CN202110596995A CN113033210A CN 113033210 A CN113033210 A CN 113033210A CN 202110596995 A CN202110596995 A CN 202110596995A CN 113033210 A CN113033210 A CN 113033210A
- Authority
- CN
- China
- Prior art keywords
- side effect
- drug
- drug side
- concept
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于社交媒体数据分析的药物潜在副作用挖掘方法,所述方法包括:获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念。本发明实施例通过上述方法通过对广大民众最真实的用药体验进行分析,可以得到药物更加全面的潜在副作用信息。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及的是一种基于社交媒体数据分析的药物潜在副作用挖掘方法。
背景技术
药物安全是病人健康安全的基本组成部分,长期受到医学界和民众的广泛关注。所谓药物副作用(Adverse Drug Reaction,ADR)是指患者服用正常剂量的药物治疗疾病时,观察到的超出预期之外的对患者身体有害的反应。药物副作用涉及的领域非常广泛,包括药物服用成瘾、患者出现耐药性、患者服用药物后出现了非预期的过敏反应和因服用药物导致患者原有的病情加重等情况。一般认为所有药物都有副作用,有些副作用可能具有致命性。
对于药物副作用的及早发现通常有两种渠道,一种是新药上市前制药公司开展的临床试验;第二种是上市后制药公司通过类似疾病预防控制中心的国家卫生系统收集相关药物副作用信息。但根据实际情况来看,仅通过临床试验和官方药物副作用反馈平台来收集与发现药物副作用是远远不够的。一方面,对于制药公司开展的临床试验,由于药物内部构成复杂,患者群体多样性,很难在这个阶段检测到所有可能的副作用。另一方面,新药物上市后,由于官方反馈平台往往效率低,因此很难及时的将搜集到的药物副作用相关信息反馈到对应机构。此外,临床医疗数据涉及到大量隐私信息,获取难度大。
随着Web 2.0技术的发展,社交媒体(如社区、论坛、博客、Wiki等)逐渐在人群中流行,大量互联网用户在社交媒体上的交流产生了大量用户生成内容(User-GeneratedContent,UGC),这些内容极大地丰富了网络世界,这其中就包括部分患者对药物的评论信息。最近几年,随着互联网用户对于药物信息获取的需求逐渐增大,大量的医疗健康类社交网站相继出现,如DailyStrength、AskaPatient、百度病友吧、丁香园等。这些网站聚集了大量的相关人员,在这类网站上他们以发帖或者评论的形式对一些药物发表用药体验,这些社交媒体数据是药物在患者群体的真实写照,对于药物副作用的研究具有重大价值。因此如何从这些医疗健康类社交媒体网站中挖掘药物的潜在副作用信息,逐渐成为药物警戒研究的重要方向之一,越来越受到研究人员的重视。
因此,现有技术还有待改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于社交媒体数据分析的药物潜在副作用挖掘方法,旨在解决现有技术中存在两方面问题:一方面,对于制药公司开展的临床试验,由于药物内部构成复杂,患者群体多样性,很难在这个阶段检测到所有可能的副作用。另一方面,新药物上市后,由于官方反馈平台往往效率低,因此,很难及时的将搜集到的药物副作用相关信息反馈到对应机构的问题。
本发明解决问题所采用的技术方案如下:
第一方面,本发明实施例提供一种基于社交媒体数据分析的药物潜在副作用挖掘方法,其中,所述方法包括:
获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;
基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系;所述初始药物副作用概念用于表征药物副作用的名词;
根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。
在一种实现方式中,其中,所述获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据包括:
获取社交媒体的药物评论数据;
对所述药物评论数据进行数据清洗、句子边界检测和分词的数据预处理,得到药物评论预处理数据。
在一种实现方式中,其中,所述基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体包括:
将所述药物评论预处理数据输入到经过训练的BERT语言模型,得到药物副作用实体。
在一种实现方式中,其中,所述BERT语言模型的训练过程具体为:
根据药物副作用实体构建机器阅读理解问题;
获取训练实例三元组序列,其中,所述实例三元组序列包括question序列,answer序列,context序列;
将question序列和context序列进行拼接并输入至预设的语义理解模型,使用所述预设的语义理解模型的self-attention机制对question序列和context序列进行交互,输出所述药物副作用实体的开始位置概率和结束位置概率;
根据所述开始位置概率和所述结束位置概率,确定所述药物副作用实体的交叉熵损失函数;
根据所述交叉熵损失函数对所述预设的语义理解模型进行训练,得到训练好的BERT语言模型。
在一种实现方式中,其中,所述self-attention机制的作用具体为:
对句子中的当前词和所述句子中除去所述当前词后的剩余词之间的相关性进行建模。
在一种实现方式中,其中,所述根据所述开始位置概率和所述结束位置概率,确定所述药物副作用实体的交叉熵损失函数包括:
根据所述开始位置概率,计算所述药物副作用实体的开始位置损失函数;
根据所述结束位置概率,计算所述药物副作用实体的结束位置损失函数;
将所述开始位置损失函数加上所述结束位置损失函数,得到所述药物副作用实体的交叉熵损失函数。
在一种实现方式中,其中,所述基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念包括:
在候选生成阶段,根据统计的文本相似度算法和标准副作用概念词典,得到所述药物副作用实体对应的若干候选标准副作用概念;
在候选排序阶段,根据BERT的文本匹配算法得到药物副作用实体和候选标准副作用概念的相似度分值;
将相似度分值最高的候选标准副作用概念作为初始药物副作用概念。
在一种实现方式中,其中,所述根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念包括:
将所述初始药物副作用概念和官方报告药物副作用概念进行匹配;
当所述初始药物副作用概念中存在与所述官方报告药物副作用概念相同的部分时,则将所述初始药物副作用概念中与所述官方报告药物副作用概念相同的部分剔除,得到潜在药物副作用概念。
第二方面,本发明实施例还提供一种基于社交媒体数据分析的药物潜在副作用挖掘装置,其中,所述装置包括:
药物副作用实体获取单元,用于获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;
初始药物副作用概念获取单元,用于基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系;所述初始药物副作用概念用于表征药物副作用的名词;
潜在药物副作用概念获取单元,用于根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。
第三方面,本发明实施例还提供一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的基于社交媒体数据分析的药物潜在副作用挖掘方法。
第四方面,本发明实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述中任意一项所述的基于社交媒体数据分析的药物潜在副作用挖掘方法。
本发明的有益效果:本发明实施例首先获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;然后基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系;所述初始药物副作用概念用于表征药物副作用的名词;最后根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于社交媒体数据分析的药物潜在副作用挖掘方法流程示意图。
图2为本发明实施例提供的基于社交媒体数据分析的药物潜在副作用挖掘方法的结构框图。
图3为本发明实施例提供的基于机器阅读理解的副作用实体识别模型结构图。
图4为本发明实施例提供的候选生成示意图。
图5为本发明实施例提供的基于排序的实体标准化模型结构图。
图6为本发明实施例提供的基于社交媒体数据分析的药物潜在副作用挖掘装置的原理框图。
图7为本发明实施例提供的智能终端的内部结构原理框图。
具体实施方式
本发明公开了基于社交媒体数据分析的药物潜在副作用挖掘方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。 应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
由于现有技术中存在两方面问题:一方面,对于制药公司开展的临床试验,由于药物内部构成复杂,患者群体多样性,很难在这个阶段检测到所有可能的副作用。另一方面,新药物上市后,由于官方反馈平台往往效率低,因此很难及时的将搜集到的药物副作用相关信息反馈到对应机构的问题。
为了解决现有技术的问题,本实施例提供了一种基于社交媒体数据分析的药物潜在副作用挖掘方法,本发明实施例通过上述方法通过对广大民众最真实的用药体验进行分析,可以得到药物更加全面的潜在副作用信息。具体实施时,先获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;然后基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系;所述初始药物副作用概念用于表征药物副作用的名词;最后根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。
举例说明
最近几年,随着互联网用户对于药物信息获取的需求逐渐增大,大量的医疗健康类社交网站相继出现,如DailyStrength、AskaPatient、百度病友吧、丁香园等。这些网站聚集了大量的相关人员,在这类网站上他们以发帖或者评论的形式对一些药物发表用药体验,这些社交媒体数据是药物在患者群体的真实写照,对于药物副作用的研究具有重大价值。药物潜在副作用分析主要包含药物副作用实体识别、药物副作用实体标准化和药物潜在副作用分析三个部分。为此,本发明设计了一种基于社交媒体数据分析的药物潜在副作用挖掘方法,方法主要包括3部分:1)副作用实体识别;2)副作用实体标准化;3)药物潜在副作用分析。利用基于机器阅读理解的命名实体识别方法识别社交媒体药物评论中的药物副作用,然后采用基于排序的实体标准化方式将所有药物副作用实体映射到标准副作用概念词典上,最后比对官方药物副作用报告分析药物的潜在副作用。基于机器阅读理解的命名实体识别方法流程如下:1)使用问题模版将药物构造成一个question;2)使用BERT语言模型对question和context信息进行交互;3)在输出层输出context中副作用实体的开始和结束位置。基于排序的实体标准化方式分为两个阶段:1)候选生成;2)候选排序。在候选生成阶段使用编辑距离、Jaccard距离和TF-IDF(一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度)来计算副作用实体与标准概念间的文本相似度,然后生成相似度最高的n个候选标准概念。在候选排序阶段,使用基于BERT的文本匹配算法计算“实体-标准副作用概念”的相似度得分,取相似得分最高的作为该副作用实体对应的标准副作用概念。在本实施例中,先获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;然后基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系;所述初始药物副作用概念用于表征药物副作用的名词;最后根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。本发明实施例通过上述方法通过对广大民众最真实的用药体验进行分析,可以得到药物更加全面的潜在副作用信息。
示例性方法
本实施例提供一种基于社交媒体数据分析的药物潜在副作用挖掘方法,该方法可以应用于人工智能的智能终端。具体如图1所示,所述方法包括:
步骤S100、获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;
具体地,随着Web 2.0技术的发展,社交媒体(如社区、论坛、博客、Wiki等)逐渐在人群中流行,大量互联网用户在社交媒体上的交流产生了大量用户生成内容(User-Generated Content,UGC),这其中就包括部分患者对药物的评论信息。故可以获取社交媒体的药物评论数据,由于这些数据无法直接用于神经网络计算,需要对所述药物评论数据进行数据预处理,如图2所示,得到药物评论预处理数据,相应的,为了得到药物评论预处理数据,所述药物评论数据进行数据预处理,得到药物评论预处理数据包括如下步骤:对所述药物评论数据进行数据清洗、句子边界检测和分词的数据预处理,得到药物评论预处理数据。再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体。其中,所述药物副作用实体用于表征药物副作用的实际描述;相应的,所述基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体包括如下步骤:将所述药物评论预处理数据输入到经过训练的BERT语言模型,得到药物副作用实体。
由于所述BERT语言模型是经过训练的,所述BERT语言模型的训练过程具体为:根据药物副作用实体构建机器阅读理解问题;获取训练实例三元组序列,其中,所述实例三元组序列包括question序列,answer序列,context序列;将question序列和context序列进行拼接并输入至预设的语义理解模型,使用所述预设的语义理解模型的self-attention机制对question序列和context序列进行交互,输出所述药物副作用实体的开始位置概率和结束位置概率;根据所述开始位置概率和所述结束位置概率,确定所述药物副作用实体的交叉熵损失函数;根据所述交叉熵损失函数对所述预设的语义理解模型进行训练,得到训练好的BERT语言模型。
具体地,根据药物副作用实体构建机器阅读理解问题;如图3所示,question为问题,passage为文本段落,[CLS]为文本整体标记符,[SEP]为文本分隔符,Ecls为文本整体标记符的初始化表示,Ei(E1......EN)为问题中第i个词的表示,Esep为问题文本分隔符表示,Ei'(E1'......EN')为文本段落中第i个词的表示,Esep'为段落文本分隔符表示,C为经BERT转换后的文本整体标记符表示,Ti(T1......TM)为经BERT转换后问题中第i个词的表示,Tsep为经BERT转换后问题文本分隔符表示,Ti'(T1'......TM')为经BERT转换后文本段落中第i个词的表示,Tsep'为经BERT转换后段落文本分隔符表示,start/end span为跨度开始或结尾。例如:将药物副作用实体识别看作为一个机器阅读理解问题;获取训练实例三元组序列,其中,所述实例三元组序列包括question序列,answer序列,context序列;将question序列和context序列进行拼接并输入至预设的语义理解模型,使用所述预设的语义理解模型的self-attention机制对question序列和context序列进行交互,输出所述药物副作用实体的开始位置概率和结束位置概率。在一种实现方式中,所述self-attention机制的作用具体为:对句子中的当前词和所述句子中除去所述当前词后的剩余词之间的相关性进行建模。例如:将当前词语的向量分别与句子中除去当前词语后剩余的词语计算相似度并进行归一化,得到所述句子中除去当前词语后剩余的词语相对于当前词语的权重向量;根据所述权重向量,对所有词语向量进行加权求和,得到当前词语上下文的注意力向量。在另一种实现方式中,所述BERT语言模型包括如下三层,分别是输入层,信息聚合层(也即交互层)和输出层:
(2)在信息聚合层,以BERT语言模型作为特征提取器,通过BERT的自注意力机制,每个词都会与其他词作Attention计算,从而获得上下文信息,这就保证了question中的药物信息可以很好的融入到context中,记BERT的输出序列为,则输出序列可由以下公式得到:
其中,为词下标,argmax为求参数(集合)的函数,例如:当有另一个函数y=f(x)时,若有结果x0= argmax(f(x)),则表示当函数f(x)取x=x0的时候,得到f(x)取值范围的最大值;若有多个点使得f(x)取得相同的最大值,那么argmax(f(x))的结果就是一个点集。换句话说,argmax(f(x))是使得 f(x)取得最大值所对应的变量点x(或x的集合)。根据开始位置概率和结束位置概率,可以得到开始位置序列集合和结束位置序列集合;其中,以两层01序列来对文本进行标注,分为开始和结束01序列。开始01序列中的编号“1”表示一个药物副作用实体的开始位置,编号“0”表示非药物副作用实体开始位置;结束01序列中的编号“1”表示一个药物副作用实体的结束位置,编号“0”表示非药物副作用实体的结束位置。
然后,根据所述开始位置概率和所述结束位置概率,确定所述药物副作用实体的交叉熵损失函数;相应的,所述根据所述开始位置概率和所述结束位置概率,确定所述药物副作用实体的交叉熵损失函数包括如下步骤:根据所述开始位置概率,计算所述药物副作用实体的开始位置损失函数;根据所述结束位置概率,计算所述药物副作用实体的结束位置损失函数;将所述开始位置损失函数加上所述结束位置损失函数,得到所述药物副作用实体的交叉熵损失函数。
具体地,根据所述开始位置概率,计算所述药物副作用实体的开始位置损失函数;根据所述结束位置概率,计算所述药物副作用实体的结束位置损失函数;例如:模型的损失分为两个部分,开始位置概率预测损失和结束位置概率预测损失,具体的计算公式如下:
其中,CE表示交叉熵,和表示真实的实体开始位置和结束位置序列,开始位置概率和结束位置概率,再将所述开始位置损失函数加上所述结束位置损失函数,得到所述药物副作用实体的交叉熵损失函数。例如:模型的总损失为两者之和:。
根据所述交叉熵损失函数对所述预设的语义理解模型进行训练,得到训练好的BERT语言模型。
得到所述药物副作用实体后,接着执行如图1所示的如下步骤:步骤S200、基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系。所述初始药物副作用概念用于表征药物副作用的名词;相应的,所述基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念包括如下步骤:
S201、在候选生成阶段,根据统计的文本相似度算法和标准副作用概念词典,得到所述药物副作用实体对应的若干候选标准副作用概念;
S202、在候选排序阶段,根据BERT的文本匹配算法得到药物副作用实体和候选标准副作用概念的相似度分值;
S203、将相似度分值最高的候选标准副作用概念作为初始药物副作用概念。
具体地,先在候选生成阶段,根据统计的文本相似度算法和标准副作用概念词典,得到所述药物副作用实体对应的若干候选标准副作用概念;如图4所示,例如,在生成候选阶段,为了加快检索的速度,本发明主要使用基于统计的方法来计算实体与标准副作用概念的相似度。然后在候选排序阶段,根据BERT的文本匹配算法得到药物副作用实体和候选标准副作用概念的相似度分值;为了保证生成的候选更具代表性,本发明使用了多种统计方法,如使用编辑距离计算抽取的实体与标准药物副作用概念间的文本相似度;使用Jaccard计算抽取的实体与标准药物副作用概念间的文本相似度;利用TF-IDF对实体和标准药物副作用概念进行表示,然后采用欧式距离计算两者之间的文本相似度;最后计算三个指标的平均值作为最终的相似度分数;最后,按照下式综合计算提取的副作用实体与标准概念的相似度得分:
如图5所示,entity为实体,candidate为候选;[CLS]为文本整体标记符,[SEP]为文本分隔符,Ecls为文本整体标记符的初始化表示,Ei(E1......EN)为实体中第i个词的表示,Esep为实体文本分隔符表示,Ei'(E1'......EN')为候选中第i个词的表示,Esep'为候选文本分隔符表示,C为经BERT转换后的文本整体标记符表示,Ti(T1......TM)为经BERT转换后实体中第i个词的表示,Tsep为经BERT转换后实体文本分隔符表示,Ti'(T1'......TM')为经BERT转换后候选中第i个词的表示,Tsep'为经BERT转换后候选文本分隔符表示;FC为全连接层,score为预测分数在输入层,hair is getting very thin为头发正在变得很稀疏;hairloss为脱发。设实体为序列,候选标准副作用概念为序列,将和的序列集合按照下述公式:
在匹配层,通过Transformer的多头自注意力机制对输入文本进行编码,并计算输入文本每个词关于其他词的注意力表示向量,输出编码后的表示向量。取标识符[CLS]的最后一层向量表示作为输入文本的最终向量表示,并使用一个全连接层对进行线性转换,最终使用激活函数进行激活,按下述公式所示:
其中,为权重,为标识符[CLS]的最后一层向量,为权重与标识符[CLS] 的最后一层向量的乘积,为神经网络的激活函数;为“药物副作用实体实体-候选标准副作用概念”的相似度得分。最后将相似度分值最高的候选标准副作用概念作为初始药物副作用概念。例如,选取相似度得分最高的为对应初始药物副作用概念。在本实施例中,候选标准副作用概念指的是模型的候选标准副作用的名词;初始药物副作用概念为初始药物副作用的名词;优化目标为交叉熵损失函数。
得到所述初始药物副作用概念后,接着执行如图1所示的如下步骤:步骤S300、根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。为了得到潜在药物副作用概念,相应的,所述根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念包括如下步骤:
步骤S301、将所述初始药物副作用概念和官方报告药物副作用概念进行匹配;
当所述初始药物副作用概念中存在与所述官方报告药物副作用概念相同的部分时,则将所述初始药物副作用概念中与所述官方报告药物副作用概念相同的部分剔除,得到潜在药物副作用概念。
具体地,官方报告药物副作用概念为官方报告的药物副作用信息,通过本发明实施例中的方法得到潜在药物副作用概念,然后将所述初始药物副作用概念和官方报告药物副作用概念进行匹配;当所述初始药物副作用概念中存在与所述官方报告药物副作用概念相同的部分时,则将所述初始药物副作用概念中与所述官方报告药物副作用概念相同的部分剔除,得到潜在药物副作用概念,能给患者自身、制药公司乃至国家卫生系统提供重要的参考。
示例性设备
如图6中所示,本发明实施例提供一种基于社交媒体数据分析的药物潜在副作用挖掘装置,该装置包括药物副作用实体获取单元401,初始药物副作用概念获取单元402,潜在药物副作用概念获取单元403;其中:
药物副作用实体获取单元401,用于获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;
初始药物副作用概念获取单元402,用于基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系;所述初始药物副作用概念用于表征药物副作用的名词;
潜在药物副作用概念获取单元403,用于根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图7所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于社交媒体数据分析的药物潜在副作用挖掘方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图7中的原理图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;
基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系;所述初始药物副作用概念用于表征药物副作用的名词;
根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明公开了一种基于社交媒体数据分析的药物潜在副作用挖掘方法,所述方法包括:获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系;所述初始药物副作用概念用于表征药物副作用的名词;根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。本发明实施例通过上述方法通过对广大民众最真实的用药体验进行分析,可以得到药物更加全面的潜在副作用信息。
基于上述实施例,本发明公开了一种基于社交媒体数据分析的药物潜在副作用挖掘方法,应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于社交媒体数据分析的药物潜在副作用挖掘方法,其特征在于,所述方法包括:
获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据,再基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体;其中,所述药物副作用实体用于表征药物副作用的实际描述;
基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念;其中,所述标准副作用概念词典为所述药物副作用实体与所述初始药物副作用概念的映射关系;所述初始药物副作用概念用于表征药物副作用的名词;
根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念;其中,所述官方报告药物副作用概念用于表征权威机构公开过的药物副作用的名词。
2.根据权利要求1所述的基于社交媒体数据分析的药物潜在副作用挖掘方法,其特征在于,所述获取社交媒体的药物评论数据并对所述药物评论数据进行数据预处理,得到药物评论预处理数据包括:
获取社交媒体的药物评论数据;
对所述药物评论数据进行数据清洗、句子边界检测和分词的数据预处理,得到药物评论预处理数据。
3.根据权利要求1所述的基于社交媒体数据分析的药物潜在副作用挖掘方法,其特征在于,所述基于经过训练的BERT语言模型识别所述药物评论预处理数据的药物副作用实体包括:
将所述药物评论预处理数据输入到经过训练的BERT语言模型,得到药物副作用实体。
4.根据权利要求3所述的基于社交媒体数据分析的药物潜在副作用挖掘方法,其特征在于,所述BERT语言模型的训练过程具体为:
根据药物副作用实体构建机器阅读理解问题;
获取训练实例三元组序列,其中,所述实例三元组序列包括question序列,answer序列,context序列;
将question序列和context序列进行拼接并输入至预设的语义理解模型,使用所述预设的语义理解模型的self-attention机制对question序列和context序列进行交互,输出所述药物副作用实体的开始位置概率和结束位置概率;
根据所述开始位置概率和所述结束位置概率,确定所述药物副作用实体的交叉熵损失函数;
根据所述交叉熵损失函数对所述预设的语义理解模型进行训练,得到训练好的BERT语言模型。
5.根据权利要求4所述的基于社交媒体数据分析的药物潜在副作用挖掘方法,其特征在于,所述self-attention机制的作用具体为:
对句子中的当前词和所述句子中除去所述当前词后的剩余词之间的相关性进行建模。
6.根据权利要求4所述的基于社交媒体数据分析的药物潜在副作用挖掘方法,其特征在于,所述根据所述开始位置概率和所述结束位置概率,确定所述药物副作用实体的交叉熵损失函数包括:
根据所述开始位置概率,计算所述药物副作用实体的开始位置损失函数;
根据所述结束位置概率,计算所述药物副作用实体的结束位置损失函数;
将所述开始位置损失函数加上所述结束位置损失函数,得到所述药物副作用实体的交叉熵损失函数。
7.根据权利要求1所述的基于社交媒体数据分析的药物潜在副作用挖掘方法,其特征在于,所述基于排序的实体标准化方式将所述药物副作用实体映射到标准副作用概念词典,得到初始药物副作用概念包括:
在候选生成阶段,根据统计的文本相似度算法和标准副作用概念词典,得到所述药物副作用实体对应的若干候选标准副作用概念;
在候选排序阶段,根据BERT的文本匹配算法得到药物副作用实体和候选标准副作用概念的相似度分值;
将相似度分值最高的候选标准副作用概念作为初始药物副作用概念。
8.根据权利要求7所述的基于社交媒体数据分析的药物潜在副作用挖掘方法,其特征在于,所述根据所述初始药物副作用概念和官方报告药物副作用概念,得到潜在药物副作用概念包括:
将所述初始药物副作用概念和官方报告药物副作用概念进行匹配;
当所述初始药物副作用概念中存在与所述官方报告药物副作用概念相同的部分时,则将所述初始药物副作用概念中与所述官方报告药物副作用概念相同的部分剔除,得到潜在药物副作用概念。
9.一种智能终端,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-8中任意一项所述的方法。
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110596995.2A CN113033210A (zh) | 2021-05-31 | 2021-05-31 | 一种基于社交媒体数据分析的药物潜在副作用挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110596995.2A CN113033210A (zh) | 2021-05-31 | 2021-05-31 | 一种基于社交媒体数据分析的药物潜在副作用挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113033210A true CN113033210A (zh) | 2021-06-25 |
Family
ID=76455916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110596995.2A Pending CN113033210A (zh) | 2021-05-31 | 2021-05-31 | 一种基于社交媒体数据分析的药物潜在副作用挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033210A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414465A (zh) * | 2020-03-16 | 2020-07-14 | 北京明略软件系统有限公司 | 基于知识图谱的问答系统中的处理方法和装置 |
CN111898643A (zh) * | 2020-07-01 | 2020-11-06 | 上海依图信息技术有限公司 | 一种语义匹配方法及装置 |
CN112016314A (zh) * | 2020-09-17 | 2020-12-01 | 汪秀英 | 一种基于bert模型的医疗文本理解方法及系统 |
CN112101027A (zh) * | 2020-07-24 | 2020-12-18 | 昆明理工大学 | 基于阅读理解的中文命名实体识别方法 |
CN112464662A (zh) * | 2020-12-02 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 医学短语匹配方法、装置、设备及存储介质 |
CN112541347A (zh) * | 2020-12-29 | 2021-03-23 | 浙大城市学院 | 一种基于预训练模型的机器阅读理解方法 |
-
2021
- 2021-05-31 CN CN202110596995.2A patent/CN113033210A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414465A (zh) * | 2020-03-16 | 2020-07-14 | 北京明略软件系统有限公司 | 基于知识图谱的问答系统中的处理方法和装置 |
CN111898643A (zh) * | 2020-07-01 | 2020-11-06 | 上海依图信息技术有限公司 | 一种语义匹配方法及装置 |
CN112101027A (zh) * | 2020-07-24 | 2020-12-18 | 昆明理工大学 | 基于阅读理解的中文命名实体识别方法 |
CN112016314A (zh) * | 2020-09-17 | 2020-12-01 | 汪秀英 | 一种基于bert模型的医疗文本理解方法及系统 |
CN112464662A (zh) * | 2020-12-02 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 医学短语匹配方法、装置、设备及存储介质 |
CN112541347A (zh) * | 2020-12-29 | 2021-03-23 | 浙大城市学院 | 一种基于预训练模型的机器阅读理解方法 |
Non-Patent Citations (5)
Title |
---|
CONG SUN ET AL.: "Biomedical named entity recognition using BERT in the machine reading comprehension framework", 《ARXIV:2009.01560V2》 * |
孙曰君 等: "基于BERT的临床术语标准化", 《中文信息学报》 * |
胡春涛 等: "基于BERT模型的舆情分类应用研究", 《网络安全技术与应用》 * |
赵明珍 等: "基于评论挖掘的药物副作用发现机制", 《中文信息学报》 * |
黄源航 等: "CHIP2019评测任务1概述:临床术语标准化任务", 《中文信息学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Basiri et al. | A novel method for sentiment classification of drug reviews using fusion of deep and machine learning techniques | |
Unanue et al. | Recurrent neural networks with specialized word embeddings for health-domain named-entity recognition | |
CN108986908B (zh) | 问诊数据处理方法、装置、计算机设备和存储介质 | |
Wang et al. | Dependency-based long short term memory network for drug-drug interaction extraction | |
CN109215754A (zh) | 病历数据处理方法、装置、计算机设备和存储介质 | |
Sweidan et al. | Sentence-level aspect-based sentiment analysis for classifying adverse drug reactions (ADRs) using hybrid ontology-XLNet transfer learning | |
CN110277167A (zh) | 基于知识图谱的慢性非传染性疾病风险预测系统 | |
Peng et al. | Human–machine dialogue modelling with the fusion of word-and sentence-level emotions | |
Barhoom et al. | Sarcasm Detection in Headline News using Machine and Deep Learning Algorithms | |
Zhang et al. | Cross-modal image sentiment analysis via deep correlation of textual semantic | |
Yu et al. | LSTM-based end-to-end framework for biomedical event extraction | |
Yan et al. | Research on public opinion sentiment classification based on attention parallel dual-channel deep learning hybrid model | |
Li et al. | Chemical-induced disease extraction via convolutional neural networks with attention | |
Madhuri | Detecting emotion from natural language text using hybrid and NLP pre-trained models | |
Miftahutdinov et al. | Drug and disease interpretation learning with biomedical entity representation transformer | |
Jofche et al. | Named entity recognition and knowledge extraction from pharmaceutical texts using transfer learning | |
Chanda et al. | To Judge Depression and Mental Illness on Social Media Using Twitter | |
Zhang et al. | Disease-pertinent knowledge extraction in online health communities using GRU based on a double attention mechanism | |
CN111782821B (zh) | 基于fm模型的医学热点的预测方法、装置和计算机设备 | |
CN113033210A (zh) | 一种基于社交媒体数据分析的药物潜在副作用挖掘方法 | |
Wang et al. | MAGE: multi-scale context-aware interaction based on multi-granularity embedding for chinese medical question answer matching | |
Cevallos et al. | Fake news detection on COVID 19 tweets via supervised learning approach | |
Chen et al. | Extraction of entity relations from Chinese medical literature based on multi-scale CRNN | |
Mali et al. | Prediction of depression using machine learning and NLP approach | |
Raj | Novel Method for Sentiment Analysis in Social Media Data Using Hybrid Deep Learning Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210625 |
|
RJ01 | Rejection of invention patent application after publication |