CN109657158A

CN109657158A - 一种基于社交网络数据的药品不良事件信息提取方法

Info

Publication number: CN109657158A
Application number: CN201811444462.7A
Authority: CN
Inventors: 由丽萍; 李朝翻
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-04-19
Anticipated expiration: 2038-11-29
Also published as: CN109657158B

Abstract

本发明公开了一种基于社交网络数据的药品不良事件信息提取方法，该方法包括以下步骤：抓取社交网络患者用药反馈文本；对评论文本进行数据预处理；对评论文本进行句法分析；对评论文本中的谓词进行语义类识别；识别评论文本中谓词所支配的主体语义角色；计算程度值；填充药品不良事件模板。本发明适用于药品不良事件信息的提取，药物种类不限；能够有效分析患者用药后的反馈信息，为药品的生产、经营、使用及药政部门的管理提供药品不良事件的咨询，利于业务的开展和管理的提高。

Description

一种基于社交网络数据的药品不良事件信息提取方法

技术领域

本发明属于信息抽取技术领域，具体地说，涉及一种基于社交网络数据的药品不良事件信息提取方法。

技术背景

药品不良事件(adverse drug event,简称ADE)是指服用药物治疗疾病过程中所发生的不幸的医疗卫生事件，是由药物引起或与药物相关的患者机体损害。药品不良事件的原因包括药品标准缺陷、药品不良反应、药品质量问题、药品滥用以及用药失误。在概念范围上药品不良事件大于药品不良反应，有些药品不良事件不一定与药物治疗存在因果关系。在涉及的机构和人群方面，药品不良事件涉及到生产和研究者、监管者、流通商、医生、护士、药师、患者或消费者。本着“可疑即报”的原则，将传统的药品不良反应监测延伸至药品不良事件监测，对用药期间出现的各种医学事件都进行监督，可以更大程度地降低用药风险。

尽管药品上市前会进行临床实验分析，医院在临床使用过程中也有相应的集中监测上报制度，但是受到时间、检测对象等限制，，数据代表性差，得出的分析结果无法覆盖所有的药品不良事件，导致药品不良事件被低报或漏报，从而造成无法全面认知药品副作用和安全性注意事项。因此，利用社交网络数据提取药品不良事件信息可以作为现有药物不良事件呈报系统的补充，作为药品安全性和有效性管理工作的重要参考，具有重要的理论价值和现实意义。

发明内容

本发明的技术解决方案：一种基于社交网络数据的药品不良事件信息提取方法，包括以下基本步骤：

从社交网络中抓取网上患者对药物评论文本，以字符形式存储，并对获取的药物评论文本数据进行预处理；

根据依存语法体系，对评论文本进行句法分析，将句法结构描述为一个支配词及其从属成分构成的树结构，并标注主语、谓语、定语的依存关系；其中，所述支配词是谓语中心语；

确定依存句法结构中每一药物评论文本中处于支配地位的谓词，对谓词进行语义类识别，并依据预设规则标注谓词所支配的主体语义角色；其中，所述主体语义角色是从属于谓词的名词性短语、且在语义关系上是动作行为或性状描述的主体；

依据对药物评价文本的标注情况，确定药物评价描述的程度值，并将程度值填充入药品不良事件模板。

其中，在从社交网络中抓取网上患者对药物评论文本的步骤中，是利用爬虫技术从博客、微博、在线评论的社交网络中抓取。

其中，在对获取的用药物评论文本数据进行预处理的步骤中，预处理的步骤包括：

识别药物评论文本对应的评论者名称和URL标识，对药物评论文本进行分词和词性标注，识别药物评价文本中包含的药品名称；

对药物评论文本进行断句处理，以“，？！。”为标志，将文本切分为语块；

将药品名及其对应的评论语块存储于数据库。

其中，在确定依存句法结构中每一药物评论文本中处于支配地位的谓词的步骤中，谓词包括形容词、动词、成语和习用语，其句法功能包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语；对谓词进行语义类识别是根据语义分类词典进行识别。

其中，在依据预设规则标注谓词所支配的主体语义角色的步骤中，预设规则为：

若药物评价文本只有一个谓词，则不标注语义角色；

若药物评价文本的句法结构为“谓词-->词1”，且词1之前没有其他定语依存成分，且词1与谓词的句法关系为主谓，则标注词1为主体；

若药物评价文本的句法结构为“谓词-->词1”，且词1前有定语依存成分，即“词1-->词2，词2-->词3……”，则将“词3词2词1……”整个序列标注为主体；

若药物评价文本的句法结构为“谓词-->词1”，且词1之前没有其他定语依存成分，且词1与谓词的句法关系为定中结构，则标注词1为主体；

若药物评价文本的句法结构为“谓词-->词1”，且词1与谓词的句法关系为定中结构，若词1前有其他定语依存成分，即“词1-->词2，词2-->词3……”，则将“词3词2词1……”整个序列标注为主体。

其中，在确定药物评价描述的程度值的步骤中，包括步骤：

根据语义分类词典中对词语程度值的标注，将药物评价文本中谓词对应的程度值设置为药物评价描述程度值的初始值；

根据程度副词词表，扫描药物评价文本内是否有程度副词，若有，查阅副词词表，根据词表中的调节量值，将第一程度值设为初始值±调节量；其中，初始值>0.5的，取加号，初始值<0.5的取减号；如果赋值后的第一程度值>0.9，则输出第一程度值为0.9；如果赋值后的第一程度值<0.1，则输出第一程度值为0.1；

根据否定词词表，扫描药物评价文本内是否有否定词，若有，将程度值赋值为1-第一程度值，若无，输出第一程度值为最终结果。

其中，语义分类词典对每个词语定义其程度值，以0.1-0.9之间的浮点数表示，其中，0.5为中性，0.1-0.4为不良感受，数值越低表示不良感受越强，0.6-0.9为良好感受，数值越高表示良好感受越强。

其中，药品不良事件模板为：

E_i(dr_i,p_i,b_i,dgr_i)

其中，E_i为事件类型，对应谓词的语义类识别结果，dr_i为药物名称，对应评论文本预处理识别的药物名称，p_i为评论者，对应预处理中的评论者名称和URL标识，b_i为感知部位，对应主体语义角色，dgr_i为程度值，对应程度值计算结果。

其中，当一条评论就一个事件类型、同一感知部位用了多个评价语块描述时，取各评价语块程度值的平均值为最终程度值；若一条评论中识别为同一事件类型、同一感知部位的评价语块有n个，其中，第j个评价语块所计算的程度值为V_j,j＝1,2,3,…,n，则在一个事件类型E_i中，程度值dgr的计算公式为：

区别于现有技术，本发明提出一种基于社交网络数据的药品不良事件信息提取方法，该方法包括以下步骤：抓取社交网络患者用药反馈文本；对评论文本进行数据预处理；对评论文本进行句法分析；对评论文本中的谓词进行语义类识别；识别评论文本中谓词所支配的主体语义角色；计算程度值；填充药品不良事件模板。本发明适用于药品不良事件的提取，药物种类不限；能够有效分析患者用药后的反馈信息，为药品的生产、经营、使用及药政部门的管理提供药物不良事件的咨询，利于业务的开展和管理的提高。

附图说明

图1为本发明提供的一种基于社交网络数据的药品不良事件信息提取方法的流程示意图。

图2为本发明提供的一种基于社交网络数据的药品不良事件信息提取方法的逻辑示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1和图2，图1是本发明提供的一种基于社交网络数据的药品不良事件信息提取方法的流程示意图；图2是本发明提供的一种基于社交网络数据的药品不良事件信息提取方法的逻辑示意图。该方法的步骤包括：

S110：从社交网络中抓取网上患者对药物评论文本，以字符形式存储，并对获取的用药物评论文本数据进行预处理。

在从社交网络中抓取网上患者对药物评论文本的步骤中，利用爬虫技术，从博客、微博、在线评论等社交网络中抓取患者对药物的评论文本，例如知乎、微博话题中含有“副作用”和药物不良反应等信息的问答记录，医疗在线评论和药品电商评论中的相关评论，等等。以字符形式存储于本地数据库中。

在对获取的药物评论文本数据进行预处理的步骤中，预处理的步骤包括：

药品名称识别分以下情况处理：

对于半结构化数据，依据文档的结构信息提取药品名称。例如，对于药品电子商务网站评论数据，通过解析*.htm文件，利用源代码结构信息，提取药品名称。

如：提取*.htm的“<h2 class＝"fn c3 f18"style＝"width:420px；max-height:52px；overflow:hidde n；text-overflow:ellipsis；"><span class＝"yaoIco d-icos d-icos-1"></span>广誉远定坤丹</h2>”中的药品名称“广誉远定坤丹”

对于非结构化数据，利用命名实体识别规则提取药品名称。例如从经过分词和词性标注的评论文本中利用规则识别药品名称，所述药品名称识别规则为：从词性标注结果中，识别标记为nz(专有名词)的词语；扫描标注为nz的词语的前两个词和后两个词，匹配以下模式，将符合下列模式的字符串中的*识别为药品名称：

表1药品名称识别模式(*为药品名称)

模式	实例
		服用v*nz	服用舍曲林
#m片/盒/瓶p*nz(#表示任意数词)	两片舍曲林
		吃v了u*nz	吃了健胃消食片
*nz的u副作用n	舍曲林的副作用
		长期a使用v*nz	长期使用美多丽托吡卡

将药品名及其对应的评论语块存储于数据库。

S120：根据依存语法体系，对评论文本进行句法分析，将句法结构描述为一个支配词及其从属成分构成的树结构，并标注主语、谓语、定语的依存关系；其中，所述支配词是谓语中心语。

在确定依存句法结构中每一药物评论文本中处于支配地位的谓词的步骤中，谓词包括形容词、动词、成语和习用语，其句法功能包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语；对谓词进行语义类识别是根据语义分类词典进行识别。

依存句法分析中的句法功能标记与语义结构的对应有较强的规律性，因此采取基于依存句法分析的方法，有效地识别句子中的谓词及其语义角色所在的短语，从而为语义标注提供规则依据。本发明进行语义标注时，是采用哈工大社会计算与信息检索研究中心的语言技术平台(LTP)提供的句法分析器，经python语言编译，实现分词、词性标注和依存句法分析。

所述句法关系分析标记如表2所示：

表2句法关系标记体系

句法关系	标记
		依存关系	-->
谓语核心词	HED
		主谓关系	SBV
定中关系	ATT
		述宾关系	VOB
兼语	DBL
		定中关系	ATT
状中结构	ADV
		动补结构	CMP
并列关系	COO
		介宾关系	POB
左附加关系	LAD
		右附加关系	RAD
独立结构	IS
		标点	WP

S130：确定依存句法结构中每一药物评论文本中处于支配地位的谓词，对谓词进行语义类识别，并依据预设规则标注谓词所支配的主体语义角色；其中，所述主体语义角色是从属于谓词的名词性短语、且在语义关系上是动作行为或性状描述的主体。

对评论文本中的谓词进行语义类识别时，语义类为谓词所属的概念意义类别，如动词“颤抖、抖动、发抖”等属于[身体振动]类。所述语义类识别过程包括以下步骤：

(1)定位句子中的谓词，即动词、形容词、成语和习用语，在依存句法结构中处于支配地位，包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语；

(2)根据语义分类词典匹配词语的语义类。

所述药品不良事件语义分类词典是对表达不良事件的谓词按其概念意义和场景意义的区分的类别，分类细化；所述语义分类词典对每个词语定义其程度值，以0.1-0.9之间的浮点数表示，其中，0.5为中性，0.1-0.4为不良感受，数值越低表示不良感受越强，0.6-0.9为良好感受，数值越高表示良好感受越强。所述药品不良事件语义分类词典如表3所示。

其中。药品不良事件语义分类词典是根据著作《现代汉语框架语义网》(刘开瑛，由丽萍.科学出版社,2015.)涉及的方法，以美国语言学家Fillmore提出的框架语义理论为基础，从社交网络药品评论收集药品不良事件词语，按词语语义理解中的概念场景(即框架语义)构建药品不良事件领域的语义分类体系。表三是上述药品不良事件语义分类词典的部分内容。

表3药品不良事件语义分类词典(部分)

识别评论文本中谓词所支配的主体语义角色：所述主体语义角色为从属于谓词的名词性短语，在语义关系上是动作行为或性状描述的主体。如“浑身颤抖”中谓词“颤抖”所支配的主语成分“浑身”为“颤抖”这一动作的主体。

在依据预设规则标注谓词所支配的主体语义角色的步骤中，预设规则为：

若药物评价文本只有一个谓词，则不标注语义角色；

S140：依据对药物评价文本的标注情况，确定药物评价文本的程度值，并将程度值填充入药品不良事件模板。

在确定药物评价文本的程度值的步骤中，包括步骤：

根据语义分类词典中对词语程度值的标注，将药物评价文本中谓词对应的程度值设置为药物评价文本程度值的初始值；

根据程度副词词表，扫描药物评价文本内是否有程度副词，若有，查阅副词词表，根据词表中的调节量值，将第一程度值设为初始值±调节量；其中，初始值>0.5的，取加号，初始值<0.5的取减号；如果赋值后的第一程度值>0.9，则输出第一程度值为0.9；如果赋值后的第一程度值<0.1，则输出第一程度值为0.1。

程度副词词表如下，括号内为调节量：

大(0.1)，不能再(0.2)，实在(0.1)，差不多(0)，有点(0)，点(0)，一点(0)，蛮(0.1)，偏(0)，稍微(0)，比较(0)，较(0)，有些(0)，各种(0.1)，还(0)，好(0.1)，很(0.1)，挺(0.1)，相当(0.1)，真(0.1)，足够(0.1)，够(0.1)，甚(0.1)，完全(0.2)，太(0.2)，特别(0.2)，最大(0.2)，非常(0.2)，最(0.2)，绝(0.3)，极(0.2)，极其(0.3)，十分(0.2)，超(0.3)，强力(0.2)，非常非常(0.3)

否定副词词表如下：

并不，不，不必，不大，不可，不许，不要，不意，不用，不再，不曾，不至于，不致，不住，毫不，决不，绝不，没，没有，永不，再不，无处，无从，无端，无须，无庸，无由，一无，勿，毋庸

其中，药品不良事件模板为：

E_i(dr_i,p_i,b_i,dgr_i)

以下为本发明的具体实施方式。

使用来自微博的2个评论进行分析，原句为：

1.长期服用“格列卫”。药物副作用导致脸部浮肿，头发花白，提前衰老。

2.服用盐酸度洛西汀肠溶胶囊，最近四天出现胸闷气短，心慌，坐立不安，身体发抖，心跳特别快，腰酸背痛，浑身乏力。

第一步，对评论文本进行数据预处理

分词和词性标注后，句子如下：

1.长期/d 服用/v “/wp 格列卫/nz ”/wp 。/wp 药物/n 副作用/n 导致/v 脸部/n 浮肿/v ，/wp 头发/n 花白/a ，/wp 提前/v 衰老/a 。/wp

2.服用/v 盐酸度洛西汀肠溶胶囊/nz ，/wp 最近/nt 四天/nt 出现/v 胸闷气短/i ，/wp 心慌/v ，/wp 坐立不安/i ，/wp 身体/n 发抖/v ，/wp 心跳/v 特别/d 快/a，/wp 腰酸背痛/i ，/wp 浑身/n 乏力/a 。/wp

药品名称识别：按照表1的药品名称识别模式，匹配经过分词、词性标注的句子。评论1和评论2均包含nz标记的名词，即专有名词；由nz标记的词语向前扫描两个词语，与模式“服用v*nz”成功匹配，因此，将nz所标识的名词识别为药物名称，分别为“格列卫”和“盐酸度洛西汀肠溶胶囊”。

对评论文本进行断句处理，以“，？！。”为标志，将文本切分为语块；将药品名及其对应的评论语块存储于数据库，如表4所示。

表4预处理后语块

药品名	评论语块
		格列卫	长期/d 服用/v “/wp 格列卫/nz ”/wp 。/wp
格列卫	药物/n 副作用/n 导致/v 脸部/n 浮肿/v， /wp
		格列卫	头发/n 花白/a ，/wp
格列卫	提前/v 衰老/a 。/wp
		盐酸度洛西汀肠溶胶囊	服用/v 盐酸度洛西汀肠溶胶囊/nz ，/wp
盐酸度洛西汀肠溶胶囊	最近/nt 四天/nt 出现/v 胸闷气短/i ，/wp
		盐酸度洛西汀肠溶胶囊	坐立不安/i ，/wp
盐酸度洛西汀肠溶胶囊	身体/n 发抖/v ，/wp
		盐酸度洛西汀肠溶胶囊	心跳/v 特别/d 快/a ，/wp
盐酸度洛西汀肠溶胶囊	腰酸背痛/i ，/wp
		盐酸度洛西汀肠溶胶囊	浑身/n 乏力/a 。/wp

第二步，对评论文本进行句法分析

例如语块“药物副作用导致脸部浮肿”的依存句法分析结果为：

HED:导致

-->副作用:SBV

-->药物:ATT

-->浮肿:VOB

-->脸部:SBV

语块“头发花白”的分析结果为：

HED:花白

-->头发:SBV

语块“身体发抖”的分析结果为：

HED:发抖

-->身体:SBV

语块“心跳特别快”的分析结果为：

HED:快

-->心跳:SBV

-->特别:ADV

第三步，对评论文本中的谓词进行语义类识别

对句法分析结果中的谓词，即以上实例中标记为HED的词语，按照语义分类词典匹配其所属的语义类，标记如下：

表5语义类识别实例

编号	评论语块
		ch1	药物/n 副作用/n 导致/v 脸部/n <<sub>肿胀</sub>浮肿/v> ，/wp
ch2	头发/n <<sub>颜色</sub>花白/a> ，/wp
		ch3	提前/v <<sub>老幼</sub>衰老/a> 。/wp
ch4	最近/nt 四天/nt 出现/v <<sub>呼吸</sub>胸闷气短/i> ，/wp
		ch5	<<sub>惧怕</sub> 坐立不安/i> ，/wp
ch6	身体/n <<sub>身体颤动</sub> 发抖/v> ，/wp
		ch7	心跳/v 特别/d <<sub>快慢</sub>快/a> ，/wp
ch8	<<sub>疼痛</sub>腰酸背痛/i> ，/wp
		ch9	浑身/n <<sub>疲累</sub>乏力/a> 。/wp

第四步，识别评论文本中谓词所支配的主体语义角色

语块ch1，由于谓词“浮肿”支配一个身体部位词语“脸部”，且句法关系为主语(SBV)，根据规则，标注“脸部”为主体。该规则同样适用于ch2,ch6,ch7,ch9。

语块ch3，由于谓词“衰老”没有从属成分，根据规则，不标注语义角色。该规则同样适用于ch4,ch5,ch8。

第五步，程度值计算

根据语义分类词典，以词典中的程度值作为初始值，由于语块ch1,ch2,ch3,ch4,ch5,ch6,ch8,ch9没有否定词和副词，因此以初始值为最终值，分别为0.4,0.4,0.4,0.3,0.3,0.4,0.4,0.4；语块ch7出现了程度副词“特别”，根据副词表中的调节量，(初始值-0.2)为该语块的程度值，即0.2。

第六步，填充药品不良事件模板

采用模式E_i(dr_i,p_i,b_i,dgr_i)，提取结果按顺序依次表示，如果某一元素在语块中被省略，则以“null”填充。针对患者的评论1和评论2，提取语义信息，包括：根据语义类识别结果，提取事件类型E,根据预处理结果提取药物名称dr和评论者p，根据语义角色标注结果提取感知部位b，根据程度值计算规则和公式，得出整个药品不良事件的程度值dgr。

评论1的提取结果为：

膨胀(格列卫,网络新闻联播https://s.weibo.com/weibo/％25E8％……,脸部,0.4)

颜色(格列卫,网络新闻联播https://s.weibo.com/weibo/％25E8％……,头发,0.4)

老幼(格列卫,网络新闻联播https://s.weibo.com/weibo/％25E8％……,null,0.4)

评论2的提取结果为：

呼吸(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo？q＝％E8％8D％……,null,0.3)

惧怕(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo？q＝％E8％8D％……,null,0.3)

身体颤动(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo？q＝％E8％8D％……,身体,0.3)

快慢(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo？q＝％E8％8D％……,心跳,0.2)

疼痛(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo？q＝％E8％8D％……,null,0.4)

疲累(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo？q＝％E8％8D％……,浑身,0.3)

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于社交网络数据的药品不良事件信息提取方法，其特征在于，包括：

2.根据权利要求1所述的基于社交网络数据的药品不良事件信息提取方法，其特征在于，在从社交网络中抓取网上患者对药物评论文本的步骤中，是利用爬虫技术从博客、微博、在线评论的社交网络中抓取。

3.根据权利要求1所述的基于社交网络数据的药品不良事件信息提取方法，其特征在于，在对获取的用药物评论文本数据进行预处理的步骤中，预处理的步骤包括：

将药品名及其对应的评论语块存储于数据库。

4.根据权利要求3所述的基于社交网络数据的药品不良事件信息提取方法，其特征在于，在确定依存句法结构中每一药物评论文本中处于支配地位的谓词的步骤中，谓词包括形容词、动词、成语和习用语，其句法功能包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语；对谓词进行语义类识别是根据语义分类词典进行识别。

5.根据权利要求4所述的基于社交网络数据的药品不良事件信息提取方法，其特征在于，在依据预设规则标注谓词所支配的主体语义角色的步骤中，预设规则为：

若药物评价文本只有一个谓词，则不标注语义角色；

6.根据权利要求1所述的基于社交网络数据的药品不良事件信息提取方法，其特征在于，在确定药物评价描述的程度值的步骤中，包括步骤：

7.根据权利要求6所述的基于社交网络数据的药品不良事件信息提取方法，其特征在于，语义分类词典对每个词语定义其程度值，以0.1-0.9之间的浮点数表示，其中，0.5为中性，0.1-0.4为不良感受，数值越低表示不良感受越强，0.6-0.9为良好感受，数值越高表示良好感受越强。

8.根据权利要求2所述的基于社交网络数据的药品不良事件信息提取方法，其特征在于，药品不良事件模板为：

E_i(dr_i,p_i,b_i,dgr_i)

9.根据权利要求2所述的基于社交网络数据的药品不良事件信息提取方法，其特征在于，当一条评论就一个事件类型、同一感知部位用了多个评价语块描述时，取各评价语块程度值的平均值为最终程度值；若一条评论中识别为同一事件类型、同一感知部位的评价语块有n个，其中，第j个评价语块所计算的程度值为V_j,j＝1,2,3,…,n，则在一个事件类型E_i中，程度值dgr的计算公式为：