CN113312470B

CN113312470B - 一种基于匿名化隐私保护技术的医疗事件抽取方法

Info

Publication number: CN113312470B
Application number: CN202110589943.2A
Authority: CN
Inventors: 李建欣; 李倩; 孙睿; 司靖辉; 毛乾任; 黄洪仁
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-05-31
Anticipated expiration: 2041-05-28
Also published as: CN113312470A

Abstract

本发明通过人工智能领域的方法，实现了一种基于匿名化隐私保护技术的医疗事件抽取方法。由事件检测模型和事件抽取模型构成；事件检测模型输入已发布新闻的概要信息或新闻正文的第一段落作为与标题进行信息交互的摘要文本，使用双向注意力流获取标题中的单词与摘要中文本的关联信息，之后通过单词嵌入层、双向注意力机制层、模型层、输出层的模型结构，采用Bi‑LSTM模型方法得到最终的分类标签；事件抽取模型通过抽取时间、地点、人物、组织机构、v‑n词对五项参数的方式结构化表示从事件中提取的有效信息。最终实现了能够克服事件句中可能存在的实体语义信息不明的情况，以及利用语义依存树学习文本结构信息来弥补文本中实体含义部分缺失的问题的方法。

Description

一种基于匿名化隐私保护技术的医疗事件抽取方法

技术领域

本发明涉及人工智能领域，尤其涉及一种基于匿名化隐私保护技术的医疗事件抽取方法。

背景技术

自从互联网技术出现以来，对应的网络安全问题就受到广泛关注，其中隐私安全问题一直是重中之重。事件抽取技术是从文本中捕获事件并抽取事件的要素，是一种对文本内容的结构化分析。已有的事件抽取方法大多是基于模板的方法，这种方式只能抽取指定类型的事件且需要大量的标注工作，而针对开放域的事件抽取方法无需标注数据和不限事件类型。而文本中存在一些敏感信息被加密，这给我们的事件抽取任务增加了难度。目前针对涉及隐私内容的事件抽取技术的研究相对少，基本是模式匹配的方式，这种方式无法适用于语法结构复杂多变的文本。

事件抽取是信息抽取技术的一个重要分支，主要包括事件类型识别、触发词识别、事件要素识别、要素角色识别是个任务。通过事件抽取技术能够帮助我们结构化的展示事件发生的时间、地点、人物、行为等内容，帮助我们快速的掌握事件关键信息。对于有敏感信息保护的文本，目前没有一套基于隐私保护的开放域事件抽取方法与装置实现针对事件要素抽取的方法。而从带有敏感实体被隐去的文本中抽取事件要素并结构化展示是对用户隐私信息保护的同时对事件最直观的信息的捕捉，提升用户的体验。

发明内容

为此，本发明首先提出一种基于匿名化隐私保护技术的医疗事件抽取方法，由基于摘要-文本双向流注意力机制的事件检测模型和基于隐私保护的开放域事件抽取模型构成，其中检测模型主要用于识别事件的具体分类，而抽取模型则依赖检测模型中的标题-摘要相关度矩阵计算各个单词的权重指数，以协助识别事件中的关键要素，该方法最终输出具体的事件检测以及多元组(时间，地点，人物，组织机构，v-n词对)类型的事件结构化表示信息；所述事件检测模型输入已发布新闻的概要信息或新闻正文的第一段落作为与标题进行信息交互的摘要文本，使用双向注意力流获取标题中的单词与摘要中文本的关联信息，之后通过单词嵌入层采用预训练的Bert模型来对标题和摘要中的文本进行嵌入编码，并获取最后一层的隐向量作为标题和摘要中每个单词的表示向量，之后利用双向注意力机制层链接和融合标题与摘要中的信息，得到针对每一个标题单词的双向注意力机制层的输出向量后，利用模型层的Bi-LSTM模型学习标题中每个单词的新的上下文相关的表示信息，输出每个单词的隐向量，最后通过输出层，将所述每个单词的隐向量进行拼接后，经过一个全连接层获取针对每一个分类的计算结果，并通过softmax归一化后得到最终的分类标签予以输出；

所述事件抽取模型通过抽取时间、地点、人物、组织机构、v-n词对五项参数的方式结构化表示从事件中提取的有效信息。

所述利用双向注意力机制层链接和融合标题与摘要中的信息的具体方法为：标题中每个单词的嵌入编码表示向量表示为

{

,

,…

，摘要中每个单词的嵌入编码表示向量表示为

{

,

,…

，首先计算标题表示向量

与摘要表示向量

之间的相似度矩阵

，以

表示标题中的第

个词与摘要中第

个词的相似度值；

之后通过对相似度矩阵中

列进行softmax计算得到摘要中每个单词的权重，并进行加权加和的方式得到更新后的针对每一个标题单词

的摘要特征表示

，计算针对标题中的每一个单词，摘要中最相关的单词：

再通过对相似度矩阵

中的第

列来选取与标题单词

最相关的摘要单词

，从而针对每一列均得到一个最大值，将这些值进行进行softmax归一化来得到针对每一个标题单词所对应的权重，经过加权求和后得到新的标题特征表示

，计算针对摘要中的每一个词，标题中最相关的单词：

最后针对每一个标题单词

，将(

,

)进行向量拼接后得到双向注意力机制层的输出向量。

所述时间参数的抽取方法为：抽取具体的某年某月某日的时间信息，依据模板匹配的方式进行，通过设计“\\d{4}年\\d{1,2}月\\d{1,2}日”、“\\d{1,2}月\\d{1,2}日”与“\\d{1,2}日”三个正则表达式进行匹配，当匹配到的信息符合第二与第三类表达式时则采用新闻发布或者当前的时间年份、月份进行补全。

所述v-n词对的抽取方法为：首先根据所述事件检测模型中的相似度矩阵

计算每个单词的语义权重指数，从而获取词对的候选词集，具体实现方式为，针对标题中单词

所对应的

列中每一项进行加和得到单词

在摘要中的重要程度

：

然后计算与所述单词

对应的权重

相乘得到单词

最终的权重数值

，筛选权重大于阈值

的单词作为词对的候选词集：

在得到候选词集后，还需要依据文本的句法分析树中来获取单词之间的依存距离，得到的句法分析树，通过单词间依存距离的最近邻原则来组合候选词集中的动词与名词，再根据依存关系进行处理后得到最终的v-n词对。

所述地点、人物、组织机构信息只提取不包含隐私信息的实体信息，首先利用语义依存分析工具LTP所带的实体抽取模块进行初步的实体识别，在得到抽取结果后经过特殊字符过滤、停用词词典过滤方式筛选出高质量的实体。

本发明所要实现的技术效果在于：

1.本发明针对文本中存在的隐私信息保护措施，隐去的信息可能会影响事件类型识别，提出摘要-文本双向流注意力机制的事件检测方法，构建摘要生成任务来辅助事件检测，使事件句能根据摘要辅助决策，克服事件句中可能存在的实体语义信息不明的情况。

2．本发明针对事件模板统一定义难，数据标注困难，提出一套基于隐私保护的开放域事件抽取方法，利用语义依存树学习文本结构信息来弥补文本中实体含义部分缺失的问题。

附图说明

图1 事件检测模型；

图2 开放域事件抽取流程；

图3 句法分析结果；

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种基于匿名化隐私保护技术的医疗事件抽取方法，包括基于摘要-文本双向流注意力机制的事件检测模型和基于隐私保护的开放域事件抽取模型。

基于摘要-文本双向流注意力机制的事件检测模型

在针对具有隐私信息的标题进行处理时，我们使用双向注意力流来获取标题中的单词与摘要中文本的关联信息。然后选取已发布新闻的概要信息或者新闻正文的第一段落作为与标题进行信息交互的摘要文本，最后通过如图 1所示的模型来进行我们的事件检测过程。整个模型主要由单词嵌入层、双向注意力机制层、模型层和输出层这四个部分组成。

单词嵌入层

单词嵌入层用来为标题(Tile)和摘要(Abstract)信息中的每个单词获取在高维空间中的向量表示。在这里我们采用预训练的Bert模型来对标题和摘要中的文本进行嵌入编码，并获取最后一层的隐向量

{

,

,…

和

{

,

,…

作为标题和摘要中每个单词的表示向量。

双向流注意力机制层

该层主要负责链接和融合标题与摘要中的信息，通过注意力机制来找到不同信息中单词的对应关系。首先需要计算标题编码向量

与摘要编码向量

之间的相似度矩阵

，其中

则指的是标题中的第

个词与摘要中第

个词的相似度值，然后利用

来计算Title-to-Abstract与Abstract-to-Title两个方向的attetion值。

其中Title-to-Abstract计算的是针对标题中的每一个单词，摘要中的哪些单词对其是最相关的，在具体的处理过程中通过对相似度矩阵中

的摘要特征表示

。具体的公式如下所示：

(1)

(2)

而在Abstract-to-Title这个方向上计算的是针对摘要中的每一个词，标题中的哪些单词对其是最相关的，如果按照上述的计算方法得到的是针对摘要中每一个单词

的标题特征表示，而我们在下游任务中只用到了标题中的单词的特征向量，因此在这里进行了取最大值的方式，通过对相似度矩阵

中的第

列来选取与标题单词

最相关的摘要单词

，具体的公式如下所示：

(3)

(4)

最后针对每一个标题单词

，将(

,

)进行向量拼接后得到双向注意力机制层的输出向量。

模型层

在该层主要利用一个Bi-LSTM模型来学习标题中每个单词的新的上下文相关的表示信息，该表示信息将蕴含与下游的具体任务相关的表示特征。

输出层

该层则通过一个全连接层和softmax层组成，通过将模型层输出后的每个单词的隐向量进行拼接后经过一个全连接层获取针对每一个分类的计算结果，并通过softmax归一化后得到最终的分类标签。

基于隐私保护的开放域事件抽取模型

与传统的命名实体所描述的静态本体不同，事件通常描述的是某种事物的动作状态，往往以动词性短语为核心进行表示，其结构更为复杂。在本发明中，我们将事件的抽取建立在如下的假设之上：(1) 中文的语法模式是相对固定和一致的 (2) 事件的语义信息由它所包含的关键词汇决定。因此，我们采用 (时间，地点，人物，组织机构，v-n词对) 的方式来结构化表示从事件中提取的有效信息。该环节具体的流程如图 2所示。

(1) 时间提取

针对文本中的时间要素抽取，本次发明只考虑描述了具体的某年某月某日的时间信息，例如“2020年5月4日”、“7月14日”等。在具体的实现过程中主要依据模板匹配的方式进行，通过设计“\\d{4}年\\d{1,2}月\\d{1,2}日”、“\\d{1,2}月\\d{1,2}日”与“\\d{1,2}日”三个正则表达式来进行匹配，其中当匹配到的信息符合第二与第三类表达式时则采用新闻发布或者当前的时间年份、月份进行补全。

(2) v-n词对提取

在针对v-n词对进行提取时，首先需要根据前述事件检测模型中的相似度矩阵

计算每个单词的语义权重指数，从而获取词对的候选词集。具体实现方式为，针对标题中单词

所对应的

列中每一项进行加和得到单词

在摘要中的重要程度

，然后与公式(3)中

对应的权重

相乘得到单词

最终的权重数值

，筛选权重大于阈值

的单词作为词对的候选词集。具体公式如下所示：

(5)

(6)

在得到候选词集后，还需要依据文本的句法分析树中来获取单词之间的依存距离，例如针对例句“广州市中院对张XX贪污受贿案作出一审判决，张XX被判处死刑。”所得到的句法分析树如图 3所示。通过单词间依存距离的最近邻原则来组合候选词集中的动词与名词，再根据部分ATT等依存关系进行处理后得到最终的v-n词对，即(广州市中院，作出)、(判决，张XX)、(张XX，贪污受贿案)、(判处，死刑)。

(3) 地点、人物、组织机构提取

对于地点、人物与组织机构信息，本次发明只考虑明显的名称信息例如“广州市中院”、“张XX”等，对于间接指代的信息例如“这里”、“他”等一律不纳入参考范围。在具体的实现过程中，首先利用LTP所带的实体抽取模块进行初步的实体识别，在得到抽取结果后经过特殊字符过滤、停用词词典过滤等方式筛选出高质量的实体。例如针对示例句“广州市中院对张XX贪污受贿案作出一审判决，张XX被判处死刑。”的抽取结果为“广州市”(地点)、广州市中院(组织机构)、张XX(人物)。

Claims

1.一种基于匿名化隐私保护技术的医疗事件抽取方法，其特征在于：由基于摘要-文本双向流注意力机制的事件检测模型和基于隐私保护的开放域事件抽取模型构成，其中检测模型主要用于识别事件的事件类别，而抽取模型则依赖检测模型中的标题-摘要相关度矩阵计算各个单词的权重指数，以协助识别事件中的关键要素，该方法最终输出检测出的事件以及多元组(时间，地点，人物，组织机构，v-n词对)类型的事件结构化表示信息；所述事件检测模型输入医疗文本的概要信息或正文的第一段落作为与标题进行信息交互的摘要文本，使用双向注意力流获取标题中的单词与摘要中文本的关联信息，之后通过单词嵌入层采用预训练的Bert模型来对标题和摘要中的文本进行嵌入编码，并获取最后一层的隐向量作为标题和摘要中每个单词的表示向量，之后利用双向注意力机制层链接和融合标题与摘要中的信息，得到针对每一个标题单词的双向注意力机制层的输出向量后，利用模型层的Bi-LSTM模型学习标题中每个单词的新的上下文相关的表示信息，输出每个单词的隐向量，最后通过输出层，将所述每个单词的隐向量进行拼接后，经过一个全连接层获取针对每一个分类的计算结果，并通过softmax归一化后得到最终的分类标签予以输出；

所述事件抽取模型通过抽取时间、地点、人物、组织机构、v-n词对五项参数的方式结构化表示从事件中提取的有效信息；

所述利用双向注意力机制层链接和融合标题与摘要中信息的具体方法为：标题中每个单词的嵌入编码表示向量表示为

{

,

,…

，摘要中每个单词的嵌入编码表示向量表示为

{

,

,…

，首先计算标题表示向量

与摘要表示向量

之间的相似度矩阵

，以

表示标题中的第

个词与摘要中第

个词的相似度值；

之后通过对相似度矩阵中

列进行softmax计算得到摘要中每个单词的权重，并进行加权求和的方式得到更新后的针对每一个标题单词

的摘要特征表示

，计算针对标题中的每一个单词，与之相对应的摘要中最相关的单词：

再通过对相似度矩阵

中的第

列来选取与标题单词

最相关的摘要单词

，从而针对每一列均得到一个最大值，将这些值进行softmax归一化来得到针对每一个标题单词所对应的权重，经过加权求和后得到新的标题特征表示

，计算针对摘要中的每一个词，与之相对应的标题中最相关的单词：

最后针对每一个标题单词

，将(

,

)进行向量拼接后得到双向注意力机制层的输出向量；

所对应的

列中每一项进行加和得到单词

在摘要中的重要程度

：

然后计算与所述单词

对应的权重

相乘得到单词

最终的权重数值

，筛选权重大于阈值

的单词作为词对的候选词集：

2.如权利要求1所述的一种基于匿名化隐私保护技术的医疗事件抽取方法，其特征在于：时间参数的抽取方法为：抽取具体的某年某月某日的时间信息，依据模板匹配的方式进行，通过设计“\\d{4}年\\d{1,2}月\\d{1,2}日”、“\\d{1,2}月\\d{1,2}日”与“\\d{1,2}日”三个正则表达式进行匹配，当匹配到的信息符合第二与第三个表达式时，则采用新闻发布或者当前的时间年份、月份进行补全。

3.如权利要求2所述的一种基于匿名化隐私保护技术的医疗事件抽取方法，其特征在于：所述地点、人物、组织机构信息只提取不包含隐私信息的实体信息，首先利用语义依存分析工具LTP所带的实体抽取模块进行初步的实体识别，在得到抽取结果后经过特殊字符过滤、停用词词典过滤方式筛选出高质量的实体。