CN113312470B - 一种基于匿名化隐私保护技术的医疗事件抽取方法 - Google Patents

一种基于匿名化隐私保护技术的医疗事件抽取方法 Download PDF

Info

Publication number
CN113312470B
CN113312470B CN202110589943.2A CN202110589943A CN113312470B CN 113312470 B CN113312470 B CN 113312470B CN 202110589943 A CN202110589943 A CN 202110589943A CN 113312470 B CN113312470 B CN 113312470B
Authority
CN
China
Prior art keywords
word
title
abstract
information
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110589943.2A
Other languages
English (en)
Other versions
CN113312470A (zh
Inventor
李建欣
李倩
孙睿
司靖辉
毛乾任
黄洪仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110589943.2A priority Critical patent/CN113312470B/zh
Publication of CN113312470A publication Critical patent/CN113312470A/zh
Application granted granted Critical
Publication of CN113312470B publication Critical patent/CN113312470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明通过人工智能领域的方法,实现了一种基于匿名化隐私保护技术的医疗事件抽取方法。由事件检测模型和事件抽取模型构成;事件检测模型输入已发布新闻的概要信息或新闻正文的第一段落作为与标题进行信息交互的摘要文本,使用双向注意力流获取标题中的单词与摘要中文本的关联信息,之后通过单词嵌入层、双向注意力机制层、模型层、输出层的模型结构,采用Bi‑LSTM模型方法得到最终的分类标签;事件抽取模型通过抽取时间、地点、人物、组织机构、v‑n词对五项参数的方式结构化表示从事件中提取的有效信息。最终实现了能够克服事件句中可能存在的实体语义信息不明的情况,以及利用语义依存树学习文本结构信息来弥补文本中实体含义部分缺失的问题的方法。

Description

一种基于匿名化隐私保护技术的医疗事件抽取方法
技术领域
本发明涉及人工智能领域,尤其涉及一种基于匿名化隐私保护技术的医疗事件抽取方法。
背景技术
自从互联网技术出现以来,对应的网络安全问题就受到广泛关注,其中隐私安全问题一直是重中之重。事件抽取技术是从文本中捕获事件并抽取事件的要素,是一种对文本内容的结构化分析。已有的事件抽取方法大多是基于模板的方法,这种方式只能抽取指定类型的事件且需要大量的标注工作,而针对开放域的事件抽取方法无需标注数据和不限事件类型。而文本中存在一些敏感信息被加密,这给我们的事件抽取任务增加了难度。目前针对涉及隐私内容的事件抽取技术的研究相对少,基本是模式匹配的方式,这种方式无法适用于语法结构复杂多变的文本。
事件抽取是信息抽取技术的一个重要分支,主要包括事件类型识别、触发词识别、事件要素识别、要素角色识别是个任务。通过事件抽取技术能够帮助我们结构化的展示事件发生的时间、地点、人物、行为等内容,帮助我们快速的掌握事件关键信息。对于有敏感信息保护的文本,目前没有一套基于隐私保护的开放域事件抽取方法与装置实现针对事件要素抽取的方法。而从带有敏感实体被隐去的文本中抽取事件要素并结构化展示是对用户隐私信息保护的同时对事件最直观的信息的捕捉,提升用户的体验。
发明内容
为此,本发明首先提出一种基于匿名化隐私保护技术的医疗事件抽取方法,由基于摘要-文本双向流注意力机制的事件检测模型和基于隐私保护的开放域事件抽取模型构成,其中检测模型主要用于识别事件的具体分类,而抽取模型则依赖检测模型中的标题-摘要相关度矩阵计算各个单词的权重指数,以协助识别事件中的关键要素,该方法最终输出具体的事件检测以及多元组(时间,地点,人物,组织机构,v-n词对)类型的事件结构化表示信息;所述事件检测模型输入已发布新闻的概要信息或新闻正文的第一段落作为与标题进行信息交互的摘要文本,使用双向注意力流获取标题中的单词与摘要中文本的关联信息,之后通过单词嵌入层采用预训练的Bert模型来对标题和摘要中的文本进行嵌入编码,并获取最后一层的隐向量作为标题和摘要中每个单词的表示向量,之后利用双向注意力机制层链接和融合标题与摘要中的信息,得到针对每一个标题单词的双向注意力机制层的输出向量后,利用模型层的Bi-LSTM模型学习标题中每个单词的新的上下文相关的表示信息,输出每个单词的隐向量,最后通过输出层,将所述每个单词的隐向量进行拼接后,经过一个全连接层获取针对每一个分类的计算结果,并通过softmax归一化后得到最终的分类标签予以输出;
所述事件抽取模型通过抽取时间、地点、人物、组织机构、v-n词对五项参数的方式结构化表示从事件中提取的有效信息。
所述利用双向注意力机制层链接和融合标题与摘要中的信息的具体方法为:标题中每个单词的嵌入编码表示向量表示为
Figure DEST_PATH_IMAGE001
{
Figure 322373DEST_PATH_IMAGE002
,
Figure DEST_PATH_IMAGE003
,…
Figure 456552DEST_PATH_IMAGE004
,摘要中每个单词的嵌入编码表示向量表示为
Figure DEST_PATH_IMAGE005
{
Figure 349290DEST_PATH_IMAGE006
,
Figure DEST_PATH_IMAGE007
,…
Figure 543511DEST_PATH_IMAGE008
,首先计算标题表示向量
Figure 538012DEST_PATH_IMAGE001
与摘要表示向量
Figure 820089DEST_PATH_IMAGE005
之间的相似度矩阵
Figure DEST_PATH_IMAGE009
,以
Figure 911541DEST_PATH_IMAGE010
表示标题中的第
Figure DEST_PATH_IMAGE011
个词与摘要中第
Figure 604560DEST_PATH_IMAGE012
个词的相似度值;
之后通过对相似度矩阵中
Figure DEST_PATH_IMAGE013
列进行softmax计算得到摘要中每个单词的权重,并进行加权加和的方式得到更新后的针对每一个标题单词
Figure 289619DEST_PATH_IMAGE011
的摘要特征表示
Figure 562337DEST_PATH_IMAGE014
,计算针对标题中的每一个单词,摘要中最相关的单词:
Figure DEST_PATH_IMAGE015
Figure 383663DEST_PATH_IMAGE016
再通过对相似度矩阵
Figure 982003DEST_PATH_IMAGE009
中的第
Figure 623200DEST_PATH_IMAGE011
列来选取与标题单词
Figure 309397DEST_PATH_IMAGE011
最相关的摘要单词
Figure DEST_PATH_IMAGE017
,从而针对每一列均得到一个最大值,将这些值进行进行softmax归一化来得到针对每一个标题单词所对应的权重,经过加权求和后得到新的标题特征表示
Figure 641021DEST_PATH_IMAGE018
,计算针对摘要中的每一个词,标题中最相关的单词:
Figure DEST_PATH_IMAGE019
Figure 675842DEST_PATH_IMAGE020
最后针对每一个标题单词
Figure 804335DEST_PATH_IMAGE011
,将(
Figure DEST_PATH_IMAGE021
,
Figure 950014DEST_PATH_IMAGE014
)进行向量拼接后得到双向注意力机制层的输出向量。
所述时间参数的抽取方法为:抽取具体的某年某月某日的时间信息,依据模板匹配的方式进行,通过设计“\\d{4}年\\d{1,2}月\\d{1,2}日”、“\\d{1,2}月\\d{1,2}日”与“\\d{1,2}日”三个正则表达式进行匹配,当匹配到的信息符合第二与第三类表达式时则采用新闻发布或者当前的时间年份、月份进行补全。
所述v-n词对的抽取方法为:首先根据所述事件检测模型中的相似度矩阵
Figure 949194DEST_PATH_IMAGE009
计算每个单词的语义权重指数,从而获取词对的候选词集,具体实现方式为,针对标题中单词
Figure 764703DEST_PATH_IMAGE011
所对应的
Figure 629760DEST_PATH_IMAGE013
列中每一项进行加和得到单词
Figure 798704DEST_PATH_IMAGE011
在摘要中的重要程度
Figure 432817DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
然后计算与所述单词
Figure 91331DEST_PATH_IMAGE011
对应的权重
Figure 381367DEST_PATH_IMAGE024
相乘得到单词
Figure 150740DEST_PATH_IMAGE011
最终的权重数值
Figure DEST_PATH_IMAGE025
,筛选权重大于阈值
Figure 373780DEST_PATH_IMAGE026
的单词作为词对的候选词集:
Figure DEST_PATH_IMAGE027
在得到候选词集后,还需要依据文本的句法分析树中来获取单词之间的依存距离,得到的句法分析树,通过单词间依存距离的最近邻原则来组合候选词集中的动词与名词,再根据依存关系进行处理后得到最终的v-n词对。
所述地点、人物、组织机构信息只提取不包含隐私信息的实体信息,首先利用语义依存分析工具LTP所带的实体抽取模块进行初步的实体识别,在得到抽取结果后经过特殊字符过滤、停用词词典过滤方式筛选出高质量的实体。
本发明所要实现的技术效果在于:
1.本发明针对文本中存在的隐私信息保护措施,隐去的信息可能会影响事件类型识别,提出摘要-文本双向流注意力机制的事件检测方法,构建摘要生成任务来辅助事件检测,使事件句能根据摘要辅助决策,克服事件句中可能存在的实体语义信息不明的情况。
2.本发明针对事件模板统一定义难,数据标注困难,提出一套基于隐私保护的开放域事件抽取方法,利用语义依存树学习文本结构信息来弥补文本中实体含义部分缺失的问题。
附图说明
图1 事件检测模型;
图2 开放域事件抽取流程;
图3 句法分析结果;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了一种基于匿名化隐私保护技术的医疗事件抽取方法,包括基于摘要-文本双向流注意力机制的事件检测模型和基于隐私保护的开放域事件抽取模型。
基于摘要-文本双向流注意力机制的事件检测模型
在针对具有隐私信息的标题进行处理时,我们使用双向注意力流来获取标题中的单词与摘要中文本的关联信息。然后选取已发布新闻的概要信息或者新闻正文的第一段落作为与标题进行信息交互的摘要文本,最后通过如图 1所示的模型来进行我们的事件检测过程。整个模型主要由单词嵌入层、双向注意力机制层、模型层和输出层这四个部分组成。
单词嵌入层
单词嵌入层用来为标题(Tile)和摘要(Abstract)信息中的每个单词获取在高维空间中的向量表示。在这里我们采用预训练的Bert模型来对标题和摘要中的文本进行嵌入编码,并获取最后一层的隐向量
Figure 203196DEST_PATH_IMAGE001
{
Figure 246107DEST_PATH_IMAGE002
,
Figure 819171DEST_PATH_IMAGE003
,…
Figure 975346DEST_PATH_IMAGE004
Figure 428192DEST_PATH_IMAGE005
{
Figure 240291DEST_PATH_IMAGE006
,
Figure 679362DEST_PATH_IMAGE007
,…
Figure 345836DEST_PATH_IMAGE008
作为标题和摘要中每个单词的表示向量。
双向流注意力机制层
该层主要负责链接和融合标题与摘要中的信息,通过注意力机制来找到不同信息中单词的对应关系。首先需要计算标题编码向量
Figure 517054DEST_PATH_IMAGE001
与摘要编码向量
Figure 144345DEST_PATH_IMAGE005
之间的相似度矩阵
Figure 246162DEST_PATH_IMAGE009
,其中
Figure 642508DEST_PATH_IMAGE010
则指的是标题中的第
Figure 984628DEST_PATH_IMAGE011
个词与摘要中第
Figure 223848DEST_PATH_IMAGE012
个词的相似度值,然后利用
Figure 739143DEST_PATH_IMAGE009
来计算Title-to-Abstract与Abstract-to-Title两个方向的attetion值。
其中Title-to-Abstract计算的是针对标题中的每一个单词,摘要中的哪些单词对其是最相关的,在具体的处理过程中通过对相似度矩阵中
Figure 927679DEST_PATH_IMAGE013
列进行softmax计算得到摘要中每个单词的权重,并进行加权加和的方式得到更新后的针对每一个标题单词
Figure 830913DEST_PATH_IMAGE011
的摘要特征表示
Figure 167216DEST_PATH_IMAGE014
。具体的公式如下所示:
Figure 673153DEST_PATH_IMAGE015
(1)
Figure 919457DEST_PATH_IMAGE016
(2)
而在Abstract-to-Title这个方向上计算的是针对摘要中的每一个词,标题中的哪些单词对其是最相关的,如果按照上述的计算方法得到的是针对摘要中每一个单词
Figure 524751DEST_PATH_IMAGE017
的标题特征表示,而我们在下游任务中只用到了标题中的单词的特征向量,因此在这里进行了取最大值的方式,通过对相似度矩阵
Figure 82771DEST_PATH_IMAGE009
中的第
Figure 595661DEST_PATH_IMAGE011
列来选取与标题单词
Figure 493210DEST_PATH_IMAGE011
最相关的摘要单词
Figure 410350DEST_PATH_IMAGE017
,从而针对每一列均得到一个最大值,将这些值进行进行softmax归一化来得到针对每一个标题单词所对应的权重,经过加权求和后得到新的标题特征表示
Figure 908197DEST_PATH_IMAGE018
,具体的公式如下所示:
Figure 709931DEST_PATH_IMAGE028
(3)
Figure DEST_PATH_IMAGE029
(4)
最后针对每一个标题单词
Figure 976833DEST_PATH_IMAGE011
,将(
Figure 471399DEST_PATH_IMAGE021
,
Figure 4012DEST_PATH_IMAGE014
)进行向量拼接后得到双向注意力机制层的输出向量。
模型层
在该层主要利用一个Bi-LSTM模型来学习标题中每个单词的新的上下文相关的表示信息,该表示信息将蕴含与下游的具体任务相关的表示特征。
输出层
该层则通过一个全连接层和softmax层组成,通过将模型层输出后的每个单词的隐向量进行拼接后经过一个全连接层获取针对每一个分类的计算结果,并通过softmax归一化后得到最终的分类标签。
基于隐私保护的开放域事件抽取模型
与传统的命名实体所描述的静态本体不同,事件通常描述的是某种事物的动作状态,往往以动词性短语为核心进行表示,其结构更为复杂。在本发明中,我们将事件的抽取建立在如下的假设之上:(1) 中文的语法模式是相对固定和一致的 (2) 事件的语义信息由它所包含的关键词汇决定。因此,我们采用 (时间,地点,人物,组织机构,v-n词对) 的方式来结构化表示从事件中提取的有效信息。该环节具体的流程如图 2所示。
(1) 时间提取
针对文本中的时间要素抽取,本次发明只考虑描述了具体的某年某月某日的时间信息,例如“2020年5月4日”、“7月14日”等。在具体的实现过程中主要依据模板匹配的方式进行,通过设计“\\d{4}年\\d{1,2}月\\d{1,2}日”、“\\d{1,2}月\\d{1,2}日”与“\\d{1,2}日”三个正则表达式来进行匹配,其中当匹配到的信息符合第二与第三类表达式时则采用新闻发布或者当前的时间年份、月份进行补全。
(2) v-n词对提取
在针对v-n词对进行提取时,首先需要根据前述事件检测模型中的相似度矩阵
Figure 655442DEST_PATH_IMAGE009
计算每个单词的语义权重指数,从而获取词对的候选词集。具体实现方式为,针对标题中单词
Figure 465266DEST_PATH_IMAGE011
所对应的
Figure 989788DEST_PATH_IMAGE013
列中每一项进行加和得到单词
Figure 399910DEST_PATH_IMAGE011
在摘要中的重要程度
Figure 340184DEST_PATH_IMAGE022
,然后与公式(3)中
Figure 394728DEST_PATH_IMAGE011
对应的权重
Figure 214785DEST_PATH_IMAGE024
相乘得到单词
Figure 721990DEST_PATH_IMAGE011
最终的权重数值
Figure 465955DEST_PATH_IMAGE025
,筛选权重大于阈值
Figure 765218DEST_PATH_IMAGE026
的单词作为词对的候选词集。具体公式如下所示:
Figure 365964DEST_PATH_IMAGE030
(5)
Figure DEST_PATH_IMAGE031
(6)
在得到候选词集后,还需要依据文本的句法分析树中来获取单词之间的依存距离,例如针对例句“广州市中院对张XX贪污受贿案作出一审判决,张XX被判处死刑。”所得到的句法分析树如图 3所示。通过单词间依存距离的最近邻原则来组合候选词集中的动词与名词,再根据部分ATT等依存关系进行处理后得到最终的v-n词对,即(广州市中院,作出)、(判决,张XX)、(张XX,贪污受贿案)、(判处,死刑)。
(3) 地点、人物、组织机构提取
对于地点、人物与组织机构信息,本次发明只考虑明显的名称信息例如“广州市中院”、“张XX”等,对于间接指代的信息例如“这里”、“他”等一律不纳入参考范围。在具体的实现过程中,首先利用LTP所带的实体抽取模块进行初步的实体识别,在得到抽取结果后经过特殊字符过滤、停用词词典过滤等方式筛选出高质量的实体。例如针对示例句“广州市中院对张XX贪污受贿案作出一审判决,张XX被判处死刑。”的抽取结果为“广州市”(地点)、广州市中院(组织机构)、张XX(人物)。

Claims (3)

1.一种基于匿名化隐私保护技术的医疗事件抽取方法,其特征在于:由基于摘要-文本双向流注意力机制的事件检测模型和基于隐私保护的开放域事件抽取模型构成,其中检测模型主要用于识别事件的事件类别,而抽取模型则依赖检测模型中的标题-摘要相关度矩阵计算各个单词的权重指数,以协助识别事件中的关键要素,该方法最终输出检测出的事件以及多元组(时间,地点,人物,组织机构,v-n词对)类型的事件结构化表示信息;所述事件检测模型输入医疗文本的概要信息或正文的第一段落作为与标题进行信息交互的摘要文本,使用双向注意力流获取标题中的单词与摘要中文本的关联信息,之后通过单词嵌入层采用预训练的Bert模型来对标题和摘要中的文本进行嵌入编码,并获取最后一层的隐向量作为标题和摘要中每个单词的表示向量,之后利用双向注意力机制层链接和融合标题与摘要中的信息,得到针对每一个标题单词的双向注意力机制层的输出向量后,利用模型层的Bi-LSTM模型学习标题中每个单词的新的上下文相关的表示信息,输出每个单词的隐向量,最后通过输出层,将所述每个单词的隐向量进行拼接后,经过一个全连接层获取针对每一个分类的计算结果,并通过softmax归一化后得到最终的分类标签予以输出;
所述事件抽取模型通过抽取时间、地点、人物、组织机构、v-n词对五项参数的方式结构化表示从事件中提取的有效信息;
所述利用双向注意力机制层链接和融合标题与摘要中信息的具体方法为:标题中每个单词的嵌入编码表示向量表示为
Figure 788138DEST_PATH_IMAGE001
{
Figure 257165DEST_PATH_IMAGE002
,
Figure 286301DEST_PATH_IMAGE003
,…
Figure 995631DEST_PATH_IMAGE004
,摘要中每个单词的嵌入编码表示向量表示为
Figure 867641DEST_PATH_IMAGE005
{
Figure 15726DEST_PATH_IMAGE006
,
Figure 774734DEST_PATH_IMAGE007
,…
Figure 169812DEST_PATH_IMAGE008
,首先计算标题表示向量
Figure 873326DEST_PATH_IMAGE001
与摘要表示向量
Figure 700468DEST_PATH_IMAGE005
之间的相似度矩阵
Figure 625567DEST_PATH_IMAGE009
,以
Figure 4596DEST_PATH_IMAGE010
表示标题中的第
Figure 70772DEST_PATH_IMAGE011
个词与摘要中第
Figure 826239DEST_PATH_IMAGE012
个词的相似度值;
之后通过对相似度矩阵中
Figure 605845DEST_PATH_IMAGE013
列进行softmax计算得到摘要中每个单词的权重,并进行加权求和的方式得到更新后的针对每一个标题单词
Figure 296720DEST_PATH_IMAGE011
的摘要特征表示
Figure 974826DEST_PATH_IMAGE014
,计算针对标题中的每一个单词,与之相对应的摘要中最相关的单词:
Figure 189776DEST_PATH_IMAGE015
Figure 777883DEST_PATH_IMAGE016
再通过对相似度矩阵
Figure 498714DEST_PATH_IMAGE009
中的第
Figure 54329DEST_PATH_IMAGE011
列来选取与标题单词
Figure 823702DEST_PATH_IMAGE011
最相关的摘要单词
Figure 125371DEST_PATH_IMAGE017
,从而针对每一列均得到一个最大值,将这些值进行softmax归一化来得到针对每一个标题单词所对应的权重,经过加权求和后得到新的标题特征表示
Figure 407316DEST_PATH_IMAGE018
,计算针对摘要中的每一个词,与之相对应的标题中最相关的单词:
Figure 997698DEST_PATH_IMAGE019
Figure 367499DEST_PATH_IMAGE020
最后针对每一个标题单词
Figure 179466DEST_PATH_IMAGE011
,将(
Figure 179783DEST_PATH_IMAGE021
,
Figure 54198DEST_PATH_IMAGE014
)进行向量拼接后得到双向注意力机制层的输出向量;
所述v-n词对的抽取方法为:首先根据所述事件检测模型中的相似度矩阵
Figure 883483DEST_PATH_IMAGE009
计算每个单词的语义权重指数,从而获取词对的候选词集,具体实现方式为,针对标题中单词
Figure 425323DEST_PATH_IMAGE011
所对应的
Figure 596541DEST_PATH_IMAGE013
列中每一项进行加和得到单词
Figure 82886DEST_PATH_IMAGE011
在摘要中的重要程度
Figure 60069DEST_PATH_IMAGE022
Figure 597361DEST_PATH_IMAGE023
然后计算与所述单词
Figure 267377DEST_PATH_IMAGE011
对应的权重
Figure 303335DEST_PATH_IMAGE024
相乘得到单词
Figure 959575DEST_PATH_IMAGE011
最终的权重数值
Figure 210428DEST_PATH_IMAGE025
,筛选权重大于阈值
Figure 972716DEST_PATH_IMAGE026
的单词作为词对的候选词集:
Figure 449965DEST_PATH_IMAGE027
在得到候选词集后,还需要依据文本的句法分析树中来获取单词之间的依存距离,得到的句法分析树,通过单词间依存距离的最近邻原则来组合候选词集中的动词与名词,再根据依存关系进行处理后得到最终的v-n词对。
2.如权利要求1所述的一种基于匿名化隐私保护技术的医疗事件抽取方法,其特征在于:时间参数的抽取方法为:抽取具体的某年某月某日的时间信息,依据模板匹配的方式进行,通过设计“\\d{4}年\\d{1,2}月\\d{1,2}日”、“\\d{1,2}月\\d{1,2}日”与“\\d{1,2}日”三个正则表达式进行匹配,当匹配到的信息符合第二与第三个表达式时,则采用新闻发布或者当前的时间年份、月份进行补全。
3.如权利要求2所述的一种基于匿名化隐私保护技术的医疗事件抽取方法,其特征在于:所述地点、人物、组织机构信息只提取不包含隐私信息的实体信息,首先利用语义依存分析工具LTP所带的实体抽取模块进行初步的实体识别,在得到抽取结果后经过特殊字符过滤、停用词词典过滤方式筛选出高质量的实体。
CN202110589943.2A 2021-05-28 2021-05-28 一种基于匿名化隐私保护技术的医疗事件抽取方法 Active CN113312470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110589943.2A CN113312470B (zh) 2021-05-28 2021-05-28 一种基于匿名化隐私保护技术的医疗事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110589943.2A CN113312470B (zh) 2021-05-28 2021-05-28 一种基于匿名化隐私保护技术的医疗事件抽取方法

Publications (2)

Publication Number Publication Date
CN113312470A CN113312470A (zh) 2021-08-27
CN113312470B true CN113312470B (zh) 2022-05-31

Family

ID=77376011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110589943.2A Active CN113312470B (zh) 2021-05-28 2021-05-28 一种基于匿名化隐私保护技术的医疗事件抽取方法

Country Status (1)

Country Link
CN (1) CN113312470B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548101B (zh) * 2022-04-25 2022-08-02 北京大学 基于可回溯序列生成方法的事件检测方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN111159336A (zh) * 2019-12-20 2020-05-15 银江股份有限公司 一种半监督司法实体及事件联合提取方法
CN112765952A (zh) * 2020-12-28 2021-05-07 大连理工大学 一种图卷积注意力机制下的条件概率联合事件抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6652986B2 (ja) * 2018-05-02 2020-02-26 株式会社Fronteo 危険行動予測装置、予測モデル生成装置および危険行動予測用プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN111159336A (zh) * 2019-12-20 2020-05-15 银江股份有限公司 一种半监督司法实体及事件联合提取方法
CN112765952A (zh) * 2020-12-28 2021-05-07 大连理工大学 一种图卷积注意力机制下的条件概率联合事件抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LSTM-Based End-to-End Framework for Biomedical Event Extraction;Xinyi Yu等;《IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB)》;20201031;第17卷(第6期);2029–2039 *
基于注意力机制BiLSTM的事件抽取方法;盛煜堃 等;《电子设计工程》;20200430;第28卷(第08期);170-173、179 *

Also Published As

Publication number Publication date
CN113312470A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
Dahouda et al. A deep-learned embedding technique for categorical features encoding
CN112417885A (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
CN113221567A (zh) 司法领域命名实体及关系联合抽取方法
CN112699665B (zh) 一种安全报告文本的三元组抽取方法、装置及电子设备
CN111597803B (zh) 一种要素提取方法、装置、电子设备及存储介质
CN112632230B (zh) 一种基于多层级图网络的事件联合抽取方法及装置
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
CN110889786A (zh) 一种基于lstm技术的法律诉讼被告人保全用审判服务方法
CN110377725A (zh) 数据生成方法、装置、计算机设备及存储介质
Dragoni et al. Combining natural language processing approaches for rule extraction from legal documents
Savelka et al. Lex Rosetta: transfer of predictive models across languages, jurisdictions, and legal domains
CN113886601A (zh) 电子文本事件抽取方法、装置、设备及存储介质
CN113312470B (zh) 一种基于匿名化隐私保护技术的医疗事件抽取方法
Akhtar et al. Iitp: Hybrid approach for text normalization in twitter
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN117351336A (zh) 图像审核方法和相关设备
CN115618085B (zh) 一种基于动态标签的接口数据暴露探测方法
Faiz Identifying relevant sentences in news articles for event information extraction
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN115712713A (zh) 一种文本匹配方法、装置、系统以及存储介质
CN112507388B (zh) 基于隐私保护的word2vec模型训练方法、装置及系统
Singh et al. Deep neural based name entity recognizer and classifier for English language
CN114298041A (zh) 网络安全命名实体的识别方法及识别装置
Ramena et al. An efficient architecture for predicting the case of characters using sequence models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant