CN116542237A - 电子病历的文本关系提取方法、装置、设备及介质 - Google Patents

电子病历的文本关系提取方法、装置、设备及介质 Download PDF

Info

Publication number
CN116542237A
CN116542237A CN202310500132.XA CN202310500132A CN116542237A CN 116542237 A CN116542237 A CN 116542237A CN 202310500132 A CN202310500132 A CN 202310500132A CN 116542237 A CN116542237 A CN 116542237A
Authority
CN
China
Prior art keywords
graph
text
relation
word
graph nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310500132.XA
Other languages
English (en)
Inventor
张旭龙
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310500132.XA priority Critical patent/CN116542237A/zh
Publication of CN116542237A publication Critical patent/CN116542237A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种电子病历的文本关系提取方法、装置、设备及介质。该方法对目标电子病历的文本进行提取,对提取得到目标文本进行分词,编码所有分词得到每个分词的目标词向量,使用语义提取模型对所有的目标词向量进行语义提取得到语义特征,使用依赖关系解析器对所有语义特征进行依赖关系提取得到邻接矩阵,结合语义特征作为图节点,构建所有图节点的连接边得到初始图数据,使用图卷积网络提取初始图数据中任两个图节点之间隐含关系,使用隐含关系更新初始图数据得到完整图数据,根据分词与完整图数据中图节点的映射关系,得到分词间的连接关系,基于依赖关系的提取和隐含关系的提取,从而得到较为完整的连接关系,提高了关系提取的准确性。

Description

电子病历的文本关系提取方法、装置、设备及介质
技术领域
本申请适用于人工智能技术领域,尤其涉及一种电子病历的文本关系提取方法、装置、设备及介质。
背景技术
目前,电子病历(Electronic Medical Records,EMR)产生于患者在医疗机构就诊的过程中,因此,每天都会有大量的电子病历数据产生。由于电子病历中包含着大量的医学知识以及病人的健康资料,通过研究和挖掘电子病历,能够快速准确地获取与病人有关的医疗信息,这种信息可以帮助医疗专业人员尽快了解患者的疾病状态,能够用于建立医学决策支持系统以及个性化卫生服务平台。文本信息提取主要包含命名实体提取以及实体间关系的提取,在电子病历中,医疗信息提取是指自动识别电子病历文件中的医疗信息,各种命名实体以及实体之间的关系,同时,电子病历中的医疗实体识别和实体关系提取是医疗信息提取工作中的重点任务。
与开放领域的文本相比,电子病历并不是完全结构化的数据,包含了许多自由文本等复杂的无结构数据,这对科学研究和统计分析造成了巨大障碍。其中,电子病历还包含了大量的生僻词和字、错别字、半结构化的内容组织方式、简略且模式化较强的语言表达,同时,由于医生的书写习惯和专业知识的原因,对于同一内容,不同医生的文本描述存在明显差异,有时甚至存在书写错误。这些特点使命名实体识别和实体关系提取任务成为挑战。另外,由于电子病历语言具有专业性强的特点,在语料构建工作中造成了巨大的障碍。当前大部分电子病历信息提取模型使用循环神经网络,虽然循环网络可以很好的处理序列数据,但是不能像图卷积神经网络那样处理局部区域附近的信息,因而整体的提取性能较差。因此,如何提取电子病历中文本的完整关系,以提高关系提取的准确性成为亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种电子病历的文本关系提取方法、装置、设备及介质,以解决如何提取电子病历中文本的完整关系,以提高关系提取的准确性的问题。
第一方面,本申请实施例提供一种电子病历的文本关系提取方法,所述文本关系提取方法包括:
获取待提取的目标电子病历,对所述目标电子病历的文本进行提取,得到目标文本,对所述目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,N为大于零的整数;
使用语义提取模型对所有的目标词向量进行语义提取,得到表征所述目标文本语义的M个语义特征,M为大于零的整数;
使用依赖关系解析器对所述M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将所述M个语义特征分别作为一图节点,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据;
使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用所述隐含关系在所述初始图数据中再次构建所有图节点的连接边,得到完整图数据;
根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系。
在一实施方式中,编码所有分词得到每个分词的目标词向量包括:
识别所述N个分词的词性;
针对任一分词,将所述分词及其词性进行向量编码,得到每个分词的目标词向量。
在一实施方式中,将所述分词及其词性进行向量编码包括:
将所述分词的词性标注在所述分词上,得到标注后的分词;
使用Word2Vec对所述标注后的分词进行向量化,得到所述分词的目标词向量。
在一实施方式中,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据包括:
根据所述邻接矩阵,构建所有图节点的连接边;
根据所有图节点的连接边的长度和方向,预测任两个图节点之间的关系得分以及预测出对应关系得分的得分概率;
将所述关系得分和所述得分概率作为节点信息存入对应的两个图节点中,得到包含所述节点信息和所有图节点的连接边的初始图数据。
在一实施方式中,使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系包括:
使用图卷积网络提取所述初始图数据中任两个通过其他图节点连接的图节点;
根据所述其他图节点的节点信息和所述任两个图节点的节点信息,预测所述任两个图节点的关系得分和得分概率;
若所述任两个图节点的关系得分大于得分阈值且任两个图节点的得分概率大于概率阈值,则确定所述任两个图节点之间具备隐含关系。
在一实施方式中,在根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系之后,还包括:
基于所述N个分词间的连接关系,对文本生成模型进行训练,得到训练好的文本生成模型;
获取待生成文本的至少一个关键词;
将所述至少一个关键词输入所述训练好的文本生成模型,输出对应的生成文本。
第二方面,本申请实施例提供一种电子病历的文本关系提取装置,所述文本关系提取装置包括:
编码模块,用于获取待提取的目标电子病历,对所述目标电子病历的文本进行提取,得到目标文本,对所述目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,N为大于零的整数;
语义提取模块,用于使用语义提取模型对所有的目标词向量进行语义提取,得到表征所述目标文本语义的M个语义特征,M为大于零的整数;
初始图构建模块,用于使用依赖关系解析器对所述M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将所述M个语义特征分别作为一图节点,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据;
完整图构建模块,用于使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用所述隐含关系在所述初始图数据中再次构建所有图节点的连接边,得到完整图数据;
关系提取模块,用于根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系。
在一实施方式中,所述编码模块包括:
词性识别单元,用于识别所述N个分词的词性;
编码单元,用于针对任一分词,将所述分词及其词性进行向量编码,得到每个分词的目标词向量。
在一实施方式中,所述编码单元包括:
标注子单元,用于将所述分词的词性标注在所述分词上,得到标注后的分词;
编码子单元,用于使用Word2Vec对所述标注后的分词进行向量化,得到所述分词的目标词向量。
在一实施方式中,所述初始图构建模块包括:
边构建单元,用于根据所述邻接矩阵,构建所有图节点的连接边;
第一预测单元,用于根据所有图节点的连接边的长度和方向,预测任两个图节点之间的关系得分以及预测出对应关系得分的得分概率;
初始图构建单元,用于将所述关系得分和所述得分概率作为节点信息存入对应的两个图节点中,得到包含所述节点信息和所有图节点的连接边的初始图数据。
在一实施方式中,所述完整图构建模块包括:
节点提取单元,用于使用图卷积网络提取所述初始图数据中任两个通过其他图节点连接的图节点;
第二预测单元,用于根据所述其他图节点的节点信息和所述任两个图节点的节点信息,预测所述任两个图节点的关系得分和得分概率;
隐含关系确定单元,用于若所述任两个图节点的关系得分大于得分阈值且任两个图节点的得分概率大于概率阈值,则确定所述任两个图节点之间具备隐含关系。
在一实施方式中,所述文本关系提取装置还包括:
模型训练模块,用于在根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系之后,基于所述N个分词间的连接关系,对文本生成模型进行训练,得到训练好的文本生成模型;
关键词获取模块,用于获取待生成文本的至少一个关键词;
文本生成模块,用于将所述至少一个关键词输入所述训练好的文本生成模型,输出对应的生成文本。
第三方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的文本关系提取方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本关系提取方法。
本申请实施例与现有技术相比存在的有益效果是:本申请获取待提取的目标电子病历,对所述目标电子病历的文本进行提取,得到目标文本,对所述目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,使用语义提取模型对所有的目标词向量进行语义提取,得到表征所述目标文本语义的M个语义特征,使用依赖关系解析器对所述M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将所述M个语义特征分别作为一图节点,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据,使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用所述隐含关系在所述初始图数据中再次构建所有图节点的连接边,得到完整图数据,根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系,基于依赖关系的提取和隐含关系的提取,从而得到较为完整的连接关系,提高了关系提取的准确性、完整性,有助于后续基于文本关系的模型训练使用。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的一种电子病历的文本关系提取方法的一应用环境示意图;
图2是本申请实施例二提供的一种电子病历的文本关系提取方法的流程示意图;
图3是本申请实施例三提供的一种电子病历的文本关系提取装置的结构示意图;
图4是本申请实施例四提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为了说明本申请的技术方案,下面通过具体实施例来进行说明。
本申请实施例一提供的一种电子病历的文本关系提取方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信,形成云边联合系统。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本、服务端计算机设备、个人数字助理(personal digitalassistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
参见图2,是本申请实施例二提供的一种电子病历的文本关系提取方法的流程示意图,上述电子病历的文本关系提取方法应用于图1中的服务端,服务端对应的计算机设备连接相应的数据库,以获取数据库中相应的电子病历。上述计算机设备还可以连接相应的客户端,客户端也可以为服务端采集相应的电子病历。如图2所示,该电子病历的文本关系提取方法可以包括以下步骤:
步骤S201,获取待提取的目标电子病历,对目标电子病历的文本进行提取,得到目标文本,对目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量。
本申请中,N为大于零的整数,目标电子病历为从数据库中或者由用户的客户端所发送的并由服务器获取到的一份电子形式的数据,具体可以为word文件、HTML文件等,还可以是图片格式的文件。针对不同格式的文件而言,该目标电子病历均包含文本信息、结构信息等数据信息,如果为图片格式的文件,可以使用图片识别的方式提取出对应的文本内容,如果为HTML文件,可以在相应的文本属性栏中提取出文本内容。
目标文本是由至少一个字词构成文字形式的数据,该文字可以为中文或者其他国家的文字,对目标文本进行分词即是将文本分成词语,同时,保留词语的时序,以表征文本中词语的顺序。
其中,在分词时,可以增加去除助词、语气词等词性的词,以降低分词的数量,有助于提高后续工作的效率。
将所有的分词以词向量的形式进行表达,用于后续的语义分析和关系提取的工作,其中,分词转化为词向量可以通过建立词-向量映射表来实现,还可以通过训练好的编码器模型进行编码实现,具体地,训练好的编码器模型可以为Word2Vec、CBOW等。
可选的是,编码所有分词得到每个分词的目标词向量包括:
识别N个分词的词性;
针对任一分词,将分词及其词性进行向量编码,得到每个分词的目标词向量。
其中,词性用于表征一个词的属性,如,实词和虚词,进一步地,还可以分为名词、动词、代词、形容词等,在对一个词进行目标词向量编码时,将该词的词性作为编码特征的一部分,有助于提高后续语义分析的准确性。
词性的识别可以使用词-词性映射表来实现,相较于使用神经网络学习的方式而言,以映射的方式能够提高词性识别的效率和准确率。
可选的是,将分词及其词性进行向量编码包括:
将分词的词性标注在分词上,得到标注后的分词;
使用Word2Vec对标注后的分词进行向量化,得到分词的目标词向量。
其中,在每个分词上将其词性标注上,随后使用Word2Vec对标注后的分词进行向量化,得到目标词向量,该Word2Vec能够有效地进行词嵌入或者文本表示,并能够将词性标注也作为特征嵌入进向量中。
步骤S202,使用语义提取模型对所有的目标词向量进行语义提取,得到表征目标文本语义的M个语义特征。
本申请中,M为大于零的整数。语义提取模型可以是指基于处理序列数据的神经网络RNN(Recurrent Neural Network)构建的能够对输入特征进行特征分析的模型。例如,长短期记忆(Long Short-Term Memory,LSTM)网络、双向长短时记忆(Bi-Long Short-TermMemory,Bi-LSTM)网络。该语义提取模型能够有效地提取具有时序关系的分词,以学习分词间的上下文表达,进而形成不同语义的表达结果(即语义特征)。
上述语义提取模型在训练时可以通过带有标签的训练文本样本进行监督训练,以学习人工标注文本的标注特征,如果人工标注为对语义特征的标注,则训练好的语义提取模型能够较好提取出表达语义的特征。针对本申请的电子病历而言,仍属于自然语言的范畴,因而,可以采用自然语言处理(Natural Language Processing,NLP)技术进行语义提取,主要包括词法分析、句法分析、语用分析、语境分析等,其中,词形分析主要表现在对单词的前缀、后缀等进行分析,而词汇分析则表现在对整个词汇系统的控制,从而能够较准确地分析用户输入信息的特征,最终准确地完成搜索过程,句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,以实现自动句法分析的过程,语用分析相对于语义分析又增加了对上下文、语言背景、语境等的分析,即从文章的结构中提取出意象、人际关系等附加信息,将语句中的内容与现实生活中的细节关联在一起,从而形成动态的表意结构,语境分析主要是指对原查询语篇之外的大量“空隙”进行分析,以便更准确地解释所要查询语言的技术,包括一般的知识、特定领域的知识以及查询用户的需求等。上述的分析均可以作为语义的一部分,因而由模型提取出的语义特征可以包括以下内容:实体(即词向量本体)、实体与实体之间的实体关系(即两者在文本中的距离、含义相似度、包含关系、指向关系等)。
步骤S203,使用依赖关系解析器对M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将M个语义特征分别作为一图节点,根据邻接矩阵,构建所有图节点的连接边,得到初始图数据。
本申请中,依赖关系解析器为基于预设规则或者基于预训练好的规则进行关系解析的模型,能够识别语义特征中的实体以及实体与实体之间的实体关系,进而确定语义特征之间的依赖关系,从而将满足规则的依赖关系进行保留,并给与赋值,实现依赖关系的量化,最终形成一邻接矩阵。该邻接矩阵中行和列表征实体,对应的元素表征为实体之间的关系,该关系由量化后的赋值(即元素值)来体现。
将语义特征作为一个图节点,相应地,根据邻接矩阵可以确定语义特征对应图节点之间的连接,即使用边将具备依赖关系的两个语义特征进行连接,边的长度与邻接矩阵中对应元素值相关。
上述依赖关系解析器可以通过对识别出的实体损失函数和实体关系损失函数不断优化和训练。
可选的是,根据邻接矩阵,构建所有图节点的连接边,得到初始图数据包括:
根据邻接矩阵,构建所有图节点的连接边;
根据所有图节点的连接边的长度和方向,预测任两个图节点之间的关系得分以及预测出对应关系得分的得分概率;
将关系得分和得分概率作为节点信息存入对应的两个图节点中,得到包含节点信息和所有图节点的连接边的初始图数据。
其中,在通过依赖关系解析器得到邻接矩阵时,还可以考虑语义特征之间的方向性,即语义特征1指向语义特征2的依赖关系与语义特征2指向语义特征1的依赖关系为两种依赖关系,从而得到的邻接矩阵中一个元素包含两个值,一个值表征正向的关系,另一个值表征反向的关系,具体可以采用一个值为正值,另一个值为负值的方式,正值表征正向,负值表征反向。
依据上述的邻接矩阵,在构建所有图节点的连接边时除了考虑元素值对边的长度的影响,还考虑了元素值的正负对边的方向的影响,根据这部分信息,使用相应的预测模型(即预测规则)可以预测出关系得分并计算出得到该得分的得分概率,可以使用softmax计算两者关系的得分概率。
预测处的关系得分和得分概率能够有效地表征两个语义特征之间的关系强度,因而可以其作为节点信息存入到图节点中,以备后续的分析使用,以提高后续分析的准确性。
步骤S204,使用图卷积网络提取初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用隐含关系在初始图数据中再次构建所有图节点的连接边,得到完整图数据。
本申请中,图卷积网络(Graph Convolutional Networks,GCN)能够直接作用于图并且利用其结构信息,因此,能够快速地实现隐含关系的获取,相较于现存的开放领域的文本分析方法,能够更好地利用GCN和语义提取模型结构间的冗余性和互补性,同时更全面的提取序列语义和区域语义,从而提升模型在提取分析上的表现。
在上述步骤S201至步骤S203提取的依赖关系和信息上,为每个关系构建全连接的关系图,该过程进一步考虑了图节点和依赖关系之间的交互。
图节点和关系之间的相互作用会导致图节点与没有连接该图节点的另一图节点之间具备一定的隐含关系,也即是一个图节点1与图节点2在上述初始图像中没有连接关系,但图节点1连接了图节点3,图节点2也连接了图节点3,因而,可以考虑图节点1与图节点2之间具备隐含关系。
使用该隐含关系能够构建完全的关系图,即完整图数据,其更加全面的概括了所有的关系。
针对该图卷积网络使用命名实体损失函数和实体关系损失函数不断优化权重。同时提取电子病历中的实体和关系结果,相较现存的信息提取方法,能够更好地捕捉电子病历中的长距离依赖关系,从而增强模型在文本上的抗干扰能力。
可选的是,使用图卷积网络提取初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系包括:
使用图卷积网络提取初始图数据中任两个通过其他图节点连接的图节点;
根据其他图节点的节点信息和任两个图节点的节点信息,预测任两个图节点的关系得分和得分概率;
若任两个图节点的关系得分大于得分阈值且任两个图节点的得分概率大于概率阈值,则确定任两个图节点之间具备隐含关系。
其中,针对在发现隐含关系的过程中,通过对关系得分的预测和得分概率的计算,并以此对是否具备隐含关系进行判断,只有关系得分和得分概率满足一定条件时,才可以确定具备隐含关系。
步骤S205,根据N个分词与完整图数据中图节点的映射关系,得到N个分词间的连接关系。
本申请中,图节点为语义特征,根据分词和语义特征之间的映射关系即可确定图节点与分词之间的映射关系,将完整图数据中图节点由语义特征表达替换为分词的本体,即可知晓分词之间的连接关系。
通过上述步骤S201至步骤S205可以提取到一个电子病历中文本内分词之间的关系,该分词之间的关系可以表征为在电子病历这个领域中提取到的词间关系,从而可以作为后续其他模型训练的语料。例如,电子病历中文本的生成模型,理想情况下,采用上述分词间的连接关系可以有效地对该生成模型进行训练,又如,根据医生的习惯,识别其电子病例中文本中常用语句或固定语句的筛选模型,使得筛选出的常用语句或固定语句能够被重复利用。
可选的是,在根据N个分词与完整图数据中图节点的映射关系,得到N个分词间的连接关系之后,还包括:
基于N个分词间的连接关系,对文本生成模型进行训练,得到训练好的文本生成模型;
获取待生成文本的至少一个关键词;
将至少一个关键词输入训练好的文本生成模型,输出对应的生成文本。
其中,以上述N个分词间的连接关系训练好的文本生成模型,在得到相应地关键词之后,将关键词输入文本生成模型即可生成相应地文本,可以降低人工工作量。
本申请实施例获取待提取的目标电子病历,对目标电子病历的文本进行提取,得到目标文本,对目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,使用语义提取模型对所有的目标词向量进行语义提取,得到表征目标文本语义的M个语义特征,使用依赖关系解析器对M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将M个语义特征分别作为一图节点,根据邻接矩阵,构建所有图节点的连接边,得到初始图数据,使用图卷积网络提取初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用隐含关系在初始图数据中再次构建所有图节点的连接边,得到完整图数据,根据N个分词与完整图数据中图节点的映射关系,得到N个分词间的连接关系,基于依赖关系的提取和隐含关系的提取,从而得到较为完整的连接关系,提高了关系提取的准确性、完整性,有助于后续基于文本关系的模型训练使用,相较现存的只进行命名实体识别模型或者仅进行关系提取的模型,我们设计的模型可以同时进行命名实体识别和实体关系提取,考虑了实体和关系之间的交互,从而增强了模型在医疗电子病历上的表现和提取信息能力,同时这种交互关系也可以提升模型的检测精度。
对应于上文实施例的电子病历的文本关系提取方法,图3示出了本申请实施例三提供的电子病历的文本关系提取装置的结构框图,上述文本关系提取装置应用于图1中的服务端,服务端对应的计算机设备连接相应的数据库,以获取数据库中相应的电子病历。上述计算机设备还可以连接相应的客户端,客户端也可以为服务端采集相应的电子病历。为了便于说明,仅示出了与本申请实施例相关的部分。
参见图3,该文本关系提取装置包括:
编码模块31,用于获取待提取的目标电子病历,对目标电子病历的文本进行提取,得到目标文本,对目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,N为大于零的整数;
语义提取模块32,用于使用语义提取模型对所有的目标词向量进行语义提取,得到表征目标文本语义的M个语义特征,M为大于零的整数;
初始图构建模块33,用于使用依赖关系解析器对M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将M个语义特征分别作为一图节点,根据邻接矩阵,构建所有图节点的连接边,得到初始图数据;
完整图构建模块34,用于使用图卷积网络提取初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用隐含关系在初始图数据中再次构建所有图节点的连接边,得到完整图数据;
关系提取模块35,用于根据N个分词与完整图数据中图节点的映射关系,得到N个分词间的连接关系。
可选的是,上述编码模块31包括:
词性识别单元,用于识别N个分词的词性;
编码单元,用于针对任一分词,将分词及其词性进行向量编码,得到每个分词的目标词向量。
可选的是,上述编码单元包括:
标注子单元,用于将分词的词性标注在分词上,得到标注后的分词;
编码子单元,用于使用Word2Vec对标注后的分词进行向量化,得到分词的目标词向量。
可选的是,上述初始图构建模块33包括:
边构建单元,用于根据邻接矩阵,构建所有图节点的连接边;
第一预测单元,用于根据所有图节点的连接边的长度和方向,预测任两个图节点之间的关系得分以及预测出对应关系得分的得分概率;
初始图构建单元,用于将关系得分和得分概率作为节点信息存入对应的两个图节点中,得到包含节点信息和所有图节点的连接边的初始图数据。
可选的是,上述完整图构建模块34包括:
节点提取单元,用于使用图卷积网络提取初始图数据中任两个通过其他图节点连接的图节点;
第二预测单元,用于根据其他图节点的节点信息和任两个图节点的节点信息,预测任两个图节点的关系得分和得分概率;
隐含关系确定单元,用于若任两个图节点的关系得分大于得分阈值且任两个图节点的得分概率大于概率阈值,则确定任两个图节点之间具备隐含关系。
可选的是,该文本关系提取装置还包括:
模型训练模块,用于在根据N个分词与完整图数据中图节点的映射关系,得到N个分词间的连接关系之后,基于N个分词间的连接关系,对文本生成模型进行训练,得到训练好的文本生成模型;
关键词获取模块,用于获取待生成文本的至少一个关键词;
文本生成模块,用于将至少一个关键词输入训练好的文本生成模型,输出对应的生成文本。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4为本申请实施例四提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个电子病历的文本关系提取方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本申请实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种电子病历的文本关系提取方法,其特征在于,所述文本关系提取方法包括:
获取待提取的目标电子病历,对所述目标电子病历的文本进行提取,得到目标文本,对所述目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,N为大于零的整数;
使用语义提取模型对所有的目标词向量进行语义提取,得到表征所述目标文本语义的M个语义特征,M为大于零的整数;
使用依赖关系解析器对所述M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将所述M个语义特征分别作为一图节点,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据;
使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用所述隐含关系在所述初始图数据中再次构建所有图节点的连接边,得到完整图数据;
根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系。
2.根据权利要求1所述的文本关系提取方法,其特征在于,编码所有分词得到每个分词的目标词向量包括:
识别所述N个分词的词性;
针对任一分词,将所述分词及其词性进行向量编码,得到每个分词的目标词向量。
3.根据权利要求2所述的文本关系提取方法,其特征在于,将所述分词及其词性进行向量编码包括:
将所述分词的词性标注在所述分词上,得到标注后的分词;
使用Word2Vec对所述标注后的分词进行向量化,得到所述分词的目标词向量。
4.根据权利要求1所述的文本关系提取方法,其特征在于,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据包括:
根据所述邻接矩阵,构建所有图节点的连接边;
根据所有图节点的连接边的长度和方向,预测任两个图节点之间的关系得分以及预测出对应关系得分的得分概率;
将所述关系得分和所述得分概率作为节点信息存入对应的两个图节点中,得到包含所述节点信息和所有图节点的连接边的初始图数据。
5.根据权利要求4所述的文本关系提取方法,其特征在于,使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系包括:
使用图卷积网络提取所述初始图数据中任两个通过其他图节点连接的图节点;
根据所述其他图节点的节点信息和所述任两个图节点的节点信息,预测所述任两个图节点的关系得分和得分概率;
若所述任两个图节点的关系得分大于得分阈值且任两个图节点的得分概率大于概率阈值,则确定所述任两个图节点之间具备隐含关系。
6.根据权利要求1至5任一项所述的文本关系提取方法,其特征在于,在根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系之后,还包括:
基于所述N个分词间的连接关系,对文本生成模型进行训练,得到训练好的文本生成模型;
获取待生成文本的至少一个关键词;
将所述至少一个关键词输入所述训练好的文本生成模型,输出对应的生成文本。
7.一种电子病历的文本关系提取装置,其特征在于,所述文本关系提取装置包括:
编码模块,用于获取待提取的目标电子病历,对所述目标电子病历的文本进行提取,得到目标文本,对所述目标文本进行分词,得到N个分词,编码所有分词得到每个分词的目标词向量,N为大于零的整数;
语义提取模块,用于使用语义提取模型对所有的目标词向量进行语义提取,得到表征所述目标文本语义的M个语义特征,M为大于零的整数;
初始图构建模块,用于使用依赖关系解析器对所述M个语义特征进行依赖关系提取,得到表征任两个语义特征间依赖关系的邻接矩阵,将所述M个语义特征分别作为一图节点,根据所述邻接矩阵,构建所有图节点的连接边,得到初始图数据;
完整图构建模块,用于使用图卷积网络提取所述初始图数据中任两个图节点之间的通过其他图节点的连接构成的隐含关系,并使用所述隐含关系在所述初始图数据中再次构建所有图节点的连接边,得到完整图数据;
关系提取模块,用于根据所述N个分词与所述完整图数据中图节点的映射关系,得到所述N个分词间的连接关系。
8.根据权利要求7所述的文本关系提取装置,其特征在于,所述编码模块包括:
词性识别单元,用于识别所述N个分词的词性;
编码单元,用于针对任一分词,将所述分词及其词性进行向量编码,得到每个分词的目标词向量。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的文本关系提取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的文本关系提取方法。
CN202310500132.XA 2023-05-06 2023-05-06 电子病历的文本关系提取方法、装置、设备及介质 Pending CN116542237A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310500132.XA CN116542237A (zh) 2023-05-06 2023-05-06 电子病历的文本关系提取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310500132.XA CN116542237A (zh) 2023-05-06 2023-05-06 电子病历的文本关系提取方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116542237A true CN116542237A (zh) 2023-08-04

Family

ID=87448255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310500132.XA Pending CN116542237A (zh) 2023-05-06 2023-05-06 电子病历的文本关系提取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116542237A (zh)

Similar Documents

Publication Publication Date Title
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN111881292B (zh) 一种文本分类方法及装置
CN111475603A (zh) 企业标识识别方法、装置、计算机设备及存储介质
US11507746B2 (en) Method and apparatus for generating context information
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN115238670B (zh) 信息文本抽取方法、装置、设备及存储介质
CN111597807B (zh) 分词数据集生成方法、装置、设备及其存储介质
CN111177375A (zh) 一种电子文档分类方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113935314A (zh) 基于异构图网络的摘要抽取方法、装置、终端设备及介质
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
Wong et al. isentenizer-: Multilingual sentence boundary detection model
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN112836019A (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination