CN113393916B - 一种冠脉医疗报告结构关系提取的方法和装置 - Google Patents

一种冠脉医疗报告结构关系提取的方法和装置 Download PDF

Info

Publication number
CN113393916B
CN113393916B CN202110940134.1A CN202110940134A CN113393916B CN 113393916 B CN113393916 B CN 113393916B CN 202110940134 A CN202110940134 A CN 202110940134A CN 113393916 B CN113393916 B CN 113393916B
Authority
CN
China
Prior art keywords
text
entity
structured
coronary artery
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110940134.1A
Other languages
English (en)
Other versions
CN113393916A (zh
Inventor
金倍建
林铭强
陈集房
麻元兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Keyi Intelligent Medical Technology Co ltd
Original Assignee
Zhejiang Keyi Intelligent Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Keyi Intelligent Medical Technology Co ltd filed Critical Zhejiang Keyi Intelligent Medical Technology Co ltd
Priority to CN202110940134.1A priority Critical patent/CN113393916B/zh
Publication of CN113393916A publication Critical patent/CN113393916A/zh
Application granted granted Critical
Publication of CN113393916B publication Critical patent/CN113393916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种冠脉医疗报告结构关系提取的方法和装置,包括以下步骤:S1:获取冠脉报告描述文本,对获得的文本进行数据预处理;S2:将预处理化后的文本进行错别字纠正后进行归一化处理;S3:根据归一化后的文本对文本中的医学实体进行识别,将文本分割成若干个实体文本;S4:根据结构化提取规则对实体文本进行实体关系的提取,形成结构化关系路径图;S5:对结构化关系路径图进行验证后,得到冠脉医疗报告结构关系的输出结果;本发明通过错字纠正和文本归一化方法,提高了实体识别的准确度;通过构建实体之间的链式结构,实现高准确度的实体关系提取。

Description

一种冠脉医疗报告结构关系提取的方法和装置
技术领域
本发明涉及医疗文本识别技术领域,尤其涉及一种冠脉医疗报告结构关系提取的方法和装置。
背景技术
随着大数据技术和人工智能的发展,人们对于结构化数据的需求越来越高,而在医疗领域存在着大量非结构化的诊断报告数据难以利用,给医疗领域的大数据和人工智能的发展带来了瓶颈。结构化的医疗数据能为医疗行业的各个领域带来非常重要的作用。医疗数据将能为医疗行业的各个领域带来非常重要的作用。对于医院临床来说,它能被临床辅助决策提供大量的数据支持。对于医生科研来说,能够让医生用更大量的数据展开科研合作。
现有技术通过对文本进行分词,之后统计各个字或者各个词的词频,通过计算文本与模板之间的相似度来达到提取结构化报告的目的,该方法对于复杂的中文语境中准确率较低,并且搭建词库和模板的难度也较大。还有的是通过搭建大规模的知识图谱来实现医疗报告结构化,但搭建知识图谱需要投入大量的人力物力,对于中小企业来说会有较大的成本。
例如,中国专利CN201911232525.7公开了非结构化医疗文本无监督症状自动识别方法、系统、装置。实现医学症状实体的无监督自动抽取,同时以症状为线索可以强有力地支持医学智能辅助诊断服务以及医学知识图谱的自动构建,不需要专家和手工的管理,可以自动地对训练数据进行标注;但是,该方法依然需要通过搭建大规模的知识图谱来实现医疗报告结构化,且识别准确率低。
发明内容
本发明主要解决现有的技术中非结构化医疗报告文本进行结构化识别提取时准确度低的问题;提供一种冠脉医疗报告结构关系提取的方法和装置,可以对现存的大量的非结构化的冠脉医疗报告进行结构化,提高了实体识别的准确度,降低时间和人力成本。
本发明的上述技术问题主要是通过下述技术方案得以解决的:一种冠脉医疗报告结构关系提取的方法,包括以下步骤:
S1:获取冠脉报告描述文本,对获得的文本进行数据预处理;
S2:将预处理化后的文本进行错别字纠正后进行归一化处理;
S3:根据归一化后的文本对文本中的医学实体进行识别,将文本分割成若干个实体文本;
S4:根据结构化提取规则对实体文本进行实体关系的提取,形成结构化关系路径图;
S5:对结构化关系路径图进行验证后,得到冠脉医疗报告结构关系的输出结果。通过整个方法步骤,对非结构化的冠脉医疗报告构建了一种实体识别和关系提取的结构化方法,通过深度学习的神经网络算法对错别字进行纠正,保证了实体识别的准确度,同时,设置链式的结构化提取规则实现高准确度的实体关系提取,不需要花费大量时间和人力进行知识图谱的建立,降低时间和人力成本,实现高准确度的冠脉医疗报告结构化提取。
作为优选,步骤S1中,对获得的文本进行数据预处理的具体方法为:
S11:将长文本根据标点符号拆分成若干个短文本;
S12:去除文本中的空格;
S13:去除括号以及括号内的内容;
S14:统一中英文标点符号和全角半角数字字母,并删除重复的标点符号;
S15:去除转义符;
S16:将文字向量化,映射进向量空间中。对长文本进行预处理后,使得文本更加方便后续步骤的处理,加快文本处理速度。
作为优选,步骤S2中,对预处理后的文本进行错别字纠正的方法为:
S21:通过错误探查网络对每个字符是否为错别字进行判断,进行错别字分类;
S22:采用Soft Masking Connection联系全文,对所有字符的权重做一个加权求和,结合错误探查网络的分类结果,联系全文词向量的关系进一步给出该字符为错别字的概率;
S23:利用纠错网络计算错字字符被纠正为候选词表中的字符的概率,输出文本纠正结果。通过对错别字的纠正,提高文本识别的准确率。
作为优选,步骤S2中,对错别字纠正后的文本进行归一化处理之前,先通过对数据库中的冠脉医疗报告进行统计分析,找出各个医学实体对应存在的文本分词描述,建立各个文本分词描述与其对应实体的关系映射表,根据输入的描述文本中的文本分词,对于每个分词查询是否在映射表中存在映射,若存在则将其替换成对应的映射实体。通过关系映射表,将文本分词进行实体映射,实现文本分词到实体识别的转换。
作为优选,步骤S3中,对医学实体进行识别的方法为:将归一化完成后的文本重新映射到向量空间,传入transformer-crf模型中,利用transformer对于文本前后文关系的识别,结合crf对于transformer对标签预测的约束,对文本中的医学实体进行识别。由于transformer通过自注意力机制对于多语义的词有很好的区分效果,并且在循环神经网络中使用的是双向LSTM,因此能够学习到词语的上下文信息,使模型能够对标签之间的联系有很好的学习,从而提升模型识别的准确率,而CRF 的引入能够约束transformer对标签的预测,从而体现出标签之间的联系。
作为优选,步骤S4中,对实体文本进行实体关系的提取包括以下步骤:
S41:建立结构化提取规则;
S42:遍历文本中的实体,记录实体的原始文本、实体的标签、实体在文中的索引以及标签在文中的索引;
S43:将所有的标签通过两两配对形成实体A—实体B 的二元组,形成集合A;
S44:遍历集合A,获取实体A的标签,根据结构化提取规则向下搜查,判断实体B是否从属于实体A,若不是则跳过,若是则根据两个实体的位置坐标,找出两个实体之间的实体,判断实体A与实体B之间是否存在实体,若实体A与实体B之间存在实体且这些实体之间存在一个或多个从属关系,则认为实体A与实体B之间不存在直接关系,跳过,若通过以上规则的判断,认为两个实体之间存在关系,则将之记录到新的集合中,形成集合B;
S45:根据结构化提取规则中各个实体的从属关系以及各个实体在文本中的索引位置,先从提取规则的顶层向下搜寻,根据集合B生成关系结构树状图,提取出文本中的结构化信息,形成结构化关系路径图。
作为优选,步骤S41中,结构化提取规则的建立方法为:对冠脉检查报告进行分析,构建一个实体间的链式结构,用来寻找实体存在的对应关系,同时建立一套关系验证法则,剔除掉其中无效的实体关系,形成结构化提取规则。
作为优选,步骤S5中,对结构化关系路径图进行验证的方法为:
S51:根据结构化关系路径图,验证每条路径的有效性,若路径中存在“症状或表现”,“影像表现”,“评估项目”中的一个或多个,则认为路径有效,否则剔除该路径;
S52:检测每条路径中是否存在未被识别到的标签,若存在则用None填充,形成完整路径,输出结果。
本发明还提供一种冠脉医疗报告结构关系提取的装置,包括:预处理模块,用于对冠脉报告描述文本进行向量化处理;错字纠正模块,用于对描述文本进行错别字纠正处理,与预处理模块连接;文本归一模块,用于文本数据进行归一化,与错字纠正模块连接;识别模块,对文本中的医学实体进行识别,与文本归一模块连接;提取模块,提取出文本中的结构化信息,形成结构化关系路径图,与识别模块连接。
本发明的有益效果是:(1)通过错字纠正和文本归一化方法,提高了实体识别的准确度;(2)通过构建实体之间的链式结构,实现高准确度的实体关系提取;(3)可以从非结构化冠脉医疗报告中有效提取实体,并建立各实体之间的联系,达到快速且准确的结构化,有效降低时间和人力成本。
附图说明
图1是本发明实施例的方法的流程图。
图2是本发明实施例的错别字纠正方法的模型框架示意图。
图3是本发明实施例的一种结构化关系路径图。
图4是本发明实施例的链式结构的示意图。
图5是本发明实施例的装置的连接框图。
图中1、预处理模块,2、错字纠正模块,3、文本归一模块,4、识别模块,5、提取模块。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:一种冠脉医疗报告结构关系提取的装置,如图5所示,包括预处理模块1,用于对冠脉报告描述文本进行向量化处理,预处理模块与前端或数据库连接,通过前端或访问数据库资源获取详细的报告描述。
错字纠正模块2,用于对描述文本进行错别字纠正处理,与预处理模块连接;本发明的错字纠正模块采用Soft-Masked BERT模型框架,如图2所示,由三部分组成:DetectionNetwork,Soft Masking Connection 以及Correction Network,Detection Network为错误探查网络,采用双向GRU模型对输入进行编码,对每个字符是否为错别字进行判断;SoftMasking Connection联系全文,对所有字符的权重做一个加权求和,目的是结合错误探查网络的分类结果,联系全文词向量的关系进一步给出该字符为错别字的概率;CorrectionNetwork为纠错网络,结合错误探查网络与原始文本,计算错字字符被纠正为候选词表中的字符的条件概率。
文本归一模块3,用于文本数据进行归一化,与错字纠正模块连接,通过对文本数据的归一化,能够减少输入变量的类型,降低模型所需词向量的维度,从而提高模型性能,减少误判。
识别模块4,对文本中的医学实体进行识别,与文本归一模块连接;本发明的识别模块采用transformer-crf的网络结构,由于transformer通过自注意力机制对于多语义的词有很好的区分效果,并且在循环神经网络中使用的是双向LSTM,因此能够学习到词语的上下文信息,使模型能够对标签之间的联系有很好的学习,从而提升模型识别的准确率,而CRF 的引入能够约束transformer对标签的预测,从而体现出标签之间的联系,进而将医学实体分割成若干个实体文本。
提取模块5,提取出文本中的结构化信息,形成结构化关系路径图,与识别模块连接;本发明的提取模块为SREM模块,SREM模块中设置有结构化提取规则,该结构化提取规则借鉴知识图谱的思想,构建了一个实体间的链式结构,如图4所示,基于结构化提取规则实现文本中结构化信息的提取。
一种冠脉医疗报告结构关系提取的方法,如图1所示,包括以下步骤:
S1:获取冠脉报告描述文本,对获得的文本进行数据预处理;对获得的文本进行数据预处理的具体方法为:
S11:将长文本根据标点符号拆分成若干个短文本;
S12:去除文本中的空格;
S13:去除括号以及括号内的内容;
S14:统一中英文标点符号和全角半角数字字母,并删除重复的标点符号;
S15:去除转义符(如换行符,缩进符等);
S16:将文字向量化,映射进向量空间中。
S2:将预处理化后的文本进行错别字纠正后进行归一化处理;对预处理后的文本进行错别字纠正的方法为:
S21:通过错误探查网络对每个字符是否为错别字进行判断,进行错别字分类;
S22:采用Soft Masking Connection联系全文,对所有字符的权重做一个加权求和,结合错误探查网络的分类结果,联系全文词向量的关系进一步给出该字符为错别字的概率;
S23:利用纠错网络计算错字字符被纠正为候选词表中的字符的概率,输出文本纠正结果;
对错别字纠正后的文本进行归一化处理之前,先通过对数据库中的冠脉医疗报告进行统计分析,找出各个医学实体对应存在的文本分词描述,建立各个文本分词描述与其对应实体的关系映射表,根据输入的描述文本中的文本分词,对于每个分词查询是否在映射表中存在映射,若存在则将其替换成对应的映射实体。
S3:根据归一化后的文本对文本中的医学实体进行识别,将文本分割成若干个实体文本;对医学实体进行识别的方法为:将归一化完成后的文本重新映射到向量空间,传入transformer-crf模型中,利用transformer对于文本前后文关系的识别,结合crf对于transformer对标签预测的约束,对文本中的医学实体进行识别。
S4:根据结构化提取规则对实体文本进行实体关系的提取,形成结构化关系路径图;对实体文本进行实体关系的提取包括以下步骤:
S41:建立结构化提取规则;结构化提取规则的建立方法为:对冠脉检查报告进行分析,构建一个实体间的链式结构,用来寻找实体存在的对应关系,同时建立一套关系验证法则,剔除掉其中无效的实体关系,形成结构化提取规则;
S42:遍历文本中的实体,记录实体的原始文本、实体的标签、实体在文中的索引以及标签在文中的索引;
S43:将所有的标签通过两两配对形成实体A—实体B 的二元组,形成集合A;
S44:遍历集合A,获取实体A的标签,根据结构化提取规则向下搜查,判断实体B是否从属于实体A,若不是则跳过,若是则根据两个实体的位置坐标,找出两个实体之间的实体,判断实体A与实体B之间是否存在实体,若实体A与实体B之间存在实体且这些实体之间存在一个或多个从属关系,则认为实体A与实体B之间不存在直接关系,跳过,若通过以上规则的判断,认为两个实体之间存在关系,则将之记录到新的集合中,形成集合B;
S45:根据结构化提取规则中各个实体的从属关系以及各个实体在文本中的索引位置,先从提取规则的顶层向下搜寻,根据集合B生成关系结构树状图,提取出文本中的结构化信息,形成结构化关系路径图,如图3所示。
S5:对结构化关系路径图进行验证后,得到冠脉医疗报告结构关系的输出结果;对结构化关系路径图进行验证的方法为:
S51:根据结构化关系路径图,验证每条路径的有效性,若路径中存在“症状或表现”,“影像表现”,“评估项目”中的一个或多个,则认为路径有效,否则剔除该路径;
S52:检测每条路径中是否存在未被识别到的标签,若存在则用None填充,形成完整路径,输出结果。
本发明中,通过结构化提取规则实现实体关系二元组提取的方法为:
a、识别如图4所示的链式结构中的各实体,组成多个实体二元组;
b、实体二元组根据实体的链式结构,将其中可能存在从属关系的实体结构找出作为一个规则集合,例如次部位从属于主部位,则可能存在着(主部位-次部位)这样的关系;
c、剔除其中存在的一些错误的关系,需要建立一些规则剔除。
例如:原文为:第 1、2对角支管壁与管腔异常征象,实体识别后的结果(括号内为识别的实体结果)如下:
第 1、2【位置】 对角支【次部位】 管壁【详细位置】 与 管腔【详细位置】 异常【症状或表现】 征象。
针对“症状或表现”这一实体,根据提取规则将会得到(对角支【次部位】-异常【症状或表现】)、(管腔【详细位置】-异常【症状或表现】)和(管壁【详细位置】-异常【症状或表现】)这三种规则,而显然“异常”这一实体是描述管壁和管腔的,而管壁和管腔从属于对角支,因此可以根据次部位实体和症状实体之间是否存在其他的从属关系来剔除这一情况。
例如,假设实体识别后的文本如下:
左【位置】 冠状动脉【主部位】 前降支【次部位】 近中段【位置】 可见多发钙化斑块及非钙化斑块【症状或表现】 , 第三【位置】 对角支【次部位】 管腔【详细位置】 重度狭窄【症状或表现】 ,约达 75【数字】 %【单位】。
遍历文本中的实体,记录实体的原始文本、实体在文中的索引、标签在文中的索引。如(source_text: 左, word_index:0, tag_index:0)。
提取关系二元组:根据结构化提取规则,提取文本中可能存在关系的二元组,放入一个新的集合中,如(左,冠状动脉),(冠状动脉,前降支)。
根据结构化提取规则中各个实体的从属关系以及各个实体在文本中的索引位置,对关系二元组集合生成关系结构树状图,提取出文本中的结构化信息,生成如图3所示的结构化关系路径图。
本发明针对非结构化的冠脉医疗报告构建了一种实体识别和关系提取的结构化方法,通过基于深度学习的自然语言处理技术实现对医疗报告的实体识别,保证了实体识别的准确度,加入了错字纠正和文本归一化方法,进一步提高了实体识别的准确度;提出了SREM模块,通过构建实体之间的链式结构,实现高准确度的实体关系提取。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (6)

1.一种冠脉医疗报告结构关系提取的方法,其特征在于,包括以下步骤:
S1:获取冠脉报告描述文本,对获得的文本进行数据预处理;
S2:将预处理化后的文本进行错别字纠正后进行归一化处理;
S3:根据归一化后的文本对文本中的医学实体进行识别,将文本分割成若干个实体文本;
S4:根据结构化提取规则对实体文本进行实体关系的提取,形成结构化关系路径图;
S5:对结构化关系路径图进行验证后,得到冠脉医疗报告结构关系的输出结果;
步骤S4中,对实体文本进行实体关系的提取包括以下步骤:
S41:建立结构化提取规则;
S42:遍历文本中的实体,记录实体的原始文本、实体的标签、实体在文中的索引以及标签在文中的索引;
S43:将所有的标签通过两两配对形成实体A—实体B 的二元组,形成集合A;
S44:遍历集合A,获取实体A的标签,根据结构化提取规则向下搜查,判断实体B是否从属于实体A,若不是则跳过,若是则根据两个实体的位置坐标,找出两个实体之间的实体,判断实体A与实体B之间是否存在实体,若实体A与实体B之间存在实体且这些实体之间存在一个或多个从属关系,则认为实体A与实体B之间不存在直接关系,跳过,若通过以上规则的判断,认为两个实体之间存在关系,则将之记录到新的集合中,形成集合B;
S45:根据结构化提取规则中各个实体的从属关系以及各个实体在文本中的索引位置,先从提取规则的顶层向下搜寻,根据集合B生成关系结构树状图,提取出文本中的结构化信息,形成结构化关系路径图;
步骤S41中,结构化提取规则的建立方法为:对冠脉检查报告进行分析,构建一个实体间的链式结构,用来寻找实体存在的对应关系,同时建立一套关系验证法则,剔除掉其中无效的实体关系,形成结构化提取规则;
步骤S5中,对结构化关系路径图进行验证的方法为:
S51:根据结构化关系路径图,验证每条路径的有效性,若路径中存在症状或表现、影像表现以及评估项目中的一个或多个,则认为路径有效,否则剔除该路径;
S52:检测每条路径中是否存在未被识别到的标签,若存在则用None填充,形成完整路径,输出结果。
2.根据权利要求1所述的一种冠脉医疗报告结构关系提取的方法,其特征在于,
步骤S1中,对获得的文本进行数据预处理的具体方法为:
S11:将长文本根据标点符号拆分成若干个短文本;
S12:去除文本中的空格;
S13:去除括号以及括号内的内容;
S14:统一中英文标点符号和全角半角数字字母,并删除重复的标点符号;
S15:去除转义符;
S16:将文字向量化,映射进向量空间中。
3.根据权利要求1所述的一种冠脉医疗报告结构关系提取的方法,其特征在于,
步骤S2中,对预处理后的文本进行错别字纠正的方法为:
S21:通过错误探查网络对每个字符是否为错别字进行判断,进行错别字分类;
S22:采用Soft Masking Connection联系全文,对所有字符的权重做一个加权求和,结合错误探查网络的分类结果,联系全文词向量的关系进一步给出该字符为错别字的概率;
S23:利用纠错网络计算错字字符被纠正为候选词表中的字符的概率,输出文本纠正结果。
4.根据权利要求1所述的一种冠脉医疗报告结构关系提取的方法,其特征在于,
步骤S2中,对错别字纠正后的文本进行归一化处理之前,先通过对数据库中的冠脉医疗报告进行统计分析,找出各个医学实体对应存在的文本分词描述,建立各个文本分词描述与其对应实体的关系映射表,根据输入的描述文本中的文本分词,对于每个分词查询是否在映射表中存在映射,若存在则将其替换成对应的映射实体。
5.根据权利要求1所述的一种冠脉医疗报告结构关系提取的方法,其特征在于,
步骤S3中,对医学实体进行识别的方法为:将归一化完成后的文本重新映射到向量空间,传入transformer-crf模型中,利用transformer对于文本前后文关系的识别,结合crf对于transformer对标签预测的约束,对文本中的医学实体进行识别。
6.一种冠脉医疗报告结构关系提取的装置,采用如权利要求1所述的一种冠脉医疗报告结构关系提取的方法,其特征在于,包括:
预处理模块,用于对冠脉报告描述文本进行向量化处理;
错字纠正模块,用于对描述文本进行错别字纠正处理,与预处理模块连接;
文本归一模块,用于文本数据进行归一化,与错字纠正模块连接;
识别模块,对文本中的医学实体进行识别,与文本归一模块连接;
提取模块,提取出文本中的结构化信息,形成结构化关系路径图,与识别模块连接。
CN202110940134.1A 2021-08-17 2021-08-17 一种冠脉医疗报告结构关系提取的方法和装置 Active CN113393916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110940134.1A CN113393916B (zh) 2021-08-17 2021-08-17 一种冠脉医疗报告结构关系提取的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110940134.1A CN113393916B (zh) 2021-08-17 2021-08-17 一种冠脉医疗报告结构关系提取的方法和装置

Publications (2)

Publication Number Publication Date
CN113393916A CN113393916A (zh) 2021-09-14
CN113393916B true CN113393916B (zh) 2021-12-31

Family

ID=77622870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110940134.1A Active CN113393916B (zh) 2021-08-17 2021-08-17 一种冠脉医疗报告结构关系提取的方法和装置

Country Status (1)

Country Link
CN (1) CN113393916B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328938B (zh) * 2022-03-16 2022-06-24 浙江卡易智慧医疗科技有限公司 一种影像报告结构化提取方法
CN114783559B (zh) * 2022-06-23 2022-09-30 浙江太美医疗科技股份有限公司 医学影像报告信息抽取方法、装置、电子设备和存储介质
CN115083550B (zh) * 2022-06-29 2023-08-08 西安理工大学 基于多源信息的病人相似度分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295187A (zh) * 2016-08-11 2017-01-04 中国科学院计算技术研究所 面向智能临床辅助决策支持系统的知识库构建方法与系统
CN111026799A (zh) * 2019-12-06 2020-04-17 安翰科技(武汉)股份有限公司 胶囊内窥镜检查报告文本结构化方法、设备及介质
CN112101013A (zh) * 2020-09-27 2020-12-18 北京百度网讯科技有限公司 地点抽取方法、装置、设备以及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190006027A1 (en) * 2017-06-30 2019-01-03 Accenture Global Solutions Limited Automatic identification and extraction of medical conditions and evidences from electronic health records
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295187A (zh) * 2016-08-11 2017-01-04 中国科学院计算技术研究所 面向智能临床辅助决策支持系统的知识库构建方法与系统
CN111026799A (zh) * 2019-12-06 2020-04-17 安翰科技(武汉)股份有限公司 胶囊内窥镜检查报告文本结构化方法、设备及介质
CN112101013A (zh) * 2020-09-27 2020-12-18 北京百度网讯科技有限公司 地点抽取方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN113393916A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
Al-Ayyoub et al. Deep learning for Arabic NLP: A survey
CN113393916B (zh) 一种冠脉医疗报告结构关系提取的方法和装置
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Zhang et al. Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition
CN109543084B (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
US11514698B2 (en) Intelligent extraction of information from a document
CN109800414B (zh) 语病修正推荐方法及系统
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN111062397A (zh) 一种智能票据处理系统
CN113383316B (zh) 用于学习程序语义的方法和设备
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN114969275A (zh) 一种基于银行知识图谱的对话方法及其系统
CN111950283A (zh) 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN114742069A (zh) 一种代码相似度检测方法及装置
Wang et al. Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network
CN114970536A (zh) 一种分词、词性标注和命名实体识别的联合词法分析方法
CN115033659A (zh) 基于深度学习的子句级自动摘要模型系统及摘要生成方法
Jui et al. A machine learning-based segmentation approach for measuring similarity between sign languages
CN112784601A (zh) 关键信息提取方法、装置、电子设备和存储介质
CN116521837A (zh) 基于上下文语义检索的图谱问答方法、系统与计算机可读介质
CN116110047A (zh) 基于ocr-ner的结构化电子病历构建方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information

Inventor after: Jin Beijian

Inventor after: Lin Mingqiang

Inventor after: Chen Jifang

Inventor after: Ma Yuanxing

Inventor before: Lin Jian

Inventor before: Ye Jinde

Inventor before: Lin Mingqiang

Inventor before: Chen Jifang

Inventor before: Ma Yuanxing

CB03 Change of inventor or designer information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant