CN111026799A - 胶囊内窥镜检查报告文本结构化方法、设备及介质 - Google Patents

胶囊内窥镜检查报告文本结构化方法、设备及介质 Download PDF

Info

Publication number
CN111026799A
CN111026799A CN201911241300.8A CN201911241300A CN111026799A CN 111026799 A CN111026799 A CN 111026799A CN 201911241300 A CN201911241300 A CN 201911241300A CN 111026799 A CN111026799 A CN 111026799A
Authority
CN
China
Prior art keywords
report text
report
model
labeling
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911241300.8A
Other languages
English (en)
Other versions
CN111026799B (zh
Inventor
黄志威
袁文金
张皓
张行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ankon Technologies Co Ltd
Original Assignee
Ankon Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ankon Technologies Co Ltd filed Critical Ankon Technologies Co Ltd
Priority to CN201911241300.8A priority Critical patent/CN111026799B/zh
Publication of CN111026799A publication Critical patent/CN111026799A/zh
Priority to US17/112,971 priority patent/US12033734B2/en
Application granted granted Critical
Publication of CN111026799B publication Critical patent/CN111026799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种胶囊内窥镜检查报告文本结构化方法、设备及介质,所述方法包括:S1、采用标注模型对报告文本进行标注;S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体分类标签采用分级树型结构化的方式存储形成树型结构图;S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和时间参数面板表。本发明通过标注模型对胶囊内镜检查报告进行自动标注,并对不同信息量的参数采用不同的结构进行输出,对胶囊内镜检查过程及检查结果进行定量、精准的质量控制,为胶囊内窥镜的医疗信息电子化提供足够便利。

Description

胶囊内窥镜检查报告文本结构化方法、设备及介质
技术领域
本发明涉及医疗器械领域,尤其涉及一种胶囊内窥镜检查报告文本结构化 方法、设备及介质。
背景技术
胶囊内窥镜是一种医疗设备,胶囊内窥镜将摄像头、无线传输天线等核心 器件集成于一个可被人体吞咽的胶囊内,在进行检查过程中,将胶囊内窥镜吞 入体内,内窥镜在体内采集消化道图像并同步传送到体外,以根据获得的图像 数据进行医疗检查。
胶囊内窥镜检查完成以后,会生成一个检查报告,包含检查所见、诊断结 果,以及建议等;由于每个医生的习惯不同,书写方式不同,导致每一份检查 报告都有所不同;另外,消化道医生少,医生工作量大,可能存在漏写以及错 写等;为了便于后续查阅及分析,通常需要将检查报告进行整理标注。
现有技术中,通常采用人工标注的方式整理检查报告,浪费人力,增加标 注成本,另外,经过标注后的报告文本仍然保持原始文本的排布方式,极大的 占用存储空间,且不利于报告的查询。
发明内容
为解决上述技术问题,本发明的目的在于提供一种胶囊内窥镜检查报告文 本结构化方法、设备及介质。
为了实现上述发明目的之一,本发明一实施方式提供一种胶囊内窥镜检查 报告文本结构化方法,所述方法包括:S1、采用标注模型对报告文本进行标注;
S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体 分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对 应报告文本中每一命名实体分类标签的命名类别;
S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结 构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和 时间参数面板表。
作为本发明一实施方式的进一步改进,所述方法包括:S4、选择性输出树 型结构图、异常结构面板表和时间参数面板表至少其中之一。
作为本发明一实施方式的进一步改进,步骤S1中标注模型的获取方法具体 包括:
M1、采用BiLSTM+CRF结构构建神经网络小模型和采用BERT结构构建神经 网络大模型;初始的小模型和大模型具有相同的命名实体划分规则;分别采用 小模型和大模型对当前的一组报告文本进行预标注;
M2、并对大模型标注完成的当前报告文本进行审核校正,形成修正报告文 本;
M3、以修正报告文本校验小模型,获取对应于小模型的对数似然损失函数;
M4、若对数似然损失函数不大于预设第一函数值,则采用当前获得的修正 报告文本修订小模型对应的命名实体划分规则并训练小模型,并将训练后的小 模型作为标注模型;若对数似然损失函数大于预设第一函数值,则进入步骤M5;
M5、采用当前获得的修正报告文本修订小模型和大模型对应的命名实体划 分规则,并训练大模型和小模型,采用训练后的小模型和大模型同时对下一组 报告文本进行预标注,任一下一组报告文本的数量均大于其之前的一组报告文 本的数量;并循环执行步骤M2,直至训练后的小模型成为标注模型。
作为本发明一实施方式的进一步改进,步骤S1具体包括:
S11、对报告文本进行预处理,以将报告文本整理形成可识别的报告文本;
S12、解析可识别的报告文本,根据命名实体划分规则识别报告文本中的每 一命名实体分类标签;
S13、遍历可识别的报告文本,采用BIO标记方式对每一命名实体分类标签 和区别于命名实体分类标签的文本进行标注。
作为本发明一实施方式的进一步改进,步骤S11对报告文本进行预处理具 体包括:
基于预先设定的规则对原始的报告文本进行搜索,修正原始的报告文本中 的错别字,中英文字符混用、大小写字符混用、标点符号错误、异常数值描述、 无关字符、不规范描述。
作为本发明一实施方式的进一步改进,步骤S12之前,所述方法还包括: 建立命名实体划分规则;
所述命名实体划分规则包括:
建立命名实体分类标签和标注信息的对应关系,所述标注信息包括:器官, 对应于器官的描述信息,对应于器官的异常结构,对应于异常结构的描述参数, 以及时间参数标识。
作为本发明一实施方式的进一步改进,步骤S13具体包括:将每一命名实 体分类标签的首字符均采用第一前缀和标注信息结合的方式进行标注,将每一 命名实体分类标签的非首字符均采用第二前缀和标注信息结合的方式进行标 注,将未有标注信息的文本以第三前缀进行标注;所述第一前缀、第二前缀和 第三前缀均不相同。
作为本发明一实施方式的进一步改进,对每一组报告文本进行预标注过程 中,所述方法还包括:
通过标点符号断句将每一报告文本分割为多个短句,对于相同的短句采用 去重处理保留一份进行预标注及审核校正。
为了解决上述发明目的之一,本发明一实施方式提供一种电子设备,包括 存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所 述处理器执行所述程序时实现如上所述的胶囊内窥镜检查报告文本结构化方法 中的步骤。
为了解决上述发明目的之一,本发明一实施方式提供一种计算机可读存储 介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述 的胶囊内窥镜检查报告文本结构化方法中的步骤。
与现有技术相比,本发明的有益效果是:本发明的胶囊内窥镜检查报告文 本结构化方法、设备及介质,通过标注模型对胶囊内镜检查报告进行自动标注, 并对不同信息量的参数采用不同的结构进行输出,对胶囊内镜检查过程及检查 结果进行定量、精准的质量控制,为胶囊内窥镜的医疗信息电子化提供足够便 利。
附图说明
图1是本发明一实施方式提供的胶囊内窥镜检查报告文本结构化方法的流 程示意图;
图2是图1中标注模型的获取方法的流程示意图;
图3是本发明一具体示例中短句去重处理的结构示意图;
图4图1中步骤S1的具体实现流程示意图;
图5是本发明一具体示例中采用BIO标记方式对报告文本进行标注的结构 示意图;
图6是本发明一具体示例形成的树型结构图;
图7是本发明一具体示例形成的异常结构面板表;
图8是本发明一具体示例形成的时间参数面板表。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施 方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、 方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,本发明第一实施方式中提供一种胶囊内窥镜检查报告文本结 构化方法,所述方法包括:
S1、采用标注模型对报告文本进行标注;
S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体 分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对 应报告文本中每一命名实体分类标签的命名类别;
S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结 构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和 时间参数面板表。
S4、选择性输出树型结构图、异常结构面板表和时间参数面板表至少其中 之一。
本发明具体实施方式中,基于模型部署性能考虑,采用BiLSTM+CRF结构的 小模型方案识别报告文本命名实体;兼顾模型准确率,采用准确率更高的BERT 结构大模型指导小模型的训练,迭代提高BiLSTM+CRF小模型的准确率。
具体的,结合图2所示,步骤S1中标注模型的获取方法具体包括:M1、采 用BiLSTM+CRF结构构建神经网络小模型和采用BERT结构构建神经网络大模型; 初始的小模型和大模型具有相同的命名实体划分规则;分别采用小模型和大模 型对当前的一组报告文本进行预标注;
M2、并对大模型标注完成的当前报告文本进行审核校正,形成修正报告文 本;
M3、以修正报告文本校验小模型,获取对应于小模型的对数似然损失函数;
M4、若对数似然损失函数不大于预设第一函数值,则采用当前获得的修正 报告文本修订小模型对应的命名实体划分规则并训练小模型,并将训练后的小 模型作为标注模型;若对数似然损失函数大于预设第一函数值,则进入步骤M5;
M5、采用当前获得的修正报告文本修订小模型和大模型对应的命名实体划 分规则,并训练大模型和小模型,采用训练后的小模型和大模型同时对下一组 报告文本进行预标注,任一下一组报告文本的数量均大于其之前的一组报告文 本的数量;并循环执行步骤M2,直至训练后的小模型成为标注模型。
本发明具体实现过程中,采用了基于TensorFlow框架的BiLSTM+CRF和 BERT两种不同规模的深度学习神经网络模型进行命名实体分类标签的识别处 理。
BiLSTM+CRF方案的模型较小,通常约5~6M,包含双向LSTM层和条件随机 场CRF层,可以学习获取上、下文语义信息以及词之间的转移概率,约束使得 命名实体分类标签符合合法性规则,能够以较高的准确率预测实体类型,经过 多轮迭代训练,验证集准确率由平均90%整体提升到约98%;本发明较佳实施方 式中,将BiLSTM+CRF的小模型经过多轮迭代训练以及BERT的大模型的知识迁 移后,可以加快BiLSTM+CRF的训练速度。
在步骤M3中,BiLSTM+CRF模型使用对数似然损失函数进行优化,其可表 示为:L=-∑klog(p(yk|X))=-∑klog(softmax(S(X,yk)));其中,p(yk|X)为输入的报 告文本的命名实体分类标签对应的标注信息的类别向量X,例如:命名实体分 类标签“胃底”中的“胃”的标签为B-QG,对应的one-hot向量[1,0,0,...]、 模型识别命名实体后输出的类别logit向量yk,例如:命名实体分类标签“胃 底”中的“胃”的模型输出类别logit未归一化向量[1.35,0.23,-2.41,...]) 的最大似然概率;
S(X,yk)为条件随机场修正后的输出分数,定义形式为
Figure BDA0002306307020000061
其中,tk(...)为依赖当前和前一位置的转移特征函数,sl(...)为仅依赖当前节点位置的状态特征函数,vk,ul为对应的权 值,特征函数和权值通过模型训练优化自动学习获得。
进一步的,BERT方案的模型较大,其base模型约400M,使用双向自注意 力机制的Transformer模块提升表达能力,基于Google开放提供的、在大量中 文语料上训练的BERT中文预训练模型,在报告文本数据集上进行迁移微调训 练,验证集准确率约99%(与人工审核标注的独立样本进行比较)。BERT模型使 用交叉熵损失函数L=-∑kqklog(Pk)进行优化,其中qk为命名实体标注标签类别 的one-hot向量;例如:“胃底”中“胃”的标签为B-QG,对应的one-hot向 量[1,0,0,...]),Pk为模型识别命名实体输出的类别向量对应的softmax归一 化概率;例如:“胃底”中“胃”的模型输出类别归一化向量[0.92,0.05,0,...]。
本发明较佳实施方式中,BERT模型也被用于迭代流程中的自动预标注,辅 助训练BiLSTM+CRF模型。
本发明具体实现过程中,早期阶段的自动预标注依赖于模型中预置的命名 实体划分规则匹配,基于规则的标注,具有较高的确定性和处理速度;然而, 规则标注的泛化力稍差,独立的规则之间可能存在部分重叠、冲突的情况;通 过多轮迭代方式逐步更新完善规则,基于规则标注的弱点可以被有效降低。
进一步的,对每一组报告文本进行预标注过程中,所述方法还包括:通过 标点符号断句将每一报告文本分割为多个短句,对于相同的短句采用去重处理 保留一份进行预标注及审核校正。
相应的,通过胶囊内窥镜检查后获得的报告文本,其格式和术语描述相对 固定,不同病例报告文本可能存在较多的相同描述短句;针对原始报告文档进 行短句去重复处理,同时记录原报告文本中各短句的标识ID以及在原报告文本 中的位置信息,便于短句标注后的正确回填;采用去重复后的短句文本进行预 标注及医生人工审核,可以有效减少约75%的重复标记工作量,并能有效避免 原始报告文本中相同短句标注可能出现的不一致性,影响后续模型学习的效果。 完成预标注、审核校正后,将具有正确标注信息的短句按照事先存储的位置信 息,回填到原始的报告文本中,实现对原始报告文本的完整标注。
结合图3所示,本发明一具体示例中,箭头之前的为未进行标注的文本, S1至S15为分割后形成的多个短句,对短句去重后,形成箭头之后的短句集。
预标注可以以较高准确率识别命名实体分类标签,针对报告文本进行自动 化标注,使用标注模型可以节省约95%以上的人工标注工作量;随着命名实体 划分规则、模型的迭代升级,自动预标注的准确率可以达到约98%以上;另外, 使用命名实体划分规则、模型进行自动预标注,可以保证大量文本标注的一致 性,有效规避对大量文本数据进行人工标注所面临的个体差异和风格漂移。
在上述标注模型的获取过程中,人工辅助对预标注的报告文本进行审核并 校正错标、标记漏标;人工审核校正可以有效提高数据集的标注质量,有利于 模型学习训练的迭代升级。
依据审核后的报告文本训练深度学习神经网络模型;由于深度学习神经网 络模型在自然语言处理领域具有较好的推理性能和泛化能力,在命名实体分类 标签识别任务上可以达到接近专业人工标注的准确率;使用大量、良好标注的 报告文本进行深度学习训练、验证,能够获得具备较高准确率和健壮性的神经 网络模型;通过训练好的模型对报告文本进行自动标注,可以有效提高文本结 构化的一致性、自动化程度和执行效率。
本发一具体示例中,采用多轮迭代的方式,逐步建立和完善报告文本的命 名实体划分规则。经过4轮迭代标注,分批标注了24份、2059份、4950份、 4539份胶囊内镜实际病例检查报告。基于规则、模型的自动预标注,可以显著 降低人工重复标注成本;本发明较佳实施方式中,还采用人工辅助审核校正报 告文本,并将审核校正用于训练深度学习神经网络模型,便于模型部署后对新 的报告文本进行标注;通过多轮迭代验证,逐步完善了用于标注的命名实体划 分规则、优化了神经网络模型,模型能够以较高的准确率实现报告文本的标注 功能,确保后续文本结构化结果的质量。
可以理解的是,在实际工程部署时,依据设备算力、用途的差异,可以选 择使用不同量级的深度学习神经网络模型进行命名实体分类标签识别。轻量级 模型(BiLSTM+CRF)方案可以在CPU上部署,能够应用于报告文本的在线结构 化和报告质量控制;重量级模型(BERT)在有GPU支持的条件下可以执行在线 任务,也能够以较高准确率针对海量汇集存档报告进行批量结构化处理,将结 构化后的结果归档入库,构建知识图谱。
本发明具体实现过程中,结合图4所示,步骤S1具体包括:S11、对报告 文本进行预处理,以将报告文本整理形成可识别的报告文本;
S12、解析可识别的报告文本,根据命名实体划分规则识别报告文本中的每 一命名实体分类标签;
S13、遍历可识别的报告文本,采用BIO标记方式对每一命名实体分类标签 和区别于命名实体分类标签的文本进行标注。
本发明一具体实施方式中,步骤S11对报告文本进行预处理具体包括:基 于预先设定的规则对原始的报告文本进行搜索,修正原始的报告文本中的错别 字,中英文字符混用、大小写字符混用、标点符号错误、异常数值描述、无关 字符、不规范描述等,以有效修正原始报告文本中的低级错误,提高报告文本 的质量和后续结构化结果的质量。例如:通过规则匹配,将“邹壁”修正为“皱 襞”、将“0。4cm”修正为“0.4cm”,将“1小时2345”修正为“1小时23分 45秒”等。当然,在本发明的具体实施方式中,初始状态下,会预先设定一组 规则,随着报告文本的迭代学习,规则也会随着变化,在此不做进一步的赘述。
在步骤S12之前,所述方法还包括:建立命名实体划分规则;
所述命名实体划分规则包括:建立命名实体分类标签和标注信息的对应关 系,所述标注信息包括:器官,对应于器官的描述信息,对应于器官的异常结 构,对应于异常结构的描述参数,以及时间参数标识;任一标注信息对应多个 所述命名实体分类标签。
本发明具体实施方式中,所述标注信息还可以包括组织,属性、表现、测 量值、否定和错误文本等;所述标注信息会随着报告文本中各命名实体分类标 签的类别进行增加、减少、修改。
需要说明的是,通过胶囊内窥镜检查获得的报告文本,其通常被划分为几 个区块,每一区块描述具有不同的描述;如此,在本发明具体实施方式中,可 以针对区块建立对应于每个区块的命名实体划分规则;且对于每一区块,同步 或异步执行上述步骤,并分别按照其具体需求对应输出。例如:胶囊内窥镜检 查获得的报告通常分为:检查所见、检查结果、检查建议等描述区块,实际应 用中,可对每一区块分别进行结构化处理。
本发明具体示例中,根据报告文本统计特征,将命名实体分类标签与标注 信息进行匹配,形成命名实体划分规则。具体的,所述器官包括具有上下级关 系的一级器官和二级器官;
一级器官对应的命名实体分类标签包括:口腔、食道、胃、十二指肠、小 肠和大肠等;二级器官是一级器官的进一步细分;胃的二级器官对应的命名实 体分类标签包括:胃底、贲门、胃体、胃角、胃窦、幽门等;十二指肠的二级 器官对应的命名实体分类标签包括:球部、降部、水平部、升部等;小肠的二 级器官对应的命名实体分类标签包括:空肠、回肠等;大肠的二级器官对应的 命名实体分类标签包括:盲肠、阑尾、结肠、直肠、肛管等。器官对应的描述 信息对应的命名实体分类标签包括:齿状线、粘液湖、粘膜、血管、淋巴管、 皱襞、上皮、球腔、肠腔、肠壁、绒毛等;对应于器官的异常结构对应的命名 实体分类标签包括:息肉、隆起、溃疡、增生、糜烂、充血、出血、水肿、红 肿、肿物、扩张、突起、凹陷、病变、瘤、炎症、畸形、结节、憩室、龛影、 寄生虫、静脉曲张、异常新生物等;异常结构的描述参数对应的命名实体分类 标签例如某一异常结构的尺寸,该尺寸可能具有多种表达方式,包括但不限于: 数字+中文(3.5*4.5毫米、0.8公分)、数字+英文(3.5*4.5mm)等类型及其变 体;
标注类型为时间参数标识时,涉及到多种类型,例如:胶囊运行总时间、 进入器官时间、器官内运行时间、所见异常结构时间等,而对于每种类型其对 应的命名实体分类标签具有多种表达方式,包括但不限于:数值时间 (01:23:45)、数字中文时间(1小时23分45秒)、数字英文时间(1h23min45s) 等类型及其变体。
本发明具体实施方式中,采用BIO标记方式对每一命名实体分类标签和区 别于命名实体分类标签的文本进行标注,如此,便于依据标注处理结果准确地定 位命名实体分类标签,避免相邻同类实体的混淆。具体的,步骤S13具体包括: 将每一命名实体分类标签的首字符均采用第一前缀和标注信息结合的方式进行 标注,将每一命名实体分类标签的非首字符均采用第二前缀和标注信息结合的 方式进行标注,将未有标注信息的文本以第三前缀进行标注;所述第一前缀、 第二前缀和第三前缀均不相同。
结合图5所示,本发明具体示例中,标注信息具体划分为:器官、组织、 异常结构、属性、表现、测量值、时间、否定、其它,并对每一标注信息以字 母进行标识,其分别为:QG代表器官、ZZ代表组织、YCJG代表异常结构、SX 代表属性、BX代表表现、CLZ代表测量值、SJ代表时间、FD代表否定、None 代表其它。
以搜寻后获得的第一命名实体分类标签“胃底”为例:“胃底”对应的标注 信息为器官,“胃”为首字符,其以“B-QG”进行标注,“底”为非首字符,其 以“I-QG”进行标注,“:”为标点符号,不是命名实体分类标签,在该示例中 以“None”进行标注。
结合图6所示,对于步骤S2,对于标注信息划分为上级集关系或具有对应 关系的命名实体分类标签,其在存储及输出时,采用分级树型结构化的方式存 储形成树型结构图,以有效节省数据存储空间,提高数据检索提取效率;在图 6所示示例中,树型结构图将标注信息进行分级,其中一级器官、二级器官、 组织与异常结构逐步分级,子叶部分存储属性、表现等描述性文字。
进一步的,对于步骤S3,结合图7所示,对于检出疑似阳性结果的异常结 构部分,需要引起特别重视,采用面板数据结构化,建立异常结构的出现部位 (一级器官部分、二级器官部位)、尺寸大小(异常结构的描述参数)结构化; 便于相关人员更直观地搜索、查看目标信息。
结合图8所示,该具体示例的胶囊内窥镜检查的报告文本中的时间参数包 括:胶囊的总运行时间、部位(器官)、进入时间(进入器官时间),运行时间 (器官内运行时间);采用这些时间参数可能被用于操作质控、图像快速定位、 特定图像提取等;采用面板数据结构化,建立时间值相关的结构化,便于相关 人员更直观地搜索、查看目标信息。
对于步骤S4,采用自然语言描述的报告文本经过结构化处理之后,报告文 本中的命名实体分类标签以较高准确度被分割,命名实体分类标签之间建立了 比较明确的逻辑关联。而在实际应用中,涉及从大量报告文本获取特定的目标 信息,例如:异常结构的相关统计、时间参数的统计等;上述图7、图8所示 示例即是目标信息提取的典型示例。
另外,需要说明的使,其它任务涉及的目标信息,均可以按照类似的方式 从建立逻辑关联的树型结构化图中提取。
较佳的,本发明一实施方式提供一种电子设备,包括存储器和处理器,所 述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程 序时实现如上所述的胶囊内窥镜检查报告文本结构化方法中的步骤。
较佳的,本发明一实施方式还提供一种计算机可读存储介质,其上存储有 计算机程序,所述计算机程序被处理器执行时实现如上所述的胶囊内窥镜检查 报告文本结构化方法中的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述 的电子设备以及可存储介质的具体工作过程,可以参考前述方法实施方式中的 对应过程,在此不再赘述。
综上所述,本发明的胶囊内窥镜检查报告文本结构化方法、设备及介质, 通过标注模型对胶囊内镜检查报告进行自动标注,并对不同信息量的参数采用 不同的结构进行输出,对胶囊内镜检查过程及检查结果进行定量、精准的质量 控制,为胶囊内窥镜的医疗信息电子化提供足够便利。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅 包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域 技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当 组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具 体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作 的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种胶囊内窥镜检查报告文本结构化方法,其特征在于,所述方法包括:
S1、采用标注模型对报告文本进行标注;
S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对应报告文本中每一命名实体分类标签的命名类别;
S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和时间参数面板表。
2.根据权利要求1所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,所述方法包括:S4、选择性输出树型结构图、异常结构面板表和时间参数面板表至少其中之一。
3.根据权利要求1所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S1中标注模型的获取方法具体包括:
M1、采用BiLSTM+CRF结构构建神经网络小模型和采用BERT结构构建神经网络大模型;初始的小模型和大模型具有相同的命名实体划分规则;分别采用小模型和大模型对当前的一组报告文本进行预标注;
M2、并对大模型标注完成的当前报告文本进行审核校正,形成修正报告文本;
M3、以修正报告文本校验小模型,获取对应于小模型的对数似然损失函数;
M4、若对数似然损失函数不大于预设第一函数值,则采用当前获得的修正报告文本修订小模型对应的命名实体划分规则并训练小模型,并将训练后的小模型作为标注模型;若对数似然损失函数大于预设第一函数值,则进入步骤M5;
M5、采用当前获得的修正报告文本修订小模型和大模型对应的命名实体划分规则,并训练大模型和小模型,采用训练后的小模型和大模型同时对下一组报告文本进行预标注,任一下一组报告文本的数量均大于其之前的一组报告文本的数量;并循环执行步骤M2,直至训练后的小模型成为标注模型。
4.根据权利要求1所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S1具体包括:
S11、对报告文本进行预处理,以将报告文本整理形成可识别的报告文本;
S12、解析可识别的报告文本,根据命名实体划分规则识别报告文本中的每一命名实体分类标签;
S13、遍历可识别的报告文本,采用BIO标记方式对每一命名实体分类标签和区别于命名实体分类标签的文本进行标注。
5.根据权利要求4所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S11对报告文本进行预处理具体包括:
基于预先设定的规则对原始的报告文本进行搜索,修正原始的报告文本中的错别字,中英文字符混用、大小写字符混用、标点符号错误、异常数值描述、无关字符、不规范描述。
6.根据权利要求4所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S12之前,所述方法还包括:建立命名实体划分规则;
所述命名实体划分规则包括:
建立命名实体分类标签和标注信息的对应关系,所述标注信息包括:器官,对应于器官的描述信息,对应于器官的异常结构,对应于异常结构的描述参数,以及时间参数标识。
7.根据权利要求4所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S13具体包括:将每一命名实体分类标签的首字符均采用第一前缀和标注信息结合的方式进行标注,将每一命名实体分类标签的非首字符均采用第二前缀和标注信息结合的方式进行标注,将未有标注信息的文本以第三前缀进行标注;所述第一前缀、第二前缀和第三前缀均不相同。
8.根据权利要求3所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,对每一组报告文本进行预标注过程中,所述方法还包括:
通过标点符号断句将每一报告文本分割为多个短句,对于相同的短句采用去重处理保留一份进行预标注及审核校正。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任意一项所述的胶囊内窥镜检查报告文本结构化方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述的胶囊内窥镜检查报告文本结构化方法中的步骤。
CN201911241300.8A 2019-12-06 2019-12-06 胶囊内窥镜检查报告文本结构化方法、设备及介质 Active CN111026799B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911241300.8A CN111026799B (zh) 2019-12-06 2019-12-06 胶囊内窥镜检查报告文本结构化方法、设备及介质
US17/112,971 US12033734B2 (en) 2019-12-06 2020-12-04 Method, device and medium for structuring capsule endoscopy report text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911241300.8A CN111026799B (zh) 2019-12-06 2019-12-06 胶囊内窥镜检查报告文本结构化方法、设备及介质

Publications (2)

Publication Number Publication Date
CN111026799A true CN111026799A (zh) 2020-04-17
CN111026799B CN111026799B (zh) 2023-07-18

Family

ID=70204517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911241300.8A Active CN111026799B (zh) 2019-12-06 2019-12-06 胶囊内窥镜检查报告文本结构化方法、设备及介质

Country Status (1)

Country Link
CN (1) CN111026799B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070726A (zh) * 2020-08-17 2020-12-11 清华大学 一种基于深度学习的葡萄胎切片图像处理方法及装置
CN112420150A (zh) * 2020-12-02 2021-02-26 沈阳东软智能医疗科技研究院有限公司 医学影像报告的处理方法、装置、存储介质及电子设备
CN112541066A (zh) * 2020-12-11 2021-03-23 清华大学 基于文本结构化的医技报告检测方法及相关设备
CN113393916A (zh) * 2021-08-17 2021-09-14 浙江卡易智慧医疗科技有限公司 一种冠脉医疗报告结构关系提取的方法和装置
CN113555078A (zh) * 2021-06-16 2021-10-26 合肥工业大学 模式驱动的胃镜检查报告智能生成方法和系统
CN113990473A (zh) * 2021-10-28 2022-01-28 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN114821603A (zh) * 2022-03-03 2022-07-29 北京百度网讯科技有限公司 票据识别方法、装置、电子设备以及存储介质
CN117332761A (zh) * 2023-11-30 2024-01-02 北京一标数字科技有限公司 一种pdf文档智能识别标注系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934799A (zh) * 2017-02-24 2017-07-07 安翰光电技术(武汉)有限公司 胶囊内窥镜图像辅助阅片系统及方法
WO2017152802A1 (zh) * 2016-03-07 2017-09-14 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
CN107423289A (zh) * 2017-07-19 2017-12-01 东华大学 一种跨类型乳腺肿瘤临床文档的结构化处理方法
CN108109681A (zh) * 2017-12-21 2018-06-01 青岛美迪康数字工程有限公司 消化内镜结构化报告系统及其建立方法
CN108319605A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 医学检查数据的结构化处理方法及系统
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN109710670A (zh) * 2018-12-11 2019-05-03 河南通域医疗科技有限公司 一种将病历文本从自然语言转换为结构化元数据的方法
CN109918672A (zh) * 2019-03-13 2019-06-21 东华大学 一种基于树结构的甲状腺超声报告的结构化处理方法
CN109934276A (zh) * 2019-03-05 2019-06-25 安翰科技(武汉)股份有限公司 基于迁移学习的胶囊内窥镜图像分类系统及方法
CN110033859A (zh) * 2018-01-12 2019-07-19 西门子医疗有限公司 评估患者的医学检查结果的方法、系统、程序和存储介质
EP3518245A1 (en) * 2018-01-29 2019-07-31 Siemens Healthcare GmbH Image generation from a medical text report
CN110413963A (zh) * 2019-07-03 2019-11-05 东华大学 基于领域本体的乳腺超声检查报告结构化方法
CN110459287A (zh) * 2018-05-08 2019-11-15 西门子医疗有限公司 来自医学文本报告的结构化报告数据

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017152802A1 (zh) * 2016-03-07 2017-09-14 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
CN108319605A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 医学检查数据的结构化处理方法及系统
CN106934799A (zh) * 2017-02-24 2017-07-07 安翰光电技术(武汉)有限公司 胶囊内窥镜图像辅助阅片系统及方法
CN107423289A (zh) * 2017-07-19 2017-12-01 东华大学 一种跨类型乳腺肿瘤临床文档的结构化处理方法
CN108109681A (zh) * 2017-12-21 2018-06-01 青岛美迪康数字工程有限公司 消化内镜结构化报告系统及其建立方法
CN110033859A (zh) * 2018-01-12 2019-07-19 西门子医疗有限公司 评估患者的医学检查结果的方法、系统、程序和存储介质
EP3518245A1 (en) * 2018-01-29 2019-07-31 Siemens Healthcare GmbH Image generation from a medical text report
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN110459287A (zh) * 2018-05-08 2019-11-15 西门子医疗有限公司 来自医学文本报告的结构化报告数据
CN109710670A (zh) * 2018-12-11 2019-05-03 河南通域医疗科技有限公司 一种将病历文本从自然语言转换为结构化元数据的方法
CN109934276A (zh) * 2019-03-05 2019-06-25 安翰科技(武汉)股份有限公司 基于迁移学习的胶囊内窥镜图像分类系统及方法
CN109918672A (zh) * 2019-03-13 2019-06-21 东华大学 一种基于树结构的甲状腺超声报告的结构化处理方法
CN110413963A (zh) * 2019-07-03 2019-11-05 东华大学 基于领域本体的乳腺超声检查报告结构化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王若佳;魏思仪;王继民;: "BiLSTM-CRF模型在中文电子病历命名实体识别中的应用研究", no. 02 *
祖木然提古丽・库尔班;艾山・吾买尔;: "中文命名实体识别模型对比分析", no. 14 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070726A (zh) * 2020-08-17 2020-12-11 清华大学 一种基于深度学习的葡萄胎切片图像处理方法及装置
CN112420150A (zh) * 2020-12-02 2021-02-26 沈阳东软智能医疗科技研究院有限公司 医学影像报告的处理方法、装置、存储介质及电子设备
CN112420150B (zh) * 2020-12-02 2023-11-14 沈阳东软智能医疗科技研究院有限公司 医学影像报告的处理方法、装置、存储介质及电子设备
CN112541066B (zh) * 2020-12-11 2022-10-25 清华大学 基于文本结构化的医技报告检测方法及相关设备
CN112541066A (zh) * 2020-12-11 2021-03-23 清华大学 基于文本结构化的医技报告检测方法及相关设备
CN113555078A (zh) * 2021-06-16 2021-10-26 合肥工业大学 模式驱动的胃镜检查报告智能生成方法和系统
CN113555078B (zh) * 2021-06-16 2023-06-30 合肥工业大学 模式驱动的胃镜检查报告智能生成方法和系统
CN113393916A (zh) * 2021-08-17 2021-09-14 浙江卡易智慧医疗科技有限公司 一种冠脉医疗报告结构关系提取的方法和装置
CN113393916B (zh) * 2021-08-17 2021-12-31 浙江卡易智慧医疗科技有限公司 一种冠脉医疗报告结构关系提取的方法和装置
CN113990473B (zh) * 2021-10-28 2022-09-30 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN113990473A (zh) * 2021-10-28 2022-01-28 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN114821603A (zh) * 2022-03-03 2022-07-29 北京百度网讯科技有限公司 票据识别方法、装置、电子设备以及存储介质
CN114821603B (zh) * 2022-03-03 2023-09-01 北京百度网讯科技有限公司 票据识别方法、装置、电子设备以及存储介质
CN117332761A (zh) * 2023-11-30 2024-01-02 北京一标数字科技有限公司 一种pdf文档智能识别标注系统
CN117332761B (zh) * 2023-11-30 2024-02-09 北京一标数字科技有限公司 一种pdf文档智能识别标注系统

Also Published As

Publication number Publication date
US20210174923A1 (en) 2021-06-10
CN111026799B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN111026799B (zh) 胶囊内窥镜检查报告文本结构化方法、设备及介质
CN110472229B (zh) 序列标注模型训练方法、电子病历处理方法及相关装置
CN109710670B (zh) 一种将病历文本从自然语言转换为结构化元数据的方法
CN110459282B (zh) 序列标注模型训练方法、电子病历处理方法及相关装置
US20220301670A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
CN109192255B (zh) 病历结构化方法
US10599627B2 (en) Automatically converting spreadsheet tables to relational tables
CN110688855A (zh) 基于机器学习的中文医疗实体识别方法及系统
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN110390674B (zh) 图像处理方法、装置、存储介质、设备以及系统
CN111275118B (zh) 基于自我修正式标签生成网络的胸片多标签分类方法
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN113688248B (zh) 一种小样本弱标注条件下的医疗事件识别方法及系统
CN112883180A (zh) 模型训练方法、装置、电子设备和存储介质
Vadyala et al. Natural language processing accurately categorizes indications, findings and pathology reports from multicenter colonoscopy
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
US20240126984A1 (en) Annotation method, relation extraction method, storage medium and computing device
CN107122582B (zh) 面向多数据源的诊疗类实体识别方法及装置
US20210174913A1 (en) Method, apparatus and storage medium for labeling capsule endoscopy report
US12033734B2 (en) Method, device and medium for structuring capsule endoscopy report text
CN115456069A (zh) 医嘱分类模型的训练方法、装置、电子设备及存储介质
CN113177912A (zh) 一种基于深度学习的胃息肉检测方法及装置
CN112735543A (zh) 医学数据的处理方法、装置及存储介质
Okita Word alignment and smoothing methods in statistical machine translation: Noise, prior knowledge and overfitting
Padmavathi et al. Wireless Capsule Endoscopy Infected Images Detection and Classification Using MobileNetV2-BiLSTM Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant