CN112185520A - 一种医疗病理报告图片的文本结构化处理系统和方法 - Google Patents
一种医疗病理报告图片的文本结构化处理系统和方法 Download PDFInfo
- Publication number
- CN112185520A CN112185520A CN202011029211.XA CN202011029211A CN112185520A CN 112185520 A CN112185520 A CN 112185520A CN 202011029211 A CN202011029211 A CN 202011029211A CN 112185520 A CN112185520 A CN 112185520A
- Authority
- CN
- China
- Prior art keywords
- text
- medical
- pathological
- index name
- name entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007170 pathology Effects 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000001575 pathological effect Effects 0.000 claims abstract description 72
- 238000012937 correction Methods 0.000 claims abstract description 38
- 238000010606 normalization Methods 0.000 claims abstract description 30
- 238000004806 packaging method and process Methods 0.000 claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000003672 processing method Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 38
- 239000012634 fragment Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 21
- 238000010827 pathological analysis Methods 0.000 claims description 14
- 206010028980 Neoplasm Diseases 0.000 claims description 13
- 201000011510 cancer Diseases 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000005538 encapsulation Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000013075 data extraction Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 208000031671 Large B-Cell Diffuse Lymphoma Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 206010012818 diffuse large B-cell lymphoma Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供了一种医疗病理报告图片的文本结构化处理系统和方法,其中,该系统包括:文本识别模块,用于对医疗病理报告图片进行文本识别,并对识别出的字词进行纠错处理,得到病理文本;文本切割模块,用于将病理文本切割为结构化文本和非结构化文本;字典匹配模块和模型预测模块,用于确定第一和第二医疗指标名实体数据结构;策略融合模块,用于对其进行融合得到医疗指标名实体;数据封装模块,用于封装医疗指标名实体和结构化文本;策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。本申请可提高图文识别的准确率,在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。
Description
技术领域
本申请涉及图文识别技术领域,尤其是涉及一种医疗病理报告图片的文本结构化处理系统和方法。
背景技术
目前,针对医疗病理报告的大数据分析技术对医疗领域的技术研究起着非常重要的作用,而病理数据的精准结构化是有价值的医疗大数据分析的基础。然而,我国的医疗信息系统(比如HIS系统)在全国、同城等的医院之间并没有实现病理数据的互联互通,甚至部分医院内部的病理数据也无法跨科室复用,医疗信息孤岛的现象普遍存在。
多数病理报告以半结构化的文本图片数据形式呈现,其中,结构化信息多数为病患的基本信息,诸如性别,年龄,病理号,住院号等;非结构化信息多数为病理诊断或者诊断信息等描述性文字。对于后者,非结构化数据由于不同医院、不同医生的描述习惯不统一,写作模板不一致,呈现出不规范,零散的情况。
当前,许多医院存在将不同类型的病理报告图片需要进行跨科室、跨医院的数据解析并录入的需求。因此,亟需研发一种医疗病理报告图片的文本结构化处理方案。
发明内容
有鉴于此,本申请的目的在于提供一种医疗病理报告图片的文本结构化处理系统和方法,可提高图文识别的准确率,在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。
第一方面,本申请实施例提供了一种医疗病理报告图片的文本结构化处理系统,包括:
文本识别模块,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;
文本切割模块,用于将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;
字典匹配模块,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;
模型预测模块,用于利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;
策略融合模块,用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;
数据封装模块,用于对所述医疗指标名实体和所述结构化文本进行数据封装;
策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。
在一种可能的实施方式中,所述文本识别模块包括:
读取单元,用于读取医疗病理报告图片;
预处理单元,用于对所述医疗病理报告图片按照预设大小进行归一化处理;
检测单元,用于利用连接文本提议网络模型对归一化处理后的医疗病理报告图片进行小尺度文本检测,预测每个小尺度文本在竖直方向上的位置,并利用循环神经网络模型将检测出的小尺度文本进行连接,得到多个宽度为预设宽度的文本碎片框;
调整单元,用于依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框,若是则将每个文本碎片框与临近文本碎片框进行合并,进而从医疗病理报告图片中获取多个文本检测区域;
识别单元,用于利用密集连接卷积网络与联结主义时间分类器的融合模型对每个文本检测区域进行文字识别;
纠错单元,用于对识别出的字词进行常识性纠错处理和业务逻辑纠错处理,得到病理文本。
在一种可能的实施方式中,所述检测单元还用于:将待检测的目标区域的四个角标注出各自的二维坐标,将所述二维坐标合并为一个标记框向量,将每个标记框拆分为预设宽度的矩形框,基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集,以所述矩形框坐标集作为模型训练目标值进行模型训练,得到所述连接文本提议网络模型。
在一种可能的实施方式中,所述纠错单元具体用于:将识别出的字词匹配人工字典进行常识性纠错处理,通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度,确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词,比较识别出的专业词汇和至少一个同义词的余弦相似度,从至少一个同义词中确定目标匹配词,并将识别出的专业词汇替换为所述目标匹配词。
在一种可能的实施方式中,所述模型预测模块还用于:针对特定癌种的病理诊断数据集,根据BIOES标签体系和病理业务知识进行人工标注,将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集,通过搭建词嵌入层、神经网络BiLSTM层和CRF层来构建命名实体识别模型,在训练集和验证集上对所述命名实体识别模型进行训练,最后利用测试集对训练的所述命名实体识别模型进行测试。
在一种可能的实施方式中,所述策略融合模块具体用于:比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最长的医疗指标名实体数据结构;或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最短的医疗指标名实体数据结构。
在一种可能的实施方式中,所述策略归一化模块具体用于:计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度,选取相似度最大的同义词来替换该病理词汇,以对封装结果进行策略归一化处理,并根据业务逻辑进行三层推理,得到医疗病理报告图片的结构化文本。
第二方面,本申请实施例提供了一种医疗病理报告图片的文本结构化处理方法,包括:
将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;
将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;
将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;
利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;
根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;
对所述医疗指标名实体和所述结构化文本进行数据封装;
对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第二方面中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第二方面中的步骤。
本申请实施例提供的一种医疗病理报告图片的文本结构化处理系统,包括:文本识别模块,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;文本切割模块,用于将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;字典匹配模块,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;模型预测模块,用于利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;策略融合模块,用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;数据封装模块,用于对所述医疗指标名实体和所述结构化文本进行数据封装;策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。采用本方案可提高图文识别的准确率,在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种医疗病理报告图片的文本结构化处理系统的模块组成示意图;
图2示出了文本区域划分示意图;
图3示出了文字识别效果示意图;
图4示出了纠错之后的文本示意图;
图5示出了本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法的流程图;
图6示出了本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法中,获取病理文本具体方法的流程图;
图7示出了本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法中,纠错具体方法的流程图;
图8示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种医疗病理报告图片的文本结构化处理系统进行详细介绍。
请参照图1,图1为本申请实施例所提供的一种医疗病理报告图片的文本结构化处理系统的模块组成示意图。如图1所示,所述系统可以包括:
文本识别模块10,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;
文本切割模块20,用于将所述病理文本切割为结构化文本(如性别、年龄)和非结构化文本(病理症状描述部分),并对所述非结构化文本进行预处理;
字典匹配模块30,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;
模型预测模块40,用于利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;
策略融合模块50,用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;
数据封装模块60,用于对所述医疗指标名实体和所述结构化文本进行数据封装;
策略归一化模块70,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。
下面分别对上述各个模块进行具体介绍。
文本识别模块10可以包括:
读取单元,用于读取医疗病理报告图片;其中,医疗病理报告图片分为两种类型,第一种类型为扫描件,第二种类型为现场拍摄的照片。第二种类型的拍摄环境要求为摄像头和字纸报告平行,中心轴对齐,图片范围只能包含医疗病理报告内容,自行排除其他文字噪音干扰。生成图片之后上传到本系统图片读取接口中,通过读取函数将文件转化为RGB像素张量存在系统内存里等待后续处理。
预处理单元,用于对所述医疗病理报告图片按照预设大小进行归一化处理。具体地,本系统支持不限定大小的图片识别,因此图片数据进入系统后需要做归一化处理,即将内存中的像素张量信息数据进行降采样,生成[1500,900,3]大小的张量进入检测单元。
检测单元,用于利用连接文本提议网络(Connectionist Text ProposalNetwork,CTPN)模型对归一化处理后的医疗病理报告图片进行小尺度文本检测,预测每个小尺度文本在竖直方向上的位置,水平方向的位置不预测,并利用循环神经网络(Recurrent Neural Network,RNN) 模型将检测出的小尺度文本进行连接,得到多个宽度为预设宽度的文本碎片框。
调整单元,用于依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框,若是则将每个文本碎片框与临近文本碎片框进行合并,生成大的文本区域框,进而从医疗病理报告图片中获取多个文本检测区域。其中,基于图的文本行构造算法的实现,采用CNN+RNN循环网络将检测的小尺度文本进行连接,得到文本行,同时该网络也能支持多尺寸和多语言的情况,避免了后续再处理大小写英文、数字的情况,效果如图2所示。
识别单元,用于利用密集连接卷积网络DenseNet与联结主义时间分类器(Connectionist Temporal Classifier,CTC)的融合模型对每个文本检测区域进行文字识别。本系统支持不定长文本识别,只要划分完毕文本检测区域,无论区域长度多少,都可以识别出其中的内容生成多组字符串。基于以上需求,本系统的采用密集连接卷积网络DenseNet层用作文字图像分类,并叠加联结主义时间分类器CTC层解决输入特征与输出标签的对齐问题,最终得到精准的OCR识别结果,效果如图3所示。
纠错单元,用于对识别出的字词进行常识性纠错处理和业务逻辑纠错处理,得到病理文本。其中,常识性纠错主要是将识别结果匹配人工字典,来做常识性错别字纠错;业务逻辑纠错是计算识别出来的专业词汇和知识库中病理专业词汇的文本相似度,根据计算结果匹配最接近正确词汇的识别词,替换后得到文本识别的最终病理文本。
其中,所述检测单元具体实现为:将待检测的目标区域的四个角标注出各自的二维坐标[x1,y1]、[x2,y2]、[x3,y3]、[x4,y4],将所述二维坐标合并为一个标记框向量(x1,y1,x2,y2,x3,y3,x4,y4),将每个标记框拆分为预设宽度的矩形框(两头的可以不为预设宽度,预设宽度可以为16),基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集,以所述矩形框坐标集作为模型训练目标值进行模型训练,得到所述连接文本提议网络CTPN模型,可以针对文本长度不固定的情况,准确地划分文本区域,并且区域内可以填满完整的文字。
所述纠错单元具体用于:将识别出的字词匹配人工字典进行常识性纠错处理,通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度,确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词,比较识别出的专业词汇和至少一个同义词的余弦相似度,从至少一个同义词中确定目标匹配词,并将识别出的专业词汇替换为所述目标匹配词。
具体地,常识性纠错主要是将识别结果匹配人工字典,来做常识性错别字纠错。例如,人工字典的纠错字典为{‘主院号’:‘住院号’,‘性名’:‘姓名’....}这种形式。
业务逻辑纠错的过程是计算识别出来的专业词汇和知识库中病理专业词汇的文本相似度,根据计算结果匹配最接近识别词汇的纠错词。具体来说,经过人工纠错的文本,切词后和病理知识库中的专业词汇进行比较,生成最小编辑距离值Distance(w0,w1)(w0是识别词,w1是专业词汇)。将Distance(w0,w1)相同的词w1挑选出来,生成基于识别词w0的小词表。在Distance(w0,w1)相同的小词表中,使用word2vec原理或者tf-idf 计算每个专业词和识别词的词向量,接着在w0最小编辑距离的小词表中,将各个专业词和识别词计算余弦相似度cosine(w0,w2)(w0是识别词, w2是小词表中的专业词汇),取最大值的匹配词对,即可获得最接近识别词汇的纠错词w2。最终完成业务逻辑纠错,生成适用于结构化模式的数据存储方式。两种纠错最终结果如图4所示。
字典匹配模块30,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;例如(‘弥漫性大B细胞淋巴瘤’,‘pathology’,索引结构)。该结构中包括已经识别成功的医疗指标名实体弥漫性大B细胞淋巴瘤’,实体对应的标注类别‘pathology’以及实体在该条病理文本的首尾位置索引结构。
模型预测模块40还用于:针对特定癌种的病理诊断数据集,根据BIOES 标签体系和病理业务知识进行人工标注,将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集,通过搭建词嵌入层、神经网络BiLSTM层和CRF层来构建命名实体识别模型,在训练集和验证集上对所述命名实体识别模型进行训练,最后利用测试集对训练的所述命名实体识别模型进行测试。
策略融合模块50具体用于:比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最长的医疗指标名实体数据结构(激进策略);或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最短的医疗指标名实体数据结构(保守策略)。选择的策略不同,实现的业务需求也不同。
数据封装模块60在封装过程中,会注意到业务逻辑中键值对的连续匹配问题,最终输出符合病理业务需求的数据格式。
策略归一化模块70具体用于:计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度,选取相似度最大的同义词来替换该病理词汇,以对封装结果进行策略归一化处理,并根据业务逻辑进行三层推理,得到医疗病理报告图片的结构化文本(例如json结构)。
综上所述,本申请实施例提供的一种医疗病理报告图片的文本结构化处理系统,包括:文本识别模块,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;文本切割模块,用于将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;字典匹配模块,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;模型预测模块,用于利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;策略融合模块,用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;数据封装模块,用于对所述医疗指标名实体和所述结构化文本进行数据封装;策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。采用本方案可提高图文识别的准确率,在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。
基于相同的技术构思,本申请实施例还提供一种医疗病理报告图片的文本结构化处理方法、电子设备、以及计算机存储介质等,具体可参见以下实施例。
请参照图5,图5为本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法的流程图。如图5所示,所述方法可以包括:
步骤S501、将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;
步骤S502、将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;
步骤S503、将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;
步骤S504、利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;
步骤S505、根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;
步骤S506、对所述医疗指标名实体和所述结构化文本进行数据封装;
步骤S507、对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。
在步骤S501中,如图6所示,可以包括如下子步骤:
步骤S5011、读取医疗病理报告图片;
步骤S5012、对所述医疗病理报告图片按照预设大小进行归一化处理;
步骤S5013、利用连接文本提议网络模型对归一化处理后的医疗病理报告图片进行小尺度文本检测,预测每个小尺度文本在竖直方向上的位置,并利用循环神经网络模型将检测出的小尺度文本进行连接,得到多个宽度为预设宽度的文本碎片框;
步骤S5014、依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框,若是,则转入步骤S5015,若否,则转入步骤S5014;
步骤S5015、将每个文本碎片框与临近文本碎片框进行合并,进而从医疗病理报告图片中获取多个文本检测区域;
步骤S5016、利用密集连接卷积网络与联结主义时间分类器的融合模型对每个文本检测区域进行文字识别;
步骤S5017、对识别出的字词进行常识性纠错处理和业务逻辑纠错处理,得到病理文本。
所述连接文本提议网络模型的训练过程包括:将待检测的目标区域的四个角标注出各自的二维坐标,将所述二维坐标合并为一个标记框向量,将每个标记框拆分为预设宽度的矩形框,基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集,以所述矩形框坐标集作为模型训练目标值进行模型训练,得到所述连接文本提议网络模型。
如图7所示,纠错过程可以包括如下步骤:
步骤S701、将识别出的字词匹配人工字典进行常识性纠错处理;
步骤S702、通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度;
步骤S703、确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词;
步骤S704、比较识别出的专业词汇和至少一个同义词的余弦相似度,从至少一个同义词中确定目标匹配词;
步骤S705、将识别出的专业词汇替换为所述目标匹配词。
步骤S504还包括:针对特定癌种的病理诊断数据集,根据BIOES标签体系和病理业务知识进行人工标注,将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集,通过搭建词嵌入层、神经网络BiLSTM层和CRF 层来构建命名实体识别模型,在训练集和验证集上对所述命名实体识别模型进行训练,最后利用测试集对训练的所述命名实体识别模型进行测试。
在步骤S505中,比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最长的医疗指标名实体数据结构;或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最短的医疗指标名实体数据结构。
在步骤S507中,计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度,选取相似度最大的同义词来替换该病理词汇,以对封装结果进行策略归一化处理,并根据业务逻辑进行三层推理,得到医疗病理报告图片的结构化文本。
本申请实施例公开了一种电子设备,如图8所示,包括:处理器801、存储器802和总线803,所述存储器802存储有所述处理器801可执行的机器可读指令,当电子设备运行时,所述处理器801与所述存储器802之间通过总线803通信。所述机器可读指令被所述处理器801执行时执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本申请实施例所提供的一种医疗病理报告图片的文本结构化处理方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种医疗病理报告图片的文本结构化处理系统,其特征在于,包括:
文本识别模块,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;
文本切割模块,用于将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;
字典匹配模块,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;
模型预测模块,用于利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;
策略融合模块,用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;
数据封装模块,用于对所述医疗指标名实体和所述结构化文本进行数据封装;
策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。
2.根据权利要求1所述的系统,其特征在于,所述文本识别模块包括:
读取单元,用于读取医疗病理报告图片;
预处理单元,用于对所述医疗病理报告图片按照预设大小进行归一化处理;
检测单元,用于利用连接文本提议网络模型对归一化处理后的医疗病理报告图片进行小尺度文本检测,预测每个小尺度文本在竖直方向上的位置,并利用循环神经网络模型将检测出的小尺度文本进行连接,得到多个宽度为预设宽度的文本碎片框;
调整单元,用于依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框,若是则将每个文本碎片框与临近文本碎片框进行合并,进而从医疗病理报告图片中获取多个文本检测区域;
识别单元,用于利用密集连接卷积网络与联结主义时间分类器的融合模型对每个文本检测区域进行文字识别;
纠错单元,用于对识别出的字词进行常识性纠错处理和业务逻辑纠错处理,得到病理文本。
3.根据权利要求2所述的系统,其特征在于,所述检测单元还用于:将待检测的目标区域的四个角标注出各自的二维坐标,将所述二维坐标合并为一个标记框向量,将每个标记框拆分为预设宽度的矩形框,基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集,以所述矩形框坐标集作为模型训练目标值进行模型训练,得到所述连接文本提议网络模型。
4.根据权利要求2所述的系统,其特征在于,所述纠错单元具体用于:将识别出的字词匹配人工字典进行常识性纠错处理,通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度,确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词,比较识别出的专业词汇和至少一个同义词的余弦相似度,从至少一个同义词中确定目标匹配词,并将识别出的专业词汇替换为所述目标匹配词。
5.根据权利要求1所述的系统,其特征在于,所述模型预测模块还用于:针对特定癌种的病理诊断数据集,根据BIOES标签体系和病理业务知识进行人工标注,将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集,通过搭建词嵌入层、神经网络BiLSTM层和CRF层来构建命名实体识别模型,在训练集和验证集上对所述命名实体识别模型进行训练,最后利用测试集对训练的所述命名实体识别模型进行测试。
6.根据权利要求1所述的系统,其特征在于,所述策略融合模块具体用于:比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最长的医疗指标名实体数据结构;或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最短的医疗指标名实体数据结构。
7.根据权利要求1所述的系统,其特征在于,所述策略归一化模块具体用于:计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度,选取相似度最大的同义词来替换该病理词汇,以对封装结果进行策略归一化处理,并根据业务逻辑进行三层推理,得到医疗病理报告图片的结构化文本。
8.一种医疗病理报告图片的文本结构化处理方法,其特征在于,包括:
将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;
将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;
将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;
利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;
根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;
对所述医疗指标名实体和所述结构化文本进行数据封装;
对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求8所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求8所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011029211.XA CN112185520B (zh) | 2020-09-27 | 一种医疗病理报告图片的文本结构化处理系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011029211.XA CN112185520B (zh) | 2020-09-27 | 一种医疗病理报告图片的文本结构化处理系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112185520A true CN112185520A (zh) | 2021-01-05 |
CN112185520B CN112185520B (zh) | 2024-06-07 |
Family
ID=
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329471A (zh) * | 2021-01-06 | 2021-02-05 | 科大讯飞(苏州)科技有限公司 | 基于配图的命名实体识别方法、装置以及设备 |
CN112837771A (zh) * | 2021-01-25 | 2021-05-25 | 山东健康医疗大数据有限公司 | 一种融合文本分类与词法分析的体检异常项归一化方法 |
CN113111660A (zh) * | 2021-04-22 | 2021-07-13 | 脉景(杭州)健康管理有限公司 | 数据处理方法、装置、设备和存储介质 |
CN113591772A (zh) * | 2021-08-10 | 2021-11-02 | 上海杉互健康科技有限公司 | 医疗信息结构化识别录入的方法、系统、设备及存储介质 |
CN113627185A (zh) * | 2021-07-29 | 2021-11-09 | 重庆邮电大学 | 一种用于肝癌病理文本命名的实体识别方法 |
CN113903422A (zh) * | 2021-09-09 | 2022-01-07 | 北京邮电大学 | 医疗影像诊断报告实体提取方法、装置及设备 |
CN115440333A (zh) * | 2022-11-08 | 2022-12-06 | 深圳达实旗云健康科技有限公司 | 数据采集过程中的数据处理方法、装置、终端设备及介质 |
CN116306599A (zh) * | 2023-05-23 | 2023-06-23 | 上海蜜度信息技术有限公司 | 基于生成文本的忠实度优化方法、系统、设备及存储介质 |
CN116628125A (zh) * | 2023-04-14 | 2023-08-22 | 湘南学院 | 一种临床影像诊断报告关键词提取方法与辅助装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140006926A1 (en) * | 2012-06-29 | 2014-01-02 | Vijaykalyan Yeluri | Systems and methods for natural language processing to provide smart links in radiology reports |
CN104899260A (zh) * | 2015-05-20 | 2015-09-09 | 东华大学 | 一种中文病理文本结构化处理方法 |
CN109344250A (zh) * | 2018-09-07 | 2019-02-15 | 北京大学 | 基于医保数据的单病种诊断信息快速结构化方法 |
CN109635150A (zh) * | 2018-12-19 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置以及存储介质 |
CN109858037A (zh) * | 2019-02-27 | 2019-06-07 | 华侨大学 | 一种对ocr识别结果进行结构化输出的方法及系统 |
CN110321566A (zh) * | 2019-07-10 | 2019-10-11 | 北京邮电大学 | 中文命名实体识别方法、装置、计算机设备和存储介质 |
CN110767292A (zh) * | 2019-10-12 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 病理编号识别方法、信息识别方法、装置及信息识别系统 |
CN111048170A (zh) * | 2019-12-23 | 2020-04-21 | 山东大学齐鲁医院 | 基于图像识别的消化内镜结构化诊断报告生成方法与系统 |
CN111144400A (zh) * | 2018-11-06 | 2020-05-12 | 北京金山云网络技术有限公司 | 身份证信息的识别方法、装置、终端设备及存储介质 |
CN111339076A (zh) * | 2020-03-16 | 2020-06-26 | 北京大学深圳医院 | 肾脏病理报告镜检数据处理方法、装置及相关设备 |
CN111489800A (zh) * | 2020-04-10 | 2020-08-04 | 武汉万屏电子科技有限公司 | 一种病历和报告单图像识别与存储的分析方法及系统 |
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140006926A1 (en) * | 2012-06-29 | 2014-01-02 | Vijaykalyan Yeluri | Systems and methods for natural language processing to provide smart links in radiology reports |
CN104899260A (zh) * | 2015-05-20 | 2015-09-09 | 东华大学 | 一种中文病理文本结构化处理方法 |
CN109344250A (zh) * | 2018-09-07 | 2019-02-15 | 北京大学 | 基于医保数据的单病种诊断信息快速结构化方法 |
CN111144400A (zh) * | 2018-11-06 | 2020-05-12 | 北京金山云网络技术有限公司 | 身份证信息的识别方法、装置、终端设备及存储介质 |
CN109635150A (zh) * | 2018-12-19 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置以及存储介质 |
CN109858037A (zh) * | 2019-02-27 | 2019-06-07 | 华侨大学 | 一种对ocr识别结果进行结构化输出的方法及系统 |
CN110321566A (zh) * | 2019-07-10 | 2019-10-11 | 北京邮电大学 | 中文命名实体识别方法、装置、计算机设备和存储介质 |
CN110767292A (zh) * | 2019-10-12 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 病理编号识别方法、信息识别方法、装置及信息识别系统 |
CN111048170A (zh) * | 2019-12-23 | 2020-04-21 | 山东大学齐鲁医院 | 基于图像识别的消化内镜结构化诊断报告生成方法与系统 |
CN111339076A (zh) * | 2020-03-16 | 2020-06-26 | 北京大学深圳医院 | 肾脏病理报告镜检数据处理方法、装置及相关设备 |
CN111489800A (zh) * | 2020-04-10 | 2020-08-04 | 武汉万屏电子科技有限公司 | 一种病历和报告单图像识别与存储的分析方法及系统 |
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329471A (zh) * | 2021-01-06 | 2021-02-05 | 科大讯飞(苏州)科技有限公司 | 基于配图的命名实体识别方法、装置以及设备 |
CN112837771A (zh) * | 2021-01-25 | 2021-05-25 | 山东健康医疗大数据有限公司 | 一种融合文本分类与词法分析的体检异常项归一化方法 |
CN113111660A (zh) * | 2021-04-22 | 2021-07-13 | 脉景(杭州)健康管理有限公司 | 数据处理方法、装置、设备和存储介质 |
CN113627185A (zh) * | 2021-07-29 | 2021-11-09 | 重庆邮电大学 | 一种用于肝癌病理文本命名的实体识别方法 |
CN113591772B (zh) * | 2021-08-10 | 2024-01-19 | 上海杉互健康科技有限公司 | 医疗信息结构化识别录入的方法、系统、设备及存储介质 |
CN113591772A (zh) * | 2021-08-10 | 2021-11-02 | 上海杉互健康科技有限公司 | 医疗信息结构化识别录入的方法、系统、设备及存储介质 |
CN113903422A (zh) * | 2021-09-09 | 2022-01-07 | 北京邮电大学 | 医疗影像诊断报告实体提取方法、装置及设备 |
CN115440333A (zh) * | 2022-11-08 | 2022-12-06 | 深圳达实旗云健康科技有限公司 | 数据采集过程中的数据处理方法、装置、终端设备及介质 |
CN115440333B (zh) * | 2022-11-08 | 2023-02-24 | 深圳达实旗云健康科技有限公司 | 数据采集过程中的数据处理方法、装置、终端设备及介质 |
CN116628125A (zh) * | 2023-04-14 | 2023-08-22 | 湘南学院 | 一种临床影像诊断报告关键词提取方法与辅助装置 |
CN116628125B (zh) * | 2023-04-14 | 2024-01-30 | 湘南学院 | 一种临床影像诊断报告关键词提取方法与辅助装置 |
CN116306599A (zh) * | 2023-05-23 | 2023-06-23 | 上海蜜度信息技术有限公司 | 基于生成文本的忠实度优化方法、系统、设备及存储介质 |
CN116306599B (zh) * | 2023-05-23 | 2023-09-08 | 上海蜜度信息技术有限公司 | 基于生成文本的忠实度优化方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239786B (zh) | 一种字符识别方法和装置 | |
RU2721189C1 (ru) | Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа | |
RU2723293C1 (ru) | Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа | |
US11508173B2 (en) | Machine learning prediction and document rendering improvement based on content order | |
JP6055297B2 (ja) | 文字認識装置及び方法、文字認識プログラム | |
CN112036295B (zh) | 票据图像处理方法、装置、存储介质及电子设备 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN112949476B (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN113536771B (zh) | 基于文本识别的要素信息提取方法、装置、设备及介质 | |
CN112509661B (zh) | 用于识别体检报告的方法、计算设备和介质 | |
JP2019079347A (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
CN112308946A (zh) | 题目生成方法、装置、电子设备及可读存储介质 | |
CN115862040A (zh) | 文本纠错方法、装置、计算机设备及可读存储介质 | |
CN114913942A (zh) | 患者招募项目智能匹配方法及装置 | |
CN113159013A (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN112308048B (zh) | 基于少量标注数据的病历完整性判别的方法、装置及系统 | |
CN116611450A (zh) | 一种提取文档信息的方法、装置、设备和可读存储介质 | |
CN112185520B (zh) | 一种医疗病理报告图片的文本结构化处理系统和方法 | |
US11887393B2 (en) | End-to-end system for extracting tabular data present in electronic documents and method thereof | |
CN112185520A (zh) | 一种医疗病理报告图片的文本结构化处理系统和方法 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 | |
KR102467096B1 (ko) | 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치 | |
CN115512340A (zh) | 基于图片的意图检测方法及装置 | |
CN115063784A (zh) | 票据图像的信息提取方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |