CN116469505A - 数据处理方法、装置、计算机设备及可读存储介质 - Google Patents

数据处理方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN116469505A
CN116469505A CN202310439920.2A CN202310439920A CN116469505A CN 116469505 A CN116469505 A CN 116469505A CN 202310439920 A CN202310439920 A CN 202310439920A CN 116469505 A CN116469505 A CN 116469505A
Authority
CN
China
Prior art keywords
preset
document
report
target
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310439920.2A
Other languages
English (en)
Inventor
胡兴
郝碧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310439920.2A priority Critical patent/CN116469505A/zh
Publication of CN116469505A publication Critical patent/CN116469505A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Multimedia (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种数据处理方法、装置、计算机设备及可读存储介质,可应用于疾病辅助诊疗,其中,方法包括:响应于数据处理请求,获取待处理的报告图片;根据第一预设模型和报告图片,生成第一文档;根据第二预设模型和多个预设关键词,在第一文档中,确定目标文本;根据目标文本和预设模板,生成第二文档;根据第二文档和预设知识库,生成目标报告。通过上述方法,对体检报告的内容进行自动解读,能够快速、准确地得到体检报告中的异常项信息,提高了对体检报告解读的准确性和解读效率,同时,针对用户存在的异常项给出整体性、正确的医疗建议,带来更好的用户体验。

Description

数据处理方法、装置、计算机设备及可读存储介质
技术领域
本申请涉及数据处理技术领域及数字医疗技术领域,特别是涉及一种数据处理方法、装置、计算机设备及可读存储介质。
背景技术
随着社会经济的发展,人民生活水平提高以及城乡居民基本医疗保障体系的不断完善,人们对医疗服务的需求特别是对于体检等健康管理的需求日益增长。现有技术中,对体检报告进行读解的方法只能是用户在拿到体检报告或检查单后,自行对其内容进行解读。
在实现本申请的过程中,申请人发现相关技术至少存在以下问题:
一方面,体检报告内容较多,不同体检机构或检查项目的体检报告的排版不同,用户在拿到自己的体检报告或检查单时,无法快速地将纸质内容转化为有效的数据,可能存在解析不到位,进而导致用户对其中异常项的抽取不准确;另一方面,用户对于医疗知识相关信息不够了解,在查询自身异常项的疾病、饮食、药品等相关信息时,查询结果可能存在偏差,且耗费时间较长。
发明内容
有鉴于此,本申请提供了一种数据处理方法、装置、计算机设备及可读存储介质,主要目的在于解决用户对体检报告中异常项的抽取不准确,以及无法准确查询针对异常项的有用信息的问题。
依据本申请第一方面,提供了一种数据处理方法,该方法包括:
响应于数据处理请求,获取待处理的报告图片;
根据第一预设模型和报告图片,生成第一文档;
根据第二预设模型和多个预设关键词,在第一文档中,确定目标文本;
根据目标文本和预设模板,生成第二文档;
根据第二文档和预设知识库,生成目标报告。
可选地,根据第一预设模型和报告图片,生成第一文档的步骤,具体包括:
利用第一预设模型,对报告图片进行文字识别,确定报告图片中的文本内容;
根据文本内容,生成第一文档。
可选地,根据第二预设模型和多个预设关键词,在第一文档中,确定目标文本之前,还包括:
判断第一文档中是否包含至少一个预设关键词;
若否,获取预设通知信息;
发送预设通知信息至目标终端。
可选地,根据第二预设模型和多个预设关键词,在第一文档中,确定目标文本的步骤,具体包括:
根据第二预设模型,在第一文档中,抽取出每个预设关键词对应的目标文本。
可选地,根据目标文本和预设模板,生成第二文档的步骤,具体包括:
获取每个预设关键词对应的预设模板;
将每个预设关键词的目标文本填入对应的预设模板中,生成第二文档。
可选地,根据目标文本和预设模板,生成第二文档之后,还包括:
获取第二文档中的至少一个目标关键词;
在预设知识库中,调取每个目标关键词对应的目标信息;
将目标信息填入第二文档,生成目标报告。
可选地,目标信息包括以下至少一项:饮食信息、运动信息、药品信息、症状信息以及医院信息。
依据本申请第二方面,提供了一种数据处理装置,该装置包括:
获取模块,用于响应于数据处理请求,获取待处理的报告图片;
第一生成模块,用于根据第一预设模型和报告图片,生成第一文档;
确定模块,用于根据第二预设模型和多个预设关键词,在第一文档中,确定目标文本;
第二生成模块,用于根据目标文本和预设模板,生成第二文档;
第三生成模块,用于根据第二文档和预设知识库,生成目标报告。
可选地,第一生成模块,具体用于:
利用第一预设模型,对报告图片进行文字识别,确定报告图片中的文本内容;
根据文本内容,生成第一文档。
可选地,该装置还包括:
判断模块,判断第一文档中是否包含至少一个预设关键词。
可选地,获取模块,还用于:
若否,获取预设通知信息。
可选地,该装置还包括:
发送模块,用于发送预设通知信息至目标终端。
可选地,确定模块,具体用于:
根据第二预设模型,在第一文档中,抽取出每个预设关键词对应的目标文本。
可选地,第二生成模块,具体用于:
获取每个预设关键词对应的预设模板;
将每个预设关键词的目标文本填入对应的预设模板中,生成第二文档。
可选地,获取模块,还用于:
获取第二文档中的至少一个目标关键词。
可选地,该装置还包括:
调取模块,用于在预设知识库中,调取每个目标关键词对应的目标信息;
第四生成模块,用于将目标信息填入第二文档,生成目标报告。
可选地,目标信息包括以下至少一项:饮食信息、运动信息、药品信息、症状信息以及医院信息。
依据本申请第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述方法的步骤。
依据本申请第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
借由上述技术方案,本申请提供的一种数据处理方法、装置、计算机设备及可读存储介质。具体地,获取用户的检测报告的报告图片后,利用第一预设模型对报告图片内的文本内容进行解析、标注,得到基于检测报告内容的第一文档。其后,利用第二预设模型,对第一文档中的异常项关键词进行识别,提取第一文档中异常项的相关内容。进一步地,利用第三预设模型,将异常项的相关内容进行格式转化,输入预设模板,得到异常项相关的第二文档。最后,利用预设知识库,调取第二文档中异常项对应的全部医疗建议相关信息,将异常项信息以及医疗建议相关信息进行汇总,生成目标报告供用户查看。通过上述方式,对体检报告的内容进行自动解读,能够快速、准确地得到体检报告中的异常项信息,提高了对体检报告解读的准确性和解读效率,同时,针对用户存在的异常项给出整体性、正确的医疗建议,带来更好的用户体验。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为一个实施例中提供的数据访问处理方法的实施环境图;
图2为一个实施例中计算机设备的内部结构示意图;
图3示出了本申请实施例提供的一种数据处理方法流程示意图;
图4示出了本申请实施例提供的另一种数据处理方法流程示意图;
图5示出了本申请实施例提供的报告图片示意图;
图6示出了本申请实施例提供的生成第二文档的流程图;
图7示出了本申请实施例提供的一种数据处理装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本申请实施例提供了一种数据处理方法,如图1所示,该方法包括:
图1为一个实施例中提供的数据处理方法的实施环境图,如图1所示,在该实施环境中,包括客户端100和服务器110。
本实施例中服务器110具有处理数据处理方法的数据处理装置的功能。例如,若客户端100向服务器110发送携带待处理的报告图片的数据处理请求,服务器110响应于报告图片的数据处理请求,响应于数据处理请求,获取待处理的报告图片;根据第一预设模型和报告图片,生成第一文档;根据第二预设模型和多个预设关键词,在第一文档中,确定目标文本;根据第三预设模型、目标文本和预设模板,生成第二文档;根据第二文档和预设知识库,生成目标报告。
需要说明的是,本实施例的客户端100与服务器110可以通过各种无线通讯方式连连接,本发明在此不做限制。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种数据处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种数据处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。本实施例的该计算机设备可以作为上述图1所示实施例中的服务器110,用于处理对报告图片的数据处理请求。
如图3所示,在一个实施例中,提出了一种数据处理方法,该数据处理方法可以应用于上述的服务器110中,具体可以包括以下步骤:
S301、响应于数据处理请求,获取待处理的报告图片。
本实施例的数据处理方法的执行主体可以为数据处理装置,该数据处理装置可以设置在服务器110中,可以处理客户端的报告图片的数据处理请求。
本实施例的数据处理方法,用户在拿到自己的全身的体检报告单或者针对局部部位进行检查的检查报告单后,可拍摄报告单得到报告图片,并将报告图片通过客户端上传至服务器。
可选地,本实施例中的报告图片可以为用户拍摄得到的体检报告照片,还可以为扫描体检报告文件得到的报告图片。此外,如果用户的检测报告文件为多页的情况下,用户拍摄多张检测报告图片上传,依次对每一页的文本内容进行解析,进而将多页检测报告图片中的异常项信息进行汇总到一个目标报告中。
可选地,在接收到用户上传的报告图片后,首先对报告图片进行倾斜矫正,随后对图片进行去噪处理,提高图片的清晰度。其后,利用光学字符识别模型来验证图片中文字是否能够识别,若图片中文字较为模糊,无法正确识别,向服务器连接的用户终端发送提示信息,以提醒用户重新上传报告图片,确保后续对检测报告内容解析的准确性。
S302、根据第一预设模型和报告图片,生成第一文档。
在该步骤中,服务器接收到客户端发送的报告图片后,利用第一预设模型,对报告图片中的文本内容进行识别、标注,转化为第一文档。需要说明的是,第一预设模型为预训练的实体类型识别模型,通过第一预设模型,由于体检报告中包含了检查标题、检查类别、检查内容以及检查结果等大量内容,利用预设实体类型识别模型,可对体检报告中文本内容的不同类型进行解析、识别,进而按照标签进行分类标注。
S303、根据第二预设模型和多个预设关键词,在第一文档中,确定目标文本。
在该步骤中,用户在每年的全身体检,或针对身体局部进行专项检查,得到检测报告时,通常第一时间想知晓自身是否存在异常,例如是否存在甲状腺结节等问题。然而,检测报告中包含了全面的检测内容,以及检测结果,数据量较大。对于医疗知识不够丰富的用户,可能无法快速地将纸质数据转化为是否存在异常项的有效数据。基于上述问题,本申请提出了在将报告图片的文本内容进行解析、标注,得到第一文档后,利用第二预设模型,以及多个预设关键词,对第一文档的文档内容进行识别,以在第一文档中,找到与预设关键词相关的目标文本。需要说明的是,多个预设关键词为针对异常项对应的词语,例如结节、囊肿等。第二预设模型为预训练的识别模型,通过该预设识别模型,对第一文档内的全部文字进行搜索,当识别出第一文档中存在任一预设关键词,例如识别出第一文档中存在结节这个词后,在第一文档中标注出结节相关的检查报告内容作为目标文本,如“甲状腺形状大小正常,甲状腺右叶内见一个结节,大小约9.5mm×6.3mm”。
S304、根据目标文本和预设模板,生成第二文档。
在该步骤中,检测报告内容数据量较大,且针对不同体检机构、医院以及检查项目,检测报告的排版、布局也都不同。因此,如果仅是在第一文档中按照文档格式提取出异常项相关信息,信息量较大,且布局复杂,用户无法直观了解自身存在的问题。因此,从第一文档中抽取出异常项相关的目标文本后,利用第三预设模型,将目标文本按照预设模板内的预设格式进行转化,进而将异常项文本填入预设模板中,得到第二文档。以实现对异常项信息的规划,将更加简洁、直观的异常项信息展现给用户,便于用户查看。
S305、根据第二文档和预设知识库,生成目标报告。
在该步骤中,当用户在根据检测报告知晓自身存在异常时,例如检查出存在甲状腺结节时,若没有时间前往医院,通常会通过网络查询病症信息、如何治疗以及如何搭配饮食等。然而,网络上信息量巨大、鱼龙混杂,用户在查询过程中,无法快速找到有用的信息,甚至可能找到大量虚假信息,进而引起不必要的情绪恐慌,还可能导致延误治疗。基于上述问题,本申请提出了预先将每一异常项对应的膳食信息、运动信息、疾病信息、药品信息、医院信息等相关信息进行汇总,构建全面的医疗知识库。进而针对第二文档中包含的目标异常项,在预设知识库中调取每一目标异常项对应的相关信息,进而将第二文档中的异常项信息以及医疗相关信息进行汇总,生成目标报告。使得用户在知晓自身异常项的同时,能够了解正确的身体保健、治疗以及康复信息,使得用户能够了解正确的医疗信息,为用户提供更好的用户体验。
本实施例的数据处理方法,可应用于疾病辅助诊疗。具体地,获取用户的检测报告的报告图片后,利用第一预设模型对报告图片内的文本内容进行解析、标注,得到基于检测报告内容的第一文档。其后,利用第二预设模型,对第一文档中的异常项关键词进行识别,提取第一文档中异常项的相关内容。进一步地,利用第三预设模型,将异常项的相关内容进行格式转化,输入预设模板,得到异常项相关的第二文档。最后,利用预设知识库,调取第二文档中异常项对应的全部医疗建议相关信息,将异常项信息以及医疗建议相关信息进行汇总,生成目标报告供用户查看。通过上述方式,对体检报告的内容进行自动解读,能够快速、准确地得到体检报告中的异常项信息,提高了对体检报告解读的准确性和解读效率,同时,针对用户存在的异常项给出整体性、正确的医疗建议,带来更好的用户体验。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,本申请实施例提供了另一种数据处理方法,如图4所示,该方法包括:
S401、响应于数据处理请求,获取待处理的报告图片。
在该步骤中,用户在拿到自己的全身的体检报告单或者针对局部部位进行检查的检查报告单后,可拍摄报告单得到报告图片,并将报告图片通过客户端上传至服务器。
S402、利用第一预设模型,对报告图片进行文字识别,确定报告图片中的文本内容。
S403、根据文本内容,生成第一文档。
在步骤S402和S403中,服务器接收到客户端发送的报告图片后,利用第一预设模型,对报告图片中的文本内容进行识别,确定报告图片中的文本内容,以将检测报告的图片格式转化为第一文档。
在实际应用中,第一预设模型为预训练的LayoutLMv3模型。将LayoutLMv3模型作为预训练模型,收集大量检测报告作为训练数据对模型进行优化,以实现能够同时应用到文本任务和图像任务的通用预训练模型。具体地,在该预训练模型基础上进行Fine Tune(模型微调)下游任务训练,以训练出两个子模型:语义实体识别(Semantic EntityRecognition)模型和关系抽取(Relation Extraction)模型。如图5所示,为用户检测报告示意图,其中,利用语义实体识别对报告图片中每一个检测的文本进行识别,例如图5中的检查组名、检测结果等。进一步地,利用关系抽取模型对每一个检测到的文本进行分类,如将其分为问题和答案。然后,对每一个问题找到对应的答案,如图5中的“黑色方框1”和“黑色方框2”分别代表问题和答案,“箭头”代表问题和答案之间的对应关系,进而将图片中的内容解析为“Question:Answer”的格式,实现了多模态信息融合,将视觉和结构信息与文本信息融合到一起,有效提高对报告图片的文本识别的精确度,确保后续异常项提取的准确性。
S404、判断第一文档中是否包含至少一个预设关键词,若是,进入步骤S407,若否,进入步骤S405。
在该步骤中,为了能够让用户能够快速知晓自身是否存在异常项,设定多个异常项对应的预设关键词,例如结节、囊肿等,利用训练好的文字识别模型,对第一文档中的文字内容进行筛查,判断其中是否包含至少一个关键词,以判断用户的检测报告中是否包含异常项信息。
可选地,多个预设关键词为预先根据医学词典以及医学知识库中的数据进行整理得到的异常项词语,例如结节、囊肿等。
S405、获取预设通知信息。
S406、发送预设通知信息至目标终端。
在步骤S405和S406中,在确定第一文档中未包含至少一个预设关键词的情况下,说明用户的检测报告中没有异常项,即确定用户身体健康无异常情况,此时输出身体健康相关的预设通知信息,并将预设通知信息发送至目标终端,即关联的用户的客户端。
可选地,预设通知信息可以为提前设定好的“您的检查结果正常”等通知文本。此外,通知信息还可以包含有预先输入的健康生活指南,例如“均衡膳食”、“适度运动”等内容。
S407、利用第二预设模型,在第一文档中,抽取出每个预设关键词对应的目标文本。
在该步骤中,在确定第一文档中包含至少一个预设关键词后,说明用户的检测报告中存在异常项。此时,利用第二预设模型,在第一文档中抽取出每个预设关键词对应的相关文本内容,即目标文本。
在实际应用中,第二预设模型为命名实体识别(NER)模型,通过预训练,使模型中添加预先定义的异常项名称及对应的属性对应的命名实体,如异常项、尺寸、部位等,利用训练后的第二预设模型对第一文档中异常项名称及对应的属性信息进行识别、提取。具体地,第一文档中检测组名为“甲状腺超声”,检测结果为“甲状腺形态大小正常,甲状腺右叶内见一个结节,大小约9.5mm×6.3mm”。利用第二预设模型,按照抽取对象以及抽取内容,对异常项相关文本进行抽取,例如,根据抽取对象“xx结节”,抽取内容“位置、尺寸大小”,在第一文档中识别并抽取出“甲状腺右叶”、“结节”和“9.5mm×6.3mm”。
通过上述方式,实现了在检测报告中提取出异常项相关信息,进而使得用户能够快速、正确地知晓自身问题,提高了用户对于检测报告解读的准确率和解读效率。
S408、获取每个预设关键词对应的预设模板。
S409、将每个预设关键词的目标文本填入对应的预设模板中,生成第二文档。
在步骤S408和S409中,对于不同的检测项目和检测单位的检测报告,其版式会有很大的不同、文本内容也会有很大不同,使得提取出的异常项的目标文本均不相同。为了提高检测报告解读的通用性,为用户带来更好的用户体验,提前根据不同的异常项关键词,设置其对应的预设模板,以及预设模板中的待填入项。进而第一文档中提取出的异常项对应的目标文本,按照异常项的预设目标格式填入预设模板中,进而将所有填入后的预设模板进行汇总,生成第二文档。
可选地,每个异常项对应的预设模板可以根据用户需求自行设定。例如,为了能够直接、简洁地体现异常项信息,可以设置为只输入结节的位置以及最大直径。进一步地,为了改动较少,更加快速地生成第二文档,还可以设置输入结节的位置以及直径范围,使得检测报告中的异常项信息可以无需更改,直接将结节直径范围输入至预设模板中,本申请在此不做具体限定,以提高预设模板使用的灵活性,确保预设模板的实用性。
在实际应用中,如图6所示,为生成第二文档的流程图。具体地,如图5中在转化后的第一文档中,包含了“检测结果:双侧乳腺轮廓清晰,左乳3点探及一结节,大小约3.5mm×1.8mm;检测组名:乳腺超声”以及“检测结果:甲状腺形状大小正常,甲状腺右叶内见一个结节,大小约9.5mm×6.3mm”。判断出第一文档中包含了预设关键词“结节”后,利用NER模型,在第一文档中抽取出“结节”相关的目标文本:“乳腺结节”、“左乳3点”、“3.5mm×1.8mm”、“甲状腺结节”、“甲状腺右叶”以及“9.5mm×6.3mm”,进而按照“结节”对应的预设模板的模板格式,填入预设模板:“乳腺结节”、“左乳”、“3.5mm”,、“甲状腺结节”、“右叶”以及“9.5mm”,形成第二文档。
S410、获取第二文档中的至少一个目标关键词。
S411、在预设知识库中,调取每个目标关键词对应的目标信息。
S412、将目标信息填入第二文档,生成目标报告。
在步骤S410至步骤S412中,当用户在根据检测报告知晓自身存在异常时,例如检查出存在甲状腺结节时,若没有时间前往医院,通常会通过网络查询病症信息、如何治疗以及如何搭配饮食等。然而,网络上信息量巨大、鱼龙混杂,用户在查询过程中,无法快速找到有用的信息,甚至可能找到大量虚假信息,进而引起不必要的情绪恐慌,还可能导致延误治疗。因此,从检测报告内容中提取异常项信息汇总为第二文档后,获取第二文档中的至少一个目标关键词,即每个异常项,在预设知识库中,调取每个异常项对应的目标信息,以给出异常项的相关的整体性的医疗建议以及辅助信息,进而将查询出的目标信息结合第二文档,生成目标报告,其后,将目标报告发送至用户的客户端,以供用户查看。
通过上述方式,使得用户在知晓自身异常项的同时,能够了解正确的身体保健、治疗以及康复信息,使得用户能够了解正确的医疗信息,为用户提供更好的用户体验。
可选地,预设知识库是预先根据医学字典以及医院给出的医疗信息的进行整理得到的。根据该预设知识库,可以查询出每个异常项类别对应的医疗信息以及饮食等辅助信息,提高目标报告的实用性。
可选地,目标信息包括以下至少一项:饮食信息、运动信息、药品信息、症状信息以及医院信息。进一步地,目标信息还可以包括异常项对应的保险信息等,以实现为用户提供全面的辅助信息,带来更好的用户体验。
在具体实施例中,提供了一种数据处理方法。现有技术中,当用户拿到自己的医疗数据后,例如检验报告单、体检报告等,用户无法快速地将纸质结果转换为有效的异常项数据。基于上述问题,本申请提出了对医学报告图片进行智能化处理,即通过对医学报告图片的全面解析,从医学报告图片中发现和提取有价值的内容,如体检中的异常项、检查单中的异常项等,并与系统内的预设知识库进行关联,返回给用户有用的信息,例如膳食推荐、保健建议、药品、医院医生等。以实现将文本信息和视觉信息进行深层次的融合,进而实现了医疗领域多模态文档理解。具体地,首先,使用LayoutLMv3模型作为预训练模型,通过对模型进行优化,在该预训练模型基础上进行Fine Tune下游任务训练,训练出两个子模型:语义实体识别模型和关系抽取模型,能够实现报告图片内容的识别与链接,便于后续抽取出报告图片中的异常项及其他体检信息。
进一步地,对解析后的第一文档,使用基于NER模型进行异常项抽取,抽取出文档中的异常项名称及对应的属性信息如尺寸,部位等,为用户提供更准确的诊疗推荐。
进一步地,基于从用户上传的报告图片中抽取出的异常项信息,推荐相关的饮食、医疗、保险等,提供给用户最全面的信息,带来更好的用户体验。
通过上述方式,使得用户只需对医院出具的检测报告进行拍照、截图等,便可自动地解析出报告图片中用户身体中的异常项,后续通过链接预设知识库,为用户提供多方面的身体保健及康复信息,例如:膳食、运动、药品、医院等。
进一步地,作为图1所述方法的具体实现,本申请实施例提供了一种数据处理装置500,如图7所示,该装置包括:
获取模块501,用于响应于数据处理请求,获取待处理的报告图片;
第一生成模块502,用于根据第一预设模型和报告图片,生成第一文档;
确定模块503,用于根据第二预设模型和多个预设关键词,在第一文档中,确定目标文本;
第二生成模块504,用于根据目标文本和预设模板,生成第二文档;
第三生成模块505,用于根据第二文档和预设知识库,生成目标报告。
可选地,第一生成模块502,具体用于:
利用第一预设模型,对报告图片进行文字识别,确定报告图片中的文本内容;
根据文本内容,生成第一文档。
可选地,该装置还包括:
判断模块506,判断第一文档中是否包含至少一个预设关键词。
可选地,获取模块501,还用于:
若否,获取预设通知信息。
可选地,该装置还包括:
发送模块507,用于发送预设通知信息至目标终端。
可选地,确定模块503,具体用于:
根据第二预设模型,在第一文档中,抽取出每个预设关键词对应的目标文本。
可选地,第二生成模块504,具体用于:
获取每个预设关键词对应的预设模板;
将每个预设关键词的目标文本填入对应的预设模板中,生成第二文档。
可选地,获取模块501,还用于:
获取第二文档中的至少一个目标关键词。
可选地,该装置还包括:
调取模块508,用于在预设知识库中,调取每个目标关键词对应的目标信息;
第四生成模块509,用于将目标信息填入第二文档,生成目标报告。
可选地,目标信息包括以下至少一项:饮食信息、运动信息、药品信息、症状信息以及医院信息。
本申请实施例提供的数据处理装置500,获取用户的检测报告的报告图片后,利用第一预设模型对报告图片内的文本内容进行解析、标注,得到基于检测报告内容的第一文档。其后,利用第二预设模型,对第一文档中的异常项关键词进行识别,提取第一文档中异常项的相关内容。进一步地,利用第三预设模型,将异常项的相关内容进行格式转化,输入预设模板,得到异常项相关的第二文档。最后,利用预设知识库,调取第二文档中异常项对应的全部医疗建议相关信息,将异常项信息以及医疗建议相关信息进行汇总,生成目标报告供用户查看。通过上述方式,对体检报告的内容进行自动解读,能够快速、准确地得到体检报告中的异常项信息,提高了对体检报告解读的准确性和解读效率,同时,针对用户存在的异常项给出整体性、正确的医疗建议,带来更好的用户体验。
在示例性实施例中,本申请还提供了一种计算机设备,包括存储器和处理器。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的数据处理方法。
在示例性实施例中,本申请还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据处理方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
响应于数据处理请求,获取待处理的报告图片;
根据第一预设模型和所述报告图片,生成第一文档;
根据第二预设模型和多个预设关键词,在所述第一文档中,确定目标文本;
根据所述目标文本和预设模板,生成第二文档;
根据所述第二文档和预设知识库,生成目标报告。
2.根据权利要求1所述的方法,其特征在于,所述根据第一预设模型和所述报告图片,生成第一文档的步骤,具体包括:
利用所述第一预设模型,对所述报告图片进行文字识别,确定所述报告图片中的文本内容;
根据所述文本内容,生成所述第一文档。
3.根据权利要求1所述的方法,其特征在于,所述根据第二预设模型和多个预设关键词,在所述第一文档中,确定目标文本之前,还包括:
判断所述第一文档中是否包含至少一个预设关键词;
若否,获取预设通知信息;
发送所述预设通知信息至目标终端。
4.根据权利要求1所述的方法,其特征在于,所述根据第二预设模型和多个预设关键词,在所述第一文档中,确定目标文本的步骤,具体包括:
根据所述第二预设模型,在所述第一文档中,抽取出每个预设关键词对应的目标文本。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标文本和预设模板,生成第二文档的步骤,具体包括:
获取每个预设关键词对应的预设模板;
将每个预设关键词的目标文本填入对应的预设模板中,生成所述第二文档。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本和预设模板,生成第二文档之后,还包括:
获取所述第二文档中的至少一个目标关键词;
在所述预设知识库中,调取每个目标关键词对应的目标信息;
将所述目标信息填入所述第二文档,生成所述目标报告。
7.根据权利要求1至6中任一项所述的方法,其特征在于,
目标信息包括以下至少一项:饮食信息、运动信息、药品信息、症状信息以及医院信息。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于响应于数据处理请求,获取待处理的报告图片;
第一生成模块,用于根据第一预设模型和所述报告图片,生成第一文档;
确定模块,用于根据第二预设模型和多个预设关键词,在所述第一文档中,确定目标文本;
第二生成模块,用于根据所述目标文本和预设模板,生成第二文档;
第三生成模块,用于根据所述第二文档和预设知识库,生成目标报告。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202310439920.2A 2023-04-18 2023-04-18 数据处理方法、装置、计算机设备及可读存储介质 Pending CN116469505A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310439920.2A CN116469505A (zh) 2023-04-18 2023-04-18 数据处理方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310439920.2A CN116469505A (zh) 2023-04-18 2023-04-18 数据处理方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116469505A true CN116469505A (zh) 2023-07-21

Family

ID=87183957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310439920.2A Pending CN116469505A (zh) 2023-04-18 2023-04-18 数据处理方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116469505A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494672A (zh) * 2023-11-13 2024-02-02 北京大学长沙计算与数字经济研究院 行业文档的生成方法、装置及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494672A (zh) * 2023-11-13 2024-02-02 北京大学长沙计算与数字经济研究院 行业文档的生成方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US10818397B2 (en) Clinical content analytics engine
CN112037910B (zh) 健康信息管理方法、装置、设备及存储介质
CN112015917A (zh) 基于知识图谱的数据处理方法、装置及计算机设备
US20160210426A1 (en) Method of classifying medical documents
WO2021169101A1 (zh) 医疗影像识别模型生成方法、装置、计算机设备和介质
CN113886716B (zh) 食品安全突发事件的应急处置推荐方法及系统
US20200293528A1 (en) Systems and methods for automatically generating structured output documents based on structural rules
Shenoy et al. Utilizing smartphone-based machine learning in medical monitor data collection: Seven segment digit recognition
CN110556173A (zh) 一种检查报告单智能分类管理系统及方法
CN111144079A (zh) 一种智能获取学习资源的方法、装置、打印机和存储介质
CN113626591A (zh) 一种基于文本分类的电子病历数据质量评价方法
CN113435200A (zh) 实体识别模型训练、电子病历处理方法、系统及设备
CN116469505A (zh) 数据处理方法、装置、计算机设备及可读存储介质
CN116168793A (zh) 体检数据的处理分析方法及相关设备
CN113642562A (zh) 基于图像识别的数据解读方法、装置、设备及存储介质
CN113707304B (zh) 分诊数据处理方法、装置、设备及存储介质
CN109065015B (zh) 一种数据采集方法、装置、设备及可读存储介质
CN113762100A (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
JP6802332B1 (ja) 情報処理方法および情報処理装置
CN111611781A (zh) 数据标注方法、问答方法、装置及电子设备
CN115457586A (zh) 一种病例信息提取方法、装置、设备和存储介质
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
CN112053760B (zh) 用药指导方法、用药指导装置及计算机可读存储介质
CN115344665A (zh) 病案文本的处理方法和装置、电子设备以及计算机可读存储介质
CN113191141A (zh) 问诊正则表达式生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination