CN115545008B - 一种谱图文件解析方法、装置、设备及存储介质 - Google Patents
一种谱图文件解析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115545008B CN115545008B CN202211504600.2A CN202211504600A CN115545008B CN 115545008 B CN115545008 B CN 115545008B CN 202211504600 A CN202211504600 A CN 202211504600A CN 115545008 B CN115545008 B CN 115545008B
- Authority
- CN
- China
- Prior art keywords
- data items
- preset
- data
- keywords
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供一种谱图文件解析方法、装置、设备及存储介质,涉及数据处理技术领域。通过提取预设实验仪器的谱图文件中的文本信息,根据预设开始标识,从文本信息中确定预设实验仪器对应的表头内容,根据预设结束标识和表头内容,从文本信息中确定预设实验仪器对应的表格内容,根据预设实验仪器对应的多个数据项的关键字和表头内容,得到表格内容中多个数据项的位置,根据多个数据项的位置,从表格内容中确定多个数据项的数据内容,根据多个数据项的预设列表排布方式,和多个数据项的数据内容,生成预设实验仪器的业务报表,通过自动化生成业务报表,减少了人工成本,出错性较低,提高了数据的准确性,降低了开发难度。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种谱图文件解析方法、装置、设备及存储介质。
背景技术
在医疗方面设置有多种实验仪器,实验仪器可以产生包含医疗过程的谱图文件,谱图文件中的表格数据是谱图文件中对曲线谱图的较直观的数据表示,因此,谱图文件中的表格数据是医疗过程分析中较为重要的数据。
医疗过程的每一步对应的医疗数据(表格数据)中的部分特定数据均需存储至电子实验记录本中,使得可对电子实验记录本中的部分医疗数据进行分析判断。现有技术中,通过人工的方式将谱图文件中的表格数据中的部分数据抄录到电子实验记录本中,该方法的人力成本较大,且出错率较高,准确性较低;还可通过其他设备对接仪器设备以获取实验仪器产生的底层数据中的表格数据,但是,由于不同厂家生产的同类型的仪器设备所产生的底层数据的数据量不同、表示方法不同等因素,使得对接方式均不同,进而使得对接仪器设备的其他设备的开发难度较高。
发明内容
本发明的目的在于,针对上述现有技术的不足,提供一种谱图文件解析方法、装置、设备及存储介质,以解决现有技术人力成本较大、医疗数据出错率较高、准确性较低、以及开发难度较高的技术问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种谱图文件解析方法,该方法包括:
提取预设实验仪器的谱图文件中的文本信息;
根据预设开始标识,从所述文本信息中,确定所述预设实验仪器对应的表头内容;
根据预设结束标识和所述表头内容,从所述文本信息中,确定所述预设实验仪器对应的表格内容;
根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述表格内容中所述多个数据项的位置;
根据所述多个数据项的位置,从所述表格内容中确定所述多个数据项的数据内容;
根据所述多个数据项的预设列表排布方式,和所述多个数据项的数据内容,生成所述预设实验仪器的业务报表。
可选地,所述根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述表格内容中所述多个数据项的位置,包括:
根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述多个数据项的关键字在所述表头内容中的位置;
根据所述多个数据项的关键字在所述表头内容中的位置,确定所述表格内容中所述多个数据项的位置。
可选地,所述根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述多个数据项的关键字在所述表头内容中的位置,包括:
展示所述多个数据项的关键字以及所述表头内容;
接收针对所述表头内容中所述多个数据项的关键字的位置标记操作;
根据所述多个数据项的关键字的位置标记操作,确定所述多个数据项的关键字在所述表头内容中的位置。
可选地,所述根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述多个数据项的关键字在所述表头内容中的位置,包括:
根据所述多个数据项的关键字,对所述表头内容进行匹配,得到所述表头内容中所述多个数据项的位置。
可选地,所述根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述表格内容中所述多个数据项的位置之前,所述方法还包括:
获取所述预设实验仪器的预设业务数据模型,所述预设业务数据模型记录了:所述多个数据项的关键字,以及多个数据项的预设列表排布方式。
可选地,所述根据所述多个数据项的位置,从所述表格内容中确定所述多个数据项的数据内容,包括:
将所述表格内容中的连续多个空白字符转换为一个空白字符;
根据所述空白字符对表格内容中的每行数据进行分割;
根据所述多个数据项的位置,从分割后的每行数据中确定所述多个数据项的数据内容。
可选地,所述方法还包括:
将所述预设实验仪器的业务报表通过预设接口发送至电子实验记录本,使得所述电子实验记录本根据所述业务报表更新所述预设实验仪器的总业务报表。
第二方面,本申请实施例提供一种谱图文件解析装置,包括:
提取模块,用于提取预设实验仪器的谱图文件中的文本信息;
第一确定模块,用于根据预设开始标识,从所述文本信息中,确定所述预设实验仪器对应的表头内容;
第二确定模块,用于根据预设结束标识和所述表头内容,从所述文本信息中,确定所述预设实验仪器对应的表格内容;
得到模块,用于根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述表格内容中所述多个数据项的位置;
第三确定模块,用于根据所述多个数据项的位置,从所述表格内容中确定所述多个数据项的数据内容;
生成模块,用于根据所述多个数据项的预设列表排布方式,和所述多个数据项的数据内容,生成所述预设实验仪器的业务报表。
第三方面,本申请实施例提供一种计算机设备,包括:存储介质和处理器,所述存储介质存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的一种谱图文件解析方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面的一种谱图文件解析方法。
相对现有技术而言,本申请具有以下有益效果:
本申请提供的一种谱图文件解析方法、装置、设备及存储介质,通过提取预设实验仪器的谱图文件中的文本信息,根据预设开始标识,从文本信息中,确定预设实验仪器对应的表头内容,根据预设结束标识和表头内容,从文本信息中,确定预设实验仪器对应的表格内容,根据预设实验仪器对应的多个数据项的关键字和表头内容,得到表格内容中多个数据项的位置,根据多个数据项的位置,从表格内容中确定多个数据项的数据内容,根据多个数据项的预设列表排布方式,和多个数据项的数据内容,生成预设实验仪器的业务报表,通过自动化生成业务报表,即自动生成医疗过程的每一步对应的医疗数据(表格数据)中的部分特定数据,可将该业务报表直接传输至电子实验记录本中,减少了人工成本,同时,相对人工选择与抄录,出错性较低,提高了数据的准确性,并且,本方法不需要对接仪器获取实验仪器产生的底层数据中的表格数据,可以直接将需要的特定数据选择出来并进行传输,电子实验记录本接收的数据为可直接使用并展示的业务报表,因此,降低了开发难度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种谱图文件解析方法的流程示意图;
图2为本申请实施例提供的另一种谱图文件解析方法的流程示意图;
图3为本申请实施例提供的另一种谱图文件解析方法的流程示意图;
图4为本申请实施例提供的另一种谱图文件解析方法的流程示意图;
图5为本申请实施例提供的一种谱图文件解析装置的示意图;
图6为本申请实施例提供的一种计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
通过人工的方式将谱图文件中的表格数据(医疗数据)中的部分数据写入电子实验记录本中,存在人力成本较大、出错率较高、准确性较低的问题,同时,通过其他设备对接仪器设备以获取仪器产生的底层数据中的表格数据时,对于其他设备的开发难度较高。因此,为了减少人工成本,提高医疗数据的准确性,同时,降低开发难度,本申请的方案中,提供一种谱图文件解析方法,如下通过具体示例,对本申请实施例提供的一种谱图文件解析方法进行解释说明。图1为本申请实施例提供的一种谱图文件解析方法的流程示意图。如图1所示,该方法包括:
S101,提取预设实验仪器的谱图文件中的文本信息。
预设实验仪器可以生成对应的谱图文件,谱图文件中一般包含文本信息、表格以及基于时间维度的曲线图,其中,表格信息为曲线图的数据表示,文本信息为与实验仪器相关的文本信息,同时,表格中也包含文本信息。
不同的实验仪器生成的谱图文件的数据类型不同,数据量不同,同时,对数据的描述也不同。
可选地,与实验仪器相关的文本信息可以为操作人,实验仪器信息,操作时间,采集方法等基本描述信息。
可选地,表格中的信息可以包含:排序号,保留时间,类型,峰值,峰宽面积,峰高面积等,其中,每一行信息表示随着时间推移记录下的当前时刻的一组数据。
在本申请实施例中,谱图文件为pdf格式的文件,当然,还可以为其他格式的文件,在本申请实施例中不作具体限制。
谱图文件为pdf格式的文件时,提取预设实验仪器的谱图文件中的文本信息时,可通过工具类按行提取谱图文件中的所有文本类数据,即忽略掉谱图文件中的图片信息,保留文字、空格、换行符等基本数据信息。
示例地,该工具类可以为PDF-Box工具包,可通过该工具包对应的提取函数,如getText函数提取得到谱图文件中的文本类数据。当然,还可以通过其他的工具类以及提取函数获取谱图文件中的本文类数据,在本申请实施例中不作具体限制。
S102,根据预设开始标识,从文本信息中,确定预设实验仪器对应的表头内容。
不同的实验仪器生成的谱图文件的开始标识可能不同,因此,可根据预设实验仪器的型号等信息,确定该预设实验仪器对应的预设开始标识,其中,可预先设定不同的实验仪器与开始标识之间的对应关系。可选地,若预先设定中不存在预设实验仪器与预设开始标识之间的对应关系,可将预设实验仪器与观察到的对应的谱图文件中的预设开始标识之间的对应关系进行添加。
在本申请实施例中,预设实验仪器对应的预设开始标识可为“Peak Results”,谱图文件中的表格以该预设开始标识作为开始标记,从文本信息中识别到预设开始标识后,其下面一行可为预设实验仪器的谱图文件中的表格的表头行,即表头内容。当然,该确定预设实验仪器对应的表头内容仅为示例,还可为其他的方法,在本申请实施例中不作具体限制。
S103,根据预设结束标识和表头内容,从文本信息中,确定预设实验仪器对应的表格内容。
不同的实验仪器生成的谱图文件的结束标识可能不同,因此,可根据预设实验仪器的型号等信息,确定该预设实验仪器对应的预设结束标识,其中,可预先设定不同的实验仪器与结束标识之间的对应关系。可选地,若预先设定中不存在预设实验仪器与预设结束标识之间的对应关系,可将预设实验仪器与观察到的对应的谱图文件中的预设结束标识之间的对应关系进行添加。
在本申请实施例中,由于表格之后的数据为对表格中的数据的求和的结果等,因此,预设实验仪器对应的预设结束标识可为“Sum”,可以通过识别预设结束标识确定当前表格读取结束。
在表头内容与预设结束标识中间的所有行中的所有数据均为表格内容。在顺序读取文本信息时,确定出预设结束标识后,可以确保读取的表格内容不会多读。当然,该确定预设实验仪器对应的表格内容仅为示例,还可为其他的方法,在本申请实施例中不作具体限制。
S104,根据预设实验仪器对应的多个数据项的关键字和表头内容,得到表格内容中多个数据项的位置。
不同的实验仪器可以产生不同的谱图文件,即谱图文件中的表格头中的各项可能存在不同,因此,医疗过程的每一步对应的表格数据中的部分特定数据均存储至电子实验记录本时,不同的实验仪器可能对应不同的部分特定数据,也可能对应相同的部分特定数据,在本申请实施例中不作具体限制。其中,该部分特定数据对应的数据项可为预设实验仪器对应的多个数据项,因此,不同的实验仪器对应的多个数据项可能不同,也可能相同,同时,多个数据项的关键字可能不同,也可能相同。
多个数据项的关键字也可称为多个数据项的识别关键字。可根据预设实验仪器对应的多个数据项的关键字和表头内容,判断多个数据项的关键字在表头内容中的位置,即得到表格内容中多个数据项的位置。
在本申请实施例中,多个数据项可以为保留时间、峰面积、峰面积百分比等数据项,在本申请实施例中不作具体限制。数据项的关键字用来唯一标识对应的数据项。
S105,根据多个数据项的位置,从表格内容中确定多个数据项的数据内容。
多个数据项的位置为多个数据项的关键字在表头内容中的位置,因此,可根据该多个数据项的位置,从表格内容中确定并获取该位置对应的多个数据内容,此时,得到了需要存储至电子实验记录本的表格数据中的部分特定数据。
可选地,谱图文件存在多个页面时,表格内容可能存在分页的情况,此时,同一个表格可能会以多个表格的表现形式分别展示在多个页内,多个页内均展示同样的表头内容以及当前的表格内容,因此,需要持续对提取的预设实验仪器的谱图文件中的文本信息进行读取识别,保证表格内容的完整性。
S106,根据多个数据项的预设列表排布方式,和多个数据项的数据内容,生成预设实验仪器的业务报表。
多个数据项可以为预设实验仪器的业务报表的表头内容,多个数据项的数据内容可以为预设实验仪器的业务报表的表格内容,根据表头内容和表格内容,生成预设实验仪器的业务报表。
多个数据项的预设列表排布方式可以为横向排布,此时每个数据项的数据内容为纵向排布;多个数据项的预设列表排布方式还可以为纵向排布,此时每个数据项的数据内容为横向排布,当然,还可以为其他的排布方式,在本申请实施例中不作具体限制。
本申请提供的一种谱图文件解析方法,通过自动化生成业务报表,即自动生成医疗过程的每一步对应的医疗数据(表格数据)中的部分特定数据,可将该业务报表直接传输至电子实验记录本中,减少了人工成本,同时,相对人工选择与抄录,出错性较低,提高了数据的准确性,并且,本方法不需要对接仪器获取实验仪器产生的底层数据中的表格数据,可以直接将需要的特定数据选择出来并进行传输,电子实验记录本接收的数据为可直接使用并展示的业务报表,因此,降低了开发难度。
在上述图1所示的一种谱图文件解析方法的基础上,本申请实施例还提供了一种得到表格内容中多个数据项的位置的实现方法。可选地,图2为本申请实施例提供的另一种谱图文件解析方法的流程示意图,如图2所示,上述方法S104,根据预设实验仪器对应的多个数据项的关键字和表头内容,得到表格内容中多个数据项的位置,包括:
S201,根据预设实验仪器对应的多个数据项的关键字和表头内容,得到多个数据项的关键字在表头内容中的位置。
示例地,若数据项“名字”的关键字为“Name”,表头内容为“Peak Ret Time TypeWidth Area Name”,则数据项“名字”的关键字为“Name” 在表头内容中的位置为6,其中,位置以0为起始位置。当然,还可以以1作为起始位置,此时,数据项“名字”的关键字为“Name”在表头内容中的位置为7,在本申请实施例中不作具体限制。
S202,根据多个数据项的关键字在表头内容中的位置,确定表格内容中多个数据项的位置。
得到多个数据项的关键字在表头内容中的位置后,读取表格内容时,可获取该位置对应的表格内容的每一行的多个数据项的关键字对应的数据内容。其中,多个数据项的关键字在表头内容中的位置即为表格内容中多个数据项的位置。
本申请实施例提供的一种谱图文件解析方法,根据预设实验仪器对应的多个数据项的关键字和表头内容,得到多个数据项的关键字在表头内容中的位置,根据多个数据项的关键字在表头内容中的位置,确定表格内容中多个数据项的位置,进而可根据表格内容中多个数据项的位置获取对应的数据内容,实现了自动化选择获取医疗过程的每一步对应的医疗数据(表格数据)中的部分特定数据,相比人工选择抄录,提高了数据的准确性。
在上述图2所示的一种谱图文件解析方法的基础上,本申请实施例还提供了一种得到多个数据项的关键字在表头内容中的位置的实现方法。可选地,图3为本申请实施例提供的另一种谱图文件解析方法的流程示意图,如图3所示,上述方法S201,根据预设实验仪器对应的多个数据项的关键字和表头内容,得到多个数据项的关键字在表头内容中的位置,包括:
S301,展示多个数据项的关键字以及表头内容。
在谱图文件的表头内容中,多个数据项的关键字可能与表头内容中的数据内容不一致,在这种情况下,可以通过接收用户的位置标记操作,确定多个数据项的关键字在表头内容中的位置,因此,在一种可能的实施例中,可将多个数据项的关键字以及表头内容进行展示,使得用户可以查阅该内容,进而可对多个数据项的关键字与表头内容的对应关系进行设定,即对其进行位置标记。
可选地,多个数据项的关键字以及表头内容的展示位置、方向等在本申请实施例中不作具体限制。
S302,接收针对表头内容中多个数据项的关键字的位置标记操作。
用户对展示的多个数据项的关键字以及表头内容进行位置标记,指定多个数据项的关键字与表头内容的对应关系。
示例地,若多个数据项的关键字为纵向展示,表头内容中的多个数据内容也为纵向展示,则用户可将每个数据项的关键字与其对应的表头内容中的数据内容进行连线操作,当然,用户还可通过依次点击一个数据项的关键字与其对应的表头内容中的数据内容,具体的位置标记操作方法在本申请实施例中不作具体限制。
S303,根据多个数据项的关键字的位置标记操作,确定多个数据项的关键字在表头内容中的位置。
接收针对表头内容中多个数据项的关键字的位置标记操作,该位置标记操作为用户依次点击一个数据项的关键字与其对应的表头内容中的数据内容时,示例地,若用户依次点击了数据项“名字”的关键字为“Name1”以及表头内容 “Peak Ret Time Type WidthArea Name”中的“Name”,“Name”在表头中的位置为6,则可以确定数据项“名字”的关键字“Name1”在表头内容中的位置为6。
可选地,该位置标记操作为用户将每个数据项的关键字与其对应的表头内容中的数据内容进行连线操作时,可根据连线的两端确定数据项的关键字以及对应的表头内容中的数据内容,进而可根据表头内容中的数据内容所在的位置确定多个数据项的关键字在表头内容中的位置。
可选地,确定多个数据项的关键字在表头内容中的位置后,可将表头内容经过去空格处理得到的一串唯一标识字符串,生成唯一标识字符串与多个数据项的关键字和多个数据项的关键字在表头内容中的位置的映射关系,使得后续可根据表头内容得到唯一标识字符串,进而得到其对应的多个数据项的关键字以及多个数据项的关键字在表头内容中的位置,无需再次进行接收针对表头内容中多个数据项的关键字的位置标记操作。
本申请实施例提供的一种谱图文件解析方法,展示多个数据项的关键字以及表头内容,接收针对表头内容中多个数据项的关键字的位置标记操作,根据多个数据项的关键字的位置标记操作,确定多个数据项的关键字在表头内容中的位置,进而可根据表格内容中多个数据项的位置获取对应的数据内容,本方法实现了多个数据项的关键字与表头内容中的数据内容不一致时的多个数据项的关键字在表头内容中的位置的确定。
在上述图2所示的一种谱图文件解析方法的基础上,本申请实施例还提供了一种得到多个数据项的关键字在表头内容中的位置的实现方法。可选地,上述方法S201,根据预设实验仪器对应的多个数据项的关键字和表头内容,得到多个数据项的关键字在表头内容中的位置,包括:
根据多个数据项的关键字,对表头内容进行匹配,得到表头内容中多个数据项的位置。
在谱图文件的表头内容中,多个数据项的关键字与表头内容中的数据内容一致时,在这种情况下,可以通过自动匹配和自动获取位置,以获得表头内容中多个数据项的位置。示例地,如上述提及的数据项“名字”的关键字为“Name”,表头内容为“Peak Ret TimeType Width Area Name”,在此不作过多赘述。
可选地,预设实验仪器对应的多个数据项的关键字可为预先设置的。用户可根据预设实验仪器的仪器信息或者谱图文件等,判断得到多个数据项在该预设实验仪器的谱图文件中的表示字段,将该表示字段输入并作为多个数据项的关键字,以通过该多个数据项的关键字自动匹配预设实验仪器的谱图文件中的表头内容。
可选地,多个实验仪器的多个数据项的关键字可能相同,也可能不同,本申请中可预先设置不同的实验仪器与对应的多个数据项的关键字之间的映射关系,即可通过预设实验仪器的仪器信息得到其对应的预设实验仪器对应的多个数据项的关键字,进而通过该多个数据项的关键字自动匹配表头内容。
本申请实施例提供的一种谱图文件解析方法,根据多个数据项的关键字,对表头内容进行匹配,得到表头内容中多个数据项的位置,进而可根据表格内容中多个数据项的位置获取对应的数据内容,本方法实现了多个数据项的关键字与表头内容中的数据内容一致时的多个数据项的关键字在表头内容中的位置的自动匹配与确定,提高了选择获取医疗过程的每一步对应的医疗数据(表格数据)中的部分特定数据的效率,同时,提高了数据的准确性。
在上述图1所示的一种谱图文件解析方法的基础上,本申请实施例还提供了另一种谱图文件解析方法的实现方法。可选地,上述方法S104之前,即根据预设实验仪器对应的多个数据项的关键字和表头内容,得到表格内容中多个数据项的位置之前,还包括:
获取预设实验仪器的预设业务数据模型,预设业务数据模型记录了:多个数据项的关键字,以及多个数据项的预设列表排布方式。
预设业务数据模型中记录了多个数据项的预设列表排布方式,其中,多个数据项可以为数据序列号,名称,保留时间,峰面积,峰面积百分比,当然,还可以为其他信息,在本申请实施例中不作具体限制。
预设列表排布方式可以为多个数据项的顺序以及多个数据项在预设业务数据模型中的位置,其中,多个数据项的位置可以为纵向排列,还可以为横向排列,还可以为其他的排列方式,在本申请实施例中不作具体限制。
在本申请实施例中,不同的实验仪器的业务数据模型可以为相同的,也可以为不同的,可预先设置实验仪器与业务数据模型之间的映射关系,同时,实验仪器的业务数据模型可以为预先设置的,也可以为通过用户的输入操作输入的,在本申请实施例中不作具体限制。
本申请实施例提供的一种谱图文件解析方法,获取预设实验仪器的预设业务数据模型,预设业务数据模型记录了:多个数据项的关键字,以及多个数据项的预设列表排布方式,通过建立实验仪器对应的业务数据模型,针对不同仪器产生的谱图文件设定不同的数据模型与位置之间的映射关系,提高了谱图文件解析的兼容性和易用性。
在上述图1所示的一种谱图文件解析方法的基础上,本申请实施例还提供了另一种谱图文件解析方法的实现方法。可选地,图4为本申请实施例提供的另一种谱图文件解析方法的流程示意图,如图4所示,上述方法S105,根据多个数据项的位置,从表格内容中确定多个数据项的数据内容,包括:
S401,将表格内容中的连续多个空白字符转换为一个空白字符。
遍历表格内容的每一行文本信息,将每一行文本信息中存在的连续多个空白字符全部转换为一个空白字符。
可选地,可以通过正则表达式的方法进行转换,当然,还可以通过其他的方法进行转换,在本申请实施例中不作具体限制。
S402,根据空白字符对表格内容中的每行数据进行分割。
可选地,可通过split函数进行分割,当然,还可以通过其他的方法进行分割,在本申请实施例中不作具体限制。
根据空白字符对表格内容中的每行数据进行分割,可以得到分割后的每行中的多个数据内容。
可选地,可将分割后的每行中的多个数据内容以一维数组的形式进行表示,一维数组中的每个数组元素可为key-value形式,其中,key表示该数组元素对应的数据内容对应的表头项,value表示数据内容。可选地,多行的数据内容可以以一个二维数组的形式进行表示。当然,分割后的每行中的多个数据内容还可以通过其他的表示形式进行表示,在本申请实施例中不作具体限制。
S403,根据多个数据项的位置,从分割后的每行数据中确定多个数据项的数据内容。
示例地,若将分割后的每行中的多个数据内容以一维数组的形式进行表示,可将多个数据项的位置作为索引,在数组中查找对应的数组元素,即可以确定多个数据项的数据内容。
本申请实施例提供的一种谱图文件解析方法,将表格内容中的连续多个空白字符转换为一个空白字符,根据空白字符对表格内容中的每行数据进行分割,根据多个数据项的位置,从分割后的每行数据中确定多个数据项的数据内容,本方法可以通过多个数据项的位置,自动获取得到多个数据项的数据内容。
在上述图1所示的一种谱图文件解析方法的基础上,本申请实施例还提供了另一种谱图文件解析方法的实现方法。可选地,上述方法还包括:
将预设实验仪器的业务报表通过预设接口发送至电子实验记录本,使得电子实验记录本根据业务报表更新预设实验仪器的总业务报表。
在本申请实施例中,数据模型的建立直接作为一层抽象为上层服务提供了统一的数据格式,同时规范了标准化的谱图解析生成的数据接口,完全解耦业务层(电子实验记录本)和谱图文件分析层,预设实验仪器的业务报表可通过预设接口发送至电子实验记录本。其中,预设接口为标准化的谱图解析生成的数据接口。
本申请实施例提供的一种谱图文件解析方法,将预设实验仪器的业务报表通过预设接口发送至电子实验记录本,规范了与业务的数据格式以及接口,使得电子实验记录本根据业务报表更新预设实验仪器的总业务报表,进而对总业务报表进行数据分析。
下述对用以执行的本申请所提供的一种谱图文件解析装置、设备以及存储介质进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图5为本申请实施例提供的一种谱图文件解析装置的示意图,如图5所示,该谱图文件解析装置包括:
提取模块501,用于提取预设实验仪器的谱图文件中的文本信息。
第一确定模块502,用于根据预设开始标识,从文本信息中,确定预设实验仪器对应的表头内容。
第二确定模块503,用于根据预设结束标识和表头内容,从文本信息中,确定预设实验仪器对应的表格内容。
得到模块504,用于根据预设实验仪器对应的多个数据项的关键字和表头内容,得到表格内容中多个数据项的位置。
第三确定模块505,用于根据多个数据项的位置,从表格内容中确定多个数据项的数据内容。
生成模块506,用于根据多个数据项的预设列表排布方式,和多个数据项的数据内容,生成预设实验仪器的业务报表。
可选地,得到模块504,具体用于根据预设实验仪器对应的多个数据项的关键字和表头内容,得到多个数据项的关键字在表头内容中的位置;根据多个数据项的关键字在表头内容中的位置,确定表格内容中多个数据项的位置。
可选地,得到模块504,具体用于展示多个数据项的关键字以及表头内容;接收针对表头内容中多个数据项的关键字的位置标记操作;根据多个数据项的关键字的位置标记操作,确定多个数据项的关键字在表头内容中的位置。
可选地,得到模块504,具体用于根据多个数据项的关键字,对表头内容进行匹配,得到表头内容中多个数据项的位置。
可选地,得到模块504,还用于获取预设实验仪器的预设业务数据模型,预设业务数据模型记录了:多个数据项的关键字,以及多个数据项的预设列表排布方式。
可选地,第三确定模块505,具体用于将表格内容中的连续多个空白字符转换为一个空白字符;根据空白字符对表格内容中的每行数据进行分割;根据多个数据项的位置,从分割后的每行数据中确定多个数据项的数据内容。
发送模块507,用于将预设实验仪器的业务报表通过预设接口发送至电子实验记录本,使得电子实验记录本根据业务报表更新预设实验仪器的总业务报表。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图6为本申请实施例提供的一种计算机设备的示意图,该计算机设备可以是具备计算处理功能的计算设备。
该计算机设备包括:处理器601、存储介质602、总线603。处理器601和存储介质602通过总线603连接。
存储介质602用于存储程序,处理器601调用存储介质602存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种谱图文件解析方法,其特征在于,所述方法用于自动化生成预设实验仪器的业务报表,所述方法包括:
提取所述预设实验仪器的谱图文件中的文本信息;
根据预设开始标识,从所述文本信息中,确定所述预设实验仪器对应的表头内容;其中,所述预设开始标识为根据所述预设实验仪器的型号确定的开始标识;
根据预设结束标识和所述表头内容,从所述文本信息中,确定所述预设实验仪器对应的表格内容;其中,所述预设结束标识为根据所述预设实验仪器的型号确定的结束标识;
根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述表格内容中所述多个数据项的位置;
根据所述多个数据项的位置,从所述表格内容中确定所述多个数据项的数据内容;
根据所述多个数据项的预设列表排布方式,和所述多个数据项的数据内容,生成所述预设实验仪器的业务报表;
所述根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述表格内容中所述多个数据项的位置,包括:
根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述多个数据项的关键字在所述表头内容中的位置;根据所述多个数据项的关键字在所述表头内容中的位置,确定所述表格内容中所述多个数据项的位置;
所述根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述表格内容中所述多个数据项的位置之前,所述方法还包括:
获取所述预设实验仪器的预设业务数据模型,所述预设业务数据模型记录了:所述多个数据项的关键字,以及多个数据项的预设列表排布方式。
2.根据权利要求1所述的解析方法,其特征在于,所述根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述多个数据项的关键字在所述表头内容中的位置,包括:
展示所述多个数据项的关键字以及所述表头内容;
接收针对所述表头内容中所述多个数据项的关键字的位置标记操作;
根据所述多个数据项的关键字的位置标记操作,确定所述多个数据项的关键字在所述表头内容中的位置。
3.根据权利要求1所述的解析方法,其特征在于,所述根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述多个数据项的关键字在所述表头内容中的位置,包括:
根据所述多个数据项的关键字,对所述表头内容进行匹配,得到所述表头内容中所述多个数据项的位置。
4.根据权利要求1所述的解析方法,其特征在于,所述根据所述多个数据项的位置,从所述表格内容中确定所述多个数据项的数据内容,包括:
将所述表格内容中的连续多个空白字符转换为一个空白字符;
根据所述空白字符对表格内容中的每行数据进行分割;
根据所述多个数据项的位置,从分割后的每行数据中确定所述多个数据项的数据内容。
5.根据权利要求1所述的解析方法,其特征在于,所述方法还包括:
将所述预设实验仪器的业务报表通过预设接口发送至电子实验记录本,使得所述电子实验记录本根据所述业务报表更新所述预设实验仪器的总业务报表。
6.一种谱图文件解析装置,其特征在于,包括:
提取模块,用于提取预设实验仪器的谱图文件中的文本信息;
第一确定模块,用于根据预设开始标识,从所述文本信息中,确定所述预设实验仪器对应的表头内容;其中,所述预设开始标识为根据所述预设实验仪器的型号确定的开始标识;
第二确定模块,用于根据预设结束标识和所述表头内容,从所述文本信息中,确定所述预设实验仪器对应的表格内容;其中,所述预设结束标识为根据所述预设实验仪器的型号确定的结束标识;
得到模块,用于根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述表格内容中所述多个数据项的位置;
第三确定模块,用于根据所述多个数据项的位置,从所述表格内容中确定所述多个数据项的数据内容;
生成模块,用于根据所述多个数据项的预设列表排布方式,和所述多个数据项的数据内容,生成所述预设实验仪器的业务报表;
所述第三确定模块,具体用于根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述多个数据项的关键字在所述表头内容中的位置;根据所述多个数据项的关键字在所述表头内容中的位置,确定所述表格内容中所述多个数据项的位置;
所述得到模块,还用于根据所述预设实验仪器对应的多个数据项的关键字和所述表头内容,得到所述表格内容中所述多个数据项的位置之前,获取所述预设实验仪器的预设业务数据模型,所述预设业务数据模型记录了:所述多个数据项的关键字,以及多个数据项的预设列表排布方式。
7.一种计算机设备,其特征在于,包括:存储介质和处理器,所述存储介质存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的谱图文件解析方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求1-5中任一项所述的谱图文件解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211504600.2A CN115545008B (zh) | 2022-11-29 | 2022-11-29 | 一种谱图文件解析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211504600.2A CN115545008B (zh) | 2022-11-29 | 2022-11-29 | 一种谱图文件解析方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115545008A CN115545008A (zh) | 2022-12-30 |
CN115545008B true CN115545008B (zh) | 2023-04-07 |
Family
ID=84721821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211504600.2A Active CN115545008B (zh) | 2022-11-29 | 2022-11-29 | 一种谱图文件解析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545008B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118468815A (zh) * | 2024-07-12 | 2024-08-09 | 山东远联信息科技有限公司 | 一种基于谱图的数据处理方法、装置及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106405A (zh) * | 2011-11-09 | 2013-05-15 | 佳能株式会社 | 用于文档图像的行分割方法及系统 |
CN110321531A (zh) * | 2018-03-30 | 2019-10-11 | 中国石化销售有限公司 | 实验室仪器信息管理系统 |
WO2019237540A1 (zh) * | 2018-06-12 | 2019-12-19 | 平安科技(深圳)有限公司 | 财政数据的获取方法、装置、终端设备及介质 |
CN111352907A (zh) * | 2020-03-30 | 2020-06-30 | 见知数据科技(上海)有限公司 | 流水文件解析方法、装置、计算机设备和存储介质 |
CN112183029A (zh) * | 2020-09-25 | 2021-01-05 | 四川巧夺天工信息安全智能设备有限公司 | 一种针对钣金行业pdf图纸的数字化转换方法 |
CN113553892A (zh) * | 2020-12-31 | 2021-10-26 | 内蒙古卫数数据科技有限公司 | 一种基于深度学习和ocr的检验、体检报告单结果提取方法 |
CN114201620A (zh) * | 2021-12-17 | 2022-03-18 | 上海朝阳永续信息技术股份有限公司 | 用于挖掘pdf文件中的pdf表格的方法、设备和介质 |
CN114462393A (zh) * | 2022-04-12 | 2022-05-10 | 安徽数智建造研究院有限公司 | 网页文本信息提取方法及装置、终端设备和存储介质 |
CN114676187A (zh) * | 2022-04-08 | 2022-06-28 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、设备及介质 |
CN114677695A (zh) * | 2022-04-01 | 2022-06-28 | 中国工商银行股份有限公司 | 表格解析方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9465801B2 (en) * | 2013-01-29 | 2016-10-11 | Transbit Technologies Software Private Limited | Method and system for automatic processing and management of technical digital documents and drawings |
-
2022
- 2022-11-29 CN CN202211504600.2A patent/CN115545008B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106405A (zh) * | 2011-11-09 | 2013-05-15 | 佳能株式会社 | 用于文档图像的行分割方法及系统 |
CN110321531A (zh) * | 2018-03-30 | 2019-10-11 | 中国石化销售有限公司 | 实验室仪器信息管理系统 |
WO2019237540A1 (zh) * | 2018-06-12 | 2019-12-19 | 平安科技(深圳)有限公司 | 财政数据的获取方法、装置、终端设备及介质 |
CN111352907A (zh) * | 2020-03-30 | 2020-06-30 | 见知数据科技(上海)有限公司 | 流水文件解析方法、装置、计算机设备和存储介质 |
CN112183029A (zh) * | 2020-09-25 | 2021-01-05 | 四川巧夺天工信息安全智能设备有限公司 | 一种针对钣金行业pdf图纸的数字化转换方法 |
CN113553892A (zh) * | 2020-12-31 | 2021-10-26 | 内蒙古卫数数据科技有限公司 | 一种基于深度学习和ocr的检验、体检报告单结果提取方法 |
CN114201620A (zh) * | 2021-12-17 | 2022-03-18 | 上海朝阳永续信息技术股份有限公司 | 用于挖掘pdf文件中的pdf表格的方法、设备和介质 |
CN114677695A (zh) * | 2022-04-01 | 2022-06-28 | 中国工商银行股份有限公司 | 表格解析方法、装置、计算机设备和存储介质 |
CN114676187A (zh) * | 2022-04-08 | 2022-06-28 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、设备及介质 |
CN114462393A (zh) * | 2022-04-12 | 2022-05-10 | 安徽数智建造研究院有限公司 | 网页文本信息提取方法及装置、终端设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
D. Tsymbarenko 等.Quick and robust PDF data acquisition using a laboratory single-crystal X-ray diffractometer for study of polynuclear lanthanide complexes in solid form and in solution.《Journal of Applied Crystallography》.2022,(第4期),第890-900页. * |
方木云 等.一种基于表单的软件自动化开发方法.《软件工程》.2020,(第06期),第21-23页. * |
苏玉良 等.实验室信息管理系统的开发与应用.《自动化与仪表》.2012,(第11期),第44-47页. * |
邓小宁 等.基于HOG特征的财务报表图像识别.《电子设计工程》.2019,(第10期),第90-94页. * |
Also Published As
Publication number | Publication date |
---|---|
CN115545008A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111367976B (zh) | 基于java反射机制的excel文件数据的导出方法及装置 | |
CN108228231B (zh) | 一种Git仓库文件注解系统的可视化漂移方法 | |
CN110956026B (zh) | 法律文书生成方法、生成装置和电子设备 | |
CN111061733B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN110908890A (zh) | 一种接口的自动测试方法和装置 | |
CN108334484B (zh) | 数据录入的方法和装置 | |
CN107220274B (zh) | 一种可视化数据接口集市实现方法 | |
CN107305527B (zh) | 代码文件的处理方法和装置 | |
CN115545008B (zh) | 一种谱图文件解析方法、装置、设备及存储介质 | |
CN110688315A (zh) | 接口代码检测报告生成方法、电子装置及存储介质 | |
CN114201615B (zh) | 基于数据快照的科研数据变动回顾方法及服务器 | |
CN114861614A (zh) | 用于填充数据的方法及装置、电子设备、介质 | |
CN112860581B (zh) | 一种测试用例的执行方法、装置、设备及存储介质 | |
CN117609347A (zh) | 一种基于校验与校正的数据导入方法、装置及设备 | |
CN110188106B (zh) | 一种数据管理方法和装置 | |
CN111859863A (zh) | 一种文档的结构转换方法、装置、存储介质及电子设备 | |
JP2005235209A (ja) | 配列索引方法及びそのシステム | |
CN111241096A (zh) | 一种excel文档的文本提取方法、系统、终端及存储介质 | |
CN112597040B (zh) | 一种界面自动化测试方法、装置及电子设备 | |
US20220100805A1 (en) | Method for collecting component model in component e-commerce platform | |
CN115758973A (zh) | 芯片寄存器设计文件的生成方法及装置、设备、存储介质 | |
CN112559318B (zh) | 一种测试用例生成方法、装置及电子设备和存储介质 | |
KR20110023580A (ko) | 데이터를 복구하기 위한 방법 및 시스템 | |
CN110727726B (zh) | 一种文档型数据库中数据抽取到关系数据库的方法和系统 | |
CN110110280B (zh) | 对坐标的曲线积分计算方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |