CN109086260B - 食品数据处理方法及装置 - Google Patents

食品数据处理方法及装置 Download PDF

Info

Publication number
CN109086260B
CN109086260B CN201810996834.0A CN201810996834A CN109086260B CN 109086260 B CN109086260 B CN 109086260B CN 201810996834 A CN201810996834 A CN 201810996834A CN 109086260 B CN109086260 B CN 109086260B
Authority
CN
China
Prior art keywords
data
user
file
intermediate file
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810996834.0A
Other languages
English (en)
Other versions
CN109086260A (zh
Inventor
田方
甘克勤
汪滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN201810996834.0A priority Critical patent/CN109086260B/zh
Publication of CN109086260A publication Critical patent/CN109086260A/zh
Application granted granted Critical
Publication of CN109086260B publication Critical patent/CN109086260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了食品数据处理方法及装置,涉及食品生产领域。本发明提供的食品数据处理方法,在获取到PDF格式的食品生产标准文件后,对该文件进行了文字识别,之后又对识别结果进行结构化转换,得到了第二中间文件;其中,第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的;再后,响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联,最后,根据用户所下达的拖拽选择指令,将关联的第一数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件。该种处理食品数据的方式,系统可以自动的在用户的配合下完成标准文件的生成,提高了表格生成的效率。

Description

食品数据处理方法及装置
技术领域
本发明涉及食品生产领域,具体而言,涉及食品数据处理方法及装置。
背景技术
近些年,由于人们食品安全问题越来越重视,为了准确的解决食品安全问题,人们通常会对各种食品数据进行统计分析,并根据统计分析的结果寻求解决方案。
收集食品数据是对食品数据进行统计分析的前提。某些对数据有指定要求的单位,其提供的文件均是图片格式,具体的,比如是PDF格式。接收这些数据的单位的工作人员,则需要手动的将这些数据填写到预定的标准化表格中,这使得填写过程耗时严重。
发明内容
本发明的目的在于提供食品数据处理方法及装置。
第一方面,本发明实施例提供了食品数据处理方法,包括:
获取PDF格式的食品安全情况标准文件;
对PDF格式的食品安全情况标准文件进行文字识别,以生成word版本的第一中间文件,所述第一中间文件中每个段落的文字是可以直接读取的;
对第一中间文件进行结构化转换,以得到第二中间文件;第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的;
响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联;
根据用户所下达的拖拽选择指令,将关联的第一数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件。
优选的,该方法还包括如下步骤:
响应于用户的操作,标注每个第一表格所在的具体章节和每个表格的描述对象;
步骤根据用户所下达的拖拽选择指令,将关联的数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件包括:根据每个第一表格所在的具体章节和每个表格的描述对象,将根据第一表格生成的标准化表格对应的设置在标准文件中指定的位置上。
优选的,步骤对第一中间文件进行结构化转换,以得到第二中间文件包括:
分别对每个章节所对应的文章内容进行语义识别,以生成每个章节所对应的第一数据;
将所述第一数据按照预定的结构化提取方式进行整合,以生成第二中间文件。
优选的,步骤分别对每个章节所对应的文章内容进行语义识别,以生成每个章节所对应的第一数据包括:
使用通用基本语义分析模型,提取目录级别所对应的文章内容中的候选数据;
使用优化语义分析模型,分析文章内容中每个段落的主题含义;
根据每个段落的主题含义,从对应段落所提取出的候选数据中筛选出第一数据。
优选的,步骤根据用户所下达的拖拽选择指令,将关联的数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件包括:
在显示屏的第一区域上显示多个参考标准,以及在第二区域上显示不同的第一数据;第一区域和第二区域是不重叠的区域;
获取用户的拖拽选择指令;
若所述拖拽选择指令是将多个第一数据中的一个目标数据拖拽至参考标准中,则目标数据与其他第一数据建立的关联关系,将目标数据,和与目标数据相关联的第一数据添加在标准文件的同一个表格中。
优选的,第一数据包括数字数据和约束数字数据适用情况的属性数据。
优选的,步骤响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联包括:
响应于用户的操作,将同一类数字数据进行关联;
响应于用户的操作,将同一类属性数据进行关联。
优选的,该方法还包括:
响应于用户的操作,将标准文件进行展示;
若接收到用户所下达的修改操作,则修改操作对标准文件进行修改;
若接收到用户的下达的保存操作,则将当前标准文件进行保存。
第二方面,本发明实施例还提供了食品数据处理装置,包括:
获取模块,用于获取PDF格式的食品安全情况标准文件;
识别模块,用于对PDF格式的食品安全情况标准文件进行文字识别,以生成word版本的第一中间文件,所述第一中间文件中每个段落的文字是可以直接读取的;
结构化转化模块,用于对第一中间文件进行结构化转换,以得到第二中间文件;第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的;
关联模块,用于响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联;
生成模块,用于根据用户所下达的拖拽选择指令,将关联的数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件。
优选的,该装置还包括:
标注模块,用于响应于用户的操作,标注每个第一表格所在的具体章节和每个表格的描述对象;
生成模块包括:
设置单元,用于根据每个第一表格所在的具体章节和每个表格的描述对象,将根据第一表格生成的标准化表格对应的设置在标准文件中指定的位置上。
本发明实施例提供的食品数据处理方法,在获取到PDF格式的食品安全情况标准文件后,对该文件进行了文字识别,来生成了能够直接读取文字的第一中间文件,之后,对第一中间文件进行结构化转换,以得到第二中间文件;其中,第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的;再后,响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联,最后,根据用户所下达的拖拽选择指令,将关联的第一数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件。该种处理食品数据的方式,避免了用户手动输入每个第一数据,系统可以自动的在用户的配合下完成标准文件的生成,提高了表格生成的效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的食品数据处理方法的基本流程图;
图2示出了本发明实施例所提供的食品数据处理方法的第一个优化流程图;
图3示出了本发明实施例所提供的食品数据处理方法的第二个优化流程图;
图4示出了本发明实施例所提供的食品数据处理方法中标准化表格的示意图;
图5示出了本发明实施例所提供的计算设备的示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,在食品安全防治领域,为了达到某些目的,会将某些数据以图片的形式保存,比如会将食品安全情况的标准说明文件以图片的形式进行保存。其他单位的工作人员在接收到这种图片形式的文件后,需要将该种文件中的内容录入到表格化的文件中,比如录入到excel表中,进而,相应的工作人员可以更加方便的看到对应的标准化数据。
具体而言,图片形式的文件中记录有分章节的说明性文字,比如,该文件中分有多个章节,每个章节中记录有介绍标准的说明性文字、图表和表格。接收到该种文件的工作人员需要将说明性文字、图表和表格录入到对应的excel表中。这就需要工作人员先阅读该文件中的全部文字,再自主的学习该文件中的内容,最后再手动的将需要的信息录入到excel表中,这导致导入到excel表中的耗时过长。
针对上述情况,本申请提供了一种食品数据处理方法,如图1所示,包括如下步骤:
S101,获取PDF格式的食品安全情况标准文件;
S102,对PDF格式的食品安全情况标准文件进行文字识别,以生成word版本的第一中间文件,所述第一中间文件中每个段落的文字是可以直接读取的;
S103,对第一中间文件进行结构化转换,以得到第二中间文件;第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的;
S104,响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联;
S105,根据用户所下达的拖拽选择指令,将关联的第一数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件。
其中,PDF格式的食品安全情况标准文件通常是由上级单位提供的无法直接读取每个段落中文字的文件,该种文件通常是以图片形式存在的。
步骤S102中,文字识别的主要目的是将图片化的文字转化为系统能够直接识别/读取的文字。步骤S103中,主要是为建立表格式的标准文件提供基础,由于在同一个食品安全情况标准文件通常是分为多个章节的,每个章节中所描述的内容,或方向是有所差别的,因此,应当针对不同的章节或者是段落进行第一数据的提取,也就是,第二中间文件中有按照与分级目录相对应的结构化标准规则进行记录的第一数据,具体而言,第二中间文件中就是按照预设的方式将第一中间文件中的文字内容进行了格式化处理,以使第一中间文件中的文字内容分别放在了不同的章节中。
步骤S104中,主要是将指定的数据进行关联,进行关联的数据通常是同一行或者是同一列的,用户在具体操作的时候可以通过点击表格某个行头或者是列头来将这一行或者是这一列的数据进行全选,而后,再将选择出来的数据进行关联。将数据进行关联的主要目的是便于之后批量化的操作。当然,为了提高系统整体的自动化程度,也可以是在用户点击了自动关联的选项之后,系统自动的将每一列的数据进行关联,或者是系统自动的将每一行的数据进行关联。具体系统是将某一行数据进行关联还是将某一列数据进行关联可以是根据用户的设置而确定的,或者是系统根据之前关联的习惯来确定的。如用户在近期都是将某一整列的数据进行关联,则系统可以确定用户的习惯为进行整列关联,进而,在执行步骤S104的时候,如果用户选择一键关联,系统就可以直接将每一列数据进行关联了。
步骤S105中,用户可以以拖拽的方式,将第二中间文件中相关联的第一数据批量添加至标准化表格中对应的位置,从而形成表格形式的标准文件。
具体的,为了提高整体的效率,本申请所提供的方法还包括如下步骤:
响应于用户的操作,标注每个第一表格所在的具体章节和每个表格的描述对象;
步骤根据用户所下达的拖拽选择指令,将关联的数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件包括:
根据每个第一表格所在的具体章节和每个表格的描述对象,将根据第一表格生成的标准化表格对应的设置在标准文件中指定的位置上。
也就是,用户需要为每个第一表格进行标注,标注出每一个表格所在的章节,以及每一个表格的描述对象(如该表格是用来描述液体饮料含糖量的)。
而后,在生成标准文件的时候,系统也会根据章节的位置和描述对象将生成的标准化表格放在对应的位置上。
进一步,步骤S103,如图2所示,可以包括如下步骤:
S1031,分别对每个章节所对应的文章内容进行语义识别,以生成每个章节所对应的第一数据;
S1032,将所述第一数据按照预定的结构化提取方式进行整合,以生成第二中间文件。
其中,语义识别的目的是在于从大段的文字中筛选出有效的文字,比如某一段文字中可能出现多个和第一数据有关的词语,但这些词语并不是都能够作为标准词语的,因此,首选需要确定第一数据,之后,根据第一数据之间的关联关系,以及第一数据在其所在段落的含义(某一个段落的含义能够确定出来该段落想要表达的中心思想)进而,根据分析出来的中心思想来从第一数据中确定出第一数据。
也就是,步骤S1031可以按照如下方式实现:
使用通用基本语义分析模型,提取目录级别所对应的文章内容中的候选数据;
使用优化语义分析模型,分析文章内容中每个段落的主题含义;
根据每个段落的主题含义,从对应段落所提取出的候选数据中筛选出第一数据。
即,选择出的第一数据应当是与段落的主体含义相关联的。语义分析模型的具体内容,可以是用户根据实际情况进行调整的。候选数据可以是整段的文字,也可以是整句的文字。
步骤S1032,将所述第一数据按照预定的结构化提取方式进行整合,以生成第二中间文件中,主要的作用是将确定出来的第一数据按照预定的规律进行整合,以使第一数据更加适合后续进行处理。
步骤S105的主要作用是将第一数据按照用户期望的形态进行整理,以使整理好的表格形式的数据更易于用户阅读。同时,步骤S105还采用批量操作的策略,将用户进行了关联的数据一次性的都添加到新的表格中,不需要用户再逐个的将第一表格中的数据添加到标准化表格中。
具体而言,如图3所示,步骤S105可以按照如下方式来执行:
S1041,在显示屏的第一区域上显示多个参考标准,以及在第二区域上显示不同的第一数据;第一区域和第二区域是不重叠的区域;
S1042,获取用户的拖拽选择指令;
S1043,若所述拖拽选择指令是将多个第一数据中的一个目标数据拖拽至参考标准中,则目标数据与其他第一数据建立的关联关系,将目标数据,和与目标数据相关联的第一数据添加在标准文件的同一个表格中。
其中,第一区域和第二区域均是显示屏上的区域,且这两个区域不重叠。用户操作的时候,是将第二区域中的第一数据拖到第一区域中的参考标准中,以完成对这个第一数据的选择。具体实现时,每个参考标准均可以是在长方形的方框中展示出来的。
用户的拖拽选择指令可以是通过鼠标下达的,也可以是通过触屏的手势指令下达的。
步骤S1043中,如果拖拽选择指令是将指定的一个第一数据(目标数据)拖拽到参考标准中的话,则将目标数据,和与目标数据相关联的第一数据添加在标准文件的同一个表格中,一般情况下,将目标数据,和与目标数据相关联的第一数据应当在同一个表格的同一列或者是同一行中出现。
具体的,前文中出现的第一数据包括数字数据和约束数字数据适用情况的属性数据。也就是,第一数据共有两种,分别是具体的数值(数字数据)和用来约束数字数据的属性数据(如数值的单位)。
进而,步骤响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联包括两种情况,分别是:
响应于用户的操作,将同一类数字数据进行关联;
响应于用户的操作,将同一类属性数据进行关联。
一般情况下,数字数据只有一类,直接将这一类数字数据进行关联即可。属性数据通常有多类(一般是每一行是一类,或者是每一列是一类)。
优选的,本申请所提供的方法中,还包括:
响应于用户的操作,将标准文件进行展示;
若接收到用户所下达的修改操作,则修改操作对标准文件进行修改;
若接收到用户的下达的保存操作,则将当前标准文件进行保存。
也就是,在用户选择将标准文件进行修改的时候,系统可以自动的进行修改,如果用户认为目前的标准文件是正确的,则可以进行保存操作,则系统可以直接将标准文件进行保存。
下面以一个具体的例子来说明本申请所提供的方法:
步骤1,系统接收PDF版本的标准化文件;
步骤2,用户点击word转化按钮,系统将PDF版本的标准化文件转化为word版本的标准化文件;
步骤3,用户点击结构化按钮,系统将word版本的标准化文件进行结构化,以使word版本中的文字内容(待处理表格)是按照预定的章节排列的;
步骤4,用户标识每个待处理表格归属于哪个章节,以及标识待处理表格的描述对象;
步骤5,用户标识待处理表格中各个数据的关联关系;
步骤6,在用户点击加工待处理表格的按钮后,系统转入到待处理表格加工的界面(如图5所示);
步骤7,用户将图5中下方的一个数据(位于待处理表格中的数据,即图5中灰色的数据)向图5中上方的数据框中进行拖拽,以表示用户要将待处理表格中的一个数据添加到新的标准化表格中;
步骤8,系统响应用户的拖拽操作,将被拖拽的数据,和与被拖拽的数据相关联(步骤5中进行的关联)的数据放在标准化表格的同一列或者同一行中。如图4所示,示出了标准化表格的示例。图4中,第三列,都是试验方法,这些试验方法就是位于待处理表格的同一列中,用户在步骤5中需要将位于待处理表格中的全部“试验方法”都进行关联,这样用户只需要拖拽出一个试验方法,其他的试验方法就可以自动的复制到标准化表格的对应列中了。
与上述方法相对应的,本申请还提供了食品数据处理装置,包括:
获取模块,用于获取PDF格式的食品安全情况标准文件;
识别模块,用于对PDF格式的食品安全情况标准文件进行文字识别,以生成word版本的第一中间文件,所述第一中间文件中每个段落的文字是可以直接读取的;
结构化转化模块,用于对第一中间文件进行结构化转换,以得到第二中间文件;第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的;
关联模块,用于响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联;
生成模块,用于根据用户所下达的拖拽选择指令,将关联的数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件。
优选的,该装置,还包括:
标注模块,用于响应于用户的操作,标注每个第一表格所在的具体章节和每个表格的描述对象;
生成模块包括:
设置单元,用于根据每个第一表格所在的具体章节和每个表格的描述对象,将根据第一表格生成的标准化表格对应的设置在标准文件中指定的位置上。
与上述方法相对应的,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使所述处理器执行前文中所提供的食品数据处理方法。
如图5所示,为本申请实施例所提供的计算设备示意图,该计算设备50包括:处理器51、存储器52和总线53,存储器52存储有执行指令,当计算设备运行时,处理器51与存储器52之间通过总线53通信,处理器51执行存储器52中存储的如食品数据处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.食品数据处理方法,其特征在于,包括:
获取PDF格式的食品安全情况标准文件;
对PDF格式的食品安全情况标准文件进行文字识别,以生成word版本的第一中间文件,所述第一中间文件中每个段落的文字是可以直接读取的;
对第一中间文件进行结构化转换,以得到第二中间文件;第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的;
响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联;
根据用户所下达的拖拽选择指令,将关联的第一数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件,包括:在显示屏的第一区域上显示多个参考标准,以及在第二区域上显示不同的第一数据;第一区域和第二区域是不重叠的区域;获取用户的拖拽选择指令;若所述拖拽选择指令是将多个第一数据中的一个目标数据拖拽至参考标准中,则目标数据与其他第一数据建立的关联关系,将目标数据,和与目标数据相关联的第一数据添加在标准文件的同一个表格中;
所述响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联,包括:
检测所述用户的操作中是否存在用户设置;
若所述用户的操作中不存在用户设置,根据系统历史关联习惯,关联第二中间文件内每个第一表格中指定的第一数据。
2.根据权利要求1所述的方法,其特征在于,还包括如下步骤:
响应于用户的操作,标注每个第一表格所在的具体章节和每个表格的描述对象;
步骤根据用户所下达的拖拽选择指令,将关联的数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件包括:
根据每个第一表格所在的具体章节和每个表格的描述对象,将根据第一表格生成的标准化表格对应的设置在标准文件中指定的位置上。
3.根据权利要求2所述的方法,其特征在于,步骤对第一中间文件进行结构化转换,以得到第二中间文件包括:
分别对每个章节所对应的文章内容进行语义识别,以生成每个章节所对应的第一数据;
将所述第一数据按照预定的结构化提取方式进行整合,以生成第二中间文件。
4.根据权利要求3所述的方法,其特征在于,步骤分别对每个章节所对应的文章内容进行语义识别,以生成每个章节所对应的第一数据包括:
使用通用基本语义分析模型,提取目录级别所对应的文章内容中的候选数据;
使用优化语义分析模型,分析文章内容中每个段落的主题含义;
根据每个段落的主题含义,从对应段落所提取出的候选数据中筛选出第一数据。
5.根据权利要求1所述的方法,其特征在于,
第一数据包括数字数据和约束数字数据适用情况的属性数据。
6.根据权利要求5所述的方法,其特征在于,步骤响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联包括:
响应于用户的操作,将同一类数字数据进行关联;
响应于用户的操作,将同一类属性数据进行关联。
7.根据权利要求1所述的方法,其特征在于,还包括:
响应于用户的操作,将标准文件进行展示;
若接收到用户所下达的修改操作,则修改操作对标准文件进行修改;
若接收到用户的下达的保存操作,则将当前标准文件进行保存。
8.食品数据处理装置,其特征在于,包括:
获取模块,用于获取PDF格式的食品安全情况标准文件;
识别模块,用于对PDF格式的食品安全情况标准文件进行文字识别,以生成word版本的第一中间文件,所述第一中间文件中每个段落的文字是可以直接读取的;
结构化转化模块,用于对第一中间文件进行结构化转换,以得到第二中间文件;第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的;
关联模块,用于响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联;
生成模块,用于根据用户所下达的拖拽选择指令,将关联的数据批量添加至标准化表格中对应的位置,以生成表格形式的标准文件,包括:在显示屏的第一区域上显示多个参考标准,以及在第二区域上显示不同的第一数据;第一区域和第二区域是不重叠的区域;获取用户的拖拽选择指令;若所述拖拽选择指令是将多个第一数据中的一个目标数据拖拽至参考标准中,则目标数据与其他第一数据建立的关联关系,将目标数据,和与目标数据相关联的第一数据添加在标准文件的同一个表格中;
所述关联模块在用于响应于用户的操作,将第二中间文件内每个第一表格中指定的第一数据进行关联时,包括:
检测所述用户的操作中是否存在用户设置;
若所述用户的操作中不存在用户设置,根据系统历史关联习惯,关联第二中间文件内每个第一表格中指定的第一数据。
9.根据权利要求8所述的装置,其特征在于,还包括:
标注模块,用于响应于用户的操作,标注每个第一表格所在的具体章节和每个表格的描述对象;
生成模块包括:
设置单元,用于根据每个第一表格所在的具体章节和每个表格的描述对象,将根据第一表格生成的标准化表格对应的设置在标准文件中指定的位置上。
CN201810996834.0A 2018-08-29 2018-08-29 食品数据处理方法及装置 Active CN109086260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810996834.0A CN109086260B (zh) 2018-08-29 2018-08-29 食品数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810996834.0A CN109086260B (zh) 2018-08-29 2018-08-29 食品数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN109086260A CN109086260A (zh) 2018-12-25
CN109086260B true CN109086260B (zh) 2020-01-14

Family

ID=64795077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810996834.0A Active CN109086260B (zh) 2018-08-29 2018-08-29 食品数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN109086260B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276390B (zh) * 2019-06-14 2022-09-16 六盘水市食品药品检验检测所 一种第三方食品检测机构综合信息处理系统及方法
CN113435701B (zh) * 2021-05-28 2022-05-31 消费者报道杂志社有限公司 一种消费品质量信息的处理方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823882A (zh) * 2014-03-03 2014-05-28 深圳市百能信息技术有限公司 一种自动审核pcb工程文件的方法及系统
US20160140145A1 (en) * 2014-11-13 2016-05-19 International Business Machines Corporation Extracting information from PDF Documents using Black-Box Image Processing
CN106776515B (zh) * 2016-12-16 2020-02-18 刘立 数据处理的方法及装置
CN106951399B (zh) * 2017-03-23 2020-05-19 北京捷成世纪科技股份有限公司 一种快速生成onix标准文件的方法及装置

Also Published As

Publication number Publication date
CN109086260A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
US9501540B2 (en) Interactive visualization of big data sets and models including textual data
US9449031B2 (en) Sorting and filtering a table with image data and symbolic data in a single cell
US9740995B2 (en) Coordinate-based document processing and data entry system and method
JP6379520B2 (ja) 処理方法、処理システム及びコンピュータプログラム
US10083163B2 (en) Completing fields in electronic documents by automatically assigning drawing input
CN105631393A (zh) 信息识别方法及装置
WO2016023424A1 (zh) 一种用于屏幕显示设备的文字编辑方法及装置
US11341319B2 (en) Visual data mapping
US10713417B2 (en) Contextual font filtering in a digital medium environment
CN101430758A (zh) 文档识别装置和方法
CN107977155B (zh) 一种手写识别方法、装置、设备和存储介质
JP6237168B2 (ja) 情報処理装置及び情報処理プログラム
CN109086260B (zh) 食品数据处理方法及装置
CN110413979A (zh) 基于图像识别技术的行业表格数字化处理方法
CN110413765B (zh) 一种海量数据集分析和展示的交互式系统及其方法
CN114359533A (zh) 一种基于页面文本的页码识别方法和计算机设备
CN113626441A (zh) 基于扫描设备的文本管理方法、装置、设备以及存储介质
CN114155547B (zh) 一种图表识别方法、装置、设备及存储介质
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN112329409A (zh) 一种单元格颜色转换方法、装置及电子设备
CN115546815A (zh) 一种表格识别方法、装置、设备及存储介质
CN114548040A (zh) 笔记处理方法、电子设备及存储介质
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
US7693899B2 (en) Method, system, and computer program product for constructing a query with a graphical user interface
CN112036569B (zh) 知识内容的标注方法、装置、计算机装置和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant