CN109086260B

CN109086260B - 食品数据处理方法及装置

Info

Publication number: CN109086260B
Application number: CN201810996834.0A
Authority: CN
Inventors: 田方; 甘克勤; 汪滨
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2020-01-14
Anticipated expiration: 2038-08-29
Also published as: CN109086260A

Abstract

本发明提供了食品数据处理方法及装置，涉及食品生产领域。本发明提供的食品数据处理方法，在获取到PDF格式的食品生产标准文件后，对该文件进行了文字识别，之后又对识别结果进行结构化转换，得到了第二中间文件；其中，第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的；再后，响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联，最后，根据用户所下达的拖拽选择指令，将关联的第一数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件。该种处理食品数据的方式，系统可以自动的在用户的配合下完成标准文件的生成，提高了表格生成的效率。

Description

食品数据处理方法及装置

技术领域

本发明涉及食品生产领域，具体而言，涉及食品数据处理方法及装置。

背景技术

近些年，由于人们食品安全问题越来越重视，为了准确的解决食品安全问题，人们通常会对各种食品数据进行统计分析，并根据统计分析的结果寻求解决方案。

收集食品数据是对食品数据进行统计分析的前提。某些对数据有指定要求的单位，其提供的文件均是图片格式，具体的，比如是PDF格式。接收这些数据的单位的工作人员，则需要手动的将这些数据填写到预定的标准化表格中，这使得填写过程耗时严重。

发明内容

本发明的目的在于提供食品数据处理方法及装置。

第一方面，本发明实施例提供了食品数据处理方法，包括：

获取PDF格式的食品安全情况标准文件；

对PDF格式的食品安全情况标准文件进行文字识别，以生成word版本的第一中间文件，所述第一中间文件中每个段落的文字是可以直接读取的；

对第一中间文件进行结构化转换，以得到第二中间文件；第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的；

响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联；

根据用户所下达的拖拽选择指令，将关联的第一数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件。

优选的，该方法还包括如下步骤：

响应于用户的操作，标注每个第一表格所在的具体章节和每个表格的描述对象；

步骤根据用户所下达的拖拽选择指令，将关联的数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件包括：根据每个第一表格所在的具体章节和每个表格的描述对象，将根据第一表格生成的标准化表格对应的设置在标准文件中指定的位置上。

优选的，步骤对第一中间文件进行结构化转换，以得到第二中间文件包括：

分别对每个章节所对应的文章内容进行语义识别，以生成每个章节所对应的第一数据；

将所述第一数据按照预定的结构化提取方式进行整合，以生成第二中间文件。

优选的，步骤分别对每个章节所对应的文章内容进行语义识别，以生成每个章节所对应的第一数据包括：

使用通用基本语义分析模型，提取目录级别所对应的文章内容中的候选数据；

使用优化语义分析模型，分析文章内容中每个段落的主题含义；

根据每个段落的主题含义，从对应段落所提取出的候选数据中筛选出第一数据。

优选的，步骤根据用户所下达的拖拽选择指令，将关联的数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件包括：

在显示屏的第一区域上显示多个参考标准，以及在第二区域上显示不同的第一数据；第一区域和第二区域是不重叠的区域；

获取用户的拖拽选择指令；

若所述拖拽选择指令是将多个第一数据中的一个目标数据拖拽至参考标准中，则目标数据与其他第一数据建立的关联关系，将目标数据，和与目标数据相关联的第一数据添加在标准文件的同一个表格中。

优选的，第一数据包括数字数据和约束数字数据适用情况的属性数据。

优选的，步骤响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联包括：

响应于用户的操作，将同一类数字数据进行关联；

响应于用户的操作，将同一类属性数据进行关联。

优选的，该方法还包括：

响应于用户的操作，将标准文件进行展示；

若接收到用户所下达的修改操作，则修改操作对标准文件进行修改；

若接收到用户的下达的保存操作，则将当前标准文件进行保存。

第二方面，本发明实施例还提供了食品数据处理装置，包括：

获取模块，用于获取PDF格式的食品安全情况标准文件；

识别模块，用于对PDF格式的食品安全情况标准文件进行文字识别，以生成word版本的第一中间文件，所述第一中间文件中每个段落的文字是可以直接读取的；

结构化转化模块，用于对第一中间文件进行结构化转换，以得到第二中间文件；第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的；

关联模块，用于响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联；

生成模块，用于根据用户所下达的拖拽选择指令，将关联的数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件。

优选的，该装置还包括：

标注模块，用于响应于用户的操作，标注每个第一表格所在的具体章节和每个表格的描述对象；

生成模块包括：

设置单元，用于根据每个第一表格所在的具体章节和每个表格的描述对象，将根据第一表格生成的标准化表格对应的设置在标准文件中指定的位置上。

本发明实施例提供的食品数据处理方法，在获取到PDF格式的食品安全情况标准文件后，对该文件进行了文字识别，来生成了能够直接读取文字的第一中间文件，之后，对第一中间文件进行结构化转换，以得到第二中间文件；其中，第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的；再后，响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联，最后，根据用户所下达的拖拽选择指令，将关联的第一数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件。该种处理食品数据的方式，避免了用户手动输入每个第一数据，系统可以自动的在用户的配合下完成标准文件的生成，提高了表格生成的效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的食品数据处理方法的基本流程图；

图2示出了本发明实施例所提供的食品数据处理方法的第一个优化流程图；

图3示出了本发明实施例所提供的食品数据处理方法的第二个优化流程图；

图4示出了本发明实施例所提供的食品数据处理方法中标准化表格的示意图；

图5示出了本发明实施例所提供的计算设备的示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，在食品安全防治领域，为了达到某些目的，会将某些数据以图片的形式保存，比如会将食品安全情况的标准说明文件以图片的形式进行保存。其他单位的工作人员在接收到这种图片形式的文件后，需要将该种文件中的内容录入到表格化的文件中，比如录入到excel表中，进而，相应的工作人员可以更加方便的看到对应的标准化数据。

具体而言，图片形式的文件中记录有分章节的说明性文字，比如，该文件中分有多个章节，每个章节中记录有介绍标准的说明性文字、图表和表格。接收到该种文件的工作人员需要将说明性文字、图表和表格录入到对应的excel表中。这就需要工作人员先阅读该文件中的全部文字，再自主的学习该文件中的内容，最后再手动的将需要的信息录入到excel表中，这导致导入到excel表中的耗时过长。

针对上述情况，本申请提供了一种食品数据处理方法，如图1所示，包括如下步骤：

S101，获取PDF格式的食品安全情况标准文件；

S102，对PDF格式的食品安全情况标准文件进行文字识别，以生成word版本的第一中间文件，所述第一中间文件中每个段落的文字是可以直接读取的；

S103，对第一中间文件进行结构化转换，以得到第二中间文件；第二中间文件中的文字内容是按照预设的结构化规则分布在不同的章节中的；

S104，响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联；

S105，根据用户所下达的拖拽选择指令，将关联的第一数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件。

其中，PDF格式的食品安全情况标准文件通常是由上级单位提供的无法直接读取每个段落中文字的文件，该种文件通常是以图片形式存在的。

步骤S102中，文字识别的主要目的是将图片化的文字转化为系统能够直接识别/读取的文字。步骤S103中，主要是为建立表格式的标准文件提供基础，由于在同一个食品安全情况标准文件通常是分为多个章节的，每个章节中所描述的内容，或方向是有所差别的，因此，应当针对不同的章节或者是段落进行第一数据的提取，也就是，第二中间文件中有按照与分级目录相对应的结构化标准规则进行记录的第一数据，具体而言，第二中间文件中就是按照预设的方式将第一中间文件中的文字内容进行了格式化处理，以使第一中间文件中的文字内容分别放在了不同的章节中。

步骤S104中，主要是将指定的数据进行关联，进行关联的数据通常是同一行或者是同一列的，用户在具体操作的时候可以通过点击表格某个行头或者是列头来将这一行或者是这一列的数据进行全选，而后，再将选择出来的数据进行关联。将数据进行关联的主要目的是便于之后批量化的操作。当然，为了提高系统整体的自动化程度，也可以是在用户点击了自动关联的选项之后，系统自动的将每一列的数据进行关联，或者是系统自动的将每一行的数据进行关联。具体系统是将某一行数据进行关联还是将某一列数据进行关联可以是根据用户的设置而确定的，或者是系统根据之前关联的习惯来确定的。如用户在近期都是将某一整列的数据进行关联，则系统可以确定用户的习惯为进行整列关联，进而，在执行步骤S104的时候，如果用户选择一键关联，系统就可以直接将每一列数据进行关联了。

步骤S105中，用户可以以拖拽的方式，将第二中间文件中相关联的第一数据批量添加至标准化表格中对应的位置，从而形成表格形式的标准文件。

具体的，为了提高整体的效率，本申请所提供的方法还包括如下步骤：

步骤根据用户所下达的拖拽选择指令，将关联的数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件包括：

根据每个第一表格所在的具体章节和每个表格的描述对象，将根据第一表格生成的标准化表格对应的设置在标准文件中指定的位置上。

也就是，用户需要为每个第一表格进行标注，标注出每一个表格所在的章节，以及每一个表格的描述对象(如该表格是用来描述液体饮料含糖量的)。

而后，在生成标准文件的时候，系统也会根据章节的位置和描述对象将生成的标准化表格放在对应的位置上。

进一步，步骤S103，如图2所示，可以包括如下步骤：

S1031，分别对每个章节所对应的文章内容进行语义识别，以生成每个章节所对应的第一数据；

S1032，将所述第一数据按照预定的结构化提取方式进行整合，以生成第二中间文件。

其中，语义识别的目的是在于从大段的文字中筛选出有效的文字，比如某一段文字中可能出现多个和第一数据有关的词语，但这些词语并不是都能够作为标准词语的，因此，首选需要确定第一数据，之后，根据第一数据之间的关联关系，以及第一数据在其所在段落的含义(某一个段落的含义能够确定出来该段落想要表达的中心思想)进而，根据分析出来的中心思想来从第一数据中确定出第一数据。

也就是，步骤S1031可以按照如下方式实现：

即，选择出的第一数据应当是与段落的主体含义相关联的。语义分析模型的具体内容，可以是用户根据实际情况进行调整的。候选数据可以是整段的文字，也可以是整句的文字。

步骤S1032，将所述第一数据按照预定的结构化提取方式进行整合，以生成第二中间文件中，主要的作用是将确定出来的第一数据按照预定的规律进行整合，以使第一数据更加适合后续进行处理。

步骤S105的主要作用是将第一数据按照用户期望的形态进行整理，以使整理好的表格形式的数据更易于用户阅读。同时，步骤S105还采用批量操作的策略，将用户进行了关联的数据一次性的都添加到新的表格中，不需要用户再逐个的将第一表格中的数据添加到标准化表格中。

具体而言，如图3所示，步骤S105可以按照如下方式来执行：

S1041，在显示屏的第一区域上显示多个参考标准，以及在第二区域上显示不同的第一数据；第一区域和第二区域是不重叠的区域；

S1042，获取用户的拖拽选择指令；

S1043，若所述拖拽选择指令是将多个第一数据中的一个目标数据拖拽至参考标准中，则目标数据与其他第一数据建立的关联关系，将目标数据，和与目标数据相关联的第一数据添加在标准文件的同一个表格中。

其中，第一区域和第二区域均是显示屏上的区域，且这两个区域不重叠。用户操作的时候，是将第二区域中的第一数据拖到第一区域中的参考标准中，以完成对这个第一数据的选择。具体实现时，每个参考标准均可以是在长方形的方框中展示出来的。

用户的拖拽选择指令可以是通过鼠标下达的，也可以是通过触屏的手势指令下达的。

步骤S1043中，如果拖拽选择指令是将指定的一个第一数据(目标数据)拖拽到参考标准中的话，则将目标数据，和与目标数据相关联的第一数据添加在标准文件的同一个表格中，一般情况下，将目标数据，和与目标数据相关联的第一数据应当在同一个表格的同一列或者是同一行中出现。

具体的，前文中出现的第一数据包括数字数据和约束数字数据适用情况的属性数据。也就是，第一数据共有两种，分别是具体的数值(数字数据)和用来约束数字数据的属性数据(如数值的单位)。

进而，步骤响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联包括两种情况，分别是：

响应于用户的操作，将同一类数字数据进行关联；

响应于用户的操作，将同一类属性数据进行关联。

一般情况下，数字数据只有一类，直接将这一类数字数据进行关联即可。属性数据通常有多类(一般是每一行是一类，或者是每一列是一类)。

优选的，本申请所提供的方法中，还包括：

响应于用户的操作，将标准文件进行展示；

也就是，在用户选择将标准文件进行修改的时候，系统可以自动的进行修改，如果用户认为目前的标准文件是正确的，则可以进行保存操作，则系统可以直接将标准文件进行保存。

下面以一个具体的例子来说明本申请所提供的方法：

步骤1，系统接收PDF版本的标准化文件；

步骤2，用户点击word转化按钮，系统将PDF版本的标准化文件转化为word版本的标准化文件；

步骤3，用户点击结构化按钮，系统将word版本的标准化文件进行结构化，以使word版本中的文字内容(待处理表格)是按照预定的章节排列的；

步骤4，用户标识每个待处理表格归属于哪个章节，以及标识待处理表格的描述对象；

步骤5，用户标识待处理表格中各个数据的关联关系；

步骤6，在用户点击加工待处理表格的按钮后，系统转入到待处理表格加工的界面(如图5所示)；

步骤7，用户将图5中下方的一个数据(位于待处理表格中的数据，即图5中灰色的数据)向图5中上方的数据框中进行拖拽，以表示用户要将待处理表格中的一个数据添加到新的标准化表格中；

步骤8，系统响应用户的拖拽操作，将被拖拽的数据，和与被拖拽的数据相关联(步骤5中进行的关联)的数据放在标准化表格的同一列或者同一行中。如图4所示，示出了标准化表格的示例。图4中，第三列，都是试验方法，这些试验方法就是位于待处理表格的同一列中，用户在步骤5中需要将位于待处理表格中的全部“试验方法”都进行关联，这样用户只需要拖拽出一个试验方法，其他的试验方法就可以自动的复制到标准化表格的对应列中了。

与上述方法相对应的，本申请还提供了食品数据处理装置，包括：

获取模块，用于获取PDF格式的食品安全情况标准文件；

优选的，该装置，还包括：

生成模块包括：

与上述方法相对应的，本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使所述处理器执行前文中所提供的食品数据处理方法。

如图5所示，为本申请实施例所提供的计算设备示意图，该计算设备50包括：处理器51、存储器52和总线53，存储器52存储有执行指令，当计算设备运行时，处理器51与存储器52之间通过总线53通信，处理器51执行存储器52中存储的如食品数据处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.食品数据处理方法，其特征在于，包括：

获取PDF格式的食品安全情况标准文件；

根据用户所下达的拖拽选择指令，将关联的第一数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件,包括：在显示屏的第一区域上显示多个参考标准，以及在第二区域上显示不同的第一数据；第一区域和第二区域是不重叠的区域；获取用户的拖拽选择指令；若所述拖拽选择指令是将多个第一数据中的一个目标数据拖拽至参考标准中，则目标数据与其他第一数据建立的关联关系，将目标数据，和与目标数据相关联的第一数据添加在标准文件的同一个表格中；

所述响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联，包括：

检测所述用户的操作中是否存在用户设置；

若所述用户的操作中不存在用户设置，根据系统历史关联习惯，关联第二中间文件内每个第一表格中指定的第一数据。

2.根据权利要求1所述的方法，其特征在于，还包括如下步骤：

3.根据权利要求2所述的方法，其特征在于，步骤对第一中间文件进行结构化转换，以得到第二中间文件包括：

4.根据权利要求3所述的方法，其特征在于，步骤分别对每个章节所对应的文章内容进行语义识别，以生成每个章节所对应的第一数据包括：

5.根据权利要求1所述的方法，其特征在于，

第一数据包括数字数据和约束数字数据适用情况的属性数据。

6.根据权利要求5所述的方法，其特征在于，步骤响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联包括：

响应于用户的操作，将同一类数字数据进行关联；

响应于用户的操作，将同一类属性数据进行关联。

7.根据权利要求1所述的方法，其特征在于，还包括：

响应于用户的操作，将标准文件进行展示；

8.食品数据处理装置，其特征在于，包括：

获取模块，用于获取PDF格式的食品安全情况标准文件；

生成模块，用于根据用户所下达的拖拽选择指令，将关联的数据批量添加至标准化表格中对应的位置，以生成表格形式的标准文件，包括：在显示屏的第一区域上显示多个参考标准，以及在第二区域上显示不同的第一数据；第一区域和第二区域是不重叠的区域；获取用户的拖拽选择指令；若所述拖拽选择指令是将多个第一数据中的一个目标数据拖拽至参考标准中，则目标数据与其他第一数据建立的关联关系，将目标数据，和与目标数据相关联的第一数据添加在标准文件的同一个表格中；

所述关联模块在用于响应于用户的操作，将第二中间文件内每个第一表格中指定的第一数据进行关联时，包括：

检测所述用户的操作中是否存在用户设置；

9.根据权利要求8所述的装置，其特征在于，还包括：

生成模块包括：