CN112784549B

CN112784549B - 一种生成图表的方法、装置、及存储介质

Info

Publication number: CN112784549B
Application number: CN201911088540.9A
Authority: CN
Inventors: 辛洋; 苏奕虹; 皮霞林
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2024-01-26
Anticipated expiration: 2039-11-08
Also published as: CN112784549A

Abstract

一种生成图表的方法，包括获取当前表格中用于生成图表的表格数据；确定所获取的表格数据的表格方向并获得预定方向的表格数据；根据所获得的预定方向的表格数据识别表格结构并获取表格内容；根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表。本申请能够自动向用户推荐图表，减少用户反复的修改操作，从而提升图表生成效率。

Description

一种生成图表的方法、装置、及存储介质

技术领域

本文涉及计算机技术，尤指一种生成图表的方法、装置、及存储介质。

背景技术

图表能将表格数据以可视化的方式展示，因此在办公中扮演重要角色。其中，图表包括两部分：图像区域和标签区域，图像区域中的图像基于系列值数据列绘制，标签区域中的标签基于类别数据列命名，系列值数据列和类别数据列为从待生成图表的表格数据的各列中所确定的。同时，图表的类型分为柱形图、折线图、散点图、饼图等，系列值数据列数目和类别数据列内数据的类型的不同会导致适合绘制的图表类型不同。比如：系列值数据列数大于一，则该表格数据不适合绘制饼图；类别数据列内数据为数字类型，则该表格数据适合绘制散点图。

现有技术中，在生成图表时，用户选中所需的图表类型，表格处理客户端按照用户所选中的图表类型，生成表格数据对应的图表。具体的，生成表格数据对应的图表时，表格处理客户端按照与所选中图表类型相对应的列确定方式，从表格数据的各列中确定系列值数据列和类别数据列，进而，利用所确定的系列值数据列和类别数据列，生成表格数据的图表。

但是，表格数据存在多列时，适合做系列值数据列和类别数据列的列并不是固定的列，同时，不同的表格数据所适用于的图表类型也可能不同，这样导致用户通过选中图表类型所形成的图表经常不符合用户所需的展示效果。而为了达到用户所需的展示效果，用户需要通过反复修改数据源并尝试各种不同图表类型，无疑导致图表生成的效率较低。如图1所示的表格数据，用户选择该表格区域的第4行为表格的每列标题，第5-36行为对应标题的表格内容。当插入图表时，结果如下图2所示，该图表效果并非用户想要的，需要经过修改表格选区、添加删除系列、修改系列值、修改系列类别等一系列繁琐的操作，才能达到用户想要的效果。

发明内容

本申请提供了一种生成图表的方法、装置、及存储介质，能够自动向用户推荐图表，减少用户反复的修改操作，从而提升图表生成效率的目的。

本申请提供了一种生成图表的方法，包括当接收到针对当前表格建立图表的指令后，获取当前表格中用于生成图表的表格数据；确定所获取的表格数据的表格方向并获得预定方向的表格数据；根据所获得的预定方向的表格数据识别表格结构并获取表格内容；所述表格结构包括表格内容；根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表。

在一个示例性实施例中，上述获取当前表格中用于生成图表的表格数据，包括：获取用户在当前表格中选中的表格数据，确定所获取的用户在当前表格中选中的表格数据的区域大小为：m*n,其中m为行数，n为列数；当用户在当前表格中选中的表格数据为单个区域时，并且当所述区域的行数等于1并且列数等于1时，对所获取的用户在当前表格中选中的表格数据的单元格进行扩展，获取上下左右均不为连续空白行列的区域，作为所述当前表格中用于生成图表的表格数据；当用户在当前表格中选中的表格数据为单个区域时，并且当所述区域的行数大于1和/或列数大于1时，将获取的用户在表格中选中的表格数据作为所述当前表格中用于生成图表的表格数据；当用户在当前表格中选中的表格数据包括多个区域时，且所述多个区域的行数相同或者列数相同，则合并所述多个区域的表格数据，作为所述当前表格中用于生成图表的表格数据。

在一个示例性实施例中，上述述确定所获取的当前表格中用于生成图表的表格数据的表格方向并获得预定方向的表格数据，包括：获取所述表格数据的行数和列数，根据所获取的行数和列数确定截取的数据区域；根据所截取的数据区域，确定相似行数和相似列数；将所获取的表格数据的行数和列数，及确定的相似行数和相似列数输入预先生成的第一随机森林模型以确定所述表格数据的表格方向；判断所述表格数据的表格方向是否为预定方向的表格数据，当所述表格数据的表格方向不是预定方向，将所述表格数据转换成预定方向的表格数据；当所述表格数据的表格方向为预定方向的表格数据时，将所述表格数据作为预定方向的表格数据。

在一个示例性实施例中，上述根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表，包括：根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列；分别获取每一所述系列值数据列预定的第一特征值和每一所述类别数据列的预定的第二特征值；针对每一所述类别数据列，分别进行如下操作：基于该类别数据列的预定的第一特征值和一个或者多个所述系列值数据列的预定的第二特征值，确定以该类别数据列和一个或者多个所述系列值数据列生成图表时，对于每个预定图表类型的推荐结果；基于所确定的推荐结果，生成所述表格数据的图表。

在一个示例性实施例中，上述根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，包括：按照预定顺序遍历所述表格数据的每个数据列，将为纯数值的数据列确定为系列值数据列，并将首个被确定出的系列值数据列所在位置之前的数据列作为类别数据列；当所述首个被确定出的系列值数据列所在位置之前无数据列时，在所述首个被确定出的系列值数据列所在位置之前补充至少一列数据列作为类别数据列；所补充的列数据列中单元格的内容包括对所确定的系列值数据列的单元格的内容的标识；或者，当所述表格数据的列数为两列时，将第一列数据列确定为类别数据列，并将第二列数据列确定为系列值数据列。

在一个示例性实施例中，上述预定的第一特征值包括：数据类型、最长单元格字符个数、最长包含中文或英文的单元格字符个数、非空单元格的个数、仅数字且比整列平均值大的单元格个数、仅数字且比整列平均值的一半小的单元格个数；预定的第二特征值包括：数据类型、最长单元格字符个数、整列仅数字且相加是否为特定值、整列仅数字且是否为递减序列、整列仅数字且是否为递增序列。

在一个示例性实施例中，上述根据所获得的预定方向的表格数据识别表格结构并获取表格内容，包括：获得的预定方向的表格数据中的单元格内容的内容类型；根据所获得的内容类型确定相邻行的相似度，将相似度大于预定阈值的相邻行识别为相似行，合并识别出的相似行；获取将相似行进行合并后的表格数据的行目录；遍历所述行目录获取预定的第三特征值并输入预先生成的第二随机森林模型以确定表格结构；所述表格结构包括表格内容，获取所述表格内容。

本申请还一种生成图表的装置，所述装置包括：获取模块，用于当接收到针对当前表格建立图表的指令后，获取当前表格中用于生成图表的表格数据；确定模块，用于确定所获取的表格数据的表格方向并获得预定方向的表格数据；识别模块，用于根据所获得的预定方向的表格数据识别表格结构并获取表格内容；所述表格结构包括表格内容；图表生成模块，用于根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表。

本申请还提供一种定向投放内容的装置，包括处理器和存储器，所述存储器中存储有用于定向投放内容的程序；所述处理器用于读取所述用于定向投放内容的程序，执行上述方法。

本申请还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。

与相关技术相比，本申请能够帮助用户处理和分析数据，自动向用户推荐图表，减少用户反复的修改操作，从而提升图表生成效率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限。

图1为对现有技术生成图表的示例性表格数据图；

图2为采用现有技术对图1示例性表格数据生成图表结果图；

图3为本申请生成图表的方法流程图；

图4为本申请实施例一表格数据图；

图5为本申请实施例一表格数据选中区域、扩展区域结果；

图6为本申请实施例一智能推荐最优图表结果图；

图7为本申请实施例二表格数据和选中区域图；

图8为本申请实施例二智能推荐最优图表结果图；

图9为本申请生成图表的装置模块图；

图10为本申请确定表格方向的方法流出图；

图11为本申请识别表格结构的方法流出图；

图12为本申请生成图表的具体方法流程图。

具体实施方式

本申请描述了至少一个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

下面将结合附图及实施例对本申请的技术方案进行更详细的说明。

如图3所示，本发明实施例提供一种生成图表的方法，包括如下步骤：

S101、当接收到针对当前表格建立图表指令后，获取当前表格中用于生成图表的表格数据；

S102、确定所获取的表格数据的表格方向并获得的预定方向的表格数据；

S103、根据所获得的预定方向的表格数据识别表格结构并获取表格内容；所述表格结构包括表格内容；

S104、根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表。

在一个示例性实施例中，采用Microsoft Office Excel工作表中的数据作为表格数据列的来源。

在一个示例性实施例中，步骤S101中，建立图表指令，可以是Microsoft OfficeExcel工作表中的预先设定的选项，当点击该选项，则触发建立图表；也可以是当用户选中数据列时自动提示图表。

在一个示例性实施例中，步骤S101中，获取的当前表格中用于生成图表的表格数据，其中用于生成图表的表格数据可以是用户直接选择的数据列，也可以是利用直接选择的数据经过处理的数据，例如删减或者扩展后得到的数据列。

在一个示例性实施例中，步骤S101，所获取当前表格中被选中的数据列，包括：获取用户在表格中选中的数据列，确定获取的用户在表格中选中的数据列的区域大小：m*n,其中m为行数，n为列数。

在一个示例性实施例中，当获取用户在表格中选中的数据列的行数等于1并且列数等于1时，对获取的用户在表格中选中的数据列的单元格进行扩展，获取到上下左右均不为连续空白行列的区域，作为所述当前表格中用于生成图表的表格数据。

当获取用户在表格中选中的数据列的行数大于1和/或列数大于1时，将获取的用户在表格中选中的数据列作为所述当前表格中用于生成图表的表格数据。

当用户在当前表格中选中的表格数据包括多个区域时，且所述多个区域的行数相同或者列数相同，则合并所述多个区域的表格数据，作为所述当前表格中用于生成图表的表格数据。

如图4所示，本发明实施例一的表格数据，当用户选择的生成图表的选区为单元格(1,5)。扩展选区为[(1,1),(7,9)]，如图5所示。

在一个示例性实施例中，当用户在当前表格中选中的表格数据包括多个区域时，当所述多个区域的行数相同或者列数相同，则合并所述多个区域的表格数据，作为当前表格中用于生成图表的表格数据。具体的，当选区为多个选区，选区表示为columnCount*rowCount，如果多个区域的columnCount相同或者rowCount相同，则合并多个区域的表格数据，作为推荐图表的表格数据，否则返回，提示无法推荐图表。

在一个示例性实施例中，步骤S102中，确定所获取的当前表格中用于生成图表的表格数据的表格方向并获得预定方向的表格数据，包括：

S1021、获取所述表格数据的行数和列数，根据所获取的行数和列数确定截取的数据区域；

如图10所示，示例性的，获取的表格数据的行个数为RowCount、列个数为ColumnCount，从表格数据左上角截取最小的正方形区域，截取区域的长度为minLength＝min(RowCount,ColumnCount,10)。在一个示例性实施例中，截取区域的长度为minLength＝min(RowCount,ColumnCount,10)。示例性的，假设是15行7列，取小的那个数字，即7，再看这个数字是否大于10，如果大于10则直接取10，这里是7小于10，则直接取7。

S1022、根据所截取的数据区域，确定相似行数和相似列数；

如图10所示，示例性的，将截取区域的newTable中每个单元格内容转换成内容类型，其中类型包括中文、英文、数字、日期、时间等。遍历newTable中截取区域的长度minLength行，根据行相似度合并连续相似的行，作为Rows，每个Rows至少包含一个行，最终得到Rows的序列，Rows的序列的个数为similarRowCount。遍历newTable中的minLength列，根据列相似度合并连续相似的列，作为Columns，每个Columns至少包含一个列，最终得到Columns的序列，Rows的序列的个数similarColumnCount。

S1023、将所获取的表格数据的行数和列数，及确定的相似行数和相似列数输入预先生成的第一随机森林模型以确定所述表格数据的表格方向；

如图10所示，示例性的，根据RowCount、ColumnCount、similarRowCount、similarColumnCount以及第一随机森林模型计算得到系列方向。示例性的，系列方向有：按行、按列。

如图4所示，本申请实施例一的表格数据，选区为(1,5)，扩展选区为[(1,1),(7,9)]，min(7,9,10)＝7，故截取左上角7行7列的区域[(1,1),(7,7)]进行相似行压缩。根据单元格内容，按行压缩得到4行，按列压缩得到5列，故RowCount＝9、ColumnCount＝7、similarRowCount＝4、similarColumnCount＝5。输入第一随机森林模型得到结果按列。

如图7所示，本申请实施例二的表格数据选区为(1,2)，扩展选区为[(1,1),(2,7)]，min(2,7,10)＝2，故截取左上角2行2列的区域[(1,1),(2,2)]进行相似行压缩。根据单元格内容，按行压缩得到1行，按列压缩得到1列，故RowCount＝2、ColumnCount＝7、similarRowCount＝1、similarColumnCount＝1。输入第一随机森林模型得到结果按行。

S1024、判断所述表格数据的表格方向是否为预定方向的表格数据，当所述表格数据的表格方向不是预定方向，将所述表格数据转换成预定方向的表格数据。当所述表格数据的表格方向为预定方向的表格数据时，将其作为预定方向的表格数据。示例性的，转换表格方向可以通过将第一行按从左到右的顺序依次将每个单元格的内容按从上到下的顺序填写到新表格中的第一列，第二至第N行重复相同操作填写入新表格中的第二至第N列。

在一个示例性实施例中，步骤S103中，根据所获得的预定方向的表格数据识别表格结构并获取表格内容，包括：

S1031、获得所述预定方向的表格数据中的每个单元格内容的内容类型；

在一个示例性实施例中，遍历表格数据的每个单元格，转化该选区中每个单元格内容类型，其中内容类型包括中文、英文、时间、日期、数字、字号等。

S1032、根据所获取的内容类型确定相邻行的相似度；将相似度大于预定阈值的相邻行识别为相似行，合并识别出的相似行；获取将相似行进行合并后的合并行目录；示例性的，判断相似行通过将两个表格行对应单元格的内容所包含的类型进行比较，将差异量化成一个数字，统计这些数字来表示两个表格行的相似度，再设置一个阈值来判断这两行是否为相似行。列也是相同操作。

如图11所示，一个示例性实施例，首先判断是否为合并单元格，遍历表格中每个单元格，把合并的单元格里面的内容平铺到每个列中，最终得到每行的单元格数都一样的表格。遍历表格中的每行，计算当前行和下一行的相似度。示例性的，根据当前行的每个单元格和下一行对应单元格的内容所包含的类型差异计算相似度，具体比如：如果当前行单元格与下一行单元格都包含中文，则认为是相似的；否则当前行单元格所包含的类型中下一行单元格不包含的个数+下一行单元格所包含的类型中当前行单元格不包含的个数/max(当前行单元格所包含的类型数,下一行单元格所包含的类型数)，得到一个数值，设置一个阈值，比如说大于0.5则认为两个单元格不相似。最终再计算整行的相似度，比如说相似单元格个数/整行单元格个数，判断是否合并，得到Rows结构，每个Rows中至少包含1个表格行，最终得到Rows的数组行目录RowsList。

S1033、遍历所述行目录获取预定的第三特征值输入第二随机森林模型确定表格结构；所述表格结构包括表格内容，获取所述表格内容。

遍历RowsList，转化Rows的预定的第三特征值：合并单元格数/列数、Rows的单元格内容类型的并集、包含中文的列数/非空白列数、不包含中文的列数/非空白列数、包含数字的列数/非空白列数、包含冒号的个数、和最邻近大于1行的Rows的字号差、(和最邻近大于1行的Rows的每个单元格的内容类型对比)类型不相同的单元格数/非空白列数。根据转化Rows的特征，输入预先生成的第二随机森林模型，使用模型推理得到表格结构的三个类别：行标题、表格内容、其他。

如图4所示，本申请实施例一的表格数据的表格结构识别，合并行RowsList为[[1],[2],[3],[4,5,6,7,8,9]]，类型以及特征值如下表，将特征值输入模型后得到的表格结构结果如下表。

如图4所示，本申请实施例一的表格数据的表格结构识别，由于该表格是按行，将其转化为按列。合并行RowsList为[[1],[2,3,4,5,6,7]]，类型以及特征值如下表，将特征值输入模型后得到的结果如下表。

在一个示例性实施例中，步骤S104中，根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表，包括：

S1041、根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列；

一个示例性实施例，步骤S1041中，根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，包括：

按照预定顺序遍历所述表格数据的每个数据列，将为纯数值的数据列确定为系列值数据列，并将首个被确定出的系列值数据列所在位置之前的数据列作为类别数据列；

本步骤中，纯数值的列是指，本列中的表格内容为数字类型。由于系列值数据列表格内容都为纯数值，因此，在确定表格数据的各列是否为系列值数据列与类别数据列，可以通过遍历各列的单元格内容的类型以确定。其实现过程如下：遍历表格数据的各列，当遍历到每一列时，若该列的表格内容包含非数字内容，则继续遍历下一列，若该列的表格内容除均包含数值类型的内容，确定该列为纯数值的数据列，并将该列作为系列值数据列；并且，将第一个系列值数据列之前的数据列均作为类别数据列。

在一个示例性实施例中，当所述首个被确定出的系列值数据列所在位置之前无数据列时，在所述首个被确定出的系列值数据列所在位置之前补充至少一列数据列作为类别数据列；所补充的列数据列中单元格的内容包括对所确定的系列值数据列的单元格的内容的标识；

由于存在仅仅具有纯数值的列的表格数据，此时，第一个系列值数据列为表格数据的第一列，因此，为了使得表格数据能够被转换为图表，可以在未确定出类别数据列的情况下，补充一列，作为类别数据列，该补充的一列中的单元格的内容用于对系列值数据列的单元格的内容进行标识。示例性的，所述补充的一列可以是一种从一开始的递增列，以对系列值数据列的单元格的内容进行标识。

在一个示例性实施例中，当所述表格数据的列数为两列时，将第一列数据列确定为类别数据列，并将第二列数据列确定为系列值数据列。

在一个示例性实施例中，在未确定出类别数据列，同时表格的列数为两列的情况下，基于以上方式，使得纯数值的列也可作为类别数据列，使得推荐结果更加丰富。

此外，为了快速确定系列值数据列和类别数据列，可以根据表格列数选择确定方式，针对不同列数，根据不同的确定方式确定系列值数据列和类别数据列。基于上述描述，在另一种具体的实施例中：

在一个示例性实施例中，若表格数据的列数为两列，将第一列确定为类别数据列，并将第二列确定为系列值数据列；

在一个示例性实施例中，若表格数据的列数大于两列，遍历表格数据的各列，当遍历到每一列时，如果该列为纯数值的列，将该列确定为系列值数据列，并将所确定出的第一个系列值数据列之前的各列均作为类别数据列。

此外，考虑到表格数据可以存在多列也可以仅仅存在一列，或者，即便存在多列也未查找到类别数据列的情况，为了适用于各种表格数据，若表格数据的列数大于两列但未确定出类别数据列，或者，表格数据的列为一列，则补充一列，作为类别数据列，所补充的一列中单元格的内容用于对系列值数据列的单元格的内容进行标识。

在一个示例性实施例中，表格处理客户端首先对表格数据进行列数的判断，根据不同的列数选择不同的列类型确定方式，若表格数据为两列，则确定第一列为类别数据列，第二列为系列值数据列；若表格数据大于两列，则遍历每一列，确定纯数值的列为系列值数据列，该列之前的各列作为类别数据列；此外，当表格数据仅为一列系列值数据列时，表格处理客户端为该表格补充一列作为类别数据列，当表格数据大于两列并未确定出类别数据列时，补充一列作为类别数据列。

S1042、分别获取每一所述系列值数据列第一预定特征值和每一所述类别数据列的第二预定特征值；

在一个示例性实施例中，预定的第一特征值包括：数据类型、最长单元格字符个数、最长包含中文或英文的单元格字符个数、非空单元格的个数、仅数字且比整列平均值大的单元格个数、仅数字且比整列平均值的一半小的单元格个数。预定的第二特征值包括：数据类型、最长单元格字符个数、整列仅数字且相加是否为特定值、整列仅数字且是否为递减序列、整列仅数字且是否为递增序列。

其中，数据类型、最长字符长度、最长字符长度的单元格内中文/英文的字符长度、内容不为空的单元格个数，为表格处理客户端遍历整列的单元格内容而确定的；

其中预定的第一特征值中仅数字且比整列平均值大的单元格个数的特征值的确定过程为：表格处理客户端遍历整列单元格内容，判断整列单元格内容是否包含非数字内容；若包含非数字内容，则结果为0；若不包含非数字内容，则计算整列单元格内容的平均值，并根据每个单元格内容计算比该平均值大的单元格个数，将所计算得到的个数作为结果；

其中，预定的第一特征值中仅数字且比整列平均值的一半小的单元格个数的特征值的确定过程为：表格处理客户端遍历整列单元格内容，判断整列单元格内容是否包含非数字内容；若包含非数字内容，则结果为0；若不包含非数字内容，则计算整列单元格内容的平均值的一半，并根据每个单元格内容计算比该平均值的一半小的单元格个数，将所计算得到的个数作为结果；

其中，在整列数据类型为数字类型的情况下，是否整列数据之和为特定值、是否整列数据组成的列为递增序列、是否整列数据组成的列为递减序列为表格处理客户端遍历整列单元格内容，并确定出整列单元格内容全为数字内容的情况下，计算整列单元格之和是否为特定值、整列单元格内容组成的列是否为递增序列、整列单元格内容组成的列是否为递减序列。

示例性的，数据类型可以为文本、数值、日期、时间等等；而特定值可以为1，10，100，1000等，具体值可以根据实际情况设定。

S1043、针对每一所述类别数据列，分别进行如下操作：基于该类别数据列的所述预定的第一特征值和一个或者多个所述系列值数据列的第二预定特征值，确定以该类别数据列和一个或者多个所述系列值数据列生成图表时，对于每个预定图表类型的推荐结果；

其中，图表推荐信息用于表示针对每一类别数据列，以该类别数据列和一个系列值数据列生成图表时，对于每个图表类型的推荐结果。由于不同图表类型不是一定能够组合在一个图表中展示，所以如果有多个系列值列，可以取的一个系列值列与类别列来判断图表类型。

在一个具体的实施例中，图表推荐信息可以以弹窗，表格，提示框，可选选项的功能入口等形式展示。

另外，所确定的对于预定图表类型的推荐结果的具体展示形式存在多种。示例性的，推荐结果的具体展示形式可以是表征推荐程度的百分数，表征推荐程度的小数，推荐/不推荐的结果内容，最推荐/较推荐/不推荐的结果内容。等形式展示。

针对每一类别数据列，将该类别数据列预定的第一特征值和每个系列值数据列第二特征值作为输入数据，输入至预先训练完成的第三随机森林模型，得到以该类别数据列和各个系列值数据列生成图表时，对于各个图表类型的推荐结果；

其中，第三随机森林模型为基于样本类别数据列的预定的第一特征值和各个样本系列值数据列的预定的第二预定的第一特征值，以及样本类别对应的标注信息，所训练的模型，样本类别数据列对应的标注信息包括：以样本类别数据列和各个系列值数据列生成图表时，对于图表类型的推荐结果。

S1044、基于所确定的推荐结果，生成所述表格数据的图表。

示例性的，对于各个图表类型的推荐结果可以为：将该类别数据列预定的第一特征值转换为向量数据，以及将系列值数据列预定的第二特征值转换为向量数据，并将所转换得到的向量数据进行向量拼接，得到拼接向量，进而，将拼接向量输入至第三随机森林模型中，得到以该类别数据列和各个系列值数据列生成图表时，对于各个图表类型的推荐结果。

可以理解的是，第三随机森林模型的数量可以为一个，此时，该随机森林模型是针对各个图表类型所训练的模型；当然，第三随机森林模型的数量可以为多个，此时，每一第三随机森林模型为针对一个图表类型所训练的。示例性的，假设各个图表类型包括：折线图、柱形图、散点图、饼图，那么，如果每一第三随机森林模型为针对一个图表类型所训练，那么，此时，第三随机森林模型包括：折线图模型，柱形图模型，散点图模型，饼图模型。

针对为每一图表类型训练的一个模型而言，示例性的，确定推荐结果的过程可以如下：确定第一列类别数据列的预定的第一特征值与第一列系列值数据列的预定的第二特征值；将该第一列类别数据列的预定的第一特征值与第一列系列值数据列的预定的第二特征值输入到各个分类模型中；从各个分类模型中输出以第一列类别数据列和第二列系列值数据列生成图表时，针对各个模型的推荐分数；将第一列类别数据列的预定的第一特征值变更为第二列类别数据列的预定的第一特征值，执行以上步骤，直到确定完所有的类别数据列的预定的第一特征值。

可以理解的是，上述的通过随机森林模型来确定推荐结果的实现方式仅仅是一种示例。

另外，在具体应用中，对于一个表格数据而言，并不是所有图表类型均适用于该表格数据。为了进一步提升推荐结果的有效性，并减少针对不必要的图表类型的推荐结果的计算，所述针对每一所述类别数据列，基于该类别数据列的预定的第一特征值和系列值数据列预定的第二特征值，确定以该类别数据列和各个所述系列值数据列生成图表时，对于各个图表类型的推荐结果之前，所述方法还包括:

确定各个系列值数据列的数量、系列值数据列中单元格的数量和/或各个类别数据列是否为纯数值类型的列的判断结果；

基于各个系列值数据列的数量、系列值数据列中单元格数量和/或各个类别数据列是否为纯数值类型的列判断结果，确定关于图表的各个可生成类型。

在一个具体的实施例中，系列值数据列的单元格内容用于绘制图表的图像区域，类别数据列的单元格内容用于绘制图表的标签区域。而针对各个图表类型，不同类型的图表的图像区域不相同，标签区域也不相同，因此各个类型的图表对生成该类型图表的系列值数据列和类别数据列的要求不同。实际中，系列值数据列的数量决定可生成的图表类型是否包含饼图，系列值数据列中单元格数量影响生成出的饼图的展示效果，类别数据列是否为纯数值类型的列决定可生成的图表类型是否包含散点图。具体的，当系列值数据列的数量大于等于二，由于饼图的图像区域为根据一列系列值数据列进行生成的，系列值数据列数过多导致无法生成饼图；当系列值数据列为一列且列中单元格的数量过多，导致饼图的图像被切割为过多的小块，生成出的饼图展示效果不佳；当类别数据列不为纯数值列，由于散点图的标签区域是基于纯数值的类别数据列生成的，类别数据列不为纯数值的列导致无法生成出散点图。

示例性的，针对同时确定出各个系列值数据列的数量、系列值数据列中单元格数量以及各个类别数据列是否为纯数值类型的列判断结果的情况而言，基于各个系列值数据列的数量、系列值数据列中单元格数量和/或各个类别数据列是否为纯数值类型的列判断结果，确定关于图表的各个可生成类型，可以包括：

若系列值数据列满足第一预定条件但类别数据列不满足第二预定条件，则可生成的图表类型为除饼图以外的图表类型；

若系列值数据列不满足第一预定条件但类别数据列满足第二预定条件，则可生成的图表类型为除散点图以外的图表类型；

若系列值数据列满足第一预定条件且类别数据列满足第二预定条件，则可生成的图表类型为除饼图和散点图以外的图表类型；

其中，第一预定条件为：列数量大于等于二，或，系列值数据列为一列但单元格数量大于预定阈值；第二预定条件为：各个类别数据列包括不为纯数值的列。

随机森林是一个包含至少一个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method"以建造决策树的集合。

在一个示例性实施例中，根据下列算法而建造每棵树：用N来表示训练用例(样本)的个数，M表示特征数目。输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。从N个训练用例(样本)中以有放回抽样的方式，取样N次，形成一个训练集(即bootstrap取样)，并用未抽到的用例(样本)作预测，评估其误差。对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征，计算其最佳的分裂方式。每棵树都会完整成长而不会剪枝，这有可能在建完一棵正常树状分类器后会被采用。

如图4所示，本发明实施例一的表格数据，当用于选择的生成图表的选区为单元格(1,5)，扩展选区为[(1,1),(7,9)]，如图5所示。从表格左上角截取区域[(1,1),(7,7)]。

根据截取区域[(1,1),(7,7)]计算得到表格方向按列为预定方向的表格数据，不需要转换表格方向。

然后识别选区[(1,1),(7,9)]表格结构为：[(1,其他),(2,其他),(3,行标题),(4,表格内容),(5,表格内容),(6,表格内容),(7,表格内容),(8,表格内容),(9,表格内容)]，表格结构为“行标题+表格内容”，其中4至9行为表格内容。

再获取表格内容的系列值列是第4、5、6列，类别列为第1、2、3列；分别获取预定的第一特征值和预定的第二特征值输入随机森林模型，计算出结果如下表，分数最高为1.0，最低为0.0。特征值是按照每个类别列与第一个系列值列计算出来的，如下表。

类别列	系列值列	特征值
			1	4、5、6	0,192,64,0,0,0,9,8,5,9,0
2	4、5、6	0,256,64,0,0,0,4,8,5,4,0
			3	4、5、6	0,2,64,0,0,0,9,8,5,0,0

分别将以上每组特征值，符合要求的，输入给“柱形图”“折线图”

“散点图”“饼图”四个模型得到结果，再按照分数排序。

最优的推荐图表为第2列为类别，第4、5、6列为系列，其中第4、5、6列的第3行为系列名称，系列方向为按列，图表类型为柱形图。最优推荐图表结果如图6所示。示例性的，推荐结果阈值范围：柱形图>0、折线图>0.2、饼图>0.2、散点图>0.2。

如图7所示，本发明实施例二的表格数据，当用于选择的生成图表的选区为单元格(1,2)。扩展选区为[(1,1),(7,2)]。

然后，从表格左上角截取区域[(1,1),(2,2)]，计算得到表格方向为按行，不是预定方向，根据表格方向转换表格数据。

根据表格结构识别算法，对表格列进行分类得到结果如下:[(1,行标题),(2,表格内容),(3,表格内容),(4,表格内容),(5,表格内容),(6,表格内容),(7,表格内容)]。表格结构为“行标题+表格内容”，其中2至7列为表格内容。

再获取表格内容的系列值数据列为第1列，类别数据列为第2列。分别获取预定的第一特征值和预定第二特征值输入随机森林模型，计算出结果如下表，分数最高为1.0，最低为0.0。最优的推荐图表为第1行为类别，第2行为系列，其中第2行的第1列为系列名称，系列方向为按行，图表类型为饼图。最优推荐图表结果如图8所示。特征值是按照每个类别列与第一个系列值列计算出来的，如下表。

类别列	系列值列	特征值
			1	2	0,256,64,0,0,0,4,6,5,4,0

分别将以上每组特征值，符合要求的，输入给“柱形图”“折线图”“散点图”“饼图”四个模型得到结果，再按照分数排序。

类别	系列1	图表类型	分数
				1	2	饼图	0.77
1	2	柱形图	0.18

如图10所示，本申请在表格软件中，根据一个工作表和单个选区，获取该工作表中所选区域的推荐数据透视图结果的方法：

1)单个选区表示为columnCount*rowCount，如果columnCount等于1并且rowCount等于1，对一个单元格进行扩展，获取到上下左右均不为连续空白行列的区域，作为推荐数据透视表的表格数据；否则获取选中的区域的表格数据作为推荐数据透视表的表格数据。

2)根据选区获取推荐数据透视表的表格数据后，识别表格方向为“按行”或“按列”，如果为“按行”则不推荐数据透视表；如果“按列”则一行一行识别表格结构，分类为“行标题”、“表格内容”、“其他”，最后获取“行标题+表格结构”的表格，如果不是该类型的表格则不推荐数据透视表。

3)获取表格数据列的列表以及每列的标题，获得行的列和分数及值的列和分数。把行、值的列进行组合，获取分数的平均值(可做求和统计)，与行的列分数(可做计数统计)一起排序后得到最终推荐结果。推荐数据透视表的组合列和分数。遍历推荐数据透视表的列的组合和类型，得到新的数据透视表。

遍历推荐数据透视表列表，从每个数据透视表获取表格内容，根据图表推荐算最后得到数据透视图的图表数据区域，图表类型、类别、系列、系列方向。

如图9所示，本申请生成图表的装置模块，包括：

获取模块10，用于当接收到针对当前表格建立图表的指令后，获取当前表格中用于生成图表的表格数据；

确定模块20，用于确定所获取的表格数据的表格方向并获得预定方向的表格数据；

识别模块30，用于根据所获得的预定方向的表格数据识别表格结构并获取表格内容；所述表格结构包括表格内容；

图表生成模块40，用于根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表。

一个示例性实施例，上述获取模块10，用于获取当前表格中用于生成图表的表格数据，是指：

获取用户在当前表格中选中的表格数据，确定所获取的用户在当前表格中选中的表格数据的区域大小为：m*n,其中m为行数，n为列数；

当用户在当前表格中选中的表格数据为单个区域时，并且当所述区域的行数等于1并且列数等于1时，对所获取的用户在当前表格中选中的表格数据的单元格进行扩展，获取上下左右均不为连续空白行列的区域，作为所述当前表格中用于生成图表的表格数据；

当用户在当前表格中选中的表格数据为单个区域时，并且当所述区域的行数大于1和/或列数大于1时，将获取的用户在表格中选中的表格数据作为所述当前表格中用于生成图表的表格数据；当用户在当前表格中选中的表格数据包括多个区域时，且所述多个区域的行数相同或者列数相同，则合并所述多个区域的表格数据，作为所述当前表格中用于生成图表的表格数据。

一个示例性实施例，上述确定模块20，用于确定所获取的当前表格中用于生成图表的表格数据的表格方向并获得预定方向的表格数据，是指：

确定模块20获取所述表格数据的行数和列数，根据所获取的行数和列数确定截取的数据区域；

确定模块20根据所截取的数据区域，确定相似行数和相似列数；

确定模块20将所获取的表格数据的行数和列数，及确定的相似行数和相似列数输入预先生成的第一随机森林模型以确定所述表格数据的表格方向；

确定模块20判断所述表格数据的表格方向是否为预定方向的表格数据，当所述表格数据的表格方向不是预定方向，将所述表格数据转换成预定方向的表格数据；当所述表格数据的表格方向为预定方向的表格数据时，将所述表格数据作为预定方向的表格数据。

一个示例性实施例，上述图表生成模块40，用于根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表，是指：

图表生成模块40根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列；

图表生成模块40分别获取每一所述系列值数据列预定的第一特征值和每一所述类别数据列的预定的第二特征值；

图表生成模块40针对每一所述类别数据列，分别进行如下操作：基于该类别数据列的预定的第一特征值和一个或者多个所述系列值数据列的预定的第二特征值，确定以该类别数据列和一个或者多个所述系列值数据列生成图表时，对于每个预定图表类型的推荐结果；

图表生成模块40基于所确定的推荐结果，生成所述表格数据的图表。

一个示例性实施例，上述图表生成模块40，用于根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，是指：

图表生成模块40按照预定顺序遍历所述表格数据的每个数据列，将为纯数值的数据列确定为系列值数据列，并将首个被确定出的系列值数据列所在位置之前的数据列作为类别数据列；

当所述首个被确定出的系列值数据列所在位置之前无数据列时，在所述首个被确定出的系列值数据列所在位置之前补充至少一列数据列作为类别数据列；所补充的列数据列中单元格的内容包括对所确定的系列值数据列的单元格的内容的标识；

或者，当所述表格数据的列数为两列时，将第一列数据列确定为类别数据列，并将第二列数据列确定为系列值数据列。

一个示例性实施例，上述预定的第一特征值包括：数据类型、最长单元格字符个数、最长包含中文或英文的单元格字符个数、非空单元格的个数、仅数字且比整列平均值大的单元格个数、仅数字且比整列平均值的一半小的单元格个数；

一个示例性实施例，上述预定的第二特征值包括：数据类型、最长单元格字符个数、整列仅数字且相加是否为特定值、整列仅数字且是否为递减序列、整列仅数字且是否为递增序列。

一个示例性实施例，上述识别模块30,用于根据所获得的预定方向的表格数据识别表格结构并获取表格内容，是指：

识别模块30获得的预定方向的表格数据中的单元格内容的内容类型；

识别模块30根据所获得的内容类型确定相邻行的相似度，将相似度大于预定阈值的相邻行识别为相似行，合并识别出的相似行；

识别模块30获取将相似行进行合并后的表格数据的行目录；

识别模块30遍历所述行目录获取预定的第三特征值并输入预先生成的第二随机森林模型以确定表格结构；所述表格结构包括表格内容，获取所述表格内容。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有至少一个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种生成图表的方法，其特征在于，所述方法包括：

当接收到针对当前表格建立图表的指令后，获取当前表格中用于生成图表的表格数据；

确定所获取的表格数据的表格方向并获得预定方向的表格数据；

根据所获得的预定方向的表格数据识别表格结构并获取表格内容；所述表格结构包括表格内容；

根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表；

所述根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表，包括：

根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列；

分别获取每一所述系列值数据列预定的第一特征值和每一所述类别数据列的预定的第二特征值；

针对每一所述类别数据列，分别进行如下操作：基于该类别数据列的预定的第一特征值和一个或者多个所述系列值数据列的预定的第二特征值，确定以该类别数据列和一个或者多个所述系列值数据列生成图表时，对于每个预定图表类型的推荐结果；

基于所确定的推荐结果，生成所述表格数据的图表。

2.根据权利要求1所述的方法，其特征在于，所述获取当前表格中用于生成图表的表格数据，包括：

当用户在当前表格中选中的表格数据为单个区域时，并且当所述区域的行数大于1和/或列数大于1时，将获取的用户在表格中选中的表格数据作为所述当前表格中用于生成图表的表格数据；

3.根据权利要求1所述的方法，其特征在于，所述确定所获取的当前表格中用于生成图表的表格数据的表格方向并获得预定方向的表格数据，包括：

获取所述表格数据的行数和列数，根据所获取的行数和列数确定截取的数据区域；

根据所截取的数据区域，确定相似行数和相似列数；

将所获取的表格数据的行数和列数，及确定的相似行数和相似列数输入预先生成的第一随机森林模型以确定所述表格数据的表格方向；

判断所述表格数据的表格方向是否为预定方向的表格数据，当所述表格数据的表格方向不是预定方向，将所述表格数据转换成预定方向的表格数据；当所述表格数据的表格方向为预定方向的表格数据时，将所述表格数据作为预定方向的表格数据。

4.根据权利要求1所述的方法，其特征在于，所述根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，包括：

5.根据权利要求4所述的方法，其特征在于，所述预定的第一特征值包括以下至少之一：数据类型、最长单元格字符个数、最长包含中文或英文的单元格字符个数、非空单元格的个数、仅数字且比整列平均值大的单元格个数、仅数字且比整列平均值的一半小的单元格个数；

所述预定的第二特征值包括以下至少之一：数据类型、最长单元格字符个数、整列仅数字且相加是否为特定值、整列仅数字且是否为递减序列、整列仅数字且是否为递增序列。

6.根据权利要求1所述的方法，其特征在于，所述根据所获得的预定方向的表格数据识别表格结构并获取表格内容，包括：

获得的预定方向的表格数据中的单元格内容的内容类型；

根据所获得的内容类型确定相邻行的相似度，将相似度大于预定阈值的相邻行识别为相似行，合并识别出的相似行；

获取将相似行进行合并后的表格数据的行目录；

遍历所述行目录获取预定的第三特征值并输入预先生成的第二随机森林模型以确定表格结构；所述表格结构包括表格内容，获取所述表格内容。

7.一种生成图表的装置，其特征在于，所述装置包括：

获取模块，用于当接收到针对当前表格建立图表的指令后，获取当前表格中用于生成图表的表格数据；

确定模块，用于确定所获取的表格数据的表格方向并获得预定方向的表格数据；

识别模块，用于根据所获得的预定方向的表格数据识别表格结构并获取表格内容；所述表格结构包括表格内容；

图表生成模块，用于根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表；

图表生成模块，用于根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列，并采用预定规则生成所述图表，是指：

图表生成模块根据所获取的表格内容，确定所述表格数据中用于生成所述图表的系列值数据列和类别数据列；

图表生成模块分别获取每一所述系列值数据列预定的第一特征值和每一所述类别数据列的预定的第二特征值；

图表生成模块针对每一所述类别数据列，分别进行如下操作：基于该类别数据列的预定的第一特征值和一个或者多个所述系列值数据列的预定的第二特征值，确定以该类别数据列和一个或者多个所述系列值数据列生成图表时，对于每个预定图表类型的推荐结果；

图表生成模块基于所确定的推荐结果，生成所述表格数据的图表。

8.一种定向投放内容的装置，包括处理器和存储器，其特征在于，所述存储器中存储有用于定向投放内容的程序；所述处理器用于读取所述用于定向投放内容的程序，执行权利要求1-6中任一项所述的方法。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。