CN111651587A

CN111651587A - 基于数据的文本生成方法、装置、电子设备及存储介质

Info

Publication number: CN111651587A
Application number: CN202010497343.9A
Authority: CN
Inventors: 曹洁; 钱雨果; 周伟奇
Original assignee: Research Center for Eco Environmental Sciences of CAS
Current assignee: Research Center for Eco Environmental Sciences of CAS
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-11
Anticipated expiration: 2040-06-03
Also published as: CN111651587B

Abstract

一种基于数据的文本生成方法，包括：读取Excel文件中的数据，对数据进行数据分析，得到数据的特征信息，特征信息至少包括数据中各数据类型的主导等级和数据值占比，根据用户需求，建立文本生成规则，基于文本生成规则和数据的特征信息，生成关于数据的描述性文本。该方法可以自动挖掘数据中的隐含信息，并生成具有数据分析功能的描述性文本，格式统一，可读性强，实现起来方便快捷。

Description

基于数据的文本生成方法、装置、电子设备及存储介质

技术领域

本公开涉及数据挖掘与人工智能领域，尤其涉及一种基于数据的文本生成方法、装置、电子设备及存储介质。

背景技术

数据挖掘是指从大量的数据中搜索隐藏于其中的有着特殊关系的信息的计算机技术，包括数据准备、关系寻找和结果显示三个步骤。现有技术对Excel数据挖掘主要包括数据准备、数据计算及提取数据生成描述性文本，这种描述性文本对目标数据的挖掘不够深入，缺乏具有数据分析能力。

发明内容

(一)要解决的技术问题

本公开提出一种基于数据的文本生成方法、装置、电子设备及存储介质，以至少解决一项上述问题。

(二)技术方案

本公开的一个方面提供了一种基于数据的文本生成方法，包括：读取Excel文件数据；对所述数据进行数据分析，得到所述数据的特征信息，所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比；根据用户需求，建立文本生成规则；基于所述文本生成规则和所述数据的特征信息，生成关于所述数据的描述性文本。

可选地，所述读取Excel文件中的数据，包括：获取预设目录下的至少一个Excel文件；读取所述至少一个Excel文件中的每一sheet表格中的数据。

可选地，将所述数据的数据格式处理为预设格式，所述预设格式包括数据主题、一级数据类型、二级数据类型、数据值，其中，一级数据类型包括至少一个二级数据类型；将所述数据按照一级数据类型分组排列。

可选地，所述对所述数据进行数据分析，得到所述数据的特征信息，包括：计算所述数据中各一级数据类型数据的数据值总和；计算所述数据中的各二级数据类型数据的数据值与所属一级数据类型数据的数据值总和之比，得到所述各二级数据类型数据的数据值占比；对所述各二级数据类型数据的数据值占比进行聚类分析，得到所述各二级数据类型数据在所属一级数据类型中的主导等级。

可选地，所述计算所述数据中各二级数据类型数据的数据值在所属一级数据类型中所占的比例，包括：计算所述数据中各一级数据类型的数据的数据值的总和；计算所述各一级数据类型的数据中各二级数据类型对应的数据值在所述数据值总和中所占的比例。

可选地，所述方法还包括：按照所述各二级数据类型数据的数据值占比从大到小的顺序，将所述各一级数据类型数据重新排列。

可选地，所述根据所述特征信息，生成对所述原始数据的描述性文本，包括：读取所述数据中属于同一一级数据类型的多个数据；根据所述文本生成规则，比较所述多个数据的各二级数据类型的主导等级和数据值占比；选择与比较结果对应的文本模板，生成包含所述多个数据及其所属二级数据类型的主导等级、数据值占比的多个描述性短句；将所述多个描述性短句组合在一起，得到对所述属于同一一级数据类型的多个数据的描述性文本。

可选地，所述方法还包括：依次读取所述数据中各一级数据类型的多个数据，得到所述各一级数据类型的数据的描述性文本；将所述各一级数据类型的数据的描述性文本组合，得到所述数据完整的描述性文本。

本公开另一方面提供了一种基于数据的文本生成装置，包括：数据读取模块，用于读取Excel文件数据；数据分析模块，用于对所述数据进行数据分析，得到所述数据的特征信息，所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比；规则建立模块，用于根据用户需求，建立文本生成规则；文本生成模块，用于基于所述文本生成规则和所述数据的特征信息，生成关于所述数据的描述性文本。

本公开另一方面提供了一种电子设备，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如第一方面中任一项所述的基于数据的文本生成方法中的各个步骤。

本公开另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现第一方面中任一项所述的基于数据的文本生成方法中的各个步骤。

(三)有益效果

本公开提供的基于数据的文本生成方法，可深入挖掘数据中隐含的信息，实现将事实数据转换为符合人类语言逻辑的描述性文本，可对大量数据进行批量处理，效率高，可将原始数据预处理为统一格式，生成格式统一的数据文本，可根据数据类型灵活修改预设规则，生成更加符合逻辑的描述性文本。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了本公开实施例提供的一种基于数据的文本生成方法的流程图；

图2示意性示出了本公开实施例提供的预处理后的数据表格；

图3示意性示出了本公开实施例提供的数据分析后的数据表格；

图4示意性示出了本公开实施例提供的一种文本生成规则的示意图；

图5示意性示出了本公开实施例提供的一种文本模板的示意图；

图6示意性示出了本公开实施例提供的描述性文本的生成结果；

图7示意性示出了本公开实施例提供的一种基于数据的文本生成装置的结构框图；

图8示意性示出了本公开实施例提供的一种计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以获取用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

图1示意性示出了根据本公开实施例的一种基于数据的文本生成方法的流程图，该方法包括步骤S1～S4。

S1，读取Excel文件中的数据。

在本实施例中，获取预设目录下的至少一个Excel文件，读取所述至少一个Excel文件中的每一sheet表格中的数据，预设目录可以为用户指定的文件目录，也可以为专用于存放Excel文件的文件目录，便于同时读取并处理该文件目录下的多个Excel文件包含的数据，通过一次读取即可获得需要生成文本的所有数据。

可选的，Excel文件的格式可以为xlsx、xls、csv等。

参阅图2，在本公开其中一个实施例中，读取到Excel文件中的数据后，对原始数据进行预处理，使从各个Excel文件中读取的数据的格式统一，预设格式包括数据主题、一级数据类型、二级数据类型、数据值，其中，一级数据类型包括多个二级数据类型。如图2所示，图中数据均属于“深圳市”这一数据主题，再将数据按照一级数据类型和二级数据类型逐一分类，如图2所示，该表格中一级数据类型包括“景观类型”和“土地覆盖”两种，“景观类型”又包含了“城市景观”、“森林景观”、“湿地景观”等二级数据类型，第2行记录的是一级数据类型“景观类型”中的二级数据类型“城市景观”的数据值，对数据值的处理包括将原始数据的数据值统一设置为精度为两位数的浮点型数据，还可以给数据值增加单位等。然后，将所述数据按照一级数据类型分组排列，使表格阅读起来清晰明朗。

可以理解的，一级数据类型和二级数据类型可以是原始数据的原有的分类，也可以是用户根据数据的来源自定义的分类，根据数据的实际记录方式和数据的使用目的，对数据的类型分类不仅限于分为一级数据类型和二级数据类型两种，一级数据类型和二级数据类型仅表示了两种限定条件，还可根据实际需要利用其他限定条件对数据进行分类处理，且不限制于两个限定条件。

S2，对所述数据进行数据分析，得到所述数据的特征信息，所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比。

参阅图2，在本实施例中，数据可来源于多个数据表格，一数据表格中可同时记载多种数据主题的数据，例如，在一数据表格中，同时记录了深圳市和广州市的土地数据，即该表格中同时包含了“深圳市”和“广州市”这两个数据主题的土地数据，而土地数据的一级数据类型包括“土地覆盖”和“景观类型”，“土地覆盖”又分为“植被”、“水体”、“不透水”、“裸地”等二级数据类型，将数据按照数据主题、一级数据类型、二级数据类型分类后，可从中进一步提取更多隐藏的信息。

具体的，步骤S2包括步骤S21～S23。

S21，计算数据中各一级数据类型的数据的数据值的总和。

S22，计算所述数据中的各二级数据类型数据的数据值与所属一级数据类型数据的数据值总和之比，得到所述各二级数据类型数据的数据值占比。

可选地，计算同一数据主题下的同一一级数据类型中各二级数据类型的占比后，将该比例记录到数据表格中，以便用户查看。

S23，对所述各二级数据类型数据的数据值占比进行聚类分析，得到所述各二级数据类型数据在所属一级数据类型中的主导等级。

例如，一级数据类型“土地覆盖”又分为“植被”、“水体”、“不透水”、“裸地”等二级数据类型，“植被”的数据值占比比“林地”多，通过算法分析，可将“植被”的主导等级分别为“一级”，将“林地”的主导等级划分为二级。

在本实施例中，也可通过聚类等算法对各一级数据类型的数据所占比例进行分析，得出各一级数据类型的主导等级，例如，一级数据类型“土地覆盖”所占比例较“景观类型”要多，通过聚类分析，可得到“土地覆盖”的主导等级为“一级”，“景观类型”的主导等级为“二级”。聚类算法可以为k-MEANs聚类算法等。

参阅图3，在本实施例中，在得到所述数据中各条数据所属的二级数据类型所占的比例和主导等级后，在每条数据的一级数据类型后添加上其二级数据类型的主导等级，在数据中添加其所占比例，便于用户查阅。

在将数据的特征信息添加进数据表格后，还可将数据按照数据类型、所占比例大小重新排列，使表格阅读起来更加清晰，包括S24。

S24，按照所述各二级数据类型数据的数据值占比从大到小的顺序，将所述各一级数据类型数据重新排列。

参阅图2、图3，在本实施例中，“景观类型”和“土地覆盖”为两种一级数据类型，则可将属于“土地覆盖”的数据归类在一起，将属于“景观类型”的数据归类在一起，以一级数据类型“土地覆盖”为例，将二级数据类型“植被”、“水体”、“不透水”、“裸地”等按照所占比例的大小顺序进行排列。

在本实施例中，在得到数据的特征信息后，将各数据类型的主导等级和二级数据类型对应的数据值所占比例与原数据一起形成新的表格，并将表格中的数据按照主导等级和所占比例的大小排列，使用户能从表格中一目了然的查看数据。

S3，根据用户需求，建立文本生成规则。

参阅图4、图5，在本实施例中，为了生成符合用户需求的文本，用户可预先根据自身需要设定文本规则，预设文本模板，如需要根据主导类型数量的差异分为单主导和多主导的情况输出不同文本，则利用条件语句if-else将输出的文本分为两种情况；每一种情况下又可以根据其他判定条件建立多个子规则，如单主导类型的情况下，占比第一的类型与占比第二的类型面积比是否大于2，最少的类型占比是否小于1等。这样，通过设定多个条件建立一个规则树，将完整的文本分成多个短句，每种情况都有对应的短句。

S4，基于所述文本生成规则和所述数据的特征信息，生成关于所述数据的描述性文本。

在本实施例中，根据各数据的特征信息，可生成符合人类语言逻辑的描述性文本，包括如下步骤。

S41，读取数据中属于同一一级数据类型的多个数据。

在本实施例中，一次读取一个一级数据类型的多个数据，例如，读取“土地覆盖”这一一级数据类型的所有数据，在下述步骤中针对这一一级数据类型的数据进行具体分析。

S42，根据所述文本生成规则，比较所述多个数据的各二级数据类型的主导等级和数据值占比。

在本实施例中，对该一类数据类型的数据进行具体分析可以包括：比较多个数据所属的二级数据类型所占的比例，得到多个数据中占比最大的数据和多个数据所占的比例之间的差值，从该多个数据的特征信息中提取各数据所占比例之间的关系，可使用户了解更多各类型数据之间的关系。

可选地，还可仅计算占比最大的数据与其余数据所占的比例之间的差值和计算各数据所占比例之间的比值，进一步挖掘数据中包含的信息。

S43，选择与比较结果对应的文本模板，生成包含所述多个数据及其所属二级数据类型的主导等级、数据值占比的多个描述性短句。

在本实施例中，预设规则可以由用户自定义，可以是根据预设的语言模型自动生成，该预设规则体现了用户需求，可结合数据及其特征信息和特征信息对的比较结果，生成符合人类语言逻辑的语言文本，该预设规则灵活多变，生成的语言文本也多样化。例如，该预设规则可包含分析步骤S42获得的多个同属一级数据类型的数据之间的差值，得到该一级数据类型中的主导因子(指一级主导数据中二级数据类型)，并判断该一级数据类型中占主导地位的二级数据类型为单个还是多个；该预设规则还可包含多个语言模板，例如，语句一：【SA】占主导的【title】为【type】，其比例为【percent】；语句二：【type】为【SA】占主导的【title】，其比例为【percent】；语句三：【SA】【title】主导类型为占比【percent】的【type】，其中，【SA】表示数据主题，【title】表示一级数据类型，【type】表示二级数据类型，根据对主导因子的分析结果，通过逻辑运算，选择符合语言逻辑的语句。

可选的，该预设规则中包含的多个语言模板构成了语言库，当生成描述性短句时，可从语言库中随机选择语言模板生成短句，以丰富生成的描述性短句的表达形式。

S44，将多个描述性短句组合在一起，得到对属于同一一级数据类型的多个数据的描述性文本。

参阅图3中的数据，“深圳市”的“土地覆盖”中的多个数据描述性文本可以为“深圳市的土地覆盖(一级)以植被为主导，其面积和比例分别为1108.16平方公里和56.69％，比占比第二的不透水高20.21％。不透水所占比重次之，其面积和比例分别为712.99平方公里和36.48％。水体、裸地所占比重较小，其面积和比例分别是86.22平方公里和4.41％，47.36平方公里和2.42％”。

S45，依次读取数据中各一级数据类型的多个数据，重复上述步骤，得到各一级数据类型的数据的描述性文本。

S46，将各一级数据类型的数据的描述性文本组合，得到原始数据的描述性文本。

参阅图6，在本实施例中，得到的描述性文本对各一级数据类型的数据分别进行了描述，并对各一级数据类型中的二级数据类型进行了进一步的描述，对数据进行了详细分析，以便用户直接从该文本中获取数据中的信息，减少了用户自己分析数据的工作量，该语言文本符合人类语言逻辑，可读性强。

图7示意性示出了本公开实施例提供的一种基于数据的文本生成装置，包括：数据读取模块701，数据分析模块702，规则建立模块703，文本生成模块704。

数据读取模块701，用于读取Excel文件中的数据；

数据分析模块702，用于对所述数据进行数据分析，得到所述数据的特征信息，所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比；

规则建立模块703，用于根据用户需求，建立文本生成规则；

文本生成模块704，用于基于所述文本生成规则和所述数据的特征信息，生成关于所述数据的描述性文本。

该文本生成装置的工作方法与上述文本生成方法相同，且具有与上述文本生成方法相同的优点，在此不做赘述。

可以理解的是，数据读取模块701、数据分析模块702、规则建立模块703、文本生成模块704可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，数据读取模块701、数据分析模块702、规则建立模块703、文本生成模块704中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，数据读取模块701、数据分析模块702、规则建立模块703、文本生成模块704中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

图6示意性示出了本公开实施例提供的一种计算机系统的框图。

如图8所示，计算机系统800包括处理器810、计算机可读存储介质820。该计算机系统800可以执行根据本公开实施例的方法。

具体地，处理器810例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器810还可以包括用于缓存用途的板载存储器。处理器810可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质820，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质820可以包括计算机程序821，该计算机程序821可以包括代码/计算机可执行指令，其在由处理器810执行时使得处理器810执行根据本公开实施例的方法或其任何变形。

计算机程序821可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序821中的代码可以包括一个或多个程序模块，例如包括821A、模块821B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器810执行时，使得处理器810可以执行根据本公开实施例的方法或其任何变形。

根据本发明的实施例，数据读取模块701、数据分析模块702、规则建立模块703、文本生成模块704中的至少一个可以实现为参考图8描述的计算机程序模块，其在被处理器810执行时，可以实现上面描述的相应操作。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种基于数据的文本生成方法，其特征在于，包括：

读取Excel文件中的数据；

对所述数据进行数据分析，得到所述数据的特征信息，所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比；

根据用户需求，建立文本生成规则；

基于所述文本生成规则和所述数据的特征信息，生成关于所述数据的描述性文本。

2.根据权利要求1所述的方法，其特征在于，所述读取Excel文件中的数据，包括：

获取预设目录下的至少一个Excel文件；

读取所述至少一个Excel文件中的每一sheet表格中的数据。

3.根据权利要求1所述的方法，其特征在于，所述读取Excel文件中的数据之后，所述方法还包括：

将所述数据的数据格式处理为预设格式，所述预设格式包括数据主题、一级数据类型、二级数据类型、数据值，其中，一级数据类型包括至少一个二级数据类型；

将所述数据按照一级数据类型分组排列。

4.根据权利要求3所述的方法，其特征在于，所述对所述数据进行数据分析，得到所述数据的特征信息，包括：

计算所述数据中各一级数据类型数据的数据值总和；

计算所述数据中的各二级数据类型数据的数据值与所属一级数据类型数据的数据值总和之比，得到所述各二级数据类型数据的数据值占比；

对所述各二级数据类型数据的数据值占比进行聚类分析，得到所述各二级数据类型数据在所属一级数据类型中的主导等级。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

按照所述各二级数据类型数据的数据值占比从大到小的顺序，将所述各一级数据类型数据重新排列。

6.根据权利要求5所述的方法，其特征在于，所述基于所述文本生成规则和所述数据的特征信息，生成关于所述数据的描述性文本，包括：

读取所述数据中属于同一一级数据类型的多个数据；

根据所述文本生成规则，比较所述多个数据的各二级数据类型的主导等级和数据值占比；

选择与比较结果对应的文本模板，生成包含所述多个数据及其所属二级数据类型的主导等级、数据值占比的多个描述性短句；

将所述多个描述性短句组合在一起，得到对所述属于同一一级数据类型的多个数据的描述性文本。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

依次读取所述数据中各一级数据类型的多个数据，得到所述各一级数据类型的数据的描述性文本；

将所述各一级数据类型的数据的描述性文本组合，得到所述数据完整的描述性文本。

8.一种基于数据的文本生成装置，其特征在于，包括：

数据读取模块，用于读取Excel文件中的数据；

数据分析模块，用于对所述数据进行数据分析，得到所述数据的特征信息，所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比；

规则建立模块，用于根据用户需求，建立文本生成规则；

文本生成模块，用于基于所述文本生成规则和所述数据的特征信息，生成关于所述数据的描述性文本。

9.一种电子设备，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至7中的任一项所述的基于数据的文本生成方法中的各个步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7中的任一项所述的基于数据的文本生成方法中的各个步骤。