CN111651587B - 基于数据的文本生成方法、装置、电子设备及存储介质 - Google Patents

基于数据的文本生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111651587B
CN111651587B CN202010497343.9A CN202010497343A CN111651587B CN 111651587 B CN111651587 B CN 111651587B CN 202010497343 A CN202010497343 A CN 202010497343A CN 111651587 B CN111651587 B CN 111651587B
Authority
CN
China
Prior art keywords
data
type
text
data type
descriptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010497343.9A
Other languages
English (en)
Other versions
CN111651587A (zh
Inventor
曹洁
钱雨果
周伟奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Center for Eco Environmental Sciences of CAS
Original Assignee
Research Center for Eco Environmental Sciences of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Center for Eco Environmental Sciences of CAS filed Critical Research Center for Eco Environmental Sciences of CAS
Priority to CN202010497343.9A priority Critical patent/CN111651587B/zh
Publication of CN111651587A publication Critical patent/CN111651587A/zh
Application granted granted Critical
Publication of CN111651587B publication Critical patent/CN111651587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于数据的文本生成方法,包括:读取Excel文件中的数据,对数据进行数据分析,得到数据的特征信息,特征信息至少包括数据中各数据类型的主导等级和数据值占比,根据用户需求,建立文本生成规则,基于文本生成规则和数据的特征信息,生成关于数据的描述性文本。该方法可以自动挖掘数据中的隐含信息,并生成具有数据分析功能的描述性文本,格式统一,可读性强,实现起来方便快捷。

Description

基于数据的文本生成方法、装置、电子设备及存储介质
技术领域
本公开涉及数据挖掘与人工智能领域,尤其涉及一种基于数据的文本生成方法、装置、电子设备及存储介质。
背景技术
数据挖掘是指从大量的数据中搜索隐藏于其中的有着特殊关系的信息的计算机技术,包括数据准备、关系寻找和结果显示三个步骤。现有技术对Excel数据挖掘主要包括数据准备、数据计算及提取数据生成描述性文本,这种描述性文本对目标数据的挖掘不够深入,缺乏具有数据分析能力。
发明内容
(一)要解决的技术问题
本公开提出一种基于数据的文本生成方法、装置、电子设备及存储介质,以至少解决一项上述问题。
(二)技术方案
本公开的一个方面提供了一种基于数据的文本生成方法,包括:读取Excel文件数据;对所述数据进行数据分析,得到所述数据的特征信息,所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比;根据用户需求,建立文本生成规则;基于所述文本生成规则和所述数据的特征信息,生成关于所述数据的描述性文本。
可选地,所述读取Excel文件中的数据,包括:获取预设目录下的至少一个Excel文件;读取所述至少一个Excel文件中的每一sheet表格中的数据。
可选地,将所述数据的数据格式处理为预设格式,所述预设格式包括数据主题、一级数据类型、二级数据类型、数据值,其中,一级数据类型包括至少一个二级数据类型;将所述数据按照一级数据类型分组排列。
可选地,所述对所述数据进行数据分析,得到所述数据的特征信息,包括:计算所述数据中各一级数据类型数据的数据值总和;计算所述数据中的各二级数据类型数据的数据值与所属一级数据类型数据的数据值总和之比,得到所述各二级数据类型数据的数据值占比;对所述各二级数据类型数据的数据值占比进行聚类分析,得到所述各二级数据类型数据在所属一级数据类型中的主导等级。
可选地,所述计算所述数据中各二级数据类型数据的数据值在所属一级数据类型中所占的比例,包括:计算所述数据中各一级数据类型的数据的数据值的总和;计算所述各一级数据类型的数据中各二级数据类型对应的数据值在所述数据值总和中所占的比例。
可选地,所述方法还包括:按照所述各二级数据类型数据的数据值占比从大到小的顺序,将所述各一级数据类型数据重新排列。
可选地,所述根据所述特征信息,生成对所述原始数据的描述性文本,包括:读取所述数据中属于同一一级数据类型的多个数据;根据所述文本生成规则,比较所述多个数据的各二级数据类型的主导等级和数据值占比;选择与比较结果对应的文本模板,生成包含所述多个数据及其所属二级数据类型的主导等级、数据值占比的多个描述性短句;将所述多个描述性短句组合在一起,得到对所述属于同一一级数据类型的多个数据的描述性文本。
可选地,所述方法还包括:依次读取所述数据中各一级数据类型的多个数据,得到所述各一级数据类型的数据的描述性文本;将所述各一级数据类型的数据的描述性文本组合,得到所述数据完整的描述性文本。
本公开另一方面提供了一种基于数据的文本生成装置,包括:数据读取模块,用于读取Excel文件数据;数据分析模块,用于对所述数据进行数据分析,得到所述数据的特征信息,所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比;规则建立模块,用于根据用户需求,建立文本生成规则;文本生成模块,用于基于所述文本生成规则和所述数据的特征信息,生成关于所述数据的描述性文本。
本公开另一方面提供了一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如第一方面中任一项所述的基于数据的文本生成方法中的各个步骤。
本公开另一方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现第一方面中任一项所述的基于数据的文本生成方法中的各个步骤。
(三)有益效果
本公开提供的基于数据的文本生成方法,可深入挖掘数据中隐含的信息,实现将事实数据转换为符合人类语言逻辑的描述性文本,可对大量数据进行批量处理,效率高,可将原始数据预处理为统一格式,生成格式统一的数据文本,可根据数据类型灵活修改预设规则,生成更加符合逻辑的描述性文本。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了本公开实施例提供的一种基于数据的文本生成方法的流程图;
图2示意性示出了本公开实施例提供的预处理后的数据表格;
图3示意性示出了本公开实施例提供的数据分析后的数据表格;
图4示意性示出了本公开实施例提供的一种文本生成规则的示意图;
图5示意性示出了本公开实施例提供的一种文本模板的示意图;
图6示意性示出了本公开实施例提供的描述性文本的生成结果;
图7示意性示出了本公开实施例提供的一种基于数据的文本生成装置的结构框图;
图8示意性示出了本公开实施例提供的一种计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以获取用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
图1示意性示出了根据本公开实施例的一种基于数据的文本生成方法的流程图,该方法包括步骤S1~S4。
S1,读取Excel文件中的数据。
在本实施例中,获取预设目录下的至少一个Excel文件,读取所述至少一个Excel文件中的每一sheet表格中的数据,预设目录可以为用户指定的文件目录,也可以为专用于存放Excel文件的文件目录,便于同时读取并处理该文件目录下的多个Excel文件包含的数据,通过一次读取即可获得需要生成文本的所有数据。
可选的,Excel文件的格式可以为xlsx、xls、csv等。
参阅图2,在本公开其中一个实施例中,读取到Excel文件中的数据后,对原始数据进行预处理,使从各个Excel文件中读取的数据的格式统一,预设格式包括数据主题、一级数据类型、二级数据类型、数据值,其中,一级数据类型包括多个二级数据类型。如图2所示,图中数据均属于“深圳市”这一数据主题,再将数据按照一级数据类型和二级数据类型逐一分类,如图2所示,该表格中一级数据类型包括“景观类型”和“土地覆盖”两种,“景观类型”又包含了“城市景观”、“森林景观”、“湿地景观”等二级数据类型,第2行记录的是一级数据类型“景观类型”中的二级数据类型“城市景观”的数据值,对数据值的处理包括将原始数据的数据值统一设置为精度为两位数的浮点型数据,还可以给数据值增加单位等。然后,将所述数据按照一级数据类型分组排列,使表格阅读起来清晰明朗。
可以理解的,一级数据类型和二级数据类型可以是原始数据的原有的分类,也可以是用户根据数据的来源自定义的分类,根据数据的实际记录方式和数据的使用目的,对数据的类型分类不仅限于分为一级数据类型和二级数据类型两种,一级数据类型和二级数据类型仅表示了两种限定条件,还可根据实际需要利用其他限定条件对数据进行分类处理,且不限制于两个限定条件。
S2,对所述数据进行数据分析,得到所述数据的特征信息,所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比。
参阅图2,在本实施例中,数据可来源于多个数据表格,一数据表格中可同时记载多种数据主题的数据,例如,在一数据表格中,同时记录了深圳市和广州市的土地数据,即该表格中同时包含了“深圳市”和“广州市”这两个数据主题的土地数据,而土地数据的一级数据类型包括“土地覆盖”和“景观类型”,“土地覆盖”又分为“植被”、“水体”、“不透水”、“裸地”等二级数据类型,将数据按照数据主题、一级数据类型、二级数据类型分类后,可从中进一步提取更多隐藏的信息。
具体的,步骤S2包括步骤S21~S23。
S21,计算数据中各一级数据类型的数据的数据值的总和。
S22,计算所述数据中的各二级数据类型数据的数据值与所属一级数据类型数据的数据值总和之比,得到所述各二级数据类型数据的数据值占比。
可选地,计算同一数据主题下的同一一级数据类型中各二级数据类型的占比后,将该比例记录到数据表格中,以便用户查看。
S23,对所述各二级数据类型数据的数据值占比进行聚类分析,得到所述各二级数据类型数据在所属一级数据类型中的主导等级。
例如,一级数据类型“土地覆盖”又分为“植被”、“水体”、“不透水”、“裸地”等二级数据类型,“植被”的数据值占比比“林地”多,通过算法分析,可将“植被”的主导等级分别为“一级”,将“林地”的主导等级划分为二级。
在本实施例中,也可通过聚类等算法对各一级数据类型的数据所占比例进行分析,得出各一级数据类型的主导等级,例如,一级数据类型“土地覆盖”所占比例较“景观类型”要多,通过聚类分析,可得到“土地覆盖”的主导等级为“一级”,“景观类型”的主导等级为“二级”。聚类算法可以为k-MEANs聚类算法等。
参阅图3,在本实施例中,在得到所述数据中各条数据所属的二级数据类型所占的比例和主导等级后,在每条数据的一级数据类型后添加上其二级数据类型的主导等级,在数据中添加其所占比例,便于用户查阅。
在将数据的特征信息添加进数据表格后,还可将数据按照数据类型、所占比例大小重新排列,使表格阅读起来更加清晰,包括S24。
S24,按照所述各二级数据类型数据的数据值占比从大到小的顺序,将所述各一级数据类型数据重新排列。
参阅图2、图3,在本实施例中,“景观类型”和“土地覆盖”为两种一级数据类型,则可将属于“土地覆盖”的数据归类在一起,将属于“景观类型”的数据归类在一起,以一级数据类型“土地覆盖”为例,将二级数据类型“植被”、“水体”、“不透水”、“裸地”等按照所占比例的大小顺序进行排列。
在本实施例中,在得到数据的特征信息后,将各数据类型的主导等级和二级数据类型对应的数据值所占比例与原数据一起形成新的表格,并将表格中的数据按照主导等级和所占比例的大小排列,使用户能从表格中一目了然的查看数据。
S3,根据用户需求,建立文本生成规则。
参阅图4、图5,在本实施例中,为了生成符合用户需求的文本,用户可预先根据自身需要设定文本规则,预设文本模板,如需要根据主导类型数量的差异分为单主导和多主导的情况输出不同文本,则利用条件语句if-else将输出的文本分为两种情况;每一种情况下又可以根据其他判定条件建立多个子规则,如单主导类型的情况下,占比第一的类型与占比第二的类型面积比是否大于2,最少的类型占比是否小于1等。这样,通过设定多个条件建立一个规则树,将完整的文本分成多个短句,每种情况都有对应的短句。
S4,基于所述文本生成规则和所述数据的特征信息,生成关于所述数据的描述性文本。
在本实施例中,根据各数据的特征信息,可生成符合人类语言逻辑的描述性文本,包括如下步骤。
S41,读取数据中属于同一一级数据类型的多个数据。
在本实施例中,一次读取一个一级数据类型的多个数据,例如,读取“土地覆盖”这一一级数据类型的所有数据,在下述步骤中针对这一一级数据类型的数据进行具体分析。
S42,根据所述文本生成规则,比较所述多个数据的各二级数据类型的主导等级和数据值占比。
在本实施例中,对该一类数据类型的数据进行具体分析可以包括:比较多个数据所属的二级数据类型所占的比例,得到多个数据中占比最大的数据和多个数据所占的比例之间的差值,从该多个数据的特征信息中提取各数据所占比例之间的关系,可使用户了解更多各类型数据之间的关系。
可选地,还可仅计算占比最大的数据与其余数据所占的比例之间的差值和计算各数据所占比例之间的比值,进一步挖掘数据中包含的信息。
S43,选择与比较结果对应的文本模板,生成包含所述多个数据及其所属二级数据类型的主导等级、数据值占比的多个描述性短句。
在本实施例中,预设规则可以由用户自定义,可以是根据预设的语言模型自动生成,该预设规则体现了用户需求,可结合数据及其特征信息和特征信息对的比较结果,生成符合人类语言逻辑的语言文本,该预设规则灵活多变,生成的语言文本也多样化。例如,该预设规则可包含分析步骤S42获得的多个同属一级数据类型的数据之间的差值,得到该一级数据类型中的主导因子(指一级主导数据中二级数据类型),并判断该一级数据类型中占主导地位的二级数据类型为单个还是多个;该预设规则还可包含多个语言模板,例如,语句一:【SA】占主导的【title】为【type】,其比例为【percent】;语句二:【type】为【SA】占主导的【title】,其比例为【percent】;语句三:【SA】【title】主导类型为占比【percent】的【type】,其中,【SA】表示数据主题,【title】表示一级数据类型,【type】表示二级数据类型,根据对主导因子的分析结果,通过逻辑运算,选择符合语言逻辑的语句。
可选的,该预设规则中包含的多个语言模板构成了语言库,当生成描述性短句时,可从语言库中随机选择语言模板生成短句,以丰富生成的描述性短句的表达形式。
S44,将多个描述性短句组合在一起,得到对属于同一一级数据类型的多个数据的描述性文本。
参阅图3中的数据,“深圳市”的“土地覆盖”中的多个数据描述性文本可以为“深圳市的土地覆盖(一级)以植被为主导,其面积和比例分别为1108.16平方公里和56.69%,比占比第二的不透水高20.21%。不透水所占比重次之,其面积和比例分别为712.99平方公里和36.48%。水体、裸地所占比重较小,其面积和比例分别是86.22平方公里和4.41%,47.36平方公里和2.42%”。
S45,依次读取数据中各一级数据类型的多个数据,重复上述步骤,得到各一级数据类型的数据的描述性文本。
S46,将各一级数据类型的数据的描述性文本组合,得到原始数据的描述性文本。
参阅图6,在本实施例中,得到的描述性文本对各一级数据类型的数据分别进行了描述,并对各一级数据类型中的二级数据类型进行了进一步的描述,对数据进行了详细分析,以便用户直接从该文本中获取数据中的信息,减少了用户自己分析数据的工作量,该语言文本符合人类语言逻辑,可读性强。
图7示意性示出了本公开实施例提供的一种基于数据的文本生成装置,包括:数据读取模块701,数据分析模块702,规则建立模块703,文本生成模块704。
数据读取模块701,用于读取Excel文件中的数据;
数据分析模块702,用于对所述数据进行数据分析,得到所述数据的特征信息,所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比;
规则建立模块703,用于根据用户需求,建立文本生成规则;
文本生成模块704,用于基于所述文本生成规则和所述数据的特征信息,生成关于所述数据的描述性文本。
该文本生成装置的工作方法与上述文本生成方法相同,且具有与上述文本生成方法相同的优点,在此不做赘述。
可以理解的是,数据读取模块701、数据分析模块702、规则建立模块703、文本生成模块704可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,数据读取模块701、数据分析模块702、规则建立模块703、文本生成模块704中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,数据读取模块701、数据分析模块702、规则建立模块703、文本生成模块704中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
图6示意性示出了本公开实施例提供的一种计算机系统的框图。
如图8所示,计算机系统800包括处理器810、计算机可读存储介质820。该计算机系统800可以执行根据本公开实施例的方法。
具体地,处理器810例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器810还可以包括用于缓存用途的板载存储器。处理器810可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质820,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
计算机可读存储介质820可以包括计算机程序821,该计算机程序821可以包括代码/计算机可执行指令,其在由处理器810执行时使得处理器810执行根据本公开实施例的方法或其任何变形。
计算机程序821可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序821中的代码可以包括一个或多个程序模块,例如包括821A、模块821B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器810执行时,使得处理器810可以执行根据本公开实施例的方法或其任何变形。
根据本发明的实施例,数据读取模块701、数据分析模块702、规则建立模块703、文本生成模块704中的至少一个可以实现为参考图8描述的计算机程序模块,其在被处理器810执行时,可以实现上面描述的相应操作。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (9)

1.一种基于数据的文本生成方法,其特征在于,包括:
读取Excel文件中的数据;
对所述数据进行数据分析,得到所述数据的特征信息,所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比;
根据用户需求,建立文本生成规则;
基于所述文本生成规则和所述数据的特征信息,生成关于所述数据的描述性文本,包括:
读取所述数据中属于同一一级数据类型的多个数据;
根据所述文本生成规则,比较所述多个数据的各二级数据类型的主导等级和数据值占比;
选择与比较结果对应的文本模板,生成包含所述多个数据及其所属二级数据类型的主导等级、数据值占比的多个描述性短句;
将所述多个描述性短句组合在一起,得到对所述属于同一一级数据类型的多个数据的描述性文本。
2.根据权利要求1所述的方法,其特征在于,所述读取Excel文件中的数据,包括:
获取预设目录下的至少一个Excel文件;
读取所述至少一个Excel文件中的每一sheet表格中的数据。
3.根据权利要求1所述的方法,其特征在于,所述读取Excel文件中的数据之后,所述方法还包括:
将所述数据的数据格式处理为预设格式,所述预设格式包括数据主题、一级数据类型、二级数据类型、数据值,其中,一级数据类型包括至少一个二级数据类型;
将所述数据按照一级数据类型分组排列。
4.根据权利要求3所述的方法,其特征在于,所述对所述数据进行数据分析,得到所述数据的特征信息,包括:
计算所述数据中各一级数据类型数据的数据值总和;
计算所述数据中的各二级数据类型数据的数据值与所属一级数据类型数据的数据值总和之比,得到所述各二级数据类型数据的数据值占比;
对所述各二级数据类型数据的数据值占比进行聚类分析,得到所述各二级数据类型数据在所属一级数据类型中的主导等级。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
按照所述各二级数据类型数据的数据值占比从大到小的顺序,将所述各一级数据类型数据重新排列。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
依次读取所述数据中各一级数据类型的多个数据,得到所述各一级数据类型的数据的描述性文本;
将所述各一级数据类型的数据的描述性文本组合,得到所述数据完整的描述性文本。
7.一种基于数据的文本生成装置,其特征在于,包括:
数据读取模块,用于读取Excel文件中的数据;
数据分析模块,用于对所述数据进行数据分析,得到所述数据的特征信息,所述特征信息至少包括所述数据中各数据类型的主导等级和数据值占比;
规则建立模块,用于根据用户需求,建立文本生成规则;
文本生成模块,用于基于所述文本生成规则和所述数据的特征信息,生成关于所述数据的描述性文本,包括:
读取所述数据中属于同一一级数据类型的多个数据;
根据所述文本生成规则,比较所述多个数据的各二级数据类型的主导等级和数据值占比;
选择与比较结果对应的文本模板,生成包含所述多个数据及其所属二级数据类型的主导等级、数据值占比的多个描述性短句;
将所述多个描述性短句组合在一起,得到对所述属于同一一级数据类型的多个数据的描述性文本。
8.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至6中的任一项所述的基于数据的文本生成方法中的各个步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至6中的任一项所述的基于数据的文本生成方法中的各个步骤。
CN202010497343.9A 2020-06-03 2020-06-03 基于数据的文本生成方法、装置、电子设备及存储介质 Active CN111651587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010497343.9A CN111651587B (zh) 2020-06-03 2020-06-03 基于数据的文本生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010497343.9A CN111651587B (zh) 2020-06-03 2020-06-03 基于数据的文本生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111651587A CN111651587A (zh) 2020-09-11
CN111651587B true CN111651587B (zh) 2023-09-15

Family

ID=72347112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010497343.9A Active CN111651587B (zh) 2020-06-03 2020-06-03 基于数据的文本生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111651587B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484914A (zh) * 2016-10-26 2017-03-08 国云科技股份有限公司 一种快速实现数据挖掘分析的模块组件化方法
CN109324996A (zh) * 2018-10-12 2019-02-12 平安科技(深圳)有限公司 日志文件处理方法、装置、计算机设备及存储介质
CN109933610A (zh) * 2019-02-18 2019-06-25 阿里巴巴集团控股有限公司 数据处理方法、装置、计算机设备及存储介质
CN110335583A (zh) * 2019-04-15 2019-10-15 浙江工业大学 一种带隔断标识的复合文件生成及解析方法
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10503709B2 (en) * 2014-03-11 2019-12-10 Sap Se Data content identification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484914A (zh) * 2016-10-26 2017-03-08 国云科技股份有限公司 一种快速实现数据挖掘分析的模块组件化方法
CN109324996A (zh) * 2018-10-12 2019-02-12 平安科技(深圳)有限公司 日志文件处理方法、装置、计算机设备及存储介质
CN109933610A (zh) * 2019-02-18 2019-06-25 阿里巴巴集团控股有限公司 数据处理方法、装置、计算机设备及存储介质
CN110335583A (zh) * 2019-04-15 2019-10-15 浙江工业大学 一种带隔断标识的复合文件生成及解析方法
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111651587A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN108959256B (zh) 短文本的生成方法、装置、存储介质和终端设备
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN109857803B (zh) 数据同步方法、装置、设备、系统及计算机可读存储介质
CN108304493B (zh) 一种基于知识图谱的上位词挖掘方法及装置
CN103282903A (zh) 话题提取装置和程序
CN112182230A (zh) 一种基于深度学习的文本数据分类方法和装置
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN117520515A (zh) 一种基于本地知识库的银行领域问答方法、系统和装置
CN116882372A (zh) 文本生成方法、装置、电子设备以及存储介质
CN110110218A (zh) 一种身份关联方法及终端
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
CN111651587B (zh) 基于数据的文本生成方法、装置、电子设备及存储介质
CN111177328A (zh) 问答匹配系统和方法及问答处理设备和介质
CN111932148A (zh) 智慧城市评估方法、装置、计算机设备及存储介质
CN115129897B (zh) 利用知识图谱分析感知数据的方法、装置、设备和介质
CN115270731A (zh) 混合文档的协同编辑方法及装置
CN112818212B (zh) 语料数据采集方法、装置、计算机设备和存储介质
CN110968691B (zh) 司法热点确定方法及装置
CN114764437A (zh) 用户意图识别方法、装置以及电子设备
CN112214494A (zh) 检索方法及装置
EP3696704A1 (en) Pseudo-data generating device, method and program
CN110929085A (zh) 基于元语义分解的电力客服留言生成模型样本处理系统及方法
Cai et al. Accounting for the correspondence in commented data
GENTILE Using Flickr geotags to find similar tourism destinations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant