CN113434507B - 数据文本化方法、装置、设备及存储介质 - Google Patents
数据文本化方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113434507B CN113434507B CN202110731473.9A CN202110731473A CN113434507B CN 113434507 B CN113434507 B CN 113434507B CN 202110731473 A CN202110731473 A CN 202110731473A CN 113434507 B CN113434507 B CN 113434507B
- Authority
- CN
- China
- Prior art keywords
- data
- data item
- column
- data table
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据文本化方法、装置、设备及存储介质,其中,该方法以预设知识库为基础,通过对数据表的切片分割,进而,使用知识库中的相应数据项结构特征和数据项评判规则提取不同维度、层次的关键信息,获取数据表中隐藏的深层核心信息数据,生成相应的数据元组后将其进行聚合,最终生成信息文本,其中无需人工参与,解决了现有方法依赖分析人员个人经验与知识的问题。而且,本申请实施例能够通过不同的表数据切片,提取不同维度大小下的数据表关键信息,并在进行数据量压缩后生成文本,在提高数据分析人员的工作效率的同时,突破了其他数据文本生成的固化与冗余局限,使生成的文本更加凝练与专业。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据文本化方法、装置、设备及存储介质。
背景技术
随着企业业务的发展,企业相关的营业数据表数据量日渐增多,数据庞杂且难以直接观测得出结论,而相关决策者需要的是及时获取其中凝练的关键信息和结论,以用于做出相应决策,因此,数据文本化应运而生。
数据文本化是为数据表提供一种清晰明确的数据表述方式,能够让数据更易于理解和接受,并将其应用于企业生产管理活动的决策之中。现有对数据表进行文本化的方法主要由专业人员对数据表进行分析提炼后得出文本结论或者直接使用文本生成系统进行固化的计算,通过模板生成文字。
然而,上述对数据表进行文本化的方式比较依赖于分析人员的个人经验与知识,或者由于文本生成过于固化,使最终生成的文本容易包含数据表中的冗余信息,参考价值较低。
发明内容
为解决现有技术中存在的问题,本申请提供一种数据文本化方法、装置、设备及存储介质。
第一方面,本申请实施例提供一种数据文本化方法,该方法包括如下步骤:
获取目标数据表,并对所述目标数据表中的字段进行分割,获得分割字段;
将所述分割字段与预设知识库中的数据项结构特征进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列;
基于所述数据项属性列、所述数据项对象列、所述数据项特征列,以及所述预设知识库中的数据评判规则,进行数据表关键信息提取,获得所述目标数据表对应的数据元组;
对所述数据元组进行同类聚合,并根据同类聚合结果,确定所述目标数据表对应的数据文本。
在一种可能的实现方式中,所述基于所述数据项属性列、所述数据项对象列、所述数据项特征列,以及所述预设知识库中的数据评判规则,进行数据表关键信息提取,获得所述目标数据表对应的数据元组,包括:
获取预设用户需求,并根据所述预设用户需求,从所述数据项属性列、所述数据项对象列和所述数据项特征列中,确定要点数据;
基于所述数据评判规则和所述要点数据,进行数据表关键信息提取,获得所述目标数据表对应的数据元组。
在一种可能的实现方式中,所述对所述目标数据表中的字段进行分割,获得分割字段,包括:
确定所述目标数据表的最小分割单元;
基于所述最小分割单元,对所述目标数据表中的字段进行最小颗粒分割,获得所述分割字段。
在一种可能的实现方式中,所述数据项结构特征包括多个预设字段的数据项属性列、数据项对象列和数据项特征列。
所述将所述分割字段与预设知识库中的数据项结构特征进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列,包括:
将所述分割字段与所述多个预设字段的数据项属性列、数据项对象列和数据项特征列进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列。
在一种可能的实现方式中,所述根据同类聚合结果,确定所述目标数据表对应的数据文本,包括:
获取预设文本模板格式;
基于所述同类聚合结果,按照所述预设文本模板格式,生成所述目标数据表对应的数据文本。
在一种可能的实现方式中,所述基于所述数据项属性列、所述数据项对象列、所述数据项特征列,以及所述预设知识库中的数据评判规则,进行数据表关键信息提取,获得所述目标数据表对应的数据元组,包括:
利用所述数据项属性列对所述目标数据表进行横向切片,获得切片表;
确定所述数据项对象列对应的数据项对象值,以及所述数据项特征列对应的数据项特征值;
根据所述切片表、所述数据项对象值、所述数据项特征值、所述数据项对象列,以及所述数据评判规则,获得所述数据项特征列在对应的数据评判规则下对应的对象、特征值与文本释义组成的数据元组,并将获得的数据元组作为所述目标数据表对应的数据元组。
第二方面,本申请实施例提供一种数据文本化装置,所述装置包括:
分割模块,用于获取目标数据表,并对所述目标数据表中的字段进行分割,获得分割字段;
匹配模块,用于将所述分割字段与预设知识库中的数据项结构特征进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列;
提取模块,用于基于所述数据项属性列、所述数据项对象列、所述数据项特征列,以及所述预设知识库中的数据评判规则,进行数据表关键信息提取,获得所述目标数据表对应的数据元组;
确定模块,用于对所述数据元组进行同类聚合,并根据同类聚合结果,确定所述目标数据表对应的数据文本。
在一种可能的实现方式中,所述提取模块,具体用于:
获取预设用户需求,并根据所述预设用户需求,从所述数据项属性列、所述数据项对象列和所述数据项特征列中,确定要点数据;
基于所述数据评判规则和所述要点数据,进行数据表关键信息提取,获得所述目标数据表对应的数据元组。
在一种可能的实现方式中,所述分割模块,具体用于:
确定所述目标数据表的最小分割单元;
基于所述最小分割单元,对所述目标数据表中的字段进行最小颗粒分割,获得所述分割字段。
在一种可能的实现方式中,所述数据项结构特征包括多个预设字段的数据项属性列、数据项对象列和数据项特征列。
所述匹配模块,具体用于:
将所述分割字段与所述多个预设字段的数据项属性列、数据项对象列和数据项特征列进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列。
在一种可能的实现方式中,所述确定模块,具体用于:
获取预设文本模板格式;
基于所述同类聚合结果,按照所述预设文本模板格式,生成所述目标数据表对应的数据文本。
在一种可能的实现方式中,所述提取模块,具体用于:
利用所述数据项属性列对所述目标数据表进行横向切片,获得切片表;
确定所述数据项对象列对应的数据项对象值,以及所述数据项特征列对应的数据项特征值;
根据所述切片表、所述数据项对象值、所述数据项特征值、所述数据项对象列,以及所述数据评判规则,获得所述数据项特征列在对应的数据评判规则下对应的对象、特征值与文本释义组成的数据元组,并将获得的数据元组作为所述目标数据表对应的数据元组。
第三方面,本申请实施例提供一种数据文本化设备,包括:
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如第一方面所述的方法的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行第一方面所述的方法。
本申请实施例提供的数据文本化方法、装置、设备及存储介质,该方法通过获取目标数据表,并对该目标数据表中的字段进行分割,获得分割字段,进而,使用预设知识库中的数据项结构特征和数据评判规则,进行数据表关键信息提取,获取数据表中隐藏的深层核心信息数据,从而,生成相应的数据元组,并对该数据元组进行同类聚合,根据同类聚合结果,生成上述目标数据表对应的数据文本,其中无需人工参与,提高了数据文本化效率,解决了现有方法依赖分析人员个人经验与知识的问题。而且,本申请实施例构建知识库对数据表字段进行解析,不受数据表结构限制,并从中提炼出关键信息并进行数据聚合,生成最终的可阅读文本,解决现有数据文本生成过于固化,无法进行灵活修改数据表结构和数据提炼压缩的问题,使最终生成的文本更加专业凝练,提高生成文本的参考价值。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据文本化系统架构示意图;
图2为本申请实施例提供的一种数据文本化方法的流程示意图;
图3为本申请实施例提供的另一种数据文本化方法的流程示意图;
图4为本申请实施例提供的一种数据文本化的示意图;
图5为本申请实施例提供的一种数据文本化装置的结构示意图;
图6为本申请提供的一种数据文本化设备的基本硬件架构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有的数据文本化方法主要为直接使用文本生成系统抽取数据表中的数据,利用系统进行固化的计算与模板匹配,最终拼接生成,或者依赖于分析人员进行分析提取。这样,使得现有的数据文本化过于固化,使最终生成的文本冗余局限,或者过分依赖分析人员个人经验与知识,不适合实际应用。
因此,为了解决上述问题,本申请实施例提出一种数据文本化方法,以预设知识库为基础,通过对数据表的切片分割,进而,使用知识库中的相应数据项结构特征和数据项评判规则提取不同维度、层次的关键信息,获取数据表中隐藏的深层核心信息数据,生成相应的数据元组后将其进行聚合,最终生成信息文本,其中无需人工参与,解决了现有方法依赖分析人员个人经验与知识的问题。而且,本申请实施例能够通过不同的表数据切片,提取不同维度大小下的数据表关键信息,并在进行数据量压缩后生成文本,在提高数据分析人员的工作效率的同时,突破了其他数据文本生成的固化与冗余局限,使生成的文本更加凝练与专业。
可选地,本申请提供的一种数据文本化方法,可以适用于图1所示的数据文本化系统架构示意图,如图1所示,该系统可以包括接收装置101、处理装置102和显示装置103。
在具体实现过程中,接收装置101可以是输入/输出接口,也可以是通信接口,可以用于接收数据表和预设知识库等。
处理装置102可以对数据表进行切片分割,然后使用预设知识库进行数据表关键信息提取,获取数据表中隐藏的深层核心信息数据,生成相应的数据元组后将其进行聚合,最终生成信息文本,其中无需人工参与,提高了数据文本化效率,解决了现有方法依赖分析人员个人经验与知识的问题。而且处理装置202利用知识库对数据表字段进行解析,不受数据表结构限制,并从中提炼出关键信息并进行数据聚合,生成最终的可阅读文本,解决现有数据文本生成过于固化,无法进行灵活修改数据表结构和数据提炼压缩的问题,使最终生成的文本更加专业凝练,提高生成文本的参考价值。
显示装置103可以用于对上述数据表和上述生成的文本等进行显示。
显示装置还可以是触摸显示屏,用于在显示的上述内容的同时接收用户指令,以实现与用户的交互。
应理解,上述处理装置可以通过读取存储器中的指令并执行指令的方式实现,也可以通过芯片电路实现。
上述系统仅为一种示例性系统,具体实施时,可以根据应用需求设置。
可以理解的是,本申请实施例示意的结构并不构成对数据文本化系统架构的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
另外,本申请实施例描述的系统架构是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面以几个实施例为例对本申请的技术方案进行描述,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供了一种数据文本化方法的流程示意图,本实施例的执行主体可以为图1所示实施例中的处理装置,如图2所示,该方法可以包括:
S201:获取目标数据表,并对该目标数据表中的字段进行分割,获得分割字段。
这里,上述目标数据表可以根据实际情况确定,例如某企业的产品生产数据表等。
上述处理装置可以从预设数据库中获取上述目标数据表,其中,该预设数据库存储多个需要进行数据文本化的数据表。
示例性的,上述处理装置在获取上述目标数据表后,可以确定上述目标数据表的最小分割单元,进而,基于该最小分割单元,对上述目标数据表中的字段进行最小颗粒分割,获得分割字段。
例如以字段“第五代移动通信技术(5th Generation Mobile CommunicationTechnology,5G)当日发展量”为例,上述处理装置确定最小分割单元为“5G”产品和“当日发展量”,然后,基于该最小分割单元对目标数据表中的字段进行最小颗粒分割,从而,后续利用最小颗粒分割结果进行后续数据表关键信息提取等,使得提取的信息更准确。
S202:将上述分割字段与预设知识库中的数据项结构特征进行匹配,获得上述目标数据表的数据项属性列、数据项对象列和数据项特征列。
其中,上述数据项结构特征可以包括多个预设字段的数据项属性列、数据项对象列和数据项特征列。
上述处理装置可以将上述分割字段与上述多个预设字段的数据项属性列、数据项对象列和数据项特征列进行匹配,从而,获得上述目标数据表的数据项属性列、数据项对象列和数据项特征列。
这里,上述处理装置在将上述分割字段与预设知识库中的数据项结构特征进行匹配之前,可以先构建预设知识库中的数据项结构特征,然后将上述分割字段与构建的预设知识库中的数据项结构特征进行匹配。其中一个数据项结构特征可以理解为一个数据项对应的各种数据属性,即上述数据项结构特征可以包括数据表中数据项对应的基本信息,该基本信息可以包括数据项名称、数据项类型、数据项对应文本信息以及数据项权重等,上述数据项类型可以分为数据项属性列、数据项对象列和数据项特征列。
其中,数据项属性列:在数据表中用于标志该行数据的时间或者空间属性,例如数据日期或对应的数据归属渠道,作为对数据表进行横向切割数据对比的维度。数据项对象列:表明该列数据为后续其他数据的主体对象集合,即某行数据的后续数据均以此对象为主体进行描述,用于确定文本生成的主体对象。数据项特征列:为数据项对象列的主体对应的具体特征以及特征值。
S203:基于上述数据项属性列、数据项对象列、数据项特征列,以及上述预设知识库中的数据评判规则,进行数据表关键信息提取,获得上述目标数据表对应的数据元组。
示例性的,上述处理装置可以利用上述数据项属性列对上述目标数据表进行横向切片,获得切片表,并确定上述数据项对象列对应的数据项对象值,以及上述数据项特征列对应的数据项特征值,从而,根据上述切片表、数据项对象值、数据项特征值、数据项对象列,以及上述数据评判规则,获得上述数据项特征列在对应的数据评判规则下对应的对象、特征值与文本释义组成的数据元组,并将获得的数据元组作为上述目标数据表对应的数据元组。
这里,上述处理装置在基于上述数据项属性列、数据项对象列、数据项特征列,以及上述预设知识库中的数据评判规则,进行数据表关键信息提取之前,还可以构建预设知识库中的数据项评判规则。其中,该数据项评判规则可以是对一个数据特征列进行评判的函数集合,返回该数据特征列在对应的评判规则下对应的对象、特征值与文本释义组成的数据元组。
例如,假设数据表为D,数据项对象列为O,数据项属性列A,上述处理装置可以使用数据项属性列A对数据表进行横向切片后获取的切片表为DA,对应的数据项特征C在属性列A的评判规则为FCA,则关于此数据项特征列在此数据项属性列下关于主体对象集合的评判与关键信息提取可记为:
(OF,CF,W)=FCA(DA,O)
其中OF和CF分别为对应的评判标准下获取的数据项对象值和对应特征在评判规则下的结果值,此结果值可为该特征列在该数据项对象值约束下的数据项特征值,即数据表中的数值,也可为该数据项对象值对于的特征值的衍生数据,例如该特征值的升降序序号等,由评判规则FCA决定。W为此对象值和特征值对应的文本释义,可以由数据项结构特征中的“数据项对应文本信息”生成,即在DA中OF为W值为CF,例如(“福田”,“100”,“移网当日发展量”)可释义为“福田移网当日发展量为100”。
在本申请实施例中,上述数据评判规则主要为数据项特征列的关系处理,包括单一数据项特征列内部的关系运算(最大、最小、均值、时序增幅、环比、同比等),也包含多数据项特征列之间的对比(两列数值对比,占比关系等运算)。这样,上述处理装置通过上述数据评判规则,获取数据表中隐藏的深层核心信息数据,使最终生成的文本更加专业凝练。
S204:对上述数据元组进行同类聚合,并根据同类聚合结果,确定上述目标数据表对应的数据文本。
这里,上述处理装置在对上述数据元组进行同类聚合时,可以按同一数据项对象值或同一数据项特征列进行聚合,然后获取预设文本模板格式,从而,基于上述同类聚合结果,按照上述预设文本模板格式,生成上述目标数据表对应的数据文本。
其中,上述预设文本模板格式可以根据实际情况设置,例如文本模板格式如下,其中W1AF1后的[自定义语句]可循环匹配多组[AFn:Wn]键值对,且自定义语句中可嵌入函数如获取当前日期函数等:
[自定义前置语句]
OF[自定义语句]W1AF1[自定义语句]…
[自定义后置语句]
例如{“福田”,[“100”:“移网当日发展量”],[“第一”:“移网当日发展量排名”],…},可套入模板生成为:
“xxxx年xx月xx日区分移网发展冠军:
福田移网当日发展量为100,移网当日发展量排名第一!!”
本申请实施例通过获取目标数据表,并对该目标数据表中的字段进行分割,获得分割字段,进而,使用预设知识库中的数据项结构特征和数据评判规则,进行数据表关键信息提取,获取数据表中隐藏的深层核心信息数据,从而,生成相应的数据元组,并对该数据元组进行同类聚合,根据同类聚合结果,生成上述目标数据表对应的数据文本,其中无需人工参与,提高了数据文本化效率,解决了现有方法依赖分析人员个人经验与知识的问题。而且,本申请实施例构建知识库对数据表字段进行解析,不受数据表结构限制,并从中提炼出关键信息并进行数据聚合,生成最终的可阅读文本,解决现有数据文本生成过于固化,无法进行灵活修改数据表结构和数据提炼压缩的问题,使最终生成的文本更加专业凝练,提高生成文本的参考价值。
另外,本申请实施例在基于上述数据项属性列、数据项对象列、数据项特征列,以及上述预设知识库中的数据评判规则,进行数据表关键信息提取时,还可以考虑用户需求,从而结合用户需求和上述数据评判规则,进行数据表关键信息提取,生成数据元组,满足多种应用需要。图3为本申请实施例提出的另一种数据文本化方法的流程示意图。如图3所示,该方法包括:
S301:获取目标数据表,并对该目标数据表中的字段进行分割,获得分割字段。
S302:将上述分割字段与预设知识库中的数据项结构特征进行匹配,获得上述目标数据表的数据项属性列、数据项对象列和数据项特征列。
其中,步骤S301-S302参见上述步骤S201-S202的相关描述,此处不再赘述。
S303:获取预设用户需求,并根据该预设用户需求,从上述数据项属性列、数据项对象列和数据项特征列中,确定要点数据。
S304:基于上述数据评判规则和上述要点数据,进行数据表关键信息提取,获得上述目标数据表对应的数据元组。
这里,上述数据表的关键信息提取上述处理装置可以通过知识库数据项评判规则结合用户需求获取。上述处理装置将上述数据项属性列、数据项对象列和数据项特征列提供给用户以供用户进行选择,确定要点数据,进而根据该要点数据,使用上述数据评判规则,进行数据表关键信息提取,生成对应的数据元组。
其中,如果用户不作出相关选择,上述处理装置可以获取数据项权重,并基于该数据项权重对同一数据区内的数据列进行排序,从而,基于上述数据评判规则和上述排序结果,进行数据表关键信息提取,获得上述目标数据表对应的数据元组。其中,上述处理装置可以基于上述数据评判规则和上述排序结果,优先提取最高权重数据列,适合应用。
S305:对上述数据元组进行同类聚合,并根据同类聚合结果,确定上述目标数据表对应的数据文本。
其中,步骤S305参见上述步骤S204的相关描述,此处不再赘述。
本申请实施例在基于上述数据项属性列、数据项对象列、数据项特征列,以及上述预设知识库中的数据评判规则,进行数据表关键信息提取时,还可以考虑用户需求,从而结合用户需求和上述数据评判规则,进行数据表关键信息提取,生成数据元组,满足多种应用需要。而且,本申请实施例以预设知识库为基础,通过数据表的切片分割,进而,使用知识库中的相应数据项结构特征和数据项评判规则提取不同维度、层次的关键信息,获取数据表中隐藏的深层核心信息数据,生成相应的数据元组后将其进行聚合,最终生成信息文本,其中无需人工参与,解决了现有方法依赖分析人员个人经验与知识的问题。另外,本申请实施例能够通过不同的表数据切片,提取不同维度大小下的数据表关键信息,并在进行数据量压缩后生成文本,在提高数据分析人员的工作效率的同时,突破了其他数据文本生成的固化与冗余局限,使生成的文本更加凝练与专业。
这里,如图4所示,在数据文本化过程中,上述处理装置可以先构建预设知识库,该知识库中包括数据项结构特征与数据项评判规则,知识库将作为对表结构进行解析的与关键信息提取的基准,进而获取目标数据表,对表字段意义进行最小颗粒分割,使用上述知识库的数据结构特征对数据颗粒进行结构解析,获取数据项属性列、数据项对象列和数据项特征列,再基于知识库数据评判规则和用户需求进行数据表关键信息提取,生成数据元组,最后,基于上述生成的数据元组,进行数据聚合后根据预设文本模板格式生成文本化信息。其中,上述用户需求和预设文本模板格式可以为用户自定义信息。
上述处理装置通过构建专家知识库,对数据表字段进行解析,不受数据表结构限制,并从中提炼出关键信息并进行数据聚合,最终按照可自定义模板生成最终的可阅读文本,形成完整的从数据表到最终文本的生成过程。解决了传统方法严重依赖分析人员和文本生成过于固化,无法进行灵活修改数据表结构和数据提炼压缩的问题,使最终生成的文本更加专业凝练且不用过分依赖于人工。
对应于上文实施例的数据文本化方法,图5为本申请实施例提供的数据文本化装置的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分。图5为本申请实施例提供的一种数据文本化装置的结构示意图,该数据文本化装置50包括:分割模块501、匹配模块502、提取模块503以及确定模块504。这里的数据文本化装置可以是上述处理装置本身,或者是实现上述处理装置的功能的芯片或者集成电路。这里需要说明的是,分割模块、匹配模块、提取模块以及确定模块的划分只是一种逻辑功能的划分,物理上两者可以是集成的,也可以是独立的。
其中,分割模块501,用于获取目标数据表,并对所述目标数据表中的字段进行分割,获得分割字段。
匹配模块502,用于将所述分割字段与预设知识库中的数据项结构特征进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列。
提取模块503,用于基于所述数据项属性列、所述数据项对象列、所述数据项特征列,以及所述预设知识库中的数据评判规则,进行数据表关键信息提取,获得所述目标数据表对应的数据元组。
确定模块504,用于对所述数据元组进行同类聚合,并根据同类聚合结果,确定所述目标数据表对应的数据文本。
在一种可能的实现方式中,所述提取模块503,具体用于:
获取预设用户需求,并根据所述预设用户需求,从所述数据项属性列、所述数据项对象列和所述数据项特征列中,确定要点数据;
基于所述数据评判规则和所述要点数据,进行数据表关键信息提取,获得所述目标数据表对应的数据元组。
在一种可能的实现方式中,所述分割模块501,具体用于:
确定所述目标数据表的最小分割单元;
基于所述最小分割单元,对所述目标数据表中的字段进行最小颗粒分割,获得所述分割字段。
在一种可能的实现方式中,所述数据项结构特征包括多个预设字段的数据项属性列、数据项对象列和数据项特征列。
所述匹配模块502,具体用于:
将所述分割字段与所述多个预设字段的数据项属性列、数据项对象列和数据项特征列进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列。
在一种可能的实现方式中,所述确定模块504,具体用于:
获取预设文本模板格式;
基于所述同类聚合结果,按照所述预设文本模板格式,生成所述目标数据表对应的数据文本。
在一种可能的实现方式中,所述提取模块503,具体用于:
利用所述数据项属性列对所述目标数据表进行横向切片,获得切片表;
确定所述数据项对象列对应的数据项对象值,以及所述数据项特征列对应的数据项特征值;
根据所述切片表、所述数据项对象值、所述数据项特征值、所述数据项对象列,以及所述数据评判规则,获得所述数据项特征列在对应的数据评判规则下对应的对象、特征值与文本释义组成的数据元组,并将获得的数据元组作为所述目标数据表对应的数据元组。
本申请实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本申请实施例此处不再赘述。
可选地,图6示意性地分别提供本申请所述数据文本化设备的一种可能的基本硬件架构。
参见图6,数据文本化设备包括至少一个处理器601以及通信接口603。进一步可选的,还可以包括存储器602和总线604。
其中,数据文本化设备中,处理器601的数量可以是一个或多个,图6仅示意了其中一个处理器601。可选地,处理器601,可以是中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)或者数字信号处理器(digital signalprocessor,DSP)。如果数据文本化设备具有多个处理器601,多个处理器601的类型可以不同,或者可以相同。可选地,数据文本化设备的多个处理器601还可以集成为多核处理器。
存储器602存储计算机指令和数据;存储器602可以存储实现本申请提供的上述数据文本化方法所需的计算机指令和数据,例如,存储器602存储用于实现上述数据文本化方法的步骤的指令。存储器602可以是以下存储介质的任一种或任一种组合:非易失性存储器(例如只读存储器(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘),易失性存储器。
通信接口603可以为所述至少一个处理器提供信息输入/输出。也可以包括以下器件的任一种或任一种组合:网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。
可选的,通信接口603还可以用于数据文本化设备与其它计算设备或者终端进行数据通信。
进一步可选的,图6用一条粗线表示总线604。总线604可以将处理器601与存储器602和通信接口603连接。这样,通过总线604,处理器601可以访问存储器602,还可以利用通信接口603与其它计算设备或者终端进行数据交互。
在本申请中,数据文本化设备执行存储器602中的计算机指令,使得数据文本化设备实现本申请提供的上述数据文本化方法,或者使得数据文本化设备部署上述的数据文本化装置。
从逻辑功能划分来看,示例性的,如图6所示,存储器602中可以包括分割模块501、匹配模块502、提取模块503以及确定模块504。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现分割模块、匹配模块、提取模块以及确定模块的功能,而不限定是物理上的结构。
另外,上述的数据文本化设备除了可以像上述图6通过软件实现外,也可以作为硬件模块,或者作为电路单元,通过硬件实现。
本申请提供一种计算机可读存储介质,所述计算机程序产品包括计算机指令,所述计算机指令指示计算设备执行本申请提供的上述数据文本化方法。
本申请实施例提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行本申请提供的上述数据文本化方法。
本申请提供一种芯片,包括至少一个处理器和通信接口,所述通信接口为所述至少一个处理器提供信息输入和/或输出。进一步,所述芯片还可以包含至少一个存储器,所述存储器用于存储计算机指令。所述至少一个处理器用于调用并运行该计算机指令,以执行本申请提供的上述数据文本化方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
Claims (9)
1.一种数据文本化方法,其特征在于,包括:
获取目标数据表,并对所述目标数据表中的字段进行分割,获得分割字段;
将所述分割字段与预设知识库中的数据项结构特征进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列,所述数据项结构特征为数据项对应的各种数据属性,所述数据项结构特征包括数据表中数据项对应的基本信息,该基本信息包括数据项名称、数据项类型、数据项对应文本信息以及数据项权重,所述数据项类型分为数据项属性列、数据项对象列和数据项特征列,所述数据项属性列为在数据表中用于标志该列数据的时间或者空间属性,作为对数据表进行横向切割数据对比的维度,所述数据项对象列表明该列数据为后续其他数据的主体对象集合,用于确定文本生成的主体对象,所述数据项特征列为数据项对象列的主体对应的具体特征以及特征值;
基于所述数据项属性列、所述数据项对象列、所述数据项特征列,以及所述预设知识库中的数据评判规则,进行数据表关键信息提取,获得所述目标数据表对应的数据元组;
对所述数据元组进行同类聚合,并根据同类聚合结果,确定所述目标数据表对应的数据文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述数据项属性列、所述数据项对象列、所述数据项特征列,以及所述预设知识库中的数据评判规则,进行数据表关键信息提取,获得所述目标数据表对应的数据元组,包括:
获取预设用户需求,并根据所述预设用户需求,从所述数据项属性列、所述数据项对象列和所述数据项特征列中,确定要点数据;
基于所述数据评判规则和所述要点数据,进行数据表关键信息提取,获得所述目标数据表对应的数据元组。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述目标数据表中的字段进行分割,获得分割字段,包括:
确定所述目标数据表的最小分割单元;
基于所述最小分割单元,对所述目标数据表中的字段进行最小颗粒分割,获得所述分割字段。
4.根据权利要求1或2所述的方法,其特征在于,所述数据项结构特征包括多个预设字段的数据项属性列、数据项对象列和数据项特征列;
所述将所述分割字段与预设知识库中的数据项结构特征进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列,包括:
将所述分割字段与所述多个预设字段的数据项属性列、数据项对象列和数据项特征列进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列。
5.根据权利要求1或2所述的方法,其特征在于,所述根据同类聚合结果,确定所述目标数据表对应的数据文本,包括:
获取预设文本模板格式;
基于所述同类聚合结果,按照所述预设文本模板格式,生成所述目标数据表对应的数据文本。
6.根据权利要求1或2所述的方法,其特征在于,所述基于所述数据项属性列、所述数据项对象列、所述数据项特征列,以及所述预设知识库中的数据评判规则,进行数据表关键信息提取,获得所述目标数据表对应的数据元组,包括:
利用所述数据项属性列对所述目标数据表进行横向切片,获得切片表;
确定所述数据项对象列对应的数据项对象值,以及所述数据项特征列对应的数据项特征值;
根据所述切片表、所述数据项对象值、所述数据项特征值、所述数据项对象列,以及所述数据评判规则,获得所述数据项特征列在对应的数据评判规则下对应的对象、特征值与文本释义组成的数据元组,并将获得的数据元组作为所述目标数据表对应的数据元组。
7.一种数据文本化装置,其特征在于,包括:
分割模块,用于获取目标数据表,并对所述目标数据表中的字段进行分割,获得分割字段;
匹配模块,用于将所述分割字段与预设知识库中的数据项结构特征进行匹配,获得所述目标数据表的数据项属性列、数据项对象列和数据项特征列,所述数据项结构特征为数据项对应的各种数据属性,所述数据项结构特征包括数据表中数据项对应的基本信息,该基本信息包括数据项名称、数据项类型、数据项对应文本信息以及数据项权重,所述数据项类型分为数据项属性列、数据项对象列和数据项特征列,所述数据项属性列为在数据表中用于标志该列数据的时间或者空间属性,作为对数据表进行横向切割数据对比的维度,所述数据项对象列表明该列数据为后续其他数据的主体对象集合,用于确定文本生成的主体对象,所述数据项特征列为数据项对象列的主体对应的具体特征以及特征值;
提取模块,用于基于所述数据项属性列、所述数据项对象列、所述数据项特征列,以及所述预设知识库中的数据评判规则,进行数据表关键信息提取,获得所述目标数据表对应的数据元组;
确定模块,用于对所述数据元组进行同类聚合,并根据同类聚合结果,确定所述目标数据表对应的数据文本。
8.一种数据文本化设备,其特征在于,包括:
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如权利要求1-6任一项所述的方法的指令。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110731473.9A CN113434507B (zh) | 2021-06-29 | 2021-06-29 | 数据文本化方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110731473.9A CN113434507B (zh) | 2021-06-29 | 2021-06-29 | 数据文本化方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434507A CN113434507A (zh) | 2021-09-24 |
CN113434507B true CN113434507B (zh) | 2023-07-07 |
Family
ID=77757843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110731473.9A Active CN113434507B (zh) | 2021-06-29 | 2021-06-29 | 数据文本化方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434507B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737172B (zh) * | 2023-08-11 | 2023-12-12 | 杭州初灵信息技术股份有限公司 | 一种小颗粒数据包的解析系统和方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571861A (zh) * | 2008-04-29 | 2009-11-04 | 阿里巴巴集团控股有限公司 | 一种对数据表进行转换的方法及装置 |
CN107220251A (zh) * | 2016-03-21 | 2017-09-29 | 阿里巴巴集团控股有限公司 | 生成描述信息的方法及装置 |
CN110442772A (zh) * | 2019-08-13 | 2019-11-12 | 深圳司南数据服务有限公司 | 一种智能研报生成方法及终端 |
CN111062193A (zh) * | 2019-12-16 | 2020-04-24 | 医渡云(北京)技术有限公司 | 医疗数据标注方法及装置、存储介质、电子设备 |
CN112069827A (zh) * | 2020-07-30 | 2020-12-11 | 国网天津市电力公司 | 一种基于细粒度主题建模的数据到文本生成方法 |
CN112559688A (zh) * | 2020-12-18 | 2021-03-26 | 未鲲(上海)科技服务有限公司 | 财报的阅读难度计算方法、装置、设备及可读存储介质 |
CN112860777A (zh) * | 2021-03-22 | 2021-05-28 | 深圳市腾讯信息技术有限公司 | 数据处理方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10817657B2 (en) * | 2018-12-26 | 2020-10-27 | Nokia Solutions And Networks Oy | Determination of field types in tabular data |
-
2021
- 2021-06-29 CN CN202110731473.9A patent/CN113434507B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571861A (zh) * | 2008-04-29 | 2009-11-04 | 阿里巴巴集团控股有限公司 | 一种对数据表进行转换的方法及装置 |
CN107220251A (zh) * | 2016-03-21 | 2017-09-29 | 阿里巴巴集团控股有限公司 | 生成描述信息的方法及装置 |
CN110442772A (zh) * | 2019-08-13 | 2019-11-12 | 深圳司南数据服务有限公司 | 一种智能研报生成方法及终端 |
CN111062193A (zh) * | 2019-12-16 | 2020-04-24 | 医渡云(北京)技术有限公司 | 医疗数据标注方法及装置、存储介质、电子设备 |
CN112069827A (zh) * | 2020-07-30 | 2020-12-11 | 国网天津市电力公司 | 一种基于细粒度主题建模的数据到文本生成方法 |
CN112559688A (zh) * | 2020-12-18 | 2021-03-26 | 未鲲(上海)科技服务有限公司 | 财报的阅读难度计算方法、装置、设备及可读存储介质 |
CN112860777A (zh) * | 2021-03-22 | 2021-05-28 | 深圳市腾讯信息技术有限公司 | 数据处理方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
Data-to-text Generation with Pointer-Generator Networks;Mengzhu Liu 等;2020 IEEE International Conference on Advances in Electrical Engineering and Computer Applications (AEECA);244-251 * |
自然语言生成系统的多视图体系结构;郭忠伟 等;计算机工程与应用(第06期);106-107 * |
Also Published As
Publication number | Publication date |
---|---|
CN113434507A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11157550B2 (en) | Image search based on feature values | |
US11416768B2 (en) | Feature processing method and feature processing system for machine learning | |
CN106980573B (zh) | 一种构建测试用例请求对象的方法、装置及系统 | |
US20150032708A1 (en) | Database analysis apparatus and method | |
CN109684330A (zh) | 用户画像库构建方法、装置、计算机设备及存储介质 | |
CN103064689A (zh) | 一种动态生成报表页面的实现方法及系统 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN107918618B (zh) | 数据处理方法及装置 | |
KR20160100752A (ko) | 컬럼-인덱스 데이터 포맷을 이용하여 빅데이터를 효율적으로 처리 및 분석하는 시스템 및 방법 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN111652468A (zh) | 业务流程的生成方法、装置、存储介质及计算机设备 | |
CN105631033A (zh) | 一种视频数据的挖掘方法和装置 | |
CN109635260A (zh) | 用于生成文章模板的方法、装置、设备和存储介质 | |
CN113434507B (zh) | 数据文本化方法、装置、设备及存储介质 | |
CN106599122A (zh) | 一种基于垂直分解的并行频繁闭序列挖掘方法 | |
CN112100177A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN112711614A (zh) | 业务数据管理方法、装置 | |
CN103226577A (zh) | 一种新闻聚类方法 | |
CN106815320B (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 | |
CN117150138A (zh) | 一种基于高维空间映射的科技资源组织方法及系统 | |
CN113570464B (zh) | 一种数字货币交易社区识别方法、系统、设备及存储介质 | |
CN114880308A (zh) | 一种基于大数据的元数据处理方法、装置、介质 | |
CN114675767A (zh) | 一种信息采集方法、装置、电子设备以及存储介质 | |
CN114258541A (zh) | 数据合并方法、装置、电子设备及存储介质 | |
WO2018048350A1 (en) | Cohort data analysis methods and systems and data structures for performing cohort data analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |