CN111435365A - 一种数据文本化任务执行方法 - Google Patents

一种数据文本化任务执行方法 Download PDF

Info

Publication number
CN111435365A
CN111435365A CN201811589587.9A CN201811589587A CN111435365A CN 111435365 A CN111435365 A CN 111435365A CN 201811589587 A CN201811589587 A CN 201811589587A CN 111435365 A CN111435365 A CN 111435365A
Authority
CN
China
Prior art keywords
data
template
file
text
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811589587.9A
Other languages
English (en)
Inventor
黄彦浩
李炳男
李文臣
孙世杰
雷富强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electric Power Research Institute Co Ltd CEPRI filed Critical China Electric Power Research Institute Co Ltd CEPRI
Priority to CN201811589587.9A priority Critical patent/CN111435365A/zh
Publication of CN111435365A publication Critical patent/CN111435365A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数据文本化任务执行方法,所述方法包括:步骤S31:读取原始仿真数据文件;步骤S32:基于数据读取模板进行原始仿真数据文件的读取;步骤S33:基于数据解析文件进行所读取数据的解析;步骤S34:按照文本化模板填充文本化信息文件。本发明采用自定义规则的形式,结合电力系统专业知识对数据进行分析并产生短句文本,将相似的语句聚合,并将聚合后的语句按照模板组织生成最终可阅读文本,形成了完整的从数据到知识文本的生成过程。并突破了以往文本生成系统的固化计算、文字生成依赖模板的局限,使得文本生成系统更易维护,生成的最终文本形式更为丰富,内容更加专业、全面。

Description

一种数据文本化任务执行方法
【技术领域】
本发明属于数据文本化技术领域,尤其涉及一种数据文本化任务执行方法。
【背景技术】
电力系统仿真计算会产生大量的运行实时数据和结果数据,数据的结构具有一定复杂性,难以直接观测得出结论。数据文本化技术为电力系统仿真计算中产生的大量数据提供了一种数据压缩、信息浓缩的手段,并能从文本化后的信息中进行文本挖掘,对数据多次利用。同时,这种将数据文本化的方法简化了分析人员在数据中找信息的重复性工作,节约了大量分析人员的宝贵时间,因此,将数据文本化,以清晰明确的形式将数据信息转化为文本信息,便成了仿真分析的一种新方式、新思路。本发明采用自定义规则的形式,结合电力系统专业知识对数据进行分析并产生短句文本,将相似的语句聚合,并将聚合后的语句按照模板组织生成最终可阅读文本,形成了完整的从数据到知识文本的生成过程。并突破了以往文本生成系统的固化计算、文字生成依赖模板的局限,使得文本生成系统更易维护,生成的最终文本形式更为丰富,内容更加专业、全面。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种数据文本化任务执行方法,该方法包括:
步骤S31:读取原始仿真数据文件;
步骤S32:基于数据读取模板进行原始仿真数据文件的读取;
步骤S33:基于数据解析文件进行所读取数据的解析;
步骤S34:按照文本化模板填充文本化信息文件。
进一步的,所述原始仿真数据文件为潮流仿真计算数据文件。
进一步的,所述潮流仿真计算数据文件按不同的电气元件存储在一个算例文件夹内,单个文件的内容为一类电气元件的仿真计算数据。
进一步的,每个文件的内容形式为二维表,二维表的行表示在单位仿真时间内,电气元件的某个物理量所产生的仿真数据,二维表的列表示这类元件的可观测物理量。
进一步的,潮流仿真计算数据文件具有文件间关联的特点,可由第一文件中某一行列的数据值关联到第二文件中某一行列的数据值。
进一步的,关联的两个数据值相等。
进一步的,所述基于数据读取模板进行原始仿真数据文件的读取,具体为:针对概念对象模型的特点,在数据读取模板中基于模板项与概念对象属性对应关系,进行模板项的填充。
进一步的,在进行数据读取模板结束后,数据文本化任务读取所有模板解析所需要的调用函数进行后续的模板解析。
进一步的,所述基于数据解析文件进行所读取数据的解析,具体为:进行模板解析函数的循环调用,在每次调用过程中,模板解析函数通过读取数据解析文件,进行概念对象及其水平关系的解析;通过循环调用来解析所有的模板项,直到所有模板项均解析完毕为止。
进一步的,所述文本化信息文件为位于分布式存储设备上;以适用于当前电力系统仿真计算的大数据环境。
本发明的有益效果包括:采用自定义规则的形式,结合电力系统专业知识对数据进行分析并产生短句文本,将相似的语句聚合,并将聚合后的语句按照模板组织生成最终可阅读文本,形成了完整的从数据到知识文本的生成过程。并突破了以往文本生成系统的固化计算、文字生成依赖模板的局限,使得文本生成系统更易维护,生成的最终文本形式更为丰富,内容更加专业、全面;规避了当前人工智能算法对数据量的依赖,在数据量不足的情况下仍能得出相应的结论。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明的数据解析模板示意图。
图2是本发明的数据读取模板示意图。
图3是本发明的文本化任务执行过程的时序示意图。
图4是本发明的文本化任务执行过程中的调用关系示意图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
如图1所示,对本发明所应用的一种数据文本化任务执行方法进行详细说明;
基于概念对象、关系、实体之间的逻辑关系进行仿真数据文本化的执行;将数据文本化任务视为实体,称为E,设定实体存在;所述实体由若干事实(Fact)构成,事实由先验判断或逻辑推理得出;事实间不存在关系,事实只是一种描述或罗列;
事实是由概念对象和概念对象间的关系构成;概念对象包含一个或多个概念对象属性;概念对象能够跨越事实,成为不同事实的构成要素,但并不能用来直接构成实体,只是基于事实存在;属性用于描述概念对象的状态;
事实是一个或多个概念对象的集合,事实的集合构成实体,将事实记为:
E={Fact1{01,02,03...},Fact2{01,02,03...}...} (1);
优选的:所述关系是概念对象间的水平关系;所述水平关系包括逻辑运算关系、数值运算关系、自定义函数关系等;假设概念对象为xn,n是大于1的正整数,则关于xn的水平关系表达式可记为:
Figure BDA0001919929190000041
Figure BDA0001919929190000042
例如:对于潮流计算数据文本化而言,一个潮流计算数据文本化任务即为一个实体;无论实体的内容如何,文本化任务将先天存在;实体中只输出事实语句,即水平关系中的逻辑值(包含概率性的真值)为真的语句;语句为事实的依据,是系统使用者所设定的规则表达式,是符合形式逻辑的;对于潮流计算数据文本化,由于其数据量大、结构复杂,需要利用数据读取模板构建概念对象;
优选的:在水平关系构建中融合专家经验,并将数值数据转化为知识文本,利用数据解析模板构建水平关系;
文本化任务首先需要构建文本化模型,利用软件设计对模型维护,使模型运转;将文本化模板作为文本化模型中实体的载体;将数据解析模板作为事实的载体,在数据解析模板中,可设定水平关系;针对电力系统仿真数据而言,构建文本化模型的关键即是对文本化模板、数据解析模板、数据读取模板等的构建;
所述数据文本化任务执行方法,具体包括如下步骤:
步骤S1:文本生成的概念模型的构建;基于概念对象、关系、实体之间的逻辑关系进行数据读取模板、数据解析模板、文本化模板的对应关系设置;
通过对数据读取模板、数据解析模板、文本化模板的对应关系的设置,构建了概念对象中的属性、属性之间的关系等和模板项之间的关系,后续在进行针对特定仿真数据文件的文本化过程中,需要根据仿真数据文件的特点进行上述模板文件的实例化设置;
步骤S11:构建概念对象,具体为:针对电力系统仿真数据针对的电器元器件进行概念对象的设置,并基于所述概念对象构建数据读取模板,将数据读取模板作为概念对象的载体;可以看出,通过构建数据读取模板,达到构建概念对象的目的;
优选的:数据读取模板包含若干关键项,所述关键项对应概念对象的若干属性;
在数据文本化的过程中,数据文本化任务就是一个实体,所述实体由若干事实(Fact)构成,事实由先验判断或逻辑推理得出;事实间不存在关系,事实只是一种描述或罗列;
优选的:需要构建的概念对象包括:母线、交流线、直流线、发电机、变压器、负荷等电器元器件;
优选的:概念对象的属性包括:电气元件相关数据的行列、读取到的数据集合、数据集合的唯一标识、数据跨行读取、数据关联读取;
优选的:针对概念对象模型的特点,在数据读取模板中设置若干模板项与概念对象属性对应;具体的对应关系为如下表所示;
模板项A 概念对象名称 概念对象属性 概念对象名称
模板项B 结果集 概念对象属性 读取到的数据集合
模板项C 主键 概念对象属性 数据集合的唯一标识
模板项D 读取步长 概念对象属性 数据跨行读取
模板项E 外连接 概念对象属性 数据关联读取
步骤S12:概念对象间水平关系构建;具体为:选择所引用的概念对象,进行概念对象的关系解析,基于关系解析结果填充数据解析模板;
水平关系构建即是对数据知识的提取,数据中的知识主要存在于数据间的关联关系中,因此水平关系包含对数据间的数值关系、逻辑关系、方程关系或自定义关系等的提取;
优选的:融合专家对数据关系的解析经验,对根据水平关系形成的知识文本进行数据挖掘,并将数据挖掘的结果用于水平关系的构建;
优选的:概念对象间的水平关系包括:逻辑运算关系(HRL)、数值运算关系(HRN)、自定义函数关系(HRF)等;
优选的:一个解析模板中可设定多个水平关系,并在水平关系中调用概念对象;
模板项与水平关系的若干条目对应为下表所示;
Figure BDA0001919929190000061
步骤S13:数据文本化任务的实体构建,具体为:根据数据文本化任务的属性进行实体构建,并相应的构建文本化模板;
所述根据数据文本化任务的属性进行实体构建,具体为:设置数据文本化任务对应实体包含的事实的集合;也就是概念对象、及其概念对象之间的水平关系的集合所构成的集合;基于所述实体构建文本化模板的模板项、模板项目和自定义信息以及水平关系之间的对应关系;通过构建文本化模板达成对文本化报告输出的目的;
实体即是报告文档的全部内容,对实体模型的构建便是确定文档输出的内容集合,根据文本化模型的设计,内容集合便是输出所有水平关系的真值项;实体模型的设计倾向于报告文档的灵活性和定义关系集合的便捷性;而实体模型包含:自定义信息、水平关系调用;
优选的:所述文本化模板中包括文本实体的自定义信息以及水平关系调用;
文本化模板项与实体模型的若干条目对应为下表;
Figure BDA0001919929190000071
步骤S14:生成数据文本化信息文件;具体为:初始化数据文本化信息文件,在后续的文本化过程中基于文本化模板进行数据文本化相关信息的保存;
所述初始化数据文本化信息文件,具体为:创建新的文本化信息文件,根据原始仿真数据文件的大小进行文本化信息文件大小的设置;
数据文本化信息文件是数据文本化原型系统提供的具有支持文本挖掘的数据结构数据文件;为支撑文本挖掘,信息文件的数据结构将记录下一次文本化任务中,生成每个事实语句时的所有关联信息;同时提供以事实语句为单位的存储形式以便于以事实语句为维度的搜索;
步骤S2:对仿真计算数据进行数据文本化准备;具体为:进行数据读取模板、数据解析模板,文本化模板的具体设置;
所述对仿真计算数据进行数据文本化准备:包括如下步骤:
步骤S21:在数据解析模板中设定水平关系组的名称及水平关系中引用的概念对象名称;
优选的:所述水平关系组名称、引用的概念对象名称均为英文字符;
步骤S22:在数据解析模板中设定水平关系名称;
优选的:水平关系名称为英文字符;
步骤S23:在数据解析模板中设定水平关系说明;
优选的:水平关系说明可为汉字、英文、数字等字符;
步骤S24:在数据解析模板中设定水平关系表达式;
优选的:水平关系表达式支持逻辑表达式、函数名称等方式。其中,逻辑表达式内支持数值运算、逻辑关系运算;
步骤S215在数据读取模板中设定概念对象名称;
优选的:概念对象名称为英文字符;
步骤S26:在数据读取模板中设定概念对象说明字段;
优选的:概念对象说明内容可为汉字、英文、数字等字符;
步骤S27:在数据读取模板中设定概念对象数据来源的文件名称及返回的结果集名称;
步骤S28:在数据读取模板中设定概念对象数据集主键;
优选的:主键为概念对象数据文件的列号;
步骤S29:在数据读取模板中设定概念对象的关联读取数据;
优选的:根据仿真数据特有结构,可设定概念对象A、B间,对象A的指定行、列的数据内容与对象B的行序号间的关联;
步骤S210:在文本化模板中配置调用设定好的水平关系名称,并根据需要填写自定义信息;
步骤S3:实例化数据文本化任务;具体为:读取原始仿真数据文件,基于数据读取模板进行原始仿真数据文件的读取,基于数据解析文件进行所读取数据的解析,并按照文本化模板填充文本化信息文件;
优选的:所述原始仿真数据文件为潮流仿真计算数据文件;所述潮流仿真计算数据文件按不同的电气元件存储在一个算例文件夹内,单个文件的内容为一类电气元件的仿真计算数据;每个文件的内容形式为二维表,二维表的行表示在单位仿真时间内,电气元件的某个物理量所产生的仿真数据,二维表的列表示这类元件的可观测物理量;此外,数据形式的变化之处在于,有可能按多行展现电气元件的可观测物理量和单位时间的仿真数据;
优选的:潮流仿真计算数据文件具有文件间关联的特点,可由第一文件中某一行列的数据值关联到第二文件中某一行列的数据值;关联的两个数据值相等;例如:由A电气元件数据中,某一行列LaCa的值关联到B电气元件数据中某一行列LbCb的数据值,可简记为A(LaCa)=B(LbCb);
所述基于数据读取模板进行原始仿真数据文件的读取,具体为:针对概念对象模型的特点,在数据读取模板中基于模板项与概念对象属性对应关系,进行模板项的填充;
在进行数据读取模板结束后,数据文本化任务读取所有模板解析所需要的调用函数进行后续的模板解析;
所述基于数据解析文件进行所读取数据的解析,具体为:进行模板解析函数的循环调用,在每次调用过程中,模板解析函数通过读取数据解析文件,进行概念对象及其水平关系的解析;通过循环调用来解析所有的模板项,直到所有模板项均解析完毕为止;
所述按照文本化模板填充文本化信息文件,具体为:将数据解析结果按照文本化模板进行文本化信息文件的填充;
优选的;在发起执行文本化任务后,初始化文本化信息文件;
优选的:所述文本化信息文件为位于分布式存储设备上;以适用于当前电力系统仿真计算的大数据环境;
以准备数据“36节点算例数据”为原始数据文件,文件夹大小为2.66M,其中包含母线、交流线、变压器、直流线、发电机、负荷等数据说明文件与数据结果文件;进行所述数据文本化过程中,需要首先配置好读取模板、解析末班、文本化模板后,在文本化系统界面上选择“场景管理”,新建场景“作业2”,并选择相应模板,并导入原始数据文件。在主界面点击分析,将得到本次分析结果;查看本地项目文件夹“项目路径名”+“resultData”,可以看到根据规则生成的临时文件,临时文件大小为50.26KB;
优选的:数据文本化认为采用分布式设备完成;例如:运行于两台节点机中,达成了多机分布式处理的试验目的;同时,在文本生成过程中实现了生成模板和生成过程的可配置的特性,同时只使用了2M左右的数据就可以生成相对准确的文本案例,达到了设计要求和目的;
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和终端,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在不发生矛盾的情况下,上述几个实施例中的技术方案可以相互组合和替换。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种数据文本化任务执行方法,其特征在于,所述方法包括:
步骤S31:读取原始仿真数据文件;
步骤S32:基于数据读取模板进行原始仿真数据文件的读取;
步骤S33:基于数据解析文件进行所读取数据的解析;
步骤S34:按照文本化模板填充文本化信息文件。
2.根据权利要求1所述的数据文本化任务执行方法,其特征在于,所述原始仿真数据文件为潮流仿真计算数据文件。
3.根据权利要求2所述的数据文本化任务执行方法,其特征在于,所述潮流仿真计算数据文件按不同的电气元件存储在一个算例文件夹内,单个文件的内容为一类电气元件的仿真计算数据。
4.根据权利要求3所述的数据文本化任务执行方法,其特征在于,每个文件的内容形式为二维表,二维表的行表示在单位仿真时间内,电气元件的某个物理量所产生的仿真数据,二维表的列表示这类元件的可观测物理量。
5.根据权利要求4所述的数据文本化任务执行方法,其特征在于,潮流仿真计算数据文件具有文件间关联的特点,可由第一文件中某一行列的数据值关联到第二文件中某一行列的数据值。
6.根据权利要求5所述的数据文本化任务执行方法,其特征在于,关联的两个数据值相等。
7.根据权利要求6所述的数据文本化任务执行方法,其特征在于,所述基于数据读取模板进行原始仿真数据文件的读取,具体为:针对概念对象模型的特点,在数据读取模板中基于模板项与概念对象属性对应关系,进行模板项的填充。
8.根据权利要求7所述的数据文本化任务执行方法,其特征在于,在进行数据读取模板结束后,数据文本化任务读取所有模板解析所需要的调用函数进行后续的模板解析。
9.根据权利要求8所述的数据文本化任务执行方法,其特征在于,所述基于数据解析文件进行所读取数据的解析,具体为:进行模板解析函数的循环调用,在每次调用过程中,模板解析函数通过读取数据解析文件,进行概念对象及其水平关系的解析;通过循环调用来解析所有的模板项,直到所有模板项均解析完毕为止。
10.根据权利要求9所述的数据文本化任务执行方法,其特征在于,所述文本化信息文件为位于分布式存储设备上;以适用于当前电力系统仿真计算的大数据环境。
CN201811589587.9A 2018-12-25 2018-12-25 一种数据文本化任务执行方法 Pending CN111435365A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811589587.9A CN111435365A (zh) 2018-12-25 2018-12-25 一种数据文本化任务执行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811589587.9A CN111435365A (zh) 2018-12-25 2018-12-25 一种数据文本化任务执行方法

Publications (1)

Publication Number Publication Date
CN111435365A true CN111435365A (zh) 2020-07-21

Family

ID=71579729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811589587.9A Pending CN111435365A (zh) 2018-12-25 2018-12-25 一种数据文本化任务执行方法

Country Status (1)

Country Link
CN (1) CN111435365A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159986A (zh) * 2019-12-17 2020-05-15 国家电网有限公司大数据中心 一种基于数据资源目录构建智能化任务的执行方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159986A (zh) * 2019-12-17 2020-05-15 国家电网有限公司大数据中心 一种基于数据资源目录构建智能化任务的执行方法及系统

Similar Documents

Publication Publication Date Title
CN112579707B (zh) 一种日志数据的知识图谱构建方法
CN111090417B (zh) 二进制文件解析方法、装置、设备及介质
CN112396462B (zh) 基于Clickhouse的人群圈选方法及装置
CN108228676A (zh) 信息抽取方法和系统
CN112667860A (zh) 一种子图匹配方法、装置、设备及存储介质
CN113687825B (zh) 一种软件模块的构建方法、装置、设备及存储介质
CN117217315A (zh) 一种利用大语言模型生成高质量问答数据的方法及装置
Ryabinin et al. Novel Circular Graph Capabilities for Comprehensive Visual Analytics of Interconnected Data in Digital Humanities
CN114416926A (zh) 关键词匹配方法、装置、计算设备及计算机可读存储介质
CN111435365A (zh) 一种数据文本化任务执行方法
CN111368387B (zh) 一种电力系统仿真数据文本化方法
CN115186738B (zh) 模型训练方法、装置和存储介质
CN111159424A (zh) 标注知识图谱实体的方法,装置,存储介质及电子设备
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
CN113946648B (zh) 结构化信息生成方法、装置、电子设备和介质
CN115794869A (zh) 语义查询可视化构建与生成的实现方法及装置
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
CN115269862A (zh) 一种基于知识图谱的电力问答与可视化系统
CN105824684A (zh) 一种多模式大数据软件模拟器的实现方法
CN111723565A (zh) 一种法律案件关键字处理方法,处理系统及设备
Wu et al. Template based attribute value words acquisition in entity attribute knowledge base construction
CN111159986A (zh) 一种基于数据资源目录构建智能化任务的执行方法及系统
CN113051379B (zh) 一种知识点推荐方法、装置、电子设备及存储介质
CN115878817A (zh) 基于知识图谱的核电信息推荐方法、系统与计算机设备
CN117688939A (zh) 一种实体关系提取的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination