CN117034901B

CN117034901B - 一种基于文本生成模板的数据统计系统

Info

Publication number: CN117034901B
Application number: CN202311304180.8A
Authority: CN
Inventors: 石江枫; 赵洲洋; 于伟; 靳雯; 王全修
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2023-12-08
Anticipated expiration: 2043-10-10
Also published as: CN117034901A

Abstract

本发明涉及数据统计技术领域，提供了一种基于文本生成模板的数据统计系统，包括：初始文本生成模板、预设模型类型树、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现如下步骤：获取第一模型类型列表；获取第一模型类型列表对应的第一模型类型树列表；获取关键数据统计模型列表；获取关键数据统计模型对应的目标统计数据集。可知，本发明能够对初始文本生成模板中的初始数据统计模型的模型类型进行分类去重处理，获取第一模型类型列表，进而生成第一模型类型树，从第一模型类型树的根节点对应的关键数据统计模型开始，由根向叶按照顺序获取目标统计数据集，能够避免重复计算，有利于避免资源浪费，提高系统的运行效率。

Description

一种基于文本生成模板的数据统计系统

技术领域

本发明涉及数据统计技术领域，特别是涉及一种基于文本生成模板的数据统计系统。

背景技术

随着互联网的广泛应用，当用户需要生成报告时，可以依靠互联网在线制作文本生成模板，通过文本生成模板直接生成报告，无需手动撰写报告，现有技术中的文本生成模板生成报告的过程中，需要对文本生成模板中的数据统计模型按照顺序依次对每一个数据统计模型进行处理，获取统计数据，进而生成报告。

但是上述方法也存在以下技术问题：

文本生成模板中的数据统计模型有可能存在重复的现象，且数据统计模型的类型之间不具有层级关系，对每一个数据统计模型进行处理的过程，存在重复计算的问题，因此通过上述方法获取统计数据容易造成资源浪费且降低系统的运行效率。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种基于文本生成模板的数据统计系统，包括：初始文本生成模板、预设模型类型树A={A₁，A₂，……，A_i，……，A_m}、处理器和存储有计算机程序的存储器，其中，初始文本生成模板中包括若干个初始数据统计模型，A_i={A_i1，A_i2，……，A_ij，……，A_in(i)}，A_ij为预设模型类型树第i层中的第j个预设模型类型节点，i=1，2，……，m，m为预设模型类型树的层数，j=1，2，……，n(i)，n(i)为预设模型类型树第i层中预设模型类型节点数量，当计算机程序被处理器执行时，实现如下步骤：

S100、根据初始文本生成模板，获取第一模型类型列表B={B₁，B₂，……，B_e，……，B_f}，B_e为第e个第一模型类型，e=1，2，……，f，f为第一模型类型数量，第一模型类型为初始文本生成模板中的初始数据统计模型的模型类型。

S200、根据A和B，获取B对应的第一模型类型树列表C={C₁，C₂，……，C_r，……，C_s}，C_r={C_r1，C_r2，……，C_rg，……，C_rh}，C_rg={C¹ _rg，C² _rg，……，C^x _rg，……，C^p _rg}，C^x _rg为第r个第一模型类型树C_r第g层的第x个第一模型类型节点，r=1，2，……，s，s第一模型类型树的数量，g=1，2，……，h，h为第一模型类型树的层数，x=1，2，……，p，p为第一模型类型树一层中的第一模型类型节点数量。

S300、获取C^x _rg对应的关键数据统计模型列表D^x _rg={D^x1 _rg，D^x2 _rg，……，D^xy _rg，……，D^xq _rg}，D^xy _rg为C^x _rg对应的第y个关键数据统计模型，y=1，2，……，q，q为第一模型类型节点对应的关键数据统计模型数量，关键数据统计模型为模型类型与第一模型类型节点呈现的模型类型相同的初始数据统计模型。

S400、当g=1时，将初始数据集输入到D^xy _rg中，以获取D^xy _rg对应的目标统计数据集G^xy _rg，其中，目标统计数据集中包括若干条目标统计数据，初始数据集包括用于数据统计的所有数据且初始数据集存储在数据库中。

S500、当g≠1时，将C_r(g-1)中作为C^x _rg的父节点的C^x _r(g-1)对应的所有D^xy _r(g-1)对应的G^xy _r(g-1)中的目标统计数据作为C^x _rg对应的中间统计数据，以获取C^x _rg对应的中间统计数据集H^x _rg，并执行S600。

S600、将H^x _rg输入到D^xy _rg中，以获取D^xy _rg对应的目标统计数据集G^xy _rg。

本发明至少具有以下有益效果：

本发明提供了一种基于文本生成模板的数据统计系统，包括：初始文本生成模板、预设模型类型树、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现如下步骤：根据初始文本生成模板，获取第一模型类型列表；根据预设模型类型树和第一模型类型列表，获取第一模型类型列表对应的第一模型类型树列表；获取第一模型类型树中的第一模型类型节点对应的关键数据统计模型列表；获取关键数据统计模型对应的目标统计数据集。可知，本发明能够对初始文本生成模板中的初始数据统计模型的模型类型进行分类去重处理，获取第一模型类型列表，进而生成第一模型类型树，从第一模型类型树的根节点对应的关键数据统计模型开始，由根向叶按照顺序获取目标统计数据集，能够避免重复计算，有利于避免资源浪费，提高系统的运行效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于文本生成模板的数据统计系统执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供了一种基于文本生成模板的数据统计系统，包括：初始文本生成模板、预设模型类型树A={A₁，A₂，……，A_i，……，A_m}、处理器和存储有计算机程序的存储器，其中，初始文本生成模板中包括若干个初始数据统计模型，A_i={A_i1，A_i2，……，A_ij，……，A_in(i)}，A_ij为预设模型类型树第i层中的第j个预设模型类型节点，i=1，2，……，m，m为预设模型类型树的层数，j=1，2，……，n(i)，n(i)为预设模型类型树第i层中预设模型类型节点数量，当计算机程序被处理器执行时，实现如下步骤，如图1所示：

S100、根据初始文本生成模板，获取第一模型类型列表B={B₁，B₂，……，B_e，……，B_f}，B_e为第e个第一模型类型，e=1，2，……，f，f为第一模型类型数量，第一模型类型为初始文本生成模板中的初始数据统计模型的模型类型，其中，本领域技术人员知晓，初始数据统计模型为本领域技术人员预先训练好的能够对数据集中的数据进行统计并输出结果数据的模型，在此不再赘述。

具体地，不同的初始数据统计模型输出的结果数据不同。

进一步地，初始数据统计模型输出的结果数据的形式为数据表形式、文字形式、数字形式、数据集形式等形式中的一种或多种组合。

具体地，S100中包括如下步骤：

S101、从初始文本生成模板中获取初始数据统计模型名称列表，初始数据统计模型名称列表中包括初始文本生成模板中的若干个初始数据统计模型名称，初始数据统计模型名称为初始数据统计模型的名称。

S103、根据初始数据统计模型名称列表，获取初始数据统计模型名称列表对应第二模型类型列表，第二模型类型列表中包括若干个第二模型类型，第二模型类型为初始数据统计模型名称对应的初始数据统计模型的模型类型。

具体地，初始数据统计模型的模型类型存储在系统中。

S105、对第二模型类型列表进行去重处理，以获取B，其中，本领域技术人员知晓，现有技术中任一去重的方法，均属于本发明的保护范围，在此不再赘述。

上述，通过初始文本生成模板中的初始数据统计模型名称获取第二模型类型列表，对第二模型类型列表进行去重处理，获取第一模型类型列表，进而生成第一模型类型树，从第一模型类型树的根节点对应的关键数据统计模型开始，由根向叶按照顺序获取目标统计数据集，能够避免对同一种模型类型的初始数据统计模型重复处理，避免重复计算以及资源浪费，有利于提高系统的运行效率。

S200、根据A和B，获取B对应的第一模型类型树列表C={C₁，C₂，……，C_r，……，C_s}，C_r={C_r1，C_r2，……，C_rg，……，C_rh}，C_rg={C¹ _rg，C² _rg，……，C^x _rg，……，C^p _rg}，C^x _rg为第r个第一模型类型树C_r第g层的第x个第一模型类型节点，r=1，2，……，s，s第一模型类型树的数量，g=1，2，……，h，h为第一模型类型树的层数，x=1，2，……，p，p为第一模型类型树一层的第一模型类型节点数量。例如：若预设模型类型树的第一层的节点即根节点为文本类型、根节点的子节点即第二层的节点为：纯文字文本类型、纯数字文本类型、纯英文文本类型、混合文本类型，第三层的节点为：纯文字文本类型的子节点为：繁体字类型、简体字类型；纯数字文本类型的子节点为：小数类型、整数类型、分数类型；纯英文文本类型的子节点为：大写字母类型，小写字母类型；混合文本类型的子节点为：中英混合类型、文字和数字组合类型；若第一模型类型为：文字、英文、混合、繁体、简体、小写字母、数字和中文，那么能够获取到3个第一模型类型树，根节点分别为：文字、英文、混合；文字的子节点为：繁体、简体；英文的子节点为：小写字母；混合的子节点为：数字和中文。

具体地，S200中包括如下步骤：

S201、令所有的A_ij为NULL，以获取A对应的第一指定模型类型树A¹={A¹ ₁，A¹ ₂，……，A¹ _i，……，A¹ _m}，A¹ _i={A¹ _i1，A¹ _i2，……，A¹ _ij，……，A¹ _in(i)}，A¹ _ij为A_ij对应的指定模型类型节点，其中，本领域技术人员知晓，预设模型类型树为本领域技术人员根据实际需求预先设置好的树，在此不再赘述。

S203、获取A_ij对应的预设模型类型A⁰ _ij，预设模型类型为预设模型类型节点呈现的模型类型。

S205、获取A⁰ _ij与B_e之间的类型相似度AB^0e _ij，类型相似度为预设模型类型与第一模型类型之间的相似度，其中，本领域技术人员知晓，模型类型可以理解为标签，现有技术中任一获取两个标签之间的相似度的方法，均属于本发明的保护范围，在此不再赘述，例如：余弦相似度、编辑距离。

具体地，类型相似度越大，预设模型类型与第一模型类型越相似。

S207、根据AB^0e _ij和A¹，获取A对应的第二模型类型树，其中，第二模型类型树中包括若干个第二模型类型节点。

具体地，S207包括如下步骤：

S2071、当B_e对应的任意一个AB^0e _ij≥A²时，将max(AB^0e ₁₁，AB^0e ₁₂，……，AB^0e _1j，……，AB^0e _1n(i)，AB^0e ₂₁，AB^0e ₂₂，……，AB^0e _2j，……，AB^0e _2n(i)，……，AB^0e _i1，AB^0e _i2，……，AB^0e _ij，……，AB^0e _in(i)，……，AB^0e _m1，AB^0e _m2，……，AB^0e _mj，……，AB^0e _mn(i))对应的A⁰ _ij对应的A_ij对应的A¹ _ij替换为B_e，以获取第二指定模型树，其中，max()为最大值获取函数，A²为预设相似度阈值。

具体地，A²的取值范围为[0.8，1]，其中，本领域技术人员知晓，本领域技术人员根据设实际需求在[0.8，1]中设置预设相似度阈值的具体值，在此不再赘述。

S2073、当B_e对应的所有AB^0e _ij＜A²时，获取A_ij与B_e之间的相似度优先级YX^e _ij，其中，YX^e _ij符合如下条件：

YX^e _ij=FJ^e _ij+ZJ^e _ij，FJ^e _ij为A_ij的父节点对应的预设模型类型与B_e之间的类型相似度，ZJ^e _ij为A_ij的子节点对应的预设模型类型与B_e之间的类型相似度，当A_ij无父节点时，FJ^e _ij为0，当A_ij无子节点时，ZJ^e _ij为0。

S2075、将max(YX^e ₁₁，YX^e ₁₂，……，YX^e _1j，……，YX^e _1n(i)，YX^e ₂₁，YX^e ₂₂，……，YX^e _2j，……，YX^e _2n(i)，……，YX^e _i1，YX^e _i2，……，YX^e _ij，……，YX^e _in(i)，……，YX^e _m1，YX^e _m2，……，YX^e _mj，……，YX^e _mn(i))对应的A_ij对应的A¹ _ij替换为B_e，以获取第三指定模型树。

S2077、当第二指定模型树第i层的第j个第二指定模型节点为NULL且第三指定模型树第i层的第j个第三指定模型节点不为NULL时，将第二指定模型树第i层的第j个第二指定模型节点替换为第三指定模型树第i层的第j个第三指定模型节点，以获取第二模型类型树。

上述，构建为NULL的第一指定模型类型树，对预设模型类型和第一模型类型之间的类型相似度进行对比，当第一模型类型对应的所有类型相似度不小于预设相似度阈值时，说明第一模型类型和预设模型类型十分相似，可以作为第二指定模型类型树中的节点，用于确定第一模型类型在第二模型类型树中的位置，当第一模型类型对应的所有类型相似度都小于预设相似度阈值时，说明第一模型类型和预设模型类型不相似，无法确定第一模型类型在第二模型类型树中的位置，此时，获取第一模型类型对应的相似度优先级，对相似度优先级做对比，确定第一模型类型在第三指定模型类型树中的位置，用于确定第一模型类型在第二模型类型树中的位置，将第二在指定模型类型树和第三指定模型类型树进行融合，精准的确定出第二模型类型树中的节点，生成第二模型类型树，将第二模型树中的所有空节点删除，能够精准的获取第一模型类型树，从第一模型类型树的根节点对应的关键数据统计模型开始，由根向叶按照顺序获取目标统计数据集，能够避免重复计算，有利于避免资源浪费，提高系统的运行效率。

S209、将第二模型类型树中为NULL的第二模型类型节点删除，以获取C。

上述，根据预设模型类型和第一模型类型之间的类型相似度，确定第二模型类型树，将第二模型树中的所有空节点删除，能够精准的获取第一模型类型树，从第一模型类型树的根节点对应的关键数据统计模型开始，由根向叶按照顺序获取目标统计数据集，能够避免重复计算，有利于避免资源浪费，提高系统的运行效率。

具体地，每一第一模型类型节点均对应q个关键数据统计模型，q随着x，r，g的变化而变化，例如：若第一模型类型节点为繁体，如果繁体文本名称统计模型、繁体文本数量统计模型、繁体文本发表时间统计模型的模型类型均为繁体，那么，所述第一模型类型节点对应的关键数据统计模型的数量为3且关键数据统计模型为：繁体文本名称统计模型、繁体文本数量统计模型、繁体文本发表时间统计模型；若第一模型类型节点为简体，如果简体文本数量统计模型、简体文本发表时间统计模型的模型类型均为简体，那么，所述第一模型类型节点对应的关键数据统计模型的数量为2且关键数据统计模型为：简体文本数量统计模型、简体文本发表时间统计模型。

S400、当g=1时，将初始数据集输入到D^xy _rg中，以获取D^xy _rg对应的目标统计数据集G^xy _rg，其中，目标统计数据集中包括若干条目标统计数据。

具体地，初始数据集包括用于数据统计的所有数据且初始数据集存储在系统中。

进一步地，初始数据集中包括若干条初始数据。

具体地，中间统计数据集中包括若干条中间统计数据。

上述，对初始文本生成模板中的初始数据统计模型的模型类型进行分类去重处理，获取第一模型类型列表，进而生成第一模型类型树，从第一模型类型树的根节点对应的关键数据统计模型开始，由根向叶按照顺序获取目标统计数据集，当关键数据统计模型对应的第一模型类型节点为根节点时，从系统存储的初始数据集中获取目标统计数据集，当关键数据统计模型对应的第一模型类型节点不是根节点时，从其对应的第一模型类型节点的父节点对应的所有关键数据统计模型对应的目标统计数据集中获取目标统计数据集，能够避免重复计算，有利于避免资源浪费，提高系统的运行效率。

本发明还提供了一种实施例，与上述实施例的区别在于，在S100前还包括如下步骤获取初始文本生成模板：

S1、获取目标用户输入的关键文本T⁰。

具体地，目标用户为需要使用文本生成模板的用户。

S2、根据T⁰和A，获取T⁰对应的候选模板文本列表T={T₁，T₂，……，T_b，……，T_c}，T_b为第b个候选模板的候选模板文本，b=1，2，……，c，c为候选模板数量，候选模板文本为用于描述候选模板适用范围的文本。

具体地，候选模板对应的候选模板文本存储在系统中。

具体地，S2包括如下步骤获取候选模板：

S21、将T⁰输入到预设关键词提取模型中，以获取T⁰对应的关键词信息列表，关键词信息列表中包括若干个关键词信息，其中，本领域技术人员知晓，预设关键词提取模型为本领域技术人员根据实际需求预先训练好的模型，在此不再赘述。

具体地，关键词信息包括：关键词，关键词类型。

S22、根据关键词信息列表，获取候选词类型列表，候选词类型列表中包括若干个候选词类型，候选词类型为对所有的关键词信息中的关键词类型去重后的关键词类型。

S23、根据候选词类型列表，获取第三模型类型树，其中，本领域技术人员知晓，获取第三模型类型树的方式与S201-S207中获取第二模型类型树的方式相同，在此不再赘述；第三模型类型树可以理解为将S201-S207步骤中的第一模型类型替换为候选词类型时，执行S201-S207获取到的第二模型类型树。

S24、确定第三模型类型树中所有非NULL的节点的最近公共祖先ZX在第三模型类型树中的层级以及在层级中的位置，其中，本领域技术人员知晓，现有技术中任一获取最近公共祖先的方式，均属于本发明的保护范围，在此不再赘述。

S25、从A中获取第一候选模型类型节点，其中，第一候选模型类型节点为在A中的层级以及在层级中的位置与ZX在第三模型类型树中的层级以及在层级中的位置相同的预设模型类型节点。

S26、根据第一候选模型类型节点，获取第二候选模型类型节点列表，第二候选模型类型节点列表中包括若干个第二候选模型类型节点，第二候选模型类型节点为与第一候选模型类型节点具有相同的父节点的预设模型类型节点。

具体地，每一预设模型类型节点均对应若干个指定文本生成模板。

进一步地，指定文本生成模板为系统在当前时间点前存储的模板。

S27、获取候选模板，候选模板为任一第二候选模型类型节点对应的任一指定文本生成模板。

上述，通过关键词提取模型，获取关键文本中的关键词信息，从而获取候选词类型列表，对候选词类型列表进行处理，生成第三模型类型树，根据第三模型类型树和预设模型类型树，从预设模型类型树中确定出第一候选模型类型节点，进而确定出第二候选模型类型节点，将第二候选模型类型节点对应的指定文本生成模板作为候选模板，能够避免将无用的指定文本生成模板作为候选模板，提高了获取候选模板的精准度。

S3、根据T和若干个第一预设样本文本对NLP模型进行训练，以获取目标NLP模型，其中，NLP模型的输出的结果为第一预设样本文本分别和T₁，T₂，……，T_b，……，T_c之间的置信度，其中，本领域技术人员知晓，第一预设样本文本为本领域技术人员根据实际需求预先设置好的文本，现有技术中任一训练模型的方法，均属于本发明的保护范围，在此不再赘述，例如：无监督训练、有监督训练。

具体地，第一预设样本文本分别和T₁，T₂，……，T_b，……，T_c之间的置信度的加和为1。

S4、将T⁰输入到目标NLP模型中，以获取T⁰对应的中间置信度列表T¹={T¹ ₁，T¹ ₂，……，T¹ _b，……，T¹ _c}，T¹ _b为T⁰和T_b之间的中间置信度。

具体地，Σ^c _b=1T¹ _b=1。

S5、当AT/BT≥YT时，根据第一处理方法对T⁰、T和T¹进行处理，获取中间文本生成模板，AT为T⁰对应的所有关键词的字符数量的和，BT为T⁰中字符数量，YT为预设字符数量比例阈值。

具体地，YT的取值范围为[0.6，1]，其中，本领域技术人员知晓，本领域技术人员根据实际需求在[0.6，1]中设置预设字符数量比例阈值，在此不再赘述。

具体地，S5中第一处理方法包括如下步骤：

S51、获取第一关键词列表GJ={GJ₁，GJ₂，……，GJ_(ai)，……，GJ_(am)}，GJ_(ai)为第ai个第一关键词，ai=1，2，……，am，am为第一关键词数量，第一关键词为T⁰对应的关键词。

S52、获取T对应的第二关键词列表GJ⁰={GJ⁰ ₁，GJ⁰ ₂，……，GJ⁰ _b，……，GJ⁰ _c}，GJ⁰ _b={GJ⁰ _b1，GJ⁰ _b2，……，GJ⁰ _b(aj)，……，GJ⁰ _b(an)}，GJ⁰ _b(aj)为T_b对应的第二关键词列表GJ⁰ _b中的第aj个第二关键词，aj=1，2，……，an，an为第二关键词列表中的第二关键词数量，第二关键词为候选模板文本中的关键词，其中，本领域技术人员知晓，获取候选模板文本中的关键词的方式与获取关键文本对应的关键词的方式相同，在此不再赘述。

S53、根据GJ与GJ⁰，获取GJ对应的列表相似度列表GJ¹={GJ¹ ₁，GJ¹ ₂，……，GJ¹ _b，……，GJ¹ _c}，GJ¹ _b为GJ与GJ⁰ _b之间的列表相似度，其中，GJ¹ _b符合如下条件：

GJ¹ _b=Σ^am _ai=1(Σ^an _aj=1XS^(ai) _(aj)/an)/am，XS^(ai) _(aj)为GJ_(ai)与GJ⁰ _b(aj)之间的词语相似度，其中，本领域技术人员知晓，现有技术中任一获取两个词语之间的词语相似度的方式，均属于本发明的保护范围，在此不再赘述。

具体地，词语相似度的值越大，词语之间越相似。

进一步地，列表相似度的值越大，第一关键词列表和第二关键词列表越相似。

S54、根据T¹和GJ¹，获取T对应的第一优先级列表YX={YX₁，YX₂，……，YX_b，……，YX_c}，YX_b为T_b对应的第一优先级，YX_b符合如下条件：

YX_b=T¹ _b+GJ¹ _b。

S55、当YX中只有一个最大值时，确定max(YX₁，YX₂，……，YX_b，……，YX_c)对应的T_b对应的候选模板为中间文本生成模板。

S56、当YX中有多个最大值时，根据T⁰和T_b，确定中间文本生成模板。

上述，当关键文本对应的所有关键词的字符数量和与关键文本的字符数量的比值不小于预设字符数量比例阈值时，说明关键词能够表达出文本所携带的含义，获取关键文本对应的所有关键词与候选模板文本对应的所有关键词之间的相似度，即列表相似度，将置信度与列表相似度的加和作为候选模板文本对应的第一优先级，选取第一优先级最大的候选模板文本对应的候选模板作为中间文本生成模板，有利于提高获取中间文本生成模板的精准度，当有多个最大的第一优先级值时，无法根据第一优先级精准的获取到中间文本生成模板，需要对关键文本和候选模板文本再次分析，确定中间文本生成模板。

具体地，S56包括如下步骤：

S561、将T⁰输入到预设向量提取模型中，获取T⁰对应的第一文本向量列表U⁰={U⁰ ₁，U⁰ ₂，……，U⁰ _v，……，U⁰ _w}，U⁰ _v为T⁰对应的第v个第一文本向量，v=1，2，……，w，w为第一文本向量数量，其中，预设向量提取模型为能够提取文本向量的神经网络模型，本领域技术人员知晓，现有技术中任一能够获取文本向量的神经网络模型均属于本发明的保护范围，在此不再赘述。

S562、将T_b输入到预设向量提取模型中，获取T_b对应的第二文本向量列表U_b={U_b1，U_b2，……，U_bv，……，U_bw}，U_bv为T_b对应的第v个第二文本向量。

S563、根据U⁰和U_b，获取T⁰分别和T₁，T₂，……，T_b，……，T_c之间的文本相似度L⁰ ₁，L⁰ ₂，……,L⁰ _b，……,L⁰ _c，其中，L⁰ _b为T⁰和T_b之间的文本相似度，且L⁰ _b符合如下条件：

。

S564、根据T¹ _b和L⁰ _b，获取T对应的第二优先级列表YX⁰={YX⁰ ₁，YX⁰ ₂，……，YX⁰ _b，……，YX⁰ _c}，YX⁰ _b为T_b对应的第二优先级，YX⁰ _b符合如下条件：

YX⁰ _b=T¹ _b+L⁰ _b。

S565、当YX⁰中只有一个最大值时，确定max(YX⁰ ₁，YX⁰ ₂，……，YX⁰ _b，……，YX⁰ _c)对应的T_b对应的候选模板为中间文本生成模板。

S566、当YX⁰中有多个最大值时，确定max(T¹ ₁+GJ¹ ₁+L⁰ ₁，T¹ ₂+GJ¹ ₂+L⁰ ₂，……，T¹ _b+GJ¹ _b+L⁰ _b，……，T¹ _c+GJ¹ _c+L⁰ _c)对应的T_b对应的候选模板为中间文本生成模板。

上述，当有多个最大的第一优先级值时，获取关键文本和候选模板文本之间的文本相似度，将置信度与文本相似度的加和作为候选模板文本对应的第二优先级，选取第二优先级最大的候选模板文本对应的候选模板作为中间文本生成模板，有利于提高获取中间文本生成模板的精准度，当存在多个最大的第二优先级值时，无法根据第二优先级精准的获取到中间文本生成模板，此时，需要选取置信度、列表相似度、文本相似度的加和最大的候选模板文本对应的候选模板作为中间文本生成模板，有利于提高获取中间文本生成模板的精准度。

S6、当AT/BT＜YT时，根据第二处理方法，获取中间文本生成模板。

具体地，S6中第二处理方法包括如下步骤：

S61、当YX⁰中只有一个最大值时，确定max(YX⁰ ₁，YX⁰ ₂，……，YX⁰ _b，……，YX⁰ _c)对应的T_b对应的候选模板为中间文本生成模板。

S63、当YX⁰中有多个最大值时，确定max(T¹ ₁+GJ¹ ₁+L⁰ ₁，T¹ ₂+GJ¹ ₂+L⁰ ₂，……，T¹ _b+GJ¹ _b+L⁰ _b，……，T¹ _c+GJ¹ _c+L⁰ _c)对应的T_b对应的候选模板为中间文本生成模板。

上述，当关键文本对应的所有关键词的字符数量和与关键文本的字符数量的比值小于预设字符数量比例阈值时，说明关键词可能不能表达出文本所携带的含义，不能够一关键词为主获取中间文本生成模板，此时选取第二优先级最大的候选模板文本对应的候选模板作为中间文本生成模板，有利于提高获取中间文本生成模板的精准度，当存在多个最大的第二优先级值时，无法根据第二优先级精准的获取到中间文本生成模板，此时，需要选取置信度、列表相似度、文本相似度的加和最大的候选模板文本对应的候选模板作为中间文本生成模板，有利于提高获取中间文本生成模板的精准度。

S7、目标用户对中间文本生成模板进行调整，获取初始文本生成模板，其中，本领域技术人员知晓，目标用户对中间文本生成模板进行调整的方法由本领域技术人员根据实际需求设置，在此不再赘述，例如：在中间文本生成模板中增加数据统计模型，在中间文本生成模板中删除数据统计模型。

上述，用户可以通过输入的关键文本，获取候选模板文本列表，根据关键文本、关键文本对应的关键词以及候选模板文本和候选模板文本中的关键词，确定出中间文本生成模板，对中间文本生成模板进行调整，生成初始文本生成模板，相较于现有技术，无需人工制作模板，人工处理具有不可控性，且需要用户进行大量的思考，因此，通过上述方法获取初始文本生成模板，有利于提高获取模板的精准度，且能够开阔用户的思维，提高用户的工作效率。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种基于文本生成模板的数据统计系统，其特征在于，所述系统包括：初始文本生成模板、预设模型类型树A={A₁，A₂，……，A_i，……，A_m}、处理器和存储有计算机程序的存储器，其中，初始文本生成模板中包括若干个初始数据统计模型，A_i={A_i1，A_i2，……，A_ij，……，A_in(i)}，A_ij为预设模型类型树第i层中的第j个预设模型类型节点，i=1，2，……，m，m为预设模型类型树的层数，j=1，2，……，n(i)，n(i)为预设模型类型树第i层中预设模型类型节点数量，当计算机程序被处理器执行时，实现如下步骤：

S100、根据初始文本生成模板，获取第一模型类型列表B={B₁，B₂，……，B_e，……，B_f}，B_e为第e个第一模型类型，e=1，2，……，f，f为第一模型类型数量，第一模型类型为初始文本生成模板中的初始数据统计模型的模型类型；

S200、根据A和B，获取B对应的第一模型类型树列表C={C₁，C₂，……，C_r，……，C_s}，C_r={C_r1，C_r2，……，C_rg，……，C_rh}，C_rg={C¹ _rg，C² _rg，……，C^x _rg，……，C^p _rg}，C^x _rg为第r个第一模型类型树C_r第g层的第x个第一模型类型节点，r=1，2，……，s，s第一模型类型树的数量，g=1，2，……，h，h为第一模型类型树的层数，x=1，2，……，p，p为第一模型类型树一层中的第一模型类型节点数量；

S300、获取C^x _rg对应的关键数据统计模型列表D^x _rg={D^x1 _rg，D^x2 _rg，……，D^xy _rg，……，D^xq _rg}，D^xy _rg为C^x _rg对应的第y个关键数据统计模型，y=1，2，……，q，q为第一模型类型节点对应的关键数据统计模型数量，关键数据统计模型为模型类型与第一模型类型节点呈现的模型类型相同的初始数据统计模型；

S400、当g=1时，将初始数据集输入到D^xy _rg中，以获取D^xy _rg对应的目标统计数据集G^xy _rg，其中，目标统计数据集中包括若干条目标统计数据，初始数据集包括用于数据统计的所有数据且初始数据集存储在数据库中；

S500、当g≠1时，将C_r(g-1)中作为C^x _rg的父节点的C^x _r(g-1)对应的所有D^xy _r(g-1)对应的G^xy _r(g-1)中的目标统计数据作为C^x _rg对应的中间统计数据，以获取C^x _rg对应的中间统计数据集H^x _rg，并执行S600；

2.根据权利要求1所述的基于文本生成模板的数据统计系统，其特征在于，S100中包括如下步骤：

S101、从初始文本生成模板中获取初始数据统计模型名称列表，初始数据统计模型名称列表中包括初始文本生成模板中的若干个初始数据统计模型名称，初始数据统计模型名称为初始数据统计模型的名称；

S103、根据初始数据统计模型名称列表，获取初始数据统计模型名称列表对应第二模型类型列表，第二模型类型列表中包括若干个第二模型类型，第二模型类型为初始数据统计模型名称对应的初始数据统计模型的模型类型；

S105、对第二模型类型列表进行去重处理，以获取B。

3.根据权利要求1所述的基于文本生成模板的数据统计系统，其特征在于，S200中包括如下步骤：

S201、令所有的A_ij为NULL，以获取A对应的第一指定模型类型树A¹={A¹ ₁，A¹ ₂，……，A¹ _i，……，A¹ _m}，A¹ _i={A¹ _i1，A¹ _i2，……，A¹ _ij，……，A¹ _in(i)}，A¹ _ij为A_ij对应的指定模型类型节点；

S203、获取A_ij对应的预设模型类型A⁰ _ij，预设模型类型为预设模型类型节点呈现的模型类型；

S205、获取A⁰ _ij与B_e之间的类型相似度AB^0e _ij，类型相似度为预设模型类型与第一模型类型之间的相似度；

S207、根据AB^0e _ij，获取A对应的第二模型类型树，其中，第二模型类型树中包括若干个第二模型类型节点；

4.根据权利要求3所述的基于文本生成模板的数据统计系统，其特征在于，S207包括如下步骤：

S2071、当B_e对应的任意一个AB^0e _ij≥A²时，将max(AB^0e ₁₁，AB^0e ₁₂，……，AB^0e _1j，……，AB^0e _1n(i)，AB^0e ₂₁，AB^0e ₂₂，……，AB^0e _2j，……，AB^0e _2n(i)，……，AB^0e _i1，AB^0e _i2，……，AB^0e _ij，……，AB^0e _in(i)，……，AB^0e _m1，AB^0e _m2，……，AB^0e _mj，……，AB^0e _mn(i))对应的A⁰ _ij对应的A_ij对应的A¹ _ij替换为B_e，以获取第二指定模型树，其中，max()为最大值获取函数，A²为预设相似度阈值；

YX^e _ij=FJ^e _ij+ZJ^e _ij，FJ^e _ij为A_ij的父节点对应的预设模型类型与B_e之间的类型相似度，ZJ^e _ij为A_ij的子节点对应的预设模型类型与B_e之间的类型相似度，当A_ij无父节点时，FJ^e _ij为0，当A_ij无子节点时，ZJ^e _ij为0；

S2075、将max(YX^e ₁₁，YX^e ₁₂，……，YX^e _1j，……，YX^e _1n(i)，YX^e ₂₁，YX^e ₂₂，……，YX^e _2j，……，YX^e _2n(i)，……，YX^e _i1，YX^e _i2，……，YX^e _ij，……，YX^e _in(i)，……，YX^e _m1，YX^e _m2，……，YX^e _mj，……，YX^e _mn(i))对应的A_ij对应的A¹ _ij替换为B_e，以获取第三指定模型树；

5.根据权利要求1所述的基于文本生成模板的数据统计系统，其特征在于，不同的初始数据统计模型输出的结果数据不同。

6.根据权利要求5所述的基于文本生成模板的数据统计系统，其特征在于，初始数据统计模型输出的结果数据的形式为数据表形式、文字形式、数字形式、数据集形式等形式中的一种或多种组合。

7.根据权利要求1所述的基于文本生成模板的数据统计系统，其特征在于，初始数据统计模型的模型类型存储在系统中。

8.根据权利要求1所述的基于文本生成模板的数据统计系统，其特征在于，在S100前还包括如下步骤获取初始文本生成模板：

S1、获取目标用户输入的关键文本T⁰；

S2、根据T⁰和A，获取T⁰对应的候选模板文本列表T={T₁，T₂，……，T_b，……，T_c}，T_b为第b个候选模板的候选模板文本，b=1，2，……，c，c为候选模板数量，候选模板文本为用于描述候选模板适用范围的文本；

S3、根据T和若干个第一预设样本文本对NLP模型进行训练，以获取目标NLP模型，其中，NLP模型的输出的结果为第一预设样本文本分别和T₁，T₂，……，T_b，……，T_c之间的置信度；

S4、将T⁰输入到目标NLP模型中，以获取T⁰对应的中间置信度列表T¹={T¹ ₁，T¹ ₂，……，T¹ _b，……，T¹ _c}，T¹ _b为T⁰和T_b之间的中间置信度；

S5、当AT/BT≥YT时，根据第一处理方法对T⁰、T和T¹进行处理，获取中间文本生成模板，AT为T⁰对应的所有关键词的字符数量的和，BT为T⁰中字符数量，YT为预设字符数量比例阈值；

S6、当AT/BT＜YT时，根据第二处理方法，获取中间文本生成模板；

S7、目标用户对中间文本生成模板进行调整，获取初始文本生成模板。