CN117034901B - 一种基于文本生成模板的数据统计系统 - Google Patents
一种基于文本生成模板的数据统计系统 Download PDFInfo
- Publication number
- CN117034901B CN117034901B CN202311304180.8A CN202311304180A CN117034901B CN 117034901 B CN117034901 B CN 117034901B CN 202311304180 A CN202311304180 A CN 202311304180A CN 117034901 B CN117034901 B CN 117034901B
- Authority
- CN
- China
- Prior art keywords
- model
- model type
- text
- tree
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013179 statistical model Methods 0.000 claims abstract description 79
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims abstract description 13
- 238000003672 processing method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 7
- 239000002699 waste material Substances 0.000 abstract description 7
- 239000013598 vector Substances 0.000 description 10
- 238000000605 extraction Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据统计技术领域,提供了一种基于文本生成模板的数据统计系统,包括:初始文本生成模板、预设模型类型树、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现如下步骤:获取第一模型类型列表;获取第一模型类型列表对应的第一模型类型树列表;获取关键数据统计模型列表;获取关键数据统计模型对应的目标统计数据集。可知,本发明能够对初始文本生成模板中的初始数据统计模型的模型类型进行分类去重处理,获取第一模型类型列表,进而生成第一模型类型树,从第一模型类型树的根节点对应的关键数据统计模型开始,由根向叶按照顺序获取目标统计数据集,能够避免重复计算,有利于避免资源浪费,提高系统的运行效率。
Description
技术领域
本发明涉及数据统计技术领域,特别是涉及一种基于文本生成模板的数据统计系统。
背景技术
随着互联网的广泛应用,当用户需要生成报告时,可以依靠互联网在线制作文本生成模板,通过文本生成模板直接生成报告,无需手动撰写报告,现有技术中的文本生成模板生成报告的过程中,需要对文本生成模板中的数据统计模型按照顺序依次对每一个数据统计模型进行处理,获取统计数据,进而生成报告。
但是上述方法也存在以下技术问题:
文本生成模板中的数据统计模型有可能存在重复的现象,且数据统计模型的类型之间不具有层级关系,对每一个数据统计模型进行处理的过程,存在重复计算的问题,因此通过上述方法获取统计数据容易造成资源浪费且降低系统的运行效率。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种基于文本生成模板的数据统计系统,包括:初始文本生成模板、预设模型类型树A={A1,A2,……,Ai,……,Am}、处理器和存储有计算机程序的存储器,其中,初始文本生成模板中包括若干个初始数据统计模型,Ai={Ai1,Ai2,……,Aij,……,Ain(i)},Aij为预设模型类型树第i层中的第j个预设模型类型节点,i=1,2,……,m,m为预设模型类型树的层数,j=1,2,……,n(i),n(i)为预设模型类型树第i层中预设模型类型节点数量,当计算机程序被处理器执行时,实现如下步骤:
S100、根据初始文本生成模板,获取第一模型类型列表B={B1,B2,……,Be,……,Bf},Be为第e个第一模型类型,e=1,2,……,f,f为第一模型类型数量,第一模型类型为初始文本生成模板中的初始数据统计模型的模型类型。
S200、根据A和B,获取B对应的第一模型类型树列表C={C1,C2,……,Cr,……,Cs},Cr={Cr1,Cr2,……,Crg,……,Crh},Crg={C1 rg,C2 rg,……,Cx rg,……,Cp rg},Cx rg为第r个第一模型类型树Cr第g层的第x个第一模型类型节点,r=1,2,……,s,s第一模型类型树的数量,g=1,2,……,h,h为第一模型类型树的层数,x=1,2,……,p,p为第一模型类型树一层中的第一模型类型节点数量。
S300、获取Cx rg对应的关键数据统计模型列表Dx rg={Dx1 rg,Dx2 rg,……,Dxy rg,……,Dxq rg},Dxy rg为Cx rg对应的第y个关键数据统计模型,y=1,2,……,q,q为第一模型类型节点对应的关键数据统计模型数量,关键数据统计模型为模型类型与第一模型类型节点呈现的模型类型相同的初始数据统计模型。
S400、当g=1时,将初始数据集输入到Dxy rg中,以获取Dxy rg对应的目标统计数据集Gxy rg,其中,目标统计数据集中包括若干条目标统计数据,初始数据集包括用于数据统计的所有数据且初始数据集存储在数据库中。
S500、当g≠1时,将Cr(g-1)中作为Cx rg的父节点的Cx r(g-1)对应的所有Dxy r(g-1)对应的Gxy r(g-1)中的目标统计数据作为Cx rg对应的中间统计数据,以获取Cx rg对应的中间统计数据集Hx rg,并执行S600。
S600、将Hx rg输入到Dxy rg中,以获取Dxy rg对应的目标统计数据集Gxy rg。
本发明至少具有以下有益效果:
本发明提供了一种基于文本生成模板的数据统计系统,包括:初始文本生成模板、预设模型类型树、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现如下步骤:根据初始文本生成模板,获取第一模型类型列表;根据预设模型类型树和第一模型类型列表,获取第一模型类型列表对应的第一模型类型树列表;获取第一模型类型树中的第一模型类型节点对应的关键数据统计模型列表;获取关键数据统计模型对应的目标统计数据集。可知,本发明能够对初始文本生成模板中的初始数据统计模型的模型类型进行分类去重处理,获取第一模型类型列表,进而生成第一模型类型树,从第一模型类型树的根节点对应的关键数据统计模型开始,由根向叶按照顺序获取目标统计数据集,能够避免重复计算,有利于避免资源浪费,提高系统的运行效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于文本生成模板的数据统计系统执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供了一种基于文本生成模板的数据统计系统,包括:初始文本生成模板、预设模型类型树A={A1,A2,……,Ai,……,Am}、处理器和存储有计算机程序的存储器,其中,初始文本生成模板中包括若干个初始数据统计模型,Ai={Ai1,Ai2,……,Aij,……,Ain(i)},Aij为预设模型类型树第i层中的第j个预设模型类型节点,i=1,2,……,m,m为预设模型类型树的层数,j=1,2,……,n(i),n(i)为预设模型类型树第i层中预设模型类型节点数量,当计算机程序被处理器执行时,实现如下步骤,如图1所示:
S100、根据初始文本生成模板,获取第一模型类型列表B={B1,B2,……,Be,……,Bf},Be为第e个第一模型类型,e=1,2,……,f,f为第一模型类型数量,第一模型类型为初始文本生成模板中的初始数据统计模型的模型类型,其中,本领域技术人员知晓,初始数据统计模型为本领域技术人员预先训练好的能够对数据集中的数据进行统计并输出结果数据的模型,在此不再赘述。
具体地,不同的初始数据统计模型输出的结果数据不同。
进一步地,初始数据统计模型输出的结果数据的形式为数据表形式、文字形式、数字形式、数据集形式等形式中的一种或多种组合。
具体地,S100中包括如下步骤:
S101、从初始文本生成模板中获取初始数据统计模型名称列表,初始数据统计模型名称列表中包括初始文本生成模板中的若干个初始数据统计模型名称,初始数据统计模型名称为初始数据统计模型的名称。
S103、根据初始数据统计模型名称列表,获取初始数据统计模型名称列表对应第二模型类型列表,第二模型类型列表中包括若干个第二模型类型,第二模型类型为初始数据统计模型名称对应的初始数据统计模型的模型类型。
具体地,初始数据统计模型的模型类型存储在系统中。
S105、对第二模型类型列表进行去重处理,以获取B,其中,本领域技术人员知晓,现有技术中任一去重的方法,均属于本发明的保护范围,在此不再赘述。
上述,通过初始文本生成模板中的初始数据统计模型名称获取第二模型类型列表,对第二模型类型列表进行去重处理,获取第一模型类型列表,进而生成第一模型类型树,从第一模型类型树的根节点对应的关键数据统计模型开始,由根向叶按照顺序获取目标统计数据集,能够避免对同一种模型类型的初始数据统计模型重复处理,避免重复计算以及资源浪费,有利于提高系统的运行效率。
S200、根据A和B,获取B对应的第一模型类型树列表C={C1,C2,……,Cr,……,Cs},Cr={Cr1,Cr2,……,Crg,……,Crh},Crg={C1 rg,C2 rg,……,Cx rg,……,Cp rg},Cx rg为第r个第一模型类型树Cr第g层的第x个第一模型类型节点,r=1,2,……,s,s第一模型类型树的数量,g=1,2,……,h,h为第一模型类型树的层数,x=1,2,……,p,p为第一模型类型树一层的第一模型类型节点数量。例如:若预设模型类型树的第一层的节点即根节点为文本类型、根节点的子节点即第二层的节点为:纯文字文本类型、纯数字文本类型、纯英文文本类型、混合文本类型,第三层的节点为:纯文字文本类型的子节点为:繁体字类型、简体字类型;纯数字文本类型的子节点为:小数类型、整数类型、分数类型;纯英文文本类型的子节点为:大写字母类型,小写字母类型;混合文本类型的子节点为:中英混合类型、文字和数字组合类型;若第一模型类型为:文字、英文、混合、繁体、简体、小写字母、数字和中文,那么能够获取到3个第一模型类型树,根节点分别为:文字、英文、混合;文字的子节点为:繁体、简体;英文的子节点为:小写字母;混合的子节点为:数字和中文。
具体地,S200中包括如下步骤:
S201、令所有的Aij为NULL,以获取A对应的第一指定模型类型树A1={A1 1,A1 2,……,A1 i,……,A1 m},A1 i={A1 i1,A1 i2,……,A1 ij,……,A1 in(i)},A1 ij为Aij对应的指定模型类型节点,其中,本领域技术人员知晓,预设模型类型树为本领域技术人员根据实际需求预先设置好的树,在此不再赘述。
S203、获取Aij对应的预设模型类型A0 ij,预设模型类型为预设模型类型节点呈现的模型类型。
S205、获取A0 ij与Be之间的类型相似度AB0e ij,类型相似度为预设模型类型与第一模型类型之间的相似度,其中,本领域技术人员知晓,模型类型可以理解为标签,现有技术中任一获取两个标签之间的相似度的方法,均属于本发明的保护范围,在此不再赘述,例如:余弦相似度、编辑距离。
具体地,类型相似度越大,预设模型类型与第一模型类型越相似。
S207、根据AB0e ij和A1,获取A对应的第二模型类型树,其中,第二模型类型树中包括若干个第二模型类型节点。
具体地,S207包括如下步骤:
S2071、当Be对应的任意一个AB0e ij≥A2时,将max(AB0e 11,AB0e 12,……,AB0e 1j,……,AB0e 1n(i),AB0e 21,AB0e 22,……,AB0e 2j,……,AB0e 2n(i),……,AB0e i1,AB0e i2,……,AB0e ij,……,AB0e in(i),……,AB0e m1,AB0e m2,……,AB0e mj,……,AB0e mn(i))对应的A0 ij对应的Aij对应的A1 ij替换为Be,以获取第二指定模型树,其中,max()为最大值获取函数,A2为预设相似度阈值。
具体地,A2的取值范围为[0.8,1],其中,本领域技术人员知晓,本领域技术人员根据设实际需求在[0.8,1]中设置预设相似度阈值的具体值,在此不再赘述。
S2073、当Be对应的所有AB0e ij<A2时,获取Aij与Be之间的相似度优先级YXe ij,其中,YXe ij符合如下条件:
YXe ij=FJe ij+ZJe ij,FJe ij为Aij的父节点对应的预设模型类型与Be之间的类型相似度,ZJe ij为Aij的子节点对应的预设模型类型与Be之间的类型相似度,当Aij无父节点时,FJe ij为0,当Aij无子节点时,ZJe ij为0。
S2075、将max(YXe 11,YXe 12,……,YXe 1j,……,YXe 1n(i),YXe 21,YXe 22,……,YXe 2j,……,YXe 2n(i),……,YXe i1,YXe i2,……,YXe ij,……,YXe in(i),……,YXe m1,YXe m2,……,YXe mj,……,YXe mn(i))对应的Aij对应的A1 ij替换为Be,以获取第三指定模型树。
S2077、当第二指定模型树第i层的第j个第二指定模型节点为NULL且第三指定模型树第i层的第j个第三指定模型节点不为NULL时,将第二指定模型树第i层的第j个第二指定模型节点替换为第三指定模型树第i层的第j个第三指定模型节点,以获取第二模型类型树。
上述,构建为NULL的第一指定模型类型树,对预设模型类型和第一模型类型之间的类型相似度进行对比,当第一模型类型对应的所有类型相似度不小于预设相似度阈值时,说明第一模型类型和预设模型类型十分相似,可以作为第二指定模型类型树中的节点,用于确定第一模型类型在第二模型类型树中的位置,当第一模型类型对应的所有类型相似度都小于预设相似度阈值时,说明第一模型类型和预设模型类型不相似,无法确定第一模型类型在第二模型类型树中的位置,此时,获取第一模型类型对应的相似度优先级,对相似度优先级做对比,确定第一模型类型在第三指定模型类型树中的位置,用于确定第一模型类型在第二模型类型树中的位置,将第二在指定模型类型树和第三指定模型类型树进行融合,精准的确定出第二模型类型树中的节点,生成第二模型类型树,将第二模型树中的所有空节点删除,能够精准的获取第一模型类型树,从第一模型类型树的根节点对应的关键数据统计模型开始,由根向叶按照顺序获取目标统计数据集,能够避免重复计算,有利于避免资源浪费,提高系统的运行效率。
S209、将第二模型类型树中为NULL的第二模型类型节点删除,以获取C。
上述,根据预设模型类型和第一模型类型之间的类型相似度,确定第二模型类型树,将第二模型树中的所有空节点删除,能够精准的获取第一模型类型树,从第一模型类型树的根节点对应的关键数据统计模型开始,由根向叶按照顺序获取目标统计数据集,能够避免重复计算,有利于避免资源浪费,提高系统的运行效率。
S300、获取Cx rg对应的关键数据统计模型列表Dx rg={Dx1 rg,Dx2 rg,……,Dxy rg,……,Dxq rg},Dxy rg为Cx rg对应的第y个关键数据统计模型,y=1,2,……,q,q为第一模型类型节点对应的关键数据统计模型数量,关键数据统计模型为模型类型与第一模型类型节点呈现的模型类型相同的初始数据统计模型。
具体地,每一第一模型类型节点均对应q个关键数据统计模型,q随着x,r,g的变化而变化,例如:若第一模型类型节点为繁体,如果繁体文本名称统计模型、繁体文本数量统计模型、繁体文本发表时间统计模型的模型类型均为繁体,那么,所述第一模型类型节点对应的关键数据统计模型的数量为3且关键数据统计模型为:繁体文本名称统计模型、繁体文本数量统计模型、繁体文本发表时间统计模型;若第一模型类型节点为简体,如果简体文本数量统计模型、简体文本发表时间统计模型的模型类型均为简体,那么,所述第一模型类型节点对应的关键数据统计模型的数量为2且关键数据统计模型为:简体文本数量统计模型、简体文本发表时间统计模型。
S400、当g=1时,将初始数据集输入到Dxy rg中,以获取Dxy rg对应的目标统计数据集Gxy rg,其中,目标统计数据集中包括若干条目标统计数据。
具体地,初始数据集包括用于数据统计的所有数据且初始数据集存储在系统中。
进一步地,初始数据集中包括若干条初始数据。
S500、当g≠1时,将Cr(g-1)中作为Cx rg的父节点的Cx r(g-1)对应的所有Dxy r(g-1)对应的Gxy r(g-1)中的目标统计数据作为Cx rg对应的中间统计数据,以获取Cx rg对应的中间统计数据集Hx rg,并执行S600。
具体地,中间统计数据集中包括若干条中间统计数据。
S600、将Hx rg输入到Dxy rg中,以获取Dxy rg对应的目标统计数据集Gxy rg。
上述,对初始文本生成模板中的初始数据统计模型的模型类型进行分类去重处理,获取第一模型类型列表,进而生成第一模型类型树,从第一模型类型树的根节点对应的关键数据统计模型开始,由根向叶按照顺序获取目标统计数据集,当关键数据统计模型对应的第一模型类型节点为根节点时,从系统存储的初始数据集中获取目标统计数据集,当关键数据统计模型对应的第一模型类型节点不是根节点时,从其对应的第一模型类型节点的父节点对应的所有关键数据统计模型对应的目标统计数据集中获取目标统计数据集,能够避免重复计算,有利于避免资源浪费,提高系统的运行效率。
本发明提供了一种基于文本生成模板的数据统计系统,包括:初始文本生成模板、预设模型类型树、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现如下步骤:根据初始文本生成模板,获取第一模型类型列表;根据预设模型类型树和第一模型类型列表,获取第一模型类型列表对应的第一模型类型树列表;获取第一模型类型树中的第一模型类型节点对应的关键数据统计模型列表;获取关键数据统计模型对应的目标统计数据集。可知,本发明能够对初始文本生成模板中的初始数据统计模型的模型类型进行分类去重处理,获取第一模型类型列表,进而生成第一模型类型树,从第一模型类型树的根节点对应的关键数据统计模型开始,由根向叶按照顺序获取目标统计数据集,能够避免重复计算,有利于避免资源浪费,提高系统的运行效率。
本发明还提供了一种实施例,与上述实施例的区别在于,在S100前还包括如下步骤获取初始文本生成模板:
S1、获取目标用户输入的关键文本T0。
具体地,目标用户为需要使用文本生成模板的用户。
S2、根据T0和A,获取T0对应的候选模板文本列表T={T1,T2,……,Tb,……,Tc},Tb为第b个候选模板的候选模板文本,b=1,2,……,c,c为候选模板数量,候选模板文本为用于描述候选模板适用范围的文本。
具体地,候选模板对应的候选模板文本存储在系统中。
具体地,S2包括如下步骤获取候选模板:
S21、将T0输入到预设关键词提取模型中,以获取T0对应的关键词信息列表,关键词信息列表中包括若干个关键词信息,其中,本领域技术人员知晓,预设关键词提取模型为本领域技术人员根据实际需求预先训练好的模型,在此不再赘述。
具体地,关键词信息包括:关键词,关键词类型。
S22、根据关键词信息列表,获取候选词类型列表,候选词类型列表中包括若干个候选词类型,候选词类型为对所有的关键词信息中的关键词类型去重后的关键词类型。
S23、根据候选词类型列表,获取第三模型类型树,其中,本领域技术人员知晓,获取第三模型类型树的方式与S201-S207中获取第二模型类型树的方式相同,在此不再赘述;第三模型类型树可以理解为将S201-S207步骤中的第一模型类型替换为候选词类型时,执行S201-S207获取到的第二模型类型树。
S24、确定第三模型类型树中所有非NULL的节点的最近公共祖先ZX在第三模型类型树中的层级以及在层级中的位置,其中,本领域技术人员知晓,现有技术中任一获取最近公共祖先的方式,均属于本发明的保护范围,在此不再赘述。
S25、从A中获取第一候选模型类型节点,其中,第一候选模型类型节点为在A中的层级以及在层级中的位置与ZX在第三模型类型树中的层级以及在层级中的位置相同的预设模型类型节点。
S26、根据第一候选模型类型节点,获取第二候选模型类型节点列表,第二候选模型类型节点列表中包括若干个第二候选模型类型节点,第二候选模型类型节点为与第一候选模型类型节点具有相同的父节点的预设模型类型节点。
具体地,每一预设模型类型节点均对应若干个指定文本生成模板。
进一步地,指定文本生成模板为系统在当前时间点前存储的模板。
S27、获取候选模板,候选模板为任一第二候选模型类型节点对应的任一指定文本生成模板。
上述,通过关键词提取模型,获取关键文本中的关键词信息,从而获取候选词类型列表,对候选词类型列表进行处理,生成第三模型类型树,根据第三模型类型树和预设模型类型树,从预设模型类型树中确定出第一候选模型类型节点,进而确定出第二候选模型类型节点,将第二候选模型类型节点对应的指定文本生成模板作为候选模板,能够避免将无用的指定文本生成模板作为候选模板,提高了获取候选模板的精准度。
S3、根据T和若干个第一预设样本文本对NLP模型进行训练,以获取目标NLP模型,其中,NLP模型的输出的结果为第一预设样本文本分别和T1,T2,……,Tb,……,Tc之间的置信度,其中,本领域技术人员知晓,第一预设样本文本为本领域技术人员根据实际需求预先设置好的文本,现有技术中任一训练模型的方法,均属于本发明的保护范围,在此不再赘述,例如:无监督训练、有监督训练。
具体地,第一预设样本文本分别和T1,T2,……,Tb,……,Tc之间的置信度的加和为1。
S4、将T0输入到目标NLP模型中,以获取T0对应的中间置信度列表T1={T1 1,T1 2,……,T1 b,……,T1 c},T1 b为T0和Tb之间的中间置信度。
具体地,Σc b=1T1 b=1。
S5、当AT/BT≥YT时,根据第一处理方法对T0、T和T1进行处理,获取中间文本生成模板,AT为T0对应的所有关键词的字符数量的和,BT为T0中字符数量,YT为预设字符数量比例阈值。
具体地,YT的取值范围为[0.6,1],其中,本领域技术人员知晓,本领域技术人员根据实际需求在[0.6,1]中设置预设字符数量比例阈值,在此不再赘述。
具体地,S5中第一处理方法包括如下步骤:
S51、获取第一关键词列表GJ={GJ1,GJ2,……,GJ(ai),……,GJ(am)},GJ(ai)为第ai个第一关键词,ai=1,2,……,am,am为第一关键词数量,第一关键词为T0对应的关键词。
S52、获取T对应的第二关键词列表GJ0={GJ0 1,GJ0 2,……,GJ0 b,……,GJ0 c},GJ0 b={GJ0 b1,GJ0 b2,……,GJ0 b(aj),……,GJ0 b(an)},GJ0 b(aj)为Tb对应的第二关键词列表GJ0 b中的第aj个第二关键词,aj=1,2,……,an,an为第二关键词列表中的第二关键词数量,第二关键词为候选模板文本中的关键词,其中,本领域技术人员知晓,获取候选模板文本中的关键词的方式与获取关键文本对应的关键词的方式相同,在此不再赘述。
S53、根据GJ与GJ0,获取GJ对应的列表相似度列表GJ1={GJ1 1,GJ1 2,……,GJ1 b,……,GJ1 c},GJ1 b为GJ与GJ0 b之间的列表相似度,其中,GJ1 b符合如下条件:
GJ1 b=Σam ai=1(Σan aj=1XS(ai) (aj)/an)/am,XS(ai) (aj)为GJ(ai)与GJ0 b(aj)之间的词语相似度,其中,本领域技术人员知晓,现有技术中任一获取两个词语之间的词语相似度的方式,均属于本发明的保护范围,在此不再赘述。
具体地,词语相似度的值越大,词语之间越相似。
进一步地,列表相似度的值越大,第一关键词列表和第二关键词列表越相似。
S54、根据T1和GJ1,获取T对应的第一优先级列表YX={YX1,YX2,……,YXb,……,YXc},YXb为Tb对应的第一优先级,YXb符合如下条件:
YXb=T1 b+GJ1 b。
S55、当YX中只有一个最大值时,确定max(YX1,YX2,……,YXb,……,YXc)对应的Tb对应的候选模板为中间文本生成模板。
S56、当YX中有多个最大值时,根据T0和Tb,确定中间文本生成模板。
上述,当关键文本对应的所有关键词的字符数量和与关键文本的字符数量的比值不小于预设字符数量比例阈值时,说明关键词能够表达出文本所携带的含义,获取关键文本对应的所有关键词与候选模板文本对应的所有关键词之间的相似度,即列表相似度,将置信度与列表相似度的加和作为候选模板文本对应的第一优先级,选取第一优先级最大的候选模板文本对应的候选模板作为中间文本生成模板,有利于提高获取中间文本生成模板的精准度,当有多个最大的第一优先级值时,无法根据第一优先级精准的获取到中间文本生成模板,需要对关键文本和候选模板文本再次分析,确定中间文本生成模板。
具体地,S56包括如下步骤:
S561、将T0输入到预设向量提取模型中,获取T0对应的第一文本向量列表U0={U0 1,U0 2,……,U0 v,……,U0 w},U0 v为T0对应的第v个第一文本向量,v=1,2,……,w,w为第一文本向量数量,其中,预设向量提取模型为能够提取文本向量的神经网络模型,本领域技术人员知晓,现有技术中任一能够获取文本向量的神经网络模型均属于本发明的保护范围,在此不再赘述。
S562、将Tb输入到预设向量提取模型中,获取Tb对应的第二文本向量列表Ub={Ub1,Ub2,……,Ubv,……,Ubw},Ubv为Tb对应的第v个第二文本向量。
S563、根据U0和Ub,获取T0分别和T1,T2,……,Tb,……,Tc之间的文本相似度L0 1,L0 2,……,L0 b,……,L0 c,其中,L0 b为T0和Tb之间的文本相似度,且L0 b符合如下条件:
。
S564、根据T1 b和L0 b,获取T对应的第二优先级列表YX0={YX0 1,YX0 2,……,YX0 b,……,YX0 c},YX0 b为Tb对应的第二优先级,YX0 b符合如下条件:
YX0 b=T1 b+L0 b。
S565、当YX0中只有一个最大值时,确定max(YX0 1,YX0 2,……,YX0 b,……,YX0 c)对应的Tb对应的候选模板为中间文本生成模板。
S566、当YX0中有多个最大值时,确定max(T1 1+GJ1 1+L0 1,T1 2+GJ1 2+L0 2,……,T1 b+GJ1 b+L0 b,……,T1 c+GJ1 c+L0 c)对应的Tb对应的候选模板为中间文本生成模板。
上述,当有多个最大的第一优先级值时,获取关键文本和候选模板文本之间的文本相似度,将置信度与文本相似度的加和作为候选模板文本对应的第二优先级,选取第二优先级最大的候选模板文本对应的候选模板作为中间文本生成模板,有利于提高获取中间文本生成模板的精准度,当存在多个最大的第二优先级值时,无法根据第二优先级精准的获取到中间文本生成模板,此时,需要选取置信度、列表相似度、文本相似度的加和最大的候选模板文本对应的候选模板作为中间文本生成模板,有利于提高获取中间文本生成模板的精准度。
S6、当AT/BT<YT时,根据第二处理方法,获取中间文本生成模板。
具体地,S6中第二处理方法包括如下步骤:
S61、当YX0中只有一个最大值时,确定max(YX0 1,YX0 2,……,YX0 b,……,YX0 c)对应的Tb对应的候选模板为中间文本生成模板。
S63、当YX0中有多个最大值时,确定max(T1 1+GJ1 1+L0 1,T1 2+GJ1 2+L0 2,……,T1 b+GJ1 b+L0 b,……,T1 c+GJ1 c+L0 c)对应的Tb对应的候选模板为中间文本生成模板。
上述,当关键文本对应的所有关键词的字符数量和与关键文本的字符数量的比值小于预设字符数量比例阈值时,说明关键词可能不能表达出文本所携带的含义,不能够一关键词为主获取中间文本生成模板,此时选取第二优先级最大的候选模板文本对应的候选模板作为中间文本生成模板,有利于提高获取中间文本生成模板的精准度,当存在多个最大的第二优先级值时,无法根据第二优先级精准的获取到中间文本生成模板,此时,需要选取置信度、列表相似度、文本相似度的加和最大的候选模板文本对应的候选模板作为中间文本生成模板,有利于提高获取中间文本生成模板的精准度。
S7、目标用户对中间文本生成模板进行调整,获取初始文本生成模板,其中,本领域技术人员知晓,目标用户对中间文本生成模板进行调整的方法由本领域技术人员根据实际需求设置,在此不再赘述,例如:在中间文本生成模板中增加数据统计模型,在中间文本生成模板中删除数据统计模型。
上述,用户可以通过输入的关键文本,获取候选模板文本列表,根据关键文本、关键文本对应的关键词以及候选模板文本和候选模板文本中的关键词,确定出中间文本生成模板,对中间文本生成模板进行调整,生成初始文本生成模板,相较于现有技术,无需人工制作模板,人工处理具有不可控性,且需要用户进行大量的思考,因此,通过上述方法获取初始文本生成模板,有利于提高获取模板的精准度,且能够开阔用户的思维,提高用户的工作效率。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (8)
1.一种基于文本生成模板的数据统计系统,其特征在于,所述系统包括:初始文本生成模板、预设模型类型树A={A1,A2,……,Ai,……,Am}、处理器和存储有计算机程序的存储器,其中,初始文本生成模板中包括若干个初始数据统计模型,Ai={Ai1,Ai2,……,Aij,……,Ain(i)},Aij为预设模型类型树第i层中的第j个预设模型类型节点,i=1,2,……,m,m为预设模型类型树的层数,j=1,2,……,n(i),n(i)为预设模型类型树第i层中预设模型类型节点数量,当计算机程序被处理器执行时,实现如下步骤:
S100、根据初始文本生成模板,获取第一模型类型列表B={B1,B2,……,Be,……,Bf},Be为第e个第一模型类型,e=1,2,……,f,f为第一模型类型数量,第一模型类型为初始文本生成模板中的初始数据统计模型的模型类型;
S200、根据A和B,获取B对应的第一模型类型树列表C={C1,C2,……,Cr,……,Cs},Cr={Cr1,Cr2,……,Crg,……,Crh},Crg={C1 rg,C2 rg,……,Cx rg,……,Cp rg},Cx rg为第r个第一模型类型树Cr第g层的第x个第一模型类型节点,r=1,2,……,s,s第一模型类型树的数量,g=1,2,……,h,h为第一模型类型树的层数,x=1,2,……,p,p为第一模型类型树一层中的第一模型类型节点数量;
S300、获取Cx rg对应的关键数据统计模型列表Dx rg={Dx1 rg,Dx2 rg,……,Dxy rg,……,Dxq rg},Dxy rg为Cx rg对应的第y个关键数据统计模型,y=1,2,……,q,q为第一模型类型节点对应的关键数据统计模型数量,关键数据统计模型为模型类型与第一模型类型节点呈现的模型类型相同的初始数据统计模型;
S400、当g=1时,将初始数据集输入到Dxy rg中,以获取Dxy rg对应的目标统计数据集Gxy rg,其中,目标统计数据集中包括若干条目标统计数据,初始数据集包括用于数据统计的所有数据且初始数据集存储在数据库中;
S500、当g≠1时,将Cr(g-1)中作为Cx rg的父节点的Cx r(g-1)对应的所有Dxy r(g-1)对应的Gxy r(g-1)中的目标统计数据作为Cx rg对应的中间统计数据,以获取Cx rg对应的中间统计数据集Hx rg,并执行S600;
S600、将Hx rg输入到Dxy rg中,以获取Dxy rg对应的目标统计数据集Gxy rg。
2.根据权利要求1所述的基于文本生成模板的数据统计系统,其特征在于,S100中包括如下步骤:
S101、从初始文本生成模板中获取初始数据统计模型名称列表,初始数据统计模型名称列表中包括初始文本生成模板中的若干个初始数据统计模型名称,初始数据统计模型名称为初始数据统计模型的名称;
S103、根据初始数据统计模型名称列表,获取初始数据统计模型名称列表对应第二模型类型列表,第二模型类型列表中包括若干个第二模型类型,第二模型类型为初始数据统计模型名称对应的初始数据统计模型的模型类型;
S105、对第二模型类型列表进行去重处理,以获取B。
3.根据权利要求1所述的基于文本生成模板的数据统计系统,其特征在于,S200中包括如下步骤:
S201、令所有的Aij为NULL,以获取A对应的第一指定模型类型树A1={A1 1,A1 2,……,A1 i,……,A1 m},A1 i={A1 i1,A1 i2,……,A1 ij,……,A1 in(i)},A1 ij为Aij对应的指定模型类型节点;
S203、获取Aij对应的预设模型类型A0 ij,预设模型类型为预设模型类型节点呈现的模型类型;
S205、获取A0 ij与Be之间的类型相似度AB0e ij,类型相似度为预设模型类型与第一模型类型之间的相似度;
S207、根据AB0e ij,获取A对应的第二模型类型树,其中,第二模型类型树中包括若干个第二模型类型节点;
S209、将第二模型类型树中为NULL的第二模型类型节点删除,以获取C。
4.根据权利要求3所述的基于文本生成模板的数据统计系统,其特征在于,S207包括如下步骤:
S2071、当Be对应的任意一个AB0e ij≥A2时,将max(AB0e 11,AB0e 12,……,AB0e 1j,……,AB0e 1n(i),AB0e 21,AB0e 22,……,AB0e 2j,……,AB0e 2n(i),……,AB0e i1,AB0e i2,……,AB0e ij,……,AB0e in(i),……,AB0e m1,AB0e m2,……,AB0e mj,……,AB0e mn(i))对应的A0 ij对应的Aij对应的A1 ij替换为Be,以获取第二指定模型树,其中,max()为最大值获取函数,A2为预设相似度阈值;
S2073、当Be对应的所有AB0e ij<A2时,获取Aij与Be之间的相似度优先级YXe ij,其中,YXe ij符合如下条件:
YXe ij=FJe ij+ZJe ij,FJe ij为Aij的父节点对应的预设模型类型与Be之间的类型相似度,ZJe ij为Aij的子节点对应的预设模型类型与Be之间的类型相似度,当Aij无父节点时,FJe ij为0,当Aij无子节点时,ZJe ij为0;
S2075、将max(YXe 11,YXe 12,……,YXe 1j,……,YXe 1n(i),YXe 21,YXe 22,……,YXe 2j,……,YXe 2n(i),……,YXe i1,YXe i2,……,YXe ij,……,YXe in(i),……,YXe m1,YXe m2,……,YXe mj,……,YXe mn(i))对应的Aij对应的A1 ij替换为Be,以获取第三指定模型树;
S2077、当第二指定模型树第i层的第j个第二指定模型节点为NULL且第三指定模型树第i层的第j个第三指定模型节点不为NULL时,将第二指定模型树第i层的第j个第二指定模型节点替换为第三指定模型树第i层的第j个第三指定模型节点,以获取第二模型类型树。
5.根据权利要求1所述的基于文本生成模板的数据统计系统,其特征在于,不同的初始数据统计模型输出的结果数据不同。
6.根据权利要求5所述的基于文本生成模板的数据统计系统,其特征在于,初始数据统计模型输出的结果数据的形式为数据表形式、文字形式、数字形式、数据集形式等形式中的一种或多种组合。
7.根据权利要求1所述的基于文本生成模板的数据统计系统,其特征在于,初始数据统计模型的模型类型存储在系统中。
8.根据权利要求1所述的基于文本生成模板的数据统计系统,其特征在于,在S100前还包括如下步骤获取初始文本生成模板:
S1、获取目标用户输入的关键文本T0;
S2、根据T0和A,获取T0对应的候选模板文本列表T={T1,T2,……,Tb,……,Tc},Tb为第b个候选模板的候选模板文本,b=1,2,……,c,c为候选模板数量,候选模板文本为用于描述候选模板适用范围的文本;
S3、根据T和若干个第一预设样本文本对NLP模型进行训练,以获取目标NLP模型,其中,NLP模型的输出的结果为第一预设样本文本分别和T1,T2,……,Tb,……,Tc之间的置信度;
S4、 将T0输入到目标NLP模型中,以获取T0对应的中间置信度列表T1={T1 1,T1 2,……,T1 b,……,T1 c},T1 b为T0和Tb之间的中间置信度;
S5、当AT/BT≥YT时,根据第一处理方法对T0、T和T1进行处理,获取中间文本生成模板,AT为T0对应的所有关键词的字符数量的和,BT为T0中字符数量,YT为预设字符数量比例阈值;
S6、当AT/BT<YT时,根据第二处理方法,获取中间文本生成模板;
S7、目标用户对中间文本生成模板进行调整,获取初始文本生成模板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311304180.8A CN117034901B (zh) | 2023-10-10 | 2023-10-10 | 一种基于文本生成模板的数据统计系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311304180.8A CN117034901B (zh) | 2023-10-10 | 2023-10-10 | 一种基于文本生成模板的数据统计系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117034901A CN117034901A (zh) | 2023-11-10 |
CN117034901B true CN117034901B (zh) | 2023-12-08 |
Family
ID=88641681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311304180.8A Active CN117034901B (zh) | 2023-10-10 | 2023-10-10 | 一种基于文本生成模板的数据统计系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117034901B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399597A (zh) * | 2018-04-24 | 2019-11-01 | 西门子股份公司 | 模板提取系统、装置和方法 |
CN113342981A (zh) * | 2021-06-30 | 2021-09-03 | 中国工商银行股份有限公司 | 一种基于机器学习的需求文档分类方法及装置 |
CN113850065A (zh) * | 2021-09-17 | 2021-12-28 | 奇安信科技集团股份有限公司 | 报告生成方法、装置、计算机设备和存储介质 |
WO2022227207A1 (zh) * | 2021-04-30 | 2022-11-03 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10282419B2 (en) * | 2012-12-12 | 2019-05-07 | Nuance Communications, Inc. | Multi-domain natural language processing architecture |
US9396724B2 (en) * | 2013-05-29 | 2016-07-19 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for building a language model |
-
2023
- 2023-10-10 CN CN202311304180.8A patent/CN117034901B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399597A (zh) * | 2018-04-24 | 2019-11-01 | 西门子股份公司 | 模板提取系统、装置和方法 |
WO2022227207A1 (zh) * | 2021-04-30 | 2022-11-03 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN113342981A (zh) * | 2021-06-30 | 2021-09-03 | 中国工商银行股份有限公司 | 一种基于机器学习的需求文档分类方法及装置 |
CN113850065A (zh) * | 2021-09-17 | 2021-12-28 | 奇安信科技集团股份有限公司 | 报告生成方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
Static analysis of XML transformations in java;Kirkegaard, C;IEEE TRANSACTIONS ON SOFTWARE ENGINEERING;第30卷(第3期);181-192 * |
基于模板的管理信息系统代码自动生成;陈海郎;;价值工程(第32期);221-224 * |
Also Published As
Publication number | Publication date |
---|---|
CN117034901A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN108595706B (zh) | 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 | |
WO2022100045A1 (zh) | 分类模型的训练方法、样本分类方法、装置和设备 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
Bergsma et al. | Language identification for creating language-specific twitter collections | |
WO2021212749A1 (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN109933670B (zh) | 一种基于组合矩阵计算语义距离的文本分类方法 | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
CN108287911B (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN110287330B (zh) | 词向量的在线字典扩展 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN111368086A (zh) | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN101661462A (zh) | 四层结构的中文文本正则化体系及实现 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN112052331A (zh) | 一种处理文本信息的方法及终端 | |
CN111651986A (zh) | 事件关键词提取方法、装置、设备及介质 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN117034901B (zh) | 一种基于文本生成模板的数据统计系统 | |
CN116756346A (zh) | 一种信息检索方法及装置 | |
CN114266255B (zh) | 基于聚类模型的语料分类方法、装置、设备及存储介质 | |
CN112966501B (zh) | 一种新词发现方法、系统、终端及介质 | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |