CN115481616A - 目标文本的获取方法、装置、计算机设备和存储介质 - Google Patents
目标文本的获取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115481616A CN115481616A CN202211213035.4A CN202211213035A CN115481616A CN 115481616 A CN115481616 A CN 115481616A CN 202211213035 A CN202211213035 A CN 202211213035A CN 115481616 A CN115481616 A CN 115481616A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- target
- category
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种目标文本的生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取目标文本模板,所述目标文本模板中包括待填入的数据类别,所述数据类别包括第一数据类别和第二数据类别,其中,所述第二数据类别从属于所述第一数据类别;从所述第二数据类别对应的数据接口中获取原始数据;按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据;将所述目标数据填入至所述目标文本模板中,生成目标文本。采用本方法能够减少目标文本生成的工作量,提高了目标文本生成的效率。
Description
技术领域
本公开涉及数据处理技术领域,特别是涉及一种目标文本的生成方法、装置、计算机设备和存储介质。
背景技术
通过对历史相关数据进行分析处理,得到标准化的报告,有利于后续的业务的分析和处理。传统的生成报告的方法中,通常为业务人员根据实际的应用场景确定对应的报告模板,并根据报告模板手动将数据和分析结果填入到报告模板中。
然而,通过这种方法生成报告,人工工作量大,且依赖人工,报告内容准确度较低。
发明内容
基于此,有必要针对上述技术问题,提供一种提高效率适用于多种场景的目标文本的生成方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本公开实施例提供了一种目标文本的生成方法。所述方法包括:
获取目标文本模板,所述目标文本模板中包括待填入的数据类别,所述数据类别包括第一数据类别和第二数据类别,其中,所述第二数据类别从属于所述第一数据类别;
从所述第二数据类别对应的数据接口中获取原始数据;
按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据;
将所述目标数据填入至所述目标文本模板中,生成目标文本。
在其中一个实施例中,所述将所述目标数据填入至所述目标文本模板中,生成目标文本,包括:
将所述目标数据输入至文本生成模型,经所述文本生成模型输出初始文本,其中,所述文本生成模型为根据预设语料库中样本数据与标注的文本标签之间的关系训练获得;
将所述初始文本输入至预设的文本判别模型,经所述判别模型输出待填入文本;
将所述待填入文本与所述目标数据填入至所述目标文本模板中,生成目标文本。
在其中一个实施例中,所述方法还包括:
利用所述待填入文本与所述目标数据之间的关联关系训练所述文本生成模型;
确定训练后的文本生成模型为新的文本生成模型。
在其中一个实施例中,所述第一数据类别包括预设规则数据类别;所述按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据,包括:
确定所述第一数据类别对应的数据运算规则;
根据所述数据运算规则对所述原始数据进行运算,得到目标数据。
在其中一个实施例中,所述第一数据类别包括图表数据类别;所述按照与所述第一数据类别相匹配的处理方式,对所述原始数据进行处理,得到目标数据,包括:
利用预设的图表渲染模块对所述原始数据进行渲染,得到所述原始数据对应的图表;
确定所述图表为目标数据。
在其中一个实施例中,所述原始数据的获取方式,包括:
从预设的数据库中周期性获取与所述第二数据类别相对应的原始数据;
根据所述原始数据与所述第二数据类别之间的关联关系确定原始数据对应的数据接口。
第二方面,本公开实施例还提供了一种目标文本的生成装置。所述装置包括:
第一获取模块,用于获取目标文本模板,所述目标文本模板中包括待填入的数据类别,所述数据类别包括第一数据类别和第二数据类别,其中,所述第二数据类别从属于所述第一数据类别;
第二获取模块,用于从所述第二数据类别对应的数据接口中获取原始数据;
处理模块,用于按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据;
生成模块,用于将所述目标数据填入至所述目标文本模板中,生成目标文本。
在其中一个实施例中,所述生成模块,包括:
第一输入模块,用于将所述目标数据输入至文本生成模型,经所述文本生成模型输出初始文本,其中,所述文本生成模型为根据预设语料库中样本数据与标注的文本标签之间的关系训练获得;
第二输入模块,用于将所述初始文本输入至预设的文本判别模型,经所述判别模型输出待填入文本;
生成子模块,用于将所述待填入文本与所述目标数据填入至所述目标文本模板中,生成目标文本。
在其中一个实施例中,所述装置还包括:
训练模块,用于利用所述待填入文本与所述目标数据之间的关联关系训练所述文本生成模型;
确定模块,用于确定训练后的文本生成模型为新的文本生成模型。
在其中一个实施例中,所述第一数据类别包括预设规则数据类别;所述处理模块,包括:
确定模块,用于确定所述第一数据类别对应的数据运算规则;
运算模块,用于根据所述数据运算规则对所述原始数据进行运算,得到目标数据。
在其中一个实施例中,所述第一数据类别包括图表数据类别;所述处理模块,包括:
渲染模块,用于利用预设的图表渲染模块对所述原始数据进行渲染,得到所述原始数据对应的图表;
确定模块,用于确定所述图表为目标数据。
在其中一个实施例中,所述原始数据的获取模块,包括:
获取子模块,用于从预设的数据库中周期性获取与所述第二数据类别相对应的原始数据;
确定模块,用于根据所述原始数据与所述第二数据类别之间的关联关系确定原始数据对应的数据接口。
第三方面,本公开实施例还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例中任一项所述的方法的步骤。
第四方面,本公开实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
第五方面,本公开实施例还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
本公开实施例,当需要生成目标文本时,首先获取目标文本模板,并确定目标文本模板中待填入的数据类别,且数据类别中包括第一数据类别和第二数据类别,第二数据类别从属于第一数据类别,从与第二数据类别对应的数据接口中获取原始数据,从而能够使得获取到的原始数据较为准确,提高了生成的目标文本的可靠性和有效性;根据与第一数据类别相匹配的数据处理方式对原始数据进行处理得到目标数据,由于第二数据类别从属于第一数据类别,无需根据第二数据类别进行处理,提高了数据处理的效率,且保证了目标文本的准确率和可靠性;将得到的目标数据填入至目标文本模板中,得到目标文本,实现了目标文本的全自动生成,无需人工根据模板填入对应的数据,大大减少了工作量,提高了目标文本的生成效率,且可以根据不同场景设置差异化模板,能够适用于更多应用场景。
附图说明
图1为一个实施例中目标文本的生成方法的应用环境图;
图2为一个实施例中目标文本的生成方法的流程示意图;
图3为一个实施例中目标文本的生成方法的流程示意图;
图4为一个实施例中待输入文本的生成方式的流程示意图;
图5为一个实施例中目标文本的生成系统的示意图;
图6为一个实施例中目标文本的生成系统的结构示意图;
图7为一个实施例中目标文本的生成装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本公开实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开实施例,并不用于限定本公开实施例。
本公开实施例提供的目标文本的生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种目标文本的生成方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S210,获取目标文本模板,所述目标文本模板中包括待填入的数据类别,所述数据类别包括第一数据类别和第二数据类别,其中,所述第二数据类别从属于所述第一数据类别;
本公开实施例中,获取目标文本模板,其中,目标文本通常为根据实际应用场景确定的所需要的文本,可以包括但不限于报告、会议纪要等文本。目标文本模板通常为事先根据实际应用场景设置得到,根据目标文本中所需要的数据内容设置得到目标文本模板,目标文本模板中对应有待填入的数据类别。在一个示例中,响应于用户的模板选择指令,获取目标文本模板,其中,可以设置不同的应用场景下对应的不同的目标文本模板,用户选择应用场景,直接获取对应的目标文本模板,也可以从应用场景中对应有多个目标文本模板供用户进行选择。在一个示例中,一个应用场景对应有一个或多个目标文本模板。目标文本模板中的数据类别包括第一数据类别和第二数据类别,且第二数据类别从属于第一数据类别。其中,通常情况下,一个或多个第二数据类别从属于一个第一数据类别,例如,若第一数据类别为文本数据类别,第二数据类别可以为目标文本模板中待输入的具体内容对应的具体文本类别。在一个示例中,第一文本类别可以包括但不限于文本数据类别、表格数据类别、图表数据类别、预设规则数据类别等。
步骤S220,从所述第二数据类别对应的数据接口中获取原始数据;
本公开实施例中,获取到目标文本模板后,根据目标文本模板中的第二数据类别确定其对应的数据接口,从数据接口中获取对应的原始数据。其中,数据接口与第二数据类别之间存在对应关系。在一个示例中,数据接口与预设原始数据库连接,通过数据接口可以获取预设原始数据库中的原始数据。本实施例中,原始数据与第二数据类别相对应,例如,第二数据类别为预设时段内的交互次数时,可以从对应的数据接口获取预设时段内的具体交互次数。在一个示例中,数据接口可以为ESB接口。
步骤S230,按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据;
本公开实施例中,通常情况下,目标文本为标准化的文本,因此,需要对原始数据进一步处理得到目标数据。在处理时,不同的第一数据类别通常对应有不同的数据处理方式,根据第一数据类别对应的数据处理方式对原始数据进行处理,得到目标数据。其中,原始数据与第二数据类别之间存在对应关系,第二数据类别从属于第一数据类别,因此,原始数据与第一数据类别之间也存在对应关系。在一个示例中,第一数据类别和数据处理方式之间的对应关系通常为事先根据实际场景及第一数据类别的数据特性确定得到,例如,当第一数据类别为图表数据类别时,通常需要对原始数据进行渲染处理得到对应的图表数据,从而得到目标数据。
步骤S240,将所述目标数据填入至所述目标文本模板中,生成目标文本。
本公开实施例中,将得到的目标数据填入到目标文本模板中,生成目标文本。其中,目标数据与原始数据存在对应关系,因此,目标数据与第二数据类别存在对应关系,根据目标数据与第二数据类别之间的对应关系将目标数据填入至目标文本模板中,得到目标文本。在一个示例中,在目标文本模板中,第二数据类别对应有填入位置,根据目标数据与第二数据类别之间的对应关系将目标数据填入对应的填入位置,生成目标文本。
本公开实施例,当需要生成目标文本时,首先获取目标文本模板,并确定目标文本模板中待填入的数据类别,且数据类别中包括第一数据类别和第二数据类别,第二数据类别从属于第一数据类别,从与第二数据类别对应的数据接口中获取原始数据,从而能够使得获取到的原始数据较为准确,提高了生成的目标文本的可靠性和有效性;根据与第一数据类别相匹配的数据处理方式对原始数据进行处理得到目标数据,由于第二数据类别从属于第一数据类别,无需根据第二数据类别进行处理,提高了数据处理的效率,且保证了目标文本的准确率和可靠性;将得到的目标数据填入至目标文本模板中,得到目标文本,实现了目标文本的全自动生成,无需人工根据模板填入对应的数据,大大减少了工作量,提高了目标文本的生成效率,且可以根据不同场景设置差异化模板,能够适用于更多应用场景。
在一个实施例中,如图3所示,所述将所述目标数据填入至所述目标文本模板中,生成目标文本,包括:
步骤S241,将所述目标数据输入至文本生成模型,经所述文本生成模型输出初始文本,其中,所述文本生成模型为根据预设语料库中样本数据与标注的文本标签之间的关系训练获得;
步骤S242,将所述初始文本输入至预设的文本判别模型,经所述判别模型输出待填入文本;
步骤S243,将所述待填入文本与所述目标数据填入至所述目标文本模板中,生成目标文本。
本公开实施例中,目标文本中还可以包括待填入文本。确定目标数据后,将目标数据输入至文本生成模型,经文本生成模型输出初始文本。文本生成模型为根据预设语料库中样本数据与标注的文本标签之间的关系训练获得,其中,预设语料库中的样本数据通常为事先根据实际应用场景获取的历史数据,根据历史数据与分析文本之间的关系对历史数据进行标注,得到带有文本标签的数据。在一个示例中,目标文本可以为报告,待填入文本可以为报告中的分析文本部分。将初始文本输入至预设的文本判别模型中,对初始文本进行筛选优化,得到待填入文本。在一个示例中,文本判别模型为实现根据预设语料库中的样本数据进行训练得到,用于对文本进行筛选优化。得到待填入文本后,将待填入文本和目标数据填入到目标文本模板中,得到目标文本。在一个示例中,目标文本模板中对应有待填入文本的填入位置,生成目标文本时,将待填入文本填入对应位置即可。在一个示例中,待填入文本中可以包括目标数据,将目标数据填入至待填入文本中,再填入至目标文本模板中,得到目标文本。在一个示例中,可以通过自然语言处理技术得到文本生成模型和文本判别模型。
本公开实施例,通过文本识别模型和文本判别模型对目标数据进行处理得到待填入文本,从而生成目标文本,丰富了目标文本的内容,实现了文本的自动生成,从而能够适用于更多应用场景,无需人工对数据分析得到文本,减少了工作量,提高了目标文本的效率。
在一个实施例中,所述方法还包括:
利用所述待填入文本与所述目标数据之间的关联关系训练所述文本生成模型;
确定训练后的文本生成模型为新的文本生成模型。
本公开实施例中,得到待填入文本后,还可以根据待填入文本与目标数据之间的关联关系训练文本生成模型,并将训练后的文本生成模型确定为新的文本生成模型。在一个示例中,可以对文本生成模型设置周期性更新,每个周期按照待填入文本与目标数据之间的关联关系训练文本生成模型。在另一个示例中,还可以根据待填入文本对文本判别模型进行优化,将优化后的文本判别模型作为新的文本判别模型。
图4为根据一示例性实施例示出的一种待输入文本的生成方式的流程图,参考图4所示,首先从预设数据库中获取意图与建议文本,其中,本实施例中,预设数据库可以包括但不限于业务数据库,具体可以根据实际场景进行设置。然后对对应的数据进行数据清洗,筛除不符合要求的数据,得到清洗后的数据,对清洗后的数据进行特征处理和标签。然后利用处理后的数据进行模型训练,其中,训练模型时,由于所提供输入文本较少,为获得较好的模型训练结果,通过对现有资源交互语料库训练出的预训练模型进行权重的调整(即Fine-tuning,在已经训练好的语言模型的基础上,加入少量的task-specificparameters,然后在新的语料上重新训练来进行微调),得到最终的文本生成模型,使用预训练模型可大大提升模型训练的效果,同时降低训练难度。其中,可以根据不同应用场景对文本生成模型进行调整。在生成文本时,由文本生成模型生成初始文本,再由文本判别模型对初始文本进行优化,结合生成库和规则库对优化后的文本进行进一步优化,得到文本初版,对文本初版进行校验,校验通过后得到文本终版,即待填入文本。其中,生成库通常为通过文本判别模型最终得到可在报告中展现的语料库;规则库通常为文本间的自由组合规则,例如文本之间的连接词“如……但……”、“……且……等”等,使最终生成结果更符合常用的描述。在一个示例中,可以通过预先设置的文本校验模型对文本初版进行校验。本实施例中,还可以利用待填入文本反馈学习,对文本生成模型和文本判别模型进行优化。
本公开实施例,通过待填入文本与目标数据之间的关联关系训练得到新的文本生成模型,实现了对文本生成模型的进一步优化,在文本生成模型的使用过程中,不断的迭代优化,提高了生成文本的可靠准确性,进而提高了目标文本的质量和准确性。
在一个实施例中,所述第一数据类别包括预设规则数据类别;所述按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据,包括:
确定所述第一数据类别对应的数据运算规则;
根据所述数据运算规则对所述原始数据进行运算,得到目标数据。
本公开实施例中,第一数据类别包括预设规则数据类别,其中,预设规则数据类别可以认为为需要按照预设规则对数据进行运算的数据类别。当第一数据类别为预设规则数据类别时,确定第一数据类别对应的数据运算规则,根据数据运算规则对原始数据进行运算,得到目标数据。在一个示例中,第一数据类别还可以对应有多个数据运算规则,可以进一步根据第二数据类别确定对应的数据运算规则。
本公开实施例,通过设置预设规则数据类别,实现了对原始数据的运算,能够直接根据原始数据获取运算后的目标数据填入目标文本模板中,大大减少了人工工作量,丰富了目标文本模板中的数据类型,使其能够适用于更多应用场景,提升了目标文本的准确性和可靠性。
在一个实施例中,所述第一数据类别包括图表数据类别;所述按照与所述第一数据类别相匹配的处理方式,对所述原始数据进行处理,得到目标数据,包括:
利用预设的图表渲染模块对所述原始数据进行渲染,得到所述原始数据对应的图表;
确定所述图表为目标数据。
本公开实施例中,第一数据类别包括图表数据类别,其中,图表数据类别包括数据图、数据表等。在第一数据类别为图表数据类别时,利用预设的图表渲染模块对对应的原始数据进行渲染,得到原始数据对应的图表。其中,预设的图表渲染模块通常可以为预先设置的具有图表渲染功能的模块。在一个示例中,还可以对图表数据类别进行更细粒度的划分,对应于第二数据类别,根据第二数据类别对应的数据处理方式进行处理。在一个示例中,图表可以包括但不限于折线图、柱状图等。
本公开实施例,通过设置图表数据类型,实现了目标文本中图表的生成,大大减少了人工工作量,丰富了目标文本模板中的数据类型,使其能够适用于更多应用场景,提升了目标文本的准确性和可靠性。
在一个实施例中,所述原始数据的获取方式,包括:
从预设的数据库中周期性获取与所述第二数据类别相对应的原始数据;
根据所述原始数据与所述第二数据类别之间的关联关系确定原始数据对应的数据接口。
本公开实施例中,从预设的数据库中周期性获取与第二数据类别相对应的原始数据。其中,预设的数据库通常为根据实际应用场景确定得到,在一个示例中,若目标文本为业务报告,预设的数据库可以为业务数据库,存储有业务数据,根据业务的变化,业务数据库也会更新。根据原始数据与第二数据类别之间的关联关系确定原始数据对应的数据接口。本实施例中,周期性获取原始数据,即每个周期均对数据接口对应的原始数据进行更新。在一个示例中,从预设的数据库中获取到初始数据后,可以按照第二数据类别对应的数据处理方式对初始数据进行处理得到原始数据。
本公开实施例,周期性获取原始数据,保证了数据接口对应的数据的实时性,提高了目标文本的准确性和可靠性;且通过周期性获取原始数据,无需人工获取数据库中的数据进行处理,减少了人工工作量,提高了数据获取的效率,进而保证了目标文本的生成效率和时效。
图5是根据一示例性实施例示出的一种目标文本的生成系统的示意图,所述生成系统的结构图如图6所示,参考图5所示,目标文本的生成系统包括数据存储模块、数据生成模块、图表生成模块、规则引擎模块、文本生成模块、对外输出模块。参考图6所示,目标文本的生成系统的结构可以包括数据层、基础层、能力层、接口层、应用层,其中,数据层包括指标库、函数意图库、语料库,基础层包括规则引擎和文本生成,能力层包括数据生成、图表生成、规则生成、语义处理、反馈学习、文本续写,接口层包括WEB服务接口、文本生成接口、反馈学习接口,应用层自动化生成目标文本。参考图5和图6所示,其中,目标文本可以为报告,目标文本的生成系统包括:数据存储模块,根据不同的应用场景构建指标服务体系,以ESB接口形式对外发布,供目标文本生成系统后续模块调用,其中,数据存储模块中的数据可以为批量数据(按频度更新,存储在数据库中),也可以为日常手工维护数据(以excel方式存储)。本实施例中,数据存储模块中每条数据均以指标服务的形式发布,指标服务通常为事先根据实际应用场景设置得到。在一个示例中,指标服务与数据存储于指标库中。
数据生成模块,用于检索目标文本模板,将数据填充在目标文本对应位置,在一个示例中,可以采用POI(文档处理包)中的XWPF(读写组件)模块实现文档的读写操作。在一个示例中,数据生成模块执行以下步骤:检索整份目标文本模板中的数据参数;解析每个数据参数,并通过ESB接口调用对应的数据;将调用到的数据写入数据参数对应位置。其中,数据参数包括第一数据类别和第二数据类别,参数解析过程为将该参数解析为可查询的数据库语句,并通过接口方式进行调用,拿到其对应的底层数据并写入文档中。在一个示例中,数据参数为根据一定规则自行定义的可解析的序列,其中可以包括对应数据指标,指标聚合方式和指标单位。在一个示例中,指标库中存储有数据参数与对应的指标服务之间的关联关系。
图表生成模块,用于检索目标文本模板,生成目标文本中需要展示的表格(固定表格,动态表格等)和图表(折线图,柱状图等)。在一个示例中,图表生成模块包括动态表格生成单元和图表生成单元。在一个示例中,动态表格生成单元可以采用POI(文档处理包)中的XWPF(读写组件)模块动态插入表格,图表生成单元可以选用POI中的poi-tl作为模板引擎,根据图表模板动态修改图表的数据,其中,可以保持原有图表的样式不变,如图表的系列颜色和字体颜色等。在一个示例中,图表生成模块执行以下步骤:检索整份目标文本中的图表参数;解析每个图表参数,将需要生成的图表封装成对象;通过ESB接口调用生成图表所需指标数据;返回数据并替换图表模板形成最终展示图表。
规则引擎模块,用于数据间的四则运算,并可同步生成相应意图。在一个示例中,规则引擎模块可以建立相应的函数库和意图库,函数库存储指标间的四则运算,意图库存储规则运算后的展示意图(如低于,高于等)。在一个示例中,规则引擎模块执行以下步骤:检索整份目标文本模板中的规则参数;解析每个规则参数,确认函数编号和意图编号,调用对应指标;如参数中无意图编号,则写入计算结果;如有,则写入对应意图。在一个示例中,规则函数及意图事先存储于预设的函数意图库中,用于规则引擎模块调用。
NLP文本生成模块,基于自然语言生成技术进行文本分词、语义理解、关键词抽取等,实现待填入文本内容的自动生成。在一个示例中,所述NLP文本生成模块应用TensorFlow(一个端到端开源机器学习平台)的深度学习框架,搭建Transformer神经网络、CNN神经网络、RNN神经网络等结构模型,其中,可以通过预设的语料库进行模型的搭建和训练。完成文本生成及文本判别任务,结合NLP领域的Pretrain&Fine-tuning(预训练与微调)的方法,最终应用于目标文本中待填入文本生成。在一个示例中,文本生成通过迁移学习的技术,使用BERT预训练语言模型,将实际应用场景中的总结性与建议性文本输入模型,对模型进行微调。其中,文本判别通过CNN、LSTM等模型技术,对语言文本进行相似判断或分类,判断生成的文本是否属于对应应用场景的文本。在一个示例中,还可以通过反馈学习的机制,将模型输出并通过校验完成后的文本,通过一系列的特征处理后,将之前已训练好的模型作为该领域的预训练模型,进行再训练与微调。在一个示例中,还可以进行文本续写。
对外输出模块,提供目标文本的对外输出接口,供多方调用和使用所生成目标文本,外部系统可不定期调用该系统所生成的目标文本进行查询或再加工。
本实施例中,目标文本的生成步骤为:具体报告生成步骤如下:利用数据存储模块开发存储相关数据。将数据以指标服务形式发布,形成可供调用的ESB接口供程序调用。确定目标文本模板,根据预先定义的样式在目标文本模板中填充指标参数,包括:数据参数、表格参数、图表参数和规则参数等。数据参数需指明对应数据指标,指标聚合方式和指标单位等;表格参数需指明每列对应指标和展示内容等;图表参数需指明图表类型和图表标题等;规则参数需指明所用指标,函数编号和意图编号等;按需进行目标文本的生成,在一个示例中,每次生成目标文本时需要选择之前预定义的模板和目标文本时间等,点击目标文本生成按钮,则系统开始进行目标文本生成操作,通过POI模块进行文档的读写操作。读写操作包括:读目标文本模板中的内容;检索整份目标文本模板中的数据、表格、规则和图表参数;根据所填数据参数调用指标服务接口,将返回数据写入目标文本模板对应位置;根据所填表格参数调用指标服务接口,返回数据后使用poi-tl模块进行动态表格的写入操作;根据所填规则参数调用指标服务接口,返回数据后进行指标的四则运算,按需返回意图或计算值;根据所填图表参数调用指标服务接口,返回数据后使用poi-tl模块进行图表生成,并写入目标文本模板指定位置。每次目标文本生成时调用NLP算法模型,完成文本生成及文本判别任务,将生成内容写入目标文本对应位置,最终完成目标文本生成。目标文本生成后还可通过反馈学习的机制,将模型输出并通过校验的文本,通过一系列的特征处理后,将之前已训练好的模型作为对应的预训练模型,进行模型的再训练与微调(Fine-tuning)。
通过本实施例,可生成不同应用场景下的目标文本,种类丰富;且具有可移植性,能够应用在各个领域;支持文本、表格和图表各个部分的自动生成,能够生成建议性的待填入文本,所生成目标文本更加全面;完成了一套指标管理自动化、目标文本生成智能化、输出目标文本快速化的智能产品,大大减少生成目标文本所需人力和物力。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的目标文本的生成方法的目标文本的生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个目标文本的生成装置实施例中的具体限定可以参见上文中对于目标文本的生成方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种目标文本的生成装置700,包括:
第一获取模块710,用于获取目标文本模板,所述目标文本模板中包括待填入的数据类别,所述数据类别包括第一数据类别和第二数据类别,其中,所述第二数据类别从属于所述第一数据类别;
第二获取模块720,用于从所述第二数据类别对应的数据接口中获取原始数据;
处理模块730,用于按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据;
生成模块740,用于将所述目标数据填入至所述目标文本模板中,生成目标文本。
在一个实施例中,所述生成模块,包括:
第一输入模块,用于将所述目标数据输入至文本生成模型,经所述文本生成模型输出初始文本,其中,所述文本生成模型为根据预设语料库中样本数据与标注的文本标签之间的关系训练获得;
第二输入模块,用于将所述初始文本输入至预设的文本判别模型,经所述判别模型输出待填入文本;
生成子模块,用于将所述待填入文本与所述目标数据填入至所述目标文本模板中,生成目标文本。
在一个实施例中,所述装置还包括:
训练模块,用于利用所述待填入文本与所述目标数据之间的关联关系训练所述文本生成模型;
确定模块,用于确定训练后的文本生成模型为新的文本生成模型。
在一个实施例中,所述第一数据类别包括预设规则数据类别;所述处理模块,包括:
确定模块,用于确定所述第一数据类别对应的数据运算规则;
运算模块,用于根据所述数据运算规则对所述原始数据进行运算,得到目标数据。
在一个实施例中,所述第一数据类别包括图表数据类别;所述处理模块,包括:
渲染模块,用于利用预设的图表渲染模块对所述原始数据进行渲染,得到所述原始数据对应的图表;
确定模块,用于确定所述图表为目标数据。
在一个实施例中,所述原始数据的获取模块,包括:
获取子模块,用于从预设的数据库中周期性获取与所述第二数据类别相对应的原始数据;
确定模块,用于根据所述原始数据与所述第二数据类别之间的关联关系确定原始数据对应的数据接口。
上述目标文本的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标文本模板、预设的数据库数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标文本的生成方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本公开实施例方案相关的部分结构的框图,并不构成对本公开实施例方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开实施例所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开实施例所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开实施例所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开实施例专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开实施例构思的前提下,还可以做出若干变形和改进,这些都属于本公开实施例的保护范围。因此,本公开实施例的保护范围应以所附权利要求为准。
Claims (15)
1.一种目标文本的生成方法,其特征在于,所述方法包括:
获取目标文本模板,所述目标文本模板中包括待填入的数据类别,所述数据类别包括第一数据类别和第二数据类别,其中,所述第二数据类别从属于所述第一数据类别;
从所述第二数据类别对应的数据接口中获取原始数据;
按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据;
将所述目标数据填入至所述目标文本模板中,生成目标文本。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标数据填入至所述目标文本模板中,生成目标文本,包括:
将所述目标数据输入至文本生成模型,经所述文本生成模型输出初始文本,其中,所述文本生成模型为根据预设语料库中样本数据与标注的文本标签之间的关系训练获得;
将所述初始文本输入至预设的文本判别模型,经所述判别模型输出待填入文本;
将所述待填入文本与所述目标数据填入至所述目标文本模板中,生成目标文本。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
利用所述待填入文本与所述目标数据之间的关联关系训练所述文本生成模型;
确定训练后的文本生成模型为新的文本生成模型。
4.根据权利要求1所述的方法,其特征在于,所述第一数据类别包括预设规则数据类别;所述按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据,包括:
确定所述第一数据类别对应的数据运算规则;
根据所述数据运算规则对所述原始数据进行运算,得到目标数据。
5.根据权利要求1所述的方法,其特征在于,所述第一数据类别包括图表数据类别;所述按照与所述第一数据类别相匹配的处理方式,对所述原始数据进行处理,得到目标数据,包括:
利用预设的图表渲染模块对所述原始数据进行渲染,得到所述原始数据对应的图表;
确定所述图表为目标数据。
6.根据权利要求1所述的方法,其特征在于,所述原始数据的获取方式,包括:
从预设的数据库中周期性获取与所述第二数据类别相对应的原始数据;
根据所述原始数据与所述第二数据类别之间的关联关系确定原始数据对应的数据接口。
7.一种目标文本的生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标文本模板,所述目标文本模板中包括待填入的数据类别,所述数据类别包括第一数据类别和第二数据类别,其中,所述第二数据类别从属于所述第一数据类别;
第二获取模块,用于从所述第二数据类别对应的数据接口中获取原始数据;
处理模块,用于按照与所述第一数据类别相匹配的数据处理方式,对所述原始数据进行处理,得到目标数据;
生成模块,用于将所述目标数据填入至所述目标文本模板中,生成目标文本。
8.根据权利要求7所述的装置,其特征在于,所述生成模块,包括:
第一输入模块,用于将所述目标数据输入至文本生成模型,经所述文本生成模型输出初始文本,其中,所述文本生成模型为根据预设语料库中样本数据与标注的文本标签之间的关系训练获得;
第二输入模块,用于将所述初始文本输入至预设的文本判别模型,经所述判别模型输出待填入文本;
生成子模块,用于将所述待填入文本与所述目标数据填入至所述目标文本模板中,生成目标文本。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
训练模块,用于利用所述待填入文本与所述目标数据之间的关联关系训练所述文本生成模型;
确定模块,用于确定训练后的文本生成模型为新的文本生成模型。
10.根据权利要求7所述的装置,其特征在于,所述第一数据类别包括预设规则数据类别;所述处理模块,包括:
确定模块,用于确定所述第一数据类别对应的数据运算规则;
运算模块,用于根据所述数据运算规则对所述原始数据进行运算,得到目标数据。
11.根据权利要求7所述的装置,其特征在于,所述第一数据类别包括图表数据类别;所述处理模块,包括:
渲染模块,用于利用预设的图表渲染模块对所述原始数据进行渲染,得到所述原始数据对应的图表;
确定模块,用于确定所述图表为目标数据。
12.根据权利要求7所述的装置,其特征在于,所述原始数据的获取模块,包括:
获取子模块,用于从预设的数据库中周期性获取与所述第二数据类别相对应的原始数据;
确定模块,用于根据所述原始数据与所述第二数据类别之间的关联关系确定原始数据对应的数据接口。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的目标文本的生成方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的目标文本的生成方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的目标文本的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211213035.4A CN115481616A (zh) | 2022-09-30 | 2022-09-30 | 目标文本的获取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211213035.4A CN115481616A (zh) | 2022-09-30 | 2022-09-30 | 目标文本的获取方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481616A true CN115481616A (zh) | 2022-12-16 |
Family
ID=84393826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211213035.4A Pending CN115481616A (zh) | 2022-09-30 | 2022-09-30 | 目标文本的获取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481616A (zh) |
-
2022
- 2022-09-30 CN CN202211213035.4A patent/CN115481616A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11341126B2 (en) | Modifying a scope of a canonical query | |
US11593458B2 (en) | System for time-efficient assignment of data to ontological classes | |
US11282020B2 (en) | Dynamic playback of synchronized narrated analytics playlists | |
US20210248136A1 (en) | Differentiation Of Search Results For Accurate Query Output | |
US10762142B2 (en) | User-defined automated document feature extraction and optimization | |
US20210318851A1 (en) | Systems and Methods for Dataset Merging using Flow Structures | |
US11048762B2 (en) | User-defined automated document feature modeling, extraction and optimization | |
US11328119B2 (en) | Domain-specific language interpreter and interactive visual interface for rapid screening | |
US11694165B2 (en) | Key-value memory network for predicting time-series metrics of target entities | |
CN115238710A (zh) | 一种文档智能生成与管理方法及装置 | |
KR20230078764A (ko) | 자동화된 피처 엔지니어링을 운영하는 시스템 및 방법 | |
CN115481616A (zh) | 目标文本的获取方法、装置、计算机设备和存储介质 | |
WO2021240370A1 (en) | Domain-specific language interpreter and interactive visual interface for rapid screening | |
Liu | Apache spark machine learning blueprints | |
US11687596B2 (en) | Systems and methods for automatic generation of data visualizations | |
CN113486630B (zh) | 一种供应链数据向量化和可视化处理方法及装置 | |
CN117993369A (zh) | 审计报表生成方法、装置、计算机设备和存储介质 | |
CN117093874A (zh) | 文本生成方法、装置、计算机设备、介质和程序产品 | |
CN113535125A (zh) | 金融需求项生成方法及装置 | |
CN118093801A (zh) | 基于大语言模型的信息交互方法、装置以及电子设备 | |
Duma | Recognizing the value of data in business operations: Data analytics for business operation | |
CN116910604A (zh) | 用户分类方法、装置、计算机设备、存储介质和程序产品 | |
CN118171102A (zh) | 情感分析模型的构建方法、装置、计算机设备和存储介质 | |
CN118092888A (zh) | 代码辅助编程方法、装置、计算机设备和存储介质 | |
CN115617949A (zh) | 目标对象匹配方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |