CN116909528A - 文本生成方法、装置、计算机设备和存储介质 - Google Patents

文本生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN116909528A
CN116909528A CN202310673156.5A CN202310673156A CN116909528A CN 116909528 A CN116909528 A CN 116909528A CN 202310673156 A CN202310673156 A CN 202310673156A CN 116909528 A CN116909528 A CN 116909528A
Authority
CN
China
Prior art keywords
text
program text
program
target
account
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310673156.5A
Other languages
English (en)
Inventor
盛铭峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202310673156.5A priority Critical patent/CN116909528A/zh
Publication of CN116909528A publication Critical patent/CN116909528A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)

Abstract

本公开涉及一种文本生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取所述输入操作对应的目标程序文本所属的目标程序文本类型;确定与所述账户、所述目标程序文本类型相匹配的目标文本生成模型,其中,目标文本生成模型为基于所述账户的目标程序文本类型的程序文本单元样本和对应的程序文本短语标签训练得到;将所述程序文本单元输入至所述目标文本生成模型,经所述目标文本生成模型输出目标程序文本短语,并将所述目标程序文本短语发送至所述程序文本编写平台。采用本方法能够简化程序文本的编写流程提高编写效率,兼顾了账户的文本编写习惯。

Description

文本生成方法、装置、计算机设备和存储介质
技术领域
本公开涉及数据处理技术领域,特别是涉及一种文本生成方法、装置、计算机设备和存储介质。
背景技术
随着信息化时代的发展,用户在不同应用场景下针对不同的需求,可以通过编写程序文本通过计算机实现需求,程序文件为计算机能够获取并识别的文本。
然而,由于程序文本通常较为繁琐,内容较多,用户在编写程序文本时,工作量较大,效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种简化流程提高效率的文本生成方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本公开实施例提供了一种文本生成方法。所述方法包括:
响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取所述输入操作对应的目标程序文本所属的目标程序文本类型,所述目标程序文本包括所述程序文本单元;
确定与所述账户、所述目标程序文本类型相匹配的目标文本生成模型,其中,目标文本生成模型为基于所述账户的目标程序文本类型的程序文本单元样本和对应的程序文本短语标签训练得到;
将所述程序文本单元输入至所述目标文本生成模型,经所述目标文本生成模型输出目标程序文本短语,并将所述目标程序文本短语发送至所述程序文本编写平台,其中,所述目标程序文本短语的文本长度大于所述程序文本单元,且所述目标程序文本短语中包含所述程序文本单元。
在其中一个实施例中,所述目标文本生成模型的获取方式包括:
获取所述账户的目标程序文本类型的程序文本单元样本集合,所述集合中包括标注有程序文本短语标签的程序文本单元样本;
构建初始文本生成模型,所述初始文本生成模型中设置有训练参数;
将所述程序文本单元样本集合输入至所述初始文本生成模型,得到输出结果;
基于所述输出结果和标注的程序文本短语标签之间的差异,对所述初始文本生成模型进行迭代调整,直至所述差异符合预设要求,得到目标文本生成模型。
在其中一个实施例中,所述账户的目标程序文本类型的程序文本单元样本的获取方式,包括:
从所述账户的历史程序文本中确定所述目标程序文本类型的程序文本为初始程序文本;
对所述初始程序文本进行划分,得到多组程序文本短语,程序文本短语中包括程序文本单元;
根据程序文本单元对应的文本短语对程序文本单元进行标注处理,得到所述账户的目标程序文本类型的程序文本单元样本。
在其中一个实施例中,所述从所述账户的历史程序文本中确定所述目标程序文本类型的程序文本为初始程序文本,包括:
获取所述账户的历史程序文本;
确定所述目标程序文本类型的历史程序文本为原始程序文本;
确定文本属性符合预设文本属性的原始程序文本为初始程序文本,所述文本属性包括功能文本属性。
在其中一个实施例中,所述历史程序文本的获取方式包括:
响应于历史程序文本的获取指令,向所述账户发送授权请求;
在接收到所述账户响应于所述授权请求发送的确认指令的情况下,获取所述账户的历史程序文本。
第二方面,本公开实施例还提供了一种文本生成装置。所述装置包括:
获取模块,用于响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取所述输入操作对应的目标程序文本所属的目标程序文本类型,所述目标程序文本包括所述程序文本单元;
确定模块,用于确定与所述账户、所述目标程序文本类型相匹配的目标文本生成模型,其中,目标文本生成模型为基于所述账户的目标程序文本类型的程序文本单元样本和对应的程序文本短语标签训练得到;
输入模块,用于将所述程序文本单元输入至所述目标文本生成模型,经所述目标文本生成模型输出目标程序文本短语,并将所述目标程序文本短语发送至所述程序文本编写平台,其中,所述目标程序文本短语的文本长度大于所述程序文本单元,且所述目标程序文本短语中包含所述程序文本单元。
在其中一个实施例中,所述目标文本生成模型的获取模块包括:
获取子模块,用于获取所述账户的目标程序文本类型的程序文本单元样本集合,所述集合中包括标注有程序文本短语标签的程序文本单元样本;
构建模块,用于构建初始文本生成模型,所述初始文本生成模型中设置有训练参数;
输入子模块,用于将所述程序文本单元样本集合输入至所述初始文本生成模型,得到输出结果;
调整模块,用于基于所述输出结果和标注的程序文本短语标签之间的差异,对所述初始文本生成模型进行迭代调整,直至所述差异符合预设要求,得到目标文本生成模型。
在其中一个实施例中,所述账户的目标程序文本类型的程序文本单元样本的获取模块,包括:
确定子模块,用于从所述账户的历史程序文本中确定所述目标程序文本类型的程序文本为初始程序文本;
划分模块,用于对所述初始程序文本进行划分,得到多组程序文本短语,程序文本短语中包括程序文本单元;
标注模块,用于根据程序文本单元对应的文本短语对程序文本单元进行标注处理,得到所述账户的目标程序文本类型的程序文本单元样本。
在其中一个实施例中,所述确定子模块,包括:
第一获取单元,用于获取所述账户的历史程序文本;
第一确定单元,用于确定所述目标程序文本类型的历史程序文本为原始程序文本;
第二确定单元,用于确定文本属性符合预设文本属性的原始程序文本为初始程序文本,所述文本属性包括功能文本属性。
在其中一个实施例中,所述历史程序文本的获取模块包括:
发送单元,用于响应于历史程序文本的获取指令,向所述账户发送授权请求;
第二获取单元,用于在接收到所述账户响应于所述授权请求发送的确认指令的情况下,获取所述账户的历史程序文本。
第三方面,本公开实施例还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例中任一项所述的方法的步骤。
第四方面,本公开实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
第五方面,本公开实施例还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
本公开实施例,在程序文本编写平台上进行程序文本的编写时,响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取输入操作对应的目标程序文本所属的目标程序文本类型,程序文本单元包含在目标程序文本中,确定和账户、目标程序文本类型相匹配的目标文本生成模型,基于目标文本生成模型输出程序文本单元对应的目标程序文本短语,并将输出的目标程序文本短语发送至程序文本编写平台;实现了根据账户输入的程序文本单元自动输出对应的程序文本短语,能够在编写程序文本时进行自动补全,提高了程序文本的编写效率;且文本生成模型为基于账户和程序文本类型对应的数据训练得到,能够针对不同程序文本类型进行程序文本短语的输出,且针对不同账户的编写习惯,进行个性化输出,在进行程序文本补全的同时,兼顾了用户习惯和特点,适用于更多应用场景,提升了用户的体验感,从而提高程序文本编写的效率。
附图说明
图1为一个实施例中文本生成方法的流程示意图;
图2为一个实施例中目标文本生成模型的获取方式的流程示意图;
图3为一个实施例中程序文本单元样本的获取方式的流程示意图;
图4为一个实施例中历史程序文本的获取方式的流程示意图;
图5为一个实施例中预训练模型的获取方式的流程示意图;
图6为一个实施例中文本生成方法的流程示意图;
图7为一个实施例中文本生成装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本公开实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开实施例,并不用于限定本公开实施例。
在一个实施例中,如图1所示,提供了一种文本生成方法,所述方法包括:
步骤S110,响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取所述输入操作对应的目标程序文本所属的目标程序文本类型,所述目标程序文本包括所述程序文本单元;
本公开实施例中,用户在编写程序文本时,通过账户在程序文本编写平台上执行文本输入操作。响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取所述输入操作对应的目标程序文本所属的目标程序文本类型,其中,在编写程序文本时,根据程序文本的作用、程序文本的运行方式、程序文本的运行平台等差异,程序文本对应有不同的程序文本类型,在一个示例中,不同程序文本类型的程序文本对应有不同的后缀。在一些可能的实现方式中,可以根据账户输入的程序文本单元的文本特征确定对应的目标程序文本类型;可以根据账户在编写程序文本时创建的文件后缀确定得到;也可以通过其他可以实现的方式确定得到,本公开对此不做限制。本实施例中,程序文本中包括程序文本单元,账户输入的程序文本单元为目标程序文本中的组成部分。
步骤S120,确定与所述账户、所述目标程序文本类型相匹配的目标文本生成模型,其中,目标文本生成模型为基于所述账户的目标程序文本类型的程序文本单元样本和对应的程序文本短语标签训练得到;
本公开实施例中,确定目标程序文本类型后,根据该账户和目标程序文本类型确定相匹配的目标文本生成模型,不同的账户对应有不同的文本生成模型,不同的程序文本类型对应有不同的文本生成模型,基于账户和目标程序文本类型确定得到的文本生成模型为目标文本生成模型。其中,目标文本生成模型的训练过程中所采取的训练样本为该账户的目标程序文本类型的程序文本单元样本,样本对应有程序文本短语标签,基于程序文本单元样本和程序文本短语标签之间的对应关系训练得到的文本生成模型能够关注到该账户的程序文本编写习惯和目标程序文本类型的文本特征。
步骤S130,将所述程序文本单元输入至所述目标文本生成模型,经所述目标文本生成模型输出目标程序文本短语,并将所述目标程序文本短语发送至所述程序文本编写平台,其中,所述目标程序文本短语的文本长度大于所述程序文本单元,且所述目标程序文本短语中包含所述程序文本单元。
本公开实施例中,将程序文本单元输入至目标文本生成模型,经目标文本生成模型输出目标程序文本短语。具体地,目标文本生成模型为基于程序文本单元和程序文本短语标签之间的对应关系训练得到,因此,目标文本生成模型可以根据输入的程序文本单元输出对应的程序文本短语,即为目标程序文本短语。本实施例中,目标程序文本短语的长度大于程序文本单元,且目标程序文本短语中包含程序文本单元。在一个示例中,目标文本生成模型可以输出多个目标程序文本短语,并发送至程序文本编写平台供账户选择。在一个示例中,程序文本短语和程序文本单元的文本长度可以为根据实际应用场景确定得到,例如,程序文本单元为“n”,对应的目标程序文本短语可以为“new”、“new file”等;程序文本单元为“new”,对应的目标程序文本短语可以为“new file”、“new workbook”等。得到模型输出的目标程序文本短语后,将目标程序文本短语发送至程序文本编写平台,以实现对账户输入的程序文本单元的补全,在一个示例中,可以以提示信息的方式发送目标程序文本短语,在账户进行确定操作后,将目标程序文本短语添加至文本中。在一个示例中,当模型输出多个目标程序文本短语时,还可以对应输出每个目标程序文本短语的概率,在发送至程序编写平台上时,按照概率降序排列,以供账户进行选择。
本公开实施例,在程序文本编写平台上进行程序文本的编写时,响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取输入操作对应的目标程序文本所属的目标程序文本类型,程序文本单元包含在目标程序文本中,确定和账户、目标程序文本类型相匹配的目标文本生成模型,基于目标文本生成模型输出程序文本单元对应的目标程序文本短语,并将输出的目标程序文本短语发送至程序文本编写平台;实现了根据账户输入的程序文本单元自动输出对应的程序文本短语,能够在编写程序文本时进行自动补全,提高了程序文本的编写效率;且文本生成模型为基于账户和程序文本类型对应的数据训练得到,能够针对不同程序文本类型进行程序文本短语的输出,且针对不同账户的编写习惯,进行个性化输出,在进行程序文本补全的同时,兼顾了用户习惯和特点,适用于更多应用场景,提升了用户的体验感,从而提高程序文本编写的效率。
在一个实施例中,如图2所示,所述目标文本生成模型的获取方式包括:
步骤S210,获取所述账户的目标程序文本类型的程序文本单元样本集合,所述集合中包括标注有程序文本短语标签的程序文本单元样本;
步骤S220,构建初始文本生成模型,所述初始文本生成模型中设置有训练参数;
步骤S230,将所述程序文本单元样本集合输入至所述初始文本生成模型,得到输出结果;
步骤S240,基于所述输出结果和标注的程序文本短语标签之间的差异,对所述初始文本生成模型进行迭代调整,直至所述差异符合预设要求,得到目标文本生成模型。
本公开实施例中,基于程序文本单元样本和对应的程序文本短语标签之间的对应关系训练得到目标文本生成模型。具体地,获取账户的目标程序文本类型的程序文本单元样本集合,集合中包括标注有程序文本短语标签的程序文本单元样本。在一个示例中,程序文本单元样本集合可以为基于所述账户编写的目标程序文本类型的历史文本确定得到。构建初始文本生成模型,初始文本生成模型中设置有训练参数,初始文本生成模型可以为基于预设的机器学习算法确定得到。将程序文本单元样本集合输入至初始文本生成模型,初始文本生成模型会输出对应的输出结果,由于此时初始文本生成模型为未经训练的模型,因此,输出结果和标注的程序文本短语标签之间存在差异,基于输出结果和文本短语标签之间的差异,对模型进行迭代调整,直至模型输出结果和标签之间的差异符合预设要求,可以认为此时模型输出结果较为准确,确定此时模型为目标文本生成模型。其中,预设要求可以为根据实际应用场景确定得到,当差异符合该预设要求时,可以认为此时模型输出结果和标签之间的差异在误差允许范围以内,可以用于进行文本生成。在一个示例中,当未采集到该账户的历史程序文本时,可以根据从预设数据库中爬取的各类前端工程对应的程序文本,对初始文本生成模型进行训练,得到预训练模型,利用预训练模型进行文本生成,当采集到账户的历史程序文本后,得到样本集合,对预训练模型进行训练,得到目标文本生成模型。
本公开实施例,基于该账户的目标程序文本类型的程序文本单元样本集合训练得到目标文本生成模型,使得模型在进行文本生成时,能够关注到账户的编写习惯以及不同程序文本类型的文本特点,输出的目标程序文本单元更为精确,在简化编写流程提高效率的同时,适用于更多应用场景,针对不同账户定制化输出,提升了用户体验感。
在一个实施例中,如图3所示,所述账户的目标程序文本类型的程序文本单元样本的获取方式,包括:
步骤S310,从所述账户的历史程序文本中确定所述目标程序文本类型的程序文本为初始程序文本;
步骤S320,对所述初始程序文本进行划分,得到多组程序文本短语,程序文本短语中包括程序文本单元;
步骤S330,根据程序文本单元对应的文本短语对程序文本单元进行标注处理,得到所述账户的目标程序文本类型的程序文本单元样本。
本公开实施例中,获取程序文本单元样本时,根据待训练模型的需求确定目标程序文本类型,从账户的历史程序文本中确定目标程序文本类型的程序文本为初始程序文本。在一个示例中,从历史程序文本中确定目标程序文本类型的程序文本时,可以通过程序文本文件的后缀名进行判断,例如,当需要采集vue类型的程序文本时,从历史程序文本中获取后缀名为.vue的程序文本文件中的程序文本作为初始程序文本。通常情况下,初始程序文本为未经处理的程序文本,包含程序文本短语和组成程序文本短语的程序文本单元,对初始程序文本进行划分,得到多组程序文本短语,程序文本短语中包括程序文本单元,程序文本短语和组成该短语的程序文本单元之间存在对应关系。根据程序文本单元对应的文本短语对程序文本单元进行标注处理,得到该账户的目标程序文本类型的程序文本单元样本。其中,划分初始程序文本的方式可以根据实际应用场景确定得到,例如通过预设的文本划分模型输出多组程序文本短语;通过初始程序文本的特征(例如标点符号的划分)等划分为多组程序文本短语。在一个示例中,程序文本单元的文本长度可以根据实际应用场景确定得到,例如,程序文本单元可以设置为一个单词、可以设置为一个字母、可以设置为一个单词中的任意组成部分等,本公开对此不做限制。在一个示例中,历史程序文本可以根据该账户的账户数据从预设存储区域确定得到。在一个示例中,可以对初始程序文本进行拆分,得到多组程序文本短语,形成词典,利用该词典进行模型训练。在一个示例中,初始程序文本包括代码文本,程序文本短语可以为单词,进一步拆分得到词根,形成词典。
本公开实施例,基于账户的历史程序文本确定得到目标程序文本类型的程序文本单元样本,能够实现后续的目标文本生成模型的训练,保证了模型输出的准确率;实现了程序文本到程序文本单元样本的转换,实现方式简单,提高了样本获取效率和准确率,简化了数据获取流程,提高了模型获取效率,提升了用户的体验感。
在一个实施例中,所述从所述账户的历史程序文本中确定所述目标程序文本类型的程序文本为初始程序文本,包括:
获取所述账户的历史程序文本;
确定所述目标程序文本类型的历史程序文本为原始程序文本;
确定文本属性符合预设文本属性的原始程序文本为初始程序文本,所述文本属性包括功能文本属性。
本公开实施例中,确定初始程序文本时,可以对文本进行筛选。具体地,获取账户的历史程序文本,确定目标程序文本类型的历史程序文本为原始程序文本。通常情况下,根据程序文本编写时的需求和具体应用场景,原始程序文本中包括不同文本属性的文本,其中,功能文本属性的程序文本用于在程序文本运行过程中实现需求,在一些可能的实现方式中,原始程序文本中还可以包括解释文本属性的程序文本,解释文本属性的文本用于对功能文本属性的程序文本进行解释,以便于后续对程序文本的修改完善等。本实施例中,确定文本属性符合预设文本属性的原始程序文本为初始程序文本,预设文本属性可以为根据实际应用场景中需要进行补全的程序文本确定得到,在一个示例中,可以将预设文本属性设置为功能文本属性,对功能文本属性的程序文本进行后续的处理,以实现功能文本属性的程序文本的自动生成补全。
在一个示例中,可以通过数据处理模块实现程序文本的筛选。数据处理模块将采集到的原始程序文本中功能文本属性的程序文本确定为初始程序文本,删除非功能文本属性的程序文本。例如,当原始程序文本为代码段时,功能文本属性的程序文本为纯代码文本,非功能文本属性的程序文本为注释文本,删除注释文本,将纯代码文本确定为初始程序文本。
本公开实施例,对包含不同文本属性的程序文本进行筛选,得到预设文本属性的程序文本作为初始程序文本进行后续的处理,用于进行模型的训练,筛除了非必要数据,降低了数据处理的工作量,提高了数据处理效率,且保证了样本集合的可靠性,提高了训练得到的模型的输出的准确率,实现了快速准确的程序文本的生成,适用于更多应用场景,提升了用户的体验感。
在一个实施例中,如图4所示,所述历史程序文本的获取方式包括:
步骤S410,响应于历史程序文本的获取指令,向所述账户发送授权请求;
步骤S420,在接收到所述账户响应于所述授权请求发送的确认指令的情况下,获取所述账户的历史程序文本。
本公开实施例中,获取用户的历史程序文本时,需要经过账户的授权。具体的,当需要获取历史程序文本时,响应于历史程序文本的获取指令,向账户发送授权请求。账户接收到授权请求后,可以确定是否通过该授权请求,当确定通过该授权请求时,发送确认指令。在接收到所述账户响应于授权请求发送的确认指令时,可以认为此时账户同意获取历史程序文本,获取该账户的历史程序文本。在一个示例中,账户的历史程序文本可以根据实际应用场景设置存储于预设存储区域,在账户授权的情况下,可以从该预设存储区域获取账户的历史程序文本。在一个示例中,当预设时长内未接收到账户响应于授权请求发送的确认指令时,可以认为账户拒绝授权,可以发送请求失败信息。
在一种可能的实现方式中,可以通过数据采集模块获取历史程序文本,数据采集模块可以设置于预设插件中,需要账户授权登录后才能够进行账户的历史程序文本的采集。
本公开实施例,在获取历史程序文本时,收到账户的授权请求的确认指令时,才可以获取对应的程序文本,保证了账户数据的安全性和可靠性,避免了因数据泄露造成的后续的风险和隐患,可以适用于不同需求下的应用场景,提升了用户的体验感。
在一种可能的实现方式中,历史程序文本存储于预设存储区域,预设存储区域中存储的内容,随着账户编写程序文本的增多,也会不断更新。当预设存储区域中的历史程序文本发生更新,可以重新确定样本数据,对模型进行更新迭代,以进一步提高模型输出的准确率。
在一个实施例中,程序文本包括代码文本,本实施例所述的方法可以应用于文本生成系统中,用于进行代码补全。文本生成系统包括数据采集模块、数据处理模块、预训练模块、模型训练模块、代码补全模块。具体的,数据采集模块位于VS Code插件中,需账户授权登录后方可进行代码段(程序文本)采集,被采集的代码文件根据工程类型判断(例如:vue工程就采集后缀名为.vue的文件),采集到的数据上传至数据处理模块。数据处理模块将采集到的代码段中的注释删除,提取出只包含纯代码的代码段,将代码段中的单词拆分为词根,形成词典,处理好的数据发送至代码补全模型训练模块。预训练模块用于得到预训练模块,图5为根据一示例性实施例示出的一种预训练模型的获取方式的流程示意图,参考图5所示,在初次使用本方法进行代码补全时,需要预先放置一个预训练模型,该模型的数据来源可以包括从github上爬取的各类前端工程文件,通过数据处理模块的处理步骤将这些数据进行处理后,基于GPT-2(大规模无监督NLP模型)框架训练得到预训练模型。代码补全模型训练模块用于将数据处理模块处理好的代码段数据输入预训练模型中,训练得到一个符合账户编写习惯的代码补全模型(即文本生成模型)。代码补全模块位于VS Code插件中,当识别到账户正在编辑代码时,利用模型提供补全方案。图6为根据一示例性实施例示出的一种文本生成方法的流程,参考图6所示,账户在编辑模式下进行代码的输入,响应于账户的输入操作,获取对应的代码段,对代码段进行筛选拆分,得到词典,将处理好的数据输入至代码补全模型,经代码补全模型输出补全方案,即目标程序文本短语,将目标程序文本短语输出至账户。
通过本公开实施例,可以实现根据账户的编写习惯进行程序文本的自动补全,提高程序文本的编写效率,提升用户的体验感。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的文本生成方法的文本生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本生成装置实施例中的具体限定可以参见上文中对于文本生成方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种文本生成装置700,包括:
获取模块710,用于响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取所述输入操作对应的目标程序文本所属的目标程序文本类型,所述目标程序文本包括所述程序文本单元;
确定模块720,用于确定与所述账户、所述目标程序文本类型相匹配的目标文本生成模型,其中,目标文本生成模型为基于所述账户的目标程序文本类型的程序文本单元样本和对应的程序文本短语标签训练得到;
输入模块730,用于将所述程序文本单元输入至所述目标文本生成模型,经所述目标文本生成模型输出目标程序文本短语,并将所述目标程序文本短语发送至所述程序文本编写平台,其中,所述目标程序文本短语的文本长度大于所述程序文本单元,且所述目标程序文本短语中包含所述程序文本单元。
在一个实施例中,所述目标文本生成模型的获取模块包括:
获取子模块,用于获取所述账户的目标程序文本类型的程序文本单元样本集合,所述集合中包括标注有程序文本短语标签的程序文本单元样本;
构建模块,用于构建初始文本生成模型,所述初始文本生成模型中设置有训练参数;
输入子模块,用于将所述程序文本单元样本集合输入至所述初始文本生成模型,得到输出结果;
调整模块,用于基于所述输出结果和标注的程序文本短语标签之间的差异,对所述初始文本生成模型进行迭代调整,直至所述差异符合预设要求,得到目标文本生成模型。
在一个实施例中,所述账户的目标程序文本类型的程序文本单元样本的获取模块,包括:
确定子模块,用于从所述账户的历史程序文本中确定所述目标程序文本类型的程序文本为初始程序文本;
划分模块,用于对所述初始程序文本进行划分,得到多组程序文本短语,程序文本短语中包括程序文本单元;
标注模块,用于根据程序文本单元对应的文本短语对程序文本单元进行标注处理,得到所述账户的目标程序文本类型的程序文本单元样本。
在一个实施例中,所述确定子模块,包括:
第一获取单元,用于获取所述账户的历史程序文本;
第一确定单元,用于确定所述目标程序文本类型的历史程序文本为原始程序文本;
第二确定单元,用于确定文本属性符合预设文本属性的原始程序文本为初始程序文本,所述文本属性包括功能文本属性。
在一个实施例中,所述历史程序文本的获取模块包括:
发送单元,用于响应于历史程序文本的获取指令,向所述账户发送授权请求;
第二获取单元,用于在接收到所述账户响应于所述授权请求发送的确认指令的情况下,获取所述账户的历史程序文本。
上述文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储程序文本数据等本实施例所述的方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本生成方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本公开实施例方案相关的部分结构的框图,并不构成对本公开实施例方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开实施例所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开实施例所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开实施例所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开实施例专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开实施例构思的前提下,还可以做出若干变形和改进,这些都属于本公开实施例的保护范围。因此,本公开实施例的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本生成方法,其特征在于,所述方法包括:
响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取所述输入操作对应的目标程序文本所属的目标程序文本类型,所述目标程序文本包括所述程序文本单元;
确定与所述账户、所述目标程序文本类型相匹配的目标文本生成模型,其中,目标文本生成模型为基于所述账户的目标程序文本类型的程序文本单元样本和对应的程序文本短语标签训练得到;
将所述程序文本单元输入至所述目标文本生成模型,经所述目标文本生成模型输出目标程序文本短语,并将所述目标程序文本短语发送至所述程序文本编写平台,其中,所述目标程序文本短语的文本长度大于所述程序文本单元,且所述目标程序文本短语中包含所述程序文本单元。
2.根据权利要求1所述的方法,其特征在于,所述目标文本生成模型的获取方式包括:
获取所述账户的目标程序文本类型的程序文本单元样本集合,所述集合中包括标注有程序文本短语标签的程序文本单元样本;
构建初始文本生成模型,所述初始文本生成模型中设置有训练参数;
将所述程序文本单元样本集合输入至所述初始文本生成模型,得到输出结果;
基于所述输出结果和标注的程序文本短语标签之间的差异,对所述初始文本生成模型进行迭代调整,直至所述差异符合预设要求,得到目标文本生成模型。
3.根据权利要求1所述的方法,其特征在于,所述账户的目标程序文本类型的程序文本单元样本的获取方式,包括:
从所述账户的历史程序文本中确定所述目标程序文本类型的程序文本为初始程序文本;
对所述初始程序文本进行划分,得到多组程序文本短语,程序文本短语中包括程序文本单元;
根据程序文本单元对应的文本短语对程序文本单元进行标注处理,得到所述账户的目标程序文本类型的程序文本单元样本。
4.根据权利要求3所述的方法,其特征在于,所述从所述账户的历史程序文本中确定所述目标程序文本类型的程序文本为初始程序文本,包括:
获取所述账户的历史程序文本;
确定所述目标程序文本类型的历史程序文本为原始程序文本;
确定文本属性符合预设文本属性的原始程序文本为初始程序文本,所述文本属性包括功能文本属性。
5.根据权利要求3所述的方法,其特征在于,所述历史程序文本的获取方式包括:
响应于历史程序文本的获取指令,向所述账户发送授权请求;
在接收到所述账户响应于所述授权请求发送的确认指令的情况下,获取所述账户的历史程序文本。
6.一种文本生成装置,其特征在于,所述装置包括:
获取模块,用于响应于账户在程序文本编写平台上的程序文本单元的输入操作,获取所述输入操作对应的目标程序文本所属的目标程序文本类型,所述目标程序文本包括所述程序文本单元;
确定模块,用于确定与所述账户、所述目标程序文本类型相匹配的目标文本生成模型,其中,目标文本生成模型为基于所述账户的目标程序文本类型的程序文本单元样本和对应的程序文本短语标签训练得到;
输入模块,用于将所述程序文本单元输入至所述目标文本生成模型,经所述目标文本生成模型输出目标程序文本短语,并将所述目标程序文本短语发送至所述程序文本编写平台,其中,所述目标程序文本短语的文本长度大于所述程序文本单元,且所述目标程序文本短语中包含所述程序文本单元。
7.根据权利要求6所述的装置,其特征在于,所述目标文本生成模型的获取模块包括:
获取子模块,用于获取所述账户的目标程序文本类型的程序文本单元样本集合,所述集合中包括标注有程序文本短语标签的程序文本单元样本;
构建模块,用于构建初始文本生成模型,所述初始文本生成模型中设置有训练参数;
输入子模块,用于将所述程序文本单元样本集合输入至所述初始文本生成模型,得到输出结果;
调整模块,用于基于所述输出结果和标注的程序文本短语标签之间的差异,对所述初始文本生成模型进行迭代调整,直至所述差异符合预设要求,得到目标文本生成模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的文本生成方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的文本生成方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5中任一项所述的文本生成方法的步骤。
CN202310673156.5A 2023-06-07 2023-06-07 文本生成方法、装置、计算机设备和存储介质 Pending CN116909528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310673156.5A CN116909528A (zh) 2023-06-07 2023-06-07 文本生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310673156.5A CN116909528A (zh) 2023-06-07 2023-06-07 文本生成方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN116909528A true CN116909528A (zh) 2023-10-20

Family

ID=88363673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310673156.5A Pending CN116909528A (zh) 2023-06-07 2023-06-07 文本生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN116909528A (zh)

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN109086199B (zh) 一种自动化生成测试脚本的方法、终端和可存储介质
CN112732899A (zh) 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN110929094A (zh) 一种视频标题处理方法和装置
WO2020146784A1 (en) Converting unstructured technical reports to structured technical reports using machine learning
CN117077679B (zh) 命名实体识别方法和装置
CN108766513B (zh) 一种智慧健康医疗数据结构化处理系统
CN118095205A (zh) 版式文件的信息提取方法、装置、设备及存储介质
CN117725895A (zh) 文档生成方法、装置、设备及介质
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN117131222A (zh) 基于开放世界大模型的半自动化标注方法和装置
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116909528A (zh) 文本生成方法、装置、计算机设备和存储介质
CN115238653A (zh) 一种报告生成方法、装置、设备和介质
CN113535125A (zh) 金融需求项生成方法及装置
CN111279350B (zh) 用于在服务管理应用接口中提供全球化特征的系统和方法
CN116302078B (zh) 代码文件合并方法及装置、存储介质、计算机设备
CN117112785A (zh) 文本提取方法、装置、计算机设备和存储介质
CN117874052A (zh) 基于大模型的sql语句生成方法、装置、设备及介质
WO2017142546A1 (en) Natural language programming tool
CN118468994A (zh) 基于生成式ai的内容自动化生成知识地图的方法及系统
CN117725931A (zh) 一种公司名称识别方法及系统
CN118585678A (zh) 数据处理方法、装置、计算机设备和存储介质
JP2007095027A (ja) ソフトウエア開発方法
CN118171644A (zh) 应用管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination