CN113282701B - 作文素材生成方法、装置、电子设备及可读存储介质 - Google Patents

作文素材生成方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113282701B
CN113282701B CN202110827763.3A CN202110827763A CN113282701B CN 113282701 B CN113282701 B CN 113282701B CN 202110827763 A CN202110827763 A CN 202110827763A CN 113282701 B CN113282701 B CN 113282701B
Authority
CN
China
Prior art keywords
score
text
text information
model
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110827763.3A
Other languages
English (en)
Other versions
CN113282701A (zh
Inventor
岳祥
郭良越
陈佳豪
丁文彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110827763.3A priority Critical patent/CN113282701B/zh
Publication of CN113282701A publication Critical patent/CN113282701A/zh
Application granted granted Critical
Publication of CN113282701B publication Critical patent/CN113282701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了作文素材生成方法、装置、电子设备及可读存储介质,包括:接收文本信息;对文本信息按照文本属性类别进行分类,得到文本类别信息;将文本信息输入至与文本类别信息对应的作文素材生成模型,生成与该文本信息对应的作文素材。通过本公开实现了作文素材的有效生成。

Description

作文素材生成方法、装置、电子设备及可读存储介质
技术领域
本发明涉及文字信息处理技术领域,尤其涉及作文素材生成方法、装置、电子设备及可读存储介质。
背景技术
作文素材信息的获取和交流,对于中学生作文教学尤其是高考作文教学而言非常重要。学生如果能够找到写作素材、运用素材写作就可以成就美文。目前一种中文写作辅助软件,也力图为用户提供及时的布局谋篇、解字查词、寻章摘句等功能,辅助用户提高写作效率和写作水平,强化写作技能与技巧,但是该系统仅是一个作文资料库而已,不能有效生成作文素材。
发明内容
根据本公开的一方面,提供了一种作文素材生成方法,包括:
接收文本信息;
对所述文本信息按照文本属性类别进行分类,得到文本类别信息;
将所述文本信息输入至与所述文本类别信息对应的作文素材生成模型,生成与所述文本信息对应的作文素材。
根据本公开的另一方面,提供了一种作文素材生成装置,包括:
接收模块,用于接收文本信息;
分类模块,用于对所述文本信息按照文本属性类别进行分类,得到文本类别信息;
生成模块,用于将所述文本信息输入至与所述文本类别信息对应的作文素材生成模型,生成与所述文本信息对应的作文素材。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述方面中任一项所述的作文素材生成方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述方面中任一项所述的作文素材生成方法。
本申请实施例中提供的一个或多个技术方案,可以实现作文素材的有效生成。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例的作文素材生成方法的流程图;
图2示出了根据本公开示例性实施例的分类模型的示意图;
图3示出了根据本公开示例性实施例的素材生成模型的示意图;
图4示出了根据本公开示例性实施例的作文素材生成框架示意图;
图5示出了根据本公开示例性实施例的作文素材生成装置的示意性框图;
图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在本实施例中提供了一种作文素材生成方法,可用于智能手机,便携式平板电脑(portable android device,简称为PAD)、个人移动数字终端(Personal DigitalAssistant,简称为PDA)等,具有显示、处理和网络连接功能的智能设备(电子设备)。图1示出了根据本公开示例性实施例的作文素材生成方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,接收文本信息。
上述文本信息可以是完整的信息,例如游动物园、游黄山,也可以是不完整的信息,例如游____,我学会了____,在文本信息不完整时,需要将其补充完整,在一些可选实施例中,接收预处理文本信息,该预处理文本信息可以是需要补全的标题信息,对预处理文本信息进行切词处理,得到子文本信息,根据子文本信息和预先建立的标题倒排索引,得到多个第一标题,例如可以是,游动物园、游黄山、学游泳等,从多个第一标题中筛选与指定正则表达式匹配的第二标题,例如正则表达式为游____,则第一标题中的学游泳与该正则表达式就不匹配,仅从上述多个第一标题中选择游动物园、游黄山作为第二标题。将该第二标题作为上述文本信息。用正则表达式匹配使得输入的部分标题只匹配缺失位置上的词语,而不匹配其他位置上的词语,例如,表1中输入标题“他_______了”,进行正则匹配时只匹配下划线处的词语,而不匹配“他”前面的词语,也不匹配“了”后面的词语。
在一些具体的可选实施例中,有时候用户只输入部分的query,这种情况通常是用户搜索作文,作文题目是半开放的。用户输入query后,去作文语料库中查找可以匹配的作文标题。
Figure 236263DEST_PATH_IMAGE001
输入补全,首先离线建立所有标题的倒排索引,然后对输入进行分词,召回标题,然后用正则表达式匹配,看召回的标题和输入是否匹配。其中正则表达式是将输入中需要补全的地方用
Figure 887825DEST_PATH_IMAGE002
来替换。
Figure 464299DEST_PATH_IMAGE002
在正则表达式中用于匹配任意字符。
步骤S102,对文本信息按照文本属性类别进行分类,得到文本类别信息。其中,文本类别信息可以包括标题、关键词、首句、文体等。在一些可选实施例中,可以用分类模型进行标题、关键词、首句及文体四分类,先构建四种类型的训练数据,然后训练分类模型,最终用训练好的分类模型来预测这四种类别。首先判断输入是否是某种文体,如果是就直接从素材库中召回,判断是不是文体,预先整理了一个文体表,如果在文体表中,说明输入的是文体,直接从素材库中找到这种文体对应的素材。文体表中包含说明文,记叙文,散文,日记等文体。
关于文本类别信息包括标题、关键词、首句的三种类型,具体地,分类模型可以采用用于语义理解的深度双向预训练转换器(Bidirectional Encoder Representationfrom Transformers,简称为Bert),将文本信息输入至训练好的第一Bert分类模型,由训练好的第一Bert分类模型输出文本类别信息。BERT输入的是[CLS]文本[SEP][PAD],输出的是每个标签的概率。文本可以是标题字符串,或者是关键词字符串,或者是第一句话字符串。其中,[CLS]是分类标记,[SEP]是分割符号,[PAD]是为了保证多个输入的数据同样长度,对短的字符串用[PAD]标记进行补充。如图2所示,给BERT分类模型输入多个字符,输出每个字符对应的向量,取第一个标记[CLS]对应的向量输入线性层进行分类计算,得到三分类每个类别的概率。
对于分类模型训练数据的构建的示例性说明。对于标题,可以直接取所有的作文标题作为标题类别的训练数据。对于关键词,可以通过tf-idf算法来抽取作文文本的关键词作为关键词的训练数据。对于第一句话,可以通过抽取作文段落中的第一句话作为第一句话的训练数据。构建好分类模型的训练数据之后,可以利用BERT模型进行训练和预测。
步骤S103,将文本信息输入至与该文本类别信息对应的作文素材生成模型,生成与该文本信息对应的作文素材。在一些可选实施例中,作文素材生成模型包括训练好的GPTPeek模型,将上述文本信息和对应素材的开始部分输入至训练好的GPT Peek模型,由训练好的GPT Peek模型输出该作文素材,其中,训练好的GPT Peek模型可以通过如下方式训练得到:将训练样本集中文本样本及其对应的素材样本的开始部分作为输入,将素材样本作为输出训练GPT Peek模型,得到该训练好的GPT Peek模型,其中,该素材样本的开始部分包括的字符数量为多个,或者为零个。
具体地,以属于标题类别的输入文本为例,根据标题生成素材,可以利用GPT模型作为骨干网络,进行素材生成。给GPT模型输入标题,输出是一段素材。如图3所示,[TITLE]是特殊标记,表示标题的开始,后面是标题,标题是一个字符串,各个字符在图3中用t1、t2等表示。然后是[SOS]特殊标记,表示素材生成的开始,GPT模型接收一个字符,输出一个字符,比如接收字符[SOS]开始生成第一个字符w1;然后接收字符w1,输出w2;这样一直迭代输出,直到模型认为输出了一个完整的素材,模型输出[EOS],生成结束。作为一种可选实施方式,可以在模型输出的字是[EOS]时,认为模型输出了一个完整的素材,生成结束;或者模型没有输出字[EOS]但是生成的素材长度超度设定的阈值比如100个字符长度时,认为模型输出了一个完整的素材,生成结束。
加入[TITLE],[SOS],[EOS]等特殊标记字符到词汇表,[TITLE]表示标题,[SOS]表示素材开始标记,[EOS]表示素材结束标记。一篇作文由一个标题和多个段落构成,过滤掉太长或者太短的段落就是这个标题对应的多个素材了。由于一个标题对应多个素材,如果期望模型输入同一个标题,模型就不知道当前应该输出哪个素材。为了解决这个一对多的问题,提出一种Peek的训练方法。即输入除了标题以外,还包括当前要输出的素材的开始部分,这样就解决了一对多的问题。另外,由于预测阶段只有用户输入的标题,无法获取标题对应的素材的开始部分,为了保证在预测阶段可以直接根据标题生成素材,在训练的后期,减少素材的开始部分输入,直到素材的开始部分减少为空。这种peek的训练方法,即解决了训练阶段一对多的问题,同时在预测阶段又可以只根据输入的标题进行素材生成。
通过上述步骤,如图4所示,在用户输入的文本为不完整文本时,先补充完整,对该完整的文本信息进行分类,对于不同的类型通过不同的模型生成作文素材,例如在其类型为标题时,通过对应的模型生成作为素材;在其类型为关键词时,通过对应的模型生成作为素材;在其类型为第一句时,通过对应的模型续写第一句之后的语句,最终生成作文素材;在其类型为文体时,通过素材库召回对应的作文素材。
在一些可选实施例中,生成作文素材之后,通过打分模型对至少一个作文素材进行打分,从而过滤掉质量不符合要求的作文素材。例如,将第一标题和第一素材输入至第二Bert分类模型,由该第二Bert分类模型输出素材是否切题的第一分数,该第二Bert分类模型即为切题打分模型;或者,将第二标题和第二素材输入至第三Bert分类模型,由该第三Bert分类模型输出素材是否存在逻辑问题的第二分数,该第三Bert分类模型即为逻辑打分模型;或者,将素材的第一部分和素材的第二部分输入至第四Bert分类模型,由该第四Bert分类模型输出素材是否存在表达问题的第三分数,该第四Bert分类模型即为素材表达打分模型;或者,将第三素材输入至第五Bert分类模型,由该第五Bert分类模型输出素材是否符合常识的第四分数,该第五Bert分类模型即为常识打分模型。
具体地,对生成结果进行错误分析,主要有不切题,逻辑错误,表达重复,表达不清晰,表达不完整等错误类型。不切题是指生成的素材和输入的标题不匹配,逻辑错误指生成的素材本身不符合逻辑。表达重复,表达不清晰,表达不完整都是表达问题。通过标注了200条数据,表2是错误的类型,以及错误的个数。当一条素材包含多个错误时,多个错误都统计。
表2
Figure 593930DEST_PATH_IMAGE003
为了解决不切题问题,进行素材切题打分。负例标题根据正例标题相似度采样得到。正例负例比1比2,训练集9229404,测试集485759。采用Bert进行分类。训练数据样例如表3。
Figure 205039DEST_PATH_IMAGE004
为了解决素材逻辑问题,对素材进行逻辑打分。逻辑打分采用人工标注数据,标注人员标注了50000条数据。然后用Bert分类器进行是否符合逻辑二分类,如表4。
Figure 761923DEST_PATH_IMAGE005
为了解决表达问题,比如表达重复,表达不清晰,表达不完整,对素材进行表达质量打分。训练数据为语料中的素材,对训练语料中的素材进行造错,比如对句子进行重复,或者颠倒语句。
比如句子:我和爸爸妈妈爷爷奶奶来到了北京天安门,观看了70周年大阅兵,我激动万分,为我们祖国的强大感到骄傲自豪!
重复造错样例:我和爸爸妈妈爷爷奶奶来到了北京天安门,观看了70周年大阅兵,我激动万分,为我们祖国的强大感到骄傲自豪!为我们祖国的强大感到骄傲自豪!为我们祖国的强大感到骄傲自豪!为我们祖国的强大感到骄傲自豪!
然后将好的素材和包含错误的素材送入素材打分模型进行打分,进而获得素材的质量得分。打分模型也采用BERT进行分类,好的素材类别为1,错误的素材类别为0,模型输出每个类别的概率,取类别为1的概率作为素材的质量打分。
在一些可选实施例中,在第一标题和第二标题一致,并且第一素材、第二素材和第三素材一致,并且素材的第一部分和素材的第二部分均属于第一素材的情况下,总得分为第五分数、第六分数、第七分数和第八分数的乘积;其中,第五分数、第六分数、第七分数和第八分数分别为第一分数、第二分数、第三分数和第四分数根据分别对应的权重得到。
在一些可选实施例中,第五分数包括第一分数的N1次方;该第六分数包括该第二分数的N2次方,其中,该N1、N2根据素材生成错误比例得到;在第三分数小于第一阈值时,第七分数取值为0,在第三分数大于等于第一阈值时,第七分数取值为第三分数,在第四分数小于第二阈值时,第八分数取值为0,在第四分数大于等于第二阈值时,第八分数取值为第四分数。
第四分数由如下公式计算得到:
Figure 825694DEST_PATH_IMAGE006
其中,
Figure 759015DEST_PATH_IMAGE007
为所述第三素材中掩码掉第i个字符,取Bert计算出该位置真实字符的概率,
Figure 224631DEST_PATH_IMAGE008
为所述第三素材包含的所有字符数。
有时候模型会生成“苏州的西湖真美呀”这样不符合常识的句子。如果输入“[MASK]州的西湖真美呀”给Bert模型,Bert预测“苏”的概率为0.0530,预测“杭”的概率为0.8423。可见,Bert在大规模语料上训练具备一些常识,能给符合常识的表达高分,不符合常识的表达低分。Bert语言打分模型为逐个去掉素材中的字符后预测在去掉字符的位置上所填字符的最大概率之和与素材的字符数之比。Bert语言打分模型可以为如下公式:
Figure 952416DEST_PATH_IMAGE006
其中,
Figure 503483DEST_PATH_IMAGE007
为句子掩码(MASK)掉第i个字符,取Bert计算出该位置真实字符的概率。
Figure 240494DEST_PATH_IMAGE008
为句子包含的所有字符数。这个公式表示将被打分素材的每一个位置的字符计算出一个分数然后求平均,作为句子的分数。
总得分:s = pow(s_topic, 55) * pow(s_logic, 32) * (0.0 if s_union <0.95 else s_union) * (0.0 if s_bertlm < 0.70 else s_bertlm)
其中,s表示总分,s_topic表示切题打分,s_logic表示逻辑打分,s_union表示整体(union)打分,s_Bertlm表示Bert语言模型打分。这样打总分的原因如下:
(1)主题打分模型对应的打分项、逻辑打分模型对应的打分项、整体(union)打分模型对应的打分项、以及Bert语言打分模型对应的打分项多个项相乘,每一项都比较高,才会得到高分;
(2)如表2所示,主题打分模型的打分投票55次,逻辑打分模型的打分投票32次,这是根据素材生成错误比例得到的,则主题打分模型对应的打分项为主题打分模型对被打分素材打分的55次方,逻辑打分模型对应的打分项为逻辑打分模型对被打分素材打分的32次方型;
(3)union打分模型和Bert语言打分模型打分有一票否决权,比如当union打分模型的打分小于0.95,此时该项(0.0 if s_union < 0.95 else s_union)为0,总分为0。
作文一个具体例子,通过素材生成模型生成多个素材之后,可以首先从多个素材中采样生成一些素材,然后用打分模型过滤掉一些不好的素材,如果生成的素材个数不满足条件,比如少于5个,则重新采样生成,过滤,直到生成的素材个数满足条件。由于打分模型的存在,总可以过滤掉质量差的句子,保证最终输出的都是高质量的素材。
该实施例的作文素材生成方法还可以包括以下步骤:通过人工评测调整上述素材生成模型。作为一个具体例子,选取若干个标题,对于每一个标题,模型生成对应的5个素材,给教研老师进行评估是否合理可用,人工评测结果如表5:
Figure 295038DEST_PATH_IMAGE009
下面,通过一个实例来测试上述实施例的作文素材生成方法的技术效果。
收集了作文网站或作文app多个来源的作文数据,并对数据进行了清洗过滤。总共大约有398万数据,清洗过滤后大约剩下81万作文数据。然后将作文分段为素材。训练数据1486789条,测试数据83878。素材样例如表6:
Figure 724882DEST_PATH_IMAGE010
输出样例如表7:
Figure 700929DEST_PATH_IMAGE011
经过测试比较,不采用GPT peek方法进行训练,作文素材采纳率为38/100;采用GPT peek训练方法,素材的采纳率为62/100。加上逻辑打分素材采纳率为70/100,加上主题打分素材采纳率为86%。
在本实施例中还提供了一种作文素材生成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”为可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种作文素材生成装置500,如图5所示,包括:
接收模块501,用于接收文本信息;
分类模块502,用于对所述文本信息按照文本属性类别进行分类,得到文本类别信息;
生成模块503,用于将所述文本信息输入至与所述文本类别信息对应的作文素材生成模型,生成与所述文本信息对应的作文素材。
本实施例中的作文素材生成装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图6,现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元604可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如,在一些实施例中,作文素材生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行作文素材生成方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (9)

1.一种作文素材生成方法,包括:
接收文本信息;
对所述文本信息按照文本属性类别进行分类,得到文本类别信息,所述文本类别信息包括标题、关键词或者首句;
将所述文本信息输入至与所述文本类别信息对应的作文素材生成模型,生成与所述文本信息对应的作文素材;
其中,所述作文素材生成模型包括训练好的GPT Peek模型,
将所述文本信息和对应素材的开始部分输入至所述训练好的GPT Peek模型,由所述训练好的GPT Peek模型输出所述作文素材;
其中,所述训练好的GPT Peek模型通过如下方式训练得到:
将训练样本集中文本样本及其对应的素材样本的开始部分作为输入,将素材样本作为输出训练GPT Peek模型,得到所述训练好的GPT Peek模型;
其中,所述素材样本的开始部分包括的字符数量为多个,或者为零个;
接收文本信息包括:
接收预处理文本信息;其中,所述预处理文本信息为需要补全的标题信息;
对所述预处理文本信息进行切词处理,得到子文本信息;
根据所述子文本信息和预先建立的标题倒排索引,得到多个第一标题;
从所述多个第一标题中筛选与指定正则表达式匹配的第二标题,将所述第二标题作为所述文本信息。
2.如权利要求1所述的作文素材生成方法,其中,对所述文本信息按照文本属性类别进行分类,得到文本类别信息包括:
将所述文本信息输入至训练好的第一Bert分类模型,由所述训练好的第一Bert分类模型输出所述文本类别信息。
3.如权利要求1所述的作文素材生成方法,其中,所述方法还包括:
将第一标题和第一素材输入至第二Bert分类模型,由所述第二Bert分类模型输出素材是否切题的第一分数;或者,
将第二标题和第二素材输入至第三Bert分类模型,由所述第三Bert分类模型输出素材是否存在逻辑问题的第二分数;或者,
将素材的第一部分和素材的第二部分输入至第四Bert分类模型,由所述第四Bert分类模型输出素材是否存在表达问题的第三分数;或者,
将第三素材输入至第五Bert分类模型,由所述第五Bert分类模型输出素材是否符合常识的第四分数。
4.如权利要求3所述的作文素材生成方法,其中,在所述第一标题和所述第二标题一致,并且所述第一素材、所述第二素材和所述第三素材一致,并且所述素材的第一部分和所述素材的第二部分均属于所述第一素材的情况下,总得分为第五分数、第六分数、第七分数和第八分数的乘积;其中,所述第五分数、所述第六分数、所述第七分数和所述第八分数分别为所述第一分数、所述第二分数、所述第三分数和所述第四分数根据分别对应的权重得到。
5.如权利要求4所述的作文素材生成方法,其中,所述第五分数包括所述第一分数的N1次方;所述第六分数包括所述第二分数的N2次方;其中,所述N1、N2根据素材生成错误比例得到;
在所述第三分数小于第一阈值时,所述第七分数取值为0,在所述第三分数大于等于所述第一阈值时,所述第七分数取值为所述第三分数;
在所述第四分数小于第二阈值时,所述第八分数取值为0,在所述第四分数大于等于所述第二阈值时,所述第八分数取值为所述第四分数。
6.如权利要求3所述的作文素材生成方法,其中,所述第四分数由如下公式计算得到:
Figure 397732DEST_PATH_IMAGE001
其中,
Figure 518135DEST_PATH_IMAGE002
为所述第三素材中掩码的第i个字符,bertlm(s i )为所述第五Bert分类模型计算出所述第i个字符的位置真实字符的概率,
Figure 297872DEST_PATH_IMAGE003
为所述第三素材包含的所有字符数。
7.一种作文素材生成装置,包括:
接收模块,用于接收文本信息;接收文本信息包括:接收预处理文本信息;其中,所述预处理文本信息为需要补全的标题信息;对所述预处理文本信息进行切词处理,得到子文本信息;根据所述子文本信息和预先建立的标题倒排索引,得到多个第一标题;从所述多个第一标题中筛选与指定正则表达式匹配的第二标题,将所述第二标题作为所述文本信息;
分类模块,用于对所述文本信息按照文本属性类别进行分类,得到文本类别信息,所述文本类别信息包括标题、关键词或者首句;
生成模块,用于将所述文本信息输入至与所述文本类别信息对应的作文素材生成模型,生成与所述文本信息对应的作文素材;其中,所述作文素材生成模型包括训练好的GPTPeek模型,将所述文本信息和对应素材的开始部分输入至所述训练好的GPT Peek模型,由所述训练好的GPT Peek模型输出所述作文素材;其中,所述训练好的GPT Peek模型通过如下方式训练得到:将训练样本集中文本样本及其对应的素材样本的开始部分作为输入,将素材样本作为输出训练GPT Peek模型,得到所述训练好的GPT Peek模型;其中,所述素材样本的开始部分包括的字符数量为多个,或者为零个。
8.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
9.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。
CN202110827763.3A 2021-07-22 2021-07-22 作文素材生成方法、装置、电子设备及可读存储介质 Active CN113282701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110827763.3A CN113282701B (zh) 2021-07-22 2021-07-22 作文素材生成方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110827763.3A CN113282701B (zh) 2021-07-22 2021-07-22 作文素材生成方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113282701A CN113282701A (zh) 2021-08-20
CN113282701B true CN113282701B (zh) 2022-02-08

Family

ID=77286949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110827763.3A Active CN113282701B (zh) 2021-07-22 2021-07-22 作文素材生成方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113282701B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658866B (zh) * 2022-10-27 2024-03-12 国网山东省电力公司烟台供电公司 一种可自适应输入的文本续写方法、存储介质和装置
CN116431135B (zh) * 2023-06-12 2023-09-22 江西五十铃汽车有限公司 汽车代码编写方法、系统、计算机及可读存储介质
CN116579308B (zh) * 2023-07-06 2023-10-10 之江实验室 一种演示文稿生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN109446505A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种范文生成方法及系统
CN110413775A (zh) * 2019-06-25 2019-11-05 北京清博大数据科技有限公司 一种数据打标签分类方法、装置、终端及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10482323B2 (en) * 2017-08-22 2019-11-19 Autonom8, Inc. System and method for semantic textual information recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN109446505A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种范文生成方法及系统
CN110413775A (zh) * 2019-06-25 2019-11-05 北京清博大数据科技有限公司 一种数据打标签分类方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN113282701A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN110717031B (zh) 一种智能会议纪要生成方法和系统
US11693894B2 (en) Conversation oriented machine-user interaction
CN113282701B (zh) 作文素材生成方法、装置、电子设备及可读存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN109359290B (zh) 试题文本的知识点确定方法、电子设备及存储介质
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN111428514A (zh) 语义匹配方法、装置、设备以及存储介质
CN113221545B (zh) 一种文本处理方法、装置、设备及介质、程序产品
CN112395385A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN111414561B (zh) 用于呈现信息的方法和装置
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN107943940A (zh) 数据处理方法、介质、系统和电子设备
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN116151220A (zh) 分词模型训练方法、分词处理方法和装置
CN114611520A (zh) 一种文本摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant