CN112699643B - 一种生成语言模型的方法和文章自动生成方法 - Google Patents

一种生成语言模型的方法和文章自动生成方法 Download PDF

Info

Publication number
CN112699643B
CN112699643B CN202011541747.XA CN202011541747A CN112699643B CN 112699643 B CN112699643 B CN 112699643B CN 202011541747 A CN202011541747 A CN 202011541747A CN 112699643 B CN112699643 B CN 112699643B
Authority
CN
China
Prior art keywords
language model
text
article
preset
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011541747.XA
Other languages
English (en)
Other versions
CN112699643A (zh
Inventor
陈泽龙
胡阿沛
甘孟壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chezhi Interconnection Beijing Technology Co ltd
Original Assignee
Chezhi Interconnection Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chezhi Interconnection Beijing Technology Co ltd filed Critical Chezhi Interconnection Beijing Technology Co ltd
Priority to CN202011541747.XA priority Critical patent/CN112699643B/zh
Publication of CN112699643A publication Critical patent/CN112699643A/zh
Application granted granted Critical
Publication of CN112699643B publication Critical patent/CN112699643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种生成语言模型的方法和文章自动生成方法。其中,生成语言模型的方法包括步骤:利用第一文本集合对初始语言模型进行预训练,生成第一语言模型;识别第二文本集合中的关键信息,并形成第三文本集合,其中,第三文本集合中的各文本均具有预设格式;基于预设格式,优化所述第一语言模型,以形成第二语言模型;利用第三文本集合,训练第二语言模型,以生成第三语言模型,第三语言模型为生成的语言模型,所生成的语言模型适于自动生成文章。本发明一并公开了相应的计算设备。

Description

一种生成语言模型的方法和文章自动生成方法
技术领域
本发明涉及数据推荐技术领域,尤其是一种网站内容的推荐方法及推荐系统。
背景技术
文本自动生成是自然语言处理领域中的核心问题之一。根据作者的想法自动生成文本,能够大大减轻作者的工作量;但同时,想要根据作者想法生成指定方面的文本,也存在一定挑战性。
通常,文本自动生成的实现方式可分为两种。一种方式是,生成式的文本生成方法。基于深度学习技术,通过模型学会文章的行文规律,当给模型输入一定条件时,模型会根据给定条件以及学会的行文规律自动生成文本。但是,需要海量(数十万多)的文章,才能从文章中学习出行文规律,同时,深度学习模型训练时间较长,对GPU等硬件要求较高。另外,该方案的稳定性不强,不能预知要生成文章的形式,因此不能保证所生成文章的细节的准确性。
另一种方式是,通过模版来实现文本自动生成。预先设定一批文章模版,模版中存在一些通用的槽位,通过填槽的方式,将模版转换为可读性强的文章。以一种地震新闻自动写稿机器人为例,“据中国地震台网正式测定,【时间】在【地点】发生【级别】地震,震源深度【深度】,震中位于【震中位置】。”将该模版中的槽位填充进具有实际意义的文字,即可自动化批量生成文章。该方案的主要缺点是生成的文章内容严重依赖于模版,当生成文章数量较大时,由于模版数量有限,会导致文章多样性有限,呈现给读者的文章就会变的千篇一律。
基于此,需要一种新的自动生成文本的方案。
发明内容
为此,本发明提供了一种生成语言模型的方法和文章自动生成方法,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种生成语言模型的方法,适于在计算设备中执行,包括步骤:利用第一文本集合对初始语言模型进行预训练,生成第一语言模型;识别第二文本集合中的关键信息,并形成第三文本集合,其中,第三文本集合中的各文本均具有预设格式;基于预设格式,优化第一语言模型,以形成第二语言模型;利用第三文本集合,训练第二语言模型,以生成第三语言模型,第三语言模型为生成的语言模型,所生成的语言模型适于自动生成文章。
可选地,根据本发明的方法还包括步骤:针对第二文本集合中的每个文本,对第二文本集合进行分段处理,得到至少一个文本段;利用预设分类模型,分别识别至少一个文本段的关键信息,其中关键信息至少包括车系和维度;按照预设格式,利用所识别出的车系和维度,生成第三文本集合。
可选地,在根据本发明的方法中,预设格式包括前置引导语、预设字符和文本数据。
可选地,根据本发明的方法还包括步骤:针对第二文本集合中的每个文本,将所识别出的车系和维度作为前置引导语,和预设字符以及对应的文本数据一起,组成第三文本;以及利用各第三文本,形成第三文本集合。
可选地,在根据本发明的方法中,基于预设格式,优化第一语言模型,以形成第二语言模型的步骤包括:基于预设格式,修改第一语言模型的损失函数,以形成第二语言模型,第二语言模型适于在计算损失函数时,排除掉第三文本中的前置引导语的影响。
可选地,在根据本发明的方法中,基于预设格式,优化第一语言模型,以形成第二语言模型的步骤还包括:调整输入第二语言模型的各文本的长度。
可选地,在根据本发明的方法中,初始语言模型为GPT-2模型。
可选地,在根据本发明的方法中,第二文本集合是第一文本集合的子集,其中,第一文本集合中的文本均具有时间戳信息,第二文本集合是按照时间戳信息,从第一文本集合中筛选得到。
可选地,在根据本发明的方法中,维度至少包括以下一个:外观、动力、内饰、操控性、舒适性、配置。
根据本发明的又一方面,提供了一种文章自动生成方法,适于在计算设备中执行,包括步骤:按照预设格式生成初始文本;将初始文本输入预设语言模型,经预设语言模型处理后,生成文章,其中,预设语言模型通过如上所述的方法来生成。
可选地,在根据本发明的方法中,在将初始文本输入预设语言模型,经预设语言模型处理后,生成文章的步骤之后,还包括步骤:对经预设语言模型所生成的文章进行校验,得到最终生成的文章。
可选地,在根据本发明的方法中,对经预设语言模型所生成的文章进行校验,得到最终生成的文章的步骤包括:识别所生成文章的情感类别;若识别出的情感类别为正向情感,则校验通过;若识别出的情感类别为负向情感,则校验不通过并过滤掉所生成的文章。
可选地,在根据本发明的方法中,对经预设语言模型所生成的文章进行校验,得到最终生成的文章的步骤包括:采用n-gram语言模型校验所生成文章的通顺度,以过滤掉不通顺的文章。
可选地,在根据本发明的方法中,对经预设语言模型所生成的文章进行校验,得到最终生成的文章的步骤包括:提取所生成文章中的配置参数;将所提取的配置参数与预设参数库中的配置参数进行对比;若经对比一致,则校验通过;若经对比不一致,则用预设参数库中的配置参数替换所提取的配置参数,形成新的文章。
可选地,在根据本发明的方法中,配置参数至少包括:车系的长、宽、高参数、车系轴距、车系百公里加速、车系最大马力、车系发动机排量、车系最大扭矩、车系变速箱名称、车系前悬架、车系后悬架、车系油耗、车系座位数。
根据本发明的另一方面,提供了一种计算设备,包括:一个或多个处理器;和存储器;一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行如上所述方法中的任一方法的指令。
根据本发明的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当计算设备执行时,使得计算设备执行如上所述方法中的任一方法。
根据本发明的方案,首先通过初始语言模型对第一文本集合进行预训练,得到针对专业领域的第一语言模型。然后,分角度精细处理第二文本集合,之后将精细处理后的文章输入进第一语言模型,对第一语言模型进行优化,进行分车系分维度条件下的有监督学习,学习到自动写作语言模型,即第三语言模型。基于该第三语言模型,能够实现文章的自动生成。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的构造示意图;
图2示出了根据本发明一个实施例的生成语言模型的方法200的流程图;
图3示出了根据本发明一个实施例的文章自动生成方法300的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明实施例所提供的结合深度学习和自动校验的文章自动生成方案,主要应用于对某一专业领域内的文章的自动生成。首先,收集专业领域的文章,作为训练集合。一方面,通过深度学习模型,对训练集合进行预训练,得到预训练后的语言模型。另一方面,对训练集合进行精细处理,之后,利用其对预训练后的语言模型进行微调,学习到最终的语言模型。基于该最终的语言模型,能够实现对应的专业领域内,相关文章的自动生成。之后,再通过自动校验,舍弃所生成的不合格的文章。这里的不合格例如可以是不符合常理、不符合语言表达习惯、语句不通顺、情感负向,等等,本发明实施例对此不做限制。
本发明实施例的文章自动生成方案,可以在一台多多台计算设备中执行。图1是示例计算设备100的框图。
在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中,计算设备100被配置为执行文章自动生成方法,程序数据124中包含了用于执行该方法的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中,计算机可读介质中存储一个或多个程序,这一个或多个程序中包括执行某些方法的指令。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。计算设备100也可以实现为具有上述配置的服务器。
为便于说明,以下以汽车领域为例,说明根据本发明实施例的文章自动生成方案。应当了解,基于本发明实施例所公开的内容,本领域技术人员能够将其应用到其它专业领域(如智能家居、电力、教育等),来自动生成其它专业领域的文章,均在本发明的保护范围之内。
图2示出了根据本发明一个实施例的生成语言模型的方法200的流程示意图。方法200适于在如上所述的计算设备100中执行。如图2所示,方法200始于步骤S210。
在步骤S210中,利用第一文本集合对初始语言模型进行预训练,生成第一语言模型。
在一种实施例中,从某一汽车领域网站上,获取历史上全部介绍车的文章,记作“[文章1,文章1,文章2,......,文章n]”,构成第一文本集合。各文章均具有相应的时间戳信息,该时间戳信息可以指向文章被发表的日期,或者是最后更新的日期。
初始语言模型为深度学习语言模型,用以学习字和字之间的行文搭配概率,通过这个搭配概率,来实现自动写作。通常深度学习语言模型有LSTM、CNN、GPT-2。在本实施例中,选用GPT-2作为初始语言模型。
GPT-2使用Transformer的Decoder结构,并对Transformer Decoder进行了一些改动,原本的Decoder包含了两个Multi-Head Attention结构,GPT-2只保留了Mask Multi-Head Attention。GPT-2使用句子序列预测下一个单词,因此要采用Mask Multi-HeadAttention对单词的下文遮挡,防止信息泄露。Mask(遮挡)操作是在Self-Attention进行Softmax之前进行的,具体做法是将要Mask的位置用一个无穷小的数替换-inf,然后再Softmax。利用第一文本集合对GPT-2进行预训练的过程,可参考GPT-2的训练过程,此处不作展开。
如前所述,输入初始语言模型的第一文本集合为一个列表形式:“[文章1,文章1,文章2,......,文章n]”,其中,列表中的每个元素为一篇完整的文章。通俗来说,语言模型就是这样一个模型:对于任意的词序列,它能够计算出这个序列是一句话的概率。或者说语言模型能预测单词序列的下一个词是什么。训练得到第一语言模型后,该第一语言模型能够实现自动生成一段文本的能力,但是该第一语言模型不具备生成特定内容的能力,例如:生成描述宝马3系外观方面的段落。
随后在步骤S220中,识别第二文本集合中的关键信息,并形成第三文本集合。
在根据本发明的实施例中,第二文本集合是第一文本集合的子集。如前文所述,第一文本集合中的文本均具有时间戳信息,那么,第二文本集合就是按照时间戳信息,从第一文本集合中筛选得到,具体地,筛选近期一段时间内(如,近半年内)的文章,构成第二文本集合。
由第二文本集合生成第三文本集合的步骤包括如下三步。
第一步,针对第二文本集合中的每个文本,对第二文本集合进行分段处理,得到至少一个文本段。对文章进行分段处理,属于本领域常规技术手段,故此处不作展开。
第二步,利用预设分类模型,分别识别这至少一个文本段的关键信息。预设分类模型例如是深度学习分类模型,此处不做限制。将识别出的关键信息作为对应文本段的标签。在一种实施例中,关键信息至少包括车系和维度。其中,维度至少包括以下一个:外观、动力、内饰、操控性、舒适性、配置。若某文本段不包含上述关键信息,则丢弃该本文段。例如,某文本段描述的是宝马3系的外观,则该文本段的标签为“宝马3系”、“外观”。
由于同款车型在不同年份都会有升级改款,故,利用第一文本集合构造第二文本集合的目的,是在最新的文章上进行模型微调,可以学习到新款车型的描述特点(即,维度),而不是老款车型的描述特点。
第三步,按照预设格式,利用所识别出的车系和维度,生成第三文本集合。根据一种实施例,第三文本集合中的各文本均具有预设格式。预设格式包括前置引导语、预设字符和文本数据。前置引导语为对该文本的限定内容,优选地,前置引导语为经上一步所识别出的车系和维度。预设字符通常为\n。
因此,针对第二文本集合中的每个文本,将所识别出的车系和维度作为前置引导语,和预设字符以及对应的文本数据一起,组成新的文本(简称为第三文本);再利用各第三文本,就形成了第三文本集合。
换言之,对第二文本集合中的每个文本,在其前加上前缀:“限定(车系=‘车系名称’,维度=‘维度名称’)\n”,就对应构成了第三文本。
例如,以下示例性地示出一个第三文本集合中的文本。
"限定(车系=宝马1系,维度=动力)\n动力上,宝马1系搭载了1.5T和2.0T两种涡轮增压发动机。其中,1.5T为三缸机>,最大马力136马力,最大扭矩220牛米,匹配6AT变速箱;而2.0T发动机的最大功率为192马力,最大扭矩280牛米,匹配的是8AT变速箱。在这两套卓越的动力系统加持下,该车零百加速仅需9.4秒和7.5秒,而百公里综合油耗低至5.9L和6.4L。"
随后在步骤S230中,基于预设格式,优化第一语言模型,以形成第二语言模型。在一种实施例中,对第一语言模型的优化为:基于预设格式,修改第一语言模型的损失函数,以形成第二语言模型。
根据本发明的实施例,第二语言模型适于在计算损失函数时,排除掉所输入的第三文本中的前置引导语的影响,即,前置引导语不影响实际的文章生成,而只在attention部分起作用。如前文所述,在GPT-2模型中,会利用Mask(遮挡)操作来对某些内容进行遮挡。此处,在计算整句话的损失(loss)时,MASK掉‘\n’之前部分的loss,而只计算‘\n’之后部分的loss。
针对本文的训练语料,原计算损失函数的公式为:
可以等价为:
其中A为该文本段的前置条件,即为前缀:“限定(车系=‘车系名称’,维度=‘维度名称’)”,<t,n为前置条件对应的字符的index,T整个语料对应的字符包括前置条件对应的字符以及后续模型自动生成的字符,θ为参数。
在不计算前置条件的字符对应的loss时,修改后的loss公式如下所示:
其中,>=t,n为模型生成的语料对应字符的index。通过上述公式计算loss时,排除掉了前置条件对应的loss。
在另一种实施例中,在形成第二语言模型之后,对第一语言模型的优化还包括:调整输入第二语言模型的各文本的长度。
针对已经构造的初始预料“[文章1,文章2,......,文章n]”,按照原来的GPT-2模型,将其输入进模型时,通过stride截取的方式构造成一个训练batch,例如:文章1的长度为500,文章2的长度为200,文章3的长度为400,文章4的长度为210,同时模型参数为stride=256、n_ctx=256、batch_size=4。那么,最终输入进GPT-2模型的一个batch(第一个batch)为[‘文章1的第1-256个字’,‘文章1的第257-500个字’+‘文章2的第1-12个字’,‘文章2的第13-200个字’+‘文章3的第1-68个字’,‘文章3的第69-324个字’],以上列表构成一个batch,列表中的每个元素为一个tensor(张量),很明显一个tensor可能包含多条语料,即一个tensor可能包含多个车系多个维度的语料,在模型预训练时(即,步骤S210)没有问题,因为预训练模型只是为了训练出一个可以自动生成通顺段落的模型,而在后续的模型训练中是不可接受的,因为一个tensor可能包含多个车系多个维度的语料,可能会影响到最终生成一个指定车系一个指定维度的微调模型的性能。
因此,根据本发明的实施例,调整了输入第二语言模型的各文本的长度,即,对每个tensor构造的语料,如果长度不足256,则以padding的方式进行补齐;如果长度超过256,则进行截断,截取256长度即可。继续以上述语料为例,其构造成的一个batch(第一个batch)为[‘文章1的第1-256个字’,‘文章2的第1-200个字’和56个‘[PAD]’,‘文章3的第1-256个字’,‘文章4的第1-210个字’和46个‘[PAD]’]。通过这样的改进,能够保证在一个tensor中只包含一个车系的一个维度的训练语料。
随后在步骤S240中,利用第三文本集合,训练第二语言模型,以生成第三语言模型,第三语言模型为生成的语言模型,所生成的语言模型适于自动生成文章。
根据本发明的实施例,将第三文本集合中的文本调整长度后,输入第二语言模型中进行训练,直到训练结束,生成第三语言模型。关于第二语言模型的训练过程,可参考GPT-2模型的训练过程,此处不作展开。
在得到第三语言模型后,便可以通过输入"限定(车系=宝马1系,维度=动力)\n+前置引导文"生成后续文章,例如输入:"限定(车系=宝马1系,维度=动力)\n从外观方面来说",便可以生成后续文章。
根据本发明的生成语言模型的方案,首先通过GPT-2模型对汽车网站上海量的文章(即,第一文本集合)进行预训练,得到针对汽车领域的第一语言模型。然后,分车系分维度精细处理汽车网站上近半年的文章(即,第二文本集合),将文章拆分为分车系分维度的段落。之后将精细处理后的文章输入进第一语言模型,对第一语言模型进行优化,进行分车系分维度条件下的有监督学习,学习到分车系分维度的自动写作语言模型,即第三语言模型。基于该第三语言模型,能够实现分车系分维度地自动生成文章。
根据该方案得到的第三语言模型,能够生成通顺的文章,可读性强,且基于第三文本集合的预定格式,实现了分车系分维度的文章自动生成。
图3示出了根据本发明一个实施例的文章自动生成方法300的流程示意图。如图3所示,方法300始于步骤S310。
在步骤S310中,按照预设格式生成初始文本。基于前文描述,初始文本的格式为:限定(车系=***,维度=**)\n+前置引导文。
随后在步骤S320中,将初始文本输入预设语言模型,经预设语言模型处理后,生成文章。其中,预设语言模型通过方法200来生成。
以下示例性地示出根据本发明实施例的自动生成文章的示例。
输入预设语言模型的初始文本为:限定(车系=红旗h7,维度=外观)\n对于这款车的外观来说。
经预设语言模型处理后,输出的文章为:对于这款车的外观来说,这款车的设计非常的大气,前脸的设计看起来非常的庄重,前脸采用了直瀑式的进气格栅设计,看起来特别的大气,而且这款车的车头采用了红旗的立标,看起来非常的高大上,两侧的大灯采用的是led光源,点亮之后的效果非常的不错。从它的侧面来看,这款车的车身尺寸是5095×1875×1485mm,轴距是2970mm,这款车的腰线设计非常的复杂,而且它的轮毂采用的是多辐式的设计,看起来非常的时尚,而且它的尾部采用了贯穿式的尾灯,看起来非常的大气。
根据一些实施方式,方法300还包括对所生成的文章进行正确性校验的步骤。具体地,对经预设语言模型所生成的文章进行校验,得到最终生成的文章。
在一种实施例中,从配置参数、情感、通顺度3个方面来对文章进行校验。
(1)情感校验利用深度学习情感分类技术,利用训练好的情感分类模型,识别所生成文章的情感类别。在本实施例中,情感类别分为正向情感和负向情感。通常,正向情感是人对正向价值的增加或负向价值的减少所产生的情感,如愉快、信任、感激、庆幸等;而负向情感是人对正向价值的减少或负向价值的增加所产生的情感,如痛苦、鄙视、仇恨、嫉妒等。
若识别出的情感类别为正向情感,则校验通过,即保留该文章;若识别出的情感类别为负向情感,则校验不通过并过滤掉所生成的文章。
(2)通顺度校验
采用n-gram语言模型,校验所生成文章的通顺度,以过滤掉不通顺的文章。
(3)配置参数校验
首先,利用自然语言处理中的NER技术,提取所生成文章中的配置参数,配置参数至少包括:车系的长、宽、高参数、车系轴距、车系百公里加速、车系最大马力、车系发动机排量、车系最大扭矩、车系变速箱名称、车系前悬架、车系后悬架、车系油耗、车系座位数等。
之后,将所提取的配置参数与预设参数库中的配置参数进行对比:若经对比一致,则校验通过;若经对比不一致,则用预设参数库中的配置参数替换所提取的配置参数,形成新的文章。预设参数库是根据车型、车系等数据,预先生成的数据库,其中预存了各种车型对应的配置参数。
经上述校验后,保留校验通过的文章,作为校验后的文章。对校验不通过的文章,直接过滤掉该文章。对配置参数不正确的文章,利用预设参数库中的配置参数来替换不正确的参数,得到校验后的文章。
最后,对校验后的文章,去除‘\n’之前的前置引导语,保留‘\n’之后的自动生成的文章,作为最终输出的自动写作文章。
根据本发明的文章自动生成方法,对经深度学习方案所生成的文章进行校验,在一定程度上可以避免生成不好/不对的文章。基于此方法生成的文章,不仅可以实现根据使用者的想法自动生成相关内容的文章,还满足了文章的多样性及正确性的要求。
同时,本方案可以应用于其它专业领域,具备可移植性和可扩展性。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本发明一并公开了:
A5、如A3或4所述的方法,其中,所述基于预设格式,优化第一语言模型,以形成第二语言模型的步骤包括:基于所述预设格式,修改所述第一语言模型的损失函数,以形成第二语言模型,所述第二语言模型适于在计算损失函数时,排除掉第三文本中的前置引导语的影响。A6、如A5所述的方法,其中,所述基于预设格式,优化第一语言模型,以形成第二语言模型的步骤还包括:调整输入所述第二语言模型的各文本的长度。A7、如A1-6中任一项所述的方法,其中,所述初始语言模型为GPT-2模型。A8、如A1-7中任一项所述的方法,其中,所述第二文本集合是所述第一文本集合的子集,其中,所述第一文本集合中的文本均具有时间戳信息,所述第二文本集合是按照所述时间戳信息,从所述第一文本集合中筛选得到。A9、如A2-8中任一项所述的方法,其中,所述维度至少包括以下一个:外观、动力、内饰、操控性、舒适性、配置。
B14、如B11-13中任一项所述的方法,其中,所述对经预设语言模型所生成的文章进行校验,得到最终生成的文章的步骤包括:提取所生成文章中的配置参数;将所提取的配置参数与预设参数库中的配置参数进行对比;若经对比一致,则校验通过;若经对比不一致,则用预设参数库中的配置参数替换所提取的配置参数,形成新的文章。B15、如B14中所述的方法,其中,所述配置参数至少包括:车系的长、宽、高参数、车系轴距、车系百公里加速、车系最大马力、车系发动机排量、车系最大扭矩、车系变速箱名称、车系前悬架、车系后悬架、车系油耗、车系座位数。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明所述的方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (15)

1.一种生成语言模型的方法,所述方法适于在计算设备中执行,所述方法包括步骤:
利用第一文本集合对初始语言模型进行预训练,生成第一语言模型,其中所述第一文本集合由介绍汽车的文章构成;
识别作为所述第一文本集合的子集的第二文本集合中的关键信息,并形成第三文本集合,其中,所述第三文本集合中的各文本均具有预设格式,所述关键信息至少包括车系和维度,所述预设格式包括前置引导语、预设字符和文本数据,且所述前置引导语为所识别的车系和维度;
基于所述预设格式,优化所述第一语言模型,以形成第二语言模型,包括:基于所述预设格式,修改所述第一语言模型的损失函数,以形成第二语言模型,所述第二语言模型适于在计算损失函数时,排除掉第三文本中的前置引导语的影响,其中所述修改第一语言模型的损失函数包括:在计算整句话的损失时,只计算所述预设字符之后部分的损失;
利用所述第三文本集合,训练所述第二语言模型,以生成第三语言模型,所述第三语言模型为生成的语言模型,所生成的语言模型适于分车系分维度地自动生成文章。
2.如权利要求1所述的方法,其中,识别第二文本集合中的关键信息,并形成第三文本集合的步骤包括:
针对所述第二文本集合中的每个文本,对所述第二文本集合进行分段处理,得到至少一个文本段;
利用预设分类模型,分别识别所述至少一个文本段的关键信息;
按照预设格式,利用所识别出的车系和维度,生成第三文本集合。
3.如权利要求2所述的方法,其中,所述按照预设格式,利用所识别出的车系和维度,生成第三文本集合的步骤,还包括:
针对所述第二文本集合中的每个文本,将所识别出的车系和维度作为前置引导语,和预设字符以及对应的文本数据一起,组成第三文本;以及
利用各第三文本,形成第三文本集合。
4.如权利要求1所述的方法,其中,所述基于预设格式,优化第一语言模型,以形成第二语言模型的步骤还包括:
调整输入所述第二语言模型的各文本的长度。
5.如权利要求1所述的方法,其中,所述初始语言模型为GPT-2模型。
6.如权利要求1-5中任一项所述的方法,其中,
所述第一文本集合中的文本均具有时间戳信息,所述第二文本集合是按照所述时间戳信息,从所述第一文本集合中筛选得到。
7.如权利要求1所述的方法,其中,
所述维度至少包括以下一个:外观、动力、内饰、操控性、舒适性、配置。
8.一种文章自动生成方法,所述方法适于在计算设备中执行,包括步骤:
按照预设格式生成初始文本;
将所述初始文本输入预设语言模型,经所述预设语言模型处理后,生成文章,
其中,所述预设语言模型通过如权利要求1-7中任一项所述的方法来生成。
9.如权利要求8所述的方法,其中,在所述将初始文本输入预设语言模型,经预设语言模型处理后,生成文章的步骤之后,还包括步骤:
对经预设语言模型所生成的文章进行校验,得到最终生成的文章。
10.如权利要求9所述的方法,其中,所述对经预设语言模型所生成的文章进行校验,得到最终生成的文章的步骤包括:
识别所生成文章的情感类别;
若识别出的情感类别为正向情感,则校验通过;
若识别出的情感类别为负向情感,则校验不通过并过滤掉所生成的文章。
11.如权利要求9所述的方法,其中,所述对经预设语言模型所生成的文章进行校验,得到最终生成的文章的步骤包括:
采用n-gram语言模型校验所生成文章的通顺度,以过滤掉不通顺的文章。
12.如权利要求9-11中任一项所述的方法,其中,所述对经预设语言模型所生成的文章进行校验,得到最终生成的文章的步骤包括:
提取所生成文章中的配置参数;
将所提取的配置参数与预设参数库中的配置参数进行对比;
若经对比一致,则校验通过;
若经对比不一致,则用预设参数库中的配置参数替换所提取的配置参数,形成新的文章。
13.如权利要求12中所述的方法,其中,
所述配置参数至少包括:车系的长、宽、高参数、车系轴距、车系百公里加速、车系最大马力、车系发动机排量、车系最大扭矩、车系变速箱名称、车系前悬架、车系后悬架、车系油耗、车系座位数。
14.一种计算设备,包括:
一个或多个处理器;和
存储器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-7所述方法中的任一方法的指令,和/或,用于执行根据权利要求8-13所述方法中的任一方法的指令。
15.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法,和/或,执行根据权利要求8-13所述方法中的任一方法。
CN202011541747.XA 2020-12-23 2020-12-23 一种生成语言模型的方法和文章自动生成方法 Active CN112699643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011541747.XA CN112699643B (zh) 2020-12-23 2020-12-23 一种生成语言模型的方法和文章自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011541747.XA CN112699643B (zh) 2020-12-23 2020-12-23 一种生成语言模型的方法和文章自动生成方法

Publications (2)

Publication Number Publication Date
CN112699643A CN112699643A (zh) 2021-04-23
CN112699643B true CN112699643B (zh) 2024-04-19

Family

ID=75509429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011541747.XA Active CN112699643B (zh) 2020-12-23 2020-12-23 一种生成语言模型的方法和文章自动生成方法

Country Status (1)

Country Link
CN (1) CN112699643B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492384A (zh) * 2022-01-17 2022-05-13 海南车智易通信息技术有限公司 训练生成文本生成模型的方法及文本生成方法
CN117034019B (zh) * 2023-10-09 2024-01-09 腾讯科技(深圳)有限公司 一种业务处理方法、装置、电子设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528618A (zh) * 2015-12-09 2016-04-27 微梦创科网络科技(中国)有限公司 一种基于社交网络的短图片文本识别方法及装置
CN110175229A (zh) * 2019-05-27 2019-08-27 言图科技有限公司 一种基于自然语言进行在线培训的方法和系统
KR20200007713A (ko) * 2018-07-12 2020-01-22 삼성전자주식회사 감성 분석에 의한 토픽 결정 방법 및 장치
CN110941945A (zh) * 2019-12-02 2020-03-31 百度在线网络技术(北京)有限公司 语言模型预训练方法和装置
CN111046645A (zh) * 2019-12-11 2020-04-21 浙江大搜车软件技术有限公司 生成文章的方法、装置、计算机设备和存储介质
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN111414735A (zh) * 2020-03-11 2020-07-14 北京明略软件系统有限公司 文本数据的生成方法和装置
CN111460833A (zh) * 2020-04-01 2020-07-28 合肥讯飞数码科技有限公司 文本生成方法、装置和设备
CN111651996A (zh) * 2019-03-04 2020-09-11 北京嘀嘀无限科技发展有限公司 摘要生成方法、装置、电子设备及存储介质
CN111859987A (zh) * 2020-07-28 2020-10-30 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
CN111930929A (zh) * 2020-07-09 2020-11-13 车智互联(北京)科技有限公司 一种文章标题生成方法、装置及计算设备
CN111950295A (zh) * 2020-08-10 2020-11-17 北京嘀嘀无限科技发展有限公司 一种训练自然语言处理模型的方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002325B2 (en) * 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
US9613135B2 (en) * 2011-09-23 2017-04-04 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation of information objects
US20190034481A1 (en) * 2017-07-28 2019-01-31 NewsRx, LLC Data stores for generating an information source
US10867338B2 (en) * 2019-01-22 2020-12-15 Capital One Services, Llc Offering automobile recommendations from generic features learned from natural language inputs

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528618A (zh) * 2015-12-09 2016-04-27 微梦创科网络科技(中国)有限公司 一种基于社交网络的短图片文本识别方法及装置
KR20200007713A (ko) * 2018-07-12 2020-01-22 삼성전자주식회사 감성 분석에 의한 토픽 결정 방법 및 장치
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN111651996A (zh) * 2019-03-04 2020-09-11 北京嘀嘀无限科技发展有限公司 摘要生成方法、装置、电子设备及存储介质
CN110175229A (zh) * 2019-05-27 2019-08-27 言图科技有限公司 一种基于自然语言进行在线培训的方法和系统
CN110941945A (zh) * 2019-12-02 2020-03-31 百度在线网络技术(北京)有限公司 语言模型预训练方法和装置
CN111046645A (zh) * 2019-12-11 2020-04-21 浙江大搜车软件技术有限公司 生成文章的方法、装置、计算机设备和存储介质
CN111414735A (zh) * 2020-03-11 2020-07-14 北京明略软件系统有限公司 文本数据的生成方法和装置
CN111460833A (zh) * 2020-04-01 2020-07-28 合肥讯飞数码科技有限公司 文本生成方法、装置和设备
CN111930929A (zh) * 2020-07-09 2020-11-13 车智互联(北京)科技有限公司 一种文章标题生成方法、装置及计算设备
CN111859987A (zh) * 2020-07-28 2020-10-30 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
CN111950295A (zh) * 2020-08-10 2020-11-17 北京嘀嘀无限科技发展有限公司 一种训练自然语言处理模型的方法和系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Automated Journalism 2.0: Event-driven narratives;David Caswell 等;Journalism Practice;20170509;第12卷(第4期);477-496 *
Automatic paper writing based on a RNN and the TextRank algorithm;Hei-Chia Wang 等;Applied Soft Computing;20201231;第97卷;1-12 *
Automatic Text Generation: How to Write the Plot of a Novel with NooJ;Mario Monteleone;Formalizing Natural Languages with NooJ 2019 and Its Natural Language Processing Applications Conference;20200107;135-146 *
主题关键词信息融合的中文生成式自动摘要研究;候丽微;自动化学报;20190331;第45卷(第3期);530-539 *
基于LSTM的许嵩风格歌词生成;陈冰儿;网络安全技术与应用;20200831(第8期);49-52 *
常见神经网络模型在古诗词自动生成中的应用与对比分析;黄颖杰;东莞理工学院学报;20200531;第27卷(第5期);55-60 *
陈玉晋.NBA赛事新闻的自动写作研究.北京大学学报(自然科学版).第53卷(第2期),211-218. *

Also Published As

Publication number Publication date
CN112699643A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN110489538B (zh) 基于人工智能的语句应答方法、装置及电子设备
CN112699643B (zh) 一种生成语言模型的方法和文章自动生成方法
US10061766B2 (en) Systems and methods for domain-specific machine-interpretation of input data
CN111651990B (zh) 一种实体识别方法、计算设备及可读存储介质
CN110795525A (zh) 文本结构化方法、装置、电子设备及计算机可读存储介质
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
WO2009055819A1 (en) Improving free-speech command classification for car navigation system
CN110704391A (zh) 一种词库构建方法及计算设备
CN112380343A (zh) 问题解析方法、装置、电子设备及存储介质
CN111104803B (zh) 语义理解处理方法、装置、设备及可读存储介质
CN111241290B (zh) 一种评论标签生成方法、装置和计算设备
CN110929026B (zh) 一种异常文本识别方法、装置、计算设备及介质
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
Cahill et al. Wide-coverage deep statistical parsing using automatic dependency structure annotation
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN103646017B (zh) 用于命名的缩略词生成系统及其工作方法
CN113362072A (zh) 风控数据处理方法、装置、电子设备及存储介质
CN112668281A (zh) 基于模板的语料自动化扩充方法、装置、设备及介质
CN111930775A (zh) 车辆信息识别方法、装置、终端及计算机可读存储介质
JP6600849B2 (ja) 顔文字感情情報抽出システム、方法及びプログラム
CN116739001A (zh) 基于对比学习的文本关系提取方法、装置、设备及介质
CN108920452B (zh) 一种信息处理方法及装置
CN111160033B (zh) 一种基于神经网络的命名实体识别方法、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant