CN113656573A - 文本信息生成方法、装置、终端设备 - Google Patents
文本信息生成方法、装置、终端设备 Download PDFInfo
- Publication number
- CN113656573A CN113656573A CN202110996630.9A CN202110996630A CN113656573A CN 113656573 A CN113656573 A CN 113656573A CN 202110996630 A CN202110996630 A CN 202110996630A CN 113656573 A CN113656573 A CN 113656573A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- corpus
- sample
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 53
- 230000004044 response Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 239000003795 chemical substances by application Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 206010019233 Headaches Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 208000002173 dizziness Diseases 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 231100000869 headache Toxicity 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施例公开了文本信息生成方法、装置、终端设备。该方法的一具体实施方式包括:获取目标文本和预先确定的预训练模型;获取目标语料库,其中,目标语料库中的目标语料为目标文本和目标语句组成的数据对;基于目标文本和目标语料库,生成目标输入特征;将目标输入特征输入预先确定的预训练模型,生成结果文本;接收用户输入的文本处理指令;将文本处理指令和结果文本推送至目标终端设备,其中,目标终端设备根据文本处理指令进行展示相关操作。该实施方式利用目标语料库生成目标文本对应的目标输入特征,将目标输入特征输入预训练模型以得到结果文本,减少生成结果文本所需的参数数量,节省计算资源,提高了文本信息生成速度。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及文本信息生成方法、装置、终端设备。
背景技术
文本生成技术是自然语言处理领域的一项重要技术。应用者可以利用既定信息与文本生成模型生成满足特定目标的文本序列或生成能够满足分类、识别任务需要的文本信息。文本生成模型的应用场景丰富如生成式阅读理解、人机对话或者智能写作等。
然而,文本的类型复杂多样,文本信息生成的需求多且零碎,在实际场景中提取文本中的信息时,经常会存在如下技术问题:
现有技术提取文本信息时依赖于大规模的特定任务的标注语料库,且针对特定任务,需要根据标注语料库再次对语言模型进行参数训练,耗时长、计算资源需求量大,在标注语料库有限的情况下,文本信息生成的效果较差。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了文本信息生成方法、装置、终端设备,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种文本信息生成方法,该方法包括:获取目标文本和预先确定的预训练模型;获取目标语料库,其中,目标语料库中的目标语料为目标文本和目标语句组成的数据对;基于目标文本和目标语料库,生成目标输入特征;将目标输入特征输入预先确定的预训练模型,生成结果文本;接收用户输入的文本处理指令,其中,文本处理指令包括分类指令、生成指令;将文本处理指令和结果文本推送至目标终端设备,其中,目标终端设备根据文本处理指令进行展示相关操作。
第二方面,本公开的一些实施例提供了一种文本信息生成装置,该装置包括:第一获取单元,被配置成获取目标文本和预先确定的预训练模型;第二获取单元,被配置成获取目标语料库,其中,目标语料库中的目标语料为目标文本和目标语句组成的数据对;第一生成单元,被配置成基于目标文本和目标语料库,生成目标输入特征;第二生成单元,被配置成将目标输入特征输入预先确定的预训练模型,生成结果文本;接收单元,被配置成接收用户输入的文本处理指令,其中,文本处理指令包括分类指令、生成指令;控制单元,被配置成将文本处理指令和结果文本推送至目标终端设备,其中,目标终端设备根据文本处理指令进行展示相关操作。
第三方面,本公开的一些实施例提供了一种终端设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的文本信息生成方法利用目标语料库生成目标文本对应的目标输入特征,将目标输入特征输入预训练模型以得到结果文本,减少生成结果文本所需的参数数量,节省计算资源,提高了文本信息生成速度。具体来说,发明人发现,造成目前文本信息生成效果较差的原因在于:现有技术提取文本信息时依赖于大规模的特定任务的标注语料库,且针对特定任务,需要根据标注语料库再次对语言模型进行参数训练,耗时长、计算资源需求量大,在标注语料库有限的情况下,文本信息生成的效果较差。基于此,首先,本公开的一些实施例获取目标文本和预先确定的预训练模型。其中,预先确定的预训练模型可以是用于文本信息生成的语言模型。其次,获取目标语料库,其中,目标语料库中的目标语料为目标文本和目标语句组成的数据对。目标语料库为特定任务的语料库。再次,基于目标文本和目标语料库,生成目标输入特征。根据目标语料库,生成满足特定任务的目标文本对应的目标输入特征。然后,将目标输入特征输入预先确定的预训练模型,生成结果文本。最后,将接收到的用户输入的文本处理指令和结果文本推送至目标终端设备。其中,目标终端设备根据文本处理指令进行展示相关操作。这种方法针对特定任务的目标语料库,生成目标文本对应的目标输入特征,能够快速根据特定任务生成有效的输入预训练模型的特征。无需重新训练整个预训练模型的参数,大大节省了计算资源,提高了文本生成的速度。在目标语料库较少的情况小,由于待训练的参数量很小,能够在小规模语料库的前提下提高文本生成的效果。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1是本公开的一些实施例可以应用于其中的示例性系统的架构图;
图2是根据本公开的文本信息生成方法的一些实施例的流程图;
图3是根据本公开的用于训练预先确定的生成模型的训练步骤的一个实施例的流程图;
图4是根据本公开的文本信息生成装置的一些实施例的流程图;
图5是适于用来实现本公开的一些实施例的终端设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的文本信息生成方法的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如信息处理应用、文本信息生成应用、数据分析应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种终端设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的终端设备中。其可以实现成多个软件或软件模块(例如用来提供目标文本和预先确定的预训练模型输入等),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103输入的目标文本和预先确定的预训练模型进行存储的服务器等。服务器可以对接收到的目标文本和预先确定的预训练模型进行处理,并将处理结果(例如结果文本)反馈给终端设备。
需要说明的是,本公开实施例所提供的文本信息生成方法可以由服务器105,也可以由终端设备执行。
需要指出的是,服务器105的本地也可以直接存储目标文本和预先确定的预训练模型,服务器105可以直接提取本地的目标文本和预先确定的预训练模型通过处理后得到结果文本,此时,示例性系统架构100可以不包括终端设备101、102、103和网络104。
还需要指出的是,终端设备101、102、103中也可以安装有文本信息生成应用,此时,处理方法也可以由终端设备101、102、103执行。此时,示例性系统架构100也可以不包括服务器105和网络104。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供文本信息生成服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的文本信息生成方法的一些实施例的流程200。该文本信息生成方法,包括以下步骤:
步骤201,获取目标文本和预先确定的预训练模型。
在一些实施例中,文本信息生成的执行主体(例如图1所示的服务器)获取目标文本和预先确定的预训练模型。其中,预先确定的预训练模型为语言模型。目标文本可以是病历文本,目标文本也可以是外语文本,目标文本还可以是新闻文本。具体的,预训练模型可以是已经用公开的大规模文本数据库训练好了的模型。预先确定的预训练模型可以是双向编码器表示((Bidirectional Encoder Representations from Transformers,BERT),预先确定的预训练模型也可以是第三代通用预训练转换器(General Pre-trainedTransformer-3,GPT-3),预先确定的预训练模型还可以是轻量级的BERT模型(A LITEBERT,Albert)。
步骤202,获取目标语料库。
在一些实施例中,上述执行主体获取目标语料库。其中,目标语料库中的目标语料为目标文本和目标语句组成的数据对。具体的,目标文本可以是“男性,45岁,诉头痛,头晕三天,无其它不适症状”。对应的目标语句可以是“头痛三天头晕三天”。具体的,将上述目标文本和目标语句组成的数据对确定为目标语料。目标语料可以是针对特定任务的语料。具体的,目标语料库可以是电子病历的语料库。
步骤203,基于目标文本和目标语料库,生成目标输入特征。
在一些实施例中,上述执行主体基于目标文本和目标语料库,生成目标输入特征。
可选的,在目标语料库中对目标文本进行比对查找。响应于查找到目标文本,将对应于目标文本的目标语料确定为任务语料。将目标文本和任务语料输入预先确定的生成模型。具体的,可以将目标文本和任务语料的任务文本输入到预先确定的生成模型,以得到目标文本特征和任务文本特征。具体的,目标文本特征和任务文本特征脱离文本空间领域中的约束,在向量空间中生成特征向量。具体的,预先确定的生成模型可以是用于文本特征向量生成的神经网络模型。具体的,预先确定的生成模型可以是长短期记忆网络(LongShort-Term Memory,LSTM),预先确定的生成模型也可以是前馈卷积神经网络(Feedforward Convolutional Neural Networks,FCNN),预先确定的生成模型还可以是变压器(Transformer)。具体的,可以拼接目标文本特征和任务文本特征以得到目标输入特征。具体的,可以将目标文本特征添加到任务语料的任务文本特征之前,也可以将目标文本特征添加到任务语料的任务文本特征之后,还可以将目标文本特征添加到任务语料的任务文本特征之前同时将目标文本特征添加到任务语料的任务文本特征之后。具体的,一个特定的任务场景对应于一个特定的目标输入特征。目标输入特征可用于后续生成结果文本的任务。固定任务场景就无需再次训练得到目标输入特征,从而简化了处理过程,大大缩短了处理时间。
步骤204,将目标输入特征输入预先确定的预训练模型,生成结果文本。
在一些实施例中,上述执行主体将目标输入特征输入预先确定的预训练模型,生成结果文本。具体的,将目标输入特征作为预训练模型的输入,将得到的输出确定为结果文本。具体的,根据目标输入特征的不同,预训练模型在参数完全不改变的情况下,可以输出任务特定的完全不同的结果文本。具体的,可以不对预训练模型进行参数调整和结构调整,无需额外特征,直接将目标输入特征输入预先确定的预训练模型,即可得到结果文本。预先确定的预训练模型可以是双向编码器表示((Bidirectional Encoder Representationsfrom Transformers,BERT),预先确定的预训练模型也可以是第三代通用预训练转换器(General Pre-trained Transformer-3,GPT-3),预先确定的预训练模型还可以是轻量级的BERT模型(A LITE BERT,ALBert)。具体的,不需要对预训练模型进行再次训练,即,可以直接沿用预训练模型中的全部参数,无需对预训练模型参数进行重新的训练,因此可以大大节省计算资源,提高结果文本输出的速度。
步骤205,接收用户输入的文本处理指令。
在一些实施例中,上述执行主体接收用户输入的文本处理指令。其中,文本处理指令包括分类指令、生成指令。具体的,分类指令可以表示利用结果文本完成文本分类任务。生成指令可以表示利用结果文本完成文本序列生成任务。
步骤206,将文本处理指令和结果文本推送至目标终端设备。
在一些实施例中,上述执行主体将文本处理指令和结果文本推送至目标终端设备。其中,目标终端设备根据文本处理指令进行展示相关操作。具体的,目标终端设备可以是与上述执行主体通信连接的设备,目标终端设备可以是“手机”,也可以是“电脑”。
可选的,响应于文本处理指令为分类指令,目标终端设备将结果文本输入预先确定的分类模型中,以得到分类结果。具体的,预先确定的分类模型可以是前馈神经网络(feed forward neural networks,FFN)。目标终端设备展示所述分类结果。
响应于文本处理指令为生成指令,目标终端设备将结果文本输入预先确定的文本模型中,以得到终末文本。具体的,预先确定的文本模型可以是长短期记忆网络(LongShort-Term Memory,LSTM)。目标终端设备展示终末文本。
图2给出的一个实施例具有如下有益效果:获取目标文本和预先确定的预训练模型;获取目标语料库,其中,目标语料库中的目标语料为目标文本和目标语句组成的数据对;基于目标文本和目标语料库,生成目标输入特征;将目标输入特征输入预先确定的预训练模型,生成结果文本;接收用户输入的文本处理指令;将文本处理指令和结果文本推送至目标终端设备,其中,目标终端设备根据文本处理指令进行展示相关操作。该实施方式利用目标语料库生成目标文本对应的目标输入特征,将目标输入特征输入预训练模型以得到结果文本,减少生成结果文本所需的参数数量,节省计算资源,提高了文本信息生成速度。
继续参考图3,示出了根据本公开的预先确定的生成模型的训练步骤的一个实施例的流程300。该训练步骤可以包括以下步骤:
步骤301,获取样本集。
在一些实施例中,该训练步骤的执行主体可以与文本信息生成方法的执行主体(例如图1所示的终端设备)相同或者不同。如果相同,则该训练步骤的执行主体可以在训练得到生成模型后将训练好的生成模型的模型结构信息和模型参数的参数值存储在本地。如果不同,则该训练步骤的执行主体可以在训练得到生成模型后将训练好的生成模型的模型结构信息和模型参数的参数值发送给文本信息生成方法的执行主体。
在一些实施例中,该训练步骤的执行主体可以本地或者远程地从与上述执行主体网络连接的其他终端设备获取样本集。其中,样本集中的样本包括样本目标文本、样本任务语料和对应于样本目标文本、样本任务语料的样本输出特征。
可选的,利用目标语料库生成样本集。将目标语料库中的目标文本的集合确定为样本任务语料集合。对于目标语料库中的每个目标语料,利用该目标语料的目标文本生成样本目标文本,以得到样本目标文本集合。具体的,可以将该目标语料的目标文本确定为样本目标文本。对于目标语料库中的每个目标语料,利用该目标语料的目标语句生成输出特征,以得到输出特征集合。具体的,可以利用文本特征生成模型将该目标语料的目标语句生成输出特征。将输出特征集合确定为样本输出特征集合。将样本目标文本集合、样本任务语料集合和输出特征集合的集合确定为样本集。
步骤302,确定初始生成模型的模型结构以及初始化初始生成模型的模型参数。
在一些实施例中,该训练步骤的执行主体可以首先确定初始生成模型的模型结构。可选的,初始生成模型可以包括第一数目个预先训练的神经网络。
然后,该训练步骤的执行主体可以初始化初始生成模型的模型参数。实践中,可以将初始生成模型的各个模型参数(例如,权值参数和偏置参数)用一些不同的小随机数进行初始化。“小随机数”用来保证生成模型不会因权值过大而进入饱和状态,从而导致训练失败,“不同”用来保证生成模型可以正常地学习。
步骤303,利用机器学习方法,将样本集中的样本包括的样本目标文本、样本任务语料作为初始生成模型的输入,将与输入的样本目标文本、样本任务语料对应的样本的输出特征作为初始生成模型的期望输出,训练得到生成模型。
在一些实施例中,该训练步骤的执行主体可以将用机器学习方法,将样本集中的样本包括的样本目标文本、样本任务语料作为初始生成模型的输入,将与输入的样本目标文本、样本任务语料对应的样本的输出特征作为初始生成模型的期望输出,训练得到生成模型。
具体,将选取的样本的样本目标文本、样本任务语料输入至初始生成模型,以得到选取的样本的输出特征。将选取的样本的输出特征与对应的样本输出特征进行比较。根据比较结果确定初始生成模型是否达到预设的优化目标。具体的,优化目标可以是小于预先确定的阈值,优化目标也可以是达到预先确定的迭代次数。响应于确定初始生成模型达到优化目标,将初始生成模型作为预先训练的生成模型。
响应于确定初始生成模型未训练完成,调整初始生成模型中的相关参数,以及从样本集中重新选取样本,使用调整后的初始生成模型作为初始生成模型,再次执行训练步骤。
图3给出的一个实施例具有如下有益效果:利用样本集训练生成模型,能够利用特定任务的目标语料库训练得到满足特定任务需求的生成模型,从而得到针对特定任务的目标文本的目标输入特征。该生成模型规模较小,所包含的参数量也较小,能够在目标语料库较小且训练时间较短的情况下获得较好的生成模型,从而高效的获取满足特定任务的适用于预训练模型的输入特征,从而提高文本信息生成的水平。
进一步参考图4,作为对上述各图上述方法的实现,本公开提供了一种文本信息生成装置的一些实施例,这些装置实施例与图2上述的那些方法实施例相对应,该装置具体可以应用于各种终端设备中。
如图4所示,一些实施例的文本信息生成装置400,装置包括:第一获取单元401、第二获取单元402、第一生成单元403、第二生成单元404、接收单元405和控制单元406。其中,第一获取单元401,被配置成获取目标文本和预先确定的预训练模型。第二获取单元402,被配置成获取目标语料库,其中,目标语料库中的目标语料为目标文本和目标语句组成的数据对。第一生成单元403,被配置成基于目标文本和目标语料库,生成目标输入特征。第二生成单元404,被配置成将目标输入特征输入预先确定的预训练模型,生成结果文本。接收单元405,被配置成接收用户输入的文本处理指令,其中,文本处理指令包括分类指令、生成指令。控制单元406,被配置成将文本处理指令和结果文本推送至目标终端设备,其中,目标终端设备根据文本处理指令进行展示相关操作。
可以理解的是,该装置400中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置400及其中包含的单元,在此不再赘述。
下面参考图5,其示出了适于用来实现本公开实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU,Central Processing Unit)501,其可以根据存储在只读存储器(ROM,Read Only Memory)502中的程序或者从存储部分506加载到随机访问存储器(RAM,Random Access Memory)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O,Input/Output)接口505也连接至总线504。
以下部件连接至I/O接口505:包括硬盘等的存储部分506;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分507。通信部分507经由诸如因特网的网络执行通信处理。驱动器508也根据需要连接至I/O接口505。可拆卸介质509,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器508上,以便于从其上读出的计算机程序根据需要被安装入存储部分506。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分507从网络上被下载和安装,和/或从可拆卸介质509被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本公开的方法中限定的上述功能。需要说明的是,本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种文本信息生成方法,包括:
获取目标文本和预先确定的预训练模型;
获取目标语料库,其中,所述目标语料库中的目标语料为目标文本和目标语句组成的数据对;
基于所述目标文本和所述目标语料库,生成目标输入特征;
将所述目标输入特征输入预先确定的预训练模型,生成结果文本;
接收用户输入的文本处理指令,其中,所述文本处理指令包括分类指令、生成指令;
将所述文本处理指令和所述结果文本推送至目标终端设备,其中,所述目标终端设备根据所述文本处理指令进行展示相关操作。
2.根据权利要求1所述的方法,其中,所述预先确定的预训练模型为语言模型。
3.根据权利要求2所述的方法,其中,所述基于所述目标文本和所述目标语料库,生成目标输入特征,包括:
在所述目标语料库中对所述目标文本进行比对查找;
响应于查找到所述目标文本,将对应于所述目标文本的目标语料确定为任务语料;
将所述目标文本和所述任务语料输入预先确定的生成模型,以得到所述目标输入特征。
4.根据权利要求3所述的方法,其中,所述预先训练的生成模型是通过如下步骤得到的:
利用所述目标语料库生成样本集,其中,所述样本集中的样本包括样本目标文本、样本任务语料和对应于所述样本目标文本、所述样本任务语料的样本输出特征;
确定初始生成模型的结构以及初始化所述初始生成模型的参数;
从所述样本集中选取样本,以及执行以下训练步骤:
将选取的样本的样本目标文本、样本任务语料输入至初始生成模型,得到所述选取的样本的输出特征;
将所述选取的样本的输出特征与对应的样本输出特征进行比较;
根据比较结果确定所述初始生成模型是否达到预设的优化目标;
响应于确定所述初始生成模型达到所述优化目标,将所述初始生成模型确定为预先训练的生成模型。
5.根据权利要求4所述的方法,其中,所述方法还包括:
响应于确定初始生成模型未训练完成,调整初始生成模型中的相关参数,以及从所述样本集中重新选取样本,使用调整后的初始生成模型作为初始生成模型,再次执行所述训练步骤。
6.根据权利要求5所述的方法,其中,所述利用所述目标语料库生成样本集,包括:
将所述目标语料库中的目标文本的集合确定为样本任务语料集合;
对于所述目标语料库中的每个目标语料,利用该目标语料的目标文本生成样本目标文本,以得到样本目标文本集合;
对于所述目标语料库中的每个目标语料,利用该目标语料的目标语句生成输出特征,以得到输出特征集合;
将所述输出特征集合确定为样本输出特征集合;
将所述样本目标文本集合、所述样本任务语料集合和所述输出特征集合的集合确定为所述样本集。
7.根据权利要求6所述的方法,其中,所述目标终端设备根据所述文本处理指令进行展示相关操作,包括:
响应于所述文本处理指令为分类指令,所述目标终端设备将所述结果文本输入预先确定的分类模型中,以得到分类结果;
所述目标终端设备展示所述分类结果。
8.根据权利要求7所述的方法,其中,所述目标终端设备根据所述处理指令进行展示相关操作,还包括:
响应于所述文本处理指令为生成指令,所述目标终端设备将所述结果文本输入预先确定的文本模型中,以得到终末文本;
所述目标终端设备展示所述终末文本。
9.一种文本信息生成装置,包括:
第一获取单元,被配置成获取目标文本和预先确定的预训练模型;
第二获取单元,被配置成获取目标语料库,其中,所述目标语料库中的目标语料为目标文本和目标语句组成的数据对;
第一生成单元,被配置成基于所述目标文本和所述目标语料库,生成目标输入特征;
第二生成单元,被配置成将所述目标输入特征输入预先确定的预训练模型,生成结果文本;
接收单元,被配置成接收用户输入的文本处理指令,其中,所述文本处理指令包括分类指令、生成指令;
控制单元,被配置成将所述文本处理指令和所述结果文本推送至目标终端设备,其中,所述目标终端设备根据所述文本处理指令进行展示相关操作。
10.一种终端设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110996630.9A CN113656573B (zh) | 2021-08-27 | 2021-08-27 | 文本信息生成方法、装置、终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110996630.9A CN113656573B (zh) | 2021-08-27 | 2021-08-27 | 文本信息生成方法、装置、终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656573A true CN113656573A (zh) | 2021-11-16 |
CN113656573B CN113656573B (zh) | 2024-02-06 |
Family
ID=78493100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110996630.9A Active CN113656573B (zh) | 2021-08-27 | 2021-08-27 | 文本信息生成方法、装置、终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656573B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489521A (zh) * | 2019-07-15 | 2019-11-22 | 北京三快在线科技有限公司 | 文本类别检测方法、装置、电子设备和计算机可读介质 |
CN111241789A (zh) * | 2020-01-14 | 2020-06-05 | 平安科技(深圳)有限公司 | 一种文本生成的方法及装置 |
CN112000805A (zh) * | 2020-08-24 | 2020-11-27 | 平安国际智慧城市科技股份有限公司 | 基于预训练模型的文本匹配方法、装置、终端及存储介质 |
CN112380331A (zh) * | 2020-11-16 | 2021-02-19 | 北京京东尚科信息技术有限公司 | 信息推送的方法和装置 |
CN112446190A (zh) * | 2019-08-16 | 2021-03-05 | 北京大数医达科技有限公司 | 生成风格转化文本的方法和装置 |
CN112633947A (zh) * | 2020-12-30 | 2021-04-09 | 北京有竹居网络技术有限公司 | 文本生成模型生成方法、文本生成方法、装置及设备 |
CN112836519A (zh) * | 2021-02-08 | 2021-05-25 | 网易(杭州)网络有限公司 | 文本生成模型的训练方法、文本生成方法及装置 |
CN112966712A (zh) * | 2021-02-01 | 2021-06-15 | 北京三快在线科技有限公司 | 语言模型训练方法、装置、电子设备和计算机可读介质 |
CN113220895A (zh) * | 2021-04-23 | 2021-08-06 | 北京大数医达科技有限公司 | 基于强化学习的信息处理方法、装置、终端设备 |
CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
-
2021
- 2021-08-27 CN CN202110996630.9A patent/CN113656573B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489521A (zh) * | 2019-07-15 | 2019-11-22 | 北京三快在线科技有限公司 | 文本类别检测方法、装置、电子设备和计算机可读介质 |
CN112446190A (zh) * | 2019-08-16 | 2021-03-05 | 北京大数医达科技有限公司 | 生成风格转化文本的方法和装置 |
CN111241789A (zh) * | 2020-01-14 | 2020-06-05 | 平安科技(深圳)有限公司 | 一种文本生成的方法及装置 |
CN112000805A (zh) * | 2020-08-24 | 2020-11-27 | 平安国际智慧城市科技股份有限公司 | 基于预训练模型的文本匹配方法、装置、终端及存储介质 |
CN112380331A (zh) * | 2020-11-16 | 2021-02-19 | 北京京东尚科信息技术有限公司 | 信息推送的方法和装置 |
CN112633947A (zh) * | 2020-12-30 | 2021-04-09 | 北京有竹居网络技术有限公司 | 文本生成模型生成方法、文本生成方法、装置及设备 |
CN112966712A (zh) * | 2021-02-01 | 2021-06-15 | 北京三快在线科技有限公司 | 语言模型训练方法、装置、电子设备和计算机可读介质 |
CN112836519A (zh) * | 2021-02-08 | 2021-05-25 | 网易(杭州)网络有限公司 | 文本生成模型的训练方法、文本生成方法及装置 |
CN113220895A (zh) * | 2021-04-23 | 2021-08-06 | 北京大数医达科技有限公司 | 基于强化学习的信息处理方法、装置、终端设备 |
CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
Non-Patent Citations (2)
Title |
---|
严佩敏;唐婉琪;: "基于改进BERT的中文文本分类", 工业控制计算机, no. 07, pages 111 - 113 * |
吴炎;王儒敬;: "基于BERT的语义匹配算法在问答系统中的应用", 仪表技术, no. 06, pages 23 - 26 * |
Also Published As
Publication number | Publication date |
---|---|
CN113656573B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273503B (zh) | 用于生成同语言平行文本的方法和装置 | |
US11775761B2 (en) | Method and apparatus for mining entity focus in text | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
CN112699991A (zh) | 用于加速神经网络训练的信息处理的方法、电子设备和计算机可读介质 | |
CN110046254B (zh) | 用于生成模型的方法和装置 | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
CN111104482A (zh) | 数据处理方法和装置 | |
CN109740167B (zh) | 用于生成信息的方法和装置 | |
CN109858045B (zh) | 机器翻译方法和装置 | |
CN109933217B (zh) | 用于推送语句的方法和装置 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN113434683B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN109190123B (zh) | 用于输出信息的方法和装置 | |
CN110738056B (zh) | 用于生成信息的方法和装置 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN113591490A (zh) | 信息处理方法、装置和电子设备 | |
CN113360660A (zh) | 文本类别识别方法、装置、电子设备和存储介质 | |
CN110688470B (zh) | 用于发送信息的方法和装置 | |
CN112633004A (zh) | 文本标点符号删除方法、装置、电子设备和存储介质 | |
CN112329429A (zh) | 文本相似度学习方法、装置、设备以及存储介质 | |
US20210004406A1 (en) | Method and apparatus for storing media files and for retrieving media files | |
CN112651231B (zh) | 口语信息处理方法、装置和电子设备 | |
CN113656573B (zh) | 文本信息生成方法、装置、终端设备 | |
CN111027332B (zh) | 生成翻译模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |