CN110276081B - 文本生成方法、装置及存储介质 - Google Patents

文本生成方法、装置及存储介质 Download PDF

Info

Publication number
CN110276081B
CN110276081B CN201910490193.6A CN201910490193A CN110276081B CN 110276081 B CN110276081 B CN 110276081B CN 201910490193 A CN201910490193 A CN 201910490193A CN 110276081 B CN110276081 B CN 110276081B
Authority
CN
China
Prior art keywords
text
data
sample
text generation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910490193.6A
Other languages
English (en)
Other versions
CN110276081A (zh
Inventor
刘家辰
肖欣延
佘俏俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910490193.6A priority Critical patent/CN110276081B/zh
Publication of CN110276081A publication Critical patent/CN110276081A/zh
Application granted granted Critical
Publication of CN110276081B publication Critical patent/CN110276081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种文本生成方法、装置及存储介质,该文本生成方法包括获取待处理的第一数据;根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。通过本发明能够在保障文本生成效果的同时,有效降低人力成本。

Description

文本生成方法、装置及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本生成方法、装置及存储介质。
背景技术
人工智能的自然语言处理技术领域中,文本生成是重要的应用方向,文本生成一般是指所有以文本为输出形式的人工智能算法,通常应用在包括机器翻译、自动对话的应用场景中,在执行该人工智能算法时,输入为结构化数据,输出为文本,文本生成的人工智能算法,能够解决机器和人类交互问题中机器如何表达信息的问题。
相关技术中,一般是采用模板法,或者是执行有监督神经网络序列生成算法进行文本生成。
这些方式下,需要海量的携带人工标注的语料训练得到模板或者执行序列生成算法,所耗费的人力成本较高,不能够兼顾人力成本和文本生成效果。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种文本生成方法、装置及存储介质,能够在保障文本生成效果的同时,有效降低人力成本。
为达到上述目的,本发明第一方面实施例提出的文本生成方法,包括:获取待处理的第一数据;根据目标文本生成模型,生成与所述第一数据对应的目标文本,所述目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。
本发明第一方面实施例提出的文本生成方法,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。
为达到上述目的,本发明第二方面实施例提出的文本生成装置,包括:第一获取模块,用于获取待处理的第一数据;生成模块,用于根据目标文本生成模型,生成与所述第一数据对应的目标文本,所述目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。
本发明第二方面实施例提出的文本生成装置,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。
为达到上述目的,本发明第三方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执行一种文本生成方法,所述方法包括:获取待处理的第一数据;根据目标文本生成模型,生成与所述第一数据对应的目标文本,所述目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。
本发明第三方面实施例提出的非临时性计算机可读存储介质,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。
为达到上述目的,本发明第四方面实施例提出的计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行一种文本生成方法,所述方法包括:获取待处理的第一数据;根据目标文本生成模型,生成与所述第一数据对应的目标文本,所述目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。
本发明第四方面实施例提出的计算机程序产品,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的文本生成方法的流程示意图;
图2是本发明另一实施例提出的文本生成方法的流程示意图;
图3为本发明实施例中获取样本文本的流程示意图;
图4为本发明实施例中建立预设降噪模型的流程示意图;
图5为本发明实施例中获取样本文本的流程示意图;
图6为本发明实施例中对偶训练过程示意图;
图7是本发明一实施例提出的文本生成装置的结构示意图;
图8是本发明另一实施例提出的文本生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
本发明实施例正是为了解决相关技术中需要海量的携带人工标注的语料训练得到模板或者执行序列生成算法,所耗费的人力成本较高,不能够兼顾人力成本和文本生成效果的技术问题,提供了一种文本生成方法,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。
本发明的文本生成方法可以具体应用于离线场景,即在终端本地应用。当然,可以理解的是,本发明的文本生成方法也可以应用在服务端,以实现在线文本生成。
本发明中涉及的终端可以是移动终端、车载终端、机载终端、桌面电脑等各种能够应用文本生成方法的终端。
图1是本发明一实施例提出的文本生成方法的流程示意图。
参见图1,该方法包括:
S101:获取待处理的第一数据。
其中,当前需要对其进行生成文本的数据,可以被称为第一数据。
第一数据可以是由用户输入的。
第一数据例如为,日期:3月30日;天气:晴;最低气温:2;最高气温:16。
在具体执行的过程中,该第一数据具体为结构化数据,结构化数据即一系列N元组(上述示例中是Key(键)-Value(值)二元组)。
本发明实施例中,针对第一数据进行文本生成,生成的文本用于描述和重现输入的第一数据,且,生成的文本为符合人类描述习惯的自然语言文本。
本发明实施例中,与第一数据对应的文本可以例如为,3月30日的天气晴好,气温变化范围是2~16,温差较大,对此不作限制。
S102:根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。
其中的平行语料为输入的结构化的数据,和输出的文本的组对。
平行语料例如,结构化的数据:日期:3月30日;天气:晴;最低气温:2;最高气温:16,对应输出的文本:3月30日的天气晴好,气温变化范围是2~16,温差较大,其中输出的文本不携带人工标注。
本发明实施例中,在训练得到目标文本生成模型时,是采用海量的不携带人工标注的平行语料执行训练步骤的,因此,能够有效保障文本生成精准度。
本发明实施例中的目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,正是由于采用不携带人工标注的平行语料训练得到目标文本生成模型,对待处理的第一数据处理以生成目标文本,减少了人工标注的步骤,因此降低了人力成本。
其中,获取不携带人工标注的平行语料的步骤,可以具体参见下述实施例。
在具体实现的过程中,可以预先采用不携带人工标注的平行语料对神经网络模型训练得到目标文本生成模型,其中,神经网络模型已学习得到输入的数据与输出的文本之间的映射关系。
当然,神经网络模型仅仅是实现基于人工智能的文本生成的一种可能的实现方式,在实际执行过程中,可以通过其他任意可能的方式来实现基于人工智能的文本生成,比如,还可以采用传统的编程技术(比如模拟法和工程学方法)实现,又比如,还可以遗传学算法和人工神经网络的方法来实现。
本实施例中,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。
图2是本发明另一实施例提出的文本生成方法的流程示意图。
参见图2,该方法包括:
S201:获取样本数据。
本发明实施例中,通过执行S201-S202的步骤,可以获取不携带人工标注的平行语料。
其中,用于训练文本生成模型以生成目标文本生成模型的结构化数据,可以被称为样本数据。
样本数据例如为,天气:晴。
本发明实施例中,可以将不携带人工标注的平行语料,简称为伪平行语料。
本发明实施例中,可以直接从样本数据库中读取得到样本数据,样本数据库中预先存储有海量的样本数据。
S202:获取与样本数据对应的样本文本,样本文本不携带人工标注,并将样本数据和对应的样本文本,作为不携带人工标注的平行语料。
相对于相关技术中,是采用海量的携带人工标注的平行语料训练文本生成模型,本发明实施例中,是直接获取与样本数据对应的样本文本,样本文本不携带人工标注,并将样本数据和对应的样本文本,作为不携带人工标注的平行语料,即伪平行语料训练文本生成模型。
一些实施例中,在获取与样本数据对应的样本文本时,可以根据样本数据,从预设语料库中检索得到与样本数据对应的样本文本,样本文本为多个,一个样本数据可以对应于一个样本文本,或者,一个样本数据也可以对应于多个样本文本。
其中的预设语料库中,可以是预先建立的,具体可以采用统计的方式建立预设语料库,也可以采用机器学习的方式建立预设语料库,对此不作限制。
可以理解的是,在将结构化数据生成文本的过程中,结构化的数据中很多取值会直接体现在对应的文本中,例如,数据中的“天气:晴”和文本中的“天气晴好”或“天气晴”或“今天是晴天”等,均有交叉。
因此,本发明实施例中,正是考虑到上述实际应用中的规律,可以利用搜索引擎技术,以数据中预期容易和文本有交叉的部分字段(例如,天、晴)作为检索词,从搜索引擎中检索出相应的文本,使得检索出的文本不携带人工标注,并根据检索词与对应检索出的文本建立预设语料库。
而后,在根据样本数据,从预设语料库中检索得到与样本数据对应的样本文本,可以根据样本数据中的部分字段作为检索词,从预设语料库中检索得到与部分字段对应的一个或者多个的文本并作为样本文本,将样本数据与对应的一个或者多个的文本作为伪平行语料。
具体的流程可以参见图3所示,图3为本发明实施例中获取样本文本的流程示意图,包括数据库31、预设语料库32,在获取样本文本时,可以从数据库31中读取海量的样本数据,而后,根据样本数据,从预设语料库32中检索得到样本文本,并将样本数据与对应的一个或者多个的样本文本作为伪平行语料。
另一些实施例中,在获取与样本数据对应的样本文本时,还可以根据样本数据,获取多个目标文本,各目标文本中携带噪声信号;采用预设降噪模型,对各目标文本进行降噪处理得到对应的样本文本。
其中的目标文本,为直接对样本数据展开得到的文本,例如,在样本数据为日期:3月30日;天气:晴;最低气温:2;最高气温:16,则可以直接对其进行展开拼接处理,得到日期3月30日,天气晴,最低气温2,最高气温16,该直接展开拼接处理得到的文本,即可以被称为目标文本。
由上述目标文本的示例可见,该文本的表达并不一定符合人类描述习惯,即该目标文本是携带噪声信号的,因此,本发明实施例中,还可以采用预设降噪模型,对各目标文本进行降噪处理得到对应的样本文本。
其中,可以降噪自编码器的训练方法训练得到预设降噪模型。
参见图4,图4为本发明实施例中建立预设降噪模型的流程示意图,预设降噪模型的建立过程可以举例如下:
1、从数据生成文本的“文本”一侧,收集大量语料,构建语料库41,该语料库41中的文本语料不携带人工标注,例如,对于天气预报场景,收集描述天气的语料即可。
2、对语料库41中的各文本随机加入随机噪声,随机噪声通常有三种:以一定概率丢弃随机的词;以一定概率交换文本中两个词的位置;以一定概率替换文本中的词为语料库41中的其它词。
3、加入噪声后的文本作为输入,加入噪声前的文本作为预期的输出,利用有监督神经网络序列算法,以“重建无噪声句子”为建模目标,即可训练得到预设降噪模型。
而后,本发明实施例中,可以采用图4中所建立的预设降噪模型,对各目标文本进行降噪处理得到对应的样本文本。参见图5,图5为本发明实施例中获取样本文本的流程示意图,包括:数据库51、预设降噪模型52,在获取样本文本时,可以从数据库31中读取海量的样本数据,而后,根据样本数据,获取多个目标文本,各目标文本中携带噪声信号,并采用预设降噪模型52,对各目标文本进行降噪处理得到对应的样本文本,以及将样本数据与对应的一个或者多个的文本作为伪平行语料。
本发明实施例中,正是通过上述根据样本数据,从预设语料库中检索得到与样本数据对应的样本文本,或者,根据样本数据,获取多个目标文本,各目标文本中携带噪声信号,采用预设降噪模型,对各目标文本进行降噪处理得到对应的样本文本,而不需要基于人工标注获得样本文本,因而,能够实现便捷,快速地获得不携带人工标注的平行语料,能够有效降低建模成本。
S203:根据不携带人工标注的平行语料,训练初始文本生成模型以及与初始文本生成模型对应的初始反模型。
其中,初始反模型,可以为对初始文本生成模型进行反向翻译得到的。
在具体执行的过程中,在根据不携带人工标注的平行语料,训练初始文本生成模型以及与初始文本生成模型对应的初始反模型时,可以根据样本数据和样本文本,训练初始反模型得到第一反模型,并根据第一反模型,确定与样本文本对应的数据并作为第二数据,以及根据第二数据和样本文本,训练初始文本生成模型。
本发明实施例中,可以将上述的训练过程称为对偶训练过程,可以执行上述对偶训练过程,直至初始文本生成模型和初始反模型满足收敛条件。
其中的文本生成模型可以例如为相关技术中在生成文本时,执行有监督神经网络序列生成算法时所采用的神经网络模型,初始文本生成模型为训练初始阶段的神经网络模型,该初始文本生成模型的输入为样本数据,输出为样本文本。
本发明实施例中与初始文本生成模型对应的初始反模型,初始反模型可以理解为初始文本生成模型对应的逆向的文本生成模型,初始文本生成模型的输入为样本数据,输出为样本文本,相对应地,初始反模型的输入为样本文本,输出为样本数据。
本发明实施例中,采用不携带人工标注的平行语料中的样本数据和样本文本,训练初始反模型得到的反模型,可以被称为第一反模型,且由于第一反模型是在初始反模型的基础上训练得到的,因此,第一反模型的运算精准度要高于第一反模型。
本发明实施例在训练初始反模型得到第一反模型之后,可以根据第一反模型,确定与样本文本对应的数据并作为第二数据,由于第一反模型的运算精准度高于第一反模型,因此,采用第一反模型结合样本文本,对应输出的数据一般与样本数据不相同,本发明实施例中,将根据第一反模型,确定的与样本文本对应的数据作为第二数据之后,可以持续地采用第二数据,和样本文本反向训练初始文本生成模型,以得到目标文本生成模型,通过上述的对偶训练过程,直至训练得到的文本生成模型和对应的反模型满足收敛条件,能够获得较好的文本生成效果。
作为一种示例,参见图6,图6为本发明实施例中对偶训练过程示意图,从数据库中采样得到样本数据,利用第N代数据->文本生成模型(其中,第第一代的数据->文本生成模型为初始文本生成模型,第一代的文本->数据生成模型为与初始文本生成模型对应的初始反模型),得到生成的样本文本,然后利用“生成的样本文本->样本数据”训练得到第N+1代文本->数据模型(第二代的文本->数据模型为第一反模型),同时,利用第N代文本->数据生成模型,得到生成的样本数据,然后利用“生成的样本数据->样本文本”训练得到第N+1代数据->文本模型,直至训练得到的文本生成模型和对应的反模型满足收敛条件。
S204:在确定满足收敛条件时,将训练后的初始文本生成模型作为目标文本生成模型。
本发明实施例中的收敛条件,可以参见相关技术中在生成文本时,执行有监督神经网络序列生成算法时训练神经网络模型的收敛条件,在此不再赘述。
S205:获取待处理的第一数据。
其中,当前需要对其进行生成文本的数据,可以被称为第一数据。
第一数据可以是由用户输入的。
第一数据例如为,日期:3月30日;天气:晴;最低气温:2;最高气温:16。
在具体执行的过程中,该第一数据具体为结构化数据,结构化数据即一系列N元组(上述示例中是Key(键)-Value(值)二元组)。
本发明实施例中,针对第一数据进行文本生成,生成的文本用于描述和重现输入的第一数据,且,生成的文本为符合人类描述习惯的自然语言文本。
本发明实施例中,与第一数据对应的文本可以例如为,3月30日的天气晴好,气温变化范围是2~16,温差较大,对此不作限制。
S206:根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。
本发明实施例中的目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,正是由于采用不携带人工标注的平行语料训练得到目标文本生成模型,对待处理的第一数据处理以生成目标文本,减少了人工标注的步骤,因此降低了人力成本。
在具体实现的过程中,可以预先采用不携带人工标注的平行语料对神经网络模型训练得到目标文本生成模型,其中,神经网络模型已学习得到输入的数据与输出的文本之间的映射关系。
当然,神经网络模型仅仅是实现基于人工智能的文本生成的一种可能的实现方式,在实际执行过程中,可以通过其他任意可能的方式来实现基于人工智能的文本生成,比如,还可以采用传统的编程技术(比如模拟法和工程学方法)实现,又比如,还可以遗传学算法和人工神经网络的方法来实现。
本实施例中,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。通过上述根据样本数据,从预设语料库中检索得到与样本数据对应的样本文本,或者,根据样本数据,获取多个目标文本,各目标文本中携带噪声信号,采用预设降噪模型,对各目标文本进行降噪处理得到对应的样本文本,而不需要基于人工标注获得样本文本,因而,能够实现便捷,快速地获得不携带人工标注的平行语料,能够有效降低建模成本。通过上述的对偶训练过程,直至训练得到的文本生成模型和对应的反模型满足收敛条件,能够获得较好的文本生成效果。
图7是本发明一实施例提出的文本生成装置的结构示意图。
参见图7,该装置700包括:
第一获取模块701,用于获取待处理的第一数据;
生成模块702,用于根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。
可选地,一些实施例中,参见图8,还包括:
第二获取模块703,用于获取样本数据;
第三获取模块704,用于获取与样本数据对应的样本文本,样本文本不携带人工标注,并将样本数据和对应的样本文本,作为不携带人工标注的平行语料;
训练模块705,用于根据不携带人工标注的平行语料,训练初始文本生成模型以及与初始文本生成模型对应的初始反模型,并在确定满足收敛条件时,将训练后的初始文本生成模型作为目标文本生成模型。
可选地,一些实施例中,训练模块705,具体用于:
根据样本数据和样本文本,训练初始反模型得到第一反模型,并根据第一反模型,确定与样本文本对应的数据并作为第二数据,以及根据第二数据和样本文本,训练初始文本生成模型。
可选地,一些实施例中,第三获取模块704,具体用于:
根据样本数据,从预设语料库中检索得到与样本数据对应的样本文本,样本文本为多个。
可选地,一些实施例中,第三获取模块704,具体用于:
将样本数据中的部分字段作为检索词;
根据检索词从预设语料库中检索得到对应的样本文本。
可选地,一些实施例中,第三获取模块704,具体用于:
根据样本数据,获取多个目标文本,各目标文本中携带噪声信号;
采用预设降噪模型,对各目标文本进行降噪处理得到对应的样本文本。
需要说明的是,前述图1-图6实施例中对文本生成方法实施例的解释说明也适用于该实施例的文本生成装置700,其实现原理类似,此处不再赘述。
上述文本生成装置700中各个模块的划分仅用于举例说明,在其它实施例中,可将文本生成装置按照需要划分为不同的模块,以完成上述文本生成装置的全部或部分功能。
本实施例中,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当存储介质中的指令由终端的处理器执行时,使得终端能够执行一种文本生成方法,方法包括:
获取待处理的第一数据;
根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。
本实施例中的非临时性计算机可读存储介质,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时,执行一种文本生成方法,方法包括:
获取待处理的第一数据;
根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的。
本实施例中的计算机程序产品,通过获取待处理的第一数据,并根据目标文本生成模型,生成与第一数据对应的目标文本,目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的,因此,能够在保障文本生成效果的同时,有效降低人力成本。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种文本生成方法,其特征在于,包括:
获取待处理的第一数据,所述第一数据为结构化数据;
根据目标文本生成模型,生成与所述第一数据对应的目标文本,所述目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的;所述获取待处理的第一数据之前,还包括:
获取样本数据;
根据所述样本数据,从预设语料库中检索得到与所述样本数据对应的样本文本,其中,所述样本文本为多个,所述样本文本不携带所述人工标注,并将所述样本数据和对应的样本文本,作为所述不携带人工标注的平行语料;
根据所述不携带人工标注的平行语料,训练初始文本生成模型以及与所述初始文本生成模型对应的初始反模型;
在确定满足收敛条件时,将训练后的初始文本生成模型作为所述目标文本生成模型。
2.如权利要求1所述的文本生成方法,其特征在于,所述根据所述不携带人工标注的平行语料,训练初始文本生成模型以及与所述初始文本生成模型对应的初始反模型,包括:
根据所述样本数据和所述样本文本,训练所述初始反模型得到第一反模型;
根据所述第一反模型,确定与所述样本文本对应的数据并作为第二数据;
根据所述第二数据和所述样本文本,训练所述初始文本生成模型。
3.如权利要求1所述的文本生成方法,其特征在于,所述根据所述样本数据,从预设语料库中检索得到与所述样本数据对应的样本文本,包括:
将所述样本数据中的部分字段作为检索词;
根据所述检索词从预设语料库中检索得到所述对应的样本文本。
4.如权利要求1所述的文本生成方法,其特征在于,所述获取与所述样本数据对应的样本文本,包括:
根据所述样本数据,获取多个目标文本,各所述目标文本中携带噪声信号;
采用预设降噪模型,对各所述目标文本进行降噪处理得到对应的所述样本文本。
5.一种文本生成装置,其特征在于,包括:
第一获取模块,用于获取待处理的第一数据,所述第一数据为结构化数据;
生成模块,用于根据目标文本生成模型,生成与所述第一数据对应的目标文本,所述目标文本生成模型,是预先采用不携带人工标注的平行语料训练得到的;
第二获取模块,用于获取样本数据;
第三获取模块,用于根据所述样本数据,从预设语料库中检索得到与所述样本数据对应的样本文本,所述样本文本为多个,所述样本文本不携带所述人工标注,并将所述样本数据和对应的样本文本,作为所述不携带人工标注的平行语料;
训练模块,用于根据所述不携带人工标注的平行语料,训练初始文本生成模型以及与所述初始文本生成模型对应的初始反模型,并在确定满足收敛条件时,将训练后的初始文本生成模型作为所述目标文本生成模型。
6.如权利要求5所述的文本生成装置,其特征在于,所述训练模块,具体用于:
根据所述样本数据和所述样本文本,训练所述初始反模型得到第一反模型,并根据所述第一反模型,确定与所述样本文本对应的数据并作为第二数据,以及根据所述第二数据和所述样本文本,训练所述初始文本生成模型。
7.如权利要求5所述的文本生成装置,其特征在于,所述第三获取模块,具体用于:
将所述样本数据中的部分字段作为检索词;
根据所述检索词从预设语料库中检索得到所述对应的样本文本。
8.如权利要求5所述的文本生成装置,其特征在于,所述第三获取模块,具体用于:
根据所述样本数据,获取多个目标文本,各所述目标文本中携带噪声信号;
采用预设降噪模型,对各所述目标文本进行降噪处理得到对应的所述样本文本。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的文本生成方法。
CN201910490193.6A 2019-06-06 2019-06-06 文本生成方法、装置及存储介质 Active CN110276081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910490193.6A CN110276081B (zh) 2019-06-06 2019-06-06 文本生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910490193.6A CN110276081B (zh) 2019-06-06 2019-06-06 文本生成方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110276081A CN110276081A (zh) 2019-09-24
CN110276081B true CN110276081B (zh) 2023-04-25

Family

ID=67961951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910490193.6A Active CN110276081B (zh) 2019-06-06 2019-06-06 文本生成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110276081B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581455B (zh) * 2020-04-28 2023-03-21 北京字节跳动网络技术有限公司 文本生成模型的生成方法、装置和电子设备
CN112633947B (zh) * 2020-12-30 2023-04-07 北京有竹居网络技术有限公司 文本生成模型生成方法、文本生成方法、装置及设备
CN115909354B (zh) * 2022-11-11 2023-11-10 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110057351A (ko) * 2009-11-24 2011-06-01 한국전자통신연구원 훈련 코퍼스의 정규화 장치 및 방법
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN108133705A (zh) * 2017-12-21 2018-06-08 儒安科技有限公司 基于对偶学习的语音识别与语音合成模型训练方法
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN108846124A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 训练方法、装置、计算机设备和可读存储介质
CN108874772A (zh) * 2018-05-25 2018-11-23 太原理工大学 一种多义词词向量消歧方法
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255755A1 (en) * 2006-05-01 2007-11-01 Yahoo! Inc. Video search engine using joint categorization of video clips and queries based on multiple modalities
US9728185B2 (en) * 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks
CN105244020B (zh) * 2015-09-24 2017-03-22 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN107578769B (zh) * 2016-07-04 2021-03-23 科大讯飞股份有限公司 语音数据标注方法和装置
CN108304442B (zh) * 2017-11-20 2021-08-31 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置及存储介质
CN108287911B (zh) * 2018-02-01 2020-04-24 浙江大学 一种基于约束化远程监督的关系抽取方法
CN108932226A (zh) * 2018-05-29 2018-12-04 华东师范大学 一种对无标点文本添加标点符号的方法
CN108804612B (zh) * 2018-05-30 2021-11-02 武汉烽火普天信息技术有限公司 一种基于对偶神经网络模型的文本情感分类方法
CN108959271B (zh) * 2018-08-10 2020-06-16 广州太平洋电脑信息咨询有限公司 描述文本生成方法、装置、计算机设备和可读存储介质
CN111368565B (zh) * 2018-09-05 2022-03-18 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN109635103B (zh) * 2018-12-17 2022-05-20 北京百度网讯科技有限公司 摘要生成方法和装置
CN109635150B (zh) * 2018-12-19 2021-07-02 腾讯科技(深圳)有限公司 文本生成方法、装置以及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110057351A (ko) * 2009-11-24 2011-06-01 한국전자통신연구원 훈련 코퍼스의 정규화 장치 및 방법
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN108133705A (zh) * 2017-12-21 2018-06-08 儒安科技有限公司 基于对偶学习的语音识别与语音合成模型训练方法
CN108874772A (zh) * 2018-05-25 2018-11-23 太原理工大学 一种多义词词向量消歧方法
CN108846124A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 训练方法、装置、计算机设备和可读存储介质
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法

Also Published As

Publication number Publication date
CN110276081A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN107193807B (zh) 基于人工智能的语言转换处理方法、装置及终端
CN110276081B (zh) 文本生成方法、装置及存储介质
CN106557563B (zh) 基于人工智能的查询语句推荐方法及装置
CN110188350B (zh) 文本一致性计算方法及装置
CN103678285A (zh) 机器翻译方法和机器翻译系统
CN109543165B (zh) 基于循环卷积注意力模型的文本生成方法及装置
CN104573099A (zh) 题目的搜索方法及装置
JP2022530447A (ja) ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器
CN108664464B (zh) 一种语义相关度的确定方法及确定装置
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN111401038B (zh) 文本处理方法、装置、电子设备及存储介质
CN113569018A (zh) 问答对挖掘方法及装置
CN110188327B (zh) 文本去口语化方法及装置
CN112241629A (zh) 结合rpa及ai的拼音标注文本生成方法及装置
CN111325002A (zh) 文本生成方法、装置、电子设备及存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
KR101839121B1 (ko) 사용자 질의 교정 시스템 및 방법
CN111062477B (zh) 一种数据处理方法、装置及存储介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN117501283A (zh) 文本到问答模型系统
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
US20230195723A1 (en) Estimation apparatus, learning apparatus, estimation method, learning method and program
CN113836296A (zh) 一种佛学问答摘要的生成方法、装置、设备及存储介质
CN114048296A (zh) 基于语义门的闲聊型多轮对话方法、系统、介质及设备
CN112101025B (zh) 拼音标注方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant