CN113656575A - 训练数据的生成方法、装置、电子设备及可读介质 - Google Patents

训练数据的生成方法、装置、电子设备及可读介质 Download PDF

Info

Publication number
CN113656575A
CN113656575A CN202110790482.5A CN202110790482A CN113656575A CN 113656575 A CN113656575 A CN 113656575A CN 202110790482 A CN202110790482 A CN 202110790482A CN 113656575 A CN113656575 A CN 113656575A
Authority
CN
China
Prior art keywords
text
texts
predicted
candidate
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110790482.5A
Other languages
English (en)
Other versions
CN113656575B (zh
Inventor
杨鹏
涂曼姝
龚能
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202110790482.5A priority Critical patent/CN113656575B/zh
Publication of CN113656575A publication Critical patent/CN113656575A/zh
Application granted granted Critical
Publication of CN113656575B publication Critical patent/CN113656575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明实施例提供了一种训练数据的生成方法、装置、电子设备及可读介质,所述方法包括:根据摘要生成模型对预测文本集进行处理,并确定预测文本集中各预测文本所对应的摘要评测值,接着从预测文本集中提取摘要评测值低的预测文本组成预定文本集,然后可以将该预定文本集与至少一个候选文本集进行文本相似度匹配,以从候选文本集中提取相似度满足预设条件的文本作为目标文本,并确定各目标文本对应的目标文本摘要,然后将目标文本与目标文本摘要作为针对摘要生成模型的训练数据,从而在提取了当前摘要生成模型预测结果较差的预定文本集后,可以将其与候选文本集进行匹配,实现文本的针对性筛选,提升训练数据的针对性。

Description

训练数据的生成方法、装置、电子设备及可读介质
技术领域
本发明涉及机器学习技术领域,特别是涉及一种训练数据的生成方法、一种训练数据的生成装置、一种电子设备以及一种计算机可读介质。
背景技术
随着文本信息的爆炸式增长,人们每天能接触到海量的文本信息,如新闻、会议记录、博客、聊天、报告、论文、微博等。因此,从文本信息提取重要的内容变得越来越重要,自动文本摘要这门可以使用户更快速、准确地获取信息的技术也因此应运而生。从文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(Automatic TextSummarization)则提供了一个高效的解决方案。
其中,用于生成摘要的模型往往采用的是以标题(也可以为文本的摘要)作为模型的输出,以正文作为模型的输入进行模型训练,从而得到对应的模型,然后利用该模型对文本进行文本摘要生成。对于需要进行文本摘要生成的文本,往往存在不同类型的文本,如纯文字文本、语音文本等文本信息。然而,在文本摘要生成过程中,模型在常规文本的处理上可以取得较好的预测效果,而对于特殊文本,则无法生成较好的摘要结果。
发明内容
本发明实施例是提供一种训练数据的生成方法、装置、电子设备以及计算机可读存储介质,以解决或部分解决相关技术中由于模型的通用性较低,导致所生成文本摘要的准确性低的问题。
本发明实施例公开了一种训练数据的生成方法,包括:
获取预测文本集以及摘要生成模型,所述预测文本集包括预测文本;
根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值;
将所述摘要评测值满足预设条件的预测文本组成预定文本集;
将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本;
确定所述目标文本对应的目标文本摘要,并将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据。
可选地,所述获取预测文本集,包括:
获取初始文本集,所述初始文本集包括若干初始文本,所述初始文本为对音频文件进行语音识别后生成的文本;
从所述初始文本集中提取至少不同的初始文本作为预测文本;
确定与所述预测文本对应的标准文本摘要;
将各所述预测文本以及对应的标准文本摘要作为预测文本集。
可选地,所述根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值,包括:
将各所述预测文本输入所述摘要生成模型,获得与所述预测文本对应的预测文本摘要;
将所述预测文本摘要与所述标准文本摘要进行相似度匹配,生成针对所述预测文本的摘要评测值。
可选地,所述将所述摘要评测值满足预设条件的预测文本组成预定文本集,包括:
将所述预测文本集中摘要评测值小于或等于第一预设阈值的预测文本组成预定文本集。
可选地,所述将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本,包括:
获取所述预定文本集的预定文本,以及所述候选文本集的候选文本;
对各所述预定文本进行向量化,获得预定文本向量;
对各所述候选文本进行向量化,获得候选文本向量;
将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度;
根据所述文本相似度从所述候选文本集中提取预设数量的候选文本,作为目标文本。
可选地,所述候选文本集至少包括所述预测文本集、初始文本集以及训练文本集,所述初始文本集包括初始文本,所述训练文本集包括训练文本,所述对各所述候选文本进行向量化,获得候选文本向量,包括:
获取所述训练文本集的集合状态;
若所述集合状态表征所述训练文本集为空集,则对各所述初始文本进行向量化获得初始文本向量,以及对各所述预测文本进行向量化获得预测文本向量;
若所述集合状态表征所述训练文本集为非空集,则对各所述初始文本进行向量化获得初始文本向量,对各所述预测文本进行向量化获得预测文本向量,以及对各所述训练文本进行向量化获得训练文本向量。
可选地,所述将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度,包括:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度。
可选地,所述将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度,包括:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度;
将所述训练文本向量与各所述预定文本的预定文本向量进行匹配,确定所述训练文本与各所述预定文本之间的第三相似度。
可选地,所述根据所述文本相似度从所述候选文本集中提取预设数量的候选文本,作为训练文本,包括:
将所述候选文本与各所述预定文本之间的文本相似度中,相似度值最高的作为所述候选文本的目标相似度;
按照所述候选文本的目标相似度由大到小的顺序,对所述候选文本进行排序,生成文本列表;
从所述文本列表中提取排序在前的TOP N篇候选文本作为目标文本。
可选地,所述对各所述预定文本进行向量化,获得预定文本向量,包括:
将各所述预定文本输入文本向量模型,获得各所述预定文本对应的预定文本向量;
其中,所述对各所述候选文本进行向量化,获得候选文本向量,包括:
将各所述候选文本输入文本向量模型,获得各所述候选文本对应的候选文本向量。
可选地,所述将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据,包括:
获取针对所述摘要生成模型的训练文本集;
将所述目标文本与所述目标文本摘要添加于所述训练文本集,作为针对所述摘要生成模型的训练数据。
可选地,还包括:
获取所述训练文本集中训练文本的数量;
若所述训练文本的数量小于第二预设阈值,则根据所述训练文本集对所述摘要生成模型进行模型训练,更新摘要生成模型,并返回获取预测文本集以及摘要生成模型的步骤,继续对训练数据进行提取;
若所述训练文本的数量大于或等于所述第二预设阈值,则停止所述训练文本集的训练数据收集。
本发明实施例还公开了一种训练数据的生成装置,包括:
数据获取模块,用于获取预测文本集以及摘要生成模型,所述预测文本集包括预测文本;
摘要评测值获取模块,用于根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值;
预定文本集确定模块,用于将所述摘要评测值满足预设条件的预测文本组成预定文本集;
训练文本提取模块,用于将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本;
训练数据生成模块,用于确定所述目标文本对应的目标文本摘要,并将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据。
可选地,所述数据获取模块包括:
初始文本集获取子模块,用于获取初始文本集,所述初始文本集包括若干初始文本,所述初始文本为对音频文件进行语音识别后生成的文本;
预测文本提取子模块,用于从所述初始文本集中提取至少不同的初始文本作为预测文本;
标准文本摘要确定子模块,用于确定与所述预测文本对应的标准文本摘要;
预测文本集确定子模块,用于将各所述预测文本以及对应的标准文本摘要作为预测文本集。
可选地,所述摘要评测值获取模块包括:
预测文本摘要获取子模块,用于将各所述预测文本输入所述摘要生成模型,获得与所述预测文本对应的预测文本摘要;
摘要评测值确定子模块,用于将所述预测文本摘要与所述标准文本摘要进行相似度匹配,生成针对所述预测文本的摘要评测值。
可选地,所述预定文本集确定模块具体用于:
将所述预测文本集中摘要评测值小于或等于第一预设阈值的预测文本组成预定文本集。
可选地,所述训练文本提取模块包括:
文本获取子模块,用于获取所述预定文本集的预定文本,以及所述候选文本集的候选文本;
预定文本向量获取子模块,用于对各所述预定文本进行向量化,获得预定文本向量;
候选文本向量获取子模块,用于对各所述候选文本进行向量化,获得候选文本向量;
文本相似度确定子模块,用于将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度;
目标文本提取子模块,用于根据所述文本相似度从所述候选文本集中提取预设数量的候选文本,作为目标文本。
可选地,所述候选文本集至少包括所述预测文本集、初始文本集以及训练文本集,所述初始文本集包括初始文本,所述候选文本向量获取子模块具体用于:
获取所述训练文本集的集合状态;
若所述集合状态表征所述训练文本集为空集,则对各所述初始文本进行向量化获得初始文本向量,以及对各所述预测文本进行向量化获得预测文本向量;
若所述集合状态表征所述训练文本集为非空集,则对各所述初始文本进行向量化获得初始文本向量,对各所述预测文本进行向量化获得预测文本向量,以及对各所述训练文本进行向量化获得训练文本向量。
可选地,所述候选文本向量获取子模块具体用于:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度。
可选地,所述候选文本向量获取子模块具体用于:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度;
将所述训练文本向量与各所述预定文本的预定文本向量进行匹配,确定所述训练文本与各所述预定文本之间的第三相似度。
可选地,所述目标文本提取子模块具体用于:
将所述候选文本与各所述预定文本之间的文本相似度中,相似度值最高的作为所述候选文本的目标相似度;
按照所述候选文本的目标相似度由大到小的顺序,对所述候选文本进行排序,生成文本列表;
从所述文本列表中提取排序在前的TOP N篇候选文本作为目标文本。
可选地,所述对各所述预定文本进行向量化,获得预定文本向量,包括:
将各所述预定文本输入文本向量模型,获得各所述预定文本对应的预定文本向量;
其中,所述对各所述候选文本进行向量化,获得候选文本向量,包括:
将各所述候选文本输入文本向量模型,获得各所述候选文本对应的候选文本向量。
可选地,所述训练数据生成模块包括:
训练文本集获取子模块,用于获取针对所述摘要生成模型的训练文本集;
训练数据生成子模块,用于将所述目标文本与所述目标文本摘要添加于所述训练文本集,作为针对所述摘要生成模型的训练数据。
可选地,还包括:
文本数量获取模块,用于获取所述训练文本集中训练文本的数量;
模型更新模块,用于若所述训练文本的数量小于第二预设阈值,则根据所述训练文本集对所述摘要生成模型进行模型训练,更新摘要生成模型,并返回获取预测文本集以及摘要生成模型的步骤,继续对训练数据进行提取;
数据处理模块,用于若所述训练文本的数量大于或等于所述第二预设阈值,则停止所述训练文本集的训练数据收集。
本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如上所述的方法。
本发明实施例还公开了一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如上所述的方法。
本发明实施例包括以下优点:
在本发明实施例中,在训练摘要生成模型的过程中,可以先根据摘要生成模型对预测文本集进行处理,并确定预测文本集中各预测文本所对应的摘要评测值,接着从预测文本集中提取摘要评测值低的预测文本组成预定文本集,然后可以将该预定文本集与至少一个候选文本集进行文本相似度匹配,以从候选文本集中提取相似度满足预设条件的文本作为目标文本,并确定各目标文本对应的目标文本摘要,然后将目标文本与目标文本摘要作为针对摘要生成模型的训练数据,从而在提取了当前摘要生成模型预测结果较差的预定文本集后,可以将其与候选文本集进行匹配,实现文本的针对性筛选,提升训练数据的针对性,进而使得根据该训练数据训练的模型可以提高模型在“困难文本”的表现效果,大大提高了模型的通用性与预测准确性。
附图说明
图1是本发明实施例中提供的一种训练数据的生成方法的步骤流程图;
图2是本发明实施例中提供的一种训练数据的生成装置的结构框图;
图3是本发明实施例中提供的一种电子设备的框图;
图4是本发明实施例中提供的一种计算机可读介质的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
作为一种示例,自动文本摘要可以对文档信息进行有效地压缩提炼,帮助用户从海量信息中检索出所需的相关信息,避免用户通过搜索引擎来搜索可能产生过多冗余片面信息的问题,或减少了用户对大量文档信息进行阅读的问题,有效地解决了信息过载的问题。
对于文本摘要的生成过程,可以通过将对应的文本输入摘要生成模型,得到对应的文本摘要。对于摘要生成模型,其往往是将纯文本作为输入,将文本所对应的文本摘要作为输出训练模型,在这种情况下,摘要生成模型可以适用于各种类型的纯文字文本。然而,对于摘要生成模型,其往往只能在常规文本上取得较好的摘要结果,而对于“困难文本”则无法取得较好的摘要结果。其中,“困难文本”可以为摘要生成模型预测结果较差的文本,对于这类文本,摘要生成模型无法生成较为准确的文本摘要。因此,需要一种提高摘要生成模型通用性,以及文本摘要生成准确性的方式。
对此,本发明实施例的发明点之一在于通过对训练数据进行处理,针对性地筛选出“困难”文本数据,以便根据“困难”文本数据对摘要生成模型进行训练,提高摘要生成模型在“困难文本”上的表现效果。具体的,在训练摘要生成模型的过程中,可以先根据当前的摘要生成模型对预测文本集进行处理,并确定预测文本集中各预测文本所对应的摘要评测值,接着从预测文本集中提取摘要评测值低的预测文本组成预定文本集,然后可以将该预定文本集与至少一个候选文本集进行文本相似度匹配,以从候选文本集中提取相似度满足预设条件的文本作为目标文本,并确定各目标文本对应的目标文本摘要,然后将目标文本与目标文本摘要作为针对摘要生成模型的训练数据,从而在提取了当前摘要生成模型预测结果较差的预定文本集后,可以将其与候选文本集进行匹配,实现文本的针对性筛选,提升训练数据的针对性,进而使得根据该训练数据训练的模型可以提高模型在困难文本的表现效果,大大提高了模型的通用性与预测准确性。
需要说明的是,本发明实施例中涉及多个文本集,以及多种文本,下面对各个技术名词进行解释说明:
文本,其可以为需要进行新闻、会议纪要、播客、聊天记录、报告、论文等等,通过将其输入摘要生成模型可以得到对应的文本摘要。
预测文本集,其可以为用于对当前的摘要生成模型进行效果检验的文本集合,预测文本集可以包括若干篇预测文本,以及各预测文本所对应的标准文本摘要。其中,标准文本摘要可以为人工对预测文本进行标注的文本摘要。
预定文本集,其可以为摘要生成模型对预测文本集中的预测文本进行摘要生成后,表现效果较差的预测文本,例如,可以将摘要生成模型生成的预测文本摘要与预测文本所对应的标准文本摘要进行比对,实现预测结果的评价,然后选择预测结果较差的文本作为预定文本,即差文本。
初始文本集,其可以为包括对不同音频文件进行语音识别得到的文本,初始文本集中可以包括大量不同的初始文本,例如,对录音笔文章进行语音识别得到的文本。在本发明中,初始文本集可以为预测文本集的基础文本集合,即预测文本集中的预测文本可以从初始文本集中进行提取。需要说明的是,在本发明中,以初始文本集中的文本为对不同音频文本进行语音识别得到的音频文本为例进行示例性说明,可以理解的是,还可以为其他类型的文本,本发明对此不作限制。
训练文本集,其可以包括用于对摘要生成模型进行模型训练的训练文本,以及各训练文本所对应的训练文本摘要。其中,训练文本集在初始时可以为空集,通过本发明的技术方案所提取的训练数据可以添加至训练文本集以对摘要生成模型进行模型训练;并且,训练文本集中训练文本摘要可以为人工对训练文本进行标注的文本摘要。
具体的,参照图1,示出了本发明实施例中提供的一种训练数据的生成方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取预测文本集以及摘要生成模型,所述预测文本集包括预测文本;
在具体实现中,对于初始文本集,其可以包括大量的初始文本,则可以从初始文本集中提取至少不同的初始文本作为预测文本,接着确定与预测文本对应的标准文本摘要,然后将各预测文本以及对应的标准文本摘要作为预测文本集,从而通过该预测文本集可以对当前的摘要生成模型的模型表现效果进行验证,以便根据模型的预测结果,筛选出模型表现结果较差的文本,针对性地筛选标注数据,提升训练数据的丰富度。
可选地,对于预测文本集,其可以为从初始文本集中人工筛选出的N篇覆盖不同场景、不同领域的初始文本,将其作为预测文本,接着可以对这N篇预测文本人工标注摘要,从而得到各预测文本所对应的标准文本摘要。
步骤102,根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值;
在具体实现中,可以将各预测文本输入当前的摘要生成模型,获得与各预测文本对应的预测文本摘要,然后将预测文本摘要与预测文本集中的标准文本摘要进行相似度匹配,生成针对各预测文本的摘要评测值,从而通过摘要评测值可以对摘要生成模型的模型表现效果进行评价。
在一种示例中,摘要评测值可以为用于评价摘要质量的指标Rouge,Rouge值越高,表示所生成的文本摘要越好。具体的,Rouge可以基于文本摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法,其基本思想为由多个专家分别对预测文本进行标注得到标准文本摘要,将摘要生成模型生成的预测文本摘要与人工生成的标准文本摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量(即得到摘要生成模型对预测文本进行预测所得的预测文本摘要的摘要评测值),从而通过与专家人工标注的标准文本摘要进行对比,对摘要生成模型的预测结果进行分类,以在后续过程中,将预测结果较差的预测文本作为需要处理的文本,进而针对性地筛选标注数据,提升训练数据的丰富度。
步骤103,将所述摘要评测值满足预设条件的预测文本组成预定文本集;
在具体实现中,通过将同一预测文本的预测文本摘要与标准文本摘要进行比对得到摘要评测值之后,可以将该摘要评测值与第一预设阈值进行比对,第一预设阈值可以为用于筛选文本摘要预测结果较差的预测文本的阈值。若摘要评测值小于或等于第一预设阈值,则可以判定为该摘要生成结果较差,将对应的预测文本作为预定文本,添加于预定文本集;若摘要评测值大于第一预设阈值,可以判定为该摘要生成结果符合条件,不做任何处理,从而通过从预测文本集中提取出摘要生成模型预测结果较差的预测文本,组成对应的预定文本集,以通过该预定文本集进一步筛选出对应的训练数据。
步骤104,将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本;
在本发明实施例中,可以将预定文本集中的预定文本作为训练数据生成过程中的“标准数据”,通过该“标准数据”从至少一个候选文本集中筛选出满足条件的文本作为目标文本,以便得到对应的训练数据。
在具体实现中,可以先获取预定文本集的预定文本,以及候选文本集的候选文本,接着分别对各预定文本进行向量化,获得预定文本向量,对各候选文本进行向量化,获得候选文本向量,然后将候选文本的候选文本向量与各预定文本的预定文本向量进行匹配,确定候选文本与各预定文本之间的文本相似度,再根据文本相似度从候选文本集中提取预设数量的候选文本,作为目标文本。
其中,在确定了候选文本与预定文本集中每一个预定文本之间的文本相似度后,可以将候选文本与各预定文本之间的文本相似度中,相似度值最高的作为候选文本的目标相似度,接着按照候选文本的目标相似度由大到小的顺序,对候选文本进行排序,生成文本列表,然后从文本列表中提取排序在前的TOP N篇候选文本作为目标文本。
需要说明的是,对于文本相似度的确定,可以将候选文本与各个预定文本之间的文本相似度中,相似度值最高的作为单个候选文本与整一个预定文本集中各预定文本之间的最终相似度(即目标相似度),使得每一个候选文本只对应一个最终的相似度,从而有利于后续进行文本的筛选。将候选文本集中每一个候选文本与对应的文本相似度组成文本列表,并按照文本相似度由大到小的顺序,对文本列表中的候选文本进行排序,再从文本列表中提取排序在前的若干数量的候选文本作为目标文本,如提取前200篇候选文本作为目标文本等,从而在提取了当前摘要生成模型预测结果较差的预定文本集后,可以将其与候选文本集进行匹配,实现文本的针对性筛选,提升训练数据的针对性,进而使得根据该训练数据训练的模型可以提高模型在困难文本的表现效果,大大提高了模型的通用性与预测准确性。
例如,假设候选文本集包括候选文本A、候选文本B以及候选文本C等,预定文本集中包括预定文本a、预定文本b以及预定文本c等,则对于候选文本A的相似度值可以包括:与预定文本a的相似度值S1、预定文本b的相似度值S2以及预定文本c的相似度值S3;对于候选文本B的相似度值可以包括:与预定文本a的相似度值S4、预定文本b的相似度值S5以及预定文本c的相似度值S6;对于候选文本C的相似度值可以包括:与预定文本a的相似度值S7、预定文本b的相似度值S8以及预定文本c的相似度值S9,针对候选文本A,选择S1、S2以及S3中的最大值作为候选文本A与预定文本集的目标相似度,候选文本B、C同理,在此不再赘述。
在一种可选实施例中,对于文本的向量化,可以先根据初始文本集中的初始文本训练一个文本向量模型,通过该文本向量模型可以将文本转换为对应的向量。例如,可以使用初始文本集中全部的初始文本训练一个LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型,训练过程中可以使用SKLearn(Scikit-learn)工具包,设定Topic数目为100,最大迭代次数为64,利用主题模型的特征提取层,训练得到对应的文本向量模型,以便将文本映射为文本向量,进而通过文本向量对两篇文本进行文本相似度的匹配。
在得到文本向量模型后,可以将各预定文本输入文本向量模型,获得各预定文本对应的预定文本向量;将各候选文本输入文本向量模型,获得各候选文本对应的候选文本向量。
其中,候选文本集可以包括初始文本集、预测文本集以及训练文本集,则在进行文本相似度的匹配过程中,需要先根据训练文本集的集合状态,判断是否需要对训练文本集中的训练文本进行文本相似度匹配,若集合状态表征训练文本集为空集,表示当前训练文本集中暂时没有任何训练文本,则对各初始文本进行向量化获得初始文本向量,以及对各预测文本进行向量化获得预测文本向量,然后将初始文本向量与各预定文本的预定文本向量进行匹配,确定初始文本与各预定文本之间的第一相似度,以及将预测文本向量与各预定文本的预定文本向量进行匹配,确定预测文本与各预定文本之间的第二相似度。
若集合状态表征训练文本集为非空集,表示训练文本集中已经存在一定数量的训练文本,为了提高训练数据的丰富度,则对各初始文本进行向量化获得初始文本向量,对各预测文本进行向量化获得预测文本向量,以及对各训练文本进行向量化获得训练文本向量,接着分别将初始文本向量与各预定文本的预定文本向量进行匹配,确定初始文本与各预定文本之间的第一相似度,将预测文本向量与各预定文本的预定文本向量进行匹配,确定预测文本与各预定文本之间的第二相似度,以及将训练文本向量与各预定文本的预定文本向量进行匹配,确定训练文本与各预定文本之间的第三相似度。
针对每一个初始文本与各预定文本的第一相似度,可以其最高值作为该初始文本与预定文本集的目标相似度,对于预测文本以及训练文本,其过程相同,在此不再赘述。当确定了所有初始文本、预测文本以及训练文本所对应的目标相似度后,可以将所有这些候选文本按照相似度值由大到小的顺序进行排序,组成文本列表,然后提取TopN的文本作为训练文本,从而在提取了当前摘要生成模型预测结果较差的预定文本集后,可以将其与候选文本集进行匹配,实现文本的针对性筛选,提升训练数据的针对性,进而使得根据该训练数据训练的模型可以提高模型在困难文本的表现效果,大大提高了模型的通用性与预测准确性。
在一种示例中,假设初始文本集为C,预测文本集为T,训练文本集为Q,预定文本集为D,其中,预定文本集中可以包括N篇预定文本;Ci表示初始文本集中第i个初始文本,Tj表示预测文本集中第j个预测文本,Qk表示训练文本集中第k个训练文本,Dl表示预定文本集中第l个预定文本;LDA(Ci)表示初始文本对应的初始文本向量,LDA(Tj)表示预测文本对应的预测文本向量,LDA(Qk)表示训练文本对应的训练文本向量,LDA(Dl)表示预定文本对应的预定文本向量;Si表示初始文本与预定文本集的相似度,Sj表示预测文本与预定文本集的相似度,Sk表示训练文本与预定文本集的相似度。则对于初始文本集中各个初始文本与预定文本集的相似度Si可以如下公式(1)进行确定:
Figure BDA0003160667430000151
对于预测文本集中各个预测文本与预定文本集的相似度Sj可以如下公式(2)进行确定:
Figure BDA0003160667430000152
对于训练文本集中各个训练文本与预定文本集的相似度Sk可以如下公式(2)进行确定:
Figure BDA0003160667430000153
通过上述方式确定了各个候选文本(初始文本、预测文本以及训练文本)与预定文本集的相似度后,可以按照相似度由大至小的顺序进行排序,生成文本列表,接着从中提取前K篇候选文本作为目标文本,从而在提取了当前摘要生成模型预测结果较差的预定文本集后,可以将其与候选文本集进行匹配,实现文本的针对性筛选,提升训练数据的针对性,进而使得根据该训练数据训练的模型可以提高模型在困难文本的表现效果,大大提高了模型的通用性与预测准确性。
步骤105,确定所述目标文本对应的目标文本摘要,并将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据。
通过计算候选文本与预定文本之间的相似度,提取目标文本,提取了针对性的目标文本后,可以对目标文本进行人工标注,得到每一目标文本所对应的目标文本摘要,然后可以将目标文本与目标文本摘要添加于训练文本集,作为针对摘要生成模型的训练数据,从而通过对训练数据进行处理,实现针对性地数据筛选,提升了训练数据的丰富度,进而通过该训练数据对摘要生成模型进行训练后,可以提升摘要生成模型在困难文本的表现效果,保证摘要生成模型的通用性以及预测的准确性。
可选地,对于目标文本的摘要标注,在通过人工对每一个目标文本进行标注之后,可以对目标文本摘要进行质检,具体的,可以通过人工判断所标注的文本摘要是否通顺、无语病、信息完整等,并在质检完毕,将目标文本以及对应的目标文本摘要添加至训练文本集,作为训练数据。
此外,在训练摘要生成模型的训练过程中,为了保证训练文本集中有足够的训练数据,可以在完成一轮目标文本的提取后,获取训练文本集中训练文本的数量,若训练文本的数量小于第二预设阈值(如3000、5000等),则根据训练文本集对当前的摘要生成模型进行模型训练,更新摘要生成模型,并返回获取预测文本集的步骤,重新获取新的预测文本集,并根据新的预测文本集以及新的摘要生成模型进行训练数据的提取,直至训练文本集中的训练文本的数量满足第二预设阈值,停止训练数据的收集;若训练文本的数量大于或等于第二预设阈值,则停止训练文本集的训练数据收集,从而在训练数据的提取过程中,通过设置迭代条件,循环对训练数据进行针对性地提取,在保证训练数据量的同时,通过不断更新的训练数据对摘要生成模型进行更新,不仅可以实现训练数据的更新,也可以实现模型的更新,使得所收集的训练数据的针对性上均显著提高,有效提高了根据该训练数据训练得到的摘要生成模型的通用性与预测准确性。
需要说明的是,本发明实施例包括但不限于上述示例,可以理解的是,在本发明实施例的思想指导下,本领域技术人员还可以根据实际需求进行设置,本发明对此不作限制。
在本发明实施例中,在训练摘要生成模型的过程中,可以先根据摘要生成模型对预测文本集进行处理,并确定预测文本集中各预测文本所对应的摘要评测值,接着从预测文本集中提取摘要评测值低的预测文本组成预定文本集,然后可以将该预定文本集与至少一个候选文本集进行文本相似度匹配,以从候选文本集中提取相似度满足预设条件的文本作为目标文本,并确定各目标文本对应的目标文本摘要,然后将目标文本与目标文本摘要作为针对摘要生成模型的训练数据,从而在提取了当前摘要生成模型预测结果较差的预定文本集后,可以将其与候选文本集进行匹配,实现文本的针对性筛选,提升训练数据的针对性,进而使得根据该训练数据训练的模型可以提高模型在困难文本的表现效果,大大提高了模型的通用性与预测准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明实施例中提供的一种训练数据的生成装置的结构框图,具体可以包括如下模块:
数据获取模块201,用于获取预测文本集以及摘要生成模型,所述预测文本集包括预测文本;
摘要评测值获取模块202,用于根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值;
预定文本集确定模块203,用于将所述摘要评测值满足预设条件的预测文本组成预定文本集;
训练文本提取模块204,用于将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本;
训练数据生成模块205,用于确定所述目标文本对应的目标文本摘要,并将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据。
在本发明的一种可选实施例中,所述数据获取模块201包括:
初始文本集获取子模块,用于获取初始文本集,所述初始文本集包括若干初始文本,所述初始文本为对音频文件进行语音识别后生成的文本;
预测文本提取子模块,用于从所述初始文本集中提取至少不同的初始文本作为预测文本;
标准文本摘要确定子模块,用于确定与所述预测文本对应的标准文本摘要;
预测文本集确定子模块,用于将各所述预测文本以及对应的标准文本摘要作为预测文本集。
在本发明的一种可选实施例中,所述摘要评测值获取模块202包括:
预测文本摘要获取子模块,用于将各所述预测文本输入所述摘要生成模型,获得与所述预测文本对应的预测文本摘要;
摘要评测值确定子模块,用于将所述预测文本摘要与所述标准文本摘要进行相似度匹配,生成针对所述预测文本的摘要评测值。
在本发明的一种可选实施例中,所述预定文本集确定模块203具体用于:
将所述预测文本集中摘要评测值小于或等于第一预设阈值的预测文本组成预定文本集。
在本发明的一种可选实施例中,所述训练文本提取模块204包括:
文本获取子模块,用于获取所述预定文本集的预定文本,以及所述候选文本集的候选文本;
预定文本向量获取子模块,用于对各所述预定文本进行向量化,获得预定文本向量;
候选文本向量获取子模块,用于对各所述候选文本进行向量化,获得候选文本向量;
文本相似度确定子模块,用于将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度;
目标文本提取子模块,用于根据所述文本相似度从所述候选文本集中提取预设数量的候选文本,作为目标文本。
在本发明的一种可选实施例中,所述候选文本集至少包括所述预测文本集、初始文本集以及训练文本集,所述初始文本集包括初始文本,所述候选文本向量获取子模块具体用于:
获取所述训练文本集的集合状态;
若所述集合状态表征所述训练文本集为空集,则对各所述初始文本进行向量化获得初始文本向量,以及对各所述预测文本进行向量化获得预测文本向量;
若所述集合状态表征所述训练文本集为非空集,则对各所述初始文本进行向量化获得初始文本向量,对各所述预测文本进行向量化获得预测文本向量,以及对各所述训练文本进行向量化获得训练文本向量。
在本发明的一种可选实施例中,所述候选文本向量获取子模块具体用于:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度。
在本发明的一种可选实施例中,所述候选文本向量获取子模块具体用于:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度;
将所述训练文本向量与各所述预定文本的预定文本向量进行匹配,确定所述训练文本与各所述预定文本之间的第三相似度。
在本发明的一种可选实施例中,所述目标文本提取子模块具体用于:
将所述候选文本与各所述预定文本之间的文本相似度中,相似度值最高的作为所述候选文本的目标相似度;
按照所述候选文本的目标相似度由大到小的顺序,对所述候选文本进行排序,生成文本列表;
从所述文本列表中提取排序在前的TOP N篇候选文本作为目标文本。
在本发明的一种可选实施例中,所述对各所述预定文本进行向量化,获得预定文本向量,包括:
将各所述预定文本输入文本向量模型,获得各所述预定文本对应的预定文本向量;
其中,所述对各所述候选文本进行向量化,获得候选文本向量,包括:
将各所述候选文本输入文本向量模型,获得各所述候选文本对应的候选文本向量。
在本发明的一种可选实施例中,所述训练数据生成模块205包括:
训练文本集获取子模块,用于获取针对所述摘要生成模型的训练文本集;
训练数据生成子模块,用于将所述目标文本与所述目标文本摘要添加于所述训练文本集,作为针对所述摘要生成模型的训练数据。
在本发明的一种可选实施例中,还包括:
文本数量获取模块,用于获取所述训练文本集中训练文本的数量;
模型更新模块,用于若所述训练文本的数量小于第二预设阈值,则根据所述训练文本集对所述摘要生成模型进行模型训练,更新摘要生成模型,并返回获取预测文本集以及摘要生成模型的步骤,继续对训练数据进行提取;
数据处理模块,用于若所述训练文本的数量大于或等于所述第二预设阈值,则停止所述训练文本集的训练数据收集。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,本发明实施例还提供一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
获取预测文本集以及摘要生成模型,所述预测文本集包括预测文本;
根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值;
将所述摘要评测值满足预设条件的预测文本组成预定文本集;
将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本;
确定所述目标文本对应的目标文本摘要,并将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据。
在本发明的一种可选实施例中,所述获取预测文本集,包括:
获取初始文本集,所述初始文本集包括若干初始文本,所述初始文本为对音频文件进行语音识别后生成的文本;
从所述初始文本集中提取至少不同的初始文本作为预测文本;
确定与所述预测文本对应的标准文本摘要;
将各所述预测文本以及对应的标准文本摘要作为预测文本集。
在本发明的一种可选实施例中,所述根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值,包括:
将各所述预测文本输入所述摘要生成模型,获得与所述预测文本对应的预测文本摘要;
将所述预测文本摘要与所述标准文本摘要进行相似度匹配,生成针对所述预测文本的摘要评测值。
在本发明的一种可选实施例中,所述将所述摘要评测值满足预设条件的预测文本组成预定文本集,包括:
将所述预测文本集中摘要评测值小于或等于第一预设阈值的预测文本组成预定文本集。
在本发明的一种可选实施例中,所述将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本,包括:
获取所述预定文本集的预定文本,以及所述候选文本集的候选文本;
对各所述预定文本进行向量化,获得预定文本向量;
对各所述候选文本进行向量化,获得候选文本向量;
将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度;
根据所述文本相似度从所述候选文本集中提取预设数量的候选文本,作为目标文本。
在本发明的一种可选实施例中,所述候选文本集至少包括所述预测文本集、初始文本集以及训练文本集,所述初始文本集包括初始文本,所述训练文本集包括训练文本,所述对各所述候选文本进行向量化,获得候选文本向量,包括:
获取所述训练文本集的集合状态;
若所述集合状态表征所述训练文本集为空集,则对各所述初始文本进行向量化获得初始文本向量,以及对各所述预测文本进行向量化获得预测文本向量;
若所述集合状态表征所述训练文本集为非空集,则对各所述初始文本进行向量化获得初始文本向量,对各所述预测文本进行向量化获得预测文本向量,以及对各所述训练文本进行向量化获得训练文本向量。
在本发明的一种可选实施例中,所述将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度,包括:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度。
在本发明的一种可选实施例中,所述将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度,包括:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度;
将所述训练文本向量与各所述预定文本的预定文本向量进行匹配,确定所述训练文本与各所述预定文本之间的第三相似度。
在本发明的一种可选实施例中,所述根据所述文本相似度从所述候选文本集中提取预设数量的候选文本,作为训练文本,包括:
将所述候选文本与各所述预定文本之间的文本相似度中,相似度值最高的作为所述候选文本的目标相似度;
按照所述候选文本的目标相似度由大到小的顺序,对所述候选文本进行排序,生成文本列表;
从所述文本列表中提取排序在前的TOP N篇候选文本作为目标文本。
在本发明的一种可选实施例中,所述对各所述预定文本进行向量化,获得预定文本向量,包括:
将各所述预定文本输入文本向量模型,获得各所述预定文本对应的预定文本向量;
其中,所述对各所述候选文本进行向量化,获得候选文本向量,包括:
将各所述候选文本输入文本向量模型,获得各所述候选文本对应的候选文本向量。
在本发明的一种可选实施例中,所述将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据,包括:
获取针对所述摘要生成模型的训练文本集;
将所述目标文本与所述目标文本摘要添加于所述训练文本集,作为针对所述摘要生成模型的训练数据。
在本发明的一种可选实施例中,还包括:
获取所述训练文本集中训练文本的数量;
若所述训练文本的数量小于第二预设阈值,则根据所述训练文本集对所述摘要生成模型进行模型训练,更新摘要生成模型,并返回获取预测文本集以及摘要生成模型的步骤,继续对训练数据进行提取;
若所述训练文本的数量大于或等于所述第二预设阈值,则停止所述训练文本集的训练数据收集。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图4所示,在本发明提供的又一实施例中,还提供了一种计算机可读存储介质401,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中所述的训练数据的生成方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中所述的训练数据的生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (15)

1.一种训练数据的生成方法,其特征在于,包括:
获取预测文本集,以及摘要生成模型,所述预测文本集包括预测文本;
根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值;
将所述摘要评测值满足预设条件的预测文本组成预定文本集;
将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本;
确定所述目标文本对应的目标文本摘要,并将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据。
2.根据权利要求1所述的方法,其特征在于,所述获取预测文本集,包括:
获取初始文本集,所述初始文本集包括若干初始文本,所述初始文本为对音频文件进行语音识别后生成的文本;
从所述初始文本集中提取至少不同的初始文本作为预测文本;
确定与所述预测文本对应的标准文本摘要;
将各所述预测文本以及对应的标准文本摘要作为预测文本集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值,包括:
将各所述预测文本输入所述摘要生成模型,获得与所述预测文本对应的预测文本摘要;
将所述预测文本摘要与所述标准文本摘要进行相似度匹配,生成针对所述预测文本的摘要评测值。
4.根据权利要求1所述的方法,其特征在于,所述将所述摘要评测值满足预设条件的预测文本组成预定文本集,包括:
将所述预测文本集中摘要评测值小于或等于第一预设阈值的预测文本组成预定文本集。
5.根据权利要求1所述的方法,其特征在于,所述将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本,包括:
获取所述预定文本集的预定文本,以及所述候选文本集的候选文本;
对各所述预定文本进行向量化,获得预定文本向量;
对各所述候选文本进行向量化,获得候选文本向量;
将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度;
根据所述文本相似度从所述候选文本集中提取预设数量的候选文本,作为目标文本。
6.根据权利要求5所述的方法,其特征在于,所述候选文本集至少包括所述预测文本集、初始文本集以及训练文本集,所述初始文本集包括初始文本,所述训练文本集包括训练文本,所述对各所述候选文本进行向量化,获得候选文本向量,包括:
获取所述训练文本集的集合状态;
若所述集合状态表征所述训练文本集为空集,则对各所述初始文本进行向量化获得初始文本向量,以及对各所述预测文本进行向量化获得预测文本向量;
若所述集合状态表征所述训练文本集为非空集,则对各所述初始文本进行向量化获得初始文本向量,对各所述预测文本进行向量化获得预测文本向量,以及对各所述训练文本进行向量化获得训练文本向量。
7.根据权利要求6所述的方法,其特征在于,所述将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度,包括:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度。
8.根据权利要求6所述的方法,其特征在于,所述将所述候选文本的候选文本向量与各所述预定文本的预定文本向量进行匹配,确定所述候选文本与各所述预定文本之间的文本相似度,包括:
将所述初始文本向量与各所述预定文本的预定文本向量进行匹配,确定所述初始文本与各所述预定文本之间的第一相似度;
将所述预测文本向量与各所述预定文本的预定文本向量进行匹配,确定所述预测文本与各所述预定文本之间的第二相似度;
将所述训练文本向量与各所述预定文本的预定文本向量进行匹配,确定所述训练文本与各所述预定文本之间的第三相似度。
9.根据权利要求5或6或7或8任一所述的方法,其特征在于,所述根据所述文本相似度从所述候选文本集中提取预设数量的候选文本,作为训练文本,包括:
将所述候选文本与各所述预定文本之间的文本相似度中,相似度值最高的作为所述候选文本的目标相似度;
按照所述候选文本的目标相似度由大到小的顺序,对所述候选文本进行排序,生成文本列表;
从所述文本列表中提取排序在前的TOP N篇候选文本作为目标文本。
10.根据权利要求5所述的方法,其特征在于,所述对各所述预定文本进行向量化,获得预定文本向量,包括:
将各所述预定文本输入文本向量模型,获得各所述预定文本对应的预定文本向量;
其中,所述对各所述候选文本进行向量化,获得候选文本向量,包括:
将各所述候选文本输入文本向量模型,获得各所述候选文本对应的候选文本向量。
11.根据权利要求1所述的方法,其特征在于,所述将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据,包括:
获取针对所述摘要生成模型的训练文本集;
将所述目标文本与所述目标文本摘要添加于所述训练文本集,作为针对所述摘要生成模型的训练数据。
12.根据权利要求11所述的方法,其特征在于,还包括:
获取所述训练文本集中训练文本的数量;
若所述训练文本的数量小于第二预设阈值,则根据所述训练文本集对所述摘要生成模型进行模型训练,更新摘要生成模型,并返回获取预测文本集以及摘要生成模型的步骤,继续对训练数据进行提取;
若所述训练文本的数量大于或等于所述第二预设阈值,则停止所述训练文本集的训练数据收集。
13.一种训练数据的生成装置,其特征在于,包括:
数据获取模块,用于获取预测文本集以及摘要生成模型,所述预测文本集包括预测文本;
摘要评测值获取模块,用于根据所述预测文本与所述摘要生成模型,确定与各所述预测文本对应的摘要评测值;
预定文本集确定模块,用于将所述摘要评测值满足预设条件的预测文本组成预定文本集;
训练文本提取模块,用于将所述预定文本集与至少一个候选文本集进行文本相似度匹配,从所述候选文本集中提取相似度满足预设条件的文本作为目标文本;
训练数据生成模块,用于确定所述目标文本对应的目标文本摘要,并将所述目标文本与所述目标文本摘要作为针对所述摘要生成模型的训练数据。
14.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如权利要求1-12任一项所述的方法。
15.一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-12任一项所述的方法。
CN202110790482.5A 2021-07-13 2021-07-13 训练数据的生成方法、装置、电子设备及可读介质 Active CN113656575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110790482.5A CN113656575B (zh) 2021-07-13 2021-07-13 训练数据的生成方法、装置、电子设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110790482.5A CN113656575B (zh) 2021-07-13 2021-07-13 训练数据的生成方法、装置、电子设备及可读介质

Publications (2)

Publication Number Publication Date
CN113656575A true CN113656575A (zh) 2021-11-16
CN113656575B CN113656575B (zh) 2024-02-02

Family

ID=78477980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110790482.5A Active CN113656575B (zh) 2021-07-13 2021-07-13 训练数据的生成方法、装置、电子设备及可读介质

Country Status (1)

Country Link
CN (1) CN113656575B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490976A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 对话摘要训练数据的生成方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
US20200125639A1 (en) * 2018-10-22 2020-04-23 Ca, Inc. Generating training data from a machine learning model to identify offensive language
CN111339292A (zh) * 2018-12-18 2020-06-26 北京京东尚科信息技术有限公司 文本分类网络的训练方法、系统、设备及存储介质
CN111382261A (zh) * 2020-03-17 2020-07-07 北京字节跳动网络技术有限公司 摘要生成方法、装置、电子设备及存储介质
CN111709247A (zh) * 2020-05-20 2020-09-25 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
CN111859953A (zh) * 2020-06-22 2020-10-30 北京百度网讯科技有限公司 训练数据的挖掘方法、装置、电子设备及存储介质
CN111951789A (zh) * 2020-08-14 2020-11-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质
CN112395401A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 自适应负样本对采样方法、装置、电子设备及存储介质
CN112417147A (zh) * 2020-11-05 2021-02-26 腾讯科技(深圳)有限公司 训练样本的选取方法与装置
CN112819023A (zh) * 2020-06-11 2021-05-18 腾讯科技(深圳)有限公司 样本集的获取方法、装置、计算机设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
US20200125639A1 (en) * 2018-10-22 2020-04-23 Ca, Inc. Generating training data from a machine learning model to identify offensive language
CN111339292A (zh) * 2018-12-18 2020-06-26 北京京东尚科信息技术有限公司 文本分类网络的训练方法、系统、设备及存储介质
CN111382261A (zh) * 2020-03-17 2020-07-07 北京字节跳动网络技术有限公司 摘要生成方法、装置、电子设备及存储介质
CN111709247A (zh) * 2020-05-20 2020-09-25 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
KR20210075036A (ko) * 2020-05-20 2021-06-22 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
CN112819023A (zh) * 2020-06-11 2021-05-18 腾讯科技(深圳)有限公司 样本集的获取方法、装置、计算机设备和存储介质
CN111859953A (zh) * 2020-06-22 2020-10-30 北京百度网讯科技有限公司 训练数据的挖掘方法、装置、电子设备及存储介质
CN111951789A (zh) * 2020-08-14 2020-11-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质
CN112417147A (zh) * 2020-11-05 2021-02-26 腾讯科技(深圳)有限公司 训练样本的选取方法与装置
CN112395401A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 自适应负样本对采样方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MADS A. MIDTLYNG ET AL.: "Real-time voice adaptation with abstract normalization and sound-indexed based search", 《2016 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS (SMC)》 *
庞超;尹传环;: "基于分类的中文文本摘要方法", 计算机科学, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490976A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 对话摘要训练数据的生成方法、装置、设备及存储介质
CN114490976B (zh) * 2021-12-30 2023-04-25 北京百度网讯科技有限公司 对话摘要训练数据的生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113656575B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN105893533B (zh) 一种文本匹配方法及装置
KR20180011254A (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
CN109189990B (zh) 一种搜索词的生成方法、装置及电子设备
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN108027814B (zh) 停用词识别方法与装置
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
CN112199602B (zh) 岗位推荐方法、推荐平台及服务器
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
CN114756733A (zh) 一种相似文档搜索方法、装置、电子设备及存储介质
CN111581388A (zh) 一种用户意图识别方法、装置及电子设备
CN107908649B (zh) 一种文本分类的控制方法
CN108804550B (zh) 一种查询词拓展方法、装置以及电子设备
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN113282831A (zh) 一种搜索信息的推荐方法、装置、电子设备及存储介质
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN112417147A (zh) 训练样本的选取方法与装置
CN109918661B (zh) 同义词获取方法及装置
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
CN115587163A (zh) 一种文本分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant