CN116910227A - 标注样本筛选方法、装置、设备及可读存储介质 - Google Patents

标注样本筛选方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116910227A
CN116910227A CN202310257021.0A CN202310257021A CN116910227A CN 116910227 A CN116910227 A CN 116910227A CN 202310257021 A CN202310257021 A CN 202310257021A CN 116910227 A CN116910227 A CN 116910227A
Authority
CN
China
Prior art keywords
labeling
sample
samples
candidate
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310257021.0A
Other languages
English (en)
Inventor
胡茜
韩雪
曾杰林
王晴
王伊婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310257021.0A priority Critical patent/CN116910227A/zh
Publication of CN116910227A publication Critical patent/CN116910227A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种标注样本筛选方法、装置、设备及可读存储介质,该方法包括:获取转录文本和所述转录文本对应的原始音频;根据所述转录文本和原始音频,利用多模态融合的文本有效性判别模型,从所述转录文本中获取包含有效信息的有效样本;根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本,这样可以剔除无效样本对主动学习样本分布的影响,然后再根据有效样本和主动学习的标注样本筛选策略,得到标注候选样本,提升筛选的待标注样本的准确率。

Description

标注样本筛选方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及通信技术领域,具体涉及一种标注样本筛选方法、装置、设备及可读存储介质。
背景技术
随着深度学习算法研究的发展,在利用人工智能(Artificial Intelligence,AI)模型算法解决实际业务场景问题的时候,需要面临的第一个并且是最重要的一个问题就是需要进行大规模的数据采集、处理和标注。众所周知,使用监督学习方法做分类任务时,往往训练样本规模越大,分类器的性能就越高。近年来,自动语音识别技术(AutomaticSpeech Recognition,ASR)已发展到可以商业应用的水平。国内的通信运营商、网约车和电商平台等利用ASR技术,将平台上大量的录音转化为文本,在诸如此类的业务场景中,很难搜集到大量已标注的数据。需要从大量未标注数据中进行标注,海量标注需要耗费大量时间和人力,这样数据标注便成了人工智能算法商用落地的一个难题。
现有的技术主要存在着以下问题:现有的ASR中文转录文本包含大量口语词汇,且错别字甚多,使用语言模型直接对其进行建模的可行性较低。且现有主动学习框架中的文本筛选策略,在面对ASR转录文本时,往往也会因为上述的原因,对其信息量造成错误的判断,从而导致样本筛选的结果达到预期的效果。
发明内容
本申请实施例在于提供一种标注样本筛选方法、装置、设备及可读存储介质,解决筛选标注样本的准确率较低的的问题。
第一方面,提供一种标注样本筛选方法,包括:
获取转录文本和所述转录文本对应的原始音频;
根据所述转录文本和原始音频,利用多模态融合的文本有效性判别模型,从所述转录文本中获取包含有效信息的有效样本;
根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本。
可选的,根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本,包括:
根据所述有效样本,确定候选未标注样本集;
从所述候选未标注样本集中筛选部分样本进行标注,得到标注样本;
根据所述标注样本和剩余的未标注样本,分别确定已标注样本池和未标注样本池;
根据所述已标注样本池,对预训练模型进行调整,得到当前轮次的标注分类模型;
通过所述当前轮次的标注分类模型和文本插值融合筛选策略,进行下一轮迭代的待标注样本筛选,得到K个标注候选样本,K为正整数。
可选的,所述方法还包括:
对所述K个标注候选样本进行标注后,将标注后的K个标注候选样本存储到所述已标注样本池,得到更新后的已标注样本池和更新后的未标注样本池;
判断是否达到停止条件,若达到停止条件则将所述已标注样本池中的已标注样本确定为目标样本,否则,返回执行根据所述已标注样本池,对预训练模型进行调整,得到当前轮次迭代的标注分类模型的步骤。
可选的,判断是否达到停止条件,包括:
判断迭代次数是否达到预设的迭代轮数;
和/或,
判断当前轮次的标注分类模型的精度是否达到预设的精度阈值。
可选的,所述方法还包括:
根据对所述K个标注候选样本进行标注的标注成本和新增标注后的K个标注候选样本使得标注分类模型精度提升的信息,确定所述K的取值。
可选的,根据对所述K个标注候选样本进行标注的标注成本和新增标注后的K个标注候选样本使得标注分类模型精度提升的信息,确定所述K的取值,包括:
根据Profit=precision+γcost,γ<0,构建Profit和K值两者之间的取舍曲线,其中,cost表示对所述K个标注候选样本进行标注的标注成本,precision表示新增标注后的K个标注候选样本使得标注分类模型精度提升的信息;
根据所述取舍曲线,确定所述K的取值。
可选的,所述文本插值融合筛选策略包括:
通过当前轮次的标注分类模型、以及已标注样本池和未标注样本池,获得所有样本的特征向量和预测结果;
将候选未标注样本的特征向量与已标注样本池聚类之后的每个类的中心向量进行插值,若预测结果改变则说明当前候选未标注样本具有新的特征向量,将所述当前候选未标注样加入当前轮次的样本候选池;
按照所述样本候选池中样本的特征向量与已标注样本的特征向量的相似度进行排序,选择最相似的N个标注候选样本,N为正整数;
根据标签分布一致的情况,从所述N个标注候选样本的筛选得到最终的标注候选样本。
第二方面,提供一种标注样本筛选装置,包括:
第一获取模块,用于获取转录文本和所述转录文本对应的原始音频;
第二获取模块,用于根据所述转录文本和原始音频,利用多模态融合的文本有效性判别模型,从所述转录文本中获取包含有效信息的有效样本。
筛选模块,用于根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本。
可选的,所述筛选模块进一步用于:
根据所述有效样本,确定候选未标注样本集;
从所述候选未标注样本集中筛选部分样本进行标注,得到标注样本;
根据所述标注样本和剩余的未标注样本,分别确定已标注样本池和未标注样本池;
根据所述已标注样本池,对预训练模型进行调整,得到当前轮次的标注分类模型;
通过所述当前轮次的标注分类模型和文本插值融合筛选策略,进行下一轮迭代的待标注样本筛选,得到K个标注候选样本,K为正整数。
可选的,所述装置还包括:
更新模块,用于对所述K个标注候选样本进行标注后,将标注后的K个标注候选样本存储到所述已标注样本池,得到更新后的已标注样本池和更新后的未标注样本池;
判断模块,用于判断是否达到停止条件,若达到停止条件则将所述已标注样本池中的已标注样本确定为目标样本,否则,返回执行根据所述已标注样本池,对预训练模型进行调整,得到当前轮次迭代的标注分类模型的步骤。
可选的,判断是否达到停止条件,包括:判断迭代次数是否达到预设的迭代轮数;和/或,判断当前轮次的标注分类模型的精度是否达到预设的精度阈值。
可选的,所述装置还包括:
确定模块,用于根据对所述K个标注候选样本进行标注的标注成本和新增标注后的K个标注候选样本使得标注分类模型精度提升的信息,确定所述K的取值。
可选的,所述确定模块进一步用于:
根据Profit=precision+γcost,γ<0,构建Profit和K值两者之间的取舍曲线,其中,cost表示对所述K个标注候选样本进行标注的标注成本,precision表示新增标注后的K个标注候选样本使得标注分类模型精度提升的信息;
根据所述取舍曲线,确定所述K的取值。
可选的,所述文本插值融合筛选策略包括:
通过当前轮次的标注分类模型、以及已标注样本池和未标注样本池,获得所有样本的特征向量和预测结果;
将候选未标注样本的特征向量与已标注样本池聚类之后的每个类的中心向量进行插值,若预测结果改变则说明当前候选未标注样本具有新的特征向量,将所述当前候选未标注样加入当前轮次的样本候选池;
按照所述样本候选池中样本的特征向量与已标注样本的特征向量的相似度进行排序,选择最相似的N个标注候选样本,N为正整数;
根据标签分布一致的情况,从所述N个标注候选样本的筛选得到最终的标注候选样本。
第三方面,提供一种通信设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,提供一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
在本申请实施例中,从转录文本中获得包含有效信息的有效样本,剔除无效样本对主动学习样本分布的影响;然后再根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本,从而提升筛选的待标注样本的准确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请实施例提供的标注样本筛选方法的流程图;
图2是主动学习的示意图;
图3是本申请实施例提供的多阶段多模态主动学习样本筛选流程的示意图;
图4是本申请实施例提供的多模态表征训练模型的示意图;
图5是本申请实施例提供的基于改进的主动学习标注样本筛选流程的示意图;
图6是本申请实施例提供的取舍(trade off)曲线示意图;
图7是本申请实施例提供的文本插值融合筛选策略的示意图;
图8是本申请实施例提供的文本插值方法的示意图;
图9是本申请实施例提供的标注样本筛选装置的示意图;
图10是本申请的实施例提供的通信设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“包括”以及它的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,说明书以及权利要求中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B,表示包含单独A,单独B,以及A和B都存在三种情况。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
参见图1,本申请实施例提供一种标注样本筛选方法,具体步骤包括:步骤101、步骤102和步骤103。
步骤101:获取转录文本和所述转录文本对应的原始音频;
转录文本是原始音频通过语音文本转换(voice-to-text)得到的,本实施例中对于语音文本转换的具体方式不做限定。
步骤102:根据所述转录文本和原始音频,利用多模态融合(Multimodal Fusion)的文本有效性判别模型,从所述转录文本中获取包含有效信息的有效样本;
例如多模态是指音频模态和文本模态,即通过多模态融合的文本有效性判别模型,筛选出包含有效信息的有效样本,剔除无效样本对于第二阶段主动学习样本分布的影响,提高有效样本筛选的准确率。该多模态融合的文本有效性判别模型的输入包括转录文本和原始音频,输出为有效样本,该多模态融合的文本有效性判别模型采用困惑度(Perplexity),得到样本的多模态困惑度,多模态困惑度越大表明样本的有效性越高。
可以理解的是,上述包含有效信息的有效样本均未标注,有效信息是指基于该信息能够确定表达者想法的信息,与有效信息相对的是无效信息。
比如,转录文本可以是ASR文本,这样可以针对ASR文本的特性,首先通过多模态的融合打分机制,通过音频模态和文本模态联合打分,对可能存在转录错误的文本进行有效的样本筛选,这样可以剔除无效样本对于步骤102中主动学习样本分布的影响。
步骤103:根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本。
上述标注候选样本是需要进行标注的样本,标注候选样本也可以称为待标注样本。
在本实施例中,通过主动学习的标注样本筛选策略可以筛选出重要的、多样化、更全面的样本进行人工标注,减少了主动学习筛选出的样本的多样性和减少了最终需要进行人工标注的样本的总量,提升筛选的准确率和效率。
在本申请的一种实施方式中,根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本,包括:
根据所述有效样本,确定候选未标注样本集;
从所述候选未标注样本集中筛选部分样本进行标注,得到标注样本,比如通过随机筛选策略,筛选出部分样本作为冷启动样本,交给人工进行标注;
根据所述标注样本和剩余的未标注样本,分别确定已标注样本池和未标注样本池;
根据所述已标注样本池,对预训练模型进行调整,得到当前轮次的标注分类模型;
通过所述当前轮次的标注分类模型和文本插值融合筛选策略,进行下一轮迭代的待标注样本筛选,得到K个标注候选样本,K为正整数。
在本申请的一种实施方式中,所述方法还包括:
对所述K个标注候选样本进行标注后,将标注后的K个标注候选样本存储到所述已标注样本池,得到更新后的已标注样本池和更新后的未标注样本池;
判断是否达到停止条件,若达到停止条件则将所述已标注样本池中的已标注样本确定为目标样本,否则,返回执行根据所述已标注样本池,对预训练模型进行调整,得到当前轮次迭代的标注分类模型的步骤。
在本申请的一种实施方式中,判断是否达到停止条件,包括:
判断迭代次数是否达到预设的迭代轮数;
和/或,
判断当前轮次的标注分类模型的精度是否达到预设的精度阈值。
在本申请的一种实施方式中,所述方法还包括:
根据对所述K个标注候选样本进行标注的标注成本和新增标注后的K个标注候选样本使得标注分类模型精度提升的信息,确定所述K的取值。
在本申请的一种实施方式中,根据对所述K个标注候选样本进行标注的标注成本和新增标注后的K个标注候选样本使得标注分类模型精度提升的信息,确定所述K的取值,包括:
根据Profit=precision+γcost,γ<0,构建Profit和K值两者之间的取舍曲线,其中,cost表示对所述K个标注候选样本进行标注的标注成本,precision表示新增标注后的K个标注候选样本使得标注分类模型精度提升的信息;
根据所述取舍曲线,确定所述K的取值。
在本实施例中,通过引入基于边际成本的计算函数,优化了现有方法中固定筛选样本数量的方法,从而更进一步减少了整体需要人工标注的样本数。
在本申请的一种实施方式中,所述文本插值融合筛选策略包括:
通过当前轮次的标注分类模型、以及已标注样本池和未标注样本池,获得所有样本的特征向量和预测结果;
将候选未标注样本的特征向量与已标注样本池聚类之后的每个类的中心向量进行插值,若预测结果改变则说明当前候选未标注样本具有新的特征向量,将所述当前候选未标注样加入当前轮次的样本候选池;
按照所述样本候选池中样本的特征向量与已标注样本的特征向量的相似度进行排序,选择最相似的N个标注候选样本,N为正整数;
根据标签分布一致的情况,从所述N个标注候选样本的筛选得到最终的标注候选样本。
在本申请实施例中,通过文本插值融合筛选策略可以提升筛选样本的有效性。
在本申请实施例中,从转录文本中获得包含有效信息的有效样本,剔除无效样本对主动学习样本分布的影响;然后再根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本,从而提升筛选的待标注样本的准确率。
下面结合实施例一介绍本申请的实施方式。
实施例一
参见图2,主动学习的整体思路是指,在机器学习的建模过程中,通常包括样本选择、模型训练、模型预测、模型更新这几个步骤。在主动学习这个领域需要把标注候选集提取和人工标注这两个步骤加入整体流程,也就是:
(a)机器学习模型:包括机器学习模型的训练和预测两部分;
(b)待标注的数据候选集提取:依赖主动学习中的查询函数(Query Function);
(c)人工标注:专家经验或者业务经验的提炼;
(d)获得候选集的标注数据(查询策略):获得更有价值的样本数据
(e)机器学习模型的更新:通过增量学习或者重新学习的方式更新模型,从而将人工标注的数据融入机器学习模型中,提升模型效果。
而查询策略(Query Strategy Frameworks)就是主动学习的核心之处。
为消除ASR转录文本特性对传统基于主动学习的样本筛选方法的影响,本申请中提出了基于音频文本多模态的多阶段标注样本筛选方法。首先针对传统方法对于ASR文本有效性判断出现偏差的问题,设计了基于音频文本多模态融合的文本有效性判别模型,筛选出包含有效信息的样本。剔除无效样本对于第二阶段主动学习样本分布的影响。第二阶段采用改进的主动学习算法筛选出重要的、多样化、更全面的样本进行标注,通过引入基于边际成本的计算函数,优化了现有方法中固定筛选样本数量,进一步减少了整体需要标注的样本数。此外,通过文本插值融合筛选策略(新型的query function),提升筛选的样本的多样化和准确率。整体标注系统流程如图3所示。
第一阶段:有效样本筛选:
如前所述,现有的判别文本句子的方法,往往基于预训练模型,结合语言模型,采用困惑度打分的机制,得分较高者,表示句子的流畅度越高。然后在语音转录的文本中,这类方法错判误判的比例较高,在常用的预训练模型方法中,对于明显的非有效性句子,困惑度(perplexity,PPL)打分较高,无法筛选出有实际意义的句子(即,有效样本),现有的计算PPL的公式如下:
其中W为当前句子所有字的文本特征向量,wt为当前句子中第t个字的文本特征向量,W<t为第t个字之前所有字的文本特征向量,PLM为句子中给定W<t情况下第t个字是wt的概率。对每个字的概率取对数并累加,得到了当前句子的困惑度,困惑度越大表明句子有效性越高,进而基于困惑度筛选出有效样本。
针对以上问题,本申请中基于多模态的样本有效性判别算法,具体如下:
通过引入音频模态,通过长短期记忆(Long Short-Term Memory,LSTM)网络来训练融合了文本语义和音频信息的多模态表征z,如图4所示。从而语言模型(LanguageModel,LM)计算困惑度的公式改为如下所示:
其中W\t为句子W中除去第t个字之外的所有字的文本特征向量。PMLM为给定模型θ且给定W\t情况下第t个字是wt的概率;zt为句子W中第t个字所对应的音频特征向量,Z\t为除去第t个字之外所有字对应的音频特征向量,PWAV为给定模型参数且给定Z\t情况下第t个字的音频特征向量是zt的概率。两部分分别取对数并分别累加,求和后得到句子的多模态困惑度,多模态困惑度越大表明样本的有效性越高。
zt计算方式如下:
zt=LSTM(Wav2Vec(Audiot))
其中Audiot为第t个字对应的音频向量,Wav2Vec为语音领域常用的一种通用特征提取器,LSTM为长短期记忆网络。
阶段二:基于改进的主动学习的标注样本筛选:
基于主动学习的标注样本筛选流程如图5,整个基于主动学习的样本筛选步骤如下:
步骤51:初始状态是所有由第一阶段筛选出来的有效样本(均未标注),构成的候选未标注样本集。
步骤52:首先通过随机筛选策略,筛选出部分样本作为冷启动样本,交给人工进行标注。这部分标注样本放入已标注样本池U_label。剩余的未标注样本作为未标注样本池U_unlabel。
步骤53:用已标注样本池U_label对预训练模型(如Roberta,Bert,GPT等)进行微调,得到第一轮迭代的辅助标注分类模型。
步骤54:采用改进的文本插值融合筛选策略,进行下一轮迭代的标注候选样本筛选,筛选的到K个标注候选样本,作为当前轮次交由人工标注的样本集。
步骤56:人工将当前轮次筛选样本进行标注后,将这批标注好的样本放入已标注样本池,进而已标注样本池U_label和未标注样本池U_unlabel均更新完毕,重新进行步骤53的操作,直到达到停止条件(预先设计的迭代轮数或者每轮迭代分类模型精确度达到预先设计的阈值。)。
其中步骤54的每轮次筛选的K个标注候选样本的参数K,采用基于成本边际效应的算法来构建标注成本(cost也就是参数K)和标注参数K之后的新增标注数据使得训练模型精确度(precision)提升两者之间的trade-off U型曲线,参见图6,其中acquired datasetsize对应于参数K。公式如下所示:
profit=precision+γcost,γ<0
在每一轮迭代的时候选出最小的K,从而减少总体人工标注的数量进一步减少人工成本。以实际迭代次数的实验为例,取横坐标为百分之3的点的数据,相比曲线后面的点。从而比现有算法中取固定的K的数值,可大量减少标注的数据。
步骤54提到的文本插值融合筛选策略的流程如图7所示。
本步骤筛选策略的方法流程如下所示:
步骤71:利用当前轮次所获得的模型,获取所有样本的特征向量和预测结果。
步骤72:使用文本插值算法筛选,如图8所示,以情感二分类(positive/negative)问题为例,利用语言模型分别提取已标注样本(比如,“a smile on your face”-Positive,“cold movie”-Negative)和未标注样本(in world cinema)的特征向量,并计算已标注样本中两个类(positive/negative)的中心特征向量。然后对于每个未标注样本,将其特征向量分别与两个类的中心向量进行插值,若存在插值后特征向量的预测结果与未标注样本的特征向量预测结果不同,则认为该未标注样本包含新的特征,将其加入当前轮次的样本候选池。将未标注样本特征向量与已标注数据集聚类之后的每个类的中心向量进行插值,若预测结果改变则说明当前候选未标注样本具有新的特征,将其加入当前轮次的筛选样本候选池。
步骤73:跟之前算法采用随机sample的方法不同,对步骤72候选池中的样本向量,获取其邻近的已标注样本向量(两个样本的嵌入式表征交叉标签监督(Cross LabelingSupervision,CLS)的余弦相似度,比如候选池里面有1000个样本,已标注数据集有1万个样本,1000个的每一个都跟1万个的已标注去计算相似度,取前N个最相似的),观察它们标签分布,根据分布一致情况进一步筛选出最终的标注候选样本。
在本申请中,针对ASR转录文本的语义分布存在一定的特殊性,造成现有针对传统文本的主动学习的筛选算法无法有效筛选标注候选样本的问题,设计基于多模态信息源(音频+文本)的多阶段样本筛选机制。首先第一阶段通过利用音频模态和文本模态的多模态计算机制,通过多模态融合的有效性分类,筛选出包含有效信息的有效样本,为第二阶段主动学习机制提供有效文本数据集。第二阶段采用改进的主动学习算法筛选出重要的、多样化、更全面的样本进行人工标注,减少标注的工作量提高标注效率。
参见图9,本申请实施例提供一种标注样本筛选装置,该装置900包括:
第一获取模块901,用于获取转录文本和所述转录文本对应的原始音频;
第二获取模块902,用于根据所述转录文本和原始音频,利用多模态融合的文本有效性判别模型,从所述转录文本中获取包含有效信息的有效样本。
筛选模块903,用于根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本。
在本申请的一种实施方式中,所述筛选模块903进一步用于:
根据所述有效样本,确定候选未标注样本集;
从所述候选未标注样本集中筛选部分样本进行标注,得到标注样本;
根据所述标注样本和剩余的未标注样本,分别确定已标注样本池和未标注样本池;
根据所述已标注样本池,对预训练模型进行调整,得到当前轮次的标注分类模型;
通过所述当前轮次的标注分类模型和文本插值融合筛选策略,进行下一轮迭代的待标注样本筛选,得到K个标注候选样本,K为正整数。
在本申请的一种实施方式中,所述装置还包括:
更新模块,用于对所述K个标注候选样本进行标注后,将标注后的K个标注候选样本存储到所述已标注样本池,得到更新后的已标注样本池和更新后的未标注样本池;
判断模块,用于判断是否达到停止条件,若达到停止条件则将所述已标注样本池中的已标注样本确定为目标样本,否则,返回执行根据所述已标注样本池,对预训练模型进行调整,得到当前轮次迭代的标注分类模型的步骤。
在本申请的一种实施方式中,判断是否达到停止条件,包括:判断迭代次数是否达到预设的迭代轮数;和/或,判断当前轮次的标注分类模型的精度是否达到预设的精度阈值。
在本申请的一种实施方式中,所述装置还包括:
确定模块,用于根据对所述K个标注候选样本进行标注的标注成本和新增标注后的K个标注候选样本使得标注分类模型精度提升的信息,确定所述K的取值。
在本申请的一种实施方式中,所述确定模块进一步用于:
根据Profit=precision+γcost,γ<0,构建Profit和K值两者之间的取舍曲线,其中,cost表示对所述K个标注候选样本进行标注的标注成本,precision表示新增标注后的K个标注候选样本使得标注分类模型精度提升的信息;
根据所述取舍曲线,确定所述K的取值。
在本申请的一种实施方式中,所述文本插值融合筛选策略包括:
通过当前轮次的标注分类模型、以及已标注样本池和未标注样本池,获得所有样本的特征向量和预测结果;
将候选未标注样本的特征向量与已标注样本池聚类之后的每个类的中心向量进行插值,若预测结果改变则说明当前候选未标注样本具有新的特征向量,将所述当前候选未标注样加入当前轮次的样本候选池;
按照所述样本候选池中样本的特征向量与已标注样本的特征向量的相似度进行排序,选择最相似的N个标注候选样本,N为正整数;
根据标签分布一致的情况,从所述N个标注候选样本的筛选得到最终的标注候选样本。
本申请实施例提供的装置能够实现图1所示的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
如图10所示,本申请实施例还提供一种通信设备1000,包括处理器1001,存储器1002,存储在存储器1002上并可在所述处理器1001上运行的程序或指令,该程序或指令被处理器1001执行时实现上述图1方法实施例的各个过程,且能达到相同的技术效果。为避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述图1所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的终端中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以由在处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、移动硬盘、只读光盘或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以携带在ASIC中。另外,该ASIC可以携带在核心网接口设备中。当然,处理器和存储介质也可以作为分立组件存在于核心网接口设备中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种标注样本筛选方法,其特征在于,包括:
获取转录文本和所述转录文本对应的原始音频;
根据所述转录文本和原始音频,利用多模态融合的文本有效性判别模型,从所述转录文本中获取包含有效信息的有效样本;
根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本。
2.根据权利要求1所述的方法,其特征在于,根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本,包括:
根据所述有效样本,确定候选未标注样本集;
从所述候选未标注样本集中筛选部分样本进行标注,得到标注样本;
根据所述标注样本和剩余的未标注样本,分别确定已标注样本池和未标注样本池;
根据所述已标注样本池,对预训练模型进行调整,得到当前轮次的标注分类模型;
通过所述当前轮次的标注分类模型和文本插值融合筛选策略,进行下一轮迭代的待标注样本筛选,得到K个标注候选样本,K为正整数。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述K个标注候选样本进行标注后,将标注后的K个标注候选样本存储到所述已标注样本池,得到更新后的已标注样本池和更新后的未标注样本池;
判断是否达到停止条件,若达到停止条件则将所述已标注样本池中的已标注样本确定为目标样本,否则,返回执行根据所述已标注样本池,对预训练模型进行调整,得到当前轮次迭代的标注分类模型的步骤。
4.根据权利要求2所述的方法,其特征在于,判断是否达到停止条件,包括:
判断迭代次数是否达到预设的迭代轮数;
和/或,
判断当前轮次的标注分类模型的精度是否达到预设的精度阈值。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据对所述K个标注候选样本进行标注的标注成本和新增标注后的K个标注候选样本使得标注分类模型精度提升的信息,确定所述K的取值。
6.根据权利要求5所述的方法,其特征在于,根据对所述K个标注候选样本进行标注的标注成本和新增标注后的K个标注候选样本使得标注分类模型精度提升的信息,确定所述K的取值,包括:
根据Profit=precision+γcost,γ<0,构建Profit和K值两者之间的取舍曲线,其中,cost表示对所述K个标注候选样本进行标注的标注成本,precision表示新增标注后的K个标注候选样本使得标注分类模型精度提升的信息;
根据所述取舍曲线,确定所述K的取值。
7.根据权利要求2所述的方法,其特征在于,所述文本插值融合筛选策略包括:
通过当前轮次的标注分类模型、以及已标注样本池和未标注样本池,获得所有样本的特征向量和预测结果;
将候选未标注样本的特征向量与已标注样本池聚类之后的每个类的中心向量进行插值,若预测结果改变则说明当前候选未标注样本具有新的特征向量,将所述当前候选未标注样加入当前轮次的样本候选池;
按照所述样本候选池中样本的特征向量与已标注样本的特征向量的相似度进行排序,选择最相似的N个标注候选样本,N为正整数;
根据标签分布一致的情况,从所述N个标注候选样本的筛选得到最终的标注候选样本。
8.一种标注样本筛选装置,其特征在于,包括:
获取模块,用于从转录文本中获得包含有效信息的有效样本;
筛选模块,用于根据所述有效样本和主动学习的标注样本筛选策略,得到标注候选样本。
9.一种通信设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。
CN202310257021.0A 2023-03-08 2023-03-08 标注样本筛选方法、装置、设备及可读存储介质 Pending CN116910227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310257021.0A CN116910227A (zh) 2023-03-08 2023-03-08 标注样本筛选方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310257021.0A CN116910227A (zh) 2023-03-08 2023-03-08 标注样本筛选方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116910227A true CN116910227A (zh) 2023-10-20

Family

ID=88351721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310257021.0A Pending CN116910227A (zh) 2023-03-08 2023-03-08 标注样本筛选方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116910227A (zh)

Similar Documents

Publication Publication Date Title
US11238845B2 (en) Multi-dialect and multilingual speech recognition
US20180254036A1 (en) Speech recognition method and apparatus
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN114580382A (zh) 文本纠错方法以及装置
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN110414005B (zh) 意图识别方法、电子设备及存储介质
CN113488023B (zh) 一种语种识别模型构建方法、语种识别方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
US20230034414A1 (en) Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program
CN115470354B (zh) 基于多标签分类识别嵌套和重叠风险点的方法及系统
CN111813954A (zh) 文本语句中两实体的关系确定方法、装置和电子设备
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN115457942A (zh) 基于混合专家模型的端到端的多语言语音识别方法
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN117975942A (zh) 语音识别模型的训练方法、语音识别方法及相关装置
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN116738956A (zh) 一种提示模板生成方法、装置、计算机设备及存储介质
CN116910227A (zh) 标注样本筛选方法、装置、设备及可读存储介质
CN111090720B (zh) 一种热词的添加方法和装置
CN114444609A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111666755A (zh) 一种复述句识别的方法及装置
CN113254587B (zh) 搜索文本的识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination