CN115455185A - 基于预训练模型的面试场景下asr文本的数据增强方法 - Google Patents
基于预训练模型的面试场景下asr文本的数据增强方法 Download PDFInfo
- Publication number
- CN115455185A CN115455185A CN202211065997.XA CN202211065997A CN115455185A CN 115455185 A CN115455185 A CN 115455185A CN 202211065997 A CN202211065997 A CN 202211065997A CN 115455185 A CN115455185 A CN 115455185A
- Authority
- CN
- China
- Prior art keywords
- text
- clustering
- texts
- asr
- training model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种基于预训练模型的面试场景下ASR文本的数据增强方法,该方法包括:对预先获取的面试场景下的ASR文本进行预处理,并获取每条ASR文本的句向量;基于机器学习库将面试涉及的每个岗位下的ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类对应的聚类文本;根据全部的聚类文本选取预设数量的初始数据,获取每条初始数据对应的正规化文本,并基于正规化文本生成每个聚类类别对应的一条标准化问题;获取每个岗位下的多个目标关键词,通过判断每条标准化问题中是否存在任一目标关键词对每条标准化问题进行分类。该方法可以从口语化文本中提取出多个高质量的问题文本,提高对面试ASR文本进行数据增强生成的数据的质量。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于预训练模型的面试场景下ASR文本的数据增强方法。
背景技术
随着大规模预训练语言模型技术逐渐成熟,基于预训练语言模型的文本处理的普及率也逐渐提高。对于一个预训练好的模型,在不同的任务文本数据上进行微调,从而在不同的下游任务上进行应用,这一处理流程已经在各个领域内得到广泛应用。然而,这些模型的质量会在很大程度上受到文本数据质量的影响。因此,对文本数据进行数据增强,获取高质量的训练文本数据变得尤为重要。
其中,自动语音识别技术ASR文本数据是文本数据中的一个大类别,这类数据由于其来源特殊,因此通常文本质量相对较低,并且存在着包括断句不正确、字词识别不正确等问题。
相关技术中,在进行数据增强时通常是采用通过网络模型进行文本纠错后,通过同义改写的方式扩展数据数量,来实现文本增强。然而,对于面试这一特殊场景而言,由于其特殊性,从面试中获取的ASR文本数据还存在着无意义文本较多、口语词和连续重复词较多等情况。上述相关技术中的方式,在文本纠错时只能处理错别字和语法错误等表述上的错误,无法将ASR文本转换问更标准的书面文本,并且,在文本增强时对面试ASR文本进行同义改写会导致生成的文本质量过低,,不能从语句质量的层面对文本进行增强。
因此,对于面试场景下的ASR文本,如何从语句质量上进行数据增强,提高生成的文本质量成为目前亟需解决的问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于预训练模型的面试场景下ASR文本的数据增强方法,该方法针对面试场景下的多个类别的海量ASR文本数据,通过纠错、聚类和增强的流程进行数据增强,可以从口语化文本中提取出多个高质量的问题文本,提高对面试ASR文本进行数据增强生成的数据的质量。
本申请的第二个目的在于提出一种基于预训练模型的面试场景下ASR文本的数据增强系统。
本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请的第一方面实施例提出了一种基于预训练模型的面试场景下ASR文本的数据增强方法,包括以下步骤:
对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理,并获取每条所述ASR文本的句向量;
基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本;
根据全部的所述聚类文本选取预设数量的初始数据,获取每条所述初始数据对应的正规化文本,并基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题;
获取每个岗位下的多个目标关键词,通过判断每条所述标准化问题中是否存在任一目标关键词对每条所述标准化问题进行分类。
可选地,在本申请的一个实施例中,对预先获取的大量面试场景下的自动语音识别技术ASR文本进行预处理,包括:剔除每条所述ASR文本中的停用词和语气词;合并发言人对应的内容相同的ASR文本;所述获取每条所述ASR文本的句向量,包括:将所述第一预训练模型在中文数据集上进行微调,通过微调后的第一预训练模型生成每条所述ASR文本的句向量。
可选地,在本申请的一个实施例中,机器学习库包括:Scikit-Learn库,所述基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,包括:通过所述Scikit-Learn库中的Mini Batch K-means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类,获得每个岗位对应的多个子类;通过所述Scikit-Learn库中的OPTICS库对每个所述子类进行基于密度的聚类,确定所述聚类类别,并获得每个所述聚类类别对应的所述聚类文本和噪音文本。
可选地,在本申请的一个实施例中,通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本,包括:针对每个岗位,通过所述第一预训练模型生成当前岗位下全部的所述聚类文本和所述噪音文本的句向量;基于句向量,通过相似向量检索库判断每条所述噪音文本是否存在一条相似度超过相似度阈值目标聚类文本,若是,则将噪音文本归类至所述目标聚类文本对应的聚类类别中。
可选地,在本申请的一个实施例中,初始数据包括一组相似的聚类文本,所述获取每条所述初始数据对应的正规化文本,包括:通过人工标注确定每组相似的聚类文本的一条正规化文本;所述基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题,包括:通过每个所述正规化文本微调预设的第二预训练模型,通过微调后的第二预训练模型输出每个所述聚类类别对应的一条标准化问题。
可选地,在本申请的一个实施例中,获取每个岗位下的多个目标关键词,包括:在预处理后的ASR文本库中,基于TF-IDF算法计算每个岗位在数量上限内的多个初始关键词;通过人工标注对每个岗位的所述初始关键词进行优化,获得每个岗位下的多个目标关键词。
为达上述目的,本申请的第二方面实施例提出了一种基于预训练模型的面试场景下ASR文本的数据增强系统,包括以下模块:
获取模块,用于对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理,并获取每条所述ASR文本的句向量;
聚类模块,用于基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本;
生成模块,用于根据全部的所述聚类文本选取预设数量的初始数据,获取每条所述初始数据对应的正规化文本,并基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题;
分类模块,用于获取每个岗位下的多个目标关键词,通过判断每条所述标准化问题中是否存在任一目标关键词对每条所述标准化问题进行分类。
可选地,在本申请的一个实施例中,获取模块,具体用于:剔除每条所述ASR文本中的停用词和语气词;合并发言人对应的内容相同的ASR文本;将所述第一预训练模型在中文数据集上进行微调,通过微调后的第一预训练模型生成每条所述ASR文本的句向量。
可选地,在本申请的一个实施例中,机器学习库包括:Scikit-Learn库,所述聚类模块,具体用于:通过所述Scikit-Learn库中的Mini Batch K-means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类,获得每个岗位对应的多个子类;通过所述Scikit-Learn库中的OPTICS库对每个所述子类进行基于密度的聚类,确定所述聚类类别,并获得每个所述聚类类别对应的所述聚类文本和噪音文本。
为了实现上述实施例,本申请第三方面实施例还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的基于预训练模型的面试场景下ASR文本的数据增强方法。
本申请的实施例提供的技术方案至少带来以下有益效果:本申请针对面试场景下的多个类别的海量ASR文本数据,通过纠错、聚类和增强的流程进行数据增强,可以从包含冗余内容的口语化文本中提取出多个高质量的问题文本,通过“提炼”出精简的文本内容的方式进行数据增强,能够从若干条相似文本中归纳出一条高质量的代表性文本。并且,还实现了对海量文本进行快速聚类,降低了对海量文本数据进行聚类时的时间复杂度,有利于对面试场景下的不同岗位进行更加针对性的数据增强。由此,提高了对面试ASR文本进行数据增强生成的数据的质量和针对性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中
图1为本申请实施例提出的一种基于预训练模型的面试场景下ASR文本的数据增强方法的流程图;
图2为本申请实施例提出的一种具体的基于预训练模型的面试场景下ASR文本的数据增强方法的流程图;
图3为本申请实施例提出的一种基于预训练模型的面试场景下ASR文本的数据增强系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,数据增强(Data Augmentation)是从原始数据加工出更多的表示,提高原始数据的数量及质量,以增加训练样本的数量以及多样性,使模型学习获得较好的泛化性能。而对于面试场景下的文本,相关技术中数据增强方法不能直接应用于面试ASR文本处理,比如,对于一条面试中的ASR文本“啊,对对,我觉得这个,这个内容是我比较感兴趣的”,期望是将这条文本转换问一条更标准的书面文本,然而这条文本本身没有明显的语法错误,因此很难被相关技术中的文本纠错模型处理。并且,相关技术中数据增强方法获得的质量过低。为此,本申请提出一种面试场景下ASR文本的数据增强方法,提高对面试ASR文本进行数据增强生成的数据的质量。
下面参考附图描述本发明实施例所提出的一种基于预训练模型的面试场景下ASR文本的数据增强方法和系统。
图1为本申请实施例提出的一种基于预训练模型的面试场景下ASR文本的数据增强方法的流程图,如图1示,该方法包括以下步骤:
步骤S101,对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理,并获取每条ASR文本的句向量。
其中,自动语音识别技术(Automatic Sound Recognition,简称ASR)是一种将人的语音转换为文本的技术。在本申请中的ASR文本,指的是通过ASR技术从面试场景下的语音识别而来的文本。
具体的,先获取需要进行数据增强处理的文本。在本申请实施例中,可以预先通过语音记录设备记录并存储在多个岗位的面试场景下,面试者与面试官交流的语音数据,再转换为ASR文本。然后,对预先获取的自动语音识别技术ASR文本进行预处理。
在本申请一个实施例中,对ASR文本进行预处理包括:剔除ASR文本中的停用词和语气词,然后合并连续的发言人对应的内容相同的ASR文本。其中,停用词(Stop Words)是指会自动过滤掉的某些字或词,比如,英文字符、数学字符等。在本实施例中,先移除停用词与语气词,再合并发言人连续的相同的ASR文本内容,举例而言,将发言人由于口语表达习惯,表述的前后连续重复的词合并,比如,将“对,对,是这样的”合并为“对,是这样的”。由此,本申请将面试场景下获取的ASR文本中,由于口语表达存在的无意义文本、口语词和连续重复词剔除,通过预处理可以减少后续进行数据增强处理的数据处理量,节省计算资源并提高效率。
在本实施例中,在进行预处理时,还可以进行文本纠错,比如,通过相关的自然语言处理模型进行错别字纠错和语法纠错。即,还可先通过预处理去除ASR文本中一些直观的、便于识别的错误。
进一步的,获取每条ASR文本的句向量。在本申请一个实施例中,获取每条ASR文本的句向量,包括:将第一预训练模型在中文数据集上进行微调,通过微调后的第一预训练模型生成每条ASR文本的句向量。
具体而言,在本实施例中,第一预训练模型是一种开放的多语言预训练模型,比如,它可以是sentence-transformers_paraphrase-multilingual-MiniLM-L12-v2模型,该模型是sentence_transformers库的模型,可以支持在预训练中生成中文句向量,它能够将句子和段落映射到384维密集向量空间,可用于聚类等任务。本申请使用在中文数据集上微调过的sentence-transformers_paraphrase-multilingual-MiniLM-L12-v2模型,获取每条ASR文本的句向量,便于后续根据句向量进行聚类。
步骤S102,基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本。
具体的,由于面试场景下会包含对多个岗位的面试者进行面试,本申请先确定上述步骤处理后的ASR文本句向量数据集中包括的各个岗位,针对每个岗位,将该岗位下的所有ASR文本进行多级聚类,并通过上述实施例中的第一预训练模型调整最后一级聚类得到的聚类类别对应的聚类文本。
在本申请一个实施例中,机器学习库可以是Scikit-Learn(简称Sklearn)库,sklearn是一个基于Python语言的机器学习工具,是第三方提供的非常强力的机器学习库,sklearn中包含Estimator和Transformer等种类的函数。作为一种可能的实现方式,通过Scikit-Learn对ASR文本进行聚类时,包括以下步骤:先通过Scikit-Learn库中的MiniBatch K-means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类,获得每个岗位对应的多个子类,再通过Scikit-Learn库中的OPTICS库对每个子类进行基于密度的聚类,确定聚类类别,并获得每个聚类类别对应的聚类文本和噪音文本。
其中,Mini Batch K-means算法是K-means聚类算法的一种优化算法,在大数据量的情况的下具有较高的计算速度,由于面试场景下多个岗位中的ASR文本数据量较大,因此,本申请选用该算法可以在忽略精度下降的基础上,加快计算度,保证数据增强的效率。
具体而言,在本实施例中先使用sklearn的mini-batch kmeans方法对步骤S101得到的ASR文本句向量数据集里每个岗位下的所有ASR文本进行粗聚类,得到每个岗位下的若干子类。然后使用sklearn的OPTICS库对每个子类进行基于密度的聚类,根据密度聚类结果确定每个岗位下的聚类类别,得到若干聚类文本和噪音文本。其中,OPTICS算法可以解决相关技术中的基于密度聚类的方法不能识别多密度簇的问题,本申请通过OPTICS库进行基于密度的聚类,可以对海量的ASR文本进行快速聚类,并提高聚类效果。
需要说明的是,进行基于密度的聚类得到的若干聚类文本和噪音文本中,每个聚类类别对应一个聚类文本,而由于聚类过程中的误差等因素的影响,得到的噪音文本可能是由于误判产生的,因此,需要将误判的噪音文本归纳至相应的聚类类别中,将真正的噪音文本剔除。
因此,在本实施例中得到若干聚类文本和噪音文本后,还进一步包括:针对每个岗位,通过第一预训练模型生成当前岗位下全部的聚类文本和噪音文本的句向量,然后基于句向量,通过相似向量检索库判断每条噪音文本是否存在一条相似度超过相似度阈值目标聚类文本,若是,则将噪音文本归类至目标聚类文本对应的聚类类别中。
具体而言,在本实施例中通过步骤S101的实施例中的第一预训练模型获取每个岗位下聚类文本和噪音文本的句向量,然后通过相似向量检索库判断每条噪音文本是否和该岗位下所有的子类中的某一条聚类文本有较高相似度。其中,相似向量检索库可以选取Facebook AI Similarity Search(简称faiss)库,faiss库是一种近似近邻搜索库,为稠密向量提供高效相似度搜索和聚类,可实现相似性搜索。本实施例中,通过faiss库基于第一预训练模型生成的句向量进行相似度检索,即将每个噪音文本是与该岗位下所有子类下的所有聚类的中心比较,当确定当前的噪音文本与某一条聚类文本相似度超过相似度阈值时,则将该聚类文本作为当前检测的噪音文本的目标聚类文本,并将当前的噪音文件归类到该目标聚类文本对应的聚类类别中。相似度阈值可以预先结合专家知识和历史经验等方式确定,用于表征噪音文件和聚类文本的相似度是否较高。最后,将没有被进行归类噪音文本直接抛弃掉。
步骤S103,根据全部的聚类文本选取预设数量的初始数据,获取每条初始数据对应的正规化文本,并基于正规化文本生成每个聚类类别对应的一条标准化问题。
其中,每个初始数据是一组相似的聚类文本,比如“啊,对对,我觉得这个,这个内容是我比较感兴趣的”和“没错,我确实是对这块内容比较感兴趣”。从聚类文本中选取的初始数据的数量根据为每个聚类类别生成标准化问题的需要确定。
在本申请一个实施例中,获取每条初始数据对应的正规化文本,可以是通过人工标注的方式确定每组相似的聚类文本的正规化文本,比如,对于上述示例的一组相似文本:“啊,对对,我觉得这个,这个内容是我比较感兴趣的”和“没错,我确实是对这块内容比较感兴趣”,通过人工标注确定该条初始数据的正规化文本为“对,这个内容是我比较感兴趣的”。即本申请通过人工标注的方式在一组相似文本的基础上生成一条正规文本。
进一步的,基于正规化文本生成每个聚类类别对应的一条标准化问题。在本申请一个实施例中,基于正规化文本生成每个聚类类别对应的一条标准化问题,可以是通过每个正规化文本微调预设的第二预训练模型,通过微调后的第二预训练模型输出每个聚类类别对应的一条标准化问题。
具体而言,第二预训练模型可以是一个中文的天马(Pre-training withExtracted Gap-sentences for Abstractive Summarization,简称pegasus)模型,该模型是一种生成式摘要模型,它可以在预训练阶段将输入的文本的重要句子,通过其它的句子预测生成。通常,pegasus模型需要1000个样本进行微调,因此本申请可以从全部的聚类文本选取1000条初始数据进行人工标注,将1000条标注完成的数据(每条标注好的数据包括一组聚类文本和一条正规化文本),微调一个中文pegasus模型。最后,使用微调后的模型来为每个聚类类别分别得到一条标准化问题。即,在生成标准化问题时,pegasus模型输入的为任一聚类类别下所有问题拼接而成的文本,模型输出为一条单独的问题文本。
步骤S104,获取每个岗位下的多个目标关键词,通过判断每条标准化问题中是否存在任一目标关键词对每条标准化问题进行分类。
在本申请一个实施例中,获取每个岗位下的多个目标关键词,包括:先在预处理后的ASR文本库中,基于TF-IDF算法计算每个岗位在数量上限内的多个初始关键词,然后通过人工标注对每个岗位的初始关键词进行优化,获得每个岗位下的多个目标关键词。
具体而言,词频-逆文本频率指数(term frequency–inverse documentfrequency,简称TF-IDF)算法是一种统计方法,在本申请中用于评估每个岗位中的关键词的重要程度。本申请实施例在步骤S101进行了预处理后的文本库中,通过TF-IDF算法计算每个岗位在数量上限内的多个初始关键词,其中,数量上限指选取的关键词个数上限,比如,可以为100,由于不同岗位的关键词数量不同,通过TF-IDF算法为每个岗位选取100个以内的初始关键词,在选取时可按重要程度的大小先选取更为重要的关键词,直至选取出100个初始关键词,对于关键词个数不足100的岗位,根据实际情况选择。然后,对基于TFIDF算法生成的关键词列表,通过人工标注的方式对关键词列表进行优化,从关键词列表中剔除不合适的关键词,比如,与面试场景中可能提出的问题相关性较小的关键词等,从而最终得到每个岗位优化后的目标关键词。
进一步的,通过判断每条标准化问题中是否存在任一目标关键词对每条标准化问题进行分类,即比较每条标准化问题中是否存在该岗位下的所有目标关键词中的任一个,若存在,则将该标准化问题分类至该目标关键词的类别中。
由此,本申请将原始的包含多个岗位面试场景ASR文本的数据集被抽取出若干高质量的问题文本,并且每个问题都被按照其所属的不同岗位、是否包含指定关键词而进行了不同的分类,从而可以应用于后续的其它业务。
综上所述,本申请实施例的基于预训练模型的面试场景下ASR文本的数据增强方法,针对面试场景下的多个类别的海量ASR文本数据,通过纠错、聚类和增强的流程进行数据增强,可以从包含冗余内容的口语化文本中提取出多个高质量的问题文本,通过“提炼”出精简的文本内容的方式进行数据增强,能够从若干条相似文本中归纳出一条高质量的代表性文本。并且,还实现了对海量文本进行快速聚类,降低了对海量文本数据进行聚类时的时间复杂度,有利于对面试场景下的不同岗位进行更加针对性的数据增强。由此,该方法提高了对面试ASR文本进行数据增强生成的数据的质量和针对性。
基于上述实施例,为了更加清楚的描述本申请的基于预训练模型的面试场景下ASR文本的数据增强方法的具体处理流程,在本申请一个实施例中,还提出了一种具体的数据增强方法。图2为本申请实施例提出的一种具体的基于预训练模型的面试场景下ASR文本的数据增强方法的流程图。如图2所示,该方法包括以下步骤:
步骤S201,文本预处理。
步骤S202,获取文本向量。
步骤S203,文本聚类。
具体的,本步骤包括以下几个子步骤:
步骤S2031:使用Mini Batch K-means算法拆分数据集。
步骤S2032:对每个子集进行聚类。
步骤S2033:对每个噪音文本重新聚类。
步骤S204,标注数据。
步骤S205,训练文本正规化模型。
步骤S206,文本正规化。
具体的,本步骤通过训练的正规化模型进行文本正规化。
步骤S207,基于TF-IDF算法计算每个岗位的关键词。
步骤S208,人工标注调整关键词。
步骤S209,基于关键词对问题进行分类。
步骤S210,得到题库文本。
需要说明的是,该方法中各步骤的具体实现方式可参照上述实施例的相关描述,此处不再赘述。该方法在获得ASR文本库中生成了高质量的分类后的题库文本。
为了实现上述实施例,本申请还提出了一种基于预训练模型的面试场景下ASR文本的数据增强系统。图3为本申请实施例提出的一种基于预训练模型的面试场景下ASR文本的数据增强系统的结构示意图。
如图3所示,该系统包括获取模块100、聚类模块200、生成模块300和分类模块400。
其中,获取模块100,用于对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理,并获取每条ASR文本的句向量。
聚类模块200,用于基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本。
生成模块300,用于根据全部的聚类文本选取预设数量的初始数据,获取每条初始数据对应的正规化文本,并基于正规化文本生成每个聚类类别对应的一条标准化问题。
分类模块400,用于获取每个岗位下的多个目标关键词,通过判断每条标准化问题中是否存在任一目标关键词对每条标准化问题进行分类。
可选地,在本申请的一个实施例中,获取模块100,具体用于:剔除每条ASR文本中的停用词和语气词;合并连续的发言人对应的内容相同的ASR文本;将第一预训练模型在中文数据集上进行微调,通过微调后的第一预训练模型生成每条ASR文本的句向量。
可选地,在本申请的一个实施例中,机器学习库包括:Scikit-Learn库,聚类模块200,具体用于:通过Scikit-Learn库中的Mini Batch K-means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类,获得每个岗位对应的多个子类;通过Scikit-Learn库中的OPTICS库对每个子类进行基于密度的聚类,确定聚类类别,并获得每个聚类类别对应的聚类文本和噪音文本。
可选地,在本申请的一个实施例中,聚类模块200还用于:针对每个岗位,通过第一预训练模型生成当前岗位下全部的聚类文本和噪音文本的句向量;基于句向量,通过相似向量检索库判断每条噪音文本是否存在一条相似度超过相似度阈值目标聚类文本,若是,则将噪音文本归类至目标聚类文本对应的聚类类别中。
可选地,在本申请的一个实施例中,初始数据包括一组相似的聚类文本,生成模块300,具体用于:通过人工标注确定每组相似的聚类文本的正规化文本;通过每个正规化文本微调预设的第二预训练模型,通过微调后的第二预训练模型输出每个聚类类别对应的一条标准化问题。
可选地,在本申请的一个实施例中,分类模块400具体用于:在预处理后的ASR文本库中,基于TF-IDF算法计算每个岗位在数量上限内的多个初始关键词;通过人工标注对每个岗位的初始关键词进行优化,获得每个岗位下的多个目标关键词。
需要说明的是,前述对基于预训练模型的面试场景下ASR文本的数据增强方法的实施例的描述,也适用于本实施例的系统,实现原理相同,此处不再赘述。
综上所述,本申请实施例的基于预训练模型的面试场景下ASR文本的数据增强系统,针对面试场景下的多个类别的海量ASR文本数据,通过纠错、聚类和增强的流程进行数据增强,可以从包含冗余内容的口语化文本中提取出多个高质量的问题文本,通过“提炼”出精简的文本内容的方式进行数据增强,能够从若干条相似文本中归纳出一条高质量的代表性文本。并且,还实现了对海量文本进行快速聚类,降低了对海量文本数据进行聚类时的时间复杂度,有利于对面试场景下的不同岗位进行更加针对性的数据增强。由此,该系统提高了对面试ASR文本进行数据增强生成的数据的质量和针对性。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请第一方面实施例所述的基于预训练模型的面试场景下ASR文本的数据增强方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,若在多个实施例或示例中采用了对上述术语的示意性表述,不代表这些实施例或示例是相同的。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于预训练模型的面试场景下ASR文本的数据增强方法,其特征在于,包括以下步骤:
对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理,并获取每条所述ASR文本的句向量;
基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本;
根据全部的所述聚类文本选取预设数量的初始数据,获取每条所述初始数据对应的正规化文本,并基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题;
获取每个岗位下的多个目标关键词,通过判断每条所述标准化问题中是否存在任一目标关键词对每条所述标准化问题进行分类。
2.根据权利要求1所述的数据增强方法,其特征在于,所述对预先获取的大量面试场景下的自动语音识别技术ASR文本进行预处理,包括:
剔除每条所述ASR文本中的停用词和语气词;
合并发言人对应的内容相同的ASR文本;
所述获取每条所述ASR文本的句向量,包括:
将所述第一预训练模型在中文数据集上进行微调,通过微调后的第一预训练模型生成每条所述ASR文本的句向量。
3.根据权利要求1所述的数据增强方法,其特征在于,所述机器学习库包括:Scikit-Learn库,所述基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,包括:
通过所述Scikit-Learn库中的Mini Batch K-means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类,获得每个岗位对应的多个子类;
通过所述Scikit-Learn库中的OPTICS库对每个所述子类进行基于密度的聚类,确定所述聚类类别,并获得每个所述聚类类别对应的所述聚类文本和噪音文本。
4.根据权利要求3所述的数据增强方法,其特征在于,所述通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本,包括:
针对每个岗位,通过所述第一预训练模型生成当前岗位下全部的所述聚类文本和所述噪音文本的句向量;
基于句向量,通过相似向量检索库判断每条所述噪音文本是否存在一条相似度超过相似度阈值目标聚类文本,若是,则将噪音文本归类至所述目标聚类文本对应的聚类类别中。
5.根据权利要求1所述的数据增强方法,其特征在于,所述初始数据包括一组相似的聚类文本,所述获取每条所述初始数据对应的正规化文本,包括:
通过人工标注确定每组相似的聚类文本的一条正规化文本;
所述基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题,包括:
通过每个所述正规化文本微调预设的第二预训练模型,通过微调后的第二预训练模型输出每个所述聚类类别对应的一条标准化问题。
6.根据权利要求1所述的数据增强方法,其特征在于,所述获取每个岗位下的多个目标关键词,包括:
在预处理后的ASR文本库中,基于TF-IDF算法计算每个岗位在数量上限内的多个初始关键词;
通过人工标注对每个岗位的所述初始关键词进行优化,获得每个岗位下的多个目标关键词。
7.一种基于预训练模型的面试场景下ASR文本的数据增强系统,其特征在于,包括:
获取模块,用于对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理,并获取每条所述ASR文本的句向量;
聚类模块,用于基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本;
生成模块,用于根据全部的所述聚类文本选取预设数量的初始数据,获取每条所述初始数据对应的正规化文本,并基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题;
分类模块,用于获取每个岗位下的多个目标关键词,通过判断每条所述标准化问题中是否存在任一目标关键词对每条所述标准化问题进行分类。
8.根据权利要求7所述的数据增强系统,其特征在于,所述获取模块,具体用于:
剔除每条所述ASR文本中的停用词和语气词;
合并发言人对应的内容相同的ASR文本;
将所述第一预训练模型在中文数据集上进行微调,通过微调后的第一预训练模型生成每条所述ASR文本的句向量。
9.根据权利要求7所述的数据增强系统,其特征在于,所述机器学习库包括:Scikit-Learn库,所述聚类模块,具体用于:
通过所述Scikit-Learn库中的Mini Batch K-means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类,获得每个岗位对应的多个子类;
通过所述Scikit-Learn库中的OPTICS库对每个所述子类进行基于密度的聚类,确定所述聚类类别,并获得每个所述聚类类别对应的所述聚类文本和噪音文本。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的基于预训练模型的面试场景下ASR文本的数据增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065997.XA CN115455185A (zh) | 2022-09-01 | 2022-09-01 | 基于预训练模型的面试场景下asr文本的数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065997.XA CN115455185A (zh) | 2022-09-01 | 2022-09-01 | 基于预训练模型的面试场景下asr文本的数据增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115455185A true CN115455185A (zh) | 2022-12-09 |
Family
ID=84301619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211065997.XA Pending CN115455185A (zh) | 2022-09-01 | 2022-09-01 | 基于预训练模型的面试场景下asr文本的数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455185A (zh) |
-
2022
- 2022-09-01 CN CN202211065997.XA patent/CN115455185A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109146610B (zh) | 一种智能保险推荐方法、装置及智能保险机器人设备 | |
Jansen et al. | Towards spoken term discovery at scale with zero resources. | |
CN110750993A (zh) | 分词方法及分词器、命名实体识别方法及系统 | |
CN109545185B (zh) | 交互系统评价方法、评价系统、服务器及计算机可读介质 | |
CN114461852B (zh) | 音视频摘要提取方法、装置、设备及存储介质 | |
CN110738061B (zh) | 古诗词生成方法、装置、设备及存储介质 | |
CN116911289B (zh) | 政务领域大模型可信文本生成方法、装置及存储介质 | |
US9940326B2 (en) | System and method for speech to speech translation using cores of a natural liquid architecture system | |
CN116956835A (zh) | 一种基于预训练语言模型的文书生成方法 | |
CN115964484A (zh) | 基于多标签分类模型实现的法律多意图识别方法和装置 | |
EP3971732A1 (en) | Method and system for performing summarization of text | |
CN114461366A (zh) | 多任务模型训练方法、处理方法、电子设备及存储介质 | |
CN118093625A (zh) | 一种针对erp系统的财务数据查询方法、设备及介质 | |
CN111354354A (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN117975942A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN117216008A (zh) | 一种基于知识图谱的档案多模态智能编纂方法及系统 | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
US20230359837A1 (en) | Multilingual summarization of episodes using longformers | |
CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN115455185A (zh) | 基于预训练模型的面试场景下asr文本的数据增强方法 | |
CN113094471A (zh) | 交互数据处理方法和装置 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN114648984B (zh) | 音频断句方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |