CN111191032B - 语料扩充方法、装置、计算机设备和存储介质 - Google Patents
语料扩充方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111191032B CN111191032B CN201911345982.7A CN201911345982A CN111191032B CN 111191032 B CN111191032 B CN 111191032B CN 201911345982 A CN201911345982 A CN 201911345982A CN 111191032 B CN111191032 B CN 111191032B
- Authority
- CN
- China
- Prior art keywords
- corpus
- unlabeled
- feature expression
- similarity
- credibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种语料扩充方法、装置、计算机设备和存储介质。所述方法包括:获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。采用本方法可以实现标注语料的自动添加,提高语料扩充的效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种语料扩充方法、装置、计算机设备和计算机可读存储介质。
背景技术
随着计算机技术的快速发展,自然语言处理技术的应用越来越广泛。目前,自然语言处理技术主要应用于语音交互、问答系统、聊天机器人、设备控制等场景。为了提高自然语言处理的准确性,通常需要采用大量的标注语料训练文本分类模型,以使训练的文本分类模型可以根据输入文本输出准确的语义理解分类。然而,标注语料需要花费大量的人工精力进行筛选和标注,存在语料扩充效率低下的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提供语料扩充效率的语料扩充方法、装置、计算机设备和计算机可读存储介质。
一种语料扩充方法,所述方法包括:
获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;
根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;
当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。
在其中一个实施例中,所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度,还包括:
获取所述第一特征表达和所述第二特征表达之间的距离值;
根据所述可信度对所述距离值进行加权处理,得到所述未标注语料与标注语料之间的相似度。
在其中一个实施例中,所述获取所述未标注语料属于所述目标类别的可信度,包括:
将所述未标注语料输入文本分类模型,获取输出的分类向量;
所述分类向量包含所述未标注语料属于不同的类别的可信度;
从所述分类向量中获取所述目标类别对应的可信度。
在其中一个实施例中,所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度之前,还包括:
确定所述可信度是否大于可信度阈值;
当所述可信度超过所述可信度阈值时,则执行所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度的操作。
在其中一个实施例中,所述获取未标注语料集合中未标注语料对应的第二特征表达,包括:
对所述未标注语料进行固定特征识别,得到所述未标注语料的固定特征表达;
对所述未标注语料进行动态特征识别,得到所述未标注语料的动态特征表达;
拼接所述固定特征表达与所述动态特征表达,得到所述未标注语料对应的第二特征表达。
在其中一个实施例中,还包括:
获取对话日志,所述对话日志包括问题语句和答复语句;将所述答复语句转换为标准语句;
将所述问题语句与所述标准语句作为未标注语料保存至所述未标注语料集合。
在其中一个实施例中,所述将所述问题语句与所述标准语句作为未标注语料保存至所述未标注语料集合,还包括:
剔除所述对话日志中包含的词语数量小于数量阈值的问题语句;
将剔除后不存在于所述未标注语料集合的问题语句与所述标准语句,保存至所述未标注语料集合。
在其中一个实施例中,所述将所述未标注语料保存至所述标注语料集合,包括:
将所述未标注语料按照所述目标类别保存至所述标注语料集合。
一种语料扩充装置,所述装置包括:
第一获取模块,用于获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
第二获取模块,用于获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;
相似度确定模块,用于根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;
保存模块,用于当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;
根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;
当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
获取未标注语料集合中未标注语料对应的第二特征表达,及所述未标注语料属于所述目标类别的可信度;
根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度;
当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。
上述语料扩充方法、装置、计算机设备和计算机可读存储介质,通过获取语料标注集合中标注语料对应的第一特征表达及所属的目标类别、未标注语料对应的第二特征表达及属于目标类别的可信度,根据可信度、第一特征表达和第二特征表达确定未标注语料与标注语料之间的相似度,将相似度大于相似度阈值的未标注语料保存至标注语料集合,可以实现标注语料的自动添加,提高语料扩充的效率。
附图说明
图1为一个实施例中计算机设备的内部结构示意图;
图2为一个实施例中语料扩充方法的流程图;
图3为一个实施例中获取未标注语料的特征表达的流程图;
图4为一个实施例中保存未标注语料的流程图;
图5为一个实施例中语料扩充装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中计算机设备的内部结构示意图。如图1所示,在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器或终端,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语料扩充数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语料扩充方法。
图2为一个实施例中语料扩充方法的流程图。在一个实施例中,如图2所示,提供了一种语料扩充方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
步骤202,获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别。
标注语料集合保存有标注语料。标注语料是指标注有所属类别的语料。计算机设备可以获取标注语料及所属的目标类别。标注语料用于训练文本分类模型。文本分类模型是可以通过深度学习算法对输入语料进行识别分类,以确定该输入语料的语义理解分类或答复语料分类的模型。
目标类别即为标注语料所属的语义理解分类或答复语料分类。根据应用场景的,标注语料可以采用不同的分类方式。例如,应用于问答系统时,标注语料的所属类别可以是表示标准问的类别;应用于设备控制时,标注语料的所属类别可以是表示控制方式的类别等,在此不做限定。
特征表达是指将词语或句子转换为向量的表示形式。具体地,计算机设备可以对标注语料进行分词处理,得到多个词语,进而计算每个词语的词向量,根据每个词语对应的词向量确定标注语料对应的第一特征表达。
步骤204,获取未标注语料集合中未标注语料对应的第二特征表达,及未标注语料属于目标类别的可信度。
未标注语料集合包含有未标注语料。未标注语料是指未进行标注处理的语料。具体地,未标注语料可以是计算机设备获取的用户输入的语料。例如,计算机设备可以采集用户的语音数据,将语音数据转换为对应的文本内容,将该文本内容作为未标注语料;计算机设备可以获取保存的对话日志,将对话日志中的对话内容作为未标注语料。可选地,未标注语料也可以是计算机设备生成的语料等。
可信度用于表征未标注语料属于目标类别的概率。可信度越高,则未标注语料所属类别为目标类别的可能性越高。计算机设备获取未标注语料对应的第二特征表达,并获取未标注语料属于目标类别的可信度。具体地,计算机设备可以将未标注语料输入通过标注语料训练的文本分类模型,获得文本分类模型输出的未标注属于各个类别的可信度,并从中获取目标类别对应的可信度。计算机设备获取未标注语料的第二特征表达的过程与获取标注语料的第一特征表达的过程类似,在此不做赘述。
步骤206,根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度。
相似度可以表征未标注语料与标注语料之间的差异程度。相似度可以基于计算未标注语料与标注语料之间的距离来确定。具体地,计算机设备可以基于余弦距离、欧式距离、马氏距离中的至少一种确定未标注语料与标注语料之间的距离,并通过可信度对该距离进行加权处理,即可以得到未标注语料与标注语料之间的相似度。
步骤208,当相似度大于相似度阈值时,将未标注语料保存至标注语料集合。
相似度阈值可以根据实际应用需求进行设定,在此不做限定。具体地,可以综合实验数据获得的语料扩充的数量和扩充语料的准确性来设定。通常,相似度阈值越高,则扩充的语料的数量越少,准确性越高;反之,相似度阈值越低,则扩充的语料数量越多,准确性越低。例如,当相似度取值为0至1时,相似度阈值可以是0.7、0.8、0.9、0.95等。
当相似度大于相似度阈值时,则说明未标注语料和标注语料之间的差异较小,该未标注语料可以作为该标注语料所属的目标类别的扩充语料,计算机设备可以将相似度大于相似度阈值的未标注保存至标注语料集合。
具体地,计算机设备可以将未标注语料按照目标类别保存至标注语料集合。即将该未标注语料的所属类别标记为该目标类别,将未标注语料及所属的该目标类别保存至标注语料集合。
在后续的文本分类模型训练中,可以将保存至标注语料集合中的该未标注语料及所属的目标类别作为输入数据,根据文本分类模型输出的预测类别与目标类别之间的差异,对文本分类模型的参数进行调整,可以提高文本分类模型的准确性。
本申请实施例中,获取语料标注集合中标注语料对应的第一特征表达及所属的目标类别、未标注语料对应的第二特征表达及属于目标类别的可信度,根据可信度、第一特征表达和第二特征表达确定未标注语料与标注语料之间的相似度,将相似度大于相似度阈值的未标注语料保存至标注语料集合,可以实现标注语料的自动添加,提高语料扩充的效率。并且,通过持续扩充的标注语料集合训练模型,可以不断提高模型的准确性和智能化。
在一个实施例中,提供的语料扩充方法中根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度的过程,包括:获取第一特征表达和第二特征表达之间的距离值;根据可信度对距离值进行加权处理,得到未标注语料与标注语料之间的相似度。
可选地,以采用余弦距离公式计算第一特征表达和第二特征表达之间的距离值为例进行说明,计算机设备可以通过公式(1)获取距离值:
其中,Vb为第一特征表达,Vt为第二特征表达;n为第一特征表达包含的特征数量。
进一步地,计算机设备可以根据可信度对距离值进行加权处理,得到未标注语料和标注语料之间的相似度。具体地,计算机设备可以将可信度与距离值相乘,得到相似度,即
其中,L(x)表示未标注语料属于目标类别x的可信度。
通过获取第一特征表达和第二特征表达之间的距离值,根据可信度对距离值进行加权处理,得到未标注语料和标注语料之间的相似度,可以提高相似度的准确性。
在一个实施例中,提供的语料扩充方法中,获取未标注语料属于目标类别的可信度的过程,包括:将未标注语料输入文本分类模型,获取输出的分类向量;分类向量包含未标注语料属于不同的类别的可信度;从分类向量中获取目标类别对应的可信度。
文本分类模型是用于识别输入的语料所属的类别的模型。具体地,计算机设备可以将标注语料集合中的标注语料及所属类别输入深度学习模型,通过深度学习模型对标注语料进行特征识别和分析,得到预测类别,根据预测类别与标注语料所属类别的差异,调整深度学习模型的参数,得到能够准确预测语料类别的文本分类模型。在该实施例中,文本分类模型可以输出包含语料属于各个类别的可信度的分类向量。
具体地,计算机设备将未标注语料输入文本分类模型,可以获得文本分类模型输出的包含不同类别的可信度的分类向量,计算机设备可以从分类向量获取目标类别匹配的可信度。例如,若分类向量为L,L[0]表示未标注语料属于类别为0的概率,L[1]则表示未标注语料属于类别1的概率等;当目标类别为5时,则从分类向量获取的可信度为L[5]。
计算机设备在扩充语料的过程,对于标注语料集合中的每一个标注语料,计算机设备可以分别计算各个标注语料与未标注语料集合中每一个未标注语料之间的相似度,由于各个标注语料所属的类别不同,计算机设备可以从分类向量获取未标注语料对应类别的可信度进行相似度的计算,类别获取的效率高。
在一个实施例中,提供的语料扩充方法中,根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度之前,还包括:确定可信度是否大于可信度阈值;当可信度超过可信度阈值时,则执行根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度的操作。
可信度阈值可以根据实际应用需求设定,在此不做限定。可信度阈值越大,则用于确定相似度的未标注语料的越多,可能会导致语料扩充数量较少,语料扩充的速度越快;可信度阈值越小,则用于确定相似度的未标注语料的数量越多,语料扩充的速度越低。例如,当可信度的取值范围为0至1时,可信度阈值可以是0.3、0.4、0.5等,在此不做限定。在可信度与相似度的取值范围相同的情况下,可信度阈值通常小于相似度阈值。
当可信度超过可信度阈值时,计算机设备可以根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度,将相似度大于相似度阈值的未标注语料保存至标注语料集合。当可信度不超过可信度阈值时,则计算机设备可以不对该未标注语料进行处理,即确定该未标注语料不属于标注语料所属的目标类别,无法作为该目标类别的扩充语料,可以提高进一步提高语料扩充的效率,减少语料相似度的计算过程。
图3为一个实施例中获取未标注语料的特征表达的流程图。如图3所示,在一个实施例中,提供的语料扩充方法中,获取未标注语料集合中未标注语料对应的第二特征表达的过程,包括:
步骤302,对未标注语料进行固定特征识别,得到未标注语料的固定特征表达。
具体地,计算机设备可以通过word2vec模型对未标注语料进行固定特征识别,得到未标注语料的固定特征表达。word2vec模型是将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。
word2vec模型可以由gensim开源词向量训练工具训练得到。例如,当句子由词语(W1W2……Wn)组成时,得到的固定特征表达为W1至Wn向量的平均值。固定特征表达可以从词粒度反映语料的特征。
步骤304,对未标注语料进行动态特征识别,得到未标注语料的动态特征表达。
动态特征识别可以通过Bert(句子编码)模型来实现。Bert模型可以将输入的语料转换为对应的句向量,用于表达句子级别的特征。具体地,计算机设备通过Bert模型对未标注语料进行动态特征识别,得到未标注语料的句子级别特征的动态特征表达。
步骤306,拼接固定特征表达与动态特征表达,得到未标注语料对应的第二特征表达。
计算机设备将未标注语料的固定特征表达与动态特征表达进行拼接,即可以得到标注语料对应的第二特征表达。具体地,记未标注语料的固定特征表达为W,动态特征表达为B,则第二特征表达V=concat(W,B)。
类似地,计算机设备可以对标注语料进行固定特征识别和动态特征识别,将得到的标注语料对应的固定特征表达与动态特征表达进行拼接,即可以得到标注语料对应的第二特征表达。
在本实施例中,可以对未标注语料进行固定特征识别和动态特征识别,以进行拼接得到第二特征表达,第二特征表达可以从词粒度和句子级别表达未标注语料的特征,可以提高语料特征表达的准确性,进而提高语料扩充的准确性。
图4为一个实施例中保存未标注语料的流程图。在一个实施例中,提供的语料扩充方法还包括保存未标注语料的过程,如图4所示,包括:
步骤402,获取对话日志,对话日志包括问题语句和答复语句。
对话日志是计算机设备用于存储语音交互系统、问答系统、或者聊天机器人与用户进行对话产生的对话语句的文档。对话日志包括问题语句和答复语句,其中,问题语句是指用户输入的文本内容,或者用户输入的语音数据转换的文本内容;答复语句是指计算机设备基于问题语句输出给用户的文本内容。例如,问题语句为“今天天气怎么样”,对应的答复语句可以是“今天天气晴朗,温度15度至20度”。
步骤404,将答复语句转换为标准语句。
标准语句可以理解为常见问题。在问答过程中,计算机设备可以根据输入的问题语句识别用户意图,确定问题语句对应的标准语句,根据标准语句确定需要答复内容以形成答复语句。计算机设备可以在获取对话日志中的答复语句,将答复语句替换为对应的标准语句。
例如,在上述例子中,问题语句为“今天天气怎么样”对应的标准语句可以是“查询天气”,其中,根据问题语句提供的时间“今天”,计算机设备可以查询今天的天气,并结合标准语句得到答复语句“今天天气晴朗,温度15度”;则计算机设备可以将“今天天气晴朗,温度15度”替换为标准语句“查询天气”。
步骤406,将问题语句与标准语句作为未标注语料保存至未标注语料集合。
计算机设备可以将根据对话日志得到的问题语句与标准语句作为未标注语料保存至未标注语料集合,以从未标注语料集合中获得匹配的未标注语料保存至标注语料集合。
在一个实施例中,步骤406可以包括:剔除对话日志中包含的词语数量小于数量阈值的问题语句;将剔除后不存在于未标注语料集合的问题语句与标准语句,保存至未标注语料集合。
句子通常由3个或3个以上的词语构成。数量阈值可以是3个、4个等,在此不做限定。词语数量小于数量阈值,则认为该问题语句为无效语句。计算机设备可以将词语数量小于数量阈值的问题语句剔除,并确定剔除后的问题语句和标准语句是否存在于未标注语料集合,以去除重复语句,将剔除后不存在于未标注语料集合的问题语句与标准语句保存至未标注语料集合。
通过剔除词语数量小于数量阈值的问题语句,将剔除后不存在于标注语料集合的问题语句和标准语句保存至未标注语料集合,可以避免出现重复语句的计算,并减少无效语句,可以提高语料扩充的有效性。
在一个实施例中,以该语料扩充方法应用于线上机器人,按照标注语句进行分类为例说明,具体地,线上机器人可以将与用户对话的过程中产生的问题语句和答复语句保存至计算机设备的对话日志中。在进行语料扩充时,首先,计算机设备可以从对话日志中获取问题语句和答复语句,剔除词语数量小于数量阈值和重复的语句,将剔除后的问题语句和答复语句保存至未标注语料集合;接着,将标注语料集合中包含的标注语料进行特征识别,得到标注语料对应的第一特征表达,并获取所属的目标标准语句;将未标注语料集合中的未标注语料进行特征识别,得到未标注语料对应的第二特征表达,并将未标注语料输入文本分类模型,得到未标注语料属于各个标注语句的可信度;接着,计算标注语料与每一个未标注语料之间的相似度,具体地,根据未标注语料属于目标标注语句的可信度对标注语料的第一特征表达和未标注语料的第二特征表达之间的距离进行加权,得到未标注语料与标注语料之间的相似度;接着,将相似度大于相似度阈值的未标注语料,按照该目标标准语句保存至标注语料集合。进一步地,计算机设备可以通过保存后的标注语料集合对文本分类模型进行训练,以得到标准语句识别的准确性更高的文本分类模型,可以提高线上机器人答复的准确性。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种语料扩充装置,包括:第一获取模块502、第二获取模块504、相似度确定模块506和保存模块508,其中:
第一获取模块502,用于获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别。
第二获取模块504,用于获取未标注语料集合中未标注语料对应的第二特征表达,及未标注语料属于目标类别的可信度。
相似度确定模块506,用于根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度。
保存模块508,用于当相似度大于相似度阈值时,将未标注语料保存至标注语料集合。
上述语料扩充装置,用于获取语料标注集合中标注语料对应的第一特征表达及所属的目标类别、未标注语料对应的第二特征表达及属于目标类别的可信度,根据可信度、第一特征表达和第二特征表达确定未标注语料与标注语料之间的相似度,将相似度大于相似度阈值的未标注语料保存至标注语料集合,可以实现标注语料的自动添加,提高语料扩充的效率。
在一个实施例中,相似度确定模块506还可以用于获取第一特征表达和第二特征表达之间的距离值;根据可信度对距离值进行加权处理,得到未标注语料与标注语料之间的相似度。
在一个实施例中,第二获取模块504还可以用于将未标注语料输入文本分类模型,获取输出的分类向量;分类向量包含未标注语料属于不同的类别的可信度;从分类向量中获取目标类别对应的可信度。
在一个实施例中,相似度确定模块506还可用于确定可信度是否大于可信度阈值;当可信度超过可信度阈值时,则执行根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度的操作。
在一个实施例中,第二获取模块504还可用于对未标注语料进行固定特征识别,得到未标注语料的固定特征表达;对未标注语料进行动态特征识别,得到未标注语料的动态特征表达;拼接固定特征表达与动态特征表达,得到未标注语料对应的第二特征表达。
在一个实施例中,提供的语料扩充装置还可以包括未标注语料获取模块510,未标注语料获取模块510可以用于获取对话日志,对话日志包括问题语句和答复语句;将答复语句转换为标准语句;将问题语句与标准语句作为未标注语料保存至未标注语料集合。
在一个实施例中,未标注语料获取模块510还可以用于剔除对话日志中包含的词语数量小于数量阈值的问题语句;将剔除后不存在于未标注语料集合的问题语句与标准语句,保存至未标注语料集合。
在一个实施例中,保存模块508还可以用于将未标注语料按照目标类别保存至标注语料集合。
关于语料扩充装置的具体限定可以参见上文中对于语料扩充方法的限定,在此不再赘述。上述语料扩充装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
此外,本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
获取未标注语料集合中未标注语料对应的第二特征表达,及未标注语料属于目标类别的可信度;
根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度;
当相似度大于相似度阈值时,将未标注语料保存至标注语料集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取第一特征表达和第二特征表达之间的距离值;
根据可信度对距离值进行加权处理,得到未标注语料与标注语料之间的相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将未标注语料输入文本分类模型,获取输出的分类向量;
分类向量包含未标注语料属于不同的类别的可信度;
从分类向量中获取目标类别对应的可信度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定可信度是否大于可信度阈值;
当可信度超过可信度阈值时,则执行根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度的操作。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对未标注语料进行固定特征识别,得到未标注语料的固定特征表达;
对未标注语料进行动态特征识别,得到未标注语料的动态特征表达;
拼接固定特征表达与动态特征表达,得到未标注语料对应的第二特征表达。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取对话日志,对话日志包括问题语句和答复语句;将答复语句转换为标准语句;
将问题语句与标准语句作为未标注语料保存至未标注语料集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
剔除对话日志中包含的词语数量小于数量阈值的问题语句;
将剔除后不存在于未标注语料集合的问题语句与标准语句,保存至未标注语料集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将未标注语料按照目标类别保存至标注语料集合。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
获取未标注语料集合中未标注语料对应的第二特征表达,及未标注语料属于目标类别的可信度;
根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度;
当相似度大于相似度阈值时,将未标注语料保存至标注语料集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取第一特征表达和第二特征表达之间的距离值;
根据可信度对距离值进行加权处理,得到未标注语料与标注语料之间的相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将未标注语料输入文本分类模型,获取输出的分类向量;
分类向量包含未标注语料属于不同的类别的可信度;
从分类向量中获取目标类别对应的可信度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定可信度是否大于可信度阈值;
当可信度超过可信度阈值时,则执行根据可信度、第一特征表达、第二特征表达确定未标注语料与标注语料之间的相似度的操作。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对未标注语料进行固定特征识别,得到未标注语料的固定特征表达;
对未标注语料进行动态特征识别,得到未标注语料的动态特征表达;
拼接固定特征表达与动态特征表达,得到未标注语料对应的第二特征表达。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取对话日志,对话日志包括问题语句和答复语句;将答复语句转换为标准语句;
将问题语句与标准语句作为未标注语料保存至未标注语料集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
剔除对话日志中包含的词语数量小于数量阈值的问题语句;
将剔除后不存在于未标注语料集合的问题语句与标准语句,保存至未标注语料集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将未标注语料按照目标类别保存至标注语料集合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种语料扩充方法,所述方法包括:
获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
获取未标注语料集合中未标注语料对应的第二特征表达;
将所述未标注语料输入文本分类模型,获取输出的分类向量;所述分类向量包含所述未标注语料属于不同的类别的可信度;所述文本分类模型是通过所述标注语料训练的;
从所述分类向量中包含的属于不同的类别的可信度中,获取所述目标类别对应的可信度;
根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度的操作,包括:获取所述第一特征表达和所述第二特征表达之间的距离值;根据所述可信度对所述距离值进行加权处理,得到所述未标注语料与标注语料之间的相似度;
当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。
2.根据权利要求1所述的方法,其特征在于,所述目标类别包括标注语料所属的语义理解分类或答复语料分类。
3.根据权利要求1所述的方法,其特征在于,所述相似度用于表征未标注语料与标注语料之间的差异程度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述可信度是否大于可信度阈值;
当所述可信度超过所述可信度阈值时,则执行所述根据所述可信度、第一特征表达、第二特征表达确定所述未标注语料与标注语料之间的相似度的操作。
5.根据权利要求1所述的方法,其特征在于,所述获取未标注语料集合中未标注语料对应的第二特征表达,包括:
对所述未标注语料进行固定特征识别,得到所述未标注语料的固定特征表达;
对所述未标注语料进行动态特征识别,得到所述未标注语料的动态特征表达;
拼接所述固定特征表达与所述动态特征表达,得到所述未标注语料对应的第二特征表达。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取对话日志,所述对话日志包括问题语句和答复语句;
将所述答复语句转换为标准语句;
将所述问题语句与所述标准语句作为未标注语料保存至所述未标注语料集合。
7.根据权利要求6所述的方法,其特征在于,所述将所述问题语句与所述标准语句作为未标注语料保存至所述未标注语料集合,还包括:
剔除所述对话日志中包含的词语数量小于数量阈值的问题语句;
将剔除后不存在于所述未标注语料集合的问题语句与所述标准语句,保存至所述未标注语料集合。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述将所述未标注语料保存至所述标注语料集合,包括:
将所述未标注语料按照所述目标类别保存至所述标注语料集合。
9.一种语料扩充装置,其特征在于,所述装置包括:
第一获取模块,用于获取标注语料集合中标注语料对应的第一特征表达及所属的目标类别;
第二获取模块,用于获取未标注语料集合中未标注语料对应的第二特征表达,将所述未标注语料输入文本分类模型,获取输出的分类向量;所述分类向量包含所述未标注语料属于不同的类别的可信度;所述文本分类模型是通过所述标注语料训练的;从所述分类向量中包含的属于不同的类别的可信度中,获取所述目标类别对应的可信度;
相似度确定模块,用于获取所述第一特征表达和所述第二特征表达之间的距离值;根据所述可信度对所述距离值进行加权处理,得到所述未标注语料与标注语料之间的相似度;
保存模块,用于当所述相似度大于相似度阈值时,将所述未标注语料保存至所述标注语料集合。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345982.7A CN111191032B (zh) | 2019-12-24 | 2019-12-24 | 语料扩充方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345982.7A CN111191032B (zh) | 2019-12-24 | 2019-12-24 | 语料扩充方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191032A CN111191032A (zh) | 2020-05-22 |
CN111191032B true CN111191032B (zh) | 2023-09-12 |
Family
ID=70705883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911345982.7A Active CN111191032B (zh) | 2019-12-24 | 2019-12-24 | 语料扩充方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191032B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015897B (zh) * | 2020-08-27 | 2023-04-07 | 中国平安人寿保险股份有限公司 | 语料的意图标注方法、装置、设备及存储介质 |
CN112348284A (zh) * | 2020-11-25 | 2021-02-09 | 新智数字科技有限公司 | 一种电力负荷预测方法、装置、可读介质及电子设备 |
CN112926621B (zh) * | 2021-01-21 | 2024-05-10 | 百度在线网络技术(北京)有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN113554107A (zh) * | 2021-07-28 | 2021-10-26 | 工银科技有限公司 | 语料集的生成方法、装置、设备、存储介质和程序产品 |
CN113656534A (zh) * | 2021-08-26 | 2021-11-16 | 北京百度网讯科技有限公司 | 语料扩充方法、装置、设备和介质 |
CN114492306A (zh) * | 2021-11-16 | 2022-05-13 | 马上消费金融股份有限公司 | 语料标注方法、装置、电子设备及存储介质 |
CN115221886B (zh) * | 2022-09-20 | 2022-11-25 | 中科雨辰科技有限公司 | 一种未标注文本库处理方法及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170670A (zh) * | 2017-12-08 | 2018-06-15 | 东软集团股份有限公司 | 待标注语料的分配方法、装置、可读存储介质及电子设备 |
CN108376133A (zh) * | 2018-03-21 | 2018-08-07 | 北京理工大学 | 基于情感词扩充的短文本情感分类方法 |
CN110334197A (zh) * | 2019-06-28 | 2019-10-15 | 科大讯飞股份有限公司 | 语料处理方法及相关装置 |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
-
2019
- 2019-12-24 CN CN201911345982.7A patent/CN111191032B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170670A (zh) * | 2017-12-08 | 2018-06-15 | 东软集团股份有限公司 | 待标注语料的分配方法、装置、可读存储介质及电子设备 |
CN108376133A (zh) * | 2018-03-21 | 2018-08-07 | 北京理工大学 | 基于情感词扩充的短文本情感分类方法 |
CN110334197A (zh) * | 2019-06-28 | 2019-10-15 | 科大讯飞股份有限公司 | 语料处理方法及相关装置 |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
Non-Patent Citations (1)
Title |
---|
田星 ; 郑瑾 ; 张祖平 ; .基于词向量的Jaccard相似度算法.计算机科学.2018,(07),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111191032A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191032B (zh) | 语料扩充方法、装置、计算机设备和存储介质 | |
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN110765763B (zh) | 语音识别文本的纠错方法、装置、计算机设备和存储介质 | |
CN110162627B (zh) | 数据增量方法、装置、计算机设备及存储介质 | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN109446514B (zh) | 新闻实体识别模型的构建方法、装置和计算机设备 | |
CN109960725B (zh) | 基于情感的文本分类处理方法、装置和计算机设备 | |
WO2021114840A1 (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
JP6909832B2 (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
CN109063217B (zh) | 电力营销系统中的工单分类方法、装置及其相关设备 | |
CN110472224B (zh) | 服务质量的检测方法、装置、计算机设备和存储介质 | |
CN110909539A (zh) | 语料库的词语生成方法、系统、计算机设备和存储介质 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN110502610A (zh) | 基于文本语义相似度的智能语音签名方法、装置及介质 | |
CN113849648B (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN111680132B (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN112766319A (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN112446218A (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN111583911A (zh) | 基于标签平滑的语音识别方法、装置、终端及介质 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及系统 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |