CN111177321A

CN111177321A - 一种确定语料的方法、装置、设备及存储介质

Info

Publication number: CN111177321A
Application number: CN201911380031.3A
Authority: CN
Inventors: 李玉信; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19
Anticipated expiration: 2039-12-27
Also published as: CN111177321B

Abstract

本申请公开了一种确定语料的方法、装置、设备及存储介质，包括：计算出已标注语料中的多个标注词相对于语料库的TF‑IDF值；根据多个标注词对应的TF‑IDF值，确定目标主题以及目标词，该目标主题与已标注语料之间的相关性小于其它主题与该已标注语料之间的相关性，目标词与该目标主题之间的相关性高于多个标注词中的其它标注词与该目标主题之间的相关性；最后，根据目标词与未标注语料中每篇语料之间的相关性，从未标注语料中确定出目标语料，该目标词与目标语料之间的相关性高于目标词与未标注语料中其它语料之间的相关性。可见，从未标注语料中针对性的确定出与该目标主题具有较高相关性的语料，可以提高后续训练得到的标注模型的准确性。

Description

一种确定语料的方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种确定语料的方法、装置、设备及存储介质。

背景技术

在利用监督学习算法对自然语言进行标注处理时，可以根据已经标注的语料数据来训练出相应的标注模型，并利用该标注模型对未标注的语料执行相应的标注任务，从而无需人工对所有语料进行标注，并提高语料标注效率。比如，在对文本中的词进行词性标注时，可以预先利用人工完成词性标注的语料训练出词性标注模型，这样，利用该词性标注模型可以对该文本(未进行词性标注的语料)进行词性标注。

通常情况下，当标注模型对未标注语料进行标注的准确性较低时，可以通过新增标注语料的方式来丰富训练标注模型时所使用的标注语料，以期望达到提高标注模型的标注准确性的目的。但是，实际应用中，经常存在即使多次新增标注语料，标注模型的准确性仍然无法得到提升的情况。

发明内容

为了解决上述问题，本申请实施例提供了一种确定语料的方法、装置、设备及存储介质，以确定出能够提高标注模型对语料进行标注的准确性的语料。

第一方面，本申请实施例提供了一种确定语料的方法，所述方法包括：

计算出已标注语料中的多个标注词相对于语料库的词频-逆文本词频TF-IDF值，所述语料库包括已标注语料以及未标注语料；

根据所述多个标注词对应的TF-IDF值，确定目标主题，所述目标主题与所述已标注语料之间的相关性小于其它主题与所述已标注语料之间的相关性；

根据所述多个标注词对应的TF-IDF值，从所述多个标注词中确定出目标词，所述目标词与所述目标主题之间的相关性高于所述多个标注词中的其它标注词与所述目标主题之间的相关性；

根据所述目标词与所述未标注语料中每篇语料之间的相关性，从所述未标注语料中确定出目标语料，所述目标词与目标语料之间的相关性高于所述目标词与所述未标注语料中其它语料之间的相关性。

在一些可能的实施方式中，所述计算出已标注语料中的多个标注词相对于语料库的词频-逆文本词频TF-IDF值，包括：

计算第一标注词在第一语料中出现的次数与所述第一语料的总字数的比值，并将所述比值作为所述第一标注词相对于所述第一语料的第一词频TF值，所述第一标注词为所述多个标注词中的任意一个标注词，所述第一语料为所述已标注语料中任意一篇语料；

计算所述第一标注词相对于所述语料库的第一逆文本词频IDF值；

计算所述第一标注词对应的所述第一TF值与所述第一IDF值的乘积，得到所述第一标注词在第一语料中对应的第一TF-IDF值。

在一些可能的实施方式中，所述根据所述多个标注词对应的TF-IDF值，确定目标主题，包括：

根据所述多个标注词相对于语料库的TF-IDF值，生成所述标注词与所述已标注语料的关系矩阵；

对所述关系矩阵进行奇异值分解，获得第一矩阵，所述第一矩阵表征所述已标注语料与主题的关系；

根据所述第一矩阵每个所述标注词对应的值确定出所述目标主题。

在一些可能的实施方式中，对所述关系矩阵进行奇异值分解后还获得第二矩阵以及第三矩阵，所述第二矩阵表征语义类与主题的关系，所述第三矩阵表征所述标注词与所述语义类的关系；

所述从所述多个标注词中确定出目标词，所述目标词与所述目标主题之间的相关性高于所述多个标注词中的其它标注词与所述目标主题之间的相关性，包括：

根据所述第二矩阵确定目标语义类，所述目标语义类与所述目标主题之间的相关性高于其它语义类与所述目标主题之间的相关性；

根据所述第三矩阵确定所述目标词，所述目标词与所述目标语义类之间的相关性高于所述多个标注词中的其它标注词与所述语义类之间的相关性。

在一些可能的实施方式中，所述根据所述目标词与所述未标注语料中每篇语料之间的相关性，从所述未标注语料中确定出目标语料，包括：

计算所述目标词相对于所述未标注语料中每篇语料的第二TF值以及所述目标词相对于所述语料库的第二IDF值；

计算所述第二TF值与所述第二IDF值的乘积，得到所述目标词对应的第二TF-IDF值；

根据所述目标词针对于所述未标注语料中每篇语料对应的第二TF-IDF值，从所述未标注语料中确定出目标语料，所述目标词针对于所述目标语料对应的第二TF-IDF值高于所述目标词针对于所述未标注语料中其它语料对应的第二TF-IDF值。

在一些可能的实施方式中，当所述目标词包括多个标注词时，所述目标词对应的第二TF-IDF值为所述目标词中的各个标注词针对于所述未标注语料中每篇语料对应的第二TF-IDF值之和。

在一些可能的实施方式中，所述方法还包括：

获取目标标注语料，所述目标标注语料是对所述目标语料进行人工标注得到；

基于所述目标标注语料以及所述已标注语料对标注模型进行训练。

第二方面，本申请实施例还提供了一种确定语料的装置，所述装置包括：

计算模块，用于计算出已标注语料中的多个标注词相对于语料库的词频-逆文本词频TF-IDF值，所述语料库包括已标注语料以及未标注语料；

第一确定模块，用于根据所述多个标注词对应的TF-IDF值，确定目标主题，所述目标主题与所述已标注语料之间的相关性小于其它主题与所述已标注语料之间的相关性；

第二确定模块，用于根据所述多个标注词对应的TF-IDF值，从所述多个标注词中确定出目标词，所述目标词与所述目标主题之间的相关性高于所述多个标注词中的其它标注词与所述目标主题之间的相关性；

第三确定模块，用于根据所述目标词与所述未标注语料中每篇语料之间的相关性，从所述未标注语料中确定出目标语料，所述目标词与目标语料之间的相关性高于所述目标词与所述未标注语料中其它语料之间的相关性。

在一些可能的实施方式中，所述计算模块，包括：

第一计算单元，用于计算第一标注词在第一语料中出现的次数与所述第一语料的总字数的比值，并将所述比值作为所述第一标注词相对于所述第一语料的第一词频TF值，所述第一标注词为所述多个标注词中的任意一个标注词，所述第一语料为所述已标注语料中任意一篇语料；

第二计算单元，用于计算所述第一标注词相对于所述语料库的第一逆文本词频IDF值；

第三计算单元，用于计算所述第一标注词对应的所述第一TF值与所述第一IDF值的乘积，得到所述第一标注词在第一语料中对应的第一TF-IDF值。

在一些可能的实施方式中，所述第一确定模块，包括：

生成单元，用于根据所述多个标注词相对于语料库的TF-IDF值，生成所述标注词与所述已标注语料的关系矩阵；

奇异值分解单元，用于对所述关系矩阵进行奇异值分解，获得第一矩阵，所述第一矩阵表征所述已标注语料与主题的关系；

第一确定单元，用于根据所述第一矩阵每个所述标注词对应的值确定出所述目标主题。

所述第二确定模块，包括：

第二确定单元，用于根据所述第二矩阵确定目标语义类，所述目标语义类与所述目标主题之间的相关性高于其它语义类与所述目标主题之间的相关性；

第三确定单元，用于根据所述第三矩阵确定所述目标词，所述目标词与所述目标语义类之间的相关性高于所述多个标注词中的其它标注词与所述语义类之间的相关性。

在一些可能的实施方式中，所述第三确定模块，包括：

第四计算单元，用于计算所述目标词相对于所述未标注语料中每篇语料的第二TF值以及所述目标词相对于所述语料库的第二IDF值；

第五计算单元，用于计算所述第二TF值与所述第二IDF值的乘积，得到所述目标词对应的第二TF-IDF值；

第四确定单元，用于根据所述目标词针对于所述未标注语料中每篇语料对应的第二TF-IDF值，从所述未标注语料中确定出目标语料，所述目标词针对于所述目标语料对应的第二TF-IDF值高于所述目标词针对于所述未标注语料中其它语料对应的第二TF-IDF值。

在一些可能的实施方式中，所述装置还包括：

获取模块，用于获取目标标注语料，所述目标标注语料是对所述目标语料进行人工标注得到；

训练模块，用于基于所述目标标注语料以及所述已标注语料对标注模型进行训练。

第三方面，本申请实施例还提供了一种设备，所述设备包括存储器以及处理器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行上述第一方面中任一种实施方式所述的确定语料的方法

第四方面，本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述第一方面中任一种实施方式所述的确定语料的方法。

在本申请实施例的上述实现方式中，可以先计算出已标注语料中的多个标注词相对于语料库的TF-IDF值，该语料库包括未标注语料以及用于训练标注模型的已标注语料；然后，根据多个标注词对应的TF-IDF值，确定目标主题，该目标主题与已标注语料之间的相关性小于其它主题与该已标注语料之间的相关性；同时，还可以根据多个标注词对应的TF-IDF值，从多个标注词中确定出目标词，所确定出的目标词与该目标主题之间的相关性高于多个标注词中的其它标注词与该目标主题之间的相关性；最后，根据所确定出的目标词与未标注语料中每篇语料之间的相关性，可以从未标注语料中确定出目标语料，该目标词与目标语料之间的相关性高于目标词与未标注语料中其它语料之间的相关性。可见，由于所确定出的目标主题与已标注语料之间的相关性较小，表明已标注语料中缺少与该目标主题具有较高相关性的语料，这使得基于该已标注语料所训练得到的标注模型在对与该目标主题具有较高相关性的语料进行标注时难以实现较高的准确性，因此，可以从未标注语料中针对性的确定出与该目标主题具有较高相关性的语料。这样，在对该语料完成人工标注后，利用该人工标注的语料再对标注模型进行训练，可以使得所训练得到的标注模型能够更准确的对与该目标主题具有较高相关性的语料进行标注，从而提高了标注模型的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一示例性应用场景示意图；

图2为本申请实施例中一种确定语料的方法流程示意图；

图3为本申请实施例中一种确定语料的装置结构示意图；

图4为本申请实施例中一种设备的硬件结构示意图。

具体实施方式

目前，为了提高语料标注的效率，通常是利用预先训练的标注模型对语料进行标注。而在训练标注模型的过程中，如果该标注模型的标注准确性未达到要求，则可以是为该标注模型新增人工标注的语料的方式来丰富训练标注模型时所使用的标注语料，以期望提高标注模型标注语料时的准确性。但是，实际应用中经常存在即使多次新增人工标注的语料，标注模型的准确性仍然无法得到提升的情况。

发明人经研究发现，新增人工标注语料后标注模型的准确性仍然无法得到提升的原因在于，标注模型的准确性受标注语料所包含信息是否全面的影响，即如果当前用于训练标注模型所使用的标注语料中包含的信息全面程度不够或者信息占比不均匀，而所新增的标注语料又没有包含已有标注语料所未包含的信息或者信息占比很少，这使得基于该新增标注语料所训练得到的标注模型的准确性仍然无法得到有效提升。以标注模型标注“苹果”的含义为例，其在实际应用中，“苹果”可以是指代一种水果，也可以是指代一种终端品牌，此时，如果当前训练标注模型所使用的标注语料中大多数标注“苹果”为一种水果，而没有标注或者很少标注“苹果”是一种终端品牌，这会导致训练得到的标注模型在对描述“苹果”终端品牌的文本(如介绍新推出的“苹果”手机文本等)进行标注时，很可能会将该文本中出现的“苹果”标注成水果，而不是标注成终端品牌，这就使得标注模型的准确性较低。

基于此，本申请实施例提供了一种确定语料的方法，旨在针对性的确定出用于训练标注模型的新增语料，以便于基于被标注的新增语料来提高标注模型的准确性。具体的，可以先计算出已标注语料中的多个标注词相对于语料库的词频-逆文本词频(termfrequency–inverse document frequency，TF-IDF)值，该语料库包括未标注语料以及用于训练标注模型的已标注语料；然后，根据多个标注词对应的TF-IDF值，确定目标主题，该目标主题与已标注语料之间的相关性小于其它主题与该已标注语料之间的相关性；同时，还可以根据多个标注词对应的TF-IDF值，从多个标注词中确定出目标词，所确定出的目标词与该目标主题之间的相关性高于多个标注词中的其它标注词与该目标主题之间的相关性；最后，根据所确定出的目标词与未标注语料中每篇语料之间的相关性，可以从未标注语料中确定出目标语料，该目标词与目标语料之间的相关性高于目标词与未标注语料中其它语料之间的相关性。

可见，由于所确定出的目标主题与已标注语料之间的相关性较小，表明已标注语料中缺少与该目标主题具有较高相关性的语料，这使得基于该已标注语料所训练得到的标注模型在对与该目标主题具有较高相关性的语料进行标注时难以实现较高的准确性，因此，可以从未标注语料中针对性的确定出与该目标主题具有较高相关性的语料。这样，在对所确定出的语料完成人工标注后，利用该人工标注的语料再对标注模型进行训练，可以使得所训练得到的标注模型能够更准确的对与该目标主题具有较高相关性的语料进行标注，从而提高了标注模型的准确性。

作为一种示例，本申请实施例可以应用于如图1所示的示例性应用场景。在该场景中，用户101可以利用终端102训练出标注模型。具体实现时，用户101可以预先对语料库中的部分语料进行标注，并利用已标注的语料训练得到标注模型。由于所训练得到的标注模型的准确性为达到预设期望，则终端102可以计算出已标注语料中的多个标注词相对于语料库的TF-IDF值，，并根据多个标注词对应的TF-IDF值，确定出与已标注语料之间的相关性较小的主题；然后，终端102可以从多个标注词中确定出与该主题之间的相关性较高的标注词，并根据所确定出的标注词与未标注语料中每篇语料之间的相关性，从未标注语料中确定出与目标语料之间的相关性较高的语料，并将该语料呈现给用户101，以便用户101对呈现的语料进行相应的标注。这样，终端102基于用户101标注后的语料以及当前已标注语料对标注模型再次进行训练后，可以提高所得到的标准模型的标注准确性。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。比如，在其它可能的场景中，终端102上的计算资源有限，则终端102可以将语料库发送至服务器，以请求服务器执行上述处理过程。总之，本申请实施例可以应用于任何可适用的场景中，而不局限于上述场景示例。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面将结合附图对本申请实施例中的各种非限定性实施方式进行示例性说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

参阅图2，图2示出了本申请实施例中一种确定语料的方法的流程示意图。该方法可以是由上述图1所示的终端102进行处理，也可以是由上述其它场景示例中所述的服务器进行处理，当然也可以是终端102与上述服务器协同处理等。具体的，该方法可以包括：

S201：计算出已标注语料中的多个标注词相对于语料库的TF-IDF值，其中，该语料库包括已标注语料以及未标注语料。

本实施例中，语料库中可以包括已标注语料以及未标注语料这两种语料，其中，已标注语料可以是由人工完成标注的语料，而未标注语料即为尚未被标注的语料。可以理解，由于语料库中的语料数量较为庞大，如果全部都以人工标注的方式对语料库中的语料进行标注，不仅需要耗费大量的人工，人力成本较高，而且，标注语料的效率也较低。因此，实际应用中，可以是对语料库中的部分语料进行人工标注，该人工完成标注的语料即为上述已标注语料；然后，利用该人工标注的语料可以训练出相应的标注模型，从而利用利用训练得到的标注模型对语料库中剩余未标注的语料进行标注，不仅可以减少人工需要标注的语料数量，而且，标注语料的效率也可以得到有效提高。值得注意的是，当对标注模型进行多次训练后，该标注模型所标注的语料也可以作为已标注语料，此时，已标注语料中可以包括人工标注语料以及标注模型所标注出的语料。相应的，利用标注模型对未标注语料进行标注，这就对标注模型标注语料的准确性存在一定要求。为此，本实施例中旨在确定出能够提高标注模型的标注准确性的语料，以便利用该语料对标注模型进行训练后，标注模型的准确性可以得到有效提升。

首先，本实施例中可以计算出已标注语料中的多个标注词相对于语料库的TF-IDF值。具体实现时，对于已标注语料中多个已经被标注的词(为便于描述，以下称之为标注词)，可以分别计算出每篇语料中的每个标注词相对于语料库的TF-IDF，当然，同一标注词在不同语料中的词频可以不同，因此，不同语料中的同一标注词可以对应于不同的TF-IDF值。其中，每个标注词对应的TF-IDF值，可以是通过计算该标注词相对于其所在语料中的TF(词频)以及该标注词相对于语料库的IDF(逆文本频率)的乘积得到。

实际应用的一些场景中，虽然对已标注语料中的词进行了标注，但是可能并没有对该已标注语料进行分词处理，从而可能无法统计得到该已标注语料中每篇语料所包含的词的总数，从而影响标注词在语料中的词频计算。基于此，在一些可能的实施方式中，可以是通过将语料的总字数作为该语料的总词数以确定出标注词在语料中的词频，具体的，以计算第一标注词在第一语料中的词频为例，可以统计该第一标注词在第一语料中出现的次数，然后，可以统计该第一语料的总字数，从而可以进一步计算出该第一标注词在第一语料中出现的次数与第一语料的总字数之间的比值，并将该比值作为该第一标注词在该第一语料中的TF值(以下称之为第一TF值)。需要说明的是，上述第一标注词，是指已标注语料的多个标注词中任意一个标注词，而上述第一语料为已标注语料中的任意一篇语料。举例来说，假设第一标注词为“苹果”，并且在第一语料中一共出现3次，而若第一语料的总字数为200，则该第一标注词的词频即为0.15(即3/200)。按照上述计算第一标注词在第一语料中的词频的过程，可以计算得到每个标注词相对于其所在语料中的词频。

当然，在其它可能的实施方式中，也可以是通过计算字数的比值来确定出标注词的词频。具体的，可以统计该第一标注词在第一语料中出现的总字数以及该第一语料的总字数，然后，计算两个总字数的比值即可得到该第一标注词在第一语料中的词频。仍以第一标注词为“苹果”为例，假设“苹果”在第一语料中一共出现3次，则该第一标注词“苹果”在第一语料中出现的总字数为6(即为2+2+2或2*3)，而若第一语料的总字数为200，则该第一标注词的词频即为0.03(即6/200)。

在计算出第一标注词相对于第一语料的第一TF值后，可以继续计算出第一标注词相对于语料库的第一IDF值，具体可以是根据语料库中包含该第一标注词的语料数与语料库所包含的语料总数进行计算得到。这样，在得到第一标注词对应的第一TF值以及第一IDF值后，可以计算该第一TF值与第一IDF值的乘积，得到该第一标注词在第一语料中对应的第一TF-IDF值。按照计算第一标注词对应的第一TF-IDF值的过程，可以计算得到每个标注词所对应的TF-IDF值。实际应用中，可以是对每篇语料中的标注词所对应的TF-IDF值进行并集处理，从而可以得到由标注语料中所有标注词对应的TF-IDF值所构成的集合，并且，对于同一篇语料中出现的相同标注词，可以通过并集处理进行合并。

S202：根据多个标注词对应的TF-IDF值，可以确定出目标主题，该目标主题与已标注语料之间的相关性小于其它主题与该已标注语料之间的相关性。

本实施例中，在确定出每个标注词对应的TF-IDF值后，可以确定出与已标注语料之间的相关性较小的主题(以下称之为目标主题)。可以理解，如果目标主题与已标注语料之间的相关性较小，表明该已标注语料中包含该目标主题的语料较少，从而基于当前的已标注语料所训练得到的标注模型对语料进行标注时，如果所需标注的语料与该目标主题又有较强的相关性，则该标注模型对该语料进行标注时的准确性可能较低。因此，本实施例中，可以根据多个标注词对应的TF-IDF值确定出与已标注语料之间的相关性较小的目标主题，以便后续向已标注语料中添加符合该目标主题的标注语料。

在一种确定目标主题的示例性实施方式中，可以通过奇异值分解的方式确定出目标主题。具体的，可以根据多个标注词相对于语料库的TF-IDF值，生成标注词与已标注语料的关系矩阵，其中，该关系矩阵中的每一个元素为标注词相对于不同已标注语料的TF-IDF值(可以理解，当某篇语料不包含该标注词时，该标注词的词频为0，相应的，该标注词在该篇语料中的TF-IDF值为0)。在一些示例中，该关系矩阵的不同行可以表征不同的标注词，该关系矩阵的不同列可以表征已标注语料中的不同语料，如以下矩阵所示：

其中，l₁至l_k分别表征不同的标注词(假设标注词的数量为k)，d₁至d_n分别表征语料库中的不同语料(假设语料的数量为n)，a₁₁至a_kn分别表征各个标注词在已标注语料的各篇语料中对应的TF-IDF值。

当然，实际应用中，所构建的关系矩阵也可以是其它形式，比如，该关系矩阵的不同列可以表征不同的标注词，而该关系矩阵的不同行可以表征已标注语料中的不同语料等。

在生成标注词与已标注语料的关系矩阵后，可以根据奇异值分解算法对该关系矩阵进行奇异值分解，获得第一矩阵，该第一矩阵可以表征已标注语料与主题的关系。例如，假设上述关系矩阵为A_k×n，则对该关系矩阵进行奇异值分解后，可以得到A_k×n＝X_k×pB_p× _qY_q×n，其中，Y_q×n即为上述第一矩阵。该第一矩阵为对语料进行分类所的得到的分类结果，该第一矩阵的不同列可以表示不同语料，不同行可以表示不同主题。在该第一矩阵中，每一列中的每个元素表示这篇语料在不同主题中的相关性大小，若一列中的元素值越大，表示该语料和对应的主题越相关，反之，若一列中的元素值越小，表明该语料和对应的主题之间的相关性越小。当然，在其它实施方式中，该第一矩阵的行可以表示语料，列表示主题等。

然后，可以根据该第一矩阵中每个标注词对应的值确定出与已标注语料之间的相关性较小的目标主题。作为一种示例，对于第一矩阵中的每一列，先遍历出该列中的最大值，并将该最大值置1，该列中的其余元素至0，当然，若该列中同时存在多个最大值，则可以将该多个最大值均置1，以此可以得到新的矩阵。然后，可以计算出该新的矩阵中每一行元素的和，并将和值最小的行对应的主题确定为目标主题。实际应用中，计算出该新的矩阵的中每一行元素的和后，可以基于不同行所对应的和值生成向量

该

中每一个元素对应一个主题，从而从该

中可以遍历得到最小值所对应的主题。假设该主题为y_i，则有：

S203：根据多个标注词对应的TF-IDF值，从多个标注词中确定出目标词，该目标词与目标主题之间的相关性高于多个标注词中的其它标注词与该目标主题之间的相关性。

在确定出与已标注语料之间的相关性较小的目标主题后，可以向训练标注模型的已标注语料中添加与该目标主题具有较高相关性的语料，以便可以向训练标注模型所需的已标注语料中补充该目标主题下的语料。本实施例中，可以是利用与该目标主题具有较高相关性的词(以下称之为目标词)从未标注语料中挑选语料以加入已标注语料中，而挑选语料所依据的目标词可以是从多个标注词中进行确定。

具体实现时，可以是根据多个标注词对应的TF-IDF值，从多个标注词中确定出与目标主题之间具有较高相关性的目标词，该目标词与目标主题之间的相关性具体可以是高于上述多个标注词中的其它标注词与目标主题之间的相关性。

在一种确定目标词的示例性实施方式中，在基于多个标注词对应的TF-IDF值生成关系矩阵，并对该关系矩阵进行奇异值分解后，除了可以获得第一矩阵以外，还可以获得第二矩阵以及第三矩阵，如X_k×p(第二矩阵)和B_p×q(第三矩阵)等。其中，该第二矩阵可以表征语义类与主题之间的关系，例如，该第二矩阵的不同行可以表示不同的语义类，不同列可以表示不同的主题，每一行的每个元素可以表示这个语义类和主题的相关性大小。第三矩阵可以表征标注词与语义类之间的关系，例如，该第三矩阵的不同行可以表示不同的标注词，不同列可以表示不同语义类，每一行的每个元素可以表示该行指示的标注词在语义类中的重要性(或相关性)，通常情况下，元素的数值越大，表明标注词与语义类之间越相关，反之，数值越大，表明标注词与语义类之间的相关性越小。

在从第一矩阵中确定出目标主题后，可以进一步确定出该目标主题所在的行号，假设行号为i，则，基于第一矩阵与第二矩阵之间的运算规则，可以对第二矩阵中第i列的元素进行遍历，确定出该第二矩阵的第i列元素中的最大值，该最大值对应的行所对应的语义类即可表示与目标主题i最相关的语义类(即相关性最高)。假设该最大值对应的行号为r，则可以进一步抽取第三矩阵中的第r列元素，并根据该第r列元素的数值确定出一个或者多个较大数值所对应的标注词(以下称之为目标词)。在一种示例中，从第三矩阵中抽取第r列元素可以得到向量

该向量

中每个元素(即x₁至x_k)表示不同标注词与上述最相关的语义类之间的相关性，然后，可以对该向量

中的元素进行排序，并按照降序的顺序从该向量

中确定出f个数值较大的元素，从而可以分别确定出该f个元素对应的f个标注词，所确定出的标注词即可作为目标词，该f个目标词为已标注语料中与目标主题之间具有较高相关性的标注词。

S204：根据目标词与未标注语料中每篇语料之间的相关性，从未标注语料中确定出目标语料，其中，该目标词与目标语料之间的相关性高于目标词与未标注语料中其它语料之间的相关性。

可以理解，所确定出目标词与目标主题之间具有较高的相关性，相应的，基于与该目标词具有较高相关性的语料，与该目标主题之间通常也具有较高的相关性。因此，在确定出目标词后，可以从未标注语料中确定出与目标词具有较高相关性的语料(以下称之为目标语料)，以便将目标语料进行标注后，可以将其添加至已标注语料中对标注模型重新进行训练。

在一种确定目标语料的示例性实施方式中，可以计算该目标词相对于未标注语料中每篇语料的第二TF值；同时，还可以计算该目标词相对于语料库的第二IDF值。然后，针对于每个目标词，可以计算出该目标词的第二TF值与第二IDF值的乘积，得到该目标词对应的第二TF-IDF值。值得注意的是，每个目标词相对于未标注语料中的不同语料可以具有不同的第二TF值，因此，对于未标注语料中的不同语料，该目标词可以具有不同的第二TF-IDF值。接着，可以根据每个目标词针对于未标注语料中每篇语料对应的第二TF-IDF值，从未标注语料中确定出目标语料，其中，目标词针对于所述目标语料对应的第二TF-IDF值高于目标词针对于未标注语料中其它语料对应的第二TF-IDF值。

具体实现时，若目标词具体为一个标注词，则可以将该标注词对应的多个第二TF-IDF值分别与第一预设阈值进行比较，确定出大于第一预设阈值的第二TF-IDF值，并进一步确定出这些第二TF-IDF值所对应的语料。可以理解，目标词相对于语料的TF-IDF值越大，表明该目标词与该语料之间的相关性越强，因此，本实施例中可以将大于第一预设阈值的第二TF-IDF值所对应的语料确定为与该目标词具有较强相关性的语料，并将其作为目标语料。相应的，由于目标词与目标主题之间的相关性较高，因此，该目标语料与目标主题之间的相关性也较高。

举例来说，假设目标词Q相对于未标注语料中的语料A、B、C、D以及E的第二TF-IDF值分别为0.1、0.3、0.05、0.09以及0.5，并且第一预设阈值为0.25，则，通过分别比较目标词Q相对于不同语料(A、B、C、D、E)的第二TF-IDF值与第一预设阈值的之间的大小，可以确定出目标词Q相对于语料的B以及E的第二TF-IDF值大于该第一预设阈值，则可以将该语料B以及语料E确定为目标语料。

实际应用中，若所确定出的目标词包括多个标注词，则在计算目标词相对于未标注语料中的每篇语料的第二TF-IDF值时，可以先分别计算各个标注词相对于该篇语料的第二TF-IDF值，再计算出多个标注词相对于该篇语料的第二TF-IDF值之和，从而可以将所计算出的和值作为该目标词相对于该篇语料的第二TF-IDF值，以此可以计算出目标词相对于未标注语料中每篇语料的第二TF-IDF值。然后，可以分别比较目标词相对于未标注语料中的不同语料所对应的第二TF-IDF值与第二预设阈值之间的大小，并将大于第二预设阈值的第二TF-IDF值所对应的语料确定为与该目标词具有较强相关性的语料，得到所需的目标语料。

在进一步可能的实施方式中，在确定出目标语料后，由于该目标语料与目标主题之间具有较高的相关性，因此可以将该目标语料呈现给用户(如对语料进行标注的技术人员等)。这样，由用户对该目标语料进行人工标注后，可以得到目标标注语料，然后，可以基于该目标标注语料与已标注语料对标注模型进行训练。实际应用中，可以是将该目标标注语料添加至已标注语料中，得到新的已标注语料，并利用该新的已标注语料对标注模型进行训练。可以理解，由于训练该标注模型所使用的已标注语料中包含与目标主题具有较高相关性的目标标注语料，因此，利用该新的已标注语料训练标注模型后，该标注模型对于目标主题下的语料进行标注的准确性可以得到提高。

本实施例中，可以先计算出已标注语料中的多个标注词相对于语料库的TF-IDF值，该语料库包括未标注语料以及用于训练标注模型的已标注语料；然后，根据多个标注词对应的TF-IDF值，确定目标主题，该目标主题与已标注语料之间的相关性小于其它主题与该已标注语料之间的相关性；同时，还可以根据多个标注词对应的TF-IDF值，从多个标注词中确定出目标词，所确定出的目标词与该目标主题之间的相关性高于多个标注词中的其它标注词与该目标主题之间的相关性；最后，根据所确定出的目标词与未标注语料中每篇语料之间的相关性，可以从未标注语料中确定出目标语料，该目标词与目标语料之间的相关性高于目标词与未标注语料中其它语料之间的相关性。可见，由于所确定出的目标主题与已标注语料之间的相关性较小，表明已标注语料中缺少与该目标主题具有较高相关性的语料，这使得基于该已标注语料所训练得到的标注模型在对与该目标主题具有较高相关性的语料进行标注时难以实现较高的准确性，因此，可以从未标注语料中针对性的确定出与该目标主题具有较高相关性的语料。这样，在对该语料完成人工标注后，利用该人工标注的语料再对标注模型进行训练，可以使得所训练得到的标注模型能够更准确性的对与该目标主题具有较高相关性的语料进行标注，从而提高了标注模型的准确性。

此外，本申请实施例还提供了一种确定语料的装置。参阅图3，图3示出了本申请实施例中一种确定语料的装置结构示意图，所述装置300可以包括：

计算模块301，用于计算出已标注语料中的多个标注词相对于语料库的词频-逆文本词频TF-IDF值，所述语料库包括已标注语料以及未标注语料；

第一确定模块302，用于根据所述多个标注词对应的TF-IDF值，确定目标主题，所述目标主题与所述已标注语料之间的相关性小于其它主题与所述已标注语料之间的相关性；

第二确定模块303，用于根据所述多个标注词对应的TF-IDF值，从所述多个标注词中确定出目标词，所述目标词与所述目标主题之间的相关性高于所述多个标注词中的其它标注词与所述目标主题之间的相关性；

第三确定模块304，用于根据所述目标词与所述未标注语料中每篇语料之间的相关性，从所述未标注语料中确定出目标语料，所述目标词与目标语料之间的相关性高于所述目标词与所述未标注语料中其它语料之间的相关性。

在一些可能的实施方式中，所述计算模块301，包括：

在一些可能的实施方式中，所述第一确定模块302，包括：

所述第二确定模块303，包括：

在一些可能的实施方式中，所述第三确定模块304，包括：

在一些可能的实施方式中，所述装置300还包括：

需要说明的是，上述装置各模块、单元之间的信息交互、执行过程等内容，由于与本申请实施例中方法实施例基于同一构思，其带来的技术效果与本申请实施例中方法实施例相同，具体内容可参见本申请实施例前述所示的方法实施例中的叙述，此处不再赘述。

此外，本申请实施例还提供了一种设备。参阅图4，图4示出了本申请实施例中一种设备的硬件结构示意图，该设备400可以包括处理器401以及存储器402。

其中，所述存储器402，用于存储计算机程序；

所述处理器401，用于根据所述计算机程序执行如下步骤：

在一些可能的实施方式中，所述处理器401，具体用于根据所述计算机程序执行如下步骤：

所述处理器401，具体用于根据所述计算机程序执行如下步骤：

在一些可能的实施方式中，所述处理器401，还用于根据所述计算机程序执行如下步骤：

此外，本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意拼接来实现。如果在软件中实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

作为一种可选的设计，计算机可读介质可以包括RAM，ROM，EEPROM，CD-ROM或其它光盘存储器，磁盘存储器或其它磁存储设备，或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码，并且可由计算机访问。而且，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，数字用户线(DSL)或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD)，激光盘，光盘，数字通用光盘(DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。上述的拼接也应包括在计算机可读介质的范围内。

需要说明的是，本申请中“的(英文：of)”，相应的“(英文corresponding，relevant)”和“对应的(英文：corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请中，“至少一个”是指一个或者多个。“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意拼接，包括单项(个)或复数项(个)的任意拼接。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请示例性的实施方式，并非用于限定本申请的保护范围。

Claims

1.一种确定语料的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述计算出已标注语料中的多个标注词相对于语料库的词频-逆文本词频TF-IDF值，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述多个标注词对应的TF-IDF值，确定目标主题，包括：

4.根据权利要求3所述的方法，其特征在于，对所述关系矩阵进行奇异值分解后还获得第二矩阵以及第三矩阵，所述第二矩阵表征语义类与主题的关系，所述第三矩阵表征所述标注词与所述语义类的关系；

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标词与所述未标注语料中每篇语料之间的相关性，从所述未标注语料中确定出目标语料，包括：

6.根据权利要求5所述的方法，其特征在于，当所述目标词包括多个标注词时，所述目标词对应的第二TF-IDF值为所述目标词中的各个标注词针对于所述未标注语料中每篇语料对应的第二TF-IDF值之和。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

8.一种确定语料的装置，其特征在于，所述装置包括：

9.一种设备，其特征在于，所述设备包括存储器以及处理器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1-7中任一项所述的确定语料的方法。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7任一所述的确定语料的方法。