CN114357990B - 文本数据标注方法、装置、电子设备和存储介质 - Google Patents
文本数据标注方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114357990B CN114357990B CN202210267564.6A CN202210267564A CN114357990B CN 114357990 B CN114357990 B CN 114357990B CN 202210267564 A CN202210267564 A CN 202210267564A CN 114357990 B CN114357990 B CN 114357990B
- Authority
- CN
- China
- Prior art keywords
- text data
- label
- text
- candidate
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本申请公开了一种文本数据标注方法、装置、电子设备和存储介质,通过利用标签预测模型来产生文本数据的第一候选标签,利用词向量模型对文本数据的文本标题产生第二候选标签,然后再计算出第一候选标签和第二候选标签相对于文本数据的相关度,提取相关度超过对应相关度阈值的候选标签作为文本数据的机器标注数据。本申请可以提高文本数据标注的准确性和全面性。
Description
技术领域
本申请属于人工智能技术领域,具体而言,涉及一种文本数据标注方法、装置、电子设备和存储介质。
背景技术
通常,在一些文本信息交流平台上,会存在海量的如博文、问答等创作内容的文本数据,为了方便用户导航、检索和分类,会对平台下的创作内容打标签。
针对文本数据的标注处理,现在普遍采用了人工智能或机器学习等算法来进行智能标注,比如采用TextCNN模型、BERT模型等对文本数据进行自动标注。这些标注方法对文本数据的标注结果的准确性也越来越高,但仍然存在对某些文本数据产生明显错误的标注。因此,针对文本数据的标注方法还有待进一步优化。
发明内容
为了解决上述问题,本申请提出一种文本数据标注方法、装置、电子设备和存储介质,以提高文本数据标注的准确性。
一种文本数据标注方法,所述方法包括:
获取待标注文本数据,所述待标注文本数据中包括文本类型和文本标题;
根据与所述文本类型相匹配的标签预测模型生成所述待标注文本数据的第一数量的第一候选标签;
根据与所述文本类型相匹配的词向量模型生成所述文本标题的第二数量的第二候选标签以及每个第二候选标签的第二相关度;
根据每个所述第一候选标签的预设权值和所述第一候选标签在所述待标注文本数据中出现的位置和次数计算出所述每个第一候选标签与所述待标注文本数据的第一相关度;
将第二相关度超过第二相关度阈值的所述第二候选标签和第一相关度超过第一相关度阈值的第一候选标签作为所述待标注文本数据的机器标注数据。
在其中一个实施例中,所述根据每个所述第一候选标签的预设权值和所述第一候选标签在所述待标注文本数据中出现的位置和次数计算出所述每个第一候选标签与所述待标注文本数据的第一相关度,包括:
利用计算出每个第一候选标签与所述待标注文本数据的第一相关度r,其中,t表示对应的第一候选标签,vt表示第一候选标签t的权值,ik表示第一候选标签的标签相关词在文本数据中第k次出现的位置,l表示文本数据中的所有分词数量,m表示所述标签相关词在文本数据中出现的总数。
在其中一个实施例中,当所述第一候选标签和所述第二候选标签中包含相同标签时,提高所述相同标签对应的权值。
在其中一个实施例中,所述根据与所述文本类型相匹配的词向量模型生成所述文本标题的第二数量的第二候选标签以及每个第二候选标签的第二相关度,包括:
对所述文本标题进行分词;
利用所述词向量模型计算每个分词与每个标签的第二相关度;
选取第二相关度处于前第二数量的标签作为第二候选标签。
在其中一个实施例中,所述方法还包括:
所述文本类型根据所述文本数据的长度来确定,不同的文本类型对应的标签预测模型中至少有一个参数不同。
在其中一个实施例中,在所述根据与所述文本类型相匹配的标签预测模型生成所述待标注文本数据的第一数量的候选标签之前,所述方法包括:
获取样本文本数据集,所述样本文本数据集中的每个样本文本数据中包括人工标签;
根据预设的特征选择模型计算所述人工标签对应的标签相关词;
针对每个样本文本数据中的每个人工标签的预设权值和所述标签相关词在所述样本文本数据中出现的位置和次数计算出所述每个人工标签与对应样本文本数据的第三相关度;
将第三相关度超过第三相关度阈值的人工标签作为所述样本文本数据的优化标注数据;
根据所述优化标注数据和所述样本文本数据集进行标签预测模型训练,生成训练好的与文本数据的文本类型相匹配的标签预测模型。
在其中一个实施例中,所述根据所述优化标注数据和所述样本文本数据集进行标签预测模型训练,生成训练好的与文本数据的文本类型相匹配的标签预测模型,包括:
将所述样本文本数据集作为待训练的标签预测模型的输入进行迭代训练;
输出每个样本文本数据的预测标注数据;
根据所述预测标注数据与所述优化标注数据计算每次迭代训练后的标签预测模型的损失值;
当所述损失值低于预设损失阈值时,将形成的标签预测模型作为训练好的与文本数据的文本类型相匹配的标签预测模型。
在其中一个实施例中,提供了一种文本数据标注装置,所述装置包括:
文本数据获取模块,用于获取待标注文本数据,所述待标注文本数据中包括文本类型和文本标题;
第一标签生成模块,用于根据与所述文本类型相匹配的标签预测模型生成所述待标注文本数据的第一数量的第一候选标签;
第二标签生成模块,用于根据与所述文本类型相匹配的词向量模型生成所述文本标题的第二数量的第二候选标签以及每个第二候选标签的第二相关度;
相关度计算模块,用于根据每个所述第一候选标签的预设权值和所述第一候选标签在所述待标注文本数据中出现的位置和次数计算出所述每个第一候选标签与所述待标注文本数据的第一相关度;
文本标注模块,用于将第二相关度超过第二相关度阈值的所述第二候选标签和第一相关度超过第一相关度阈值的第一候选标签作为所述待标注文本数据的机器标注数据。
在其中一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请任一实施例中所述方法的步骤。
在其中一个实施例中,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本申请任一实施例中所述方法的步骤。
上述的文本数据标注方法、装置、电子设备和存储介质,通过利用标签预测模型来产生文本数据的第一候选标签,利用词向量模型对文本数据的文本标题产生第二候选标签,然后再计算出第一候选标签和第二候选标签相对于文本数据的相关度,提取相关度超过对应相关度阈值的候选标签作为文本数据的机器标注数据。相比较于传统的仅利用标签预测模型来产生标签而言,本申请还进一步利用了文本标题来产生标签,并进考虑了标签的相关度,由于通常文本标题是文本数据的总结性内容,从其中提取的标签更加准确,并且也可以作为对标签预测模型得到的标签的补充,可以减少出现标题中存在某个标签但是标签预测模型输出的结果却没有该标签的情况。通过校验标签的相关度,可以排除掉跟文本数据弱相关或明显不相关的标签,保证了文本数据标注的准确性和全面性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本申请的某些实施例,而不应被看作是对本申请范围的限制。
图1为一个实施例中的文本数据标注方法的流程图;
图2为一个实施例中构建训练语料和训练模型的过程的流程图;
图3为一个实施例中根据优化标注数据和样本文本数据集进行标签预测模型训练,生成训练好的与文本数据的文本类型相匹配的标签预测模型的流程图;
图4为一个实施例中的文本数据标注装置的结构框图;
图5为另一个实施例中的文本数据标注装置的结构框图;
图6为一个实施例中电子设备的内部结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一个实施例中,如图1所示,提供了一种文本数据标注方法,以该方法应用于电子设备为例进行说明,该方法包括:
步骤102,获取待标注文本数据。
本实施例中,待标注文本数据中包括文本类型和文本标题。待标注文本数据为需要进行打标签的文本数据,需要打的标签可以为一个或多个,该标签用于辅助对文本数据的导航、检索和分类。比如某一个文本数据的标签为“java”、“Python”、“神经网络”等。
文本类型可以为根据文本数据的产品类型和/或文本数据的长度等进行划分,比如可划分为问答类型、博文类型、下载类型等,通常某一个文本数据对应一个文本类型。文本标题为该文本数据的标题信息。
步骤104,根据与文本类型相匹配的标签预测模型生成待标注文本数据的第一数量的第一候选标签。
本实施例中,电子设备预先设定了多个标签预测模型,且设定了每个标签预测模型与文本类型之间的对应关系,根据该对应关系,可以确定不同文本类型的文本数据所适用的标签预测模型。标签预测模型为用于自动生成文本数据的标签的模型,其生成的标签的数量可以为一个、两个或更多,从而可以自动为文本数据进行标签标注。
第一数量为电子设备预设的任意数量,比如可为1个、2个、5个、10个、20个、50个、100个、128个等等。
电子设备可以根据文本类型与标签预测模型之间的对应关系,获取相匹配的标签预测模型,并将待标注文本数据作为该模型的输入,从而输出第一数量的标签信息,所输出的标签即为第一候选标签。
在一个实施例中,标签预测模型为根据样本文本数据集训练而得到的模型,其训练得到的模型可为TextCNN模型、BERT模型等。
在一个实施例中,文本类型根据文本数据的长度来确定,不同的文本类型对应的标签预测模型中至少有一个参数不同。从而使得不同文本类型对应的标签预测模型更加能够准确地输出对应的标签。
步骤106,根据与文本类型相匹配的词向量模型生成文本标题的第二数量的第二候选标签以及每个第二候选标签的第二相关度。
本实施例中,相关度用于反映标签对文本数据的描述的准确性或关联性的程度,相关度越高,则标签越能够正确地反映出文本数据的内容。除了利用上述的标签预测模型输出第一候选标签之外,还进一步从文本数据的标题中来生成标签,具体地,可以利用词向量模型生成标签,将其作为第二候选标签。其中,利用词向量模型所生成的标签的数量可以为一个、两个或更多。词向量word2vec模型也是根据大量的已标注的文本标题样本集进行训练而得到的。
与第一数量类似,第二数量为电子设备预设的任意数量,比如可为1个、2个、5个、10个、20个、50个、100个、128个等等。
进一步地,不同的文本类型对应的第一数量和第二数量可以相同也可不同。即所有的标签预测模型生成的第一候选标签的数量都为相同的数量或不同的数量,生成的第二候选标签的数量也都为相同的数量或不同的数量。
针对文本标题的标签提取主要借助了词向量word2vec,使用词向量word2vec计算文本标题是否出现了标签或者标签的近义词来辅助抽取标签。如果标题出现了某个标签则该文本数据与该标签极度相关的可能性非常大。
步骤108,根据每个第一候选标签的预设权值和第一候选标签在待标注文本数据中出现的位置和次数计算出每个第一候选标签与待标注文本数据的第一相关度。
本实施例中,在得到了候选标签之后,还需要检测候选标签与对应文本数据的相关度,以校验得到的标签是否能够正确反映出文本数据的内容。
具体地,电子设备中预设了每个标签的权值,不同的标签对应的权值不一定相同,且相同的标签在不同文本类型下对应的权值也不一定相同。具体地,权值可为0~1之间的归一化的权值,一般来说,越能够反映出文本数据的内容的标签所占据的权值越大,越不能反映出文本数据的内容的标签所占据的权值越小。进一步地,标签的权值还与标签词汇的属性相关,比如一些助词“的”、“地”通常并不能准确体现出文本数据的内容,此类标签的权值则相对较小。
除了权值之外,电子设备还进一步考虑标签在文本数据中出现的次数和位置,基于次数、位置、权值等要素来确定标签与文本数据的相关度。其中,相关度与标签相关词在文本数据中出现的次数、权值正相关,权值越大、次数越多,则相关度越大。进一步地,标签相关词在文本数据中出现的位置越靠前,则其相关度也越大。
在一个实施例中,上述的步骤106和步骤104、步骤108之间的执行顺序不做限定,可以先执行步骤106,再执行步骤104、步骤108,或者可以先执行步骤104、步骤108,再执行步骤106,也可以并行执行步骤106以及步骤104、步骤108。
步骤110,将第二相关度超过第二相关度阈值的第二候选标签和第一相关度超过第一相关度阈值的第一候选标签作为待标注文本数据的机器标注数据。
本实施例中,电子设备预设了第一相关度阈值和第二相关度阈值,其中,第一相关度阈值和第二相关度阈值可相同,也可以不同。其中,相关度的范围可以是0~1,而相关度阈值可以为0.8、0.85或0.9等任意合适的范围。当候选标签的相关度达到或者超过相关度阈值时,则判定该达到了可以准确反应文本数据的内容的条件,则保留对应的候选标签,将候选标签作为待标注文本数据的机器标注数据。
其中,所保留的标签的数量可以不做限定,即如果所有的候选标签的相关度都达到了对应的相关度阈值时,可以保留所有的候选标签,如果仅一部分达到了要求,则保留达到了要求的候选标签。或者电子设备可以设定保留的标签的最高数量,当超过该数量时,则保留相关度排名前列的候选标签。比如最高数量为10,则如果超过对应的相关度的候选标签有20个时,则仅保留其中的相关度在前10的候选标签作为机器标注数据。
上述的文本数据标注方法,通过利用标签预测模型来产生文本数据的第一候选标签,利用词向量模型对文本数据的文本标题产生第二候选标签,然后再计算出第一候选标签和第二候选标签相对于文本数据的相关度,提取相关度超过对应相关度阈值的候选标签作为文本数据的机器标注数据。相比较于传统的仅利用标签预测模型来产生标签而言,本申请还进一步利用了文本标题来产生标签,并进考虑了标签的相关度,由于通常文本标题是文本数据的总结性内容,从其中提取的标签更加准确,并且也可以作为对标签预测模型得到的标签的补充,可以减少出现标题中存在某个标签但是标签预测模型输出的结果却没有该标签的情况。通过校验标签的相关度,可以排除掉跟文本数据弱相关或明显不相关的标签,保证了文本数据标注的准确性和全面性。
在一个实施例中,第一相关度r的计算公式为:
其中,t表示对应的第一候选标签,vt表示第一候选标签t的权值,ik表示第一候选标签的标签相关词在文本数据中第k次出现的位置,l表示文本数据中的所有分词数量,m表示标签相关词在文本数据中出现的总数。
其中,标签相关词可为标签词汇本身,还可为与标签含义近似的词汇。举例来说,标签为“樱桃”,则文本数据中出现的中文“樱桃”本身即为标签相关词,还可以将中文“车厘子”也作为标签相关词,或者标签相关词的其他语种也作为标签相关词。通过将标签相关词出现的次数和位置纳入相关度的计算中,可以使得计算出来的相关度更能体现出标签与文本数据之间的关联性。
电子设备根据该公式1计算出每个第一候选标签与待标注文本数据的第一相关度r。举例来说,存在某一文本数据为博文,标签预测模型输出了其中某个第一候选标签t,电子设备可以对该博文进行分词之后,统计该博文中的所有词汇的数量l,并索引与标签t相关的标签相关词汇在该博文中出现的位置i,然后利用计算出其中其第k次出现的标签相关词汇的相关度,其中,出现的位置i越靠前,计算出来的相关度越大。
在得到第一相关度之后,比较该第一相关度与第一相关度阈值之间的大小,保留第一相关度超过第一相关度阈值的第一候选标签,剔除掉第一相关度低于第一相关度阈值的第一候选标,可以让弱标注数据转化为强标注数据,大大降低了标注数据的精度。
在一个实施例中,针对同一个标签,不同的文本类型对应的权值并不一定相同。
在一个实施例中,当第一候选标签和第二候选标签中包含相同标签时,提高相同标签对应的权值。
本实施例中,电子设备在计算出第一候选标签和第二候选标签之后,检测第二候选标签中是否存在与第一候选标签中相同的标签,若存在,则获取第一候选标签对应的预设权值,并基于该预设权值进行权值调高,使调整后的权值作为计算该相同标签的相关度的权值。对于第一候选标签未在第二候选标签中未出现的情况,则继续使用该第一候选标签对应的预设权值,将该预设权值作为计算该相同标签的相关度的权值。
具体地,调高后的权值v可为在对应预设权值v0的基础上直接相加一个固定数值a或固定范围的数值a,也可为在预设权值的基础上乘以一个固定基数b或者一个固定范围的基数b。比如该数值a可为0.1、0.05等固定值,或者可为0.02~0.5等区间内的范围数值,该数值可根据实际情况来选取。基数b可为大于1的基数,比如为1.1、1.2、1.5等固定数值的基数,也可为根据实际情况从1.01~2等任意合理范围内选取的基数。
针对调整后的权值v,可以将其作为上述公式1中进行计算,得到对应第一候选标签的第一相关度。
本实施例中,当第一候选标签和第二候选标签中都存在某一标签时,则说明该标签可以准确反映出文本数据的内容的可能性较大,则可以对该标签的权值进行适当提高,从而使得计算出来的第一相关度更加准确。
在一个实施例中,步骤106包括:对文本标题进行分词;利用词向量模型计算每个分词与每个标签的第二相关度;选取第二相关度处于前第二数量的标签作为第二候选标签。
本实施例中,上述的每个标签是电子设备在标签库中的标签。标签库中的标签为电子设备中预先存储的人工标注的标签,或者将人工标注的标签进行筛选之后所保留下来的标签。
针对文本标题的标签提取主要借助了词向量word2vec模型,使用词向量word2vec模型计算文本标题是否出现了标签的近义词来辅助抽取标签。
word2vec是词嵌入(word embedding)的一种,是一种静态词向量。词嵌入是将词汇映射到实数向量的方法总称,使研究人员可以使用数学像处理图像一样来处理文字信息。
在一个实施例中,电子设备预先使用一定数量的已标注好的文本标题来训练词向量word2vec模型,使得训练得到的词向量模型得到的排名前第二数量的标签的准确性能满足要求。举例来说,针对博文类型的文本数据,电子设备可以使用1000万条以上的博文标题训练该word2vec模型。
电子设备首先获取文本标题,并对文本标题进行分词,并遍历分词结构,使用词向量word2vec模型计算每个分词与标签库中的每个标签的相关度,并从其中选取相关度排名前第二数量的标签作为第二候选标签。
由于标题里面的标签一般很少存在歧义,电子设备采用词向量word2vec模型足以满足需求,且数据计算量较小,可以提高第二候选标签计算的实时性和准确性。
在一个实施例中,上述方法还包括构建训练语料和训练模型的过程,该过程可在上述的步骤104之前执行,如图2所示,其包括:
步骤202,获取样本文本数据集。
本实施例中,样本文本数据集中的每个样本文本数据中包括人工标签。样本文本数据集中包括一定数量的样本文本数据,比如该文本数据的数量可为1万条、10万条、100万条、500万条、1000万条等任意适用于进行模型训练的样本数量。
人工标签为标注人员自己标注的标签,或者平台上的用户自己主动标注的标签。由于标注人员标注的标签效率较低且成本较高。电子设备可以利用平台上用户自己备注的标签作为人工标签,以降低标注人员标注的成本。
其中,每个文本数据对应的人工标签的数量可以为一个或多个,其数量可为任意合适的数量。
步骤204,根据预设的特征选择模型计算人工标签对应的标签相关词。
其中,该特征选择模型为一种机器学习模型,可用于从本文本数据集中筛选出与标签相关的特征的标签相关词的模型。具体地,特征选择模型可为词频逆文档频率(TermFrequency-Inverse Document Frequency,简称“TF-IDF”)模型,可利用TF-IDF模型从样本本文本数据集中提取与标签相关的标签相关词。其计算公式如下:
其中,对于某个标签t来说,N表示样本文本数据集中标注了该标签t的文本数据的数量,m表示出现了标签t的文本数据的数量,tf表示标签下面博文出现词t的频次。TF-IDF模型用到了统计的思想,可以挑选出对标签重要的词汇,但是对其他标签不重要的词汇。
电子设备可以利用上述机器学习中的特征选择方法TF-IDF模型来提取标签相关词汇,按照计算出来的数值降序取排名前一定数量(即TOP n)的词汇作为标签相关词。该数量可为任意合适的数量,其中,不同文本类型所选取的数量可以相同或不同。
步骤206,针对每个样本文本数据中的每个人工标签的预设权值和标签相关词在样本文本数据中出现的位置和次数计算出每个人工标签与对应样本文本数据的第三相关度。
步骤208,将第三相关度超过第三相关度阈值的人工标签作为样本文本数据的优化标注数据。
具体地,和上述的步骤108以及公式2类似,电子设备中预设了每个人工标签的权值,不同的标签对应的权值不一定相同,且相同的标签在不同文本类型下对应的权值也不一定相同。具体地,权值可为0~1之间的归一化的权值。第三相关度与标签相关词在文本数据中出现的次数、权值正相关,权值越大、次数越多,则相关度越大。标签相关词在文本数据中出现的位置越靠前,则其相关度也越大。
本实施例中,由于人工标注的标签可能受限与标注人员或用户自己的知识水平或其它目的,导致并非所有的人工标签都能够准确反映出对应文本数据的信息,故而该人工标签属于弱标注数据,并不适合直接拿来进行模型训练,还需要对该标签进行过滤,以去除低相关的人工标签,并保留高相关的人工标签作为标注数据,大大降低了标注数据获取的难度。
步骤210,根据优化标注数据和样本文本数据集进行标签预测模型训练,生成训练好的与文本数据的文本类型相匹配的标签预测模型。
在进行了人工标签过滤之后,将过滤后得到的优化标注数据作为标签预测模型的输入数据,并对标签预测模型进行训练,以获得与文本数据的文本类型相匹配的标签预测模型。
其中,文本类型根据文本数据的长度来确定,不同的文本类型对应的标签预测模型中至少有一个参数不同。
在一个实施例中,本文本数据集还可以按照文本类型进行分类,每种文本类型对应一种样本文本数据集,针对不同文本类型的单独进行标签相关词计算和/或第三相关度计算。不同文本类型选取的TOP n数量和第三相关度阈值可以相同或者不同。
在一个实施例中,如图3所示,步骤210包括:
步骤302,将样本文本数据集作为待训练的标签预测模型的输入进行迭代训练。
步骤304,输出每个样本文本数据的预测标注数据。
步骤306,根据预测标注数据与优化标注数据计算每次迭代训练后的标签预测模型的损失值。
步骤308,当损失值低于预设损失阈值时,将形成的标签预测模型作为训练好的与文本数据的文本类型相匹配的标签预测模型。
在一个实施例中,上述的标签预测模型可为多标签多分类器TextCNN模型。损失值loss的计算公式如下所示:
其中,batch表示训练模型的batch大小,n为标签的个数,表示当前batch中第j个数据的第i个标签,为当前模型迭代输出的标签,电子设备可以计算每次输出的损失值,当损失值大于损失阈值时,则继续进行迭代,从而优化模型中的参数,当损失值地域该运势阈值时,则终止迭代,将形成的模型作为与文本数据的文本类型相匹配的标签预测模型。
通过上述的方式可以得到与不同文本类型的文本数据对应的标签预测模型,且使得该模型可以满足一定的标签标注的准确性。
在一个实施例中,提供了另一种文本数据标注方法,该方法包括构建语料集过程、训练模型构成和模型预测过程,该方法包括:
步骤402,获取样本文本数据集。
本实施例中,样本文本数据集包含了多个样本文本数据,每个样本文本数据中包括人工标签。文本数据包括不同的文本类型,每种文本类型对应一个样本文本数据集。针对每种文本类型,获取对应的样本文本数据集,并进行后续的模型训练。
举例来说,文本类型可包括博文类型、问答类型、下载类型、帖子类型和blink类型等。不同的文本类型对应的文本数据的数据格式、数据长度以及数据内容等会有所不同。
该人工标签可为文本数据的作者对该文本所标注的标签,这样可减少标注人员的工作,避免标注人员标注费时费力成本高的情况。
步骤404,根据预设的特征选择模型计算人工标签对应的标签相关词。
在一个实施例中,样本文本数据集可为数据仓库中的数据集,电子设备可以按照上述公式2来计算出每个人工标签对应的相关词汇的tf-idf值,并对其进行降序排序,选取TOPn的词汇作为标签相关词。其中,不同文本类型对应的数量n并不一定相同。
本实施例中,t表示对应的人工标签,vt表示标签t的权值,ik表示第一候选标签的标签相关词在文本数据中第k次出现的位置,l表示文本数据中的所有分词数量,m表示标签相关词在文本数据中出现的总数。
针对每种了文本类型下的每个人工标签,可以按照上述公式进行相关度r计算。针对其中的某个样本文本数据中的某个人工标签t,电子设备可以对该样本文本数据进行分词,统计该样本文本数据中的所有词汇的数量l,并索引与标签t对应的标签相关词汇在该博文中出现的位置i,然后利用计算出其中其第k次出现的标签相关词汇的相关度,其中,出现的位置i越靠前,计算出来的相关度越大。
步骤408,将第三相关度超过第三相关度阈值的人工标签作为样本文本数据的优化标注数据。
电子设备可以比较每个样本文本数据中,每个人工标签对应的第三相关度与第三相关度阈值之间的大小,保留对应样本文本数据中的第三相关度超过第三相关度阈值的所有人工标签,将其作为样本文本数据的优化标注数据。
本实施例中,在完成样本文本数据的所有优化标注数据后,该样本文本数据可对应的优化标注数据即为用于进行模型训练的训练语料集。每个文本类型对应一个训练语料集。
步骤410,将样本文本数据集作为待训练的标签预测模型的输入进行迭代训练。
步骤412,输出每个样本文本数据的预测标注数据。
步骤414,根据预测标注数据与优化标注数据计算每次迭代训练后的标签预测模型的损失值。
步骤416,当损失值低于预设损失阈值时,将形成的标签预测模型作为训练好的与文本数据的文本类型相匹配的标签预测模型。
本实施例中,标签预测模型可为textCNN多标签分类器模型。
举例来说,电子设备针对某个句子“我喜欢在CSDN python技能数学习python。”进行分析,将其划分为分割为单独的词汇,然后对每个词汇进行embedding操作,将每个分词形成词向量,然后进行convolution卷积操作,对词向量进行特征提取,再进行maxpooling最大词化操作,将卷积操作中挑选选取出最大或最显著的特征数据,然后进行concatreshape操作,将挑选出的特征数据进行拼接,最后进行softmax二分类,从而形成多个标签。针对每个二分类进行损失值loss计算,将每个二分类的loss加起来作为最终的loss。该最终的损失值loss的计算公式如上述公式3所示。
针对每次迭代计算出的损失值loss,电子设备可比较该损失值loss是否小于损失阈值,若是,则判定模型训练完毕,得到了对应模型的模型参数。其中,不同文本类型进行单独训练,得到的模型参数并不相同。
步骤418,获取待标注文本数据。
本实施例中,待标注文本数据中包括文本类型、文本标题和文本内容。比如待标注文本数据为未知类别博客,即为待标注的博客类型的文本数据。
步骤420,根据与文本类型相匹配的标签预测模型生成待标注文本数据的第一数量的第一候选标签。
本实施例中,每个文本类型对应一个标签预测模型,标签预测模型可为博文标签分类器模型、问答标签分类器模型、下载标签分类器模型帖子标签分类器模型和blink标签分类器模型。
电子设备在获取到待标注文本数据的文本类型之后,可以根据类型适配器选取对应的标签预测模型文本分类器,并根据选取的标签预测模型进行运算,输出第一数量的第一候选标签,即统一标签。在一个实施例中,电子设备可以输入文本类型和文本数据,根据该文本类型和文本的长度判断调用的分类器。
步骤422,根据与文本类型相匹配的词向量模型生成文本标题的第二数量的第二候选标签以及每个第二候选标签的第二相关度。
除了利用txetCNN多标签分类器标签预测模型之外,本申请还进一步利用了词向量模型进行标题标签提取。电子设备可以利用词向量word2vec模型计算出标签库中的每个标签与对应标题的相关度,进而选取相关度排名前第二数量的标签作为第二候选标签。
本实施例中,电子设备在进一步对txetCNN多标签分类器标签预测模型所输出的第一候选标签进行相关度计算,其中,针对每个第一候选标签,电子设备可以检测其是否也出现在第二候选标签中,若是,则获取对应第一候选标签的预设权值,并对该预设权值进行调整,将调整后的权值作为用于计算该第一候选标签的相关度中所使用的权值vt。若在第二候选标签中不存在,则直接将对应的预设权值作为该公式中所使用的权值vt。
步骤426,将第二相关度超过第二相关度阈值的第二候选标签和第一相关度超过第一相关度阈值的第一候选标签作为待标注文本数据的机器标注数据。
上述的文本数据标注方法,首先,在样本文本数据处理过程中,大量高质量的训练语料是分类任务制胜的关键。在实际应用中,由于训练语料采用人工标注,往往费时费力,且结果受标注者影响。本申请直接使用用户在创作文本数据时所标注的人工标签,但是由于人工标签并不能保证都正确,因此人工标签是一种弱标注数据,不能直接使用。因此,本申请利用了相关度计算,来剔除相关度较低的人工标签,保留相关度较高的人工标签,从而保证了训练需要的质量。
其次,针对标签预测模型,本申请采用TextCNN多标签分类器模型,使得输出的标签数量具有多个,避免了传统的TextCNN标签仅输出单个标签的情况,使得可以针对一个文本数据打多个标签,提高了标注的全面性。
本发明提出了一种基于用户弱标注数据的标注系统,使弱标注数据转化为强标注数据,供给分类器直接使用。
再次,不论机器学习还是深度学习,难以避免的一种情况就是对分类器结果难以控制,往往会造成明显的分类错误。比如文本标题中存在某个标签但是分类器结果却没有或者分类器结果出现了明显不相关的标签。对于这两种错误,本申请分别提出了针对文本标题的标签提取方案和针对分类器预测模型分类结果的标签与文本数据相关性计算方案,前者可以提取到标题里面的标签,后者可以过滤掉分类器结果里面不相关的标签。进一步保证了标注的准确性。
最后,由于不同的类型的文本特征并不一样,比如博文、问答、blink,下载等数据由于其产品的特性,其文本的长度是不同的,如果把不同类型的文本数据收集到一起训练一个分类器,受限于不同长度的文本的,其特征也会不一样,分类器器效果也会受到限制。本申请针对不同的文本类型的文本数据训练不同的分类器,每个分类器拥有自己独特的参数,可对不同长度的文本构建不同的分类器。并利用对应类型的分类器来输出标签,多个分类器融合方案,进一步提高了标注的准确性。
在一个实施例中,如图4所示,提供了一种文本数据标注装置,该装置包括:
文本数据获取模块802,用于获取待标注文本数据,待标注文本数据中包括文本类型和文本标题。
第一标签生成模块804,用于根据与文本类型相匹配的标签预测模型生成待标注文本数据的第一数量的第一候选标签。
第二标签生成模块806,用于根据与文本类型相匹配的词向量模型生成文本标题的第二数量的第二候选标签以及每个第二候选标签的第二相关度。
相关度计算模块808,用于根据每个第一候选标签的预设权值和第一候选标签在待标注文本数据中出现的位置和次数计算出每个第一候选标签与待标注文本数据的第一相关度。
文本标注模块810,用于将第二相关度超过第二相关度阈值的第二候选标签和第一相关度超过第一相关度阈值的第一候选标签作为待标注文本数据的机器标注数据。
在一个实施例中,当第一候选标签和第二候选标签中包含相同标签时,提高相同标签对应的权值。
在一个实施例中,第二标签生成模块806还用于对文本标题进行分词;利用词向量模型计算每个分词与每个标签的第二相关度;选取第二相关度处于前第二数量的标签作为第二候选标签。
在一个实施例中,文本类型根据文本数据的长度来确定,不同的文本类型对应的标签预测模型中至少有一个参数不同。
在一个实施例中,文本数据获取模块802还用于获取样本文本数据集,样本文本数据集中的每个样本文本数据中包括人工标签。
相关度计算模块808还用于根据预设的特征选择模型计算人工标签对应的标签相关词;针对每个样本文本数据中的每个人工标签的预设权值和标签相关词在样本文本数据中出现的位置和次数计算出每个人工标签与对应样本文本数据的第三相关度。
文本标注模块810还用于将第三相关度超过第三相关度阈值的人工标签作为样本文本数据的优化标注数据。
如图5所示,该装置还包括:模型训练模块812,用于根据优化标注数据和样本文本数据集进行标签预测模型训练,生成训练好的与文本数据的文本类型相匹配的标签预测模型。
在一个实施例中,模型训练模块812还用于将样本文本数据集作为待训练的标签预测模型的输入进行迭代训练;输出每个样本文本数据的预测标注数据;根据预测标注数据与优化标注数据计算每次迭代训练后的标签预测模型的损失值;当损失值低于预设损失阈值时,将形成的标签预测模型作为训练好的与文本数据的文本类型相匹配的标签预测模型。
在一个实施例中,提供了一种电子设备,如图6所示,其示出了一个实施例中电子设备的内部结构图。该电子设备具体可以是终端,也可以是服务器。如图6所示,该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该电子设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述的文本数据标注方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,也可使得处理器执行上述的文本数据标注方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述文本数据标注方法的步骤。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述文本数据标注方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种文本数据标注方法,其特征在于,所述方法包括:
获取样本文本数据集,所述样本文本数据集中的每个样本文本数据中包括人工标签;
根据预设的特征选择模型计算所述人工标签对应的标签相关词;
针对每个样本文本数据中的每个人工标签的预设权值和所述标签相关词在所述样本文本数据中出现的位置和次数计算出所述每个人工标签与对应样本文本数据的第三相关度;所述第三相关度与所述标签相关词在所述文本数据中出现的次数、所述预设权值正相关,且所述标签相关词在所述文本数据中出现的位置越靠前,则所述第三相关度也越大;
将第三相关度超过第三相关度阈值的人工标签作为所述样本文本数据的优化标注数据;
根据所述优化标注数据和所述样本文本数据集进行标签预测模型训练,生成训练好的与文本数据的文本类型相匹配的标签预测模型;
获取待标注文本数据,所述待标注文本数据中包括文本类型和文本标题;
根据与所述文本类型相匹配的标签预测模型生成所述待标注文本数据的第一数量的第一候选标签;
根据与所述文本类型相匹配的词向量模型生成所述文本标题的第二数量的第二候选标签以及每个第二候选标签的第二相关度;
根据每个所述第一候选标签的预设权值和所述第一候选标签在所述待标注文本数据中出现的位置和次数计算出所述每个第一候选标签与所述待标注文本数据的第一相关度;
将第二相关度超过第二相关度阈值的所述第二候选标签和第一相关度超过第一相关度阈值的第一候选标签作为所述待标注文本数据的机器标注数据。
3.根据权利要求1所述的方法,其特征在于,当所述第一候选标签和所述第二候选标签中包含相同标签时,提高所述相同标签对应的权值。
4.根据权利要求1所述的方法,其特征在于,所述根据与所述文本类型相匹配的词向量模型生成所述文本标题的第二数量的第二候选标签以及每个第二候选标签的第二相关度,包括:
对所述文本标题进行分词;
利用所述词向量模型计算每个分词与每个标签的第二相关度;
选取第二相关度处于前第二数量的标签作为第二候选标签。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述文本类型根据所述文本数据的长度来确定,不同的文本类型对应的标签预测模型中至少有一个参数不同。
6.根据权利要求1所述的方法,其特征在于,所述根据所述优化标注数据和所述样本文本数据集进行标签预测模型训练,生成训练好的与文本数据的文本类型相匹配的标签预测模型,包括:
将所述样本文本数据集作为待训练的标签预测模型的输入进行迭代训练;
输出每个样本文本数据的预测标注数据;
根据所述预测标注数据与所述优化标注数据计算每次迭代训练后的标签预测模型的损失值;
当所述损失值低于预设损失阈值时,将形成的标签预测模型作为训练好的与文本数据的文本类型相匹配的标签预测模型。
7.一种文本数据标注装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取待标注文本数据,所述待标注文本数据中包括文本类型和文本标题;
第一标签生成模块,用于根据与所述文本类型相匹配的标签预测模型生成所述待标注文本数据的第一数量的第一候选标签;
第二标签生成模块,用于根据与所述文本类型相匹配的词向量模型生成所述文本标题的第二数量的第二候选标签以及每个第二候选标签的第二相关度;
相关度计算模块,用于根据每个所述第一候选标签的预设权值和所述第一候选标签在所述待标注文本数据中出现的位置和次数计算出所述每个第一候选标签与所述待标注文本数据的第一相关度;
文本标注模块,用于将第二相关度超过第二相关度阈值的所述第二候选标签和第一相关度超过第一相关度阈值的第一候选标签作为所述待标注文本数据的机器标注数据;
所述文本数据获取模块还用于获取样本文本数据集,所述样本文本数据集中的每个样本文本数据中包括人工标签;
所述相关度计算模块还用于根据预设的特征选择模型计算所述人工标签对应的标签相关词;针对每个样本文本数据中的每个人工标签的预设权值和所述标签相关词在所述样本文本数据中出现的位置和次数计算出所述每个人工标签与对应样本文本数据的第三相关度;所述第三相关度与所述标签相关词在所述文本数据中出现的次数、所述预设权值正相关,且所述标签相关词在所述文本数据中出现的位置越靠前,则所述第三相关度也越大;
所述文本标注模块还用于将第三相关度超过第三相关度阈值的人工标签作为所述样本文本数据的优化标注数据;
所述装置还包括:模型训练模块,用于根据所述优化标注数据和所述样本文本数据集进行标签预测模型训练,生成训练好的与文本数据的文本类型相匹配的标签预测模型。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210267564.6A CN114357990B (zh) | 2022-03-18 | 2022-03-18 | 文本数据标注方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210267564.6A CN114357990B (zh) | 2022-03-18 | 2022-03-18 | 文本数据标注方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114357990A CN114357990A (zh) | 2022-04-15 |
CN114357990B true CN114357990B (zh) | 2022-05-31 |
Family
ID=81094893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210267564.6A Active CN114357990B (zh) | 2022-03-18 | 2022-03-18 | 文本数据标注方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357990B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674319A (zh) * | 2019-08-15 | 2020-01-10 | 中国平安财产保险股份有限公司 | 标签确定方法、装置、计算机设备及存储介质 |
CN111198949A (zh) * | 2020-04-10 | 2020-05-26 | 支付宝(杭州)信息技术有限公司 | 一种文本标签确定方法和系统 |
CN112100438A (zh) * | 2020-09-21 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 一种标签抽取方法、设备及计算机可读存储介质 |
CN113297378A (zh) * | 2021-05-24 | 2021-08-24 | 作业帮教育科技(北京)有限公司 | 文本数据标注方法及系统、电子设备及存储介质 |
CN113918685A (zh) * | 2021-12-13 | 2022-01-11 | 中电云数智科技有限公司 | 关键词提取方法及装置 |
CN114036944A (zh) * | 2021-11-23 | 2022-02-11 | 胜斗士(上海)科技技术发展有限公司 | 用于对文本数据进行多标签分类的方法和装置 |
CN114090779A (zh) * | 2022-01-11 | 2022-02-25 | 中南大学 | 篇章级文本的层级多标签分类方法、系统、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180129944A1 (en) * | 2016-11-07 | 2018-05-10 | Xerox Corporation | Document understanding using conditional random fields |
CN107436922B (zh) * | 2017-07-05 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
US11574240B2 (en) * | 2018-03-19 | 2023-02-07 | YourAnswer International Pty Ltd. | Categorization for a global taxonomy |
CN112528029A (zh) * | 2020-12-29 | 2021-03-19 | 平安普惠企业管理有限公司 | 文本分类模型处理方法、装置、计算机设备及存储介质 |
CN113705299A (zh) * | 2021-03-16 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 一种视频识别的方法、装置及存储介质 |
-
2022
- 2022-03-18 CN CN202210267564.6A patent/CN114357990B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674319A (zh) * | 2019-08-15 | 2020-01-10 | 中国平安财产保险股份有限公司 | 标签确定方法、装置、计算机设备及存储介质 |
CN111198949A (zh) * | 2020-04-10 | 2020-05-26 | 支付宝(杭州)信息技术有限公司 | 一种文本标签确定方法和系统 |
CN112100438A (zh) * | 2020-09-21 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 一种标签抽取方法、设备及计算机可读存储介质 |
CN113297378A (zh) * | 2021-05-24 | 2021-08-24 | 作业帮教育科技(北京)有限公司 | 文本数据标注方法及系统、电子设备及存储介质 |
CN114036944A (zh) * | 2021-11-23 | 2022-02-11 | 胜斗士(上海)科技技术发展有限公司 | 用于对文本数据进行多标签分类的方法和装置 |
CN113918685A (zh) * | 2021-12-13 | 2022-01-11 | 中电云数智科技有限公司 | 关键词提取方法及装置 |
CN114090779A (zh) * | 2022-01-11 | 2022-02-25 | 中南大学 | 篇章级文本的层级多标签分类方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114357990A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110110585B (zh) | 基于深度学习的智能阅卷实现方法及系统、计算机程序 | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN107291723B (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
US7529748B2 (en) | Information classification paradigm | |
CN106649603B (zh) | 一种基于网页文本数据情感分类的指定信息推送方法 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN111914558A (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN110909539A (zh) | 语料库的词语生成方法、系统、计算机设备和存储介质 | |
CN112507711A (zh) | 文本摘要抽取方法及系统 | |
CN113312899B (zh) | 文本分类方法、装置和电子设备 | |
CN110968708A (zh) | 一种教育信息资源属性标注方法及系统 | |
CN112035675A (zh) | 医疗文本标注方法、装置、设备及存储介质 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN111858896A (zh) | 一种基于深度学习的知识库问答方法 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN107797981B (zh) | 一种目标文本识别方法及装置 | |
CN112380346B (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 | |
CN116795789B (zh) | 自动生成专利检索报告的方法及装置 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |