CN111492364B - 数据标注方法、装置及存储介质 - Google Patents
数据标注方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111492364B CN111492364B CN201780097681.XA CN201780097681A CN111492364B CN 111492364 B CN111492364 B CN 111492364B CN 201780097681 A CN201780097681 A CN 201780097681A CN 111492364 B CN111492364 B CN 111492364B
- Authority
- CN
- China
- Prior art keywords
- word
- new
- new words
- words
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 92
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims description 66
- 230000015654 memory Effects 0.000 claims description 16
- 239000000203 mixture Substances 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 abstract description 45
- 230000010365 information processing Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 30
- 238000012545 processing Methods 0.000 description 20
- 238000012216 screening Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 10
- 238000012163 sequencing technique Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 206010028916 Neologism Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种数据标注方法、装置及存储介质,涉及中文信息处理领域,所述数据标注方法包括:从样本语料中确定M个第一备选新词;基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对M个第一备选新词进行打分;基于M个第一备选新词的得分,从M个第一备选新词中确定N个第一种子新词;基于N个第一种子新词对样本语料进行词语标注,得到样本语料中每个字的第一样本标签。本申请通过直接从样本语料中准确地识别出新词,然后基于准确识别的新词对样本语料进行标注,可以避免使用分词工具分词带来的错误,提高词语标注的准确性。
Description
技术领域
本申请涉及中文信息处理领域,特别涉及一种数据标注方法、装置及存储介质。
背景技术
随着时代发展与技术进步,新词大量出现已成为不可避免的语言现象。所谓新词是指随着时代的发展而新出现的词语,如“颜值”、“创客”等。在中文信息处理的众多领域,如自动分词、词典编纂以及搜索引擎、对话问答等,都需要新词的自动识别,新词识别性能在很大程度上影响着相关信息的处理效果。目前,一般可以通过新词识别模型来识别新词,而为了得到新词识别模型,需要预先对样本语料进行词语标注得到训练样本,以便基于训练样本进行模型训练得到该新词识别模型。其中,样本语料是指自然语言集合。
相关技术中提供了一种数据标注方法,包括:先用分词工具对样本语料进行分词,再用分词后的结果数据根据一定的规则判断新词的边界,以根据新词的边界确定出样本语料中的新词,然后根据确定出的新词对样本语料进行词语标注,即对样本语料中的新词所包括的每个字给出指定的词语标签,如词首、词中、词尾等,并对除新词之外的每个字给出非词语标签,从而得到样本语料中每个字的样本标签。该样本语料和样本语料中每个字的样本标签即为后续训练新词识别模型的训练样本。
相关技术中提供的数据标注方法会把分词工具的错误引入到词语标注过程中,比如,如果分词工具错误地把应该拆开的字符串组合到一起时,后续将无法正确识别新词,进而也就无法进行正确地词语标注,标注准确度较低。例如,对于样本语料出现的语句“斗图表情包”,如果分词工具把“图表”分为一个词,那么“斗图”和“表情包”就不能被识别为新词,进而也就无法对样本语料中的“斗图”和“表情包”进行正确地词语标注。
发明内容
为了解决相关技术存在的会把分词工具的错误引入到词语标注系统中,导致标注准确度较低的问题,本申请提供了一种数据标注方法、装置及存储介质。所述技术方案如下:
第一方面,提供了一种数据标注方法,所述方法包括:
从样本语料中确定M个第一备选新词,所述M为正整数;
基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对所述M个第一备选新词进行打分,得到所述M个第一备选新词的得分,所述统计信息用于指示对应新词的词频和成词特性,所述内部属性包括对应新词的长度和/或内部词性组成;
基于所述M个第一备选新词的得分,从所述M个第一备选新词中确定N个第一种子新词,所述N为小于或等于所述M的正整数;
基于所述N个第一种子新词对所述样本语料进行词语标注,得到所述样本语料中每个字的第一样本标签,所述N个第一种子新词中每个字的第一样本标签为词语标签,所述样本语料中除所述N个第一种子新词之外的其他字的第一样本标签为非词标签,所述词语标签包括词首、词中或词尾。
其中,样本语料是指包括大量自然语言数据的数据集,具体为指定领域的样本语料。由于统计信息用于指示对应新词的词频和成词特性,因此根据统计信息或统计信息和内容属性确定的第一种子新词为样本语料中的高频新词。
本发明实施例中,通过先从样本语料中确定第一备选新词,然后基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对第一备选新词进行打分,并基于第一备选新词的得分第一备选新词中确定第一种子新词,能够综合考虑各个统计信息,或各个统计信息和内部属性对新词的影响,从样本语料中准确地识别出新词。通过直接从样本语料中准确地识别出新词,然后基于准确识别的新词对样本语料进行标注,可以避免使用分词工具分词带来的错误,提高词语标注的准确性。
在另一实施例中,所述基于所述N个第一种子新词对所述样本语料进行词语标注,得到所述样本语料中每个字的第一样本标签之后,还包括:
从待发现新词的给定语料中确定S个第二备选新词,所述S为正整数;
基于每个第二备选新词的统计信息,或者统计信息和内部属性,通过所述指定新词打分算法对所述S个第二备选新词进行打分,得到所述S个第二备选新词的得分;
基于所述S个第二备选新词的得分,从所述S个第二备选新词中确定T个第二种子新词,所述T为小于或等于所述S的正整数;
通过指定新词识别模型,从所述给定语料中确定多个候选新词;其中,所述指定新词识别模型是根据所述样本语料和所述样本语料中每个字的第一样本标签训练得到的;
基于所述T个第二种子新词和所述多个候选新词,确定从所述给定语料中发现的新词。
其中,由于新词识别模型一般为根据上下文语境进行新词识别的序列标注模型,能够识别低频新词,因此通过该指定新词识别模型即能够从样本语料中识别出低频新词,也即是,该多个候选新词包括样本语料中的低频新词。
本发明实施例中,对于待发现新词的给定语料,可以先基于给定语料中第二备选新词的统计信息或统计信息和内部属性,通过指定打分算法从给定语料中确定第二种子新词即高频新词,然后通过指定新词识别模型,从给定语料中确定多个候选新词即低频新词,最后基于高频新词和低频新词确定发现的新词,如此可以在新词发现过程中充分挖掘语料中的高频新词和低频新词,提高了新词发现的准确度。
在另一实施例中,所述通过指定新词识别模型,从所述给定语料中确定多个候选新词之前,还包括:
将所述样本语料作为所述待训练新词识别模型的输入,通过所述待训练新词识别模型确定得到所述样本语料中每个字的实际标签;
基于所述样本语料中每个字的实际标签和第一样本标签,对所述待训练新词识别模型中的模型参数进行调整;
基于调整后的所述待训练新词识别模型中的模型参数,确定所述指定新词识别模型。
自然语言的表达中每个字都是有前后关系的,即具有上下文关系,而每个词语的表达也跟上下文关系密不可分,一般在某个特定的上下文语言环境下才会出现某种词语的表达,通过标注后的样本语料对待训练新词识别模型进行训练,待训练新词识别模型能够在训练过程中自动学习样本语料中出现的上下文语境下的新词表达模式,进而使得训练好的指定新词识别模型能够识别出类似上下文语境下的新词。
通过基于样本语料中每个字的实际标签和第一样本标签对所述待训练新词识别模型中的模型参数进行调整,可以使得待训练新词识别模型输出的实际标签与第一样本标签逐渐相同,从而得到能够准确输出语料标签的指定新词识别模型。
在另一实施例中,所述基于所述T个第二种子新词和所述多个候选新词,确定从所述给定语料中发现的新词,包括:
通过指定新词质量判断模型,从所述多个候选新词中确定多个高质量新词,所述高质量新词是指词语质量满足预设条件的新词;其中,所述指定新词质量判断模型是根据所述N个第一种子新词和多个非种子新词训练得到的,所述多个非种子新词是从所述M个第一备选新词包括的除所述N个第一种子新词之外的其他第一备选新词中选择得到;
基于所述T个第二种子新词和所述多个高质量新词,确定从所述给定语料中发现的新词。
发明实施例中,在从给定语料中确定多个候选新词之后,还可以通过指定新词质量判断模型,自动从多个候选新词中确定多个高质量新词,然后再基于T个第二种子新词和高质量新词确定发现的新词,进一步提高了高频新词的质量和新词发现的准确度,且避免了需要由人工进行质量筛选,降低了新词发现的成本,提高了新词发现效率。
在具体实现中,所述通过指定新词质量判断模型,从所述多个候选新词中确定多个高质量新词,包括:
确定所述多个候选新词中每个候选新词的指定信息,所述指定信息包括所述统计信息,或者所述统计信息和内部属性,或者所述统计信息、内部属性和得分,所述指定信息包括的得分是基于所述统计信息,或者所述统计信息和内部属性通过所述指定新词打分算法确定得到;
将所述多个候选新词的指定信息作为所述指定新词质量判断模型的输入,通过所述指定新词质量判断模型确定所述多个候选新词的实际质量概率,所述实际质量概率用于指示对应候选新词为高质量新词的概率;
基于所述多个候选新词的实际质量概率,从所述多个候选新词中确定所述多个高质量新词。
本发明实施例中,通过根据候选新词的统计信息,或者统计信息和内部属性,或者统计信息、内部属性和得分,通过指定新词质量判断模型从多个候选新词中确定多个高质量新词,提高了确定高质量新词的准确度。
在另一实施例中,所述通过指定新词质量判断模型,从所述多个候选新词中确定多个高质量新词之前,还包括:
将所述N个第一种子新词标注为正样本新词,并将所述多个非种子新词标注为负样本新词,所述正样本新词用于指示高质量新词,所述负样本新词用于指示非高质量新词;
基于所述正样本新词和所述负样本新词,对待训练新词质量判断模型进行训练,得到所述指定新词质量判断模型。
也即是,可以将该M个第一备选新词中的种子新词作为正例样本,将部分非种子新词作为负例样本,然后基于正例样本和负例样本对待训练新词质量判断模型进行训练,得到指定新词质量判断模型,之后利用该指定新词质量判断模型即可快速地从大量新词中筛选出高质量新词,有效避免了人工进行质量筛选的成本较高和工作量较大的问题,提高了筛选高质量新词的效率。另外,通过先从M个第一备选新词中确定出种子新词和非种子新词,然后基于种子新词和非种子新词对该M个第一备选新词进行质量标识,实现了对新词质量的自动标注,提高了数据标注效率。
在具体实现中,所述基于所述正样本新词和所述负样本新词,对待训练新词识别模型进行训练,得到所述指定新词质量判断模型,包括:
确定所述正样本新词和所述负样本新词中每个新词的指定信息,所述指定信息包括所述统计信息,或者所述统计信息和内部属性,或者所述统计信息、内部属性和得分,所述指定信息包括的得分是基于所述统计信息,或者所述统计信息和内部属性,通过指定新词打分算法确定得到;
基于所述正样本新词和所述负样本新词中每个新词的指定信息,对所述待训练新词识别模型进行训练,得到所述指定新词质量判断模型。
本发明实施例中,通过基于正样本新词和负样本新词中每个新词的指定信息对待训练新词质量判断模型进行训练,可以使得待训练新词质量判断模型能够在训练过程中自动学习新词的指定信息与新词质量的关系,进而使得训练得到的指定新词质量判断模型能够根据新词的指定信息,对该新词的质量进行判断,以确定该新词是否为高质量新词。
在具体实现中,所述统计信息包括互信息、左右熵、语料中的词频、位置成词概率和语料的指定内容中的词频;
其中,所述语料中的词频用于指示对应新词在语料中出现的频率,所述位置成词概率用于指示对应新词的首字成词概率和尾字成词概率中的最小值,所述语料的指定内容中的词频用于指示对应新词在语料的指定内容中出现的频率。
在具体实施例中,当所述样本语料为指定领域的语料时,所述统计信息还包括指定领域的日志中的词频,所述指定领域的日志中的词频用于指示对应新词在所述指定领域的日志中出现的频率,所述指定领域包括搜索领域或对话问答领域。
通过考虑互信息、左右熵、语料中的词频,并附加位置成词概率、语料的指定内容中的词频、新词长度、内部词性组成以及指定领域的日志中的词频等多个特征来从样本语料中确定种子新词,提高了确定种子新词的准确度以及确定出的种子新词的质量,进而提高了后续从语料中发现高频新词的准确率和召回率。
在具体实现中,所述样本语料为待发现新词的给定语料。
在具体实现中,所述待训练新词识别模型和指定新词识别模型为条件随机场模型或神经网络模型。
在具体实现中,所述从样本语料中确定M个第一备选新词,包括:
对所述样本语料依次进行指定长度的字符串截取,得到多个指定长度的第一字符串;
基于所述多个指定长度的第一字符串确定所述M个第一备选新词。
在具体实现中,所述基于所述M个第一备选新词的得分,从所述M个第一备选新词中确定N个第一种子新词,包括:
按照所述M个第一备选新词的得分从高到低的顺序,对所述M个第一备选新词进行排序,并将排序结果中的前N个第一备选新词确定为所述N个第一种子新词;
或者,
从所述M个第一备选新词中选择得分大于预设分数阈值的第一备选新词,并将选择的第一备选新词确定为所述N个第一种子新词。
在具体实现中,将将所述N个第一种子新词标注为正样本新词,并将所述多个非种子新词标注为负样本新词,包括:将所述N个第一种子新词的样本质量概率设置为1,将所述多个非种子新词的样本质量概率设置为0。
在另一实施例中,将所述样本语料作为所述待训练新词识别模型的输入,通过所述待训练新词识别模型确定得到所述样本语料中每个字的实际标签之前,还包括:
采用指定分词工具对所述样本语料进行分词处理,得到多个第一分词;
基于所述多个第一分词对所述样本语料进行词语标注,得到所述样本语料中每个字的第二样本标签,其中,所述多个第一分词中的每个字的第二样本标签为词语标签,所述样本语料包括的除所述多个第一分词之外的其他字的第二样本标签为非词标签;
相应地,所述基于所述样本语料中每个字的实际标签和第一样本标签,对所述待训练新词识别模型中的模型参数进行调整,包括:
基于所述样本语料中每个字的第一样本标签和第二样本标签,确定所述样本语料中每个字的第三样本标签,其中,所述T个第二种子新词以及所述第一分词中的每个字的第三样本标签为词语标签,所述样本语料包括的除所述T个第二种子新词和所述第一分词之外的其他字的第三样本标签为非词标签;
基于所述样本语料中每个字的实际标签和第三样本标签对所述待训练新词识别模型中的模型参数进行调整。
本发明实施例中,可以基于第一种子新词和分词处理得到的第一分词一起对样本语料进行标注,通过基于第一种子新词和分词处理得到的第一分词一起对样本语料进行标注,然后基于标注后的样本语料对待训练新词识别模型进行训练,使得待训练新词识别模型能够学习到更多的词语表达规律,从而使得训练的得到的指定新词识别模型能够识别到更多的新词,有效增加了新词预测的召回率。
在具体实现中,所述通过指定新词质量判断模型,从所述多个候选新词中确定多个高质量新词,包括:
通过所述指定新词质量判断模型,对所述多个候选新词进行质量判断,得到所述多个候选新词的实际质量概率,实际质量概率用于指示候选新词为高质量新词的概率;
基于所述多个候选新词的实际质量概率,从所述多个候选新词中确定所述多个高质量新词。
在具体实现中,基于所述多个候选新词的实际质量概率,从所述多个候选新词中确定所述多个高质量新词,包括:
按照所述多个候选新词的实际质量概率从高到低的顺序,对所述多个候选新词进行排序,并将排序结果中的前K个候选新词确定为所述多个高质量新词,所述K为正整数;
或者,
从所述多个候选新词中选择实际质量概率大于预设概率阈值的候选新词,并将选择的候选新词确定为所述多个高质量新词。
在具体实现中,所述通过所述指定新词识别模型,从所述给定语料中确定多个候选新词,包括:
将所述给定语料作为所述指定新词识别模型的输入,通过所述指定新词识别模型确定得到所述给定语料中每个字的实际标签;
基于所述给定语料中每个字的实际标签,从所述给定语料中确定所述多个候选新词。
在另一实施例中,所述通过所述指定新词识别模型,从所述给定语料中确定多个候选新词,包括:
将所述给定语料作为所述指定新词识别模型的输入,通过所述指定新词识别模型确定得到所述给定语料中每个字的实际标签;
基于所述给定语料中每个字的实际标签,从所述给定语料中确定多个候选词语;
采用指定分词工具对所述给定语料进行分词处理,得到多个第二分词;
从所述多个候选词语中筛除所述多个第二分词;
将筛除后剩余的候选词语确定为所述多个候选新词。
本发明实施例中,通过先通过指定新词识别模型从给定语料中识别出多个候选词语,然后采用指定分词工具从给定语料中确定出多个旧词,最后从多个候选词语中筛除旧词即可得到多个候选新词,如此可以提高确定候选新词的准确度。
第二方面,提供了一种数据标注装置,所述数据标注装置具有实现上述第一方面中数据标注方法行为的功能。所述数据标注装置包括至少一个模型,该至少一个模型用于实现上述第一方面所提供的数据标注方法。
第三方面,提供了一种数据标注装置,所述数据标注装置的结构中包括处理器和存储器,所述存储器用于存储支持数据标注装置执行上述第一方面所提供的数据标注方法的程序,以及存储用于实现上述第一方面所提供的数据标注方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述存储设备的操作装置还可以包括通信总线,该通信总线用于该处理器与存储器之间建立连接。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的数据标注方法。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的数据标注方法。
上述第二方面-第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似,在这里不再赘述。
本申请提供的技术方案带来的有益效果是:
本发明实施例中,通过先从样本语料中确定第一备选新词,然后基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对第一备选新词进行打分,并基于第一备选新词的得分第一备选新词中确定第一种子新词,能够综合考虑各个统计信息,或各个统计信息和内部属性对新词质量的影响,从样本语料中准确地识别出质量较高的种子新词。通过直接从样本语料中准确地识别出新词,然后基于准确识别的新词对样本语料进行标注,可以避免使用分词工具分词带来的错误,提高词语标注的准确性。
附图说明
图1A是本发明实施例提供的一种数据标注系统的逻辑结构示意图;
图1B是本发明实施例提供的一种模型训练系统的逻辑结构示意图;
图1C是本发明实施例提供的一种新词发现系统的逻辑结构示意图;
图1D是本发明实施例提供的一种模型训练和新词发现系统的逻辑结构示意图;
图1E是本发明实施例提供的一种数据标注方法的流程图;
图2是本发明实施例提供的又一种数据标注方法的流程图;
图3是本发明实施例提供的一种新词发现方法的流程图;
图4是本发明实施例提供的另一种新词发现方法的流程图;
图5是本发明实施例提供的一种模型训练装置的结构示意图;
图6是本发明实施例提供的一种终端的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例提供的数据标注方法进行详细介绍之前,首先对本发明实施例的应用场景进行介绍。
本发明实施例提供的数据标注方法可以应用于新词发现场景中,新词发现是中文信息处理领域一项很重要的基础工作,在中文信息处理的众多领域,如自动分词、信息检索、词典编纂以及对话问答等领域都具有重要作用。例如,可以利用本发明实施例提供的数据标注方法得到的训练样本,对新词识别模型进行训练,通过训练好的新词识别模型从大量的自然语句数据集(语料)中发现用户使用的新词,然后将发现的新词编纂进词典中,或者增加分词工具进行分词处理的准确性等。
例如,在分词处理领域,如果分词工具不能识别出新词,就会将新词拆分成单词,使得分词处理结果中出现过多的“散串”,影响分词的准确性。比如对于动画电影产生的新词“熊本熊”,如果分词工具不能正确识别,就会将新词“熊本熊”拆分成3个单字“熊”、“本”和“熊”。而通过预先进行新词发现,可以基于发现的新词增加分词工具的新词识别能力,提高分词工具分词的准确性。
在对本发明实施例的应用场景进行介绍之后,接下来将对本发明实施例的系统架构进行介绍。
图1A是本发明实施例提供的一种数据标注系统的逻辑结构示意图,如图1A所示,该系统包括种子新词识别模型10和自动标注模块20,可以通过种子新词确定模型10和自动标注模型20对样本语料进行自动词语标注。
种子新词确定模型10用于从样本语料中确定M个第一备选新词;基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对该M个第一备选新词进行打分,得到M个第一备选新词的得分;基于该M个第一备选新词的得分,从该M个第一备选新词中确定N个第一种子新词。
其中,M为正整数,N为小于或等于M的正整数,统计信息用于指示对应新词的词频和成词特性,内部属性包括对应新词的长度和/或内部词性组成。由于种子新词是通过统计信息确定得到,且统计信息用于指示对应新词的词频和成词特性,因此种子新词通常为样本语料中出现频率较高的高频新词。
自动标注模型20用于基于该N个第一种子新词对样本语料进行词语标注,得到标注后的样本语料,该标注后的样本语料包括样本语料以及样本语料中每个字的第一样本标签。其中,该N第一种子新词中每个字的第一样本标签为词语标签,该样本语料中除该N个第一种子新词之外的其他字的第一样本标签为非词标签,词语标签包括词首、词中或词尾等。
进一步地,自动标注模块20还用于基于该N个第一种子新词对该M个第一备选新词进行质量标注,即将该M个第一备选新词中的N个第一种子新词标注为正样本新词,并将该M个第一备选新词中的多个非种子新词标注为负样本新词。其中,该多个非种子新词是从该M个第一备选新词包括的除该N个第一种子新词之外的其他第一备选新词中选择得到。正样本新词用于指示高质量新词,负样本新词用于指示非高质量新词。高质量新词是指词语质量满足预设条件的新词。
也即是,该数据标注系统还可以通过种子新词确定模型10和自动标注模型20对备选新词自动进行质量标注。
图1B是本发明实施例提供的一种模型训练系统的逻辑结构示意图,如图1B所示,该系统包括种子新词识别模型10、自动标注模块20、待训练的新词识别模型30和指定新词识别模型40。
在该模型训练系统中,通过种子新词识别模型10和自动标注模块20得到标注后的样本语料之后,可以基于标注后的样本语料对待训练新词识别模型30进行训练,得到指定新词识别模型40。其中,该指定新词识别模型40能够对任一待发现新词的给定语料进行新词识别,得到多个候选新词。而且,由于新词识别模型一般为根据上下文语境进行新词识别的序列标识模型,通常可以识别低频新词,因此该多个候选新词可以包括样本语料中的低频新词。
进一步地,该系统还可以包括待训练新词质量判断模型50和指定新词质量判断模型60。
在该模型训练系统中,通过种子新词识别模型10和自动标注模块20对备选新词进行质量标注得到正样本新词和负样本新词之后,还可以基于正样本新词和负样本新词对待训练新词质量判断模型50进行训练,得到指定新词质量判断模型60。该指定新词质量判断模型60用于判断新词是否为高质量新词。
图1C是本发明实施例提供的一种新词发现系统的逻辑结构示意图,且该方法可以基于图1B中训练得到的指定新词识别模型40进行新词发现,参见图1B,该系统包括种子新词确定模型10、指定新词识别模型40和指定新词质量判断模型60。
其中,指定新词识别模型40用于从待识别新词的给定语料中确定多个候选新词,指定新词质量判断模型60用于对该多个候选新词进行新词质量判断,以从该多个候选新词中确定多个高质量新词。
对于待发现新词的给定语料,该系统可以先从给定语料中确定S个第二备选新词,基于每个第二备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对该S个第二备选新词进行打分,得到该S个第二备选新词的得分;基于该S个第二备选新词的得分,从该S个第二备选新词中确定T个第二种子新词,然后将该给定语料输入指定新词识别模型40,通过该指定新词识别模型40从该给定语料中确定多个候选新词,并通过该指定新词质量判断模型40从该多个候选新词中确定多个高质量新词,最后基于该T个第二种子新词和该多个高质量新词确定出从该给定语料中发现的新词。其中,S为正整数,T为小于或等于S的正整数。
当然,该系统也可以不包括指定新词质量判断模型40,最后直接基于T个第二种子新词和多个候选新词确定从该给定语料中发现的新词。需要说明的是,图1C所示的逻辑结构与图1B所示的逻辑结构可以集成在一个设备中,也可以分别位于不同的设备中,本发明实施例对此不做限定。
进一步地,图1B的模型训练系统所使用的样本语料与图1B的新词发现系统使用的给定语料可以相同,也可以不同。当两者相同时,对于待发现新词的给定语料,还可以直接在图1B所示的模型训练系统中基于待发现新词的给定语料对待训练新词识别模型30和待训练新词质量判断模型50进行训练,然后在图1C所示的新词发现系统中基于训练好的指定新词识别模型40和指定新词质量判断模型60对该给定语料进行新词识别。
图1D是本发明实施例提供的一种模型训练和新词发现系统的逻辑结构示意图,如图1D所示,该系统包括种子新词确定模型10、自动标注模型20、待训练的新词识别模型30、指定新词识别模型40、待训练新词质量判断模型50和指定新词质量判断模型60。
实际应用中,可以将待发现新词的给定语料输入该种子新词确定模型10,按照从样本语料中确定M个第一备选新词和N个第一种子新词的方法,通过该种子新词确定模型10从给定语料中确定S个第二备选新词和T个第二种子新词。
之后,通过自动标注模型20基于该T个第二种子新词对给定语料进行词语标注,并基于标注后的给定语料对待训练新词识别模型30进行训练,得到指定新词识别模型40。该标注后的给定语料包括给定语料以及给定语料中每个字的第一样本标签,且该S个第二种子新词中每个字的第一样本标签为词语标签,该给定语料中除该S个第二种子新词之外的其他字的第一样本标签为非词标签,词语标签包括词首、词中或词尾。
另外,还可以通过自动标注模型20基于该T个第二种子新词对S个第二备选新词进行质量标注,得到正样本新词和负样本新词,并基于正样本新词和负样本新词对待训练新词质量判断模型50进行训练,得到指定新词质量判断模型60。
然后,将给定语料输入该指定新词识别模型40,通过该指定新词识别模型40从该给定语料中确定多个候选新词,并通过该指定新词质量判断模型40从该多个候选新词中确定多个高质量新词,最后基于该T个第二种子新词和该多个高质量新词确定出从该给定语料中发现的新词。
在对本发明实施例提供的应用场景和系统架构进行介绍之后,接下来将对本发明实施例提供的数据标注方法进行详细介绍。图1E是本发明实施例提供的一种数据标注方法的流程图,该方法可以应用于计算机等终端设备中。参见图1E,该方法包括如下步骤:
步骤101:从样本语料中确定M个第一备选新词。
其中,所述样本语料是指包括大量自然语言数据的数据集。实际应用中,为了对特定领域的语料进行新词发现,可以在特定领域内选取语料作为样本语料。该特定领域可以为医学领域、机械领域、新闻娱乐领域或者应用(Application,APP)搜索领域等。比如,对于APP搜索领域,可以选取APP市场中的APP名称和描述,或者用户在APP市场中的搜索短语日志作为APP搜索领域的样本语料。所述M为正整数。
具体地,从样本语料中确定M个第一备选新词可以包括如下步骤1)-2):
1)对该样本语料依次进行指定长度的字符串截取,得到多个指定长度的第一字符串。
其中,该指定长度可以预先设置,且可以包括多个预设长度。而且实际应用中,该多个预设长度通常均为大于1个单字的长度。例如,该指定长度可以为2-6个单字的长度。
具体地,可以分别以该样本语料中的每个字为起点,依次截取指定长度的字符串。比如,以该指定长度为2-6个单字的长度为例,可以先以样本语料中的第一个字为起点依次截取2个、3个、4个、5个和6个单字长度的字符串,得到5个字符串,然后以第二个字为起点依次截取2个、3个、4个、5个和6个单字长度的字符串,再得到5个字符串,直至截取到最后两个字组成的字符串为止。
2)基于该多个指定长度的第一字符串确定该M个第一备选新词。
具体地,基于该多个指定长度的第一字符串确定该M个第一备选新词可以包括以下几种实现方式:
第一种实现方式:从该多个指定长度的第一字符串中筛除与多个旧词相同的第一字符串,将筛除后剩余的指定长度的第一字符串确定为该M个第一备选新词。
其中,旧词是指已知的词语,比如指定分词工具能够识别的词语或者已编纂进指定词典中的词语等。实际应用中,该多个旧词可以基于指定分词工具对样本语料进行分词处理得到或者基于指定词典确定得到,当然也可以采用其他方式确定得到,本发明实施例对此不做限定。
第二种实现方式:从该多个指定长度的第一字符串中筛除与多个旧词相同的第一字符串,基于筛除后剩余的指定长度的第一字符串的统计信息,或统计信息和内部属性,从筛除后剩余的指定长度的第一字符串中确定该M个第一备选新词。
其中,字符串的统计信息用于指示对应字符串的出现频率和成词特性,该统计信息至少包括互信息、左右熵和语料中的词频,还可以包括位置成词概率和语料的指定内容中的词频中的至少一种。字符串的内部属性包括对应字符串的长度和/或内部词性组成。
进一步地,当该样本语料为指定领域的语料时,字符串的统计信息还可以包括指定领域的日志中的词频,该指定领域的日志中的词频用于指示对应字符串在指定领域的日志中出现的频率。该指定领域可以包括搜索领域或对话问答领域等,相应地,指定领域的日志可以为搜索日志或对话日志等。
互信息
互信息(Mutual Information,MI)是指对应字符串的组成部分连在一起与偶然出现在一起的信息熵的比例,体现了字符串的组成部分之间的相关性和相互依赖程度。互信息值越高,表示其组成部分的相关性越高,组成词语的可能性越大。实际应用中,互信息通常为点间互信息(Pointwise Mutual Information,PMI)。
左右熵
熵是用于表示随机变量不确定性的量度。左右熵包括对应字符串中左边的熵和右边的熵,用于分别指示对应字符串左边出现的字和右边出现的字的变化频率,体现了对应字符串在上下文的独立程度。
语料中的词频
语料中的词频用于指示对应字符串在语料中出现的频率。
位置成词概率
位置成词概率用于指示对应字符串的首字成词概率和尾字成词概率中的最小值。实际应用中,可以从成词概率列表中查找对应字符串的首字成词概率和尾字成词概率,该成词概率列表存储有大量单字和对应的成词概率,且该成词概率列表可以预先根据通用词典信息进行统计得到。
语料的指定内容中的词频
语料的指定内容中的词频用于指示对应字符串在语料的指定内容中出现的频率。指定内容是指预先设置的语料中的重要内容,如语料中的文章标题或与该语料所属领域有关的关键内容。例如,对于APP领域的语料,该指定内容可以为APP名称等。
具体地,可以从剩余的第一字符串中选择部分统计信息值,或部分统计信息值和内部属性值满足对应阈值要求的第一字符串,然后将选择的第一字符串确定为该M个第一备选新词。
其中,该部分统计信息值对应的统计信息可以为互信息、左右熵、语料中的词频、位置成词概率、语料的指定内容中的词频和指定领域的日志中的词频中的至少一个。该部分内部属性值对应的内部属性可以为字符串的长度和内部词性组成中的至少一个。
示例的,可以从剩余的第一字符串中选择互信息值满足预设互信息阈值、左右熵满足预设左右熵阈值和语料中的词频满足预设词频阈值这三个条件中的至少一个条件的第一字符串,然后将选择的第一字符串确定为M个第一备选新词。
第三种实现方式:从该多个指定长度的第一字符串选择部分统计信息值,或部分统计信息值和内部属性值满足对应阈值要求的第一字符串,从选择的第一字符串中筛除与多个旧词相同的第一字符串,将筛除后剩余的第一字符串确定为该M个第一备选新词。
例如,可以先从该多个指定长度的第一字符串中选择互信息值满足预设互信息阈值、左右熵满足预设左右熵阈值和语料中的词频满足预设词频阈值这三个条件中的至少一个条件的第一字符串,然后从选择的第一字符串中筛除旧词,即可得到M个第一备选新词。
步骤102:基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对该M个第一备选新词进行打分,得到该M个第一备选新词的得分。
得到M个第一备选新词之后,可以先确定该M个第一备选新词中每个第一备选新词的统计信息,或每个第一备选新词的统计信息和内部属性,然后基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对该M个第一备选新词进行打分,得到该M个第一备选新词的得分。
其中,第一备选新词的统计信息用于指示对应新词的词频和成词特性,第一备选新词的内部属性包括对应新词的长度和/或内部词性组成。
具体地,第一备选新词的统计信息至少包括互信息、左右熵和语料中的词频,进一步地,还可以包括位置成词概率和语料的指定内容中的词频中的至少一种。语料中的词频用于指示对应新词在语料中出现的频率,位置成词概率用于指示对应新词的首字成词概率和尾字成词概率中的最小值,语料的指定内容中的词频用于指示对应新词在语料的指定内容中出现的频率。
进一步地,当该样本语料为指定领域的语料时,第一备选新词的统计信息还包括指定领域的日志中的词频,指定领域的日志中的词频用于指示对应新词在指定领域的日志中出现的频率,该指定领域包括搜索领域或对话问答领域等。
其中,该指定打分算法是指能够综合统计信息,或者统计信息和内部属性中的各种特征对该M个第一备选新词进行打分的算法,且该指定打分算法可以为线性打分算法,也可以为非线性打分算法。实际应用中,该指定新词打分算法的具体算法逻辑可以由技术人员根据实际需要预先设置。
具体地,可以结合每个第一备选新词的统计信息包括的多个特征,或统计信息包括的多个特征以及内部属性包括的多个特征,通过该指定新词打分算法,对该M个第一备选新词分别进行打分。比如,可以结合互信息、左右熵、语料中的词频、位置成词概率、语料的指定内容中的词频、指定领域的日志中的词频、字符串长度和内部词性组成这8个特征,通过指定新词打分算法对第一备选新词进行打分。通过考虑互信息、左右熵、语料中的词频,并附加位置成词概率、语料的指定内容中的词频、字符串长度、对应字符串的内部词性组成以及指定领域的日志中的词频等多个特征,来对第一备选新词进行打分,可以提高根据第一备选新词的得到从第一备选新词中确定高质量的新词的准确度,进而提高从样本语料中识别出高质量新词的准确度。
在一个实施例中,可以根据重要性为每个统计信息,或者每个统计信息和每个内部属性设置权重,然后对于每个第一备选新词,计算该第一备选新词的每个统计信息的权重和对应统计信息值的乘积,或者计算每个统计信息的权重和对应统计信息值的乘积,以及每个内部属性的权重和对应内部属性值的乘积,然后将计算得到的各个乘积进行相加,根据相加结果为该第一备选新词进行打分,得到该第一备选新词的得分。
进一步地,还可以先将每个第一备选新词的各个统计信息值,或者各个统计信息值和内部属性值进行归一化处理,对于每个第一备选新词,计算该第一备选新词的每个统计信息的权重和对应的归一化处理后的统计信息值的乘积,或者每个统计信息的权重和对应的归一化处理后的统计信息值的乘积,以及每个内部属性的权重和对应的归一化处理后的内部属性值的乘积,然后将计算得到的各个乘积进行相加,根据相加结果为该第一备选新词进行打分,得到该第一备选新词的得分。
步骤103:基于该M个第一备选新词的得分,从该M个第一备选新词中确定N个第一种子新词。
其中,N为小于或等于M的正整数。第一种子新词是指该M个第一备选新词中新词质量较高的新词。而且,由于第一种子新词是基于统计信息,或统计信息和内容属性确定得到,因此第一种子新词通常为高频新词,即在样本语料中出现频率较高的新词。
具体地,基于该M个第一备选新词的得分,从该M个第一备选新词中确定该N个第一种子新词包括以下两种实现方式:
第一种实现方式:按照该M个第一备选新词的得分从高到低的顺序,对该M个第一备选新词进行排序,并将排序结果中的前N个第一备选新词确定为该N个第一种子新词。
其中,所述N可以预先设置得到,或者根据第一备选新词的数量确定得到。例如,当该N为300时,可以从该M个第一备选新词中选取得分较高的前300个第一备选新词作为第一种子新词。
第二种实现方式:从该M个第一备选新词中选择得分大于预设分数阈值的第一备选新词,并将选择的第一备选新词确定为该N个第一种子新词。
其中,该预设分数阈值可以预先设置得到,具体可以由终端默认设置,也可以由技术人员设置,本发明实施例对此不做限定。
本发明实施例中,通过结合统计信息或者统计信息和内部属性,通过指定新词打分算法对该M个第一备选新词进行打分,然后基于得分从该M个第一备选新词中确定该N个第一种子新词,可以从M个第一备选新词中准确选取高质量的高频新词,提高了从样本语料中确定高频新词的准确度和质量。
进一步地,为了便于处理,当样本语料中存在繁体字时,在步骤101之前还可以先将样本语料中的繁体字转换为简体字,然后再对转换后的样本语料采用步骤101的方式进行处理,以得到该N个第一种子新词。
步骤104:基于该N个第一种子新词对该样本语料进行词语标注,得到该样本语料中每个字的第一样本标签。
标注之后,该样本语料包括的N个第一种子新词中每个字的第一样本标签为词语标签,该样本语料包括的除该N个第一种子新词之外的其他字的第一样本标签为非词标签。
其中,词语标签包括词首、词中或词尾,非词标签可以为其他(other)等。词语标签用于指示对应字能够与相邻的其他字组成词语,非词标签用于指示对应字为单字,不能与相邻的其他字组成词语。示例的,词首为B,词中为M,词尾为E,非词标签为O。
具体地,对样本语料进行词语标注时,可以按照语料顺序将出现的第一种子新词中的每个字的第一样本标签设置为词语标签,将出现的其他字的第一样本标签设置为非词标签。对于每个第一种子新词,可以将该第一种子新词中的第一个字的第一样本标签设置为词首,将最后一个字的第一样本标签设置为词尾,并将词首和词尾之间的字的第一样本标签设置为词中。
通过本发明实施例提供的数据标注方法,实现了基于该N个第一种子新词对样本语料进行自动词语标注,也即是,对该样本语料中存在的第一种子新词中的每个字给出对应的词语标签,对于其他字给出非词标签,从而得到该样本语料中每个字的第一样本标签。
相关技术中,通常由人工对样本语料进行词语标注,工作量大且成本较高,而本发明实施例中,则可以基于从样本语料中确定出的第一种子新词对样本语料进行自动标注,有效解决了人工标注的工作量和成本问题,提高了标注效率。另一相关技术中,通常使用分词后的结果判断新词边界,再做标注,这样会引入分词工具的错误,本发明实施例通过直接使用从样本语料中识别新词,然后进行词语标注,避免了分词工具引入的错误,提高了新词判断的准确率。
需要说明的是,在对样本语料进行词语标注之后所得到的样本语料和样本语料中每个字的第一样本标签还可以作为训练样本,对新词识别模型进行训练。接下来将以在对样本语料进行词语标注之后,基于得到的样本语料和样本语料中每个字的第一样本标签,对待训练新词识别模型进行训练,得到指定新词识别模型为例进行说明。
步骤105:基于该样本语料和该样本语料中每个字的第一样本标签,对待训练新词识别模型进行训练,得到指定新词识别模型。
实际应用中,该待训练新词识别模型和对应的指定新词识别模型可以为机器学习模型,如机器学习模型中的神经网络模型或者非神经网络模型等。比如,当该待训练新词识别模型为神经网络模型时,可以为递归神经网络模型(Recurrent neural Network,RNN)模型、长短期记忆网络模型(Long Short-Term Memory,LSTM)模型等,当该待训练新词识别模型为非神经网络模型时,可以为条件随机场(Conditional Random Field,CRF)模型、隐马尔科夫(Hidden Markov Model,HMM)模型等。
自然语言的表达中每个字都是有前后关系的,即具有上下文关系,而每个词语的表达也跟上下文关系密不可分,一般在某个特定的上下文语言环境下才会出现某种词语的表达,通过标注后的样本语料对待训练新词识别模型进行训练,待训练新词识别模型能够在训练过程中自动学习样本语料中出现的上下文语境下的新词表达模式,进而使得训练好的指定新词识别模型能够识别出类似上下文语境下的新词。
具体地,基于该样本语料和该样本语料中每个字的第一样本标签,对待训练新词识别模型进行训练,得到指定新词识别模型可以包括以下两种实现方式:
第一种实现方式:将该样本语料作为该待训练新词识别模型的输入,通过该待训练新词识别模型确定得到该样本语料中每个字的实际标签;基于该样本语料中每个字的实际标签和第一样本标签对该待训练新词识别模型中的模型参数进行调整;基于调整后的待训练新词识别模型中的模型参数确定该指定新词识别模型。
通过调整待训练新词识别模型中的模型参数,可以使得待训练新词识别模型输出的实际标签与第一样本标签逐渐相同,从而得到能够准确输出语料标签的指定新词识别模型,使得训练得到的指定新词识别模型能够准确识别给定语料中的新词。
其中,基于该样本语料中每个字的实际标签和第一样本标签对待训练新词识别模型中的模型参数进行调整包括:将样本语料中每个字的实际标签与第一样本标签进行比较,或者,从样本语料中每个字的实际标签中确定N个第一种子新词中每个字的实际标签,并将N个第一种子新词中每个字的实际标签与第一样本标签进行比较;然后基于比较结果对该待训练新词识别模型中的模型参数进行调整。
其中,上述比较结果用于指示待训练新词识别模型的输出的实际标签与第一样本标签的误差,通过基于比较结果对该待训练新词识别模型中的模型参数进行调整,可以逐渐缩小待训练新词识别模型的输出误差,使得待训练新词识别模型的输出的实际标签与第一样本标签逐渐相同。
具体地,可以基于比较结果,采用随机梯度下降法对待训练新词识别模型中的模型参数进行调整,当然也可以采用其他反向传播算法对待训练新词识别模型中的模型参数进行调整,本发明实施例对此不做限定。
需要说明的是,通过上述第一种实现方式得到的指定新词识别模型是能够从语料中识别出新词的模型,即通过该指定新词识别模型从语料中识别出的词语即为新词。
第二种实现方式:采用指定分词工具对该样本语料进行分词处理,得到多个第一分词;基于该多个第一分词对该样本语料进行词语标注,得到该样本语料中每个字的第二样本标签;基于该样本语料中每个字的第一样本标签和该样本语料中每个字的第二样本标签,确定该样本语料中每个字的第三样本标签;基于该样本语料中每个字的实际标签和第三样本标签对该待训练新词识别模型中的模型参数进行调整。
其中,该样本语料包括的多个第一分词中的每个字的第二样本标签为词语标签,该样本语料包括的除该多个第一分词之外的其他字的第二样本标签为非词标签;该样本语料包括的该N个第一种子新词以及该多个第一分词中的每个字的第三样本标签为词语标签,该样本语料包括的除该N个第一种子新词以及该多个第一分词之外的其他字的第三样本标签为非词标签。
也即是,本发明实施例中,可以基于N个第一种子新词和多个第一分词对样本语料进行词语标注,得到样本语料的第三样本标签,然后基于该样本语料中每个字的实际标签与和第三样本标签对待训练新词识别模型中的模型参数进行调整,得到该指定新词识别模型。
另外,基于N个第一种子新词和多个第一分词对样本语料进行词语标注,得到样本语料的第三样本标签的方式,既可以采用上述第二种方式,也可以基于N个第一种子新词和多个第一分词同时对该样本语料进行词语标注,直接得到该样本语料中每个字的第三样本标签,本发明实施例对此不做限定。
通过调整待训练新词识别模型中的模型参数,可以使得待训练新词识别模型输出的实际标签与第三样本标签逐渐相同,从而得到能够准确输出语料标签的指定新词识别模型,使得训练得到的指定新词识别模型能够准确识别给定语料中的词语。
其中,基于该样本语料中每个字的实际标签与第三样本标签对待训练新词识别模型中的模型参数进行调整包括:将样本语料中每个字的实际标签与第三样本标签进行比较,或者,从样本语料中每个字的实际标签中确定N个第一种子新词以及多个第一分词中每个字的实际标签,将N个第一种子新词中每个字的实际标签与第三样本标签进行比较,并将多个第一分词中每个字的实际标签与第三样本标签进行比较;然后基于比较结果对该待训练新词识别模型中的模型参数进行调整。
其中,上述比较结果用于指示待训练新词识别模型的输出的实际标签与第三样本标签的误差,通过基于比较结果对该待训练新词识别模型中的模型参数进行调整,可以逐渐缩小待训练新词识别模型的输出误差,使得待训练新词识别模型的输出的实际标签与第三样本标签逐渐相同。
具体地,可以基于比较结果,采用随机梯度下降法对待训练新词识别模型中的模型参数进行调整,当然也可以采用其他反向传播算法对待训练新词识别模型中的模型参数进行调整,本发明实施例对此不做限定。
通过基于第一种子新词和分词处理得到的第一分词一起对样本语料进行标注,然后基于标注后的样本语料对待训练新词识别模型进行训练,使得待训练新词识别模型能够学习到更多的词语表达模型,从而使得训练的得到的指定新词识别模型能够识别到更多的新词,有效增加了新词预测的召回率。
需要说明的是,通过上述第二种实现方式得到的指定新词识别模型是能够从语料中识别出词语的模型,也即是,通过该指定新词识别模型从语料中识别出的词语即包括新词,也包括旧词。因此在通过该指定新词识别模型从给定语料中识别出候选词语之后,需要从候选词语中筛除旧词,才能得到候选新词。
本发明实施例中,通过先从样本语料中确定第一备选新词,然后基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对第一备选新词进行打分,并基于第一备选新词的得分第一备选新词中确定第一种子新词,能够综合考虑各个统计信息,或各个统计信息和内部属性对新词质量的影响,从样本语料中准确地识别出质量较高的种子新词。通过直接从样本语料中准确地识别出新词,然后基于准确识别的新词对样本语料进行标注,可以避免使用分词工具分词带来的错误,提高词语标注的准确性。
进一步地,在通过上述步骤103得到N个第一种子新词之后,还可以基于该N个第一种子新词对该M个第一备选新词进行质量标注,然后基于标注后的第一备选新词对新词质量判断模型进行训练。图2是本发明实施例提供的又一种数据标注方法的流程图,如图2所示,该方法包括如下步骤:
步骤201:从样本语料中确定M个第一备选新词。
步骤202:基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对该M个第一备选新词进行打分,得到该M个第一备选新词的得分。
步骤203:基于该M个第一备选新词的得分,从该M个第一备选新词中确定N个第一种子新词。
需要说明的是,步骤201-203的实现方式与上述步骤101-103的实现方式相同,具体实现过程可以参考上述步骤101-103的相关描述,本发明实施例在此不再赘述。
步骤204:将该N个第一种子新词标注为正样本新词,并将该多个非种子新词标注为负样本新词。
其中,该多个非种子新词是从该M个第一备选新词包括的除该N个第一种子新词之外的第一备选新词中选择得到。实际应用中,可以选取该M个第一备选新词中除该N个第一种子新词之外的所有第一备选新词作为该多个非种子新词,也可以选取该M个第一备选新词中除该N个第一种子新词之外的部分第一备选新词作为该多个非种子新词,本发明实施例对此不做限定。
其中,该正样本新词用于指示高质量新词,该负样本新词用于指示非高质量新词,高质量新词是指词语质量满足预设条件的新词。该M个第一备选新词既包括高质量新词,也包括非高质量新词即低质量新词。其中,该N个第一种子新词是该M个第一备选新词中的高质量新词,除该N个第一种子新词的其他第一备选新词是该M个第一备选新词中的低质量新词,相应地,从该其他第一备选新词中选择得到的多个非种字新词也是低质量新词。
具体地,将该N个第一种子新词标注为正样本新词,并将该多个非种子新词标注为负样本新词可以包括:将该N个第一种子新词的样本标记设置为1,将该多个非种子新词的样本标记设置为0。其中,1用于指示正样本,0用于指示负样本。
需要说明的是,在对第一备选新词进行质量标注之后,所得到的正样本新词和负样本新词还可以作为训练样本,对新词质量判断模型进行训练。接下来将以在对第一备选新词进行质量标注之后,基于得到的正样本新词和负样本新词,对待训练新词质量判断模型进行训练,得到指定新词质量判断模型为例进行说明。
步骤205:基于正样本新词和负样本新词对待训练进行训练,得到指定新词质量判断模型。
实际应用中,该待训练新词质量判断模型和指定新词质量判断模型可以为梯度提升决策树模型(Gradient Boosting Decision Tree,GBDT)或者随机森林等机器学习模型等。
通过基于正样本新词和负样本新词对待训练新词质量判断模型进行训练,可以使得该待训练新词质量判断模型能够在训练过程中自动学习高质量新词的特征,进而得到能够对任一给定的新词进行质量判断,识别出该新词是高质量新词还是低质量新词的指定新词质量判断模型。也即是,该指定新词质量判断模型用于判断新词是否为高质量新词。
具体地,基于正样本新词和负样本新词对待训练新词质量判断模型进行训练,得到指定新词质量判断模型的操作可以为:确定正样本新词和负样本新词中每个新词的指定信息,基于正样本新词和负样本新词的指定信息,对待训练新词质量判断模型进行训练,得到该指定新词质量判断模型。
其中,该指定信息可以包括统计信息,或者包括统计信息和内部属性,或者包括统计信息、内部属性和得分,该指定新词包括的得分是基于统计信息,或统计信息和内部属性通过指定新词打分算法确定得到。
也即是,对于标记得到的正样本新词和负样本新词,可以分别确定每个正样本新词的指定信息以及每个负样本新词的指定信息,然后基于每个正样本新词的指定信息和对应的正样本标记,以及每个负样本新词的指定信息和对应的负样本标记,对待训练新词质量判断模型进行训练,从而得到该指定新词质量判断模型。
例如,当该统计信息包括统计信息、内部属性和得分时,可以分别确定每个正样本新词的互信息、左右熵、语料中的词频、位置成词概率、语料的指定内容中的词频、指定领域的日志中的词频、字符串长度、内部词性组成以及得分这9个特征,然后基于该M个第一备选新词的9个特征和对应的正负样本标记,对待训练新词质量判断模型进行训练。
通过基于正样本新词和负样本新词的指定信息对待训练新词质量判断模型进行训练,可以使得待训练新词质量判断模型能够在训练过程中自动学习新词的指定信息和新词质量的关系,进而使得训练得到的指定新词质量判断模型能够根据新词的指定信息对新词进行质量判断,确定该新词是否为高质量新词。
本发明实施例中,通过先从样本语料中确定M个第一备选新词,并从M个第一备选新词中确定高质量的N个第一种子新词,然后基于N个第一种子新词对M个第一备选新词进行质量标注,实现了对新词质量的自动标注,提高了标注效率。另外,通过基于标注得到的正样本新词和负样本新词对待训练新词质量判断模型进行训练,得到了能够自动对新词质量进行判断的指定新词质量判断模型,之后利用该指定新词质量判断模型即可快速地从大量新词中筛选出高质量新词,有效避免了人工进行质量筛选的成本较高和工作量较大的问题,提高了筛选高质量新词的效率。
进一步地,通过图1D和图2实施例训练得到指定新词识别模型和指定新词质量判断模型之后,还可以基于该指定新词识别模型,或者基于该指定新词识别模型和指定新词质量判断模型进行新词发现。图3是本发明实施例提供的一种新词发现方法的流程图,该方法可以应用于计算机等终端设备中。如图3所示,该新词发现方法包括如下步骤:
步骤301:从待发现新词的给定语料中确定S个第二备选新词。
其中,S为正整数。具体可以按照上述步骤101中从给定语料中确定M个第一备选新词的方法,从样本语料中确定S个第二备选新词。
具体地,从待发现新词的给定语料中确定S个第二备选新词可以包括:对该给定语料依次进行指定长度的字符串截取,得到多个指定长度的第二字符串;基于该多个指定长度的第二字符串确定S个第二备选新词。具体实现过程可以参考上述步骤101的相关描述,本发明实施例在此不做赘述。
步骤302:基于每个第二备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对该S个第二备选新词进行打分,得到该S个第二备选新词的得分。
其中,T为小于或等于S的正整数。
具体地,可以按照上述步骤102中基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对M个第一备选新词进行打分的方法,基于每个第二备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对该S个第二备选新词进行打分,得到该S个第二备选新词的得分。步骤202的具体实现过程可以参考步骤102的相关描述,本发明实施例在此不再赘述。
步骤303:基于该S个第二备选新词的得分,从该S个第二备选新词中确定T个第二种子新词。
具体地,可以按照上述步骤103中基于M个第一备选新词的得分,从M个第一备选新词中确定N个第一种子新词的方法,基于该S个第二备选新词的得分,从该S个第二备选新词中确定T个第二种子新词。步骤303的具体实现过程可以参考步骤103的相关描述,本发明实施例在此不再赘述。
步骤304:通过指定新词识别模型,从给定语料中确定多个候选新词。
其中,该指定新词识别模型是根据样本语料和样本语料中每个字的第一样本标签训练得到的。而且,该指定新词识别模型通常是根据上下文语境进行新词识别的序列标识模型,能够从语料中识别出低频新词,因此该多个候选新词包括给定语料中的低频新词。
具体地,通过指定新词识别模型,从该给定语料中确定多个候选新词可以包括以下两种实现方式:
第一种实现方式:将该给定语料作为该指定新词识别模型的输入,通过该指定新词识别模型确定得到该给定语料中每个字的实际标签,然后基于该给定语料中每个字的实际标签,从该给定语料中确定该多个候选新词。
其中,该指定新词识别模型是能够从给定语料中直接识别出新词的模型,也即是,该指定新词识别模型从给定语料中识别出的词语即为新词。具体地,可以在该指定新词识别模型采用上述步骤105中的第一种实现方式训练得到时,采用步骤304中的第一种实现方式确定多个候选新词。
具体地,将给定语料输入该指定新词识别模型之后,该指定新词识别模型可以根据上下文语境和内部的新词识别逻辑为给定语料中的每个字顺序输出对应的标签,以通过标签标识每个字是否能与相邻字组成词语。也即是,该指定新词识别模型的输入是给定语料,输出是给定语料中每个字的实际标签。
其中,每个字的实际标签可以为词语标签或非词标签,词语标签包括词首、词中和词尾,非词标签可以为其他(other)等。当某个字的实际标签为非词标签时,表示这个字是一个单字,不能与相邻的其他字组成新词;当某个字的实际标签为词语标签时,表示这个字能够与相邻的其他字组成新词。比如,当某个字的实际标签为词首,则该字即可与其后出现的实际标签为词尾的字以及这两个字之间的字组成新词。
具体地,基于该给定语料中每个字的实际标签,从该给定语料中确定该多个候选新词包括:将依次出现的实际标签分别为词首和词尾的两个字以及这两个字之间的字所组成的词语确定为候选新词。例如,当某个字的实际标签为词首,其后的第一个字的实际标签为词中,其后的第二个字的实际标签为词尾,则即可将三个字组成的词语确定为候选新词。
例如,当给定语料中连续的几个字和对应的实际标签如下表1所示时,可以将实际标签分别为词首、词中和词尾的连续三个字组成的词语“熊本熊”确定为候选新词。其中,“熊本熊”是动画电影产生的新词。
表1
给定语料 | ... | 熊 | 本 | 熊 | 图 | 片 | ... |
实际标签 | ... | 词首 | 词中 | 词尾 | 其他 | 其他 | ... |
需要说明的是,本发明实施例仅以上述表1所示的语料和标签的对应关系为例进行说明,上述表1并不对本发明实施例构成限定。
第二种实现方式:通过该指定新词识别模型确定得到给定语料中每个字的实际标签,基于给定语料中每个字的实际标签,从给定语料中确定多个候选词语,采用指定分词工具对该给定语料进行分词处理,得到多个第二分词,从该多个候选词语中筛除该多个第二分词,将筛除后剩余的候选词语确定为该多个候选新词。
其中,该指定新词识别模型是能够从给定语料中识别出词语的模型,且从给定语料中识别出的词语即包括新词,也包括旧词。相应地,上述多个候选词语即包括新词也包括旧词,因此从多个候选新词中删除已知的旧词,即可得到多个候选新词。具体地,可以在该指定新词识别模型采用上述步骤105中的第二种实现方式训练得到时,采用步骤304中的第二种实现方式确定多个候选新词。
其中,给定语料中的旧词可以通过采用指定分词工具对给定语料进行分词处理得到,也就是说,上述多个第二分词即为从给定语料中确定出的旧词。
具体地,基于该给定语料中每个字的实际标签,从该给定语料中确定该多个候选词语包括:将依次出现的实际标签分别为词首和词尾的两个字以及这两个字之间的字所组成的词语确定为候选词语。
在第二种实现方式中,当某个字的实际标签为非词标签时,表示这个字是一个单字,不能与相邻的其他字组成词语;当某个字的实际标签为词语标签时,表示这个字能够与相邻的其他字组成词语。因此,可以将依次出现的实际标签分别为词首和词尾的两个字以及这两个字之间的字所组成的词语确定为候选词语。
步骤305:基于该T个第二种子新词和多个候选新词,确定从给定语料中发现的新词。
具体地,基于该T个第二种子新词和多个候选新词,确定从该给定语料中发现的新词可以包括以下两种实现方式:
第一种实现方式:将T个第二种子新词和该多个候选新词进行合并,将合并后的新词确定为发现的新词。其中,将T个第二种子新词和该多个候选新词进行合并包括:将该T个第二种子新词和该多个候选新词中相同的新词确定为同一个新词。
第二种实现方式:通过指定新词质量判断模型,从该多个候选新词中确定多个高质量新词,基于该T个第二种子新词和该多个高质量新词确定从该给定语料中发现的新词。
其中,高质量新词是指词语质量满足预设条件的新词。该指定新词质量判断模型是能够对多个候选新词进行质量判断,并从中选取高质量新词的模型,可以根据该N个第一种子新词和多个非种子新词训练得到的。而且该多个高质量新词一般为高质量低频新词。
具体地,通过指定新词质量判断模型,从该多个候选新词中确定多个高质量新词包括以下步骤1)-2):
1)通过该指定新词质量判断模型,对该多个候选新词进行质量判断,得到该多个候选新词的实际质量概率,实际质量概率用于指示对应候选新词为高质量新词的概率。
其中,通过指定新词质量判断模型,对多个候选新词进行质量判断,得到多个候选新词的实际质量概率包括以下两种实现方式:
第一种实现方式:将该多个候选新词作为该指定新词质量判断模型的输入,通过该指定新词质量判断模型确定得到该多个候选新词中每个候选新词的实际质量概率。
第二种实现方式:确定该多个候选新词的指定信息,将该多个候选新词的指定信息作为该指定新词质量判断模型的输入,通过该指定新词质量判断模型确定得到该多个候选新词中每个候选新词的实际质量概率。
2)基于该多个候选新词的实际质量概率,从该多个候选新词中确定多个高质量新词。
具体地,基于该多个候选新词的实际质量概率,从该多个候选新词中确定该多个高质量新词包括以下两种实现方式:
第一种实现方式:按照该多个候选新词的实际质量概率从高到低的顺序,对该多个候选新词进行排序,并将排序结果中的前K个候选新词确定为该多个高质量新词,K为正整数。
第二种实现方式:从该多个候选新词中选择实际质量概率大于预设概率阈值的候选新词,并将选择的候选新词确定为该多个高质量新词。
相关技术中,通过指定新词识别模型从语料中识别出候选新词之后,通常需要由人工进行质量筛选,以从中筛选出高质量新词,成本较高且效率较低。而本发明实施例中,可以通过指定新词质量判断模型自动从候选新词中确定高质量新词,有效解决了人工进行筛选导致的成本问题,提高了质量筛选效率。
具体地,基于该T个第二种子新词和该多个高质量新词确定从该给定语料中发现的新词包括:将该T个第二种子新词和该多个高质量新词进行合并,将合并后的新词确定为发现的新词。其中,将T个第二种子新词和该多个高质量新词进行合并包括:将该T个第二种子新词和该多个高质量新词中相同的新词确定为同一新词。
进一步地,从给定语料中确定出发现的新词之后,还可以由专门的业务人员进行审核,审核完成后的新词再在具体业务中进行应用。比如,对于APP搜索业务,要求发现的新词与APP相关,因此可以由业务人员从发现的新词中审核出与APP相关的新词,再将审核完成的新词放入分词工具的新词词典中。
本发明实施例中,对于待发现新词的给定语料,可以先基于给定语料中第二备选新词的统计信息或统计信息和内部属性,通过指定打分算法从给定语料中确定第二种子新词即高频新词,然后通过指定新词识别模型,从给定语料中确定多个候选新词即低频新词,最后基于高频新词和低频新词确定发现的新词,如此可以在新词发现过程中充分挖掘语料中的高频新词和低频新词,提高了新词发现的准确度。另外,在从给定语料中确定多个候选新词之后,还可以通过指定新词质量判断模型,自动从多个候选新词中确定多个高质量新词,然后再基于T个第二种子新词和高质量新词确定发现的新词,进一步提高了新词发现的准确度,且避免了需要由人工进行质量筛选导致的成本较高且效率较低的问题,降低了新词发现的成本,提高了新词发现效率。
需要说明的是,图1E和图2实施例所述的模型训练过程中使用的样本语料与图3实施例所述的新词发现过程所使用的给定语料可以相同,也可以不同。当模型训练过程的样本语料与新词发现过程的给定语料不同时,可以事先通过样本语料对待训练新词识别模型和待训练新词质量判断模型进行训练,得到指定新词识别模型和指定新词质量判断模型,然后在对给定语料进行新词发现过程中,通过指定新词识别模型和指定新词质量判断模型从给定语料中确定多个候选新词。当模型训练过程的样本语料与新词发现过程的给定语料相同时,可以直接在对给定语料进行新词发现过程中,通过给定语料对待训练新词识别模型和待训练新词质量判断模型进行训练,得到指定新词识别模型和指定新词质量判断模型,然后通过指定新词识别模型和指定新词质量判断模型从给定语料中确定多个候选新词。接下来将以模型训练过程和新词发现过程所使用的语料均为给定语料为例,对本发明实施例提供的数据标注方法进行详细说明。
图4是本发明实施例提供的另一种数据标注方法的流程图,该方法可以应用于计算机等终端设备中。如图4所示,该方法包括如下步骤:
步骤401:从待发现新词的给定语料中确定S个第二备选新词,S为正整数。
步骤402:基于每个第二备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对该S个第二备选新词进行打分,得到该S个第二备选新词的得分。
步骤403:基于该S个第二备选新词的得分,从该S个第二备选新词中确定T个第二种子新词,T为小于或等于S的正整数。
其中,步骤401-403的实现方式与步骤101-103的实现方式同理,具体实现过程可以参考上述步骤101-103的相关描述,本发明实施例在此不再赘述。
步骤404:基于该T个第二种子新词,对该给定语料进行词语标注,得到该给定语料中每个字的第一样本标签。
其中,该给定语料包括的T个第二种子新词中每个字的第一样本标签为词语标签,该给定语料包括的除该T个第二种子新词之外的其他字的第一样本标签为非词标签。
其中,词语标签包括词首、词中或词尾,非词标签可以为其他(other)等。词语标签用于指示对应字能够与相邻的其他字组成词语,非词标签用于指示对应字为单字,不能与相邻的其他字组成词语。
具体地,可以按照上述步骤104中基于N个第一种子新词对样本语料进行词语标注的方法,基于该T个第二种子新词对给定语料进行词语标注,具体实现过程可以参考上述步骤104的相关描述,本发明实施例在此不再赘述。
步骤405:基于该给定语料和该给定语料中每个字的第一样本标签对待训练新词识别模型进行训练,得到指定新词识别模型。
具体地,可以按照上述步骤105中对待训练新词识别模型进行训练的方法,基于标注后的给定语料对待训练新词识别模型进行训练,具体实现过程可以参考上述步骤105的相关描述,本发明实施例在此不再赘述。
步骤406:通过该指定新词识别模型,从该给定语料中确定多个候选新词。
具体地,步骤406实现方式与上述步骤304的实现方式相同,具体实现过程可以参考上述步骤304的相关描述,本发明实施例在此不再赘述。
步骤407:将该T个第二种子新词标注为正样本新词,并将该S个第二备选新词中的多个非种子新词标注为负样本新词。
其中,该S个第二备选新词中的多个非种子新词从该S个第二备选新词包括的除该N个第一种子新词之外的第一备选新词中选择得到,可以为除该T个第二种子新词之外的全部第一备选新词,也可以为除该T个第二种子新词之外的部分第一备选新词。
其中,正样本新词用于指示高质量新词,负样本新词用于指示非高质量新词,高质量新词是指词语质量满足预设条件的新词。
步骤408:基于正样本新词和负样本新词对待训练新词质量判断模型进行训练,得到指定新词质量判断模型。
具体地,步骤407-408的实现方式与上述步骤204-205的实现方式同理,具体实现过程可以参考上述步骤204-205的相关描述,本发明实施例在此不再赘述
步骤409:通过指定新词质量判断模型,从该多个候选新词中确定多个高质量新词。
步骤410:基于该T个第二种子新词和该多个高质量新词,确定从该给定语料中发现的新词。
具体地,步骤409-步骤410的实现过程与上述步骤305中的第二种实现方式同理,具体实现过程可以参考上述步骤305的相关描述,本发明实施例在此不再赘述。
图5是本发明实施例提供的一种数据标注装置的结构示意图,如图5所示,该数据标注装置包括第一确定模块501、第一打分模块502、第二确定模块503和第一标注模块504。
第一确定模块501,用于执行上述图1E实施例所述的步骤101执行的操作;
第一打分模块502,用于执行上述图1E实施例所述的步骤102执行的操作;
第二确定模块503,用于执行上述图1E实施例所述的步骤103执行的操作;
第一标注模块504,用于执行上述图1E实施例所述的步骤104执行的操作。
可选地,该装置还包括:
第三确定模块,用于执行上述图3实施例所述的步骤301执行的操作;
第二打分模块,用于执行上述图3实施例所述的步骤302执行的操作;
第四确定模块,用于执行上述图3实施例所述的步骤303执行的操作;
第五确定模块,用于执行上述图3实施例所述的步骤304执行的操作;
第六确定模块,用于执行上述图3实施例所述的步骤305执行的操作。
可选地,该装置还包括:
第七确定模块,用于将该样本语料作为该待训练新词识别模型的输入,通过该待训练新词识别模型确定得到该样本语料中每个字的实际标签;
调整模块,用于基于该样本语料中每个字的实际标签和第一样本标签,对该待训练新词识别模型中的模型参数进行调整;
第八确定模块,用于基于调整后的该待训练新词识别模型中的模型参数,确定该指定新词识别模型。
可选地,该第六确定模块具体用于执行上述图3实施例所述的步骤305中的第二种实现方式。
可选地,该装置还包括:
第二标注模块,用于执行上述图2实施例所述的步骤204执行的步骤;
训练模块,用于执行上述图2实施例所述的步骤205执行的步骤。
可选地,该训练模块具体用于:
确定该正样本新词和该负样本新词中每个新词的指定信息,该指定信息包括该统计信息,或者该统计信息和内部属性,或者该统计信息、内部属性和得分,该指定信息包括的得分是基于该统计信息,或者该统计信息和内部属性,通过指定新词打分算法确定得到;
基于该正样本新词和该负样本新词中每个新词的指定信息,对该待训练新词识别模型进行训练,得到该指定新词质量判断模型。
可选地,该统计信息包括互信息、左右熵、语料中的词频、位置成词概率和语料的指定内容中的词频;
其中,该语料中的词频用于指示对应新词在语料中出现的频率,该位置成词概率用于指示对应新词的首字成词概率和尾字成词概率中的最小值,该语料的指定内容中的词频用于指示对应新词在语料的指定内容中出现的频率。
可选地,当该样本语料为指定领域的语料时,该统计信息还包括指定领域的日志中的词频,该指定领域的日志中的词频用于指示对应新词在该指定领域的日志中出现的频率,该指定领域包括搜索领域或对话问答领域。
本发明实施例中,通过先从样本语料中确定第一备选新词,然后基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对第一备选新词进行打分,并基于第一备选新词的得分第一备选新词中确定第一种子新词,能够综合考虑各个统计信息,或各个统计信息和内部属性对新词质量的影响,从样本语料中准确地识别出质量较高的种子新词。通过直接从样本语料中准确地识别出新词,然后基于准确识别的新词对样本语料进行标注,可以避免使用分词工具分词带来的错误,提高词语标注的准确性。
上述实施例提供的数据标注装置在进行数据标注时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据标注装置与数据标注方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本发明实施例提供的一种终端的结构示意图,图1A中的数据标注系统、图1B中的模型训练系统、图1C中的新词发现系统以及图1D中的模型训练和新词发现系统均可以通过图6所示的终端来实现。参见图6,该终端包括至少一个处理器601,通信总线602,存储器603以及至少一个通信接口604。
处理器601可以是一个通用中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信总线602可包括一通路,在上述组件之间传送信息。
存储器603可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,随机存取存储器(random access memory,RAM))或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由终端存取的任何其它介质,但不限于此。存储器603可以是独立存在,通过通信总线602与处理器601相连接。存储器603也可以和处理器601集成在一起。
通信接口604,使用任何收发器一类的装置,用于与其它设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
在具体实现中,作为一种实施例,处理器601可以包括一个或多个CPU,例如图6中所示的CPU0和CPU1。
在具体实现中,作为一种实施例,终端可以包括多个处理器,例如图6中所示的处理器601和处理器605。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如终端程序指令)的处理核。
在具体实现中,作为一种实施例,终端还可以包括输出设备606和输入设备607。输出设备606和处理器601通信,可以以多种方式来显示信息。例如,输出设备606可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备607和处理器601通信,可以以多种方式接收用户的输入。例如,输入设备607可以是鼠标、键盘、触摸屏设备或传感设备等。
上述的终端可以是一个通用终端或者是一个专用终端。在具体实现中,终端可以是台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant,PDA)、移动手机、平板电脑、无线终端设备、通信设备或者嵌入式设备。本发明实施例不限定终端的类型。
其中,存储器603用于存储执行本申请方案的程序代码,并由处理器601来控制执行。处理器601用于执行存储器603中存储的程序代码。程序代码中可以包括一个或多个软件模块。
在另一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述图1E、图2或图4实施例所述的数据标注方法,或者上述图3实施例所述的新词发现方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、光纤、数据用户线(Digital Subscriber Line,DSL))或无线(例如:红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如:软盘、硬盘、磁带)、光介质(例如:数字通用光盘(Digital Versatile Disc,DVD))、或者半导体介质(例如:固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (20)
1.一种数据标注方法,其特征在于,所述方法包括:
从样本语料中确定M个第一备选新词,所述M为正整数;
基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对所述M个第一备选新词进行打分,得到所述M个第一备选新词的得分,所述统计信息用于指示对应新词的词频和成词特性,所述内部属性包括对应新词的长度和/或内部词性组成,所述成词特性包括:用于指示对应新词的组成部分之间组成词语的可能性的互信息;
基于所述M个第一备选新词的得分,从所述M个第一备选新词中确定N个第一种子新词,所述N为小于或等于所述M的正整数;
基于所述N个第一种子新词对所述样本语料进行词语标注,得到所述样本语料中每个字的第一样本标签,所述N个第一种子新词中每个字的第一样本标签为词语标签,所述样本语料中除所述N个第一种子新词之外的其他字的第一样本标签为非词标签,所述词语标签包括词首、词中或词尾。
2.如权利要求1所述的方法,其特征在于,所述基于所述N个第一种子新词对所述样本语料进行词语标注,得到所述样本语料中每个字的第一样本标签之后,还包括:
从待发现新词的给定语料中确定S个第二备选新词,所述S为正整数;
基于每个第二备选新词的统计信息,或者统计信息和内部属性,通过所述指定新词打分算法对所述S个第二备选新词进行打分,得到所述S个第二备选新词的得分;
基于所述S个第二备选新词的得分,从所述S个第二备选新词中确定T个第二种子新词,所述T为小于或等于所述S的正整数;
通过指定新词识别模型,从所述给定语料中确定多个候选新词;其中,所述指定新词识别模型是根据所述样本语料和所述样本语料中每个字的第一样本标签训练得到的;
基于所述T个第二种子新词和所述多个候选新词,确定从所述给定语料中发现的新词。
3.如权利要求2所述的方法,其特征在于,所述通过指定新词识别模型,从所述给定语料中确定多个候选新词之前,还包括:
将所述样本语料作为待训练新词识别模型的输入,通过待训练新词识别模型确定得到所述样本语料中每个字的实际标签;
基于所述样本语料中每个字的实际标签和第一样本标签,对待训练新词识别模型中的模型参数进行调整;
基于调整后的待训练新词识别模型中的模型参数,确定所述指定新词识别模型。
4.如权利要求2或3所述的方法,其特征在于,所述基于所述T个第二种子新词和所述多个候选新词,确定从所述给定语料中发现的新词,包括:
通过指定新词质量判断模型,从所述多个候选新词中确定多个高质量新词,所述高质量新词是指词语质量满足预设条件的新词;其中,所述指定新词质量判断模型是根据所述N个第一种子新词和多个非种子新词训练得到的,所述多个非种子新词是从所述M个第一备选新词包括的除所述N个第一种子新词之外的其他第一备选新词中选择得到;
基于所述T个第二种子新词和所述多个高质量新词,确定从所述给定语料中发现的新词。
5.如权利要求4所述的方法,其特征在于,所述通过指定新词质量判断模型,从所述多个候选新词中确定多个高质量新词,包括:
确定所述多个候选新词中每个候选新词的指定信息,所述指定信息包括所述统计信息,或者所述统计信息和内部属性,或者所述统计信息、内部属性和得分,所述指定信息包括的得分是基于所述统计信息,或者所述统计信息和内部属性通过所述指定新词打分算法确定得到;
将所述多个候选新词的指定信息作为所述指定新词质量判断模型的输入,通过所述指定新词质量判断模型确定所述多个候选新词的实际质量概率,所述实际质量概率用于指示对应候选新词为高质量新词的概率;
基于所述多个候选新词的实际质量概率,从所述多个候选新词中确定所述多个高质量新词。
6.如权利要求4或5所述的方法,其特征在于,所述通过指定新词质量判断模型,从所述多个候选新词中确定多个高质量新词之前,还包括:
将所述N个第一种子新词标注为正样本新词,并将所述多个非种子新词标注为负样本新词,所述正样本新词用于指示高质量新词,所述负样本新词用于指示非高质量新词;
基于所述正样本新词和所述负样本新词,对待训练新词质量判断模型进行训练,得到所述指定新词质量判断模型。
7.如权利要求6所述的方法,其特征在于,所述基于所述正样本新词和所述负样本新词,对待训练新词识别模型进行训练,得到所述指定新词质量判断模型,包括:
确定所述正样本新词和所述负样本新词中每个新词的指定信息,所述指定信息包括所述统计信息,或者所述统计信息和内部属性,或者所述统计信息、内部属性和得分,所述指定信息包括的得分是基于所述统计信息,或者所述统计信息和内部属性,通过指定新词打分算法确定得到;
基于所述正样本新词和所述负样本新词中每个新词的指定信息,对所述待训练新词识别模型进行训练,得到所述指定新词质量判断模型。
8.如权利要求1-3、5和7任一所述的方法,其特征在于,所述统计信息包括互信息、左右熵、语料中的词频、位置成词概率和语料的指定内容中的词频;
其中,所述语料中的词频用于指示对应新词在语料中出现的频率,所述位置成词概率用于指示对应新词的首字成词概率和尾字成词概率中的最小值,所述语料的指定内容中的词频用于指示对应新词在语料的指定内容中出现的频率。
9.如权利要求8所述的方法,其特征在于,当所述样本语料为指定领域的语料时,所述统计信息还包括指定领域的日志中的词频,所述指定领域的日志中的词频用于指示对应新词在所述指定领域的日志中出现的频率,所述指定领域包括搜索领域或对话问答领域。
10.一种数据标注装置,其特征在于,所述装置包括:
第一确定模块,用于从样本语料中确定M个第一备选新词,所述M为正整数;
第一打分模块,用于基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对所述M个第一备选新词进行打分,得到所述M个第一备选新词的得分,所述统计信息用于指示对应新词的词频和成词特性,所述内部属性包括对应新词的长度和/或内部词性组成,所述成词特性包括:用于指示对应新词的组成部分之间组成词语的可能性的互信息;
第二确定模块,用于基于所述M个第一备选新词的得分,从所述M个第一备选新词中确定N个第一种子新词,所述N为小于或等于所述M的正整数;
第一标注模块,用于基于所述N个第一种子新词对所述样本语料进行词语标注,得到所述样本语料中每个字的第一样本标签,所述N个第一种子新词中每个字的第一样本标签为词语标签,所述样本语料中除所述N个第一种子新词之外的其他字的第一样本标签为非词标签,所述词语标签包括词首、词中或词尾。
11.如权利要求10所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于从待发现新词的给定语料中确定S个第二备选新词,所述S为正整数;
第二打分模块,用于基于每个第二备选新词的统计信息,或者统计信息和内部属性,通过所述指定新词打分算法对所述S个第二备选新词进行打分,得到所述S个第二备选新词的得分;
第四确定模块,用于基于所述S个第二备选新词的得分,从所述S个第二备选新词中确定T个第二种子新词,所述T为小于或等于所述S的正整数;
第五确定模块,用于通过指定新词识别模型,从所述给定语料中确定多个候选新词;其中,所述指定新词识别模型是根据所述样本语料和所述样本语料中每个字的第一样本标签训练得到的;
第六确定模块,用于基于所述T个第二种子新词和所述多个候选新词,确定从所述给定语料中发现的新词。
12.如权利要求11所述的装置,其特征在于,所述装置还包括:
第七确定模块,用于将所述样本语料作为待训练新词识别模型的输入,通过待训练新词识别模型确定得到所述样本语料中每个字的实际标签;
调整模块,用于基于所述样本语料中每个字的实际标签和第一样本标签,对待训练新词识别模型中的模型参数进行调整;
第八确定模块,用于基于调整后的待训练新词识别模型中的模型参数,确定所述指定新词识别模型。
13.如权利要求11或12所述的装置,其特征在于,所述第六确定模块包括:
第一确定单元,用于通过指定新词质量判断模型,从所述多个候选新词中确定多个高质量新词,所述高质量新词是指词语质量满足预设条件的新词;其中,所述指定新词质量判断模型是根据所述N个第一种子新词和多个非种子新词训练得到的,所述多个非种子新词是从所述M个第一备选新词包括的除所述N个第一种子新词之外的其他第一备选新词中选择得到;
第二确定单元,用于基于所述T个第二种子新词和所述多个高质量新词,确定从所述给定语料中发现的新词。
14.如权利要求13所述的装置,其特征在于,所述第一确定单元具体用于:
确定所述多个候选新词中每个候选新词的指定信息,所述指定信息包括所述统计信息,或者所述统计信息和内部属性,或者所述统计信息、内部属性和得分,所述指定信息包括的得分是基于所述统计信息,或者所述统计信息和内部属性通过所述指定新词打分算法确定得到;
将所述多个候选新词的指定信息作为所述指定新词质量判断模型的输入,通过所述指定新词质量判断模型确定所述多个候选新词的实际质量概率,所述实际质量概率用于指示对应候选新词为高质量新词的概率;
基于所述多个候选新词的实际质量概率,从所述多个候选新词中确定所述多个高质量新词。
15.如权利要求13或14所述的装置,其特征在于,所述装置还包括:
第二标注模块,用于将所述N个第一种子新词标注为正样本新词,并将所述多个非种子新词标注为负样本新词,所述正样本新词用于指示高质量新词,所述负样本新词用于指示非高质量新词;
训练模块,用于基于所述正样本新词和所述负样本新词,对待训练新词质量判断模型进行训练,得到所述指定新词质量判断模型。
16.如权利要求15所述的装置,其特征在于,所述训练模块具体用于:
确定所述正样本新词和所述负样本新词中每个新词的指定信息,所述指定信息包括所述统计信息,或者所述统计信息和内部属性,或者所述统计信息、内部属性和得分,所述指定信息包括的得分是基于所述统计信息,或者所述统计信息和内部属性,通过指定新词打分算法确定得到;
基于所述正样本新词和所述负样本新词中每个新词的指定信息,对所述待训练新词识别模型进行训练,得到所述指定新词质量判断模型。
17.如权利要求10-12、14和16任一所述的装置,其特征在于,所述统计信息包括互信息、左右熵、语料中的词频、位置成词概率和语料的指定内容中的词频;
其中,所述语料中的词频用于指示对应新词在语料中出现的频率,所述位置成词概率用于指示对应新词的首字成词概率和尾字成词概率中的最小值,所述语料的指定内容中的词频用于指示对应新词在语料的指定内容中出现的频率。
18.如权利要求17所述的装置,其特征在于,当所述样本语料为指定领域的语料时,所述统计信息还包括指定领域的日志中的词频,所述指定领域的日志中的词频用于指示对应新词在所述指定领域的日志中出现的频率,所述指定领域包括搜索领域或对话问答领域。
19.一种数据标注装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器被配置为执行权利要求1-9所述的任一项方法的步骤。
20.一种终端可读存储介质,所述终端可读存储介质中存储有指令,当其在终端上运行时,使得终端执行如权利要求1-9任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/116452 WO2019113938A1 (zh) | 2017-12-15 | 2017-12-15 | 数据标注方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111492364A CN111492364A (zh) | 2020-08-04 |
CN111492364B true CN111492364B (zh) | 2022-09-23 |
Family
ID=66819787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780097681.XA Active CN111492364B (zh) | 2017-12-15 | 2017-12-15 | 数据标注方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111492364B (zh) |
WO (1) | WO2019113938A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502750B (zh) * | 2019-08-06 | 2023-08-11 | 山东师范大学 | 中医文本分词过程中的消歧方法、系统、设备及介质 |
CN113268978B (zh) * | 2020-02-17 | 2024-08-27 | 北京搜狗科技发展有限公司 | 一种信息生成方法、装置和电子设备 |
CN111914554B (zh) * | 2020-08-19 | 2024-08-09 | 网易(杭州)网络有限公司 | 领域新词识别模型的训练方法、领域新词识别方法及设备 |
CN114676775A (zh) * | 2022-03-24 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 样本信息标注方法、装置、设备、程序以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及系统 |
CN106970904A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词发现的方法及装置 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8275607B2 (en) * | 2007-12-12 | 2012-09-25 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
CN102662930B (zh) * | 2012-04-16 | 2015-04-22 | 乐山师范学院 | 一种语料标注方法及装置 |
US20170039183A1 (en) * | 2015-08-07 | 2017-02-09 | Nec Laboratories America, Inc. | Metric Labeling for Natural Language Processing |
-
2017
- 2017-12-15 WO PCT/CN2017/116452 patent/WO2019113938A1/zh active Application Filing
- 2017-12-15 CN CN201780097681.XA patent/CN111492364B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及系统 |
CN106970904A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词发现的方法及装置 |
CN107391486A (zh) * | 2017-07-20 | 2017-11-24 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
Non-Patent Citations (1)
Title |
---|
中文新词识别技术综述;张海军等;《计算机科学》;20100315(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111492364A (zh) | 2020-08-04 |
WO2019113938A1 (zh) | 2019-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717039B (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
US9471874B2 (en) | Mining forums for solutions to questions and scoring candidate answers | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
US20160171373A1 (en) | Training a Question/Answer System Using Answer Keys Based on Forum Content | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN115328756A (zh) | 一种测试用例生成方法、装置及设备 | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
US20210342379A1 (en) | Method and device for processing sentence, and storage medium | |
CN113822059A (zh) | 中文敏感文本识别方法、装置、存储介质及设备 | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
CN112989235A (zh) | 基于知识库的内链构建方法、装置、设备和存储介质 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
CN116151220A (zh) | 分词模型训练方法、分词处理方法和装置 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN107656627B (zh) | 信息输入方法和装置 | |
CN112307183B (zh) | 搜索数据识别方法、装置、电子设备以及计算机存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114218431A (zh) | 视频搜索方法、装置、电子设备以及存储介质 | |
CN113111651A (zh) | 一种中文分词方法、装置以及搜索词库读取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |