CN112699671B

CN112699671B - 一种语言标注方法、装置、计算机设备和存储介质

Info

Publication number: CN112699671B
Application number: CN202011630350.8A
Authority: CN
Inventors: 涂志强
Original assignee: Bigo Technology Singapore Pte Ltd
Current assignee: Bigo Technology Singapore Pte Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-11-17
Anticipated expiration: 2040-12-31
Also published as: US20240070389A1; EP4273737A1; WO2022143608A1; CN112699671A

Abstract

本发明实施例提供了一种语言标注方法、装置、计算机设备和存储介质，该方法包括：确定语言分类器，采集与视频数据相关的多个信息、作为多个视频信息，将多个视频信息划分为目标信息、参考信息，分别将多个视频信息输入语言分类器中，以识别视频信息归属的语言，以多个参考语言作为辅助，校验目标语言的置信度，对于同一个视频数据，制作视频数据的用户较为单一，该视频数据面向的观众也较为单一，视频数据通常涉及的语言是单一的，该视频数据相关的视频信息大多数情况下涉及同一个语言，因此，可以以参考信息归属参考语言的情况作为辅助，校验目标信息的语种为目标语言的置信度，从而提高预测语言的准确性。

Description

一种语言标注方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及自然语言处理的技术领域，尤其涉及一种语言标注方法、装置、计算机设备和存储介质。

背景技术

部分视频平台可接收用户发布的视频数据，如短视频等，这些视频数据通常携带有文本信息，为用户提供基于语言的服务，如搜索相同语言的视频数据等，在对这些视频数据进行处理时，通常使用分类器对文本信息标记语言。

由于视频数据中的文本信息多是用户生成的原创内容(user-generatedcontent)，会存在书写不规范的情况，如拼写错误(spelling error)、缩写(abbreviation)、转写(transliteration)、语码转换(code-switching)等，书写不规范的情况会影响分类器的效果。

为了覆盖书写不规范的情况，训练准确率高的分类器，则需要大量已标注语言的文本信息，目前主要是依赖技术人员手动对文本信息标注语言，而对于每种语言，至少需要一位熟悉该语言的技术人员，对语言的熟练程度导致技术门槛较高，标注的速度慢、标注的数量少，从而导致标注的效率低。

另外，业务数据可能涉及上百种不同的语言，每种语言的样本数量需要达到一定数量才能训练出准确率高的分类器，对于比较稀缺的语言(即小语种)，获取高质量的样本相对比较耗时。

发明内容

本发明实施例提出了一种语言标注方法、装置、计算机设备和存储介质，以解决手动对文本信息标注语言的效率低的问题。

第一方面，本发明实施例提供了一种语言标注方法，包括：

确定语言分类器；

采集与视频数据相关的多个信息、作为多个视频信息；

将多个所述视频信息划分为目标信息、参考信息；

分别将多个所述视频信息输入所述语言分类器中，以识别所述视频信息归属的语言；

以多个参考语言作为辅助，校验目标语言的置信度，所述目标语言为所述目标信息归属的语言、所述参考语言为所述参考信息归属的多个语言。

第二方面，本发明实施例还提供了一种语言标注装置，包括：

语言分类器确定模块，用于确定语言分类器；

视频信息采集模块，用于采集与视频数据相关的多个信息、作为多个视频信息；

视频信息划分模块，用于将多个所述视频信息划分为目标信息、参考信息；

视频信息分类模块，用于分别将多个所述视频信息输入所述语言分类器中，以识别所述视频信息归属的语言；

置信度校验模块，用于以多个参考语言作为辅助，校验目标语言的置信度，所述目标语言为所述目标信息归属的语言、所述参考语言为所述参考信息归属的多个语言。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的语言标注方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方所述的语言标注方法。

在本实施例中，确定语言分类器，采集与视频数据相关的多个信息、作为多个视频信息，将多个视频信息划分为目标信息、参考信息，分别将多个视频信息输入语言分类器中，以识别视频信息归属的语言，以多个参考语言作为辅助，校验目标语言的置信度，目标语言为目标信息归属的语言、参考语言为参考信息归属的多个语言，对于同一个视频数据，制作视频数据的用户较为单一，该视频数据面向的观众也较为单一，视频数据通常涉及的语言是单一的，该视频数据相关的视频信息大多数情况下涉及同一个语言，因此，可以以参考信息归属参考语言的情况作为辅助，校验目标信息的语种为目标语言的置信度，从而提高预测语言的准确性。

附图说明

图1为本发明实施例一提供的一种语言标注方法的流程图；

图2是本发明实施例二提供的一种语言标注方法的流程图；

图3为本发明实施例二提供的一种基于半监督学习训练语言分类器的整体流程图；

图4为本发明实施例二提供的一种基于半监督学习训练语言分类器的局部流程图；

图5为本发明实施例三提供的一种语言标注装置的结构示意图；

图6为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语言标注方法的流程图，本实施例可适用于对于同一个视频数据、在部分文本信息辅助下对指定的文本信息标注语言的情况，该方法可以由语言标注装置来执行，该语言标注装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，具体包括如下步骤：

步骤101、确定语言分类器。

在本实施例中，可以设置语言分类器，该语言分类器可用于对文本信息划分归属的语言，该语言分类器可以为基于机器学习的分类器，如SVM(Support Vector Machine，支持向量机)、贝叶斯模型等，也可以为基于深度学习的分类器，如FastText(快速文本分类器)，Text-CNN(Text-Convolutional Neural Network，文本卷积神经网络)等，本实施例对此不加以限制。

一般情况下，该语言分类器的输入可以是文本信息，输出可以是语言，以及，归属该语言的概率。

在具体实现中，该语言分类器可以预先通过有监督的方式进行训练，即，生成训练集，该训练集为有标签的数据集。

其中，训练集中具有多个文本信息，文本信息已标注归属的语言，或者，训练集中具有多个语音信号，语音信号已标注归属的语言。

其中，该文本信息可以为与视频数据相关的文本信息，也可以为与视频数据无关的文本信息，例如，采用一些开源的语言标注训练集，从网页中爬取文本信息并人工标注归属的语言，人工对与视频数据相关的文本信息标注归属的语言，等等，本实施例对此不加以限制。

以训练集中的文本信息作为训练的样本、语言作为训练的标签(Tag)，通过交叉熵损失函数与梯度下降等方式训练语言分类器。

由于语言分类器为初始版本的语言分类器，后期可不断迭代更新，因此，在迭代训练i(i为正整数)轮之后，即可停止迭代训练，确认语言分类器训练完成。

当然，在训练语言分类器时，也可以以准确率、召回率、F1值等评价参数作为停止迭代训练的条件，本实施例对此不加以限制。

步骤102、采集与视频数据相关的多个信息、作为多个视频信息。

在本实施例中，可以预先创建视频池，该视频池中存储有待对文本信息标注语言的多个视频数据，该视频数据的形式可以包括短视频、直播、电视剧、电影、微电影，等等。

进一步而言，可以根据业务的需求筛选合适的视频数据，放入对于视频池中，例如，待优化某个地区推送视频数据的效果时，可以筛选指定地区发布的视频数据，或者，待优化某个时间段推送视频数据的效果时，也可以筛选指定时间段发布的视频数据，等等，本实施例对此不加以限制。

对于视频池中的每个视频数据，可以从该视频数据的上下文中采集与该视频数据存在相关性的多个(即两个或两个以上)信息，该信息可视为视频信息，

一般情况下，该视频信息与训练集中的训练样本的类型相同，即，训练集中的训练样本为文本信息，则视频信息为文本信息，训练集中的训练样本为语音信号，则视频信息为语音信号。

对于更新语言分类器而言，该视频信息为无标签(即未标注语言)的数据集。

在一个示例中，视频信息包括如下的至少一种：

1、描述信息

描述信息通常为制作视频数据的用户为了介绍视频数据而输入的描述视频数据内容的文案。

2、与封面配套的文案信息

制作视频数据的用户可以选择一帧图像数据作为视频数据的封面，并为该封面输入文案信息。

3、字幕信息

字幕信息通常为制作视频数据的用户利用客户端的功能，在视频数据内打上的文字。

4、第一特征信息

第一特征信息通常为通过OCR(Optical Character Recognition，光学字符识别)从封面中提取的文本信息。

5、第二特征信息

第二特征信息通常为通过OCR从视频数据的多帧图像数据中提取的文本信息；

6、评论信息

评论信息通常为作为观众的用户浏览视频数据之后发表的信息。

当然，上述视频信息只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它视频信息，如标题、语音信号等，本发明实施例对此不加以限制。另外，除了上述视频信息外，本领域技术人员还可以根据实际需要采用其它视频信息，本发明实施例对此也不加以限制。

对于每个视频数据，包括视频信息和视频ID的属性值，以便于后续查找对应的视频数据和视频信息。

步骤103、将多个视频信息划分为目标信息、参考信息。

在一个视频信息中可能存在一个或多个句子，为便于处理，在本实施例对视频信息标注语言时，可将一个视频信息当作一个句子来处理，以符合自然语言处理的习惯。

对于每个句子(即视频信息)，为根据标注语言的需求适当执行如下的清理和过滤：

1、分词处理。

通过字符匹配、理解法、统计法等方式将句子(即视频信息)从连续的序列按照一定的规范拆分为独立的单词。

2、删除表情符号。

表情符号，如“(*^▽^*)”、“o(╥﹏╥)o”等，对识别语言的种类没有帮助，可删除。

3、剔除太短的句子。

剔除单词数量少于预设的词阈值MIN_WORD_COUNT的句子(即视频信息)。

当然，上述清理和过滤的方式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它清理和过滤的方式，本发明实施例对此不加以限制。另外，除了上述清理和过滤的方式外，本领域技术人员还可以根据实际需要采用其它清理和过滤的方式，本发明实施例对此也不加以限制。

在本实施例中，对于同一个视频数据的视频信息，可以按照业务的需求划分为目标信息、参考信息，其中，目标信息为待标注语言、更新语言分类器的视频信息，参考信息为辅助校验目标信息的语言的置信度的其他视频信息。

对于视频数据而言，可确定多个视频信息相对于视频数据的关联性，该关联性可以由视频信息本身的属性所决定，将关联性最高的视频信息设置为目标信息，将除目标信息之外的其他视频信息设置为参考信息。

在一个示例中，假设视频信息包括描述信息、与封面配套的文案信息、字幕信息、第一特征信息、第二特征信息、评论信息，描述信息主要用于介绍视频数据的内容，与视频数据的关联性最高，因此，可设置目标信息为描述信息，设置参考信息包括如下的至少一种：

与封面配套的文案信息、字幕信息、第一特征信息、第二特征信息、评论信息。

在另一个示例中，假设视频信息包括语音信号、描述信息、与封面配套的文案信息、字幕信息、第一特征信息、第二特征信息、评论信息，语音信号主要体现视频数据的语言内容，与视频数据的关联性最高，因此，可设置目标信息为语音信号，设置参考信息包括如下的至少一种：

描述信息、与封面配套的文案信息、字幕信息、第一特征信息、第二特征信息、评论信息。

步骤104、分别将多个视频信息输入语言分类器中，以识别视频信息归属的语言。

对于属于同一个视频数据的多个视频信息(包括目标信息、参考信息)，可以在同一批次中分别输入语言分类器中进行处理，以输出视频信息归属的语言。

步骤105、以多个参考语言作为辅助，校验目标语言的置信度。

一般情况下，语言分类器属于多分类的模型，因此，针对每个视频信息可以输出其归属的多个语言，以及，归属每个语言的概率。

对于目标信息而言，主要是标注语言，语言唯一，因此，可以从语言分类器对其输出的多个语言中取概率最高的语言作为其归属的语言，而忽略其他可能归属的语言，为便于区分，该语言可称之为目标语言，即目标语言为目标信息归属的语言。

对于参考信息而言，主要是辅助目标信息校验所标注语言的置信度，其概率最高的语言与目标语言并不一定相同，因此，可以将语言分类器对其输出的多个语言及其概率作为其归属的多个语言及其概率，为便于区分，该语言可称之为参考语言，即参考语言为参考信息归属的多个语言。

考虑到对于同一个视频数据，制作视频数据的用户较为单一，通常为个人或团队，视频数据多以图像、声音进行表达，这些均与文化、语言相关，该视频数据面向的观众也较为单一，多是与制作视频数据的用户在相同地区，因此，视频数据通常涉及的语言是单一的，该视频数据相关的视频信息大多数情况下涉及同一个语言，因此，可以以参考信息归属参考语言的情况(即多个参考语言及其概率)作为辅助，校验目标信息的语种为目标语言的置信度。

例如，如果视频数据是一段涉及英语对话的生活场景，那么，制作该视频数据的用户使用英文书写描述信息，添加英文的标题，而作为观众的用户如果了解视频数据的内容，发表的评论信息大多数情况也会是英文。

在具体实现中，可以预先设置偏于中间层级的置信范围，即置信的程度一般，该置信范围的一个端点值为第一概率阈值MIN_PROB_1、另一个端点值为第二概率阈值MIN_PROB_2，其中，第二概率阈值MIN_PROB_2大于第一概率阈值MIN_PROB_1。

从语言分类器对目标信息输出的结果中查询目标信息的语种为目标语言的概率、作为目标概率P_S。

将目标概率P_S与置信范围进行比较。

若目标概率P_S在置信范围内，即，目标概率P_S大于或等于预设的第一概率阈值MIN_PROB_1、且小于或等于预设的第二概率阈值MIN_PROB_2，则可以认为目标信息的语种为目标语言的置信程度一般，真实情况均有可能存在目标信息的语种为目标语言、目标信息的语种不为目标语言，此时，可遍历每个参考信息，查询与目标语言相同的参考语言的概率，作为参考概率。

通过求和、求乘积、求平均值、加权之后求平均值等方式，结合目标概率与参考概率计算目标信息归属目标语言的置信度Score，从而表征参考信息佐证目标信息的语种为目标语言的强度。

本实施例通过置信范围筛选合适的目标信息进行置信度的校验，可以减少目标信息的数量，从而降低计算量，提高效率。

例如，某个视频数据的描述信息概率最高的语言(即目标语言)是英文，而英文的概率一般(如0.6)，以往对于较低的概率通常会判定该预测的置信度不足，有可能不是正确的预测，该描述信息及其目标语言也不能用作训练样本来更新语言分类器，如果说，同一个视频数据中与封面配套的文案信息预测也是英文、且其概率较高(如0.8)，这个额外的信息能够用来佐证描述信息预测为英语是正确的，此时，描述信息、封面配套的文案信息和目标语言可以作为一个训练样本来更新语言分类器，从而扩大了标准的样本数量。

若目标概率P_S在置信范围外，会存在如下两种情形：

1、若目标概率P_S小于第一概率阈值MIN_PROB_1，可以认为目标信息的语种为目标语言的置信程度较低，即置信度不足，有可能不是正常的语言，在本轮迭代更新语言分类器时忽略当前的视频数据及其视频信息。

需要说明的是，在本轮忽略当前的视频数据及其视频信息，并不删除当前的视频数据及其视频信息，后续迭代更新语言分类器之后，语言分类器的性能提高，可能目标概率P_S大于或等于第一概率阈值MIN_PROB_1。

2、若目标概率P_S大于第二概率阈值MIN_PROB_2，可以认为目标信息的语种为目标语言的置信程度较高，直接认定目标信息的语种为目标语言，而无需参考信息归属参考语言的情况作为辅助，校验目标信息的语种为目标语言的置信度。

实施例二

图2为本发明实施例二提供的一种语言标注方法的流程图，本实施例以前述实施例为基础，进一步半监督学习(Semi-supervised learning)迭代更新语言分类器的操作，该方法具体包括如下步骤：

步骤201、确定语言分类器。

步骤202、采集与视频数据相关的多个信息、作为多个视频信息。

步骤203、将多个视频信息划分为目标信息、参考信息。

步骤204、分别将多个视频信息输入语言分类器中，以识别视频信息归属的语言。

步骤205、以多个参考语言作为辅助，校验目标语言的置信度。

其中，目标语言为目标信息归属的语言、参考语言为参考信息归属的多个语言。

步骤206、若置信度大于或等于预设的置信阈值，则以视频信息作为参照、生成与视频信息相似的信息，作为增量信息。

在本实施例中，将置信度Score与预设的置信阈值MIN_SCORE进行比较，如果置信度Score大于或等于预设的置信阈值MIN_SCORE，表示置信度Score较高，参考信息对目标信息的佐证强度较高，此时，可以以视频信息作为参照、生成与视频信息相似的信息，为便于区分，该文本信息可记为增量信息。

由于增量信息参照视频信息生成，因此，增量信息也可以作为一个句子看待。

在一个示例中，在数量条件的约束下，以随机等方式从视频信息中删除部分单词，获得增量信息。

其中，数量条件为增量信息的单词占视频信息的单词的比例超过预设的第一比例阈值MIN_PERCENT_1。

在另一个示例中，将视频信息中部分或全部单词的格式转换为大写字母，获得增量信息。

在另一个示例中，将视频信息中部分或全部单词的格式转换为小写字母，获得增量信息。

在另一个示例中，删除视频信息中的部分或全部标点符号，获得增量信息。

在另一个示例中，在视频信息中，在M(M为正整数)个单词的范围内删除N(N为正整数，N＜M)个单词，获得增量信息。

当然，上述生成增量信息的方式只是作为示例，可以单独使用，也可以任意组合使用，在实施本发明实施例时，可以根据实际情况设置其它生成增量信息的方式，本发明实施例对此不加以限制。另外，除了上述生成增量信息的方式外，本领域技术人员还可以根据实际需要采用其它生成增量信息的方式，本发明实施例对此也不加以限制。

步骤207、调用语言分类器检测增量信息在识别目标语言时的有效性。

在实际应用中，部分地区的用户可能习惯使用两个或两个以上的语言，因此，视频信息中有可能参杂两个或两个以上语言的单词，影响语言分类器识别正确的语言。

在这种情况下，语言分类器预测的语言有可能是在训练集里训练样本的数量比较多的语言，导致错误的预测。

例如，视频信息中有10个单词，其正确的语言是印地语，在10个单词里有7个单词是用转写(transliterate)输入的印地语的单词，剩余3个单词是英语的单词。由于英语的训练样本比较多，转写输入的印地语的训练样本比相对比较稀缺，语言分类器有可能因为3个英语的单词的特征比较强，而错误地预测视频信息的语言为英语。

在本实施例中，用生成新的句子(即增量信息)可以进一步验证作为视频信息的视频信息，即，调用语言分类器验证增量信息对于识别目标语言是否有效(有效性)，从而提高预测语言的准确性。

在具体实现中，可将增量信息输入语言分类器中进行处理，以识别增量信息归属的语言。

对于增量信息而言，主要是验证标注语言的有效性，语言唯一，因此，可以从语言分类器对其输出的多个语言中取概率最高的语言作为其归属的语言，而忽略其他可能归属的语言，为便于区分，该语言可称之为增量语言，即增量语言为增量信息归属的语言。

统计增量语言与目标语言相同时的占比，即统计与目标语言相同的增量语言的第一数量，统计所有增量语言的第二数量，计算第一数量与第二数量之间的比值，作为占比。

若占比大于或等于预设的第二比例阈值MIN_PERCENT_2(如80％)，则表示增量语言为目标语言的歧义较少，可确定增量信息在识别语言时有效。

若占比小于预设的第二比例阈值MIN_PERCENT_2(如80％)，则表示增量语言为目标语言的歧义较大，可确定增量信息在识别语言时无效。

步骤208、若增量信息在识别目标语言时有效，则根据视频信息与增量信息中的至少一者、以及目标语言更新语言分类器。

为了能自动采集带有正确标注语言的新数据(视频信息、增量信息)，同时能利用这些新数据作为训练样本(文本信息或语音信号)来提升语言分类器的性能，采集的数据通常符合如下两个规则：

1、新数据与当前的训练集中已有的训练样本不相似，这样能让语言分类器学到新的特征。

一个判定新数据与已有的训练样本是否相似的指标是，利用当前的语言分类器对新数据预测语言的概率，即对新数据预测语言的概率偏低的话，表示语言分类器没有在训练集中遍历过该类型的数据，所以预测出了比较低的概率，所以，一个方案是把概率偏低的新数据加入到训练集中。

2、新数据的标签(语言)是准确的，以保证训练出性能更佳的语言分类器。

保证标签准确的常用做法是人工标注新数据，如果要达到自动采集的要求，一个自动化的方案是把概率偏高(如超过0.95)的语言当作正确的标签，概率偏高表示语言分类器认为新数据为该语言是正确，所以，一个方案是把这些概率偏高的新数据加入到训练集中。

上述两个规则所使用的方案以往是相互抵触的，即，一般无法同时把概率偏低和概率偏高的数据加入训练集。

为了解决相互抵触的问题，本实施例提出利用视频数据的参考信息的预测情况作为佐证，来辅助判断对目标信息预测的概率偏低的语言是否正确，如果预测概率偏低的语言被判定为正确的，则符合上述两个规则，可以加入到训练集中，从而将在先未涉及或少涉及的新的特征加入到训练语言分类器的过程中，提高语言分类器的性能，进而提高了预测语言、标注语言的准确性，实现了半监督训练语言分类器与自动标注标签的融合。

如果增量信息在识别目标语言时有效，表示对新生成的增量信息预测的语言与视频信息较为一致，这种情况可以判定视频信息的语言预测无歧义，采纳该视频信息及其目标语言更新语言分类器。

如果增量信息在识别目标语言时无效，表示对新生成的增量信息预测的语言与视频信息太不一致，有可能是视频信息包含不同语言的单词，或者某些单词的特征比较强，这种情况可以判定视频信息的语言预测有歧义，不采纳该视频信息及其目标语言更新语言分类器。

在具体实现中，可获取语言分类器的训练集，训练集中具有多个文本信息(或语音信号)，文本信息(或语音信号)已标注归属的语言，训练集中的文本信息(或语音信号)可以为初始时标注的文本信息(或语音信号)，也可以为后续通过语言分类器标注语言的视频信息和/或增量信息，本实施例对此不加以限制。

在采纳该视频信息及其目标语言更新语言分类器时，可将视频信息添加至训练集中、作为训练集中的文本信息(或语音信号)，将目标语言标注为视频信息归属的语言。

此外，在增量信息在识别目标语言时有效的情况下，可采纳合适的增量信息及其目标语言更新语言分类器

进一步而言，可筛选对于更新语言分类器有效的增量信息，将增量信息添加至训练集中、作为训练集中的文本信息(或语音信号)，将目标语言标注为增量信息归属的语言。

示例性地，可对视频信息归属目标语言的概率取指定的比例MIN_RATIO(0＜MIN_RATIO＜1)，作为增量信息的第三概率阈值MIN_PROB_3。

将增量信息概率归属目标语言的概率(以归属与目标语言相同的增量语言的概率表示)与预设的第一阈值MIN_PROB_1且小于或等于第三阈值MIN_PROB_3进行比较。

若增量信息归属目标语言的概率大于或等于预设的第一阈值MIN_PROB_1且小于或等于第三阈值MIN_PROB_3，则增量信息对于更新语言分类器有效，其中，目标信息归属目标语言的概率大于或等于第一阈值MIN_PROB_1。

在本示例中，增量信息概率归属目标语言的概率一般，且小于视频信息归属目标语言的概率，此种情况表示，增量信息和视频信息的不同之处是增量信息存在了一些变换(如少了一些单词)，导致预测的概率下降。这有可能是因为这些变换(如少了一些单词)对语言分类器来说是在预测时较强的特征，而原有的信息(如剩余的单词组合)对语言分类器来说较不熟悉(例如，没有在当前训练集中出现过)，加入增量信息可以帮助到语言分类器的性能提升。

此外，由于语言分类器在前h(h为正整数)轮迭代更新时对训练样本较为敏感，标注错误的情况会影响语言分类器的性能，导致后续的迭代累积更多的错误，因此，在前h轮迭代时，可采用预先标注语言的视频信息进行迭代，针对语言分类器对视频信息、增量信息输出的结果，可确定对视频信息标注的语言，作为实际语言(即视频信息实际的语种)，并将实际语言与目标语言进行比较。

若实际语言与目标语言相同，则允许将视频信息添加至训练集中、作为训练集中的文本信息，允许将目标语言标注为视频信息归属的语言，和/或，允许将增量信息添加至训练集中、作为训练集中的文本信息，允许将目标语言标注为增量信息归属的语言。

若实际语言与目标语言不同，则忽略视频信息与增量信息中的至少一者、以及目标语言，即禁止将视频信息添加至训练集中、作为训练集中的文本信息，禁止将目标语言标注为视频信息归属的语言，和/或，禁止将增量信息添加至训练集中、作为训练集中的文本信息，禁止将目标语言标注为增量信息归属的语言。

在采纳视频信息与增量信息中的至少一者、以及目标语言更新语言分类器之后，检测是否满足预设的训练条件；若是，则以训练集中的文本信息作为训练的样本、已标注的语言作为训练的标签，更新语言分类器；若否，则继续添加其他视频信息与增量信息。

示例性地，在检测训练条件时，可统计在上一次更新语言分类器之后、添加至训练集中的视频信息的总数量，将该总数量与预设的数量阈值MAX_SENT_COUNT进行比较。

若总数量大于预设的数量阈值MAX_SENT_COUNT，则确定满足预设的训练条件。

当然，上述训练条件只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它训练条件，例如，在上一次更新语言分类器之后、忽略的视频信息的总数量超过另一个数量阈值，此时，语言分类器可能存在缺陷，待尽快更新提升性能，等等，本发明实施例对此不加以限制。另外，除了上述训练条件外，本领域技术人员还可以根据实际需要采用其它训练条件，本发明实施例对此也不加以限制。

为使本领域技术人员更好地理解本发明实施例，以下通过具体的示例来说明本发明实施例中基于半监督标注语言的方法。

如图3所示，设迭代的次数i＝0，在S301中，准备一个有标注的训练集L，训练集L中包括已标注语言的句子(文本信息或语音信号)，一个无标注的数据集U，数据集U中包括未标注语言的句子(视频数据的视频信息)。

在S302中，使用训练集L中的句子及其标注的语言训练语言分类器C_i。

在S303中，判断i是否大于阈值I，若是，则结束，若否，则执行S304。

在S304中，语言分类器C_i预测数据集U中每一个句子S可能归属的语言，每个语言携带有概率。

在S305中，将数据集中的句子S进行标注语言，加入到训练集L中。

在S306中，将加入到训练集L中的句子S，从数据集U中删除，此时，迭代的次数增长1次(即i＝i+1)，返回S302。

进一步地，对于S304的实现，可参见图4，在S401中，从数据集U取部分句子S1(目标信息)为子集V，其中，句子S1归属的语言中、最高的概率在第一概率阈值MIN_PROB_1与第二概率阈值MIN_PROB_2之间。

在S402中，从子集V中随机选取一个句子S1，确认该句子S1所在视频数据的视频ID、预测概率最高的语言A、概率P_S1。

在S403中，利用视频ID，获取该视频数据的其他句子S2，利用预测其他句子为语言A时的概率P_S2，计算句子S1的置信度Score，Score＝f₁(P_S1，P_S2)，f₁为融合函数，如求和、求乘积、求平均值、加权之后求平均值等。

在S404中，判断置信度Score是否小于置信阈值MIN_SCORE，若是，则不选用句子S(包含句子S1、S2)，返回执行S402，如若，则执行S405。

在S405中，生成多个新的句子T(增量信息)，句子T与句子S相似。

示例性地，在句子S中删除部分单词得到句子T，句子T中的单词占句子S中的单词的比例超过第一比例阈值MIN_PERCENT_1。

在S406中，调用语言分类器C_i分别预测句子T的语言，对于该语言为A时，其概率为P_T计算语言A在所有语言中的占比A_P。

在S407中，判断占比A_P是否小于第二比例阈值MIN_PERCENT_2，若是，则不选用句子S，返回执行S402，如若，则执行S408。

在S408中，将句子S(包含句子S1、S2)标注语言为A，并加入到训练集L中。

在S409中，设置第三概率阈值MIN_PROB_3＝P_S*MIN_RATIO，其中，P_S＝f₂(P_S1、P_S2)，f₂为选择函数，如选择最大值、选择平均值等，0＜MIN_RATIO＜1。

对于句子T，若属于语言A的MIN_PROB_1≤P_T≤MIN_PROB_3，则将该句子T标注语言为A，并加入到训练集L中。

在S410中，统计加入到训练集L的句子S、T的总数量，并判断该总数量是否超过数量阈值MAX_SENT_COUNT，若是，则停止，等待使用训练集L更新语言分类器C_i，若否，则返回执行S402。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

图5为本发明实施例三提供的一种语言标注装置的结构框图，具体可以包括如下模块：

语言分类器确定模块501，用于确定语言分类器；

视频信息采集模块502，用于采集与视频数据相关的多个信息、作为多个视频信息；

视频信息划分模块503，用于将多个所述视频信息划分为目标信息、参考信息；

视频信息分类模块504，用于分别将多个所述视频信息输入所述语言分类器中，以识别所述视频信息归属的语言；

置信度校验模块505，用于以多个参考语言作为辅助，校验目标语言的置信度，所述目标语言为所述目标信息归属的语言、所述参考语言为所述参考信息归属的多个语言。

在本发明的一个实施例中，所述语言分类器确定模块501包括：

训练集生成模块，用于生成训练集，所述训练集中具有多个文本信息，所述文本信息已标注归属的语言；

语言分类器训练模块，用于以所述训练集中的所述文本信息作为训练的样本、所述语言作为训练的标签，训练语言分类器。

在本发明的一个实施例中，所述视频信息划分模块503包括：

关联性确定模块，用于确定多个所述视频信息相对于所述视频数据的关联性；

目标信息设置模块，用于将所述关联性最高的所述视频信息设置为目标信息；

参考信息设置模块，用于将除所述目标信息之外的其他所述视频信息设置为参考信息。

在本发明实施例的一个示例中，所述视频信息包括如下的至少一种：

描述信息、与封面配套的文案信息、字幕信息、第一特征信息、第二特征信息、评论信息；

其中，所述第一特征信息为从封面中提取的文本信息，所述第二特征信息为从视频数据的多帧图像数据中提取的文本信息；

所述目标信息为描述信息，所述参考信息包括如下的至少一种：

在本发明的一个实施例中，所述置信度校验模块505包括：

目标概率查询模块，用于查询所述目标语言中的概率、作为目标概率；

参考概率查询模块，用于若所述目标概率大于或等于预设的第一概率阈值、且小于或等于预设的第二概率阈值，则查询与所述目标语言相同的所述参考语言的概率，作为参考概率；

概率融合模块，用于结合所述目标概率与所述参考概率计算所述目标信息归属所述目标语言的置信度。

在本发明的一个实施例中，还包括：

增量信息生成模块，用于若所述置信度大于或等于预设的置信阈值，则生成与所述视频信息相似的信息，作为增量信息；

有效性检测模块，用于调用所述语言分类器检测所述增量信息在识别所述目标语言时的有效性；

语言分类器更新模块，用于若所述增量信息在识别所述目标语言时有效，则根据所述视频信息与所述增量信息中的至少一者、以及所述目标语言更新所述语言分类器。

在本发明的一个实施例中，所述增量信息生成模块包括：

第一单词删除模块，用于在数量条件的约束下，从所述视频信息中删除部分单词，获得增量信息；

其中，所述数量条件为所述增量信息的单词占所述视频信息的单词的比例超过预设的第一比例阈值；

和/或，

第一字母转换模块，用于将所述视频信息中单词的格式转换为大写字母，获得增量信息；

和/或，

第二字母转换模块，用于将所述视频信息中单词的格式转换为小写字母，获得增量信息；

和/或，

标点符号删除模块，用于删除所述视频信息中的标点符号，获得增量信息；

和/或，

第二单词删除模块，用于在所述视频信息中，在M个单词的范围内删除N个单词，获得增量信息。

在本发明的一个实施例中，所述调用所述语言分类器检测所述增量信息在识别所述目标语言时的有效性，包括：

增量信息分类模块，用于将所述增量信息输入所述语言分类器中，以识别所述增量信息归属的语言、作为增量语言；

占比统计模块，用于统计所述增量语言与所述目标语言相同时的占比；

有效确定模块，用于若所述占比大于或等于预设的第二比例阈值，则确定所述增量信息在识别所述语言时有效。

在本发明的一个实施例中，所述语言分类器更新模块包括：

训练集获取模块，用于获取所述语言分类器的训练集，所述训练集中具有多个文本信息，所述文本信息已标注归属的语言；

视频信息添加模块，用于将所述视频信息添加至所述训练集中、作为所述训练集中的文本信息；

视频信息标注模块，用于将所述目标语言标注为所述视频信息归属的语言；

训练条件检测模块，用于检测是否满足预设的训练条件；若是，则调用迭代训练模块；

迭代训练模块，用于以所述训练集中的所述文本信息作为训练的样本、已标注的所述语言作为训练的标签，更新所述语言分类器。

在本发明的一个实施例中，所述训练条件检测模块包括：

总数量统计模块，用于统计在上一次更新所述语言分类器之后、添加至所述训练集中的所述视频信息的总数量；

满足确定模块，用于若所述总数量大于预设的数量阈值，则确定满足预设的训练条件。

在本发明的一个实施例中，所述语言分类器更新模块还包括：

增量信息筛选模块，用于筛选对于更新所述语言分类器有效的所述增量信息；

增量信息添加模块，用于将所述增量信息添加至所述训练集中、作为所述训练集中的文本信息；

增量信息标注模块，用于将所述目标语言标注为所述增量信息归属的语言。

在本发明的一个实施例中，所述增量信息筛选模块包括：

概率阈值设置模块，用于对所述视频信息归属所述目标语言的概率取指定的比例，作为所述增量信息的第三概率阈值；

有效确定模块，用于若所述增量信息概率归属所述目标语言的概率大于或等于预设的第一阈值且小于或等于所述第三阈值，则所述增量信息对于更新所述语言分类器有效，其中，所述目标信息归属所述目标语言的概率大于或等于所述第一阈值。

在本发明的一个实施例中，所述言分类器更新模块还包括：

实际语言确定模块，用于确定对所述视频信息标注的语言，作为实际语言；

样本忽略模块，用于若所述实际语言与所述目标语言不同，则忽略所述视频信息与所述增量信息中的至少一者、以及所述目标语言。

本发明实施例所提供的语言标注装置可执行本发明任意实施例所提供的语言标注方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图6显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语言标注方法。

实施例七

本发明实施例七还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语言标注方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语言标注方法，其特征在于，包括：

确定语言分类器；

采集与视频数据相关的多个信息、作为多个视频信息；

将多个所述视频信息划分为目标信息、参考信息；

以多个参考语言作为辅助，校验目标语言的置信度，所述目标语言为所述目标信息归属的语言、所述参考语言为所述参考信息归属的多个语言；

所述以多个参考语言作为辅助，校验目标语言的置信度，包括：

查询所述目标语言的概率、作为目标概率；

若所述目标概率大于或等于预设的第一概率阈值、且小于或等于预设的第二概率阈值，则查询与所述目标语言相同的所述参考语言的概率，作为参考概率；

结合所述目标概率与所述参考概率计算所述目标信息归属所述目标语言的置信度；

其中，所述目标概率是指从语言分类器对目标信息输出的结果中查询目标信息的语种为目标语言的概率。

2.根据权利要求1所述的方法，其特征在于，所述确定语言分类器，包括：

生成训练集，所述训练集中具有多个文本信息，所述文本信息已标注归属的语言；

以所述训练集中的所述文本信息作为训练的样本、所述语言作为训练的标签，训练语言分类器。

3.根据权利要求1所述的方法，其特征在于，所述将多个所述视频信息划分为目标信息、参考信息，包括：

确定多个所述视频信息相对于所述视频数据的关联性；

将所述关联性最高的所述视频信息设置为目标信息；

将除所述目标信息之外的其他所述视频信息设置为参考信息。

4.根据权利要求3所述的方法，其特征在于，所述视频信息包括如下的至少一种：

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

若所述置信度大于或等于预设的置信阈值，则生成与所述视频信息相似的信息，作为增量信息；

调用所述语言分类器检测所述增量信息在识别所述目标语言时的有效性；

若所述增量信息在识别所述目标语言时有效，则根据所述视频信息与所述增量信息中的至少一者、以及所述目标语言更新所述语言分类器。

6.根据权利要求5所述的方法，其特征在于，所述生成与所述视频信息相似的信息，作为增量信息，包括：

在数量条件的约束下，从所述视频信息中删除部分单词，获得增量信息；

和/或，

将所述视频信息中单词的格式转换为大写字母，获得增量信息；

和/或，

将所述视频信息中单词的格式转换为小写字母，获得增量信息；

和/或，

删除所述视频信息中的标点符号，获得增量信息；

和/或，

在所述视频信息中，在M个单词的范围内删除N个单词，获得增量信息。

7.根据权利要求5所述的方法，其特征在于，所述调用所述语言分类器检测所述增量信息在识别所述目标语言时的有效性，包括：

将所述增量信息输入所述语言分类器中，以识别所述增量信息归属的语言、作为增量语言；

统计所述增量语言与所述目标语言相同时的占比；

若所述占比大于或等于预设的第二比例阈值，则确定所述增量信息在识别所述语言时有效。

8.根据权利要求5所述的方法，其特征在于，所述根据所述视频信息与所述增量信息中的至少一者、以及所述目标语言更新所述语言分类器，包括：

获取所述语言分类器的训练集，所述训练集中具有多个文本信息，所述文本信息已标注归属的语言；

将所述视频信息添加至所述训练集中、作为所述训练集中的文本信息；

将所述目标语言标注为所述视频信息归属的语言；

检测是否满足预设的训练条件；若是，则以所述训练集中的所述文本信息作为训练的样本、已标注的所述语言作为训练的标签，更新所述语言分类器。

9.根据权利要求8所述的方法，其特征在于，所述检测所述训练集是否满足预设的训练条件，包括：

统计在上一次更新所述语言分类器之后、添加至所述训练集中的所述视频信息的总数量；

若所述总数量大于预设的数量阈值，则确定满足预设的训练条件。

10.根据权利要求8所述的方法，其特征在于，所述根据所述视频信息与所述增量信息中的至少一者、以及所述目标语言更新所述语言分类器，还包括：

筛选对于更新所述语言分类器有效的所述增量信息；

将所述增量信息添加至所述训练集中、作为所述训练集中的文本信息；

将所述目标语言标注为所述增量信息归属的语言。

11.根据权利要求10所述的方法，其特征在于，所述筛选对于更新所述语言分类器有效的所述增量信息，包括：

对所述视频信息归属所述目标语言的概率取指定的比例，作为所述增量信息的第三概率阈值；

若所述增量信息概率归属所述目标语言的概率大于或等于预设的第一概率阈值且小于或等于所述第三概率阈值，则所述增量信息对于更新所述语言分类器有效，其中，所述目标信息归属所述目标语言的概率大于或等于所述第一概率阈值。

12.根据权利要求8或10所述的方法，其特征在于，所述根据所述视频信息与所述增量信息中的至少一者、以及所述目标语言更新所述语言分类器，还包括：

确定对所述视频信息标注的语言，作为实际语言；

若所述实际语言与所述目标语言不同，则忽略所述视频信息与所述增量信息中的至少一者、以及所述目标语言。

13.一种语言标注装置，其特征在于，包括：

语言分类器确定模块，用于确定语言分类器；

置信度校验模块，用于以多个参考语言作为辅助，校验目标语言的置信度，所述目标语言为所述目标信息归属的语言、所述参考语言为所述参考信息归属的多个语言；

所述置信度校验模块包括：

概率融合模块，用于结合所述目标概率与所述参考概率计算所述目标信息归属所述目标语言的置信度；

14.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一项所述的语言标注方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-12中任一项所述的语言标注方法。