CN109858395A

CN109858395A - 一种基于Gloss的手语视频相似度计算方法

Info

Publication number: CN109858395A
Application number: CN201910028610.5A
Authority: CN
Inventors: 李晗静; 吴蕊珠; 吕会华
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2019-06-07

Abstract

一种基于Gloss的手语视频相似度计算方法属于自然语言处理领域。首先通过多媒体标注软件ELAN软件对手语语料进行转写，然后进行手语语料的预处理，包括将转写信息导出成文本和语料噪声消除，最后使用基于VSM的余弦相似性算法计算手语视频A和手语视频B的相似度。本发明具有操作简单，易于实现，效果显著。

Description

一种基于Gloss的手语视频相似度计算方法

技术领域：

本发明是一种基于Gloss的手语视频相似度计算方法，属于自然语言处理领域。

背景技术：

手语是一种视觉语言，它是通过手的动作、面部表情的变化和身体的运动进行交流的语言，没有书面形式，更多的是通过视频录制的方式进行记录。视频的相似度研究为手语语料相似度研究提供了参考。国内外在研究视频相似度问题时，一部分是提取视频的文本信息，Crawler系统可以从视频的URL和主页HTML文件中提取视频的文本信息，比如字幕、视频的题目、摘要、类别、主题，以及相关的人物信息等。还有视频经过文字检测、文字分割、字符识别，使用OCR软件识别，完成由数字图像到字符编码的转化，最终可以将视频相似度转化为文本相似度的计算。

另一部分，是将视频作为图像进行处理，即关键帧之间的相似度计算,转化成图像的相似度计算。以两个视频间对应帧的平均距离作为相似度，条件是视频帧序列遵守时间顺序。采用常见的颜色直方图进行计算比较,但不是直接将两幅图像的直方图进行比较,而是先将视频的关键帧进行区域划分。

而本发明用到的手语汉语平行语料库中Gloss层(手语转写)，是借用汉字和其他字符按照手语顺序记录手语表达的内容和方式，没有翻译加工，写出的是原始的手语句子，并非翻译的汉语句子。转写层(词语级别，不涉及语法信息)是对手语视频内容的转写，可以将手语视频转化为文本来处理。本发明和上述提到的视频的文本信息是不同的，一般视频的文本信息是非常有限的，而且视频语义方面的文本信息很少，所以在视频相似度处理方面是不利的。而本发明用到的语料库的词语转写层，是对整段手语视频中语义描述，对其进行手语相似度的计算，为准确性提供了保障。我们使用基于VSM的余弦相似性来进行手语视频相似度的计算，还可以用此算法确定标注者的标注质量是否合格。

发明内容：

本发明的目的是使用手语视频相似度的计算方法帮助大型手语语料库进行语料的去重和手语视频的分类，以及保证手语语料库标注质量问题等。

为了实现上述目的，本发明采取了如下的技术方案：

步骤1：使用ElAN软件对手语视频进行转写

步骤2-1：将手语转写层语料导出成文本；

步骤2-2：对手语转写文本语料进行噪声消除，分词及去除相应的停用词；

步骤3-1：对手语视频A的转写层文本语料和手语视频B的转写层文本语料的所有词进行列举

步骤3-2：计算手语视频A和手语视频B各自的词频

步骤3-3：确定手语视频A和手语视频B各自的词频向量A＝(a1,a2,…,an)和B＝(b1,b2,…,bn)

步骤3-4：利用公式(1)计算手语视频A和手语视频B两个词频向量对应的夹角，夹角越大，相似度越小；夹角越小，相似性越大；最终来确定手语视频A和手语视频B的相似度。

其中，||A||和||B||表示向量的模。由于A和B均大于等于0，所以(1)式的值是一个0到1的值，0表示两段手语视频的相似度为零，1表示两段手语视频完全相似。

上述方案需要特别说明是的：

1.ELAN(EUDICO Linguistic Annotator)是荷兰马克斯普朗克研究所为研究心理语言学开发的，目的是为注释和开发多媒体提供良好的技术支持。ELAN是一个用于对视频或音频文件进行复杂标注的专业工具。使用ELAN可以为视频音频添加无限层的标注。标注内容可以是句子、单词、内容、翻译或者是对视频细节的描述等等。使用ELAN对手语视频进行标注可达到事半功倍的效果。本发明就是利用ELAN将手语语料的信息通过人工标注转换成文本信息进行处理。

2.向量空间模型(VSM)的概念最早在上世纪60年代被Salton等人提出，并很快在文本分类、信息检索等领域得到广泛应用。

本发明通过可行的技术方案，具有以下几点有益效果：

1.实现了手语视频相似度的计算。

2.有助于大型手语语料库的去重和手语视频的分类。

3.为了保证语料库的标注质量，此算法可以用作专家相似度测试。

附图说明：

图1本发明的流程示意图

图2-1同一手语视频计算相似度结果，验证算法正确性

图2-2同一手语视频，不同标注者转写信息的相似度计算结果

图2-3同一故事但不同版本的手语视频相似度计算结果

图2-4不同故事的手语视频相似度计算结果

图3本发明相似度计算对比实验

具体实施方式：

采用本发明的方法，结合图1进一步对本发明的具体实施过程进行说明。本发明在Python2.7平台上进行实现，所使用的一些通用技术如ELAN软件的使用等不在详细叙述。

本发明的实施方式如下：

1.本文选取了手语语料库中不同采集者的《龟兔赛跑》版本A和版本B。

2.《龟兔赛跑》A版本选取两名标注者，标注者1和标注者2对同一视频进行了转写。我们用上述方法进行计算，计算结果1为0.8958，如图2-2，也就是说明同一手语视频在不同标注者进行转写的情况下，其相似度计算结果有一定的可信性；

3.标注者3对《龟兔赛跑》B版本进行转写，同样用上述方法计算相似度，得到的结果2为0.6483，如图2-3，说明同样主题，不同的手语表达，相似度会降低；

4.标注者4对《小兔子乖乖》手语视频进行转写，计算相似度得到的结果3为0.0323，如图2-4。由于是不同的故事，所以其相似度就非常的低。

5.为了保证语料库的标注质量，此算法可以用作专家相似度测试。如下图3所示，标注者1为专家(手语语言学家)，标注者2是一般标注者(聋人大学生)，如果通过标注培训，标注者与专家的语料相似度达到相似度阈值，经过专家讨论研究，此阈值设为0.85，如果计算结果小于阈值，则不能通过专家相似度测试，重新进行标注培训；如果计算结果大于阈值，则表明次标注者可以进入语料库的标注工作，保证了语料库的标注质量。

实验结果表明，本发明用到基于Gloss的空间向量的余弦相似性计算方法是可以解决手语视频中的相似度计算的，也有非常明显的效果。

Claims

1.一种基于Gloss的手语视频相似度计算方法，其特征在于，包括以下步骤：

步骤1：使用ElAN软件对手语语料进行转写；

步骤2-1：将手语转写层语料导出成文本；

步骤3-1：对手语视频A的转写层文本语料和手语视频B的转写层文本语料的所有词进行列举；

步骤3-2：计算手语视频A和手语视频B各自的词频；

步骤3-3：确定手语视频A和手语视频B各自的词频向量A＝(a1,a2,…,an)和B＝(b1,b2,…,bn)；

步骤3-4：利用公式(1)计算手语视频A和手语视频B两个词频向量对应的夹角，夹角越大，相似度越小；夹角越小，相似性越大；最终来确定手语视频A和手语视频B的相似度；

其中，||A||和||B||表示向量的模；由于A和B均大于等于0，所以(1)式的值是一个0到1的值，0表示两段手语视频的相似度为零，1表示两段手语视频完全相似。