CN109858395A - 一种基于Gloss的手语视频相似度计算方法 - Google Patents
一种基于Gloss的手语视频相似度计算方法 Download PDFInfo
- Publication number
- CN109858395A CN109858395A CN201910028610.5A CN201910028610A CN109858395A CN 109858395 A CN109858395 A CN 109858395A CN 201910028610 A CN201910028610 A CN 201910028610A CN 109858395 A CN109858395 A CN 109858395A
- Authority
- CN
- China
- Prior art keywords
- sign language
- video
- language video
- similarity
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
一种基于Gloss的手语视频相似度计算方法属于自然语言处理领域。首先通过多媒体标注软件ELAN软件对手语语料进行转写,然后进行手语语料的预处理,包括将转写信息导出成文本和语料噪声消除,最后使用基于VSM的余弦相似性算法计算手语视频A和手语视频B的相似度。本发明具有操作简单,易于实现,效果显著。
Description
技术领域:
本发明是一种基于Gloss的手语视频相似度计算方法,属于自然语言处理领域。
背景技术:
手语是一种视觉语言,它是通过手的动作、面部表情的变化和身体的运动进行交流的语言,没有书面形式,更多的是通过视频录制的方式进行记录。视频的相似度研究为手语语料相似度研究提供了参考。国内外在研究视频相似度问题时,一部分是提取视频的文本信息,Crawler系统可以从视频的URL和主页HTML文件中提取视频的文本信息,比如字幕、视频的题目、摘要、类别、主题,以及相关的人物信息等。还有视频经过文字检测、文字分割、字符识别,使用OCR软件识别,完成由数字图像到字符编码的转化,最终可以将视频相似度转化为文本相似度的计算。
另一部分,是将视频作为图像进行处理,即关键帧之间的相似度计算,转化成图像的相似度计算。以两个视频间对应帧的平均距离作为相似度,条件是视频帧序列遵守时间顺序。采用常见的颜色直方图进行计算比较,但不是直接将两幅图像的直方图进行比较,而是先将视频的关键帧进行区域划分。
而本发明用到的手语汉语平行语料库中Gloss层(手语转写),是借用汉字和其他字符按照手语顺序记录手语表达的内容和方式,没有翻译加工,写出的是原始的手语句子,并非翻译的汉语句子。转写层(词语级别,不涉及语法信息)是对手语视频内容的转写,可以将手语视频转化为文本来处理。本发明和上述提到的视频的文本信息是不同的,一般视频的文本信息是非常有限的,而且视频语义方面的文本信息很少,所以在视频相似度处理方面是不利的。而本发明用到的语料库的词语转写层,是对整段手语视频中语义描述,对其进行手语相似度的计算,为准确性提供了保障。我们使用基于VSM的余弦相似性来进行手语视频相似度的计算,还可以用此算法确定标注者的标注质量是否合格。
发明内容:
本发明的目的是使用手语视频相似度的计算方法帮助大型手语语料库进行语料的去重和手语视频的分类,以及保证手语语料库标注质量问题等。
为了实现上述目的,本发明采取了如下的技术方案:
步骤1:使用ElAN软件对手语视频进行转写
步骤2-1:将手语转写层语料导出成文本;
步骤2-2:对手语转写文本语料进行噪声消除,分词及去除相应的停用词;
步骤3-1:对手语视频A的转写层文本语料和手语视频B的转写层文本语料的所有词进行列举
步骤3-2:计算手语视频A和手语视频B各自的词频
步骤3-3:确定手语视频A和手语视频B各自的词频向量A=(a1,a2,…,an)和B=(b1,b2,…,bn)
步骤3-4:利用公式(1)计算手语视频A和手语视频B两个词频向量对应的夹角,夹角越大,相似度越小;夹角越小,相似性越大;最终来确定手语视频A和手语视频B的相似度。
其中,||A||和||B||表示向量的模。由于A和B均大于等于0,所以(1)式的值是一个0到1的值,0表示两段手语视频的相似度为零,1表示两段手语视频完全相似。
上述方案需要特别说明是的:
1.ELAN(EUDICO Linguistic Annotator)是荷兰马克斯普朗克研究所为研究心理语言学开发的,目的是为注释和开发多媒体提供良好的技术支持。ELAN是一个用于对视频或音频文件进行复杂标注的专业工具。使用ELAN可以为视频音频添加无限层的标注。标注内容可以是句子、单词、内容、翻译或者是对视频细节的描述等等。使用ELAN对手语视频进行标注可达到事半功倍的效果。本发明就是利用ELAN将手语语料的信息通过人工标注转换成文本信息进行处理。
2.向量空间模型(VSM)的概念最早在上世纪60年代被Salton等人提出,并很快在文本分类、信息检索等领域得到广泛应用。
本发明通过可行的技术方案,具有以下几点有益效果:
1.实现了手语视频相似度的计算。
2.有助于大型手语语料库的去重和手语视频的分类。
3.为了保证语料库的标注质量,此算法可以用作专家相似度测试。
附图说明:
图1本发明的流程示意图
图2-1同一手语视频计算相似度结果,验证算法正确性
图2-2同一手语视频,不同标注者转写信息的相似度计算结果
图2-3同一故事但不同版本的手语视频相似度计算结果
图2-4不同故事的手语视频相似度计算结果
图3本发明相似度计算对比实验
具体实施方式:
采用本发明的方法,结合图1进一步对本发明的具体实施过程进行说明。本发明在Python2.7平台上进行实现,所使用的一些通用技术如ELAN软件的使用等不在详细叙述。
本发明的实施方式如下:
1.本文选取了手语语料库中不同采集者的《龟兔赛跑》版本A和版本B。
2.《龟兔赛跑》A版本选取两名标注者,标注者1和标注者2对同一视频进行了转写。我们用上述方法进行计算,计算结果1为0.8958,如图2-2,也就是说明同一手语视频在不同标注者进行转写的情况下,其相似度计算结果有一定的可信性;
3.标注者3对《龟兔赛跑》B版本进行转写,同样用上述方法计算相似度,得到的结果2为0.6483,如图2-3,说明同样主题,不同的手语表达,相似度会降低;
4.标注者4对《小兔子乖乖》手语视频进行转写,计算相似度得到的结果3为0.0323,如图2-4。由于是不同的故事,所以其相似度就非常的低。
5.为了保证语料库的标注质量,此算法可以用作专家相似度测试。如下图3所示,标注者1为专家(手语语言学家),标注者2是一般标注者(聋人大学生),如果通过标注培训,标注者与专家的语料相似度达到相似度阈值,经过专家讨论研究,此阈值设为0.85,如果计算结果小于阈值,则不能通过专家相似度测试,重新进行标注培训;如果计算结果大于阈值,则表明次标注者可以进入语料库的标注工作,保证了语料库的标注质量。
实验结果表明,本发明用到基于Gloss的空间向量的余弦相似性计算方法是可以解决手语视频中的相似度计算的,也有非常明显的效果。
Claims (1)
1.一种基于Gloss的手语视频相似度计算方法,其特征在于,包括以下步骤:
步骤1:使用ElAN软件对手语语料进行转写;
步骤2-1:将手语转写层语料导出成文本;
步骤2-2:对手语转写文本语料进行噪声消除,分词及去除相应的停用词;
步骤3-1:对手语视频A的转写层文本语料和手语视频B的转写层文本语料的所有词进行列举;
步骤3-2:计算手语视频A和手语视频B各自的词频;
步骤3-3:确定手语视频A和手语视频B各自的词频向量A=(a1,a2,…,an)和B=(b1,b2,…,bn);
步骤3-4:利用公式(1)计算手语视频A和手语视频B两个词频向量对应的夹角,夹角越大,相似度越小;夹角越小,相似性越大;最终来确定手语视频A和手语视频B的相似度;
其中,||A||和||B||表示向量的模;由于A和B均大于等于0,所以(1)式的值是一个0到1的值,0表示两段手语视频的相似度为零,1表示两段手语视频完全相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910028610.5A CN109858395A (zh) | 2019-01-11 | 2019-01-11 | 一种基于Gloss的手语视频相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910028610.5A CN109858395A (zh) | 2019-01-11 | 2019-01-11 | 一种基于Gloss的手语视频相似度计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109858395A true CN109858395A (zh) | 2019-06-07 |
Family
ID=66894495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910028610.5A Pending CN109858395A (zh) | 2019-01-11 | 2019-01-11 | 一种基于Gloss的手语视频相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109858395A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484034A (zh) * | 2014-11-27 | 2015-04-01 | 韩慧健 | 一种基于手势识别的手势运动基元过渡帧定位方法 |
US9495351B1 (en) * | 2013-10-20 | 2016-11-15 | Mary Shawver | Writing a visual language |
CN108629312A (zh) * | 2018-05-04 | 2018-10-09 | 兰州理工大学 | 一种动态手势跟踪方法及系统 |
-
2019
- 2019-01-11 CN CN201910028610.5A patent/CN109858395A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495351B1 (en) * | 2013-10-20 | 2016-11-15 | Mary Shawver | Writing a visual language |
CN104484034A (zh) * | 2014-11-27 | 2015-04-01 | 韩慧健 | 一种基于手势识别的手势运动基元过渡帧定位方法 |
CN108629312A (zh) * | 2018-05-04 | 2018-10-09 | 兰州理工大学 | 一种动态手势跟踪方法及系统 |
Non-Patent Citations (4)
Title |
---|
KABIL JABALLAH 等: ""Fuzzy Analysis of Classifier Handshapes from 3D Sign Language Data"", 《INTERNATIONAL CONFERENCE ON IMAGE ANALYSIS AND PROCESSING》 * |
任媛媛等: ""国外手语语料库的基本标注"", 《现代特殊教育》 * |
吕会华 等: ""基于ELAN软件的中国手语语料库建设研究与实践"", 《中国听力语言康复科学杂志》 * |
张俊飞: ""改进TF-IDF结合余弦定理计算中文语句相似度"", 《现代计算机(专业版)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Venugopalan et al. | Translating videos to natural language using deep recurrent neural networks | |
Al-Rousan et al. | Video-based signer-independent Arabic sign language recognition using hidden Markov models | |
CN110175246B (zh) | 一种从视频字幕中提取概念词的方法 | |
Wazalwar et al. | Interpretation of sign language into English using NLP techniques | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN107480200A (zh) | 基于词标签的词语标注方法、装置、服务器及存储介质 | |
De Coster et al. | Machine translation from signed to spoken languages: State of the art and challenges | |
Dey et al. | Beyond visual semantics: Exploring the role of scene text in image understanding | |
CN106993240B (zh) | 基于稀疏编码的多视频摘要方法 | |
CN116246279A (zh) | 一种基于clip背景知识的图文特征融合方法 | |
Ngo et al. | Structuring lecture videos for distance learning applications | |
Momeni et al. | Automatic dense annotation of large-vocabulary sign language videos | |
Wang et al. | Combining self-training and self-supervised learning for unsupervised disfluency detection | |
Varol et al. | Scaling up sign spotting through sign language dictionaries | |
Merkx et al. | Learning semantic sentence representations from visually grounded language without lexical knowledge | |
CN112328782B (zh) | 一种融合图像过滤器的多模态摘要生成方法 | |
CN109858395A (zh) | 一种基于Gloss的手语视频相似度计算方法 | |
Kate et al. | An approach for automated video indexing and video search in large lecture video archives | |
Zheng et al. | A novel hierarchical convolutional neural network for question answering over paragraphs | |
Chou et al. | Semi-supervised grounding alignment for multi-modal feature learning | |
CN112257410A (zh) | 一种非平衡文本的相似度计算方法 | |
Shi et al. | Searching for fingerspelled content in American Sign Language | |
CN112329604A (zh) | 一种基于多维度低秩分解的多模态情感分析方法 | |
Jaiswal et al. | Automatic indexing of lecture videos using syntactic similarity measures | |
He et al. | Zhegu at semeval-2023 task 9: Exponential penalty mean squared loss for multilingual tweet intimacy analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190607 |
|
RJ01 | Rejection of invention patent application after publication |