CN103324685B - 日语在线视频语料的视频片断检索方法 - Google Patents

日语在线视频语料的视频片断检索方法 Download PDF

Info

Publication number
CN103324685B
CN103324685B CN201310216448.2A CN201310216448A CN103324685B CN 103324685 B CN103324685 B CN 103324685B CN 201310216448 A CN201310216448 A CN 201310216448A CN 103324685 B CN103324685 B CN 103324685B
Authority
CN
China
Prior art keywords
video
information
captions
scene
japanese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310216448.2A
Other languages
English (en)
Other versions
CN103324685A (zh
Inventor
姜国海
刘玉琴
江波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201310216448.2A priority Critical patent/CN103324685B/zh
Publication of CN103324685A publication Critical patent/CN103324685A/zh
Application granted granted Critical
Publication of CN103324685B publication Critical patent/CN103324685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明日语在线视频语料的视频片断检索方法属于一种检索视频片断的方法,涉及基于日语分词技术的在线视频检索方法。检索方法采用了日语分词技术,场景标签技术、字幕和视频匹配的定位技术,视频在线播放技术和WEB技术,实现了视频片断的快速查询。检索方法分为视频语料库的建立、视频信息检索、视频信息播放和视频下载三大步骤。首先对带有日语字幕的影视剧中的文字字幕信息进行分词,依据分词结果提供基于字幕词汇的视频片断检索,或依据字幕词汇与场景的联合视频片断检索。本发明实现了日语在线视频语料的视频片断检索的快速查询、准确定位以及播放和下载,为日语、日剧和动漫爱好者提供方便的检索、定位及播放服务。

Description

日语在线视频语料的视频片断检索方法
技术领域
本发明属于一种检索视频片断的方法,具体涉及一种基于日语分词技术的在线视频检索方法。
背景技术
近年来,随着互联网技术的飞速发展,观看视频进行外语学习已经成为外语学习不可分割的部分,其学习效果受到高度认可,在外语学习过程中的作用被高度关注。因为视频作品不仅提供真实的文本平面语境(语法知识等),同时还提供了语言具体使用的场面、背景以及说话人伴随的肢体语言等真实的多媒体立体语境,即:“声音/影像”、“语言”、“文化”三位一体的真实语境。它弥补了书本教材的不足,是语言实际运用的重要资源。因此,有效地管理这些大量的视频资料,以及有效地开发、管理视频中的知识点对于培养语言的实际应用能力有着重要的意义。
目前,日语影视作品在日语教育领域的应用主要体现在教师备课时组织相关的视频文件,然后在授课时利用播放器提供的播放定位功能来找到相关的视频片段。学习者也在课后大量的观看影视作品。但是由于缺少在线视频的查询功能,使用效率低。例如:要想全面了解具体语言的使用背景,以及某个场景例如:初次见面、感谢等的语言使用,唯有从头至尾花费大量时间观看,给教师的备课和学生的自主学习带来了时间和体力上的负担。
发明内容
本发明的目的是克服现有技术的缺陷,发明一种日语在线视频语料的视频片断检索方法。该方法采用了日语分词技术,在sen分词技术基础上作了进一步数据分类,提供了更加详细的字幕分词;能够检索到分词词尾有活用的动词、助动词、形容动词和形容词四类品词的各种活用型。还采用了场景标签技术、字幕和视频匹配的定位技术,视频在线播放技术、WEB技术,实现了视频片断的快速查询,保障了视频语料能够有效的应用。
本发明采用的技术方案是日语在线视频语料的视频片断检索方法,其特征是,检索方法采用了日语分词技术,场景标签技术、字幕和视频匹配的定位技术,视频在线播放技术、WEB技术,实现了视频片断的快速查询;检索方法通过建立视频语料库,进行视频信息搜索、视频信息播放和视频下载,使用视频及其字幕的上传技术来完成;检索方法具体步骤如下:
(1)建立视频语料库
视频语料库的建立包括视频信息管理和视频信息处理两个模块;视频信息管理模块将视频文件事先拷贝到某个存储目录,然后,进入到管理界面,录入视频影视剧的名称,同时提交字幕文件;视频信息处理模块分为两种情况:一种是系统基于sen分词技术开始进行字幕分词处理,将影视剧标识信息、句子信息、句子的分词信息、句子的时标信息都写入到数据库表中,分词处理程序用Java语言编写;句子的分词信息包括单词的基本型,读音,词性,表现形;另一种是管理员或教师根据自己的需求为这些影视剧资料建立场景标记;场景标记包括场景标记名称,时标信息;实现快捷检索指定的场景。
(2)视频、字幕信息录入和检索
视频信息和字幕信息录入是用户通过互联网基于视频和字幕文件进行字幕分词处理和场景分类,字幕分词处理是基于“词汇”检索视频,根据需求选择精确查询和模糊查询;场景分类是查询视频信息处理模块标记的所有场景,进行分类;或者依据字幕分词与场景进入视频语料库进行联合视频检索,使用Java语言编写了检索程序;在输入搜索的关键词基础上,同时选择所需的场景标签和视频长度,缩小检索范围,更加有针对性进行快速的视频检索。
(3)视频信息播放和下载
视频信息播放是通过jw player来完成,在客户端观看这个视频片段,同时,输出的网页中也包括字幕对应的文本信息,在字幕中出现的关键词会以红颜色显示;视频下载是指用户可以在视频播放页面下载该页面对应的视频片段;老师将检索到的合适的视频片段下载后制作成幻灯片,供离线教学使用;学生将视频片段下载后整理起来,作为个人学习记录。
所述的日语在线视频语料的视频片断检索方法,其特征是,该检索方法采用的网络系统由计算机,视频语料库和服务器构成;视频语料库搭建在服务器端,服务器与计算机连接,并通过因特网使用。
本发明具有以下明显效果,该方法运用了日语分词技术、字幕检索技术、文本检索技术、场景标签技术、字幕和视频匹配的定位技术,视频在线播放技术、WEB技术,实现了日语在线视频语料的视频片断检索的快速查询以及准确定位以及播放和下载,减轻了教师的备课时检索视频的负担,为学生基于视频的多媒体立体语境的自主学习提供了最大的便捷。
附图说明
图1为日语在线视频语料的视频片断检索方法的流程框图。
具体实施方式
结合附图和技术方案详细说明本发明的具体实施,本发明采用的网络系统由计算机,视频语料库和服务器构成;视频语料库搭建在服务器端,服务器与计算机连接,并通过因特网使用。检索方法基于Java EE技术实现,通过Web服务的方式向用户提供在线视频检索功能。Web服务器采用开源的Apache Tomcat服务器软件,数据库采用MySQL Community Server,基于JDK1.7.0并使用了Struts2框架,操作系统为Windows7x64,网页视频播放插件采用开源免费的JW Player,日语分词则使用开源的sen工具包。开发环境采用Eclipse IDE for Java EE Developer,使用Java语言编写了检索及分词处理程序。本发明基于日语分词技术对带有日语字幕的影视剧中的文字字幕信息进行分词,依据分词结果提供基于字幕词汇的视频片断检索;应用视频标签添加技术提供基于场景的视频片断检索和提供基于字幕词汇与场景的联合视频片断检索,且根据检索结果提供的时标信息定位视频片段,通过在线方式提供给互联网的使用者。实现视频片断检索方法的具体内容如下:
(1)视频及其字幕上传功能
为快速、便捷地建设日语视频语料库,采用了视频及其字幕的上传技术。该上传技术要求用户上传的视频文件为H264编码的MP4格式,字幕文件是srt或ass格式。上传方式分为两种:通过浏览器在Web应用中上传或使用配套的本地客户端上传。用户可根据实际情况,灵活选择上传方式。
(2)日语分词功能
在sen分词技术基础上作了进一步数据分类,提供了更加详细的分词技术。能够搜索到分词词尾有活用的动词、助动词、形容动词、形容词四类品词的各种活用型。当选择了模糊查询后,系统会把属于上述四种词汇的各种词形变化都匹配到检索范围内。
(3)添加场景标签功能
在日语教学中使用时,教师具有上传和添加场景标签的权限。老师登入本系统后,除了可以上传视频及其字幕之外,还可以根据自己的需求定义、制作场景标签。定义者在观看某段视频片段时,可以为该片段添加场景标签并配有相关说明。该标签信息会被自动保存。同一段视频并不限定标签的数量,可以没有,也可以有多个;如场景标记名称为商务会面,欢迎会,棒球比赛等。
(4)视频信息检索功能
所谓视频信息检索是指在服务器端存放完整的视频,用户通过检索,可以观看或下载该完整视频或其中一部分内容,根据该方式检索到的视频的时间是可以自行设置。以关键词所在字幕段的开始时间和结束时间为基准,系统的默认播放是开始前后1分钟,实现根据字幕词汇检索视频,根据场景检索,或根据词汇与场景联合检索。
a).根据字幕词汇检索视频
用户通过浏览器访问本应用提供的Web网站,选择“词汇查询”,在检索框中输入要查询的日语词汇,查询视频片断。具体包括精确查询和模糊查询。精确查询是指服务器端返回含有相应词汇的视频;模糊查询是当所查词汇是动词、形容词、形容动词、助动词(即有词尾活用的用言)时,系统将基于上述3的日语分词技术,在已有的词汇库中检索该用言的所有活用形,例如:动词的たい型、て型、たり型、たら型、ば型,使役被动型等。再根据检索出的词汇活用形查找到相关视频片断资源,并提供给用户。这些信息在浏览器上显示为超链接,用户点击后,便可进入播放界面观看相应的视频片段。
b).根据场景检索视频
基本操作流程同字幕词汇检索,选择“场景查询”,在搜索框中输入要查询的场景名称,服务器端根据用户的输入,动态实时返回系统中已有的场景标签,供用户选择。用户选定后,服务器端便会返回与该场景有关的视频片段的信息。同样,用户点击返回的超链接后,便可进入播放界面观看相应的视频片段。
c).根据字幕词汇与场景联合检索视频功能
除了单独根据字幕词汇或单独根据场景检索视频,为了提高查询的准确度,用户还可将这两种方法联合起来使用。例如,可以将某个视频片段中关于早餐的对话,定义为早餐场景,那么在检索时,不仅可以输入检索的关键词,还可以选择场景标签,从而缩小搜索范围,更加有针对性地进行视频检索。
(5)视频片段播放和下载功能
1)视频播放:用户点击输出结果对应的某个超链接,进行视频片段播放时,在网页中包含了隐藏域。隐藏域中包括视频的标识和时标等信息。隐藏域中的信息和超链接地址请求一起发给服务器,这样服务器将对应的视频片段和字幕信息输出到客户端。其中,视频的播放是通过jw player来完成,客户端可以观看这个视频片段,同时输出的网页中也包括字幕对应的文本信息,在字幕中出现的关键词会以红颜色显示。
2)视频下载:用户可以在视频播放页面下载该页面对应的视频片段。老师可以将检索到的合适的视频片段下载后制作成幻灯片,供离线教学使用;学生可以将视频片段下载后整理起来,作为个人学习记录。用户可以在视频播放页面下载该页面对应的视频片段。老师可以将检索到的合适的视频片段下载后制作成幻灯片,供离线教学使用;学生可以将视频片段下载后整理起来,作为个人学习记录。
如附图1是本发明日语在线视频语料的视频片断检索方法的流程框图,检索方法具体步骤分为建立视频语料库,视频信息搜索、视频信息播放和视频下载三大步骤。视频语料库的建立过程包括建立视频信息管理和视频信息处理两个模块。建立视频信息管理模块时,将视频文件先拷贝到某个存储目录,然后,进入到管理界面,录入视频影视剧的名称,同时提交字幕文件。建立视频信息处理模块时,系统基于sen分词技术开始进行分词处理,将影视剧标识(ID)信息、句子信息、句子的分词信息(句子的分词信息包括单词的基本型,读音,词性,表现形)、句子的时标信息等都写入到数据库表中。管理员或教师可以根据自己的需求为这些影视剧的资料建立场景标记。场景标记包括场景标记名称,时标信息。场景标记名称可以是:商务会面,欢迎会,棒球比赛等,实现快捷检索指定的场景。
视频信息检索是用户通过互联网访问这个系统,可以进行以下三种检索方式:
(1)基于字幕词汇检索视频:在本系统的Web主页上输入要查找的关键词之后,根据需求可以选择精确查询和模糊查询。
a).精确查询:系统直接在字幕句子中进行精确检索,检索出所有字幕句子中完整的包含这个关键词的句子,然后,将包含这个关键词的句子和视频的名称,时标等信息输出到Web页面,由服务器端返回含有相应词汇的视频,用户可以通过点击超链接选择播放某个视频片段。
b).模糊查询:本发明在sen分词技术基础上作了进一步数据挖掘、处理,实现了更加详细的分词功能,即:能够检索到分词词尾有活用的动词、助动词、形容动词、形容词四类品词的各种活用型。当选择了模糊查询后,系统会把属于上述四种词汇的各种词形变化都匹配到检索范围内;
(2)基于场景检索视频:可以查询视频信息处理模块标记的所有场景。例如:商务会面,欢迎会,棒球比赛等,实现快捷检索指定的场景。
(3)字幕词汇与场景的联合检索视频:为了提高查询的准确度,用户可将这两种方法联合起来使用。例如,可以将某个视频片段中关于早餐的对话,定义为早餐场景,那么在检索时,不仅可以输入检索的关键词,还可以选择场景标签,从而缩小检索范围,更加有针对性地进行视频检索。
本发明实现了日语在线视频语料的视频片断检索的快速查询、准确定位以及播放和下载,为日语学习者、日语教师、日剧和动漫的爱好者提供方便的检索、定位及播放服务。

Claims (2)

1.一种日语在线视频语料的视频片断检索方法,其特征是,检索方法采用了日语分词技术,场景标签技术、字幕和视频匹配的定位技术,视频在线播放技术、WEB技术,实现了视频片断的快速查询;检索方法通过建立视频语料库,进行视频信息搜索、视频信息播放和视频下载,使用视频及其字幕的上传技术来完成;检索方法具体步骤如下:
(1)建立视频语料库
视频语料库的建立包括视频信息管理和视频信息处理两个模块;视频信息管理模块将视频文件事先拷贝到某个存储目录,然后,进入到管理界面,录入视频影视剧的名称,同时提交字幕文件;视频信息处理模块分为两种情况:一种是系统基于sen分词技术开始进行字幕分词处理,将影视剧标识信息、句子信息、句子的分词信息、句子的时标信息都写入到数据库表中,分词处理程序用Java语言编写;句子的分词信息包括单词的基本型,读音,词性,表现形;另一种是管理员或教师根据自己的需求为这些影视剧资料建立场景标记;场景标记包括场景标记名称,时标信息;实现快捷检索指定的场景;
(2)视频、字幕信息录入和检索
视频信息和字幕信息录入是用户通过互联网基于视频和字幕文件进行字幕分词处理和场景分类,字幕分词处理是基于“词汇”检索视频,根据需求选择精确查询和模糊查询;场景分类是查询视频信息处理模块标记的所有场景,进行分类,或者依据字幕分词与场景进入视频语料库进行联合视频检索,使用Java语言编写了检索程序;在输入搜索的关键词基础上,同时选择所需的场景标签和视频长度,缩小检索范围,更加有针对性进行快速的视频检索;
(3)视频信息播放和下载
视频信息播放是通过jw player来完成,在客户端观看这个视频片段,同时,输出的网页中也包括字幕对应的文本信息,在字幕中出现的关键词会以红颜色显示;视频下载是指用户可以在视频播放页面下载该页面对应的视频片段;老师将检索到的合适的视频片段下载后制作成幻灯片,供离线教学使用;学生将视频片段下载后整理起来,作为个人学习记录。
2.根据权利要求1所述的日语在线视频语料的视频片断检索方法,其特征是,该检索方法采用的网络系统由计算机,视频语料库和服务器构成;视频语料库搭建在服务器端,服务器与计算机连接,并通过因特网使用。
CN201310216448.2A 2013-06-03 2013-06-03 日语在线视频语料的视频片断检索方法 Active CN103324685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310216448.2A CN103324685B (zh) 2013-06-03 2013-06-03 日语在线视频语料的视频片断检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310216448.2A CN103324685B (zh) 2013-06-03 2013-06-03 日语在线视频语料的视频片断检索方法

Publications (2)

Publication Number Publication Date
CN103324685A CN103324685A (zh) 2013-09-25
CN103324685B true CN103324685B (zh) 2016-08-10

Family

ID=49193428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310216448.2A Active CN103324685B (zh) 2013-06-03 2013-06-03 日语在线视频语料的视频片断检索方法

Country Status (1)

Country Link
CN (1) CN103324685B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984772B (zh) * 2014-06-04 2017-07-18 百度在线网络技术(北京)有限公司 文本检索字幕库生成方法和装置、视频检索方法和装置
CN105810223A (zh) * 2014-12-30 2016-07-27 联想(北京)有限公司 内容播放方法和电子设备
CN105744301A (zh) * 2016-01-22 2016-07-06 福建宏天信息产业有限公司 互联网教育平台的实现方法及系统
CN105740427B (zh) * 2016-01-29 2019-06-14 上海典爆信息科技有限公司 基于引擎的语言信息管理系统和方法
CN107424100B (zh) * 2017-07-21 2021-01-01 深圳市鹰硕技术有限公司 信息提供方法及系统
CN107704525A (zh) * 2017-09-04 2018-02-16 优酷网络技术(北京)有限公司 视频搜索方法和装置
CN107885826B (zh) * 2017-11-07 2020-04-10 Oppo广东移动通信有限公司 多媒体文件播放方法、装置、存储介质及电子设备
CN109376271A (zh) * 2018-11-01 2019-02-22 惠州学院 一种视频内容检索方法
CN109756770A (zh) * 2018-12-10 2019-05-14 华为技术有限公司 视频播放过程实现单词或语句复读的方法及电子设备
CN110008378B (zh) * 2019-01-28 2024-03-19 平安科技(深圳)有限公司 基于人工智能的语料收集方法、装置、设备及存储介质
CN113094547B (zh) * 2021-04-06 2022-01-18 大连理工大学 日语在线视频语料中特定动作视频片断检索方法
CN113223339A (zh) * 2021-04-21 2021-08-06 宋明哲 一种基于美剧字幕的英语学习软件

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087668A (zh) * 2011-02-17 2011-06-08 天擎华媒(北京)科技有限公司 一种自动获取音视频字幕和歌词并快速定位检索及个性化显示的方法
CN102117313A (zh) * 2010-12-29 2011-07-06 天脉聚源(北京)传媒科技有限公司 一种视频检索方法和系统
CN102486800A (zh) * 2010-12-01 2012-06-06 财团法人工业技术研究院 视频搜索方法、系统及建立视频数据库的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130060784A1 (en) * 2007-09-21 2013-03-07 Limelight Networks, Inc. Methods and systems for providing word searching inside of video files
US20130124547A1 (en) * 2011-11-15 2013-05-16 Doat Media Ltd. System and Methods Thereof for Instantaneous Updating of a Wallpaper Responsive of a Query Input and Responses Thereto
US20120323897A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Query-dependent audio/video clip search result previews

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486800A (zh) * 2010-12-01 2012-06-06 财团法人工业技术研究院 视频搜索方法、系统及建立视频数据库的方法
CN102117313A (zh) * 2010-12-29 2011-07-06 天脉聚源(北京)传媒科技有限公司 一种视频检索方法和系统
CN102087668A (zh) * 2011-02-17 2011-06-08 天擎华媒(北京)科技有限公司 一种自动获取音视频字幕和歌词并快速定位检索及个性化显示的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于视频片段的视频检索;胡振兴等;《中南大学学报(自然科学版)》;20100626;第41卷(第3期);第1009页-1014页 *

Also Published As

Publication number Publication date
CN103324685A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN103324685B (zh) 日语在线视频语料的视频片断检索方法
US20200160738A1 (en) Methods and related systems for accessing information
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
CN110149558A (zh) 一种基于内容识别的视频播放实时推荐方法及系统
CN109275046A (zh) 一种基于双视频采集的教学数据标注方法
US20150213793A1 (en) Methods and systems for converting text to video
Kamabathula et al. Automated tagging to enable fine-grained browsing of lecture videos
Liu et al. The application and teaching evaluation of Japanese films and TV series corpus in JFL classroom
Li et al. Creating MAGIC: System for generating learning object metadata for instructional content
Lösel Tags and tracks and annotations–research video as a new form of publication of embodied knowledge
Kawamura et al. FastPerson: Enhancing Video-Based Learning through Video Summarization that Preserves Linguistic and Visual Contexts
US20150213726A1 (en) System and methods for automatic composition of tutorial video streams
Fels et al. Sign language online with Signlink Studio 2.0
Geisler et al. Crowdsourcing the indexing of film and television media
Stockinger Introduction to audiovisual archives
US20040234934A1 (en) Educational and training system
De Bruyn Lost and found: an avant-garde trajectory into the audiovisual essay
Alotaibi et al. Video content search system for better students engagement in the learning process
Zhang et al. EVOV: A video recommendation system to support sustainable vocabulary learning
Pavel Navigating Video Using Structured Text
Kanellopoulos Multimedia analysis techniques for e-learning
Singh et al. LearnWeb-OER: Improving Accessibility of Open Educational Resources
DeCesare Navigating multimedia: How to find internet video resources for teaching, learning, and research
Kozulyaev Principles of a Practical University Course of Audiovisual Translation
Handayani Subtitling strategies in Dune movie

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant