CN110399524A

CN110399524A - 根据视频或音频的声音提供语言学习信息的移动设备、服务器及系统

Info

Publication number: CN110399524A
Application number: CN201810355587.6A
Authority: CN
Inventors: 陈伯豪
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2019-11-01

Abstract

本发明提供了一种根据视频或音频的声音提供语言学习信息的移动设备、服务器及系统。移动设备接收视频或音频的声音，根据声音产生声纹信号。移动设备根据声纹信号以及资料库的声纹比对数据，判断视频或音频是对应于资料库的视频或音频数据。移动设备根据视频或音频数据提供相关于视频或音频的语言学习信息。

Description

根据视频或音频的声音提供语言学习信息的移动设备、服务器及系统

技术领域

本发明是关于根据视频或音频的声音提供语言学习信息的移动设备、服务器、系统及其方法；更具体而言，本发明的移动设备、服务器、系统及其方法是用于辨识视频声音或音频声音，以提供相应于视频对白内容或音频歌词内容的语言学习信息。

背景技术

近年来，由于电脑及网络之路科技的迅速发展，人们有各式各样的管道与资源进行学习语言。其中，部分的人们喜欢通过观看影片(例如：戏剧、电影等)或聆听歌曲(例如：音乐、歌剧等)的方式来学习语言，惟往往受限于本身语言程度、影片或歌曲的口音或是字幕的有无等原因，而在观看影片或聆听歌曲时无法同时有效率地学习语言。

而就公知的装置而言，并未同时具有声音辨识以及根据声音辨识结果提供教学内容的功能，因此，使用者无法在影片或歌曲播放的同时，即时地获得关于影片对白内容或歌曲歌词内容的信息。

有鉴于此，如何在观赏影片或聆听歌曲的同时，通过一个同时具有声音辨识以及信息提供的整合装置，正确且有效率地提供对应于影片对白内容或歌曲歌词内容的语言学习信息给使用者，乃当前亟需努力的目标。

发明内容

为解决前述问题，本发明提供了一种根据视频或音频的声音提供语言学习信息的移动设备、服务器、系统及其方法。

本发明所提供的根据视频或音频的声音提供语言学习信息的移动设备，移动设备包含声音接收器以及处理器，声音接收器与处理器电性连接。声音接收器用以自影音装置接收视频或音频的声音。处理器用以：根据声音产生声纹信号，根据声纹信号以及资料库的声纹比对数据，判断视频或音频是对应于资料库的视频或音频数据，以及根据视频或音频数据提供关于视频或音频的语言学习信息。

本发明所提供的根据视频或音频的声音提供语言学习信息的服务器，服务器包含处理器、收发器以及储存器，处理器电性连接于收发器以及储存器。储存器用以储存资料库。收发器用以自移动设备接收视频或音频的声音。处理器用以：根据声音产生声纹信号，根据声纹信号以及资料库的声纹比对数据，判断视频或音频是对应于资料库的视频或音频数据，以及根据视频或音频数据提供关于视频或音频的语言学习信息至移动设备。

本发明所提供的根据视频或音频的声音提供语言学习信息的系统，系统包含移动设备以及服务器，移动设备与服务器具有网络连线，服务器储存资料库。移动设备用以：自影音装置接收视频或音频的声音，根据声音产生声纹信号，以及传送声纹信号至服务器。服务器用以：根据声纹信号以及资料库的声纹比对数据，判断视频或音频是对应于资料库的视频或音频数据，以及根据视频或音频数据提供关于视频或音频的语言学习信息至移动设备。

本发明所提供的根据视频或音频的声音提供语言学习信息的方法，适用于移动设备。方法包含下列步骤：移动设备自影音装置接收视频或音频的声音，移动设备根据声音产生声纹信号，移动设备根据声纹信号以及资料库的声纹比对数据，判断视频或音频是对应于资料库的视频或音频数据，以及移动设备根据视频或音频数据提供相关于视频或音频的语言学习信息。

本发明所提供的根据视频或音频的声音提供语言学习信息的方法，适用于服务器。方法包含下列步骤：服务器自移动设备接收视频或音频的声音，服务器根据声音产生声纹信号，服务器根据声纹信号以及资料库的声纹比对数据，判断视频或音频是对应于资料库的视频或音频数据，以及服务器根据视频或音频数据提供相关于视频或音频的语言学习信息至移动设备。

本发明所提供的根据视频或音频的声音提供语言学习信息的方法，适用于包含移动设备及服务器的系统。方法包含下列步骤：移动设备自影音装置接收视频或音频的声音，移动设备根据声音产生声纹信号以及传送声纹信号至服务器，服务器根据声纹信号以及资料库的声纹比对数据，判断视频或音频是对应于资料库的视频或音频数据，以及服务器根据视频或音频数据提供相关于视频或音频的语言学习信息至移动设备。

此外在参阅附图及随后描述的实施方式后，本领域技术人员便可了解本发明的其他目的，以及本发明的技术手段及实施方式。

附图说明

图1A是第一实施方式的根据视频或音频的声音提供语言学习信息的移动设备的方块图；

图1B是第一实施方式的根据视频或音频的声音提供语言学习信息的移动设备的操作示意图；

图2是第二实施方式的根据视频或音频的声音提供语言学习信息的移动设备的方块图；

图3是第三实施方式的根据视频或音频的声音提供语言学习信息的移动设备的方块图；

图4是第四实施方式的根据视频或音频的声音提供语言学习信息的移动设备的方块图；

图5A是第五实施方式的根据视频或音频的声音提供语言学习信息的服务器的操作示意图；

图5B是第五实施方式的根据视频或音频的声音提供语言学习信息的服务器的方块图；

图6A是第六实施方式的根据视频或音频的声音提供语言学习信息的系统的操作示意图；

图6B是第六实施方式的根据视频或音频的声音提供语言学习信息的系统的方块图；

图7是第七实施方式的根据视频或音频的声音提供语言学习信息的方法的流程图；

图8是第八实施方式的根据视频或音频的声音提供语言学习信息的方法的流程图；

图9是第九实施方式的根据视频或音频的声音提供语言学习信息的方法的流程图；

图10是第十实施方式的根据视频或音频的声音提供语言学习信息的方法的流程图；

图11是第十一实施方式的根据视频或音频的声音提供语言学习信息的方法的流程图；

图12是第十二实施方式的根据视频或音频的声音提供语言学习信息的方法的流程图；以及

图13是第十三实施方式的根据视频或音频的声音提供语言学习信息的方法的流程图。

具体实施方式

以下将通过实施方式来解释本发明所提供的一种根据视频或音频的声音提供语言学习信息的移动设备、服务器、系统及其方法。然而，本发明的实施方式并非用以限制本发明需在如实施方式所述的任何环境、应用或方式方能实施。因此，关于实施方式的说明仅为阐释本发明的目的，而非用以限制本发明的范围。应理解，在以下实施方式及图式中，与本发明非直接相关的元件已省略而未绘示，且各元件的尺寸以及元件间的尺寸比例仅为例示而已，而非用以限制本发明的范围。

请先参考图1A以及图1B，本发明的第一实施方式是关于一种根据视频或音频的声音提供语言学习信息的一移动设备11。图1A是移动设备11的方块图，移动设备11包含一声音接收器111以及一处理器113，且处理器113电性连接于声音接收器111。需要说明的是，本领域技术人员应可理解，移动设备11可为一智能手机(smart phone)、一平板(Tablet)、一笔记型电脑(notebook computer)或其他电子装置。处理器113可为各种处理单元、中央处理单元(Central Processing Unit；CPU)、微处理器或其他具有计算能力的电路。声音接收器111可为声音接收电子元件或其他具有声音接收能力的电子元件。

接着，请同时参阅图1B，图1B是移动设备11的操作示意图，移动设备11的声音接收器111可自影音装置13接收一视频或音频的一声音V1，并传送声音V1至处理器113。处理器113根据声音V1产生一声纹信号S1，根据声纹信号S1以及一资料库DB的一声纹比对数据D1，判断视频或音频是对应于资料库DB的一视频或音频数据D2。随后，处理器113可根据视频或音频数据D2提供关于视频或音频的一语言学习信息D3。

需要说明的是，视频可为一影片，音频可为一歌曲，视频或歌曲的声音包含一言语表达信息(即一语音内容)。影片可为一电影、一戏剧、一连续剧、一短剧等具有对白内容的影片，歌曲可为一音乐、一乐曲、一歌剧等具有歌词内容的歌曲。视频或音频的声音V1的接收时间长度可根据一影片对话、一歌曲歌词或一时间区间等来决定，也可由一使用者自行设定。此外，声音V1的语言类别可为英文、日文、西班牙文、法文、韩文或中文等，并不局限于此。声音V1可包含一或多个声音片段，使处理器113后续产生相对应的一或多个声纹信号S1。在某些实施方式中，可由声音接收器111实现产生声纹信号S1的功能，而非处理器113。

资料库DB可储存有多个视频或音频的声纹比对数据D1以及多个视频或音频的视频或音频数据D2，且各视频或音频数据D2与一声纹比对数据D1具有对应关系，例如但不限于：一声纹比对数据可对应至一视频或音频数据，或是一声纹比对数据可对应至多个视频或音频数据。声纹比对数据D1可包含一视频或音频的特定时间区间声音的声纹(例如：开始后的1分钟或是第2分钟到第3分钟)或所有时间区间声音的声纹，使与处理器113所产生的声纹信号S1进行声纹辨识判断视频或音频数据D2。视频或音频数据D2可包含影片名称、歌曲名称、编号、播放时间轴、对白内容或歌词内容等，使后续提供相应的语言学习信息D3。

语言学习信息D3是储存于资料库DB中，或可独立地储存于资料库DB中的一语言教材资料库。语言学习信息D3可包含单字、文法、音标、例句、片语、衍生词、同义词、反义词等其中之一或组合，并不局限于此。

此外，本领域技术人员应可理解，声纹比对数据D1、视频或音频数据D2以及语言学习信息D3可以预先建立于资料库DB中，也可在后续对资料库DB进行扩充、修改以及更新。

另外需要说明的是，本领域技术人员应可理解，影音装置13可为一电视、一桌上型电脑、一笔记型电脑、一投影机或是具有播放视频或音频(例如：影片或歌曲)功能的电子装置，且移动设备11是接收影音装置13的声音。再者，关于视频或音频的声音的接收、产生声纹以及辨识声纹技术细节，其可参酌现有技术以达成本发明的技术内容，因此，在此不再赘述对于声音的接收、产生声纹以及辨识声纹的技术细节。

请参考图2，图2是本发明第二实施方式的移动设备21的方块图，其中，第二实施方式的移动设备21与第一实施方式的移动设备11的操作流程与元件架构相似，因此符号相同的元件功能也相同，在此不再赘述。第二实施方式主要是更进一步详述移动设备21还包含一储存器115，储存器115用以存储资料库DB，使处理器113直接地搜寻及使用资料库DB中声纹比对数据D1、视频或音频数据D2以及语言学习信息D3。需要说明的是，本领域技术人员应可理解，储存器115可为一存储器或具有相同功能的任何其他储存媒体或电路。

请参考图3，图3是本发明第三实施方式的移动设备31的方块图，其中，第三实施方式的移动设备31与第一实施方式的移动设备11的操作流程与元件架构相似，因此符号相同的元件功能也相同，在此不再赘述。第三实施方式主要是更进一步详述移动设备31具有一收发器117，收发器117与一服务器33具有一网络连线，收发器117是为可进行有线网络连线或无线网络连线的网络界面或任何其他具有网络连线功能的硬件。服务器33包含一处理器、一收发器以及一存储器(未绘示)，且储存器用以储存资料库DB，移动设备31与服务器33通过两者的收发器进行资料传输并存取资料库DB。

需要说明的是，在某些实施方式中，移动设备31可发送一信息至服务器33以要求存取资料库DB的声纹比对数据D1、视频或音频数据D2以及语言学习信息D3。在某些实施方式中，移动设备31也可传送声纹信号S1至服务器33，由服务器33协助进行声纹辨识流程并传送语言学习信息D3至移动设备31。

此外，在某些实施方式中，资料库DB可同时设置于移动设备与服务器，分别做为本地资料库以及远端资料库。通过远端资料库的使用，以弥补移动设备中有限的储存空间。

另外需要说明的是，本领域技术人员应可理解，服务器33可为一电脑、一标准服务器、一档案服务器、一资料库服务器、一网络主机、一工作站或其他电子装置，可与移动设备31进行资料传输。处理器可为各种处理单元、中央处理单元(Central Processing Unit；CPU)、微处理器或其他具有计算能力的电路。储存器可为一存储器或具有相同功能的任何其他储存媒体或电路。收发器可为进行有线或无线网络连线的网络界面或任何其他具有网络连线功能的硬件。网络连线可为各种有线或无线的连线方式(例如但不限于：电缆、光纤、Wi-Fi、蓝牙、移动通信网络等等)。

请参考图4，图4是本发明第四实施方式的移动设备41的方块图，其中，第四实施方式的移动设备41与第一实施方式的移动设备11的操作流程与元件架构相似，因此符号相同的元件功能也相同，在此不再赘述。第四实施方式主要是更进一步详述移动设备41具有一显示单元119。显示单元119与处理器113电性连接，并且用以显示语言学习信息D3。

需要说明的是，本领域技术人员应可理解，显示单元119可为一触控屏幕、一液晶屏幕、一有机发光二极管屏幕或其他具有显示功能的显示元件。除此之外，移动设备41还可包含一声音产生器(未绘示)，例如：扬声器，并用以播放语言学习信息D3。

另外需要说明的是，前述各实施方式中，移动设备11还可包含一使用者设定值(未绘示)，处理器113还可根据使用者设定值以及视频或音频数据D2提供语言学习信息D3。

更具体而言，语言学习信息D3中可包含不同类别与不同程度的语言教材，而使用者可根据自身程度或学习需求等选择调整移动设备11所提供的语言学习信息D3，产生定制化的语言学习信息。例如但不限于，使用者设定值可设定为简单、中等以及困难三种程度的语言教学信息，使用者设定值可设定为仅显示单字、片语以及同义词的语言教学信息，使用者设定值可设定记录曾经显示的语言学习信息。因此，一使用者可通过设定使用者设定值，取得符合自身需求的定制化语言教学信息。

此外，声纹比对数据D1还可包含一视频或音频比对数据以及一视频或音频播放位置比对数据(未绘示)，处理器113还根据声纹信号S1以及资料库DB的声纹比对数据D1的视频或音频比对数据与视频或音频播放位置比对数据，判断视频或音频是对应于资料库DB的视频或音频数据D2。

具体而言，处理器113根据声音V1产生声纹信号S1后，可先比对声纹信号S1以及视频或音频比对数据，以获得视频或音频的基本信息(例如但不限于：名称或编号等)，因此，处理器113可找出稍后用于比对的视频或音频播放位置比对数据。随后，处理器113可进一步比对声纹信号S1以及视频或音频播放位置比对数据，以更准确地判断视频或音频是对应于视频或音频数据D2，使后续处理器113根据视频或音频数据D2提供语言学习信息D3。

换言之，处理器113是通过二阶段式的声纹辨识过程，以更有效率地方式判断对应的视频或音频数据。在某些实施方式中，资料库DB还可包含一视频或音频辨识资料库以及一视频或音频播放位置资料库，视频或音频辨识资料库用以储存视频或音频比对数据，视频或音频播放位置资料库用以储存视频或音频播放位置比对数据，以于资料库DB中更有效率地检索出所需要的相关数据。

再者，视频或音频数据D2还可包含一播放位置数据以及一播放内容数据(未绘示)，处理器113还根据视频或音频数据D2的播放位置数据与播放内容数据提供相关于视频或音频的语言学习信息D3。

具体而言，播放位置数据以及播放内容数据具有对应关系。处理器113判断影音装置13的视频或音频是对应于资料库DB的视频或音频数据D2后，可根据视频或音频数据D2的播放位置数据得知视频或音频当前的播放位置时间，并根据对应于播放位置时间的播放内容数据得知视频或音频的当前对白内容或当前歌词内容。因此，处理器113可根据视频或音频的当前对白内容或当前歌词内容，从资料库DB中提供相关于当前对白内容或当前歌词内容的语言教学内容D3。

需要说明的是，本领域技术人员应可理解，在不背离本发明主要精神的情况下，前述实施方式可结合一或多个实施方式的技术内容，以根据使用者需要完成更有弹性的使用方式。

接着，请参考图5A以及图5B，本发明的第五实施方式为一种根据视频或音频的声音提供语言学习信息的服务器53。图5A是服务器53的操作示意图，图5B是服务器53的方块图。第五实施方式中的元件符号与前述第一至四实施方式相同者具有相同意义及功能，在此不再赘述。

详言之，服务器53包含一处理器533、一储存器535以及一收发器537。处理器533电性连接于收发器537及储存器535。储存器535储存一资料库DB。收发器537与一移动设备51具有一网络连线，自移动设备51接收声音V1，并交由处理器533进行处理。

接着，处理器533根据声音V1产生声纹信号S1，根据声纹信号S1以及资料库DB的声纹比对数据D1，判断视频或音频是对应于资料库DB的视频或音频数据D2，根据视频或音频数据D2提供相关于视频或音频的语言学习信息D3至移动设备51。

换言之，相较于前述第一至四实施例中移动设备完成主要比对动作，第五实施例中主要由服务器53产生声纹信号S1、根据声纹比对数据D1辨识声纹、判断视频或音频数据D2以及提供语言学习信息D3等功能。移动设备51仅传送声音V1至服务器53，并从服务器53接收语言学习信息D3。

需要说明的是，在第五实施方式中，服务器53同样可包含一使用者设定值(未绘示)，处理器533也可根据使用者设定值以及视频或音频数据D2提供语言学习信息D3。

此外，声纹比对数据D1还可包含一视频或音频比对数据以及一视频或音频播放位置比对数据(未绘示)，处理器533还根据声纹信号S1以及资料库DB的声纹比对数据D1的视频或音频比对数据与视频或音频播放位置比对数据，判断视频或音频是对应于资料库DB的视频或音频数据D2。

再者，视频或音频数据D2还可包含一播放位置数据以及一播放内容数据(未绘示)，处理器533还根据视频或音频数据D2的播放位置数据与播放内容数据提供相关于视频或音频的语言学习信息D3。

另外需要说明的是，本领域技术人员应可理解，第五实施方式的处理器533可为各种处理单元、中央处理单元(Central Processing Unit；CPU)、微处理器或其他具有计算能力的电路。储存器535可为一存储器或具有相同功能的任何其他储存媒体或电路。收发器537可为进行有线或无线网络连线的网络界面或任何其他具有网络连线功能的硬件。此外，移动设备51是具有接收声音V1以及进行网络连线功能的一智能手机、一平板、一笔记型电脑或其他电子装置，也可为前述实施方式的移动设备。

接着，请参考图6A以及图6B，本发明的第六实施方式为一种根据视频或音频的声音提供语言学习信息的系统6。图6A是系统6的操作示意图，图6B是系统6的方块图，系统6包含一移动设备61以及一服务器63。第六实施方式中的元件符号与前述第一至五实施方式相同者具有相同意义及功能，在此不再赘述。

详言之，移动设备61包含如同前述实施方式的一声音接收器111、一处理器113以及一收发器117。服务器63包含如前述实施方式的一处理器533、一储存器535以及一收发器537。移动设备61与服务器63具有一网络连线。服务器63的储存器535储存有一资料库DB。将在下文中予以进一步阐述移动设备61与服务器63的互动。

首先，移动设备61可自一影音装置接收一视频或音频的一声音V1，根据声V1音产生一声纹信号S1，以及将声纹信号S1传送至服务器63。随后，服务器63根据声纹信号S1以及资料库DB的一声纹比对数据D1，判断视频或音频是对应于资料库DB的一视频或音频数据D2，以及根据视频或音频数据D2提供相关于视频或音频的一语言学习信息D3至移动设备61。

相较于前述第一至五实施例，第六实施例中主要由移动设备61产生声纹信号S1并且传送声纹信号S1至服务器63，由服务器63根据声纹比对数据D1辨识声纹、判断视频或音频数据D2以及提供语言学习信息D3等功能。换言之，在第六实施方式中，移动设备61是传送声纹信号S1至服务器63，并从服务器63接收语言学习信息D3。

需要说明的是，在第六实施方式中，服务器63同样可包含一使用者设定值(未绘示)，处理器533也可根据使用者设定值以及视频或音频数据D2提供语言学习信息D3至移动设备61。

此外，声纹比对数据D1还可包含一视频或音频比对数据以及一视频或音频播放位置比对数据(未绘示)，服务器63的处理器533还根据声纹信号S1以及资料库DB的声纹比对数据D1的视频或音频比对数据与视频或音频播放位置比对数据，判断视频或音频是对应于资料库DB的视频或音频数据D2。

再者，视频或音频数据D2还可包含一播放位置数据以及一播放内容数据(未绘示)，服务器63的处理器533还根据视频或音频数据D2的播放位置数据与播放内容数据提供相关于视频或音频的语言学习信息D3至移动设备61。

本发明的第七实施方式为一种根据视频或音频的声音提供语言学习信息的方法(以下简称“提供语言学习信息方法”)，其流程图请参考图7。提供语言学习信息方法适用于一电子装置，例如第一实施方式所述的移动设备11。提供语言学习信息方法将在下文中予以进一步阐述。

首先，在步骤701，移动设备自一影音装置接收一视频或音频的一声音。在步骤702，移动设备根据声音产生一声纹信号。接着，在步骤703，移动设备根据声纹信号以及一资料库的一声纹比对数据，判断视频或音频是对应于资料库的一视频或音频数据。随后，在步骤704，移动设备根据视频或音频数据提供相关于视频或音频的一语言学习信息。

需要说明的是，在某些实施方式中，资料库是可储存于移动设备。换言之，移动设备具有资料库，并可直接地搜寻资料库中的声纹比对数据、视频或音频数据以及语言学习信息。

此外，在某些实施方式中，资料库是储存于一服务器，服务器与移动设备具有一网络连线。换言之，服务器具有资料库，移动设备经由网络连线至服务器以存取资料库的声纹比对数据、视频或音频数据以及语言学习信息。

本发明的第八实施方式是基于第七实施方式的流程，相同的步骤在此不重复赘述，其差异在于，第八实施方式主要是更进一步详述在步骤704后，还包含一步骤705(如图8所示)。在步骤705中，移动设备显示语言学习信息于移动设备的一显示单元。

本发明的第九实施方式是基于第七实施方式的流程，相同的步骤在此不重复赘述，其差异在于，第九实施方式主要是更进一步详述步骤704中，还包含一步骤704s(如图9所示)。在步骤704s中，移动设备还根据一使用者设定值以及视频或音频数据提供相关于视频或音频的语言学习信息。

另外需要说明的是，前述第七至九实施方式中，声纹比对数据还可包含一视频或音频比对数据以及一视频或音频播放位置比对数据。其中，步骤703还包含：移动设备根据声纹信号以及资料库的声纹比对数据的视频或音频比对数据与视频或音频播放位置比对数据，判断视频或音频是对应于资料库的视频或音频数据。

此外，视频或音频数据还可包含一播放位置数据以及一播放内容数据。其中，步骤704还包含：移动设备根据视频或音频数据的播放位置数据与播放内容数据提供相关于视频或音频的语言学习信息。

本发明的第十实施方式为一种根据视频或音频的声音提供语言学习信息的方法(以下简称“提供语言学习信息方法”)，其流程图请参考图10。提供语言学习信息方法适用于一服务器，例如第五实施方式所述的服务器53。提供语言学习信息方法将在下文中予以进一步阐述。

首先，在步骤1001，服务器自一移动设备接收一视频或音频的一声音。在步骤1002，服务器根据声音产生一声纹信号。接着，在步骤1003，服务器根据声纹信号以及一资料库的一声纹比对数据，判断视频或音频是对应于资料库的一视频或音频数据。随后，在步骤1004，服务器根据视频或音频数据提供相关于视频或音频的一语言学习信息至移动设备。

本发明的第十一实施方式是基于第十实施方式的流程，相同的步骤在此不重复赘述，其差异在于，第十一实施方式主要是更进一步详述步骤1004中，还包含一步骤1004s(如图11所示)。在步骤1004s中，服务器还根据一使用者设定值以及视频或音频数据提供相关于视频或音频的语言学习信息至移动设备。

另外需要说明的是，前述第十至十一实施方式中，声纹比对数据还可包含一视频或音频比对数据以及一视频或音频播放位置比对数据。其中，步骤1003还包含：服务器根据声纹信号以及资料库的声纹比对数据的视频或音频比对数据与视频或音频播放位置比对数据，判断视频或音频是对应于资料库的视频或音频数据。

此外，视频或音频数据还可包含一播放位置数据以及一播放内容数据。其中，步骤1004还包含：服务器根据视频或音频数据的播放位置数据与播放内容数据提供相关于视频或音频的语言学习信息至移动设备。

本发明的第十二实施方式为一种根据视频或音频的声音提供语言学习信息的方法(以下简称“提供语言学习信息方法”)，其流程图请参考图12。提供语言学习信息方法适用于一系统，例如第六实施方式所述的系统6。提供语言学习信息方法将在下文中予以进一步阐述。

首先，在步骤1201，一移动设备自一影音装置接收一视频或音频的一声音。在步骤1202，移动设备根据声音产生一声纹信号并且传送声纹信号至一服务器。接着，在步骤1203，服务器根据声纹信号以及一资料库的一声纹比对数据，判断视频或音频是对应于资料库的一视频或音频数据。随后，在步骤1204，服务器根据视频或音频数据提供相关于视频或音频的一语言学习信息至移动设备。

本发明的第十三实施方式是基于第十二实施方式的流程，相同的步骤在此不重复赘述，其差异在于，第十三实施方式主要是更进一步详述步骤1204中，还包含一步骤1204s(如图13所示)。在步骤1204s中，服务器还根据一使用者设定值以及视频或音频数据提供相关于视频或音频的语言学习信息至移动设备。

另外需要说明的是，前述第十二至十三实施方式中，声纹比对数据还可包含一视频或音频比对数据以及一视频或音频播放位置比对数据。其中，步骤1203还包含：服务器根据声纹信号以及资料库的声纹比对数据的视频或音频比对数据与视频或音频播放位置比对数据，判断视频或音频是对应于资料库的视频或音频数据。

此外，视频或音频数据还可包含一播放位置数据以及一播放内容数据。其中，步骤1204还包含：服务器根据视频或音频数据的播放位置数据与播放内容数据提供相关于视频或音频的语言学习信息至移动设备。

除了上述步骤，第七至十三实施方式也能执行第一至六实施方式所描述的根据视频或音频的声音提供语言学习信息的移动设备、服务器或系统的所有运作及步骤，具有同样的功能，且达到同样的技术效果。本发明所属技术领域中具有通常知识者可直接了解第七至十三实施方式如何基于上述第一至六实施方式以执行此等运作及步骤，具有同样的功能，并达到同样的技术效果，故不赘述。

由上述说明可知，本发明所提供的根据视频或音频的声音提供语言学习信息的移动设备、服务器、系统及其方法，接收视频或音频的声音并且根据声音产生声纹信号，根据声纹信号以及资料库的声纹比对数据进行声纹辨识，根据辨识结果判断视频或音频对应于资料库的视频或音频数据，随后，可根据视频或音频数据提供相关于视频或音频的语言学习信息。因此，通过本发明的具有整合功能的移动设备或服务器，使用者能在观看一影片或聆听一歌曲的同时，即时地从移动设备获取关于影片对白或歌曲歌词的语言学习信息。

上述实施方式仅用来例举本发明的部分实施方式，以及阐释本发明的技术特征，而非用来限制本发明的保护范畴及范围。任何本发明所属技术领域中具有通常知识者可轻易完成的改变或均等性的安排均属于本发明所主张的范围，而本发明的权利保护范围以权利要求范围为准。

符号说明

11、21、31、41、51、61：移动设备

13：影音装置

6：系统

33、53、63：服务器

111：声音接收器

113、533：处理器

115、535：储存器

117、537：收发器

119：显示单元

701、702、703、704、704s、705：步骤

1001、1002、1003、1004、1004s：步骤

1201、1202、1203、1204、1204s：步骤

DB：资料库

D1：声纹比对数据

D2：视频或音频数据

D3：语言学习信息

V1：声音

S1：声纹信号

Claims

1.一种根据视频或音频的声音提供语言学习信息的移动设备，其特征在于，该移动设备包含：

一声音接收器，用以自一影音装置接收一视频或音频的一声音；以及

一处理器，电性连接于该声音接收器，用以：

根据该声音产生一声纹信号，

根据该声纹信号以及一资料库的一声纹比对数据，判断该视频或音频是对应于该资料库的一视频或音频数据，以及

根据该视频或音频数据提供相关于该视频或音频的一语言学习信息。

2.如权利要求1所述的移动设备，其特征在于，该资料库是储存于该移动设备的一储存器。

3.如权利要求1所述的移动设备，其特征在于，该资料库是储存于一服务器的一储存器，该移动设备与该服务器具有一网络连线。

4.如权利要求1所述的移动设备，其特征在于，该移动设备还包含一显示单元，该显示单元与该处理器电性连接，用以显示该语言学习信息。

5.如权利要求1所述的移动设备，其特征在于，该处理器还根据一使用者设定值以及该视频或音频数据提供该语言学习信息。

6.如权利要求1所述的移动设备，其特征在于，该声纹比对数据还包含一视频或音频比对数据以及一视频或音频播放位置比对数据，该处理器还根据该声纹信号以及该资料库的该声纹比对数据的该视频或音频比对数据与该视频或音频播放位置比对数据，判断该视频或音频是对应于该资料库的该视频或音频数据。

7.如权利要求1所述的移动设备，其特征在于，该视频或音频数据还包含一播放位置数据以及一播放内容数据，该处理器还根据该视频或音频数据的该播放位置数据与该播放内容数据提供相关于该视频或音频的该语言学习信息。

8.一种根据视频或音频的声音提供语言学习信息的服务器，该服务器与一移动设备具有一网络连线，其特征在于，该服务器包含：

一收发器，用以自该移动设备接收一视频或音频的一声音；

一储存器，用以储存一资料库；以及

一处理器，电性连接于该收发器以及该储存器，用以：

根据该声音产生一声纹信号，

根据该声纹信号以及该资料库的一声纹比对数据，判断该视频或音频是对应于该资料库的一视频或音频数据，以及

根据该视频或音频数据提供相关于该视频或音频的一语言学习信息至该移动设备。

9.如权利要求8所述的服务器，其特征在于，该处理器还根据一使用者设定值以及该视频或音频数据提供该语言学习信息至该移动设备。

10.如权利要求8所述的服务器，其特征在于，该声纹比对数据还包含一视频或音频比对数据以及一视频或音频播放位置比对数据，该处理器还根据该声纹信号以及该资料库的该声纹比对数据的该视频或音频比对数据与该视频或音频播放位置比对数据，判断该视频或音频是对应于该资料库的该视频或音频数据。

11.如权利要求8所述的服务器，其特征在于，该视频或音频数据还包含一播放位置数据以及一播放内容数据，该处理器还根据该视频或音频数据的该播放位置数据与该播放内容数据提供相关于该视频或音频的该语言学习信息至该移动设备。

12.一种根据视频或音频的声音提供语言学习信息的系统，其特征在于，该系统包含：

一移动设备；以及

一服务器，与该移动设备具有一网络连线，储存有一资料库；

其中，该移动设备用以：

自一影音装置接收一视频或音频的一声音，以及

根据该声音产生一声纹信号并且传送该声纹信号至该服务器；

其中，该服务器用以：

13.如权利要求12所述的系统，其特征在于，该服务器还根据一使用者设定值以及该视频或音频数据提供该语言学习信息至该移动设备。

14.如权利要求12所述的系统，其特征在于，该声纹比对数据还包含一视频或音频比对数据以及一视频或音频播放位置比对数据，该服务器还根据该声纹信号以及该资料库的该声纹比对数据的该视频或音频比对数据与该视频或音频播放位置比对数据，判断该视频或音频是对应于该资料库的该视频或音频数据。

15.如权利要求12所述的系统，其特征在于，该视频或音频数据还包含一播放位置数据以及一播放内容数据，该服务器还根据该视频或音频数据的该播放位置数据与该播放内容数据提供相关于该视频或音频的该语言学习信息至该移动设备。