CN107908674A - 语音判断方法及装置、存储介质和处理器 - Google Patents

语音判断方法及装置、存储介质和处理器 Download PDF

Info

Publication number
CN107908674A
CN107908674A CN201711018333.7A CN201711018333A CN107908674A CN 107908674 A CN107908674 A CN 107908674A CN 201711018333 A CN201711018333 A CN 201711018333A CN 107908674 A CN107908674 A CN 107908674A
Authority
CN
China
Prior art keywords
file
subtitle
judged
fragment
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711018333.7A
Other languages
English (en)
Inventor
费非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201711018333.7A priority Critical patent/CN107908674A/zh
Publication of CN107908674A publication Critical patent/CN107908674A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了语音判断方法及装置、存储介质和处理器。其中,该方法包括:获取待判断文件,待判断文件是语音文件或文本文件;获取字幕文件,其中,字幕文件包括音频文件、视频文件和字幕文本文件,音频文件、视频文件和字幕文本文件一一对应;将待判断文件与字幕文本进行对比;根据对比结果判断待判断文件与字幕文件的相似程度。通过本发明解决了现有技术中在使用多媒体播放器进行学习时效率较低的问题,从而帮助使用者便捷的进行学习。

Description

语音判断方法及装置、存储介质和处理器
技术领域
本发明涉及多媒体技术领域,具体而言,涉及一种语音判断方法及装置、存储介质和处理器。
背景技术
在现有技术中,常用的多媒体视频播放器并不能解决用户的基础需求,比如用户观看美剧,通常里面的语速比较快,很多时候用户还没听明白就已经播放过去了,如果用户想再听某一句对话,需要采用快进快退等方式来实现,如果想听多次需要反复多次同样的操作。同时,如果某一句对话过长,也无法实现分段朗读或者拼读,从而无法理解该对话到底说了什么。其次,用户想纠正发音时,需要用户对字幕文件反复地进行人工比对来辨别口语发音是否准确。最后,用户在观看美剧时可能无法及时理解美剧中对话的中文含义,需要用户再手动翻译中文字幕,或者上网求助。
针对现有技术中在使用多媒体播放器进行学习时效率较低的问题,目前尚未提出有效地解决方案。
发明内容
本发明提供了一种语音判断方法及装置、存储介质和处理器,以解决现有技术中在使用多媒体播放器进行学习时效率较低的问题。
根据本发明实施例的一个方面,提供了一种语音判断方法,包括:获取待判断文件,其中,上述待判断文件是语音文件或文本文件;获取字幕文件,其中,上述字幕文件包括音频文件、视频文件和字幕文本文件,上述音频文件、视频文件和字幕文本文件一一对应;将上述待判断文件与上述字幕文本进行对比;根据对比结果判断上述待判断文件与上述字幕文件的相似程度。
进一步地,将上述待判断文件与上述字幕文件进行对比包括:将上述字幕文件或上述待判断文件进行翻译,得到翻译字幕文件。
进一步地,获取上述字幕文件包括:将上述字幕文件分解为若干个片段;获取上述字幕文件的至少一个片段。
进一步地,获取上述待判断文件还包括:获取上述语音文件;将上述语音文件转换为文本文件。
进一步地,获取上述字幕文件还包括:获取上述字幕文件的计时起点与计时终点;循环播放上述计时起点与上述计时终点之间的字幕文件。
进一步地,获取上述字幕文件的至少一个片段之后还包括:判断获取的上述片段是否为单个单词;如果上述片段为单个单词,则对上述片段进行输出操作。
进一步地,上述片段为以下至少一种:语句、短语、单词。
根据本发明实施例的一个方面,提供一种字幕的处理方法,包括:获取字幕文件;将上述字幕文件划分为若干片段,其中,上述片段为语句、短语或单词;分别对每个片段进行输出操作。
进一步地,分别对每个上述片段进行输出操作包括:对上述片段进行朗读、显示或翻译。
根据本发明实施例的一个方面,提供一种语音判断装置,包括:第一获取单元,用于获取待判断文件,其中,上述待判断文件是语音文件或文本文件;第二获取单元,用于获取字幕文件,其中,上述字幕文件包括音频文件、视频文件和字幕文本文件,上述音频文件、视频文件和字幕文本文件一一对应;对比单元,用于将上述待判断文件与上述字幕文本进行对比;判断单元,用于根据对比结果判断上述待判断文件与上述字幕文件的相似程度。
进一步地,上述对比单元包括:翻译模块,用于将上述字幕文件进行翻译,得到翻译字幕文件;对比模块,用于将上述待判断文件与上述翻译字幕文件进行对比。
进一步地,上述第二获取单元包括:分解模块,用于将上述字幕文件分解为若干个片段;第一获取模块,用于获取上述字幕文件的至少一个片段。
进一步地,上述第一获取单元还包括:第二获取模块,用于获取上述语音文件;转换模块,用于将上述语音文件转换为文本文件。
进一步地,上述第二获取单元还包括:第三获取模块,用于获取上述字幕文件的计时起点与计时终点;播放模块,用于循环播放上述计时起点与上述计时终点之间的字幕文件。
进一步地,上述第二获取单元还包括:判断模块,用于第一获取模块之后判断获取的上述片段是否为单个单词;输出模块,用于如果上述片段为单个单词,则对上述片段进行输出操作。
根据本发明实施例的另一个方面,还提供给了一种存储介质,上述存储介质上保存有程序,上述程序被运行时执行上述的语音判断方法、字幕的处理方法。
根据本发明实施例的另一个方面,还提供给了一种处理器,上述程序被运行时执行上述的语音判断方法、字幕的处理方法。
根据本发明实施例中,采用了获取待判断文件,上述待判断文件是语音文件或文本文件;获取字幕文件,其中,上述字幕文件包括音频文件、视频文件和字幕文本文件,上述音频文件、视频文件和字幕文本文件一一对应;将上述待判断文件与上述字幕文本进行对比;根据对比结果判断上述待判断文件与上述字幕文件的相似程度。通过本发明解决了现有技术中在使用多媒体播放器进行学习时效率较低的问题,从而帮助使用者便捷的进行学习。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种语音判断方法的流程图;
图2是根据本发明实施例的一种可选的语音判断方法的自动分段朗读功能的界面图;
图3是根据本发明实施例的一种可选的语音判断方法的语音识别功能的界面图;
图4是根据本发明实施例的一种可选的语音判断方法的翻译功能的界面图;
图5是根据本发明实施例的一种可选的语音判断方法的设置a-b区循环复读功能的界面图;以及
图6是根据本发明实施例的一种语音判断装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种语音判断方法。图1是根据本发明实施例的一种语音判断方法的流程图。如图1所示,该方法包括如下步骤:
步骤S102,获取待判断文件,其中,待判断文件是语音文件或文本文件;
步骤S104,获取字幕文件,其中,字幕文件包括音频文件、视频文件和字幕文本文件,音频文件、视频文件和字幕文本文件一一对应;
步骤S106,将待判断文件与字幕文本进行对比;
步骤S108,根据对比结果判断待判断文件与字幕文件的相似程度。
上述待判断文件可以是用户的语音也可以是文字,上述步骤通过用户先输入语音或者用户输入文字,再将该语音或者文字与字幕文件进行比对,从而判断用户的语音或者用户输入的文本与字幕文件的相似度来纠正语音或文字,而现有技术中需要使用者自己反复比对辨别语音或文字才能纠正语音或文字,与现有技术相比,本实施例解决了现有技术中用户在使用多媒体播放器进行学习时效率较低的问题,从而帮助使用者便捷的进行学习。
需要说明的是,上述字幕文本文件可以包括:字母文件、文字文件和符号文件等。
下面结合附图和具体实施方式,对上述方法进行详细说明:
图2是根据本发明实施例的一种语音判断方法的自动分段朗读功能的界面图,如图2所示,获取“peter it’s time to get up”的字幕文件后,首先,可以选择连读上述字幕文件,需要说明的是,为方便用户准确获取上述字幕文件的具体内容,可以调节连读的速度快慢;其次,在选择连读仍听不懂或者听不到的字幕文件的具体内容的情况下,可以选择朗读,也即,一个单词接着一个单词朗读,如果连读和朗读还听不懂或者听不到的字幕文件的具体内容,则可以选择“自动截词”对该字幕文件进行分解,在选择“自动截词”后,点击“跟读”,可以一个单词或一个短句进行分段跟读,跟读完成后,可以试听自己读的是否正确,方便用户对字幕文件的内容进行记忆。
如果自动截词仍听不懂或者听不到的字幕文件的具体内容,可以点击“逐词”按钮,一个单词接着一个单词的读;如果不认识其中的某一个单词,可以点击“拼读”按钮,可以一个字母接着一个字母的听;如果不明白句子是什么意思,可以点击“翻译”按钮,进而弹出如图3所示的语音识别界面图。
需要说明的是,上述连读朗读等功能可以与学习助手功能设置的一致。
在一种可选的实施例中,在选择“自动截词”对该字幕文件进行分解时,该字幕文件可以是音频文件或者文本文件,自动将这一句字幕分为多个片段,该片段是以语句为单位,比如,根据系统算法将字幕文件分解为如下两句:
1 peter
2 is time to get up
通过上述方法将比较长的句子切割为多句,然后再分别进行朗读、翻译或显示等输出操作,从而实现了将较长的句子分段朗读,便于用户收听、理解和学习比对。
图3是根据本发明实施例的一种语音判断方法的语音识别功能的界面图,如图3所示,上述字幕文件可以是音频或者视频的显示字幕,该显示字幕可以是由本实施例中提前进行获取的,当播放音频或者视频时,用户可以选择“按住说话”进行语音输入,从而输入语音的判断文件,用户也可以在“请输入或说出您选中的文字”下方的文本框内输入文字,从而输入文字的判断文件,然后用户点击“对比”后,再将户输入的语音或文字的判断文件与视频或音频的字幕进行对比,并且标注出用户输入的判断文件与字幕的不同之处,便于纠正用户的读音或者拼写,并且用户可以对输入的文字进行修改,上述标注也可以提示输入文字的错误。
上述步骤中将待判断文件与字幕文件进行对比,并且标注出错误的输入,然后用户对错误的输入进行修改,直到正确为止,当判断输入的判断文件与上述字幕文件一致后,在一个可选的实施方式中,第一种情况是将字幕文件进行翻译,得到翻译字幕文件;还可以将翻译后的字幕文件与待判断文件进行对比,来检验带判断文件输入的准确性。第二种情况是可以直接输入待判断文件,对待判断文件进行翻译。
下面图3和图4对上述翻译步骤进行详细说明:
当判断输入的判断文件与上述字幕文件一致后,可以通过图3中“翻译”按钮对字幕文件进行翻译。
图4是根据本发明实施例的一种语音判断方法的翻译功能的界面图,如图4所示,用户可以先在输入“请输入或说出您选中的文字”下方的文本框输入文字“peter it’stime to get up”的待判断文件,并根据多媒体播放器内置的海量词库,实现英文翻译功能,在字幕下方显示该字幕的翻译“皮得是时候起床了”,从而使得用户可以随时对字幕文件进行翻译,便于学习。
在用户观看视频时,可能出现因某一句对话过长,而无法实现分段朗读或者拼读,从而无法理解该对话到底说了什么的状况,因此需要多媒体播放器将获取到的字幕文件分段进行朗读或者翻译等输出操作。在一个可选的实施方式中,将字幕文件分解为若干个片段;获取字幕文件的至少一个片段。
上述片段可以为语句、短语、单词的任意一种,也就是用户可以根据需要,将视频或者音频的字幕拆分成一个个语句朗读,也可以任意选择一个语句,再在语句中截取的一部分单词进行朗读,这些单词可以是组成词组的单词,也可以不是组成词组的单词而是任意选取的某一语句中连读的单词,还可以是单个的单词。
通过上述步骤使得用户可以随意翻译或者收听视频或音频的字幕文件中的任意语句或者单词,可以将听不懂或者听不到的语句进行分解,从而便于学习字幕。
上述步骤中获取的待判断文件可以是语音文件也可以是文本文件,当获取到的是语音文件时,也就是用户输入的文件为语音文件时,可以先将语音文件转化为文本文件再进行翻译、比对等操作。在一个可选的实施方式中,获取待判断文件还包括:获取语音文件;将语音文件转换为文本文件。
下面根据一个可选的实施例对语音文件转换为文本文件步骤进行详细说明:
图3是根据本发明实施例的一种语音判断方法的语音识别功能的界面图,如图3所示,当用户按住“按住说话”按钮,用户输入语音文件,通过讯飞语音系统将用户的语音文本转换成文字文本,并显示在文本框中。当用户点击“对比”按钮时,多媒体播放器会自动将文本框内的文本文字和字幕进行对比。
在一种可选的实施例中,语音系统中的语音识别功能可以判断识别读的是否正确,并在显示界面上显示判断结果,例如,可以将用户读正确的单词用黑色字体显示,读错误的单词用红色的字体显示,没有读出来的单词是用红色括号概括显示,如果读了几遍都还不能完全读正确,则可以点击“切换”按钮,可在文字空白处进行手动修改,修改后点击“对比”按钮,如果修改正确,“翻译”按钮会被激活,如果没有被激活,则可以点击“逐词”按钮,进行拼读。
如果拼读还不会,点击“跟念”和“抄写”按钮,可再次输入字母或是按住“说话”按钮进行语音输入,输入不正确,可以进行手动修改,输入完全正确后,“翻译”按钮被激活,变成可用状态,点击“翻译”按钮,即可出现中文翻译内容。如果想对单个单词进行翻译,则返回图2操作界面,点击“取消”按钮,重新通过逐词,或手动截词功能,选择获取的字段,确认后即可进行单个单词翻译。
同时本实施例还可以直接将用户输入的语音文本与字幕的语音文本进行比对,纠正发音。
当用户需要针对某片段视频或音频进行学习时,需要对某一片段视频或音频进行循环播放,现有技术中需要采用快进快退等方式来实现用户对某一片段视频或音频反复播放。本实施例可以便捷的任意截取一段音频或视频。在一个可选的实施方式中,获取字幕文件还包括:获取字幕文件的计时起点与计时终点;循环播放计时起点与计时终点之间的字幕文件。
下面根据一个可选的实施例结合图5对循环播放步骤进行详细说明:
获取视频或音频的字幕文本文件,选取开始复读的时间点和结束时间点。由于每一个视频都有一个总的时间长度,比如3分钟。视频在播放过程中这个总的时间长度是逐渐减少的,因此如果要获得某一个时间点,需要暂停播放,此时播放的计时停止,将视频的总时间减去已经播放的时间得到目前暂停区域的时间即a区的时间。然后继续播放视频或者音频,在系统需要的获取的某一个时间点暂停,这样得到b区的时间。将a区的时间和b区的时间记录下来后设置循环播放就可以达到重复播放的功能,即复读功能。并且可以任意选取a区的时间和b区的时间,从而使得用户可以任意截取一段话,再对该段话进行语句拆分、朗读、翻译和对比等操作,从而便于学习。
图5是根据本发明实施例的一种语音判断方法的设置a-b区循环复读功能的界面图,如图5所示,设置“0:00:01”为循环点A,同时也是a区的开始时间;设置“0:00:04”为循环点B,该时间是b区的开始时间,当用户点击确认时,系统会循环播放从a区开始时间到b区开始时间的视频片段。
获取字幕文件的至少一个片段之后,如果该片段是单词,还应当考虑到用户针对片段中的单词进行学习。在一个可选的实施方式中,判断获取的片段是否为单个单词;如果片段为单个单词,则对片段进行输出操作。
其中,输出操作可以是对该单词进行朗读,可以是对该单词进行翻译、或者对单词在播放器上进行显示,还可以对单词进行语法讲解,还可以对该单词进行拼读。
下面根据一个可选的实施例对输出操作进行详细说明:
在自动分段的基础上系统可以对分段后的某一个单词进行拼读,比如,peter拼读就是一个个字母的进行朗读:p,e,t,e,r。此时的输出操作实现了拼读功能。
本发明实施例提供了一种字幕的处理方法,该方法包括如下步骤:获取字幕文件;将字幕文件划分为若干片段,其中,片段为语句、短语或单词;分别对每个片段进行输出操作。
上述输出操作可以为朗读、拼读、翻译、显示、比对等。
通过将字幕文件进行分段,从而便于进行字幕的输出操作,使得用户可以快速的进行学习。
本发明实施例还提供了一种语音判断装置,该装置可以通过第一获取单元62、第二获取单元64、对比单元66和判断单元68实现其功能。需要说明的是,本发明实施例的一种语音判断装置可以用于执行本发明实施例所提供的一种语音判断方法,本发明实施例的一种语音判断方法也可以通过本发明实施例所提供的一种语音判断装置来执行。如图6所示,图6是根据本发明实施例的一种语音判断装置的示意图。一种语音判断装置,包括:
第一获取单元62,用于获取待判断文件,其中,待判断文件是语音文件或文本文件;
第二获取单元64,用于获取字幕文件,其中,字幕文件包括音频文件、视频文件和字幕文本文件,音频文件、视频文件和字幕文本文件一一对应;
对比单元66,用于将待判断文件与字幕文本进行对比;
判断单元68,用于根据对比结果判断待判断文件与字幕文件的相似程度。
在一个可选的实施方式中,对比单元包括:翻译模块,用于将字幕文件进行翻译,得到翻译字幕文件;对比模块,用于将待判断文件与翻译字幕文件进行对比。
在一个可选的实施方式中,第二获取单元包括:分解模块,用于将字幕文件分解为若干个片段;第一获取模块,用于获取字幕文件的至少一个片段。
在一个可选的实施方式中,第一获取单元还包括:第二获取模块,用于获取语音文件;转换模块,用于将语音文件转换为文本文件。
在一个可选的实施方式中,第二获取单元还包括:第三获取模块,用于获取字幕文件的计时起点与计时终点;播放模块,用于循环播放计时起点与计时终点之间的字幕文件。
在一个可选的实施方式中,第一获取模块之后还包括:判断模块,用于判断获取的片段是否为单个单词;输出模块,用于如果片段为单个单词,则对片段进行输出操作。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,上述存储介质上保存有程序,上述程序被运行时执行上述的语音判断方法、字幕的处理方法。
本发明实施例提供了一种处理器,处理器包括处理的程序,其中,上述程序被运行时执行上述的语音判断方法、字幕的处理方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (17)

1.一种语音判断方法,其特征在于,包括:
获取待判断文件,其中,所述待判断文件是语音文件或文本文件;
获取字幕文件,其中,所述字幕文件包括音频文件、视频文件和字幕文本文件,所述音频文件、视频文件和字幕文本文件一一对应;
将所述待判断文件与所述字幕文本进行对比;
根据对比结果判断所述待判断文件与所述字幕文件的相似程度。
2.根据权利要求1所述的方法,其特征在于,将所述待判断文件与所述字幕文件进行对比包括:
将所述字幕文件或所述待判断文件进行翻译,得到翻译字幕文件。
3.根据权利要求1或2所述的方法,其特征在于,获取所述字幕文件包括:
将所述字幕文件分解为若干个片段;
获取所述字幕文件的至少一个片段。
4.根据权利要求1或2所述的方法,其特征在于,获取所述待判断文件还包括:
获取所述语音文件;
将所述语音文件转换为文本文件。
5.根据权利要求1或2所述的方法,其特征在于,获取所述字幕文件还包括:
获取所述字幕文件的计时起点与计时终点;
循环播放所述计时起点与所述计时终点之间的字幕文件。
6.根据权利要求3所述的方法,其特征在于,获取所述字幕文件的至少一个片段之后还包括:
判断获取的所述片段是否为单个单词;
如果所述片段为单个单词,则对所述片段进行输出操作。
7.根据权利要求3所述的方法,其特征在于,所述片段为以下至少一种:
语句、短语、单词。
8.一种字幕的处理方法,其特征在于,包括:
获取字幕文件;
将所述字幕文件划分为若干片段,其中,所述片段为语句、短语或单词;
分别对每个片段进行输出操作。
9.根据权利要求8所述的方法,其特征在于,分别对每个所述片段进行输出操作包括:
对所述片段进行朗读、显示或翻译。
10.一种语音判断装置,其特征在于,包括:
第一获取单元,用于获取待判断文件,其中,所述待判断文件是语音文件或文本文件;
第二获取单元,用于获取字幕文件,其中,所述字幕文件包括音频文件、视频文件和字幕文本文件,所述音频文件、视频文件和字幕文本文件一一对应;
对比单元,用于将所述待判断文件与所述字幕文本进行对比;
判断单元,用于根据对比结果判断所述待判断文件与所述字幕文件的相似程度。
11.根据权利要求10所述的装置,其特征在于,所述对比单元包括:
翻译模块,用于将所述字幕文件进行翻译,得到翻译字幕文件;
对比模块,用于将所述待判断文件与所述翻译字幕文件进行对比。
12.根据权利要求10或11所述的装置,其特征在于,所述第二获取单元包括:
分解模块,用于将所述字幕文件分解为若干个片段;
第一获取模块,用于获取所述字幕文件的至少一个片段。
13.根据权利要求10或11所述的装置,其特征在于,所述第一获取单元还包括:
第二获取模块,用于获取所述语音文件;
转换模块,用于将所述语音文件转换为文本文件。
14.根据权利要求10或11所述的装置,其特征在于,所述第二获取单元还包括:
第三获取模块,用于获取所述字幕文件的计时起点与计时终点;
播放模块,用于循环播放所述计时起点与所述计时终点之间的字幕文件。
15.根据权利要求12所述的装置,其特征在于,所述第二获取单元还包括:
判断模块,用于第一获取模块之后判断获取的所述片段是否为单个单词;
输出模块,用于如果所述片段为单个单词,则对所述片段进行输出操作。
16.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的语音判断方法,或者8至9中任意一项所述的字幕的处理方法。
17.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的语音判断方法,或者8至9中任意一项所述的字幕的处理方法。
CN201711018333.7A 2017-10-26 2017-10-26 语音判断方法及装置、存储介质和处理器 Pending CN107908674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711018333.7A CN107908674A (zh) 2017-10-26 2017-10-26 语音判断方法及装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711018333.7A CN107908674A (zh) 2017-10-26 2017-10-26 语音判断方法及装置、存储介质和处理器

Publications (1)

Publication Number Publication Date
CN107908674A true CN107908674A (zh) 2018-04-13

Family

ID=61841817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711018333.7A Pending CN107908674A (zh) 2017-10-26 2017-10-26 语音判断方法及装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN107908674A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147419A (zh) * 2018-07-11 2019-01-04 北京美高森教育科技有限公司 基于错误发音检测的语言学习机系统
CN109147404A (zh) * 2018-07-11 2019-01-04 北京美高森教育科技有限公司 一种被错误发音的音标的检测方法及装置
CN109255988A (zh) * 2018-07-11 2019-01-22 北京美高森教育科技有限公司 基于错误发音检测的语言学习方法
CN112162670A (zh) * 2020-10-12 2021-01-01 武汉智云优鸿科技有限公司 在线学习方法、装置、电子设备及存储介质
CN113822665A (zh) * 2021-08-25 2021-12-21 武汉理工数字传播工程有限公司 一种听力学习的方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103442300A (zh) * 2013-08-27 2013-12-11 Tcl集团股份有限公司 一种音视频跳转播放方法以及装置
US20150019866A1 (en) * 2011-08-31 2015-01-15 Sonic Ip, Inc. Systems and Methods for Automatically Generating Top Level Index Files
CN104301771A (zh) * 2013-07-15 2015-01-21 中兴通讯股份有限公司 视频文件播放进度的调整方法及装置
CN105575402A (zh) * 2015-12-18 2016-05-11 合肥寰景信息技术有限公司 网络教学实时语音分析方法
CN105763949A (zh) * 2014-12-18 2016-07-13 乐视移动智能信息技术(北京)有限公司 一种影音文件播放方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019866A1 (en) * 2011-08-31 2015-01-15 Sonic Ip, Inc. Systems and Methods for Automatically Generating Top Level Index Files
CN104301771A (zh) * 2013-07-15 2015-01-21 中兴通讯股份有限公司 视频文件播放进度的调整方法及装置
CN103442300A (zh) * 2013-08-27 2013-12-11 Tcl集团股份有限公司 一种音视频跳转播放方法以及装置
CN105763949A (zh) * 2014-12-18 2016-07-13 乐视移动智能信息技术(北京)有限公司 一种影音文件播放方法和装置
CN105575402A (zh) * 2015-12-18 2016-05-11 合肥寰景信息技术有限公司 网络教学实时语音分析方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147419A (zh) * 2018-07-11 2019-01-04 北京美高森教育科技有限公司 基于错误发音检测的语言学习机系统
CN109147404A (zh) * 2018-07-11 2019-01-04 北京美高森教育科技有限公司 一种被错误发音的音标的检测方法及装置
CN109255988A (zh) * 2018-07-11 2019-01-22 北京美高森教育科技有限公司 基于错误发音检测的语言学习方法
CN112162670A (zh) * 2020-10-12 2021-01-01 武汉智云优鸿科技有限公司 在线学习方法、装置、电子设备及存储介质
CN113822665A (zh) * 2021-08-25 2021-12-21 武汉理工数字传播工程有限公司 一种听力学习的方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107908674A (zh) 语音判断方法及装置、存储介质和处理器
Baker Sociolinguistics and corpus linguistics
US7693717B2 (en) Session file modification with annotation using speech recognition or text to speech
US20130196292A1 (en) Method and system for multimedia-based language-learning, and computer program therefor
CN107678561A (zh) 基于人工智能的语音输入纠错方法及装置
Motamedi et al. Linking language to sensory experience: Onomatopoeia in early language development
CN111739556B (zh) 一种语音分析的系统和方法
US20170287356A1 (en) Teaching systems and methods
US8321197B2 (en) Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files
US20030225580A1 (en) User interface, system, and method for automatically labelling phonic symbols to speech signals for correcting pronunciation
CN109241332B (zh) 一种通过语音确定语义的方法及系统
CN105760356A (zh) 一种英文单词听写题目备选选项自动生成方法及系统
Wald Creating accessible educational multimedia through editing automatic speech recognition captioning in real time
Matamala et al. The Use of Respeaking for the Transcription of Non-Fictional Genres: An Exploratory Study.
KR20190123093A (ko) 감정 온톨로지에 기반을 둔 이모티콘 추천 장치 및 방법
Attig et al. Dubbing Othering and belonging: The Latinx voice as the self in One Day at a Time
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
Lin Tone sequences in lexical processing of Beijing Mandarin
CN113409761B (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
Istiqomah et al. Discursive creation technique of English to Indonesian subtitle in Harry Potter: The chamber of secrets movie
Alexander Bulgarian Dialectology as Living Tradition: A Digital Resource of Dialect Speech.
Kolb ‘I Am a Bit Surprised’: Literary Translation and Post-Editing Processes Compared
Frädrich et al. Siri vs. Windows speech recognition
Nugroho et al. Translation course 4.0 redefined: enhancing work efficiency and meaning accuracy using AEGISUB 3.2. 2 subtitling software
Bounaas et al. Effects of pre-editing operations on audiovisual translation using TRADOS: an experimental analysis of Saudi students’ translations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413

RJ01 Rejection of invention patent application after publication