CN110737381A - 一种字幕滚动控制方法、系统及装置 - Google Patents

一种字幕滚动控制方法、系统及装置 Download PDF

Info

Publication number
CN110737381A
CN110737381A CN201910876252.3A CN201910876252A CN110737381A CN 110737381 A CN110737381 A CN 110737381A CN 201910876252 A CN201910876252 A CN 201910876252A CN 110737381 A CN110737381 A CN 110737381A
Authority
CN
China
Prior art keywords
matching
subtitle
threshold
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910876252.3A
Other languages
English (en)
Other versions
CN110737381B (zh
Inventor
胡天祥
莫兆忠
李晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yougu Information Technology Co Ltd
Original Assignee
Guangzhou Yougu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yougu Information Technology Co Ltd filed Critical Guangzhou Yougu Information Technology Co Ltd
Priority to CN201910876252.3A priority Critical patent/CN110737381B/zh
Publication of CN110737381A publication Critical patent/CN110737381A/zh
Application granted granted Critical
Publication of CN110737381B publication Critical patent/CN110737381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种字幕滚动控制方法、系统及装置,该方法包括:根据麦克风信号生成音频信号,将音频信号与预设读音对比,获得测评信息;将测评信息与朗读文本进行匹配,根据匹配信息控制字幕滚动到相应文本并高亮显示。该系统包括:测评模块和控制模块。该装置包括存储器以及用于执行上述字幕滚动控制方法的处理器。通过使用本发明,可实现根据使用者的朗读情况控制字幕朗读文本的滚动,提高用户的朗读体验。本发明作为一种字幕滚动控制方法、系统及装置,可广泛应用于字幕控制领域。

Description

一种字幕滚动控制方法、系统及装置
技术领域
本发明字幕控制领域,尤其涉及一种字幕滚动控制方法、系统及装置。
背景技术
用户使用朗读亭进行朗读,朗读文本会同时在上屏和下屏中显示,下屏是触控屏,有自由上下翻动朗读文本、调节声音大小,选择上屏朗读文本滚动速度等功能,上屏是显示屏,用于显示朗读文本,一般而言,用户在开始朗读的时候,上屏的朗读文本在系统预设的速度下滚动,由于每个朗读者的朗读速度不一,常常出现朗读文本显现的速度跟不上朗读者的朗读速度,或相反的情况,导致用户需要在触控屏进行速度的调节,多次的反复操作降低了用户的朗读体验。
发明内容
为了解决上述技术问题,本发明的目的是提供一种字幕滚动控制方法、系统及装置,可实现根据使用者的朗读情况控制字幕朗读文本的滚动。
本发明所采用的第一技术方案是:一种字幕滚动控制方法,包括以下步骤:
根据麦克风信号生成音频信号,将音频信号与预设读音对比,获得测评信息;
将测评信息与朗读文本进行匹配,根据匹配信息控制字幕滚动到相应文本并高亮显示。
进一步,所述测评信息包括字和字的状态,所述字的状态包括未读、已读和重读。
进一步,所述将测评信息与朗读文本进行匹配,根据匹配信息控制字幕滚动到相应文本并高亮显示这一步骤具体还包括:
将测评信息与朗读文本逐一校对,获取该字在朗读文本的行数以及该字在该行中的顺序号;
根据行数获取该行数对应的字数,根据字数的不同选取不同的匹配方法,生成匹配信息;
根据匹配信息,字幕滚动到相应文本并高亮显示。
进一步,所述根据行数获取该行数对应的字数,根据字数的不同选取不同的匹配方法,生成匹配信息这一步骤具体还包括:
当X处于第一区域且不存在跳读行为时,则匹配阈值为第一阈值;
当X处于第二区域且不存在跳读行为时,则匹配阈值为第二阈值,存在跳读行为则匹配阈值为第三阈值;
当X处于第三区域且不存在跳读行为时,则匹配阈值为第四阈值,存在跳读行为则匹配阈值为第五阈值;
所述X为字数。
进一步,所述匹配信息包括匹配成功的行和状态为已读的字在该行对应的顺序号。
进一步,所述字幕滚动到相应文本并高亮显示包括根据匹配到的字的顺序号,控制字幕滚动到匹配行显示或滚动到匹配行的下一行显示。
进一步,当当前屏幕高亮的行数与匹配后应该显示的行数之差大于预设阈值则判定为跳读行为。
本发明所采用的第二技术方案是:一种字幕滚动控制系统,包括:
测评模块,用于根据麦克风信号生成音频信号,将音频信号与预设读音对比,获得测评信息;
控制模块,用于将测评信息与朗读文本进行匹配,根据匹配信息控制字幕滚动到相应文本并高亮显示。
进一步,所述控制模块还包括:
校对子模块,用于将测评信息与朗读文本逐一校对,得到状态为已读的字,获取该字在朗读文本的行数以及该字在该行中的顺序号;
匹配子模块,用于根据行数获取该行数对应的字数,根据字数选取对应的匹配阈值,生成匹配信息;
显示子模块,用于根据匹配信息,字幕滚动到相应文本并高亮显示。
本发明所采用的第三技术方案是:一种字幕滚动控制装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种字幕滚动控制方法。
本发明方法、系统及装置的有益效果是:本发明接收麦克风的音频信号,与标准库中的读音进行比对,确认朗读文本的相应位置,屏幕跳转到朗读文本的相应位置并高亮显示,根据使用者的朗读情况控制字幕朗读文本的滚动,从而提高用户的朗读体验。
附图说明
图1是本发明一种字幕滚动控制方法的步骤流程图;
图2是本发明一种字幕滚动控制系统的结构框图;
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图1所示,本发明提供了一种字幕滚动控制方法,该方法包括以下步骤:
S101、根据麦克风信号生成音频信号,将音频信号与预设读音对比,获得测评信息。
具体地,麦克风接收朗读语音,音频模拟信号进行采样编码转化为音频数字信号,音频数字信号发送到测评模块,测评模块将音频数字信号中每个字的读音与标准库的读音进行对比,返回测评结果。
S102、将测评信息与朗读文本进行匹配,根据匹配信息控制字幕滚动到相应文本并高亮显示。
具体地,在匹配模块中与朗读文本逐字匹配,判断字幕该显示的朗读文本行和根据顺序号来判断是否应该提前显示下一行,所述朗读文本划分为两种类型:单字类型和数组类型,单字类型:每个字中包含了该字所在的行数以及该字在该行中的顺序号,数组类型:每个数组里包括了该行所在屏幕中的行数,是否需要换行标志,行里面包含的单字数量和每行按照正常速度读所需的时间,匹配信息还包括了匹配是否成功的匹配结果。
进一步作为本方法的优选实施例,所述测评信息包括字和字的状态,所述字的状态包括未读、已读和重读。
进一步作为本方法的优选实施例,所述将测评结果传输至匹配模块与朗读文本进行匹配,根据匹配信息字幕滚动到相应文本并高亮显示这一步骤,其具体还包括:
将测评信息与朗读文本逐一校对,得到状态为已读的字,获取该字在朗读文本的行数以及该字在该行中的顺序号;
根据行数获取该行数对应的字数,根据字数选取对应的匹配阈值,生成匹配信息;
根据匹配信息,字幕滚动到相应文本并高亮显示。
具体地,测评模块返回的结果(字和字的状态)与朗读文本的单字逐一对比,当匹配到字的状态为已读或者重读时,获取该字所在行数以及该字在该行中的顺序号,根据该行数N去获取该行在数组类型中的字数数量。
进一步作为优选实施例,所述根据字数选取对应的匹配阈值具体包括:
当X处于第一区域且不存在跳读行为时,则匹配阈值为第一阈值;
当X处于第二区域且不存在跳读行为时,则匹配阈值为第二阈值,存在跳读行为则匹配阈值为第三阈值;
当X处于第三区域且不存在跳读行为时,则匹配阈值为第四阈值,存在跳读行为则匹配阈值为第五阈值;
所述X为字数。
具体地,所述第一区域为X≤5,所述第一阈值为2,所述第二区域为5<X≤8,第二阈值为3,第三阈值为5,所述第三区域为8<X,第四阈值为3,第五阈值为6。
即:
当X≤5且不存在跳读行为时,匹配2个字以上则匹配成功;
当5<X≤8且不存在跳读行为时,成功匹配3个字以上则匹配成功,存在跳读行为则需要匹配5个字。
当8<X且不存在跳读行为时,成功匹配3个字则匹配成功,存在跳读行为则需要匹配6个字。
具体地,当该行的字数数量5<X≤8时,匹配的字的顺序号为7~8个时,系统默认该行快读完了,自动跳转到下一行并高亮显示,当该行的字数数量8<X<16时,匹配字的顺序号X-3个字时,系统默认该行快读完了,自动跳转到下一行并高亮显示,当该行的字数数量X≥16时,匹配字的顺序号为第X-5~X个字时,系统默认该行快读完了,自动跳转到下一行并高亮显示。
进一步作为本方法的优选实施例,所述匹配信息包括匹配成功的行和状态为已读的字在该行对应的顺序号。
具体地,顺序号用于判断是否需要控制字幕滚动到下一行显示,系统判断该行快读完了,自动跳转到下一行并高亮显示。
进一步作为本方法的优选实施例,所述字幕滚动到相应文本并高亮显示包括根据匹配到的字的顺序号,控制字幕滚动到匹配行显示或滚动到匹配行的下一行显示。
进一步作为本方法的优选实施例,当当前字幕高亮的行数与匹配后显示的行数之差大于预设第六阈值则判定为跳读行为。
具体地,所述跳读行为判断可方便针对部分用户,所述第六阈值预设为5,而且通过判断跳读行为需要匹配更多的字数,从而避免某几行相似字过多而导致判断错误。
如图2所示,一种字幕滚动控制系统,包括:
测评模块,用于根据麦克风信号生成音频信号,将音频信号与预设读音对比,获得测评信息;
控制模块,用于将测评信息与朗读文本进行匹配,根据匹配信息控制字幕滚动到相应文本并高亮显示。
进一步作为优选实施例,所述控制模块还包括:
校对子模块,用于将测评信息与朗读文本逐一校对,得到状态为已读的字,获取该字在朗读文本的行数以及该字在该行中的顺序号;
匹配子模块,用于根据行数获取该行数对应的字数,根据字数选取对应的匹配阈值,生成匹配信息;
显示子模块,用于根据匹配信息,字幕滚动到相应文本并高亮显示。
本发明的具体实施例如下:
麦克风接收朗读语音,音频模拟信号进行采样编码转化为音频数字信号,音频数字信号发送到测评模块,测评模块将音频数字信号中每个字的读音与标准库的读音进行对比,将测评模块返回的结果(字和字的状态)与朗读文本的单字逐一对比,匹配到字的状态为已读或者重读时,获取该字所在行数以及该字在该行中的顺序号,根据该行数N去获取该行在数组类型中的字数数量,根据字符数量的不同选择不同的匹配方法,根据匹配信息字幕跳转到朗读文本相应行并高亮显示。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种字幕滚动控制方法,其特征在于:包括以下步骤:
根据麦克风信号生成音频信号,将音频信号与预设读音对比,获得测评信息;
将测评信息与朗读文本进行匹配,根据匹配信息控制字幕滚动到相应文本并高亮显示。
2.根据权利要求1所述的一种字幕滚动控制方法,其特征在于:所述将测评信息与朗读文本进行匹配,根据匹配信息控制字幕滚动到相应文本并高亮显示这一步骤,其具体还包括:
将测评信息与朗读文本逐一校对,得到状态为已读的字,获取该字在朗读文本的行数以及该字在该行中的顺序号;
根据行数获取该行数对应的字数,根据字数选取对应的匹配阈值,生成匹配信息;
根据匹配信息,字幕滚动到相应文本并高亮显示。
3.根据权利要求2所述的一种字幕滚动控制方法,其特征在于:所述测评信息包括字和字的状态,所述字的状态包括未读、已读和重读。
4.根据权利要求2所述的一种字幕滚动控制的方法,其特征在于:所述根据字数选取对应的匹配阈值具体包括:
当X处于第一区域且不存在跳读行为时,则匹配阈值为第一阈值;
当X处于第二区域且不存在跳读行为时,则匹配阈值为第二阈值,存在跳读行为则匹配阈值为第三阈值;
当X处于第三区域且不存在跳读行为时,则匹配阈值为第四阈值,存在跳读行为则匹配阈值为第五阈值;
所述X为字数。
5.根据权利要求4所述的一种字幕滚动控制方法,其特征在于:所述匹配信息包括匹配成功的行数和状态为已读的字在该行对应的顺序号。
6.根据权利要求5所述的一种字幕滚动控制方法,其特征在于:所述字幕滚动到相应文本并高亮显示包括根据匹配到的字的顺序号,控制字幕滚动到匹配行显示或滚动到匹配行的下一行显示。
7.根据权利要求4所述的一种字幕滚动控制方法,其特征在于:当当前屏幕高亮的行数与匹配后显示的行数之差大于预设第六阈值则判定为跳读行为。
8.一种字幕滚动控制系统,其特征在于:
测评模块,用于根据麦克风信号生成音频信号,将音频信号与预设读音对比,获得测评信息;
控制模块,用于将测评信息与朗读文本进行匹配,根据匹配信息控制字幕滚动到相应文本并高亮显示。
9.根据权利要求8所述的一种字幕滚动控制系统,其特征在于:所述控制模块还包括:
校对子模块,用于将测评信息与朗读文本逐一校对,得到状态为已读的字,获取该字在朗读文本的行数以及该字在该行中的顺序号;
匹配子模块,用于根据行数获取该行数对应的字数,根据字数选取对应的匹配阈值,生成匹配信息;
显示子模块,用于根据匹配信息,字幕滚动到相应文本并高亮显示。
10.一种字幕滚动控制装置,其特征在于:还包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述一种字幕滚动控制方法。
CN201910876252.3A 2019-09-17 2019-09-17 一种字幕滚动控制方法、系统及装置 Active CN110737381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910876252.3A CN110737381B (zh) 2019-09-17 2019-09-17 一种字幕滚动控制方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910876252.3A CN110737381B (zh) 2019-09-17 2019-09-17 一种字幕滚动控制方法、系统及装置

Publications (2)

Publication Number Publication Date
CN110737381A true CN110737381A (zh) 2020-01-31
CN110737381B CN110737381B (zh) 2020-11-10

Family

ID=69267995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910876252.3A Active CN110737381B (zh) 2019-09-17 2019-09-17 一种字幕滚动控制方法、系统及装置

Country Status (1)

Country Link
CN (1) CN110737381B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111917937A (zh) * 2020-06-23 2020-11-10 广州优谷信息技术有限公司 提词器显示方法、装置、提词系统、操作终端和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101505397B (zh) * 2009-02-20 2012-03-21 华为终端有限公司 一种语音和视频字幕同步呈现的方法及系统
CN104064180A (zh) * 2014-06-06 2014-09-24 百度在线网络技术(北京)有限公司 演唱评分方法及装置
CN106611603A (zh) * 2015-10-26 2017-05-03 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN108109636A (zh) * 2017-12-28 2018-06-01 百度在线网络技术(北京)有限公司 基于文本的语音播放方法、装置、计算机设备和存储介质
US20180160069A1 (en) * 2016-12-01 2018-06-07 Arris Enterprises Llc Method and system to temporarily display closed caption text for recently spoken dialogue
CN109903758A (zh) * 2017-12-08 2019-06-18 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
CN110148427A (zh) * 2018-08-22 2019-08-20 腾讯数码(天津)有限公司 音频处理方法、装置、系统、存储介质、终端及服务器
CN110164442A (zh) * 2019-06-21 2019-08-23 上海乂学教育科技有限公司 基于语音识别的声控提词器系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101505397B (zh) * 2009-02-20 2012-03-21 华为终端有限公司 一种语音和视频字幕同步呈现的方法及系统
CN104064180A (zh) * 2014-06-06 2014-09-24 百度在线网络技术(北京)有限公司 演唱评分方法及装置
CN106611603A (zh) * 2015-10-26 2017-05-03 腾讯科技(深圳)有限公司 一种音频处理方法及装置
US20180160069A1 (en) * 2016-12-01 2018-06-07 Arris Enterprises Llc Method and system to temporarily display closed caption text for recently spoken dialogue
CN109903758A (zh) * 2017-12-08 2019-06-18 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
CN108109636A (zh) * 2017-12-28 2018-06-01 百度在线网络技术(北京)有限公司 基于文本的语音播放方法、装置、计算机设备和存储介质
CN110148427A (zh) * 2018-08-22 2019-08-20 腾讯数码(天津)有限公司 音频处理方法、装置、系统、存储介质、终端及服务器
CN110164442A (zh) * 2019-06-21 2019-08-23 上海乂学教育科技有限公司 基于语音识别的声控提词器系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111917937A (zh) * 2020-06-23 2020-11-10 广州优谷信息技术有限公司 提词器显示方法、装置、提词系统、操作终端和存储介质

Also Published As

Publication number Publication date
CN110737381B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN110910918B (zh) 一种字幕滚动控制方法、系统及装置
US10782856B2 (en) Method and device for displaying application function information, and terminal device
US6678706B1 (en) Hypertext marker and method for dynamically displaying help information in an interactive data processing system
US10521186B2 (en) Systems and methods for prompting multi-token input speech
JP3945778B2 (ja) 設定装置、プログラム、記録媒体、及び設定方法
US9280255B2 (en) Structured displaying of visual elements
CN102324191B (zh) 一种有声读物逐字同步显示方法及系统
US20020062214A1 (en) Text marking for deferred correction
US20090174732A1 (en) Image display controlling method and apparatus of mobile terminal
AU2005229676A1 (en) Controlled manipulation of characters
CN101419546A (zh) 图形使用者界面语音提示系统及方法
GB2584236A (en) A system for recorded e-book digital content playout
KR101891101B1 (ko) 애니메이션 메시지의 재생 속도를 제어하는 전자 장치 및 방법
US20130311187A1 (en) Electronic Apparatus
JP2019148681A (ja) テキスト修正装置、テキスト修正方法およびテキスト修正プログラム
US7925142B2 (en) Apparatus for presenting information and method thereof
CN112732139A (zh) 录音处理方法、装置、移动终端及存储介质
CN111081085A (zh) 一种听写的控制方法及终端设备
CN106612378A (zh) 一种来电免打扰的方法和装置
CN110737381A (zh) 一种字幕滚动控制方法、系统及装置
US20050219219A1 (en) Text data editing apparatus and method
JP2021044669A (ja) 情報処理装置およびプログラム
US20200167060A1 (en) Method, device, and computer program for displaying an icon
JP6924544B2 (ja) 漫画データ表示システム、方法及びプログラム
CN112653931B (zh) 资源信息播放的控制方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A subtitle rolling control method, system, and device

Effective date of registration: 20230627

Granted publication date: 20201110

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Tianhe branch

Pledgor: GUANGZHOU YOUGU INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2023980046086

PE01 Entry into force of the registration of the contract for pledge of patent right