CN104038827B - 多媒体播放方法及装置 - Google Patents

多媒体播放方法及装置 Download PDF

Info

Publication number
CN104038827B
CN104038827B CN201410250800.9A CN201410250800A CN104038827B CN 104038827 B CN104038827 B CN 104038827B CN 201410250800 A CN201410250800 A CN 201410250800A CN 104038827 B CN104038827 B CN 104038827B
Authority
CN
China
Prior art keywords
time
sentence
voice data
original position
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410250800.9A
Other languages
English (en)
Other versions
CN104038827A (zh
Inventor
王斌
郑志光
纪东方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201410250800.9A priority Critical patent/CN104038827B/zh
Publication of CN104038827A publication Critical patent/CN104038827A/zh
Priority to JP2016524682A priority patent/JP2016525765A/ja
Priority to MX2015002051A priority patent/MX352076B/es
Priority to PCT/CN2014/091757 priority patent/WO2015184738A1/zh
Priority to KR1020157001317A priority patent/KR101657913B1/ko
Priority to RU2015105625/08A priority patent/RU2605361C2/ru
Priority to BR112015003350A priority patent/BR112015003350A2/pt
Priority to US14/620,508 priority patent/US9589596B2/en
Priority to EP15170892.2A priority patent/EP2953133B1/en
Priority to US15/411,765 priority patent/US9786326B2/en
Application granted granted Critical
Publication of CN104038827B publication Critical patent/CN104038827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B19/00Driving, starting, stopping record carriers not specifically of filamentary or web form, or of supports therefor; Control thereof; Control of operating function ; Driving both disc and head
    • G11B19/02Control of operating function, e.g. switching from recording to reproducing
    • G11B19/022Control panels
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/22Means responsive to presence or absence of recorded information signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • H04N7/087Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only
    • H04N7/088Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital
    • H04N7/0884Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection
    • H04N7/0885Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection for the transmission of subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本公开是关于一种多媒体播放方法及装置。所述方法包括:获取多媒体的暂停位置之前第一预设时长的音频数据和/或字幕数据;根据所述音频数据和/或字幕数据确定完整语句的语句起始位置;当检测到继续播放所述多媒体的指令或满足继续播放所述多媒体的条件时,根据所述语句起始位置继续播放所述多媒体。本公开用于使得在暂停后继续播放时用户可以捕捉并理解到完整的语句。

Description

多媒体播放方法及装置
技术领域
本公开涉及多媒体处理技术领域,尤其涉及一种多媒体播放方法及装置。
背景技术
相关技术中,在播放视频的时候,经常会出现暂停,包括因为用户主观原因的主动暂停,也包括由于网络的原因,出现短暂的卡顿暂停。由于暂定的时刻机动性比较大,在继续播放的时候,视频里面出现的声音往往是从一个句子的中间开始,甚至从一个字或者词的一半开始,这样不便于人们连续地理解情节。
相关技术中,一些多媒体播放软件或网页,在播放过程中关闭软件或网页后,当再次开启软件播放同一视频或重新打开上次关闭的视频网页时,也会采取在暂停位置返回固定时间量的回退播放方式。例如,返回的时间值固定设置为5秒,则当中断后重新开启软件或网页,继续播放原视频时,从中断点之前的5秒开始播放,以便用户接续到上次观看的记忆。
这种回退播放方式,后退的时间值是预先设定的固定值,虽然给予用户一定回想的时间,但是切入的时间点比较生硬,不够人性化。因为即使后退5秒,也会出现从一个句子的中间开始继续播放的情况,不利于用户理解完整的语句。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种多媒体播放方法及装置。
根据本公开实施例的第一方面,提供一种多媒体播放方法,包括:
获取多媒体的暂停位置之前第一预设时长的音频数据和/或字幕数据;
根据所述音频数据和/或字幕数据确定完整语句的语句起始位置;
当检测到继续播放所述多媒体的指令或满足继续播放所述多媒体的条件时,根据所述语句起始位置继续播放所述多媒体。
本实施例中,通过分析音频数据和/或字幕数据,确定一句完整语句的语句起始位置,根据确定的语句起始位置继续播放视频或音频,使得在暂停后继续播放时用户可以捕捉并理解到完整的语句,视频或音频里的对话更自然,情节更连续,提高用户对视频或音频播放的体验度。
可选的,所述根据所述音频数据确定完整语句的语句起始位置,包括:
检测所述音频数据中相邻两个音频信号之间的时间间隔;
当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,确定所述相邻两个音频信号之间的任一时间位置为所述语句起始位置。
可选的,所述根据所述字幕数据确定完整语句的语句起始位置,包括:
获取所述字幕数据中每条字幕的起始显示时间和/或终止显示时间;
根据所述字幕的起始显示时间和/或终止显示时间确定所述语句起始位置。
可选的,所述根据所述音频数据和字幕数据确定完整语句的语句起始位置,包括:
检测所述音频数据中每个音频信号的播放时间;
当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,获取所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间;
根据所述相邻两个音频信号的播放时间及所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间确定所述语句起始位置。
在可选方案中,通过根据相邻音频信号之间的时间间隔或相邻字幕之间的时间间隔确定语句起始位置,使得后续可以根据语句起始位置继续播放音频或视频,用户继续播放时可以捕捉并理解到完整的语句,视频或音频里的对话更自然,情节更连续,提高用户对视频或音频播放的体验度。另外,同时对音频数据和字幕数据进行分析,确定两个完整语句之间的间隔位置,从而更精确地获得完整语句的起始点,不仅不会影响到用户对语句的理解,也不会影响到用户观看到字幕。
可选的,所述根据所述音频数据确定完整语句的语句起始位置,包括:
根据人声频率对所述音频数据进行过滤,得到人声音频数据;
检测所述人声音频数据中相邻两个人声音频信号之间的时间间隔;
当相邻两个人声音频信号之间的时间间隔大于所述第一预设间隔时长时,确定所述相邻两个人声音频信号间之间的任一时间位置为所述语句起始位置。
在可选方案中,按照人声通常的频率先对音频数据过滤,从而单纯对人声音频信号进行分析,根据人声音频信号之间的时间间隔确定语句起始位置,使得对语句起始位置的确定更加准确。
可选的,当根据所述音频数据和/或字幕数据确定出至少两个完整语句的语句起始位置时,所述根据所述语句起始位置继续播放所述多媒体,包括:
从距离所述暂停位置最近的语句起始位置继续播放所述多媒体;或者
当预设的回退语句数量为N时,从所述暂停位置之前的第N个语句起始位置继续播放所述多媒体,所述N为大于或等于2的整数。
在可选方案中,当确定多个语句起始位置时,可以灵活选择其中一个作为暂停后继续播放音视频的起点,使得用户继续播放时可以捕捉并理解到完整的语句,视频或音频里的对话更自然,情节更连续,提高用户对视频或音频播放的体验度。
可选的,当根据所述多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据无法确定完整语句的语句起始位置时,所述方法还包括:
按照时间从后往前的顺序,获取第一预设时长的音频数据和/或字幕数据,其中,本次获取的第一预设时长的音频数据和/或字幕数据的播放时间在上一次获取的第一预设时长的音频数据和/或字幕数据的播放时间之前;
从本次获得的该第一预设时长的音频数据和/或字幕数据中确定完整语句的语句起始位置;
若从本次获得的该第一预设时长的音频数据和/或字幕数据中无法确定完整语句的语句起始位置,则按照时间从后往前的顺序继续向前获取第一预设时长的音频数据和/或字幕数据并确定完整语句的语句起始位置,直到确定出至少一个完整语句的语句起始位置。
可选的,所述获取多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据,包括:
获取多媒体的暂停位置之前的、且与所述暂停位置间隔第二预设时长的时间位置;
获取所述时间位置之前第一预设时长内的音频数据和/或字幕数据;
所述根据所述音频数据和/或字幕数据确定完整语句的语句起始位置,包括:
根据所述时间位置之前第一预设时长内的音频数据和/或字幕数据,确定完整语句的语句起始位置。
在可选方案中,可以先选取到暂停位置前一段时间的时间位置,以该时间位置作为往回寻找完整语句的语句起始位置的起点,使得用户可以获得提供更充裕的进入视频情节的时间。
根据本公开实施例的第二方面,提供一种多媒体播放装置,包括:
获取模块,用于获取多媒体的暂停位置之前第一预设时长的音频数据和/或字幕数据;
分析模块,用于根据所述获取模块获取的音频数据和/或字幕数据确定完整语句的语句起始位置;
播放模块,用于当检测到继续播放所述多媒体的指令或满足继续播放所述多媒体的条件时,根据所述分析模块确定的语句起始位置继续播放所述多媒体。
所述分析模块包括:
检测单元,用于检测所述获取模块获取的所述音频数据中相邻两个音频信号之间的时间间隔;
分析确定单元,用于当所述检测单元检测到的相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,确定所述相邻两个音频信号之间的任一时间位置为所述语句起始位置。
所述分析模块包括:
获取单元,用于从所述获取模块获取的所述字幕数据中获取每条字幕的起始显示时间和/或终止显示时间;
分析确定单元,用于根据所述获取单元获取的所述字幕的起始显示时间和/或终止显示时间确定所述语句起始位置。所述分析模块包括:
检测单元,用于检测所述获取模块获取的所述音频数据中每个音频信号的播放时间;
获取单元,用于当所述检测单元检测的相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,获取所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间;分析确定单元,用于根据所述获取单元获取的所述相邻两个音频信号的播放时间及所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间确定所述语句起始位置。
所述分析模块还包括:
所述分析模块还包括:
过滤单元,用于根据人声频率对所述获取模块获取的所述音频数据进行过滤,得到人声音频数据;
所述检测单元,用于检测所述过滤单元过滤后的所述人声音频数据中相邻两个人声音频信号之间的时间间隔;
所述分析确定单元,用于当所述检测单元检测到的相邻两个人声音频信号之间的时间间隔大于所述第一预设间隔时长时,确定所述相邻两个人声音频信号间之间的任一时间位置为所述语句起始位置。
所述播放模块,用于当所述分析模块确定出至少两个完整语句的语句起始位置时,从距离所述暂停位置最近的语句起始位置继续播放所述多媒体;或者当预设的回退语句数量为N时,从所述暂停位置之前的第N个语句起始位置继续播放所述多媒体,所述N为大于或等于2的整数。
所述获取模块,用于当所述分析模块根据所述多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据无法确定完整语句的语句起始位置时,按照时间从后往前的顺序,获取第一预设时长的音频数据和/或字幕数据,其中,本次获取的第一预设时长的音频数据和/或字幕数据的播放时间在上一次获取的第一预设时长的音频数据和/或字幕数据的播放时间之前;
所述分析模块,用于从所述获取模块本次获得的该第一预设时长的音频数据和/或字幕数据中确定完整语句的语句起始位置;若从本次获得的该第一预设时长的音频数据和/或字幕数据中无法确定完整语句的语句起始位置,则按照时间从后往前的顺序继续向前获取第一预设时长的音频数据和/或字幕数据并确定完整语句的语句起始位置,直到确定出至少一个完整语句的语句起始位置。
所述获取模块,用于获取多媒体的暂停位置之前的、且与所述暂停位置间隔第二预设时长的时间位置;获取所述时间位置之前第一预设时长内的音频数据和/或字幕数据;
所述分析模块,用于根据所述时间位置之前第一预设时长内的音频数据和/或字幕数据,确定完整语句的语句起始位置。
根据本公开实施例的第三方面,提供一种多媒体播放装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取多媒体的暂停位置之前第一预设时长的音频数据和/或字幕数据;
根据所述音频数据和/或字幕数据确定完整语句的语句起始位置;
当检测到继续播放所述多媒体的指令或满足继续播放所述多媒体的条件时,根据所述语句起始位置继续播放所述多媒体。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种多媒体播放方法的流程图;
图2是根据一示例性实施例示出的暂停位置与语句起始位置的时间轴示意图;
图3是根据一示例性实施例示出的一种多媒体播放方法的流程图;
图4是根据一示例性实施例示出的一种多媒体播放方法的流程图;
图5是根据一示例性实施例示出的一种多媒体播放方法的流程图;
图6是根据一示例性实施例示出的一种多媒体播放方法的流程图;
图7是根据一示例性实施例示出的暂停位置与语句起始位置的时间轴示意图;
图8是根据一示例性实施例示出的暂停位置与语句起始位置的时间轴示意图;
图9是根据一示例性实施例示出的一种多媒体播放方法的流程图;
图10是根据一示例性实施例示出的一种多媒体播放方法的流程图;
图11是根据一示例性实施例示出的一种多媒体播放装置的框图;
图12a是根据一示例性实施例示出的分析模块的框图;
图12b是根据另一示例性实施例示出的分析模块的框图;
图12c是根据另一示例性实施例示出的分析模块的框图;
图12d是根据另一示例性实施例示出的分析模块的框图;
图13是根据一示例性实施例示出的一种用于多媒体播放的装置1300的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本公开实施例中的多媒体包括视频、音频等等。多媒体播放过程中发生暂停,暂停可以是用户主动触发的,也可能是由于网络原因引起的。用户主动的暂停多媒体播放,可以通过操作指令获知。由于网络原因的暂停多媒体播放,则可以通过检测视频缓存区中剩余未播放的数据量获知,当后续没有可供播放的视频缓存数据时,视频播放便会中止。
本公开实施例中,在多媒体播放暂停后,通过分析多媒体中音频数据和/或字幕数据中完整语句的语句起始点,使得对多媒体的继续播放可以从一个完整语句开始,解决固定时间回退播放所导致的影响用户理解语句的问题。
图1是根据一示例性实施例示出的一种多媒体播放方法的流程图,如图1所示,多媒体播放方法用于终端中,包括以下步骤。
在步骤S11中,获取多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据。
在步骤S12中,根据音频数据和/或字幕数据确定完整语句的语句起始位置。
在步骤S13中,当检测到继续播放多媒体的指令或满足继续播放多媒体的条件时,根据语句起始位置继续播放多媒体。
本实施例中,通过分析音频数据和/或字幕数据,确定一句完整语句的语句起始位置,根据确定的语句起始位置继续播放视频或音频,使得用户继续播放时可以捕捉并理解到完整的语句,视频或音频里的对话更自然,情节更连续,提高用户对视频或音频播放的体验度。
按照经验,完整的一句话通常不超过16秒,实际应用时,在步骤S11中,可以设置第一预设时长为16秒。例如,图2是根据一示例性实施例示出的暂停位置与语句起始位置的时间轴示意图,如图2所示,用户播放视频时,暂停位置为3分20秒处,可以获取暂停位置之前16秒,即3分04秒至3分20秒的音频数据和/或字幕数据,用以在这些数据中确定完整语句的语句起始位置。
图3是根据一示例性实施例示出的一种多媒体播放方法的流程图,如图3所示,可选的,在步骤S12中,根据所述音频数据确定完整语句的语句起始位置,包括以下步骤。
在步骤S31中,检测音频数据中相邻两个音频信号之间的时间间隔。
在步骤S32中,当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,确定相邻两个音频信号之间的任一时间位置为语句起始位置。
图4是根据一示例性实施例示出的一种多媒体播放方法的流程图,如图4所示,可选的,在步骤S12中,根据所述字幕数据确定完整语句的语句起始位置,包括以下步骤。
在步骤S41中,获取字幕数据中每条字幕的起始显示时间和/或终止显示时间;
在步骤S42中,根据字幕的起始显示时间和/或终止显示时间确定语句起始位置。由于两句话之间应该有一定的时间间隔,如0.1秒,因此,可以根据音频信号之间的间隔时长确定完整句子。同理,当用户观播放的音视频文件有字幕时,还可以根据相邻字幕之间的时间间隔确定完整句子。例如,获取到前一条字幕的终止显示时间为3分04秒160毫秒,后一条字幕的起始显示时间为3分04秒290毫秒,两条字幕之间的间隔为130毫秒,即0.13秒,超过了0.1秒,可以判断这两条字幕之间存在语句起始位置。
或者,在有些音视频文件中,一条字幕本身就对应一句完整的语句,这样可以根据本条字幕的起始显示时间或上一条字幕的终止显示时间确定语句起始位置。
在可选方案中,通过根据相邻音频信号之间的时间间隔或相邻字幕之间的时间间隔确定语句起始位置,使得后续可以根据语句起始位置继续播放音频或视频,用户继续播放时可以捕捉并理解到完整的语句,视频或音频里的对话更自然,情节更连续,提高用户对视频或音频播放的体验度。
图5是根据一示例性实施例示出的一种多媒体播放方法的流程图,如图5所示,可选的,在步骤S12中,根据音频数据和字幕数据确定完整语句的语句起始位置,包括:
在步骤S51中,检测音频数据中每个音频信号的播放时间。
在步骤S52中,当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,获取相邻音频信号对应的字幕的起始显示时间和/或终止显示时间。
在步骤S52中,根据相邻两个音频信号的播放时间及相邻音频信号对应的字幕的起始显示时间和/或终止显示时间确定语句起始位置。
例如,通过对音频数据分析,获得相邻两个音频信号的播放时间3分09秒和3分12秒,这两个相邻音频信号的时间间隔未3秒,大于预先设定的0.1秒;而这两个相邻音频信号对应的相邻两条字幕的显示时间为3分08秒和3分11秒,也大于预先设定的0.1秒。因此,可以确定至少在3分10秒处同时出现音频信号和字幕的空白,可以将3分10秒作为继续播放多媒体的起点。
在可选方案中,同时对音频数据和字幕数据进行分析,确定两个完整语句之间的间隔位置,从而更精确地获得完整语句的起始点,不仅不会影响到用户对语句的理解,也不会影响到用户观看到字幕。
图6是根据一示例性实施例示出的一种多媒体播放方法的流程图,如图6所示,可选的,在步骤S12中,根据所述音频数据确定完整语句的语句起始位置,包括以下步骤。
在步骤S61中,根据人声频率对音频数据进行过滤,得到人声音频数据。
在步骤S62中,检测人声音频数据中相邻两个人声音频信号之间的时间间隔。
在步骤S63中,当相邻两个人声音频信号之间的时间间隔大于所述第一预设间隔时长时,确定相邻两个人声音频信号间之间的任一时间位置为语句起始位置。
在可选方案中,当音频数据中除了人声外,还存在背景声音(音乐、环境音等)的干扰,因此,无法根据音频信号之间的时间间隔确定语句起始位置。那么,可以按照人声通常的频率先对音频数据过滤,从而单纯对人声音频信号进行分析,根据人声音频信号之间的时间间隔确定语句起始位置,使得对语句起始位置的确定更加准确。
可选的,当根据所述音频数据和/或字幕数据确定出至少两个完整语句的语句起始位置时,在步骤S13中,包括:从距离所述暂停位置最近的语句起始位置继续播放所述多媒体;或者当预设的回退语句数量为N时,从所述暂停位置之前的第N个语句起始位置继续播放所述多媒体,所述N为大于或等于2的整数。
例如,如图2所示,分析音频数据后,得到两个语句起始位置:3分10秒和3分18秒,暂停位置为3分20秒。可以选择距离暂停位置最近的3分18秒继续播放视频,或者,如果预先设定回退语句数量为2,即回退2句话继续播放视频,则可以选择从3分10秒继续播放视频。
在可选方案中,当确定多个语句起始位置时,可以灵活选择其中一个作为暂停后继续播放音视频的起点,使得用户继续播放时可以捕捉并理解到完整的语句,视频或音频里的对话更自然,情节更连续,提高用户对视频或音频播放的体验度。
可选的,在步骤S11和步骤S12中,当根据所述多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据无法确定完整语句的语句起始位置时,该方法还包括:
按照时间从后往前的顺序,获取第一预设时长的音频数据和/或字幕数据,其中,本次获取的第一预设时长的音频数据和/或字幕数据的播放时间在上一次获取的第一预设时长的音频数据和/或字幕数据的播放时间之前;
从本次获得的该第一预设时长的音频数据和/或字幕数据中确定完整语句的语句起始位置;
若从本次获得的该第一预设时长的音频数据和/或字幕数据中无法确定完整语句的语句起始位置,则按照时间从后往前的顺序继续向前获取第一预设时长的音频数据和/或字幕数据并确定完整语句的语句起始位置,直到确定出至少一个完整语句的语句起始位置。
例如,图7是根据一示例性实施例示出的暂停位置与语句起始位置的时间轴示意图,如图7所示,用户播放视频时,暂停位置为3分20秒处,根据获取到的暂停位置之前16秒,即3分04秒至3分20秒之间的音频数据和/或字幕数据,没有得到一个完整语句的语句起始位置,可以在3分04秒之前再获取16秒,即2分48秒至3分04秒之间的音频数据和/或字幕数据进行语句起始位置的分析,直到确定出至少一个完整语句的语句起始位置。
在可选方案中,在暂停位置之前按照时间顺序获取一段时间的数据进行语句起始位置的分析,如果没有得到一个完整语句的语句起始位置,则在此之前再获取一段时间的数据进行分析,直到确定出一个语句起始位置,作为暂停后继续播放音视频的起点,使得用户继续播放时可以捕捉并理解到完整的语句,视频或音频里的对话更自然,情节更连续,提高用户对视频或音频播放的体验度。
可选的,在步骤S11中,还可以获取多媒体的暂停位置之前的、且与所述暂停位置间隔第二预设时长的时间位置;获取所述时间位置之前第一预设时长内的音频数据和/或字幕数据。
在步骤S12中,根据所述时间位置之前第一预设时长内的音频数据和/或字幕数据,确定完整语句的语句起始位置。
例如,图8是根据一示例性实施例示出的暂停位置与语句起始位置的时间轴示意图,如图8所示,暂停位置为3分20秒处,第一预设时长为16秒,第二预设时长为5秒,获取3分15秒之前16秒,即2分59秒至3分15秒之间的音频数据和/或字幕数据。经分析后得到语句起始位置为3分18秒。
在可选方案中,可以先选取到暂停位置之前一段时间例如5秒前的时间位置,以该时间位置作为往回寻找完整语句的语句起始位置的起点,使得用户可以获得提供更充裕的进入视频情节的时间。
例如,如图8所示,经分析后得到两个语句起始位置,3分10秒和3分18秒,分别在上述时间位置(3分15秒)之前和在上述时间位置和暂停位置(3分20秒)之间,这两个语句起始位置均可以用于作为暂停后继续播放音视频的起点。
在可选方案中,可以按照时间从后往前的顺序依序获取上述时间位置(3分15秒)之前至少一个16秒内的音频数据和/或字幕数据,并在每获得一个16秒内的音频数据和/或字幕数据时,从获得的该16秒内的音频数据和/或字幕数据中确定完整语句的语句起始位置,直到确定出至少一个完整语句的语句起始位置。
在可选方案中,当以暂停位置之前一段时间的时间位置作为往回寻找完整语句的语句起始位置的起点时,确定的语句起始位置可以在该时间位置之前,也可以在该时间位置与暂停位置之间,对于暂停后继续播放音视频的起点的选择更加灵活,使得用户继续播放时可以捕捉并理解到完整的语句,视频或音频里的对话更自然,情节更连续,提高用户对视频或音频播放的体验度。
下面分别以两个具体示例对本公开的多媒体播放方法进行具体说明。
示例一
图9是根据一示例性实施例示出的一种多媒体播放方法的流程图,如图9所示,该方法包括以下步骤。
在步骤S91中,在视频播放过程中发生暂停,暂停位置为5分36秒。
在步骤S92中,读取暂停位置之前16秒的音频数据,即5分20秒至5分36秒的音频数据。
在步骤S93中,根据人声频率对读取到的音频数据进行过滤,得到人声音频数据。
在步骤S94中,检测人声音频数据中相邻两个人声音频信号之间的时间间隔。
在步骤S95中,判断相邻两个人声音频信号之间的时间间隔是否大于0.1秒,如果是,则执行步骤S96;如果否,则该相邻人声音频信号之间不是语句起始位置。
在步骤S96中,确定相邻人声音频信号之间的任一时间位置为语句起始位置,得到的语句起始位置有2个,5分29秒和5分33秒。
在步骤S97中,选择距离暂停位置最近的5分33秒继续播放视频。
示例二
图10是根据一示例性实施例示出的一种多媒体播放方法的流程图,如图10所示,该方法包括以下步骤。
在步骤S101中,在视频播放过程中发生暂停,暂停位置为5分36秒。
在步骤S102中,按照时间从后往前的顺序依序读取暂停位置之前5秒,即5分31秒的时间位置之前16秒的字幕数据。
在步骤S103中,根据每次读取到的16秒的字幕数据中判断是否存在语句起始位置,如果是,执行步骤S94,如果否,返回步骤S102,读取5分15秒之前16秒的字幕数据;
在步骤S104中,得到语句起始位置有3个:5分02秒,5分09秒和5分13秒。
在步骤S105中,预先设定回退语句数量为2,则回退到5分31秒之前的2句,即5分09秒的位置继续播放视频。
在上述两个具体示例中,通过分析音频数据和/或字幕数据,可以灵活地根据确定的语句起始位置继续播放视频或音频,使得用户继续播放时可以捕捉并理解到完整的语句,视频或音频里的对话更自然,情节更连续,提高用户对视频或音频播放的体验度。
图11是根据一示例性实施例示出的一种多媒体播放装置的框图。参照图11,该装置包括获取模块111、分析模块112和播放模块113。
获取模块111被配置为获取多媒体的暂停位置之前第一预设时长的音频数据和/或字幕数据。
分析模块112被配置为根据所述获取模块获取的音频数据和/或字幕数据确定完整语句的语句起始位置。
播放模块113被配置为用于当检测到继续播放所述多媒体的指令或满足继续播放所述多媒体的条件时,根据所述分析模块确定的语句起始位置继续播放所述多媒体。
图12a是根据一示例性实施例示出的分析模块的框图。如图12a所示,可选的,所述分析模块112包括:检测单元1121和分析确定单元1122。
检测单元1121被配置为检测所述获取模块111获取的所述音频数据中相邻两个音频信号之间的时间间隔;
分析确定单元1122被配置为当所述检测单元1121检测到的相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,确定所述相邻两个音频信号之间的任一时间位置为所述语句起始位置;
图12b是根据一示例性实施例示出的分析模块的框图。如图12b所示,可选的,分析模块112包括:获取单元1123和分析确定单元1122。
获取单元1123被配置为从所述获取模块111获取的所述字幕数据中获取每条字幕的起始显示时间和/或终止显示时间。
分析确定单元1122被配置为根据所述获取单元1123获取的所述字幕的起始显示时间和/或终止显示时间确定所述语句起始位置。
图12c是根据一示例性实施例示出的分析模块的框图。如图12c所示,可选的,分析模块112包括:检测单元1121、获取单元1123和分析确定单元1122。
检测单元1121被配置为检测所述获取模块111获取的所述音频数据中每个音频信号的播放时间。
获取单元1123被配置为当所述检测单元1121检测的相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,获取所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间。
分析确定单元1122被配置为根据所述获取单元1123获取的所述相邻两个音频信号的播放时间及所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间确定所述语句起始位置。
图12d是根据一示例性实施例示出的分析模块的框图。如图12d所示,可选的,所述分析模块112还包括:过滤单元1124。
过滤单元1124被配置为根据人声频率对所述获取模块111获取的所述音频数据进行过滤,得到人声音频数据;
所述检测单元1121被配置为检测所述过滤单元1124过滤后的所述人声音频数据中相邻两个人声音频信号之间的时间间隔;
所述分析确定单元1122被配置为当所述检测单元1121检测到的相邻两个人声音频信号之间的时间间隔大于所述第一预设间隔时长时,确定所述相邻两个人声音频信号间之间的任一时间位置为所述语句起始位置。
可选的,所述播放模块113被配置为当所述分析模块112确定出至少两个完整语句的语句起始位置时,从距离所述暂停位置最近的语句起始位置继续播放所述多媒体;或者当预设的回退语句数量为N时,从所述暂停位置之前的第N个语句起始位置继续播放所述多媒体,所述N为大于或等于2的整数。
可选的,所述获取模块111被配置为当所述分析模块112根据所述多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据无法确定完整语句的语句起始位置时,按照时间从后往前的顺序,获取第一预设时长的音频数据和/或字幕数据,其中,本次获取的第一预设时长的音频数据和/或字幕数据的播放时间在上一次获取的第一预设时长的音频数据和/或字幕数据的播放时间之前。
所述分析模块112被配置为从所述获取模块111本次获得的该第一预设时长的音频数据和/或字幕数据中确定完整语句的语句起始位置;若从本次获得的该第一预设时长的音频数据和/或字幕数据中无法确定完整语句的语句起始位置,则按照时间从后往前的顺序继续向前获取第一预设时长的音频数据和/或字幕数据并确定完整语句的语句起始位置,直到确定出至少一个完整语句的语句起始位置。
可选的,所述获取模块111被配置为获取多媒体的暂停位置之前的、且与所述暂停位置间隔第二预设时长的时间位置;获取所述时间位置之前第一预设时长内的音频数据和/或字幕数据。
可选的,所述分析模块112被配置为根据所述时间位置之前第一预设时长内的音频数据和/或字幕数据,确定完整语句的语句起始位置。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图13是根据一示例性实施例示出的一种用于多媒体播放的装置1300的框图。例如,装置1300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图13,装置1300可以包括以下一个或多个组件:处理组件1302,存储器1304,电源组件1306,多媒体组件1308,音频组件1310,输入/输出(I/O)的接口1312,传感器组件1314,以及通信组件1316。
处理组件1302通常控制装置1300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1302可以包括一个或多个处理器1320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1302可以包括一个或多个模块,便于处理组件1302和其他组件之间的交互。例如,处理部件1302可以包括多媒体模块,以方便多媒体组件1308和处理组件1302之间的交互。
存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件1306为装置1300的各种组件提供电力。电力组件1306可以包括电源管理系统,一个或多个电源,及其他与为装置1300生成、管理和分配电力相关联的组件。
多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1310被配置为输出和/或输入音频信号。例如,音频组件1310包括一个麦克风(MIC),当装置1300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中,音频组件1310还包括一个扬声器,用于输出音频信号。
I/O接口1312为处理组件1302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1314包括一个或多个传感器,用于为装置1300提供各个方面的状态评估。例如,传感器组件1314可以检测到设备1300的打开/关闭状态,组件的相对定位,例如所述组件为装置1300的显示器和小键盘,传感器组件1314还可以检测装置1300或装置1300一个组件的位置改变,用户与装置1300接触的存在或不存在,装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1304,上述指令可由装置1300的处理器1320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种多媒体播放方法,包括:
获取多媒体的暂停位置之前第一预设时长的音频数据和/或字幕数据;
根据所述音频数据和/或字幕数据确定完整语句的语句起始位置;
当检测到继续播放所述多媒体的指令或满足继续播放所述多媒体的条件时,根据所述语句起始位置继续播放所述多媒体。
可选的,所述根据所述音频数据确定完整语句的语句起始位置,包括:
检测所述音频数据中相邻两个音频信号之间的时间间隔;
当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,确定所述相邻两个音频信号之间的任一时间位置为所述语句起始位置。
可选的,所述根据所述字幕数据确定完整语句的语句起始位置,包括:
获取所述字幕数据中每条字幕的起始显示时间和/或终止显示时间;
根据所述字幕的起始显示时间和/或终止显示时间确定所述语句起始位置。
可选的,所述根据所述音频数据和字幕数据确定完整语句的语句起始位置,包括:
检测所述音频数据中每个音频信号的播放时间;
当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,获取所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间;
根据所述相邻两个音频信号的播放时间及所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间确定所述语句起始位置。
可选的,所述根据所述音频数据确定完整语句的语句起始位置,包括:
根据人声频率对所述音频数据进行过滤,得到人声音频数据;
检测所述人声音频数据中相邻两个人声音频信号之间的时间间隔;
当相邻两个人声音频信号之间的时间间隔大于所述第一预设间隔时长时,确定所述相邻两个人声音频信号间之间的任一时间位置为所述语句起始位置。
可选的,当根据所述音频数据和/或字幕数据确定出至少两个完整语句的语句起始位置时,所述根据所述语句起始位置继续播放所述多媒体,包括:
从距离所述暂停位置最近的语句起始位置继续播放所述多媒体;或者
当预设的回退语句数量为N时,从所述暂停位置之前的第N个语句起始位置继续播放所述多媒体,所述N为大于或等于2的整数。
可选的,当根据所述多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据无法确定完整语句的语句起始位置时,所述方法还包括:
按照时间从后往前的顺序,获取第一预设时长的音频数据和/或字幕数据,其中,本次获取的第一预设时长的音频数据和/或字幕数据的播放时间在上一次获取的第一预设时长的音频数据和/或字幕数据的播放时间之前;
从本次获得的该第一预设时长的音频数据和/或字幕数据中确定完整语句的语句起始位置;
若从本次获得的该第一预设时长的音频数据和/或字幕数据中无法确定完整语句的语句起始位置,则按照时间从后往前的顺序继续向前获取第一预设时长的音频数据和/或字幕数据并确定完整语句的语句起始位置,直到确定出至少一个完整语句的语句起始位置。
可选的,所述获取多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据,包括:
获取多媒体的暂停位置之前的、且与所述暂停位置间隔第二预设时长的时间位置;
获取所述时间位置之前第一预设时长内的音频数据和/或字幕数据;
所述根据所述音频数据和/或字幕数据确定完整语句的语句起始位置,包括:
根据所述时间位置之前第一预设时长内的音频数据和/或字幕数据,确定完整语句的语句起始位置。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种多媒体播放方法,其特征在于,包括:
获取多媒体的暂停位置之前第一预设时长的音频数据;或者,获取多媒体的暂停位置之前第一预设时长的音频数据和字幕数据;
根据所述音频数据确定完整语句的语句起始位置;或者,根据所述音频数据和字幕数据确定完整语句的语句起始位置;
当检测到继续播放所述多媒体的指令或满足继续播放所述多媒体的条件时,根据所述语句起始位置继续播放所述多媒体;
所述根据所述音频数据确定完整语句的语句起始位置,包括:
检测所述音频数据中相邻两个音频信号之间的时间间隔;
当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,确定所述相邻两个音频信号之间的任一时间位置为所述语句起始位置,或者;
所述根据所述音频数据和字幕数据确定完整语句的语句起始位置,包括:
检测所述音频数据中每个音频信号的播放时间;
当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,获取所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间;
根据所述相邻两个音频信号的播放时间及所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间确定所述语句起始位置;
所述根据所述音频数据确定完整语句的语句起始位置,还包括:
根据人声频率对所述音频数据进行过滤,得到人声音频数据;
检测所述人声音频数据中相邻两个人声音频信号之间的时间间隔;
当相邻两个人声音频信号之间的时间间隔大于所述第一预设间隔时长时,确定所述相邻两个人声音频信号间之间的任一时间位置为所述语句起始位置。
2.根据权利要求1所述的方法,其特征在于,
当根据所述音频数据和/或字幕数据确定出至少两个完整语句的语句起始位置时,所述根据所述语句起始位置继续播放所述多媒体,包括:
从距离所述暂停位置最近的语句起始位置继续播放所述多媒体;或者
当预设的回退语句数量为N时,从所述暂停位置之前的第N个语句起始位置继续播放所述多媒体,所述N为大于或等于2的整数。
3.根据权利要求1所述的方法,其特征在于,当根据所述多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据无法确定完整语句的语句起始位置时,所述方法还包括:
按照时间从后往前的顺序,获取第一预设时长的音频数据和/或字幕数据,其中,本次获取的第一预设时长的音频数据和/或字幕数据的播放时间在上一次获取的第一预设时长的音频数据和/或字幕数据的播放时间之前;
从本次获得的该第一预设时长的音频数据和/或字幕数据中确定完整语句的语句起始位置;
若从本次获得的该第一预设时长的音频数据和/或字幕数据中无法确定完整语句的语句起始位置,则按照时间从后往前的顺序继续向前获取第一预设时长的音频数据和/或字幕数据并确定完整语句的语句起始位置,直到确定出至少一个完整语句的语句起始位置。
4.根据权利要求1所述的方法,其特征在于,所述获取多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据,包括:
获取多媒体的暂停位置之前的、且与所述暂停位置间隔第二预设时长的时间位置;
获取所述时间位置之前第一预设时长内的音频数据和/或字幕数据;
所述根据所述音频数据和/或字幕数据确定完整语句的语句起始位置,包括:
根据所述时间位置之前第一预设时长内的音频数据和/或字幕数据,确定完整语句的语句起始位置。
5.一种多媒体播放装置,其特征在于,包括:
获取模块,用于获取多媒体的暂停位置之前第一预设时长的音频数据;或者,获取多媒体的暂停位置之前第一预设时长的音频数据和字幕数据;
分析模块,用于根据所述获取模块获取的音频数据确定完整语句的语句起始位置;或者,根据所述音频数据和字幕数据确定完整语句的语句起始位置;
播放模块,用于当检测到继续播放所述多媒体的指令或满足继续播放所述多媒体的条件时,根据所述分析模块确定的语句起始位置继续播放所述多媒体;
过滤模块,用于根据人声频率对所述获取模块获取的所述音频数据进行过滤,得到人声音频数据;
检测模块,用于检测所述过滤单元过滤后的所述人声音频数据中相邻两个人声音频信号之间的时间间隔;
所述分析模块包括:
检测单元,用于检测所述获取模块获取的所述音频数据中相邻两个音频信号之间的时间间隔;
分析确定单元,用于当所述检测单元检测到的相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,确定所述相邻两个音频信号之间的任一时间位置为所述语句起始位置;
或者,所述分析模块包括:
检测单元,用于检测所述获取模块获取的所述音频数据中每个音频信号的播放时间;
获取单元,用于当所述检测单元检测的相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,获取所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间;分析确定单元,用于根据所述获取单元获取的所述相邻两个音频信号的播放时间及所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间确定所述语句起始位置。
6.根据权利要求5中所述的装置,其特征在于,所述播放模块,用于当所述分析模块确定出至少两个完整语句的语句起始位置时,从距离所述暂停位置最近的语句起始位置继续播放所述多媒体;或者当预设的回退语句数量为N时,从所述暂停位置之前的第N个语句起始位置继续播放所述多媒体,所述N为大于或等于2的整数。
7.根据权利要求5中所述的装置,其特征在于,
所述获取模块,用于当所述分析模块根据所述多媒体的暂停位置之前第一预设时长内的音频数据和/或字幕数据无法确定完整语句的语句起始位置时,按照时间从后往前的顺序,获取第一预设时长的音频数据和/或字幕数据,其中,本次获取的第一预设时长的音频数据和/或字幕数据的播放时间在上一次获取的第一预设时长的音频数据和/或字幕数据的播放时间之前;
所述分析模块,用于从所述获取模块本次获得的该第一预设时长的音频数据和/或字幕数据中确定完整语句的语句起始位置;若从本次获得的该第一预设时长的音频数据和/或字幕数据中无法确定完整语句的语句起始位置,则按照时间从后往前的顺序继续向前获取第一预设时长的音频数据和/或字幕数据并确定完整语句的语句起始位置,直到确定出至少一个完整语句的语句起始位置。
8.根据权利要求5中所述的装置,其特征在于,
所述获取模块,用于获取多媒体的暂停位置之前的、且与所述暂停位置间隔第二预设时长的时间位置;获取所述时间位置之前第一预设时长内的音频数据和/或字幕数据;
所述分析模块,用于根据所述时间位置之前第一预设时长内的音频数据和/或字幕数据,确定完整语句的语句起始位置。
9.一种多媒体播放装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取多媒体的暂停位置之前第一预设时长的音频数据;或者,获取多媒体的暂停位置之前第一预设时长的音频数据和字幕数据;
根据所述音频数据确定完整语句的语句起始位置;或者,根据所述音频数据和字幕数据确定完整语句的语句起始位置;
当检测到继续播放所述多媒体的指令或满足继续播放所述多媒体的条件时,根据所述语句起始位置继续播放所述多媒体;
所述根据所述音频数据确定完整语句的语句起始位置,包括:
检测所述音频数据中相邻两个音频信号之间的时间间隔;
当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,确定所述相邻两个音频信号之间的任一时间位置为所述语句起始位置,或者;
所述根据所述音频数据和字幕数据确定完整语句的语句起始位置,包括:
检测所述音频数据中每个音频信号的播放时间;
当相邻两个音频信号之间的时间间隔大于第一预设间隔时长时,获取所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间;
根据所述相邻两个音频信号的播放时间及所述相邻音频信号对应的字幕的起始显示时间和/或终止显示时间确定所述语句起始位置;
所述根据所述音频数据确定完整语句的语句起始位置,还包括:
根据人声频率对所述音频数据进行过滤,得到人声音频数据;
检测所述人声音频数据中相邻两个人声音频信号之间的时间间隔;
当相邻两个人声音频信号之间的时间间隔大于所述第一预设间隔时长时,确定所述相邻两个人声音频信号间之间的任一时间位置为所述语句起始位置。
CN201410250800.9A 2014-06-06 2014-06-06 多媒体播放方法及装置 Active CN104038827B (zh)

Priority Applications (10)

Application Number Priority Date Filing Date Title
CN201410250800.9A CN104038827B (zh) 2014-06-06 2014-06-06 多媒体播放方法及装置
MX2015002051A MX352076B (es) 2014-06-06 2014-11-20 Método y dispositivo de reproducción multimedia.
JP2016524682A JP2016525765A (ja) 2014-06-06 2014-11-20 マルチメディア再生方法、装置、プログラム、及び記録媒体
PCT/CN2014/091757 WO2015184738A1 (zh) 2014-06-06 2014-11-20 多媒体播放方法及装置
KR1020157001317A KR101657913B1 (ko) 2014-06-06 2014-11-20 멀티미디어 재생방법, 장치, 프로그램 및 기록매체
RU2015105625/08A RU2605361C2 (ru) 2014-06-06 2014-11-20 Способ и устройство воспроизведения мультимедиа
BR112015003350A BR112015003350A2 (pt) 2014-06-06 2014-11-20 método e dispositivo de reprodução de multimídia
US14/620,508 US9589596B2 (en) 2014-06-06 2015-02-12 Method and device of playing multimedia and medium
EP15170892.2A EP2953133B1 (en) 2014-06-06 2015-06-05 Method and device of playing multimedia
US15/411,765 US9786326B2 (en) 2014-06-06 2017-01-20 Method and device of playing multimedia and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410250800.9A CN104038827B (zh) 2014-06-06 2014-06-06 多媒体播放方法及装置

Publications (2)

Publication Number Publication Date
CN104038827A CN104038827A (zh) 2014-09-10
CN104038827B true CN104038827B (zh) 2018-02-02

Family

ID=51469394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410250800.9A Active CN104038827B (zh) 2014-06-06 2014-06-06 多媒体播放方法及装置

Country Status (9)

Country Link
US (2) US9589596B2 (zh)
EP (1) EP2953133B1 (zh)
JP (1) JP2016525765A (zh)
KR (1) KR101657913B1 (zh)
CN (1) CN104038827B (zh)
BR (1) BR112015003350A2 (zh)
MX (1) MX352076B (zh)
RU (1) RU2605361C2 (zh)
WO (1) WO2015184738A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038827B (zh) 2014-06-06 2018-02-02 小米科技有限责任公司 多媒体播放方法及装置
CN107181986A (zh) * 2016-03-11 2017-09-19 百度在线网络技术(北京)有限公司 视频与字幕的匹配方法和装置
CN108885869B (zh) * 2016-03-16 2023-07-18 索尼移动通讯有限公司 控制包含语音的音频数据的回放的方法、计算设备和介质
CN105959829A (zh) * 2016-06-24 2016-09-21 封雷迅 一种用于逐句复读的视频播放方法及工具
CN106373598B (zh) * 2016-08-23 2018-11-13 珠海市魅族科技有限公司 音频重播的控制方法和装置
CN107886939B (zh) * 2016-09-30 2021-03-30 北京京东尚科信息技术有限公司 一种在客户端的中止-接续式文本语音播放方法和装置
AU2016428136A1 (en) * 2016-10-25 2019-05-23 Rovi Guides, Inc. Systems and methods for resuming a media asset
US10893319B2 (en) 2016-10-25 2021-01-12 Rovi Guides, Inc. Systems and methods for resuming a media asset
WO2019084181A1 (en) * 2017-10-26 2019-05-02 Rovi Guides, Inc. SYSTEMS AND METHODS FOR RECOMMENDING PAUSE POSITION AND RESUME READING MULTIMEDIA CONTENT
US10362354B2 (en) 2017-10-26 2019-07-23 Rovi Guides, Inc. Systems and methods for providing pause position recommendations
CN108156514B (zh) * 2017-12-27 2020-07-07 Oppo广东移动通信有限公司 媒体文件的播放方法、装置及存储介质
CN108830551A (zh) * 2018-05-25 2018-11-16 北京小米移动软件有限公司 日程提示方法及装置
CN108989897A (zh) * 2018-08-13 2018-12-11 封雷迅 一种按字幕逐句复读的视频播放方法、存储设备及终端
US11113229B2 (en) * 2019-06-03 2021-09-07 International Business Machines Corporation Providing a continuation point for a user to recommence consuming content
CN110598012B (zh) * 2019-09-23 2023-05-30 听典(上海)教育科技有限公司 一种音视频播放的方法及多媒体播放装置
CN111128254B (zh) * 2019-11-14 2021-09-03 网易(杭州)网络有限公司 音频播放方法、电子设备及存储介质
US11514938B2 (en) * 2020-08-19 2022-11-29 Western Digital Technologies, Inc. Data storage device reducing wake latency for magnetic tape
US11647257B2 (en) 2020-10-29 2023-05-09 International Business Machines Corporation Pause playback of media content based on closed caption length and reading speed
CN113886612A (zh) * 2020-11-18 2022-01-04 北京字跳网络技术有限公司 一种多媒体浏览方法、装置、设备及介质
CN112309427B (zh) * 2020-11-26 2024-05-14 北京达佳互联信息技术有限公司 语音回退方法及其装置
CN112712825B (zh) * 2020-12-30 2022-09-23 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN112822552B (zh) * 2021-01-11 2023-06-09 湖南新云网科技有限公司 多媒体资源加载方法、装置、设备及计算机存储介质
US20240236438A1 (en) * 2021-06-02 2024-07-11 Lg Electronics Inc. Display apparatus and operating method therefor
CN113656550A (zh) * 2021-08-19 2021-11-16 中国银行股份有限公司 一种智能外呼方法及装置、存储介质及电子设备

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08275205A (ja) * 1995-04-03 1996-10-18 Sony Corp データ符号化/復号化方法および装置、および符号化データ記録媒体
WO2001003388A1 (en) * 1999-07-06 2001-01-11 At & T Laboratories Cambridge Ltd. A thin multimedia communication device and method
JP3754269B2 (ja) * 2000-04-18 2006-03-08 三洋電機株式会社 映像信号再生装置
US20090282444A1 (en) * 2001-12-04 2009-11-12 Vixs Systems, Inc. System and method for managing the presentation of video
KR100456441B1 (ko) * 2002-01-18 2004-11-09 주식회사 휴맥스 저장 매체에 저장된 서비스의 중지 시점부터 서비스를제공하는 방법 및 장치
JP2003307997A (ja) * 2002-04-15 2003-10-31 Sony Corp 語学教育システム、音声データ処理装置、音声データ処理方法、音声データ処理プログラム、及び記憶媒体
WO2004025651A1 (ja) * 2002-09-12 2004-03-25 Matsushita Electric Industrial Co., Ltd. 記録媒体、再生装置、プログラム、再生方法、記録方法
JP2004157457A (ja) * 2002-11-08 2004-06-03 Nissan Motor Co Ltd 音声提示装置
TW200537941A (en) * 2004-01-26 2005-11-16 Koninkl Philips Electronics Nv Replay of media stream from a prior change location
JP4247626B2 (ja) * 2005-01-20 2009-04-02 ソニー株式会社 再生装置および再生方法
JP2006208866A (ja) * 2005-01-28 2006-08-10 Sun Corp 再生装置
JP4622728B2 (ja) * 2005-08-03 2011-02-02 カシオ計算機株式会社 音声再生装置および音声再生処理プログラム
CN1956504A (zh) * 2005-10-26 2007-05-02 其乐达科技股份有限公司 影音播放系统的句子分离方法
US8731914B2 (en) * 2005-11-15 2014-05-20 Nokia Corporation System and method for winding audio content using a voice activity detection algorithm
US9411781B2 (en) * 2006-01-18 2016-08-09 Adobe Systems Incorporated Rule-based structural expression of text and formatting attributes in documents
JP2007235543A (ja) * 2006-03-01 2007-09-13 Funai Electric Co Ltd 光ディスク装置
DE602006020188D1 (de) * 2006-05-08 2011-03-31 Thomson Licensing Verfahren zur wiederaufnahme der inhaltswiedergabe über einrichtungen hinweg mittels lesezeichen.
WO2008064358A2 (en) * 2006-11-22 2008-05-29 Multimodal Technologies, Inc. Recognition of speech in editable audio streams
JP5026294B2 (ja) 2008-01-29 2012-09-12 京セラ株式会社 コンテンツ再生装置
CN101588470B (zh) * 2008-05-20 2013-05-29 深圳市同洲电子股份有限公司 一种ip-qam视频点播系统的时移暂停方法、系统及设备
US8737806B2 (en) 2008-11-13 2014-05-27 Mitsubishi Electric Corporation Reproduction device and reproduction method
BRPI0922046A2 (pt) * 2008-11-18 2019-09-24 Panasonic Corp dispositivo de reprodução, método de reprodução e programa para reprodução estereoscópica
CN101963968A (zh) * 2009-07-24 2011-02-02 艾比尔国际多媒体有限公司 多媒体辨识系统与方法,及其应用的多媒体客制化方法
US8755921B2 (en) * 2010-06-03 2014-06-17 Google Inc. Continuous audio interaction with interruptive audio
JP2012004722A (ja) 2010-06-15 2012-01-05 Panasonic Corp コンテンツ再生装置、コンテンツ再生方法、およびコンテンツ再生プログラム
US9355683B2 (en) * 2010-07-30 2016-05-31 Samsung Electronics Co., Ltd. Audio playing method and apparatus
US20130103770A1 (en) * 2011-10-25 2013-04-25 Microsoft Corporation Distributed semi-synchronized event driven playback of multimedia
KR101830656B1 (ko) * 2011-12-02 2018-02-21 엘지전자 주식회사 이동 단말기 및 이의 제어방법
US20140253702A1 (en) * 2013-03-10 2014-09-11 OrCam Technologies, Ltd. Apparatus and method for executing system commands based on captured image data
US9462032B2 (en) * 2013-07-24 2016-10-04 Google Inc. Streaming media content
CN104038827B (zh) * 2014-06-06 2018-02-02 小米科技有限责任公司 多媒体播放方法及装置

Also Published As

Publication number Publication date
EP2953133A1 (en) 2015-12-09
MX352076B (es) 2017-11-08
US9589596B2 (en) 2017-03-07
KR101657913B1 (ko) 2016-09-19
US20170133060A1 (en) 2017-05-11
CN104038827A (zh) 2014-09-10
BR112015003350A2 (pt) 2017-07-04
KR20160003619A (ko) 2016-01-11
WO2015184738A1 (zh) 2015-12-10
EP2953133B1 (en) 2019-08-07
US9786326B2 (en) 2017-10-10
RU2015105625A (ru) 2016-09-10
US20150356997A1 (en) 2015-12-10
JP2016525765A (ja) 2016-08-25
RU2605361C2 (ru) 2016-12-20
MX2015002051A (es) 2016-10-28

Similar Documents

Publication Publication Date Title
CN104038827B (zh) 多媒体播放方法及装置
CN107396177A (zh) 视频播放方法、装置及存储介质
CN104991754B (zh) 录音方法及装置
CN105306931A (zh) 智能电视异常检测方法及装置
CN103916711A (zh) 一种播放视频信号的方法及装置
CN104184870A (zh) 通话记录标记方法、装置及电子设备
CN104793843B (zh) 桌面显示方法及装置
CN105845124A (zh) 音频处理方法及装置
CN104461348A (zh) 信息选取方法及装置
CN105447109A (zh) 关键字词搜索方法及装置
CN106503131A (zh) 获取兴趣信息的方法及装置
CN108108671A (zh) 产品说明信息获取方法及装置
CN107333182A (zh) 多媒体文件的播放方法及装置
CN104168422A (zh) 处理图像的方法及装置
CN107147957A (zh) 视频播放方法和装置
CN107239351A (zh) 粘贴方法及装置
US9412380B2 (en) Method for processing data and electronic device thereof
CN104679386A (zh) 录音处理的方法和装置
CN106792118A (zh) 多媒体文件的播放方法及装置
CN106603381A (zh) 处理聊天信息的方法及装置
CN104182039A (zh) 设备控制方法、装置及电子设备
CN106782625A (zh) 音频处理方法和装置
CN105677711A (zh) 信息显示方法和装置
CN104836880A (zh) 联系人头像处理方法及装置
CN108600625A (zh) 图像获取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant