CN108885869A - 控制包含语音的音频数据的回放 - Google Patents
控制包含语音的音频数据的回放 Download PDFInfo
- Publication number
- CN108885869A CN108885869A CN201680083591.0A CN201680083591A CN108885869A CN 108885869 A CN108885869 A CN 108885869A CN 201680083591 A CN201680083591 A CN 201680083591A CN 108885869 A CN108885869 A CN 108885869A
- Authority
- CN
- China
- Prior art keywords
- sentence
- audio data
- starting point
- audio
- current time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
一种控制方法,该控制方法提高在计算设备上回放包含语音的音频数据期间用户在所述音频数据中导航的能力。所述控制方法由所述计算设备中的处理器执行,并且包括以下步骤:在所述计算设备上操作(51)媒体播放器,以播放所述音频数据;检测(52)用于在所述音频数据中前进或后退的用户发起的时移命令;以及在所述音频数据中的当前时间处检测到所述时移命令之后,标识(55)所述音频数据中的句子的起始点,并且操作(56)所述媒体播放器从所述起始点处播放所述音频数据。
Description
技术领域
本发明一般涉及用于控制数字音频数据的回放的技术,特别地,此种音频数据包含口语。
背景技术
在现代社会,许多人具有包括能够播放数字音频文件的媒体播放器的至少一台数字设备。此种数字设备包括移动电话、便携式媒体播放器、平板电脑、膝上型电脑、个人电脑、网络扬声器、汽车娱乐系统、家庭娱乐系统等。
包含语音的数字音频文件已经越来越受欢迎,并且通过互联网可用于下载或在线流传输。此种包含语音的音频文件包括:所谓的音频书籍或有声读物,该音频书籍或有声读物是被大声读出来的文学文本的记录;以及所谓的播客,该播客是插曲式系列音频记录。
数字设备通常具有命令接口,该命令接口允许数字设备的用户例如通过启动命令接口中的专用按钮或图标控制音频文件的回放。例如,用户可以随意暂停和恢复音频文件的回放。许多命令接口还允许用户以快于音频文件的正常回放速度的速度快进或快退音频文件,并且在音频文件中快进或快退诸如15秒的给定时间步长。
在播放包含语音的音频文件时的一个问题是:如果回放被暂停较长的时间,则对听众而言可能会丢失当前上下文。用户在暂停之后恢复音频文件的回放时,一些媒体播放器通过将回放自动倒回固定的时间步长(例如,15秒或30秒)来解决这个问题。
然而,仍然需要提高用户控制包含语音的音频文件的回放的能力。
发明内容
本发明的目的在于至少部分克服现有技术的一个或更多个限制。
另一目的在于提高用户在计算设备上在回放期间在包含语音的音频数据中进行导航的能力。
其它目的在于提高在暂停之后恢复包含语音的音频数据的回放时察觉音频数据的当前上下文的用户能力。
这些目的中的一个或更多个以及从下面的描述可能出现的其它目的至少部分地通过在计算设备上控制包含语音的音频数据的回放的方法、计算机可读介质、以及用于回放包含语音的音频数据的计算设备来实现,其实施方式由从属权利要求所限定。
本发明的第一方面是在包含处理器的计算设备上控制包含语音的音频数据的回放的方法。该方法由计算设备中的处理器执行并且包含以下步骤:在计算设备上操作媒体播放器以播放音频数据;检测用于在音频数据中前进或后退的用户发起的时移命令;以及在音频数据中的在当前时间处检测到时移命令后,标识出音频数据中的句子的起始点,并且操作媒体播放器以从起始点处播放音频数据。
第一方面确保,在用户发起的时移命令之后,计算设备上的包含语音的音频数据的回放在音频数据中的口语的句子的开端处开始。这将提高用户在计算设备上在音频数据进行导航的能力,因为它允许用户在自动跳过音频数据中的沉默、噪音和音乐部分时在音频数据中进行前进或后退。
第一方面同样使得可以在检测到用于后退的用户发起的时移命令之后,自动将音频数据的回放退回至音频数据中的句子的起始点。这将提高用户在命令计算设备在暂停之后恢复音频数据的回放时察觉音频数据的当前上下文的能力。第一方面还使得能够操作媒体播放器重播被选择为总结音频数据中的在前时间段的信息内容的句子。
第一方面还使得能够考虑音频数据中的语音的上下文和结构进行进一步高级形式的导航。例如,下面提出的实施方式使得用户可以按句子、按段落、按章节、按讲话者、按话题等在音频数据中进行前进或后退。
在一个实施方式中,基于音频数据的自然语言处理来标识句子的起始点。自然语言处理可以(但不必)作为第一方面的方法的一部分由处理器执行。自然语言处理可以包括对音频数据操作句子分割算法。另选地或另外地,自然语言处理可以包括以下步骤:通过对音频数据操作语音识别算法来生成与音频数据相对应的文本,并且通过对文本操作句子分割算法来将文本分割成句子。
在一个后退的实施方式中,时移命令指示在音频数据中后退,并且其中,起始点被标识为下列项中的一个:与音频数据中的在当前时间的当前话题有关的一组连续句子的起始点、与当前时间有预定关系的一组连续句子的起始点、与在当前时间的当前讲话者相关联的一组连续句子或紧在与当前讲话者相关联的一组连续句子之前的与另一讲话者相关联的一组连续句子的起始点、以及提供音频数据中的在当前时间之前的时间段的内容总结的一组连续句子的起始点。在一个示例中,预定关系被限定为使得一组连续句子包括在当前时间处最近开始的句子。
在一个后退的实施方式中,起始点、一组连续句子中的连续句子的数目、一组句子中的句子的数目以及时间段中的至少一个作为控制变量的函数被获得,该控制变量包含下列中的一个或更多个:当前时间的文本复杂度指数、指示音频数据中的在当前时间的口语的复杂度的文本复杂度指数、音频数据的种类分类、在通过暂停触发了所述时移命令的情况下的所述媒体播放器的暂停持续时间、针对一组不同用户在音频数据中在当前时间处时移命令的发生率、以及与计算设备的命令接口的用户交互,诸如与命令接口的用户交互的持续时间、施加到命令接口的压力的程度、或对命令接口上的多个命令元件当中的一个命令元件的用户选择。
在一个前进的实施方式中,时移命令指示在音频数据中前进,并且其中,起始点被标识为下列中的一个:与不同于音频数据中的在当前时间的当前话题的话题有关的句子的起始点、与当前时间有预定关系的句子的起始点、以及与不同于当前时间的当前讲话者的讲话者相关联的句子的起始点。在一个示例中,预定关系作为在当前时间之后开始的句子的计数(count)来给出。
在一个前进或后退的实施方式中,该方法还包括:向音频数据中的句子分配相应话题标识符,为标识起始点,该方法还包括:通过分配给音频数据中的在当前时间的最近开始的句子的话题标识符来标识当前话题,以及基于当前话题在话题标识符中进行搜索以标识起始点。该方法还包括:对由语音识别算法生成的文本操作话题分割算法,以向音频数据中的句子分配相应话题标识符。
在一个前进或后退的实施方式中,该方法还包括:向音频数据中的句子分配相应讲话者标识符,为标识起始点,该方法还包括:通过分配给音频数据中的最近开始的句子的讲话者标识符来标识当前的讲话者,以及基于当前讲话者在讲话者标识符中进行搜索以标识起始点。此外,该方法可以包括:对音频数据操作语音识别算法,以向音频数据中的句子分配相应讲话者标识符。
在一个后退的实施方式中,该方法还包括:在音频数据中的时间段内,对通过语音识别算法生成的文本操作自动总结算法,以生成内容总结。
在一个前进或后退的实施方式中,该方法还包括:在音频数据中针对音频数据中的口语的句子标识起始时间,并且将该起始时间存储在处理器可以访问的电子存储器中,在检测到时移命令后,该方法还包括以下步骤:基于当前的时间并且考虑到时移命令搜索电子存储器,以在与音频数据中的口语的句子相对应的起始时间中标识起始点,以及在该起始点处播放音频数据以便播放音频数据中的起始点之后的一个或更多个句子。在一个实施方式中,文本包含一系列字词,并且字词与相应时间点相关联地被存储在电子存储器中,以及在音频数据回放之前或在音频数据回放期间,对字词操作句子分割算法,以将字词分割成句子并标识起始时间。
在一个前进或后退的实施方式中,通过检测与计算设备的命令接口中的专用控制元件的用户交互来检测时移命令。
在一个后退的实施方式中,时移命令指示在音频数据中后退,并且通过检测用于暂停音频数据的回放的指令来检测时移命令。
本发明的第二方面是包括计算机指令的计算机可读介质,该计算机指令在被处理器执行使处理器执行第二方面或其实施方式中的任一个的方法。
本发明的第三方面是用于回放包含语音的音频数据的计算设备。该计算设备被配置成:在计算设备上操作媒体播放器,以播放音频数据;检测用于在音频数据中前进或后退的用户发起的时移命令;以及在音频数据中在当前时间处检测到时移命令之后,标识音频数据中的句子的起始点,并操作媒体播放器从该起始点处播放音频数据。
第三方面的计算设备可以另选地被限定为包括:用于在计算设备上操作媒体播放器以播放音频数据的装置;用于检测用于在音频数据中前进或后退的用户发起的时移命令的装置;用于在音频数据中在当前时间检测到时移命令之后,标识音频数据中的句子的起始点的装置;以及用于操作媒体播放器以从该起始点处播放音频数据的装置。
第二方面和第三方面共享第一方面的优点。第一方面的上述实施方式中的任何一个可以被修改和实现为第二方面和第三方面的实施方式。
此外,本发明的其它目的、特征、方面以及优点从以下详细的说明书、所附权利要求和附图将是显而易见的。
附图说明
现在将参考所附示意图更详细地描述本发明的实施方式。
图1是用于播放音频数据的计算设备的示意图。
图2示出图1的计算设备的命令接口的第一示例。
图3A至图3B示出图1的计算设备的命令接口的第二示例。
图4是用于音频数据的预备处理的方法的流程图。
图5是根据本发明的一个实施方式的在图1的计算设备上操作媒体播放器的方法的流程图。
图6是图5的方法应用于音频文件中的时间序列的字词和句子的示意图。
图7示出图5的方法中选择句子的步骤。
图8是根据本发明的另一实施方式的在图1的计算设备上操作媒体播放器的方法的流程图。
图9是图8的方法应用于音频文件中的时间序列的字词和句子的示意图。
图10是图1的计算设备的示例架构的框图。
具体实施方式
在下文中将参考附图充分描述本发明的实施方式,在附图中示出了本发明的一些但并非全部的实施方式。实际上,本发明可以以许多不同的形式被具体体现并且不应被解释为仅限于本文阐述的实施方式;相反,提供这些实施方式,以使得本公开能够满足可应用的法律要求。自始至终使用类似的附图标记指代类似元件。
另外,应理解,在可能的情况下,此处描述的和/或预期的本发明的任何实施方式的任何优点、特征、功能、设备、和/或操作方面可以被包括在此处描述的和/或预期的本发明的其它实施方式中的任一个中,和/或反之亦然。另外,在可能的情况下,此处以单数形式被表达的任何术语旨在还包括复数形式和/或反之亦然,除非另有明确说明。如此处所使用的,“至少一个”将意味着“一个或更多个”并且这些短语旨在是可互换的。由此,即便此处也使用短语“一个或更多个”或“至少一个”,术语“一”(a)和/或“一”(an)仍将意味着“至少一个”或“一个或更多个”。如此处所使用的,除上下文要求的情况外,否则由于表达语言或必要的含义,“包含”一词或诸如“包含”(“comprises”)或“包含”(“comprising”)的变形在包含性意义中使用,即指定所述特征的存在,但不排除在本发明的各种实施方式中的其它特征的存在或添加。
本发明的实施方式旨在以下技术:提高当在计算设备上操作媒体播放器以回放包含语音的音频数据时的用户体验,特别地,通过启用音频数据的回放的上下文时移。如此处所使用的,回放的“时移”导致音频数据中的前进或后退,即音频数据的回放关于音频数据中的当前时间点在时间上向前或者向后移动。在确定时移的大小时,“上下文时移”会考虑音频数据中在当前时间处和当前时间附近的口语的结构,以及可能地其意义。在一般水平上,通过标识音频数据中的口语句子,并将回放移动到音频数据中的句子中一个句子的起始点来实现上下文的时移。可以基于不同的标准来选择起始点,这将在下文更详细地描述。
在更详细地描述本发明的实施方式之前,将给出几个其它定义。
如此处所使用的,正如本领域众所周知的,“音频数据”是指以用任何音频编码格式的数字形式进行编码并可以不被压缩或被压缩的音频信号。音频数据可以作为音频编码格式的比特流或被嵌入到具有限定的存储层的文件中而被提供给计算设备。此类音频格式包括但不限于WAV、AIFF、AU、RAW音频、FLAC、WavPack、音频转换软件(Monkey’s Audio)、ALAC、MPEG-4SLS、MPEG-4ALS、MPEG-4DST、无损WMA、缩短(Shorten)、Opus、MP3、Vorbis、Musepack、AAC、ATRAC、有损WMA等。
如此处所使用的,“媒体播放器”是可以操作播放数字媒体数据(包括但不限于音频数据)的计算机程序。
如此处所使用的,“语音”涉及基于字词的句法组合的人类沟通的发声形式。每个口语字词都是由人体语音器官生成的元音和辅音语音声音单元的有限集合的音标组合创建而成的。
如此处所使用的,“包含语音的音频数据”是包含语音并且能够全部或部分被存储在电子存储器中的任何形式的音频数据。这类音频数据包括但不限于有声读物、播客、包括广播剧的无线电传输,以及用于电影、电视传输、视频游戏等的音轨。
如此处所使用的,“自然语言处理”(NLP)被给予了它的普通含义,并且指的是用于处理自然语言(即通过使用和重复在人类中自然发展而不具有任何其自己的有意识的计划或预谋的语言)的基于计算机的技术。NLP包括但不限于用于字词和句子标记化、文本分类和情感分析、拼写纠正、信息提取、解析、文本挖掘、问题回答和自动总结的计算机算法和技术。
如此处所使用的,“语音识别”(SR)被给予了它的普通含义,并且指的是用于识别和将口语翻译成计算机可读文本的NLP算法或技术。SR也称为“自动语音识别”(ASR)、“计算机语音识别”或“语音到文本”(STT)。在本领域中许多算法是已知的,例如,正如Arora等人发表在International Journal of Computer Applications,60(9):34-44,2012的文章“Automatic Speech Recognition:A Review”以及其中所引用的参考文献中所提出的。语音识别导致有序的文本项序列,通常是字词。
如此处所使用的,“句子分割”被给予它的普通含义,并且指的是用于通过计算机程序将语音或文本划分为其组成句子的NLP算法或技术。句子分割还表示句子标记化、句子边界检测和句子划分。句子分割算法可以对文本进行操作(基于语言学的算法)和/或对音频进行操作(基于声学的算法)。对音频进行操作的算法可以派生和分析语音的一个或更多个韵律变量,诸如暂停、音调、持续时间、音量和音色。在本领域中许多基于语言学和基于声学的算法都是已知的,例如,正如Read等人发表在Proceedings of COLING 2012:Posters,pp 985–994,2012的文章“Sentence Boundary Detection:A Long Solved Problem?”以及Jamil等人发表在Fifth International Conference on Intelligent Systems,Modelling and Simulation,pp 311-317,2014的文章“Prosody-Based SentenceBoundary Detection of Spontaneous Speech”以及其中所引用的参考文献所描述的。
如此处所使用的,“句子”的含义是固有地被链接至句子分割算法,即句子被定义为由句子分割算法所产生的文本单元。因此,此文本单元是通过算法标识的明显的句子。根据句子分割算法的实现,例如,该文本单元可以是由一个或更多个语法连接的字词组成的语言单元、具有主语和谓语的从句、表达、或被有意图地聚成组以表达陈述、疑问、感叹、请求、命令或建议等的字词。
如此处所使用的,“话题分割”被给予了它的普通含义,并且指的是用于通过计算机程序来分析包含多个话题的文本部分以及自动发现这些话题的NLP算法和技术。如此处所使用的,“话题”术语被给予了它的语言学中的常见含义。因此,句子的话题是所被谈论的内容。在语言学的领域中,话题还指的是题目。例如,在本领域中许多话题分割算法都是已知的,例如,正如Reynar等人在论文“Topic Segmentation:Algorithms andApplications”以及其中所引用的参考文献中所提出的。
如此处所使用的,“自动总结”被给予了它的普通含义,并且指的是用于通过计算机程序来自动减少文本部分以创建保留该文本部分的最重要的要点的总结的NLP算法和技术。这些算法和技术可以考虑诸如长度、书写风格和语法的变量。如此处所使用的自动总结的目标是发现文本部分的有代表性的子集,特别地,从该文本部分中进行选择,以创建含有整个文本部分的信息的短段总结。在本领域中许多算法都是已知的,例如,正如卡耐基梅隆大学的语言技术研究所的Das和Martins等人在文章“Asurvey on Automatic TextSummarization”以及其中所引用的参考文献中所提出的。
如此处所使用的,“语言识别”被给予了它的普通含义,并且指的是用于基于语音的特性(语音生物测量学)在不同讲话者之间进行区分的基于计算机的算法和技术。其又被称为讲话者识别和讲话者分类(diarization)。在本领域中许多算法都是已知的,例如,正如Anguera等人发表在IEEE Transactions On Acoustics Speech and LanguageProcessing(TASLP),pp 1-15,2010的文章“Speaker diarization:A review of recentresearch”以及其中所引用的参考文献中所提出的。
如此处所使用的,“问题检测”被给予了它的普通含义,并且指的是用于标识文本或音频中的问题的基于计算机的算法和技术。例如,在对文本进行操作时,算法可以搜索疑问词。例如,在对音频进行操作时,算法可以提取和分析语音的一个或更多个韵律变量。在本领域中许多算法都是已知的,例如,正如Margolis和Ostendorf等人发表在Proceedingsof the 49th Annual Meeting of the Association for Computational Linguistics:short papers,pp118–124,2011的文章“Question Detection in Spoken ConversationsUsing Textual Conversations”和Shriberg等人发表在Language and Speech,41(34):439-487,1998的文章“Can Prosody Aid the Automatic Classification of DialogActs in Conversational Speech?”以及其中所引用的参考文献中所提出的。
如此处所使用的,“可读性测试”被给予了它的普通含义,并且指的是用于评估文本的可读性的基于计算机的算法和技术,例如,通过对音节、字词和句子计数,以及可选地,还通过考虑句法或语义的复杂度,来进行评估。
图1示出被配置成接收和播放音频数据A的计算设备。在图1中,音频数据A被示出为文件并且在下文中将被表示为“音频文件”。计算设备1经由数据接口2接收音频文件A。数据接口2可以是用于与存储音频文件A的外部设备无线连接的无线接口,或与此类外部设备进行物理互连的端口,可选地,通过电线进行物理互连。
计算设备1还包括处理器3和电子存储器4。存储器4存储计算机程序(“媒体播放器程序”),当由处理器3运行计算机程序时,该计算机程序会使得计算设备1作为媒体播放器而操作。通过使计算设备1向音频输出单元5提供相应的电信号,媒体播放器可操作播放音频文件A。音频输出单元5可以是扬声器、音频插座或无线发射器。
音频文件A通常被传送到计算设备1以在存储器4中本地存储。例如,完整的音频文件可以在回放之前被传送并被存储在存储器4中。另选地,可以在回放期间例如,通过所谓的渐进下载进行传送。然而,还可以想到,将音频文件A从外部设备传送到计算设备1,而没有存储器4中的本地存储。在一个这样的示例中,外部设备是存储音频文件A的便携式存储器(诸如闪存驱动器)。当便携式存储器被连接到数据接口2时,处理器3从便携式存储器处访问音频文件A并且示例化媒体播放器,以直接从便携式存储器处播放音频文件A。
计算设备1还包括具有用于控制计算设备1(包括媒体播放器的操作)的专用控制元件的用户接口或命令接口6。命令接口6可以是固定的,其中,控制元件是被永久地指派了媒体播放器的各控制功能的机械按钮。另选地或另外地,命令接口6可以是动态地,其中,控制元件是显示在屏幕上的、例如通过用户触摸屏幕或通过用户操作触控板或鼠标供用户选择的图形化元件或图标。
图2示出了用于控制媒体播放器的命令接口6的第一示例。命令接口6可以是固定的或者是动态的,并且包括用于开始回放音频文件A的控制元件7A(“开始元件”)、用于暂停回放的控制元件7B(“暂停元件”)以及用于在音频文件A的前进方向上时移回放的控制元件7C(“快进元件”)。
图3A至图3B示出了用于控制媒体播放器的命令接口6的第二示例。命令接口6是动态的,并且控制元件7A至图7C的布局是根据媒体播放器的操作状态而进行改变的。特别地,如图3A所示,当停止/暂停回放时,命令接口6包括用于开始回放的控制元件7A以及用于快进的控制元件7C。在回放期间,命令接口6反而包括用于暂停回放的控制元件7B以及用于快进的控制元件7C。
本发明的实施方式涉及用于通过媒体播放器控制音频文件A的回放的控制程序。该控制程序可以是媒体播放器程序的一部分或与媒体播放器程序相分离。控制程序响应于经由命令接口6输入的命令,以操作媒体播放器。在一个实施方式中,控制程序通过检测到暂停音频文件A的回放的命令来推断在音频文件A中后退的命令。因此,当用户在启动图2至图3中的暂停元件7A之后启动开始元件7B时,计算设备1将自动倒回音频文件A的回放。在另一个实施方式中,控制程序通过检测到用户启动快进元件7C来推断在音频文件中前进的命令。
应强调,图2至图3仅仅作为示例被给出,并且命令接口6可以具有其它的配置和/或包括其它的或另外的控制元件。例如,控制接口6可以包括用于在音频文件A的后退方向上时移回放的专用控制元件(“快退元件”)。因此,控制程序可以通过检测到用户启动此类快退元件来推断在音频文件中后退的命令。
计算设备1可以是能够执行用于音频文件A的回放的媒体播放器程序的任何类型的装置,包括但不限于移动电话、个人电脑、膝上型电脑、平板电脑、便携式电脑,网络扬声器、家庭娱乐系统、汽车娱乐系统、游戏控制器等。
在下文中,将结合图4至图9来例示本发明的实施方式,其中,图4示出音频文件A的预备处理的方法,图5至图7示出基于预备处理的输出在音频文件A中后退的方法,以及图8至图9示出基于预备处理的输出在音频文件A中前进的方法。
在图4的示例中,预备处理40由处理器3执行,并且在回放之前,对整个音频文件A操作预备处理40,以生成音频文件的上下文数据。如图4所示,可以结合计算设备1的存储器4和/或结合能够访问计算设备1的外部存储器(未示出)(例如,上述外部设备中的存储器)来操作预备处理40。在其它另选中,预备处理40独立于计算设备1被执行,然后产生的上下文数据例如作为音频文件A中的或单独的数据文件中的元数据被传送到计算设备1。下面参考图5讨论预备处理40的其它另选。
图4中的预备处理40旨在标识音频文件A中的单个句子和关联的起始时间,以及在音频文件A中的不同的讲话者和话题之间进行区分。
在步骤41中,从存储器4处检索音频文件A,并且通过对音频文件A操作语音识别算法使音频文件A经受语音到文本的处理。步骤41的输出是时间顺序的字词。在步骤42中,字词被加盖时间戳,以将各字词与音频文件A的时间帧中的时间点相关联。尽管未在图4中示出,加盖了时间戳的字词可以被存储在存储器4中。在步骤43中,对加盖了时间戳的字词操作句子分割算法,以标识单个的句子Si。步骤44向各句子Si分配起始时间ti。起始时间ti可以作为各句子Si中的第一个字词的时间戳的函数被给出。根据实现,步骤44还可以向各句子Si分配结束时间(作为各句子Si中的最后一个字词的时间戳的函数而被给出)。步骤44还将句子和起始时间(以及可选地,结束时间)之间的关联存储在存储器4中的数据库中。该关联可以是含蓄的或明确的。应注意,步骤44不必像这样将句子存储在存储器4中。
在步骤45中,从存储器4中检索音频文件A,并且对音频文件A操作语音识别算法,以在不同讲话者之间进行区分。步骤45可以针对音频文件中的各时间段产生讲话者ID,其中,每一个不同的讲话者ID代表不同的讲话者。步骤46例如通过将时间段与句子的起始时间和结束时间相匹配来处理语音识别算法的输出,并且向每个句子分配讲话者ID。步骤46还将句子和讲话者ID(在图4中用SPi表示)之间的关联存储在存储器4中的数据库中。
在步骤47中,对通过步骤31至32生成的加盖了时间戳的字词(可选地,被组织成通过步骤33所标识的句子)操作话题分割算法,以在音频文件A中的不同话题之间进行区分。步骤48处理话题分割算法的输出,并且向每个句子分配话题ID。步骤48还将句子和话题ID(在图4中用Ti表示)之间的关联存储在存储器4中的数据库中。
在完成步骤41至48之后,存储器4中的数据库包含上下文数据,当在计算设备1上操作媒体播放器以播放音频文件A时,该上下文数据被控制程序使用。该上下文数据关于一系列字词(每个字词由沿着音频文件的时间线排列的小正方形代表)在图6的顶部被示意性地描述。字词被分组成用S1至S12标出的句子。每个句子被分配了用t1至t12标出的各起始时间。这些句子依次与用SP1和SP2标出的各讲话者以及用T1和T2标出的各话题相关联。
应理解,预备处理40的步骤不必以图4中所示的特定顺序被执行。此外,如果产生的数据不是控制媒体播放器所需要的,那么可以不包括一个或更多个步骤。例如,如果不使用讲话者ID,则可以不包括步骤45至46,以及如果不使用话题ID,则可以不包括步骤47至48。其它的变化也是可能的。例如,可以用处理音频文件A以标识暂停(即没有口语的时段)以及分析暂停以标识单个句子的步骤来取代步骤41至43。然后,通过步骤44向这样标识的句子分配各起始时间(以及可选地,结束时间)。在其它另选中,通过语音到文本的处理与对音频文件A的分析的组合来标识句子。
还能想到,预备处理40被配置为标识音频文件A中的其它上下文数据。例如,如果音频文件A是音频书籍,则预备处理40可以可选地通过将通过步骤42产生的加盖了时间戳的字词与音频书籍的原稿相匹配来标识音频文件A中的段落和/或章节。
图5是用于在播放音频文件A时控制播放器后退的方法50的流程图。在图5的示例中,回放控制方法50包含步骤51至57,并且处理器3基于由图4中的预备处理40生成的上下文数据执行该回放控制方法50。在步骤51中,操作媒体播放器播放音频文件A,直至步骤52检测到暂停回放的命令为止。可以通过用户启动(例如,按压或触摸)图2至图3中的暂停元件7B来生成这个命令。当检测到此类暂停命令时,步骤53在音频文件中的当前时间处暂停回放。然后保持暂停回放,直至步骤54检测到恢复回放的命令为止。可以通过用户启动图2至图3中的开始元件7A来生成这个命令。当检测到此类恢复命令时,步骤55访问上下文数据以选择一个或更多个句子。通过在用于上下文数据中的句子的起始时间中标识落在当前时间之前的起始点来选择一个或更多个句子。然后,步骤56操作媒体播放器以从起始点处播放音频文件,以播放所选择的的句子,于是步骤57恢复当前时间的音频文件的回放。
步骤56可以操作媒体播放器播放位于起始点到当前时间之间的所有句子。然而,可想到,步骤55还标识与起始点相关联的结束点,并且步骤56操作媒体播放器播放起始点到结束点之间的音频文件。步骤55还可以标识多个起始点-结束点对,并且步骤56可以操作媒体播放器播放每对起始点到结束点之间的音频文件。
步骤55可以以许多不同的方法实现,以标识起始点(以及可选地,相应的结束点),并且由此选择将通过步骤56播放的一个或更多个句子。图7中提出了几个示例。如图7所示,步骤55可以包括访问限定如何选择句子的控制机制或控制逻辑的步骤70。在图7的示例中,控制机制具有用于选择句子的四个主选项:句子重播71、讲话者重播72、话题重播73和总结重播74。
在句子重播71中,选择起始点以限定与当前时间有给定关系的一组连续句子。如此处所使用的,“连续句子”指的是音频文件中的连续的时间顺序的句子,即在时间上相互跟随的句子,并且“一组连续句子”可以包括任意数目的句子,包括单个句子。在一个示例中,选择一组连续句子,以包括当前句子。“当前句子”是在当前时间音频文件中最近开始的句子。因此,在当前时间,当前句子可以是进行中的或完成的。在一个实施方式中,句子重播71通过对从当前时间tc后退的起始时间的数目进行计数来标识上下文数据中的起始点。在图6中还示出句子重播71,其中,在句子S12期间的当前时间tc处暂停音频文件。通过使用情况6A代表句子重播71,其中,起始点被选择为当前时间tc之前最近的起始时间t12。因此,如图6中的虚线箭头和实线箭头的组合所指示的,句子重播71可以有效地使媒体播放器重放当前的句子。应注意,句子重播71可以从当前时间tc后退任意数目的句子。
还能想到,句子重播74在音频文件的段落或章节的起始时间处选择起始点。
在另一示例中,句子重播71可以被配置成:基于与音频文件A相关联或被包括在音频文件A中的另一数字媒介(例如,诸如呈现的视觉媒介)选择起始点。例如,句子重播71可以通过将呈现中的滑动变化的时间点与上下文数据中的起始时间相匹配来选择起始点。
在讲话者重播72中,起始点被选择为与当前讲话者相关联的一组连续句子的起始时间。通过当前句子的讲话者ID来指定当前讲话者。在一个实施方式中,讲话者重播72基于讲话者ID搜索上下文数据,以标识讲话者的最近转换,并且选择起始点作为此次转换之后被当前讲话者所说的句子的起始时间。根据图6中的使用情况6B,讲话者重播72选择起始时间t10。因此,在图6的示例中,讲话者重播72有效地使媒体播放器重播当前讲话者所说的所有的最近的句子。
如图7所示,在一个变形中,讲话者重播72包括其它步骤75:如果一组连续句子被发现包括问题,则选择起始点作为转换讲话者之前的一组连续句子的起始时间。在图6的示例中,还如使用情况6B所示,假设句子S9是问题,则步骤75将选择起始时间t9。步骤75的设置假定了预备处理40(图4)包括标识音频文件中的问题以及将相应标识符包括在上下文数据中的步骤。可以通过对音频文件A或对通过步骤41至42生成的文本操作自动检测问题算法来标识问题。
在话题重播73中,起始点被选择为与当前话题相关联的一组连续句子的起始时间。通过当前句子的话题ID给出当前话题。在一个实施方式中,话题重播73基于话题ID搜索上下文数据,以标识话题的最近转换,并且选择起始点作为此次转换之后与当前话题相关联的句子的起始时间。根据图6中的使用情况6C,话题重播75选择起始时间t5。因此,在图6的示例中,话题重播73有效地使媒体播放器重播与当前话题有关的所有的最近的句子。
在总结重播74中,对音频文件的时间段内的通过步骤41至42所生成的、可选地被组织成通过步骤43所标识的句子的加盖了时间戳的字词操作自动总结算法。时间段可以被限定为音频文件中的实际时段,或被限定为当前时间之前的字词或句子的指定数目。自动总结算法选择若干句子以代表时间段中的信息。句子不必但可以是连续的。然后,总结重播74向步骤56提供被标识的句子的起始时间(以及可选地,结束时间)。根据图6中的使用情况6D,总结重播74选择通过步骤56播放的句子S2、S6、S7和S10。
步骤70的控制机制可以例如经由计算设备1的命令接口6被用户配置。例如,用户可以设置控制机制使用主选项71至74中的一个。还可以给予用户用于限定各选项71至74的操作参数的选项。如果问题将被包括在主选项72中,则此类操作参数可以包括将通过主选项71至73选择的连续句子的数目、通过主选项74使用的时间段的长度、和将通过主选项74选择的句子的最大数目。
另选地,步骤70的控制机制可以被用户配置为或默认配置为:基于在暂停回放时所派生的控制变量76,在主选项71至74中的两个或更多个之间自动转换,和/或自动修改操作参数中的一个或更多个。
在一个实施方式中,控制变量76是在当前时间的文本复杂度指数,其中,该文本复杂度指数指示在当前时间tc处音频文件A中的口语的复杂度。通过对音频文件的时间段内的加盖了时间戳的字词操作可读性测试算法来生成文本复杂度指数,该加盖了时间戳的字词通过步骤41至42生成,可选地被组织成通过步骤43标识的句子。时间段可以在音频文件A中从当前时间tc向后和/或向前延伸。步骤70的控制机制可以被配置成:随着增加文本复杂度指数而自动增加通过步骤55所选择的句子的数目。在其它变形中,控制机制可以被配置为:基于文本复杂度指数在主选项71至74之间进行转换。
在另一实施方式中,控制变量76是音频文件A的种类分类。该种类分类可以通过音频文件A中的元数据或通过分离数据来给出,并且可以指示多个种类(诸如喜剧、纪录片、广播插曲、音频书籍等)中的一个。在一个示例中,如果种类是喜剧,则步骤70的控制机制禁止使用主选项74。在另一示例中,如果种类是音频书籍,则控制机制配置或使得主选项71按段落或章节来进行。
在另一实施方式中,通过暂停命令(图5中的步骤52)和随后的恢复命令(图5中的步骤54)之间的时间间隔(即回放暂停的持续时间)来给出控制变量76。步骤70的控制机制可以被配置为:随着增加暂停的持续时间而增加通过步骤55所选择的句子的数目。在其它变形中,控制机制可以被配置为:基于暂停的持续时间在主选项71至74之间进行转换。
在另一实施方式中,通过指示针对一组不同用户在音频文件中在当前时间处暂停命令的发生率的统计数据来给出控制变量76。如果发生率大,则这可以指示在当前时间或当前时间之前的音频文件A中的口语对用户而言可以是尤为相关的/困难的/感兴趣的。控制机制可以被配置为:基于发生率,修改通过步骤55所选择的句子的数目,和/或在主选项71至74之间进行转换。可以从音频文件A中的元数据中或从单独的文件中获得统计数据。
在另一实施方式中,控制变量76代表与命令接口6的用户交互,并且控制机制可以被配置为:基于用户交互修改通过步骤55所选择的句子的数目和/或在主选项71至74之间进行转换。例如,可以通过修改用户启动控制元件(例如,播放元件7A)的持续时间、通过修改施加到控制元件的压力的量,或通过在命令接口6的不同控制元件中进行选择,给予用户影响步骤70的控制机制的能力。
应理解,前述控制变量76的任意组合可以被用于修改步骤70的控制机制。还应理解,控制程序不必实现所有的主选项71至74。此外,可以省略步骤70的控制机制。
回到图5,应注意,实际上可以在步骤53和步骤54中间执行步骤55。然而,如果控制机制(步骤70)将基于暂停的持续时间被修改,则需要在步骤54之后执行步骤55的至少一部分。还应提及,在此处的所有实施方式中,不必在播放音频文件之前完成预备处理40。相反,可以在音频文件的回放期间,例如在步骤52检测到暂停命令或在步骤54检测到恢复命令之后,执行预备处理40。在此类实现中,不对整个音频文件A操作预备处理40,而是对落入包括当前时间的预定时段内的音频数据操作预备处理40。因此,预备处理40根据需要并且仅针对该预定时段生成上下文数据。在另一变形中,在回放之前执行预备处理40的一部分,而根据需要执行其它部分。例如,在回放之前执行步骤41至42,以生成之后将被存储在存储器4中的加盖了时间戳的字词,然而,根据需要执行步骤43至48。因此,在这个示例中,根据需要通过处理被存储在存储器4中的加盖了时间戳的字词的子集来标识句子和关联的起始时间。
图8是用于在播放音频文件A时控制媒体播放器前进的方法80的流程图。在图8的示例中,方法80包含步骤81至步骤85,并且处理器3基于通过图4中的预备处理40所生成的上下文数据执行该方法。在步骤81中,操作媒体播放器播放音频文件A,直至步骤82检测到在音频文件A中快进的命令为止。可以通过用户启动(例如,按压或触摸)图2至图3中的快进元件7C来生成这个命令。当检测到此类快进命令时,步骤83在音频文件A中的当前时间处暂停回放,并且步骤84访问上下文数据以选择句子。通过在上下文数据中的起始时间当中标识落在当前时间之后的起始点来选择句子。然后,步骤85在该起始点处恢复回放,从而快进音频文件A的回放。
可以类比于图5中的步骤55来实现步骤84,以按句子、按讲话者或按话题快进。将在图9中进一步示出快进的不同技术,图9对应于图6并且示出在句子S1期间在当前时间tc被暂停的音频文件的上下文数据。
在按句子快进时,选择起始点,以例如在句子、段落或章节的计数方面与当前时间具有给定的关系。在一个示例中,步骤84通过从当前时间tc向前计数起始时间的给定数目来标识上下文数据中的起始点。通过使用情况9A来例示按句子的快进,其中,起始点被选择为当前时间tc之后的第一个起始点t2。因此,如图9中的虚线箭头所指示的,快进命令可以有效地使媒体播放器从当前时间跳到音频文件中的下一个句子。
在按讲话者快进时,选择起始点以标识与不同于当前讲话者的讲话者相关联的句子,例如,由除当前讲话者之外的另一讲话者所说的下一个句子。在一个实现示例中,步骤84基于讲话者ID搜索上下文数据,以标识讲话者的第一转换,并且选择起始点作为该转换之后的第一个句子的起始时间。通过图9中的使用情况9B来例示按讲话者的快进,其中,起始点被选择为起始时间t4,并且媒体播放器被控制跳到另一讲话者所说的第一个句子。在另选实施方式中,选择起始点以标识在讲话者转换之后被当前讲话者所说的第一个句子。在图9的上下文中,起始点将被选择为起始时间t7,并且媒体播放器被控制跳到当前讲话者所说的下一段句子。在其它另选实施方式中,选择起始点以标识在当前时间之后当前讲话者所说的之后的第n个句子(n是任意正数)的起始时间。在图9的上下文中且n是4时,起始点将被选择为起始时间t8。
在按话题快进时,选择起始点以标识与不同于当前话题的话题相关联的句子,例如,与除当前话题之外的另一话题相关联的下一个句子。在一个实现示例中,步骤84基于话题ID搜索上下文数据,以标识话题的第一转换,并且选择起始点作为该转换之后的第一个句子的起始时间。通过图9中的使用情况9C来例示按话题的快进,其中,起始点被选择为起始时间t5,并且媒体播放器被控制跳到与另一话题相关联的第一个句子。
类比于参考图7描述的控制机制,步骤84可以包括如下步骤:访问用于限定如何选择句子的控制机制或控制逻辑。控制机制可以由用户例如经由计算设备1的命令接口6来配置。例如,用户可以设置控制机制以按句子、讲话者或话题进行快进。还可以给予用户用于限定诸如将被跳过的句子、讲话者或话题的数目的操作参数的选项。另选地,控制机制可以由用户配置为或默认配置为:基于与命令接口6的用户交互,在按句子、讲话者和话题的快进之间进行转换,和/或自动修改操作参数中的一个或更多个。例如,可以通过修改用户启动控制元件(例如,快进元件7C)的持续时间、通过修改施加到控制元件的压力的量或通过在命令接口6的不同控制元件中进行选择,来给予用户影响控制机制的能力。
应理解,控制程序不必实现按句子、讲话者和话题快进的所有选项。此外,可以省略控制机制。
图10是图1的计算设备1的示例架构100的框图。计算设备1可以包括存储器接口102、诸如数据处理器、图像处理器和/或中央处理单元的一个或更多个处理器104、以及外围接口106。一个或更多个处理器104可以对应于或包括图1中的处理器3。存储器接口102、一个或更多个处理器104和/或外围接口106可以是单独的组件或集成于一个或更多个集成电路。计算设备1中的各种组件可以通过一个或更多个通信总线或信号线被联接。传感器、设备和子系统可以被联接至外围接口106,以有助于多个功能。
可以通过一个或更多个无线通信子系统110来有助于通信功能,该无线通信子系统110可以包括射频接收器和发射器和/或光学(例如,红外线)接收器和发射器。例如,计算设备1可以包括通信子系统110,该通信子系统110被设计为:根据任意的蜂窝网络协议通过网络和短程无线网络(例如,WiFi,WiMax和蓝牙TM)进行操作。通信子系统110还可以被配置用于有线通信。通信子系统110的具体设计和实现可以取决于计算设备1打算通过其进行操作的通信网络。通信子系统110可以对应于或被包括于图1中的数据接口2。
音频子系统112可以被联接至诸如扬声器和麦克风的音频硬件组件114,以有助于诸如语音标识、语音复制、数字记录和电话功能的支持语音的功能,并且使得能够回放音频文件。音频硬件组件114可以对应于或被包括于图1中的音频接口5。
I/O子系统116可以包括被联接至输入/输出硬件组件118的一个或更多个输入/输出控制器,包括但不限于触摸屏、显示器、键盘、触摸板,一个或更多个按钮、摇臂开关、拇指旋转控制器、红外端口、USB端口以及诸如触针的指针设备中的一个或更多个。I/O子系统116可以至少部分对应于图1中的数据接口2。
存储器接口102可以被联接至存储器108,该存储器108可以对应于或包括图1中的存储器4。存储器108可以包括高速随机存取存储器和/或非易失性存储器,诸如一个或更多个磁盘存储设备、一个或更多个光存储设备和/或闪存存储器(例如,NAND、NOR)。存储器108可以存储操作系统。操作系统可以包括用于处理基础系统服务和用于执行硬件从属任务的指令。存储器108还可以存储通信指令,以有助于与诸如服务器的一个或更多个外部设备进行通信。存储器108还可以包括图形化用户接口指令,以有助于图形用户接口的处理。在一些实施方式中,存储器108还可以存储用于被计算设备1回放的一个或更多个音频文件A,以及用于各自音频文件的上下文数据120。存储器108还可以存储包括由处理器104执行的任何程序的应用程序。在一些实施方式中,某些应用程序可以被计算设备1的制造者安装在计算设备1上,而其它的应用程序可以被用户安装。如前述中所指示的以及图10所示的,一个应用程序122可以实现用于播放音频文件的媒体播放器。在图10的示例中,根据本发明的实施方式,另一应用程序124实现对媒体播放器进行操作的控制程序。在另一示例中,应用程序122既实现媒体播放器又实现控制程序。
公开的和其它的实施方式以及本说明书中所描述的功能的操作可以在包括本说明中所公开的结构及其结构等同物或它们中的一个或更多个的组合的数字电子电路或计算机软件、固件或硬件中实现。公开的和其它的实施方式可以被实现为一个或更多个计算机程序产品,即用于由数据处理装置执行或为控制数据处理装置的操作而被编码在计算机可读介质上的计算机程序指令的一个或更多个模块。计算机可读介质可以是非瞬态的,包括机器可读的存储设备、机器可读的存储介质、存储器设备、影响机器可读传播信号的物质的组成,或其任意的组合。“数据处理装置”术语涵括用于处理数据的所有装置、设备和机器,例如,包括可编程的处理器、计算机、或多个处理器或计算机。除硬件之外,装置还可以包括为所讨论的计算机程序创建运行环境的代码,例如,构成处理器固件、协议堆栈、数据库管理系统、操作系统、或它们中的一个或更多个的组合的代码。传播信号是人工生成的信号,例如,机器生成的电、光、或磁信号,该信号为编码用于向合适的接收器装置进行传输的信息而生成。
计算机程序(也称为程序、软件、软件应用、脚本、或代码)可以以任何形式的编程语言(包括编译语言或解释语言)来编写,并且其可以以任何形式(包括作为独立程序或作为模块、组件、子例程或适于计算环境中的使用的其它单元)被部署。计算机程序不必与文件系统中的文件相对应。程序可以被存储在保留其它程序或数据的文件的部分中(例如,被存储在标记语言文档中的一个或更多个脚本)、专用于所讨论的程序的单个文件中、或多个协调的文件中(例如,存储一个或更多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一个计算机上被执行或在位于一个站点或跨多个站点分布并通过通信网络互联的多个计算上被执行。
本说明书中描述的处理和逻辑流程可以由一个或更多个可编程处理器来执行,该一个或更多个可编程处理器执行一个或更多个计算机程序,以通过对输入数据进行操作和生成输出来执行功能。处理和逻辑流程也可以由特殊用途的逻辑电路来执行并且装置还可以被实现为特定目的的逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(应用专用集成电路)。
Claims (19)
1.一种在包括处理器(3)的计算设备(1)上控制包含语音的音频数据(A)的回放的方法,所述方法由所述计算设备(1)中的所述处理器(3)执行,并且包括以下步骤:
在所述计算设备(1)上操作媒体播放器,以播放所述音频数据(A),
检测用于在所述音频数据(A)中前进或后退的用户发起的时移命令,以及
在所述音频数据(A)中的当前时间(tc)处检测到所述时移命令之后,标识所述音频数据(A)中的句子的起始点,并且操作所述媒体播放器以从所述起始点处播放所述音频数据(A)。
2.根据权利要求1所述的方法,其中,基于所述音频数据(A)的自然语言处理来标识所述句子的所述起始点。
3.根据权利要求2所述的方法,其中,所述自然语言处理包括:通过对所述音频数据(A)操作语音识别算法来生成与所述音频数据(A)相对应的文本,并且通过对所述文本操作句子分割算法来将所述文本分割成句子。
4.根据前述权利要求中的任一项所述的方法,其中,所述时移命令指示在所述音频数据(A)中后退,并且其中,所述起始点被标识为下列项中的一方:
与所述音频数据(A)在所述当前时间(tc)的当前话题有关的一组连续句子的起始点;
与所述当前时间(tc)有预定关系的一组连续句子的起始点;
与所述当前时间(tc)的当前讲话者相关联的一组连续句子的起始点,或紧在与所述当前讲话者相关联的一组连续句子之前的与另一讲话者相关联的一组连续句子的起始点;以及
提供所述音频数据(A)中的在所述当前时间(tc)之前的时间段的内容总结的一组连续句子的起始点。
5.根据权利要求4所述的方法,其中,所述预定关系被限定为使得所述一组连续句子包括在所述当前时间(tc)处最近开始的句子。
6.根据权利要求4或5所述的方法,其中,所述起始点、所述一组连续句子中的连续句子的数目、所述一组句子中的句子的数目、以及所述时间段中的至少一方作为控制变量(76)的函数来获得,所述控制变量(76)包括下列项中的一个或更多个:
在所述当前时间(tc)的文本复杂度指数,所述文本复杂度指数指示所述音频数据(A)中的在所述当前时间(tc)的口语的复杂度;
所述音频数据(A)的种类分类;
在通过暂停触发了所述时移命令的情况下的所述媒体播放器的暂停持续时间;
针对一组不同用户在所述音频数据(A)中在所述当前时间(tc)处时移命令的发生率;以及
与所述计算设备(1)的命令接口(6)的用户交互,诸如与所述命令接口(6)的所述用户交互的持续时间、施加到所述命令接口(6)的压力的程度、或对所述命令接口(6)上的多个命令元件(7A、7B、7C)当中的一个命令元件的用户选择。
7.根据前述权利要求中的任一项所述的方法,其中,所述时移命令指示在所述音频数据(A)中前进,并且其中,所述起始点被标识为下列项中的一方:
与不同于所述音频数据(A)的在所述当前时间(tc)的当前话题的话题有关的句子的起始点;
与所述当前时间(tc)有预定关系的句子的起始点;以及
与不同于在所述当前时间(tc)的当前讲话者的讲话者相关联的句子的起始点。
8.根据权利要求7所述的方法,其中,所述预定关系作为在所述当前时间(tc)之后开始的句子的计数来给出。
9.根据权利要求4至8中的任一项所述的方法,该方法还包括以下步骤:向所述音频数据(A)中的句子(Si)分配相应话题标识符(Ti);
其中,为了标识所述起始点,该方法还包括以下步骤:
通过分配给所述音频数据(A)中的在所述当前时间(tc)的最近开始的句子的话题标识符来标识所述当前话题,以及
基于所述当前话题在所述话题标识符(Ti)中进行搜索,以标识所述起始点。
10.根据权利要求9与权利要求3相结合所述的方法,该方法还包括以下步骤:对通过所述语音识别算法所生成的所述文本操作话题分割算法,以向所述音频数据(A)中的所述句子(Si)分配所述相应话题标识符(Ti)。
11.根据权利要求4至10中的任一项所述的方法,该方法还包括以下步骤:向所述音频数据(A)中的句子(Si)分配相应讲话者标识符(SPi);
其中,为标识所述起始点,该方法还包括以下步骤:
通过分配给所述音频数据(A)中的最近开始的句子的所述讲话者标识符来标识所述当前讲话者;以及
基于所述当前讲话者在所述讲话者标识符(SPi)中进行搜索,以标识所述起始点。
12.根据权利要求11所述的方法,该方法还包括以下步骤:对所述音频数据(A)操作语音识别算法,以向所述音频数据(A)中的句子(Si)分配所述相应讲话者标识符(SPi)。
13.根据权利要求4至6中的任一项与权利要求3相结合所述的方法,该方法还包括以下步骤:在所述音频数据(A)中的所述时间段内,对通过所述语音识别算法所生成的所述文本操作自动总结算法,以生成所述内容总结。
14.根据前述权利要求中的任一项所述的方法,该方法还包括以下步骤:
在所述音频数据(A)中针对所述音频数据(A)中的口语的句子(Si)标识起始时间(ti),以及
将所述起始时间存储在电子存储器(4)中,所述电子存储器(4)对于所述处理器(3)是能访问的,以及
其中,在检测到所述时移命令之后,该方法还包括以下步骤:
基于所述当前时间(tc)并且考虑到所述时移命令,搜索所述电子存储器(4),以在与所述音频数据(A)中的口语的句子(Si)相对应的所述起始时间(ti)中标识所述起始点,以及
在所述起始点处播放所述音频数据(A),以便播放所述音频数据(A)中的在所述起始点之后的一个或更多个句子。
15.根据权利要求14与权利要求3相结合所述的方法,其中,所述文本包括一系列字词,并且其中,所述字词与相应时间点相关联地被存储在所述电子存储器(4)中,并且其中,在所述音频数据(A)的回放之前或期间,对所述字词操作所述句子分割算法,以将所述字词分割成所述句子(Si)并标识所述起始时间(ti)。
16.根据前述权利要求中的任一项所述的方法,其中,通过检测与所述计算设备(1)的命令接口(6)中的专用命令元件(7A、7B、7C)的用户交互来检测所述时移命令。
17.根据权利要求1至15中的任一项所述的方法,其中,所述时移命令指示在所述音频数据(A)中后退,并且通过检测用于暂停所述音频数据(A)的回放的指令来检测所述时移命令。
18.一种包括计算机指令的非瞬态计算机可读介质,所述计算机指令在被处理器(3)执行时使得所述处理器(3)执行前述权利要求中的任一项所述的方法。
19.一种用于回放包含语音的音频数据(A)的计算设备,所述计算设备被配置为:
在所述计算设备(1)上操作媒体播放器,以播放所述音频数据(A),
检测用于在所述音频数据(A)中前进或后退的用户发起的时移命令,以及
在所述音频数据(A)中的当前时间(tc)处检测到所述时移命令之后,标识所述音频数据(A)中的句子的起始点,并且操作所述媒体播放器以从所述起始点处播放所述音频数据(A)。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/055626 WO2017157428A1 (en) | 2016-03-16 | 2016-03-16 | Controlling playback of speech-containing audio data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108885869A true CN108885869A (zh) | 2018-11-23 |
CN108885869B CN108885869B (zh) | 2023-07-18 |
Family
ID=55588242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680083591.0A Active CN108885869B (zh) | 2016-03-16 | 2016-03-16 | 控制包含语音的音频数据的回放的方法、计算设备和介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10606950B2 (zh) |
EP (1) | EP3430613B1 (zh) |
CN (1) | CN108885869B (zh) |
WO (1) | WO2017157428A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428668A (zh) * | 2019-07-31 | 2019-11-08 | 平安科技(深圳)有限公司 | 一种数据提取方法、装置、计算机系统及可读存储介质 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606950B2 (en) * | 2016-03-16 | 2020-03-31 | Sony Mobile Communications, Inc. | Controlling playback of speech-containing audio data |
US9741337B1 (en) * | 2017-04-03 | 2017-08-22 | Green Key Technologies Llc | Adaptive self-trained computer engines with associated databases and methods of use thereof |
CN108922450B (zh) * | 2018-05-30 | 2022-07-01 | 如你所视(北京)科技有限公司 | 在房屋虚拟三维空间中讲房内容自动播放控制方法及装置 |
US11038824B2 (en) * | 2018-09-13 | 2021-06-15 | Google Llc | Inline responses to video or voice messages |
EP3660848A1 (en) | 2018-11-29 | 2020-06-03 | Ricoh Company, Ltd. | Apparatus, system, and method of display control, and carrier means |
US11166077B2 (en) | 2018-12-20 | 2021-11-02 | Rovi Guides, Inc. | Systems and methods for displaying subjects of a video portion of content |
CN111599341B (zh) * | 2020-05-13 | 2023-06-20 | 北京百度网讯科技有限公司 | 用于生成语音的方法和装置 |
US20220020365A1 (en) * | 2020-07-15 | 2022-01-20 | Google Llc | Automated assistant with audio presentation interaction |
CN112002328B (zh) * | 2020-08-10 | 2024-04-16 | 中央广播电视总台 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
US11929096B1 (en) * | 2022-09-12 | 2024-03-12 | Saima, Inc. | Content-based adaptive speed playback |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1652205A (zh) * | 2004-01-14 | 2005-08-10 | 索尼株式会社 | 音频信号处理设备和音频信号处理方法 |
US20080120091A1 (en) * | 2006-10-26 | 2008-05-22 | Alexander Waibel | Simultaneous translation of open domain lectures and speeches |
CN101789256A (zh) * | 2010-03-24 | 2010-07-28 | 武汉嘉工科技有限公司 | 一种音视频播放器的控制方法 |
CN102685729A (zh) * | 2011-02-14 | 2012-09-19 | 微软公司 | 用于移动设备上的应用的后台传输服务 |
US8358917B2 (en) * | 2004-12-17 | 2013-01-22 | Thomson Licensing | Device and method for time-shifted playback of multimedia data |
CN103703431A (zh) * | 2011-06-03 | 2014-04-02 | 苹果公司 | 自动创建文本数据与音频数据之间的映射 |
CN104038827A (zh) * | 2014-06-06 | 2014-09-10 | 小米科技有限责任公司 | 多媒体播放方法及装置 |
CN104205791A (zh) * | 2011-12-20 | 2014-12-10 | 奥德伯公司 | 管理补充信息的回放 |
CN104299631A (zh) * | 2013-07-17 | 2015-01-21 | 布克查克控股有限公司 | 电子媒体内容的同步声道的传送 |
CN104756181A (zh) * | 2012-10-31 | 2015-07-01 | Nec卡西欧移动通信株式会社 | 回放装置、设置装置、回放方法及程序 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001014306A (ja) * | 1999-06-30 | 2001-01-19 | Sony Corp | 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体 |
US8731914B2 (en) * | 2005-11-15 | 2014-05-20 | Nokia Corporation | System and method for winding audio content using a voice activity detection algorithm |
JP4346613B2 (ja) * | 2006-01-11 | 2009-10-21 | 株式会社東芝 | 映像要約装置及び映像要約方法 |
US8392183B2 (en) * | 2006-04-25 | 2013-03-05 | Frank Elmo Weber | Character-based automated media summarization |
US8990200B1 (en) * | 2009-10-02 | 2015-03-24 | Flipboard, Inc. | Topical search system |
US9633696B1 (en) * | 2014-05-30 | 2017-04-25 | 3Play Media, Inc. | Systems and methods for automatically synchronizing media to derived content |
US10606950B2 (en) * | 2016-03-16 | 2020-03-31 | Sony Mobile Communications, Inc. | Controlling playback of speech-containing audio data |
-
2016
- 2016-03-16 US US16/084,414 patent/US10606950B2/en active Active
- 2016-03-16 WO PCT/EP2016/055626 patent/WO2017157428A1/en active Application Filing
- 2016-03-16 CN CN201680083591.0A patent/CN108885869B/zh active Active
- 2016-03-16 EP EP16711210.1A patent/EP3430613B1/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1652205A (zh) * | 2004-01-14 | 2005-08-10 | 索尼株式会社 | 音频信号处理设备和音频信号处理方法 |
US8358917B2 (en) * | 2004-12-17 | 2013-01-22 | Thomson Licensing | Device and method for time-shifted playback of multimedia data |
US20080120091A1 (en) * | 2006-10-26 | 2008-05-22 | Alexander Waibel | Simultaneous translation of open domain lectures and speeches |
CN101789256A (zh) * | 2010-03-24 | 2010-07-28 | 武汉嘉工科技有限公司 | 一种音视频播放器的控制方法 |
CN102685729A (zh) * | 2011-02-14 | 2012-09-19 | 微软公司 | 用于移动设备上的应用的后台传输服务 |
CN103703431A (zh) * | 2011-06-03 | 2014-04-02 | 苹果公司 | 自动创建文本数据与音频数据之间的映射 |
CN104205791A (zh) * | 2011-12-20 | 2014-12-10 | 奥德伯公司 | 管理补充信息的回放 |
CN104756181A (zh) * | 2012-10-31 | 2015-07-01 | Nec卡西欧移动通信株式会社 | 回放装置、设置装置、回放方法及程序 |
CN104299631A (zh) * | 2013-07-17 | 2015-01-21 | 布克查克控股有限公司 | 电子媒体内容的同步声道的传送 |
CN104038827A (zh) * | 2014-06-06 | 2014-09-10 | 小米科技有限责任公司 | 多媒体播放方法及装置 |
Non-Patent Citations (1)
Title |
---|
无: "best universal audiboook apps", 《IPAD/IPHONE APPS APPGUIDE》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428668A (zh) * | 2019-07-31 | 2019-11-08 | 平安科技(深圳)有限公司 | 一种数据提取方法、装置、计算机系统及可读存储介质 |
CN110428668B (zh) * | 2019-07-31 | 2022-08-26 | 平安科技(深圳)有限公司 | 一种数据提取方法、装置、计算机系统及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3430613A1 (en) | 2019-01-23 |
WO2017157428A1 (en) | 2017-09-21 |
US20190079918A1 (en) | 2019-03-14 |
US10606950B2 (en) | 2020-03-31 |
EP3430613B1 (en) | 2019-10-30 |
CN108885869B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108885869A (zh) | 控制包含语音的音频数据的回放 | |
US11398236B2 (en) | Intent-specific automatic speech recognition result generation | |
US11922923B2 (en) | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning | |
US10068573B1 (en) | Approaches for voice-activated audio commands | |
CN107464555B (zh) | 增强包含语音的音频数据的方法、计算装置和介质 | |
CN107918653B (zh) | 一种基于喜好反馈的智能播放方法和装置 | |
US10381016B2 (en) | Methods and apparatus for altering audio output signals | |
CN108288468B (zh) | 语音识别方法及装置 | |
US20200127865A1 (en) | Post-conference playback system having higher perceived quality than originally heard in the conference | |
US10057707B2 (en) | Optimized virtual scene layout for spatial meeting playback | |
US20150373455A1 (en) | Presenting and creating audiolinks | |
US20180336902A1 (en) | Conference segmentation based on conversational dynamics | |
US20180191912A1 (en) | Selective conference digest | |
CN107210045A (zh) | 会议搜索以及搜索结果的回放 | |
US20180190266A1 (en) | Conference word cloud | |
CN107040452B (zh) | 一种信息处理方法、装置和计算机可读存储介质 | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
CN112418011A (zh) | 视频内容的完整度识别方法、装置、设备及存储介质 | |
CN113761268A (zh) | 音频节目内容的播放控制方法、装置、设备和存储介质 | |
US11687576B1 (en) | Summarizing content of live media programs | |
CN109460548B (zh) | 一种面向智能机器人的故事数据处理方法及系统 | |
JP7481488B2 (ja) | オーディオプレゼンテーション対話を用いた自動アシスタント | |
US11823671B1 (en) | Architecture for context-augmented word embedding | |
CN116434731A (zh) | 语音编辑方法、装置、存储介质及电子装置 | |
ELNOSHOKATY | CINEMA INDUSTRY AND ARTIFICIAL INTELLIGENCY DREAMS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |