CN107636645A - 自动生成媒体文件书签的技术 - Google Patents

自动生成媒体文件书签的技术 Download PDF

Info

Publication number
CN107636645A
CN107636645A CN201680026385.6A CN201680026385A CN107636645A CN 107636645 A CN107636645 A CN 107636645A CN 201680026385 A CN201680026385 A CN 201680026385A CN 107636645 A CN107636645 A CN 107636645A
Authority
CN
China
Prior art keywords
bookmark
media
media file
component
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680026385.6A
Other languages
English (en)
Inventor
O·钱德拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN107636645A publication Critical patent/CN107636645A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

描述了自动生成媒体文件的书签的技术。装置可以包括布置成执行书签应用的逻辑设备。逻辑设备可以包括例如具有处理器和存储器的处理系统。书签应用可以包括可操作以管理媒体文件的媒体文件组件。媒体文件可以存储各种类型的多媒体内容。书签应用还可以包括媒体书签组件,其可操作以识别存储媒体信息的媒体文件,扫描媒体文件以获得书签指示符,基于书签指示符自动生成用于媒体文件的书签,并将书签呈现在用户接口上。描述和要求保护其他实施例。

Description

自动生成媒体文件书签的技术
背景技术
使用诸如音频或视频记录的内容记录来记下稍后要回顾的信息。然而,在某些情况下,可能很难定位相关信息,特别是在会议、课程、访谈和其他类似场景的较长内容记录中。通常,内容记录的仅某些部分对于用户是特别感兴趣的。如果用户能够快速定位内容记录的某些部分,则会引起对内容记录的改进使用。
发明内容
提供该发明内容以便以简化的形式来引入下面的具体实施方式中进一步描述的概念的选择。该发明内容不旨在确定所要求保护的主题的关键特征或主要特征,也不旨作为用于确定所要求保护的主题的范围的辅助。
各种实施例通常涉及电子媒体系统。一些实施例特别涉及被布置为自动生成一个或多个媒体文件的电子书签的电子媒体系统。电子媒体系统可以自动地生成用于媒体文件的一个或多个书签,而无需用户干预(例如,不需要手动书签生成)。书签允许用户快速定位和再现感兴趣的媒体内容以供以后回顾。电子媒体系统可以将书签与媒体文件一起存储为元数据,供各种用户稍后使用。
在一个实施例中,例如,装置可以包括布置成执行书签应用的逻辑设备。逻辑设备可以包括例如具有处理器和存储器的处理系统。书签应用可以包括可操作以管理媒体文件的媒体文件组件。媒体文件可以存储各种类型的多媒体内容。书签应用还可以包括媒体书签组件,可操作用于识别存储媒体信息的媒体文件,扫描媒体文件以获得书签指示符,基于书签指示符自动生成用于媒体文件的书签,并将书签呈现在用户接口上。描述和要求保护其他实施例。
通过阅读以下详细描述和对相关附图的阅览,这些和其他特征和优点将是显而易见的。应当理解,前面的一般描述和以下详细描述都是解释性的,并且不限制要求保护的方面。
附图说明
图1A示出媒体系统的实施例。
图1B示出媒体系统的不同实施例。
图2示出用于记录的用户接口视图的实施例。
图3示出了用于重放的用户接口视图的实施例。
图4示出了待机的用户接口视图的实施例。
图5A示出了书签的第一用户接口视图的实施例
图5B示出了书签的第二用户接口视图的实施例。
图5C示出了书签的第三用户接口视图的实施例。
图6示出了书签的第三用户接口视图的实施例。
图7A示出了书签的第四用户接口视图的实施例。
图7B示出了书签的第五用户接口视图的实施例。
图7C示出了书签的第六用户接口视图的实施例。
图8A示出了用于生成用于媒体文件的书签的第一逻辑流程的实施例。
图8B示出了用于扫描媒体文件以获得书签指示符的第二逻辑流程的实施例。
图8C示出了用于扫描媒体文件以获得书签指示符的第三逻辑流程的实施例。
图8D示出了用于生成用于媒体文件的书签的第四逻辑流程的实施例。
图9示出了用于生成用于媒体文件的书签的第五逻辑流程的实施例。
图10示出了用于从媒体文件再现加书签的媒体内容的第六逻辑流程的实施例。
图11示出了第一合适的计算体系结构的实施例。
图12示出了第二适合的计算体系结构的实施例。
具体实施方式
用户可能经常需要经由电子设备来记录媒体内容。例如,用户可以使用诸如智能手表、智能电话、平板电脑或膝上型计算机的移动设备来记录来自讲座、会议、访谈等的音频或视频信息。电子设备可以将记录的媒体内容作为媒体文件存储在某种形式的计算机可读存储器中。用户(相同或不同)可能希望在稍后的时间回顾所记录的媒体内容。然而,可能难以在记录的媒体内容中定位相关信息,特别是如果它是冗长的或包含复杂的信息。实施例被设计为允许用户快速且容易地定位内容记录的某些部分。这引起更高效且有效地使用内容记录,从而提供更好的用户体验。此外,这些实施例节省电子设备(诸如移动设备)的电池电量、存储器资源和/或计算周期,从而产生显著的技术优点和技术效果。
各种实施例通常涉及被布置为自动生成用于媒体文件的电子书签的电子媒体系统。电子媒体系统可以允许用户启动自动书签生成操作,以自动生成由不同媒体源(例如音频源,视频源,音频/视频源等)生成的各种媒体文件的电子书签。例如,媒体文件的电子书签可以通过使用旨在扫描媒体文件以获得不同类型的书签指示符的软件应用来自动生成,书签指示符例如是可以指示对用户而言特别重要或相关的媒体内容的所选择的一组关键词。关键词扫描可以允许自动生成电子书签以在例如用户的笔记应用中呈现,因此用户可以容易地查看和激活媒体文件的所选部分,以便收听媒体文件中的加书签的内容。此外,电子书签可以用于使用语音到文本(STT)技术来自动地转录媒体文件的选定部分,特别关注检测到关键词的媒体文件的时间片。
在一个实施例中,例如,诸如书签图标的用户接口元素可以被呈现为用于记录和重放媒体内容的媒体应用的用户接口的一部分。在将媒体内容记录到媒体文件或从媒体文件重放媒体内容之前、期间和/或之后,用户可以手动选择书签图标来启动书签生成操作。书签应用可以扫描媒体文件以获得各种书签指示符(例如,关键词,讲话者身份,讲话者位置),并且基于书签指示符自动生成用于媒体文件的多个电子书签。除了其他信息之外,电子书签可以具有媒体文件的一部分开始时的开始时间,媒体文件的该部分结束时的结束时间,用户消息,媒体文件的元数据(例如,文件名称,文件标识符)和/或其他类型的信息。电子书签可以利用各种用户接口元素在用户接口中呈现,诸如应用程序的文档中的基于文本的书签注释或表示、可选择的图标或链接、媒体文件波形上的视觉指示符等等。除了呈现电子书签之外,与给定书签相关联的媒体文件的选定部分可以被转换为文本并且与适当的书签一起呈现(例如,以协助记笔记操作)。然后,用户可以选择电子书签以在与电子书签相关联的开始时间从媒体文件开始重放媒体内容。这允许用户快速且高效地标记和定位用户特别感兴趣的媒体内容。因此,实施例可以改善运营商、设备或网络的可承受性、可缩放性、模块化、可扩展性或互操作性。
在一种使用场景中,例如,当在诸如的应用程序中记录或播放音频时,用户可以按下按钮来启动书签生成操作以将音频记录中的任何期望的时刻加书签以备以后参考。书签可以表示为笔记部分中的文本,也可以在音频搜索栏上以视觉标记符的形式表示。例如,当在移动设备(例如,智能电话)上使用MICROSOFT ONENOTE时,当在记录或重放模式下操作时,可以在用户接口的左上角呈现音频书签按钮。按下此按钮会导致自动生成媒体文件的一个或多个书签,然后将彩色标记符(例如蓝色)放置在音频录制时间线上,和/或将书签文本添加到音频录制时间线下方的用户笔记部分中。在音频重放期间,用户接口可以在音频搜索条上显示小的蓝色标记符,以表示为记录放置的书签。如果用户在其笔记中点击书签,则会出现“从此时间播放”按钮,允许用户直接跳转到音频记录中的放置该书签的点。
以前的解决方案在许多方面是不足的。例如,会议、课程、访谈和其他类似场景的较长的媒体记录可能难以高效利用。通常,这些记录的仅某些部分对于给定的听众是特别感兴趣的,并且没有简单和优雅的方式来识别录音中最有兴趣的部分供以后引用。为了取回存储在音频记录中的重要数据,例如,用户通常将收听整个音频记录,反复地在记录上跳来跳去以试图定位关键信息,或者手动写下存储有关键信息的时间戳。所有这些解决方案都是耗时和/或劳动密集型的。也可以使用音频转录技术,但是在目前的状态下,这种技术通常是不准确的。
电子书签与先前的解决方案相比提供了若干优点。例如,使用电子书签通过允许书签应用快速且高效地标记媒体记录中的关键时刻使得用户可以在稍后的回顾期间直接跳转到媒体记录的相关部分来增强用户体验。这允许各种实况事件(例如,会议,课程,访谈)的音频记录更有用,因为用户不需要为了找到最重要的部分而从头到尾聆听整个音频记录。相反,用户将确切知道哪些部分被标记用于回顾,并且可以使用在启用书签时出现的按钮直接跳转到它们。除了增强用户体验之外,电子书签可以允许用户更快速地找到相关信息,这可能引起各种移动设备(例如智能电话,智能手表,平板计算机和便携式计算机)的功耗降低和电池寿命延长。
通常参考本文所使用的符号和术语,下面的详细描述可以根据在计算机或计算机网络上执行的程序过程来呈现。本领域技术人员使用这些程序描述和表示来最有效地将其工作的实质传达给本领域技术人员。
程序在这里并且通常被认为是引起期望结果的自洽(self-consistent)的操作序列。这些操作是需要物理量的物理操纵的操作。通常,虽然不一定,这些量采取能够被存储、传送、组合、比较和以其他方式操纵的电、磁或光信号的形式。主要是为了普遍使用的原因,将这些信号称为位、值、元件、符号、字符、术语、数字等等,这有时被证明是便利的。然而,应当注意,所有这些和类似的术语都应该与适当的物理量相关联,并且仅仅是适用于这些量的便利标签。
此外,所执行的操作通常以通常与人类操作者执行的心理操作相关联的术语来表示,例如添加或比较。在大多数情况下,在构成一个或多个实施例的一部分的本文描述的任何操作中都不需要或不期望人类操作者的这种能力。相反,操作是机器操作。用于执行各种实施例的操作的有用机器包括通用数字计算机或类似设备。
各种实施例还涉及用于执行这些操作的装置或系统。该装置可以被特别地构造为用于所需目的,或者可以包括通过计算机存储的计算机程序选择性地激活或重新配置的通用计算机。本文提出的程序并不固有地与特定的计算机或其它装置有关。各种通用机器可以与根据本文的教导编写的程序一起使用,或者可以证明构造更专用的装置来执行所需的方法操作是方便的。这些各种机器的所需结构将从给出的描述中出现。
现在参考附图,其中相同的附图标记始终用于指代相同的元件。在下面的描述中,为了解释的目的,阐述了许多具体细节以便提供其透彻的理解。然而,显然,可以在没有这些具体细节的情况下实践新颖的实施例。在其他实例中,以框图形式示出了众所周知的结构和设备,以便于促进其描述。意图是涵盖与所要求保护的主题相一致的所有修改、等同和替代。
图1A示出了具有书签应用140的媒体系统100的框图。在一个实施例中,例如,媒体系统100和书签应用140可以包括各种组件,例如组件110、130。如本文所使用的,术语“系统”和“应用”和“组件”旨在表示包括硬件、硬件和软件的组合、软件或执行中的软件的计算机相关实体。例如,组件可以被实现为在处理器上运行的进程、处理器、硬盘驱动器、多个存储驱动器(光学和/或磁存储介质的)、对象、可执行文件、执行线程、程序和/或计算机。作为说明,在服务器上运行的应用和服务器都可以是组件。一个或多个组件可以驻留在执行的进程和/或线程内,并且组件可以被定位在一个计算机上和/或分布在两个或更多个计算机之间,如针对给定的实现方式所希望的。实施例在该上下文中不受限制。
在图1A所示的图示实施例中,媒体系统100和书签应用140可以由电子设备来实现。电子设备的示例可以包括但不限于超移动设备、移动设备、个人数字助理(PDA)、移动计算设备、智能电话、电话、数字电话、蜂窝电话、电子书阅读器、手机、单向寻呼机、双向寻呼机、消息传递设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、手持式计算机、平板计算机、服务器、服务器阵列或服务器群、web服务器、网络服务器、互联网服务器、工作站、小型计算机、大型计算机、超级计算机、网络设备、web设备、分布式计算系统、多处理器系统、基于处理器的系统、消费电子产品、可编程消费电子产品、游戏设备、电视、数字电视、机顶盒,诸如智能手表的可穿戴电子产品、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、桥接器、交换机、机器或其组合。尽管如图1A所示的书签应用140在某一拓扑中具有有限数量的元素,可以意识到,书签应用140可以根据给定实现方式所需而在替代拓扑中包括更多或更少的元素。
组件110、130可以经由各种类型的通信介质进行通信耦合。组件110、130可以协调彼此之间的操作。协调可能涉及信息的单向或双向交换。例如,组件110、130可以以通过通信介质传送的信号的形式来传送信息。信息可以被实现为分配给各种信号线的信号。在这样的分配中,每个消息是一个信号。然而,另外的实施例可以替代地采用数据消息。这样的数据消息可以通过各种连接发送。示例性连接包括并行接口、串行接口和总线接口。
在图1A所示的图示实施例中,媒体系统可以包括一个或多个媒体文件104-c和书签应用140。值得注意的是,本文中使用的“a”和“b”和“c”和类似的指示符旨在作为表示任何正整数的变量。因此,例如,如果实现方式设置c=5的值,则一组完整的媒体文件104-c可以包括媒体文件104-1、104-2、104-3、104-4和104-5。实施例在该上下文中不受限制。
媒体文件104-c可以包括由模拟或数字媒体传感器记录的媒体内容,诸如数字视频记录器,数字音频记录器,数字音频/视频(A/V)记录器,应用程序,系统程序,web应用,web服务等。书签应用140可以使用一个或多个所选择的媒体文件104-c来生成由用户接口120呈现的一个或多个电子书签126-e和/或文本段128-h。在一个实施例中,用户可以使书签应用140在为媒体文件104-c生成一个或多个电子书签126-e时自动生成。在替代实施例中,用户可以手动选择何时为媒体文件104-c生成一个或多个电子书签126-e。
书签应用140可以是独立的应用程序,或与其他软件程序集成。在一个实施例中,例如,书签应用140可以与由华盛顿雷德蒙顿的微软公司制造的操作系统例如集成。在一个实施例中,例如,书签应用140可以与为特定操作系统设计的互相关客户端应用、服务器应用和web服务的生产力套件集成,例如由华盛顿雷德蒙顿的微软公司制造的用于MICROSOFT OFFICE生产力套件。客户端应用的示例可以包括但不限于MICROSOFT WORD,MICROSOFTMICROSOFT MICROSOFT MICROSOFTMICROSOFT MICROSOFT MICROSOFTPROJECT,MICROSOFT PUBLISHER,MICROSOFT WORKSPACE,MICROSOFTMICROSOFT OFFICE INTERCONNECT,MICROSOFT OFFICE PICTURE MANAGER,MICROSOFT SHAREPOINT DESIGNER,MICROSOFT LYNC和MICROSOFT FORBUSINESS。服务器应用的示例可以包括但不限于MICROSOFT SHAREPOINT SERVER,MICROSOFT LYNC SERVER,MICROSOFT SKYPE FOR BUSINESS SERVER,MICROSOFT OFFICEFORMS SERVER,MICROSOFT OFFICE SERVER,MICROSOFT OFFICE PROJECTSERVER,MICROSOFT OFFICE PROJECT PORTFOLIO SERVER和MICROSOFT OFFICE SERVER。web服务的示例可以包括但不限于MICROSOFTWINDOWS MICROSOFT OFFICE WEB APPLICATIONS,MICROSOFT OFFICE LIVE,MICROSOFT LIVE MEETING,MICROSOFT OFFICE PRODUCT WEB SITE,MICROSOFT UPDATESERVER和MICROSOFT OFFICE 365。实施例不限于这些示例。
除了其它元件之外,书签应用140可以包括媒体文件组件110和媒体书签组件130。媒体文件组件110可以通常用于管理媒体文件104,诸如记录媒体文件104,重放媒体文件104,修改媒体文件104,存储媒体文件104,识别媒体文件104,等等。媒体书签组件130通常可用于管理媒体文件104的电子书签126,例如生成和/或检测用于电子书签126的书签指示符,生成电子书签126,生成与电子书签126相关联的文本段128,呈现电子书签126和/或相关联的文本段128,激活电子书签126,修改电子书签126,等等。电子书签126可以包括用于识别媒体文件104内的特定位置的各种类型的信息。该信息可以包括时间信息,诸如与媒体文件104-c中的每一个相关联的时间信息106-d,空间信息(例如音频波形上的视觉标记符)或其他类型的标记信息。在一个实施例中,例如,媒体书签组件130可以使用时间信息106来生成书签126以包括表示媒体文件104的媒体文件段的开始时间的第一时间戳,表示媒体文件104的媒体文件段的结束时间的第二时间戳和/或媒体文件104的标识符。实施例不限于该示例。
在一个实施例中,例如,媒体文件组件110可以被布置成为用户接口120提供呈现表面122。除了其它元件之外,呈现表面122可以包括书签图标124、表示对应的媒体文件104-c的一个或多个媒体文件图标125-a,以及用于媒体文件104-c的各种书签126-1、126-2……126-e。
书签应用140通常可操作以创建媒体书签(例如,音频书签,视频书签),并且基于那些书签来启动重放。这对于与记笔记场景同时执行的音频录制或重放可能特别有用。在一个实施例中,当用户按下诸如“音频书签”按钮的特定用户接口元素时,书签应用140可以启动自动书签生成操作以生成用于媒体文件104的多个电子书签126,并且在指示时间戳和相关联的媒体文件104的笔记部分中插入每个电子书签126的书签126(例如,作为书签注释)。在另一实施例中,当用户按下诸如“音频书签”按钮的特定用户接口元素时,该书签应用140可以为媒体文件104生成单个电子书签126,并且在指示时间戳和相关联的媒体文件104的注解部分中插入书签注释。此外,显示标记可以位于音频搜索条上以便以视觉方式表示书签。通过选择音频书签,用户可以从放置书签的点开始重放音频记录,使得返回查阅音频记录中的关键时刻变得容易。以这种方式,用户不需要自己键入很多笔记,手动写下时间戳,收听整个录音,或者在搜索关键时刻时在记录上跳来跳去。
如图1A所示,书签应用140可以包括媒体文件组件110来管理媒体文件104。书签应用140还可以包括可操作地耦合到媒体文件组件110的媒体书签组件130,媒体书签组件130用于将媒体文件104的书签图标124呈现在用户接口120上。媒体书签组件130可以检测书签图标124的激活(例如,诸如指针、触摸屏或语音命令之类的输入设备),并响应于书签图标124的激活而基于媒体文件104的时间信息106来生成媒体文件104的多个电子书签126。媒体书签组件130可以在媒体文件104的媒体内容的记录操作或重放操作之前、之后或期间检测书签图标124的激活。在图2-4中示出展示该特征的示例用户接口视图。
书签图标124是用户开始创建单个或多个电子书签126的一种方式。然而,也可以使用其他用户接口元素来启动书签126的创建。例如,可以使用其他图形或视觉表示来代替书签图标124,包括图像、动画、单选按钮等。此外,也可以使用传统的菜单项和键盘快捷键来创建书签126。此外,可以基于与触摸屏显示器的触摸屏接口的触觉接触接合来创建书签126,例如某些滑动模式(例如,从左到右),敲击模式(例如,双击)等等。用于创建书签126的特定触发器可以根据实现方式而变化,并且实施例在该上下文中不受限制。
图1B示出了具有书签应用140的媒体系统100的框图,书签应用140具有用于响应于书签图标124的单个激活而自动生成媒体文件104的多个电子书签126的附加组件。
图1B示出了以硬件实现其至少一部分的逻辑,其中逻辑被布置成控制书签应用140来管理用于存储媒体内容的媒体文件104的书签126。在一个实施例中,书签应用140可以包括可操作地耦合到媒体书签组件130的媒体文件组件110。媒体文件组件110可以管理媒体文件104。媒体书签组件130可以识别存储媒体信息的媒体文件104,扫描媒体文件104以获得书签指示符132,基于书签指示符132自动生成用于媒体文件104的书签126,并将书签126呈现在用户接口120上。
如前所述,书签图标124可以被布置为根据书签应用140的特定操作模式来启动不同的书签操作集。书签应用140可以被配置为手动模式、自动模式或在某些情况下既有手动模式又有自动模式。在手动模式中,用户可以在记录或重放媒体文件104期间选择性地激活书签图标124,以便生成与每次用户激活书签图标124相对应的单个书签126。例如,当用户想要手动创建用于媒体文件104的每个书签126时,这是可取的。在自动模式中,用户可以单次激活书签图标124,以便启动自动书签生成操作以生成用于整个媒体文件104的多个书签126。用户可以在记录或播放媒体文件104之前、之后或期间激活书签图标124。书签应用140可以扫描媒体文件104以获得书签指示符132-r,并且基于书签指示符132-r自动生成一个或多个书签126。当书签应用140被设置为以手动模式和自动模式两者操作时,书签应用140可以响应于单个用户控制指令而为媒体文件104生成多个书签126,并且书签应用140可以响应于每个用户控制指令而为相应的(或不同的)媒体文件104生成单个书签126。因此,与书签图标124相关联的操作可以根据书签应用140是设置为手动模式还是自动模式而变化。
当处于自动模式时,书签应用140可以使用附加组件来扫描媒体文件104,并且基于扫描结果自动生成用于媒体文件104的一个或多个书签126。在一个实施例中,书签应用140可以扫描媒体文件104以获得一个或多个书签指示符132-r。
书签指示符132可以包括适于指示书签应用140何时应该生成书签126的任何信息。该信息可以被包含在由媒体文件104存储的媒体内容中,例如音频信息的部分,转换为文本信息的音频信息的部分,视频信息的部分,组合音频/视频信息的部分,对象信息等。该信息还可以包括与媒体文件104相关联的元数据,例如时间信息,日期信息,讲话者的身份信息,位置信息,房间信息,日历信息,应用信息,系统信息,设备信息,网络信息,无线信息,组件信息,外围设备信息,连接设备,电话会议信息,桥接信息,用于记录媒体内容的房间内的设备的设备信息等。在一个实施例中,书签指示符132-1可以包括或被实现为一个或多个关键词134。在一个实施例中,书签指示符132-2可以包括或被实现为一个或多个身份136。这些只是书签指示符132和其他书签指示符132(及相关联的组件)可用于给定的实现方式的两个示例。实施例在该上下文中不受限制。
如图1B所示,例如,书签应用140还可以包括语言到文本(STT)组件150和语音识别组件160。书签应用140可以分别使用STT组件150和语音识别组件160来检测书签指示符132-1、132-2。可以实现其他组件以检测其他类型的书签指示符132。实施例在该上下文中不受限制。
STT组件150可以用于以关键词134的形式检测书签指示符132-1。STT组件150可以可操作地耦合到媒体文件组件110和/或媒体书签组件130。STT组件150可被布置成从媒体文件104接收音频信息,将音频信息转换为文本信息,并输出文本信息以供媒体书签组件130使用。
STT组件150可以实现任何标准STT技术,以便将人类语音从音频形式转换为文本形式。STT组件150可以从媒体文件104接收音频信息,以词或句子的形式检测音频信息中的人类语音,并将人类语音从音频转换为文本。STT组件150可以在周期性、按需或连续的基础上执行STT转换操作。可以实现不同的STT组件150以解决各种类型的人类语言,包括不同的语言、方言、口音、词汇、地理位置等等。转换的文本可以临时或持久地存储在数据结构中,以供媒体书签组件130访问。除了转换的文本之外,可以将转换的文本与各种类型的元数据一起存储,例如标记在媒体文件104中与转换文本对应的音频信息何时被讲出的时间信息,媒体文件标识符等等。另外或可替代地,转换的文本可以被流式传输到媒体书签组件130,以允许实时或接近实时的自动书签生成操作。
媒体书签组件130可以从用于存储转换的文本的数据结构访问转换后的文本或访问从STT组件150实时流式传输的转换后的文本。然后,媒体书签组件130可以尝试从文本信息中检测一个或多个关键词134作为书签指示符132-1。例如,媒体书签组件130可以将文本信息与关键词列表134进行比较以检测匹配。当存在匹配时,媒体书签组件130可以生成具有相关元数据的书签126,诸如媒体文件标识符和/或时间信息。
关键词134可以包括指示媒体文件104内的重要或相关时刻的任何特定词语或短语。关键词134的示例可以包括但不限于名字,姓氏,话题,语句,问题,时间,日期,主题词或适用于给定媒体文件104的任何其他关键词。不同组的关键词134可以用于不同类型的媒体文件104。
在一个实施例中,可以通过主题或特定话题来选择关键词134。例如,如果媒体文件104是在特定主题或主题内的话题中的班级讲座的记录,则可以对该特定媒体文件104使用适合于该主题或话题的一组关键词134。如果主题或话题是微积分,例如,一组关键词134可以包括诸如“等式”或“派生”或“微分”之类的术语。例如,如果主题或话题是生物学,则一组关键词134可以包括诸如“属”或“物种”或“遗传学”之类的术语。如果媒体文件104是商务会议的记录,那么适用于商业环境的一组关键词134可以用于该特定媒体文件104,例如“利润”或“费用”或“应计额”。
在一个实施例中,可以通过句法或词汇的类型来选择关键词134。例如,可以将暗示重要度的词语诸如“重要”或“战略”或“紧急”用作为书签指示符132-1。也可以使用诸如“这将出现在测试中”或“这是高优先级项目”的短语。
在一个实施例中,媒体书签组件130可以搜索经转换的文本和关键词134之间的显式匹配。在另一个实施例中,媒体书签组件130可以搜索转换的文本和关键词134之间的隐式匹配。例如,媒体书签组件130可以实现类似于搜索引擎关键词逻辑的模糊逻辑,以检查单词的分组以便推断意义。媒体书签组件130然后可以基于推断的意义生成书签126。
除了使用书签指示符132-1之外,媒体书签组件130还可以用于在书签126周围或附近创建一个或多个文本段128,以便与书签126一起插入到呈现表面122中。例如,假设STT组件150在用于关键词检测的转录操作期间将用于媒体文件104的先前转换的文本存储在数据结构中。一旦检测到关键词134,媒体书签组件130可以生成书签126。另外,媒体书签组件130可以基于书签126取回与媒体文件的音频信息的定义部分对应的文本段128。例如,媒体书签组件130可以接收表示在与书签126相关联的时间之前、之后或期间出现的定义的音频长度的音频长度参数。媒体书签组件130可以利用与转换的文本一起存储的时间信息从对应于所述音频长度参数的数据结构中取回转换后的文本。然后,媒体书签组件130可以在应用程序的呈现表面122上呈现书签126和相关联的文本段128。
在STT组件150以前没有为媒体文件104转换文本或者没有将媒体文件104的先前转换的文本持久存储在数据结构中(例如,在流式传输模式中)的情况下,媒体书签组件130可以将书签标识符和与书签标识符相关联的音频长度参数发送到STT组件150。STT组件150可基于书签标识符和由音频长度参数指定的定义的长度将来自媒体文件104的音频信息的定义部分转换为定义的一组文本信息(例如,文本段128),并且输出定义的一组文本信息以供媒体书签组件130使用。然后,媒体书签组件130可以将书签126和定义的一组文本信息呈现在应用程序的呈现表面122上。
语音识别组件160可以用于以一个或多个身份136的形式检测书签指示符132-2。语音识别组件160可以可操作地耦合到媒体文件组件110和/或媒体书签组件130。语音识别组件160可被布置为从媒体文件104接收音频信息,执行语音识别以确定音频信息的源的身份信息,并输出身份信息以由媒体书签组件130使用。
在一些情况下,基于正在讲话的特定个体生成书签126可能是有用的。例如,假设媒体文件104是与在商业项目上工作的多个个人的商务会议的记录。每当项目负责人在发言时,都可能需要生成书签126。语音识别组件160可以分析媒体文件104以检测会议中每个讲话者的身份。例如,语音识别组件160可将来自讲话者的语音样本与语音剪辑库进行比较,每个语音剪辑包含特定个人的音频信息。可替代地,语音识别组件160可以使用诸如特定关键词134或关键词组134的上下文信息来推断音频记录中的各种讲话者的身份。语音识别组件160可以存储在媒体文件104中检测到的所有讲话者的身份,并且将每个讲话者的身份信息和关于每个身份何时讲话的时间信息输出到数据结构。可替代地,语音识别组件160可以将这样的信息直接流式传输到媒体书签组件130用于实时或接近实时的操作。
媒体书签组件130可以从身份信息检测身份作为书签指示符132-2。媒体书签组件130可以将身份信息与一组身份136进行比较。当存在匹配时,媒体书签组件130可以自动生成书签126。另外,媒体书签组件130可以自动生成用于书签126的文本段128。媒体书签组件130可以在应用程序的呈现表面122上呈现书签126和文本段128。
可以意识到,书签指示符132-1、132-2通过示例而非限制的方式呈现。也可以实现其他书签指示符132。例如,其他书签指示符132可以基于讲话者重音、讲话者语言、讲话者性别、词汇、句法、语义、设备、会议室、桥接信息、设备信息等。实施例在该上下文中不受限制。
图2示出了用户接口视图200。用户接口视图200示出了示例性应用程序的用户接口视图,例如MICROSOFT ONENOTE。MICROSOFT ONENOTE提供了一组特征,允许用户诸如在讲座、访谈或会议期间做笔记的同时记录并播放音频。尽管可以使用MICROSOFT ONENOTE来描述各种实施例,但是可以意识到,可以使用其他软件产品来实现相同或相似的概念。
如图2所示,用户接口视图200包括与另一个应用程序(在这种情况下为MICROSOFTONENOTE)集成的书签应用140的具有媒体文件组件110的一组用户接口控件204-f的上下文功能栏202。用户接口控件204可以包括用于管理媒体文件的各种控件,诸如将诸如音频的媒体内容记录到媒体文件的图标,停止向媒体文件记录媒体内容的图标,从媒体文件播放媒体内容的图标,暂停向媒体文件记录媒体内容的图标,将媒体内容倒放媒体文件的某个时间段(例如,15秒)的图标,以及使得媒体内容前进媒体文件的某个时间段(例如,15秒)的图标。上下文功能栏202可以包括与记录音频相关的其他用户接口元素,例如状态指示符、电平指示符和滑块艺术图。上下文功能栏202和用户接口控件204的特定用户接口元素可以根据应用程序的各种状态而变化,诸如音频当前是否正在播放、暂停、记录;当前是否选择音频剪辑;和/或用户当前正在查看的页面以及其它因素。在用户接口视图200中,媒体文件组件110以记录模式206操作,指示媒体文件组件110正在记录媒体文件104的媒体内容。
用户接口功能栏202还可以包括书签图标124和呈现表面122。呈现表面122可以用于在电子笔记本中记录、存储和呈现电子笔记。例如,用户可以在同时使用用户接口控件204从讲座录制音频的同时在呈现表面122中输入笔记。在记录模式206之前、之后或期间,用户可以激活书签图标124以启动自动书签生成操作以为媒体文件104生成多个电子书签126。例如,每当书签应用140在诸如具有触摸屏显示器的智能手机或平板电脑的便携式设备上执行时,媒体书签组件130可以基于与触摸屏显示器的触摸屏接口的触觉接触接合来检测书签图标124的激活。可替代地,用户可以使用诸如鼠标指针、触摸板或触笔按钮的输入设备来选择和激活书签图标124。
图3示出了用户接口视图300。用户接口视图300类似于用户接口视图200,因为它示出了用于诸如MICROSOFT ONENOTE的示例性应用程序的用户接口视图。在用户接口视图300中,媒体文件组件110在播放模式208中操作,指示媒体文件组件110正在从媒体文件104回放(“重放”)媒体内容。在播放模式208之前、之后或之中,用户可以激活书签图标124以启动自动书签生成操作以生成媒体文件104的电子书签126。
图4示出了用户接口视图400。用户接口视图400类似于用户接口视图200、300,因为它示出了诸如MICROSOFT ONENOTE的示例性应用程序的用户接口视图。在用户接口视图400中,媒体文件组件110在待机模式210中操作,指示媒体文件组件110暂停媒体内容到/自媒体文件104的记录或重放。在待机模式210期间,可以通过使书签图标124变灰使其不能被用户选择而将书签图标124渲染为不活动。
图5A示出了用户接口视图500。如用户接口视图500所示,媒体文件组件110可以被布置成为用户接口120提供呈现表面122。除了其它元件之外,呈现表面122可以包括媒体文件图标125-1,表示包含音频内容形式的媒体内容的媒体文件104-1(未示出),例如,来自2015年5月4日星期一给出的计算机科学讲座中的音频内容。讲座的音频记录被制作于2015年5月4日星期一下午1点53分。媒体文件104-1的名称是“讲座1”。
除了媒体文件图标125-1之外,呈现表面122还包括与讲座相关联的各种笔记502-g,笔记在呈现表面122的各个部分以文本形式呈现。用户可以生成笔记502,例如,在媒体文件104-1的记录模式206或播放模式208期间。有时,在记录模式206或播放模式208之前、之后或同时,用户可以选择并激活书签图标124(未示出),以自动生成用于媒体文件104-1的多个电子书签126,例如书签126-1,126-2。媒体书签组件130可以将书签126-1、126-2作为呈现表面122的一部分呈现在呈现表面122内的各种位置。在一个实施例中,媒体书签组件130可以基于特定标准来选择位置,诸如邻近分别在与书签126-1、126-2相关联的时间期间所做的笔记502的位置。可替代地,媒体书签组件130可以将书签126呈现在呈现表面122或与呈现表面122分离的另一呈现表面上的列表中。呈现书签126的特定位置可以根据给定的实现方式而变化,并且实施例在该上下文中不受限制。
媒体书签组件130可以以定义的格式呈现书签126-1、126-2。在一个实施例中,例如,定义的格式可以包括以下格式:
<书签标识符><“为…放置”><媒体文件名称><开始时间>例如,如果用户在音频轨道中的二十八秒处激活书签图标124,则媒体书签组件130可以使用上面提供的定义格式来生成书签126-1为“在0.28处为讲座1放置的书签1”。类似地,如果用户在音频轨道中的一分三十六秒处激活书签图标124,则媒体书签组件130可以使用上面提供的定义格式来生成书签126-2为“在1.36处为讲座1放置的书签2”。用于呈现书签126的特定格式可以根据给定的实现方式而变化,并且实施例在该上下文中不受限制。
在各种实施例中,书签126可以包括重放图标504-h。可以激活重放图标504以在由书签126存储的开始时间再现来自媒体文件104的媒体内容。如用户接口500所示,书签126-1、126-2可以各自分别具有相应的重放图标504-1、504-2。可以激活重放图标504-1以在表示媒体文件104-1的时间信息106-1的第一时间戳处再现媒体文件104-1,在这种情况下时间信息处于时间0.28。可以激活重放图标504-2以在表示媒体文件104-1的时间信息106-1的第一时间戳处再现媒体文件104-1,在书签126-2的情况下时间信息处于时间1.36。
在一个实施例中,重放图标504-1、504-2可以分别与书签126-1、126-2一起不断地呈现。在一个实施例中,可以响应于某些事件呈现重放图标504-1、504-2,诸如当用户将指针悬停在书签126-1、126-2之上时。实施例不限于这些示例。
媒体文件组件110可以控制媒体文件104的重放操作,并且基于为媒体文件104生成的书签126再现媒体文件104的媒体内容。例如,媒体文件组件110可以控制媒体文件104-1的重放操作,并且基于与书签126-1、126-2相关联的重放图标504-1、504-2的激活来再现媒体文件104-1的媒体内容(通过诸如扬声器的输出设备,通过音频转录生成的文本等)。
图5B示出了用户接口视图550。与用户接口视图500一样,用户接口视图550示出被布置提供用户接口120的呈现表面122的媒体文件组件110。呈现表面122可以包括除了其他元素之外的,表示包含来自于2015年5月4日星期一的计算机科学讲座中的音频内容形式的媒体内容的媒体文件104-1(未示出)的媒体文件图标125-1。讲座的音频记录制作于2015年5月4日星期一,开始于下午1点53分。媒体文件104-1的名称是“讲座1”。此外,除了其它元件之外,呈现表面122可以包括表示包含例如来自于2015年5月4日星期一给出的计算机科学讲座中的音频内容形式的媒体内容的媒体文件104-2(未示出)的媒体文件图标125-2。讲座的音频记录制作于2015年5月4日星期一,开始于下午4:00,在讲座1之后进行。媒体文件104-2的名称是“讲座2”。
用户接口视图550示出了多个媒体文件104-1、104-2可以与单个呈现表面122相关联的情况,其中为每个媒体文件104-1、104-2生成并呈现书签126。如先前关于用户接口视图500所描述的,媒体书签组件130可以生成并呈现一对书签126-1、126-3。书签126-1可以是标题为“讲座1”的媒体文件104-1的书签。重放图标504-1的激活将引起在开始时间0.28再现来自媒体文件104-1的媒体内容。书签126-3可以是标题为“讲座2”的媒体文件104-2的书签。重放图标504-3的激活将引起在开始时间0.15再现来自媒体文件104-2的媒体内容。
图5C示出了用户接口视图580。与用户接口视图500、550一样,用户接口视图580示出了布置成提供用户接口120的呈现表面122的媒体文件组件110。呈现表面122可以包括,除了其他元件之外的表示包含例如来自2015年5月4日星期一的计算机科学讲座中的音频内容形式的媒体内容的媒体文件104-1(未示出)的媒体文件图标125-1。讲座的音频记录制作于2015年5月4日星期一,开始于下午1点53分。媒体文件104-1的名称是“讲座1”。此外,除了其它元件之外,呈现表面122可以包括表示包含例如来自于2015年5月4日星期一的计算机科学讲座中的音频内容形式的媒体内容的媒体文件104-2(未示出)的媒体文件图标125-2。讲座的音频记录制作于2015年5月4日星期一,开始于下午4:00,在讲座1之后进行。媒体文件104-2的名称是“讲座2”。
用户接口视图580示出了其中为书签126-1呈现文本段128-1的实施例。文本段128-1表示从存储在媒体文件104-1中的音频信息的定义部分转换的文本信息。与书签126-1一样,媒体书签组件130可以在呈现表面122内的各个位置呈现作为呈现表面122的一部分的文本段128-1。在一个实施例中,媒体书签组件130可以基于例如靠近书签126-1或者在书签126-1附近所做笔记502的位置的特定标准来选择位置。如图5C所示,文本段128-1可以直接位于书签126-1下方。可替代地,媒体书签组件130可将书签126-1和/或文本段128-1呈现在呈现表面122上的列表中或与呈现表面122分离的另一呈现表面上。呈现文本段128-1的特定位置可以根据给定的实现方式而变化,并且实施例在该上下文中不受限制。
图6示出了用户接口视图600。与用户接口视图500,550一样,用户接口视图600示出了布置成提供用户接口120的呈现表面122的媒体文件组件110。除了其他元件之外,呈现表面122可以包括表示包含例如来自2015年5月4日星期一给出的计算机科学讲座中的音频内容形式的媒体内容的媒体文件104-1(未示出)的媒体文件图标125-3。讲座的音频记录制作于2015年5月4日星期一,开始于下午1点53分。媒体文件104-1的名称是“讲座1”。
用户接口视图600示出了使用不同类型的媒体文件图标125来可视地表示媒体文件104-1的情况。用户接口视图600包括呈现为音频波形或音频搜索条的媒体文件图标125。除了分别与书签126-1、126-2相关联的重放图标504-1、504-2之外或作为其替代,重放图标504-3、504-4可以被呈现为覆盖在媒体文件图标125的音频波形上的时间段分隔符。用户然后可以选择激活重放图标504-1、503-3中的任一个以开始书签126-1的重放操作。类似地,用户可以选择激活重放图标504-2、504-4中的任一个以开始书签126-2的重放操作。这可以增强用户体验,并且简单地书签激活,因为用户不需要向下滚动冗长的呈现表面122以激活特定书签126的重放操作。
媒体文件图标125可以以多种不同的方式生成。例如,在音频记录期间,可以在屏幕顶部附近显示波形,该波形从右向左滚动,表示由麦克风记录的音频内容。波形将有多种用途。首先,它用作输入电平表,因此用户可以确定音频记录是否太响或太安静。第二,当用户添加书签或其他音频同步点时,在波形上绘制标记以向他们显示新的书签126已被链接到音频记录。
一个实施例定义了适用于执行移动操作系统(诸如例如或者之类的)的移动设备实现的媒体文件图标125的示例性视觉设计。视觉设计可能包括几个基本属性。当录制首次开始时,大部分用于波形的屏幕空间将为空白。在录制的最初几秒钟内,波形将从右到左填充,直到填满整个空白空间,然后随着记录的进行,继续在该方向上滚动。波形的整个宽度可以对应于例如音频记录的定义的跨度。例如,可以选择或调整所定义的跨度以匹配特定设备或应用,例如特定移动设备的语音备忘录应用(例如,跨越5秒)。在这种情况下,由于智能手机将具有较少的可用于呈现的水平屏幕空间,波形的定义跨越可能会使用稍微缩短的时间跨度(例如4秒)。波形只显示单个音频通道(Y>=0)。当音频记录为单声道时,通过不显示低于X轴的波形部分可以节省屏幕不动产。在全宽度下,波形可以包括一系列大约80个相等宽度的垂直条。由于完整的音频波形将跨越4秒的时间段,所以这意味着每个条将对应于约0.05秒的音频。因此,音频的响度每0.05秒被采样。每个条的高度表示音频的响度,并将由给定时间iOS AVAudioRecorder类的averagePowerForChannel方法返回的值确定。最大高度条表示averagePowerForChannel返回值>=0dB,而零高度条表示其返回值<=-160dB。当添加书签126或其他音频同步点时,将音频波形上的相应条改变为不同的颜色以指示新的书签126已被链接到音频记录。这种颜色的变化可以伴随着动画来引起对其注意。在波形旁边,可以呈现时间计数器以显示音频记录的当前长度。该计数器将从0:00开始,每秒更新以显示新的经过时间。随着记录长度增长,根据需要将更多的数字添加到时间计数器中,例如,在10分钟标记处添加另一个数字显示10:00,将1小时标记的数字和冒号添加到显示1:00:00中,并添加10小时标记的数字以显示10:00:00。最大记录长度将是需要添加的数字总数。可以意识到,这仅仅是媒体文件图标125可能的一种视觉设计,并且用于波形的特定视觉设计的细节可以基于给定的实现方式而变化。
图7A示出了用户接口视图700。用户接口视图700示出了例如在诸如智能电话的移动设备上操作的诸如MICROSOFT ONENOTE的示例性应用程序的更详细的用户接口视图。此外,用户接口视图700示出了适于在记录模式206期间使用的用户接口配置。
如用户接口视图700所示,移动设备702可以包括用于呈现MICROSOFT ONENOTE的各种用户接口元素的用户接口120。用户接口120可以包括呈现表面122以呈现书签图标124、媒体文件图标125-4、125-5、笔记502和书签126-4。媒体文件图标125-4被实现为音频搜索条,其中书签126-5、126-6覆盖在与创建书签126-5、126-6的特定时间对应的时间段处。书签126-5、126-6可以与呈现表面122上的其他书签例如书签126-4相同或不同。可替代地,书签126-5、126-6可以是呈现表面122上的其他书签的重放图标504。实施例在该上下文中不受限制。
图7B示出了用户接口视图750。用户接口视图750示出了例如在诸如智能手机的移动设备上操作的示例性应用程序(例如,MICROSOFTONENOTE)的更详细的用户接口视图。此外,用户接口视图750示出了适合在播放模式208期间使用的用户接口配置。
如用户接口视图750所示,移动设备702可以包括用于呈现MICROSOFT ONENOTE的各种用户接口元素的用户接口120。用户接口120可以包括呈现表面122以呈现媒体文件图标125-6、笔记502和各种书签126-7、126-8、126-9和126-10。媒体文件图标125-6被实现为音频搜索条,其中书签126-7、126-8、126-9和126-10覆盖在与书签126-7、126-8、126-9和126-10创建的特定时间相对应的时间段处。书签126-7、126-8、126-9和126-10可以与呈现表面122上的其他书签例如书签126-7相同或不同,书签126-7显示为在笔记502上方的文本表示并且还作为媒体文件图标125-6上的散列标记。可替代地,书签126-7、126-8、126-9和126-10可以是呈现表面122上的其他书签的重放图标504。实施例在该上下文中不受限制。
图7C示出了用户接口视图780。用户接口视图780示出了例如在诸如智能手机的移动设备上操作的示例性应用程序(例如,MICROSOFTONENOTE)的更详细的用户接口视图。此外,用户接口视图780示出了适合在播放模式208期间使用的用户接口配置。
如用户接口视图780所示,移动设备702可以包括用户接口120,以呈现用于MICROSOFT ONENOTE的各种用户接口元素。与用户接口视图750一样,用户接口120可以包括呈现表面122以呈现媒体文件图标125-6、笔记502和各种书签126-7、126-8、126-9和126-10。此外,用户接口视图780包括书签图标124,书签图标124可用于在应用的播放模式208之前、之后或播放模式208期间启动自动书签生成操作以便自动地(例如,无人类或手动干预)创建书签126。媒体文件图标125-6被实现为音频搜索条,其中书签126-7、126-8、126-9和126-10覆盖在与所述书签126-7、126-8、126-9和126-10被创建的特定时间相对应的时间段上。书签126-7、126-8、126-9和126-10可以与呈现表面122上的其他书签相同或不同,例如书签126-7,其被显示为在笔记502上方的文本表示并且还作为媒体文件图标125-6上的散列标记。可替代地,书签126-7、126-8、126-9和126-10可以是呈现表面122上的其他书签的重放图标504。实施例在该上下文中不受限制。
如前所述,与书签图标124相关联的操作也可以使用诸如某些类型的触摸屏显示器上的触觉接触或语音命令之类的其他输入技术来实现。关于后一种技术,可以使用语音识别技术来自动地基于用户记录的内容来智能地添加书签。我们可以收听可能指示重要信息已经发声的特定关键词或短语,例如“加书签”或“记住”或“对此跟进”或“这是重要的”或用户的姓或名或一些其他识别的语音命令。当检测到识别的语音命令时,可以在记录中的相应时间添加书签126。
可以参考一个或多个逻辑流程来进一步描述上述实施例的操作。可以意识到,除非另有说明,否则代表性的逻辑流程不一定必须以所呈现的顺序或以任何特定的顺序执行。此外,关于逻辑流程描述的各种活动可以以串行或并行方式执行。可以使用所描述的实施例的一个或多个硬件元件和/或软件元件或者对于给定的一组设计和性能约束所期望的替代元件来实现逻辑流程。例如,逻辑流程可以被实现为由逻辑设备(例如,通用或专用计算机)执行的逻辑(例如,计算机程序指令)。
图8A示出了用于生成媒体文件的书签的逻辑流程800的一个实施例。逻辑流程800可以代表由本文描述的一个或多个实施例执行的一些或全部操作,诸如书签应用140的媒体文件组件110和/或媒体书签组件130。
在图8A所示的图示的实施例中,逻辑流程800可以在框802处识别存储媒体信息的媒体文件。例如,媒体文件组件110可以识别存储媒体信息的媒体文件104。所识别的媒体文件104可以由给定的应用和给定的用户创建,给定的应用和给定的用户可以与创建媒体文件104的书签的应用或用户相同或不同。
逻辑流程800可以可选地在框804处接收控制指令以自动生成媒体文件的书签。例如,媒体书签组件130可以在用户接口120上呈现媒体文件104的书签图标124。书签图标124可以由用户接口120可视地呈现。当用户选择书签图标124时,媒体书签组件130可以启动自动书签生成操作以生成书签126。另外或可替代地,用户可以使用诸如定义的快捷键组合的键盘命令来执行书签图标124的操作。
媒体书签组件130可以检测用户对书签图标124的激活。在一个实施例中,媒体书签组件130可以在媒体文件104的媒体内容的记录操作(例如,记录模式206)之前、期间或之后检测书签图标124的激活。在一个实施例中,媒体书签组件130可以在媒体文件104的媒体内容的重放操作(例如,播放模式208)之前、期间或之后检测书签图标124的激活。在一个实施例中,媒体书签组件130可以基于与诸如智能电话、智能手表、平板电脑或其他电子设备的电子设备的触摸屏显示器的触摸屏接口的触觉接触接合来检测书签图标124的激活。可替代地,媒体书签组件130可以基于语音命令来检测书签图标124的激活。
逻辑流程800可以在框806扫描媒体文件以获取书签指示符。例如,媒体书签组件130可以接收开始书签生成操作的控制指令,并开始扫描媒体文件104以获得一个或多个书签指示符132,诸如关键词134和/或身份136。
逻辑流程800可以在框808基于书签指示符生成针对媒体文件的书签。例如,媒体书签组件130可以检测书签指示符132,取回与书签指示符132相对应的媒体文件104时间信息106,并且基于取回到的媒体文件104的时间信息106生成针对媒体文件104的书签126。
逻辑流程800可以在框810处可选地为书签生成文本段。例如,媒体书签指示符130可以使用音频长度参数来生成用于书签126的文本段128。音频长度参数可以用于取回从与由音频长度参数指示的时间间隔对应的音频信息转换的文本信息。
逻辑流程800可以在框812处在用户接口上呈现书签和/或文本段。例如,媒体书签组件130可以在用户接口120的呈现表面122上呈现书签126和/或文本段128。书签126可以使用任何数量的不同类型的多媒体信息来呈现书签126,例如嵌入在呈现表面122上呈现的笔记内的基于文本的书签,音频波形上的彩色或其他可识别的标记,在与呈现表面122分离的不同的用户接口视图中,或其他用户接口元素。对于视觉受损的用户,当用户激活定义的用户接口元素或将焦点放置在特定书签或书签附近的笔记上时,可以通过文本到语音(TTS)技术来呈现书签126和/或文本段为可听的。
图8B示出了用于扫描媒体文件以获得书签指示符的逻辑流程820的一个实施例。逻辑流程820可以代表由本文描述的一个或多个实施例执行的一些或全部操作,诸如书签应用140的媒体文件组件110和/或媒体书签组件130。
在图8B所示的图示的实施例中,逻辑流程820可以在框806处扫描媒体文件以获得书签指示符。例如,媒体书签组件130可以接收控制指令以开始书签生成操作,并开始扫描媒体文件104以获得一个或多个书签指示符132,诸如关键词134和/或身份136。
逻辑流程820可以在框824处将音频信息从媒体文件转换为文本信息。例如,STT组件150可以在录制模式时从麦克风接收音频信息,或者当处于重放模式时存储在媒体文件104中,并使用各种STT技术将音频信息转换为文本信息。文本信息和时间信息可以存储在数据结构中,以供以后由媒体书签组件130取回,或者实时或接近实时地直接流式传输到媒体书签组件130。
逻辑流程820可以在框826处从文本信息中检测一个或多个关键词作为书签指示符。例如,媒体书签组件130可以从数据结构中取回文本信息,或直接从STT组件150接收文本信息,并且与呈一组关键词134的形式的书签指示符132-1进行比较。当媒体书签组件130找到匹配时,媒体书签组件130可以生成书签126和/或文本段128。
图8C示出了用于扫描媒体文件以获得书签指示符的逻辑流程840的一个实施例。逻辑流程840可以代表由本文描述的一个或多个实施例执行的一些或全部操作,诸如书签应用140的媒体文件组件110和/或媒体书签组件130。
在图8C所示的图示的实施例中,逻辑流程840可以在框806处扫描媒体文件以获得书签指示符。例如,媒体书签组件130可以接收开始书签生成操作的控制指令,并且开始扫描媒体文件104以获得一个或多个书签指示符132,诸如关键词134和/或身份136。
逻辑流程840可以在框842处执行语音识别以确定音频信息的源的身份信息。例如,语音识别组件160可以在记录模式下从麦克风接收音频信息,或者在重放模式时存储在媒体文件104中,从音频记录中识别各种讲话者。身份信息和时间信息可以存储在数据结构中,以供以后由媒体书签组件130取回,或者实时或接近实时直接流式传输到媒体书签组件130。
逻辑流程840可以在框844处从身份信息检测身份作为书签指示符。例如,媒体书签组件130可以从数据结构中取回身份信息,或直接从语音识别组件160接收身份信息,并且与呈一组身份136的形式的书签指示符132-2进行比较。当媒体书签组件130找到匹配时,媒体书签组件130可以生成书签126和/或文本段128。
图8D示出了用于生成用于媒体文件的书签的逻辑流程860的一个实施例。逻辑流程860可以代表由本文描述的一个或多个实施例执行的一些或全部操作,诸如书签应用140的媒体文件组件110和/或媒体书签组件130。
逻辑流程860可以在框808处基于书签指示符生成用于媒体文件的书签。例如,媒体书签组件130可以检测书签指示符132,取回对应于书签指示符132的媒体文件104的时间信息106,并且基于取回到的媒体文件104的时间信息106生成用于媒体文件104的书签126。
逻辑流程860可以在框862处基于书签取回在与媒体文件的音频信息的定义部分对应的文本段。例如,媒体书签组件130可以基于书签126将来自媒体文件104的音频信息转换成文本信息。媒体书签组件130可以使用与书签126相关联的音频长度参数从存储在数据结构中的文本信息和相关联的时间信息中取回文本段128。音频长度参数可以指示时间信息,例如时间间隔的开始时间和结束时间。媒体书签组件130可以使用音频长度参数通过检查与文本信息一起存储的时间信息来定位与时间间隔对应的文本信息,时间信息诸如指示文本信息何时作为媒体文件104中的音频信息出现的时间戳。
逻辑流程860可以在框864处在应用程序的呈现表面上呈现书签和文本段。例如,媒体书签组件130可以在用户接口120的呈现表面122上呈现上书签126和/或文本段128。可以使用任何数量的不同类型的多媒体信息来呈现书签126,例如嵌入在呈现表面122上呈现的笔记内的基于文本的书签,音频波形上的彩色或其他可识别的标记,在与呈现表面122分开的不同的用户接口视图中,或其他用户接口元素。对于视觉受损的用户,当用户激活定义的用户接口元素或将焦点放置在特定书签或书签附近的笔记时,可以通过文本到语音(TTS)技术来呈现书签126和/或文本段为可听的。
图9示出了用于生成媒体文件的书签的逻辑流程900的一个实施例。逻辑流程900可以代表由本文描述的一个或多个实施例执行的一些或全部操作,诸如书签应用140的媒体文件组件110和/或媒体书签组件130。
在图9所示的图示实施例中,逻辑流程900可以在框902处取回表示媒体文件的时间索引的第一时间戳。例如,媒体书签组件130可以从时间信息106取回表示媒体文件104的时间索引的第一时间戳。然后,媒体书签组件130可以生成书签126以包括表示媒体文件104的时间信息106的第一时间戳,第一时间戳对应于书签图标被激活的开始时间(例如,由用户选择和激活)。
逻辑流程900可以在框904处可选地取回表示媒体文件的时间索引的第二时间戳。例如,媒体书签组件130可从时间信息106中取回表示媒体文件104的时间索引的第二时间戳。媒体书签组件130然后可以生成书签126以包括表示媒体文件104的时间信息106的第二时间戳,第二时间戳对应于媒体文件104的媒体文件段的结束时间,其中,第二时间戳在第一时间戳之后。第二时间戳可以对应于诸如书签图标124或完全不同的用户接口元素的用户接口元素的选择。例如,书签图标124可以具有切换模式,其中第一激活对应于第一时间戳,而第二激活对应于第二时间戳。可替代地,第二时间戳可以对应于定义的时间间隔(例如,5m增量)、语音话语之间的停顿长度、关键词等等。
逻辑流程900可以在框906处可选地取回媒体文件的文件标识符。例如,媒体书签组件130可以从媒体文件104的数据存储库取回媒体文件104的文件标识符。可替代地,媒体书签组件130可以从媒体文件组件110请求文件标识符。文件标识符可以包括例如文件名、全局唯一标识符(GUTD)、本地唯一标识符、机器生成的标识符等等。
逻辑流程900可以在框908处生成具有第一时间戳、第二时间戳和/或文件标识符的媒体文件的书签。例如,媒体书签组件130可以生成具有第一时间戳、第二时间戳和/或文件标识符的媒体文件的书签126。媒体书签组件130可以将书签126存储为媒体文件104的元数据。书签126可以与媒体文件104一起存储或者与媒体文件104分离地存储在本地或远程数据存储库中。
在一个实施例中,书签126可以仅包括第一时间戳。一旦书签126被激活,媒体文件组件110可以在由第一时间戳指示的时间开始从媒体文件104再现媒体内容,并继续重放,直到由用户终止。
在一个实施例中,书签126可以包括第一时间戳和文件标识符。一旦书签126被激活,媒体文件组件110可以在由第一时间戳指示的时间开始从如由文件标识符标识的特定媒体文件104-1、104-2再现媒体内容,直到用户终止。除了其它使用场景之外,当存在与单个呈现表面122相关联的多个媒体文件104-1、104-2时,这可能是特别有用的。
在一个实施例中,书签126可以包括第一时间戳和第二时间戳。一旦书签126被激活,媒体文件组件110可以在由第一时间戳指示的时间开始从媒体文件104再现媒体内容,并在由第二时间戳指示的时间停止重放。第一时间戳和第二时间戳有效地标识媒体文件104的媒体片段或媒体剪辑。
在一个实施例中,书签126可以包括第一时间戳、第二时间戳和文件标识符。一旦书签126被激活,媒体文件组件110可以开始在由第一时间戳指示的时间从媒体文件104再现媒体内容,并在由第二时间戳指示的时间停止重放。第一时间戳和第二时间戳有效地标识媒体文件104的媒体片段或媒体剪辑,而文件标识符有效地从多个媒体文件104-1、104-2中识别特定的媒体文件104。
图10示出了用于从媒体文件再现加书签的媒体内容的逻辑流程1000的一个实施例。逻辑流程1000可以代表由本文描述的一个或多个实施例执行的一些或全部操作,诸如书签应用140的媒体文件组件110和/或媒体书签组件130。
在图10所示的图示实施例中,逻辑流程1000可以在框1002处在用户接口上呈现书签。例如,媒体书签组件130可将书签126呈现在应用程序的呈现表面122上。媒体书签组件130还可以呈现具有重放图标504的书签126,以便在表示媒体文件104的时间信息106的第一时间戳来再现媒体文件。另外或可替代地,媒体书签组件130可在诸如媒体文件图标125-3之类的媒体文件104的视觉表示上呈现书签126,或者用于书签126的重放图标504。
逻辑流程1000可以在框1004处检测在表示媒体文件的时间信息的第一时间戳处开始从媒体文件再现媒体内容的开始事件。例如,媒体书签组件130可以检测开始事件以使得在表示媒体文件104的时间信息106的第一时间戳处开始从媒体文件104再现媒体内容(例如,开始播放模式208)。开始事件的示例可以是激活与书签126相关联的重放图标504。
逻辑流程100可以在框1006处可选地检测停止事件,以在表示媒体文件的时间信息的第二时间戳处停止从媒体文件再现媒体内容。例如,媒体书签组件130可以检测停止事件以使得在表示媒体文件104的时间信息106的第二时间戳处停止从媒体文件104再现媒体内容(例如,停止播放模式208或进入待机模式210)。停止事件的示例可以是激活用户接口控件204以停止媒体文件104的再现。停止事件的另一示例可以在重放操作期间到达第二时间戳。
在各种实施例中,书签应用140可以被配置用于各种单用户场景。例如,多个用户可以各自具有其自己的媒体文件104的副本或版本,并相应地管理其书签126。此外,用户可以管理和选择一组书签126的各种性质或属性,以针对用户定制一组书签126。每个用户可以将书签126配置为具有不同的颜色、用户标识符、书签标识符、文本信息、音频信息、视觉信息等等。用户还可以为某些任务定制一组书签126的各种性质或属性,诸如做笔记、跟进、分发、发布、共享等等。
在各种实施例中,书签应用140可以被配置用于各种协作场景。如前所述,多个用户可以各自具有其自己的媒体文件104的副本或版本,并相应地管理其书签126。然而,在一些情况下,多个用户可以共享单个媒体文件104,例如共享笔记本中的媒体记录。在这种情况下,媒体书签组件130可以生成对应于不同用户的不同书签126。可以通过修改每个书签126的某些性质或属性来可视化不同的书签126,例如通过使用不同的颜色、用户标识符、书签标识符、文本信息、音频信息、视觉信息等来指定每个用户和相应的书签126。
图11示出了适于实现如前所述的各种实施例的电子设备1100。在一个实施例中,电子设备1100是诸如智能电话、智能手表或平板计算机的无线移动设备。电子设备1100可以包括与存储器1116通信的处理器1102。处理器1102可以是中央处理单元和/或图形处理单元。存储器1116是闪速存储器和随机存取存储器的组合。存储器116存储书签应用140,以实现如前所述的各种实施例的操作。书签应用140包括媒体文件组件110和媒体书签组件130的可执行指令。
处理器1102还耦合到数字媒体传感器1104。数字媒体传感器1104可以包括例如图像传感器,例如电荷耦合器件。图像传感器捕获呈现在显示器1106上的可视媒体。图像传感器捕获可视媒体并将可视媒体呈现在显示器1106上,使得用户可以观察所捕获的视觉媒体。数字媒体传感器1104还可以包括例如音频传感器,例如麦克风设备。音频传感器捕获通过扬声器1108再现的听觉介质。也可以基于给定的实现方式来添加其它数字媒体传感器1104(例如,热传感器,高度传感器,生物测定传感器等)。实施例在该上下文中不受限制。
触摸控制器1110连接到显示器1106和处理器1102。触摸控制器1110对应用于显示器1106的触觉信号做出响应。在一个实施例中,书签应用140在显示器1106上呈现各种各样的用户接口视图。也就是说,书签应用140包括由处理器1102执行以在显示器1106上呈现各种用户接口视图的可执行指令。
书签应用140与处理器1102关于由触摸控制器1110记录的应用于显示器1106的触觉信号进行通信。在一个配置中,书签应用140处理应用于书签图标124和重放图标504的触觉信号,并且如前所述,确定是生成书签126还是重放与书签126相关联的媒体文件。
电子设备1100还可以包括通常与智能手机、智能手表或平板计算机相关联的其他组件,诸如全球定位系统(GPS)处理器1112、功率控制电路1114以及无线信号处理器1116。实施例在该上下文中不受限制。
图12示出了适于实现如前所述的各种实施例的示例性计算体系结构1200的实施例。计算体系结构1200包括诸如一个或多个处理器、协处理器、存储器单元、芯片组、控制器、外围设备、接口、振荡器、定时设备、视频卡、音频卡、多媒体输入/输出(I/O)组件等各种通用计算元件。然而,实施例不限于计算体系结构1200的实现方式。
如图12所示,计算体系结构1200包括处理单元1204、系统存储器1206和系统总线1208。处理单元1204可以是各种市售可得到的处理器中的任何一种。双微处理器和其他多处理器体系结构也可以用作处理单元1204。系统总线1208为包括但不限于系统存储器1206的系统组件提供到处理单元1204的接口。系统总线1208可以是可以使用各种商业可用的总线体系结构中的任一种来进一步互连到存储器总线(具有或不具有存储器控制器)、外围总线和本地总线的若干类型的总线结构中的任何一种。
系统存储器1206可以包括各种类型的存储器单元,诸如只读存储器(ROM),随机存取存储器(RAM),动态RAM(DRAM),双数据速率DRAM(DDRAM),同步DRAM(SDRAM),静态RAM(SRAM),可编程ROM(PROM),可擦除可编程ROM(EPROM),电可擦除可编程ROM(EEPROM),闪速存储器,诸如铁电聚合物存储器的聚合物存储器,双向存储器,相变或铁电存储器,氧化硅-氧化物-氮化物-氧化物-氧化硅(SONOS)存储器,磁卡或光卡或适于存储信息的任何其它类型的介质。在图12所示的图示实施例中,系统存储器1206可以包括非易失性存储器1210和/或易失性存储器1212。基本输入/输出系统(BIOS)可以存储在非易失性存储器1210中。
计算机1202可以包括各种类型的计算机可读存储介质,包括内部硬盘驱动器(HDD)1214,从可移动磁盘1218读取或写入的磁软盘驱动器(FDD)1216,以及用于从可移动光盘1222(例如,CD-ROM或DVD)读取或写入的光盘驱动器1220。HDD 1214、FDD 1216和光盘驱动器1220可以分别通过HDD接口1224、FDD接口1226和光驱动器接口1228连接到系统总线1208。用于外部驱动器实现方式的HDD接口1224可以包括通用串行总线(USB)和IEEE 1394接口技术中的至少一者或两者。
驱动器和相关联的计算机可读介质提供数据、数据结构、计算机可执行指令等的易失性和/或非易失性存储。例如,许多程序模块可以存储在驱动器和存储器单元1210、1212中,包括操作系统1230、一个或多个应用程序1232、其他程序模块1234和程序数据1236。一个或多个应用程序1232、其他程序模块1234和程序数据1236可以包括例如书签应用140、媒体文件组件112、媒体书签组件130、安全组件536、发布组件532、消息组件534、用户接口538和消息传送应用542。
用户可以通过一个或多个有线/无线输入设备(例如键盘1238和诸如鼠标1240的指示设备)将命令和信息输入到计算机1202中。其他输入设备可以包括麦克风、红外线(IR)遥控器、操纵杆、游戏板、触针笔、触摸屏等。这些和其他输入设备通常通过耦合到系统总线1208的输入设备接口1242连接到处理单元1204,但是可以通过诸如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口等的其它接口连接。
监视器1244或其他类型的显示设备也经由诸如视频适配器1246的接口连接到系统总线1208。除了监视器1244之外,计算机通常还包括其它外围输出设备,例如扬声器、打印机等等。
计算机1202可以在网络环境中使用经由有线和/或无线通信到诸如远程计算机1248的一个或多个远程计算机的逻辑连接来操作。远程计算机1248可以是工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐设备、对等设备或其他公共网络节点,并且通常包括相对于计算机1202描述的许多或全部元件,尽管为了简洁起见,仅仅图示出存储器/存储设备1250。描绘的逻辑连接包括到局域网(LAN)1252和/或较大网络(例如广域网(WAN)1254)的有线/无线连接。这样的LAN和WAN联网环境在办公室和公司中是常见的,并且促进企业范围的计算机网络,例如内联网,所有这些网络可以连接到全球通信网络,例如互联网。
当在LAN联网环境中使用时,计算机1202通过有线和/或无线通信网络接口或适配器1256连接到LAN 1252。适配器1256可以促进到LAN 1252的有线和/或无线通信,其还可以包括设置在其上的无线接入点,用于与适配器1256的无线功能进行通信。
当在WAN联网环境中使用时,计算机1202可以包括调制解调器1258,或者连接到WAN 1254上的通信服务器,或者具有用于通过WAN 1254建立通信的其他方式,例如通过互联网。可以是内部或外部和有线和/或无线设备的调制解调器1258经由输入设备接口1242连接到系统总线1208。在网络环境中,相对于计算机1202或其部分描绘的程序模块可存储在远程存储器/存储设备1250中。将意识到,所示的网络连接是示例性的,并且可以使用在计算机之间建立通信链路的其他手段。
计算机1202可操作以使用IEEE 802系列标准与有线和无线设备或实体进行通信,诸如在与例如打印机、扫描仪、桌面和/或便携式计算机、个人数字助理(PDA)、通信卫星、与无线可检测标签相关联的任何设备或位置(例如,报亭、消息台、洗手间)和电话的无线通信中(例如,IEEE 802.11无线调制技术)可操作地设置的无线设备。这至少包括Wi-Fi(或无线保真)、WiMax和BluetoothTM无线技术。因此,通信可以是与常规网络一样的预定义结构,或者简单地是至少两个设备之间的自组织通信。Wi-Fi网络使用称为IEEE 802.11x(a,b,g等)的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络可用于将计算机彼此连接,将计算机连接到互联网,以及将计算机连接到有线网络(使用IEEE 802.3相关的介质和功能)。
可以使用硬件元件、软件元件或两者的组合来实现各种实施例。硬件元件的示例可以包括设备,组件,处理器,微处理器,电路,电路元件(例如,晶体管,电阻器,电容器,电感器等),集成电路,专用集成电路(ASIC),可编程逻辑器件(PLD),数字信号处理器(DSP),现场可编程门阵列(FPGA),存储器单元,逻辑门,寄存器,半导体器件,芯片,微芯片,芯片组等。软件元件的示例可以包括软件组件,程序,应用,计算机程序,应用程序,系统程序,机器程序,操作系统软件,中间件,固件,软件模块,例程,子例程,函数,方法,过程,软件接口,应用程序接口(API),指令集,计算代码,计算机代码,代码段,计算机代码段,字,值,符号或其任何组合。确定实施例是使用硬件元件和/或软件元件实现可以根据任何数量的因素而变化,诸如所需的计算速率,功率电平,热容差,处理周期预算,输入数据速率,输出数据速率,存储器资源,数据总线速度和其他设计或性能约束,如针对给定实现方式所期望的。
一些实施例可以包括制品。制品可以包括用于存储逻辑的存储介质。存储介质的示例可以包括能够存储电子数据的一种或多种类型的计算机可读存储介质,包括易失性存储器或非易失性存储器,可移动或不可移动存储器,可擦除或不可擦除存储器,可写或可重写存储器等。逻辑的示例可以包括诸如软件组件,程序,应用,计算机程序,应用程序,系统程序,机器程序,操作系统软件,中间件,固件,软件模块,例程,子例程,函数,方法,过程,软件接口,应用程序接口(API),指令集,计算代码,计算机代码,代码段,计算机代码段,字,值,符号或其任何组合的各种软件元件。在一个实施例中,例如,制品可以存储可执行的计算机程序指令,当由计算机执行时,可使计算机执行根据所述实施例的方法和/或操作。可执行计算机程序指令可以包括任何合适类型的代码,例如源代码,编译代码,解释代码,可执行代码,静态代码,动态代码等。可执行计算机程序指令可以根据预定义的计算机语言、方式或句法来实现,用于指示计算机执行某种功能。指令可以使用任何合适的高级、低级、面向对象、可视、编译和/或解释的编程语言来实现。
可以使用表达“一个实施例”或“实施例”及其衍生词来描述一些实施例。这些术语意味着结合该实施例描述的特定特征、结构或特性包括在至少一个实施例中。在说明书中的各个地方的短语“在一个实施例中”的出现不一定都指代同一实施例。
可以使用表达“耦合”和“连接”以及它们的衍生词来描述一些实施例。这些术语不一定是作为彼此的同义词。例如,可以使用术语“连接”和/或“耦合”来描述一些实施例,以指示两个或更多个元件彼此直接物理或电接触。然而,术语“耦合”也可能意味着两个或更多个元件彼此不直接接触,但仍然彼此配合或相互作用。
要强调的是,公开的摘要被提供以符合37C.F.R.第1.72(b)节,要求一个摘要,可以让读者快速确定技术公开的实质。应理解的是,摘要不用于解释或限制权利要求的范围或含义。此外,在前面的详细描述中,可以看出,为了简化本公开的目的,在单个实施例中将各种特征分组在一起。这种公开的方法不应被解释为反映所要求保护的实施例要求比每个权利要求中明确叙述的更多特征的意图。相反,如以下权利要求所反映的那样,本发明的主题在于少于单个所公开的实施例的所有特征。因此,以下权利要求被并入详细描述中,其中每个权利要求独立地作为单独的实施例。在所附权利要求中,术语“包括(including)”和“其中(in which)”分别用作各自术语“包括(comprising)”和“其中(wherein)”的通俗英语等同词。此外,术语“第一”、“第二”、“第三”等仅用作标签,并不意图对其对象施加数字要求。
尽管已经以结构特征和/或方法动作特有的语言描述了主题,但是应当理解,所附权利要求中限定的主题不一定限于上述具体特征或动作。相反,上述具体特征和动作被公开为实现权利要求的示例形式。

Claims (15)

1.一种装置,包括:
逻辑,其至少一部分以硬件实现,所述逻辑控制书签应用以管理存储媒体内容的媒体文件的书签,所述书签应用包括:
媒体文件组件,其被配置为管理媒体文件;以及
媒体书签组件,其能够操作地耦合到所述媒体文件组件,所述媒体书签组件被配置为识别存储媒体信息的媒体文件,扫描所述媒体文件以获得书签指示符,基于所述书签指示符自动生成所述媒体文件的书签,以及在用户接口上呈现所述书签的指示;以及
能够操作地耦合到所述媒体文件组件和所述媒体书签组件的组件,所述组件被配置为将所述媒体信息转换为文本信息,并将所述文本信息输出到所述媒体书签组件。
2.根据权利要求1所述的装置,还包括:
能够操作地耦合到所述媒体文件组件和所述媒体书签组件的语言到文本(STT)组件,所述STT组件被配置为从所述媒体文件接收音频信息,将所述音频信息转换为文本信息,以及将所述文本信息输出到所述媒体书签组件;以及
其中,所述媒体书签组件被配置为通过从所述文本信息检测一个或多个关键词来扫描所述媒体文件以获得书签指示符。
3.根据权利要求1所述的装置,还包括:
能够操作地耦合到所述媒体文件组件和所述媒体书签组件的语音识别组件,所述语音识别组件被配置为从所述媒体文件接收音频信息,执行语音识别以确定所述音频信息的源的身份信息,以及输出所述身份信息到所述媒体书签组件;以及
所述媒体书签组件被配置为通过从所述身份信息检测身份来扫描所述媒体文件以获得书签指示符。
4.根据权利要求1所述的装置,所述媒体书签组件还被配置为基于所述书签指示符取回与所述媒体文件的音频信息的定义部分相对应的文本段,以及将所述书签和所述文本段呈现在应用程序的呈现表面上。
5.根据权利要求1所述的装置,所述媒体书签组件还被配置为与所述书签的指示相关联地呈现重放图标,其中,所述重放图标是能够选择的以在表示所述书签的时间信息的第一时间戳处再现所述媒体文件。
6.根据权利要求1所述的装置,所述媒体文件组件被配置为通过控制所述媒体文件的重放操作以及基于所述书签来再现所述媒体文件的媒体内容来管理所述媒体文件。
7.根据权利要求1所述的装置,还包括能够操作地耦合到所述媒体文件组件的数字媒体传感器,所述数字媒体传感器被配置为记录所述媒体文件的媒体内容。
8.一种方法,包括:
识别存储媒体信息的媒体文件;
扫描所述媒体文件以获取书签指示符;
基于所述书签指示符生成所述媒体文件的书签;
在用户接口上呈现所述书签的指示;
将所述媒体信息转换成文本信息;以及
将所述文本信息输出到所述媒体书签组件。
9.根据权利要求8所述的方法,其中,所述媒体文件包括音频信息,并且其中扫描所述媒体文件以获得所述书签指示符包括:
执行语音识别以确定所述音频信息的源的身份信息;以及
从所述身份信息中检测身份作为所述书签指示符。
10.根据权利要求8所述的方法,包括:
基于所述书签指示符取回与所述媒体文件的音频信息的定义部分相对应的文本段;以及
在应用程序的呈现表面上呈现所述书签和所述文本段。
11.根据权利要求8所述的方法,其中,生成所述媒体文件的所述书签包括生成所述书签以包括表示所述媒体文件的时间信息的第一时间戳,所述第一时间戳对应于所述书签被生成的时间。
12.根据权利要求8所述的方法,其中,生成所述媒体文件的所述书签包括生成所述书签以包括表示所述媒体文件的时间信息的第二时间戳,所述第二时间戳对应于所述媒体文件的媒体文件段的端点,其中,所述第二时间戳在第一时间戳之后。
13.根据权利要求8所述的方法,其中,呈现所述书签的指示包括在应用程序的呈现表面上呈现所述书签的指示。
14.根据权利要求8所述的方法,其中,呈现所述书签的指示包括在所述媒体文件的表示上呈现所述书签的视觉指示符以及与所述书签的指示相关地呈现重放图标,其中,所述重放图标是能够选择的以在表示所述书签的时间信息的第一时间戳处再现所述媒体文件。
15.根据权利要求8所述的方法,还包括:检测在表示所述书签的时间信息的第一时间戳处开始再现来自所述媒体文件的媒体内容的开始事件,或者检测在表示所述书签的时间信息的第二时间戳处停止再现来自所述媒体文件的媒体内容的停止事件。
CN201680026385.6A 2015-05-06 2016-05-03 自动生成媒体文件书签的技术 Pending CN107636645A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562157577P 2015-05-06 2015-05-06
US62/157,577 2015-05-06
US14/741,580 2015-06-17
US14/741,580 US10331304B2 (en) 2015-05-06 2015-06-17 Techniques to automatically generate bookmarks for media files
PCT/US2016/030488 WO2016179128A1 (en) 2015-05-06 2016-05-03 Techniques to automatically generate bookmarks for media files

Publications (1)

Publication Number Publication Date
CN107636645A true CN107636645A (zh) 2018-01-26

Family

ID=55969489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680026385.6A Pending CN107636645A (zh) 2015-05-06 2016-05-03 自动生成媒体文件书签的技术

Country Status (4)

Country Link
US (1) US10331304B2 (zh)
EP (1) EP3292480A1 (zh)
CN (1) CN107636645A (zh)
WO (1) WO2016179128A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647710A (zh) * 2019-09-18 2020-01-03 上海掌门科技有限公司 信息呈现方法、装置、电子设备和计算机可读介质
CN111611505A (zh) * 2020-05-19 2020-09-01 掌阅科技股份有限公司 电子书中多媒体资源的访问方法、计算设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10121474B2 (en) * 2016-02-17 2018-11-06 Microsoft Technology Licensing, Llc Contextual note taking
WO2018174397A1 (ko) 2017-03-20 2018-09-27 삼성전자 주식회사 전자 장치 및 제어 방법
US11662895B2 (en) 2020-08-14 2023-05-30 Apple Inc. Audio media playback user interface
US20220261453A1 (en) * 2021-02-13 2022-08-18 Kevin Bilberry Real Estate Search TV Channel

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040223737A1 (en) * 2003-05-07 2004-11-11 Johnson Carolyn Rae User created video bookmarks
US20080155627A1 (en) * 2006-12-04 2008-06-26 O'connor Daniel Systems and methods of searching for and presenting video and audio
US20090306981A1 (en) * 2008-04-23 2009-12-10 Mark Cromack Systems and methods for conversation enhancement
US7823055B2 (en) * 2000-07-24 2010-10-26 Vmark, Inc. System and method for indexing, searching, identifying, and editing multimedia files
US20120245936A1 (en) * 2011-03-25 2012-09-27 Bryan Treglia Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020120925A1 (en) 2000-03-28 2002-08-29 Logan James D. Audio and video program recording, editing and playback systems using metadata
US20030093790A1 (en) 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
EP1968067A1 (en) 1999-03-30 2008-09-10 Tivo, Inc. Multimedia program bookmarking system
US6876729B1 (en) 1999-11-16 2005-04-05 Avaya Technology Corp. Bookmarking voice messages
US7032177B2 (en) 2001-12-27 2006-04-18 Digeo, Inc. Method and system for distributing personalized editions of media programs using bookmarks
US20040203621A1 (en) 2002-10-23 2004-10-14 International Business Machines Corporation System and method for queuing and bookmarking tekephony conversations
US8233597B2 (en) 2005-02-11 2012-07-31 Cisco Technology, Inc. System and method for the playing of key phrases in voice mail messages
US20090251440A1 (en) 2008-04-03 2009-10-08 Livescribe, Inc. Audio Bookmarking
US20100088726A1 (en) 2008-10-08 2010-04-08 Concert Technology Corporation Automatic one-click bookmarks and bookmark headings for user-generated videos
US8351581B2 (en) 2008-12-19 2013-01-08 At&T Mobility Ii Llc Systems and methods for intelligent call transcription
US8423363B2 (en) 2009-01-13 2013-04-16 CRIM (Centre de Recherche Informatique de Montréal) Identifying keyword occurrences in audio data
US8731935B2 (en) 2009-09-10 2014-05-20 Nuance Communications, Inc. Issuing alerts on detection of contents of interest introduced during a conference
US20110258216A1 (en) 2010-04-20 2011-10-20 International Business Machines Corporation Usability enhancements for bookmarks of browsers
US8953928B2 (en) 2010-12-21 2015-02-10 Google Technology Holdings LLC Bookmarks in recorded video
US20120290310A1 (en) 2011-05-12 2012-11-15 Onics Inc Dynamic decision tree system for clinical information acquisition
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US9318110B2 (en) 2011-09-09 2016-04-19 Roe Mobile Development Llc Audio transcription generator and editor
US20130145265A1 (en) 2011-12-02 2013-06-06 Nicole Cunningham Bookmark with Audio Playback
US20130266127A1 (en) 2012-04-10 2013-10-10 Raytheon Bbn Technologies Corp System and method for removing sensitive data from a recording
US9672815B2 (en) 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
US9372616B2 (en) 2013-01-31 2016-06-21 International Business Machines Corporation Smart interactive bookmarks
US20160328105A1 (en) 2015-05-06 2016-11-10 Microsoft Technology Licensing, Llc Techniques to manage bookmarks for media files

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7823055B2 (en) * 2000-07-24 2010-10-26 Vmark, Inc. System and method for indexing, searching, identifying, and editing multimedia files
US20040223737A1 (en) * 2003-05-07 2004-11-11 Johnson Carolyn Rae User created video bookmarks
US20080155627A1 (en) * 2006-12-04 2008-06-26 O'connor Daniel Systems and methods of searching for and presenting video and audio
US20090306981A1 (en) * 2008-04-23 2009-12-10 Mark Cromack Systems and methods for conversation enhancement
US20120245936A1 (en) * 2011-03-25 2012-09-27 Bryan Treglia Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647710A (zh) * 2019-09-18 2020-01-03 上海掌门科技有限公司 信息呈现方法、装置、电子设备和计算机可读介质
CN111611505A (zh) * 2020-05-19 2020-09-01 掌阅科技股份有限公司 电子书中多媒体资源的访问方法、计算设备及存储介质
CN111611505B (zh) * 2020-05-19 2023-08-29 掌阅科技股份有限公司 电子书中多媒体资源的访问方法、计算设备及存储介质

Also Published As

Publication number Publication date
EP3292480A1 (en) 2018-03-14
US20160328104A1 (en) 2016-11-10
WO2016179128A1 (en) 2016-11-10
US10331304B2 (en) 2019-06-25

Similar Documents

Publication Publication Date Title
CN107636645A (zh) 自动生成媒体文件书签的技术
CN107580705A (zh) 管理媒体文件的书签的技术
US20140310746A1 (en) Digital asset management, authoring, and presentation techniques
JP6384474B2 (ja) 情報処理装置および情報処理方法
US8930308B1 (en) Methods and systems of associating metadata with media
CN105190678A (zh) 语言学习环境
CN108292322A (zh) 使用从查看环境捕捉的信号的媒体数据文件的组织、检索、注释和呈现
US20220197931A1 (en) Method Of Automating And Creating Challenges, Calls To Action, Interviews, And Questions
KR102347068B1 (ko) 컨텐트를 재생하는 방법 및 이를 위한 디바이스
US20180367869A1 (en) Virtual collaboration system and method
Carter et al. Tools to support expository video capture and access
Campbell Tools and resources for visualising conversational-speech interaction
Lalanne et al. The IM2 multimodal meeting browser family
Crabtree et al. Digital records and the digital replay system
KR101408722B1 (ko) 블루투스 통신이 가능한 코드인식펜을 이용하여 책자형 교재의 정보를 재생시키는 교재재생앱이 탑재된 스마트기기
Bai [Retracted] Strategies for Improving the Quality of Music Teaching in Primary and Secondary Schools in the Context of Artificial Intelligence and Evaluation
Spence Disrupting Digital Monolingualism: A report on multilingualism in digital theory and practice
Yen Capturing multimodal design activities in support of information retrieval and process analysis
Papadakis A digital elearning educational tool library for synchronization composition & orchestration of learning session data.
Bellot et al. Report on clef 2018: Experimental ir meets multilinguality, multimodality, and interaction
Shemek Renaissance Princess/Digital New World: IDEA: Isabella d'Este Archive
Gupta et al. Internet of Things for Smart Class Rooms: A Review
KR101415447B1 (ko) 비디오 시청을 통한 소셜 네트워크 서비스 기반의 정보 공유 시스템 및 방법
CN112000256A (zh) 一种内容互动方法及装置
WO2020016646A1 (en) Method of automating and creating challenges, calls to action, interviews, and questions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination