CN111512370B - 在录制的同时对视频作语音标记 - Google Patents

在录制的同时对视频作语音标记 Download PDF

Info

Publication number
CN111512370B
CN111512370B CN201880084025.0A CN201880084025A CN111512370B CN 111512370 B CN111512370 B CN 111512370B CN 201880084025 A CN201880084025 A CN 201880084025A CN 111512370 B CN111512370 B CN 111512370B
Authority
CN
China
Prior art keywords
video
tag
user
audio signal
mounted display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880084025.0A
Other languages
English (en)
Other versions
CN111512370A (zh
Inventor
桑杰·苏比尔·贾瓦尔
克里斯托弗·莱恩·帕金森
汤姆·多伦特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Riowell
Original Assignee
Riowell
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Riowell filed Critical Riowell
Publication of CN111512370A publication Critical patent/CN111512370A/zh
Application granted granted Critical
Publication of CN111512370B publication Critical patent/CN111512370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Optics & Photonics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本文所述的技术方案让用户在录制时将标记添加到视频中。用户的声音可以被录音并作为标记添加到录制过程中的视频当中。本发明技术方案可以通过一个头戴式显示器来实施。该头戴式显示器可包括一个增强现实显示器。一方面,会显示一个标记列表。这些标记选自于与用户所录制的项目相关联的标记精选列表中。举例来说,一个项目可包括检查一个建设中的建筑体。另一方面,最常用标记可显示在一个给定语境当中。利用机器学习程序可以确定与某个特定语境相关联的最常用标记。在高层,机器学习程序把历史标记数据及其相关联的语境进行分类以便确定将一种语境与一种标记相关联的模式。

Description

在录制的同时对视频作语音标记
发明背景
移动计算设备,例如移动电话或头戴式显示器这样的便携式设备,可为用户提供诸如视频录像等多种成熟技术。在视频录制过程中可以利用声音作一些标记来达到控制视频播放和一些其他目的。通常,这些标记是在视频录制完成后人工添加的。例如说,用户可以在家里用手机录制一段室内的视频。然后,用户可以将这段视频加载到笔记本电脑中,并在视频上给家里的不同房间添加标记。这些标记可用于各种目的,例如在选择一个标记时为正在播放中的视频加注或为跳转视频指明位点。
发明内容
本发明所提供的信息介绍了一组概念的简化形式,将在后面的详细说明部分进行具体描述。本发明所提供的内容用于确定权利要求保护客体的关键特征或必要特征,而不是为了给限定权利要求保护客体的保护范围提供帮助。
本文所描述的技术方案让用户在录制视频时对视频作标记。在录制视频的同时把从用户那里录音下来的声音信号对视频作标记。从一个词语开始,例如“标记”具有可以激活标记的功能。举例来说,用户可以说出“开始标记,检查起居室壁炉”从而加入一个标记。可用开始方法指令与标记指令一起对一段视频作标记。在这个例子中,在检查壁炉这段视频录制完成时,用户可以说出“停止标记”来标记这段视频的结束。另一种替代的标记方法是用“插入起居室维护标记”指令来创建一个时间位点标记。时间位点标记与视频录制中的单一进度位点相关联。
本文所描述的一个技术方案可以通过头戴式显示器来实施。该头戴式显示器包含一个增强现实显示器。一方面,可以通过该增强现实显示器显示一些标记的列表。这些标记选自于与用户正在录制的某个项目相关联的一组标记集。举例来说,该项目可以对一个在建项目进行建筑检测。该项目可以特指对某特定建筑或泛指对任何建筑的检测。在对特定建筑时,该组标记集可以是由该建筑中的每个房间构成的数据组。这些标记包括建筑检查人员所要确定的各个房间的面积或特征;一方面,录像装置的位置信息可用于选择相关标记,例如哪些用户站在哪个房间的内部或建筑内部的哪些区域等信息。以这种方式,那些被建议的标记还可以用来作为检测项目中的工作流程或检查清单使用。
另一方面,在一般的项目场景中,最常用的标记以某个给定语境呈现。与该特定语境相关联的最常用的标记可以通过机器学习进程来确定。在高层,利用机器学习进程可对历史标记数据及其相关联的语境进行分类,从而可以确定将一个语境一个与标记相关联的模式。
附图说明
下面将参考附图详细说明本发明:
图1根据本发明的实施例显示在视频录制过程中添加现场声音标记的一种可能应用;
图2根据本发明的实施例显示了一种计算环境的实例;
图3根据本发明的实施例显示了一种头戴式显示器的实例;
图4A根据本发明的实施例显示了一种头戴式显示器的实例;
图4B根据本发明的实施例显示了一种头戴式显示器的实例;
图5根据本发明的实施例显示了一个标记列表的实例;
图6根据本发明的实施例描述了将不同标记关联至一段视频的示意图;
图7根据本发明的实施例显示用声音指令给视频添加标记的方法流程图;
图8根据本发明的实施例显示用声音指令给视频添加标记的方法流程图;
图9根据本发明的实施例显示用声音指令给视频添加标记的方法流程图;以及
图10根据本发明的实施例显示了一种适合使用的计算机环境的实例。
具体实施例的详细说明
现根据法律的要求对本发明的客体进行具体描述和详细说明。尽管,说明本身不用于限定本发明要求保护的范围,发明人理解权利要求所要保护的发明客体可能还有其他方式实施,包括其他不同步骤或结合本发明或其他技术方案中与本说明书所述的某些步骤相似的步骤的组合。而且,尽管术语“步骤”和/或“模块”可以用来指方法所用的不同构成部分,除非各个步骤的顺序被明确描述,否则这些术语不被解释为明示或暗示不同步骤之间有任何特定顺序。
本文所述的技术方案让用户在录制视频过程中在视频上添加标记。可以在视频录制的同时以所录的用户声音来添加标记。可以用一个开始词,如“标记”来激活标记功能。举例来说,用户可以说出“开始标记,检查起居室壁炉”从而加入一个标记。可以用开始方法指令与标记一起对一段视频作标记。在这个例子中,检查壁炉这段视频录制完成时,用户可以说出“停止标记”来结束这段的结尾。另一种添加标记的替代方法是利用“插入起居室维护标记”指令来创建一种时间位点标记。时间位点标记与视频录制中的单一进度相关联。词语“兴趣”和“开始”在这里可以描述为标记指令。一方面,将这些标记和与视频相关联的元数据文件保存。
在录制一个视频时,根据进度位点将标记进行时间编码。视频的进度位点以起始点到终止点的时间,例如秒,来计量。因此,一条视频录制了45分钟30秒,则有45分30秒进度位点。
一方面,本发明技术方案避免将与视频相关联的可听见的标记录制到视频中。一方面,一个标记指令重复两次即是一个开始录制指令。在这个特征中,说出标记指令,延时片刻后,例如说5秒钟,即可开始录制视频。停止标记指令可以停止录制。而另一方面,在出现“on-the-fly”视频编辑时包含该标记指令的视频部分将被删除。
一方面,给出标记指令时所录制的一些图像构成了摄像机拍摄的某个场景。然后将这些标记与所拍摄的图像相关联。这些图像可以通过一个录像设备,诸如固定在一个头戴式显示器上的第二摄像机来拍摄,或通过视频录像机。一方面,一个图像只是从录制好的视频中复制出来的一个单帧。同一个标记可以同时与一个视频和一个图像相关联。一方面,这些标记是带有注释的。
本文所述的一个技术方案可以通过一个头戴式显示器来实施。该头戴式显示器包括一个增强现实显示器。一方面,通过该增强现实显示器来显示一些标记的列表。这些标记选自于与用户正在拍摄的项目相关联的一组标记集。举例来说,该项目可包括对一个在建项目进行建筑检测。该项目可以特指对某特定建筑或泛指对任何建筑检测。在特定建筑时,该组标记集可以是由该建筑中的每个房间构成的数据组。这些标记包括建筑检查人员所要确定的各个房间的面积或特征;一方面,录像装置的位置信息可用于选择相关的标记,例如用户站在哪个房间内部或建筑内部的哪些区域的信息。以这种方式,这些被建议的标记还可以作为检测项目中的工作流程或检查清单使用。
另一方面,在一般项目场景中,最常用的标记以给定语境呈现。与特定语境相关联的最常用标记可以通过机器学习进程来确定。在高层,利用机器学习程序可对历史标记数据及其相关联的语境进行分类,从而确定将一种语境与一个标记相关联的模式。
现转至图1,检测环境100包括一个无线电发射塔110,一名检查人员118戴着头戴式显示器一边拍摄视频一边进行检测。无线电发射塔110包括四个部分,底部120、中低部122、上中部124和上部126,塔顶部有一盏灯128。塔身有钢缆112、114和116作固定支撑。检查人员118在检测过程中能发出添加标记的指令。一方面,可以显示检查人员118攀登塔110的时候所建议的标记。这些标记根据上下文语境被选择,例如之前接收的标记、当前的高度,以及设备的方向。每个高度可与一个或多个标记相关联,而类似地,方向也可以与标记相关联。举例来说,还可以检测合流箱或塔的其他组成部分,因而可以从多个方向拍摄视频。这些标记可以事先准备在计算设备中,诸如图2所示,然后传递给录像设备。另外,录像设备可以与其他设备一起工作添加标记以及识别相关标记。
现在来看图2,图2的方框图示意显示了一种根据本发明内容的一些具体实施例的操作环境200,通过计算设备(例如可穿戴设备)对录制的视频添加声音标记。环境200包括用户设备、数据源210、服务器211,以及标签引擎212。该用户计算设备包括,但不仅限于:智能手机202、台式计算机204、平板计算机204、笔记本计算机208,以及可穿戴式设备,诸如HMD头戴式显示器220以及一些计算器。其他可以在该环境中工作的用户设备(未显示)还包括:智能手表、虚拟现实耳机、增强现实眼镜、MP3播放器、全球定位系统(GPS)或设备、视频播放器、手持通信设备、车载计算机系统、嵌入式系统控制器、工作站,或上述这些设备的任意组合,或其他任何适合的设备。进一步地,本文所描述的许多单元为功能单元,他们和其他一些单元作为分散或分布的单元,以任何适当的组合与定位方式一起实施这些功能。
本文所述的功能可由一个或多个单元通过硬件、固件、和/或软件来实施。现在结合至少图3、4A和4B来讨论HMD头戴式设备220的不同实施例。尽管,HMD头戴式设备220主要是给佩戴者提供计算能力的头戴式计算设备。在图2所示的非限定性主体中,一种穿戴设备,例如HMD头戴式设备220可以戴在用户,例如检查人员218的头部。
HMD头戴式设备220可包括,但不仅限于,任何移动计算设备、可穿戴计算设备或计算设备。一种传统的或改进的计算架构包括,但不仅限于,操作系统、硬件部件、资源堆栈和/或与硬件部件相关的驱动器、在操作系统上执行的应用等。
用户设备可以是设在操作环境200的用户侧的用户设备,而服务器211则设在操作环境200的服务器侧。用户设备发送和接收通信信息,包括视频和图投影信息、标记集以及标记。用户设备为用户信息的情报源,诸如位置信息(如GPS)、日历信息、标记信息等。服务器211包括为实施本发明所披露的任何特征和功能及其组合而设计的服务器侧的软件以及与之相配套的在用户设备端运行的用户端软件。举例来说,服务器211可运行一个标签引擎,如图所示的引擎212。介绍这部分运行环境200是为了通过举例方式来具体说明适合的环境,并不要求每个实施方案都包括这些组合在一起的服务器211和分开的用户设备。
数据源210包括数据源和/或数据系统,被设置成令操作环境中的任何组成部分都可以使用其数据。例如,一方面,数据源210给图2所示的数据采集单元214或HMD头戴式设备220提供(或使之可访问)标记或项目数据。数据源210既可以与用户设备包括HMD头戴式设备220和服务器211分开,也可以被结合和/或整合于至少其中一部分。一方面,数据源210包括一个或多个传感器,被结合和/或整合于一个或多个用户设备或服务器211中。数据源210可用的用户数据的例子将结合数据采集单元214来进一步说明。数据源210包括一个知识基站,用于存储关于管辖地、用户、设备、项目、用户组,或其他与给视频添加标记有关联的信息。
环境200还包括一个通信网络,例如但不限于通信网络210,用户计算设备202-208和HMD头戴式设备220中的每一个都与之通信连接。通信网络250可以是任何通信网络,实际上包括任何虚拟的有线和/或无线通信技术,有线和/或无线通信协议等。应该理解,通信网络250实际上可以是任何虚拟的网络,可以将用户计算设备202-20跟至少一个可穿戴设备通信连接,例如但不限于HMD头戴式设备220。
标签引擎212可以对给定语境提供一个相关联的标记的列表。图中所示的标签引擎212是一个分开的构成部分,但也可以与所示的其他部分如HMD头戴式设备220合在一起。一方面,该标签引擎212部分可以设置在服务器211中,通过通信网络250与其他部分和设备通信。一方面,嵌入服务器211的标签引擎与HMD头戴式设备220实时传送标记,或在HMD头戴式设备220的用户录制项目之前。
标签引擎212包括一个数据采集单元214、一个音频处理单元216、一个投影单元218、以及一个上下文语境标记单元219。这些单元可具体化为一组计算机指令的编码或功能、程序模块、计算机软件服务,或在一个或多个计算机系统,如图10所述的计算设备1000上运行程序的设置。特别是,这些应用、服务或程序可以在一个或多个用户设备上运行,他们可能分布在一个或多个用户设备和服务器上,或者在云中实现。此外,在一些方面,系统200的这些单元可分布在整个网络中,包括云中的一个或多个服务器,如服务器211,以及客户端设备,如HMD头戴式设备220,或设置在用户设备中。此外,这些单元,由这些单元执行的功能,或由这些单元运行的服务可以在计算系统的适当的抽象层,例如操作系统层、应用层、硬件层,等实现。替代地或另外地,可以通过一个或多个硬件逻辑单元至少部分地实现这些单元的功能和/或在此所描述的技术方案方面的功能。例如,但不限于,可用的示例型硬件逻辑单元包括场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、系统单芯片系统(SOC)、复杂可编程逻辑器件(CPLD)等。另外,尽管本文所述的功能与示例的系统200中的特定单元有关,可以想到,在某些方面,这些单元的功能可以分布或共享于其他单元之间。
数据采集元件214收集可用于向用户推荐相关标记的数据。数据采集单元214通常负责从一个或多个数据源,例如数据源210,访问或接收(在某些情况下还识别)标记数据和上下文语境数据。在某些方面,数据采集单元214可用于促进上下文语境标记单元219的一个或多个用户的数据累积(包括众包数据)。数据采集单元214可以接收(或访问)该数据,并可选择累积、重新格式化,和/或组合,并存储在一个或更多数据存储器,如数据存储器213,语境标记单元219即可访问它。
标记数据可以接收来自不同的源而且可能以不同格式存在的数据。例如,在某些方面,可以由一个或多个传感器来确定由数据采集单元214接收的数据,所述一个或多个传感器可以与一个或多个用户设备,如HMD头戴式设备220,服务器(例如服务器211),和/或其他计算设备相关联。如本文所用的,传感器可以包括用于感测、检测,或以其他方式获取信息的功能、流程、单元及其组合,并且由硬件、软件,或硬件与软件两者一同来实施。作为举例,而非限定,数据可以包括由一个或多个传感器感测或确定的数据(在本文中称为传感器数据),例如移动设备的位置信息,智能手机数据(例如电话状态、收费数据、日期/时间或其他来自智能手机的信息),用户活动信息(例如:应用使用情况、在线活动、搜索、语音数据(例如自动语音识别)、活动日志、通讯数据、包括通话、短信、即时消息和电子邮件、网站帖子、与通信事件相关的其他用户数据;等等),包括在一个以上用户设备上发生的用户活动、用户历史记录、会话日志、应用程序数据、联系人数据、日历和日程表数据、通知数据、用户帐户数据(可能包括来自与个人助理应用程序或服务相关的用户首选项或设置的数据)、全球定位系统(GPS)数据、车辆信号数据、路况数据、她的数据(包括预测)、可穿戴设备数据、其他用户设备数据(可能包括设备设置、配置文件、网络连接(例如Wi-Fi网络数据)或配置数据,有关型号、固件或设备,设备的数据配对,例如用户将手机与蓝牙耳机配对的位置),陀螺仪数据,加速度计数据,可由传感器(或其他检测器)元件感测或以其他方式检测到的其他传感器数据,包括从与用户关联的传感器元件(包括位置、运动、方向、位置、用户访问、用户活动、网络访问、用户设备收费或其他能够由一个或多个传感器元件提供的数据),基于其他数据得出的数据(例如,可以从Wi-Fi,蜂窝网络或IP地址数据得出的位置数据),以及按本文所述可感知或确定的几乎任何其他数据源。在某些方面,数据可以是在数据流或信号中提供的。“信号”可以是来自对应数据源的数据源或数据流。例如,信号可以来自智能手机、家用传感器设备、GPS设备(如,位置坐标GPS设备)、HMD头戴式设备、可穿戴设备、用户设备、陀螺仪传感器、加速传感器、日历服务、电子邮件帐户或其他数据源。在一些方面,数据采集单元214根据需要连续地或周期性地接收或访问数据。
标记数据还可以包括可听见的标记或应用于视频的手动标记的录制。视频和标记可以与项目相关联。项目的特征可以通过项目类型、项目地点、项目客户、用户和其他特征来表现。例如,项目类型可以包括施工检查、销售检查、培训视频、维护项目等。这样,就可以检索以前在类似项目中使用的标记,为在将来的视频项目中提出建议。例如,之前在公司B的建筑工地A上使用过的标记可以在下次检查建筑工地A使用时被检索到,或者可能在检查公司B拥有的第二个建筑工地时使用。
上下文语境数据可以与各个标记相关联。上下文语境数据可包括录制添加标记的视频的设备的位置数据。位置数据可以包括陀螺仪数据、加速计数据以及由传感器(或其他检测器)元件感测或以其他方式检测到的其他传感器数据,包括从与用户相关联的传感器元件产生的数据(包括位置、运动、方向和定位)。对HMD头戴式设备或其他设备的当前位置数据可建议使用该HMD头戴式设备(或其他录像设备)之前具有相似位置参数时使用的标记。
可通过分析标记操作来清楚地定义或导出与标记相关的上下文语境数据。例如,之前提交的标记可以与上下文语境相关联,在其中生成一个单独的标记。上下文语境可包括项目、视频、用户、位置信息、时间、日期、视频进度位点,和其他数据。标记之间的顺序和关系可以通过与各个单独标记之间相关联的上下文语境数据来复制。上下文标记元件可以使用顺序来提出那些典型的跟随最近使用的标记的标记。可以在项目前面明确定义一种标记顺序。这些标记可以按顺序呈现给佩戴HMD头戴式设备的用户。这些标记可以遵循推荐的工作流程,并提醒用户对视频记录的各种事件加上标记。
推荐的工作流程可以由外部供应商来构建,存储在服务器上,然后实时地或在一个项目发生之前与HMD头戴式设备通讯。工作流程可以分出多个分支。HMD头戴式设备可以根据接收到的音频标记跟踪不同的分支。这样,音频标记就可以服务两个目的。首先,标记工作是对视频进行标记。其次,这些标记被用来对工作流程以及所示的后续标记提供导航控制。例如,“泵B结束检查-故障”或“泵B结束检查-正常”就可以是这种标记。正常标记可将工作流程引导至一条路径,而故障标记则将工作流程引导至另一条路径。例如,故障路径可能针对一系列问题做选择,然后可能会呈显更多细节或诊断标记。
显示的标记可以随着上下文语境的变化而动态更新。可以将相关性较小的标记删除,而将相关性较高的标记添加。
音频处理元件216处理音频信号并识别音频信号中的人类语音。可以通过音频处理单元将人类语音转换为文本。然后可以使用文本来控制标记功能。或者,可以将语音对映于控制指令,生成控制信号,而不是转换为文本。例如,可以识别“开始标记”指令,生成用于开始标记的控制信号。
通过录音设备,诸如与HMD头戴式设备220集成在一起的麦克风,接收音频信号。录音设备可以配置成任何类型的能录制声音的一个或多个设备,如麦克风。这种麦克风可以是全方位或定向性质的。录音设备可配置成可以录制在空中传播的声音信号并将这些声音信号转换为电信号。如本文所使用的,音频信号参数既可以指由录音设备来记录声音信号,也可以指由录音设备生成电信号。该音频信号可以用一种能识别音频信号内的声音模式来处理。然后该声音又可以通过一种语言模式来处理,该语言模式会将声音与单词、短语和/或句子进行匹配。
项目单元218可以提供一个项目信息界面,包括与项目相关联的策划标记列表。项目单元218还可以将由HMD头戴式设备录制成的视频与项目相关联,供该HMD头戴式设备,和另一个不同的HMD头戴式设备或另一台计算设备随后进行检索。项目单元218可以存储已有标记的视频并基于项目指定来检索已添加标记的视频。项目单元218可接受用户为项目生成的精选标记的列表。该精选列表可包括标记的顺序,包括嵌套标记。嵌套标记具有层次结构。例如,与无线电塔110,建筑物中的房间,建筑物的地板或某个其他区域中的特定级别相关联的标记可以被分组在一起。如上所述,接收到的标记可用于导航到不同的标记,包括通过导航分层组织的不同分支。可以将标记与相关联的上下文语境数据一起保存,以便在将来的适当的时候通过上下文分析来检索来帮助标记。例如,位置和方向信息可以与标记相关联,以当录像设备具有类似于与标记相关联的位置和方向时允许标记的检索。
上下文语境标记单元219生成可被输出以显示给用户的标记列表。如所提到的,可以将拍摄施工检查或其他操作的视频标记为导航目的。标记可能需要遵循特定的模式,而不是自由样式的方法,以便于随后对记录的视频进行导航或满足检查项目的要求。标记列表可以显示最有可能适合给定上下文语境的标记。
上下文语境标记单元219可以响应于请求或者自动地生成标记列表。可以在触发发生时由标记组件生成请求,例如从用户接收开始标记指令。在这种情况下,用户可以说出开始标记指令。作为响应,将建议标记。然后,用户可以说出所显示的标记和/或说出与标记的显示相关联的指示(例如,“第一标记”)。可替代地,在激活标记功能,选择具有相关联的标记的项目,指示用户可能标记视频的上下文信息的检测或通过其他触发时,显示潜在相关标记的列表。激活后,显示的标记可以随着上下文语境的变化而动态更新,以显示最相关的标记。用户可以通过发出声音指令(例如“显示更多标记”)来请求更新的列表或下一个最相关的标记。例如,与无线电塔110、建筑物中的某个房间,建筑物的地板或某个其他区域中的特定层级相关联的标记可以分组在一起。如上所述,接收到的标记可用于导航至不同的标记,包括通过层级结构的不同导航分支。可以将标记与相关联的语境数据一起保存,有助于将来在适当的时候,通过语境分析检索到这些标记。例如,对于与这些标记相关联的位置和方向信息,当录像设备的位置和方向与这些相关联的标记相近时,即可提取这些标记。
上下文语境标记组件219生成一组可以显示给用户的标记列表。如上所述,拍摄到的建筑检测或其他操作的视频录像可以为导航目的作标记。可能需要遵循特定的模式而不是随心所欲的方式来作标记,以便于随后对录制好的视频进行导航或满足项目检测的要求。该标记列表可以显示最有适合给定语境的标记。
上下文语境标记单元219可响应于请求或自动生成一个标记列表。某个触发情况出现时,例如当从用户那里接收到开始标记指令时,由标记单元生成请求。这种情况下,用户会说出开始标记指令。标记作为响应被提出。然后,用户可以说出所显示的标记和/或说出与标记的显示相关联的指示(例如“第一标记”)。可替代地,在激活标记功能时,选择具有相关标记的项目,检测指示用户可能标记视频的语境信息,或其他触发情况下,一组潜在相关的标记列表就会被显示出来。一经激活,所显示的标记可以随着内容的改变而动态更新以显示最相关的标记。用户可以通过发出声音指令(例如“显示更多标记”)来请求更新列表或下一个最相关的标记。
可能有几种生成列表的方法。起点可以是一组可用的标记列表。一方面,可用的标记按使用概率排序。一方面,显示最常用的标记。可以通过分析之前已标记的视频的标记数据来确定最常用的标记。在确定最有可能使用的标记时,可以具有共同特征(如位置、项目、用户、公司、地点)的视频中的标记赋予更大的权重。一方面,可用标记的范围因项目而收窄。例如,仅那些与由用户(或某些其他指示,如位置)指示的活跃项目相关联的标记可以显示。与标记相关联的语境信息也可以用来选择标记。通过将当前语境信息与具有相关标记的语境信息进行比对来使用语境信息。
在显示屏上显示的标记和/或用户所说的标记确实需要与实际添加到视频中的标记相匹配。例如,建议给用户的标记可以是说出标记时加在视频中的实际标记的简写。在使用精选的标记列表时尤其如此。然而,即使标记不是来自精选列表,也可以使用常见标记的速记或快捷形式。
某些显示标记可以是持久标记。持久标记需要通过使用或撤销来确认。这样的标记将始终保持显示为受推荐的标记,直到被用于标记视频或被撤销。通过不同的外观,例如不同字体大小、颜色等,可将持久标记与其他标记区分开。持久标记的一个例子可以是持续类标记的“结束”标记。如前所述,这些标记可以是一段视频中间的某个时间点或时间段。时间段标记可使用开始和结束指令。一旦使用了开始标记指令,对应的结束标记可能会显示为持久标记或推荐的标记。
图3显示了根据本说明书公开的一种HMD头戴式设备320的示例性实施例。该HMD头戴式设备320是可穿戴设备,且包括与图10的计算设备1000相似的技术特征。该HMD头戴式设备320可与图2的HMD头戴式设备220相近。该HMD头戴式设备320包括一个框架构件322。该框架构件322可以是一种框架结构。如图3所示,该框架构件322被设计和构造成可供用户佩戴。例如,框架构件322可以戴在用户的头上。HMD头戴式设备320还可以包括一个或多个稳定构件324(或稳定结构),用于将该框架构件322稳定地围在用户头部。
HMD头戴式设备320可以包括一个或多个旋转构件,例如但不限于第一旋转构件326和第二旋转构件328。结合图4A至4B的讨论,至少一个旋转构件326或328可旋转地连接至框架构件322,即,旋转构件326或328中的至少一个连接至框架构件并被设计和构造成可相对于框架构件322旋转。在至少一个实施例中,该第一旋转构件326可以是一根连接至显示模块330的悬臂。该显示模块330装有一个朝向用户眼睛的显示器设备(图3中未示出)。如图3所示,显示器设备位于用户视线LOS内。如结合图4A至4B所讨论的,用户可通过旋转该旋转构件326/328中的一个或多个来重新定位显示器设备,使该显示器设备从用户视线LOS中移出。请注意,在图3所示的HMD头戴式设备320的视图中,显示器设备被显示模块330的外表面遮挡了。
HMD头戴式设备320包括各种电声转换器,例如,麦克风和音频扬声器。一种这样的电声转换器332被设置在旋转构件326的远端附近。电声转换器332可以是主麦克风。在各种实施例中,HMD头戴式设备320包括一个或其他电声转换器,包括但不限于一个或多个辅助麦克风334和一个或多个音频扬声器,例如但不限于音频扬声器336。
HMD头戴式设备320可包括容纳一个或多个光子探测器(如,照相设备)的光学模块340,如光子探测器342和投影系统344。投影系统344可包括一个或多个光子发射器(如,扫描激光仪),扫描发光二极管(LED)等。光学模块340可以被设计和布置成可以相对于框架构件322旋转,使光子探测器342的视场(FOV)可旋转变化。在光学模块340的至少一些旋转方向中,光子探测器342的视场(FOV)至少与用户视场(FOV)相近似。
图4A显示了HMD头戴式设备420一个示例性实施例,其中该显示器设备位于用户LOS内部。图4B显示了图4A中的HMD头戴式设备420,其中该显示器设备的位置在用户视线LOS的外部。在各不同的实施例中,当显示器设备被定位于图4A所示位置时,HMD头戴式设备420可以在第一操作模式(例如,显示模式)下操作。当显示器设备被定位于用户视线LOS之外时(如图4B所示),HMD头戴式设备420在第二操作模式(如投影模式)下操作。
HMD头戴式设备420包括框架构件422,第一旋转构件226和第二旋转构件428。HMD头戴式设备420包括主麦克风432和多个辅助麦克风434,以及一个或多个音频扬声器436。此外,HMD头戴式设备420包括一个或多个照相机442和投影系统444。该投影系统444可包括一个或多个光子发射器,例如但不仅限于扫描激光源和/或扫描LED。照相机442可以是光子探测器。显示模块440内所容纳的显示器设备朝向用户眼睛设置。请注意,在图4A-4B所示的HMD头戴式设备420的视图中,该显示器设备被显示模块440的外表面遮挡。
如上所述,图4A示出了显示模块440可被定位成使显示器设备位于用户视线(LOS)内。将图4B与图4A进行比较,可以看出第一旋转构件426和/或第二旋转构件428中至少一个可相对于框架构件422旋转,这使显示器设备位于用户LOS之外(或从用户LOS中排除)。更具体地,该第二旋转构件428经由第一旋转接头454可旋转地连接至框架构件422,并且该第一旋转构件426经由该第二旋转接头452可旋转地连接至第二旋转构件428。
因此,通过改变框架构件422与第二旋转构件428之间的第一旋转方向和/或第二旋转构件428与第一旋转构件426之间的第二旋转方向中的至少一个,用户可以旋转改变显示器轴围绕相对其头部的一个轴的位置。
更具体地,通过(围绕相对于他们的头部的轴)旋转显示器的位置,用户可以将显示模块440选择性地使显示器设备被定位于其自身LOS以内。类似地,用户可以通过改变框架构件422和第二旋转构件428之间的第一旋转方向和/或第二旋转构件428和第一旋转构件426之间的第二旋转方向来选择性地使显示模块440被定位于其自身LOS以外(或从其LOS中移除)。请注意,通过改变第一旋转方向,框架构件422和第二旋转构件428之间的第一角度被改变。类似地,改变第二旋转方向,则第二旋转构件428和第一旋转构件426之间第二角度发生改变。还要注意,通过改变第一角度或第二角度中的至少一个,显示器设备和框架构件422之间的角度也发生了改变。
可以基于第一角度(即框架构件422与第二旋转构件428之间的角度)和第二角度(即第二旋转构件428和第一旋转构件426之间的角度)中的至少一个,和/或第一/第二旋转构件426/428的长度,来确定显示器设备是否在用户LOS内。在各种实施例中,该第一旋转接头454中包含一个或多个传感器,用以自动检测和/或确定该第一角度。类似地,该第二旋转接头中包括一个或多个传感器,用以自动确定该第二角度。这样的传感器可以包括,但不仅限于霍尔效应传感器和/或霍尔效应开关。因此,该显示器设备究竟是位于用户视线LOS以内还是位于用户视线LOS以外,可以根据传感器所产生的一个或多个信号来自动确定,这些传感器用于检测可穿戴设备(例如不限于HMD头戴式设备420)的多个构件之间的相对旋转和/或角度。
如图4A和4B所示,HMD头戴式设备420,作为非限定性实施例,并且可以通过除了框架构件422,第一旋转构件426的相对旋转和/或旋转取向以外的配置来实现在用户的LOS内外的显示器设备的转换和/或重新定位。
请注意,第一和第二旋转构件426/428可包括用于固定显示模块440的可旋转悬臂。因此,该悬臂可移动于在用户LOS内外。此外,用来确定该显示器设备何时在用户视线LOS内或外的方法也可适用于除了HMD头戴式设备420的构件之间的相对旋转之外的其他结构。例如,固定显示器设备的构件之间的相对平移也可以被探测和/或检测到。
现在转到图5,这里显示了与项目结合的相关标记。图5显示了检查人员118用他所戴的HMD头戴式设备上的照相机拍摄一个场景。该场景展现了前面图1中所描绘的无线电塔100的近距离视图。检查人员118在检查导管142和接线盒140时用他的手130抓住了塔100。潜在的标记列表150在HMD头戴式设备的增强现实显示器上显示。该增强现实显示器不会将环境遮挡,而是从观察者角度将该列表投影显示到环境中。该显示器还包括一个视频进度指示器158。
列表150包括一个建议显示更多标记152的控制开关,说出“显示更多标记”即可将该列表被其他标记刷新,例如,下一个最相关的标记可以显示在给定的列表上下文语境中。该列表150包括一个指示项目标题153,指明那些与无线电塔110的第二部分相关联的标记。在一方面,可以通过查询与项目部分相关联的标记来提取该标记。例如,无线电塔110的每个部分分别可与不同的标记组相关联。在该列表中显示了两个标记。该第一标记是面朝北的接线盒154,该第二标记是面朝南的接线盒156。用户可以通过说“朝南接线盒”或“朝北接线盒”来对视频作标记。这只是头戴式显示器如何向用户建议标记的一个例子。
被选中的标记可以显示在标记列表的上下文语境中。在这种情况下,可以根据上下文选择显示标记。如上所述,塔的每个部分可包括标记子集。整个检查项目可定义一份精选的标记列表。该头戴式显示器的高度或其他位置特征可作为建议标记使用。塔110的每个部分与高度的关联性可以利用头戴式显示器头进行测量。标记列表上下其他部分可能是最近选过的标记。这些标记可与明确的工作流程顺序相关联,使下一组标记可被确定。或者,可以通过分析类似项目中使用的标记来确定标记使用的大致顺序。以这种方式,可以确定最相关的那些标记,这些标记最有可能是用户接下来会使用的标记。标记使用的大致顺序可以通过学习其使用方式的机器学习程序法来确定。可以给每个可能的标记分配分数以指明其使用可能性。可以显示那些超过某个使用概率阈值的标记。或者,显示前x个标记。例如,显示前三个、五个、八个或十个标记。
所示的某些标记可以是持久标记。持久标记需要通过使用或解除来给予确认。除非该标记已经给视频作了标记或已被撤销,将始终被显示为建议标记。可以通过不同的外观,例如不同字体大小、颜色等,将持久性标记与其他标记区分开。持久标记的一个例子可以某个时段类标记的“结束”标记。如前所述,这些标记可用于视频的某个时间点或某个时间段。时间段标记可以用开始和结束指令。一旦使用了开始标记指令,则对应的结束标记可显示为持久性标记或建议性标记。
现在转到图6,图中所述视频600已添加了标记。该视频包括帧601、602、603、604和605。一方面,该标记与进度位点相关联,例如0:54这个位点610或1:12这个位点612。每个视频帧都可被唯一地识别,例如,每帧有一个序号或进度点。标记可包含一些元数据,被保存于链接到进度位点的单独文件中。这里显示了两条标记。第一条620为包含“第2部分第1接线盒”(即无线电塔110的第2部分)标记的识别符,与进度位点0:54这个时间位点相关联,而且第一标记仅有唯一的ID。用户可以说“第2部分第1接线盒”将该标记与视频中的进度位点相关联。第二条622为包含“北盖伊电缆附件”标记的识别符,其进度点为1:12这个时间点,且该第二标记的唯一ID为零。用户可以说“北盖伊电缆附件”将此标记与他们的进度位点关联到视频中。
显示器上所显示的标记和/或用户所说的标记确实需要与实际添加到视频中的标记相匹配。例如,向用户建议的标记可以是说出标记后添加到视频中的实际标记的缩写。在使用精选标记列表时,尤其需要如此。然而,即使标记不是来自精选列表,也可以使用常见标记的速记或快捷方式。
现转至图7,根据本文所描述的一种技术方案,方法700是在录制视频的同时用声音输入对视频添加标记。方法900可通过一个计算设备来实施,诸如之前所述的头戴式显示器。参考图2所述,方法900可以通过一组计算机一起工作来实施。
在步骤710,通过头戴式显示器来拍摄一段场景视频。视频所摄录的场景是真实世界的一部分。该场景包括镜头所观察的对象。录制的视频可保存到计算机内存中。
在步骤720,由头戴式显示器接收一第一音频信号。该音频信号录制了该头戴式显示器用户的声音。可以通过与头戴式显示器相关联的麦克风来录制音频信号。
在步骤730,对该第一音频信号进行音频分析以便识别一个语音标记征集指令。之前已经参考图2描述了一种对音频信号的处理。语音处理可以应用于音频信号以识别标记征集指令。例如,标记征集指令可以是“显示标记”。标记征集指令还包括其他用于提取相关标记的信息。例如,该标记征求指令可以是“在检查项目中将显示塔的第2部分的相关标记”。该标记征求指令还可包括查询请求。例如,标记征集指令可以是“显示接线盒标记”。
在步骤740,响应于标记征集指令,建立一个与场景相关联的标记列表。前面已参考图2描述了返回相关联的标记的方法。一方面,在接收到标记征集指令时,基于与标记以及头戴式显示器设备相关联的上下文信息来选择一组精选标记的子集。标记列表可以随着标记的使用和/或上下文变化而动态更新。
在步骤750,标记列表输出后通过头戴式显示器显示。一方面,该标记列表通过一个增强现实显示输出。
在步骤760,当视频处于某特定时间段位点,在头戴式显示器上接收到一个第二音频信号。该音频信号将头戴式显示器用户的声音录音下来。
在步骤770,对第二音频信号进行音频分析,以便从标记列表中识别标记。
在步骤780,参考图6所述,将标记与视频的特定时间段位点的关联性存储在计算机存储器中。显示器上所显示的和/或用户说出来的标记确实需要与实际添加到视频中的标记进行比对。例如,建议给用户的标记可以是说出标记后添加至视频的实际标记的缩写。在使用精选标记列表时尤其如此。但是,即使标记不是来自精选列表,也可使用常见标记的速记或快捷方式。在一方面,在特定时间段位点的场景的图像也被录制和存储。该图像可与标记相关联。
现在转到图8,根据本文所描述的技术各方面,在录制视频的同时使用语音输入给视频作标记的方法800。方法900可由计算设备运行,如之前描述的头戴式显示器。方法900的技术方案可以由一组计算机一起工作来运行,参考图2所述。
步骤810,在头戴式显示器录制一个场景的视频同时,由该头戴式显示器接收一个声音信号。把该头戴式显示器用户发出的声音收录为声音信号。通过该头戴式显示器的麦克风接收声音信号。
步骤820,对声音信号进行声音分析,通过声音信号进行声音分析来确定头戴式显示器的用户发出的开始标记指令。开始标记指令包括一个标记激活词和一个标记说明。音频处理可以通过头戴式显示器进行。标记说明可以是标记名称或识别标记的一些其他方法。举例来说,如果显示的标记列表带有数字/字母划界符,则该划界符可以作为说明。例如,用户可以说“插入1号标记”或“开始1号检查标记”。在这两个例子中,“标记”可以是一个标记激活词。
“开始”是作为开始标记指令部分一个标记方法指令的例子。用“开始”方法指令可以对一段长度或时长的视频开始作标记。开始指令可与停止标记过程的停止指令,如“停止标记”相配对。“插入”标记方法指令可以引导一个标记插入进度位点。一旦检测到一个开始标记指令,其对应的结束标记可被显示为持久标记或建议标记。
一方面,仅那些精选标记可被添加至视频。在这一实施方法中,可能需要对接收到的标记进行消歧。例如,用户可能无法准确引用标记得标识语言。在这种情况下,可以在用户所要选择的被建议的标记中提取最接近的那些标记。消歧界面还可允许用户基于当前语境情况请求最相关的标记。
在步骤830,将标记说明与视频特定时间段位点的关联性存储在计算机存储器中,参考图6所述。该特定时间段位点与接收到音频信号的时间段位点大致重合。一方面,在特定时间段位点的场景图像也被摄录并保存。其图像可以与标记相关联。
现转到图9,根据本申请的一个技术方案,描述了一种在录制视频同时用声音输入对视频加标记的方法900。该方法900可通过计算设备,诸如前面描述的头戴式显示器来实施。参考图2所描述的,该方法900可以由一组计算机一起来实施。
步骤910,在计算设备上收到一第一音频信号。该音频信号录取了该计算设备用户的声音。
步骤920,在第一音频信号上进行音频分析以便确定由计算设备用户发出的开始标记指令。前面已经参考图2描述了音频信号处理。可以将语音处理应用于音频信号以识别开始标记指令。例如,标记征集指令可以是“开始保持标记”,其他例子也是可能的。
步骤930,建立一组标记列表,该标记列表与计算设备的摄像机拍摄的场景相关。一方面,一收到一个标记即生成一个列表。该列表可用该设备的现有语境对可用标记进行排名。
步骤940,通过计算设备输出标记列表,随着上下文语境的改变该列表可以更新显示最多的相关标记。
步骤950,在计算设备上收到第二音频信号,该音频信号将计算设备用户的声音录音下来。
步骤960,对第二音频信号进行音频分析以便从标记列表中识别一个标记。
步骤970,将一个标记与一段后续由计算设备录制的视频的时间段位点的关联保存在计算机内存中,一方面,特定时间段位点的场景图像也被拍摄并保存,该图像可与该标记相关联。
以上描述了本发明的各种实施例,现将对适于实施本发明实施例的计算环境实例进行详细说明。参考附图,在图10呈现了一个计算设备实例,该计算设备总体以号码1000来指示。该计算设备1000只是作为举例说明而非用于对本发明的使用和功能范围加以任何限定。计算设备1000不能解释为具有与任意一个或多个部件的组合有关的独立性或要求。
本发明实施例可以是计算机代码或机器可使用的指令所描述的一般情况,包括计算机使用的和/或计算机可执行的指令,例如可通过计算机或其他机器来执行的程序模块,这些其他机器诸如个人数字助手、智能手机、平板电脑或其他手持设备。通常,程序模块包括流程、程序、对象、模块、数据结构以及其他,指那些可运行特定任务或实施特定抽象数据类型的代码。本发明的实施例可以在不同系统构架中应用,包括手持设备、消费电子产品、通用计算机、专用计算设备等。本发明的实施例还可以在分布式计算环境中应用,由通过通信网络相互连接的远程处理器运行任务。在分布式计算机环境中,程序模块可以放在本地和远程计算机存储介质,包括内存存储设备中。
参考图10,计算机装置1000包括总线1010,直接或间接连接下面的设备:内存1012、一个或多个处理器1014、一个或多个呈现部件1016、一个或多个输入/输出(I/O)端口1018、一个或多个I/O部件1020,以及示意表示的电源1022。总线1010表示一路或多路总线(例如一条地址总线、数据总线,或者其组合)。图10中不同模块的线条尽管是为了显示得更清楚,现实中,这些模块表示逻辑模块,而非实际的部件。举例来说,可以考虑一个呈现元件,如一个显示器设备为I/O元件。而且,处理器具有内存。本发明认识到图10中的图仅仅表现了一台与本发明的一个或多个实施例相连的示例的计算设备。而“工作站”、“服务器”、“笔记本”、“手持设备”等类型一律不做特别区分地落在图10中所指的“计算设备”的概念范围之内。
计算设备100通常包括一些不同的计算机可读介质。计算机可读介质可以是任何计算机1000可访问的可用的介质,包括易失性和非易失性介质,可移动和不可移动介质。举例来说,但非限定,计算机可读介质可包含计算机存储介质和通信介质。
计算机存储介质包括用以实施任何信息,诸如计算机可读指令、数据结构、程序模块或其他数据的存储方法或技术的易失和非易失、移动和不可移动的介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其他内存技术、CD-ROM、数字多功能磁盘(DVDs)或其他储存光盘、盒式磁带、磁带、磁盘或其他磁式存储设备,或任何其他可以用于保存所要信息并供计算设备1000读取的介质。计算机存储介质不包括信号本身。
通信介质通常包含计算机可读指令、数据结构、程序模块、或其他数据于一个调制数据信号,如载波或其他传输机制中,包括任何信息传输介质。“调制数据信号”这个术语指一种信号,具有一个或多个特征组或以信息编码于信号的方式而变化。以举例的方式,非限定,通信媒体包括有线介质,如有线网络或直线连接,以及无线介质,如声音、RF、红外线、以及其他无线介质。上述任何方式的组合也包含于计算机可读介质的范围内。
内存1012包括易失和/或非易失内存形式的计算机存储介质。内存可以失移动的、非移动的,或者其组合。硬件实例包括固态内存、硬驱、光盘驱动,等。计算机装置1000包括一个或多个处理器1014从不同的实体,如内存1012或I/O元件1020读取数据。呈现元件1016将数据指示呈现给用户或其他设备。呈现设备实例包括一个显示器设备、扬声器、打印元件、振动元件等。
I/O输入/输出端1018让计算设备1000与其他设备逻辑连接,这些设备包括I/O输入/输出元件1020,其中一些可以是内置的。图示的部件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备,等。I/O输入/输出元件1020可提供自然的用户界面(NUI),处理空中手势、声音、或用户产生的其他生理输入。在一些例子中,这些输入可以传输给一个适当的网络做进一步处理。NUI界面可以在屏幕上或靠近屏幕位置实现语音识别、触摸和电子笔识别、脸部识别、生物识别、姿势识别,可以实现对计算设备1000显示器上显示的空中手势,头和眼的跟踪,以及触觉的识别。计算设备1000可以设有深度摄像机,如立体成像系统、红外成像系统、RGB成像系统,以及其组合,用于做姿势检测和识别。另外,计算设备1000可以设有加速度计或陀螺仪使之能用于检测运动。加速度计或陀螺仪的输出可提供给计算设备的显示器以提供沉浸式增强现实或虚拟现实。
计算设备1000的某些实施例可包括一个或多个无线设备1024(或类似无线通信元件)。无线设备1024发送和接收无线电或无线通信。计算设备1000可以是适于接收通信以及通过各种无线网络的介质的无线终端。计算设备1000可以通过无线通信协议,如码分多址(CDMA)协议,全球移动电话(GSM)协议,或时分多址(TDMA)协议,以及其他协议来与其他设备进行通信。无线通信可以是短距离连接、长距离连接、或者短距离和长距离无线电信连接的组合。当我们指出“短”和“长”型连接时,我们所指的并非是两个设备之间的空间关系。而是我们通常所指的不同类类别或类型的短距离和长距离连接(即初级连接和次级连接)。短距离连接可包括,通过举例的方式而非限定,连接至某个设备的
Figure BDA0002554973730000201
连接(例如:移动热点)提供了访问无线通信网络,如使用802.11协议的WLAN连接;连接至另一个计算设备的蓝牙是第二个短距离连接或近距离通信连接的例子。长距离连接可以包括,作为举例而非限制,一个或多个CDMA、GPRS、GSM、TDMA、以及802.16协议。
各种元件,以及未显示的那些元件,在不背离权利要求保护范围的原则下也是可能有不同的安排的。对本发明实施例的所有描述是出于说明性目的而不是出于对权利要求的限定。读者在阅读过可替代的实施例的公开内容之后会因这些阅读而使发明显得显而易见。实施上述方案的替代方法在不偏离权利要求的保护范围的条件下也可以完成。一些特征及子组合是实用的,可以不参考其他特征及子组合来应用,且落在权利要求保护范围的预期之内。

Claims (18)

1.一种用声音输入对录制中的视频添加标记的方法,包括步骤:
通过头戴式显示器设备来录制场景视频;
在该头戴式显示器设备接收第一音频信号,该第一音频信号捕获该头戴式显示器设备用户的第一声音;
对该第一音频信号进行音频分析以识别出其中的声音标记征集指令;
响应该声音标记征集指令,创建与该场景相关联的标记列表;
输出该标记列表用于通过该头戴式显示器设备进行显示;
视频在某个特定时段位置,由该头戴式显示器设备接收第二音频信号,该第二音频信号捕获该头戴式显示器设备用户的第二声音;
对该第二音频信号进行音频分析以从该标记列表中识别出其中一个标记;并
将该标记与视频特定时段位置的关联性保存在计算机存储器中。
2.根据权利要求1所述的方法,其中该场景与项目相关联,并且其中创建该标记列表,包括从与该项目相关联的精选标记列表中提取标记。
3.根据权利要求2的方法, 还包括:确定该头戴式显示器设备的位置特征,从该精选标记列表中提取标记,包括提取与位置特征相关的标记。
4.根据权利要求3的方法,其中该位置特征为该头戴式显示器设备上的摄像机所朝向的方向。
5.根据权利要求2的方法, 其中该标记征集指令包括项目识别信息。
6.根据权利要求1的方法, 其中创建标记列表包括根据该头戴式显示器设备在当前语境中的使用概率对可用标记进行排名。
7.根据权利要求6的方法, 其中利用机器学习程序来计算该使用概率,以确定标记在给定语境中的使用模式。
8.一种用声音输入对录制中的视频添加标记的方法,包括步骤:
在头戴式显示器设备录制场景视频时在该头戴式显示器设备接收音频信号,该音频信号捕获该头戴式显示器设备用户的声音;
对该音频信号进行音频分析以识别由该头戴式显示器设备用户发出开始标记指令,其中该开始标记指令包括标记激活词和标记说明;
接收另一个音频信号,并对该音频信号进行音频分析以识别出显示标记指令来显示与所述标记说明相关的标记;
创建与场景相关联的标记列表,并通过该头戴式显示器设备输出显示该标记列表;并
把该标记说明与视频的特定时段位置的关联性保存于计算机存储器,其中该特定时段位置与收到该音频信号的时间点一致。
9.根据权利要求8的方法,其中该开始标记指令中还包括添加标记的方法。
10.根据权利要求9的方法,其中该添加标记方法为单点标记。
11.根据权利要求9的方法,其中该添加标记方法是时段位置标记,始于该视频中的第一进度位点,终于该视频中的第二进度位点。
12.根据权利要求8的方法, 其中创建该标记列表包括根据该头戴式显示器设备的当前语境的使用概率对可用标记进行排名。
13.根据权利要求12的方法, 其中利用机器学习程序来计算该使用概率,以便确定标记在给定语境中的使用模式。
14.一种具有嵌入式计算机可执行指令的计算机存储介质,当计算机处理器执行指令时,使移动计算设备执行用声音输入对录制中的视频添加标记的方法,该方法包括步骤:
在该计算设备上接收第一音频信号,该第一音频信号捕获该计算设备用户的第一声音;
对该第一音频信号进行音频分析以识别由该计算设备的用户发出的开始标记指令;
创建与场景相关的标记列表,该场景由与该计算设备相关联的摄像机捕获;
输出该标记列表以通过该计算设备进行显示;
在该计算设备上接收第二音频信号,该第二音频信号捕获该计算设备用户的第二声音;
对该第二音频信号进行音频分析以识别该标记列表中的一个标记;并且
将该标记与随后收录在该计算设备上的视频的特定时段位置的关联性予以保存。
15.根据权利要求14的计算机存储介质, 其中创建该标记列表包括根据该计算设备在给定语境中的使用概率对可用标记进行排名。
16.根据权利要求15的计算机存储介质, 其中利用机器学习程序来计算该使用概率,以便确定标记在给定语境下的使用模式。
17.根据权利要求15的计算机存储介质, 其中该给定语境为之前通过可听见的指令添加在该视频中的标记。
18.根据权利要求15的计算机存储介质, 其中该方法包括随着给定语境的变化动态更新该标记列表,其中该标记列表的更新包括移除相关性变低的标记以及增加相关性变高的标记。
CN201880084025.0A 2017-12-29 2018-12-26 在录制的同时对视频作语音标记 Active CN111512370B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762611895P 2017-12-29 2017-12-29
US62/611895 2017-12-29
US16/230,650 US11074292B2 (en) 2017-12-29 2018-12-21 Voice tagging of video while recording
US16/230650 2018-12-21
PCT/US2018/067542 WO2019133638A1 (en) 2017-12-29 2018-12-26 Voice tagging of video while recording

Publications (2)

Publication Number Publication Date
CN111512370A CN111512370A (zh) 2020-08-07
CN111512370B true CN111512370B (zh) 2021-08-03

Family

ID=67058903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880084025.0A Active CN111512370B (zh) 2017-12-29 2018-12-26 在录制的同时对视频作语音标记

Country Status (3)

Country Link
US (1) US11074292B2 (zh)
CN (1) CN111512370B (zh)
WO (1) WO2019133638A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097707A1 (en) * 2018-09-20 2020-03-26 XRSpace CO., LTD. Camera Module and Extended Reality System Using the Same
KR20190101325A (ko) * 2019-08-12 2019-08-30 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CN113241097A (zh) * 2021-04-26 2021-08-10 维沃移动通信(杭州)有限公司 录音方法、装置、电子设备和可读存储介质
CN113596375A (zh) * 2021-07-15 2021-11-02 深圳昌恩智能股份有限公司 一种具有循环录像功能的汽车行驶记录系统
CN113704540B (zh) * 2021-08-09 2023-08-22 深圳森磊弘泰消防科技有限公司 一种视频处理方法及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799603A (zh) * 2011-04-28 2012-11-28 三星电子株式会社 提供链接列表的方法和应用所述方法的显示设备
CN102945074A (zh) * 2011-10-12 2013-02-27 微软公司 根据所捕捉的语音和音频内容来填充列表和任务

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1157316B1 (de) * 1999-03-02 2003-09-03 Siemens Aktiengesellschaft System und verfahren zur situationsgerechten unterstützung der interaktion mit hilfe von augmented-reality-technologien
US8656282B2 (en) * 2007-01-31 2014-02-18 Fall Front Wireless Ny, Llc Authoring tool for providing tags associated with items in a video playback
US8855719B2 (en) * 2009-05-08 2014-10-07 Kopin Corporation Wireless hands-free computing headset with detachable accessories controllable by motion, body gesture and/or vocal commands
US10180572B2 (en) * 2010-02-28 2019-01-15 Microsoft Technology Licensing, Llc AR glasses with event and user action control of external applications
US20120249797A1 (en) * 2010-02-28 2012-10-04 Osterhout Group, Inc. Head-worn adaptive display
US8914368B2 (en) * 2010-03-31 2014-12-16 International Business Machines Corporation Augmented and cross-service tagging
CN102244740A (zh) * 2011-06-28 2011-11-16 青岛海信移动通信技术股份有限公司 视频信息添加方法和装置
US20130129142A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Automatic tag generation based on image content
KR101912409B1 (ko) * 2012-01-06 2018-10-26 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
US8922481B1 (en) * 2012-03-16 2014-12-30 Google Inc. Content annotation
JP6160154B2 (ja) * 2013-03-22 2017-07-12 セイコーエプソン株式会社 頭部装着型表示装置を利用した情報表示システム、頭部装着型表示装置を利用した情報表示方法、および、頭部装着型表示装置
US10430018B2 (en) * 2013-06-07 2019-10-01 Sony Interactive Entertainment Inc. Systems and methods for providing user tagging of content within a virtual scene
KR102252072B1 (ko) * 2014-10-14 2021-05-14 삼성전자주식회사 음성 태그를 이용한 이미지 관리 방법 및 그 장치
US10037312B2 (en) * 2015-03-24 2018-07-31 Fuji Xerox Co., Ltd. Methods and systems for gaze annotation
US20170206509A1 (en) * 2016-01-15 2017-07-20 Alex Beyk Methods and systems to assist technicians execute and record repairs and centralized storage of repair history using head mounted displays and networks
CN107483879B (zh) * 2016-06-08 2020-06-09 中兴通讯股份有限公司 视频标记方法、装置及视频监控方法和系统
CN107515674B (zh) * 2017-08-08 2018-09-04 山东科技大学 一种基于虚拟现实与增强现实的采矿操作多交互实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799603A (zh) * 2011-04-28 2012-11-28 三星电子株式会社 提供链接列表的方法和应用所述方法的显示设备
CN102945074A (zh) * 2011-10-12 2013-02-27 微软公司 根据所捕捉的语音和音频内容来填充列表和任务

Also Published As

Publication number Publication date
US20190205340A1 (en) 2019-07-04
US11074292B2 (en) 2021-07-27
WO2019133638A1 (en) 2019-07-04
CN111512370A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111512370B (zh) 在录制的同时对视频作语音标记
US9836889B2 (en) Executable virtual objects associated with real objects
US20190370544A1 (en) Object Initiated Communication
US11127210B2 (en) Touch and social cues as inputs into a computer
US20130177296A1 (en) Generating metadata for user experiences
US9569898B2 (en) Wearable display system that displays a guide for a user performing a workout
US20140306994A1 (en) Personal holographic billboard
US20180181810A1 (en) Hands-free contextually aware object interaction for wearable display
US9137308B1 (en) Method and apparatus for enabling event-based media data capture
CN104919396B (zh) 在头戴式显示器中利用身体握手
US8948451B2 (en) Information presentation device, information presentation method, information presentation system, information registration device, information registration method, information registration system, and program
CN102708120A (zh) 生活流式传输
US11782271B2 (en) Augmented reality device and methods of use
EP3475720B1 (en) Audio augmented reality system
US10586106B2 (en) Responsive spatial audio cloud
US10600329B2 (en) Providing live feedback using a wearable computing device
US10403285B1 (en) Methods and apparatus to define virtual scenes using natural language commands and natural gestures
CN112788443B (zh) 基于光通信装置的交互方法和系统
WO2023069988A1 (en) Anchored messages for augmented reality
US11536970B1 (en) Tracking of item of interest using wearable heads up display
JP6890868B1 (ja) 遠隔地間で意思疎通を行うための端末装置
US10397468B2 (en) Recorded image sharing system, method, and program
JP2022069230A (ja) 制御装置、プログラム、システム、及び制御方法
JP2023049413A (ja) 調査支援装置および調査支援方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant