CN111460263A - 视听场景中的自动参考查找 - Google Patents

视听场景中的自动参考查找 Download PDF

Info

Publication number
CN111460263A
CN111460263A CN202010069289.8A CN202010069289A CN111460263A CN 111460263 A CN111460263 A CN 111460263A CN 202010069289 A CN202010069289 A CN 202010069289A CN 111460263 A CN111460263 A CN 111460263A
Authority
CN
China
Prior art keywords
scene
sensor data
reference identification
identification application
relevance score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010069289.8A
Other languages
English (en)
Inventor
A.鲍兰格
S.卡茨
J.维尔贝克
S.马蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of CN111460263A publication Critical patent/CN111460263A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/489Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

视听场景中的自动参考查找。本公开的实施方案阐述了一种用于标识环境中的对象的计算机实现的方法,所述方法包括:经由至少一个传感器接收与环境相关联的第一传感器数据;将所述第一传感器数据与第一场景相关联地存储在存储器中;以及响应于接收到对与所述环境相关联的信息的用户请求:基于所述用户请求而选择所述第一场景;经由所述存储器而存取与所述第一场景相关联的所述第一传感器数据;以及分析所述第一传感器数据以标识包括在所述第一场景中的第一对象;以及使与所述第一对象相关联的信息经由至少一个输出设备而被输出。

Description

视听场景中的自动参考查找
技术领域
本公开的实施方案总体上涉及计算机信息系统,并且更具体地涉及视听(A/V)场景中的自动参考查找。
背景技术
互联网的建立使任何有互联网连接的人都可以容易地获得基本上任何主题的信息。此外,智能电话、可穿戴装置和其他设备的广泛使用基本上随时为许多用户提供互联网连接。由于经由互联网对知识源的存取几乎无所不在,因此用户可以通过发起基于文本的关键字或关键短语搜索来轻松搜索有关各种主题的信息。此外,与互联网连接的设备(诸如Microsoft CortanaTM、Apple SiriTM和Amazon AlexaTM等智能个人助理(IPA))使用户无需查看显示屏即可发起有关特定主题的信息搜索,或者能够作为文本而手动输入搜索参数。替代地,用户可以通过向IPA讲出问题或其他自然语言短语而口头从互联网检索信息。
一般来讲,为了对主题进行搜索,发起搜索的用户必须提供关于主题的至少某些特定信息。然而,在许多情况下,用户可能无法发起搜索,因为用户可能无法充分标识主题、描述与特定主题有关的关键信息和/或为要搜索的主题提供相关的搜索参数。例如,当一个人看到环境中的短暂对象时,用户可能无法识别该对象,或者无法准确地描述该对象。当用户无法以足够的精度发起对对象的互联网搜索时,与互联网连接的设备将无法提供包括关于对象的适用信息的搜索结果。因此,用户可能无法有效地利用互联网的庞大信息池来确定或以其他方式检查给定场景内的对象。
鉴于上述内容,用于标识环境的各方面的更有效技术将是有用的。
发明内容
本公开的实施方案阐述了一种用于标识环境中的对象的计算机实现的方法,所述方法包括:经由至少一个传感器接收与环境相关联的第一传感器数据;将所述第一传感器数据与第一场景相关联地存储在存储器中;以及响应于接收到对与所述环境相关联的信息的用户请求:基于所述用户请求而选择所述第一场景;经由所述存储器而存取与所述第一场景相关联的所述第一传感器数据;以及分析所述第一传感器数据以标识包括在所述第一场景中的第一对象;以及使与所述第一对象相关联的信息经由至少一个输出设备而被输出。
另外的实施方案还提供用于实现上文阐述的方法的各方面的方法和计算机可读存储介质。
所公开的技术的至少一个技术优点在于,可以标识给定场景内的对象,即使场景内不再存在所述对象时亦如此。另一优点在于,无需用户提供与场景中所标识的对象有关的详细信息便可以从一个或多个数据源获得所述对象的信息,并将所述信息提供给用户。
附图说明
为了能够详细地理解各个实施方案的上述特征,可以参考各个实施方案来更具体地描述以上已简要概述的发明概念,这些实施方案中的一些在附图中示出。然而,应注意,附图仅仅示出了发明概念的典型实施方案,因此决不应被认为是对范围的限制,并且存在其他同样有效的实施方案。
图1示出了被配置为实现本公开的一个或多个方面的参考标识系统的框图。
图2示出了根据本公开的各个实施方案的用于使用图1的参考标识系统来存储与一个或多个场景相关联的传感器数据的技术。
图3示出了根据本公开的各个实施方案的用于使用图1的参考标识系统来分析一个或多个场景以标识场景内的候选对象的技术。
图4示出了根据本公开的各个实施方案的用于使用图1的参考标识系统来获得和提供与场景内的所选择的对象相关联的信息的技术。
图5是根据本公开的各个实施方案的用于提供与包括在场景中的对象相关联的信息的方法步骤的流程图。
具体实施方式
在以下描述中,阐述许多特定细节以提供对各个实施方案的更透彻理解。然而,对本领域的技术人员来说将显而易见的是,可以在没有这些特定细节中的一个或多个的情况下实践发明概念。
图1示出了被配置为实现本公开的一个或多个方面的参考标识系统的框图。参考标识系统100包括计算设备110、一个或多个传感器120、一个或多个知识代理130和一个或多个输入/输出(I/O)设备114。计算设备110包括处理单元112和存储器116。存储器116存储参考标识应用程序162和场景存储区164。
在操作中,处理单元112接收来自传感器120的传感器数据。处理单元112执行参考标识应用程序162以将所接收的传感器数据的一部分作为场景存储在场景存储区164中。在存储场景之后,处理单元112作为触发而检测经由I/O设备114从用户所接收的信号。响应于检测到触发,参考标识应用程序162分析存储在场景存储区164中的一个或多个场景以标识一个或多个场景内存在的候选对象。在标识场景内的一个或多个候选对象之后,参考标识应用程序162选择候选对象中的一个作为所选择的对象。
在各个实施方案中,参考标识应用程序162可以从多个候选对象中选择特定的候选对象,其中参考标识应用程序162基于与每个候选对象相关联的相关性分数来确定该选择。在这样的情况下,参考标识应用程序162可以基于与候选对象相关联的一个或多个相关性因子来计算给定候选对象的相关性分数。例如,在一些实施方案中,参考标识应用程序162可以计算诸如位置、大小、移动量、历史数据等相关性因子和/或与给定候选对象与用户相关的概率相关联的其他因子的定量值。在一些实施方案中,参考标识应用程序162可以通过比较与每个候选对象相关联的相关性分数来从多个候选对象中选择一个候选对象,其中参考标识应用程序162选择与最高相关性分数相关联的候选对象。
在选择候选对象后,参考标识应用程序162生成与所选择的对象相关联的查询。在各个实施方案中,参考标识应用程序162可以将所生成的查询传输到一个或多个知识代理130,以便获得与所选择的对象相关联的信息。作为响应,参考标识应用程序162接收来自一个或多个知识代理130的响应,所述响应包括与所选择的对象相关联的信息。然后,参考标识应用程序162经由一个或多个I/O设备114向用户呈现从一个或多个知识代理130所接收的信息的至少一部分。
在一些实施方案中,参考标识应用程序162可以为用户接收与所选择的对象相关联和/或与一个或多个候选对象相关联的反馈。例如,参考标识应用程序162将接收来自用户的反馈,所述反馈指定参考标识应用程序162获得关于所选择的对象的更多信息。在这样的情况下,参考标识应用程序162可以从一个或多个知识代理130检索补充信息,并且可以向用户呈现补充信息。在另一示例中,参考标识应用程序162将接收反馈以从多个候选对象中选择不同的候选对象。在这样的情况下,参考标识应用程序162可以从其余多个候选对象中选择不同的候选对象作为新选择的对象,并且可以通过查询一个或多个知识代理130来检索关于新选择的候选对象的附加信息。
传感器120包括一个或多个设备,所述设备通过执行测量和/或收集数据来检测环境中对象的位置。在一些实施方案中,一个或多个传感器120可以耦合到计算设备110和/或包括在计算设备110内。在一些实施方案中,计算设备110可以经由一个或多个传感器120接收传感器数据,其中传感器数据反映了环境中一个或多个对象的位置和/或取向。一个或多个对象的一个或多个位置和/或一个或多个取向可以从一个或多个传感器120的绝对位置导出,和/或可以从对象相对于一个或多个传感器120的位置导出。处理单元112执行参考标识应用程序162以将传感器数据存储在场景存储区164中。在各个实施方案中,参考标识应用程序162可以与特定场景相关联地存储与在指定时间获得的传感器数据相关联的数据。例如,参考标识应用程序162可以将在指定时间范围内从一个或多个传感器120所收集的传感器数据存储为包括特定场景的数据集的一部分。在各个实施方案中,参考标识应用程序162还可以在针对特定场景的数据集中存储附加数据。例如,参考标识应用程序162可以将与指定的时间范围相关联的元数据添加为包括特定场景的数据集的一部分。
在各个实施方案中,一个或多个传感器120可以包括光学传感器,诸如RGB相机、飞行时间传感器、红外(IR)相机、深度相机和/或快速响应(QR)代码跟踪系统。在一些实施方案中,一个或多个传感器120可以包括位置传感器,诸如加速度计和/或惯性测量单元(IMU)。IMU可以是类似三轴加速度计、陀螺传感器和/或磁力计的设备。此外,在一些实施方案中,一个或多个传感器120可以包括音频传感器、无线传感器(包括射频(RF)传感器( ,声纳和雷达))、基于超声的传感器、电容传感器、基于激光的传感器、和/或无线通信协议(包括蓝牙、蓝牙低功耗(BLE)、无线局域网(WiFi)、蜂窝协议和/或近场通信(NFC))。
如上所述,计算设备110可以包括处理单元112和存储器116。计算设备110可以是包括一个或多个处理单元112(诸如片上系统(SoC))或者移动计算设备(诸如平板计算机、移动电话、媒体播放器等)的设备。一般来讲,计算设备110可以被配置为协调参考标识系统100的整体操作。本文公开的实施方案涵盖被配置为经由计算设备110实现参考标识系统100的功能的任何技术上可行的系统。
处理单元112可以包括中央处理单元(CPU)、数字信号处理单元(DSP)、微处理器、专用集成电路(ASIC)、神经处理单元(NPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)等。在一些实施方案中,处理单元112可以被配置为执行参考标识应用程序162,以便分析由一个或多个传感器120所获取的传感器数据、获取关于在场景中检测到的一个或多个候选对象的信息、并将所获取的信息呈现给用户。
在各个实施方案中,处理单元112可以执行参考标识应用程序162以接收和/或分析由I/O设备114生成的一个或多个信号。参考标识应用程序162然后确定所接收的信号是否包括指示参考标识应用程序162应当获得关于场景中的对象的更多信息的触发。当参考标识应用程序162确定检测到触发时,参考标识应用程序162在存储在场景存储区164中的一个或多个场景内标识一个或多个候选对象。在各个实施方案中,参考标识应用程序162可以基于由一个或多个传感器120获取并且与一个或多个场景相关联地存储的传感器数据来识别一个或多个候选对象。对于在存储在场景存储区164中的场景中标识的候选对象中的一个或多个,参考标识应用程序162计算与候选对象相关联的相关性分数。在一些实施方案中,参考标识应用程序162可以基于计算出的相关性分数来选择候选对象中的一个(“所选择的对象”)。在一些实施方案中,参考标识应用程序162可以使用一个或多个相关性参数来计算候选对象的相关性分数,所述相关性参数反映了候选对象与用户相关的概率。
在各个实施方案中,一旦选择了特定对象(例如,基于该对象与用户的相关性),参考标识应用程序162就可以向一个或多个知识代理130查询所选择的对象。在一些实施方案中,参考标识应用程序162可以生成与所选择的对象相关联的一个或多个查询,并且可以将一个或多个查询传输到一个或多个知识代理130。处理单元112接收来自一个或多个知识代理130的响应,其中一个或多个知识代理130基于所接收的查询来生成响应。参考标识应用程序162分析从一个或多个知识代理所接收的响应。在一些实施方案中,参考标识应用程序162可以对响应进行过滤以生成针对所选择的对象的相关信息集。然后,处理单元112经由一个或多个I/O设备114将相关信息集的至少一部分传输到用户。在一些实施方案中,一个或多个I/O设备114可以经由一个或多个用户界面呈现相关信息。例如,音频I/O设备114将发出口头呈现相关信息的口语音频信号。在另一示例中,视觉I/O设备114将视觉上将相关信息呈现为文本和/或图形。
存储器116可以包括存储器模块或存储器模块的集合。存储器116内的参考标识应用程序162可以由处理单元112执行,以实现计算设备110的整体功能,从而整体上协调参考标识系统100的操作。
场景存储区164可以存储由处理单元112检索的值和其他数据,以协调参考标识系统100的操作。在操作期间,处理单元112可以被配置为将值存储在场景存储区164中和/或检索存储在场景存储区164中的值。例如,场景存储区164可以存储传感器数据、元数据、来自外部源的先前存储的场景、数字信号处理算法、换能器参数数据等。场景存储区164包括在用户查询参考标识系统100之前(例如,紧接在用户查询之前)的过去特定时间长度的数据。在各个实施方案中,场景存储区164可以包括存储恒定的、预定数量的场景的缓冲区。在这样的情况下,当用户请求与环境相关联的信息时,参考标识应用程序162可以检索包括在缓冲区中的一个或多个场景。
I/O设备114包括至少一个能够接收输入的设备(诸如键盘、鼠标、触敏屏幕、麦克风等)以及能够提供输出的设备(诸如显示屏、扬声器等)。I/O设备114中的一个或多个可以并入到计算设备110中,或者可以在计算设备110的外部。
知识代理130包括至少一个生成对所接收的查询的响应的应用程序和/或数据库。基于查询的内容,所生成的响应包括针对给定对象的附加信息。在操作中,一个或多个知识代理130接收来自计算设备110的查询并生成对所述查询的响应。在各个实施方案中,知识代理130所生成的响应可以包括与所选择的对象相关联的附加信息,其中基于包括在所接收的查询中的内容来检索附加信息。例如,与鸟相关联的简单查询将使知识代理130生成包括关于鸟的一般信息的响应。与啄木鸟相关联的更详细查询将使知识代理130包括与啄木鸟相关联的更详细信息,所述信息除其他外,还包括分类数据和/或位置数据。在各个实施方案中,一个或多个知识代理可以从包括在计算设备110中的一个或多个内部数据源和/或外部数据源中检索附加信息。当从外部数据源检索信息时,一个或多个知识代理130可以生成附加查询以便从外部数据源获得信息。
图2示出了根据本公开的各个实施方案的用于使用图1的参考标识系统来存储与一个或多个场景相关联的传感器数据的技术。如图所示,参考标识系统200包括候选对象210、212、214、传感器220、参考标识应用程序162、场景存储区164和外部数据源230。传感器220包括音频传感器222、成像传感器224和/或运动传感器226。
在操作期间,一个或多个传感器220将传感器数据228传输到参考标识应用程序162。在各个实施方案中,传感器数据228可以包括与在指定时间段内在环境中的候选对象210、212、214的位置和/或取向有关的数据。例如,在第一指定时间段t0-t1期间,候选对象210、212、214具有初始位置;一个或多个候选对象210、214在第一指定时间段期间更改了位置。在该示例中,一个或多个传感器220可以在第一指定时间段内获取传感器数据228。相应地,运动传感器226获取了运动数据,音频传感器222获取了音频数据,和/或成像传感器224获取了成像数据。因此,传感器220传输到参考标识应用程序162的传感器数据228包括在第一指定时间段t0-t1内与候选对象210、212、214相关联的位置和/或取向数据。
参考标识应用程序162从传感器220接收传感器数据228,并生成包括传感器数据228的场景262。参考标识应用程序162将场景262发送到场景存储区164,其中将所述场景存储为场景262-1。在各个实施方案中,参考标识应用程序162可以接收与指定时间段相关联的传感器数据228。参考标识应用程序162可以将传感器数据228存储为与场景262相关联的数据集的一部分,其中场景262对应于指定时间段。例如,参考标识应用程序162最初在第一指定时间段t0-t1内接收第一传感器数据集。参考标识应用程序162然后可以生成包括所述第一传感器数据集的第一场景s1
在各个实施方案中,参考标识应用程序162可以将与指定时间段相关联的元数据234、264包括到场景262中。在一些实施方案中,计算设备110可以生成元数据264,或者可以从外部数据源230检索元数据234。例如,参考标识应用程序162可以在第一指定时间段内获取元数据234、264(例如,GPS数据、来自其他应用程序的数据、来自外部数据源的数据等)。然后,参考标识应用程序162可以在第一场景s1内包括在第一指定时间段内所获取的元数据和所接收的传感器数据228。可能与场景262相关联的元数据234、264的示例包括场景时间戳、关键字、位置数据、照明数据、文本描述和/或用于图像和/或音频处理的指令或参数。
在各个实施方案中,参考标识应用程序162可以使来自外部数据源230的所存储的场景232存储在场景存储区164中。例如,参考标识应用程序162可以使一部分内容(例如,电影、电视节目、歌曲等)与第一指定时间段相关联。在一些实施方案中,参考标识应用程序162可以接收一部分内容作为所存储的场景232;在这样的情况下,参考标识应用程序162可以生成场景262以包括所存储的场景232作为所包括的数据集。在一些实施方案中,参考标识应用程序162可以使所存储的场景232直接存储在场景存储区164中作为场景262-2。在这样的情况下,参考标识应用程序162可以将针对指定时间段的元数据264添加到场景262-2。
在各个实施方案中,外部数据源230可以是数据库、存储单元和/或计算设备。外部数据源230存储可以在参考标识应用程序162正分析场景时由参考标识应用程序162分析的数据。在一些实施方案中,参考标识应用程序162可以生成查询以从外部数据源230检索数据,诸如所存储的场景232、元数据234和/或其他数据。例如,外部数据源230可以是记录多个视频帧的外部安全系统。参考标识应用程序162可以查询外部数据源230,以便检索存储在外部数据源230中的一个或多个视频帧。在检索到一个或多个帧后,参考标识应用程序162可以将一个或多个所检索到的帧与存储在场景存储区164中的一个或多个场景261-1、261-2相关联。
图3示出了根据本公开的各个实施方案的用于使用图1的参考标识系统来分析一个或多个场景以标识场景内的候选对象的技术。如图所示,参考标识应用程序300的一部分包括场景时间线310和多个场景340(例如,340-1至340-6)。场景340-1至340-6中的每一个都与场景时间戳(例如,时间戳322、324、326)相关联。参考标识应用程序162分析场景340中的一个或多个,以便标识候选对象352、354、356。
在操作中,参考标识应用程序162接收用户请求,并通过选择存储在场景存储区164中的一个或多个场景340进行分析来做出响应。在各个实施方案中,用户请求可以是参考标识应用程序162检测到的触发事件。在一些实施方案中,触发事件可以是口头输入。触发事件的一个示例是用户说出包括通过参考标识应用程序162来识别的关键字或关键短语的话语(诸如“那是什么?”)。在一些实施方案中,参考标识应用程序162可以将用户生成的其他口头话语或声音识别为触发事件。
在一些实施方案中,触发事件可以是不同的物理输入,诸如对基于触摸的机制的物理输入。对基于触摸的机制的物理输入的示例包括按下按钮、致动开关或在触敏屏幕上作出示意动作(例如,轻击、轻扫、双击等)。其他物理输入包括用户示意动作,诸如脸部示意动作(例如,扬起眉毛、前额皱眉、挤眼、眨眼、表情突变等)、手部示意动作(例如,指向手等)、头部示意动作(例如,点头或摇头)、和/或身体示意动作(例如,将手放在嘴前等)。在一些实施方案中,触发事件可以是检测到的生理变化或检测到的与用户相关联或用户经历的生理事件,诸如呼吸速率突变、心率、瞳孔扩张和/或大脑活动。
响应于检测到用户请求,参考标识应用程序162选择场景340中的一个或多个,以便分析与所述选择相关联的数据。在各个实施方案中,场景340中的每一个都可以被存储在场景存储区164中。在一些实施方案中,参考标识应用程序162可以通过生成查询并从外部数据源230检索场景340来选择一个或多个场景340。
在各个实施方案中,参考标识应用程序162可以确定由触发事件发起用户请求的时间,并且可以通过检索与所确定的时间相关联的数据来做出响应。例如,参考标识应用程序162可以确定触发事件在时间T0发起了用户请求。基于确定发起用户请求的时间,参考标识应用程序162将做出与时间T0相关联的选择。参考标识应用程序162可以做出选择336,从而检索与时间T0相关联的数据,包括场景340-5。在一些实施方案中,场景340-5和/或其他数据(包括传感器数据228和/或元数据264)与匹配的时间戳326相关联。
在各个实施方案中,参考标识应用程序162还可以做出与所确定的时间具有预定义关系的选择。在一些实施方案中,参考标识应用程序162可以选择在确定的时间T0之前的预定义持续时间的数据。例如,参考标识应用程序162可能已经被配置为选择与时间戳Ti-2322相关联的场景,所述时间戳是在所确定的时间T0之前的预定义持续时间。在这样的示例中,参考标识应用程序162将做出选择332并且检索场景340-1和/或与时间戳322相关联的其他数据。
在各个实施方案中,参考标识应用程序162可以执行其他方法,以基于用户请求来选择一个或多个场景340。例如,用户请求将指示参考标识应用程序162要分析的特定时间(例如,“下午5点在我前面的那个人是谁?”)。在这样的情况下,参考标识应用程序162可以将指定时间设置为所确定的时间T0,并且可以基于与指定时间的一种或多种关系来选择一个或多个时间戳322、324、326。
在各个实施方案中,参考标识应用程序162可以保留用于恒定的、预定义数量的场景340的缓冲区(例如,场景存储区164中的缓冲区)。在这样的情况下,当用户请求关于环境中的对象的信息时,参考标识应用程序162可以检索并分析包括在缓冲区中的一个或多个场景340。在一些实施方案中,参考标识应用程序162可以通过对缓冲区中的场景做出两个选择来响应用户请求:与触发事件的时间相关联的第一选择336;以及与第一选择336之前的预定义时间段相关联的第二选择332。在一些实施方案中,第二选择332和第一选择336之间的时间段可以是恒定的指定值。选择之间的时段的值可以由用户手动设置。在一些实施方案中,选择之间的时段可以被包括在用户请求中,诸如当请求指定要分析的特定时间时(例如,“30秒钟前该对象是什么?”)。
对于给定的场景340、350,参考标识应用程序162分析与场景340、350相关联的数据,以标识场景350内的一个或多个候选对象。例如,参考标识应用程序162可以选择场景340-1、340-5以生成合成场景350。参考标识应用程序162然后可以分析传感器数据232、元数据264和与合成场景350相关联的其他数据,以便分割合成场景350的各部分并标识包括在合成场景350中的候选对象352、354、356。
在各个实施方案中,参考标识应用程序162可以对与合成场景350相关联的传感器数据232执行各种音频处理、视频处理、成像处理和/或其他处理技术,以便标识合成场景350内的一个或多个候选对象352、354、356。类似地,在一些实施方案中,参考标识应用程序162可以对与合成场景350相关联的元数据264执行各种处理技术。例如,参考标识应用程序162可以检索与Ti-2时间戳322相关联的元数据264和与T0时间戳326相关联的元数据264;参考标识应用程序162然后可以分析元数据264,以便标识合成场景350内的候选对象352、354、356。
在各个实施方案中,参考标识应用程序162可以实现统计技术、机器学习(ML)技术和/或人工智能(AI)技术来分析与合成场景350相关联的数据,以便标识合成场景350内的候选对象352、354、356。在各个实施方案中,参考标识应用程序162可以实现至少一种ML技术,以基于传感器数据228、元数据264和/或与合成场景350相关联的其他数据来标识一个或多个候选对象352、354、356。参考标识应用程序162中采用的合适的ML和/或AI系统可以包括例如最近邻分类器程序、马尔可夫链、深度学习方法和/或任何其他技术上可行的方法。
在各个实施方案中,参考标识应用程序162可以分析多个场景340,以便标识至少一个场景中存在的一个或多个候选对象352、354、356。例如,参考标识应用程序162可以做出选择332、336以便进行分析,其中选择332、336包括场景340-1、340-5。参考标识应用程序162可以分别分析每个选择332、336,以便标识一个或多个候选对象352、354、356。
在一些实施方案中,参考标识应用程序162可以比较选择332、336中的数据,以便标识候选对象352、354、356和/或为标识的候选对象352、354、356中的每一个计算相关性分数。例如,参考标识应用程序162可以通过标识场景340-1和场景340-5之间的差异来分析与选择332、336中的每一个相关联的数据。例如,当比较选择332、336时,参考标识应用程序162可以确定在较新的场景340-5中不存在候选对象354,而先前在较旧的场景340-1中存在候选对象354。在一些实施方案中,参考标识应用程序162可以基于确定在较新的场景340-5中不再存在候选对象354来计算与候选对象354相关联的相关性分数。例如,参考标识应用程序162可以计算相关性分数,所述相关性分数包括候选对象354的相关性因子(例如,“缺失对象”相关性因子),所述相关性因子反映了用户正在请求针对候选对象354的信息的较高可能性。
图4示出了根据本公开的各个实施方案的用于使用图1的参考标识系统来获得和提供与场景内的所选择的对象相关联的信息的技术。如图所示,参考标识系统400包括参考标识应用程序162、知识代理130-1至130-3以及I/O设备114。
在操作中,参考标识应用程序162选择候选对象352、354、356中的一个(在本文称为所选择的对象402),并基于所选择的对象402生成一个或多个查询404。参考标识应用程序162选择一个或多个知识代理130(例如,130-1至130-3)进行查询,并将一个或多个查询404发送给所选择的知识代理130。参考标识应用程序162从所选择的知识代理130接收一个或多个响应410,其中一个或多个响应410包括关于所选择的对象402的附加信息。参考标识应用程序162分析响应410,并产生关于所选择的对象402的信息集(在本文称为所选择对象信息412)。参考标识应用程序162经由一个或多个I/O设备114提供所选择对象信息412。
在各个实施方案中,参考标识应用程序162可以基于所计算的相关性分数从包括在场景350中的一个或多个候选对象352、354、356中选择一个候选对象354。参考标识应用程序162可以计算包括在合成场景350中的每个候选对象352、354、356的相关性分数。当计算候选对象352的相关性分数(R)时,参考标识应用程序162计算与候选对象352相关联的一个或多个相关性因子(rf),其中使用一个或多个所计算的相关性因子来计算相关性分数(R1=f{rf1,rf2,…rfn})。参考标识应用程序162分析候选对象352、354、356的属性,并计算与已分析的属性中的一个或多个相关联的相关性因子。参考标识应用程序162使用一个或多个相关性因子来计算候选对象352、354、356中的每一个的相关性分数。在一些实施方案中,参考标识应用程序162可以基于相应的相关性分数来对候选对象352、354、356进行排名。在一些实施方案中,参考标识应用程序162可以基于每个候选对象352、354、356的相对排名来选择候选对象354。
在一些实施方案中,候选对象352的属性可以包括候选对象352的诸如颜色、形状、分类、位置等的客观属性。在一些实施方案中,候选对象352的属性可以包括相对属性,诸如哪个候选对象352、354、356是最大声的、最大的、最明亮的、最快速的、最难闻的、最困难的、最危险的、重复最多的、社交媒体信息提要(feed)中提及最多的等。在一些实施方案中,当计算相关性因子时,参考标识应用程序162可以为候选对象352的一个或多个属性分配定量值。
例如,参考标识应用程序162将分割合成场景350。合成场景350包括三个候选对象:第一候选对象352、第二候选对象354和第三候选对象356。参考标识应用程序162可以分别分析三个候选对象的属性并为所确定的属性中的每一个分配值。在该示例中,参考标识应用程序162将被配置成为所确定的属性中的每一者分配相关性因子值(例如,最明亮的对象=0.8、最大的对象=0.4、移动的对象=0.2等等)。参考标识应用程序162可以确定第一候选对象352是最大的对象、最昏暗的对象和最快速的对象。类似地,参考标识应用程序162可以确定第二对象354是最明亮的对象并且是最慢的对象(例如,静止的)。最后,参考标识应用程序162可以确定第三候选对象356是最明亮的对象并且是重复最多的对象。参考标识应用程序162可以基于所确定的属性中的每一个来计算单独的相关性因子,并且可以通过为所计算的相关性因子中的每一个应用权重值并添加加权的相关性因子来计算相关性分数。例如,参考标识应用程序162可以分别计算第一候选对象352的相关性分数为0.6、第二候选对象354的相关性分数为0.8和第三候选对象356的相关性分数为0.3。基于所计算的相关性分数,参考标识应用程序162可以选择第二候选对象354作为所选择的对象402。
在一些实施方案中,除了基于候选对象352、354、356的属性的相关性因子之外,参考标识应用程序162还计算与候选对象352、354、356相关联的其他相关性因子。例如,其他相关性因子包括先前生成的对对象的查询次数、在最新的场景340-5中是否不存在对象、对象先前是否被关键字标记过、与用户有关的生物特征数据(例如,心率、大脑活动、皮肤电传导、血液氧合作用等)、定性因子等。例如,参考标识应用程序162可以被配置为将特定的心率范围与特定的相关性因子相关联(例如,当用户的心率介于每分钟150到180次搏动之间时,参考标识应用程序162会向最大声的对象的相关性因子应用较高的权重值)。在一些实施方案中,参考标识应用程序162可以在计算相关性因子时为定性因子分配定量值。
在另一示例中,参考标识应用程序162将从选择332中标识出四个候选对象。选择332包括从外部数据源230所检索的所存储的场景232和元数据234、以及传感器数据228。所存储的场景232包括四个候选对象,包括角色1、角色2、角色3和背景对象1。参考标识应用程序162可以分析与所存储的场景232相关联的元数据234,并确定对于所存储的场景232,角色1的先前查询次数最多。类似地,参考标识应用程序162可以确定角色2是社交媒体信息提要中被提及最多的候选对象。类似地,参考标识应用程序162可以确定在所存储的场景232中存在角色3,但在先前的场景中不存在角色3。最后,参考标识应用程序162可以确定背景对象1是最大的对象和最明亮的对象。在该示例中,参考标识应用程序162将被配置成为相关性因子中的每一者分配值。参考标识应用程序162还可以被配置为分析与用户相关联的生物特征数据,以确定将如何加权相关性因子。参考标识应用程序162可以计算单独的相关性因子,然后基于相关性因子中的每一个来计算相关性分数。在该示例中,参考标识应用程序162可以分别计算角色1的相关性分数为0.9、角色2的相关性分数为0.7、角色3的相关性分数为0.3、并且背景对象1的相关性分数为0.2。基于所计算的相关性分数,参考标识应用程序162可以选择角色1作为所选择的对象402,并生成查询404以获得关于角色1的附加信息。
在另一示例中,参考标识应用程序162可以基于多个选择332、336来生成合成场景350。当分析合成场景350时,参考标识应用程序162可以分别分析场景340-1和340-5。在这样的情况下,参考标识应用程序162将确定在场景340-1中存在候选对象354,但在场景340-5中不存在候选对象354,并向候选对象354应用短暂对象相关性因子。在该示例中,参考标识应用程序162可以被配置成为短暂对象相关性因子分配高值(例如,短暂对象相关性因子=0.95)。因此,参考标识应用程序162可以基于短暂对象相关性因子来计算候选对象354的高相关性分数。
在将候选对象354选择为所选择的对象402时,参考标识应用程序162基于所选择的对象402生成一个或多个查询404。参考标识应用程序162生成与所选择的对象402相关联的查询404,其中参考标识应用程序162随后所接收的响应410提供与所选择的对象402相关联的信息。
在各个实施方案中,参考标识应用程序162选择一个或多个知识代理130(例如,130-1至130-3),所述知识代理将接收所生成的查询404。在一些实施方案中,参考标识应用程序162基于查询的内容来选择知识代理1 130-1。例如,参考标识应用程序162将分析查询404的内容以确定知识代理1 130-1是否能够以适用信息来做出响应。当参考标识应用程序162确定知识代理1 130-1能够向查询404提供适用信息时,参考标识应用程序162将查询404发送给知识代理1130-1。在一些实施方案中,参考标识应用程序162还可以选择附加的知识代理130,诸如知识代理2 130-2和/或知识代理3 130-3,并且向知识代理130-2、130-3中的每一个发送查询404。一个或多个知识代理130接收查询404,并通过检索与包括在查询404中的内容相关联的附加信息来对所包括的内容做出响应。在一些实施方案中,知识代理130可以是存储信息的数据库。在这样的情况下,查询404可以使数据集被从数据库中提取出来。在一些实施方案中,知识代理130可以是可以生成附加查询以从外部数据源检索信息的应用编程接口(API)。在获取与包括在查询404中的内容相关联的附加信息后,知识代理130生成响应410并将其发送到参考标识应用程序162,其中所述响应包括所检索的与所选择的对象402相关联的信息。
在各个实施方案中,参考标识应用程序162可以确定用户是否想要关于所选择的对象402的附加信息。在这样的情况下,参考标识应用程序162可以通过发送与所选择的对象402相关联的一个或多个附加查询404来对用户请求附加信息做出响应。在一些实施方案中,参考标识应用程序162可以基于从知识代理130所接收的一个或多个响应410来生成连续查询404。例如,参考标识应用程序162将生成第一查询404并将其发送到知识代理1 130-1。参考标识应用程序162将接收第一响应,所述第一响应的内容包括对所选择的对象402的定义(例如,“所述对象是一个人”)。在接收到第一响应后,参考标识应用程序162然后可以生成第二查询404,所述第二查询使知识代理2130-2提供关于所选择的对象402的更详细信息(例如,“这个人是安(Ann)”)。类似地,在接收到第二响应410后,参考标识应用程序162可以生成第三查询404,所述第三查询使知识代理3 130-3提供关于所选择的对象402的附加信息(例如,“安(Ann)住在加利福尼亚州圣何塞市”)。在一些实施方案中,参考标识应用程序162可以在接收到来自用户的反馈之前生成附加查询404。
参考标识应用程序162分析包括在响应410中的信息,以便生成关于所选择的对象402的信息集。参考标识应用程序162经由一个或多个I/O设备114将所述信息集的一部分作为所选择对象信息412传输到用户。在各个实施方案中,一个或多个I/O设备114可以经由任何合适的呈现模式向用户提供所选择对象信息412。例如,参考标识系统100的用户所选择设置将指示所选择对象信息412的优选呈现模式是听觉模式。在另一示例中,参考标识系统100的用户所选择设置将指示所选择对象信息412的优选呈现模式是视觉模式,包括在移动设备中所包括的显示器上显示文本和/或图像。此外,所选择对象信息412可以被分割成多个单独的部分并且可以经由多个I/O设备114来提供。例如,参考标识应用程序162可以使扬声器传递所选择对象信息412的第一部分,并且参考标识应用程序162可以使显示器传递所选择对象信息412的第二部分。
在各个实施方案中,参考标识应用程序162可以确定用户是否想要选择包括在合成场景350中的不同候选对象352、356。在这样的情况下,参考标识应用程序162可以通过选择候选对象352、356组中剩余的一个候选对象352来选择不同的所选择的对象402。在选择了不同的所选择的对象402后,参考标识应用程序162可以生成查询404并将所述查询发送给适用的知识代理130,以便获得与不同的所选择的对象402有关的附加信息。
图5是根据本公开的各个实施方案的用于提供与包括在场景中的对象相关联的信息的方法步骤的流程图。尽管相对于图1至图4的系统描述了所述方法步骤,但本领域技术人员应理解,被配置为以任何次序执行所述方法步骤的任何系统均落在各个实施方案的范围内。
如图所示,方法500在步骤501处开始,其中参考标识应用程序162存储从传感器220所接收的传感器数据。在各个实施方案中,参考标识应用程序162可以从传感器220接收传感器数据228。参考标识应用程序162生成与传感器数据228相关联的场景262,并且将所述场景与时间戳322相关联。参考标识应用程序162将场景262存储在场景存储区164中。在各个实施方案中,参考标识应用程序162还可以将元数据264与场景262相关联,并将元数据264存储在场景存储区164中。
在步骤505处,参考标识应用程序162确定是否接收到用户请求。在各个实施方案中,用户请求可以是参考标识应用程序162能够检测到的触发事件。触发事件可以是口头输入、基于触摸的机制上的物理输入、身体示意动作等。当参考标识应用程序162检测到触发事件时,参考标识应用程序162确定接收到用户请求并前进到步骤507;否则,参考标识应用程序162确定未接收到用户请求并返回到步骤501。
在步骤507处,参考标识应用程序162基于用户请求来加载一个或多个场景340( ,340-1至340-6)。响应于检测到用户请求,参考标识应用程序162加载存储在场景存储区164中的一个或多个场景340,并做出一个或多个选择332、336,以便分析与选择332、336相关联的数据。在一些实施方案中,参考标识应用程序162可以通过生成查询并从外部数据源230检索一个或多个所存储的场景232来加载一个或多个场景340。
在各个实施方案中,参考标识应用程序162可以在场景存储区164中保留用于恒定的、预定义数量的场景340的缓冲区。在这样的情况下,当用户请求关于环境中的对象的信息时,参考标识应用程序162可以检索包括在缓冲区中的一个或多个场景340。在一些实施方案中,参考标识应用程序162可以通过对缓冲区中的场景做出两个选择来响应用户请求:与触发事件的时间相关联的第一选择336;以及在第一选择336之前的预定义时间段的第二选择332。
在步骤509处,参考标识应用程序162扫描所选择的场景以便标识一个或多个候选对象(例如,候选对象352、354、356)。对于给定选择332,参考标识应用程序162分析与选择332和/或场景340-1相关联的数据(包括与场景340-1相关联的传感器数据228和元数据264),以便标识一个或多个候选对象352、354、356。例如,参考标识应用程序162可以分析传感器数据232、元数据264和与包括在选择332中的场景340-1相关联的其他数据,以便分割场景340-1的各部分并标识候选对象352、354、356。
在步骤511处,参考标识应用程序162选择包括在场景340-1中的候选对象352、354、356中的一个(所选择的对象402)。在各个实施方案中,参考标识应用程序162可以计算包括在场景340-1中的每个候选对象352、354、356的相关性分数,并且可以基于所计算的相关性分数来选择候选对象354。当计算相关性分数时,参考标识应用程序162计算与候选对象352相关联的一个或多个相关性因子,其中使用一个或多个所计算的相关性因子来计算相关性分数。在一些实施方案中,参考标识应用程序162可以基于所计算的相关性分数来对候选对象352、354、356进行排名,并且可以选择排名最高的一个候选对象354。
在步骤513处,参考标识应用程序162基于所选择的对象402来选择知识代理130。在各个实施方案中,参考标识应用程序162选择一个或多个知识代理130,所述一个或多个知识代理将接收与所选择的对象402有关的查询404。在一些实施方案中,参考标识应用程序162可以分析所选择的对象402和/或查询404的内容,以便确定特定知识代理130(例如,知识代理1 130-1)是否能够以适用信息来做出响应。
在步骤515处,在操作中,参考标识应用程序162基于所选择的对象402来生成查询404。参考标识应用程序162将查询404发送到知识代理130,并接收响应410。响应410包括关于所选择的对象402的附加信息。当生成响应410时,知识代理130接收查询404、分析包括在查询404中的内容并基于包括在查询404中的内容来检索附加信息。知识代理130生成并发送响应410,其中响应410包括与所选择的对象402相关联的信息。
在步骤517处,参考标识应用程序162向用户提供所选择对象信息412。在各个实施方案中,参考标识应用程序162可以分析包括在响应410中的信息,以便生成关于所选择的对象402的信息集。在一些实施方案中,参考标识应用程序162可以分析信息集并生成所选择对象信息412作为信息集的一部分。参考标识应用程序经由一个或多个I/O设备114向用户101提供所选择对象信息412。
在步骤519处,参考标识应用程序162确定所选择的对象402是否与用户相关。在各个实施方案中,参考标识应用程序162可以接收来自用户的响应,所述响应指示所选择的对象402是否是使用户发起用户请求的对象。如果参考标识应用程序162确定所选择的对象402与用户相关并且因此是使用户发起用户请求的对象,则参考标识应用程序162然后可以前进到步骤521;否则,当参考标识应用程序162确定所选择的对象402与用户不相关时,参考标识应用程序162然后可以前进到步骤523。
在步骤521处,参考标识应用程序162确定用户是否想要关于所选择的对象402的更多信息。在各个实施方案中,参考标识应用程序162可以确定用户是否想要关于所选择的对象402的附加信息。例如,参考标识应用程序162将接收指示请求更多信息的用户输入。在这样的情况下,参考标识应用程序162可以通过返回到步骤513来对用户请求附加信息做出响应,其中参考标识应用程序162选择知识代理130(例如,知识代理3 130-3)、生成附加查询404并向所选择的知识代理3 130-3发送附加查询404。
在步骤523处,参考标识应用程序162确定用户是否想要选择包括在场景340-1中的不同候选对象352、356。当参考标识应用程序162确定用户想要做出不同的选择时,参考标识应用程序162可以通过返回到步骤511来选择不同的所选择的对象402,其中参考标识应用程序162选择场景340-1中的候选对象352、356组中剩余的一个候选对象352。在选择了不同的所选择的对象402后,参考标识应用程序162可以通过生成查询404继续进行步骤513-517,以便获得与不同的所选择的对象402有关的附加信息。当参考标识应用程序162确定用户不想做出不同的选择时,参考标识应用程序162可以结束方法500。
总之,参考标识系统的一个或多个传感器获取与环境中的一个或多个对象相关联的传感器数据。包括在参考标识系统中的参考标识应用程序在场景存储区中存储与传感器数据和关联的元数据相关联的场景。当参考标识应用程序确定用户已经触发了对与包括在场景中的对象相关联的信息的请求时,参考标识应用程序加载并分析与存储在场景存储区中的场景中的一个或多个相关联的数据。参考标识应用程序选择包括在一个或多个场景中的候选对象,然后向知识代理查询与所选择的对象有关的信息。然后,参考标识应用程序向用户呈现关于所选择的对象的信息。如果用户指示所选择的对象不是用户想要获得更多信息的对象,则参考标识应用程序选择一个或多个场景内的不同对象并获得关于该不同对象的信息。
所公开的技术的至少一个技术优点在于,可以标识给定场景内的对象,即使场景内不再存在所述对象时亦如此。另一优点在于,无需用户提供与场景中所标识的对象有关的详细信息便可以从一个或多个数据源获得所述对象的信息,并将所述信息提供给用户。
1.在一些实施方案中,一种用于标识环境中的对象的计算机实现的方法包括:经由至少一个传感器接收与环境相关联的第一传感器数据;将所述第一传感器数据与第一场景相关联地存储在存储器中;以及响应于接收到对与所述环境相关联的信息的用户请求:基于所述用户请求而选择所述第一场景;经由所述存储器而存取与所述第一场景相关联的所述第一传感器数据;以及分析所述第一传感器数据以标识包括在所述第一场景中的第一对象;以及使与所述第一对象相关联的信息经由至少一个输出设备而被输出。
2.如条款1所述的计算机实现的方法,其还包括:将第二传感器数据与第二场景相关联地存储在所述存储器中;以及响应于接收到对与所述环境相关联的所述信息的所述用户请求:基于所述用户请求而选择所述第二场景;经由所述存储器而存取与所述第二场景相关联的所述第二传感器数据;以及分析所述第二传感器数据以标识所述第一对象,其中所述第一对象包括在所述第一场景和所述第二场景中的至少一个中。
3.如条款1至2所述的计算机实现的方法,其中第一场景包括所述第一对象,而第二场景不包括所述第一对象。
4.如条款1至3中任一项所述的计算机实现的方法,其中所述第一场景与第一时间戳相关联,所述第二场景与第二时间戳相关联,并且所述第一时间戳和所述第二时间戳包括在所述用户请求中指定的时间段中。
5.如条款1至4中任一项所述的计算机实现的方法,其还包括:分析所述第一传感器数据以标识包括在所述第一场景中的第二对象;从至少所述第一对象和所述第二对象中选择所述第一对象;以及获得与所述第一对象相关联的信息。
6.如条款1至5中任一项所述的计算机实现的方法,其中选择所述第一对象包括:计算与所述第一对象相关联的第一相关性分数;计算与所述第二对象相关联的第二相关性分数;以及将所述第一相关性分数与所述第二相关性分数进行比较,其中所述第一相关性分数大于所述第二相关性分数。
7.如条款1至6中任一项所述的计算机实现的方法,其中计算所述第一相关性分数包括:计算所述第一对象的第一相关性因子;以及计算所述第一对象的第二相关性因子,其中第一相关性分数至少基于所述第一相关性因子和所述第二相关性因子。
8.如条款1至7中任一项所述的计算机实现的方法,其中接收所述用户请求包括检测由所述用户发起的触发事件。
9.如条款1至8中任一项所述的计算机实现的方法,其还包括:经由至少一个外部数据存储区接收与所述第一场景相关联的第一外部数据;以及将所述第一外部数据与所述第一场景相关联地存储在所述存储器中。
10.在一些实施方案中,一种或多种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤:经由至少一个传感器接收与环境相关联的第一传感器数据;将所述第一传感器数据与第一场景相关联地存储在存储器中和将第一外部数据与所述第一场景相关联地存储在存储器中,其中从至少一个外部数据源接收所述第一外部数据;以及响应于接收到对与所述环境相关联的信息的用户请求:基于所述用户请求而选择所述第一场景;经由所述存储器而存取所述第一传感器数据和所述第一外部数据中的至少一个;以及分析所述第一传感器数据和所述第一外部数据中的至少一个,以标识包括在所述第一场景中的第一对象;以及使与所述第一对象相关联的信息经由至少一个输出设备而被输出。
11.如条款10所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:接收对与所述第一对象相关联的附加信息的用户请求;获得与所述第一对象相关联的补充信息;以及使与所述第一对象相关联的所述补充信息经由至少一个输出设备而被输出。
12.如条款10或11所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:基于所述第一对象而选择第一知识代理,其中所述第一知识代理提供与所述第一对象相关联的所述信息。
13.如条款10至12中任一项所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:基于所述第一对象而选择第二知识代理,其中所述第二知识代理不同于所述第一知识代理并且提供与所述第一对象相关联的所述补充信息。
14.如条款10至13中任一项所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:检测由所述用户发起的触发事件,其中所述触发事件发起所述用户请求,并且其中基于所述用户请求而选择所述第一场景包括:确定与所述触发事件相关联的第一时间戳;确定所述第一场景与所述第一时间戳相关联;以及选择所述第一场景。
15.如条款10至14中任一项所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:响应于接收到对与所述环境相关联的信息的所述用户请求:经由所述存储器而存取与所述第一场景相关联的第一元数据;以及分析所述第一元数据以标识包括在所述第一场景中的第一对象。
16.如条款10至15中任一项所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:将第二传感器数据与第二场景相关联地存储在所述存储器中;以及响应于接收到对与所述环境相关联的信息的所述用户请求:基于所述用户请求而选择所述第二场景;经由所述存储器而存取所述第二传感器数据;以及分析所述第二传感器数据以标识所述第一对象,其中所述第一对象包括在所述第一场景和所述第二场景中的至少一个中。
17.如条款10至16中任一项所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:分析所述第一传感器数据以标识包括在所述第一场景中的第二对象;从所述第一对象和所述第二对象中选择所述第一对象;以及获得与所述第一对象相关联的信息。
18.如权利要求17所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:计算与所述第一对象相关联的第一相关性分数;计算与所述第二对象相关联的第二相关性分数;以及将所述第一相关性分数与所述第二相关性分数进行比较,其中所述第一相关性分数大于所述第二相关性分数。
19.在一些实施方案中,一种对象标识系统包括:至少一个传感器,所述至少一个传感器被配置为产生与环境相关联的第一传感器数据;存储器,所述存储器被配置为与第一场景相关联地存储所述第一传感器数据;以及处理器,所述处理器耦合到所述至少一个传感器和所述存储器并且被配置为:从所述至少一个传感器接收所述第一传感器数据;将所述第一传感器数据存储在所述存储器中;以及响应于接收到对与所述环境相关联的信息的用户请求:基于所述用户请求而选择所述第一场景;分析与所述第一场景相关联的所述第一传感器数据和第一元数据中的至少一个,以标识包括在所述第一场景中的第一对象;以及将与所述第一对象相关联的查询传输到第一知识代理;从所述第一知识代理接收第一响应,所述第一响应包括与所述第一对象相关联的信息;以及使与所述第一对象相关联的所述信息经由至少一个输出设备而被输出。
20.如条款19所述的对象标识系统,其中所述处理器还被配置为:分析所述第一传感器数据和所述第一元数据中的至少一个,以标识包括在所述第一场景中的第二对象;计算与所述第一对象相关联的第一相关性分数;计算与所述第二对象相关联的第二相关性分数;将所述第一相关性分数与所述第二相关性分数进行比较,其中所述第一相关性分数大于所述第二相关性分数;以及从所述第一对象和所述第二对象中选择所述第一对象。
权利要求中任一项所述的任何权利要求要素和/或本申请中描述的任何要素的以任何方式进行的任何和所有组合都落在本公开和保护的涵盖范围内。
已经出于说明的目的呈现了对各个实施方案的描述,但是所述描述无意为穷尽的或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员来说是显而易见的。
本实施方案的各方面可体现为一种系统、方法或计算机程序产品。因此,本公开的各方面可以采取完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或组合软件与硬件方面的实施方案的形式,所述软件与硬件方面在本文中通常可以被称为“模块”或“系统”。此外,本公开中描述的任何硬件和/或软件技术、过程、功能、部件、引擎、模块或系统可以实现为电路或电路组。另外,本公开的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,所述计算机可读介质上体现有计算机可读程序代码。
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备或者前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下项:具有一条或多条电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁性存储设备或者前述的任何合适的组合。在本文档的上下文中,计算机可读存储介质可以是任何有形介质,所述有形介质可含有或存储供指令执行系统、装置或设备使用或连同指令执行系统、装置或设备一起使用的程序。
上文参考根据本公开的实施方案的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本公开的各方面。将理解,流程图和/或框图中的每个框以及流程图和/或框图中的框组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器。所述指令在经由计算机或其他可编程数据处理装置的处理器执行时使得能够实现在流程图和/或框图的一个或多个框中指定的功能/动作。此类处理器可以是但不限于通用处理器、专用处理器、特定应用处理器或现场可编程门阵列。
附图中的流程图和框图示出了根据本公开的各个实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。就此而言,流程图或框图中的每个框均可以表示代码的模块、片段或部分,所述代码包括用于实现指定的一种或多种逻辑功能的一个或多个可执行指令。还应注意,在一些可选实现方式中,框中指出的功能可以按不同于附图中指出的顺序的顺序出现。例如,连续示出的两个框实际上可以基本上同时执行,或者所述框有时可以按相反的顺序执行,这取决于所涉及的功能。还应当注意,框图和/或流程图的每个框以及框图和/或流程图中的框组合可以由执行指定功能或动作或执行专用硬件与计算机指令的组合的基于专用硬件的系统来实现。
虽然前述内容涉及本公开的各实施方案,但在不脱离本公开的基本范围的情况下可设想本公开的其他和另外的实施方案,并且本公开的范围由所附权利要求确定。

Claims (20)

1.一种用于标识环境中的对象的计算机实现的方法,所述方法包括:
经由至少一个传感器接收与环境相关联的第一传感器数据;
将所述第一传感器数据与第一场景相关联地存储在存储器中;以及
响应于接收到对与所述环境相关联的信息的用户请求:
基于所述用户请求而选择所述第一场景;
经由所述存储器而存取与所述第一场景相关联的所述第一传感器数据;以及
分析所述第一传感器数据以标识包括在所述第一场景中的第一对象;以及
使与所述第一对象相关联的信息经由至少一个输出设备而被输出。
2.如权利要求1所述的计算机实现的方法,其还包括:
将第二传感器数据与第二场景相关联地存储在所述存储器中;以及
响应于接收到对与所述环境相关联的所述信息的所述用户请求:
基于所述用户请求而选择所述第二场景;
经由所述存储器而存取与所述第二场景相关联的所述第二传感器数据;以及
分析所述第二传感器数据以标识所述第一对象,其中所述第一对象包括在所述第一场景和所述第二场景中的至少一个中。
3.如权利要求2所述的计算机实现的方法,其中第一场景包括所述第一对象,而第二场景不包括所述第一对象。
4.如权利要求2所述的计算机实现的方法,其中所述第一场景与第一时间戳相关联,所述第二场景与第二时间戳相关联,并且所述第一时间戳和所述第二时间戳包括在所述用户请求中所指定的时间段中。
5.如权利要求1所述的计算机实现的方法,其还包括:
分析所述第一传感器数据以标识包括在所述第一场景中的第二对象;
从至少所述第一对象和所述第二对象中选择所述第一对象;以及
获得与所述第一对象相关联的信息。
6.如权利要求5所述的计算机实现的方法,其中选择所述第一对象包括:
计算与所述第一对象相关联的第一相关性分数;
计算与所述第二对象相关联的第二相关性分数;以及
将所述第一相关性分数与所述第二相关性分数进行比较,其中所述第一相关性分数大于所述第二相关性分数。
7.如权利要求6所述的计算机实现的方法,其中计算所述第一相关性分数包括:
计算所述第一对象的第一相关性因子;以及
计算所述第一对象的第二相关性因子,其中第一相关性分数至少基于所述第一相关性因子和所述第二相关性因子。
8.如权利要求1所述的计算机实现的方法,其中接收所述用户请求包括检测由所述用户发起的触发事件。
9.如权利要求1所述的计算机实现的方法,其还包括:
经由至少一个外部数据存储区接收与所述第一场景相关联的第一外部数据;以及
将所述第一外部数据与所述第一场景相关联地存储在所述存储器中。
10.一种或多种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤:
经由至少一个传感器接收与环境相关联的第一传感器数据;
在存储器中:
与第一场景相关联地存储所述第一传感器数据,以及
与所述第一场景相关联地存储第一外部数据,其中所述第一外部数据是从至少一个外部数据源接收的;以及
响应于接收到对与所述环境相关联的信息的用户请求:
基于所述用户请求而选择所述第一场景;
经由所述存储器而存取所述第一传感器数据和所述第一外部数据中的至少一个;以及
分析所述第一传感器数据和所述第一外部数据中的至少一个,以标识包括在所述第一场景中的第一对象;以及
使与所述第一对象相关联的信息经由至少一个输出设备而被输出。
11.如权利要求10所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:
接收对与所述第一对象相关联的附加信息的用户请求;
获得与所述第一对象相关联的补充信息;以及
使与所述第一对象相关联的所述补充信息经由至少一个输出设备而被输出。
12.如权利要求11所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:基于所述第一对象而选择第一知识代理,其中所述第一知识代理提供与所述第一对象相关联的所述信息。
13.如权利要求12所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:基于所述第一对象而选择第二知识代理,其中所述第二知识代理不同于所述第一知识代理并且提供与所述第一对象相关联的所述补充信息。
14.如权利要求10所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:检测由所述用户发起的触发事件,其中所述触发事件发起所述用户请求,并且其中基于所述用户请求而选择所述第一场景包括:
确定与所述触发事件相关联的第一时间戳;
确定所述第一场景与所述第一时间戳相关联;以及
选择所述第一场景。
15.如权利要求10所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:响应于接收到对与所述环境相关联的信息的所述用户请求:
经由所述存储器而存取与所述第一场景相关联的第一元数据;以及
分析所述第一元数据以标识包括在所述第一场景中的第一对象。
16.如权利要求10所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:
将第二传感器数据与第二场景相关联地存储在所述存储器中;以及
响应于接收到对与所述环境相关联的信息的所述用户请求:
基于所述用户请求而选择所述第二场景;
经由所述存储器而存取所述第二传感器数据;以及
分析所述第二传感器数据以标识所述第一对象,其中所述第一对象包括在所述第一场景和所述第二场景中的至少一个中。
17.如权利要求10所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:
分析所述第一传感器数据以标识包括在所述第一场景中的第二对象;
从所述第一对象和所述第二对象中选择所述第一对象;以及
获得与所述第一对象相关联的信息。
18.如权利要求17所述的非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:
计算与所述第一对象相关联的第一相关性分数;
计算与所述第二对象相关联的第二相关性分数;以及
将所述第一相关性分数与所述第二相关性分数进行比较,其中所述第一相关性分数大于所述第二相关性分数。
19.一种对象标识系统,其包括:
至少一个传感器,所述至少一个传感器被配置为产生与环境相关联的第一传感器数据;
存储器,所述存储器被配置为与第一场景相关联地存储所述第一传感器数据;以及
处理器,所述处理器耦合到所述至少一个传感器和所述存储器并且被配置为:
从所述至少一个传感器接收所述第一传感器数据;
将所述第一传感器数据存储在所述存储器中;以及
响应于接收到对与所述环境相关联的信息的用户请求:
基于所述用户请求而选择所述第一场景;
分析与所述第一场景相关联的所述第一传感器数据和第一元数据中的至少一个,以标识包括在所述第一场景中的第一对象;以及
将与所述第一对象相关联的查询传输到第一知识代理;
从所述第一知识代理接收第一响应,所述第一响应包括与所述第一对象相关联的信息;以及
使与所述第一对象相关联的所述信息经由至少一个输出设备而被输出。
20.如权利要求19所述的对象标识系统,其中所述处理器还被配置为:
分析所述第一传感器数据和所述第一元数据中的至少一个,以标识包括在所述第一场景中的第二对象;
计算与所述第一对象相关联的第一相关性分数;
计算与所述第二对象相关联的第二相关性分数;
将所述第一相关性分数与所述第二相关性分数进行比较,其中所述第一相关性分数大于所述第二相关性分数;以及
从所述第一对象和所述第二对象中选择所述第一对象。
CN202010069289.8A 2019-01-22 2020-01-21 视听场景中的自动参考查找 Pending CN111460263A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,523 2019-01-22
US16/254,523 US11645326B2 (en) 2019-01-22 2019-01-22 Automatic reference finding in audiovisual scenes

Publications (1)

Publication Number Publication Date
CN111460263A true CN111460263A (zh) 2020-07-28

Family

ID=69187543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010069289.8A Pending CN111460263A (zh) 2019-01-22 2020-01-21 视听场景中的自动参考查找

Country Status (3)

Country Link
US (1) US11645326B2 (zh)
EP (1) EP3686755B1 (zh)
CN (1) CN111460263A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3934233B1 (en) * 2019-03-27 2024-05-29 Sony Group Corporation Video processing device and video processing method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007115224A2 (en) 2006-03-30 2007-10-11 Sri International Method and apparatus for annotating media streams
US8436911B2 (en) 2006-09-14 2013-05-07 Freezecrowd, Inc. Tagging camera
US8171049B2 (en) * 2009-09-18 2012-05-01 Xerox Corporation System and method for information seeking in a multimedia collection
US8762276B2 (en) * 2011-12-28 2014-06-24 Nokia Corporation Method and apparatus for utilizing recognition data in conducting transactions
US9159371B2 (en) 2013-08-14 2015-10-13 Digital Ally, Inc. Forensic video recording with presence detection
EP3283998A4 (en) 2015-04-17 2018-12-05 VeriFone, Inc. Computerized system and method for associating rf signals
US10299017B2 (en) * 2015-09-14 2019-05-21 Logitech Europe S.A. Video searching for filtered and tagged motion

Also Published As

Publication number Publication date
US20200233896A1 (en) 2020-07-23
EP3686755B1 (en) 2023-06-28
EP3686755A1 (en) 2020-07-29
US11645326B2 (en) 2023-05-09

Similar Documents

Publication Publication Date Title
EP3616050B1 (en) Apparatus and method for voice command context
EP3982236B1 (en) Invoking automated assistant function(s) based on detected gesture and gaze
KR102453603B1 (ko) 전자 장치 및 그 제어 방법
US9390726B1 (en) Supplementing speech commands with gestures
US20180232201A1 (en) User registration for intelligent assistant computer
US20190138147A1 (en) Systems and methods for identifying users of devices and customizing devices to users
US20130177296A1 (en) Generating metadata for user experiences
US11954150B2 (en) Electronic device and method for controlling the electronic device thereof
US11238871B2 (en) Electronic device and control method thereof
CN115273252A (zh) 使用多模态信号分析进行命令处理
EP4036910A1 (en) Dynamic and/or context-specific hot words to invoke automated assistant
US11507183B2 (en) Resolving natural language ambiguities with respect to a simulated reality setting
US10514752B2 (en) Methods and apparatus to determine objects to present in virtual reality environments
US20160224591A1 (en) Method and Device for Searching for Image
US11789998B2 (en) Systems and methods for using conjunctions in a voice input to cause a search application to wait for additional inputs
CN106462646A (zh) 控制设备、控制方法和计算机程序
EP3591540B1 (en) Retroactive sound identification system
US20220059080A1 (en) Realistic artificial intelligence-based voice assistant system using relationship setting
EP3686755B1 (en) Automatic reference finding in audiovisual scenes
US11841896B2 (en) Icon based tagging
US11604830B2 (en) Systems and methods for performing a search based on selection of on-screen entities and real-world entities
WO2021141746A1 (en) Systems and methods for performing a search based on selection of on-screen entities and real-world entities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination