CN109313249A

CN109313249A - 音频增强现实系统

Info

Publication number: CN109313249A
Application number: CN201780037903.9A
Authority: CN
Inventors: N·奥索蒂奥; A·穆尔登
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-06-28
Filing date: 2017-06-22
Publication date: 2019-02-05
Anticipated expiration: 2037-06-22
Also published as: US20180210951A1; EP3475720A1; US9959342B2; EP3475720B1; US20170371959A1; WO2018005202A1; CN116859327A; CN109313249B; US10235456B2

Abstract

用于针对包括数字音频波形的查询进行在线信息搜索和检索的技术。在一方面，音频波形由多个音频输入设备中的至少一个音频输入设备接收和数字化。数字化音频波形被发送到中央处理单元，中央处理单元公式化查询并且将其提交给在线引擎。公式化查询可以包括至少一个数字音频波形。在线引擎检索与公式化查询相关的一个或多个在线结果。在线结果可以包括一个或多个相关的视觉结果和/或一个或多个相关的音频结果。经由具有音频输出能力的设备和/或具有视觉数据输出能力的设备将检索的结果实时地提供回给用户。

Description

音频增强现实系统

背景技术

随着用于实时地处理环境输入和传送信息的技术的出现，增强现实系统在消费者、商业、学术和研究设置中的使用将越来越普遍。在音频增强现实系统中，可以通过一个或多个音频通道(例如，耳机、扬声器或其他音频设备)向用户呈现实时信息。为了提高音频增强现实系统的性能，期望提供增加所呈现的实时信息的相关性和准确性的技术。

附图说明

图1图示了示出本公开的各个方面的第一场景。

图2图示了说明本公开的某些方面的示例性功能框序列。

图3图示了由用户本地可用的音频输入和/或输出设备执行的操作的示例性实施例。

图4图示了用于恢复和检索相关信息的音频增强现实系统的其他方面。

图5示出了示例性公式化查询与示例性检索结果之间的说明性对应关系。

图6图示了用于在视觉上显示与所接收的数字声音波形相关的信息的增强现实系统的另外的方面。

图7图示了上文中参考音频增强现实系统描述的技术到特定场景的示例性应用。

图8图示了根据本公开的方法的示例性实施例。

图9图示了根据本公开的装置的示例性实施例。

图10图示了根据本公开的设备的示例性实施例。

具体实施方式

本文中描述的技术的各个方面总体上涉及用于响应于包括数字音频波形的查询而搜索和检索在线信息的技术。具体地，查询被提交给在线引擎，并且可以包括多个数字音频波形。与公式化查询相关的一个或多个在线结果被检索，并且以音频和/或视觉格式被实时地呈现给用户。基于用户反馈，可以使用机器学习算法随时间来改善在线结果的相关性。

以下结合附图阐述的详细描述旨在作为“用作示例、实例或说明”的示例性装置的描述，而不应当被解释为比其他示例性方面更优选或更具优势。详细描述包括具体细节以用于提供对本发明的示例性方面的透彻理解的目的。对于本领域技术人员将是明显的，可以在没有这些具体细节的情况下实践本发明的示例性方面。在一些实例中，以框图形式示出了公知的结构和设备，以便避免模糊本文中呈现的示例性方面的新颖性。

图1图示了示出本公开的各个方面的第一场景100。注意，场景100仅出于说明性目的而示出，而不意在将本公开的范围限制于例如能够被处理的任何特定类型的音频信号、用于捕获或输出音频输入的设备、特定知识领域、搜索结果、示出或建议的任何类型的信息、或任何说明性场景，诸如观鸟或任何其他特定场景。

在图1中，示出了多个设备，包括有源耳塞120(包括左耳塞120a和右耳塞120b)、智能手机130、智能手表140、膝上型计算机150等。用户110被示意性地描绘为收听有源耳塞120的音频输出。在示例性实施例中，(左和右)有源耳塞120中的每一个可以包括内置微处理器(未示出)。耳塞120可以被配置为对现场音频进行采样，并且使用内置微处理器来处理采样的音频，并且进一步生成音频输出，该音频输出修改、提高或以其他方式增强用户实时地听到的现场音频。

应当理解，所示的任何设备可以配备有为用户110生成音频输出和/或从用户110的环境接收音频输入的能力。例如，为了接收音频输入，有源耳塞120可以被提供有内置麦克风或其他类型的声音传感器(图1中未示出)，智能手机130可以包括麦克风132，智能手表140可以包括麦克风142，膝上型计算机150可以包括麦克风151，等等。

在第一说明性场景100中，用户110可以在拥有设备120、130、140和/或150中的任何或全部设备的同时在步行。用户110可能碰巧遇到正在演唱鸟鸣162的鸟160。用户110可以通过他或她的视觉和/或音频感觉(即，视力和/或声音)来感知鸟160。在这种场景中，用户110可能希望获取关于鸟160和/或鸟鸣162的附加信息，例如鸟类的身份和其他信息、鸟相对于用户110的位置(例如，如果只有鸟鸣162被听到，但是鸟160不可见)等。注意，观察鸟的示例仅出于说明性目的而被描述，而不意在将本公开的范围限制于可以被处理的任何特定类型的声音或信息。在替代示例性实施例中，可以适应任何声音波形，包括但不限于音乐(例如，音乐类型、乐队、表演者等的标识)、语音(例如，说话者的标识、自然语言理解、翻译等)、人工(例如，警报器(siren)、紧急呼叫等的标识)或自然声音等。这样的替代示例性实施例被预期为在本公开的范围内。

此外，设备120、130、140、150不需要全部由用户110拥有。例如，虽然耳塞120可以由用户110拥有并且在用户110附近，但是膝上型计算机150可能不属于对于用户，和/或通常可以位于用户110的紧邻内部或外部。根据本公开的技术，通常可以使设备与用户处于相同的一般环境中，例如，使得设备可以各自提供关于由用户110感知的特定声音的有用输入。

应当理解，设备120、130、140、150中的任何设备可以拥有连接到本地网络或万维网的能力，而用户110正在观察鸟160或者收听鸟鸣162。用户110可以利用这种连接性来例如访问网络或Web以检索关于鸟160或鸟鸣162的期望信息。在示例性实施例中，用户110可以口头表达或以其他方式输入查询，并且设备120、130、140、150中的任何设备可以将公式化查询提交给位于这种网络或万维网上的一个或多个数据库，以检索相关信息。在示例性实施例中，这样的数据库可以对应于搜索引擎，例如因特网搜索引擎。

然而，应当理解，在某些场景中，如果用户110不拥有关于主题的专业知识，则用户110将难以充分地公式化查询以从在线搜索引擎获取期望的信息，即使这样的搜索引擎通过例如设备130、140、150可访问。例如，如果用户110已经看到鸟160并且标识出鸟的某些颜色或其他特征，则用户110可以能够针对搜索引擎公式化合适的文本查询以标识鸟160。然而，如果用户110仅听到鸟鸣162而没有看到鸟160，则用户110难以公式化合适的文本查询。当被呈现其他类型的声音(例如，人类说话者说出的不熟悉或几乎听不见的语言、用户110期望标识的不熟悉的音乐等)时，用户110也可能遇到类似的困境。

因此，期望提供一种系统，该系统能够自动检索和呈现与用户在他或她的环境中感知的声音相关的信息而无需用户明确地公式化针对这种信息的查询。

在示例性实施例中，用户环境中的一个或多个设备可以接收与用户感知的声音相对应的音频输入。例如，设备120、130、140、150中的任何或全部设备可以拥有音频输入能力，并且可以使用其对应的音频输入机构(例如，有源耳塞120的内置麦克风、智能手机130的麦克风132等)来捕获鸟鸣162。所接收的音频输入可以从接收设备被传送到中央设备，中央设备可以基于所接收的声音波形自动地公式化查询并且将这种查询提交给在线搜索引擎(本文中也称为“在线引擎”)。基于公式化查询，在线引擎可以使用下文中描述的技术来检索标识鸟160的信息以及由设备接收的鸟鸣162的特定特征。

然后，检索到的信息可以通过一个或多个呈现模态(包括例如，通过耳塞120的合成语音音频、和/或由存在于设备130、140、150中的任何设备上的扬声器(未示出)输出的音频、和/或在拥有适应性显示器的设备130、140、150中的任何设备上的视觉呈现)被呈现给用户110。例如，如智能手机130的显示器上所示，可以显示标识鸟160的图形和文本132、以及其他深入的文本描述134。

下文中进一步描述用于实现具有上文中描述的能力的系统的技术。图2图示了说明本公开的某些方面的示例性功能框序列200。注意，图2仅出于说明性目的而示出，而不意在限制本公开的范围。例如，序列200不需要由单个设备执行，并且所描述的操作可以跨设备被分布。此外，在替代示例性实施例中，序列200中的任何框可以被修改、省略或被重新布置在不同序列中。这样的替代示例性实施例被预期为在本公开的范围内。

在图2中，在框210处，通过一个或多个设备接收声音波形。在示例性实施例中，这样的设备可以包括具有音频输入和声音数字化能力的任何设备，其可以与其他设备通信。例如，在场景100中，这样的设备可以包括设备120、130、140、150中的任何或全部设备。

在框220处，处理数字声音波形以恢复和/或检索相关信息。在示例性实施例中，可以结合其他输入数据来处理数字声音波形，其他输入数据诸如与用户简档相关的参数，例如，将向其呈现后续信息的用户的使用模式、由全球定位系统(GPS)和/或其他技术确定的设备的地理位置、其他参数等。

在示例性实施例中，框220处的处理可以包括将一个或多个数字声音波形与声音或声音模型的在线存储库相关联，以标识声音波形的一个或多个特征。例如，在其中用户110听到鸟鸣162的示例性场景100中，由每个设备接收的声音波形可以对应于例如由耳塞120接收的鸟鸣162的第一音频版本、由智能手机130接收的鸟鸣162的第二音频版本、由智能手表140接收的鸟鸣162的第三音频版本等。

在示例性实施例中，数字波形可以被传送到例如在设备120、130、140、150中的任何设备上运行的单个处理单元。在替代示例性实施例中，数字声音波形可以被传送到诸如下文中进一步描述的在线引擎，例如，直接地或经由在设备120、130、140、150或任何其他设备中的任何设备上运行的中间服务器或处理器。在示例性实施例中，一个或多个数字声音波形可以被包含在针对在线引擎的启用数字声音的查询中，并且可以使用在线搜索引擎技术从例如万维网恢复和/或检索相关信息。

应当理解，相关信息可以对应于被在线搜索引擎分类为与查询相关的任何类型的信息。例如，相关信息可以包括声音波形的特征的标识(例如，“您正在收听的鸟鸣是由金翅雀演唱的”)、其他相关信息(例如，“金翅雀在夏季居住在北加利福尼亚州的某些地区”)、所接收的声音波形的地理来源(例如，“源自西北100英尺的金翅雀鸟鸣”)，诸如可以从设备120、130、140、150等中的多个设备接收到的声音的三角测量中得出，如下文中进一步描述的。

在框230处，可以合成输出声音波形和/或视觉数据以向用户呈现框220处的处理的结果。在示例性实施例中，输出声音波形可以包括要呈现的信息的人工语音合成版本，例如，“您正在收听的鸟鸣是由金翅雀演唱的......”。在示例性实施例中，视觉数据可以包括要在具有显示器的设备上向用户呈现的相关的文本或图形数据。声音波形和/或视觉数据可以例如通过下文中描述的在线引擎来被合成，或者这样的数据可以由用户可用的设备在本地合成，等等。

在框240处，可以使用用户的本地声音生成器来输出合成的声音波形，和/或可以使用用户的本地设备的视觉显示来输出合成的视觉数据。在示例性实施例中，可以使用有源耳塞120输出合成的声音波形。例如，在场景100中，假定用户110实时地听到由鸟160演唱的鸟鸣162，有源耳塞120可以输出与鸟鸣162相关的信息的合成的文本到语音渲染，例如，“您正在收听的鸟鸣是由位于您的当前位置西北100英尺处的金翅雀演唱的”等。

图3图示了由用户本地可用的音频输入和/或输出设备执行的操作的示例性实施例300。在示例性实施例中，这样的设备可以对应于例如有源耳塞120，或者通常对应于设备130、140、150中的任何设备。注意，图3仅出于说明性目的而被示出，而不意在将本公开的范围限制于本文中描述的技术的任何特定实现。

在图3中，来自用户环境的输入声音波形由与波形的声压时间曲线相对应的曲线图301a表示。声音波形301a由音频输入和/或输出设备310接收，音频输入和/或输出设备310具有与声音换能器/数字转换器框320相对应的前端级。

框320将声音波形301a转换为数字声音波形320a。

框322执行导致从数字声音波形320a恢复或检索相关信息的操作。具体地，框322可以将所接收的数字声音波形发送到中央处理单元(图3中未示出)或在线引擎，并且如果设备310能够向用户呈现信息，则可选地从中央处理单元或在线引擎接收相关信息322a。下文中参考图4进一步描述由框322执行(例如，结合框322与其通信的其他模块)的特定示例性操作。

在示例性实施例中，设备310可以可选地包括用于基于从框322检索的信息来合成声音的框324。框324可以包括例如用于从信息中本地合成人工语音波形以用于呈现给用户的文本到语音模块。在替代示例性实施例中，可以省略框324，并且可以例如由在线引擎从设备310远程地执行信息的文本到语音合成。在这种情况下，检索到的信息322a可以被理解为已经包含要被呈现的合成的声音信息。这样的替代示例性实施例被预期为在本公开的范围内。

在框326处，扬声器326根据例如从框322或从框324接收的合成的声音信息来生成音频输出301b。音频输出301b可以对应于向用户回放的输出声音波形。

鉴于上文中的描述，应当理解，设备310的用户可以同时感知源自两个源的音频：源自用户的“真实”(额外设备310)环境的输入声音波形301a和源自设备310的扬声器326的输出声音波形301b。在这种意义上，输出声音波形301b可以被理解为“交叠”305或“增强”输入声音波形301a。

图4图示了用于恢复和检索相关信息的音频增强现实系统的另外的方面，例如，更详细地描述了上文中参考框220和322所述的操作。注意，图4仅出于说明性目的而被描述，而不意在将本公开的范围限制于所描述的框的任何特定实现或功能划分。在某些示例性实施例中，图4所示的一个或多个功能框或模块(例如，计算机420和任何设备310.n)可以被集成到单个模块中。相反，替代于所示出的，由单个模块执行的功能可以跨多个模块而被划分。这样的替代示例性实施例被预期为在本公开的范围内。

在图4中，示出了多个音频输入/输出设备310.1至310.N，并且每个设备可以具有与上文中参考图3描述的设备310类似的架构。具体地，对于每个设备310.n(其中n表示从1至N的通用索引)，描绘了上文中较早被描述为执行导致从对应的数字声音波形320a恢复或检索相关信息的操作的框322。具体地，与用于第一音频输入/输出设备310.1的框322相对应的框322.1执行数字声音处理功能，并且包括通信接收和发送(RX/TX)模块410.1。类似地，与用于第n音频输入/输出设备310.n的框322相对应的框322.n执行其自己的数字声音处理功能，并且包括通信接收和发送(RX/TX)模块410.n，等等。框322.n与框422之间的通信可以通过通道322.na来进行。

在示例性实施例中，框322.1可以对应于用于耳塞120的框322，框322.2可以对应于用于智能电话130的框322，等等。在N等于1的示例性实施例中，仅有一个框322.1可以存在于系统中。这样的替代示例性实施例被预期为在本公开的范围内。

在图4中，每个对应框322.n的模块410.n与远离该对应设备310.n的一个或多个其他实体通信，例如，通过无线或有线通道。在示例性实施例中，可以在每个模块410.n与计算机420的通信模块422之间进行通信。计算机420可以对应于用于处理来自设备310.1至310.N的音频输入和/或其他输入信号的中央处理单元。具体地，计算机420可以包括用于共同处理从框322.1至322.N接收的音频输入信号和/或其他数据的多通道信号处理模块425。

在示例性实施例中，多通道信号处理模块425可以包括信息提取/检索框428。框428可以从所接收的多个音频输入信号和/或其他数据中提取信息。框428可以包括查询公式化框428.1，其根据所接收的数字声音波形和/或其他数据来公式化查询428.1a。框428可以进一步包括结果检索框428.2，其响应于来自在线引擎430的查询428.1a而检索结果。

在示例性实施例中，框428.1被配置为通过连接多个数字声音波形来公式化查询428.1a。在这个意义上，公式化查询428.1a也表示为启用数字声音的查询，即包含数字声音波形作为一个或多个查询搜索项的查询。例如，参考场景100，查询428.1a可以包含多个数字声音波形作为查询搜索项，其中每个数字声音波形被封装为标准音频文件(诸如mp3、wav等)。每个数字声音波形可以对应于由设备120、130、140或150之一接收的声音波形。在其中鸟鸣162由设备120、130、140、150中的每一个接收的示例性场景100中，然后公式化查询428.1a可以包含与由四个设备中的每一个接收的鸟鸣162的版本相对应的多达四个数字声音波形。在替代示例性实施例中，任何数目的数字声音波形可以由框428.1连接为生成的公式化查询428.1a。

当处理启用数字声音的查询时，在线引擎430可以被配置为基于在线结果与查询中包含的一个或多个数字声音波形的相似性或对应关系来检索在线结果并且对其进行排名。在示例性实施例中，数字声音波形与在线数据库中的声音记录的相关性可以至少部分基于声音模式识别和匹配技术来被确定，并且可以利用语音识别、声音识别、模式识别等领域中已知的技术。例如，可以计算所记录的声音与候选声音之间的一个或多个相关性度量。在示例性实施例中，这种计算可以通过上文中描述的公式化查询428.1a中包含的其他参数的知识来被另外通知。

在示例性实施例中，公式化查询428.1a中包括的其他数据可以包括例如每个数字声音波形的注释，该注释具有标识捕获声音波形的设备和/或描述声音波形被捕获的环境的数据。例如，由智能手机130捕获的鸟鸣162的版本可以用标识智能手机130的硬件型号/版本号的数据以及智能手机130的定位数据(例如，从智能手机130的GPS组件导出的)、智能手机130与其他设备120、140、150等的相对定位数据、智能手机130的速度、由智能手机130的温度传感器测量的环境温度等来注释。当被包括作为公式化查询428.1a的一部分时，这样的数据可以由在线引擎用来更准确地标识鸟鸣162以及检索更相关的信息。

在示例性实施例中，公式化查询428.1a可以进一步包括除了音频波形和描述这样的波形的数据之外的其他数据。例如，这样的数据可以包括诸如用户的用户简档和/或使用模式、由全球定位系统(GPS)和/或其他技术确定的设备的地理位置、设备相对于彼此的定位、其他参数等参数。

为了便于标识和匹配所提交的查询声音与相关的在线结果，在线引擎430可以保存声音索引434。索引434可以包括例如被认为在满足包含声音文件的搜索查询方面相关和/或有用的在线可访问的声音模型和/或声音的分类列表。

在示例性实施例中，查询公式化框428.1可以记录从设备310.n接收的(例如，音频和非音频)信息，以帮助评估和预测可能对用户有用的查询公式化。在示例性实施例中，框428.1可以包括可选的机器学习模块(未示出)，该机器学习模块以随时间而日益增加的准确度来学习将从设备310.n接收的输入映射到相关的查询公式化。

公式化查询428.1a例如通过有线或无线连接从计算机420被提交到在线引擎430。在示例性实施例中，在线引擎430可以是通过因特网可访问的在线搜索引擎。在线引擎430可以响应于查询428.1a而检索相关结果430a。随后，结果430a可以由在线引擎430传送回计算机420，并且然后计算机420可以将结果传达回设备120、130、140、150中的任何设备。

在示例性实施例中，用户可以具体地指定一个或多个声音以包括在搜索查询中。例如，在收听鸟鸣162时，用户110可以明确地向系统指示(例如，经由语音命令、手势、文本输入等)查询将基于所接收的声音输入而被公式化和被提交，例如，在听到感兴趣的声音之后立即或在某个预定时间内。在示例性实施例中，该明确指示可以自动地引起框428.1a对查询进行公式化。在示例性实施例中，用户110可以进一步明确地指定查询串的全部或一部分将被包括在公式化查询中。

在替代示例性实施例中，用户110不需要明确地指示查询将基于所接收的声音输入而被公式化和被提交。在这样的示例性实施例中，可选的机器学习模块(未示出)可以“学习”适当的触发点，以用于基于所接收的累积数据来自动地公式化机器生成的查询428.1a。

在示例性实施例中，在线引擎430可以包括机器学习模块432，机器学习模块432以随时间而日益增加的准确度来学习将查询428.1a映射到相关结果。模块432可以采用从机器学习中导出的技术，例如，神经网络、逻辑回归、决策树等。在示例性实施例中，通道322.1a至322.Na可以将对于训练引擎430的机器学习模块432有用的某些训练信息传达到引擎430。例如，可以将用户身份传达到机器学习模块432。先前接收的声音波形和/或与这样的声音波形相对应的检索结果也可以被传达到模块432。这样的所接收的数据可以由在线引擎430用于训练机器学习模块432，以更好地处理和提供查询428.1a。

作为说明性示例，场景100中的用户110可以具有例如与用户别名“anne123”相关联的对应的用户身份。用户别名anne123可以与例如标识先前的搜索历史、用户偏好等的对应的用户简档相关联。假定这样的信息可用于训练搜索引擎430的机器学习模块432，搜索引擎430可以有利地提供对于所提交的查询的更相关和准确的结果。

例如，响应于由anne123提交的包括从鸟鸣162中导出的数字声音波形的查询，搜索引擎430可以基于从用户简档中导出的用户anne123驻留在特定的地理附近的知识等来将与“金翅雀”相关的某些搜索结果排名为更高。注意，前面的讨论仅出于说明性目的被提供，而不意在将本公开的范围限制于任何特定类型的信息或用于处理和/或确定可以由机器学习模块432采用的这样的信息中的模式的技术。

图5示出了示例性公式化查询428.1a与示例性检索结果430a之间的说明性对应关系。注意，图5仅出于说明性目的而示出，而不意在将本公开的范围限制于任何特定类型的声音、技术领域、查询公式、查询字段、公式化查询的长度或大小、结果的数目或类型等。注意，根据系统的特定配置，可以从任何特定搜索查询或任何示例性实施例中省略所示出的任何信息。此外，未示出的附加查询字段可以容易地被包括在任何特定搜索查询或任何示例性实施例中，并且可以使用本公开的技术而被容易地适应。这样的替代示例性实施例被预期为在本公开的范围内。

具体地，示例性公式化查询428.1a包括如图5的左侧501所示的若干字段。具体地，示例性公式化查询428.1a包括第一字段510，第一字段510包括被封装为mp3音频文件510a的数字声音波形510b。第一字段510还包括表示为设备1属性510c的附加属性，这些属性与用于捕获数字声音波形510b的设备的其他参数相对应，包括设备类型、采样率、地理位置等。注意，特定属性仅出于说明性目的而在本文中被描述，而不意在限制本公开的范围。示例性公式化查询428.1a进一步包括第二字段511和第三字段512，具有包括被封装为音频文件的声音波形的类似字段，以及附加设备属性。

查询428.1a还包括可以帮助在线引擎430检索更相关的搜索结果的其他参数字段513。例如，字段513可以指定用户(例如，要向其呈现检索到的信息)的身份、这样的用户的简档、这样的用户的先前搜索历史、环境温度(例如，由一个或更多设备测量的)等。

在向在线引擎430提交查询428.1a之后，可以响应于查询428.1a而提供查询结果430a。示例性查询结果430a被示出在图5的右侧551。注意，图5中的示例性查询结果430a仅出于说明性目的而被示出，而不意在限制本公开的范围。

具体地，示例性查询结果430a包括一个或多个视觉结果560，包括例如描述结果560的图形561和文本562。例如，对于在图5的说明性查询428.1中提交的示例性数字声音波形和其他参数，金翅雀鸟的图形561和描述金翅雀行为的对应文本562被示出。在示例性实施例中，视觉结果560可以被显示在具有视觉显示能力的用户的本地设备上，例如，如下文中参考图6进一步描述的。

查询结果430a可以进一步或替代地包括一个或多个结果，该一个或多个结果包含无意于在视觉上向用户显示的内容。例如，查询结果430a可以包括音频结果563，音频结果563包括对应于与搜索查询428.1a相关的文本564的语音再现的数字声音波形。音频结果563可以是对应文本的计算机生成的文本到语音再现，或者其可以由人类说话者读取，等等。在示例性实施例中，可以使用用户的本地设备(例如，用户110的本地耳塞120等)回放查询结果430a中的任何音频结果。

音频结果563可以进一步或替代地包括与为用户定制的数字声音波形相对应的个性化音频结果565。例如，在所示的示例性实施例中，用户最喜欢的歌曲566(例如，如由在查询428.1a或其他地方提交的用户简档参数所确定的)可以与金翅雀歌曲568(例如，从诸如在查询428.1a中提交的波形510b的任何数字声音波形，或从与音频结果563相关联的数字声音波形或查询结果430a中的任何其他结果中提取的鸟鸣)混合567。

在示例性实施例中，为了训练在在线引擎430中运行的机器学习算法以检索与公式化查询具有增加的相关性的结果，可以在音频增强现实系统中接收用户反馈。例如，当被呈现有视觉结果560和音频结果563(包括个性化音频结果565)中的任一个时，用户110可以选择呈现结果之一以检索与结果相关的另外的信息。例如，当查看视觉结果560中的文本562时，用户110可以通过例如通过可用设备向在线引擎430提交针对“金翅雀迁徙”的另一查询或者以其他方式指示结果562被用户认为是相关的来表达对更多地了解金翅雀迁徙的兴趣。替代地，当收听音频结果563的合成语音呈现564时，用户110可以通过例如增加音频输出的音量或以其他方式提交与检索结果相关的附加查询(例如，通过语音命令或附加文本的许多条目)来表达对合成音频信息的兴趣。在接收到指示检索结果的正相关性的用户反馈时，在线引擎430可以进一步调节和/或训练例如由机器学习模块432执行的基础机器学习算法，以响应于公式化查询而检索相关结果。

图6图示了用于在视觉上显示与所接收的数字声音波形相关的信息的增强现实系统的另外的方面。注意，图6仅出于说明性目的而被描述，而不意在将本公开的范围限制于所描述的框的任何特定实现或功能划分。

在图6中，例如与参考图4描述的计算机420相对应的计算机420进一步被通信地耦合到一个或多个设备610.1至610.M，每个设备具有视觉显示器，任意设备在本文中表示为610.m。具体地，设备610.1至610.M中的任何设备可以对应于较早在上文中提到的设备130、140、150中的任何设备，只要这种设备具有视觉显示器，例如智能手机130、智能手表140、膝上型计算机150等。替代地，设备610.1至610.M中的任何设备可以是不具有音频输入能力或者以其他方式不接收任何音频输入以供增强现实系统使用的独立设备。每个设备610.m包括用于例如直接地或经由诸如路由器、服务器等另一中间设备(未示出)与计算机420的框422通信的通信RX/TX框620。

在示例性实施例中，计算机420包括被耦合到结果检索框428.2的视觉信息呈现框630。具体地，检索结果430a可以被格式化或以其他方式被收集以用于由框630进行视觉呈现和显示，框630经由通信框422将格式化和/或收集的结果发送到设备610.1至610.M以用于视觉显示。例如，在其中设备610.1对应于具有显示器的膝上型计算机的情况下，则框630可以基于图5所示的视觉结果560来格式化一个或多个检索结果，并且随后将这样的格式化结果发送到膝上型计算机以用于显示。

图7图示了上文中参考音频增强现实系统描述的技术到特定场景100的示例性应用。注意，图7仅出于说明性目的而被示出，而不意在将本公开的范围限制为所示出的任何特定场景。

在图7中，在框210.1处，由多个设备120、130、140接收例如对应于鸟鸣162的声音波形。设备120、130、140将所接收的声音波形数字化为数字声音波形。

在框220.1处，由设备120、130、140中的任何或全部设备向中央处理单元发送数字声音波形以进行远程处理。注意，中央处理单元可以与设备120、130、140分离，或者其可以在设备120、130、140中的一个或多个设备上被实现。在示例性实施例中，中央处理单元可以执行如参考图4中的计算机420所描述的功能。

在示例性实施例中，例如，如上文中参考框428.1所述，并且也如图7中所示，可以由计算机420执行查询公式化。具体地，在框428.1处，可以由计算机420公式化查询并向在线引擎430提交该查询，以执行在线搜索。查询可以包括数字声音波形和其他数据，例如，如上文中参考图5所述。

如图7所示，示例性在线引擎430.1可以从框428.1接收公式化和提交的查询。在线引擎430.1可以包括机器学习模块432.1，该机器学习模块432.1被配置为以日益增加的准确度将查询428.1a映射到相关结果。

在所示的特定场景中，模块432.1被具体配置为使用声音三角测量技术估计由设备120、130、140接收的声音波形的始发位置。具体地，假定相同的鸟鸣162生成三个不同的声音波形，对应于在三个单独的设备处接收的声音波形，可以使用数字声音波形来执行三角测量以确定鸟160相对于设备并且因此相对于用户的定位。

例如，声音三角测量可以解释每个数字声音波形内的鸟鸣162的相对延迟(例如，假定每个设备配备有可以从GPS信号导出的准确时间参考等)、由于源(例如，鸟160)或设备120、130、140的运动而导致的接收的声音的频率偏移等。

基于上文中描述的声音三角测量，机器学习模块432.1可以被配置为对鸟鸣162的来源进行三角测量，并且因此对鸟160相对于用户的定位进行三角测量。机器学习模块432.1可以进一步被配置为从所接收的多个版本中提取标准版本的鸟鸣162，例如，通过考虑任何计算的频移和延迟。然后，这种标准版本的鸟鸣162可以与诸如可能在万维网(WWW)440上可获取的声音模型或样本相关联，例如，如可以由在线引擎430.1的声音索引434引用，如较早在上文中参考图4所描述的。在关联之后，鸟鸣162可以被标识为对应于一个或多个特定鸟类，该信息然后可以进一步被用于提取相关信息作为查询结果，例如，如图5所示的结果430a。

基于检索到的信息，可以在框710处执行声音合成，并且可以在框712处执行视觉合成。例如，示例性视觉结果可以如参考图5中的结果560所描述的，而示例性音频结果可以如参考结果563或565所描述的。在示例性实施例中，框710、712可以在在线引擎430.1处或在计算机420处单独地或联合地被实现。

在框710处的声音合成之后，在框240.1处，可以例如通过耳塞120将合成声音输出给用户。在示例性实施例中，例如，在用户110收听鸟鸣162的同时，他或她收听耳塞120的输出，耳塞120的合成声音输出可以构成音频增强现实，其中用户接收与以其他方式通过环境被自然地感知的声音相关的实时合成音频信息。

在框712处的视觉合成之后，在框240.2处，可以例如通过智能电话140将合成的视觉信息输出给用户。合成的视觉信息可以向用户标识鸟160，以及提供其他相关信息。

图8图示了根据本公开的方法800的示例性实施例。注意，图8仅出于说明性目的而被示出，而不意在将本公开的范围限制于所示的任何特定方法。

在图8中，在框810处，接收包括来自第一源的第一数字声音波形和来自第二源的第二数字声音波形的查询。在示例性实施例中，第一源和第二源可以对应于具有单独位置的不同音频输入设备，例如，参考图1描述的多个设备120、130、140、150等中的任何两个设备。第一数字声音波形可以由第一源记录，并且第二数字声音波形可以由第二源记录。

在框820处，检索与第一数字声音波形和第二数字声音波形两者相关的至少一个在线结果。在示例性实施例中，第一数字声音波形和第二数字声音波形对应于由不同源接收的相同声音事件的不同记录，例如，鸟鸣162的单独的数字声音记录。

在框830处，生成与至少一个在线结果相对应的合成声音。

在框840处，响应于所接收的查询而提供所生成的合成声音。

图9示出了根据本公开的装置900的示例性实施例。在图9中，装置900包括被配置为接收包括来自第一源的第一数字声音波形和来自第二源的第二数字声音波形的查询的查询处理模块910、被配置为检索与第一数字声音波形和第二数字声音波形两者相关的至少一个在线结果的搜索引擎920、被配置为生成与至少一个在线结果相对应的合成声音的合成模块930、和被配置为响应于所接收的查询而提供所生成的合成声音的传输模块940。

在示例性实施例中，用于实现模块910、搜索引擎920、模块930和模块940的结构可以对应于例如从用于捕获第一数字声音波形和第二数字声音波形的设备远程运行并且例如通过因特网使用网络连接与这些设备通信的一个或多个服务器计算机。在替代示例性实施例中，用于实现模块910和搜索引擎920的结构可以对应于一个或多个服务器计算机，而用于实现模块930和模块940的结构可以对应于驻留在用于捕获第一数字声音波形和第二数字声音波形的一个或多个设备上的一个或多个处理器。具体地，生成合成声音可以在服务器和/或本地设备处被执行。这样的替代示例性实施例被预期为在本公开的范围内。

图10示出了根据本公开的设备1000的示例性实施例。在图10中，计算设备1000包括存储器1020，存储器1020保存由处理器1010可执行以进行以下操作的指令：接收包括来自第一源的第一数字声音波形和来自第二源的第二数字声音波形的查询；检索与第一数字声音波形和第二数字声音波形两者相关的至少一个在线结果；生成与至少一个在线结果相对应的合成声音；以及响应于所接收的查询而提供所生成的合成声音。

在本说明书和权利要求书中，应当理解，当一个元件被称为“连接到”或“耦合到”另一元件时，它可以直接连接或耦合到另一元件或可能存在中间元件。相反，当元件被称为“直接连接到”或“直接耦合到”另一元件时，不存在中间元件。此外，当一个元件被称为“电耦合”到另一元件时，它表示在这些元件之间存在低电阻路径，而当一个元件被称为简单地“耦合”到另一元件时，在这些元件之间可以存在或不存在低电阻路径。

本文中描述的功能可以至少部分由一个或多个硬件和/或软件逻辑组件来执行。例如而非限制，能够被使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、程序专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

虽然本发明易于进行各种修改和替换构造，但是其某些图示的实施例在附图中被示出并且已经在上面被详细描述。然而，应当理解，无意于将本发明限制于所公开的特定形式，而是相反，意图是涵盖落入本发明的精神和范围内的所有修改、替代构造和等同物。

Claims

1.一种方法，包括：

接收包括来自第一源的第一数字声音波形和来自第二源的第二数字声音波形的查询；

检索与所述第一数字声音波形和所述第二数字声音波形两者相关的至少一个在线结果；

生成与所述至少一个在线结果相对应的合成声音；以及

响应于接收的所述查询而提供生成的所述合成声音。

2.根据权利要求1所述的方法，接收的所述查询包括至少三个数字声音波形，每个声音波形由具有不同位置的设备接收，所述检索所述至少一个在线结果包括：

基于所述至少三个数字声音波形来计算源对象的位置，所述计算包括确定所述至少三个数字声音波形之间的相对延迟并且确定设备的不同位置的相对定位。

3.根据权利要求2所述的方法，其中所述生成所述合成声音包括生成计算的所述位置的文本到语音再现。

4.根据权利要求1所述的方法，其中所述检索所述至少一个在线结果包括：

将所述第一数字声音波形和所述第二数字声音波形中的每个数字声音波形与至少一个在线声音文件相关联，每个声音文件具有对应的标识信息；所述至少一个在线结果包括对应于与所述第一声音波形和所述第二声音波形最高度地相关的声音文件的标识信息。

5.一种装置，包括：

查询处理模块，被配置为接收包括来自第一源的第一数字声音波形和来自第二源的第二数字声音波形的查询；

搜索引擎，被配置为检索与所述第一数字声音波形和所述第二数字声音波形两者相关的至少一个在线结果；以及

合成模块，被配置为生成与所述至少一个在线结果相对应的合成声音；以及

传输模块，被配置为响应于接收的所述查询而提供生成的所述合成声音。

6.根据权利要求5所述的装置，接收的所述查询包括至少三个数字声音波形，每个声音波形由具有不同位置的设备接收，所述搜索引擎还被配置为：

基于所述至少三个数字声音波形来计算源对象的位置，所述计算包括确定所述至少三个数字声音波形之间的相对延迟并且确定设备的不同位置的相对定位；以及

响应于接收的所述查询而检索所述源对象的计算的所述位置。

7.根据权利要求6所述的装置，所述合成模块被配置为生成计算的所述位置的文本到语音再现。

8.根据权利要求5所述的装置，其中所述搜索引擎被配置为将所述第一数字声音波形和所述第二数字声音波形与至少一个在线声音文件相关联，每个声音文件具有对应的标识信息；所述至少一个在线结果包括对应于与所述第一数字声音波形和所述第二数字声音波形最高度地相关的声音文件的标识信息。

9.一种计算设备，包括存储器，所述存储器保存由处理器可执行以进行以下操作的指令：

生成与所述至少一个在线结果相对应的合成声音；以及

响应于接收的所述查询而提供生成的所述合成声音。

10.根据权利要求9所述的设备，所述存储器还保存由所述处理器可执行以进行以下操作的指令：

接收对所提供的生成的所述合成声音的用户批准指示；以及

基于接收的所述用户批准指示来更新用于检索与接收的所述查询相关的所述至少一个在线结果的机器学习算法。