CN116368353A - 内容感知导航指令 - Google Patents

内容感知导航指令 Download PDF

Info

Publication number
CN116368353A
CN116368353A CN202080106401.9A CN202080106401A CN116368353A CN 116368353 A CN116368353 A CN 116368353A CN 202080106401 A CN202080106401 A CN 202080106401A CN 116368353 A CN116368353 A CN 116368353A
Authority
CN
China
Prior art keywords
audio
media content
audio navigation
client device
electronic media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080106401.9A
Other languages
English (en)
Inventor
V·卡布内
M·沙里菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN116368353A publication Critical patent/CN116368353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3629Guidance using speech or audio output, e.g. text-to-speech
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3655Timing of guidance instructions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)

Abstract

为了提供内容感知音频导航指令,运行地图应用的客户端设备获得用于沿着路线从起始位置穿越到目的地位置的一个或多个音频导航指导。客户端设备还识别从不同于在客户端设备处运行的地图应用或在客户端设备附近的源播放的电子媒体内容。客户端设备确定电子媒体内容的特性,并根据电子媒体内容的特性来调整音频导航指导。然后,客户端设备向用户呈现调整后的音频导航指导。

Description

内容感知导航指令
技术领域
本公开涉及内容感知导航指令,并且更具体地,涉及基于在区域内或在同一设备上播放的其他媒体/音频内容来调整音频导航指令。
背景技术
本文提供的背景描述是出于总体上呈现本公开的上下文的目的。目前署名的发明人的工作,就其在该背景技术部分中描述的程度而言,以及在提交时可能没有资格作为现有技术的描述的各方面,既不明确地也不隐含地被承认为针对本公开的现有技术。
如今,在计算机、智能电话等或嵌入式设备中运行的软件应用生成逐步导航指导。通常,用户指定起始点和目的地,并且软件应用立即和/或随着用户从起始点行进到目的地以音频格式显示和/或呈现指导。
这些软件应用通常利用距离、街道名称、建筑物编号的指示来基于路线生成导航指导。例如,这些系统可以向驾驶员提供诸如“前进四分之一英里,然后右转到枫木街”的指令。
发明内容
由车载导航系统提供的音频指令通常必须是信息性的,并且针对要遵循的路线提供足够的、时机正好的指令,而不会不必要地分散收听者(特别是驾驶员)的注意力。另外,当其他音频与音频指令同时正在车辆内播放时,车载导航系统通常不得不竞争驾驶员的注意力。多个音频输出的组合能够导致用户无法听到导航指令或无法理解导航指令的次优体验。车辆内的其他音频还可能提供指示驾驶员偏好的信息,诸如驾驶员的优选语言、驾驶员的优选音频回放速度、驾驶员的优选目的地等。这样,改进的系统-用户音频接口可以是有益的,其与在导航期间播放的其他媒体内容深度集成,并且提供根据车辆内播放的其他音频进行调适的音频指令。
在一些实施方式中,呈现音频导航指令的地图应用可以识别在该区域中或在同一设备上(例如,在同一车辆中、在同一房间中、在应用的阈值距离内的室外区域中等)播放的其他媒体/音频内容。然后,地图应用可以根据媒体/音频内容来调整音频导航指令。例如,当媒体/音频内容是音频书、播客、音乐等时,地图应用可以等待直到媒体/音频内容中有中断来提供即将到来的导航指令。更具体地,地图应用可以在片段结束、歌曲结束或句子结束之后播放即将到来的导航指令。在另一示例中,当以特定语言(例如,西班牙语)呈现媒体/音频内容时,地图应用可以以该语言呈现音频导航指令。在又一示例中,地图应用可以提供针对媒体/音频内容中提到的沿着路线的兴趣点(POI)的建议或推荐。
为了识别在该区域中播放的其他媒体/音频内容,地图应用可以例如经由应用编程接口(API)与在客户端设备上运行的其他应用通信。在客户端设备上运行的其他应用可以提供音频回放数据,该音频回放数据包括正由其他应用播放的媒体/音频内容的特性,诸如其他应用正被播放的速度(即,语速)(例如,1.5x、2x等)、媒体/音频内容的语言、媒体/音频内容中的说话者的语音特性、媒体/音频内容的转录(transcript)、媒体/音频内容的长度等。另外,地图应用可以诸如经由短程通信链路与播放媒体/音频内容的其他设备(例如,车辆头部单元)通信。其他设备也可以向地图应用提供包括媒体/音频内容的特性的音频回放数据。更进一步地,地图应用可以通过将预定媒体/音频内容的音频指纹与周围区域中的环境音频进行比较来识别其他媒体/音频内容。例如,地图应用可以获得与来自流行音乐、音频书、广播节目、播客等的媒体/音频相对应的音频指纹库。如果地图应用识别出与音频指纹之一的匹配,则地图应用可以确定媒体/音频内容正在该区域中呈现。
然后,地图应用可以通过与呈现内容的应用或设备通信以接收与内容相关联的元数据或者通过使用语音识别技术分析媒体/音频内容来识别媒体/音频内容的特性。
本公开的技术的一个示例实施例是一种用于生成内容感知导航指令的方法。该方法包括在客户端设备中经由地图应用获得用于沿着路线从起始位置穿越到目的地位置的一个或多个音频导航指导,识别从不同于地图应用的源播放的电子媒体内容,该源在客户端设备处或在客户端设备附近运行,以及确定电子媒体内容的特性。该方法还包括根据电子媒体内容的特性来调整一个或多个音频导航指导中的至少一个,以及向用户呈现至少一个调整后的音频导航指导。
本公开的技术的另一示例实施例是一种用于生成内容感知导航指令的客户端设备。客户端设备包括扬声器、一个或多个处理器、以及耦接到一个或多个处理器和扬声器并在其上存储指令的非暂时性计算机可读存储器。所述指令当由一个或多个处理器运行时,使客户端设备经由地图应用获得用于沿着路线从起始位置穿越到目的地位置的一个或多个音频导航指导;识别从不同于地图应用的源播放的电子媒体内容,该源在客户端设备处或在客户端设备附近运行;以及确定电子媒体内容的特性。所述指令还使客户端设备根据电子媒体内容的特性来调整一个或多个音频导航指导中的至少一个,并且经由扬声器向用户呈现至少一个调整后的音频导航指导。
本公开的技术的又一示例实施例是在其上存储指令的非暂时性计算机可读存储器。所述指令当由一个或多个处理器运行时,使一个或多个处理器经由地图应用获得用于沿着路线从起始位置穿越到目的地位置的一个或多个音频导航指导;识别从不同于地图应用的源播放的电子媒体内容,该源在客户端设备处或在客户端设备附近运行,以及确定电子媒体内容的特性。指令还使一个或多个处理器根据电子媒体内容的特性来调整一个或多个音频导航指导中的至少一个,并且经由扬声器向用户呈现至少一个调整后的音频导航指导。
本文描述的方法通过考虑其他媒体(音频)内容的音频特性来改进音频导航指导的输出。该方法描述了调整音频导航指导的输出,使得遵循音频导航指导的收听者更容易理解音频导航指导的输出的各种方式。这种改进的清晰度和理解性意味着音频导航指令更安全。例如,可以调整音频导航指导以匹配媒体内容的特性(诸如语言),或者可以延迟/调整它们的输出以在匹配媒体内容中的自然中断的时间(诸如在句子结束时)出现。作为另一示例,可以暂停媒体内容以允许输出音频导航指令,因此避免音频重叠。下面将描述这些和其他示例。
附图说明
图1示出其中本公开的技术能够用于生成内容感知音频导航指令的示例车辆;
图2是其中能够实现用于生成内容感知音频导航指令的技术的示例系统的框图;
图3是图2的内容感知音频导航生成系统能够利用来根据特定媒体内容调整导航指令的示例导航指令数据表;
图4是能够在客户端计算设备中实现的用于生成内容感知音频导航指令的示例方法的流程图。
具体实施方式
概述
一般而言,用于提供内容感知导航指令的技术能够在一个或多个客户端设备、车辆头部单元、一个或多个网络服务器、或包括这些设备的组合的系统中实现。然而,为了清楚起见,下面的示例主要集中在其中运行地图(mapping)应用的客户端设备获得用于沿着路线将用户从起始位置导航到目的地位置的音频导航指令集的实施例。例如,用户可以经由地图应用请求从用户的当前位置到目的地位置的导航指导,并且客户端设备可以将请求转发到导航服务器。然后,导航服务器可以生成音频导航指令集,并将该音频导航指令集发送到客户端设备以回放给用户。
另外,地图应用可以与在客户端设备上运行的其他应用(例如,经由API)或在客户端设备附近的其他设备(诸如车辆头部单元或其他客户端设备)(例如,短程通信链路)通信。通信可以包括由其他应用/设备播放的媒体内容的指示,并且可以包括媒体内容的特性,诸如媒体内容的语言、媒体内容的语速、媒体内容的转录、媒体内容的说话者的语音特性等。除了与其他应用/设备通信以识别媒体内容之外,地图应用还可以将该区域内播放的环境音频与流行媒体内容(诸如流行歌曲、无线电节目、播客等)的音频指纹集进行比较,以识别媒体内容。
在任何情况下,地图应用可以将媒体内容的特性发送到服务器设备,以分析媒体内容的特性并确定如何根据媒体内容调整音频导航指导。然后,服务器设备可以将调整后的音频导航指导或如何调整音频导航指导的回放的指示发送到客户端设备。在其他实施方式中,地图应用可以确定如何根据媒体内容调整音频导航指导。
如本文所使用的,媒体内容可以包括无线电节目、播客、音频书、音乐、广告、电视节目、电影、视频或包括音频分量的任何其他类型的媒体。虽然本文描述的音频导航指导包括经由车辆到目的地的驾驶指导,但是音频导航指导可以用于任何合适的交通模式,诸如步行、骑自行车、公共交通等。
示例硬件和软件组件
参考图1,其中能够实现上面概述的技术的示例环境1包括便携式设备10和具有头部单元14的车辆12。便携式设备10可以是例如智能电话、平板计算机或车载导航系统。便携式设备10经由通信链路16与车辆12的头部单元14通信,通信链路16可以是有线的(例如,通用串行总线(USB))或无线的(例如,蓝牙、Wi-Fi直连)。便携式设备10还能够经由诸如第四代或第三代蜂窝网络(分别为4G或3G)的无线通信网络与各种内容提供商、服务器等通信。
头部单元14可以包括用于呈现导航信息(诸如数字地图)的显示器18。在一些实施方式中,显示器18是触摸屏,并且包括用于输入文本输入的软件键盘,文本输入可以包括目的地的名称或地址、原点等。头部单元14和方向盘上的硬件输入控件20和22能够分别用于输入字母数字字符或执行用于请求导航指导的其他功能。头部单元14还可以包括音频输入和输出组件,例如诸如麦克风24和扬声器26。扬声器26可以用于播放从便携式设备10发送的音频指令。
在图2中示出能够实现内容感知音频导航生成系统的示例通信系统100。通信系统100包括被配置为运行地理应用122的客户端设备10,地理应用122也可以被称为“地图应用122”。取决于实施方式,应用122能够显示交互式数字地图,请求和接收路线数据以提供包括音频导航指导的驾驶、步行或其他导航指导,提供各种地理定位内容等。客户端设备10能够由用户(在本文中也称为“驾驶员”)操作,在导航到各种位置的同时显示数字地图。通信系统100还包括车辆头部单元14,车辆头部单元14可以经由诸如蓝牙、Wi-Fi直连等的短程通信链路与客户端设备10通信。此外,通信系统100可以包括在客户端设备10附近的其他计算设备92,其可以经由诸如蓝牙、Wi-Fi直连等的短程通信链路与客户端设备10通信。例如,当客户端设备10是驾驶员的智能电话时,其他计算设备92可以包括车辆内的乘客的智能电话,或者驾驶员的平板电脑或可穿戴设备。
除了客户端设备10之外,通信系统100还包括被配置为向客户端设备10提供内容感知音频导航指令的服务器设备60。服务器设备60能够通信地耦接到数据库80,在示例实施方式中,数据库80存储用于针对特定媒体/音频内容调整音频导航指令的机器学习模型。训练数据可以包括先前提供给用户的音频导航指令集、当音频导航指令被呈现时播放的媒体内容的特性、由用户对音频导航指令做出的调整的指示、和/或关于用户对音频导航指令的满意度的自我报告的指示。下面参考图3进一步详细描述训练数据。另外,数据库80可以存储用于调整音频导航参数的规则集。
更一般地,服务器设备60能够与存储任何类型的合适的地理空间信息或能够链接到地理上下文的信息的一个或多个数据库通信。通信系统100还能够包括导航数据服务器34,其提供例如驾驶、步行、骑自行车或公共交通指导。此外,通信系统100能够包括地图数据服务器50,其向服务器设备60提供地图数据以生成地图显示。在通信系统100中操作的设备能够经由通信网络30互连。
在各种实施方式中,客户端设备10可以是智能电话或平板计算机。客户端设备10可以包括存储器120、一个或多个处理器(CPU)116、图形处理单元(GPU)112、包括麦克风和扬声器的I/O模块14、用户接口(UI)32、以及包括全球定位服务(GPS)模块的一个或多个传感器19。存储器120可以是非暂时性存储器,并且可以包括一个或多个合适的存储器模块,诸如随机存取存储器(RAM)、只读存储器(ROM)、闪存、其他类型的持久存储器等。I/O模块14可以是例如触摸屏。在各种实施方式中,客户端设备10能够包括比图2中所示的更少的组件,或者相反地,包括附加组件。在其他实施例中,客户端设备10可以是任何合适的便携式或非便携式计算设备。例如,客户端设备10可以是膝上型计算机、台式计算机、诸如智能手表或智能眼镜的可穿戴设备等。
存储器120存储操作系统(OS)126,其可以是任何类型的合适的移动或通用操作系统。OS 126可以包括允许应用检索传感器读数的应用编程接口(API)功能。例如,被配置为在计算设备10上运行的软件应用可以包括调用OS 126API以用于检索客户端设备10在该瞬间的当前位置的指令。API还可以返回API对估计的确定程度的定量指示(例如,作为百分比)。
存储器120还存储地图应用122,该地图应用122被配置为生成交互式数字地图和/或执行其他地理功能,如上所指示的。地图应用122可以接收导航指令、音频导航指令和/或音频导航指令参数,并且根据音频导航指令参数呈现音频导航指令。地图应用122还可以显示驾驶、步行、骑自行车或公共交通指导,并且一般地提供与地理、地理定位、导航等相关的功能。
注意,尽管图2将地图应用122示出为独立应用,但是地图应用122的功能也可以以经由在客户端设备10上运行的web浏览器可访问的在线服务的形式提供,作为在客户端设备10上运行的另一软件应用的插件或扩展等。地图应用122通常可以以用于不同的相应操作系统的不同版本提供。例如,客户端设备10的制造者可以提供用于AndroidTM平台的包括地图应用122的软件开发工具包(SDK)、用于iOSTM平台的另一SDK等。
除了地图应用122之外,存储器120还存储播放媒体/音频内容的其他客户端应用132,诸如音乐应用、视频应用、流应用、无线电应用、社交媒体应用等。这些应用132可以暴露用于与地图应用122通信的API。
在一些实施方式中,服务器设备60包括一个或多个处理器62和存储器64。存储器64可以是有形的非暂时性存储器,并且可以包括任何类型的合适的存储器模块,包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、其他类型的持久性存储器等。存储器64存储构成内容感知音频导航生成器68的在处理器62上可运行的指令,该内容感知音频导航生成器68可以获得在客户端设备10附近呈现的媒体/音频内容的特性,并根据媒体/音频内容的特性调整音频导航指导集内的音频导航指令。在一些实施方式中,内容感知音频导航生成器68可以生成用于针对特定媒体/音频内容调整音频导航指令的机器学习模型。内容感知音频导航生成器68还可以接收对用户从起始位置到目的地的导航指导的请求。然后,内容感知音频导航生成器68可以检索音频导航指导集,并将该音频导航指导集提供给客户端设备10,然后由地图应用122经由扬声器26呈现该音频导航指导集。
内容感知音频导航生成器68和地图应用122可以作为内容感知音频导航生成系统的组件来操作。可替代地,内容感知音频导航生成系统可以仅包括服务器侧组件,并且简单地向地图应用122提供用于呈现音频导航指令的指令。换句话说,这些实施例中的内容感知音频导航生成技术可以对地图应用122透明地实现。作为另一替代方案,内容感知音频导航生成器68的整个功能可以在地图应用122中实现。
为了简单起见,图2将服务器设备60示出为服务器的仅一个实例。然而,根据一些实施方式的服务器设备60包括一个或多个服务器设备的群组,每个服务器设备配备有一个或多个处理器并能够独立于其他服务器设备操作。在这样的群组中操作的服务器设备可以以分布式方式单独地(例如,基于可用性)处理来自客户端设备10的请求,在分布式方式中在一个服务器设备上执行与处理请求相关联的一个操作,而在另一个服务器设备上执行与处理相同请求相关联的另一个操作,或者根据任何其他合适的技术。出于此论述的目的,术语“服务器设备”可以指代单独服务器设备或指代两个或多于两个服务器设备的群组。
在操作中,在客户端设备10中操作的地图应用122接收数据并将数据发送到服务器设备60。因此,在一个示例中,客户端设备10可以向内容感知音频导航生成器68(在服务器设备60中实现)发送请求从起始位置到目的地的导航指导的通信。因此,内容感知音频导航生成器68可以生成音频导航指令集。然后,在播放用于即将到来的操纵的音频导航指令之前,客户端设备10可以将在客户端设备10附近播放的媒体/音频内容的特性和/或音频导航指令的指示发送到内容感知音频导航生成器68。内容感知音频导航生成器68可以基于媒体/音频内容来确定如何调整音频导航指令,并且可以向客户端设备10发送调整后的音频导航指令或用于调整音频导航指令的数据。在其他实施方式中,在内容感知音频导航生成器68生成音频导航指令集之前,客户端设备10可以将在客户端设备10附近播放的媒体/音频内容的特性发送到内容感知音频导航生成器68。然后,内容感知音频导航生成器68可以鉴于媒体/音频内容的特性来生成该音频导航指令集。
在一些实施例中,内容感知音频导航生成器68单独地生成每个调整后的音频导航指令并将其提供给客户端设备10。在其他实施例中,内容感知音频导航生成器68生成基于文本的导航指令集并将其提供给客户端设备10。然后,对于每个基于文本的导航指令,内容感知音频导航生成器68接收在客户端设备10附近播放的媒体/音频内容的特性,并且生成用于基于文本的导航指令的音频导航指令参数并将其提供给客户端设备10。结果,客户端设备10根据音频导航指令参数生成并呈现音频导航指令。音频导航指令参数可以包括音频导航指令的语言、音频导航指令的语速、何时呈现音频导航指令的定时等。
同样在一些实施例中,内容感知音频导航生成器68生成基于文本的导航指令集并将其提供给客户端设备10,该基于文本的导航指令集包括相同导航指令的多个版本(例如,英语的导航指令的第一版本、西班牙语的导航指令的第二版本、告诉用户在1000米处左转的导航指令的第三版本、在指令被延迟直到媒体内容的片段或句子结束的情况下告诉用户在500米处左转的导航指令的第四版本等)。然后,对于每个导航指令,内容感知音频导航生成器68生成用于导航指令的音频导航指令参数并将其提供给客户端设备10。结果,客户端设备10呈现与音频导航指令参数相对应的导航指令的版本。
内容感知音频导航生成器68可以基于媒体内容来调整多个导航指令的音频导航参数,诸如基于媒体内容的语言来调整剩余导航指令中的每一个的语言。另外,内容感知音频导航生成器68可以基于媒体内容来调整用于单独导航指令的音频导航参数,诸如调整用于单独导航指令的定时以在媒体内容中的特定句子或片段之后播放单独导航指令。
内容感知音频导航生成器68可以基于预先存储的规则集来调整音频导航参数。例如,预先存储的规则可以包括用于基于媒体内容的至少一个片段的语言、媒体内容的至少阈值数量的片段或媒体内容的至少阈值时间量来调整音频导航指令的语言的第一规则。通过调整音频导航指令的语言以匹配媒体内容的语言,提高了音频导航指令的用户理解性,从而提高了用户安全性。预先存储的规则还可以包括用于基于媒体内容的至少一个片段的语速、媒体内容的至少阈值数量的片段或媒体内容的至少阈值时间量来调整音频导航指令的语速的第二规则。再一次,通过调整音频导航指令的语速以更紧密地与媒体内容的语速对准,提高了用户理解性和安全性。
此外,预先存储的规则可以包括用于调整音频导航指令的定时,使得在媒体内容的句子或片段结束之后播放音频导航指令的第三规则。通过在媒体内容片段的句子结束之后播放音频导航指令,更容易理解音频导航指令,这是因为在内容流中没有突然中断。因此,这也提高了用户理解性和安全性。在一些实施方式中,预先存储的规则可以确定音频导航指令的复杂度水平、音频导航指令在到达操纵的位置之前必须播放的紧急性水平、以及媒体内容的相关性水平。
例如,当媒体内容是音乐时,媒体内容的相关性水平可以是低的,但是当媒体内容是用户正在其中驾驶的城市的音频导览时,或者当媒体内容是关于如何执行用户计划在到达目的地时执行的任务的教学视频时,媒体内容的相关性水平可以是高的。预先存储的规则可以比较音频导航指令的复杂度水平、在到达用于操纵的位置之前必须播放音频导航指令的紧急性水平、和/或媒体内容的相关性水平,以确定何时以及如何中断媒体内容来播放音频导航指令。
例如,当必须播放音频导航指令的紧急性水平为高时,即使当媒体内容的相关性水平高时,预先存储的规则也可以指示中断媒体内容。这确保了在必要时仍然播放紧急导航指令。另一方面,当必须播放音频导航指令的紧急性水平为中等或低,并且媒体内容的相关性水平为高时,预先存储的规则可以指示等待直到媒体内容中的句子或片段结束以播放音频导航指令,或者可以指示在与媒体内容一起播放音频导航指令的同时降低媒体内容的音量或增加音频导航指令的音量。在另一示例中,当复杂度水平为高并且相关性水平为高时,预先存储的规则可以指示多次播放音频导航指令,一次在第一句子或片段结束之后,并且第二次在第二句子或片段结束之后。在特定实例下重复播放复杂指令以避免不自然地中断媒体内容提高了用户安全性,这是因为在清楚的点多次向用户提供指令。在又一示例中,当复杂度水平超过相关性水平时,预先存储的规则可以指示立即播放音频导航指令。另一方面,当相关性水平超过复杂度水平时,预先存储的规则可以指示不播放音频导航指令或等待直到句子或片段结束播放音频导航指令。
为了在媒体内容的句子或片段结束之后播放音频导航指令,客户端设备10使用语音属性分类和/或自然语言处理模型来分析媒体内容的当前音频流,如下面更详细描述的,以识别媒体内容中的特定标记(例如,句子的结束、片段的结束等)。客户端设备10可以使用语音属性分类和/或自然语言处理模型继续实时或接近实时地分析当前音频流,直到识别出句子或片段的结束。然后,当识别出句子或片段的结束时,客户端设备10可以播放音频导航指令。
还可以调整音频导航指令以考虑等待直到句子或片段结束以播放音频导航指令的时间延迟。例如,最初音频导航指令可以是“在100米处,左转”。然而,在句子结束之后,用户可能距用于操纵的位置50米,并且因此音频导航指令可以被调整为“在50米处,左转”。为了调整音频导航指令以考虑时间延迟,最初可以用可变距离来生成音频导航指令,诸如,“在X米处,左转”。地图应用122可以将音频导航指令被呈现时的距离确定为用户的当前位置与用于操纵的位置之间的距离,并且可以用确定的距离替换“X”,或者可以将确定的距离向上四舍五入或四舍五入到最近的50米、100米、500米等。通过这样做,音频导航指令的准确性不会由于音频导航指令的输出的延迟而受到损害。这样,本文描述的方法在不损害音频导航指令的准确性的情况下,避免了用音频导航指令不自然地中断媒体内容。这提高了音频导航指令的理解性,从而提高了用户安全性。
另外,客户端设备10可以根据一个或多个音频导航指导来调整呈现电子媒体内容的方式。更具体地,例如,当媒体内容从在客户端设备10上运行的应用播放时(例如,通过经由API与该应用通信),客户端设备10可以暂停媒体内容或调整媒体内容的音量。在另一示例中,当媒体内容从通信地耦接到客户端设备10(例如,经由短程通信链路)的另一设备播放时,客户端设备10可以向另一设备发送暂停在另一设备上播放的媒体内容或调整媒体内容的音量的请求。这会导致另一设备暂停或调整媒体内容的音量。媒体内容的暂停有利地避免了媒体内容和音频导航指令两者同时播放,从而确保音频导航指令的清晰度不受媒体内容的影响。类似地,例如,减小媒体内容的音量有助于用户听到和理解音频导航指令。因此,这两个概念都提高了用户安全性。
此外,预先存储的规则可以包括用于识别媒体内容中包括的POI或媒体内容中讨论的其他地理话题(例如,古罗马),并确定POI是否在沿着路线的中途点(waypoint)的阈值半径内的第四规则。如果POI在沿着路线的中途点的阈值半径内,则预先存储的规则可以指示播放关于POI的信息,诸如“如果你感兴趣,那么左边是罗马考古遗址”。另外地或可替代地,预先存储的规则可以指示向用户提供导航到POI的建议,诸如“乔的咖啡在左边约一英里处。您想要那里的导航指导么?”。然后,如果用户指示他们想要到乔的咖啡的导航指导,则内容感知音频导航生成器68可以生成从用户的当前位置到乔的咖啡的音频导航指导集。
此外,预先存储的规则可以包括用于确定媒体内容的说话者的语音特性(例如,当媒体内容是音频书或播客时)的第五规则。然后,预先存储的规则可以识别用于播放音频导航指令的语音,该语音与媒体内容的说话者可区分开,使得当呈现音频导航指令时用户得到告警。预先存储的规则可以通过将说话者的语音特性(例如,语音的音高、音调和/或频率)与每个语音记录的特性进行比较来从预定语音记录集中选择语音记录,并识别与说话者的语音最不相似的语音记录。通过识别与媒体内容的说话者的语音可区分的用于播放音频导航指令的语音,音频导航指令更容易被用户理解。
除了基于预先存储的规则集来调整音频导航参数之外或作为其替代,内容感知音频导航生成器68可以生成用于针对特定媒体/音频内容调整音频导航指令的机器学习模型。为了生成机器学习模型,内容感知音频导航生成器68获得训练数据,该训练数据包括先前提供给用户的音频导航指令集、当呈现音频导航指令时播放的媒体内容的特性、用户对音频导航指令进行的调整的指示、和/或关于用户对音频导航指令的满意度的自我报告的指示。
例如,选择共享位置数据和/或其他用户数据的选项的用户可以发送由其相应的客户端设备10呈现的音频导航指令集以及在呈现音频导航指令时播放的媒体内容的特性。
媒体内容的特性可以包括媒体内容的语言、媒体内容的语速、媒体内容的说话者的语音特性、媒体内容的转录、媒体内容的长度、媒体内容的标题、媒体内容的类型(例如,播客、音频书、歌曲等)、媒体内容内提到的POI或其他地理话题等。在一些实施方式中,客户端设备10通过与媒体内容的源通信(例如,经由短程通信链路或API)来确定媒体内容的特性。在其他实施方式中,客户端设备10通过分析区域内的环境音频指纹来确定媒体内容的特性。
例如,如果环境音频被识别为电子媒体内容,则用户可以选择允许地图应用122分析该区域内的环境音频的选项。客户端设备10(更具体地,地图应用122)可以首先通过与在客户端设备10上运行的其他应用132或在客户端设备10的通信范围内的其他计算设备92通信来识别媒体内容正在从与地图应用不同的另一源播放。地图应用122还可以通过将预定媒体/音频内容的音频指纹与周围区域中的环境音频指纹进行比较来识别媒体内容正在播放。
例如,地图应用122可以获得与来自流行音乐、音频书、广播节目、播客等的媒体/音频内容相对应的音频指纹库。地图应用122可以例如使用机器学习技术从环境音频提取指纹,识别环境音频指纹的特征,并且可以将环境音频指纹的特征与来自预定媒体/音频内容的音频指纹的特征进行比较。机器学习技术可以包括线性回归、多项式回归、逻辑回归、随机森林、提升(boosting)、最近邻、贝叶斯网络、神经网络、支持向量机或任何其他合适的机器学习技术。例如,频率、音高、音调、幅度等可以被存储为音频指纹特征。可以针对整首歌曲、播客、音频书等或针对媒体内容的单独片段(例如,每8秒片段)识别特征。然后,可以将预定媒体/音频内容的这些音频指纹特征中的每一个与环境音频指纹的特征进行比较。
在一些实施例中,可以使用最近邻算法将预定媒体/音频内容的音频指纹特征与环境音频指纹的特征进行比较。最近邻算法可以识别与环境音频指纹的特征最接近的预定媒体/音频内容的音频指纹特征。然后,当环境音频指纹特征与预定媒体/音频内容中的歌曲、音频书、广播节目、播客等之一的音频指纹特征匹配或与其具有超过阈值量的相似度时,地图应用122可以确定环境音频包括电子媒体内容。地图应用122还可以确定环境音频是预定媒体/音频内容中与环境音频指纹匹配或与其具有超过阈值量的相似度的特定歌曲、音频书、广播节目、播客等。
然后,地图应用122可以基于来自预定媒体/音频内容的匹配歌曲、音频书、广播节目、播客等的特性来识别环境音频的特性。在其他实施方式中,诸如当地图应用122没有使用音频指纹技术从预定媒体/音频内容识别匹配的歌曲、音频书、广播节目、播客等时,地图应用122可以在媒体内容的音频流上运行包括语音识别、说话者识别、语音属性分类和自然语言处理模型的内容分析模型。这些模型可以包括神经网络或任何其他合适类型的机器学习模型,其分析音频流的特性并将特性与训练数据进行比较以识别说话者、音频流中提到的术语(诸如POI或其他地理话题)、媒体内容中的特定标记(例如,句子的结束、片段的结束等)、媒体内容的语言、媒体内容的语速等。
例如,可以使用训练数据来训练模型,该训练数据包括来自若干说话者的音频流,其中音频流的特性(例如,音高、音调、频率、幅度等)根据相应说话者进行分类。地图应用122可以分析媒体内容的音频流以识别音频流的特性,并将特性应用于模型以从若干说话者中识别具有类似特性的说话者。
在另一示例中,可以使用训练数据来训练模型,该训练数据包括几种语言的音频流,其中根据相应语言对音频流的特性进行分类。地图应用122可以分析媒体内容的音频流以识别音频流的特性,并将特性应用于模型以从若干语言中识别具有类似特性的语言。
在又一示例中,可以使用训练数据来训练模型,该训练数据包括音频流,其中特定术语、短语、句子等被说出,并且其中音频流的特性根据相应术语、短语、句子等进行分类。地图应用122可以分析媒体内容的音频流以识别音频流的特性,并将特性应用于模型以从若干术语、短语、句子等中识别具有类似特性的术语、短语、句子等。
在任何情况下,针对呈现的每个音频导航指令或音频导航指令集,内容感知音频导航生成器68可以获得在呈现(一个或多个)音频导航指令时播放的媒体内容的特性。另外,内容感知音频导航生成器68可以获得用户对音频导航指令进行的调整的指示,诸如改变语言、改变语速、改变音量、使音频导航指令静音、请求重复音频导航指令等。同样在一些实施例中,内容感知音频导航生成器68可以获得关于用户对音频导航指令的满意度的自我报告的指示作为附加训练数据。例如,地图应用122可以包括用户控件以指示对音频导航指令的不满意和/或包括文本字段以供用户解释她的不满意。以这种方式,机器学习模型可以生成更可能被遵循并且不太可能打扰或干搅用户的音频导航指令。
可以提供音频导航指令集、音频导航指令参数、媒体内容特性、对音频导航指令参数的用户调整和/或用户是否对音频导航指令满意的指示作为用于使用机器学习技术生成机器学习模型的训练数据。在一些实施例中,可以针对每个音频导航指令参数生成单独的机器学习模型。例如,可以生成用于确定音频导航指令的语言的一个机器学习模型。可以生成用于确定提供音频导航指令的定时的另一机器学习模型。可以生成用于确定音频导航指令的语速的又一机器学习模型。
图3示出可以用于针对特定媒体/音频内容调整音频导航指令的示例数据300。在一些实施例中,内容感知音频导航生成器68可以将数据300应用于预先存储的规则集以调整音频导航指令。数据300可以包括媒体/音频内容特性310和音频导航指令参数320。媒体/音频内容特性310可以包括媒体内容的转录、媒体内容的语速、媒体内容的语言、媒体内容中包括的POI、媒体内容的长度、媒体内容的相关性水平、媒体内容的标题、媒体内容的类型、媒体内容的说话者的语音特性等。
媒体内容的转录可以包括媒体内容的文本以及媒体内容中存在暂停的时间点的指示,诸如句子的结束、片段的结束、下一个句子的开始、下一个片段的开始等。
媒体内容的相关性水平可以是诸如从1到100的相关性分数,可以是诸如“非常低”、“低”、“中等”、“高”、“非常高”等的类别,或者可以以任何其他合适的方式指示。可以基于媒体内容的主题、用户的当前位置和/或音频导航指导的目的地位置来确定媒体内容的相关性水平。例如,当媒体内容是用户正在其中驾驶的城市的音频导览时,或者当媒体内容是关于如何执行用户可能在目的地执行的任务的教学视频时,相关性水平可以是高的。
媒体内容的类型可以包括广播节目、播客、音频书、音乐、广告、电视节目、电影、视频等。说话者的语音特性可以包括说话者的语音的音高、音调、频率或任何其他合适的特性。
虽然示例媒体/音频内容特性310可以包括媒体内容的转录、媒体内容的语速、媒体内容的语言、媒体内容中包括的POI、媒体内容的长度、媒体内容的相关性水平、媒体内容的标题、媒体内容的类型、媒体内容的说话者的语音特性等,但是这些仅仅是媒体/音频内容特性310的几个示例,仅为了便于说明。可以使用任何合适的媒体/音频内容特性310,并且可以使用所描述的特性310的子集。
音频导航指令参数320可以包括操纵类型、操纵的位置、操纵的复杂度水平、播放音频导航指令的紧急性水平、音频导航指令的语言、音频导航指令的语速、音频导航指令的语音、音频导航指令的定时和/或音频导航指令的音量。
操纵的复杂度水平可以是诸如从1到100的复杂度分数,可以是诸如“非常低”、“低”、“中等”、“高”、“非常高”等的类别,或者可以以任何其他合适的方式指示。可以基于操纵类型,诸如四向交叉路口中的转弯、六向交叉路口中的转弯、环形交叉路口、掉头、高速公路并道、高速公路出口等,来确定操纵的复杂度水平。还可以基于即将到来的操纵与先前操纵之间的时间量或距离来确定复杂度水平。在先前操纵之后不久发生的操纵可能具有更高的复杂度水平。此外,可以基于用户需要改变以执行操纵的车道的数量来确定复杂度水平。例如,地图应用122可以将用户在执行先前操纵之后的初始车道与用户执行即将到来的操纵的最终车道进行比较。复杂度水平可以随着用于执行操纵的车道改变的数量增加而增加。
用于播放音频导航指令的紧急性水平可以是诸如从1到100的紧急性分数,可以是诸如“非常低”、“低”、“中等”、“高”、“非常高”等的类别,或者可以以任何其他合适的方式指示。可以基于直到用户不得不执行操纵的距离和/或时间的量来确定操纵的紧急性水平。例如,紧急性分数可以与直到用户不得不执行用户为止的时间和/或距离的量反向相关。当操纵距离用户的当前位置200米时的紧急性水平会高于当操纵距离用户的当前位置1英里时的紧急性水平。
音频导航指令的定时可以包括何时呈现音频导航指令,诸如何时用户处于先前操纵的位置与后续操纵的位置之间的半途。音量可以以分贝(dB)指示或分类为低音量(例如,低于第一阈值分贝量)、中等音量(例如,在第一阈值分贝量与高于第一阈值分贝量的第二阈值分贝量之间)、高音量(例如,高于第二阈值分贝量)等。
虽然示例音频导航指令参数320可以包括操纵类型、操纵的位置、操纵的复杂度水平、播放音频导航指令的紧急性水平、音频导航指令的语言、音频导航指令的语速、音频导航指令的语音、音频导航指令的定时、音频导航指令的音量等,但是这些仅仅是音频导航指令参数320的几个示例,仅为了便于说明。可以使用任何合适的音频导航指令参数320,并且可以使用所描述的参数320的子集。
数据300还包括基于媒体内容特性和/或音频导航指令参数对音频导航指令进行调整的指示。内容感知音频导航生成器68可以通过将预先存储的规则应用于媒体内容特性和/或音频导航指令参数来确定对音频导航指令的调整。在其他场景中,调整可以是来自用户选择用户控件的手动调整。
例如,响应于乔的咖啡被包括在广告中,内容感知音频导航生成器68可以与地图数据服务器50通信以确定乔的咖啡馆的位置并将该位置与沿着导航指导的路线的中途点进行比较。如果在沿着路线的中途点之一的阈值半径内存在乔的咖啡,则内容感知音频导航生成器68可以将对用户绕行到乔的咖啡的推荐添加到音频导航指导集。在另一示例中,响应于播客的语速为1.5x,内容感知音频导航生成器68可以将音频导航指令的语速增加到1.5x,并且可以调整即将到来的音频导航指令的定时以在播客中的句子结束之后播放。在又一示例中,响应于媒体内容包括西班牙语的音乐,内容感知音频导航生成器68可以将音频导航指令的语言改变为西班牙语。在另一示例中,响应于播客的语速为2x的希伯来语,内容感知音频导航生成器68可以将音频导航指令的语速增加到2x,并且可以将音频导航指令的语言改变为希伯来语。
在其他实施例中,数据300可以是用于生成机器学习模型的训练数据。在一些实施例中,训练数据300可以存储在数据库80中。除了媒体/音频内容特性310和音频导航指令参数320之外,训练数据300还可以包括指示驾驶员对音频导航指令的响应的数据。指示驾驶员对音频导航指令的响应的数据可以包括由用户对音频导航指令进行的调整,诸如改变语言、改变语速、改变音量、使音频导航指令静音、请求重复音频导航指令等。指示驾驶员对音频导航指令的响应的数据可以包括关于用户对音频导航指令的满意度的自我报告的指示作为附加训练数据。
为了生成机器学习模型,内容感知音频导航生成器68可以将训练数据300的子集分类为对应于对音频导航指令的各种调整。一些子集可以被分类在多个调整类别中,诸如训练数据集300的最后条目,其包括对音频导航指令的语速和语言的调整。
然后,内容感知音频导航生成器68可以分析子集以生成机器学习模型。机器学习模型可以使用各种机器学习技术来生成,机器学习技术诸如回归分析(例如,逻辑回归、线性回归或多项式回归)、k最近邻、决策树、随机森林、提升、神经网络、支持向量机、深度学习、强化学习、贝叶斯网络等。在一些实施例中,内容感知音频导航生成器68可以生成用于确定音频导航指令的语言的第一机器学习模型。内容感知音频导航生成器68可以生成用于确定音频导航指令的语速的第二机器学习模型。内容感知音频导航生成器68可以生成用于确定提供音频导航指令的定时的第三机器学习模型、用于识别音频导航指令的语音记录的第四机器学习模型、以及用于确定音频导航指令中要引用的POI的第五机器学习模型。
例如,用于确定提供音频导航指令的定时的机器学习模型可以是具有通过分支连接的若干节点的决策树,其中每个节点表示对媒体/音频内容特性和/或音频导航指令参数的测试(例如,媒体内容的相关性水平高吗?),每个分支表示测试的结果(例如,是),并且每个叶表示对音频导航指令的定时的调整(例如,立即播放、在媒体内容中的句子结束之后播放、在媒体内容的片段结束之后播放等)。
更具体地,内容感知音频导航生成器68可以生成决策树,其中第一节点对应于音频指令的紧急性水平是否高。如果紧急性水平不高,则第一分支可以连接到对应于媒体内容是否剩余超过10秒的第二节点。如果媒体内容剩余超过10秒,则第二分支可以连接到与相关性水平是否高相对应的第三节点。如果相关性水平高,则第三分支可以连接到叶节点,该叶节点可以指示应当在媒体内容中的句子结束之后呈现音频导航指令。虽然决策树包括一个叶节点和三个分支,但是这仅仅是为了便于说明的示例。每个决策树可以包括任何数量的节点、分支和叶,其具有关于媒体/音频内容特性和/或音频导航指令参数的任何合适数量和/或类型的测试。
在任何情况下,内容感知音频导航生成器68可以使用预先存储的规则或机器学习技术来识别针对特定媒体/音频内容对音频导航指令的调整,如上所述。在一些实例中,内容感知音频导航生成器68然后可以生成调整后的音频导航指令。如已经描述的,这样的改变通过避免冲突或以其他方式区分其他媒体内容来提高音频导航指令的清晰度。例如,当内容感知音频导航生成器68确定将语言从英语改变为西班牙语时,内容感知音频导航生成器68可以获得从起始位置到目的地位置的西班牙语音频导航指导集,并且将西班牙语音频导航指导提供给客户端设备10。在另一示例中,当内容感知音频导航生成器68添加向右看以查看媒体内容中提到的特定纪念碑的附加推荐时,内容感知音频导航生成器68可以向客户端设备10提供附加推荐。
在其他实例中,内容感知音频导航生成器68可以向客户端设备10提供指令以调整音频导航指令的参数。例如,当内容感知音频导航生成器68确定将语速改变为1.5x时,内容感知音频导航生成器68可以向客户端设备10发送指令以将语速改变为1.5x,并且客户端设备10可以以1.5x播放音频导航指令。在另一示例中,当内容感知音频导航生成器68确定在特定时间点(诸如在媒体内容中的句子或片段的结束处)播放音频导航指令时,内容感知音频导航生成器68可以向客户端设备10发送指令以等待直到媒体内容中的句子或片段的结束播放音频导航指令。然后,客户端设备10可以分析媒体内容的音频流以确定句子或片段何时结束,然后播放音频导航指令。如上所述,内容感知音频导航生成器68可以在服务器设备60或客户端设备10中实现。在内容感知音频导航生成器68在客户端设备10上实现的场景中,内容感知音频导航生成器68可以向在客户端设备10上运行的文本到语音(TTS)引擎提供指令,以调整音频导航指令的参数。
用于呈现内容感知音频导航指令的示例方法
图4示出用于生成内容感知音频导航指令的示例方法400的流程图。该方法可以以存储在计算机可读存储器上并且在客户端设备10的一个或多个处理器处可运行的指令集来实现。例如,该方法的至少一些步骤可以由地图应用122实现。
在框402处,经由地图应用122获得用于沿着路线将用户从起始位置导航到目的地位置的音频导航指导集。例如,用户可以经由地图应用122请求从用户的当前位置到目的地位置的导航指导,并且客户端设备10可以将请求转发到导航服务器34。然后,导航服务器34可以生成音频导航指令集,并将该音频导航指令集发送到客户端设备10以回放给用户。
然后,在框404处,识别从与地图应用不同的源播放的电子媒体内容。源可以是在客户端设备10上运行的另一应用132,或者可以是在客户端设备10附近的另一计算设备92。为了识别电子媒体内容,地图应用122可以与在客户端设备上运行的其他应用132(例如,经由API)通信或在客户端设备10附近的其他计算设备92(诸如车辆头部单元14或其他客户端设备)(例如,经由短程通信链路)通信。通信可以包括由其他应用/设备92、132播放的电子媒体内容的指示,并且可以包括电子媒体内容的特性,诸如电子媒体内容的语言、电子媒体内容的语速、电子媒体内容的转录、电子媒体内容的说话者的语音特性等(框406)。
除了与其他应用/设备通信以识别媒体内容之外,地图应用122还可以将在该区域内播放的环境音频(其可能已经由客户端设备10的麦克风捕获)与流行媒体内容(诸如流行歌曲、无线电节目、播客等)的音频指纹集进行比较,以识别电子媒体内容。一旦识别出电子媒体内容,地图应用122就可以通过在电子媒体内容的音频流上运行包括语音识别、说话者识别、语音属性分类和自然语言处理模型的内容分析模型来识别电子媒体内容的特性(框406)。这些模型可以包括神经网络或任何其他合适类型的机器学习模型,其分析音频流的特性并将特性与训练数据进行比较以识别说话者、音频流中提到的术语(诸如POI)、媒体内容中的特定标记(例如,句子的结束、片段的结束等)、媒体内容的语言、媒体内容的语速等。
在任何情况下,可以然后根据电子媒体内容的特性来调整音频导航指导集(框408)。更具体地,在一些实施方式中,可以使用预先存储的规则集来调整音频导航指导集。例如,预先存储的规则可以包括第一规则,其用于基于媒体内容的至少一个片段、媒体内容的至少阈值数量的片段或媒体内容的至少阈值时间量的语言来调整音频导航指令的语言。预先存储的规则还可以包括第二规则,其用于基于媒体内容的至少一个片段、媒体内容的至少阈值数量的片段或媒体内容的至少阈值时间量的语速来调整音频导航指令的语速。
此外,预先存储的规则可以包括第三规则,其用于调整音频导航指令的定时,使得在媒体内容的句子或片段结束之后播放音频导航指令。更进一步地,预先存储的规则可以包括第四规则,其用于识别包括在媒体内容中的POI,并且确定POI是否在沿着路线的中途点的阈值半径内。如果POI在沿着路线的中途点的阈值半径内,则预先存储的规则可以指示播放关于POI的信息,诸如“如果你感兴趣,那么左边是罗马考古遗址”。另外地或可替代地,预先存储的规则可以指示向用户提供导航到POI的建议,诸如“乔的咖啡在左边约一英里处。你想要那里的导航指导吗?”。
此外,预先存储的规则可以包括第五规则,其用于确定媒体内容的说话者的语音特性,例如,当媒体内容是音频书或播客时。然后,预先存储的规则可以识别用于播放音频导航指令的语音,该语音与媒体内容的说话者可区分开,使得当呈现音频导航指令时用户得到告警。
除了基于预先存储的规则集来调整音频导航参数之外或作为其替代,地图应用122可以生成用于针对特定媒体/音频内容调整音频导航指令的机器学习模型。然后,地图应用122可以将电子媒体内容的特性和/或音频导航指令的参数应用于机器学习模型,以识别对音频导航指令的调整。
地图应用122然后可以生成调整后的音频导航指令。例如,当地图应用122确定将语言从英语改变为西班牙语时,地图应用122可以获得从起始位置到目的地位置的西班牙语音频导航指导集。在其他实例中,地图应用122可以向TTS引擎提供指令以调整音频导航指令的参数。
在其他实施方式中,为了根据电子媒体内容的特性来调整音频导航指导集,客户端设备10可以将音频导航指导集、电子媒体内容的特性和/或音频导航指令参数发送到服务器设备60。服务器设备60,并且更具体地,内容感知音频导航生成器68,可以获得用于调整音频导航指导集的预先存储的规则集,或者可以生成用于针对特定媒体/音频内容调整音频导航指令的机器学习模型。内容感知音频导航生成器68可以将电子媒体内容的特性和/或音频导航指令参数应用于预先存储的规则集或机器学习模型,以识别对音频导航指令的调整。然后,服务器设备60可以将调整后的音频导航指导或如何调整音频导航指导的回放的指示发送到客户端设备10。有利地,通过使用服务器设备60而不是客户端设备10来识别对音频导航指令的调整,节省了客户端设备10的资源,这是因为用于执行该任务的处理、时间和功耗是服务器设备60的资源。另外,将该步骤移动到服务器设备60允许更有效地执行该过程,特别是在实时场景中,这是因为服务器设备60的处理能力会超过客户端设备60的处理能力,从而允许更快地识别调整。
然后,在框410处,例如经由扬声器向用户呈现调整后的音频导航指导。
附加考虑
以下附加考虑适用于前述讨论。在整个说明书中,多个实例可以实现被描述为单个实例的组件、操作或结构。尽管一个或多个方法的各个操作被示出和描述为单独的操作,但是各个操作中的一个或多个可以同时执行,并且不需要以所示的顺序执行操作。在示例配置中呈现为单独组件的结构和功能可以被实现为组合的结构或组件。类似地,呈现为单个组件的结构和功能可以实现为单独的组件。这些和其他变化、修改、添加和改进落入本公开的主题的范围内。
另外,某些实施例在本文中被描述为包括逻辑或多个组件、模块或机制。模块可以构成软件模块(例如,存储在机器可读介质上的代码)或硬件模块。硬件模块是能够执行某些操作的有形单元,并且可以以某种方式配置或布置。在示例实施例中,一个或多个计算机系统(例如,独立的客户端或服务器计算机系统)或计算机系统的一个或多个硬件模块(例如,处理器或一组处理器)可以由软件(例如,应用或应用部分)配置为操作以执行如本文所述的某些操作的硬件模块。
在各种实施例中,硬件模块可以机械地或电子地实现。例如,硬件模块可以包括永久配置(例如,作为专用处理器,诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC))以执行某些操作的专用电路或逻辑。硬件模块还可以包括由软件临时配置以执行某些操作的可编程逻辑或电路(例如,包含在通用处理器或其他可编程处理器内)。将理解,在专用和永久配置的电路中或在临时配置的电路(例如,由软件配置)中机械地实现硬件模块的决定可以由成本和时间考虑来驱动。
因此,术语硬件应当被理解为包含有形实体,是物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)为以某种方式操作或执行本文描述的某些操作的实体。如本文所使用的,“硬件实现的模块”是指硬件模块。考虑到临时配置(例如,编程)硬件模块的实施例,不需要在任何一个时间实例配置或实例化每个硬件模块。例如,在硬件模块包括使用软件配置的通用处理器的情况下,通用处理器可以在不同时间被配置为相应的不同硬件模块。因此,软件可以将处理器配置为例如在一个时间实例构成特定硬件模块并且在不同时间实例构成不同的硬件模块。
硬件模块可以向其他硬件提供信息并从其他硬件接收信息。因此,所描述的硬件模块可以被视为通信地耦接。在同时存在多个这样的硬件模块的情况下,可以通过连接硬件模块的信号传输(例如,通过适当的电路和总线)来实现通信。在其中在不同时间配置或实例化多个硬件模块的实施例中,可以例如通过在多个硬件模块可以访问的存储器结构中存储和检索信息来实现这样的硬件模块之间的通信。例如,一个硬件模块可以执行操作并将该操作的输出存储在其与之通信耦接的存储器设备中。然后,另一硬件模块可以在稍后的时间访问存储器设备以检索和处理存储的输出。硬件模块还可以发起与输入或输出设备的通信,并且可以对资源(例如,信息的集合)进行操作。
方法400可以包括有形计算机可执行指令形式的一个或多个功能块、模块、单独功能或例程,所述指令存储在非暂时性计算机可读存储介质中并使用计算设备(例如,如本文所述的服务器设备、个人计算机、智能电话、平板计算机、智能手表、移动计算设备或其他客户端计算设备)的处理器运行。例如,方法400可以被包括作为任何后端服务器(例如,地图数据服务器、导航服务器或任何其他类型的服务器计算设备,如本文所述)、示例环境的客户端计算设备模块的一部分,或者作为这种环境外部的模块的一部分。尽管为了便于解释可以参考其他附图描述附图,但是方法400可以与其他对象和用户界面一起使用。此外,尽管上面的解释描述了由特定设备(诸如服务器设备60或客户端设备10)执行的方法400的步骤,但是这样做仅是为了说明的目的。方法400的框可以由一个或多个设备或环境的其他部分执行。
本文描述的示例方法的各种操作可以至少部分地由临时配置(例如,通过软件)或永久配置为执行相关操作的一个或多个处理器执行。无论是临时配置还是永久配置,这样的处理器可以构成操作以执行一个或多个操作或功能的处理器实现的模块。在一些示例实施例中,本文提及的模块可以包括处理器实现的模块。
类似地,本文描述的方法或例程可以至少部分地由处理器实现。例如,方法的至少一些操作可以由一个或多个处理器或处理器实现的硬件模块执行。某些操作的执行可以分布在一个或多个处理器中,不仅驻留在单个机器内,而且跨多个机器部署。在一些示例实施例中,一个或多个处理器可以位于单个位置(例如,在家庭环境、办公室环境内或作为服务器群),而在其他实施例中,处理器可以分布在多个位置上。
一个或多个处理器还可以操作以支持“云计算”环境中或作为SaaS的相关操作的执行。例如,如上所指示的,至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行,这些操作经由网络(例如,互联网)和经由一个或多个适当的接口(例如,API)可访问。
此外,附图仅出于说明的目的描绘了示例环境的一些实施例。本领域技术人员将从以下讨论中容易地认识到,在不脱离本文描述的原理的情况下,可以采用本文所示的结构和方法的替代实施例。
在阅读本公开时,本领域技术人员将理解用于通过本文所公开的原理提供内容感知音频导航指令的另外的替代结构和功能设计。因此,虽然已经示出和描述了特定实施例和应用,但是应当理解,所公开的实施例不限于本文公开的精确构造和组件。在不脱离所附权利要求中限定的精神和范围的情况下,可以对本文公开的方法和装置的布置、操作和细节进行对本领域技术人员将是显而易见的各种修改、改变和变化。

Claims (20)

1.一种用于生成内容感知导航指令的方法,所述方法包括:
由客户端设备中的一个或多个处理器经由地图应用获得用于沿着路线从起始位置穿越到目的地位置的一个或多个音频导航指导;
由所述一个或多个处理器识别从不同于地图应用的源播放的电子媒体内容,所述源在客户端设备处或在客户端设备附近运行;
由所述一个或多个处理器确定电子媒体内容的特性;
由所述一个或多个处理器根据电子媒体内容的特性来调整所述一个或多个音频导航指导中的至少一个音频导航指导;以及
由所述一个或多个处理器向用户呈现至少一个调整后的音频导航指导。
2.根据权利要求1所述的方法,其中,调整所述一个或多个音频导航指导中的至少一个包括以下中的至少一个:
调整所述至少一个音频导航指导被呈现的定时,
调整所述至少一个音频导航指导被呈现的语言,
调整所述至少一个音频导航指导被呈现的速度,或者
提供对沿着路线的兴趣点(POI)的推荐。
3.根据权利要求1或2所述的方法,其中,确定电子媒体内容的特性包括以下中的至少一个:
确定电子媒体内容被所述源呈现的速度,
确定电子媒体内容被所述源呈现的语言,
识别电子媒体内容中的暂停,或者
识别包括在电子媒体内容中的兴趣点(POI)或地理话题。
4.根据任何前述权利要求所述的方法,其中,根据电子媒体内容的特性来调整所述一个或多个音频导航指导中的至少一个包括:
由所述一个或多个处理器确定所述至少一个音频导航指导的复杂度水平;
由所述一个或多个处理器确定电子媒体内容的相关性水平;
由所述一个或多个处理器将所述至少一个音频导航指导的复杂度水平与电子媒体内容的相关性水平进行比较;以及
由所述一个或多个处理器基于比较来确定是否呈现所述至少一个音频导航指导。
5.根据权利要求4所述的方法,其中,基于比较来确定是否呈现所述至少一个音频导航指导包括:
响应于确定所述至少一个音频导航指导的复杂度水平超过电子媒体内容的相关性水平,由所述一个或多个处理器呈现所述至少一个音频导航指导。
6.根据权利要求4所述的方法,其中,基于比较来确定是否呈现所述至少一个音频导航指导包括:
响应于确定电子媒体内容的相关性水平超过所述导航指令的复杂度水平,由所述一个或多个处理器不呈现所述至少一个音频导航指导。
7.根据任何前述权利要求所述的方法,其中,识别从不同于地图应用的源播放的电子媒体内容包括以下中的至少一个:
由所述一个或多个处理器从在客户端设备上运行的音频应用获得音频回放数据,所述音频应用不同于地图应用;
由所述一个或多个处理器从通信地耦接到客户端设备的设备获得音频回放数据;或者
由所述一个或多个处理器将环境音频指纹与预定媒体内容的一个或多个音频指纹进行比较。
8.根据任何前述权利要求所述的方法,其中,调整所述至少一个音频导航指导包括:
由所述一个或多个处理器识别电子媒体内容中的句子的结束;以及
由所述一个或多个处理器在句子的结束之后呈现所述至少一个音频导航指导。
9.根据任何前述权利要求所述的方法,还包括:
由所述一个或多个处理器根据所述一个或多个音频导航指导来调整电子媒体内容被呈现的方式。
10.根据任何前述权利要求所述的方法,其中,根据电子媒体内容的特性来调整所述至少一个音频导航指导包括以下中的至少一个:
通过将电子媒体内容的特性应用于预先存储的规则集来调整所述至少一个音频导航指导;或者
生成用于针对特定电子媒体内容调整音频导航指令的机器学习模型,并且通过将电子媒体内容的特性应用于机器学习模型来调整所述至少一个音频导航指导。
11.一种用于生成内容感知导航指令的客户端设备,所述客户端设备包括:
扬声器;
一个或多个处理器;以及
非暂时性计算机可读存储器,耦接到所述一个或多个处理器和扬声器并且在其上存储指令,所述指令在由所述一个或多个处理器运行时,使客户端设备:
经由地图应用获得用于沿着路线从起始位置穿越到目的地位置的一个或多个音频导航指导;
识别从不同于地图应用的源播放的电子媒体内容,所述源在客户端设备处或在客户端设备附近运行;
确定电子媒体内容的特性;
根据电子媒体内容的特性来调整所述一个或多个音频导航指导中的至少一个音频导航指导;以及
经由扬声器向用户呈现至少一个调整后的音频导航指导。
12.根据权利要求11所述的客户端设备,其中,为了调整所述至少一个音频导航指导,所述指令使客户端设备执行以下中的至少一个:
调整所述至少一个音频导航指导被呈现的定时,
调整所述至少一个音频导航指导被呈现的语言,
调整所述至少一个音频导航指导被呈现的速度,或者
提供对沿着路线的兴趣点(POI)的推荐。
13.根据权利要求11或12所述的客户端设备,其中,为了确定电子媒体内容的特性,所述指令使客户端设备执行以下中的至少一个:
确定电子媒体内容被所述源呈现的速度,
确定电子媒体内容被所述源呈现的语言,
识别电子媒体内容中的暂停,或者
识别包括在电子媒体内容中的兴趣点(POI)或地理话题。
14.根据权利要求11至13中任一项所述的客户端设备,其中,为了根据电子媒体内容的特性来调整所述至少一个音频导航指导,所述指令使客户端设备:
确定所述至少一个音频导航指导的复杂度水平;
确定电子媒体内容的相关性水平;
将所述至少一个音频导航指导的复杂度水平与电子媒体内容的相关性水平进行比较;以及
基于比较来确定是否呈现所述至少一个音频导航指导。
15.根据权利要求14所述的客户端设备,其中,为了基于比较来确定是否呈现所述至少一个音频导航指导,所述指令使客户端设备:
响应于确定所述至少一个音频导航指导的复杂度水平超过电子媒体内容的相关性水平,呈现所述至少一个音频导航指导。
16.根据权利要求11至15中任一项所述的客户端设备,其中,为了识别从不同于地图应用的源播放的电子媒体内容,所述指令使客户端设备执行以下中的至少一个:
从在客户端设备上运行的音频应用获得音频回放数据,所述音频应用不同于地图应用;
从通信地耦接到客户端设备的设备获得音频回放数据;或者
将环境音频指纹与预定媒体内容的一个或多个音频指纹进行比较。
17.根据权利要求11至16中任一项所述的客户端设备,其中,为了调整所述至少一个音频导航指导,所述指令使客户端设备:
识别电子媒体内容中的句子的结束;以及
在句子的结束之后呈现所述至少一个音频导航指导。
18.根据权利要求11至17中任一项所述的客户端设备,其中,所述指令还使客户端设备:
根据所述一个或多个音频导航指导来调整电子媒体内容被呈现的方式。
19.一种非暂时性计算机可读存储器,其上存储有指令,所述指令在由一个或多个处理器运行时,使所述一个或多个处理器:
经由地图应用获得用于沿着路线从起始位置穿越到目的地位置的一个或多个音频导航指导;
识别从不同于地图应用的源播放的电子媒体内容,所述源在客户端设备处或在客户端设备附近运行;
确定电子媒体内容的特性;
根据电子媒体内容的特性来调整所述一个或多个音频导航指导中的至少一个音频导航指导;以及
经由扬声器向用户呈现至少一个调整后的音频导航指导。
20.根据权利要求19所述的非暂时性计算机可读存储器,其中,为了调整所述至少一个音频导航指导,所述指令使所述一个或多个处理器执行以下中的至少一个:
调整所述至少一个音频导航指导被呈现的定时,
调整所述至少一个音频导航指导被呈现的语言,
调整所述至少一个音频导航指导被呈现的速度,或者
提供对沿着路线的兴趣点(POI)的推荐。
CN202080106401.9A 2020-10-22 2020-10-22 内容感知导航指令 Pending CN116368353A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2020/056756 WO2022086528A1 (en) 2020-10-22 2020-10-22 Content-aware navigation instructions

Publications (1)

Publication Number Publication Date
CN116368353A true CN116368353A (zh) 2023-06-30

Family

ID=73449197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080106401.9A Pending CN116368353A (zh) 2020-10-22 2020-10-22 内容感知导航指令

Country Status (6)

Country Link
US (1) US20220299335A1 (zh)
EP (1) EP4196750A1 (zh)
JP (1) JP2023547324A (zh)
KR (1) KR20230091882A (zh)
CN (1) CN116368353A (zh)
WO (1) WO2022086528A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220131979A1 (en) * 2020-10-28 2022-04-28 Capital One Services, Llc Methods and systems for automatic queuing in conference calls
US20230418449A1 (en) * 2022-06-22 2023-12-28 Rivian Ip Holdings, Llc User interface adjustment based on proximity to upcoming maneuver
WO2024043883A1 (en) * 2022-08-24 2024-02-29 Google Llc Suggesting media content to accompany a journey

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9997069B2 (en) * 2012-06-05 2018-06-12 Apple Inc. Context-aware voice guidance
US9087508B1 (en) * 2012-10-18 2015-07-21 Audible, Inc. Presenting representative content portions during content navigation
US9644983B2 (en) * 2013-10-15 2017-05-09 Apple Inc. Simplified audio navigation instructions
CN114756124A (zh) * 2014-01-03 2022-07-15 谷歌有限责任公司 便携式装置与车辆头端单元之间的交互
US9736650B2 (en) * 2014-03-27 2017-08-15 Here Global B.V. Method and apparatus for adapting navigation notifications based on compliance information
US10261564B1 (en) * 2015-02-25 2019-04-16 Amazon Technologies, Inc. Goal oriented device configuration
US9726746B2 (en) * 2015-03-06 2017-08-08 Sensible Innovations, LLC Audio navigation system for the visually impaired
US9998847B2 (en) * 2016-11-17 2018-06-12 Glen A. Norris Localizing binaural sound to objects
EP3784988A1 (en) * 2018-11-02 2021-03-03 Google LLC Context aware navigation voice assistant
WO2022039718A1 (en) * 2020-08-18 2022-02-24 Google Llc Navigation directions preview

Also Published As

Publication number Publication date
JP2023547324A (ja) 2023-11-10
KR20230091882A (ko) 2023-06-23
EP4196750A1 (en) 2023-06-21
US20220299335A1 (en) 2022-09-22
WO2022086528A1 (en) 2022-04-28

Similar Documents

Publication Publication Date Title
US20220299335A1 (en) Content-aware navigation instructions
US10310808B2 (en) Systems and methods for simultaneously receiving voice instructions on onboard and offboard devices
US20200410992A1 (en) Device for recognizing speech input from user and operating method thereof
US20190180747A1 (en) Voice recognition apparatus and operation method thereof
KR20160090743A (ko) 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법
KR102066451B1 (ko) 차량용 ai 서비스를 제공하는 방법 및 이를 이용한 장치
KR102655342B1 (ko) 컨텍스트 인식 내비게이션 음성 어시스턴트
KR20210001937A (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
WO2014199428A1 (ja) 候補告知装置、候補告知方法及び候補告知用プログラム
JP2015007595A (ja) 車両用装置、通信システム、通信方法、及び、プログラム
US20220404155A1 (en) Alternative Navigation Directions Pre-Generated When a User is Likely to Make a Mistake in Navigation
KR102132684B1 (ko) 이동 중 사용자와 음성에이전트간의 질의응답에 기초하여 정보 컨텐츠를 추천하는 방법 및 시스템
JP2018081102A (ja) 通信装置、通信方法、及び、プログラム
CN113792214A (zh) 兴趣点确定方法、语音导航方法、装置、设备及存储介质
CN111723234A (zh) 一种音频提供方法、装置、设备及存储介质
US20240067128A1 (en) Supporting multiple roles in voice-enabled navigation
KR102122290B1 (ko) 이동 중 사용자와 음성에이전트간의 질의응답에 기초하여 정보 컨텐츠를 추천하는 방법 및 시스템
US20240210194A1 (en) Determining places and routes through natural conversation
US20230178071A1 (en) Method for determining a vehicle domain and a speech recognition system for a vehicle
WO2024019710A1 (en) Ad-hoc navigation instructions
JP2001242887A (ja) 音声認識装置および音声認識ナビゲーション装置
CN116034426A (zh) 交互式语音导航
KR20150073235A (ko) 자기 목소리 기반 음성 길 안내 정보 제작방법 및 그 제작방법이 구현된 내비게이션 서비스 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination