CN111523850B - 响应于共同存在确定的调用动作 - Google Patents

响应于共同存在确定的调用动作 Download PDF

Info

Publication number
CN111523850B
CN111523850B CN202010115362.0A CN202010115362A CN111523850B CN 111523850 B CN111523850 B CN 111523850B CN 202010115362 A CN202010115362 A CN 202010115362A CN 111523850 B CN111523850 B CN 111523850B
Authority
CN
China
Prior art keywords
user
client device
individual
audio information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010115362.0A
Other languages
English (en)
Other versions
CN111523850A (zh
Inventor
安德鲁·西奥多·万斯利
阿迈·尼汀·尚潘尼里亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202010115362.0A priority Critical patent/CN111523850B/zh
Publication of CN111523850A publication Critical patent/CN111523850A/zh
Application granted granted Critical
Publication of CN111523850B publication Critical patent/CN111523850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/109Time management, e.g. calendars, reminders, meetings or time accounting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/66Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
    • H04M1/667Preventing unauthorised calls from a telephone set
    • H04M1/67Preventing unauthorised calls from a telephone set by electronic means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/023Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Signal Processing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及响应于共同存在确定的调用动作。本发明公开了方法、装置和计算机可读介质(瞬态和非瞬态),用于:基于感测到一个或多个可听声音来接收音频信息;识别一个或多个语音简档,其中所述语音简档中的每一个与个体相关联并且指示所关联的个体的一个或多个语音特性;确定所述一个或多个语音简档的至少一个给定语音简档匹配所述音频信息;基于确定所述给定语音简档匹配所述音频信息,确定所述用户至少同与所述给定语音简档相关联的个体的共同存在;识别动作,该动作包括基于所述用户同与所述给定语音简档相关联的个体的共同存在的触发器;以及基于所确定的所述用户至少同与所述给定语音简档相关联的个体的共同存在,调用所述动作。

Description

响应于共同存在确定的调用动作
分案说明
本申请属于申请日为2015年6月3日的中国发明专利申请No.201580029922.8的分案申请。
背景技术
用户可以配置诸如智能电话的电子设备以向用户提供提醒以及其他通知。这些提醒和通知通常由于日历事件和/或任务相关联的日期和/或时间来触发。例如,用户可以为星期五2:30的“会议”创建日历条目。用户的电话可以在会议的时间或者在会议前的一些预定时间间隔提供例如音频和/或视觉通知形式的提醒。一些用户可能想要响应于线索而非基于日期和/或时间的触发的通知。
发明内容
本说明书一般针对用于使用可听声音来确定用户同一个或多个其他个体共同存在的方法和装置。譬如,可以通过用户的移动设备捕捉所述可听声音。可以选择一个或多个动作,其包括基于确定所述用户同所述一个或多个个体的共同存在的触发器。响应于基于所捕捉的可听声音做出的共同存在确定,例如,使用用户的移动电话,可以调用所选择的动作,例如,可以向所述用户提供通知。
基于同其他用户的共同存在而向用户提供通知可以提供各种技术效果。一个技术效果可以是更加智能地显现提醒。例如,一个用户可能希望与朋友具有某种交互,但可能并不明确地知道接下来他们会在何时再遇见朋友。用户可以将提醒设定成仅在朋友存在时才显现,而并非将提醒设定成在一些随机的时间点和/或周期性显现。这可以避免用户受困于提醒,因为在提醒时用户或许能够解决,也可能无法解决。此外,这可以提高在适当时间向用户提供提醒的可能性,由此降低提醒需要被“休眠”并且被多次呈现给用户的可能性。与如果因初始呈现即为适当时间而仅呈现一次提醒相比,多次将提醒呈现给用户会消耗呈现提醒的用户的计算设备的更多资源和/或会消耗更多的网络通信资源。
在一些实施方式中,提供一种方法,其包括以下步骤:从用户的客户端设备接收音频信息,所述音频信息基于由所述客户端设备感测到一个或多个可听声音;识别一个或多个语音简档,其中所述语音简档中的每一个与个体相关联并且指示所关联的个体的一个或多个语音特性;确定所述一个或多个语音简档的至少一个给定语音简档匹配所述音频信息;基于确定所述给定语音简档匹配所述音频信息,确定所述用户至少同与所述给定语音简档相关联的个体的共同存在;识别动作,该动作包括基于所述用户同与所述给定语音简档相关联的个体的共同存在的触发器;以及基于所确定的所述用户至少同与所述给定语音简档相关联的个体的共同存在,调用所述动作。
这些方法以及本文中所公开的技术的其他实施方式可以各自可选地包括以下特征中的一个或多个。
所述动作可以是对所述用户的提醒。确定所述用户至少同与所述给定语音简档相关联的个体的共同存在的步骤可以进一步基于所述用户至少同与所述给定语音简档相关联的个体的共同存在的一个或多个附加指示。所述方法可以进一步包括以下步骤:识别与所述用户相关联的用户位置信息;以及基于所述用户位置信息,确定所述共同存在的附加指示。可以进一步包括以下步骤:识别同与所述给定语音简档相关联的个体相关联的个体位置信息;以及基于所述用户位置信息与所述个体位置信息的比较,确定所述共同存在的附加指示。
所述方法可以进一步包括以下步骤:在语音上分析所述音频信息以确定由所述客户端设备感测的所述可听声音的一个或多个词语;以及基于所述一个或多个词语,确定所述共同存在的附加指示。
所述方法可以进一步包括以下步骤:识别指示所述用户同一个或多个个体的潜在共同存在的一个或多个信号;其中,由所述客户端设备接收所述一个或多个可听声音的步骤可以响应于识别所述一个或多个信号而被触发。所述方法可以进一步包括以下步骤:基于识别所述一个或多个信号,将音频信息请求提供至所述客户端设备;以及响应于所述音频信息请求,从所述客户端接收所述音频信息。指示所述用户同一个或多个个体的潜在共同存在的所述一个或多个信号可以在所述客户端设备处被识别。所述一个或多个信号可以包括指示所述用户的位置、所述用户的活动、当前时间以及当前日期中的一个或多个的一个或多个场境信号。
所述语音简档中的每一个可以与允许所述用户访问的授权相关联。所述音频信息可以包括由所述客户端设备感测的所述可听声音的抽象。确定至少所述给定语音简档匹配所述音频信息的步骤可以包括确定所述给定语音简档的一个或多个语音特性与所述音频信息之间的相似性的步骤。
识别包括基于所述用户同与所述给定语音简档相关联的个体的共同存在的触发器的所述动作的步骤可以包括以下步骤:识别基于所述用户同一类个体的共同存在的触发器;以及确定与所述给定语音简档相关联的个体是所述一类个体的成员。
其他实施方式可以包括一种存储指令的非瞬态计算机可读存储介质,所述指令可由处理器执行以执行诸如上所述的方法中的一个或多个方法。又一个实施方式可以包括一种系统,该系统包括存储器以及一个或多个处理器,所述处理器可操作为执行存储在所述存储器中的指令以执行诸如上所述的方法中的一个或多个方法。
应领会到,本文中详述的前述构思以及附加构思的所有组合均被构想为本文中所公开的主题的一部分。例如,在本公开的文末处出现的所要求保护的主题的所有组合均被构想为本文中所公开的主题的一部分。
附图说明
图1图示可以响应于诸如共同存在确定的各种线索而调用动作的示例环境。
图2图示如何可以响应于共同存在确定而提供通知的一个示例。
图3是图示响应于共同存在确定而提供通知的示例方法的流程图。
图4图示计算机系统的示例架构。
具体实施方式
图1图示可以响应于诸如共同存在确定的各种线索而调用动作的示例环境。例如,在一些实施方式中,响应于各种线索,诸如共同存在的确定,可以提供通知。该示例环境包括客户端设备106以及知识系统102。知识系统102可以被实现在例如通过网络(未示出)通信的一个或多个计算机中。知识系统102是一种系统的示例,在该系统中可以实现本文所述的系统、组件和技术并且/或者本文所述的系统、组件和技术可以与该系统相接。
用户可以经由客户端设备106和/或其他计算系统(未示出)与知识系统102交互。客户端设备106可以是通过诸如局域网(LAN)或者如因特网的广域网(WAN)的一个或多个网络110耦合至知识系统102的计算机。例如,客户端设备106可以是桌面型计算设备、膝上型计算设备、平板型计算设备、移动电话计算设备、用户的车辆的计算设备(例如,车载通信系统、车载娱乐系统、车载导航系统)或者包括计算设备的用户可穿戴装置,(例如,具有计算设备的用户手表、具有计算设备的用户眼镜)。可以提供附加的和/或替选地客户端设备。尽管用户有可能会操作多个计算设备,但为简洁起见,本公开中所述的示例将针对用户操作客户端设备106。
客户端设备106可以操作一个或多个应用和/或组件,它们可以涉及向用户提供通知以及提供各种类型的信号。这些应用和/或组件可以包括但不限于麦克风107、输出设备109、诸如全球定位系统(“GPS”)组件111的位置坐标组件、日历组件113等等。在一些实例中,这些应用和/或组件中的一个或多个可以在由用户操作的多个客户端设备上运行。可以提供信号但在图1中并未描绘出的客户端设备106的其他组件包括但不限于气压计、盖革(Geiger)计数器、相机、光线传感器、存在传感器、温度计、健康传感器(例如,心率监视器、血糖仪、血压计)、加速计、陀螺仪等等。
在一些实施方式中,输出设备109可以包括扬声器(多个扬声器)、屏幕、触摸屏、一个或多个通知灯(例如,发光二极管)、打印机等等中的一个或多个。如本文所述,在一些实施方式中,输出设备109可以被使用于例如在输出时响应于确定用户同一个或多个其他个体的共同存在而渲染一个或多个通知。此外,在一些实施方式中,输出设备109可以被用于基于响应于确定共同存在而调用的一个或多个其他动作(诸如打开app、播放歌曲、发送电子邮件或者文本消息、拍照等动作)提供输出。
客户端设备106以及知识系统102各自包括用于存储数据和软件应用的一个或多个存储器、用于访问数据和执行应用的一个或多个处理器以及促进通过网络的通信的其他组件。由客户端设备106和/或知识系统102执行的操作可以跨多个计算机系统来分布。知识系统102可以被实现为例如在一个或多个位置上、通过网络互相耦合的一个或多个计算机上运行的计算机程序。
在一些实施方式中,客户端设备106可以被配置成例如使用麦克风107来感测一个或多个可听声音,并且可以基于所感测到的一个或多个可听声音(也被称作“音频输入”)而将音频信息提供至各种其他组件。那些其他组件(其示例将会在下文更详细地描述)可以基于音频信息而执行各种操作以识别匹配音频信息、与一个或多个个体相关联的一个或多个语音简档。在各种实施方式中,音频信息可以包括:正在说话的一个或多个个体的原始记录;记录的压缩版本;经由客户端设备106的麦克风107所获得的音频输入的一个或多个特征的指示,诸如音高、音调、音频和/或音量;和/或经由麦克风107所获得的音频输入的转录。
在各种实施方式中,知识系统102可以包括语音简档引擎120、词语关联引擎122、共同存在引擎124和/或动作引擎126。在一些实施方式中,可以省略引擎120、122、124和/或126中的一个或多个。在一些实施方式中,可以组合引擎120、122、124和/或126中的一个或多个的全部或多个方面。在一些实施方式中,可以在与知识系统102分开的组件中实现引擎120、122、124和/或126中的一个或多个。在一些实施方式中,可以在由客户端设备106执行的组件中实现引擎120、122、124和/或126中的一个或多个或者其任何操作部分。
语音简档引擎120可以被配置成将例如从客户端设备106所接收到的音频信息与语音简档的索引121中的至少一个语音简档相匹配。在各种实施方式中,“语音简档”可以包括有关所关联的个体的语音信息,其可以被用来确定音频信息是否包括该个体的语音。在一些实施方式中,语音简档可以指示所关联的个人的一个或多个语音特性。在一些实施方式中,语音简档可以是语音的声谱,也被称作“声纹”。
在一些实施方式中,个体可以为一个或多个其他用户提供访问和/或利用该个体的语音简档的许可。例如,个体可以向一个或多个用户提供对所关联的语音简档的访问,并且可以不向一个或多个用户提供对同一个所关联的语音简档的访问。在一些实施方式中,语音简档可以包括个体的语音识别信息,并且包括所关联的个体的一个或多个附加属性或者与其相关联。例如,个体的语音简档可以包括个体的一个或多个名字、个体与用户之间的关系和/或与个体相关联的一个或多个位置。
在各种实施方式中,语音简档引擎120可以基于音频信息与索引121中所包含的个体的语音简档之间的相似性,确定匹配例如从客户端设备106所接收到的音频信息的语音简档。在一些实施方式中,匹配的语音简档可以基于音频信息与被包括在个体的语音简档中的音频特性之间的相似性而被确定。在各种实施方式中,语音简档引擎120可以采用多种说话人识别技术而将音频信息与一个或多个语音简档相匹配。这些技术可以包括但不限于频率估计、隐马尔可夫模型、高斯混合模型、模式匹配算法、神经网络、矩阵表示、矢量量化、决策树以及“淘汰说话人”的技术,诸如交股模型、世界模型等等。
在一些实施方式中,音频信息可以在被由语音简档引擎120匹配至一个或多个语音简档之前经受不同层次的预处理。在一些实例中,这种预处理可以促进例如通过语音简档引擎120进行更加高效的语音识别。在各种实施方式中,预处理可以由客户端设备106或者由另一组件来执行,诸如知识系统102的组件。在一些实施方式中,语音简档引擎120本身可以预处理音频信息。
作为预处理的非限制性示例,音频信息可以最初例如由客户端设备106的麦克风107捕捉,作为原始数据(例如,以诸如wav文件的“无损”形式或者诸如MP3文件的“有损”形式)。这种原始数据可以例如由客户端设备106或者知识系统102的一个或多个组件预处理来提取各种信息,以促进语音识别。在各种实施方式中,可以包括由客户端设备106感测到的可听声音的抽象的这种提取的信息可以用作“提取的”音频数据(丢弃或忽略原始数据),或者可以被用于注释原始数据。在各种实施方式中,语音简档引擎可以将音频声音的抽象或注释而非最初捕捉的音频信息与语音简档中的一个或多个特性相比较。
作为对语音简档引擎120的补充或者替选,词语关联引擎122可以保存可以与特定个体相关联的词语(单词或短语)的索引121,其可在整个或者在可选部分中应用于知识系统102的各种组件。在各种实施方式中,词语关联引擎122可以被配置成利用各种话音识别技术(例如,隐马尔可夫模型、动态时间规整、神经网络等)在语音上分析例如由客户端设备106提供的音频信息,以确定一个或多个说话词语。然后,词语关联引擎122可以基于那些词语而执行各种动作。例如,词语关联引擎122可以识别与所识别的词语相关联的一个或多个个体。词语关联引擎122可以利用各种资源将一个或多个词语与一个或多个个体相关联,包括但不限于通讯录、社交网络等等。
假定用户的电话捕捉个体的话音。个体可以使用各种词语,诸如其名字或别名、其爱好、其他人的名字或昵称、其他人的爱好或者最喜欢的口头禅,词语关联引擎122可以将所述词语与该个体或者另一人的身份相关联。譬如,假定用户的电话检测到一个体向另一个体提问,诸如“Tomas,can you hand me that remote?”。用户的电话可以将音频信息提供至词语关联引擎122,其可以识别词语“Tomas”并且将其与名叫Tomas用户的联系人相关联。
共同存在引擎124可以被配置成基于例如由语音简档引擎120确定语音简档匹配例如由用户操作的客户端设备106所接收的音频信息,确定用户同与语音简档相关联的个体共同存在。在一些实施方式中,共同存在引擎124可以进一步基于其关于用户同与所匹配的语音简档相关联的个体的共同存在的一个或多个附加指示的确定。作为一个示例,例如,使用GPS111和/或使用其他硬件或者技术,诸如基于小区发射塔信号、Wi-Fi信号等,可以识别与用户相关联的用户位置信息。用户位置的一个或多个方面,诸如其是否符合特定准则,可以被用作共同存在的附加指示。譬如,在用户的GPS坐标足够接近从由其他个人操作的移动设备所获得的GPS坐标的情况下,共同存在引擎124可以确定用户同另一个体的共同存在。作为另一示例的共同存在的附加指示,在一些实施方式中,由词语关联引擎122所识别的词语可以被使用于确证共同存在。
动作引擎126可以保存动作的索引127,诸如音频和/或视觉提醒或者其他类似的通知。在各种实施方式中,动作可以关联或者包括触发器,其使得动作引擎126调用动作(例如,当动作是通知时提供通知)。在一些实施方式中,触发器可以基于用户同与由语音简档引擎120匹配的语音简档相关联的另一个体的共同存在。在各种实施方式中,动作引擎126可以被配置成基于所确定的用户至少同与给定语音简档相关联的个体的共同存在而调用动作。在一些实施方式中,动作引擎126和/或索引127可以整个地或者部分地在客户端设备106上来实现。例如,用户可以操作客户端设备106来创建用户想要响应于各种事件而接收的各种通知,所述事件诸如出现所选的日期/时间、抵达特定地点(例如,“remind me to dolaundry when I get home”)或者确定用户同一个或多个其他个体(或者一类个体,例如,“remind me to collect dues when co-present with a member of our club”)的共同存在。此外,例如,客户端设备106可以响应于各种事件而调用附加和/或替选的动作,所述事件诸如出现所选的日期/时间、抵达特定地点或者确定用户同一个或多个其他个体的共同存在。例如,基于用户同一个或多个其他个体的共同存在,客户端设备106可以打开app,可以播放歌曲(例如,当检测到同过生日的个体的共同存在时播放生日快乐歌),可以发送电子邮件或者文本消息(当检测到同一个或多个其他个体的共同存在时向个体发送),和/或拍摄照片。
在本说明书中,术语“数据库”以及“索引”可以被广泛使用来指代任何数据采集。数据库和/或索引的数据不必以任何特定方式来构建,并且其能够被存储于一个或多个地理位置中的存储设备上。因此,例如,索引121、123和/或127可以包括多个数据采集,其中每一个都可以以不同的方式来组织和访问。
在各种实施方式中,动作引擎126可以附加地或替选地被配置成识别包括基于用户同一类个体的共同存在的触发器的通知(或者其他动作)。例如,动作引擎126可以确定与由语音简档引擎120匹配到音频信息的语音简档相关联的个体是一类个体的成员(例如,队友、工友、朋友、同事等)。基于该确定,鉴于用户同类别成员存在,动作引擎126可以识别和/或向用户提供一个或多个适当通知(或者调用另一个适当动作)。
譬如,用户可以配置客户端设备106以每当用户同用户的社团或团体中的任何成员的共同存在时便提供通知(例如,文本消息或通知“don't forget to collect yearlydues”)。为此,客户端设备106和/或知识系统102可以存储有关用户的社团或团体在各地的成员的识别信息。与成员相关联的语音简档可以被存储在索引121中。附加地或替选地,由成员所使用或者与成员相关联的词语可以被存储在索引123中。当共同存在引擎124确定用户同具有存储在索引121中的关联语音简档的个体的共同存在时,动作引擎126可以确定与该语音简档相关联的该个体是否也是用户的社团或团体的成员。如果是,则动作引擎126可以向用户提供有关用户如何与社团或团体中的任何成员相交互的通知。
在各种实施方式中,动作引擎126可以识别带有多个触发器的动作。当满足触发器中的任何一个时(例如,当用户同个体的共同存在时或者当用户处于特定地点时),或者当已经满足全部触发器时(例如,当用户在特定地点同特定个体共同存在时),可以调用该动作。
图2示意性描绘出可听话音250如何能被捕捉并且被处理以确定共同存在以及一个或多个通知如何能响应于共同存在确定而被提供的一个示例。在图2中,首先由客户端设备106的麦克风107检测到话音250。然而,这并无限制意义。话音250可以由用户操作或者与用户相关联的任何压力波传感器(例如,声电换能器)来捕捉,诸如用户住家、办公室和/或汽车中的麦克风。此外,压力波传感器不必是独立的麦克风。在各种实施方式中,其可以与智能电话、视频相机(例如,安防相机)等等整合。一旦被捕捉,话音250可以被表示为各种形式的音频信息,例如,以原始数据形式、带注释的原始数据、可听声音的抽象等。
在由客户端设备106捕捉话音250的实例中,持续操作的麦克风107可能耗尽客户端设备106的电池(未示出)。因此,在各种实施方式中,麦克风107可以例如由客户端设备106响应于诸如事件和/或刺激的各种信号来激活。这些信号中的一些可以指示用户同一个或多个个体的潜在共同存在。这些信号可以例如由客户端设备106或者知识系统102来识别,并且可以触发麦克风107的激活以记录话音250。
譬如,在一些实施方式中,知识系统102可以识别指示用户同一个或多个个体的潜在共同存在(例如,用户具有与另一个体的会议)的一个或多个信号,并且可以将音频信息请求提供至客户端设备106作为响应。该音频信息请求可以使得客户端设备106激活麦克风107,以便麦克风107可以捕捉话音250。在其他实施方式中,客户端设备106本身可以识别指示所述用户同一个或多个个体的潜在共同存在的一个或多个信号。譬如,客户端设备106可以利用指示用户活动的一个或多个场境信号以确定用户潜在地同一个或多个个体的共同存在。譬如,如果用户的客户端设备106例如从日历113中确定用户被安排参加足球训练,则用户的客户端设备106可以激活麦克风107以捕捉话音250。在另外其他的实施方式中,麦克风107可以由用户手动激活,例如,使词语音激活或者通过简单地按下触摸屏上呈现的按钮或者图形元素。在一些实施方式中,可以或者也可以不指示共同存在的其他信号也可以触发麦克风的激活,诸如用户在客户端设备106上操作一个或多个应用(例如,更新社交网络状态、草拟文本或者电子邮件、浏览网页等)。
在一些实施方式中,在客户端设备106处(或别处)所捕捉的音频信息可以被提供至语音简档引擎120。如上所述,语音简档引擎120可以利用各种说话人识别技术来识别匹配音频信息的一个或多个语音简档。语音简档引擎120可以提供各种类型的信息作为输出。在一些实施方式中,语音简档引擎120可以提供与由语音简档引擎120匹配到表示话音250的音频信息的一个或多个语音简档相关联的一个或多个个体的一个或多个身份的指示。
在一些实施方式中,在客户端设备106处(或别处)所捕捉的音频信息可以被附加地或替选地提供至词语关联引擎122。如上所述,词语关联引擎122可以利用各种说话人识别技术来识别话音250中所包含的一个或多个词语。词语关联引擎122可以将那些所识别的词语与一个或多个个体相关联,并且可以提供那些所关联的个体的指示作为输出。
如其间的双箭头所指示,在各种实施方式中,语音简档引擎120以及词语关联引擎中的每一个都可以使用另一个的输出来确证其自身的结论。譬如,语音简档引擎122可以识别具有相关置信水平(例如,以一定范围内的百分比和/或值)的特定说话人。来自指示话音250中的一个或多个说话词语也与特定说话人相关联的词语关联引擎122的输出可以提高与词语关联引擎120的结论相关联的置信水平。另一方面,来自指示话音250中的一个或多个说话词语与不同的说话人相关联的词语关联引擎122的输出可以不影响或者甚至降低与词语关联引擎120的结论相关联的置信水平。在一些实例中,来自词语关联引擎122的输出甚至可能与语音简档引擎120的结论相矛盾;在这样的情形下,可能降低与语音简档引擎120的结论相关联的置信水平。
来自语音简档引擎120和/或词语关联引擎122的输出可以被共同存在引擎124使用来确定用户同个体的共同存在。例如,共同存在引擎124可以确定用户同与由语音简档引擎120匹配到音频信息的语音简档相关联的个体之间的共同存在。作为另一示例,共同存在引擎124可以确定用户同由词语关联引擎122识别为与话音250中所识别的一个或多个词语相关联的个体之间的共同存在。共同存在引擎124可以通过各种形式输出用户同一个或多个个体的共同存在的指示。
动作引擎126可以获得共同存在引擎124的输出并且基于该输出而从多个通知中选择包括基于用户同个体的共同存在的触发器的一个。然后,动作引擎126可以使得所选择的通知被提供给用户。例如,动作引擎126可以将“渲染通知”指令发送至客户端设备106以使得该客户端设备使用输出端109来渲染通知。或者,如果动作引擎126是客户端设备106的一部分,则动作引擎126可以简单地使得客户端设备106使用输出设备109来渲染输出。如上所指出,输出设备109可以具有各种形式,并且由此,通知可以通过各种音频和/或视觉形式而被渲染。譬如,用户可以在客户端设备106的触摸屏上被提供有弹出通知,或者客户端设备106可以渲染可听音调或者其他声音以用来提醒用户某事。如上还指出,在一些实施方式中,动作引擎126除通知外还可以调用附加或替选的动作。
图3示意性描绘出确定用户同一个或多个个体的共同存在以及作为响应向用户提供通知的示例方法300。方便起见,参照执行操作的系统来描述该流程图的操作。该系统可以包括各种计算机系统的各种组件。譬如,一些操作可以在客户端设备106处被执行,而另一些操作可以由知识系统102的一个或多个组件来执行。此外,虽然方法300的操作以特定顺序示出,但这并无限制意义。可以重新排序、省略或添加一个或多个操作。
在框302,所述系统可以识别一个或多个信号,其可以指示用户同一个或多个个体的潜在共同存在。如上所指出,这些信号可以具有各种形式,诸如预约日程表(以及与其相关联的日期/时间)、地点(例如,使用GPS组件111所确定的)、环境噪音、无线通信(例如,当用户在建筑物的入口处通过NFC标签时在客户端设备106处所接收的近场通信(“NFC”))、视觉线索(例如,QR码的读取)、其他场境线索(例如,温度读数、用客户端设备106做出的一个或多个手势或动作)、客户端设备106上的一个或多个应用的用户操作(例如,更新社交网络状态、发送电子邮件、电话交谈、录制视频、拍摄照片等)、等等。这些信号可以由客户端设备106或者由知识系统102来识别。
在框304,所述系统可以响应于在框302处对一个或多个信号的识别而激活或者促使压力波传感器(诸如客户端设备106上的麦克风107)的激活。如果信号由客户端设备106识别,则客户端设备106可以简单地激活麦克风107。如果信号由知识系统102识别,则知识系统102的组件可以将音频信息请求提供至客户端设备106。客户端设备106可以通过激活麦克风107作出响应。
在框306,所述系统可以基于例如由客户端设备106的麦克风107感测到可听声音而接收音频信息。如上所指出,该音频信息可以被表示成各种形式,包括原始音频数据、注释的音频数据、所捕捉的可听声音的一个或多个特征的抽象等等。在框308,所述系统可以识别与一个或多个个体相关联的一个或多个语音简档。在框310,所述系统可以确定在框308处所识别的语音简档中的任一个是否匹配在框306处所接收的音频信息。
假定存在至少一个匹配,则在框312,所述系统可以确定用户同与在框310处与音频数据相匹配的一个或多个语音简档相关联的一个或多个个体的共同存在。在一些实施方式中,所述系统可以考虑附加信号以确定共同存在。例如,在框314,所述系统可以(例如,通过词语关联引擎122)将话音中所识别的一个或多个词语与一个或多个个体相关联。作为另一示例,在框316,所述系统可以识别用户的位置和/或一个或多个个体的位置,例如,与在框310处所匹配的语音简档相关联的那些个体。这些附加信号可以确证和/或提高与在框312处所确定的共同存在相关联的置信度。
在框318,所述系统可以识别例如索引127中的一个或多个通知,其具有基于用户同一个或多个个体的共同存在的触发器。如本文所述,在一些实施方式中,所述系统可以识别除一个或多个通知之外或者作为其替选的一个或多个动作。在框320,所述系统可以基于在框312处所确定的用户同一个或多个个体的共同存在,将在框318处所识别的通知中的一个或多个提供给用户。如本文所述,在一些实施方式中,所述系统除通知外还可以调用附加或替选的动作。
图4是示例计算机系统410的框图。计算机系统410通常包括至少一个处理器414,其经由总线子系统412与数个外围设备通信。这些外围设备可以包括存储子系统424,例如包括存储器子系统425和文件存储子系统426、用户接口输出设备420、用户接口输入设备422以及网络接口子系统416。输入和输出设备允许用户与计算机系统410交互。网络接口子系统416提供到外部网络的接口并且被耦合至其他计算系统中的对应接口设备。
用户接口输入设备422可以包括键盘、诸如鼠标、跟踪球、触控板或绘图板的定点设备、扫描仪、并入显示器中的触摸屏、诸如语音识别系统、麦克风的音频输入设备和/或其他类型的输入设备。一般而言,术语“输入设备”的使用意在包括用于将信息输入到计算系统410中或者通信网络上的所有可能类型的设备和方式。
在一些实施方式中,用户接口输出设备420可以对应于图1中的输出设备109,该用户接口输出设备可以包括显示子系统、打印机、传真机或者诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或者用于创建可见图像的一些其他机制。显示子系统还可以提供诸如经由音频输出设备的非视觉显示。一般而言,术语“输出设备”的使用意在包括用于将信息从计算系统410输出到用户或者另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统424存储提供本文所述的一些或全部模块的功能的编程和数据结构。例如,存储子系统424可以包括用于执行方法300的所选方面的逻辑以及由语音简档引擎120、词语关联引擎122、共同存在引擎124、动作引擎126等执行的操作中的一个或多个。
这些软件模块通常由处理器414独立地或者结合其他处理器来执行。存储子系统424中使用的存储器425能够包括数个存储器,这数个存储器包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)430以及在其中存储固定指令的只读存储器(ROM)432。文件存储子系统426能够提供对于程序和数据文件的永久存储,并且可以包括硬盘驱动器、软盘驱动器连同相关联的可移动介质、CD-ROM驱动器、光盘驱动器或者可移动介质盒。实现某些实施方式的功能的模块可以由存储子系统424中的文件存储子系统426来存储,或者被存储在可由处理器414访问的其他机器中。
总线子系统412提供用于令计算机系统410的各种组件和子系统按预期彼此通信的机制。虽然总线子系统412被示意性示为单总线,但总线子系统的替选实施方式可以使用多条总线。
计算机系统410能够是不同的类型,包括工作站、服务器、计算集群、刀片服务器、服务器机群或者任何其他的数据处理系统或计算设备。由于计算机和网络的不断变化的性质,在图4中描绘的对计算机系统410的描述仅旨在作为用于图示一些实施方式的具体示例。计算机系统410的许多其他配置可能具有比在图4中所描绘的计算机系统更多或更少的组件。
在本文所述的系统采集关于用户的个人信息或者可以使用个人信息的情况下,用户可以有机会控制程序或者功能是否收集用户信息(例如关于用户的社交网络、社交行动或活动、职业、用户偏好或者用户的当前地理位置的信息),或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外,在存储或者使用某些数据之前,可以通过一个或多个方式对其进行处理,以致删除个人可识别信息。例如,用户的身份可以被处理,以致不会针对用户来确定个人可识别信息,或者用户的地理位置可以被泛化到获得地理位置信息的位置(诸如城市、邮政编码或者州级),以致用户的特定地理位置不会被确定。因此,用户可以控制如何关于用户收集信息和/或如何使用信息。
虽然在本文中已描述且说明了几种实施方式,但可以利用用于执行功能和/或获得结果和/或本文所述优点中的一个或多个的多种其他装置和/或结构,并且这样的变型和/或修改中的每一个都被视为属于本文所述的实施方式的范围内。更一般地,本文所述的所有参数、尺寸、材料和配置旨在示例性,并且实际的参数、尺寸、材料和/或配置将取决于具体应用或针对其使用所述教导的应用。本领域技术人员会认识到或者通过常规实验途径即可确定本文所述的具体实施方式的许多等同方案。因此将会理解到,前述实施方式仅通过示例方式来呈现,并且在所附权利要求及其等同方案的范围内,可以通过与所具体描述和要求保护的不同的方式来实践实施方式。本公开的实施方式是针对本文所述的每个单独的特征、系统、物件、材料、工具包和/或方法。此外,如果这样的特征、系统、物件、材料、工具包和/或方法并不相互矛盾,则两个以上这样的特征、系统、物件、材料、工具包和/或方法的任意组合也被包括在本公开的范围内。

Claims (13)

1.一种计算机实现的方法,包括:
由客户端设备识别用户做出的手势;
响应于所识别的手势,激活所述客户端设备的麦克风以感测一个或多个可听声音;
由计算系统接收音频信息,其中所述音频信息基于所述客户端设备对一个或多个可听声音的感测;
由所述计算系统识别一个或多个语音简档,其中所述语音简档中的每一个与个体相关联并且指示所关联的个体的一个或多个语音特性;
由所述计算系统确定所述一个或多个语音简档中的至少一个给定语音简档匹配所述音频信息;
由所述计算系统在语音上分析所述音频信息以确定由所述客户端设备感测的可听声音的一个或多个说话词语;
由所述计算系统基于确定所述给定语音简档匹配所述音频信息以及基于所确定的由所述客户端设备感测的可听声音的一个或多个说话词语来确定所述用户至少同与所述给定语音简档相关联的个体的共同存在;
由所述计算系统识别动作,所述动作包括基于所述用户同与所述给定语音简档相关联的所述个体的共同存在的触发器;以及
由所述计算系统基于所确定的所述用户至少同与所述给定语音简档相关联的所述个体的共同存在来调用所述动作。
2.根据权利要求1所述的方法,其中,所述方法进一步包括:
词语关联引擎将所述一个或多个说话词语与所述个体相关联并且提供所述一个或多个说话词语与所述个体的关联的指示作为输出;
使用所述词语关联引擎的所述输出来修改与所述给定语音简档和所述音频信息之间的匹配相关联的置信水平,其中所述用户同所述个体的共同存在的确定基于与所述给定语音简档和所述音频信息之间的匹配相关联的置信水平。
3.根据权利要求1所述的方法,其中,所述动作是对所述用户的提醒。
4.根据权利要求1所述的方法,其中,所述音频信息包括由所述客户端设备感测的所述可听声音的抽象。
5.根据权利要求1所述的方法,其中,所述动作包括在所述客户端设备的触摸屏上的弹出通知。
6.根据权利要求1所述的方法,其中,所述动作包括由所述客户端设备以音频形式渲染的通知。
7.根据权利要求1所述的方法,其中,所述动作包括使得在所述客户端设备上呈现文本消息。
8.一种包括存储器以及一个或多个处理器的系统,所述一个或多个处理器可操作为执行存储在所述存储器中的指令,包括用于以下的指令:
由客户端设备识别用户做出的手势;
响应于所识别的手势,激活所述客户端设备的麦克风以感测一个或多个可听声音;
接收音频信息,所述音频信息基于所述客户端设备对一个或多个可听声音的感测;
识别一个或多个语音简档,其中所述语音简档中的每一个与个体相关联并且指示所关联的个体的一个或多个语音特性;
确定所述一个或多个语音简档中的至少一个给定语音简档匹配所述音频信息;
在语音上分析所述音频信息以确定由所述客户端设备感测的可听声音的一个或多个说话词语;
基于确定所述给定语音简档匹配所述音频信息以及基于所确定的由所述客户端设备感测的可听声音的一个或多个说话词语来确定所述用户至少同与所述给定语音简档相关联的个体的共同存在;
识别动作,所述动作包括基于所述用户同与所述给定语音简档相关联的所述个体的共同存在的触发器;以及
基于所确定的所述用户至少同与所述给定语音简档相关联的所述个体的共同存在来调用所述动作。
9.根据权利要求8所述的系统,其中,所存储的指令包括用于以下的指令:
将所述一个或多个说话词语与所述个体相关联并且提供所述一个或多个说话词语与所述个体的关联的指示作为输出;
使用所述输出来修改与所述给定语音简档和所述音频信息之间的匹配相关联的置信水平,其中所述用户同所述个体的共同存在的确定基于与所述给定语音简档和所述音频信息之间的匹配相关联的置信水平。
10.根据权利要求8所述的系统,其中,所述动作是对所述用户的提醒。
11.根据权利要求8所述的系统,其中,所述音频信息包括由所述客户端设备感测的所述可听声音的抽象。
12.根据权利要求8所述的系统,其中,所述动作包括在所述客户端设备的触摸屏上的弹出通知。
13.根据权利要求8所述的系统,其中,所述动作包括由所述客户端设备以音频形式渲染的通知。
CN202010115362.0A 2014-06-04 2015-06-03 响应于共同存在确定的调用动作 Active CN111523850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115362.0A CN111523850B (zh) 2014-06-04 2015-06-03 响应于共同存在确定的调用动作

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US14/296,405 2014-06-04
US14/296,405 US9355640B2 (en) 2014-06-04 2014-06-04 Invoking action responsive to co-presence determination
PCT/US2015/034082 WO2015187887A1 (en) 2014-06-04 2015-06-03 Invoking action responsive to co-presence determination
CN202010115362.0A CN111523850B (zh) 2014-06-04 2015-06-03 响应于共同存在确定的调用动作
CN201580029922.8A CN106462832B (zh) 2014-06-04 2015-06-03 响应于共同存在确定的调用动作

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580029922.8A Division CN106462832B (zh) 2014-06-04 2015-06-03 响应于共同存在确定的调用动作

Publications (2)

Publication Number Publication Date
CN111523850A CN111523850A (zh) 2020-08-11
CN111523850B true CN111523850B (zh) 2024-03-15

Family

ID=53490252

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010115362.0A Active CN111523850B (zh) 2014-06-04 2015-06-03 响应于共同存在确定的调用动作
CN201580029922.8A Active CN106462832B (zh) 2014-06-04 2015-06-03 响应于共同存在确定的调用动作

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201580029922.8A Active CN106462832B (zh) 2014-06-04 2015-06-03 响应于共同存在确定的调用动作

Country Status (4)

Country Link
US (1) US9355640B2 (zh)
EP (2) EP3152716B1 (zh)
CN (2) CN111523850B (zh)
WO (1) WO2015187887A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524631B1 (en) * 2015-06-23 2016-12-20 Motorola Mobility Llc Method and apparatus for setting a notification readout mode based on proximity detection
US9860355B2 (en) * 2015-11-23 2018-01-02 International Business Machines Corporation Call context metadata
US20180174223A1 (en) * 2016-12-20 2018-06-21 Wal-Mart Stores, Inc. Rules-based audio interface
US10580405B1 (en) * 2016-12-27 2020-03-03 Amazon Technologies, Inc. Voice control of remote device
KR102068182B1 (ko) 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
KR20210038537A (ko) * 2018-07-24 2021-04-07 소니 주식회사 정보 처리 장치 및 방법, 그리고 프로그램
CN112970061A (zh) * 2018-11-14 2021-06-15 惠普发展公司,有限责任合伙企业 基于策略许可的内容
US11887587B2 (en) * 2021-04-14 2024-01-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio input recording to obtain a processed audio recording to address privacy issues

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101437124A (zh) * 2008-12-17 2009-05-20 三星电子(中国)研发中心 面向电视控制的动态手势识别信号处理方法
CN101855521A (zh) * 2007-11-12 2010-10-06 大众汽车有限公司 用于信息的输入和展示的驾驶员辅助系统的多形态的用户接口
CA2954559A1 (en) * 2010-01-18 2011-07-21 Apple Inc. Maintaining context information between user interactions with a voice assistant
CN102737101A (zh) * 2011-03-31 2012-10-17 微软公司 用于自然用户界面系统的组合式激活
CN103543940A (zh) * 2012-07-09 2014-01-29 三星电子株式会社 用于在移动装置中操作附加功能的方法和设备
CN103729126A (zh) * 2012-10-11 2014-04-16 谷歌公司 移动设备语音激活

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389397B1 (en) 1998-12-23 2002-05-14 Lucent Technologies, Inc. User identification system using improved voice print identification processing
US7379872B2 (en) * 2003-01-17 2008-05-27 International Business Machines Corporation Method, apparatus, and program for certifying a voice profile when transmitting text messages for synthesized speech
US20090102676A1 (en) * 2007-10-22 2009-04-23 Lockheed Martin Corporation Context-relative reminders
US20130275899A1 (en) * 2010-01-18 2013-10-17 Apple Inc. Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts
KR101829865B1 (ko) * 2008-11-10 2018-02-20 구글 엘엘씨 멀티센서 음성 검출
US20140162613A1 (en) * 2011-07-12 2014-06-12 Rajan Lukose Audio Sample
US8452597B2 (en) 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
EP2845191B1 (en) * 2012-05-04 2019-03-13 Xmos Inc. Systems and methods for source signal separation
US8543834B1 (en) * 2012-09-10 2013-09-24 Google Inc. Voice authentication and command
US9117451B2 (en) * 2013-02-20 2015-08-25 Google Inc. Methods and systems for sharing of adapted voice profiles

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101855521A (zh) * 2007-11-12 2010-10-06 大众汽车有限公司 用于信息的输入和展示的驾驶员辅助系统的多形态的用户接口
CN101437124A (zh) * 2008-12-17 2009-05-20 三星电子(中国)研发中心 面向电视控制的动态手势识别信号处理方法
CA2954559A1 (en) * 2010-01-18 2011-07-21 Apple Inc. Maintaining context information between user interactions with a voice assistant
CN102737101A (zh) * 2011-03-31 2012-10-17 微软公司 用于自然用户界面系统的组合式激活
CN103543940A (zh) * 2012-07-09 2014-01-29 三星电子株式会社 用于在移动装置中操作附加功能的方法和设备
CN103729126A (zh) * 2012-10-11 2014-04-16 谷歌公司 移动设备语音激活

Also Published As

Publication number Publication date
EP3336787A1 (en) 2018-06-20
CN111523850A (zh) 2020-08-11
CN106462832B (zh) 2020-03-20
WO2015187887A1 (en) 2015-12-10
EP3152716B1 (en) 2018-03-28
EP3152716A1 (en) 2017-04-12
EP3336787B1 (en) 2020-05-13
US20150356973A1 (en) 2015-12-10
CN106462832A (zh) 2017-02-22
US9355640B2 (en) 2016-05-31

Similar Documents

Publication Publication Date Title
CN111523850B (zh) 响应于共同存在确定的调用动作
US11582337B2 (en) Electronic device and method of executing function of electronic device
US11893311B2 (en) Virtual assistant configured to automatically customize groups of actions
CN110199350B (zh) 用于感测语音结束的方法和实现该方法的电子设备
JP6938583B2 (ja) デジタルアシスタントのためのボイストリガ
US11902460B2 (en) Suggesting executable actions in response to detecting events
CN108121490B (zh) 用于处理多模式输入的电子装置、方法和服务器
KR102405793B1 (ko) 음성 신호 인식 방법 및 이를 제공하는 전자 장치
US9900427B2 (en) Electronic device and method for displaying call information thereof
US20130346068A1 (en) Voice-Based Image Tagging and Searching
CN110462647B (zh) 电子设备及执行电子设备的功能的方法
US9974045B2 (en) Systems and methods for contextual discovery of device functions
KR20180081922A (ko) 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
US20190310762A1 (en) Dynamic design of user interface elements
KR20170060567A (ko) 전자 장치 및 그 제어 방법
US10803870B2 (en) Electronic device performing operation using voice command and method of operating electronic device
US20170024442A1 (en) Electronic device and method of acquiring user information in electronic device
US11163941B1 (en) Annotating a collection of media content items
US20170201592A1 (en) Contextual user experience
WO2021247258A1 (en) Suggesting executable actions in response to detecting events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant