CN108984078A - 基于所识别的用户调整输出设置的方法及信息处理装置 - Google Patents

基于所识别的用户调整输出设置的方法及信息处理装置 Download PDF

Info

Publication number
CN108984078A
CN108984078A CN201810320254.XA CN201810320254A CN108984078A CN 108984078 A CN108984078 A CN 108984078A CN 201810320254 A CN201810320254 A CN 201810320254A CN 108984078 A CN108984078 A CN 108984078A
Authority
CN
China
Prior art keywords
user
output
voice data
information processing
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810320254.XA
Other languages
English (en)
Inventor
埃米·利·罗斯
纳森·J·彼得森
加里·大卫·丘达克
珍妮弗·李-巴伦
约翰·斯科特·克罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of CN108984078A publication Critical patent/CN108984078A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

实施方式提供了一种基于所识别的用户调整输出设置的方法及信息处理装置。该方法包括:在信息处理装置处接收语音数据;识别与语音数据相关联的用户;以及基于所识别的用户来调整信息处理装置的至少一个输出设置。描述并且要求保护其他方面。

Description

基于所识别的用户调整输出设置的方法及信息处理装置
技术领域
本发明涉及基于所识别的用户调整输出设置的方法及信息处理装置。
背景技术
信息处理装置(“装置”)例如智能手机、平板装置、智能扬声器、膝上型计算机和个人计算机等可以能够接收用户命令输入并且提供响应于该输入的输出。通常,用户通过使用自然语言与例如在个人助理中实现的语音输入模块交互。这种类型的接口允许装置接收来自用户的语音输入、处理这些输入,并且根据预配置的输出设置(例如预配置的输出音量、预配置的输出速度等)提供可听输出。
发明内容
总之,一个方面提供了一种方法,包括:在信息处理装置处接收语音数据;识别与语音数据相关联的用户;以及基于所识别的用户来调整信息处理装置的至少一个输出设置。
另一方面提供了一种信息处理装置,包括:处理器;存储器装置,其存储能够由处理器执行以进行如下的指令:接收语音数据;识别与语音数据相关联的用户;并且基于所识别的用户来调整信息处理装置的至少一个输出设置。
又一方面提供了一种产品,包括:存储代码的存储装置,所述代码能够由处理器执行并且包括:接收语音数据的代码;识别与语音数据相关联的用户的代码;以及基于所识别的用户调整信息处理装置的至少一个输出设置的代码。
前述是概述,并且因此可以包含简化、概括和省略细节;因此,本领域技术人员将认识到,该概述仅是说明性的,并不旨在以任何方式进行限制。
为了更好地理解实施方式以及其其他和另外的特征和优点,结合附图参考以下描述。本发明的范围将在所附权利要求书中指出。
附图说明
图1示出了信息处理装置电路系统的示例。
图2示出了信息处理装置电路系统的另一示例。
图3示出了调整向用户提供的输出的输出设置的示例性方法。
具体实施方式
将容易理解的是,除了所描述的示例性实施方式之外,如在本文附图中一般描述和示出的实施方式的组件可以以各种各样的不同配置来布置和设计。因此,如附图中所表示的示例性实施方式的以下更详细的描述并不旨在限制所要求保护的实施方式的范围,而仅仅是示例性实施方式的代表。
贯穿本说明书对“一个实施方式”或“实施方式”等的引用意味着结合实施方式描述的特定特征、结构或特性被包括在至少一个实施方式中。因此,贯穿本说明书在各处出现的短语“在一个实施方式中”或“在实施方式中”等不一定都指同一实施方式。
此外,所描述的特征、结构或特性可以以任何适当的方式组合在一个或更多个实施方式中。在以下描述中,提供了许多具体细节以便对实施方式进行透彻理解。然而,相关领域的技术人员将认识到,可以在没有一个或更多个具体细节的情况下或者利用其他方法、组件、材料等来实践各个实施方式。在其他情况下,未详细示出或描述公知的结构、材料或操作以避免混淆。
用户经常利用装置来执行各种不同的命令或查询。与装置交互的一个方法是使用在装置上采用的数字助理软件(例如 等)。数字助理能够提供响应于各种不同类型的用户输入(例如语音输入等)的输出(例如可听输出、视觉输出等)。
常规地,数字助理可以以单个通用设置(例如以特定音量、以特定速度等)提供输出。例如,响应于接收到来自用户A的查询,装置可以以音量X和速度Y提供输出。响应于接收到来自用户B的另一查询,装置可以以与向用户A提供输出相同的音量水平和速度提供输出。然而,这些提供输出的常规方法未考虑不同的用户可以受益于以不同的输出设置接收输出。例如,响应于接收拼写单词的查询,六岁的用户与成年用户相比可能需要该单词被拼写得更慢。作为另一示例,非英语母语讲话者可能需要以较慢的速度向他们提供英语输出,以便他们可以更好地理解输出。
虽然现有解决方案允许调整输出设置,但这需要来自用户的附加动作(例如与音量开关物理地交互、重新配置应用中的输出速度设置等)。此外,在多个用户与单个装置交互的情况下(例如,家庭成员与专用智能扬声器例如Amazon等交互的情况),不断调整装置的输出设置可以被证明是繁琐的并且耗时的。此外,许多用户(例如幼儿、老年人等)可能不知道如何调整这些设置,并且可能被迫以当前或默认输出设置接收输出。
因此,实施方式提供了用于基于对与装置交互的用户的识别来自动调整与装置相关联的至少一个输出设置的方法。在实施方式中,可以在装置处接收来自至少一个用户的语音数据(例如语音命令输入、语音查询输入等)。然后,实施方式可以分析语音数据以确定与语音数据相关联的至少一个特征(例如与用户相关联的语音签名、与语音数据相关联的口音、语音数据中包括的预定义词等)。使用经分析的语音数据,实施方式可以识别与语音数据相关联的用户。在实施方式中,对用户的识别可以包括识别与用户相关联的用户简档。然后,实施方式可以基于所识别的用户或用户简档来调整由装置或与该装置可操作地耦接的另一装置提供的输出的至少一个输出设置(例如输出音量、输出速度、输出口音等)。这样的方法可以使用户能够使用对于该特定用户正确理解和/或感知输出的能力为最优的输出设置来接收输出。
通过参照附图将最佳地理解示出的示例性实施方式。以下描述仅旨在作为示例,并且仅仅示出了某些示例性实施方式。
虽然可以在信息处理装置中利用各种其他电路、电路系统或组件,但是关于智能手机和/或平板电路系统100,图1中示出的示例包括例如在平板计算机或其他移动计算平台中发现的芯片上系统的设计。软件和处理器被组合在单个芯片110中。处理器包括内部算术单元、寄存器、缓存存储器、总线、I/O端口等,如在本领域中公知的。内部总线等取决于不同的供应商,但是基本上所有的外围装置(120)都可以附接至单个芯片110。电路系统100将处理器、存储器控制和I/O控制器集线器全部组合到单个芯片110中。而且,这种类型的系统100通常不使用SATA或PCI或LPC。例如,通用接口包括SDIO和I2C。
存在电源管理芯片130例如电池管理单元(BMU),电源管理芯片130例如经由可再充电电池140来管理所供应的电力,可再充电电池140可以通过连接到电源(未示出)而被再充电。在至少一个设计中,使用单个芯片例如110来供应BIOS等功能和DRAM存储器。
系统100通常包括用于连接至各种网络例如电信网络和无线因特网装置例如接入点的WWAN收发器150和WLAN收发器160中的一个或更多个。另外,通常包括装置120,例如图像传感器如相机、音频捕获装置如麦克风、热传感器等。系统100通常包括用于数据输入和显示/渲染的触摸屏170。系统100通常还包括各种存储器装置,例如闪速存储器180和SDRAM190。
图2描述了信息处理装置电路、电路系统或组件的另一示例的框图。图2中描述的示例可以与计算系统例如由位于美国北卡罗来纳州莫里斯维尔的联想(美国)公司出售的THINKPAD系列的个人计算机或其他装置对应。根据本文的描述明显的是,实施方式可以包括其他特征或图2中示出的示例的仅一些特征。
图2中的示例包括所谓的芯片组210(一起工作的一组集成电路或芯片,芯片组),其具有可以根据制造商(例如INTEL、AMD、ARM等)而变化的架构。INTEL是英特尔公司在美国和其他国家的注册商标。AMD是超微半导体(Advanced Micro Devices)公司在美国和其他国家的注册商标。ARM是安谋国际科技公司(ARM Holdings plc)在美国和其他国家的未注册商标。芯片组210的架构包括核和存储器控制组220以及经由直接管理接口(DMI)242或链路控制器244来交换信息(例如数据、信号、命令等)的I/O控制器集线器250。在图2中,DMI242是芯片到芯片接口(有时被称为“北桥”和“南桥”之间的链路)。核和存储器控制组220包括经由前端总线(FSB)224交换信息的一个或更多个处理器222(例如单核或多核)和存储器控制器集线器226;注意组220的组件可以被集成在替代常规“北桥”式架构的芯片中。一个或更多个处理器222包括如本领域所公知的内部算术单元、寄存器、缓存存储器、总线、I/O端口等。
在图2中,存储器控制器集线器226与存储器240接口(例如以提供对可以称为“系统存储器”或“存储器”的RAM类型的支持)。存储器控制器集线器226还包括用于显示装置292(例如CRT、平板、触摸屏等)的低电压差分信令(LVDS)接口232。块238包括可以经由LVDS接口232(例如串行数字视频、HDMI/DVI、显示端口)支持的一些技术。存储器控制器集线器226还包括可以支持独立显卡236的PCI快速接口(PCI-E)234。
在图2中,I/O集线器控制器250包括:SATA接口251(例如用于HDD、SDD等280)、PCI-E接口252(例如用于无线连接282)、USB接口253(例如,用于装置284例如数字化器、键盘、鼠标、相机、电话、麦克风、存储器、其他连接的装置等)、网络接口254(例如LAN)、GPIO接口255、LPC接口270(用于ASIC 271、TPM 272、超级I/O 273、固件集线器274、BIOS支持275以及各种类型的存储器276例如ROM 277、闪存278和NVRAM 279)、电源管理接口261、时钟发生器接口262、音频接口263(例如用于扬声器294)、TCO接口264、系统管理总线接口265和SPI闪存266,SPI闪存266可以包括BIOS 268和启动代码290。I/O集线器控制器250可以包括千兆比特以太网支持。
系统在通电时可以被配置成执行如SPI闪存266内存储的用于BIOS 268的启动代码290,并且此后在一个或更多个操作系统和(例如在系统存储器240中存储的)应用软件的控制下处理数据。例如,操作系统可以被存储在各种位置中的任何位置并且例如根据BIOS268的指令被访问。如本文所描述的,装置可以包括比图2的系统中示出的更少或更多的特征。
例如在图1或图2中概述的信息处理装置电路系统可以被用于装置例如平板计算机、智能手机、智能扬声器、一般的个人计算机装置和/或电子装置,该电子装置可以包括用户可以与之交互并且可以响应于接收用户输入而执行各种功能的数字助理。例如,图1中概述的电路系统可以在平板计算机或智能手机实施方式中实现,而图2中概述的电路系统可以在个人计算机实施方式中实现。
现在参照图3,实施方式可以基于对与装置交互的用户的识别来调整信息处理装置的输出设置。在301处,实施方式可以接收来自至少一个用户的语音输入。语音输入可以是任何类型的输入,例如命令输入、查询输入等。在实施方式中,可以在与话音识别装置可操作地耦接的输入装置(例如麦克风、话音捕获装置等)处接收语音输入。在实施方式中,话音识别装置可以包含或可以不包含显示屏。
在实施方式中,输入装置可以是整合到话音识别装置的输入装置。例如,智能手机可以被布置有能够接收语音输入数据的麦克风。可替选地,输入装置可以被布置在另一装置上,并且可以向话音识别装置发送接收到的语音输入数据。例如,可以在智能扬声器处接收语音输入,该智能扬声器可以随后将语音数据发送到另一装置(例如发送到用户的智能手机进行处理等)。可以通过连接的数据存储系统(例如经由云存储、远程存储、本地存储、网络存储等)等经由无线连接(例如使用蓝牙连接、近场通信(NFC)、无线连接技术等)、有线连接(例如装置耦接至另一装置或源等)从其他源向话音识别装置传送语音输入数据。
在实施方式中,输入装置可以被配置成通过将输入装置保持在活动状态来连续接收语音输入数据。例如,即使当与话音识别装置相关联的其他传感器(例如相机、光传感器、扬声器、其他麦克风等)非活动时,输入装置也可以连续地检测语音输入数据。可替选地,输入装置可以在活动状态保持预定时间量(例如30分钟、1小时、2小时等)。在该预定时间窗期间没有接收到任何语音输入数据之后,实施方式可以将输入装置切换到断电状态。预定时间窗可以由制造商预配置,或者可替选地可以由一个或更多个用户配置和设置。
在302处,实施方式可以分析语音数据以确定与语音数据相关联的至少一个特征。随后,在303处,使用所确定的特征,实施方式可以识别与语音数据相关联的用户、用户组或用户简档。在实施方式中,可以例如使用已知的语音输入分析技术(例如频谱图分析、话音分析、词关联、频率检测、幅度检测等)来进行分析。在实施方式中,可以进行实时分析(例如,当用户正在提供语音输入时等)。
在实施方式中,与语音数据相关联的特征可以是特定于具体用户或特定于具体用户组(例如年龄组、种族群组等)的任何特征。在实施方式中,与语音数据相关联的特征可以包括语音签名。每个用户可以具有特定于该用户的语音签名。语音签名可以是对特定人员而言唯一的特定讲话方式,例如类似于书面签名、生物识别签名等。语音签名可以包括人讲话的方式(例如输入速度、输入音量、口音等)、与人讲话相关联的声音(例如语音的频率、语音的幅度等)以及可以被用于区分两个或更多人的任何其他语音特征。通过确定与接收到的语音数据相关联的语音签名,实施方式可以识别相应的用户(例如通过将所确定的语音签名与存储的语音签名的数据库进行比较等)。
在实施方式中,与语音数据相关联的特征可以与用户的年龄相关联。实施方式可以(例如使用频谱图分析等)确定向装置提供语音数据的用户的年龄或近似年龄。例如,实施方式可以能够在向装置提供语音输入的儿童用户和向装置提供语音输入的成年用户之间进行区分。在实施方式中,除了从语音数据导出的数据之外,还可以使用从其他传感器(例如相机、其他传感器等)接收的数据来识别用户的年龄。
在实施方式中,与语音数据相关联的特征可以包括语音数据中包括的预定义词或短语。预定义词或短语可以与用户的身份相关联并且可以在用户正在向装置提供语音输入之前或在用户正在向装置提供语音输入时提供预定义词或短语。在实施方式中,预定义词可以与用户的姓名相关联。例如,向装置提供输入的用户可以在提供输入之前陈述他们的姓名。在基于其姓名识别用户之后,实施方式可以访问例如与特定用户相关联的存储的用户简档。
在实施方式中,与语音数据相关联的特征可以与用户的口音相关联。实施方式可以(例如使用频谱图分析等)确定与语音数据相关联的口音并且可以将该口音与用户的种族相关联。例如,非英语母语用户可以向装置提供输入,并且实施方式可以分析接收到的输入以确定被提供的输入的口音。此后,实施方式可以识别该用户是非英语母语讲话者和/或识别与所确定的口音相关联的特定种族(例如,以法语口音提供的输入可以与来自法国或加拿大的用户相关联)。
在实施方式中,在303处,识别用户可以包括识别与用户相关联的用户简档。在实施方式中,装置可以(例如在整合到装置的存储位置或装置可访问的远程存储位置等)存储一个或更多个用户简档。每个用户简档可以与个人用户相关联。在实施方式中,多个用户可以访问和使用单个装置。在这种情况下,实施方式可以在访问与该特定用户相关联的用户简档之前识别用户。例如,多个用户可以具有通过登录到用户简档来访问装置(例如智能手机、专用智能扬声器、膝上型计算机、台式计算机等)的能力。
每个用户简档可以包含各种设置,包括可以是特定于所识别的用户的学习的输出设置。例如,用户A可以通过向输入装置提供用户标识数据(例如数字指纹、与用户相关联的密码、用户证书、生物识别数据、装置数据等)来获得对装置上的用户简档的访问。在授予用户A对其用户简档的访问之后,实施方式可以访问与用户A的简档相关联的输出设置信息,并且根据用户A的简档中的数据相应地调整装置的输出设置。如果用户B在同一装置上登录到与用户B相关联的用户简档,则实施方式可以访问特定于用户B的输出设置数据,而不是与用户A相关联的输出设置数据。
响应于在303处对与语音数据相关联的用户的识别,实施方式可以在305调整至少一个输出设置。在实施方式中,话音识别装置或与话音识别装置相关联的另一装置可以向用户提供输出。输出可以是音频输出、视觉输出、其组合等。在实施方式中,可以通过扬声器、另一输出装置等来提供可听输出。在实施方式中,可以通过显示屏、另一显示装置等来提供视觉输出。在实施方式中,输出装置可以被整合到话音识别装置或者可以定位到另一装置上。在输出装置定位到另一装置上的情况下,输出装置可以经由无线连接或有线连接与话音识别装置连接。例如,智能手机可以提供指令以通过可操作地耦接的智能扬声器来提供可听输出。
在实施方式中,输出设置可以与向用户提供输出的方式相关联。在实施方式中,关于可听输出,输出设置可以与输出速度(例如装置朗读自然语言输出的速度如何等)、输出音量(例如装置朗读自然语言输出的音量如何等)等对应。在实施方式中,关于视觉输出(例如在显示屏上提供的词等),输出设置可以与至少一个显示设置对应并且可以包括以下中的至少一个:输出速度(例如在显示屏上显示词的速度如何等)、输出大小(例如在显示屏上显示的词的字体大小等)、输出类型(例如所显示的词的字体样式等)等。在另一实施方式中,输出设置可以与从其和/或在其上提供输出的装置对应。例如,可以从话音识别装置提供输出,或者可以从与话音识别装置可操作地耦接的另一装置提供输出。
在实施方式中,可以基于所识别的用户或所识别的用户简档来调整输出设置。在实施方式中,输出设置可以被自动调整。例如,响应于识别特定用户,实施方式可以自动调整与用户相关联的至少一个输出设置,而不用用户方面的任何其他附加调整动作。以下段落涉及许多输出设置调整的示例,然而,这些示例并不旨在为限制性的。
在实施方式中,基于所识别的用户年龄,可以调整(例如增加或减少等)可听输出速度和/或视觉输出速度。例如,年轻用户可以受益于以比中年用户更慢的速度接收输出(例如以便更好地理解输出等)。以相同的方式,可以基于识别出用户不是与输出相关联的语言的母语讲话者或通过识别用户与特定族群相关联来调整可听输出速度和/或视觉输出速度。例如,非母语西班牙语用户可以受益于以比母语西班牙语讲话用户更低的速度接收西班牙语输出,以便他们可以更好地理解西班牙语输出。
在实施方式中,可以例如基于所识别的用户年龄来调整(例如增加或减少等)可听输出音量。例如,可能具有听力障碍的年长用户可以受益于以比年轻用户更高的音量接收输出。在实施方式中,可以基于所识别的用户来调整提供输出的装置。例如,如果用户A请求播放歌曲,则该歌曲可以在本地被播放(例如在用户A的智能手机上等),而如果用户B请求播放歌曲,则实施方式可以在另一装置(例如智能扬声器等)上播放歌曲。
在实施方式中,存储用户的输出设置的用户简档可以基于接收到的用户输入来自动更新。例如,在以速度X向用户提供输出之后,实施方式可以将输出速度降低至速度Y来接收来自用户的输入。然后,实施方式可以将该新的输出速度存储在用户简档中,并且之后可以以速度Y而不是速度X向用户提供输出。虽然上述示例专门涉及输出速度,但是该示例不旨在是限制性的,并且可以基于接收到的用户输入自动调整用户简档中的其他输出设置。
响应于在303处未识别出与语音数据相关联的用户或用户简档,实施方式可以在304处使用常规输出设置来提供输出。例如,实施方式可以以预配置或现有的速度和/或音量提供输出。
因此,本文描述的各个实施方式表示对常规输出技术的技术改进。使用本文描述的技术,实施方式可以基于对提供给装置的语音数据的分析来识别用户。然后,实施方式可以基于所识别的用户自动调整由装置提供的输出的输出设置。这种技术使得用户能够以与用户的优选输出设置相关联的设置来接收输出。
如本领域技术人员将认识到的,各个方面可以被实现为系统、方法或装置程序产品。因此,各个方面可以采取全部硬件实施方式或包括软件的实施方式的形式,其在本文中通常可以全部被称为“电路”、“模块”或“系统”。此外,各个方面可以采取在一个或更多个装置可读介质中实现的装置程序产品的形式,所述一个或更多个装置可读介质具有在其中呈现的装置可读程序代码。
应该注意,本文描述的各种功能可以使用由处理器执行的、在装置可读存储介质例如非信号存储装置上存储的指令来实现。存储装置可以是例如系统、设备或装置(例如电子、磁、光、电磁、红外或半导体系统、设备或装置)或前述的任何适当的组合。存储装置/介质的更具体的示例包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任何适当组合。在本文件的上下文中,存储装置不是信号,并且“非暂态”包括除信号介质以外的所有介质。
在存储介质上呈现的程序代码可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任何适当组合的任何适当介质来传输。
可以以一种或更多种编程语言的任何组合来编写用于执行操作的程序代码。可以完全在单个装置上、部分在单个装置上、作为独立软件包、部分在单个装置上并且部分在另一个装置上或完全在其他装置上执行程序代码。在一些情况下,可以通过包括局域网(LAN)或广域网(WAN)的任何类型的连接或网络来连接装置,或者可以通过其他装置(例如通过使用因特网服务供应商的因特网)、通过无线连接例如近场通信或通过硬线连接例如通过USB连接来进行连接。
本文参照附图来描述示例性实施方式,附图示出了根据各个示例性实施方式的示例性方法、装置和程序产品。将理解,可以至少部分地通过程序指令来实现动作和功能。这些程序指令可以被提供给装置的处理器、专用信息处理装置或其他可编程数据处理装置以产生机器指令,使得经由装置的处理器执行的指令实现指定的功能/动作。
值得注意的是,虽然在附图中使用了特定块,并且已经示出了块的特定排序,但是这些是非限制性示例。在某些上下文中,可以组合两个或更多个块,可以将块分成两个或更多个块,或者可以适当地重新排序或重新组织某些块,因为明确说明的示例仅用于描述性目的并且不被解释为限制性的。
如本文所使用的,除非另外明确地指出,否则单数(“a”和“an”)可以被解释为包括复数“一个或更多个”。
本公开内容已经被呈现用于说明和描述的目的,但并不旨在为穷尽的或限制性的。对于本领域普通技术人员而言,许多修改和变型将是明显的。选择和描述了示例性实施方式,以便解释原理和实际应用并且使本领域普通技术人员中的其他人能够理解各个实施方式的公开内容,并且预期了具有适合于特定用途的各种修改。
因此,虽然已经参照附图描述了说明性示例性实施方式,但是要理解,该描述不是限制性的,并且本领域技术人员可以在不脱离本公开内容的范围或精神的情况下在其中实现各种其他改变和修改。
本公开内容还可以通过以下方案来实现。
方案1.一种调整输出设置的方法,包括:
在信息处理装置处接收语音数据;
识别与所述语音数据相关联的用户;以及
基于所识别的用户来调整所述信息处理装置的至少一个输出设置。
方案2.根据方案1所述的方法,其中,所述识别包括识别与所述语音数据相关联的至少一个特征。
方案3.根据方案2所述的方法,其中,所述至少一个特征包括与所述语音数据相关联的语音签名。
方案4.根据方案2所述的方法,其中,所述至少一个特征包括与所述语音数据相关联的口音。
方案5.根据方案2所述的方法,其中,所述至少一个特征包括所述语音数据中包括的预定义词。
方案6.根据方案1所述的方法,其中,所述至少一个输出设置包括输出速度和输出音量中的至少一个。
方案7.根据方案1所述的方法,其中,所述至少一个输出设置包括用于与所述信息处理装置操作地耦接的显示装置的至少一个显示设置。
方案8.根据方案1所述的方法,其中,所述至少一个输出设置包括向至少一个其他装置提供输出。
方案9.根据方案1所述的方法,还包括:访问与所识别的用户相关联的用户简档。
方案10.根据方案9所述的方法,还包括:基于接收到的用户输入来更新所述用户简档。
方案11.根据方案9所述的方法,其中,调整所述至少一个输出设置包括:基于所述用户简档中存储的设置标识来调整所述至少一个输出设置。
方案12.根据方案1所述的方法,其中,所述调整包括基于所述用户的年龄组进行调整。
方案13.一种信息处理装置,包括:
处理器;
存储器装置,其存储能够由所述处理器执行以进行如下的指令:
接收语音数据;
识别与所述语音数据相关联的用户;以及
基于所识别的用户来调整所述信息处理装置的至少一个输出设置。
方案14.根据方案13所述的信息处理装置,其中,能够由所述处理器执行以进行识别的指令包括:能够由所述处理器执行以识别与所述语音数据相关联的至少一个特征的指令。
方案15.根据方案14所述的信息处理装置,其中,所述至少一个特征包括与所述语音数据相关联的语音签名。
方案16.根据方案14所述的信息处理装置,其中,所述至少一个特征包括所述语音数据中包括的预定义词。
方案17.根据方案13所述的信息处理装置,其中,所述至少一个输出设置包括输出速度和输出音量中的至少一个。
方案18.根据方案13所述的信息处理装置,其中,所述至少一个输出设置包括用于与所述信息处理装置操作地耦接的显示装置的至少一个显示设置。
方案19.根据方案13所述的信息处理装置,其中,所述指令还能够由所述处理器执行以访问与所识别的用户相关联的用户简档,并且其中,所述指令还能够由所述处理器执行以基于接收到的用户输入来更新所述用户简档。
方案20.根据方案19所述的信息处理装置,其中,能够由所述处理器执行以调整所述至少一个输出设置的指令包括:能够由所述处理器执行以基于所述用户简档中存储的设置标识来调整所述至少一个输出设置的指令。
方案21.一种程序产品,包括:
存储代码的存储装置,所述代码能够由处理器执行并且包括:
接收语音数据的代码;
识别与所述语音数据相关联的用户的代码;以及
基于所识别的用户调整信息处理装置的至少一个输出设置的代码。

Claims (10)

1.一种调整输出设置的方法,包括:
在信息处理装置处接收语音数据;
识别与所述语音数据相关联的用户;以及
基于所识别的用户来调整所述信息处理装置的至少一个输出设置。
2.根据权利要求1所述的方法,其中,所述识别包括识别与所述语音数据相关联的至少一个特征。
3.根据权利要求2所述的方法,其中,所述至少一个特征包括如下中的任一项:与所述语音数据相关联的语音签名;与所述语音数据相关联的口音;所述语音数据中包括的预定义词。
4.根据权利要求1所述的方法,其中,所述至少一个输出设置包括如下中的任一项:输出速度和输出音量中的至少一个;用于与所述信息处理装置操作地耦接的显示装置的至少一个显示设置;向至少一个其他装置提供输出。
5.根据权利要求1所述的方法,还包括:访问与所识别的用户相关联的用户简档。
6.根据权利要求5所述的方法,还包括:基于接收到的用户输入来更新所述用户简档。
7.根据权利要求5所述的方法,其中,调整所述至少一个输出设置包括:基于所述用户简档中存储的设置标识来调整所述至少一个输出设置。
8.根据权利要求1所述的方法,其中,所述调整包括基于所述用户的年龄组进行调整。
9.一种信息处理装置,包括:
处理器;
存储器装置,其存储能够由所述处理器执行以进行如下的指令:
接收语音数据;
识别与所述语音数据相关联的用户;以及
基于所识别的用户来调整所述信息处理装置的至少一个输出设置。
10.一种程序产品,包括:
存储代码的存储装置,所述代码能够由处理器执行并且包括:
接收语音数据的代码;
识别与所述语音数据相关联的用户的代码;以及
基于所识别的用户调整信息处理装置的至少一个输出设置的代码。
CN201810320254.XA 2017-05-31 2018-04-11 基于所识别的用户调整输出设置的方法及信息处理装置 Pending CN108984078A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/609,239 US20180350371A1 (en) 2017-05-31 2017-05-31 Adjust output settings based on an identified user
US15/609,239 2017-05-31

Publications (1)

Publication Number Publication Date
CN108984078A true CN108984078A (zh) 2018-12-11

Family

ID=64279323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810320254.XA Pending CN108984078A (zh) 2017-05-31 2018-04-11 基于所识别的用户调整输出设置的方法及信息处理装置

Country Status (3)

Country Link
US (1) US20180350371A1 (zh)
CN (1) CN108984078A (zh)
DE (1) DE102018111899A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020027073A1 (ja) * 2018-08-03 2020-02-06 ソニー株式会社 情報処理装置および情報処理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218561A1 (en) * 2010-09-22 2013-08-22 At & T Intellectual Property I, L.P. System and Method for Enhancing Voice-Enabled Search Based on Automated Demographic Identification
US8600746B1 (en) * 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment
CN103984408A (zh) * 2013-02-07 2014-08-13 三星电子株式会社 支持语音对话功能的移动终端和语音对话方法
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN105830048A (zh) * 2013-12-16 2016-08-03 纽昂斯通讯公司 用于提供虚拟助理的系统和方法
CN105869626A (zh) * 2016-05-31 2016-08-17 宇龙计算机通信科技(深圳)有限公司 一种语速自动调节的方法及终端
US9569168B2 (en) * 2013-03-12 2017-02-14 Tivo Inc. Automatic rate control based on user identities

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10085091B2 (en) * 2016-02-09 2018-09-25 Bragi GmbH Ambient volume modification through environmental microphone feedback loop system and method
US10157607B2 (en) * 2016-10-20 2018-12-18 International Business Machines Corporation Real time speech output speed adjustment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218561A1 (en) * 2010-09-22 2013-08-22 At & T Intellectual Property I, L.P. System and Method for Enhancing Voice-Enabled Search Based on Automated Demographic Identification
US8600746B1 (en) * 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment
CN103984408A (zh) * 2013-02-07 2014-08-13 三星电子株式会社 支持语音对话功能的移动终端和语音对话方法
US9569168B2 (en) * 2013-03-12 2017-02-14 Tivo Inc. Automatic rate control based on user identities
CN105830048A (zh) * 2013-12-16 2016-08-03 纽昂斯通讯公司 用于提供虚拟助理的系统和方法
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN105869626A (zh) * 2016-05-31 2016-08-17 宇龙计算机通信科技(深圳)有限公司 一种语速自动调节的方法及终端

Also Published As

Publication number Publication date
US20180350371A1 (en) 2018-12-06
DE102018111899A1 (de) 2018-12-06

Similar Documents

Publication Publication Date Title
US10796693B2 (en) Modifying input based on determined characteristics
US10831440B2 (en) Coordinating input on multiple local devices
US20170025117A1 (en) Speech recognition apparatus and method
US20150088515A1 (en) Primary speaker identification from audio and video data
US11282528B2 (en) Digital assistant activation based on wake word association
US20150205359A1 (en) Interactive user gesture inputs
KR102374620B1 (ko) 음성 인식을 위한 전자 장치 및 시스템
US10956548B2 (en) User authentication via emotion detection
CN107643922A (zh) 用于语音辅助的设备、方法及计算机可读存储介质
CN107643909B (zh) 用于协调多个本地设备上的输入的方法和电子设备
US20180364798A1 (en) Interactive sessions
CN108694941A (zh) 用于交互式会话的方法、信息处理装置及产品
CN108986802A (zh) 用于提供与方言相关联的输出的方法、设备及程序产品
US10936276B2 (en) Confidential information concealment
US10831273B2 (en) User action activated voice recognition
US20180350360A1 (en) Provide non-obtrusive output
US20180090126A1 (en) Vocal output of textual communications in senders voice
US20210181838A1 (en) Information providing method and electronic device for supporting the same
CN108984078A (zh) 基于所识别的用户调整输出设置的方法及信息处理装置
US11048782B2 (en) User identification notification for non-personal device
US10847163B2 (en) Provide output reponsive to proximate user input
US20190294766A1 (en) Authentication based on determined privacy level of command
US20220050149A1 (en) Command provision via magnetic field variation
US20180364809A1 (en) Perform function during interactive session
US10380460B2 (en) Description of content image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181211