CN108986802A - 用于提供与方言相关联的输出的方法、设备及程序产品 - Google Patents

用于提供与方言相关联的输出的方法、设备及程序产品 Download PDF

Info

Publication number
CN108986802A
CN108986802A CN201810338000.0A CN201810338000A CN108986802A CN 108986802 A CN108986802 A CN 108986802A CN 201810338000 A CN201810338000 A CN 201810338000A CN 108986802 A CN108986802 A CN 108986802A
Authority
CN
China
Prior art keywords
dialect
user
input
processor
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810338000.0A
Other languages
English (en)
Inventor
瑞安·查尔斯·克努森
罗德里克·埃科尔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of CN108986802A publication Critical patent/CN108986802A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Machine Translation (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

一个实施方式提供了一种用于提供与方言相关联的输出的方法、设备及程序产品。该方法包括:在信息处理设备处,接收可听用户输入;使用处理器来确定与可听用户输入相关联的方言;以及基于该确定来提供与该方言相关联的输出。描述并且要求保护了其他方面。

Description

用于提供与方言相关联的输出的方法、设备及程序产品
技术领域
本发明涉及用于提供与方言相关联的输出的方法、设备及程序产品。
背景技术
诸如智能电话、平板设备、智能扬声器、膝上型计算机和个人计算机等的信息处理设备(“设备”)可以能够接收命令或查询输入并且响应于输入提供输出。向设备提供输入的一般方法是通过向设备(例如向个人助理中包含的语音输入模块等)提供语音输入。在处理语音输入之后,设备可以随后提供响应输出(例如通过一个或更多个扬声器提供的可听输出等)。通常,用户可以从有限数量的语音类型中选择例如不同的语言(例如汉语、西班牙语、英语等)、与相同或相似语言(例如英式英语、美式英语等)相关联的不同国家等以设置为输出。
发明内容
总之,一个方面提供了一种方法,该方法包括:在信息处理设备处,接收可听用户输入;使用处理器来确定与可听用户输入相关联的方言;以及基于该确定来提供与该方言相关联的输出。
另一方面提供了一种信息处理设备,该信息处理设备包括处理器和存储器设备,该存储器设备存储能够由处理器执行以进行以下操作的指令:接收可听用户输入;确定与可听用户输入相关联的方言;以及基于该确定来提供与该方言相关联的输出。
又一方面提供了一种产品,该产品包括:存储装置,该存储装置存储代码,所述代码能够由处理器执行并且所述代码包括:用于接收可听用户输入的代码;用于确定与可听用户输入相关联的方言的代码;以及用于基于进行确定的代码来提供与方言相关联的输出的代码。
前述是概要,并且因此可以包含简化、概括和细节省略;因此,本领域的技术人员将理解的是,该概要仅仅是说明性的且不旨在以任何方式进行限制。
为了更好地理解实施方式,连同实施方式的其他的和进一步的特征以及优点,参照以下的结合附图的描述。本发明的范围将在所附权利要求书中指出。
附图说明
图1示出了信息处理设备电路系统的示例。
图2示出了信息处理设备电路系统的另一示例。
图3示出了提供与接收到的可听用户输入的方言相关联的输出的示例方法。
具体实施方式
将容易地理解的是,除所描述的示例性实施方式以外,还可以以多种不同的配置来布置和设计如在本文附图中一般性地描述并示出的实施方式的部件。因此,以下如在附图中示出的示例性实施方式的更详细的描述不旨在限制所要求保护的实施方式的范围,而仅代表示例性实施方式。
贯穿本说明书,对“一个实施方式”或“实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性被包括在至少一个实施方式中。因此,贯穿本说明书,在各处出现的短语“在一个实施方式中”或“在实施方式中”等未必都指同一实施方式。
此外,在一个或更多个实施方式中,所描述的特征、结构或特性可以以任何适当的方式进行组合。在下面的描述中,提供了许多具体的细节以给出对实施方式的透彻的理解。然而,相关领域的技术人员将认识到可以在没有一个或更多个具体细节的情况下或者利用其他的方法、部件、材料等对各种实施方式进行实践。在其他实例中,不再详细地示出或描述公知的结构、材料或操作以避免混淆。
研究表明,当与共享同一区域方言的其他人交互时,人们感觉更舒适并且表现出更大的信任感。例如,来自西南部州(例如德克萨斯州等)的人与来自同一西南部州的另一个体而不是来自东北部州(例如马萨诸塞州等)的人进行交互会感觉更舒适。为了进一步强调该点,当试图向位于特定地理区域的消费者群体销售产品时,广告商经常利用方言模仿方法(即以特定消费者的方言来呈现内容)。
用户经常利用设备来执行各种不同的命令或查询。与设备交互的一种方法是使用在设备上采用的数字助理软件(例如用于用于用于等)。数字助理能够提供响应于各种不同类型的用户输入(例如语音输入、文本输入、姿势输入等)的输出(例如,可听输出、视觉输出等)。通常,用户可以从N种预定方言(例如与主要方言区域相关联等)中进行选择以应用于由数字助理提供的输出。例如,用户可以选择以北美洲英语、南美洲英语、中美洲英语等接收输出。
然而,目前现有的可选方言仅包括主要方言区域的宽泛概括并且不允许以较小的、区域方言(例如东北部的新英格兰的“波士顿”英语、西宾夕法尼亚州的“匹兹堡”英语、西南部的“德克萨斯”英语等)来提供输出。因此,用户的特定区域方言可供选择的机会很小。这呈现了一些问题,因为在单个主要的方言区域或甚至在单独的州中可能会存在大量不同的区域方言。以宾夕法尼亚州为例,常见的问候“how are you doing?(你好吗?)”可能取决于沟通问候的宾夕法尼亚州的区域(例如西宾夕法尼亚州、东宾夕法尼亚州等)不同地被说出。例如,如果在匹兹堡市中被说出,则该问候可能是“how yinz doing?”,而如果在费城市中说出该问候,则该问候可能是“how ya doin’?”。除了利用特定于区域方言的词,某些词的发音也可能在区域方言之间不同。因此,与“宾夕法尼亚州方言”简单地相关联的广义输出设置可能与宾夕法尼亚州中找到的所有区域方言均不适当地对应。因此,选择了广义宾夕法尼亚州方言设置的宾夕法尼亚州用户仍可能与设备进行交互不会像与其区域中的其他个体交互那样感到舒适。
因此,实施方式提供了一种用于以与所确定的可听用户输入的方言相关联的方言提供输出的方法。在实施方式中,可以在设备处接收语音输入(例如语音命令输入、语音查询输入、对话输入等)。然后,实施方式可以确定(例如通过识别与可听用户输入相关联的特征等)用户输入被以其来提供的方言。响应于该确定,实施方式可以处理语音输入和/或提供与输入被以其来提供的方言相关联的输出(例如可听输出、基于文本的输出等)。此外,系统可以从用户学习方言并且然后以该所学方言提供输出。因此,系统不必用用户的方言进行预编程。相反,用户可以仅通过对系统讲话来“训练”系统。这样的方法可以使得用户能够以用户熟悉的方言接收输出并且因此可以更舒适地与数字助理进行交互。
所阐明的示例性实施方式将通过参照附图被最好地理解。下面的描述旨在仅作为示例,并且简单地阐明某些示例性实施方式。
虽然在信息处理设备中可以使用各种其他电路、电路系统或部件,但是关于智能电话和/或平板电路系统100,图1所示的示例包括例如在平板计算机或其他移动计算平台中发现的片上系统设计。在单个芯片110中组合有软件和处理器。如本领域中公知的,处理器包括内部运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。内部总线等取决于不同的供应商,但是基本上所有外围设备120可以附接至单个芯片110。电路系统100将处理器、存储器控制器和I/O控制器集线器全部组合成单个芯片110。此外,这种类型的系统100通常不使用SATA或PCI或LPC。公用接口例如包括SDIO和I2C。
存在电源管理芯片130,例如电池管理单元BMU,其管理如例如经由可以通过与电源(未示出)的连接再充电的可再充电电池140供给的电力。在至少一个设计中,使用单个芯片例如110来提供类似BIOS的功能和DRAM存储器。
系统100通常包括用于与诸如电信网络和无线因特网设备例如接入点的各种网络连接的WWAN收发器150和WLAN收发器160中的一个或更多个。此外,设备120通常包括在例如诸如相机的图像传感器、诸如麦克风的音频捕捉设备、热传感器等中。系统100通常包括用于数据输入以及显示/呈现的触摸屏170。系统100通常还包括各种存储器设备,例如闪速存储器180和SDRAM 190。
图2示出了信息处理设备电路、电路系统或部件的另一示例的框图。图2所示的示例可以与诸如北卡罗来纳州的莫里斯维尔市(Morrisville,NC)的联想(美国)股份有限公司所售的THINKPAD系列的个人计算机的计算系统或其他设备对应。如根据本文中的描述明显的是,实施方式可以包括其他特征或图2所示的示例的特征中的仅一些特征。
图2的示例包括具有可以根据制造商(例如INTEL、AMD、ARM等)而变化的架构的所谓的芯片组210(一组一起工作的集成电路或芯片、芯片组)。INTEL是英特尔公司在美国和其他国家的注册商标。AMD是超微半导体设备股份有限公司(Advanced Micro DeviceInc.)在美国和其他国家的注册商标。ARM是ARM控股公司(ARM Holding plc)在美国和其他国家的未注册商标。芯片组210的架构包括核与存储器控制组220以及I/O控制器集线器250,该核与存储器控制组220以及I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中,DMI 242是芯片到芯片接口(有时被称为“北桥”与“南桥”之间的链路)。核与存储器控制组220包括经由前端总线(FSB)224交换信息的存储器控制器集线器226和一个或更多个处理器222(例如单核或多核);应该注意,组220的部件可以被集成在替代常规的“北桥”式架构的芯片中。如本领域公知的,一个或更多个处理器222包括内部运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。
在图2中,存储器控制器集线器226与存储器240对接(例如为可以被称为“系统存储器”或“存储器”的RAM类型提供支持)。存储器控制器集线器226还包括用于显示设备292(例如CRT、平板、触摸屏等)的低压差分信号(LVDS)接口232。块238包括可以经由LVDS接口232(例如串行数字视频、HDMI/DVI、显示端口)来支持的一些技术。存储器控制器集线器226还包括可以支持独立显卡236的PCI-express接口(PCI-E)234。
在图2中,I/O集线器控制器250包括:SATA接口251(例如用于HDD、SDD等280)、PCI-E接口252(例如用于无线连接282)、USB接口253(例如用于诸如数字转换器、键盘、鼠标、相机、电话、麦克风、存储装置、其他连接的设备等的设备284)、网络接口254(例如LAN)、GPIO接口255、LPC接口270(用于ASIC 271、TPM 272、超级I/O 273、固件集线器274、BIOS支持275以及诸如ROM 277、闪存278和NVRAM 279的各种类型的存储器276)、电源管理接口261、时钟发生器接口262、音频接口263(例如用于扬声器294)、TCO接口264、系统管理总线接口265、以及可以包括BIOS 268和启动代码290的SPI闪存266。I/O集线器控制器250可以包括千兆以太网支持。
该系统在接通电源时可以被配置成执行如在SPI闪存266内存储的用于BIOS 268的启动代码290,并且此后在一个或更多个操作系统和应用程序软件(例如存储在系统存储器240中)的控制下处理数据。操作系统可以存储在各个位置中的任何位置中并且例如根据BIOS 268的指令来访问。如本文中描述的,设备可以包括比图2的系统中所示的特征更少或更多的特征。
如例如图1或图2中概述的信息处理设备电路系统可以在诸如平板计算机、智能电话、智能扬声器、通常的个人计算机设备、和/或电设备的设备中使用,该电子设备可以包括用户可以与之交互的并且可以响应于接收到用户输入来执行各种功能的数字助理。例如,图1中所概述的电路系统可以在平板计算机或智能电话实施方式中实现,而图2中所概述的电路系统可以在个人计算机实施方式中实现。
现在参照图3,实施方式可以以与可听用户输入的方言相关联的方言提供输出。在301处,实施方式可以接收来自至少一个用户的语音输入。语音输入可以是任何类型的输入,例如命令输入、查询输入等。在实施方式中,可以在操作上耦接至话音识别设备的输入设备(例如麦克风、语音捕捉设备等)处接收语音输入。
在实施方式中,输入设备可以是与话音识别设备集成的输入设备。例如,智能电话可以设置有能够接收语音输入数据的麦克风。可替选地,输入设备可以设置在另一设备上并且可以将接收到的语音输入数据发送给话音识别设备。例如,可以在智能扬声器处接收语音输入,该智能扬声器可以随后将语音数据发送给另一设备(例如发送给用户的智能电话以进行处理等)。可以经由无线连接(例如使用蓝牙连接、近场通信(NFC)、无线连接技术等)、有线连接(例如设备耦接至另一设备或源等)、通过连接的数据存储系统(例如经由云存储、远程存储、本地存储,网络存储等)等将语音输入数据从其他源传送至话音识别设备。
在实施方式中,输入设备可以被配置成通过将输入设备保持处于活动状态来连续接收语音输入数据。即使当与话音识别设备相关联的其他传感器(例如相机、光传感器、扬声器、其他麦克风等)不活动时,输入设备例如也可以连续地检测语音输入数据。可替选地,输入设备可以保持处于活动状态达预定时间量(例如30分钟、1小时、2小时等)。在该预定时间窗期间没有接收到任何语音输入数据之后,实施方式可以将输入设备切换到断电状态。预定时间窗口可以由制造商预先配置或替选地可以由一个或更多个用户配置和设置。
在302处,实施方式可以确定与可听用户输入相关联的方言。在实施方式中,该确定可以通过分析与可听用户输入相关联的语音数据来进行以识别与方言相关联的特征。通过分析,实施方式可以能够识别特定的区域方言和/或学习特定于提供输入的用户的方言。在实施方式中,例如可以使用已知的语音输入分析技术(例如频谱图分析、节奏(cadence)分析、语速分析、词汇术语分析、词识别和/或关联等)来进行分析。在实施方式中,分析可以实时或基本上实时地(例如当用户正在提供语音输入等时)进行。
在实施方式中,与可听语音输入相关联的特征可以是特定于特定区域方言的任何特征。在实施方式中,与语音数据相关联的特征可以包括不同词或短语的元音和/或辅音发音。例如,一些讲话者会说出特定的元音或辅音,而其他讲话者会缩短或省略一些元音或辅音。特定方言的讲话者可以以特定于该方言的特定方式来发出某些词和/或短语的音。同样地,与一种方言相关联的用户可以以不同于与另一种方言相关联的用户的方式来发出某些词和/或短语的音。可以识别以帮助确定或学习讲话者的方言的其他可听特征包括用户提供语音输入的速度、用户提供语音输入的音量、与用户的语音输入相关联的口音以及可以用于区分两种或更多种方言的语音的任何其他特征。
在实施方式中,与语音输入相关联的另一特征可以包括特定于特定区域方言的特定词和/或短语。例如,潜艇三明治(即包含冷切肉、生菜等的长三明治)可以取决于个体所在的区域被称为各种不同的事物。也许潜艇三明治最普遍的名称是“sub”。然而,对于居住在纽约市的个体而言,潜艇三明治通常被称为“Grinder”;对于居住在费城市的个体而言,被称为“Hoagie”;以及对于居住在新奥尔良市的个体被称为“Poor Boy”。因此,响应于接收到可听用户输入“Which restaurant serves the best hoagie in town?(哪家餐厅供应城里最好的何奇?)”,实施方式可以确定用户输入与东宾夕法尼亚州方言相关联。
通过识别与接收到的语音数据相关联的特征,实施方式可以识别以其提供输出的对应的方言(例如通过将所识别的特征与匹配于特定方言的特征的数据库进行比较等)。此外和/或可替选地,实施方式可以学习用户的个人方言的错综复杂性(例如通过与用户的频繁交互等)并且将学习的特征存储在用户简档中。在实施方式中,设备可以存储(例如在与设备集成的存储位置或在设备可访问的远程存储位置处等)一个或更多个用户简档。每个用户简档可以与单个用户相关联。在实施方式中,多个用户可以访问并且使用单个设备。在这种情况下,实施方式可以在访问与该特定用户相关联的用户简档之前识别用户。例如,多个用户可以具有通过登录到用户简档中来访问设备(例如智能电话、专用智能扬声器、膝上型计算机、桌上型计算机等)的能力。
每个用户简档可以包含各种设置,其包括可以特定于所识别的用户的方言数据。例如,用户A可以通过向与设备相关联的输入设备提供用户标识数据(例如可听触发词、数字指纹、与用户相关联的密码、用户凭证、生物数据、设备数据等)来获得对与设备有关的用户简档的访问。在授权用户A对其用户简档的访问之后,实施方式可以访问与用户A相关联的方言数据。如果用户B在同一设备上登录与用户B相关联的用户简档,则实施方式可以访问特定于用户B的方言数据而不是与用户A相关联的方言数据。
响应于在302处确定与可听用户输入相关联的方言,实施方式在304处提供与方言相关联的输出。输出可以是音频输出、视觉输出、其组合等。在实施方式中,可听输出可以通过扬声器、另一输出设备等来提供。在实施方式中,视觉输出可以通过显示屏、另一显示设备等来提供。在实施方式中,输出设备可以集成到话音识别设备或可以位于另一设备上。在输出设备位于另一设备上的情况下,输出设备可以经由无线或有线连接连接至话音识别设备。例如,智能电话可以提供用于通过操作上耦接的智能扬声器提供可听输出的指令。
在实施方式中,提供输出可以包括:调整与设备相关联的方言设置。方言设置可以与向用户提供输出的方式相关联。调整方言设置可以包括:将方言设置从第一方言设置(例如从在设备上预先配置的标准方言设置、从与另一用户简档相关联的先前方言设置等)调整为与可听用户输入相关联的方言。例如,系统可以从出厂默认设置调整为与用户相关联的方言设置。作为另一示例,用户可以选择预先配置的方言例如美式英语,并且当系统学习用户的更具体的方言时,系统可以将标准美式英语方言调整为用户的一种更具体的方言。实施方式可以使用语音数据中的识别的特征来调整输出,以通过结合识别的特征来匹配可听用户输入的方言。
在实施方式中,关于可听输出,方言设置可以与输出发音(例如设备如何发出各种词和/或短语的音等)、输出速度(例如设备朗诵自然语言输出的速度有多快等)、输出音量(例如设备朗诵自然语言输出的声音有多大等)、输出词选择(例如在输出中使用哪些方言特定词等)等对应。在实施方式中,可以以和与可听用户输入相关联的方言相同或基本相同的方言来提供可听输出。例如,响应于确定或获知用户输入与西宾夕法尼亚州方言相关联,实施方式可以利用与西宾夕法尼亚州方言相关联的特征(例如利用与西宾夕法尼亚州方言相关联的元音和辅音等)和/或利用西宾夕法尼亚州方言中常用的词(例如“yinz”等)来提供响应的可听输出。
在实施方式中,方言设置可以与提供视觉输出(例如在基于文本的输出中使用的词选择等)的方式对应。视觉输出可以包括在特定方言中常用的词。例如,响应于以波士顿英语方言(例如“is Fenway Pahk fah away?”)接收到用户查询输入“is Fenway Park faraway?(芬威公园还远吗?)”,实施方式可以在显示屏上提供下面的基于文本的视觉输出:“yea,Fenway Park is wicked far(是的,芬威公园还很远)”。在这种情况下,词“wicked”是词“very(很)”在波士顿英语方言中常用的替代词。
响应于在302处未确定与可听用户输入相关联的方言,实施方式在303处使用预先配置的设置来提供输出。在这种情况下,预先配置的设置可以指例如设置在设备上的预先配置的方言设置。
因此,本文中描述的各种实施方式表示对常规的与方言有关的输出技术的技术改进。使用本文中描述的技术,实施方式可以确定与用户提供的可听输入相关联的方言。之后,实施方式可以调整方言设置以使用与用户提供的输入相同的方言来提供输出。这样的技术可以允许用户与设备交互感觉更舒适并且可以促进提高的设备利用率。
如本领域技术人员将理解的,各个方面可以体现为系统、方法或设备程序产品。因此,各方面可以采取完全硬件实施方式或包括软件的实施方式的形式,这些在本文中均可以总称为“电路”、“模块”或“系统”。此外,各方面可以采取设备程序产品的形式,该设备程序产品包括在包含有设备可读程序代码的一个或更多个设备可读介质中。
应当注意,本文中描述的各种功能可以使用存储在设备可读存储介质上的指令诸如由处理器执行的非信号存储设备来实现。存储设备可以是例如系统、装置、或设备(例如电子、磁、光、电磁、红外或半导体系统、装置或设备)或者上述的任意合适的组合。存储装置/介质的更具体示例包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或者上述的任何合适组合。在本文档的上下文中,存储设备不是信号,并且“非暂态”包括除信号介质之外的所有介质。
可以使用任何适当的介质来传输在存储介质上所包含的程序代码,所述任何适当的介质包括但不限于无线、有线、光纤线缆、RF等或前述的任何适当的组合。
用于执行操作的程序代码可以以一种或更多种编程语言的任何组合来编写。程序代码可以完全在单个设备上执行、部分地在单个设备上执行、作为独立软件包执行、部分地在单个设备上且部分地在另一设备上执行或完全在其他设备上执行。在一些情况下,可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接设备,或者可以通过其他设备(例如通过使用因特网服务提供商的因特网)、通过无线连接例如近场通信、或者通过硬线连接(诸如通过USB连接)来进行连接。
本文参考示出了根据各种示例性实施方式的示例性方法、设备和程序产品的附图来描述示例性实施方式。要理解的是,动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给设备、专用信息处理设备或其他可编程数据处理设备的处理器以产生机器指令,使得经由设备的处理器执行的指令实现指定的功能/动作。
值得注意的是,虽然在附图中使用了特定的块,并且已经示出了块的特定顺序,但这些都是非限制性的示例。由于明确说明的示例仅用于描述的目的,而不应被视为限制,所以在某些情况下,可以组合两个或更多个块,可以将块分成两个或更多个块,或者可以按需要将某些块重新排序或重新组织。
如本文所用的那样,除非另外清楚指出,否则未加以数量限定可以被解释为包括复数“一个或更多个”。
给出本公开内容是为了说明和描述的目的,而非旨在是穷举或限制。对本领域普通技术人员来说,许多修改和变化将是明显的。选择并描述示例性实施方式是为了说明原理和实际应用,并且使本领域其他普通技术人员能够理解本公开内容,本公开内容针对与预期的特定使用相称的、具有多种修改的多种实施方式。
因此,尽管本文参考附图已经描述了说明性的示例性实施方式,但应该理解,这种描述不是限制性的,并且在不偏离本公开内容的范围或精神的情况下,本领域技术人员可以在其中影响各种其他变化和修改。

Claims (20)

1.一种用于提供与方言相关联的输出的方法,包括:
在信息处理设备处,接收可听用户输入;
使用处理器来确定与所述可听用户输入相关联的方言;以及
基于所述确定来提供与所述方言相关联的输出。
2.根据权利要求1所述的方法,其中,提供输出包括:提供可听输出。
3.根据权利要求1所述的方法,其中,所述提供包括:调整与所述信息处理设备相关联的方言设置。
4.根据权利要求3所述的方法,其中,所述调整包括:将所述方言设置从第一方言调整为与所述可听用户输入相关联的所述方言。
5.根据权利要求1所述的方法,其中,所述确定包括:分析所述可听用户输入以识别与所述可听用户输入相关联的特征。
6.根据权利要求5所述的方法,其中,所述提供包括:使用所识别的特征来调整输出,以通过结合所识别的特征来匹配所述可听用户输入的方言。
7.根据权利要求6所述的方法,其中,调整所述输出包括:基于所识别的特征来调整元音和辅音发音。
8.根据权利要求5所述的方法,其中,所述确定包括:使用频谱图分析、节奏分析、语速分析和词汇术语分析中的一个或更多个来确定所述可听用户输入。
9.根据权利要求1所述的方法,还包括:识别提供所述可听用户输入的用户。
10.根据权利要求9所述的方法,还包括:将所确定的方言存储在与所述用户相关联的简档中。
11.根据权利要求10所述的方法,还包括:响应于识别出所述用户而访问所述简档。
12.一种信息处理设备,包括:
处理器;
存储器设备,其存储能够由所述处理器执行以进行以下操作的指令:
接收可听用户输入;
确定与所述可听用户输入相关联的方言;以及
基于所述确定来提供与所述方言相关联的输出。
13.根据权利要求12所述的信息处理设备,其中,能够由所述处理器执行以进行提供操作的指令包括:能够由所述处理器执行以调整与所述信息处理设备相关联的方言设置的指令。
14.根据权利要求13所述的信息处理设备,其中,能够由所述处理器执行以进行调整操作的指令包括:能够由所述处理器执行以将所述方言设置从第一方言调整为与所述可听用户输入相关联的所述方言的指令。
15.根据权利要求12所述的信息处理设备,其中,能够由所述处理器执行以进行确定操作的指令包括:能够由所述处理器执行以确定所述可听用户输入来识别与所述可听用户输入相关联的特征的指令。
16.根据权利要求15所述的信息处理设备,其中,能够由所述处理器执行以进行提供操作的指令包括:能够由所述处理器执行以使用所识别的特征来调整输出从而通过结合所识别的特征来匹配所述可听用户输入的方言的指令。
17.根据权利要求16所述的信息处理设备,其中,能够由所述处理器执行以调整所述输出的指令包括:能够由所述处理器执行以基于所识别的特征来调整元音和辅音发音的指令。
18.根据权利要求16所述的信息处理设备,其中,能够由所述处理器执行以进行确定操作的指令包括:能够由所述处理器执行以使用频谱图分析、节奏分析、语速分析和词汇术语分析中的一个或更多个来分析所述可听用户输入的指令。
19.根据权利要求12所述的信息处理设备,其中,所述指令还能够由所述处理器执行以识别提供所述可听用户输入的用户,并且其中,所述指令还能够由所述处理器执行以将所确定的方言存储在与所述用户相关联的简档中。
20.一种用于提供与方言相关联的输出的程序产品,包括:
存储装置,所述存储装置存储代码,所述代码能够由处理器执行,并且所述代码包括:
用于接收可听用户输入的代码;
用于确定与所述可听用户输入相关联的方言的代码;以及
用于基于进行确定的代码来提供与所述方言相关联的输出的代码。
CN201810338000.0A 2017-05-31 2018-04-16 用于提供与方言相关联的输出的方法、设备及程序产品 Pending CN108986802A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/609,208 2017-05-31
US15/609,208 US10943601B2 (en) 2017-05-31 2017-05-31 Provide output associated with a dialect

Publications (1)

Publication Number Publication Date
CN108986802A true CN108986802A (zh) 2018-12-11

Family

ID=62723247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810338000.0A Pending CN108986802A (zh) 2017-05-31 2018-04-16 用于提供与方言相关联的输出的方法、设备及程序产品

Country Status (4)

Country Link
US (1) US10943601B2 (zh)
CN (1) CN108986802A (zh)
DE (1) DE102018111896A1 (zh)
GB (1) GB2564241A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767754A (zh) * 2019-01-15 2019-05-17 谷晓佳 一种模拟发声方法、装置、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517664B (zh) * 2019-09-10 2022-08-05 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
CN117690416B (zh) * 2024-02-02 2024-04-12 江西科技学院 一种人工智能交互方法及人工智能交互系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147408A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Dialect translator for a speech application environment extended for interactive text exchanges
US20110313767A1 (en) * 2010-06-18 2011-12-22 At&T Intellectual Property I, L.P. System and method for data intensive local inference
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN104700834A (zh) * 2013-12-05 2015-06-10 联想(新加坡)私人有限公司 信息处理方法及信息处理装置
CN105551480A (zh) * 2015-12-18 2016-05-04 百度在线网络技术(北京)有限公司 方言转换方法及装置
CN106406559A (zh) * 2015-07-31 2017-02-15 联想(新加坡)私人有限公司 基于语言内容背景的输入的修改
US20170148432A1 (en) * 2015-11-24 2017-05-25 International Business Machines Corporation System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175082A (ja) 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
US7050976B1 (en) 2001-09-26 2006-05-23 Sprint Spectrum L.P. Method and system for use of navigation history in a voice command platform
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
GB2501067B (en) 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US9009049B2 (en) 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US20140280295A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Multi-language information retrieval and advertising
US9728202B2 (en) * 2013-08-07 2017-08-08 Vonage America Inc. Method and apparatus for voice modification during a call
US9613022B2 (en) * 2015-02-04 2017-04-04 Lenovo (Singapore) Pte. Ltd. Context based customization of word assistance functions
US9940926B2 (en) * 2015-06-02 2018-04-10 International Business Machines Corporation Rapid speech recognition adaptation using acoustic input
US10073842B2 (en) * 2016-06-15 2018-09-11 International Business Machines Corporation Culturally-aware cognitive system for human interactions
US20180277132A1 (en) 2017-03-21 2018-09-27 Rovi Guides, Inc. Systems and methods for increasing language accessability of media content

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147408A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Dialect translator for a speech application environment extended for interactive text exchanges
US20110313767A1 (en) * 2010-06-18 2011-12-22 At&T Intellectual Property I, L.P. System and method for data intensive local inference
CN104700834A (zh) * 2013-12-05 2015-06-10 联想(新加坡)私人有限公司 信息处理方法及信息处理装置
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN106406559A (zh) * 2015-07-31 2017-02-15 联想(新加坡)私人有限公司 基于语言内容背景的输入的修改
US20170148432A1 (en) * 2015-11-24 2017-05-25 International Business Machines Corporation System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections
CN105551480A (zh) * 2015-12-18 2016-05-04 百度在线网络技术(北京)有限公司 方言转换方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767754A (zh) * 2019-01-15 2019-05-17 谷晓佳 一种模拟发声方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
GB201808018D0 (en) 2018-07-04
US10943601B2 (en) 2021-03-09
DE102018111896A1 (de) 2018-12-06
US20180350343A1 (en) 2018-12-06
GB2564241A (en) 2019-01-09

Similar Documents

Publication Publication Date Title
US10796693B2 (en) Modifying input based on determined characteristics
US9940929B2 (en) Extending the period of voice recognition
US11386886B2 (en) Adjusting speech recognition using contextual information
EP3525205A1 (en) Electronic device and method of performing function of electronic device
EP2940556B1 (en) Command displaying method and command displaying device
US20190051297A1 (en) False positive wake word
CN104700834B (zh) 信息处理方法及信息处理装置
KR102348758B1 (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
CN109410297A (zh) 一种用于生成虚拟化身形象的方法与装置
CN108986802A (zh) 用于提供与方言相关联的输出的方法、设备及程序产品
CN107643922A (zh) 用于语音辅助的设备、方法及计算机可读存储介质
US20200326832A1 (en) Electronic device and server for processing user utterances
CN105139848B (zh) 数据转换方法和装置
US11915700B2 (en) Device for processing user voice input
US10936276B2 (en) Confidential information concealment
ES2950974T3 (es) Dispositivo electrónico para realizar una tarea que incluye una llamada en respuesta al pronunciamiento de un usuario y procedimiento de operación del mismo
US10916159B2 (en) Speech translation and recognition for the deaf
US20180314417A1 (en) Electronic device for outputting graphic indication
US20180090126A1 (en) Vocal output of textual communications in senders voice
US20210124803A1 (en) User-customized computer-automated translation
US20180341654A1 (en) Visual data associated with a query
US11238865B2 (en) Function performance based on input intonation
US20190294766A1 (en) Authentication based on determined privacy level of command
US9659480B2 (en) Reminders based on virtual locations
CN108984078A (zh) 基于所识别的用户调整输出设置的方法及信息处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181211