CN108257608B - 自动语音发音归属 - Google Patents
自动语音发音归属 Download PDFInfo
- Publication number
- CN108257608B CN108257608B CN201710915606.1A CN201710915606A CN108257608B CN 108257608 B CN108257608 B CN 108257608B CN 201710915606 A CN201710915606 A CN 201710915606A CN 108257608 B CN108257608 B CN 108257608B
- Authority
- CN
- China
- Prior art keywords
- candidate
- shared
- user
- user profiles
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 34
- 238000003860 storage Methods 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 18
- 238000013459 approach Methods 0.000 claims description 6
- 238000004132 cross linking Methods 0.000 claims 1
- 230000014759 maintenance of location Effects 0.000 claims 1
- 230000015654 memory Effects 0.000 description 32
- 238000004891 communication Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 230000003993 interaction Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241001062009 Indigofera Species 0.000 description 1
- 229930188970 Justin Natural products 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/52—Network services specially adapted for the location of the user terminal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/54—Presence management, e.g. monitoring or registration for receipt of user log-on information, or the connection status of the users
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及自动语音发音归属的方法、系统和装置,用于:将候选用户简档确定为与共享设备相关联;从候选用户简档识别与被确定为与共享设备相关联的候选用户简档中的至少一个相关联的候选发音属性;接收所说的话语;基于对应于所说的话语的所接收的音频数据,确定所接收的发音属性;将所接收的发音属性与候选发音属性中的至少一个比较;基于所接收的发音属性与候选发音属性中的至少一个的比较的结果,从候选发音属性中选择特定发音属性;以及提供从候选发音属性中选择的特定发音属性,以输出与所说的话语相关联的音频。所述的实施方式减小与识别用户相关联的计算负担,并且以音频输出提供正确的发音。
Description
技术领域
本说明书通常涉及语音识别。
背景技术
某些计算设备具有语音识别功能,例如语音激活的设备,并且可以对用户的话语提供适当的响应。具有语音识别功能的这些计算设备中的某些是使多个用户与共享设备交互的共享设备。此外,特定用户可以与具有语音识别功能的若干不同设备交互。在这些实例中的每一个中,具有语音识别功能的计算设备可能难以识别当前正在与计算设备交互的特定用户。因此,用户与计算设备的交互通常产生不期望的结果。
发明内容
本公开允许用户准确地与在设备处接收的所说的话语相关联。本公开还允许设备通过执行适当的动作,诸如提供适当的音频响应,响应接收到所说的话语。因此,可以跨多个设备链接用户的账户或信息,并且跨与用户交互的所有设备,创建统一的用户体验。还为与共享设备交互的每一用户提供该同样的统一用户体验。
以方法体现在本说明书中所述的主题的一个创新方面,该方法包括以下动作:将候选用户简档确定为与共享设备相关联;从所述候选用户简档识别与被确定为与所述共享设备相关联的候选用户简档中的至少一个候选用户简档相关联的候选发音属性;在所述共享设备处接收所说的话语;基于对应于所说的话语的所接收的音频数据,确定所接收的发音属性;将所接收的发音属性与所述候选发音属性中的至少一个候选用户简档比较;基于所接收的发音属性与所述候选发音属性中的至少一个候选用户简档的比较的结果,从所述候选发音属性中选择特定发音属性;以及提供从所述候选发音属性中选择的特定发音属性,以输出与所说的话语相关联的音频。
这些和其他实施方式可以分别可选地包括一个或多个下述特征。例如,将候选用户简档确定为与共享设备相关联可以包括确定多个用户简档中的每一个与所述共享设备之间的关系;对每一用户简档,确定所述关系是否指示所述用户简档与所述共享设备之间的关联;以及对具有指示与所述共享设备的关联的关系的每一用户简档,将所述用户简档识别为与所述共享设备相关联的所述候选用户简档中的一个。
根据本说明书中所述的主题的另一方面,对所述多个用户简档中的每一个,所述关系包括所述用户简档是否已经记入到所述共享设备或者与所述用户简档相关联的至少一个用户设备是否曾与共享设备通信的记录。
根据本说明书中所述的主题的另一方面,对所述多个用户简档中的每一个,所述关系包括与所述用户简档相关联的至少一个用户设备与所述共享设备的地理接近度。
根据本说明书中所述的主题的又一方面,对所述多个用户简档中的每一个,所述关系包括社交联系,所述社交联系基于至少一个社交联系度量。
以方法体现本说明书中所述的主题的另一方面,该方法包括提供对所说的话语的音频响应的动作,所述音频响应包括从所述候选发音属性中选择的特定发音。
在某些实施方式中,所述候选用户简档中的每一用户简档包括与规范标识符相关联的一个或多个发音属性,所述规范标识符表示特定发音。
这些方面的其他实施方式包括相应的系统、装置,以及计算机程序,被配置为执行编码在计算机存储设备上的方法的动作。
本公开的实施方式提供若干技术优点,其中一些在下文更详细地描述。例如,特定名称、关键词或短语的语音识别和发音通常在计算上是昂贵的,并且本公开的实现减少了与识别用户、执行语音识别相关联的计算负担,并且以音频输出提供正确的发音。作为另一示例,由本公开提供的过程的精简产生了减少所需带宽并且提供电池节能的技术优点。作为又一示例,本公开提供通过例如减少候选名称、单词或短语的数量来增加语音识别的转录精度的技术优点。
在附图和下述描述中,阐述了一个或多个实施方式的细节。从描述、附图和权利要求,其他特征和优点将变得显而易见。
附图说明
图1描绘根据某些实施方式,用于语音发音归属系统的操作的示例图。
图2描绘根据某些实施方式的语音发音归属的示例系统。
图3描绘根据某些实施方式的语音发音归属过程的示例流程图。
图4描绘可以被用来实现本文所述的技术的计算设备和移动计算设备的示例。
在不同图中的相同参考数字和命名指示相同的元素。
具体实施方式
图1描绘用于语音发音归属系统的操作的示例图100。用户102可以说出话语104/106。用户102具有诸如移动设备的用户设备110。在一个实例中,用户可以说出包括用户名称或特定关键字的话语104。在另一实例中,用户可以说出指示用户存在的话语106。话语104/106可以在诸如共享设备的计算设备120处被接收。计算设备120基于下文更详细描述的系统和过程,能够确定和输出用户名称或与用户相关联的另一关键字或短语的适当发音。例如,用户的名称可能是“Justen”,其发音类似于“Justine”-Juss-TEEN,而不是类似“Justin”-JUH-stin。共享设备120可以由JUH-stin 122和Juss-TEEN 124确定合适的发音。因此,共享设备120可以通过包括适当发音,Juss-TEEN的回复130来响应该话语。
通常,本公开的一个实施方式允许用户准确地与在设备处接收到的所说的话语相关联。本公开的一个实施方式还允许设备通过执行适当的动作,诸如提供适当的音频响应来响应接收的所说的话语。
例如,设备可以提供包括以对与所说的话语相关联的用户熟悉的方式发音的一个或多个词的音频响应。这可能导致音频响应对于用户更易于识别和更容易理解的结果。对于理解语音能力有限的用户来说特别有利,使得这些用户更容易与设备交互。附加或替代地,设备可以代表与所说的话语相关联的用户执行动作,诸如代表用户的简档发送电子邮件。
当本公开所述的实施方式在诸如服务器的设备和/或其他计算装置中实现时,能以可靠和技术上有效的方式形成所说的话语和用户之间的关联。
例如,根据一个实施方式,设备和/或其他计算装置可以确定与设备特别相关联的用户简档集,并且在设备处接收到所说的话语时,根据所确定的简档集将至少一个用户简档识别为与所说的话语相关联。该识别可以基于用户简档集中的用户简档的发音属性与所说的话语的属性的比较。
如本说明书中所解释的那样,可以以各种技术方式来实现与设备特别相关联的用户简档集的初始确定。与设备相关联的初始用户简档集的确定是指与如果尚未确定初始用户简档集相比,所说的话语与用户简档的发音属性的比较显著使计算量低得多。
本公开的实施方式具有这样的效果:由设备响应于接收所说的话语而执行的动作是适当的并且不容易出错。此外,以就使用处理和存储器组件而言有效的方式,实现所说的话语和各个用户之间的关联。这可以允许及时提供响应,即使实现本公开的设备和/或其他计算装置具有有限的处理能力。
参考图1,提供用于基于各种因素,诸如个人与设备的历史相互作用、个人的移动设备的邻近度以及账户注册,在包括多个个人的音频环境中,将名称的特定发音归因于具有链接账户的个人的机制。以这种方式,例如,充当例如语音助理、音频接口等的共享设备正确地发音用户名称。本文所述的实施方式解决了正确地识别特定人的名称的发音并且在某些情况下,基于音频队列,识别属于个人的特定账户或用户简档的复杂的技术问题。为此,在计算设备中实现通过特定设备,归因多个用户简档,并且然后将那些多个用户简档中的一个与所接收的音频信号相匹配的机制。在将用户简档与音频信号匹配之后,系统能够通过在用户简档内指定的或与用户相关联的适当发音,向用户提供基于音频的应答。因此,系统正确地响应并且接洽用户,而不会错误发音他们的名称。
用户简档可以归因为与共享设备相关的一种方式是基于先前使用该设备的所存储的用户简档的列表。这些用户简档可以通过记入到设备并且提交动作,直接使用该设备,或通过经由另一设备与设备交互来间接地使用该设备。可以将用户简档归因于与共享设备相关的另一种方式是基于设备的接近度。例如,可以检测到一个或多个附近的设备,并且然后可以将与那些附近的设备中的每一个相关联的用户简档与共享设备相关联。当共享设备需要在音频响应中引用用户时,共享设备可以确定很可能由与附近设备相关联的用户简档中的一个表示该用户。可以实现用于确定设备接近度的多种技术,包括但不限于Wi-Fi、蓝牙、次声频声音、接收的音频电平、GPS等,或其任意组合。
作为将用户简档归因为与共享设备相关的上述先前使用和接近度的替代或补充,也可以使用社交联系。以这种方式,可以识别在与共享设备的同一房间中没有第二设备并且尚未与共享设备交互的潜在用户。例如,可以从与已经识别的用户简档相关联的社交联系的集合生成这种潜在用户集。该社交联系可以基于用户交互、社交图等。此外,可以过滤社交联系的集合,以排除不在共享设备附近或不在其阈值距离内的人。
一旦识别了候选用户简档集,就可以将与每个简档相关联的发音属性的集合用作用于在个人发言时,识别个人的用户名称的发音属性的候选列表。例如,可以在由一个或多个发音属性表示的特定发音和具有用户名称的音频段之间进行比较。本公开的一个技术优点是通过确定候选名称或名称的候选发音属性的列表或待使用的系统的名称或语音识别组件,显著地提高音频解析的精度和速度。另一技术优点是通过从所有可用的用户简档确定特定的候选用户简档,例如,可以确定当用户陈述他的名称时,用户指的所有“JohnSmith(约翰·史密斯)”中的特定的“John Smith(约翰·史密斯)”。
图2描绘用于语音发音归属的示例系统200。系统200可以包括共享设备220,其可以是多个用户可以直接或间接地与其交互的计算设备。例如,共享设备220可以包括用于接收音频的麦克风230和用于输出音频的扬声器280。麦克风230可以从用户或另一设备接收例如语音输入210。共享设备220可以接收对应于所说的话语的音频数据作为语音输入210。共享设备220的语音识别组件可以分析对应于所说的话语的作为语音输入210的所接收的音频数据。
共享设备220可以访问用户简档数据库240。用户简档数据库240可以包括所有注册用户的列表。用户简档数据库240还可以存储与存储在用户简档数据库240中的每个用户相关联的信息。例如,每个用户可以具有与用户相关联的用户简档,其包括关于该用户的信息。可以包括在用户简档中的一条信息是与用户相关联的用户名称或其他单词或短语的发音。存储的用户名称的发音可以包括发音属性。系统可以基于发音属性设置表示发音的规范标识符,并且与用户相关联地存储规范标识符。
共享设备220可以包括或访问存储在存储介质中的候选用户简档列表250。候选用户简档列表250可以包括已经被识别为与共享设备220相关联的用户的列表。候选用户简档列表250可以包括如上所述为在用户简档数据库240中存储的所有用户简档信息。候选用户简档列表250还可以包括用户与共享设备220的先前交互相关的信息。如上所述,存储在候选用户简档列表250中的每个候选用户简档可以以多种方式被确定为与共享设备220相关联。例如,可以确定和存储用户简档是否已记入到共享设备220或与用户简档相关联的至少一个用户设备是否曾与共享设备220通信的记录。作为下文更详细描述的其他示例,可以确定与用户简档相关联的至少一个用户设备与共享设备的地理接近度,或者可以基于至少一个社交联系度量来确定社交联系。此外,可以使用这些机制的任意组合来将用于候选用户简档列表250的用户简档确定为与共享设备220相关联。
共享设备220可以包括或访问接近度检测器260。接近度检测器260可以以多种方式中的任何一种来确定用户或与用户相关联的设备的地理接近度。例如,接近度检测器260可以使用Wi-Fi信号或连接、蓝牙信号或连接或一些其它连接性信号或连接或其任意组合来确定用户或用户相关联的设备与共享设备220的地理接近度。作为另一示例,接近度检测器260可以使用GPS传感器或信号、一些其它定位传感器或信号来确定用户或与用户相关联的设备与共享设备220的地理接近度。作为另一示例,接近度检测器260可以使用次声频声音来例如通过广播或接收用于确定其他设备与共享设备220的接近度的次声频标记,确定用户或与用户相关联的设备与共享设备220的地理接近度。作为又一示例,接近度检测器260可以比较在附近设备处接收的音频信号的相对音频强度来确定用户或与用户相关联的设备与共享设备220的地理接近度。例如,指示用户的声音最大的、所接收的音频信号的强度为最高的设备或多个设备最可能与说出该话语的用户相关联,并且可以识别与该用户或设备相关联的用户简档。
共享设备220可以访问社交联系数据库270。社交联系数据库270可以包括一个或多个社交图、或先前的用户交互等。还可以计算亲密度得分并且存储在社交联系数据库270中,指示各个用户之间的关系的强度。如上所述,社交联系数据库270中的社交联系数据可以被用来将候选用户简档确定为与共享装置220相关联,即使这些用户不在共享装置220附近或先前未与共享装置220交互。例如,具有满足预定阈值的亲密度得分的所有用户可以被包括为与共享设备220相关联的候选用户简档列表250中的候选用户简档。
如上所述,在共享设备220在麦克风230处接收到对应于所说话语的音频数据作为语音输入210时,共享设备220可以通过将所接收的音频数据与由候选用户简档列表250确定的候选发音属性比较来分析所接收的音频数据。可以基于该比较,从候选发音属性识别特定的发音属性,并且可以从扬声器280,在音频输出290中提供使用特定发音属性的适当发音。扬声器280可以包括在共享设备220内或者可以与共享设备220相关联或连接。由此,共享设备220可以使用由所识别的特定发音属性指定的适当发音,通过音频输出290来响应语音输入210。
图3描绘用于语音发音归属过程300的示例流程图。语音发音归属过程300可以包括在310处,将候选用户简档确定为与共享设备相关联。候选用户简档与共享设备相关联的该确定可以包括确定多个用户简档的每一个与共享设备之间的关系,以及为每个用户简档,确定该关系是否指示用户简档与共享设备之间的关联。然后,对于具有指示与共享设备的关联的关系的每个用户简档,用户简档可以被识别为与共享设备相关联的候选用户简档中的一个。
确定多个用户简档中的每一个与共享设备之间的关系是否指示该用户简档和共享设备之间的关联的过程可以包括例如确定用户简档是否已经记入到共享设备或者与用户简档相关联的至少一个用户设备是否与共享设备通信。所确定的多个用户简档中的每一个与共享设备之间的关系可以包括例如与用户简档相关联的至少一个用户设备与共享设备的地理接近度。作为另一示例,所确定的多个用户简档中的每一个与共享设备之间的关系可以包括社交联系,其中社交联系基于至少一个社交联系度量。例如,如上所述,社交联系可以基于一个或多个社交图、用户之间的一个或多个交互、或者计算的用户之间的亲密度得分,或其任意组合。
参考图3,在320处,该过程可以包括从候选用户简档识别与被确定为与共享设备相关联的候选用户简档中的至少一个候选用户简档相关联的候选发音属性。例如,候选用户简档可以包括表示名称、短语或其他关键字的发音的一个或多个发音属性。候选用户简档可以包括表示与候选用户简档相关联的一个或多个发音属性的规范标识符。例如,可以基于与候选用户简档相关联的发音属性,将用户名称解析为规范形式,其可以是对该名称的发音的描述。因此,可以识别与候选用户简档中的至少一个候选用户简档相关联的候选规范标识符。
在330,可以在共享设备处接收所说的话语。所说的话语可以对应于用户的名称、特定关键字、特定短语或命令等。所说的话语可以例如在共享设备的麦克风处或与共享设备相关联的麦克风处被接收。可以在340处,基于对应于所说的话语的所接收的音频数据,确定所接收的发音属性。例如,可以调用语音识别过程,以基于对应于所说话语的所接收的音频数据来确定发音属性。
在350处,可以将所接收的发音属性与候选发音属性中的至少一个比较。例如,可以将所接收的发音属性与候选发音属性比较,以确定候选发音属性与所接收的发音属性之间是否存在可能的匹配。所接收的发音属性可以与多个候选发音属性中的每一个比较,并且可以对所接收的发音属性与多个候选发音属性中的每一个,确定匹配的可能性或概率。
在360处,可以基于所接收的发音属性与候选发音属性中的至少一个的比较的结果,从候选发音属性选择特定发音属性。例如,可以基于识别特定发音属性与所接收的发音属性之间的匹配,选择特定发音属性。例如,可以基于识别候选发音属性中的一个与所接收的发音属性之间的匹配的最可能或最高概率,选择特定发音属性。
可以在370处提供从候选发音属性中选择的特定发音属性,用于输出与所说的话语相关联的音频。例如,共享设备可以基于特定发音属性,生成对包括名称或单词的适当发音的所说话语的答复。因此,过程300可以包括提供对所说的话语的音频响应,该音频响应包括从候选发音属性选择的特定发音。
在一些实例中,所接收的音频数据可以被确定为与来自候选用户简档的多个用户简档相关联。当多个用户共享同一名称或类似名称时,这种情况可能会发生。在这些实例中,可以在通过询问用户有关或关于另一条标识信息,诸如姓氏、电话号码、电子邮件地址等,确定多个用户简档后,校正所选择的用户简档。仅当用户需要通过特定操作,例如记录该用户特定的内容来归因时,才进行此校正。
在其他实例中,如果确定了多个用户简档,则当用于所表示的用户的确切用户简档不需要立即执行特定动作时,可以使用相同的发音来适当地称呼用户,即,无论用户实际上是多个用户中的哪一用户,因为在多个用户之间共享发音。在这些实例中,系统可以存储引用发音属性的状态,例如,该名称的发音版本,以及被确定为与所接收的音频数据相关联的多个候选用户简档。然后,系统可以引用那一存储状态以与用户交互。当系统面临要求归属到多个用户简档中的特定用户简档的事件或动作时,该系统可以继续如上所述校正,例如,从用户请求识别信息以确定用于说出该话语的用户的特定用户简档。
根据该过程,只要识别了正确的发音,即使它与多个用户简档相关联,用户也可以通过他们的名称作为实体被引用,但用户的动作可能不被归因于用户的账户。在这些实例中,该系统具有不要求特定用户简档、用户所参与的动作集,即仅发音的名称的状态,以及要求特定用户简档的第二动作集,即,用户特定的状态。当系统在仅发音的名称的状态中操作并且需要参与要求特定用户简档的动作的用户特定的状态时,则系统可以处理请求用户提供用户特定的信息以指定哪个账户是用户的账户的事件。
以这种方式,用户可以更有组织地与共享设备交互,延迟从用户请求或获得唯一可识别信息的需要,以便继续对用户的音频回复。因此,共享设备不仅可以区分哪些用户存在或与其交互,而且还可以使用正确的发音来回复和接洽用户。
图4描绘可以与本文所述的技术一起使用的通用计算机设备400和通用移动计算机设备450的示例。计算设备400旨在于代表各种形式的数字计算机,诸如膝上型计算机、桌面型计算机、工作站、个人数字助理、服务器、刀片服务器、主机和其他适当计算机。计算设备450旨在于代表各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话和其他相似计算设备。这里所示部件、它们的连接和关系以及它们的功能仅用来举例,并且不打算限制在该文档中所述和/或所要求的实施方式。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口408以及连接到低速总线414和存储设备406的低速接口412。部件402、404、406、408、410和412中的每个部件使用各种总线来互连并且可以装配于共同母板上或者以如适合的其他方式来装配。处理器402可以处理用于在计算设备400内执行的指令,包括存储于存储器404中或者存储设备406上用于在外部输入/输出设备,诸如耦合到高速接口408的显示器416上显示用于GUI的图形信息的指令。在其他实施方式中,可以如适合的那样与多个存储器和多个存储器类型一起使用多个处理器和/或多个总线。也可以连接多个计算设备400(例如作为服务器组或者刀片服务器群或者多处理器系统)而每个设备提供所需操作的部分。
存储器404存储计算设备400内的信息。在一个实施方式中,存储器404是一个或者多个易失性存储器单元。在另一实施方式中,存储器404是一个或者多个非易失性存储器单元。存储器404也可以是另一形式的计算机可读介质,诸如磁盘或者光盘。
存储设备406能够为计算设备400提供大容量存储。在一个实施方式中,存储设备406可以是或者包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或者磁带设备、闪存或者其他相似固态存储器设备或者设备阵列,包括在存储区域网络或者其他配置中的设备。计算机程序产品可以有形实施于信息载体中。计算机程序产品也可以包含在被执行时执行一种或者多种方法诸如上文描述的方法的指令。信息载体是计算机或者机器可读介质,诸如存储器404、存储设备406或在处理器402上的存储器。
高速控制器408管理用于计算设备400的带宽密集操作,而低速控制器412管理更低带宽密集操作。这样的功能分配仅为举例。在一个实施方式中,高速控制器408耦合到存储器404、显示器416(例如通过图形处理器或者加速器)或者耦合到可以接受各种扩展卡(未示出)的高速扩展端口410。在该实施方式中,低速控制器412耦合到存储设备406和低速扩展端口414。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口可以耦合到一个或者多个输入/输出设备,诸如键盘、指示设备、扫描仪或者例如通过网络适配器耦合到联网设备,诸如交换机或者路由器。
如图中所示可以用多个不同形式实施计算设备400。例如,它可以实施为标准服务器420或者多次实施于一组这样的服务器中。它也可以实施为架式服务器系统424的部分。此外,它还可以实施于个人计算机,诸如膝上型计算机422中。可替代的,来自计算设备400的部件可以与移动设备(未示出),诸如设备450中的其他部件组合。这样的设备中的每个设备可以包含计算设备400、450中的一个或者多个,并且整个系统可以由相互通信的多个计算设备400、450组成。
计算设备450包括处理器452、存储器464、输入/输出设备,诸如显示器454、通信接口466和收发器468以及其他部件。设备450也可以具有用于提供附加存储的存储设备,诸如微驱动或者其他设备。使用各种总线来互连部件450、452、464、454、466和468中的每个部件,并且部件中的若干部件可以装配于共同母板上或者以如适当的其他方式来装配。
处理器452可以执行计算设备450内的指令,包括存储于存储器464中的指令。处理器可以实施为芯片的芯片组,这些芯片包括单独以及多个模拟和数字处理器。例如,处理器可以提供设备450的其他部件的协调,诸如控制用户接口、设备450运行的应用和设备450的无线通信。
处理器452可以通过控制接口458和耦合到显示器454的显示器接口456来与用户通信。显示器454例如可以是TFT LCD(薄膜晶体管液晶显示器)或者OLED(有机发光二极管)显示器或者其他适当显示器技术。显示器接口456可以包括用于驱动显示器454以向用户呈现图形和其他信息的适当电路。控制接口458可以从用户接收命令并且转换他们用于向处理器452提交。此外,外部接口462可以提供与处理器452的通信以便实现设备450与其他设备的近区域通信。外部接口462例如可以在一些实施方式中提供有线通信或者在其他实施方式中提供无线通信,并且也可以使用多个接口。
存储器464存储计算设备450内的信息。存储器464可以实施为一个或者多个计算机可读介质、一个或者多个易失性存储器单元或者一个或者多个非易失性存储器单元中的一项或者多项。扩展存储器454也可以被提供并且通过例如可以包括SIMM(单输入线存储器模块)卡接口的扩展接口452连接到设备450。这样的扩展存储器454可以提供用于设备450的额外存储空间或者也可以存储用于设备450的应用或者其他信息。具体而言,扩展存储器454可以包括用于实现或者补充上文描述的过程的指令并且也可以包括安全信息。因此,例如可以提供扩展存储器454作为用于设备450的安全模块并且可以用允许安全使用设备450的指令对扩展存储器454编程。此外,还可以经由SIMM卡将安全应用与附加信息一起提供,诸如以不可入侵的方式,将识别信息放在SIMM卡上。
如下文讨论的那样,存储器例如可以包括闪存和/或NVRAM存储器。在一个实施方式中,计算机程序产品有形实施于信息载体中。计算机程序产品包含在被执行时执行一种或者多种方法,诸如上文描述的方法的指令。信息载体是例如,可以在收发器468或外部接口462上接收的计算机或者机器可读介质,诸如存储器464、扩展存储器454、处理器452上的存储器或传播信号。
设备450可以通过通信接口466无线通信,该通信接口可以在必要时包括数字信号处理电路。通信接口466可以在各种模式或者协议,诸如GSM语音呼叫、SMS、EMS或者MMS消息接发、CDMA、TDMA、PDC、WCDMA、CDMA2000或者GPS以及其他模式或者通信之下提供通信。这样的通信可以例如通过射频收发器468出现。此外,短程通信也可以诸如使用蓝牙、WiFi或者其他这样的收发器(未示出)来出现。此外,GPS(全球定位系统)接收器模块也可以向设备450提供附加的与导航和位置有关的无线数据,该数据可以如适当的那样由在设备450上运行的应用使用。
设备450也可以使用音频编码解码器460来可听通信,该编码解码器可以从用户接收口头信息并且将它转换成可用数字信息。音频编码解码器460可以诸如通过例如设备450的听筒中的扬声器类似地生成用于用户的可听声音。这样的声音可以包括来自语音电话呼叫的声音、可以包括记录的声音(例如语音消息、音乐文件等)并且也可以包括在设备450上操作的应用所生成的声音。
如图中所示,可以用多种不同形式实施计算设备450。例如,它可以实施为蜂窝电话480。它也可以实施为智能电话482、个人数字助理或者其他相似移动设备的部分。
已经描述了许多实施方式。然而,应当理解的是在不脱离本公开的精神和范围的情况下可以进行各种修改。例如,可以使用上文所示的各种形式的流程,重新排序、添加、或移除步骤。
可以在数字电子电路中或者在包括本说明书中公开的结构及其结构等效物的计算机软件、固件或者硬件中或者在它们中的一项或者多项的组合中实现本说明书中描述的本发明的实施方式和所有功能操作。本发明的实施方式可以被实现为一个或者多个计算机程序产品、即在计算机可读介质上编码的用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的物质组成或者它们中的一项或者多项的组合。术语“数据处理装置”涵盖了用于处理数据的所有装置、设备和机器、例如包括可编程处理器、计算机或者多个处理器或者计算机。装置除了包括硬件之外还可以包括为讨论的计算机程序创建执行环境的代码、例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一项或者多项的组合的代码。传播信号是人为生成的信号,例如由机器生成的电、光学或者电磁信号,该信号被生成以用于对信息进行编码以用于向适当接收器装置传送。
计算机程序(也称作程序、软件、软件应用、脚本或代码)可以是以包括编译或解释型语言的任何形式的编程语言来编写的,并且它可以是以包括作为独立程序或作为模块、组件、子例程、或适于在计算环境中使用的其它单元的任何形式部署的。计算机程序不是必需与文件系统中的文件相对应。可将程序存储在用于保持其它程序或数据的文件(例如存储在标记语言文档中的一个或多个脚本)的一部分、专用于讨论中的程序的单个文件、或者多个协同文件(例如存储一个或多个模块、子程序、或者部分代码的文件)之中。可将计算机程序部署为在一个计算机上或者在位于一个地点或跨多个地点分布且通过通信网络互连的多个计算机上执行。
这些计算机程序(也称为程序、软件、软件应用或者代码)包括用于可编程处理器的机器指令并且可以用高级过程和/或面向对象编程语言和/或用汇编/机器语言来实施。如本文所使用的,术语“机器可读介质”、“计算机可读介质”指代用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指代用来向可编程处理器提供机器指令和/或数据的任何信号。
在本说明书中所述的过程和逻辑流程可以是由执行一个或多个计算机程序的一个或多个可编程处理器来执行的以通过对输入数据进行操作并且产生输出来执行功能。所述过程和逻辑流程还可由专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行的,并且装置还可以是作为所述专用逻辑电路实现的。
适于执行计算机程序的处理器包括例如通用和专用微处理器这样两者以及任何类型的数字计算机中的任何一个或多个处理器。通常,处理器将接收来自只读存储器或随机存取存储器或这两者的指令和数据。计算机的主要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个海量存储设备,例如磁盘、磁光盘、或光盘或者可操作地与所述一个或多个海量存储设备耦合以接收来自所述一个或多个海量存储设备的数据或将数据传送到所述一个或多个海量存储设备或者这两者。然而,计算机不是必须具有这样的设备。此外,可以将计算机嵌入到另一设备中,所述另一设备例如是平板电脑、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器,仅举几例。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质、以及存储器设备,其包括例如:半导体存储器设备(例如EPROM、EEPROM、以及闪速存储器设备);磁盘(例如内部硬盘或可移动盘);磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或合并且入专用逻辑电路中。
为了提供与用户的交互,本发明的实施方式能被实现在计算机上,该计算机具有用于向用户显示信息的显示器设备(例如CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以用来向计算机提供输入的键盘和指示设备(例如鼠标或者跟踪球)。其他种类的设备也可以用来提供与用户的交互;例如,向用户提供的反馈可以是任何形式的感官反馈(例如视觉反馈、听觉反馈或者触觉反馈);并且可以用包括声音、话语或者触觉输入的任何形式接收来自用户的输入。
本发明的实施方式能被实现在计算系统中,该计算系统包括后端部件(例如作为数据服务器)或者包括中间件部件(例如应用服务器)或者包括前端部件(例如具有图形用户接口或者网上浏览器(用户可以通过该图形用户接口或者web浏览器来与本发明的实施方式交互)的客户端计算机)或者这样的后端、中间件或者前端部件的任意组合。系统的部件可以由任何数字数据通信形式或者介质(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)以及广域网(“WAN”),例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助计算机程序来出现,这些计算机程序在相应计算机上运行并且相互具有客户端-服务器关系。
虽然本公开包含许多细节,但是这些细节不应当被解释为对本发明或可以要求保护的内容的范围的限制,而应当被解释为专用于对本发明的特定实施方式的特征的描述。在本说明书中在分离的实施方式的场境中所述的某些特征还可以是在单个实施方式中组合地实现的。相反地,在单个实施方式的场境中所述的各种特征还可分离地在多个实施方式中实现或者在任何适当的子组合中实现。此外,尽管可能在上面将特征描述为在某些组合中起作用,并且甚至最初要求保护的就是如此,但是在一些情况下可将来自所要求保护的组合的一个或多个特征从该组合中删去,并且所要求保护的组合可以针对子组合或者子组合的变型。
类似地,虽然在附图中以特定顺序图示操作,但是不应当将这理解为需要以所示的特定顺序或者以连续顺序执行这样的操作或者需要执行所有图示的操作以实现期望结果。在某些情况下,多任务以及并且行处理可能是有利的。此外,不应当将在上述实施方式中的各种系统组件的分离理解为在所有实施方式中均需要这样的分离,而应当理解的是通常可将所述程序组件和系统一起集成在单个软件产品中或者封装成多个软件产品。
在提到HTML文件的每个实例中,可以用其它文件类型或格式来代替。例如,HTML文件可以由XML、JSON、纯文本、或者其它类型的文件替代。此外,在提到表或散列表的情况下,可以使用其它数据结构(诸如电子表格、关系数据库或结构化文件)。
本文所述的系统和技术的各种实施方式可以实现于数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中。这些各种实施方式可以包括可编程系统上可执行和/或可解译的一个或者多个计算机程序中的实施方式,该系统包括至少一个可编程处理器,可以是专用或者通用的,该处理器被耦合成从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并且向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。
因此,已描述了本公开的特定实施方式。其他实施方式在所附权利要求的范围内。例如,可以按照不同的顺序来执行权利要求中记载的动作并且仍然达到期望的结果。描述了多个实施方式。然而,将理解到在不背离本公开的精神和范围的情况下,可以做出各种改进。例如,可以使用上述流程的各种形式,重新排序、增加或移除步骤。因此,其他实施方式也在下述权利要求的范围内。
Claims (20)
1.一种用于自动语音发音归属的计算机实现的方法,包括:
确定与共享数字助理设备相关联的候选用户简档;
确定和与所述共享数字助理设备相关联的所述候选用户简档当中的特定候选用户简档相关联的移动计算设备被指示为接近所述共享数字助理设备;
从所述候选用户简档识别和所述特定候选用户简档相关联的候选发音属性;
在所述共享数字助理设备处接收所说的话语;
基于对应于所说的话语的所接收的音频数据,确定所接收的发音属性;
将所接收的发音属性与所述候选发音属性中的至少一个候选发音属性比较;
基于所述比较的结果,从所述候选发音属性中选择特定发音属性;以及
提供所述特定发音属性用于输出与所说的话语相关联的音频。
2.如权利要求1所述的计算机实现的方法,其中,确定与共享数字助理设备相关联的候选用户简档包括:
确定多个用户简档中的每一个与所述共享数字助理设备之间的关系;
对每一用户简档,确定所述关系是否指示所述用户简档与所述共享数字助理设备之间的关联;以及
对具有指示与所述共享数字助理设备的关联的关系的每一用户简档,将所述用户简档识别为与所述共享数字助理设备相关联的所述候选用户简档中的一个。
3.如权利要求2所述的计算机实现的方法,其中,对所述多个用户简档中的每一个,所述关系包括所述用户简档是否已经记入到所述共享数字助理设备或者与所述用户简档相关联的至少一个用户设备是否曾与所述共享数字助理设备通信的记录。
4.如权利要求2所述的计算机实现的方法,其中,对所述多个用户简档中的每一个,所述关系包括与所述用户简档相关联的至少一个用户设备与所述共享数字助理设备的地理接近度。
5.如权利要求2所述的计算机实现的方法,其中,对所述多个用户简档中的每一个,所述关系包括社交联系,所述社交联系基于至少一个社交联系度量。
6.如权利要求1所述的计算机实现的方法,其中,所述候选用户简档中的每一用户简档包括与规范标识符相关联的一个或多个发音属性,所述规范标识符表示特定发音。
7.如权利要求1所述的计算机实现的方法,进一步包括:
提供对所说的话语的音频响应,所述音频响应包括从所述候选发音属性中选择的所述特定发音。
8.一种用于自动语音发音归属的系统,包括一个或多个计算机和一个或多个存储设备,所述存储设备存储指令,所述指令能够操作以在由所述一个或多个计算机执行时使所述一个或多个计算机执行操作,所述操作包括:
确定与共享数字助理设备相关联的候选用户简档;
确定和与所述共享数字助理设备相关联的所述候选用户简档当中的特定候选用户简档相关联的移动计算设备被指示为接近所述共享数字助理设备;
从所述候选用户简档识别和所述特定候选用户简档相关联的候选发音属性;
在所述共享数字助理设备处接收所说的话语;
基于对应于所说的话语的所接收的音频数据,确定所接收的发音属性;
将所接收的发音属性与所述候选发音属性中的至少一个候选发音属性比较;
基于所述比较的结果,从所述候选发音属性中选择特定发音属性;以及
提供所述特定发音属性用于输出与所说的话语相关联的音频。
9.如权利要求8所述的系统,其中,确定与共享数字助理设备相关联的候选用户简档包括:
确定多个用户简档中的每一个与所述共享数字助理设备之间的关系;
对每一用户简档,确定所述关系是否指示所述用户简档与所述共享数字助理设备之间的关联;以及
对具有指示与所述共享数字助理设备的关联的关系的每一用户简档,将所述用户简档识别为与所述共享数字助理设备相关联的所述候选用户简档中的一个。
10.如权利要求9所述的系统,其中,对所述多个用户简档中的每一个,所述关系包括所述用户简档是否已经记入到所述共享数字助理设备或者与所述用户简档相关联的至少一个用户设备是否曾与所述共享数字助理设备通信的记录。
11.如权利要求9所述的系统,其中,对所述多个用户简档中的每一个,所述关系包括与所述用户简档相关联的至少一个用户设备与所述共享数字助理设备的地理接近度。
12.如权利要求9所述的系统,其中,对所述多个用户简档中的每一个,所述关系包括社交联系,所述社交联系基于至少一个社交联系度量。
13.如权利要求8所述的系统,其中,所述候选用户简档中的每一用户简档包括与规范标识符相关联的一个或多个发音属性,所述规范标识符表示特定发音。
14.如权利要求8所述的系统,进一步包括:
提供对所说的话语的音频响应,所述音频响应包括从所述候选发音属性中选择的所述特定发音。
15.一种计算机可读存储设备,其存储能够由一个或多个计算机执行的指令,所述指令在这样的执行时使得所述一个或多个计算机执行操作,所述操作包括:
确定与共享数字助理设备相关联的候选用户简档;
确定和与所述共享数字助理设备相关联的所述候选用户简档当中的特定候选用户简档相关联的移动计算设备被指示为接近所述共享数字助理设备;
从所述候选用户简档识别和所述特定候选用户简档相关联的候选发音属性;
在所述共享数字助理设备处接收所说的话语;
基于对应于所说的话语的所接收的音频数据,确定所接收的发音属性;
将所接收的发音属性与所述候选发音属性中的至少一个候选发音属性比较;
基于所述比较的结果,从所述候选发音属性中选择特定发音属性;以及
提供所述特定发音属性用于输出与所说的话语相关联的音频。
16.如权利要求15所述的计算机可读存储设备,其中,确定与共享数字助理设备相关联的候选用户简档包括:
确定多个用户简档中的每一个与所述共享数字助理设备之间的关系;
对每一用户简档,确定所述关系是否指示所述用户简档与所述共享数字助理设备之间的关联;以及
对具有指示与所述共享数字助理设备的关联的关系的每一用户简档,将所述用户简档识别为与所述共享数字助理设备相关联的所述候选用户简档中的一个。
17.如权利要求16所述的计算机可读存储设备,其中,对所述多个用户简档中的每一个,所述关系包括所述用户简档是否已经记入到所述共享数字助理设备或者与所述用户简档相关联的至少一个用户设备是否曾与所述共享数字助理设备通信的记录。
18.如权利要求16所述的计算机可读存储设备,其中,对所述多个用户简档中的每一个,所述关系包括与所述用户简档相关联的至少一个用户设备与所述共享数字助理设备的地理接近度。
19.如权利要求16所述的计算机可读存储设备,其中,对所述多个用户简档中的每一个,所述关系包括社交联系,所述社交联系基于至少一个社交联系度量。
20.如权利要求15所述的计算机可读存储设备,其中,所述候选用户简档中的每一用户简档包括与规范标识符相关联的一个或多个发音属性,所述规范标识符表示特定发音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910505084.7A CN110349591B (zh) | 2016-12-29 | 2017-09-30 | 自动语音发音归属 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/394,104 US10013971B1 (en) | 2016-12-29 | 2016-12-29 | Automated speech pronunciation attribution |
US15/394,104 | 2016-12-29 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910505084.7A Division CN110349591B (zh) | 2016-12-29 | 2017-09-30 | 自动语音发音归属 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108257608A CN108257608A (zh) | 2018-07-06 |
CN108257608B true CN108257608B (zh) | 2019-06-28 |
Family
ID=59485451
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710915606.1A Active CN108257608B (zh) | 2016-12-29 | 2017-09-30 | 自动语音发音归属 |
CN201910505084.7A Active CN110349591B (zh) | 2016-12-29 | 2017-09-30 | 自动语音发音归属 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910505084.7A Active CN110349591B (zh) | 2016-12-29 | 2017-09-30 | 自动语音发音归属 |
Country Status (8)
Country | Link |
---|---|
US (3) | US10013971B1 (zh) |
EP (1) | EP3485486B1 (zh) |
JP (2) | JP6821814B2 (zh) |
KR (2) | KR102493292B1 (zh) |
CN (2) | CN108257608B (zh) |
DE (2) | DE102017121913A1 (zh) |
GB (1) | GB2558353A (zh) |
WO (1) | WO2018125289A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230138820A1 (en) * | 2021-10-28 | 2023-05-04 | Microsoft Technology Licensing, Llc | Real-time name mispronunciation detection |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10013971B1 (en) * | 2016-12-29 | 2018-07-03 | Google Llc | Automated speech pronunciation attribution |
US11632345B1 (en) * | 2017-03-31 | 2023-04-18 | Amazon Technologies, Inc. | Message management for communal account |
US20190073994A1 (en) * | 2017-09-05 | 2019-03-07 | Microsoft Technology Licensing, Llc | Self-correcting computer based name entity pronunciations for speech recognition and synthesis |
US10930274B2 (en) | 2018-11-30 | 2021-02-23 | International Business Machines Corporation | Personalized pronunciation hints based on user speech |
WO2020213767A1 (ko) * | 2019-04-19 | 2020-10-22 | 엘지전자 주식회사 | 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체 |
US11263400B2 (en) * | 2019-07-05 | 2022-03-01 | Google Llc | Identifying entity attribute relations |
KR20210089295A (ko) * | 2020-01-07 | 2021-07-16 | 엘지전자 주식회사 | 인공지능 기반의 정보 처리 방법 |
CN111554300B (zh) * | 2020-06-30 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、存储介质及设备 |
US11615795B2 (en) | 2020-08-03 | 2023-03-28 | HCL America Inc. | Method and system for providing secured access to services rendered by a digital voice assistant |
US12028176B2 (en) * | 2021-06-25 | 2024-07-02 | Microsoft Technology Licensing, Llc | Machine-learning-model based name pronunciation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266600A (zh) * | 2008-05-07 | 2008-09-17 | 陈光火 | 多媒体多语言互动同步翻译方法 |
CN101441869A (zh) * | 2007-11-21 | 2009-05-27 | 联想(北京)有限公司 | 语音识别终端用户身份的方法及终端 |
CN103442290A (zh) * | 2013-08-15 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 基于电视终端用户及语音的信息提供方法及系统 |
Family Cites Families (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5029200A (en) | 1989-05-02 | 1991-07-02 | At&T Bell Laboratories | Voice message system using synthetic speech |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
TW274135B (zh) | 1994-09-14 | 1996-04-11 | Hitachi Seisakusyo Kk | |
WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US7283964B1 (en) | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US8065155B1 (en) | 1999-06-10 | 2011-11-22 | Gazdzinski Robert F | Adaptive advertising apparatus and methods |
JP3542026B2 (ja) | 2000-05-02 | 2004-07-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 |
US6738738B2 (en) | 2000-12-23 | 2004-05-18 | Tellme Networks, Inc. | Automated transformation from American English to British English |
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
US7043431B2 (en) | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
US6985865B1 (en) | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7027832B2 (en) * | 2001-11-28 | 2006-04-11 | Qualcomm Incorporated | Providing custom audio profile in wireless device |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7593849B2 (en) * | 2003-01-28 | 2009-09-22 | Avaya, Inc. | Normalization of speech accent |
US8577681B2 (en) | 2003-09-11 | 2013-11-05 | Nuance Communications, Inc. | Pronunciation discovery for spoken words |
US7266495B1 (en) | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
ATE426526T1 (de) * | 2003-10-21 | 2009-04-15 | Johnson Controls Tech Co | System und verfahren zur auswahl eines benutzersprachprofils fur eine vorrichtung in einem fahrzeug |
US7299181B2 (en) | 2004-06-30 | 2007-11-20 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
US8255223B2 (en) | 2004-12-03 | 2012-08-28 | Microsoft Corporation | User authentication by combining speaker verification and reverse turing test |
US8315484B2 (en) | 2006-02-17 | 2012-11-20 | Lumex As | Method and system for verification of uncertainly recognized words in an OCR system |
US8015014B2 (en) | 2006-06-16 | 2011-09-06 | Storz Endoskop Produktions Gmbh | Speech recognition system with user profiles management component |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
WO2008069139A1 (ja) | 2006-11-30 | 2008-06-12 | National Institute Of Advanced Industrial Science And Technology | 音声認識システム及び音声認識システム用プログラム |
US20080153465A1 (en) | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8032383B1 (en) * | 2007-05-04 | 2011-10-04 | Foneweb, Inc. | Speech controlled services and devices using internet |
US8510103B2 (en) | 2009-10-15 | 2013-08-13 | Paul Angott | System and method for voice recognition |
US8827712B2 (en) * | 2010-04-07 | 2014-09-09 | Max Value Solutions Intl., LLC | Method and system for name pronunciation guide services |
CN102682763B (zh) | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US20120253817A1 (en) | 2011-04-04 | 2012-10-04 | Mitel Networks Corporation | Mobile speech attendant access |
US9009041B2 (en) | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US20130110511A1 (en) | 2011-10-31 | 2013-05-02 | Telcordia Technologies, Inc. | System, Method and Program for Customized Voice Communication |
US8719202B1 (en) * | 2011-11-22 | 2014-05-06 | Intellectual Ventures Fund 79 Llc | Methods, devices, and mediums associated with monitoring and managing exercise fitness |
CN104854537B (zh) * | 2013-01-04 | 2018-08-10 | 英特尔公司 | 与计算设备的多距离、多模态自然用户交互 |
US9460088B1 (en) | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
US9298811B2 (en) * | 2013-07-15 | 2016-03-29 | International Business Machines Corporation | Automated confirmation and disambiguation modules in voice applications |
US10885918B2 (en) | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
US9489943B2 (en) | 2013-10-16 | 2016-11-08 | Interactive Intelligence Group, Inc. | System and method for learning alternate pronunciations for speech recognition |
US9263032B2 (en) | 2013-10-24 | 2016-02-16 | Honeywell International Inc. | Voice-responsive building management system |
US9589562B2 (en) | 2014-02-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Pronunciation learning through correction logs |
US9711141B2 (en) * | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10102852B2 (en) | 2015-04-14 | 2018-10-16 | Google Llc | Personalized speech synthesis for acknowledging voice actions |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10832684B2 (en) | 2016-08-31 | 2020-11-10 | Microsoft Technology Licensing, Llc | Personalization of experiences with digital assistants in communal settings through voice and query processing |
US10013971B1 (en) * | 2016-12-29 | 2018-07-03 | Google Llc | Automated speech pronunciation attribution |
-
2016
- 2016-12-29 US US15/394,104 patent/US10013971B1/en active Active
-
2017
- 2017-07-19 WO PCT/US2017/042788 patent/WO2018125289A1/en unknown
- 2017-07-19 JP JP2019535755A patent/JP6821814B2/ja active Active
- 2017-07-19 KR KR1020217021018A patent/KR102493292B1/ko active IP Right Grant
- 2017-07-19 EP EP17745942.7A patent/EP3485486B1/en active Active
- 2017-07-19 KR KR1020197021660A patent/KR102276282B1/ko active IP Right Grant
- 2017-09-21 DE DE102017121913.7A patent/DE102017121913A1/de active Pending
- 2017-09-21 DE DE202017105741.0U patent/DE202017105741U1/de active Active
- 2017-09-29 GB GB1715809.8A patent/GB2558353A/en not_active Withdrawn
- 2017-09-30 CN CN201710915606.1A patent/CN108257608B/zh active Active
- 2017-09-30 CN CN201910505084.7A patent/CN110349591B/zh active Active
-
2018
- 2018-06-01 US US15/995,380 patent/US10559296B2/en active Active
-
2019
- 2019-12-20 US US16/722,942 patent/US11081099B2/en active Active
-
2021
- 2021-01-05 JP JP2021000457A patent/JP7163424B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441869A (zh) * | 2007-11-21 | 2009-05-27 | 联想(北京)有限公司 | 语音识别终端用户身份的方法及终端 |
CN101266600A (zh) * | 2008-05-07 | 2008-09-17 | 陈光火 | 多媒体多语言互动同步翻译方法 |
CN103442290A (zh) * | 2013-08-15 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 基于电视终端用户及语音的信息提供方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230138820A1 (en) * | 2021-10-28 | 2023-05-04 | Microsoft Technology Licensing, Llc | Real-time name mispronunciation detection |
Also Published As
Publication number | Publication date |
---|---|
DE202017105741U1 (de) | 2018-04-03 |
DE102017121913A1 (de) | 2018-07-05 |
US20200243063A1 (en) | 2020-07-30 |
JP2021060620A (ja) | 2021-04-15 |
KR102493292B1 (ko) | 2023-01-30 |
EP3485486B1 (en) | 2019-11-13 |
GB2558353A (en) | 2018-07-11 |
KR20190100309A (ko) | 2019-08-28 |
US20180286382A1 (en) | 2018-10-04 |
EP3485486A1 (en) | 2019-05-22 |
JP2020503561A (ja) | 2020-01-30 |
GB201715809D0 (en) | 2017-11-15 |
WO2018125289A1 (en) | 2018-07-05 |
US10559296B2 (en) | 2020-02-11 |
JP6821814B2 (ja) | 2021-01-27 |
CN108257608A (zh) | 2018-07-06 |
KR20210088743A (ko) | 2021-07-14 |
US20180190262A1 (en) | 2018-07-05 |
US11081099B2 (en) | 2021-08-03 |
CN110349591B (zh) | 2021-02-26 |
KR102276282B1 (ko) | 2021-07-12 |
CN110349591A (zh) | 2019-10-18 |
US10013971B1 (en) | 2018-07-03 |
JP7163424B2 (ja) | 2022-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108257608B (zh) | 自动语音发音归属 | |
CN111860753B (zh) | 用于训练模型的基于有向无环图的框架 | |
CN106373564B (zh) | 个性化热词检测模型 | |
CN112270925B (zh) | 用于创建可定制对话系统引擎的平台 | |
CN102016502B (zh) | 基于场境的语音识别语法选择方法及系统 | |
US9031579B2 (en) | Method and system for providing location services | |
KR20210018532A (ko) | 스택 데이터 구조 백그라운드의 디지털 어시스턴트 프로세싱 | |
CN106164921A (zh) | 利用协同定位信息的发言人验证 | |
US20150120772A1 (en) | Method and system for information push | |
US10115391B2 (en) | Method and apparatus for providing voice feedback information to user in call | |
US20140045596A1 (en) | Methods and systems for determining the location of online gaming clients | |
CN107657007A (zh) | 信息推送方法、装置、终端、可读存储介质及系统 | |
CN110325987A (zh) | 语境语音驱动深度书签 | |
US20220053335A1 (en) | Method for detecting an abnormal device, device and storage medium | |
CN106202440B (zh) | 数据处理方法、装置及设备 | |
US12106084B2 (en) | Debugging applications for delivery via an application delivery server | |
KR102280439B1 (ko) | 질의의도를 분석하기 위한 장치 및 방법 | |
US11976931B2 (en) | Method and apparatus for guiding voice-packet recording function, device and computer storage medium | |
US11385990B2 (en) | Debugging applications for delivery via an application delivery server | |
WO2015199847A1 (en) | Stream computing event models | |
CN114281964A (zh) | 对话技能服务的确定方法、装置、电子设备及存储介质 | |
KR100631033B1 (ko) | 네트워크를 통한 지역 정보 제공 시스템 및 그 방법 | |
KR101542061B1 (ko) | 관심 지점 정보 통합 처리를 위한 방법, 이를 위한 장치 및 시스템 | |
CN108446926B (zh) | 数据处理方法和服务器 | |
CN118260394A (zh) | 一种回复信息生成方法、装置、终端设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |