CN107015781B - 语音识别方法和系统 - Google Patents
语音识别方法和系统 Download PDFInfo
- Publication number
- CN107015781B CN107015781B CN201710195971.XA CN201710195971A CN107015781B CN 107015781 B CN107015781 B CN 107015781B CN 201710195971 A CN201710195971 A CN 201710195971A CN 107015781 B CN107015781 B CN 107015781B
- Authority
- CN
- China
- Prior art keywords
- user
- additional information
- voice
- personalized
- user voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000004044 response Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 238000009434 installation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开提供了一种语音识别方法和语音识别方法。所述语音识别方法可以包括:接收用户语音;响应于接收到用户语音,获取与发出所述用户语音的用户相关的附加信息;以及根据接收到的用户语音和所述附加信息,提供个性化服务。
Description
技术领域
本公开涉及电子设备,具体地,涉及一种语音识别方法和系统。
背景技术
随着计算机技术的发展,人工智能系统的应用越来越广泛。能够执行人机对话的智能系统已被广泛应用于智能家居、网络教育和办公领域。然而,目前的人机对话智能系统往往仅能够实现根据用户需求提供服务,而无法实现针对不同用户提供个性化的服务的效果。
因此,需要一种能够满足根据不同用户提供个性化服务的需求的智能交互系统和智能交互方法。
发明内容
本公开的一个方面提供了一种语音识别方法,包括:接收用户语音;响应于接收到用户语音,获取与发出所述用户语音的用户相关的附加信息;以及根据接收到的用户语音和所述附加信息,提供个性化服务。
可选地,所述附加信息包括:用户的位置和用户的类别中的至少一个。
可选地,所述获取所述附加信息包括:通过分析接收到的用户语音,来获取所述附加信息。
可选地,获取所述附加信息包括:通过传感器采集所述附加信息。
可选地,所述提供个性化服务包括:提供不同权限级别的服务。
可选地,所述提供个性化服务包括:以不同方式提供相同的服务。
本公开的另一方面提供了一种语音识别系统,包括:一个或更多个音频设备,配置为接收用户语音;中央控制器,与所述音频设备通信连接,所述中央控制器配置为:响应于接收到来自所述一个或更多个音频设备的用户语音,获取与发出所述用户语音的用户相关的附加信息;以及根据接收到的用户语音和所述附加信息,提供个性化服务。
可选地,所述附加信息包括:用户的位置和用户的类别中的至少一个。
可选地,所述中央控制器进一步配置为通过分析接收到的用户语音,来获取所述附加信息。
可选地,所述语音识别系统还包括:传感器,其中所述中央控制器配置为控制经由传感器采集所述附加信息。
可选地,所述中央控制器进一步配置为:响应于所述用户的位置和/或用户的类别不同,提供不同权限级别的服务。
可选地,所述中央控制器进一步配置为:响应于所述用户的位置和/或用户的类别不同,以不同方式提供相同的服务。
可选地,所述一个或更多个音频设备还配置为发出声音;且所述中央控制器进一步配置为:响应于所述用户的位置和/或用户的类别不同,控制所述一个或更多个音频设备以不同模式发出针对所述用户语音的声音反馈。
本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开的实施例的语音识别系统的框图;
图2(a)、2(b)和2(c)描述了根据接收到的用户语音和附加信息提供个性化服务的操作的示意图;
图3示意性示出了根据本公开的实施例的语音识别系统的一个应用场景的示意图;
图4描述了示意性示出了根据本公开的实施例的语音识别系统的另一应用场景的示意图;以及
图5示出了根据本公开的实施例的语音识别方法的流程图。
具体实施方式
根据结合附图对本公开示例性实施例的以下详细描述,本公开的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。
在本公开中,术语“包括”和“含有”及其派生词意为包括而非限制;术语“或”是包含性的,意为和/或。
在本说明书中,下述用于描述本公开原理的各种实施例只是说明,不应该以任何方式解释为限制公开的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本公开的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不背离本公开的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同参考数字用于相似功能和操作。
本公开的实施例提供了一种语音识别方法和系统,所述语音识别方法和系统能够根据用户语音和与发出所述用户语音的用户相关的附加信息提供个性化的服务。
图1示意性示出了根据本公开的实施例的语音识别系统100的框图。如图1所示,所述语音识别系统100可以包括一个或更多个音频设备110A、110B以及110C,所述音频设备可以配置为接收用户语音;以及中央控制器120,与所述音频设备通信连接。备选地,所述一个或更多个音频设备还配置为发出声音,以便向用户提供声音反馈。所述中央控制器220配置为:响应于接收到来自所述一个或更多个音频设备的用户语音,获取与发出所述用户语音的用户相关的附加信息;以及根据接收到的用户语音和所述附加信息,提供个性化服务。所述附加信息包括:用户的位置和用户的类别中的至少一个,其中用户的类别可以是根据不同属性(例如,年龄、身份)划分的用户类别。所述提供个性化的服务可以包括响应于所述用户的位置和/或用户的类别不同,提供不同权限级别的服务。所述不同权限级别的服务是指不同类的服务,例如,可以将第一权限的服务称作第一类服务;将第二权限的服务称作第二类服务。备选地,所述提供个性化的服务还可以包括响应于所述用户的位置和/或用户的类别不同,以不同方式提供相同的服务。所述提供个性化的服务的具体方式将在下文所详述,因此在此将不进行赘述。
中央控制器120可以是单个控制器,但也可以包括两个或更多个控制单元。例如,中央控制器120可以包括通用控制器、指令集处理器和/或相关芯片组和/或专用微控制器(例如,专用集成电路(ASIC))。中央控制器120可以实现为单个集成电路(IC)芯片的部分或单个设备(例如,个人计算机)。中央控制器120还可以配置为与诸如电视、空调、冰箱等的其他设备150相连,以便通过来自音频设备的声音信息控制所述其他设备并提供相应服务。另一方面,中央控制器120还可以配置为与网络140相连以便根据用户需要通过网络执行相应的服务。备选地,中央控制器220还可以配置为与外部云相连,以便通过云服务提供针对用户需要的反馈信息。中央控制器120还可以包括内部云,以便执行快速响应、个人信息备份、安全控制等功能。例如,可以将涉及个人隐私的信息备份到私有云,即,中央控制器120的内部云,以便实现对个人隐私保护。
应注意,中央控制器120可以备选地与用户识别设备130(诸如,摄像头、智能地板等)相连,以便获取与发出所述用户语音的用户相关的附加信息,诸如,通过摄像头拍摄用户图像从而获取用户的身份或用户位置。此外,中央控制器120还可以直接地经由与其相连的音频设备来获取与发出所述用户语音的用户相关的附加信息,例如,通过对由音频设备采集的声音进行声纹识别,来确定用户身份;或者通过音频设备的定位功能,来确定发出所述语音的用户的位置。
下面将参考图2(a)、2(b)和2(c)描述中央控制器如何根据接收到的用户语音和附加信息提供个性化服务。
在音频设备能够获取与发出所述用户语音的用户相关的附加信息的情况下(如图2(a)和2(b)所示),中央控制器可以通过以下两种方式提供个性化的服务结果:
方式一:音频设备可以具备音频识别功能,且通过使用音频识别功能,音频设备可以对发出用户语音的用户进行用户识别,从而提供诸如用户类别的附加信息。此外,作为另一示例,可以将多个音频设备布置在不同房间中,并通过确定采集到用户语音来自安装在哪个房间的音频设备,来定位发出用户语音的用户的位置。以上方式仅是为了列举音频设备如何获取附加信息的示例,不应理解为对本公开的限制。本领域技术人员应清楚任何具有获取与发出用户语音的用户相关的附加信息的功能的音频设备都应包括在本发明的范围。如图2(a)所示,音频设备首先在操作P11,将获取的附加信息和用户语音发送给中央控制器;接着,在P12,中央控制器根据接收到的附加信息和用户语音,生成针对所述用户语音的个性化结果。具体地,所述生成针对所述用户语音的个性化结果可以包括:预先存储针对该用户语音(例如,提问)的多种结果,其中所述多个结果可以是对应于不同权限的结果;并根据附加信息从所述多种结果筛选与所述附加信息相对应的个性化结果。备选地,所述生成针对所述用户语音的个性化结果还可以包括:存储或搜索针对所述用户语音的反馈结果,并根据对附加信息的分析来对所述反馈结果进行修改或加工,使得生成适合的个性化结果。最后,在操作P13,将所生成的个性化结果发送给音频设备,以便经由音频设备输出。
方式二:如图2(b)所示,尽管音频设备具有获取附加信息的功能,然而在操作P21,音频设备仅向中央控制器提供用户语音。在操作P22,中央控制器向音频设备提供针对所述用户语音存储的多个结果,所述多个结果可以是对应于不同权限的结果。最后,在操作P23,音频设备根据所获取的附加信息选择适合的个性化结果输出。
以上描述了在音频设备具备获取与发出用户语音的用户相关的附加信息的功能的情况下如何提供个性化服务。图2(c)描述了在音频设备不具备获取与发出用户语音的用户相关的附加信息的功能的情况下如何提供个性化服务。
在该情况下,中央控制器通过传感器(例如,摄像头)获取所述附加信息(操作P32),并根据从音频设备接收到用户语音和从传感器接收的附加信息,生成针对所述用户语音的个性化结果并将个性化结果发送给音频设备以供输出。所述生成操作与图2(a)所示的过程相似,因此将不再进行赘述。
综上可知,根据本公开的实施例的语音识别系统可以通过接收用户语音并获取与发出所述用户语音的用户相关的附加信息,来根据接收到的用户语音和所述附加信息,提供个性化服务。
图3示意性示出了根据本公开的实施例的语音识别系统300的一个应用场景的示意图。如图3所示,一个或更多个音频设备310-1、310-2和310-3可以分布在不同的空间中,例如,音频设备310-1可以分布在会议室,音频设备310-2可以分布在休息室,且音频设备310-3可以分布在学习室。
在该示例情况下,不同房间对应于不同权限的服务。例如,当用户与语音识别系统进行交互时,所述语音识别系统可以经由音频设备首先采集用户发出的用户语音,并接着确定发出所述用户语音的用户所在的房间。例如,如上所述,可以通过确定采集到所述用户语音的音频设备安装在哪个房间,来确定用户位置;也可以通过诸如摄像机的其他传感器来确定用户位置。具体地,如果用户在会议室发出诸如“请展示财务报表”的用户语音,则语音识别系统经由音频设备310-1采集到所述用户语音,并经由音频设备和/或所包括的其他传感器获取与发出所述用户语音的用户相关的附加信息(在这种情况下,附加信息是位置信息),即,用户在会议室中。此外,如果与该会议室相对应的服务中包括展示财务报表的功能,则中央控制器320可以控制经由诸如显示器、投影仪的其他设备展示财务报表。然而,如果与该会议室相对应的服务中不包括展示财务报表的功能,则中央控制器320可以将例如“本房间不具有预览财务报表的权限”的声音反馈提供给音频设备310-1,以便播放给用户。备选地,在与该会议室相对应的服务中不包括展示财务报表的功能的情况下,中央控制器320还可以将搜索到的财务报表提供给音频设备310-1,此时音频设备310-1定位自己的安装房间,并由于确定所在安装房间不具备展示财务报表的权限(换言之,音频设备310-1、310-2和310-3由于被安装在不同房间而具有不同权限),而不输出财务报表,或备选地输出诸如“本房间不具有预览财务报表的权限”的声音反馈。
同理,可以将休息室的服务权限设置为包括输出天气信息、影视信息和播放音乐歌曲等的服务,且将诸如学习室的服务权限设置为包括输出网络学习资料和查阅图书等的服务。因此,如果用户在休息室请求查看财务报表,则该要求将会被拒绝。类似地,如果用户在学习室请求播放音乐歌曲或查看财务表表,则该要求同样将被拒绝。
因此,通过使用根据本公开的实施例的语音识别系统,可以针对不同场所提供不同安全级别的服务。
图4描述了示意性示出了根据本公开的实施例的语音识别系统400的另一应用场景的示意图。如图4所示,语音识别系统400可以根据不同的用户身份提供个性化的服务。具体地,当用户是30岁左右的青年女士并发出诸如“请播放音乐”的用户语音时,语音识别系统400可以经由音频设备410采集所述用户语音,并通过对所述用户语音进行声纹分析或通过使用诸如摄像头的传感器,获取发出所述用户语音的用户相关的附加信息(在该情况下,附加信息为用户类别),因此,确定用户是30岁左右的青年女士。接着,中央处理器420可以在其内部云中或与之相连的外部云中搜索30岁左右的青年女士所喜爱的歌曲(诸如,歌曲1),并将搜索的歌曲1提供给音频设备410以便由音频设备410播放。当然,如上所述,中央处理器420可以将存储在其内部云和/或与之相连的外部云中的歌曲全部发送给音频设备410,音频设备410根据其获取的附加信息来从所述歌曲中筛选适合30岁左右的青年女士的歌曲并输出。如果确定发出“请播放音乐”的用户语音的用户是老年人,则所述语音识别系统400可以相应地经由音频设备410播放适合于老年人的歌曲(例如,歌曲2)。此外,如果确定发出“请播放音乐”的用户语音的用户是儿童,则所述语音识别系统400可以相应地经由音频设备410播放适合于儿童的儿童歌曲(例如,歌曲3)。也就是说,尽管用户所发出的用户语音(例如,用户的要求)是相同的,然而根据本公开的实施例的语音识别系统可以根据发出所述用户语音的不同用户类别,提供不同的服务结果。除此之外,根据本公开的实施例的语音识别系统还可以根据不同类别的用户设置不同的服务权限。例如,当儿童提出要求观看枪战片时,拒绝所述观看请求。另一方面,即使针对所述用户语音的服务结果是相同的,依然可以针对不同类别的用户以不同方式提供所述服务结果。例如,当用户询问当天天气情况时,查询到的天气情况信息是相同的。但是在播报所述天气情况时,如果用户是老年人,则音频设备可以以尊重长者的语气和/或较慢的语速来播放所述天气情况;如果用户是青年人,则音频设备可以以正常的语气和/或语速来播放所述天气情况;且如果用户是儿童,则音频设备可以以长辈的语气和/或较慢的语速来播放所述天气情况。应注意,在以上实施例中,以将用户分为老年人、青年人和儿童为例示意性地说明了本公开,然而用户的分类方式不限于此,且本公开旨在包括一个或更多个分类方式。
综上,以上示例性地描述了根据本公开的实施例的语音识别系统的应用场景。如上所述,所述语音识别系统通过接收用户语音并获取与发出所述用户语音的用户相关的附加信息,来根据接收到的用户语音和所述附加信息,提供个性化服务。
根据本发明的另一方面,还提供了一种语音识别方法。图5示出了根据本公开的实施例的语音识别方法的流程图。具体地,所述方法可以包括:在步骤S501,接收用户语音。在步骤S503,响应于接收到用户语音,获取与发出所述用户语音的用户相关的附加信息。所述获取所述附加信息可以包括:通过分析接收到的用户语音,来获取所述附加信息。此外,所述获取所述附加信息包括:通过传感器采集所述附加信息。在步骤S505,根据接收到的用户语音和所述附加信息,提供个性化服务。提供个性化服务可以包括提供不同权限级别的服务和/或以不同方式提供相同服务。具体地,所述附加信息可以包括:用户的位置和用户的类别中的至少一个。通过使用根据本公开的实施例的语音识别方法,可以通过采集用户语音并获取与发出所述用户语音相关的用户的附加信息,来提供个性化的服务,实现更智能的语音识别系统。
因此,以上提供了一种语音识别系统和语音识别方法,所述语音识别方法和系统能够根据用户语音和与发出所述用户语音的用户相关的附加信息提供个性化的服务。
此外,应注意,根据本公开各实施例的上述方法、装置、单元和/或模块可以通过有计算能力的电子设备执行包含计算机指令的软件来实现。所述有计算能力的电子设备可以包含通用处理器、数字信号处理器、专用处理器、可重新配置处理器等能够执行计算机指令的装置,但不限于此。上述各设备和/或模块可以在一个电子设备中实现,也可以在不同电子设备中实现。这些软件可以存储在计算机可读存储介质中。
所述计算机可读存储介质例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。计算机可读存储介质可以包括一个或多个计算机程序,该计算机程序可以包括代码/计算机可执行指令,其在由处理器执行时使得处理器执行例如上面所描述的方法流程及其任何变形。
计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序中的代码可以包括一个或多个程序模块。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器执行时,使得处理器可以执行上面所描述的方法流程及其任何变形。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (8)
1.一种语音识别方法,包括:
通过多个音频设备接收用户语音,其中,所述多个音频设备分布在不同的空间中,不同空间对应于不同安全级别的权限的服务;
响应于接收到用户语音,获取与发出所述用户语音的用户相关的附加信息,其中,所述附加信息包括所述用户的位置信息;
通过中央控制器根据接收到的用户语音和所述附加信息,生成针对所述用户语音的个性化结果,为所述用户提供个性化服务,其中所述提供个性化服务包括:提供不同权限级别的服务;
其中,所述生成针对所述用户语音的个性化结果包括:
存储或搜索针对所述用户语音的反馈结果,并根据对所述附加信息的分析来对所述反馈结果进行修改或加工,使得生成适合的个性化结果;最后,将所生成的个性化结果发送给接收所述用户语音的音频设备,以便经由接收所述用户语音的音频设备输出。
2.根据权利要求1所述的语音识别方法,其中获取所述附加信息包括:
通过分析接收到的用户语音,来获取所述附加信息。
3.根据权利要求1所述的语音识别方法,其中获取所述附加信息包括:
通过传感器采集所述附加信息。
4.根据权利要求1所述的语音识别方法,其中所述提供个性化服务包括:以不同方式提供相同的服务。
5.一种语音识别系统,包括:
多个音频设备,配置为接收用户语音,其中,所述多个音频设备分布在不同的空间中,不同空间对应于不同安全级别的权限的服务;
中央控制器,与所述音频设备通信连接,所述中央控制器配置为:
响应于接收到来自一个或更多个音频设备的用户语音,获取与发出所述用户语音的用户相关的附加信息,其中,所述附加信息包括所述用户的位置信息;以及
根据接收到的用户语音和所述附加信息,生成针对所述用户语音的个性化结果,为所述用户提供个性化服务,其中所述中央控制器进一步配置为:响应于所述附加信息不同,提供不同权限级别的服务;
其中,所述生成针对所述用户语音的个性化结果包括:
存储或搜索针对所述用户语音的反馈结果,并根据对所述附加信息的分析来对所述反馈结果进行修改或加工,使得生成适合的个性化结果;最后,将所生成的个性化结果发送给接收所述用户语音的音频设备,以便经由接收所述用户语音的音频设备输出。
6.根据权利要求5所述的语音识别系统,其中所述中央控制器进一步配置为通过分析接收到的用户语音,来获取所述附加信息。
7.根据权利要求5所述的语音识别系统,还包括:传感器,
其中所述中央控制器配置为控制经由传感器采集所述附加信息。
8.根据权利要求5所述的语音识别系统,其中所述中央控制器进一步配置为:
响应于所述附加信息不同,以不同方式提供相同的服务。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710195971.XA CN107015781B (zh) | 2017-03-28 | 2017-03-28 | 语音识别方法和系统 |
US15/819,401 US20180286395A1 (en) | 2017-03-28 | 2017-11-21 | Speech recognition devices and speech recognition methods |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710195971.XA CN107015781B (zh) | 2017-03-28 | 2017-03-28 | 语音识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107015781A CN107015781A (zh) | 2017-08-04 |
CN107015781B true CN107015781B (zh) | 2021-02-19 |
Family
ID=59445024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710195971.XA Active CN107015781B (zh) | 2017-03-28 | 2017-03-28 | 语音识别方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180286395A1 (zh) |
CN (1) | CN107015781B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257596B (zh) * | 2017-12-22 | 2021-07-23 | 北京小蓦机器人技术有限公司 | 一种用于提供目标呈现信息的方法与设备 |
JP6928842B2 (ja) * | 2018-02-14 | 2021-09-01 | パナソニックIpマネジメント株式会社 | 制御情報取得システム、及び、制御情報取得方法 |
CN117376505A (zh) | 2018-05-07 | 2024-01-09 | 苹果公司 | 用于查看实况视频馈送和录制视频的用户界面 |
US11132681B2 (en) | 2018-07-06 | 2021-09-28 | At&T Intellectual Property I, L.P. | Services for entity trust conveyances |
US10802872B2 (en) | 2018-09-12 | 2020-10-13 | At&T Intellectual Property I, L.P. | Task delegation and cooperation for automated assistants |
CN109145123B (zh) * | 2018-09-30 | 2020-11-17 | 国信优易数据股份有限公司 | 知识图谱模型的构建方法、智能交互方法、系统及电子设备 |
WO2020071739A1 (en) | 2018-10-02 | 2020-04-09 | Samsung Electronics Co., Ltd. | Washing machine |
US11481186B2 (en) | 2018-10-25 | 2022-10-25 | At&T Intellectual Property I, L.P. | Automated assistant context and protocol |
KR20200053290A (ko) * | 2018-11-08 | 2020-05-18 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN109448713A (zh) * | 2018-11-13 | 2019-03-08 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109616110A (zh) * | 2018-12-06 | 2019-04-12 | 新视家科技(北京)有限公司 | 一种交互方法、系统、电子设备及服务器 |
CN109389980A (zh) * | 2018-12-06 | 2019-02-26 | 新视家科技(北京)有限公司 | 一种语音交互方法、系统、电子设备及服务器 |
CN109410941A (zh) * | 2018-12-06 | 2019-03-01 | 新视家科技(北京)有限公司 | 一种交互方法、系统、电子设备及服务器 |
US11069351B1 (en) * | 2018-12-11 | 2021-07-20 | Amazon Technologies, Inc. | Vehicle voice user interface |
US20200193264A1 (en) * | 2018-12-14 | 2020-06-18 | At&T Intellectual Property I, L.P. | Synchronizing virtual agent behavior bias to user context and personality attributes |
CN109378006B (zh) * | 2018-12-28 | 2022-09-16 | 三星电子(中国)研发中心 | 一种跨设备声纹识别方法及系统 |
CN109697290B (zh) * | 2018-12-29 | 2023-07-25 | 咪咕数字传媒有限公司 | 一种信息处理方法、设备及计算机存储介质 |
US11681923B2 (en) * | 2019-04-19 | 2023-06-20 | Samsung Electronics Co., Ltd. | Multi-model structures for classification and intent determination |
CN109979457A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种应用于智能对话机器人的千人千面的方法 |
CN110798318B (zh) * | 2019-09-18 | 2022-06-24 | 深圳云知声信息技术有限公司 | 设备管理方法及装置 |
US11513667B2 (en) * | 2020-05-11 | 2022-11-29 | Apple Inc. | User interface for audio message |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020111808A1 (en) * | 2000-06-09 | 2002-08-15 | Sony Corporation | Method and apparatus for personalizing hardware |
US7324947B2 (en) * | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
JP3715584B2 (ja) * | 2002-03-28 | 2005-11-09 | 富士通株式会社 | 機器制御装置および機器制御方法 |
US11710489B2 (en) * | 2004-06-14 | 2023-07-25 | Wanda Papadimitriou | Autonomous material evaluation system and method |
US8014542B2 (en) * | 2005-11-04 | 2011-09-06 | At&T Intellectual Property I, L.P. | System and method of providing audio content |
US9628208B2 (en) * | 2008-02-26 | 2017-04-18 | International Business Machines Corporation | System, method and program product for customizing presentation of television content to a specific viewer and location |
US8095368B2 (en) * | 2008-12-04 | 2012-01-10 | At&T Intellectual Property I, L.P. | System and method for voice authentication over a computer network |
US10679605B2 (en) * | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011119993A2 (en) * | 2010-03-25 | 2011-09-29 | Mehul Shah | Systems and methods for providing access to resources through enhanced audio signals |
CN101938610A (zh) * | 2010-09-27 | 2011-01-05 | 冠捷显示科技(厦门)有限公司 | 一种基于声纹识别的新型电视装置 |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8897500B2 (en) * | 2011-05-05 | 2014-11-25 | At&T Intellectual Property I, L.P. | System and method for dynamic facial features for speaker recognition |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US8825020B2 (en) * | 2012-01-12 | 2014-09-02 | Sensory, Incorporated | Information access and device control using mobile phones and audio in the home environment |
KR101917070B1 (ko) * | 2012-06-20 | 2018-11-08 | 엘지전자 주식회사 | 이동 단말기, 서버, 시스템, 이동 단말기 및 서버의 제어 방법 |
US9996628B2 (en) * | 2012-06-29 | 2018-06-12 | Verisign, Inc. | Providing audio-activated resource access for user devices based on speaker voiceprint |
US8606568B1 (en) * | 2012-10-10 | 2013-12-10 | Google Inc. | Evaluating pronouns in context |
KR20140075997A (ko) * | 2012-12-12 | 2014-06-20 | 엘지전자 주식회사 | 이동 단말기 및 이동 단말기의 제어 방법 |
WO2014098477A1 (ko) * | 2012-12-18 | 2014-06-26 | 삼성전자 주식회사 | 홈 네트워크 시스템에서 홈 디바이스를 원격으로 제어하는 방법 및 장치 |
CN103236259B (zh) * | 2013-03-22 | 2016-06-29 | 乐金电子研发中心(上海)有限公司 | 语音识别处理及反馈系统、语音回复方法 |
US9384751B2 (en) * | 2013-05-06 | 2016-07-05 | Honeywell International Inc. | User authentication of voice controlled devices |
CN103310788B (zh) * | 2013-05-23 | 2016-03-16 | 北京云知声信息技术有限公司 | 一种语音信息识别方法及系统 |
US9286030B2 (en) * | 2013-10-18 | 2016-03-15 | GM Global Technology Operations LLC | Methods and apparatus for processing multiple audio streams at a vehicle onboard computer system |
US9111214B1 (en) * | 2014-01-30 | 2015-08-18 | Vishal Sharma | Virtual assistant system to remotely control external services and selectively share control |
US9082407B1 (en) * | 2014-04-15 | 2015-07-14 | Google Inc. | Systems and methods for providing prompts for voice commands |
CN103943111A (zh) * | 2014-04-25 | 2014-07-23 | 海信集团有限公司 | 一种身份识别的方法及装置 |
US9812128B2 (en) * | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
CN104575504A (zh) * | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
WO2016119989A1 (en) * | 2015-01-27 | 2016-08-04 | Philips Lighting Holding B.V. | Method and apparatuses for proximity detection for device control |
DE102015206566A1 (de) * | 2015-04-13 | 2016-10-13 | BSH Hausgeräte GmbH | Haushaltsgerät und Verfahren zum Betreiben eines Haushaltsgeräts |
CN104951077A (zh) * | 2015-06-24 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法、装置和终端设备 |
CN105068460B (zh) * | 2015-07-30 | 2018-02-02 | 北京智网时代科技有限公司 | 一种智能控制系统 |
TWI557599B (zh) * | 2015-11-05 | 2016-11-11 | 宏碁股份有限公司 | 語音控制方法及語音控制系統 |
TW201717655A (zh) * | 2015-11-05 | 2017-05-16 | 宏碁股份有限公司 | 語音控制方法及語音控制系統 |
CN105979376A (zh) * | 2015-12-02 | 2016-09-28 | 乐视致新电子科技(天津)有限公司 | 一种推荐方法和装置 |
CN105374355A (zh) * | 2015-12-17 | 2016-03-02 | 厦门科牧智能技术有限公司 | 一种电子坐便器的语音控制、交互系统及方法和电子坐便器 |
CN105487396A (zh) * | 2015-12-29 | 2016-04-13 | 宇龙计算机通信科技(深圳)有限公司 | 智能家居的控制方法和智能家居的控制装置 |
US9812132B2 (en) * | 2015-12-31 | 2017-11-07 | General Electric Company | Acoustic map command contextualization and device control |
CN105810200A (zh) * | 2016-02-04 | 2016-07-27 | 深圳前海勇艺达机器人有限公司 | 基于声纹识别的人机对话装置及其方法 |
EP3414759B1 (en) * | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US9858927B2 (en) * | 2016-02-12 | 2018-01-02 | Amazon Technologies, Inc | Processing spoken commands to control distributed audio outputs |
US9965247B2 (en) * | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9820039B2 (en) * | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
CN106094551A (zh) * | 2016-07-13 | 2016-11-09 | Tcl集团股份有限公司 | 一种智能语音控制系统及控制方法 |
US10026403B2 (en) * | 2016-08-12 | 2018-07-17 | Paypal, Inc. | Location based voice association system |
US9934658B1 (en) * | 2016-09-14 | 2018-04-03 | Siemens Industry, Inc. | Visually-impaired-accessible building safety system |
US10446144B2 (en) * | 2016-11-21 | 2019-10-15 | Google Llc | Providing prompt in an automated dialog session based on selected content of prior automated dialog session |
WO2018098301A1 (en) * | 2016-11-23 | 2018-05-31 | Abraham Joseph Kinney | Detection of authorized user presence and handling of unauthenticated monitoring system commands |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
JP6751536B2 (ja) * | 2017-03-08 | 2020-09-09 | パナソニック株式会社 | 装置、ロボット、方法、及びプログラム |
TWI638352B (zh) * | 2017-06-02 | 2018-10-11 | 元鼎音訊股份有限公司 | 可調整輸出聲音之電子裝置及調整輸出聲音之方法 |
-
2017
- 2017-03-28 CN CN201710195971.XA patent/CN107015781B/zh active Active
- 2017-11-21 US US15/819,401 patent/US20180286395A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN107015781A (zh) | 2017-08-04 |
US20180286395A1 (en) | 2018-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107015781B (zh) | 语音识别方法和系统 | |
JP6752870B2 (ja) | 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム | |
US10803859B1 (en) | Speech processing for public devices | |
JP7126613B2 (ja) | ドメイン分類器を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法 | |
US11495229B1 (en) | Ambient device state content display | |
CN104049721B (zh) | 信息处理方法及电子设备 | |
KR102354952B1 (ko) | 주변 조건들에 기초하여 출력 디스플레이를 발생시키는 시스템 및 방법 | |
WO2020223007A1 (en) | Video tagging by correlating visual features to sound tags | |
CN106782540B (zh) | 语音设备及包括所述语音设备的语音交互系统 | |
JP7108144B2 (ja) | クロスドメインバッチ正規化を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法 | |
US12001754B2 (en) | Context based media selection based on preferences setting for active consumer(s) | |
US11087768B2 (en) | Personalized voice recognition service providing method using artificial intelligence automatic speaker identification method, and service providing server used therein | |
US10970898B2 (en) | Virtual-reality based interactive audience simulation | |
KR102079979B1 (ko) | 인공지능 기기에서의 복수의 호출 용어를 이용한 서비스 제공 방법 및 그 시스템 | |
US20140006550A1 (en) | System for adaptive delivery of context-based media | |
US11233490B2 (en) | Context based volume adaptation by voice assistant devices | |
EP3805914A1 (en) | Information processing device, information processing method, and information processing system | |
US11030479B2 (en) | Mapping visual tags to sound tags using text similarity | |
WO2019026617A1 (ja) | 情報処理装置、及び情報処理方法 | |
JP2016100033A (ja) | 再生制御装置 | |
US10861453B1 (en) | Resource scheduling with voice controlled devices | |
KR101995443B1 (ko) | 화자 검증 방법 및 음성인식 시스템 | |
CN111539217B (zh) | 一种用于自然语言内容标题消歧的方法、设备和系统 | |
US20190189088A1 (en) | Information processing device, information processing method, and program | |
WO2019150708A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |