CN109637548A - 基于声纹识别的语音交互方法及装置 - Google Patents
基于声纹识别的语音交互方法及装置 Download PDFInfo
- Publication number
- CN109637548A CN109637548A CN201811637164.XA CN201811637164A CN109637548A CN 109637548 A CN109637548 A CN 109637548A CN 201811637164 A CN201811637164 A CN 201811637164A CN 109637548 A CN109637548 A CN 109637548A
- Authority
- CN
- China
- Prior art keywords
- application
- voice
- user
- voiceprint recognition
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 66
- 230000001755 vocal effect Effects 0.000 claims abstract description 62
- 230000004044 response Effects 0.000 claims abstract description 45
- 230000003993 interaction Effects 0.000 claims abstract description 21
- 230000015654 memory Effects 0.000 claims description 19
- 230000002618 waking effect Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种基于声纹识别的语音交互方法,包括如下步骤:接收用户的语音指令;根据用户的语音指令进行声纹识别处理,根据声纹识别结果,启动语音交互处理,其包括在识别出语音指令所属的用户时,根据声纹识别确定的用户身份进行响应处理;否则,对语音指令进行语音唤醒处理,根据语音唤醒处理结果进行响应处理。本发明还提供了一种基于声纹识别的语音交互装置。根据本发明提供的方法和装置可以减少语音对话的流程,移除唤醒词唤醒阶段,以声纹同时作为唤醒/识别的媒介和数据来源,从而提高用户语音交互体验。并且以声纹ID区分用户,进行符合不同用户需求的技能定制,以声纹ID连接语音识别设备,从而提高语音识别设备的通用性。
Description
技术领域
本发明涉及语音交互技术领域,尤其涉及一种基于声纹识别的语音交互方法及装置。
背景技术
随着科技的发展,语音识别的应用越来越普及,但是也往往伴随着很多弊端。现阶段的语音识别交互技术主要由语音唤醒和语音识别交互两部分组成,以“唤醒词”触发语音唤醒场景,即以若干唤醒词作为对话起点,触发单轮或者多轮对话场景。在这种模式下,主要有以下缺点:
1)交互流程必须以唤醒词为起点,导致该交互流程较为繁琐;
2)在进行语音交互时,只能以产品区分技能类型,或者以产品定制的形式定制语音交互的技能响应,无法做到根据用户群体不同,定制不同的技能,这就会导致产品的通用性较低。
发明内容
本发明为了解决上述问题,提出了一种解决方案,本发明提供一种基于声纹识别的语音交互方案,发明人构思将声纹识别技术融合到语音交互中,以声纹区分用户,并以此对不同的用户进行技能定制。这样就可以以声纹ID区分用户,以声纹为纽带,连接语音交互设备,改变现阶段语音交互方案以产品为单位的模式,转换为以用户为单位的交互模式。
第一方面,本发明实施例提供一种基于声纹识别的语音交互方法,包括如下步骤:
接收用户的语音指令;
根据用户的语音指令进行声纹识别处理,根据声纹识别结果,启动语音交互处理,其包括
在识别出语音指令所属的用户时,根据声纹识别确定的用户身份进行响应处理;
否则,对语音指令进行语音唤醒处理,根据语音唤醒处理结果进行响应处理。
第二方面,本发明实施例提供一种基于声纹识别的语音交互装置,包括:
指令获取模块,用于接收用户的语音指令;
声纹识别模块,用于根据用户的语音指令进行声纹识别处理,输出声纹识别结果;
语音交互处理模块,用于对声纹识别结果进行判断,在声纹识别结果为识别出语音指令所属的用户时,根据声纹识别确定的用户身份进行响应处理,否则,对语音指令进行语音唤醒处理,根据语音唤醒处理结果进行响应处理。
第三方面,本发明实施例提供一种基于声纹识别的语音交互系统,包括两个以上的语音交互设备和云端识别平台,语音交互设备与云端识别平台进行通信,其中至少一个语音交互设备上配置有语音指令获取模块,用于获取用户语音指令输出至云端识别平台;云端识别平台包括
声纹识别模块,用于对用户语音指令进行声纹识别,输出声纹识别结果;
语音识别模块,用于对接收到的用户语音指令进行语音识别,输出语音识别结果;
语音唤醒模块,用于对接收到的语音指令进行唤醒处理,输出语音唤醒结果;
调度模块,用于根据声纹识别结果进行判断,在声纹识别结果为已注册声纹时,将用户语音指令输出至语音识别模块,在声纹识别结果为非注册声纹时,将用户语音指令输出至语音唤醒模块;
指令响应模块,用于根据语音识别结果和声纹识别结果或语音唤醒结果,输出响应指令至相应的语音交互设备
第四方面,本发明实施例提供了一种存储介质,存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项基于声纹识别的语音交互方法。
第五方面,本发明实施例提供了一种电子设备,其包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被所述至少一个处理器执行,以使至少一个处理器能够执行本发明上述任一项基于声纹识别的语音交互方法。
本发明实施例的有益效果在于:基于本发明实施例的基于声纹识别的语音交互方法和装置,可以基于声纹识别结果进行响应,减少语音对话的流程,移除唤醒词唤醒阶段,以声纹同时作为唤醒/识别的媒介和数据来源,从而提高用户语音交互体验。并且以声纹区分用户,进行符合不同用户需求的技能定制,以声纹连接语音识别设备,从而提高语音识别设备的通用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一实施方式的基于声纹识别的语音交互方法流程图;
图2为本发明的又一实施方式的基于声纹识别的语音交互方法流程图;
图3为本发明的一实施方式的基于声纹识别的语音交互装置原理框图;
图4为本发明的一实施方式的基于声纹识别的语音交互系统框图;
图5为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例中的基于声纹识别的语音交互方法及装置应用于任何具备语音功能的终端设备上,该智能终端上配置有显示屏,例如,智能电视、智能手机、平板电脑、PC、智能家居、投影仪、车载设备等任何智能硬件,本发明对此不作限定。
图1示意性地显示了根据本发明一实施方式的基于声纹识别的语音交互方法流程图,如图1所示,本实施例包括如下步骤:
步骤S101:接收用户的语音指令。实现为通过具有拾音功能的装置实时获取用户的语音输入音频。
步骤S102:根据用户的语音指令进行声纹识别处理,根据声纹识别结果,启动语音交互处理。获取用户的语音指令后与预存的已注册的声纹信息进行匹配,可以参照现有技术的声纹识别方法实现。根据匹配结果做如下处理:
步骤S103:在识别出语音指令所属的用户时,根据声纹识别确定的用户身份进行响应处理。在根据声纹识别技术识别出用户输出的语音指令为已经注册的声纹,即该用户的声纹已经注册到语音识别的系统中,直接对该用户的语音指令进行语音识别,根据识别结果进行响应处理,跳过语音唤醒的过程。其中,语音识别的方法可以参照现有技术实现。
步骤S104:在未识别出语音指令所属的用户时,对语音指令进行语音唤醒处理,根据语音唤醒处理结果进行响应处理。若根据声纹识别技术识别出用户输出的语音指令为非注册声纹,就会对该条语音指令进行语音唤醒处理,可以参照现有技术的实现方式,如将该语音指令输出到语音唤醒引擎中进行唤醒,根据唤醒结果进行响应处理。示例性地,如果唤醒结果为已注册的唤醒词,则根据唤醒词对应的响应操作指令,进行响应处理,否则不进行唤醒响应。示例性地,语音指令为“小天,你好”,而“小天,你好”为已经注册的唤醒词,在将语音指令送入语音唤醒引擎进行唤醒后,就对应到相应的唤醒词,之后就根据对该唤醒词配置的响应操作指令如为打开音响,将音响打开。
根据本实施例可以实现减少语音对话流程,移除唤醒词唤醒阶段,将声纹同时作为唤醒和识别的媒介和数据来源,提高用户语音交互体验。
作为一种具体实现方式,图2示意性地显示了步骤S103的基于声纹识别的语音交互方法的具体实现流程。如图2所示,上述步骤S103的实现过程包括如下步骤:
步骤S201:进行声纹注册,并为注册的声纹配置技能选项。进行声纹注册的方式可以参照现有技术实现,其中,配置的技能选项包括多个,多个技能选项可以在同一语音交互设备上实现,也可以在不同的语音交互设备上实现。示例性地,该技能选项实现为打开音乐、开始导航、查询天气等技能,可以在获取语音指令的语音交互设备例如车载系统上实现,也可以不局限于在获取语音指令的语音交互设备上实现,而是打开音乐由另一设备如音箱实现,导航由车载设备实现,查询天气由查询天气的APP或服务器实现等。其中,用户与技能选项通过声纹ID和技能选项内容进行绑定,其触发方式可以根据用户的语音指令的内容进行相应技能选项的调用和响应。语音指令内容即用户说法与技能选项的触发关系,由为技能选项配置的用户说法决定,可以根据用户需求进行自定义设置,例如设置为,在发出语音“1”就可以对应打开音乐这一技能选项。该技能选项在配置时根据其内容,配置了调用指令,该调用指令可以调用对应的功能API接口,以实现相应的响应处理。
步骤S202:在识别出语音指令所属的用户时,根据声纹识别确定的用户身份,即根据声纹识别结果判断该语音指令为已经注册的用户发出的时,确定语音指令对应的声纹ID。在用户进行声纹注册的同时,会在注册成功后为用户配置唯一的声纹ID,根据声纹识别结果可以获取用户声纹注册信息,从而确定用户的声纹ID。
步骤S203:对语音指令进行语音识别,根据语音识别结果和声纹ID选择对应的技能选项进行响应处理。根据确定的声纹ID可以获取到该用户对应的注册的技能选项,将在声纹注册过程中配置的技能选项对应调出。之后,对获取的语音指令进行语音识别,其实现方式可以参照现有技术,得到语音识别结果,将语音识别结果与配置的用户说法进行匹配,从而根据语音识别结果去匹配技能选项,根据该匹配的技能选项可以获取其对应的调用指令(即响应操作指令),根据该调用指令去调用对应的功能API接口,实现对用户输出的语音指令的响应操作。
优选地,对于声纹识别结果不是已注册声纹时,可以返回至步骤S201进行声纹注册,也可以根据步骤S104的实现方式直接对其进行语音识别。
根据本实施例可以实现以声纹ID去区分用户,并支持以此进行技能定制,以声纹ID连接语音识别设备(即技能选项不再是由触发唤醒的设备实现的,可以是任何设备实现的,只要根据技能选项的相应配置调用相应接口即可),从而可以提高语音识别设备的通用性。本发明实施例的技术方案克服了现有技术中在进行语音交互时,只能以产品区分技能类型,或者以产品定制的形式定制语音交互的技能响应,无法做到根据用户群体不同,定制不同的技能,这就会导致产品的通用性较低的问题。
基于本发明实施例的方案,在具体应用时,可以根据需求灵活为用户配置相应的技能选项,由用户根据需求决定自己所需要的技能,并能基于人声和技能意图直接触发语音交互场景,大幅提升用户体验。
图3示意性地显示了根据本发明一实施方式的基于声纹识别的语音交互装置原理框图,如图3所示,
基于声纹识别的语音交互装置包括指令获取模块301、声纹识别模块302和语音交互处理模块303。
指令获取模块301用于接收用户的语音指令,实现为具有拾音功能的音频采集装置。
声纹识别模块302用于根据用户的语音指令进行声纹识别处理,输出声纹识别结果,该实现方式可以参照上述的方法部分。
语音交互处理模块303用于对声纹识别结果进行判断,在声纹识别结果为识别出语音指令所属的用户时,根据声纹识别确定的用户身份进行响应处理,否则,对语音指令进行语音唤醒处理,根据语音唤醒处理结果进行响应处理,其实现方式可以参照上述的方法部分,在此不进行赘述。
在优选实施方式中,还包括声纹注册模块304和技能定制模块305。
声纹注册模块304用于采集用户语音信息进行声纹注册,可以实现为声纹训练模型,参照现有技术实现。
技能定制模块305用于为注册的声纹配置技能选项,其中,技能选项包括多个,多个技能选项均由所述基于声纹识别的语音交互装置实现,或至少一有个技能选项是在其他语音交互设备上实现。其实现方式可以参照上述的方法部分,在此不进行赘述。
并且,语音交互处理模块303还包括声纹触发单元3031,用于在声纹识别结果为已注册声纹时,确定语音指令对应的声纹ID,对语音指令进行语音识别,根据语音识别结果和声纹ID选择对应的技能选项进行响应处理,其实现方式可以参照上述的方法部分。
根据本实施例提供的装置就可以减少语音对话的流程,移除唤醒词唤醒阶段,以声纹同时作为唤醒/识别的媒介和数据来源,从而提高用户语音交互体验。并且以声纹ID区分用户,进行符合不同用户需求的技能定制,以声纹ID连接语音识别设备,从而提高语音识别设备的通用性。
图4示意性地显示了根据本发明一实施方式的基于声纹识别的语音交互系统框图,如图4所示,
基于声纹识别的语音交互系统包括两个以上的语音交互设备5和云端识别平台4,语音交互设备5与云端识别平台4进行通信,其中
至少一个语音交互设备5上配置有语音指令获取模块501,用于获取用户语音指令输出至云端识别平台,实现为该语音交互设备上的具有拾音功能的音频采集装置。
云端识别平台4包括声纹识别模块401、语音识别模块402、语音唤醒模块403、调度模块404和指令响应模块405。
声纹识别模块401用于对用户语音指令进行声纹识别,输出声纹识别结果。
语音识别模块402用于对接收到的用户语音指令进行语音识别,输出语音识别结果。
语音唤醒模块403用于对接收到的语音指令进行唤醒处理,输出语音唤醒结果。
调度模块404,用于根据声纹识别结果进行判断,在声纹识别结果为已注册声纹时,将用户语音指令输出至语音识别模块,在声纹识别结果为非注册声纹时,将用户语音指令输出至语音唤醒模块。在接收到用户语音指令时,先输出至声纹识别模块401进行声纹识别,之后由调度模块404根据声纹识别结果,将用户的语音指令输出至对应的模块进行相应的操作,从而实现改变现有的语音交互触发模式,具体实现方式可以参照上述的方法。
指令响应模块405,用于根据语音识别结果和声纹识别结果或语音唤醒结果,输出响应指令至相应的语音交互设备。
在优选实施方式中,云识别平台4还包括技能定制模块406,该模块用于为注册的声纹配置技能选项。并且,指令响应模块405包括声纹响应单元4051和唤醒响应单元4052。
声纹响应单元4051用于根据语音识别结果和声纹识别结果获取相应的技能选项,输出至相应的语音交互设备或进行响应处理后输出响应结果至相应的语音交互设备。
唤醒响应单元4052用于根据语音唤醒结果获取相应的操作指令,输出至相应的语音交互设备或进行响应处理后输出响应结果至相应的语音交互设备。
本发明实施例的系统中,不需要每个语音交互设备5均具有拾音功能,实现了语音交互功能的扩展,使得语音交互不再局限于单台设备,而是能够基于用户连通不同的智能设备终端进行按需定制交互技能。此外,根据本实施例的系统还可以减少语音对话的流程,移除唤醒词唤醒阶段,以声纹同时作为唤醒/识别的媒介和数据来源,从而提高用户语音交互体验。并且以声纹ID区分用户,进行符合不同用户需求的技能定制,以声纹ID连接语音识别设备,从而提高语音识别设备的通用性。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项基于声纹识别的语音交互方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当程序指令被计算机执行时,使所述计算机执行上述任一项基于声纹识别的语音交互方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行基于声纹识别的语音交互方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时基于声纹识别的语音交互方法。
上述本发明实施例的基于声纹识别的语音交互装置可用于执行本发明实施例的基于声纹识别的语音交互方法,并相应的达到上述本发明实施例的实现基于声纹识别的语音交互方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
图5是本申请另一实施例提供的执行基于声纹识别的语音交互方法的电子设备的硬件结构示意图,如图5所示,该设备包括:
一个或多个处理器510以及存储器520,图5中以一个处理器510为例。
执行基于声纹识别的语音交互方法的设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的基于声纹识别的语音交互方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例基于声纹识别的语音交互方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于声纹识别的语音交互装置的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至基于声纹识别的语音交互装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息,以及产生与基于声纹识别的语音交互装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器520中,当被所述一个或者多个处理器510执行时,执行上述任意方法实施例中的基于声纹识别的语音交互方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.基于声纹识别的语音交互方法,其特征在于,包括
接收用户的语音指令;
根据用户的语音指令进行声纹识别处理,根据声纹识别结果,启动语音交互处理,其包括
在识别出语音指令所属的用户时,根据声纹识别确定的用户身份进行响应处理;
否则,对语音指令进行语音唤醒处理,根据语音唤醒处理结果进行响应处理。
2.根据权利要求1所述的方法,其特征在于,还包括
进行声纹注册,并为注册的声纹配置技能选项;
所述在识别出语音指令所属的用户时,根据声纹识别确定的用户身份进行响应处理包括:
在声纹识别结果为已注册声纹时,确定语音指令对应的声纹ID;
对语音指令进行语音识别,根据语音识别结果和声纹ID选择对应的技能选项进行响应处理。
3.根据权利要求2所述的方法,其特征在于,所述技能选项包括多个,多个技能选项均在同一语音交互设备上实现,或至少一有个技能选项是在不同的语音交互设备上实现。
4.基于声纹识别的语音交互装置,其特征在于,包括
指令获取模块,用于接收用户的语音指令;
声纹识别模块,用于根据用户的语音指令进行声纹识别处理,输出声纹识别结果;
语音交互处理模块,用于对声纹识别结果进行判断,在声纹识别结果为识别出语音指令所属的用户时,根据声纹识别确定的用户身份进行响应处理,否则,对语音指令进行语音唤醒处理,根据语音唤醒处理结果进行响应处理。
5.根据权利要求4所述的装置,其特征在于,还包括
声纹注册模块,用于采集用户语音信息进行声纹注册;
技能定制模块,用于为注册的声纹配置技能选项;
所述语音交互处理模块包括
声纹触发单元,用于在声纹识别结果为已注册声纹时,确定语音指令对应的声纹ID,对语音指令进行语音识别,根据语音识别结果和声纹ID选择对应的技能选项进行响应处理。
6.根据权利要求5所述的装置,其特征在于,所述技能选项包括多个,多个技能选项均由所述基于声纹识别的语音交互装置实现,或至少一有个技能选项是在其他语音交互设备上实现。
7.基于声纹识别的语音交互系统,其特征在于,两个以上的语音交互设备和云端识别平台,所述语音交互设备与所述云端识别平台进行通信,其中
至少一个所述语音交互设备上配置有语音指令获取模块,用于获取用户语音指令输出至云端识别平台;
所述云端识别平台包括
声纹识别模块,用于对用户语音指令进行声纹识别,输出声纹识别结果;
语音识别模块,用于对接收到的用户语音指令进行语音识别,输出语音识别结果;
语音唤醒模块,用于对接收到的语音指令进行唤醒处理,输出语音唤醒结果;
调度模块,用于根据声纹识别结果进行判断,在声纹识别结果为已注册声纹时,将用户语音指令输出至语音识别模块,在声纹识别结果为非注册声纹时,将用户语音指令输出至语音唤醒模块;和
指令响应模块,用于根据语音识别结果和声纹识别结果或语音唤醒结果,输出响应指令至相应的语音交互设备。
8.根据权利要求7所述的系统,其特征在于,云识别平台还包括
技能定制模块,用于为注册的声纹配置技能选项;
所述指令响应模块包括
声纹响应单元,用于根据语音识别结果和声纹识别结果获取相应的技能选项,输出至相应的语音交互设备或进行响应处理后输出响应结果至相应的语音交互设备;和
唤醒响应单元,用于根据语音唤醒结果获取相应的操作指令,输出至相应的语音交互设备或进行响应处理后输出响应结果至相应的语音交互设备。
9.电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任意一项所述方法的步骤。
10.存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811637164.XA CN109637548A (zh) | 2018-12-29 | 2018-12-29 | 基于声纹识别的语音交互方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811637164.XA CN109637548A (zh) | 2018-12-29 | 2018-12-29 | 基于声纹识别的语音交互方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109637548A true CN109637548A (zh) | 2019-04-16 |
Family
ID=66055042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811637164.XA Pending CN109637548A (zh) | 2018-12-29 | 2018-12-29 | 基于声纹识别的语音交互方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109637548A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110058892A (zh) * | 2019-04-29 | 2019-07-26 | Oppo广东移动通信有限公司 | 电子设备交互方法、装置、电子设备及存储介质 |
CN110120222A (zh) * | 2019-05-23 | 2019-08-13 | 九牧厨卫股份有限公司 | 一种带语音播报功能的智能镜柜的语音播报方法 |
CN110970033A (zh) * | 2019-12-02 | 2020-04-07 | 浙江理工大学 | 一种声纹识别自动签字装置及其识别方法 |
CN111031141A (zh) * | 2019-12-24 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 用于实现语音技能的定制化配置的方法及服务器 |
CN111142834A (zh) * | 2019-12-26 | 2020-05-12 | 中国银行股份有限公司 | 一种业务处理方法及系统 |
CN111524526A (zh) * | 2020-05-14 | 2020-08-11 | 中国工商银行股份有限公司 | 声纹识别方法及装置 |
CN111583934A (zh) * | 2020-04-30 | 2020-08-25 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN112463102A (zh) * | 2019-09-06 | 2021-03-09 | 佛山市顺德区美的电热电器制造有限公司 | 家电设备及其交互方法和交互装置、电子设备 |
CN112558911A (zh) * | 2020-12-04 | 2021-03-26 | 苏州思必驰信息科技有限公司 | 用于按摩椅的语音交互方法和装置 |
CN113192514A (zh) * | 2021-04-28 | 2021-07-30 | 云知声智能科技股份有限公司 | 智能提醒方法、装置及系统 |
CN113205819A (zh) * | 2021-04-22 | 2021-08-03 | 苏州知轶信息科技有限公司 | 基于地面机器人的智能陪护方法、设备、介质及产品 |
CN113393834A (zh) * | 2020-03-11 | 2021-09-14 | 阿里巴巴集团控股有限公司 | 一种控制方法及装置 |
WO2022027982A1 (zh) * | 2020-08-03 | 2022-02-10 | 北京京东尚科信息技术有限公司 | 电子设备的响应方法、响应装置、计算机系统及存储介质 |
CN114399992A (zh) * | 2021-12-03 | 2022-04-26 | 北京百度网讯科技有限公司 | 语音指令响应方法、装置及存储介质 |
CN115001891A (zh) * | 2022-05-31 | 2022-09-02 | 四川虹美智能科技有限公司 | 基于分级管理的智能家电控制方法及装置 |
CN117894321A (zh) * | 2024-03-15 | 2024-04-16 | 富迪科技(南京)有限公司 | 一种语音交互方法、语音交互提示系统、装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017026661A (ja) * | 2015-07-16 | 2017-02-02 | 富士ゼロックス株式会社 | コマンド管理装置および画像形成装置 |
CN107748500A (zh) * | 2017-10-10 | 2018-03-02 | 三星电子(中国)研发中心 | 用于控制智能设备的方法和装置 |
US20180121161A1 (en) * | 2016-10-28 | 2018-05-03 | Kyocera Corporation | Electronic device, control method, and storage medium |
-
2018
- 2018-12-29 CN CN201811637164.XA patent/CN109637548A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017026661A (ja) * | 2015-07-16 | 2017-02-02 | 富士ゼロックス株式会社 | コマンド管理装置および画像形成装置 |
US20180121161A1 (en) * | 2016-10-28 | 2018-05-03 | Kyocera Corporation | Electronic device, control method, and storage medium |
CN107748500A (zh) * | 2017-10-10 | 2018-03-02 | 三星电子(中国)研发中心 | 用于控制智能设备的方法和装置 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110058892A (zh) * | 2019-04-29 | 2019-07-26 | Oppo广东移动通信有限公司 | 电子设备交互方法、装置、电子设备及存储介质 |
CN110120222A (zh) * | 2019-05-23 | 2019-08-13 | 九牧厨卫股份有限公司 | 一种带语音播报功能的智能镜柜的语音播报方法 |
CN112463102A (zh) * | 2019-09-06 | 2021-03-09 | 佛山市顺德区美的电热电器制造有限公司 | 家电设备及其交互方法和交互装置、电子设备 |
CN112463102B (zh) * | 2019-09-06 | 2024-03-22 | 佛山市顺德区美的电热电器制造有限公司 | 家电设备及其交互方法和交互装置、电子设备 |
CN110970033A (zh) * | 2019-12-02 | 2020-04-07 | 浙江理工大学 | 一种声纹识别自动签字装置及其识别方法 |
CN111031141A (zh) * | 2019-12-24 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 用于实现语音技能的定制化配置的方法及服务器 |
CN111142834A (zh) * | 2019-12-26 | 2020-05-12 | 中国银行股份有限公司 | 一种业务处理方法及系统 |
CN111142834B (zh) * | 2019-12-26 | 2023-08-29 | 中国银行股份有限公司 | 一种业务处理方法及系统 |
CN113393834A (zh) * | 2020-03-11 | 2021-09-14 | 阿里巴巴集团控股有限公司 | 一种控制方法及装置 |
CN113393834B (zh) * | 2020-03-11 | 2024-04-16 | 阿里巴巴集团控股有限公司 | 一种控制方法及装置 |
CN111583934A (zh) * | 2020-04-30 | 2020-08-25 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN111524526B (zh) * | 2020-05-14 | 2023-11-17 | 中国工商银行股份有限公司 | 声纹识别方法及装置 |
CN111524526A (zh) * | 2020-05-14 | 2020-08-11 | 中国工商银行股份有限公司 | 声纹识别方法及装置 |
WO2022027982A1 (zh) * | 2020-08-03 | 2022-02-10 | 北京京东尚科信息技术有限公司 | 电子设备的响应方法、响应装置、计算机系统及存储介质 |
CN112558911A (zh) * | 2020-12-04 | 2021-03-26 | 苏州思必驰信息科技有限公司 | 用于按摩椅的语音交互方法和装置 |
CN112558911B (zh) * | 2020-12-04 | 2022-07-08 | 思必驰科技股份有限公司 | 用于按摩椅的语音交互方法和装置 |
CN113205819A (zh) * | 2021-04-22 | 2021-08-03 | 苏州知轶信息科技有限公司 | 基于地面机器人的智能陪护方法、设备、介质及产品 |
CN113192514A (zh) * | 2021-04-28 | 2021-07-30 | 云知声智能科技股份有限公司 | 智能提醒方法、装置及系统 |
CN114399992B (zh) * | 2021-12-03 | 2022-12-06 | 北京百度网讯科技有限公司 | 语音指令响应方法、装置及存储介质 |
CN114399992A (zh) * | 2021-12-03 | 2022-04-26 | 北京百度网讯科技有限公司 | 语音指令响应方法、装置及存储介质 |
CN115001891A (zh) * | 2022-05-31 | 2022-09-02 | 四川虹美智能科技有限公司 | 基于分级管理的智能家电控制方法及装置 |
CN115001891B (zh) * | 2022-05-31 | 2023-05-19 | 四川虹美智能科技有限公司 | 基于分级管理的智能家电控制方法及装置 |
CN117894321A (zh) * | 2024-03-15 | 2024-04-16 | 富迪科技(南京)有限公司 | 一种语音交互方法、语音交互提示系统、装置 |
CN117894321B (zh) * | 2024-03-15 | 2024-05-17 | 富迪科技(南京)有限公司 | 一种语音交互方法、语音交互提示系统、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109637548A (zh) | 基于声纹识别的语音交互方法及装置 | |
CN111049996B (zh) | 多场景语音识别方法及装置、和应用其的智能客服系统 | |
EP3611724A1 (en) | Voice response method and device, and smart device | |
CN109243444B (zh) | 语音交互方法、设备及计算机可读存储介质 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN110459221A (zh) | 多设备协同语音交互的方法和装置 | |
CN107004411A (zh) | 话音应用架构 | |
KR20170070094A (ko) | 음성 및 연결 플랫폼 | |
JP6783339B2 (ja) | 音声を処理する方法及び装置 | |
CN105224278A (zh) | 语音交互服务处理方法及装置 | |
CN110459222A (zh) | 语音控制方法、语音控制装置及终端设备 | |
CN107018228B (zh) | 一种语音控制系统、语音处理方法及终端设备 | |
CN109473104A (zh) | 语音识别网络延时优化方法及装置 | |
CN107515857B (zh) | 基于定制技能的语义理解方法及系统 | |
CN109741755A (zh) | 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法 | |
CN109669754A (zh) | 语音交互窗口的动态显示方法、具有伸缩式交互窗口的语音交互方法及装置 | |
CN109448694A (zh) | 一种快速合成tts语音的方法及装置 | |
CN110010125A (zh) | 一种智能机器人的控制方法、装置、终端设备及介质 | |
CN110619878B (zh) | 用于办公系统的语音交互方法和装置 | |
CN110517692A (zh) | 热词语音识别方法和装置 | |
CN109686370A (zh) | 基于语音控制进行斗地主游戏的方法及装置 | |
CN108228134A (zh) | 一种任务语音的处理方法、装置、智能音箱和存储介质 | |
CN111090733B (zh) | 人机交互方法、装置、设备及可读存储介质 | |
CN109767763A (zh) | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 | |
CN109364477A (zh) | 基于语音控制进行打麻将游戏的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |