CN116030817B - 语音唤醒方法、设备及存储介质 - Google Patents

语音唤醒方法、设备及存储介质 Download PDF

Info

Publication number
CN116030817B
CN116030817B CN202210838956.3A CN202210838956A CN116030817B CN 116030817 B CN116030817 B CN 116030817B CN 202210838956 A CN202210838956 A CN 202210838956A CN 116030817 B CN116030817 B CN 116030817B
Authority
CN
China
Prior art keywords
wake
word
voiceprint
voice
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210838956.3A
Other languages
English (en)
Other versions
CN116030817A (zh
Inventor
吴彪
夏日升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202311100361.9A priority Critical patent/CN117153166A/zh
Priority to CN202210838956.3A priority patent/CN116030817B/zh
Publication of CN116030817A publication Critical patent/CN116030817A/zh
Application granted granted Critical
Publication of CN116030817B publication Critical patent/CN116030817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本申请提供了一种语音唤醒方法、设备及存储介质。该方法通过为包括不同参数的唤醒词预先绑定对应的目标声纹阈值和目标声纹模型,使得声纹验证时能够因人、因唤醒词而选取不同的目标声纹模型和目标声纹阈值,这样在接收到语音数据时,并确定接收到的语音数据中包括预先注册的唤醒词时,通过利用该唤醒词绑定的目标声纹模型对语音数据进行声纹验证,根据该唤醒词绑定的目标声纹阈值对声纹验证结果进行判决,就能够精准的识别唤醒词和唤醒人,从而提高语音唤醒的精准度,降低误闯的情况发生。

Description

语音唤醒方法、设备及存储介质
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音唤醒方法、设备及存储介质。
背景技术
随着语音处理技术的发展,带有语音唤醒功能的电子设备越来越普及。为了使电子设备仅根据授权用户的声音信息实现语音唤醒功能,从而避免电子设备被其他用户的声音信息误闯醒,语音唤醒技术融入了声纹验证。
然而对于一些支持对自定义唤醒词进行声纹验证的电子设备,由于自定义唤醒词的长度、覆盖的音素可能存在很大的差异,目前为了保证不同的唤醒词(系统默认和自定义)都能以较高的概率唤醒电子设备,设置的判决条件相对较松,如设置的判决阈值范围较大。这种方式虽然可以实现不同的唤醒词都能唤醒电子设备,但是会存在严重的误闯问题,如相同性别的非授权用户的声音信息也可以唤醒电子设备。
发明内容
为了解决上述技术问题,本申请提供一种语音唤醒方法、设备及存储介质,旨在精准的识别唤醒词和唤醒人,从而提高语音唤醒的精准度,降低误闯的情况发生。
第一方面,本申请提供一种语音唤醒方法。该方法包括:接收第一语音数据;检测第一语音数据中是否存在第一唤醒词,第一唤醒词为在第一电子设备中预先注册的唤醒词;在第一语音数据中存在第一唤醒词时,根据第一唤醒词对应的目标声纹模型对第一语音数据进行声纹验证,得到第一验证结果,第一验证结果指示第一语音数据对应的说话人表征向量与注册第一唤醒词的说话人表征向量的匹配度;根据第一验证结果和第一唤醒词对应的目标声纹阈值,得到第二验证结果,第二验证结果指示第一电子设备能否被第一语音数据唤醒;其中,目标声纹模型和目标声纹阈值分别根据第一唤醒词的参数确定,不同的参数对应不同的目标声纹模型、不同的目标声纹阈值。
其中,第一唤醒词,例如包括系统默认的唤醒词,如下文中出现的“你好YOYO”,以及用户自定义的唤醒词,如下文中出现的“芝麻开门”。
其中,第一语音数据即用户开启语音唤醒功能后,第一电子设备的麦克风或者连接的耳机拾取的语音数据。
其中,第一电子设备,即下文中所说的电子设备,可以为服务器,或者是终端。其中,终端包括但不限于智能音箱、智能手机、平板电脑、笔记本电脑、个人数字助理(personal digital assistant,PDA)或者智能穿戴设备等,此处不再一一列举。
其中,目标声纹模型和目标声纹阈值,即下文中在注册唤醒词阶段,从配置文件中匹配确定的声纹模型和声纹阈值。
其中,第一识别结果,即下文中在唤醒词验证阶段,由声纹验证模块基于目标声纹模型对唤醒词对应的语音数据进行声纹验证得到的分数。
其中,第二识别结果,即下文中在唤醒词验证阶段,由验证结果确定模块根据声纹阈值和得到的分数确定的验证结果。
这样,通过为包括不同参数的唤醒词预先绑定对应的目标声纹阈值和目标声纹模型,使得声纹验证时能够因人、因唤醒词而选取不同的目标声纹模型和目标声纹阈值,这样在接收到语音数据时,并确定接收到的语音数据中包括预先注册的唤醒词时,通过利用该唤醒词绑定的目标声纹模型对语音数据进行声纹验证,根据该唤醒词绑定的目标声纹阈值对声纹验证结果进行判决,就能够精准的识别唤醒词和唤醒人,从而提高语音唤醒的精准度,降低误闯的情况发生。
根据第一方面,方法还包括:响应于注册唤醒词操作,获取注册的唤醒词对应的第二语音数据;识别第二语音数据中的第一唤醒词;提取第一唤醒词包括的参数;根据参数,从配置文件中查找匹配度满足设定要求的目标参数;将配置文件中目标参数对应的声纹模型作为唤醒词对应的目标声纹模型;将配置文件中目标参数对应的声纹阈值作为唤醒词对应的目标声纹阈值。
关于注册唤醒词的具体实现细节,可以参见下文注册唤醒词阶段中各个子阶段的内容,此处不再赘述。
这样,通过在注册唤醒词阶段提取注册的唤醒词的参数信息,并根据提取的参数信息从从配置文件中选择适合使用当前电子设备的注册用户的声纹模型和声纹阈值,从而使得后续声纹验证阶段的验证结果更加精准,使得语音唤醒功能更加准确、降低误闯情况发生。
根据第一方面,或者以上第一方面的任意一种实现方式,提取第一唤醒词包括的参数,包括:统计第一唤醒词的字数;基于自动语音识别技术,对第一唤醒词进行音素和音调的标注;统计标注后的第一唤醒词中包括的音素个数和每个音素的音调情况,以及每个音调所在的位置;将第一唤醒词的字数、音素个数、每个音素的音调情况,以及每个音调所在的位置,作为第一唤醒词的参数。
这样,通过根据不同的参数确定不同的声纹模型和声纹阈值,进而生成配置文件,从而能够在注册唤醒词阶段直接根据注册的唤醒词的参数从配置文件中选择适合使用当前电子设备的注册用户的声纹模型和声纹阈值,从而使得后续声纹验证阶段的验证结果更加精准,使得语音唤醒功能更加准确、降低误闯情况发生。
根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:从云端获取配置文件,配置文件中记录了不同参数对应的目标声纹阈值和目标声纹模型。
根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:收集唤醒词样本;提取每一个唤醒词样本包括的参数;基于文本转语音技术,将每一个唤醒词样本从文本转换为语音数据;根据每一个唤醒词样本包括的参数和对应的语音数据,确定每一个唤醒词样本对应的声纹阈值和声纹模型;建立每一个唤醒词样本包括的参数与确定的所示声纹阈值和声纹模型之间的对应关系,得到配置文件。
关于生成配置文件的具体实现细节,可以参见下文配置文件生成阶段中各个子阶段的内容,此处不再赘述。
根据第一方面,或者以上第一方面的任意一种实现方式,在基于文本转语音技术,将每一个唤醒词样本从文本转换为语音数据之前,方法还包括:根据唤醒词筛选标准,对收集到的唤醒词样本进行筛选,得到典型唤醒词样本;基于文本转语音技术,将每一个唤醒词样本从文本转换为语音数据,包括:基于文本转语音技术,将每一个典型唤醒词样本从文本转换为语音数据;根据每一个唤醒词样本包括的参数和对应的语音数据,确定每一个唤醒词样本对应的声纹阈值和声纹模型,包括:根据每一个典型唤醒词样本包括的参数和对应的语音数据,确定每一个典型唤醒词样本对应的声纹阈值和声纹模型;建立每一个唤醒词样本包括的参数与确定的所示声纹阈值和声纹模型之间的对应关系,得到配置文件,包括:建立每一个典型唤醒词样本包括的参数与确定的所示声纹阈值和声纹模型之间的对应关系,得到配置文件。
关于筛选典型唤醒词样本的具体实现细节,可以参见下文配置文件生成阶段中典型唤醒词筛选子阶段的内容,此处不再赘述。
这样,通过筛选典型唤醒词样本,后续各个子阶段,如下文中提到的文本转语音子阶段,声纹阈值和声纹模型确定子阶段,参数、声纹阈值和声纹模型存储子阶段均基于筛选出的典型唤醒词样本实现,减少了样本数量,从而降低了数据处理压力,同时保证最基于唤醒词的参数,最终确定的声纹阈值和声纹模型能够更加精准的实现语音唤醒,降低误闯情况的发生。
根据第一方面,或者以上第一方面的任意一种实现方式,根据唤醒词筛选标准,对收集到的唤醒词样本进行筛选,包括:筛选字数在设定范围的唤醒词样本;和/或,筛选音素个数在设定范围或大于设定阈值的唤醒词样本;和/或,筛选包含特定音调的唤醒词样本;和/或,筛选特定音调在特定位置的唤醒词样本。
这样,通过多组筛选形式,从而能够更好的满足实际的业务需求,贴合实际应用场景。
根据第一方面,或者以上第一方面的任意一种实现方式,第一唤醒词对应的目标声纹模型有多个;根据第一唤醒词对应的目标声纹模型对第一语音数据进行声纹验证,得到第一验证结果,包括:根据第一唤醒词对应的每一个目标声纹模型对第一语音数据进行声纹验证,得到每一个目标声纹模型对应的验证结果;将每一个目标声纹模型对应的验证结果进行融合,得到第一验证结果。
这样,在存在多个目标声纹模型时,通过将每一个目标声纹模型的识别结果进行融合,既保证了第一识别结果的准确性,又能使第一识别结果能够更好的兼顾各种情况。
根据第一方面,或者以上第一方面的任意一种实现方式,将每一个目标声纹模型对应的验证结果进行融合,得到第一验证结果,包括:根据每一个目标声纹模型对应的权重系数,将每一个目标声纹模型对应的验证结果进行融合,得到第一验证结果。
示例性的,在一些实现方式中,每个声纹模型对应的权重系数也可以是根据每个声纹模型的类型、识别准确度确定的。
示例性的,在另一些实现方式中,还可以是基于每个声纹模型中嵌入层(Embedding)的特征向量来确定对应的权重系数。
根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:在第一语音数据中不存在第一唤醒词时,获取与第一电子设备关联的第二电子设备;如果获取到与第一电子设备关联的第二电子设备,获取在第二电子设备中预先注册的第二唤醒词;检测第一语音数据中是否存在第二唤醒词;在第一语音数据中存在第二唤醒词时,根据第二唤醒词对应的目标声纹模型对第一语音数据进行声纹验证,得到第三验证结果;根据第三验证结果和第二唤醒词对应的目标声纹阈值,得到第四验证结果,第四验证结果指示第一电子设备能否被第一语音数据唤醒。
这样,对于同一个用户使用多个电子设备的场景,该用户可以通过在任意一个电子设备中注册的唤醒词,唤醒与该电子设备关联的其他电子设备,从而无需用户在每个电子设备都注册相同的唤醒词,大大提升了用户体验。
第二方面,本申请提供了一种电子设备。该电子设备包括:存储器和处理器,存储器和处理器耦合;存储器存储有程序指令,程序指令由处理器执行时,使得所述电子设备执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
第二方面以及第二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第二方面以及第二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第三方面,本申请提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
第三方面以及第三方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第三方面以及第三方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第四方面,本申请提供了一种计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
第四方面以及第四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第四方面以及第四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第五方面,本申请提供了一种芯片,该芯片包括处理电路、收发管脚。其中,该收发管脚、和该处理电路通过内部连接通路互相通信,该处理电路执行第一方面或第一方面的任一种可能的实现方式中的方法,以控制接收管脚接收信号,以控制发送管脚发送信号。
第五方面以及第五方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第五方面以及第五方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
附图说明
图1为示例性示出的通信系统示意图;
图2为示例性示出的电子设备的硬件结构示意图;
图3为示例性示出的电子设备的软件结构示意图;
图4为示例性示出的配置文件生成阶段的示意图;
图5为示例性示出的注册唤醒词阶段的示意图;
图6为示例性示出的注册唤醒词的用户界面示意图;
图7为示例性示出的注册唤醒词的用户界面示意图;
图8为示例性示出的注册唤醒词的用户界面示意图;
图9为示例性示出的注册唤醒词的用户界面示意图;
图10为示例性示出的注册唤醒词阶段涉及的功能模块之间的交互示意图;
图11为示例性示出的唤醒词验证阶段涉及的功能模块之间的交互示意图;
图12为示例性示出的声纹验证模块实现声纹验证的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一目标对象和第二目标对象等是用于区别不同的目标对象,而不是用于描述目标对象的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个处理单元是指两个或两个以上的处理单元;多个系统是指两个或两个以上的系统。
随着人工智能、语音处理技术的高速发展,语音交互作为人们最常用的交互方式之一,越来越多地应用于人们的日常生活。例如,用户可以在使用手机的过程中通过语音交互控制手机,也可以在家中通过语音交互控制智能家居设备,甚至可以在车中通过语音交互控制车载设备等。即,电子设备可以通过对用户的声音信息进行语音识别,然后对于所识别的语音通过自然语言处理获得语音内容,然后基于语音内容执行对应操作。
可理解的,在对于语音交互功能的日常使用中,语音交互并不是长时间持续发生的状态。当在语音交互场景中,电子设备长期处于工作状态时,会影响电子设备的续航能力,影响电子设备的使用寿命,因此大多数情况下,电子设备都处于待机状态,然后通过语音唤醒(keyword spotting,KWS)功能将电子设备由待机状态转换为工作状态。
语音唤醒,是指在连续的语音数据中实时检测出包括特定唤醒词的片段,使电子设备由待机状态转为工作状态。通常情况下,语音唤醒技术可以采用声学模型对语音数据进行编码、解码,从而检测语音数据中是否包括唤醒词,进而确定是否对电子设备进行唤醒。
进一步地,为了保障用户个人信息的安全,以及使用体验,避免非注册用户通过语音唤醒注册用户的电子设备,如不法分子通过语音唤醒用户的电子设备,窃取电子设备中存储的文件,或者电子设备根据周围采集到的语音,如电视中播放的影视作品中的语音,自动唤醒用户的电子设备。目前的语音唤醒技术中融入了声纹验证,即在利用声学模型对语音数据进行编码、解码,检测到语音数据中的唤醒词后,进一步利用声纹验证模型对该唤醒词的语音数据进行声纹验证,从而确定唤醒词是否为注册用户(授权使用电子设备的用户)的所说,在确定唤醒词为注册用户所说时,才对电子设备进行唤醒。
声纹验证技术,是指利用声纹识别进行身份认证的技术。声纹识别是根据语音中所蕴含的说话人的个性特征去识别该段语音所含说话人身份的过程。
示例性的,在一些实现方式中,声纹验证技术可以实现说话人鉴别,如从多个说话人中识别出指定说话人,通常情况下,适用于刑侦破案、智能客服、智能家居等场景。
示例性的,在另一些实现方式中,声纹验证技术还可以实现说话人分割聚类,如将一段语音数据中不同用户的语音进行分割聚类,通常情况下,适用于通话录音、会议录音、智能家居等场景。
示例性的,在另一些实现方式中,声纹验证技术还可以实现说话人确认,如确认语音是否为录音,还是真人语音,通常情况下,适用于账号登录、机主核对等场景。
为了实现上述功能,声纹验证技术从最开始的模版匹配阶段,已经发展到端到端深度神经网络阶段(Deep Neural Networks,DNN)。这中间还经历了高斯混合模型(Gaussian mixed model,GMM)阶段、高斯混合模型-全局背景模型(Universal BackgroundModel,UBM)阶段(即GMM-UBM阶段)、联合因子分析(Joint Factor Analysis,JFA)阶段、基于GMM的向量(Vector)/概率线性判别分析(Probabilistic Linear DiscriminantAnalysis,PLDA)阶段、基于DNN的辨识向量(identification vector,i-Vector)阶段。关于各阶段的算法特性,可以参见相应的算法标准,本实施例对此不再赘述。
进一步地,为了更好的增加用户体验,目前很多电子设备支持自定义唤醒词,即用户除了生意系统默认的唤醒词对电子设备进行语音唤醒,还可以根据自己的使用习惯,设置满足自身需求的唤醒词。
然而对于一些支持对自定义唤醒词进行声纹验证的电子设备,由于自定义唤醒词的长度、覆盖的音素可能存在很大的差异,目前为了保证不同的唤醒词(系统默认和自定义)都能以较高的概率唤醒电子设备,设置的判决条件相对较松,如设置的判决阈值范围较大。这种方式虽然可以实现不同的唤醒词都能唤醒电子设备,但是会存在严重的误闯问题,如相同性别的非授权用户的声音信息也可以唤醒电子设备。
有鉴于此,本申请提供了一种具有高准确度的语音唤醒方法,该方法应用于电子设备。电子设备是指具有数据处理能力的设备,例如可以是服务器,或者是终端。其中,终端包括但不限于智能音箱、智能手机、平板电脑、笔记本电脑、个人数字助理(personaldigital assistant,PDA)或者智能穿戴设备等。
以智能手机(下文称为:手机)为例,该手机中可以预先存储基于不同参数、声纹阈值和声纹模型生成的配置文件。这样,在手机的麦克风拾取到用户注册的唤醒词后,通过提取唤醒词的参数,如音素个数、音调情况、音调所在位置、唤醒词字数等,进而根据提取的参数从预存的配置文件中选取一个与当前提取的参数匹配度满足设定要求,如最高的配置文件,将选取的配置文件中的声纹模型作为识别该唤醒词时使用的声纹模型,将选取的配置文件中的声纹阈值作为判断识别结果是否成功的阈值。
进一步地,在完成唤醒词的注册后,当手机的麦克风拾取到语音数据时,如果通过语音识别模块检测到通过上述方式注册的唤醒词,则可以根据该唤醒词对应的声纹模型和声纹阈值进行声纹验证。
相应地,如果声纹验证成功,则唤醒手机,并在被唤醒后,根据语音数据中包括的指令,执行对应的操作,如在被唤醒后根据语音数据中包括的用户指令控制音乐播放器播放指定音乐。
可理解的,关于上述所说的预先存储在手机中的配置文件,在一些实现方式中,例如可以由服务器生成,再下发给手机。
示例性的,在一些实现方式中,服务器可以是云服务器(下文称为:云端),例如是中心云计算集群中的中心服务器,或者是边缘云计算集群中的边缘服务器。当然,服务器也可以是本地数据中心中的服务器。可理解的,本地数据中心是指用户直接控制的数据中心。
以配置文件由云端生成为例,云端与实现本申请提供的语音唤醒方法的电子设备构成的通信系统如图1所示。
参见图1,示例性的,云端可以包括一个或多个功能模块。可理解的,云端包括的功能模块包括但不限于存储单元和处理单元。
继续参见图1,处理单元,用于根据不同的参数确定不同的声纹阈值和不同的声纹模型,并将不同的参数和对应的声纹阈值、声纹模型生成配置文件。
示例性的,处理单元例如可以根据参见1,确定声纹阈值A和声纹模型A;根据参数2,确定声纹阈值B和声纹模型B;根据参数3,确定声纹阈值C和声纹模型C;根据参数4,确定声纹阈值A和声纹模型B,声纹阈值B和声纹模型C等等,此处不再一一列举,本实施例对此不作限定。
也就是说,根据一组参数(包括的内容不限于音素个数、音调情况、音调所在位置、唤醒词字数等)可以确定一个声纹阈值和一个对应的声纹模型,也可以确定多个声纹阈值,和每一个声纹阈值对应的声纹模型。
相应地,处理单元在根据不同的参数确定不同的声纹阈值和不同的声纹模型后,会建立每组参数与确定的声纹阈值和声纹模型之间的映射关系,进而得到记录了不同参数与对应的声纹阈值和声纹模型的配置文件。关于配置文件中记录的数据的格式,例如图1所示。
继续参见图1,存储单元,用于存储处理单元按照上述处理流程处理得到配置文件,以便在满足指定条件时,将这些配置文件发送给对应的电子设备
示例性的,在一些实现方式中,上述所说的满足指定条件,例如为云端按照设定的周期,周期性的向接入的电子设备,如图1中的手机、平板电脑、智能音箱等下发配置文件。
示例性的,在另一些实现方式中,上述所说的满足指定条件,例如为存储单元中的配置文件发生变更时,云端向接入的电子设备,如图1中的手机、平板电脑、智能音箱等下发配置文件。
示例性的,在另一些实现方式中,上述所说的满足指定条件,例如为云端接收到电子设备,如图1中的手机、平板电脑、智能音箱等发送的请求获取配置文件的请求时,响应于该请求,下发配置文件。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,需要说明的是,在实际应用中,云端下发给每个电子设备的配置文件可以相同,也可以根据电子设备的类型、使用人群的喜好,下发仅适合该类电子设备和/或适合使用该类电子设备的用户的喜好的配置文件。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,还需要说明的是,具体到本实施例中,对于根据一组参数确定多个声纹阈值,和每一个声纹阈值对应的声纹模型的情况,配置文件中记录的内容,也是该组参数对应了多个声纹阈值和多个声纹模型。对于这种情况,如果某一唤醒词的参数与配置文件中的该组参数匹配,则在基于该组参数对应的声纹阈值和声纹模型进行声纹验证时,可以将多组声纹模型的识别结果进行融合处理,如根据一定的权重系数,进而得到一个识别结果。
相应地,最终与得到的识别结果进行比较的声纹阈值也可以是将多个声纹阈值进行融合处理后得到,或者选取一个对应的门限值最低,或者满足要求的。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,还需要说明的是,关于确定不同声纹阈值和声纹模型的参数的来源,例如可以是预先通过线下或线上收集方式,收集的众包用户习惯使用的唤醒词中提取出的。也就是说,基于图1所示的通讯系统,对于线上收集方式,云端可以先下建立通信连接的各电子设备,如图1中的手机、平板电脑、智能音箱等下发唤醒词问卷调查表(或者链接),图1未示出。
相应地,在用户完善唤醒词问卷调查表,触发提交操作后,电子设备响应于用户的操作行为,将完善后的唤醒词问卷调查表上传至云端,图1未示出。这样,处理单元就可以对收集的唤醒词进行参数提取,进而根据提取的参数,确定对应的声纹阈值和声纹模型。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
为了使得本申请提供的技术方案更加清楚、易于理解,下面结合图2和图3对电子设备的硬件结构和软件结构进行介绍。
参见图2,电子设备100可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。
示例性的,在一些实现方式中,传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等,此处不再一一例举,本申请对此不作限制。
此外,需要说明的是,处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processing unit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
可理解的,控制器可以是电子设备100的神经中枢和指挥中心。在实际应用中,控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
此外,还需要说明的是,处理器110中还可以设置存储器,用于存储指令和数据。在一些实现方式中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
示例性的,在一些实现方式中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purpose input/output,GPIO)接口,用户标识模块(subscriber identitymodule,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
继续参见图2,示例性的,充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实现方式中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实现方式中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
继续参见图2,示例性的,电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实现方式中,电源管理模块141也可以设置于处理器110中。在另一些实现方式中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
继续参见图2,示例性的,电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
需要说明的是,天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实现方式中,天线可以和调谐开关结合使用。
继续参见图2,示例性的,移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实现方式中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实现方式中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
此外,需要说明的是,调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实现方式中,调制解调处理器可以是独立的器件。在另一些实现方式中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
继续参见图2,示例性的,无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellitesystem,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near fieldcommunication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
具体到本申请实施例提供的技术方案中,电子设备100可通过移动通信模块150或无线通信模块160与云端进行通信。例如,电子设备100可以通过移动通信模块150向云端发送完善后的唤醒词问卷调查表,也可以通过移动通信模块150接收云端发送的配置文件。
此外,还需要说明的是,电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
继续参见图2,示例性的,显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实现方式中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
此外,还需要说明的是,电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
此外,还需要说明的是,ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实现方式中,ISP可以设置在摄像头193中。
此外,还需要说明的是,摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实现方式中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
此外,还需要说明的是,数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
此外,还需要说明的是,视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
继续参见图2,示例性的,外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
继续参见图2,示例性的,内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flashstorage,UFS)等。
具体到本申请实施例提供的技术方案中,云端下发的记录了不同参数和不同参数对应的声纹阈值、声纹模型的配置文件,以及用户预先注册的唤醒词,可以存储在电子设备的内部存储器121中,从而便于快速读取。
此外,还需要说明的是,电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
具体到本申请实施例提供的技术方案中,注册唤醒词,以及进行语音唤醒时,均需要借助麦克风170C实现对用户的声音的拾入,进而得到可供处理的语音数据。
此外,需要说明的是,如果在实际应用中,用户在注册唤醒词、进行语音唤醒时,电子设备连接了耳机,如通过耳机接口170插入了有线耳机,或者通过无需通信模块160连接了蓝牙耳机,则可以通过耳机的麦克风拾取用户的声音。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,还需要说明的是,音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实现方式中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
继续参见图2,示例性的,按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
继续参见图2,示例性的,马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
继续参见图2,示例性的,指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
关于电子设备100的硬件结构就介绍到此,应当理解的是,图2所示电子设备100仅是一个范例,在具体实现中,电子设备100可以具有比图中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图2中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
为了更好的理解图2所示电子设备100的软件结构,以下对电子设备100的软件结构进行说明。在对电子设备100的软件结构进行说明之前,首先对电子设备100的软件系统可以采用的架构进行说明。
具体的,在实际应用中,电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。
此外,可理解的,目前主流的电子设备使用的软件系统包括但不限于Windows系统、Android系统和iOS系统。为了便于说明,本申请实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。
此外,后续关于本申请实施例提供的语音唤醒方案,在具体实现中同样适用于其他系统。
参见图3,为本申请实施例的电子设备100的软件结构框图。
如图3所示,电子设备100的分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实现方式中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
其中,应用程序层可以包括一系列应用程序包。如图3所示,应用程序包可以包括设置、地图、WLAN、蓝牙、相机、音乐、智慧语音等应用程序,此处不再一一列举,本申请对此不作限制。
关于智慧语音应用程序,在本实施例中具体用于设置基于语音实现人机交互场景中各种功能数据的设置。例如,用户可以通过智慧语音应用,开启/关闭语音唤醒功能、注册唤醒词、删除唤醒词等。
此外,可理解的,在一些实现方式中,智慧语音应用程序所实现的功能,也可以集成在设置应用中,本实施例对此不作限制。
其中,应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。在一些实现方式中,这些编程接口和编程框架可以描述为函数。如图3所示,应用程序框架层可以包括视图系统、内容提供器、参数提取模块、参数匹配模块、声纹阈值和声纹模型选取模块、语音识别模块、声纹验证模块、验证结果确定模块等函数,此处不再一一列举,本申请对此不作限制。
示例性的,在本实施例中,语音识别模块,用于识别语音数据中的唤醒词,并在识别的语音数据是注册唤醒词阶段获得的语音数据时,通知参数提取模块对识别出的唤醒词进行参数提取,在识别的语音数据是语音唤醒阶段获得的语音数据时,通知声纹验证模块对识别出的唤醒词进行声纹验证。
可理解的,在本实施例中,语音唤醒阶段,例如指注册唤醒词后,电子设备处于待机状态的阶段。
示例性的,在本实施例中,参数提取模块,用于提取语音识别模块识别出的唤醒词对应的参数,如音素个数、音调情况、音调所在位置、唤醒词字数等。
示例性的,参数匹配模块,用于根据参数提取模块提取出的参数,从上文所说的配置文件中查找匹配的参数。
可理解的,在实际应用中,匹配的标准例如可以是当前从唤醒词中提取的参数与配置文件中记录的参数匹配度满足设定要求,如匹配度最高,或者匹配度大于80%。
示例性的,匹配度的确定,例如可以是根据匹配的参数项确定,如在参数包括音素个数、音调情况、音调所在位置、唤醒词字数这4个参数项时,可以根据业务需求为每一项分配设定的占比,然后根据这4个参数项的匹配情况,确定最终的匹配度。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
示例性的,在本实施例中,声纹阈值和声纹模型选取模型,用于根据参数匹配模块匹配出的参数,将该参数对应的声纹阈值和声纹模型确定为该用户所说的唤醒词对应的声纹阈值和声纹模型。
可理解的,由于不同的用户的语言特色,因此即便是相同的唤醒词,不同的用户的发音也有所不同。这样,提取出的参数就会存在差异,而本实施例中,基于获取到的语音数据中的唤醒词进行参数提取,然后以参数为维度确定适合当前用户的声纹阈值和声纹模型,从而实现了同一唤醒词,参数提取模块提取的参数不同,进而参数匹配模块匹配的参数不同,最终声纹阈值和声纹模型选取模型确定的声纹阈值和声纹模型不同,即实现了因人而异,更好的满足用户的实际使用需求,保证声纹验证的准确性。
示例性的,在本实施例中,声纹验证模块,用于在语音识别模块识别的语音数据是语音唤醒阶段获得的语音数据时,利用注册唤醒词阶段,声纹阈值和声纹模型选取模块确定的该唤醒词对应的声纹模型,对语音唤醒阶段语音识别模块识别出的唤醒词进行声纹验证,如说出唤醒词的用户的声音进行声学特征的处理,进而根据声纹模型确定声学特征对应的说话人表征向量,最终通过比对注册唤醒词阶段该唤醒词对应的说话人表征向量和语音唤醒阶段该唤醒词对应的说话人表征向量,得到二者的比对分数。
示例性的,在本实施例中,验证结果确定模块,用于将注册唤醒词阶段,声纹阈值和声纹模型选取模块确定的该唤醒词对应的声纹阈值,与声纹验证模块得到的分数进行比较,确定本次验证结果。例如,在声纹验证模块得到的分数大于声纹阈值时,确定本次验证成功,这时电子设备就可以响应于该唤醒词对应的唤醒操作,唤醒电子设备;反之,电子设备不作响应,继续处于待机状态。
相应地,电子设备在被唤醒后,还可以根据语音数据中包括的指令,执行对应的操作。
例如,在获取到的语音数据为“打开音乐播放器,播放张三的拍手歌”时,如果“打开音乐播放器”被用户提前注册为了唤醒词,则语音识别模块识别到“打开音乐播放器”后,就会通知声纹验证模块利用声纹阈值和声纹模型选取模块确定的“打开音乐播放器”这一唤醒词对应的声纹模型对“打开音乐播放器”进行声纹验证,由验证结果确定模块利用声纹阈值和声纹模型选取模块确定的“打开音乐播放器”这一唤醒词对应的声纹阈值对声纹验证模块确定的得分进行判断。
相应地,如果验证结果确定模块确定声纹验证模块得到的分数大于声纹阈值,电子设备响应于该唤醒词对应的唤醒操作,唤醒电子设备,并打开音乐播放器。
相应地,在打开音乐播放器后,电子设备根据语音数据中包括的其他用户指令,如“播放张三的拍手歌”控制音乐播放器播放张三的拍手歌。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,可以理解的,上述各功能模块的划分,仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。在实际应用中,上述功能也可以集成在一个功能模块中实现,本实施例对此不作限制。
此外,还需要说明的是,上述位于应用程序框架层中的视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
此外,还需要说明的是,上述位于应用程序框架层中的内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等,此处不再一一列举,本申请对此不作限制。
Android Runtime包括核心库和虚拟机。Android Runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维(3D)图形处理库(例如:OpenGL ES),二维(2D)图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
可理解的,上述所说的2D图形引擎是2D绘图的绘图引擎。
此外,可理解的,Android系统中的内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,麦克风驱动,传感器驱动等。示例性的,麦克风驱动可用于将麦克风拾取的用户的语音数据传输给语音识别模块,以使语音识别模块根据上述所说的注册唤醒词阶段和语音唤醒阶段,作出不同的处理。
关于电子设备100的软件结构就介绍到此,可以理解的是,图3示出的软件结构中的层以及各层中包含的部件,并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的层,以及每个层中可以包括更多或更少的部件,本申请不做限定。
通过上述对云端与电子设备的通信系统的描述,以及上述电子设备中应用程序框架层中设置的实现本申请提供的语音唤醒方案的功能模块的描述可知,本申请提供的语音唤醒方案,例如可以包括配置文件生成阶段、注册唤醒词阶段、唤醒词验证阶段。
为了更好的理解本申请提供的语音唤醒方案,以下结合附图从配置文件生成阶段、注册唤醒词阶段、唤醒词验证阶段这三个阶段对本申请提供的语音唤醒方案进行具体说明。
配置文件生成阶段:
示例性的,在一些实现方式中,配置文件生成阶段可以发生在云端,即配置文件由云端生成,这样能够降低对电子设备资源的占用,同时便于管理、维护。
示例性的,在另一些实现方式中,配置文件生成阶段也可以发生在电子设备本地,即配置文件由电子设备自己生成,这样可以保证该电子设备中存储的配置文件更能贴合使用该电子设备的用户的行为、喜好,从而能够更加快速、精准的实现语音唤醒。
可理解的,不论由云端,还是电子设备来生成配置文件,配置文件生成阶段均可以包括图4所示的6个子阶段。
为了更好的理解配置文件生成阶段,以下结合图4示出的6个子阶段进行具体说明。
唤醒词收集子阶段:
示例性的,在一些实现方式中,可以组织线上活动收集众包用户喜欢的唤醒词,关于线上收集唤醒词的方式可以参见上文由云端给建立通信的电子设备发送唤醒词问卷调查表(或者链接)实现唤醒词收集的描述,此处不再赘述。
示例性的,在另一些实现方式中,还可以组织线下活动收集众包用户喜欢的唤醒词。例如,通过派遣工作人员到不同活动场所收集不同用户群体(不同年龄、不同职业、不同性别等)喜欢使用的唤醒词,进而汇总录入到云端。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,可理解的,关于上述所说的众包,指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众志愿者的做法。即,通过网络做产品的开发需求调研,以用户的真实使用感受为出发点。因此,通过收集众包用户喜欢的唤醒词,能够尽可能覆盖市面上常见的唤醒词。
参数提取子阶段:
从声纹的原理进行分析,发现唤醒词越长(字数越多),覆盖的音素越多,提取的声纹特征信息越准确,这样越容易区分唤醒词的注册人和冒认者。
可理解的,关于上述所说的音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。
此外,音素的音调,以及不同音调所在的位置,对验证结果也有影响。基于此,在本实施例中,参数提取子阶段进行的参数提取操作,例如是提取收集的唤醒词包括的音素个数、每个音素的音调情况、每个音调所在的位置,以及唤醒词字数。
可理解的,在本实施例中,上述所说的音调具体是指声调,如普通话有四个声调,分别为阴平(通常所说的一声)、阳平(通常所说的二声)、上声(通常所说的三声)、去声(通常所说的四声)。
基于此,在本实施例中,参数提取子阶段进行的参数提取操作,例如是提取收集的唤醒词包括的音素个数、每个音素的音调情况、每个音调所在的位置,以及唤醒词字数。
示例性的,在实际应用中,可以基于自动语音识别技术(Automatic SpeechRecognition,ASR)对收集到的唤醒词进行音素和声调的标注,进而方便、快速的提取唤醒词包括的音素个数、每个音素的音调情况、每个音调所在的位置,以及唤醒词字数。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
典型唤醒词筛选子阶段:
可理解的,为减少服务器的处理压力,同时保证最基于唤醒词的参数,最终确定的声纹阈值和声纹模型能够更加精准的实现语音唤醒,降低误闯情况的发生,在基于收集的唤醒词的参数进行声纹阈值和声纹模型确定之前,可以进行一次过滤操作。
示例性的,在一些实现方式中,典型唤醒词的筛选依据例如为:出现次数大于设定的阈值/占比(如30%)、字数个数在设定的范围(如4-6个字)、音素个数在设定的范围/大于设定的阈值、包含指定的音调(如一声、四声)、指定音调在指定位置等。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,需要说明的是,由于不同的唤醒词包括的音素个数、每个音素的音调情况、每个音调所在的位置,以及唤醒词字数可能相同,因此本实施例中以提取的参数为筛选维度,而不是以唤醒词对应的具体文字为维度,这样为相同的参数设置对应的声纹阈值和声纹模型即可,无需按唤醒词进行设置,能够有效缩小配置文件的大小,并且筛选、匹配维度更加精准,从而保证基于该方式确定的声纹阈值和声纹模型进行的声纹验证结果更加精准。
文本转语音子阶段:
可理解的,由于在实际应用中,收集的众包用户喜欢使用的唤醒词,通常为文本形式。而声纹验证需要基于语音数据实现,因此在筛选出典型的唤醒词后,可以基于文本转语音方法,例如从文本到语音方法(Text To Speech,TTS),或者其他能够模拟人的发音过程的算法,将筛选出典型的唤醒词转换为不同性别、年龄、语音特色用户的语音数据。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。在实际应用中,可以根据业务需求选取文本转语音技术将文本格式的唤醒词转换为语音格式。
此外,在另一些实现方式中,可以在唤醒词收集子阶段,直接收集众包用户喜欢使用的唤醒词对应的语音数据,并记录号不同语音数据对应的唤醒词。这样,后续就无需执行文本转语音子阶段的处理流程。
声纹阈值和声纹模型确定子阶段:
在得到筛选出的典型唤醒词的语音数据和对应的参数后,可以将这些信息作为训练数据对不同算法构建的不同复杂度的声纹训练模型进行迭代训练,直到训练结果满足设定的业务需求,就可以将满足设定的业务需求的声纹训练模型作为该参数对应的声纹模型,将该声纹训练模型对应的声纹阈值确定为该参数对应的声纹阈值。由此,就可以实现不同参数与不同声纹阈值和声纹模型的对应。
需要说明的,在本实施例中,声纹训练模型例如可以分为简单模型、中等模型和大型模型三种。
在本实施例中,简单模型,例如是层数较少的神经网络模型(Neural Networks,NN),这类模型构建的声纹模型整体运算量小,通常适用于唤醒词字数较多、覆盖的音素较多、特定位置包含了特定音调的音素的唤醒词。即,这基于这类参数确定的声纹模型通常为简单模式。
示例性的,在一些实现方式中,简单模型具体可以是DNN,时延深度神经网络模型(Time Deep Neural Networks,TDNN)。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
在本实施例中,中等模型,例如是层数较多的残差网络模型,如Resnet34、Resnet50等,这类模型构建的声纹模型设计相对复杂,运算量较大,但准确度较高,通常适用于唤醒词字数较少、覆盖的音素较少、特定位置没有包含特定音调的音素的唤醒词。即,这基于这类参数确定的声纹模型通常为中等模式。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
在本实施例中,大型模型,例如是层数较多,并且强调渠道关注、传播和聚合的ECAPA(Emphasized Channel Attention Propagation and Aggregation)模型,这类模型构建的声纹模型设计很复杂,运算量很,但准确度很高,通常适用于唤醒词字数较少、覆盖的音素较少、没有特定的音调、特定位置没有包含特定音调的音素的唤醒词。即,这基于这类参数确定的声纹模型通常为大型模式。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。在实际应用中,上述三种模型的选取,也可以根据业务需求达到的识别精度确定,本实施例对此做不限定。
此外,可理解的,在实际应用中,对于相似度较高的参数,如果每一组参数对应的声纹阈值和声纹模型都不相同,可以选取一组唤醒成功率高(误闯率低)的参数对应的声纹阈值和声纹模型,作为相似度在设定范围的多组参数对应的声纹阈值和声纹模型。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
参数、声纹阈值和声纹模型存储子阶段:
通过上述描述可知,参数、声纹阈值和声纹模型存储子阶段执行的具体操作即将不同参数对应的声纹阈值和声纹模型建立关系,生成配置文件,并进行存储。
关于配置文件生成阶段的描述就介绍到此,应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。通过根据不同的参数确定不同的声纹模型和声纹阈值,进而生成配置文件,从而能够在注册唤醒词阶段直接根据注册的唤醒词的参数从配置文件中选择适合使用当前电子设备的注册用户的声纹模型和声纹阈值,从而使得后续声纹验证阶段的验证结果更加精准,使得语音唤醒功能更加准确、降低误闯情况发生。
注册唤醒词阶段:
示例性的,在一些实现方式中,注册唤醒词阶段可以包括图5所示的4个子阶段。
为了更好的理解配置文件生成阶段,以下结合图5示出的4个子阶段进行具体说明。
输入唤醒词子阶段:
在本实施例中,注册唤醒词需要借助电子设备的麦克风实现对用户的声音的拾入,进而得到可供处理的语音数据。
此外,需要说明的是,如果在实际应用中,用户在注册唤醒词时,电子设备连接了耳机,如通过耳机接口插入了有线耳机,或者通过无需通信模块连接了蓝牙耳机,则可以通过耳机的麦克风拾取用户的声音。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,通过上文描述可知,应用程序层可以安装专门用于设置基于语音实现人机交互场景中各种功能数据的智慧语音应用程序,也可以将智慧语音程序所实现的功能集成到设置应用程序中。为了便于描述,本实施例以将智慧语音程序所实现的功能集成到设置应用程序中为例,结合图6至图9对通过设置应用程序开启语音唤醒功能,并注册唤醒词的场景进行说明。
参见图6中(1)所示的界面10a,示例性的,电子设备,如手机当前的界面10a中可以包括一个或多个控件。控件包括但不限于:网络控件、电量控件、应用图标控件等。
继续参见图6中(1)所示的界面10a,示例性的,应用图标控件包括但不限于:时钟应用图标控件、日历应用图标控件、图库应用图标控件、备忘录应用图标控件、文件管理应用图标控件、电子邮件应用图标控件、音乐应用图标控件、计算器应用图标控件、视频应用图标控件、录音机应用图标控件、天气应用图标控件、浏览器应用图标控件、设置应用图标控件10a-1等,此处不再一一列举,本申请对此不作限制。
继续参见图6中(1)所示的界面10a,示例性的,当用户点击了控件10a-1后,手机响应于用户的操作行为,启动图6中(2)所示的界面10b。
参见图6中(2)所示的界面10b,示例性的,界面10b中可以包括一个或多个控件。控件包括但不限于:用于退出界面10b的控件10b-1,用于设置手机的声音和振动模式的控件、用于设置通知的控件、用于设置语音唤醒功能的控件10b-2、用于查看手机安装应用的控件、用于查看手机电池信息的控件、用于查看手机当前存储空间的控件、用于查看手机的安全信息的控件等,此处不再一一列举,本申请对此不作限制。
继续参见图6中(2)所示的界面10b,示例性的,当用户点击了控件10b-2后,手机响应于用户的操作行为,启动图7中(1)所示的界面10c。
参见图7中(1)所示的界面10c,示例性的,界面10c中可以包括一个或多个控件。控件包括但不限于:用于退出界面10c的控件10c-1,用于开启或关闭语音唤醒功能的控件10c-2。
示例性的,在本实施例中,以图7中(1)所示的界面10c中控件10c-2的状态表示语音唤醒功能未开启,即语音唤醒功能处于关闭状态;以图7中(2)所示的界面10c中控件10c-2的状态表示语音唤醒功能开启,即语音唤醒功能处于开启状态。
继续参见图7中(1)所示的界面10c,示例性的,当用户点击了控件10c-2后,手机响应于用户的操作行为,控件10c-2从图7中(1)所示的状态切换为图7中(2)所示的状态。
参见图7中(2)所示的界面10c,示例性的,在控件10c-2从图7中(1)所示的状态切换为图7中(2)所示的状态后,界面10c中还会显示唤醒词的窗口10c-3。
继续参见图7中(2)所示的界面10c,示例性的,窗口10c-3中可以包括一个或多个控件。控件包括但不限于:显示已注册成功的唤醒词的控件,用于注册新的唤醒词的控件10c-31。
继续参见图7中(2)所示的界面10c,示例性的,为区分哪些唤醒词是系统默认的,哪些唤醒词是用户自定义的,可以在显示已注册成功的唤醒词的控件中添加系统默认标识,或自定义标识。
示例性的,在一些实现方式中,用户可以通过长按某一个显示已注册成功的唤醒词的控件,实现对该唤醒词的删除。
示例性的,在另一些实现方式中,用户可以通过向左或向右滑动某一个显示已注册成功的唤醒词的控件,实现对该唤醒词的删除。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
继续参见图7中(2)所示的界面10c,示例性的,当用户点击了控件10c-31后,手机响应于用户的操作行为,启动图8中(1)所示的界面10d。
参见图8中(1)所示的界面10d,示例性的,界面10d中可以包括一个或多个控件。控件包括但不限于:用于取消录制的唤醒词,并退出界面10d的控件10d-1;用于保存录制的唤醒词,并退出界面10d的控件10d-2;用于触发录制唤醒词的控件10d-3。
参见图8中(1)所示的界面10d和图8中(2)所示的界面10d,示例性的,当用户按下控件10d-3时,手机响应于用户的操作行会提示用户重复说出想要录制的唤醒词,例如3次。具体实现流程可以是,用户按下控件10d-3后,手机语音提示用户“请说出您向录制的唤醒词”,如果用户说出“芝麻开门”,手机录制第一次“芝麻开门”的语音信息后,没有采集到其他的语音信息,手机识别到用户要录制的唤醒词为“芝麻开门”,会语音提示用户“请再次说出芝麻开门”。这样重复3次,便可以完成一个唤醒词的录入。
相应地,在完成一个唤醒词的录入后,用户会松开对控件10d-3的按压,手机响应于用户的操作行为,界面10d中会显示如图8中(2)所示的界面10d中的内容“唤醒词录入成功”。
继续参见图8中(2)所示的界面10d,当用户点击了控件10d-1时,手机响应于用户的操作行为,对本次录制的唤醒词不作处理,退回到图7中(2)所示的界面10c,即窗口10c-3中没有新增的唤醒词,依旧是“你好YOYO”这一个系统默认唤醒词。
继续参见图8中(2)所示的界面10d,当用户点击了控件10d-2时,手机响应于用户的操作行为,对本次录制的唤醒词以及对应的语音数据进行保存,退回到图9所示的界面10c,窗口10c-3中新增了一个唤醒词的显示控件,如图9中的“芝麻开门”。
由此,完成了注册唤醒词阶段中输入唤醒词子阶段的操作。应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
参数提取子阶段:
在本实施例中,参数提取子阶段的操作具体是由位于应用程序框架层中的参数提取模块完成的。
关于参数提取模块提取用户注册的唤醒词的参数的实现细节,可以参见上文,此处不再赘述。
参数匹配子阶段:
在本实施例中,参数匹配子阶段的操作具体是由位于应用程序框架层中的参数匹配模块完成的。
关于参数匹配模块从配置文件中查找与注册的唤醒词的参数匹配的参数的过程,例如为将参数提取模块提取的参数与配置文件中记录的每一个参数进行特征比对,进而将配置文件中满足设定要求的参数作为与参数提取模块提取的参数匹配的参数,具体的实现细节,可以参见上文,此处不再赘述。
声纹阈值和声纹模型选取子阶段:
在本实施例中,声纹阈值和声纹模型选取子阶段的操作具体是由位于应用程序框架层中的声纹阈值和声纹模型选取模型完成的。
关于声纹阈值和声纹模型选取模型为用户注册的唤醒词,从配置文件中匹配适合的声纹阈值和声纹模型的实现细节,可以参见上文,此处不再赘述。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
为了更好的理解注册唤醒词阶段的实现过程中涉及的应用程序框架层中各功能模块的交互处理逻辑,以下结合图10进行具体说明。
S101,语音识别模块获取到麦克风拾取的语音数据后,确定语音数据对应的唤醒词。
示例性的,在一些实现方式中,语音识别模块确定语音数据对应的唤醒词的方式,例如可以基于语音识别技术,识别语音数据对应的文本,即执行语音转文本操作,进而将转换得到的文本作为用户当前注册的唤醒词,并将确定的唤醒词的文本发送给参数提取模块。
S102,参数提取模块提取唤醒词包括的参数。
例如先基于ASR技术,对文本形式的唤醒词进行音素、音调的自动标准;然后确定该唤醒词包括的音素个数、每个因素对应的音调情况、每个音调所在的位置,以及该唤醒词的字数;最后将提取的上述信息作为标识该唤醒词的参数。
S103,根据唤醒词包括的参数,从配置文件中查找匹配度满足设定要求的参数。
示例性的,在一些实现方式中,配置文件中可以记录多组参数分别对应的声纹阈值和声纹模型,因此在根据提取的当前注册的唤醒词包括的参数,从二胖子文件查找匹配度满足设定要求的参数时,例如可以以每一个参数项,如音素个数、音调情况、音调所在的位置、注册唤醒词字数为维度,逐一对配置文件中记录的参数进行筛选匹配。
相应地,如果筛选出的满足设定要求,如匹配度大于80%的参数有多组,可以根据需求,从中选取匹配度最高的一组参数作为满足设定要求的参数。
S104,将配置文件中匹配度满足设定要求的参数对应的声纹阈值和声纹模型确定为唤醒词对应的声纹阈值和声纹模型。
通过上文的描述,以及图1示例性示出的配置文件的样式可知,在配置文件中,每一组参数和对应的声纹阈值、声纹模型存在对应关系。因此,在确定匹配度满足设定要求的参数后,就可以从配置文件中查找到适合当前注册的唤醒词的声纹阈值和声纹模型。
此外,需要说明的是,在实际应用中,如果没有在本地存储的配置文件中查找到与参数提取模块提取的唤醒词包括的参数匹配的参数,可以选取一组默认的参数作为与之匹配的参数,后续通过学习不断更新,以使得该参数对应的声纹阈值和声纹模型更加适合当前注册的唤醒词。
此外,在另一些实现方式中,如果没有在本地存储的配置文件中查找到与参数提取模块提取的唤醒词包括的参数匹配的参数,还可以进一步向云端发起请求,查找云端是否存在更新的配置文件,更新的配置文件中是否存在与之匹配的参数。
相应地,若存在,则将从云端查找到的结果更新到本地的配置文件中;否则,可以选取一组默认的参数作为与之匹配的参数,后续通过学习不断更新,以使得该参数对应的声纹阈值和声纹模型更加适合当前注册的唤醒词。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
为了更好的理解,以下结合实例进行说明。示例性的,如果由语音识别模型识别出的唤醒词为“芝麻开门”,由参数提取模块对“芝麻开门”进行参数提取处理后,提取出的参数例如表示为参数A,参数匹配模块基于参数A,在图1中示出的配置文件中进行查找,如果确定参数1的匹配度与参数A满足设定要求,则声纹阈值和声纹模型选取模块将参数1对应的声纹阈值A和声纹模型A确定为“芝麻开门”这一唤醒词对应的声纹阈值和声纹模型。
关于注册唤醒词阶段的描述就介绍到此,应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
由此,通过在注册唤醒词阶段提取注册的唤醒词的参数信息,并根据提取的参数信息从从配置文件中选择适合使用当前电子设备的注册用户的声纹模型和声纹阈值,从而使得后续声纹验证阶段的验证结果更加精准,使得语音唤醒功能更加准确、降低误闯情况发生。
唤醒词验证阶段:
为了更好的理解唤醒词验证阶段的实现过程中涉及的应用程序框架层中各功能模块的交互处理逻辑,以下结合图11进行具体说明。
S201,语音识别模块获取到麦克风拾取的语音数据后,确定语音数据对应的唤醒词。
关于唤醒词验证阶段中,语音识别模块确定麦克风拾取的语音数据对应的文本的方式,与注册唤醒词阶段语音识别模块确定麦克风拾取的语音数据对应的文本的方式,即上述实施例中S101大致相同,具体实现细节可以参见针对S101的描述,此处不再赘述。
此外,需要说明的是,在唤醒词验证阶段,声纹验证模块需求根据当前确定的唤醒词选择对应的声纹模型对唤醒词对应的语音数据进行声纹验证,验证结果确定模块需要根据当前确定的唤醒词选择对应的声纹阈值进行分数比对。故而,语音识别模块识别出语音数据对应的文本后,需要将该文本与注册唤醒词阶段注册的唤醒词对应的文本进行比对,如果存在相同的已经注册的唤醒词,则确定该语音数据对应的文本中包括唤醒词,并将确定的唤醒词和语音数据发给声纹验证模型,将确定的唤醒词发送给验证结果确定模块。
可理解的,如果通过检测,确定没有存在预先注册的唤醒词与当前获取到的语音数据对应的文本匹配,则电子设备不响应该语音数据。
此外,还需要说明的是,在实际应用中,如果通过检测,确定没有存在预先注册的唤醒词与当前获取到的语音数据对应的文本匹配时,还可以进一步获取与该电子设备(为了便于区分称为:第一电子设备)关联的其他电子设备(为了便于区分称为:第二电子设备)中是否存在与当前获取到的语音数据对应的文本匹配的唤醒词(在第二电子设备中预先注册的)。
相应地,如果存在,则可以从关联的第二电子设备中获取对应的声纹阈值和声纹模型,以便声纹验证模块根据从第二电子设备中获取到的声纹模型进行声纹验证,验证结果确定模块根据从第二电子设备中获取到的声纹阈值进行结果判定。
可理解的,上述所说的第二电子设备,例如为智能手机、平板电脑、可穿戴设备等,此处不再一一例举,本实施例对此不作限制。
这样,对于同一个用户使用多个电子设备的场景,该用户可以通过在任意一个电子设备中注册的唤醒词,唤醒与该电子设备关联的其他电子设备,从而无需用户在每个电子设备都注册相同的唤醒词,大大提升了用户体验。
S202,声纹验证模块根据唤醒词对应的声纹模型对语音数据进行声纹验证,确定唤醒词对应的分数。
关于声纹验证模块执行的声纹验证操作,实现逻辑如图12所示。
参见图12,示例性的,声纹验证模块在进行声纹验证时,需要将注册该唤醒词时的语音数据(图12中的注册语音1)与唤醒词验证阶段获取到的同一唤醒词对应的语音数据(图12中的待识别语音2)进行声学特征的提取,进而得到注册语音1对应的声学特征向量1和待识别语音2对应的声学特征向量2。
继续参见图12,示例性的,在实际应用中,对注册语音1和待识别语音2进行的声学特征提取操作,例如可以是基于频域特征算法(FBank)、梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)、感觉加权线性预测算法(Perceptual linear predictive,PLP)中的任意一种或几种实现的。
此外,可理解的,在实际应用中,声学特征的提取操作,也可以基于其他声学特征提取算法,本实施例对此不作限制。
继续参见图12,经声学特征提取操作得到的声学特征向量1和声学特征向量2会输入根据该唤醒词(待识别语音2)对应的声纹模型中,由声纹模型进行处理,进而根据声学特征向量1得到说出注册语音1的说话人表征向量1,根据声学特征向量2得到说出待识别语音2的说话人表征向量2。
通过上文描述可知,对声学特征向量进行处理的声纹模型可能是神经网络模型(简单模型),如DNN、TDNN;也可能是残差网络模型(中等模型),如Resnet34、Resnet50;还可能是ECAPA时延神经网络模型(大型模型)。具体根据参数匹配模块匹配出的配置文件中的参数对应的声纹模型确定。
继续参见图12,由于说话人表征向量能够标识具体的说话人身份,因此通过将得到的说话人表征向量1和说话人表征向量2进行判断处理,具体为判断两个说话人表征向量的匹配度,进而得到对应的分数。
继续参见图12,示例性的,在实际应用中,对说话人表征向量1和说话人表征向量2进行判断处理时,可以基于余弦函数(Cosin)、概率线性判别分析算法(ProbabilisticLinear Discriminant Analysis,PLDA)实现的。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
此外,需要说明是,通过上文的描述可知,配置文件中,同一组参数对应的声纹阈值和声纹模型可能有多组,对于这种场景,可以利用每一个声纹模型采用图12所示的处理流程,确定一个分数。然后基于每一个声纹模型对应的权重系数,对得到分数进行加权处理,最后汇总加权处理后的所有声纹模型对应的得分,将最终得到的得分作为验证确定模块判决所使用的分所。
示例性的,在一些实现方式中,每个声纹模型对应的权重系数也可以是根据每个声纹模型的类型、识别准确度确定的,例如可以设置简单模型类型的声纹模型的权重系数小于中等模型类型的声纹模型的权重系数,而中等模型类型的声纹模型的权重系数又小于大型模型类型的声纹模型的权重系数。
示例性的,在另一些实现方式中,还可以是基于每个声纹模型中嵌入层(Embedding)的特征向量来确定对应的权重系数。
此外,需要说明的是,在声纹验证模块确的分数是融合了多个声纹模型的验证结果的情况下,用于确定验证结果的声纹阈值,也可以基于对应的权重系数确定,或者选取一个对应的取值最低的,本实施例对此不作限定。
应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
S203,验证结果确定模块根据唤醒词对应的声纹阈值和分数,确定验证结果。
可理解的,在本实施例中,声纹阈值指的是当声纹验证模块确定的分数大于某一个值时,验证结果确定模块确定当前声纹验证成功(验证结果成功);否则,确定当前声纹验证失败,该门限值就是声纹阈值。因此,验证结果确定模块通过将声纹验证模块提供的分数与配置文件中记录的与该唤醒词匹配的参数对应的声纹阈值进行比对,便可以确定当前声纹验证究竟是成功,还是失败。
相应地,在如果验证成功,则电子设备响应于该唤醒词对应的操作,唤醒电子设备,电子设备在被唤醒后,根据语音数据中包括的指令,执行对应的操作,如在被唤醒后根据语音数据中包括的用户指令控制音乐播放器播放指定音乐。
反之,即验证失败,电子设备不做处理,继续保持当前状态,如待机状态。
关于唤醒词验证阶段的描述就介绍到此,应当理解的是,上述说明仅是为了更好的理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
由此,根据业务需求由云端或电子设备本地采用上文给出的配置文件生成阶段的方式,生成配置文件,从而使得电子设备在获取到用户注册的唤醒词时,能够根据上文注册唤醒词阶段的方式从配置文件中选择适合注册该唤醒词的用户对应的声纹模型和声纹阈值,进而在开启语音唤醒功能后,电子设备获取到用户输入的语音数据,并从该语音数据中检测到已经被注册的唤醒词后,采用上文给出的声纹验证阶段的方式,利用注册唤醒词阶段确定的该唤醒词对应的声纹模型和声纹阈值进行声纹验证。这样,就能精准的识别唤醒词和唤醒人(因人而异,因唤醒词而异),从而提高语音唤醒的精准度,降低误闯的情况发生。
此外,需要说明的是,具体到本申请中,考虑到具体方案的实现,以及在离网状态下可以实现上述方案,配置文件的生成,以及各种声纹模型的训练、维护均由电子设备本地完成。这样即便没有接入网络,无法与云端进行交互,电子设备也可以按照上述方式实现语音唤醒。
此外,还需要说明的是,在本申请中,不同的唤醒词使用的声纹模型可以共用,比如在本地存储的声纹模型有A至E这5个时,不用的唤醒词可以单独使用其中适配的一个声纹模型,也可以基于特定的加权方式,使用其中的多个。
进一步地,在一些实现方式中,不同的电子设备还可以通过局域网、蓝牙、近场通信技术等,实现将各自维护管理的声纹模版进行交互,本申请对此不作限定。
此外,可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
此外,需要说明的是,在实际的应用场景中由电子设备实现的上述各实施例提供的语音唤醒方法,也可以由电子设备中包括的一种芯片系统来执行,其中,该芯片系统可以包括处理器。该芯片系统可以与存储器耦合,使得该芯片系统运行时调用该存储器中存储的计算机程序,实现上述电子设备执行的步骤。其中,该芯片系统中的处理器可以是应用处理器也可以是非应用处理器的处理器。
另外,本申请实施例还提供一种计算机可读存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的语音唤醒方法。
另外,本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得电子设备执行上述相关步骤,以实现上述实施例中的语音唤醒方法。
另外,本申请的实施例还提供一种芯片(也可以是组件或模块),该芯片可包括一个或多个处理电路和一个或多个收发管脚;其中,所述收发管脚和所述处理电路通过内部连接通路互相通信,所述处理电路执行上述相关方法步骤实现上述实施例中的语音唤醒方法,以控制接收管脚接收信号,以控制发送管脚发送信号。
此外,通过上述描述可知,本申请实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (12)

1.一种语音唤醒方法,其特征在于,所述语音唤醒方法包括:
接收第一语音数据;
检测所述第一语音数据中是否存在第一唤醒词,所述第一唤醒词为在第一电子设备中预先注册的唤醒词;
在所述第一语音数据中存在所述第一唤醒词时,根据所述第一唤醒词对应的目标声纹模型对所述第一语音数据进行声纹验证,得到第一验证结果,所述第一验证结果指示所述第一语音数据对应的说话人表征向量与注册所述第一唤醒词的说话人表征向量的匹配度;
根据所述第一验证结果和所述第一唤醒词对应的目标声纹阈值,得到第二验证结果,所述第二验证结果指示所述第一电子设备能否被所述第一语音数据唤醒;
其中,所述目标声纹模型和所述目标声纹阈值分别根据所述第一唤醒词的参数确定,不同的参数对应不同的目标声纹模型、不同的目标声纹阈值,所述第一唤醒词的参数包括所述第一唤醒词的字数、所述第一唤醒词中包括的音素个数和每个音素的音调情况,以及每个音调所在的位置。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于注册唤醒词操作,获取注册的唤醒词对应的第二语音数据;
识别所述第二语音数据中的第一唤醒词;
提取所述第一唤醒词包括的参数;
根据所述参数,从配置文件中查找匹配度满足设定要求的目标参数;
将所述配置文件中所述目标参数对应的声纹模型作为所述第一唤醒词对应的目标声纹模型;
将所述配置文件中所述目标参数对应的声纹阈值作为所述第一唤醒词对应的目标声纹阈值。
3.根据权利要求2所述的方法,其特征在于,所述提取所述第一唤醒词包括的参数,包括:
统计所述第一唤醒词的字数;
基于自动语音识别技术,对所述第一唤醒词进行音素和音调的标注;
统计标注后的所述第一唤醒词中包括的音素个数和每个音素的音调情况,以及每个音调所在的位置;
将所述第一唤醒词的字数、所述音素个数、每个音素的音调情况,以及每个音调所在的位置,作为所述第一唤醒词的参数。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从云端获取配置文件,所述配置文件中记录了不同参数对应的目标声纹阈值和目标声纹模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
收集唤醒词样本;
提取每一个所述唤醒词样本包括的参数;
基于文本转语音技术,将每一个所述唤醒词样本从文本转换为语音数据;
根据每一个所述唤醒词样本包括的参数和对应的语音数据,确定每一个所述唤醒词样本对应的声纹阈值和声纹模型;
建立每一个所述唤醒词样本包括的参数与确定的所示声纹阈值和所述声纹模型之间的对应关系,得到配置文件。
6.根据权利要求5所述的方法,其特征在于,在基于文本转语音技术,将每一个所述唤醒词样本从文本转换为语音数据之前,所述方法还包括:
根据唤醒词筛选标准,对收集到的唤醒词样本进行筛选,得到典型唤醒词样本;
所述基于文本转语音技术,将每一个所述唤醒词样本从文本转换为语音数据,包括:
基于文本转语音技术,将每一个所述典型唤醒词样本从文本转换为语音数据;
所述根据每一个所述唤醒词样本包括的参数和对应的语音数据,确定每一个所述唤醒词样本对应的声纹阈值和声纹模型,包括:
根据每一个所述典型唤醒词样本包括的参数和对应的语音数据,确定每一个所述典型唤醒词样本对应的声纹阈值和声纹模型;
所述建立每一个所述唤醒词样本包括的参数与确定的所示声纹阈值和所述声纹模型之间的对应关系,得到配置文件,包括:
建立每一个所述典型唤醒词样本包括的参数与确定的所示声纹阈值和所述声纹模型之间的对应关系,得到配置文件。
7.根据权利要求6所述的方法,其特征在于,所述根据唤醒词筛选标准,对收集到的唤醒词样本进行筛选,包括:
筛选字数在设定范围的唤醒词样本;
和/或,
筛选音素个数在设定范围或大于设定阈值的唤醒词样本;
和/或,
筛选包含特定音调的唤醒词样本;
和/或,
筛选特定音调在特定位置的唤醒词样本。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述第一唤醒词对应的目标声纹模型有多个;
所述根据所述第一唤醒词对应的目标声纹模型对所述第一语音数据进行声纹验证,得到第一验证结果,包括:
根据所述第一唤醒词对应的每一个目标声纹模型对所述第一语音数据进行声纹验证,得到每一个目标声纹模型对应的验证结果;
将每一个目标声纹模型对应的验证结果进行融合,得到所述第一验证结果。
9.根据权利要求8所述的方法,其特征在于,所述将每一个目标声纹模型对应的验证结果进行融合,得到所述第一验证结果,包括:
根据每一个目标声纹模型对应的权重系数,将每一个目标声纹模型对应的验证结果进行融合,得到所述第一验证结果。
10.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
在所述第一语音数据中不存在所述第一唤醒词时,获取与所述第一电子设备关联的第二电子设备;
如果获取到与所述第一电子设备关联的所述第二电子设备,获取在所述第二电子设备中预先注册的第二唤醒词;
检测所述第一语音数据中是否存在所述第二唤醒词;
在所述第一语音数据中存在所述第二唤醒词时,根据所述第二唤醒词对应的目标声纹模型对所述第一语音数据进行声纹验证,得到第三验证结果;
根据所述第三验证结果和所述第二唤醒词对应的目标声纹阈值,得到第四验证结果,所述第四验证结果指示所述第一电子设备能否被所述第一语音数据唤醒。
11.一种电子设备,其特征在于,所述电子设备包括:存储器和处理器,所述存储器和所述处理器耦合;所述存储器存储有程序指令,所述程序指令由所述处理器执行时,使得所述电子设备执行如权利要求1至10任意一项所述的语音唤醒方法。
12.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1至10任意一项所述的语音唤醒方法。
CN202210838956.3A 2022-07-18 2022-07-18 语音唤醒方法、设备及存储介质 Active CN116030817B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202311100361.9A CN117153166A (zh) 2022-07-18 2022-07-18 语音唤醒方法、设备及存储介质
CN202210838956.3A CN116030817B (zh) 2022-07-18 2022-07-18 语音唤醒方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210838956.3A CN116030817B (zh) 2022-07-18 2022-07-18 语音唤醒方法、设备及存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311100361.9A Division CN117153166A (zh) 2022-07-18 2022-07-18 语音唤醒方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116030817A CN116030817A (zh) 2023-04-28
CN116030817B true CN116030817B (zh) 2023-09-19

Family

ID=86075026

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210838956.3A Active CN116030817B (zh) 2022-07-18 2022-07-18 语音唤醒方法、设备及存储介质
CN202311100361.9A Pending CN117153166A (zh) 2022-07-18 2022-07-18 语音唤醒方法、设备及存储介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311100361.9A Pending CN117153166A (zh) 2022-07-18 2022-07-18 语音唤醒方法、设备及存储介质

Country Status (1)

Country Link
CN (2) CN116030817B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704275A (zh) * 2017-09-04 2018-02-16 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
CN108735209A (zh) * 2018-04-28 2018-11-02 广东美的制冷设备有限公司 唤醒词绑定方法、智能设备及存储介质
CN108766446A (zh) * 2018-04-18 2018-11-06 上海问之信息科技有限公司 声纹识别方法、装置、存储介质及音箱
CN109741755A (zh) * 2018-12-25 2019-05-10 苏州思必驰信息科技有限公司 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法
US10510340B1 (en) * 2017-12-05 2019-12-17 Amazon Technologies, Inc. Dynamic wakeword detection
CN111742361A (zh) * 2018-07-24 2020-10-02 华为技术有限公司 一种终端更新语音助手的唤醒语音的方法及终端
CN111968644A (zh) * 2020-08-31 2020-11-20 深圳市欧瑞博科技股份有限公司 智能设备唤醒方法、装置及电子设备
CN113488050A (zh) * 2021-07-09 2021-10-08 北京有竹居网络技术有限公司 语音唤醒方法、装置、存储介质及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103943105A (zh) * 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
US10360916B2 (en) * 2017-02-22 2019-07-23 Plantronics, Inc. Enhanced voiceprint authentication
CN109524011A (zh) * 2018-10-22 2019-03-26 四川虹美智能科技有限公司 一种基于声纹识别的冰箱唤醒方法及装置
US10971160B2 (en) * 2018-11-13 2021-04-06 Comcast Cable Communications, Llc Methods and systems for determining a wake word
US11232788B2 (en) * 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
CN111768769A (zh) * 2019-03-15 2020-10-13 阿里巴巴集团控股有限公司 语音交互方法、装置、设备及存储介质
CN111429901B (zh) * 2020-03-16 2023-03-21 云知声智能科技股份有限公司 一种面向IoT芯片的多级语音智能唤醒方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704275A (zh) * 2017-09-04 2018-02-16 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
US10510340B1 (en) * 2017-12-05 2019-12-17 Amazon Technologies, Inc. Dynamic wakeword detection
CN108766446A (zh) * 2018-04-18 2018-11-06 上海问之信息科技有限公司 声纹识别方法、装置、存储介质及音箱
CN108735209A (zh) * 2018-04-28 2018-11-02 广东美的制冷设备有限公司 唤醒词绑定方法、智能设备及存储介质
CN111742361A (zh) * 2018-07-24 2020-10-02 华为技术有限公司 一种终端更新语音助手的唤醒语音的方法及终端
CN109741755A (zh) * 2018-12-25 2019-05-10 苏州思必驰信息科技有限公司 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法
CN111968644A (zh) * 2020-08-31 2020-11-20 深圳市欧瑞博科技股份有限公司 智能设备唤醒方法、装置及电子设备
CN113488050A (zh) * 2021-07-09 2021-10-08 北京有竹居网络技术有限公司 语音唤醒方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Voice controlled smart mirror with multifactor authentication;AC Njaka等;2018 IEEE International Smart Cities Conference (ISC2);全文 *
基于深度学习的语音唤醒研究及其应用;刘凯;中国优秀硕士学位论文全文数据库;全文 *

Also Published As

Publication number Publication date
CN116030817A (zh) 2023-04-28
CN117153166A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN112567457B (zh) 语音检测方法、预测模型的训练方法、装置、设备及介质
WO2021008538A1 (zh) 语音交互方法及相关装置
CN111881315A (zh) 图像信息输入方法、电子设备及计算机可读存储介质
CN112116904B (zh) 语音转换方法、装置、设备及存储介质
CN111105788B (zh) 敏感词分数检测方法、装置、电子设备及存储介质
CN114255745A (zh) 一种人机交互的方法、电子设备及系统
CN113806473A (zh) 意图识别方法和电子设备
CN110827824B (zh) 语音处理方法、装置、存储介质及电子设备
CN112154431A (zh) 一种人机交互的方法及电子设备
CN111460231A (zh) 电子设备以及电子设备的搜索方法、介质
CN110858479B (zh) 语音识别模型更新方法、装置、存储介质及电子设备
CN115312068B (zh) 语音控制方法、设备及存储介质
CN114691839A (zh) 一种意图槽位识别方法
CN110337030B (zh) 视频播放方法、装置、终端和计算机可读存储介质
CN115798459B (zh) 音频处理方法、装置、存储介质及电子设备
CN111341307A (zh) 语音识别方法、装置、电子设备及存储介质
CN116030817B (zh) 语音唤醒方法、设备及存储介质
WO2022088963A1 (zh) 一种电子设备解锁方法和装置
CN113056908B (zh) 视频字幕合成方法、装置、存储介质及电子设备
CN113823266A (zh) 关键词检测方法、装置、设备及存储介质
CN115083424A (zh) 人物分析系统、方法及相关装置
CN114093368A (zh) 跨设备声纹注册方法、电子设备及存储介质
CN109102810B (zh) 声纹识别方法和装置
CN111028846A (zh) 免唤醒词注册的方法和装置
CN116052648B (zh) 一种语音识别模型的训练方法、使用方法及训练系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant