CN117133281B - 语音识别方法和电子设备 - Google Patents

语音识别方法和电子设备 Download PDF

Info

Publication number
CN117133281B
CN117133281B CN202310103614.1A CN202310103614A CN117133281B CN 117133281 B CN117133281 B CN 117133281B CN 202310103614 A CN202310103614 A CN 202310103614A CN 117133281 B CN117133281 B CN 117133281B
Authority
CN
China
Prior art keywords
electronic device
information
user
bone voiceprint
bone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310103614.1A
Other languages
English (en)
Other versions
CN117133281A (zh
Inventor
郭强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202310103614.1A priority Critical patent/CN117133281B/zh
Publication of CN117133281A publication Critical patent/CN117133281A/zh
Application granted granted Critical
Publication of CN117133281B publication Critical patent/CN117133281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例提供了一种语音识别方法和电子设备,该方法由第一电子设备执行,该第一电子设备与第二电子设备建立有通信连接,该方法包括:在第一电子设备的第一功能和第二电子设备的第一功能都已开启的情况下,接收来自第二电子设备的第一信息,第一信息为用户使用第二电子设备输入语音指令时,第二电子设备根据第一功能所采集的语音指令对应的骨声纹信息;根据第一信息,确定骨声纹识别结果;根据骨声纹识别结果,执行语音指令对应的操作。该方法通过对骨声纹信息进行识别以确定相应的指令,可以降低周围环境的干扰,提高所识别的用户的语音指令的准确性。

Description

语音识别方法和电子设备
技术领域
本申请涉及电子技术领域,具体涉及一种语音识别方法和电子设备。
背景技术
随着电子技术和语音处理技术的快速发展,电子设备中已经出现语音对话功能,用户可以通过对电子设备输入语音指令,以控制电子设备执行相应的操作。
目前,用户在使用电子设备的语音对话功能时,通常需要先对电子设备输入唤醒语音,以启动电子设备的语音对话功能,然后再输入其他语音指令。电子设备接收到用户的语音指令之后,便可以对语音指令进行识别处理,进而执行相应操作。
然而,目前的电子设备较多是通过麦克风采集用户输入的语音指令,其易受到周围环境的干扰,导致电子设备易出现不能准确识别用户的语音指令的现象。
发明内容
本申请提供了一种语音识别方法和电子设备,可以提高所识别的用户的语音指令的准确性。
第一方面,本申请提供一种语音识别方法,该方法由第一电子设备执行,该第一电子设备与第二电子设备建立有通信连接,该方法包括:在第一电子设备的第一功能和第二电子设备的第一功能都已开启的情况下,接收来自第二电子设备的第一信息,第一信息为用户使用第二电子设备输入语音指令时,第二电子设备根据第一功能所采集的语音指令对应的骨声纹信息;根据第一信息,确定骨声纹识别结果;根据骨声纹识别结果,执行语音指令对应的操作。
其中,第一功能可以为骨声纹识别功能,即在第一电子设备和第二电子设备都开启骨声纹识别功能的情况下,若用户使用第二电子设备输入语音指令,则第二电子设备可以采集该语音指令对应的骨声纹信息,并将该骨声纹信息发送给第一电子设备。第一电子设备接收到来自第二电子设备的骨声纹信息后,可以根据该骨声纹信息确定骨声纹识别结果,进而执行上述语音指令对应的操作。
可选地,第一电子设备可以为手机等电子设备,其骨声纹识别功能可以通过设置界面进行开启,第二电子设备可以为耳机,其可以通过单击耳机壳体、双击耳机壳体、点击功能键等方式开启骨声纹识别功能。
可选地,第一电子设备与第二电子设备之间的通信连接可以为蓝牙连接或Wi-FiP2P连接等无线连接,也可以为有线连接。
上述实现方式中,电子设备可以在用户输入语音指令时采集用户的骨声纹信息,通过对骨声纹信息进行识别以确定相应的指令,可以降低周围环境的干扰,提高所识别的用户的语音指令的准确性。
结合第一方面,在第一方面的有些实现方式中,上述根据第一信息,确定骨声纹识别结果,包括:根据第一信息和预设的第一模型,确定骨声纹识别结果,该第一模型为用户在第一电子设备上对第一功能进行注册时所生成的模型。
其中,用户可以在第一电子设备上进行第一功能的注册,第一电子设备可以根据注册信息生成第一模型(也即骨声纹模型),进而可以根据上述第一信息和该第一模型确定骨声纹识别结果。
在一个实现方式中,该第一模型可以为用户的骨声纹特征库,记录了用户的骨声纹对应的特征,可以用于后续进行骨声纹识别过程。可选地,该第一模型也可以为一种根据用户的骨声纹信息训练得到的网络模型。可以理解,一个用户可以对应于一个骨声纹模型,每个用户对应的骨声纹模型不同。
在一个实现方式中,在上述生成的第一模型为网络模型的情况下,第一电子设备可以将第一信息输入该网络模型,以得到骨声纹识别结果。
在另一个实现方式中,上述根据第一信息和预设的第一模型,确定骨声纹识别结果,包括:对第一信息进行特征提取,将提取的特征与第一模型进行相似度匹配,确定骨声纹识别结果。
可选地,第一电子设备对第一信息提取的特征包括但不限于骨声纹信号对应的梅尔频率倒谱系数、信号能量、谱密度、时频曲线、音调、音速、频率或者幅值等特征。
在该实现方式中,第一电子设备将提取的特征与第一模型进行相似度匹配时,可以预先设置一个相似度阈值,然后根据提取的特征与第一模型之间的相似度和该相似度阈值之间的大小关系,确定骨声纹识别结果。
其中,上述骨声纹识别结果表征当前输入语音指令的用户是否为已注册的用户,上述将提取的特征与第一模型进行相似度匹配,确定骨声纹识别结果,包括:若提取的特征与第一模型之间的相似度大于或者等于相似度阈值,则确定当前输入语音指令的用户为已注册的用户;若提取的特征与第一模型之间的相似度小于相似度阈值,则确定当前输入语音指令的用户不为已注册的用户。
可选地,第一电子设备可以采用预设标识来表示骨声纹识别结果,例如,标识1表示当前输入语音指令的用户为已注册的用户,标识0表示当前输入语音指令的用户不为已注册的用户。除此之外,骨声纹识别结果还可以包括用户所输入的语音指令的识别结果。
上述实现方式中,电子设备通过对用户输入的语音指令所对应的骨声纹信息进行识别以确定相应的指令,可以降低周围环境的干扰,提高所识别的用户的语音指令的准确性。
结合第一方面,在第一方面的有些实现方式中,上述方法还包括:在当前输入语音指令的用户为已注册的用户的情况下,根据第一信息对第一模型进行优化;在当前输入语音指令的用户不为已注册的用户的情况下,输出预设的提示信息。
也即是说,在当前输入语音指令的用户为已注册的用户的情况下,第一电子设备可以根据第一信息对第一模型进行优化,以提高第一模型的鲁棒性。示例性地,在上述生成的第一模型为网络模型的情况下,第一电子设备可以利用接收到的第一信息继续对该网络模型进行训练。在上述生成的第一模型为骨声纹特征库的情况下,第一电子设备可以将接收到的第一信息对应的特征与骨声纹特征库中的特征进行融合。
在当前输入语音指令的用户不为已注册的用户的情况下,第一电子设备可以输出提示信息,以提示用户进行注册。
结合第一方面,在第一方面的有些实现方式中,上述第一模型对应有用户进行注册时的用户状态,上述方法还包括:在当前输入语音指令的用户为已注册的用户的情况下,若当前用户状态与第一模型对应的用户状态不同,则根据第一信息生成当前用户状态对应的模型。
其中,因用户在输入语音指令时,可能会有不同的用户状态,例如高兴状态、难过状态、运动状态、静止状态等,在不同状态下用户的语音指令对应的骨声纹信息可能不同,因此,第一电子设备还可以生成不同用户状态对应的骨声纹模型。那么,如果用户当前输入语音指令时的用户状态与上述第一模型对应的用户状态不同时,第一电子设备便可以生成当前用户状态对应的模型,以扩展电子设备中的骨声纹模型,提升上述语音识别方法的鲁棒性。
结合第一方面,在第一方面的有些实现方式中,上述方法还包括:若第一电子设备首次接收到用户开启第一功能的操作,显示第一功能的注册页面;接收来自第二电子设备的第二信息,第二信息为用户使用第二电子设备语音输入注册页面上呈现的文本内容时,第二电子设备根据第一功能采集的骨声纹信息;根据第二信息生成第一模型。
由上述描述可知,第一电子设备在对第一信息和第一模型进行匹配之前,需要生成该第一模型,该第一模型是在用户注册过程中所生成的。那么在用户注册过程中,第一电子设备可以显示有注册页面,该注册页面呈现有示例文本,用户需要佩戴第二电子设备(例如耳机)语音输入该示例文本,则第二电子设备便可以在用户语音输入该示例文本时,采集对应的骨声纹信息,进而由第一电子设备根据该骨声纹信息生成上述第一模型。在一个实现方式中,第一电子设备可以针对用户的骨声纹信息进行特征提取,然后根据提取的特征生成用户对应的第一模型。
该实现方式中,第一电子设备在进行用户的骨声纹注册时,不需要用户录入固定的唤醒词或特定词语,而是根据用户对应的骨声纹特征生成第一模型,提高了应用灵活性。
结合第一方面,在第一方面的有些实现方式中,上述根据第一信息,确定骨声纹识别结果,包括:对第一信息进行特征提取,确定当前用户状态;若存在当前用户状态对应的模型,则根据第一信息和当前用户状态对应的模型,确定骨声纹识别结果;若不存在当前用户状态对应的模型,则根据第一信息生成当前用户状态对应的模型。
由上述实现方式可知,一个用户状态可以对应于一个模型,那么第一电子设备中可以存在多个模型,在此场景下,第一电子设备在接收到第二电子设备发送的骨声纹信息之后,可以先根据该骨声纹信息确定当前用户状态,并查找当前用户状态对应的模型。如果存在当前用户状态对应的模型,则可以根据第一信息和该模型确定骨声纹识别结果;如果不存在当前用户状态对应的模型,则可以根据第一信息生成当前用户状态对应的模型。由此,可以在减少第一电子设备处理功耗的同时,扩展电子设备中的骨声纹模型,提升上述语音识别方法的鲁棒性。
第二方面,本申请提供一种语音识别方法,该方法由第二电子设备执行,第二电子设备与第一电子设备建立有通信连接,上述方法包括:在第一电子设备的第一功能和第二电子设备的第一功能都已开启的情况下,采集第一信息,第一信息为用户使用第二电子设备输入语音指令时,第二电子设备根据第一功能所采集的语音指令对应的骨声纹信息;根据第一信息,确定骨声纹识别结果;向第一电子设备发送骨声纹识别结果。
结合第二方面,在第二方面的有些实现方式中,上述第二电子设备包括骨传导传感器,上述采集第一信息,包括:通过骨传导传感器采集第一信息。
其中,上述第一方面中对骨声纹信息的识别等过程是由第一电子设备所执行的,当然也可以由第二电子设备来执行。例如在第二电子设备是耳机的情况下,在耳机采集了用户输入语音指令时的骨声纹信息后,即可以根据该骨声纹信息确定骨声纹识别结果,并将该骨声纹识别结果发送至第一电子设备即可,进而由第一电子设备再根据该骨声纹识别结果执行相应的动作。可选地,上述第一信息可以由第二电子设备中的骨传导传感器来采集。
对于第二电子设备确定骨声纹识别结果的过程可以参见上述第一方面中第一电子设备的处理过程,其实现原理和技术效果类似,在此不再赘述。
第三方面,本申请提供一种装置,该装置包含在电子设备中,该装置具有实现上述第一方面及上述第一方面的可能实现方式中电子设备行为的功能,或者具有实现上述第二方面及上述第二方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如,接收模块或单元、处理模块或单元等。
第四方面,本申请提供一种电子设备,电子设备包括:处理器、存储器和接口;处理器、存储器和接口相互配合,使得电子设备执行第一方面的技术方案中任意一种方法。
第五方面,本申请提供一种电子设备,电子设备包括:处理器、存储器和接口;处理器、存储器和接口相互配合,使得电子设备执行第二方面的技术方案中任意一种方法。
第六方面,本申请提供一种语音识别系统,包括第一电子设备和第二电子设备,第一电子设备可以执行第一方面的技术方案中任意一种方法,第二电子设备可以执行第二方面的技术方案中任意一种方法。
第七方面,本申请提供一种芯片,包括处理器。处理器用于读取并执行存储器中存储的计算机程序,以执行第一方面及其任意可能的实现方式中的方法,或者执行第二方面及其任意可能的实现方式中的方法。
可选地,芯片还包括存储器,存储器与处理器通过电路或电线连接。
进一步可选地,芯片还包括通信接口。
第八方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储了计算机程序,当计算机程序被处理器执行时,使得该处理器执行第一方面的技术方案中任意一种方法,或者执行第二方面的技术方案中任意一种方法。
第九方面,本申请提供一种计算机程序产品,计算机程序产品包括:计算机程序代码,当计算机程序代码在电子设备上运行时,使得该电子设备执行第一方面的技术方案中任意一种方法,或者执行第二方面的技术方案中任意一种方法。
附图说明
图1是本申请实施例提供的一例语音识别方法的应用场景图;
图2是本申请实施例提供的一例骨声纹注册过程的页面示意图;
图3是本申请实施例提供的一例注册页面的示意图;
图4是本申请实施例提供的一例耳机的结构示意图;
图5是本申请实施例提供的一例电子设备的结构示意图;
图6是本申请实施例提供的一例电子设备和耳机的软件结构框图。
图7是本申请实施例提供的另一例电子设备的软件结构框图;
图8是本申请实施例提供的一例骨声纹注册过程的流程示意图;
图9是本申请实施例提供的一例电子设备与耳机建立蓝牙连接的页面示意图;
图10是本申请实施例提供的一例电子设备与耳机建立蓝牙连接的流程示意图;
图11是本申请实施例提供的另一例注册页面的示意图;
图12是本申请实施例提供的一例骨声纹识别过程的流程示意图;
图13是本申请实施例提供的另一例骨声纹识别过程的流程示意图;
图14是本申请实施例提供的另一例骨声纹注册过程的流程示意图;
图15是本申请实施例提供的又一例骨声纹识别过程的流程示意图;
图16是本申请实施例提供的一例语音识别系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。
目前,较多电子设备已经出现语音对话功能,例如语音助手功能,用户可以通过输入语音指令来控制电子设备。通常,在开启电子设备的语音对话功能时,用户需要先对电子设备的该功能进行唤醒,例如语音输入“你好你好”,电子设备接收到该唤醒语音即可开启语音对话功能。然后,用户可以再输入其他语音指令,例如语音输入“请播放音乐”,电子设备接收到该语音指令之后,便可以打开音乐应用,播放音乐。
其中,在相关技术中,电子设备是通过自带的麦克风来采集用户输入的语音指令,其易受到周围环境的干扰,例如环境的嘈杂声或者他人语音的干扰等,这就导致电子设备所接收到的语音指令的质量较差,出现不能准确识别用户的语音指令的现象。
有鉴于此,本申请实施例提供一种语音识别方法,在用户输入语音指令时采集用户的骨声纹信息,通过对骨声纹信息进行识别以确定相应的指令,可以降低周围环境的干扰,提高所识别的用户的语音指令的准确性。需要说明的是,本申请实施例提供的语音识别方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digitalassistant,PDA)等具有计算处理能力的电子设备上,本申请实施例对电子设备的具体类型不作任何限制。
众所周知,骨声纹是一种生物识别技术之一,因为人类的骨骼结构都是独一无二,所以骨头之间声音的反射也是独一无二的。相较于传统的麦克风收声,骨声纹直接记录的是通过人体内环境传导而来的声音,从而可以避免周围环境的干扰,同时不会损失过多的信息量。相关技术中,骨声纹技术已应用在电子设备的唤醒服务,例如用户在骨声纹识别功能的注册过程中录入了唤醒词的语音,则可以在电子设备开启了骨声纹识别功能的情况下,通过语音输入唤醒词,即可唤醒(或解锁)电子设备。但是该相关技术需要与用户输入的唤醒词相关,其只能对唤醒词进行识别,若用户没有输入唤醒词则无法使用上述功能;例如,用户注册时语音录入了唤醒词“你好你好”,则后续在使用骨声纹识别功能时,只能在用户语音输入“你好你好”指令时才能够识别,其他语音指令则不能被识别。因此,相关技术的骨声纹识别功能具有一定的局限性。
在本申请实施例中,电子设备在进行用户的骨声纹注册时,不需要用户录入固定的唤醒词或特定词语,即可生成用户的骨声纹模型,然后用户再输入语音指令,电子设备可以将语音指令对应的骨声纹信息与用户的骨声纹模型进行匹配,以完成对骨声纹信息的识别及确定相应的指令。相对于相关技术来说,本申请实施例的既可以通过骨声纹技术提高所识别的用户的语音指令的准确性,又可以提高应用灵活性。
下面先对本申请实施例提供的语音识别方法的应用场景进行介绍。参见图1,用户佩戴内置有骨传导传感器的耳机200,该耳机200可以与电子设备100(图中以电子设备100是手机为例进行示出)建立通信连接,例如建立蓝牙连接等无线通信连接。在耳机200与电子设备100建立通信连接之后,耳机200可以将所采集的骨声纹信息传输至电子设备100中,进而使电子设备100对骨声纹信息进行识别。
其中,上述语音识别方法可以包括骨声纹注册和骨声纹识别两个过程,对于骨声纹注册过程,用户需要将自身的骨声纹信息注册至电子设备100。参见图2,在电子设备100的设置页面呈现有骨声纹识别控件101,当用户点击该骨声纹识别控件101,电子设备100可以跳转至骨声纹识别功能的设置页面,该页面上呈现有开关控件102。如果用户首次开启骨声纹识别功能,即首次点击开关控件102,则可以进行骨声纹注册。
示例性地,在用户首次点击开关控件102时,电子设备可以显示图3所示的注册页面,该注册页面呈现有示例文本,需要用户佩戴耳机200后语音输入该示例文本。在用户语音输入该示例文本的同时,耳机200的骨传导传感器可以采集对应的骨声纹信息,并可以通过与电子设备100之间的通信连接将骨声纹信息传输至电子设备100中,电子设备100便可以根据用户的骨声纹信息生成对应的骨声纹模型,该具体过程可以参见下述图8所示的实施例的描述。
继续参见图3,在注册页面上还呈现有“阅读完成”控件103,若用户已将上述示例文本阅读完成,则可以点击该控件,以完成骨声纹注册过程。
然后,对于骨声纹识别过程,需要电子设备100和耳机200都开启骨声纹识别功能,电子设备100开启骨声纹识别功能的方式可以参见上述图2所示,在用户完成骨声纹注册之后,如果再次打开开关控件102,即是开启了骨声纹识别功能。耳机200开启骨声纹识别功能的方式可以包括但不限于单击耳机壳体、双击耳机壳体、点击功能键等方式。
若电子设备100和耳机200都已开启了骨声纹识别功能,则用户佩戴耳机200后可以语音输入各种指令,耳机200的骨传导传感器可以采集对应的骨声纹信息,并传输至电子设备100中,电子设备100便可以将接收到的骨声纹信息与上述生成的骨声纹模型进行匹配,若匹配成功则可以执行相应的操作。该具体过程可以参见下述图12所示的实施例的描述。
由上述实施例可知,生成用户的骨声纹模型的过程与骨声纹识别的过程是由电子设备100所执行的,但在一些实施例中,若耳机200也具有计算处理能力,例如内置有处理器,则也可以由耳机200执行上述过程,并将处理结果发送至电子设备100,电子设备100只需执行处理结果对应的操作即可。
基于此,本申请实施例还提供一种耳机和一种电子设备,示例性地,图4是本申请实施例提供的一例耳机200的结构示意图。耳机200可以包括骨传导传感器201、处理器202、壳体203、按键204、听筒205、麦克风206以及第一蓝牙芯片207等。
骨传导传感器201可以获取人体声部振动骨块的振动信号(也即骨声纹信息)。处理器202可以对骨传导传感器201采集的骨声纹信息进行处理,该处理器202可以包括一个或多个处理模块或处理单元。壳体203可以将骨传导传感器201和处理器202等器件进行包覆,以保护这些器件不受摩擦等损坏,可选地,壳体203可以为塑料材质、金属材质等。按键204可以包括开机键、音量调节键以及功能键等。听筒205用于将音频电信号转换成声音信号,用户佩戴耳机200后可以通过听筒205接收耳机200所播放的声音。麦克风206用于将声音信号转换为电信号,用户可以向麦克风206发声,例如在通话场景中,当耳机200与电子设备100通信连接后,麦克风206接收到的声音信号可以传输至电子设备100,实现电子设备100与其他电子设备之间的通话功能。第一蓝牙芯片207可以实现与电子设备100之间的蓝牙连接。需要说明的是,因骨传导传感器201、处理器202和第一蓝牙芯片207是置于壳体203内部的,因此图中以虚线为例进行示例。
可以理解的是,本申请实施例示意的结构并不构成对耳机200的具体限定。在本申请另一些实施例中,耳机200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。例如,耳机200中还可以包括一个或多个存储器,该存储器存储有一个或多个程序,该一个或多个程序可以被处理器202所执行,等等。
再示例性地,图5是本申请实施例提供的一例电子设备100的结构示意图。以电子设备100是手机为例,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。图5中的天线1和天线2的结构仅为一种示例。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
内部存储器121可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
对于上述图4所示的耳机200和图5所示的电子设备100,还对应有软件架构来实现本申请实施例的语音识别方法。其中,电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。
图6是本申请实施例的电子设备100和耳机200的软件结构框图。如图6所示,耳机200可以包括第一蓝牙驱动610、传感器驱动611以及第一处理模块612等。第一蓝牙驱动610用于为耳机200的第一蓝牙芯片207接收和发送数据提供功能支持,传感器驱动611用于为骨传导传感器201采集骨声纹信息提供功能支持,第一处理模块612用于对骨传导传感器201采集的骨声纹信息进行处理等。
电子设备100的软件结构可以包括应用程序层、系统层、内核层和硬件层。应用程序层可以包括一系列应用程序包。系统层可以包括第二处理模块620,该第二处理模块620用于对耳机200传输的骨声纹信息进行处理等。内核层可以包括第二蓝牙驱动621,该第二蓝牙驱动621用于为电子设备100的第二蓝牙芯片622接收和发送数据提供功能支持。硬件层可以包括第二蓝牙芯片622,该第二蓝牙芯片622可以实现与耳机200的蓝牙连接,并与第一蓝牙芯片207之间传输数据等。
在一个实现方式中,若上述生成用户的骨声纹模型的过程与骨声纹识别的过程是由电子设备100所执行,则电子设备100与耳机200建立了蓝牙连接之后,耳机200的骨传导传感器201采集骨声纹信息,并经由第一蓝牙芯片207传输至电子设备100的第二蓝牙芯片622,第二蓝牙芯片622再将骨声纹信息发送给第二处理模块620,第二处理模块620对骨声纹信息进行处理识别后,可以将处理结果上传至应用程序层,使应用程序层的应用程序执行相应操作。
在另一个实现方式中,若上述生成用户的骨声纹模型的过程与骨声纹识别的过程是由耳机200所执行,则电子设备100与耳机200建立了蓝牙连接之后,耳机200的骨传导传感器201采集骨声纹信息,并发送给第一处理模块612,第一处理模块612对骨声纹信息进行处理识别后,可以将处理结果经由第一蓝牙芯片207传输至电子设备100的第二蓝牙芯片622,第二蓝牙芯片622再将处理结果上传至应用程序层,使应用程序层的应用程序执行相应操作。
可以理解,电子设备100与耳机200之间的通信连接不局限于蓝牙连接,也可以是基于Wi-Fi芯片的Wi-Fi P2P连接等方式,还可以是有线连接,本申请实施例对其通信方式不做限制,为方便理解,下述实施例以蓝牙连接进行描述。
在一些实施例中,电子设备100的分层架构中还可以包括其他层级结构,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。例如,如图7所示,还可以将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Androidruntime)和系统库,以及内核层。
如图7所示,应用程序层可以包括一系列应用程序包。应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图7所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:处理模块、表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含蓝牙驱动、显示驱动,摄像头驱动,音频驱动,传感器驱动。
为了便于理解,本申请以下实施例将以具有上述所示结构的电子设备和耳机为例,结合附图和应用场景,对本申请实施例提供的语音识别方法进行具体阐述。
首先以由电子设备对上述骨声纹注册和骨声纹识别过程中的数据进行处理为例进行说明,图8是本申请实施例提供的一例骨声纹注册过程的流程示意图,该过程可以包括:
S101,电子设备与耳机建立蓝牙连接。
通常情况下,耳机在开机后即可自动开启蓝牙功能;电子设备可以提供开启蓝牙功能的页面,如图9所示,在电子设备的设置页面呈现有蓝牙控件901,当用户点击该蓝牙控件901,电子设备可以跳转至蓝牙功能的设置页面,该页面上呈现有开关控件902。若用户点击该开关控件902,则电子设备可以搜索发现附近可用的蓝牙设备(也可简称为可用设备),并显示在当前页面上。如果当前搜索到的可用的蓝牙设备包括上述耳机,那么当前页面上即可以显示耳机的设备信息(例如设备名称、型号等),用户点击该耳机对应的控件,即可触发电子设备与耳机建立蓝牙连接。
如图10所示,电子设备与耳机建立蓝牙连接的过程可以包括:
S1,用户点击电子设备中蓝牙功能对应的开关控件。
其中,这里可以是电子设备中的设置应用接收到用户的点击操作。
S2,设置应用调用第二蓝牙芯片的能力搜索发现附近可用的蓝牙设备。
此步骤中,电子设备调用第二蓝牙芯片的能力,也即是利用第二蓝牙芯片搜索可用的蓝牙设备的蓝牙信号。
S3,可用的蓝牙设备的蓝牙芯片接收到电子设备的搜索信号,并向电子设备的设置应用反馈自身的设备信息。
其中,图10中仅示出耳机这一个可用的蓝牙设备,对应的蓝牙芯片即第一蓝牙芯片,其余可用的蓝牙设备的原理类似,图10中未示出。
S4,设置应用将接收到的蓝牙设备的设备信息展示在可用设备列表中。
S5,用户选中可用设备列表中的设备1(即耳机)。
S6,设置应用向第二蓝牙芯片发送指示建立蓝牙连接的消息,该消息可以携带耳机的标识。
S7,第二蓝牙芯片与第一蓝牙芯片建立蓝牙连接。
需要说明的是,电子设备与耳机建立蓝牙连接的过程不局限于图10所示的示例,只要可以建立连接即可,本申请实施例对此不做限制。
S102,电子设备首次接收到开启骨声纹识别功能的操作,显示骨声纹注册页面。
其中,开启骨声纹识别功能的操作可以为上述图2中对开关控件的点击操作,骨声纹注册页面可以为上述图3所示的注册页面,该注册页面呈现有示例文本。可选地,该示例文本可以为根据骨声纹核心因素所制定的注册语料,用户通过语音输入该示例文本,可以较准确的提取用户的骨声纹信息。也即是说,本申请实施例在进行骨声纹注册时,不需要关联特定词语,用户在语音输入示例文本并完成注册后,后续再语音输入任意指令,电子设备都可以进行骨声纹识别。
可选地,电子设备在显示骨声纹注册页面之后,可以通过与耳机的蓝牙连接,向耳机发送开启骨声纹识别功能的消息,使耳机开启骨声纹识别功能,以后续采集用户的骨声纹信息。可选地,耳机也可以在开机后自动开启骨声纹识别功能,或者由用户触发开启骨声纹识别功能。
S103,耳机采集用户的骨声纹信息。
S104,耳机向电子设备发送所采集的骨声纹信息。
其中,耳机可以通过骨传导传感器采集骨声纹信息,所采集的骨声纹信息可以为人体声部振动骨块的振动信号。耳机采集了用户的骨声纹信息后,可以通过与电子设备之间的蓝牙连接将骨声纹信息发送至电子设备。
S105,电子设备根据用户的骨声纹信息生成对应的骨声纹模型。
在该步骤中,电子设备可以针对用户的骨声纹信息进行特征提取,例如可以提取骨声纹信号对应的梅尔频率倒谱系数(mel frequency cepstrum coefficient,MFCC)、信号能量、谱密度、时频曲线、音调、音速、频率或者幅值等特征,然后根据提取的特征生成用户对应的骨声纹模型,也即是说,本申请实施例中的骨声纹模型是根据用户的骨声纹特征生成的,不依赖于某些特定词语。可选地,该骨声纹模型可以为用户的骨声纹特征库,记录了用户的骨声纹对应的特征,可以用于后续进行骨声纹识别过程。可选地,该骨声纹模型也可以为一种根据用户的骨声纹信息训练得到的网络模型。可以理解,一个用户可以对应于一个骨声纹模型,每个用户对应的骨声纹模型不同。
可选地,电子设备在接收到耳机发送的骨声纹信息之后,为提高生成的骨声纹模型的精度,还可以先对骨声纹信息进行信号增强,以提高骨声纹质量。可选地,电子设备可以采用滤波去噪等方式对骨声纹信息进行信号增强。
可以理解,一个电子设备可以由一个用户进行骨声纹注册,也可以由多个用户进行骨声纹注册。在一个实现方式中,当一个用户进行了骨声纹注册之后,另一个用户可以在上述骨声纹注册页面继续添加用户注册,示例性地,如图11所示,当前用户1已进行了骨声纹注册,若用户2也要进行骨声纹注册,则可以点击添加控件104,电子设备可以继续显示出上述图3中的示例文本,供用户进行阅读注册。在另一个实现方式中,当一个用户进行了骨声纹注册之后,若另一个用户也要进行骨声纹注册,则需要先将第一个用户的注册记录删除,才能进行自身的骨声纹注册。当然,在其他的实现方式中,也可以有不同的注册方式,本申请实施例对此不做具体限制。
还可以理解,上述S105的过程可以由电子设备中的第二处理模块来执行。
经过上述过程,电子设备便完成了骨声纹注册过程,那么在电子设备开启骨声纹识别功能的情况下,用户佩戴耳机即可以对电子设备执行控制操作,具体可参见下述图12所示实施例的描述。
图12是本申请实施例提供的一例骨声纹识别过程的流程示意图,该过程可以包括:
S201,耳机采集用户输入语音指令时对应的骨声纹信息。
S202,耳机向电子设备发送采集的骨声纹信息。
其中,在骨声纹识别过程需要电子设备和耳机都开启骨声纹识别功能,具体的开启方式参见上述实施例的描述,在此不再赘述。耳机可以通过骨传导传感器采集用户输入语音指令时对应的骨声纹信息,并通过与电子设备之间的蓝牙连接将骨声纹信息发送至电子设备。
S203,电子设备对接收到的骨声纹信息与所生成的骨声纹模型进行匹配,确定骨声纹识别结果。
其中,骨声纹识别结果可以表征当前输入语音指令的用户是否为已注册的用户。可选地,可以采用预设标识来表示骨声纹识别结果,例如,标识1表示当前输入语音指令的用户为已注册的用户,标识0表示当前输入语音指令的用户不是已注册的用户。除此之外,骨声纹识别结果还可以包括用户所输入的语音指令的识别结果。
该步骤中,在上述生成的骨声纹模型为网络模型的情况下,电子设备可以将骨声纹信息输入该网络模型,以得到骨声纹识别结果。在上述生成的骨声纹模型为骨声纹特征库的情况下,电子设备可以对接收到的骨声纹信息进行特征提取,然后将提取的特征与骨声纹特征库进行相似度匹配,以得到骨声纹识别结果。示例性地,在将提取的特征与骨声纹特征库进行相似度匹配时,可以预先设置一个相似度阈值,若提取的特征与骨声纹特征库之间的相似度大于或者等于该相似度阈值,则说明当前输入语音指令的用户为已注册的用户,若提取的特征与骨声纹特征库之间的相似度小于该相似度阈值,则说明当前输入语音指令的用户不是已注册的用户。
可选地,电子设备在接收到耳机发送的骨声纹信息之后,为提高生成的骨声纹模型的精度,也可以先对骨声纹信息进行信号增强,以提高骨声纹质量。
可以理解,上述S203的过程可以由电子设备中的第二处理模块来执行。
S204,电子设备根据骨声纹识别结果执行语音指令对应的操作。
由上述描述可知,电子设备所得到的骨声纹识别结果表征当前输入语音指令的用户是否为已注册的用户,那么就可能会存在两种情况,一种是当前输入语音指令的用户为已注册的用户,另一种是当前输入语音指令的用户不是已注册的用户。因此,在当前输入语音指令的用户为已注册的用户的情况下,电子设备便可以执行语音指令对应的操作,例如可以触发开启语音交互功能,示例性地,用户输入的语音指令为“打电话给小王”,则电子设备便可以打开拨号程序进行拨号。在当前输入语音指令的用户不是已注册的用户的情况下,电子设备可以输出提示信息,例如输出“您还未进行骨声纹注册”等提示信息;或者,如果用户输入的语音指令比较模糊,导致电子设备确定的骨声纹识别结果为当前输入语音指令的用户不是已注册的用户,则电子设备可以输出例如“请重新输入指令”等提示信息。
在该实施例中,为提高电子设备对语音指令识别的准确性,耳机除了采集用户的骨声纹信息之外,还可以同时使用麦克风采集用户的语音信息,并将语音信息也发送给电子设备。那么,电子设备可以对骨声纹信息进行识别以及对语音信息进行识别,对语音信息进行识别即可以识别出用户所输入的语音指令,以执行语音指令对应的操作。
在一些场景下,电子设备除了可以与耳机建立通信连接,还可以与智能家居设备(例如智能电视、智能音箱等设备)建立通信连接,或者,耳机也可以与智能家居设备建立通信连接,那么,用户佩戴耳机后,除了可以对电子设备进行控制之外,还可以对智能家居设备进行控制,例如语音输入“将电视音量调低”后,电子设备确定骨声纹识别结果为当前输入语音指令的用户为已注册的用户,则可以控制将智能电视的音量调低。
经过上述过程,电子设备便完成了骨声纹识别过程。由上述实施例可知,电子设备在进行用户的骨声纹注册时,不需要用户录入固定的唤醒词或特定词语,即可生成用户的骨声纹模型,提高了应用灵活性。然后,用户再输入语音指令,电子设备都可以将语音指令对应的骨声纹信息与用户的骨声纹模型进行匹配,以完成对骨声纹信息的识别及确定相应的指令,通过骨声纹技术提高了所识别的用户的语音指令的准确性。
在一些实施例中,在骨声纹识别结果为当前输入语音指令的用户为已注册的用户的情况下,电子设备还可以根据已接收到的骨声纹信息对所生成的骨声纹模型进行优化,以提升骨声纹模型的鲁棒性。
示例性地,在上述生成的骨声纹模型为网络模型的情况下,电子设备可以利用接收到的骨声纹信息继续对该网络模型进行训练。在上述生成的骨声纹模型为骨声纹特征库的情况下,电子设备可以将接收到的骨声纹信息对应的特征与骨声纹特征库中的特征进行融合。
在另一些实施例中,电子设备在对接收到的骨声纹信息与所生成的骨声纹模型进行匹配之后,若识别到骨声纹信息对应的用户状态与骨声纹模型对应的用户状态不同,则可以根据骨声纹信息生成一个新的骨声纹模型。该实施例中,一个用户状态可以对应于一个骨声纹模型,例如高兴状态对应一个骨声纹模型、难过状态对应一个骨声纹模型、运动状态对应一个骨声纹模型、静止状态对应一个骨声纹模型、等等。
作为一种可实现的方式,若电子设备中已存在多个骨声纹模型,则如图13所示,上述S203步骤可以包括以下过程:
S301,电子设备根据接收到的骨声纹信息,确定对应的当前用户状态。
其中,电子设备可以根据骨声纹信息的特征确定对应的用户状态,该实施例中所提取的特征包括但不限于MFCC、信号能量、谱密度以及时频曲线等。示例性地,电子设备可以预先存储有不同特征与不同用户状态的对应关系,则可以根据当前的骨声纹信息的特征与该对应关系,确定对应的当前用户状态。
S302,若电子设备中存在当前用户状态对应的骨声纹模型,则对接收到的骨声纹信息与当前用户状态对应的骨声纹模型进行匹配,确定骨声纹识别结果。
其中,该步骤的实现过程可以参见上述S203,在此不再赘述。
S303,在骨声纹识别结果为当前输入语音指令的用户为已注册的用户的情况下,根据骨声纹信息对当前用户状态对应的骨声纹模型进行优化。
S304,若电子设备中不存在当前用户状态对应的骨声纹模型,则根据骨声纹信息生成当前用户状态对应的骨声纹模型。
也即是说,电子设备在识别骨声纹信息的过程中,可以对当前已存在的骨声纹模型进行优化,也可以生成新的骨声纹模型,由此不断地优化及扩展本申请实施例的语音识别方法。
以上实施例是由电子设备对上述骨声纹注册和骨声纹识别过程中的数据进行处理为例进行说明的,当然对数据进行处理的过程也可以由耳机来执行,对于该实现方式,图14是本申请实施例提供的另一例骨声纹注册过程的流程示意图,该过程可以包括:
S401,电子设备与耳机建立蓝牙连接。
S402,电子设备首次接收到开启骨声纹识别功能的操作,显示骨声纹注册页面。
S403,耳机采集用户的骨声纹信息。
S404,耳机根据用户的骨声纹信息生成对应的骨声纹模型。
其中,S401至S403步骤的实现过程可以参见上述S101至S103的过程,S404中耳机生成骨声纹模型的过程与S105中电子设备生成骨声纹模型的过程类似,在此不再赘述。
可以理解,S404的过程可以由耳机中的第一处理模块来执行。
在耳机完成了骨声纹注册过程之后,在电子设备开启骨声纹识别功能的情况下,用户佩戴耳机即可以对电子设备执行控制操作,图15是本申请实施例提供的另一例骨声纹识别过程的流程示意图,该过程可以包括:
S501,耳机采集用户输入语音指令时对应的骨声纹信息。
S502,耳机对接收到的骨声纹信息与所生成的骨声纹模型进行匹配,确定骨声纹识别结果。
可以理解,耳机确定骨声纹识别结果的过程与S203中电子设备确定骨声纹识别结果的过程类似,在此不再赘述。还可以理解,S502的过程可以由耳机中的第一处理模块来执行。
S503,耳机向电子设备发送骨声纹识别结果。
S504,电子设备根据骨声纹识别结果执行语音指令对应的操作。
其中,该实施例与上述图12所示实施例的不同之处在于,该实施例中耳机是识别了骨声纹信息之后,将骨声纹识别结果发送给电子设备,以减少电子设备的处理功耗。
在上述实施例的基础上,本申请实施例还提供一种语音识别系统,如图16所示,该语音识别系统包括电子设备100和耳机200,电子设备100和耳机200可以执行上述图8与图12所示实施例的过程,也可以执行图14和图15所示实施例的过程,以达到语音识别的目的。
上文详细介绍了本申请实施例提供的语音识别方法的示例。可以理解的是,电子设备和耳机为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分为各个功能模块,例如检测单元、处理单元、显示单元等,也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例提供的电子设备,用于执行上述语音识别方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备还可以包括处理模块、存储模块和通信模块。其中,处理模块可以用于对电子设备的动作进行控制管理。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块,可以用于支持电子设备与其他设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processor,DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。
在一个实施例中,当处理模块为处理器,存储模块为存储器时,本实施例所涉及的电子设备可以为具有图5所示结构的设备。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储了计算机程序,当计算机程序被处理器执行时,使得处理器执行上述任一实施例的语音识别方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的语音识别方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的语音识别方法。
其中,本实施例提供的电子设备、耳机、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种语音识别方法,其特征在于,所述方法由第一电子设备执行,所述第一电子设备与第二电子设备建立有通信连接,所述方法包括:
在所述第一电子设备首次接收到用户开启第一功能的操作的情况下,显示所述第一电子设备的第一功能的注册页面,所述注册页面上呈现有第一文本,所述用户通过语音输入所述第一文本以进行骨声纹注册,所述第一文本不包括对所述第一电子设备进行语音唤醒的唤醒词,所述第一功能为骨声纹识别功能;
接收来自所述第二电子设备的第二信息,所述第二信息为所述用户使用所述第二电子设备语音输入所述第一文本时,所述第二电子设备根据所述第二电子设备开启的第一功能所采集的骨声纹信息;
根据所述第二信息生成所述用户对应的第一模型;
接收来自所述第二电子设备的第一信息,所述第一信息为所述用户使用所述第二电子设备输入语音指令时,所述第二电子设备根据所述第二电子设备开启的第一功能所采集的所述语音指令对应的骨声纹信息;
根据所述第一信息和所述第一模型,确定骨声纹识别结果;
根据所述骨声纹识别结果,执行所述语音指令对应的操作。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一信息和所述第一模型,确定骨声纹识别结果,包括:
对所述第一信息进行特征提取,将提取的特征与所述第一模型进行相似度匹配,确定所述骨声纹识别结果。
3.根据权利要求2所述的方法,其特征在于,所述骨声纹识别结果表征当前输入语音指令的用户是否为已注册的用户,所述将提取的特征与所述第一模型进行相似度匹配,确定所述骨声纹识别结果,包括:
若提取的特征与所述第一模型之间的相似度大于或者等于相似度阈值,则确定当前输入语音指令的用户为已注册的用户,以及确定所述语音指令的识别结果;
若提取的特征与所述第一模型之间的相似度小于相似度阈值,则确定当前输入语音指令的用户不为已注册的用户。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在当前输入语音指令的用户为已注册的用户的情况下,根据所述第一信息对所述第一模型进行优化;
在当前输入语音指令的用户不为已注册的用户的情况下,输出预设的提示信息。
5.根据权利要求3所述的方法,其特征在于,所述第一模型对应有所述用户进行注册时的用户状态,所述方法还包括:
在当前输入语音指令的用户为已注册的用户的情况下,若当前用户状态与所述第一模型对应的用户状态不同,则根据所述第一信息生成所述当前用户状态对应的模型。
6.根据权利要求5所述的方法,其特征在于,所述确定骨声纹识别结果,包括:
对所述第一信息进行特征提取,确定当前用户状态;
若存在所述当前用户状态对应的模型,则根据所述第一信息和所述当前用户状态对应的模型,确定所述骨声纹识别结果;
若不存在所述当前用户状态对应的模型,则根据所述第一信息生成所述当前用户状态对应的模型。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述第二电子设备为耳机。
8.根据权利要求1至6中任一项所述的方法,其特征在于,所述第一电子设备与所述第二电子设备之间的通信连接为蓝牙连接。
9.一种语音识别方法,其特征在于,所述方法由第二电子设备执行,所述第二电子设备与第一电子设备建立有通信连接,所述方法包括:
在所述第二电子设备的第一功能已开启的情况下,采集第二信息,所述第二信息为用户使用所述第二电子设备语音输入第一文本时,所述第二电子设备根据第一功能所采集的骨声纹信息,所述第一文本为所述第一电子设备首次接收到所述用户开启第一功能的操作时,显示的注册页面上所呈现的文本,所述用户通过语音输入所述第一文本以进行骨声纹注册,所述第一文本不包括对所述第一电子设备进行语音唤醒的唤醒词,所述第一功能为骨声纹识别功能;
根据所述第二信息生成所述用户对应的第一模型;
采集第一信息,所述第一信息为所述用户使用所述第二电子设备输入语音指令时,所述第二电子设备根据所述第二电子设备开启的第一功能所采集的所述语音指令对应的骨声纹信息;
根据所述第一信息和所述第一模型,确定骨声纹识别结果;
向所述第一电子设备发送所述骨声纹识别结果。
10.根据权利要求9所述的方法,其特征在于,所述第二电子设备包括骨传导传感器,所述采集第一信息,包括:
通过所述骨传导传感器采集所述第一信息。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
一个或多个存储器;
所述存储器存储有一个或多个程序,当所述一个或多个程序被所述处理器执行时,使得所述电子设备执行如权利要求1至8中任一项所述的方法。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
一个或多个存储器;
所述存储器存储有一个或多个程序,当所述一个或多个程序被所述处理器执行时,使得所述电子设备执行如权利要求9至10中任一项所述的方法。
13.一种语音识别系统,其特征在于,所述系统包括第一电子设备和第二电子设备,所述第一电子设备执行如权利要求1至8中任一项所述的方法,或者所述第二电子设备执行如权利要求9至10中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至10中任一项所述的方法。
CN202310103614.1A 2023-01-16 2023-01-16 语音识别方法和电子设备 Active CN117133281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310103614.1A CN117133281B (zh) 2023-01-16 2023-01-16 语音识别方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310103614.1A CN117133281B (zh) 2023-01-16 2023-01-16 语音识别方法和电子设备

Publications (2)

Publication Number Publication Date
CN117133281A CN117133281A (zh) 2023-11-28
CN117133281B true CN117133281B (zh) 2024-06-28

Family

ID=88855271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310103614.1A Active CN117133281B (zh) 2023-01-16 2023-01-16 语音识别方法和电子设备

Country Status (1)

Country Link
CN (1) CN117133281B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951243A (zh) * 2021-02-07 2021-06-11 深圳市汇顶科技股份有限公司 语音唤醒方法、装置、芯片、电子设备及存储介质
CN113327620A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 声纹识别的方法和装置
CN113643707A (zh) * 2020-04-23 2021-11-12 华为技术有限公司 一种身份验证方法、装置和电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660899B (zh) * 2018-12-28 2020-06-05 广东思派康电子科技有限公司 计算机可读存储介质和应用该介质的骨声纹检测耳机
CN113830026A (zh) * 2020-06-24 2021-12-24 华为技术有限公司 一种设备控制方法及计算机可读存储介质
CN111930231B (zh) * 2020-07-27 2022-02-25 歌尔光学科技有限公司 交互控制方法、终端设备及存储介质
CN213906881U (zh) * 2020-12-11 2021-08-06 深圳千岸科技股份有限公司 一种骨声纹耳机
CN115132212A (zh) * 2021-03-24 2022-09-30 华为技术有限公司 一种语音控制方法和装置
CN113194374A (zh) * 2021-04-29 2021-07-30 东莞市魅音科技有限公司 一种基于骨声纹识别技术的耳机
CN115482830B (zh) * 2021-05-31 2023-08-04 华为技术有限公司 语音增强方法及相关设备
CN115273909B (zh) * 2022-07-28 2024-07-30 歌尔科技有限公司 语音活性检测方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327620A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 声纹识别的方法和装置
CN113643707A (zh) * 2020-04-23 2021-11-12 华为技术有限公司 一种身份验证方法、装置和电子设备
CN112951243A (zh) * 2021-02-07 2021-06-11 深圳市汇顶科技股份有限公司 语音唤醒方法、装置、芯片、电子设备及存储介质

Also Published As

Publication number Publication date
CN117133281A (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN112397062B (zh) 语音交互方法、装置、终端及存储介质
CN110910872B (zh) 语音交互方法及装置
CN111724775B (zh) 一种语音交互方法及电子设备
CN110138959B (zh) 显示人机交互指令的提示的方法及电子设备
CN111819533B (zh) 一种触发电子设备执行功能的方法及电子设备
CN112527093A (zh) 手势输入方法及电子设备
CN111742539A (zh) 一种语音控制命令生成方法及终端
WO2022143258A1 (zh) 一种语音交互处理方法及相关装置
CN113128265A (zh) 一种人物识别方法及装置
CN114079642B (zh) 一种邮件处理方法及电子设备
CN112740148A (zh) 一种向输入框中输入信息的方法及电子设备
CN114745468A (zh) 电子设备及其主题设置方法和介质
CN112102848B (zh) 一种用于识别音乐的方法、芯片和终端
CN113380240B (zh) 语音交互方法和电子设备
CN112416984A (zh) 一种数据处理方法及其装置
CN117133281B (zh) 语音识别方法和电子设备
CN113805771B (zh) 一种通知提醒方法、终端设备及计算机可读存储介质
WO2022007757A1 (zh) 跨设备声纹注册方法、电子设备及存储介质
CN117544717A (zh) 风险识别方法和电子设备
CN116524919A (zh) 设备唤醒方法、相关装置及通信系统
CN114444042A (zh) 一种电子设备解锁方法和装置
CN117116258B (zh) 一种语音唤醒方法及电子设备
CN117271170B (zh) 活动事件处理方法及相关设备
CN117273687B (zh) 一种打卡推荐方法及电子设备
CN117153166B (zh) 语音唤醒方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant