CN113192515A - 音频信息的识别方法、装置及耳机 - Google Patents

音频信息的识别方法、装置及耳机 Download PDF

Info

Publication number
CN113192515A
CN113192515A CN202110569474.8A CN202110569474A CN113192515A CN 113192515 A CN113192515 A CN 113192515A CN 202110569474 A CN202110569474 A CN 202110569474A CN 113192515 A CN113192515 A CN 113192515A
Authority
CN
China
Prior art keywords
audio information
sound source
source direction
earphone
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110569474.8A
Other languages
English (en)
Inventor
禹俊
常乐
涂贤玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202110569474.8A priority Critical patent/CN113192515A/zh
Publication of CN113192515A publication Critical patent/CN113192515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种音频信息的识别方法、装置及耳机。该方法在获取至少一个对象的音频信息和相应音频信息在耳机中产生的声波振动信息后,采用配置的惯性元件,对获取的每个对象的音频信息对应的声波振动信息进行检测,确定每个音频信息的声源方向;并针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴耳机的目标对象,并将该音频信息作为目标音频信息;预设声源方向为佩戴耳机的对象对应的声源方向;之后向通信连接的终端发送目标音频信息对应的音频数据,以使终端基于音频数据通过耳机与目标对象进行交互。该方法降低了耳机与终端交互时产生的音频信息的误识别,提高了用户体验。

Description

音频信息的识别方法、装置及耳机
技术领域
本申请涉及数据处理技术领域,尤其涉及一种音频信息的识别方法、装置及耳机。
背景技术
目前,各种类型,比如入耳式、头戴式、耳塞式的耳机,在与手机上的应用程序(如TA来了app或语音助手)进行交互时,耳机会根据说话人音量大小接收相关指令信息,这样就会导致若其他人的音量高于耳机佩戴者的音量时,耳机可能会将其他人的音频信息对应的音频数据发送至手机上的应用程序,这样将会发生音频信息的误识别,使得耳机佩戴者不能实现与手机上应用程序的正常交互,用户体验较差。
发明内容
本申请实施例提供一种音频信息的识别方法、装置及耳机,解决了相关技术存在的上述问题,以降低耳机与终端交互时产生的音频信息的误识别,提高了用户体验。
第一方面,提供了一种音频信息的识别方法,所述方法应用在耳机中,该方法可以包括:
获取至少一个对象的音频信息和相应音频信息在所述耳机中产生的声波振动信息;
采用配置的惯性元件,对获取的每个对象的音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向;
针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,并将该音频信息作为目标音频信息;其中,所述预设声源方向为佩戴耳机的对象对应的声源方向;
向通信连接的终端发送所述目标音频信息对应的音频数据,以使所述终端基于所述音频数据通过所述耳机与所述目标对象进行交互。
在一个可选的实现中,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,包括:
若该音频信息的声源方向为预设声源方向,且该音频信息的声纹特征与存储的目标对象的声纹特征的相似度满足预设相似条件,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象。
在一个可选的实现中,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,包括:
若该音频信息的声源方向为预设声源方向,且该音频信息的音量大于预设音量阈值,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,所述预设音量阈值为接收的佩戴耳机的对象的最小音量。
在一个可选的实现中,向通信连接的终端发送所述目标音频信息对应的音频数据之前,所述方法还包括:
若所述目标音频信息为指令类型的信息,则向通信连接的终端发送所述目标音频信息对应的音频数据。
在一个可选的实现中,所述方法还包括:
若所述目标音频信息不为指令类型的信息,则拒绝向通信连接的终端发送获取的任一音频信息对应的音频数据。
在一个可选的实现中,采用配置的惯性元件对获取的每个音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向,包括:
采用配置的陀螺仪对获取的每个音频信息对应的声波振动信息的振动方向进行检测,确定所述每个音频信息的声源方向。
第二方面,提供了一种音频信息的识别装置,该装置可以包括:获取单元、检测单元、确定单元和发送单元;
所述获取单元,用于获取至少一个对象的音频信息和相应音频信息在所述耳机中产生的声波振动信息;
所述检测单元,用于采用配置的惯性元件,对获取的每个对象的音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向;
所述确定单元,用于针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,并将该音频信息作为目标音频信息;其中,所述预设声源方向为佩戴耳机的对象对应的声源方向;
所述发送单元,用于向通信连接的终端发送所述目标音频信息对应的音频数据,以使所述终端基于所述音频数据通过所述耳机与所述目标对象进行交互。
在一个可选的实现中,所述确定单元,具体用于若该音频信息的声源方向为预设声源方向,且该音频信息的声纹特征与存储的目标对象的声纹特征的相似度满足预设相似条件,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象。
在一个可选的实现中,所述确定单元,还具体用于若该音频信息的声源方向为预设声源方向,且该音频信息的音量大于预设音量阈值,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,所述预设音量阈值为接收的佩戴耳机的对象的最小音量。
在一个可选的实现中,所述发送单元,具体用于若所述目标音频信息为指令类型的信息,则向通信连接的终端发送所述目标音频信息对应的音频数据。
在一个可选的实现中,所述发送单元,还具体若所述目标音频信息不为指令类型的信息,则拒绝向通信连接的终端发送获取的任一音频信息对应的音频数据。
在一个可选的实现中,所述检测单元,具体用于采用配置的陀螺仪对获取的每个音频信息对应的声波振动信息的振动方向进行检测,确定所述每个音频信息的声源方向。
第三方面,提供了一种耳机,该耳机可以包括:麦克风、拾音检测模块和数据发送模块,其中,所述拾音检测模块包括方向检测模块和对象检测模块;
所述麦克风,用于获取至少一个对象的音频信息;
所述方向检测模块,用于获取相应音频信息在所述耳机中产生的声波振动信息,并采用配置的惯性元件,对每个音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向;
所述对象检测模块,用于针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,并将该音频信息作为目标音频信息;其中,所述预设声源方向为佩戴耳机的对象对应的声源方向;
所述数据发送模块,用于向与所述耳机通信连接的终端发送所述目标音频信息对应的音频数据,以使所述终端基于所述音频数据通过所述耳机与所述目标对象进行交互。
在一个可选的实现中,拾音检测模块还包括声纹检测模块;
在所述对象检测模块检测出该音频信息的声源方向为预设声源方向时,所述声纹检测模块,用于提取该音频信息的声纹特征,并在该音频信息的声纹特征与存储的目标对象的声纹特征的相似度满足预设相似条件时,将所述目标音频信息对应的对象确定为佩戴耳机的对象。
在一个可选的实现中,拾音检测模块还包括音量检测模块;
在所述对象检测模块检测出所述目标音频信息的声源方向为预设声源方向时,所述音量检测模块,用于检测该音频信息的音量,并在该音频信息的音量大于预设音量阈值时,将该音频信息对应的对象确定为佩戴所述耳机的目标对象,所述预设音量阈值为接收的佩戴耳机的对象的最小音量。
在一个可选的实现中,所述数据发送模块,具体用于在所述目标音频信息为指令类型的信息时,向通信连接的终端发送所述目标音频信息对应的音频数据。
在一个可选的实现中,所述数据发送模块,还用于在所述目标音频信息不为指令类型的信息,则拒绝向通信连接的终端发送获取的任一音频信息对应的音频数据。
在一个可选的实现中,所述方向检测模块,具体用于采用配置的陀螺仪获取的每个音频信息对应的声波振动信息的振动方向进行检测,确定所述每个音频信息的声源方向。
第四方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
本申请实施例提供的音频信息的识别方法在获取至少一个对象的音频信息和相应音频信息在耳机中产生的声波振动信息后,采用配置的惯性元件,对获取的每个对象的音频信息对应的声波振动信息进行检测,确定每个音频信息的声源方向;并针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴耳机的目标对象,并将该音频信息作为目标音频信息;其中,预设声源方向为佩戴耳机的对象对应的声源方向;之后向通信连接的终端发送目标音频信息对应的音频数据,以使终端基于音频数据通过耳机与目标对象进行交互。该方法在准确识别出耳机的使用者后可实现终端通过耳机与目标对象进行交互,降低了耳机与终端交互时产生的音频信息的误识别,提高了用户体验。
附图说明
图1为本申请实施例提供的一种应用音频信息的识别方法的系统架构示意图;
图2为本申请实施例提供的一种应用音频信息的识别方法的耳机机构示意图;
图3为本申请实施例提供的一种音频信息的识别方法的流程示意图;
图4为本申请实施例提供的一种音频信息的识别装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的音频信息的识别方法可以应用在图1所示的系统架构中。
该系统可以包括耳机和终端,耳机与终端通过短距离连接方式通信连接。其中,短距离连接方式可以包括通信线路和蓝牙等,耳机可以是入耳式耳机、头戴式耳机或耳塞式耳机等。终端可以是支持耳机模式的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备等。
如图2所示,本申请提供的应用音频信息的识别方法的耳机可以包括:麦克风210、拾音检测模块220和数据发送模块230。其中,拾音检测模块220包括方向检测模块2210和对象检测模块2220;
麦克风210,用于采集至少一个对象的音频信息;
方向检测模块2210,用于获取相应音频信息在该耳机中产生的声波振动信息;之后,采用配置的惯性元件,对每个音频信息对应的声波振动信息进行检测,确定每个音频信息的声源方向;方向检测模块可以为陀螺仪,以通过获取声波振动信息的角速度方向来确定每个音频信息的声源方向。
对象检测模块2220,用于在检测出目标音频信息的声源方向为预设声源方向时,将目标音频信息对应的对象确定为佩戴耳机的目标对象;预设声源方向为佩戴耳机的对象对应的声源方向;目标音频信息为获取的音频信息中的任一音频信息;
数据发送模块230,用于向与耳机通信连接的终端发送目标音频信息对应的音频数据,以使终端基于音频数据通过耳机与目标对象进行交互。数据发送模块可以是蓝牙模块或其他通信模块。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图3为本申请实施例提供的一种音频信息的识别方法的流程示意图。如图3所示,该方法可以包括:
步骤S310、获取至少一个对象的音频信息和相应音频信息在耳机中产生的声波振动信息。
耳机的麦克风可以同时采集至少一个对象的音频信息,即音频信息集合。
耳机内的气孔因采集的每个音频信息产生相应的声波振动信息,以获取相应音频信息对应的声波振动信息。
步骤S320、采用配置的惯性元件,对获取的每个对象的音频信息对应的声波振动信息进行检测,确定每个音频信息的声源方向。
采用配置的陀螺仪,对获取的每个音频信息对应的声波振动信息的振动方向进行检测,确定相应音频信息的声源方向。
步骤S330、根据每个音频信息的声源方向与预设声源方向的匹配结果,确定至少一个对象中佩戴耳机的目标对象。
将每个音频信息的声源方向分别与预设声源方向进行方向匹配;
若目标音频信息的声源方向与预设声源方向的匹配结果为匹配成功,则表明目标音频信息的声源方向为预设声源方向,此时将目标音频信息对应的对象确定为佩戴耳机的目标对象;其中,目标音频信息为获取的音频信息中的任一音频信息;
若目标音频信息的声源方向与预设声源方向的匹配结果为匹配失败,则表明目标音频信息的声源方向不为预设声源方向,此时将目标音频信息对应的对象确定为非佩戴耳机的对象。
在一种实施方式中,为了提高确定目标对象的准确性,需要目标对象在使用耳机前,可以存储目标对象的声纹特征,或可以接收输入的目标对象的音频信息,并对该音频信息进行声纹特征提取,以获取目标对象的声纹特征并进行存储,其中,声纹特征提取的具体的方式可采用现有技术,本申请实施例在此不做赘述。
具体实施中,将每个音频信息的声源方向分别与预设声源方向进行方向匹配,以及将每个音频信息的声纹特征分别与存储的目标对象的声纹特征进行匹配;
若目标音频信息的声源方向为预设声源方向,且目标音频信息的声纹特征与存储的目标对象的声纹特征的相似度满足预设相似条件,则将目标音频信息对应的对象确定为佩戴耳机的目标对象;
若目标音频信息的声源方向为预设声源方向,且目标音频信息的声纹特征与存储的目标对象的声纹特征的相似度不满足预设相似条件,则将目标音频信息对应的对象确定为非佩戴耳机的对象。
其中,可以采用余弦相似度算法,计算目标音频信息的声纹特征与存储的目标对象的声纹特征的相似度;预设相似条件是指计算得到的相似度不小于预设相似度阈值。
在另一种实施方式中,为了提高确定目标对象的准确性,需要目标对象在使用耳机前,设置耳机可以接收到使用者的预设音量阈值,该预设音量阈值为接收的佩戴耳机的对象的最小音量。
具体实施中,将每个音频信息的声源方向分别与预设声源方向进行方向匹配,以及将每个音频信息的音量分别与预设音量阈值进行匹配;
若目标音频信息的声源方向为预设声源方向,且目标音频信息的音量大于预设音量阈值,则将目标音频信息对应的对象确定为佩戴耳机的目标对象;
若目标音频信息的声源方向为预设声源方向,且目标音频信息的音量不大于预设音量阈值,则将目标音频信息对应的对象确定为非佩戴耳机的对象。
步骤S340、向通信连接的终端发送目标音频信息对应的音频数据,以使终端基于音频数据通过耳机与目标对象进行交互。
具体实施中,对目标音频信息进行语音识别得到相应的文本信息后,可对该文本信息的信息类型进行检测,即对目标音频信息的信息类型进行检测,若文本信息中不包含操作类型的字符串,则表明目标音频信息不为指令类型的信息,反之,则表明目标音频信息为指令类型的信息。其中,操作类型的字符串可以包括但不限于打开、关闭、播放、启动等字符串。
若目标音频信息为指令类型的信息,如“打开XXX”、“关闭xxx”、“播放YYY”等,则向通信连接的终端发送目标音频信息对应的音频数据,以实现目标对象通过耳机与终端上的目标应用程序,如手机助手进行交互。
在一个例子中,耳机与终端通信连接,目标对象可通过耳机与终端上的手机助手进行交互。在通过本申请提供的音频识别方法识别出目标对象的音频信息后,耳机通过配置的语音识别算法对该音频信息进行语音识别,得到文本信息“打开音乐播放器”,由于文本信息中包含“打开”,故该音频信息为指令类型的信息,则向终端发送该音频信息对应的音频数据,以实现目标对象通过耳机与终端上的手机助手进行交互。
若目标音频信息不为指令类型的信息,如“今天吃了吗”、“这是去哪呀”等,则拒绝向通信连接的终端发送获取的任一音频信息对应的音频数据。
也就是说,即使目标音频信息是目标对象的音频信息,但在检测出该目标音频信息不为指令类型的信息后,可确定其对应的音频数据不属于与终端进行交互的数据,即该目标音频信息对应的音频数据不能对终端进行控制。
此时拒绝向终端发送任一音频信息对应的音频数据,以避免终端对音频数据的误识别。
本申请实施例提供的音频信息的识别方法在获取至少一个对象的音频信息和相应音频信息在耳机中产生的声波振动信息后,采用配置的惯性元件,对获取的每个对象的音频信息对应的声波振动信息进行检测,确定每个音频信息的声源方向;并针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴耳机的目标对象,并将该音频信息作为目标音频信息;其中,预设声源方向为佩戴耳机的对象对应的声源方向;之后向通信连接的终端发送目标音频信息对应的音频数据,以使终端基于音频数据通过耳机与目标对象进行交互。该方法在准确识别出耳机的使用者后可实现终端通过耳机与目标对象进行交互,降低了耳机与终端交互时产生的音频信息的误识别,提高了用户体验。
与上述方法对应的,本申请实施例还提供一种音频信息的识别装置,如图4所示,该音频信息的识别装置包括:获取单元410、检测单元420、确定单元430和发送单元440;
获取单元410,用于获取至少一个对象的音频信息和相应音频信息在所述耳机中产生的声波振动信息;
检测单元420,用于采用配置的惯性元件,对获取的每个对象的音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向;
确定单元430,用于针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,并将该音频信息作为目标音频信息;其中,所述预设声源方向为佩戴耳机的对象对应的声源方向;
发送单元440,用于向通信连接的终端发送所述目标音频信息对应的音频数据,以使所述终端基于所述音频数据通过所述耳机与所述目标对象进行交互。
在一个可选的实现中,确定单元430,具体用于若该音频信息的声源方向为预设声源方向,且该音频信息的声纹特征与存储的目标对象的声纹特征的相似度满足预设相似条件,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象。
在一个可选的实现中,确定单元430,还具体用于若该音频信息的声源方向为预设声源方向,且该音频信息的音量大于预设音量阈值,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,所述预设音量阈值为接收的佩戴耳机的对象的最小音量。
在一个可选的实现中,发送单元440,具体用于若所述目标音频信息为指令类型的信息,则向通信连接的终端发送所述目标音频信息对应的音频数据。
在一个可选的实现中,发送单元440,还具体若所述目标音频信息不为指令类型的信息,则拒绝向通信连接的终端发送获取的任一音频信息对应的音频数据。
在一个可选的实现中,检测单元420,具体用于采用配置的陀螺仪对获取的每个音频信息对应的声波振动信息的振动方向进行检测,确定所述每个音频信息的声源方向。
本申请上述实施例提供的音频信息的识别装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本申请实施例提供的音频信息的识别装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本申请实施例还提供了一种电子设备,如图5所示,包括处理器510、通信接口520、存储器530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。
存储器530,用于存放计算机程序;
处理器510,用于执行存储器530上所存放的程序时,实现如下步骤:
获取至少一个对象的音频信息和相应音频信息在所述耳机中产生的声波振动信息;
采用配置的惯性元件,对获取的每个对象的音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向;
针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,并将该音频信息作为目标音频信息;其中,所述预设声源方向为佩戴耳机的对象对应的声源方向;
向通信连接的终端发送所述目标音频信息对应的音频数据,以使所述终端基于所述音频数据通过所述耳机与所述目标对象进行交互。
在一个可选的实现中,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,包括:
若该音频信息的声源方向为预设声源方向,且该音频信息的声纹特征与存储的目标对象的声纹特征的相似度满足预设相似条件,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象。
在一个可选的实现中,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,包括:
若该音频信息的声源方向为预设声源方向,且该音频信息的音量大于预设音量阈值,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,所述预设音量阈值为接收的佩戴耳机的对象的最小音量。
在一个可选的实现中,向通信连接的终端发送所述目标音频信息对应的音频数据之前,所述方法还包括:
若所述目标音频信息为指令类型的信息,则向通信连接的终端发送所述目标音频信息对应的音频数据。
在一个可选的实现中,所述方法还包括:
若所述目标音频信息不为指令类型的信息,则拒绝向通信连接的终端发送获取的任一音频信息对应的音频数据。
在一个可选的实现中,采用配置的惯性元件对获取的每个音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向,包括:
采用配置的陀螺仪对获取的每个音频信息对应的声波振动信息的振动方向进行检测,确定所述每个音频信息的声源方向。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图3所示的实施例中的各步骤来实现,因此,本申请实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的音频信息的识别方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的音频信息的识别方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

Claims (10)

1.一种音频信息的识别方法,其特征在于,所述方法应用在耳机中,所述方法包括:
获取至少一个对象的音频信息和相应音频信息在所述耳机中产生的声波振动信息;
采用配置的惯性元件,对获取的每个对象的音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向;
针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,并将该音频信息作为目标音频信息;其中,所述预设声源方向为佩戴耳机的对象对应的声源方向;
向通信连接的终端发送所述目标音频信息对应的音频数据,以使所述终端基于所述音频数据通过所述耳机与所述目标对象进行交互。
2.如权利要求1所述的方法,其特征在于,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,包括:
若该音频信息的声源方向为预设声源方向,且该音频信息的声纹特征与存储的目标对象的声纹特征的相似度满足预设相似条件,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象。
3.如权利要求1或2所述的方法,其特征在于,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,包括:
若该音频信息的声源方向为预设声源方向,且该音频信息的音量大于预设音量阈值,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,所述预设音量阈值为接收的佩戴耳机的对象的最小音量。
4.如权利要求1所述的方法,其特征在于,向通信连接的终端发送所述目标音频信息对应的音频数据,包括:
若所述目标音频信息为指令类型的信息,则向通信连接的终端发送所述目标音频信息对应的音频数据。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
若所述目标音频信息不为指令类型的信息,则拒绝向通信连接的终端发送获取的任一音频信息对应的音频数据。
6.如权利要求1所述的方法,其特征在于,采用配置的惯性元件对获取的每个音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向,包括:
采用配置的陀螺仪对获取的每个音频信息对应的声波振动信息的振动方向进行检测,确定所述每个音频信息的声源方向。
7.一种音频信息的识别装置,其特征在于,所述装置包括:获取单元、检测单元、确定单元和发送单元;
所述获取单元,用于获取至少一个对象的音频信息和相应音频信息在所述耳机中产生的声波振动信息;
所述检测单元,用于采用配置的惯性元件对获取的每个音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向;
所述确定单元,用于针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,并将该音频信息作为目标音频信息;其中,所述预设声源方向为佩戴耳机的对象对应的声源方向;
所述发送单元,用于向通信连接的终端发送所述目标音频信息对应的音频数据,以使所述终端基于所述音频数据通过所述耳机与所述目标对象进行交互。
8.一种耳机,其特征在于,所述耳机包括:麦克风、拾音检测模块和数据发送模块,其中,所述拾音检测模块包括方向检测模块和对象检测模块;
所述麦克风,用于获取至少一个对象的音频信息;
所述方向检测模块,用于获取相应音频信息在所述耳机中产生的声波振动信息,并采用配置的惯性元件,对每个音频信息对应的声波振动信息进行检测,确定所述每个音频信息的声源方向;
所述对象检测模块,用于针对各对象的音频信息,若该音频信息的声源方向为预设声源方向,则将该音频信息对应的对象确定为佩戴所述耳机的目标对象,并将该音频信息作为目标音频信息;其中,所述预设声源方向为佩戴耳机的对象对应的声源方向;
所述数据发送模块,用于向与所述耳机通信连接的终端发送所述目标音频信息对应的音频数据,以使所述终端基于所述音频数据通过所述耳机与所述目标对象进行交互。
9.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202110569474.8A 2021-05-25 2021-05-25 音频信息的识别方法、装置及耳机 Pending CN113192515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110569474.8A CN113192515A (zh) 2021-05-25 2021-05-25 音频信息的识别方法、装置及耳机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110569474.8A CN113192515A (zh) 2021-05-25 2021-05-25 音频信息的识别方法、装置及耳机

Publications (1)

Publication Number Publication Date
CN113192515A true CN113192515A (zh) 2021-07-30

Family

ID=76984855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110569474.8A Pending CN113192515A (zh) 2021-05-25 2021-05-25 音频信息的识别方法、装置及耳机

Country Status (1)

Country Link
CN (1) CN113192515A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010263354A (ja) * 2009-05-01 2010-11-18 Nagaoka Univ Of Technology イヤホンおよびイヤホンシステム
CN104360309A (zh) * 2014-11-28 2015-02-18 北京智谷睿拓技术服务有限公司 移动声源信息确定方法及确定装置、用户设备
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN111624588A (zh) * 2020-05-27 2020-09-04 上海交通大学 主动声源定位与声音信号重构方法及装置
CN111933149A (zh) * 2020-08-11 2020-11-13 北京声智科技有限公司 语音交互方法、穿戴式设备、终端及语音交互系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010263354A (ja) * 2009-05-01 2010-11-18 Nagaoka Univ Of Technology イヤホンおよびイヤホンシステム
CN104360309A (zh) * 2014-11-28 2015-02-18 北京智谷睿拓技术服务有限公司 移动声源信息确定方法及确定装置、用户设备
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN111624588A (zh) * 2020-05-27 2020-09-04 上海交通大学 主动声源定位与声音信号重构方法及装置
CN111933149A (zh) * 2020-08-11 2020-11-13 北京声智科技有限公司 语音交互方法、穿戴式设备、终端及语音交互系统

Similar Documents

Publication Publication Date Title
US11393472B2 (en) Method and apparatus for executing voice command in electronic device
CN108985212B (zh) 人脸识别方法及装置
EP3127116B1 (en) Attention-based dynamic audio level adjustment
US9916832B2 (en) Using combined audio and vision-based cues for voice command-and-control
WO2016160123A1 (en) Controlling electronic device based on direction of speech
US20160125883A1 (en) Speech recognition client apparatus performing local speech recognition
US20200219503A1 (en) Method and apparatus for filtering out voice instruction
US9516429B2 (en) Hearing aid and method for controlling hearing aid
US9437217B2 (en) Pre-processing apparatus and method for speech recognition
US20150234633A1 (en) Methods and Systems for Voice Management
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN106302974B (zh) 一种信息处理的方法及电子设备
WO2022199405A1 (zh) 一种语音控制方法和装置
US10129382B2 (en) Electronic device and method for controlling electronic device using headset
CN112423176A (zh) 耳机降噪方法、装置、存储介质及降噪耳机
CN113192515A (zh) 音频信息的识别方法、装置及耳机
US11081125B2 (en) Noise cancellation in voice communication systems
CN113766385B (zh) 耳机降噪方法及装置
CN112104964B (zh) 一种跟随式扩声机器人的控制方法及控制系统
US11367436B2 (en) Communication apparatuses
US20170013105A1 (en) Apparatus and method for processing voice signal and terminal
CN111131646A (zh) 通话降噪方法、装置、存储介质及电子装置
CN114827337B (zh) 音量调整的方法、装置、设备及存储介质
CN108874460B (zh) 语音传输装置及其执行语音助理程序的方法
CN112449050A (zh) 语音交互方法、语音交互设备、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210730

RJ01 Rejection of invention patent application after publication