CN108922553A - 用于音箱设备的波达方向估计方法及系统 - Google Patents

用于音箱设备的波达方向估计方法及系统 Download PDF

Info

Publication number
CN108922553A
CN108922553A CN201810797046.9A CN201810797046A CN108922553A CN 108922553 A CN108922553 A CN 108922553A CN 201810797046 A CN201810797046 A CN 201810797046A CN 108922553 A CN108922553 A CN 108922553A
Authority
CN
China
Prior art keywords
signal
wake
value
frequency point
time frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810797046.9A
Other languages
English (en)
Other versions
CN108922553B (zh
Inventor
任维怡
周强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201810797046.9A priority Critical patent/CN108922553B/zh
Publication of CN108922553A publication Critical patent/CN108922553A/zh
Application granted granted Critical
Publication of CN108922553B publication Critical patent/CN108922553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S1/00Beacons or beacon systems transmitting signals having a characteristic or characteristics capable of being detected by non-directional receivers and defining directions, positions, or position lines fixed relatively to the beacon transmitters; Receivers co-operating therewith
    • G01S1/72Beacons or beacon systems transmitting signals having a characteristic or characteristics capable of being detected by non-directional receivers and defining directions, positions, or position lines fixed relatively to the beacon transmitters; Receivers co-operating therewith using ultrasonic, sonic or infrasonic waves
    • G01S1/76Systems for determining direction or position line
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开一种用于音箱设备的波达方向估计方法,包括:确定对应于音频信号的空间谱;从空间谱中选取大于设定波峰阈值的n个峰值;确定n个峰值所对应的n路信号的方向为n个候选波达方向;对n路信号和音频信号中除n路信号之外的信号进行增强处理得到n+1路增强信号;当n+1个唤醒置信度都小于预设唤醒阈值时,执行新一轮的波达方向估计方法。由于本发明实施例中在进行语音增强时,不仅包含波达方向估计值方向的增强,而且包含非波达方向估计值的增强,所以得到的方向估计值更准确、且能克服真实来波方向在空间谱中峰值不明显的缺陷,使得音频的增强效果更好、唤醒率更高。

Description

用于音箱设备的波达方向估计方法及系统
技术领域
本发明涉及语音信息技术领域,尤其涉及一种用于音箱设备的波达方向估计方法、系统、电子设备及存储介质。
背景技术
现有波达方向估计的相关技术中,先进行预处理,再做波达方向估计,根据波达方向估计值进行增强,再判断是否唤醒,最后从波达方向估计值中选出被唤醒的一个最强的方向。预处理包括进行语音分离或先进行语音增强,再进行一次唤醒。而在强语音干扰或多语音干扰场景下,经过预处理后进行波达方向估计时,得到的方向估计值可能是有偏差或者不正确的。当波达方向估计值有偏差或者不正确时,在语音增强时的增强效果会不好,从而导致唤醒率不高;而最终的波达方向是从波达方向估计值中进行选择的,当波达方向估计值有偏差或者不正确时,最终得到的波达方向是不正确的或者精度不高的。
发明内容
本发明实施例提供一种用于音箱设备的波达方向估计方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种用于音箱设备的波达方向估计方法,包括:
对接收到的音频信号进行波达方向预估计,以得到对应于所述音频信号的空间谱;
从所述空间谱中选取大于设定波峰阈值的n个峰值;
确定所述n个峰值所对应的n路信号的方向为n个候选波达方向;
对所述n路信号和所述音频信号中除所述n路信号之外的信号进行增强处理得到n+1路增强信号;
分别计算所述n+1路增强信号的n+1个唤醒置信度;
当所述n+1个唤醒置信度都小于预设唤醒阈值时,执行新一轮的波达方向估计方法。
第二方面,本发明实施例提供一种用于音箱设备的波达方向估计系统,包括:
一种用于音箱设备的波达方向估计系统,包括:
第一空间谱确定程序模块,用于对接收到的音频信号进行波达方向预估计,以得到对应于所述音频信号的空间谱;
峰值确定程序模块,用于从所述空间谱中选取大于设定波峰阈值的n个峰值;
候选方向确定程序模块,用于确定所述n个峰值所对应的n路信号的方向为n个候选波达方向;
信号增强程序模块,用于对所述n路信号和所述音频信号中除所述n路信号之外的信号进行增强处理得到n+1路增强信号;
置信度计算程序模块,用于分别计算所述n+1路增强信号的n+1个唤醒置信度;
循环执行程序模块,用于当所述n+1个唤醒置信度都小于预设唤醒阈值时,执行新一轮的波达方向估计方法。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项用于音箱设备的波达方向估计方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项用于音箱设备的波达方向估计方法。
本发明实施例中首先进行波达方向估计,得到波达方向的候选估计值,再分别进行多次语音增强,判断是否存在唤醒词,若否,则重新计算波达方向。由于本发明实施例中在进行语音增强时,不仅包含波达方向估计值方向的增强,而且包含非波达方向估计值的增强,所以得到的方向估计值更准确、且能克服真实来波方向在空间谱中峰值不明显的缺陷,使得音频的增强效果更好、唤醒率更高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的用于音箱设备的波达方向估计方法的一实施例的流程图;
图2为本发明的用于音箱设备的波达方向估计方法的另一实施例的流程图;
图3为本发明的用于音箱设备的波达方向估计方法的又一实施例的流程图;
图4为本发明的广义旁瓣相消器的结构示意图;
图5为本发明的用于音箱设备的波达方向估计系统的一实施例的原理框图;
图6为本发明的用于音箱设备的波达方向估计方法系统的另一实施例的原理框图;
图7为本发明的用于音箱设备的波达方向估计方法系统的又一实施例的原理框图;
图8为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明的实施例提供一种用于音箱设备的波达方向估计方法,包括:
S11、对接收到的音频信号进行波达方向预估计,以得到对应于所述音频信号的空间谱;
S12、从所述空间谱中选取大于设定波峰阈值的n个峰值;
S13、确定所述n个峰值所对应的n路信号的方向为n个候选波达方向;
S14、对所述n路信号和所述音频信号中除所述n路信号之外的信号进行增强处理得到n+1路增强信号;
S15、分别计算所述n+1路增强信号的n+1个唤醒置信度;
S16、当所述n+1个唤醒置信度都小于预设唤醒阈值时,再次执行步骤S11-S15。
本发明实施例中首先进行波达方向估计,得到波达方向的候选估计值,再分别进行多次语音增强,判断是否存在唤醒词,若否,则重新计算波达方向。由于本发明实施例中在进行语音增强时,不仅包含波达方向估计值方向的增强,而且包含非波达方向估计值的增强,所以得到的方向估计值更准确、且能克服真实来波方向在空间谱中峰值不明显的缺陷,使得音频的增强效果更好、唤醒率更高。
相比之下,现有技术中预处理包括:a.进行语音分离;或b.先进行语音增强,再进行一次唤醒。所存在的问题是,进行波达方向估计的结果不正确或者精度不高;语音唤醒率不高。在进行波达方向估计前:如果预处理方法为a(进行语音分离),在多语音干扰或者强语音干扰等场景下,所得到的波达方向估计值可能是不正确的或者有偏差的,从而产生上述2个缺陷:在语音增强时所选择的波达方向不准确,会使增强效果不好,导致语音唤醒率不高;最终波达方向是从波达方向估计值中进行选择,而波达方向估计值的计算比较粗糙,导致波达方向估计的结果不正确或者精度不高。如果预处理方法为b(先进行语音增强,再进行一次唤醒),则波达方向估计值是从空间谱中选择峰值得到的,在强干扰场景下也会产生上述2个缺陷:空间谱的唤醒词语音峰值不明显,从而候选估计方向中不包含真实波达方向,则根据波达方向估计值进行增强得到的音频中不包含增强唤醒词语音的音频,从而唤醒率不高;由于最终的波达方向是从波达方向估计值中进行选择的,而波达方向估计值中不包含真实波达方向,所以导致波达方向估计结果不准确。
如图2所示,本发明的用于音箱设备的波达方向估计方法的另一实施例的流程图,本实施例中还包括:
S21、当对应于所述n路信号的n个唤醒置信度中存在大于所述预设唤醒阈值的唤醒置信度时,
S22、如果大于所述预设唤醒阈值的唤醒置信度的数量为唯一时,则确定所述唯一的唤醒置信度对应的信号的方向为波达方向;
S23、如果大于所述预设唤醒阈值的唤醒置信度的数量为多个时,则确定所述多个唤醒置信度对应的多路信号中峰值最大的信号的方向为波达方向。
本发明实施例中首先进行波达方向估计,得到波达方向的候选估计值,再分别进行多次语音增强,判断是否存在唤醒词:若存在,则判断所得到的波达方向估计值中是否包含真实的唤醒词语音来波方向;若否,则重新计算波达方向。本实施例中当n路信号的n个唤醒置信度中存在大于所述预设唤醒阈值的唤醒置信度时,表明基于峰值大小所预确定的多路信号中存在真实语音信号,因此基于峰值和唤醒置信度双重验证来确定真实的语音信号,大大提升了估计波达方向的准确率。
如图3所示,本发明的用于音箱设备的波达方向估计方法的另一实施例的流程图,本实施例中还包括:当唯有对应于所述音频信号中除所述n路信号之外的信号的唤醒置信度大于所述预设唤醒阈值时,
S31、对所述音频信号进行分离,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点,所述音频信号包括干扰信号和/或噪声信号和/或唤醒词和/或静音信号;
S32、基于对所述音频信号的分离结果进行波达方向二次估计以得到新的空间谱;
S33、确定所述新的空间谱中的最大峰值所对应的信号的方向为波达方向。
本发明实施例中首先进行波达方向估计,得到波达方向的候选估计值,再分别进行多次语音增强,判断是否存在唤醒词:若存在,则判断所得到的波达方向估计值中是否包含真实的唤醒词语音来波方向;若否,则重新计算波达方向。由于该方法在进行语音增强时,不仅包含波达方向估计值方向的增强,而且包含非波达方向估计值的增强,所以得到的方向估计值更准确、且能克服真实来波方向在空间谱中峰值不明显的缺陷,使得音频的增强效果更好、唤醒率更高。同时,在判断得知真实来波方向不在候选估计值中时,会重新计算波达方向,因此所得到的最终波达方向的准确度更高。并且可以确定基于峰值确定n路信号中并不存在能够用于确定波达方向的真实的语音信号,所以可以基于此在二次估计时便降低了所存在的干扰,提升了估计波达方向的准确率。
所述对所述音频信号进行分离,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点包括:
将所述音频信号中占比大于占比阈值的音频成分加乘1,小于所述占比阈值的音频成分加乘0,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点。
进一步地,为使得本发明的用于音箱设备的波达方向估计方法的更加清楚,对该方法的实施例进行以下详细说明:
步骤1:判断是否存在语音
采用含有麦克风阵列的终端设备获取音频信号,通过VAD(voice activitydetection,语音活性检测)检测或者语音存在概率计算是否存在语音。若存在语音,则进入步骤2;若不存在,则继续该步骤。语音存在概率计算属于VAD的一种方法。VAD算法,指在噪声环境中检测语音的存在与否。常规的VAD算法是基于短时能量、过零率等特性进行检测,相对简单。而语音存在概率计算则相对复杂:通常涉及到噪声功率谱的估计、语音不存在概率的计算、语音存在概率的计算等,得到的语音存在概率是基于时频点的;再对时频点的语音存在概率进行相加、平滑等手段处理,得到时间帧或时间块的语音存在概率;最后判断是否超过设定的阈值,若超过则认为存在语音,否则不存在语音。
判断语音存在是指在“音频信号”某时间段检测到了“语音信号”的存在,所以在这一段进行后续步骤的处理。但这段“语音信号”可能是单纯的“有用语音”,也可能是不含“有用语音”的干扰和噪声,也可能既有“有用语音”、又有干扰和噪声。若“既有有用语音、又有干扰和噪声”,该步骤并未将“有用语音”和“干扰和噪声”区分开。
“音频信号”的成分通常包含:静音、有用语音、噪声、干扰。在同一时间点,音频信号可以包含这4种成分中的一种或多种。
“静音”:指安静环境下,麦克风阵列采集的音频信号。
“有用语音”:指语音的一种。如果在唤醒判断中,有用语音指唤醒词;如果在识别过程中,有用语音指发出的语音指令。
“噪声”:通常指风扇的声音、空调的声音、水龙头的声音等等。
“干扰”:包含语音,但通常不是有用语音。对于音箱产品,通常指附近电视机发出的声音(如果播放的是新闻,步骤1会检测成有语音存在,但通常不是产品需要作出回应的、不是有用语音),在附近说话的人、但说话对象不是音箱等。
因此,“语音信号”是指包含了语音成分的某段“音频信号”。即至少包含“有用语音”和干扰中的一种。
步骤2:波达方向估计
采用常用的波达方向估计方法,例如:MUSIC(multiple signal classification,多重信号分类),SRP(steered response power,可控响应功率),GCC(generalized crosscorrelation,广义互相关)等,得到音频的空间谱。从空间谱中选出大于设定阈值的N个峰值(N为一个或多个),作为候选的波达方向估计值。根据空间谱的峰值对这N个估计值按从大到小的顺序排列,即theta 1,theta 2,…,theta N。这些波达方向可能包含语音方向,也可能包含干扰或噪声方向。
一般场景下,麦克风阵列所能处理的声源数不大于麦克风数目。所以:当空间谱中的峰值个数不大于麦克风数目时,可以选择所有的峰值;当空间谱中的峰值个数大于麦克风数目时,选择峰值最大的前麦克风数目的方向。
当按照上面方法得到的峰值数目较多时(最大为麦克风数),所需要进行信号增强的个数就会很多,计算量会比较大。在某些限制计算量的设备上,当按上述方法得到的峰值数角度时,可以选择能接受的最大个数的峰值数、或者设置一个阈值动态确定选择几个峰值。
“设定阈值”的目的是为了选择峰值大的、斜率大的空间谱中的方向。例如:可以计算每一个峰值与最小峰值在空间谱中大小的比值,这是阈值1;若某一峰值不是最大峰值,则计算该峰值点的斜率,与阈值2对比。关于阈值1,优选当前峰值大小比上最大峰值大小要大于0.3;关于阈值2,优选斜率的绝对值要大于0.5。
步骤3:多路信号增强
根据得到的N个波达方向估计值,进行N+1路信号增强。例如波达方向估计值有2个(theta1,theta2),则进行3路信号增强:第1路信号增强,对theta1方向的信号进行增强;第2路信号增强,对theta2方向的信号进行增强;第3路信号增强,对非N个波达方向的信号进行增强,即对theta1和theta2方向之外的其它方向的信号进行增强。
信号增强的方法可以有多种。如图4所示,本发明以GSC(Generalized SidelobeCanceller,广义旁瓣相消器)结构为例进行说明。对M个麦克风阵列接收的音频信号x1(n),…,xM(n)增强,上支路为设计的指向theta n的固定波束形成器,输出为d(n);下支路为设计的抑制theta n方向信号的阻塞矩阵,输出为u(n),用来在theta n方向形成零陷;在自适应噪声消除器部分输出为y(n),采用归一化最小均方算法更新滤波器的系数;从而得到了增强theta n方向的信号。对于第N+1路,上支路为设计的指向非这N个波达方向估计值的固定波束形成器,即抑制theta 1到theta N方向的信号;下支路为指向这N个波达方向估计值的阻塞矩阵,即增强theta 1到theta N方向的信号;再通过自适应噪声消除器部分,用归一化最小均方算法更新滤波器系数;从而得到了增强非N个波达方向估计值的信号。
步骤4:判断音频是否被唤醒
将步骤3得到的N+1路信号分别进行唤醒词检测,判断唤醒置信度是否大于预设的唤醒阈值,检测后将会产生3类结果。
第1类:N+1路增强信号的唤醒置信度均未达到预设的唤醒阈值,则进入步骤1。
第2类:N路增强的波达方向估计值的信号中,有一路或多路达到预设的唤醒阈值,那么在达到唤醒阈值的这些方向估计值中,选择步骤2中得到的空间谱中峰值最大的方向,作为最终的波达方向,并进入步骤6。第3类:N路增强的波达方向估计值的信号中,均没有达到唤醒阈值,而第N+1路增强后的信号达到了唤醒阈值,则进入步骤5。
唤醒检测属于机器学习领域:利用大量数据,通过神经网络进行训练,得到一个模型,该模型可以对需要检测的语音输出一个结果,该结果即唤醒置信度。若唤醒置信度高,则认为更接近于唤醒词语音。通常的处理方式是会给出一个合理的阈值:如果唤醒置信度高于这一阈值,则认为包含唤醒词语音,如果唤醒置信度低于这一阈值,则认为不包含唤醒词语音。每一路增强后的信号均送入所训练得到的唤醒模型中,根据神经网络机制,可以得到每一路增强后信号的唤醒置信度。而这一唤醒模型是如何训练得到的则属于唤醒或者语音识别领域的内容。设置唤醒阈值的准则是保证误唤醒低、而唤醒率高。通常这两个准则是矛盾的,所以大小是平衡这两个准则后的一种折中结果,例如,唤醒阈值小于0.5的。
步骤5:二次波达方向估计
根据步骤4可知,若进入步骤5,表明步骤2中计算得到的波达方向估计值中,没有指向唤醒词语音的方向,N个候选方向均是干扰或噪声方向,所以需要进行二次波达方向估计。
由于音频信号中存在干扰或噪声会降低波达方向估计的准确度,所以在进行二次波达方向估计时,对音频信号进行分离,得到2个大类:第1类是干扰和/或噪声信号的时频点,而第2类是唤醒词和静音信号的时频点。选择第2类的时频点进行二次波达方向估计,估计方法可以是MUSIC、SRP或者GCC等,根据得到的空间谱选择最大峰值作为最终的波达方向,并进入步骤6。步骤5的目的是得到“有用信号”的波达方向(即最终正确真实的波达方向),而在音频信号的四种成分(静音、有用语音、噪声、干扰)中,只有“有用信号”这一成分对得到最终波达方向有利,噪声或干扰的存在则会影响波达方向的准确度。由步骤4可知,进入了步骤5,表明之前空间谱中选择的峰值是干扰或噪声,可以将它们和另2个成分(静音、有用语音)分离出来。而静音是没有方向性的,对波达方向估计是没有害处的,所以不需要再在静音和有用语音中进行分离。所以步骤5将音频信号划分了两大类。划分依据是判断是否属于噪声或干扰,若属于则在第一类,若不属于则在第二类(有用信号+静音)。
在进行音频信号的时频点分离时,可以采用0-1的硬分离方法:即将第1类时频点乘以0系数,而第2类时频点乘以1系数;也可以采用软分离的方法:即对各时频点乘以0到1之间的一个数。
时频点分离的方法有多种,例如,可以根据每个时频点的相位信息判断该时频点到各候选方向(干扰或噪声)的距离,根据距离远近得到一个占比。该占比反应的是该时频点包含干扰或噪声的比重的大小,那么剩余的比重则是唤醒词所占的比重大小。
一个时频点可以是静音或者其他3个成分(噪声、干扰、有用语音)中的一种或多种,因此一个时频点上,某个成分的占比必然在0%和100%之间,即0和1之间。按照分离方法,可以得到各个成分的大致占比情况,因此分离方法根据占比分为了两类:对于硬分离,当某一成分占比超过占比阈值时,则认为该时频点该成分占主导,从而设为1,若未超过占比阈值,则不占主导,从而设为0,优选占比阈值大于0.5;对于软分离,直接用占比作为系数,因此系数在0到1之间,得到的信息更丰富。
步骤6:语音识别
经过步骤4或步骤5后,可得到唤醒词语音的最终波达方向。根据该波达方向,对设备进行操作、或对音频信号进行增强并进行语音识别。
本发明所介绍的方法首先进行波达方向估计,得到候选的波达方向估计值,再进行相应方向的信号增强。由于在进行信号增强时,方向指向的是唤醒词、噪声或干扰中的一个或多个,从而信号增强的分辨率更高。在估计方向中包含唤醒词语音方向时,这些增强的信号效果更好、更容易超过预设的唤醒阈值,而估计方向中不包含唤醒词语音方向时,增强了非候选估计值方向的信号、不遗漏地获取唤醒词语音的增强音频,所以可以提高音频的唤醒率。
本发明在得到最终波达方向时,进行了一次或两次的波达方向估计计算、且结合了唤醒检测结果的判断,所以波达方向估计准确度更高,对后续的操作更有利。尤其是在信噪比很低时,例如存在很强的干扰,一般的波达方向估计方法得到的空间谱可能未在唤醒词语音方向形成峰值,导致波达方向估计错误;而该本发明的方法会进行时频点分离和二次波达方向估计,提高了波达方向估计的准确度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图5所示,本发明的实施例还提供一种用于音箱设备的波达方向估计系统500,包括:
第一空间谱确定程序模块510,用于对接收到的音频信号进行波达方向预估计,以得到对应于所述音频信号的空间谱;
峰值确定程序模块520,用于从所述空间谱中选取大于设定波峰阈值的n个峰值;
候选方向确定程序模块530,用于确定所述n个峰值所对应的n路信号的方向为n个候选波达方向;
信号增强程序模块540,用于对所述n路信号和所述音频信号中除所述n路信号之外的信号进行增强处理得到n+1路增强信号;
置信度计算程序模块550,用于分别计算所述n+1路增强信号的n+1个唤醒置信度;
循环执行程序模块560,用于当所述n+1个唤醒置信度都小于预设唤醒阈值时,执行新一轮的波达方向估计方法。
本发明实施例中首先进行波达方向估计,得到波达方向的候选估计值,再分别进行多次语音增强,判断是否存在唤醒词,若否,则重新计算波达方向。由于本发明实施例中在进行语音增强时,不仅包含波达方向估计值方向的增强,而且包含非波达方向估计值的增强,所以得到的方向估计值更准确、且能克服真实来波方向在空间谱中峰值不明显的缺陷,使得音频的增强效果更好、唤醒率更高。
如图6所示,本发明的实施例的用于音箱设备的波达方向估计系统500,还包括:
第一方向确定程序模块570,用于当对应于所述n路信号的n个唤醒置信度中存在大于所述预设唤醒阈值的唤醒置信度时,如果大于所述预设唤醒阈值的唤醒置信度的数量为唯一时,则确定所述唯一的唤醒置信度对应的信号的方向为波达方向;
第二方向确定程序模块580,用于当对应于所述n路信号的n个唤醒置信度中存在大于所述预设唤醒阈值的唤醒置信度时,如果大于所述预设唤醒阈值的唤醒置信度的数量为多个时,则确定所述多个唤醒置信度对应的多路信号中峰值最大的信号的方向为波达方向。
如图7所示,本发明的实施例的用于音箱设备的波达方向估计系统500,还包括:
信号分离程序模块590,用于当唯有对应于所述音频信号中除所述n路信号之外的信号的唤醒置信度大于所述预设唤醒阈值时,对所述音频信号进行分离,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点,所述音频信号包括干扰信号和/或噪声信号和/或唤醒词和/或静音信号;
第二空间谱确定程序模块591,用于基于对所述音频信号的分离结果进行波达方向二次估计以得到新的空间谱;
第三方向确定程序模块592,用于确定所述新的空间谱中的最大峰值所对应的信号的方向为波达方向。
所述对所述音频信号进行分离,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点包括:
将所述音频信号中占比大于占比阈值的音频成分加乘1,小于所述占比阈值的音频成分加乘0,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项用于音箱设备的波达方向估计方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项用于音箱设备的波达方向估计方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行用于音箱设备的波达方向估计方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时用于音箱设备的波达方向估计方法。
上述本发明实施例的用于音箱设备的波达方向估计系统可用于执行本发明实施例的用于音箱设备的波达方向估计方法,并相应的达到上述本发明实施例的实现用于音箱设备的波达方向估计方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
图8是本申请另一实施例提供的执行用于音箱设备的波达方向估计方法的电子设备的硬件结构示意图,如图8所示,该设备包括:
一个或多个处理器810以及存储器820,图8中以一个处理器810为例。
执行用于音箱设备的波达方向估计方法的设备还可以包括:输入装置830和输出装置840。
处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器820作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的用于音箱设备的波达方向估计方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于音箱设备的波达方向估计方法。
存储器820可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于音箱设备的波达方向估计装置的使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器820可选包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至用于音箱设备的波达方向估计装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置830可接收输入的数字或字符信息,以及产生与用于音箱设备的波达方向估计装置的用户设置以及功能控制有关的信号。输出装置840可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器820中,当被所述一个或者多个处理器810执行时,执行上述任意方法实施例中的用于音箱设备的波达方向估计方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种用于音箱设备的波达方向估计方法,包括:
对接收到的音频信号进行波达方向预估计,以得到对应于所述音频信号的空间谱;
从所述空间谱中选取大于设定波峰阈值的n个峰值;
确定所述n个峰值所对应的n路信号的方向为n个候选波达方向;
对所述n路信号和所述音频信号中除所述n路信号之外的信号进行增强处理得到n+1路增强信号;
分别计算所述n+1路增强信号的n+1个唤醒置信度;
当所述n+1个唤醒置信度都小于预设唤醒阈值时,执行新一轮的波达方向估计方法。
2.根据权利要求1所述的方法,其中,
当对应于所述n路信号的n个唤醒置信度中存在大于所述预设唤醒阈值的唤醒置信度时,
如果大于所述预设唤醒阈值的唤醒置信度的数量为唯一时,则确定所述唯一的唤醒置信度对应的信号的方向为波达方向;
如果大于所述预设唤醒阈值的唤醒置信度的数量为多个时,则确定所述多个唤醒置信度对应的多路信号中峰值最大的信号的方向为波达方向。
3.根据权利要求1所述的方法,其中,
当唯有对应于所述音频信号中除所述n路信号之外的信号的唤醒置信度大于所述预设唤醒阈值时,
对所述音频信号进行分离,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点,所述音频信号包括干扰信号和/或噪声信号和/或唤醒词和/或静音信号;
基于对所述音频信号的分离结果进行波达方向二次估计以得到新的空间谱;
确定所述新的空间谱中的最大峰值所对应的信号的方向为波达方向。
4.根据权利要求3所述的方法,其中,所述对所述音频信号进行分离,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点包括:
将所述音频信号中占比大于占比阈值的音频成分加乘1,小于所述占比阈值的音频成分加乘0,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点。
5.一种用于音箱设备的波达方向估计系统,包括:
第一空间谱确定程序模块,用于对接收到的音频信号进行波达方向预估计,以得到对应于所述音频信号的空间谱;
峰值确定程序模块,用于从所述空间谱中选取大于设定波峰阈值的n个峰值;
候选方向确定程序模块,用于确定所述n个峰值所对应的n路信号的方向为n个候选波达方向;
信号增强程序模块,用于对所述n路信号和所述音频信号中除所述n路信号之外的信号进行增强处理得到n+1路增强信号;
置信度计算程序模块,用于分别计算所述n+1路增强信号的n+1个唤醒置信度;
循环执行程序模块,用于当所述n+1个唤醒置信度都小于预设唤醒阈值时,执行新一轮的波达方向估计方法。
6.根据权利要求5所述的系统,其中,还包括:
第一方向确定程序模块,用于当对应于所述n路信号的n个唤醒置信度中存在大于所述预设唤醒阈值的唤醒置信度时,如果大于所述预设唤醒阈值的唤醒置信度的数量为唯一时,则确定所述唯一的唤醒置信度对应的信号的方向为波达方向;
第二方向确定程序模块,用于当对应于所述n路信号的n个唤醒置信度中存在大于所述预设唤醒阈值的唤醒置信度时,如果大于所述预设唤醒阈值的唤醒置信度的数量为多个时,则确定所述多个唤醒置信度对应的多路信号中峰值最大的信号的方向为波达方向。
7.根据权利要求5所述的系统,其中,还包括:
信号分离程序模块,用于当唯有对应于所述音频信号中除所述n路信号之外的信号的唤醒置信度大于所述预设唤醒阈值时,对所述音频信号进行分离,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点,所述音频信号包括干扰信号和/或噪声信号和/或唤醒词和/或静音信号;
第二空间谱确定程序模块,用于基于对所述音频信号的分离结果进行波达方向二次估计以得到新的空间谱;
第三方向确定程序模块,用于确定所述新的空间谱中的最大峰值所对应的信号的方向为波达方向。
8.根据权利要求7所述的系统,其中,所述对所述音频信号进行分离,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点包括:
将所述音频信号中占比大于占比阈值的音频成分加乘1,小于所述占比阈值的音频成分加乘0,以得到干扰信号的时频点和/或噪声信号的时频点和/或唤醒词的时频点和/或静音信号的时频点。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任意一项所述方法的步骤。
CN201810797046.9A 2018-07-19 2018-07-19 用于音箱设备的波达方向估计方法及系统 Active CN108922553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810797046.9A CN108922553B (zh) 2018-07-19 2018-07-19 用于音箱设备的波达方向估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810797046.9A CN108922553B (zh) 2018-07-19 2018-07-19 用于音箱设备的波达方向估计方法及系统

Publications (2)

Publication Number Publication Date
CN108922553A true CN108922553A (zh) 2018-11-30
CN108922553B CN108922553B (zh) 2020-10-09

Family

ID=64416424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810797046.9A Active CN108922553B (zh) 2018-07-19 2018-07-19 用于音箱设备的波达方向估计方法及系统

Country Status (1)

Country Link
CN (1) CN108922553B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109782246A (zh) * 2018-12-31 2019-05-21 深圳市华讯方舟太赫兹科技有限公司 波达方向估计方法及装置、雷达、可读存储介质
CN109856592A (zh) * 2019-01-14 2019-06-07 国网天津市电力公司 一种无人机的超声定位装置及其定位方法
CN110277093A (zh) * 2019-07-30 2019-09-24 腾讯科技(深圳)有限公司 音频信号的检测方法及装置
CN110400572A (zh) * 2019-08-12 2019-11-01 苏州思必驰信息科技有限公司 音频增强方法及系统
CN110610710A (zh) * 2019-09-05 2019-12-24 晶晨半导体(上海)股份有限公司 一种自学习语音识别系统的构建装置和构建方法
CN111627425A (zh) * 2019-02-12 2020-09-04 阿里巴巴集团控股有限公司 一种语音识别方法及系统
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN113203987A (zh) * 2021-07-05 2021-08-03 成都启英泰伦科技有限公司 一种基于k均值聚类的多声源方位估计方法
CN113744752A (zh) * 2021-08-30 2021-12-03 西安声必捷信息科技有限公司 语音处理方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023196695A1 (en) * 2022-04-07 2023-10-12 Stryker Corporation Wake-word processing in an electronic device

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050080619A1 (en) * 2003-10-13 2005-04-14 Samsung Electronics Co., Ltd. Method and apparatus for robust speaker localization and automatic camera steering system employing the same
CN1826632A (zh) * 2003-03-31 2006-08-30 国际商业机器公司 用于语音信号的组合频域和时域音高提取的系统和方法
JP2007233239A (ja) * 2006-03-03 2007-09-13 National Institute Of Advanced Industrial & Technology 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的系统
CN105204001A (zh) * 2015-10-12 2015-12-30 Tcl集团股份有限公司 一种声源定位的方法及系统
CN105355210A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 用于远场语音识别的预处理方法和装置
CN107102291A (zh) * 2017-05-03 2017-08-29 浙江大学 基于虚拟阵列内插的无网格化互质阵列波达方向估计方法
US20180025732A1 (en) * 2016-07-20 2018-01-25 Nxp B.V. Audio classifier that includes a first processor and a second processor
CN108122563A (zh) * 2017-12-19 2018-06-05 北京声智科技有限公司 提高语音唤醒率及修正doa的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1826632A (zh) * 2003-03-31 2006-08-30 国际商业机器公司 用于语音信号的组合频域和时域音高提取的系统和方法
US20050080619A1 (en) * 2003-10-13 2005-04-14 Samsung Electronics Co., Ltd. Method and apparatus for robust speaker localization and automatic camera steering system employing the same
JP2007233239A (ja) * 2006-03-03 2007-09-13 National Institute Of Advanced Industrial & Technology 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的系统
CN105204001A (zh) * 2015-10-12 2015-12-30 Tcl集团股份有限公司 一种声源定位的方法及系统
CN105355210A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 用于远场语音识别的预处理方法和装置
US20180025732A1 (en) * 2016-07-20 2018-01-25 Nxp B.V. Audio classifier that includes a first processor and a second processor
CN107102291A (zh) * 2017-05-03 2017-08-29 浙江大学 基于虚拟阵列内插的无网格化互质阵列波达方向估计方法
CN108122563A (zh) * 2017-12-19 2018-06-05 北京声智科技有限公司 提高语音唤醒率及修正doa的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹洁等: "基于环形阵列的近场多声源波达方向跟踪", 《计算机应用研究》 *
闫锋刚等: "高效超分辨波达方向估计算法综述", 《系统工程与电子技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109782246A (zh) * 2018-12-31 2019-05-21 深圳市华讯方舟太赫兹科技有限公司 波达方向估计方法及装置、雷达、可读存储介质
CN109782246B (zh) * 2018-12-31 2020-12-25 深圳市华讯方舟太赫兹科技有限公司 波达方向估计方法及装置、雷达、可读存储介质
CN109856592A (zh) * 2019-01-14 2019-06-07 国网天津市电力公司 一种无人机的超声定位装置及其定位方法
CN111627425B (zh) * 2019-02-12 2023-11-28 阿里巴巴集团控股有限公司 一种语音识别方法及系统
CN111627425A (zh) * 2019-02-12 2020-09-04 阿里巴巴集团控股有限公司 一种语音识别方法及系统
CN110277093B (zh) * 2019-07-30 2021-10-26 腾讯科技(深圳)有限公司 音频信号的检测方法及装置
CN110277093A (zh) * 2019-07-30 2019-09-24 腾讯科技(深圳)有限公司 音频信号的检测方法及装置
CN110400572A (zh) * 2019-08-12 2019-11-01 苏州思必驰信息科技有限公司 音频增强方法及系统
CN110400572B (zh) * 2019-08-12 2021-10-12 思必驰科技股份有限公司 音频增强方法及系统
CN110610710B (zh) * 2019-09-05 2022-04-01 晶晨半导体(上海)股份有限公司 一种自学习语音识别系统的构建装置和构建方法
CN110610710A (zh) * 2019-09-05 2019-12-24 晶晨半导体(上海)股份有限公司 一种自学习语音识别系统的构建装置和构建方法
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN113203987A (zh) * 2021-07-05 2021-08-03 成都启英泰伦科技有限公司 一种基于k均值聚类的多声源方位估计方法
CN113744752A (zh) * 2021-08-30 2021-12-03 西安声必捷信息科技有限公司 语音处理方法及装置

Also Published As

Publication number Publication date
CN108922553B (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN108922553A (zh) 用于音箱设备的波达方向估计方法及系统
CN110444214B (zh) 语音信号处理模型训练方法、装置、电子设备及存储介质
EP3347894B1 (en) Arbitration between voice-enabled devices
US11694710B2 (en) Multi-stream target-speech detection and channel fusion
CN109473118B (zh) 双通道语音增强方法及装置
CN109286875B (zh) 用于定向拾音的方法、装置、电子设备和存储介质
CN110648692B (zh) 语音端点检测方法及系统
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
US20200396329A1 (en) Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
CN109346062A (zh) 语音端点检测方法及装置
CN108417201A (zh) 单信道多说话人身份识别方法及系统
CN110261816A (zh) 语音波达方向估计方法及装置
EP4310838A1 (en) Speech wakeup method and apparatus, and storage medium and system
US11727926B1 (en) Systems and methods for noise reduction
US11790888B2 (en) Multi channel voice activity detection
CN112687286A (zh) 音频设备的降噪模型的调整方法和装置
US10950221B2 (en) Keyword confirmation method and apparatus
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
CN116343765A (zh) 自动语境绑定领域特定话音识别的方法和系统
CN117153186A (zh) 声音信号处理方法、装置、电子设备和存储介质
CN112489644B (zh) 用于电子设备的语音识别方法及装置
CN114299978A (zh) 音频信号的处理方法、装置、设备及存储介质
CN113707149A (zh) 音频处理方法和装置
CN112185367A (zh) 关键词检测方法和装置、计算机可读存储介质、电子设备
CN112185360B (zh) 语音数据识别方法、多人会议的语音激励方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: AI SPEECH Co.,Ltd.

CP01 Change in the name or title of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Direction of Arrival Estimation Method and System for Speaker Equipment

Effective date of registration: 20230726

Granted publication date: 20201009

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433

PE01 Entry into force of the registration of the contract for pledge of patent right