CN111596882B - 一种分布式阵列对齐方法 - Google Patents

一种分布式阵列对齐方法 Download PDF

Info

Publication number
CN111596882B
CN111596882B CN202010255744.3A CN202010255744A CN111596882B CN 111596882 B CN111596882 B CN 111596882B CN 202010255744 A CN202010255744 A CN 202010255744A CN 111596882 B CN111596882 B CN 111596882B
Authority
CN
China
Prior art keywords
short
time
sequence
wake
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010255744.3A
Other languages
English (en)
Other versions
CN111596882A (zh
Inventor
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010255744.3A priority Critical patent/CN111596882B/zh
Publication of CN111596882A publication Critical patent/CN111596882A/zh
Application granted granted Critical
Publication of CN111596882B publication Critical patent/CN111596882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种分布式阵列对齐方法,解决各个分布式设备接收信号不对齐的问题。其中方法包括:获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列;以打分最高对应的短时能量序列为基准,截取能量集中的预设区域作为电子采集标签;将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测,得到所述电子采集标签在所述短时能量序列中的位置,以所述位置为对齐点,按照所述对齐点,重新对各个设备对应的所述短时能量序列进行截取,完成对齐步骤。

Description

一种分布式阵列对齐方法
技术领域
本发明涉及语音交互技术领域,特别涉及一种分布式阵列对齐方法。
背景技术
在面对多个分布式设备做语音交互时,需要通过一些特征选择某个设备与人做交互,在仅有语音信息时通常使用临近响应的原则,可通过判断设备之间能量差异来选择。
每个设备独立拾音,分别通过本地唤醒引擎得到唤醒词对应信号的时间起止点,由于混响、噪声影响,每个设备接收的信号存在明显差异,从而造成每个设备取得的信号时间起止点并不一致,导致计算能量时并非同一时间段信号,从而影响最终判决结果。
发明内容
本发明提供一种分布式阵列对齐方法,解决各个分布式设备接收信号不对齐的问题。
本发明实施例提供一种,包括:获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列;
以打分最高对应的短时能量序列为基准,截取能量集中的预设区域作为电子采集标签;
将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测,得到所述电子采集标签在所述短时能量序列中的位置,以所述位置为对齐点,按照所述对齐点,重新对各个设备对应的所述短时能量序列进行截取,完成对齐步骤。
在一种可能实现的方式中,所述基于预设规则生成的短时能量序列,具体包括:
每个设备通过唤醒模块获得唤醒词对应的语音数据;
通过前端降噪模块将所述语音数据进行降噪处理;
通过唤醒打分模块对降噪处理后的所述语音数据进行打分,同时将所述语音数据进行缓存;
当打分大于阈值时,依据唤醒模块给出的所述语音数据的起止点计算所述语音数据的所述短时能量序列。
在一种可能实现的方式中,所述预设区域为75%~85%的短时能量序列的部分。
在一种可能实现的方式中,所述将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测,得到所述电子采集标签在所述短时能量序列中的位置,具体包括:
将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应;将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应,确定该对应关系的初始参考值;
然后,依次将所述电子采集标签的起始位与所述短时能量序列中的第二位能量值、第三位能量值直至最后一位能量值进行对应,确定多个所述初始参考值;
比较确定的多个所述初始参考值,取最大的所述参考值时的对应关系为所述电子采集标签在所述短时能量序列中的位置。
在一种可能实现的方式中,所述将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应;将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应,确定该对应关系的初始参考值,具体为:
首先,将所述电子采集标签的第一位能量值与所述短时能量序列中的第一位能量值进行比对;依次将所述电子采集标签的下一位能量值与所述短时能量序列中的下一位能量值进行比对;当所述电子采集标签的所有能量值比对完成后,统计比对符合的个数作为所述初始参考值。
在一种可能实现的方式中,通过唤醒打分模块对降噪处理后的所述语音数据进行打分中,打分的具体操作如下:
提取所述语音数据的特征序列;所述特征序列包括:所述语音数据的每一帧的特征向量;
将每一个所述特征向量分别带入到事先训练好的唤醒词模型中进行打分,获得所述特征向量的分值;所述唤醒词模型为混合高斯模型;
将所述特征序列中的各个所述特征向量的分值相加作为所述语音数据的分值;
其中,将所述特征向量o=(o1,o2,···,oi,···,on)带入到事先训练好的唤醒词模型中进行打分的计算公式为:
Figure BDA0002437250570000031
其中,log(P(O))为所述特征向量的分值,j表示为所述唤醒词模型的第j个参数向量,m表示所述唤醒词模型的所述参数向量的个数,所述唤醒词模型的平均向量为μ=(μ12,···,μi,···,μn),cj为对应所述第j个参数向量的常数。
在一种可能实现的方式中,通过唤醒打分模块对降噪处理后的所述语音数据进行打分中,打分的具体操作如下:
提取所述语音数据中的特征,所述特征包括各个字节之间的停顿时间、各个字节的能量幅值、各个字节的起止时间值;
基于所述各个字节之间的停顿时间与各个字节之间对应的预设的字节停顿时间,计算出第一分值A1;公式如下:
Figure BDA0002437250570000041
其中,ti表示第i个字节和第i+1个字节之间的停顿时间;Ti表示第i个字节和第i+1个字节之间对应的预设的字节停顿时间;ai表示第i个字节和第i+1个字节之间对应的预设的字节停顿时间所对应的权重;n表示所述语音数据中的字节的个数;
基于所述各个字节的能量幅值与各个字节对应的预设的能量幅值,计算出第二分值A2;公式如下:
Figure BDA0002437250570000042
其中,mi表示第i个字节的能量幅值;Mi表示第i个字节对应的预设的能量幅值;bi表示第i个字节对应的预设的能量幅值所对应的权重;
基于所述各个字节的起止时间值与各个字节对应的预设的起止时间值,计算出第三分值A3;公式如下:
Figure BDA0002437250570000043
其中,di表示第i个字节的起止时间值;Di表示第i个字节对应的预设的起止时间值;ci表示第i个字节对应的预设的起止时间值所对应的权重;
基于所述第一分值、所述第二分值、所述第三分值及各个分值的权重,计算出所述语音数据的最终分值A;公式如下:
A=αA1+βA2+γA3
其中,α、β、γ分别为所述第一分值的权重、所述第二分值的权重、所述第三分值的权重。
在一种可能实现的方式中,计算所述语音数据的所述短时能量序列具体包括:
将所述语音数据按每隔一预设时间截取为一个短时数据的方式获得多个短时数据,分别计算各个所述短时数据的能量;将各个所述短时数据的能量组成数组后形成所述短时能量序列。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种分布式阵列对齐方法流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种分布式阵列对齐方法,如图1所示,包括:
步骤1:获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列;
步骤2:以打分最高对应的短时能量序列为基准,截取能量集中的预设区域作为电子采集标签;
步骤3:将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测,得到所述电子采集标签在所述短时能量序列中的位置,以所述位置为对齐点,按照所述对齐点,重新对各个设备对应的所述短时能量序列进行截取,完成对齐步骤。
上述实施例的工作原理和有益效果为:
本发明的分布式阵列对齐方法是基于分布式设备的硬件基础上提出的。因为分布式设备的每个设备都是独立拾音,其距离交互人的距离是各不相同的;所以其音频的起止时间点各不相同,不进行对齐操作而直接计算各个时间的能量进行判断从而唤醒交互设备是不准确的,故而采用本发明的分布式阵列对齐方法可以有效解决,保证最终的唤醒的交互设备是交互人想要唤醒的交互设备。
本发明的分布式阵列对齐方法,首先是获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列;然后,将打分的分值进行比较;以打分最高对应的短时能量序列为基准,截取能量集中的预设区域作为电子采集标签;再然后,将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测,得到所述电子采集标签在所述短时能量序列中的位置,以所述位置为对齐点,按照所述对齐点,重新对各个设备对应的所述短时能量序列进行截取,完成对齐步骤。以唤醒词的短时能量序列中能量集中区域为对齐点,保证对齐的准确性;从而使唤醒词的起止位置的短时能量一一对应,实现最终判决从而唤醒的交互设备是准确的;保证最终的唤醒的交互设备是交互人想要唤醒的交互设备。
本发明实施例提供一种分布式阵列对齐方法,所述基于预设规则生成的短时能量序列,具体包括:
每个设备通过唤醒模块获得唤醒词对应的语音数据;
通过前端降噪模块将所述语音数据进行降噪处理;
通过唤醒打分模块对降噪处理后的所述语音数据进行打分,同时将所述语音数据进行缓存;
当打分大于阈值时,依据唤醒模块给出的所述语音数据的起止点计算所述语音数据的所述短时能量序列。
上述技术方案的有益效果为:
每个设备的数据通过前端降噪模块,送入唤醒打分模块,同时缓存数据,缓存长度可依唤醒词长度设定。首先对语音数据进行降噪处理,排出语音数据内的噪声的影响,从而保证后续语音处理的准确性。对语音数据进行打分,一般从清晰度、准确度、流利度等方面出发对语音数据进行评价;分值越高说明语音数据越好。设定阈值剔除评分不符和要求的语音数据,省去计算这部分语音数据的短时能量序列,提高计算效率。
本发明实施例提供一种分布式阵列对齐方法,所述预设区域为75%~85%的短时能量序列的部分。
依据大量数据发现,75%~85%的短时能量序列的部分为音频数据能量集中的部位。以此部分作为对齐标准,具有较高准确性。
本发明实施例提供一种分布式阵列对齐方法,所述将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测,得到所述电子采集标签在所述短时能量序列中的位置,具体包括:
将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应;将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应,确定该对应关系的初始参考值;
然后,依次将所述电子采集标签的起始位与所述短时能量序列中的第二位能量值、第三位能量值直至最后一位能量值进行对应,确定多个所述初始参考值;
比较确定的多个所述初始参考值,取最大的所述参考值时的对应关系为所述电子采集标签在所述短时能量序列中的位置。
上述技术方案的工作原理及有益效果为:
依次将电子标签的起始位与短时能量序列中各个位能量值进行对应,从而获得多个参考值,当电子标签到达其对齐位时,参考值为最大。以此来确定短时能量序列对齐的位置。
本发明实施例提供一种分布式阵列对齐方法,所述将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应;将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应,确定该对应关系的初始参考值,具体为:
首先,将所述电子采集标签的第一位能量值与所述短时能量序列中的第一位能量值进行比对;依次将所述电子采集标签的下一位能量值与所述短时能量序列中的下一位能量值进行比对;当所述电子采集标签的所有能量值比对完成后,统计比对符合的个数作为所述初始参考值。
上述技术方案的工作原理及有益效果为:
短时能量序列中从某一位能量值与电子标签中的能量值是完全一致的,该位置可以确定为对齐用的对齐位置。初始参考值就是指示电子标签与短时能量序列对应位置的匹配度,初始参考值越高说明越匹配。
在一种可能实现的方式中,通过唤醒打分模块对降噪处理后的所述语音数据进行打分中,打分的具体操作如下:
提取所述语音数据的特征序列;所述特征序列包括:所述语音数据的每一帧的特征向量;
将每一个所述特征向量分别带入到事先训练好的唤醒词模型中进行打分,获得所述特征向量的分值;所述唤醒词模型为混合高斯模型;
将所述特征序列中的各个所述特征向量的分值相加作为所述语音数据的分值;
其中,将所述特征向量o=(o1,o2,···,oi,···,on)带入到事先训练好的唤醒词模型中进行打分的计算公式为:
Figure BDA0002437250570000091
其中,log(P(O))为所述特征向量的分值,j表示为所述唤醒词模型的第j个参数向量,m表示所述唤醒词模型的所述参数向量的个数,所述唤醒词模型的平均向量为μ=(μ12,···,μi,···,μn),cj为对应所述第j个参数向量的常数。
上述技术方案的工作原理及有益效果为:
采用事先训练好的唤醒词模型打分,具有打分快速、准确的优点。
本发明实施例提供一种分布式阵列对齐方法,通过唤醒打分模块对降噪处理后的所述语音数据进行打分中,打分的具体操作如下:
提取所述语音数据中的特征,所述特征包括各个字节之间的停顿时间、各个字节的能量幅值、各个字节的起止时间值;
基于所述各个字节之间的停顿时间与各个字节之间对应的预设的字节停顿时间,计算出第一分值A1;公式如下:
Figure BDA0002437250570000092
其中,ti表示第i个字节和第i+1个字节之间的停顿时间;Ti表示第i个字节和第i+1个字节之间对应的预设的字节停顿时间;ai表示第i个字节和第i+1个字节之间对应的预设的字节停顿时间所对应的权重;n表示所述语音数据中的字节的个数;
基于所述各个字节的能量幅值与各个字节对应的预设的能量幅值,计算出第二分值A2;公式如下:
Figure BDA0002437250570000101
其中,mi表示第i个字节的能量幅值;Mi表示第i个字节对应的预设的能量幅值;bi表示第i个字节对应的预设的能量幅值所对应的权重;
基于所述各个字节的起止时间值与各个字节对应的预设的起止时间值,计算出第三分值A3;公式如下:
Figure BDA0002437250570000102
其中,di表示第i个字节的起止时间值;Di表示第i个字节对应的预设的起止时间值;ci表示第i个字节对应的预设的起止时间值所对应的权重;
基于所述第一分值、所述第二分值、所述第三分值及各个分值的权重,计算出所述语音数据的最终分值A;公式如下:
A=αA1+βA2+γA3
其中,α、β、γ分别为所述第一分值的权重、所述第二分值的权重、所述第三分值的权重。
上述技术方案的工作原理及有益效果为:
各个字节之间的停顿时间对应着语音数据的清晰度,各个字节的能量幅值对应着准确度,各个字节的起止时间对应着流利度;综合清晰度、准确度、流利度等方面出发对语音数据进行评价打分。
本发明实施例提供一种分布式阵列对齐方法,计算所述语音数据的所述短时能量序列具体包括:
将所述语音数据按每隔一预设时间截取为一个短时数据的方式获得多个短时数据,分别计算各个所述短时数据的能量;将各个所述短时数据的能量组成数组后形成所述短时能量序列。
按照预设规则进行划分,短时数据的时间跨度是一致的,为预设时间【例如10ms】,从而保证计算得到的能量值具有可比性。例如,一个1s的语音数据按照10ms一个短时数据截取可以截取100个,此时短时能量序列中的短时能量值个数为100个。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种分布式阵列对齐方法,其特征在于,包括:
获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列;
以打分最高对应的短时能量序列为基准,截取能量集中的预设区域作为电子采集标签;
将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测,得到所述电子采集标签在所述短时能量序列中的位置,以所述位置为对齐点,重新对各个设备对应的所述短时能量序列进行截取,完成对齐步骤;
所述将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测,得到所述电子采集标签在所述短时能量序列中的位置,具体包括:
将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应;将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应,确定该对应关系的初始参考值;
然后,依次将所述电子采集标签的起始位与所述短时能量序列中的第二位能量值、第三位能量值直至最后一位能量值进行对应,确定多个所述初始参考值;
比较确定的多个所述初始参考值,取最大的所述参考值时的对应关系为所述电子采集标签在所述短时能量序列中的位置;
所述将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应;将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应,确定该对应关系的初始参考值,具体为:
首先,将所述电子采集标签的第一位能量值与所述短时能量序列中的第一位能量值进行比对;依次将所述电子采集标签的下一位能量值与所述短时能量序列中的下一位能量值进行比对;当所述电子采集标签的所有能量值比对完成后,统计比对符合的个数作为所述初始参考值。
2.如权利要求1所述的分布式阵列对齐方法,其特征在于,所述基于预设规则生成的短时能量序列,具体包括:
每个设备通过唤醒模块获得唤醒词对应的语音数据;
通过前端降噪模块将所述语音数据进行降噪处理;
通过唤醒打分模块对降噪处理后的所述语音数据进行打分,同时将所述语音数据进行缓存;
当打分大于阈值时,依据唤醒模块给出的所述语音数据的起止点计算所述语音数据的所述短时能量序列。
3.如权利要求1所述的分布式阵列对齐方法,其特征在于,所述预设区域为75%~85%的短时能量序列的部分。
4.如权利要求2所述的分布式阵列对齐方法,其特征在于,通过唤醒打分模块对降噪处理后的所述语音数据进行打分中,打分的具体操作如下:
提取所述语音数据的特征序列;所述特征序列包括:所述语音数据的每一帧的特征向量;
将每一个所述特征向量分别带入到事先训练好的唤醒词模型中进行打分,获得所述特征向量的分值;所述唤醒词模型为混合高斯模型;
将所述特征序列中的各个所述特征向量的分值相加作为所述语音数据的分值;
其中,将所述特征向量o=(o1,o2,···,oi,···,on)带入到事先训练好的唤醒词模型中进行打分的计算公式为:
Figure QLYQS_1
其中,log(P(O))为所述特征向量的分值,j表示为所述唤醒词模型的第j个参数向量,m表示所述唤醒词模型的所述参数向量的个数,所述唤醒词模型的平均向量为μ=(μ12,···,μi,···,μn),cj为对应所述第j个参数向量的常数。
5.如权利要求2所述的分布式阵列对齐方法,其特征在于,计算所述语音数据的所述短时能量序列具体包括:
将所述语音数据按每隔一预设时间截取为一个短时数据的方式获得多个短时数据,分别计算各个所述短时数据的能量;将各个所述短时数据的能量组成数组后形成所述短时能量序列。
CN202010255744.3A 2020-04-02 2020-04-02 一种分布式阵列对齐方法 Active CN111596882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010255744.3A CN111596882B (zh) 2020-04-02 2020-04-02 一种分布式阵列对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010255744.3A CN111596882B (zh) 2020-04-02 2020-04-02 一种分布式阵列对齐方法

Publications (2)

Publication Number Publication Date
CN111596882A CN111596882A (zh) 2020-08-28
CN111596882B true CN111596882B (zh) 2023-05-26

Family

ID=72181796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010255744.3A Active CN111596882B (zh) 2020-04-02 2020-04-02 一种分布式阵列对齐方法

Country Status (1)

Country Link
CN (1) CN111596882B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN110211580A (zh) * 2019-05-15 2019-09-06 海尔优家智能科技(北京)有限公司 多智能设备应答方法、装置、系统及存储介质
CN110223684A (zh) * 2019-05-16 2019-09-10 华为技术有限公司 一种语音唤醒方法及设备
CN110428810A (zh) * 2019-08-30 2019-11-08 北京声智科技有限公司 一种语音唤醒的识别方法、装置及电子设备
CN110517670A (zh) * 2019-08-28 2019-11-29 苏州思必驰信息科技有限公司 提升唤醒性能的方法和装置
CN110706695A (zh) * 2019-10-17 2020-01-17 北京声智科技有限公司 一种数据标注方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825471B2 (en) * 2017-04-05 2020-11-03 Avago Technologies International Sales Pte. Limited Voice energy detection
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN110211580A (zh) * 2019-05-15 2019-09-06 海尔优家智能科技(北京)有限公司 多智能设备应答方法、装置、系统及存储介质
CN110223684A (zh) * 2019-05-16 2019-09-10 华为技术有限公司 一种语音唤醒方法及设备
CN110517670A (zh) * 2019-08-28 2019-11-29 苏州思必驰信息科技有限公司 提升唤醒性能的方法和装置
CN110428810A (zh) * 2019-08-30 2019-11-08 北京声智科技有限公司 一种语音唤醒的识别方法、装置及电子设备
CN110706695A (zh) * 2019-10-17 2020-01-17 北京声智科技有限公司 一种数据标注方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
K Kumatani 等.Direct modeling of raw audio with DNNS for wake word detection.《2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)》.2017,全文. *
洪奕鑫 ; 张浩川 ; 余荣 ; 吴哲顺 ; .语音端点检测在实时语音截取中的应用.无线互联科技.2017,(第22期),全文. *

Also Published As

Publication number Publication date
CN111596882A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
Tak et al. Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation
CN102394062B (zh) 一种自动录音设备源识别的方法和系统
CN109473123A (zh) 语音活动检测方法及装置
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
CN101206858B (zh) 一种孤立词语音端点检测的方法及系统
WO2021082572A1 (zh) 一种唤醒模型生成方法、智能终端唤醒方法及装置
US10311865B2 (en) System and method for automated speech recognition
US20170061970A1 (en) Speaker Dependent Voiced Sound Pattern Detection Thresholds
CN1650349A (zh) 用于抗噪声语音识别的在线参数直方图正态化
CN111210829A (zh) 语音识别方法、装置、系统、设备和计算机可读存储介质
US20170294185A1 (en) Segmentation using prior distributions
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN113327586B (zh) 一种语音识别方法、装置、电子设备以及存储介质
WO2018095167A1 (zh) 声纹识别方法和声纹识别系统
US11081115B2 (en) Speaker recognition
CN111596882B (zh) 一种分布式阵列对齐方法
CN108847218A (zh) 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN115240696B (zh) 一种语音识别方法及可读存储介质
CN113112992A (zh) 一种语音识别方法、装置、存储介质和服务器
CN113823326B (zh) 一种高效语音关键词检测器训练样本使用方法
Wilkinghoff et al. Two-dimensional embeddings for low-resource keyword spotting based on dynamic time warping
RU2296376C2 (ru) Способ распознавания слов речи
CN111613247A (zh) 一种基于麦克风阵列的前景语音检测方法及装置
CN112669881B (zh) 一种语音检测方法、装置、终端及存储介质
JPS6147999A (ja) 音声認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant