CN111402883B - 一种复杂环境下分布式语音交互系统中就近响应系统和方法 - Google Patents

一种复杂环境下分布式语音交互系统中就近响应系统和方法 Download PDF

Info

Publication number
CN111402883B
CN111402883B CN202010245803.9A CN202010245803A CN111402883B CN 111402883 B CN111402883 B CN 111402883B CN 202010245803 A CN202010245803 A CN 202010245803A CN 111402883 B CN111402883 B CN 111402883B
Authority
CN
China
Prior art keywords
wake
word
data
energy
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010245803.9A
Other languages
English (en)
Other versions
CN111402883A (zh
Inventor
丁少为
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010245803.9A priority Critical patent/CN111402883B/zh
Publication of CN111402883A publication Critical patent/CN111402883A/zh
Application granted granted Critical
Publication of CN111402883B publication Critical patent/CN111402883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Electric Clocks (AREA)

Abstract

本发明提出了一种复杂环境下分布式语音交互系统中就近响应方法和系统,所述就近响应系统包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块;所述方法包括步骤1、采集多个可能被唤醒的智能设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;步骤2、对每个智能设备的唤醒词数据进行盲源分离,分离出噪声干扰分量和唤醒词分量;步骤3、计算唤醒词前一段时间内唤醒词数据中噪声干扰能量和唤醒词能量,并确定唤醒词数据;步骤4、利用唤醒词分量计算各个智能设备唤醒词数据中,唤醒词分量在唤醒时间段内的能量,步骤5、在各个智能设备的唤醒词能量中,选择能量最大的设备作为最近设备进行响应。

Description

一种复杂环境下分布式语音交互系统中就近响应系统和方法
技术领域
本发明提出了一种复杂环境下分布式语音交互系统中就近响应系统和方法,属于语音降噪处理技术领域。
背景技术
随着语音智能设备的普及,家居环境中可能出现多个同一唤醒词的不同设备(如:电视、冰箱、空调、洗衣机等均由同一个唤醒词唤醒),这种场景下很有可能出现“一呼百应”的情况,最简单的方法是根据唤醒词时间段的信号能量选择最近设备,即声音传播距离越远,能量衰减越严重,则距离用户最近的设备所接收的唤醒词能量最大,由此根据能量选择最近设备,过分依赖于唤醒词时间段内的信号能量,在噪声环境下就近响应正确率将急剧下降,若某一设备离噪声源较近且离用户较远,则其唤醒词时间段内同时会接收的噪声能量也较多,导致其能量高于最近设备而被误判为最近设备。
发明内容
本发明提供了一种复杂环境下分布式语音交互系统中就近响应系统和方法,用以解决现有的系统和方法对语音唤醒最近设备判断错误率较高的问题,所采取的技术方案如下:
一种复杂环境下分布式语音交互系统中就近响应系统,所述就近响应系统包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块;
所述信号采集模块,用于针对多个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;其中,所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备;
所述信号输入模块,用于将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中;
所述分布式引擎,用于通过盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备,并选择唤醒词能量最大的智能设备作为最近设备进行响应;
所述响应信号传输模块,用于向分布式引擎筛选出的进行响应的智能设备发送响应指令。
进一步地,所述分布式引擎包括盲源分离模块和设备筛选模块;
所述盲源分离模块,用于对每个智能设备的唤醒词段数据进行盲源分离,获得噪声干扰分量和唤醒词分量;并根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中噪声干扰能量和唤醒词能量;
所述设备筛选模块,用于计算各个智能设备唤醒词数据中,各个智能设备的唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量。
进一步地,所述盲源分离模块包括数据接收模块、分离模块、数据传输模块一、筛选唤醒词分量模块和数据传输模块二;
所述数据接收模块,用于接收信号采集模块采集到的唤醒词段数据和噪声数据,并将所述唤醒词段数据和噪声数据发送至分离模块中;
所述分离模块,用于利用盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离,并获得两个分量,所述两个分量分别为噪声干扰分量和唤醒词分量;
所述数据传输模块一,用于将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中;
所述筛选唤醒词分量模块,用于根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
所述数据传输模块二,用于将唤醒词数据输入至设备筛选模块。
进一步地,所述设备筛选模块包括能量判断模块、能量数据传输模块和设备选取模块;
所述能量判断模块,用于接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量,获得能量数据;
所述能量数据传输模块,用于将能量数据发送至设备选取模块;
所述设备选取模块,用于在所述能量数据中筛选出能量数值对大的智能设备,并将该智能设备作为最近设备进行响应。
进一步地,所述筛选唤醒词分量模块依据如下公式计算计算唤醒词前t1段时间数据中的噪声干扰分量的能量:
Figure BDA0002433948400000021
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t)。
进一步地,所述能量判断模块依据如下公式计算各个智能设备唤醒词数据中在唤醒时间段中的能量:
Figure BDA0002433948400000022
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点。
进一步地,所述设备选取模块利用如下公式筛选出能量数值对大的智能设备:
Figure BDA0002433948400000031
其中,KF为最终响应的设备编号。
一种如上述任一所述系统对应的就近响应方法,所述就近响应方法过程包括:
步骤1、针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;
步骤2、对每个智能设备的唤醒词数据进行盲源分离,分离出噪声干扰分量和唤醒词分量;
步骤3、根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
步骤4、利用唤醒词数据计算各个智能设备唤醒词数据中,唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
步骤5、在各个智能设备的唤醒词能量中,选择能量最大的设备作为最近设备进行响应。
进一步地,所述就近响应方法的具体过程包括:
步骤1、假设K个智能设备可能被唤醒,针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;并将所述唤醒词段数据和噪声数据输入至分布式引擎中的盲源分离模块中,记第k各设备的数据为Sk(t);
步骤2、利用盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离获得噪声干扰分量和唤醒词分量,并将所得分量分别记为X_1k(t)和X_2k(t),以备筛选唤醒词分量模块使用;由于此时只能得到两个分量供筛选唤醒词分量模块使用,在此处还不能确定哪个是噪声干扰分量,哪个是唤醒词分量,因此分别将这两个不能确定性质的分量进行标记,记做X_1k(t)和X_2k(t);
步骤3、利用公式(1)并结合噪声干扰分量和唤醒词分量计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据
Figure BDA0002433948400000032
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t);若E1k(t)<E2k(t),则Yk(t)=X_1k(t),否则,Yk(t)=X_2k(t);
步骤4、将唤醒词分量输入设备筛选模块,并根据公式(2)各个智能设备的唤醒词数据中,唤醒词分量在唤醒时间段内的能量,其中,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
Figure BDA0002433948400000041
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点;
步骤5、在各个智能设备的唤醒词能量中,利用公式(3)选择能量最大的设备作为最近设备进行响应;
Figure BDA0002433948400000042
其中,KF为最终响应的设备编号。
本发明有益效果:
本发明提出的一种复杂环境下分布式语音交互系统中就近响应系统和方法,能够将唤醒词段数据中的噪声与唤醒词分离出来,再利用分离后唤醒词的能量作为就进设备的选择依据对智能设备进行筛选,从众多待应答的智能设备中选择出响应设备。该系统和方法能够有效降低噪声源对选择就近智能设备进行响应时的干扰,有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。
附图说明
图1为发明所述就近响应系统的结构示意图;
图2为发明所述就近响应系统的原理示意图;
图3为发明所述就近响应方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
一种复杂环境下分布式语音交互系统中就近响应系统,如图1所示,所述就近响应系统包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块;
所述信号采集模块,用于针对多个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;其中,所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备;
所述信号输入模块,用于将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中;
所述分布式引擎,用于通过盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备,并选择唤醒词能量最大的智能设备作为最近设备进行响应;
所述响应信号传输模块,用于向分布式引擎筛选出的进行响应的智能设备发送响应指令。
上述技术方案的工作原理为:针对多个可能被唤醒的智能设备,通过所述信号采集模块采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;其中,所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备;然后,通过信号输入模块将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中;并通过所述分布式引擎利用盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备,并选择唤醒词能量最大的智能设备作为最近设备进行响应;最后,利用所述响应信号传输模块向分布式引擎筛选出的进行响应的智能设备发送响应指令。
上述技术方案的技术效果为:该系统能够有效降低噪声源对选择就近智能设备进行响应时的干扰,有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。
本发明的一个实施例,所述分布式引擎包括盲源分离模块和设备筛选模块;
所述盲源分离模块,用于对每个智能设备的唤醒词段数据进行盲源分离,获得噪声干扰分量和唤醒词分量;并根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中噪声干扰能量和唤醒词能量;
所述设备筛选模块,用于计算各个智能设备唤醒词数据中,各个智能设备的唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量。
上述技术方案的工作原理为:通过盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离,获得噪声干扰分量和唤醒词分量;并根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中噪声干扰能量和唤醒词能量;然后,通过设备筛选模块计算各个智能设备唤醒词数据中,各个智能设备的唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量。
上述技术方案的技术效果为:所述就近响应系统能够将唤醒词段数据中的噪声与唤醒词分离出来,再利用分离后唤醒词的能量作为就进设备的选择依据对智能设备进行筛选,从众多待应答的智能设备中选择出响应设备。该系统能够有效降低噪声源对选择就近智能设备进行响应时的干扰,有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。
本发明的一个实施例,所述盲源分离模块包括数据接收模块、分离模块、数据传输模块一、筛选唤醒词分量模块和数据传输模块二;
所述数据接收模块,用于接收信号采集模块采集到的唤醒词段数据和噪声数据,并将所述唤醒词段数据和噪声数据发送至分离模块中;
所述分离模块,用于利用盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离,并获得两个分量,所述两个分量分别为噪声干扰分量和唤醒词分量;
所述数据传输模块一,用于将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中;
所述筛选唤醒词分量模块,用于根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
盲源分离后的数据中有噪声分量和唤醒词分量,但是并不能知道哪个分量中包含唤醒词,哪个分量中只有噪声;这里通过前端只包含噪声的数据能量来进行判断,包含唤醒词分量中的前段噪声数据能量会低于相应的噪声数据能量,以此筛选出包含唤醒词分量的数据,能够准确的提炼出包含唤醒词的噪声干扰分量。
其中,所述筛选唤醒词分量模块依据如下公式计算计算唤醒词前t1段时间数据中的噪声干扰分量的能量:
Figure BDA0002433948400000061
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t)。
所述数据传输模块二,用于将唤醒词数据输入至设备筛选模块。
上述技术方案的工作原理:通过所述数据接收模块接收信号采集模块采集到的唤醒词段数据和噪声数据,并将所述唤醒词段数据和噪声数据发送至分离模块中;然后利用所述分离模块,通过盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离,并获得噪声干扰分量和唤醒词分量;并利用数据传输模块一将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中;所述筛选唤醒词分量模块在接收到噪声干扰和唤醒词之后根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;最后通过数据传输模块二将唤醒词数据输入至设备筛选模块。
上述技术方案的技术效果为:将唤醒词段和唤醒词前段时间数据有效结合起来能够更大程度上提高唤醒词能量的计算精度,并提高除噪音干扰能量的筛选率和剔除率,进而提高后续响应设备筛选的准确性。
本发明的一个实施例,所述设备筛选模块包括能量判断模块、能量数据传输模块和设备选取模块;
所述能量判断模块,用于接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量,获得能量数据;
所述能量数据传输模块,用于将能量数据发送至设备选取模块;
所述设备选取模块,用于在所述能量数据中筛选出能量数值对大的智能设备,并将该智能设备作为最近设备进行响应。
其中,所述能量判断模块依据如下公式计算各个智能设备唤醒词数据中在唤醒时间段中的能量:
Figure BDA0002433948400000071
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点。
所述设备选取模块利用如下公式筛选出能量数值对大的智能设备:
Figure BDA0002433948400000072
其中,KF为最终响应的设备编号。
上述技术方案的工作原理:通过能量判断模块接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量,获得能量数据;然后通过能量数据传输模块将能量数据发送至设备选取模块;最后,利用所述设备选取模块在所述能量数据中筛选出能量数值对大的智能设备,并将该智能设备作为最近设备进行响应。
上述技术方案的技术效果:将唤醒词前段时间和唤醒时间段相结合的方式计算唤醒此能量,能够进一步极大程度上提高除噪音干扰能量的筛选率和剔除率,进而提高后续响应设备筛选的准确性,提高响应设备被唤醒的正确率。
一种如上述任一所述系统对应的就近响应方法,如图3所示,所述就近响应方法过程包括:
步骤1、针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;
步骤2、对每个智能设备的唤醒词数据进行盲源分离,分离出噪声干扰分量和唤醒词分量;
步骤3、根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
步骤4、利用唤醒词数据计算各个智能设备唤醒词数据中,唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
步骤5、在各个智能设备的唤醒词能量中,选择能量最大的设备作为最近设备进行响应。
上述技术方案的原理和效果为:通过对每个智能设备的唤醒词段数据进行盲源分离的方式,获得噪声干扰分量和唤醒词分量;再利用分离后唤醒词的能量作为就进设备的选择依据对智能设备进行筛选,从众多待应答的智能设备中选择出响应设备。该方法能够有效降低噪声源对选择就近智能设备进行响应时的干扰,有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。
本发明的一个实施例,所述就近响应方法的具体过程包括:
步骤1、假设K个智能设备可能被唤醒,针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;并将所述唤醒词段数据和噪声数据输入至分布式引擎中的盲源分离模块中,记第k各设备的数据为Sk(t);
步骤2、利用盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离获得噪声干扰分量和唤醒词分量,并将所得分量分别记为X_1k(t)和X_2k(t),以备筛选唤醒词分量模块使用;由于此时只能得到两个分量供筛选唤醒词分量模块使用,这两个分量中,必有一个为噪声干扰分量,一个为唤醒词分量,但是在此处还不能确定哪个是噪声干扰分量,哪个是唤醒词分量,因此分别将这两个不能确定性质的分量进行标记,记做X_1k(t)和X_2k(t);
步骤3、利用公式(1)并结合分量X_1k(t)和X_2k(t)计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据
Figure BDA0002433948400000081
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t);若E1k(t)<E2k(t),则Yk(t)=X_1k(t),否则,Yk(t)=X_2k(t);
步骤4、将唤醒词分量输入设备筛选模块,并根据公式(2)各个智能设备的唤醒词数据中,唤醒词分量在唤醒时间段内的能量,其中,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
Figure BDA0002433948400000091
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点;
步骤5、在各个智能设备的唤醒词能量中,利用公式(3)选择能量最大的设备作为最近设备进行响应;
Figure BDA0002433948400000092
其中,KF为最终响应的设备编号。
上述技术方案的原理和效果为:通过盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离并利用筛选唤醒词分量模块计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据。将唤醒词段和唤醒词前段时间数据有效结合起来能够更大程度上提高唤醒词能量的计算精度,并提高除噪音干扰能量的筛选率和剔除率,进而提高后续响应设备筛选的准确性。同时,将唤醒词前段时间和唤醒时间段相结合的方式计算唤醒此能量,能够进一步极大程度上提高除噪音干扰能量的筛选率和剔除率,进而提高后续响应设备筛选的准确性,提高响应设备被唤醒的正确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种复杂环境下分布式语音交互系统中就近响应系统,其特征在于,所述就近响应系统包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块;
所述信号采集模块,用于针对多个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;其中,所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备;
所述信号输入模块,用于将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中;
所述分布式引擎,用于通过盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备,并选择唤醒词能量最大的智能设备作为最近设备进行响应;
所述响应信号传输模块,用于向分布式引擎筛选出的进行响应的智能设备发送响应指令;
所述分布式引擎包括盲源分离模块和设备筛选模块;
所述盲源分离模块,用于对每个智能设备的唤醒词段数据进行盲源分离,获得噪声干扰分量和唤醒词分量;并根据噪声干扰和唤醒词计算唤醒词前t1段时间数据能量;
所述设备筛选模块,用于计算各个智能设备唤醒词数据中,各个智能设备的唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
所述盲源分离模块包括数据接收模块、分离模块、数据传输模块一、筛选唤醒词分量模块和数据传输模块二;
所述数据接收模块,用于接收信号采集模块采集到的唤醒词段数据和噪声数据,并将所述唤醒词段数据和噪声数据发送至分离模块中;
所述分离模块,用于利用盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离,并获得两个分量,所述两个分量分别为噪声干扰分量和唤醒词分量;
所述数据传输模块一,用于将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中;
所述筛选唤醒词分量模块,用于计算唤醒词前t1段时间数据中的噪声干扰分量的能量,并对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
所述数据传输模块二,用于将唤醒词数据输入至设备筛选模块;
所述设备筛选模块包括能量判断模块、能量数据传输模块和设备选取模块;
所述能量判断模块,用于接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量,获得能量数据;
所述能量数据传输模块,用于将能量数据发送至设备选取模块;
所述设备选取模块,用于在所述能量数据中筛选出能量数值对大的智能设备,并将该智能设备作为最近设备进行响应;
所述筛选唤醒词分量模块依据如下公式计算唤醒词前t1段时间数据中的噪声干扰分量的能量:
Figure QLYQS_1
(1)
其中,E 1k(t)和E 2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t)。
2.根据权利要求1所述系统,其特征在于,所述能量判断模块依据如下公式计算各个智能设备唤醒词数据中在唤醒时间段中的能量:
Figure QLYQS_2
(2)
其中,E Finalk 为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点。
3.根据权利要求1所述系统,其特征在于,所述设备选取模块利用如下公式筛选出能量数值对大的智能设备:
Figure QLYQS_3
(3)
其中,KF为最终响应的设备编号。
4.一种如权利要求1-3任一所述系统对应的就近响应方法,其特征在于,所述就近响应方法过程包括:
步骤1、针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;
步骤2、对每个智能设备的唤醒词数据进行盲源分离,分离出噪声干扰分量和唤醒词分量;
步骤3、根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
步骤4、利用唤醒词数据计算各个智能设备唤醒词数据中,唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
步骤5、在各个智能设备的唤醒词能量中,选择能量最大的设备作为最近设备进行响应。
5.根据权利要求4所述就近响应方法,其特征在于,所述就近响应方法的具体过程包括:
步骤1、假设K个智能设备可能被唤醒,针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;并将所述唤醒词段数据和噪声数据输入至分布式引擎中的盲源分离模块中,记第k各设备的数据为Sk(t);
步骤2、利用盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离获得噪声干扰分量和唤醒词分量,并将所得分量分别记为X_1k(t)和X_2k(t),以备筛选唤醒词分量模块使用;
步骤3、利用公式(1)并结合噪声干扰分量和唤醒词分量计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据
Figure QLYQS_4
(1)
其中,E 1k(t)和E 2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t);若E 1k(t)<E 2k(t),则Yk(t)=X_1k(t),否则,Yk(t)=X_2k(t);
步骤4、将唤醒词分量输入设备筛选模块,并根据公式(2)各个智能设备的唤醒词数据中,唤醒词分量在唤醒时间段内的能量,其中,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
Figure QLYQS_5
(2)
其中,E Finalk 为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点;
步骤5、在各个智能设备的唤醒词能量中,利用公式(3)选择能量最大的设备作为最近设备进行响应;
Figure QLYQS_6
(3)
其中,KF为最终响应的设备编号。
CN202010245803.9A 2020-03-31 2020-03-31 一种复杂环境下分布式语音交互系统中就近响应系统和方法 Active CN111402883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010245803.9A CN111402883B (zh) 2020-03-31 2020-03-31 一种复杂环境下分布式语音交互系统中就近响应系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010245803.9A CN111402883B (zh) 2020-03-31 2020-03-31 一种复杂环境下分布式语音交互系统中就近响应系统和方法

Publications (2)

Publication Number Publication Date
CN111402883A CN111402883A (zh) 2020-07-10
CN111402883B true CN111402883B (zh) 2023-05-26

Family

ID=71429397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010245803.9A Active CN111402883B (zh) 2020-03-31 2020-03-31 一种复杂环境下分布式语音交互系统中就近响应系统和方法

Country Status (1)

Country Link
CN (1) CN111402883B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201239B (zh) * 2020-09-25 2024-05-24 海尔优家智能科技(北京)有限公司 目标设备的确定方法及装置、存储介质、电子装置
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112634890B (zh) * 2020-12-17 2023-11-24 阿波罗智联(北京)科技有限公司 用于唤醒播放设备的方法、装置、设备以及存储介质
CN115312049A (zh) * 2022-06-30 2022-11-08 青岛海尔科技有限公司 指令的响应方法、存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004053839A1 (en) * 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
CN108899044A (zh) * 2018-07-27 2018-11-27 苏州思必驰信息科技有限公司 语音信号处理方法及装置
CN110265020A (zh) * 2019-07-12 2019-09-20 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004053839A1 (en) * 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
CN108899044A (zh) * 2018-07-27 2018-11-27 苏州思必驰信息科技有限公司 语音信号处理方法及装置
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
CN110265020A (zh) * 2019-07-12 2019-09-20 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质

Also Published As

Publication number Publication date
CN111402883A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111402883B (zh) 一种复杂环境下分布式语音交互系统中就近响应系统和方法
CN110085233B (zh) 语音控制方法及其装置、电子设备和计算机可读存储介质
CN106898348B (zh) 一种出声设备的去混响控制方法和装置
CN107393555B (zh) 一种低信噪比异常声音信号的检测系统及检测方法
CN111832462B (zh) 一种基于深度神经网络的跳频信号检测与参数估计方法
CN110545396A (zh) 一种基于定位去噪的语音识别方法及装置
CN110716648A (zh) 手势控制方法和装置
CN103295584B (zh) 音声数据检测装置、音声监控系统及其方法
CN111192589A (zh) 语音唤醒方法及装置
CN103514878A (zh) 声学建模方法及装置和语音识别方法及装置
CN103811006A (zh) 用于语音识别的方法和装置
CN110619264B (zh) 基于UNet++的微地震有效信号识别方法及装置
CN110544479A (zh) 一种去噪的语音识别方法及装置
CN109671430B (zh) 一种语音处理方法及装置
CN104616660A (zh) 基于环境噪音检测的智能语音播报系统及方法
CN114639169B (zh) 基于注意力机制特征融合与位置无关的人体动作识别系统
CN110289926B (zh) 基于调制信号循环自相关函数对称峰值的频谱感知方法
CN106909086B (zh) 一种异常数据的检测方法及其装置
CN106323454B (zh) 空调室内机异音识别方法及装置
CN116343261A (zh) 基于多模态特征融合与小样本学习的手势识别方法和系统
Sahoo et al. Wi-fi sensing based real-time activity detection in smart home environment
CN104243894A (zh) 一种声视频融合监控方法
CN103886868A (zh) 冲击声检测方法及检测系统
CN106971133A (zh) 一种提高图像识别精度装置及方法
CN108390735B (zh) 一种信息素驱动的分布式协同宽带频谱感知方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant