CN114283794A

CN114283794A - 噪音过滤方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN114283794A
Application number: CN202111542575.2A
Authority: CN
Inventors: 李翠姣
Original assignee: Cloudminds Beijing Technologies Co Ltd
Current assignee: Cloudminds Beijing Technologies Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-05

Abstract

本申请实施例涉及自然语言处理技术领域，公开了一种噪音过滤方法、装置、电子设备和计算机可读存储介质，该方法包括：将获取到的语音信息转换成文本信息；将语音信息和文本信息输入至预训练的识别模型中，得到对语音信息的识别结果；其中，识别结果为噪音或正常语音，识别模型包括用于提取语音信息的第一特征的第一提取网络、用于提取文本信息的第二特征的第二提取网络、用于根据第一特征和第二特征判断语音信息为噪音或正常语音的判别网络；若识别结果为噪音，则不响应语音信息；若识别结果为正常语音，则响应语音信息，可以融合语音信息和文本信息这两种模态的信息来综合判别收到的语音是否为噪音，大幅提升了噪音过滤的效果和强度。

Description

噪音过滤方法、装置、电子设备和计算机可读存储介质

技术领域

本申请实施例涉及自然语言处理技术领域，特别涉及一种噪音过滤方法、装置、电子设备和计算机可读存储介质。

背景技术

随着人工智能技术的不断发展，智能服务机器人、智能设备等产品大量涌现，用户对于智能服务机器人、智能设备的人机交互的要求也随之提高，用户希望智能服务机器人、智能设备能够正确理解用户的意图并做出正确的响应，因此智能服务机器人、智能设备需要判别用户在说什么，用户的哪句话是对自身说的，这需要由语音识别(Automatic SpeechRecognition，简称：ASR)模块和自然语言理解(Natural Language Understanding，简称：NLU)模块来实现，ASR模块对所有的人声进行识别，NLU模块则需要判断当前这句话是否是对智能服务机器人、智能设备说的，如果不是，那么NLU模块认为当前这句话是噪音，不进行响应。

然而，在实际应用场景中，智能服务机器人、智能设备可能会工作在嘈杂的环境中，如电影院、医院等，这些场景下的噪音比例很高，ASR模块录入的声音会包括周围人的聊天信息、环境噪音等，在ASR模块处进行噪音过滤只能过滤掉非人声，而在NLU模块处进行噪音过滤只能结合语义识别，还是会漏掉部分人声噪音，这些噪音过滤方法过滤效果不佳，智能服务机器人、智能设备容易因未被过滤的噪音的存在而进行错误的、无意义的任务。

发明内容

本申请实施例的目的在于提供一种噪音过滤方法、装置、电子设备和计算机可读存储介质，能够融合语音信息和文本信息这两种模态的信息来综合判别收到的语音是否为噪音，大幅提升了噪音过滤的效果和强度。

为解决上述技术问题，本申请的实施例提供了一种噪音过滤方法，包括以下步骤：将获取到的语音信息转换成文本信息；将所述语音信息和所述文本信息输入至预训练的识别模型中，得到对所述语音信息的识别结果；其中，所述识别结果为噪音或正常语音，所述识别模型包括用于提取所述语音信息的第一特征的第一提取网络、用于提取所述文本信息的第二特征的第二提取网络、以及用于根据所述第一特征和所述第二特征判断所述语音信息为噪音或正常语音的判别网络；若所述识别结果为噪音，则不响应所述语音信息，若所述识别结果为正常语音，则响应所述语音信息。

本申请的实施例还提供了一种噪音过滤装置，包括：获取模块、转换模块、识别模块和执行模块；所述获取模块用于获取语音信息，并将所述语音信息分别发送至所述转换模块和所述执行模块；所述转换模块用于将所述语音信息转换成文本信息，并将所述文本信息发送至所述识别模块；所述识别模块用于将所述语音信息和所述文本信息输入至预训练的识别模型中，得到所述语音信息的识别结果，其中，所述识别结果为噪音或正常语音，所述识别模型包括用于提取所述语音信息的第一特征的第一提取网络、用于提取所述文本信息的第二特征的第二提取网络、以及用于根据所述第一特征和所述第二特征判断所述语音信息为噪音或正常语音的判别网络；所述执行模块用于当所述语音信息的识别结果为噪音时，不响应所述语音信息，当所述语音信息的识别结果为正常语音时，响应所述语音信息。

本申请的实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的噪音过滤方法。

本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现的噪音过滤方法。

本申请的实施例提供的噪音过滤方法、装置、电子设备和计算机可读存储介质，电子设备将获取到的语音信息转换成文本信息，再将语音信息和文本信息都输入至预训练的识别模型中，得到识别模型对语音信息的识别结果，识别模型对语音信息的识别结果为噪音或正常语音，识别模型包括第一提取网络、第二提取网络和判别网络，第一提取网络用于提取所述语音信息的第一特征，第二提取网络用于提取文本信息的第二特征，判别网络用于根据第一特征和第二特征判断获取到的语音信息是噪音还是正常语音，若识别模型对语音信息的识别结果为噪音，电子设备则不响应该语音信息，若识别模型对语音信息的识别结果为正常语音，电子设备则响应该语音信息，考虑到无论是在ASR模块处进行噪音过滤还是在NLU模块处进行噪音过滤都会漏掉部分人声噪音，比如周围人的谈话声等，从而导致智能服务机器人、智能设备进行错误的、无意义的任务，而本申请的实施例使用预训练的识别模型，通过提取特征的方式，融合语音信息和文本信息这两种模态的信息的特征来综合判别语音信息是否为噪音，当语音信息为噪音时不进行响应，大幅提升了噪音过滤的效果和强度，避免进行错误的、无意义的任务。

另外，所述第一提取网络包括第一编码网络、卷积神经网络和全连接层，所述第一编码网络与所述卷积神经网络连接，所述卷积神经网络与所述全连接层连接；所述第一编码网络用于对所述语音信息的物理信息进行编码，得到所述语音信息的低阶编码信息，并将所述低阶编码信息输入至所述卷积神经网络；所述卷积神经网络用于对所述低阶编码信息进行特征提取，得到所述语音信息的高阶编码信息，并将所述高阶编码信息输入至所述全连接层；所述全连接层用于根据所述高阶编码信息获得所述语音信息的第一特征，考虑到语音信息比较复杂，本申请的实施例在第一提取网络中设置了多层的特征提取，先用第一编码网络对语音信息的物理信息进行编码，得到基础的低阶编码信息，再用卷积神经网络进行深度提取，得到高阶编码信息，最终由全连接层提取得到语音信息的第一特征，这样提取得到的第一特征可以充分代表语音信息的真实属性，便于判别网络判断语音信息是否是噪音。

另外，所述第二提取网络包括第二编码网络和全连接层，所述第二编码网络与所述全连接层连接；所述第二提取网络用于对所述文本信息进行编码，得到所述文本信息的语义编码信息，并将所述语义编码信息输入至所述全连接层；所述全连接层用于根据所述语义编码信息获得所述语音信息的第二特征，考虑到文本信息相较于语音信息原来说更容易提取特征，因此第二提取网络只设置第二编码网络和全连接层进行特征提取即可，可以提升噪音过滤的速度和效率。

另外，所述判别网路包括合并层、全连接层、softmax函数层和输出层，所述合并层与所述全连接层连接，所述全连接层与所述softmax函数层连接，所述softmax函数层与所述输出层连接；所述合并层用于将所述第一特征和所述第二特征拼接成第三特征；所述输出层用于输出所述语音信息对应的输出向量；其中，所述输出向量用于表征所述语音信息为噪音的概率和所述语音信息为正常语音的概率，判别网路的合并层将第一特征即语音信息的特征，和第二特征即文本信息的特征合二为一，拼接在一起形成第三特征，供判别网络根据第三特征进行判别，可以充分地将语音信息的特征与文本信息的特征相融合，综合考虑语义和语音信息的物理信息，进一步提升噪音过滤的准确性，提升噪音过滤的效果。

另外，所述根据所述训练集和所述验证集，对构建的所述识别模型进行迭代训练，包括：根据所述第一提取网络和所述第二提取网络分别提取所述训练集中各训练样本的第一特征和各训练样本的第二特征，以及所述验证集中各验证样本的第一特征和各验证样本的第二特征；基于所述各训练样本的第一特征、所述各训练样本的第二特征、所述各训练样本的标签、所述各验证样本的第一特征、所述各验证样本的第二特征和所述各验证样本的标签，对所述判别网络进行迭代训练，考虑到第一提取网络和第二提取网络可以选用成熟的提取网络，只需要对判别网络进行训练即可，可以减少识别模型的训练时间和训练难度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本申请的一个实施例的噪音过滤方法的流程图；

图2是根据本申请的一个实施例中提供的一种识别模型的结构示意图一；

图3是根据本申请的一个实施例中提供的一种第一提取网络的结构示意图；

图4是根据本申请的一个实施例中提供的一种第二提取网络的结构示意图；

图5是根据本申请的一个实施例中提供的一种判别网络的结构示意图；

图6是根据本申请的一个实施例中提供的一种识别模型的结构示意图二；

图7是根据本申请的一个实施例中，对识别模型进行训练的流程图；

图8是根据本申请的一个实施例中，基于训练集和验证集，对构建的识别模型进行迭代训练的流程图；

图9是根据本申请的另一个实施例的噪音过滤装置的示意图；

图10是根据本申请的另一个实施例的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请的第一实施例涉及一种噪音过滤方法，应用于电子设备，其中，电子设备可以为智能服务机器人、智能设备等，下面对本实施例的噪音过滤方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施例的噪音过滤方法的具体流程可以如图1所示，包括：

步骤101，将获取到的语音信息转换成文本信息。

在具体实现中，电子设备可以实时监测周围环境中的声音，当检测到周围有声音时，可以录入该声音，得到语音信息，电子设备内部还设置有ASR模块，电子设备在获取到语音信息后，可以将获取到的语音信息送入ASR模块中，ASR模块将获取到的语音信息转换成文本信息，从而得到一组对应的，即实质内容相同语音信息和文本信息。

在一个例子中，电子设备检测到周围有声音，录入一条语音信息，该语音信息的内容为“明天的天气怎么样”，电子设备将该语音信息转换成文本信息，即得到文本形式的“明天的天气怎么样”。

步骤102，将语音信息和文本信息输入至预训练的识别模型中，得到对该语音信息的识别结果。

具体而言，电子设备在得到一组对应的，即实质内容相同语音信息和文本信息后，可以将语音信息和文本信息均输入至预训练的识别模型中，获得识别模型对该语音信息的识别结果，其中，语音信息的识别结果为噪音或正常语音。

在具体实现中，识别模型用于识别一条语音信息是噪音还是正常语音，识别模型包括第一提取网络、第二提取网络和判别网络，判别网络分别与第一提取网络和第二提取网络连接，第一提取网络的输出和第二提取网络的输出共同组成判别网络的输入，第一提取网络用于提取语音信息的第一特征，第二提取网络用于提取文本信息的第二特征，判别网络用于根据第一提取网络提取出的语音信息的第一特征和第二提取网络提取出的文本信息的第二特征，判断获取到的语音信息为噪音还是正常语音。

可以理解的是，第一提取网络提取出的语音信息的第一特征即语音信息本身的特征，第二提取网络提取出的文本信息即语音信息的语义特征，识别模型结合语音信息本身的特征和语音信息的语义特征，综合判决该语音信息是否为噪音，不仅可以将不是对电子设备说的话识别为噪音，还可以将电子设备周围的人的聊天声识别为噪音。

比如，电子设备获取到的语音信息的内容为“明天的天气怎么样”，根据语义特征判断，该语音信息很有可能是对电子设备说的，但根据该语音信息本身的特征检测到该语音信息的音量太小，即该语音信息为电子设备周围的人的聊天声，识别模型将其识别为噪音。

再比如，电子设备获取到的语音信息的内容为“你吃饭了吗”，该语音信息声音洪亮，即根据该语音信息本身的特征判断，该语音信息很有可能是对电子设备说的，但根据该语音信息的语义特征判断，电子设备是不需要吃饭的，即该语音信息不可能是对电子设备说的，识别模型将其识别为噪音。

在一个例子中，识别模型的结构可以如图2所示，包括第一提取网络21、第二提取网络22和判别网络23，第一提取网络21的输入为语音信息，第一提取网络21的输出为第一特征，第二提取网络22的输入为文本信息，第二提取网络22的输出为第二特征，判别网络23的输入为第一特征和第二特征，判别网络23的输出为对语音信息的识别结果。

步骤103，若识别结果为噪音，则不响应该语音信息，若识别结果为正常语音，则响应该语音信息。

在具体实现中，若识别模型识别电子设备获取到的语音信息为噪音，说明该语音信息不是对电子设备说的，电子设备无需理会该语音信息，即不响应该语音信息，若识别模型识别电子设备获取到的语音信息为正常语音，说明该语音信息是对电子设备说的，电子设备响应该语音信息，根据该语音信息对应的文本信息生成相应的指令，从而进行相应的任务。

本实施例，电子设备将获取到的语音信息转换成文本信息，再将语音信息和文本信息都输入至预训练的识别模型中，得到识别模型对语音信息的识别结果，识别模型对语音信息的识别结果为噪音或正常语音，识别模型包括第一提取网络、第二提取网络和判别网络，第一提取网络用于提取所述语音信息的第一特征，第二提取网络用于提取文本信息的第二特征，判别网络用于根据第一特征和第二特征判断获取到的语音信息是噪音还是正常语音，若识别模型对语音信息的识别结果为噪音，电子设备则不响应该语音信息，若识别模型对语音信息的识别结果为正常语音，电子设备则响应该语音信息，考虑到无论是在ASR模块处进行噪音过滤还是在NLU模块处进行噪音过滤都会漏掉部分人声噪音，比如周围人的谈话声等，从而导致智能服务机器人、智能设备进行错误的、无意义的任务，而本申请的实施例使用预训练的识别模型，通过提取特征的方式，融合语音信息和文本信息这两种模态的信息的特征来综合判别语音信息是否为噪音，当语音信息为噪音时不进行响应，大幅提升了噪音过滤的效果和强度，避免进行错误的、无意义的任务。

在一个实施例中，第一提取网络的结构可以如图3所示，第一提取网络21包括第一编码网络211、卷积神经网络212和全连接层213，第一编码网络211与卷积神经网络212连接，卷积神经网络212与全连接层213连接。

第一编码网络211用于对电子设备获取到的语音信息的物理信息进行编码，得到该语音信息的低阶编码信息，并将该语音信息的低阶编码信息输入至卷积神经网络212中，低阶编码信息可以用向量形式表示。

在一个例子中，第一编码网络可以采用梅尔频率倒谱系数法(MelFrequencyCepstrumCoefficient，简称：MFCC)对电子设备获取到的语音信息的物理信息进行编码，得到该语音信息的低阶编码信息。

在一个例子中，第一编码网络可以采用基于滤波器组的Fbank(Filterbank)特征提取法对电子设备获取到的语音信息的物理信息进行编码，得到该语音信息的低阶编码信息。

在具体实现中，语音信息的物理信息包括但不限于以下任意一个或任意组合：语音信息的音量，语音信息的音调，语音信息的音色和语音信息的语速，音量、音调、音色和语速都是声音的固有属性，能够充分代表语音信息本身，判别网络后续根据以音量、音调、音色和语速为基础的第一特征识别语音信息是否为噪音，可以进一步提升识别的准确度。

卷积神经网络212用于对第一编码网络211生成的低阶编码信息进行特征提取，得到语音信息的高阶编码信息，并将该语音信息的高阶编码信息输入至全连接层213，高阶编码信息可以用向量形式表示。

全连接层213用于根据卷积神经网络212生成的高阶编码信息获得语音信息的第一特征，并将第一特征输出，第一特征可以用向量形式表示为x_v。

本实施例，所述第一提取网络包括第一编码网络、卷积神经网络和全连接层，所述第一编码网络与所述卷积神经网络连接，所述卷积神经网络与所述全连接层连接；所述第一编码网络用于对所述语音信息的物理信息进行编码，得到所述语音信息的低阶编码信息，并将所述低阶编码信息输入至所述卷积神经网络；所述卷积神经网络用于对所述低阶编码信息进行特征提取，得到所述语音信息的高阶编码信息，并将所述高阶编码信息输入至所述全连接层；所述全连接层用于根据所述高阶编码信息获得所述语音信息的第一特征，考虑到语音信息比较复杂，本申请的实施例在第一提取网络中设置了多层的特征提取，先用第一编码网络对语音信息的物理信息进行编码，得到基础的低阶编码信息，再用卷积神经网络进行深度提取，得到高阶编码信息，最终由全连接层提取得到语音信息的第一特征，这样提取得到的第一特征可以充分代表语音信息的真实属性，便于判别网络判断语音信息是否是噪音。

在一个实施例中，第二提取网络的结构可以如图4所示，第二提取网络22包括第二遍吗网络221和全连接层222，第二编码网络221与全连接层222连接。

第二提取网络221用于对文本信息进行编码，得到该文本信息的语义编码信息，并将语义编码信息输入至全连接层222，语义编码信息可以用向量形式表示。

在一个例子中，第二编码网络221可以为BERT网络，BERT网络功能强大、稳定，可以更准确、合理地提取文本信息的特征。

在一个例子中，第二编码网络221可以为卷积神经网络。

在一个例子中，第二编码网络221可以为长短期记忆网络(Long Short-TermMemory，简称：LSTM)。

全连接层222用于根据语义编码信息获得语音信息的第二特征，并将第二特征输出，第二特征可以用向量形式表示为x_t。

本实施例，所述第二提取网络包括第二编码网络和全连接层，所述第二编码网络与所述全连接层连接；所述第二提取网络用于对所述文本信息进行编码，得到所述文本信息的语义编码信息，并将所述语义编码信息输入至所述全连接层；所述全连接层用于根据所述语义编码信息获得所述语音信息的第二特征，考虑到文本信息相较于语音信息原来说更容易提取特征，因此第二提取网络只设置第二编码网络和全连接层进行特征提取即可，可以提升噪音过滤的速度和效率。

在一个实施例中，判别网路的结构可以如图5所示，判别网络23包括合并层231、全连接层232、softmax层233和输出层234，合并层231与全连接层232连接，全连接层232与softmax函数层233连接，softmax函数层233与输出层234连接。

合并层231，即concat层，用于将第一提取网络输出的第一特征和第二提取网络输出的第二特征拼接成第三特征，第一特征可以用向量形式表示为x_v，第二特征可以用向量形式表示为x_t，第三特征可以用向量形式表示为x_v+xt。

输出层234，即result层，用于输出语音信息对应的输出向量，语音信息对应的输出向量用于表征该语音信息为噪音的概率和语音信息为正常语音的概率，可以用[p₁，p₂]表示，p₁代表语音信息为正常语音的概率，p₂代表语音信息为噪音的概率，p₁+p₂＝1。

本实施例，所述判别网路包括合并层、全连接层、softmax函数层和输出层，所述合并层与所述全连接层连接，所述全连接层与所述softmax函数层连接，所述softmax函数层与所述输出层连接；所述合并层用于将所述第一特征和所述第二特征拼接成第三特征；所述输出层用于输出所述语音信息对应的输出向量；其中，所述输出向量用于表征所述语音信息为噪音的概率和所述语音信息为正常语音的概率，判别网路的合并层将第一特征即语音信息的特征，和第二特征即文本信息的特征合二为一，拼接在一起形成第三特征，供判别网络根据第三特征进行判别，可以充分地将语音信息的特征与文本信息的特征相融合，综合考虑语义和语音信息的物理信息，进一步提升噪音过滤的准确性，提升噪音过滤的效果。

在一个实施例中，识别模型的结构可以如图6所示，包括第一提取网络31、第二提取网络32和判别网络33，第一提取网络31包括第一编码网络311、卷积神经网络312和全连接层313，第二提取网络32包括第二编码网络321和全连接层322，判别网络33包括合并层331、全连接层332、softmax层333和输出层334，第一编码网络311与卷积神经网络312连接，卷积神经网络312与全连接层313连接，第二编码网络321与全连接层322连接，合并层331分别于全连接层313和全连接层322连接，合并层331还与全连接层332连接，全连接层332还与softmax层333连接，softmax层333还与输出层334连接。

在一个实施例中，预训练的识别模型可以通过如图7所示的各步骤预先进行训练，具体包括：

步骤401，根据第一提取网络、第二提取网络和判别网络，构建识别模型。

在具体实现中，电子设备在训练识别模型时，先确定第一提取网络、第二提取网络和判别网络，再将判别网络分别与第一提取网络和第二提取网络连接，构建得到识别模型，本实施例中，电子设备可以为服务器。

步骤402，获取若干标注有第一标签的第一样本和若干标注有第二标签的第二样本。

具体而言，电子设备构建得到识别模型后，可以通过互联网获取若干标注有第一标签的第一样本和若干标注有第二标签的第二样本。

在具体实现中，第一样本为一组对应的语音形式的噪音和文本形式的噪音，第二样本为一组对应的语音形式的正常语音和文本形式的正常语音，第一标签用于表征第一样本为噪音，第二标签用于表征第二样本为正常语音。

在一个例子中，电子设备也可以先获取若干标注有第一标签的第一样本和若干标注有第二标签的第二样本，再构建识别模型。

步骤403，根据若干标注有第一标签的第一样本和若干标注有第二标签的第二样本，随机生成训练集和验证集。

在具体实现中，电子设备在获取到若干标注有第一标签的第一样本和若干标注有第二标签的第二样本后，可以根据若干标注有第一标签的第一样本和若干标注有第二标签的第二样本，随机生成训练集和验证集。

在一个例子中，设备可以在若干标注有第一标签的第一样本和若干标注有第二标签的第二样本中随机抽取80％的数据生成训练集，再根据剩下的20％的数据生成验证集。

步骤404，基于训练集和验证集，对构建的识别模型进行迭代训练。

具体而言，电子设备随机生成训练集和验证集后，可以基于训练集和验证集，对构建的识别模型进行迭代训练。

在一个例子中，电子设备基于训练集和验证集，对构建的识别模型进行迭代训练，可以通过如图8所示的各步骤实现，具体包括：

步骤501，根据第一提取网络和第二提取网络分别提取训练集中各训练样本的第一特征和各训练样本的第二特征，以及验证集中各验证样本的第一特征和各验证样本的第二特征。

步骤502，基于各训练样本的第一特征、各训练样本的第二特征、各训练样本的标签、各验证样本的第一特征、各验证样本的第二特征和各验证样本的标签，对判别网络进行迭代训练。

在具体实现中，第一提取网络可以使用成熟的、训练好的开源语音信息特征提取网络，第二提取网络可以使用成熟的、训练好的开源文本信息特征提取网络，第一提取网络和第二提取网络无需训练，电子设备只需要对判别网络进行训练即可，电子设备根据第一提取网络和第二提取网络分别提取训练集中各训练样本的第一特征和各训练样本的第二特征，以及验证集中各验证样本的第一特征和各验证样本的第二特征，基于各训练样本的第一特征、各训练样本的第二特征、各训练样本的标签、各验证样本的第一特征、各验证样本的第二特征和各验证样本的标签，对判别网络进行迭代训练，可以减少识别模型的训练时间和训练难度。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请的另一个实施例涉及一种噪音过滤装置，下面对本实施例的噪音过滤装置的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须，本实施例的噪音过滤装置的示意图可以如图9所示，包括：获取模块601、转换模块602、识别模块603和执行模块604。

获取模块601用于获取语音信息，并将获取到的语音信息分别发送至转换模块602和执行模块604。

转换模块602用于将语音信息转换成文本信息，并将文本信息发送至识别模块603。

识别模块603用于将语音信息和文本信息输入至预训练的识别模型中，得到语音信息的识别结果，其中，识别结果为噪音或正常语音，识别模型包括用于提取语音信息的第一特征的第一提取网络、用于提取文本信息的第二特征的第二提取网络、以及用于根据第一特征和第二特征判断语音信息为噪音或正常语音的判别网络。

执行模块604用于当语音信息的识别结果为噪音时，不响应语音信息，当语音信息的识别结果为正常语音时，响应语音信息。

值得一提的是，本实施例中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施例中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施例中不存在其它的单元。

本申请另一个实施例涉及一种电子设备，如图10所示，包括：至少一个处理器701；以及，与所述至少一个处理器701通信连接的存储器702；其中，所述存储器702存储有可被所述至少一个处理器701执行的指令，所述指令被所述至少一个处理器701执行，以使所述至少一个处理器701能够执行上述各实施例中的噪音过滤方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本申请另一个实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种噪音过滤方法，其特征在于，包括：

将获取到的语音信息转换成文本信息；

将所述语音信息和所述文本信息输入至预训练的识别模型中，得到对所述语音信息的识别结果；其中，所述识别结果为噪音或正常语音，所述识别模型包括用于提取所述语音信息的第一特征的第一提取网络、用于提取所述文本信息的第二特征的第二提取网络、以及用于根据所述第一特征和所述第二特征判断所述语音信息为噪音或正常语音的判别网络；

若所述识别结果为噪音，则不响应所述语音信息，若所述识别结果为正常语音，则响应所述语音信息。

2.根据权利要求1所述的噪音过滤方法，其特征在于，所述第一提取网络包括第一编码网络、卷积神经网络和全连接层，所述第一编码网络与所述卷积神经网络连接，所述卷积神经网络与所述全连接层连接；

所述第一编码网络用于对所述语音信息的物理信息进行编码，得到所述语音信息的低阶编码信息，并将所述低阶编码信息输入至所述卷积神经网络；

所述卷积神经网络用于对所述低阶编码信息进行特征提取，得到所述语音信息的高阶编码信息，并将所述高阶编码信息输入至所述全连接层；

所述全连接层用于根据所述高阶编码信息获得所述语音信息的第一特征。

3.根据权利要求2所述的噪音过滤方法，其特征在于，所述语音信息的物理信息包括以下任意一个或任意组合：所述语音信息的音量，所述语音信息的音调，所述语音信息的音色和所述语音信息的语速。

4.根据权利要求1所述的噪音过滤方法，其特征在于，所述第二提取网络包括第二编码网络和全连接层，所述第二编码网络与所述全连接层连接；

所述第二提取网络用于对所述文本信息进行编码，得到所述文本信息的语义编码信息，并将所述语义编码信息输入至所述全连接层；

所述全连接层用于根据所述语义编码信息获得所述语音信息的第二特征。

5.根据权利要求1至4中任一项所述的噪音过滤方法，其特征在于，所述判别网路包括合并层、全连接层、softmax函数层和输出层，所述合并层与所述全连接层连接，所述全连接层与所述softmax函数层连接，所述softmax函数层与所述输出层连接；

所述合并层用于将所述第一特征和所述第二特征拼接成第三特征；

所述输出层用于输出所述语音信息对应的输出向量；其中，所述输出向量用于表征所述语音信息为噪音的概率和所述语音信息为正常语音的概率。

6.根据权利要求1至4中任一项所述的噪音过滤方法，其特征在于，所述预训练的识别模型通过以下步骤进行训练：

根据所述第一提取网络、所述第二提取网络和所述判别网络，构建所述识别模型；

获取若干标注有第一标签的第一样本和若干标注有第二标签的第二样本；其中，所述第一样本为一组对应的语音形式的噪音和文本形式的噪音，所述第二样本为一组对应的语音形式的正常语音和文本形式的正常语音，所述第一标签用于表征所述第一样本为噪音，所述第二标签用于表征所述第二样本为正常语音；

根据所述若干标注有第一标签的第一样本和所述若干标注有第二标签的第二样本，随机生成训练集和验证集；

基于所述训练集和所述验证集，对构建的所述识别模型进行迭代训练。

7.根据权利要求6所述的噪音过滤方法，其特征在于，所述根据所述训练集和所述验证集，对构建的所述识别模型进行迭代训练，包括：

根据所述第一提取网络和所述第二提取网络分别提取所述训练集中各训练样本的第一特征和各训练样本的第二特征，以及所述验证集中各验证样本的第一特征和各验证样本的第二特征；

基于所述各训练样本的第一特征、所述各训练样本的第二特征、所述各训练样本的标签、所述各验证样本的第一特征、所述各验证样本的第二特征和所述各验证样本的标签，对所述判别网络进行迭代训练。

8.一种噪音过滤装置，其特征在于，包括：获取模块、转换模块、识别模块和执行模块；

所述获取模块用于获取语音信息，并将所述语音信息分别发送至所述转换模块和所述执行模块；

所述转换模块用于将所述语音信息转换成文本信息，并将所述文本信息发送至所述识别模块；

所述识别模块用于将所述语音信息和所述文本信息输入至预训练的识别模型中，得到所述语音信息的识别结果，其中，所述识别结果为噪音或正常语音，所述识别模型包括用于提取所述语音信息的第一特征的第一提取网络、用于提取所述文本信息的第二特征的第二提取网络、以及用于根据所述第一特征和所述第二特征判断所述语音信息为噪音或正常语音的判别网络；

所述执行模块用于当所述语音信息的识别结果为噪音时，不响应所述语音信息，当所述语音信息的识别结果为正常语音时，响应所述语音信息。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的噪音过滤方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的噪音过滤方法。