CN108231089A

CN108231089A - 基于人工智能的语音处理方法及装置

Info

Publication number: CN108231089A
Application number: CN201611132359.XA
Authority: CN
Inventors: 王知践; 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2018-06-29
Anticipated expiration: 2036-12-09
Also published as: US10475484B2; US20180166103A1; CN108231089B

Abstract

本发明提出一种基于人工智能的语音处理方法及装置，其中，方法包括：对待解码的语音进行静音检测，如果检测出待解码的语音为静音语音，截断待解码的语音得到目标语音，利用预设的静音帧的尾部特征重置目标语音的尾部特征，对重置后的目标语音进行CTC解码处理。本发明中，在待解码的语音携带大量空白帧时，对待解码的语音进行截断，并利用静音帧的尾部特征去替换目标语音的尾部特征，使得目标语音的尾部特征在进行CTC解码时，可以出现一个CTC尖峰，从而使待解码的语音中大量空白帧之前所携带的文本内容中的最后一个字能够快速上屏显示。

Description

基于人工智能的语音处理方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于人工智能的语音处理方法及装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

目前，用户可以通过语音输入用户试图表达的文字，如在搜索时进行语音搜索，或者语音输入聊天内容。在需要将语音内容进行显示时，多采用基于神经网络的时序类分类(Connectionist temporal classification，简称CTC)模型进行语音解码。在基于CTC模型的解码过程，一个词结束后会对应出现一个CTC尖峰，而在将这个词在屏幕上进行显示的时候，需要下一个词的CTC尖峰的出现后，这个词才能在屏幕显现出来。

实际应用中，往往会出现用户一直长按麦克风录音而用户却未发声，或者发送的一句话中有很长一段时间的停顿的情况，在这些境况下现有基于CTC模型的解码过程中，需要等到用户释放麦克风，或者这句中停顿的时间过去后，前面内容的最后一个字不能在屏幕进行上屏。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语音处理方法，用于解决在用户长按麦克风录音而用户却未发声或者一句话中有很长一段时间的停顿的情况下，现有基于CTC模型的解码过程中，前面内容的最后一个字不能快速上屏显示的问题。

本发明的第二个目的在于提出一种基于人工智能的语音处理装置。

本发明的第三个目的在于提出另一种基于人工智能的语音处理装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语音处理方法，包括：

对待解码的语音进行静音检测；

如果检测出所述待解码的语音为静音语音，截断所述待解码的语音得到目标语音；

利用预设的静音帧的尾部特征重置所述目标语音的尾部特征；

对重置后的所述目标语音进行CTC解码处理。

本发明实施例的基于人工智能的语音处理方法，通过对待解码的语音进行静音检测，如果检测出待解码的语音为静音语音，截断待解码的语音得到目标语音，利用预设的静音帧的尾部特征重置目标语音的尾部特征，对重置后的目标语音进行CTC解码处理。本实施例中，在待解码的语音携带大量空白帧时，对待解码的语音进行截断，并利用静音帧的尾部特征去替换目标语音的尾部特征，使得目标语音的尾部特征在进行CTC解码时，可以出现一个CTC尖峰，从而使待解码的语音中大量空白帧之前所携带的文本内容中的最后一个字能够快速上屏显示。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的语音处理装置，包括：

静音检测模块，用于对待解码的语音进行静音检测；

截断模块，用于如果检测出所述待解码的语音为静音语音，截断所述待解码的语音得到目标语音；

特征重置模块，用于利用预设的静音帧的尾部特征重置所述目标语音的尾部特征；

解码模块，用于对重置后的所述目标语音进行CTC解码处理。

本发明实施例的基于人工智能的语音处理装置，通过对待解码的语音进行静音检测，如果检测出待解码的语音为静音语音，截断待解码的语音得到目标语音，利用预设的静音帧的尾部特征重置目标语音的尾部特征，对重置后的目标语音进行CTC解码处理。本实施例中，在待解码的语音携带大量空白帧时，对待解码的语音进行截断，并利用静音帧的尾部特征去替换目标语音的尾部特征，使得目标语音的尾部特征在进行CTC解码时，可以出现一个CTC尖峰，从而使待解码的语音中大量空白帧之前所携带的文本内容中的最后一个字能够快速上屏显示。

为达上述目的，本发明第三方面实施例提出了另一种基于人工智能的语音处理装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：对待解码的语音进行静音检测；如果检测出所述待解码的语音为静音语音，截断所述待解码的语音得到目标语音；利用预设的静音帧的尾部特征重置所述目标语音的尾部特征；对重置后的所述目标语音进行CTC解码处理。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器端的处理器被执行时，使得服务器端能够执行一种基于人工智能的语音处理方法，所述方法包括：对待解码的语音进行静音检测；如果检测出所述待解码的语音为静音语音，截断所述待解码的语音得到目标语音；利用预设的静音帧的尾部特征重置所述目标语音的尾部特征；对重置后的所述目标语音进行CTC解码处理。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于人工智能的语音处理方法，所述方法包括：对待解码的语音进行静音检测；如果检测出所述待解码的语音为静音语音，截断所述待解码的语音得到目标语音；利用预设的静音帧的尾部特征重置所述目标语音的尾部特征；对重置后的所述目标语音进行CTC解码处理。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种基于人工智能的语音处理方法的流程示意图；

图2为本发明实施例提供的一种静音检测的流程示意图；

图3为本发明实施例提供的另一种基于人工智能的语音处理方法的流程示意图；

图4为本发明实施例提供的一种从目标语音中选取尾部帧的示意图；

图5为本发明实施例提供的一种基于人工智能的语音处理装置的结构示意图；

图6为本发明实施例提供的特征重置模块的结构示意图；

图7为本发明实施例提供的静音检测模块的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的语音处理方法及装置。

图1为本发明实施例所提供的一种基于人工智能的语音处理方法的流程示意图。该基于人工智能的语音处理方法包括以下步骤：

S101、对待解码的语音进行静音检测。

实际中，当待解码的语音中携带有长时间的停顿时，在解码时前面的内容的最后一个字就需要等待较长的时候，才能够在屏幕上进行显示。为了解决上述问题，需要首先确定待解码的语音是否携带静音帧。本实施例中，对待解码的语音进行静音检测，通过静音检测来确定该待解码的语音是否为静音语音。

图2为本发明实施例中提供的一种静音检测的流程示意图。具体地，该静音检测包括以下步骤：

S201、统计待解码的语音中所包括的连续空白帧的第一个数。

一般情况下，当用户处于静音状态进行录制时，录制得到语音中则会携带有一些空白(blank)帧，也就是说，用户处于静音状态对应的时刻所录制的那段语音中所包括的帧为空白帧，空白帧一般不会携带文本内容。

本实施例中，可以获取当前帧的频谱特征、当前帧所携带的能量等，根据当前帧的频谱特征、所携带的能量等，来确定当前帧是否为空白。实际应用中，用户在语音输入时可能会出现短暂的停顿，为了避免将这种情况下生成的语音错判成静音语音，本实施例中，需要为待解码的语音中所包括的连续空白帧进行统计，得到该待解码的语音中所包括的连续空白帧的第一个数。

S202、记录当前帧的帧标识。

进一步地，本实施例中可以对当前空白帧的帧标识进行记录，通过帧标识可以快速地对统计出的最后一个空白帧进行定位。

S203、判断第一个数是否超出第二个数。

本实施例中，预先设置一个第二个数，例如，将第二个数设置成50。在获取到待解码的语音中所包括的空白帧的第一个数后，将第一个数与预先设置的第二个数进行比较，以判断该第一个数是否超出第二个数，如果判断结果为第一个数超出第二个数，则执行S204。如果判断结果为第一个数未超出第二个数，则返回继续执行S201。

S204、确定待解码的语音为静音语音。

当第一个数超出第二个数时，说明待解码的语音中包括较多的空白帧，则可以确定出待解码的语音为静音语音。

S102、如果检测出待解码的语音为静音语音，截断待解码的语音得到目标语音。

当检测出该待解码的语音为静音语音时，为了使待解码的语音所携带的文本内容的最后一个字，或者说该待解码的语音中所包括的空白帧前面的字能够快速的显示出来，本实施例中，对该解码的语音进行截断处理，以得到一个目标语音。

具体地，在对待解码的语音空白帧的识别过程中，可以识别并统计空白帧的个数。当识别出的空白帧的个数超出第二个数时，就可以从记录的最大空白帧处，对待解码的语音进行截断，截断后从最大空白帧开始往前所有的帧形成一个目标语音。本实施例中，最大空白帧为目标语音所包括的连续空白帧中最后一个空白帧，其中，连续空白帧的第一个数大于预设的第二个数。

在进行截断时可以根据在统计过程中记录的当前帧的帧标识定位到最大空白帧的位置。

S103、利用预设的静音帧的尾部特征重置目标语音的尾部特征。

本实施例中，可以预先设置一些静音帧的尾部特征，预设的静音帧的尾部特征在进行CTC解码时，可以形成一个CTC尖峰。这些尾部特征可以利用机器学习的方式，对历史的静音帧进行特征提取得到的。

在获取到目标语音后，可以从预设的静音帧的尾部特征中，选择一些静音帧的尾部特征，利用选择的静音帧的尾部特征重置目标语音的尾部特征。具体地，可以从目标语音的选取几个需要特征重置的尾部帧，则相应地选择几个静音帧的尾部特征，利用选择的静音帧的尾部特征，重置从目标语音中选取的尾部帧的尾部特征。

S104、对重置后的目标语音进行CTC解码处理。

具体地，将重置后的目标语音输入到预设的CTC模型中进行解码。在CTC模型中进行解码时，语音携带的文本内容中的当前词要上屏显示时，需要等待下一个词的CTC尖峰出现后，才能够上屏显示。

本实施例中，在对目标语音的尾部帧进行了特征重置后，就可以将特征重置后的目标语音重新输入到声学模型中进行打分，经过打分处理后在输入到CTC模型中进行解码。在解码到目标语音的尾部帧时，由于利用在CTC解码时可以形成CTC尖峰的预设的静音帧的尾部特征，对该目标语音的尾部帧进行了特征重置，这样就可以使重置特征后的尾部帧在解码时会出现一个CTC尖峰。当解码到目标语言的尾部帧后，判断尾部帧是否解码出一个CTC尖峰。当解码出CTC尖峰时，可以将目标语音携带的文本内容中的最后一字在屏幕上进行显示。

本实施例提供的基于人工智能的语音处理方法，通过对待解码的语音进行静音检测，如果检测出待解码的语音为静音语音，截断待解码的语音得到目标语音，利用预设的静音帧的尾部特征重置目标语音的尾部特征，对重置后的目标语音进行CTC解码处理。本实施例中，在待解码的语音携带大量空白帧时，对待解码的语音进行截断，并利用静音帧的尾部特征去替换目标语音的尾部特征，使得目标语音的尾部特征在进行CTC解码时，可以出现一个CTC尖峰，从而使待解码的语音中大量空白帧之前所携带的文本内容中的最后一个字能够快速上屏显示。

图3为本发明实施例提供的另一种基于人工智能的语音处理方法的流程示意图。如图3所示，该基于人工智能的语音处理方法包括以下步骤：

S301、统计待解码的语音中所包括的连续空白帧的第一个数。

S302、记录当前空白帧的帧标识。

S303、判断第一个数是否超出第二个数。

关于S301～S303的相关介绍可参见上述实施例中相关内容的记载，此次不再赘述。

如果判断出第一个数超出第二个数时，则执行S304；否则执行返回执行S301。

S304、从记录的最大空白帧的位置往前移动获取预设长度的空白帧。

本实施例中，为了避免将一些携带的内容较少的帧错误识别成空白帧，可以在第一个数超出第二个数时，进一步地，则从记录的最大空白帧的位置往前移动获取预设长度的空白帧。例如，该预设长度可以为20。

S305、对预设长度的空白帧进行语音活动检测VAD，获取所述预设长度的空白帧的语音置信度。

本实施例中，对该预设长度的空白帧进行语音活动检测(Voice ActivityDetection，简称VAD)，可以获取这些预设长度的空白帧的语音置信度。具体地，可以通过预设的模型VAD对预设长度的空白帧进行检测，得到这些预设长度的空白帧对应的语音置信度。

S306、如果语音置信度低于预设的阈值，则确定待解码的语音为静音语音

本实施例中预先设置一个阈值，该阈值可以根据经验进行设置。在获取到预设长度的帧的语音置信度后，将该语音置信度与预设的阈值进行比较，如果该语音置信度低于该阈值，则确定出待解码的语音为静音语音。本实施例中，经过对预设长度的帧进一步地VAD检测后，可以提高对待解码的语音中空白帧识别的准确率，降低将携带信息少的帧识别成空白帧的概率。

S307、为待解码的语音设置一个静音语音的标志。

进一步地，本实施例中，在识别出待解码的语音为静音语音时，可以为该待解码的静音语音设置一个静音语音的标志。例如，该静音语音的标志可以为“1”，非静音语音的标志可以设置为“0”。

S308、确定记录的最大空白帧的位置。

S309、在最大空白帧的位置对待解码的语音进行截断，得到目标语音。

在识别出待解码的语音为静音语音后，可以根据在统计过程中记录的当前的帧标识确定出最大空白帧的位置，然后在最大空白帧出对待解码的语音进行截断，形成一个目标语音。

S310、从最大空白帧开始往前选取预设第三个数的帧作为尾部帧。

为了使目标语音中所携带的文本内容中最后一个字能够快速上屏显示，本实施例中，可以对目标语音的尾部特征进行重置处理。具体地，从目标语音中确定出需要重置的尾部特征，优选地从最大空白帧开始往前选取预设第三个数的帧作为尾部帧。本实施例中，利用静音帧的尾部特征对这些尾部帧的特征进行置换。

S311、将选取的预设第三个数的尾部帧分成两段。

具体地，可以将选取的第三个数的尾部帧分成两段，其中，第一段从最大空白帧开始往前所包括帧的个数为预设第四个数，第二段所包括的帧为选取的所有尾部帧中除第一段之外剩余的帧。

图4为本发明实施例提供的一种从目标语音中选取尾部帧的示意图。如图4所示，黑色加粗竖线表示记录的最大空白帧的帧标识，通过该帧标识可以定位到最大空白帧。从最大空白帧开始往前选取9帧作为尾部帧，其中，第一段所包括的帧从最大空白帧开始往前的5帧。第二段所包括的帧选取的9帧中处第一段所包括的5帧之外的剩余的4帧。

S312、选取与第二段所包括的帧的个数相同的静音帧的尾部特征。

具体地，在确定出第二段所包括的帧后，可以获取到该第二段所包括的帧个数，为了对第二段所包括的各帧的特征进行重置，需要选取与第二段所包括的帧的个数相同的静音帧的尾部特征，即当第二段包括的个数为4时，则选取4个静音帧的尾部特征。

S313、利用选取的静音帧的尾部特征重置第二段中各帧的特征。

具体地，将选取的静音帧的尾部特征复制到第二段中各帧中，以静音帧的尾部特征替换第二段中各帧的特征，即利用静音帧的尾部特征对第二段中各种的特征进行了重置。

S314、利用声学模型基于重置后的第二段中各帧的特征扩展第一段中各帧的特征。

为了实现更好的解码，本实施例中，可以利用重置后的第二段中各帧的特征，继续对第一段中各帧的特征进行扩展。具体地，利用声学模型基于重置后的第二段中各帧的特征，对第一段中各帧的特征重新打分，来扩展第一段中各帧的特征。

S315、对重置后的目标语音进行CTC解码处理。

本实施例中，在解码到目标语音的尾部帧时，由于该目标语音的尾部帧进行了特征重置，使得在重置特征后的尾部帧在解码时会出现一个CTC尖峰。当解码出CTC尖峰时，可以将目标语音携带的文本内容中的最后一字在屏幕上进行显示。

图5为本发明实施例提供的一种基于人工智能的语音处理装置的结构示意图。如图5所示，该基于人工智能的语音处理装置包括：静音检测模块11、截断模块12、特征重置模块13和解码模块14。

其中，静音检测模块11，用于对待解码的语音进行静音检测。

截断模块12，用于如果检测出所述待解码的语音为静音语音，截断所述待解码的语音得到目标语音。

特征重置模块13，用于利用预设的静音帧的尾部特征重置所述目标语音的尾部特征。

解码模块14，用于对重置后的所述目标语音进行CTC解码处理。

图6为本发明实施例中提供的一种特征重置模块的结构示意图。如图6所示，该特征重置模块13包括：选取单元131和重置单元132。

选取单元131，用于从所述目标语音中选取出需要特征重置的多个尾部帧。

重置单元132，用于利用所述静音帧的尾部特征重置所有尾部帧的特征。

进一步地，选取单元131，具体用于：

确定所述目标语音所包括的最大空白帧的位置，其中，所述最大空白帧为所述目标语音所包括的连续空白帧中最后一个空白帧，其中，连续空白帧的第一个数大于预设的第二个数。

从所述最大空白帧开始往前选取预设第三个数的帧作为所述尾部帧。

重置单元132，具体用于：

将选取的预设第三个数的尾部帧分成两段；其中，第一段从所述最大空白帧开始往前所包括帧的个数为预设第四个数，第二段所包括的帧为选取的所有尾部帧中除所述第一段之外剩余的帧。

选取与所述第二段所包括的帧的个数相同的所述静音帧的尾部特征。

利用选取的所述静音帧的尾部特征重置所述第二段中各帧的特征。

利用声学模型基于重置后的所述第二段中各帧的特征扩展所述第一段中各帧的特征。

进一步地，截断模块12，具体用于在所述最大空白帧的位置对所述待解码的语音进行截断，得到所述目标语音。

图7为本发明实施例提供的一种静音检测模块的结构示意图。如图7所示，该静音检测模块11包括：统计单元111、记录单元112、判断单元113、确定单元114、第一获取单元115、第二获取单元116和标记单元117。

其中，统计单元111，用于统计所述待解码的语音中所包括的连续空白帧的所述第一个数。

记录单元112，用于记录当前帧的帧标识。

判断单元113，用于判断所述第一个数是否超出所述第二个数。

确定单元114，用于在判断出所述第一个数超出所述第二个数时，则确定所述待解码的语音为静音语音。

进一步地，第一获取单元115，用于在判断出所述第一个数超出所述第二个数时，从记录的所述最大空白帧的位置往前移动获取预设长度的空白帧。

第二获取单元115，用于对预设长度的空白帧进行语音活动检测VAD，获取所述预设长度的空白帧的语音置信度。

确定单元114，用于在所述语音置信度低于预设的阈值，则确定所述待解码的语音为静音语音。

设置单元117，用为所述待解码的语音设置一个静音语音标志。

进一步地，选取单元131，具体用于根据记录的当前空白帧的帧标识确定所述最大空白帧的位置。

进一步地，解码模块14，具体用于：

将重置后的所述目标语音输入到预设的CTC模型中进行解码；

在解码到所述尾部帧后时，判断所述尾部帧是否解码出一个CTC尖峰；

在解码出所述CTC尖峰时，将所述目标语音对应的文本内容中的最后一字在屏幕上进行显示。

本实施例提供的基于人工智能的语音处理装置，通过对待解码的语音进行静音检测，如果检测出待解码的语音为静音语音，截断待解码的语音得到目标语音，利用预设的静音帧的尾部特征重置目标语音的尾部特征，对重置后的目标语音进行CTC解码处理。本实施例中，在待解码的语音携带大量空白帧时，对待解码的语音进行截断，并利用静音帧的尾部特征去替换目标语音的尾部特征，使得目标语音的尾部特征在进行CTC解码时，可以出现一个CTC尖峰，从而使待解码的语音中大量空白帧之前所携带的文本内容中的最后一个字能够快速上屏显示。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音处理方法，其特征在于，包括：

对待解码的语音进行静音检测；

对重置后的所述目标语音进行CTC解码处理。

2.根据权利要求1所述的基于人工智能的语音处理方法，其特征在于，所述利用预设的静音帧的尾部特征重置所述目标语音的尾部特征，包括：

从所述目标语音中选取出需要特征重置的多个尾部帧；

利用所述静音帧的尾部特征重置所有尾部帧的特征。

3.根据权利要求2所述的基于人工智能的语音处理方法，其特征在于，所述从所述目标语音中选取出需要特征重置的多个尾部帧，包括：

确定所述目标语音所包括的最大空白帧的位置，其中，所述最大空白帧为所述目标语音所包括的连续空白帧中最后一个空白帧，其中，连续空白帧的第一个数大于预设的第二个数；

从所述最大空白帧开始往前选取预设第三个数的帧作为所述尾部帧；

所述利用所述静音帧的尾部特征重置所有尾部帧的特征，包括：

将选取的预设第三个数的尾部帧分成两段；其中，第一段从所述最大空白帧开始往前所包括帧的个数为预设第四个数，第二段所包括的帧为选取的所有尾部帧中除所述第一段之外剩余的帧；

选取与所述第二段所包括的帧的个数相同的所述静音帧的尾部特征；

利用选取的所述静音帧的尾部特征重置所述第二段中各帧的特征；

4.根据权利要求3所述的基于人工智能的语音处理方法，其特征在于，所述截断所述待解码的语音得到目标语音，包括：

在所述最大空白帧的位置对所述待解码的语音进行截断，得到所述目标语音。

5.根据权利要求4所述的基于人工智能的语音处理方法，其特征在于，所述对待解码的语音进行静音检测，包括：

统计所述待解码的语音中所包括的连续空白帧的所述第一个数；

记录当前帧的帧标识；

判断所述第一个数是否超出所述第二个数；

如果判断出所述第一个数超出所述第二个数，则确定所述待解码的语音为静音语音。

6.根据权利要求5所述的基于人工智能的语音处理方法，其特征在于，所述如果判断出所述第一个数超出所述第二个数，则确定所述待解码的语音为静音语音，包括：

从记录的所述最大空白帧的位置往前移动获取预设长度的空白帧；

对预设长度的空白帧进行语音活动检测VAD，获取所述预设长度的空白帧的语音置信度；

如果所述语音置信度低于预设的阈值，则确定所述待解码的语音为静音语音；

为所述待解码的语音设置一个静音语音标志。

7.根据权利要求6所述的基于人工智能的语音处理方法，其特征在于，所述确定所述目标语音所包括的最大空白帧的位置，包括：

根据记录的当前帧的帧标识确定所述最大空白帧的位置。

8.根据权利要求7所述的基于人工智能的语音处理方法，其特征在于，所述对重置后的所述目标语音进行CTC解码处理，包括：

将重置后的所述目标语音输入到预设的CTC模型中进行解码；

9.根据权利要求3-8任一项所述的基于人工智能的语音处理方法，其特征在于，所述第三个数为9，其中，所述第一段从最大空白帧开始往前包括5个帧，所述第二段包括4个帧。

10.一种基于人工智能的语音处理装置，其特征在于，包括：

静音检测模块，用于对待解码的语音进行静音检测；

解码模块，用于对重置后的所述目标语音进行CTC解码处理。

11.根据权利要求10所述的基于人工智能的语音处理装置，其特征在于，所述特征重置模块，包括：

选取单元，用于从所述目标语音中选取出需要特征重置的多个尾部帧；

重置单元，用于利用所述静音帧的尾部特征重置所有尾部帧的特征。

12.根据权利要求11所述的基于人工智能的语音处理装置，其特征在于，所述选取单元，具体用于：

所述重置单元，具体用于：

13.根据权利要求12所述的基于人工智能的语音处理装置，其特征在于，所述截断模块，具体用于在所述最大空白帧的位置对所述待解码的语音进行截断，得到所述目标语音。

14.根据权利要求13所述的基于人工智能的语音处理装置，其特征在于，所述静音检测模块，包括：

统计单元，用于统计所述待解码的语音中所包括的连续空白帧的所述第一个数；

记录单元，用于记录当前帧的帧标识；

判断单元，用于判断所述第一个数是否超出所述第二个数；

确定单元，用于在判断出所述第一个数超出所述第二个数时，则确定所述待解码的语音为静音语音。

15.根据权利要求14所述的基于人工智能的语音处理装置，其特征在于，所述静音检测模块，还包括：

第一获取单元，用于从记录的所述最大空白帧的位置往前移动获取预设长度的空白帧；

第二获取单元，用于对预设长度的空白帧进行语音活动检测VAD，获取所述预设长度的空白帧的语音置信度；

所述确定单元，用于在所述语音置信度低于预设的阈值，则确定所述待解码的语音为静音语音；

设置单元，用为所述待解码的语音设置一个静音语音标志。

16.根据权利要求15所述的基于人工智能的语音处理装置，其特征在于，所述选取单元，具体用于根据记录的当前帧的帧标识确定所述最大空白帧的位置。

17.根据权利要求16所述的基于人工智能的语音处理装置，其特征在于，所述解码模块，具体用于：

将重置后的所述目标语音输入到预设的CTC模型中进行解码；