CN106710606B

CN106710606B - 基于人工智能的语音处理方法及装置

Info

Publication number: CN106710606B
Application number: CN201611246698.0A
Authority: CN
Inventors: 王知践; 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2019-11-08
Anticipated expiration: 2036-12-29
Also published as: US10580436B2; CN106710606A; US20180190314A1

Abstract

本发明提出一种基于人工智能的语音处理方法及装置，其中，方法包括：利用声学模型对待解码的语音包中的当前帧进行打分；根据打分结果识别当前帧是否为准静音帧；如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码。本发明中，在对待解码的语音包的当前帧进行解码之前，根据声学模型的打分结果识别出当前帧是否需要解码，当不需要解码时，在解码时跳过当前帧，从而可以避免冗余解码，提升解码的速度，加快对待解码的语音包的识别。

Description

基于人工智能的语音处理方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于人工智能的语音处理方法及装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

目前多采用基于神经网络的时序类分类(Connectionist temporalclassification，简称CTC)建模进行语音识别，识别过程中对语音包进行解码时，现有的CTC建模语音识别系统对该语音包中所有的音频帧进行解码。然后实际应用中，一个语音包中有些音频帧可能并不携带信息，这些不携带信息的音频帧一般就是静音帧，现有的CTC建模语音识别系统对静音帧进行解码实际上就是一种冗余解码。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语音处理方法，用于解决现有基于CTC建模的语音识别系统对语音包中包括的静音帧进行解码存在冗余解码的问题。

本发明的第二个目的在于提出一种基于人工智能的语音处理装置。

本发明的第三个目的在于提出另一种基于人工智能的语音处理装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语音处理方法，包括：

利用声学模型对待解码的语音包中的当前帧进行打分；

根据打分结果识别当前帧是否为准静音帧；

如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码。

本发明实施例的基于人工智能的语音处理方法，通过在对待解码的语音包的当前帧进行解码之前，根据声学模型的打分结果识别出当前帧是否需要解码，当不需要解码时，在解码时跳过当前帧，从而可以避免冗余解码，提升解码的速度，加快对待解码的语音包的识别。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的语音处理装置，包括：

打分模块，用于利用声学模型对待解码的语音包中的当前帧进行打分；

识别模块，根据打分结果识别当前帧是否为准静音帧；

解码模块，用于如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码。

本发明实施例的基于人工智能的语音处理装置，通过在对待解码的语音包的当前帧进行解码之前，根据声学模型的打分结果识别出当前帧是否需要解码，当不需要解码时，在解码时跳过当前帧，从而可以避免冗余解码，提升解码的速度，加快对待解码的语音包的识别。

为达上述目的，本发明第三方面实施例提出了另一种基于人工智能的语音处理装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：利用声学模型对待解码的语音包中的当前帧进行打分；根据打分结果识别当前帧是否为准静音帧；如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器端的处理器被执行时，使得服务器端能够执行一种基于人工智能的语音处理方法，所述方法包括：利用声学模型对待解码的语音包中的当前帧进行打分；根据打分结果识别当前帧是否为准静音帧；如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于人工智能的语音处理方法，所述方法包括：利用声学模型对待解码的语音包中的当前帧进行打分；根据打分结果识别当前帧是否为准静音帧；如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种基于人工智能的语音处理方法的流程示意图；

图2为本发明实施例提供的一种识别准静音帧的流程示意图；

图3为本发明实施例提供的另一种基于人工智能的语音处理方法的流程示意图；

图4为本发明实施例提供的一种待解码的语音包中各帧解码时的示意图；

图5为本发明实施例提供的一种CTC建模单元的拓扑图；

图6为本发明实施例提供的另一种CTC建模单元的拓扑图；

图7为本发明实施例提供的一种基于人工智能的语音处理装置的结构示意图；

图8为本发明实施例提供的识别模块的结构示意图；

图9为本发明实施例提供的打分模块的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的语音处理方法及装置。

图1为本发明实施例所提供的一种基于人工智能的语音处理方法的流程示意图。如图1所示，该基于人工智能的语音处理方法包括以下步骤：

S101、利用声学模型对待解码的语音包中的当前帧进行打分。

本实施例中，利用声学模型可以的待解码的语音包中的当前帧进行打分，即利用声学模型对当前帧所携带的声学特征进行计算，获得声学特征对应的每一个隐状态的后验概率。例如，当前帧所携带的声学特征为一个发音，利用声学模型可以对该发音对应的可能的字进行打分，获取该发音所对应的字的一个后验概率，此处每个可能的字就是一个隐状态。

S102、根据打分结果识别当前帧是否为准静音帧。

本实施例中，在识别出当前帧为准静音帧时，则执行S103；在识别出当前帧非准静音帧时，则执行S104。

图2为本发明实施例中提供的一种识别准静音帧的流程示意图。具体地，该识别准静音帧的流程包括以下步骤：

S201、根据打分结果获取当前帧的最优隐状态和次优隐状态。

在经过声学模型对当前帧所携带的声学特征对应的每个隐状态进行打分后，就可以根据打分结果识别出当前帧的最优隐状态和次优隐状态。例如，可以将最优隐状态称为state A，将次优隐状态称为state B。

S202、判断最优隐状态对应的状态标识是否为空白标识。

本实施例中，在预先对声学特征进行训练学习的过程中，可以为声学特征对应的每个状态生成一个状态标识，进一步地在训练学习的过程中还可以将一些状态标识识别成空白标识。本实施例中，可以预先利用识别成空白标识的所有状态标识生成一个列表或者关联关系。

在获取到的最优隐状态即state A后，判断该最优隐状态对应的状态标识是否为空白标识。具体地，可以查询该state A对应的状态标识，是否在上述的列表或者关联关系中，如果存在列表或者关联关系中，则可以判断出该state A的状态标识为空白标识。

如果判断结果为最优隐状态对应的状态标识为空白标识，则执行S203；如果判断结果为最优隐状态对应的状态标识非空白标识，则执行S209。

S203、获取最优隐状态和次优隐状态之间的得分差值。

本实施例中，为了避免将携带少量信息的帧识别成静音帧，在确定出该state A的状态标识为空白标识之后，获取state A与次优状态即state B之间的得分差值。具体地，在声学模型可以对声学特征的每个state的进行打分，在确定出该state A的状态标识为空白标识之后，利用在声学模型中state A的得分与state B的得分进行相减，就可以获取到一个得分差值。其中，每个state的得分就是每个状态出现的后验概率。

S204、判断得分差值是否大于预设的阈值。

本实施例中，预先设置一个阈值，在获取到得分差值后，就可以将该得分差值与预设的阈值进行比较，以判断当前帧是否为准静音帧。

如果得分差值大于预设的阈值，则执行S205；如果得分差值小于或者等于预设的阈值，则执行S207。

S205、识别出当前帧为准静音帧。

实际应用中，如果得分差值大于预设的阈值，可以说明state A和state B之间的差异比较大，说明当前帧被识别为state B的可能特别小，从而将当前帧识别成准静音帧。

S206、利用第一标志位标记当前帧，其中，所述第一标志位用于指示出在解码时不需要对当前帧进行解码。

本实施例中，预先设置有两个标志位，分别为第一标志位和第二标志位。其中，第一标志位用于指示出在解码时不需要对当前帧进行解码。第二标志位用于指示出在解码时需要对当前帧进行解码。

在识别出当前帧为准静音帧后，就可以利用第一标志位标记当前帧。当对当前帧进行解码时，可以根据当前帧的标志位确定是否为当前帧进行解码。此处，当前帧的标志位为第一标志位，则在解码时就可以确定对当前帧不进行解码，可以跳过当前帧。

S207、识别出当前帧为伪静音帧。

实际应用中，如果得分差值小于或者等于预设的阈值，可以说明state A和stateB之间的差异不大，说明当前帧被识别为state B的可能特别相对较高，可能当前帧还是会携带语音，从而将当前帧识别成伪静音帧。

S208、利用第二标志位标记当前帧，其中，所述第二标志位指示出在解码时需要对当前帧进行解码。

在识别出当前帧为伪静音帧后，就可以利用第二标志位标记当前帧。当对当前帧进行解码时，可以根据当前帧的标志位确定是否为当前帧进行解码。此处，当前帧的标志位为第二标志位，则在解码时可以确定需要对当前帧进行解码。

S209、识别出当前帧为语音帧。

本实施例中，可以预先利用识别成空白标识的所有状态标识生成一个列表或者关联关系。进一步地，在上述列表或者关联关系中查询state A对应的状态标识时，如果在上述列表或者关联关系中未查询到state A对应的状态标识，则可以确定出state A对应的状态标识为非空白标识，此时可以识别出当前帧为语音帧。

进一步地，在识别出当前帧为语音帧后，说明在解码时对当前帧进行解码，以获取到该语音帧携带的内容。本实施例中，在识别出当前帧为语音帧后，就可以利用第二标志位标记当前帧，即执行S208。当对当前帧进行解码时，可以根据当前帧的标志位确定是否为当前帧进行解码。此处，当前帧的标志位为第二标志位，则在解码时可以确定需要对当前帧进行解码。

S103、在解码时跳过当前帧，不对当前帧进行解码。

本实施例中，在识别出当前帧为准静音帧时，说明当前帧中不携带相关内容或者不携带任何内容，则可以在解码时跳过当前帧，不对当前帧进行解码，从而可以提升解码的速度，加快对语音包的识别。

S104、在解码时对当前帧进行解码。

本实施例中，当识别出当前帧不是准静音帧时，说明当前帧携带一定的语音，为了保证解码出的信息不失真，需要对当前帧进行解码。

本实施例提供的基于人工智能的语音处理方法，利用声学模型对待解码的语音包中的当前帧进行打分，根据打分结果识别当前帧是否为准静音帧，如果识别出当前帧为准静音帧，在解码时跳过当前帧。本实施例中，在对待解码的语音包的当前帧进行解码之前，根据声学模型的打分结果识别出当前帧是否需要解码，当不需要解码时，在解码时跳过当前帧，从而可以避免冗余解码，提升解码的速度，加快对待解码的语音包的识别。

图3为本发明实施例提供的另一种基于人工智能的语音处理方法的流程示意图。如图3所示，该基于人工智能的语音处理方法包括以下步骤：

S301、从待解码的语音包中获取当前帧。

S302、判断当前帧是否为待解码的语音包中的前三帧中的一帧。

在获取到待解码的语音包的当前帧之后，判断当前帧是否为待解码的语音包的前三帧。具体地，可以对当前帧进行统计计数，可以通过计数值来判断当前帧是否为待解码的语音包中的前三帧中的一帧。

如果判断结果为当前帧不是待解码的语音包中的前三帧中的一帧，则执行S303；如果判断结果为当前帧是待解码的语音包中的前三帧中的一帧，则执行S314即利用第二标志位标记当前帧。

本实施例中，为了使待解码的语音包能够顺利进入解码器，需要对该语音包中的前三帧进行解码，则在判断出当前帧为该语音包中的前三帧中的一帧时，则利用第二标志位标记当前帧，在解码时识别出该第二标志位后，就会对当前帧进行解码。

S303、判断当前帧是否为待解码的语音包中的最后一帧。

如果判断结果为当前帧不是待解码的语音包中的最后一帧，则执行S304如果判断结果为当前帧是待解码的语音包中的最后一帧，则执行S314即利用第二标志位标记当前帧。

实际应用中，当下一个待解码的语音包第一帧为语音帧时，为了能够使该语音帧能够真实地反应所携带的内容，需要对当前的待解码的语音包中的最后一帧进行解码。在判断出当前帧不是待解码的语音包中的前三帧中的一帧后，进一步地，判断当前帧是否为待解码的语音包的最后一帧。具体地，一个待解码的语音包所包含的帧个数可以预设获取到，根据统计计数能确定出当前帧是否为最后一帧。可选地，可以在获取到当前帧之后，如果继续获取到下一帧，则说明当前帧不是最后一帧。可选地，待解码的语音包中在结束时可能携带一个结束标识符，如果在获取到当前帧之后，如果当前帧携带该结束标识符，则说明当前帧标识最后一帧。

当下一个待解码的语音包第一帧为语音帧时，为了能够使该语音帧能够真实地反应所携带的内容，需要对当前的待解码的语音包中的最后一帧进行解码。本实施例中，则利用第二标志位标记当前帧，在解码时识别出该第二标志位后，就会对当前帧进行解码。

S304、判断与当前帧相邻的前一帧是否为语音帧。

本实施例中，为了能够保证语音帧真实地反应所携带的内容，在对当前帧进行声学模型打分时，还需要判断与当前帧相邻的前一帧是否为语音帧，如果判断结果为与当前帧相邻的前一帧为非语音帧，则执行S305；如果该前一帧为语音帧，则执行S314即利用第二标志位标记当前帧。

一般情况下，当一个帧为语音帧时，该语音帧的前一帧和后一帧是与该语音帧为关联的帧，在对该语音帧进行解码需要对相邻的前一帧和后一帧进行解码。

S305、利用声学模型对当前帧进行打分。

具体过程可参见上述实施例中相关内容的记载，此处不再赘述。

S306、根据打分结果获取当前帧的最优隐状态和次优隐状态。

S307、判断最优隐状态对应的状态标识是否为空白标识。

如果判断结果为最优隐状态对应的状态标识为空白标识，则执行S308；如果判断结果为最优隐状态对应的状态标识非空白标识，则执行S313

S308、获取最优隐状态和次优隐状态之间的得分差值。

S309、判断得分差值是否大于预设的阈值。

如果判断结果为得分差值大于预设的阈值，则执行S310；如果判断结果为得分差值小于或者等于预设的阈值，则执行S312。

S306～S309的具体介绍，可参见上述实施例中相关内容的记载，此处不再赘述。

S310、识别出当前帧为准静音帧

S311、利用第一标志位标记当前帧。

进一步地，当利用第一标志位对准静音帧标记完成后，就可以执行S317，即在解码时按照当前帧的标记位进行解码。

S312、识别出当前帧为伪静音帧。

在识别出当前帧为伪静音帧时，则执行S314。

S313、识别出当前帧为语音帧。

当S307中判断出最优隐状态对应的状态标识非空白标识，则执行该S313，继续执行S314。

S314、利用第二标志位标记当前帧。

利用第二标志位标记对为语音帧的当前帧进行标记后，继续执行S315。

S315、获取与当前帧相邻的前一帧对应的标志位。

S316、如果前一帧对应的标志位为第一标志位，则将前一帧的标志位调整成第二标志位。

在当前帧为语音帧时，为了保证该语音帧能够真实地反映出所携带的信息，需要对当前帧相邻的前一帧和后一帧进行解码。本实施例中，由于在当前帧处理完成后，会将后一帧作为当前帧进行处理，而且后一帧在处理的过程中，会执行S304即判定后一帧的前一帧即当前帧是否为语音帧，如果为语音帧则利用第二标志位标记该后一帧。因此，本实施例中，只需要对与当前帧相邻的前一帧对应的标志位进行调整。即在获取到前一帧对应的标志位为第一标志位时，则将前一帧的标志位调整为第二标志位，从而在解码到前一帧时就会对前一帧进行解码，以便于可以在当前帧为语音帧时，能够正确地解码出所携带的实际信息。本实施例中，在当前帧为语音帧时，需要对该语音帧相邻的前后一帧进行解码，从而能够正确地解码出所携带的实际信息。

图4为本发明实施例提供的一种待解码的语音包中各帧解码时的示意图。如图4所示，虚线表示跳帧，实现表示不跳帧。待解码的语音包的前三帧f₁～f₃均需要解码，f_j一个语音帧的则该语音帧的前一帧f_i和后一帧f_k都需要解码。然后f_l、f_m均为一个准静音帧，此处需要进行跳帧，直到出现一个标记为第二标志位的一个帧出现，则继续对这一帧解码。当解码到最后一个帧时，需要对最后一帧f_final进行解码。在该示意图中可以看出，在对待解码的语音包进行解码时，可以跳过准静音帧，从而能够加速解码，提升语音识别的速度。

图5为本发明实施例提供的一种CTC建模单元的拓扑图。在该拓扑图中，包括状态单元和空白单元，其中，状态单元中包括除了被识别出空白状态的其他状态。其中，空白状态就是被标记为空白标识对应的状态。

待解码的语音包进入CTC建模中，可以通过该状态单元直接输出，也可以在通过状态单元后进入空白单元，经过空白单元后再输出。当语音包中连续出现同一个状态时，可以在状态单元进行自跳。当语音包中连续出现空白状态时，可以在空白单元中进行自跳。

图6为本发明实施例提供的另一种CTC建模单元的拓扑图。图6所示的拓扑图，为图5所示拓扑图的等价形式。由于空白单元是无意义的，就是没有任何的物理意义，这个单元就是硬引入来的，如图6所示，虚线表示的空白单元可以被去除掉。即将空白单元对应的空白状态也设置在状态单元中，这样就可以当出现空白状态时，就可以通过状态单元直接输出。连续同一状态或者连续空白状态，通过状态单元的自跳完成。

S317、在解码时按照当前帧的标记位进行解码。

具体地，在解码时，如果当前帧的标记位为第一标记位，则跳过当前帧，即不对当前帧进行解码，如果当前帧的标记位为第二标记位，则对当前帧进行解码。

本实施例提供的基于人工智能的语音处理方法，利用声学模型对待解码的语音包中的当前帧进行打分，根据打分结果识别当前帧是否为准静音帧，如果识别出当前帧为准静音帧，在解码时跳过当前帧。本实施例中，在对待解码的语音包的当前帧进行解码之前，根据声学模型的打分结果识别出当前帧是否需要解码，当不需要解码时，在解码时跳过当前帧，从而可以避免冗余解码，提升解码的速度，加快对待解码的语音包的识别。进一步地，在当前帧为语音帧时，需要对该语音帧相邻的前后一帧进行解码，从而能够正确地解码出所携带的实际信息。

图7为本发明实施例提供的一种基于人工智能的语音处理装置的结构示意图。如图7所示，该基于人工智能的语音处理装置包括：打分模块11、识别模块12和解码模块13。

其中，打分模块11，用于利用声学模型对待解码的语音包中的当前帧进行打分。

识别模块12，根据打分结果识别当前帧是否为准静音帧。

解码模块13，用于如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码。

图8为本发明实施例提供的一种识别模块的结构示意图。如图8所示，该识别模块12包括：第一获取单元121、第二获取单元122、识别单元123和标记单元124。

其中，第一获取单元121，用于根据所述打分结果获取当前帧的最优隐状态和次优隐状态。

第二获取单元122，用于当所述最优隐状态对应的状态标识为空白标识时，获取所述最优隐状态和所述次优隐状态之间的得分差值。

识别单元123，用于如果所述得分差值大于预设的阈值，则识别出当前帧为准静音帧。

标记单元124，用于利用第一标志位标记当前帧，其中，所述第一标志位用于指示出在解码时不需要对当前帧进行解码。

进一步地，识别单元123，还用于如果所述得分差值小于或者等于所述阈值，则识别出当前帧为伪静音帧。

标记单元124，还用于利用第二标志位标记当前帧，其中，所述第二标志位用于指示出在解码时需要对当前帧进行解码。

进一步地，识别单元123，还用于当所述最优隐状态对应的状态标识为非空白标识时，识别出当前帧为语音帧。

标记单元124，还用于利用所述第二标志位标记当前帧。

图9为本发明实施例提供的一种打分模块的结构示意图。如图9所示，该打分模块11包括：判断单元111和打分单元112。

其中，判断单元111，用于判断与当前帧相邻的前一帧是否为语音帧。

打分单元112，用于如果判断结果为所述前一帧非语音帧，则利用所述声学模型对当前帧进行打分。

标记单元124，还用于在所述判断单元111的判断结果为所述前一帧为语音帧，利用所述第二标志位标记当前帧。

进一步地，识别模块12还包括：第三获取单元125和调整单元126。

第三获取单元125，用于所述识别单元当所述最优隐状态对应的状态标识为非空白标识时，所述识别单元123识别出当前帧为语音帧之后，获取所述前一帧对应的标志位。

调整单元126，用于如果所述前一帧对应的标志位为所述第一标志位，则利用所述第二标志位重新标记所述前一帧。

进一步地，基于人工智能的语音处理装置还包括：判断模块14。

判断模块14，用于判断当前帧是否为所述语音包中的前三帧中的一帧，以及在判断出当前帧非语音包中的前三帧中的一帧，判断当前帧是否为所述语音包中的最后一帧。

标记单元124，用于如果判断出当前帧为语音包中的前三帧中的一帧，或者当前帧为语音包中的最后一帧，利用第二标志位标记当前帧，其中，所述第二标志位用于指示出在解码时需要对当前帧进行解码。

本实施例提供的基于人工智能的语音处理装置，通过利用声学模型对待解码的语音包中的当前帧进行打分，根据打分结果识别当前帧是否为准静音帧，如果识别出当前帧为准静音帧，在解码时跳过当前帧。本实施例中，在对待解码的语音包的当前帧进行解码之前，根据声学模型的打分结果识别出当前帧是否需要解码，当不需要解码时，在解码时跳过当前帧，从而可以避免冗余解码，提升解码的速度，加快对待解码的语音包的识别。进一步地，在当前帧为语音帧时，需要对该语音帧相邻的前后一帧进行解码，从而能够正确地解码出所携带的实际信息。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音处理方法，其特征在于，包括：

利用声学模型对待解码的语音包中的当前帧进行打分；

根据打分结果识别当前帧是否为准静音帧；

如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码；

其中，所述根据打分结果识别当前帧是否为准静音帧，包括：

根据所述打分结果获取当前帧的最优隐状态和次优隐状态；

当所述最优隐状态对应的状态标识为空白标识时，获取所述最优隐状态和所述次优隐状态之间的得分差值；

如果所述得分差值大于预设的阈值，则识别出当前帧为准静音帧；

利用第一标志位标记当前帧，其中，所述第一标志位用于指示出在解码时不需要对当前帧进行解码。

2.根据权利要求1所述的基于人工智能的语音处理方法，其特征在于，还包括：

如果所述得分差值小于或者等于所述阈值，则识别出当前帧为伪静音帧；

利用第二标志位标记当前帧，其中，所述第二标志位用于指示出在解码时需要对当前帧进行解码。

3.根据权利要求2所述的基于人工智能的语音处理方法，其特征在于，还包括：

当所述最优隐状态对应的状态标识为非空白标识时，识别出当前帧为语音帧；

利用所述第二标志位标记当前帧。

4.根据权利要求3所述的基于人工智能的语音处理方法，其特征在于，所述利用声学模型对待解码的语音包中的当前帧进行打分，包括：

判断与当前帧相邻的前一帧是否为语音帧；

如果判断结果为所述前一帧为语音帧，利用所述第二标志位标记当前帧；

如果判断结果为所述前一帧非语音帧，则利用所述声学模型对当前帧进行打分。

5.根据权利要求4所述的基于人工智能的语音处理方法，其特征在于，所述当所述最优隐状态对应的标识为非空白标识时，识别出当前帧为语音帧之后，还包括：

获取所述前一帧对应的标志位；

如果所述前一帧对应的标志位为所述第一标志位，则利用所述第二标志位重新标记所述前一帧。

6.根据权利要求1-5任一项所述的基于人工智能的语音处理方法，其特征在于，所述利用声学模型对待解码的语音包中的当前帧进行打分之前，包括：

判断当前帧是否为所述语音包中的前三帧中的一帧；

如果判断出当前帧为语音包中的前三帧中的一帧，利用第二标志位标记当前帧，其中，所述第二标志位指示出在解码时需要对当前帧进行解码；

如果判断出当前帧非语音包中的前三帧中的一帧，判断当前帧是否为所述语音包中的最后一帧；

如果判断出当前帧为语音包中的最后一帧，利用所述第二标志位标记当前帧。

7.一种基于人工智能的语音处理装置，其特征在于，包括：

识别模块，根据打分结果识别当前帧是否为准静音帧；

解码模块，用于如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码；

其中，所述识别模块，包括：

第一获取单元，用于根据所述打分结果获取当前帧的最优隐状态和次优隐状态；

第二获取单元，用于当所述最优隐状态对应的状态标识为空白标识时，获取所述最优隐状态和所述次优隐状态之间的得分差值；

识别单元，用于如果所述得分差值大于预设的阈值，则识别出当前帧为准静音帧；

标记单元，用于利用第一标志位标记当前帧，其中，所述第一标志位用于指示出在解码时不需要对当前帧进行解码。

8.根据权利要求7所述的基于人工智能的语音处理装置，其特征在于，所述识别单元，还用于如果所述得分差值小于或者等于所述阈值，则识别出当前帧为伪静音帧；

所述标记单元，还用于利用第二标志位标记当前帧，其中，所述第二标志位用于指示出在解码时需要对当前帧进行解码。

9.根据权利要求8所述的基于人工智能的语音处理装置，其特征在于，所述识别单元，还用于当所述最优隐状态对应的状态标识为非空白标识时，识别出当前帧为语音帧；

所述标记单元，还用于利用所述第二标志位标记当前帧。

10.根据权利要求9所述的基于人工智能的语音处理装置，其特征在于，所述打分模块，包括：判断单元和打分单元；

所述判断单元，用于判断与当前帧相邻的前一帧是否为语音帧；

所述打分单元，用于如果判断结果为所述前一帧非语音帧，则利用所述声学模型对当前帧进行打分；

所述标记单元，还用于在所述判断单元的判断结果为所述前一帧为语音帧，利用所述第二标志位标记当前帧。

11.根据权利要求10所述的基于人工智能的语音处理装置，其特征在于，所述识别模块，还包括：

第三获取单元，用于当所述最优隐状态对应的状态标识为非空白标识时，识别出当前帧为语音帧之后，获取所述前一帧对应的标志位；

所述标记单元，用于如果所述前一帧对应的标志位为所述第一标志位，则利用所述第二标志位重新标记所述前一帧。

12.根据权利要求7-11任一项所述的基于人工智能的语音处理装置，其特征在于，还包括：

判断模块，用于判断当前帧是否为所述语音包中的前三帧中的一帧，以及在判断出当前帧非语音包中的前三帧中的一帧，判断当前帧是否为所述语音包中的最后一帧；

标记单元，用于如果判断出当前帧为语音包中的前三帧中的一帧，或者当前帧为语音包中的最后一帧，利用第二标志位标记当前帧，其中，所述第二标志位用于指示出在解码时需要对当前帧进行解码。