CN103730118B

CN103730118B - 语音信号采集方法和移动终端

Info

Publication number: CN103730118B
Application number: CN201210385081.2A
Authority: CN
Inventors: 刘俊启
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-10-11
Filing date: 2012-10-11
Publication date: 2017-03-15
Anticipated expiration: 2032-10-11
Also published as: CN103730118A

Abstract

本发明提出一种语音信号采集方法和移动终端，其中所述方法包括以下步骤：采集用户的语音信号，并根据语音信号维护用户对应的阀值信息；在进入语音识别模式之后，采集用户输入的语音输入信号；以及根据阀值信息判断语音输入信号中的采集开始点和采集结束点，以对采集开始点和采集结束点之间的语音输入信号进行识别。根据本发明实施例的方法，通过用户的语音信号维护对应的阈值信息，使得阈值信息随着用户、环境等因素的不同而不同，根据阈值信息判断确定的语音输入信号中的采集开始点和采集结束点准确，能够准确划分有效语音数据，提高识别结果准确率，减少网络传输数据量，提升用户体验。

Description

语音信号采集方法和移动终端

技术领域

本发明涉及信息处理技术领域，特别涉及一种语音信号采集方法和移动终端。

背景技术

在语音识别过程中，客户端例如移动终端需要将采集的语音数据上传到服务端，由于传输的语音数据量较大，因此只需选择性地上传用户说话的语音数据即有效语音数据。目前，可以通过设置阈值，并判断语音能量与阈值的大小确定用户说话的开始点和结束点以确定用户说话的语音数据，例如语音能量小于阀值至语音能量大于阀值，可以确定为开始说话，语音能量大于阀值至语音能量小于阀值且持续一段时间状态不变，可以确定为结束说话，开始说话到结束说话之间产生的语音作即为有效语音数据。

目前存在的问题是，设置的阀值不通用，容易受到多种因素的影响，不能准确划分有效语音数据，识别结果不精确，导致网络传输量大，用户体验差，例如受到用户群体的影响，有人说话声大，有人说话声小，又受到客户端系统的硬性，不同的硬件导致录音的音量不同，如果阀值设置太小会将背景音认为有效数据，影响识别结果，如果阀值定义太大，开始说话的时间点监测不准确等。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的一个目的在于提出一种语音信号采集方法，该方法能够准确划分有效语音数据，提高识别结果准确率，减少网络传输数据量，提升用户体验。

本发明的另一个目的在于提出一种移动终端。

为达到所述目的，本发明第一方面的实施例公开了一种语音信号采集方法，包括以下步骤：采集用户的语音信号，并根据所述语音信号维护所述用户对应的阀值信息；在进入语音识别模式之后，采集用户输入的语音输入信号；以及根据所述阀值信息判断所述语音输入信号中的采集开始点和采集结束点，以对所述采集开始点和所述采集结束点之间的语音输入信号进行识别。

根据本发明实施例的语音信号采集方法，通过用户的语音信号维护对应的阈值信息，使得阈值信息随着用户、环境等因素的不同而不同，根据阈值信息判断确定的语音输入信号中的采集开始点和采集结束点准确，能够准确划分有效语音数据，提高识别结果准确率，减少网络传输数据量，提升用户体验。

为达到所述目的，本发明第二方面的实施例公开了一种移动终端，包括：维护模块，用于采集用户的语音信号，并根据所述语音信号维护所述用户对应的阀值信息；采集模块，用于进入语音识别模式之后，采集用户输入的语音输入信号；以及判断模块，用于根据所述阀值信息判断所述语音输入信号中的采集开始点和采集结束点，以对所述采集开始点和所述采集结束点之间的语音输入信号进行识别。

根据本发明实施例的移动终端，通过维护模块根据用户的语音信号维护对应的阈值信息，使得阈值信息随着用户、环境等因素的不同而不同，根据阈值信息判断确定的语音输入信号中的采集开始点和采集结束点准确，能够准确划分有效语音数据，提高识别结果准确率，减少网络传输数据量，提升用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明所述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的语音信号采集方法的流程图；

图2为根据本发明又一个实施例的信息推送方法的流程图；

图3为根据本发明一个具体实施例的信息推送方法的流程图；

图4为根据本发明又一个具体实施例的信息推送方法的流程图；

图5为根据本发明一个实施例的移动终端的结构示意图；

图6为根据本发明又一个实施例的移动终端的结构示意图；

图7为根据本发明一个具体实施例的移动终端的结构示意图；以及

图8为根据本发明又一个具体实施例的移动终端的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

下面参考附图描述根据本发明实施例的语音信号采集方法和移动终端。

由于判断语音输入信号中的采集开始点和采集结束点的所需的阈值因为用户特性、硬件设备以及环境等因素的影响无法唯一确定，因此需要动态调整阈值，为此一种语音信号采集方法，包括以下步骤：采集用户的语音信号，并根据语音信号维护用户对应的阀值信息；在进入语音识别模式之后，采集用户输入的语音输入信号；以及根据阀值信息判断语音输入信号中的采集开始点和采集结束点，以对采集开始点和采集结束点之间的语音输入信号进行识别。

图1为根据本发明一个实施例的语音信号采集方法的流程图。

如图1所示，根据本发明实施例的语音信号采集方法包括下述步骤。

步骤S101，采集用户的语音信号，并根据语音信号维护用户对应的阀值信息。

具体地，首先在初始时设置基本阈值信息，然后采集用户的语音信息对基本阈值信息进行维护，例如，可在用户打电话时采集用户的语音信号，计算所采集的语音信号的平均能量值及背景语音能量值，从而更新基本阈值信息获得具有该用户个性的阀值信息，由此使得不同的用户对应不同的阀值信息。

步骤S102，在进入语音识别模式之后，采集用户输入的语音输入信号。

步骤S103，根据阀值信息判断语音输入信号中的采集开始点和采集结束点，以对采集开始点和采集结束点之间的语音输入信号进行识别。

具体地，首先获取语音输入信号的能量值，能量值反映语音数据的自身特征，如声音大小、高低等，并将能量值与阈值信息进行比较以确定采集开始点和采集结束点。例如，将语音输入信号的能量值由小于阀值状态变为大于阀值状态的点记为采集开始点，语音输入信号的能量值由大于阀值状态变为小于阀值状态的点记为采集结束点。

图2为根据本发明又一个实施例的语音信号采集方法的流程图。

如图2所示，根据本发明实施例的语音信号采集方法包括下述步骤。

步骤S201，采集用户的语音信号，并根据语音信号维护用户对应的阀值信息。

具体地，首先在初始时设置基本阈值信息，然后采集用户的语音信息对基本阈值信息进行维护。

步骤S202，对语音信号进行分析以获得用户的声纹信息，并建立声纹信息与阀值信息之间的对应关系。

其中，声纹信息具有特定性且相对稳定，每个用户对应的声纹信息是不变的，根据声纹信息与阈值信息建立对应关系，可以区分不同的用户。

步骤S203，在进入语音识别模式之后，采集用户输入的语音输入信号。

步骤S204，在采集语音输入信号之后，根据语音输入信号获得对应的声纹信息。

步骤S205，根据语音输入信号对应的声纹信息查找对应的阀值信息。

步骤S206，根据阀值信息判断语音输入信号中的采集开始点和采集结束点，以对采集开始点和采集结束点之间的语音输入信号进行识别。

根据本发明实施例的语音信号采集方法，根据语音输入信号的声纹信息确定对应的阀值信息以确定采集开始点和采集结束点，由于声纹信息具有特定性，可以区分不同用户的语音输入信号，有效语音数据划分更准确，识别结果准确率更高。

由于阀值信息可以是绝对阀值信息或者相对阀值信息，因此在根据阀值信息判断所述语音输入信号中的采集开始点和采集结束点的过程不同，下面结合图3和图4分别说明在不同阈值信息时采集开始点和采集结束点的确定过程，应当理解，图3和图4所述的实施例可以分别实施，也可同时存在，用户可以择一实施。

图3为根据本发明一个具体实施例的语音信号采集方法的流程图。

如图3所示，根据本发明实施例的语音信号采集方法包括下述步骤。

步骤S301，采集用户的语音信号，并根据语音信号维护用户对应的阀值信息。

在本发明的一个实施例中，阀值信息为绝对阀值信息，绝对阀值信息为用户的语音信号的平均能量值。

步骤S302，对语音信号进行分析以获得用户的声纹信息，并建立声纹信息与阀值信息之间的对应关系。

步骤S303，在进入语音识别模式之后，采集用户输入的语音输入信号。

步骤S304，在采集语音输入信号之后，根据语音输入信号获得对应的声纹信息。

步骤S305，根据语音输入信号对应的声纹信息查找对应的阀值信息。

步骤S306，对语音输入信号进行采样，并计算每个采样点的能量值。

步骤S307，如果采样点且后续采样点的能量值大于绝对阀值信息，且判断采样点为采集开始点，并且在采集开始点之后如果采样点且后续采样点的能量值小于绝对阀值信息，且判断采样点为采集结束点。

在本发明的一个实施例中，步骤S302、步骤S304和步骤S305是可选的。

根据本发明实施例的语音信号采集方法，可以实现通过绝对阀值信息确定采集开始点和结束点，判断过程简单快捷，使有效语音数据划分更准确，识别结果准确率更高。

图4为根据本发明又一个具体实施例的语音信号采集方法的流程图。

如图4所示，根据本发明实施例的语音信号采集方法包括下述步骤。

步骤S401，采集用户的语音信号，并根据语音信号维护用户对应的阀值信息。

在本发明的一个实施例中，阀值信息为相对阀值信息，相对阀值信息为用户的语音信号的平均能量值与背景语音能量值之差。

步骤S402，对语音信号进行分析以获得用户的声纹信息，并建立声纹信息与阀值信息之间的对应关系。

步骤S403，在进入语音识别模式之后，采集用户输入的语音输入信号。

步骤S404，在采集语音输入信号之后，根据语音输入信号获得对应的声纹信息。

步骤S405，根据语音输入信号对应的声纹信息查找对应的阀值信息。

步骤S406，对语音输入信号进行采样，并计算每个采样点的能量值。

步骤S407，计算采样点与相邻后续采样点之间的能量值之差。

步骤S408，如果相邻采样点与相邻后续采样点之间的能量值之差大于相对阀值信息，则判断采样点为采集开始点或采集结束点。

在本发明的一个实施例中，步骤S402、步骤S404和步骤S405是可选的。

根据本发明实施例的语音信号采集方法，通过相对阀值信息确定采集开始点和结束点，可以消除了背景声音的影响，减少误差，使有效语音数据划分更准确，识别结果准确率更高。

为了实现上述实施例，本发明还提出一种移动终端。

一种移动终端，包括：维护模块，用于采集用户的语音信号，并根据语音信号维护用户对应的阀值信息；采集模块，用于进入语音识别模式后，采集用户输入的语音输入信号；以及判断模块，用于根据阀值信息判断语音输入信号中的采集开始点和采集结束点，以对采集开始点和采集结束点之间的语音输入信号进行识别。

图5为根据本发明一个实施例的移动终端的结构示意图。

如图5所示，根据本发明实施例的移动终端包括：维护模块100、采集模块200和判断模块300。

具体地，维护模块100用于采集用户的语音信号，并根据语音信号维护用户对应的阀值信息。更具体地，首先在初始时设置基本阈值信息，然后维护模块100采集用户的语音信息对基本阈值信息进行维护，例如，可在用户打电话时采集用户的语音信号，计算所采集的语音信号的平均能量值及背景语音能量值，从而更新基本阈值信息获得具有该用户个性的阀值信息，由此使得不同的用户对应不同的阀值信息。

采集模块200用于进入语音识别模式后，采集用户输入的语音输入信号。

判断模块300用于根据阀值信息判断语音输入信号中的采集开始点和采集结束点，以对采集开始点和采集结束点之间的语音输入信号进行识别。更具体地，判断模块300首先获取语音输入信号的能量值，能量值反映语音数据的自身特征，如声音大小、高低等，并将能量值与阈值信息进行比较以确定采集开始点和采集结束点，例如，将语音输入信号的能量值由小于阀值状态变为大于阀值状态的点记为采集开始点，语音输入信号的能量值由大于阀值状态变为小于阀值状态的点记为采集结束点。

图6为根据本发明又一个实施例的移动终端的结构示意图。

如图6所示，在图5所示的基础上根据本发明实施例的移动终端还包括：第一获取模块400、第二获取模块500和查找模块600。

具体地，第一获取模块400用于在采集语音信号后对语音信号进行分析以获得用户的声纹信息，并建立声纹信息与阀值信息之间的对应关系。其中，声纹信息具有特定性且相对稳定，每个用户对应的声纹信息是不变的，根据声纹信息与阈值信息建立对应关系，可以区分不同的用户。

第二获取模块500用于在采集语音输入信号之后，根据语音输入信号获得对应的声纹信息。

查找模块600用于根据语音输入信号对应的声纹信息查找对应的阀值信息。

根据本发明实施例的移动终端，通过第一获取模块和第二获取模块可以根据语音输入信号的声纹信息确定对应的阀值信息以确定采集开始点和采集结束点，由于声纹信息具有特定性，可以区分不同用户的语音输入信号，有效语音数据划分更准确，识别结果准确率更高。

由于阀值信息可以是绝对阀值信息或者相对阀值信息，因此判断模块300在根据阀值信息判断所述语音输入信号中的采集开始点和采集结束点的过程不同，下面结合图7和图8分别说明判断模块300在不同阈值信息时采集开始点和采集结束点的确定过程。

图7为根据本发明一个具体实施例的移动终端的结构示意图。

如图7所示，当阀值信息可以是绝对阀值信息时，在图6所示的基础上根据本发明实施例的移动终端的判断模块300还包括：计算单元310和判断单元320。

具体地，计算单元310用于对语音输入信号进行采样，并计算每个采样点的能量值。判断单元320用于当采样点且后续采样点的能量值大于绝对阀值信息时，判断采样点为采集开始点，并且当采集开始点之后如果采样点且后续采样点的能量值小于绝对阀值信息时，判断采样点为采集结束点。

根据本发明实施例的移动终端，可以实现通过绝对阀值信息确定采集开始点和结束点，判断过程简单快捷，使有效语音数据划分更准确，识别结果准确率更高。

如图8所示，当阀值信息可以是相对阀值信息时，在图6所示的基础上根据本发明实施例的移动终端的判断模块300还包括：第一计算单元330、第二计算单元340和判断单元350。

具体地，第一计算单元330用于对语音输入信号进行采样，并计算每个采样点的能量值。第二计算单元340用于计算采样点与相邻后续采样点之间的能量值之差。判断单元350用于当相邻采样点与相邻后续采样点之间的能量值之差大于相对阀值信息时，判断采样点为采集开始点或采集结束点。

根据本发明实施例的移动终端，通过相对阀值信息确定采集开始点和结束点，可以消除了背景声音的影响，减少误差，使有效语音数据划分更准确，识别结果准确率更高。

应当理解，在本发明的实施例中，移动终端可以是手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对所述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种语音信号采集方法，其特征在于，包括以下步骤：

采集用户的语音信号，对所述语音信号进行分析以获得所述用户的声纹信息，并建立所述声纹信息与阀值信息之间的对应关系；

在进入语音识别模式之后，采集用户输入的语音输入信号，并根据所述语音输入信号获得对应的声纹信息；

根据所述语音输入信号对应的声纹信息查找对应的阀值信息；以及

根据所述阀值信息判断所述语音输入信号中的采集开始点和采集结束点，以对所述采集开始点和所述采集结束点之间的语音输入信号进行识别。

2.如权利要求1所述的语音信号采集方法，其特征在于，所述阀值信息为绝对阀值信息，所述绝对阀值信息为所述用户的语音信号的平均能量值。

3.如权利要求2所述的语音信号采集方法，其特征在于，所述根据阀值信息判断所述语音输入信号中的采集开始点和采集结束点进一步包括：

对所述语音输入信号进行采样，并计算每个采样点的能量值；

如果采样点且后续采样点的能量值大于所述绝对阀值信息，且判断所述采样点为采集开始点，并且在所述采集开始点之后如果采样点且后续采样点的能量值小于所述绝对阀值信息，且判断所述采样点为采集结束点。

4.如权利要求1所述的语音信号采集方法，其特征在于，所述阀值信息为相对阀值信息，所述相对阀值信息为所述用户的语音信号的平均能量值与背景语音能量值之差。

5.如权利要求4所述的语音信号采集方法，其特征在于，所述根据阀值信息判断所述语音输入信号中的采集开始点和采集结束点进一步包括：

计算采样点与相邻后续采样点之间的能量值之差；

如果相邻采样点与相邻后续采样点之间的能量值之差大于所述相对阀值信息，则判断所述采样点为采集开始点或采集结束点。

6.一种移动终端，其特征在于，包括：

维护模块，用于采集用户的语音信号，对所述语音信号进行分析以获得所述用户的声纹信息，并建立所述声纹信息与阀值信息之间的对应关系；

采集模块，用于进入语音识别模式之后，采集用户输入的语音输入信号，并根据所述语音输入信号获得对应的声纹信息；

查找模块，用于根据所述语音输入信号对应的声纹信息查找对应的阀值信息；以及

判断模块，用于根据所述阀值信息判断所述语音输入信号中的采集开始点和采集结束点，以对所述采集开始点和所述采集结束点之间的语音输入信号进行识别。

7.如权利要求6所述的移动终端，其特征在于，所述阀值信息为绝对阀值信息，所述绝对阀值信息为所述用户的语音信号的平均能量值。

8.如权利要求7所述的移动终端，其特征在于，所述判断模块进一步包括：

计算单元，用于对所述语音输入信号进行采样，并计算每个采样点的能量值；以及

判断单元，用于在采样点且后续采样点的能量值大于所述绝对阀值信息时，判断所述采样点为采集开始点，并且所述采集开始点之后，在采样点且后续采样点的能量值小于所述绝对阀值信息时，判断所述采样点为采集结束点。

9.如权利要求6所述的移动终端，其特征在于，所述阀值信息为相对阀值信息，所述相对阀值信息为所述用户的语音信号的平均能量值与背景语音能量值之差。

10.如权利要求9所述的移动终端，其特征在于，所述判断模块进一步包括：

第一计算单元，用于对所述语音输入信号进行采样，并计算每个采样点的能量值；

第二计算单元，用于计算采样点与相邻后续采样点之间的能量值之差；

判断单元，用于在相邻采样点与相邻后续采样点之间的能量值之差大于所述相对阀值信息时，判断所述采样点为采集开始点或采集结束点。