CN109994126A

CN109994126A - 音频消息分段方法、装置、存储介质和电子设备

Info

Publication number: CN109994126A
Application number: CN201910182085.2A
Authority: CN
Inventors: 格日勒图; 陈禹霖
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-07-09

Abstract

本公开涉及一种音频消息分段方法、装置、存储介质和电子设备，以解决相关技术中对音频消息中的特定部分进行定位和播放进度的控制时操作难度大并且精确性较低的技术问题，该方法包括：通过预设的人声识别算法确定即时通讯应用接收到的第一音频消息中是否存在人声；若确定该第一音频消息中存在人声，通过预设的音频分割算法将该第一音频消息转换为一段或多段第二音频消息，该第二音频消息为由连续人声组成的音频消息。能够通过将音频消息分为一段或多段只包含连续人声的音频消息，使用户能够精确定位并反复收听音频消息中的包含人声的段落，降低对音频消息播放进度的控制难度，提高用户体验。

Description

音频消息分段方法、装置、存储介质和电子设备

技术领域

本公开涉及即时通讯应用设计领域，具体地，涉及一种音频消息分段方法、装置、存储介质和电子设备。

背景技术

目前，随着通信技术的飞速发展，通过具备音频消息传输功能的即时通讯应用进行信息交互在人们的生活中越来越普遍。其中，音频消息通常通过消息触发标识被显示在即时通讯应用的用户界面上，并在用户点击消息触发标识时，对相应的音频消息进行播放。对于持续时长较长的音频消息来说，能够以简单的方式控制其播放进度，以对持续时长较长的音频消息中的某一部分音频进行反复收听，成为用户的需求。因此，有效、准确的控制音频消息播放进度的方法对于降低用户操作难度，提高用户体验具有至关重要的价值。

发明内容

本公开的主要目的是提供一种音频消息分段方法、装置、存储介质和电子设备，以解决相关技术中对音频消息中的特定部分进行定位和播放进度的控制时操作难度大并且精确性较低的技术问题。

为了实现上述目的，本公开第一方面提供一种音频消息分段方法，所述方法包括：

通过预设的人声识别算法确定即时通讯应用接收到的第一音频消息中是否存在人声；

若确定所述第一音频消息中存在人声，通过预设的音频分割算法将所述第一音频消息转换为一段或多段第二音频消息，所述第二音频消息为由连续人声组成的音频消息。

可选的，在所述通过预设的音频分割算法将所述第一音频消息转换为一段或多段第二音频消息之后，还包括：

根据每段所述第二音频消息的起始时间点，在所述即时通讯应用的用户界面中依次输出所述一段或多段第二音频消息对应的一个或多个消息触发标识。

可选的，所述通过预设的人声识别算法确定第一音频消息中是否存在人声，包括：

通过预设的人声优化方案对所述即时通讯应用接收到的目标音频消息对应的音频信号进行处理，以获取所述第一音频消息，所述目标音频消息为持续时长超过预设时长的音频消息；

通过所述人声识别算法对所述第一音频消息对应的音频信号进行检测，以确定所述第一音频消息中是否存在人声。

可选的，所述若确定所述第一音频消息中存在人声，通过预设的音频分割算法将所述第一音频消息转换为一段或多段第二音频消息，包括：

通过所述音频分割算法识别所述第一音频消息对应的音频信号中的由连续人声信号组成的非沉默信号段和不包含人声信号的沉默信号段；

删除所述音频信号中的所有所述沉默信号段；

将保留下的每个所述非沉默信号段对应的音频消息作为所述第二音频消息，以获取所述一段或多段第二音频消息。

本公开第二方面提供一种音频消息分段装置，所述装置包括：

人声识别模块，用于通过预设的人声识别算法确定即时通讯应用接收到的第一音频消息中是否存在人声；

音频分割模块，用于通过预设的音频分割算法将所述第一音频消息转换为一段或多段第二音频消息，所述第二音频消息为仅包含连续人声的音频消息。

可选的，所述装置，还包括：

音频输出模块，用于根据每段所述第二音频消息的起始时间点，在所述即时通讯应用的用户界面中依次输出所述一段或多段第二音频消息对应的一个或多个消息触发标识。

可选的，所述人声识别模块，包括：

信号处理子模块，用于通过预设的人声优化方案对所述即时通讯应用接收到的目标音频消息对应的音频信号进行处理，以获取所述第一音频消息，所述目标音频消息为持续时长超过预设时长的音频消息；

信号检测子模块，用于通过所述人声识别算法对所述第一音频消息对应的音频信号进行检测，以确定所述第一音频消息中是否存在人声。

可选的，所述音频分割模块，包括：

信号识别子模块，用于通过所述音频分割算法识别所述第一音频消息对应的音频信号中的由连续人声信号组成的非沉默信号段和不包含人声信号的沉默信号段；

信号删除子模块，用于删除所述音频信号中的所有所述沉默信号段；

信号确定子模块，用于将保留下的每个所述非沉默信号段对应的音频消息作为所述第二音频消息，以获取所述一段或多段第二音频消息。

本公开第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的音频消息分段方法的步骤。

本公开第四方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面所述的音频消息分段方法的步骤。

采用本公开提供的技术方案，至少可以达到如下技术效果：

通过预设的人声识别算法确定即时通讯应用接收到的第一音频消息中是否存在人声；若确定该第一音频消息中存在人声，通过预设的音频分割算法将该第一音频消息转换为一段或多段第二音频消息，该第二音频消息为由连续人声组成的音频消息。能够通过将音频消息分为一段或多段仅包含连续人声的音频消息，使用户能够精确定位并反复收听音频消息中的包含人声的段落，降低对音频消息播放进度的控制难度，提高用户体验。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种音频消息分段方法的流程图；

图2是根据图1示出的另一种音频消息分段方法的流程图；

图3是根据图2示出的一种人声识别方法的流程图；

图4是根据图2示出的一种音频分割方法的流程图；

图5是根据一示例性实施例示出的一种即时通讯应用的用户界面的示意图；

图6是根据一示例性实施例示出的一种音频消息分段装置的框图；

图7是根据图6示出的另一种音频消息分段装置的框图；

图8是根据图7示出的一种人声识别模块的框图；

图9是根据图7示出的一种音频分割模块的框图；

图10是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

相关技术中，即时通讯应用中音频消息的播放通常为，通过用户点击消息触发标识控制整段音频消息的播放和停止，或者，在音频消息触发标识下方设置进度条和播放/暂停按钮，用户可以通过拖动进度条和点击播放/暂停按钮来控制音频消息的播放。

但是，在用户需要反复收听较长时间段的音频消息中特定时间段的内容来确认信息时，往往只能通过反复点击消息触发标识，以重复整段持续时间较长的音频消息，或者，通过比较粗的手指去拖动消息触发标识下方细窄的进度条来控制音频消息播放进度，操作难度较大，并且精确性较低，用户体验较差。

发明人注意到这一问题，提出了一种新的音频消息分段方法，具体如下：

在介绍本公开提供的音频消息分段方法之前，首先对本公开中各个实施例所涉及的目标应用场景进行介绍，该目标应用场景包括一终端，该终端为能够安装和运行即时通讯应用，并通过该即时通讯应用发送、接收和收听语音消息或者语音短信的终端。该终端可以为，例如，个人电脑、工作站、笔记本电脑、智能手机、平板电脑、智能电视、智能手表、PDA(英文：Personal Digital Assistant，中文：个人数字助理)等终端。

图1是根据一示例性实施例示出的一种音频消息分段方法的流程图，如图1所示，应用于上述应用场景所述的终端，该方法包括以下步骤：

在步骤101中，通过预设的人声识别算法确定即时通讯应用接收到的第一音频消息中是否存在人声。

示例地，该预设的人声识别算法可以为支持向量机、隐马尔可夫模型、动态时间翘曲或人工神经元网络模型等。在通过预设的音频分割算法对经过人声优化处理的第一音频消息进行分割之前，需要先对该第一音频消息进行人声识别，确定第一音频消息中是否存在人声。当确定显示第一音频消息中存在人声时，对该第一音频消息执行后续的音频分割操作。本实施例中使用音频数据形成的特征向量对支持向量机进行训练得到训练好的支持向量机，再通过上述训练好的支持向量机对第一音频消息中是否存在人声进行识别。其中，支持向量机是在分类回归分析中分析数据的监督式学习模型与相关的学习算法，常用于机器学习中。需要说明的是，若通过该人声识别算法确定第一音频消息中不存在人声，则结束当前的音频消息分段步骤，并通过即时通讯应用的用户界面输出该第一音频消息内不存在人声的提示信息。

在步骤102中，通过预设的音频分割算法将该第一音频消息转换为一段或多段第二音频消息。

其中，该第二音频消息为由连续人声组成的音频消息。

示例地，当通过该人声识别算法确定该第一音频消息中存在人声时，利用该预设的音频分割算法对第一音频消息进行分割，得到分割结果，该分割结果包含一段或多段分割后的音频消息，删除其中无人声的音频消息，就可以获取到包含连续人声的一段或多段音频消息(即第二音频消息)。

综上所述，本公开的实施例所提供的技术方案，能够通过预设的人声识别算法确定即时通讯应用接收到的第一音频消息中是否存在人声；若确定该第一音频消息中存在人声，通过预设的音频分割算法将该第一音频消息转换为一段或多段第二音频消息，该第二音频消息为由连续人声组成的音频消息。能够通过将音频消息分为一段或多段仅包含连续人声的音频消息，使用户能够精确定位并反复收听音频消息中的包含人声的段落，降低对音频消息播放进度的控制难度，提高用户体验。

图2是根据图1示出的另一种音频消息分段方法的流程图，如图2所示，在上述步骤102之后，该方法还可以包括：

在步骤103中，根据每段该第二音频消息的起始时间点，在该即时通讯应用的用户界面中依次输出上述一段或多段第二音频消息对应的一个或多个消息触发标识。

示例地，在通过上述步骤101和102对第一音频消息进行人声识别和音频分割之后，得到包含连续人声的一段或多段第二音频消息。将每段第二音频消息按照消息起始时间点进行升序排列，并按照时间先后的顺序将每段第二音频消息对应的消息触发标识(通常为消息气泡)输出至即时通讯应用的用户界面上，以使得用户可以通过点击该消息触发标识播放相应的音频消息。

图3是根据图1示出的一种人声识别方法的流程图，如图3所示，该步骤101可以包括：

在步骤1011中，通过预设的人声优化方案对该即时通讯应用接收到的目标音频消息对应的音频信号进行处理，以获取该第一音频消息。

其中，该目标音频消息为持续时长超过预设时长的音频消息。

示例地，当音频消息的持续时长较长(超过该预设时长)时，可以确定该音频消息为需要进行分割的目标音频消息。在对该目标音频消息进行识别和分割之前，首先需要通过预设的人声优化方案对该目标音频消息中的人声进行优化，即，对该目标音频消息中的人声进行增强和降噪的处理，以使得在后续的步骤1012中更好地对该目标音频消息中的人声进行识别。该人声优化方案可以包括增强人声和去除混响等多种预处理操作中的一种或多种。其中，在进行增强人声的预处理操作时，可以根据该音频消息对应的频域信号中频点的有效性确定语音帧和无人声的静音帧(有效频点对应的音频信号帧为语音帧，无效频点对应的音频信号帧为无人声的静音帧)，并通过自动调整算法对该语音帧进行增益，同时通过非人声噪声幅度计算算法对该静音帧进行降噪，以对音频消息中的人声进行增强。

在步骤1012中，通过该人声识别算法对该第一音频消息对应的音频信号进行检测，以确定该第一音频消息中是否存在人声。

示例地，该人声识别算法包括：对该第一音频消息对应的第一音频数据进行分帧处理；使用P阶线性预测编码(Linear Predictive Coding，简称LPC)分析分帧处理后的每一帧音频数据并提取该音频数据的音频特征，上述音频特征包括短时过零率、P阶LPC预测系数和LPC预测残差幅度谱的偏度和峰度；根据该音频特征形成P+3阶特征向量；通过该P+3阶特征向量对支持向量机进行训练得到训练好的支持向量机；使用该训练好的支持向量机识别上述每一帧音频数据中是否含有人声，得到该第一音频消息的人声识别结果。

示例地，上述的短时过零率是在该帧中的音频信号穿过零点平的次数，可以区分清音和浊音，其中，清音的音频信号中的高频段过零率较高，浊音的低频段过零率较低。另外，上述的LPC是通过分析音频波形来产生声道激励和转移函数的参数，通过LPC，对声音波形的编码实际被转换为对这些参数的编码，进而使得使声音的数据量大大减少。一个语音取样的现在值，可以用若干个语音取样的过去值的加权线性组合来逼近，在线性组合中的加权系数即为LPC预测系数。LPC分析为线性时不变因果稳定系统建立一个全极点模型，并利用均方误差准则，对语音信号进行模型参数估计。如果利用P个取样均值来进行预测，则称为P阶线性预测。若使该P阶线性预测结果最佳，则必须使预测误差最小，最小预测误差可以根据不同的标准进行规定(如根据上述预测误差计算出均方误差，并使均方误差无限逼近于零)；根据最小预测误差值反向求出每一帧音频数据的LPC预测系数；根据每一帧音频数据的预测系数计算该音频数据的预测残差，预测残差幅度谱；利用傅里叶变换得到LPC预测残差幅度谱，进而计算该LPC预测残差幅度谱的偏度以及该LPC预测残差幅度谱的峰度。

另外，需要说明的是，在实际的产品开发中，可以根据软件环境和应用需求采用多种不同的机器学习模型或分类算法对该第一音频消息中的人声进行识别，在本公开实施例中仅以通过支持向量机对音频消息进行分类的步骤为例对上述的人声识别过程进行说明。

图4是根据图1示出的一种音频分割方法的流程图，如图4所示，该步骤102可以包括：

在步骤1021中，通过该音频分割算法识别该第一音频消息对应的音频信号中的由连续人声信号组成的非沉默信号段和不包含人声信号的沉默信号段。

示例地，该音频分割算法可以为沉默/非沉默算法，具体地，该音频分割算法包括：获取上述第一音频消息对应的第一音频信号，每隔预设的时间长度，例如，15秒，对第一音频信号进行分段(若小于15秒则自动分为一段)；计算每段音频信号的能量值；根据分段后每个音频信号段的能量值计算能量平均值μ和能量标准差σ；根据K均值算法计算出沉默信号段的能量平均值μ₁和能量标准差σ₁，以及非沉默信号段的能量平均值μ₂和能量标准差σ₂，进一步地，可以得到沉默信号段和非沉默信号段的能量阈值为(μ₁+(μ₂-μ₁)σ₁)/(σ₁+σ₂)；此后，利用四态自动机根据该能量阈值将所有分段后的信号段分为沉默信号段和非沉默信号段，其中能量值大于或等于该能量阈值的信号段为非沉默信号段，能量值小于该能量阈值的信号段为沉默信号段。需要说明的是，在实际的开发过程中，可以采用不同音频分割算法对该第一音频消息进行分割，在本公开实施例中仅以通过沉默/非沉默算法对音频消息进行分割的步骤为例对上述的人声识别过程进行说明。

在步骤1022中，删除该音频信号中的所有该沉默信号段。

示例地，在上述步骤1021之后，可能会得到一段或多段沉默信号段和/或一段或多段非沉默信号段，此时，将其中所有的沉默信号段删除，只保留非沉默信号段。

在步骤1023中，将保留下的每个该非沉默信号段对应的音频消息作为该第二音频消息，以获取上述一段或多段第二音频消息。

示例地，在上述步骤1022之后，得到被保留下来的一段或多段非沉默信号段，此时，将每个非沉默信号段对应的音频消息都作为第二音频消息，得到分段后的一段或多段第二音频消息。

图5是根据一示例性实施例示出的一种即时通讯应用的用户界面的示意图，如图5所示，时间段较长的音频消息被分割为多个时间段较短的音频消息，这些时间段较短的音频消息即为经过音频分段后得到的音频消息(即上述的第二音频消息)，并以触发标识(此处的触发标识为消息气泡)的形式显示在即时通讯应用的用户界面上，用户可以通过反复点击其中任意音频消息对应的消息气泡，反复收听该段音频消息，达到反复确认该段音频消息中的语音内容的目的。

以图5中显示的该即时通讯应用的用户界面中的第三行的三个消息气泡为例，这三个消息气包对应的音频消息原本为一段时长为43秒的音频消息(其中无人声的音频消息所占的时间为2秒)，通过本公开实施例所提供的音频消息分段方法对这一段音频消息进行处理。

在处理过程中，首先需要确定这一段音频消息的持续时长是否达到预设时长(例如，10秒)，显然，该持续时长为43秒的音频消息超过10秒，在此情况下，可以通过增强人声和去除混响等多种预处理操作对该音频消息对应的音频信号进行处理，以获取经过人声优化的该音频消息。对该音频消息中是否存在人声进行检测，当检测到这段音频消息中不存在人声时，可以不做任何操作直接输出整段该音频消息，并根据需要同时输出该音频消息内不存在人声的提醒消息。当检测到这段音频消息中存在人声时，可以将该持续时长为43秒的音频消息对应的音频信号分割得到五个音频信号段，其中两个音频信号段为不包含人声的沉默信号段，三个音频信号段为包含连续人声的非沉默信号段，将所有的沉默信号段删除，保留所有的非沉默信号段，这样就得到了三个非沉默信号段对应的三段音频消息，这三段音频消息的时长分别为10秒、11秒和20秒。将这三段音频消息按照起始时间点进行升序排列，并将这三段音频消息对应的消息气泡按照时间先后的顺序输出至即时通讯应用的用户界面进行显示，即图5中的用户界面中第三行的三个消息气泡的显示效果。

由此可见，在对该时长为43秒的音频消息进行分段之前，如果在该时长为43秒的音频消息中，35秒-38秒之间含有用户未听清的语音内容，或者用户需要反复确认的重要内容时，用户需要通过反复点击该时长为43秒的音频消息的消息气泡以反复收听整段音频消息，或者拖动该43秒的音频消息下方非常细窄的进度条，使该段音频消息中35秒-38秒之间的音频内容反复播放，上述两种方法难以精确定位在用户需要收听的特定语音消息时段处。但是采用上述方法将该段音频消息分割成时长分别为10秒，11秒，20秒的三段音频消息之后，用户在上述情况下，只需要反复点击该20秒的音频消息对应的消息气泡，就可以反复收听该音频消息中的语音内容直至用户确认该音频消息中的信息。需要说明的是，在实际应用过程中，音频消息在不同的即时通讯应用的用户界面上可能以不同的触发标识进行显示，在本公开实施例中仅以消息气泡的形式为例进行说明。

图6是根据一示例性实施例示出的一种音频消息分段装置的框图，如图6所示，应用于上述应用场景所述的终端，该装置600包括：

人声识别模块610，用于通过预设的人声识别算法确定即时通讯应用接收到的第一音频消息中是否存在人声；

音频分割模块620，用于通过预设的音频分割算法将该第一音频消息转换为一段或多段第二音频消息，该第二音频消息为由连续人声组成的音频消息。

图7是根据图6示出的另一种音频消息分段装置的框图，如图7所示，该装置600还包括：

音频输出模块模块630，用于根据每段该第二音频消息的起始时间点，在该即时通讯应用的用户界面中依次输出该一段或多段第二音频消息对应的一个或多个消息触发标识。

图8是根据图6示出的一种人声识别模块的框图，如图8所示，该人声识别模块610，包括：

信号处理子模块611，用于通过预设的人声优化方案对该即时通讯应用接收到的目标音频消息对应的音频信号进行处理，以获取该第一音频消息，该目标音频消息为持续时长超过预设时长的音频消息；

信号检测子模块612，用于通过该人声识别算法对该第一音频消息对应的音频信号进行检测，以确定该第一音频消息中是否存在人声。

图9是根据图6示出的一种音频分割模块的框图，如图9所示，该音频分割模块620，包括：

信号识别子模块621，用于通过该音频分割算法识别该第一音频消息对应的音频信号中的由连续人声信号组成的非沉默信号段和不包含人声信号的沉默信号段；

信号删除子模块622，用于删除该音频信号中的所有该沉默信号段；

信号确定子模块623，用于将保留下的每个该非沉默信号段对应的音频消息作为该第二音频消息，以获取该一段或多段第二音频消息。

示例地，图10是根据一示例性实施例示出的一种电子设备1000的框图。例如，电子设备1000可以被提供为一终端。参照图10，电子设备1000包括处理器1001，其数量可以为一个或多个，以及存储器1002，用于存储可由处理器1001执行的计算机程序。存储器1002中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1001可以被配置为执行该计算机程序，以执行上述的音频消息分段方法。

另外，电子设备1000还可以包括电源组件1003和通信组件1004，该电源组件1003可以被配置为执行电子设备1000的电源管理，该通信组件1004可以被配置为实现电子设备1000的通信，例如，有线或无线通信。此外，该电子设备1000还可以包括输入/输出(I/O)接口1005。电子设备1000可以操作基于存储在存储器1002的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的音频消息分段方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1002，上述程序指令可由电子设备1000的处理器1001执行以完成上述的音频消息分段方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

Claims

1.一种音频消息分段方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述通过预设的音频分割算法将所述第一音频消息转换为一段或多段第二音频消息之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述通过预设的人声识别算法确定第一音频消息中是否存在人声，包括：

4.根据权利要求1所述的方法，其特征在于，所述若确定所述第一音频消息中存在人声，通过预设的音频分割算法将所述第一音频消息转换为一段或多段第二音频消息，包括：

删除所述音频信号中的所有所述沉默信号段；

5.一种音频消息分段装置，其特征在于，所述装置包括：

音频分割模块，用于通过预设的音频分割算法将所述第一音频消息转换为一段或多段第二音频消息，所述第二音频消息为由连续人声组成的音频消息。

6.根据权利要求5所述的装置，其特征在于，所述装置，还包括：

7.根据权利要求5所述的装置，其特征在于，所述人声识别模块，包括：

8.根据权利要求5所述的装置，其特征在于，所述音频分割模块，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至4中任一项所述方法的步骤。