CN107610718A

CN107610718A - 一种对语音文件内容进行标记的方法及装置

Info

Publication number: CN107610718A
Application number: CN201710757742.2A
Authority: CN
Inventors: 刘华松
Original assignee: Shenzhen Maimaiti Tesco Nationwide Financial Services Inc
Current assignee: Shenzhen Maimaiti Tesco Nationwide Financial Services Inc
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2018-01-19

Abstract

本发明适用于语音文件处理技术领域，提供了一种对语音文件内容进行标记的方法及装置。其中，一种对语音文件内容进行标记的方法包括：识别语音文件中的关键语段，并获取该关键语音段对应的语音参数，再根据预设参数阈值与语音参数的比较结果判断关键语音段是否为目标语音段，如果关键语音段为目标语音段，在语音文件中基于关键语音段进行标记，使得在对若干通话录音进行抽查时，能够根据标记选择播放对应的语音段，无需播放语音文件的全部内容，避免了抽查人员在抽查过程中，因疲劳或抵触心理对服务质量评分的造成的影响，提高了语音文件抽查效率。

Description

一种对语音文件内容进行标记的方法及装置

技术领域

本发明属于语音文件处理技术领域，尤其涉及一种对语音文件内容进行标记的方法及装置。

背景技术

在对呼叫中心的客服人员进行专业考核时，需要对客服人员的通话录音进行抽查。例如，从客服人员在某个季度内处理的所有来电中筛选若干通话录音进行抽查，以对客服人员的服务质量做出评价。

目前，抽查过程中需要抽查人员听完所有被抽查的通话录音，进而给出服务质量评分。然而，抽查人员听了一段时间的通话录音后，容易疲劳和产生抵触心理，即容易影响服务质量评分的客观性和准确性，降低了语音文件抽查效率。

发明内容

有鉴于此，本发明实施例提供了一种对语音文件内容进行标记的方法及装置，以解决现有技术中的问题。

本发明实施例的第一方面提供了一种对语音文件内容进行标记的方法，包括：

识别语音文件中的关键语音段；

获取所述关键语音段对应的语音参数；

根据预设参数阈值与所述语音参数的比较结果，判断所述关键语音段是否为目标语音段；

若所述关键语音段为目标语音段，在所述语音文件中基于所述关键语音段进行标记。

本发明实施例的第二方面提供了一种对语音文件内容进行标记的装置，包括用于执行第一方面所述方法的单元。

本发明实施例的第三方面提供了一种终端，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机程序被处理器执行时实现上述第一方案所述方法的步骤。

本发明实施例通过识别语音文件中的关键语段，并获取该关键语音段对应的语音参数，再根据预设参数阈值与语音参数的比较结果判断关键语音段是否为目标语音段，如果关键语音段为目标语音段，在语音文件中基于关键语音段进行标记，使得在对若干通话录音进行抽查时，能够根据标记选择播放对应的语音段，无需播放语音文件的全部内容，避免了抽查人员在抽查过程中，因疲劳或抵触心理对服务质量评分的造成的影响，提高了语音文件抽查效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种对语音文件内容进行标记的方法的实现流程示意图；

图2是本发明另一实施例提供的一种对语音文件内容进行标记的方法的实现流程示意图；

图3是本发明实施例提供的一种对语音文件内容进行标记的装置的结构示意图；

图4是本发明另一实施例提供的一种对语音文件内容进行标记的装置的结构示意图；

图5是本发明实施例提供的终端的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

参见图1，是本发明实施例提供一种对语音文件内容进行标记的方法的实现流程图，如图1所示对语音文件内容进行标记的方法可包括：

S110：识别语音文件中的关键语音段。

在步骤S110中，语音文件是对呼叫方和被叫方的通话过程进行录音得到的文件。关键语音段用于描述语音文件中有可能被作为服务质量测评参考的语音内容。

需要说明的是，在本实施例中，识别语音文件中的关键语音段，具体可以是通过调用语音识别工具，将语音文件转换成文本文件，从文本文件中的内容识别出目标文字内容，根据该目标文字内容确定对应的关键语音段。还可以是将语音文件按照时间间隔进行分割和提取，进而识别出与目标时间段对应的关键语音段。

可以理解的是，识别语音文件中的关键语音段可以是只包含被叫方语音的语音段，也可以是只包含主叫方语音的语音段，还可以是同时包含被叫方语音和主叫方语音的语音段。容易理解的是，当客户呼入时，客户为主叫方，客服为被叫方；当客服主动呼出时，客服为主叫方，客户为被叫方。

至于何时识别语音文件中的关键语音段，可以包含但不仅限于以下三种场景。

场景1：若检测到对语音业务进行服务质量抽查的预设操作，则识别所述语音文件中的关键语音段。

例如，当检测到语音业务抽查方从目标数据库中获取语音文件时，识别所述语音文件中的关键语音段，其中，所述语音文件作为对语音业务进行服务质量抽查的依据。

场景2：若检测到对语音文件进行抽查标记的操作指令，则识别所述语音文件中的关键语音段。

例如，当检测到将该语音文件标记为对语音业务进行服务质量抽查的依据之一时，识别所述语音文件中的关键语音段。

场景3：若检测到语音文件生成，则识别所述语音文件中的关键语音段。

例如，在办理语音业务过程中对通话进行录音，并在语音业务结束后生成语音文件，当检测到语音文件生成时，则识别所述语音文件中的关键语音段；其中，是否检测到语音文件生成可以通过获取语音文件的默认名称或编号进行确定。

需要说明的是，在检测到语音文件生成后，立即识别语音文件中的关键语音段，进而将识别过程分散化，避免集中识别导致的延时现象。

可以理解的是，识别语音文件中的关键语音段还可以对语音文件进行语音内容分离，即，将主叫方的语音内容与被叫方的语音内容进行分离，分别从主叫方的语音内容中和被叫方的语音内容中识别出关键语音段。

S120：获取所述关键语音段对应的语音参数。

在步骤S120中，语音参数用于描述关键语音段的声学特征，获取语音参数可以通过获取关键语音段的声学波形图，通过对声学波形图进行参数提取，可以得到关键语音段对应的语音参数。

需要说明的是，在本实施例中，由于关键语音段可以为一帧语音信号、两帧语音信号或者多帧语音信号组成的内容。

例如，当关键语音段为关键字语音段时，获取所述关键语音段对应的语音参数可以是获取该关键语音段对应的一帧语音信号的语音参数。

再例如，当关键语音段为关键词语音段或关键句语音段时，获取所述关键语音段对应的语音参数可以是获取该关键语音段对应的两帧语音信号或者多帧语音信号的语音参数。

S130：根据预设参数阈值与所述语音参数的比较结果，判断所述关键语音段是否为目标语音段。

在步骤S130中，目标语音段用于描述语音文件中作为服务质量测评参考的语音内容。

需要说明的是，当语音参数比预设参数阈值大时，判断关键语音段为目标语音段。在语音文件中可能存在不和谐的语音内容，目标语音段包含所有不和谐的语音内容，预设参数阈值作为将该部分不和谐的语音内容筛选出来的标准，用于描述不和谐语音内容的具体特征参数。

在本实施例中，根据预设参数阈值与语音参数的比较结果，判断关键语音段是否为目标语音段，即判断关键语音段是否为不和谐的语音内容。

可以理解的是，当选择的语音参数不同时，预设参数阈值也不同，即预设参数阈值与语音参数类型一一对应。

S140：若所述关键语音段为目标语音段，在所述语音文件中基于所述关键语音段进行标记。

在步骤S140中，在所述语音文件中基于所述关键语音段进行标记，可以根据不同的标记模式在语音文件中以关键语音段的语音参数为依据进行标记。

需要说明的是，作为可能实现的方式之一，在所述语音文件中基于所述关键语音段进行标记，是在语音文件对应的振幅波形图中基于关键语音段进行标记。

可以理解的是，在语音文件对应的振幅波形图中基于关键语音段进行标记，具体可以是进行语音点标记或者语音段标记，通过设置不同形状或者不同颜色图标对语音点标记或者语音段进行标记，或者是对语音点或者语音段进行不同颜色的渲染以起到区分和标记的目的。

以上可以看出，本实施例提供的一种对语音文件内容进行标记的方法，通过识别语音文件中的关键语段，并获取该关键语音段对应的语音参数，再根据预设参数阈值与语音参数的比较结果判断关键语音段是否为目标语音段，如果关键语音段为目标语音段，在语音文件中基于关键语音段进行标记，使得在对若干通话录音进行抽查时，能够根据标记选择播放对应的语音段，无需播放语音文件的全部内容，避免了抽查人员在抽查过程中，因疲劳或抵触心理对服务质量评分的造成的影响，提高了语音文件抽查效率。

参见图2，图2是本发明第二实施例提供一种对语音文件内容进行标记的方法的示意流程图。如图2所示，本发明第二实施例提供的对语音文件内容进行标记的方法可包括：

S210：识别语音文件中的关键语音段。

在步骤S210中，语音文件是对呼叫方和被叫方的通话过程进行录音得到的文件。关键语音段用于描述语音文件中有可能被作为服务质量测评参考的语音内容。

可以理解的是，识别语音文件中的关键语音段时，还可以先对语音文件进行语音内容分离，即，将客服的语音内容与客户的语音内容进行分离。在一些实现的方式中，可以仅从客服的语音内容中识别出关键语音段，以保证识别出的关键语音段均属于客服的语音，避免带入客户的语音形成误差。

作为本实施例一种可能实现的方式，步骤S210具体可以包括：对所述语音文件进行文本识别，得到与所述语音文件对应的文本文件；从所述文本文件的内容中查找关键信息；将所述关键信息对应的语音段识别为所述关键语音段。

需要说明的是，关键信息可以包括关键字、关键词或者关键句，其中，关键字可以为语气助词，例如，“唉”、“呀”、“啊”、“吗”或者“吧”等；关键词可以为否定意思或疑问意思的词，例如，“不可以”、“不行”、“不足”、“不能”、“难道”、“是否”、“能不能”或者“是不是”等。关键句可以为关键句型，例如，“因为……所以……”、“不但……还……”、“如果……”或者“是不是……”等。

可以理解的是，将关键信息对应的语音段识别为关键语音段，可以是将关键字、关键词或者关键句所在的语音段识别为关键语音段，进而从整个语音文件中区分出包含有关键信息的多个语音段，便于筛选。

作为本实施例另一种可能实现的方式，步骤S210具体可以包括：识别所述语音文件的语音起始时间点、语音中间时间点以及语音终止时间点；根据所述语音起始时间点、语音中间时间点以及语音终止时间点分别确定起始语音段、中间语段以及终止语段；将所述起始语音段、中间语段以及终止语段识别为所述关键语音段。

需要说明的是，在实际语音服务业务中，客服人员被要求在起始语音段和终止语段中分别被要求使用问候语和结束语，且在中间语音段被要求语气平和。通过识别语音文件的语音起始时间点、语音中间时间点以及语音终止时间点，再根据语音起始时间点、语音中间时间点以及语音终止时间点分别确定起始语音段、中间语段以及终止语段，能够抽查出客服人员在接听语音业务时有没有使用好问候语和结束语，以及语气是否平和。

可以理解的是，语音文件中，起始时间点并非开始录音的时间点，而是首次记录到客服人员说话的时间点，语音中间时间点是语音文件的时间轴上的中点时刻，语音终止时间点也并非停止录音的时间点，而是最后记录完客服人员说话的时间点。

作为本实施例再一种可能实现的方式，步骤S210可以包括：根据所述语音文件的语音起始时间点确定的始语音段；获取所述始语音段对应的目标语音振幅平均值和/或目标语速值；根据所述目标语音振幅平均值和/或所述目标语速值确定关键语音段。其中，根据所述目标语音振幅平均值和/或所述目标语速值确定关键语音段，可以包括：获取除所述始语音段以外的其他语音段中关键信息的第一语音振幅平均值和/或第一语速值，根据目标语音振幅平均值和/或所述目标语速值，与所述第一语音振幅平均值和/或所述第一语速值的比较结果确定关键语音段，其中，所述关键信息包括关键字、关键词或者关键句；当所述第一语音振幅平均值和/或所述第一语速值大于所述目标语音振幅平均值和/或所述目标语速值时，将所述第一语音振幅平均值和/或所述第一语速值对应的关键信息所在的语段识别为关键语音段。

S220：获取所述关键语音段对应的语音参数。

在步骤S220中，语音参数用于描述关键语音段的声学特征，获取语音参数可以通过获取关键语音段的声学波形图，通过对声学波形图进行参数提取，可以得到关键语音段对应的语音参数。

作为本实施例一种可能实现的方式，语音参数可以包括关键语音段的语音振幅平均值和/或语速值，步骤S220具体包括：获取所述关键语音段对应的语音振幅平均值和/或语速值。

需要说明的是，振幅平均值为关键语音段的振幅平均值，即，对关键语音段中的振幅进行求和，再计算该和与关键语音段中振幅个数的商，进而得到振幅平均值。语速值可以根据关键语音段所占据的时间长短来确定，其中，关键语音段对应有预设的时长信息，通过比较实测的时长信息与预设的时长信息，进而可以确定关键语音段的语速值。

以关键信息为关键词为例，获取所述关键语音段对应的语音参数可以对识别到的关键词的振幅进行求和，再根据求得的和与关键词的帧数进行求商计算，得到关键语音段的语音振幅平均值。

作为本实施例另一种可能实现的方式，语音参数还可以包括振幅差值的绝对值和/或振幅比值，步骤S220具体包括：获取所述关键语音段对应振幅差值的绝对值和/或振幅比值。需要说明的是，振幅差值的绝对值为起始语音段对应的第一振幅平均值与中间语段对应的第二振幅平均值之间差值的绝对值，或者振幅差值的绝对值为起始语音段对应的第一振幅平均值与终止语段对应的第三振幅平均值之间差值的绝对值；其中，振幅差值的计算以起始语音段对应的第一振幅平均值为基准，即起始语音段对应的第一振幅平均值为被减数，中间语段对应的第二振幅平均值或者终止语段对应的第三振幅平均值为减数。

振幅比值为起始语音段对应的第一振幅平均值与中间语段对应的第二振幅平均值之间振幅比值，或者振幅比值为起始语音段对应的第一振幅平均值与终止语段对应的第三振幅平均值之间振幅比值。

作为本实施例再一种可能实现的方式，结合步骤S210，将所述第一语音振幅平均值和/或所述第一语速值对应的关键信息所在的语段识别为关键语音段。步骤S220可以包括：将所述关键语音段对应的所述第一语音振幅平均值和/或所述第一语速值识别为所述语音参数。

可以理解的是，在实际应用中，由于语音服务在起始阶段并非矛盾频发阶段，在语音服务的中期或者后期属于矛盾频发阶段，通过计算起始语音段与终止语段之间的振幅差值的绝对值，能够判断在语音服务的后期是否存在不和谐语音，即确认是否在语音服务过程中发生争吵，或者是被服务方语气过于激动等现象。

S230：根据预设参数阈值与所述语音参数的比较结果，判断所述关键语音段是否为目标语音段。

在步骤S230中，目标语音段用于描述语音文件中作为服务质量测评参考的语音内容。

需要说明的是，在语音文件中可能存在不和谐的语音内容，预设参数阈值作为将该部分不和谐的语音内容筛选出来的标准，用于描述不和谐语音内容的具体特征参数。根据预设参数阈值与语音参数的比较结果，判断关键语音段是否为目标语音段，即判断关键语音段是否为不和谐的语音内容。

作为本实施例一种可能实现的方式，关键语音段的语音振幅平均值和/或语速值，步骤S230具体包括：若所述关键语音段的语音振幅平均值和/或语速值等于或大于所述预设参数阈值，则将所述关键语音段识别为目标语音段；若所述关键语音段的语音振幅平均值和/或语速值小于所述预设参数阈值，则不做任何操作。

可以理解的是，在本实施例中对于语音业务服务端来说，预设参数阈值可以是通过采集每个客服人员在正常通话时的语音数据得到，即通过统计每个客服人员在正常说话时的语音振幅和语数，作为对应客服人员的预设参数阈值。

对于语音业务被服务端来说，预设参数阈值可以是通过获取部分或全部被服务端的语音数据得到，即从已有的语音文件中获取部分或全部非客服人员的语音数据。

需要说明的是，在实际中由于语音服务过程中会出现争吵，且争吵过程中被叫方或主叫方都有可能输出能量较大或者语速较快的语音信息，即语音文件中的关键语音段所对应的振幅较大或者语速较快，通过比较关键语音段的语音振幅平均值和/或语速值等于或大于所述预设参数阈值，能够确定关键语音段是否为争吵时记录倒的语音内容。

作为本实施例另一种可能实现的方式，语音参数还可以包括振幅差值的绝对值和/或振幅比值，步骤S230具体包括：若所述振幅差值的绝对值和/或振幅比值小于所述预设参数阈值，则将所述关键语音段识别为目标语音段；若所述振幅差值的绝对值和/或振幅比值等于或大于所述预设参数阈值，则不做任何操作。

需要说明的是，在实际应用中，由于语音服务在起始阶段并非矛盾频发阶段，在语音服务的中期或者后期属于矛盾频发阶段，通过计算起始语音段与终止语段之间的振幅差值的绝对值，能够判断在语音服务的后期是否存在不和谐语音，即确认是否在语音服务过程中发生争吵，或者是被服务方语气过于激动等现象。

可以理解的是，在本实施例中，若关键语音段的语音振幅平均值和/或语速值小于预设参数阈值，则不做任何操作；或者，若振幅差值的绝对值和/或振幅比值等于或大于预设参数阈值，则不做任何操作；能够在关键语音段的基础上，进行进一步筛选，提高了标记的可靠性。

S240：若所述关键语音段为目标语音段，在所述语音文件中基于所述关键语音段进行标记。

在步骤S240中，在所述语音文件中基于所述关键语音段进行标记，是在语音文件对应的振幅波形图中基于关键语音段进行标记。

作为本实施例一种可能实现的方式，步骤S240具体包括：获取所述语音文件对应的振幅波形图；在所述振幅波形图中对所述关键语音段中的所述关键信息进行标记。

需要说明的是，振幅波形图用于描述语音文件的属性和内容位置，通过在振幅波形图中对关键语音段中的关键信息进行标记，便于在对语音文件进行抽查时，通过拖动振幅波形图中的游标，进而播放对应语音内容。

可以理解的是，在振幅波形图中对关键语音段中的关键信息进行标记，其中，关键信息可以遍布于振幅波形图中的任一位置。

结合步骤S220与步骤S230，在执行了步骤S220与S230后，执行步骤S240。例如，获取关键语音段对应的语音振幅平均值和/或语速值；若关键语音段的语音振幅平均值和/或语速值等于或大于预设参数阈值，则将关键语音段识别为目标语音段；获取语音文件对应的振幅波形图；在振幅波形图中对关键语音段中的关键信息进行标记。

作为本实施例另一种可能实现的方式，步骤S240具体包括：分别对所述起始语音段和所述终止语段进行关键信息识别，所述关键信息包括关键字、关键词或者关键句；获取所述语音文件对应的振幅波形图；在所述振幅波形图中对所述起始语音段中的关键信息与所述终止语段中的关键信息进行标记。

需要说明的是，在该可能实现的方式中，标记的位置仅于起始语音段和所述终止语段中，即该标记模式并非对整个语音文件进行标记。

结合步骤S220与步骤S230，在执行了步骤S220与S230后，执行步骤S240。例如，若振幅差值的绝对值和/或振幅比值小于预设参数阈值，则将关键语音段识别为目标语音段；若振幅差值的绝对值和/或振幅比值等于或大于预设参数阈值，则不做任何操作。若振幅差值的绝对值和/或振幅比值小于预设参数阈值，则将关键语音段识别为目标语音段；分别对起始语音段和终止语段进行关键信息识别，关键信息包括关键字、关键词或者关键句；获取语音文件对应的振幅波形图；在振幅波形图中对起始语音段中的关键信息与终止语段中的关键信息进行标记。

可以理解的是，在语音文件中基于关键语音段进行标记时，可以根据不同的业务特征或需求，选择对语音文件的全部内容进行标记，或者对语音文件中的起始语音段和终止语段进行标记。

S250：若所述关键语音段不为目标语音段，则标记所述语音文件中的起始语音段和终止语段。

在步骤S250中，当关键语音段不为目标语音段时，在语音文件中不存在能量较大或者语速较快的语音信息。

需要说明的是，不同业务类型的语音服务发生争吵的可能性也不同，对应不易发生争吵的语音服务中，可以通过对语音文件的起始语音段和终止语段进行标记，进而确定在该业务中，客服人员是否能够按照要求使用问候语或结束语。

可以理解的是，在关键语音段不为目标语音段时，标记语音文件中的起始语音段和终止语段，还能够在语音文件中不存在能量较大或者语速较快的语音信息时，划定何以进行抽查的内容供抽查方进行抽查，不需要重新选择其他语音文件进行标记才能够完成抽查。

以上可以看出，本发明实施例提供的一种对语音文件内容进行标记的方法，通过识别语音文件中的关键语段，并获取该关键语音段对应的语音参数，再根据预设参数阈值与语音参数的比较结果判断关键语音段是否为目标语音段，如果关键语音段为目标语音段，在语音文件中基于关键语音段进行标记，使得在对若干通话录音进行抽查时，能够根据标记选择播放对应的语音段，无需播放语音文件的全部内容，避免了抽查人员在抽查过程中，因疲劳或抵触心理对服务质量评分的造成的影响，提高了语音文件抽查效率。

通过在关键语音段不为目标语音段时，标记语音文件中的起始语音段和终止语段，便于针对不同业务类型的语音服务选择不同的标记方式进行标记。

参见图3，图3是本发明实施例提供的一种对语音文件内容进行标记的装置的示意性框图。本实施例的对语音文件内容进行标记的装置300包括的各单元用于执行图1对应的实施例中的各步骤，具体请参阅图1以及图1对应的实施例中的相关描述，此处不赘述。本实施例的一种对语音文件内容进行标记的装置300包括：识别单元310、获取单元320、判断单元330以及标记单元340。具体地：

识别单元310，用于识别语音文件中的关键语音段。

例如，识别单元310识别语音文件中的关键语音段。

获取单元320，用于获取所述关键语音段对应的语音参数。

例如，获取单元320获取所述关键语音段对应的语音参数。

判断单元330，用于根据预设参数阈值与所述语音参数的比较结果，判断所述关键语音段是否为目标语音段。

例如，判断单元330根据预设参数阈值与所述语音参数的比较结果，判断所述关键语音段是否为目标语音段。

标记单元340，用于若所述关键语音段为目标语音段，则在所述语音文件中基于所述关键语音段进行标记。

例如，标记单元340若所述关键语音段为目标语音段，则在所述语音文件中基于所述关键语音段进行标记。

参见图4，图4是本发明实施例提供的一种对语音文件内容进行标记的装置的示意性框图。本实施例的对语音文件内容进行标记的装置400包括的各单元用于执行图2对应的实施例中的各步骤，具体请参阅图2以及图2对应的实施例中的相关描述，此处不赘述。本实施例的对语音文件内容进行标记的装置400包括：

识别单元410，用于识别语音文件中的关键语音段。

例如，识别单元410识别语音文件中的关键语音段。

进一步地，作为本实施例一种可能实现的方式，识别单元410包括：第一识别单元411、第一查找单元412以及第二识别单元413。具体地：

第一识别单元411用于，对所述语音文件进行文本识别，得到与所述语音文件对应的文本文件。

例如，第一识别单元411对所述语音文件进行文本识别，得到与所述语音文件对应的文本文件。

第一查找单元412，用于从所述文本文件的内容中查找关键信息。

例如，第一查找单元412从所述文本文件的内容中查找关键信息；

第二识别单元413，用于将所述关键信息对应的语音段识别为所述关键语音段。

例如，第二识别单元413将所述关键信息对应的语音段识别为所述关键语音段。

进一步地，作为本实施例另一种可能实现的方式，识别单元410包括：第三识别单元414、确定单元415以及第四识别单元416。具体地：

第三识别单元414，用于识别所述语音文件的语音起始时间点、语音中间时间点以及语音终止时间点。

例如，第三识别单元414识别所述语音文件的语音起始时间点、语音中间时间点以及语音终止时间点。

确定单元415，用于根据所述语音起始时间点、所述语音中间时间点以及所述语音终止时间点分别确定起始语音段、中间语段以及终止语段。

例如，确定单元415根据所述语音起始时间点、所述语音中间时间点以及所述语音终止时间点分别确定起始语音段、中间语段以及终止语段。

第四识别单元416，用于将所述起始语音段、所述中间语段以及所述终止语段识别为所述关键语音段。

例如，第四识别单元416将所述起始语音段、所述中间语段以及所述终止语段识别为所述关键语音段。

作为本实施例再一种可能实现的方式，识别单元410具体用于，根据所述语音文件的语音起始时间点确定的始语音段；获取所述始语音段对应的目标语音振幅平均值和/或目标语速值；根据所述目标语音振幅平均值和/或所述目标语速值确定关键语音段。

获取单元420，用于获取所述关键语音段对应的语音参数。

例如，获取单元420获取所述关键语音段对应的语音参数。

进一步地，作为本实施例一种可能实现的方式，关键语音段的语音振幅平均值和/或语速值，获取单元420具体用于，获取所述关键语音段对应的语音振幅平均值和/或语速值。

例如，获取单元420获取所述关键语音段对应的语音振幅平均值和/或语速值。

进一步地，作为本实施例另一种可能实现的方式，语音参数还可以包括振幅差值的绝对值和/或振幅比值，获取单元420具体用于，获取所述关键语音段对应的绝对值和/或振幅比值。

例如，获取单元420获取所述关键语音段对应的绝对值和/或振幅比值。

进一步地，作为本实施例再一种可能实现的方式，获取单元420具体用于，将所述关键语音段对应的所述第一语音振幅平均值和/或所述第一语速值识别为所述语音参数。

判断单元430，用于根据预设参数阈值与所述语音参数的比较结果，判断所述关键语音段是否为目标语音段。

例如，判断单元430根据预设参数阈值与所述语音参数的比较结果，判断所述关键语音段是否为目标语音段。

进一步地，作为本实施例一种可能实现的方式，关键语音段的语音振幅平均值和/或语速值，判断单元430包括：第五识别单元431和第一执行单元432。

第五识别单元431，用于若所述关键语音段的语音振幅平均值和/或语速值等于或大于所述预设参数阈值，则将所述关键语音段识别为目标语音段。

例如，第五识别单元431若所述关键语音段的语音振幅平均值和/或语速值等于或大于所述预设参数阈值，则将所述关键语音段识别为目标语音段。

第一执行单元432，用于若所述关键语音段的语音振幅平均值和/或语速值小于所述预设参数阈值，则不做任何操作。

例如，第一执行单元432若所述关键语音段的语音振幅平均值和/或语速值小于所述预设参数阈值，则不做任何操作。

进一步地，作为本实施例另一种可能实现的方式，语音参数还可以包括振幅差值的绝对值和/或振幅比值，判断单元430包括：第六识别单元433和第二执行单元434。

第六识别单元433，用于若所述振幅差值的绝对值和/或振幅比值小于所述预设参数阈值，则将所述关键语音段识别为目标语音段。

例如，第六识别单元433若所述振幅差值的绝对值和/或振幅比值小于所述预设参数阈值，则将所述关键语音段识别为目标语音段。

第二执行单元434，用于若所述振幅差值的绝对值和/或振幅比值等于或大于所述预设参数阈值，则不做任何操作。

例如，第二执行单元434若所述振幅差值的绝对值和/或振幅比值等于或大于所述预设参数阈值，则不做任何操作。

标记单元440，用于若所述关键语音段为目标语音段，则在所述语音文件中基于所述关键语音段进行标记。

例如，标记单元440若所述关键语音段为目标语音段，则在所述语音文件中基于所述关键语音段进行标记。

进一步地，作为本实施例一种可能实现的方式，标记单元440包括：第一获取单元441和第一标记单元442。具体地：

第一获取单元441，用于获取所述语音文件对应的振幅波形图。

例如，第一获取单元441获取所述语音文件对应的振幅波形图。

第一标记单元442，用于在所述振幅波形图中对所述关键语音段中的所述关键信息进行标记。

例如，第一标记单元442在所述振幅波形图中对所述关键语音段中的所述关键信息进行标记。

进一步地，作为本实施例另一种可能实现的方式，标记单元440包括：第七识别单元443、第二获取单元444以和第二标记单元445。具体地：

第七识别单元443，用于分别对所述起始语音段和所述终止语段进行关键信息识别，所述关键信息包括关键字、关键词或者关键句。

例如，第七识别单元443分别对所述起始语音段和所述终止语段进行关键信息识别，所述关键信息包括关键字、关键词或者关键句。

第二获取单元444，用于获取所述语音文件对应的振幅波形图。

例如，第二获取单元444获取所述语音文件对应的振幅波形图。

第二标记单元445，用于在所述振幅波形图中对所述起始语音段中的关键信息与所述终止语段中的关键信息进行标记。

例如，第二标记单元445在所述振幅波形图中对所述起始语音段中的关键信息与所述终止语段中的关键信息进行标记。

第三标记单元450，用于若所述关键语音段不为目标语音段，则标记所述语音文件中的起始语音段和终止语段。

例如，第三标记单元450若所述关键语音段不为目标语音段，则标记所述语音文件中的起始语音段和终止语段。

参见图5，是本发明另一实施例提供的一种终端示意框图。如图所示的本实施例中的终端可以包括：一个或多个处理器501；一个或多个输入设备502，一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器502用于存储，计算机程序包括指令，处理器501通过调用存储器502存储的计算机程序执行如下操作：

处理器501用于：识别语音文件中的关键语音段。

处理器501用于：获取所述关键语音段对应的语音参数。

处理器501用于：根据预设参数阈值与所述语音参数的比较结果，判断所述关键语音段是否为目标语音段。

处理器501还用于：若所述关键语音段为目标语音段，在所述语音文件中基于所述关键语音段进行标记。

处理器501还用于：若所述关键语音段不为目标语音段，则标记所述语音文件中的起始语音段和终止语段。

处理器501具体用于：对所述语音文件进行文本识别，得到与所述语音文件对应的文本文件；从所述文本文件的内容中查找关键信息；将所述关键信息对应的语音段识别为所述关键语音段。

处理器501具体用于：识别所述语音文件的语音起始时间点、语音中间时间点以及语音终止时间点；根据所述语音起始时间点、所述语音中间时间点以及所述语音终止时间点分别确定起始语音段、中间语段以及终止语段；将所述起始语音段、所述中间语段以及所述终止语段识别为所述关键语音段。

处理器501具体用于：获取所述关键语音段对应的语音振幅平均值和/或语速值。

处理器501具体用于：获取所述关键语音段对应的绝对值和/或振幅比值。

处理器501具体用于：若所述关键语音段的语音振幅平均值和/或语速值等于或大于所述预设参数阈值，则将所述关键语音段识别为目标语音段；若所述关键语音段的语音振幅平均值和/或语速值小于所述预设参数阈值，则不做任何操作。

处理器501具体用于：若所述振幅差值的绝对值和/或振幅比值小于所述预设参数阈值，则将所述关键语音段识别为目标语音段；若所述振幅差值的绝对值和/或振幅比值等于或大于所述预设参数阈值，则不做任何操作。

处理器501具体用于：获取所述语音文件对应的振幅波形图；在所述振幅波形图中对所述关键语音段中的所述关键信息进行标记。

处理器501具体用于：分别对所述起始语音段和所述终止语段进行关键信息识别，所述关键信息包括关键字、关键词或者关键句；获取所述语音文件对应的振幅波形图；在所述振幅波形图中对所述起始语音段中的关键信息与所述终止语段中的关键信息进行标记。

应当理解，在本发明实施例中，所称处理器501可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备502可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备503可以包括显示器(LCD等)、扬声器等。

该存储器504可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如，存储器504还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器501、输入设备502、输出设备503可执行本发明实施例提供的一种对语音文件内容进行标记的方法的第一实施例和第二实施例中所描述的实现方式，也可执行本发明实施例所描述的设备的实现方式，在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：

识别语音文件中的关键语音段；

获取所述关键语音段对应的语音参数；

若所述关键语音段为目标语音段，则在所述语音文件中基于所述关键语音段进行标记。

所述计算机程序被处理器执行时还实现：若所述关键语音段不为目标语音段，则标记所述语音文件中的起始语音段和终止语段。

所述计算机程序被处理器执行时还实现：

对所述语音文件进行文本识别，得到与所述语音文件对应的文本文件；

从所述文本文件的内容中查找关键信息；

将所述关键信息对应的语音段识别为所述关键语音段。

所述计算机程序被处理器执行时还实现：

识别所述语音文件的语音起始时间点和语音终止时间点；

根据所述语音起始时间点和语音终止时间点分别确定起始语音段和终止语段；

将所述起始语音段和终止语段识别为所述关键语音段。

所述计算机程序被处理器执行时还实现：获取所述关键语音段对应的语音振幅平均值和/或语速值。

所述计算机程序被处理器执行时还实现：若所述关键语音段的语音振幅平均值和/或语速值等于或大于所述预设参数阈值，则将所述关键语音段识别为目标语音段；若所述关键语音段的语音振幅平均值和/或语速值小于所述预设参数阈值，则不做任何操作。

所述计算机程序被处理器执行时还实现：获取所述关键语音段对应的振幅差值的绝对值和/或振幅比值。

所述计算机程序被处理器执行时还实现：若所述振幅差值的绝对值和/或振幅比值小于所述预设参数阈值，则将所述关键语音段识别为目标语音段；若所述振幅差值的绝对值和/或振幅比值等于或大于所述预设参数阈值，则不做任何操作。

所述计算机程序被处理器执行时还实现：获取所述语音文件对应的振幅波形图；在所述振幅波形图中对所述关键语音段中的所述关键信息进行标记。

所述计算机程序被处理器执行时还实现：分别对所述起始语音段和所述终止语段进行关键信息识别，所述关键信息包括关键字、关键词或者关键句；获取所述语音文件对应的振幅波形图；在所述振幅波形图中对所述起始语音段中的关键信息与所述终止语段中的关键信息进行标记。

所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元，例如计算机的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种对语音文件内容进行标记的方法，其特征在于，包括：

识别语音文件中的关键语音段；

获取所述关键语音段对应的语音参数；

2.如权利要求1所述的方法，其特征在于，所述识别语音文件中的关键语音段，包括：

从所述文本文件的内容中查找关键信息；

将所述关键信息对应的语音段识别为所述关键语音段。

3.如权利要求1所述的方法，其特征在于，所述识别语音文件中的关键语音段，包括：

识别所述语音文件的语音起始时间点、语音中间时间点以及语音终止时间点；

根据所述语音起始时间点、所述语音中间时间点以及所述语音终止时间点分别确定起始语音段、中间语段以及终止语段；

将所述起始语音段、所述中间语段以及所述终止语段识别为所述关键语音段。

4.如权利要求1至3任一项所述的方法，其特征在于，所述语音参数包括所述关键语音段的语音振幅平均值和/或语速值；

所述获取所述关键语音段对应的语音参数，包括：

获取所述关键语音段对应的语音振幅平均值和/或语速值；

所述根据预设参数阈值与所述语音参数的比较结果，判断所述关键语音段是否为目标语音段，包括：

若所述关键语音段的语音振幅平均值和/或语速值等于或大于所述预设参数阈值，则将所述关键语音段识别为目标语音段；

若所述关键语音段的语音振幅平均值和/或语速值小于所述预设参数阈值，则不做任何操作。

5.如权利要求3所述的方法，其特征在于，所述语音参数包括振幅差值的绝对值和/或振幅比值，其中，所述振幅差值的绝对值为所述起始语音段对应的第一振幅平均值与所述中间语段对应的第二振幅平均值或者所述终止语段对应的第三振幅平均值之间的振幅差值的绝对值；所述振幅比值为所述起始语音段对应的第一振幅平均值与所述中间语段对应的第二振幅平均值或者所述终止语段对应的第三振幅平均值之间振幅比值；

所述获取所述关键语音段对应的语音参数，包括：

获取所述关键语音段对应的振幅差值的绝对值和/或振幅比值；

若所述振幅差值的绝对值和/或振幅比值小于所述预设参数阈值，则将所述关键语音段识别为目标语音段；

若所述振幅差值的绝对值和/或振幅比值等于或大于所述预设参数阈值，则不做任何操作。

6.如权利要求2所述的方法，其特征在于，所述若所述关键语音段为目标语音段，在所述语音文件中基于所述关键语音段进行标记，包括：

获取所述语音文件对应的振幅波形图；

在所述振幅波形图中对所述关键语音段中的所述关键信息进行标记。

7.如权利要求3述的方法，其特征在于，所述若所述关键语音段为目标语音段，在所述语音文件中基于所述关键语音段进行标记，包括：

分别对所述起始语音段和所述终止语段进行关键信息识别，所述关键信息包括关键字、关键词或者关键句；

获取所述语音文件对应的振幅波形图；

在所述振幅波形图中对所述起始语音段中的关键信息与所述终止语段中的关键信息进行标记。

8.一种对语音文件内容进行标记的装置，其特征在于，包括用于执行如权利要求1至7任一权利要求所述的方法的单元。

9.一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。