CN109657186A

CN109657186A - 一种人数统计方法、系统及相关装置

Info

Publication number: CN109657186A
Application number: CN201811614788.XA
Authority: CN
Inventors: 郑棉洲; 陈昊亮
Original assignee: Guangzhou Speakin Network Technology Co Ltd
Current assignee: Guangzhou Speakin Network Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-04-19

Abstract

本申请所提供的一种人数统计方法，包括：在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息；利用声纹特征信息，计算各个目标语音之间的相似度；根据各个目标语音之间的相似度，对各个目标语音进行聚类处理，得到各个语音类别；统计语音类别的数量以确定各个目标语音所属的人的数量。可见，该方法对各个目标语音进行聚类处理，能够避免统计人数时同一个人被重复统计，进而节省统计成本，提高统计效率。本申请还提供一种人数统计系统、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种人数统计方法、系统及相关装置

技术领域

本申请涉及人数统计技术领域，特别涉及一种人数统计方法、系统、设备及计算机可读存储介质。

背景技术

目前，一些网站需要对访问人数进行统计，在语音验证过程中存在同一人多次验证的情况，造成最终验证人数统计重复的问题。也就是说，相关技术是统计通过语音验证的语音的数量作为需统计的人数，但是这些语音中可能有多个语音是同一个人发出的，同一个人被重复统计，浪费了统计成本，降低了统计效率。

因此，如何避免统计人数时同一个人被重复统计，进而节省统计成本，提高统计效率是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的是提供一种人数统计方法、系统、设备及计算机可读存储介质，能够避免统计人数时同一个人被重复统计，进而节省统计成本，提高统计效率。

为解决上述技术问题，本申请提供一种人数统计方法，包括：

在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息；

利用所述声纹特征信息，计算各个所述目标语音之间的相似度；

根据各个所述目标语音之间的所述相似度，对各个所述目标语音进行聚类处理，得到各个语音类别；

统计所述语音类别的数量以确定各个所述目标语音所属的人的数量。

优选地，所述根据各个所述目标语音之间的所述相似度，对各个所述目标语音进行聚类处理，得到各个语音类别，包括：

根据各个所述目标语音之间的所述相似度，对各个所述目标语音进行AHC层次聚类处理，得到各个所述语音类别。

优选地，所述在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息，包括：

利用ASR技术将各个所述语音转化为对应的字符；

根据各个所述语音对应的字符与预设字符匹配情况，筛选出各个所述目标语音；

获取各个所述目标语音的所述声纹特征信息。

优选地，利用ASR技术将各个所述语音转化为对应的字符之前，还包括：

利用TTS检测模型检测各个所述语音的发出者是否具有生命特征信息；

若是，则执行所述利用ASR技术将各个所述语音转化为对应的字符的步骤。

本申请还提供一种人数统计系统，包括：

声纹特征信息获取模块，用于在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息；

相似度计算模块，用于利用所述声纹特征信息，计算各个所述目标语音之间的相似度；

聚类处理模块，用于根据各个所述目标语音之间的所述相似度，对各个所述目标语音进行聚类处理，得到各个语音类别；

数量统计模块，用于统计所述语音类别的数量以确定各个所述目标语音所属的人的数量。

优选地，所述聚类处理模块，包括：

AHC层次聚类处理单元，用于根据各个所述目标语音之间的所述相似度，对各个所述目标语音进行AHC层次聚类处理，得到各个所述语音类别。

优选地，所述声纹特征信息获取模块，包括：

语音识别单元，用于利用ASR技术将各个所述语音转化为对应的字符；

目标语音筛选单元，用于根据各个所述语音对应的字符与预设字符匹配情况，筛选出各个所述目标语音；

声纹特征信息获取单元，用于获取各个所述目标语音的所述声纹特征信息。

优选地，该人数统计系统还包括：

检测单元，用于利用TTS检测模型检测各个所述语音的发出者是否具有生命特征信息；

所述语音识别单元具体为当各个所述语音的所述发出者具有所述生命特征信息时，利用所述ASR技术将各个所述语音转化为对应的字符的单元。

本申请还提供一种设备，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的人数统计方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的人数统计方法的步骤。

本申请所提供的一种人数统计方法，包括：在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息；利用所述声纹特征信息，计算各个所述目标语音之间的相似度；根据各个所述目标语音之间的所述相似度，对各个所述目标语音进行聚类处理，得到各个语音类别；统计所述语音类别的数量以确定各个所述目标语音所属的人的数量。

该方法先是在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息，然后利用所述声纹特征信息，计算各个所述目标语音之间的相似度，再根据各个所述目标语音之间的所述相似度，对各个所述目标语音进行聚类处理，得到各个语音类别，最后统计所述语音类别的数量以确定各个所述目标语音所属的人的数量。可见，该方法对各个目标语音进行聚类处理，能够避免统计人数时同一个人被重复统计，进而节省统计成本，提高统计效率。本申请还提供一种人数统计系统、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种人数统计方法的流程图；

图2为本申请实施例所提供的一种人数统计系统的结构框图。

具体实施方式

本申请的核心是提供一种人数统计方法，能够避免统计人数时同一个人被重复统计，进而节省统计成本，提高统计效率。本申请的另一核心是提供一种人数统计系统、设备及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，一些网站需要对访问人数进行统计，在语音验证过程中存在同一人多次验证的情况，造成最终验证人数统计重复的问题。也就是说，相关技术是统计通过语音验证的语音的数量作为需统计的人数，但是这些语音中可能有多个语音是同一个人发出的，同一个人被重复统计，浪费了统计成本，降低了统计效率。本申请实施例能够避免统计人数时同一个人被重复统计，进而节省统计成本，提高统计效率，具体请参考图1，图1为本申请实施例所提供的一种人数统计方法的流程图，该人数统计方法具体包括：

S101、在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息；

本申请实施例在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息。在此对语音验证的方式不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常利用语音识别技术识别出语音的内容，再将识别出的内容与预设的内容进行匹配。进一步地，对于上述语音的内容在此不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，例如可以为语音验证码。进一步地，对于该语音验证码的字符位数也不作具体限定，例如可以为4位，还可以为6位。在此对上述进行语音验证的语音的数量不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。这些语音中通过语音验证的即为上述目标语音，在此对目标语音的数量也不作具体限定，需根据实际情况而定。每一个目标语音都有一个声纹特征信息，因为本申请实施例对目标语音的数量不作具体限定，故本申请实施例对声纹特征信息的数量也不作具体限定。在此对每一个声纹特征信息的内容也不作具体限定，一个声纹特征信息至少包括该目标语音的波长信息、频率信息及强度信息等信息中的一种。进一步地，对于声纹特征信息的获取方式，在此不作具体限定，需根据实际情况而定。

进一步地，在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息，通常包括：利用ASR技术将各个语音转化为对应的字符；根据各个语音对应的字符与预设字符匹配情况，筛选出各个目标语音；获取各个目标语音的声纹特征信息。其中，ASR(AutomaticSpeech Recognition，自动语音识别)技术是一种将人的语音转换为文本的技术。具体地，先利用ASR技术将各个语音转化为对应的字符，再将该字符与预设字符进行匹配，得到匹配度；若匹配度达到预设的匹配度阈值，则将该语音确定为目标语音；若匹配度没有达到预设的匹配度阈值，则将该语音剔除；在筛选出各个目标语音后，获取各个目标语音的声纹特征信息。其中，预设字符通常存储在预设的语音库中。

进一步地，利用ASR技术将各个语音转化为对应的字符之前，通常还可以包括：利用TTS检测模型检测各个语音的发出者是否具有生命特征信息；若是，则执行利用ASR技术将各个语音转化为对应的字符的步骤。其中，TTS检测模型为DNN/CNN神经网络模型，可以检测出各个语音的发出者是否具有生命特征信息，也就是说可以检测出语音的发出者是否为活人，避免了语音是录音的情况。具体地，将语音通过DNN/CNN神经网络模型检测，DNN/CNN神经网络模型可以根据检测出各个语音的发出者是否具有生命特征信息作出相应的分数判断。例如，分数为0说明是录音，分数为1说明是人声。

S102、利用声纹特征信息，计算各个目标语音之间的相似度；

本申请实施例在获取各个目标语音的声纹特征信息后，利用声纹特征信息，计算各个目标语音之间的相似度。其中，计算各个目标语音之间的相似度，即计算出所有目标语音中两两目标语音之间的相似度。在此对各个目标语音之间的相似度的计算方式不作具体限定，需根据实际情况而定。

S103、根据各个目标语音之间的相似度，对各个目标语音进行聚类处理，得到各个语音类别；

本申请实施例在计算各个目标语音之间的相似度后，根据各个目标语音之间的相似度，对各个目标语音进行聚类处理，得到各个语音类别。具体地，两两目标语音之间的相似度达到预设阈值，则将这两个语音归为一类即认定这两个语音的发出者为同一个人；若某个目标语音与其他多个目标语音之间的相似度均达到预设阈值，则这些目标语音均归为一类即认定这些语音的发出者皆为同一个人。故聚类处理后得到的每一个语音类别中目标语音的数量，在此不作具体限定，需根据实际情况而定。此外，对于所有目标语音进行聚类处理后得到的语音类别的数量，在此也不作具体限定，需根据实际情况而定。在此，对各个目标语音进行聚类处理的方式也不作具体限定，例如可以为AHC层次聚类。

进一步地，根据各个目标语音之间的相似度，对各个目标语音进行聚类处理，得到各个语音类别，通常包括：根据各个目标语音之间的相似度，对各个目标语音进行AHC层次聚类处理，得到各个语音类别。具体步骤如下：

(1)、把每个目标语音归为一类，计算每两个类之间的距离，也就是目标语音与目标语音之间的相似度；

(2)、寻找各个类之间的相似度达到预设阈值的两个类，把他们归为一类(这样类的总数就少了一个)；

(3)、重新计算新生成的这个类与各个旧类之间的相似度；

(4)、重复(2)和(3)直到所有相似度达到预设阈值的目标语音均归为一类。

S104、统计语音类别的数量以确定各个目标语音所属的人的数量。

本申请实施例在得到各个语音类别后，统计语音类别的数量以确定各个目标语音所属的人的数量。由上文可知，本申请实施例对语音类别的数量不作具体限定，故本申请实施例对各个目标语音所属的人的数量也不作具体限定，但是需保证语音类别的数量和各个目标语音所属的人的数量相等，因为本申请实施例认定一个语音类别中的所有目标语音皆由同一个人发出。对于语音类别的数量的统计方式，在此也不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。

本申请实施例先是在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息，然后利用声纹特征信息，计算各个目标语音之间的相似度，再根据各个目标语音之间的相似度，对各个目标语音进行聚类处理，得到各个语音类别，最后统计语音类别的数量以确定各个目标语音所属的人的数量。可见，该方法对各个目标语音进行聚类处理，能够避免统计人数时同一个人被重复统计，进而节省统计成本，提高统计效率。

下面对本申请实施例提供的一种人数统计系统、设备及计算机可读存储介质进行介绍，下文描述的人数统计系统、设备及计算机可读存储介质与上文描述的人数统计方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种人数统计系统的结构框图；该人数统计系统包括：

声纹特征信息获取模块201，用于在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息；

相似度计算模块202，用于利用声纹特征信息，计算各个目标语音之间的相似度；

聚类处理模块203，用于根据各个目标语音之间的相似度，对各个目标语音进行聚类处理，得到各个语音类别；

数量统计模块204，用于统计语音类别的数量以确定各个目标语音所属的人的数量。

基于上述实施例，本实施例中聚类处理模块203，通常包括：

AHC层次聚类处理单元，用于根据各个目标语音之间的相似度，对各个目标语音进行AHC层次聚类处理，得到各个语音类别。

基于上述实施例，本实施例中声纹特征信息获取模块201，通常包括：

语音识别单元，用于利用ASR技术将各个语音转化为对应的字符；

目标语音筛选单元，用于根据各个语音对应的字符与预设字符匹配情况，筛选出各个目标语音；

声纹特征信息获取单元，用于获取各个目标语音的声纹特征信息。

基于上述实施例，本实施例中该人数统计系统通常还包括：

检测单元，用于利用TTS检测模型检测各个语音的发出者是否具有生命特征信息；

语音识别单元具体为当各个语音的发出者具有生命特征信息时，利用ASR技术将各个语音转化为对应的字符的单元。

本申请还提供一种设备，包括：存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的人数统计方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的人数统计方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种人数统计方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种人数统计方法，其特征在于，包括：

2.根据权利要求1所述的人数统计方法，其特征在于，所述根据各个所述目标语音之间的所述相似度，对各个所述目标语音进行聚类处理，得到各个语音类别，包括：

3.根据权利要求1所述的人数统计方法，其特征在于，所述在将各个语音进行语音验证后，获取各个目标语音的声纹特征信息，包括：

利用ASR技术将各个所述语音转化为对应的字符；

获取各个所述目标语音的所述声纹特征信息。

4.根据权利要求3所述的人数统计方法，其特征在于，利用ASR技术将各个所述语音转化为对应的字符之前，还包括：

5.一种人数统计系统，其特征在于，包括：

6.根据权利要求5所述的人数统计系统，其特征在于，所述聚类处理模块，包括：

7.根据权利要求5所述的人数统计系统，其特征在于，所述声纹特征信息获取模块，包括：

8.根据权利要求7所述的人数统计系统，其特征在于，还包括：

9.一种设备，其特征在于，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至4任一项所述的人数统计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的人数统计方法的步骤。