CN111985231B

CN111985231B - 无监督角色识别方法、装置、电子设备及存储介质

Info

Publication number: CN111985231B
Application number: CN202010790776.3A
Authority: CN
Inventors: 李娜; 罗红
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2023-12-26
Anticipated expiration: 2040-08-07
Also published as: CN111985231A

Abstract

本发明实施例涉及信息处理领域，公开了一种无监督角色识别方法。本发明通过多维度提取语音信息的梅尔倒谱特征，得到多组不同维度的梅尔倒谱特征组，对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类，得到多组原始角色标签集，根据预先构建的标签选取原则，从多组所述原始角色标签集中筛选原始角色标签，得到标准角色标签集，根据预构建的文本关键字识别机制，识别与所述语音信息对应的语句集内关键字，得到关键字集，根据所述关键字集和所述标准角色标签集执行对所述语音信息的角色识别。本发明还提出一种无监督角色识别装置、电子设备以及计算机可读存储介质。本发明有效的解决训练数据获取困难，角色识别应用场景有限的问题。

Description

无监督角色识别方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及信息处理领域，特别涉及一种无监督角色识别的方法、装置、电子设备及计算机可读存储介质。

背景技术

角色识别(Speaker Diarization)主要是解决识别什么时间哪一位说话人讲话的问题，特别是基于语音的角色识别，具有重要的应用价值。目前针对语音信息的角色识别方法主要有无监督方法和有监督方法。但是发明人发现，有监督方法在模型训练阶段需要大量的目标识别人的语音片段才能将目标人的个性化特征进行表征，在实际的电话通话场景应用中，难以获取同一目标人物的大量语音片段，因此训练数据获取困难；而当前无监督方法需要引入带有视频信息的语音信息，但是在电话通话场景中，说话人的视频信息无从获取，导致应用场景有限。

发明内容

本发明实施方式的目的在于提供一种无监督角色识别方法、电子设备、装置及计算机可读存储介质，有效的解决训练数据获取困难，角色识别应用场景有限的问题。

为解决上述技术问题，本发明的实施方式提供了一种无监督角色识别方法，所述方法包括：

将语音信息转译为单词集和与所述单词集对应的时间集；

根据所述时间集和预设的时间间隔阈值，对所述单词集进行单词合并，得到语句集；

通过多维度提取所述语音信息的梅尔倒谱特征，得到多组不同维度的梅尔倒谱特征组；

对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类，得到多组原始角色标签集；

根据预先构建的标签选取原则，从多组所述原始角色标签集中筛选原始角色标签，得到标准角色标签集；

根据预构建的文本关键字识别机制，识别所述语句集内关键字，得到关键字集，根据所述关键字集和所述标准角色标签集执行对所述语音信息的角色识别。

为了解决上述问题，本发明还提供一种无监督角色识别装置，所述装置包括：

语音信息转译模块，用于将语音信息转译为单词集和与所述单词集对应的时间集；

梅尔倒谱特征提取模块，用于根据所述时间集和预设的时间间隔阈值，对所述单词集进行单词合并，得到语句集；

角色标签获取模块，用于通过多维度提取所述语音信息的梅尔倒谱特征，得到多组不同维度的梅尔倒谱特征组，对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类，得到多组原始角色标签集，根据预先构建的标签选取原则，从多组所述原始角色标签集中筛选原始角色标签，得到标准角色标签集。

角色识别模块，用于根据预构建的文本关键字识别机制，识别所述语句集内关键字，得到关键字集，根据所述关键字集和所述标准角色标签集执行对所述语音信息的角色识别。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述所述的无监督角色识别方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的无监督角色识别方法。

本发明首先通过语音信息转译、单词合并方法得到语句信息，无需获取说话者大量音频与视频数据，解决前期数据获取困难问题，引入多维度提取所述语音信息的梅尔倒谱特征，通过多维度提取适合各音频的最优梅尔倒谱特征，相比于固定的梅尔倒谱特征，该方法由于从多个维度提取音频的最优梅尔倒谱特征，因此特征表示更精确，故不需要从额外的视频信息中继续获取特征，因此对于电话通话场景的鲁棒性更好。

优选地，所述对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类，得到多组原始角色标签集，包括：

将多组不同维度的所述梅尔倒谱特征组进行降维操作，得到多组单维度梅尔倒谱特征组；

初始化角色标签聚类的最大聚类次数、角色标签类别数及角色标签聚类计数器；

根据所述最大聚类次数、所述角色标签类别数及所述角色标签聚类计数器，对每组单维度梅尔倒谱特征组进行角色标签聚类，得到多组所述原始角色标签集。

优选地，所述根据所述最大聚类次数、所述角色标签类别数及所述角色标签聚类计数器，对每组单维度梅尔倒谱特征组进行角色标签聚类，得到多组所述原始角色标签集，包括：

步骤A：根据所述角色标签类别数，确定所述单维度梅尔倒谱特征组的原始类别中心点集，计算所述原始类别中心点集的类别中心点与所述单维度梅尔倒谱特征组内特征数据的距离值，得到原始距离值集，并对所述角色标签聚类计数器执行计数操作；

步骤B：根据所述原始距离值集，重新确定所述原始类别中心点集的类别中心，得到标准类别中心集；

步骤C：计算所述标准类别中心集的误差值；

步骤D：在所述误差值大于预设的误差阈值时，判断所述角色标签聚类计数器与所述最大聚类次数的大小关系；

步骤E：在所述角色标签聚类计数器大于或等于所述最大聚类次数时，根据所述标准类别中心集得到所述原始角色标签集；

步骤F、在所述角色标签聚类计数器小于所述最大聚类次数时，计算所述标准类别中心集的类别中心点与所述单维度梅尔倒谱特征组内特征数据的距离值，得到标准距离值集，根据所述标准距离值集，重新确定所述标准类别中心点集，并返回步骤C；

步骤G、在所述误差值小于或等于所述误差阈值时，根据所述标准类别中心集得到所述原始角色标签集。

优选地，所述计算所述标准类别中心集的误差值，包括：

计算所述标准类别中心集内每个标准类别中心与所述单维度梅尔倒谱特征组内特征数据的距离值，得到特征-类别中心距离值；

汇总每个特征-类别中心距离值，并根据预设的误差公式计算得到所述误差值。

优选地，所述将多组不同维度的所述梅尔倒谱特征组进行降维操作之前，所述方法还包括：

采用下述方法对多组不同维度的所述梅尔倒谱特征组进行归一化操作；

其中，表示归一化操作后的梅尔倒谱特征组，x_j表示归一化操作前的梅尔倒谱特征组，mean(x_j)表示梅尔倒谱特征的平均值，std(x_j)表示梅尔倒谱特征的归一化范围。

优选地，所述通过多维度提取所述语音信息的梅尔倒谱特征，得到多组不同维度的梅尔倒谱特征组，包括：

对所述语音信息进行包括采样、量化、预加重、分帧、加窗的预处理操作；

将完成所述预处理操作的语音信息进行傅里叶变换得到平稳语音信息；

将所述平稳语音信息输入至预构建的Mel滤波器组进行多维度提取，得到不同维度的梅尔倒谱特征组。

优选地，所述根据所述时间集和预设的时间间隔阈值，对所述单词集进行单词合并，得到语句集，包括：

依次获取所述单词集中第i个单词以及第i+1个单词，得到相邻的两个单词，其中，所述i的初始值为1，且i＝i+1；

根据所述时间集计算所述相邻的两个单词之间的发声时间的时间差；

在所述时间差小于或者等于预设时间间隔阈值时，将所述两个单词标记为相同的标签；

在所述有时间差大于所述时间间隔阈值，则将所述两个单词标记为不同的标签；

将相邻且具有相同标签的单词合并成语句，得到所述语句集。

本发明结合聚类算法进行角色标签聚类，实现了语音中出现的角色分离功能，且在进行角色标签聚类前，对梅尔倒谱特征组进行降维操作，因聚类算法相对于深度学习或其他机器学习算法来说，具有计算简便不占用内存的优点，且降维操作进一步的降低梅尔倒谱特征组的维度，降低对计算资源的占用，因此对于快速实现角色识别具有重要意义。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本发明实施例提供的无监督角色识别方法流程示意图；

图2为本发明实施例图1提供的无监督角色识别方法中S2的详细实施流程示意图；

图3为本发明实施例图1提供的无监督角色识别方法中S4的详细实施流程示意图；

图4为本发明实施例图3提供的无监督角色识别方法中S43的详细实施流程示意图；

图5为本发明实施例提供的无监督角色识别方法中构建文本关键字识别机制的详细实施流程示意图；

图6为本发明实施例提供的无监督角色识别装置的模块示意图；

图7为本发明实施例提供的实现无监督角色识别方法的电子设备的内部结构示意图；

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的实施方式涉及一种无监督角色识别方法，本实施方式中，通过多维度提取语音信息的梅尔倒谱特征，根据所述梅尔倒谱特征进行聚类操作从而完成角色识别，从而有效的解决训练数据获取困难，角色识别应用场景有限的问题。下面对本实施方式的无监督角色识别实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

参阅图1所示，图1是本发明第一实施方式中无监督角色识别的流程图，包括：

S1、获取语音信息，将所述语音信息转译为单词集和与所述单词集对应的时间集。

本发明实施例中，所述语音信息的获取途径多种多样，如接收用户输入的一段语音信息、采取爬虫技术从网络平台中爬取、采用录音方法录取语音等，如佳宇是一名游戏直播人员，某天游戏直播时发现自家网络出现异常，检查无果后拨通中国移动的宽带服务热线，则佳宇和中国移动客服在电话之间的语音交流即为所述语音信息。

本发明较佳实施例可以采用当前已公开的语音转换技术手段将所述语音信息转译为单词集，并利用任意的计时手段记录所述单词集对应的时间集。其中，所述时间集包括所述单词集中每个单词的开始发音时间。例如，所述语音转换技术手段，包括，但不限于，讯飞ASR引擎等转译手段，如上述佳宇和中国移动客服在电话之间的语音交流信息包括：

中国移动客服：您好，中国移动

佳宇：我家网络出现故障了

则通过语音转换技术手段可将两个人的对话转译为单词集，如：

您好中国移动我家网络出现故障了

进一步地，本发明实施例记录所述单词集中每个字的发声时间，如上述单词集中的“中”的发声时间为2020年2月20日10点40分13.1秒、“国”的发声时间为2020年2月20日10点40分13.2秒，“移”的发声时间为2020年2月20日10点40分13.4秒等，将每个字的发声时间汇集起来，得到所述单词集对应的时间集。

S2、根据所述时间集和预设的时间间隔阈值，对所述单词集进行单词合并，得到语句集。

详细地，所述S2可参阅图2的详细实施流程示意图，包括：

S21、获取所述单词集中第i个单词以及第i+1个单词，得到相邻的两个单词，其中，所述i的初始值为1，且i＝i+1；

S22、根据所述时间集计算所述相邻的两个单词之间的发声时间的时间差，并判断所述时间差是否大于预设的时间间隔阈值；

S23、在所述时间差小于或者等于所述时间间隔阈值时，将所述两个单词标记为相同的标签；

S24、在有时间差大于所述时间间隔阈值，则将所述两个单词标记为不同的标签；

S25、判断是否i小于n，其中，所述n等于所述单词集中的单词的总数量；若i小于n，则返回上述的S21，否则，若i不小于n，则执行下述的S26；

S26、将相邻的且具有相同标签的单词合并成语句，得到所述语句集；

如预设的时间间隔阈值为10毫秒，在单词集“您好中国移动我家网络出现故障了”中，“您”发声时间为2020年2月20日10点40分13.1秒，“好”发声时间为2020年2月20日10点40分13.9秒，时间差为8毫秒，因此小于时间间隔阈值10毫秒，则将“您”和“好”设置为相同的标签，。根据该规则，可能得到“您”、“好”、“中”、“国”、“移”、“动”六个字都具有相同的标签。

进一步地，当“动”发声时间为2020年2月20日10点40分14.2秒，而“我”发声时间为2020年2月20日10点40分15.5秒，时间差大于所述时间间隔阈值10毫秒，则将“动”与“我”设置为不同的标签。

根据上述操作，可以将相邻的且具有相同标签的单词“您”、“好”、“中”、“国”、“移”、“动”六个字，组成语句“您好中国移动”，将相邻的且具有相同标签的单词“我”、“家”、“网”、“络”、“出”、“现”、“故”、“障”、“了”九个字，组成语句“我家网络出现故障了”。

S3、多维度提取所述语音信息的梅尔倒谱特征，得到多组不同维度的梅尔倒谱特征组。

梅尔倒谱特征是语音识别中最为常用的特征，对于梅尔倒谱特征的提取一般使用单维度提取方法，虽然可提取得到梅尔倒谱特征，但受限于单维度提取的梅尔倒谱特征的特征表达能力不够，所以本发明采用多维度提取方法。

详细地，所述S3包括：对所述语音信息进行包括采样、量化、预加重、分帧、加窗的预处理操作，将完成所述预处理操作的语音信息进行傅里叶变换得到平稳语音信息，将所述平稳语音信息输入至预构建的Mel滤波器组进行多维度提取，得到不同维度的梅尔倒谱特征组。

其中，所述预处理操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素对语音信号质量的影响，尽可能保证后续的语音信息在进行所述傅里叶变换时更均匀、平滑。

所述傅里叶变换可采用当前已公开的快速傅里叶变换技术，所述Mel滤波器组为当前公开的已知技术。本发明实施例利用所述Mel滤波器生成1至15维不同维度的15个梅尔倒谱特征组。

S4、对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类，得到多组原始角色标签集。

由于不同维度的所述梅尔倒谱特征组可以有效的表达语音信息，因此通过角色标签聚类的方法，可以发现不同维度的所述梅尔倒谱特征组总共有多少个不同的角色标签，详细地，所述S4可参阅图3的详细实施流程示意图，包括：

S41、将多组不同维度的所述梅尔倒谱特征组进行降维操作，得到多组单维度梅尔倒谱特征组。

较佳地，所述降维操作之前，还可以包括对多组不同维度的所述梅尔倒谱特征组进行归一化操作。假设上述1至15维不同维度的15个梅尔倒谱特征组，有一组梅尔倒谱特征组A为X＝{x₁,x₂,…,x_n}，维度为M×N，其中M表示语音信息中的帧数，N表示提取的梅尔倒谱特征组的特征数，x_j表示第j个特征对应所有帧的特征值，对梅尔倒谱特征组A进行归一化操作得到归一化操作如下：

进一步地，一般梅尔倒谱特征组的维度很高，若直接进行角色标签聚类的话，会占用过高的计算资源，因此对梅尔倒谱特征组进行降维操作比较有必要，以所述梅尔倒谱特征组A为例，采用下述公式进行降维操作：

其中，m为每组梅尔倒谱特征的特征数量，通过所述降维操作，可将上述1至15维不同维度的15个梅尔倒谱特征组都变为维度为1的15个单维度梅尔倒谱特征组。

S42、初始化角色标签聚类的最大聚类次数、角色标签类别数及角色标签聚类计数器。

本发明较佳实施例中，为了防止所述角色标签聚类产生死循环的情况，设置了最大聚类次数、角色标签类别数及角色标签聚类计数器。如上述佳宇与中国移动客服语音交流生成的语句集，由于角色标签只有佳宇和中国移动客服，因此角色标签类别数为2，设置最大聚类次数为20次，角色标签聚类计数器从0开始计数。

S43、根据所述最大聚类次数、所述角色标签类别数及所述角色标签聚类计数器，对每组单维度梅尔倒谱特征组进行角色标签聚类，得到多组所述原始角色标签集。

具体地，S43可参阅图4详细实施流程示意图，包括：

S431、根据所述角色标签类别数，确定所述单维度梅尔倒谱特征组的原始类别中心点集，计算所述原始类别中心点集的类别中心点与所述单维度梅尔倒谱特征组内特征数据的距离值，得到原始距离值集，并对所述角色标签聚类计数器执行计数操作。

如上述佳宇与中国移动客服语音交流生成的语句集，由于角色标签只有佳宇和中国移动客服，因此角色标签类别数为2，进而原始类别中心点集包括的类别中心点有2个，进一步地，本发明实施例从所述单维度梅尔倒谱特征组中随机选择两个特征数据作为所述两个类别中心点，得到所述单维度梅尔倒谱特征组的原始类别中心点集。

本发明较佳实施例中，计算距离值可采用当前已公开的欧式距离计算法、拉普拉斯距离计算法等。

所述角色标签聚类计数器从0开始计数，计数操作规定每次加一，则角色标签聚类计数器分别为0、1、2、3…，以此类推。

S432、根据所述原始距离值集，重新确定所述原始类别中心点集的类别中心，得到标准类别中心集。

如佳宇与中国移动客服语音的案例中，原始类别中心点集有两个类别中心点，分别为第一类别中心点和第二类别中心点，而单维度梅尔倒谱特征组有特征数据a与第一类别中心点的距离为12，特征数据a与第二类别中心点的距离为9，则特征数据a属于第二类别中心点，以此类推得到标准类别中心集。

S433、计算所述标准类别中心集的误差值。

本发明较佳实施例中，计算所述标准类别中心集的误差值可采用平方差公式，详细地，所述计算所述标准类别中心集的误差值，包括：

计算所述标准类别中心集内每个标准类别中心与所述单维度梅尔倒谱特征组内特征数据的距离值得到特征-类别中心距离值。

汇总每个特征-类别中心距离值，并根据预设的误差公式计算得到所述误差。

S434、在所述误差值大于预设的误差阈值时，判断所述角色标签聚类计数器与所述最大聚类次数的大小关系。

在所述角色标签聚类计数器小于所述最大聚类次数时，执行S435，计算所述标准类别中心集的类别中心点与所述单维度梅尔倒谱特征组内特征数据的距离值，得到标准距离值集，根据所述标准距离值集，重新确定所述标准类别中心点集，并返回S433。

在所述角色标签聚类计数器大于或等于所述最大聚类次数时，执行S436，根据所述标准类别中心集得到所述原始角色标签集。

如上所述，若角色标签聚类计数器为15，而最大聚类次数也为15，则退出聚类。

本发明较佳实施例中，计算所述标准类别中心集内类别中心点与所述单维度梅尔倒谱特征组内特征数据的距离值依然可采用上述平方差公式或其他计算公式。

在所述误差值小于或等于所述误差阈值时，执行S436、根据所述标准类别中心集得到所述原始角色标签集。

本发明较佳实施例中，所述预先构建的标签选取原则包括：计算多组所述原始角色标签集各自的标签误差值，选择最小的标签误差值对应的原始角色标签集得到标准角色标签集。所述标签误差值的计算方法与S4相同。

进一步地，所述标准角色标签集可采用{标签，文本，文本对应时间}三元组，如佳宇与中国移动客服只有两个人的对话，则标签的类别只有0、1两个，对应的三元组为{0，文本，文本对应时间}及{1，文本，文本对应时间}，但经过上述的操作步骤只判别出标签的类别只有0、1两个，此时不清楚0、1哪个数字代表佳宇，哪个数字代表中国移动客服，需要进行进一步的技术分析。

S5、根据预构建的文本关键字识别机制，识别所述语句集内关键字得到关键字集，结合所述关键字集和所述标准角色标签集完成所述语音信息的角色识别。

详细地，本发明其他实施例中，所述S5之前还可以包括构建所述文本关键字识别机制。详细地，所述构建所述文本关键字识别机制的方法可参阅图5的详细实施流程示意图，包括：

S51、获取与所述标准角色标签集对应的角色标签词典；

S52、根据所述角色标签词典和文本扫描仪构建所述文本关键字识别机制。

如佳宇与中国移动客服只有两个人的对话，则标准角色标签集只有角色标签0、1，通过爬虫等技术获取角色标签0、1平时经常说话的关键字，如中国移动客服经常会说“您好”、“移动”等，从而构成其中一个角色标签词典。将这些角色标签词典输入至当前已公开的文本扫描仪中，当文本扫描仪扫描所述语句集会得到若干语句，以此与角色标签词典进行判断，若是角色标签词典内的关键字则输出，进而得到关键字集。

如上述S2佳宇与中国移动客服的语句集：

您好中国移动我家网络出现故障了

识别关键字得到关键字集为：中国移动、我家、故障、您好等，通过与所述角色标签词典对比发现，中国移动、您好属于角色标签0的对应词典，我家、故障属于角色标签1的对应词典，因此进一步智能化识别出：“您好中国移动”为角色标签0且属于中国移动客服；“我家网络出现故障了”为角色标签1且属于用户，进而完成无监督角色识别过程。

如图6所示，是本发明无监督角色识别装置的功能模块图。

本发明所述无监督角色识别装置100可以安装于电子设备中。根据实现的功能，所述无监督角色识别装置可以包括语音信息转译模块101、梅尔倒谱特征提取模块102、角色标签获取模块103及角色识别模块104。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

语音信息转译模块101，用于将语音信息转译为单词集和与所述单词集对应的时间集。

梅尔倒谱特征提取模块102，用于根据所述时间集和预设的时间间隔阈值，对所述单词集进行单词合并，得到语句集。

角色标签获取模块103，用于通过多维度提取所述语音信息的梅尔倒谱特征，得到多组不同维度的梅尔倒谱特征组，对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类，得到多组原始角色标签集，根据预先构建的标签选取原则，从多组所述原始角色标签集中筛选原始角色标签，得到标准角色标签集。

角色识别模块104，用于根据预构建的文本关键字识别机制，识别所述语句集内关键字，得到关键字集，根据所述关键字集和所述标准角色标签集执行对所述语音信息的角色识别。

本申请所提供的装置中的模块能够在使用时同上述的无监督角色识别方法一样，在于通过多维度提取语音信息的梅尔倒谱特征，根据所述梅尔倒谱特征进行聚类操作从而完成角色识别，其在具体运行时可以取得上述的方法实施例一样的技术效果，即有效的解决训练数据获取困难，角色识别应用场景有限的问题。

如图7所示，是本发明实现无监督角色识别方法的电子设备的结构示意图。

所述电子设备1可以包括处理器12、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器12上运行的计算机程序，如无监督角色识别程序110。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如无监督角色识别程序110的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器12是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行无监督角色识别程序110等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器12等之间的连接通信。

图7仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图7示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器12逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的请求无监督角色识别程序110是多个指令的组合，在所述处理器12中运行时，具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

所述计算机可读存储介质上存储有无监督角色识别程序，所述无监督角色识别程序可被一个或多个处理器执行，以实现如下操作：

将语音信息转译为单词集和与所述单词集对应的时间集；

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种无监督角色识别方法，其特征在于，所述方法包括：

将语音信息转译为单词集和与所述单词集对应的时间集；

根据预构建的文本关键字识别机制，识别所述语句集内关键字，得到关键字集，根据所述关键字集和所述标准角色标签集执行对所述语音信息的角色识别；

其中，所述通过多维度提取所述语音信息的梅尔倒谱特征，得到多组不同维度的梅尔倒谱特征组，包括：

将所述平稳语音信息输入至预构建的Mel滤波器组进行多维度提取，得到不同维度的梅尔倒谱特征组；

所述预先构建的标签选取原则包括：计算多组所述原始角色标签集各自的标签误差值，选择最小的标签误差值对应的原始角色标签集得到标准角色标签集；

所述文本关键字识别机制包括：获取与所述标准角色标签集对应的角色标签词典；

根据所述角色标签词典和文本扫描仪构建所述文本关键字识别机制。

2.根据权利要求1所述的无监督角色识别方法，其特征在于，所述对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类，得到多组原始角色标签集，包括：

3.根据权利要求2所述的无监督角色识别方法，其特征在于，所述根据所述最大聚类次数、所述角色标签类别数及所述角色标签聚类计数器，对每组单维度梅尔倒谱特征组进行角色标签聚类，得到多组所述原始角色标签集，包括：

步骤C：计算所述标准类别中心集的误差值；

4.根据权利要求3所述的无监督角色识别方法，其特征在于，所述计算所述标准类别中心集的误差值，包括：

5.根据权利要求2所述的无监督角色识别方法，其特征在于，所述将多组不同维度的所述梅尔倒谱特征组进行降维操作之前，所述方法还包括：

6.根据权利要求1至5中任意一项所述的无监督角色识别方法，其特征在于，所述根据所述时间集和预设的时间间隔阈值，对所述单词集进行单词合并，得到语句集，包括：

在所述时间差大于所述时间间隔阈值，则将所述两个单词标记为不同的标签；

7.一种无监督角色识别装置，其特征在于，所述装置包括：

角色标签获取模块，用于通过多维度提取所述语音信息的梅尔倒谱特征，得到多组不同维度的梅尔倒谱特征组，对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类，得到多组原始角色标签集，根据预先构建的标签选取原则，从多组所述原始角色标签集中筛选原始角色标签，得到标准角色标签集；

角色识别模块，用于根据预构建的文本关键字识别机制，识别所述语句集内关键字，得到关键字集，根据所述关键字集和所述标准角色标签集执行对所述语音信息的角色识别；

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的无监督角色识别方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的无监督角色识别方法。