CN107590172B

CN107590172B - 一种大规模语音数据的核心内容挖掘方法及设备

Info

Publication number: CN107590172B
Application number: CN201710582950.3A
Authority: CN
Inventors: 王富田; 李健; 张连毅; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2020-06-05
Anticipated expiration: 2037-07-17
Also published as: CN107590172A

Abstract

本发明提供了一种大规模语音数据的核心内容挖掘方法及设备，属于计算机技术领域。本发明实施例提供的大规模语音数据的核心内容挖掘方法及设备，可以将待处理语音数据集转换为对应的待处理文本数据集，然后通过文本聚类算法对与待处理文本数据集对应的待处理词语文本集进行文本聚类得到对应的至少一个类别，可以将该至少一个类别对应的主题确定为待处理语音数据集的核心内容，将待处理文本数据集中每一条待处理文本数据所属的类别的主题确定为该条待处理文本数据的核心内容，即，确定出每一条待处理语音数据的核心内容。实现了在零先验条件下对大规模语音数据核心内容的挖掘，提高了核心内容挖掘的效率以及准确率。

Description

一种大规模语音数据的核心内容挖掘方法及设备

技术领域

本发明属于计算机技术领域，特别是涉及一种大规模语音数据的核心内挖掘方法及设备。

背景技术

目前，某些客户端由于业务原因，通常会生成大量的语音数据，比如，在涉及电话客服、视频直播以及网络电话等业务的客户端通常会有大量的语音数据。为了更好的了解用户的兴趣点或意图等等，服务商通常会对语音数据的核心内容进行挖掘，以便于为用户提供更好的服务。

现有技术中，在对语音数据的核心内容进行挖掘的时候，通常是需要人工听取语音数据，然后根据个人理解，人工总结出核心内容。

但是，现有技术中采用的人工挖掘的方式，效率低下，且由于个人理解会存在一定偏差，会导致对语音数据的核心内容挖掘的因人而异。

发明内容

本发明提供一种大规模语音数据的核心内挖掘方法及设备，以便解决挖掘效率较低，且内容不统一的问题。

依据本发明的第一方面，提供了一种大规模语音数据的核心内容挖掘方法，该方法包括：

将大规模待处理语音数据集转换为对应的待处理文本数据集；

对所述对应的待处理文本数据集进行预处理，得到所述待处理文本数据对应的待处理词语文本集；

通过文本聚类算法对所述待处理词语文本集进行文本聚类，得到对应的至少一个类别；

将所述至少一个类别对应的主题确定为所述大规模待处理语音数据集的核心内容。

可选的，所述预处理包括：对所述对应的待处理文本数据进行分词处理以及去弱意义词处理。

可选的，所述通过文本聚类算法对所述待处理词语文本集进行文本聚类，得到对应的至少一个类别的步骤，包括：

针对所述待处理词语文本集中的多个所有词语建立词语索引关系向量；

利用文本聚类算法对所述待处理词语文本集进行聚类，得到对应的至少一个类别。

可选的，所述方法还包括：

根据所述文本聚类得到的聚类结果，构建文本分类模型；

其中，所述文本分类模型中包括所述至少一个类别，所述文本分类模型用于对新语音数据集对应的新文本数据集进行文本分类，进而确定所述新语音数据集的核心内容。

可选的，所述文本聚类算法为隐含狄利克雷分布LDA算法、分层狄利克雷HDP算法或概率潜在语义分析PLSA算法。

依据本发明的第二方面，提供了一种大规模语音数据的核心内容挖掘设备，该设备包括：

转换模块，用于将大规模待处理语音数据集转换为对应的待处理文本数据集；

预处理模块，用于对所述对应的待处理文本数据集进行预处理，得到所述待处理文本数据集对应的多个词语构成的文本集；

聚类模块，用于通过文本聚类算法对所述待处理词语文本集进行文本聚类，得到对应的至少一个类别；

确定模块，用于将所述至少一个类别对应的主题确定为所述大规模待处理语音数据集的核心内容。

可选的，所述预处理包括：对所述对应的待处理文本数据集进行分词处理以及去弱意义词处理。

可选的，所述聚类模块，包括：

建立子模块，用于针对所述待处理词语文本集中的所有词语建立词语索引关系向量；

聚类子模块，用于利用文本聚类算法对所述待处理词语文本集进行聚类，得到对应的至少一个类别。

可选的，所述设备还包括：

构建模块，用于根据所述文本聚类得到的聚类结果，构建文本分类模型；

所述文本分类模型中包括所述至少一个类别，所述文本分类模型用于对新语音数据集对应的新文本数据集进行文本分类，进而确定所述新语音数据集的核心内容。

针对在先技术，本发明具备如下优点：

本发明实施例提供的大规模语音数据的核心内容挖掘方法及设备，可以将待处理语音数据集转换为对应的待处理文本数据集，然后通过预处理得到该待处理文本数据集对应的待处理词语文本集，再通过文本聚类算法对该待处理词语文本集进行文本聚类得到待处理语音数据集的至少一个类别，可以将该至少一个类别对应的主题确定为待处理语音数据集的核心内容，同时可以将待处理文本数据集中每一条待处理文本数据所属的类别的主题，确定为该条待处理文本数据的核心内容，即就是，可以确定出每一条待处理语音数据的核心内容。相较于与现有技术中的人工挖掘方式，实现了在零先验条件下对大规模语音数据核心内容的挖掘，提高了核心内容挖掘的效率以及准确率。

上述说明仅是本发明技术方案的概述，为了更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例一提供的一种大规模语音数据的核心内容挖掘方法的步骤流程图；

图2是本发明实施例二提供的另一种大规模语音数据的核心内容挖掘方法的步骤流程图；

图3是本发明实施例三提供的一种大规模语音数据的核心内容挖掘设备；

图4是本发明实施例四提供的另一种大规模语音数据的核心内容挖掘设备。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

图1是本发明实施例一提供的一种大规模语音数据的核心内容挖掘方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、将大规模待处理语音数据集转换为对应的待处理文本数据集。

本发明实施例中，该大规模待处理语音数据集中包括多条待处理语音数据，该对应的待处理文本数据集中包括对应的多条待处理文本数据。示例的，假设大规模待处理语音数据集中包括了3条待处理语音数据，转换后得到了对应的3条待处理文本数据，那么这3条待处理文本数据构成待处理文本数据集。

在实现将待处理语音数据集转换为对应的待处理文本数据集时，可以将该待处理语音数据集中的每一条待处理语音数据转换为对应的待处理文本数据。具体的，可以先提取该待处理语音数据集中每一条待处理语音数据的声纹特征，然后计算提取的声纹特征符合各个预设声纹模型的概率，并将符合概率最大的预设声纹模型确定为提取的声纹特征所对应的预设声纹模型，进而从存储的预设声纹模型与文字之间的对应关系中，确定提取的声纹特征符合的预设声纹模型所对应的文字，从而实现将待处理语音数据集转化为对应的待处理文本数据集。其中，转换后得到的对应的待处理文本数据集中每条文本数据的格式可以为txt、word、pdf等常用的文本格式，本发明实施例对此不作限定。

在实际应用中，对于每一条待处理语音数据所提取的声纹特征可以为时域特征，比如短时平均能量、短时平均过零率、共振峰和基音周期等，当然，对于待处理语音数据所提取的声纹特征还可以为频域特征，比如梅尔频率倒谱系数、线性预测系数、线谱对参数和短时频谱等。另外，各个预设声纹模型可以事先利用多个声纹样本，通过维特比算法和前向-后向算法训练得到。其次，计算声纹特征符合各个预设声纹模型的概率可以通过基于混和高斯模型、词汇N-Gram(N元模型)、音素N-Gram等语言模型的算法实现。

步骤102、对所述对应的待处理文本数据集进行预处理，得到所述待处理文本数据集对应的待处理词语文本集；

其中，该待处理词语文本集中包括多个待处理词语文本子集，每个待处理词语文本子集中包括与该待处理词语文本子集对应的待处理文本数据对应的多个词语，即就是一个文本子集中包含的词语对应一条文本数据。示例的，以待处理文本数据集中包括三条待处理文本数据为例，假设该三条待处理文本数据为：待处理文本数据1、待处理文本数据2以及待处理文本数据 3，通过预处理之后，可以得到由待处理文本数据1对应的多个词语构成的待处理词语文本子集1，由待处理文本数据2对应的多个词语构成的待处理词语文本子集2以及由待处理文本数据3对应的多个词语构成的待处理词语文本子集3，该待处理词语文本子集1、待处理词语文本子集2以及待处理词语文本子集3构成待处理词语文本集。

由于汉语中词语是最小的，能够独立活动的有意义的语言成分，而汉语是以字为基本书写单位的，这样就会导致词和词之间没有明显的区分标记。因此，当待处理文本数据为中文文本时，需要对每一条待处理文本数据进行预处理来确定词语，通过对待处理文本数据进行预处理得到多个词语，方便了后续步骤中通过文本聚类确定核心内容。需要说明的是，由于英文文本中的词和词之间均以空格作为自然分界符，因此，当转换后得到的待处理文本数据集中的待处理文本数据为英文文本时，可以不对该待处理文本数据集进行预处理，减少不必要的操作，降低成本。

步骤103、通过文本聚类算法对所述待处理词语文本集进行文本聚类，得到对应的至少一个类别。

本发明实施中，可以将待处理词语文本集按照相似度等方式聚类为至少一个类别。可以通过文本聚类将待处理词语文本集中具有相同主题特征的词语聚集为一个类别，每个类别都对应一个主题，使得后续步骤中可以根据文本聚类得到的至少一个类别，确定核心内容。

步骤104、将所述至少一个类别对应的主题确定为所述大规模待处理语音数据集的核心内容。

本发明实施例中，通过文本聚类可以确定出大规模待处理语音数据集对应的多个类别，可以将该多个类别对应的主题确定为该大规模待处理语音数据集的核心内容。同时，通过文本聚类可以得到每一条待处理语音数据对应每一个类别的概率，可以将对应概率最大的类别确定为该条待处理语音数据所属的类别，进而将该类别的主题确定为该条待处理语音数据的核心内容。

假设大规模待处理语音数据集中包括：待处理语音数据1、待处理语音数据2以及待处理语音数据3；

通过文本聚类得到对应的多个类别为：类别1、类别2以及类别3；待处理语音数据1对应类别1、类别2以及类别3的概率分别为：0.8、0.5以及0.2，因此可以确定待处理语音数据1所属的类别为类别1；待处理语音数据2对应类别1、类别2以及类别3的概率分别为：0.3、0.7以及0.2，因此可以确定待处理语音数据2所属的类别为类别2；待处理语音数据3对应类别1、类别2以及类别3的概率分别为：0.4、0.1以及0.9，因此可以确定待处理语音数据3所属的类别为类别3。

假设类别1的主题为“财经”，类别2的主题为“教育”，类别3的主题为“体育”，那么可以将“财经”、“教育”以及“体育”确定为该大规模待处理语音数据集的核心内容，将“财经”确定为待处理语音数据1的核心内容，将“教育”确定为待处理语音数据2的核心内容，将“体育”确定为待处理语音数据3的核心内容。

由于每个类别的主题的内容比较简练，因此可以直观的反映出待处理语音数据的主题，方便了对用户关注点的了解。

综上所述，本发明实施例一提供的大规模语音数据的核心内容挖掘方法，可以将待处理语音数据集转换为对应的待处理文本数据集，然后通过预处理得到该待处理文本数据集对应的待处理词语文本集，再通过文本聚类算法对该待处理词语文本集进行文本聚类得到待处理语音数据集的至少一个类别，可以将该至少一个类别对应的主题确定为待处理语音数据集的核心内容，同时可以将待处理文本数据集中每一条待处理文本数据所属的类别的主题，确定为该条待处理文本数据的核心内容，即就是，可以确定出每一条待处理语音数据的核心内容。相较于与现有技术中的人工挖掘方式，实现了在零先验条件下对大规模语音数据核心内容的挖掘，提高了核心内容挖掘的效率以及准确率。

实施例二

图2是本发明实施例二提供的另一种语音数据的核心内容挖掘方法的步骤流程图，如图2所示，该方法可以包括：

步骤201、将大规模待处理语音数据集转换为对应的待处理文本数据集。

一般的语音数据的格式有多种，例如：MP3格式、WMA格式以及VMA 格式等等，因此待处理语音数据的格式可能不同一，本发明实施例中，在将大规模待处理语音数据集转换为对应的待处理文本数据集之前，可以将待处理语音数据的格式统一，示例的，可以将所有待处理语音数据的格式统一为 MP3格式，或者统一为WMA格式等，这样可以方便对该大规模待处理语音数据集的转换操作，进而提高了转换的准确率。

本步骤中，将大规模待处理语音数据集转换为对应的待处理文本数据集的具体实现方式，可以参考上述步骤101中的方法，本发明实施例在此不做赘述。

步骤202、对所述对应的待处理文本数据集进行预处理，得到所述待处理文本数据集对应的待处理词语文本集。

本发明实施例中，该预处理可以包括：对该对应的待处理文本数据集进行分词处理以及去弱意义词处理。

具体的，可以先对待处理文本数据集中的每一条待处理文本数据进行分词处理，得到待处理文本数据对应的多个词语。

本发明实施例中对待处理文本数据进行分词处理时，可以是依据一定的算法对该待处理文本数据进行分词。示例的，在进行分词处理的时候，可以通过常用词库，例如，常见的词典等，进行逐词遍历，将常见词库中的所有词按照排列顺序分别在待处理文本数据中遍历匹配，若匹配成功则将当前词，确定为该待处理文本数据的词语，如此循环，直至常见词库中的所有词都被匹配一遍，确定出待处理文本数据集对应的多个词语。

然后，可以对该多个词语进行去弱意义词处理，得到待处理文本数据集对应的待处理词语文本集。

其中，该弱意义词可以为停用词等，其中，停用词为自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用的词，包括：语气助词、副词、介词以及连接词等，如常见的“的”“在”之类。将停用词等无意义的词语去除，可以减少得到的词语数量，降低了后续进行文本聚类时的计算量以及计算时间，提高了文本聚类效率。具体的，在对多个词语进行去弱意义词处理时，可以预先构建一个词语去除表，将常见的弱意义词存入该词语去除表中，例如，常见的停用词等；将该多个词语中的每个词语分别和该词语去除表中存储的每个词语匹配；将匹配成功的词语去除。

步骤203、通过文本聚类算法对所述待处理词语文本集进行文本聚类，得到对应的至少一个类别。具体的，步骤203可以包括：

步骤2031、针对所述待处理词语文本集中的所有词语建立词语索引关系向量。

具体的，在建立索引关系向量的时候，可以将所有词语中的每个词语分别作为目标词语并执行以下处理：将目标词语放入预设的初始为空的字典中；当该字典中没有和该目标词语一致的词语时，将该目标词语的放置顺序，确定为该词语的标记索引；当该字典中存在和该目标词语一致的词语时，将该一致的词语的标记索引确定为该目标词语的标记索引。

示例的，可以先设置一个初始为空的字典，然后将该所有词语逐个放入该字典中，如果该目标词语是首次放入字典中，即就是，字典中没有和该目标词语一致的词语时，假设该目标词语是第4个放入字典中的词语，则确定该目标词语的标记索引为4；如果该目标词语不是首次放入字典中，即就是，字典中存在和该目标词语一致的词语，假设该目标词语是第8个放入字典中的词语，该一致的词语在字典中的索引为6，则确定该目标词语的标记索引为6。

示例的，假设待处理文本数据集中包括：待处理文本数据1：“abac”、待处理文本数据2：“defe”以及待处理文本数据3“cghi”；待处理文本数据1对应的待处理词语文本子集1中包括：词语“a”、词语“b”、词语“a”以及词语“c”，待处理文本数据2对应的待处理词语文本子集2中包括：词语“d”、词语“e”、词语“f”以及词语“e”，待处理文本数据2对应的待处理词语文本子集3中包括：词语“c”、词语“g”、词语“h”以及词语“i”。

对应的待处理词语文本集中的包括的所有词语为：词语“a”、词语“b”、词语“a”、词语“c”、词语“d”、词语“e”、词语“f”、词语“e”、词语“c”、词语“g”、词语“h”以及词语“i”。可以向将词语“a”作为目标词语，放入预设的初始为空的字典中，由于该字典中目前没有和目标词语“a”一致的词语，且该目标词语“a”是第一个放入字典中的词语，因此可以确定该词语a的索引向量为1；然后将词语“b”作为目标词语，放入该字典中，由于该字典中目前没有和目标词语“b”一致的词语，且该目标词语“b”是第二个放入字典中的词语，因此可以确定该词语b的索引向量为2；接着将词语“a”作为目标词语，放入该字典中，由于该字典中现在存在和目标词语“a”一致的词语，且该一致的词语在字典中的索引为1，因此可以继续将确定该词语a的索引向量为1；以此类推，可以得到所有词语的索引关系向量为：词语“a”对应1、词语“b”对应2、词语“c”对应3、“词语d”对应4、词语“e”对应5、词语“f”对应6、词语“g”对应7、词语“h”对应8以及词语“i”对应9。同时确定出每个词语的对应的词频分别为：词语“a”的词频为2、词语“b”的词频为1、词语“c”的词频为2、“词语d”的词频为1、词语“e”的词频为2、词语“f”的词频为1、词语“g”的词频为1、词语“h”的词频为1以及词语“i”的词频为1。

步骤2032、利用文本聚类算法对所述待处理词语文本集进行聚类，得到对应的至少一个类别。

本发明实施例中，该文本聚类算法可以为隐含狄利克雷分布算法 (LatentDirichlet allocation，LDA)，分层狄利克雷算法 (Hierarchical-Dirichlet-Processes，HDP)或概率潜在语义分词算法 (probabilistic latent semantic analysis，PLSA)，需要说明的是，上述三种文本聚类算法仅为本发明实施例的示意性说明，实际应用中，还可以采用其他的文本聚类算法，不仅限于该三种算法，本发明实施例对此不作限定。

示例的，假设词语a为“证券”，词语b为“银行”，词语c为“股东”，词语d为“课程”，词语e为“学校”、词语f为“老师”、词语g为“篮球”、词语h为“跑步”以及词语i为“姚明”。可以利用文本聚类算法根据语义的相似度，将词语a、词语b以及词语c聚类为一个类别I，并确定该类别的主题为“财经”；将词语d、词语e以及词语f聚类为一个类别II，并确定该类别的主题为“教育”；将词语g、词语h以及词语i聚类为一个类别III，并确定该类别的主题为“体育”；进而确定出待处理语音数据集包括类别I、类别II以及类别III，同时根据概率分布确定出待处理语音数据1 所属的类别为类别I，待处理语音数据2所属的类别为类别II，待处理语音数据3所属的类别为类别III。

步骤204、将所述至少一个类别对应的主题确定为所述大规模待处理语音数据集的核心内容。

本发明实施例中，可以将通过文本聚类算法确定出来的至少一个类别对应的主题确定为大规模待处理语音数据集的核心内容。其中，每个类别对应一个主题。示例的，可以将上述确定出来的类别对应的主题确定为大规模待待处理语音数据集的核心内容，即，将类别I对应的主题“财经”、类别II 对应的主题“教育”以及类别III对应的主题“体育”确定为该大规模待处理语音数据集的核心内容。将“财经”确定为待处理语音数据1的核心内容，将“教育”确定为待处理语音数据2的核心内容，将“体育”确定为待处理语音数据3的核心内容。由于每个类别的主题的内容比较简练，因此可以直观的反映出待处理语音数据的主题，方便了对用户关注点的了解。

步骤205、根据所述文本聚类得到的聚类结果，构建文本分类模型。

示例的，可以利用文本聚类算法、对大规模待处理语音数据集进行文本聚类得到的模型参数以及其他信息构建该文本分类模型。通过文本聚类确定出来的多个类别可以作为该文本分类模型中的预设文本类别，即就是，可以将类别I、类别II以及类别III确定为该文本分类模型中的预设文本类别，该文本分类模型可以用来确定与上述大规模待处理语音数据集来源相同的新语音数据集的核心内容。

步骤206、利用文本分类模型对新语音数据集进行分类，获得分类结果。

其中，新语音数据是和上述大规模待处理语音数据来源相同的数据。

具体的，可以将新语音数据集转换为对应的新文本数据集。

然后，通过分词处理获取该新文本数据集对应的多个词语，并对得到的多个词语进行去弱意义词语处理。

最后，将该多个词语作为该文本分类模型的输入，得到该新语音数据集的类别。

示例的，假设新语音数据集转换后得到的对应新文本数据集中包括：新文本数据1“acg”以及新文本数据2“hi”；在进行分词处理之后得到了新语音数据1对应的三个词语：词语“a”、词语“c”、词语“g”，该新文本数据2对应的两个词语：词语“h”以及词语“i”。然后将该新文本数据集中的多个词语：词语“a”、词语“c”、词语“g”、词语“h”以及词语“i”分别输入该文本分类模型中，将该多个词语中的每个词语和预设的文本类别中的各个词语进行匹配分类，示例的，可以先将词语a进行匹配，确定出词语a所属的类别为类别I；然后将词语c进行匹配，确定出词语c所属的类别为类别I；接着将词语g进行匹配，确定出词语g所属的类别为类别 I，以此类推，确定出词语h所属的类别为类别III，词语i所属的类别为类别III。进而可以确定该新语音数据集的类别为：类别I以及类别III，该新语音数据集中的新语音数据1所属的类别为类别I，该新语音数据集中的新语音数据2所属的类别为类别III。

步骤207、将新语音数据集的类别对应的主题确定为该新语音数据集的核心内容。

本发明实施中，可以将上述步骤206中确定出来的类别对应的主题确定为该语音数据的核心内容，即，将类别I对应的主题“财经”以及类别III 对应的主题“体育”确定为该新语音数据集的核心内容，将“财经”确定为该新语音数据集中的新语音数据1的核心内容，将“体育”确定为该新语音数据集中的新语音数据2的核心内容。

由于该文本分类模型是利用对大规模待处理语音数据集进行文本聚类得到的类别和算法模型中优化的参数构成的模型，因此可以用于对和大规模待处理语音数据集来源相同的新的数据集中的新语音数据进行分类，将新语音数据其划分到聚类得到的类别中，将该类别的主题确定为新语音数据的核心内容。结合大规模待处理语音数据中的先验知识，利用文本分类模型来确定新语音数据的核心内容，能够更加准确的确定出该新语音数据的核心内容，同时确定出来的核心内容也更加贴近实际。进一步地，由于每个类别的主题的内容比较简练，因此可以直观的反映出语音数据的主题，方便了对用户关注点的了解。

下面通过一个具体实例，对本发明实施例提供的大规模语音数据核心内容挖掘方法，进行具体说明。

假设大规模待处理语音数据集中包括随机选择的14万通电话客服的通话语音数据，针对该14万通电话客服的通话语音数据的核心内容确定过程可以是：

步骤1、将该14万通电话客服的通话语音数据统一格式后，通过语音识别方法将其转译为文本数据，得到对应的包含有14万条待处理文本数据的待处理文本数据集。

步骤2、对该包含有14万条待处理文本数据的待处理文本数据集进行预处理，得到该待处理文本数据集对应的待处理词语文本集。

其中，该待处理词语文本集中包含了14万个待处理词语文本子集，每个待处理词语文本子集对应一通电话客服的通话语音数据对应的文本数据。

步骤3、对得到的待处理词语文本集进行文本聚类，得到聚类结果。

具体的，可以将该待处理词语文本集读入文本聚类引擎进行聚类，进而得到聚类结果。其中，该聚类结果包括：该14万通电话客服的通话语音数据对应的多个类别、各个类别的关键词列表以及每一通电话客服的通话语音数据所属的类别。实际应用中，在进行文本聚类的时候，对于基于LDA算法的聚类引擎需要预先人为给定聚类数量，而基于HDP算法和复杂网络社团发现聚类算法的引擎不需要给定聚类数量，引擎会根据全量文本的内容自己优化出不同的类别。

步骤4、根据聚类结果，确定该14万通电话客服的通话语音数据的核心内容。

具体的，可以将得到的多个类别对应的主题确定为该14万通电话客服的通话语音数据组成的语音数据集的核心内容，将每一通电话客服的通话语音数据所属的类别的主题确定为该通通话语音数据的核心内容。假设确定出来的出来了两个类别，对应的主题分别为：“办卡咨询”和“话费缴纳”。其中，有6万通电话客服的通话语音数据属于类别“办卡咨询”，有8万通电话客服的通话语音数据属于类别“话费缴纳”。

那么可以确定该14万通电话客服的通话语音数据组成的语音数据集的核心内容为“办卡咨询”和“话费缴纳”，同时确定该6万通电话客服的通话语音数据的核心内容为“办卡咨询”，该8万通电话客服的通话语音数据的核心内容为“话费缴纳”。

步骤5、利用文本聚类得到的聚类结果，构建文本分类模型。

具体的，可以利用该文本分类模型确定新语音数据集的核心内容。假设该新语音数据集中包括新生成的1万通电话客服的通话语音数据。

在利用该文本分类模型确定该1万通电话客服的通话语音数据的核心内容时，可以先将该1万通电话客服的通话语音数据转换为对应的新文本数据集，该新文本数据集中包括1万条新文本数据；然后对该新文本数据集进行预处理，得到对应的新词语文本集，其中，该新词语文本集中包含每一通新通话语音数据对应的多个词语；最后，将该新词语文本集中的词语作为文本分类模型的输入，即可确定出该新生成的1万通电话客服的通话语音数据组成的语音数据集对应的类别，以及每一通新语音数据所属的类别。可以将每一通新语音数据所属类别的主题，确定为该通新语音数据的核心内容。进而可以得到该1万通语音数据中每一通语音数据的核心内容。

需要说明的是，对于文本聚类得到的聚类结果，可以进行人工经验的筛选，使得利用该聚类结果构建的分类模型，能够按照业务需求期望的方向进行文本分类。

综上所述，本发明实施例二提供的大规模语音数据的核心内容挖掘方法，可以将大规模待处理语音数据集转换为对应的待处理文本数据集，然后通过预处理得到该待处理文本数据对应的待处理词语文本集，接着再通过文本聚类算法对该待处理词语文本集进行文本聚类得到大规模待处理语音数据集的至少一个类别，可以将该至少一个类别对应的主题确定为该大规模待处理语音数据集的核心内容，同时可以将待处理文本数据集中每一条待处理文本数据所属的类别的主题，确定为该条待处理文本数据的核心内容，即就是，可以确定出每一条待处理语音数据的核心内容。相较于与现有技术中的人工挖掘方式，实现了在零先验条件下对大规模语音数据核心内容的挖掘。同时，可以利用文本聚类的聚类结果构建文本分类模型，实现对相同来源的新语音数据的进行核心内容的分类挖掘。

实施例三

图3是本发明实施例三提供的一种大规模语音数据的核心内容挖掘设备，如图3所示，该设备30可以包括：

转换模块301，用于将待处理语音数据集转换为对应的待处理文本数据集；

预处理模块302，用于对所述对应的待处理文本数据集进行预处理，得到所述待处理文本数据集对应的待处理词语文本集；

聚类模块303，用于通过文本聚类算法对所述待处理词语文本集进行文本聚类，得到对应的至少一个类别；

确定模块304，用于将所述至少一个类别对应的主题确定为所述大规模待处理语音数据集的核心内容。

综上所述，本发明实施例三提供的大规模语音数据的核心内容挖掘方设备，可以将待处理语音数据集转换为对应的待处理文本数据集，然后通过预处理得到该待处理文本数据集对应的待处理词语文本集，再通过文本聚类算法对该待处理词语文本集进行文本聚类得到待处理语音数据集的至少一个类别，可以将该至少一个类别对应的主题确定为待处理语音数据集的核心内容，同时可以将待处理文本数据集中每一条待处理文本数据所属的类别的主题，确定为该条待处理文本数据的核心内容，即就是，可以确定出每一条待处理语音数据的核心内容。相较于与现有技术中的人工挖掘方式，实现了在零先验条件下对大规模语音数据核心内容的挖掘，提高了核心内容挖掘的效率以及准确率。

实施例四

图4是本发明实施例四提供的另一种大规模语音数据的核心内容挖掘设备，如图4所示，该设备40可以包括：

转换模块401，用于将待处理语音数据集转换为对应的待处理文本数据集；

预处理模块402，用于对所述对应的待处理文本数据集进行预处理，得到所述待处理文本数据集对应的待处理词语文本集；

聚类模块403，用于通过文本聚类算法对所述待处理词语文本集进行文本聚类，得到对应的至少一个类别；

确定模块404，用于将所述至少一个类别对应的主题确定为所述大规模待处理语音数据集的核心内容。

构建模块405，用于根据所述文本聚类得到的聚类结果，构建文本分类模型。

可选的，上述聚类模块403，可以包括：

建立子模块，用于针对所述待处理词语文本集中的多个所有词语建立词语索引关系向量；

划分子模块，用于利用文本聚类算法对所述待处理词语多个词语构成的文本集进行聚类，得到对应的至少一个类别。

综上所述，本发明实施例四提供的大规模语音数据的核心内容挖掘设备，可以将大规模待处理语音数据集转换为对应的待处理文本数据集，然后通过预处理得到该待处理文本数据对应的待处理词语文本集，接着再通过文本聚类算法对该待处理词语文本集进行文本聚类得到大规模待处理语音数据集的至少一个类别，可以将该至少一个类别对应的主题确定为该大规模待处理语音数据集的核心内容，同时可以将待处理文本数据集中每一条待处理文本数据所属的类别的主题，确定为该条待处理文本数据的核心内容，即就是，可以确定出每一条待处理语音数据的核心内容。相较于与现有技术中的人工挖掘方式，实现了在零先验条件下对大规模语音数据核心内容的挖掘。同时，可以利用文本聚类的聚类结果构建文本分类模型，实现对相同来源的新语音数据的进行核心内容的分类挖掘。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的语音数据的核心内容挖掘方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频中背景音乐的识别方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种大规模语音数据的核心内容挖掘方法，其特征在于，所述方法包括：

对所述对应的待处理文本数据集进行预处理，得到所述待处理文本数据集对应的待处理词语文本集；

将所述至少一个类别对应的主题确定为所述大规模待处理语音数据集的核心内容；

根据所述文本聚类得到的聚类结果，构建文本分类模型；

所述文本分类模型中包括所述至少一个预设文本类别，所述文本分类模型用于对新语音数据集对应的新文本数据集进行文本分类，进而确定所述新语音数据集的核心内容，其中，新文本数据集与所述大规模待处理数据来源相同。

2.根据权利要求1所述的方法，其特征在于，所述预处理包括：对所述对应的待处理文本数据集进行分词处理以及去弱意义词处理。

3.根据权利要求1所述的方法，其特征在于，所述通过文本聚类算法对所述待处理词语文本集进行文本聚类，得到对应的至少一个类别的步骤，包括：

针对所述待处理词语文本集中的所有词语建立词语索引关系向量；

4.根据权利要求3所述的方法，其特征在于，所述文本聚类算法为隐含狄利克雷分布LDA算法、分层狄利克雷HDP算法或概率潜在语义分析PLSA算法。

5.一种大规模语音数据的核心内容挖掘设备，其特征在于，所述设备包括：

预处理模块，用于对所述对应的待处理文本数据集进行预处理，得到所述待处理文本数据集对应的待处理词语文本集；

确定模块，用于将所述至少一个类别对应的主题确定为所述大规模待处理语音数据集的核心内容；

6.根据权利要求5所述的设备，其特征在于，所述预处理包括：对所述对应的待处理文本数据集进行分词处理以及去弱意义词处理。

7.根据权利要求5所述的设备，其特征在于，所述聚类模块，包括：

8.根据权利要求5所述的设备，其特征在于，所述文本聚类算法为隐含狄利克雷分布LDA算法、分层狄利克雷HDP算法或概率潜在语义分析PLSA算法。