CN109492078A

CN109492078A - 一种基于动态停词的原因挖掘方法

Info

Publication number: CN109492078A
Application number: CN201811161071.4A
Authority: CN
Inventors: 胡洪兵; 何国涛; 李全忠; 蒲瑶
Original assignee: Universal Information Technology (beijing) Co Ltd
Current assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-03-19

Abstract

本发明提供一种基于动态停词的原因挖掘方法，所述方法包括：将待挖掘语音集合中的待挖掘语音分别转换为原始文本，将包含预设关键词的所述原始文本作为命中文本，将未包含所述预设关键词的所述原始文本作为未命中文本；计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率，根据所述第一文档频率和所述第二文档频率确定停用词；从所述命中文本中过滤掉所述停用词，将过滤掉停用词后的所述命中文本作为目标文本，从所述目标文本中挖掘所述预设关键词对应的原因。本发明提高了原因挖掘的准确性和效率。

Description

一种基于动态停词的原因挖掘方法

技术领域

本发明属于语音分析技术领域，更具体地，涉及一种基于动态停词的原因挖掘方法。

背景技术

在客户通过语音进行业务咨询或客服通过语音向客户进行业务推荐的语音通话中，含有很多具有业务价值的信息，如“退保”、“注销”或“投诉”的具体原因，因此从海里语音中挖掘出用户行为的具体原因对业务质量的提升具有重要意义。

现有技术中，对语音中原因的挖掘一般通过人工听语音后，对语音进行分析，然后记录语音中的原因。由于人的听力能力有限，很容易出现漏听和错听的情况，语音播放设备的质量也会影响到语音播放的效果。且人的听力易受到语音播放环境的干扰。当语音的量很大时，通过人工挖掘语音中的原因，需要花费大量的时间和人力。

综上所述，现有方法中通过人工挖掘语音中的原因费时费力，且容易出错。

发明内容

为克服上述现有通过人工挖掘语音中的原因费时费力，且容易出错的问题或者至少部分地解决上述问题，本发明提供一种基于动态停词的原因挖掘方法。

根据本发明的一方面，提供一种基于动态停词的原因挖掘方法，包括：

将待挖掘语音集合中的待挖掘语音分别转换为原始文本，将包含预设关键词的所述原始文本作为命中文本，将未包含所述预设关键词的所述原始文本作为未命中文本；

计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率，根据所述第一文档频率和所述第二文档频率确定停用词；

从所述命中文本中过滤掉所述停用词，将过滤掉停用词后的所述命中文本作为目标文本，从所述目标文本中挖掘所述预设关键词对应的原因。

本发明提供一种基于动态停词的原因挖掘方法，该方法通过将语音转换为文本后，根据预设关键词对文本进行筛选获取命中文本，再根据命中文本中各词语在命中文本和非命中文本中的文档频率，确定命中文本中的停用词，使用过滤掉停用词后的命中文本进行原因挖掘，从而将命中文本中的通用词语去掉，提高了原因挖掘的准确性和效率。

附图说明

图1为本发明实施例提供的原因挖掘整体流程示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本发明的一个实施例中提供一种基于动态停词的原因挖掘方法，图1为本发明实施例提供的原因挖掘方法整体流程示意图，该方法包括：S101，将待挖掘语音集合中的待挖掘语音分别转换为原始文本，将包含预设关键词的所述原始文本作为命中文本，将未包含所述预设关键词的所述原始文本作为未命中文本；

其中，待挖掘语音集合为需要进行原因挖掘的语音的集合。原始文本为直接将待挖掘语音转换成的文本。将每一通待挖掘语音转换为一个原始文本。本实施例不限于将待挖掘语音转换为原始文本的方法。判断各原始文本中是否包含预设关键词。预设关键词为预先设定的关键词，如“投诉”、“注销”或“退保”。将包含预设关键词的原始文本作为命中文本，将未包含预设关键词的文本作为未命中文本。

S102，计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率，根据所述第一文档频率和所述第二文档频率确定停用词；

其中，词语的文档频率是指包含该词语的文档的个数。停用词是指不用于原因挖掘的词语。将命中文本中各词语在命中文本中的第一文档频率和在未命中文本中的第二文档频率分别与相应的预设阈值进行比较，根据比较结果，确定命中文本中的各词语是否为停用词。

S103，从所述命中文本中过滤掉所述停用词，将过滤掉停用词后的所述命中文本作为目标文本，从所述目标文本中挖掘所述预设关键词对应的原因。

具体地，将命中文本中的停用词过滤掉，即去掉。将去掉停用词后的命中文本作为目标文本，从目标文本中挖掘出预算关键词对应的原因。本实施例不限于从目标文本中挖掘原因的方法。

本实施例通过将语音转换为文本后，根据预设关键词对文本进行筛选获取命中文本，再根据命中文本中各词语在命中文本和非命中文本中的文档频率，确定命中文本中的停用词，使用过滤掉停用词后的命中文本进行原因挖掘，从而将命中文本中的通用词语去掉，提高了原因挖掘的准确性和效率。

在上述实施例的基础上，本实施例中计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率的步骤具体包括：对于所述命中文本中的任一词语，统计包含该词语的所述命中文本的第一个数和包含该词语的所述未命中文本的第二个数，将所述第一个数作为该词语在所有所述命中文本中的第一文档频率，将所述第二个数作为该词语在所有所述未命中文本中的第二文档频率。

在上述实施例的基础上，本实施例中根据所述第一文档频率和所述第二文档频率确定停用词的步骤具体包括：对于所述命中文本中的任一词语，若该词语对应的第一文档频率大于第一预设阈值且该词语对应的第二文档频率大于第二预设阈值，则将该词语作为停用词；其中，所述第一预设阈值与所述第二预设阈值之间的比值等于所述命中文本的总个数与所述未命中文本的总个数之间的比值。

具体地，当词语的第一文档频率大于第一预设阈值且该词语对应的第二文档频率大于第二预设阈值时，说明较多的命中文本中包含该词语时，较多的未命中文本也包含该词语，此时说明该词语为通用的词语，将该词语作为停用词，从命中文本中过滤掉，不用于原因挖掘。

在上述各实施例的基础上，本实施例中从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括：基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因。

其中，TextRank算法基于PageRank算法，用于为文本生成关键字或摘要。通过将文本分割成若干组成单元，如单词或句子，并建立图模型，利用投票机制对文本中的重要成分进行排序，仅利用文档本身的信息即可实现关键词或文摘的提取。

在上述实施例的基础上，本实施例中基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括：根据所述目标文本中的各词语构建图模型；根据所述图模型，计算所述目标文本中各词语的权重；将所述目标文本中权重最大的预设个数的词语作为候选词语，在所述命中文本中对所述候选词语进行标记；若标记的所述候选词语在所述命中文本中相邻，则根据各所述候选词语在所述命中文本中出现的先后顺序对所述候选词语进行组合，将组合结果作为所述预设关键词对应的原因。

具体额，先将目标文本按照完整的句子进行分割，再将每个句子进行分词。使用目标文本中的各词语构建图模型。根据所述图模型，计算目标文本中各词语的权重。计算公式为：

其中，V_i为图模型中第i个节点，WS(V_i)为第i个节点对应的词语的权重，V_j为图模型中第j个节点，WS(V_j)为第j个节点对应的词语的权重，d为阻尼系数，取值范围为0到1，表示图模型中从某一特定节点指向其他节点的概率，一般取值为0.85，In(V_i)为指向节点V_i的节点集合，Out(V_i)为节点V_i指向的节点集合，w_ji为节点V_i与节点V_j之间边的权重，w_jk为节点V_j与节点V_k之间边的权重。对各节点对应的词语的权重进行排序，从而获取权重最大的预设个数的词语，将其作为候选词语。在命中文本中对候选词语进行标记，若标记的候选词语在命中文本中相邻，则按照各候选词语在命中文本中出现的先后顺序对各候选词进行排序后组合，将组合结构作为预设关键词对应的原因。

在上述实施例的基础上，本实施例中根据所述目标文本中的各词语构建图模型的步骤具体包括：将所述目标文本中的词语作为所述图模型的节点；使用共现关系构造任意两个所述节点之间的边。

具体地，图模型为一个有向有权图G＝(V，E)，其中，V为节点集合，由目标文本中的各词语组成。E为边集合。使用共现关系构造任意两个所述节点之间的边。具体为当两个节点对应的词语在长度为预设长度的窗口中共现，则两个节点之间存在边。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于动态停词的原因挖掘方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，计算所述命中文本中的各词语在所有所述命中文本中的第一文档频率和在所有所述未命中文本中的第二文档频率的步骤具体包括：

对于所述命中文本中的任一词语，统计包含该词语的所述命中文本的第一个数和包含该词语的所述未命中文本的第二个数，将所述第一个数作为该词语在所有所述命中文本中的第一文档频率，将所述第二个数作为该词语在所有所述未命中文本中的第二文档频率。

3.根据权利要求1所述的方法，其特征在于，根据所述第一文档频率和所述第二文档频率确定停用词的步骤具体包括：

对于所述命中文本中的任一词语，若该词语对应的第一文档频率大于第一预设阈值且该词语对应的第二文档频率大于第二预设阈值，则将该词语作为停用词；其中，所述第一预设阈值与所述第二预设阈值之间的比值等于所述命中文本的总个数与所述未命中文本的总个数之间的比值。

4.根据权利要求1-3任一所述的方法，其特征在于，从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括：

基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因。

5.根据权利要求4所述的方法，其特征在于，基于TextRank算法从所述目标文本中挖掘所述预设关键词对应的原因的步骤具体包括：

根据所述目标文本中的各词语构建图模型；

根据所述图模型，计算所述目标文本中各词语的权重；

将所述目标文本中权重最大的预设个数的词语作为候选词语，在所述命中文本中对所述候选词语进行标记；

若标记的所述候选词语在所述命中文本中相邻，则根据各所述候选词语在所述命中文本中出现的先后顺序对所述候选词语进行组合，将组合结果作为所述预设关键词对应的原因。

6.根据权利要求5所述的方法，其特征在于，根据所述目标文本中的各词语构建图模型的步骤具体包括：

将所述目标文本中的词语作为所述图模型的节点；

使用共现关系构造任意两个所述节点之间的边。