CN111309898A

CN111309898A - 一种用于新词发现的文本挖掘方法及装置

Info

Publication number: CN111309898A
Application number: CN201811418764.7A
Authority: CN
Inventors: 李悦; 阮泽凯; 郑文彬; 罗红
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2020-06-19

Abstract

本发明公开了一种用于新词发现的文本挖掘方法及装置，该装置执行该方法包括以下步骤：获取文本；从文本中获取与初始基础词库中的任一关键词匹配的备选词；利用备选词中与初始基础词库中的每一个关键词均不相同、以及与停用词库中每一个停用词均不相同的备选词，构建备选词库；获取备选词库中的在文本集合中的词频大于预设次数的、在所述文本集合中聚合度大于第一预设阈值的且在文本集合中自由度小于第二预设阈值的备选词作为新词。从而解决现有技术中存在的随着业务数量的增加，人工发现新词是需要处理的语音文件或文本文件的数量巨大，从而人工发现新词所需的时间长、人工发现新词的效率低的技术问题。

Description

一种用于新词发现的文本挖掘方法及装置

技术领域

本发明涉及数据挖掘领域，尤其涉及一种用于新词发现的文本挖掘方法及装置。

背景技术

传统的检验装维人员的服务质量的方法主要是对装维人员对客户服务时的现场录音进行人工检验，例如，对装维人员在客户家中装机时录制的录音进行服务质量检验。服务质量检验的内容包括：1、人工对装维人员和用户对话的录音中的关键词进行检验，即检验关键词是否涉及规范服务用语、粗口、忌语等，然后对装维人员的服务质量做出评价。2、人工听取录音中提及的预约时间，并与工单中填写的预约信息进行对比，判断装维人员是否按照预约时间工作。3、人工听取录音，根据录音的内容和经验，对录音对应的工单进行业务归类。录音中的关键词也就是装维人员在为客户服务时，装维人员和客户的对话中出现的和本次服务的内容关系密切的词(也是和本次服务的业务类别相关的词)。业务类别是装维人员为客户提供的服务的种类。

而目前针对服务质量检验中涉及到的关键词和工单的业务类别检验需要利用人工凭借经验建立的关键词库和业务类别词库，其中，关键词由人工从录音中听取并录入关键词库，业务类别由人工从录音中听取并录入业务类别词库。对于业务类别的划分工作，目前也是由人工完成的。随着业务内容的不断扩展，随之出现的是更多新的业务类别和与业务类别相关的关键词，发现新的业务类别和关键的工作量巨大，如果不更新关键词库和业务类别词库则服务质量检验的结果就不准确，无法起到监督装维人员的服务的作用。除了用于服务质量检验的关键词库和业务类别词库，现有的其它词库也是由人工挖掘得到的，并且机器也不具备发现新词的能力，只能由人工发现新词；而人工发现新词一般是从业务相关的语音文件或文本文件中获取。从而现有技术中至少存在以下技术问题：

随着业务数量的增加，人工发现新词是需要处理的语音文件或文本文件的数量巨大，从而人工发现新词所需的时间长、人工发现新词的效率低。

发明内容

本发明实施例通过提供一种用于新词发现的文本挖掘方法及装置，用于解决现有技术中的随着业务数量的增加，人工发现新词是需要处理的语音文件或文本文件的数量巨大，从而人工发现新词所需的时间长、人工发现新词的效率低的技术问题。

第一方面，本发明一实施例提供了一种用于新词发现的文本挖掘方法，所述方法包括：

获取包括若干个词的文本；

从所述文本中的词获取若干个与初始基础词库中的任一关键词匹配的备选词；

利用若干个所述备选词中与所述初始基础词库中的每一个关键词均不相同、以及与所述停用词库中每一个停用词均不相同的备选词，构建备选词库；或者，利用若干个所述备选词构建备选词库，去除所述备选词库中与任一所述关键词完全相同的备选词、以及去除所述备选词库中与所述停用词库中任一停用词完全相同的备选词；

获取所述备选词库中的在文本集合中的词频大于预设次数的、在所述文本集合中聚合度大于第一预设阈值的且在所述文本集合中自由度小于第二预设阈值的备选词作为新词；其中，所述文本集合包括所述文本和/或除所述文本外的其它文本。

可选的，所述从所述文本中获取若干个与初始基础词库中的任一关键词匹配的备选词，具体包括：

利用正则匹配方法对所述文本中的词和所述初始基础词库中的关键词进行匹配，将所述文本中的与所述初始基础词库中的任一所述关键词的相似度大于预设相似度的词作为备选词。

可选的，所述利用若干个所述备选词中与所述初始基础词库中的每一个关键词均不相同、以及与所述停用词库中每一个停用词均不相同的备选词，构建备选词库，具体包括：

利用从若干个所述备选词中去除与任一所述关键词完全相同的词、以及从若干个所述备选词中去除与停用词库中任一停用词完全相同的词后若干个所述备选词中剩余的若干个剩余备选词，构建备选词库。

可选的，所述获取所述备选词库中的在所述文本集合中的词频大于预设次数的、聚合度大于第一预设阈值的且自由度小于第二预设阈值的备选词作为新词，具体包括：

计算所述备选词库中每一个备选词在所述文本集合中的词频；计算所述备选词库中每一个备选词在所述文本集合中的聚合度；计算所述备选词库中每一个备选词在所述文本集合中的自由度；将在所述文本集合中的词频大于预设次数的、聚合度大于第一预设阈值的且自由度小于第二预设阈值的备选词作为新词；或者，

以第一筛选标准对所述备选词库中每一个备选词进行筛选处理，获取若干个符合所述第一筛选标准的第一备选词；所述第一筛选标准为在所述文本集合中的词频大于预设次数、在所述文本集合中的聚合度大于第一预设阈值和在所述文本集合中的自由度小于第二预设阈值中的一者；

以第二筛选标准对每一个所述第一备选词进行筛选处理，获取若干个符合所述第二筛选标准的第二备选词；所述第二筛选标准为在所述文本集合中的词频大于预设次数、在所述文本集合中的聚合度大于第一预设阈值和在所述文本集合中的自由度小于第二预设阈值中除所述第一筛选标准之外的一者；

以第三筛选标准对每一个所述第二备选词进行筛选处理，获取若干个符合所述第三筛选标准的新词；所述第三筛选标准为在所述文本集合中的词频大于预设次数、在所述文本集合中的聚合度大于第一预设阈值和在所述文本集合中的自由度小于第二预设阈值中除所述第一筛选标准和除所述第二筛选标准之外的一者。

第二方面，本发明一实施例提供了一种用于新词发现的文本挖掘装置，所述装置包括：

文本获取单元，用于获取包括若干个词的文本；

匹配单元，用于从所述文本中获取若干个与初始基础词库中的任一关键词匹配的备选词；

第一构建单元，用于利用若干个所述备选词中与所述初始基础词库中的每一个关键词均不相同、以及与所述停用词库中每一个停用词均不相同的备选词，构建备选词库；或者，第二构建单元，用于利用若干个所述备选词构建备选词库，去除所述备选词库中与任一所述关键词完全相同的备选词、以及去除所述备选词库中与所述停用词库中任一停用词完全相同的备选词；

新词获取单元，用于获取所述备选词库中的在文本集合中的词频大于预设次数的、在所述文本集合中聚合度大于第一预设阈值的且在所述文本集合中自由度小于第二预设阈值的备选词作为新词；其中，所述文本集合包括所述文本和/或除所述文本外的其它文本。

可选的，所述匹配单元，具体用于：

可选的，所述第一构建单元，具体用于：

可选的，所述新词获取单元，具体用于：

第三方面，本发明一实施例提供了一种计算机装置，包括：

至少一个处理器，以及与所述至少一个处理器连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，执行如上述第一方面中所述的方法。

第四方面，本发明一实施例提供了一种计算机可读存储介质，包括：

所述计算机可读存储介质上存储有计算机指令，当所述计算机指令被所述计算机装置的至少一个处理器执行时，实现如上述第一方面中所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明实施例中，用于新词发现的文本挖掘装置执行以下方法，包括：获取文本；从所述文本中获取若干个与初始基础词库中的任一关键词匹配的备选词；利用若干个所述备选词中与所述初始基础词库中的每一个关键词均不相同、以及与所述停用词库中每一个停用词均不相同的备选词，构建备选词库；获取所述备选词库中的在文本集合中的词频大于预设次数的、在所述文本集合中聚合度大于第一预设阈值的且在所述文本集合中自由度小于第二预设阈值的备选词作为新词；其中，所述文本集合包括所述文本和/或除所述文本外的其它文本。从而解决现有技术中存在的随着业务数量的增加，人工发现新词是需要处理的语音文件或文本文件的数量巨大，从而人工发现新词所需的时间长、人工发现新词的效率低的技术问题，达到减少发现新词所需的时间并提高发现新词的效率的技术效果。

附图说明

图1为本发明实施例提供的一种用于新词发现的文本挖掘方法的流程图；

图2为本发明实施例提供的一种用于新词发现的文本挖掘装置的结构示意图；

图3为本发明实施例提供的用于新词发现的文本挖掘装置的细化结构的示意图；

图4为本发明实施例提供的一种计算机装置的物理结构示意图。

具体实施方式

为了解决上述技术问题，本发明实施例中的技术方案的总体思路如下：

提供了一种用于新词发现的文本挖掘方法及装置，具体的，该方法包括：

获取包括若干个词的文本；

从所述文本中获取若干个与初始基础词库中的任一关键词匹配的备选词；

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

本发明实施例中给出的方案可以应用于装维人员的服务质量检验中，具体应用于获取用于服务质量检验的关键词中。

本发明实施例一提供了一种用于新词发现的文本挖掘方法，请参见图1，为该方法的流程图。该方法应用于用于新词发现的文本挖掘装置(以下简称文本挖掘装置)，具体包括以下步骤：

步骤S110，获取包括若干个词的文本。

步骤S120，从所述文本中的词获取若干个与初始基础词库中的任一关键词匹配的备选词。

步骤S130，利用若干个所述备选词中与所述初始基础词库中的每一个关键词均不相同、以及与所述停用词库中每一个停用词均不相同的备选词，构建备选词库；或者，利用若干个所述备选词构建备选词库，去除所述备选词库中与任一所述关键词完全相同的备选词、以及去除所述备选词库中与所述停用词库中任一停用词完全相同的备选词。

步骤S140，获取所述备选词库中的在文本集合中的词频大于预设次数的、在所述文本集合中聚合度大于第一预设阈值的且在所述文本集合中自由度小于第二预设阈值的备选词作为新词；其中，所述文本集合包括所述文本和/或除所述文本外的其它文本。

首先执行步骤S110，获取包括若干个词的文本。

该文本为由语音文件转换得出的文本，获取该文本可以包括以下方式：

方式a1，文本挖掘装置接收到语音文件后将语音文件转换成文本。例如，文本挖掘装置包括一语音识别模块，该语音识别模块能够将语音文件转换为中文文本或其它语言的文本。

方式a2，除文本挖掘装置外的其它装置将语音文件转换成文本，文本挖掘装置直接获取该文本。例如，利用语音采集平台中的语音识别引擎将语音文件转换为文本，然后将该文本发送至文本挖掘装置，从而该文本挖掘装置获取到该文本。

上述方式a1和方式a2中的语音文件可以是装维人员在工作中录制的录音文件，也可以是其它场景中录制的语音文件，例如客服人员与客户的对话的录音。

执行完步骤S110之后，执行步骤S120，步骤S120为从所述文本中获取若干个与初始基础词库中的任一关键词匹配的备选词。

可选的，步骤S120具体包括：

本发明实施例中的初始基础词库和停用词库最初是由人工构建的，例如，人工收集与业务相关的核心词构建第一个初始基础词库；人工收集停用词构建停用词库。初始基础词库可以是由核心词构成的核心词库，也可以是由业务类别构成的业务类别词库，还可以是既包括核心词也包括业务类别的词库。从而初始基础词库中的关键词可以是核心词或者业务类别，例如，核心词为“宽带”、“取消”、“预约”、“坏掉了”等。停用词库中的停用词为生活中使用频繁但不包含有用信息的词语，例如，停用词为“了”、“哦”、“的”等。

利用正则匹配的方法，将关键词作为匹配的基准，跟文本中进行匹配；例如，可以从文本中匹配出全部的单个汉字、两个汉字、三个汉字、四个汉字或五个汉字的词，作为备选词；也可以从文本中匹配出六个汉字、七个汉字或更多个汉字的词作为备选词；在本发明实施例中，最大词语长度为五个字，而在实际的应用场景中，最大词语长度可以根据实际的需求进行选择。除了正则匹配方法之外，还可以采用其他的可进行多汉字重叠匹配的方法对关键词和文本进行匹配。

执行完步骤S120之后，执行步骤S130，步骤S130为利用若干个所述备选词中与所述初始基础词库中的每一个关键词均不相同、以及与所述停用词库中每一个停用词均不相同的备选词，构建备选词库；或者，利用若干个所述备选词构建备选词库，去除所述备选词库中与任一所述关键词完全相同的备选词、以及去除所述备选词库中与所述停用词库中任一停用词完全相同的备选词。

可选的，步骤S130具体包括：

利用从若干个所述备选词中去除与任一所述关键词完全相同的词、以及从若干个所述备选词中去除与停用词库中任一停用词完全相同的词后若干个所述备选词中剩余的若干个剩余备选词，构建备选词库；或者，利用若干个所述备选词构建备选词库，去除所述备选词库中与任一所述关键词完全相同的备选词、以及去除所述备选词库中与所述停用词库中任一停用词完全相同的备选词。

例如，步骤S120执行完之后，总共得到20个备选词，初始基础词库中有300个关键词，停用词库中有200个停用词；在执行步骤S130时，将这20个备选词和300个关键词进行匹配，也需要将这20个备选词和200个停用词进行匹配，匹配之后发现这20个备选词中有5个和300个关键词中的5个相同，还有1个备选词和200个停用词中的一个停用词相同；从而就将5个和关键词重复的备选词去除、以及将1个和停用词重复的备选词去除，然后将剩余的14个备选词构建为一个备选词库。

再比如，步骤S120执行完之后，总共得到20个备选词，初始基础词库中有300个关键词，停用词库中有200个停用词；在执行步骤S130时，先利用这20个备选词构建备选词库，然后将这20个备选词和300个关键词进行匹配，也需要将这20个备选词和200个停用词进行匹配，匹配之后发现这20个备选词中有5个和300个关键词中的5个相同，还有1个备选词和200个停用词中的一个停用词相同；从而就从备选词库中去除这5个和关键词重复的备选词、以及去除这1个和停用词重复的备选词，最后备选词库中只有14个备选词。

执行步骤S130的目的是，在后续的步骤S140中，减少一定的无效计算。若对计算速度和效率无要求，也可以在执行完步骤S120之后，直接构建备选词库，此时的备选词库中就可能包括与关键词或停用词相同的备选词。

在执行完步骤S130之后，执行步骤S140，步骤S140为获取所述备选词库中的在文本集合中的词频大于预设次数的、在所述文本集合中聚合度大于第一预设阈值的且在所述文本集合中自由度小于第二预设阈值的备选词作为新词；其中，所述文本集合包括所述文本和/或除所述文本外的其它文本。

文本集合包括以下情况：

情况一，文本集合只包括本次执行步骤S110获取的文本。

情况二，文本集合只包括除本次执行步骤S110获取的文本之外的其它文本。

情况三，文本集合包括本次执行步骤S110获取的文本以及除本次执行步骤S110获取的文本之外的其他文本。

对于上述情况二，该文本集合可以是预先建立好的文本集合，其他文本可以是历史执行步骤S110获取到的文本。对于上述情况三的文本集合可以在每次执行完步骤S110之后对该文本集合进行扩充，即将每次执行步骤S110获取到的文本添加至该文本集合。

可选的，步骤S140具体包括以下方式：

方式b1，计算所述备选词库中每一个备选词在所述文本集合中的词频；计算所述备选词库中每一个备选词在所述文本集合中的聚合度；计算所述备选词库中每一个备选词在所述文本集合中的自由度；将在所述文本集合中的词频大于预设次数的、聚合度大于第一预设阈值的且自由度小于第二预设阈值的备选词作为新词。

方式b2，以第一筛选标准对所述备选词库中每一个备选词进行筛选处理，获取若干个符合第一筛选标准的第一备选词；所述第一筛选标准为在所述文本集合中的词频大于预设次数、在所述文本集合中的聚合度大于第一预设阈值和在所述文本集合中的自由度小于第二预设阈值中的一者；

以第二筛选标准对每一个所述第一备选词进行筛选处理，获取若干个符合第二筛选标准的第二备选词；所述第二筛选标准为在所述文本集合中的词频大于预设次数、在所述文本集合中的聚合度大于第一预设阈值和在所述文本集合中的自由度小于第二预设阈值中除所述第一筛选标准之外的一者；

以第三筛选标准对每一个所述第二备选词进行筛选处理，获取若干个符合第三筛选标准的新词；所述第三筛选标准为在所述文本集合中的词频大于预设次数、在所述文本集合中的聚合度大于第一预设阈值和在所述文本集合中的自由度小于第二预设阈值中除所述第一筛选标准和除所述第二筛选标准之外的一者。

对于上述方式b1和方式b2中的计算每一个备选词的词频，也就是计算每一个备选词在文本集合中的所有文本的总出现次数。例如，一个文本集合共有5个文本，文本编号分别为1号、2号、……、5号，一个备选词在1号、2号、……、5号文本中的出现次数分别为5次、0次、1次、0次和10次，则该备选词的词频为16次。在实际应用中，真正的和业务相关的关键词总会以一定频率出现在文本中，而一些看起来类似于关键词但实际是词碎片的词出现的频率一般较低。因此，可以将词频作为首个发现新词的筛选标准。

聚合度的定义是一个词组合的概率，也就是将几个词作为一个整体出现的概率。聚合度的值越大，说明这几个词作为整体出现的概率越大，也就是这个整体是一个有意义的新词的概率越大。例如，“路由器故障”这个由“路由器”和“故障”两个词组合出现的概率就比较大，可以考虑将“路由器故障”作为一个新的业务类别。聚合度可以利用以下公式计算：

其中，S为备选词库中的一个备选词，P(S)为词语出现的概率，然后获取备选词S所有可能的二切分(将一个包括多个字的词分成两个词)，其中Sl为备选词的左切分，Sr为备选词的右切分。例如，组合词“宽带取消”的二切分情况可能有“宽”(Sl)+“带取消”(Sr)、“宽带”(Sl)+“取消”(Sr)和“宽带取”(Sl)+“消”(Sr)。P(Sl)和P(Sr)分别为备选词的左切分和右切分出现的频率。

聚合度的数值越小，也就是备选词出现的概率相比于备选词的左切分和右切分的出现概率的乘积越小，从而该备选词的聚合度就较低。聚合度低也表明了备选词的左切分和右切分的独立性较高，备选词的左切分和右切分不适合用在一起作为组合词出现。利用上述公式计算聚合度时，计算出的数值可能非常小从而导致下溢出，为了避免下溢出以及将聚合度的取值范围映射到一个更平滑的区间内，可以计算上述公式中得出的数值的对数作为聚合度的数值。

一个备选词可以具有较高的聚合度，该备选词的子集也可以具有较高的聚合度；例如，“宽带取消”这一备选词的子集“宽带取”和“带取消”，由于“宽带取消”的词频和聚合度较高，可以推测“宽带取”和“带取消”各自的聚合度也较高；但“带取消”这个词是难以独立的结合到实际的语句中的，这是由于这个词的左边有很大的概率为“宽”这个字。自由度就是用于评判能否独立结合到实际的语句中的一个参数。为了判断备选词的上下文的搭配是否合理，需要计算一个备选词的自由度，从而就能够判断该备选词能否被灵活的在语句中应用。自由度的计算方法可以是计算信息熵(H)。例如，“带取消”这个备选词的左边在所有文本中可能会出现N个不同的汉字，每个汉字依次出现N1、N2、...、Nn次，则该词语的左邻熵(Hl)记为：

其中，p(xi)为第i个汉字和备选词组合的概率。熵值越小，说明该备选词的左邻词较为规律，因此自由度也较小。在实际应用中，选择一个备选词的左邻熵和右邻熵的中的较小值作为最终的自由度。

对于上述方式b1，先计算备选词库中的每一个备选词的词频、聚合度和自由度，然后对每一个备选词进行筛选，筛选条件为备选词的词频要大于预设次数、聚合度要大于第一预设阈值且自由度要小于第二预设阈值，经过筛选后的备选词才能作为新词。计算备选词库中的每一个备选词的词频、聚合度和自由度的先后顺序可以自由排序，在此不做限定。例如，依次计算词频、自由度和聚合度；或者依次计算聚合度、词频和自由度。

对于上述方式b2，为了获得新词要进行三次筛选处理，每次筛选处理对应于一个筛选标准。其中，第一筛选标准为在所述文本集合中的词频大于预设次数、在所述文本集合中的聚合度大于第一预设阈值和在所述文本集合中的自由度小于第二预设阈值中的一者；第二筛选标准为在所述文本集合中的词频大于预设次数、在所述文本集合中的聚合度大于第一预设阈值和在所述文本集合中的自由度小于第二预设阈值中除所述第一筛选标准之外的一者；第三筛选标准为在所述文本集合中的词频大于预设次数、在所述文本集合中的聚合度大于第一预设阈值和在所述文本集合中的自由度小于第二预设阈值中除所述第一筛选标准和除所述第二筛选标准之外的一者。

例如，第一筛选标准为在所述文本集合中的词频大于预设次数，则按照该标准对备选词库中每一个备选词进行筛选处理可以是计算备选词库中每一个备选词在文本集合中的词频；第二筛选标准为在所述文本集合中的聚合度大于第一预设阈值，则按照第二筛选标准对每一个第一备选词进行筛选处理可以是计算每一个第一备选词在文本集合中的聚合度。

表1

表1中给出了筛选标准的6中组合，其中，表格中的词频为在所述文本集合中的词频大于预设次数的缩写；表格中的聚合度为在所述文本集合中的聚合度大于第一预设阈值的缩写；表格中的自由度为在所述文本集合中的自由度小于第二预设阈值的缩写。例如，情况1中，第一筛选标准为在所述文本集合中的词频大于预设次数；第二筛选标准为在所述文本集合中的自由度小于第二预设阈值；第三筛选标准为在所述文本集合中的聚合度大于第一预设阈值。此外，表格中的情况1、情况2、……、情况6只是为了给出所有可能的情况，并没有特定的先后顺序。

进一步的，在执行完步骤S140之后，还可以将新词添加至初始基础词库，获取更新基础词库，从而完成基础词库扩充的过程。

具体的，更新基础词库可以用于装维人员的服务质量检验中，利用该词库作为服务质量的评价基准。本次获取的更新基础词库会成为下一次发现新词的过程中的初始基础词库。

进一步的，在执行完步骤S140之后、将新词添加至初始基础词库之前，还可以对新词进行人工审核。人工审核可以由工作人员凭借经验将一些虽然符合新词的条件但并不是与业务并非十分相关的词去除。

请参见图2，本发明实施例二提供了一种用于新词发现的文本挖掘装置20，所述装置包括：

文本获取单元201，用于获取包括若干个词的文本；

匹配单元202，用于从所述文本中获取若干个与初始基础词库中的任一关键词匹配的备选词；

第一构建单元203a，用于利用若干个所述备选词中与所述初始基础词库中的每一个关键词均不相同、以及与所述停用词库中每一个停用词均不相同的备选词，构建备选词库；或者，第二构建单元203b，用于利用若干个所述备选词构建备选词库，去除所述备选词库中与任一所述关键词完全相同的备选词、以及去除所述备选词库中与所述停用词库中任一停用词完全相同的备选词；

新词获取单元204，用于获取所述备选词库中的在文本集合中的词频大于预设次数的、在所述文本集合中聚合度大于第一预设阈值的且在所述文本集合中自由度小于第二预设阈值的备选词作为新词；其中，所述文本集合包括所述文本和/或除所述文本外的其它文本。

可选的，所述匹配单元，具体用于：

可选的，所述第一构建单元，具体用于：

可选的，所述新词获取单元，具体用于：

本发明实施例中，用于新词发现的文本挖掘装置20还可以将新词添加至初始基础词库，获得更新基础词库。更新基础词库可以用于装维人员的服务质量检验中，利用该词库作为服务质量的评价基准。本次获取的更新基础词库会成为下一次发现新词的过程中的初始基础词库。

在新词发现之后，用于新词发现的文本挖掘装置20可以用户提供一个包括显示界面的单元，用户可以通过该单元查看新词、对新词进行人工审核以及删除操作。

请参见图3，图3给出了图2中的用于新词发现的文本挖掘装置20的细化结构30。该细化结构具体包括：语音识别模块301、备选词获取模块302、词频筛选模块303、聚合度筛选模块304、自由度筛选模块305和人工筛选模块306。

语音识别模块303可以执行步骤S110，从而获取文本。语音识别模块303可以是图2中的文本获取单元201。

备选词获取模块302可以执行步骤S120，从而获取备选词库。备选词获取模块302可以是图2中的匹配单元202。备选词获取模块302在接收语音识别模块输出的文本后，输出备选词库。

词频筛选模块303，用于计算备选词的词频、筛选出词频大于预设次数的备选词以及去除词频小于预设次数的备选词。

聚合度筛选模块304，用于计算备选词的聚合度、筛选出聚合度大于第一预设阈值的备选词、以及去除聚合度小于第一预设阈值的备选词。

自由度筛选模块305，用于计算备选词的自由度、筛选出自由度小于第二预设阈值的备选词、以及去除自由度大于第二预设阈值的备选词。图2中的新词获取单元可以包括词频筛选模块303、聚合度筛选模块304和自由度筛选模块305。备选词获取模块302输出的备选词库中备选词输入词频筛选模块303之后，词频筛选模块303计算每一个备选词的词频，并去除词频小于预设次数的备选词。将词频筛选模块303输出的词频大于预设次数的备选词输入聚合度筛选模块304，从而聚合度筛选模块304计算输出该模块的备选词的聚合度，并输出词频大于预设次数且聚合度大于第一预设阈值的备选词。自由度筛选模块305接收聚合度筛选模块304输出的备选词，并输出词频大于预设次数且聚合度大于第一预设阈值且自由度小于第二预设阈值的新词。

该结构还包括向用户提供可以查看和删除新词功能的人工筛选模块306，从而用户可以审核新词和删除用户认为不正确的新词。

请参见图4，本发明实施例三提供了一种计算机装置30，包括：

至少一个处理器401，以及与所述至少一个处理器连接的存储器402；

其中，所述存储器402存储有可被所述至少一个处理器401执行的指令，所述至少一个处理器401通过执行所述存储器402存储的指令，执行如上述方法实施例中所述的方法的步骤。

可选的，处理器401具体可以包括中央处理器(central processing unit，CPU)、特定应用集成电路(application specific integrated circuit，ASIC)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(field programmablegate array，FPGA)开发的硬件电路，可以是基带处理器。

可选的，处理器401可以包括至少一个处理核心。

可选的，该装置还包括存储器402，存储器402可以包括只读存储器(read onlymemory，ROM)、随机存取存储器(random access memory，RAM)和磁盘存储器。存储器402用于存储处理器401运行时所需的数据。

本发明实施例四提供了一种计算机可读存储介质，包括：

所述计算机可读存储介质上存储有计算机指令，当所述计算机指令被所述计算机装置的至少一个处理器执行时，实现如上述方法实施例中所述的方法。

上述本发明实施例中的技术方案，至少具有如下的技术效果或优点：

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

本领域内的技术人员应明白，本发明实施例可提供为方法、设备、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、设备、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于新词发现的文本挖掘方法，其特征在于，所述方法包括：

获取包括若干个词的文本；

2.如权利要求1所述的方法，其特征在于，所述从所述文本中获取若干个与初始基础词库中的任一关键词匹配的备选词，具体包括：

3.如权利要求1所述的方法，其特征在于，所述利用若干个所述备选词中与所述初始基础词库中的每一个关键词均不相同、以及与所述停用词库中每一个停用词均不相同的备选词，构建备选词库，具体包括：

利用从若干个所述备选词中去除与任一所述关键词完全相同的词、以及从若干个所述备选词中去除与所述停用词库中任一停用词完全相同的词后若干个所述备选词中剩余的若干个剩余备选词，构建备选词库。

4.如权利要求1-3中任一项所述的方法，其特征在于，所述获取所述备选词库中的在所述文本集合中的词频大于预设次数的、聚合度大于第一预设阈值的且自由度小于第二预设阈值的备选词作为新词，具体包括：

5.一种用于新词发现的文本挖掘装置，其特征在于，所述装置包括：

文本获取单元，用于获取包括若干个词的文本；

6.如权利要求5所述的装置，其特征在于，所述匹配单元，具体用于：

7.如权利要求5所述的装置，其特征在于，所述第一构建单元，具体用于：

8.如权利要求5-7中任一项所述的装置，其特征在于，所述新词获取单元，具体用于：

9.一种计算机装置，其特征在于，包括：

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，执行如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括：

所述计算机可读存储介质上存储有计算机指令，当所述计算机指令被所述计算机装置的至少一个处理器执行时，实现如权利要求1-4中任一项所述的方法。