CN113485738A

CN113485738A - 一种软件故障智能分类方法与可读存储介质

Info

Publication number: CN113485738A
Application number: CN202110811196.2A
Authority: CN
Inventors: 王伟; 梁玮; 刘昌业; 王双贵; 彭婧
Original assignee: SAIC GM Wuling Automobile Co Ltd
Current assignee: SAIC GM Wuling Automobile Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-08
Anticipated expiration: 2041-07-19
Also published as: CN113485738B

Abstract

本发明提供了一种软件故障智能分类方法，包括：前置处理采用无监督聚类方法，按需产生分类；采用近义词、同义词、指代词替换的手段重新构造关键词，并采用聚类中心关键词构造新话题中心；采用优化k‑means模型，创建子类数量窗函数。本发明还提供了一种可读存储介质。本发明的有益效果是：在面对智能汽车市场新功能导致的新问题的分类中，无需预设问题类型，能有效发掘非预期的软件故障类型，能按需汽车词库分类类目，退回率下降大约12%；采用少即是多的手段重新构造关键词，能有效突出话题中心思想，聚类中心词构造新话题，解决核心话题文本关键词覆盖率低的问题；用聚类中心最近邻多词构造新话题中心，使LSI、PLSA模型相似度分析准确率约有35%的提升。

Description

一种软件故障智能分类方法与可读存储介质

技术领域

本发明涉及分类方法，尤其涉及一种软件故障智能分类方法与可读存储介质。

背景技术

现阶段汽车用户声音分类主要有以下处理方式:

1)基于excel的人工分类；

2)互联企业基于LDA的摘要检索分类。

目前的处理，存在以下问题:

1)需要预设用户抱怨问题分类的类型，导致很多用户声音、用户抱怨被强行分类；

2)传统文本核心话题抽取文本关键词覆盖率低；

3)潜在语义分析模型在汽车用户抱怨这类10-30字超短文本分类失准的问题。

发明内容

为了解决现有技术中的问题，本发明提供了一种软件故障智能分类方法与可读存储介质。

本发明提供了一种软件故障智能分类方法，包括：前置处理采用无监督聚类方法，按需产生分类；采用近义词、同义词、指代词替换的手段重新构造关键词，并采用聚类中心关键词构造新话题中心；采用优化k-means模型，创建子类数量窗函数。

作为本发明的进一步改进，用聚类中心最近邻的多个关键词，构造新话题中心。

作为本发明的进一步改进，所述方法包括以下步骤：

S1、输入汽车用户声音超短文本；

S2、采用中文分词、去除停用词、合并近义词进行文本类数据清洗；

S3、提取超短文本关键词；

S4、超短文本向量化，对清洗过的超短文本类数据进行数字化转换，将文本分成单词、再将单词转化数字，通过数字转化，将包含多个单词的每条用户声音转化为一个多维数组，即多维向量；

S5、k-means++聚类的奇异值分析，根据步骤S3中提取到的超短文本关键词的总量确定窗口值，当子类数量大于窗口值时，提取距离聚类中心最近的多个关键语来构造新话题中心，进行奇异值分析，在排除无关内容后，加入全局文本，使用潜在语义索引在全局文本中寻找相似语句，根据汽车词库提取每组相似语句摘要作为分类类目，分类完成。

本发明还提供了一种可读存储介质，所述可读存储介质存储有执行指令，所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。

本发明的有益效果是：

一、在面对智能汽车市场新功能导致的新问题的分类中，无需预设问题类型，能有效发掘非预期的软件故障类型，能按需汽车词库分类类目，退回率下降大约12%；

二、采用少即是多的手段重新构造关键词，能有效突出话题中心思想，聚类中心词构造新话题，解决核心话题文本关键词覆盖率低的问题；

三、用聚类中心最近邻多词构造新话题中心，使LSI、PLSA模型相似度分析准确率约有35%的提升。

附图说明

图1是本发明种软件故障智能分类方法的流程图。

具体实施方式

下面结合附图说明及具体实施方式对本发明作进一步说明。

如图1所示，一种软件故障智能分类方法，主要包括以下内容：

1)无需预设问题类型，能有效发掘非预期的软件故障类型，前置处理采用无监督聚类方法，按需产生分类；

2)采用近义词、同义词、指代词替换的手段重新构造关键词，能有效突出话题中心思想，提升文本抽取的覆盖率，并取用聚类中心关键词构造新话题，规避核心话题文本关键词覆盖率低的问题；

3)用聚类中心最近邻15词，构造新话题中心，聚少成多，解决潜在语义分析模型在超短文本分类失准的问题；

4)采用优化k-means模型，通过创建子类数量窗函数，解决聚类中心随机选取时在歧义点区的迷走问题。

本专利中为进行文本数据化，采用了中文分词、去除停用词（高频但不影响语义的，如：语气助词等）、合并近义词（名称代词、同义词）等文本类数据清洗工作，增强语义清晰度。

为了文本采样的数字化分析，对清洗过的超短文本类数据进行数字化转换，将文本分成单词、再将单词转化数字，通过数字转化将包含多个单词的每条用户声音转化为一个多维数组，即多维向量。

为了解决聚类中心随机选取时在歧义点区的迷走问题，选择聚类核心K时，采用了算法最开始随机选取数据集中K个点作为聚类中心，聚类中心选取相互离得较远的点做随机。

为了保证信息来源中的无意义数据不影响智能分类，采用了k-means++聚类后的奇异值分析用以排除论坛、APP等渠道的水贴、混乱信息、广告信息。

为了使用成熟的语义分类方法实现超短文本分辨率的提升，用聚类中心最近邻15词构造新话题中心，如图1所示。采用重新构造新话题的方法解决核心话题文本关键词覆盖率低的问题，在车型开发实际问题分析中使LSI、PLSA模型相似度分析准确率约有35%的提升，使研发职能科室人工复查退回率下降12%。

本方法的具体过程如下：

S1、输入汽车用户声音超短文本；

S3、提取超短文本关键词；

本发明提供的一种软件故障智能分类方法，主要有以下特点：

1.针对10-30字的超短文本创新的采用无监督聚类结合奇异值分析方法完成自分类，按需产生新的分组充填分类类目，无需预设问题类型，能有效发掘非预期的软件故障类型；

2.独创性的结合智能分类中的摘要方法和关键词法并加入汽车类近义词、代词词库替换的综合手段提取话题中心思想，再以重新构造待分类话题，规避直接抽取核心话题文本关键词覆盖率低的问题；

3.创新的抽取用聚类中心最近邻多个中心词汇，构造新话题中心，集腋成裘，规避传统支持向量机语义分析模型在超短文本语句转化的向量(维度低)难以提取足够的关键词分析维度导致分类失准的问题。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种软件故障智能分类方法，其特征在于，包括：前置处理采用无监督聚类方法，按需产生分类；采用近义词、同义词、指代词替换的手段重新构造关键词，并采用聚类中心关键词构造新话题中心；采用优化k-means模型，创建子类数量窗函数。

2.根据权利要求1所述的软件故障智能分类方法，其特征在于：用聚类中心最近邻的多个关键词，构造新话题中心。

3.根据权利要求1所述的软件故障智能分类方法，其特征在于：所述方法包括以下步骤：

S1、输入汽车用户声音超短文本；

S3、提取超短文本关键词；

4.一种可读存储介质，其特征在于：所述可读存储介质存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至3中任一项所述的方法。