CN113485738A - 一种软件故障智能分类方法与可读存储介质 - Google Patents
一种软件故障智能分类方法与可读存储介质 Download PDFInfo
- Publication number
- CN113485738A CN113485738A CN202110811196.2A CN202110811196A CN113485738A CN 113485738 A CN113485738 A CN 113485738A CN 202110811196 A CN202110811196 A CN 202110811196A CN 113485738 A CN113485738 A CN 113485738A
- Authority
- CN
- China
- Prior art keywords
- keywords
- words
- center
- classification
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种软件故障智能分类方法,包括:前置处理采用无监督聚类方法,按需产生分类;采用近义词、同义词、指代词替换的手段重新构造关键词,并采用聚类中心关键词构造新话题中心;采用优化k‑means模型,创建子类数量窗函数。本发明还提供了一种可读存储介质。本发明的有益效果是:在面对智能汽车市场新功能导致的新问题的分类中,无需预设问题类型,能有效发掘非预期的软件故障类型,能按需汽车词库分类类目,退回率下降大约12%;采用少即是多的手段重新构造关键词,能有效突出话题中心思想,聚类中心词构造新话题,解决核心话题文本关键词覆盖率低的问题;用聚类中心最近邻多词构造新话题中心,使LSI、PLSA模型相似度分析准确率约有35%的提升。
Description
技术领域
本发明涉及分类方法,尤其涉及一种软件故障智能分类方法与可读存储介质。
背景技术
现阶段汽车用户声音分类主要有以下处理方式:
1)基于excel的人工分类;
2)互联企业基于LDA的摘要检索分类。
目前的处理,存在以下问题:
1)需要预设用户抱怨问题分类的类型,导致很多用户声音、用户抱怨被强行分类;
2)传统文本核心话题抽取文本关键词覆盖率低;
3)潜在语义分析模型在汽车用户抱怨这类10-30字超短文本分类失准的问题。
发明内容
为了解决现有技术中的问题,本发明提供了一种软件故障智能分类方法与可读存储介质。
本发明提供了一种软件故障智能分类方法,包括:前置处理采用无监督聚类方法,按需产生分类;采用近义词、同义词、指代词替换的手段重新构造关键词,并采用聚类中心关键词构造新话题中心;采用优化k-means模型,创建子类数量窗函数。
作为本发明的进一步改进,用聚类中心最近邻的多个关键词,构造新话题中心。
作为本发明的进一步改进,所述方法包括以下步骤:
S1、输入汽车用户声音超短文本;
S2、采用中文分词、去除停用词、合并近义词进行文本类数据清洗;
S3、提取超短文本关键词;
S4、超短文本向量化,对清洗过的超短文本类数据进行数字化转换,将文本分成单词、再将单词转化数字,通过数字转化,将包含多个单词的每条用户声音转化为一个多维数组,即多维向量;
S5、k-means++聚类的奇异值分析,根据步骤S3中提取到的超短文本关键词的总量确定窗口值,当子类数量大于窗口值时,提取距离聚类中心最近的多个关键语来构造新话题中心,进行奇异值分析,在排除无关内容后,加入全局文本,使用潜在语义索引在全局文本中寻找相似语句,根据汽车词库提取每组相似语句摘要作为分类类目,分类完成。
本发明还提供了一种可读存储介质,所述可读存储介质存储有执行指令,所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。
本发明的有益效果是:
一、在面对智能汽车市场新功能导致的新问题的分类中,无需预设问题类型,能有效发掘非预期的软件故障类型,能按需汽车词库分类类目,退回率下降大约12%;
二、采用少即是多的手段重新构造关键词,能有效突出话题中心思想,聚类中心词构造新话题,解决核心话题文本关键词覆盖率低的问题;
三、用聚类中心最近邻多词构造新话题中心,使LSI、PLSA模型相似度分析准确率约有35%的提升。
附图说明
图1是本发明种软件故障智能分类方法的流程图。
具体实施方式
下面结合附图说明及具体实施方式对本发明作进一步说明。
如图1所示,一种软件故障智能分类方法,主要包括以下内容:
1)无需预设问题类型,能有效发掘非预期的软件故障类型,前置处理采用无监督聚类方法,按需产生分类;
2)采用近义词、同义词、指代词替换的手段重新构造关键词,能有效突出话题中心思想,提升文本抽取的覆盖率,并取用聚类中心关键词构造新话题,规避核心话题文本关键词覆盖率低的问题;
3)用聚类中心最近邻15词,构造新话题中心,聚少成多,解决潜在语义分析模型在超短文本分类失准的问题;
4)采用优化k-means模型,通过创建子类数量窗函数,解决聚类中心随机选取时在歧义点区的迷走问题。
本专利中为进行文本数据化,采用了中文分词、去除停用词(高频但不影响语义的,如:语气助词等)、合并近义词(名称代词、同义词)等文本类数据清洗工作,增强语义清晰度。
为了文本采样的数字化分析,对清洗过的超短文本类数据进行数字化转换,将文本分成单词、再将单词转化数字,通过数字转化将包含多个单词的每条用户声音转化为一个多维数组,即多维向量。
为了解决聚类中心随机选取时在歧义点区的迷走问题,选择聚类核心K时,采用了算法最开始随机选取数据集中K个点作为聚类中心,聚类中心选取相互离得较远的点做随机。
为了保证信息来源中的无意义数据不影响智能分类,采用了k-means++聚类后的奇异值分析用以排除论坛、APP等渠道的水贴、混乱信息、广告信息。
为了使用成熟的语义分类方法实现超短文本分辨率的提升,用聚类中心最近邻15词构造新话题中心,如图1所示。采用重新构造新话题的方法解决核心话题文本关键词覆盖率低的问题,在车型开发实际问题分析中使LSI、PLSA模型相似度分析准确率约有35%的提升,使研发职能科室人工复查退回率下降12%。
本方法的具体过程如下:
S1、输入汽车用户声音超短文本;
S2、采用中文分词、去除停用词、合并近义词进行文本类数据清洗;
S3、提取超短文本关键词;
S4、超短文本向量化,对清洗过的超短文本类数据进行数字化转换,将文本分成单词、再将单词转化数字,通过数字转化,将包含多个单词的每条用户声音转化为一个多维数组,即多维向量;
S5、k-means++聚类的奇异值分析,根据步骤S3中提取到的超短文本关键词的总量确定窗口值,当子类数量大于窗口值时,提取距离聚类中心最近的多个关键语来构造新话题中心,进行奇异值分析,在排除无关内容后,加入全局文本,使用潜在语义索引在全局文本中寻找相似语句,根据汽车词库提取每组相似语句摘要作为分类类目,分类完成。
本发明提供的一种软件故障智能分类方法,主要有以下特点:
1.针对10-30字的超短文本创新的采用无监督聚类结合奇异值分析方法完成自分类,按需产生新的分组充填分类类目,无需预设问题类型,能有效发掘非预期的软件故障类型;
2.独创性的结合智能分类中的摘要方法和关键词法并加入汽车类近义词、代词词库替换的综合手段提取话题中心思想,再以重新构造待分类话题,规避直接抽取核心话题文本关键词覆盖率低的问题;
3.创新的抽取用聚类中心最近邻多个中心词汇,构造新话题中心,集腋成裘,规避传统支持向量机语义分析模型在超短文本语句转化的向量(维度低)难以提取足够的关键词分析维度导致分类失准的问题。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (4)
1.一种软件故障智能分类方法,其特征在于,包括:前置处理采用无监督聚类方法,按需产生分类;采用近义词、同义词、指代词替换的手段重新构造关键词,并采用聚类中心关键词构造新话题中心;采用优化k-means模型,创建子类数量窗函数。
2.根据权利要求1所述的软件故障智能分类方法,其特征在于:用聚类中心最近邻的多个关键词,构造新话题中心。
3.根据权利要求1所述的软件故障智能分类方法,其特征在于:所述方法包括以下步骤:
S1、输入汽车用户声音超短文本;
S2、采用中文分词、去除停用词、合并近义词进行文本类数据清洗;
S3、提取超短文本关键词;
S4、超短文本向量化,对清洗过的超短文本类数据进行数字化转换,将文本分成单词、再将单词转化数字,通过数字转化,将包含多个单词的每条用户声音转化为一个多维数组,即多维向量;
S5、k-means++聚类的奇异值分析,根据步骤S3中提取到的超短文本关键词的总量确定窗口值,当子类数量大于窗口值时,提取距离聚类中心最近的多个关键语来构造新话题中心,进行奇异值分析,在排除无关内容后,加入全局文本,使用潜在语义索引在全局文本中寻找相似语句,根据汽车词库提取每组相似语句摘要作为分类类目,分类完成。
4.一种可读存储介质,其特征在于:所述可读存储介质存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110811196.2A CN113485738B (zh) | 2021-07-19 | 2021-07-19 | 一种软件故障智能分类方法与可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110811196.2A CN113485738B (zh) | 2021-07-19 | 2021-07-19 | 一种软件故障智能分类方法与可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113485738A true CN113485738A (zh) | 2021-10-08 |
CN113485738B CN113485738B (zh) | 2023-04-07 |
Family
ID=77942190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110811196.2A Active CN113485738B (zh) | 2021-07-19 | 2021-07-19 | 一种软件故障智能分类方法与可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113485738B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120254333A1 (en) * | 2010-01-07 | 2012-10-04 | Rajarathnam Chandramouli | Automated detection of deception in short and multilingual electronic messages |
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
US20140270526A1 (en) * | 2013-03-14 | 2014-09-18 | Konica Minolta Laboratory U.S.A., Inc. | Method for segmenting text words in document images |
CN108763576A (zh) * | 2018-05-28 | 2018-11-06 | 大连理工大学 | 一种用于高维文本数据的并行k-means算法 |
CN109710760A (zh) * | 2018-12-20 | 2019-05-03 | 泰康保险集团股份有限公司 | 短文本的聚类方法、装置、介质及电子设备 |
WO2019189951A1 (ko) * | 2018-03-26 | 2019-10-03 | (주)와이즈넛 | 고객의 소리 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법 |
-
2021
- 2021-07-19 CN CN202110811196.2A patent/CN113485738B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120254333A1 (en) * | 2010-01-07 | 2012-10-04 | Rajarathnam Chandramouli | Automated detection of deception in short and multilingual electronic messages |
US20140270526A1 (en) * | 2013-03-14 | 2014-09-18 | Konica Minolta Laboratory U.S.A., Inc. | Method for segmenting text words in document images |
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
WO2019189951A1 (ko) * | 2018-03-26 | 2019-10-03 | (주)와이즈넛 | 고객의 소리 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법 |
CN108763576A (zh) * | 2018-05-28 | 2018-11-06 | 大连理工大学 | 一种用于高维文本数据的并行k-means算法 |
CN109710760A (zh) * | 2018-12-20 | 2019-05-03 | 泰康保险集团股份有限公司 | 短文本的聚类方法、装置、介质及电子设备 |
Non-Patent Citations (7)
Title |
---|
ROBERTA A.SINOARA等: ""Knowledge-enhanced document embeddings for text classification"", 《KNOWLEDGE-BASED SYSTEMS》 * |
SZILÁRD VAJDA等: ""A Fast k-Nearest Neighbor Classifier Using Unsupervised Clustering"", 《INTERNATIONAL CONFERENCE ON RECENT TRENDS IN IMAGE PROCESSING AND PATTERN RECOGNITION》 * |
张孝飞 等: ""一种采用聚类技术改进的KNN文本分类方法"", 《模式识别与人工智能》 * |
杨波 等: ""基于词向量和增量聚类的短文本聚类算法"", 《计算机工程与设计》 * |
汪成亮 等: ""基于三轴传感器的老年人日常活动识别"", 《电子学报》 * |
王余行: ""基于网络论坛数据的汽车质量问题挖掘研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 工程科技Ⅱ辑》 * |
田军霞: ""基于短文本处理算法优化的文本信息推荐系统的设计与实现"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113485738B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CN113704451B (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN110222045B (zh) | 一种数据报表获取方法、装置及计算机设备、存储介质 | |
CN113505586A (zh) | 一种融合语义分类与知识图谱的坐席辅助问答方法与系统 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN106095753A (zh) | 一种基于信息熵和术语可信度的金融领域术语识别方法 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
Wang | A domain-specific question answering system based on ontology and question templates | |
CN113297365B (zh) | 一种用户意向判定方法、装置、设备及存储介质 | |
CN110704638A (zh) | 一种基于聚类算法的电力文本词典构造方法 | |
CN112101971A (zh) | 敏感客户识别方法、系统及存储介质 | |
CN114969297A (zh) | 一种电力客户诉求相关度分析方法 | |
CN117708274A (zh) | 一种基于大模型的搜索问答系统及其方法和电子设备 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
Loglisci et al. | Toward geographic information harvesting: Extraction of spatial relational facts from Web documents | |
CN113485738B (zh) | 一种软件故障智能分类方法与可读存储介质 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN109684357A (zh) | 信息处理方法及装置、存储介质、终端 | |
Wang | Extracting latent topics from user reviews using online LDA | |
CN112800314B (zh) | 搜索引擎询问自动补全的方法、系统、存储介质及设备 | |
CN112115237B (zh) | 烟草科技文献数据推荐模型的构建方法及装置 | |
Shrawankar et al. | Construction of news headline from detailed news article | |
CN115017264A (zh) | 模型效果验证方法及装置 | |
Quarteroni et al. | Evaluating Multi-focus Natural Language Queries over Data Services. | |
Maheswari et al. | Rule based morphological variation removable stemming algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |