CN112417893A - 一种基于语义层次聚类的软件功能需求分类方法及系统 - Google Patents

一种基于语义层次聚类的软件功能需求分类方法及系统 Download PDF

Info

Publication number
CN112417893A
CN112417893A CN202011488329.9A CN202011488329A CN112417893A CN 112417893 A CN112417893 A CN 112417893A CN 202011488329 A CN202011488329 A CN 202011488329A CN 112417893 A CN112417893 A CN 112417893A
Authority
CN
China
Prior art keywords
text
bag
clustering
vector
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011488329.9A
Other languages
English (en)
Inventor
张腾飞
刘建
褚福常
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Xugong Construction Machinery Research Institute Co ltd
Original Assignee
Jiangsu Xugong Construction Machinery Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Xugong Construction Machinery Research Institute Co ltd filed Critical Jiangsu Xugong Construction Machinery Research Institute Co ltd
Priority to CN202011488329.9A priority Critical patent/CN112417893A/zh
Publication of CN112417893A publication Critical patent/CN112417893A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义层次聚类的软件功能需求分类方法,包括将功能需求文本整理成名词加动词的标准文本;对整理后的标准文本进行切词;对切词后的文本构建词袋模型;将词袋模型中的词袋向量转成权值向量;对转换后的权值向量进行余弦相似度计算;对经过余弦相似度计算后的权值向量进行聚类,本发明利用层次聚类算法计算能力强,效率高且分类个数可调的特点,直观准确的显示分类效果。

Description

一种基于语义层次聚类的软件功能需求分类方法及系统
技术领域
本发明属于软件需求分类技术领域,尤其涉及一种基于语义层次聚类的软件功能需求分类方法及系统。
背景技术
随着工程机械行业日益增多的智能化、网联化、数字化等功能,并且机型种类多,自然语言描述的需求文本也日益增多,对需求文本处理的好坏,决定了工程机械软件开发的品质。然而当前需求文本的处理方法还停留在人工分类阶段,人工分类存在对人的分类经验要求较高,领域知识不全面,主观影响较大,分类效率不高,难以准确分类等缺点。分类精准化和高效化是解决上述缺点的主要途径,也是提升工程机械开发品质的关键。
目前工程机械行业对文本功能需求分类主要采用人工分类,分类效果较差,针对工程机械机型较多、分类要求较为精确的特点,如果没有高效准确的分类方法,只借助人工分类,不仅不直观精度也难以把握。
发明内容
本发明的目的在于提供一种基于语义层次聚类的软件功能需求分类方法及系统,能够对软件功能需求进行高效分类。
为实现上述目的,本发明提供如下技术方案:
第一方面,提供了一种基于语义层次聚类的软件功能需求分类方法,包括:
将功能需求文本整理成名词加动词的标准文本;
对整理后的标准文本进行切词;
对切词后的文本构建词袋模型;
将词袋模型中的词袋向量转成权值向量;
对转换后的权值向量进行余弦相似度计算;
对经过余弦相似度计算后的权值向量进行聚类。
结合第一方面,进一步的,所述对切词后的文本构建词袋模型具体为:将切词后的文本去重后构建成词条列表,然后将文本构建成一个向量,向量的维度与词条列表的维度相同,向量的值为词条在该文本中出现的次数。
结合第一方面,进一步的,通过TF-IDF统计法将词袋向量转换为权值向量。
结合第一方面,进一步的,所述对转换后的权值向量进行余弦相似度计算具体为:采用下式对转换后的权值向量进行余弦相似度计算:
Figure BDA0002839995390000021
Ai、Bi分别为进行相似度比较的两个权值向量,n为样本总量;然后将相似的向量归为一类。
结合第一方面,进一步的,所述对经过余弦相似度计算后的权值向量进行聚类为:
将归为一类的向量作为一个初始聚类簇,然后找出两个聚类最近的两个簇进行合并,不断重复,直到达到预设条件。
结合第一方面,进一步的,两个簇之间的距离通过下式进行计算:
最小距离:
Figure BDA0002839995390000022
最大距离:
Figure BDA0002839995390000023
平均距离:
Figure BDA0002839995390000024
其中,Ci和Cj分别表示第i和第j个簇,X和Z分别表示簇Ci和Cj中的样本。
结合第一方面,进一步的,还包括将聚类的结果数据可视化,去除单独成为一类的数据,将两个或两个以上的需求文本聚成一类进行可视化。
第二方面,提供了一种基于语义层次聚类的软件功能需求分类系统,包括:
词袋模型建模模块:用于将功能需求文本整理成名词加动词的标准文本;对整理后的标准文本进行切词;对切词后的文本构建词袋模型;
聚类计算摸摸,用于将词袋模型中的词袋向量转成权值向量;
对转换后的权值向量进行余弦相似度计算;
对经过余弦相似度计算后的权值向量进行聚类。
结合第二方面,进一步的,词袋模型建模模块包括:
整理模块:用于将功能需求文本整理成名词加动词的标准文本;
切词模块:用于对整理后的标准文本进行切词;
建模模块:用于对切词后的文本构建词袋模型。
结合第二方面,进一步的,所述聚类计算摸摸包括:
向量转换模块:用于将词袋模型中的词袋向量转成权值向量;
余弦计算模块:用于对转换后的权值向量进行余弦相似度计算;
聚类模块:用于对经过余弦相似度计算后的权值向量进行聚类。
有益技术效果:本发明提出一种基于语义层次聚类算法的软件功能需求的分类方法,利用层次聚类算法计算能力强,效率高且分类个数可调的特点,直观准确的显示分类效果,将整个工程机械的代表机型的文本进行分类,并且可以通过编写程序得到运行结果,让开发人员清晰直观的看到分类效果,分类效果更加直观,分类结果也可以得到最大程度保证。而且,编写的程序语言提供专门的中文切词工具,完美的模拟了真实的语义切词环境,使得工程机械的文本需求分类可以更加充分可信。
附图说明
图1为本发明的流程图;
图2为本中人工整理后的标准需求文本示意图;
图3为本发明中经过切词处理的切词文本;
图4为本发明中的聚类结果示意图;
图5为本发明中经整理后的需求分类可视化示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-5所示,提供了一种基于语义层次聚类的软件功能需求分类方法,包括:
步骤一、将功能需求文本整理成名词加动词的标准文本;
收集到的需求由于是自然语言表达的涉众需求,所以文本描述比较自由不规范,所以需要对其进行加工处理,具体是将其转化为动词加名词或名词加动词的标准文本。例如涉众需求为:根据采集的数据诊断故障模式可将其转化成诊断故障模式。
步骤二、对整理后的标准文本进行切词;
要对中文文本做聚类分析,首先要对文本做分词处理,例如“卷扬加压”,我们希望将其切分为“卷扬加压”。python提供专门的中文切词工具“jieba”,它可以将中文长文本划分为若干个单词。
为了提高分类的准确率,还要考虑两个干扰因素:一是英文字母大小写的影响,为此我们将英文字母统一转换为大写;二是“()”、“-”、“/”、“&”等符号作为停用词,将其从分词结果中去除掉,最后得到有效的词汇组合。
步骤三、对切词后的文本构建词袋模型;
文本被切分成单词后,需要进一步转换成向量。先将所有文本中的词汇构建成一个词条列表,其中不含重复的词条。然后对每个文本,构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数,这种模型叫做词袋模型。例如,“卷扬加压”和“桅杆调节”两个文本切词后的结果是“卷扬加压”和“桅杆调节”,它们构成的词条列表是[卷扬,加压,桅杆,调节],对应的词袋模型分别是[1,1,0,0],[0,0,1,1]。
步骤四、将词袋模型中的词袋向量转成权值向量;
TF-IDF是一种统计方法,用来评估一个词条对于一个文件集中一份文件的重要程度。TF-IDF的主要思想是:如果某个词在一篇文章中出现的频率TF高,并且在其他文件中很少出现,则认为此词条具有很好的类别区分能力,适合用来分类。将词袋向量转换为TF-IDF权值向量,更有利于判断两个文本的相似性。
步骤五、对转换后的权值向量进行余弦相似度计算;
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体差异的大小。相比欧氏距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上的差异。余弦值的计算公式如下:
Figure BDA0002839995390000051
其中,Ai、Bi分别为进行相似度比较的两个权值向量,n为样本总量;然后将相似的向量归为一类。
相对于欧氏距离,余弦相似度更适合计算文本的相似度。首先将文本转换为权值向量,通过计算两个向量的夹角余弦值,就可以评估他们的相似度。余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量方向越接近;越趋近于-1,代表他们的方向越相反。为了方便聚类分析,我们将余弦值做归一化处理,将其转换到[0,1]之间,并且值越小距离越近。
步骤六、对经过余弦相似度计算后的权值向量进行聚类。
层次聚类试图在不同的层次对数据集进行划分,可以采用“自底向上”的聚类策略,也可以采用“自顶向下”的分拆策略。一般采用“自底向上”的策略,它的思路是先将数据集中的每个样本看作一个初始聚类簇,然后找出两个聚类最近的两个簇进行合并,不断重复该步骤,直到达到预设的聚类个数或某种条件。关键是如何计算两个簇之间的距离,每个簇都是一个集合,因此需要计算集合的某种距离即可。例如,给定簇Ci和Cj,可通过以下3种方式计算距离:
最小距离:
Figure BDA0002839995390000052
最大距离:
Figure BDA0002839995390000053
平均距离:
Figure BDA0002839995390000054
最小距离由两个簇的最近样本决定,最大距离由两个簇的最远样本决定,平均距离由两个簇的所有样本决定。
其中,Ci和Cj分别表示第i和第j个簇,X和Z分别表示簇Ci和Cj中的样本。
接下来要考虑如何确定一个合适的聚类个数或某种结束条件,具体思路是:
(1)选定一部分测试样本,对其进行层次聚类分析。
(2)记算性能度量指标DBI和DI的变化趋势,结合人工校验,得到一个合适的聚类个数和对应的距离阈值。
(3)将此距离阈值作为聚类结束的条件,对所有样本做聚类分析。此时无需再计算DBI和DI值,计算效率可以大幅提升。
最后,将聚类结果数据可视化。
程序运行的结果是数字表示的一种形式,最终要以可视化的方式展示,所以需要人工对程序结果进行整理处理,对程序运行的数据对应的文本进行分类,去除单独成为一类的数据,将2个或2个以上的需求文本聚成一类成的数据应用数据可视化技术进行可视化显示。
实施例2
提供了一种基于语义层次聚类的软件功能需求分类系统,包括:
词袋模型建模模块:用于将功能需求文本整理成名词加动词的标准文本;对整理后的标准文本进行切词;对切词后的文本构建词袋模型;
聚类计算摸摸,用于将词袋模型中的词袋向量转成权值向量;
对转换后的权值向量进行余弦相似度计算;
对经过余弦相似度计算后的权值向量进行聚类。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于语义层次聚类的软件功能需求分类方法,其特征在于,包括:
将功能需求文本整理成名词加动词的标准文本;
对整理后的标准文本进行切词;
对切词后的文本构建词袋模型;
将词袋模型中的词袋向量转成权值向量;
对转换后的权值向量进行余弦相似度计算;
对经过余弦相似度计算后的权值向量进行聚类。
2.根据权利要求1所述的基于语义层次聚类的软件功能需求分类方法,其特征在于:所述对切词后的文本构建词袋模型具体为:将切词后的文本去重后构建成词条列表,然后将文本构建成一个向量,向量的维度与词条列表的维度相同,向量的值为词条在该文本中出现的次数。
3.根据权利要求1所述的基于语义层次聚类的软件功能需求分类方法,其特征在于:通过TF-IDF统计法将词袋向量转换为权值向量。
4.根据权利要求1所述的基于语义层次聚类的软件功能需求分类方法,其特征在于:所述对转换后的权值向量进行余弦相似度计算具体为:采用下式对转换后的权值向量进行余弦相似度计算:
Figure FDA0002839995380000011
Ai、Bi分别为进行相似度比较的两个权值向量,n为样本总量;然后将相似的向量归为一类。
5.根据权利要求4所述的基于语义层次聚类的软件功能需求分类方法,其特征在于,所述对经过余弦相似度计算后的权值向量进行聚类为:
将归为一类的向量作为一个初始聚类簇,然后找出两个聚类最近的两个簇进行合并,不断重复,直到达到预设条件。
6.根据权利要求5所述的基于语义层次聚类的软件功能需求分类方法,其特征在于,两个簇之间的距离通过下式进行计算:
最小距离:
Figure FDA0002839995380000021
最大距离:
Figure FDA0002839995380000022
平均距离:
Figure FDA0002839995380000023
其中,Ci和Cj分别表示第i和第j个簇,X和Z分别表示簇Ci和Cj中的样本。
7.根据权利要求1所述的基于语义层次聚类的软件功能需求分类方法,还包括将聚类的结果数据可视化,去除单独成为一类的数据,将两个或两个以上的需求文本聚成一类进行可视化。
8.一种基于语义层次聚类的软件功能需求分类系统,其特征在于,包括:
词袋模型建模模块:用于将功能需求文本整理成名词加动词的标准文本;对整理后的标准文本进行切词;对切词后的文本构建词袋模型;
聚类计算摸摸,用于将词袋模型中的词袋向量转成权值向量;
对转换后的权值向量进行余弦相似度计算;
对经过余弦相似度计算后的权值向量进行聚类。
9.根据权利要求8所述的基于语义层次聚类的软件功能需求分类系统,其特征在于,词袋模型建模模块包括:
整理模块:用于将功能需求文本整理成名词加动词的标准文本;
切词模块:用于对整理后的标准文本进行切词;
建模模块:用于对切词后的文本构建词袋模型。
10.根据权利要求8所述的基于语义层次聚类的软件功能需求分类系统,其特征在于,所述聚类计算摸摸包括:
向量转换模块:用于将词袋模型中的词袋向量转成权值向量;
余弦计算模块:用于对转换后的权值向量进行余弦相似度计算;
聚类模块:用于对经过余弦相似度计算后的权值向量进行聚类。
CN202011488329.9A 2020-12-16 2020-12-16 一种基于语义层次聚类的软件功能需求分类方法及系统 Pending CN112417893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011488329.9A CN112417893A (zh) 2020-12-16 2020-12-16 一种基于语义层次聚类的软件功能需求分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011488329.9A CN112417893A (zh) 2020-12-16 2020-12-16 一种基于语义层次聚类的软件功能需求分类方法及系统

Publications (1)

Publication Number Publication Date
CN112417893A true CN112417893A (zh) 2021-02-26

Family

ID=74775997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011488329.9A Pending CN112417893A (zh) 2020-12-16 2020-12-16 一种基于语义层次聚类的软件功能需求分类方法及系统

Country Status (1)

Country Link
CN (1) CN112417893A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159196A (zh) * 2021-04-26 2021-07-23 云南大学 一种基于正则变分嵌入式的软件需求聚类方法及系统
CN113656807A (zh) * 2021-08-23 2021-11-16 杭州安恒信息技术股份有限公司 一种漏洞管理方法、装置、设备及存储介质
CN117891411A (zh) * 2024-03-14 2024-04-16 济宁蜗牛软件科技有限公司 一种海量档案数据优化存储方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815310A (zh) * 2016-12-20 2017-06-09 华南师范大学 一种对海量文档集的层次聚类方法及系统
CN107590218A (zh) * 2017-09-01 2018-01-16 南京理工大学 基于Spark的多特征结合中文文本高效聚类方法
CN108959289A (zh) * 2017-05-18 2018-12-07 北京京东尚科信息技术有限公司 网站类别获取方法和装置
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111538839A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于杰卡德距离的实时文本聚类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815310A (zh) * 2016-12-20 2017-06-09 华南师范大学 一种对海量文档集的层次聚类方法及系统
CN108959289A (zh) * 2017-05-18 2018-12-07 北京京东尚科信息技术有限公司 网站类别获取方法和装置
CN107590218A (zh) * 2017-09-01 2018-01-16 南京理工大学 基于Spark的多特征结合中文文本高效聚类方法
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111538839A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于杰卡德距离的实时文本聚类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159196A (zh) * 2021-04-26 2021-07-23 云南大学 一种基于正则变分嵌入式的软件需求聚类方法及系统
CN113656807A (zh) * 2021-08-23 2021-11-16 杭州安恒信息技术股份有限公司 一种漏洞管理方法、装置、设备及存储介质
CN113656807B (zh) * 2021-08-23 2024-04-16 杭州安恒信息技术股份有限公司 一种漏洞管理方法、装置、设备及存储介质
CN117891411A (zh) * 2024-03-14 2024-04-16 济宁蜗牛软件科技有限公司 一种海量档案数据优化存储方法

Similar Documents

Publication Publication Date Title
CN106372061B (zh) 基于语义的短文本相似度计算方法
CN112417893A (zh) 一种基于语义层次聚类的软件功能需求分类方法及系统
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN103699523A (zh) 产品分类方法和装置
CN105912576A (zh) 情感分类方法及系统
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN108563638A (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN113742396B (zh) 一种对象学习行为模式的挖掘方法及装置
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN112579783A (zh) 基于拉普拉斯图谱的短文本聚类方法
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN114528848B (zh) 一种基于指标阈值和语义解析的安全分析和自动评估方法
CN115269870A (zh) 一种基于知识图谱实现数据中台数据链路故障分类预警的方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111859032A (zh) 一种短信拆字敏感词的检测方法、装置及计算机存储介质
CN109344248B (zh) 一种基于科技文献摘要聚类的学术主题生命周期分析方法
CN112685374A (zh) 日志分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226