CN111694957B - 基于图神经网络的问题单分类方法、设备及存储介质 - Google Patents
基于图神经网络的问题单分类方法、设备及存储介质 Download PDFInfo
- Publication number
- CN111694957B CN111694957B CN202010475172.XA CN202010475172A CN111694957B CN 111694957 B CN111694957 B CN 111694957B CN 202010475172 A CN202010475172 A CN 202010475172A CN 111694957 B CN111694957 B CN 111694957B
- Authority
- CN
- China
- Prior art keywords
- list
- problem list
- sample
- graph
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 26
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000005259 measurement Methods 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims description 44
- 238000003062 neural network model Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000005096 rolling process Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000011524 similarity measure Methods 0.000 claims description 4
- 238000005406 washing Methods 0.000 claims description 4
- 239000000523 sample Substances 0.000 claims 16
- 239000000758 substrate Substances 0.000 claims 2
- 238000004458 analytical method Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013527 convolutional neural network Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000012827 research and development Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种基于图神经网络的问题单分类方法、设备及存储介质。本公开基于问题单词典生成每个问题单的特征向量作为图数据结构的节点,基于每个问题单的关键词集合计算问题单两两之间的相似性度量值作为图数据结构中节点之间的边,通过图卷积神经网络模型对问题单类型进行预测,在问题单之间具有相互依赖关系的应用场景中,本公开能够提高问题单分类的准确度,更高效的替代人工分析的工作,更精准的实现自动识别的效果。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种基于图神经网络的问题单分类方法、设备及存储介质。
背景技术
在产品研发流程或产品运维过程中,对产品进行测试或者运维时,如果发现了问题,会提交问题单以反映产品的质量、功能的符合度、系统运维状态等情况,以帮助研发或维护人员进行问题定位和解决。通常,问题单包括单号、问题的问题描述和详细描述、提交人等等。问题单提交后,后续流程对应的研发人员会对这个问题单进行处理,并把相关问题的原因分析、解决方案等记录下来,继续下一流程,直到问题单关闭。经过整个流程后,可以得到一个完整的问题单记录的信息,这些信息将为产品的性能分析、质量分析等提供非常有效、可靠的数据支撑。但是,由于这些数据大都是半结构化的,比如,问题单的标题、问题描述、详细描述和解决方案等经常都是一段文本,甚至还会包含一些图片、附件等等,这将对后续的分析造成一定的难度。例如,无法直接从问题单中记录的信息获取其所属的问题单类型或所属的业务模块的类型,通过人工的方式处理大量的问题单,从问题单中分析获取模块类别,效率低、耗时长,不利于企业提高问题定位效率和研发效率。
发明内容
本公开提供一种基于图神经网络的问题单分类方法、设备及存储介质,用于解决问题单分类效率和准确性低的技术问题。
基于本公开实施例的一方面,本公开提供了基于图神经网络的问题单分类方法,该方法包括:
对输入的多个问题单样本进行分词处理,所述多个问题单样本为经过标注的问题单样本;
基于问题单词典生成每个问题单样本的特征向量,所述特征向量的维度为问题单词典中词的个数,特征向量的元素为问题单词典中每个词在对应的单个问题单样本中出现的次数的表征值;
针对每个问题单样本,提取问题单样本中的关键词生成每个问题单样本的关键词集合,计算问题单样本两两之间的相似性度量值;
以问题单样本的特征向量作为节点,以问题单样本两两之间的相似性度量值作为边,构建所述多个问题单样本对应的样本图数据结构;
基于构建的样本图数据结构,生成所述多个问题单样本对应的特征矩阵F和邻接矩阵A,其中特征矩阵F由样本图数据结构中所有节点组成,邻接矩阵由问题单样本两两之间的相似性度量值组成;
将特征矩阵F和邻接矩阵A作为图卷积神经网络模型的输入,对图卷积神经网络模型进行训练。
进一步地,由问题单标题、问题描述和解决方案字段的内容拼接成问题单样本,在执行完对所述问题单样本的分词处理后,剔除所述问题单样本中与分类无关的字符。
进一步地,基于预设的相似性度量值阈值确定所述样本图数据结构中两个节点之间是否存在边的连接关系,当两个节点之间的相似性度量值大于所述阈值则确定为存在边的关系,否则确定为不存在边的关系。
进一步地,在计算问题单样本两两之间的相似性度量值之前,所述方法还包括:
采用实体识别工具对问题单样本中的实体进行识别;
将问题单样本中与问题单分类无关的实体清洗掉;
采用词重要性度量工具提取问题单样本中预设数量的关键词生成所述每个问题单样本的关键词集合。
基于本公开实施例的一方面,本公开针对训练好的用于实现问题单分类的图神经网络模型,还提供了一种应用该模型的问题单分类方法,该方法包括:
对输入的多个问题单进行分词处理;
基于问题单词典生成每个问题单的特征向量,所述特征向量的维度为问题单词典中词的个数,特征向量的元素为问题单词典中每个词在对应的单个问题单中出现的次数的表征值;
针对每个问题单,提取问题单中的关键词生成每个问题单的关键词集合,计算问题单两两之间的相似性度量值;
以问题单的特征向量作为节点,以问题单两两之间的相似性度量值作为边,构建所述多个问题单的问题单图数据结构;
基于构建的问题单图数据结构,生成所述多个问题单对应的特征矩阵和邻接矩阵,其中特征矩阵由问题单图数据结构中所有节点组成,邻接矩阵由问题单两两之间的相似性度量值组成;
将所述多个问题单对应的特征矩阵和邻接矩阵作为图卷积神经网络模型的输入,所述图卷积神经网络模型输出每个问题单的分类结果。
进一步地,所述问题单由问题单标题、问题描述和解决方案字段的内容拼接成而成,在执行完对所述问题单的分词处理后,剔除所述问题单中与分类无关的字符。
进一步地,基于预设的相似性度量值阈值确定所述问题单图数据结构中两个节点之间是否存在边的连接关系,当两个节点之间的相似性度量值大于所述阈值则确定为存在边的关系,否则确定为不存在边的关系。
进一步地,在计算问题单两两之间的相似性度量值之前,所述方法还包括:
采用实体识别工具对问题单中的实体进行识别;
将问题单中与问题单分类无关的实体清洗掉;
采用词重要性度量工具提取问题单中预设数量的关键词生成所述每个问题单的关键词集合。
基于本公开实施例的一方面,本公开还提供一种基于图神经网络的问题单分类设备,该设备包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述处理器执行所述计算机可读存储介质中的计算机程序以实施前述基于图数据结构对图神经网络进行训练以及应用训练好的图神经网络以实现问题单分类的步骤。
基于本公开实施例的一方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序当被处理器执行时实现前述基于图数据结构对图神经网络进行训练以及应用训练好的图神经网络以实现问题单分类的步骤。
本公开采用基于图数据结构的图卷积神经网络模型对问题单分类进行建模、训练和预测,本公开基于问题单词典生成每个问题单的特征向量作为图数据结构的节点,基于每个问题单的关键词集合计算问题单两两之间的相似性度量值作为图数据结构的边,通过图卷积神经网络模型对问题单类型进行预测,在问题单之间具有相互依赖关系的应用场景中,本公开能够提高问题单分类的准确度,更高效的替代人工分析的工作,更精准的实现自动识别的效果。
附图说明
为了更加清楚地说明本公开实施例或者现有技术中的技术方案,下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本公开实施例的这些附图获得其他的附图。
图1为本公开一实施例提供的一种基于图神经网络的问题单分类方法的模型训练过程的流程示意图;
图2为本公开一实施例构建的样本图数据结构的示例图;
图3为本公开一实施例提供的一种基于图神经网络的问题单分类设备示意图;
图4为本公开一实施例提供的应用基于图神经网络的问题单分类设备以实现问题单分类的步骤流程图。
具体实施方式
在本公开实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本公开实施例。本公开实施例和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了提高在产品研发测试、产品维护、用户体验调研、市场调查等业务场景中对问题单进行分类的效率,本公开提供了一种基于图神经网络的问题单分类方法,该方法涉及到模型的训练过程和模型应用过程两个主要部分,这两个过程是相对独立又相互关联的,只有通过训练过程训练好的模型才能应用到模型的应用过程当中,模型的训练过程和模型的应用过程都涉及到对输入模型的数据的预处理和数据特征的提取步骤。模型的训练过程和模型的应用过程可分别通过两个不同的主体来实施。
本领域技术人员在进行文本多分类时,通常假设数据是处于欧式空间上的,在欧式空间中,数据与数据之间被认为是相互独立没有关联的,因此在欧式空间上建立的分类模型无法有效地利用数据之间的关系信息进行分类,因此,基于欧式空间数据训练得到的模型的表达能力有限,导致得到的模型准确度不高。本公开为了提高模型的表达能力,进而提高模型的准确度,创造性地基于问题单的特征信息构造出图数据结构,并使用图卷积神经网络来进行问题单的分类。本公开所提供的基于图神经网络的问题单分类方法能够充分地利用数据间的关联信息,提高模型的表达能力,进而提高模型的准确度。
首先对本公开提供的基于图神经网络的问题单分类方法所涉及的模型训练的过程进行说明,模型训练过程包括:样本预处理、特征提取、模型训练三个部分。
图1为本公开一实施例提供的一种基于图神经网络的问题单分类方法的模型训练过程的流程示意图,包括以下步骤:
步骤101.对输入的多个问题单样本进行分词处理,所述多个问题单样本为经过标注的问题单样本。
该步骤为对样本进行预处理的步骤,可从实际的业务系统中获取一批用于对模型进行训练的样本数据,由于本公开所采用的机器学习方法属于监督学习,因此需要事先对这些样本进行标注,标注出样本所属的问题单真实的类型,此外还应当去除与问题单分类不相关一些字段内容。
例如,本公开一实施例中,实际的问题单包括上百个字段,该实施例从这些字段中提取出与分类相关的若干字段构成问题单样本,例如所提取的字段可以包括问题单的标题、问题描述、解决方案等等。问题单的类型可以根据实际的业务需求事先确定,例如可以包括但不限于“资源管理”、“双机热备”、“操作系统及数据库”、“安装部署升级”、“DBMAN”、“告警管理”、“拓扑管理”等类型,本公开不做具体限定。
本公开一实施例中,将与分类相关的问题单字段,例如标题、问题描述、解决方案等文本字段,合并成一个字符串形成问题单样本,然后,采用文本分词工具对合并后的字符串进行分词处理,分词处理后再从问题单样本中剔除与分类不相关的字符,例如去除标点符号、空格、不可识别或无意义的词等。
步骤102.基于问题单词典生成每个问题单样本的特征向量,所述特征向量的维度为问题单词典中词的个数,特征向量的元素为问题单词典中每个词在对应的单个问题单样本中出现的次数的表征值。
本公开实施例的特征提取的过程包括特征向量的提取、特征向量之间关系的提取以及构建与样本图数据结构三个部分。该步骤为特征向量的提取步骤。
该步骤中的问题单词典包括所属领域内的问题单中可能出现的词。该问题单词典可以包括自然语言所有词汇,但这样的词典的维度太大会降低模型的效率。一种可行的方式是,从经过预处理的所有问题单样本中提取不重复的词生成问题单词典,但该方式需要获取尽量多的样本以及这些样本要尽量广泛地覆盖所属领域内的可能出现的词汇,以提高模型的准确度。
每个问题单对应的特征向量由问题单词典中每个词在该问题单样本中出现的次数的表征值组成,所述表征值可以直接使用次数值,也可以是次数值经转换后的值。特征向量的向量维度可以为1*N,N为问题单词典的词个数。
例如,在本公开一实施例中,经预处理的问题单样本共有4100个,所有样本中出现的不重复的词共有4610个,假设由这些不重复的词构成的问题单词典为W={w1,w2,…,w4610}。然后,分别统计问题单词典中每个词在该问题单样本中出现的次数,假设第一个问题单样本中包含w1、w200、w300、w1513这4个词,则该第一个问题单样本向量表示可以为:
x1={x11,x12,...,x1i,...,x1n}={w1:3,...,w200:1,...,w300:5,...,w1513:4,...}
其中,n=4610,该向量第1个元素x11以w1:3表示,w1:3即为w1这个词在问题单词典的维度上出现的次数,由于问题单词典中除了w1、w200、w300、w1513这4个词之外,其它的词未在该样本中出现,所以该样本中这些词对应的元素值统一用0填充,为简化表达在上面的特征向量中以省略号替代。如果直接以次数作为表征值的话,则x11等于3,x12等于0,x13等于0,…,x1,200等于1,依次类推。
步骤103.针对每个问题单样本,提取问题单样本中的关键词生成每个问题单样本的关键词集合,计算问题单样本两两之间的相似性度量值。
该步骤为特征提取过程中的样本间关系的提取即特征向量之间关系的提取步骤。本公开中,将两个问题单样本之间的关系定义为两个样本之间的相似性。
本公开一实施例中,问题单样本的相似性采用Jaccard相似性系数计算公式作为相似性度量值的计算公式:
其中,words1表示问题单样本1的关键词集合;words2表示问题单样本2的关键词集合;∩表示两个问题单样本关键词集合的交集;∪表示两个问题单样本关键词集合的并集;||表示两个问题单样本关键词集合的模,也即集合的大小。
本公开一实施例中,为了提高问题单样本的相似性度量值的度量精度,该步骤中在计算相似性度量值J之前还包括对问题单样本中的实体进行识别、清洗和关键词的提取步骤。
由于问题单样本的中可能包括一些具体的地名、组织机构名称、企事业单位名等与问题单分类无关的词,这些词对相似性度量值J的计算有干扰作用,以下为一些问题单样本的部分内容的举例:
“IMC-PLAT某某博物院3D机房服务器详细信息无法识别”
“某某省人民医院IMC-PLAT 3D机房保存后机架数量异常增加”
“IMC-PLAT某某铁路局iMC-PLAT 3D机房不断增加机柜白问题”
“某某省某某轮胎有限公司IMC-APM周期报表异常”
如上述示例中的“某某博物馆”、“某某省人民医院”、“某某铁路局”、“某某省某某轮胎有限公司”等这些“实体”对于本公开的问题单分类任务关系不大,且对于计算两个问题单样本的相似性度量值是噪音数据,因此需要进行清洗。另外还有一些非关键词对于相似性度量值的计算也具有干扰作用,如“问题”、“无法”等这些词,因此,本公开还包括对每个问题单样本进行关键词提取的操作,以获取每个问题单样本中的关键词,以便更准确地计算两个问题单样本之间的相似性度量值。
在本公开一实施例中,采用实体识别工具,例如哈工大的实体识别工具,对问题单样本中的“实体”进行识别,所述的“实体”主要指与问题单分类无关的地名、组织机构名称、企事业单位名等。然后将这些实体从问题单样本中清洗掉,即删除问题单样本中的这些词。然后再采用分词工具,例如Jieba,对经过实体清洗后的问题单样本进行分词处理。本公开一实施例先使用分词工具进行分词,然后使用实体识别工具进行实体识别,然后再对实体进行清洗,本发明不限定分词和实体识别步骤的先后关系。
在完成问题单样本的实体识别、实体清洗和分词处理后,采用词重要性度量工具提取问题单样本中预设数量的关键词从而生成每个问题单样本的关键词集合。
例如,本公开一实施例中,采用TF-IDF(词频-逆文本频率)工具计算问题单样本中每个词的重要性度量值。以问题单样本内容为“IMC-PLAT 3D机房服务器详细信息无法识别”为例:
表1
问题单样本中包括的词 | 词的重要性度量值 |
'IMC' | 1.4943459378625 |
'PLAT' | 1.4943459378625 |
'3D' | 1.4943459378625 |
'详细信息' | 1.279639500725 |
'服务器' | 1.17650516028 |
'机房' | 1.17236113436625 |
'识别' | 0.95585610505 |
'无法' | 0.67188994302875 |
本公开一实施例中,采用取每个问题单样本中的前8个重要性度量值最大的词作为该问题单样本的关键词组成该问题单样本的关键词集合。
在得到每个问题单样本的关键词集合后,就可以使用前面的问题单样本的相似性度量值计算公式计算任意两个问题单样本之间的相似性度量值。
步骤104.以问题单样本的特征向量作为节点,以问题单样本两两之间的相似性度量值作为边,构建所述多个问题单样本对应的样本图数据结构。
该步骤为特征提取过程中的构建样本图数据结构的步骤。
本公开一实施例,以问题单样本的特征向量作为节点,以问题单样本两两之间的相似性度量值作为边,构建样本图数据结构,样本图数据结构中包括了所有问题单样本的节点。
图2为本公开一实施例构建的样本图数据结构的示例图。其中xi表示第i个问题单样本;li表示第i个问题单的数据表示,即第i个问题单的特征向量;l(i,j)表示第i个问题单样本与第j个问题单样本的边的数据表示,即第i个问题单样本与第j个问题单样本之间的相似性度量值。
本公开一实施例中,为了减少样本图数据结构中的边连接数量,设定一个阈值,根据计算样本之间的相似性度量值与阈值比较判断两个节点之间是否有连接,如设定的阈值为0.5,如果两个节点的相似性度量值大于0.5,则这两个节点存在边的关系,且边的数据表示为这两个节点之间的相似性度量值,否则此两个节点无连接,即两个样本节点在图中没有边的连接关系。
步骤105.基于构建的样本图数据结构,生成所述多个问题单样本对应的特征矩阵F和邻接矩阵A,其中特征矩阵F由样本图数据结构中所有节点组成,邻接矩阵由问题单样本两两之间的相似性度量值组成。
基于构建的样本图数据结构便可得到图的特征矩阵F和图的邻接矩阵A,假设构建的样本图数据结构中节点个数为n,每个节点的数据表示维度为m,则特征矩阵F的维度为n×m,即第i行表示为第i个节点的数据表示(特征向量)。而邻接矩阵A的维度为n×n,且矩阵A为对称矩阵,Aij表示节点i与节点j的数据表示,即相似性度量值。
步骤106.将特征矩阵F和邻接矩阵A作为图卷积神经网络模型的输入,对图卷积神经网络模型进行训练。
该步骤中,基于得到的特征矩阵F和邻接矩阵A对模型进行训练。
本公开一实施例中,该步骤中的图卷积神经网络模型由二层的图卷积神经网络构成,模型的输入和输出的函数计算关系如下:
其中,D是图的度矩阵,D是根据A计算得到的,i=1,2,…,n。W0和W1是需要学习的模型参数,F∈Rn×m,A∈Rn×n,D∈Rn×n,W0∈Rm×h,W1∈Rh×n_classes,h的取值可以根据具体情况通过实验或经验确定,一般选择2的指数,如64、128、256、512等。n_classes表示问题单类型的个数。例如,在本公开一实施例中为42。Z为n×n_classes维的矩阵,其每一行对应图数据结构中的一个节点,其每一列的值表示该节点被预测为该列对应问题单类型的概率,可将概率最大的分类确定为该节点的分类。
该实施例中,第一层图卷积网络使用ReLU作为激活函数,第二层使用归一化指数函数softmax函数作为分类。本公开不具体限定模型所使用的具体的激活函数和逻辑回归函数,可根据应用场景和实际需求选择。
本公开一实施例中,对图卷积神经网络模型进行训练所使用的损失函数采用如下的交叉熵损失函数:
其中YD表示训练集的节点集合。采用梯度下降优化算法,将模型输出的预测结果与问题单样本标注真实结果对照,使用损失函数计算L,通过多次的迭代找到最小化损失函数值,从而确定模型参数W0和W1的值。
模型经过训练,固定模型参数后,模型的开发商即可将模型固化为可应用或可销售的软件或硬件模块。在实际的业务应用场景中,模型的应用者可将软件或硬件形式的模型安装到如图3所示例的设备中,从而制造出能够实施本公开提供的一种基于图神经网络的问题单分类方法步骤的设备,以实现本公开之发明目的。
图3为本公开一实施例提供的一种基于图神经网络的问题单分类设备示意图,该设备300包括:诸如中央处理单元(CPU)的处理器301、内部总线302、以及计算机可读存储介质330。其中,处理器301与计算机可读存储介质330可以通过内部总线302相互通信。计算机可读存储介质330内可存储本公开提供的用于问题单分类的图神经网络模型的计算机程序,当计算机程序被处理器301执行时即可实现对本公开提供的用于问题单分类的图神经网络模型的训练或应用的各步骤功能。
在本公开一实施例中,以软件形式将本公开提供的用于问题单分类的图神经网络模型安装/加载到计算机可读存储介质330中形成模块331,以实现本公开之发明目的。
在本公开另一实施例中,以硬件形式将本公开提供的用于问题单分类的图神经网络模型固化到硬件芯片340中,例如FPGA、GPU等形式的硬件芯片,本公开不做限定。
无论本公开提供的用于问题单分类的图神经网络模型在训练完毕后以软件形式还是硬件形式存在,本领域技术人员都可以将其应用于实际的应用场景中以实现问题单分类,进而获得提高问题单分类效率的技术效果。
图4为本公开一实施例提供的应用基于图神经网络的问题单分类设备以实现问题单分类的步骤流程图,该设备中安装有本公开提供的用于问题单分类的图神经网络模型,该包括以下步骤:
步骤401.对输入的多个问题单进行分词处理。
该步骤中的问题单是指剔除了所有与分类不相关字段后的问题单,例如所属问题单至少包括问题单标题、问题描述、解决方案。
步骤402.基于问题单词典生成每个问题单的特征向量,所述特征向量的维度为问题单词典中词的个数,特征向量的元素为问题单词典中每个词在对应的单个问题单中出现的次数的表征值。
步骤403.针对每个问题单,提取问题单中的关键词生成每个问题单的关键词集合,计算问题单两两之间的相似性度量值。
步骤404.以问题单的特征向量作为节点,以问题单两两之间的相似性度量值作为边,构建所述多个问题单的问题单图数据结构。
步骤405.基于构建的问题单图数据结构,生成所述多个问题单对应的特征矩阵和邻接矩阵,其中特征矩阵由问题单图数据结构中所有节点组成,邻接矩阵由问题单两两之间的相似性度量值组成。
步骤406.将所述多个问题单对应的特征矩阵和邻接矩阵作为图卷积神经网络模型的输入,所述图卷积神经网络模型输出每个问题单的分类结果。
由于本公开采用图结构数据对问题单分类进行建模,因此,利用构建好的模型对问题单类型进行预测之前,需要对问题单构建问题单图数据结构。本公开一实施例中采用的策略是将一个时间段内获得的多个问题单集合在一起构成一个问题单集合,然后构建该问题单集合的问题单图数据结构,然后再基于构建的问题单图数据结构,生成该问题单集合的特征矩阵和邻接矩阵,最后利用构建好的模型对问题单图数据结构中的节点的类型进行预测。
本公开采用基于图数据结构的卷积神经网络模型对问题单分类进行建模、训练和预测,对应问题单之间具有相互依赖关系的应用场景,能够提高问题单分类的准确度,更高效的替代人工分析的工作,更精准的实现自动识别的效果。
以上所述仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。
Claims (10)
1.一种基于图神经网络的问题单分类方法,其特征在于,所述方法包括:
对输入的多个问题单样本进行分词处理,所述多个问题单样本为经过标注的问题单样本;
基于问题单词典生成每个问题单样本的特征向量,所述特征向量的维度为问题单词典中词的个数,特征向量的元素为问题单词典中每个词在对应的单个问题单样本中出现的次数的表征值;
针对每个问题单样本,提取问题单样本中的关键词生成每个问题单样本的关键词集合,计算问题单样本两两之间的相似性度量值;
以问题单样本的特征向量作为节点,以问题单样本两两之间的相似性度量值作为边,构建所述多个问题单样本对应的样本图数据结构;
基于构建的样本图数据结构,生成所述多个问题单样本对应的特征矩阵F和邻接矩阵A,其中特征矩阵F由样本图数据结构中所有节点组成,邻接矩阵由问题单样本两两之间的相似性度量值组成;
将特征矩阵F和邻接矩阵A作为图卷积神经网络模型的输入,对图卷积神经网络模型进行训练。
2.根据权利要求1所述的方法,其特征在于,
由问题单标题、问题描述和解决方案字段的内容拼接成问题单样本,在执行完对所述问题单样本的分词处理后,剔除所述问题单样本中与分类无关的字符。
3.根据权利要求1所述的方法,其特征在于,
基于预设的相似性度量值阈值确定所述样本图数据结构中两个节点之间是否存在边的连接关系,当两个节点之间的相似性度量值大于所述阈值则确定为存在边的关系,否则确定为不存在边的关系。
4.根据权利要求1所述的方法,其特征在于,在计算问题单样本两两之间的相似性度量值之前,所述方法还包括:
采用实体识别工具对问题单样本中的实体进行识别;
将问题单样本中与问题单分类无关的实体清洗掉;
采用词重要性度量工具提取问题单样本中预设数量的关键词生成所述每个问题单样本的关键词集合。
5.一种基于图神经网络的问题单分类方法,其特征在于,所述方法包括:
对输入的多个问题单进行分词处理;
基于问题单词典生成每个问题单的特征向量,所述特征向量的维度为问题单词典中词的个数,特征向量的元素为问题单词典中每个词在对应的单个问题单中出现的次数的表征值;
针对每个问题单,提取问题单中的关键词生成每个问题单的关键词集合,计算问题单两两之间的相似性度量值;
以问题单的特征向量作为节点,以问题单两两之间的相似性度量值作为边,构建所述多个问题单的问题单图数据结构;
基于构建的问题单图数据结构,生成所述多个问题单对应的特征矩阵和邻接矩阵,其中特征矩阵由问题单图数据结构中所有节点组成,邻接矩阵由问题单两两之间的相似性度量值组成;
将所述多个问题单对应的特征矩阵和邻接矩阵作为图卷积神经网络模型的输入,所述图卷积神经网络模型输出每个问题单的分类结果。
6.根据权利要求5所述的方法,其特征在于,
所述问题单由问题单标题、问题描述和解决方案字段的内容拼接成而成,在执行完对所述问题单的分词处理后,剔除所述问题单中与分类无关的字符。
7.根据权利要求5所述的方法,其特征在于,
基于预设的相似性度量值阈值确定所述问题单图数据结构中两个节点之间是否存在边的连接关系,当两个节点之间的相似性度量值大于所述阈值则确定为存在边的关系,否则确定为不存在边的关系。
8.根据权利要求5所述的方法,其特征在于,在计算问题单两两之间的相似性度量值之前,所述方法还包括:
采用实体识别工具对问题单中的实体进行识别;
将问题单中与问题单分类无关的实体清洗掉;
采用词重要性度量工具提取问题单中预设数量的关键词生成所述每个问题单的关键词集合。
9.一种基于图神经网络的问题单分类设备,该设备包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述处理器执行所述计算机可读存储介质中的计算机程序以实施权利要求1至8中任一项或权利要求5至8中任一项所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序当被处理器执行时实现如权利要求1至8中任一项或权利要求5至8中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010475172.XA CN111694957B (zh) | 2020-05-29 | 2020-05-29 | 基于图神经网络的问题单分类方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010475172.XA CN111694957B (zh) | 2020-05-29 | 2020-05-29 | 基于图神经网络的问题单分类方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111694957A CN111694957A (zh) | 2020-09-22 |
CN111694957B true CN111694957B (zh) | 2024-03-12 |
Family
ID=72478881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010475172.XA Active CN111694957B (zh) | 2020-05-29 | 2020-05-29 | 基于图神经网络的问题单分类方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111694957B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434668B (zh) * | 2021-05-18 | 2022-05-20 | 湘潭大学 | 一种基于模型融合的深度学习文本分类方法及系统 |
CN113837382B (zh) * | 2021-09-26 | 2024-05-07 | 杭州网易云音乐科技有限公司 | 图神经网络的训练方法和系统 |
CN114168799B (zh) * | 2021-11-26 | 2024-06-11 | 四川云从天府人工智能科技有限公司 | 图数据结构中节点邻接关系的特征获取方法、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
WO2019220128A1 (en) * | 2018-05-18 | 2019-11-21 | Benevolentai Technology Limited | Graph neutral networks with attention |
CN110705260A (zh) * | 2019-09-24 | 2020-01-17 | 北京工商大学 | 一种基于无监督图神经网络结构的文本向量生成方法 |
CN110929029A (zh) * | 2019-11-04 | 2020-03-27 | 中国科学院信息工程研究所 | 一种基于图卷积神经网络的文本分类方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11250311B2 (en) * | 2017-03-15 | 2022-02-15 | Salesforce.Com, Inc. | Deep neural network-based decision network |
-
2020
- 2020-05-29 CN CN202010475172.XA patent/CN111694957B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019220128A1 (en) * | 2018-05-18 | 2019-11-21 | Benevolentai Technology Limited | Graph neutral networks with attention |
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
CN110705260A (zh) * | 2019-09-24 | 2020-01-17 | 北京工商大学 | 一种基于无监督图神经网络结构的文本向量生成方法 |
CN110929029A (zh) * | 2019-11-04 | 2020-03-27 | 中国科学院信息工程研究所 | 一种基于图卷积神经网络的文本分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
孙梦博 ; .基于卷积神经网络的关键词提取方法.计算机产品与流通.2020,(01),全文. * |
林志宏 ; 池宏 ; 许保光 ; .基于卷积神经网络的公安案件文本语义特征提取方法研究.数学的实践与认识.2017,(17),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111694957A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10089581B2 (en) | Data driven classification and data quality checking system | |
CN111694957B (zh) | 基于图神经网络的问题单分类方法、设备及存储介质 | |
CN110866799B (zh) | 使用人工智能监视在线零售平台的系统和方法 | |
CN109376237B (zh) | 客户稳定性的预测方法、装置、计算机设备和存储介质 | |
JP2021518024A (ja) | 機械学習アルゴリズムのためのデータを生成する方法、システム | |
US10083403B2 (en) | Data driven classification and data quality checking method | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
CN109710766B (zh) | 一种工单数据的投诉倾向分析预警方法及装置 | |
CN107886231B (zh) | 客服的服务质量评价方法与系统 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
US11720857B2 (en) | Autonomous suggestion of issue request content in an issue tracking system | |
CN112380346B (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 | |
CN109242431B (zh) | 一种基于数据体系的企业管理方法及其系统 | |
CN116703328B (zh) | 一种项目评审方法及系统 | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、系统及存储介质 | |
CN117435489A (zh) | 基于需求文档自动分析软件功能点方法及系统 | |
CN116452212B (zh) | 一种智能客服商品知识库信息管理方法及系统 | |
CN109146306B (zh) | 一种企业管理系统 | |
CN115936748A (zh) | 一种商业大数据分析方法及系统 | |
CN115660695A (zh) | 客服人员标签画像构建方法、装置、电子设备及存储介质 | |
CN110738054B (zh) | 识别邮件中酒店信息的方法、系统、电子设备及存储介质 | |
CN114528441A (zh) | 一种图结构数据节点分类方法、装置及电子设备 | |
CN114022698A (zh) | 一种基于二叉树结构的多标签行为识别方法及装置 | |
CN110321342A (zh) | 基于智能特征选择的公司评估方法、装置及存储介质 | |
CN114529191B (zh) | 用于风险识别的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |