CN110209743B - 知识管理系统及方法 - Google Patents

知识管理系统及方法 Download PDF

Info

Publication number
CN110209743B
CN110209743B CN201810119973.5A CN201810119973A CN110209743B CN 110209743 B CN110209743 B CN 110209743B CN 201810119973 A CN201810119973 A CN 201810119973A CN 110209743 B CN110209743 B CN 110209743B
Authority
CN
China
Prior art keywords
quality
issue
question
type
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810119973.5A
Other languages
English (en)
Other versions
CN110209743A (zh
Inventor
徐照光
党延忠
孟裴德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
BMW Brilliance Automotive Ltd
Original Assignee
Dalian University of Technology
BMW Brilliance Automotive Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology, BMW Brilliance Automotive Ltd filed Critical Dalian University of Technology
Priority to CN201810119973.5A priority Critical patent/CN110209743B/zh
Publication of CN110209743A publication Critical patent/CN110209743A/zh
Application granted granted Critical
Publication of CN110209743B publication Critical patent/CN110209743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及知识管理系统及方法。根据一些实施例,公开了一种方法,包括:获取与产品质量问题相关的原始数据;生成本体库;以及基于原始数据和本体库生成质量问题解决知识库,其中,生成本体库的步骤包括生成与产品质量问题相关的本体,生成与产品质量问题相关的本体的步骤包括生成问题位置和问题类型之间的多对多映射。

Description

知识管理系统及方法
技术领域
本公开涉及产品质量管理,更具体地,涉及与产品质量问题有关的知识管理系统及方法。
背景技术
企业的产品质量管理贯穿于设计、采购、制造和售后等各个环节。在产品质量管理中,质量问题解决是一个重要方面。质量问题解决是指在质量问题出现后,通过分析问题,寻找原因,制定方案,并将该质量问题消除,使得其在一段时间内不重现的过程。质量问题解决流程一般包括几个关键节点,即问题的发现,问题的记录,问题的围堵措施,问题原因分析,方案制定和方案实施及评估等。
相关技术的质量管理信息系统通常存储质量问题解决过程相关的数据。例如,该系统可以包括许多记录,每条记录记录质量问题解决过程中所涉及的问题的描述,原因和解决措施等。质量管理信息系统中存储的这些数据可能包含文本、图片、视频等各种类型的数据。这些数据在质量问题解决流程结束后通常仅仅被存储起来,而没有被充分利用来提供与产品质量问题有关的知识。例如,当想要针对具体的问题想要参考质量管理信息系统中存储的数据时,通常只能获得零散的数据记录。
发明内容
根据本公开的一些实施例,提供一种方法,包括:获取与产品质量问题相关的原始数据;生成本体库;以及基于原始数据和本体库生成质量问题解决知识库,其中,生成本体库的步骤包括生成与产品质量问题相关的本体,生成与产品质量问题相关的本体的步骤包括生成问题位置和问题类型之间的多对多映射。
根据一些实施例,生成问题位置和问题类型之间的多对多映射的步骤可以包括:生成问题位置和问题类型之间的多对多映射的步骤包括:构建问题位置集、问题类型集以及问题标题集;构建用于问题位置集、问题类型集以及问题标题集这三个集合的索引词集;分别构建问题位置、问题类型和问题标题与索引词之间的关系矩阵;利用所述关系矩阵通过问题标题构建多个问题位置与多个问题类型之间的映射。
根据一些实施例,利用所述关系矩阵通过问题标题构建多个问题位置与多个问题类型之间的映射的步骤还包括:利用问题位置与索引词之间的关系矩阵和问题标题与索引词之间的关系矩阵来构建问题标题与问题位置之间的映射;利用问题类型与索引词之间的关系矩阵和问题标题和索引词之间的关系矩阵来构建问题标题与问题类型之间的映射;以及通过问题标题构建多个问题位置与多个问题类型之间的映射。
根据一些实施例,本体库包括问题位置和问题类型本体,其中,在问题位置和问题类型本体库中定义问题位置和问题类型之间的所述多对多映射。
根据一些实施例,生成与产品质量问题相关的本体的步骤包括基于原始数据生成与产品质量问题相关的本体,其中基于原始数据生成与产品质量问题相关的本体的步骤包括:从原始数据提取原始变量;对原始变量进行预处理;对经预处理的原始变量进行聚类;根据聚类结果定义类和类的等级体系,从而构建与产品质量问题相关的本体。
根据一些实施例,基于原始数据生成与产品质量问题相关的本体的步骤进一步包括:对经预处理的原始变量进行多次聚类,其中,后一次聚类后的聚类中心作为前一次聚类后的聚类中心的父节点,多次聚类后将聚类树中的各个节点作为本体的类。
根据一些实施例,所述原始变量包括以下中的一个或多个:质量问题集、问题类型集、问题位置集、围堵措施集、原因集和方案集。
根据一些实施例,质量问题解决知识库包括问题位置和问题类型知识库和质量问题知识库,其中问题位置和问题类型知识库和质量问题知识库均包括与问题位置和问题类型相关的信息,并且在问题位置和问题类型知识库中,问题位置和问题类型之间具有所述多对多映射。
根据一些实施例,质量问题解决知识库还可以包括:质量问题解决知识库还包括:围堵措施知识库;和/或原因知识库和方案知识库。
根据一些实施例,问题位置及问题类型知识库包括问题位置_问题类型编号、问题位置编号、问题类型编号、问题位置标签和问题类型标签;质量问题知识库包括质量问题编号、车型、问题标题、问题负责人、问题创建时间、问题发生次数、问题位置_问题类型编号、问题位置标签和问题类型标签;原因知识库可以包括原因编号、质量问题编号、原因类别、原因权重以及原因关键短语;围堵措施知识库可以包括围堵措施编号、质量问题编号、围堵措施负责人、围堵措施的状态以及围堵措施关键短语;以及方案知识库可以包括方案编号、原因编号、方案效果、方案负责人以及方案关键短语。
根据一些实施例,该方法还可以基于原始数据和原因本体库,利用半监督分类算法来提取原因关键短语、围堵措施关键短语和方案关键短语中的一个或多个。
根据一些实施例,该方法还可以包括:采用半监督学习的分类算法对原因进行分类。
根据一些实施例,采用半监督学习的分类算法对原因进行分类的步骤可以进一步包括将原因分类到人、机器、材料、方法、环境和测量六大类中。
根据一些实施例,该方法还可以包括将原因引起的问题发生的频次作为该原因的权重,或将由原因引发的问题发生的频次占问题发生总频次的百分比来作为原因的权重。
根据一些实施例,该方法还可以包括:响应于接收到检索请求,基于所述质量问题解决知识库进行知识推理,从而获得与检索请求中的质量问题对应的质量问题解决知识,质量问题解决知识包括原因集和方案集和/或围堵措施集。
根据一些实施例,知识推理的步骤还可以包括从检索请求中提取与检索请求中的质量问题对应的质量问题集。
根据一些实施例,从检索请求中提取质量问题集的步骤可以包括:对检索请求进行预处理,来获得与检索请求中的质量问题有关的问题位置和问题类型,从而提取质量问题集;或者基于检索请求的文本内容与质量问题知识库中的问题标题之间的相似度与阈值的比较,从而提取质量问题集。
根据一些实施例,该方法还可以包括:基于提取的质量问题集,以及基于质量问题知识库与围堵措施知识库的实体关系图,获得与问题集对应的围堵措施集;和/或基于提取的质量问题集,以及基于质量问题知识库与原因知识库的实体关系图,获得与问题集对应的原因集,以及根据获得的原因集以及基于原因知识库与方案知识库的实体关系图,获得与原因集对应的方案集。
根据一些实施例,原因集可以是以鱼骨图呈现的,所述鱼骨图呈现人、机器、材料、方法、环境和测量六大类以及每一类下的原因。
根据本公开的另一些实施例,提供一种系统,包括:一个或多个存储器,用于存储计算机可读指令;以及一个或多个处理器,所述处理器被配置为运行所述计算机可读指令来执行如上所述的方法的操作。
根据本公开的另一些实施例,提供一种非瞬态计算机可读存储介质,其上存储计算机可读指令,所述指令当被一个或多个处理器执行时,使得处理器执行如上所述的方法的操作。
根据本公开的另一些实施例,提供一种设备,包括用于执行如上所述的方法的操作的部件。
附图说明
图1是示出根据本公开实施例的与产品质量问题有关的示例性知识管理系统的简化框图。
图2是示出根据本公开的实施例的与产品质量问题有关的示例性知识管理方法的流程图。
图3是示出根据本公开实施例的基于原始数据来生成与产品质量问题相关的本体的示例性方法的流程图。
图4是示出根据本公开的实施例所构建的与产品质量问题相关的本体的一部分的简单示意图。
图5是示出根据本公开实施例的构建问题位置和问题类型的多对多映射的示例性方法的流程图。
图6A示出根据本公开实施例从质量问题数据库中获得的数据集的一部分的示例。
图6B示出根据本公开实施例获得的问题位置与问题类型之间的多对多映射的示例。
图7是示出根据本公开实施例通过知识转化生成的质量问题解决知识库的示意图。
图8是根据本公开实施例的质量问题解决知识库中的各个知识库之间的示例性实体关系图。
图9是示出根据本公开实施例的知识推理方法的流程图。
图10是示出根据本公开实施例的鱼骨图的示例。
图11是示出可以实现根据本公开实施例的系统备的一般硬件环境的框图。
具体实施方式
本公开涉及本体,本体库和知识库等术语。本体,本体库和知识库具有计算机科学领域的通常含义。一般而言,本体(Ontology)是对于特定的领域真实或实质存在的实体的类型、属性和相互关系的正式命名和定义。本体包括类和类的层级关系。本体库是本体的集合。本体以及类的个体实例集则构成知识库。
本公开的方案适用于任何产品质量管理有关的知识管理。在这里,仅仅作为示例而非限制,以汽车领域的汽车质量管理问题为例进行详细说明。
知识管理系统的概述
首先参考图1,其示出根据本公开实施例的与产品质量问题有关的示例性知识管理系统100的简化框图。知识管理系统100例如可以包括问题解决数据库102、数据获取模块104、知识转化模块110和质量问题解决知识库112。知识管理系统100还可以包括本体生成模块106和本体库108。知识管理系统100还可以包括知识推理模块114。
问题解决数据库102例如存储与质量问题解决过程相关的数据。与质量问题解决过程相关的数据例如可以包括对与质量问题有关的情境、问题实质、围堵措施、原因、解决方案、方案评估等进行描述的数据。例如,问题解决数据库102可以包括多个与质量问题有关的记录。每一条记录可以包含问题描述,问题的围堵措施,问题的原因,问题的长期解决方案等信息。与质量问题解决过程相关的数据可以包括与工艺优化、零件检查、测试、零件变更、工具优化、装配优化、零件调整、标准化等有关的数据。与质量问题解决过程相关的数据还可以包括与产品的结构以及零部件有关的数据,与各种故障(例如发动机噪声、排气管冒烟、方向盘不正等)有关的数据,与故障的短期/长期解决方案有关的数据,等等。
在一些实施例中,问题解决数据库102例如可以是动态地自动更新的。质量问题解决过程相关的数据可以是从网络爬取的,也可以是从质量流程中各个环节所涉及的实体收集的。这些数据可以具有各种形式,例如可以是文本、语音、视频、链接等等。这些数据可以是基于所收集的数据已经经过了处理的,例如已经从语音转换为文本。
数据获取模块104可以配置为从问题解决数据库102获取原始数据。所述原始数据例如是如上所述由问题解决数据库102所存储的质量问题解决过程相关的数据。
本体生成模块106被配置为生成本体库。在一些实施例中,本体生成模块106例如可以基于数据获取模块104从问题解决数据库102获取的原始数据来生成本体库。本体库包括与产品质量问题相关的本体。在一些实施例中,与产品质量问题相关的本体可以包括问题位置(例如产品的各个部件,其集合例如可构成产品结构树)和问题类型(例如噪声、缝隙、断差等各种缺陷),并且包括问题位置和问题类型之间的多对多映射关系(矩阵关系,或整体映射关系)。问题位置和问题类型之间的这种多对多映射关系能够整体反映对于特定产品,什么样的问题位置存在什么样的问题类型,或者什么样的问题类型存在于什么样的问题位置处。
在一些实施例中,与产品质量问题相关的本体可以是一个或多个。与产品质量问题相关的本体可以定义一个或多个本体库。在一些实施例中,与产品质量问题相关的本体可以包括问题位置和问题类型本体、质量问题本体、围堵措施本体、原因本体和方案本体等,并且例如在问题位置和问题类型本体中定义问题位置和问题类型之间的多对多映射关系。这些本体可以分别构建不同的本体库,例如分别构建问题位置和问题类型本体库、质量问题本体库、围堵措施本体库、原因本体库和方案本体库等,并且例如在问题位置和问题类型本体库包含上述问题位置和问题类型本体。这些本体也可以一起构成一个总的本体库,该总的本体库包含上述各种本体中的全部或其中的一个或多个本体。
在一些实施例中,本体生成模块106可以利用先前已经获取的或生成的本体库来生成所需要的本体库。例如利用先前已有的本体库中问题位置和问题类型,来构建问题位置和问题类型之间的多对多映射关系,从而构建根据本公开实施例的与产品质量问题相关的本体中的问题位置和问题类型之间的矩阵关系。
知识转化模块110被配置为基于由数据获取模块104获取的原始数据和由本体生成模块106生成的本体库来生成质量问题解决知识库110。
质量问题解决知识库110例如包括质量问题解决知识。与相关技术中的数据库例如问题解决数据库102中存储的原始数据不同,质量问题解决知识库110中的质量问题解决知识是对原始数据中隐含的各种关系和经验进行梳理聚合之后得到的有效知识。质量问题解决知识能够整体地反映过去在哪些部件上出现过哪些问题,这些问题是由哪些原因引起,所有原因各自相关的解决方案是什么,以及,这些问题的围堵措施是什么样的等等。质量问题解决知识例如可以包括与各种产品质量问题(例如用问题位置和问题类型定义)相应的原因集和方案集和/或围堵措施集。
在一些实施例中,质量问题解决知识库110例如可以由多个不同的知识库(例如问题位置和问题类型知识库、质量问题知识库、围堵措施知识库原因知识库和方案知识库等)组成,其中的这些不同的知识库例如可以基于不同的本体库生成。例如,问题位置和问题类型知识库和质量问题知识库可以是分别基于问题位置和问题类型本体库和质量问题本体库生成的,并且均包括与问题位置和问题类型有关的信息(例如问题位置标签和问题类型标签)。例如,围堵措施知识库可以基于围堵措施本体库而生成,而原因知识库和方案知识库可以分别基于原因本体库和方案本体库而生成。
在另一些实施例中,质量问题解决知识库110也可以作为整体包含这些不同的知识库的内容,并基于如上所述的总的本体库而生成。
如上所述,本公开中的本体、本体库、知识库具有计算机科学领域的通常含义。本领域技术人员在构建本体、本体库、知识库时,在不偏离本公开的教导的情况下,可以对具体的方法步骤进行各种变形、组合、顺序改变等等。
知识推理模块114被配置为响应于接收到检索请求,基于所述质量问题解决知识库进行知识推理,从而获得与检索请求中的质量问题对应的质量问题解决知识。质量问题解决知识例如可以包括原因集和方案集和/或围堵措施集。
知识管理方法的概述
参考图2,示出根据本公开的实施例的与产品质量问题有关的示例性知识管理方法200的流程图。如图2所示,方法200在步骤202,获取与产品质量问题相关的原始数据;在步骤204,生成本体库,其中生成本体库的步骤包括生成与产品质量问题相关的本体,生成与产品质量问题相关的本体的步骤包括生成问题位置和问题类型之间的多对多映射;在步骤206,基于所述原始数据和本体库生成质量问题解决知识库;以及在步骤208,响应于接收到检索请求,基于所述质量问题解决知识库进行知识推理,从而获得与检索请求中的质量问题对应的质量问题解决知识。
与产品质量问题相关的本体的构建方法
生成本体库和知识库首先需要生成相应的本体。如上所述,可以使用已有的本体库中的本体,也可以基于原始数据来生成本体。
参考图3,其示出根据本公开实施例的基于原始数据来生成与产品质量问题相关的本体的示例性方法300的流程图。
可以根据斯坦福大学医学院开发的七步法,结合领域本体的特点,构建领域本体。也可以综合运用文本挖掘的算法及人工干预的方法,半自动化的构建领域本体。
如图3所示,方法300例如包括在步骤302,从所述原始数据提取原始变量。所述原始变量可以包括以下中的一个或多个:质量问题集、问题类型集、问题位置集、围堵措施集、原因集和方案集。原始变量中的元素例如包含长短不一的文本。
在步骤304,对所述原始变量进行预处理。预处理例如包括英文文本预处理和中文文本预处理。
英文文本预处理例如可以包括以下中的一个或多个操作:
1)文本清洗。
文本清洗例如可以包括以下中的一个或多个操作:
将缩略词转换成完整单词,其中可以根据质量管理领域常用的缩略词,构建领域缩略词词典。
拼写错误纠正,其中例如可以采用python中的Pyenchant工具纠正拼写错误。
使用正则表达式去掉标点符号。将所有词转换成小写。词形还原(lemmatization),即把任意形式的语言词汇还原为一般形式。例如可以采用Wordnet的方法。
词干提取(stemming),即抽取词的词干或词根形式,例如可以采用Wordnet的方法。
本领域技术人员可以理解,以上仅仅是文本清洗方法的一些示例性操作,本领域技术人员可以根据需要省略其中一些操作,增加其它操作,以及改变其中一些操作。
2)去停用词,即根据现有的停用词词表,结合例如汽车质量管理领域的特点,构建汽车质量管理中的停用词词库,并基于该停用词词库,去掉原始数据中的停用词。
3)词频统计,即统计词语出现的频次。
4)建立标准词库。例如,可以根据词频统计的结果将所有的英文单词用机器翻译的方法翻译成中文,将中文意思相同的英文单词统一处理,并根据词频大小,选择词频最大的那个单词作为标准单词。例如,harness和wire都表示线束,前者词频统计结果为239次,后者为104次,那么我们将这两个单词统一为harness,以后再描述线束的时候统一用标准的harness。在构建标准词库之后,将原始数据中的词替换成标准词库中的词。在一些实施例中,标准词库也可以使用已有的标准词库,例如使用维基百科的标准词库。
5)特征选取。由于原始文本中的词非常多,如果直接用这些词来构建文档与索引词之间的映射,那么后续的文本向量空间模型的维度将会非常高,因此需要从中选择一些特征词来表示文档。典型的特征选取的算法有文档频率(DF),信息增益(IG),互信息(MI),χ2统计(CHI),TF-IDF等方法。根据原始变量的特点,本公开采用文档频率的算法来进行特征词的选择。采用该方法作为特征抽取基于如下基本假设:文档频率值低于某个阈值的词条是低频词,它们不含或含有较少的类别信息。文档频率计算公式如下:
Figure GDA0002975779100000101
其中nt表示原始变量对应的文档集合{d1,d2,…,dn}中包含单词ti的文档个数,称为此词语在文档集合的文档频次;N表示文档集合文档的个数。可以首先根据具体情况设定最小和最大的文档频率阈值,接着计算每个特征词的文档频率。如果该特征词的文档频率大于已设定的最大文档频率阈值或小于最小的文档频率阈值,则删除该特征词,否则保留。根据筛选结果,建立特征项集Z={z1,z2,…,zm}。
6)将原始变量用特征项集中的特征项表示。根据特征项集,将原始变量表示成特征项集的子集,也即将原始变量中的文档集合分别用特征项集中各个特征项来表示,并将该子集作为原始变量的文档主题。
7)建立向量空间模型。根据上述选取的特征,用向量空间模型的方式表示原始文本。向量空间模型将每一个原始文本表示为向量空间的一个向量,并以每一个不同的特征项(词条)对应为向量空间中的一个维度,而每一个维度的值就是对应的特征项在原始文本中的权重。根据前述构建的m个特征项集为Z={z1,z2,…,zm},对于n个原始文档集合D={d1,d2,…,dn},每个原始文档di表示成一个特征向量:V(di)=(s1i,s2i,…,smi);其中smi表示第i个文档中的第m个特征向量对应权重;例如可以取第m个特征向量在第i个文档中的词频作为其权重。
类似地,中文文本的预处理例如可以包括以下中的一个或多个操作:1)中文分词,即将一个汉字序列切分成一个一个单独的词;2)与英文文本的预处理方式类似地,去停用词;3)半角与全角转换;4)与英文文本的预处理方式类似地,进行特征选取;5)与英文文本的预处理方式类似地,将原始变量用特征项集中的特征项表示;6)与英文文本的预处理方式类似地,建立向量空间模型。
以上仅示例性地列出了英文文本和中文文本的预处理的示例性步骤,但是应当理解,本领域技术人员可以根据需要来以更多或更少的步骤,以不同的步骤顺序,或以其他不同的步骤,来对英文文本和中文文本进行预处理。
在步骤306,对经预处理的原始变量进行聚类。
所述聚类例如可以基于在步骤304中建立的向量空间模型而进行。例如,基于上述建立的向量空间模型,可以采用各种适用的聚类方法分别对质量问题、问题类型、问题位置、围堵措施、原因和方案等变量进行聚类。
聚类方法例如可以包括BIRCH(Balanced Iterative Reducing and ClusteringUsing Hierarchies,利用层次方法的平衡迭代规约和聚类)、ROCK(HierarchicalClustering Algorithm for Categorical Attributes,针对类别属性的层次聚类算法),K-Means算法,等等。
以下以K-Means算法为例进行详细说明。
K-Means算法是一种以平均值作为聚类中心的平面划分法。对于给定的一个包含n个d维数据点的数据集X={x1,x2,…,xi,…xn},其中xi∈Rd,以及要生成的数据子集的数目K,K-Means聚类算法将数据对象组织为K个划分C={cj,j=1,2,…,K};每个划分代表一个类cj,每个类cj有一个类别中心μj;选取欧氏距离作为相似性和距离判断准则,计算该类内各点到聚类中心μj的距离平方和
Figure GDA0002975779100000121
聚类的目标是使各类总的距离平方和J(C)最小,其中
Figure GDA0002975779100000122
其算法流程如下:
(1)选定数据空间中K个对象作为初始聚类中心,每个对象代表一个类别的中心。
(2)对于样本中其他未聚类的样本对象,根据它们与这些聚类中心的欧氏距离,按距离最近的准则分别将它们分配给与其最近的聚类中心所代表的类。
(3)计算每个类别中所有对象的均值,作为该类别的新聚类中心,计算所有样本到其所在类别的聚类中心的距离平方和,即J(C)值。
4)聚类中心和J(C)值是否发生改变,如果是,回到(2),否则进入(5)。
(5)聚类结束。
在步骤308,根据聚类结果定义类和类的等级体系,从而构建与产品质量问题相关的本体。在一些实施例中,可以对经预处理的原始变量进行多次聚类,其中,后一次聚类后的聚类中心作为前一次聚类后的聚类中心的父节点,多次聚类后将聚类树中的各个节点作为本体的类。
例如,在一些实施例中,可以采用上述聚类方法对原始数据进行多次聚类。第一次聚类的K个聚类中心可以作为本体树中的父节点,相对应的各个类中的其他原始数据的文档主题可以作为子节点。第二次聚类后的Π个聚类中心可以作为第一次聚类K个聚类中心的父节点。以此类推。经过多次聚类之后,将聚类树中的各个节点作为本体中的类。据此定义类和类的等级体系来构建本体。其中聚类的次数可以根据实际需要来确定。在一些实施例中,还可以定义类的属性。在一些实施例中,还可以定义类之间的其它关系。
例如参考图4,其示出根据本公开的实施例所构建的与产品质量问题相关的本体的一部分的示例。图4例如涉及噪声。如图4所示,本体中与噪声有关的类和类的等级关系例如可以如下获得:例如对原始变量进行第一次聚类获得8个聚类中心(例如图4中所示的“轧轧声/刮擦声(干扰噪声)”,“吱吱声/活塞在气缸内的不正常声音(干扰噪声)”,“咔哒咔哒声(干扰噪声)”,“嗡嗡声(干扰噪声)”,“其它干扰噪声”,“咆哮声(风噪)”,“嗡嗡声(风噪)”,“其它风噪)”;然后对这8个聚类中心进行第二次聚类获得两个聚类中心(例如图4中示出的“干扰噪声”和“风噪”)作为之前获得的8个聚类中心的父节点,然后对这两个聚类中心进行第三次聚类获得一个聚类中心(例如图4中的“噪声”)来作为作为第二次聚类获得的两个聚类中心的父节点,从而构成与产品质量问题(例如噪声(noise))相关的本体中的类和类的层级关系的一部分。
本领域技术人员可以理解,例如可以基于类似的方法生成各种本体。例如,可以生成问题位置和问题类型本体,其包括各种问题位置的类和问题类型的类以及这些类之间的关系。
例如,可以生成围堵措施本体,其可以包括装配控制,零件检查,零件调整,钣金调整,工具优化,工艺优化和环境变化这七个类,以及各种子类,并且定义类之间的关系。例如,可以生成原因本体,原因本体可以包括人、机器,材料、方法、测量和环境六大类,以及各种子类,并且定义类之间的关系。
以上仅仅是生成本体的一些示例性实施例,本领域技术人员可以容易想到各种其他变形例。例如,可以如上所述分别根据不同的原始变量分别进行预处理、聚类、类和类的层级体系构建从而分别生成相应的本体。也可以根据全部原始变量进行预处理、聚类,类和类的层级体系构建,再分别生成不同的本体。
本领域技术人员可以理解,如上所述,每个领域本体包括不同的类,每一个类下可以定义相应的一级或多级子类。可以定义类与类之间,类与各级子类之间,以及子类与子类之间的关系。可以定义类的属性。这些类、类的属性以及类之间的关系的定义的集合构成本体,本体的集合构成本体库。通过基于本体库对原始数据进行分类等处理,可以构建相应的知识库。
问题位置与问题类型的映射关系的构建
原始数据中,往往存在汽车部件与质量问题之间的隐含关系。比如在某一条质量文本包含了座椅部件和噪音问题,下一条质量文本中包含了座椅部件和缝隙问题,后续的质量文本中又包含了座椅部件和其他质量问题,希望从所有的质量文本中找出座椅部件对应的所有问题。换言之,从所有质量文本中找出所有汽车部件和所有质量问题之间的映射关系是有益的。
根据本公开的一些实施例,在生成与产品质量问题相关的本体时,构建了问题位置与问题类型之间的多对多映射(矩阵关系或整体映射关系)。
图5是示出根据本公开实施例的构建问题位置和问题类型的多对多映射的示例性方法500的流程图。图6A例示出从质量问题数据库中获得的数据集的一部分。
如图5所示,方法500在步骤502,构建问题位置集、问题类型集以及问题标题集。
例如,可以将产品结构树中的叶节点即问题位置进行编号来构建问题位置集。问题位置(部件)集例如为FL={fl1,fl2,…,fln},其中,n表示问题位置编号,问题位置索引集为N={1,2,...,n},fli表示第i个问题位置,
Figure GDA0002975779100000151
问题位置(部件)集的具体示例例如可以参见图6A的表格中的第一列。
可以将问题类型编号来构建问题类型(Fault Type)集为FT={ft1,ft2,…,ftm},其中,m表示问题类型编号,问题类型索引集为M={1,2,...,m},ftj表示第j个问题类型,
Figure GDA0002975779100000158
问题类型集的具体示例例如可以参见图6A的表格中的第二列。
可以将问题标题编号来构建问题标题集为T={t1,t2,…,tl},其中,l表示问题标题编号,问题标题索引集为L={1,2,...,l},ts为第s个问题标题,
Figure GDA0002975779100000152
问题标题集的具体示例例如可以参见图6A的表格中的第三列。
构建问题位置集、问题类型集以及问题标题集三个集合的索引词集为W={w1,w2,…,we},其中,e表示问题位置、问题类型和问题标题中所有的索引词的编号,问题位置、问题类型和问题标题中所有的索引词的索引集为E={1,2,...,e},wτ表示第τ个索引词,
Figure GDA0002975779100000153
索引词集的具体示例例如可以参见图6A的表格中的第四列。
在步骤506,分别构建问题位置、问题类型和问题标题与索引词之间的关系矩阵。
例如,可以构n个问题位置,E个索引词构成的矩阵为:
Figure GDA0002975779100000154
其中,aτi的值表示第i个问题位置中是否有第τ个索引词,
Figure GDA0002975779100000155
Figure GDA0002975779100000156
例如aτi=0表示第i个问题位置中没有第τ个索引词;aτi=1表示第i个问题位置中有第τ个索引词。第i个问题位置fli和索引词集W构成的列向量为AE×i=[a1i,a2i,…,aei]T
Figure GDA0002975779100000157
其值可以表示第i个问题位置fli具有/不具有哪些索引词。
可以构建m个问题类型,E个索引词构成的矩阵为:
Figure GDA0002975779100000161
其中,bτj的值表示第j个问题类型中是否有第τ个索引词,
Figure GDA0002975779100000162
Figure GDA0002975779100000163
例如,bτj=0表示第j个问题类型中没有第τ个索引词;bτj=1表示第j个问题类型中有第τ个索引词。第j个问题类型ftj和索引词集W构成的列向量为BE×j=[b1j,b2j,…,bej]T
Figure GDA0002975779100000169
其值表示第j个问题类型ftj具有/不具有哪些索引词。
可以构建L个问题标题,E个索引词构成的矩阵为:
Figure GDA0002975779100000164
其中,cτs的值表示第s个问题标题中是否有第τ个索引词,
Figure GDA0002975779100000165
Figure GDA0002975779100000166
例如,cτs=0表示第s个问题标题中没有第τ个索引词;cτs=1表示第s个问题标题中有第τ个索引词。第s个问题标题ts和索引词集W构成的列向量为CE×l=[c1s,c2s,…,ces]T
Figure GDA00029757791000001610
其表示第s个问题标题ts具有/不具有哪些索引词。
在步骤508,利用所述关系矩阵通过问题标题构建多个问题位置与多个问题类型之间的映射。
例如,可以利用问题位置与索引词之间的关系矩阵和问题标题与索引词之间的关系矩阵来构建问题标题与问题位置之间的映射。
例如,可以采用如下公式:
Figure GDA0002975779100000167
具体地,将第i个问题位置fli和索引词集W构成的列向量的转置
Figure GDA0002975779100000168
和第s个问题标题ts和索引词集W构成的列向量CE×l相乘,即[a1i,a2i,…,aei]×[c1s,c2s,…,ces]T,相乘的结果是一个数,表示第i个问题位置fli和第s个问题标题ts中相同的索引词的个数。
对于第s个问题标题ts,i取N={1,2,...,n}中不同的值逐个计算,每一次相乘都会有一个数,找到一个i使得获得这个数最大,即找到一个i=α使得
Figure GDA0002975779100000171
最大,表示此时第s个问题标题ts和该问题位置中相同的索引词数量最多。记下此时的标题下标s和问题位置下标i。
若对于某个标题ts,多个问题位置下标使得
Figure GDA0002975779100000172
相等且最大,也即该标题能对应多个问题位置,那么取
Figure GDA0002975779100000173
对应的问题位置下标i,也就是取其中包含索引词数最少的那个问题位置。
s取L={1,2,...,l}中的不同值,即,对于每一个问题标题,逐个进行类似计算,从而确定所有问题标题与问题位置之间的映射关系。
例如,也可以利用问题类型与索引词之间的关系矩阵和问题标题和索引词之间的关系矩阵来构建问题标题与问题类型之间的映射。
例如,可以采用如下公式:
Figure GDA0002975779100000174
具体地,将第j个问题类型ftj和索引词集W构成的列向量的转置
Figure GDA0002975779100000175
和第s个问题标题ts和索引词集W构成的列向量CE×l相乘,即[b1j,b2j,…,bej]×[c1s,c2s,…,ces]T,相乘的结果是一个数,表示第j个问题类型ftj和第s个问题标题ts中相同的索引词的个数。
对于第s个问题标题ts,i取N={1,2,...,n}中不同的值逐个计算,每一次相乘都会有一个数,找到一个j使得获得的这个数最大,即找到一个j=β使得
Figure GDA0002975779100000176
最大,表示此时第s个问题标题ts和该问题类型相同的索引词数量最多。记下此时的标题下标1和问题类型下标j。
若对于某个标题ts,多个问题类型下标使得
Figure GDA0002975779100000177
相等且最大,也即该标题能对应多个问题类型,那么取
Figure GDA0002975779100000178
对应的问题类型下标j,也就是取其中包含索引词数最少的那个问题类型。
s取L={1,2,...,l}中的不同值,即,对于每一个问题标题,逐个进行类似计算,从而确定所有问题标题与问题类型之间的映射关系。
然后,基于以上获得的问题标题与问题位置的映射或矩阵关系以及问题标题与问题类型的映射或矩阵关系,通过问题标题来获得问题位置与问题类型之间的多对多映射。
例如,通过问题标题,将每个问题位置和问题类型之间的关系构建起来。
例如,可以构建问题位置和问题类型之间的关系矩阵F=(fij)n×m,其中fij=1表示第i个问题位置存在第j个问题类型;fij=0表示第i个问题位置不存在第j个问题类型。
具体地,基于以上获得的问题标题与问题位置的映射或矩阵关系以及问题标题与问题类型的映射或矩阵关系,当第s个问题标题对应第i个问题位置且其对应第j个问题类型时,那么fij=1,也即第i个问题位置与第j个问题类型有关联(换言之,在该问题位置存在该问题类型),否则,fij=0,即第i个问题位置与第j个问题类型有关联(换言之,在该问题位置没有该问题类型)。从而,构建问题位置和问题类型之间的多对多映射。
图6B示出获得的问题位置与问题类型之间的多对多映射的示例。
由此可见,本公开的实施例基于问题位置集(例如汽车的零部件)集和问题类型集,将质量问题标题文本作为两者的联系纽带,构建了问题位置(例如汽车零部件)和质量问题类型之间的关系矩阵。基于该关系矩阵,汽车零部件相关的负责人能了解该部件历史上都曾经发生过哪些问题,在新产品开发或进行产品变更的时候,能采取相应的预防措施防止该问题的发生。换言之,问题位置与问题类型之间的多对多映射/整体映射的构建能够清晰地获得产品的那些部件有哪些类型的问题。该矩阵让质量管理相关人员对所有部件上曾经发生过的所有问题有个全局的了解,为产品设计和前期开发提供潜在风险知识库,同时也为相关的产品部件负责人采取质量预防措施提供依据。
质量问题解决知识库
参考图7,其示出根据本公开实施例通过知识转化生成的质量问题解决知识库710的示意图。
质量问题解决知识库710例如是基于本体库708(类似于图1中108)并基于质量问题解决数据库702(类似于图1中的102)中的原始数据利用文本挖掘算法而构建的。
如图7所示,质量问题解决知识库710例如可以包括问题位置及问题类型知识库712、质量问题知识库714、围堵措施知识库716、原因知识库718和方案知识库720。
图8是根据本公开实施例的质量问题解决知识库中的各个知识库之间的示例性实体关系图。
以下结合图7和图8分别描述质量问题解决知识库710中所包含的各个知识库。
Figure GDA0002975779100000191
问题位置及问题类型知识库
例如参考图8,问题位置及问题类型知识库712例如可以包括四个字段:问题位置_问题类型编号、问题位置编号、问题类型编号、问题位置标签和问题类型标签。
问题位置及问题类型知识库712基于如上所述生成的问题位置和问题类型本体库而生成,其包括如上所述的问题位置和问题类型,并且具有有关问题位置和问题类型之间的多对多映射的定义。例如,在问题位置和问题类型知识库中,问题位置和问题类型之间具有上述多对多映射关系。
Figure GDA0002975779100000192
质量问题知识库
例如还参考图8,质量问题知识库714例如可以具有八个字段,分别为质量问题编号、车型、问题标题、问题负责人、问题创建时间、问题发生次数、问题位置标签和问题类型标签。前六个字段可以均从原始数据中获得。
质量问题知识库714可以包括与问题位置和问题类型相关的信息,例如,问题位置标签和问题类型标签。
Figure GDA0002975779100000193
原因知识库
例如还参考图8,原因知识库718例如可以有五个字段,分别为原因编号、质量问题编号、原因类别、原因权重以及原因关键短语。原因类别、原因权重和原因关键短语可以基于原始数据提取。
·原因分类
如上所述,原因本体将原因划分为人、机器、材料、方法、环境和测量六大类。
例如可以采用半监督学习的分类算法对原因进行分类。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签。半监督学习的算法可以包括但不限于自训练算法(self-training)、生成模型(generative models)、SVM半监督支持向量机、图论方法(graph-based methods)和多视角算法(multi-viewlearning)。
本公开利用改进的KNN算法的半监督分类算法来对原因进行分类。具体流程如下:
(1)专家根据原因变量对数据库中的部分原因进行标记。记标注样本集为Ψ={(x1,y1),(x2,y2),…,(x|L|,y|Ψ|)},未标记示例集U={x1′,x2′,…,x|U|′},其中xi,xj′∈X为原始原因文本的d维特征向量。标注类记为Y={人、机、料、法、环、测},yi∈Y为示例xi的标记.|Ψ|和|U|分别为Ψ和U的大小,即它们所包含的示例数。
(2)使用传统的KNN算法对已标注样本集合Ψ进行训练,得到一个初始的中间分类器Classifier 1。
(3)从U中随机抽取ξ个样本组成子集Uξ。使用Classifier 1对Uξ执行预测,找出K个近邻,将属于同一个类别的原因文本相似度相加求和,并用相似度和最大的那个类的类标对子集中的样本进行标注。
(4)将已经确定标注的子集Uξ连同其类标记加入到已标注样本集Ψ中,生成新的已标注样本集合Ψ′,并从U中删除Uξ。Ψ′=Ψ+Uξ,U′=U-Uξ
(5)迭代循环步骤(2)一步骤(5),直到满足条件
Figure GDA0002975779100000201
时停止。
根据上述算法,我们能将未进行人工标注的原因集进行标注,即将原始数据库中的原因分类到六大子类人、机器、材料、方法、环境和测量中。
·原因权重
每个问题可能对应一个或多个原因。一个原因可能对应一个或多个问题。在一些实施例中,可以将由原因引发的问题发生的频次来作为原因的权重。在另一些实施例中,可以将由原因引发的问题发生的频次占问题发生总频次的百分比来作为原因的权重。
·原因关键短语
原因关键短语的生成可以基于原数据库中的原因标题变量。可以采用基于规则和文本分类的算法相结合的方法来提取原因关键短语。在进行前述的文本预处理之后,对于用英文表示的原因,根据原因标题的文本特点,本公开设计的规则如下:
1)原因标题中包含root cause is/was或root cause is/was that,那么这些文本后面第一个句号之前的文本为问题的原因。
2)原因标题中包含cause is/was或cause is/was that,且cause前不接root,那么这些文本后面第一个句号之前的文本为问题的原因。
3)原因标题中包含caused by。那么caused by后面第一个句号之前的文本就是问题的原因。
4)原因标题中包含cause,且cause前没有root,后面不接is/was/by/of,那么cause前面的文本就是问题的原因。
5)原因标题中包含because of,because of后面第一个句号之前的文本是问题的原因
6)原因标题中包含because,而且because后面不接of,那么because后面第一个句号之前的文本是问题的原因。
7)原因标题中包含due to,那么due to后面第一个句号之前的文本为问题的原因。
8)原因标题中包含lead to,且挨着lead to前面的单词不是which,that,this那么lead to之前的所有文本为问题的原因。如果标题中包含which lead to,that lead to,或者this lead to,那么这三个短语前的所有文本为问题的原因。
对于规则之外的英文原因标题及其他所有中文标题,本公开采用关键短语提取分类算法,将原因原始数据,分类为原因本体库的实例,并将实例所属的类,作为原因的关键短语。该分类算法的流程和步骤与基于改进的KNN算法的半监督分类算法一致。
具体步骤可以如下:1)我们根据步骤一中获得的原因本体,对数据库中的部分原因进行标注。2)使用传统的KNN算法对已标注样本集合进行训练,得到一个初始的中间分类器。3)从剩余的原因样本中随机抽取若干个样本组成子集。使用初始中间分类器对该子集中的样本执行预测,找出K个近邻,将属于同一个类别的文本相似度相加求和,并用相似度和最大的那个类的类标对子集中的样本进行标注。4)将已经确定标注的子集连同其类标记加入到已标注样本集中,生成新的已标注样本集合。5)迭代循环步骤2)—步骤5),直到剩余的样本都被标注停止。最后,该部分所有的原因均被标注上原因本体中的实例,将其作为原因的关键短语。
根据上述处理得到的原因关键短语,原因的分类标签,原因的权重,以及前述的问题编号和原因编号,可以构建原因知识库。
Figure GDA0002975779100000221
围堵措施知识库
例如还参考图8,围堵措施知识库716可以具有五个字段,分别为围堵措施编号、质量问题编号、围堵措施负责人、围堵措施的状态(是否审批通过)以及围堵措施关键短语。前四个字段的内容可以从原始数据中直接获取。
围堵措施关键短语提取方法例如如下:
基于已构建围堵措施本体库,并将围堵措施分为装配控制,零件检查,零件调整,钣金调整,工具优化,工艺优化和环境变化这七种类型。每种类型都可以有其对应的实例。本部分采用同样的半监督分类算法,首先对部分围堵措施进行人工标注,标注的类为上述本体中的实例。同样,利用传统的KNN算法对已分类的数据进行训练,得到一个中间分类器。然后再利用该分类器逐步对未标注样本进行标注。最后,所有的围堵措施均标注上相应的本体中实例,将该标注作为围堵措施关键短语。
Figure GDA0002975779100000222
方案知识库
例如还参考图8,方案知识库720例如可以具有五个字段,分别为方案编号、原因编号、方案效果、方案负责人以及方案关键短语;前四个字段的内容可以从原始数据中直接获取。方案关键短语的提取方法和围堵措施关键短语的提取方法类似。
在图8示出的这些知识库中,问题位置和问题类型知识库712与质量问题知识库714例如通过问题位置_问题类型编号(问题位置标签和问题类型标签)相互关联,质量问题知识库714例如通过质量问题编号与原因知识库718和围堵措施知识库716相互关联,原因知识库718例如通过原因编号与方案知识库相互关联。以上仅仅是示例性的实现方式,本领域技术人员可以知道,这些数据库之间也可以通过其它主键/外键来相互关联。
知识推理方法
参考图9,其示出根据本公开实施例的知识推理方法900的流程图。该方法900包括在步骤902,接收检索请求。该检索请求可以是文本的或语音的。当检索请求为语音输入的时,接收的语音可以被自动转换成对应的文本。
在步骤904,从检索请求中提取与检索请求中的质量问题对应的质量问题集。
在一些实施例中,可以对检索请求进行预处理,来获得与检索请求中的质量问题有关的问题位置和问题类型,从而提取质量问题集。
例如,将检索请求的文本内容或者关键字与问题位置及问题类型知识库中的问题位置标签和/或问题类型标签进行匹配,来查找匹配的问题位置和/或问题类型。在能够匹配问题位置和问题类型两者的情况下,可以基于问题位置和问题类型知识库确定问题位置_问题类型编号从而根据问题位置_问题类型编号从质量问题知识库确定对应的问题集。(例如参考图8)
在一些实施例中,可能只能查找到匹配的问题位置或匹配的问题类型。例如,假设只能匹配问题位置,则根据问题位置与问题类型的多对多映射,可以向用户呈现该问题位置所映射的一个或多个问题类型,用户可以基于这一个或多个问题类型进行选择,从而确定相应的问题类型。然后,可以基于最终确定的问题位置和问题类型与质量问题知识库中的问题位置和问题类型的匹配来提取质量问题集。又例如,假设只能匹配问题类型,则根据问题位置与问题类型的多对多映射,可以向用户呈现该问题类型所映射的一个或多个问题位置,用户可以基于这一个或多个问题位置进行选择,从而确定相应的问题位置。然后,可以基于最终确定的问题位置和问题类型与质量问题知识库中的问题位置和问题类型的匹配来提取质量问题集。
在另一些实施例中,可以基于检索请求的文本内容与质量问题知识库中的问题标题之间的相似度与阈值的比较来提取质量问题集。例如,可以计算检索请求的文本内容与质量问题知识库中的问题标题之间的相似度,将相似度高于一阈值的问题标题对应的质量问题提取出来,形成问题集。
在步骤906,基于提取的质量问题集,获得与问题集对应的围堵措施集,和/或获得与问题集对应的原因集以及与原因集对应的方案集。
例如,基于提取的质量问题集,以及基于质量问题知识库与围堵措施知识库的实体关系图,获得与问题集对应的围堵措施集;
例如,还参考图8,基于从质量问题知识库获得的与质量问题对应的质量问题编号与围堵措施知识库中的质量问题编号的匹配来从围堵措施知识库提取与质量问题对应的围堵措施。所提取出的围堵措施构成围堵措施集合。
例如,基于提取的质量问题集,以及基于质量问题知识库与原因知识库的实体关系图,还可以获得与问题集对应的原因集,以及根据获得的原因集以及基于原因知识库与方案知识库的实体关系图,获得与原因集对应的方案集。
例如,还参考图8,可以基于从质量问题知识库获得的与质量问题对应的质量问题编号与原因知识库中的质量问题编号的匹配来从原因知识库提取与质量问题对应的原因和原因编号。可以基于从原因知识库获得的与质量问题对应的原因的原因编号与方案知识库中的原因编号的匹配,来从方案知识库提取出与质量问题的原因对应的方案。所提取出的原因的集合和方案的集合分别构成原因集合方案集。
上述获得的原因集和方案集和/或围堵措施集可以呈现给用户。
在一些实施例中,原因集是以鱼骨图呈现的。例如鱼骨图呈现人、机器、材料、方法、环境和测量六大类以及每一类下的原因。图10示出根据本公开实施例的鱼骨图的示例。例如其中,对于“座位噪声”,引起该问题的各种原因被分类到人、机器、材料、方法、环境和测量六大类下。在一些实施例中,还可以显示每个原因出现的频次。如图10所示,分类到“人”下的原因是“供应商操作员失误”,其发生1次;分类到“机器”下的原因有“座椅轨道夹具磨损”、“座椅轨道模具磨损”和“铆接加工位置错误”,分别发生2次;分类到“材料”下的原因有“座椅结构尺寸未在公差范围内”、“外部颗粒”和“缺少润滑剂”,分别发生5次、4次和2次;分类到“方法”下的原因有“密封条图纸有误”和“线束装配方法不当”,分别发生1次和3次;没有原因被分类到“环境”和“测量”下。由此,用户可以一目了然地知道引起座椅噪声的全部原因,以及这些原因的分类,以及原因发生的频次(权重)。可以向用户呈现频次最高的一个或多个原因作为最有可能的原因。
如上所述,根据本公开实施例的知识管理系统和方法
有别于传统的质量管理信息系统,根据本公开实施例的知识管理系统和方法充分利用存储在质量管理信息系统中的历史数据,将其转化为相应的问题解决知识,在问题解决的各个环节,为质量管理相关人员提供一系列的知识,包括知道哪些部件(问题位置)都发生过什么问题(知道是什么know what),每个问题采取的围堵措施是什么(知道怎么做know how),谁负责围堵措施的(知道是谁know who),问题的原因都有哪些(知道为什么know why),问题的长期解决方案是什么(知道怎么做know how),谁负责方案的制定和实施(知道是谁know who)等等。该知识管理系统和方法在质量管理过程中至少具有如下优势:首先,该系统提供了产品部件和问题之间的关系矩阵,为产品设计和前期开发提供潜在风险知识库。其次,质量问题发生时,能快速提供问题的潜在原因以及建议的最佳解决方案,提高了问题解决的效率,降低了问题解决的成本。再次,从公司知识管理角度而言,提高了知识存储、积累、转化和应用的效能。
一般硬件环境
图11是示出可以实现根据本公开实施例的设备的一般硬件环境1100的框图。
参考图8,现将描述作为本公开的各方面可应用到其的硬件设备的例子的计算设备1100。计算设备1100可以是被配置成执行处理和/或计算的任何机器,其可以是但不限于是工作站、服务器、桌上型计算机、膝上型计算机、平板计算机、个人数字助理、智能手机、车载计算机或者其任意组合。前述系统100可以整体地或至少部分地由计算设备1100或类似设备或系统来实现。
计算设备1100可以包括与总线1102连接的或者与之通信的元件,该连接或者通信可能是经由一个或多个接口实现。例如,计算设备1100可以包括总线1102、一个或多个处理器1104、一个或多个输入设备1106及一个或多个输出设备1108。一个或多个处理器1104可以是任何种类的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(比如专用处理芯片)。输入设备1106可以是能够将信息输入到计算设备的任何种类的设备,并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备1108可以是能够呈现信息的任何种类的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备1100还可以包括非瞬态存储设备1110或者与非瞬态存储设备1110连接,该非瞬态存储设备1110可以是非瞬态的且能实现数据存储的任何存储设备,并且可包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、软磁盘、硬盘、磁带或者任何其他磁介质、光盘或者任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓存存储器和/或任何其他存储器芯片或盒和/或计算机可以从其读取数据、指令和/或代码的任何其他介质。非瞬态存储设备1110可以具有用于实现上述的方法和步骤的数据/指令/代码。计算设备还可以包括通信设备1112。通信设备1112可以是能实现与外部装置和/或与网络的通信的任何种类的设备,并且可以包括但不限于调制解调器、网络卡、红外通信设备、无线通信设备和/或芯片集,比如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设施等。
计算设备1100还可以包括工作存储器1114,其可以是存储用于处理器1104的工作的指令和/或数据的任何类型的工作存储器,工作存储器1114可以包括但不限于随机存取存储器和/或只读存储设备。
软件元件可以位于工作存储器1114中,包括但不限于操作系统1116、一个或多个应用程序1118、驱动和/或其它数据和代码。用于执行以上描述的方法和步骤的指令可以包括在一个或多个应用程序1118中,并且前述系统100的部件/单元/模块可以通过处理器1104读取和调用所述一个或多个应用程序1118的指令来实现。更具体地,前述系统100的信息获取模块104例如可以在执行具有执行步骤202的指令的应用1118时由处理器1104实现。前述系统100的本体生成模块例如可以在执行具有执行步骤204,302-308的指令的应用1118时由处理器1104实现。前述系统100的知识转换模块110例如可以在执行具有执行步骤206的指令的应用1118时由处理器1104实现。前述系统100的知识推理模块114例如可以在执行具有执行步骤208,902-906指令的应用1118时由处理器1104实现。软件要素的指令的可执行代码或源代码可以存储在非瞬态计算机可读存储介质中,比如上述的(一个或多个)存储设备1110,并且可以被读取到工作存储器1114中并可能被编译和/或安装。软件要素的指令的可执行代码或源代码也可以从远程位置下载。
总线1102可以包括但不限于工业标准架构(ISA)总线、微通道架构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线及外围设备互连(PCI)总线。
计算设备1100还可以包括工作存储器1114,其可以是可存储对于处理器1104的工作有用的指令和/或数据的任何种类的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。
可以理解,可以根据具体的需求进行各种变化。例如,还可以使用定制的硬件,并且/或者可以以硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来实现特定元件。此外,可以采用到其它计算设备的连接,诸如网络输入/输出设备。例如,所公开的方法中的一些或全部可以通过使用根据本公开的逻辑和算法用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(诸如,包括线程可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
还可以理解,计算设备1100的组件可以分布在网络上。例如,一些处理可以使用一个处理器执行,而其它处理可以由远离该处理器的另一处理器执行。计算系统1100的其它组件也可以被类似地分布。这一,计算设备1100可以解释为在多个位置执行处理的分布式计算系统。
应注意,本公开还提供了使指令存储于其上的非瞬态计算机可读介质,所述指令在被处理器执行时使得处理器执行上述方法中的每一种方法的步骤。
能够以许多种方式来实现本公开的方法和装置。例如,可以通过软件、硬件、固件或其任意组合来实现本公开的方法和装置。方法步骤的如上所述的次序仅仅意欲是说明性的,并且除非另有特别说明,否则本公开的方法的步骤不限于以上具体描述的次序。此外,在一些实施例中,本公开也可以实现为记录在记录介质中的程序,该程序包括用于实现根据本公开的方法的机器可读指令。因此,本公开还覆盖存储有用于实现根据本公开的方法的程序的记录介质。
虽然已经用例子详细描述了本公开的一些具体实施例,但是本领域的技术人员应理解,上述例子仅意欲是说明性的而不限制本公开的范围。本领域的技术人员应理解,可以在不背离本公开的精神和范围的情况下修改上述实施例。本公开的范围由随附的权利要求来限定。

Claims (18)

1.一种方法,包括:
获取与产品的产品质量问题相关的原始数据;
生成本体库;以及
基于原始数据和本体库生成质量问题解决知识库,
其中,生成本体库的步骤包括生成与产品质量问题相关的本体,
生成与产品质量问题相关的本体的步骤进一步包括:
从原始数据提取原始变量,
对原始变量进行预处理,
对经预处理的原始变量进行聚类,和
根据聚类结果定义类和类的等级体系,从而构建质量问题相关的本体;生成与产品质量问题相关的本体的步骤还包括:
生成问题位置和问题类型之间的多对多映射,所述多对多映射反映产品的哪些问题位置存在哪些问题类型,或者哪些问题类型存在于产品的哪些问题位置处;
其中,生成问题位置和问题类型之间的多对多映射的步骤进一步包括:
构建问题位置集、问题类型集以及问题标题集,
构建用于问题位置集、问题类型集以及问题标题集这三个集合的索引词集,
分别构建问题位置、问题类型和问题标题与索引词之间的关系矩阵,
利用问题位置与索引词之间的关系矩阵和问题标题与索引词之间的关系矩阵来构建问题标题与问题位置之间的映射,
利用问题类型与索引词之间的关系矩阵和问题标题和索引词之间的关系矩阵来构建问题标题与问题类型之间的映射,和
通过问题标题构建多个问题位置与多个问题类型之间的映射;
其中,质量问题解决知识库包括问题位置和问题类型知识库和质量问题知识库,其中问题位置和问题类型知识库和质量问题知识库均包括与问题位置和问题类型相关的信息,并且在问题位置和问题类型知识库中,问题位置和问题类型之间具有所述多对多映射。
2.如权利要求1所述的方法,其中,本体库包括问题位置和问题类型本体库、质量问题本体库、围堵措施本体库、原因本体库和方案本体库中的一个或多个,其中,在问题位置和问题类型本体库中定义问题位置和问题类型之间的所述多对多映射。
3.如权利要求1所述方法,其中,基于原始数据生成与产品质量问题相关的本体的步骤进一步包括:
对经预处理的原始变量进行多次聚类,其中,后一次聚类后的聚类中心作为前一次聚类后的聚类中心的父节点,多次聚类后将聚类树中的各个节点作为本体的类。
4.如权利要求1或3所述的方法,其中,原始变量包括以下中的一个或多个:质量问题集、问题类型集、问题位置集、围堵措施集、原因集和方案集。
5.如权利要求1所述的方法,其中,质量问题解决知识库还包括:
围堵措施知识库;和/或
原因知识库和方案知识库。
6.如权利要求5所述的方法,其中,
问题位置及问题类型知识库包括问题位置_问题类型编号、问题位置编号、问题类型编号、问题位置标签和问题类型标签;
质量问题知识库包括质量问题编号、车型、问题标题、问题负责人、问题创建时间、问题发生次数、问题位置_问题类型编号、问题位置标签和问题类型标签;
原因知识库包括原因编号、质量问题编号、原因类别、原因权重以及原因关键短语;
围堵措施知识库包括围堵措施编号、质量问题编号、围堵措施负责人、围堵措施的状态以及围堵措施关键短语;以及
方案知识库包括方案编号、原因编号、方案效果、方案负责人以及方案关键短语。
7.如权利要求6所述的方法,还包括:基于原始数据和原因本体库,利用半监督分类算法来提取原因关键短语、围堵措施关键短语和方案关键短语中的一个或多个。
8.如权利要求5或6所述的方法,还包括:采用半监督学习的分类算法对原因进行分类。
9.如权利要求8所述的方法,其中采用半监督学习的分类算法对原因进行分类的步骤进一步包括将原因分类到人、机器、材料、方法、环境和测量六大类中。
10.如权利要求5或6所述的方法,还包括:将原因引起的问题发生的频次作为该原因的权重,或将由原因引发的问题发生的频次占问题发生总频次的百分比来作为原因的权重。
11.如权利要求1所述的方法,还包括:
响应于接收到检索请求,基于所述质量问题解决知识库进行知识推理,从而获得与检索请求中的质量问题对应的质量问题解决知识,质量问题解决知识包括原因集和方案集和/或围堵措施集。
12.如权利要求11所述的方法,其中知识推理的步骤还包括:
从检索请求中提取与检索请求中的质量问题对应的质量问题集。
13.如权利要求12所述的方法,其中从检索请求中提取质量问题集的步骤包括:
对检索请求进行预处理,来获得与检索请求中的质量问题有关的问题位置和问题类型,从而提取质量问题集;或者
基于检索请求的文本内容与质量问题知识库中的问题标题之间的相似度与阈值的比较,从而提取质量问题集。
14.如权利要求12或13所述的方法,还包括:
基于提取的质量问题集,以及基于质量问题知识库与围堵措施知识库的实体关系图,获得与问题集对应的围堵措施集;和/或
基于提取的质量问题集,以及基于质量问题知识库与原因知识库的实体关系图,获得与质量问题集对应的原因集,以及
根据获得的原因集以及基于原因知识库与方案知识库的实体关系图,获得与原因集对应的方案集。
15.如权利要求14所述的方法,其中,原因集是以鱼骨图呈现的,所述鱼骨图呈现人、机器、材料、方法、环境和测量六大类以及每一类下的原因。
16.一种系统,包括:
一个或多个存储器,用于存储计算机可读指令;以及
一个或多个处理器,所述处理器被配置为运行所述计算机可读指令来执行如权利要求1-15中任一项所述的方法的操作。
17.一种非瞬态计算机可读存储介质,其上存储计算机可读指令,所述指令当被一个或多个处理器执行时,使得处理器执行如权利要求1-15中任一项所述的方法的操作。
18.一种设备,包括用于执行如权利要求1-15中任一项所述的方法的操作的部件。
CN201810119973.5A 2018-02-07 2018-02-07 知识管理系统及方法 Active CN110209743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810119973.5A CN110209743B (zh) 2018-02-07 2018-02-07 知识管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810119973.5A CN110209743B (zh) 2018-02-07 2018-02-07 知识管理系统及方法

Publications (2)

Publication Number Publication Date
CN110209743A CN110209743A (zh) 2019-09-06
CN110209743B true CN110209743B (zh) 2021-10-01

Family

ID=67778555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810119973.5A Active CN110209743B (zh) 2018-02-07 2018-02-07 知识管理系统及方法

Country Status (1)

Country Link
CN (1) CN110209743B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112783889A (zh) * 2019-11-07 2021-05-11 中国石油化工股份有限公司 用于建立变更风险控制措施库的方法和装置
CN111221835B (zh) * 2019-12-30 2023-11-14 上海数设科技有限公司 数据处理方法和装置
CN111538807B (zh) * 2020-04-16 2023-04-07 上海交通大学 基于Stack Overflow网站获取Web API知识的系统和方法
CN112364191A (zh) * 2020-11-27 2021-02-12 上海华明电力设备制造有限公司 电气原理图的索引图的建立方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN107169079A (zh) * 2017-05-10 2017-09-15 浙江大学 一种基于Deepdive的领域文本知识抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN107169079A (zh) * 2017-05-10 2017-09-15 浙江大学 一种基于Deepdive的领域文本知识抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A Methodology for Problem-Driven Knowledge Acquistion and its Application";Yin Gai;《Springer Nature Singapore Pte Ltd》;20161231;第2-4章 *
"多分辨率空间数据的索引和应用";杨继红;《万方》;20140609;论文正文第3章 *
"汽车质量问题跟踪信息系统的设计与实现";陈慧静;《万方》;20110803;论文正文第3-5章 *
"面向生产现场问题的知识获取与分析方法研究";盖印;《万方》;20170424;论文正文第2、5章 *

Also Published As

Publication number Publication date
CN110209743A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
Arras et al. " What is relevant in a text document?": An interpretable machine learning approach
US10430690B1 (en) Machine learning predictive labeling system
US10783451B2 (en) Ensemble machine learning for structured and unstructured data
US8103671B2 (en) Text categorization with knowledge transfer from heterogeneous datasets
CN108391446B (zh) 基于机器学习算法对针对数据分类器的训练语料库的自动提取
CN110209743B (zh) 知识管理系统及方法
US8438162B2 (en) Method and apparatus for selecting clusterings to classify a predetermined data set
US11379685B2 (en) Machine learning classification system
CN117453921B (zh) 一种大语言模型的数据信息标签处理方法
CN111507089B (zh) 基于深度学习模型的文献分类方法、装置和计算机设备
Sharp et al. Toward Semi-autonomous Information: Extraction for Unstructured Maintenance Data in Root Cause Analysis
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
EP3994589A1 (en) System, apparatus and method of managing knowledge generated from technical data
US11100428B2 (en) Distributable event prediction and machine learning recognition system
US20220198274A1 (en) Method and system for unstructured information analysis using a pipeline of ml algorithms
WO2023000725A1 (zh) 电力计量的命名实体识别方法、装置和计算机设备
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Gil-Clavel et al. Using Natural Language Processing and Networks to Automate Structured Literature Reviews: An Application to Farmers Climate Change Adaptation
CN112215006B (zh) 机构命名实体归一化方法和系统
Gillmann et al. Quantification of Economic Uncertainty: a deep learning approach
Iparraguirre-Villanueva et al. Search and classify topics in a corpus of text using the latent dirichlet allocation model
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
Fredriksson et al. Machine Learning Algorithms for Labeling: Where and How They are Used?
Ali et al. Classification of Software Systems attributes based on quality factors using linguistic knowledge and machine learning: A review.
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant