CN112417175A - 面向维修工单的文档检索方法、系统、计算机及存储介质 - Google Patents
面向维修工单的文档检索方法、系统、计算机及存储介质 Download PDFInfo
- Publication number
- CN112417175A CN112417175A CN202011416856.9A CN202011416856A CN112417175A CN 112417175 A CN112417175 A CN 112417175A CN 202011416856 A CN202011416856 A CN 202011416856A CN 112417175 A CN112417175 A CN 112417175A
- Authority
- CN
- China
- Prior art keywords
- schema
- work order
- knowledge
- maintenance
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 132
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 117
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000009411 base construction Methods 0.000 claims abstract description 10
- 230000008439 repair process Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种面向维修工单的文档检索方法、系统、计算机及可读存储介质,其中,该方法包括:数据获取步骤,用于获取历史工单数据及待检索的维修案例;知识库构建步骤,用于对所述历史工单数据经命名实体识别建立一知识图谱,并将命名实体识别结果经一词向量训练模型进行训练,得到专有词词向量,利用所述知识图谱和/或所述专有词词向量构建知识库;文档检索步骤,对所述维修案例进行数据预处理得到维修案例Schema、维修案例词向量,将所述维修案例Schema及维修案例词向量分别与所述知识库中的知识图谱、专有词词向量进行对比及检索排序,得到文档检索结果。通过本申请,实现了灵活性高且结果可靠的文档检索。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及面向维修工单的文档检索方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着科学技术与工业互联网应用的迅速发展,工业领域中记录相关维修工单与维修通讯的文档大量增长,维修工单与维修通讯作为企业维护知识、重要的实践经验越来越被企业的运维单位重视。维修工单一般详细地记录了维修事件中的故障信息与维修信息,除此之外维修工单之间也存在一定的关系,例如,相似故障信息工单间是否存在维修程度不同的问题,是否有存在过度维修的情况,相同维修对象是否存在多次维修屡修不好的情况,通过合理的工单案例检索可以获得准确的历史维修信息,降低维修作业的成本,提高维修作业的效率,对于提升相关企业的效益有着重大影响。然而随着维修事件数量的增大,维修事件数据库中的工单文档可能有几百万之多,采用人工的检索操作是一项费时费力的工作,如何帮助维护人员快速查找相关历史维护信息,成为工单检索的一个重要问题。
目前行业内多采用自然语言处理的方法对工单文本进行内容分析,从工单的故障信息、维修信息等重要文本中获取表征的有用特征,并采用关键词匹配的方法进行工单文档检索。采用基于关键词与词法分析的工单文档检索方法将检索局限于文档的表征特征,忽视了工单与工单之间的联系,无法做到基于故障详情内容的智能化全文检索。
发明内容
本申请实施例提供了一种面向维修工单的文档检索方法、系统、计算机设备及计算机可读存储介质,基于行业知识、利用自然语言处理与知识图谱实现跨领域维修工单检索,本申请实施例基于行业知识实现对历史工单进行可定制化的自然语言处理句法分析,灵活性高且结果可靠,基于大数据知识图谱的检索结果排序、结果更准确。
第一方面,本申请实施例提供了一种面向维修工单的文档检索方法,包括:
数据获取步骤,用于获取历史工单数据及待检索的维修案例,具体的,所述维修案例为对象填写的当前维修案例信息;
知识库构建步骤,用于对所述历史工单数据经命名实体识别建立一知识图谱,并将命名实体识别结果经一词向量训练模型进行训练,得到专有词词向量,利用所述知识图谱和/或所述专有词词向量构建知识库;
文档检索步骤,对所述维修案例进行数据预处理得到维修案例Schema、维修案例词向量,将所述维修案例Schema及维修案例词向量分别与所述知识库中的知识图谱、专有词词向量进行对比及检索排序,得到文档检索结果。
在其中一些实施例中,所述知识库构建步骤进一步包括:
知识图谱构建步骤,用于建立行业域的图谱Schema并根据所述图谱Schema对所述历史工单数据进行数据抽取,从而建立知识图谱;
词向量获取步骤,基于词向量训练模型对所述Schema信息中的命名实体识别结果进行词向量训练,得到专有词词向量。可选的,所述词向量训练模型为Word2Vector模型或BERT模型(全称是Bidirectional Encoder Representation from Transformers)。
在其中一些实施例中,所述知识图谱获取步骤进一步包括:
图谱Schema获取步骤,用于根据已知行业知识构建行业域的图谱Schema;
Schema信息获取步骤,用于基于所述图谱Schema对所述历史工单数据进行命名实体识别,抽取所述历史工单数据中的Schema信息;
知识图谱获取步骤,根据所述Schema信息填充所述图谱Schema得到知识图谱,具体的,以工单案例为中心补充该案例的全部Schema信息。
基于上述步骤,基于行业知识构建知识图谱,实现对历史工单数据的定制化语法分析,提高本申请实施例的适用范围。
在其中一些实施例中,所述文档检索步骤进一步包括:
数据预处理步骤,用于基于所述图谱Schema对所述维修案例进行命名实体识别,得到维修案例Schema,并对所述维修案例Schema利用所述词向量训练模型获取维修案例词向量;
初步检索步骤,用于根据所述维修案例Schema在所述知识库中检索得到所述历史工单数据中的相关历史工单文档;
粗排序步骤,用于通过对比获取所述相关历史工单文档的Schema信息与维修案例Schema之间的重叠实体,对所述重叠实体设置实体权重并根据所述实体权重对所述相关历史工单文档进行粗排序;
二次排序步骤,根据相似度模型计算所述专有词词向量与所述维修案例词向量的相似度,并对所述相似度设置向量权重,结合所述实体权重与向量权重对所述相关历史工单文档进行二次排序,得到检索结果。具体的,所述相似度模型为TF-IDF模型或余弦相似度模型,所述向量权重的设置根据实际业务需求进行。
经过上述步骤,利用知识图谱及词向量获取文档与相关历史工单文档的匹配度得到检索结果,提高检索结果的准确性。
第二方面,本申请实施例提供了一种面向维修工单的文档检索系统,包括:
数据获取模块,用于获取历史工单数据及待检索的维修案例,具体的,所述维修案例为对象填写的当前维修案例信息;
知识库构建模块,用于对所述历史工单数据经命名实体识别建立一知识图谱,并将命名实体识别结果经一词向量训练模型进行训练,得到专有词词向量,利用所述知识图谱和/或所述专有词词向量构建知识库;
文档检索模块,对所述维修案例进行数据预处理得到维修案例Schema、维修案例词向量,将所述维修案例Schema及维修案例词向量分别与所述知识库中的知识图谱、专有词词向量进行对比及检索排序,得到文档检索结果。
在其中一些实施例中,所述知识库构建模块进一步包括:
知识图谱构建模块,用于建立行业域的图谱Schema并根据所述图谱Schema对所述历史工单数据进行数据抽取,从而建立知识图谱;
词向量获取模块,基于词向量训练模型对所述Schema信息中的命名实体识别结果进行词向量训练,得到专有词词向量。可选的,所述词向量训练模型为Word2Vector模型或BERT模型。
在其中一些实施例中,所述知识图谱获取模块进一步包括:
图谱Schema获取模块,用于根据已知行业知识构建行业域的图谱Schema;
Schema信息获取模块,用于基于所述图谱Schema对所述历史工单数据进行命名实体识别,抽取所述历史工单数据中的Schema信息;
知识图谱获取模块,根据所述Schema信息填充所述图谱Schema得到知识图谱,具体的,以工单案例为中心补充该案例的全部Schema信息;
基于上述模块,基于行业知识构建知识图谱,实现对历史工单数据的定制化语法分析,提高本申请实施例的适用范围。
在其中一些实施例中,所述文档检索模块进一步包括:
数据预处理模块,用于基于所述图谱Schema对所述维修案例进行命名实体识别,得到维修案例Schema,并对所述维修案例Schema利用所述词向量训练模型获取维修案例词向量;
初步检索模块,用于根据所述维修案例Schema在所述知识库中检索得到所述历史工单数据中的相关历史工单文档;
粗排序模块,用于通过对比获取所述相关历史工单文档的Schema信息与维修案例Schema之间的重叠实体,对所述重叠实体设置实体权重并根据所述实体权重对所述相关历史工单文档进行粗排序;
二次排序模块,根据相似度模型计算所述专有词词向量与所述维修案例词向量的相似度,并对所述相似度设置向量权重,结合所述实体权重与向量权重对所述相关历史工单文档进行二次排序,得到检索结果。具体的,所述相似度模型为TF-IDF模型(全称是TermFrequency–Inverse Document Frequency)或余弦相似度模型,所述向量权重的设置根据实际业务需求进行。
经过上述模块,利用知识图谱及词向量获取文档与相关历史工单文档的匹配度得到检索结果,提高检索结果的准确性。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的面向维修工单的文档检索方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的面向维修工单的文档检索方法。
相比于相关技术,本申请实施例提供的面向维修工单的文档检索方法、系统、计算机设备及计算机可读存储介质,通过构建行业域的图谱Schema定制化构建历史工单数据的知识图谱及词向量表示,基于此实现对输入的维修案例的检索,该检索过程结合考虑了Schema数据的匹配度和词向量的匹配度,提高了文档检索的灵活性及检索结果的可靠性及准确性。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的面向维修工单的文档检索方法的流程示意图;
图2是根据本申请实施例的面向维修工单的文档检索方法步骤S2的分步骤流程示意图;
图3是根据本申请实施例的面向维修工单的文档检索方法步骤S3的分步骤流程示意图;
图4是根据本申请实施例的面向维修工单的文档检索系统的结构框图。
附图说明:
1、数据获取模块;2、知识库构建模块;3、文档检索模块;
21、知识图谱构建模块;22、词向量获取模块;
31、数据预处理模块;32、初步检索模块;33、粗排序模块;
34、二次排序模块;
211、图谱Schema获取模块;212、Schema信息获取模块;
213、知识图谱获取模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供了一种面向维修工单的文档检索方法,图1是根据本申请实施例的面向维修工单的文档检索方法的流程示意图,参考图1所示,该方法包括如下步骤:
数据获取步骤S1,用于获取历史工单数据及待检索的维修案例,具体的,维修案例为对象填写的当前维修案例信息;
知识库构建步骤S2,用于对历史工单数据经命名实体识别建立一知识图谱,并将命名实体识别结果经一词向量训练模型进行训练,得到专有词词向量,利用知识图谱和/或专有词词向量构建知识库,可选的,本申请实施例采用知识图谱和专有词词向量结合构建知识库,但不限于二者结合,也可以是单独使用知识图谱或专有词词向量构建知识库;
文档检索步骤S3,对维修案例进行数据预处理得到维修案例Schema、维修案例词向量,将维修案例Schema及维修案例词向量分别与知识库中的知识图谱、专有词词向量进行对比及检索排序,得到文档检索结果。
图2是根据本申请实施例的面向维修工单的文档检索方法步骤S2的分步骤流程示意图,参考图2所示,在其中一些实施例中,知识库构建步骤S2进一步包括:
知识图谱构建步骤S21,用于建立行业域的图谱Schema并根据图谱Schema对历史工单数据进行数据抽取,从而建立知识图谱;
词向量获取步骤S22,基于词向量训练模型对Schema信息中的命名实体识别结果进行词向量训练,得到专有词词向量。可选的,词向量训练模型为Word2Vector模型或BERT模型。
其中,知识图谱获取步骤S21进一步包括:
图谱Schema获取步骤S211,用于根据已知行业知识构建行业域的图谱Schema,可选的,图谱Schema包括但不限于车型、车架号、故障工况、故障部件、故障灯指示状态、故障现象、维修方法、维修部件其一或其任意组合;
Schema信息获取步骤S212,用于基于图谱Schema对历史工单数据进行命名实体识别,抽取历史工单数据中的Schema信息;
知识图谱获取步骤S213,根据Schema信息填充图谱Schema得到知识图谱,具体的,以工单案例为中心补充该案例的全部Schema信息。
基于上述步骤,基于行业知识构建知识图谱,实现对历史工单数据的定制化语法分析,提高本申请实施例的适用范围。
图3是根据本申请实施例的面向维修工单的文档检索方法步骤S3的分步骤流程示意图,其中,文档检索步骤S3进一步包括:
数据预处理步骤S31,用于基于图谱Schema对维修案例进行命名实体识别,得到维修案例Schema,并对维修案例Schema利用词向量训练模型获取维修案例词向量,具体的,维修案例Schema中包括但不限于车型、车架号、故障工况、故障部件、故障灯指示状态、故障现象、维修方法、维修部件其一或其任意组合;
初步检索步骤S32,用于根据维修案例Schema在知识库中检索得到历史工单数据中的相关历史工单文档,具体的,根据维修案例Schema中实体的实体类别与实体名称查找相关历史工单文档;
粗排序步骤S33,用于通过对比获取相关历史工单文档的Schema信息与维修案例Schema之间的重叠实体,对重叠实体设置实体权重并根据实体权重对相关历史工单文档进行粗排序;
二次排序步骤S34,根据相似度模型计算专有词词向量与维修案例词向量的相似度,并对相似度设置向量权重,结合实体权重与向量权重对相关历史工单文档进行二次排序,得到检索结果。具体的,相似度模型为TF-IDF模型或余弦相似度模型,向量权重的设置根据实际业务需求进行。
经过上述步骤,利用知识图谱及词向量获取文档与相关历史工单文档的匹配度得到检索结果,提高检索结果的准确性。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。例如,图3中步骤S33和步骤S34的先后顺序可以交换顺序执行,也能实现相同的技术效果。
本实施例还提供了一种面向维修工单的文档检索系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请实施例的面向维修工单的文档检索系统的结构框图,如图4所示,该系统包括:数据获取模块1,用于获取历史工单数据及待检索的维修案例,具体的,维修案例为对象填写的当前维修案例信息;知识库构建模块2,用于对历史工单数据经命名实体识别建立一知识图谱,并将命名实体识别结果经一词向量训练模型进行训练,得到专有词词向量,利用知识图谱和/或专有词词向量构建知识库,可选的,本申请实施例采用知识图谱和专有词词向量结合构建知识库,但不限于二者结合,也可以是单独使用知识图谱或专有词词向量构建知识库;文档检索模块3,对维修案例进行数据预处理得到维修案例Schema、维修案例词向量,将维修案例Schema及维修案例词向量分别与知识库中的知识图谱、专有词词向量进行对比及检索排序,得到文档检索结果。
具体的,知识库构建模块2进一步包括:知识图谱构建模块21,用于建立行业域的图谱Schema并根据图谱Schema对历史工单数据进行数据抽取,从而建立知识图谱;词向量获取模块22,基于词向量训练模型对Schema信息中的命名实体识别结果进行词向量训练,得到专有词词向量。可选的,词向量训练模型为Word2Vector模型或BERT模型。
具体的,知识图谱获取模块21进一步包括:图谱Schema获取模块211,用于根据已知行业知识构建行业域的图谱Schema,可选的,图谱Schema包括但不限于车型、车架号、故障工况、故障部件、故障灯指示状态、故障现象、维修方法、维修部件其一或其任意组合;Schema信息获取模块212,用于基于图谱Schema对历史工单数据进行命名实体识别,抽取历史工单数据中的Schema信息;知识图谱获取模块213,根据Schema信息填充图谱Schema得到知识图谱,具体的,以工单案例为中心补充该案例的全部Schema信息;基于上述模块,基于行业知识构建知识图谱,实现对历史工单数据的定制化语法分析,提高本申请实施例的适用范围。
具体的,文档检索模块3进一步包括:数据预处理模块31,用于基于图谱Schema对维修案例进行命名实体识别,得到维修案例Schema,并对维修案例Schema利用词向量训练模型获取维修案例词向量,具体的,维修案例Schema中包括但不限于车型、车架号、故障工况、故障部件、故障灯指示状态、故障现象、维修方法、维修部件其一或其任意组合;初步检索模块32,用于根据维修案例Schema在知识库中检索得到历史工单数据中的相关历史工单文档;粗排序模块33,用于通过对比获取相关历史工单文档的Schema信息与维修案例Schema之间的重叠实体,对重叠实体设置实体权重并根据实体权重对相关历史工单文档进行粗排序;二次排序模块34,根据相似度模型计算专有词词向量与维修案例词向量的相似度,并对相似度设置向量权重,结合实体权重与向量权重对相关历史工单文档进行二次排序,得到检索结果。具体的,相似度模型为TF-IDF模型或余弦相似度模型,向量权重的设置根据实际业务需求进行。
经过上述模块,利用知识图谱及词向量获取文档与相关历史工单文档的匹配度得到检索结果,提高检索结果的准确性。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1描述的本申请实施例面向维修工单的文档检索方法可以由计算机设备来实现。计算机设备可以包括处理器以及存储有计算机程序指令的存储器。具体地,上述处理器可以包括中央处理器(CPU),或者特定集成电路(Application SpecificIntegrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性(Non-Volatile)存储器。在特定实施例中,存储器包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random AccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种面向维修工单的文档检索方法。
另外,结合上述实施例中的面向维修工单的文档检索方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种面向维修工单的文档检索方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种面向维修工单的文档检索方法,其特征在于,包括:
数据获取步骤,用于获取历史工单数据及待检索的维修案例;
知识库构建步骤,用于对所述历史工单数据经命名实体识别建立一知识图谱,并将命名实体识别结果经一词向量训练模型进行训练,得到专有词词向量,利用所述知识图谱和/或所述专有词词向量构建知识库;
文档检索步骤,对所述维修案例进行数据预处理得到维修案例Schema、维修案例词向量,将所述维修案例Schema及维修案例词向量分别与所述知识库中的知识图谱、专有词词向量进行对比及检索排序,得到文档检索结果。
2.根据权利要求1所述的面向维修工单的文档检索方法,其特征在于,所述知识库构建步骤进一步包括:
知识图谱构建步骤,用于建立行业域的图谱Schema并根据所述图谱Schema对所述历史工单数据进行数据抽取,从而建立知识图谱;
词向量获取步骤,基于词向量训练模型对所述Schema信息中的命名实体识别结果进行词向量训练,得到专有词词向量。
3.根据权利要求2所述的面向维修工单的文档检索方法,其特征在于,所述知识图谱获取步骤进一步包括:
图谱Schema获取步骤,用于根据已知行业知识构建行业域的图谱Schema;
Schema信息获取步骤,用于基于所述图谱Schema对所述历史工单数据进行命名实体识别,抽取所述历史工单数据中的Schema信息;
知识图谱获取步骤,根据所述Schema信息填充所述图谱Schema得到知识图谱。
4.根据权利要求3所述的面向维修工单的文档检索方法,其特征在于,所述文档检索步骤进一步包括:
数据预处理步骤,用于基于所述图谱Schema对所述维修案例进行命名实体识别,得到维修案例Schema,并对所述维修案例Schema利用所述词向量训练模型获取维修案例词向量;
初步检索步骤,用于根据所述维修案例Schema在所述知识库中检索得到所述历史工单数据中的相关历史工单文档;
粗排序步骤,用于通过对比获取所述相关历史工单文档的Schema信息与维修案例Schema之间的重叠实体,对所述重叠实体设置实体权重并根据所述实体权重对所述相关历史工单文档进行粗排序;
二次排序步骤,根据相似度模型计算所述专有词词向量与所述维修案例词向量的相似度,并对所述相似度设置向量权重,结合所述实体权重与向量权重对所述相关历史工单文档进行二次排序,得到检索结果。
5.一种面向维修工单的文档检索系统,其特征在于,包括:
数据获取模块,用于获取历史工单数据及待检索的维修案例;
知识库构建模块,用于对所述历史工单数据经命名实体识别建立一知识图谱,并将命名实体识别结果经一词向量训练模型进行训练,得到专有词词向量,利用所述知识图谱和/或所述专有词词向量构建知识库;
文档检索模块,对所述维修案例进行数据预处理得到维修案例Schema、维修案例词向量,将所述维修案例Schema及维修案例词向量分别与所述知识库中的知识图谱、专有词词向量进行对比及检索排序,得到文档检索结果。
6.根据权利要求5所述的面向维修工单的文档检索系统,其特征在于,所述知识库构建模块进一步包括:
知识图谱构建模块,用于建立行业域的图谱Schema并根据所述图谱Schema对所述历史工单数据进行数据抽取,从而建立知识图谱;
词向量获取模块,基于词向量训练模型对所述Schema信息中的命名实体识别结果进行词向量训练,得到专有词词向量。
7.根据权利要求6所述的面向维修工单的文档检索系统,其特征在于,所述知识图谱获取模块进一步包括:
图谱Schema获取模块,用于根据已知行业知识构建行业域的图谱Schema;
Schema信息获取模块,用于基于所述图谱Schema对所述历史工单数据进行命名实体识别,抽取所述历史工单数据中的Schema信息;
知识图谱获取模块,根据所述Schema信息填充所述图谱Schema得到知识图谱。
8.根据权利要求7所述的面向维修工单的文档检索系统,其特征在于,所述文档检索模块进一步包括:
数据预处理模块,用于基于所述图谱Schema对所述维修案例进行命名实体识别,得到维修案例Schema,并对所述维修案例Schema利用所述词向量训练模型获取维修案例词向量;
初步检索模块,用于根据所述维修案例Schema在所述知识库中检索得到所述历史工单数据中的相关历史工单文档;
粗排序模块,用于通过对比获取所述相关历史工单文档的Schema信息与维修案例Schema之间的重叠实体,对所述重叠实体设置实体权重并根据所述实体权重对所述相关历史工单文档进行粗排序;
二次排序模块,根据相似度模型计算所述专有词词向量与所述维修案例词向量的相似度,并对所述相似度设置向量权重,结合所述实体权重与向量权重对所述相关历史工单文档进行二次排序,得到检索结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的面向维修工单的文档检索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的面向维修工单的文档检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011416856.9A CN112417175A (zh) | 2020-12-07 | 2020-12-07 | 面向维修工单的文档检索方法、系统、计算机及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011416856.9A CN112417175A (zh) | 2020-12-07 | 2020-12-07 | 面向维修工单的文档检索方法、系统、计算机及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417175A true CN112417175A (zh) | 2021-02-26 |
Family
ID=74775862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011416856.9A Withdrawn CN112417175A (zh) | 2020-12-07 | 2020-12-07 | 面向维修工单的文档检索方法、系统、计算机及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417175A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139383A (zh) * | 2021-04-20 | 2021-07-20 | 北京明略昭辉科技有限公司 | 一种文档排序方法、系统、电子设备及存储介质 |
CN115034409A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 车辆维修方案确定方法、装置、设备及存储介质 |
CN115169658A (zh) * | 2022-06-24 | 2022-10-11 | 南京英诺森软件科技有限公司 | 基于npl和知识图谱的库存消耗预测方法、系统和存储介质 |
CN116542634A (zh) * | 2023-06-21 | 2023-08-04 | 中国电信股份有限公司 | 工单处理方法、装置和计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009080625A (ja) * | 2007-09-26 | 2009-04-16 | Toshiba Corp | 知識構築装置、プログラムおよび知識構築方法 |
CN110569369A (zh) * | 2019-09-16 | 2019-12-13 | 神州数码融信软件有限公司 | 银行金融系统知识图谱的生成方法及装置、应用方法及装置 |
CN110727804A (zh) * | 2019-10-11 | 2020-01-24 | 北京明略软件系统有限公司 | 利用知识图谱处理维修案例的方法、装置及电子设备 |
CN110929149A (zh) * | 2019-11-12 | 2020-03-27 | 广东工业大学 | 一种工业设备故障维修推荐方法和系统 |
CN111143521A (zh) * | 2019-10-28 | 2020-05-12 | 广州恒巨信息科技有限公司 | 基于知识图谱的法条检索方法、系统、装置及存储介质 |
CN111475623A (zh) * | 2020-04-09 | 2020-07-31 | 北京北大软件工程股份有限公司 | 基于知识图谱的案件信息语义检索方法及装置 |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和系统 |
-
2020
- 2020-12-07 CN CN202011416856.9A patent/CN112417175A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009080625A (ja) * | 2007-09-26 | 2009-04-16 | Toshiba Corp | 知識構築装置、プログラムおよび知識構築方法 |
CN110569369A (zh) * | 2019-09-16 | 2019-12-13 | 神州数码融信软件有限公司 | 银行金融系统知识图谱的生成方法及装置、应用方法及装置 |
CN110727804A (zh) * | 2019-10-11 | 2020-01-24 | 北京明略软件系统有限公司 | 利用知识图谱处理维修案例的方法、装置及电子设备 |
CN111143521A (zh) * | 2019-10-28 | 2020-05-12 | 广州恒巨信息科技有限公司 | 基于知识图谱的法条检索方法、系统、装置及存储介质 |
CN110929149A (zh) * | 2019-11-12 | 2020-03-27 | 广东工业大学 | 一种工业设备故障维修推荐方法和系统 |
CN111475623A (zh) * | 2020-04-09 | 2020-07-31 | 北京北大软件工程股份有限公司 | 基于知识图谱的案件信息语义检索方法及装置 |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139383A (zh) * | 2021-04-20 | 2021-07-20 | 北京明略昭辉科技有限公司 | 一种文档排序方法、系统、电子设备及存储介质 |
CN115034409A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 车辆维修方案确定方法、装置、设备及存储介质 |
CN115169658A (zh) * | 2022-06-24 | 2022-10-11 | 南京英诺森软件科技有限公司 | 基于npl和知识图谱的库存消耗预测方法、系统和存储介质 |
CN115169658B (zh) * | 2022-06-24 | 2023-11-21 | 南京英诺森软件科技有限公司 | 基于npl和知识图谱的库存消耗预测方法、系统和存储介质 |
CN116542634A (zh) * | 2023-06-21 | 2023-08-04 | 中国电信股份有限公司 | 工单处理方法、装置和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417175A (zh) | 面向维修工单的文档检索方法、系统、计算机及存储介质 | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
WO2020082569A1 (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN102156711B (zh) | 一种基于云存储的电力全文检索方法及系统 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
US8161036B2 (en) | Index optimization for ranking using a linear model | |
US20120303637A1 (en) | Automatic wod-cloud generation | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN111177405A (zh) | 数据搜索匹配方法、装置、计算机设备和存储介质 | |
US20080086490A1 (en) | Discovery of services matching a service request | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
US20180285742A1 (en) | Learning method, learning apparatus, and storage medium | |
CN111813930A (zh) | 相似文档检索方法及装置 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CA3051919C (en) | Machine learning (ml) based expansion of a data set | |
CN106933824A (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
CN113139383A (zh) | 一种文档排序方法、系统、电子设备及存储介质 | |
CN110704613A (zh) | 词汇数据库构建及查询方法、数据库系统、设备及介质 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN116719954B (zh) | 一种信息检索方法、电子设备及存储介质 | |
CN110851560B (zh) | 信息检索方法、装置及设备 | |
CN111160445A (zh) | 投标文件相似度计算方法及装置 | |
KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
CN115328945A (zh) | 数据资产的检索方法、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210226 |
|
WW01 | Invention patent application withdrawn after publication |