CN111737435A - 问答故障诊断的辅助决策模型构建、决策方法及系统 - Google Patents
问答故障诊断的辅助决策模型构建、决策方法及系统 Download PDFInfo
- Publication number
- CN111737435A CN111737435A CN202010592462.2A CN202010592462A CN111737435A CN 111737435 A CN111737435 A CN 111737435A CN 202010592462 A CN202010592462 A CN 202010592462A CN 111737435 A CN111737435 A CN 111737435A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- fault diagnosis
- respondents
- dialogue data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 143
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000003062 neural network model Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Entrepreneurship & Innovation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种问答故障诊断的辅助决策模型构建、决策方法及系统,方法包括:将预设语料库中的对话数据进行预处理,获取对话数据的词向量;将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,得到包含答案信息的问题的词向量;将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,基于相关值进行应答者的答案与提问者的问题相关度的排序;根据排序完成故障诊断的辅助决策。本发明通过对语料库的数据信息进行分析,并对分析信息进行相关度的排序,提高了对话信息利用率、检索的准确率,能够更加准确获取问题的答案。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及一种问答故障诊断的辅助决策模型构建、决策方法及系统。
背景技术
伴随着全球各国电力系统的不断发展,其设备维护和故障诊断的压力在不断加大,面对庞大电力网络的维护难题,大量的电力供应商选择依托于互联网,利用网络在线客服来进行更加便捷的远程维护指导,因此很多大型的电力企业随着客服平台的运行,积累了大规模的故障诊断与维护的数据,如果我们能够有效利用这些现有数据,并根据故障信息描述,自动实现故障类型的诊断将大大减少设备维护的成本,进一步提高电力企业的生产效率。然而对于完成一个设备故障的准确判断,提问者与回答者之间的交互尤为重要,这些对话语句实际上是完成故障诊断的干扰项。
问答系统的发展日新月异,自图灵提出图灵测试之后,1961年,Green等人就实现了基于数据库的早期的问答系统BASEBALL,BASEBALL可用来回答美国一个季度棒球比赛的时间地点成绩等自然语言问题;在1966年,Jaseph Weizenbaum研发出了第一个用于心理治疗问答系统Eliza,Eliza通过模式及关键字匹配和置换的方法实现了与病人的对话交流;1975年尚克和他的同事在耶鲁大学建成SAM系统具备了阅读理解的功能,但要求要有描述问题对应答案的脚本;从90年代至今,问答系统的研究方向转向了基于大规模文档集的问答匹配,研究领域也从初期的限定领域拓展到开放领域,研究对象从当初的固定语料库拓展到互联网,但受到当时技术的制约,面向Web开放域的问答系统的正确率和精确性都不高,还不能提供良好的商业服务。
随着互联网与经济社会各领域的融合发展进一步深化,各行各业都在试水“互联网+”,电力企业紧跟时代潮流,应用互联网在各个工作领域,如利用对话机器人系统辅助故障诊断就是一个重要的应用实例,各大电力公司客服平台经过多年的运营,积累了大量的有关故障的对话信息,经过对话产生交流信息,其中很多对话并不包含解决故障问题的答案,由于很多对话并不包含解决故障问题的答案,降低了对话信息利用率及检索的准确率。
发明内容
因此,本发明提供的一种问答故障诊断的辅助决策模型构建、决策方法及系统,克服现有技术对话信息利用率低、检索的准确率低的缺陷。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种问答故障诊断的辅助决策模型构建方法,包括:
将预设语料库中的对话数据进行预处理,获取对话数据的词向量,所述预设语料库中的对话数据包括:至少一组应答者与提问者之间的对话数据;
将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,得到包含答案信息的问题的词向量;
将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,并基于相关值进行应答者的答案与提问者的问题相关度的排序;
根据应答者的答案与提问者的问题相关度的排序,完成故障诊断的辅助决策。
在一实施例中,所述对话数据进行预处理包括:
将对话数据切分成单独的词,去除预设词性的词汇,得到对话数据的词汇,通过机器学习的方法将对话数据的词汇转换成对话数据的词向量。
在一实施例中,预设语料库包括多种语言的对话数据。
在一实施例中,所述进行应答者的答案与提问者的问题相关度的排序的算法,包括:pointwise排序算法、pairwise排序算法、listwise排序算法。
第二方面,本发明实施例提供一种问答故障诊断的辅助决策模型构建系统,包括:
数据处理模块,用于将预设语料库中的对话数据进行预处理,获取对话数据的词向量,所述预设语料库中的对话数据包括:至少一组应答者与提问者之间的对话数据;
序列匹配模块,用于将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,得到包含答案信息的问题的词向量;
结果排序模块,用于将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,并基于相关值进行应答者的答案与提问者的问题相关度的排序;
辅助决策模块,用于根据应答者的答案与提问者的问题相关度的排序,完成故障诊断的辅助决策。
第三方面,本发明实施例提供一种问答故障诊断的辅助决策方法,包括:
获取用户的请求问题;
将用户的请求问题进行预处理得到请求问题对应的词向量;
将所述请求问题对应的词向量输入本发明实施例第二方面的问答故障诊断的辅助决策模型构建系统的辅助决策模块中,得到预设语料库中应答者的答案与用户的问题相关度的排序,根据排序结果返回用户的请求问题的答案。
第四方面,本发明实施例提供一种问答故障诊断的辅助决策系统,包括:
用户的请求问题获取模块,用于获取用户的请求问题;
请求问题处理模块,用于将用户的请求问题进行预处理得到请求问题对应的词向量;
请求问题的辅助决策模块,根据将所述请求问题对应的词向量输入本发明实施例第二方面的问答故障诊断的辅助决策模型构建系统的辅助决策模块中,得到预设语料库中应答者的答案与用户的问题相关度的排序,根据排序结果返回用户的请求问题的答案。
第五方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的问答故障诊断的辅助决策模型构建方法或本发明实施例第三方面所述的问答故障诊断的辅助决策方法。
第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的问答故障诊断的辅助决策模型构建方法或本发明实施例第三方面所述的问答故障诊断的辅助决策方法。
本发明技术方案,具有如下优点:
本发明提供的问答故障诊断的辅助决策模型构建、决策方法及系统,将预设语料库中的对话数据进行预处理,获取对话数据的词向量,所述预设语料库中的对话数据包括:至少一组应答者与提问者之间的对话数据;将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,得到包含答案信息的问题的词向量;将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,并基于相关值进行应答者的答案与提问者的问题相关度的排序;根据应答者的答案与提问者的问题相关度的排序,完成故障诊断的辅助决策。提高了对话信息的利用率、检索的准确率,能够更加准确获取用户请求问题的答案。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的问答故障诊断的辅助决策模型构建方法的一个具体示例的流程图;
图2为本发明实施例提供的问答故障诊断的辅助决策模型构建方法中Subtract法的一个具体示例的模型图;
图3为本发明实施例提供的问答故障诊断的辅助决策模型构建方法中CNN模型的一个具体示例的模型图;
图4为本发明实施例提供的问答故障诊断的辅助决策模型构建系统的模块组成图;
图5为本发明实施例提供的一种终端一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的一种问答故障诊断的辅助决策模型构建方法,如图1所示,包括如下步骤:
步骤S1:将预设语料库中的对话数据进行预处理,获取对话数据的词向量,所述预设语料库中的对话数据包括:至少一组应答者与提问者之间的对话数据。
在本发明实施例中,预设语料库包括多种语言的对话数据,例如语料库包括:中文对话数据、英文对话数据、中英混合对话等,仅以此举例,不以此为限,根据具体需求选择相应语言的语料库。
在本发明实施例中,对话数据进行预处理包括:将对话数据切分成单独的词,以句子为单位进行匹配,要求完全相同的句子才能够相互匹配,在本申请中只需要检索到逻辑上能够回答问题的答案,不需要句子上的完整匹配,将对话数据切分成单独的词,可以提取句中核心词,获取所需关键信息,以最佳选择进行问答匹配,从而判断出用户搜索的意图和内容,将符合用户需求的内容展现出来,其中,英文的行文中,单词之间是以空格作为自然分界符的,而中文仅仅字、句和段,能通过明显的分界符来简略划界,因此需要使用算法才能对中文句子进行分词,英文分词需要使用(Natural Language Toolkit,NLTK)自然语言处理工具包,NLTK包括图形演示和示例数据,其解释了工具包支持的语言处理任务;中文需要使用jieba库,jieba库为python的第三方库,用于中文的分词。
在本发明实施例中,将对话数据切分成单独的词后,需要去除预设词性的词汇,预设词性是指对话中出现频率很高、但实际意义不大、对搜索信息起不到作用的词,比如:“的”、“在”、“和”、“接着”等,仅以此举例,不以此为限,实际应用中选择相应的词性进行处理,此类词汇在对话数据中频繁出现,会降低搜索效率,所以需要在搜索答案或处理搜索请求时为节省存储空间和提高搜索效率,自动忽略这些字或词即停用词,得到对话数据的词汇。
在本发明实施例中,去除预设词性的词汇,得到对话数据的词汇后,通过机器学习的方法将对话数据的词汇转换成对话数据的词向量。例如:以词嵌入的方式将词转化为向量后,需要利用长短期记忆网络(Long Short-Term Memory,LSTM)、循环神经网络(GateRecurrent Unit,GRU)将每个向量关联,使得每个词都包含上下文信息,计算公式如下:
其中,计算公式类似LSTM的门函数,只保留了输入门,⊙表示元素的智能乘积(element-wise),W、b是模型参数,σ为激活函数,表示将变换成与WiQ维度相同的矩阵,Q,a编码前的问题与答案向量,编码后的问题与答案向量。
步骤S2:将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,得到包含答案信息的问题的词向量。
在本发明实施例中,将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,其中,维度可以自行进行设置,也可以根据提问者与应答者两者词向量个数少的确定维度,仅以此举例,不以此为限,在实际应用中,根据具体需求选择相应的预设维度,在步骤S1中,将对话数据转换成对话数据的词向量,在步骤S2中,通过维度统一,分析出问题与答案的重点。例如:通过编码后计算的问题向量与答案向量的向量积,得到一个注意力矩阵,通过注意力矩阵来计算得到包含答案信息的问题的词向量,计算公式如下:
其中,注意力矩阵中第i行第j列元素为eij,lq为问题分词后所得的向量个数,假设输入的问题词向量为qi,可以得到包含答案信息的问题的词向量aqj。
步骤S3:将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,并基于相关值进行应答者的答案与提问者的问题相关度的排序。
在本发明实施例中,对应的关系向量的获取方法包括:Subtract、Multiply、NN、NTN、EusCos等方法,仅以此举例,不以此为限,在实际应用中,根据具体需求选择相应的方法,如图2所示,Subtract法的模型图,使用Subtract法进行计算,计算公式如下:
tj=f(aj,aqj)=(aj-aqj)⊙(aj-aqj)
其中,tj为对应的关系向量,aj为应答者对话数据中的每个词向量,aqj为包含答案信息的问题的词向量。
在本发明实施例中,将计算的关系向量tj通过神经网络模型计算各个关系向量间的相关值,如图3所示,q1,q2,...,qn为一组问题词向量,经过注意力加权之后,得到一组新的包含问题信息的向量aq1,aq2…aqm,它与答案向量ap1,ap2,...,apm进行比较后可以得到关系向量组tp1,tp2,…,tpm,将之作为输入,经由CNN处理后得到了相关度预测值,仅以此举例,不以此为限,在实际应用中,根据具体需求选择相应的神经网络模型,各个关系向量间的相关值计算公式如下:
在本发明实施例中,进行应答者的答案与提问者的问题相关度的排序的算法,包括:pointwise排序算法、pairwise排序算法、listwise排序算法。其中,在问答检索系统中,需要对通过问题Q搜索出来的答案集A={a1,a2,…,an}进行排序,假设问题Q和答案ai只有相关和不相关两种关系;pointwise排序算法:对于每一个(Q,ai)对进行判断,在只有两种关系的情况下,输出结果,标签0代表不想关,标签1代表相关;pairwise排序算法:对于每一个(Q,ai,aj)对进行排序,假设ai,aj只有一个与Q相关,与Q相关的排在前面,无关的排在后面;listwise排序算法:对于答案集A中的每个ai进行排序,最终结果尽量使得相关的ai排在不相关的aj前面。
步骤S4:根据应答者的答案与提问者的问题相关度的排序,完成故障诊断的辅助决策。
在本发明实施例中,得到应答者的答案与提问者的问题相关度的排序。根据相关度的大小,对答案的排序,完成故障诊断的辅助决策,其中,相关度大的数值排序靠前,作为提问者的问题的答案,完成故障诊断的辅助决策。
在本实施例中,通过实验比较分析问答故障诊断的辅助决策模型构建方法工作如下:
首先,统计数据:采用中国国家电网公司自主开发的中文数据集managezh和businesszh作为语料库,其中,managezh是该公司利用公司内部日常管理网上对话数据构建的一个数据集,目前是v1.0版,businesszh则是基于公司对外业务办理构建的中文对话数据集,二者皆包含丰富的故障诊断信息,通过处理已经将上述两个语料库由对话语料库转化为了一个问题对应多个答案形式的问答语料库,语料库皆由训练集、验证集和测试集三部分构成,managezh语料库的具体统计数据如下表:
question | answer | relevant | irrelevant | |
train | 5053 | 36420 | 4946 | 31474 |
val | 1672 | 12139 | 1616 | 10523 |
test | 1659 | 12142 | 1610 | 10532 |
businesszh语料库的具体统计数据如下表:
question | answer | relevant | irrelevant | |
train | 14639 | 60718 | 18894 | 41824 |
val | 4864 | 20282 | 6445 | 13837 |
test | 4784 | 20176 | 6331 | 13845 |
在评价指标上,(Mean Reciprocal Rank,MRR)平均倒数排名指标、(Mean AveragePrecision,MAP)平均精度指标等,是两个常用来衡量搜索算法效果的指标,对于我们使用的语料库,可能有多个正确答案,因此我们使用的评估指标是平均精度(MAP)和平均倒数排名(MRR)。
结果分析:首先采用compare-aggregate with multiple comparison模型并选择Multiply作为比较方法,在managezh、businesszh上述两个问答语料库中分别进行训练、验证和测试,然后将数据随机化输入模型进行判断问题与答案的相关性,最后我们根据相关性取值对所有问题相同的问答对进行排序并根据评价指标的取值确定模型性能优劣。采用MAP、MRR两种评价指标对managezh进行评价,实验结果如下表:
MAP | MRR | |
train | 0.994 | 0.994 |
val | 0.621 | 0.624 |
test | 0.633 | 0.634 |
采用MAP、MRR两种评价指标对businesszh进行评价,实验结果如下表:
MAP | MRR | |
train | 0.997 | 0.998 |
val | 0.754 | 0.785 |
test | 0.741 | 0.778 |
可以发现MRR、MAP在数据集businesszh上验证值与测试值略高于managezh,这是由于前者包含与问题相关答案的比例要高于后者,可以看出在两个中文数据集上,针对模型进行中文预处理的加工后,基于排序学习利用深度学习的算法完成问答检索任务的准确性可以满足基本要求,MRR、MAP皆取得了理想的目标值,因此,可以判断本申请的问答故障诊断的辅助决策模型构建模型可以较好地辅助用户完成故障诊断。
本发明实施例中提供的问答故障诊断的辅助决策模型构建方法,将预设语料库中的对话数据进行预处理,获取对话数据的词向量,所述预设语料库中的对话数据包括:至少一组应答者与提问者之间的对话数据;将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,得到包含答案信息的问题的词向量;将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,并基于相关值进行应答者的答案与提问者的问题相关度的排序;根据应答者的答案与提问者的问题相关度的排序,完成故障诊断的辅助决策。提高了对话信息利用率、检索的准确率,能够更加准确获取问题的答案。
实施例2
本发明实施例提供一种问答故障诊断的辅助决策模型构建系统,如图4所示,包括:
数据处理模块1,用于将预设语料库中的对话数据进行预处理,获取对话数据的词向量,所述预设语料库中的对话数据包括:至少一组应答者与提问者之间的对话数据;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
序列匹配模块2,用于将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,得到包含答案信息的问题的词向量;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
结果排序模块3,用于将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,并基于相关值进行应答者的答案与提问者的问题相关度的排序;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
辅助决策模块4,用于根据应答者的答案与提问者的问题相关度的排序,完成故障诊断的辅助决策;此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
本发明实施例提供一种问答故障诊断的辅助决策模型构建系统,通过数据处理模块将预设语料库中的对话数据进行预处理,获取对话数据的词向量,所述预设语料库中的对话数据包括:至少一组应答者与提问者之间的对话数据;序列匹配模块,用于将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,得到包含答案信息的问题的词向量;结果排序模块,用于将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,并基于相关值进行应答者的答案与提问者的问题相关度的排序;辅助决策模块,用于根据应答者的答案与提问者的问题相关度的排序,完成故障诊断的辅助决策。提高了对话信息利用率、检索的准确率,能够更加准确获取问题的答案。
实施例3
本发明实施例提供一种问答故障诊断的辅助决策方法,包括:获取用户的请求问题;将用户的请求问题进行预处理得到请求问题对应的词向量,其中,预处理包括:将用户的请求问题切分成单独的词,去除预设词性的词汇,将词汇进行编码的到请求问题对应的词向量;将所述请求问题对应的词向量输入实施例2问答故障诊断的辅助决策模型构建系统的辅助决策模块中,得到预设语料库中应答者的答案与用户的问题相关度的排序,根据排序结果返回用户的请求问题的答案。
本发明实施例提供一种问答故障诊断的辅助决策方法,通过根据与用户的请求问题相关度对所有答案进行排序,将语料库中的一问一答的形式转化成一问多答的形式,并选择相关度最高的答案作为故障诊断方案,提高了对话信息利用率、检索的准确率,能够更加准确获取问题的答案。
实施例4
本发明实施例还提供一种问答故障诊断的辅助决策系统,用户的请求问题获取模块,用于获取用户的请求问题;在请求问题处理模块将用户的请求问题进行预处理得到请求问题对应的词向量,其中,预处理包括:将用户的请求问题切分成单独的词,去除预设词性的词汇,将词汇进行编码的到请求问题对应的词向量;请求问题的辅助决策模块,用于将请求问题对应的词向量输入实施例2中的问答故障诊断的辅助决策模型构建系统的辅助决策模块中,得到预设语料库中应答者的答案与用户的问题相关度的排序,根据排序结果返回用户的请求问题的答案。
本发明实施例中提供的问答故障诊断的辅助决策系统,通过根据与用户的请求问题相关度对所有答案进行排序,通过根据与用户的请求问题相关度对所有答案进行排序,将语料库中的一问一答的形式转化成一问多答的形式,并选择相关度最高的答案作为故障诊断方案,提高了对话信息利用率、检索的准确率,能够更加准确获取问题的答案。
实施例5
本发明实施例提供一种终端,如图5所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的问答故障诊断的辅助决策模型构建方法或实施例3中的问答故障诊断的辅助决策方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的问答故障诊断的辅助决策模型构建方法或实施例3中的问答故障诊断的辅助决策方法。其中,通信总线402可以是外设部件互连标准(peripheralcomponent interconnect,简称PCI)总线或扩展工业标准结构(extended industrystandard architecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。其中,处理器401可以是中央处理器(英文:centralprocessing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的问答故障诊断的辅助决策模型构建方法或实施例3中的问答故障诊断的辅助决策方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的问答故障诊断的辅助决策模型构建方法或实施例3中的问答故障诊断的辅助决策方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (9)
1.一种问答故障诊断的辅助决策模型构建方法,其特征在于,包括:
将预设语料库中的对话数据进行预处理,获取对话数据的词向量,所述预设语料库中的对话数据包括:至少一组应答者与提问者之间的对话数据;
将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,得到包含答案信息的问题的词向量;
将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,并基于相关值进行应答者的答案与提问者的问题相关度的排序;
根据应答者的答案与提问者的问题相关度的排序,完成故障诊断的辅助决策。
2.根据权利要求1所述的问答故障诊断的辅助决策模型构建方法,其特征在于,所述对话数据进行预处理包括:
将对话数据切分成单独的词,去除预设词性的词汇,得到对话数据的词汇,通过机器学习的方法将对话数据的词汇转换成对话数据的词向量。
3.根据权利要求1所述的问答故障诊断的辅助决策模型构建方法,其特征在于,预设语料库包括多种语言的对话数据。
4.根据权利要求1所述的问答故障诊断的辅助决策模型构建方法,其特征在于,所述进行应答者的答案与提问者的问题相关度的排序的算法,包括:pointwise排序算法、pairwise排序算法、listwise排序算法。
5.一种问答故障诊断的辅助决策模型构建系统,其特征在于,包括:
数据处理模块,用于将预设语料库中的对话数据进行预处理,获取对话数据的词向量,所述预设语料库中的对话数据包括:至少一组应答者与提问者之间的对话数据;
序列匹配模块,用于将对话数据中的每组提问者与应答者的词向量进行预设维度匹配,将提问者与应答者的词向量调整为维度一致的词向量,得到包含答案信息的问题的词向量;
结果排序模块,用于将每组包含答案信息的问题的词向量与对应每组应答者对话数据中的每个词向量进行向量相似度计算,得到对应的关系向量,通过神经网络模型计算各个关系向量间的相关值,并基于相关值进行应答者的答案与提问者的问题相关度的排序;
辅助决策模块,用于根据应答者的答案与提问者的问题相关度的排序,完成故障诊断的辅助决策。
6.一种问答故障诊断的辅助决策方法,其特征在于,包括:
获取用户的请求问题;
将用户的请求问题进行预处理得到请求问题对应的词向量;
将所述请求问题对应的词向量输入权利要求5问答故障诊断的辅助决策模型构建系统的辅助决策模块中,得到预设语料库中应答者的答案与用户的问题相关度的排序,根据排序结果返回用户的请求问题的答案。
7.一种问答故障诊断的辅助决策系统,其特征在于,包括:
用户的请求问题获取模块,用于获取用户的请求问题;
请求问题处理模块,用于将用户的请求问题进行预处理得到请求问题对应的词向量;
请求问题的辅助决策模块,根据将所述请求问题对应的词向量输入权利要求5问答故障诊断的辅助决策模型构建系统的辅助决策模块中,得到预设语料库中应答者的答案与用户的问题相关度的排序,根据排序结果返回用户的请求问题的答案。
8.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-4任一所述的问答故障诊断的辅助决策模型构建方法或权利要求6所述的问答故障诊断的辅助决策方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-4任一所述的问答故障诊断的辅助决策模型构建方法或权利要求6所述的问答故障诊断的辅助决策方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010592462.2A CN111737435A (zh) | 2020-06-24 | 2020-06-24 | 问答故障诊断的辅助决策模型构建、决策方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010592462.2A CN111737435A (zh) | 2020-06-24 | 2020-06-24 | 问答故障诊断的辅助决策模型构建、决策方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737435A true CN111737435A (zh) | 2020-10-02 |
Family
ID=72651109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010592462.2A Pending CN111737435A (zh) | 2020-06-24 | 2020-06-24 | 问答故障诊断的辅助决策模型构建、决策方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737435A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065356A (zh) * | 2021-03-19 | 2021-07-02 | 南方电网调峰调频发电有限公司信息通信分公司 | 一种基于语义分析算法的it设备运维故障建议处理方法 |
CN114430378A (zh) * | 2020-10-15 | 2022-05-03 | 中国移动通信集团浙江有限公司 | 聊天机器人的异常检测方法、装置、计算设备及存储介质 |
CN114564947A (zh) * | 2022-03-04 | 2022-05-31 | 上海富欣智能交通控制有限公司 | 轨道交通信号故障运维方法、装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570708A (zh) * | 2016-10-31 | 2017-04-19 | 厦门快商通科技股份有限公司 | 一种智能客服知识库的管理方法及系统 |
CN108846138A (zh) * | 2018-07-10 | 2018-11-20 | 苏州大学 | 一种融合答案信息的问题分类模型构建方法、装置和介质 |
CN109388697A (zh) * | 2018-10-10 | 2019-02-26 | 成都小多科技有限公司 | 处理问答语料的方法、装置及电子终端 |
CN109697228A (zh) * | 2018-12-13 | 2019-04-30 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN109766423A (zh) * | 2018-12-29 | 2019-05-17 | 上海智臻智能网络科技股份有限公司 | 基于神经网络的问答方法及装置、存储介质、终端 |
CN109829052A (zh) * | 2019-02-19 | 2019-05-31 | 田中瑶 | 一种基于人机交互的开放式对话方法和系统 |
CN110297893A (zh) * | 2019-05-16 | 2019-10-01 | 平安科技(深圳)有限公司 | 自然语言问答方法、装置、计算机装置及存储介质 |
-
2020
- 2020-06-24 CN CN202010592462.2A patent/CN111737435A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570708A (zh) * | 2016-10-31 | 2017-04-19 | 厦门快商通科技股份有限公司 | 一种智能客服知识库的管理方法及系统 |
CN108846138A (zh) * | 2018-07-10 | 2018-11-20 | 苏州大学 | 一种融合答案信息的问题分类模型构建方法、装置和介质 |
CN109388697A (zh) * | 2018-10-10 | 2019-02-26 | 成都小多科技有限公司 | 处理问答语料的方法、装置及电子终端 |
CN109697228A (zh) * | 2018-12-13 | 2019-04-30 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN109766423A (zh) * | 2018-12-29 | 2019-05-17 | 上海智臻智能网络科技股份有限公司 | 基于神经网络的问答方法及装置、存储介质、终端 |
CN109829052A (zh) * | 2019-02-19 | 2019-05-31 | 田中瑶 | 一种基于人机交互的开放式对话方法和系统 |
CN110297893A (zh) * | 2019-05-16 | 2019-10-01 | 平安科技(深圳)有限公司 | 自然语言问答方法、装置、计算机装置及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114430378A (zh) * | 2020-10-15 | 2022-05-03 | 中国移动通信集团浙江有限公司 | 聊天机器人的异常检测方法、装置、计算设备及存储介质 |
CN114430378B (zh) * | 2020-10-15 | 2023-08-18 | 中国移动通信集团浙江有限公司 | 聊天机器人的异常检测方法、装置、计算设备及存储介质 |
CN113065356A (zh) * | 2021-03-19 | 2021-07-02 | 南方电网调峰调频发电有限公司信息通信分公司 | 一种基于语义分析算法的it设备运维故障建议处理方法 |
CN113065356B (zh) * | 2021-03-19 | 2023-10-31 | 南方电网调峰调频发电有限公司信息通信分公司 | 一种基于语义分析算法的it设备运维故障建议处理方法 |
CN114564947A (zh) * | 2022-03-04 | 2022-05-31 | 上海富欣智能交通控制有限公司 | 轨道交通信号故障运维方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN111737435A (zh) | 问答故障诊断的辅助决策模型构建、决策方法及系统 | |
CN109492164A (zh) | 一种简历的推荐方法、装置、电子设备及存储介质 | |
CN109101493B (zh) | 一种基于对话机器人的智能购房助手 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN110245240A (zh) | 一种问题数据答案的确定方法及装置 | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 | |
CN111695354A (zh) | 基于命名实体的文本问答方法、装置及可读存储介质 | |
CN113779996B (zh) | 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质 | |
CN111339292A (zh) | 文本分类网络的训练方法、系统、设备及存储介质 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN114781402A (zh) | 问诊意图识别方法、装置、电子设备及可读存储介质 | |
CN111639247A (zh) | 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质 | |
CN114116998A (zh) | 答复语句生成方法、装置、计算机设备和存储介质 | |
CN113887930B (zh) | 问答机器人健康度评估方法、装置、设备及存储介质 | |
CN116719520B (zh) | 代码生成方法及装置 | |
CN111401065A (zh) | 实体识别方法、装置、设备及存储介质 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN111209363A (zh) | 语料数据处理方法、装置、服务器和存储介质 | |
CN111368051A (zh) | 一种对话生成方法、装置及计算机设备 | |
CN116401344A (zh) | 根据问句检索表格的方法和装置 | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
Chai et al. | An error consistency based approach to answer aggregation in open-ended crowdsourcing | |
CN110390050B (zh) | 一种基于深度语义理解的软件开发问答信息自动获取方法 | |
CN112507082B (zh) | 一种智能识别不当文本交互的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |