CN111949774A

CN111949774A - 一种智能问答方法和系统

Info

Publication number: CN111949774A
Application number: CN202010651190.9A
Authority: CN
Inventors: 葛涛; 沈稳; 蔡荣亮; 张婷婷; 潘益伟; 余青; 王辉; 宋宇; 吕荣武
Original assignee: Shenzhen Pengrui Information Technology Co ltd
Current assignee: Shenzhen Pengrui Information Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-17

Abstract

本发明公开了一种智能问答方法和系统，其基于电力行业知识图谱创建。电力行业规程规范多，安全性要求高，文档搜索难度大。通过把电力行业知识基于自然语言处理，构建同义词库和缩略词库。按系统、设备等分类框架，利用大数据算法层层分解，实现问题和答案相互构建知识图谱，融合N_gram、Jaccard相似系数、最长公共子序列、simHash、word2vec、余弦相似度从而实现智能问答的方法。帮助电力行业人员实现构建智能问答库，快速精确找到所想要答案，实现智能问答。

Description

一种智能问答方法和系统

技术领域

本发明涉及电力信息化管理技术领域，尤其涉及一种智能问答方法和系统。

背景技术

问答(Question Answering，QA)系统起源于图灵测试，随着时间的发展，问答系统领域也发生了重大变革。按照处理的数据格式不同，问答系统分别经历了结构化知识库阶段、无结构文本阶段、基于问题答案数据阶段。随着大数据技术和人工智能技术的发展，智能问答系统也在不断发展。目前智能问答系统较多，但缺少行业性的智能问答应用，尤其是发电行业智能问答系统。在网上搜索一个问题，很难得到自己想要的答案，推荐答案精准度差，答案准确性差。

随着世界现代化不断的发展对电力能源巨大的供需，使得电力行业的担责更加紧重；具体表现在大容量高参数发电机组不断增多、发电大规模集中并网，电力系统形态与运行特性日趋复杂等等。当前数字化时代高度发展、大数据融合，现实世界与虚拟空间更深层次的交互，数字孪生等技术的出现，迫使发电行业数字化变革已在道路上。随之产生的大量数据，数据量大、杂乱无序、应用率低等造成要实现智能问答，精准给出想要的答案比较困难。

因此，发电行业需要一个行业性的、推荐答案精准度高的智能问答解决方案。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种智能问答方法和系统，以解决智能问答行业性应用较少，未有发电行业的智能问答系统的问题。

为实现上述目的，本发明提供了一种智能问答方法，包括以下步骤：

收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书，然后对收集的资料电子版进行整理；

整理完后，对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取，从word、PDF格式文件提取词图信息，并进行文本结构化处理；

对数据库文本内容进行自然语言处理，包括分词处理和增加同义词库、电厂缩略词库、停用词库；

对于所述词库中的各种内容、词语，利用知识图谱进行关联、串联，形成发电行业知识图谱；

构建好数据库和知识图谱后，通过多种相似度匹配算法融合，实现智能问答。

优选的，所述对收集的资料电子版进行整理，具体为：

读取到的资料电子版内容按页存储，去除‘\r\n’符号和空页面，使用正则表达式从文件中名中提取页码；

Excel的sheet名称为页码，行为段落，每行的列文本用‘|’分隔合成，去除空行和空列；

形成结构化数据后将空值替换成空字符，并将每行数据转成json格式一一插入电厂专业数据库。

优选的，所述对数据库文本内容进行自然语言处理，包括分词处理和增加同义词库、电厂缩略词库、停用词库，具体为：

先将word中的文字放到代码中的三引号字符串中，对该字符串处理去除停用词没有覆盖到的特殊符号，然后将字符串以utf-8编码的方式写到txt；

利用基于Trie树结构进行词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，并采用了动态规划查找最大概率路径,找出基于词频的最大切分组合；

对于未登录词，使用了Viterbi算法的HMM模型，挖掘未登陆词，从而实现结巴分词；

做词性标注，将分词列表转为集合进行去重，最后将词语用拼音排序，得到排序后的词列，数字和英文字符排在前面，截取数字和英文字符列，从原先未转为集合的分词列表中去除这些数字和英文字符(for循环遍历去除)，最后进行分词合成，统计合成词的出现次数。

优选的，所述知识图谱本体采用语义网技术栈的核心技术“Web OntologyLanguage”来构建，结合业务知识按发电行业业务框架构建，并采用聚类、实体匹配算法进行知识融合。

优选的，所述知识图谱本体，结合业务知识按发电行业业务框架构建，其中所述发电行业业务框架可拓展：选择所属一级系统若没有选择可自行输入进行增加，选择所属二级系统若没有选择可自行输入进行增加，选择所属三级设备若没有选择可自行输入进行增加；选择完上述内容后，对问题进行回答，在文本编辑框输入答案，完成文档内容添加更新。

优选的，所述构建好数据库和知识图谱后，通过多种相似度匹配算法融合，实现智能问答，具体为：

1)用Jaccard算法计算词频相似度，Jaccard算法jaccard similaritycoefficient用于比较样本集之间的相似性和差异性的算法，是衡量两个集合相似度的一种指标，其计算公式如下：

其中，

表示S1分词后的集合，

表示S2分词后的集合，表示为

与

交集的大小与并集大小的比值，是一种均权的计算相似度的方法，即对计算相似度各个元素的权重都一样，没有侧重点；Jaccard相似系数越相似值越大，越不相似值越小，值在0到1之间；

2)用simhash算法计算问题文本相似度，包括分词、hash、加权、合并、降维步骤；

3)用最长公共子序列算法计算词凝结度相似度，最长公共子序列即在公共字序列中最长的表示，其计算公式如下：

其中，len(LCS)为最长公共子序列长度，min(len(X),len(Y))表示给定序列X和Y的长度中较小的一个序列的长度；

4)用word2vec和余弦相似度算法计算词序和语义相似度，先用word2vec计算词向量矩阵，词向量矩阵求该句中词向量的均值作为该句的句向量，进而将词向量转化为句向量，进而采用余弦相似度函数计算问题的句向量相似度，其中余弦相似度函数公式为：

其中X∈{x₁,x₂,x₃,…,x_n}和Y∈{y₁,y₂,y₃,…,y_n}，两向量越相似，向量夹角越小，其取值在-1到1之间，其绝对值越大，向量相关性越强；

5)综合考虑输入问题的词频、词序、词凝结度、词序、语义的各个方面，进行加权计算。

一种智能问答系统，包括：

资料收集模块，用于收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程的电厂专业技术规范书，然后对收集的资料电子版进行整理；

文本识别与提取模块，用于整理完后，对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取，从word、PDF格式文件提取词图信息，并进行文本结构化处理；

文本处理模块，用于对数据库文本内容进行自然语言处理，包括分词处理和增加同义词库、电厂缩略词库、停用词库；

知识图谱生成模块，用于对于所述词库中的各种内容、词语，利用知识图谱进行关联、串联，形成发电行业知识图谱；

智能问答模块，用于构建好数据库和知识图谱后，通过多种相似度匹配算法融合，实现智能问答。

本发明的有益效果是：

本发明基于电力行业知识图谱创建，电力行业规程规范多，安全性要求高，文档搜索难度大，通过把电力行业知识基于自然语言处理，构建同义词库和缩略词库。按系统、设备等分类框架，利用大数据算法层层分解，实现问题和答案相互构建知识图谱，融合N_gram、Jaccard相似系数、最长公共子序列、simHash、word2vec、余弦相似度从而实现智能问答的方法。帮助电力行业人员实现构建智能问答库，快速精确找到所想要答案，实现智能问答。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1为本发明提出的一种发电行业基于知识图谱的智能问答方法和系统的知识图谱示意图；

图2为图1知识图谱的实际应用的知识图谱图；

图3为具体实施中的一个实际系统，可拓展智能问答逻辑流程图；

图4为simhash算法流程图。

具体实施方式

在本发明的描述中，需要说明的是，术语“2词频”、“3词频”、是指分词后2个词频合成简称2词频，3个词频合成简称3词频。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

1、收集发电行业集控运行规程、辅机规程、主机规程、设备技术规范书、检维修规程等电厂专业技术规范书，然后对收集的资料电子版进行整理，由于文件比较大，做的过程按照电厂进行分类，一个个进行抽取。整理完对文档进行基于CNN+LSTM+CTC框架的OCR技术文本识别提取，从word、PDF等格式文件提取有效信息词图等信息进行文本结构化处理。对各种文本格式，表格、空格符等，合理去除特殊符号有助于提高文本识别率结构化处理。一般，读取到的内容按页存储，去除‘\r\n’符号和空页面，使用正则表达式从文件中名中提取页码即可；Excel的sheet名称为页码，行为段落，每行的列文本用‘|’分隔合成，去除空行和空列。形成结构化数据后需要将空值替换成空字符，并将每行数据转成json格式才能一一插入电厂专业数据库，从而形成实现电厂专业数据库的积累。

2、规程规范是发电行业运行管控生产的基础，里面包括设备参数规范、事故问题处理标准规范、运行维修操作规范等，规程规范可作为电厂专业标准答案，日常查找问题答案通过翻书或者文字搜索，只能对同字词语进行搜索，很难满足要求，网上搜索，答案精确度又比较差。因此对数据库文本内容进行自然语言处理，主要包括分词处理和增加同义词库、电厂缩略词库、停用词库。

先将word中的文字放到代码中的三引号字符串中，对该字符串处理去除停用词没有覆盖到的特殊符号，然后将字符串以utf-8编码的方式写到txt。利用基于Trie树结构能实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，并采用了动态规划查找最大概率路径,找出基于词频的最大切分组合；对于未登录词，使用了Viterbi算法的HMM模型，能有效挖掘未登陆词；从而实现结巴分词。同时做词性标注，将分词列表转为集合进行去重，最后将词语用拼音排序，得到排序后的词列，数字和英文字符排在前面，截取数字和英文字符列，从原先未转为集合的分词列表中去除这些数字和英文字符(for循环遍历去除)，最后进行分词合成，统计合成词的出现次数。

由于结构化故障数据表中的数据较为规范，所以首先对该文件的文本进行分词，通过jieba分词对结构化故障数据.txt中的文本进行精确模式分词，然后对分词按顺序两两组合或三三组合，比如：“开式、水泵、系统、机组”，两词组合就是“开式水泵，水泵系统，系统机组”，三词组合就是“开式水泵系统，水泵系统机组”，并对合成词进行词频统计，按词频排序后将合成词输出到excel。结果文件是2词合成_词频统计和3词合成_词频统计。

在jieba分词后，有些组合专业名称或术语会被分割成两个以上的词(比如‘开式水泵’分割成了‘开式、水泵’)，这样就不能实现准确分词，所以需要对jieba的分词进行按顺序组合，一般2到3个词组合可以覆盖掉错误的分词，所以对2词合成_词频统计和3词合成_词频统计文件内的高频词进行人工辅助筛选，得到有效的合成词，保存为词典，加载到jieba中，辅助其他文本的分词，实现更准确的专业领域文本分词。

对分好后的词频进行排序，按照所建立的中文词典需要根据拼音来进行排序，然后进行人工查询和修改，再次进行修改确认词频。

构建同义词库、缩略词库和停用词库。构建一套比较全的词库，网络实时在线更新。

在已经输出的词频统计文件基础上，在高频词中筛选出有效的合成词，添加到词典中，形成同义词库、缩略词库。

对于低频合成词有可能只是在当前文档中出现的少，而在别的文档可能出现机会多一些，所以低频合成词直接被放弃掉，有可能会错漏一些词语，因此，通过人工筛选高频有效的合成词之后，以这些词为样本，统计合成词的词性组合，比如开式水泵为‘开式，水泵’两词合成，其词性组合为形容词+名词，以高频词性组合为模板，在低频合成词中筛选出符合词性组合模板的合成词，然后从中再进行人工挑选。这样可以减小人工挑选低频合成词的工作量，同时又减小低频合成词的遗漏。最终形成停用词库和字典库。

同义词库、缩略词库和停用词库可以进行等效处理，等效处理原则是先将原词进行保留，然后搜索整个句子中是否存在字符的包含关系，如果存在则对其中的同义词和缩略词进行替换。停用词库用UTF-8编码的txt，其他编码的停用词虽然形式都是符号或中文，但无法和utf-8编码的文本进行比较，去除达不到效果的词库。同义词库、缩略词库和停用词库，主要是因为发电行业专业性强，说法称呼多，为了提高智能问答推荐准确率，用词库替换等效处理。例如：电厂循环冷却水塔可以简称冷却水塔、循环水塔、冷却塔，又有的人称呼凉水塔等等。加入同义词库、缩略词库和停用词库可以大大提高智能问答精确率，可提高10％准确率。

3、对于各种杂乱无序的内容、词语，利用知识图谱进行关联、串联，形成发电行业知识图谱，参照图2。知识图谱本体采用了语义网技术栈的核心技术“Web OntologyLanguage”来构建，结合业务知识按发电行业业务框架构建，增强了知识图谱的可拓展性和延伸性，并采用了聚类、实体匹配算法进行知识融合。并且构建电厂知识图谱框架，系统在线可拓展框架，主要通过选择所属一级系统若没有选择可自行输入进行增加，选择所属二级系统若没有选择可自行输入进行增加，选择所属三级设备若没有选择可自行输入进行增加；选择完上述内容后，对问题进行回答，在文本编辑框输入答案；完成文档内容添加更新，满足内容拓展性和延伸性。

智能问答应该考虑知识更新迭代或不断发展的电力行业，因此在一个具体实施系统中考虑了系统可能增加的智能问答内容，形成了可拓展系统。创造一个可拓展智能问答系统，随着时间积累不断固化领域专家的经验知识，以实际出发形成电厂专家故障库智能问答平台，参照图3。

通过知识图谱的关联关系快速找到答案，把原本表面没有关系的文本内容建立从属关系，可以消除异构数据中实体冲突、指向不明等不一致性问题，可以从顶层创建一个大规模的统一知识库，从而帮助机器理解多源异质的数据，形成高质量的知识，从而提高智能问答的准确率。

4、构建好数据库和知识图谱后，主要通过多种相似度匹配算法融合，实现智能问答。

当用户输入一个问题后，系统对输入问题进行分解。多种相似度匹配算法主要包括：

其中，

表示S1分词后的集合，

表示S2分词后的集合，表示为

与

交集的大小与并集大小的比值，是一种均权的计算相似度的方法，即对计算相似度各个元素的权重都一样，没有侧重点；Jaccard相似系数越相似值越大，越不相似值越小，值在0到1之间；用Jaccard相似系数越可以最大程度保证文本词频相似度，而不会因为词频顺序等其他原因造成相似度降低，从而避免智能问答准确率降低。

假设：S1＝“凝结水泵无法启动原因是什么”，S2＝“冷却塔风机电机发热现象是什么”，采用jieba分词后的结果为：

根据海明距离(即相似为1，不相似乎为0)计算两者的Jaccard相似系数为：

2)用simhash算法计算问题文本相似度，包括分词、hash、加权、合并、降维步骤，如图4所示。Simhash值越小越相似。根据最后加权计算，需要对simhash算法相似度计算结果进行正向化处理。

其中，len(LCS)为最长公共子序列长度，min(len(X),len(Y))表示给定序列X和Y的长度中较小的一个序列的长度；最长公共子序列考虑文本相对位置信息，在某些情况结构化处理分词做的不是很好，或者没有完整表达实际意义，通过词凝结度再次提高智能问答准确率。结合Jaccard相似系数可以最大程度发挥发电行业词频相似度特性。

将待求解问题分解成若干子问题，先求解子问题，然后从这些子问题解中得到原问题的解，另外动态规划算法的子问题并非独立问题，可建立一张表格将子问题将已知解进行保存，在需要时进行搜索提取。其中子序列在不改变元素间相对次序时，一个特定序列的子序列就是将给定序列中零个或多个元素去掉后得到的结果，如序列{A，B，C，B，D，A，B}中的子序列有{A，B}、{A，C，A}等。公共子序列(common subsequence)给定序列X和序列Y，如X＝{A，B，C，B，D，A，B}，Y＝{B，D，C，A，B，A}，则可知{B，C，A}为其公共子序列。

其中X∈{x₁,x₂,x₃,…,x_n}和Y∈{y₁,y₂,y₃,…,y_n}，两向量越相似，向量夹角越小，其取值在-1到1之间，其绝对值越大，向量相关性越强；由于余弦相似度函数计算结果在-1和1之间，根据最后加权计算，余弦相似度函数计算结果取绝对值处理。

5)综合考虑输入问题的词频、词序、词凝结度、词序、语义的各个方面，进行加权计算。给出问题的答案，其问题答案的准确率可达到95％以上。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种智能问答方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种智能问答方法，其特征在于，所述对收集的资料电子版进行整理，具体为：

3.如权利要求1所述的一种智能问答方法，其特征在于，所述对数据库文本内容进行自然语言处理，包括分词处理和增加同义词库、电厂缩略词库、停用词库，具体为：

4.如权利要求1所述的一种智能问答方法，其特征在于，所述知识图谱本体采用语义网技术栈的核心技术“Web Ontology Language”来构建，结合业务知识按发电行业业务框架构建，并采用聚类、实体匹配算法进行知识融合。

5.如权利要求4所述的一种智能问答方法，其特征在于，所述知识图谱本体，结合业务知识按发电行业业务框架构建，其中所述发电行业业务框架可拓展：选择所属一级系统若没有选择可自行输入进行增加，选择所属二级系统若没有选择可自行输入进行增加，选择所属三级设备若没有选择可自行输入进行增加；选择完上述内容后，对问题进行回答，在文本编辑框输入答案，完成文档内容添加更新。

6.如权利要求1所述的一种智能问答方法，其特征在于，所述构建好数据库和知识图谱后，通过多种相似度匹配算法融合，实现智能问答，具体为：

1)用Jaccard算法计算词频相似度，Jaccard算法jaccard similarity coefficient用于比较样本集之间的相似性和差异性的算法，是衡量两个集合相似度的一种指标，其计算公式如下：

其中，

表示S1分词后的集合，

表示S2分词后的集合，表示为

与

7.一种智能问答系统，包括：