CN112270188B

CN112270188B - 一种提问式的分析路径推荐方法、系统及存储介质

Info

Publication number: CN112270188B
Application number: CN202011257465.7A
Authority: CN
Inventors: 姜磊; 钟颖欣; 辛岩; 杨钊
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2023-12-12
Anticipated expiration: 2040-11-12
Also published as: CN112270188A

Abstract

本发明涉及数据分析技术，为提问式的分析路径推荐方法、系统及存储介质，其方法包括：对所输入的自然语言问题进行文本预处理、分词处理，得到分词处理后的词语；构建实体识别模型，对自然语言问题进行识别提取，完成命名实体识别；构建意图识别模型，对提出自然语言问题而进行数据分析的意图进行识别判断；根据命名实体识别的结果和意图识别的结果，推荐分析路径。本发明能够对自然语言问题使用机器学习算法进行即时解析，提取相关特征，推荐历史库中的分析路径，在不需要了解复杂的数据结构及学习分析工具的前提下，通过输入自然语言问题即能得到相关的分析结果，探索业务发展的变化规律，发现数据间的影响关系，降低了数据分析的门槛。

Description

一种提问式的分析路径推荐方法、系统及存储介质

技术领域

本发明涉及数据分析技术领域，尤其涉及一种提问式的分析路径推荐方法、系统及存储介质。

背景技术

现有的提问式数据分析系统，一般是用户提出简单的自然语言问题，系统经过解析后自动查询数据库，得到结果并呈现给用户一个可视化的答案。这仅仅是针对一些特定的比较简单的问题查询，并不能实现复杂问题的处理。例如，用户提出“某地区这个月的用电量是多少”，现有的提问式数据分析系统会将数据库中当月的用电量数据聚合成一个汇总值，并返回给用户一个可视化的视图或者一个具体的数值。而对于用户提出的较为复杂的问题却无能为力。例如，用户提出“上半年广州市不同用户类型的用电趋势如何？”，现有的提问式数据分析系统无法回答该问题。因为该问题并不是一个可以通过查询并返回具体结果的问题，而是需要对广州市不同用户类型上半年的用电量作趋势分析。

因此，希望可以提出一种提问式的分析路径推荐技术方案，用于解决现有提问式数据分析系统所存在的问题。

发明内容

本发明提供了一种提问式的分析路径推荐方法、系统及存储介质，可以降低用户进行数据分析的门槛，使得业务人员在不需要了解复杂的数据结构及学习分析工具的前提下，通过输入自然语言问题即能够得到相关的分析结果，以快速探索业务发展的变化规律，发现数据之间的影响关系。

根据本发明的提问式的分析路径推荐方法，包括以下步骤：

S1、对所输入的自然语言问题进行文本预处理、分词处理，得到分词处理后的词语；

S2、构建实体识别模型，对自然语言问题进行识别提取，完成命名实体识别；

S3、构建意图识别模型，对提出自然语言问题而进行数据分析的意图进行识别判断；

S4、根据命名实体识别的结果和意图识别的结果，推荐分析路径。

在优选的实施例中，步骤S1还对分词处理后的词语和停用词库中的词进行匹配，若匹配成功则剔除分词处理后的词语，否则保留，得到最终文本；将最终文本中的词语转换为词频矩阵，统计词频矩阵中每个词语的TF-IDF权值，获得词语在最终文本中的权重，作为词语的数值特征。

根据本发明的提问式的分析路径推荐系统，包括以下模块：

预处理模块，用于对所输入的自然语言问题进行文本预处理、分词处理，得到分词处理后的词语；

实体识别模块，用于构建实体识别模型，对自然语言问题进行识别提取，完成命名实体识别；

意图识别模块，用于构建意图识别模型，对提出自然语言问题而进行数据分析的意图进行识别判断；

分析路径推荐模块，用于根据命名实体识别的结果和意图识别的结果，推荐分析路径。

而本发明的存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时，实现本发明分析路径推荐方法的各步骤。

与现有技术相比，本发明的显著效果在于：对于用户输入的复杂的不能直接通过查询返回结果的自然语言问题，能够使用机器学习算法进行即时解析，提取相关特征，通过实体识别、意图识别，从系统共享库中自动搜索、匹配推荐最相关的分析路径，从而查看分析结果；极大的降低了用户的分析门槛，使得业务人员在不需要了解复杂的数据结构及学习分析工具的前提下，通过输入自然语言问题即能够得到相关的分析结果，以快速探索业务发展的变化规律，发现数据之间的影响关系。

附图说明

图1是本发明分析思路可视化方法的实现流程图；

图2是词向量转换模型的结构示意图，其中(a)为CBOW模型的示意图，(b)为Skip-Gram模型的示意图。

具体实施方式

本发明为提问式的分析路径推荐方法，可以降低用户进行数据分析的门槛，通过输入自然语言问题即能够得到相关的分析结果，以快速探索业务发展的变化规律，发现数据之间的影响关系。

下面将结合本申请实施例中的附图，对本发明的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参阅图1，本实施例提供的一种提问式的分析路径推荐方法，包括以下步骤：

S1、对所输入的自然语言问题进行文本预处理、分词处理，得到分词处理后的词语。

对用户输入的自然语言问题，进行大小写转换、全半角转换、简繁体转换等基本的预处理。此外，由于中文的特殊性，词与词之间没有明显的分隔符，甚至中文与英文混合文本中也不一定会有分隔符区分，因此还需进行分词处理，将整句文本串分割为一个个独立的词。

本步骤S1具体包括：加载自然语言问题所对应的语料到内存，方便快速处理；对输入的自然语言问题所相应的文本内容进行预处理，包括统一转换为小写、半角、简体，以及进行特殊符号清洗，以去除无用字符；对预处理后的文本内容使用jieba分词进行分词处理；对分词处理后的词语和停用词库中的词进行匹配，若匹配成功则剔除分词处理后的词语，否则保留，得到最终文本；将最终文本中的词语转换为词频矩阵，统计词频矩阵中每个词语的TF-IDF(词频-逆文档频率)权值，获得词语在最终文本中的权重，作为词语的数值特征，这是一个折中的过程。通过统计词语在词频矩阵的TF-IDF权重，选取出表征文本语义的部分特征，不仅能更好地表达文本，还能降低算法复杂度。

其中，TF-IDF是TF(Term Frequency，词频)和IDF(Inverse Document Frequency，逆文档频率)的结合，计算公式如下：

需要说明的是，词频TF指一个词在文档中出现的次数，是一个重要的评价指数，因为它不仅考虑了特征词是否出现，还考虑了出现的次数。上式中，T F_ij表示文档集中第i个特征项在文档j中出现的次数。

而逆文档频率IDF考虑的是若一个词在每篇文档都出现了，说明这个词是一个普通词汇，不具有区分类别的能力，若一个词只在语料库中少数的几篇文档中出现，说明该词具有区分类别的能力。表达式为：

其中，N代表文档集中文档的总数量，n_j表示包含特征词j的文档数，n_j+0.01的意义在于防止IDF趋于无穷大。

S2、构建实体识别模型，对自然语言问题进行识别提取，完成命名实体识别。

对预处理后的自然语言问题数据，构建实体识别模型，对用户所输入自然语言问题中的关键要素，例如：时间、地区、指标等进行识别提取。这个过程称之为命名实体识别(NER，Named Entity Recognition)，又称作专名识别。

在本发明中，TF-IDF权重相当于是词语的数值表示，以便进行数学运算。关键要素指的是一句话中时间、地区、指标等名词，所构建的实体识别模型就是将其识别出来。例如：“广州市上半年的用电量是多少？”这句话经过分词后得到每个词语，对每个词语使用TF-IDF进行数学表示，然后实体识别模型经过运算后识别出“广州”是个地区，“上半年”是个时间，“用电量”是个指标。

进一步地，步骤S2具体包括：

S21、对训练数据中的文本数据进行序列标注，得到文本数据中每个词元素所属片段的实体类型及该词元素在所属片段中的位置，形成标注数据。

对训练数据中的文本数据进行序列标注，哪些词是实体名称，哪些词不是实体名称；本实施例采用BIO(Begin，Inside，Outside)标注方式进行序列标注，将文本数据中每个词元素标注为“B-X”、“I-X”或者“O”，其中“B-X”表示词元素所在的片段属于X类型并且该词元素在此片段的开始处，“I-X”表示词元素所在的片段属于X类型并且该词元素在此片段的中间位置，“O”表示词元素不属于任何类型；而“X”表示所要识别的实体类型名称，如时间实体为“TIM”，地区实体为“DIS”，维度实体为“DIM”等。以地区实体为例，“B-DIS”表示地区实体的开始，“I-DIS”表示地区实体的中间。例如：“上半年广州市不同用户类型的用电趋势如何？”经过序列标注后结果为：

·上->B-TIM

·半->I-TIM

·年->I_TIM

·广->B-DIS

·州->I-DIS

·市->I_DIS

·不->O

·同->O

·用->B_DIM

·户->I_DIM

·类->I_DIM

·型->I_DIM

·的->O

·用->B-IDX

·电->I-IDX

·趋->I-IDX

·势->I_IDX

·如->O

·何->O

S22、根据所形成的标注数据，对实体识别模型进行训练。

根据标注数据，使用LSTM-CRF模型作为实体识别模型，进行模型训练。其中LSTM即Long Short Term Memory(长短期记忆网络)，是循环神经网络RNN的一种特殊形式，可以学习长距离依赖信息，特别适合于实体识别任务，因为有时候实体之间的依赖关系可以很长，是LSTM比较擅长学习的。CRF即Conditional Random Field(条件随机场)，是序列标注中主流的机器学习算法，其优点在于为一个位置进行标注的过程中可以利用文本数据丰富的内部特征信息及上下文特征信息。

LSTM是基于神经网络的模型，虽然有强大的预测能力，但针对序列预测时会得到不符合常理的预测结果这一缺点。例如：采用BIO方式标注一句话，不可能出现BB的情况(因为一个实体词开始不会紧接着另一个词的开始)，而可能是BIO或者BIB等情况(也就是一个实体词开始(B)，紧接着是词语的第二个字(I)、第三个字(I)或者第二个词的开始(B)，或者单个字)。而CRF模型，因为其模型的特殊性，通过转移矩阵概率，BIO方式标注时不会出现BB这种预测结果；也就是说CRF会输出符合常理的预测结果。因此，本发明将LSTM模型和CRF模型串接起来，通过CRF模型对LSTM模型的预测结果进行修正，可以使得LSTM模型避免输出BB这种不符合常理的预测结果，取得了意料不到的技术效果。

S23、利用训练好的实体识别模型，对自然语言问题中的关键要素进行识别提取，完成命名实体识别。

S3、构建意图识别模型，对用户提出自然语言问题而进行数据分析的意图，例如源数据查看、数据过滤或相关分析等，进行识别判断。

进一步地，步骤S3具体包括：

S31、对训练数据进行标注，获取训练数据中每一个自然语言问题的意图类型。

意图识别的目的是判断用户输入问题的分析意图，是即进行数据分析的意图是查询数据还是趋势分析，还是其他的分析意图。意图识别的本质是一个文本分类问题，因此训练一个意图识别模型，就是训练一个文本分类模型。首先需要对训练数据进行标注，对每一个自然语言输入问题进行意图类型的标注。例如意图类型总共有7类：源数据查看、数据过滤、多维分析、漏斗分析、对比分析、趋势分析、报表分析、相关分析，可以简单的使用数字0，1，2，3，4，5，6进行标记。

S32、训练分类模型，构建为意图识别模型。

意图识别其实质是文本分类，本发明首先对输入文本进行预处理后，经过TF-IDF处理后，提取词的数值特征，使用支持向量机(SVM，Support Vector Machine)训练分类模型，将分类模型构建成意图识别模型。

S33、利用所构建的意图识别模型，对用户输入的自然语言问题进行意图识别，对每个意图类型进行概率预测，选取概率最大的意图类型作为所输入自然语言问题的意图类型。

上述步骤S2通过实体识别过程得到用户问题中的实体，如时间实体、地区实体、维度实体、指标实体等；上述步骤S3通过意图识别过程得到用户问题的分析意图，如趋势分析、多维分析、漏斗分析、对比分析等。本步骤将实体识别的结果和意图识别的结果结合起来，通过机器学习推荐算法，从系统共享库中存储的历史分析路径中选择得分最高的分析路径推荐给用户。

进一步地，步骤S4具体包括：

S41、将识别到的实体词和意图词经过词向量转换模型分别转为实体词的词向量和意图词的词向量，并获得相应的词向量权重矩阵。

将识别到的实体词经过词向量转换模型Word2vec转为词向量。Word2Vec是用一个一层的神经网络把one-hot形式的稀疏词向量映射为一个n维的稠密向量的过程。传统的TF-IDF和one-hot表示都无法表示词语的意义，只能表示某一维度的特征。而Word2Vec输出的稠密向量，就可以很好的表示词的意义，进而能够实现词与词之间的相似度计算。词向量转换模型Word2Vec可以通过CBOW(Continuous Bag-of-words)模型或Skip-Gram模型来实现，其区别在于训练词向量的过程，简单来说CBOW模型是通过上下文词预测当前词，Skip-Gram模型是通过当前词预测上下文词。示意图如图2，其中图2中的(a)图是CBOW模型，(b)图是Skip-Gram模型。

本发明最终的目的是计算用户所输入自然语言问题和历史库中分析路径的相似度，而具体计算过程将落到这些实体词、意图词的维度上，将实体词和意图词都转为词向量，即识别到的意图词也转换为词向量，从而更好使用数学公式计算相似度。

Word2Vec算法虽然是一个预测模型，实现上下文词与当前词之间的预测，通过不断的迭代训练使得预测精度逐步提升。但最终需要的不是预测模型，而是模型训练后最终得到的词向量权重矩阵W。通常对于模型的预测效果不太关注，而更加关注训练结束后的权重矩阵W是否能够很好的表示词。而通过测试转化后的词向量的相似性，可以评估训练得到的权重矩阵的好坏。

S42、相似度计算

本步骤根据步骤S41所获取的词向量，将所输入的自然语言问题中的实体、意图结合起来，与历史分析路径中的实体、意图进行相似度计算，对候选分析路径推荐列表按照相似度排序，将选取的分析路径输出，反馈至用户对话界面。

相似度的计算公式为：

S＝0.4×S₁+0.6×S₂

其中S1是实体的相似度，S2是意图的相似度。实体相似度S1和意图相似度S2都是通过词向量计算余弦相似度。实体是有多个实体词构成的，因此先将所有实体词的词向量进行平均得到整个实体的词向量然后再计算余弦相似度；而意图就是一个词，可直接计算相似度。计算公式如下：

其中V1表示用户所输入自然语言问题中所有实体词的向量表示，W1i表示V1中对应的每个实体词的词向量；V2表示历史库中分析路径的所有实体词的向量表示，W2i表示V2中对应的每个实体词的词向量。S1即为实体的余弦相似度，其中V1i和V2i分别对应V1和V2中的每个分量。S2表示意图的余弦相似度，Y1i和Y2i分别对应意图向量的每个分量。

此外，本发明还提出提问式的分析路径推荐系统，包括以下模块：

预处理模块，用于实现上述步骤S1，对所输入的自然语言问题进行文本预处理、分词处理，得到分词处理后的词语；

实体识别模块，用于实现上述步骤S2，构建实体识别模型，对自然语言问题进行识别提取，完成命名实体识别；

意图识别模块，用于实现上述步骤S3，构建意图识别模型，对提出自然语言问题而进行数据分析的意图进行识别判断；

分析路径推荐模块，用于实现上述步骤S4，根据命名实体识别的结果和意图识别的结果，推荐分析路径。

基于相同的发明构思，本发明还可以通过存储介质的形式来实现，该存储介质上存储有计算机指令，当计算机指令被处理器执行时，实现本发明分析路径推荐方法的步骤S1-S4。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种提问式的分析路径推荐方法，其特征在于，包括以下步骤：

S2、构建实体识别模型，对用户所输入自然语言问题中的关键要素进行识别提取，完成命名实体识别，所述关键要素包括时间、地区和指标；

S4、根据命名实体识别的结果和意图识别的结果，通过机器学习推荐算法，从系统共享库中存储的历史分析路径中选择得分最高的分析路径推荐给用户；

步骤S2通过实体识别过程得到用户所输入自然语言问题中的实体，包括时间实体、地区实体、维度实体及指标实体；

步骤S2包括：

S21、对训练数据中的文本数据进行序列标注，得到文本数据中每个词元素所属片段的实体类型及该词元素在所属片段中的位置，形成标注数据；

采用BIO标注方式进行序列标注，将文本数据中每个词元素标注为“B-X”、“I-X”或者“O”，其中“B-X”表示词元素所在的片段属于X类型并且该词元素在此片段的开始处，“I-X”表示词元素所在的片段属于X类型并且该词元素在此片段的中间位置，“O”表示词元素不属于任何类型，“X”表示所要识别的实体类型名称；时间实体为“TIM”，地区实体为“DIS”，维度实体为“DIM”，“B-DIS”表示地区实体的开始，“I-DIS”表示地区实体的中间；

S22、根据所形成的标注数据，对实体识别模型进行训练；

将LSTM模型和CRF模型串接起来，形成LSTM-CRF模型作为实体识别模型，从而通过CRF模型对LSTM模型的预测结果进行修正；

S23、利用训练好的实体识别模型，对自然语言问题中的关键要素进行识别提取，完成命名实体识别；

步骤S3意图识别的目的是判断用户输入自然语言问题进行数据分析的意图；步骤S3包括：

S31、对训练数据进行标注，对每一个自然语言问题进行意图类型的标注，获取训练数据中每一个自然语言问题的意图类型；所述意图类型包括源数据查看、数据过滤、多维分析、漏斗分析、对比分析、趋势分析、报表分析及相关分析；

S32、训练分类模型，构建为意图识别模型；

S33、利用所构建的意图识别模型，对所输入的自然语言问题进行意图识别，对每个意图类型进行概率预测，选取概率最大的意图类型作为所输入自然语言问题的意图类型。

2.根据权利要求1所述的分析路径推荐方法，其特征在于，步骤S1还对分词处理后的词语和停用词库中的词进行匹配，若匹配成功则剔除分词处理后的词语，否则保留，得到最终文本；将最终文本中的词语转换为词频矩阵，统计词频矩阵中每个词语的TF-IDF权值，获得词语在最终文本中的权重，作为词语的数值特征。

3.根据权利要求1所述的分析路径推荐方法，其特征在于，步骤S4包括：

S41、将识别到的实体词和意图词经过词向量转换模型分别转为实体词的词向量和意图词的词向量，并获得相应的词向量权重矩阵；

S42、根据词向量将所输入的自然语言问题中的实体、意图结合起来，与历史分析路径中的实体、意图进行相似度计算，对候选分析路径推荐列表按照相似度排序，将选取的分析路径输出。

4.一种提问式的分析路径推荐系统，其特征在于，包括：

实体识别模块，用于构建实体识别模型，对用户所输入自然语言问题中的关键要素进行识别提取，完成命名实体识别，所述关键要素包括时间、地区和指标；

分析路径推荐模块，用于根据命名实体识别的结果和意图识别的结果，通过机器学习推荐算法，从系统共享库中存储的历史分析路径中选择得分最高的分析路径推荐给用户；

实体识别模块通过实体识别过程得到用户所输入自然语言问题中的实体，包括时间实体、地区实体、维度实体及指标实体；实体识别模块的实现过程包括：

对训练数据中的文本数据进行序列标注，得到文本数据中每个词元素所属片段的实体类型及该词元素在所属片段中的位置，形成标注数据；采用BIO标注方式进行序列标注，将文本数据中每个词元素标注为“B-X”、“I-X”或者“O”，其中“B-X”表示词元素所在的片段属于X类型并且该词元素在此片段的开始处，“I-X”表示词元素所在的片段属于X类型并且该词元素在此片段的中间位置，“O”表示词元素不属于任何类型，“X”表示所要识别的实体类型名称；时间实体为“TIM”，地区实体为“DIS”，维度实体为“DIM”，“B-DIS”表示地区实体的开始，“I-DIS”表示地区实体的中间；

根据所形成的标注数据，对实体识别模型进行训练；将LSTM模型和CRF模型串接起来，形成LSTM-CRF模型作为实体识别模型，从而通过CRF模型对LSTM模型的预测结果进行修正；

利用训练好的实体识别模型，对自然语言问题中的关键要素进行识别提取，完成命名实体识别；

意图识别模块的目的是判断用户输入自然语言问题进行数据分析的意图；意图识别模块对训练数据进行标注，对每一个自然语言问题进行意图类型的标注，获取训练数据中每一个自然语言问题的意图类型，所述意图类型包括源数据查看、数据过滤、多维分析、漏斗分析、对比分析、趋势分析、报表分析及相关分析；训练分类模型，构建为意图识别模型；利用所构建的意图识别模型，对所输入的自然语言问题进行意图识别，对每个意图类型进行概率预测，选取概率最大的意图类型作为所输入自然语言问题的意图类型。

5.根据权利要求4所述的提问式的分析路径推荐系统，其特征在于，分析路径推荐模块将识别到的实体词和意图词经过词向量转换模型分别转为实体词的词向量和意图词的词向量，并获得相应的词向量权重矩阵；根据词向量将所输入的自然语言问题中的实体、意图结合起来，与历史分析路径中的实体、意图进行相似度计算，对候选分析路径推荐列表按照相似度排序，将选取的分析路径输出。

6.存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时，实现权利要求1-3中任一项所述的分析路径推荐方法的步骤。