CN112270188B - 一种提问式的分析路径推荐方法、系统及存储介质 - Google Patents
一种提问式的分析路径推荐方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112270188B CN112270188B CN202011257465.7A CN202011257465A CN112270188B CN 112270188 B CN112270188 B CN 112270188B CN 202011257465 A CN202011257465 A CN 202011257465A CN 112270188 B CN112270188 B CN 112270188B
- Authority
- CN
- China
- Prior art keywords
- entity
- intention
- word
- analysis
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000007405 data analysis Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000010801 machine learning Methods 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 24
- 238000002372 labelling Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 230000008859 change Effects 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 4
- 230000018109 developmental process Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000005611 electricity Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及数据分析技术,为提问式的分析路径推荐方法、系统及存储介质,其方法包括:对所输入的自然语言问题进行文本预处理、分词处理,得到分词处理后的词语;构建实体识别模型,对自然语言问题进行识别提取,完成命名实体识别;构建意图识别模型,对提出自然语言问题而进行数据分析的意图进行识别判断;根据命名实体识别的结果和意图识别的结果,推荐分析路径。本发明能够对自然语言问题使用机器学习算法进行即时解析,提取相关特征,推荐历史库中的分析路径,在不需要了解复杂的数据结构及学习分析工具的前提下,通过输入自然语言问题即能得到相关的分析结果,探索业务发展的变化规律,发现数据间的影响关系,降低了数据分析的门槛。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种提问式的分析路径推荐方法、系统及存储介质。
背景技术
现有的提问式数据分析系统,一般是用户提出简单的自然语言问题,系统经过解析后自动查询数据库,得到结果并呈现给用户一个可视化的答案。这仅仅是针对一些特定的比较简单的问题查询,并不能实现复杂问题的处理。例如,用户提出“某地区这个月的用电量是多少”,现有的提问式数据分析系统会将数据库中当月的用电量数据聚合成一个汇总值,并返回给用户一个可视化的视图或者一个具体的数值。而对于用户提出的较为复杂的问题却无能为力。例如,用户提出“上半年广州市不同用户类型的用电趋势如何?”,现有的提问式数据分析系统无法回答该问题。因为该问题并不是一个可以通过查询并返回具体结果的问题,而是需要对广州市不同用户类型上半年的用电量作趋势分析。
因此,希望可以提出一种提问式的分析路径推荐技术方案,用于解决现有提问式数据分析系统所存在的问题。
发明内容
本发明提供了一种提问式的分析路径推荐方法、系统及存储介质,可以降低用户进行数据分析的门槛,使得业务人员在不需要了解复杂的数据结构及学习分析工具的前提下,通过输入自然语言问题即能够得到相关的分析结果,以快速探索业务发展的变化规律,发现数据之间的影响关系。
根据本发明的提问式的分析路径推荐方法,包括以下步骤:
S1、对所输入的自然语言问题进行文本预处理、分词处理,得到分词处理后的词语;
S2、构建实体识别模型,对自然语言问题进行识别提取,完成命名实体识别;
S3、构建意图识别模型,对提出自然语言问题而进行数据分析的意图进行识别判断;
S4、根据命名实体识别的结果和意图识别的结果,推荐分析路径。
在优选的实施例中,步骤S1还对分词处理后的词语和停用词库中的词进行匹配,若匹配成功则剔除分词处理后的词语,否则保留,得到最终文本;将最终文本中的词语转换为词频矩阵,统计词频矩阵中每个词语的TF-IDF权值,获得词语在最终文本中的权重,作为词语的数值特征。
根据本发明的提问式的分析路径推荐系统,包括以下模块:
预处理模块,用于对所输入的自然语言问题进行文本预处理、分词处理,得到分词处理后的词语;
实体识别模块,用于构建实体识别模型,对自然语言问题进行识别提取,完成命名实体识别;
意图识别模块,用于构建意图识别模型,对提出自然语言问题而进行数据分析的意图进行识别判断;
分析路径推荐模块,用于根据命名实体识别的结果和意图识别的结果,推荐分析路径。
而本发明的存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时,实现本发明分析路径推荐方法的各步骤。
与现有技术相比,本发明的显著效果在于:对于用户输入的复杂的不能直接通过查询返回结果的自然语言问题,能够使用机器学习算法进行即时解析,提取相关特征,通过实体识别、意图识别,从系统共享库中自动搜索、匹配推荐最相关的分析路径,从而查看分析结果;极大的降低了用户的分析门槛,使得业务人员在不需要了解复杂的数据结构及学习分析工具的前提下,通过输入自然语言问题即能够得到相关的分析结果,以快速探索业务发展的变化规律,发现数据之间的影响关系。
附图说明
图1是本发明分析思路可视化方法的实现流程图;
图2是词向量转换模型的结构示意图,其中(a)为CBOW模型的示意图,(b)为Skip-Gram模型的示意图。
具体实施方式
本发明为提问式的分析路径推荐方法,可以降低用户进行数据分析的门槛,通过输入自然语言问题即能够得到相关的分析结果,以快速探索业务发展的变化规律,发现数据之间的影响关系。
下面将结合本申请实施例中的附图,对本发明的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参阅图1,本实施例提供的一种提问式的分析路径推荐方法,包括以下步骤:
S1、对所输入的自然语言问题进行文本预处理、分词处理,得到分词处理后的词语。
对用户输入的自然语言问题,进行大小写转换、全半角转换、简繁体转换等基本的预处理。此外,由于中文的特殊性,词与词之间没有明显的分隔符,甚至中文与英文混合文本中也不一定会有分隔符区分,因此还需进行分词处理,将整句文本串分割为一个个独立的词。
本步骤S1具体包括:加载自然语言问题所对应的语料到内存,方便快速处理;对输入的自然语言问题所相应的文本内容进行预处理,包括统一转换为小写、半角、简体,以及进行特殊符号清洗,以去除无用字符;对预处理后的文本内容使用jieba分词进行分词处理;对分词处理后的词语和停用词库中的词进行匹配,若匹配成功则剔除分词处理后的词语,否则保留,得到最终文本;将最终文本中的词语转换为词频矩阵,统计词频矩阵中每个词语的TF-IDF(词频-逆文档频率)权值,获得词语在最终文本中的权重,作为词语的数值特征,这是一个折中的过程。通过统计词语在词频矩阵的TF-IDF权重,选取出表征文本语义的部分特征,不仅能更好地表达文本,还能降低算法复杂度。
其中,TF-IDF是TF(Term Frequency,词频)和IDF(Inverse Document Frequency,逆文档频率)的结合,计算公式如下:
需要说明的是,词频TF指一个词在文档中出现的次数,是一个重要的评价指数,因为它不仅考虑了特征词是否出现,还考虑了出现的次数。上式中,T Fij表示文档集中第i个特征项在文档j中出现的次数。
而逆文档频率IDF考虑的是若一个词在每篇文档都出现了,说明这个词是一个普通词汇,不具有区分类别的能力,若一个词只在语料库中少数的几篇文档中出现,说明该词具有区分类别的能力。表达式为:
其中,N代表文档集中文档的总数量,nj表示包含特征词j的文档数,nj+0.01的意义在于防止IDF趋于无穷大。
S2、构建实体识别模型,对自然语言问题进行识别提取,完成命名实体识别。
对预处理后的自然语言问题数据,构建实体识别模型,对用户所输入自然语言问题中的关键要素,例如:时间、地区、指标等进行识别提取。这个过程称之为命名实体识别(NER,Named Entity Recognition),又称作专名识别。
在本发明中,TF-IDF权重相当于是词语的数值表示,以便进行数学运算。关键要素指的是一句话中时间、地区、指标等名词,所构建的实体识别模型就是将其识别出来。例如:“广州市上半年的用电量是多少?”这句话经过分词后得到每个词语,对每个词语使用TF-IDF进行数学表示,然后实体识别模型经过运算后识别出“广州”是个地区,“上半年”是个时间,“用电量”是个指标。
进一步地,步骤S2具体包括:
S21、对训练数据中的文本数据进行序列标注,得到文本数据中每个词元素所属片段的实体类型及该词元素在所属片段中的位置,形成标注数据。
对训练数据中的文本数据进行序列标注,哪些词是实体名称,哪些词不是实体名称;本实施例采用BIO(Begin,Inside,Outside)标注方式进行序列标注,将文本数据中每个词元素标注为“B-X”、“I-X”或者“O”,其中“B-X”表示词元素所在的片段属于X类型并且该词元素在此片段的开始处,“I-X”表示词元素所在的片段属于X类型并且该词元素在此片段的中间位置,“O”表示词元素不属于任何类型;而“X”表示所要识别的实体类型名称,如时间实体为“TIM”,地区实体为“DIS”,维度实体为“DIM”等。以地区实体为例,“B-DIS”表示地区实体的开始,“I-DIS”表示地区实体的中间。例如:“上半年广州市不同用户类型的用电趋势如何?”经过序列标注后结果为:
·上->B-TIM
·半->I-TIM
·年->I_TIM
·广->B-DIS
·州->I-DIS
·市->I_DIS
·不->O
·同->O
·用->B_DIM
·户->I_DIM
·类->I_DIM
·型->I_DIM
·的->O
·用->B-IDX
·电->I-IDX
·趋->I-IDX
·势->I_IDX
·如->O
·何->O
S22、根据所形成的标注数据,对实体识别模型进行训练。
根据标注数据,使用LSTM-CRF模型作为实体识别模型,进行模型训练。其中LSTM即Long Short Term Memory(长短期记忆网络),是循环神经网络RNN的一种特殊形式,可以学习长距离依赖信息,特别适合于实体识别任务,因为有时候实体之间的依赖关系可以很长,是LSTM比较擅长学习的。CRF即Conditional Random Field(条件随机场),是序列标注中主流的机器学习算法,其优点在于为一个位置进行标注的过程中可以利用文本数据丰富的内部特征信息及上下文特征信息。
LSTM是基于神经网络的模型,虽然有强大的预测能力,但针对序列预测时会得到不符合常理的预测结果这一缺点。例如:采用BIO方式标注一句话,不可能出现BB的情况(因为一个实体词开始不会紧接着另一个词的开始),而可能是BIO或者BIB等情况(也就是一个实体词开始(B),紧接着是词语的第二个字(I)、第三个字(I)或者第二个词的开始(B),或者单个字)。而CRF模型,因为其模型的特殊性,通过转移矩阵概率,BIO方式标注时不会出现BB这种预测结果;也就是说CRF会输出符合常理的预测结果。因此,本发明将LSTM模型和CRF模型串接起来,通过CRF模型对LSTM模型的预测结果进行修正,可以使得LSTM模型避免输出BB这种不符合常理的预测结果,取得了意料不到的技术效果。
S23、利用训练好的实体识别模型,对自然语言问题中的关键要素进行识别提取,完成命名实体识别。
S3、构建意图识别模型,对用户提出自然语言问题而进行数据分析的意图,例如源数据查看、数据过滤或相关分析等,进行识别判断。
进一步地,步骤S3具体包括:
S31、对训练数据进行标注,获取训练数据中每一个自然语言问题的意图类型。
意图识别的目的是判断用户输入问题的分析意图,是即进行数据分析的意图是查询数据还是趋势分析,还是其他的分析意图。意图识别的本质是一个文本分类问题,因此训练一个意图识别模型,就是训练一个文本分类模型。首先需要对训练数据进行标注,对每一个自然语言输入问题进行意图类型的标注。例如意图类型总共有7类:源数据查看、数据过滤、多维分析、漏斗分析、对比分析、趋势分析、报表分析、相关分析,可以简单的使用数字0,1,2,3,4,5,6进行标记。
S32、训练分类模型,构建为意图识别模型。
意图识别其实质是文本分类,本发明首先对输入文本进行预处理后,经过TF-IDF处理后,提取词的数值特征,使用支持向量机(SVM,Support Vector Machine)训练分类模型,将分类模型构建成意图识别模型。
S33、利用所构建的意图识别模型,对用户输入的自然语言问题进行意图识别,对每个意图类型进行概率预测,选取概率最大的意图类型作为所输入自然语言问题的意图类型。
S4、根据命名实体识别的结果和意图识别的结果,推荐分析路径。
上述步骤S2通过实体识别过程得到用户问题中的实体,如时间实体、地区实体、维度实体、指标实体等;上述步骤S3通过意图识别过程得到用户问题的分析意图,如趋势分析、多维分析、漏斗分析、对比分析等。本步骤将实体识别的结果和意图识别的结果结合起来,通过机器学习推荐算法,从系统共享库中存储的历史分析路径中选择得分最高的分析路径推荐给用户。
进一步地,步骤S4具体包括:
S41、将识别到的实体词和意图词经过词向量转换模型分别转为实体词的词向量和意图词的词向量,并获得相应的词向量权重矩阵。
将识别到的实体词经过词向量转换模型Word2vec转为词向量。Word2Vec是用一个一层的神经网络把one-hot形式的稀疏词向量映射为一个n维的稠密向量的过程。传统的TF-IDF和one-hot表示都无法表示词语的意义,只能表示某一维度的特征。而Word2Vec输出的稠密向量,就可以很好的表示词的意义,进而能够实现词与词之间的相似度计算。词向量转换模型Word2Vec可以通过CBOW(Continuous Bag-of-words)模型或Skip-Gram模型来实现,其区别在于训练词向量的过程,简单来说CBOW模型是通过上下文词预测当前词,Skip-Gram模型是通过当前词预测上下文词。示意图如图2,其中图2中的(a)图是CBOW模型,(b)图是Skip-Gram模型。
本发明最终的目的是计算用户所输入自然语言问题和历史库中分析路径的相似度,而具体计算过程将落到这些实体词、意图词的维度上,将实体词和意图词都转为词向量,即识别到的意图词也转换为词向量,从而更好使用数学公式计算相似度。
Word2Vec算法虽然是一个预测模型,实现上下文词与当前词之间的预测,通过不断的迭代训练使得预测精度逐步提升。但最终需要的不是预测模型,而是模型训练后最终得到的词向量权重矩阵W。通常对于模型的预测效果不太关注,而更加关注训练结束后的权重矩阵W是否能够很好的表示词。而通过测试转化后的词向量的相似性,可以评估训练得到的权重矩阵的好坏。
S42、相似度计算
本步骤根据步骤S41所获取的词向量,将所输入的自然语言问题中的实体、意图结合起来,与历史分析路径中的实体、意图进行相似度计算,对候选分析路径推荐列表按照相似度排序,将选取的分析路径输出,反馈至用户对话界面。
相似度的计算公式为:
S=0.4×S1+0.6×S2
其中S1是实体的相似度,S2是意图的相似度。实体相似度S1和意图相似度S2都是通过词向量计算余弦相似度。实体是有多个实体词构成的,因此先将所有实体词的词向量进行平均得到整个实体的词向量然后再计算余弦相似度;而意图就是一个词,可直接计算相似度。计算公式如下:
其中V1表示用户所输入自然语言问题中所有实体词的向量表示,W1i表示V1中对应的每个实体词的词向量;V2表示历史库中分析路径的所有实体词的向量表示,W2i表示V2中对应的每个实体词的词向量。S1即为实体的余弦相似度,其中V1i和V2i分别对应V1和V2中的每个分量。S2表示意图的余弦相似度,Y1i和Y2i分别对应意图向量的每个分量。
此外,本发明还提出提问式的分析路径推荐系统,包括以下模块:
预处理模块,用于实现上述步骤S1,对所输入的自然语言问题进行文本预处理、分词处理,得到分词处理后的词语;
实体识别模块,用于实现上述步骤S2,构建实体识别模型,对自然语言问题进行识别提取,完成命名实体识别;
意图识别模块,用于实现上述步骤S3,构建意图识别模型,对提出自然语言问题而进行数据分析的意图进行识别判断;
分析路径推荐模块,用于实现上述步骤S4,根据命名实体识别的结果和意图识别的结果,推荐分析路径。
基于相同的发明构思,本发明还可以通过存储介质的形式来实现,该存储介质上存储有计算机指令,当计算机指令被处理器执行时,实现本发明分析路径推荐方法的步骤S1-S4。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种提问式的分析路径推荐方法,其特征在于,包括以下步骤:
S1、对所输入的自然语言问题进行文本预处理、分词处理,得到分词处理后的词语;
S2、构建实体识别模型,对用户所输入自然语言问题中的关键要素进行识别提取,完成命名实体识别,所述关键要素包括时间、地区和指标;
S3、构建意图识别模型,对提出自然语言问题而进行数据分析的意图进行识别判断;
S4、根据命名实体识别的结果和意图识别的结果,通过机器学习推荐算法,从系统共享库中存储的历史分析路径中选择得分最高的分析路径推荐给用户;
步骤S2通过实体识别过程得到用户所输入自然语言问题中的实体,包括时间实体、地区实体、维度实体及指标实体;
步骤S2包括:
S21、对训练数据中的文本数据进行序列标注,得到文本数据中每个词元素所属片段的实体类型及该词元素在所属片段中的位置,形成标注数据;
采用BIO标注方式进行序列标注,将文本数据中每个词元素标注为“B-X”、“I-X”或者“O”,其中“B-X”表示词元素所在的片段属于X类型并且该词元素在此片段的开始处,“I-X”表示词元素所在的片段属于X类型并且该词元素在此片段的中间位置,“O”表示词元素不属于任何类型,“X”表示所要识别的实体类型名称;时间实体为“TIM”,地区实体为“DIS”,维度实体为“DIM”,“B-DIS”表示地区实体的开始,“I-DIS”表示地区实体的中间;
S22、根据所形成的标注数据,对实体识别模型进行训练;
将LSTM模型和CRF模型串接起来,形成LSTM-CRF模型作为实体识别模型,从而通过CRF模型对LSTM模型的预测结果进行修正;
S23、利用训练好的实体识别模型,对自然语言问题中的关键要素进行识别提取,完成命名实体识别;
步骤S3意图识别的目的是判断用户输入自然语言问题进行数据分析的意图;步骤S3包括:
S31、对训练数据进行标注,对每一个自然语言问题进行意图类型的标注,获取训练数据中每一个自然语言问题的意图类型;所述意图类型包括源数据查看、数据过滤、多维分析、漏斗分析、对比分析、趋势分析、报表分析及相关分析;
S32、训练分类模型,构建为意图识别模型;
S33、利用所构建的意图识别模型,对所输入的自然语言问题进行意图识别,对每个意图类型进行概率预测,选取概率最大的意图类型作为所输入自然语言问题的意图类型。
2.根据权利要求1所述的分析路径推荐方法,其特征在于,步骤S1还对分词处理后的词语和停用词库中的词进行匹配,若匹配成功则剔除分词处理后的词语,否则保留,得到最终文本;将最终文本中的词语转换为词频矩阵,统计词频矩阵中每个词语的TF-IDF权值,获得词语在最终文本中的权重,作为词语的数值特征。
3.根据权利要求1所述的分析路径推荐方法,其特征在于,步骤S4包括:
S41、将识别到的实体词和意图词经过词向量转换模型分别转为实体词的词向量和意图词的词向量,并获得相应的词向量权重矩阵;
S42、根据词向量将所输入的自然语言问题中的实体、意图结合起来,与历史分析路径中的实体、意图进行相似度计算,对候选分析路径推荐列表按照相似度排序,将选取的分析路径输出。
4.一种提问式的分析路径推荐系统,其特征在于,包括:
预处理模块,用于对所输入的自然语言问题进行文本预处理、分词处理,得到分词处理后的词语;
实体识别模块,用于构建实体识别模型,对用户所输入自然语言问题中的关键要素进行识别提取,完成命名实体识别,所述关键要素包括时间、地区和指标;
意图识别模块,用于构建意图识别模型,对提出自然语言问题而进行数据分析的意图进行识别判断;
分析路径推荐模块,用于根据命名实体识别的结果和意图识别的结果,通过机器学习推荐算法,从系统共享库中存储的历史分析路径中选择得分最高的分析路径推荐给用户;
实体识别模块通过实体识别过程得到用户所输入自然语言问题中的实体,包括时间实体、地区实体、维度实体及指标实体;实体识别模块的实现过程包括:
对训练数据中的文本数据进行序列标注,得到文本数据中每个词元素所属片段的实体类型及该词元素在所属片段中的位置,形成标注数据;采用BIO标注方式进行序列标注,将文本数据中每个词元素标注为“B-X”、“I-X”或者“O”,其中“B-X”表示词元素所在的片段属于X类型并且该词元素在此片段的开始处,“I-X”表示词元素所在的片段属于X类型并且该词元素在此片段的中间位置,“O”表示词元素不属于任何类型,“X”表示所要识别的实体类型名称;时间实体为“TIM”,地区实体为“DIS”,维度实体为“DIM”,“B-DIS”表示地区实体的开始,“I-DIS”表示地区实体的中间;
根据所形成的标注数据,对实体识别模型进行训练;将LSTM模型和CRF模型串接起来,形成LSTM-CRF模型作为实体识别模型,从而通过CRF模型对LSTM模型的预测结果进行修正;
利用训练好的实体识别模型,对自然语言问题中的关键要素进行识别提取,完成命名实体识别;
意图识别模块的目的是判断用户输入自然语言问题进行数据分析的意图;意图识别模块对训练数据进行标注,对每一个自然语言问题进行意图类型的标注,获取训练数据中每一个自然语言问题的意图类型,所述意图类型包括源数据查看、数据过滤、多维分析、漏斗分析、对比分析、趋势分析、报表分析及相关分析;训练分类模型,构建为意图识别模型;利用所构建的意图识别模型,对所输入的自然语言问题进行意图识别,对每个意图类型进行概率预测,选取概率最大的意图类型作为所输入自然语言问题的意图类型。
5.根据权利要求4所述的提问式的分析路径推荐系统,其特征在于,分析路径推荐模块将识别到的实体词和意图词经过词向量转换模型分别转为实体词的词向量和意图词的词向量,并获得相应的词向量权重矩阵;根据词向量将所输入的自然语言问题中的实体、意图结合起来,与历史分析路径中的实体、意图进行相似度计算,对候选分析路径推荐列表按照相似度排序,将选取的分析路径输出。
6.存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实现权利要求1-3中任一项所述的分析路径推荐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011257465.7A CN112270188B (zh) | 2020-11-12 | 2020-11-12 | 一种提问式的分析路径推荐方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011257465.7A CN112270188B (zh) | 2020-11-12 | 2020-11-12 | 一种提问式的分析路径推荐方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270188A CN112270188A (zh) | 2021-01-26 |
CN112270188B true CN112270188B (zh) | 2023-12-12 |
Family
ID=74340487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011257465.7A Active CN112270188B (zh) | 2020-11-12 | 2020-11-12 | 一种提问式的分析路径推荐方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270188B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905777B (zh) * | 2021-03-19 | 2023-10-17 | 北京百度网讯科技有限公司 | 一种扩展问推荐方法、装置、电子设备及存储介质 |
CN113342964B (zh) * | 2021-06-03 | 2022-04-19 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
CN113505292A (zh) * | 2021-06-15 | 2021-10-15 | 深圳追一科技有限公司 | 信息推送方法、装置、电子设备及存储介质 |
CN113420059A (zh) * | 2021-08-23 | 2021-09-21 | 中关村科学城城市大脑股份有限公司 | 一种市民热线问题主动治理方法和装置 |
CN114282552B (zh) * | 2021-11-16 | 2022-11-04 | 北京百度网讯科技有限公司 | 非自回归翻译模型的训练方法及其装置 |
CN114399396A (zh) * | 2022-01-19 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 保险产品推荐方法、装置、计算机设备及存储介质 |
CN118193721B (zh) * | 2024-05-17 | 2024-08-09 | 广州启盟信息科技有限公司 | 一种基于自然语言处理的关联信息推荐系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108426A (zh) * | 2017-12-15 | 2018-06-01 | 杭州网蛙科技有限公司 | 自然语言提问的理解方法、装置及电子设备 |
CN109146610A (zh) * | 2018-07-16 | 2019-01-04 | 众安在线财产保险股份有限公司 | 一种智能保险推荐方法、装置及智能保险机器人设备 |
CN109344174A (zh) * | 2018-09-13 | 2019-02-15 | 深圳易投云智能科技有限公司 | 金融分析方法和系统 |
CN109472026A (zh) * | 2018-10-31 | 2019-03-15 | 北京国信云服科技有限公司 | 一种同时针对多个命名实体的精准情感信息提取方法 |
CN110069631A (zh) * | 2019-04-08 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
WO2019229768A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | A bot engine for automatic dynamic intent computation |
CN110765257A (zh) * | 2019-12-30 | 2020-02-07 | 杭州识度科技有限公司 | 一种知识图谱驱动型的法律智能咨询系统 |
WO2020220914A1 (zh) * | 2019-04-30 | 2020-11-05 | 京东方科技集团股份有限公司 | 语音问答方法及其装置、计算机可读存储介质和电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867256B2 (en) * | 2015-07-17 | 2020-12-15 | Knoema Corporation | Method and system to provide related data |
-
2020
- 2020-11-12 CN CN202011257465.7A patent/CN112270188B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108426A (zh) * | 2017-12-15 | 2018-06-01 | 杭州网蛙科技有限公司 | 自然语言提问的理解方法、装置及电子设备 |
WO2019229768A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | A bot engine for automatic dynamic intent computation |
CN109146610A (zh) * | 2018-07-16 | 2019-01-04 | 众安在线财产保险股份有限公司 | 一种智能保险推荐方法、装置及智能保险机器人设备 |
CN109344174A (zh) * | 2018-09-13 | 2019-02-15 | 深圳易投云智能科技有限公司 | 金融分析方法和系统 |
CN109472026A (zh) * | 2018-10-31 | 2019-03-15 | 北京国信云服科技有限公司 | 一种同时针对多个命名实体的精准情感信息提取方法 |
CN110069631A (zh) * | 2019-04-08 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
WO2020220914A1 (zh) * | 2019-04-30 | 2020-11-05 | 京东方科技集团股份有限公司 | 语音问答方法及其装置、计算机可读存储介质和电子设备 |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
CN110765257A (zh) * | 2019-12-30 | 2020-02-07 | 杭州识度科技有限公司 | 一种知识图谱驱动型的法律智能咨询系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112270188A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270188B (zh) | 一种提问式的分析路径推荐方法、系统及存储介质 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN109271537B (zh) | 一种基于蒸馏学习的文本到图像生成方法和系统 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN112395410B (zh) | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN111858896B (zh) | 一种基于深度学习的知识库问答方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN112463944B (zh) | 一种基于多模型融合的检索式智能问答方法及装置 | |
CN110765277A (zh) | 一种基于知识图谱的移动端的在线设备故障诊断平台 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN112270189B (zh) | 一种提问式的分析节点生成方法、系统及存储介质 | |
CN114493783A (zh) | 一种基于双重检索机制的商品匹配方法 | |
CN111104503A (zh) | 一种建筑工程质量验收规范问答系统及其构建方法 | |
CN118245564A (zh) | 一种支持语义查重查新的特征比对库构建方法及装置 | |
CN112685440B (zh) | 标记搜索语义角色的结构化查询信息表达方法 | |
CN114118082A (zh) | 一种简历检索方法及装置 | |
CN117648916A (zh) | 文本相似度识别模型训练方法和文本相关信息获取方法 | |
CN115114493A (zh) | 基于问题匹配的智能问答系统实现方法及装置 | |
CN112000782A (zh) | 一种基于k-means聚类算法的智能客服问答系统 | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN117077680A (zh) | 问答意图识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |