CN112597273A - 一种基于nl2sql技术的配电自动化图表生成方法 - Google Patents
一种基于nl2sql技术的配电自动化图表生成方法 Download PDFInfo
- Publication number
- CN112597273A CN112597273A CN202011392258.2A CN202011392258A CN112597273A CN 112597273 A CN112597273 A CN 112597273A CN 202011392258 A CN202011392258 A CN 202011392258A CN 112597273 A CN112597273 A CN 112597273A
- Authority
- CN
- China
- Prior art keywords
- matching
- chart
- language information
- generation method
- nl2sql
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000005516 engineering process Methods 0.000 title claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000012106 screening analysis Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语义识别领域,尤其涉及一种基于NL2SQL技术的配电自动化图表生成方法,包括:获取语言信息;根据语言信息从数据库中匹配得到最佳匹配表;将语言信息通过数据预处理得到问题要素;将数据预处理得到的问题要素解析成数据结构;根据数据结构匹配最佳图表类型并生成该类型的图表。本发明能够根据需要自动获取数据并自动生成对应类型的图表。
Description
技术领域
本发明涉及语义识别领域,尤其涉及一种基于NL2SQL技术的配电自动化图表生成方法。
背景技术
随电网服务型系统的不断完善,系统如浙江配电自动化Ⅳ区主站系统的数据规模和复杂度日益增大,数据分析人员从海量信息数据中找到合适有用的信息的难度日渐增加。重要信息或关键信息的获取往往需要依赖对系统功能模块熟悉的人员进行数据筛取和数据分析。因此,现有的数据筛取和数据分析需要大量的时间。
发明内容
为解决上述问题,本发明提出一种基于NL2SQL技术的配电自动化图表生成方法。
一种基于NL2SQL技术的配电自动化图表生成方法,包括:
获取语言信息;
根据语言信息从数据库中匹配得到最佳匹配表;
将语言信息通过数据预处理得到问题要素;
将数据预处理得到的问题要素解析成数据结构;
根据数据结构匹配最佳图表类型并生成该类型的图表。
优选的,所述根据语言信息从数据库中匹配得到最佳匹配表包括:
将数据库中表的字段名、枚举值、实体标签按字级别构建成倒排索引;
通过计算语言信息中问题与每个表的字段名、枚举值和标签的jaccard距离,当问题中包含与两个及以上的表相关的字段时,采用position_diff计算方式将问题中匹配得到的字段按顺序排列,并计算在倒排索引中记录的距离的差分序列之和;
进行到排序得到最佳匹配表。
优选的,所述通过计算语言信息中问题与每个表的字段名、枚举值和标签的jaccard距离包括:
其中,question是问题中字和实体标签的集合,table是表的字段名,invert_index是倒排索引。
优选的,所述采用position_diff计算方式将问题中匹配得到的字段按顺序排列包括:
优选的,所述根据语言信息从数据库中匹配得到最佳匹配表包括:
通过word2vec模型对词进行向量化,对问题进行分词;
在问题上使用长度为3的滑动窗口从左向右滑动,每滑动一次,计算窗口内的词的向量和预先设定的表向量之间的相似度;
每个窗口相似度的最大值为表的分数,以最终得出数值最大的为最佳匹配表。
优选的,所述将语言信息通过数据预处理得到问题要素包括:
对问题进行分词、词性标注、实体识别和依存句法分析。
优选的,所述数据结构包含需要查询的字段、查询结果数量、排序和分组要求。
优选的,所述根据数据结构匹配最佳图表类型并生成该类型的图表包括:
以维度和指标为条件设定规则以描述不同类型图表;
根据数据结构通过关键词库在问题上进行匹配,若匹配成功,则得到候选图表类型,若该候选图表类型满足对应的图表类型规则,则该候选图表类型为最终结果,否则直接使用规则的方式得到需要的图表类型。
本发明的有益效果:获取语言信息;根据语言信息从数据库中匹配得到最佳匹配表;将语言信息通过数据预处理得到问题要素;将数据预处理得到的问题要素解析成数据结构;根据数据结构匹配最佳图表类型并生成该类型的图表。本发明能够根据需要自动获取数据并自动生成对应类型的图表。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例一种基于NL2SQL技术的配电自动化图表生成方法流程示意图;
图2是本发明实施例一种基于NL2SQL技术的配电自动化图表生成方法中精确匹配的流程示意图;
图3是本发明实施例一种基于NL2SQL技术的配电自动化图表生成方法中模糊匹配的流程示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
在电力系统里,电网信息系统往往是一个大而复杂的系统,电网信息量巨大,当需要找寻历史数据或需要利用各处数据生成图表进行数据分析时,由于数据庞大且来处复杂,用户难以准确找到合适的能够加以利用的数据。本发明的基本思想是根据用户的语言信息进行分析意图,通过得到的分析意图自动从数据库中提取数据、生成表格。
基于上述思想,本发明实施例提出一种基于NL2SQL技术的配电自动化图表生成方法,如图1所示,包括以下步骤:
S1:获取语言信息。
在本实施例中,可以通过麦克风阵列等语音采集装置获取用户的语言信息。语言信息包括所要获取的数据相关的问题以及所要生成表格相关的问题。
S2:根据语言信息从数据库中匹配得到最佳匹配表。
数据库用于存储记载数据的表格。当后台在元数据发生变更时,调用读写服务,在数据库库中的元数据发生变动时对缓存进行更新。
在本实施例中,采用精确匹配和模糊匹配相结合的策略,根据语言信息从数据库中匹配得到最佳匹配表,能保证精确匹配的同时兼顾效率。
其中,精确匹配采取离线任务、在线任务相结合的模式,如图2所示,精确匹配包括以下步骤:
S201:离线任务中将数据库中表的字段名、枚举值、实体标签按字级别构建成倒排索引;
S202:在线任务中通过计算语言信息中问题与每个表的字段名、枚举值和标签的jaccard距离,当问题中包含与两个及以上的表相关的字段时,采用position_diff计算方式将问题中匹配得到的字段按顺序排列,并计算在倒排索引中记录的距离的差分序列之和;
S203:进行到排序得到最佳匹配表。
通过计算语言信息中问题与每个表的字段名、枚举值和标签的jaccard距离包括:
其中,question是问题中字和实体标签的集合,table是表的字段名,invert_index是倒排索引。
所述采用position_diff计算方式将问题中匹配得到的字段按顺序排列包括:
其中,如图3所示,模糊匹配包括以下步骤:
S211:通过word2vec模型对词进行向量化,对问题进行分词;
Word2vec用来产生词向量的相关模型。这些模型为浅层双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。
S221:在问题上使用长度为3的滑动窗口从左向右滑动,每滑动一次,计算窗口内的词的向量和预先设定的表向量之间的相似度;
S223:每个窗口相似度的最大值为表的分数,以最终得出数值最大的为最佳匹配表。
S3:将语言信息通过数据预处理得到问题要素。
在本实施例中,数据预处理包含对问题进行分词、词性标注、实体识别和依存句法分析。采用word2vec对词进行向量化的方式对问题进行分词。
S4:将数据预处理得到的问题要素解析成数据结构。
在本实施例中,将数据预处理得到的问题要素解析成数据结构,数据结构包含需要查询的字段、查询结果数量、排序和分组要求,同时说明了图表的指标及维度。
S5:根据数据结构匹配最佳图表类型并生成该类型的图表。
根据数据结构匹配最佳图表类型进行展示。以维度和指标为条件设定规则以描述不同类型图表,采用“先关键词后规则”匹配过程,根据预处理得到的问题要素翻译得到的数据结构,通过关键词库在问题上进行匹配,若匹配成功,即得到候选图表类型,若该候选图表类型满足对应的图表类型规则,该候选图表即为最终结果,否则系统直接使用规则的方式得到需要的图表类型。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (8)
1.一种基于NL2SQL技术的配电自动化图表生成方法,其特征在于,包括:
获取语言信息;
根据语言信息从数据库中匹配得到最佳匹配表;
将语言信息通过数据预处理得到问题要素;
将数据预处理得到的问题要素解析成数据结构;
根据数据结构匹配最佳图表类型并生成该类型的图表。
2.根据权利要求1所述的一种基于NL2SQL技术的配电自动化图表生成方法,其特征在于,所述根据语言信息从数据库中匹配得到最佳匹配表包括:
将数据库中表的字段名、枚举值、实体标签按字级别构建成倒排索引;
通过计算语言信息中问题与每个表的字段名、枚举值和标签的jaccard距离,当问题中包含与两个及以上的表相关的字段时,采用position_diff计算方式将问题中匹配得到的字段按顺序排列,并计算在倒排索引中记录的距离的差分序列之和;
进行到排序得到最佳匹配表。
5.根据权利要求1所述的一种基于NL2SQL技术的配电自动化图表生成方法,其特征在于,所述根据语言信息从数据库中匹配得到最佳匹配表包括:
通过word2vec模型对词进行向量化,对问题进行分词;
在问题上使用长度为3的滑动窗口从左向右滑动,每滑动一次,计算窗口内的词的向量和预先设定的表向量之间的相似度;
每个窗口相似度的最大值为表的分数,以最终得出数值最大的为最佳匹配表。
6.根据权利要求1所述的一种基于NL2SQL技术的配电自动化图表生成方法,其特征在于,所述将语言信息通过数据预处理得到问题要素包括:
对问题进行分词、词性标注、实体识别和依存句法分析。
7.根据权利要求1所述的一种基于NL2SQL技术的配电自动化图表生成方法,其特征在于,所述数据结构包含需要查询的字段、查询结果数量、排序和分组要求。
8.根据权利要求1所述的一种基于NL2SQL技术的配电自动化图表生成方法,其特征在于,所述根据数据结构匹配最佳图表类型并生成该类型的图表包括:
以维度和指标为条件设定规则以描述不同类型图表;
根据数据结构通过关键词库在问题上进行匹配,若匹配成功,则得到候选图表类型,若该候选图表类型满足对应的图表类型规则,则该候选图表类型为最终结果,否则直接使用规则的方式得到需要的图表类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011392258.2A CN112597273A (zh) | 2020-12-02 | 2020-12-02 | 一种基于nl2sql技术的配电自动化图表生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011392258.2A CN112597273A (zh) | 2020-12-02 | 2020-12-02 | 一种基于nl2sql技术的配电自动化图表生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597273A true CN112597273A (zh) | 2021-04-02 |
Family
ID=75187719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011392258.2A Pending CN112597273A (zh) | 2020-12-02 | 2020-12-02 | 一种基于nl2sql技术的配电自动化图表生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597273A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094424A (zh) * | 2021-04-09 | 2021-07-09 | 北京元年科技股份有限公司 | 通过构建多级指标体系进行图表模式识别的方法和系统 |
CN115858893A (zh) * | 2023-03-02 | 2023-03-28 | 极限数据(北京)科技有限公司 | 数据可视化分析方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502996A (zh) * | 2016-12-13 | 2017-03-15 | 深圳爱拼信息科技有限公司 | 一种基于语义匹配的裁判文书检索方法和服务器 |
CN108268435A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 图表匹配方法及装置 |
CN111460102A (zh) * | 2020-03-31 | 2020-07-28 | 成都数之联科技有限公司 | 一种基于自然语言处理的图表推荐系统及方法 |
CN111881311A (zh) * | 2020-08-06 | 2020-11-03 | 泰山信息科技有限公司 | 一种图表类型的智能推荐方法、装置、设备及存储介质 |
CN112001188A (zh) * | 2020-10-30 | 2020-11-27 | 北京智源人工智能研究院 | 基于向量化语义规则快速实现nl2sql的方法和装置 |
-
2020
- 2020-12-02 CN CN202011392258.2A patent/CN112597273A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502996A (zh) * | 2016-12-13 | 2017-03-15 | 深圳爱拼信息科技有限公司 | 一种基于语义匹配的裁判文书检索方法和服务器 |
CN108268435A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 图表匹配方法及装置 |
CN111460102A (zh) * | 2020-03-31 | 2020-07-28 | 成都数之联科技有限公司 | 一种基于自然语言处理的图表推荐系统及方法 |
CN111881311A (zh) * | 2020-08-06 | 2020-11-03 | 泰山信息科技有限公司 | 一种图表类型的智能推荐方法、装置、设备及存储介质 |
CN112001188A (zh) * | 2020-10-30 | 2020-11-27 | 北京智源人工智能研究院 | 基于向量化语义规则快速实现nl2sql的方法和装置 |
Non-Patent Citations (1)
Title |
---|
刘译璟等: "基于自然语言处理和深度学习的NL2SQL技术及其在BI增强分析中的应用", 信息化研究, pages 62 - 67 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094424A (zh) * | 2021-04-09 | 2021-07-09 | 北京元年科技股份有限公司 | 通过构建多级指标体系进行图表模式识别的方法和系统 |
CN113094424B (zh) * | 2021-04-09 | 2022-03-01 | 北京元年科技股份有限公司 | 通过构建多级指标体系进行图表模式识别的方法和系统 |
CN115858893A (zh) * | 2023-03-02 | 2023-03-28 | 极限数据(北京)科技有限公司 | 数据可视化分析方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN109033284A (zh) | 基于知识图谱的电力信息运维系统数据库构建方法 | |
CN109101479A (zh) | 一种用于中文语句的聚类方法及装置 | |
CN109460457A (zh) | 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 | |
CN105989040A (zh) | 智能问答的方法、装置及系统 | |
CN111581990B (zh) | 跨境交易撮合匹配方法及装置 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN108874783A (zh) | 电力信息运维知识模型构建方法 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN112597273A (zh) | 一种基于nl2sql技术的配电自动化图表生成方法 | |
CN115470338B (zh) | 一种基于多路召回的多场景智能问答方法和系统 | |
CN115481827A (zh) | 一种创新创业服务供给与需求智能匹配的方法 | |
CN115309915A (zh) | 知识图谱构建方法、装置、设备和存储介质 | |
CN113032556A (zh) | 一种基于自然语言处理形成用户画像的方法 | |
CN114780709A (zh) | 文本匹配方法、装置及电子设备 | |
Bender et al. | Unsupervised estimation of subjective content descriptions | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN114862006A (zh) | 一种基于人工智能的社会工作服务方案自动化生成方法和装置 | |
Zhu et al. | Construction of transformer substation fault knowledge graph based on a depth learning algorithm | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210402 |