CN107818148A - 基于自然语言处理的自助式查询统计分析方法 - Google Patents

基于自然语言处理的自助式查询统计分析方法 Download PDF

Info

Publication number
CN107818148A
CN107818148A CN201710992095.3A CN201710992095A CN107818148A CN 107818148 A CN107818148 A CN 107818148A CN 201710992095 A CN201710992095 A CN 201710992095A CN 107818148 A CN107818148 A CN 107818148A
Authority
CN
China
Prior art keywords
query
statistical analysis
natural language
language processing
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710992095.3A
Other languages
English (en)
Inventor
魏训虎
陆涛
查凡
吴德胜
吴选章
王宏
丁雍
巢玉坚
胡游君
邱玉祥
施健
马远东
蔡新忠
杨旭斌
王锦杰
刘皓
刘洋
夏云
邓伟
黄峰
王泉啸
甘岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Information and Communication Technology Co
Nanjing NARI Group Corp
Original Assignee
Nari Information and Communication Technology Co
Nanjing NARI Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nari Information and Communication Technology Co, Nanjing NARI Group Corp filed Critical Nari Information and Communication Technology Co
Priority to CN201710992095.3A priority Critical patent/CN107818148A/zh
Publication of CN107818148A publication Critical patent/CN107818148A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自然语言处理的自助式查询统计分析方法,包括:构建电力通信数据查询统计分析规则库、知识库、语料库;建立电力通信标准化、程序化的多维数据查询统计分析模型;输入查询统计分析语句或段落,形成查询统计分析自然语言处理任务,生成语义依存树;将语义依存树中各元素对应到查询统计分析模型中,通过规则库与知识库匹配生成结构化查询语句,最终生成查询统计分析结果集。本发明不但支持可自定义、快速灵活的数据配置、处理、分析和管理,还能实现通信网自动化、智能化规划、设计、运维水平。

Description

基于自然语言处理的自助式查询统计分析方法
技术领域
本发明涉及一种基于自然语言处理的自助式查询统计分析方法,属于电力通信技术领域。
背景技术
目前通信专业数据查询统计分析实际应用过程中,主要依赖现有的电子文档、通信管理系统固化的查询统计条件输出数据分析结果,或通过商业智能(BI)决策系统由业务人员提出查询统计需求,厂家技术人员在决策系统中经过复杂的人工处理输出用户所需的数据分析结果,这种供应者/使用者式的商业智能方法虽然似乎能够胜任集中组织数据并提升一致性的任务,但它牺牲了业务敏捷性和灵活性,解决问题的时间严重滞后于提出问题的时间,分析过程中这种延迟和敏捷性的缺乏导致采纳情况欠佳,同时缺乏用户灵活多变的数据分析处理快速响应能力,用户体验差,效率低下。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于自然语言处理的自助式查询统计分析方法,解决现有技术中电力通信数据查询统计分析存在延迟、缺乏敏捷性、用户体验差、效率低的技术问题。
为解决上述技术问题,本发明所采用的技术方案是:基于自然语言处理的自助式查询统计分析方法,包括如下步骤:
构建电力通信数据查询统计分析规则库、知识库、语料库;
建立电力通信标准化、程序化的多维数据查询统计分析模型;
输入查询统计分析语句或段落,形成查询统计分析自然语言处理任务,生成语义依存树;
将语义依存树中各元素对应到查询统计分析模型中,通过规则库与知识库匹配生成结构化查询语句,最终生成查询统计分析结果集。
构建电力通信数据查询统计分析规则库、知识库、语料库的具体方法如下:
对电力通信数据进行分析和归纳总结,梳理各种数据要素,结合各种标准规范、自然语言处理、多维统计分析模型的需求,生成规则库、知识库和语料库;
所述数据要素包括:数据表、数据分类、数据字段、关联关系、数据字典、数据类型;
所述标准规范包括:资源命名规范、功能规范和资源信息模型规范。
建立电力通信标准化、程序化的多维数据查询统计分析模型的具体方法如下:
结合数据库操作和算法的特征,将查询统计分析归纳抽象为固定因素的组合,将所述组合标准化、程序化即得到多维数据查询统计分析模型;
所述固定因素包括:对象、条件、维度、方法、范围、频度。
采用文字方式输入查询统计分析语句或段落。
生成语义依存树的具体方法如下:
将所述自然语言处理任务发送至语义识别服务,处理输入的语句或段落,对其业务含义按照名词偏正词组语法规则精确定义,进行从底层到高层的一系列分析:包括词法分析、句法分析、底层语义分析、高层语义分析,通过与语料库匹配结合,自动生成语义依存树。
生成查询统计分析结果集的具体方法为:
查询统计分析模型将语义依存树中的各因素转化为查询统计的对象、字段、条件、计算方法,通过乘积空间聚类规则、正则匹配规则、矢量量化竞争学习多层神经网络算法、Rabin-Karp算法等规则和算法,转化为数据库查询语句或程序算法,执行数据库操作和算法,即得到查询统计分析结果集。
查询统计分析结果集通过可视化图表组件输出展示。
与现有技术相比,本发明所达到的有益效果是:结合人工智能自然语言处理方法的优点并克服缺乏用户灵活多变的数据分析处理快速响应能力的缺点,以电力通信数据自然语言处理技术为核心,并辅以电力通信数据查询统计分析规则库、知识库、语料库,不但支持可自定义、快速灵活的数据配置、处理、分析和管理,还能实现通信网自动化、智能化规划、设计、运维水平,客户可以在客户端输入查询统计分析语句或段落,便可实时直观地读取统计结果,确保电力系统安全稳定的运行具有重要的实际意义。
附图说明
图1是本发明的流程图;
图2是自然语言处理技术的功能示意图;
图3是标准化、程序化的多维数据查询统计分析模型的功能示意图;
图4是江苏省各变电站采用本发明的过程示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,是本发明的流程图,具体包括如下步骤:
构建电力通信数据查询统计分析规则库、知识库、语料库;
对电力通信数据进行分析和归纳总结,梳理各种数据要素,结合各种标准规范、自然语言处理、多维统计分析模型的需求,生成规则库、知识库和语料库;
所述数据要素包括:数据表、数据分类、数据字段、关联关系、数据字典、数据类型;
所述标准规范包括:资源命名规范、功能规范和资源信息模型规范。
通过专业语料库和知识库的生成,可以大幅提高自然语言处理的准确性;通过规则库、知识库的建立,可以将语义分析的结果准确的匹配到查询统计分析模型中,为后续多维数据集的生成和可视化展现打下基础。
建立电力通信标准化、程序化的多维数据查询统计分析模型;
结合数据库操作和算法的特征,将查询统计分析归纳抽象为固定因素的组合,将所述组合标准化、程序化即得到多维数据查询统计分析模型;
所述固定因素包括:对象、条件、维度、方法、范围、频度。
采用文字方式输入查询统计分析语句或段落,形成查询统计分析自然语言处理任务,生成语义依存树;
如图2所示,是自然语言处理技术的功能示意图。将自然语言处理任务发送至语义识别服务,处理输入的语句或者段落(篇章),对其业务含义按照严格的名词偏正词组语法规则精确定义,进行从底层到高层的一系列分析,包括词法分析(中文分词、词性标注、实体识别)、句法分析(依存分析)、底层语义分析(语义依存树分析)、高层语义分析(文本分类、文本转换、自动摘要、情感分析),通过与领域词典(语料库)匹配结合,自动生成语义依存树。
将语义依存树中各元素对应到查询统计分析模型中,通过规则库与知识库匹配生成结构化查询语句,最终生成查询统计分析结果集并输出展示。
如图3所示,是标准化、程序化的多维数据查询统计分析模型的功能示意图。通过与知识库、规则库的匹配,可以将自然语言处理生成的语义依存树中各元素对应到分析模型中,查询统计分析模型将语义依存树中的各因素转化为查询统计的对象、字段、条件、计算方法,通过乘积空间聚类规则、正则匹配规则、矢量量化竞争学习多层神经网络算法、Rabin-Karp算法等规则和算法,转化为数据库查询语句或程序算法,执行数据库操作和算法,即得到查询统计分析结果集。
查询统计分析结果集通过可视化图表组件输出展示:可视化图表组件依据数据集已匹配的多维数据查询统计分析模型自动推荐最佳可视化图表展示方案,并提供多套展示方案供用户选择,数据集被可视化组件自动读取,实现查询统计分析处理结果的直观、可交互、可高度个性化定制的可视化展示。
如图4所示,是江苏省各变电站采用本发明的过程示意图。成果的运用可以有效降低电网管理的运行维护成本,减少人力、时间的投入,全方位支撑公司电网生产、 经营管理、 优质服务等业务的精益化管理,为电网的设备运维、企业管理与客服服务提供全过程自助式数据决策技术支撑,提高工作效率、管理水平和客户满意,推动企业智能化水平提升。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.基于自然语言处理的自助式查询统计分析方法,其特征在于,包括如下步骤:
构建电力通信数据查询统计分析规则库、知识库、语料库;
建立电力通信标准化、程序化的多维数据查询统计分析模型;
输入查询统计分析语句或段落,形成查询统计分析自然语言处理任务,生成语义依存树;
将语义依存树中各元素对应到查询统计分析模型中,通过规则库与知识库匹配生成结构化查询语句,最终生成查询统计分析结果集。
2.根据权利要求1所述的基于自然语言处理的自助式查询统计分析方法,其特征在于,构建电力通信数据查询统计分析规则库、知识库、语料库的具体方法如下:
对电力通信数据进行分析和归纳总结,梳理各种数据要素,结合各种标准规范、自然语言处理、多维统计分析模型的需求,生成规则库、知识库和语料库;
所述数据要素包括:数据表、数据分类、数据字段、关联关系、数据字典、数据类型;
所述标准规范包括:资源命名规范、功能规范和资源信息模型规范。
3.根据权利要求1所述的基于自然语言处理的自助式查询统计分析方法,其特征在于,建立电力通信标准化、程序化的多维数据查询统计分析模型的具体方法如下:
结合数据库操作和算法的特征,将查询统计分析归纳抽象为固定因素的组合,将所述组合标准化、程序化即得到多维数据查询统计分析模型;
所述固定因素包括:对象、条件、维度、方法、范围、频度。
4.根据权利要求1所述的基于自然语言处理的自助式查询统计分析方法,其特征在于,采用文字方式输入查询统计分析语句或段落。
5.根据权利要求1所述的基于自然语言处理的自助式查询统计分析方法,其特征在于,生成语义依存树的具体方法如下:
将所述自然语言处理任务发送至语义识别服务,处理输入的语句或段落,对其业务含义按照名词偏正词组语法规则精确定义,进行从底层到高层的一系列分析:包括词法分析、句法分析、底层语义分析、高层语义分析,通过与语料库匹配结合,自动生成语义依存树。
6.根据权利要求1所述的基于自然语言处理的自助式查询统计分析方法,其特征在于,生成查询统计分析结果集的具体方法为:
查询统计分析模型将语义依存树中的各因素转化为查询统计的对象、字段、条件、计算方法,通过乘积空间聚类规则、正则匹配规则、矢量量化竞争学习多层神经网络算法、Rabin-Karp算法等规则和算法,转化为数据库查询语句或程序算法,执行数据库操作和算法,即得到查询统计分析结果集。
7.根据权利要求1所述的基于自然语言处理的自助式查询统计分析方法,其特征在于,查询统计分析结果集通过可视化图表组件输出展示。
CN201710992095.3A 2017-10-23 2017-10-23 基于自然语言处理的自助式查询统计分析方法 Pending CN107818148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710992095.3A CN107818148A (zh) 2017-10-23 2017-10-23 基于自然语言处理的自助式查询统计分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710992095.3A CN107818148A (zh) 2017-10-23 2017-10-23 基于自然语言处理的自助式查询统计分析方法

Publications (1)

Publication Number Publication Date
CN107818148A true CN107818148A (zh) 2018-03-20

Family

ID=61608664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710992095.3A Pending CN107818148A (zh) 2017-10-23 2017-10-23 基于自然语言处理的自助式查询统计分析方法

Country Status (1)

Country Link
CN (1) CN107818148A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508441A (zh) * 2018-08-21 2019-03-22 江苏赛睿信息科技股份有限公司 数据分析方法、装置及电子设备
CN109766355A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 一种支持自然语言的数据查询方法和系统
CN110674164A (zh) * 2019-09-30 2020-01-10 南京网感至察信息科技有限公司 一种面向主数据的自然语言查询并智能生成报表的方法
CN110737687A (zh) * 2019-09-06 2020-01-31 平安普惠企业管理有限公司 数据查询方法、装置、设备及存储介质
CN111125145A (zh) * 2019-11-26 2020-05-08 复旦大学 一种通过自然语言获取数据库信息的自动化系统
CN111831832A (zh) * 2020-07-27 2020-10-27 北京世纪好未来教育科技有限公司 词表构建方法、电子设备及计算机可读介质
CN112597276A (zh) * 2020-12-25 2021-04-02 苏州思必驰信息科技有限公司 数据输出方法和装置
CN113761334A (zh) * 2020-11-13 2021-12-07 北京沃东天骏信息技术有限公司 一种可视化推荐方法、装置、设备和存储介质
CN114201602A (zh) * 2022-02-15 2022-03-18 支付宝(杭州)信息技术有限公司 为可视化数据分析生成自然语言语句的方法及装置
CN116386637A (zh) * 2023-06-05 2023-07-04 中国电子科技集团公司第十五研究所 雷达飞行指挥语音指令生成方法及系统
CN116757203A (zh) * 2023-08-16 2023-09-15 杭州北冥星火科技有限公司 一种自然语言匹配方法、装置、计算机设备及存储介质
CN117931898B (zh) * 2024-03-25 2024-06-07 成都同步新创科技股份有限公司 一种基于大模型的多维数据库统计分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073767A (zh) * 2011-01-12 2011-05-25 南京南瑞继保电气有限公司 电力信息系统群虚拟数据仓库元数据管理方法
US20120310648A1 (en) * 2011-06-03 2012-12-06 Fujitsu Limited Name identification rule generating apparatus and name identification rule generating method
US20160140123A1 (en) * 2014-11-13 2016-05-19 Adobe Systems Incorporated Generating a query statement based on unstructured input
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN106991322A (zh) * 2016-01-21 2017-07-28 北京启明星辰信息安全技术有限公司 一种结构化查询语言sql注入攻击的检测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073767A (zh) * 2011-01-12 2011-05-25 南京南瑞继保电气有限公司 电力信息系统群虚拟数据仓库元数据管理方法
US20120310648A1 (en) * 2011-06-03 2012-12-06 Fujitsu Limited Name identification rule generating apparatus and name identification rule generating method
US20160140123A1 (en) * 2014-11-13 2016-05-19 Adobe Systems Incorporated Generating a query statement based on unstructured input
CN106991322A (zh) * 2016-01-21 2017-07-28 北京启明星辰信息安全技术有限公司 一种结构化查询语言sql注入攻击的检测方法和装置
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟小峰: "中文数据库自然语言查询处理研究", 《中国优秀博硕士学位论文全文数据库信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508441A (zh) * 2018-08-21 2019-03-22 江苏赛睿信息科技股份有限公司 数据分析方法、装置及电子设备
CN109766355A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 一种支持自然语言的数据查询方法和系统
CN110737687A (zh) * 2019-09-06 2020-01-31 平安普惠企业管理有限公司 数据查询方法、装置、设备及存储介质
CN110674164A (zh) * 2019-09-30 2020-01-10 南京网感至察信息科技有限公司 一种面向主数据的自然语言查询并智能生成报表的方法
CN111125145A (zh) * 2019-11-26 2020-05-08 复旦大学 一种通过自然语言获取数据库信息的自动化系统
CN111831832A (zh) * 2020-07-27 2020-10-27 北京世纪好未来教育科技有限公司 词表构建方法、电子设备及计算机可读介质
CN111831832B (zh) * 2020-07-27 2022-07-01 北京世纪好未来教育科技有限公司 词表构建方法、电子设备及计算机可读介质
CN113761334A (zh) * 2020-11-13 2021-12-07 北京沃东天骏信息技术有限公司 一种可视化推荐方法、装置、设备和存储介质
CN112597276B (zh) * 2020-12-25 2022-07-08 思必驰科技股份有限公司 数据输出方法和装置
CN112597276A (zh) * 2020-12-25 2021-04-02 苏州思必驰信息科技有限公司 数据输出方法和装置
CN114201602A (zh) * 2022-02-15 2022-03-18 支付宝(杭州)信息技术有限公司 为可视化数据分析生成自然语言语句的方法及装置
CN116386637A (zh) * 2023-06-05 2023-07-04 中国电子科技集团公司第十五研究所 雷达飞行指挥语音指令生成方法及系统
CN116386637B (zh) * 2023-06-05 2023-08-04 中国电子科技集团公司第十五研究所 雷达飞行指挥语音指令生成方法及系统
CN116757203A (zh) * 2023-08-16 2023-09-15 杭州北冥星火科技有限公司 一种自然语言匹配方法、装置、计算机设备及存储介质
CN116757203B (zh) * 2023-08-16 2023-11-10 杭州北冥星火科技有限公司 一种自然语言匹配方法、装置、计算机设备及存储介质
CN117931898B (zh) * 2024-03-25 2024-06-07 成都同步新创科技股份有限公司 一种基于大模型的多维数据库统计分析方法

Similar Documents

Publication Publication Date Title
CN107818148A (zh) 基于自然语言处理的自助式查询统计分析方法
CN109033284A (zh) 基于知识图谱的电力信息运维系统数据库构建方法
CN104991955B (zh) 一种自动构建模板库的方法及系统
CN107908738A (zh) 基于电力专业词库的企业级知识图谱搜索引擎的实现方法
CN110457442A (zh) 面向智能电网客服问答的知识图谱构建方法
CN109063174A (zh) 查询答案的生成方法及装置、计算机存储介质、电子设备
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN108470282A (zh) 客户服务中心投诉工单智能分类方法
CN108899013A (zh) 语音搜索方法、装置和语音识别系统
CN109947934A (zh) 针对短文本的数据挖掘方法及系统
CN111861596B (zh) 一种文本分类方法和装置
CN111260338A (zh) 一种变电站操作票智能生成方法、装置及平台
CN108399553A (zh) 一种考虑地理和线路从属关系的用户特征标签设定方法
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN110826321A (zh) 合同文件风险校验方法、装置、计算机设备以及存储介质
CN114997288A (zh) 一种设计资源关联方法
CN102622413A (zh) 一种回答自然语言问题的方法与装置
CN104679784A (zh) 一种o2b智能搜索方法及系统
CN109344248B (zh) 一种基于科技文献摘要聚类的学术主题生命周期分析方法
CN108133014A (zh) 基于句法分析和聚类的三元组生成方法、装置及用户终端
CN108694176A (zh) 文档情感分析的方法、装置、电子设备和可读存储介质
Xiao et al. Consensus-driven methodology to managing diversity and complex linguistic ratings in quality function deployment: An optimization-based approach
CN116312505A (zh) 一种基于自然语言处理的供应链语音识别方法
CN112214602B (zh) 基于幽默度的文本分类方法、装置、电子设备及存储介质
CN115310429B (zh) 一种多轮倾听对话模型中的数据压缩与高性能计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180320