CN114282498A - 一种应用于电力交易的数据知识处理系统 - Google Patents
一种应用于电力交易的数据知识处理系统 Download PDFInfo
- Publication number
- CN114282498A CN114282498A CN202111647631.9A CN202111647631A CN114282498A CN 114282498 A CN114282498 A CN 114282498A CN 202111647631 A CN202111647631 A CN 202111647631A CN 114282498 A CN114282498 A CN 114282498A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- module
- user
- electric power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种应用于电力交易的数据知识处理系统,它包括非结构化数据处理模块和HTML转换模块,将非结构化数据处理模块抽取的文字内容、文本数据的文字内容进行HTML转换,使得所有数据格式统一并且支持网页显示;利用自然语言处理模块形成初步的知识图谱素材;利用知识图谱模块提供实体、属性、关系的可编辑选项进行优化形成有效知识库;利用问答模块提供问答交互能力;利用查询模块实现知识定位及关联推荐;利用推荐模块提供针对不同市场主体用户推荐其属性相关和行为相关的电力交易知识和数据;利用学习模块将知识图谱形成的行业知识进行目录展示;实现分散数据的统一、版本的归档、格式的统一,为市场主体提供智能化主动服务。
Description
技术领域
本发明属于电力交易系统技术领域,尤其涉及一种应用于电力交易的数据知识处理系统。
背景技术
当前国家发展改革委进一步加快推进电力市场化改革,从国家层面出台了相关政策,贵州省政府相关部门、南方电网公司、贵州电网公司等也相继制定并印发了落实相关要求的管理办法、实施方案等,形成了一系列政策法规、制度规定、业务流程、历史数据等相关数据信息。基于以上数据和业务需求开发了电力交易相关系统,在系统应用过程中发现仍存在以下几点问题:1、数据分散,知识更新速度快,存在多个版本;2、数据格式不统一,阅读感官不佳;3、无法有效快速的支撑电力交易行业知识库内容的积累;4、已有的电力交易相关系统为市场主体用户提供的功能比较单一,基本上都是传统的增删改查功能。以上问题导致目前电力交易工作中用户侧在文档确认、规范查询、流程了解上造成极大不便,影响电力交易服务效率;也无法为不同的市场主体用户提供有针对性的数据支撑和有效的知识推荐,无法提供智能化主动服务;同时业务人员在专业能力提升、日常学习上没有一个高效的学习服务平台;而且现有系统对提供的数据知识安全管控较薄弱、且缺少追溯功能。
发明内容
本发明要解决的技术问题是:提出一种应用于电力交易的数据知识处理系统,以解决现有技术的电力交易系统存在的不足。
本发明技术方案:
一种应用于电力交易的数据知识处理系统,它包括:
非结构化数据处理模块:通过OCR图片识别技术将pdf、图片等非结构化格式的文字内容进行抽取,存入数据库;
HTML转换模块:将非结构化数据处理模块抽取的文字内容、文本数据的文字内容进行HTML转换,使得所有数据格式统一并且支持网页显示;
自然语言处理模块:通过自然语言处理模块实现对结构化数据的自动理解和拆分,形成知识图谱素材;
知识图谱模块:接收自然语言处理模块的输出内容,通过可视化方式展示,提供实体、属性、关系的可编辑选项进行优化形成有效知识库;
问答模块:提供问答交互能力,通过文字输入和语音输入方式触发知识内容;
查询模块:提供关键词查询,结合底层知识图谱关系,实现知识定位及关联推荐;
推荐模块:提供针对不同市场主体用户推荐其属性相关和行为相关的电力交易知识和数据;
学习模块:将知识图谱形成的行业知识进行目录展示,并提供全文查询下载、在线阅读、版本选择及练习计分功能。
它还包括:
统一接口模块:将由自然语言处理、知识图谱构建的行业知识库封装成标准接口供授信的第三方进行调用;
统一管理模块:提供友好的增删改查界面,给管理员对非结构化处理模块、 HTML模块、知识图谱模块和问答模块的参数进行配置。
它还包括:
前端交互模块:在web端、手机端或大屏端为用户提供知识咨询、推荐查询、学习培训及模块接入功能。
它还包括:
电力交易数据智能分析模块:结合知识图谱、自然语言处理技术,一方面在用户侧为市场主体提供针对其交易数据、交易行为的智能数据分析,形成个性画像,实时提示用户与其相关的电力交易政策及交易信息;另一方面为服务侧运营人员提供整体的、分类的各种智能统计分析结果,做出智能预测,辅助电力交易有效开展;
电力交易数据知识区块链数据鉴别模块:采用区块链技术,实现数据知识的签名防伪,实现可追溯能力,保障数据安全。
所述非结构化数据处理模块的实现方法包括:将用户输入的各类图片进行分析提取出文本信息,采用基于深度学习的算法实现;
所述HTML转换模块的实现方法包括:通过标准化处理将不同源的文档统一转换为PDF,在此过程中确保文档的样式不变且文本信息不会被转换为图片;然后再将转换后的PDF转换为HTML,从而实现了不同源文档的标准化输出。
所述自然语言处理模块的实现方法包括:
词库构建:首先完成结构化、半结构化数据提取,同时加入无监督新词发现算法,再结合主流开源基础词库,创建一套适合电力交易已有文档积累以及符合相关业务流程的词库;对于半结构化文本和结构化文本,经过处理后直接提取初始的词库,对于非结构化文档,则使用基于统计的无监督新词发现算法提取新词补充到词库;最后实现基于融合性分词技术的词的抽取,首先输入待分词文本,调用词库结合双向最大匹配算法进行计算,判断是否满足启发抽取规则,若不满足,调用N-gram语言模型对分词文本进行处理;若满足启发规则,直接进行抽取加入词库;
所述知识图谱模块的实现方法包括:
利用自然语言处理模块,对输入的非结构化、结构化和半结构化数据进行处理,形成实体词库、关系词库、属性词库;然后直接进行知识表示处理;知识表示处理完成后进行实体对齐,然后进行属性矫正,同时进行本体构建和质量评估,本体构建完成进入知识更新,然后进行质量评估,质量评估完成后将生成的图谱知识存储知识图谱数据库,由知识图谱数据库向应用服务提供支撑,同时进行知识推理,知识推理的结果给到质量评估,然后在反馈给知识图谱数据库,从而形成自学习闭环。
所述问答模块的实现方法包括:通过文字输入及语音输入方式触发知识内容,具体步骤包括:
步骤1、若是文字输入,直接调用自然语言处理模块进行处理,然后调用知识图谱模块输出结果匹配答案库,输出答案;
步骤2、若是语音输入,则先调用语音识别模块,将语音转换为文字后,调用自然语言处理模块进行处理,然后调用知识图谱模块输出结果匹配答案库,输出答案;
步骤3、若是图片输入,则先调用OCR识别,将图片内文字识别,调用自然语言处理模块进行处理,然后调用知识图谱模块输出结果匹配答案库,输出答案;
所述查询模块的实现方法包括:输入文字查询内容后,调用自然语言处理模块,进行分词预处理,然后调用知识图谱模块,生成对应的特征词,在通过特征词和数据库数据进行匹配,最后得到查询结果;
所述推荐模块的实现方法包括:
从数据库或缓存中拿到用户行为数据,通过分析不同行为,生成当前用户的特征向量;从用户行为数据库提取行为数据,再进行行为特征转换,然后结合用户属性数据库的属性数据,生成用户行为特征向量;
将用户的特征向量通过“特征-对应矩阵”的关系转化为初始推荐列表,接收到用户行为特征向量后,根据不同属性的特征值结合对应的相关表,从对应属性的候选集合完成初始推荐结果的生成;
对初始的推荐列表进行过滤及排名处理,从而生成该引擎的最终推荐结果;对初始推荐结果进行优化处理,先进行过滤操作,再结合用户行为反馈、制度属性和消息属性实体的属性特点,生成对应推荐结果的排名,然后对排名结果进行推荐解释选择,最终输出推荐结果。
所述学习模块的实现方法为:通过查询接口调用从基于知识图谱的数据库获取对应的数据进行展示;基于知识图谱的数据库包含知识谱算法模块以及实体、关系和属性的相关数据表;
所述统一接口模块的实现方法为:根据数据特性和功能生成对应的标准化接口,标准化接口通过SM2进行加密,生成加密接口集合,加密接口生成离线 SDK包或在线接口供授信用户使用;
统一管理模块的实现方法为:非结构化数据处理模块、HTML模块、知识图谱模块和问答模块生成默认参数集,用户通过参数调整修改参数集,参数集反作用于非结构化处理模块从而实现模块的优化,然后又生成新的默认参数集,从而实现优化闭环。
所述前端交互模块的实现方法包括:自然语言处理模块和知识图谱模块通过内部统一接口向web、手机及大屏交互载体输出交互内容;同时,web、手机及大屏交互载体通过模块接入、学习培训、知识咨询和推荐查询功能接口输入交互内容,通过内部统一接口触发自然语言处理模块、知识图谱模块和HTML模块进行交互相应,从而完成交互闭环;
所述电力交易数据智能分析模块的实现方法包括:
通过对用户行为数据库进行行为数据提取,进行行为特征转换,再结合用户属性数据库属性数据,生成用户特征向量,通过用户特征向量与用户交易数据进行结合分析,生成用户画像、推荐数据、统计分析结果和预测数据,然后通过内部接口反馈到前端完成分析展示;
通过基于知识图谱推荐结合电力市场化交易历史数据,为用户提供仿真交易功能;
用户登录后,判断用户是否为新用户,若为新用户,则调用默认的用户仿真电力交易产品供用户体验,同时在用户体验过程中搜集用户行为数据存入数据库,为推荐模型做数据支撑;若用户为老用户,则调用推荐模块结合用户历史行为数据,推荐对应仿真电力交易产品供用户使用体验;
电力交易数据知识区块链数据鉴别模块的实现方法包括:采用区块链技术,实现数据知识的签名防伪,实现可追溯能力,保障数据传播安全;分为数据签名单元和数据验证单元;
数据签名单元首先从电力交易数据知识库内抽取一段数据知识区块进行 hash算法转换,生成固定长度字符串,然后定义相应哈希值,根据所定义的hash 值计算出后一区块的hash值,直到将电力交易数据知识库内数据知识区块全部进行hash,串联形成电力交易数据知识区块链;接着再将电力交易数据知识库内的数据知识与之前生成的区块链对应区块相结合,进行数字资产签名,从而形成带签名的电力交易数据知识库,再通过业务功能提供给市场主体用户下载到本地进行使用;
所述数据验证单元通过对市场主体本地的电力交易数据知识和互联网上已有的电力交易数据知识进行哈希算法处理,生成对应的哈希值,将生成的哈希值与电力交易数据知识区块链进行比对,若存在,则根据哈希值在带签名的电力交易数据知识库里查询到对应的数据知识,从而验证数据未被篡改;若生成的哈希值不存在,则证明该数据知识已经被篡改。
本发明的有益效果:
本发明通过非结构化数据处理解决用户面对多种格式文档处理、存储困难的问题;通过HTML转换解决使得所有数据格式统一并且支持网页显示解决用户阅读困难的问题;通过形成知识图谱素材解决行业用户构建电力交易行业没有知识图谱素材的问题;通过形成有效知识库改进了传统电力交易系统数据存储方式,采用知识图谱方式存储数据,提升单个实体、关系、属性查询效率以及降低了数据对接难度;通过多种方式触发知识内容,解决现有电力交易系统没有交互能力的问题,实现了与用户的实时交互,提升的服务质量;通过智能推荐解决现有电力交易系统被动服务的问题;通过建立统一接口解决电力交易系统对接难度大、成本高的问题;通过对数据信息统一管理,提高保障系统整体效率;通过知识咨询、推荐查询、学习培训、模块接入等多种功能。解决现有电力交易系统功能单一,没有支撑服务能力的问题;通过对交易数据智能分析处理,解决了传统电力交易系统缺少智能辅助的能力;通过对电力交易数据知识区块链数据鉴别,采用区块链技术,实现数据知识的签名防伪,实现可追溯能力,保障数据传播安全;解决了现有技术的不足。
附图说明
图1为本发明系统组成图;
图2为本发明具体实施方式不同源文档转换为PDF流程示意图;
图3为本发明具体实施方式PDF文档转换为HTML示意图;
图4为本发明具体实施方式新词算法流程示意图;
图5为本发明具体实施方式融合性分词技术实现词的抽取示意图;
图6为本发明具体实施方式传统知识图谱构建流程示意图;
图7为本发明具体实施方式更新的知识图谱构建流程示意图;
图8为本发明具体实施方式问答模块实现流程示意图;
图9为本发明具体实施方式查询模块实现流程示意图;
图10为本发明具体实施方式推荐模块实现流程示意图;
图11为本发明具体实施方式学习模块实现流程示意图;
图12为本发明具体实施方式统一接口模块实现流程示意图;
图13为本发明具体实施方式统一管理模块实现流程示意图;
图14为本发明具体实施方式前端交互模块实现流程示意图;
图15为本发明具体实施方式电力交易数据智能分析模块实现流程示意图;
图16为本发明具体实施方式电力交易仿真体验流程实现流程示意图;
图17为本发明具体实施方式仿真电力交易模型实现流程示意图;
图18为本发明具体实施方式数据签名单元实现流程示意图;
图19为本发明具体实施方式数据验证单元实现流程示意图。
具体实施方式
本发明一种应用于电力交易的数据知识处理系统,它包括(见图1)
非结构化数据处理模块:通过OCR(图片识别技术)将pdf、图片等非结构化格式的文字内容进行抽取,存入数据库。解决用户面对多种格式文档处理、存储困难的问题。
系统将用户输入的各类图片进行分析,提取出关键文本信息,用于后续的自然语言理解和处理、匹配对应的业务知识、机器人反馈答复等。
为了达到较高的识别率,采用基于深度学习的算法。该算法由深度卷积网络(CNN)+长短期记忆网络(LSTM)+Connectionist temporal classification (CTC)构成,其中深度卷积网络因其较深的网络结构可以提取出图像深层次的特征,这种特征具有很强的抗干扰能力。而LSTM和CTC具有很强的时序特征分析能力,可以不分割字符就直接输出字符行的识别结果。
HTML转换模块:将非结构化数据处理模块抽取的文字内容、其它文本数据的文字内容进行HTML转换,使得所有数据格式统一并且支持网页显示;解决用户阅读困难的问题。
通过标准化处理,将不同源的文档统一转换为PDF,在此过程中可以确保文档的样式不变且文本信息不会被转换为图片。然后再将转换后的PDF转换为 HTML,从而实现了不同源文档的标准化输出。
不同源文档转换为PDF,具体流程如下:
在文档转换为pdf时,如果文档格式原来就是pdf则不需要转换,如果不是 pdf,则根据当前操作系统判断,如果是windows操作系统且文档格式为wps则调用wps应用程序进行转换,如果是Word、PPT、excel、visio等文档则调用 office应用程序进行转换;若操作系统位Linux,则调用LibreOffice进行转换,最终将不同源的文档统一转换为PDF格式。
PDF文档转换为HTML
通过上述第一步处理后,实现了不同源文档到PDF的标准化处理,简化了后续转换为HTML的复杂度,其流程如下:
首先加载pdf文件,调用pdf2htmlEX进行转换,对于含有目录结构的pdf 可以提取出文档目录,方便web端浏览时进行快速导航操作。
自然语言处理模块:通过自然语言处理模块实现对结构化数据的自动理解和拆分,形成初步的知识图谱素材。解决行业用户构建电力交易行业没有知识图谱素材的问题。
词库构建。实现基于电力交易专业词句领域的词库构建技术,首先需要完成结构化、半结构化数据提取,同时加入无监督新词发现算法,再结合主流开源基础词库,融合性的创建一套适合电力交易已有文档积累以及符合相关业务流程的词库构建方法和技术。
对于半结构化文本\结构化文本,例如电力交易系统中的台账、部门列表和人员列表等,这些数据经过简单处理后可以直接提取初始的词库,对于非结构化文档,则需要使用基于统计的无监督新词发现算法提取新词补充到词库。
互信息,Mutual Information,缩写为MI,表示两个变量X与Y是否有关系,以及关系的强弱。如果X与Y独立,则P(X,Y)=P(X)P(Y),MI(X,Y)就为0,即代表X与Y不相关,MI(X,Y)越接近1,则表示X,Y越相关。
在新词发现任务中,确定词语的左边界和右边界的统计量通常是左邻接熵和右邻接熵。一个候选词组的左邻接熵是指该候选词组和与它左边所有相邻的字结合的信息熵之和,用来判断该候选词组的左邻接字的多样性。左邻接熵越大,说明该候选词组左边相邻的字的种类越多,那么该候选词组成为某个词语的左边界的可能性越大;反之,左邻接熵越小,该候选词组左边相邻的字的种类越少,它不是某个词语的左边界的情况就越肯定,那么就应该对该候选词组向左扩展直到左边界确定为止。
左邻接墒:
HL(x)=-∑p(a|x)log p(a|x)
其中,HL(x)是候选词语x的左邻接熵,a属于候选词x的左邻接字集合,p(a|x) 是候选词x出现的情况下它左边的邻接字是a的条件概率。
右邻接墒:
HR(x)=-∑p(b|x)log p(b|x)
其中,HR(x)是候选词x的右邻接熵,b属于候选词x的右邻接字集合,p(b|w) 是候选的词x出现的情况下其右邻接字是b的条件概率。
新词算法流程:
第一步,进行实验语料预处理,生成词与右邻接字的词频;
第二步,对词与右邻接字的词频进行判断是否大于阈值;
第三步,计算词与右邻接熵的互信息;
第四步,判断互信息是否大于阈值,若大于阈值则将词与字合并成词并向右扩展一个字,回到第二步,重复2、3、4步,直到互信息不大于阈值进入到第五步。
第五步,将词加入候选新词集;
第六步,计算词的做右邻接熵;
第七步,判断左右邻接熵大于阈值;
第八步,删除候选新词收尾停用词;
第九步,过滤掉包含数字的候选新词;
第十步,判断是否在旧词词典中;
第十一步,过滤长度小于2的候选新词;
第十二步,计入新词集。
最后实现基于融合性分词技术的词的抽取。首先输入待分词文本,调用词库结合双向最大匹配算法进行计算,判断是否满足启发抽取规则,若不满足,调用N-gram语言模型对分词文本进行处理;若满足启发规则,直接进行抽取加入词库。
知识图谱模块:接收自然语言处理模块的的输出内容,通过可视化方式初步展示,提供实体、属性、关系的可编辑选项,让人工能进行优化,最后形成有效知识库。改进了传统电力交易系统数据存储方式,采用知识图谱方式存储数据,提升单个实体、关系、属性查询效率以及降低了数据对接难度。
知识图谱的基本单位,是“实体(Entity)-关系(Relationship)-实体 (Entity)”构成的三元组,这也是知识图谱的核心。
传统知识图谱构建流程:
传统知识图谱构建流程需要对输入的结构化、半结构化、非结构化数据进行预处理,实现实体抽取、关系抽取、属性抽取等工作,然后才能进入下一步知识表示处理,知识表示处理完成后进行实体对齐,然后进行属性矫正,同时进行本体构建和质量评估,本体构建完成进入知识更新,然后进行质量评估,质量评估完成后将生成的图谱知识存储知识图谱数据库,由知识图谱数据库向应用服务提供支撑,同时进行知识推理,知识推理的结果给到质量评估,然后在反馈给知识图谱数据库,从而形成自学习闭环。
本发明的知识图谱构建流程:
利用自然语言处理模块,对输入的非结构化、结构化、半结构化数据进行处理,形成实体词库、关系词库、属性词库。然后直接进行知识表示处理,比起传统知识图谱构建将数据预处理和图谱化进行有效拆分,提升了数据预处理的效率,同时降低了图谱构建的难度。通过自然语言处理模块处理后,进入到知识表示,知识表示处理完成后进行实体对齐,然后进行属性矫正,同时进行本体构建和质量评估,本体构建完成进入知识更新,然后进行质量评估,质量评估完成后将生成的图谱知识存储知识图谱数据库,由知识图谱数据库向应用服务提供支撑,同时进行知识推理,知识推理的结果给到质量评估,然后在反馈给知识图谱数据库,从而形成自学习闭环。
问答模块:提供问答交互能力,通过文字输入、语音输入等多种方式触发知识内容。解决了现有电力交易系统没有交互能力的问题,实现了与用户的实时交互,提升的服务质量。
第一步,若是文字输入,直接调用自然语言处理模块进行处理,然后调用知识图谱模块,输出结果,匹配答案库,输出答案;
第二步,若是语音输入,则先调用语音识别模块,将语音转换为文字后,调用自然语言处理模块进行处理,然后调用知识图谱模块,输出结果,匹配答案库,输出答案;
第三步,若是图片输入,则先调用OCR识别模块,将图片内文字识别,调用自然语言处理模块进行处理,然后调用知识图谱模块,输出结果,匹配答案库,输出答案;
查询模块:提供关键词查询能力,结合底层知识图谱关系,实现快速定位及关联推荐。
输入文字查询内容后,调用自然语言处理模块,进行分词预处理,然后调用知识图谱模块,生成对应的特征词,在通过特征词和数据库数据进行匹配,最后得到查询结果。
推荐模块:提供针对不同市场主体用户推荐其属性相关和行为相关的电力交易知识和数据。解决现有电力交易系统被动服务的问题。
技术实现:推荐引擎架构:
推荐引擎架构主要包括三部分(见图10):
图中A部分负责从数据库或缓存中拿到用户行为数据,通过分析不同行为,生成当前用户的特征向量,如果使用非行为特征,就不需要行为提取和分析模块了,该模块的输出就是用户特征向量。步骤为从用户行为数据库提取行为数据,再进行行为特征转换,然后结合用户属性数据库的属性数据,生成用户行为特征向量。
图中B部分负责将用户的特征向量通过“特征-对应矩阵”的关系转化为初始推荐列表。接收到用户行为特征向量后,根据不同属性的特征值结合对应的相关表,从对应属性的候选集合完成初始推荐结果的生成。
图中C部分负责对初始的推荐列表进行过滤、排名等处理,从而生成该引擎的最终推荐结果。对初始推荐结果进行优化处理,先进行过滤操作,再结合用户行为反馈、制度属性、消息属性等实体的属性特点,生成对应推荐结果的排名,然后对排名结果进行推荐解释选择,最终输出推荐结果。
学习模块:将知识图谱形成的行业知识进行目录展示,提供全文查询下载、在线阅读、版本选择、练习计分等学习功能。
学习模块包含的全文查询下载、在线阅读、版本选择、练习计分的前端功能,通过查询接口调用,从基于知识图谱的数据库获取对应的数据进行展示。基于知识图谱的数据库包含知识谱算法模块以及实体、关系、属性的相关数据表。
统一接口模块:将由自然语言处理、知识图谱构建的行业知识库封装成标准接口,可供授信的第三方进行调用,促进行业整体进步。解决现有电力交易系统对接难度大、成本高的问题。
电力交易行业知识库根据其数据特性和功能生成对应的标准化接口,标准化接口通过SM2进行加密,生成加密接口集合,加密接口可生成离线SDK包或在线接口供授信用户使用。
统一管理模块:提供友好的增删改查界面,给管理员对非结构化处理模块、 HTML模块、知识图谱模块、问答模块等主要功能模块的参数进行有效配置,保障平台整体效率。
非结构化处理模块、HTML模块、知识图谱模块、问答模块生成默认参数集,用户通过参数调整修改参数集,参数集反作用于非结构化处理模块从而实现模块的优化,然后又生成新的默认参数集,从而实现优化闭环。
前端交互模块:在web端、手机端、大屏端等多种交互载体,为用户提供知识咨询、推荐查询、学习培训、模块接入等多种功能。解决现有电力交易系统功能单一,没有支撑服务能力的问题。
自然语言处理模块、知识图谱模块等内部模块通过内部统一接口向web、手机、大屏等交互载体输出交互内容。同时,web、手机、大屏等交互载体,通过模块接入、学习培训、知识咨询、推荐查询等功能接口输入交互内容,通过内部统一接口触发自然语言处理模块、知识图谱模块、HTML模块进行交互相应,从而完成交互闭环。
电力交易数据智能分析模块。结合知识图谱、自然语言处理技术,一方面在用户侧为市场主体提供针对其交易数据、交易行为的智能数据分析,形成个性画像,实时提示用户与其相关电力交易政策、交易信息。另一方面为服务侧运营人员提供整体的、分类的各种智能统计分析结果,做出智能预测,辅助电力交易有效开展。解决了传统电力交易系统缺少智能辅助的能力。
通过对用户行为数据库进行行为数据提取,进行行为特征转换,再结合用户属性数据库属性数据,生成用户特征向量,通过用户特征向量与用户交易数据进行结合分析,生成用户画像、推荐数据、统计分析结果、预测数据等,然后通过内部接口反馈到前端完成分析展示。
电力交易仿真模块。通过基于知识图谱推荐模块,结合电力市场化交易历史数据,为用户提供仿真交易功能,让用户切实体会电力交易的各种操作及总体交易态势变化,加深用户对电力交易的流程的熟悉掌握,让用户在真实交易时减少不必要的错漏,提升交易效率。
仿真体验流程:用户登录后,判断用户是否为新用户,若为新用户,则调用默认用户仿真电力交易产品供用户体验,同时在用户体验过程中搜集用户行为数据存入数据库,为推荐模型做数据支撑。若用户为老用户,则调用推荐模块结合用户历史行为数据,推荐对应仿真电力交易产品供用户使用体验。
仿真电力交易模型实现:
首先,通过从电力交易历史数据、电力交易产品数据库、电力交易用户行为数据库获取一段时间内的整体交易数据、交易产品数据、交易行为数据,将这些数据进行汇集分析,从而形成仿真交易数据库,基于仿真交易数据库,通过统一接口模块生成对应交易产品的相关加密接口和SDK,从而进一步生成仿真交易产品,生成的仿真交易产品通过推荐模块进行筛选,将筛选出的产品推荐用户进行仿真使用,用户在进行仿真使用时获取其行为数据存入用户行为数据库,从而达到仿真产品优化闭环。
电力交易数据知识区块链数据鉴别模块。采用区块链技术,实现数据知识的签名防伪,实现可追溯能力,保障数据传播安全。模块分为数据签名单元和数据验证单元。
数据签名单元,首先将电力交易数据知识库内一段数据知识区块进行hash 算法转换为固定长度字符串,然后定义相应哈希值,根据所定义的hash值计算出后一区块的hash值,直到将电力交易数据知识库内数据知识区块全部进行 hash,串联形成电力交易数据知识区块链。接着再将电力交易数据知识库内的数据知识与之前生成的区块链对应区块相结合,进行数字资产签名,从而形成带签名的电力交易数据知识库,该库的数据知识通过业务功能提供给市场主体用户下载到本地进行使用。
第二部分数据验证单元。市场主体本地的电力交易数据知识、互联网上的电力交易数据知识等,通过哈希算法处理,生成对应的哈希值,将生成的哈希值与电力交易数据知识区块链进行比对,若存在,则根据哈希值在带签名的电力交易数据知识库里查询到对应的数据知识,从而验证数据未被篡改;若生成的哈希值不存在,则证明该数据知识已经被篡改。
Claims (10)
1.一种应用于电力交易的数据知识处理系统,它包括:
非结构化数据处理模块:通过OCR图片识别技术将pdf、图片等非结构化格式的文字内容进行抽取,存入数据库;
HTML转换模块:将非结构化数据处理模块抽取的文字内容、文本数据的文字内容进行HTML转换,使得所有数据格式统一并且支持网页显示;
自然语言处理模块:通过自然语言处理模块实现对结构化数据的自动理解和拆分,形成知识图谱素材;
知识图谱模块:接收自然语言处理模块的输出内容,通过可视化方式展示,提供实体、属性、关系的可编辑选项进行优化形成有效知识库;
问答模块:提供问答交互能力,通过文字输入和语音输入方式触发知识内容;
查询模块:提供关键词查询,结合底层知识图谱关系,实现知识定位及关联推荐;
推荐模块:提供针对不同市场主体用户推荐其属性相关和行为相关的电力交易知识和数据;
学习模块:将知识图谱形成的行业知识进行目录展示,并提供全文查询下载、在线阅读、版本选择及练习计分功能。
2.根据权利要求1所述的一种应用于电力交易的数据知识处理系统,其特征在于:它还包括:
统一接口模块:将由自然语言处理、知识图谱构建的行业知识库封装成标准接口供授信的第三方进行调用;
统一管理模块:提供友好的增删改查界面,给管理员对非结构化处理模块、HTML模块、知识图谱模块和问答模块的参数进行配置。
3.根据权利要求1所述的一种应用于电力交易的数据知识处理系统,其特征在于:它还包括:
前端交互模块:在web端、手机端或大屏端为用户提供知识咨询、推荐查询、学习培训及模块接入功能。
4.根据权利要求1所述的一种应用于电力交易的数据知识处理系统,其特征在于:它还包括:
电力交易数据智能分析模块:结合知识图谱、自然语言处理技术,一方面在用户侧为市场主体提供针对其交易数据、交易行为的智能数据分析,形成个性画像,实时提示用户与其相关的电力交易政策及交易信息;另一方面为服务侧运营人员提供整体的、分类的各种智能统计分析结果,做出智能预测,辅助电力交易有效开展;
电力交易数据知识区块链数据鉴别模块:采用区块链技术,实现数据知识的签名防伪,实现可追溯能力,保障数据安全。
5.根据权利要求1所述的一种应用于电力交易的数据知识处理系统,其特征在于:
所述非结构化数据处理模块的实现方法包括:将用户输入的各类图片进行分析提取出文本信息,采用基于深度学习的算法实现;
所述HTML转换模块的实现方法包括:通过标准化处理将不同源的文档统一转换为PDF,在此过程中确保文档的样式不变且文本信息不会被转换为图片;然后再将转换后的PDF转换为HTML,从而实现了不同源文档的标准化输出。
6.根据权利要求1所述的一种应用于电力交易的数据知识处理系统,其特征在于:
所述自然语言处理模块的实现方法包括:
词库构建:首先完成结构化、半结构化数据提取,同时加入无监督新词发现算法,再结合主流开源基础词库,创建一套适合电力交易已有文档积累以及符合相关业务流程的词库;对于半结构化文本和结构化文本,经过处理后直接提取初始的词库,对于非结构化文档,则使用基于统计的无监督新词发现算法提取新词补充到词库;最后实现基于融合性分词技术的词的抽取,首先输入待分词文本,调用词库结合双向最大匹配算法进行计算,判断是否满足启发抽取规则,若不满足,调用N-gram语言模型对分词文本进行处理;若满足启发规则,直接进行抽取加入词库;
所述知识图谱模块的实现方法包括:
利用自然语言处理模块,对输入的非结构化、结构化和半结构化数据进行处理,形成实体词库、关系词库、属性词库;然后直接进行知识表示处理;知识表示处理完成后进行实体对齐,然后进行属性矫正,同时进行本体构建和质量评估,本体构建完成进入知识更新,然后进行质量评估,质量评估完成后将生成的图谱知识存储知识图谱数据库,由知识图谱数据库向应用服务提供支撑,同时进行知识推理,知识推理的结果给到质量评估,然后在反馈给知识图谱数据库,从而形成自学习闭环。
7.根据权利要求1所述的一种应用于电力交易的数据知识处理系统,其特征在于:
所述问答模块的实现方法包括:通过文字输入及语音输入方式触发知识内容,具体步骤包括:
步骤1、若是文字输入,直接调用自然语言处理模块进行处理,然后调用知识图谱模块输出结果匹配答案库,输出答案;
步骤2、若是语音输入,则先调用语音识别模块,将语音转换为文字后,调用自然语言处理模块进行处理,然后调用知识图谱模块输出结果匹配答案库,输出答案;
步骤3、若是图片输入,则先调用OCR识别,将图片内文字识别,调用自然语言处理模块进行处理,然后调用知识图谱模块输出结果匹配答案库,输出答案;
所述查询模块的实现方法包括:输入文字查询内容后,调用自然语言处理模块,进行分词预处理,然后调用知识图谱模块,生成对应的特征词,在通过特征词和数据库数据进行匹配,最后得到查询结果;
所述推荐模块的实现方法包括:
从数据库或缓存中拿到用户行为数据,通过分析不同行为,生成当前用户的特征向量;从用户行为数据库提取行为数据,再进行行为特征转换,然后结合用户属性数据库的属性数据,生成用户行为特征向量;
将用户的特征向量通过“特征-对应矩阵”的关系转化为初始推荐列表,接收到用户行为特征向量后,根据不同属性的特征值结合对应的相关表,从对应属性的候选集合完成初始推荐结果的生成;
对初始的推荐列表进行过滤及排名处理,从而生成该引擎的最终推荐结果;对初始推荐结果进行优化处理,先进行过滤操作,再结合用户行为反馈、制度属性和消息属性实体的属性特点,生成对应推荐结果的排名,然后对排名结果进行推荐解释选择,最终输出推荐结果。
8.根据权利要求2所述的一种应用于电力交易的数据知识处理系统,其特征在于:
所述学习模块的实现方法为:通过查询接口调用从基于知识图谱的数据库获取对应的数据进行展示;基于知识图谱的数据库包含知识谱算法模块以及实体、关系和属性的相关数据表;
所述统一接口模块的实现方法为:根据数据特性和功能生成对应的标准化接口,标准化接口通过SM2进行加密,生成加密接口集合,加密接口生成离线SDK包或在线接口供授信用户使用;
统一管理模块的实现方法为:非结构化数据处理模块、HTML模块、知识图谱模块和问答模块生成默认参数集,用户通过参数调整修改参数集,参数集反作用于非结构化处理模块从而实现模块的优化,然后又生成新的默认参数集,从而实现优化闭环。
9.根据权利要求3所述的一种应用于电力交易的数据知识处理系统,其特征在于:
所述前端交互模块的实现方法包括:自然语言处理模块和知识图谱模块通过内部统一接口向web、手机及大屏交互载体输出交互内容;同时,web、手机及大屏交互载体通过模块接入、学习培训、知识咨询和推荐查询功能接口输入交互内容,通过内部统一接口触发自然语言处理模块、知识图谱模块和HTML模块进行交互相应,从而完成交互闭环。
10.根据权利要求4所述的一种应用于电力交易的数据知识处理系统,其特征在于:
所述电力交易数据智能分析模块的实现方法包括:
通过对用户行为数据库进行行为数据提取,进行行为特征转换,再结合用户属性数据库属性数据,生成用户特征向量,通过用户特征向量与用户交易数据进行结合分析,生成用户画像、推荐数据、统计分析结果和预测数据,然后通过内部接口反馈到前端完成分析展示;
通过基于知识图谱推荐结合电力市场化交易历史数据,为用户提供仿真交易功能;
用户登录后,判断用户是否为新用户,若为新用户,则调用默认的用户仿真电力交易产品供用户体验,同时在用户体验过程中搜集用户行为数据存入数据库,为推荐模型做数据支撑;若用户为老用户,则调用推荐模块结合用户历史行为数据,推荐对应仿真电力交易产品供用户使用体验;
电力交易数据知识区块链数据鉴别模块的实现方法包括:采用区块链技术,实现数据知识的签名防伪,实现可追溯能力,保障数据传播安全;分为数据签名单元和数据验证单元;
数据签名单元首先从电力交易数据知识库内抽取一段数据知识区块进行hash算法转换,生成固定长度字符串,然后定义相应哈希值,根据所定义的hash值计算出后一区块的hash值,直到将电力交易数据知识库内数据知识区块全部进行hash,串联形成电力交易数据知识区块链;接着再将电力交易数据知识库内的数据知识与之前生成的区块链对应区块相结合,进行数字资产签名,从而形成带签名的电力交易数据知识库,再通过业务功能提供给市场主体用户下载到本地进行使用;
所述数据验证单元通过对市场主体本地的电力交易数据知识和互联网上已有的电力交易数据知识进行哈希算法处理,生成对应的哈希值,将生成的哈希值与电力交易数据知识区块链进行比对,若存在,则根据哈希值在带签名的电力交易数据知识库里查询到对应的数据知识,从而验证数据未被篡改;若生成的哈希值不存在,则证明该数据知识已经被篡改。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111647631.9A CN114282498B (zh) | 2021-12-29 | 2021-12-29 | 一种应用于电力交易的数据知识处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111647631.9A CN114282498B (zh) | 2021-12-29 | 2021-12-29 | 一种应用于电力交易的数据知识处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114282498A true CN114282498A (zh) | 2022-04-05 |
CN114282498B CN114282498B (zh) | 2022-12-27 |
Family
ID=80878552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111647631.9A Active CN114282498B (zh) | 2021-12-29 | 2021-12-29 | 一种应用于电力交易的数据知识处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114282498B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669718A (zh) * | 2023-12-05 | 2024-03-08 | 广州鸿蒙信息科技有限公司 | 一种基于人工智能的消防知识训练模型及训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190005012A1 (en) * | 2017-06-30 | 2019-01-03 | Accenture Global Solutions Limited | Document processing |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
CN113139068A (zh) * | 2021-05-10 | 2021-07-20 | 内蒙古工业大学 | 知识图谱构建方法及装置、电子设备和存储介质 |
CN113610626A (zh) * | 2021-07-26 | 2021-11-05 | 建信金融科技有限责任公司 | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 |
-
2021
- 2021-12-29 CN CN202111647631.9A patent/CN114282498B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190005012A1 (en) * | 2017-06-30 | 2019-01-03 | Accenture Global Solutions Limited | Document processing |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
CN113139068A (zh) * | 2021-05-10 | 2021-07-20 | 内蒙古工业大学 | 知识图谱构建方法及装置、电子设备和存储介质 |
CN113610626A (zh) * | 2021-07-26 | 2021-11-05 | 建信金融科技有限责任公司 | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
PEI LIU ET AL.: "Research on items Recommendation Algorithm Based on Knowledge Graph", 《2020 19TH INTERNATIONAL SYMPOSIUM ON DISTRIBUTED COMPUTING AND APPLICATIONS FOR BUSINESS ENGINEERING AND SCIENCE (DCABES)》 * |
梁浩宏 等: "联合学习用户端和项目端知识图谱的个性化推荐", 《计算机科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669718A (zh) * | 2023-12-05 | 2024-03-08 | 广州鸿蒙信息科技有限公司 | 一种基于人工智能的消防知识训练模型及训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114282498B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215008B (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN101710343A (zh) | 一种基于文本挖掘的本体自动构建系统及方法 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN109947934B (zh) | 针对短文本的数据挖掘方法及系统 | |
CN110555206A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN110569350B (zh) | 法条推荐方法、设备和存储介质 | |
CN110516057B (zh) | 一种信访问题答复方法及装置 | |
CN110851576A (zh) | 问答处理方法、装置、设备及可读介质 | |
CN111798118B (zh) | 企业经营风险监控方法及装置 | |
JP2020135135A (ja) | 対話コンテンツ作成支援方法およびシステム | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN113407677A (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
CN114282498B (zh) | 一种应用于电力交易的数据知识处理系统 | |
CN117520523B (zh) | 数据处理方法、装置、设备及存储介质 | |
KR102598430B1 (ko) | 금융 정보 예측을 위한 인공 지능 시스템과 이를 이용한 금융 정보 예측 방법 | |
US20230206007A1 (en) | Method for mining conversation content and method for generating conversation content evaluation model | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN111951079A (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 | |
CN116402022A (zh) | 文档生成方法、装置、电子设备及存储介质 | |
CN111753540A (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
CN111222309A (zh) | 一种问句生成的方法及装置 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
Młodzianowski | A Study of the Influence of Online Information on the Changes in the Warsaw Stock Exchange Indexes | |
CN111274382A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN114238574B (zh) | 基于人工智能的意图识别方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |