CN109471888A - 一种快速过滤xml文件中无效信息的方法 - Google Patents

一种快速过滤xml文件中无效信息的方法 Download PDF

Info

Publication number
CN109471888A
CN109471888A CN201811363049.8A CN201811363049A CN109471888A CN 109471888 A CN109471888 A CN 109471888A CN 201811363049 A CN201811363049 A CN 201811363049A CN 109471888 A CN109471888 A CN 109471888A
Authority
CN
China
Prior art keywords
xml document
index
pretreatment process
knowledge base
xml
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811363049.8A
Other languages
English (en)
Other versions
CN109471888B (zh
Inventor
梁哲恒
郑杰生
黄杰韬
尚艳伟
林细君
黄晓波
张金波
曾纪钧
蒋道环
沈桂泉
陈晓江
艾解清
沈伍强
吴勤勤
段福亮
朱功峰
黄载瑜
陈哲瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Guangdong Power Grid Co Ltd
Tongfang Technology of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Guangdong Power Grid Co Ltd
Tongfang Technology of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Guangdong Power Grid Co Ltd, Tongfang Technology of Yunnan Power Grid Co Ltd filed Critical Information Center of Guangdong Power Grid Co Ltd
Priority to CN201811363049.8A priority Critical patent/CN109471888B/zh
Publication of CN109471888A publication Critical patent/CN109471888A/zh
Application granted granted Critical
Publication of CN109471888B publication Critical patent/CN109471888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明公开了一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。本发明可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果,大大的提高了效率。

Description

一种快速过滤xml文件中无效信息的方法
技术领域
本发明属于中文分词方法技术领域,特别是涉及一种快速过滤xml文件中无效信息的方法。
背景技术
xml语言是具有结构性的标记语言,可以灵活的存储一对多的数据关系,具有自描述性、可扩展性、灵活性以及平台中立等优点,在软件系统中广泛用于数据存储和交换。xml具有统一的标准语法,任何系统和产品所支持的xml文档,都具有统一的格式和语法。这样就使得xml具有了跨平台跨系统的特性。
电力行业相关软件应用中,数据交换时xml是首选,其原因是xml使用元素和属性来描述数据。在数据传送过程中,xml始终保留了诸如父/子关系这样的数据结构。几个应用程序可以共享和解析同一个xml文件,不必使用传统的字符串解析或拆解过程。相反,普通文件不对每个数据段做描述(除了在头文件中),也不保留数据关系结构。使用xml做数据交换可以使应用程序更具有弹性,因为可以用位置(与普通文件一样)或用元素名(从数据库)来存取xml数据。
在实际应用场景中,xml文件被依照嵌套的元素标签、元素属性、元素内容等,结构化地进行分析和理解。然后按照分析所得的内容进行查询匹配,实现数据交换,然而,用户对于基于xml发布的内容事先并不清楚,很难快速、完整获取所需要的内容。尤其是对于规模较大的xml文件,其分析时间与迭代时间更长,并且因为分析错误损失的时间也更长。
因此,如何解决上述问题成为本领域人员研究的重点。
发明内容
本发明的目的就是提供一种快速过滤xml文件中无效信息的方法,能有效解决上述对大规模的xml文件分析时间长的不足之处。
本发明的目的通过下述技术方案来实现:
一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
作为优选,若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。
作为优选,xml文件建立索引的方法是:1)对整个xml文件中的标签进行计数和归一化;
2)标签序列以及相应的归一化频次作为该类xml文件的索引信息并存入预处理流程库;
3)预处理流程库同时也存有该类xml文件的预处理方法。
作为优选,待处理的xml文件与知识库中案例匹配的标准为:相同关键字出现次数的总和大于知识库中其它任意案例。
作为优选,整个数据传送过程中所有数据都是经过压缩后再进行传送。
与现有技术相比,本发明的有益效果在于:
本发明提出一种适合电力行业软件的多轮交互语义分析方法,将传统xml文件处理模式由发送端到接收端改为发送端到预处理再到接收端,可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果;并且因为传送过程中的文件数据被压缩,可有效降低对吞吐量和带宽的要求。
附图说明
图1是本发明的流程框图;
图2是本发明的网络结构图;
图3是本发明的数据交换的场景示意图。
具体实施方式
下面结合具体实施例和附图对本发明作进一步的说明。
实施例一
如图1至图3所示,一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
整个方法中设计的网络结构为终端-服务器-中央服务器,终端是指终端用户,通常包括PC机;服务器指的是与中央服务器产生数据交换的其他服务器。终端之间、服务器之间、终端和中央服务器之间、服务器与中央服务器之间发生数据交换的场景为发送端到预处理再到接收端,通过预处理环节可以预先判断出待处理的xml文件的大致结构,便可以参考知识库(过去的经验,以及历史积累的模式)进行处理。
本实施例中,可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果,大大的提高了效率。
实施例二
如图1至图3所示,一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
整个方法中设计的网络结构为终端-服务器-中央服务器,终端是指终端用户,通常包括PC机;服务器指的是与中央服务器产生数据交换的其他服务器。终端之间、服务器之间、终端和中央服务器之间、服务器与中央服务器之间发生数据交换的场景为发送端到预处理再到接收端,通过预处理环节可以预先判断出待处理的xml文件的大致结构,便可以参考知识库(过去的经验,以及历史积累的模式)进行处理。
待处理的xml文件部分如下:
针对待处理xml文件建立索引(文件指纹)
统计符合“<……>”关键字数(省略号指代的内容):240;
统计PURCHASE_ITEM_ID、PURCHASEDATE、UNIQUE_PROJECT_CODE、PROJECT_NAME、TAXRATE、TAX、UNIT_PRICE_TAX的出现次数,例如分别为:228、229、206、255、200、342、341;
将上述数列针对关键字数归一化形成指纹A:0.95、0.954166667、0.858333333、1.0625、0.833333333、1.425、1.420833333
查询知识库中与该索引相似度最高的案例;
寻找到相似度最高的案例B;
指纹匹配的标准是:A和B各个数值偏差总和比知识库中的其它案例都小;
根据匹配结果,选定文件初步处理模式;
将初步处理传递给接收端进行进一步处理。
实施例三
如图1至图3所示,一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
整个方法中设计的网络结构为终端-服务器-中央服务器,终端是指终端用户,通常包括PC机;服务器指的是与中央服务器产生数据交换的其他服务器。终端之间、服务器之间、终端和中央服务器之间、服务器与中央服务器之间发生数据交换的场景为发送端到预处理再到接收端,通过预处理环节可以预先判断出待处理的xml文件的大致结构,便可以参考知识库(过去的经验,以及历史积累的模式)进行处理。
若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。
xml文件建立索引的方法是:
1)对整个xml文件中的标签进行计数和归一化;
2)标签序列以及相应的归一化频次作为该类xml文件的索引信息并存入预处理流程库;
3)预处理流程库同时也存有该类xml文件的预处理方法;待处理的xml文件与知识库中案例匹配的标准为:相同关键字出现次数的总和大于知识库中其它任意案例。整个数据传送过程中所有数据都是经过压缩后再进行传送。
本实施例中,可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果;并且因为传送过程中的文件数据被压缩,可有效降低对吞吐量和带宽的要求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种快速过滤xml文件中无效信息的方法,其特征在于:包括步骤:
1)针对待处理xml文件建立索引;
2)查询知识库中与该索引相似度最高的案例;
3)知识库中与索引相似度最高的案例与该索引进行匹配;
4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;
5)xml文件按照选取的预处理流程进行初步处理;
6)将初步处理后的结果传递给接收端进行进一步处理。
2.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。
3.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:xml文件建立索引的方法是:1)对整个xml文件中的标签进行计数和归一化;
2)标签序列以及相应的归一化频次作为该类xml文件的索引信息并存入预处理流程库;
3)预处理流程库同时也存有该类xml文件的预处理方法。
4.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:待处理的xml文件与知识库中案例匹配的标准为:相同关键字出现次数的总和大于知识库中其它任意案例。
5.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:整个数据传送过程中所有数据都是经过压缩后再进行传送。
CN201811363049.8A 2018-11-15 2018-11-15 一种快速过滤xml文件中无效信息的方法 Active CN109471888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811363049.8A CN109471888B (zh) 2018-11-15 2018-11-15 一种快速过滤xml文件中无效信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811363049.8A CN109471888B (zh) 2018-11-15 2018-11-15 一种快速过滤xml文件中无效信息的方法

Publications (2)

Publication Number Publication Date
CN109471888A true CN109471888A (zh) 2019-03-15
CN109471888B CN109471888B (zh) 2021-11-09

Family

ID=65673482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811363049.8A Active CN109471888B (zh) 2018-11-15 2018-11-15 一种快速过滤xml文件中无效信息的方法

Country Status (1)

Country Link
CN (1) CN109471888B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269157A (ja) * 2001-03-14 2002-09-20 Mitsubishi Heavy Ind Ltd 最適化処理システム
CN101136038A (zh) * 2007-10-18 2008-03-05 中国兵器工业第五九研究所 一种塑性成形数值模拟方法
CN102289445A (zh) * 2011-06-01 2011-12-21 宇龙计算机通信科技(深圳)有限公司 Xml文件解析方法、xml文件解析装置和终端
CN102289569A (zh) * 2011-07-21 2011-12-21 中国电力科学研究院 一种电力系统突发事件应急处理方法
CN102314639A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种可视化的动态智能应急处置方案生成方法
CN102395754A (zh) * 2009-03-16 2012-03-28 沃丹德科技股份公司 一种用于监控钻井操作的方法和系统
CN103699489A (zh) * 2014-01-03 2014-04-02 中国人民解放军装甲兵工程学院 一种基于知识库的软件远程故障诊断与修复方法
CN104424334A (zh) * 2013-09-11 2015-03-18 方正信息产业控股有限公司 Xml文档节点的构建方法和装置
CN104715342A (zh) * 2015-03-31 2015-06-17 国网四川省电力公司电力科学研究院 基于案例推理法的电力设备故障处理辅助决策方法
CN104915420A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 知识库数据处理方法及系统
CN105144200A (zh) * 2013-04-27 2015-12-09 数据飞讯公司 用于处理非结构化数字的基于内容的检索引擎
CN105956126A (zh) * 2016-05-06 2016-09-21 南京国电南自电网自动化有限公司 基于关键字主次分类的xml查询方法
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
US20170103013A1 (en) * 2015-10-09 2017-04-13 The Board Of Trustees Of The University Of Illinois System and methods for automatically localizing faults
CN106682190A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 标签知识库的构建方法、装置、应用搜索方法和服务器
CN108804592A (zh) * 2018-05-28 2018-11-13 山东浪潮商用系统有限公司 知识库检索实现方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269157A (ja) * 2001-03-14 2002-09-20 Mitsubishi Heavy Ind Ltd 最適化処理システム
CN101136038A (zh) * 2007-10-18 2008-03-05 中国兵器工业第五九研究所 一种塑性成形数值模拟方法
CN102395754A (zh) * 2009-03-16 2012-03-28 沃丹德科技股份公司 一种用于监控钻井操作的方法和系统
CN102289445A (zh) * 2011-06-01 2011-12-21 宇龙计算机通信科技(深圳)有限公司 Xml文件解析方法、xml文件解析装置和终端
CN102314639A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种可视化的动态智能应急处置方案生成方法
CN102289569A (zh) * 2011-07-21 2011-12-21 中国电力科学研究院 一种电力系统突发事件应急处理方法
CN105144200A (zh) * 2013-04-27 2015-12-09 数据飞讯公司 用于处理非结构化数字的基于内容的检索引擎
CN104424334A (zh) * 2013-09-11 2015-03-18 方正信息产业控股有限公司 Xml文档节点的构建方法和装置
CN103699489A (zh) * 2014-01-03 2014-04-02 中国人民解放军装甲兵工程学院 一种基于知识库的软件远程故障诊断与修复方法
CN104715342A (zh) * 2015-03-31 2015-06-17 国网四川省电力公司电力科学研究院 基于案例推理法的电力设备故障处理辅助决策方法
CN104915420A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 知识库数据处理方法及系统
US20170103013A1 (en) * 2015-10-09 2017-04-13 The Board Of Trustees Of The University Of Illinois System and methods for automatically localizing faults
CN105956126A (zh) * 2016-05-06 2016-09-21 南京国电南自电网自动化有限公司 基于关键字主次分类的xml查询方法
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
CN106682190A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 标签知识库的构建方法、装置、应用搜索方法和服务器
CN108804592A (zh) * 2018-05-28 2018-11-13 山东浪潮商用系统有限公司 知识库检索实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
庄严: ""知识库实体对齐技术综述"", 《计算机研究与发展》 *

Also Published As

Publication number Publication date
CN109471888B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
US7668802B2 (en) Method and appliance for XML policy matching
US6148298A (en) System and method for aggregating distributed data
US20030212818A1 (en) Content based message dispatch
US9959326B2 (en) Annotating schema elements based on associating data instances with knowledge base entities
CN102123172B (zh) 一种基于神经网络聚类优化的Web服务发现的实现方法
CN107515878A (zh) 一种数据索引的管理方法及装置
US11775767B1 (en) Systems and methods for automated iterative population of responses using artificial intelligence
US20170177604A1 (en) Encoded data object notation persistence format
US20170060977A1 (en) Data preparation for data mining
KR20150018880A (ko) 정보 취합 분류의 디스플레이 방법 및 시스템
CN100558078C (zh) Xml流数据的复杂小枝模式查询匹配方法
CN105808262B (zh) 一种基于json格式数据的命名匹配方法
US11675793B2 (en) System for managing, analyzing, navigating or searching of data information across one or more sources within a computer or a computer network, without copying, moving or manipulating the source or the data information stored in the source
CN109471888A (zh) 一种快速过滤xml文件中无效信息的方法
CN110019714A (zh) 基于历史结果的多意图查询方法、装置、设备及存储介质
US20090307187A1 (en) Tree automata based methods for obtaining answers to queries of semi-structured data stored in a database environment
CN109684450B (zh) 一种基于语义化标识的工业网络数据分发服务系统及方法
CN113934430A (zh) 数据检索分析方法、装置、电子设备及存储介质
CN115936880A (zh) 一种股票信息实时交易数据处理系统
JPH07182368A (ja) データ加工システム
CN115470861A (zh) 数据处理方法、装置和电子设备
Al-Sultany et al. Events tagging in twitter using twitter latent Dirichlet allocation
Prasad et al. Efficient indexing and querying of XML data using modified Prüfer sequences
Hummel et al. Multiple keyword-based queries over XML streams
CN111428471A (zh) 基于人工智能的意图识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant