CN111796830A - 一种协议解析处理方法、装置、设备及介质 - Google Patents

一种协议解析处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN111796830A
CN111796830A CN202010514202.3A CN202010514202A CN111796830A CN 111796830 A CN111796830 A CN 111796830A CN 202010514202 A CN202010514202 A CN 202010514202A CN 111796830 A CN111796830 A CN 111796830A
Authority
CN
China
Prior art keywords
abstract
analyzed
original
analysis
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010514202.3A
Other languages
English (en)
Other versions
CN111796830B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shuzhilian Technology Co Ltd filed Critical Chengdu Shuzhilian Technology Co Ltd
Priority to CN202010514202.3A priority Critical patent/CN111796830B/zh
Publication of CN111796830A publication Critical patent/CN111796830A/zh
Application granted granted Critical
Publication of CN111796830B publication Critical patent/CN111796830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种协议解析处理方法、装置、设备及介质,该方法包括计算待解析摘要与原始解析摘要的相似度;若待解析摘要与原始解析摘要的相似度为1,则基于原始解析摘要获取对应的解析程序作为有效解析程序;若待解析摘要与原始解析摘要的相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序;若待解析摘要与原始解析摘要的相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序;基于有效解析程序,完成对待解析协议文档的解析,以实现根据待解析规则文档自动匹配对应的解析程序,完成对待解析协议文档的解析,提高开发人员的工作效率,保证系统安全稳定的运行。

Description

一种协议解析处理方法、装置、设备及介质
技术领域
本发明涉及计算机通信技术领域,具体涉及一种协议解析处理方法、装置、设备及介质。
背景技术
随着互联网通讯领域的蓬勃发展,大多数计算机设备使用二进制报文将数据上报到云端,对于使用自定义协议格式的开发者,需要将二进制报文转换成可理解的明文数据后才能实现对数据的存储、推送等功能。传统的协议解析方法是根据协议规则文档,逐步按照规则文档的流程,编写对应的解析程序,将接收到的二进制报文转换成可理解的明文数据。但是不同的协议规则文档具有不同的表达形式,在实际操作中,不论是协议规则发生变更还是全新的协议规则,都需要重新编写对应的解析程序以完成对二进制报文的解析,费时费力,还可能因为大量修改解析程序造成系统故障,不利于系统安全稳定的运行。
发明内容
本发明所要解决的技术问题是当协议规则发生变更或者为一全新的协议规则时,需重新编写对应的解析程序,费时费力,不利于系统安全稳定的运行。因此,提供一种协议解析处理、识别方法、装置、设备及介质,以自动匹配对应的协议规则,提高开发人员的工作效率,保证系统安全稳定的运行。
本发明通过下述技术方案实现:
一种协议解析处理方法,包括:
获取待解析协议文档和对应的待解析规则文档,所述待解析规则文档包括待解析规则文本;
对所述待解析规则文本进行摘要提取,获取待解析摘要;
获取解析数据库中的原始解析摘要,并计算所述待解析摘要与所述原始解析摘要的相似度;
若所述待解析摘要与所述原始解析摘要的相似度为1,则基于所述原始解析摘要获取对应的解析程序作为有效解析程序;
若所述待解析摘要与所述原始解析摘要的相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序;
若所述待解析摘要与所述原始解析摘要的相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序;
基于所述有效解析程序,完成对所述待解析协议文档的解析。
进一步地,所述对所述待解析规则文本进行摘要提取,获取待解析摘要,包括:
通过TextRank算法对所述待解析规则文本进行摘要提取,获取待解析摘要。
进一步地,所述获取解析数据库中的原始解析摘要,包括:
获取所述解析数据库中的原始解析规则文档,并从所述原始解析规则文档中提取原始解析规则文本;
通过TextRank算法对每一所述原始解析规则文本进行摘要提取,获取原始解析摘要。
进一步地,所述计算所述待解析摘要与所述原始解析摘要的相似度,包括:
基于所述待解析摘要获取待解析关键词,并通过word2vec模型对所述待解析关键词进行处理,获取待解析关键词向量;
基于所述原始解析摘要获取原始关键词,并通过word2vec模型对所述原始关键词进行处理,获取原始关键词向量;
通过余弦相似度计算公式计算所述原始关键词向量和所述待解析关键词向量的相似度,并作为所述待解析摘要与所述原始解析摘要的相似度。
进一步地,所述基于所述待解析摘要获取待解析关键词,包括:
通过中文分词工具对所述待解析摘要进行分词,并通过TF-IDF算法对分词后的待解析摘要进行关键词提取,获取待解析关键词;
所述基于所述原始解析摘要获取原始关键词,包括:
通过中文分词工具对所述原始解析摘要进行分词,并通过TF-IDF算法对分词后的原始解析摘要进行关键词提取,获取原始解析关键词。
一种协议解析处理装置,包括:
数据获取模块,用于获取待解析协议文档和对应的待解析规则文档,所述待解析规则文档包括待解析规则文本;
待解析摘要提取模块,用于对所述待解析规则文本进行摘要提取,获取待解析摘要;
相似度计算模块,用于获取解析数据库中的原始解析摘要,并计算所述待解析摘要与所述原始解析摘要的相似度;
第一有效解析程序获取模块,用于若所述待解析摘要与所述原始解析摘要的相似度为1,则基于所述原始解析摘要获取对应的解析程序作为有效解析程序;
第二有效解析程序获取模块,用于若所述待解析摘要与所述原始解析摘要的相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序;
第三有效解析程序获取模块,用于若所述待解析摘要与所述原始解析摘要的相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序;
解析程序获取模块,用于基于所述有效解析程序,完成对所述待解析协议文档的解析。
进一步地,所述相似度计算模块包括:
原始解析规则文本获取单元,用于获取所述解析数据库中的原始解析规则文档,并从所述原始解析规则文档中提取原始解析规则文本;
原始解析摘要提取单元,用于通过TextRank算法对每一所述原始解析规则文本进行摘要提取,获取原始解析摘要。
进一步地,所述相似度计算模块还包括:
待解析关键词向量获取单元,用于基于所述待解析摘要获取待解析关键词,并通过word2vec模型对所述待解析关键词进行处理,获取待解析关键词向量;
原始关键词向量获取单元,用于基于所述原始解析摘要获取原始关键词,并通过word2vec模型对所述原始关键词进行处理,获取原始关键词向量;
相似度计算单元,用于通过余弦相似度计算公式计算所述原始关键词向量和所述待解析关键词向量的相似度,并作为所述待解析摘要与所述原始解析摘要的相似度。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述协议解析处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述协议解析处理方法。
本发明提供的协议解析处理、识别方法、装置、设备及介质,通过计算待解析摘要与原始解析摘要的相似度,当相似度为1,则基于原始解析摘要获取对应的解析程序作为有效解析程序,当相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序,当相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序,最后基于有效解析程序,以实现根据待解析规则文档自动匹配对应的解析程序,完成对待解析协议文档的解析,提高开发人员的工作效率,保证系统安全稳定的运行。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明协议解析处理方法的流程图。
图2为图1中步骤S30的一具体流程图。
图3为图1中步骤S30的另一流程图。
图4为本发明协议解析处理装置的结构示意图。
图5为本发明计算机设备的一示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
本发明提供一种协议解析处理方法,该方法可应用于不同计算机设备中,该计算机设备包括但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑。
如图1所示,本发明提供一种协议解析处理方法,包括如下步骤:
S10:获取待解析协议文档和对应的待解析规则文档,待解析规则文档包括待解析规则文本。
其中,待解析协议文档指存储有需要解析的二进制报文的文档。待解析规则文本指以文本形式存储的对待解析协议文档中的二进制报文进行解析的规则内容。待解析规则文档指存储有待解析规则文本的文档。
S20:对待解析规则文本进行摘要提取,获取待解析摘要。
其中,待解析摘要指对待解析规则文本进行摘要提取后得到的文本内容。
具体地,在获取待解析规则文本后,通过摘要提取工具对待解析规则文本进行摘要提取,获取待解析摘要。
进一步地,本实施例中的摘要提取工具采用TextRank算法,通过TextRank算法对待解析规则文本进行摘要提取,获取待解析摘要。
S30:获取解析数据库中的原始解析摘要,并计算待解析摘要与原始解析摘要的相似度。
其中,解析数据库指用来存储预先编写好的解析规则文本和对应的解析程序的数据库,本实施例中的解析规则文本指以文本形式存储的解析规则的内容。原始解析摘要指从预先编写好的解析规则文本中提取的摘要。
具体地,计算机设备从数据库中获取预先编写好的解析规则文本,并通过摘要提取工具对预先编写好的解析规则文本进行摘要提取,以获取原始解析摘要。在获取原始解析摘要后,计算机设备对待解析摘要和原始解析摘要进行相似度计算,获取二者的相似度。
S40:若待解析摘要与原始解析摘要的相似度为1,则基于原始解析摘要获取对应的解析程序作为有效解析程序。
S50:若待解析摘要与原始解析摘要的相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序。
S60:若待解析摘要与原始解析摘要的相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序。
其中,有效解析程序指解析数据库中存储的可以用来对待解析协议文档进行解析的程序。
具体地,在获取待解析摘要与原始解析摘要的相似度后,当待解析摘要与原始解析摘要的相似度为1,则表示原始解析摘要和待解析摘要相同,原始解析规则摘要对应的解析规则文本与待解析规则文本相同,原始解析规则文本对应的解析程序可作为有效解析程序;当待解析摘要与原始解析摘要的相似度大于预设值且小于1,则表示待解析摘要与原始解析摘要不完全相同,仅有大部分原始解析摘要对应的解析规则文本与待解析规则文本相同,另外小部分原始解析摘要对应的解析规则文本与待解析规则文本不相同,需要开发人员对原始解析摘要对应的解析程序进行修改,形成有效解析程序并存储在解析数据库中,以便后续使用;当待解析摘要与原始解析摘要的相似度大于等于0且小于预设值,则表示待解析摘要与原始解析摘相差较大或者完全不同,需要开发人员根据待解析规则文档重新编编写解析程序,此时,计算机设备生成创建有效解析程序的提示信息,以提示开发人员根据待解析规则文档重新编写对应的程序,以形成有效解析程序,并存储在解析数据库中。本实施例中开发人员根据待解析规则文档重新编写对应的解析程序的内容包括但不限于编写节点字段名称、节点字段类型、节点字段长度和字段单位信息对应的程序。
进一步地,开发人员用于确定数据项之间的组织结构关系可由自己选择该组织关系包括但不限于顺序结构、选择结构和循环结构。对于每一份待解析协议文档,可按照对应的待解析规则文档中的待解析规则文本的描述,构建一个自上而下的有效解析程序。
S70:基于有效解析程序,完成对待解析协议文档的解析。
具体地,在获取有效解析程序后,调用该有效解析程序完成对待解析协议文档的解析。
步骤S10-步骤S70,通过获取待解析摘要和原始解析摘要,以便后续计算待解析摘要与原始解析摘要的相似度,计算待解析摘要与原始解析摘要的相似度,相比较计算待解析规则文本和预先编写好的解析规则文本,有效减少了数据计算量,提高计算效率。当相似度为1,则基于原始解析摘要获取对应的解析程序作为有效解析程序,当相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序,当相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序,最后基于有效解析程序,以实现根据待解析规则文档自动匹配对应的解析程序,完成对待解析协议文档的解析,提高开发人员的工作效率,保证系统安全稳定的运行。
如图2所示,进一步地,步骤S30中,获取解析数据库中的原始解析摘要,具体包括如下步骤:
S31:获取解析数据库中的原始解析规则文档,并从原始解析规则文档中提取原始解析规则文本。
其中,原始解析规则文档指存储预先编写好的解析规则文本的文档。原始解析规则文本指以文本形式存储的预先编写好的解析规则。
S32:通过TextRank算法对每一原始解析规则文本进行摘要提取,获取原始解析摘要。
具体地,通过TextRank算法对每一原始解析规则文本进行摘要提取,获取原始解析摘要,无需人工参与,有效提高原始解析摘要的提取效率。
如图3所示,进一步地,步骤S30中,计算待解析摘要与原始解析摘要的相似度,具体包括如下步骤:
S33:基于待解析摘要获取待解析关键词,并通过word2vec模型对待解析关键词进行处理,获取待解析关键词向量。
具体地,在获取待解析摘要后,从待解析摘要获取待解析关键词,并通过word2vec模型对待解析关键词进行处理,获取待解析关键词向量。其中,待解析关键词指从待解析摘要中提取的关键词。待解析关键词向量指待解析关键词对应的向量。
进一步地,通过中文分词工具对待解析摘要进行分词,并通过TF-IDF算法对分词后的待解析摘要进行关键词提取,获取待解析关键词。
S34:基于原始解析摘要获取原始关键词,并通过word2vec模型对原始关键词进行处理,获取原始关键词向量。
具体地,在获取原始解析摘要后,从原始解析摘要获取原始关键词,并通过word2vec模型对原始关键词进行处理,获取原始关键词向量。其中,原始关键词指从原始解析摘要中提取的关键词。原始关键词向量指原始关键词对应的向量。
进一步地,通过中文分词工具对原始解析摘要进行分词,并通过TF-IDF算法对分词后的原始解析摘要进行关键词提取,获取原始解析关键词。
本实施例中的中文分词工具包括但不限于python中一个写的类库SnowNLP、中文分词系统NLPIR和THULAC(THU Lexical Analyzer for Chinese,中文词法分析器)。
S35:通过余弦相似度计算公式计算原始关键词向量和待解析关键词向量的相似度,并作为待解析摘要与原始解析摘要的相似度。
具体地,在获取原始关键词向量和待解析关键词向量后,利用余弦相似度计算公式计算二者的相似度,并将所有原始关键词向量和待解析关键词向量的相似度的平均值作为待解析摘要与原始解析摘要的相似度,以表示待解析摘要与原始解析摘要的相似性。
本发明提供的协议解析处理方法,通过获取待解析摘要和原始解析摘要,并根据待解析摘要获取待解析关键词,从而获取待解析关键词向量,并根据原始解析摘要获取原始关键词,从而获取原始关键词向量,以便后续计算待解析摘要与原始解析摘要的相似度,计算待解析摘要与原始解析摘要的相似度,相比较计算待解析规则文本和预先编写好的解析规则文本,有效减少了数据计算量,提高计算效率。当相似度为1,则基于原始解析摘要获取对应的解析程序作为有效解析程序,当相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序,当相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序,最后基于有效解析程序,以实现根据待解析规则文档自动匹配对应的解析程序,完成对待解析协议文档的解析,提高开发人员的工作效率,保证系统安全稳定的运行。
实施例2
如图4所示,本实施例与实施例1的区别在于,一种协议解析处理装置,包括:
数据获取模块10,用于获取待解析协议文档和对应的待解析规则文档,所述待解析规则文档包括待解析规则文本;
待解析摘要提取模块20,用于对所述待解析规则文本进行摘要提取,获取待解析摘要;
相似度计算模块30,用于获取解析数据库中的原始解析摘要,并计算所述待解析摘要与所述原始解析摘要的相似度;
第一有效解析程序获取模块40,用于若所述待解析摘要与所述原始解析摘要的相似度为1,则基于所述原始解析摘要获取对应的解析程序作为有效解析程序;
第二有效解析程序获取模块50,用于若所述待解析摘要与所述原始解析摘要的相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序;
第三有效解析程序获取模块60,用于若所述待解析摘要与所述原始解析摘要的相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序;
解析程序获取模块70,用于基于所述有效解析程序,完成对所述待解析协议文档的解析。
进一步地,待解析摘要提取模块20,用于通过TextRank算法对所述待解析规则文本进行摘要提取,获取待解析摘要。
进一步地,相似度计算模块30包括原始解析规则文本获取单元和原始解析摘要提取单元。
原始解析规则文本获取单元,用于获取所述解析数据库中的原始解析规则文档,并从所述原始解析规则文档中提取原始解析规则文本;
原始解析摘要提取单元,用于通过TextRank算法对每一所述原始解析规则文本进行摘要提取,获取原始解析摘要。
进一步地,相似度计算模块30还包括待解析关键词向量获取单元、原始关键词向量获取单元和相似度计算单元。
待解析关键词向量获取单元,用于基于所述待解析摘要获取待解析关键词,并通过word2vec模型对所述待解析关键词进行处理,获取待解析关键词向量;
原始关键词向量获取单元,用于基于所述原始解析摘要获取原始关键词,并通过word2vec模型对所述原始关键词进行处理,获取原始关键词向量;
相似度计算单元,用于通过余弦相似度计算公式计算所述原始关键词向量和所述待解析关键词向量的相似度,并作为所述待解析摘要与所述原始解析摘要的相似度。
进一步地,待解析关键词向量获取单元,还用于通过中文分词工具对所述待解析摘要进行分词,并通过TF-IDF算法对分词后的待解析摘要进行关键词提取,获取待解析关键词;
进一步地,原始关键词向量获取单元,还用于通过中文分词工具对所述原始解析摘要进行分词,并通过TF-IDF算法对分词后的原始解析摘要进行关键词提取,获取原始解析关键词。
关于协议解析处理的具体限定可以参见上文中对于协议解析处理方法的限定,在此不再赘述。上述协议解析处理中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
实施例3
本实施例提供一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储协议解析处理方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种协议解析处理方法。
本实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中协议解析处理方法的步骤,例如图1所示的步骤10至步骤S70,或者,图2-图3所示的步骤,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现上述实施例中协议解析处理装置的各模块/单元的功能,例如图4所示模块10至模块70的功能。为避免重复,这里不再赘述。
实施例4
本实施例,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中协议解析处理方法的步骤,例如图1所示的步骤S10-S70,或者,图2-图3所示的步骤,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现协议解析处理装置这一实施例中的各模块/单元的功能,例如图4所示的模块10至模块70的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种协议解析处理方法,其特征在于,包括:
获取待解析协议文档和对应的待解析规则文档,所述待解析规则文档包括待解析规则文本;
对所述待解析规则文本进行摘要提取,获取待解析摘要;
获取解析数据库中的原始解析摘要,并计算所述待解析摘要与所述原始解析摘要的相似度;
若所述待解析摘要与所述原始解析摘要的相似度为1,则基于所述原始解析摘要获取对应的解析程序作为有效解析程序;
若所述待解析摘要与所述原始解析摘要的相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序;
若所述待解析摘要与所述原始解析摘要的相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序;
基于所述有效解析程序,完成对所述待解析协议文档的解析。
2.根据权利要求1所述的一种协议解析处理方法,其特征在于,所述对所述待解析规则文本进行摘要提取,获取待解析摘要,包括:
通过TextRank算法对所述待解析规则文本进行摘要提取,获取待解析摘要。
3.根据权利要求1所述的一种协议解析处理方法,其特征在于,所述获取解析数据库中的原始解析摘要,包括:
获取所述解析数据库中的原始解析规则文档,并从所述原始解析规则文档中提取原始解析规则文本;
通过TextRank算法对每一所述原始解析规则文本进行摘要提取,获取原始解析摘要。
4.根据权利要求1所述的一种协议解析处理方法,其特征在于,所述计算所述待解析摘要与所述原始解析摘要的相似度,包括:
基于所述待解析摘要获取待解析关键词,并通过word2vec模型对所述待解析关键词进行处理,获取待解析关键词向量;
基于所述原始解析摘要获取原始关键词,并通过word2vec模型对所述原始关键词进行处理,获取原始关键词向量;
通过余弦相似度计算公式计算所述原始关键词向量和所述待解析关键词向量的相似度,并作为所述待解析摘要与所述原始解析摘要的相似度。
5.根据权利要求4所述的一种协议解析处理方法,其特征在于,所述基于所述待解析摘要获取待解析关键词,包括:
通过中文分词工具对所述待解析摘要进行分词,并通过TF-IDF算法对分词后的待解析摘要进行关键词提取,获取待解析关键词;
所述基于所述原始解析摘要获取原始关键词,包括:
通过中文分词工具对所述原始解析摘要进行分词,并通过TF-IDF算法对分词后的原始解析摘要进行关键词提取,获取原始解析关键词。
6.一种协议解析处理装置,其特征在于,包括:
数据获取模块,用于获取待解析协议文档和对应的待解析规则文档,所述待解析规则文档包括待解析规则文本;
待解析摘要提取模块,用于对所述待解析规则文本进行摘要提取,获取待解析摘要;
相似度计算模块,用于获取解析数据库中的原始解析摘要,并计算所述待解析摘要与所述原始解析摘要的相似度;
第一有效解析程序获取模块,用于若所述待解析摘要与所述原始解析摘要的相似度为1,则基于所述原始解析摘要获取对应的解析程序作为有效解析程序;
第二有效解析程序获取模块,用于若所述待解析摘要与所述原始解析摘要的相似度大于预设值且小于1,则基于相似度大于预设值的原始解析摘要获取有效解析程序;
第三有效解析程序获取模块,用于若所述待解析摘要与所述原始解析摘要的相似度大于等于0且小于预设值,则生成创建有效解析程序的提示信息,以获取有效解析程序;
解析程序获取模块,用于基于所述有效解析程序,完成对所述待解析协议文档的解析。
7.根据权利要求6所述的一种协议解析处理方法,其特征在于,所述相似度计算模块包括:
原始解析规则文本获取单元,用于获取所述解析数据库中的原始解析规则文档,并从所述原始解析规则文档中提取原始解析规则文本;
原始解析摘要提取单元,用于通过TextRank算法对每一所述原始解析规则文本进行摘要提取,获取原始解析摘要。
8.根据权利要求6所述的一种协议解析处理方法,其特征在于,所述相似度计算模块还包括:
待解析关键词向量获取单元,用于基于所述待解析摘要获取待解析关键词,并通过word2vec模型对所述待解析关键词进行处理,获取待解析关键词向量;
原始关键词向量获取单元,用于基于所述原始解析摘要获取原始关键词,并通过word2vec模型对所述原始关键词进行处理,获取原始关键词向量;
相似度计算单元,用于通过余弦相似度计算公式计算所述原始关键词向量和所述待解析关键词向量的相似度,并作为所述待解析摘要与所述原始解析摘要的相似度。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述协议解析处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述协议解析处理方法。
CN202010514202.3A 2020-06-08 2020-06-08 一种协议解析处理方法、装置、设备及介质 Active CN111796830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010514202.3A CN111796830B (zh) 2020-06-08 2020-06-08 一种协议解析处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010514202.3A CN111796830B (zh) 2020-06-08 2020-06-08 一种协议解析处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111796830A true CN111796830A (zh) 2020-10-20
CN111796830B CN111796830B (zh) 2023-09-19

Family

ID=72802984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010514202.3A Active CN111796830B (zh) 2020-06-08 2020-06-08 一种协议解析处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111796830B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113923268A (zh) * 2021-09-08 2022-01-11 山东信通电子股份有限公司 一种针对多版本通信规约的解析方法、设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099561A (ja) * 2000-09-21 2002-04-05 Toshiba Corp データ変換方法およびデータ変換システム並びに記憶媒体
CN101136981A (zh) * 2006-08-24 2008-03-05 夏普株式会社 图像处理方法和装置、文档读取装置和图像形成装置
US20090100045A1 (en) * 2007-09-30 2009-04-16 Nec (China) Co., Ltd. Device and method for adaptive service selection, query system and method
US20120197631A1 (en) * 2011-02-01 2012-08-02 Accenture Global Services Limited System for Identifying Textual Relationships
CN103605644A (zh) * 2013-12-02 2014-02-26 哈尔滨工业大学 一种基于相似度匹配的枢轴语言翻译方法和装置
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN108446260A (zh) * 2018-02-06 2018-08-24 天津艾登科技有限公司 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统
CN109144513A (zh) * 2018-08-22 2019-01-04 上海嘉道信息技术有限公司 一种自动抽取列表页的方法
CN109543188A (zh) * 2018-11-23 2019-03-29 珠海格力电器股份有限公司 一种对象关联方法、装置、服务器及可读存储介质
CN109933717A (zh) * 2019-01-17 2019-06-25 华南理工大学 一种基于混合推荐算法的学术会议推荐系统
CN110008266A (zh) * 2019-03-13 2019-07-12 平安信托有限责任公司 数据交换文件解析方法和装置
CN110516036A (zh) * 2019-07-18 2019-11-29 平安科技(深圳)有限公司 法律文书信息提取方法、装置、计算机设备及存储介质
CN110837356A (zh) * 2018-08-15 2020-02-25 北京京东尚科信息技术有限公司 一种数据处理方法和装置
CN111104488A (zh) * 2019-12-30 2020-05-05 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099561A (ja) * 2000-09-21 2002-04-05 Toshiba Corp データ変換方法およびデータ変換システム並びに記憶媒体
CN101136981A (zh) * 2006-08-24 2008-03-05 夏普株式会社 图像处理方法和装置、文档读取装置和图像形成装置
US20090100045A1 (en) * 2007-09-30 2009-04-16 Nec (China) Co., Ltd. Device and method for adaptive service selection, query system and method
US20120197631A1 (en) * 2011-02-01 2012-08-02 Accenture Global Services Limited System for Identifying Textual Relationships
CN103605644A (zh) * 2013-12-02 2014-02-26 哈尔滨工业大学 一种基于相似度匹配的枢轴语言翻译方法和装置
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN108446260A (zh) * 2018-02-06 2018-08-24 天津艾登科技有限公司 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统
CN110837356A (zh) * 2018-08-15 2020-02-25 北京京东尚科信息技术有限公司 一种数据处理方法和装置
CN109144513A (zh) * 2018-08-22 2019-01-04 上海嘉道信息技术有限公司 一种自动抽取列表页的方法
CN109543188A (zh) * 2018-11-23 2019-03-29 珠海格力电器股份有限公司 一种对象关联方法、装置、服务器及可读存储介质
CN109933717A (zh) * 2019-01-17 2019-06-25 华南理工大学 一种基于混合推荐算法的学术会议推荐系统
CN110008266A (zh) * 2019-03-13 2019-07-12 平安信托有限责任公司 数据交换文件解析方法和装置
CN110516036A (zh) * 2019-07-18 2019-11-29 平安科技(深圳)有限公司 法律文书信息提取方法、装置、计算机设备及存储介质
CN111104488A (zh) * 2019-12-30 2020-05-05 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
FEI YOU等: "Study on Web Service Matching and Composition Based on Ontology", 《2009 WRI WORLD CONGRESS ON COMPUTER SCIENCE AND INFORMATION ENGINEERING》, pages 542 - 546 *
ZEBUL博: "解析TF-IDF算法原理:关键词提取,自动摘要,文本相似度计算", pages 1 - 6, Retrieved from the Internet <URL:https://blog.csdn.net/u012501054/article/details/85328899> *
张哲: "基于语义相似度分析的关联数据模型研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 11, pages 138 - 627 *
王峰: "基于垂直主题搜索的交通术语相似性比对研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 05, pages 138 - 3120 *
邓伟等: "基于编译技术的协议自动化解析程序的设计", 《电子设计工程》, no. 13, pages 33 - 36 *
雷佳伟: "基于爬虫技术的Web应用程序漏洞检测方法", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 03, pages 139 - 263 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113923268A (zh) * 2021-09-08 2022-01-11 山东信通电子股份有限公司 一种针对多版本通信规约的解析方法、设备及存储介质
CN113923268B (zh) * 2021-09-08 2023-11-14 山东信通电子股份有限公司 一种针对多版本通信规约的解析方法、设备及存储介质

Also Published As

Publication number Publication date
CN111796830B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN109840083B (zh) 网页组件模板构建方法、装置、计算机设备和存储介质
CN109710220B (zh) 关系型数据库查询方法、装置、设备及存储介质
CN109597618B (zh) 程序开发方法、装置、计算机设备及存储介质
CN110955608B (zh) 测试数据处理方法、装置、计算机设备和存储介质
CN112016274B (zh) 医学文本结构化方法、装置、计算机设备及存储介质
CN112540862A (zh) 一种接口文档数据生成方法、装置、设备及存储介质
CN112417338B (zh) 一种页面适配方法、系统及设备
CN114138244A (zh) 模型类文件自动生成方法、装置、存储介质及电子设备
CN111208998A (zh) 数据可视化大屏自动布局的方法、装置及存储介质
CN116821299A (zh) 智能问答方法、智能问答装置、设备及存储介质
CN109213775B (zh) 搜索方法、装置、计算机设备和存储介质
CN117235546B (zh) 多版本文件比对方法、装置、系统及存储介质
CN111796830B (zh) 一种协议解析处理方法、装置、设备及介质
CN109359176A (zh) 数据提取方法、装置、计算机设备和存储介质
CN112540925A (zh) 新特性兼容性检测系统及方法、电子设备及可读存储介质
CN109344385B (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN110727458A (zh) 一种通过后台管理切换页面模板设置的方法和装置
CN115374849A (zh) 企业相关专利检索方法、装置、设备及介质
CN114743204A (zh) 针对表格的自动问答方法、系统、设备及存储介质
CN111768767B (zh) 用户标签提取方法和装置、服务器、计算机可读存储介质
CN109981818B (zh) 域名语义异常分析方法、装置、计算机设备及其存储介质
CN114238715A (zh) 基于社会救助的问答系统、构建方法、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 610000 No. 270, floor 2, No. 8, Jinxiu street, Wuhou District, Chengdu, Sichuan

Applicant after: Chengdu shuzhilian Technology Co.,Ltd.

Address before: 610000 No.2, 4th floor, building 1, Jule Road intersection, West 1st section of 1st ring road, Wuhou District, Chengdu City, Sichuan Province

Applicant before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant