CN107562703A - 字典树重构方法及系统 - Google Patents
字典树重构方法及系统 Download PDFInfo
- Publication number
- CN107562703A CN107562703A CN201610515519.2A CN201610515519A CN107562703A CN 107562703 A CN107562703 A CN 107562703A CN 201610515519 A CN201610515519 A CN 201610515519A CN 107562703 A CN107562703 A CN 107562703A
- Authority
- CN
- China
- Prior art keywords
- dictionary tree
- log information
- history log
- tree
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种字典树重构方法及系统,方法包括:获得当前所利用的第一字典树所对应的历史日志信息;根据历史日志信息,确定目标评判参数的目标参数值,其中,目标评判参数为与第一字典树所不适用的业务场景相匹配的参数;判断目标参数值是否高于预设阈值;当判断结果为是时,利用构建第一字典树的历史数据,构建第二字典树,并将第一字典树替换为第二字典树;其中,第二字典树所适用的业务场景与目标评判参数相匹配。应用本发明实施例,能够在用户使用需求存在变化的情况下,保证所利用的字典树符合用户的使用需求。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种字典树重构方法及系统。
背景技术
目前,自然语言处理技术领域常需要用到字典树,例如:需要对给定文字的情感倾向进行判断时,需要将该给定文字输入到字典树中进行匹配,以获得该给定文字所表达的情感是正向、负向还是中性。其中,常利用的两种字典树为双数组字典树和前缀字典树。
其中,双数组字典树查词效率高,但是该种字典树的构建比较复杂,所耗费的时间比较多,维护成本也较高,因此,双数组字典树适用于查词频率较高的业务场景,但不适用于词法规则更新频率较高的业务场景。而前缀字典树构造较为简单,维护成本较低,但是查词效率低,因此,前缀字典树适用于词法规则更新频率较高的场景,但不适用于查词频率较高的业务场景。
在实际应用中,用户对字典树的使用需求会发生变化,例如:在第一阶段,查词操作较多,而在第二阶段词法规则更新操作较多,那么,在用户使用需求存在变化的情况下,如何保证所利用的字典树符合用户的使用需求,是一个亟待解决的问题。
发明内容
鉴于上述问题,提出了本发明的字典树重构方法及系统,以便提供一种克服上述问题或者至少部分地解决上述问题。具体方案如下:
第一方面,本发明实施例提供了一种字典树重构方法,所述方法可以包括:
获得当前所利用的第一字典树所对应的历史日志信息;
根据所述历史日志信息,确定目标评判参数的目标参数值,其中,所述目标评判参数为与所述第一字典树所不适用的业务场景相匹配的参数;
判断所述目标参数值是否高于预设阈值;
当判断结果为是时,利用构建所述第一字典树的历史数据,构建第二字典树,并将所述第一字典树替换为所述第二字典树;其中,所述第二字典树所适用的业务场景与所述目标评判参数相匹配。
可选地,本发明实施例提供的字典树重构方法,还可以包括:
利用所述第二字典树进行查词操作。
可选地,所述获得当前所利用的第一字典树所对应的历史日志信息,可以包括:
获得当前所利用的双数组字典树所对应的历史日志信息;
相应地,所述根据所述历史日志信息,确定目标评判参数的目标参数值,可以包括:
根据所述历史日志信息,确定词法规则更新频率的频率值;
相应地,所述利用构建所述第一字典树的历史数据,构建第二字典树,可以包括:
利用构建所述双数组字典树的历史数据,构建前缀字典树。
可选地,所述获得当前所利用的第一字典树所对应的历史日志信息,可以包括:
获得当前所利用的前缀字典树所对应的历史日志信息;
相应地,所述根据所述历史日志信息,确定目标评判参数的目标参数值,包括:
根据所述历史日志信息,确定查词频率的频率值;
相应地,所述利用构建所述第一字典树的历史数据,构建第二字典树,包括:
利用构建所述前缀字典树的历史数据,构建双数组字典树。
可选地,本发明实施例提供的字典树重构方法,还可以包括:
在检测到距当前所利用的第一字典树的构建时间点达到预定时长时,触发执行所述获得当前所利用的第一字典树所对应的历史日志信息的步骤。
第二方面,本发明实施例提供了一种字典树重构系统,所述系统可以包括:历史日志信息获取单元、目标参数值确定单元、目标参数值判断单元和第二字典树构建单元;
所述历史日志信息获取单元,用于获得当前所利用的第一字典树所对应的历史日志信息;
所述目标参数值确定单元,用于根据所述历史日志信息,确定目标评判参数的目标参数值,其中,所述目标评判参数为与所述第一字典树所不适用的业务场景相匹配的参数;
所述目标参数值判断单元,用于判断所述目标参数值是否高于预设阈值;
所述第二字典树构建单元,用于当判断结果为是时,利用构建所述第一字典树的历史数据,构建第二字典树,并将所述第一字典树替换为所述第二字典树;其中,所述第二字典树所适用的业务场景与所述目标评判参数相匹配。
可选地,本发明实施例提供的字典树重构系统,还可以包括:查词单元;
所述查词单元,用于利用所述第二字典树进行查词操作。
可选地,所述历史日志信息获取单元,可以包括:第一历史日志信息获取子单元;
所述第一历史日志信息获取子单元,用于获得当前所利用的双数组字典树所对应的历史日志信息;
相应地,所述目标参数值确定单元,包括:第一目标参数值确定子单元;
所述第一目标参数值确定子单元,用于根据所述历史日志信息,确定词法规则更新频率的频率值;
相应地,所述第二字典树构建单元,包括:第一构建子单元;
所述第一构建子单元,用于利用构建所述双数组字典树的历史数据,构建前缀字典树。
可选地,所述历史日志信息获取单元,可以包括:第二历史日志信息获取子单元;
所述第二历史日志信息获取子单元,用于获得当前所利用的前缀字典树所对应的历史日志信息;
相应地,所述目标参数值确定单元,包括:第二目标参数值确定子单元;
所述第二目标参数值确定子单元,用于根据所述历史日志信息,确定查词频率的频率值;
相应地,所述第二字典树构建单元,包括:第二构建子单元;
所述第二构建子单元,用于利用构建所述前缀字典树的历史数据,构建双数组字典树。
可选地,本发明实施例提供的字典树重构系统,还可以包括:触发第一字典树重构单元;
所述触发第一字典树重构单元,用于在检测到距当前所利用的第一字典树的构建时间点达到预定时长时,触发执行所述获得当前所利用的第一字典树所对应的历史日志信息的步骤。
借由上述技术方案,先确定当前所使用的字典树,即第一字典树;获得第一字典树所对应的历史日志信息,根据该第一字典树所不适用的业务场景确定该历史日志信息中目标评判参数,并获得目标评判参数所对应的目标参数值;对该目标参数值进行判断,判断该目标参数值是否高于预设阈值,若是,表明该第一字典树在所不适用的业务场景中有较多的使用,此时利用构建第一字典树的历史数据,构建与该业务场景相匹配的第二字典树,即第二字典树所适用的业务场景与该目标评判参数相匹配;在第二字典树构建完毕后,使用第二字典树替换该第一字典树,能够在用户需求存在变化的情况下,保证所利用的字典树符合用户的使用需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例的一种字典树重构方法流程图;
图2示出了本发明实施例的一种字典树重构系统结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术问题,本发明实施例提供了一种字典树重构方法及系统。
下面首先对本发明实施例所提供的字典树重构方法进行介绍。
需要说明的是,背景技术中所提及的用户为对字典树进行查词、更新或者维护的工作人员。另外,本发明中字典树的重构是指将当前所使用的第一字典树(例如前缀字典树)替换为另一类型的字典树(如双数组字典树),即第二字典树,也就是,重构后,所利用的字典树的字典类型发生了改变。
可以理解的是,实现本发明实施例所提供的字典树重构方法的功能软件可以为设置于电子设备中的专门的客户端软件,也可以为设置于电子设备中的现有客户端软件中的功能插件,这都是合理的;其中,该电子设备可以为终端设备或服务器设备,这都是合理的。另外,需要强调的是,实现本发明实施例所提供的字典树重构方法的功能软件至少能够实现多类字典树的构建、利用多类字典树的查词以及记录所利用的字典树的历史日志信息,并且,可以采用现有技术构建任一类型的字典树以及利用任一类型字典树进行查词。
如图1所示,本发明实施例所提供的一种字典树重构方法,可以包括如下步骤:
S101:获得当前所利用的第一字典树所对应的历史日志信息;
其中,为了在用户使用需求存在变化的情况下,保证所利用的字典树符合用户的使用需求,可以在当前所利用的字典树不符合用户的使用需求的情况下,对当前的字典树进行重构处理,而为了进行重构处理,可先确定当前所利用的第一字典树,在确定该第一字典树后,获得该第一字典树所对应的历史日志信息。其中,该历史日志信息为该第一字典树所对应的历史操作信息,且该历史日志信息包括但并不局限于查词日志信息和更新第一字典树日志信息。
其中,所谓的更新第一字典树具体指:由于词法规则发生更新而导致的更改第一字典树的字典内容,也就是说,更新第一字典树后,该第一字典树的字典树类型并未发生改变,而是第一字典树的字典内容发生更改。需要强调的是,词法规则发生更新导致的是字典内容发生变化,而不会影响字典树的类型;另外,关于任意一种字典树的词法规则可以与现有技术中的词法规则等同,本申请实施例并未进行改进。
可以理解的是,可以每隔预设时间(例如一天或者一周)获取一次该第一字典树所对应的历史日志信息,以对该第一字典树的使用情况,例如查词使用情况和更新使用情况等进行监测,并根据监测结果执行后续重构操作。
需要强调的是,当前所利用的第一字典树,当前可能被用于查词操作,也可能被用于更新操作。另外,当前所利用的第一字典树可以为前缀字典树、后缀字典树和双数组字典树,当然并不局限于此。并且由于前缀字典树、后缀字典树和双数组字典树等属于现有技术中存在的字典树,并且,本发明实施例并未对任一种字典树的建立进行任何改变,因此,在此不对任一种字典树以及构建过程做具体描述。
此外,前缀字典树、后缀字典树和双数组字典树可用于对给定文本进行情感分类,例如:在进行情感分类时,判定给定文本中的每个词是否在预先构建好的双数组字典树中,若在,判定该词所表达的情感,进而对给定文本进行情感分类。
S102:根据该历史日志信息,确定目标评判参数的目标参数值,其中,该目标评判参数为与该第一字典树所不适用于的业务场景相匹配的参数;
其中,在获得该第一字典树所对应的历史日志信息后,可以根据该第一字典树所不适用的业务场景确定目标评判参数,在确定目标评判参数后,从该历史日志信息中获得该目标评判参数所对应的目标参数值,例如:当前所利用的第一字典树为双数组字典树时,可获得该双数组字典树在一周内的历史日志信息,该历史日志信息中记录有查词日志信息和更新双数组字典树日志信息,由于双数组字典树不适用于词法规则更新频率较高的业务场景,因此选取更新双数组字典树日志信息作为目标评判参数,并确定该更新双数组字典树日志信息所对应的目标参数值。
S103:判断该目标参数值是否高于预设阈值;
其中,预设阈值是预先设定的用于界定重构字典树的边界值,当目标参数值高于该边界值时,说明第一字典树在其所不适用的业务场景使用较多,需要重构该第一字典树,以满足用户需求;当目标参数值低于该边界值时,表明第一字典树在其所不适用的业务场景使用较少,不需要重构该第一字典树。
需要强调的是,本领域技术人员可根据具体需求设定该预设阈值,在此不对该预设阈值进行限定。
S104:当判断结果为是时,利用构建该第一字典树的历史数据,构建第二字典树,并将该第一字典树替换为该第二字典树;其中,该第二字典树所适用于的业务场景与该目标评判参数相匹配。
其中,当判断该目标参数值高于预设阈值时,说明第一字典树不符合当前用户需求,此时利用构建该第一字典树的历史数据,构建适用于该第一字典树所不适用的业务场景的第二字典树,并在第二字典树构建完毕后,利用该第二字典树替换该第一字典树,此时可以利用该第二字典树进行查词操作。其中,该历史数据是指构建该第一字典树的源文本数据。
在本发明实施例中,先确定当前所使用的字典树,即第一字典树;获得第一字典树所对应的历史日志信息,根据该第一字典树所不适用的业务场景确定该历史日志信息中目标评判参数,并获得目标评判参数所对应的目标参数值;对该目标参数值进行判断,判断该目标参数值是否高于预设阈值,若是,表明该第一字典树在所不适用的业务场景中有较多的使用,此时利用构建第一字典树的历史数据,构建与该业务场景相匹配的第二字典树,即第二字典树所适用的业务场景与该目标评判参数相匹配;在第二字典树构建完毕后,使用第二字典树替换该第一字典树,能够在用户需求存在变化的情况下,保证所利用的第二字典树符合用户的使用需求。
可选地,本发明实施例所提供的字典树重构方法,还可以包括:
利用该第二字典树进行查词操作。
可以理解的是,在该种实现方式中,在将该第一字典树重构为第二字典树后,可利用该第二字典树进行查词操作。需要说明的是,本发明实施例对利用任一字典树进行查词的过程并未进行任何改变,因此,在此不做赘述利用该第二字典树进行查词操作的具体过程。
可选地,对于第一字典树为双组数字典树的情况而言,该获得当前所利用的第一字典树所对应的历史日志信息,可以包括:
获得当前所利用的双数组字典树所对应的历史日志信息;
相应地,该根据该历史日志信息,确定目标评判参数的目标参数值,可以包括:
根据该历史日志信息,确定词法规则更新频率的频率值;
相应地,该利用构建该第一字典树的历史数据,构建第二字典树,可以包括:
利用构建该双数组字典树的历史数据,构建前缀字典树。
可以理解的是,在该种实现方式中,由于双数组字典树并不适用于词法规则更新频率较高的业务场景,因此,可以将目标评判参数确定为:词法规则更新频率,并根据历史日志信息,确定出词法规则更新频率的频率值。可以理解的是,由于双数组字典树每更新一次(由于词法规则发生更新)均会记录到历史日志信息中,因此,可以根据历史日志信息,确定出词法规则更新频率的频率值,并且,根据历史日志信息来确定词法规则更新频率的频率值的具体实现方式可以采用现有技术中的任一种方式来实现。
另外,在确定词法规则更新频率的频率值后,判断该词法规则更新频率的频率值是否大于第一预设阈值,若大于,说明用户在使用该双数组字典树的过程中,对该双数组字典树的词法规则更新较多,此时,利用适用于词法规则更新较多的前缀字典树对该双数组字典树进行重构,重构得到的前缀字典树可以满足用户对字典树词法规则更新较多的需求,并可以有效地降低字典树的维护成本。
此外,当判断该词法规则更新频率的频率值大于第一预设阈值,且此时用户对该双数组字典树的查词频率同样较高时,此时仍然可以利用适用于词法规则更新较多的前缀字典树对该双数组字典树进行重构,以降低字典树维护成本。
当该词法规则更新频率的频率值小于第一预设阈值时,不对该双数组字典树进行重构,并继续利用该双数组字典树进行查词或者更新操作。其中,该第一预设阈值由本领域技术人员根据具体情况进行设定,在此不做详述。
其中,词法规则是指在该双数组字典树中语词的构成和使用的法则。
可选地,对于第一字典树为前缀字典树的情况而言,该获得当前所利用的第一字典树所对应的历史日志信息,可以包括:
获得当前所利用的前缀字典树所对应的历史日志信息;
相应地,该根据该历史日志信息,确定目标评判参数的目标参数值,包括:
根据该历史日志信息,确定查词频率的频率值;
相应地,该利用构建该第一字典树的历史数据,构建第二字典树,包括:
利用构建该前缀字典树的历史数据,构建双数组字典树。
可以理解的是,在该种实现方式中,由于前缀字典树并不适用于查词频率较高的业务场景,即前缀字典树查词较慢,因此,可以将查词频率确定为目标评判参数,据该历史日志信息,确定目标评判参数的目标参数值并根据此时确定该历史日志信息中的目标评判参数:查词频率,并根据历史日志信息,确定该查词频率所对应的查词频率的频率值。可以理解的是,由于前缀字典树每被查询一次均会记录到历史日志信息中,因此,可以根据历史日志信息,确定查词频率的频率值,并且,根据历史日志信息来确定查词频率的频率值的具体实现方式可以采用现有技术中的任一种方式来实现。
另外,在确定查词频率的频率值后,判断该查词频率的频率值是否大于第二预设阈值,若大于,说明用户在使用该前缀字典树的过程中,将该前缀组字典树较多的用于查词操作,此时,利用适用于查词较多的双数组字典树对该前缀字典树进行重构,重构得到的双数组字典树可以满足用户对字典树查词较多的需求,可以提升查词速度。
此外,当该查词频率的频率值小于第二预设阈值时,说明前缀字典树适用于当前用户所需求的业务场景,此时不对该前缀组字典树进行重构,并继续利用该前缀字典树进行查词或者更新操作。其中,该第二预设阈值由本领域技术人员根据具体情况进行设定,在此不做详述。
可选地,本发明实施例提供的字典树重构方法,还可以包括:
在检测到距当前所利用的第一字典树的构建时间点预定时长时,触发执行该获得当前所利用的第一字典树所对应的历史日志信息的步骤。
可以理解的是,在该种实现方式中,检测当前所利用的字典树所构建的时间点距离当前时间点的总时长,判断该总时长是否大于预定时长,当判断大于预定时长时,则触发执行该获得当前所利用的第一字典树所对应的历史日志信息的步骤,使得能够及时对第一字典树进行重构,以满足用户不同时间段的不同需求,提升了用户体验。当判断该总时长小于预定时长时,不对该第一字典树进行重构,并继续使用该第一字典树进行查词或者更新操作。
下面对本发明实施例所提供的字典树重构系统进行介绍。
相应于上述方法实施例,如图2所示,本发明实施例还提供了一种字典树重构系统,该系统可以包括:历史日志信息获取单元201、目标参数值确定单元202、目标参数值判断单元203和第二字典树构建单元204;
该历史日志信息获取单元201,用于获得当前所利用的第一字典树所对应的历史日志信息;
该目标参数值确定单元202,用于根据该历史日志信息,确定目标评判参数的目标参数值,其中,该目标评判参数为与该第一字典树所不适用于的业务场景相匹配的参数;
该目标参数值判断单元203,用于判断该目标参数值是否高于预设阈值;
该第二字典树构建单元204,用于当判断结果为是时,利用构建该第一字典树的历史数据,构建第二字典树,并将该第一字典树替换为该第二字典树;其中,该第二字典树所适用于的业务场景与该目标评判参数相匹配。
在本发明实施例中,先确定当前所使用的字典树,即第一字典树;获得第一字典树所对应的历史日志信息,根据该第一字典树所不适用的业务场景确定该历史日志信息中目标评判参数,并获得目标评判参数所对应的目标参数值;对该目标参数值进行判断,判断该目标参数值是否高于预设阈值,若是,表明该第一字典树在所不适用的业务场景中有较多的使用,此时利用构建第一字典树的历史数据,构建与该业务场景相匹配的第二字典树,即第二字典树所适用的业务场景与该目标评判参数相匹配;在第二字典树构建完毕后,使用第二字典树替换该第一字典树,能够在用户需求存在变化的情况下,保证所利用的第二字典树符合用户的使用需求。
可选地,本发明实施提供的字典树重构系统,还可以包括:查词单元;
该查词单元,用于利用该第二字典树进行查词操作。
可选地,该历史日志信息获取单元201,可以包括:第一历史日志信息获取子单元;
该第一历史日志信息获取子单元,用于获得当前所利用的双数组字典树所对应的历史日志信息;
相应地,该目标参数值确定单元,可以包括:第一目标参数值确定子单元;
该第一目标参数值确定子单元,用于根据该历史日志信息,确定词法规则更新频率的频率值;
相应地,该第二字典树构建单元,可以包括:第一构建子单元;
该第一构建子单元,用于利用构建该双数组字典树的历史数据,构建前缀字典树。
可选地,该历史日志信息获取单元201,可以包括:第二历史日志信息获取子单元;
该第二历史日志信息获取子单元,用于获得当前所利用的前缀字典树所对应的历史日志信息;
相应地,该目标参数值确定单元,可以包括:第二目标参数值确定子单元;
该第二目标参数值确定子单元,用于根据该历史日志信息,确定查词频率的频率值;
相应地,该第二字典树构建单元,可以包括:第二构建子单元;
该第二构建子单元,用于利用构建该前缀字典树的历史数据,构建双数组字典树。
可选地,本发明实施例提供的字典树重构系统,还可以包括:触发第一字典树重构单元;
该触发第一字典树重构单元,用于在检测到距当前所利用的第一字典树的构建时间点预定时长时,触发执行该获得当前所利用的第一字典树所对应的历史日志信息的步骤。
所述字典树重构系统包括处理器和存储器,上述历史日志信息获取单元201、目标参数值确定单元202、目标参数值判断单元203和第二字典树构建单元204等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来保证所利用的字典树符合用户的使用需求。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供的字典树重构系统,能够在用户需求存在变化的情况下,保证所利用的第二字典树符合用户的使用需求。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
步骤一:获得当前所利用的第一字典树所对应的历史日志信息;
步骤二:根据该历史日志信息,确定目标评判参数的目标参数值,其中,该目标评判参数为与该第一字典树所不适用于的业务场景相匹配的参数;
步骤三:判断该目标参数值是否高于预设阈值;
步骤四:当判断结果为是时,利用构建该第一字典树的历史数据,构建第二字典树,并将该第一字典树替换为该第二字典树;其中,该第二字典树所适用于的业务场景与该目标评判参数相匹配。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种字典树重构方法,其特征在于,包括:
获得当前所利用的第一字典树所对应的历史日志信息;
根据所述历史日志信息,确定目标评判参数的目标参数值,其中,所述目标评判参数为与所述第一字典树所不适用的业务场景相匹配的参数;
判断所述目标参数值是否高于预设阈值;
当判断结果为是时,利用构建所述第一字典树的历史数据,构建第二字典树,并将所述第一字典树替换为所述第二字典树;其中,所述第二字典树所适用的业务场景与所述目标评判参数相匹配。
2.根据权利要求1所述的方法,其特征在于,还包括:
利用所述第二字典树进行查词操作。
3.根据权利要求1或2所述的方法,其特征在于,所述获得当前所利用的第一字典树所对应的历史日志信息,包括:
获得当前所利用的双数组字典树所对应的历史日志信息;
所述根据所述历史日志信息,确定目标评判参数的目标参数值,包括:
根据所述历史日志信息,确定词法规则更新频率的频率值;
所述利用构建所述第一字典树的历史数据,构建第二字典树,包括:
利用构建所述双数组字典树的历史数据,构建前缀字典树。
4.根据权利要求1或2所述的方法,其特征在于,所述获得当前所利用的第一字典树所对应的历史日志信息,包括:
获得当前所利用的前缀字典树所对应的历史日志信息;
所述根据所述历史日志信息,确定目标评判参数的目标参数值,包括::
根据所述历史日志信息,确定查词频率的频率值;
所述利用构建所述第一字典树的历史数据,构建第二字典树,包括:
利用构建所述前缀字典树的历史数据,构建双数组字典树。
5.根据权利要求1所述的方法,其特征在于,还包括:
在检测到距当前所利用的第一字典树的构建时间点达到预定时长时,触发执行所述获得当前所利用的第一字典树所对应的历史日志信息的步骤。
6.一种字典树重构系统,其特征在于,包括:
历史日志信息获取单元,用于获得当前所利用的第一字典树所对应的历史日志信息;
目标参数值确定单元,用于根据所述历史日志信息,确定目标评判参数的目标参数值,其中,所述目标评判参数为与所述第一字典树所不适用的业务场景相匹配的参数;
目标参数值判断单元,用于判断所述目标参数值是否高于预设阈值;
第二字典树构建单元,用于当判断结果为是时,利用构建所述第一字典树的历史数据,构建第二字典树,并将所述第一字典树替换为所述第二字典树;其中,所述第二字典树所适用的业务场景与所述目标评判参数相匹配。
7.根据权利要求6所述的系统,其特征在于,还包括:
查词单元,用于利用所述第二字典树进行查词操作。
8.根据权利要求6或7所述的系统,其特征在于,所述历史日志信息获取单元,包括:
第一历史日志信息获取子单元,用于获得当前所利用的双数组字典树所对应的历史日志信息;
所述目标参数值确定单元,包括:
第一目标参数值确定子单元,用于根据所述历史日志信息,确定词法规则更新频率的频率值;
所述第二字典树构建单元,包括:
第一构建子单元,用于利用构建所述双数组字典树的历史数据,构建前缀字典树。
9.根据权利要求6或7所述的系统,其特征在于,所述历史日志信息获取单元,包括:
第二历史日志信息获取子单元,用于获得当前所利用的前缀字典树所对应的历史日志信息;
所述目标参数值确定单元,包括:
第二目标参数值确定子单元,用于根据所述历史日志信息,确定查词频率的频率值;
所述第二字典树构建单元,包括:
第二构建子单元,用于利用构建所述前缀字典树的历史数据,构建双数组字典树。
10.根据权利要求6所述的系统,其特征在于,还包括:
触发第一字典树重构单元,用于在检测到距当前所利用的第一字典树的构建时间点达到预定时长时,触发执行所述获得当前所利用的第一字典树所对应的历史日志信息的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610515519.2A CN107562703B (zh) | 2016-07-01 | 2016-07-01 | 字典树重构方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610515519.2A CN107562703B (zh) | 2016-07-01 | 2016-07-01 | 字典树重构方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107562703A true CN107562703A (zh) | 2018-01-09 |
CN107562703B CN107562703B (zh) | 2020-06-26 |
Family
ID=60969648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610515519.2A Active CN107562703B (zh) | 2016-07-01 | 2016-07-01 | 字典树重构方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562703B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563685A (zh) * | 2018-03-13 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种银行标识代码的查询方法、装置及设备 |
CN110825409A (zh) * | 2019-10-30 | 2020-02-21 | 炬星科技(深圳)有限公司 | 参数管理方法、电子设备及计算机存储介质 |
CN113360666A (zh) * | 2021-05-31 | 2021-09-07 | 珠海大横琴科技发展有限公司 | 数据字典管理方法及装置、电子设备、存储介质 |
CN114254082A (zh) * | 2021-12-20 | 2022-03-29 | 浪潮软件科技有限公司 | 基于双数组字典树的模板匹配方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101119302A (zh) * | 2007-09-06 | 2008-02-06 | 华中科技大学 | 一种挖掘事务数据流上最近时间窗口内频繁模式的方法 |
US20080162517A1 (en) * | 2006-12-28 | 2008-07-03 | International Business Machines | Method and system for creating an in-memory physical dictionary for data compression |
CN102968481A (zh) * | 2012-11-20 | 2013-03-13 | 深圳市华傲数据技术有限公司 | 一种数据库近似字典规则的挖掘方法、系统及数据库终端 |
CN103353864A (zh) * | 2012-11-20 | 2013-10-16 | 深圳市华傲数据技术有限公司 | 一种数据库近似字典规则的挖掘方法、系统及数据库终端 |
CN104579941A (zh) * | 2015-01-05 | 2015-04-29 | 北京邮电大学 | 一种OpenFlow交换机中的报文分类方法 |
CN105306439A (zh) * | 2015-09-17 | 2016-02-03 | 哈尔滨工程大学 | 一种基于决策树自修复的特征规则检测方法 |
-
2016
- 2016-07-01 CN CN201610515519.2A patent/CN107562703B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080162517A1 (en) * | 2006-12-28 | 2008-07-03 | International Business Machines | Method and system for creating an in-memory physical dictionary for data compression |
CN101119302A (zh) * | 2007-09-06 | 2008-02-06 | 华中科技大学 | 一种挖掘事务数据流上最近时间窗口内频繁模式的方法 |
CN102968481A (zh) * | 2012-11-20 | 2013-03-13 | 深圳市华傲数据技术有限公司 | 一种数据库近似字典规则的挖掘方法、系统及数据库终端 |
CN103353864A (zh) * | 2012-11-20 | 2013-10-16 | 深圳市华傲数据技术有限公司 | 一种数据库近似字典规则的挖掘方法、系统及数据库终端 |
CN104579941A (zh) * | 2015-01-05 | 2015-04-29 | 北京邮电大学 | 一种OpenFlow交换机中的报文分类方法 |
CN105306439A (zh) * | 2015-09-17 | 2016-02-03 | 哈尔滨工程大学 | 一种基于决策树自修复的特征规则检测方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563685A (zh) * | 2018-03-13 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种银行标识代码的查询方法、装置及设备 |
CN110825409A (zh) * | 2019-10-30 | 2020-02-21 | 炬星科技(深圳)有限公司 | 参数管理方法、电子设备及计算机存储介质 |
CN110825409B (zh) * | 2019-10-30 | 2023-10-31 | 炬星科技(深圳)有限公司 | 参数管理方法、电子设备及计算机存储介质 |
CN113360666A (zh) * | 2021-05-31 | 2021-09-07 | 珠海大横琴科技发展有限公司 | 数据字典管理方法及装置、电子设备、存储介质 |
CN114254082A (zh) * | 2021-12-20 | 2022-03-29 | 浪潮软件科技有限公司 | 基于双数组字典树的模板匹配方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107562703B (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10719767B2 (en) | Computer implemented system for automating the generation of a business decision analytic model | |
US10878335B1 (en) | Scalable text analysis using probabilistic data structures | |
CN108108127B (zh) | 一种文件读取方法及系统 | |
CN109561052B (zh) | 网站异常流量的检测方法及装置 | |
CN107562703A (zh) | 字典树重构方法及系统 | |
CN104536983A (zh) | 一种预测广告点击率的方法和装置 | |
CN110347724A (zh) | 异常行为识别方法、装置、电子设备及介质 | |
CN106446091A (zh) | 一种多源时序数据的预处理方法和装置 | |
CN113965389B (zh) | 一种基于防火墙日志的网络安全管理方法、设备及介质 | |
CN111143578A (zh) | 基于神经网络抽取事件关系的方法、装置和处理器 | |
CN110968689A (zh) | 罪名及法条预测模型的训练方法以及罪名及法条预测方法 | |
CN106293541A (zh) | 一种存储系统的日志管理方法和系统 | |
CN108241531A (zh) | 一种在集群中为虚拟机分配资源的方法和装置 | |
CN109918658A (zh) | 一种从文本中获取目标词汇的方法及系统 | |
CN108255628A (zh) | 一种数据处理方法及装置 | |
CN106648839B (zh) | 数据处理的方法和装置 | |
CN110019784A (zh) | 一种文本分类方法及装置 | |
CN114446019A (zh) | 告警信息处理方法、装置、设备、存储介质和产品 | |
CN113123955B (zh) | 柱塞泵异常检测方法、装置、存储介质及电子设备 | |
CN116070106B (zh) | 基于行为序列的数据交互异常检测特征抽取方法及装置 | |
CN111385273B (zh) | 一种物联网业务流程识别方法、装置、电子设备及介质 | |
CN107463578A (zh) | 应用下载量统计数据去重方法、装置和终端设备 | |
CN117763024A (zh) | 一种数据分片抽取方法及装置 | |
CN112579847A (zh) | 生产数据的处理方法和装置、存储介质及电子设备 | |
CN110019295B (zh) | 数据库检索方法、装置、系统以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |