CN110147431A - 关键词匹配方法、装置、计算机设备和存储介质 - Google Patents
关键词匹配方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110147431A CN110147431A CN201910367296.3A CN201910367296A CN110147431A CN 110147431 A CN110147431 A CN 110147431A CN 201910367296 A CN201910367296 A CN 201910367296A CN 110147431 A CN110147431 A CN 110147431A
- Authority
- CN
- China
- Prior art keywords
- character string
- keyword
- tested
- parameter table
- tested character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请提供了一种关键词匹配方法、装置、计算机设备和存储介质,其中,该方法包括:获取被检字符串;根据预设规则对所述被检字符串的格式进行规范化处理,以获取处理后的被检字符串;获取预设的关键词参数表,其中,所述预设的关键词参数表中有多个关键词;确定所述处理后的被检字符串中是否存在所述关键词参数表中的至少一个关键词;在确定存在至少一个关键词的情况下,确定关键词匹配成功。上述实施例中的关键词匹配方法,只需对被检字符串的格式进行规范化处理,无需将被检字符串转换为其他码制,也就无需在大型主机系统上建立整套的其他码制运行处理环境,可以有效节约系统的资源,提高关键词匹配的效率、且降低关键词匹配成本。
Description
技术领域
本申请涉及计算机内容分析技术领域,特别涉及一种关键词匹配方法、装置、计算机设备和存储介质。
背景技术
在银行办理业务过程中,某些场景需要系统检索输入的字符串中是否含有指定关键词,一旦检索到了指定关键词,需要执行一定操作,比如向业务操作人员提示错误等。
目前,银行通常采用大型主机系统进行交易存储与处理,此类大型主机系统配套使用的编码方案是EBCDIC码(Extended Binary Coded Decimal Interchange Code,广义二进制编码的十进制交换码)。在EBCDIC码中,英文字母不是连续排列的、中间会出现多次断续。同时EBCDIC码制与其他码制完全不兼容,加剧了EBCDIC码环境中数据处理的复杂度。而且,由于受到交易处理时间、系统性能以及系统环境等方面的限制,在交易处理过程中,将被检字符串由EBCDIC码转换为其他码制的成本极高。此外,若采用非EBCDIC码处理环境,需要在大型主机系统上建立整套的其他码制运行处理环境,耗时长成本高,而且性能上未必能得到保证。因此,这造成了基于大型主机系统EBCDIC码环境的交易没有按其他码制进行处理的环境,进而导致基于大型主机系统EBCDIC码环境中的交易的业务字段匹配起来非常困难。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种关键词匹配方法,以解决现有技术中基于大型主机系统EBCDIC码环境中的业务字段匹配困难的问题。
本申请实施例提供了一种关键词匹配方法,包括:获取被检字符串;根据预设规则对所述被检字符串的格式进行规范化处理,以获取处理后的被检字符串;获取预设的关键词参数表,其中,所述预设的关键词参数表中有多个关键词;确定所述处理后的被检字符串中是否存在所述关键词参数表中的至少一个关键词;在确定存在至少一个关键词的情况下,确定关键词匹配成功。
在一个实施例中,在获取预设的关键词参数表之后,还包括:确定预设的关键词参数表中的各个关键词是否已被规范化处理;在确定存在未被规范化处理的关键词的情况下,根据预设规则对未规范化处理的关键词的格式进行规范化处理。
在一个实施例中,根据预设规则对被检字符串的格式进行规范化处理,包括以下至少之一:将被检字符串中的全角字符转换为半角字符;对被检字符串中的空格进行规范化处理;对被检字符串中的中文分隔符进行规范化处理。
在一个实施例中,根据预设规则对被检字符串的格式进行规范化处理,还包括:将被检字符串中的大写字符转换为小写字符。
在一个实施例中,对被检字符串中的空格进行规范化处理,包括以下之一:去除被检字符串中的所有空格;将被检字符串中连续的多个空格合并为一个空格。
在一个实施例中,对被检字符串中的中文分隔符进行规范化处理,包括:去除被检字符串中空的中文字符;以及去除被检字符串中相邻的中文分隔符。
在一个实施例中,在获取预设的关键词参数表之前,还包括:获取多个关键词;将多个关键词写入参数表中并在相邻关键词之间插入预设的分隔符,以生成预设的关键词参数表。
在一个实施例中,确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词,包括:根据预设的分隔符从预设的关键词参数表中逐个读取关键词;将逐个读取的关键词,与处理后的被检字符串进行逐字匹配,以确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词。
本申请实施例还提供了一种关键词匹配装置,包括:第一获取模块,用于获取被检字符串;规范化模块,用于根据预设规则对被检字符串的格式进行规范化处理,以获取处理后的被检字符串;第二获取模块,用于获取预设的关键词参数表,其中,预设的关键词参数表中包括多个关键词;确定模块,用于确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词;匹配模块,在确定存在至少一个关键词的情况下,确定匹配成功。
本发明实施例还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述任意实施例中所述的关键词匹配方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意实施例中所述的关键词匹配方法的步骤。
在本申请实施例中,提供了一种关键词匹配方法,根据预设规则对被检字符串的格式进行规范化处理,获取预设的关键词参数表,然后确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词,并且在确定存在至少一个关键词的情况下,确定关键词匹配成功。上述关键词匹配方法只需对被检字符串的格式进行规范化处理,而无需将被检字符串转换为其他码制,也就无需在大型主机系统上建立整套的其他码制运行处理环境,可以有效节约系统的资源,提高关键词匹配的效率;同时,通过将多个关键词维护在预设的关键词参数表中,可以降低关键词存储的复杂度,提高存储空间的资源利用率,并且可以增强关键词存储的可扩展性。通过上述方案解决了现有技术中基于大型主机系统的EBCDIC码环境中业务字段匹配困难的问题,达到有效提升关键词匹配效率、降低关键词匹配成本的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,并不构成对本申请的限定。在附图中:
图1示出了本申请一实施例中的关键词匹配方法的流程图;
图2示出了本申请一实施例中的关键词匹配方法所涉及的模块的结构框图;
图3示出了本申请一实施例中的关键词匹配方法的流程图;
图4示出了本申请一实施例中的关键词匹配装置的示意图;
图5示出了本申请一实施例中的计算机设备的示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本申请的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本申请公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
本发明实施例提供了一种关键词匹配方法,如图1所示,可以包括以下步骤:
步骤S101,获取被检字符串。
具体地,银行在处理业务时,会收到各种交易报文,需要对交易报文中的字符串进行关键词匹配,一旦被检字符串中存在关键词,系统就执行相应的预设操作,例如报错、弹框、跳转页面等。在对被检字符串进行关键词匹配之前,可以从银行系统的业务处理模块获取被检字符串。
步骤S102,根据预设规则对被检字符串的格式进行规范化处理,以获取处理后的被检字符串。
目前,银行通常采用大型主机系统进行交易存储与处理,此类大型主机系统配套使用的编码方案是EBCDIC码。从业务处理模块获取的被检字符串可能是采用EBCDIC码的字符串。而在EBCDIC码中,英文字母不是连续排列的,中间会出现多次断续,而且中英文混输、字符间存在数量不确定的无意义空格。因此,在进行关键词匹配之前,需要根据预设规则对被检字符串的格式进行规范化处理,以获取处理后的被检字符串。其中,预设规则可以根据被检字符串的格式以及业务要求来设置。
步骤S103,获取预设的关键词参数表,其中,预设的关键词参数表中有多个关键词。
具体地,在从被检字符串中检索关键词之前,需要获取预设的关键词参数表。其中,关键词参数表中有多个关键词,这多个关键词的个数不确定,每个关键词的长度也不确定,通过将多个关键词维护在关键词参数表中,可以降低关键词存储的复杂度,提高存储空间的资源利用率。
步骤S104,确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词。
具体地,在获取处理后的被检字符串和关键词参数表之后,可以进行关键词匹配,即,确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词。
步骤S105,在确定存在至少一个关键词的情况下,确定关键词匹配成功。
具体地,在确定处理后的被检字符串中存在预设的关键词参数表中的至少一个关键词的情况下,确定关键词匹配成功,系统执行预设操作。
上述关键词匹配方法只需对被检字符串的格式进行规范化处理,而无需将被检字符串转换为其他码制,也就无需在大型主机系统上建立整套的其他码制运行处理环境,可以有效节约系统的资源,提高关键词匹配的效率;同时,通过将多个关键词维护在预设的关键词参数表中,可以提高关键词存储的可扩展性,降低关键词存储的复杂度,并且提高存储空间的资源利用率。通过上述方案解决了现有技术中基于大型主机系统的EBCDIC码环境中关键词匹配困难的问题,达到有效提升关键词匹配效率、降低关键词匹配成本的技术效果。
考虑到预设的关键词的格式可能也存在与EBCDIC码中的被检字符串同样的问题(例如,英文字母不连续,中间出现多次断续,而且中英文混输,字符间存在数量不定的无意义空格等)。针对上述问题,需要确定预设的关键词参数表中的关键词的格式可以是已经预先根据预设规则进行规范化处理过,若是,则可以进行下一步操作;否则,为了更好地进行关键词匹配,可以根据同样的预设规则对多个关键词的格式进行规范化处理,然后将格式规范化处理后的关键词与格式规范化处理后的被检字符串进行匹配。
因此,在本申请一些实施例中,在获取预设的关键词参数表之后,还可以确定预设的关键词参数表中的各个关键词是否已被规范化处理;在确定存在未被规范化处理的关键词的情况下,根据预设规则对未规范化处理的关键词的格式进行规范化处理。然后,确定处理后的被检字符串中是否存在规范化处理后的关键词参数表中的至少一个关键词。通过根据统一的预设规则对被检字符串和预设的关键词参数表中的关键词进行规范化处理,可以提高关键词匹配成功率,提高关键词匹配效率。
因被检字符串的格式存在英文字母不是连续排列的,中间出现了多次断续、而且中英文混输、字符间存在数量不确定的无意义空格等问题。因此,在本申请一些实施例中,根据预设规则对被检字符串的格式进行规范化处理,可以包括但不限于以下至少之一:将被检字符串中的全角字符转换为半角字符;对被检字符串中的空格进行规范化处理;对被检字符串中的中文分隔符进行规范化处理。通过上述方式,可以将被检字符串中的全角字符都转换为半角字符并对空格以及中文分隔符都进行规范化处理,从而实现被检字符串格式的规范化处理,便于后续进行关键词匹配。
进一步地,考虑到有些情况下,在进行关键词匹配的时候不区分大小写,因此,在本申请一些实施例中,根据预设规则对被检字符串的格式进行规范化处理,还可以包括:将被检字符串中的大写字符转换为小写字符。通过这种方式,使得可以将被检字符串中的大写都转换为小写,从而在符合处理要求的情况下实现了字符格式一致性需求,使得最终匹配结果不会受到大小写的影响。
在有些情况下,关键词匹配需要匹配空格,而有些情况下,关键词匹配不需要匹配空格。因此,在本申请的一些实施例中,对被检字符串中的空格进行规范化处理,可以包括但不限于以下之一:去除被检字符串中的所有空格;将被检字符串中连续的多个空格合并为一个空格。对于带空格精确匹配模式,可以将被检字符串中的所有空格合并成一个空格,即去掉被检字符串中的多余空格。对于无空格广泛匹配模式,可以将被检字符串中的所有空格都去掉。预设规则可以根据业务处理要求灵活配置。通过上述方式,可以对被检字符串中的空格进行统一的处理,以使得处理之后的字符串可以更容易进行关键词匹配,使得最终匹配结果更准确,不会受到空格的影响。
考虑到汉字中可能存在空的字符,需要将这些空的字符去除,而删除空的字符之后,就存在相邻的中文分隔符“0E0F”或者“0F0E”。因此,在本申请一些实施例中,对被检字符串中的中文分隔符进行规范化处理,可以包括:去除被检字符串中空的中文字符;以及去除被检字符串中相邻的中文分隔符。通过上述方式,可以对被检字符串中的中文分隔符进行统一的处理,以使得处理之后的字符串可以更容易进行关键词匹配,使得最终匹配结果不会受到中文分隔符的影响。
上述多个实施例中,根据上述预设规则对被检字符串和/或关键词的格式进行规范化处理后,可以大大提高关键匹配的效率以及成功率。而且上述预设规则还可以根据各种码制下存在的问题进行灵活设置,也可以根据业务需要来设置,可扩展性强。上述所列举的预设规则仅是一种示例性描述,在实际实现的时候,可以根据实际的情况和需求设定和选择,本申请对此不作限定。
考虑到关键词的数量和长度不确定,将多个关键词维护在关键词参数表中可以降低关键词存储的复杂度,提高系统资源的利用率。因此,在本申请一些实施例中,在获取预设的关键词参数表之前,还可以包括:获取多个关键词;将多个关键词写入参数表中并在相邻关键词之间插入预设的分隔符,以生成预设的关键词参数表。即,可以预先建立关键词参数表,这样在进行关键词匹配的时候,直接调用关键词参数表即可,较为方便快捷。
具体地,可以从关键词存储库中获取多个关键词。其中,预设分隔符可以是“/”、“|”和“\”等关键词中不存在的字符或符号。另外,在获取多个关键词之后,还可以根据预设规则对多个关键词的格式进行规范化处理,然后再将规范化处理后的关键词写入参数表中并在相邻关键词之间插入预设的分隔符,以生成预设的关键词参数表;也可以在将多个关键词存入关键词参数表中之后从参数表读取多个关键词后对其进行格式规范化处理,本申请对此不做限制。
目前,在大型主机系统EBCDIC环境中,只能做到最简单的全字符串匹配,即判断被检字符串和关键词字符串是否完成一样,并不能解决业务字段这一类字符串部分匹配的问题。针对上述问题,进一步地,在本申请一些实施例中,确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词,包括:根据预设的分隔符从预设的关键词参数表中逐个读取关键词;将逐个读取的关键词,与处理后的被检字符串进行逐字匹配,以确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词。其中,根据预设的分隔符从预设的关键词参数表中逐个读取关键词,可以是通过一次IO从参数表读取所有关键词,然后根据预设分隔符对所有关键词进行拆分,以得到多个关键词。上述关键词匹配方法,可以实现被检字符串的部分匹配,只要被检字符串中的一段包括关键词字符串,就说明匹配成功,可以实现字段匹配的需求。
考虑到大量被检字符串中经常出现的字词可能具有某些特殊含义,经业务人员判断后,可能需要将这些出现频率较高的字词作为关键词写入关键词参数表中。因此,在本申请一些实施例中,上述关键词匹配方法还可以包括:对被检字符串中的高频字词进行统计;记录高频字词并向业务人员展示,其中,业务人员对高频字词进行判断以确定是否将该高频字词作为关键词;响应于业务人员确定将该高频字词作为关键词,将该高频字词写入预设的关键词参数表。其中,高频字词可以是大量被检字符串中的出现频率大于预设频率的字词,也可以是大量被检字符串中出现频率最高的前N位(N为预设的正整数)的字词,具体取决于业务需求和业务人员的设置。
进一步地,由于对高频字词进行统计对于时效性的要求并不高,因此,可以将这些被检字符串转换为其他码制,运用其他码制环境中现有的成熟算法,根据语意对被检字符串进行截取拆分,统计出现频率最高的字词,展示于指定页面,供业务操作人员查看,以参考判断是否需要将高频字词增加进关键词参数表。因此,在本申请一些实施例中,对被检字符串中的高频字词进行统计,可以包括:将被检字符串转换为预设码制;利用预设码制的应用环境中的算法对转换后的被检字符串进行截取拆分,以获取多个字词;统计每个字词的出现频率;以及将出现频率大于预设频率的字词确定为高频字词或者将出现频率最高的前N个字词确定为高频字词,其中N为预设的正整数。其中,预设码制可以是例如UTF-8、UTF-16等码制,该码制可以在C#、JAVA等环境中使用,在C#环境中可以使用DBC case函数进行半角转换,也可以直接调用VB.NET的函数进行全半角、简繁体中文的相互转化等。
上述关键词匹配方法增加了扩展性功能,即统计被检字符串中的高频字词,并向业务人员展示该高频字词,经业务人员确定后可以将该高频字词作为关键词写入预设的关键词参数表中,以完善该关键词参数表,为后续业务字段匹配做准备,可以提高匹配的效率和成功率,更准确地执行预设操作,进而可以提高业务处理的效率和准确率。
请参考图2,示出了本申请一实施例中的关键词匹配方法所涉及的模块的结构框图。如图2所示,被检字符串规范化模块202可以从业务处理模块201获取被检字符串,被检字符串规范化模块202可以根据预设规则对被检字符串的格式进行规范化处理。预设关键词库206中可以存储有多个关键词。关键词参数表205可以从预设关键词库206获取关键词,关键词参数表205中可以维护多个关键词,相邻关键词之间可以用预设的分隔符分开。关键词参数表205中的关键词可能需要经过关键词规范化模块204进行处理,以根据预设规则对关键词的格式进行规范化处理。最后,关键词匹配模块203将处理后的被检字符串和关键词进行匹配,直到匹配成功或者直到所有关键词匹配结束。业务人员可以通过预设关键词的存储模块207将关键词存储到预设关键词库206中。此外,词义拆分及频率统计并展示模块208可以从业务处理模块201或者被检字符串规范化模块202获取多个被检字符串。词义拆分及频率统计并展示模块208可以将被检字符串转换成具有成熟算法的码制,然后在该码制环境中通过成熟算法根据语义对被检字符串进行拆分,并统计拆分得到的字词的出现频率,将得到的高频字词向业务人员展示,业务人员确认后,可以将该高频字词存入预设关键词库206中。
下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
在本实施例中,提供了一种关键词匹配方法,如图3所示,可以包括以下步骤:
步骤1:通过建立关键词参数表的方式,将所有的关键词维护于该关键词参数表中;并规定在该关键词参数表中的各个预设关键词之间需通过预设分隔符(比如“/”)进行分隔。
步骤2:通过循环读取被检字符串的方式,首先对被检字符串进行半角字符规范化转换;再循环读取上述转换后的被检字符串,对字符之间的空格进行规范化处理;继续循环读取上述转换后的被检字符串,去除空的中文字符,并去除相邻的中文分隔符“0E0F”和“0F0E”;对于区分大小写字符模式,此时已完成被检字符串的格式规范化处理;对于不区分大小写字符模式,将上述转换后的被检字符串全部转换为小写字符,形成被检字符串的规范化格式。
步骤3:从指定参数表中取出预设关键词,运用上述步骤2中的格式规范化处理机制,将取出的预设关键词转换成为规范化格式。
步骤4:根据指定分隔符逐个读取已转换为规范化格式的预设关键词,并使用遍历法进行逐字匹配,即将读取的第一个预设关键词与上述转换为规范化格式的被检字符串进行逐字匹配,如果匹配成功,则系统执行相应操作,比如提示错误信息;如果匹配不上,则读取第二个预设关键词并将其与上述转换为规范化格式的被检字符串继续进行逐字匹配,以此类推,直到匹配成功或者所有预设关键词均匹配不上。
步骤5:将被检字符串转换为其他码制,运用其他码制环境中现有的成熟算法,根据语意对被检字符串进行截取拆分,统计出现频率最高的字词,展示于指定页面,供业务人员查看,参考判断是否需要将高频字词增加进关键词参数表。
上述实施例中的关键词匹配方法,首先通过采用关键词参数表的方式,可以支持各类格式的预设关键词存储,对于关键词的长度、个数均不做具体限制,仅通过指定分隔符(比如“/”)进行分隔即可,可以减小该存储模块的复杂度,提高存储空间资源的利用率,而且可以实现一次IO读取所有的预设关键词,缩短系统读取时间,提高系统性能。相反,如果采用数组的方式实现预设关键词的存储,就要求关键词必须维持在一定的长度、一定的个数之内,其扩展性远不如本方案所采用的关键词参数表方式;并且数组的方式会为每组关键词预留同样的存储空间,对于各组关键词的长度差距较大的情况,势必造成资源的浪费。
其次,本方案中的格式规范化处理机制可以支持被检字符串中存在中英文混输、字符间无意义空格的数量不确定、且被检字符串长度不确定,同时预设关键词也存在中英文混输、字符间无意义空格的数量不确定、关键词的个数不确定、以及每个关键词的长度不确定的情况,提高了关键词匹配的成功率和效率,实现字段匹配的需求。
另外,上述方案增加了扩展性功能(即高频字词统计展示功能),由于该功能对时效性要求并不高,故可以将被检字符串转换为其他码制,运用其他码制环境中现有的成熟算法,根据语意对被检字符串进行截取拆分,统计出现频率最高的字词,展示于指定页面,供业务操作人员查看,从而参考判断是否需要将高频字词增加进关键词参数表,以扩展或完善关键词参数表,便于后续进行关键词匹配。
基于同一发明构思,本申请实施例中还提供了一种关键词匹配装置,如下面的实施例所述。由于关键词匹配装置解决问题的原理与关键词匹配方法相似,因此关键词匹配装置的实施可以参见关键词匹配方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图4是本申请实施例的关键词匹配装置的一种结构框图,如图4所示,可以包括:第一获取模块401、规范化模块402、第二获取模块403、确定模块404和匹配模块405。下面对该结构进行说明。
第一获取模块401,用于获取被检字符串。
规范化模块402,用于根据预设规则对被检字符串的格式进行规范化处理,以获取处理后的被检字符串。
第二获取模块403,用于获取预设的关键词参数表,其中,预设的关键词参数表中包括多个关键词。
确定模块404,用于确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词。
匹配模块405,在确定存在至少一个关键词的情况下,确定关键词匹配成功。
在本申请一些实施例中,规范化模块402还可以用于:在第二获取模块403获取预设的关键词参数表之后,确定预设的关键词参数表中的各个关键词是否已被规范化处理;在确定存在未被规范化处理的关键词的情况下,根据预设规则对未规范化处理的关键词的格式进行规范化处理。
在本申请一些实施例中,规范化模块402可以具体用于以下至少之一:将被检字符串中的全角字符转换为半角字符;对被检字符串中的空格进行规范化处理;对被检字符串中的中文分隔符进行规范化处理。
在本申请一些实施例中,规范化模块402还可以具体用于:将被检字符串中的大写字符转换为小写字符。
在本申请一些实施例中,对被检字符串中的空格进行规范化处理,可以包括但不限于以下之一:去除被检字符串中的所有空格;将被检字符串中连续的多个空格合并为一个空格。
在本申请一些实施例中,对被检字符串中的中文分隔符进行规范化处理,可以包括但不限于:去除被检字符串中空的中文字符;以及去除被检字符串中相邻的中文分隔符。
在本申请一些实施例中,关键词匹配装置还可以包括生成模块,该生成模块可以用于:在第二获取模块403获取预设的关键词参数表之前,获取多个关键词;将多个关键词写入参数表中并在相邻关键词之间插入预设的分隔符,以生成预设的关键词参数表。
在本申请一些实施例中,确定模块404可以具体用于:根据预设的分隔符从预设的关键词参数表中逐个读取关键词;将逐个读取的关键词,与处理后的被检字符串进行逐字匹配,以确定处理后的被检字符串中是否存在关键词参数表中的至少一个关键词。
在本申请一些实施例中,上述关键词匹配装置还可以包括高频字词统计及展示模块,高频字词统计及展示模块具体可以用于:对被检字符串中的高频字词进行统计;记录高频字词并向业务人员展示,其中,业务人员对高频字词进行判断以确定是否将该高频字词作为关键词;响应于业务人员确定将该高频字词作为关键词,将该高频字词写入预设的关键词参数表。
在本申请一些实施例中,对被检字符串中的高频字词进行统计,可以包括:将被检字符串转换为预设码制;利用预设码制的应用环境中的算法对转换后的被检字符串进行截取拆分,以获取多个字词;统计每个字词的出现频率;以及将出现频率大于预设频率的字词确定为高频字词或者将出现频率最高的前N个字词确定为高频字词,其中N为预设的正整数。
从以上的描述中,可以看出,本申请实施例实现了如下技术效果:上述方案中的关键词匹配方法和关键词匹配装置,只需对被检字符串的格式进行规范化处理,而无需将被检字符串转换为其他码制,也就无需在大型主机系统上建立整套的其他码制运行处理环境,可以有效节约系统的资源,提高关键词匹配的效率;同时,通过将多个关键词维护在预设的关键词参数表中,可以降低关键词存储的复杂度,提高存储空间的资源利用率,提高关键词存储的可扩展性。通过上述方案解决了现有技术中基于大型主机系统的EBCDIC码环境中关键词匹配困难的问题,达到有效提升关键词匹配效率、降低关键词匹配成本的技术效果。
本申请实施方式还提供了一种计算机设备,具体可以参阅图5所示的基于本申请实施例提供的关键词匹配方法的计算机设备组成结构示意图,所述计算机设备具体可以包括输入设备51、处理器52、存储器53。其中,存储器53用于存储处理器52可执行指令。处理器52用于在执行存储器53中存储的指令时实现上述任意实施例中所述的关键词匹配方法的步骤。所述输入设备51具体可以用于输入被检字符串、关键词等。
在本实施方式中,所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该计算机设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本申请实施方式中还提供了一种基于关键词匹配方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:上述任意实施例中所述的关键词匹配方法的步骤。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本申请的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种关键词匹配方法,其特征在于,包括:
获取被检字符串;
根据预设规则对所述被检字符串的格式进行规范化处理,以获取处理后的被检字符串;
获取预设的关键词参数表,其中,所述预设的关键词参数表中有多个关键词;
确定所述处理后的被检字符串中是否存在所述关键词参数表中的至少一个关键词;
在确定存在至少一个关键词的情况下,确定关键词匹配成功。
2.根据权利要求1所述的方法,其特征在于,在获取预设的关键词参数表之后,还包括:
确定所述预设的关键词参数表中的各个关键词是否已被规范化处理;
在确定存在未被规范化处理的关键词的情况下,根据所述预设规则对未规范化处理的关键词的格式进行规范化处理。
3.根据权利要求1所述的方法,其特征在于,所述根据预设规则对所述被检字符串的格式进行规范化处理,包括以下至少之一:
将所述被检字符串中的全角字符转换为半角字符;
对所述被检字符串中的空格进行规范化处理;
对所述被检字符串中的中文分隔符进行规范化处理。
4.根据权利要求3所述的方法,其特征在于,所述根据预设规则对所述被检字符串的格式进行规范化处理,还包括:
将所述被检字符串中的大写字符转换为小写字符。
5.根据权利要求3所述的方法,其特征在于,所述对所述被检字符串中的空格进行规范化处理,包括以下之一:
去除所述被检字符串中的所有空格;
将所述被检字符串中连续的多个空格合并为一个空格。
6.根据权利要求3所述的方法,其特征在于,所述对所述被检字符串中的中文分隔符进行规范化处理,包括:
去除所述被检字符串中空的中文字符;以及
去除所述被检字符串中相邻的中文分隔符。
7.根据权利要求1所述的方法,其特征在于,在获取预设的关键词参数表之前,还包括:
获取多个关键词;
将所述多个关键词写入参数表中并在相邻关键词之间插入预设的分隔符,以生成所述预设的关键词参数表。
8.根据权利要求7所述的方法,其特征在于,确定所述处理后的被检字符串中是否存在所述关键词参数表中的至少一个关键词,包括:
根据所述预设的分隔符从所述预设的关键词参数表中逐个读取关键词;
将逐个读取的关键词,与所述处理后的被检字符串进行逐字匹配,以确定所述处理后的被检字符串中是否存在所述关键词参数表中的至少一个关键词。
9.一种关键词匹配装置,其特征在于,包括:
第一获取模块,用于获取被检字符串;
规范化模块,用于根据预设规则对所述被检字符串的格式进行规范化处理,以获取处理后的被检字符串;
第二获取模块,用于获取预设的关键词参数表,其中,所述预设的关键词参数表中包括多个关键词;
确定模块,用于确定所述处理后的被检字符串中是否存在所述关键词参数表中的至少一个关键词;
匹配模块,在确定存在至少一个关键词的情况下,确定匹配成功。
10.一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910367296.3A CN110147431A (zh) | 2019-05-05 | 2019-05-05 | 关键词匹配方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910367296.3A CN110147431A (zh) | 2019-05-05 | 2019-05-05 | 关键词匹配方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110147431A true CN110147431A (zh) | 2019-08-20 |
Family
ID=67593866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910367296.3A Pending CN110147431A (zh) | 2019-05-05 | 2019-05-05 | 关键词匹配方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147431A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112532565A (zh) * | 2019-09-17 | 2021-03-19 | 中移(苏州)软件技术有限公司 | 一种网络数据包检测方法、装置、终端及存储介质 |
CN112561095A (zh) * | 2020-12-21 | 2021-03-26 | 交控科技股份有限公司 | 一种状态监测与资产管理联动控制方法及装置 |
CN112699636A (zh) * | 2021-01-08 | 2021-04-23 | 中南大学 | 一种多源Markdown地质资料文本格式规范化方法及系统 |
CN112822187A (zh) * | 2020-12-31 | 2021-05-18 | 山石网科通信技术股份有限公司 | 网络攻击的检测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101738196A (zh) * | 2009-12-10 | 2010-06-16 | 东软集团股份有限公司 | 导航设备的信息检索方法及装置 |
CN102486784A (zh) * | 2010-12-06 | 2012-06-06 | 耶宝智慧(北京)技术发展有限公司 | 信息请求方法和信息提供方法 |
CN102999481A (zh) * | 2012-12-07 | 2013-03-27 | 金川集团股份有限公司 | 中文项目集合的关键词可问答式自动完成的软件实现方法 |
CN103870537A (zh) * | 2013-12-03 | 2014-06-18 | 山东金质信息技术有限公司 | 一种标准检索智能分词方法 |
CN107423279A (zh) * | 2017-04-11 | 2017-12-01 | 美林数据技术股份有限公司 | 一种金融信贷短信的信息抽取和分析方法 |
CN107590214A (zh) * | 2017-08-30 | 2018-01-16 | 腾讯科技(深圳)有限公司 | 搜索关键词的推荐方法、装置及电子设备 |
-
2019
- 2019-05-05 CN CN201910367296.3A patent/CN110147431A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101738196A (zh) * | 2009-12-10 | 2010-06-16 | 东软集团股份有限公司 | 导航设备的信息检索方法及装置 |
CN102486784A (zh) * | 2010-12-06 | 2012-06-06 | 耶宝智慧(北京)技术发展有限公司 | 信息请求方法和信息提供方法 |
CN102999481A (zh) * | 2012-12-07 | 2013-03-27 | 金川集团股份有限公司 | 中文项目集合的关键词可问答式自动完成的软件实现方法 |
CN103870537A (zh) * | 2013-12-03 | 2014-06-18 | 山东金质信息技术有限公司 | 一种标准检索智能分词方法 |
CN107423279A (zh) * | 2017-04-11 | 2017-12-01 | 美林数据技术股份有限公司 | 一种金融信贷短信的信息抽取和分析方法 |
CN107590214A (zh) * | 2017-08-30 | 2018-01-16 | 腾讯科技(深圳)有限公司 | 搜索关键词的推荐方法、装置及电子设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112532565A (zh) * | 2019-09-17 | 2021-03-19 | 中移(苏州)软件技术有限公司 | 一种网络数据包检测方法、装置、终端及存储介质 |
CN112532565B (zh) * | 2019-09-17 | 2022-06-10 | 中移(苏州)软件技术有限公司 | 一种网络数据包检测方法、装置、终端及存储介质 |
CN112561095A (zh) * | 2020-12-21 | 2021-03-26 | 交控科技股份有限公司 | 一种状态监测与资产管理联动控制方法及装置 |
CN112561095B (zh) * | 2020-12-21 | 2024-04-30 | 交控科技股份有限公司 | 一种状态监测与资产管理联动控制方法及装置 |
CN112822187A (zh) * | 2020-12-31 | 2021-05-18 | 山石网科通信技术股份有限公司 | 网络攻击的检测方法及装置 |
CN112699636A (zh) * | 2021-01-08 | 2021-04-23 | 中南大学 | 一种多源Markdown地质资料文本格式规范化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147431A (zh) | 关键词匹配方法、装置、计算机设备和存储介质 | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
Guerrouj et al. | Tidier: an identifier splitting approach using speech recognition techniques | |
US10755048B2 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
Hegewald et al. | XStruct: efficient schema extraction from multiple and large XML documents | |
US9195738B2 (en) | Tokenization platform | |
WO2016023471A1 (zh) | 手写输入字符的处理、数据拆分和合并及编解码处理方法 | |
CN111241389B (zh) | 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
US20120084077A1 (en) | Building and contracting a linguistic dictionary | |
CN110297988A (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN104102701B (zh) | 一种基于hive的历史数据存档与查询方法 | |
CN109558128A (zh) | json数据解析方法、装置及计算机可读存储介质 | |
CN101794318A (zh) | Url解析方法及设备 | |
US20070271240A1 (en) | Method and system of accessing network from an embedded device | |
WO2001029696A1 (en) | Method and apparatus for identifying erroneous characters in text | |
CN112084342A (zh) | 试题生成方法、装置、计算机设备及存储介质 | |
CN110851136A (zh) | 数据获取方法、装置、电子设备及存储介质 | |
CN110795069A (zh) | 代码分析方法、智能终端及计算机可读存储介质 | |
CN108664546A (zh) | Xml数据结构转换方法和装置 | |
US7912703B2 (en) | Unsupervised stemming schema learning and lexicon acquisition from corpora | |
CN114416926A (zh) | 关键词匹配方法、装置、计算设备及计算机可读存储介质 | |
CN111090668B (zh) | 数据检索方法及装置、电子设备和计算机可读存储介质 | |
CN108959343A (zh) | 一种文字修改的方法及装置 | |
CN117093619A (zh) | 一种规则引擎处理方法、装置、电子设备及存储介质 | |
CN108008947A (zh) | 一种编程语句的智能提示方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190820 |