CN108804487A - 一种提取目标字符的方法及装置 - Google Patents

一种提取目标字符的方法及装置 Download PDF

Info

Publication number
CN108804487A
CN108804487A CN201711466125.3A CN201711466125A CN108804487A CN 108804487 A CN108804487 A CN 108804487A CN 201711466125 A CN201711466125 A CN 201711466125A CN 108804487 A CN108804487 A CN 108804487A
Authority
CN
China
Prior art keywords
character
data
target character
matched
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711466125.3A
Other languages
English (en)
Inventor
姚德生
叶天宽
丁小波
杨正铃
欧伯武
谭明武
农家锴
陈炎森
周泽杰
陈炫锦
张炜东
王绮媛
於文婧
郭骏逸
赵茜
邵韵潮
曾小箭
肖献骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Internet Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Internet Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Internet Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711466125.3A priority Critical patent/CN108804487A/zh
Publication of CN108804487A publication Critical patent/CN108804487A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种提取目标字符方法,包括:接收到文本数据后,将所述文本数据转换为字符数据;将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;输出所述目标字符。本发明还同时公开了一种提取目标字符装置及计算机可读存储介质。

Description

一种提取目标字符的方法及装置
技术领域
本发明涉及文字识别匹配技术,尤其涉及一种提取目标字符的方法、装置及计算机可读存储介质。
背景技术
目前,手机终端只具备接收验证码内容信息并没有对接受到的内容进行精确提取,并以统一格式的字符串将验证码内容展示给用户。因此,现有手机短信平台并没有把内容与验证码分开,缺乏突出显示验证码的功能,用户体验这一环节上不理想。
发明内容
有鉴于此,本发明实施例期望提供一种目标字符的提取方法、装置及计算机可读存储介质,能够精确有效地提炼短信内容获得短信验证码,同时通过不同颜色高亮显示验证码,从而提高了用户获取有效信息的速度。
为达到上述目的,本发明实施例提供了一种提取目标字符的方法:
接收到文本数据后,将所述文本数据转换为字符数据;
将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
输出所述目标字符。
其中,当接收到文本数据后,获取接收所述文本数据端口的端口格式;
上述将所述待提取字符的字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符,所述方法包括
判断所述接收到字符数据格式是否符合所述端口格式;
当确定所述接收到字符数据格式符合所述端口格式时,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
其中,上述根据所述预设的目标字符正则表达式中的,对所述字符数据进行匹配之后,所述方法包括:
当匹配失败后,将所述字符数据与预设的字符数据库的关键字符进行匹配;当所述字符数据与预设的字符数据库的关键字符匹配成功后,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
其中,上述判断所述接收到字符数据格式是否符合所述端口格式,包括:
根据所述端口格式中包含的规则字符串,对所接收到字符数据进行匹配;
匹配成功后,确定所述接收到字符数据格式符合所述端口格式。
其中,上述根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符,包括:
提取所述字符数据中的数字字符;
根据预设的目标字符正则表达式,对所述数字字符进行匹配,将匹配成功获得的数字字符确定为目标字符。
本发明实施例提供了一种提取目标字符的装置,所述装置包括:转换模块,匹配模块,输出模块;其中,
转换模块,用于接收到文本数据后,将所述文本数据转换为字符数据;
匹配模块,用于将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
输出模块,用于输出所述目标字符。
其中,当接收到文本数据后,获取接收所述文本数据端口的端口格式,上述匹配模块,用于所述将所述待提取字符的字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符,所述匹配模块用于:
判断所述接收到字符数据格式是否符合所述端口格式;
当确定所述接收到字符数据格式符合所述端口格式时,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
其中,上述匹配模块,用于当匹配失败后,将所述字符数据与预设的字符数据库的关键字符进行匹配;
当所述字符数据与预设的字符数据库的关键字符匹配成功后,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
其中,上述匹配模块,用于根据所述端口格式中包含的规则字符串,对所接收到字符数据进行匹配;
匹配成功后,确定所述接收到字符数据格式符合所述端口格式。
其中,上述匹配模块,用于提取所述字符数据中的数字字符;
根据预设的目标字符正则表达式,对所述数字字符进行匹配,将匹配成功获得的数字字符确定为目标字符。
本发明实施例提供了一种基于对象的社交装置,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
接收到文本数据后,将所述文本数据转换为字符数据;
将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
输出所述目标字符。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现:
接收到文本数据后,将所述文本数据转换为字符数据;
将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
输出所述目标字符。
本发明实施例提供的一种提取目标字符的方法、装置及计算机可读存储介质,接收到文本数据后,将所述文本数据转换为字符数据;将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;输出所述目标字符。如此,通过本发明实施例所提出的提取目标字符的方法,能够精确有效地提炼短信内容获得短信验证码,同时通过不同颜色高亮显示验证码,从而提高了用户获取有效信息的速度。
附图说明
图1为本发明实施例提取目标字符的方法实现流程示意图;
图2为本发明实施例提取目标字符的装置的结构示意图;
图3为本发明实施例提取短信种验证码方法的流程图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面对本发明实施例的实现进行详细阐述。
实施例一
图1为本发明实施例提取目标字符的方法实现流程示意图,如图1所示,本发明实施例提取目标字符的方法包括:
步骤101:接收到文本数据后,将所述文本数据转换为字符数据;
其中,当接收到文本数据后,同时获取接收所述文本数据端口的端口格式;
在实际应用中,常用的短信在传输时使用的编码方式有7-bit位编码、8-bit位编码以及Unicode编码,其中,
7-bit位编码为GSM的默认编码方式,可以发送的最大英文字符为160个;
8-bit位编码通常用于发送数据消息,例如:图片、音乐等;
Unicode编码通常是由UTF-16编码以16位无符号整数位单位对中文进行编码,例如:一个中文字符是两个字节,直接对高位字节和低位字节进行十六进制转换就可以了。如“欢迎”,UniCode编码是6B22 8FCE,这同时也就是转换的结果,如果发送的串中有英文字符,那么在前面补全00,以保证一个字符对应两个字节。
在短信的发送或接收过程中,均会涉及到短信地址的问题,其地址的编码规则与短信传输编码的方式保持一致,可以使用BCD8421码进行编码;
例如:08 91 6808501505F0;其中,08表示地址的长度,由(号码类型+号码长度)/2的十六进制进行表示;91表示号码类型;6808501505F0表示号码,其实际表达的号码为:+8613805515500,其中,对于号码的处理方法为,如号码是以+86开头,将+去掉,随后判断是否为偶数,如果不是,在号码的末尾处补F,最后将奇数位和偶数位互换。
在实际应用中,接收到短信PDU串为:08 91 683108503705F0 04 0D 91683106504562F7 00 08 30507080635400 046B228FCE后,可以获来自13600554267发送的“欢迎!”的信息,具体解析可参照下述表1的内容:
表1
步骤102:将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
其中,判断所述接收到字符数据格式是否符合所述端口格式;
根据所述端口格式中包含的规则字符串,对所接收到字符数据进行匹配;
匹配成功后,确定所述接收到字符数据格式符合所述端口格式。
当确定所述接收到字符数据格式符合所述端口格式时,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
当匹配失败后,将所述字符数据与预设的字符数据库的关键字符进行匹配;当所述字符数据与预设的字符数据库的关键字符匹配成功后,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
提取所述字符数据中的数字字符;
根据预设的目标字符正则表达式,对所述数字字符进行匹配,将匹配成功获得的数字字符确定为目标字符。
在实际应用中,所述目标字符正则表达式可以是对字符操作的一种逻辑公式,即预先定义一些特定的字符以及这些字符的组合,组成一个规则字符串,所述规则字符串可以同来表达对字符的一种过滤逻辑;例如,在给定一个正则表达式以及字符数据后,可以达到判断给定的字符数据是否符合给定的正则表达式的过滤逻辑,还可以通过该正则表达式,从字符数据中获得所预期特定部分的字符数据。
其中,所述目标字符正则表达式由普通字符以及元字符组成,普通字符包括有大小写的字符和数字,元字符则具有又特殊的功能含义,最简单的正则表达式中表达的是一个普通的字符查找串,例如:正则表达式“testing”中没有包含任何元字符,该正则表达式可以匹配“testing”“testing123”等字符串,但是并不能匹配到“Testing”的字符串,为了能够实现将正则表达式“testing”匹配到“Testing”的字符串,需要对将元字符添加到该正则表达式之中,以实现灵活匹配的目的。
在本发明实施例中,在匹配提取目标字符中可以用到的正则表示式包括:
验证用户名和密码:("^[a-zA-Z]\w{5,15}$");
正确格式:"[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位;
验证电话号码:("^(\d{3,4}-)\d{7,8}$");
正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx;
验证手机号码:"^1[3|4|5|7|8][0-9]{9}$";
验证身份证号(15位):"\d{14}[[0-9],0-9xX]",(18位):"\d{17}[[0-9],0-9xX]";
验证Email地址:("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$");
只能输入由数字和26个英文字母组成的字符串:("^[A-Za-z0-9]+$");
整数或者小数:^[0-9]+([.][0-9]+){0,1}$;
只能输入数字:"^[0-9]*$";
只能输入n位的数字:"^\d{n}$";
只能输入至少n位的数字:"^\d{n,}$"。
步骤103:输出所述目标字符。
在实际应用中,当根据步骤102提取出目标字符后,还需要将目标字符进行展示,以提升用户的体验,因此,可以通过用户终端的通知设置,将目标字符按照预设的方式向用户进行展示,并向用户提供以提取的目标字符作后续操作处理。例如,在用户终端上,通常情况下是以列表的形式进行展现,而列表还可以进一步通过选项、文本、空间、标签、图像、缩略图等多种表现形式对提取的目标字符进行展示,短信列表的形式在诸如通讯录、社交应用中的应用较频繁,其每一条内容均包含了设计用户的关键信息以及缩略的消息内容,该方式的优势在于用户可以通过这种展示形式快速的查询或获取所需要的信息。
本发明实施例提供的目标字符的提取方法、装置及计算机可读存储介质,接收到文本数据后,将所述文本数据转换为字符数据;将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;输出所述目标字符。如此,能够精确有效地提炼短信内容获得短信验证码,同时通过不同颜色高亮显示验证码,从而提高了用户获取有效信息的速度
实施例二
图2为本发明实施例提取目标字符的装置的结构示意图,如图2所示,所述系统包括:转换模块201,匹配模块202,输出模块203,其中,
转换模块201,用于接收到文本数据后,将所述文本数据转换为字符数据;
匹配模块202,用于将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
输出模块203,用于输出所述目标字符。
其中,当接收到文本数据后,获取接收所述文本数据端口的端口格式,上述匹配模块202,用于所述将所述待提取字符的字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符,所述匹配模块202用于:
判断所述接收到字符数据格式是否符合所述端口格式;
当确定所述接收到字符数据格式符合所述端口格式时,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
其中,上述匹配模块202,用于当匹配失败后,将所述字符数据与预设的字符数据库的关键字符进行匹配;
当所述字符数据与预设的字符数据库的关键字符匹配成功后,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
其中,上述匹配模块202,用于根据所述端口格式中包含的规则字符串,对所接收到字符数据进行匹配;
匹配成功后,确定所述接收到字符数据格式符合所述端口格式。
其中,上述匹配模块,用于提取所述字符数据中的数字字符;
根据预设的目标字符正则表达式,对所述数字字符进行匹配,将匹配成功获得的数字字符确定为目标字符。
本发明实施例提供了一种基于对象的社交装置,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
接收到文本数据后,将所述文本数据转换为字符数据;
将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
输出所述目标字符。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现:
接收到文本数据后,将所述文本数据转换为字符数据;
将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
输出所述目标字符。
需要说明的是,本发明实施例所述的转换模块201,匹配模块202,输出模块203的功能实现具体可以根据本发明实施例一种所述的提取目标字符的方法的相关描述进行理解,这里不再赘述。
上述转换模块201,匹配模块202,输出模块203可以设置与移动终端之中,并可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,ProgrammableRead-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically ErasableProgrammable Read-Only Memory)、磁性随机存取存储器(FRAM,Ferromagnetic RandomAccess Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static RandomAccess Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic RandomAccess Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced SynchronousDynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLinkDynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct RambusRandom Access Memory)。本发明实施例描述的转换模块201,匹配模块202,输出模块203旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,所述转换模块201,匹配模块202,输出模块203可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
下面以提取短信中验证码为例,对本发明实施例提取目标字符的方法进行进一步详细说明。
实施例三
图3为本发明实施例提取短信种验证码方法的流程图,如图3所示,本发明实施例提取短信种验证码方法包括以下步骤:
步骤301:获取用户短信;
步骤302:判断短信内容是否符合端口规则;
其中,当接收到文本数据后,同时获取接收所述文本数据端口的端口格式;根据短信的端口进行匹配端口正则表达式规则,是否符合行业端口规则,例如:1008611符合10086前缀开头且端口长度小于7位符合其中一个行业端口规则,当符合行业端口规则,执行步骤303,如不匹配,则该短信内容不包含验证码,结束当前流程;
在实际应用中,常用的短信在传输时使用的编码方式有7-bit位编码、8-bit位编码以及Unicode编码,其中,
7-bit位编码为GSM的默认编码方式,可以发送的最大英文字符为160个;
8-bit位编码通常用于发送数据消息,例如:图片、音乐等;
Unicode编码通常是以UTF-16编码以16位无符号整数位单位对中文进行编码,例如:一个中文字符是两个字节,直接对高位字节和低位字节进行十六进制转换就可以了。如“欢迎”,UniCode编码是6B22 8FCE,这同时也就是转换的结果,如果发送的串中有英文字符,那么在前面补全00,以保证一个字符对应两个字节。
在短信的发送或接收过程中,均会涉及到短信地址的问题,其地址的编码规则与短信传输编码的方式保持一致,可以使用BCD8421码进行编码;
例如:08 91 6808501505F0;其中,08表示地址的长度,由(号码类型+号码长度)/2的十六进制进行表示;91表示号码类型;6808501505F0表示号码,其实际表达的号码为:+8613805515500,其中,对于号码的处理方法为,如号码是以+86开头,将+去掉,随后判断是否为偶数,如果不是,在号码的末尾处补F,最后将奇数位和偶数位互换。
在实际应用中,接收到短信PDU串为:08 91 683108503705F0 04 0D 91683106504562F7 00 08 30507080635400 046B228FCE后,可以获来自13600554267发送的“欢迎!”的信息。
步骤303:将短信内容与验证码正则表达式匹配,匹配成功后,执行步骤307,匹配失败后,执行步骤304;
其中,其中,判断所述接收到字符数据格式是否符合所述端口格式;
根据所述端口格式中包含的规则字符串,对所接收到字符数据进行匹配;
匹配成功后,确定所述接收到字符数据格式符合所述端口格式。
在实际应用中,所述目标字符正则表达式可以是对字符操作的一种逻辑公式,即预先定义一些特定的字符以及这些字符的组合,组成一个规则字符串,所述规则字符串可以同来表达对字符的一种过滤逻辑;例如,在给定一个正则表达式以及字符数据后,可以达到判断给定的字符数据是否符合给定的正则表达式的过滤逻辑,还可以通过该正则表达式,从字符数据中获得所预期特定部分的字符数据。
其中,所述目标字符正则表达式由普通字符以及元字符组成,普通字符包括有大小写的字符和数字,元字符则具有又特殊的功能含义,最简单的正则表达式中表达的是一个普通的字符查找串,例如:正则表达式“testing”中没有包含任何元字符,该正则表达式可以匹配“testing”“testing123”等字符串,但是并不能匹配到“Testing”的字符串,为了能够实现将正则表达式“testing”匹配到“Testing”的字符串,需要对将元字符添加到该正则表达式之中,以实现灵活匹配的目的。
在本发明实施例中,在匹配提取目标字符中可以用到的正则表示式包括:
验证用户名和密码:("^[a-zA-Z]\w{5,15}$");
正确格式:"[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位;
验证电话号码:("^(\d{3,4}-)\d{7,8}$");
正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx;
验证手机号码:"^1[3|4|5|7|8][0-9]{9}$";
验证身份证号(15位):"\d{14}[[0-9],0-9xX]",(18位):"\d{17}[[0-9],0-9xX]";
验证Email地址:("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$");
只能输入由数字和26个英文字母组成的字符串:("^[A-Za-z0-9]+$");
整数或者小数:^[0-9]+([.][0-9]+){0,1}$;
只能输入数字:"^[0-9]*$";
只能输入n位的数字:"^\d{n}$";
只能输入至少n位的数字:"^\d{n,}$"。
在本发明实施例中,可以将短信内容与一系列的验证码正则表达式进行匹配,例如:通过正则表达式“验证码是%d”进行匹配,当匹配成功后,执行步骤307直接获得验证码;如匹配失败,则执行下一步骤304,对短信内容进行进一步匹配。
步骤304:判断短信内容是否包含有验证码类关键字,如包含,则执行步骤305,如不包含,则结束当前流程;
其中,当确定所述接收到字符数据格式符合所述端口格式时,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。当匹配失败后,将所述字符数据与预设的字符数据库的关键字符进行匹配;
当所述字符数据与预设的字符数据库的关键字符匹配成功后,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
在上述步骤303中,确定短信内容中无法直接提取出验证码,因此,需要在本步骤304中对该短信内容进行识别是否存在有与验证码相关的关键字,例如:“安全码”“登录验证号码”“验证口令”等没有包含验证码确表达了与验证码相同含义的关键字;当判断没有包含有关键字时,则表明该短信内容不包含有验证码;如判断包含有关键字,则执行步骤305。
步骤305:根据匹配规则获取短信内容中数字字符;
其中,提取所述字符数据中的数字字符;根据预设的目标字符正则表达式,对所述数字字符进行匹配,将匹配成功获得的数字字符确定为目标字符。
在实际应用中,根据匹配规则截取短信内容中4-8位前缀数字字符和4-8位后缀数字字符;当该短信内容中可以提取数字字符,则执行步骤306;如无法提取,则该短信内容没有包含有验证码内容,结束当前流程。
步骤306:滤除所述数字字符中与验证码无关的字符;
在实际应用中,所截取的数字字符还可能是与验证码无关的数字字符,例如:电话号码等,因此,在本发明实施例步骤306中将与验证码无关的数字字符滤除,可以通过正则表达式“致电”“客服”,将截取的数字字符中符合所述正则表达式的字数字字符进行滤除,滤除后获得的数字字符即可以最终确定为验证码内容。
步骤307:将剩余的数字字符生成验证码短信卡片进行展示;
在实际应用中,当根据步骤102提取出目标字符后,还需要将目标字符进行展示,以提升用户的体验,因此,可以通过用户终端的通知设置,将目标字符按照预设的方式向用户进行展示,并向用户提供以提取的目标字符作后续操作处理。例如,在用户终端上,通常情况下是以列表的形式进行展现,而列表还可以进一步通过选项、文本、空间、标签、图像、缩略图等多种表现形式对提取的目标字符进行展示,短信列表的形式在诸如通讯录、社交应用中的应用较频繁,其每一条内容均包含了设计用户的关键信息以及缩略的消息内容,该方式的优势在于用户可以通过这种展示形式快速的查询或获取所需要的信息。
如上所述,本发明实施例提供的目标字符的提取方法、装置及计算机可读存储介质,接收到文本数据后,将所述文本数据转换为字符数据;将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;输出所述目标字符。如此,能够精确有效地提炼短信内容获得短信验证码,同时通过不同颜色高亮显示验证码,从而提高了用户获取有效信息的速度。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (12)

1.一种提取目标字符的方法,其特征在于,所述方法包括:
接收到文本数据后,将所述文本数据转换为字符数据;
将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
输出所述目标字符。
2.根据权利要求1所述的方法,其特征在于,当接收到文本数据后,获取接收所述文本数据端口的端口格式;
所述将所述待提取字符的字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符,所述方法包括:
判断所述接收到字符数据格式是否符合所述端口格式;
当确定所述接收到字符数据格式符合所述端口格式时,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预设的目标字符正则表达式中的,对所述字符数据进行匹配之后,所述方法包括:
当匹配失败后,将所述字符数据与预设的字符数据库的关键字符进行匹配;当所述字符数据与预设的字符数据库的关键字符匹配成功后,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
4.根据权利要求1所述的方法,其特征在于,所述判断所述接收到字符数据格式是否符合所述端口格式,包括:
根据所述端口格式中包含的规则字符串,对所接收到字符数据进行匹配;
匹配成功后,确定所述接收到字符数据格式符合所述端口格式。
5.根据权利要求2或3所述的方法,其特征在于,所述根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符,包括:
提取所述字符数据中的数字字符;
根据预设的目标字符正则表达式,对所述数字字符进行匹配,将匹配成功获得的数字字符确定为目标字符。
6.一种提取目标字符的装置,其特征在于,所述装置包括:转换模块,匹配模块,输出模块;其中,
转换模块,用于接收到文本数据后,将所述文本数据转换为字符数据;
匹配模块,用于将所述字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符;
输出模块,用于输出所述目标字符。
7.根据权利要求6所述的装置,其特征在于,当接收到文本数据后,获取接收所述文本数据端口的端口格式,所述匹配模块,用于所述将所述待提取字符的字符数据与预设的目标字符正则表达式进行匹配,确定出匹配于所述目标字符正则表达式的目标字符,所述匹配模块用于:
判断所述接收到字符数据格式是否符合所述端口格式;
当确定所述接收到字符数据格式符合所述端口格式时,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
8.根据权利要求7所述的装置,其特征在于,所述匹配模块,用于当匹配失败后,将所述字符数据与预设的字符数据库的关键字符进行匹配;
当所述字符数据与预设的字符数据库的关键字符匹配成功后,根据所述预设的目标字符正则表达式,对所述字符数据进行匹配,将成功匹配的字符确定为目标字符。
9.根据权利要求7所述的装置,其特征在于,所述匹配模块,用于根据所述端口格式中包含的规则字符串,对所接收到字符数据进行匹配;
匹配成功后,确定所述接收到字符数据格式符合所述端口格式。
10.根据权利要求6至8所述的装置,其特征在于,所述匹配模块,用于提取所述字符数据中的数字字符;
根据预设的目标字符正则表达式,对所述数字字符进行匹配,将匹配成功获得的数字字符确定为目标字符。
11.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至5任一所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一所述方法的步骤。
CN201711466125.3A 2017-12-28 2017-12-28 一种提取目标字符的方法及装置 Pending CN108804487A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711466125.3A CN108804487A (zh) 2017-12-28 2017-12-28 一种提取目标字符的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711466125.3A CN108804487A (zh) 2017-12-28 2017-12-28 一种提取目标字符的方法及装置

Publications (1)

Publication Number Publication Date
CN108804487A true CN108804487A (zh) 2018-11-13

Family

ID=64095016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711466125.3A Pending CN108804487A (zh) 2017-12-28 2017-12-28 一种提取目标字符的方法及装置

Country Status (1)

Country Link
CN (1) CN108804487A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933973A (zh) * 2019-01-24 2019-06-25 平安科技(深圳)有限公司 密码校验方法、装置、计算机设备及存储介质
CN110083579A (zh) * 2019-03-21 2019-08-02 深圳壹账通智能科技有限公司 增量数据同步的方法、装置、计算机设备及计算机存储介质
CN111563211A (zh) * 2020-04-01 2020-08-21 深信服科技股份有限公司 一种统一资源定位符提取方法、装置、设备和存储介质
CN112462953A (zh) * 2020-11-23 2021-03-09 厦门理工学院 一种动态输入方法及装置
CN112685584A (zh) * 2021-03-22 2021-04-20 北京世纪好未来教育科技有限公司 图像内容标注方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1189150A1 (en) * 2000-01-05 2002-03-20 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
CN101196928A (zh) * 2007-12-29 2008-06-11 杭州华三通信技术有限公司 一种内容搜索方法、系统以及引擎分发单元
CN101741756A (zh) * 2008-11-19 2010-06-16 中兴通讯股份有限公司 对即时通讯文本消息中特殊字符串转换的方法和系统
KR20120051322A (ko) * 2010-11-12 2012-05-22 한양대학교 산학협력단 구문론적으로 분석된 텍스트 코퍼스로부터 정보를 추출하는 트리 패턴 표현식을 이용한 시스템 및 방법
CN103702297A (zh) * 2013-12-10 2014-04-02 小米科技有限责任公司 短信增强方法、装置及系统
CN105916127A (zh) * 2016-06-27 2016-08-31 北京奇虎科技有限公司 用于获取用户流量信息的方法、装置及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1189150A1 (en) * 2000-01-05 2002-03-20 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
CN101196928A (zh) * 2007-12-29 2008-06-11 杭州华三通信技术有限公司 一种内容搜索方法、系统以及引擎分发单元
CN101741756A (zh) * 2008-11-19 2010-06-16 中兴通讯股份有限公司 对即时通讯文本消息中特殊字符串转换的方法和系统
KR20120051322A (ko) * 2010-11-12 2012-05-22 한양대학교 산학협력단 구문론적으로 분석된 텍스트 코퍼스로부터 정보를 추출하는 트리 패턴 표현식을 이용한 시스템 및 방법
CN103702297A (zh) * 2013-12-10 2014-04-02 小米科技有限责任公司 短信增强方法、装置及系统
CN105916127A (zh) * 2016-06-27 2016-08-31 北京奇虎科技有限公司 用于获取用户流量信息的方法、装置及服务器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933973A (zh) * 2019-01-24 2019-06-25 平安科技(深圳)有限公司 密码校验方法、装置、计算机设备及存储介质
WO2020151319A1 (zh) * 2019-01-24 2020-07-30 平安科技(深圳)有限公司 密码校验方法、装置、计算机设备及存储介质
CN109933973B (zh) * 2019-01-24 2024-01-19 平安科技(深圳)有限公司 密码校验方法、装置、计算机设备及存储介质
CN110083579A (zh) * 2019-03-21 2019-08-02 深圳壹账通智能科技有限公司 增量数据同步的方法、装置、计算机设备及计算机存储介质
CN111563211A (zh) * 2020-04-01 2020-08-21 深信服科技股份有限公司 一种统一资源定位符提取方法、装置、设备和存储介质
CN112462953A (zh) * 2020-11-23 2021-03-09 厦门理工学院 一种动态输入方法及装置
CN112462953B (zh) * 2020-11-23 2023-02-28 厦门理工学院 一种动态输入方法及装置
CN112685584A (zh) * 2021-03-22 2021-04-20 北京世纪好未来教育科技有限公司 图像内容标注方法和装置

Similar Documents

Publication Publication Date Title
CN108804487A (zh) 一种提取目标字符的方法及装置
RU2608464C2 (ru) Устройство, способ и сетевой сервер для обнаружения структур данных в потоке данных
CN107025362A (zh) 一种校验原理图和pcb生产数据一致性的方法
CN106559314A (zh) 一种跨平台的通信处理方法、装置
CN106788995A (zh) 文件加密方法及装置
CN111475785B (zh) 信息采集方法、装置、计算机设备和存储介质
CN101729075A (zh) 一种数据压缩、解压缩的方法和装置
CN103970913B (zh) Utf‑8与ansi编码识别方法以及装置
CN106060220B (zh) 一种联系人信息创建方法和移动终端
CN110147431A (zh) 关键词匹配方法、装置、计算机设备和存储介质
WO2013097812A1 (zh) 一种下载字库文件的方法和系统
CN111461719A (zh) 一种区块链账户身份标识方法
CN107888419A (zh) 一种交换机网络拓扑生成方法及装置
US10339297B2 (en) Determining whether continuous byte data of inputted data includes credential
CN111680303B (zh) 漏洞扫描方法、装置、存储介质及电子设备
CN107798004B (zh) 关键词查找方法、装置及终端
US9584537B2 (en) System and method for detecting mobile cyber incident
CN108108267B (zh) 数据的恢复方法和装置
CN106559554A (zh) 一种通信处理方法、装置
CN111459911B (zh) 业务数据的处理方法及设备
CN109840080B (zh) 字符属性比较方法、装置、存储介质及电子设备
CN113835981A (zh) 日志格式适配方法、系统、装置及计算机可读存储介质
CN115883111A (zh) 一种钓鱼网站识别方法、装置、电子设备及存储介质
CN104933547A (zh) 一种数据输入的方法、装置和系统
US12041076B2 (en) Detecting visual similarity between DNS fully qualified domain names

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113