CN110875959B - 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法 - Google Patents

识别数据的方法、识别垃圾邮箱的方法及文件识别的方法 Download PDF

Info

Publication number
CN110875959B
CN110875959B CN201810914895.8A CN201810914895A CN110875959B CN 110875959 B CN110875959 B CN 110875959B CN 201810914895 A CN201810914895 A CN 201810914895A CN 110875959 B CN110875959 B CN 110875959B
Authority
CN
China
Prior art keywords
data
mailbox
word
recognized
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810914895.8A
Other languages
English (en)
Other versions
CN110875959A (zh
Inventor
张振永
王莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810914895.8A priority Critical patent/CN110875959B/zh
Publication of CN110875959A publication Critical patent/CN110875959A/zh
Application granted granted Critical
Publication of CN110875959B publication Critical patent/CN110875959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4555Directories for electronic mail or instant messaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种识别数据的方法、识别垃圾邮箱的方法及文件识别的方法。其中,该方法包括:获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。本申请解决了现有技术采用文本相似度来识别数据,由于文本相似度的识别过程会有一定的识别误差,导致识别结果不准确的技术问题。

Description

识别数据的方法、识别垃圾邮箱的方法及文件识别的方法
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种识别数据的方法、识别垃圾邮箱的方法及文件识别的方法。
背景技术
随着海外电商平台的兴起,很多用户开始使用海外邮箱注册登录海外电商平台,不法用户注册海外垃圾邮箱进行刷单的情况也逐渐增多,并且,由于之前国内的垃圾邮箱识别方法,主要是基于中文文字使用习惯进行判断识别,直接采用国内的垃圾邮箱识别方法识别海外邮箱,会造成识别误差或者或识别遗漏。
目前现有的识别垃圾邮箱的方法中较为常用方法是:为采用文本相似度来识别垃圾邮箱,但是,文本相似度基于笛卡尔积算法进行计算,计算成本较大,且文本相似度的识别过程会有一定的识别误差,例如,A邮箱命名为admin1@A.com;B邮箱命名为admin2@B.com,在利用文本相似度进行垃圾邮箱识别的过程中,可能存在对A邮箱和B邮箱识别误差的情况,导致垃圾邮箱的识别结果不准确。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种识别数据的方法、识别垃圾邮箱的方法及文件识别的方法,以至少解决现有技术采用文本相似度来识别数据,由于文本相似度的识别过程会有一定的识别误差,导致识别结果不准确的技术问题。
根据本申请实施例的一个方面,提供了一种识别数据的方法,包括:获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
根据本申请实施例的另一方面,还提供了一种识别垃圾邮箱的方法,包括:接收输入的邮箱的字符信息,其中,上述字符信息包含:组成邮箱名称的单词的字符;对上述邮箱的字符信息进行分析,得到上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述邮箱是否为垃圾邮箱。
根据本申请实施例的另一方面,还提供了一种文件识别的方法,包括:确定待检测对象的对象名称的字符信息,其中,上述字符信息包含:组成上述对象名称的单词的字符;对上述字符信息进行分析,得到上述字符信息所对应的发音特征;基于上述发音特征,确定上述待检测对象是否为指定类型对象。
根据本申请实施例的另一方面,还提供了一种识别数据的方法,包括:获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息中一或多个单词所包含的字符的发音的重复占比;基于上述重复占比,确定上述待识别数据是否为第一类型数据。
根据本申请实施例的另一方面,还提供了一种计算设备,包括:第一装置,用于接收输入的邮箱的字符信息,其中,上述字符信息包含:组成邮箱名称的单词的字符;处理器,上述处理器运行程序,其中,上述程序运行时对于从上述第一装置输出的数据执行如下处理步骤:对上述邮箱的字符信息进行分析,得到上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述邮箱是否为垃圾邮箱。
根据本申请实施例的另一方面,还提供了一种识别数据的系统,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
在本申请实施例中,采用以待识别数据的语言组成特征、语言发音特征为关键因素进行识别的方式,通过获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
容易注意到的是,本申请实施例通过对获取到的待识别数据的字符信息进行分析,得到与待识别数据的字符信息对应的语言特征,在上述待识别数据为邮箱的情况下,通过对国内及海外多国文字语言的组成习惯和发音特点等进行分析,进而可以基于该语言特征确定上述邮箱是否为垃圾邮箱,达到了避免在识别垃圾邮箱的过程中出出现识别误差或者或识别遗漏的现象的目的。
由此,本申请实现了提高识别数据的识别准确性的技术效果,进而解决了现有技术采用文本相似度来识别数据,由于文本相似度的识别过程会有一定的识别误差,导致识别结果不准确的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种用于实现识别垃圾邮箱的方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例的一种识别数据的方法的流程图;
图3是根据本申请实施例的一种可选的识别数据的方法的流程图;
图4是根据本申请实施例的一种可选的识别数据的方法的流程图;
图5是根据本申请实施例的一种文件识别的方法的流程图;
图6是根据本申请实施例的一种识别垃圾邮箱的方法的流程图;
图7是根据本申请实施例的另一种识别数据的方法的流程图;
图8是根据本申请实施例的又一种识别数据的方法的流程图;
图9是根据本申请实施例的一种识别数据的装置的示意图;
图10是根据本申请实施例的一种文件识别的装置的示意图;
图11是根据本申请实施例的一种识别垃圾邮箱的装置的示意图;
图12是根据本申请实施例的另一种识别数据的装置的示意图;
图13是根据本申请实施例的又一种识别数据的装置的示意图;以及
图14是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
元音,又称母音,是音素的一种,与辅音相对,是在发音过程中由气流通过口腔而不受阻碍发出的音。
辅音,辅音依元音而存在,并与元音配合,产生音节,组成语言的多样化发音。
实施例1
根据本申请实施例,提供了一种识别垃圾邮箱的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现识别垃圾邮箱的方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的识别垃圾邮箱的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的识别数据的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的一种识别数据的方法。图2是根据本申请实施例的一种识别数据的方法的流程图,如图2所示,上述识别数据的方法,包括如下方法步骤:
步骤S202,获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息。
在本申请中的可选实施例中,步骤S202至步骤S206的执行主体可以但不限于为邮箱识别模型,例如,海外邮箱识别模型,还可以为包含上述邮箱识别模型的移动设备、计算设备等。
可选的,上述待识别数据可以为邮箱,例如,国内邮箱、海外邮箱;还可以为垃圾文件、垃圾短信、短信发送箱,语音留言箱等。上述邮箱的种类可以为私人邮箱、公共邮箱等。
在上述可选的实施例中,上述字符信息包含:组成标识的单词的字符,该标识用于标识上述待识别数据,上述标识可以为邮箱的名称,例如,“my name”;上述组成标识的单词的字符可以为英文单词的字符、法文单词的字符、西班牙文单词的字符,等等。
步骤S204,获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比。
在一种可选的实施例中,可以通过对上述待识别数据的字符信息进行分析,得到上述字符信息所对应的语言特征,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比。
一种可选的实施例中,以上述待识别数据为邮箱,上述标识为邮箱的名称为例,上述海外邮箱识别模型可以读取组成上述邮箱名称的一或多个单词,以上述邮箱名称为“myname”为例,可以读取邮箱名称“my name”的一或多个单词:“my”和“name”。并且,根据邮箱名称“my name”的语言种类,例如,由于“my name”为英文,则可以按照英文的分类规则对上述“my”和“name”进行分类,得到单词“my”和单词“name”。
在上述可选的实施例中,还可以对单词“my”和单词“name”所包含的字符信息进行分析,例如对上述单词“my”和单词“name”所包含的字符的元音和辅音的占比进行分析,得到分析结果,其中,分析结果包括如下至少之一:每个字符的发音、连续重复的字符和包含在上述单词中的数字,上述发音包括:元音和辅音。
在一种可选的实施例中,基于上述分析结果,可以计算得到上述字符信息所对应的语言特征,例如,计算得到上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比。
需要说明的是,本申请实施例中还可以转换特殊的辅音特征,例如,很多语言中的“y”是辅音,但是“y”在使用时与元音的使用习惯相同,分析此类辅音时可以参考分析元音的规则。此外,由于印度语的发音习惯特殊,存在连续辅音情况,可以作为特殊的辅音特征进行考虑,并不能一概而论,在检测到印度语的邮箱名称中存在连续辅音的情况下即简单认为是垃圾邮箱。
步骤S206,基于上述语言特征,确定上述待识别数据是否为第一类型数据。
在上述步骤S206中,上述第一类型数据为非法数据或垃圾数据,以待识别对象为邮箱为例,则上述第一类型数据对应为非法邮箱或垃圾邮箱。
在一种可选的实施例中,可以通过如下方式确定上述待识别数据是否为第一类型数据:在计算得到的上述一或多个单词中字符的发音的重复占比超过预定阀值的情况下,确定上述待识别数据为上述第一类型数据;在上述单词中包含连续重复的字符的情况下,确定上述待识别数据为上述第一类型数据;在包含在上述单词中的数字的占比超过预定数量的情况下,确定上述待识别数据为上述第一类型数据。
在另一种可选的实施例中,还可以通过如下方式确定上述待识别数据是否为第一类型数据:基于上述语言特征,确定上述待识别数据为上述第一类型数据的风险值;在上述风险值高于预定值的情况下,确定上述待识别数据为第一类型数据;在上述风险值低于上述预定值的情况下,基于构成上述单词的字符串的跳转概率,来确定上述待识别数据是否为上述第一类型数据。
在本申请实施例中,采用以待识别数据的语言组成特征、语言发音特征为关键因素进行识别的方式,通过获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
容易注意到的是,本申请实施例通过对获取到的待识别数据的字符信息进行分析,得到与待识别数据的字符信息对应的语言特征,在上述待识别数据为邮箱的情况下,通过对国内及海外多国文字语言的组成习惯和发音特点等进行分析,进而可以基于该语言特征确定上述邮箱是否为垃圾邮箱,达到了避免在识别垃圾邮箱的过程中出出现识别误差或者或识别遗漏的现象的目的。
由此,本申请实现了提高识别数据的识别准确性的技术效果,进而解决了现有技术采用文本相似度来识别数据,由于文本相似度的识别过程会有一定的识别误差,导致识别结果不准确的技术问题。
一种可选的实施例中,如图3所示,获取语言特征字符信息所对应的语言特征包括:
步骤S302,读取组成上述标识的一或多个单词。
在上述步骤S302中,以上述标识为邮箱名称,邮箱名称为“my name”为例,可以读取邮箱名称“my name”的一或多个单词:“my”和“name”。
步骤S304,按照语言种类对上述一或多个单词进行分类。
在一种可选的实施例中,以上述邮箱名称为“my name”为例,则由于“my name”为英文,则可以按照英文的分类规则对上述“my”和“name”进行分类,得到单词“my”和单词“name”。
步骤S306,对上述一或多个单词所包含的字符进行分析,得到分析结果,其中,分析结果包括如下至少之一:每个字符的发音、连续重复的字符和包含在上述单词中的数字,上述发音包括:元音和辅音;
步骤S308,基于上述分析结果,计算得到上述字符信息所对应的语言特征。
在上述可选的实施例中,还可以对单词“my”和单词“name”所包含的字符进行分析,例如对上述单词“my”和单词“name”所包含的字符的元音和辅音的占比进行分析,得到分析结果,其中,分析结果包括如下至少之一:每个字符的发音、连续重复的字符和包含在上述单词中的数字,上述发音包括:元音和辅音。
在一种可选的实施例中,基于上述分析结果,可以计算得到上述字符信息所对应的语言特征,例如,计算得到上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比,分析计算的成本较低。
一种可选的实施例中,基于上述语言特征,确定上述待识别数据是否为第一类型数据的步骤包括如下至少之一:
步骤S2061,在计算得到的上述一或多个单词中字符的发音的重复占比超过预定阀值的情况下,确定上述待识别数据为上述第一类型数据。
可选的,上述预定阀值可以为百分之八十,百分之八十五等百分比值,但并不限于此,本申请实施例可以根据实际情况,确定上述预定阀值的取值。
步骤S2063,在上述单词中包含连续重复的字符的情况下,确定上述待识别数据为上述第一类型数据。
在上述步骤S2063中,作为一种可选的实施例,如果将“aaaaaaa”看作为一个单词,且检测到该单词中包含连续重复的字符可以为“a”,则表明用户随意或恶意创建待识别数据,确定上述待识别数据为上述第一类型数据。
步骤S2065,在包含在上述单词中的数字的占比超过预定数量的情况下,确定上述待识别数据为上述第一类型数据。
在上述步骤S2065中,上述预定数量可以为3、5等,但并不限于此,本申请实施例可以根据实际情况,确定上述预定数量的取值。
在本申请实施例中,以上述预定数量为3为例,如果将“a12345w”看作为一个单词,且检测到该单词中的数字的占比超过了预定数量3,则表明用户随意或恶意创建待识别数据,确定上述待识别数据为上述第一类型数据。
一种可选的实施例中,如图4所示,基于上述语言特征,确定上述待识别数据是否为第一类型数据,包括:
步骤S402,基于上述语言特征,确定上述待识别数据为上述第一类型数据的风险值;
步骤S404,在上述风险值高于预定值的情况下,确定上述待识别数据为第一类型数据;
步骤S406,在上述风险值低于上述预定值的情况下,基于构成上述单词的字符串的跳转概率,来确定上述待识别数据是否为上述第一类型数据。
仍以上述待识别数据为邮箱为例,基于分析邮箱的字符信息得到的语言特征,可以得到邮箱是否为垃圾邮箱的风险值;在上述风险值高于预先设定的一个预定值(例如,风险阈值)的情况下,确定该邮箱为垃圾邮箱;在上述风险值低于上述预定值的情况下,则可以通过邮箱识别模型对构成单词的字符串的跳转概率进行分析,以确定邮箱是否为垃圾邮箱。
在一种可选的实施例中,本申请实施例中的邮箱识别模型可以但不限于选择名著、文章、新闻、字段等数据源的单词列表,进行训练得到一或多个单词中字符的相邻概率。上述海外邮箱识别模型在经过模型训练之后,可以在接收到输入的邮箱的字符信息的情况下,例如,接收到输入的邮箱的前缀名,即可以统计组成邮箱名称的单词的字符串的跳转概率,联合统计各字符串的跳转概率是否符合正常范围的要求,如字符串的跳转概率不符合正常范围的要求,则认定该字符串不合法,即确定上述邮箱为上述垃圾邮箱。
需要说明的是,上述预定值可以理解为一个风险阈值,即超出这个风险阈值则表明该邮箱存在为垃圾邮箱的风险,本申请实施例可以根据实际情况,确定上述预定值的取值。
一种可选的实施例中,在基于构成上述单词的字符串的跳转概率,来确定上述待识别数据是否为上述第一类型数据之前,上述方法还包括:
步骤S502,获取一或多个单词的字符串所包含的相邻字符之间的跳转次数;
步骤S504,根据一或多个单词的上述相邻字符之间的跳转次数,统计得到一或多个单词的跳转概率。
在一种可选的实施例中,仍以单词“name”为例,可以统计字符串“name”所包含的相邻字符(n->a,a->m,m->e)之间的跳转次数,并通过将上述相邻字符写入到英文字符组成的26*26的矩阵,经过联合概率计算,统计出上述单词“name”的跳转概率。
在本申请实施例中,在分析语言的组成习惯时,可以但不限于针对待识别数据的名称单词中的字符串中字符的跳转概率,由于字符库中已经存储有单词所对应的跳转概率分值,即各字符串跳转的概率在训练时已计算完成,因此,基于构成上述单词的字符串的跳转概率,来确定待识别数据是否为第一类型数据的计算成本较低。
一种可选的实施例中,基于构成上述单词的字符串的跳转概率,来确定上述待识别数据是否为上述第一类型数据包括:
步骤S602,获取字符库中预先存储的单词所对应的跳转概率分值;
在上述步骤S602中,上述字符库中预先存储的单词可以为名著、文章、新闻、字段等中的单词,可以通过拆分的方式,得到上述名著、文章、新闻、字段等中的单词。上述海外识别模型可以获取字符库中存储的单词列表,训练得到单词列表中的一或多个单词所对应的跳转概率分值。
步骤S604,基于上述字符库中预先存储的单词所对应的跳转概率分值,判断上述统计得到一或多个单词的跳转概率是否处于预设的分值范围内;
步骤S606,如果处于上述分值范围内,确定上述待识别数据为第二类型数据;
步骤S608,如果未处于上述分值范围内,确定上述待识别数据为上述第一类型数据。
可选的,上述第二类型数据为合法数据,以待识别对象为邮箱为例,则上述第一类型数据对应为合法邮箱。
由于本申请实施例中,仍以待识别对象为邮箱为例,已经预先通过邮箱识别模型对各种范围内的单词所对应跳转概率分值进行统计计算,得到正常单词的跳转概率分值。因此,在判断邮箱为合法邮箱的情况下,对于任意一个组成邮箱名称的一或多个单词,可以判断一或多个单词的跳转概率是否处于预设的分值范围内,防止用户随意或恶意创建第一类型数据。
在上述可选的实施例中,如果上述一或多个单词的跳转概率处于上述分值范围内,确定上述邮箱为合法邮箱;如果上述一或多个单词的跳转概率未处于上述分值范围内,确定上述邮箱为垃圾邮箱。
一种可选的实施例中,在获取字符库中预先存储的单词所对应的跳转概率分值之前,上述方法还包括:
步骤S702,获取数据源的单词列表。
可选的,数据源可以为名著、文章、新闻、字段等。
步骤S704,对上述单词列表中的单词进行字符相邻概率的训练,统计得到上述单词列表中一或多个单词所对应的跳转概率分值。
步骤S706,将上述单词列表中的单词,以及一或多个单词所对应的跳转概率分值保存至上述字符库。
在一种可选的实施例中,本申请实施例中的海外邮箱识别模型可以但不限于选择名著、文章、新闻、字段等数据源的单词列表,进行训练得到一或多个单词中字符的相邻概率。其中,上述单词列表中的单词可以预先通过拆分名著、文章、新闻、字段等得到的单词。
例如,以上述单词列表中的单词为“name”为例,可以统计n->a,a->m,m->e的相邻字符,写入到英文字符组成的26*26的矩阵,经过联合概率计算,可以统计出上述单词“name”所对应的跳转概率分值,并将单词“name”和该单词“name”所对应的跳转概率分值存储在字符库中。
一种可选的实施例中,基于构成上述单词的字符串的跳转概率,来确定上述待识别数据是否为上述第一类型数据,包括:
步骤S802,基于构成上述单词的字符串的跳转概率,确定上述待识别数据为上述第一类型数据的风险值。
可选的,构成上述单词的字符串的跳转概率即为一或多个单词的跳转概率之和,若上述一或多个单词的跳转概率均处于对应的分值范围内,则上述风险值处于安全范围内;若上述一或多个单词的跳转概率均未处于对应的分值范围内,或者任意之一单词的跳转概率未处于对应的分值范围内,则上述风险值未处于安全范围内。
步骤S804,在上述风险值处于安全范围内的情况下,确定上述待识别数据为第二类型数据;
步骤S806,在上述风险值未处于安全范围内的情况下,基于预先设置的语料库来确定上述待识别数据是否为上述第一类型数据。
可选的,上述安全范围可以为百分之八十、百分之八十五等范围值,但并不限于此,本申请实施例可以根据实际需要确定上述安全范围的取值。
一种可选的实施例中,基于预先设置的语料库来确定上述待识别数据是否为上述第一类型数据,包括:
步骤S902,获取至少一种语种的语料库。
可选的,上述语种可以为英语、美语、日语、西班牙语、法语等语种。
步骤S904,从上述语料库中选择满足预定条件的预定数量的单词,其中,上述预定条件包括如下至少之一:预定对象的姓名、预定对象的地名。
在上述步骤S904中,上述预定对象可以为新生儿、妇女、男士、儿童、老人等特定种类的对象;上述地名可以为预定对象所居住的地名、预定对象户籍所在地的地名等;上述预定数量可以为1000,但并不局限于此,本申请实施例中的可以根据实际情况确定上述预定数量的取值。
步骤S906,将组成上述标识的单词的字符与上述语料库中的单词进行匹配,得到匹配结果。
一种可选的实施例中,将组成上述标识的单词的字符与上述语料库中的单词进行匹配,得到匹配结果,包括:
步骤S1002,如果匹配结果为匹配成功,则确定构成上述待识别数据的单词为安全命名,其中,单词为上述安全命名,则上述待识别数据为第二类型数据;
步骤S1004,如果匹配结果为匹配失败,则确定构成上述待识别数据的单词为风险命名,其中,单词为上述风险命名,则上述待识别数据为第一类型数据。
以上述待识别数据为邮箱,例如,海外邮箱,第一类型数据为垃圾邮箱,第二类型数据为合法邮箱为例,对本申请实施例进行说明:
在一种可选的实施例中,由于美国是跨民族、跨语言的国家,新生儿命名上无特殊偏向,覆盖率较高,可以以上述预定对象为新生儿、地名为美国为例,从语料库中选择预定数量的新生儿姓名的单词,将组成上述邮箱名称的单词的字符与上述新生儿姓名的单词进行匹配,得到匹配结果,若上述匹配结果为匹配成功,则认为该邮箱名称的单词为安全命名,其中,单词为上述安全命名,则上述邮箱为合法邮箱;若上述匹配结果为匹配失败,则认为该邮箱名称的单词为风险命名,其中,单词为上述风险命名,则上述邮箱为合法邮箱。
实施例2
根据本申请实施例,还提供了一种文件识别的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图5是根据本申请实施例的一种文件识别的方法的流程图,如图5所示,上述文件识别的方法,包括如下方法步骤:
步骤S1102,确定待检测对象的对象名称的字符信息,其中,上述字符信息包含:组成上述对象名称的单词的字符。
可选的,上述待检测对象可以为邮箱,例如,国内邮箱、海外邮箱;还可以为短信收件箱,语音留言箱等。上述字符可以为英文单词的字符、法文单词的字符、西班牙文单词的字符,等等。
步骤S1104,对上述字符信息进行分析,得到上述字符信息所对应的发音特征。
在上述步骤S1104中,上述发音特征可以为:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比。
在上述可选的实施例中,本申请实施例可以对单词“my”和单词“name”所包含的字符信息进行分析,例如,对上述单词“my”和单词“name”所包含的字符的元音和辅音的占比进行分析,得到上述字符信息所对应的发音特征,其中,上述发音特征包括如下至少之一:每个字符的发音、连续重复的字符,上述发音包括:元音和辅音。
需要说明的是,本申请实施例中还可以转换特殊的辅音特征,例如,很多语言中的“y”是辅音,但是“y”在使用时与元音的使用习惯相同,分析此类辅音时可以参考分析元音的规则。此外,由于印度语的发音习惯特殊,存在连续辅音情况,可以作为特殊的辅音特征进行考虑,并不能一概而论,在检测到印度语的邮箱名称中存在连续辅音的情况下即简单认为是垃圾邮箱。
步骤S1106,基于上述发音特征,确定上述待检测对象是否为指定类型对象。
在上述可选的实施例中,若上述发音特征表明每个字符的发音均为辅音,和/或,存在连续重复的字符,则表明上述待检测对象为不合法的对象。
以上述待检测对象为邮箱为例,则可以基于上述发音特征,确定上述邮箱是否为垃圾邮箱,若上述发音特征表明每个字符的发音均为辅音,和/或,存在连续重复的字符,则表明上述邮箱为垃圾邮箱,否则,表明上述邮箱为合法邮箱。
在本申请实施例中,采用以待检测对象的语言组成特征、语言发音特征为关键因素进行识别垃圾邮箱的方式,通过确定待检测对象的对象名称的字符信息,其中,上述字符信息包含:组成上述对象名称的单词的字符;对上述字符信息进行分析,得到上述字符信息所对应的发音特征;基于上述发音特征,确定上述待检测对象是否为指定类型对象。
容易注意到的是,本申请实施例通过对接收到的待检测对象的字符信息进行分析,得到与待检测对象的字符信息对应的语言特征,进而可以基于该语言特征确定上述待检测对象是否为指定类型对象。由于上述字符信息至少包括:组成上述对象名称的单词的字符,可以对海外多国文字语言的组成习惯和发音特点等进行分析,达到了避免在识别文件的过程中出现识别误差或者或识别遗漏的现象的目的,提高了识别文件的识别准确性的技术效果。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例3
根据本申请实施例,还提供了一种识别垃圾邮箱的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图6是根据本申请实施例的一种识别垃圾邮箱的方法的流程图,如图6所示,上述识别垃圾邮箱的方法,包括如下方法步骤:
步骤S1202,接收输入的邮箱的字符信息,其中,上述字符信息包含:组成邮箱名称的单词的字符。
在本申请中的可选实施例中,上述步骤S1202的执行主体可以但不限于为海外邮箱识别模型,还可以为包含上述海外邮箱识别模型的移动设备、计算设备等。
可选的,上述邮箱可以为国内邮箱、海外邮箱;上述组成邮箱名称的单词的字符可以为英文单词的字符、法文单词的字符、西班牙文单词的字符,等等。
步骤S1204,对上述邮箱的字符信息进行分析,得到上述字符信息所对应的语言特征。
在一种可选的实施例中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比。
一种可选的实施例中,上述海外邮箱识别模型可以读取组成上述邮箱名称的一或多个单词,以上述邮箱名称为“my name”为例,可以读取邮箱名称“my name”的一或多个单词:“my”和“name”。并且,根据邮箱名称“my name”的语言种类,例如,由于“my name”为英文,则可以按照英文的分类规则对上述“my”和“name”进行分类,得到单词“my”和单词“name”。
在上述可选的实施例中,还可以对单词“my”和单词“name”所包含的字符信息进行分析,例如对上述单词“my”和单词“name”所包含的字符的元音和辅音的占比进行分析,得到分析结果,其中,分析结果包括如下至少之一:每个字符的发音、连续重复的字符和包含在上述单词中的数字,上述发音包括:元音和辅音。
在一种可选的实施例中,基于上述分析结果,可以计算得到上述字符信息所对应的语言特征,例如,计算得到上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比。
需要说明的是,本申请实施例中还可以转换特殊的辅音特征,例如,很多语言中的“y”是辅音,但是“y”在使用时与元音的使用习惯相同,分析此类辅音时可以参考分析元音的规则。此外,由于印度语的发音习惯特殊,存在连续辅音情况,可以作为特殊的辅音特征进行考虑,并不能一概而论,在检测到印度语的邮箱名称中存在连续辅音的情况下即简单认为是垃圾邮箱。
步骤S1206,基于上述语言特征,确定上述邮箱是否为垃圾邮箱。
在一种可选的实施例中,可以通过如下方式确定上述邮箱是否为垃圾邮箱:在计算得到的上述一或多个单词中字符的发音的重复占比超过预定阀值的情况下,确定上述邮箱为上述垃圾邮箱;在上述单词中包含连续重复的字符的情况下,确定上述邮箱为上述垃圾邮箱;在包含在上述单词中的数字的占比超过预定数量的情况下,确定上述邮箱为上述垃圾邮箱。
在另一种可选的实施例中,还可以通过如下方式确定上述邮箱是否为垃圾邮箱:基于上述语言特征,确定上述邮箱为上述垃圾邮箱的风险值;在上述风险值高于预定值的情况下,确定上述邮箱为垃圾邮箱;在上述风险值低于上述预定值的情况下,基于构成上述单词的字符串的跳转概率,来确定上述邮箱是否为上述垃圾邮箱。
在本申请实施例中,采用以邮箱的语言组成特征、语言发音特征为关键因素进行识别垃圾邮箱的方式,通过接收输入的邮箱的字符信息,其中,上述字符信息包含:组成邮箱名称的单词的字符;对上述邮箱的字符信息进行分析,得到上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述邮箱是否为垃圾邮箱。
容易注意到的是,本申请实施例通过对接收到的邮箱的字符信息进行分析,得到与邮箱的字符信息对应的语言特征,进而可以基于该语言特征确定上述邮箱是否为垃圾邮箱。由于上述字符信息至少包括:组成邮箱名称的单词的字符,可以对海外多国文字语言的组成习惯和发音特点等进行分析,达到了避免在识别海外邮箱的过程中出现识别误差或者或识别遗漏的现象的目的。
由此,本申请实现了提高识别数据的识别准确性的技术效果,进而解决了现有技术采用文本相似度来识别数据,由于文本相似度的识别过程会有一定的识别误差,导致识别结果不准确的技术问题。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例4
根据本申请实施例,还提供了另一种识别数据的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图7是根据本申请实施例的另一种识别数据的方法的流程图,如图7所示,上述识别数据的方法,包括如下方法步骤:
步骤S1302,获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息。
在本申请中的可选实施例中,步骤S1302至步骤S1306的执行主体可以但不限于为邮箱识别模型,例如,海外邮箱识别模型,还可以为包含上述邮箱识别模型的移动设备、计算设备等。
可选的,上述待识别数据可以为邮箱,例如,国内邮箱、海外邮箱;还可以为短信收件箱,语音留言箱等。上述邮箱的种类可以为私人邮箱、公共邮箱等。
在上述可选的实施例中,上述字符信息包含:组成标识的单词的字符,该标识用于标识上述待识别数据,上述标识可以为邮箱的名称,例如,“my name”;上述组成标识的单词的字符可以为英文单词的字符、法文单词的字符、西班牙文单词的字符,等等。
步骤S1304,获取上述字符信息中一或多个单词所包含的字符的发音的重复占比;
步骤S1306,基于上述重复占比,确定上述待识别数据是否为第一类型数据。
在一种可选的实施例中,可以通过对上述待识别数据的字符信息进行分析,得到上述字符信息所对应的语言特征,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比。
在上述步骤S1306中,上述第一类型数据为非法数据或垃圾数据,以待识别对象为邮箱为例,则上述第一类型数据对应为非法邮箱或垃圾邮箱。
在本申请实施例中,通过对上述待识别数据的字符信息进行分析,得到字符信息中一或多个单词所包含的字符的发音的重复占比,在计算得到的上述一或多个单词中字符的发音的重复占比超过预定阀值的情况下,确定上述待识别数据为上述第一类型数据。
在本申请实施例中,采用以待识别数据的语言组成特征、语言发音特征为关键因素进行识别的方式,通过获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息中一或多个单词所包含的字符的发音的重复占比;基于上述重复占比,确定上述待识别数据是否为第一类型数据。
容易注意到的是,本申请实施例通过对获取到的待识别数据的字符信息进行分析,得到与待识别数据的字符信息对应的语言特征,在上述待识别数据为邮箱的情况下,通过对国内及海外多国文字语言的组成习惯和发音特点等进行分析,进而可以基于该语言特征确定上述邮箱是否为垃圾邮箱,达到了避免在识别垃圾邮箱的过程中出出现识别误差或者或识别遗漏的现象的目的。
由此,本申请实现了提高识别数据的识别准确性的技术效果,进而解决了现有技术采用文本相似度来识别数据,由于文本相似度的识别过程会有一定的识别误差,导致识别结果不准确的技术问题。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例5
根据本申请实施例,还提供了又一种识别数据的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图8是根据本申请实施例的又一种识别数据的方法的流程图,如图8所示,上述识别数据的方法,包括如下方法步骤:
步骤S1402,获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息。
在本申请中的可选实施例中,步骤S1402至步骤S1406的执行主体可以但不限于为邮箱识别模型,例如,海外邮箱识别模型,还可以为包含上述邮箱识别模型的移动设备、计算设备等。
可选的,上述待识别数据可以为邮箱,例如,国内邮箱、海外邮箱;还可以为短信收件箱,语音留言箱等。上述邮箱的种类可以为私人邮箱、公共邮箱等。
在上述可选的实施例中,上述字符信息包含:组成标识的单词的字符,该标识用于标识上述待识别数据,上述标识可以为邮箱的名称,例如,“my name”;上述组成标识的单词的字符可以为英文单词的字符、法文单词的字符、西班牙文单词的字符,等等。
步骤S1404,获取上述字符信息中一或多个单词所包含的重复字符的占比;
步骤S1406,基于上述占比,确定上述待识别数据是否为第一类型数据。
在一种可选的实施例中,可以通过对上述待识别数据的字符信息进行分析,得到上述字符信息所对应的语言特征,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比。
在上述步骤S1406中,上述第一类型数据为非法数据或垃圾数据,以待识别对象为邮箱为例,则上述第一类型数据对应为非法邮箱或垃圾邮箱。
在本申请实施例中,通过对上述待识别数据的字符信息进行分析,得到字符信息中一或多个单词中包含的重复字符的占比,在计算得到的上述一或多个单词中包含的重复字符的占比超过预定数量的情况下,确定上述待识别数据为上述第一类型数据。
在本申请实施例中,采用以待识别数据的语言组成特征、语言发音特征为关键因素进行识别的方式,通过获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息中一或多个单词所包含的重复字符的占比;基于上述占比,确定上述待识别数据是否为第一类型数据。
容易注意到的是,本申请实施例通过对获取到的待识别数据的字符信息进行分析,得到与待识别数据的字符信息对应的语言特征,在上述待识别数据为邮箱的情况下,通过对国内及海外多国文字语言的组成习惯和发音特点等进行分析,进而可以基于该语言特征确定上述邮箱是否为垃圾邮箱,达到了避免在识别垃圾邮箱的过程中出出现识别误差或者或识别遗漏的现象的目的。
由此,本申请实现了提高识别数据的识别准确性的技术效果,进而解决了现有技术采用文本相似度来识别数据,由于文本相似度的识别过程会有一定的识别误差,导致识别结果不准确的技术问题。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例上述的方法。
实施例6
根据本申请实施例,还提供了一种计算设备的实施例,包括:第一装置,用于接收输入的邮箱的字符信息,其中,上述字符信息包含:组成邮箱名称的单词的字符;处理器,上述处理器运行程序,其中,上述程序运行时对于从上述第一装置输出的数据执行如下处理步骤:对上述邮箱的字符信息进行分析,得到上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述邮箱是否为垃圾邮箱。
在一种可选的实施例中,上述第一装置为输入设备,例如,鼠标、键盘、触摸屏等输入设备,与计算设备中的处理器连接,并将接收到的邮箱的字符信息输出给上述处理器。
在本申请实施例中,采用以邮箱的语言组成特征、语言发音特征为关键因素进行识别垃圾邮箱的方式,通过接收输入的邮箱的字符信息,其中,上述字符信息包含:组成邮箱名称的单词的字符;对上述邮箱的字符信息进行分析,得到上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述邮箱是否为垃圾邮箱。
容易注意到的是,本申请实施例通过对接收到的邮箱的字符信息进行分析,得到与邮箱的字符信息对应的语言特征,进而可以基于该语言特征确定上述邮箱是否为垃圾邮箱。由于上述字符信息至少包括:组成邮箱名称的单词的字符,可以对海外多国文字语言的组成习惯和发音特点等进行分析,达到了避免在识别海外邮箱的过程中出现识别误差或者或识别遗漏的现象的目的。
由此,本申请实现了提高识别数据的识别准确性的技术效果,进而解决了现有技术采用文本相似度来识别数据,由于文本相似度的识别过程会有一定的识别误差,导致识别结果不准确的技术问题。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例7
根据本申请实施例,还提供了一种识别数据的系统的实施例,包括:处理器;以及存储器,其中:
上述存储器与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
在本申请实施例中,采用以待识别数据的语言组成特征、语言发音特征为关键因素进行识别的方式,通过获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
容易注意到的是,本申请实施例通过对获取到的待识别数据的字符信息进行分析,得到与待识别数据的字符信息对应的语言特征,在上述待识别数据为邮箱的情况下,通过对国内及海外多国文字语言的组成习惯和发音特点等进行分析,进而可以基于该语言特征确定上述邮箱是否为垃圾邮箱,达到了避免在识别垃圾邮箱的过程中出出现识别误差或者或识别遗漏的现象的目的。
由此,本申请实现了提高识别数据的识别准确性的技术效果,进而解决了现有技术采用文本相似度来识别数据,由于文本相似度的识别过程会有一定的识别误差,导致识别结果不准确的技术问题。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例8
根据本申请实施例,还提供了一种用于实施上述识别数据的方法的装置实施例,图9是根据本申请实施例的一种识别数据的装置的示意图,如图9所示,该装置900包括:第一获取模块902、第二获取模块904和第一确定模块906,其中:
第一获取模块902,用于获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;第二获取模块904,用于获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;第一确定模块906,用于基于上述语言特征,确定上述待识别数据是否为第一类型数据。
此处需要说明的是,上述第一获取模块902、第二获取模块904和第一确定模块906对应于实施例1中的步骤S202至步骤S206,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例9
根据本申请实施例,还提供了一种用于实施上述文件识别的方法的装置实施例,图10是根据本申请实施例的一种文件识别的装置的示意图,如图10所示,该装置1000包括:第一确定单元1002、分析单元1004和第二确定单元1006,其中:
第一确定单元1002,用于确定待检测对象的对象名称的字符信息,其中,上述字符信息包含:组成上述对象名称的单词的字符;分析单元1004,用于对上述字符信息进行分析,得到上述字符信息所对应的发音特征;第二确定单元1006,用于基于上述发音特征,确定上述待检测对象是否为指定类型对象。
此处需要说明的是,上述第一确定单元1002、分析单元1004和第二确定单元1006对应于实施例2中的步骤S1102至步骤S1106,三个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例提供的计算机终端10中。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例2中的相关描述,此处不再赘述。
实施例10
根据本申请实施例,还提供了一种用于实施上述识别垃圾邮箱的方法的装置实施例,图11是根据本申请实施例的一种识别垃圾邮箱的装置的示意图,如图11所示,该装置1100包括:接收模块1102、分析模块1104和第二确定模块1106,其中:
接收模块1102,用于接收输入的邮箱的字符信息,其中,上述字符信息包含:组成邮箱名称的单词的字符;分析模块1104,用于对上述邮箱的字符信息进行分析,得到上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;第二确定模块1106,用于基于上述语言特征,确定上述邮箱是否为垃圾邮箱。
此处需要说明的是,上述接收模块1102、分析模块1104和第二确定模块1106对应于实施例3中的步骤S1202至步骤S1206,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例3所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例3中的相关描述,此处不再赘述。
实施例11
根据本申请实施例,还提供了另一种用于实施上述识别数据的方法的装置实施例,图12是根据本申请实施例的另一种识别数据的装置的示意图,如图12所示,该装置1200包括:第三获取模块1202、第四获取模块1204和第三确定模块1206,其中:
第三获取模块1202,用于获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;第四获取模块1204,用于获取上述字符信息中一或多个单词所包含的字符的发音的重复占比;第三确定模块1206,用于基于上述重复占比,确定上述待识别数据是否为第一类型数据。
此处需要说明的是,上述第三获取模块1202、第四获取模块1204和第三确定模块1206对应于实施例4中的步骤S1302至步骤S1306,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例4所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例4中的相关描述,此处不再赘述。
实施例12
根据本申请实施例,还提供了又一种用于实施上述识别数据的方法的装置实施例,图13是根据本申请实施例的又一种识别数据的装置的示意图,如图13所示,该装置1300包括:第五获取模块1302、第六获取模块1304和第四确定模块1306,其中:
第五获取模块1302,用于获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;第六获取模块1304,用于获取上述字符信息中一或多个单词所包含的重复字符的占比;第四确定模块1306,用于基于上述占比,确定上述待识别数据是否为第一类型数据。
此处需要说明的是,上述第五获取模块1302、第六获取模块1304和第四确定模块1306对应于实施例5中的步骤S1402至步骤S1406,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例5所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
仍需要说明的是,本实施例的可选或优选实施方式可以参见实施例5中的相关描述,此处不再赘述。
实施例13
根据本申请的实施例,可以提供一种计算机终端的实施例,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行识别数据的方法中以下步骤的程序代码:获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
可选地,图14是根据本申请实施例的一种计算机终端的结构框图,如图14所示,该计算机终端140可以包括:一个或多个(图中仅示出一个)处理器1402、存储器1404、以及外设接口1406。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的识别数据的方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的识别数据的方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
可选的,上述处理器还可以执行如下步骤的程序代码:读取组成标识的一或多个单词;按照语言种类对一或多个单词进行分类;对一或多个单词所包含的字符进行分析,得到分析结果,其中,分析结果包括如下至少之一:每个字符的发音、连续重复的字符和包含在单词中的数字,发音包括:元音和辅音;基于分析结果,计算得到字符信息所对应的语言特征。
可选的,上述处理器还可以执行如下步骤的程序代码:在计算得到的一或多个单词中字符的发音的重复占比超过预定阀值的情况下,确定待识别数据为第一类型数据;在单词中包含连续重复的字符的情况下,确定待识别数据为第一类型数据;在包含在单词中的数字的占比超过预定数量的情况下,确定待识别数据为第一类型数据。
可选的,上述处理器还可以执行如下步骤的程序代码:基于语言特征,确定待识别数据为第一类型数据的风险值;在风险值高于预定值的情况下,确定待识别数据为第一类型数据;在风险值低于预定值的情况下,基于构成单词的字符串的跳转概率,来确定待识别数据是否为第一类型数据。
可选的,上述处理器还可以执行如下步骤的程序代码:获取一或多个单词的字符串所包含的相邻字符之间的跳转次数;根据一或多个单词的相邻字符之间的跳转次数,统计得到一或多个单词的跳转概率。
可选的,上述处理器还可以执行如下步骤的程序代码:获取字符库中预先存储的单词所对应的跳转概率分值;基于字符库中预先存储的单词所对应的跳转概率分值,判断统计得到一或多个单词的跳转概率是否处于预设的分值范围内;如果处于分值范围内,确定待识别数据为第二类型数据;如果未处于分值范围内,确定待识别数据为第一类型数据。
可选的,上述处理器还可以执行如下步骤的程序代码:获取数据源的单词列表;对单词列表中的单词进行字符相邻概率的训练,统计得到单词列表中一或多个单词所对应的跳转概率分值;将单词列表中的单词,以及一或多个单词所对应的跳转概率分值保存至字符库。
可选的,上述处理器还可以执行如下步骤的程序代码:基于构成单词的字符串的跳转概率,确定待识别数据为第一类型数据的风险值;在风险值处于安全范围内的情况下,确定待识别数据为第二类型数据;在风险值未处于安全范围内的情况下,基于预先设置的语料库来确定待识别数据是否为第一类型数据。
可选的,上述处理器还可以执行如下步骤的程序代码:获取至少一种语种的语料库;从语料库中选择满足预定条件的预定数量的单词,其中,预定条件包括如下至少之一:预定对象的姓名、预定对象的地名;将组成标识的单词的字符与语料库中的单词进行匹配,得到匹配结果。
可选的,上述处理器还可以执行如下步骤的程序代码:如果匹配结果为匹配成功,则确定构成待识别数据的单词为安全命名,其中,单词为安全命名,则待识别数据为第二类型数据;如果匹配结果为匹配失败,则确定构成数据的单词为风险命名,其中,单词为风险命名,则待识别数据为第一类型数据。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:确定待检测对象的对象名称的字符信息,其中,字符信息包含:组成对象名称的单词的字符;对字符信息进行分析,得到字符信息所对应的发音特征;基于发音特征,确定待检测对象是否为指定类型对象。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:接收输入的邮箱的字符信息,其中,字符信息包含:组成邮箱名称的单词的字符;对邮箱的字符信息进行分析,得到字符信息所对应的语言特征,其中,语言特征包括如下至少之一:单词中包含的字符的发音的重复占比、单词中包含的重复字符的占比和单词中包含的数字的占比;基于语言特征,确定邮箱是否为垃圾邮箱。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待识别数据,其中,待识别数据包括用于指示待识别数据的标识的字符信息;获取字符信息中一或多个单词所包含的字符的发音的重复占比;基于重复占比,确定待识别数据是否为第一类型数据。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待识别数据,其中,待识别数据包括用于指示待识别数据的标识的字符信息;获取字符信息中一或多个单词所包含的重复字符的占比;基于占比,确定待识别数据是否为第一类型数据。
采用本申请实施例,提供了一种识别数据的方法的方案。采用以待识别数据的语言组成特征、语言发音特征为关键因素进行识别的方式,通过获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
本申请实施例通过对获取到的待识别数据的字符信息进行分析,得到与待识别数据的字符信息对应的语言特征,在上述待识别数据为邮箱的情况下,通过对国内及海外多国文字语言的组成习惯和发音特点等进行分析,进而可以基于该语言特征确定上述邮箱是否为垃圾邮箱,达到了避免在识别垃圾邮箱的过程中出出现识别误差或者或识别遗漏的现象的目的。
本领域普通技术人员可以理解,图14所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图14其并不对上述电子装置的结构造成限定。例如,计算机终端140还可包括比图14中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图14所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例14
根据本申请的实施例,还提供了一种存储介质的实施例。可选地,在本实施例中,上述存储介质可以用于保存上述实施例所提供的任意一种方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待识别数据,其中,上述待识别数据包括用于指示上述待识别数据的标识的字符信息;获取上述字符信息所对应的语言特征,其中,上述语言特征包括如下至少之一:上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比;基于上述语言特征,确定上述待识别数据是否为第一类型数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:读取组成标识的一或多个单词;按照语言种类对一或多个单词进行分类;对一或多个单词所包含的字符进行分析,得到分析结果,其中,分析结果包括如下至少之一:每个字符的发音、连续重复的字符和包含在单词中的数字,发音包括:元音和辅音;基于分析结果,计算得到字符信息所对应的语言特征。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在计算得到的一或多个单词中字符的发音的重复占比超过预定阀值的情况下,确定待识别数据为第一类型数据;在单词中包含连续重复的字符的情况下,确定待识别数据为第一类型数据;在包含在单词中的数字的占比超过预定数量的情况下,确定待识别数据为第一类型数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于语言特征,确定待识别数据为第一类型数据的风险值;在风险值高于预定值的情况下,确定待识别数据为第一类型数据;在风险值低于预定值的情况下,基于构成单词的字符串的跳转概率,来确定待识别数据是否为第一类型数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取一或多个单词的字符串所包含的相邻字符之间的跳转次数;根据一或多个单词的相邻字符之间的跳转次数,统计得到一或多个单词的跳转概率。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取字符库中预先存储的单词所对应的跳转概率分值;基于字符库中预先存储的单词所对应的跳转概率分值,判断统计得到一或多个单词的跳转概率是否处于预设的分值范围内;如果处于分值范围内,确定待识别数据为第二类型数据;如果未处于分值范围内,确定待识别数据为第一类型数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取数据源的单词列表;对单词列表中的单词进行字符相邻概率的训练,统计得到单词列表中一或多个单词所对应的跳转概率分值;将单词列表中的单词,以及一或多个单词所对应的跳转概率分值保存至字符库。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:基于构成单词的字符串的跳转概率,确定待识别数据为第一类型数据的风险值;在风险值处于安全范围内的情况下,确定待识别数据为第二类型数据;在风险值未处于安全范围内的情况下,基于预先设置的语料库来确定待识别数据是否为第一类型数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取至少一种语种的语料库;从语料库中选择满足预定条件的预定数量的单词,其中,预定条件包括如下至少之一:预定对象的姓名、预定对象的地名;将组成标识的单词的字符与语料库中的单词进行匹配,得到匹配结果。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:如果匹配结果为匹配成功,则确定构成待识别数据的单词为安全命名,其中,单词为安全命名,则待识别数据为第二类型数据;如果匹配结果为匹配失败,则确定构成数据的单词为风险命名,其中,单词为风险命名,则待识别数据为第一类型数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定待检测对象的对象名称的字符信息,其中,字符信息包含:组成对象名称的单词的字符;对字符信息进行分析,得到字符信息所对应的发音特征;基于发音特征,确定待检测对象是否为指定类型对象。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:接收输入的邮箱的字符信息,其中,字符信息包含:组成邮箱名称的单词的字符;对邮箱的字符信息进行分析,得到字符信息所对应的语言特征,其中,语言特征包括如下至少之一:单词中包含的字符的发音的重复占比、单词中包含的重复字符的占比和单词中包含的数字的占比;基于语言特征,确定邮箱是否为垃圾邮箱。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待识别数据,其中,待识别数据包括用于指示待识别数据的标识的字符信息;获取字符信息中一或多个单词所包含的字符的发音的重复占比;基于重复占比,确定待识别数据是否为第一类型数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待识别数据,其中,待识别数据包括用于指示待识别数据的标识的字符信息;获取字符信息中一或多个单词所包含的重复字符的占比;基于占比,确定待识别数据是否为第一类型数据。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (13)

1.一种识别数据的方法,包括:
获取待识别数据,其中,所述待识别数据包括用于指示所述待识别数据的标识的字符信息;
获取所述字符信息所对应的语言特征,其中,所述语言特征包括如下至少之一:所述字符信息中单词所包含的字符的发音的重复占比、所述单词中包含的重复字符的占比和所述单词中包含的数字的占比;
基于所述语言特征,确定所述待识别数据是否为第一类型数据,其中,确定所述待识别数据是否为第一类型数据,包括:基于所述语言特征,确定所述待识别数据为所述第一类型数据的风险值;在所述风险值高于预定值的情况下,确定所述待识别数据为第一类型数据;在所述风险值低于所述预定值的情况下,基于构成所述单词的字符串的跳转概率,来确定所述待识别数据是否为所述第一类型数据。
2.根据权利要求1所述的方法,其中,获取所述字符信息所对应的语言特征包括:
读取组成所述标识的一个或多个单词;
按照语言种类对所述一个或多个单词进行分类;
对所述一个或多个单词所包含的字符进行分析,得到分析结果,其中,分析结果包括如下至少之一:每个字符的发音、连续重复的字符和包含在所述单词中的数字,所述发音包括:元音和辅音;
基于所述分析结果,计算得到所述字符信息所对应的语言特征。
3.根据权利要求2所述的方法,其中,基于所述语言特征,确定所述待识别数据是否为第一类型数据的步骤包括如下至少之一:
在计算得到的所述一个或多个单词中字符的发音的重复占比超过预定阀值的情况下,确定所述待识别数据为所述第一类型数据;
在所述单词中包含连续重复的字符的情况下,确定所述待识别数据为所述第一类型数据;
在包含在所述单词中的数字的占比超过预定数量的情况下,确定所述待识别数据为所述第一类型数据。
4.根据权利要求1所述的方法,其中,在基于构成所述单词的字符串的跳转概率,来确定所述待识别数据是否为所述第一类型数据之前,所述方法还包括:
获取一个或多个单词的字符串所包含的相邻字符之间的跳转次数;
根据一个或多个单词的所述相邻字符之间的跳转次数,统计得到一或多个单词的跳转概率。
5.根据权利要求4所述的方法,其中,基于构成所述单词的字符串的跳转概率,来确定所述待识别数据是否为所述第一类型数据包括:
获取字符库中预先存储的单词所对应的跳转概率分值;
基于所述字符库中预先存储的单词所对应的跳转概率分值,判断所述统计得到一个或多个单词的跳转概率是否处于预设的分值范围内;
如果处于所述分值范围内,确定所述待识别数据为第二类型数据;
如果未处于所述分值范围内,确定所述待识别数据为所述第一类型数据。
6.根据权利要求5所述的方法,其中,在获取字符库中预先存储的单词所对应的跳转概率分值之前,所述方法还包括:
获取数据源的单词列表;
对所述单词列表中的单词进行字符相邻概率的训练,统计得到所述单词列表中一个或多个单词所对应的跳转概率分值;
将所述单词列表中的单词,以及一个或多个单词所对应的跳转概率分值保存至所述字符库。
7.根据权利要求1所述的方法,其中,基于构成所述单词的字符串的跳转概率,来确定所述待识别数据是否为所述第一类型数据,包括:
基于构成所述单词的字符串的跳转概率,确定所述待识别数据为所述第一类型数据的风险值;
在所述风险值处于安全范围内的情况下,确定所述待识别数据为第二类型数据;
在所述风险值未处于安全范围内的情况下,基于预先设置的语料库来确定所述待识别数据是否为所述第一类型数据。
8.根据权利要求7所述的方法,其中,基于预先设置的语料库来确定所述待识别数据是否为所述第一类型数据,包括:
获取至少一种语种的语料库;
从所述语料库中选择满足预定条件的预定数量的单词,其中,所述预定条件包括如下至少之一:预定对象的姓名、预定对象的地名;
将组成所述标识的单词的字符与所述语料库中的单词进行匹配,得到匹配结果。
9.根据权利要求8所述的方法,其中,将组成所述标识的单词的字符与所述语料库中的单词进行匹配,得到匹配结果,包括:
如果匹配结果为匹配成功,则确定构成所述待识别数据的单词为安全命名,其中,单词为所述安全命名,则所述待识别数据为第二类型数据;
如果匹配结果为匹配失败,则确定构成所述待识别数据的单词为风险命名,其中,单词为所述风险命名,则所述待识别数据为第一类型数据。
10.一种文件识别的方法,包括:
确定待检测对象的对象名称的字符信息,其中,所述字符信息包含:组成所述对象名称的单词的字符;
对所述字符信息进行分析,得到所述字符信息所对应的发音特征,其中,所述发音特征包括如下至少之一:所述字符信息中单词所包含的字符的发音的重复占比、所述单词中包含的重复字符的占比和所述单词中包含的数字的占比;
基于所述发音特征,确定所述待检测对象是否为指定类型对象,其中,确定所述待检测对象是否为指定类型对象,包括:基于所述发音特征,确定所述待检测对象为所述指定类型对象的风险值;在所述风险值高于预定值的情况下,确定所述待检测对象为指定类型对象;在所述风险值低于所述预定值的情况下,基于构成所述单词的字符串的跳转概率,来确定所述待检测对象是否为所述指定类型对象。
11.一种识别垃圾邮箱的方法,包括:
接收输入的邮箱的字符信息,其中,所述字符信息包含:组成邮箱名称的单词的字符;
对所述邮箱的字符信息进行分析,得到所述字符信息所对应的语言特征,其中,所述语言特征包括如下至少之一:所述字符信息中单词所包含的字符的发音的重复占比、所述单词中包含的重复字符的占比和所述单词中包含的数字的占比;
基于所述语言特征,确定所述邮箱是否为垃圾邮箱,其中,确定所述邮箱是否为垃圾邮箱,包括:基于所述语言特征,确定所述邮箱为所述垃圾邮箱的风险值;在所述风险值高于预定值的情况下,确定所述邮箱为垃圾邮箱;在所述风险值低于所述预定值的情况下,基于构成所述单词的字符串的跳转概率,来确定所述邮箱是否为所述垃圾邮箱。
12.一种计算设备,包括:
第一装置,用于接收输入的邮箱的字符信息,其中,所述字符信息包含:组成邮箱名称的单词的字符;
处理器,所述处理器运行程序,其中,所述程序运行时对于从所述第一装置输出的数据执行如下处理步骤:对所述邮箱的字符信息进行分析,得到所述字符信息所对应的语言特征,其中,所述语言特征包括如下至少之一:所述字符信息中单词所包含的字符的发音的重复占比、所述单词中包含的重复字符的占比和所述单词中包含的数字的占比;基于所述语言特征,确定所述邮箱是否为垃圾邮箱,其中,确定所述邮箱是否为垃圾邮箱,包括:基于所述语言特征,确定所述邮箱为所述垃圾邮箱的风险值;在所述风险值高于预定值的情况下,确定所述邮箱为垃圾邮箱;在所述风险值低于所述预定值的情况下,基于构成所述单词的字符串的跳转概率,来确定所述邮箱是否为所述垃圾邮箱。
13.一种识别数据的系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:获取待识别数据,其中,所述待识别数据包括用于指示所述待识别数据的标识的字符信息;获取所述字符信息所对应的语言特征,其中,所述语言特征包括如下至少之一:所述字符信息中单词所包含的字符的发音的重复占比、所述单词中包含的重复字符的占比和所述单词中包含的数字的占比;基于所述语言特征,确定所述待识别数据是否为第一类型数据,其中,确定所述待识别数据是否为第一类型数据,包括:基于所述语言特征,确定所述待识别数据为所述第一类型数据的风险值;在所述风险值高于预定值的情况下,确定所述待识别数据为第一类型数据;在所述风险值低于所述预定值的情况下,基于构成所述单词的字符串的跳转概率,来确定所述待识别数据是否为所述第一类型数据。
CN201810914895.8A 2018-08-13 2018-08-13 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法 Active CN110875959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810914895.8A CN110875959B (zh) 2018-08-13 2018-08-13 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810914895.8A CN110875959B (zh) 2018-08-13 2018-08-13 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法

Publications (2)

Publication Number Publication Date
CN110875959A CN110875959A (zh) 2020-03-10
CN110875959B true CN110875959B (zh) 2022-10-18

Family

ID=69714116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810914895.8A Active CN110875959B (zh) 2018-08-13 2018-08-13 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法

Country Status (1)

Country Link
CN (1) CN110875959B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116996840B (zh) * 2023-09-26 2023-12-29 北京百悟科技有限公司 短信审核方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156120A (zh) * 2015-04-07 2016-11-23 阿里巴巴集团控股有限公司 对字符串进行分类的方法和装置
CN107239440A (zh) * 2017-04-21 2017-10-10 同盾科技有限公司 一种垃圾文本识别方法和装置
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品
CN108200034A (zh) * 2017-12-27 2018-06-22 新华三信息安全技术有限公司 一种识别域名的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156120A (zh) * 2015-04-07 2016-11-23 阿里巴巴集团控股有限公司 对字符串进行分类的方法和装置
CN107239440A (zh) * 2017-04-21 2017-10-10 同盾科技有限公司 一种垃圾文本识别方法和装置
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品
CN108200034A (zh) * 2017-12-27 2018-06-22 新华三信息安全技术有限公司 一种识别域名的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Unsupervised, low latency anomaly detection of algorithmically generated domain names by generative probabilistic modeling;Jayaram Raghuram等;《Journal of Advanced Research》;20140731;第5卷(第4期);全文 *
基于统计特征的垃圾博客过滤;刘玮等;《中文信息学报》;20081130;第22卷(第6期);全文 *

Also Published As

Publication number Publication date
CN110875959A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
US10460029B2 (en) Reply information recommendation method and apparatus
CN110287405B (zh) 情感分析的方法、装置和存储介质
CN111931491B (zh) 领域词典构建方法及装置
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN113935710A (zh) 一种合同审核的方法、装置、电子设备及存储介质
CN112765319A (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN109033224B (zh) 一种风险文本识别方法和装置
CN111046627B (zh) 一种中文文字显示方法及系统
CN113434672B (zh) 文本类型智能识别方法、装置、设备及介质
CN110875959B (zh) 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法
CN110970030A (zh) 一种语音识别转换方法及系统
CN113436614A (zh) 语音识别方法、装置、设备、系统及存储介质
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
KR20190090636A (ko) 문서 자동 편집 방법
US10789410B1 (en) Identification of source languages for terms
JP2019145023A (ja) 文書校閲装置およびプログラム
CN103616962A (zh) 一种信息处理方法和装置
JP7222218B2 (ja) 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム
CN112840627B (zh) 一种信息处理的方法及相关装置、计算机可读存储介质
KR102072708B1 (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
KR20180007183A (ko) 대표문자와 공백 입력을 통한 둘 이상의 단어로 구성된 문장입력방법 및 장치
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
US20200104887A1 (en) Techniques for identifying ingenuine online reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025323

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant