CN107229638A - 一种文本信息处理方法及装置 - Google Patents

一种文本信息处理方法及装置 Download PDF

Info

Publication number
CN107229638A
CN107229638A CN201610173702.9A CN201610173702A CN107229638A CN 107229638 A CN107229638 A CN 107229638A CN 201610173702 A CN201610173702 A CN 201610173702A CN 107229638 A CN107229638 A CN 107229638A
Authority
CN
China
Prior art keywords
text message
text
recognition template
matching
matching result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610173702.9A
Other languages
English (en)
Inventor
韩秦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610173702.9A priority Critical patent/CN107229638A/zh
Publication of CN107229638A publication Critical patent/CN107229638A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供一种文本信息处理方法和装置,所述方法包括:获取文本信息;对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。本发明实施例可以标识文本信息的可信度,特别可以应用于准确识别垃圾短信、诈骗短信等文本信息,有效拦截此类信息,有效保护用户信息、财产安全。

Description

一种文本信息处理方法及装置
技术领域
本发明实施例涉及计算机技术领域,具体涉及一种文本信息处理方法及装置。
背景技术
随着移动通信技术的发展,智能终端得到了广泛的应用。用户使用智能终端进行通信,例如拨打电话、发送短信、使用即时通讯(英文全称为Instant Messaging,英文简称为IM)软件进行文本或者语音通信等。用户在享受移动通信技术带来的方便的同时,也饱受垃圾短信的困扰。因此,如何标识信息的可信性成为一个重要的问题。
现有技术中,在标识信息的可信性时,主要是通过检测垃圾信息的方式来标识非法信息。具体的,现有技术主要存在两种非法短信检测方法。一种是通过标识发送非法信息的发送者的号码,过滤来自所述号码的短信的方式实现对非法信息的检测和拦截。一种是通过设置非法信息关键词,通过关键词识别的方式检测非法信息。这两种方式在一定程度上能够检测、拦截部分非法信息。
然而,不法分子利用短信进行诈骗的技术越来越高明,传统的非法信息检测技术已经很难准确地检测、拦截非法信息。目前已经出现不法分子通过伪基站仿造号码来发送诈骗信息的事件。不法分子通过伪基站仿造号码,可以使用与银行、运营商、服务商等一致的号码,例如10086,95555号码向用户发送短信,这时使用号码过滤的方式将难以拦截此类非法信息。此外,不法分子还对短信内容进行加工,在短信中使用与这类服务商相似的内容格式发送短信,从而让人们很难区分信息的真伪性。而使用关键字匹配的方式进行检测时,容易出现两个问题:若关键词处理策略设置严格将容易造成误拦截;若关键词处理策略设置宽松则无法实现有效的识别。
因此,现有技术的标识信息可信性的方法存在准确率不高、不能有效标识文本信息可信性的缺陷,无法有效保护用户的信息安全、财产安全。
发明内容
本发明实施例提供了一种文本信息处理方法及装置,可以通过文本信息识别模板识别文本信息,以标识文本可信性,特别地,可以用于准确识别垃圾短信、诈骗短信等非法信息,有效拦截此类信息,有效保护用户信息、财产安全。
为此,本发明实施例提供如下技术方案:
第一方面,本发明实施例提供了一种文本信息处理方法,包括:
获取文本信息;
对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。
第二方面,本发明实施例提供了一种文本信息处理方法,所述方法应用于客户端,包括:
接收第一文本信息;
将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;其中,所述文本信息识别模板用于进行文本信息匹配;
根据所述匹配结果,标识所述文本信息的可信度。
第三方面,本发明实施例提供了一种文本信息处理装置,包括:
获取单元,用于获取文本信息;
文本信息识别模板生成单元,用于对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。。
第四方面,本发明实施例提供了一种文本信息处理装置,包括:
第一接收单元,用于接收第一文本信息;
匹配单元,用于将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;其中,所述文本信息识别模板用于进行文本信息匹配;
标识单元,用于根据所述匹配结果,标识所述文本信息的可信度。
第五方面,本发明实施例提供了一种用于文本信息处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序 包含用于进行以下操作的指令:
获取文本信息;
对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。
第六方面,本发明实施例提供了一种用于文本信息处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收第一文本信息;
将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;其中,所述文本信息识别模板用于进行文本信息匹配;
根据所述匹配结果,标识所述文本信息的可信度。
本发明实施例提供的文本信息处理方法及装置,可以针对获取的文本信息进行规则提取,生成文本信息识别模板。当接收到新的文本信息时,可以利用所述文本信息识别模板对新的文本信息进行匹配,以实现所述文本信息的可信性的标识。特别地,本发明提供的方法和装置可以应用于对非法文本信息的检测,可以有效、准确地识别垃圾短信、诈骗短信等非法文本信息,有效拦截此类信息,有效保护用户信息、财产安全。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的文本信息处理方法流程图;
图2为本发明另一实施例提供的文本信息处理方法流程图;
图3为本发明再一实施例提供的文本信息处理方法流程图;
图4为本发明一实施例提供的文本信息处理装置示意图;
图5为本发明另一实施例提供的文本信息处理装置示意图;
图6是根据一示例性实施例示出的一种用于文本信息处理的装置的框图;
图7是根据另一示例性实施例示出的一种用于文本信息处理的装置的框图。
具体实施方式
本发明实施例提供了一种文本信息处理方法及装置,可以通过文本信息识别模板识别文本信息,以标识文本可信性,特别地,可以用于准确识别垃圾短信、诈骗短信等文本信息,有效拦截此类信息,有效保护用户信息、财产安全。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
首先对本发明的思想进行阐述。在实现本发明的过程中,申请人发现:现在很多伪基站通过伪造与银行、运营商、服务商等一致的号码,例如10086、95555等号码向用户发送短信,例如通知用户的积分可以点击链接进行兑换。这类短信如果不仔细看,非常容易上当受骗。现有的垃圾短信识别技术,无法有效识别此类短信进而提醒用户。本发明提出一种文本信息处理的方法,能够有效解决机器不能有效标识文本可信性,特别是不能有效识别诈骗短信、垃圾短信的的问题。申请人发现,无论是合法信息还是诈骗信息、垃圾信息,往往采用相同的文本格式具有一定的特点。本发明实施例提供的方法,可以针对获取的文本信息进行规则提取,生成文本信息识别模板。当接收到新的文本信息时,可以利用所述文本信息识别模板对新的文本信息进行匹配,以实现所述文本信息的可信性的标识。例如,标识所述文本信息为合法信息、垃圾短信或者诈骗信息等。特别地,本发明提供的方法和装置可以应用于对非法文本信息的检测,可以有效、准确地识别垃圾短信、诈骗短信等非法文本信息,有效拦截此类信息,有效保护用户信息、财产安全。
下面将结合附图1至附图3对本发明示例性实施例示出的文本信息处理方法进行介绍。
参见图1,为本发明一实施例提供的文本信息处理方法流程图。如图1所示,可以包括:
S101,获取文本信息。
S102,对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。
在本发明具体实现时,所述方法可以应用于服务器,也可以应用于客户端。
其中,所述文本信息包括短信、微信、微博等各种形式的文本信息。特别地,所述获取文本信息可以包括:当获取的信息为二维码时,对所述二维码进行转换处理,生成文本信息。进一步地,所述获取文本信息还可以包括:当获取的信息为图片时,对所述图片进行转换处理,生成文本信息。举例说明,二维码、图片可以视为加密了的文本信息,可以对其进行识别处理,将其从编码指令转换成文本信息。此外,当获取的信息为语音信息时,所述获取文本信息还可以包括:对所述语音信息进行语音识别处理,将所述语音信息转换为文本信息。当然,以上仅为示例性说明,文本信息还可以包括其他形式的信息,在此不进行限定。
其中,当所述方法应用于服务器时,服务器获取的文本信息可以来源于客户端发送的包含第一标识的文本信息。例如,服务器接收客户端发送的文本信息;所述文本信息包含第一标识,所述第一标识用于标识所述文本信息。需要说明的是,本发明实施例中,建立文本信息识别模板可以用于识别垃圾信息、诈骗信息,也可以用于建立合法、安全信息的模板,建立文本信息识别模板的核心是用于标识文本信息的可信性。在本发明实施例中,用户在使用客户端接收到文本信息时,用户可以对所述文本信息进行标识。客户端将响应于用户标识所述文本信息的操作,向服务器发送所述文本信息。这样服务器可以将用户通过客户端上传的文本信息进行存储、分析。当然,服务器获取的文本信息也可以来源于人工收集或者机器识别,在此不进行限定。
其中,当所述方法应用于客户端时,获取的文本信息可以包括:响应于用户标识文本信息的操作,获取所述文本信息。在这一实现方式中,用户标识文本信息后,可以由客户端直接获取所述文本信息,对所述文本信息进行规则提取,生成文本信息识别模板。当然,用户标识文本信息后,客户端也可以响应 于用户标识文本信息的操作,向服务器发送所述文本信息,由服务器对所述文本信息进行规则提取,生成文本信息识别模板。
在一些实施方式中,所述文本信息识别模板可以是包含一个或者多个字符组的集合。则对所述文本信息进行规则提取,生成文本信息识别模板可以包括:获取所述文本信息的核心信息对应的语种,去除所述文本信息中非所述语种的语言表示的字符,获得一个或者多个字符组,利用所述一个或者多个字符组的集合生成文本信息识别模板。举例说明,假设获取的文本信息为:“尊敬的用户,您的积分即将清零,请登陆官方网1oo86gfkx.com请进行兑现换现金按提示安装领取【中国移动】”,去除了非中文字符后,获得的文本信息识别模板为由以下字符组组成的集合{尊敬的用户,您的积分即将清零,请登陆官方网,请进行兑现换现金按提示安装领取,中国移动}。
在一些实施方式中,所述文本信息识别模板可以是符合句法规则的字符串。在一种可能的实现方式中,利用收集的非法短信或者合法短信生成非法短信模板或者合法短信模板。这时,文本信息识别模板即可以是由符合句法规则的文字组成的模板。在另外一种可能的实现方式中,是对文本信息进行了规则提取,生成了符合句法规则的字符串,例如使用正则表达式对所述文本信息进行规则提取,生成文本信息识别模板。进一步地,当所述文本信息识别模板为符合句法规则的字符串时,在对所述文本信息进行规则提取之前,所述方法还可以包括:对所述文本信息进行聚类处理,获取所述文本信息的文本类别。则所述对所述文本信息进行规则提取,生成文本信息识别模板具体为:对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板。
具体实现时,对所述文本信息进行聚类处理,获取所述文本信息的文本类别可以包括以下步骤:
A,获取所述文本信息的核心信息对应的语种,去除所述文本信息中非所述语种的语言表示的字符,获得处理后的文本信息。
举例说明,可以获取文本信息的核心信息对应的语种是中文、英文、西班牙语或者阿拉伯语等。然后,去除所述文本信息中非所述语种的语言表示的字符,获得处理后的文本信息。举例说明,所述文本信息的核心信息对应的语种是中文,则去除非中文字符,例如标点符号、英文字母、数字等。若所述文本 信息的核心信息对应的语种是英语,则去除非英文单词,例如标点符号、数字等。以所述文本信息的核心信息对应的语种是中文为例进行说明。去除获取的文本信息中的非中文字符,这样一条文本信息就成为若干个汉字字符组。举例说明,假设获取的文本信息为:“尊敬的用户,您的积分即将清零,请登陆官方网1oo86gfkx.com请进行兑现换现金按提示安装领取【中国移动】”,去除了非中文字符后,获得处理后的文本信息为:“尊敬的用户|您的积分即将清零|请登陆官方网|请进行兑现换现金按提示安装领取|中国移动|”。
B,将所述处理后的文本信息与预先存储的文本类别中的文本信息进行比较,获取所述处理后的文本信息与所述服务器存储的文本类别中的文本信息的相似度值。
具体实现时,将所述处理后的文本信息与服务器或本地设备已存的所有类别依次遍历对比,以获取所述处理后的文本信息与所述预先存储的文本类别中的文本信息的相似度值。
C,若所述处理后的文本信息与所述预先存储的任意一个文本类别中的文本信息的相似度值大于或等于第一设定阈值,确定所述处理后的文本信息属于所述文本类别。
举例说明,若服务器有一条文本类别A123456为:
您的积分即将清零|请登陆官方网|请进行兑现换现金按提示安装领取。
若处理后的文本信息为“尊敬的用户|您的积分即将清零|请登陆官方网|请进行兑现换现金按提示安装领取|中国移动|”,其与服务器上文本类别A123456的相似度为85%,大于第一设定阈值80%,则将所述文本信息归入到A123456这个类别。当然,第一设定阈值可以根据系统或者需要设定,以上仅为示例性说明。
D,若所述处理后的文本信息与所述预先存储的所有文本类别中的文本信息的相似度值均小于第一设定阈值,为所述文本信息创建新的文本类别。
举例说明,若服务器遍历结束后,若确定处理后的文本信息与所述预先存储的所有文本类别中的文本信息的相似度值均小于第一设定阈值,即没有发现相似的类别,则为所述文本信息创建新的文本类别A123457。
其中,所述对所述文本信息进行规则提取,生成文本信息识别模板包括:
利用正则表达式对所述文本信息进行规则提取,生成文本信息识别模板。
其中,当本发明实施例还包括对文本信息进行聚类处理的步骤时,则所述对所述文本信息进行规则提取,生成文本信息识别模板即为对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板。其中,所述预设条件可以包括:所述文本类别的风险阈值大于第二设定阈值。其中,所述文本类别的风险阈值根据所述文本类别的风险特征值得到。所述风险特征值包括所述文本类别的出现时间、出现频率、出现地域中的任意一种或多种。举例说明,服务器或本地设备可以对已有的文本类别可以进行风险阈值评估。具体实现时,可以根据不同文本类别出现的时间,出现的次数,出现地域等因素进行风险阈值评估。例如,所述文本类别出现的时间越晚,出现的次数越多,则该文本类别的风险阈值越高。此外,还可以针对不同的地区进行地区风险阈值评估。比如,来自北京地区的诈骗短信,则在北京分类中,风险阈值会额外增加。当然,还可以设定其他风险阈值的评估方式,在此不进行限定。其中,第二设定阈值可以根据经验或需要设定。需要说明的是,在服务器端通过聚类处理以及风险阈值评估的方式,可以及时发现新出现的、出现数量较大、频率较高的骚扰、诈骗类信息。此外,本发明还可以针对不同地区做针对性的加权处理,避免更多的人被骚扰或被骗。
申请人发现,随着信息社会的发展,各类信息服务内容越来越多,用户收到的服务类短信越来越多,但是新型的伪基站诈骗方式使得传统的号码和关键词的拦截短信技术失灵,无法有效帮助用户避免上当受骗。然而,无论诈骗短信的内容多么逼真,即使号码伪造的和真实的服务商号码一致,但是垃圾短信的格式在短期内都会相似,因此通过提取某一类别垃圾短信的规则,生成文本信息识别模板,则会有效识别短信。因此,在本发明中,对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板。
其中,所述对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板包括:利用正则表达式对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板。所述文本信息识别模板包括符合句法规则的字符串,用于进行文本信息匹配。其中,正则表达式(英文全称为Regular Expression,英文简称为RE)又称正规表示法、常规表示法,是 一种使用单个字符串来描述、匹配一系列符合某个句法规则的字符串的方式。简单来说,正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式可以被用来检索、替换那些符合某个模式的文本。本发明正是利用了正则表达式,可以有效的获取垃圾短信的格式信息,并形成文本信息模板对垃圾短信进行识别。
举例说明,对上述文本类别A123456利用正则表达式进行规则提取,生成的文本信息识别模板为:
尊敬的用户(,|,)您的积分(即|)将清零(,|,)请登陆官方网[0-9a-zA-Z.]{4,11}
其中,“|”表示逻辑或,[0-9a-zA-Z.]{4,11}表示由数字0-9、小写字母a-z或者大写字母A-Z符号(.)组成的4位到11位的任意字符串。
若客户端收到一条文本信息为:
尊敬的用户,您的积分将清零,请登陆官方网1oo86aaa.com请进行兑现换现金按提示安装领取【中国移动】
此时,使用上述文本信息识别模板进行匹配,若所述文本信息与预存的文本信息识别模板匹配,则可以标识所述文本信息。例如,根据所述文本信息识别模板所属的类别,例如诈骗类,标识所述文本信息为诈骗短信。又如,若所述文本信息识别模板为合法短信,则标识所述文本信息为合法短信。
进一步地,当所述方法应用于服务器时,服务器还可以向客户端发送所述文本信息识别模板。
举例说明,服务器可以定时主动向客户端发送所述文本信息识别模板,也可以响应于客户端的请求发送所述文本信息识别模板。需要说明的是,服务器还可以针对不同地区,向不同的客户端发送不同地区的文本信息识别模板。
参见图2,为本发明另一实施例提供的文本信息处理方法流程图。
S201,接收第一文本信息。
S202,将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果。
其中,所述第一文本信息识别模板用于进行文本信息匹配。文本信息识别 模板的获取过程请参照图1以及前文所示实施例的介绍,在此不再赘述。
在一些实施方式中,所述文本信息识别模板可以是包含一个或者多个字符组的集合。在将所述第一文本信息与预存的文本信息识别模板进行匹配时,可以预先对第一文本信息进行处理,将其处理成包含一个或者多个字符组的集合,然后再与所述文本信息模板集合中的字符组进行相似度计算,以获得最终的匹配结果。
在一些实施方式中,所述文本信息模板包括符合句法规则的文字,例如由诈骗短信组成的模板,这时,也可以对诈骗短信模板中的文字以及所述第一文本信息均进行处理,将二者均转换成包含一个或者多个字符组的集合,然后将字符组与字符组进行比较,以获得最终的匹配结果。
需要说明的是,在以上提到的实施方式中,所述字符组不同于关键字,其可以具有一定的语法逻辑或者句法规则。举例说明,现有技术的关键字匹配往往设置的关键字为“中奖”这种具有明确含义的特征词,但本发明实施例中提取的字符组集合所包含的元素可以例如是:“您的积分即将清零、请进行兑现换现金按提示安装领取”等,其是具有语法逻辑或者句法规则的,并不是单纯的关键字,从一定程度上能够体现文本信息前后词语之间的顺序与逻辑关系,能够体现文本信息格式的一致性和规律性。
在一些实施方式中,所述文本信息模板包括符合句法规则的字符串,用于进行文本信息匹配。具体实现时,可以利用正则表达式将所述文本信息与预存的文本信息识别模板进行匹配,获得匹配结果。在这种实现方式中,文本信息识别模板则可以完全能够体现语法逻辑或者句法规则。
举例说明,若客户端收到一条文本信息为:
尊敬的用户,您的积分将清零,请登陆官方网1oo86aaa.com请进行兑现换现金按提示安装领取【中国移动】
通过正则表达式匹配,则有可能匹配的文本信息识别模板为:
尊敬的用户(,|,)您的积分(即|)将清零(,|,)请登陆官方网[0-9a-zA-Z.]{4,11}
从上述示例可以看出,文本信息与文本信息识别模板的格式相同或者相近,都符合一定的格式,其均是以“尊敬的用户”开头,然后是“,”接着是“您 的积分将清零”,然后是“请登陆官方网”,然后是以4到11位的字母或者数字组成的字符串。这样,就能够准确地将相同格式、具有相同的句法规则的文本识别出来。
S203,根据所述匹配结果,标识所述文本信息的可信度。。
在一些实施方式中,所述根据所述匹配结果,标识所述文本信息的可信度包括:根据获取的所述第一文本信息与预存的文本信息识别模板的匹配值以及预先保存的匹配值与可信度等级的对应关系,标识所述文本信息的可信度等级。举例说明,可以设置一个或者多个匹配阈值。不同的匹配阈值对应不同的可信度等级。以预存的文本信息识别模板为合法文本信息模板为例,匹配值越高,可信度等级越高。反之,当预存的文本新识别模板为非法文本信息模板时,匹配值越高,可信度等级越低。在具体实现时,可以根据所述匹配阈值,标记文本信息的可信度,例如标识可信度等级为高、中、低等。当然,以上仅为示例性说明,不视为对本发明的限制。
在一些实施方式中,所述根据所述匹配结果,标识所述文本信息的可信度包括:当所述匹配结果表明所述第一文本信息与预存的文本信息识别模板完全匹配时,输出与完全匹配结果对应的可信度结果;当所述匹配结果表明所述第一文本信息与预存的文本信息识别模板部分匹配时,输出与部分匹配结果对应的可信度结果。举例说明,可以预先设置不同的匹配结果与可信度结果的对应关系。其中,所述可信度结果可以是“该信息属于诈骗短信”,所述可信度结果可以是“垃圾短信的可能性很高,请注意”,也可以是“该信息疑似诈骗短信,请你小心”等。由此,可以有效地提示用户文本信息的可信度。
在一些实施方式中,当文本信息识别模板为符合句法规则的字符串时,所述匹配结果可以是匹配,或者是不匹配。若匹配结果表示所述第一文本信息与预存的文本信息识别模板匹配,可以标识所述第一文本信息的可信度。举例说明,若所述第一文本信息与预存的文本信息识别模板匹配,则可以根据所述文本信息识别模板所属的类别标识所述文本信息的可信度。例如,根据所述文本信息识别模板所属的类别,例如诈骗类,标识所述第一文本信息为诈骗短信。又如,若所述文本信息识别模板为合法短信,则标识所述第一文本信息为合法短信。
需要说明的是,为了避免例如合法信息发送者发送的短信被误认为为垃圾短信,所述预存的文本信息识别模板可以包括合法文本信息模板和非法文本信息模板。当用户收到一条合法的短信时,其与合法文本信息模板的匹配度必然高于其与非法文本信息模板的匹配度,因此所述合法的短信即与合法文本信息模板匹配,会被标识为合法信息。
在另外一种可能的实现方式中,当非法短信与合法短信的相似度较高时,为避免误伤合法短信的情况出现,可以设置第一文本信息识别模板库和第二文本信息识别模板库,通过区分文本信息的发送参数决定使用哪个文本信息识别模板库来进行匹配。举例说明,本发明的方法还可以包括:获取所述第一文本信息的发送参数;当所述发送参数符合预设条件时,使用第一文本信息识别模板库中的文本信息识别模板进行匹配;若所述匹配结果表明所述第一文本信息与预存的第一文本信息识别模板库中的模板匹配时,再将所述第一文本信息与预存的第二文本信息识别模板库中的模板进行匹配,若匹配,则标识所述文本信息为合法信息;若不匹配,则标识所述文本信息为非法信息。其中,所述第一文本信息识别模板库包含的文本信息识别模板为非法文本信息识别模板;所述第二文本信息识别模板库包含的文本信息识别模板为合法文本信息识别模板。举例说明,当诈骗短信与合法的10086短信相似度较高时,那么根据诈骗短信获得的非法文本信息识别模板就有可能匹配上合法的10086短信。当获取到一条10086发送的短信时,发现所述短信的发送参数例如发送号码是10086,满足预设条件,先将此短信与非法文本信息识别模板进行匹配,若匹配上,所述短信有非常大的可能是非法短信,当然,也有极小的可能是合法10086的短信。这时,为了排除这种可能性,将此短信与合法的10086短信对应的文本信息识别模板进行匹配,若匹配不上,说明此短信是非法短信;若匹配上,说明此短信正是极小概率下的合法10086短信。
进一步地,客户端可以显示提示信息,用于提示用户第一文本信息为合法短信,或非法短信,当为非法短信时进一步可以为垃圾短信、骚扰短信或者诈骗短信等。进一步地,客户端还可以拦截该第一文本信息,避免显示在收件箱或短信APP中。
进一步地,本发明实施例应用于客户端时,所述方法还包括:接收第二文 本信息;响应于用户标识所述第二文本信息的操作,向所述服务器发送所述第二文本信息。例如,当用户人工判断出接收的第二文本信息为合法短信或者非法短信时,可以标记所述第二文本信息。客户端响应于用户标识所述第二文本信息的操作,向所述服务器发送所述第二文本信息,以便于服务器提取文本信息识别模板。
在一些实施方式中,当所述方法应用于客户端时,将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果包括:将所述第一文本信息与所述客户端本地预存的文本信息识别模板进行匹配,获得第一匹配结果;当所述匹配结果符合预设条件时,向服务器发送所述第一文本信息;接收所述服务器在将所述第一文本信息与服务器预存的文本信息识别模板进行匹配获得的第二匹配结果;则所述根据所述匹配结果,标识所述文本信息的可信度包括:根据所述第二匹配结果标识文本信息的可信度。举例说明,可以在客户端本地保存有常见类型的模板,用户收到文本信息,先进行本地判定,当判定结果不明确时,再申请服务器判定,根据服务器的判定结果来标识文本信息的可信度。
下面将结合图3对另一示例性实施例进行说明。此实施例中,以文本信息为短信为例、客户端应用程序为短信APP为例进行说明。当然,本领域技术人员可以理解的是,本发明提供的方法还可以应用于其他文本信息通信工具中,包括但不限于QQ、微信、微博、邮件等。
参见图3,为本发明再一实施例提供的文本信息处理方法流程图。
S301,客户端接收新短信。
举例说明,客户端在手机上接收新短信。
S302,响应于用户标识所述新短信的操作,客户端向所述服务器发送所述短信。
举例说明,用户对接收的新短信进行判断,可以标识其为合法短信,也可以标识其为非法短信。在合适的网络条件下,客户端将向服务器发送该标识短信。
S303,服务器对所述短信进行聚类处理,获取所述短信的文本类别。
举例说明,服务器将收到的短信去掉非中文字符,这样一条短信就成为若干个汉字组,和服务器已存的所有类别依次遍历对比,如果属于已有的诈骗类 别,则计入相应的类别,如果属于新出现的类别,则单独创建该类别。
S304,服务器对已有的文本类别进行风险阈值评估处理。
举例说明,服务器对已有的文本类别可以进行风险阈值评估。具体实现时,可以根据不同文本类别出现的时间,出现的次数,出现地域等因素进行风险阈值评估。例如,所述文本类别出现的时间越晚,出现的次数越多,则该文本类别的风险阈值越高。此外,还可以针对不同的地区进行地区风险阈值评估。比如,来自北京地区的诈骗短信,则在北京分类中,风险阈值会额外增加。
S305,对文本类别的风险阈值大于第二设定阈值的短信进行规则提取,生成文本信息识别模板。
S306,服务器向客户端发送文本信息识别模板。
具体实现时,可以针对不同的地区,下发不同地区的文本信息识别模板。
S307,客户端更新文本信息识别模板。
S308,客户端接收新短信,利用所述文本信息识别模板进行检测匹配。
S309,当新短信与已有的文本信息识别模板匹配时,客户端针对该短信对用户进行提示。
在这一实施例中,通过文本信息识别模板标识文本的可信性,而不是传统的关键词信息进行识别,出错的可能性更低,有效提高准确率。这是因为,现有技术的关键词识别方法,若设置关键词为中奖,若有短信存在“中奖”一词可能就会认为是诈骗短信,这有可能造成误伤,给用户带来一定的损失。此外,由于关键词识别的局限性,垃圾短信发送者变换垃圾短信的内容,例如使用同义词、近义词,避免使用现有关键词,则会无法有效识别此类垃圾短信。而本发明实施例中,通过文本信息识别模板标识文本可信性,通过具有上下文环境的正则规则来匹配文本信息,使得识别的准确性显著提升。
此外,在这一实施例中,客户端可以响应于用户标识文本信息的操作,将文本信息上传至服务器进行分析。由于通过广大的用户首先对文本信息进行判断,再交由机器分析、检测,有效提升了文本信息可信性标识的准确性和及时性。
需要说明的是,这一实施例介绍的方法可以全部应用于客户端,或者全部应用于服务器,都能够达到相同的技术效果。详细地实现可以参照图3所述实 施例,在此不再赘述。
参见图4,为本发明一实施例提供的文本信息处理装置示意图。
一种文本信息处理装置400,包括:
获取单元401,用于获取文本信息;
文本信息识别模板生成单元402,用于对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。
进一步地,所述获取单元具体用于:
接收包含第一标识的文本信息;所述第一标识用于标识所述文本信息;或者,响应于用户标识文本信息的操作,获取所述文本信息进一步地,所述文本信息识别模板生成单元具体用于:
利用正则表达式对所述文本信息进行规则提取,生成文本信息识别模板。
进一步地,所述装置还包括:
聚类处理单元,用于对所述文本信息进行聚类处理,获取所述文本信息的文本类别;
所述文本信息识别模板生成单元具体用于:对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板。
进一步地,所述聚类处理单元具体包括:
处理单元,用于获取所述文本信息的核心信息对应的语种,去除所述文本信息中非所述语种的语言表示的字符,获得处理后的文本信息;
比较单元,用于将所述处理后的文本信息与所述服务器存储的文本类别中的文本信息进行比较,获取所述处理后的文本信息与所述服务器存储的文本类别中的文本信息的相似度值;
确定单元,用于若所述处理后的文本信息与所述服务器存储的任意一个文本类别中的文本信息的相似度值大于第一设定阈值,确定所述处理后的文本信息属于所述文本类别;
创建单元,用于若所述处理后的文本信息与所述服务器存储的任意一个文本类别中的文本信息的相似度值小于第一设定阈值,为所述文本信息创建新的文本类别。
进一步地,所述文本信息识别模板生成单元具体用于:
利用正则表达式对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板。
进一步地,所述预设条件包括:
所述文本类别的风险阈值大于第二设定阈值;其中,所述文本类别的风险阈值根据所述文本类别的风险特征值得到;所述风险特征值包括所述文本类别的出现时间、出现频率、出现地域中的任意一种或多种。
参见图5,为本发明另一实施例提供的文本信息处理装置示意图。
一种文本信息处理装置500,包括:
第一接收单元501,用于接收第一文本信息;
匹配单元502,用于将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;其中,所述文本信息识别模板用于进行文本信息匹配;
标识单元503,用于根据所述匹配结果,标识所述文本信息的可信度。
进一步地,所述标识单元具体用于:
根据获取的所述第一文本信息与预存的文本信息识别模板的匹配值以及预先保存的匹配值与可信度等级的对应关系,标识所述文本信息的可信度等级。
进一步地,所述标识单元具体用于:
当所述匹配结果表明所述第一文本信息与预存的文本信息识别模板完全匹配时,输出与完全匹配结果对应的可信度结果;
当所述匹配结果表明所述第一文本信息与预存的文本信息识别模板部分匹配时,输出与部分匹配结果对应的可信度结果。
进一步地,所述匹配单元具体用于:将所述第一文本信息与所述客户端本地预存的文本信息识别模板进行匹配,获得第一匹配结果;当所述匹配结果符合预设条件时,向服务器发送所述第一文本信息;接收所述服务器在将所述第一文本信息与服务器预存的文本信息识别模板进行匹配获得的第二匹配结果;
进一步地,所述标识单元具体用于:根据所述第二匹配结果标识文本信息的可信度。
进一步地,所述匹配单元具体用于:
利用正则表达式将所述文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;其中,所述文本信息识别模板包括符合句法规则的字符串。
进一步地,所述装置还包括:
第二接收单元,用于接收第二文本信息;
发送单元,用于响应于用户标识所述第二文本信息的操作,向所述服务器发送所述第二文本信息。
其中,本发明装置各单元或模块的设置可以参照图1至图3所示的方法而实现,在此不赘述。
参见图6,为根据一示例性实施例示出的一种用于文本信息处理的装置的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件606,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件606和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相 关联的组件。
多媒体组件606包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件606包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通 信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
具体地,本发明实施例提供了一种文本信息处理装置600,包括有存储器604,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器604中,且经配置以由一个或者一个以上处理器620执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取文本信息;
对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。
进一步地,所述处理器620具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收包含第一标识的文本信息;所述第一标识用于标识所述文本信息;
或者,
响应于用户标识文本信息的操作,获取所述文本信息。
进一步地,所述处理器620具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
利用正则表达式对所述文本信息进行规则提取,生成文本信息识别模板;其中,所述文本信息识别模板包括符合句法规则的字符串。
进一步地,所述处理器620具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对所述文本信息进行聚类处理,获取所述文本信息所属的文本类别;
所述对所述文本信息进行规则提取,生成文本信息识别模板具体为:
对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板。
进一步地,所述处理器620具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取所述文本信息的核心信息对应的语种,去除所述文本信息中非所述语种的语言表示的字符,获得处理后的文本信息;
将所述处理后的文本信息与所述服务器存储的文本类别中的文本信息进行比较,获取所述处理后的文本信息与所述服务器存储的文本类别中的文本信息的相似度值;
若所述处理后的文本信息与所述服务器存储的任意一个文本类别中的文本信息的相似度值大于第一设定阈值,确定所述处理后的文本信息属于所述文本类别;
若所述处理后的文本信息与所述服务器存储的所有文本类别中的文本信息的相似度值小于第一设定阈值,为所述文本信息创建新的文本类别。
进一步地,所述处理器620具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
利用正则表达式对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种文本信息处理方法,所述方法包括:
获取文本信息;
对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。
图7是根据另一示例性实施例示出的一种用于文本信息处理的装置700的框图。例如,装置700可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
装置700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件708,音频组件710,输入/输出(I/O)的接口712,传感器组件714,以及通信组件716。
处理组件702通常控制装置700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理部件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为装置700生成、管理和分配电力相关联的组件。
多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式,如拍摄模 式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当装置700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为装置700提供各个方面的状态评估。例如,传感器组件714可以检测到设备700的打开/关闭状态,组件的相对定位,例如所述组件为装置700的显示器和小键盘,传感器组件714还可以检测装置700或装置700一个组件的位置改变,用户与装置700接触的存在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、 现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
具体地,本发明实施例提供了一种用于文本信息处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收第一文本信息;
将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;其中,所述文本信息识别模板包括符合句法规则的字符串,用于进行文本信息匹配;
根据所述匹配结果,标识所述文本信息的可信度。。
进一步地,所述处理器720还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
根据获取的所述第一文本信息与预存的文本信息识别模板的匹配值以及预先保存的匹配值与可信度等级的对应关系,标识所述文本信息的可信度等级。
进一步地,所述处理器720还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
当所述匹配结果表明所述第一文本信息与预存的文本信息识别模板完全匹配时,输出与完全匹配结果对应的可信度结果;
当所述匹配结果表明所述第一文本信息与预存的文本信息识别模板部分匹配时,输出与部分匹配结果对应的可信度结果。
进一步地,所述处理器720还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将所述第一文本信息与所述客户端本地预存的文本信息识别模板进行匹配,获得第一匹配结果;
当所述匹配结果符合预设条件时,向服务器发送所述第一文本信息;
接收所述服务器在将所述第一文本信息与服务器预存的文本信息识别模板进行匹配获得的第二匹配结果;
根据所述第二匹配结果标识文本信息的可信度。
进一步地,所述处理器720还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:利用正则表达式将所述文本信息与预存的文本信息识别模板进行匹配,获得匹配结果。
进一步地,所述处理器720还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收第二文本信息;
响应于用户标识所述第二文本信息的操作,向所述服务器发送所述第二文本信息。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由装置700的处理器720执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种文本信息处理方法,所述方法包括:
接收第一文本信息;
将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;其中,所述文本信息识别模板用于进行文本信息匹配;
根据所述匹配结果,标识所述文本信息的可信度。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (17)

1.一种文本信息处理方法,其特征在于,包括:
获取文本信息;
对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。
2.根据权利要求1所述的方法,其特征在于,所述获取文本信息包括:
接收包含第一标识的文本信息;所述第一标识用于标识所述文本信息;
或者,
响应于用户标识文本信息的操作,获取所述文本信息。
3.根据权利要求1所述的方法,其特征在于,所述文本信息识别模板包括符合句法规则的字符串。
4.根据权利要求1或3所述的方法,其特征在于,所述对所述文本信息进行规则提取,生成文本信息识别模板包括:
利用正则表达式对所述文本信息进行规则提取,生成文本信息识别模板。
5.根据权利要求1、3或4所述的方法,其特征在于,所述方法还包括:
对所述文本信息进行聚类处理,获取所述文本信息所属的文本类别;
所述对所述文本信息进行规则提取,生成文本信息识别模板具体为:
对符合预设条件的文本类别对应的文本信息进行规则提取,生成文本信息识别模板。
6.根据权利要求5所述的方法,其特征在于,所述对所述文本信息进行聚类处理,获取所述文本信息的文本类别包括:
获取所述文本信息的核心信息对应的语种,去除所述文本信息中非所述语种的语言表示的字符,获得处理后的文本信息;
将所述处理后的文本信息与预先存储的文本类别中的文本信息进行比较,获取所述处理后的文本信息与所述预先存储的文本类别中的文本信息的相似度值;
若所述处理后的文本信息与所述预先存储的任意一个文本类别中的文本信息的相似度值大于第一设定阈值,确定所述处理后的文本信息属于所述文本类别;
若所述处理后的文本信息与所述预先存储的所有文本类别中的文本信息的相似度值小于第一设定阈值,为所述文本信息创建新的文本类别。
7.根据权利要求5所述的方法,其特征在于,所述预设条件包括:
所述文本类别的风险阈值大于第二设定阈值;其中,所述文本类别的风险阈值根据所述文本类别的风险特征值得到;所述风险特征值包括所述文本类别的出现时间、出现频率、出现地域中的任意一种或多种。
8.一种文本信息处理方法,其特征在于,包括:
接收第一文本信息;
将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;所述文本信息识别模板用于进行文本信息匹配;
根据所述匹配结果,标识所述文本信息的可信度。
9.根据权利要求8所述的方法,其特征在于,所述根据所述匹配结果,标识所述文本信息的可信度包括:
根据获取的所述第一文本信息与预存的文本信息识别模板的匹配值以及预先保存的匹配值与可信度等级的对应关系,标识所述文本信息的可信度等级。
10.根据权利要求8所述的方法,其特征在于,所述根据所述匹配结果,标识所述文本信息的可信度包括:
当所述匹配结果表明所述第一文本信息与预存的文本信息识别模板完全匹配时,输出与完全匹配结果对应的可信度结果;
当所述匹配结果表明所述第一文本信息与预存的文本信息识别模板部分匹配时,输出与部分匹配结果对应的可信度结果。
11.根据权利要求8所述的方法,其特征在于,当所述方法应用于客户端时,将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果包括:
将所述第一文本信息与所述客户端本地预存的文本信息识别模板进行匹配,获得第一匹配结果;
当所述匹配结果符合预设条件时,向服务器发送所述第一文本信息;
接收所述服务器在将所述第一文本信息与服务器预存的文本信息识别模板进行匹配获得的第二匹配结果;
则所述根据所述匹配结果,标识所述文本信息的可信度包括:
根据所述第二匹配结果标识文本信息的可信度。
12.根据权利要求8所述的方法,其特征在于,所述文本信息识别模板包括符合句法规则的字符串,所述将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果包括:
利用正则表达式将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果。
13.根据权利要求8所述的方法,其特征在于,当所述方法应用于客户端时,所述方法还包括:
接收第二文本信息;
响应于用户标识所述第二文本信息的操作,向服务器发送所述第二文本信息。
14.一种文本信息处理装置,其特征在于,包括:
获取单元,用于获取文本信息;
文本信息识别模板生成单元,用于对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。
15.一种文本信息处理装置,其特征在于,包括:
第一接收单元,用于接收第一文本信息;
匹配单元,用于将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;其中,所述文本信息识别模板用于进行文本信息匹配;
标识单元,用于根据所述匹配结果,标识所述文本信息的可信度。
16.一种用于文本信息处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取文本信息;
对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。
17.一种用于文本信息处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收第一文本信息;
将所述第一文本信息与预存的文本信息识别模板进行匹配,获得匹配结果;其中,所述文本信息识别模板用于进行文本信息匹配;
根据所述匹配结果,标识所述文本信息的可信度。
CN201610173702.9A 2016-03-24 2016-03-24 一种文本信息处理方法及装置 Pending CN107229638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610173702.9A CN107229638A (zh) 2016-03-24 2016-03-24 一种文本信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610173702.9A CN107229638A (zh) 2016-03-24 2016-03-24 一种文本信息处理方法及装置

Publications (1)

Publication Number Publication Date
CN107229638A true CN107229638A (zh) 2017-10-03

Family

ID=59932188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610173702.9A Pending CN107229638A (zh) 2016-03-24 2016-03-24 一种文本信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN107229638A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748739A (zh) * 2017-10-19 2018-03-02 上海大汉三通通信股份有限公司 一种短信文本模版的提取方法及相关装置
CN108304442A (zh) * 2017-11-20 2018-07-20 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置及存储介质
CN108376333A (zh) * 2018-03-12 2018-08-07 网易(杭州)网络有限公司 文件审批方法、介质、装置和计算设备
CN109033224A (zh) * 2018-06-29 2018-12-18 阿里巴巴集团控股有限公司 一种风险文本识别方法和装置
CN109299228A (zh) * 2018-11-27 2019-02-01 阿里巴巴集团控股有限公司 计算机执行的文本风险预测方法及装置
CN109558592A (zh) * 2018-11-29 2019-04-02 上海点融信息科技有限责任公司 基于人工智能获取客户信用风险评估信息的方法及设备
CN109992386A (zh) * 2019-03-31 2019-07-09 联想(北京)有限公司 一种信息处理方法和电子设备
CN110516071A (zh) * 2019-08-29 2019-11-29 出门问问(武汉)信息科技有限公司 一种对话识别方法及电子设备
CN110688831A (zh) * 2019-10-08 2020-01-14 上海创蓝文化传播有限公司 短信文本模版的识别方法
CN111222316A (zh) * 2020-01-03 2020-06-02 北京小米移动软件有限公司 文本检测方法、装置及存储介质
CN111259207A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 短信的识别方法、装置及设备
CN111753675A (zh) * 2020-06-08 2020-10-09 北京天空卫士网络安全技术有限公司 一种图片型垃圾邮件的识别方法和装置
CN111753520A (zh) * 2020-06-02 2020-10-09 五八有限公司 一种风险预测方法、装置、电子设备及存储介质
CN112819061A (zh) * 2021-01-27 2021-05-18 北京小米移动软件有限公司 口令信息识别方法、装置、设备及存储介质
CN113344599A (zh) * 2021-06-30 2021-09-03 中国光大银行股份有限公司 一种诈骗短信鉴别方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287176A (zh) * 2008-05-30 2008-10-15 侯万春 对移动电话用户接收的短消息标注信用等级的方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN103313248A (zh) * 2013-04-28 2013-09-18 北京小米科技有限责任公司 一种识别垃圾信息的方法和装置
CN103476011A (zh) * 2013-08-30 2013-12-25 广东明创软件科技有限公司 提示用户短信可信度的方法及其系统
CN103607705A (zh) * 2013-12-04 2014-02-26 北京网秦天下科技有限公司 垃圾短信过滤方法及引擎
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
CN103678373A (zh) * 2012-09-17 2014-03-26 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN104301896A (zh) * 2014-10-15 2015-01-21 上海欣方智能系统有限公司 诈骗短信智能监控告警系统和方法
CN104349324A (zh) * 2013-11-15 2015-02-11 上海触乐信息科技有限公司 移动终端号码智能防护系统及方法
CN104539624A (zh) * 2015-01-08 2015-04-22 北京奇虎科技有限公司 文本中号码信息的安全监测方法及装置
CN104714938A (zh) * 2013-12-12 2015-06-17 联想(北京)有限公司 一种信息处理的方法及电子设备
CN105138575A (zh) * 2015-07-29 2015-12-09 百度在线网络技术(北京)有限公司 语音文本串的解析方法和装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287176A (zh) * 2008-05-30 2008-10-15 侯万春 对移动电话用户接收的短消息标注信用等级的方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN103678373A (zh) * 2012-09-17 2014-03-26 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN103313248A (zh) * 2013-04-28 2013-09-18 北京小米科技有限责任公司 一种识别垃圾信息的方法和装置
CN103476011A (zh) * 2013-08-30 2013-12-25 广东明创软件科技有限公司 提示用户短信可信度的方法及其系统
CN104349324A (zh) * 2013-11-15 2015-02-11 上海触乐信息科技有限公司 移动终端号码智能防护系统及方法
CN103607705A (zh) * 2013-12-04 2014-02-26 北京网秦天下科技有限公司 垃圾短信过滤方法及引擎
CN104714938A (zh) * 2013-12-12 2015-06-17 联想(北京)有限公司 一种信息处理的方法及电子设备
CN104301896A (zh) * 2014-10-15 2015-01-21 上海欣方智能系统有限公司 诈骗短信智能监控告警系统和方法
CN104539624A (zh) * 2015-01-08 2015-04-22 北京奇虎科技有限公司 文本中号码信息的安全监测方法及装置
CN105138575A (zh) * 2015-07-29 2015-12-09 百度在线网络技术(北京)有限公司 语音文本串的解析方法和装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748739A (zh) * 2017-10-19 2018-03-02 上海大汉三通通信股份有限公司 一种短信文本模版的提取方法及相关装置
CN108304442A (zh) * 2017-11-20 2018-07-20 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置及存储介质
CN108376333A (zh) * 2018-03-12 2018-08-07 网易(杭州)网络有限公司 文件审批方法、介质、装置和计算设备
CN109033224A (zh) * 2018-06-29 2018-12-18 阿里巴巴集团控股有限公司 一种风险文本识别方法和装置
CN109033224B (zh) * 2018-06-29 2022-02-01 创新先进技术有限公司 一种风险文本识别方法和装置
CN109299228B (zh) * 2018-11-27 2021-09-03 创新先进技术有限公司 计算机执行的文本风险预测方法及装置
CN109299228A (zh) * 2018-11-27 2019-02-01 阿里巴巴集团控股有限公司 计算机执行的文本风险预测方法及装置
CN109558592A (zh) * 2018-11-29 2019-04-02 上海点融信息科技有限责任公司 基于人工智能获取客户信用风险评估信息的方法及设备
CN111259207A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 短信的识别方法、装置及设备
CN109992386A (zh) * 2019-03-31 2019-07-09 联想(北京)有限公司 一种信息处理方法和电子设备
CN109992386B (zh) * 2019-03-31 2021-10-22 联想(北京)有限公司 一种信息处理方法和电子设备
CN110516071A (zh) * 2019-08-29 2019-11-29 出门问问(武汉)信息科技有限公司 一种对话识别方法及电子设备
CN110688831A (zh) * 2019-10-08 2020-01-14 上海创蓝文化传播有限公司 短信文本模版的识别方法
CN111222316A (zh) * 2020-01-03 2020-06-02 北京小米移动软件有限公司 文本检测方法、装置及存储介质
CN111222316B (zh) * 2020-01-03 2023-08-29 北京小米移动软件有限公司 文本检测方法、装置及存储介质
CN111753520A (zh) * 2020-06-02 2020-10-09 五八有限公司 一种风险预测方法、装置、电子设备及存储介质
CN111753520B (zh) * 2020-06-02 2023-04-18 五八有限公司 一种风险预测方法、装置、电子设备及存储介质
CN111753675A (zh) * 2020-06-08 2020-10-09 北京天空卫士网络安全技术有限公司 一种图片型垃圾邮件的识别方法和装置
CN111753675B (zh) * 2020-06-08 2024-03-26 北京天空卫士网络安全技术有限公司 一种图片型垃圾邮件的识别方法和装置
CN112819061A (zh) * 2021-01-27 2021-05-18 北京小米移动软件有限公司 口令信息识别方法、装置、设备及存储介质
CN112819061B (zh) * 2021-01-27 2024-05-10 北京小米移动软件有限公司 口令信息识别方法、装置、设备及存储介质
CN113344599A (zh) * 2021-06-30 2021-09-03 中国光大银行股份有限公司 一种诈骗短信鉴别方法及系统
CN113344599B (zh) * 2021-06-30 2024-06-11 中国光大银行股份有限公司 一种诈骗短信鉴别方法及系统

Similar Documents

Publication Publication Date Title
CN107229638A (zh) 一种文本信息处理方法及装置
CN109522419B (zh) 会话信息补全方法及装置
CN108351928A (zh) 一种终端设备信息显示方法和终端设备
CN104462509A (zh) 垃圾评论检测方法及装置
CN103037339B (zh) 一种基于“用户信誉度和短信垃圾度”的短信息过滤方法
WO2015058616A1 (zh) 恶意网站的识别方法和装置
CN103415004B (zh) 一种检测垃圾短消息的方法及装置
CN101784022A (zh) 短信过滤、分类方法及系统
WO2015041981A1 (en) Automatic injection of security confirmation
CN106341313A (zh) 获取账单信息的方法及装置
CN106657690A (zh) 一种防止电话诈骗的方法、装置及移动终端
CN109271768A (zh) 发布信息管理方法、装置、存储介质及终端
CN105550298A (zh) 一种关键词模糊匹配的方法及装置
CN107145780A (zh) 恶意软件检测方法及装置
EP4167121A1 (en) Message display method, apparatus, and electronic device
CN103067600A (zh) 一种智能手机防误触系统及实现方法
US8112631B2 (en) Password input device, computer security system using the same and method thereof
CN106603815A (zh) 消息处理方法及装置
CN115618403A (zh) 数据安全处理方法、装置、计算机设备及可读存储介质
CN106570367A (zh) 基于键盘操作的用户身份识别方法和装置
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN107196889A (zh) 僵尸账号的检测方法和装置
CN106921958A (zh) 退订业务的方法和装置
CN104076945B (zh) 用于在终端中显示输入键盘的装置和方法
CN106980778B (zh) 信息鉴定方法、装置和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171003

RJ01 Rejection of invention patent application after publication