CN110019760A - 一种文本信息的处理方法及装置 - Google Patents
一种文本信息的处理方法及装置 Download PDFInfo
- Publication number
- CN110019760A CN110019760A CN201711065546.5A CN201711065546A CN110019760A CN 110019760 A CN110019760 A CN 110019760A CN 201711065546 A CN201711065546 A CN 201711065546A CN 110019760 A CN110019760 A CN 110019760A
- Authority
- CN
- China
- Prior art keywords
- text information
- information
- threshold value
- processing system
- frequency threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本信息的处理方法及装置,用以解决现有技术中文本信息的过滤方法不灵活,导致文本信息过滤的错误率较高的问题。在该方法中,信息处理系统获取用户的文本信息后,将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数,并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。这样所述信息处理系统不是在匹配成功后直接进行过滤,同时并不需要设置更多的语义关键词,使得对文本信息的处理更加灵活的同时可以降低文本信息过滤的错误率。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种文本信息的处理方法及装置。
背景技术
随着通信技术的不断发展,用户通过网络互相发送信息已经为普遍现象,随之而来的是网络中会存在大量不良信息,其中文本信息是信息存在的多种形式中的最常见的一种,因此,对文本信息的监控和过滤已经成为普遍需求,进而引入了文本过滤系统对文本信息进行过滤处理,从而保障网络环境的安全。
目前,文本过滤系统过滤文本信息的基本流程为:文本过滤系统获取到文本信息后,将所述文本信息与预先定义的语义关键词进行匹配,当匹配成功时,则说明所述文本信息为需要过滤的信息,进而对所述文本信息进行过滤处理。
但是由于语言表达形式多种多样,仅通过上述方法过滤文本信息时通常会造成对正常的文本消息错误拦截或者对不良的文本信息的漏拦截,进而导致过滤的错误率较高。为了降低过滤的错误率,需要预先定义更多的语义关键词。显然,上述方法不灵活,会导致文本信息过滤的错误率较高。
发明内容
本发明提供一种文本信息的处理方法及装置,用以解决现有技术中文本信息的过滤方法不灵活,导致文本信息过滤的错误率较高的问题。
本发明提供的具体技术方案如下:
第一方面,本发明实施例提供了一种文本信息的处理方法,包括:
信息处理系统获取用户的文本信息;
所述信息处理系统将所述文本信息与预设的语义关键词进行匹配;
当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;
所述信息处理系统根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
结合第一方面,在第一方面的第一种可能的实现方式中,所述设定次数阈值包括第一设定次数阈值、第二设定次数阈值和第三设定次数阈值,且所述第一设定次数阈值大于所述第二设定次数阈值,所述第二设定次数阈值大于所述第三设定次数阈值;
所述信息处理系统根据所述匹配成功次数和所述设定次数阈值,对所述文本信息进行拦截指示处理,包括:
当所述信息处理系统判定所述匹配成功次数大于或者等于所述第一设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单;
当所述信息处理系统判定所述匹配成功次数小于所述第一设定次数阈值,且大于或者等于所述第二设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息的信息标识,将所述信息标识添加到信息标识库;
当所述信息处理系统判定所述匹配成功次数小于所述第二设定次数阈值,且大于或者等于所述第三设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截;
当所述信息处理系统判定所述匹配成功次数小于所述第三设定阈值时,所述信息处理系统指示所述文本信息不需要被拦截。
结合第一方面,在第一方面的第二种可能的实现方式中,在所述信息处理系统将所述文本信息与预设的语义关键词进行匹配之前,所述方法还包括:
所述信息处理系统获取所述文本信息中包含的所述用户的用户标识,并确定所述用户标识未保存在用户标识黑名单中。
结合第一方面,在第一方面的第三种可能的实现方式中,在所述信息处理系统将所述文本信息与预设的语义关键词进行匹配之前,所述方法还包括:
所述信息处理系统获取所述文本信息的信息标识,并确定所述信息标识未保存在信息标识库中。
结合第一方面、第一方面的第一种至第三种可能的实现方式中的任一项,在第一方面的第四种可能的实现方式中,所述方法还包括:
当所述处理信息系统确定所述文本信息与所述语义关键词匹配失败时,所述处理信息系统将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息与所述语义关键词进行匹配;
当所述处理信息系统确定处理后的文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在所述设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
第二方面,本发明实施例提供了一种信息处理系统,包括:
获取模块,用于获取用户的文本信息;
处理模块,用于将所述文本信息与预设的语义关键词进行匹配;以及
当确定所述文本信息与所述语义关键词匹配成功时,确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
结合第二方面,在第二方面的第一种可能的实现方式中,所述设定次数阈值包括第一设定次数阈值、第二设定次数阈值和第三设定次数阈值,且所述第一设定次数阈值大于所述第二设定次数阈值,所述第二设定次数阈值大于所述第三设定次数阈值;
所述处理模块,在根据所述匹配成功次数和所述设定次数阈值,对所述文本信息进行拦截指示处理时,具体用于:
当判定所述匹配成功次数大于或者等于所述第一设定次数阈值时,指示所述文本信息需要被拦截,并获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单;
当判定所述匹配成功次数小于所述第一设定次数阈值,且大于或者等于所述第二设定次数阈值时,指示所述文本信息需要被拦截,并获取所述文本信息的信息标识,将所述信息标识添加到信息标识库;
当判定所述匹配成功次数小于所述第二设定次数阈值,且大于或者等于所述第三设定次数阈值时,指示所述文本信息需要被拦截;
当判定所述匹配成功次数小于所述第三设定阈值时,指示所述文本信息不需要被拦截。
结合第二方面,在第二方面的第二种可能的实现方式中,在所述处理模块将所述文本信息与预设的语义关键词进行匹配之前,所述处理模块还用于:
获取所述文本信息中包含的所述用户的用户标识,并确定所述用户标识未保存在用户标识黑名单中。
结合第二方面,在第二方面的第三种可能的实现方式中,在所述处理模块将所述文本信息与预设的语义关键词进行匹配之前,所述处理模块还用于:
获取所述文本信息的信息标识,并确定所述信息标识未保存在信息标识库中。
结合第二方面、第二方面的第一种至第三种可能的实现方式中的任一项,在第二方面的第四种可能的实现方式中,所述处理模块,还用于:
当确定所述文本信息与所述语义关键词匹配失败时,将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息与所述语义关键词进行匹配;
当确定处理后的文本信息与所述语义关键词匹配成功时,确定在所述设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
本发明实施例的技术方案中,信息处理系统获取用户的文本信息后,将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数,并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。在该方法中,所述信息处理系统通过文本信息与语义关键词的匹配成功次数对文本信息进行拦截指示处理,而不是在匹配成功后直接进行过滤,同时并不需要设置更多的语义关键词,这样使得对文本信息的处理更加灵活的同时可以降低文本信息过滤的错误率。
附图说明
图1为本发明实施例提供的一种系统的架构图;
图2为本发明实施例提供的一种文本信息的处理方法的流程图;
图3为本发明实施例提供的一种文本信息的处理方法的示例的流程图;
图4为本发明实施例提供的一种信息处理系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供一种文本信息的处理方法及装置,用以解决现有技术中文本信息的过滤方法不灵活,导致文本信息过滤的错误率较高的问题。其中,本发明所述方法和装置基于同一发明构思,由于方法及装置解决问题的原理相似,因此装置与方法的实施可以相互参见,重复之处不再赘述。
本发明实施例的技术方案中,信息处理系统获取用户的文本信息后,将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数,并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。在该方法中,所述信息处理系统通过文本信息与语义关键词的匹配成功次数对文本信息进行拦截指示处理,而不是在匹配成功后直接进行过滤,同时并不需要设置更多的语义关键词,这样使得对文本信息的处理更加灵活的同时可以降低文本信息过滤的错误率。
本发明实施例中,用户之间通常通过通信系统,例如常用的通信融合系统(RichCommuncation Suite,RCS)等系统发送信息,而为了保证信息安全,所述通信系统会通过信息处理系统(例如不良信息管控系统)对用户需要发送的文本信息进行鉴权,所述信息处理系统通过分析后将鉴权结果(文本消息需被放行或者需被拦截等)反馈给所述通信系统,所述通信系统会根据所述鉴权结果,对用户发送的文本信息拦截或者发送给另一用户。其中,所述信息处理系统可以为所述通信系统的一部分,也可以是独立于所述通信系统的单独存在的系统,本发明对此不作限定。
为了更加清晰地描述本发明实施例的技术方案,下面结合附图,对本发明实施例提供的文本信息的处理方法及装置进行详细说明。
图1示出了本发明文本信息的处理方法适用的可能的一种系统结构,该系统结构包括RCS系统和信息处理系统。其中:
所述RCS系统接收用户1发送给用户2的文本信息后,向所述信息处理系统发送包含所述文本信息的文本信息鉴权请求,并接收所述信息处理系统返回的文本信息处理结果,根据所述文本信息处理结果对所述文本信息进行相应处理。例如,若所述文本信息鉴权结果为所述文本信息可以被放行(即不需要被拦截),则所述RCS系统将所述文本信息发送给所述用户2;若所述文本信息鉴权结果为所述文本信息需要被拦截,则所述RCS系统将所述文本信息拦截。
所述信息处理系统接收到所述RCS系统发送的包含所述文本信息的文本信息鉴权请求后,对所述文本信息进行分析,并向所述RCS系统返回所述文本信息鉴权结果,以使所述RCS系统根据所述文本信息鉴权结果对所述文本信息进行相应处理。其中,具体的,所述信息处理系统分析确定所述文本信息为正常信息时,向所述RCS系统返回所述文本信息可以被放行的结果;所述信息处理系统分析确定所述文本信息为不良信息时,向所述RCS系统返回所述文本信息需要被拦截的结果。
当然上述用户1和用户2之间是相互发送文本信息的,所述RCS系统接收到所述用户2向所述用户1发送的文本信息时,处理流程同上述流程相同,此处不再赘述。
可以理解的是,除用户2和用户1之间文本信息的相互发送外,还有多个用户之间同样可以相互发送文本信息,处理流程相同,此处不再一一列举。
需要说明的是,所述RCS系统和所述信息处理系统可以如图1所示单独存在的,还可以部署于同一个系统内,例如,所述信息处理系统可以为所述RCS系统的一部分,本发明对此不作限定。
本发明实施例提供的一种文本信息的处理方法,应用于图1所示的系统架构。参阅图2所示,该方法的具体流程包括:
步骤201:信息处理系统获取用户的文本信息。
通常情况下,所述用户在向另一用户发送所述文本信息时,会通过RCS系统(也可以为其他系统,以下仅以所述RCS系统为例说明)发送,所述RCS系统接收到所述文本信息后,会主动将所述文本信息发送给所述信息处理系统,以使所述信息处理系统对所述文本信息进行拦截指示处理。因此,可选的,所述信息处理系统获取所述用户的所述文本信息具体可以为:所述信息处理系统接收RCS系统发送的所述文本信息。
步骤202:所述信息处理系统将所述文本信息与预设的语义关键词进行匹配。
可选的,所述信息处理系统中预先配置了所述语义关键词,具体的,所述语义关键词可以由基本关键词和/或语义关系符组成。例如,一个语义关键词为“(胖OR瘦)AND(微信)”,其中“胖”、“瘦”、“微信”为基本关键词,OR、AND、()为语义关系符。
可选的,所述信息处理系统在配置所述语义关键词时,可以将所述语义关键词中的基本关键词生成字典树数据结构(即树形结构),以使所述信息处理系统将文本信息与所述语义关键词进行匹配时,通过从字典树数据结构的根节点到叶子节点逐步匹配,确定所述文本信息中是否包含所述语义关键词中的基本关键词,进而进行再进行语义匹配。通过上述方法,可以提高匹配速率,提高效率。
可选的,在所述信息处理系统执行步骤202之前,所述信息处理系统还可以执行以下步骤:所述信息处理系统获取所述文本信息中包含的所述用户的用户标识,并确定所述用户标识未保存在用户标识黑名单中。
其中,所述用户标识黑名单中保存了多个用户标识,保存的每个用户标识对应预设的加黑时长,在加黑时长到达后用户标识会被在所述用户标识黑名单中清除。所述多个用户标识的多个用户在分别对应的加黑时长内,不能通过RCS系统向任何用户发送消息。当所述信息处理系统确定所述用户标识黑名单中保存了发送文本信息的用户的用户标识时,所述信息处理系统直接指示该文本信息需要被拦截,而无需进行语义关键词匹配流程。这样直接对发送消息的用户进行管控,可以从源头杜绝不良信息的传播,同时还可以提高所述信息处理系统的工作效率。
可选的,在所述信息处理系统执行步骤202之前,所述信息处理系统还可以执行以下步骤:所述信息处理系统获取所述文本信息的信息标识,并确定所述信息标识未保存在信息标识库中。
其中,可选的所述信息标识可以为所述文本信息的信息摘要值、哈希值或者其它可唯一标识所述文本信息的编码等。例如,所述信息摘要值可以为通过消息摘要算法第五版(Message Digest Algorithm 5,MD5)得到的MD5值;所述哈希值可以为通过安全哈希算法(Secure Hash Algorithm,SHA1)得到的SHA1值;所述信息标识还可以为通过其它方法得到的其它值,此处不再列举。
可选的,所述信息处理系统获取所述文本信息的信息标识,具体方法可以为:
当所述文本信息中包含所述信息标识时,所述信息处理系统直接获取所述文本信息中包含的所述信息标识;或者
所述信息处理系统根据所述文本信息确定所述文本信息的文本标识;其中可选的,所述信息处理系统可以通过上述描述的MD5、SHA1等算法得到所述信息标识。
具体的,所述信息标识库中保存了多个信息标识,当所述信息处理系统确定所述信息标识库中保存了一个文本信息的信息标识时,所述信息处理系统可以直接指示该文本信息需要被拦截,而无需进行语义关键词匹配流程。这样可以提高所述信息处理系统的工作效率。
步骤203:当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数。
具体的,所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,对所述用户的匹配成功次数进行加1处理,即对匹配成功次数进行累加,以使所述信息处理系统可以确定所述设定时长内的所述匹配成功次数。
步骤204:所述信息处理系统根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
可选的,所述设定次数阈值可以但不限于包括第一设定次数阈值、第二设定次数阈值和第三设定次数阈值,且所述第一设定次数阈值大于所述第二设定次数阈值,所述第二设定次数阈值大于所述第三设定次数阈值。
可选的,所述信息处理系统执行步骤204时,具体方法可以为:
当所述信息处理系统判定所述匹配成功次数大于或者等于所述第一设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单;
当所述信息处理系统判定所述匹配成功次数小于所述第一设定次数阈值,且大于或者等于所述第二设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息的信息标识,将所述信息标识添加到信息标识库;其中,所述信息处理系统获取所述信息标识的方法与上述步骤202中所述信息处理系统获取所述文本信息的信息标识的方法相同,可以参见;
当所述信息处理系统判定所述匹配成功次数小于所述第二设定次数阈值,且大于或者等于所述第三设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截;
当所述信息处理系统判定所述匹配成功次数小于所述第三设定阈值时,所述信息处理系统指示所述文本信息不需要被拦截。
在上述方法中,所述信息处理系统指示所述文本信息需要被拦截,具体可以为:所述信息处理系统向所述RCS系统发送拦截指示,以使所述RCS系统拦截所述文本信息;所述信息处理系统指示所述文本信息不需要被拦截,具体可以为:所述信息处理系统向所述RCS系统发送放行指示,以使所述RCS系统将所述文本信息发送给需要接收所述文本信息的用户。
通过上述方法,可以通过不同的匹配成功次数进行不同的处理,这样增加了匹配成功的容忍度,进而使文本信息处理更加灵活,提高文本信息过滤的正确率。
需要说明的是,所述信息处理系统还可以对所述文本信息进行除上述方法中的处理方法之外的多种方法进行处理,本发明对此不限定。
可选的,所述信息处理系统中可以预先配置形近字和/或拆分字字典,当所述处理信息系统确定所述文本信息与所述语义关键词匹配失败时,所述处理信息系统将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息与所述语义关键词进行匹配;当所述处理信息系统确定处理后的文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在所述设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行。
例如,当所述文本信息为“胖”时,所述信息处理系统将“胖”与所述语义关键词匹配失败时,可以将“胖”拆分成“月半”,然后将“月半”与所述语义关键词进行匹配。
其中,所述信息处理系统将处理后的文本信息与所述语义关键词进行匹配的方法与步骤202中方法相同,可以相互参见。
具体的,当所述处理信息系统确定处理后的文本信息与所述语义关键词匹配成功时,表明所述文本信息的变形形式与所述语义关键词匹配成功,同样可以代表所述文本信息与所述语义关键词匹配成功了,此时,同样将所述用户的匹配成功次数进行加1处理,进而对所述文本信息进行拦截指示处理。
可选的,当所述处理信息系统确定所述文本信息与所述语义关键词匹配失败时,所述信息处理系统确定已对所述文本信息进行过形近字和/或拆分字替换处理时,所述信息处理系统指示所述文本信息不需要被拦截。
采用本发明实施例提供的一种文本信息的处理方法,信息处理系统获取用户的文本信息后,将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数,并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。在该方法中,所述信息处理系统通过文本信息与语义关键词的匹配成功次数对文本信息进行拦截指示处理,而不是在匹配成功后直接进行过滤,同时并不需要设置更多的语义关键词,这样使得对文本信息的处理更加灵活的同时可以降低文本信息过滤的错误率。
基于以上实施例,本发明实施例还提供了一种文本信息的处理方法的示例,,应用于图1所示的系统架构,如图3所示,该示例的具体流程图为:
步骤301:信息处理系统获取用户的文本信息。
步骤302:所述信息处理系统判断用户标识黑名单中是否保存所述文本信息中包含的所述用户的用户标识,若是,则执行步骤313,否则执行步骤303。
步骤303:所述信息处理系统判断信息标识库中是否保存所述文本信息的信息标识,若是,则执行步骤313,否则执行步骤304。
步骤304:所述信息处理系统将所述文本信息与预设的语义关键词进行匹配,判断是否匹配成功,若是,执行步骤305,否则执行步骤306。
步骤305:所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数,执行步骤308。
步骤306:所述信息处理系统判断是否将所述文本信息进行形近字和/或拆分字替换处理,若是,则执行步骤314,否则执行步骤307。
步骤307:所述信息处理系统将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息作为所述文本信息,然后执行步骤304。
具体的,步骤307中的描述表示所述信息处理系统将处理后的文本信息与所述语义关键词进行匹配,进入匹配流程,方法与步骤304中的方法相同,因此可以看作是将所述处理后的文本信息作为所述文本信息而重复上述匹配流程。
步骤308:所述信息处理系统判断所述匹配成功次数是否大于或者等于第一设定次数阈值,若是,则执行步骤309,否则执行步骤310。
步骤309:所述信息处理系统获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单,并执行步骤313。
步骤310:所述信息处理系统判断所述匹配成功次数是否大于或者等于第二设定次数阈值,若是,则执行步骤311,否则执行步骤312。
步骤311:所述信息处理系统获取所述文本信息的信息标识,将所述信息标识添加到信息标识库,并执行步骤313。
步骤312:所述信息处理系统判断所述匹配成功次数是否大于或者等于所述第三设定阈值,若是,则执行步骤313,否则执行步骤314。
步骤313:所述信息处理系统指示所述文本信息需要被拦截。
步骤314:所述信息处理系统指示所述文本信息不需要被拦截。
基于上述示例,通过本发明实施例中提供的一种文本信息的处理方法,信息处理系统获取用户的文本信息后,通过所述用户的用户标识、所述文本信息的信息标识,以及根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。在该方法中,所述信息处理系统不是在匹配成功后直接进行过滤,同时并不需要设置更多的语义关键词,这样使得对文本信息的处理更加灵活的同时可以降低文本信息过滤的错误率。
基于以上实施例,采用本发明实施例提供的一种信息处理系统,该信息处理系统具有实现如图2所示的一种文本信息的处理方法的功能,如图4所示,该信息处理系统400包括:获取模块401和处理模块402,其中:
所述获取模块401,用于获取用户的文本信息;
所述处理模块402,用于将所述文本信息与预设的语义关键词进行匹配;以及
当确定所述文本信息与所述语义关键词匹配成功时,确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
可选的,所述设定次数阈值包括第一设定次数阈值、第二设定次数阈值和第三设定次数阈值,且所述第一设定次数阈值大于所述第二设定次数阈值,所述第二设定次数阈值大于所述第三设定次数阈值。
可选的,所述处理模块402,在根据所述匹配成功次数和所述设定次数阈值,对所述文本信息进行拦截指示处理时,具体用于:
当判定所述匹配成功次数大于或者等于所述第一设定次数阈值时,指示所述文本信息需要被拦截,并获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单;
当判定所述匹配成功次数小于所述第一设定次数阈值,且大于或者等于所述第二设定次数阈值时,指示所述文本信息需要被拦截,并获取所述文本信息的信息标识,将所述信息标识添加到信息标识库;
当判定所述匹配成功次数小于所述第二设定次数阈值,且大于或者等于所述第三设定次数阈值时,指示所述文本信息需要被拦截;
当判定所述匹配成功次数小于所述第三设定阈值时,指示所述文本信息不需要被拦截。
可选的,在所述处理模块402将所述文本信息与预设的语义关键词进行匹配之前,所述处理模块402还用于:
获取所述文本信息中包含的所述用户的用户标识,并确定所述用户标识未保存在用户标识黑名单中。
可选的,在所述处理模块402将所述文本信息与预设的语义关键词进行匹配之前,所述处理模块402还用于:
获取所述文本信息的信息标识,并确定所述信息标识未保存在信息标识库中。
可选的,所述处理模块402,还用于:
当确定所述文本信息与所述语义关键词匹配失败时,将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息与所述语义关键词进行匹配;
当确定处理后的文本信息与所述语义关键词匹配成功时,确定在所述设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
采用本发明实施例提供的信息处理系统,获取用户的文本信息后,将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数,并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。这样,所述信息处理系统通过文本信息与语义关键词的匹配成功次数对文本信息进行拦截指示处理,而不是在匹配成功后直接进行过滤,同时并不需要设置更多的语义关键词,这样使得对文本信息的处理更加灵活的同时可以降低文本信息过滤的错误率。
综上所述,本发明实施例提供了一种文本信息的处理方法及装置,在该方法中,信息处理系统获取用户的文本信息后,将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数,并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。这样,所述信息处理系统通过文本信息与语义关键词的匹配成功次数对文本信息进行拦截指示处理,而不是在匹配成功后直接进行过滤,同时并不需要设置更多的语义关键词,这样使得对文本信息的处理更加灵活的同时可以降低文本信息过滤的错误率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种文本信息的处理方法,其特征在于,包括:
信息处理系统获取用户的文本信息;
所述信息处理系统将所述文本信息与预设的语义关键词进行匹配;
当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;
所述信息处理系统根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
2.如权利要求1所述的方法,其特征在于,所述设定次数阈值包括第一设定次数阈值、第二设定次数阈值和第三设定次数阈值,且所述第一设定次数阈值大于所述第二设定次数阈值,所述第二设定次数阈值大于所述第三设定次数阈值;
所述信息处理系统根据所述匹配成功次数和所述设定次数阈值,对所述文本信息进行拦截指示处理,包括:
当所述信息处理系统判定所述匹配成功次数大于或者等于所述第一设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单;
当所述信息处理系统判定所述匹配成功次数小于所述第一设定次数阈值,且大于或者等于所述第二设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息的信息标识,将所述信息标识添加到信息标识库;
当所述信息处理系统判定所述匹配成功次数小于所述第二设定次数阈值,且大于或者等于所述第三设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截;
当所述信息处理系统判定所述匹配成功次数小于所述第三设定阈值时,所述信息处理系统指示所述文本信息不需要被拦截。
3.如权利要求1所述的方法,其特征在于,在所述信息处理系统将所述文本信息与预设的语义关键词进行匹配之前,所述方法还包括:
所述信息处理系统获取所述文本信息中包含的所述用户的用户标识,并确定所述用户标识未保存在用户标识黑名单中。
4.如权利要求1所述的方法,其特征在于,在所述信息处理系统将所述文本信息与预设的语义关键词进行匹配之前,所述方法还包括:
所述信息处理系统获取所述文本信息的信息标识,并确定所述信息标识未保存在信息标识库中。
5.如权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
当所述处理信息系统确定所述文本信息与所述语义关键词匹配失败时,所述处理信息系统将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息与所述语义关键词进行匹配;
当所述处理信息系统确定处理后的文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在所述设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
6.一种信息处理系统,其特征在于,包括:
获取模块,用于获取用户的文本信息;
处理模块,用于将所述文本信息与预设的语义关键词进行匹配;以及
当确定所述文本信息与所述语义关键词匹配成功时,确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
7.如权利要求6所述的信息处理系统,其特征在于,所述设定次数阈值包括第一设定次数阈值、第二设定次数阈值和第三设定次数阈值,且所述第一设定次数阈值大于所述第二设定次数阈值,所述第二设定次数阈值大于所述第三设定次数阈值;
所述处理模块,在根据所述匹配成功次数和所述设定次数阈值,对所述文本信息进行拦截指示处理时,具体用于:
当判定所述匹配成功次数大于或者等于所述第一设定次数阈值时,指示所述文本信息需要被拦截,并获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单;
当判定所述匹配成功次数小于所述第一设定次数阈值,且大于或者等于所述第二设定次数阈值时,指示所述文本信息需要被拦截,并获取所述文本信息的信息标识,将所述信息标识添加到信息标识库;
当判定所述匹配成功次数小于所述第二设定次数阈值,且大于或者等于所述第三设定次数阈值时,指示所述文本信息需要被拦截;
当判定所述匹配成功次数小于所述第三设定阈值时,指示所述文本信息不需要被拦截。
8.如权利要求6所述的信息处理系统,其特征在于,在所述处理模块将所述文本信息与预设的语义关键词进行匹配之前,所述处理模块还用于:
获取所述文本信息中包含的所述用户的用户标识,并确定所述用户标识未保存在用户标识黑名单中。
9.如权利要求6所述的信息处理系统,其特征在于,在所述处理模块将所述文本信息与预设的语义关键词进行匹配之前,所述处理模块还用于:
获取所述文本信息的信息标识,并确定所述信息标识未保存在信息标识库中。
10.如权利要求6-9任一项所述的信息处理系统,其特征在于,所述处理模块,还用于:
当确定所述文本信息与所述语义关键词匹配失败时,将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息与所述语义关键词进行匹配;
当确定处理后的文本信息与所述语义关键词匹配成功时,确定在所述设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711065546.5A CN110019760B (zh) | 2017-11-02 | 2017-11-02 | 一种文本信息的处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711065546.5A CN110019760B (zh) | 2017-11-02 | 2017-11-02 | 一种文本信息的处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019760A true CN110019760A (zh) | 2019-07-16 |
CN110019760B CN110019760B (zh) | 2022-05-06 |
Family
ID=67186748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711065546.5A Active CN110019760B (zh) | 2017-11-02 | 2017-11-02 | 一种文本信息的处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019760B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102098332A (zh) * | 2010-12-30 | 2011-06-15 | 北京新媒传信科技有限公司 | 一种内容审核方法和装置 |
CN102231873A (zh) * | 2011-06-22 | 2011-11-02 | 中兴通讯股份有限公司 | 垃圾短信监控方法、系统和监控处理装置 |
CN102323929A (zh) * | 2011-08-23 | 2012-01-18 | 上海粱江通信技术有限公司 | 一种实现中文短信模糊匹配关键字的方法 |
CN103927330A (zh) * | 2014-03-19 | 2014-07-16 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
US20150082451A1 (en) * | 2013-09-17 | 2015-03-19 | Exacttarget, Inc. | System and Method for Evaluating Domains to Send Emails While Maintaining Sender Reputation |
CN104794485A (zh) * | 2015-04-09 | 2015-07-22 | 广东小天才科技有限公司 | 一种识别书写字的方法及装置 |
CN107045524A (zh) * | 2016-12-30 | 2017-08-15 | 中央民族大学 | 一种网络文本舆情分类的方法及系统 |
US20170300558A1 (en) * | 2014-01-16 | 2017-10-19 | Massachusetts Institute Of Technology | Method And Systems For Enhanced Ontology Assisted Querying Of Data Stores |
-
2017
- 2017-11-02 CN CN201711065546.5A patent/CN110019760B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102098332A (zh) * | 2010-12-30 | 2011-06-15 | 北京新媒传信科技有限公司 | 一种内容审核方法和装置 |
CN102231873A (zh) * | 2011-06-22 | 2011-11-02 | 中兴通讯股份有限公司 | 垃圾短信监控方法、系统和监控处理装置 |
CN102323929A (zh) * | 2011-08-23 | 2012-01-18 | 上海粱江通信技术有限公司 | 一种实现中文短信模糊匹配关键字的方法 |
US20150082451A1 (en) * | 2013-09-17 | 2015-03-19 | Exacttarget, Inc. | System and Method for Evaluating Domains to Send Emails While Maintaining Sender Reputation |
US20170300558A1 (en) * | 2014-01-16 | 2017-10-19 | Massachusetts Institute Of Technology | Method And Systems For Enhanced Ontology Assisted Querying Of Data Stores |
CN103927330A (zh) * | 2014-03-19 | 2014-07-16 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
CN104794485A (zh) * | 2015-04-09 | 2015-07-22 | 广东小天才科技有限公司 | 一种识别书写字的方法及装置 |
CN107045524A (zh) * | 2016-12-30 | 2017-08-15 | 中央民族大学 | 一种网络文本舆情分类的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110019760B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2526481B1 (en) | Intercepting malicious access | |
CN104021017B (zh) | 启动项的处理方法和装置 | |
US20170099144A1 (en) | Embedded encryption platform comprising an algorithmically flexible multiple parameter encryption system | |
EP3270319B1 (en) | Method and apparatus for generating dynamic security module | |
CN106790156A (zh) | 一种智能设备绑定方法及装置 | |
CN113849808B (zh) | 容器安全管理方法、系统、终端及存储介质 | |
CN106648125A (zh) | 一种指纹键盘、基于指纹键盘的验证系统及方法 | |
CN106453321A (zh) | 一种认证服务器、系统和方法及待认证终端 | |
CN104915594B (zh) | 应用程序运行方法及装置 | |
CN112507325A (zh) | 一种设备访问权限的管理方法、装置、设备及存储介质 | |
CN109815710A (zh) | 一种人工智能算法模型文件的保护方法 | |
CN107040550A (zh) | 即时通信过程中的数据加密方法 | |
CN117150534B (zh) | 基于权限管理的可信dcs上位机应用访问控制方法及系统 | |
CN110008669A (zh) | 一种平台登录方法、系统、装置、终端设备及存储介质 | |
CN104883341A (zh) | 应用管理装置、终端及应用管理方法 | |
CN103034811A (zh) | 一种文件处理的方法、系统及装置 | |
CN106878985A (zh) | 一种终端页面的统一跳转方法、装置及终端 | |
CN110019760A (zh) | 一种文本信息的处理方法及装置 | |
CN111246396A (zh) | 一种基于udp局域网的整机烧录方法及系统 | |
CN109445816B (zh) | 导表处理方法、装置、存储介质、处理器及终端 | |
KR101458930B1 (ko) | 멀티 노드를 이용하는 스마트 단말 퍼징 장치 및 그 방법 | |
CN111131324A (zh) | 业务系统的登陆方法及装置、存储介质、电子装置 | |
CN115600215A (zh) | 系统启动方法、系统信息处理方法、装置、设备及其介质 | |
CN102664887A (zh) | 输入信息保护方法、装置和系统 | |
EP3024191A1 (en) | Data processing system, center apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |