CN106897422A - 文本处理方法、装置及服务器 - Google Patents
文本处理方法、装置及服务器 Download PDFInfo
- Publication number
- CN106897422A CN106897422A CN201710102950.9A CN201710102950A CN106897422A CN 106897422 A CN106897422 A CN 106897422A CN 201710102950 A CN201710102950 A CN 201710102950A CN 106897422 A CN106897422 A CN 106897422A
- Authority
- CN
- China
- Prior art keywords
- word
- sensitive
- text message
- text
- associational
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了文本处理方法、装置及服务器。该方法的一具体实施方式包括:查询目标文件的文本信息;通过预置的敏感词集合对文本信息进行筛选,确定文本信息中的敏感词;对所确定的敏感词进行文字扩展,生成敏感词的联想词,其中,联想词中包括了敏感词中的文字;将联想词中除敏感词中的文字之外的文字与文本信息进行文字对比,并根据对比结果对文本信息进行处理。该实施方式提高了对文本信息审核的准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及信息检测技术领域,尤其涉及文本处理方法、装置及服务器。
背景技术
当前,网络和媒体向用户传递着各种信息,通过网络和媒体,用户可以获取最新的资讯信息或有针对性地选择自己需要的信息。考虑到信息安全等因素,信息提供方需要先将信息发送给信息服务器,由信息服务器一侧的工作人员对接收到的信息进行审核。当审核通过后再将信息发布在网络上,以供其他用户获取。
然而,现有的对信息审核的方法还存在一些问题。例如,现有的信息审核主要由人工来完成。随着信息量的增加,信息审核的工作量也极大提高,这就降低了信息审核的效率;同时,由人工审核容易出现对信息审核的主观性判断,导致信息审核的准确性不高。
发明内容
本申请提供了文本处理方法、装置及服务器,以解决背景技术中提到的技术问题。
第一方面,本申请提供了一种文本处理方法,该方法包括:查询目标文件的文本信息;通过预置的敏感词集合对上述文本信息进行筛选,确定上述文本信息中的敏感词;对所确定的敏感词进行文字扩展,生成上述敏感词的联想词,其中,上述联想词中包括了敏感词中的文字;将上述联想词中除敏感词中的文字之外的文字与上述文本信息进行文字对比,并根据对比结果对上述文本信息进行处理。
在一些实施例中,上述通过预置的敏感词集合对上述文本信息进行筛选,确定上述文本信息中的敏感词包括:查询上述文本信息中是否存在属于上述敏感词集合的词语,若有,则确定该词语为敏感词。
在一些实施例中,上述通过预置的敏感词集合对上述文本信息进行筛选,确定上述文本信息中的敏感词包括:查询上述文本信息中是否存与上述敏感词集合中的敏感词谐音的词语,若有,则确定该词语为敏感词。
在一些实施例中,上述对所确定的敏感词进行文字扩展,生成上述敏感词的联想词包括:对上述敏感词增加前缀文字和/或后缀文字,生成上述敏感词的联想词。
在一些实施例中,上述将上述联想词中除敏感词中的文字之外的文字与上述文本信息进行文字对比包括:将上述联想词中除敏感词中的文字之外的文字设置为待匹配文字,将上述待匹配文字与文本信息进行文字对比,查找出上述文本信息的待匹配文字。
在一些实施例中,上述根据对比结果对上述文本信息进行处理包括:若上述文本信息的待匹配文字与上述敏感词相邻,则删除上述文本信息中的上述敏感词和待匹配文字。
第二方面,本申请提供了一种文本处理装置,该装置包括:文本信息查询单元,用于查询目标文件的文本信息;敏感词确定单元,用于通过预置的敏感词集合对上述文本信息进行筛选,确定上述文本信息中的敏感词;联想词生成单元,用于对所确定的敏感词进行文字扩展,生成上述敏感词的联想词,其中,上述联想词中包括了敏感词中的文字;文本处理单元,用于将上述联想词中除敏感词中的文字之外的文字与上述文本信息进行文字对比,并根据对比结果对上述文本信息进行处理。
在一些实施例中,上述敏感词确定单元用于:查询上述文本信息中是否存在属于上述敏感词集合的词语,若有,则确定该词语为敏感词。
在一些实施例中,上述敏感词确定单元用于:查询上述文本信息中是否存与上述敏感词集合中的敏感词谐音的词语,若有,则确定该词语为敏感词。
在一些实施例中,上述联想词生成单元用于:对上述敏感词增加前缀文字和/或后缀文字,生成上述敏感词的联想词。
在一些实施例中,上述文本处理单元包括:文字匹配子单元,用于将上述联想词中除敏感词中的文字之外的文字设置为待匹配文字,将上述待匹配文字与文本信息进行文字对比,查找出上述文本信息的待匹配文字。
在一些实施例中,上述文本处理单元包括:删除子单元,用于在上述文本信息的待匹配文字与上述敏感词不相邻,并且上述敏感词不是以谐音的方式存在时,则删除上述文本信息中的上述敏感词。
第三方面,本申请提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述第一方面的文本处理方法。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面的文本处理方法。
本申请提供的文本处理方法、装置及服务器,首先通过预置的敏感词集合确定文本信息中的敏感词,然后对敏感词扩展得到联想词,并将联想词中除敏感词中的文字之外的文字与文本信息进行文字对比,能够在确定敏感词的基础上,进一步通过联想词对文本信息进行文字对比,提高了对文本信息审核的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的文本处理方法的一个实施例的流程图;
图3是根据本申请的文本处理方法的一个实施例的一个示意图;
图4是根据本申请的文本处理方法的一个实施例的另一个示意图;
图5是对图4示意图进行文字替换后得到的示意图;
图6是根据本申请的文本处理方法的应用场景的一个示意图;
图7是根据本申请的文本处理装置的一个实施例的结构示意图;
图8是根据本申请的服务器的一个实施例的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的文本处理方法或文本处理装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送目标文件等。终端设备101、102、103上可以安装有各种信息处理应用,例如信息编辑应用、信息发送应用等。
终端设备101、102、103可以是运行应用的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是对终端设备101、102、103发来的目标文件进行处理的服务器。例如,服务器105可以是对目标文件进行文字审核的服务器。服务器105接收终端设备101、102、103发来的目标文件,查询目标文件的文本信息,查找出文本信息内的敏感词,对敏感词扩展得到联想词,进而通过联想词完成对文本信息的审核。
需要说明的是,本申请实施例所提供的文本处理方法由服务器105执行。相应地,文本处理装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2,其示出了一种文本处理方法的一个实施例的流程图200,该文本处理方法包括:
步骤201,查询目标文件的文本信息。
在本实施例中,电子设备(例如图1所示的服务器105)可以通过有线或无线的方式接收终端设备101、102、103发来的目标文件,并对该目标文件进行处理。其中,屏幕内容可以是文字、图片或视频,弹幕信息可以动态显示在屏幕内容上,或按照发出的时间顺序在屏幕内容上有序显示。其中,目标文件可以是包含文字的待审核文件。
终端设备101、102、103将需要处理的目标文件发送给服务器105。服务器105接收到目标文件后,为了对目标文件进行处理,首先要从目标文件中查询文本信息。查询文本信息的方法可以是对目标文件进行文字识别等方式,此处不再一一赘述。
步骤202,通过预置的敏感词集合对上述文本信息进行筛选,确定上述文本信息中的敏感词。
得到文本信息后,服务器105通过预置的敏感词集合对文本信息进行筛选,找出文本信息中的敏感词。其中,敏感词集合可以是预置的公共敏感词集合,也可以是预置的某行业或某方面的敏感词集合。敏感词为多指违反相关法规、道德规范和行业规定的词语。例如,敏感词可以是黄、赌、毒等。
在本实施例的一些可选的实现方式中,通过预置的敏感词集合对上述文本信息进行筛选,确定上述文本信息中的敏感词可以包括:查询上述文本信息中是否存在属于上述敏感词集合的词语,若有,则确定该词语为敏感词。
敏感词集合中包含的敏感词,查询文本信息中的敏感词时,可以逐个将敏感词集合中的敏感词与文本信息进行对比。若发现文本信息中存在与敏感词相同的词语,则将该词语确定为敏感词。此处,是通过敏感词对文本信息进行逐字的查询。
如图3所示,目标文件的文本信息为:“这是一篇感情色彩丰富的文章,作者通过当时社会的一个事件,反映了封建思想对儿童心灵的毒害,表达了作者反封建、反迷信的思想,也表现了作者与旧社会斗争的决心。”。通过预置的敏感词集合对文本信息进行逐字查询,将图3所示的文本信息中的“情色”、“封建”、“毒害”、“迷信”和“旧社会”等敏感词识别出来。上述的敏感词可以通过多模式匹配方法查找,也可以通过其他方法查找,此处不再一一赘述。
在本实施例的一些可选的实现方式中,上述通过预置的敏感词集合对上述文本信息进行筛选,确定上述文本信息中的敏感词可以包括:查询上述文本信息中是否存与上述敏感词集合中的敏感词谐音的词语,若有,则确定该词语为敏感词。文本信息中除了上述直接出现敏感词外,还有些通过谐音等方式出现的敏感词。因此,还需要通过谐音的方式查询文本信息中存在的敏感词。
如图4所示,目标文件的文本信息为:“空不主义是实施者对非武装人员有组织地使用包里或以包里相萎谢,通过将一定的对象置于空不之中,来达到某种争执目的的策略和思想。一般的表现形式为有意制造空皇的包里行为,意在达成总叫、争执或意识形态上的目的而故意公鸡非战斗人员(平民)或将他们的安危置之不理,这类行动一般由非政府机构策动。”。将通过谐音识别出的敏感词替换后的文本信息为:“恐怖主义是实施者对非武装人员有组织地使用暴力或以暴力相威胁,通过将一定的对象置于恐怖之中,来达到某种政治目的的策略和思想。一般的表现形式为有意制造恐慌的暴力行为,意在达成宗教、政治或意识形态上的目的而故意攻击非战斗人员(平民)或将他们的安危置之不理,这类行动一般由非政府机构策动。”。通过预置的敏感词集合对文本信息进行谐音查询,将图4所示的文本信息中的谐音词“空不”、“包里”、“萎谢”、“争执”、“空皇”、“总叫”和“公鸡”等识别出来,并查找到与上述谐音词对应的预置的敏感词集合内的敏感词“恐怖”、“暴力”、“威胁”、“政治”、“恐慌”、“宗教”和“攻击”,则对图4中的文本信息进行文字替换后得到的文本信息如图5所示。
步骤203,对所确定的敏感词进行文字扩展,生成上述敏感词的联想词。
上述通过敏感词集合确定的文本信息的敏感词是对文本信息进行逐字查询得到的,而这些文本信息的敏感词在文本信息内所要表达的意思有可能并不是敏感词本身。因此,还需要对这些文本信息的敏感词进行识别。本实施例采用联想词的方式对文本信息的敏感词进行识别。为了建立与敏感词的关系,本实施例的联想词基于敏感词得到。具体的,本实施例的联想词通过对敏感词进行文字扩展得到。其中,上述联想词中包括了敏感词中的文字。
在本实施例的一些可选的实现方式中,上述对所确定的敏感词进行文字扩展,生成上述敏感词的联想词可以包括:对上述敏感词增加前缀文字和/或后缀文字,生成上述敏感词的联想词。
敏感词通常会与其他非敏感词一起出现,例如,敏感词为“恐怖”,经常与“恐怖”出现的前缀文字和/或后缀文字有:“白色”、“主义”、“电影”、“图片”、“事件”等。对应敏感词“恐怖”的联想词就可以是“白色恐怖”、“恐怖主义”、“恐怖电影”、“恐怖图片”、“恐怖事件”。联想词是基于敏感词得到,体现了敏感词的常用文字组合,可以对敏感词在文本信息中的正确性进行进一步的判断。
步骤204,将上述联想词中除敏感词中的文字之外的文字与上述文本信息进行文字对比,并根据对比结果对上述文本信息进行处理。
得到联想词后,可以确定联想词中除敏感词中的文字之外的文字,将这些除敏感词中的文字之外的文字与文本信息进行文字对比,查看是否文本信息中有上述除敏感词中的文字之外的文字。并根据对比结果对文本信息进行处理。
在本实施例的一些可选的实现方式中,上述将上述联想词中除敏感词中的文字之外的文字与上述文本信息进行文字对比可以包括:将上述联想词中除敏感词中的文字之外的文字设置为待匹配文字,将上述待匹配文字与文本信息进行文字对比,查找出上述文本信息的待匹配文字。
得到联想词后,可以直接查询文本信息中是否有联想词。由于敏感词可能以谐音的形式存在,直接查询文本信息中是否存在联想词,可能会漏检以谐音形式存在的敏感词,导致对敏感词的查询准确性下降。实际中,很多情况下都是对敏感词进行谐音处理的,非敏感词基本不必做谐音处理。为此,本实施例可以将联想词中除敏感词中的文字之外的文字设置为待匹配文字,通过查询文本信息中是否存在待匹配文字,实现对敏感词的识别和判断。
以上述的图3为例,通过文字逐字识别出的文本信息中的敏感词“情色”后,得到敏感词“情色”的联想词“感情色彩”,其中,“感”是敏感词“情色”增加的前缀文字;“彩”是敏感词“情色”增加的后缀文字。“感”和“彩”就是待匹配文字。类似的,敏感词“封建”的联想词可以是“封建思想”或“反封建”等。分别得到带匹配文字“思想”和“反”。
以上述的图4为例,通过谐音的方式确定文本信息中的“空不”对应的敏感词为“恐怖”后,得到敏感词“恐怖”的联想词“恐怖主义”。其中,“主义”就是待匹配文字。如果直接在文本信息中查询联想词“恐怖主义”,则可能对真正的敏感词漏检。而如果在文本信息中查询待匹配文字“主义”,则可以实现对“空不”的进一步识别,判断文本信息中的“空不”是否是敏感词“恐怖”的谐音表达方式。
在本实施例的一些可选的实现方式中,根据对比结果对上述文本信息进行处理可以包括:若上述文本信息的待匹配文字与上述敏感词不相邻,并且上述敏感词不是以谐音的方式存在时,则删除上述文本信息中的上述敏感词。
文本信息中的待匹配文字可能与敏感词相邻,也可能与敏感词不相邻。当待匹配文字与文本信息中的敏感词不相邻时,敏感词和待匹配文字不能组成联想词。这种情况下,需要单独考虑敏感词,若敏感词没有以谐音的形式存在,则删除该敏感词。当待匹配文字与文本信息中的敏感词相邻时,考虑到前缀文字和后缀文字的因素,该待匹配文字和敏感词可能不构成联想词,也可能构成联想词;当构成联想词后,还要考虑联想词在文本信息中的是否表达敏感词的含义。为了实现对文本信息的准确处理,除了上述直接删除敏感词的情况外,其他情况可以通过颜色等方式对待匹配文字和敏感词进行标记。
继续参见图6,图6是根据本实施例的文本处理方法的应用场景的一个示意图。图6中,目标文件的文本信息为:“战争是一种集体、集团、组织、民族、派别、国家、政府互相使用包里、公鸡、沙鲁等行为,是敌对双方为了达到一定的整治、经济、领土的完整性等目的而进行的武装战斗。由于触发战争的往往是政治家而非军人,因此战争亦被视为政治和外交的极端手段。”。通过预置的敏感词集合对该文本信息进行筛选,得到的敏感词包括:“战争”、“派别”、“包里”、“公鸡”、“沙鲁”、“敌对”、“整治”、“武装”、“政治”和“极端”。其中,敏感词“包里”、“公鸡”、“沙鲁”和“整治”通过谐音得到的敏感词分别是“暴力”、“攻击”、“杀戮”和“政治”。之后,对敏感词进行文字扩展得到对应的联想词。
以敏感词“攻击”为例,得到敏感词“攻击”的联想词“攻击武器”和“攻击手段”,确定待匹配文字为“武器”和“手段”。查询文本信息,发现文本信息中不存在待匹配文字为“武器”或“手段”。此时,可以认为敏感词“攻击”与其他文字相对独立,则文本信息中的“攻击”和敏感词“攻击”的含义相同。此时,可以将文本信息中的敏感词“公鸡”(敏感词“攻击”的谐音词)删除。类似的还有“包里”、“沙鲁”等,都可以从文本信息中删除。
再以敏感词“政治”为例,得到敏感词“政治”的联想词“政治家”,确定待匹配文字为“家”。查询文本信息中包含的“家”,发现有一个“家”与敏感词“政治”相邻,并可以与敏感词“政治”构成联想词“政治家”。但联想词“政治家”不是敏感词,并且由语义分析可知,上述识别出的敏感词“政治”在文本信息中对应的实际词语是联想词“政治家”,则不对文本信息中的该敏感词“政治”做处理。
本申请提供的文本处理方法,首先通过预置的敏感词集合确定文本信息中的敏感词,然后对敏感词扩展得到联想词,并将联想词中除敏感词中的文字之外的文字与文本信息进行文字对比,能够在确定敏感词的基础上,进一步通过联想词对文本信息进行文字对比,提高了对文本信息审核的准确性。
进一步参考图7,作为对上述各图所示方法的实现,本申请提供了一种文本处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例上述的文本处理装置700可以包括:文本信息查询单元701、敏感词确定单元702、联想词生成单元703和文本处理单元704。其中,文本信息查询单元701用于查询目标文件的文本信息;敏感词确定单元702用于通过预置的敏感词集合对上述文本信息进行筛选,确定上述文本信息中的敏感词;联想词生成单元703用于对所确定的敏感词进行文字扩展,生成上述敏感词的联想词,其中,上述联想词中包括了敏感词中的文字;文本处理单元704用于将上述联想词中除敏感词中的文字之外的文字与上述文本信息进行文字对比,并根据对比结果对上述文本信息进行处理。
在本实施例的一些可选的实现方式中,上述敏感词确定单元702可以用于:查询上述文本信息中是否存在属于上述敏感词集合的词语,若有,则确定该词语为敏感词。
在本实施例的一些可选的实现方式中,上述敏感词确定单元702可以用于:查询上述文本信息中是否存与上述敏感词集合中的敏感词谐音的词语,若有,则确定该词语为敏感词。
在本实施例的一些可选的实现方式中,上述联想词生成单元703可以用于:对上述敏感词增加前缀文字和/或后缀文字,生成上述敏感词的联想词。
在本实施例的一些可选的实现方式中,上述文本处理单元704可以包括:文字匹配子单元(图中未示出),用于将上述联想词中除敏感词中的文字之外的文字设置为待匹配文字,将上述待匹配文字与文本信息进行文字对比,查找出上述文本信息的待匹配文字。
在本实施例的一些可选的实现方式中,上述文本处理单元704可以包括:删除子单元(图中未示出),用于在上述文本信息的待匹配文字与上述敏感词不相邻,并且上述敏感词不是以谐音的方式存在时,则删除上述文本信息中的上述敏感词。
本实施例还提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述的文本处理方法。
本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的文本处理方法。
下面参考图8,其示出了适于用来实现本申请实施例的弹幕服务器的服务器800的结构示意图。
如图8所示,服务器800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中,还存储有系统800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括文本信息查询单元、敏感词确定单元、联想词生成单元和文本处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,文本处理单元还可以被描述为“用于对文本信息进行处理的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:查询目标文件的文本信息;通过预置的敏感词集合对上述文本信息进行筛选,确定上述文本信息中的敏感词;对所确定的敏感词进行文字扩展,生成上述敏感词的联想词,其中,上述联想词中包括了敏感词中的文字;将上述联想词中除敏感词中的文字之外的文字与上述文本信息进行文字对比,并根据对比结果对上述文本信息进行处理。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种文本处理方法,其特征在于,所述方法包括:
查询目标文件的文本信息;
通过预置的敏感词集合对所述文本信息进行筛选,确定所述文本信息中的敏感词;
对所确定的敏感词进行文字扩展,生成所述敏感词的联想词,其中,所述联想词中包括了敏感词中的文字;
将所述联想词中除敏感词中的文字之外的文字与所述文本信息进行文字对比,并根据对比结果对所述文本信息进行处理。
2.根据权利要求1所述的方法,其特征在于,所述通过预置的敏感词集合对所述文本信息进行筛选,确定所述文本信息中的敏感词包括:
查询所述文本信息中是否存在属于所述敏感词集合的词语,若有,则确定该词语为敏感词。
3.根据权利要求1所述的方法,其特征在于,所述通过预置的敏感词集合对所述文本信息进行筛选,确定所述文本信息中的敏感词包括:
查询所述文本信息中是否存与所述敏感词集合中的敏感词谐音的词语,若有,则确定该词语为敏感词。
4.根据权利要求1所述的方法,其特征在于,所述对所确定的敏感词进行文字扩展,生成所述敏感词的联想词包括:
对所述敏感词增加前缀文字和/或后缀文字,生成所述敏感词的联想词。
5.根据权利要求4所述的方法,其特征在于,所述将所述联想词中除敏感词中的文字之外的文字与所述文本信息进行文字对比包括:
将所述联想词中除敏感词中的文字之外的文字设置为待匹配文字,将所述待匹配文字与文本信息进行文字对比,查找出所述文本信息的待匹配文字。
6.根据权利要求5所述的方法,其特征在于,所述根据对比结果对所述文本信息进行处理包括:
若所述文本信息的待匹配文字与所述敏感词不相邻,并且所述敏感词不是以谐音的方式存在时,则删除所述文本信息中的所述敏感词。
7.一种文本处理装置,其特征在于,所述装置包括:
文本信息查询单元,用于查询目标文件的文本信息;
敏感词确定单元,用于通过预置的敏感词集合对所述文本信息进行筛选,确定所述文本信息中的敏感词;
联想词生成单元,用于对所确定的敏感词进行文字扩展,生成所述敏感词的联想词,其中,所述联想词中包括了敏感词中的文字;
文本处理单元,用于将所述联想词中除敏感词中的文字之外的文字与所述文本信息进行文字对比,并根据对比结果对所述文本信息进行处理。
8.根据权利要求7所述的装置,其特征在于,所述敏感词确定单元用于:
查询所述文本信息中是否存在属于所述敏感词集合的词语,若有,则确定该词语为敏感词。
9.根据权利要求7所述的装置,其特征在于,所述敏感词确定单元用于:
查询所述文本信息中是否存与所述敏感词集合中的敏感词谐音的词语,若有,则确定该词语为敏感词。
10.根据权利要求7所述的装置,其特征在于,所述联想词生成单元用于:
对所述敏感词增加前缀文字和/或后缀文字,生成所述敏感词的联想词。
11.根据权利要求10所述的装置,其特征在于,所述文本处理单元包括:
文字匹配子单元,用于将所述联想词中除敏感词中的文字之外的文字设置为待匹配文字,将所述待匹配文字与文本信息进行文字对比,查找出所述文本信息的待匹配文字。
12.根据权利要求11所述的装置,其特征在于,所述文本处理单元包括:
删除子单元,用于在所述文本信息的待匹配文字与所述敏感词不相邻,并且所述敏感词不是以谐音的方式存在时,则删除所述文本信息中的所述敏感词。
13.一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1到6中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1到6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710102950.9A CN106897422A (zh) | 2017-02-23 | 2017-02-23 | 文本处理方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710102950.9A CN106897422A (zh) | 2017-02-23 | 2017-02-23 | 文本处理方法、装置及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106897422A true CN106897422A (zh) | 2017-06-27 |
Family
ID=59184073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710102950.9A Pending CN106897422A (zh) | 2017-02-23 | 2017-02-23 | 文本处理方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897422A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908786A (zh) * | 2017-12-11 | 2018-04-13 | 广东欧珀移动通信有限公司 | 处理宗教忌讳信息的方法、装置和计算机可读存储介质 |
CN109543024A (zh) * | 2018-11-05 | 2019-03-29 | 联动优势科技有限公司 | 一种文本处理方法及装置 |
CN109582791A (zh) * | 2018-11-13 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 文本的风险识别方法及装置 |
CN111104788A (zh) * | 2019-12-05 | 2020-05-05 | 东软集团股份有限公司 | 文档差分内容的对齐方法、装置、存储介质、电子设备 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN111882371A (zh) * | 2019-04-15 | 2020-11-03 | 阿里巴巴集团控股有限公司 | 内容信息处理、图文内容处理方法、计算机设备、介质 |
CN112036187A (zh) * | 2020-07-09 | 2020-12-04 | 上海极链网络科技有限公司 | 一种结合上下文语境的视频弹幕文本审核方法及系统 |
CN112507164A (zh) * | 2020-12-07 | 2021-03-16 | 重庆邮电大学 | 基于内容和用户标识的弹幕过滤方法、装置及存储介质 |
CN113538002A (zh) * | 2020-04-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 用于审核文本的方法和装置 |
CN115964582A (zh) * | 2022-11-03 | 2023-04-14 | 太平洋电信股份有限公司 | 一种网络安全风险评估方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001290832A (ja) * | 2000-04-10 | 2001-10-19 | Matsushita Electric Ind Co Ltd | 情報検索装置および情報検索方法 |
CN101976253A (zh) * | 2010-10-27 | 2011-02-16 | 重庆邮电大学 | 一种中文变异文本匹配识别方法 |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤系统 |
CN104679729A (zh) * | 2015-02-13 | 2015-06-03 | 广州市讯飞樽鸿信息技术有限公司 | 录音留言有效性处理方法及系统 |
-
2017
- 2017-02-23 CN CN201710102950.9A patent/CN106897422A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001290832A (ja) * | 2000-04-10 | 2001-10-19 | Matsushita Electric Ind Co Ltd | 情報検索装置および情報検索方法 |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤系统 |
CN101976253A (zh) * | 2010-10-27 | 2011-02-16 | 重庆邮电大学 | 一种中文变异文本匹配识别方法 |
CN104679729A (zh) * | 2015-02-13 | 2015-06-03 | 广州市讯飞樽鸿信息技术有限公司 | 录音留言有效性处理方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908786A (zh) * | 2017-12-11 | 2018-04-13 | 广东欧珀移动通信有限公司 | 处理宗教忌讳信息的方法、装置和计算机可读存储介质 |
CN109543024A (zh) * | 2018-11-05 | 2019-03-29 | 联动优势科技有限公司 | 一种文本处理方法及装置 |
CN109582791A (zh) * | 2018-11-13 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 文本的风险识别方法及装置 |
CN109582791B (zh) * | 2018-11-13 | 2023-01-24 | 创新先进技术有限公司 | 文本的风险识别方法及装置 |
CN111882371A (zh) * | 2019-04-15 | 2020-11-03 | 阿里巴巴集团控股有限公司 | 内容信息处理、图文内容处理方法、计算机设备、介质 |
CN111104788A (zh) * | 2019-12-05 | 2020-05-05 | 东软集团股份有限公司 | 文档差分内容的对齐方法、装置、存储介质、电子设备 |
CN111104788B (zh) * | 2019-12-05 | 2023-09-22 | 东软集团股份有限公司 | 文档差分内容的对齐方法、装置、存储介质、电子设备 |
CN113538002A (zh) * | 2020-04-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 用于审核文本的方法和装置 |
CN112036187A (zh) * | 2020-07-09 | 2020-12-04 | 上海极链网络科技有限公司 | 一种结合上下文语境的视频弹幕文本审核方法及系统 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN112507164B (zh) * | 2020-12-07 | 2022-04-12 | 重庆邮电大学 | 基于内容和用户标识的弹幕过滤方法、装置及存储介质 |
CN112507164A (zh) * | 2020-12-07 | 2021-03-16 | 重庆邮电大学 | 基于内容和用户标识的弹幕过滤方法、装置及存储介质 |
CN115964582A (zh) * | 2022-11-03 | 2023-04-14 | 太平洋电信股份有限公司 | 一种网络安全风险评估方法及系统 |
CN115964582B (zh) * | 2022-11-03 | 2023-09-19 | 太平洋电信股份有限公司 | 一种网络安全风险评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897422A (zh) | 文本处理方法、装置及服务器 | |
Clincy et al. | Web application firewall: Network security models and configuration | |
US20240314142A1 (en) | Cyber security system applying network sequence prediction using transformers | |
CN109479061B (zh) | 遵从性违反检测 | |
CN109328448B (zh) | 基于网络流数据的垃圾邮件分类系统 | |
CN110177114B (zh) | 网络安全威胁指标识别方法、设备、装置以及计算机可读存储介质 | |
AU2015202478B2 (en) | Combining internal and external search results | |
CN106295333B (zh) | 用于检测恶意代码的方法和系统 | |
US11509667B2 (en) | Predictive internet resource reputation assessment | |
Hounsel et al. | Identifying disinformation websites using infrastructure features | |
US20200067861A1 (en) | Scam evaluation system | |
US11765192B2 (en) | System and method for providing cyber security | |
Vassiliou et al. | C2 re-envisioned: the future of the enterprise | |
US20130159848A1 (en) | Dynamic Personal Dictionaries for Enhanced Collaboration | |
EP3053083A2 (en) | Advanced persistent threat (apt) detection center | |
CN107038354A (zh) | 代码混淆方法、代码运行方法及装置 | |
US20100228730A1 (en) | Inferring sensitive information from tags | |
US20210165964A1 (en) | System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents | |
CN110210213A (zh) | 过滤恶意样本的方法及装置、存储介质、电子装置 | |
Pirocca et al. | A toolkit for security awareness training against targeted phishing | |
US9412094B2 (en) | User identifier management | |
Dakpa et al. | Study of phishing attacks and preventions | |
US11308091B2 (en) | Information collection system, information collection method, and recording medium | |
Eckhardt et al. | A User-centric Focus for Detecting Phishing Emails | |
Haga et al. | Breaking the cyber kill chain by modelling resource costs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170627 |
|
RJ01 | Rejection of invention patent application after publication |