CN110941959A - 文本违规检测、文本还原方法、数据处理方法及设备 - Google Patents

文本违规检测、文本还原方法、数据处理方法及设备 Download PDF

Info

Publication number
CN110941959A
CN110941959A CN201811110231.2A CN201811110231A CN110941959A CN 110941959 A CN110941959 A CN 110941959A CN 201811110231 A CN201811110231 A CN 201811110231A CN 110941959 A CN110941959 A CN 110941959A
Authority
CN
China
Prior art keywords
sequence
pinyin
sensitive word
character
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811110231.2A
Other languages
English (en)
Other versions
CN110941959B (zh
Inventor
庞玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811110231.2A priority Critical patent/CN110941959B/zh
Publication of CN110941959A publication Critical patent/CN110941959A/zh
Application granted granted Critical
Publication of CN110941959B publication Critical patent/CN110941959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例提供一种文本违规检测、文本还原方法、数据处理方法及设备。其中,方法包括如下的步骤:获取待检测文字序列对应的与字要素有关的要素序列;基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列;根据所述还原序列,判定所述待检测文字序列是否违规。本申请实施例提供的技术方案能够实现对变异违规信息的检测,可提高违规信息的检出率。

Description

文本违规检测、文本还原方法、数据处理方法及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本违规检测、文本还原方法、数据处理方法及设备。
背景技术
随着互联网扁平化的发展,网站内容信息的传递比以往更加便利,但这也大大增加了违规信息的传播风险。为了净化网站平台以及维护网络的安全和稳定,对网站中存在的违规内容进行治理成为了意义重大又迫在眉睫的事情。
现有技术中,通常是根据已发现违规信息构建违规信息库,后续将待检测文本与违规信息库中违规信息进行匹配,以确定待检测文本是否违规。目前,网站上出现了很多用户原创内容,其内容多是口语化的表现,其中充斥着大量不规范的网络用语,文字形式多样,表达内容随意;并且,很多违规信息的发布者会有意采取规避违规信息检测的策略来对违规信息进行变异处理。这使得现有技术中的仅基于违规信息库来检测违规信息的方法难以对这些用户原创内容等变异违规信息进行有效的检测,违规信息检出率较低。
发明内容
鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的文本违规检测、文本还原方法、数据处理方法及设备。
在本申请的一个实施例中,提供了一种文本违规检测方法。该方法包括:
获取待检测文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列;
根据所述还原序列,判定所述待检测文字序列是否违规。
在本申请的另一实施例中,提供了一种文本还原方法。该方法包括:
获取待还原文字序列;
基于字要素,确定所述待还原文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列。
在本申请的另一实施例中,提供了一种数据处理方法。该方法包括:
获取待检测数据对象,其中,所述待检测数据对象包括文字序列;
获取所述文字序列对应的拼音序列;
在拼音样本库中,检索所述拼音序列,以得到第一检索结果,其中,所述拼音样本库包括满足第一预设规则的拼音样本;
基于所述第一检索结果,还原所述文字序列;
根据还原后文字序列,判定所述待检测数据对象是否满足预设条件。
在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:第一存储器和第一处理器,其中,
所述第一存储器,用于存储程序;
所述第一处理器,与所述第一存储器耦合,用于执行所述第一存储器中存储的所述程序,以用于:
获取待检测文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列;
根据所述还原序列,判定所述待检测文字序列是否违规。
在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:第二存储器和第二处理器,其中,
所述第二存储器,用于存储程序;
所述第二处理器,与所述第二存储器耦合,用于执行所述第二存储器中存储的所述程序,以用于:
获取待还原文字序列;
基于字要素,确定所述待还原文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列。
在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:第三存储器和第三处理器,其中,
所述第三存储器,用于存储程序;
所述第三处理器,与所述第三存储器耦合,用于执行所述第三存储器中存储的所述程序,以用于:
获取待检测数据对象,其中,所述待检测数据对象包括文字序列;
获取所述文字序列对应的拼音序列;
在拼音样本库中,检索所述拼音序列,以得到第一检索结果,其中,所述拼音样本库包括满足第一预设规则的拼音样本;
基于所述第一检索结果,还原所述文字序列;
根据还原后文字序列,判定所述待检测数据对象是否满足预设条件。
本申请实施例提供的技术方案中,在检测之前,先基于字要素,得到待检测文字序列对应的要素序列;再基于要素序列,来对待检测文字序列中的变异信息进行还原处理,可提高待检测文字序列的还原效率,同时,还能实现对变异违规信息的检测,以提高违规信息的检出率。
本申请又一实施例提供的技术方案中,将文字序列转换为拼音序列,并根据在拼音样本库中对拼音序列的检索结果来还原文字序列,可提高文字序列的还原效率;同时,还可有效地将满足预设条件的数据对象检测出来。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的文本违规检测方法的流程示意图;
图2为本申请一实施例提供的文本还原方法的流程示意图;
图3为本申请另一实施例提供的文本违规检测方法的结构框图;
图4为本申请又一实施例提供的文本还原装置的结构框图;
图5为本申请一实施例提供的电子设备的结构框图;
图6为本申请又一实施例提供的电子设备的结构框图;
图7为本申请又一实施例提供的敏感词拼音查找树的实例;
图8为本申请又一实施例提供的数据处理方法的流程示意图;
图9为本申请又一实施例提供的数据处理装置的结构框图;
图10为本申请又一实施例提供的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
目前,很多违规信息大量产生在UGC类文本中,其中充斥着大量不规范的网络用语,文字形式多样,表达内容随意;此外,大部分违规信息的发布者会有意采取规避敏感词检测的方式来对敏感词进行变异处理以对抗内容检测。也就是说,目前有很多违规信息中涉及的敏感词会被用户进行变异处理,例如:同音字替换、偏旁拆分等处理。这使得现有的违规信息检测方法难以检测出这类变异处理后的敏感词。为了能够提高违规信息检出率,本申请实施例提供的技术方案中提出基于发音和字形的违规信息检测方法。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请一实施例提供的文本违规检测方法的流程示意图。如图1 所示,该方法包括:
101、获取待检测文字序列对应的与字要素有关的要素序列。
102、基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列。
103、根据所述还原序列,判定所述待检测文字序列是否违规。
上述101中,待检测文字序列中包括多个文字,多个文字按序排列。字要素可包括:字的拼音要素和字的偏旁要素。
当字要素为字的拼音要素时,与字要素有关的要素序列为拼音序列,拼音序列中包括待检测文字序列中每个文字的拼音,每个文字的拼音在拼音序列中的排序位置与每个文字在待检测文字序列中的排序位置对应。例如:“组织在调查此事”的拼音序列为:“zuzhizaidiaochacishi”。
当字要素为字的偏旁要素时,与字要素有关的要素序列为偏旁序列。偏旁序列中可包括待检测文字序列中每个文字的至少一个偏旁,每个文字的至少一个偏旁在偏旁序列中的排序位置与每个文字在待检测文字序列中的排序位置对应,且同一个文字的至少一个偏旁在偏旁序列中的排序位置与该文字的至少一个偏旁在该文字中的构成位置有关(通常,文字中的左右偏旁,左偏旁的排序位置在右偏旁的排序位置前,文字中的上下偏旁,上偏旁的排序位置在下偏旁的排序位置前)。例如:“巴基其土坦”的偏旁序列为“巴其土其斤土日一”。
目前,很多待检测文字序列中存在有变异信息,例如:变异敏感词。对信息进行变异处理的方式中通常有:偏旁拆分、同音字替换。例如:敏感词“好消息”的变异敏感词有“女子肖自心”、“好肖自心”、“好水肖自心”等等;敏感词“组织”的变异敏感词有“祖只”、“阻之”等。
上述102中,根据要素序列,来检测待检测文字序列中是否存在变异信息。例如:可通过拼音序列,来检测待检测文字序列中是否存在同音字替换;可通过偏旁序列,来检测待检测文字序列中是否存在偏旁拆分。
若检测到变异信息,则对变异信息进行还原;并将待检测文字序列中变异信息替换成还原后的变异信息,以得到还原序列。例如:待检测文本序列为:“有人在传播女子肖自心”,还原序列为:“有人在传播好消息”。
上述103中,可基于违规信息库或敏感词库来判断还原序列是否违规。若还原序列违规,则表明待检测文字序列违规;若还原序列不违规,则表明待检测文字序列不违规。其中,违规信息库中收集有大量的违规信息,这些违规信息为已发现违规文字序列;敏感词库中收集有大量的已发现敏感词。
在一种可实现的方案中,可获取违规信息库;计算所述还原序列与所述违规信息库中违规信息的相似度;根据所述相似度,判定所述待检测文字序列是否违规。具体可采用编辑距离计算算法来计算相似度,具体计算过程可参见现有技术,在此不再详述。
本申请实施例提供的技术方案中,在检测之前,先基于字要素,得到待检测文字序列对应的要素序列;再基于要素序列,来对待检测文字序列中的变异信息进行还原处理,可提高待检测文字序列的还原效率,并能实现对变异违规信息的检测,以提高违规信息的检出率。
在一种可实现的方案中,所述字要素包括字的拼音要素,与所述字要素有关的要素序列为拼音序列时,上述“102”中“基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列”,具体可采用如下步骤来实现:
1021、在敏感词拼音样本库中,进行所述拼音序列的匹配。
1022、基于匹配到的第一敏感词拼音样本,对所述待检测文字序列进行还原处理。
上述1021中,可事先基于敏感词库中的全部敏感词,建立敏感词拼音样本库,敏感词拼音样本库中的每一拼音样本都对应于敏感词库中的敏感词。在敏感词拼音样本库中,对拼音序列进行匹配,可确定拼音序列中是否存在与敏感词拼音样本库中相匹配的敏感词拼音样本。例如:拼音序列A为“zuzhizaidiaochacishi”,敏感词拼音样本库B中包括“zuzhi”这个敏感词拼音样本C,则在敏感词拼音样本库B中进行拼音序列A的匹配,即可匹配得到敏感词拼音样本C。
在一种可实现的方案中,上述1022具体可包括如下步骤:
S11、获取匹配到的第一敏感词拼音样本对应的第一敏感词。
S12、将所述待检测文字序列中所述第一敏感词拼音样本对应的第一文字片段替换为所述第一敏感词。
上述S11中,可获取事先建立的敏感词拼音样本与敏感词的对应关系;根据敏感词拼音样本与敏感词的对应关系,来获取第一敏感词拼音样本对应的第一敏感词。第一敏感词可理解为未经变异的常规敏感词。
上述S12中,在待检测文字序列中第一敏感词拼音样本对应的第一文字片段位置处,将第一文字片段替换成第一敏感词。
具体实施时,敏感词拼音样本库中可包括:敏感词拼音查找树。敏感词拼音查找树是一种树形结构,是一种哈希树的变种。通过敏感词拼音查找树来查找变异敏感词,可减少查询时间,可避免文字序列的公共单字拼音前缀的重复比较,查询效率高。公共单字拼音前缀指的是两个以上的敏感词具有相同的单字拼音前缀,例如:敏感词“恐怖组织”和“恐怖分子”,具有相同的单字拼音前缀“kongbu”。
在一种可实现的方案中,上述1021中“在敏感词拼音样本库中,进行所述拼音序列的匹配”具体实现过程为:
所述拼音序列中包括n个单字拼音,其中,n为大于1的整数。n个单字的单字拼音按照n个单字在待检测文字序列中的排列顺序排列,得到拼音序列。例如:待检测文字序列为“祖只在调查此事”,其拼音序列为:“zuzhizaidiaochacishi”。
在所述敏感词拼音查找树中,进行所述拼音序列中第i个单字拼音到第 n个单字拼音之间的子拼音序列的匹配,其中,i需遍历大于等于1且小于等于n-1中的所有整数。i可从1开始进行遍历,直至遍历至n-1。也就是说针对拼音序列会执行n-1轮查找,这种查找方式可有效避免变异敏感词的遗漏。
沿用上例,n为7,i需遍历大于等于1且小于等于6中的所有整数(1、 2、3、4、5、6)。
当i遍历至1时,子拼音序列为“zuzhizaidiaochacishi”,通过查找敏感词拼音查找树,可匹配到敏感词拼音样本“zuzhi”,待检测文本中对应于敏感词拼音样本“zuzhi”的第一文字片段为“祖只”,并获取敏感词拼音样本“zuzhi”对应的第一敏感词“组织”。
当i遍历至2时,子拼音序列为“zuzhidiaochacishi”;当i遍历至3 时,子拼音序列为“zaidiaochacishi”;当i遍历至4时,子拼音序列为“diaochacishi”;当i遍历至5时,子拼音序列为“chacishi”;当i遍历至6时,子拼音序列为“cishi”。i从2开始遍历至6的多轮查找过程中,没有匹配到任何敏感词拼音样本。
可在整个遍历结束时,匹配到一个第一敏感词拼音样本“zuzhi”,其对应的第一文字片段为“祖只”,并将“祖只”还原为“组织”。
在另一种可实现的方案中,上述1021中“在敏感词拼音样本库中,进行所述拼音序列的匹配”,具体可采用如下步骤来实现:
S21、在所述敏感词拼音查找树中,进行所述拼音序列中第i个单字拼音到第n个单字拼音之间的子拼音序列的匹配。
S22、匹配到第一敏感词拼音样本时,确定所述第一敏感词拼音样本中单字拼音的数量q;i+q小于等于n-1时,继续进行所述拼音序列中第i+q个单字拼音到第n个单字拼音之间的子拼音序列的匹配;若i+q大于等于n时,则匹配结束。
S23、未匹配到第一敏感词拼音样本时,若i+1小于等于n-1,则继续进行所述拼音序列中第i+1个单字拼音到第n个单字拼音之间的子拼音序列的匹配;若i+1为n时,则匹配结束。沿用上例,n=7:
当i为1时,匹配到第一敏感词拼音样本“zuzhi”,“zuzhi”中单字拼音的数量q为2;i+q为3,由于3小于6,则继续进行第3个单字拼音(此时,也可认为i变为3)到第7个单字拼音之间的子拼音序列的匹配。
当i为3时,未匹配到第一敏感词拼音样本;i+1为4,由于4小于6,则继续进行第4个单字拼音(此时,也可认为i变为4)到第7个单字拼音之间的子拼音序列的匹配。
当i为4时,未匹配到第一敏感词拼音样本;i+1为5,由于5小于6,则继续进行第5个单字拼音(此时,也可认为i变为5)到第7个单字拼音之间的子拼音序列的匹配。
当i为5时,未匹配到第一敏感词拼音样本;i+1为6,则继续进行第6 个单字拼音(此时,也可认为i变为6)到第7个单字拼音之间的子拼音序列的匹配。
当i为6时,未匹配到第一敏感词拼音样本;i+1为7,匹配结束。
匹配结束时,匹配到一个第一敏感词拼音样本“zuzhi”,其对应的第一文字片段为“祖只”,并将“祖只”还原为“组织”。
具体地,敏感词拼音查找树的建立过程如下:
104、获取敏感词库。
105、对所述敏感词库中的敏感词,按第一个字的拼音首字母进行分类,并对第一个字的拼音首字母相同的词进行同音聚类,以得到所述敏感词拼音查找树。
敏感词库中收集有大量的已发现敏感词,作为可选地,敏感词库中还可扩展有已发现敏感词对应的多种音译词。
敏感词拼音查找树中根节点为空,按第一个字的拼音首字母进行分类,可使得根节点所指向的子拼音查找树中包括所有第一个字的拼音首字母相同的敏感词。根节点所指向的节点有26个(即所指向的子拼音查找树为26个),分别对应于26个字母。可在子拼音查找树中,对第一个字的拼音首字母相同的敏感词进行同音聚类,可使得同一子拼音查找树中具有相同的单字拼音前缀的敏感词共用公共单字拼音前缀。
其中,敏感词库中任一敏感词的单字拼音作为整体对应存储在敏感词拼音查找树的一结点中。
进一步的,所述敏感词拼音查找树中对应于所述敏感词库中任一敏感词的尾字拼音的结点中还存储有用于索引对应敏感词的键值。可事先建立敏感词的键值与敏感词之间的索引关系。例如:敏感词为“恐怖组织”,其拼音序列为“kongbuzuzhi”,其尾字拼音为“zhi”,敏感词拼音查找树中对应于敏感词“恐怖组织”的“zhi”的结点中存储有用于索引“恐怖组织”的键值6。
进一步的,所述敏感词拼音查找树中对应于所述敏感词库中任一敏感词的尾字拼音的结点中还可存储有对应敏感词的初始敏感度值。初始敏感度值可根据历史大数据统计得到,例如:可根据敏感词在网络中的历史出现频率和/或历史影响程度来确定其初始敏感度值。通常,历史出现频率高和/或历史影响程度大的敏感词的初始敏感度值就越大。
如图7所示,结点400为根结点,结点200中x为第一个字的拼音首字母,结点300中y为第一个字的拼音首字母。例如:单字拼音“ping”对应的节点100中的“10”为敏感词拼音样本“xixiping”对应的敏感词的初始敏感度值,单字拼音“xi”对应的结点中的“5”为敏感词拼音样本“yusujiqixi”对应的敏感词的初始敏感度值。
在另一种可实现的方案中,所述字要素包括字的偏旁要素,与所述字要素有关的要素序列为偏旁序列时,上述“102”中“基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列”,具体可采用如下步骤来实现:
1023、获取敏感词偏旁拆分样本库。
1024、在敏感词偏旁拆分样本库中,进行所述偏旁序列的匹配。
1025、基于匹配到的第一敏感词偏旁拆分词,对所述待检测文字序列进行还原处理。
其中,所述敏感词偏旁拆分样本库中包括敏感词库中各敏感词对应的多种敏感词偏旁拆分词。
上述1023中,将敏感词中的合体字进行偏旁拆分,得到敏感词偏旁拆分词。注:敏感词中的独体字可不用偏旁拆分,保留即可。例如:敏感词“中国”中的“中”为独体字,“国”为合体字,其偏旁包括“口”和“玉”,敏感词“中国”对应的敏感词偏旁拆分词“中口玉”。
考虑到有些偏旁很难单独输入,例如三点水“氵”这个偏旁就无法正常输入,用户可能采取的变异处理方式包括:省略难以单独输入的偏旁,或输入该偏旁的演变源字。例如:三点水“氵”偏旁的演变源字为“水”,提手偏旁“扌”的演变源字为“手”,衣字偏旁“衤”的演变源字为“衣”。
因此,敏感词对应的敏感词偏旁拆分词就包括两种,一种是省略难以单独输入的偏旁得到的敏感词偏旁拆分词;另一种是将难以单独输入的偏旁替换成演变源字的敏感词偏旁拆分词。例如:敏感词“好消息”的敏感词偏旁拆分词包括:“女子肖自心”和“好水肖自心”等。
上述1024中,在敏感词偏旁拆分样本库中,对偏旁序列进行匹配,可确定偏旁序列中是否存在与敏感词偏旁拆分样本库中相匹配的敏感词偏旁拆分词。例如:偏旁序列D为“女子肖自心女子”,敏感词偏旁拆分样本库E中包括“女子肖自心”这个敏感词偏旁拆分词F,则在敏感词偏旁拆分样本库E中进行偏旁序列D的匹配,即可匹配得到敏感词偏旁拆分词F。
在一种可实现的方案中,上述1025具体可包括如下步骤:
S31、获取匹配到的第一敏感词偏旁拆分词对应的第二敏感词。
S32、将所述待检测文字序列中所述第一敏感词偏旁拆分词对应的第二文字片段替换为所述第二敏感词。
上述S31中,获取事先建立的敏感词与敏感词偏旁拆分词之间的对应关系;根据敏感词与敏感词偏旁拆分词之间的对应关系,确定第一敏感词偏旁拆分词对应的第二敏感词。第二敏感词可理解为未经变异的常规敏感词。
在上述S32中,在待检测文字序列中第一敏感词偏旁拆分词对应的第二文字片段位置处,将第二文字片段替换成第二敏感词。
在一种可实现的方案中,所述偏旁序列中包括m个偏旁,上述1024中“在敏感词偏旁拆分样本库中,进行所述偏旁序列的匹配”具体实现过程为:在所述敏感词偏旁拆分样本库中,进行所述偏旁序列中第j个偏旁到第m个偏旁之间的子偏旁序列的匹配,其中,j需遍历大于等于1且小于等于m-1中的所有整数。j可从1开始进行遍历,直至遍历至n-1。也就是说针对偏旁序列会执行n-1 轮查找,这种查找方式可有效避免变异敏感词的遗漏。具体地,在每轮查找中,从子偏旁序列中首字开始,与敏感词偏旁拆分样本库中敏感词偏旁拆分词进行匹配。
举例来说:待检测文字序列为“有人传女子肖自心女子肖自心”,其偏旁序列为“月人人专女子肖自心女子肖自心”,n为9,j需遍历大于等于1 且小于等于9中所有整数(1、2、3、4、5、6、7、8)。
当i遍历至1时,子文字序列为“月人人专女子肖自心女子肖自心”,以“月人人专女子肖自心女子肖自心”中首字“月”开始,与敏感词偏旁拆分样本库中敏感词偏旁拆分样本库进行匹配,未匹配到第一敏感词偏旁拆分词。
当i遍历至2时,子文字序列为“人人专女子肖自心”,以“人人专女子肖自心”中首字“人”开始,与敏感词偏旁拆分样本库中敏感词偏旁拆分样本库进行匹配,未匹配到第一敏感词偏旁拆分词。
当i遍历至3时,子文字序列为“人专女子肖自心”,以“人专女子肖自心”中首字“人”开始,与敏感词偏旁拆分样本库中敏感词偏旁拆分样本库进行匹配,未匹配到第一敏感词偏旁拆分词。
当i遍历至4时,子文字序列为“专女子肖自心”,以“专女子肖自心”中首字“专”开始,与敏感词偏旁拆分样本库中敏感词偏旁拆分样本库进行匹配,未匹配到第一敏感词偏旁拆分词。
当i遍历至5时,子文字序列为“女子肖自心”,以“女子肖自心”中首字“女”开始,与敏感词偏旁拆分样本库中敏感词偏旁拆分样本库进行匹配,匹配到第一敏感词偏旁拆分词“女子肖自心”,第一敏感词偏旁拆分词“女子肖自心”对应的第二敏感词为“好消息”。
当i遍历至6、7、8时,均未匹配到第一敏感词偏旁拆分词。
在另一种可实现的方案中,所述偏旁序列包括m个偏旁,上述1024中“在敏感词偏旁拆分样本库中,进行所述偏旁序列的匹配”具体实现过程为:
S41、在所述敏感词偏旁拆分样本库中,进行所述偏旁序列中第j个偏旁到第m个偏旁之间的子偏旁序列的匹配。
S42、匹配到第一敏感词偏旁拆分词时,确定所述第一敏感词偏旁拆分词中偏旁的数量p;j+p小于等于m-1时,继续进行所述偏旁序列中第j+p个偏旁到第m个偏旁之间的子偏旁序列的匹配;若j+p大于等于m时,则匹配结束。
S43、未匹配到第一敏感词偏旁拆分词时,若j+1小于等于m-1,则继续进行所述偏旁序列中第j+1个偏旁到第m个偏旁之间的子偏旁序列的匹配;若j+1为m时,则匹配结束。
其中,j为大于等于1且小于等于m-1的整数。
举例来说:待检测文字序列“女子肖自心好”,其对应的偏旁序列为“女子肖自心女子”,n=6:当j为1时,匹配到第一敏感词偏旁拆分词“女子肖自心”;敏感词偏旁拆分词“女子肖自心”的单字的数量q为5;由于j+q 为6,则匹配结束。
匹配结束时,匹配到一个第一敏感词拼音样本“女子肖自心”,第一敏感词拼音样本“女子肖自心”对应的第二敏感词为“好消息”;待检测文字序列中第一敏感词拼音样本对应的第二文字片段为“女子肖自心”,并将“女子肖自心”还原为“好消息”。
实际应用时,上述103中“根据所述还原序列,判定所述待检测文字序列是否违规”,包括:
1031、在所述还原序列中查找到至少一个敏感词。
1032、根据所述至少一个敏感词,对所述待检测文字序列进行违规程度评分。
1033、根据违规程度评分结果,判断所述待检测文字序列是否违规。
上述1031中,可基于敏感词库来确定还原序列中所包含的至少一个敏感词。至少一个敏感词中包括待检测文字序列中已有的常规敏感词以及通过还原变异敏感词得到的常规敏感词。
需要说明的是,基于敏感词库来确定还原序列中至少一个敏感词的具体实现可参见现有技术,在此不做详细介绍。
在一种可实现的方案中,上述1032中“根据所述至少一个敏感词,对所述待检测文字序列进行违规程度评分”,包括:
S51、获取所述至少一个敏感词中各敏感词对应的敏感度值;
S52、对所述至少一个敏感词中各敏感词对应的敏感度值进行求和,得到所述待检测文字序列的分值。
具体实施时,敏感词对应的敏感度值可以是事先根据大数据统计得到的,例如:根据历史出现频率或历史影响程度来计算敏感词对应的敏感度值。
举例来说,还原序列中包括:敏感词A和敏感词B,敏感词A对应的敏感度值为1,敏感词B对应的敏感度值为3,则待检测文字序列的分值即为: 4。
发明人通过大数据分析发现:敏感词作为不同的句子成分时,其敏感程度是不同的。例如:“恐怖组织”作为主语时,其敏感程度较高,“恐怖组织”作为“宾语”时,其敏感程度较低。具体地,至少一个敏感词中包括第三敏感词(第三敏感词指代的是至少一个敏感词中任一敏感词),上述S51 中“获取所述第三敏感词对应的敏感度值”,具体可采用如下步骤来实现:
a1、获取所述第三敏感词对应的初始敏感度值。
a2、确定所述第三敏感词在所述还原序列中的句子成分。
a3、获取所述第三敏感词作为所述句子成分时的第一权重系数。
a4、将所述第一权重系数和所述初始敏感度值的乘积作为所述第三敏感词对应的敏感度值。
上述a1中,可事先根据大数据统计得到敏感词库中各敏感词对应的初始敏感度值,具体地,根据敏感词的历史出现频率和/或历史影响程度来确定敏感词对应的初始敏感度值。历史出现频率越高和/或历史影响程度越大,敏感词的初始敏感度值就越大。
上述a2中,确定第三敏感词在还原序列中的句子成分,句子成分的类型有8种,分别为:主语、谓语、宾语、动语,定语、状语,补语和中心语。
需要说明的是,确定第三敏感词在还原序列中的句子成分可参见现有技术,在此不再详述。
上述a3中,可事先根据大数据统计得到敏感词库中敏感词作为各句子成分时对应的第一权重系数。通常,敏感词作为不同句子成分时对应的第一权重系数是不同的。例如:“恐怖组织”作为主语时的第一权重系数,要大于“恐怖组织”作为“宾语”时的第一权重系数。
下面将以敏感词库中的第四敏感词(第四敏感词指代的是敏感词库中的任一敏感词)为例介绍第一权重系数的计算过程,具体地,可事先从历史大数据中获取含有第四敏感词的全部文字序列;在全部文字序列中,查找第四敏感词作为第一句子成分的m个文字序列中;在m个文字序列中,确定属于违规信息的n个文字序列;根据n/m,确定第四敏感词作为第一句子成分时的第一权重系数。例如:可将n/m确定为第四敏感词作为第一句子成分时的第一权重系数。其中,第一句子成分指代的是上述8种类型中的任一种类型。
上述a4中,例如:第三敏感词“恐怖组织”的初始敏感度值为3,第三敏感词“恐怖组织”在待检测文字序列中的句子成分为“主语”,第三敏感词“恐怖组织”作为“主语”时的第一权重系数为0.9,则第三敏感词对应的敏感度值为0.9*3=2.7。
通常,只有那些发布违规信息的用户才会对违规信息中的敏感词进行变异处理。若第三敏感词是还原处理得到的,即第三敏感词被用户进行了变异处理,那么,待检测文字序列违规的概率较大;若第三敏感词是直接存在在待检测文字序列中,即用户并没有进行变异处理,那么,待检测文字序列违规的概率较小。因此,还可对获取到的第三敏感词对应的敏感度值进行调整,以得到更加合理的第三敏感词对应的敏感度值。具体地,在S52之前,还可包括:
S53、若所述第三敏感词不位于所述待检测文字序列中,则基于第一调整系数调整所述敏感度值。
S54、若所述第三敏感词位于所述待文字序列中,则基于第二调整系数调整所述敏感度值。
第一调整系数大于第二调整系数,第一调整系数和第二调整系数的具体数值可根据实际情况来设定。
在上述S53中,基于第一调整系数调整敏感度值,具体为:将第一调整系数与敏感度值的乘积作为调整后敏感度值。
同理,在上述S54中,基于第二调整系数调整敏感度值,具体为:将第二调整系数与敏感度值的乘积作为调整后敏感度值。
这样,在上述S52中,即可对所述至少一个敏感词中各敏感词对应的调整后敏感度值进行求和,得到所述待检测文字序列的分值。
上述1033中“根据违规程度评分结果,判定所述待检测文字序列是否违规”,包括:
S61、若所述违规程度评分结果中的分值小于等于第一阈值,则判定所述待检测文字序列不违规。
S62、若所述违规程度评分结果中的分值大于等于第二阈值,则判定所述待检测文字序列违规。
S63、若所述违规程度评分结果中的分值大于所述第一阈值且小于所述第二阈值,则计算所述还原序列与所述违规信息库中违规信息的相似度;根据所述相似度,判定所述待检测文字序列是否违规。
上述第一阈值和第二阈值的数值大小可根据实际情况来确定,本申请实施例对此不作具体限定。
上述S63中,计算还原序列与违规信息库中违规信息的相似度,可采用编辑距离计算算法来计算,具体的计算过程可参见现有技术,在此不再详述。
可事先设置一相似度阈值,还原序列与违规信息库中违规信息的相似度大于或等于相似度阈值,则判定待检测文字序列违规;还原序列与违规信息库中违规信息的相似度小于相似度阈值,则判定待检测文字序列不违规。
考虑到实际应用中,很多待检测文字序列中存在有一些干扰字符,例如:空格、特殊字符等。为了提高还原效率,可在基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列之前,上述方法,还可包括:
106、对所述待检测文字序列进行预处理,以去掉所述待检测文字序列中特殊符号。
本申请实施例提供的技术方案中,在检测之前,先基于拼音要素和/或偏旁要素,对待检测文字序列进行变异敏感词还原处理,将待检测文字序列中的变异敏感词替换成常规敏感词,这样,得到的还原序列即为常规文本序列,便于后续违规检测。可见,本申请实施例提供的技术方案能够实现对变异违规信息的检测,可提高违规信息的检出率。
图2示出了本申请又一实施例提供的文本还原方法的流程示意图。如图2所示,该方法包括:
201、获取待还原文字序列。
202、基于字要素,确定所述待还原文字序列对应的与字要素有关的要素序列。
203、基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列。
上述201中,可定期从网络数据库中提取待还原文字序列,或者实时接收客户端发送或发布的文字内容,将客户端发送或发布的文字内容作为待还原序列。
本申请实施例中待还原文本序列相当于上述各实施例中的待检测文本序列。因此,上述202和203可参见上述各实施例中相应内容,在此不再赘述。
本申请实施例提供的技术方案中,在检测之前,先基于字要素,得到待检测文字序列对应的要素序列;再基于要素序列,来对待检测文字序列中的变异信息进行还原处理,可提高待检测文字序列的还原效率,避免了因变异处理导致某些词难以被还原。
当所述字要素包括字的拼音要素,与所述字要素有关的要素序列为拼音序列时,上述203中“基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列”,包括:
2031、在敏感词拼音样本库中,进行所述拼音序列的匹配。
2032、基于匹配到的第一敏感词拼音样本,对所述待还原文字序列进行还原处理。
当所述字要素包括字的偏旁要素,与所述字要素有关的要素序列为偏旁序列时,上述203中“基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列”,包括:
2033、获取敏感词偏旁拆分样本库。
2034、在敏感词拼音样本库中,进行所述偏旁序列的匹配。
2035、基于匹配到的第一敏感词偏旁拆分词,对所述待还原文字序列进行还原处理。
其中,所述敏感词偏旁拆分样本库中包括敏感词库中各敏感词对应的多种敏感词偏旁拆分词。这里需要说明的是:本申请实施例各步骤的具体实现,在本实施例中未详细阐述的部分可参见上述各实施例中的相关内容,此处不再赘述。本申请实施例提供的所述方法除了包含上述各步骤外,还可包含上述各实施例中的全部或部分步骤,具体可参见上述实施例中的相应内容,此处不再赘述。
图8示出了本申请又一实施例提供的数据处理方法的流程示意图。如图 8所示,该方法包括:
801、获取待检测数据对象。
其中,所述待检测数据对象包括文字序列,
802、获取所述文字序列对应的拼音序列。
803、在拼音样本库中,检索所述拼音序列,以得到第一检索结果。
其中,所述拼音样本库包括满足第一预设规则的拼音样本。
804、基于所述第一检索结果,还原所述文字序列。
805、根据还原后文字序列,判定所述待检测数据对象是否满足预设条件。
上述801中,待检测数据对象可以为文本、图片或视频。若是图片或视频,可通过图像识别方式从图片或视频中识别出其中的文字序列。待检测数据对象中的文字序列也即是待检测文字序列。
上述802中,获取文字序列对应的拼音序列可参考上述各实施例中相应内容。
上述803中,所述拼音样本库包括满足第一预设规则的拼音样本。第一预设规则可根据实际需要来确定,本申请实施例对此不作具体限定。例如:第一预设规则为:拼音样本对应的预置文字片段为特定词库中的词,特定词库可以为敏感词库。拼音样本对应的预置文字片段可理解为由拼音样本所标注的文字片段,例如:由拼音样本“zuzhi”所标注的文字片段为“组织”。
在拼音样本库中,检索所述拼音序列,以得到第一检索结果。其中,在拼音样本库中,检索拼音序列,也即是在拼音样本库中,进行拼音序列的匹配;第一检索结果页也即是第一匹配结果。匹配过程可参见上述各实施例相应内容,在此不再赘述。
上述804中,所述第一检索结果中存在与所述拼音序列中拼音片段匹配的第一拼音样本时,将所述文字序列中所述拼音片段对应的第一文字片段替换成所述第一拼音样本对应的预置文字片段。可事先建立拼音样本库中拼音样本与预置文字片段之间的对应关系,后续根据该对应关系,来获取第一拼音样本对应的预置文字片段。
上述805中,在不同的应用场景下,预设条件也会有所不同,例如:在违规信息检测场景下,预设条件可以为违规程度评分需大于或等于违规阈值。
在违规信息检测场景下,对待检测数据对象进行违规程度评分,也即是对文字序列进行违规程度评分,对文字序列进行违规程度评分的具体实现可参考上述各实施例中相应内容,在此不再赘述。预设条件中的违规阈值可取值为上述各实施例中的第二阈值。
本申请一实施例提供的技术方案中,将文字序列转换为拼音序列,并根据在拼音样本库中对拼音序列的检索结果来还原文字序列,可提高文字序列的还原效率;同时,还可有效地将满足预设条件的数据对象检测出来。
进一步的,上述方法,还可包括:
806、获取所述文字序列对应的偏旁序列;
807、在偏旁拆分样本库中,检索所述偏旁序列,以得到第二检索结果。其中,所述偏旁拆分样本库中包括满足第二预设规则的偏旁样本。
上述806中,获取文字序列对应的偏旁序列可参考上述各实施例中相应内容。
上述807中,其中,在偏旁拆分样本库中,检索所述偏旁序列,也即是在偏旁拆分样本库中,进行偏旁序列的匹配;第二检索结果页也即是第二匹配结果。匹配过程可参见上述各实施例相应内容,在此不再赘述。
第二预设规则可根据实际需要来确定,本申请实施例对此不作具体限定。例如:第二预设规则为:偏旁样本对应的预置文字片段为特定词库中的词,特定词库可以为敏感词库。
相应的,上述804中“基于所述第一检索结果,还原所述文字序列”,具体为:基于所述第一检索结果和所述第二检索结果,还原所述文字序列。
所述第一检索结果中存在与所述拼音序列中拼音片段匹配的第一拼音样本时,将所述文字序列中所述拼音片段对应的第一文字片段替换成所述第一拼音样本对应的预置文字片段;所述第二检索结果中存在与所述偏旁序列中偏旁片段匹配的第一偏旁样本时,将所述文字序列中所述偏旁片段对应的第二文字片段替换成所述第一偏旁样本对应的预置文字片段。
偏旁样本对应的预置文字片段,也即是偏旁样本对应的原词。例如:偏旁样本“女子肖自心”对应的原词为“好消息”。可事先建立偏旁拆分样本库中偏旁样本与预置文字片段的对应关系,后续根据该对应关系,来获取第一偏旁样本对应的阈值文字片段。
这里需要说明的是:本申请实施例各步骤的具体实现,在本实施例中未详细阐述的部分可参见上述各实施例中的相关内容,此处不再赘述。本申请实施例提供的所述方法除了包含上述各步骤外,还可包含上述各实施例中的全部或部分步骤,具体可参见上述实施例中的相应内容,此处不再赘述。
图3示出了本申请又一实施例提供的文本违规检测装置的结构框图。如图3所示,该装置包括:
第一获取模块301,,用于获取待检测文字序列对应的与字要素有关的要素序列;
第一还原模块302,用于基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列;
第一判定模块303,用于根据所述还原序列,判定所述待检测文字序列是否违规。
本申请实施例提供的技术方案中,在检测之前,先基于字要素,得到待检测文字序列对应的要素序列;再基于要素序列,来对待检测文字序列中的变异信息进行还原处理,可提高文字序列的还原效率;同时,实现实现了对变异违规信息的检测,提高了违规信息的检出率。
进一步的,所述字要素包括字的拼音要素,与所述字要素有关的要素序列为拼音序列时,
第一还原模块302,包括:
第一匹配单元,用于在敏感词拼音样本库中,进行所述拼音序列的匹配;
第一还原单元,用于基于匹配到的第一敏感词拼音样本,对所述待检测文字序列进行还原处理。
进一步的,第一还原单元,具体用于:
获取匹配到的第一敏感词拼音样本对应的第一敏感词;
将所述待检测文字序列中所述第一敏感词拼音样本对应的第一文字片段替换为所述第一敏感词。
进一步的,所述敏感词拼音样本库中包括:敏感词拼音查找树;所述拼音序列中包括n个单字拼音,其中,n为大于1的整数;
第一匹配单元,具体用于:
在所述敏感词拼音查找树中,进行所述拼音序列中第i个单字拼音到第 n个单字拼音之间的子拼音序列的匹配,其中,i为大于等于1且小于等于n-1的整数;
匹配到第一敏感词拼音样本时,确定所述第一敏感词拼音样本中单字拼音的数量q;i+q小于等于n-1时,继续进行所述拼音序列中第i+q个单字拼音到第n个单字拼音之间的子拼音序列的匹配;若i+q大于等于n时,则匹配结束;
未匹配到第一敏感词拼音样本时,若i+1小于等于n-1,则继续进行所述拼音序列中第i+1个单字拼音到第n个单字拼音之间的子拼音序列的匹配;若i+1为n时,则匹配结束。
进一步的,上述装置,还可包括:
第二获取模块,用于获取敏感词库;
第一构建模块,用于对所述敏感词库中的敏感词,按第一个字的拼音首字母进行分类,并对第一个字的拼音首字母相同的敏感词进行同音聚类,以得到所述敏感词拼音查找树;
所述敏感词库中任一敏感词的单字拼音作为整体对应存储在所述敏感词拼音查找树的一结点中。
进一步的,所述敏感词拼音查找树中对应于所述敏感词库中任一敏感词的尾字拼音的结点中还存储有用于索引对应敏感词的键值和/或对应敏感词的初始敏感度值。
进一步的,所述字要素包括字的偏旁要素,与所述字要素有关的要素序列为偏旁序列时,
第一还原模块302,包括:
第一获取单元,用于获取敏感词偏旁拆分样本库,所述敏感词偏旁拆分样本库中包括敏感词库中各敏感词对应的多种敏感词偏旁拆分词;
第二匹配单元,用于在敏感词偏旁拆分样本库中,进行所述偏旁序列的匹配;
第二还原单元,用于基于匹配到的第一敏感词偏旁拆分词,对所述待检测文字序列进行还原处理。
进一步的,第二还原单元,具体用于:
获取匹配到的第一敏感词偏旁拆分词对应的第二敏感词;
将所述待检测文字序列中所述第一敏感词偏旁拆分词对应的第二文字片段替换为所述第二敏感词。
进一步的,所述偏旁序列包括m个偏旁;
第二匹配单元,具体用于:
在所述敏感词偏旁拆分样本库中,进行所述偏旁序列中第j个偏旁到第 m个偏旁之间的子偏旁序列的匹配,其中,j为大于等于1且小于等于m-1 的整数;
匹配到第一敏感词偏旁拆分词时,确定所述第一敏感词偏旁拆分词中偏旁的数量p;j+p小于等于m-1时,继续进行所述偏旁序列中第j+p个偏旁到第m个偏旁之间的子偏旁序列的匹配;若j+p大于等于m时,则匹配结束;
未匹配到第一敏感词偏旁拆分词时,若j+1小于等于m-1,则继续进行所述偏旁序列中第j+1个偏旁到第m个偏旁之间的子偏旁序列的匹配;若j+1 为m时,则匹配结束。
进一步的,第一判定模块303,包括:
第一查找单元,用于在所述还原序列中查找到至少一个敏感词;
第一评分单元,用于根据所述至少一个敏感词,对所述待检测文字序列进行违规程度评分;
第一判定单元,用于根据违规程度评分结果,判定所述待检测文字序列是否违规。
进一步的,第一评分单元,具体用于:
获取所述至少一个敏感词中各敏感词对应的敏感度值;
对所述至少一个敏感词中各敏感词对应的敏感度值进行求和,得到所述待检测文字序列的分值。
进一步的,所述至少一个敏感词中包括第三敏感词;第一评分单元,具体用于:
获取所述第三敏感词对应的初始敏感度值;
确定所述第三敏感词在所述还原序列中的句子成分;
获取所述第三敏感词作为所述句子成分时的第一权重系数;
将所述第一权重系数和所述初始敏感度值的乘积作为所述第三敏感词对应的敏感度值。
进一步的,第一评分单元,还用于:
在对所述至少一个敏感词中各敏感词对应的敏感度值进行求和,得到所述待检测文字序列的分值之前,
若所述第三敏感词不位于所述待检测文字序列中,则基于第一调整系数调整所述敏感度值;若所述第三敏感词位于所述待文字序列中,则基于第二调整系数调整所述敏感度值。
进一步的,第一判定单元,具体用于:
若所述违规程度评分结果中的分值小于等于第一阈值,则判定所述待检测文字序列不违规;
若所述违规程度评分结果中的分值大于等于第二阈值,则判定所述待检测文字序列违规;
若所述违规程度评分结果中的分值大于所述第一阈值且小于所述第二阈值,则计算所述还原序列与所述违规信息库中违规信息的相似度;根据所述相似度,判定所述待检测文字序列是否违规。
进一步的,第一预处理模块,用于在基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列之前,对所述待检测文字序列进行预处理,以去掉所述待检测文字序列中特殊符号。
这里需要说明的是:上述实施例提供的文本违规检测装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图4示出了本申请又一实施例提供的文本还原装置的结构框图。如图4 所示,该装置包括:
第二获取模块401,用于获取待还原文字序列;
第二确定模块402,用于基于字要素,确定所述待还原文字序列对应的与字要素有关的要素序列;
第二还原模块403,用于基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列。
本申请实施例提供的技术方案中,基于字要素,得到待检测文字序列对应的要素序列;再基于要素序列,来对待检测文字序列中的变异信息进行还原处理。这样,可有效提高还原效率,避免了因变异处理导致某些词难以被还原。
进一步的,所述字要素包括字的拼音要素,与所述字要素有关的要素序列为拼音序列时,
第二还原模块403,包括:
第三匹配单元,用于在敏感词拼音样本库中,进行所述拼音序列的匹配;
第三还原单元,用于基于匹配到的第一敏感词拼音样本,对所述待还原文字序列进行还原处理。
进一步的,所述字要素包括字的偏旁要素,与所述字要素有关的要素序列为偏旁序列时,
第二还原模块403,包括:
第二获取单元,用于获取敏感词偏旁拆分样本库,所述敏感词偏旁拆分样本库中包括敏感词库中各敏感词对应的多种敏感词偏旁拆分词;
第四匹配单元,用于在敏感词拼音样本库中,进行所述偏旁序列的匹配;
第四还原单元,用于基于匹配到的第一敏感词偏旁拆分词,对所述待还原文字序列进行还原处理。
这里需要说明的是:上述实施例提供的文本还原装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图9示出了本申请又一实施例提供的数据处理装置的结构框图。如图9 所示,该装置包括:
第三获取模块901,用于获取待检测数据对象,其中,所述待检测数据对象包括文字序列;
第四获取模块902,用于获取所述文字序列对应的拼音序列;
第一检索模块903,用于在拼音样本库中,检索所述拼音序列,以得到第一检索结果,其中,所述拼音样本库包括满足第一预设规则的拼音样本;
第三还原模块904,用于基于所述第一检索结果,还原所述文字序列;
第二判定模块905,用于根据还原后文字序列,判定所述待检测数据对象是否满足预设条件。
本申请又一实施例提供的技术方案中,将文字序列转换为拼音序列,并根据在拼音样本库中对拼音序列的检索结果来还原文字序列,可提高文字序列的还原效率;同时,还可有效地将满足预设条件的数据对象检测出来。
进一步的,上述装置,还可包括:
第四获取模块,用于获取所述文字序列对应的偏旁序列;
第二检索模块,用于在偏旁拆分样本库中,检索所述偏旁序列,以得到第二检索结果,其中,所述偏旁拆分样本库中包括满足第二预设规则的偏旁样本;
以及,第三还原模块904,具体用于:
基于所述第一检索结果和所述第二检索结果,还原所述文字序列。
进一步的,第三还原模块904,具体用于:
所述第一检索结果中存在与所述拼音序列中拼音片段匹配的第一拼音样本时,将所述文字序列中所述拼音片段对应的第一文字片段替换成所述第一拼音样本对应的预置文字片段;
所述第二检索结果中存在与所述偏旁序列中偏旁片段匹配的第一偏旁样本时,将所述文字序列中所述偏旁片段对应的第二文字片段替换成所述第一偏旁样本对应的预置文字片段。
这里需要说明的是:上述实施例提供的数据处理装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图5为本申请一实施例提供的电子设备的结构示意图。该电子设备包括:第一存储器1101以及第一处理器1102。第一存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第一存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器 (SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第一处理器1102,与所述第一存储器1101耦合,用于执行所述第一存储器1101中存储的所述程序,以用于:
获取待检测文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列;
根据所述还原序列,判定所述待检测文字序列是否违规。
其中,第一处理器1102在执行第一存储器1101中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步的,如图5所示,电子设备还包括:第一通信组件1103、第一显示器1104、第一电源组件1105、第一音频组件1106等其它组件。图5中仅示意性给出部分组件,并不意味着电子设备只包括图5所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的文本违规检测方法的步骤或功能。
图6示出了本申请一实施例提供的电子设备的结构示意图。如图6所示,所述电子设备包括第二存储器1201以及第二处理器1202。第二存储器1201 可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第二存储器1201 可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第二处理器1202,与所述第二存储器1201耦合,用于执行所述第二存储器1201中存储的所述程序,以用于:
获取待还原文字序列;
基于字要素,确定所述待还原文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列。
其中,第二处理器1202在执行第二存储器1201中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图6所示,电子设备还包括:第二通信组件1203、第二显示器1204、第二电源组件1205、第二音频组件1206等其它组件。图6中仅示意性给出部分组件,并不意味着电子设备只包括图6所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的文本还原方法步骤或功能。
图10示出了本申请一实施例提供的电子设备的结构示意图。如图10所示,所述电子设备包括第三存储器1301以及第三处理器1302。第三存储器 1301可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第三存储器 1301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第三处理器1302,与所述第三存储器1301耦合,用于执行所述第三存储器1301中存储的所述程序,以用于:
获取待检测数据对象,其中,所述待检测数据对象包括文字序列;
获取所述文字序列对应的拼音序列;
在拼音样本库中,检索所述拼音序列,以得到第一检索结果,其中,所述拼音样本库包括满足第一预设规则的拼音样本;
基于所述第一检索结果,还原所述文字序列;
根据还原后文字序列,判定所述待检测数据对象是否满足预设条件。
其中,第三处理器1302在执行第三存储器1301中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图10所示,电子设备还包括:第三通信组件1303、第三显示器1304、第三电源组件1305、第三音频组件1306等其它组件。图10中仅示意性给出部分组件,并不意味着电子设备只包括图10所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的数据处理方法步骤或功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (24)

1.一种文本违规检测方法,其特征在于,包括:
获取待检测文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列;
根据所述还原序列,判定所述待检测文字序列是否违规。
2.根据权利要求1所述的方法,其特征在于,所述字要素包括字的拼音要素,与所述字要素有关的要素序列为拼音序列时,
基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列,包括:
在敏感词拼音样本库中,进行所述拼音序列的匹配;
基于匹配到的第一敏感词拼音样本,对所述待检测文字序列进行还原处理。
3.根据权利要求2所述的方法,其特征在于,基于匹配到的第一敏感词拼音样本,对所述待检测文字序列进行还原处理,包括:
获取匹配到的第一敏感词拼音样本对应的第一敏感词;
将所述待检测文字序列中所述第一敏感词拼音样本对应的第一文字片段替换为所述第一敏感词。
4.根据权利要求2所述的方法,其特征在于,所述敏感词拼音样本库中包括:敏感词拼音查找树;所述拼音序列中包括n个单字拼音,其中,n为大于1的整数;
在敏感词拼音样本库中,进行所述拼音序列的匹配,包括:
在所述敏感词拼音查找树中,进行所述拼音序列中第i个单字拼音到第n个单字拼音之间的子拼音序列的匹配,其中,i为大于等于1且小于等于n-1的整数;
匹配到第一敏感词拼音样本时,确定所述第一敏感词拼音样本中单字拼音的数量q;i+q小于等于n-1时,继续进行所述拼音序列中第i+q个单字拼音到第n个单字拼音之间的子拼音序列的匹配;若i+q大于等于n时,则匹配结束;
未匹配到第一敏感词拼音样本时,若i+1小于等于n-1,则继续进行所述拼音序列中第i+1个单字拼音到第n个单字拼音之间的子拼音序列的匹配;若i+1为n时,则匹配结束。
5.根据权利要求2所述的方法,其特征在于,还包括:
获取敏感词库;
对所述敏感词库中的敏感词,按第一个字的拼音首字母进行分类,并对第一个字的拼音首字母相同的敏感词进行同音聚类,以得到所述敏感词拼音查找树;
所述敏感词库中任一敏感词的单字拼音作为整体对应存储在所述敏感词拼音查找树的一结点中。
6.根据权利要求5所述的方法,其特征在于,所述敏感词拼音查找树中对应于所述敏感词库中任一敏感词的尾字拼音的结点中还存储有用于索引对应敏感词的键值和/或对应敏感词的初始敏感度值。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述字要素包括字的偏旁要素,与所述字要素有关的要素序列为偏旁序列时,
基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列,包括:
获取敏感词偏旁拆分样本库,所述敏感词偏旁拆分样本库中包括敏感词库中各敏感词对应的多种敏感词偏旁拆分词;
在敏感词偏旁拆分样本库中,进行所述偏旁序列的匹配;
基于匹配到的第一敏感词偏旁拆分词,对所述待检测文字序列进行还原处理。
8.根据权利要求7所述的方法,其特征在于,基于匹配到的第一敏感词偏旁拆分词,对所述待检测文字序列进行还原处理,包括:
获取匹配到的第一敏感词偏旁拆分词对应的第二敏感词;
将所述待检测文字序列中所述第一敏感词偏旁拆分词对应的第二文字片段替换为所述第二敏感词。
9.根据权利要求7所述的方法,其特征在于,所述偏旁序列包括m个偏旁;
在敏感词偏旁拆分样本库中,进行所述偏旁序列的匹配,包括:
在所述敏感词偏旁拆分样本库中,进行所述偏旁序列中第j个偏旁到第m个偏旁之间的子偏旁序列的匹配,其中,j为大于等于1且小于等于m-1的整数;
匹配到第一敏感词偏旁拆分词时,确定所述第一敏感词偏旁拆分词中偏旁的数量p;j+p小于等于m-1时,继续进行所述偏旁序列中第j+p个偏旁到第m个偏旁之间的子偏旁序列的匹配;若j+p大于等于m时,则匹配结束;
未匹配到第一敏感词偏旁拆分词时,若j+1小于等于m-1,则继续进行所述偏旁序列中第j+1个偏旁到第m个偏旁之间的子偏旁序列的匹配;若j+1为m时,则匹配结束。
10.根据权利要求1至6中任一项所述的方法,其特征在于,根据所述还原序列,判定所述待检测文字序列是否违规,包括:
在所述还原序列中查找到至少一个敏感词;
根据所述至少一个敏感词,对所述待检测文字序列进行违规程度评分;
根据违规程度评分结果,判断所述待检测文字序列是否违规。
11.根据权利要求10所述的方法,其特征在于,根据所述至少一个敏感词,对所述待检测文字序列进行违规程度评分,包括:
获取所述至少一个敏感词中各敏感词对应的敏感度值;
对所述至少一个敏感词中各敏感词对应的敏感度值进行求和,得到所述待检测文字序列的分值。
12.根据权利要求11所述的方法,其特征在于,所述至少一个敏感词中包括第三敏感词;
获取所述第三敏感词对应的敏感度值,包括:
获取所述第三敏感词对应的初始敏感度值;
确定所述第三敏感词在所述还原序列中的句子成分;
获取所述第三敏感词作为所述句子成分时的第一权重系数;
将所述第一权重系数和所述初始敏感度值的乘积作为所述第三敏感词对应的敏感度值。
13.根据权利要求12所述的方法,其特征在于,根据所述至少一个敏感词,对所述待检测文字序列进行违规程度评分,还包括:
在对所述至少一个敏感词中各敏感词对应的敏感度值进行求和,得到所述待检测文字序列的分值之前,
若所述第三敏感词不位于所述待检测文字序列中,则基于第一调整系数调整所述敏感度值;若所述第三敏感词位于所述待文字序列中,则基于第二调整系数调整所述敏感度值。
14.根据权利要求10所述的方法,其特征在于,根据违规程度评分结果,判定所述待检测文字序列是否违规,包括:
若所述违规程度评分结果中的分值小于等于第一阈值,则判定所述待检测文字序列不违规;
若所述违规程度评分结果中的分值大于等于第二阈值,则判定所述待检测文字序列违规;
若所述违规程度评分结果中的分值大于所述第一阈值且小于所述第二阈值,则计算所述还原序列与所述违规信息库中违规信息的相似度;根据所述相似度,判定所述待检测文字序列是否违规。
15.根据权利要求1至6中任一项所述的方法,其特征在于,在基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列之前,还包括:
对所述待检测文字序列进行预处理,以去掉所述待检测文字序列中特殊符号。
16.一种文本还原方法,其特征在于,包括:
获取待还原文字序列;
基于字要素,确定所述待还原文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列。
17.根据权利要求16所述的方法,其特征在于,所述字要素包括字的拼音要素,与所述字要素有关的要素序列为拼音序列时,
基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列,包括:
在敏感词拼音样本库中,进行所述拼音序列的匹配;
基于匹配到的第一敏感词拼音样本,对所述待还原文字序列进行还原处理。
18.根据权利要求16或17所述的方法,其特征在于,所述字要素包括字的偏旁要素,与所述字要素有关的要素序列为偏旁序列时,
基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列,包括:
获取敏感词偏旁拆分样本库,所述敏感词偏旁拆分样本库中包括敏感词库中各敏感词对应的多种敏感词偏旁拆分词;
在敏感词拼音样本库中,进行所述偏旁序列的匹配;
基于匹配到的第一敏感词偏旁拆分词,对所述待还原文字序列进行还原处理。
19.一种数据处理方法,其特征在于,包括:
获取待检测数据对象,其中,所述待检测数据对象包括文字序列;
获取所述文字序列对应的拼音序列;
在拼音样本库中,检索所述拼音序列,以得到第一检索结果,其中,所述拼音样本库包括满足第一预设规则的拼音样本;
基于所述第一检索结果,还原所述文字序列;
根据还原后文字序列,判定所述待检测数据对象是否满足预设条件。
20.根据权利要求19所述的方法,其特征在于,还包括:
获取所述文字序列对应的偏旁序列;
在偏旁拆分样本库中,检索所述偏旁序列,以得到第二检索结果,其中,所述偏旁拆分样本库中包括满足第二预设规则的偏旁样本;以及
基于所述第一检索结果,还原所述文字序列,包括:
基于所述第一检索结果和所述第二检索结果,还原所述文字序列。
21.根据权利要求20所述的方法,其特征在于,基于所述第一检索结果和所述第二检索结果,还原所述文字序列,包括:
所述第一检索结果中存在与所述拼音序列中拼音片段匹配的第一拼音样本时,将所述文字序列中所述拼音片段对应的第一文字片段替换成所述第一拼音样本对应的预置文字片段;
所述第二检索结果中存在与所述偏旁序列中偏旁片段匹配的第一偏旁样本时,将所述文字序列中所述偏旁片段对应的第二文字片段替换成所述第一偏旁样本对应的预置文字片段。
22.一种电子设备,其特征在于,包括:第一存储器和第一处理器,其中,
所述第一存储器,用于存储程序;
所述第一处理器,与所述第一存储器耦合,用于执行所述第一存储器中存储的所述程序,以用于:
获取待检测文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待检测文字序列进行还原处理得到还原序列;
根据所述还原序列,判定所述待检测文字序列是否违规。
23.一种电子设备,其特征在于,包括:第二存储器和第二处理器,其中,
所述第二存储器,用于存储程序;
所述第二处理器,与所述第二存储器耦合,用于执行所述第二存储器中存储的所述程序,以用于:
获取待还原文字序列;
基于字要素,确定所述待还原文字序列对应的与字要素有关的要素序列;
基于所述要素序列,对所述待还原文字序列进行还原处理得到还原序列。
24.一种电子设备,其特征在于,包括:第三存储器和第三处理器,其中,
所述第三存储器,用于存储程序;
所述第三处理器,与所述第三存储器耦合,用于执行所述第三存储器中存储的所述程序,以用于:
获取待检测数据对象,其中,所述待检测数据对象包括文字序列;
获取所述文字序列对应的拼音序列;
在拼音样本库中,检索所述拼音序列,以得到第一检索结果,其中,所述拼音样本库包括满足第一预设规则的拼音样本;
基于所述第一检索结果,还原所述文字序列;
根据还原后文字序列,判定所述待检测数据对象是否满足预设条件。
CN201811110231.2A 2018-09-21 2018-09-21 文本违规检测、文本还原方法、数据处理方法及设备 Active CN110941959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811110231.2A CN110941959B (zh) 2018-09-21 2018-09-21 文本违规检测、文本还原方法、数据处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811110231.2A CN110941959B (zh) 2018-09-21 2018-09-21 文本违规检测、文本还原方法、数据处理方法及设备

Publications (2)

Publication Number Publication Date
CN110941959A true CN110941959A (zh) 2020-03-31
CN110941959B CN110941959B (zh) 2023-05-26

Family

ID=69905250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811110231.2A Active CN110941959B (zh) 2018-09-21 2018-09-21 文本违规检测、文本还原方法、数据处理方法及设备

Country Status (1)

Country Link
CN (1) CN110941959B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN111831785A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN112949285A (zh) * 2020-10-13 2021-06-11 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质
CN113407494A (zh) * 2021-05-27 2021-09-17 东软集团股份有限公司 一种违规文件检测方法、装置及设备
CN113486656A (zh) * 2021-07-16 2021-10-08 支付宝(杭州)信息技术有限公司 一种语料生成方法及装置
CN115809662A (zh) * 2023-02-03 2023-03-17 北京匠数科技有限公司 一种文本内容异常检测的方法、装置、设备及介质
CN115952796A (zh) * 2023-03-14 2023-04-11 华北电力科学研究院有限责任公司 电力设备故障分析方法和装置
CN116822496A (zh) * 2023-06-02 2023-09-29 厦门她趣信息技术有限公司 一种社交信息违规检测方法、系统及存储介质
CN117892724A (zh) * 2024-03-15 2024-04-16 成都赛力斯科技有限公司 一种文本检测方法、装置、设备及存储介质
CN117892724B (zh) * 2024-03-15 2024-06-04 成都赛力斯科技有限公司 一种文本检测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150279A1 (en) * 2005-12-27 2007-06-28 Oracle International Corporation Word matching with context sensitive character to sound correlating
WO2010078792A1 (zh) * 2009-01-12 2010-07-15 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN107402945A (zh) * 2017-03-15 2017-11-28 阿里巴巴集团控股有限公司 词库生成方法及装置、短文本检测方法及装置
CN108182246A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150279A1 (en) * 2005-12-27 2007-06-28 Oracle International Corporation Word matching with context sensitive character to sound correlating
WO2010078792A1 (zh) * 2009-01-12 2010-07-15 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN107402945A (zh) * 2017-03-15 2017-11-28 阿里巴巴集团控股有限公司 词库生成方法及装置、短文本检测方法及装置
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN108182246A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴慧玲;沈建京;贺广生;: "基于不良文本信息过滤预处理方法的研究" *
江宝林,刘永丹,金峰,葛家翔,胡运发: "一个基于语义分析的倾向性文档过滤系统" *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783443B (zh) * 2020-06-29 2023-08-15 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN111831785A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN112949285A (zh) * 2020-10-13 2021-06-11 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质
CN112949285B (zh) * 2020-10-13 2024-04-05 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质
CN113407494A (zh) * 2021-05-27 2021-09-17 东软集团股份有限公司 一种违规文件检测方法、装置及设备
CN113407494B (zh) * 2021-05-27 2024-02-09 东软集团股份有限公司 一种违规文件检测方法、装置及设备
CN113486656B (zh) * 2021-07-16 2023-11-10 支付宝(杭州)信息技术有限公司 一种语料生成方法及装置
CN113486656A (zh) * 2021-07-16 2021-10-08 支付宝(杭州)信息技术有限公司 一种语料生成方法及装置
CN115809662A (zh) * 2023-02-03 2023-03-17 北京匠数科技有限公司 一种文本内容异常检测的方法、装置、设备及介质
CN115952796A (zh) * 2023-03-14 2023-04-11 华北电力科学研究院有限责任公司 电力设备故障分析方法和装置
CN116822496A (zh) * 2023-06-02 2023-09-29 厦门她趣信息技术有限公司 一种社交信息违规检测方法、系统及存储介质
CN116822496B (zh) * 2023-06-02 2024-04-19 厦门她趣信息技术有限公司 一种社交信息违规检测方法、系统及存储介质
CN117892724A (zh) * 2024-03-15 2024-04-16 成都赛力斯科技有限公司 一种文本检测方法、装置、设备及存储介质
CN117892724B (zh) * 2024-03-15 2024-06-04 成都赛力斯科技有限公司 一种文本检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110941959B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN110941959A (zh) 文本违规检测、文本还原方法、数据处理方法及设备
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
US20210192126A1 (en) Generating structured text summaries of digital documents using interactive collaboration
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
US7809718B2 (en) Method and apparatus for incorporating metadata in data clustering
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
CN108228541B (zh) 生成文档摘要的方法和装置
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN113239268B (zh) 一种商品推荐方法、装置及系统
WO2015035401A1 (en) Automated discovery using textual analysis
CN111914554A (zh) 领域新词识别模型的训练方法、领域新词识别方法及设备
CN105653553B (zh) 词权重生成方法和装置
CN110929022A (zh) 一种文本摘要生成方法及系统
CN112506864A (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN110347934B (zh) 一种文本数据过滤方法、装置及介质
CN108172304B (zh) 一种基于用户医疗反馈的医疗信息可视化处理方法及系统
CN111428487A (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN110413985B (zh) 一种相关文本片段搜索方法及装置
CN113343012B (zh) 一种新闻配图方法、装置、设备及存储介质
CN109684442B (zh) 一种文本检索方法、装置、设备及程序产品
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant