CN115186657A - 错敏信息检测方法、装置、计算机设备及存储介质 - Google Patents

错敏信息检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115186657A
CN115186657A CN202210899159.6A CN202210899159A CN115186657A CN 115186657 A CN115186657 A CN 115186657A CN 202210899159 A CN202210899159 A CN 202210899159A CN 115186657 A CN115186657 A CN 115186657A
Authority
CN
China
Prior art keywords
sensitive information
detection
error
word
rule base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210899159.6A
Other languages
English (en)
Inventor
朱自力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Netscape Shengshi Technology Development Center
Original Assignee
Beijing Netscape Shengshi Technology Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Netscape Shengshi Technology Development Center filed Critical Beijing Netscape Shengshi Technology Development Center
Priority to CN202210899159.6A priority Critical patent/CN115186657A/zh
Publication of CN115186657A publication Critical patent/CN115186657A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种错敏信息检测方法、装置、计算机设备及存储介质,该方法包括:预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基础词库、严重词库、自定义检测词库中的至少一种;获取政府网站中的待检测网页内容;基于所述错敏信息规则库对所述待检测网页内容进行检测,得到检测结果;当所述检测结果为异常时进行报警提示。本发明基于错敏信息规则库进行检测,可以实现从不同角度的信息多次检查和校对检测,同时也解决了政府各部门之间对内容检测的不同要求;基于“智能联想构词”的思路实现对错敏信息规则库的丰富。此外,实际结果显示采用本发明提供的方案对政府网站及新媒体数据的检测效果大幅度得到提升,误报率也大大减少。

Description

错敏信息检测方法、装置、计算机设备及存储介质
技术领域
本发明涉及错敏信息检测技术领域,尤其涉及一种错敏信息检测方法、装 置、计算机设备及存储介质。
背景技术
现如今,信息技术迅猛发展,以信息技术为代表的新一轮科技革命加速了政 府与社会其他各个领域、各个行业的融合,而且,信息化已经成为国家综合实力 和现代化的重要标志。随着政府门户网站、政务新媒体的发展,政府的信息和服 务渠道逐渐增多,在这些信息和服务渠道中会发生诸多问题,例如,网站上出现 错别字、敏感词、错误链接等错敏信息,这些问题通过各行业媒体信息报道逐步 发酵,往往会引发社会普遍关注,进而对政府形象造成严重影响。因此,对政府 门户网站、政务新媒体发布前的信息检查以及发布后的信息检测已成为各级政府 部门的常态化需求。
现有技术中,通常采用机械性匹配词库方式对文字其进行检查,并且,当信 息中包含错别字、敏感词、错误链接等错敏信息时,系统将根据具体片段进行提 示,最后经人工核对加以确认和修改。
虽然现有技术可以从一定程度上降低错敏信息的发生,但是,在对政府门户 网站、政务新媒体进行错别字、敏感词、错误链接检查时,因政府行业有其特殊 性,仅仅进行简单的机械性错词匹配告警,这样依然容易产品诸多误报的情况。 因此,如何对政府门户网站及新媒体信息进行实时高效的检测,减少误报率,是 本领域亟待解决的重要问题。
发明内容
本发明要解决的技术问题是:现有技术中采用简单的机械性错词匹配告警, 容易产品诸多误报的问题。
为解决上述技术问题,本发明提供了一种错敏信息检测方法,包括:
预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基础词库、严 重词库、自定义检测词库中的至少一种;
获取政府网站中的待检测网页内容;
基于所述错敏信息规则库对所述待检测网页内容进行检测,得到检测结果;
当所述检测结果为异常时进行报警提示。
可选地,所述预先建立错敏信息检测规则库包括:
将自然语言在使用过程中出现的常规性错误识别词库作为基础词库;
将包含个人隐私、涉密词汇、网络欺诈、游戏的词库作为严重词库;
将根据不同用户需求或不同行业要求构建的用户个性化词库,和/或,根据不 同用户需求或不同行业要求构建的可过滤掉的个性化词库作为自定义检测词库。
可选地,在所述检测结果为异常的情况下,还包括:
将所述检测结果中的错敏信息作为原始词汇,按照词语联想的方式得到多个 相关联的派生词汇;
基于所述多个派生词汇对所述错敏信息检测规则库进行更新,以便利用更新 后的错敏信息检测规则库对待检测网页内容进行检测。
可选地,所述将所述检测结果中的错敏信息作为原始词汇,按照词语联想的 方式得到多个相关联的派生词汇的步骤包括:
按照以下方式中的至少一种得到多个相关联的派生词汇:
提取与所述原始词汇语音相近的词汇;
提取与所述原始词汇偏旁相近的词汇;
提取与所述原始词汇语义相近的词汇。
可选地,所述基于所述错敏信息规则库对所述待检测网页内容进行检测的步 骤包括:
预先设定每天待检测网页内容与配置信息;
按照所设定的配置信息对每天待检测网页内容进行扫描,以实现自动检测。
可选地,还包括:
基于发布系统CMS的WebService接口获取待发布网页内容;
基于所述错敏信息规则库对所述待发布网页内容进行检测,得到检测结果;
当检测结果为正常时发布至Web服务器;
当检测结果为异常时进行报警,并返回所述发布系统CMS进行修改。
可选地,还包括:
在所述检测结果为异常且进行报警提示的情况下,将所述检测结果中的错敏 信息发送给人工处理。
为解决上述技术问题,本发明提供了一种错敏信息检测装置,包括:
规则库构建模块,用于预先建立错敏信息检测规则库,所述错敏信息检测规 则库包括基础词库、严重词库、自定义检测词库中的至少一种;
检测内容获取模块,用于获取政府网站中的待检测网页内容;
错敏信息检测模块,用于基于所述错敏信息规则库对所述待检测网页内容进 行检测,得到检测结果;
报警模块,用于在所述检测结果为异常时进行报警提示。
可选地,所述规则库构建模块具体用于:
将自然语言在使用过程中出现的常规性错误识别词库作为基础词库;
将包含个人隐私、涉密词汇、网络欺诈、游戏的词库作为严重词库;
将根据不同用户需求或不同行业要求构建的用户个性化词库,和/或,根据不 同用户需求或不同行业要求构建的可过滤掉的个性化词库作为自定义检测词库。
可选地,还包括:智能联想构词模块,用于在所述检测结果为异常的情况下, 将所述检测结果中的错敏信息作为原始词汇,按照词语联想的方式得到多个相关 联的派生词汇;
所述规则库构建模块,还用于基于所述多个派生词汇对所述错敏信息检测规 则库进行更新,以便利用更新后的错敏信息检测规则库对待检测网页内容进行检 测。
可选地,所述智能联想构词模块具体用于,按照以下方式中的至少一种得到 多个相关联的派生词汇:
提取与所述原始词汇语音相近的词汇;
提取与所述原始词汇偏旁相近的词汇;
提取与所述原始词汇语义相近的词汇。
可选地,所述错敏信息检测模块具体用于:
预先设定每天待检测网页内容与配置信息;
按照所设定的配置信息对每天待检测网页内容进行扫描,以实现自动检测。
可选地,所述检测内容获取模块,还用于基于发布系统CMS的WebService 接口获取待发布网页内容;
所述错敏信息检测模块,用于基于所述错敏信息规则库对所述待发布网页内 容进行检测,得到检测结果;
所述报警模块,还用于当检测结果为正常时发布至Web服务器;以及,当检 测结果为异常时进行报警,并返回所述发布系统CMS进行修改。
可选地,还包括:人工处理模块,用于在所述检测结果为异常且进行报警提 示的情况下,将所述检测结果中的错敏信息发送给人工处理。
为解决上述技术问题,本发明提供了一种计算机设备,包括存储器、处理器 及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算 机程序时实现上述方法。
为解决上述技术问题,本发明提供了一种计算机可读存储介质,其上存储有 计算机程序,所述程序被处理器执行时实现上述方法。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益 效果:
应用本发明的错敏信息检测方法、装置、计算机设备及存储介质,预先建立 错敏信息检测规则库,所述错敏信息检测规则库包括基础词库、严重词库、自定 义检测词库中的至少一种;获取政府网站中的待检测网页内容;基于所述错敏信 息规则库对所述待检测网页内容进行检测,得到检测结果;当所述检测结果为异 常时进行报警提示。
可以看出,与现有技术中仅依靠机械性匹配单一词库方式相比,本发明基于 错敏信息规则库这一多规则库进行检测,可以实现从不同角度的信息多次检查和 校对检测,同时也解决了政府各部门之间对内容检测的不同要求;基于“智能联 想构词”的思路实现对错敏信息规则库的丰富,可以通过自行学习来丰富词库中 的检测规则,为政府部门网站、政务新媒体的错敏信息检测提供一套强有力的实 用工具。此外,实际应用中的运行结果显示,采用本发明提供的方案对政府网站 及新媒体数据的检测效果大幅度得到提升,误报率也大大减少。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例 或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造 性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的错敏信息检测系统的一种架构图;
图2为本发明实施例提供的错敏信息检测方法的一种流程图;
图3为本发明实施例提供的错敏信息检测方法的另一种流程图;
图4为本发明实施例提供的错敏信息检测方法的又一种流程图;
图5本发明实施例提供的错敏信息检测装置的一种结构图;
图6本发明实施例提供的错敏信息检测装置的另一种结构图;
图7为本发明提供的一种计算机设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全 部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳 动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现如今,信息技术迅猛发展,以信息技术为代表的新一轮科技革命加速了政 府与社会其他各个领域、各个行业的融合,而且,信息化已经成为国家综合实力 和现代化的重要标志。随着政府门户网站、政务新媒体的发展,政府的信息和服 务渠道逐渐增多,在这些信息和服务渠道中会发生诸多问题,例如,网站上出现 错别字、敏感词、错误链接等错敏信息,这些问题通过各行业媒体信息报道逐步 发酵,往往会引发社会普遍关注,进而对政府形象造成严重影响。因此,对政府 门户网站、政务新媒体发布前的信息检查以及发布后的信息检测已成为各级政府 部门的常态化需求。
现有技术中,通常采用机械性匹配词库方式对文字其进行检查,并且,当信 息中包含错别字、敏感词、错误链接等错敏信息时,系统将根据具体片段进行提 示,最后经人工核对加以确认和修改。
虽然现有技术可以从一定程度上降低错敏信息的发生,但是,在对政府门户 网站、政务新媒体进行错别字、敏感词、错误链接检查时,因政府行业有其特殊 性,仅仅进行简单的机械性错词匹配告警,这样依然容易产品诸多误报的情况。 此外,市面上缺乏面向政务应用场景的敏感性词库和敏感信息检测的专业软件, 因此导致检测效果十分有限,后期只能借助人工对大量误报数据进行审核处理, 由此可见,无论从准确度方面还是处理效率方面,均不能满足政府部门的需要, 软件实用性和用户体验较差。此外,各级人民政府在不同部门之间对检测要求也 存在差异,单纯依赖单一词库也难以满足各个政府部门的个性化需要。因此,如 何对政府门户网站及新媒体信息进行实时高效的检测,减少误报率,是本领域亟 待解决的重要问题。
为解决上述技术问题,本发明提供了一种错敏信息检测方法、装置、计算机 设备及存储介质。下面对本发明提供的错敏信息检测方法进行说明。
实施例一
请参见图1和图2,其中,图1为本发明实施例提供的错敏信息检测系统的 一种架构图,图2为本发明实施例提供的错敏信息检测方法的一种流程图,该方 法可以包括以下步骤:
步骤S101:预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基 础词库、严重词库、自定义检测词库中的至少一种。
一种实现方式中,所述预先建立错敏信息检测规则库包括:
(1)将自然语言在使用过程中出现的常规性错误识别词库作为基础词库。
(2)将包含个人隐私、涉密词汇、网络欺诈、游戏等的词库作为严重词库。
(3)将根据不同用户需求或不同行业要求构建的用户个性化词库,和/或, 根据不同用户需求或不同行业要求构建的可过滤掉的个性化词库作为自定义检 测词库。需要说明的是,“可过滤掉的个性化词库”是指,对于部分已经通用或 者混用的词语,用户不认为是错误的,可在结果中对该词进行过滤,系统则对该 词不进行提示。
步骤S102:获取政府网站中的待检测网页内容。
步骤S103:基于所述错敏信息规则库对所述待检测网页内容进行检测,得到 检测结果。
一种情形下,在对待检测网页内容进行检测的过程中,可以先利用错敏信息 规则库中的基础词库进行检测,以判断是否存在普通错别字,若存在则进行普通 错别字报警,而在不存在普通错别字时进一步利用严重词库进行严重错别字检 测,需要说明的是,在对普通错别字进行修正后,可进一步利用严重词库进行严 重错别字检测,且在存在严重错别字时进行告警,进而对外部链接或错误链接进 行检测,并判断是否存在链接错误,若存在还需进行链接错误报警,最终得到检 测结果并保存检测结果数据,进而生成系统报表以供分析使用。需要说明的是, 此情形仅为本发明的一种示例,不作为对本发明的限定,也就是说,在对待检测 网页内容进行检测时可由本领域技术人员依据实际情况设置错敏信息检测规则 库中的各个词库,顺序可调换,可逐一进行检测减低处理运算量,也可同步进行 以提高检测速度。
一种实现方式中,所述基于所述错敏信息规则库对所述待检测网页内容进行 检测的步骤包括:预先设定每天待检测网页内容与配置信息;按照所设定的配置 信息对每天待检测网页内容进行扫描,以实现自动检测。
步骤S104:当所述检测结果为异常时进行报警提示。
一种优选方式中,在所述检测结果为异常且进行报警提示的情况下,将所述 检测结果中的错敏信息发送给人工处理。具体地,当进行错敏词扫描时,当检测 结果中发现错敏词则发送给人工如值班人员坐席进行人工确认,一旦发现问题, 还可立即通过手机短信、邮件等方式发送告警信息。需要说明的是,报警方式包 括但不限于手机短信、邮件的方式,本领域技术人员可依据实际进行进行设置。
另一种实现方式中,还可以对下属网站中的错敏信息情况进行考核。具体地, 可按照多种形式进行评分,主要包括以下几个评分指标:错敏词千分比、网站中 存在的错敏词数量(每个分站检测相同页面数)、错敏词修改情况、错敏词新增 情况,并提供日、周、月报等。当然,这仅为本发明提供的一种具体实现方式, 不构成对本发明的限定。
与现有技术中仅依靠机械性匹配单一词库方式相比,本发明基于错敏信息规 则库这一多规则库进行检测,可以实现从不同角度的信息多次检查和校对检测, 同时也解决了政府各部门之间对内容检测的不同要求。此外,实际应用中的运行 结果显示,采用本发明提供的方案对政府网站及新媒体数据的检测效果大幅度得 到提升,误报率也大大减少。
实施例二
如图3所示,为本发明实施例提供的错敏信息检测方法的另一种流程图,该 方法可以包括以下步骤:
步骤S201:预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基 础词库、严重词库、自定义检测词库中的至少一种。
步骤S202:获取政府网站中的待检测网页内容。
步骤S203:基于所述错敏信息规则库对所述待检测网页内容进行检测,得到 检测结果。
步骤S204:当所述检测结果为异常时进行报警提示。
步骤S205:在所述检测结果为异常的情况下,将所述检测结果中的错敏信息 作为原始词汇,按照词语联想的方式得到多个相关联的派生词汇。
具体地,参见图1,在多规则的错敏信息检测规则库的基础上,采用“智能 联想构词”的服务功能,实现对政务敏感词的持续构建。具体为系统内嵌三种敏 感词语联想方式,当一个敏感词被录入系统后,系统可以根据当前词汇进行联想 出不同的新词或短语,来自动丰富检测词库。
一种实现方式中,所述将所述检测结果中的错敏信息作为原始词汇,按照词 语联想的方式得到多个相关联的派生词汇的步骤包括:按照以下方式中的至少一 种得到多个相关联的派生词汇:
提取与所述原始词汇语音相近的词汇;
提取与所述原始词汇偏旁相近的词汇;
提取与所述原始词汇语义相近的词汇。
步骤S206:基于所述多个派生词汇对所述错敏信息检测规则库进行更新,以 便利用更新后的错敏信息检测规则库对待检测网页内容进行检测。
需要说明的是,图3所示方法实施例具备图2所示方法实施例的全部有益效 果,除此之外,基于“智能联想构词”的思路实现对错敏信息规则库的丰富,进 一步提高了错敏信息的检测效果,进一步降低了误检率。
实施例三
如图4所示,为本发明实施例提供的错敏信息检测方法的又一种流程图,该 方法可以包括以下步骤:
步骤S301:预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基 础词库、严重词库、自定义检测词库中的至少一种。
步骤S302:获取政府网站中的待检测网页内容。
步骤S303:基于所述错敏信息规则库对所述待检测网页内容进行检测,得到 检测结果。
步骤S304:当所述检测结果为异常时进行报警提示。
步骤S305:基于发布系统CMS的WebService接口获取待发布网页内容。
步骤S306:基于所述错敏信息规则库对所述待发布网页内容进行检测,得到 检测结果。
一种情形下,可以在网页内容发布前进行普通错别字检测,在不存在普通错 别字时进一步进行严重错别字检测,进而得到检测结果数据并保存。需要说明的 是,此情形仅为本发明的一种示例,不作为对本发明的限定,也就是说,在对待 发布网页内容进行检测时可由本领域技术人员依据实际情况设置错敏信息检测 规则库中的各个词库,顺序可调换,可逐一进行检测减低处理运算量,也可同步 进行以提高检测速度。
步骤S307:当检测结果为正常时发布至Web服务器。
步骤S308:当检测结果为异常时进行报警,并返回所述发布系统CMS进行 修改。
具体地,参见图1,对于信息发布前的检测(接口方式),系统提供与CMS 发布系统结合的WebService接口,国内常见的CMS系统均可与接口实现良好的 对接。网站编辑人员可在CMS系统信息编辑完成后,先提交给错别字服务器审 核,如检测到错误,则返回修改;如无错误,则发布至web服务器。
需要说明的是,图4所示方法实施例具备图2所示方法实施例的全部有益效 果,除此之外,本接口程序与内容发布系统对接,实现文字发布前纠错,节省了 软件部署的投入,费用低。在使用上,与自建平台并无差异。本接口程序也可以 与OA系统对接,适用于公文在OA系统中流转或者编辑。公务员在编辑文件完 成后,先提交给错别字服务器审核,如检测到错误,则返回修改,提供修改建议。 通过对发布系统CMS编辑的待发布网页进行检测,且在检测结果为正常时才发 布至Web服务器,可以大大提高网页发布内容的准确性,从源头降低错敏信息。
下面对本发明提供的错敏信息检测装置进行说明。
实施例四
如图5所示,为本发明实施例提供的错敏信息检测装置的一种结构图,该装 置可以包括:
规则库构建模块410,用于预先建立错敏信息检测规则库,所述错敏信息检 测规则库包括基础词库、严重词库、自定义检测词库中的至少一种;
检测内容获取模块420,用于获取政府网站中的待检测网页内容;
错敏信息检测模块430,用于基于所述错敏信息规则库对所述待检测网页内 容进行检测,得到检测结果;
报警模块440,用于在所述检测结果为异常时进行报警提示。
一种情形下,所述规则库构建模块410具体用于:将自然语言在使用过程中 出现的常规性错误识别词库作为基础词库;将包含个人隐私、涉密词汇、网络欺 诈、游戏等的词库作为严重词库;将根据不同用户需求或不同行业要求构建的用 户个性化词库,和/或,根据不同用户需求或不同行业要求构建的可过滤掉的个性 化词库作为自定义检测词库。
一种实现方式中,如图6所示,还包括智能联想构词模块450,用于在所述 检测结果为异常的情况下,将所述检测结果中的错敏信息作为原始词汇,按照词 语联想的方式得到多个相关联的派生词汇;
所述规则库构建模块410,还用于基于所述多个派生词汇对所述错敏信息检 测规则库进行更新,以便利用更新后的错敏信息检测规则库对待检测网页内容进 行检测。
一种情形下,所述智能联想构词模块450具体用于,按照以下方式中的至少 一种得到多个相关联的派生词汇:
提取与所述原始词汇语音相近的词汇;
提取与所述原始词汇偏旁相近的词汇;
提取与所述原始词汇语义相近的词汇。
一种情形下,所述错敏信息检测模块430具体用于:预先设定每天待检测网 页内容与配置信息;按照所设定的配置信息对每天待检测网页内容进行扫描,以 实现自动检测。
一种实现方式中,所述检测内容获取模块420,还用于基于发布系统CMS的WebService接口获取待发布网页内容;所述错敏信息检测模块430,用于基于所 述错敏信息规则库对所述待发布网页内容进行检测,得到检测结果;所述报警模 块440,还用于当检测结果为正常时发布至Web服务器;以及,当检测结果为异 常时进行报警,并返回所述发布系统CMS进行修改。
另一种实现方式中,还包括人工处理模块,用于在所述检测结果为异常且进 行报警提示的情况下,将所述检测结果中的错敏信息发送给人工处理。
与现有技术中仅依靠机械性匹配单一词库方式相比,本发明基于错敏信息规 则库这一多规则库进行检测,可以实现从不同角度的信息多次检查和校对检测, 同时也解决了政府各部门之间对内容检测的不同要求;基于“智能联想构词”的 思路实现对错敏信息规则库的丰富。此外,实际应用中的运行结果显示,采用本 发明提供的方案对政府网站及新媒体数据的检测效果大幅度得到提升,误报率也 大大减少。
实施例五
为解决上述技术问题,本发明提供了一种计算机设备,如图7所示,包括存 储器510、处理器520及存储在存储器上并可在处理器上运行的计算机程序,所 述处理器执行所述计算机程序时实现如上所述的方法。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计 算设备。所述计算机设备可包括,但不仅限于处理器520、存储器510。本领域 技术人员可以理解,图7仅仅是计算机设备的示例,并不构成对计算机设备的限 定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件, 例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器520可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成 电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者 晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也 可以是任何常规的处理器等。
所述存储器510可以是所述计算机设备的内部存储单元,例如计算机设备的 硬盘或内存。所述存储器510也可以是计算机设备的外部存储设备,例如所述计 算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数 字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器510 还可以既包括所述计算机设备的内部存储单元也包括外部存储设备。所述存储器 510用于存储所述计算机程序以及所述计算机设备所需的其它程序和数据。所述 存储器510还可以用于暂时地存储已经输出或者将要输出的数据。
实施例六
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可 以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存 在、未装配入计算机设备中的计算机可读存储介质。所述计算机可读存储介质存 储有一个或者一个以上计算机程序,所述程序被处理器执行时实现上述所述的方 法。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销 售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申 请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关 的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机 程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机 程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形 式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所 述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、 计算机存储器510、只读存储器(ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。 需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专 利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践, 计算机可读介质不包括电载波信号和电信信号。
对于系统或装置实施例而言,由于其基本相似于方法实施例,所以描述得比 较简单,相关之处参见方法实施例的部分说明即可。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述 各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功 能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功 能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、 模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个 或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实 现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称 也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、 模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一 个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体 或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或 者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、 方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制 的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过 程、方法、物品或者设备中还存在另外的相同要素。
应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目 的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那 样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该” 意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指 相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组 合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上 下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短 语“如果确定”或“如果检测到所描述条件或事件”可以依据上下文被解释为意指 “一旦确定”或“响应于确定”或“一旦检测到所描述条件或事件”或“响应于检测到 所描述条件或事件”。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。 凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本 发明的保护范围内。

Claims (10)

1.一种错敏信息检测方法,其特征在于,包括:
预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基础词库、严重词库、自定义检测词库中的至少一种;
获取政府网站中的待检测网页内容;
基于所述错敏信息规则库对所述待检测网页内容进行检测,得到检测结果;
当所述检测结果为异常时进行报警提示。
2.根据权利要求1所述的错敏信息检测方法,其特征在于,所述预先建立错敏信息检测规则库包括:
将自然语言在使用过程中出现的常规性错误识别词库作为基础词库;
将包含个人隐私、涉密词汇、网络欺诈、游戏的词库作为严重词库;
将根据不同用户需求或不同行业要求构建的用户个性化词库,和/或,根据不同用户需求或不同行业要求构建的可过滤掉的个性化词库作为自定义检测词库。
3.根据权利要求2所述的错敏信息检测方法,其特征在于,在所述检测结果为异常的情况下,还包括:
将所述检测结果中的错敏信息作为原始词汇,按照词语联想的方式得到多个相关联的派生词汇;
基于所述多个派生词汇对所述错敏信息检测规则库进行更新,以便利用更新后的错敏信息检测规则库对待检测网页内容进行检测。
4.根据权利要求3所述的错敏信息检测方法,其特征在于,所述将所述检测结果中的错敏信息作为原始词汇,按照词语联想的方式得到多个相关联的派生词汇的步骤包括:
按照以下方式中的至少一种得到多个相关联的派生词汇:
提取与所述原始词汇语音相近的词汇;
提取与所述原始词汇偏旁相近的词汇;
提取与所述原始词汇语义相近的词汇。
5.根据权利要求1所述的错敏信息检测方法,其特征在于,所述基于所述错敏信息规则库对所述待检测网页内容进行检测的步骤包括:
预先设定每天待检测网页内容与配置信息;
按照所设定的配置信息对每天待检测网页内容进行扫描,以实现自动检测。
6.根据权利要求1所述的错敏信息检测方法,其特征在于,还包括:
基于发布系统CMS的WebService接口获取待发布网页内容;
基于所述错敏信息规则库对所述待发布网页内容进行检测,得到检测结果;
当检测结果为正常时发布至Web服务器;
当检测结果为异常时进行报警,并返回所述发布系统CMS进行修改。
7.根据权利要求1所述的错敏信息检测方法,其特征在于,还包括:
在所述检测结果为异常且进行报警提示的情况下,将所述检测结果中的错敏信息发送给人工处理。
8.一种错敏信息检测装置,其特征在于,包括:
规则库构建模块,用于预先建立错敏信息检测规则库,所述错敏信息检测规则库包括基础词库、严重词库、自定义检测词库中的至少一种;
检测内容获取模块,用于获取政府网站中的待检测网页内容;
错敏信息检测模块,用于基于所述错敏信息规则库对所述待检测网页内容进行检测,得到检测结果;
报警模块,用于在所述检测结果为异常时进行报警提示。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202210899159.6A 2022-07-28 2022-07-28 错敏信息检测方法、装置、计算机设备及存储介质 Pending CN115186657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210899159.6A CN115186657A (zh) 2022-07-28 2022-07-28 错敏信息检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210899159.6A CN115186657A (zh) 2022-07-28 2022-07-28 错敏信息检测方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115186657A true CN115186657A (zh) 2022-10-14

Family

ID=83521835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210899159.6A Pending CN115186657A (zh) 2022-07-28 2022-07-28 错敏信息检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115186657A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408490A (zh) * 2022-11-01 2022-11-29 广东省信息工程有限公司 一种基于知识库的官文校对方法、系统、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294396A (zh) * 2015-05-20 2017-01-04 北京大学 关键词扩展方法和关键词扩展系统
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备
CN108920710A (zh) * 2018-07-20 2018-11-30 北京开普云信息科技有限公司 一种对互联网信息进行涉密涉敏信息监测方法及系统
CN110750981A (zh) * 2019-10-16 2020-02-04 杭州安恒信息技术股份有限公司 一种基于机器学习的高准确度网站敏感词检测方法
CN110852091A (zh) * 2019-11-11 2020-02-28 杭州安恒信息技术股份有限公司 错别字的监测方法、装置、电子设备和计算机可读介质
CN111859089A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种用于互联网信息的错词检测控制方法
CN112131507A (zh) * 2020-09-25 2020-12-25 成都知道创宇信息技术有限公司 网站内容处理方法、装置、服务器和计算机可读存储介质
CN112287385A (zh) * 2020-10-09 2021-01-29 杭州电魂网络科技股份有限公司 敏感词过滤方法、装置、计算机设备和可读存储介质
CN113672587A (zh) * 2021-07-15 2021-11-19 福建拓尔通软件有限公司 一种新媒体更新监测方法、系统、设备及介质
CN114329112A (zh) * 2021-12-24 2022-04-12 新奥新智科技有限公司 内容审核方法、装置、电子设备及存储介质
CN114706940A (zh) * 2022-01-19 2022-07-05 浙报融媒体科技(浙江)股份有限公司 基于敏感词的新闻类文件审核方法和系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294396A (zh) * 2015-05-20 2017-01-04 北京大学 关键词扩展方法和关键词扩展系统
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备
CN108920710A (zh) * 2018-07-20 2018-11-30 北京开普云信息科技有限公司 一种对互联网信息进行涉密涉敏信息监测方法及系统
CN111859089A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种用于互联网信息的错词检测控制方法
CN110750981A (zh) * 2019-10-16 2020-02-04 杭州安恒信息技术股份有限公司 一种基于机器学习的高准确度网站敏感词检测方法
CN110852091A (zh) * 2019-11-11 2020-02-28 杭州安恒信息技术股份有限公司 错别字的监测方法、装置、电子设备和计算机可读介质
CN112131507A (zh) * 2020-09-25 2020-12-25 成都知道创宇信息技术有限公司 网站内容处理方法、装置、服务器和计算机可读存储介质
CN112287385A (zh) * 2020-10-09 2021-01-29 杭州电魂网络科技股份有限公司 敏感词过滤方法、装置、计算机设备和可读存储介质
CN113672587A (zh) * 2021-07-15 2021-11-19 福建拓尔通软件有限公司 一种新媒体更新监测方法、系统、设备及介质
CN114329112A (zh) * 2021-12-24 2022-04-12 新奥新智科技有限公司 内容审核方法、装置、电子设备及存储介质
CN114706940A (zh) * 2022-01-19 2022-07-05 浙报融媒体科技(浙江)股份有限公司 基于敏感词的新闻类文件审核方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408490A (zh) * 2022-11-01 2022-11-29 广东省信息工程有限公司 一种基于知识库的官文校对方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110275965B (zh) 假新闻检测方法、电子装置及计算机可读存储介质
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN111783449B (zh) 一种裁判文书中判决结果的要素提取方法及装置
CN110866116A (zh) 政策文档的处理方法、装置、存储介质及电子设备
CN110348003B (zh) 文本有效信息的抽取方法及装置
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
TW202123026A (zh) 資料歸檔方法、裝置、電腦裝置及存儲介質
CN112951233A (zh) 语音问答方法、装置、电子设备及可读存储介质
CN115186657A (zh) 错敏信息检测方法、装置、计算机设备及存储介质
CN115840808A (zh) 科技项目咨询方法、装置、服务器及计算机可读存储介质
CN111611391B (zh) 一种对对话进行归类别的方法、装置、设备和存储介质
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN109472518B (zh) 基于区块链的销售行为评价方法及装置、介质和电子设备
CN110955796A (zh) 一种基于笔录信息的案件特征信息提取方法及装置
CN114925125A (zh) 数据处理方法、装置和系统、电子设备及存储介质
CN113947510A (zh) 一种基于文件格式自适应的不动产电子证照管理系统
CN113449506A (zh) 一种数据检测方法、装置、设备及可读存储介质
JPH1196178A (ja) 情報抽出方法、情報抽出装置及び情報抽出プログラムを記録した記録媒体
CN113111153A (zh) 一种数据分析方法、装置、设备及存储介质
CN111143559A (zh) 基于三元组的词云展示方法及装置
CN114492413B (zh) 文本校对方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221014

RJ01 Rejection of invention patent application after publication