CN109033150B - 敏感词验证方法、装置、计算机设备及存储介质 - Google Patents

敏感词验证方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109033150B
CN109033150B CN201810601283.3A CN201810601283A CN109033150B CN 109033150 B CN109033150 B CN 109033150B CN 201810601283 A CN201810601283 A CN 201810601283A CN 109033150 B CN109033150 B CN 109033150B
Authority
CN
China
Prior art keywords
sensitive word
scene
data
verification
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810601283.3A
Other languages
English (en)
Other versions
CN109033150A (zh
Inventor
潘庚生
罗斌
魏尧东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810601283.3A priority Critical patent/CN109033150B/zh
Priority to PCT/CN2018/106239 priority patent/WO2019237546A1/zh
Publication of CN109033150A publication Critical patent/CN109033150A/zh
Application granted granted Critical
Publication of CN109033150B publication Critical patent/CN109033150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying

Abstract

本发明公开一种敏感词验证方法、装置、计算机设备及存储介质。该敏感词验证方法包括:获取敏感词验证请求,所述敏感词验证请求包括财务数据;对所述财务数据进行特征提取,获取特征项数据,所述特征项数据包括场景特征数据和事由特征数据;根据所述场景特征数据查询敏感词库,获取与所述场景特征数据对应的至少一个目标敏感词;根据事由特征数据和至少一个所述目标敏感词,计算目标匹配度;若目标匹配度大于预设阈值,则所述财务数据敏感词验证不通过,生成敏感词验证结果。该敏感词验证方法可实现快速对财务数据中的敏感词进行验证,提高敏感词验证效率。

Description

敏感词验证方法、装置、计算机设备及存储介质
技术领域
本发明涉及敏感词检测技术领域,尤其涉及一种敏感词验证方法、装置、计算机设备及存储介质。
背景技术
敏感词是相对某一特定领域而言,可能违反该特定领域对应的相关法律规定或者违背公序良俗的约定的词语。对于网站发表数据而言,敏感词可能指带有敏感政治倾向、暴力倾向、不健康色彩或不文明用语。对于财务数据而言,敏感词是可能违反税法或者其他与财务相关的法律规定的词语,例如礼金、赠品、补贴和奖品等可能与偷税漏税相关的词语为敏感词。当前财务系统中,对财务数据进行敏感词检验的主要方式是采用人工检验财务数据中的敏感词,其过程耗时长,且容易出错或者出现遗漏,验证过程效率较低。
发明内容
本发明实施例提供一种敏感词验证方法、装置、计算机设备及存储介质,以解决当前人工验证财务数据中的敏感词效率低的问题。
一种敏感词验证方法,包括:
获取敏感词验证请求,所述敏感词验证请求包括财务数据;
对所述财务数据进行特征提取,获取特征项数据,所述特征项数据包括场景特征数据和事由特征数据;
根据所述场景特征数据查询敏感词库,获取与所述场景特征数据对应的至少一个目标敏感词;
根据所述事由特征数据和至少一个所述目标敏感词,计算目标匹配度;
若目标匹配度大于预设阈值,则所述敏感词验证请求中的财务数据敏感词验证不通过,生成敏感词验证结果。
一种敏感词验证装置,包括:
验证请求获取模块,用于获取敏感词验证请求,所述敏感词验证请求包括财务数据;
特征项数据获取模块,用于对所述财务数据进行特征提取,获取特征项数据,所述特征项数据包括场景特征数据和事由特征数据;
目标敏感词获取模块,用于根据所述场景特征数据查询敏感词库,获取与所述场景特征数据对应的至少一个目标敏感词;
目标匹配度获取模块,用于根据所述事由特征数据和至少一个所述目标敏感词,计算目标匹配度;
验证结果获取模块,用于若目标匹配度大于预设阈值,则所述敏感词验证请求中的财务数据敏感词验证不通过,生成敏感词验证结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述敏感词验证方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述敏感词验证方法的步骤。
上述敏感词验证方法、装置、计算机设备及存储介质,通过对财务数据进行特征提取,以获取与敏感词验证相关联的场景特征数据和事由特征数据,可方便后续进行敏感词验证,提高验证效率。再根据场景特征数据查询敏感词库,以获取与场景特征数据相对应的目标敏感词,查询过程简单方便且针对性强。基于事由特征数据与目标敏感词确定目标匹配度,在目标匹配度大于预设阈值时,认定敏感词验证不通过,可保证敏感词验证的效率和准确性
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中敏感词验证方法的一应用环境示意图;
图2是本发明一实施例中敏感词验证方法的一流程图;
图3是本发明一实施例中敏感词验证方法的另一流程图;
图4是本发明一实施例中敏感词验证方法的另一流程图;
图5是本发明一实施例中敏感词验证方法的另一流程图;
图6是本发明一实施例中敏感词验证方法的一流程图;
图7是本发明一实施例中敏感词验证方法的一流程图;
图8是本发明一实施例中敏感词验证方法的一流程图;
图9是本发明一实施例中敏感词验证方法的一流程图;
图10是本发明一实施例中敏感词验证装置的一示意图;
图11是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的敏感词验证方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务器进行通信,用于对客户端上传给服务器的财务数据进行敏感词验证。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种敏感词验证方法,以该方法应用在图1中的服务器为例进行说明,该服务器具体为财务系统的服务器。该敏感词验证方法包括如下步骤:
S10:获取敏感词验证请求,敏感词验证请求包括财务数据。
其中,财务数据是指与财务相关的数据,可以为财务收入或财务支出等数据,于本实施例中,财务数据是指需要导入财务系统并进行敏感词验证的数据。敏感词验证请求是用于触发对财务数据进行敏感词验证的请求。
具体地,用户可通过财务系统的客户端录入或导入财务数据,基于该财务数据触发敏感词验证请求,并将该敏感词验证请求发送给财务系统的服务器,以使服务器获取该敏感词验证请求,从而对该敏感词验证请求所对应的财务数据进行敏感词验证,以验证财务数据中是否包含敏感词。例如,在财务系统的客户端的数据导入界面上,用户录入或导入财务数据后,可点击数据导入界面上的“敏感词验证”按钮,可触发与该财务数据对应的敏感词验证请求,以使服务器获得对应的敏感词验证请求。
S20:对财务数据进行特征提取,获取特征项数据,特征项数据包括场景特征数据和事由特征数据。
其中,特征项数据是指由财务数据提取到的可体现财务收入或财务支出的具体特征项的数据。特征项数据包括场景特征数据和事由特征数据。场景特征数据是该财务数据具体应用场景的数据,例如,XX账套YY公司ZZ科目等应用场景。事由特征数据是该财务数据具体收入或支出的数据,例如,购买办公用品等。
在财务系统中,事由特征数据是需要进行敏感词验证的数据,因此,需要从财务数据中提取出来。由于同一词语在不同的应用场景中,可能为敏感词,也可能不为敏感词,因此,在对财务数据进行特征提取时,还需要提取与事由特征数据相对应的场景特征数据,以验证特定的场景特征数据对应的事由特征数据是否为敏感词。在财务数据中,除了场景特征数据和事由特征数据这些特征项数据之外,还包括时间、金额和经办人员等与敏感词验证无关的数据,因此,服务器需对财务数据进行特征提取,以获取与敏感词验证相关的特征项数据,使得后续进行敏感词验证时,只验证特征项数据,以提高验证效率。
S30:根据场景特征数据查询敏感词库,获取与场景特征数据对应的至少一个目标敏感词。
敏感词库是预先创建的用于存储敏感词记录的数据库。在敏感词库中存储至少一个原始敏感词记录,原始敏感词记录是敏感词库中预先存储的敏感词记录,每一原始敏感词记录对应存储有敏感词和对应的场景特征项。
本实施例中,服务器根据财务数据提取出的场景特征数据查询敏感词库,从敏感词库中获取与场景特征数据相匹配的场景特征项对应的原始敏感词记录,并将该原始敏感词记录对应的敏感词作为目标敏感词。由于同一应用场景对应的敏感词可能有一个,也有可以有多个,因此,获取到的与场景特征项数据对应的目标敏感词包括至少一个。
S40:根据事由特征数据和至少一个目标敏感词,计算目标匹配度。
目标匹配度是事由特征数据与至少一个目标敏感词进行相似度计算确定的最大相似度。本实施例中,服务器可先计算事由特征数据与每一目标敏感词之间的目标相似度,再从目标相似度中选取最大值作为目标匹配度,由此确定的目标匹配度最能体现事由特征数据与敏感词库中的目标敏感词的相似程度,以便基于该目标匹配度进行敏感词验证时,提高敏感词验证的准确性。
S50:若目标匹配度大于预设阈值,则敏感词验证请求中的财务数据敏感词验证不通过,生成敏感词验证结果。
其中,预设阈值是预先设置的用于评价敏感词验证是否通过的阈值。本实施例中,若目标匹配度大于预设阈值,则该敏感词验证请求中的财务数据敏感词验证不通过,即该财务数据中存在违反税法或者其他与财务相关的法律规定的词语,生成敏感词验证结果,并将该敏感词验证结果发送给客户端,以使用户通过财务系统的客户端查看该敏感词验证结果。相应地,若目标匹配度不大于预设阈值,则该敏感词验证请求中的财务数据敏感词验证通过,即财务数据中不存在违反税法或者其他与财务相关的法律规定的词语。
本实施例所提供的敏感词验证方法中,通过对财务数据进行特征提取,以获取与敏感词验证相关联的场景特征数据和事由特征数据,可方便后续进行敏感词验证,提高验证效率。再根据场景特征数据查询敏感词库,以获取与场景特征数据相对应的目标敏感词,查询过程简单方便且针对性强。基于事由特征数据与目标敏感词确定目标匹配度,在目标匹配度大于预设阈值时,认定敏感词验证不通过,可保证敏感词验证的效率和准确性。
在一实施例中,由于敏感词验证时,需利用财务数据提取到的特征项数据查询敏感词库,因此,需要预先创建与财务数据相关的敏感词库,以便后续进行敏感词验证时调用。
如图3所示,在获取敏感词验证请求的步骤之前,敏感词验证方法还包括如下步骤:
S61:获取敏感词新增请求,敏感词新增请求包括新增敏感词记录。
其中,敏感词新增请求是用于触发财务系统增加敏感词记录的请求。新增敏感词记录是本次敏感词新增请求所要增加的敏感词记录。敏感词记录包括敏感词和该敏感词对应的应用场景。本实施例中,敏感词对应的应用场景具体是指财务系统中限定敏感词的场景特征项。具体地,用户可通过财务系统的客户端录入或导入新增敏感词记录,基于该新增敏感词记录触发敏感词新增请求,并将该敏感词新增请求发送给服务器,以使服务器获取该敏感词新增请求。
例如,在财务系统的客户端中的敏感词新增界面上,用户可录入或导入如表一所示的新增敏感词记录,并点击“确认增加”按钮,以触发敏感词新增请求,以使服务器接收到敏感词新增请求。表一所示的敏感词记录中,每一敏感词记录包含系列、账套、公司段、科目、子目、敏感词和状态等字段,其中,系列、账套、公司段、科目及子目为一新增敏感词记录的场景维度,即场景特征字段,相应地,与场景特征字段对应的值为场景特征项;敏感词字段对应的值为新增敏感词记录中具体的敏感词;状态字段对应的值包括启用和禁用。其中,启用是指该敏感词记录中的敏感词当前处于启用状态,若财务数据中包含该敏感词则验证不通过;相应地,禁用是指该敏感词记录中的敏感词当前处于禁用状态,即财务数据中包含该敏感词但不会认为验证不通过。可以理解地,每一敏感词记录中的状态可根据实际需求自主调整,一般来说,在新增敏感词记录中默认其状态为启用状态,可在后续根据实际环境变化调整其为禁用状态。
表一敏感词记录
序号 系列 账套 公司段 科目 子目 敏感词 状态
1 普惠 CX 奖励 启用
2 普惠 CX 10000 现金 启用
3 普惠 CX 0123456789 销售推动 启用
4 普惠 CX 3 探亲 禁用
S62:对新增敏感词记录进行合规校验,若新增敏感词记录合规校验通过,则将新增敏感词记录存储在敏感词库中。
其中,合规校验是指用于校验新增敏感词记录是否符合财务系统预先设置的规则的过程。本实施例中,财务系统预先设置的规则包括但不限于必要特征项校验规则、特征项格式校验规则和去重校验规则。其中,必要特征项校验规则是用于校验新增敏感词记录是否包括所有必要特征项的规则。特征项格式校验规则是用于校验新增敏感词记录中所有场景特征项是否符合特征项格式要求的规则。去重校验规则是用于校验新增敏感词记录在敏感词库中是否存在完全一致的原始敏感词记录的规则。原始敏感词记录是敏感词库中预先存储的敏感词记录。
对于任一条新增敏感词记录而言,只有新增敏感词记录合规校验通过,才会将该新增敏感词记录存储在敏感词库中,以便后续调用该敏感词库进行敏感词验证。可以理解地,若新增敏感词记录合规校验不通过,则服务器控制客户端显示相应的提醒信息,以提醒用户本次录入或导入的新增敏感词记录合规校验不通过。进一步地,在提醒信息中还可显示具体不符合哪一个预先设置的规则以及相应的修改措施,以方便用户进行修改。
S63:获取规则配置请求,依据规则配置请求给敏感词库中的每一新增敏感词记录配置场景校验规则。
规则配置请求是用于触发财务系统对每一新增敏感词记录配置场景校验规则的请求。其中,场景校验规则是指用于限定新增敏感词记录中的场景特征项的校验顺序的规则。本实施例中,每一新增敏感词记录共存有五层场景维度,通过场景校验规则的设置,可设置其层级从高到低:系列>账套>公司段>科目>子目,以便后续采用决策树算法对五层场景维度进行匹配处理,以加快后续的匹配效率。本实施例中,在敏感词新增界面上,默认显示该新增敏感词记录为系列>账套>公司段>科目>子目这一场景校验规则;若不需要修改,用户可点击敏感词新增界面上的“确认”按钮,即可输入规则配置请求,以完成快捷设置;若需要修改,用户可点击敏感词新增界面上的“修改”按钮,进入修改界面,并在修改界面上完成场景校验规则的设置,并点击“确认”按钮,以输入修改后的规则配置请求,以完成场景校验规则的配置过程。
本实施例中,只将合规校验通过的新增敏感词记录存储在敏感词库中,作为后续进行敏感词验证阶段使用的原始敏感词记录,有利于确保敏感词库中的敏感词记录的质量;并给每一新增敏感词记录配置相应的场景校验规则,有助于后续利用该场景校验规则进行敏感词验证,以提高敏感词验证效率。
在一实施例中,如图4所示,步骤S61中的获取敏感词新增请求,具体包括如下步骤:
S611:接收客户端发送的记录创建请求,记录创建请求包括创建方式标识。
其中,记录创建请求是指用于触发财务系统接收录入或导入敏感词记录的请求。创建方式标识是用于唯一识别创建方式的标识,本实施例中,创建方式包括单一录入方式和批量导入方式。在财务系统的客户端显示界面上可点击“单一录入”或“批量导入”按钮,即可触发记录创建请求并将该记录创建请求发送给服务器,以使服务器可接收到客户端发送的记录创建请求。
S612:根据创建方式标识,获取与创建方式标识对应的敏感词新增界面,控制客户端进入敏感词新增界面。
服务器在接收记录创建请求后,根据记录创建请求中携带的创建方式标识,确定用户输入新增敏感词记录的方式,从而获取与创建方式标识对应的敏感词新增界面,控制客户端进入与创建方式标识相对应的敏感词新增界面。例如,记录创建请求中携带单一录入方式对应的创建方式标识时,可在客户端上显示一敏感词新增界面,该敏感词新增界面上显示有系列、账套、公司段、科目、子目、敏感词和状态等字段,以及与上述字段相对应的输入栏,以供用户录入。又例如,记录创建请求中携带批量导入方式对应的创建方式标识时,可在客户端上显示一敏感词新增界面,该敏感词新增界面上可引导用户批量导入新增敏感词记录,如将上表一所示的内容保存成excel格式文档,在敏感词新增界面上可导入该excel格式文档。
S613:获取客户端发送的敏感词新增请求,敏感词新增请求是客户端在敏感词新增界面上接收输入的新增敏感词记录后触发生成的。
用户在依据客户端显示的敏感词新增界面上的录入指引或导入指引完成新增敏感词记录的输入后,可点击该敏感词新增界面上的“确认”按钮以触发敏感词新增请求,并将该敏感词新增请求发送给服务器,以使服务器可获取客户端发送的敏感词新增请求。
本实施例中,用户可在财务系统的客户端根据所需录入或导入的新增敏感词记录选择不同方式触发相应的敏感词新增请求,以使服务器可接收客户端发送的敏感词新增请求,以获取数量不同的新增敏感词记录,操作过程简单方便。
在一实施例中,新增敏感词记录包括与至少一个场景维度对应的场景特征项和敏感词。如上表一所示,新增敏感词记录中的系列、账套、公司段、科目及子目等字段为场景维度,相应地,系列、账套、公司段、科目及子目等字段对应的值为场景特征项。敏感词是指每一条新增敏感词记录中敏感词字段对应的值。
本实施例中,如图5所示,步骤S62中的对新增敏感词记录进行合规校验,具体包括如下步骤:
S621:判断新增敏感词记录中的场景特征项是否包含敏感词记录对应的所有必要特征项。
其中,必要特征项是指新增敏感词记录所必须包含的特征项。每一新增敏感词记录均包含敏感词和至少一个场景特征项。本实施例中,服务器利用预先设置的必要特征项校验规则对新增敏感词记录进行合规校验,即判断新增敏感词记录中的场景特征项是否包含敏感词记录对应的所有必要特征项,若该场景特征项包含敏感词记录对应的所有必要特征项,则必要特征项校验规则校验通过,反之,校验不通过,可通过弹窗提示校验不通过原因。
例如,财务系统可预先设置必要特征校验规则中必须包含系列、账套和公司段这三个场景维度对应的场景特征项,若新增敏感词记录中包含这三个场景特征项(如序号为2的新增敏感词记录),则该新增敏感词记录包含所有必要特征项;若新增敏感词记录中没有包含这三个场景特征项(如序号为1的新增敏感词记录),则该新增敏感词记录没有包含所有必要特征项。
S622:若场景特征项包含敏感词记录对应的所有必要特征项,则判断每一场景特征项是否符合特征项格式要求。
其中,特征项格式要求包括每一特征项对应的填写格式要求和组合格式要求。每一场景特征项对应一填写格式要求,两个或两个以上场景特征项对应组合格式要求。本实施例中,服务器在必要特征项校验规则校验通过后,利用预先设置的特征项格式校验规则对新增敏感词记录进行合规校验,即判断每一场景特征项是否符合对应的特征项格式要求,若该场景特征项符合对应的特征项格式要求,则特征项格式校验规则校验通过,反之,校验不通过,可通过弹窗提示校验不通过原因。
如表一所示的新增敏感词记录中,若场景特征项填写格式不规范,不符合其对应的填写格式要求,则提交无效,提示其失败原因为“新增敏感词记录中字段填写格式不规范”。如表一所示的新增敏感词记录中,若系列、账套和公司段不符合基表中的对应关系,不符合其对应的组合格式要求,则提交无效,提示其失败原因为“系列、账套、公司段组合不存在”。其中,基表是用于存储不同场景维度对应的场景特征项之间的组合关系的数据表。
S623:若每一场景特征项均符合特征项格式要求,则判断敏感词库中是否存在与新增敏感词记录完全一致的原始敏感词记录。
本实施例中,服务器在特征项格式校验规则校验通过后,利用预先设置的去重校验规则对新增敏感词记录进行合规校验,即判断敏感词库中是否存储与新增敏感词记录完全一致的原始敏感词记录,若存在完全一致的原始敏感词记录,则去重校验规则校验通过,反之,校验不通过,可通过弹窗提示校验不通过原因。其中,原始敏感词记录是敏感词库中预先存储的敏感词记录。完全一致是指敏感词记录中系列、账套、公司段、科目、子目和敏感词等字段对应的值完全一致。
S624:若敏感词库中不存在与新增敏感词记录完全一致的原始敏感词记录,则新增敏感词记录合规校验通过。
本实施例中,服务器利用去重校验规则对新增敏感词记录进行合规校验时,若敏感词库中不存在与新增敏感词记录完全一致的原始敏感词记录,则新增敏感词记录合规校验通过,反之,校验不通过。具体地,若服务器校验新增敏感词记录是否与敏感词库中已有的原始敏感词记录的系列、账套、公司段、科目、子目和敏感词这六个字段完全一致;如六个字段完全一致,则提交无效,弹窗提示话术:“系统中存在该条记录,本次提交无效,请修改后提交”,点击【确认】后,弹窗关闭,回到新增敏感词界面;如六个字段至少有一个不一致,弹窗提示话术“新增成功”,以表示新增敏感词记录合规校验通过。
本实施例中,若敏感词库中存在与新增敏感词记录的系列、账套、公司段、科目、子目和敏感词都一致的原始敏感词记录,但敏感词记录的状态不一致,则服务器默认以新增敏感词记录中的状态为准进行覆盖,该条新增敏感词记录视作导入成功。
进一步地,在批量导入新增敏感词记录时,服务器会对批量导入的新增敏感词记录的合规校验结果进行统计,并通过客户端显示该合规校验结果,例如,可在客户端弹出话术“本次共导入X条,成功Y条,失败X-Y条,为:‘序号、系列、账套、公司段、科目、子目、状态’失败原因:……”。
本实施例中,依次利用预先设置的必要特征项校验规则、特征项格式校验规则和去重校验规则对新增敏感词记录进行合规校验,以使新增敏感词记录既符合对敏感词记录的实质内容和形式要求,又避免与敏感词库中的敏感词记录重复,从而使得新增敏感词记录的形式更规范,且有助于节省敏感词库的存储空间。
在一实施例中,如图6所示,步骤S20中的对财务数据进行特征提取,获取特征项数据,具体包括如下步骤:
S21:获取财务数据的格式类型。
其中,财务数据的格式类型是指财务数据的文档类型。本实施例中,财务数据的格式类型包括表格文档类型和图片文档类型。表格文档类型是以表格形式存储的文档类型,例如,以.xlsx为文档后缀的文档类型。图片文档类型是以图片形式存储的文档类型,例如,以.jpg为文档后缀的文档类型。
S22:若格式类型为表格文档类型,则采用数据库查询语句对财务数据进行特征提取,获取特征项数据。
具体地,若财务数据的格式类型为表格文档类型,服务器在将该财务数据存储在数据库之后,可以直接采用数据库查询语句对财务数据进行特征提取,以获取特征项数据。以下表二为例,可采用“SELECT系列,账套,公司段,科目,子目,事由FROM财务数据”这一数据库查询语句从财务数据中提取到相应的特征项数据,以将系列、账套、公司段、科目、子目和事由等字段和字段对应的值提取出来,以形成特征项数据,其中,系列、账套、公司段、科目和子目等字段对应的值为场景特征数据,事由这一字段对应的值为事由特征数据。
表二财务数据
序号 系列 账套 公司段 科目 子目 事由 经办人
1 普惠 CX 奖励
2 普惠 CX 10000 现金
3 寿险 CY 1234567890
4 寿险 CY 5 探亲
S23:若格式类型为图片文档类型,则采用文字识别工具对财务数据进行识别,获取文本数据,并采用关键词提取算法对文本数据进行特征提取,获取特征项数据。
具体地,若财务数据的格式类型为图片文档类型,例如,若服务器接收到的财务数据为表二所示的财务数据的扫描图片时,其财务数据的格式类型为图片文档类型,此时,无法直接采用数据库查询语句对财务数据进行特征提取。
文字识别工具是指用于识别图片中文字的工具。本实施例中的文字识别工具可采用OCR(Optical Character Recognition的缩写,即光学字符识别),OCR具有识别准确率高的优点。关键词提取算法是指从文本中提取文本的关键词的算法。
若财务数据的格式类型为图片文档类型,需先采用服务器预先设置的文字识别工具(如OCR)对财务数据进行文字转换,以获取与财务数据相对应的文本数据;然后,采用关键词提取算法对文本数据进行特征提取,从而获取其中的特征项数据。例如,表二所示财务数据对应的文本数据中,可先采用关键词提取算法定位出“事由”,再提取“事由”对应的值作为事由特征数据。
本实施例中,根据财务数据的格式类型,选取数据库查询语句,或者文字识别工具和关键词提取算法结合的方式对财务数据进行特征提取,以获取特征项数据,以使得服务器可对不同格式类型的财务数据进行特征提取,从而实现对不同格式类型的财务数据进行敏感词验证,有助于提高敏感词验证的适用范围。
在一实施例中,敏感词库中存储至少一个原始敏感词记录和对应的场景校验规则。如上所示,每一新增敏感词记录在存储到敏感词库的过程中,需配置相应的场景校验规则,而在新增敏感词记录存储到敏感词库之后,将该新增敏感词记录确定为后续需进行调用的原始敏感词记录,因此,每一原始敏感词记录对应一场景校验规则。每一原始敏感词记录包括与至少一个场景维度对应的场景特征项、敏感词、场景校验规则和当前状态。其中,场景维度是指该原始敏感词记录对应的应用场景的维度,如表一所示的敏感词记录中,场景维度包括系列、账套、公司段、科目及子目这五个场景维度。场景特征项是指原始敏感词记录中与每一场景维度对应的值。敏感词是指原始敏感词记录中敏感词字段对应的值。场景校验规则是预先设置的用于限定原始敏感词记录中场景特征项的校验顺序的规则。当前状态是指原始敏感词记录中状态字段对应的值,包括启用状态和禁用状态。
如图7所示,步骤S30中的根据场景特征数据查询敏感词库,获取与场景特征数据对应的至少一个目标敏感词,具体包括如下步骤:
S31:依据场景校验规则,采用决策树算法匹配场景特征数据与每一原始敏感词记录中的场景特征项,确定至少一个中间敏感词记录。
场景校验规则是指用于限定新增敏感词记录中的场景特征项的校验顺序的规则。如表一所示,敏感词库中的每一原始敏感词记录均包括五个场景维度,预先设置的层级从高到低:系列>账套>公司段>科目>子目,本步骤中,依据该场景校验规则,在采用决策树算法匹配场景特征数据和敏感词记录中的场景特征项时,按照层级从高到低的顺序,将财务数据的五个维度的场景特征数据在敏感词库中进行匹配。若财务数据的五个维度的场景特征数据在上一维度的场景特征数据成功命中敏感词库的某层记录,则下一层筛选以符合该层命中结果的所有记录为筛选范围;直至财务数据的五个场景维度的场景特征数据与一原始敏感词记录中五个场景维度的场景特征项相匹配时,确定该原始敏感词记录为中间敏感词记录。
S32:将当前状态为启用状态的至少一个中间敏感词记录,确定为至少一个目标敏感词记录。
由于敏感词库中每一原始敏感词记录对应一当前状态,当前状态包括启用状态和禁用状态,其中,启用状态对应的原始敏感词记录中敏感词字段对应的值当前仍为敏感词;而禁用状态对应的原始敏感词记录中敏感词字段对应的值因为各种原始而不再是敏感词。本实施例中,服务器将当前状态为启用状态的至少一个中间敏感词记录确定为至少一个目标敏感词记录,以将当前所有处于启用状态的中间敏感词记录都确定为目标敏感词记录。
S33:将所有目标敏感词记录中的敏感词,确定为至少一个目标敏感词。
由于至少一个目标敏感词记录中的每一目标敏感词记录均包含一个或多个敏感词,而这些目标敏感词记录中的场景特征项都与财务数据中的场景特征数据相匹配,且其当前状态都为启用状态,因此,需将所有目标敏感词记录中的敏感词,确定为至少一个目标敏感词。其中,目标敏感词是与财务数据中的场景特征数据相对应的敏感词,用于验证财务数据中的事由特征数据是否包括敏感词的标准。
本实施例中,依据原始敏感词记录预先配置的场景校验规则,采用决策树算法可快速匹配场景特征数据与每一原始敏感词记录中的场景特征项,有利于提高获取中间敏感词记录的效率。然后,选择当前状态为启用状态的中间敏感词记录作为目标敏感词记录,并将所有目标敏感词记录中的敏感词作为目标敏感词,从而实现快速获取与该场景特征数据相对应的目标敏感词,有助于提高敏感词验证的整体效率。
在一实施例中,如图8所示,步骤S40中的根据事由特征数据和至少一个目标敏感词,计算目标匹配度,具体包括如下步骤:
S41:采用相似度算法对事由特征数据和每一目标敏感词进行相似度计算,获取事由特征数据和每一目标敏感词的目标相似度。
其中,相似度算法是用于计算两个物体之间相似度的算法,本实施例中,相似度算法是用于计算两个文本内容的相似度的算法。目标相似度是采用相似度算法对事由特征数据和每一目标敏感词进行相似度计算后获取的值。
本实施例中,相似度算法可以采用编辑距离算法,即采用编辑距离算法计算事由特征数据和每一目标敏感词之间的目标相似度。编辑距离(Edit Distance),又称莱文斯坦距离(Levenshtein Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。采用编辑距离算法计算事由特征数据和每一目标敏感词之间的目标相似度的过程如下:首先,建立矩阵,用来保存完成每个字符串转换需要执行的操作次数,确定事由特征数据和目标敏感词的长度(即字数)分别为m和n,并初始化第一行为0到m,第一列为0到n,建立的矩阵d为(m+1)*(n+1)。当str(m)==str(n),中间变量temp为0,否则为1;即当长度为m的字符串与长度为n的字符串相同,则中间变量temp为0,当长度为m的字符串与长度为n的字符串不相同,则中间变量temp为1。通过循环嵌套遍历矩阵d[m,n],对矩阵d[m,n]中每个值赋于d[i-1,j]+1、d[i,j-1]+1和d[i-1,j-1]+temp这三者中的最小值,直至矩阵全部赋值完成,并返回矩阵最后一个值d[m,n],即是编辑距离L,并通过相似度计算公式其中,Max(m,n)为m和n的最大长度。
本实施例中,相似度算法还可以采用余弦相似度算法,即采用余弦相似度算法计算事由特征数据和每一目标敏感词之间的目标相似度。余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。采用余弦相似度算法计算事由特征数据和每一目标敏感词之间的目标相似度的过程如下:先将事由特征数据和每一目标敏感词分别转换成向量A=(A1,A2,……,An)和向量B(B1,B2,……,Bn),然后采用公式计算事由特征数据和每一目标敏感词之间的目标相似度。将事由特征数据和目标敏感词分别转换成向量A和向量B需经过如下步骤:(a)对文本进行预处理:去停用词(分词,介词,代词等)以及非文本符号;(b)归并向量,并根据原向量是否在新向量(归并后的向量)存在,若存在则以该词汇的词频来表征,若不存在则该节点置为0。采用余弦相似度算法计算出来的余弦范围在在[-1,1]之间,值越趋近于1,代表两个向量的方向越接近;越趋近于-1,他们的方向越相反;接近于0,表示两个向量近乎于正交。
S42:从目标相似度中选取最大值,作为目标匹配度。
由于目标相似度是事由特征数据与每一目标敏感词进行相似度计算所获取的值,从所有目标敏感词对应的目标相似度中选取最大值,作为目标匹配度,可以使得所获取的目标匹配度最能体现事由特征数据与敏感词库中原始敏感词记录中的敏感词的相似程度。
本实施例中,采用编辑距离算法或余弦相似度算法计算事由特征数据与每一目标敏感词之间的目标相似度,计算过程简单方便,计算出来的目标相似度更具有代表性;然后,从所有目标相似度中选取最大值作为目标匹配度,以确定事由特征数据与敏感词库中最相似的敏感词的匹配程度,有助于后续进行敏感词验证。
在一实施例中,敏感词库中预先存储有敏感词和与敏感词相对应的风险等级,每一风险等级对应一种反馈话术。风险等级是对敏感词进行风险评估所设置的等级,在敏感词库中对每一敏感词设置其风险等级,该风险等级可依据违反税法或者其他与财务相关的法律规定的程度进行设置。反馈话术是预先设置的与风险等级相对应的用于反馈给客户的话术。该反馈话术可以包括敏感词存在的风险等级以及对这种风险等级对应的敏感词如何处理的建议等。本实施例中,敏感词库中可预先存储敏感词信息表和风险反馈话术表。该敏感词信息表中用于存储原始敏感词记录和与该原始敏感词记录相对应的风险等级。该风险反馈话术表用于存储每一风险等级对应的反馈话术。
如图9所示,步骤S50中的生成敏感词验证结果,具体包括如下步骤:
S51:基于与目标匹配度相对应的目标敏感词查询敏感词库,获取与目标敏感词相对应的目标风险等级。
由于目标匹配度是所有目标相似度中最大值,每一目标相似度是事由特征数据与一目标敏感词之间的相似度,因此,可根据目标匹配度确定相对应的目标敏感词。服务器利用与目标匹配度相对应的目标敏感词查询敏感词库,从而确定与该目标敏感词相对应的目标风险等级。具体地,服务器可以采用数据库查询语句,以目标敏感词为查询字段查询敏感词信息表,以获取对应的目标风险等级。
S52:利用目标风险等级获取对应的目标反馈话术,基于目标反馈话术生成敏感词验证结果。
服务器在根据与目标匹配度相对应的目标敏感词确定目标风险等级后,可利用该目标风险等级为查询字段,采用数据库查询语句获取与目标风险等级相对应的目标反馈话术。基于目标反馈话术生成敏感词验证结果是指将目标反馈话术作为敏感词验证结果中的内容。
本实施例中,根据与目标匹配度相对应的目标敏感词查询敏感词库,确定目标反馈话术,以便利用该目标反馈话术生成相应的敏感词验证结果,以使最终反馈给财务系统的敏感词验证结果能够清楚本次敏感词验证不通过结果,以便后续处理财务数据中规避相关用词,提高后续上传的财务数据的规范性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种敏感词验证装置,该敏感词验证装置与上述实施例中敏感词验证方法一一对应。如图10所示,该敏感词验证装置包括验证请求获取模块10、特征项数据获取模块20、目标敏感词获取模块30、目标匹配度获取模块40和验证结果获取模块50,各功能模块详细说明如下:
验证请求获取模块10,用于获取敏感词验证请求,敏感词验证请求包括财务数据。
特征项数据获取模块20,用于对财务数据进行特征提取,获取特征项数据,特征项数据包括场景特征数据和事由特征数据。
目标敏感词获取模块30,用于根据场景特征数据查询敏感词库,获取与场景特征数据对应的至少一个目标敏感词。
目标匹配度获取模块40,用于根据事由特征数据和至少一个目标敏感词,计算目标匹配度。
验证结果获取模块50,用于若目标匹配度大于预设阈值,则敏感词验证请求中的财务数据敏感词验证不通过,生成敏感词验证结果。
优选地,敏感词验证装置还包括新增请求获取单元61、合规校验处理单元62和规则配置处理单元63。
新增请求获取单元61,用于获取敏感词新增请求,敏感词新增请求包括新增敏感词记录。
合规校验处理单元62,用于对新增敏感词记录进行合规校验,若新增敏感词记录合规校验通过,则将新增敏感词记录存储在敏感词库中。
规则配置处理单元63,用于获取规则配置请求,依据规则配置请求给敏感词库中的每一新增敏感词记录配置场景校验规则。
优选地,新增敏感词记录包括与至少一个场景维度对应的场景特征项和敏感词。
合规校验处理单元62包括第一判断处理子单元621、第二判断处理子单元622、第三判断处理子单元623和校验结果获取子单元624。
第一判断处理子单元621,用于判断新增敏感词记录中的场景特征项是否包含敏感词记录对应的所有必要特征项。
第二判断处理子单元622,用于若场景特征项包含敏感词记录对应的所有必要特征项,则判断每一场景特征项是否符合特征项格式要求。
第三判断处理子单元623,用于若每一场景特征项均符合特征项格式要求,则判断敏感词库中是否存在与新增敏感词记录完全一致的原始敏感词记录。
校验结果获取子单元624,用于若敏感词库中不存在与新增敏感词记录完全一致的原始敏感词记录,则新增敏感词记录合规校验通过。
优选地,特征项数据获取模块20包括格式类型获取单元21、第一数据获取单元22和第二数据获取单元23。
格式类型获取单元21,用于获取财务数据的格式类型。
第一数据获取单元22,用于若格式类型为表格文档类型,则采用数据库查询语句对财务数据进行特征提取,获取特征项数据。
第二数据获取单元23,用于若格式类型为图片文档类型,则采用文字识别工具对财务数据进行识别,获取文本数据,并采用关键词提取算法对文本数据进行特征提取,获取特征项数据。
优选地,敏感词库中存储至少一个原始敏感词记录和对应的场景校验规则,每一原始敏感词记录包括与至少一个场景维度对应的场景特征项、敏感词、场景校验规则和当前状态。
目标敏感词获取模块30包括中间记录获取单元31、目标记录获取单元32和敏感词获取单元33。
中间记录获取单元31,用于依据场景校验规则,采用决策树算法匹配场景特征数据与每一原始敏感词记录中的场景特征项,确定至少一个中间敏感词记录。
目标记录获取单元32,用于将当前状态为启用状态的至少一个中间敏感词记录,确定为至少一个目标敏感词记录。
敏感词获取单元33,用于将所有目标敏感词记录中的敏感词,确定为至少一个目标敏感词。
优选地,目标匹配度获取模块40包括相似度计算单元41和匹配度获取单元42。
相似度计算单元41,用于采用相似度算法对事由特征数据和每一目标敏感词进行相似度计算,获取事由特征数据和每一与目标敏感词相对应的目标相似度。
匹配度获取单元42,用于从目标相似度中选取最大值,作为目标匹配度。
优选地,敏感词库中预先存储有敏感词和与敏感词相对应的风险等级,每一风险等级对应一种反馈话术。
验证结果获取模块50包括风险等级获取单元51和验证结果获取单元52。
风险等级获取单元51,用于基于与目标匹配度相对应的目标敏感词查询敏感词库,获取与目标敏感词相对应的目标风险等级。
验证结果获取单元52,用于利用目标风险等级获取对应的目标反馈话术,基于目标反馈话术生成敏感词验证结果。
关于敏感词验证装置的具体限定可以参见上文中对于敏感词验证方法的限定,在此不再赘述。上述敏感词验证装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储财务数据或者从财务数据中提取的特征项数据,还可存储最终的敏感词验证结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种敏感词验证方法。
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种敏感词验证方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取敏感词验证请求,敏感词验证请求包括财务数据;对财务数据进行特征提取,获取特征项数据,特征项数据包括场景特征数据和事由特征数据;根据场景特征数据查询敏感词库,获取与场景特征数据对应的至少一个目标敏感词;根据事由特征数据和至少一个目标敏感词,计算目标匹配度;若目标匹配度大于预设阈值,则敏感词验证请求中的财务数据敏感词验证不通过,生成敏感词验证结果。
在一实施例中,在获取敏感词验证请求的步骤之前,处理器执行计算机程序时实现以下步骤:获取敏感词新增请求,敏感词新增请求包括新增敏感词记录;对新增敏感词记录进行合规校验,若新增敏感词记录合规校验通过,则将新增敏感词记录存储在敏感词库中;获取规则配置请求,依据规则配置请求给敏感词库中的每一新增敏感词记录配置场景校验规则。
在一实施例中,新增敏感词记录包括与至少一个场景维度对应的场景特征项和敏感词。处理器执行计算机程序时实现以下步骤:判断新增敏感词记录中的场景特征项是否包含敏感词记录对应的所有必要特征项;若场景特征项包含敏感词记录对应的所有必要特征项,则判断每一场景特征项是否符合特征项格式要求;若每一场景特征项均符合特征项格式要求,则判断敏感词库中是否存在与新增敏感词记录完全一致的原始敏感词记录;若敏感词库中不存在与新增敏感词记录完全一致的原始敏感词记录,则新增敏感词记录合规校验通过。
在一实施例中,处理器执行计算机程序时实现以下步骤:获取财务数据的格式类型;若格式类型为表格文档类型,则采用数据库查询语句对财务数据进行特征提取,获取特征项数据;若格式类型为图片文档类型,则采用文字识别工具对财务数据进行识别,获取文本数据,并采用关键词提取算法对文本数据进行特征提取,获取特征项数据。
在一实施例中,敏感词库中存储至少一个原始敏感词记录和对应的场景校验规则,每一原始敏感词记录包括与至少一个场景维度对应的场景特征项、敏感词、场景校验规则和当前状态。处理器执行计算机程序时实现以下步骤:依据场景校验规则,采用决策树算法匹配场景特征数据与每一原始敏感词记录中的场景特征项,确定至少一个中间敏感词记录;将当前状态为启用状态的至少一个中间敏感词记录,确定为至少一个目标敏感词记录;将所有目标敏感词记录中的敏感词,确定为至少一个目标敏感词。
在一实施例中,处理器执行计算机程序时实现以下步骤:采用相似度算法对事由特征数据和每一目标敏感词进行相似度计算,获取事由特征数据和每一目标敏感词的目标相似度;从目标相似度中选取最大值,作为目标匹配度。
在一实施例中,敏感词库中预先存储有敏感词和与敏感词相对应的风险等级,每一风险等级对应一种反馈话术。处理器执行计算机程序时实现以下步骤:基于与目标匹配度相对应的目标敏感词查询敏感词库,获取与目标敏感词相对应的目标风险等级;利用目标风险等级获取对应的目标反馈话术,基于目标反馈话术生成敏感词验证结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取敏感词验证请求,敏感词验证请求包括财务数据;对财务数据进行特征提取,获取特征项数据,特征项数据包括场景特征数据和事由特征数据;根据场景特征数据查询敏感词库,获取与场景特征数据对应的至少一个目标敏感词;根据事由特征数据和至少一个目标敏感词,计算目标匹配度;若目标匹配度大于预设阈值,则敏感词验证请求中的财务数据敏感词验证不通过,生成敏感词验证结果。
在一实施例中,在获取敏感词验证请求的步骤之前,计算机程序被处理器执行时实现以下步骤:获取敏感词新增请求,敏感词新增请求包括新增敏感词记录;对新增敏感词记录进行合规校验,若新增敏感词记录合规校验通过,则将新增敏感词记录存储在敏感词库中;获取规则配置请求,依据规则配置请求给敏感词库中的每一新增敏感词记录配置场景校验规则。
在一实施例中,新增敏感词记录包括与至少一个场景维度对应的场景特征项和敏感词。计算机程序被处理器执行时实现以下步骤:判断新增敏感词记录中的场景特征项是否包含敏感词记录对应的所有必要特征项;若场景特征项包含敏感词记录对应的所有必要特征项,则判断每一场景特征项是否符合特征项格式要求;若每一场景特征项均符合特征项格式要求,则判断敏感词库中是否存在与新增敏感词记录完全一致的原始敏感词记录;若敏感词库中不存在与新增敏感词记录完全一致的原始敏感词记录,则新增敏感词记录合规校验通过。
在一实施例中,计算机程序被处理器执行时实现以下步骤:获取财务数据的格式类型;若格式类型为表格文档类型,则采用数据库查询语句对财务数据进行特征提取,获取特征项数据;若格式类型为图片文档类型,则采用文字识别工具对财务数据进行识别,获取文本数据,并采用关键词提取算法对文本数据进行特征提取,获取特征项数据。
在一实施例中,敏感词库中存储至少一个原始敏感词记录和对应的场景校验规则,每一原始敏感词记录包括与至少一个场景维度对应的场景特征项、敏感词、场景校验规则和当前状态。计算机程序被处理器执行时实现以下步骤:依据场景校验规则,采用决策树算法匹配场景特征数据与每一原始敏感词记录中的场景特征项,确定至少一个中间敏感词记录;将当前状态为启用状态的至少一个中间敏感词记录,确定为至少一个目标敏感词记录;将所有目标敏感词记录中的敏感词,确定为至少一个目标敏感词。
在一实施例中,计算机程序被处理器执行时实现以下步骤:采用相似度算法对事由特征数据和每一目标敏感词进行相似度计算,获取事由特征数据和每一目标敏感词的目标相似度;从目标相似度中选取最大值,作为目标匹配度。
在一实施例中,敏感词库中预先存储有敏感词和与敏感词相对应的风险等级,每一风险等级对应一种反馈话术。计算机程序被处理器执行时实现以下步骤:基于与目标匹配度相对应的目标敏感词查询敏感词库,获取与目标敏感词相对应的目标风险等级;利用目标风险等级获取对应的目标反馈话术,基于目标反馈话术生成敏感词验证结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (9)

1.一种敏感词验证方法,其特征在于,包括:
获取敏感词验证请求,所述敏感词验证请求包括财务数据;
对所述财务数据进行特征提取,获取特征项数据,所述特征项数据包括场景特征数据和事由特征数据;所述场景特征数据是所述财务数据具体应用场景的数据;所述事由特征数据是所述财务数据具体收入或支出的数据;
根据所述场景特征数据查询敏感词库,所述敏感词库中存储至少一个原始敏感词记录和对应的场景校验规则,每一所述原始敏感词记录包括与至少一个场景维度对应的场景特征项、敏感词、场景校验规则和当前状态;
依据所述场景校验规则,采用决策树算法匹配所述场景特征数据与每一所述原始敏感词记录中的场景特征项,确定至少一个中间敏感词记录;所述场景校验规则是指用于限定新增敏感词记录中的场景特征项的校验顺序的规则;根据多个场景维度预先设置层级的高低顺序,按照层级的高低顺序,将财务数据的多个场景维度的场景特征数据在敏感词库中进行匹配;若财务数据的多个场景维度的场景特征数据在上一场景维度的场景特征数据成功命中敏感词库的某层记录,则下一层筛选以符合该层命中结果的所有记录为筛选范围;直至财务数据的多个场景维度的场景特征数据与一原始敏感词记录中多个场景维度的场景特征项相匹配时,确定该原始敏感词记录为中间敏感词记录;将当前状态为启用状态的至少一个所述中间敏感词记录,确定为至少一个目标敏感词记录;将所有目标敏感词记录中的敏感词,确定为至少一个目标敏感词;
根据所述事由特征数据和至少一个所述目标敏感词,计算目标匹配度;
若目标匹配度大于预设阈值,则所述敏感词验证请求中的财务数据敏感词验证不通过,生成敏感词验证结果。
2.如权利要求1所述的敏感词验证方法,其特征在于,在所述获取敏感词验证请求的步骤之前,所述敏感词验证方法还包括如下步骤:
获取敏感词新增请求,所述敏感词新增请求包括新增敏感词记录;
对所述新增敏感词记录进行合规校验,若所述新增敏感词记录合规校验通过,则将所述新增敏感词记录存储在敏感词库中;
获取规则配置请求,依据所述规则配置请求给所述敏感词库中的每一新增敏感词记录配置场景校验规则。
3.如权利要求2所述的敏感词验证方法,其特征在于,所述新增敏感词记录包括与至少一个场景维度对应的场景特征项和敏感词;
所述对所述新增敏感词记录进行合规校验,包括:
判断所述新增敏感词记录中的场景特征项是否包含敏感词记录对应的所有必要特征项;
若所述场景特征项包含敏感词记录对应的所有必要特征项,则判断每一所述场景特征项是否符合特征项格式要求;
若每一所述场景特征项均符合特征项格式要求,则判断所述敏感词库中是否存在与所述新增敏感词记录完全一致的原始敏感词记录;
若所述敏感词库中不存在与所述新增敏感词记录完全一致的原始敏感词记录,则所述新增敏感词记录合规校验通过。
4.如权利要求1所述的敏感词验证方法,其特征在于,所述对所述财务数据进行特征提取,获取特征项数据,包括:
获取所述财务数据的格式类型;
若所述格式类型为表格文档类型,则采用数据库查询语句对所述财务数据进行特征提取,获取特征项数据;
若所述格式类型为图片文档类型,则采用文字识别工具对所述财务数据进行识别,获取文本数据,并采用关键词提取算法对所述文本数据进行特征提取,获取特征项数据。
5.如权利要求1所述的敏感词验证方法,其特征在于,所述根据所述事由特征数据和至少一个所述目标敏感词,计算目标匹配度,包括:
采用相似度算法对所述事由特征数据和每一所述目标敏感词进行相似度计算,获取所述事由特征数据和每一所述目标敏感词的目标相似度;
从所述目标相似度中选取最大值,作为所述目标匹配度。
6.如权利要求1所述的敏感词验证方法,其特征在于,所述敏感词库中预先存储有敏感词和与所述敏感词相对应的风险等级,每一风险等级对应一种反馈话术;
所述生成敏感词验证结果,包括:
基于与所述目标匹配度相对应的目标敏感词查询所述敏感词库,获取与所述目标敏感词相对应的目标风险等级;
利用所述目标风险等级获取对应的目标反馈话术,基于所述目标反馈话术生成敏感词验证结果。
7.一种敏感词验证装置,其特征在于,包括:
验证请求获取模块,用于获取敏感词验证请求,所述敏感词验证请求包括财务数据;
特征项数据获取模块,用于对所述财务数据进行特征提取,获取特征项数据,所述特征项数据包括场景特征数据和事由特征数据;所述场景特征数据是所述财务数据具体应用场景的数据;所述事由特征数据是所述财务数据具体收入或支出的数据;
目标敏感词获取模块,用于根据所述场景特征数据查询敏感词库,所述敏感词库中存储至少一个原始敏感词记录和对应的场景校验规则,每一所述原始敏感词记录包括与至少一个场景维度对应的场景特征项、敏感词、场景校验规则和当前状态;依据所述场景校验规则,采用决策树算法匹配所述场景特征数据与每一所述原始敏感词记录中的场景特征项,确定至少一个中间敏感词记录;所述场景校验规则是指用于限定新增敏感词记录中的场景特征项的校验顺序的规则;根据多个场景维度预先设置层级的高低顺序,按照层级的高低顺序,将财务数据的多个场景维度的场景特征数据在敏感词库中进行匹配;若财务数据的多个场景维度的场景特征数据在上一场景维度的场景特征数据成功命中敏感词库的某层记录,则下一层筛选以符合该层命中结果的所有记录为筛选范围;直至财务数据的多个场景维度的场景特征数据与一原始敏感词记录中多个场景维度的场景特征项相匹配时,确定该原始敏感词记录为中间敏感词记录;将当前状态为启用状态的至少一个所述中间敏感词记录,确定为至少一个目标敏感词记录;将所有目标敏感词记录中的敏感词,确定为至少一个目标敏感词;
目标匹配度获取模块,用于根据事由特征数据和至少一个所述目标敏感词,计算目标匹配度;
验证结果获取模块,用于若目标匹配度大于预设阈值,则所述敏感词验证请求中的财务数据敏感词验证不通过,生成敏感词验证结果。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述敏感词验证方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述敏感词验证方法的步骤。
CN201810601283.3A 2018-06-12 2018-06-12 敏感词验证方法、装置、计算机设备及存储介质 Active CN109033150B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810601283.3A CN109033150B (zh) 2018-06-12 2018-06-12 敏感词验证方法、装置、计算机设备及存储介质
PCT/CN2018/106239 WO2019237546A1 (zh) 2018-06-12 2018-09-18 敏感词验证方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810601283.3A CN109033150B (zh) 2018-06-12 2018-06-12 敏感词验证方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109033150A CN109033150A (zh) 2018-12-18
CN109033150B true CN109033150B (zh) 2024-01-30

Family

ID=64612800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810601283.3A Active CN109033150B (zh) 2018-06-12 2018-06-12 敏感词验证方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109033150B (zh)
WO (1) WO2019237546A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162616A (zh) * 2019-05-22 2019-08-23 广州虎牙信息科技有限公司 文本过滤方法、系统、设备和存储介质
CN110532023A (zh) * 2019-08-21 2019-12-03 北京达佳互联信息技术有限公司 用于数据检测的信息处理方法及装置
CN111143513B (zh) * 2019-12-25 2024-03-26 支付宝(杭州)信息技术有限公司 一种敏感词识别方法、装置及电子设备
CN111539206B (zh) * 2020-04-27 2023-07-25 中国银行股份有限公司 一种确定敏感信息的方法、装置、设备及存储介质
CN112001174A (zh) * 2020-08-10 2020-11-27 深圳中兴网信科技有限公司 文本脱敏方法、装置、电子设备和计算机可读存储介质
CN112395541A (zh) * 2020-12-29 2021-02-23 畅捷通信息技术股份有限公司 数据内容验证方法、装置、系统、存储介质及计算设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572839A (zh) * 2010-12-14 2012-07-11 中国移动通信集团四川有限公司 一种控制语音通信的方法和系统
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN105183781A (zh) * 2015-08-14 2015-12-23 百度在线网络技术(北京)有限公司 信息推荐方法及装置
CN105868905A (zh) * 2016-03-28 2016-08-17 国网天津市电力公司 一种基于敏感内容感知的管控系统
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及系统
CN107172081A (zh) * 2017-06-28 2017-09-15 北京明朝万达科技股份有限公司 一种数据校验的方法和装置
CN207149252U (zh) * 2017-08-01 2018-03-27 安徽听见科技有限公司 语音处理系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025239B (zh) * 2016-02-01 2019-12-27 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN106055541B (zh) * 2016-06-29 2018-12-28 清华大学 一种新闻内容敏感词过滤方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572839A (zh) * 2010-12-14 2012-07-11 中国移动通信集团四川有限公司 一种控制语音通信的方法和系统
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法
CN105183781A (zh) * 2015-08-14 2015-12-23 百度在线网络技术(北京)有限公司 信息推荐方法及装置
CN105868905A (zh) * 2016-03-28 2016-08-17 国网天津市电力公司 一种基于敏感内容感知的管控系统
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及系统
CN107172081A (zh) * 2017-06-28 2017-09-15 北京明朝万达科技股份有限公司 一种数据校验的方法和装置
CN207149252U (zh) * 2017-08-01 2018-03-27 安徽听见科技有限公司 语音处理系统

Also Published As

Publication number Publication date
WO2019237546A1 (zh) 2019-12-19
CN109033150A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033150B (zh) 敏感词验证方法、装置、计算机设备及存储介质
US20220308942A1 (en) Systems and methods for censoring text inline
WO2020057022A1 (zh) 关联推荐方法、装置、计算机设备和存储介质
CN110765763A (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110704633A (zh) 命名实体识别方法、装置、计算机设备及存储介质
US11164564B2 (en) Augmented intent and entity extraction using pattern recognition interstitial regular expressions
WO2019080661A1 (zh) 用户意图识别方法及装置
US10409820B2 (en) Semantic mapping of form fields
CN110362799B (zh) 基于在线仲裁的裁决书生成处理方法、装置和计算机设备
CN108053545B (zh) 证件验真方法和装置、服务器、存储介质
CN110377631B (zh) 案件信息处理方法、装置、计算机设备和存储介质
WO2019174073A1 (zh) 通话中客户信息修改方法、装置、计算机设备及存储介质
CN111859916B (zh) 古诗关键词提取、诗句生成方法、装置、设备及介质
CN110597844A (zh) 异构数据库数据统一访问方法及相关设备
US20240028624A1 (en) Multi-word phrase based analysis of electronic documents
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN110377618B (zh) 裁决结果分析方法、装置、计算机设备和存储介质
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
WO2020057023A1 (zh) 自然语言的语义解析方法、装置、计算机设备和存储介质
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN112363929B (zh) 系统上线方法、装置、计算机设备及存储介质
US11482027B2 (en) Automated extraction of performance segments and metadata values associated with the performance segments from contract documents
KR20220050356A (ko) 문서 인식 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant