CN112015869A - 一种待发布文本的风险检测方法、装置及设备 - Google Patents
一种待发布文本的风险检测方法、装置及设备 Download PDFInfo
- Publication number
- CN112015869A CN112015869A CN202010962218.0A CN202010962218A CN112015869A CN 112015869 A CN112015869 A CN 112015869A CN 202010962218 A CN202010962218 A CN 202010962218A CN 112015869 A CN112015869 A CN 112015869A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- risk
- result
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 260
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000001737 promoting effect Effects 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 16
- 238000013475 authorization Methods 0.000 claims description 7
- 238000012552 review Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例公开了一种待发布文本的风险检测方法、装置及设备,涉及合规领域,所述方法包括:确定待发布的金融产品的宣传文本的业务场景信息;根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
Description
技术领域
本说明书实施例涉及合规和计算机技术领域,尤其涉及一种待发布文本的风险检测方法、装置及设备。
背景技术
文本合规性检查是指自动判断待检查文本是否符合相关规章制度的规定。例如,金融保险行业是一种文字密集型行业,许多产品条款都要遵从相关监管机构发布的相关法律或者法规等的规定,否则就会因为违反相关规定面临严重后果。只有符合相关规定的宣传文本才可以进行发布。
通常通过人工方式完成对金融文本的合规性检查,以判断该金融本是否符合相关规定。但是,通过人工方式进行合规性检查,不仅准确率低(检查者无法同时熟知各种规章制度),而且效率差(待检查文本过多),耗时耗力。
发明内容
本说明书实施例提供一种待发布文本的风险检测方法、装置及设备,以解决现有的方法存在的人工进行合规检测效率低的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,本说明书实施例提供的一种待发布文本的风险检测方法,包括:
确定待发布的金融产品的宣传文本的业务场景信息;
根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;
根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;
根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;
根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
第二方面,本说明书实施例提供的一种待发布文本的风险检测装置,包括:
业务场景信息确定模块,用于确定待发布的金融产品的宣传文本的业务场景信息;
风险检测规则确定模块,用于根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;
第一检测结果生成模块,用于根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;
第二检测结果生成模块,用于根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;
风险提示信息生成模块,用于根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
第三方面,本说明书实施例提供的一种待发布文本的风险检测设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
确定待发布的金融产品的宣传文本的业务场景信息;
根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;
根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;
根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;
根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
第四方面,本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现一种待发布文本的风险检测方法。
本说明书一个实施例实现了能够达到以下有益效果:通过确定待发布的金融产品的宣传文本的业务背景,从而选择与所述宣传文本相适应的风险检测规则对该宣传文本进行风险检测,可以自动化、智能化、高准确率的完成对文本合规性的检查,大幅度节省文本内容检查的人力成本。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种待发布文本的风险检测方法的流程示意图;
图2为本说明书实施例提供的对应于图1的一种待发布文本的风险检测装置的结构示意图;
图3为本说明书实施例提供的对应于图1的一种待发布文本的风险检测设备的结构示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
“合规风险”指的是:银行因未能遵循法律法规、监管要求、规则、自律性组织制定的有关准则、以及适用于银行自身业务活动的行为准则,而可能遭受法律制裁或监管处罚、重大财务损失或声誉损失的风险。从内涵上看,合规风险主要是强调银行因为各种自身原因主导性地违反法律法规和监管规则等而遭受的经济或声誉的损失。这种风险性质更严重、造成的损失也更大。
合规风险原本来自于金融行业,并主要针对银行机构。但自2002年
《萨班斯-奥克斯利法案》颁布以来,合规风险的概念已经从银行延伸到非银行类公司层面的内部控制风险。因此,随着合规理念的加深,更为广泛的合规风险定义为:在公司的内部控制和治理流程中,因未能够与法律、法规、政策、最佳范例或服务水平协定保持一致而导致的风险。
本方案的合规风险检测方法可以支持多种业务场景,以金融行业为例,金融产品包括:信用类的贷款业务或者买卖业务、保险业务、支付业务、微贷业务、基金业务、股票业务、黄金业务、理财业务等等。当上述类型的业务需要在某个平台发布时,经常会呈现给用户一个宣传文本,用于介绍相关产品的信息。鉴于金融行业需要遵从相关监管机构发布的相关法律或者法规等的规定,否则就会因为违反相关规定面临严重后果。因此,只有符合相关规定的宣传文本才可以进行发布。因此,金融产品在发布之前,就需要对宣传文本进行合规检查。
鉴于人工检查的局限性,本方案采用机器自动对宣传文本进行合规检测。对于不同的产品选取不同的规则进行检测。主要对以下两方面进行:
1、禁止类,比如保险或者基金,不能出现“100%”。2、缺少类,比如保险或者基金,不能没有风险告知。因此,本方案设置两种风险检测规则对宣传文本进行检测,得到检测结果,然后基于检测结果进行风险提示。风险提示信息可以用于提示存在的合规问题,以及对应的位置,还可以包括基于该合规问题给出的修改建议。
本方案旨在支持txt\word\excel\pdf等常见文档的合规监测,通过灵活化的规则布控、要素提取、风险点识别、风险定位,人工打标回测、调优等提供一整套的文档类合规监测手段,取代部分人工介入流程,节省人力成本。
为了解决现有技术中的缺陷,本方案给出了以下实施例:
图1为本说明书实施例提供的一种待发布文本的风险检测方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器的程序或应用客户端。
如图1所示,该流程可以包括以下步骤:
步骤110:确定待发布的金融产品的宣传文本的业务场景信息。
宣传文本可以理解为对于金融产品的相关信息的解释,可以包括金融产品的类型、购买规则说明、收益情况说明以及风险告知。
宣传文本可以是多种格式的,例如txt\word\excel\pdf。在对宣传文本进行检测之前,可以将多种格式的文本信息进行格式转换,转换为统一的格式,以便于进行检测。
另外,为了便于检测,还可以先提取宣传文本的各要素,然后再进行检测。
业务场景可以指金融产品的类型,例如保险业务、基金业务、投资业务、股票业务、银行存款业务或贷款业务等。由于不同业务需要遵循的法律法规不同,例如,银行存款可以保本,股票业务和基金业务均不能保本,因此,对于在股票业务和基金业务不能出现“保证100%盈利”等字样。
基于上述原因,本方案需要首先确定宣传文本的业务背景,然后根据业务背景选择对应的风险检测规则。
对于宣传文本的业务场景的确定,可以采用多种方法:
一种简单的方法是由宣传文本的提供方注明该宣传文本的业务场景,例如,XX金融产品的宣传文本-基金业务,然后根据备注的“基金业务”就可以确定该金融产品的业务背景是基金业务。
当宣传文本的提供方没有注明业务场景或者注明的业务场景模拟不清时,可以根据宣传文本的内容进行确定。
可选的,所述确定待发布的金融产品的宣传文本的业务场景信息,具体可以包括:
基于所述宣传文本的文本内容确定所述宣传文本的摘要信息;
确定所述摘要信息对应的业务场景信息。
在该实施方式中,先确定宣传文本的摘要信息,摘要信息中往往包括宣传文本中一些比较关键的信息,因此,可以根据摘要信息确定宣传文本的业务场景。
对于摘要信息的确定,可以采用预设的规则或者模型进行确定。其中,预设的规则或者模型可以根据打标的历史数据进行训练并进行优化。
另外,还可以采用分类模型对摘要信息进行分类,然后得到业务场景。分类模型可以为多叉树分类模型,还可以是神经网络模型,其分类的类型就是预设的多个业务场景。
步骤120:根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则。
该方案中,预先设置了业务背景与风险检测规则的对应表,基于确定的业务场景信息去调用对应的风险检测规则。
具体的,在步骤120之前,还可以包括:
根据业务场景,配置适用于所述业务场景的至少一条风险检测规则;
将所述至少一条风险检测规则与用于表示所述业务场景的业务场景信息对应存储。
其中,风险检测规则可以是模型,也可以是规则表达式,具体的,对于配置一条风险检测规则,具体可以采用以下方法:
选定至少一个规则算子;所述规则算子包括基于正则表达式模型的算子或基于关键词模型的算子;
基于所述至少一个规则算子,确定所述风险检测规则;所述风险检测规则为一个规则算子,或者,为由至少一个规则算子以及逻辑运算符构成逻辑表达式。
对于每条风险检测规则,都需要进行多次检测合格之后才可以使用,其检测准确率不能对于一个预设阈值,预设阈值可以是大于90%,甚至更高。
在该实施例中,每个业务场景至少需要包括两大类的风险检测规则,一种是检测是否包含不应该在该业务场景中出现的敏感词汇,即第一风险检测规则;第二种是检测是否包含了必须包括的信息,例如风险提示信息,即第二风险检测规则。
其中,第一风险检测规则和第二风险检测规则可以包括至少一条规则,即可以包括独立的两条或者多条规则,还可以是将多条规则统一成一个整体的规则,中间采用“与逻辑”进行关联。
对于理财产品,其相应的规则可以包括:不能出现个人或者机构推荐、不能出现打折噱头、不能出现“股东”词语、不能出现预测性或暗示性词语、业绩需有数据支撑、业绩对比需有数据支撑、不能出现承诺禁忌词、不能引用国家权威推荐、不能片面强调集中营销时间限制、不能片面强调某个特殊情况、不能没有风险提示、不能弱化风险提示、必须通过用户授权。
对于借款或者贷款业务,其相应的规则可以包括:禁止出现“免费”字样、不能绑定其他业务产品进行宣传、禁止对外透传业务数据、禁止透传人群标签、禁止虚设限时限量又到消费者、禁止使用官方表态的口吻、禁止获取用户信息无授权、禁止使用某产品作为消费者特征的比较。
步骤130:根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果。
第一检测结果用于表示宣传文本是否包括敏感词汇。敏感词汇可以是适合于每个业务场景的通用敏感词汇,例如,不健康文明用语,涉及到赌博、敲诈等的信息。敏感词汇还可以是不适于出现在特定业务场景的词汇,例如,基金业务和股票业务中的“保本”“100%获利”的信息。
具体的步骤130,具体可以包括:
确定所述第一风险检测规则对应的敏感词汇库;
判断所述宣传文本中是否包括所述敏感词汇库中的任一词汇,得到第一判断结果;
当所述第一判断结果为是,确定所述宣传文本中包含的位于所述敏感词汇词库中的敏感词汇,构成敏感词汇集合;
根据所述敏感词汇集合生成第一检测结果,所述第一检测结果用于表示所述宣传文本包含所述敏感词汇集合中的敏感词汇。
该实施方式中,预先设置了敏感词汇库,该敏感词汇库中包括不适用于在该业务场景出现的所有人工打标的词汇。
由于,第一风险检测规则可能对应多条独立的风险规则,因此,第一风险检测规则对应的敏感词汇库也可以是多个。
具体的,所述敏感词汇库中的敏感词汇可以包括:不符合实际的宣传用语、误导性词汇、权威引荐性词汇、预测性词汇和暗示性词汇中的至少一种。
如果确定了宣传文本中包括敏感词汇,则需要将这些敏感词汇记录下来,以便于生成第一检测结果。第一检测结果可以包括这些敏感词汇,还可以包括针对这些敏感词汇不应该出现的原因,具体不符合法法律法规的哪条规定。
另外,为了便于宣传文本的提供方对敏感词汇进行修改,第一检测结果还可以包括这些敏感词汇在宣传文本中的位置信息。具体的,在所述根据所述敏感词汇集合生成第一检测结果之前,所述方法还可以包括:
针对所述敏感词汇集合中的一个敏感词汇,确定所述敏感词汇在所述宣传文本中的位置信息;
将所述位置信息与所述敏感词汇对应存储于所述敏感词汇集合。
敏感词汇在所述宣传文本中的位置信息可以是指宣传文本的第几页第几行。另外,当同一个敏感词汇在多个地方出现时,那么位置信息可以为多个。
在某些实施例中,第一检测结果还可以包括敏感词汇出现的总次数以及每个敏感词汇出现的次数,有时候可以根据这些敏感词汇的次数对宣传文本进行分析,确定该宣传文本对用户的导向。
步骤140:根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果。
相对于敏感词汇不能出现在特定的业务场景中,在某些业务场景中,必须包括某些特定的信息,才符合相关的法律法规。例如,理财产品中,必须明确的表明“购买理财产品有风险”的提示信息,以提醒用户谨慎购买。另外,一些金融产品在用户购买之后,会获取用户的身份信息或者金融产品的购买信息,例如购买金融和购买次数等等。对于这种情况,必须在宣传文本中注明需要用户授权才可以获取,如果用户没有授权,则金融产品的后台则不能获取用户的上述信息。还有一种情况是,对于一些理财产品的历史收益情况,必须有足够的数据进行支撑,而不能只列举简单的数据。
针对上述问题,本实施例设置第二风险检测规则对所述宣传文本进行必要信息检测。
可选的,所述根据所述第二风险检测规则对所述宣传文本进行必要提示信息的检测,生成第二检测结果,具体可以包括:
确定所述第二风险检测规则对应的必要信息类型库;
判断所述宣传文本中是否缺少所述必要信息类型库中任一类型对应的信息,得到第二判断结果;
当所述第二判断结果为是,确定所述宣传文本中缺少的属于所述必要信息类型库中的任一类型的信息,构成信息类型集合;
根据所述信息类型集合生成第二检测结果,所述第二检测结果表示所述宣传文本缺少所述信息类型集合中任一类型对应的信息。
在该方案中,针对上述提出的问题,基于经验设置必要信息类型库,所述必要信息类型库中的类型信息包括:风险提示类型信息、用户数据授权提示类型信息和用于支持业绩的数据类型信息中的至少一种。其中,要信息类型库中的类型信息可以随时进行修改,以符合现行的法律法规。
对于“判断所述宣传文本中是否缺少所述必要信息类型库中任一类型对应的信息”这一步骤,可以采用预设一些词语或语句,用于表示该必要信息类型库中任一类型对应的信息,采用根据预设的词语或语句对宣传文本进行筛选,看宣传文本中是否存在,以进行粗筛查。另外,还可以采用语义识别的方法来对模糊的条款进行进一步筛查,以确定其含义是否符合“必要信息类型”的限定含义。
在一些宣传文本中,尽管其包括一些必要提示信息,但是其设置的位置和文字的大小,不宜被人发现,从而存在故意隐瞒的嫌疑。对于这种问题,本实施例也提供了一种解决办法,具体如下:
当所述第二判断结果为否,确定所述宣传文本中属于所述必要信息类型库中的任一类型的各信息;
对于所述各信息中的任一信息,确定所述任一信息在所述宣传文本中的位置信息和所述任一信息的字体信息;
根据所述位置信息和所述字体信息判断任一信息是否位于突出位置,得到第三判断结果;
若所述第三判断结果为否,根据所述任意信息、所述位置信息和所述字体信息生成第二检查结果,所述第二检测结果表示所述宣传文本中的所述任一信息的设置不符合规定。
该实施方式中,位置信息可以表明必要信息在宣传文本中所处的位置。位置信息的表达方式可以是“第3页的中间位置”,“最后一页的结尾位置”。根据位置信息可以确定,该必要信息是否处于突出位置。突出位置可以理解为可以容易的显而易见的被用户读到,不会被用户轻易跳过或者不宜被用户轻易跳过,从而保证该必要信息一定被用户读取,从而知道该产品的购买风险。
例如,必要信息可以在宣传文本的第一页或者最后一页进行显示,因为如果宣传文本的页数过多,用户往往不会关注中间的内容,只会关注第一页和最后一页,以及用特殊的方式凸显的内容。例如,采用加粗、加下划线、增大字体的方式进行标注。
另外,如果必要信息的字体明显小于或者等于其他信息的字体,也不容易被用户注意到,甚至还会被用户忽略,对于这种情况,也是存在风险的。
步骤150:根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
该步骤合并第一检测结果和第二检测结果共同生成风险提示信息。如果第一检测结果和第二检测结果有一个为空,则风险提示信息只包括另一个检测结果相关的信息。风险提示信息中的内容可以与第一检测结果和第二检测结果中的内容相同,还可以包括其他的信息,例如,风险等级,如何对风险进行处理的相关信息。
应当理解,本说明书一个或多个实施例所述的方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
图1中的方法,通过确定待发布的金融产品的宣传文本的业务背景,从而选择与所述宣传文本相适应的风险检测规则对该宣传文本进行风险检测,可以自动化、智能化、高准确率的完成了对文本合规性的检查,大幅度节省了文本内容检查的人力成本。
基于图1的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
可选的,当所述风险提示信息表示所述宣传文本不存在合规风险时,在所述业务场景信息表示的业务场景中发布所述宣传文本。
当所述第一检测结果和第二检测结果为空时,则风险提示信息表示该宣传文本不存在合规风险,可以直接进行发布,因此,可以将该宣传文本直接在其对应的业务场景中进行发布。例如,将基金产品在基金购买平台进行发布。
另外,为了提高风险识别的准确率,所述方法还可以包括:
获取对所述宣传文本的人工复检结果;
将所述人工复检结果和所述风险提示信息进行对比,生成对比结果;
根据所述对比结果调整所述第一风险检测规则和所述第二风险检测规则。
为了优化该方法,以提高检测准确率,对于采用本方法进行风险检测的宣传文本,还可以进行人工复检,可以采用抽查的方式进行。如果对比结果表示人工复检结果和风险提示信息相同,则不用进行优化,如果存在差异,可以分析产生该差异的原因,然后根据该差异的原因确定是否需要优化第一风险检测规则和第二风险检测规则。优化的方式,可以是添加或者减少敏感词汇,或者调整相应的运算规则。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图2为本说明书实施例提供的对应于图1的一种待发布文本的风险检测装置的结构示意图。如图2所示,该装置可以包括:
业务场景信息确定模块210,用于确定待发布的金融产品的宣传文本的业务场景信息;
风险检测规则确定模块220,用于根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;
第一检测结果生成模块230,用于根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;
第二检测结果生成模块240,用于根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;
风险提示信息生成模块250,用于根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
基于图2的装置,本说明书实施例还提供了该装置的一些具体实施方案,下面进行说明。
可选的,所述装置还可以包括:
风险检测规则配置模块,用于根据业务场景,配置适用于所述业务场景的至少一条风险检测规则;
存储模块,用于将所述至少一条风险检测规则与用于表示所述业务场景的业务场景信息对应存储。
可选的,风险检测规则配置模块,具体可以包括:
对于配置一条风险检测规则:
选定至少一个规则算子;所述规则算子包括基于正则表达式模型的算子或基于关键词模型的算子;
基于所述至少一个规则算子,确定所述风险检测规则;所述风险检测规则为一个规则算子,或者,为由至少一个规则算子以及逻辑运算符构成逻辑表达式。
可选的,所述业务场景信息确定模块210,具体可以包括:
摘要信息确定单元,用于基于所述宣传文本的文本内容确定所述宣传文本的摘要信息;
业务场景信息确定单元,用于确定所述摘要信息对应的业务场景信息,所述业务场景信息表示的业务场景包括:保险业务、基金业务、投资业务、股票业务或贷款业务。
可选的,所述装置还可以包括:
宣传文本发布模块,用于当所述风险提示信息表示所述宣传文本不存在合规风险时,在所述业务场景信息表示的业务场景中发布所述宣传文本。
可选的,所述第一检测结果生成模块230,具体可以包括:
敏感词汇库确定单元,用于确定所述第一风险检测规则对应的敏感词汇库;
第一结果判断单元,用于判断所述宣传文本中是否包括所述敏感词汇库中的任一词汇,得到第一判断结果;
敏感词汇确定单元,用于当所述第一判断结果为是,确定所述宣传文本中包含的位于所述敏感词汇词库中的敏感词汇,构成敏感词汇集合;
第一检测结果生成单元,用于根据所述敏感词汇集合生成第一检测结果,所述第一检测结果用于表示所述宣传文本包含所述敏感词汇集合中的敏感词汇。
可选的,所述第一检测结果生成模块230,还可以包括:
位置信息确定单元,用于针对所述敏感词汇集合中的一个敏感词汇,确定所述敏感词汇在所述宣传文本中的位置信息;
存储单元,用于将所述位置信息与所述敏感词汇对应存储于所述敏感词汇集合,其中,所述第一检测结果包括所述敏感词汇在所述宣传文本中的位置信息。
可选的,所述敏感词汇库中的敏感词汇可以包括:不符合实际的宣传用语、误导性词汇、权威引荐性词汇、预测性词汇和暗示性词汇中的至少一种。
可选的,所述第二检测结果生成模块240,具体可以包括:
必要信息类型库确定单元,用于确定所述第二风险检测规则对应的必要信息类型库;
第二结果判断单元,用于判断所述宣传文本中是否缺少所述必要信息类型库中任一类型对应的信息,得到第二判断结果;
信息类型集合确定单元,用于当所述第二判断结果为是,确定所述宣传文本中缺少的属于所述必要信息类型库中的任一类型的信息,构成信息类型集合;
第二检测结果第一生成单元,用于根据所述信息类型集合生成第二检测结果,所述第二检测结果表示所述宣传文本缺少所述信息类型集合中任一类型对应的信息。
可选的,所述第二检测结果生成模块240,还可以包括:
信息确定单元,用于当所述第二判断结果为否,确定所述宣传文本中属于所述必要信息类型库中的任一类型的各信息;
位置信息和字体信息确定单元,用于对于所述各信息中的任一信息,确定所述任一信息在所述宣传文本中的位置信息和所述任一信息的字体信息;
第三结果判断单元,用于根据所述位置信息和所述字体信息判断任一信息是否位于突出位置,得到第三判断结果;
第二检测结果第二生成单元,用于若所述第三判断结果为否,根据所述任意信息、所述位置信息和所述字体信息生成第二检查结果,所述第二检测结果表示所述宣传文本中的所述任一信息的设置不符合规定。
可选的,所述必要信息类型库中的类型信息包括:风险提示类型信息、用户数据授权提示类型信息和用于支持业绩的数据类型信息中的至少一种。
可选的,所述装置还可以包括:
人工复检结果获取模块,用于获取对所述宣传文本的人工复检结果;
对比模块,用于将所述人工复检结果和所述风险提示信息进行对比,生成对比结果;
调整模块,用于根据所述对比结果调整所述第一风险检测规则和所述第二风险检测规则。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
图3为本说明书实施例提供的对应于图1的一种待发布文本的风险检测设备的结构示意图。如图3所示,设备300可以包括:
至少一个处理器310;以及,
与所述至少一个处理器通信连接的存储器330;其中,
所述存储器330存储有可被所述至少一个处理器310执行的指令320,所述指令被所述至少一个处理器310执行,以使所述至少一个处理器310能够:
确定待发布的金融产品的宣传文本的业务场景信息;
根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;
根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;
根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;
根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。。
基于同样的思路,本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现以下方法:
确定待发布的金融产品的宣传文本的业务场景信息;
根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;
根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;
根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;
根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (26)
1.一种待发布文本的风险检测方法,包括:
确定待发布的金融产品的宣传文本的业务场景信息;
根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;
根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;
根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;
根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
2.如权利要求1所述的方法,在所述确定待发布的金融产品的宣传文本的业务场景信息之前,还包括:
根据业务场景,配置适用于所述业务场景的至少一条风险检测规则;
将所述至少一条风险检测规则与用于表示所述业务场景的业务场景信息对应存储。
3.如权利要求2所述的方法,所述根据业务场景,配置适用于所述业务场景的至少一条风险检测规则,具体包括:
对于配置一条风险检测规则:
选定至少一个规则算子;所述规则算子包括基于正则表达式模型的算子或基于关键词模型的算子;
基于所述至少一个规则算子,确定所述风险检测规则;所述风险检测规则为一个规则算子,或者,为由至少一个规则算子以及逻辑运算符构成逻辑表达式。
4.如权利要求1所述的方法,所述确定待发布的金融产品的宣传文本的业务场景信息,具体包括:
基于所述宣传文本的文本内容确定所述宣传文本的摘要信息;
确定所述摘要信息对应的业务场景信息,所述业务场景包括:保险业务、基金业务、投资业务、股票业务或贷款业务。
5.如权利要求1所述的方法,当所述风险提示信息表示所述宣传文本不存在合规风险时,在所述业务场景信息表示的业务场景中发布所述宣传文本。
6.如权利要求1所述的方法,所述根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果,具体包括:
确定所述第一风险检测规则对应的敏感词汇库;
判断所述宣传文本中是否包括所述敏感词汇库中的任一词汇,得到第一判断结果;
当所述第一判断结果为是,确定所述宣传文本中包含的位于所述敏感词汇词库中的敏感词汇,构成敏感词汇集合;
根据所述敏感词汇集合生成第一检测结果,所述第一检测结果用于表示所述宣传文本包含所述敏感词汇集合中的敏感词汇。
7.如权利要求6所述的方法,在所述根据所述敏感词汇集合生成第一检测结果之前,还包括:
针对所述敏感词汇集合中的一个敏感词汇,确定所述敏感词汇在所述宣传文本中的位置信息;
将所述位置信息与所述敏感词汇对应存储于所述敏感词汇集合,其中,所述第一检测结果包括所述敏感词汇在所述宣传文本中的位置信息。
8.如权利要求6所述的方法,所述敏感词汇库中的敏感词汇包括:不符合实际的宣传用语、误导性词汇、权威引荐性词汇、预测性词汇和暗示性词汇中的至少一种。
9.如权利要求1所述的方法,所述根据所述第二风险检测规则对所述宣传文本进行必要提示信息的检测,生成第二检测结果,具体包括:
确定所述第二风险检测规则对应的必要信息类型库;
判断所述宣传文本中是否缺少所述必要信息类型库中任一类型对应的信息,得到第二判断结果;
当所述第二判断结果为是,确定所述宣传文本中缺少的属于所述必要信息类型库中的任一类型的信息,构成信息类型集合;
根据所述信息类型集合生成第二检测结果,所述第二检测结果表示所述宣传文本缺少所述信息类型集合中任一类型对应的信息。
10.如权利要求9所述的方法,所述方法还包括:
当所述第二判断结果为否,确定所述宣传文本中属于所述必要信息类型库中的任一类型的各信息;
对于所述各信息中的任一信息,确定所述任一信息在所述宣传文本中的位置信息和所述任一信息的字体信息;
根据所述位置信息和所述字体信息判断任一信息是否位于突出位置,得到第三判断结果;
若所述第三判断结果为否,根据所述任意信息、所述位置信息和所述字体信息生成第二检查结果,所述第二检测结果表示所述宣传文本中的所述任一信息的设置不符合规定。
11.如权利要求9所述的方法,所述必要信息类型库中的类型信息包括:风险提示类型信息、用户数据授权提示类型信息和用于支持业绩的数据类型信息中的至少一种。
12.如权利要求1所述的方法,所述方法还包括:
获取对所述宣传文本的人工复检结果;
将所述人工复检结果和所述风险提示信息进行对比,生成对比结果;
根据所述对比结果调整所述第一风险检测规则和所述第二风险检测规则。
13.一种待发布文本的风险检测装置,包括:
业务场景信息确定模块,用于确定待发布的金融产品的宣传文本的业务场景信息;
风险检测规则确定模块,用于根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;
第一检测结果生成模块,用于根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;
第二检测结果生成模块,用于根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;
风险提示信息生成模块,用于根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
14.如权利要求13所述的装置,所述装置还包括:
风险检测规则配置模块,用于根据业务场景,配置适用于所述业务场景的至少一条风险检测规则;
存储模块,用于将所述至少一条风险检测规则与用于表示所述业务场景的业务场景信息对应存储。
15.如权利要求14所述的装置,风险检测规则配置模块,具体包括:
对于配置一条风险检测规则:
选定至少一个规则算子;所述规则算子包括基于正则表达式模型的算子或基于关键词模型的算子;
基于所述至少一个规则算子,确定所述风险检测规则;所述风险检测规则为一个规则算子,或者,为由至少一个规则算子以及逻辑运算符构成逻辑表达式。
16.如权利要求13所述的装置,所述业务场景信息确定模块,具体包括:
摘要信息确定单元,用于基于所述宣传文本的文本内容确定所述宣传文本的摘要信息;
业务场景信息确定单元,用于确定所述摘要信息对应的业务场景信息,所述业务场景信息表示的业务场景包括:保险业务、基金业务、投资业务、股票业务或贷款业务。
17.如权利要求13所述的装置,所述装置还包括:
宣传文本发布模块,用于当所述风险提示信息表示所述宣传文本不存在合规风险时,在所述业务场景信息表示的业务场景中发布所述宣传文本。
18.如权利要求13所述的装置,所述第一检测结果生成模块,具体包括:
敏感词汇库确定单元,用于确定所述第一风险检测规则对应的敏感词汇库;
第一结果判断单元,用于判断所述宣传文本中是否包括所述敏感词汇库中的任一词汇,得到第一判断结果;
敏感词汇确定单元,用于当所述第一判断结果为是,确定所述宣传文本中包含的位于所述敏感词汇词库中的敏感词汇,构成敏感词汇集合;
第一检测结果生成单元,用于根据所述敏感词汇集合生成第一检测结果,所述第一检测结果用于表示所述宣传文本包含所述敏感词汇集合中的敏感词汇。
19.如权利要求18所述的装置,所述第一检测结果生成模块,还包括:
位置信息确定单元,用于针对所述敏感词汇集合中的一个敏感词汇,确定所述敏感词汇在所述宣传文本中的位置信息;
存储单元,用于将所述位置信息与所述敏感词汇对应存储于所述敏感词汇集合,其中,所述第一检测结果包括所述敏感词汇在所述宣传文本中的位置信息。
20.如权利要求18所述的装置,所述敏感词汇库中的敏感词汇包括:不符合实际的宣传用语、误导性词汇、权威引荐性词汇、预测性词汇和暗示性词汇中的至少一种。
21.如权利要求13所述的装置,所述第二检测结果生成模块,具体包括:
必要信息类型库确定单元,用于确定所述第二风险检测规则对应的必要信息类型库;
第二结果判断单元,用于判断所述宣传文本中是否缺少所述必要信息类型库中任一类型对应的信息,得到第二判断结果;
信息类型集合确定单元,用于当所述第二判断结果为是,确定所述宣传文本中缺少的属于所述必要信息类型库中的任一类型的信息,构成信息类型集合;
第二检测结果第一生成单元,用于根据所述信息类型集合生成第二检测结果,所述第二检测结果表示所述宣传文本缺少所述信息类型集合中任一类型对应的信息。
22.如权利要求21所述的装置,所述第二检测结果生成模块,还包括:
信息确定单元,用于当所述第二判断结果为否,确定所述宣传文本中属于所述必要信息类型库中的任一类型的各信息;
位置信息和字体信息确定单元,用于对于所述各信息中的任一信息,确定所述任一信息在所述宣传文本中的位置信息和所述任一信息的字体信息;
第三结果判断单元,用于根据所述位置信息和所述字体信息判断任一信息是否位于突出位置,得到第三判断结果;
第二检测结果第二生成单元,用于若所述第三判断结果为否,根据所述任意信息、所述位置信息和所述字体信息生成第二检查结果,所述第二检测结果表示所述宣传文本中的所述任一信息的设置不符合规定。
23.如权利要求21所述的装置,所述必要信息类型库中的类型信息包括:风险提示类型信息、用户数据授权提示类型信息和用于支持业绩的数据类型信息中的至少一种。
24.如权利要求13所述的装置,所述装置还包括:
人工复检结果获取模块,用于获取对所述宣传文本的人工复检结果;
对比模块,用于将所述人工复检结果和所述风险提示信息进行对比,生成对比结果;
调整模块,用于根据所述对比结果调整所述第一风险检测规则和所述第二风险检测规则。
25.一种待发布文本的风险检测设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
确定待发布的金融产品的宣传文本的业务场景信息;
根据所述业务场景信息,确定预设的适用于所述宣传文本的第一风险检测规则和第二风险检测规则;
根据所述第一风险检测规则对所述宣传文本进行敏感词汇检测,生成第一检测结果;
根据所述第二风险检测规则对所述宣传文本进行必要信息检测,生成第二检测结果;
根据所述第一检测结果和第二检测结果生成风险提示信息,所述风险提示信息用于提示所述宣传文本存在的合规风险。
26.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至12中任一项所述的待发布文本的风险检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010962218.0A CN112015869A (zh) | 2020-09-14 | 2020-09-14 | 一种待发布文本的风险检测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010962218.0A CN112015869A (zh) | 2020-09-14 | 2020-09-14 | 一种待发布文本的风险检测方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112015869A true CN112015869A (zh) | 2020-12-01 |
Family
ID=73523138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010962218.0A Pending CN112015869A (zh) | 2020-09-14 | 2020-09-14 | 一种待发布文本的风险检测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112015869A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785659A (zh) * | 2021-01-28 | 2021-05-11 | 特赞(上海)信息科技有限公司 | 企业案例素材图片检测方法、装置、设备和存储介质 |
CN113689148A (zh) * | 2021-09-26 | 2021-11-23 | 支付宝(杭州)信息技术有限公司 | 一种文本风险识别方法、装置及设备 |
CN116451787A (zh) * | 2023-02-16 | 2023-07-18 | 阿里巴巴(中国)有限公司 | 内容风险识别方法、装置、系统及设备 |
WO2024045955A1 (zh) * | 2022-09-01 | 2024-03-07 | 北京来也网络科技有限公司 | 结合rpa和ai实现ia的文书处理方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119951A (zh) * | 2019-04-15 | 2019-08-13 | 中国平安人寿保险股份有限公司 | 录单方法、装置、计算机设备及存储介质 |
CN110136788A (zh) * | 2019-05-14 | 2019-08-16 | 清华大学 | 一种基于自动检测的病历质检方法、装置、设备及存储介质 |
WO2019169766A1 (zh) * | 2018-03-06 | 2019-09-12 | 平安科技(深圳)有限公司 | 电子装置、系统敏感内容的预警方法、系统及存储介质 |
WO2020077895A1 (zh) * | 2018-10-16 | 2020-04-23 | 深圳壹账通智能科技有限公司 | 签约意向判断方法、装置、计算机设备和存储介质 |
CN111104779A (zh) * | 2019-11-13 | 2020-05-05 | 泰康保险集团股份有限公司 | 理赔业务处理方法、装置、介质及电子设备 |
CN111311451A (zh) * | 2020-02-29 | 2020-06-19 | 重庆百事得大牛机器人有限公司 | 用于企业法律顾问服务的远程交互管理系统 |
-
2020
- 2020-09-14 CN CN202010962218.0A patent/CN112015869A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019169766A1 (zh) * | 2018-03-06 | 2019-09-12 | 平安科技(深圳)有限公司 | 电子装置、系统敏感内容的预警方法、系统及存储介质 |
WO2020077895A1 (zh) * | 2018-10-16 | 2020-04-23 | 深圳壹账通智能科技有限公司 | 签约意向判断方法、装置、计算机设备和存储介质 |
CN110119951A (zh) * | 2019-04-15 | 2019-08-13 | 中国平安人寿保险股份有限公司 | 录单方法、装置、计算机设备及存储介质 |
CN110136788A (zh) * | 2019-05-14 | 2019-08-16 | 清华大学 | 一种基于自动检测的病历质检方法、装置、设备及存储介质 |
CN111104779A (zh) * | 2019-11-13 | 2020-05-05 | 泰康保险集团股份有限公司 | 理赔业务处理方法、装置、介质及电子设备 |
CN111311451A (zh) * | 2020-02-29 | 2020-06-19 | 重庆百事得大牛机器人有限公司 | 用于企业法律顾问服务的远程交互管理系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785659A (zh) * | 2021-01-28 | 2021-05-11 | 特赞(上海)信息科技有限公司 | 企业案例素材图片检测方法、装置、设备和存储介质 |
CN113689148A (zh) * | 2021-09-26 | 2021-11-23 | 支付宝(杭州)信息技术有限公司 | 一种文本风险识别方法、装置及设备 |
WO2024045955A1 (zh) * | 2022-09-01 | 2024-03-07 | 北京来也网络科技有限公司 | 结合rpa和ai实现ia的文书处理方法、装置、设备及介质 |
CN116451787A (zh) * | 2023-02-16 | 2023-07-18 | 阿里巴巴(中国)有限公司 | 内容风险识别方法、装置、系统及设备 |
CN116451787B (zh) * | 2023-02-16 | 2023-12-26 | 阿里巴巴(中国)有限公司 | 内容风险识别方法、装置、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112015869A (zh) | 一种待发布文本的风险检测方法、装置及设备 | |
CN112199506B (zh) | 一种应用程序的信息检测方法、装置及设备 | |
CN109447469B (zh) | 一种文本检测方法、装置及设备 | |
Tang et al. | Incorporating textual and management factors into financial distress prediction: A comparative study of machine learning methods | |
CN111967779B (zh) | 一种风险评估方法、装置及设备 | |
US11205043B1 (en) | User interface for use with a search engine for searching financial related documents | |
US20220277140A1 (en) | Artificial intelligence-based legal document analysis system and method | |
US8370275B2 (en) | Detecting factual inconsistencies between a document and a fact-base | |
US11816244B2 (en) | Machine learning methods and systems for protection and redaction of privacy information | |
CN112257114A (zh) | 一种应用程序隐私合规检测方法、装置、设备和介质 | |
CN111260368A (zh) | 一种账户交易风险判断方法、装置及电子设备 | |
Lee et al. | About relationship between business text patterns and financial performance in corporate data | |
Jayasree et al. | Readability of annual reports and operating performance of Indian banking companies | |
CN112561681A (zh) | 确定潜在贷款企业的方法、装置、电子设备及存储介质 | |
CN113689148A (zh) | 一种文本风险识别方法、装置及设备 | |
CN111832300A (zh) | 基于深度学习的合同审核方法和装置 | |
US20160343086A1 (en) | System and method for facilitating interpretation of financial statements in 10k reports by linking numbers to their context | |
CN113837772A (zh) | 一种对营销信息进行审核的方法、装置及设备 | |
Gee | Readability, profitability, and discretionary MD&A text | |
CN112001662B (zh) | 一种商户图像的风险检验方法、装置及设备 | |
KR102596815B1 (ko) | 중고 상품 게시글의 개체명 인식 방법 | |
Mitts | Predictive Regulation | |
Theron | Identifying Financial Risk through Natural Language Processing of Company Annual Reports | |
Guggilla et al. | Mining entities and their values from semi-structured documents in business process outsourcing | |
Stella | Creating an Academic Business English List: A Corpus Based Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |