CN113689148A

CN113689148A - 一种文本风险识别方法、装置及设备

Info

Publication number: CN113689148A
Application number: CN202111131530.6A
Authority: CN
Inventors: 陈胜利
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-11-23

Abstract

本说明书实施例公开了一种文本风险识别方法、装置及设备，涉及合规与监管领域。方案包括：在待发布文本被发布之前，获取第一用户上传的待发布文本；确定待发布文本的文档类型信息，基于该文档类型信息，识别待发布文本中的关键词；确定对于每个关键词进行描述的属性信息，再基于文档类型信息，确定属性信息需要满足的设定条件；然后基于每个关键词对应的属性信息以及设定条件，可以确定待发布文本的风险信息，提示所述风险信息，待发布文本在无风险的情况下，可以向由第一用户定义的第二用户集合中的用户进行发布。

Description

一种文本风险识别方法、装置及设备

技术领域

本申请涉及合规与监管技术领域，尤其涉及一种文本风险识别方法、装置及设备。

背景技术

合规风险广泛存在于金融机构业务和管理的各个方面，在互联网行业中，合规风险可以指在企业的运营或内部管理过程中，因未能够与国家的法律、法规、政策、以及行业范例或服务水平协定相保持一致而导致的风险。

目前，相关监管机构对互联网行业的法务合规管控比较重视，在此背景中，各用户在交易过程中，在自查自身合规风险的同时，也很重视对方的合规风险，对于双方需要进行签署的各种法律文件、协议文件的合规风险会进行合理评估，以保证被发布的文档符合法务合规条款的相关规定。

因此，亟需提供一种合规风险评估方案，以实现对待发布的各种文档的合规风险进行评估。

发明内容

本说明书实施例提供一种文本风险识别方法、装置及设备，以解决现有的文档风险识别方法存在的识别效率低的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供一种文本风险识别方法，包括：

在待发布文本被发布之前，获取第一用户上传的所述待发布文本；所述待发布文本的发布对象为由所述第一用户定义的第二用户集合；

确定所述待发布文本的文档类型信息；

基于所述文档类型信息，识别所述待发布文本中的关键词；

确定对于每个关键词进行描述的属性信息；

基于所述文档类型信息，确定所述属性信息需要满足的设定条件；

基于每个所述关键词对应的属性信息以及所述设定条件，确定所述待发布文本的风险信息；

提示所述风险信息。

本说明书实施例提供一种文本风险识别装置，包括：

待发布文本获取模块，用于在待发布文本被发布之前，获取第一用户上传的所述待发布文本；所述待发布文本的发布对象为由所述第一用户定义的第二用户集合；

文档类型信息确定模块，用于确定所述待发布文本的文档类型信息；

关键词识别模块，用于基于所述文档类型信息，识别所述待发布文本中的关键词；

属性信息确定模块，用于确定对于每个关键词进行描述的属性信息；

设定条件确定模块，用于基于所述文档类型信息，确定所述属性信息需要满足的设定条件；

风险信息确定模块，用于基于每个所述关键词对应的属性信息以及所述设定条件，确定所述待发布文本的风险信息；

风险信息提示模块，用于提示所述风险信息。

本说明书实施例提供一种文本风险识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

确定所述待发布文本的文档类型信息；

基于所述文档类型信息，识别所述待发布文本中的关键词；

确定对于每个关键词进行描述的属性信息；

提示所述风险信息。本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现一种文本风险识别方法。

本说明书至少一个实施例能够达到以下有益效果：通过在待发布文本被发布之前，获取第一用户上传的待发布文本；确定待发布文本的文档类型信息，基于该文档类型信息，识别待发布文本中的关键词；确定对于每个关键词进行描述的属性信息，再基于文档类型信息，确定属性信息需要满足的设定条件；然后基于每个关键词对应的属性信息以及设定条件，可以确定待发布文本的风险信息，提示所述风险信息，待发布文本在无风险的情况下，可以向由第一用户定义的第二用户集合中的用户进行发布。通过该方法，可以在待发布文本被发布之前，基于每个文档类型中的关键词属性信息所需满足的设定条件，自动对其进行风险识别，能够提高待发布文本的风险识别效率，降低被发布文本发布之后的风险。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例中一种文本风险识别的整体方案示意图；

图2为本说明书实施例提供的一种文本风险识别方法的流程示意图；

图3为本说明书实施例提供的一种文本风险识别装置的结构示意图；

图4为本说明书实施例提供的一种文本风险识别设备的结构示意图。

具体实施方式

为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书一个或多个实施例保护的范围。

“合规风险”指的是：银行因未能遵循法律法规、监管要求、规则、自律性组织制定的有关准则、已经适用于银行自身业务活动的行为准则，而可能遭受法律制裁或监管处罚、重大财务损失或声誉损失的风险。合规风险广泛存在于金融机构业务和管理的各个方面，在互联网行业中，合规风险可以指在企业的运营或内部管理过程中，因未能够与国家的法律、法规、政策、以及行业范例或服务水平协定相保持一致而导致的风险。

风险评估(RiskAssessment)是指，在风险事件发生之前或之后(但还没有结束)，该事件给人们的生活、生命、财产等各个方面造成的影响和损失的可能性进行量化评估的工作。即，风险评估就是量化测评某一事件或事物带来的影响或损失的可能程度。

从信息安全的角度来讲，风险评估是对信息资产(即某事件或事物所具有的信息集)所面临的威胁、存在的弱点、造成的影响，以及三者综合作用所带来风险的可能性的评估。作为风险管理的基础，风险评估是组织确定信息安全需求的一个重要途径，属于组织信息安全管理体系策划的过程。进行合规风险评估，能够充分发挥合规风险评估在风险管理中的作用。

对于法律文案、协议或者一些营销文案来说，在发布之前，可以先对文档内容进行风险审核，审核通过之后再发布。协议可以指社会集团或个人处理各种社会关系、事务时常用的“契约”类文档，包括合同、议定书、条约、公约、联合宣言、联合声明、条据等。狭义的协议可以指国家、政党、企业、团体或个人就某个问题经过谈判或共同协商，取得一致意见后，订立的一种具有经济或其它关系的契约性文档。合同是适应私有制的商品经济的客观要求而出现的，是商品交换在法律上的表现形式。商品生产产生后，为了交换的安全和信誉，人们在长期的交换实践中逐渐形成了许多关于交换的习惯和仪式。这些商品交换的习惯和仪式便逐渐成为调整商品交换的一般规则。营销文案可以表示一种以销售为目的的计划，指在市场销售和服务之前，为了达到预期的销售目标而进行的各种销售促进活动的整体性策划，或者在活动期间，为例吸引消费者，进行的营销活动文案说明。

这些文档都需要被发布出来给其他对象查看或签署，以合同为例，双方在签署合同之前，可以对合同进行风险评审，评审合同中的内容是否合规，评审通过之后，允许合同发布。以营销文案为例，也需要评审营销文案中是否存在违规用词，或者违反广告法的词句等等，评审通过后才允许进行发布。

在实际应用中，为了满足监管机构对各种文档的合规风险的有效监管，在互联网技术领域中，众多文档大多数都需要符合监管的要求。例如法律文件、合同、营销文案等都需要符合监管法律法规的要求。例如营销文案有可能已经发生了才意识到不符合法规，或者在行为发生之前，需要安排专门的法务合规专业人员对具体的文档进行法务合规风险评估，以避免出现在发布之后存在违反法务条款的情况，在此过程中，存在人工成本高、评估效率低、人为影响因素大、耗时长的问题。当文档数量众多。涉及法务条款种类杂的情况下，对于评审人员的要求较高，人工风险评估难度更大，不具备通用性、标准化的特性。

为了解决上述缺陷，本方案给出了以下实施例：

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书实施例中一种文本风险识别的整体方案示意图。如图1所示，用户A通过用户终端101上传待发布文本A到风险评审平台103中，风险评审平台103对待发布文本A进行风险识别，生成待发布文本对应的风险信息，该风险信息可以返回给用户A的用户终端101，当然，在实际应用中，该风险信息可以只返回给用户A的用户终端101，也可以返回给用户A定义的其他用户的用户终端上。此时，风险评审平台103的评审结果可以作为用户A判定待发布文本是否存在风险的辅助信息，在确定待发布文本无风险时，用户A可以自行发布该待发布文本，也可以通过风险评审平台103发布该待发布文本。另外，在实际应用中，风险评审平台103也可以基于生成的风险信息自动判断待发布文本是否存在风险，当不存在风险时，可以将待发布文本进行发布，该待发布文本被发布后，其接收对象可以是由用户A定义的第二用户集合105，第二用户集合105中的每个用户的用户终端都可以接收到被发布的待发布文本。在图1中，待发布文本的风险可以指的是合规风险。

接下来，将针对说明书实施例提供的一种文本风险识别方法结合附图进行具体说明：

图2为本说明书实施例提供的一种文本风险识别方法的流程示意图。从程序角度而言，流程的执行实体可以为搭载于应用服务器的程序或应用客户端。本说明书实施例中，流程的执行主体可以是用于识别文本风险的风险评审平台对应的服务器，该风险评审平台可以仅用于评审文本的风险，还可以对待发布文本进行发布，并监测文本发布后的实施情况。

如图2所示，该流程可以包括以下步骤：

步骤210：在待发布文本被发布之前，获取第一用户上传的所述待发布文本；所述待发布文本的发布对象为由所述第一用户定义的第二用户集合。

待发布文本可以是等待发布的法律文案、协议、营销文案等等。其中，协议可以包括合同、议定书、条约、条据等。

法律文案在发布出来之前，需要先进行合规风险评审，评审通过才进行发布，营销文案中一般涉及有商家或平台给用户的优惠政策、活动内容、广告宣传等信息，在发布出来之前，也需要先进行合规风险评审。对于协议文件，对于协议内容，协议双方都需要进行风险评审，评审通过再进行发布。

第二用户集合可以是由第一用户自定义的用户集合。例如：以合同为例：第一用户可以定义该合同无风险时，可以发布给合同签署双方、第一用户所在机构的法务人员、直属领导、合同管控人员等。此时，该合同被发布之后，第二用户集合中的各个用户均可以接收到该合同。

步骤220：确定所述待发布文本的文档类型信息。

该步骤中提到的“文档类型信息”可以表示待发布文本所属的文档类型，例如文档类型可以包括法律文件、合同文档、营销文档、招标文件等等。

步骤230：基于所述文档类型信息，识别所述待发布文本中的关键词。

每一种文档，可以对应有不同的关键词，例如：对于合同，关键词可以有金额、费率、交易对手方信息、违约赔付率等等。对于营销方案，关键词可以有奖励金额、广告用语、活动方式等等。文档类型与关键词的对应关系可以预先进行存储，当获取到新的待发布文本时，可以先识别该待发布文本所述的文档类型，确定文档类型之后，可以获取该文档类型对应的关键词，然后在待发布文本中定位检测到这些关键词。例如：识别到待发布文本为合同，预先存储的对应关系中，合同对应的关键词有金额、费率、交易对手方实体名称、……、违约赔付率。在待发布文本中，定位识别到这些关键词在待发布文本中的位置信息。

步骤240：确定对于每个关键词进行描述的属性信息。

属性信息可以是用于描述每个关键词的信息，对于金额、费率或者赔付率等关键词，其属性信息可以是具体的数值，例如：费率为30％，关键词为“费率”，费率的属性信息为“30％”。对于实体名称，例如：××有限公司，其属性信息可以是用于描述该实体运营相关的实体描述信息，例如：有无警告、有无约谈、有无负面舆情、运营情况等。

步骤250：基于所述文档类型信息，确定所述属性信息需要满足的设定条件。

在实际应用中，每种类型的文本中，对于关键词的属性信息，具有需要满足的设定条件，例如：对于营销文案广告法针对广告行为、广告内容都有相应的法规，例如：对于营销文案中的广告宣传语这一关键词，其属性信息需要满足的设定条件可以是广告法中对于广告宣传语的相应法规，例如：广告法中规定广告中不能使用“最……”等用语；不能含有迷信、恐怖、暴力的内容，不能含有宗教、歧视的内容等等。并且具有针对不同行业的广告对应的合规条款。这些合规条款可以作为设定条件。对于合同类文本，关键词的属性信息可以是合同法中的相关条款，也可以是每个行业对于合同中的金额、费率等限定的数值范围等。

步骤260：基于每个所述关键词对应的属性信息以及所述设定条件，确定所述待发布文本的风险信息。

该步骤中，通过比对待发布文本中每个关键词的属性信息与对应的设定条件，可以确定待发布文本的风险信息。风险信息可以是待发布文本中每个关键词对应的风险情况，例如：风险信息可以是每个关键词对应的风险等级。

步骤270：提示所述风险信息。

在提示风险信息时，提示方式可以包括：图表展示、文字展示、语音提示或视频提示等等。可以根据实际应用需求进行设定，本说明书实施例对此不作具体限定。

提示的对象可以是第一用户，也可以是包含第一用户的第二用户集合。

应当理解，本说明书一个或多个实施例所述的方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。

图2中的方法，通过在待发布文本被发布之前，获取第一用户上传的待发布文本；确定待发布文本的文档类型信息，基于该文档类型信息，识别待发布文本中的关键词；确定对于每个关键词进行描述的属性信息，再基于文档类型信息，确定属性信息需要满足的设定条件；然后基于每个关键词对应的属性信息以及设定条件，可以确定待发布文本的风险信息，提示所述风险信息，待发布文本在无风险的情况下，可以向由第一用户定义的第二用户集合中的用户进行发布。通过该方法，可以在待发布文本被发布之前，基于每个文档类型中的关键词属性信息所需满足的设定条件，自动对其进行风险识别，能够提高待发布文本的风险识别效率，进一步提高被发布文本发布之后的合规性。

基于图2的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

可选的，所述第二用户集合中包含所述第一用户；所述基于每个所述关键词对应的属性信息以及所述设定条件，确定所述待发布文本的风险信息之后，还可以包括：

若所述风险信息表示所述待发布文本的风险未达到预设风险等级，发布所述待发布文本，以供所述第二用户集合中的用户查看。

待发布文本的风险是否达到预设风险等级，可以基于待发布文本中每个关键词对应的风险等级进行判断。在实际应用中，并不是只有在每个关键词均无风险时，才判定待发布文本无风险，根据实际的应用场景，即使存在部分关键词存在风险，也可以根据实际情况允许待发布文本进行发布。预设风险等级可以是针对每个关键词分别存在一个预设风险等级，在比对时，将每一个关键词的风险等级与对应的预设风险等级进行比对。另外，在一种实施方式中，也可以是针对整个待发布文本存在一个预设等级，当是针对整个待发布文本存在一个预设风险等级时，可以先对每个关键词风险等级按照预设规则进行整合，然后在进行比对，例如：确定每个关键词的权重，基于权重以及各个关键词的风险等级进行整合。

通过上述方法，只有在待发布文本的风险未达到预设风险等级，才能允许待发布文本进行发布，降低被发布文本的风险率。

可选的，所述确定待发布文本的文档类型信息，具体可以包括：

确定所述待发布文本所属的场景信息；

基于所述场景信息，确定待发布文本在所述场景信息对应的应用场景中所属的文档类型信息；所述文档类型信息至少包括协议文档或营销文档。

场景信息可以用于表示待发布文本所属的场景分类。场景分类可以包括行业分类、应用领域分类或经营平台分类等等。具体地，该步骤中的场景信息可以具体表示待发布文本所属的具体应用领域，例如：待发布文本所属的场景信息可以是电商领域。

确定了场景信息之后，基于场景信息确定待发布文本的所属的文档类型，例如：属于电商领域中的营销文案、属于金融借贷平台中的借贷合同或者属于法律文案等等。

通过上述方法，基于待发布文本的场景信息确定待发布文本的文档类型信息，能够更为准确地识别待发布文本的文档类型，从而提高后续检测待发布文档中的关键词的准确率，进一步提高风险监测效率。

在识别文档中的关键词时，可以采用以下两种方法：

方法一、基于识别模型识别待发布文本中的关键词：

可选的，所述基于所述文档类型信息，识别所述待发布文本中的关键词，具体可以包括：

基于所述文档类型信息，确定识别模型；所述文档类型信息与所述识别模型之间具有对应关系；

将所述待发布文本输入所述识别模型中，得到所述识别模型输出的关键词。

在实际应用中，基于文档类型信息确定识别模型，在一种实施方式中，一种文档类型的文本，可以对应一个识别模型，该识别模型是基于对应文档类型的文本训练得到的；另一种实施方式中，一个识别模型也可以对应多种文档类型的文本，此时的识别模型可以是基于多种文档类型的文本训练得到的。

基于文档类型信息，确定了对应的识别模型之后，采用对应的识别模型对待发布文本进行关键词识别，识别模型可以输出待发布文本中所有的关键词以及关键词在待发布文本中的位置信息。

方法二、基于OCR技术识别待发布文本中的关键词：

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

基于所述文档类型信息，确定关键词词库；所述文档类型信息与所述关键词词库之间具有对应关系；

基于所述OCR技术，结合所述关键词词库，检测所述待发布文本中的关键词。

每种文档类型可以对应有预先存储的关键词词库，例如：对于合同，关键词词库中可以包括：金额、费率、赔付率等关键词。

通过上述方法，可以提高识别待发布文本中的关键词的效率以及准确率。

可选的，所述基于每个所述关键词对应的属性信息以及所述设定条件，确定所述待发布文本的风险信息，具体可以包括：

对于一个所述关键词，将该关键词对应的属性信息与所述设定条件进行比对，得到差异程度；

基于所述差异程度，确定该关键词的风险等级；

基于每个所述关键词的风险等级，确定所述待发布文本的风险信息。

在提示所述风险信息时，可以将各个所述关键词的风险等级展示在所述第一用户的终端界面中。

在确定关键词的风险等级时，可以比对关键词的属性信息与该属性信息对应的设定条件进行比对，确定差异程度，差异程度的计算可以基于实际应用场景选用相应的算法进行计算，在本方案中对此不作具体限定。

风险信息可以是每个关键词的风险等级，也可以是对全部关键词的风险等级进行计算整合后的结果。

可选的，所述基于每个所述关键词对应的属性信息以及所述设定条件，确定所述待发布文本的风险信息之后，还可以包括：

若所述风险信息表示所述待发布文本的风险达到预设风险等级，拒绝发布所述待发布文本。

若风险信息表示待发布文本达到了预设风险等级，可以确定待发布文本存在合规风险，拒绝发布具有合规风险的待发布文本。

通过上述方法，当待发布文本的风险达到预设风险等级时，拒绝发布待发布文本，从而规避被发布的文本存在合规性风险的情况。

以待发布文本为合同文本为例，对上述方案进行进一步说明：

若待发布文本为合同文本，所述关键词至少可以包括合同金额、费率以及合同签署双方实体名称。

若所述关键词为合同金额或费率，则所述设定条件可以为预设数值范围。

所述基于所述差异程度，确定该关键词的风险等级之前，还可以包括：

判断所述合同文本中的合同金额数值是否位于所述预设数值范围之内，得到第一判断结果；

若所述第一判断结果表示所述合同文本中的合同金额数值位于所述预设数值范围之内，确定所述合同文本无风险；

若所述第一判断结果表示所述合同文本中的合同金额数值位于所述预设数值范围之外，计算所述合同金额数值与所述预设数值范围之间的差异程度。

需要说明的是，合同文本无风险，可以表示合同文本中的全部关键词的风险等级均满足预设风险等级，也可以表示合同文本中满足预设风险等级的关键词数量满足预设数量；还可以表示合同文本中不满足预设风险等级的关键词对应的权重值小于预设权重值。例如：设置预设风险等级为3级，风险等级数目越小，风险越高。无风险的合同文本中每个关键词的风险等级可以均高于3级。在金融领域中，部分合同中的金额数值未被识别为有风险，此时，可以设置这类合同中的金额关键词对应的权重值低于预设权重，从而降低误判率。

当关键词为金额或费率等数值型关键词时，其属性信息可以是具有的数值，相应的规定在设置预设条件时，一般会设置一个正常的数值范围，一旦超出设置的正常数值范围，就可以确定关键词存在风险，进一步可以根据属性信息的具体数值与正常的数值范围的差异程度，确定风险等级。

若所述关键词为合同签署双方实体名称，则所述设定条件可以为预设实体描述信息；

所述基于所述差异程度，确定该关键词的风险等级，还可以包括：

获取所述合同签署双方实体的描述数据；所述描述数据用于描述所述合同签署双方实体在预设时间段内的运营相关信息；

比对所述运营相关信息与所述预设实体描述信息，得到第二判断结果；

若所述第二判断结果表示所述运营相关信息与所述预设实体描述信息所表达的含义一致，确定所述合同文本无风险；

若所述第二判断结果表示所述运营相关信息与所述预设实体描述信息所表达的含义不一致，计算所述运营相关信息与所述预设实体描述信息所表达的含义之间的差异程度。

当关键词为合同签署双方的实体名称时，在确定风险等级时，可以比对关键词的描述信息与预设实体描述信息之间的差异程度。

运营相关信息可以包括公司信誉、公司被警告、处分或约谈的历史信息、负面疫情、利润情况等。文字之间的差异程度的计算也可以根据实际应用场景进行确定，本申请对此不作限定。

实际应用中，在发布了待发布文本之后，还可以包括：

获取所述第二用户集合中任意用户上传的履约信息；

将所述履约信息与所述待发布文本中信息进行比对，得到比对结果；

若所述比对结果表示所述履约信息与所述待发布文本中信息一致，确定所述第二用户集合按照发布的所述待发布文本中的信息履行所述待发布文本。

在待发布文本被发布之后，风险评审平台可以监测对于待发布文本的内容执行过程；

具体地，风险评审平台可以获取合同签约双方中的至少一方上传的履约信息，或者第二用户集合中的至少一方上传的履约信息，例如：履约过程中的照片、图像、文字或视频文件等数据；通过比对履约信息与合同中的内容是否一致，从而确定待发布文本的实施过程是否存在异常。若合同履约信息与合同文本中信息一致，可以确定第二用户集合按照发布的合同文本中的信息履行所述合同文本，反之，若不一致，可以确定合同履行过程存在异常，可以向第二用户集合中的一个或多个用户发出异常提醒信息，以提醒用户按照合同内容纠正实施过程或者上传异常原因。

通过上述方法，在待发布文本被发布之前，识别风险，在风险满足预设风险等级时进行发布，发布之后还持续监测合同的执行过程，以确保合同在发布阶段以及实施阶段的合规性。

在另一种实施方式中，以待发布文本为营销文案为例，关键词至少包括：金额、奖励方式、广告宣传语等。其属性信息可以是金额具体数值、广告宣传语或奖励方式的描述信息。以广告宣传语为例，设定条件可以是广告法中对于广告语的相关法规。可以包括以下过程：

识别待发布文本中的广告宣传语；

将识别出的广告宣传语与广告法中规定的设定条件进行比对，满足条件，则无风险；不满足条件，则存在广告语使用存在不合规的风险。该方法中，能够保证被发布的营销文案在满足营销规则的同时，又能提高文本风险识别效率。

另外，对于风险评审平台，还可以基于结构化组件生成文本，在对自身平台生成的文本进行风险评审时，由于文本中各个关键词的组件均在生成文本时已经被确定，在是被风险时，不需要额外识别待发布文本中的关键词以及关键词所在位置，直接确定关键词的描述信息即可：

所述方法应用于风险评审平台；所述获取第一用户上传的所述待发布文本之后，还可以包括：

识别所述待发布文本是否为结构化文本；所述结构化文本为所述风险评审平台按照结构化模板生成的文本；

若所述待发布文本为所述结构化文本；按照所述结构化模板，确定所述待发布文本中每个关键词的属性信息。

结构化文本可以表示是由风险评审平台按照结构化模板生成的文本。在实际应用中，结构化模板可以与要求生成的文本的文档类型具有对应关系，即不同类型的文本生成时，可以对应不同的结构化模板，例如：生成合同与生成营销文案可以分别基于不同的结构化模板生成。文本在生成的时候，结构化模板可以是条款库，根据条款库基于结构化的组件进行文本生成，在后续风险识别的时候，就可以直接基于组件所在位置的描述信息与设定条件进行比对，而不需要再采用OCR技术或者识别模型的方法识别关键词，确定组件所在位置，从而进一步提高识别文本风险的效率。

通过上述方法，运用结构化的思路，把专家经验沉淀成平台能力，通过结构化思路进行文本的生成和文本的风险评审。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图3为本说明书实施例提供的一种文本风险识别装置的结构示意图。如图3所示，该装置可以包括：

待发布文本获取模块310，用于在待发布文本被发布之前，获取第一用户上传的所述待发布文本；所述待发布文本的发布对象为由所述第一用户定义的第二用户集合；

文档类型信息确定模块320，用于确定所述待发布文本的文档类型信息；

关键词识别模块330，用于基于所述文档类型信息，识别所述待发布文本中的关键词；

属性信息确定模块340，用于确定对于每个关键词进行描述的属性信息；

设定条件确定模块350，用于基于所述文档类型信息，确定所述属性信息需要满足的设定条件；

风险信息确定模块360，用于基于每个所述关键词对应的属性信息以及所述设定条件，确定所述待发布文本的风险信息；

风险信息提示模块370，用于提示所述风险信息。

基于图3的装置，本说明书实施例还提供了该装置的一些具体实施方案，下面进行说明。

可选的，所述第二用户集合中可以包含所述第一用户；所述装置，还可以包括：

待发布文本发布模块，用于若所述风险信息表示所述待发布文本的风险未达到预设风险等级，发布所述待发布文本，以供所述第二用户集合中的用户查看。

可选的，所述文档类型信息确定模块320，具体可以包括：

场景信息确定单元，用于确定所述待发布文本所属的场景信息；

文档类型信息确定单元，用于基于所述场景信息，确定待发布文本在所述场景信息对应的应用场景中所属的文档类型信息；所述文档类型信息至少包括协议文档或营销文档。

可选的，所述关键词识别模块330，具体可以包括：

识别模型确定单元，用于基于所述文档类型信息，确定识别模型；所述文档类型信息与所述识别模型之间具有对应关系；

关键词输出单元，用于将所述待发布文本输入所述识别模型中，得到所述识别模型输出的关键词。

可选的，所述风险信息确定模块360，具体可以包括：

差异程度确定单元，用于对于一个所述关键词，将该关键词对应的属性信息与所述设定条件进行比对，得到差异程度；

风险等级确定单元，用于基于所述差异程度，确定该关键词的风险等级；

风险信息确定单元，用于基于每个所述关键词的风险等级，确定所述待发布文本的风险信息。

可选的，所述风险信息提示模块360，具体可以包括：

风险等级展示单元，用于将各个所述关键词的风险等级展示在所述第一用户的终端界面中。

可选的，所述装置，还可以包括：

待发布文本拒绝发布模块，用于若所述风险信息表示所述待发布文本的风险达到预设风险等级，拒绝发布所述待发布文本。

可选的，所述待发布文本可以为合同文本，所述关键词至少可以包括合同金额、费率以及合同签署双方实体名称。

可选的，若所述关键词可以为合同金额或费率，则所述设定条件可以为预设数值范围；

所述风险信息确定模块360，还可以包括：

第一判断单元，用于判断所述合同文本中的合同金额数值是否位于所述预设数值范围之内，得到第一判断结果；

合同无风险第一确定单元，用于若所述第一判断结果表示所述合同文本中的合同金额数值位于所述预设数值范围之内，确定所述合同文本无风险；

差异程度第一计算单元，用于若所述第一判断结果表示所述合同文本中的合同金额数值位于所述预设数值范围之外，计算所述合同金额数值与所述预设数值范围之间的差异程度。

可选的，若所述关键词可以为合同签署双方实体名称，则所述设定条件可以为预设实体描述信息；

所述风险信息确定模块360，还可以包括：

描述数据获取单元，用于获取所述合同签署双方实体的描述数据；所述描述数据用于描述所述合同签署双方实体在预设时间段内的运营相关信息

第二判断单元，用于比对所述运营相关信息与所述预设实体描述信息，得到第二判断结果；

合同无风险第二确定单元，用于若所述第二判断结果表示所述运营相关信息与所述预设实体描述信息所表达的含义一致，确定所述合同文本无风险；

差异程度第二计算单元，用于若所述第二判断结果表示所述运营相关信息与所述预设实体描述信息所表达的含义不一致，计算所述运营相关信息与所述预设实体描述信息所表达的含义之间的差异程度。

可选的，所述装置，还可以包括：

履约信息获取模块，用于获取所述第二用户集合中任意用户上传的履约信息；

履约比对模块，用于将所述履约信息与所述待发布文本中信息进行比对，得到比对结果；

履约正常确定模块，用于若所述比对结果表示所述履约信息与所述待发布文本中信息一致，确定所述第二用户集合按照发布的所述待发布文本中的信息履行所述待发布文本。

可选的，所述方法可以应用于风险评审平台；所述装置，还可以包括：

结构化文本识别模块，用于识别所述待发布文本是否为结构化文本；所述结构化文本为所述风险评审平台按照结构化模板生成的文本；

属性信息确定模块，用于若所述待发布文本为所述结构化文本；按照所述结构化模板，确定所述待发布文本中每个关键词的属性信息。

可选的，所述装置，还可以用于：

若所述待发布文本为非结构化文本，确定所述待发布文本的文档类型信息；

所述基于所述文档类型信息，识别所述待发布文本中的关键词，具体包括：

基于所述文档类型信息，采用光学字符识别方法识别所述待发布文本中的关键词。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

图4为本说明书实施例提供的一种文本风险识别设备的结构示意图。如图4所示，设备400可以包括：

至少一个处理器410；以及，

与所述至少一个处理器通信连接的存储器430；其中，

所述存储器430存储有可被所述至少一个处理器410执行的指令420，所述指令被所述至少一个处理器410执行，以使所述至少一个处理器410能够：

确定所述待发布文本的文档类型信息；

基于所述文档类型信息，识别所述待发布文本中的关键词；

确定对于每个关键词进行描述的属性信息；

提示所述风险信息。

基于同样的思路，本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现以下方法：

确定所述待发布文本的文档类型信息；

基于所述文档类型信息，识别所述待发布文本中的关键词；

确定对于每个关键词进行描述的属性信息；

提示所述风险信息。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本风险识别方法，包括：

确定所述待发布文本的文档类型信息；

基于所述文档类型信息，识别所述待发布文本中的关键词；

确定对于每个关键词进行描述的属性信息；

提示所述风险信息。

2.根据权利要求1所述的方法，所述第二用户集合中包含所述第一用户；所述基于每个所述关键词对应的属性信息以及所述设定条件，确定所述待发布文本的风险信息之后，还包括：

3.根据权利要求1所述的方法，所述确定待发布文本的文档类型信息，具体包括：

确定所述待发布文本所属的场景信息；

4.根据权利要求了1所述的方法，所述基于所述文档类型信息，识别所述待发布文本中的关键词，具体包括：

5.根据权利要求1所述的方法，所述基于每个所述关键词对应的属性信息以及所述设定条件，确定所述待发布文本的风险信息，具体包括：

基于所述差异程度，确定该关键词的风险等级；

6.根据权利要求5所述的方法，所述提示所述风险信息，具体包括：

将各个所述关键词的风险等级展示在所述第一用户的终端界面中。

7.根据权利要求5所述的方法，所述待发布文本为合同文本，所述关键词至少包括合同金额、费率以及合同签署双方实体名称。

8.根据权利要求7所述的方法，若所述关键词为合同金额或费率，则所述设定条件为预设数值范围；

所述基于所述差异程度，确定该关键词的风险等级之前，还包括：

9.根据权利要求7所述的方法，若所述关键词为合同签署双方实体名称，则所述设定条件为预设实体描述信息；

所述基于所述差异程度，确定该关键词的风险等级，还包括：

获取所述合同签署双方实体的描述数据；所述描述数据用于描述所述合同签署双方实体在预设时间段内的运营相关信息

10.一种文本风险识别装置，包括：

风险信息提示模块，用于提示所述风险信息。