CN111428044A

CN111428044A - 多模态获取监管识别结果的方法、装置、设备及存储介质

Info

Publication number: CN111428044A
Application number: CN202010149510.0A
Authority: CN
Inventors: 孙梦轩; 吴岸城
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-17
Anticipated expiration: 2040-03-06
Also published as: CN111428044B

Abstract

本申请涉及人工智能领域，公开了一种多模态获取监管识别结果的方法、装置、设备及存储介质，解决目前业务监管条款和业务产品的语义相似度匹配问题。本申请方法包括：创建知识图谱；根据第一预设规则、第二预设规则和实体关系文件对知识图谱进行处理得到实体和实体关系；根据实体和实体关系更新知识图谱得到目标知识图谱；通过编码器对目标知识图谱和训练文本进行分析获得融合待处理信息；按照预设策略对融合待处理信息进行随机掩面处理获得训练数据；对训练数据进行词嵌入向量处理和自制力机制处理得到目标句向量和目标词向量；按照预设权重比例计算目标句向量和目标词向量的语义余弦相似度和字符串相似度的加权平均值，获得监管识别结果。

Description

多模态获取监管识别结果的方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理领域，尤其涉及多模态获取监管识别结果的方法、装置、设备及存储介质。

背景技术

一些特定领域的业务产品只能通过人工审核进行监管条款识别。人工审核不仅费时费力还存在误判的可能。为解决人工审核存在的误判和管理问题，对业务条款的审核采用规则和模式匹配进行筛选和处理，其中，业务条款的审核包括对业务条款中的具体描述和业务产品的描述进行语义上的理解和匹配。

通过规则和模式匹配的筛选和处理进行业务条款的审核存在业务产品情况列举不完全的问题，例如：条款需要确定产品是否有持续交费奖励，仅通过字符搜索时通过根据关键词“业务持续奖励”、“业务交费奖励”进行检索，但是不同产品可能出现的关键词不同，比如：业务持续交费奖励或业务缴费奖励。人工列举的关键词不够充足时就会漏判，而仅靠人工列举关键词既耗费人力，列举不全的可能性又比较大。

目前通过相似Jaccard距离和编辑距离的方法解决业务产品情况列举不完全的问题，但是相似Jaccard距离和编辑距离只能匹配字面相似度，而无法进一步进行语义相似度的匹配，以及无法适应层出不穷的业务新条款的描述变化。

发明内容

本申请提供了一种多模态获取监管识别结果的方法、装置、设备及存储介质，用于采用知识图谱模型、业务实体识别模型和Bert模型生成句向量，按照预设权重计算句向量的语义余弦相似度和字符串相似度的加权平均值，得到加权平均值满足条件对应的业务监管条款的监管识别结果，解决目前业务监管条款和业务产品的语义相似度匹配问题，增强监管审核的泛化能力。

本申请实施例的第一方面提供一种多模态获取监管识别结果的方法，包括：

通过预置的知识图谱模型和业务知识体系创建业务产品待识别文本和业务规定条款信息的知识图谱；

调用预置的业务实体识别模型根据第一预设规则对所述知识图谱进行实体识别，得到实体，所述第一预设规则用于定位条款对应的段落和匹配条款对应的语句；

根据第二预设规则从预置的实体关系文件中提取所述实体的实体关系，所述实体关系文件包括已有的业务条款、业务产品说明书和业务产品关联信息；

根据所述实体和所述实体关系更新所述知识图谱，得到目标知识图谱；

通过语言Bert模型中的第一编码器和第二编码器对所述目标知识图谱和训练文本进行分析处理，获得融合待处理信息，所述第二编码器包括两个输入口和两个输出口，所述训练文本为各预设领域的业务类型对应的多种文本；

按照预设策略对所述融合待处理信息进行随机掩面处理，获得训练数据；

对所述训练数据进行处理，得到目标句向量和目标词向量，所述目标句向量为业务产品待识别文本的句向量，所述目标词向量为业务规定条款的词向量；

计算所述目标句向量和所述目标词向量之间的语义余弦相似度，以及计算所述业务产品待识别文本和所述业务规定条款信息之间的字符串相似度；

按照预设权重比例计算所述语义余弦相似度和所述字符串相似度的加权平均值，并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果。

可选的，在本申请实施例第一方面的第一种实现方式中，所述通过语言Bert模型中的第一编码器和第二编码器对所述目标知识图谱和训练文本进行分析处理，获得融合待处理信息，所述第二编码器包括两个输入口和两个输出口，所述训练文本为各预设领域的业务类型对应的多种文本，包括：

通过第一编码器对所述目标知识图谱和训练文本进行分析处理，获得语义表示数据，所述训练文本为各特定，所述分析处理包括词法分析处理和语义特征分析处理领域的业务类型对应的多种文本；

对所述语义表示数据进行分类，获得第一词和第二词，所述第一词为与所述目标知识图谱的实体所对应的词，所述第二词为与非所述目标知识图谱的实体所对应的词；

通过第一输入口接收所述第一词和所述实体，以及通过第二输入口接收所述第二词，所述第二编码器包括第一输入口、第二输入口、第一输出口和第二输出口；

对所述第一词和所述实体进行编码处理，得到待融合信息；

通过加和的转换方式对所述待融合信息进行融合处理，获得融合待处理信息并通过所述第一输出口输出所述融合待处理信息；

对所述第二词进行编码处理，获得待处理信息并通过所述第二输出口输出所述待处理信息。

可选的，在本申请实施例第一方面的第二种实现方式中，所述根据所述实体和所述实体关系更新所述知识图谱，得到目标知识图谱，包括：

根据预设句式模板和依存句法分析规则在实体关系文件中获取与所述实体关联的目标实体；

对所述实体和所述目标实体进行数据预处理，得到预处理信息；

根据所述预处理信息之间的关联关系构建实体关系图，所述关联关系包括所述实体和所述目标实体同属的产品类型关系，以及所述实体和所述目标实体之间的从属关系、施动关系和属性关系；

根据所述实体关系图对所述知识图谱进行修正和补充处理，得到目标知识图谱。

可选的，在本申请实施例第一方面的第三种实现方式中，所述对所述训练数据进行处理，得到目标句向量和目标词向量，所述目标句向量为业务产品待识别文本的句向量，所述目标词向量为业务规定条款的词向量，包括：

通过激活函数对所述训练数据进行非线性处理，得到待计算数据，所述激活函数如下：

所述x表示所述训练数据；

通过掩面多头自注意力子层和多头自注意力子层将所述待计算数据中的隐向量映射到不同的空间中，并进行自注意力机制计算，得到向量矩阵；

对所述向量矩阵进行统计，得到业务产品待识别文本的候选句向量和业务规定条款的候选词向量；

根据所述候选句向量和所述候选词向量计算所述Bert模型的召回率和精确率，得到所述Bert模型的效果值；

根据所述效果值更新所述Bert模型的权重得到目标权重，输出所述目标权重对应生成的目标句向量和目标词向量。

可选的，在本申请实施例第一方面的第四种实现方式中，所述按照预设策略对所述融合待处理信息进行随机掩面处理，获得训练数据，包括：

按照语塞策略对对所述融合待处理信息进行划分，得到第一训练数据、第二训练数据和第三训练数据，所述第一训练数据、所述第二训练数据和所述第三训练数据之间的数据不相同。

可选的，在本申请实施例第一方面的第五种实现方式中，所述按照预设权重比例计算所述语义余弦相似度和所述字符串相似度的加权平均值，并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果之后，所述方法包括：

分析所述监管识别结果并生成目标审核意见，并将所述目标审核意见调加链接至所述监管识别结果，所述目标审核意见包括结合对所述监管识别结果进行条款审核和对所述监管识别结果对应的业务产品待识别文本进行错误检测所得的审核意见。

可选的，在本申请实施例第一方面的第六种实现方式中，所述分析所述监管识别结果并生成目标审核意见，并将所述目标审核意见调加链接至所述监管识别结果，所述目标审核意见包括结合对所述监管识别结果进行条款审核和对所述监管识别结果对应的业务产品待识别文本进行错误检测所得的审核意见，包括：

调用纠错模型中的预置领域词典并通过匹配追踪算法对所述监管识别结果对应的业务产品待识别文本进行字词检测，得到错误字词，所述领域词典为基于预设领域创建的词典；

通过自顶向下语法分析算法对所述监管识别结果对应的业务产品待识别文本进行语法检测，得到语法存在错误的错误语句；

分析所述错误字词和所述错误语句对审核的综合影响程度，生成第一审核意见；

对所述监管识别结果进行条款审核，生成第二审核意见；

根据所述第一审核意见和所述第二审核意见生成目标审核意见，并将所述目标审核意见调加链接至所述监管识别结果。

本申请实施例的第二方面提供一种用于多模态获取监管识别结果的装置，具有实现对应于上述第一方面提供的多模态获取监管识别结果的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述单元可以是软件和/或硬件。

所述多模态获取监管识别结果的装置包括：

创建单元，用于通过预置的知识图谱模型和业务知识体系创建业务产品待识别文本和业务规定条款信息的知识图谱；

识别单元，用于调用预置的业务实体识别模型根据第一预设规则对所述知识图谱进行实体识别，得到实体，所述第一预设规则用于定位条款对应的段落和匹配条款对应的语句；

提取单元，用于根据第二预设规则从预置的实体关系文件中提取所述实体的实体关系，所述实体关系文件包括已有的业务条款、业务产品说明书和业务产品关联信息；

更新单元，用于根据所述实体和所述实体关系更新所述知识图谱，得到目标知识图谱；

分析单元，用于通过语言Bert模型中的第一编码器和第一编码器对所述目标知识图谱和训练文本进行分析处理，获得融合待处理信息，所述第二编码器包括两个输入口和两个输出口，所述训练文本为各预设领域的业务类型对应的多种文本；

第一处理单元，用于按照预设策略对所述融合待处理信息进行随机掩面处理，获得训练数据；

第二处理单元，用于对所述训练数据进行处理，得到目标句向量和目标词向量，所述目标句向量为业务产品待识别文本的句向量，所述目标词向量为业务规定条款的词向量；

第一计算单元，用于计算所述目标句向量和所述目标词向量之间的语义余弦相似度，以及计算所述业务产品待识别文本和所述业务规定条款信息之间的字符串相似度；

第二计算单元，用于按照预设权重比例计算所述语义余弦相似度和所述字符串相似度的加权平均值，并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果。

可选的，在本申请实施例第二方面的第一种实现方式中，所述分析单元具体用于：

通过第一编码器对所述目标知识图谱和训练文本进行分析处理，获得语义表示数据，所述训练文本为各预设领域的业务类型对应的多种文本，所述分析处理包括词法分析处理和语义特征分析处理；

对所述语义表示数据进行分类，获得第一词和第二词，所述第一词为与所述目标知识图谱的实体所对应的词，所述第二词为与非对应所述目标知识图谱的实体所对应的词；

通过第一输入口接收所述第一词和所述实体，以及通过第二输入口接收所述第二词所述第二编码器包括第一输入口、第二输入口、第一输出口和第二输出口；

对所述第一词和所述实体进行编码处理，得到待融合信息；

可选的，在本申请实施例第二方面的第二种实现方式中，所述更新单元具体用于：

可选的，在本申请实施例第二方面的第三种实现方式中，所述第二处理单元具体用于：

所述x表示所述训练数据；

可选的，在本申请实施例第二方面的第四种实现方式中，所述第一处理单元具体用于：

可选的，在本申请实施例第二方面的第五种实现方式中，所述多模态获取监管识别结果的装置，还包括：

链接单元，用于分析所述监管识别结果并生成目标审核意见，并将所述目标审核意见调加链接至所述监管识别结果，所述目标审核意见包括结合对所述监管识别结果进行条款审核和对所述监管识别结果对应的业务产品待识别文本进行错误检测所得的审核意见。

可选的，在本申请实施例第二方面的第六种实现方式中，所述链接单元具体用于：

对所述监管识别结果进行条款审核，生成第二审核意见；

本申请实施例的第三方面提供了一种多模态获取监管识别结果的设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式所述多模态获取监管识别结果的方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述任一实施方式所述的多模态获取监管识别结果的方法。

相较于现有技术，本申请实施例提供的技术方案中，通过创建知识图谱；根据第一预设规则、第二预设规则和实体关系文件对知识图谱进行处理得到实体和实体关系；根据实体和实体关系更新知识图谱得到目标知识图谱；通过编码器Encode-K和Encode-V对目标知识图谱和训练文本进行分析获得融合待处理信息；按照预设策略对融合待处理信息进行随机掩面处理获得训练数据；对训练数据进行词嵌入向量处理和自制力机制处理得到目标句向量和目标词向量；按照预设权重比例计算目标句向量和目标词向量的语义余弦相似度和字符串相似度的加权平均值，获得监管识别结果。本申请实施例，采用知识图谱模型、业务实体识别模型和Bert模型生成句向量，按照预设权重计算句向量的语义余弦相似度和字符串相似度的加权平均值，得到加权平均值满足条件对应的业务监管条款的监管识别结果，解决目前业务监管条款和业务产品的语义相似度匹配问题，增强监管审核的泛化能力。

附图说明

图1为本申请实施例中多模态获取监管识别结果的方法的一个实施例示意图；

图2为本申请实施例中第一知识图谱的一个实施例示意图；

图3为本申请实施例中第二知识图谱的一个实施例示意图；

图4为本申请实施例中多模态获取监管识别结果的方法的另一个实施例示意图；

图5为本申请实施例中多模态获取监管识别结果的装置的一个实施例示意图；

图6为本申请实施例中多模态获取监管识别结果的装置的另一个实施例示意图；

图7为本申请实施例中多模态获取监管识别结果的设备的一个实施例示意图。

具体实施方式

本申请实施例提供了一种多模态获取监管识别结果的方法、装置、设备及存储介质，用于采用知识图谱模型、业务实体识别模型和Bert模型生成句向量，按照预设权重计算句向量的语义余弦相似度和字符串相似度的加权平均值，得到加权平均值满足条件对应的业务监管条款的监管识别结果，解决目前业务监管条款和业务产品的语义相似度匹配问题，增强监管审核的泛化能力。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例进行描述。

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

请参阅图1，本申请实施例提供的一种多模态获取监管识别结果的方法的流程图，以下对本申请提供一种多模态获取监管识别结果的方法进行举例说明，该方法由计算机设备执行，计算机设备可为服务器或者终端，本申请不对执行主体的类型作限制，具体包括：

101、通过预置的知识图谱模型和预置的业务知识体系创建业务产品待识别文本和业务规定条款信息的知识图谱。

知识图谱包括第一知识图谱和第二知识图谱。服务器通过预置的知识图谱模型根据预置的业务知识体系分析业务产品待识别文本和业务规定条款信息进行实体抽取处理、关系抽取处理和属性抽取处理，获得实体、属性和实体间的相互关系以及在此基础上形成本体化的知识表达，将获得的实体、属性和实体间的相互关系以及在此基础上形成本体化的知识表达进行融合处理，得到融合信息，并对融合信息进行本体构建、知识推理和质量评估，获得由业务名称、业务的关联信息名称和业务的关联信息构成的第一知识图谱和由业务类型、业务名称和业务对应的唯一性条款构成的第二知识图谱，如图2和图3所示，图2为第一知识图谱，图3为第二知识图谱。图2和图3内容仅作举例说明，其内容的实际操作和准确性不作考虑。

102、调用预置的业务实体识别模型根据第一预设规则对知识图谱进行实体识别，得到实体，第一预设规则用于定位条款对应的段落和匹配条款对应的语句。

预置的业务实体模型由词形上下文模型、词性上下文模型、词形实体模型和词性实体模型4个子模型组成。服务器通过预置的业务实体模型根据第一预设规则对知识图谱进行在给定词形上下文语境中产生实体的概率的估计、在给定词性上下文语境中产生实体的概率的估计、在给定实体类型的情况下词形串作为实体的概率的估计和在给定实体类型的情况下词性串作为实体的概率的估计，综合四个子模型的概率估计得到相应的实体。采用预设规则以及半监督的方法采用正则表达式实现预设规则的实体识别。

其中，第一预设规则包括定位条款对应的段落和匹配条款对应的语句。定位条款对应的段落表征根据输入的业务产品待识别文本中的条款信息去检索条款信息对应的知识图谱结点和关系，从该知识图谱中进行条款信息的实体识别处理。匹配条款对应的语句表征根据输入的业务产品待识别文本中的条款信息去检索条款信息对应的语句所在的知识图谱，从该知识图谱中进行条款信息的实体识别处理。

103、根据第二预设规则从预置的实体关系文件中提取实体的实体关系，实体关系文件包括已有的业务条款、业务产品说明书和业务产品关联信息。

服务器调用预置的实体关系提取模型根据从属关系和施动关系的预设规则，从已有的业务条款、业务产品说明书和从网络爬取的与业务产品关联的信息(即业务产品关联信息)等实体关系文件中提取从知识图谱获取的实体之间的实体关系，其中，可通过基于注意力的双向长短期记忆网络(Attention-Based Bidirectional Long Short-TermMemory，Att-BLSTM)分类器进行实体关系的提取。

104、根据实体和实体关系更新知识图谱，得到目标知识图谱。

服务器根据实体和实体关系更新知识图谱，得到目标知识图谱，具体包括：根据预设句式模板和依存句法分析规则在实体关系文件中获取与实体关联的目标实体；对实体和目标实体进行数据预处理，得到预处理信息；根据预处理信息之间的关联关系以构建实体关系图，关联关系包括实体和目标实体同属的产品类型关系，以及实体和目标实体之间的从属关系、施动关系和属性关系；根据实体关系图对知识图谱进行修正和补充处理，得到目标知识图谱。

服务器将实体和实体关系在知识图谱中以实体作为结点和以实体关系作为连接边增加新的结点和关系边，以丰富知识图谱和将特定领域(即预设领域)的专有名词存储在知识图谱中，增强模型对特定领域(即预设领域)的专有名词的敏感度。数据预处理包括数据清洗处理、数据集成处理、数据归约处理和数据变换处理。将实体关系添加至知识图谱中，增强知识图谱的词汇量和词汇之间的关联关系，例如：耳机和音响并没有联系，但是耳机和音响都属于音乐产品，也都属于电子产品，耳机和音响之间就有一定的相似性(即实体关系，实体之间的关联关系)。其中，根据预设句式模板提取实体关系，例如：分词后句式为(词1)包含的病症有(词2)症，则提取的实体关系为(词1)包含(词2)。根据依存句法分析规则提取实体关系，例如：实体关系文件中的句式为意外伤害保险保障意外身故、意外伤害，意外伤害保险为主语+实体，保障为动词谓语，意外身故为主语+宾语，意外伤害为主语+宾语，意外伤害保险和保障有主谓关系，保障和意外身故有动宾关系，则可提取实体关系：三元组(主，谓，宾)的(意外伤害保险，保障，意外身故)和(意外伤害保险，保障，意外伤害)。

105、通过语言Bert模型中的第一编码器和第二编码器对目标知识图谱和训练文本进行分析处理，获得融合待处理信息，第二编码器包括两个输入口和两个输出口，训练文本为各预设领域的业务类型对应的多种文本。

服务器通过语言Bert模型中的第一编码器Encode-K和第二编码器Encode-V对目标知识图谱和训练文本进行分析处理，获得融合待处理信息，第二编码器Encode-V包括两个输入口和两个输出口，训练文本为各预设领域的业务类型对应的多种文本，具体的，包括：服务器通过第一编码器对目标知识图谱和训练文本进行分析处理，获得语义表示数据，训练文本为各预设领域的业务类型对应的多种文本，分析处理包括词法分析处理和语义特征分析处理；服务器对语义表示数据进行分类，获得第一词和第二词，第一词为与目标知识图谱的实体所对应的词，第二词为与非目标知识图谱的实体所对应的词；服务器通过第一输入口接收第一词和实体，以及通过第二输入口接收第二词，第二编码器包括第一输入口、第二输入口、第一输出口和第二输出口；服务器对第一词和实体进行编码处理，得到待融合信息；通过加和的转换方式对待融合信息进行融合处理，获得融合待处理信息并通过第一输出口输出融合待处理信息；服务器对第二词进行编码处理，获得待处理信息并通过第二输出口输出待处理信息。

其中，语义表示数据为目标知识图谱和训练文本在业务数据中的语义表示数据。经过改进的双向语言Bert模型包括编码器第一Encode-K和第二编码器Encode-V，第二编码器Encode-V包括两个输入口(即第一输入口和第二输入口)和两个输出口(即第一输出口和第二输出口)，第一输入口与第一输出口连接，第二输入口语与第二输出口连接，一个输入口(即第一输入口)用于接收第二编码器Encode-K处理后的对应更新的知识图谱的实体的词，对应的输出口(即第一输出口)输出将词和实体融合的融合待处理信息；另一个输入口(即第二输入口)用于接收第二编码器Encode-K处理后的不对应更新的知识图谱的实体的词，对应的输出口(即第二输出口)输出经过编码处理的信息。其中，训练文本包括经济类别文本、刑法类别文本、疾病类别文本和社会新闻文本等文本。第二编码器Encode-V的两个输入口和两个输出口将训练文本和更新的知识图谱融合在一起，以融入领域知识后提高对业务产品待识别文本在预设领域中对应的预测准确度和识别准确度。

106、按照预设策略对融合待处理信息进行随机掩面处理，获得训练数据。

服务器按照预设策略对融合待处理信息进行随机掩面处理，获得训练数据，具体包括：服务器按照语塞策略对对融合待处理信息进行划分，得到第一训练数据、第二训练数据和第三训练数据，第一训练数据、第二训练数据和第三训练数据之间的数据不相同。

例如：服务器随机选取并将百分之五的融合待处理信息作为随机替换对齐实体的替换信息，得到第一训练数据；服务器随机选取并将百分之十的融合待处理信息作为遮挡对齐实体的遮挡信息，得到第二训练数据；服务器随机选取并将百分之八十五的融合待处理信息作为不经过任何处理的未处理信息，得到第三训练数据；第一训练数据、第二训练数据和第三训练数据为训练数据。服务器得到融合待处理信息后，服务器通过掩面masked模块设置百分之五的概率会被替换成随机的实体，以增加少量的多样性、防止模型过拟合和增加噪声；通过设置百分之十的概率会被masked遮盖掉以使模型学习、预测缺失实体或词时的语义表达数据；通过设置百分之八十五的概率的情况下会保持不变以使模型能够学习正确的训练文本、真实的知识图谱和训练文本数据的语义表示。其中，Bert模型包括掩面masked模块。

107、对训练数据进行处理，得到目标句向量和目标词向量，目标句向量为业务产品待识别文本的句向量，目标词向量为业务规定条款的词向量。

服务器对训练数据进行词嵌入向量处理和自制力机制处理，得到目标句向量和目标词向量，目标句向量为业务产品待识别文本的句向量，目标词向量为业务规定条款的词向量。具体的，服务器通过激活函数对训练数据进行非线性处理，得到待计算数据，激活函数如下：

x表示训练数据；服务器通过掩面多头自注意力子层和多头自注意力子层将待计算数据中的隐向量映射到不同的空间中，并进行自注意力机制计算，得到向量矩阵；服务器对向量矩阵进行统计，得到业务产品待识别文本的候选句向量和业务规定条款的候选词向量；服务器根据候选句向量和候选词向量计算Bert模型的召回率和精确率，得到Bert模型的效果值；服务器根据效果值更新Bert模型的权重得到目标权重，输出目标权重对应生成的目标句向量和目标词向量。

服务器通过转换器Transformer结构对训练数据进行多轮的masked Mutli-headattention和Mutli-head attention处理(词嵌入向量处理和自制力机制处理)得到业务产品待识别文本的初始句向量和业务规定条款的初始词向量，分析初始句向量和初始词向量，以及计算Bert模型的效果值，通过分析初始句向量和初始词向量以及效果值对模型的权值参数、编码器的层数和和循环操作的次数进行调整，达到目标权重，从而得到符合提高在特定领域中对于领域知识的语义相似度的要求的Bert模型。服务器用训练Bert模型的框架自带的存储借口存储该Bert模型。通过激活函数GELU，增强模型的表达能力，学习能力和预测能力，进而提高的词向量获取的准确性；通过进行权重修正以对模型进行多次训练，以使模型能够达到最佳效果。

108、计算目标句向量和目标词向量之间的语义余弦相似度，以及计算业务产品待识别文本和业务规定条款信息之间的字符串相似度。

服务器通过结构改进的Bert模型输出业务产品待识别文本句向量和业务规定条款词向量之后，通过

计算业务产品待识别文本句向量和业务规定条款词向量之间的语义余弦相似度，其中，a表示业务产品待识别文本句向量，b表示业务规定条款词向量。服务器通过将业务产品待识别文本和业务规定条款信息转换为字符串形式，通过编辑距离或者相似距离计算将业务产品待识别文本和业务规定条款信息之间的字符串相似度。通过计算语义余弦相似度和字符串相似度，以将语义相同的文字和字面上相似的文字都找出来，相比普通的判断语义相似度的方法，提高了在专业领域上的语义相似度准确率，提高模型的适应性，避免传统规则搜索特定关键字不能适用于所有产品的缺点。

109、按照预设权重比例计算语义余弦相似度和字符串相似度的加权平均值，并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果。

服务器按照预设权重分配给字符串相似度25％的权重，分配给语义余弦相似度75％的权重，按照分配的权重比例计算字符串相似度和语义余弦相似度的加权平均值。并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果，以完成对模型的训练，得到多模态的目标业务监管识别模型。通过分配字符串相似度低权重，分配语义余弦相似度高权重，计算字符串相似度和语义余弦相似度的加权值，以提高目标业务监管识别模型检测的准确度和效率；通过多模态结合，增强目标业务监管识别模型的泛化能力。

本申请实施例，通过采用知识图谱模型、业务实体识别模型和Bert模型生成句向量，按照预设权重计算句向量的语义余弦相似度和字符串相似度的加权平均值，得到加权平均值满足条件对应的业务监管条款的监管识别结果，解决目前业务监管条款和业务产品的语义相似度匹配问题，增强监管审核的泛化能力。

请参阅图4，本申请实施例中多模态获取监管识别结果的方法的另一个实施例包括：

401、通过预置的知识图谱模型和业务知识体系创建业务产品待识别文本和业务规定条款信息的知识图谱。

402、调用预置的业务实体识别模型根据第一预设规则对知识图谱进行实体识别，得到实体，第一预设规则用于定位条款对应的段落和匹配条款对应的语句。

403、根据第二预设规则从预置的实体关系文件中提取实体的实体关系，实体关系文件包括已有的业务条款、业务产品说明书和业务产品关联信息。

404、根据实体和实体关系更新知识图谱，得到目标知识图谱。

405、通过语言Bert模型中的第一编码器和第二编码器对目标知识图谱和训练文本进行分析处理，获得融合待处理信息，第二编码器包括两个输入口和两个输出口，训练文本为各预设领域的业务类型对应的多种文本。

406、按照预设策略对融合待处理信息进行随机掩面处理，获得训练数据。

407、对训练数据进行处理，得到目标句向量和目标词向量，目标句向量为业务产品待识别文本的句向量，目标词向量为业务规定条款的词向量。

408、计算目标句向量和目标词向量之间的语义余弦相似度，以及计算业务产品待识别文本和业务规定条款信息之间的字符串相似度。

409、按照预设权重比例计算语义余弦相似度和字符串相似度的加权平均值，并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果。

本申请实施例中，401至409的方法可参见101至109，此处不再赘述。

410、分析监管识别结果并生成目标审核意见，并将目标审核意见调加链接至监管识别结果，目标审核意见包括结合对监管识别结果进行条款审核和对监管识别结果对应的业务产品待识别文本进行错误检测所得的审核意见。

服务器分析监管识别结果并生成目标审核意见，并将目标审核意见调加链接至监管识别结果，目标审核意见包括结合对监管识别结果进行条款审核和对监管识别结果对应的业务产品待识别文本进行错误检测所得的审核意见，具体包括：服务器调用纠错模型中的预置领域词典并通过匹配追踪算法对监管识别结果对应的业务产品待识别文本进行字词检测，得到错误字词，领域词典为基于预设领域创建的词典；服务器通过自顶向下语法分析算法对监管识别结果对应的业务产品待识别文本进行语法检测，得到语法存在错误的错误语句；分析错误字词和错误语句对审核的综合影响程度，生成第一审核意见；服务器对监管识别结果进行条款审核，生成第二审核意见；根据第一审核意见和第二审核意见生成目标审核意见，并将目标审核意见调加链接至监管识别结果。

由于有时业务产品待识别文本会出现同音同形错别字等问题以影响到审核情况，因而可通过调用纠错模块来辅助对审核不通过的业务产品待识别文本提出修改意见。其中，字词检测为在对应的业务领域中是否对应所用的专用词以及在对应的业务领域中和法律领域中描述是否正确。对监管识别结果、对应的业务产品待识别文本和对应的合同进行条款审核，审核合同内容是否满足条款对应的使用范围、标准和使用条件等。通过将目标审核意见调加链接至监管识别结果，增强监管识别结果的多用性。

上面对本申请实施例中多模态获取监管识别结果的方法进行了描述，下面对本申请实施例中多模态获取监管识别结果的装置进行描述，请参阅图5，本申请实施例中多模态获取监管识别结果的装置的一个实施例包括：

创建单元501，用于通过预置的知识图谱模型和业务知识体系创建业务产品待识别文本和业务规定条款信息的知识图谱；

识别单元502，用于调用预置的业务实体识别模型根据第一预设规则对知识图谱进行实体识别，得到实体，第一预设规则用于定位条款对应的段落和匹配条款对应的语句；

提取单元503，用于根据第二预设规则从预置的实体关系文件中提取实体的实体关系，实体关系文件包括已有的业务条款、业务产品说明书和业务产品关联信息；

更新单元504，用于根据实体和实体关系更新知识图谱，得到目标知识图谱；

分析单元505，用于通过语言Bert模型中的第一编码器和第二编码器对目标知识图谱和训练文本进行分析处理，获得融合待处理信息，第二编码器包括两个输入口和两个输出口，训练文本为各预设领域的业务类型对应的多种文本；

第一处理单元506，用于按照预设策略对融合待处理信息进行随机掩面处理，获得训练数据；

第二处理单元507，用于对训练数据进行处理，得到目标句向量和目标词向量，目标句向量为业务产品待识别文本的句向量，目标词向量为业务规定条款的词向量；

第一计算单元508，用于计算目标句向量和目标词向量之间的语义余弦相似度，以及计算业务产品待识别文本和业务规定条款信息之间的字符串相似度；

第二计算单元509，用于按照预设权重比例计算语义余弦相似度和字符串相似度的加权平均值，并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果。

请参阅图6，本申请实施例中多模态获取监管识别结果的装置的另一个实施例包括：

第二计算单元509，用于按照预设权重比例计算语义余弦相似度和字符串相似度的加权平均值，并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果；

链接单元510，用于分析监管识别结果并生成目标审核意见，并将目标审核意见调加链接至监管识别结果，目标审核意见包括结合对监管识别结果进行条款审核和对监管识别结果对应的业务产品待识别文本进行错误检测所得的审核意见。

可选的，更新单元504具体用于：根据预设句式模板和依存句法分析规则在实体关系文件中获取与实体关联的目标实体；对实体和目标实体进行数据预处理，得到预处理信息；根据预处理信息之间的关联关系以构建实体关系图，关联关系包括实体和目标实体同属的产品类型关系，以及实体和目标实体之间的从属关系、施动关系和属性关系；根据实体关系图对知识图谱进行修正和补充处理，得到目标知识图谱。

可选的，分析单元505具体用于：通过第一编码器对目标知识图谱和训练文本进行处理，获得语义表示数据，训练文本为各预设领域的业务类型对应的多种文本，分析处理包括词法分析处理和语义特征分析处理；对语义表示数据进行分类，获得第一词和第二词，第一词为与目标知识图谱的实体所对应的词，第二词为与非对应目标知识图谱的实体所对应的词；通过编码器Encode-V第一输入口接收第一词和实体，以及通过第二输入口接收第二词，第二编码器包括第一输入口、第二输入口、第一输出口和第二输出口；对第一词和实体进行编码处理得到待融合信息；通过加和的转换方式对待融合信息进行融合处理，获得融合待处理信息并通过第一输出口输出融合待处理信息；对第二词进行编码处理，获得待处理信息并通过第二输出口输出待处理信息。

可选的，第一处理单元506具体用于：按照语塞策略对对融合待处理信息进行划分，得到第一训练数据、第二训练数据和第三训练数据，第一训练数据、第二训练数据和第三训练数据之间的数据不相同。

可选的，第二处理单元507具体用于：通过激活函数对训练数据进行非线性处理，得到待计算数据，激活函数如下：

x表示训练数据；通过掩面多头自注意力子层和多头自注意力子层将待计算数据中的隐向量映射到不同的空间中，并进行自注意力机制计算，得到向量矩阵；对向量矩阵进行统计，得到业务产品待识别文本的候选句向量和业务规定条款的候选词向量；根据候选句向量和候选词向量计算Bert模型的召回率和精确率，得到Bert模型的效果值；根据效果值更新Bert模型的权重得到目标权重，输出目标权重对应生成的目标句向量和目标词向量。

可选的，链接单元510具体用于：调用纠错模型中的预置领域词典并通过匹配追踪算法对监管识别结果对应的业务产品待识别文本进行字词检测，得到错误字词，领域词典为基于预设领域创建的词典；通过自顶向下语法分析算法对监管识别结果对应的业务产品待识别文本进行语法检测，得到语法存在错误的错误语句；分析错误字词和错误语句对审核的综合影响程度，生成第一审核意见；对监管识别结果进行条款审核，生成第二审核意见；根据第一审核意见和第二审核意见生成目标审核意见，并将目标审核意见调加链接至监管识别结果。

上面图5至图6从模块化功能实体的角度对本申请实施例中的多模态获取监管识别结果的装置进行详细描述，下面从硬件处理的角度对本申请实施例中多模态获取监管识别结果的设备进行详细描述。

图7是本申请实施例提供的一种多模态获取监管识别结果的设备的结构示意图，该多模态获取监管识别结果的设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)701(例如，一个或一个以上处理器)和存储器709，一个或一个以上存储应用程序707或数据706的存储介质708(例如一个或一个以上海量存储装置)。其中，存储器709和存储介质708可以是短暂存储或持久存储。存储在存储介质708的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对签到管理设备中的一系列指令操作。更进一步地，处理器701可以设置为与存储介质708通信，在多模态获取监管识别结果的设备700上执行存储介质708中的一系列指令操作。

多模态获取监管识别结果的设备700还可以包括一个或一个以上电源702，一个或一个以上有线或无线网络接口703，一个或一个以上输入输出接口704，和/或，一个或一个以上操作系统705，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7中示出的多模态获取监管识别结果的设备结构并不构成对多模态获取监管识别结果的设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。处理器701可以执行上述实施例中创建单元501、识别单元502、提取单元503、更新单元504、分析单元505、第一处理单元506、第一处理单元507、第一计算单元508、第二计算单元509和链接单元510的功能。

下面结合图7对多模态获取监管识别结果的设备的各个构成部件进行具体的介绍：

处理器701是多模态获取监管识别结果的设备的控制中心，可以按照多模态获取监管识别结果的方法进行处理。处理器701利用各种接口和线路连接整个多模态获取监管识别结果的设备的各个部分，通过运行或执行存储在存储器709内的软件程序和/或模块，以及调用存储在存储器709内的数据，执行多模态获取监管识别结果的设备的各种功能和处理数据，从而解决目前业务监管条款和业务产品的语义相似度匹配问题的功能。存储介质708和存储器709都是存储数据的载体，本申请实施例中，存储介质708可以是指储存容量较小，但速度快的内存储器，而存储器709可以是储存容量大，但储存速度慢的外存储器。

存储器709可用于存储软件程序以及模块，处理器701通过运行存储在存储器709的软件程序以及模块，从而执行多模态获取监管识别结果的设备700的各种功能应用以及数据处理。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(预置的业务实体识别模型根据第一预设规则对知识图谱进行实体识别，得到实体等)等；存储数据区可存储根据签到管理设备的使用所创建的数据(通过预置的知识图谱模型和业务知识体系创建业务产品待识别文本和业务规定条款信息的知识图谱等)等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本申请实施例中提供的多模态获取监管识别结果的方法程序和接收到的数据流存储在存储器中，当需要使用时，处理器701从存储器709中调用。

在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多模态获取监管识别结果的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过语言Bert模型中的第一编码器和第二编码器对所述目标知识图谱和训练文本进行分析处理，获得融合待处理信息，所述第二编码器包括两个输入口和两个输出口，所述训练文本为各预设领域的业务类型对应的多种文本，包括：

对所述第一词和所述实体进行编码处理，得到待融合信息；

3.根据权利要求1所述的方法，其特征在于，所述根据所述实体和所述实体关系更新所述知识图谱，得到目标知识图谱，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述训练数据进行处理，得到目标句向量和目标词向量，所述目标句向量为业务产品待识别文本的句向量，所述目标词向量为业务规定条款的词向量，包括：

所述x表示所述训练数据；

5.根据权利要求1所述的方法，其特征在于，所述按照预设策略对所述融合待处理信息进行随机掩面处理，获得训练数据，包括：

6.根据权利要求1-5中任意一项所述的方法，其特征在于，所述按照预设权重比例计算所述语义余弦相似度和所述字符串相似度的加权平均值，并将大于预设阈值的加权平均值对应的业务规定条款信息作为最终的监管识别结果之后，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述分析所述监管识别结果并生成目标审核意见，并将所述目标审核意见调加链接至所述监管识别结果，所述目标审核意见包括结合对所述监管识别结果进行条款审核和对所述监管识别结果对应的业务产品待识别文本进行错误检测所得的审核意见，包括：

对所述监管识别结果进行条款审核，生成第二审核意见；

8.一种多模态获取监管识别结果的装置，其特征在于，所述装置包括：

分析单元，用于通过语言Bert模型中的第一编码器和第二编码器对所述目标知识图谱和训练文本进行分析处理，获得融合待处理信息，所述第二编码器包括两个输入口和两个输出口，所述训练文本为各预设领域的业务类型对应的多种文本；

9.一种多模态获取监管识别结果的设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的多模态获取监管识别结果的方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-7中任意一项所述的多模态获取监管识别结果的方法。