CN115759078A - 文本信息的处理方法、系统、设备及存储介质 - Google Patents

文本信息的处理方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115759078A
CN115759078A CN202211204275.8A CN202211204275A CN115759078A CN 115759078 A CN115759078 A CN 115759078A CN 202211204275 A CN202211204275 A CN 202211204275A CN 115759078 A CN115759078 A CN 115759078A
Authority
CN
China
Prior art keywords
mail
information
risk
label
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211204275.8A
Other languages
English (en)
Inventor
简仁贤
卢露
吴文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202211204275.8A priority Critical patent/CN115759078A/zh
Publication of CN115759078A publication Critical patent/CN115759078A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种文本信息的处理方法、系统、设备及介质,涉及人工智能技术领域,尤其是自然语言处理领域,该文本信息的处理方法包括:获取目标业务邮件;依据所述目标业务邮件进行分句处理,得到目标邮件句子信息;依据所述目标邮件句子信息进行标签转录处理,得到预测标签节点信息;依据所述预测标签节点信息,确定邮件风险元素序列组合模式;依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱,从而解决了现有技术中只能识别出邮件是否有风险而无法准确定位邮件中具有分风险的具体字词的问题,有利于风险长尾模式的发现,方便用户识别出长尾现象。

Description

文本信息的处理方法、系统、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本信息的处理方法、系统、设备及存储介质。
背景技术
随着人工智能技术的不断发展,诸如手机、电脑、平板等电子设备越来越普及,给人们的生活、工作以及学习带来了极大的便利。
例如,在金融投资领域,当风险触发、潜在风险显现、政策与行情动态变更时,基金管理公司及相关基金管理人通常收到基金托管银行发来的风险提示邮件。这种风险提示邮件的邮件内容主要是非结构化的文本、结构化的表格,存在篇章结构不规范的缺点,但风险提示邮件中的关键信息突出和领域相关性强的特点。具体而言,风险提示邮件分散在基金管理公司各个基金部门、基金经理邮箱,不便于统计分析,且各个基金部门、基金经理邮箱接收的业务邮件数量庞大、内容庞杂,给基金管理公司甄别风险和及时处理带来很大负担。现有相关技术基于文本分类的方式,通过对邮件中的句子进行分类标注标签,以将识别任务转换为简单的句子级分类任务,从而较好地完成对风险邮件的识别与抽取,但是无法将抽取到的风险邮件定位外具体的词句,不利于风险长尾模式的发现。
发明内容
有鉴于此,本申请提供了一种文本信息的处理方法、系统、设备及存储介质,以实现风险模式的自动识别,解决现有技术中只能识别出邮件是否有风险而无法准确定位邮件中具有分风险的具体字词的问题。
第一方面,本申请提供了一种文本信息的处理方法,包括:
获取目标业务邮件;
依据所述目标业务邮件进行分句处理,得到目标邮件句子信息;
依据所述目标邮件句子信息进行标签转录处理,得到预测标签节点信息;
依据所述预测标签节点信息,确定邮件风险元素序列组合模式;
依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱。
可选的,所述依据所述目标邮件句子信息进行标签转录处理,得到标签预测节点信息,包括:
确定所述目标邮件句子信息对应的标注标签结果,所述标注标签结果包含风险提示元素对应的风险元素标签;
依据所述风险元素标签进行转录处理,得到所述标签预测节点信息。
可选的,确定所述目标邮件句子信息对应的标签标注结果,包括:
依据所述目标邮件句子信息生成邮件词向量;
将所述邮件词向量输入预先训练的实体识别模型;
基于所述实体识别模型输出的实体标签信息和所述实体标签信息对应的边界位属性息,确定所述标签标注结果。
可选的,所述将所述邮件词向量输入预先训练的实体识别模型之前,还包括:
确定邮件的风险提示元素;
依据所述风险提示元素进行邮件标注处理,得到至少一个邮件分句信息和每一所述邮件分句信息对应的风险元素标注数据;
依据所述风险元素标注数据进行转录标记,得到转录标记结果,所述转录标记结果包含每一所述邮件分句信息对应的预测标签信息和所述预测标签信息对应的实体边界信息;
依据所述邮件分句信息、所述邮件分句信息对应的预测标签信息以及所述预测标签信息对应的实体边界信息进行模型训练,得到所述实体识别模型。
可选的,所述风险提示元素包含投资监督事项元素和/或投资监督细则元素,所述依据所述风险提示元素进行邮件标注处理,得到至少一个邮件分句信息和每一所述邮件分句信息对应的风险元素标注数据,包括:
获取样本邮件;
对所述样本邮件进行分句去重,得到至少一个待标注的所述邮件分句信息;
针对每一个待标注的所述邮件分句信息,基于所述投资监督事项元素和/或投资监督细则元素进行标注处理,得到每个所述邮件分句信息对应的风险元素标注数据。
可选的,依据所述目标邮件句子信息进行标签转录处理,得到标签预测节点信息,包括:
基于所述目标邮件句子信息进行语义编码,得到语义编码结果;
基于所述语义编码结果进行标签预测,得到所述目标邮件句子信息中各字符对应的风险预测标签信息;
基于所述各字符对应的风险预测标签,确定所述预测标签节点信息。
可选的,所述依据所述预测标签节点信息,确定邮件风险元素序列组合模式,包括:
确定所述预测标签节点信息中的主实体标签数据;
依据所述主实体标签数据的位置标识信息,确定与所述主实体标签数据关联的目标实体标签数据;
针对每一个主实体标签数据,基于所述目标实体标签数据中的风险提示元素确定风险元素序列组合模式;
基于预设的元素序列组合模式记录信息,确定所述风险元素序列组合模式对应的可信度;
将所述可信度达到预设可信度阈值对应的所述风险元素序列组合模式确定为所述邮件风险元素序列组合模式;
对所述可信度未达到预设可信度阈值对应的所述风险元素序列组合模式进行校正处理,得到所述邮件风险元素序列组合模式。
可选的,所述实体对象信息包含所述邮件风险元素序列组合模式中各风险提示元素的实例信息,所述依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱,包括:
获取所述邮件风险元素序列组合模式中各风险提示元素的边界属性信息;
基于所述各风险提示元素的边界属性信息,获取各风险提示元素的所述实例信息;
基于所述各风险提示元素的所述实例信息,结合邮件风险元素序列组合模式对应的属性关系信息,生成所述风险提示知识图谱。
可选的,所述依据所述目标业务邮件进行分句处理,得到目标邮件句子信息,包括:
确定所述目标业务邮件中包含的分句标点符号;
按照所述分句标点符号对所述目标业务邮件进行切分,得到至少两个邮件分句;
将所述邮件分句确定为所述目标邮件句子信息。
第二方面,本申请提供了一种文本信息的处理系统,包括:
邮件获取模块,用于获取目标业务邮件;
分句处理模块,用于依据所述目标业务邮件进行分句处理,得到目标邮件句子信息;
标签转录处理模块,用于依据所述目标邮件句子信息进行标签转录处理,得到预测标签节点信息;
组合模式确定模块,用于依据所述预测标签节点信息,确定邮件风险元素序列组合模式;
提示知识图谱模块,用于依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项所述的文本信息的处理方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的文本信息的处理方法的步骤。
本申请实施例通过获取目标业务邮件,并依据目标业务邮件进行分句处理,得到目标邮件句子信息,随后依据所述目标邮件句子信息进行标签转录处理,得到预测标签节点信息,以依据所述预测标签节点信息确定邮件风险元素序列组合模式,实现风险模式的自动识别,以及,依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱,以便后续利用该风险提示知识图谱进行邮件风险知识抽取、风险监控,解决了现有技术中只能识别出邮件是否有风险而无法准确定位邮件中具有分风险的具体字词的问题,有利于风险长尾模式的发现,方便用户识别出长尾现象。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本信息的处理方法的步骤流程图;
图2为本申请一个示例提供的一种风险提示知识图谱的结构示意图;
图3为本申请可选实施例提供的一种文本信息的处理方法的步骤流程图;
图4为本申请实施例提供的一种文本信息的处理系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本申请实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本申请实施例的限定。
参照图1,示出了本申请实施例提供的一种文本信息的处理方法的步骤流程图。具体的,本申请实施例提供的文本信息的处理方法可以适用于邮件风险提示场景,如可以适用于基于知识结构Schema自动识别基金管理公司业务邮件中基金风险提示场景中,具体可以包括如下步骤:
步骤110,获取目标业务邮件。
其中,目标业务邮件可以是指待处理的业务邮件,具体可以包含某一企业各个部门或个人邮箱接收到的待检测的邮件。以金融投资领域为例,在基金部门和/或基金经理邮箱接收到基金托管银行发来的业务邮件时,可以从基金部门和/或基金经理邮箱中提取出该业务邮件,以作为目标业务邮件。
步骤120,依据所述目标业务邮件进行分句处理,得到目标邮件句子信息。
具体而言,本申请实施例在获取目标业务邮件后,可以按照诸如换行符、句号、分号、叹号等符号对目标业务邮件进行分句处理,得到一个或多个邮件分句,并可将得到的邮件分句作为目标邮件句子信息,以便后续可以依据目标邮件句子信息进行标签转录处理,实现实体自动识别。
在一个可选实施方式中,本申请实施例依据目标业务邮件进行分句处理,得到目标邮件句子信息,具体可以包括:确定所述目标业务邮件中包含的分句标点符号;按照所述分句标点符号对所述目标业务邮件进行切分,得到至少两个邮件分句;将所述邮件分句确定为所述目标邮件句子信息。其中,分句标点符号可以用于进行句子切分,具体可以包含各种用于切分句子的标点符号,如可以包含有换行符、句号、分号、叹号等,本申请实施例对此不作具体限制。
步骤130,依据所述目标邮件句子信息进行标签转录处理,得到预测标签节点信息。
具体的,本申请实施例在得到目标邮件句子信息后,可以根据标注规范,按照预设的风险提示元素的知识结构Schema的定义对目标邮件句子信息进行实体识别,以基于识别出的实体和实体边界确定出目标邮件句子信息对应的标签标注结果,随后可依据标签标注结果中所包含的风险提示元素对应的风险元素标签进行转录处理,得到标签预测节点信息。其中,标签标注结果可以包含一个或多个风险提示元素对应的风险元素标签,本申请实施例对此不作具体限制。
可选的,本申请实施例依据所述目标邮件句子信息进行标签转录处理,得到标签预测节点信息,具体可以包括:确定所述目标邮件句子信息对应的标注标签结果,所述标注标签结果包含风险提示元素对应的风险元素标签;依据所述风险元素标签进行转录处理,得到所述标签预测节点信息。
具体而言,本申请实施例可以根据风险提示元素的定义,在目标邮件句子信息的原文中标注出相应字串序列,以标注风险提示元素对应的实体,并可标注各个风险提示元素之间的实体关系,从而可以基于标注的风险提示元素对应的实体和实体关系生成目标邮件句子信息对应的标注标签结果,使得标签标注结果可以包含各个风险提示元素对应的风险元素标签,随后可依据标签标注结果包含的风险提示元素对应的风险元素标签进行转录处理,得到标签预测节点信息。
例如,可以将该标签标注结果中所包含的风险提示元素对应的风险元素标签转换为BOI形式标注,以采用B-X标记实体的起始,并可采用I-X标记实体的中间,以及采用O标记无关的字符,从而可以得到目标邮件句子信息中各字词对应BOI节点类型标签,以作为标签预测节点信息。其中,标签预测节点信息可以包含一个或多个主实体标签数据,且每个主实体标签数据可以用于确定风险提示元素对应的主实体和该主实体对应的实体边界信息。
需要说明的是,B-X和I-X中的X可以分别取预先定义的风险提示元素。作为本申请的一个示例,在预先定义的风险提示元素包含有邮件目的(Intent,Int)、产品类型(Financial Product,Product)、投资监督事项大项(Supervision,Sup)、投资监督事项细则(Specific Supervision,Spc-Sup)的情况下,在B-X用于标注投资监督事项大项中的投资比例规定时,B-X中的X可以是Sup_Scale,以采用B-Sup_Scale标注邮件句子信息中有关投资比例规定的文本,如采用B-Sup_Scale标注目标邮件句子信息“非货币市场基金投资银行存款、存单的整体上限:除合同另有约定外,产品开户完成后投资存款、存单不超过基金资产净值的20%”,以表示目标邮件句子信息“非货币市场基金投资银行存款、存单的整体上限:除合同另有约定外,产品开户完成后投资存款、存单不超过基金资产净值的20%”对应的风险提示元素为投资监督事项大项中的投资比例规定;在B-X用于标注产品类型中的债券型时,B-X中的X可以是Product_bond,以采用B-Product_bond标注邮件句子信息中有关产品类型的债券型的文本,如采用B-Product_bond标注目标邮件句子信息“B债券型证券投资基金”,以表示目标邮件句子信息“B债券型证券投资基金”对应的风险提示元素为产品类型中的债券型;同理,在B-X用于标注投资监督事项细则中的投资比例异常时,B-X中的X可以是Spc_abnormal,以采用B-Spc_abnormal标注邮件句子信息中有关产品类型的债券投资比例异常的文本,如采用B-Spc_abnormal标注目标邮件句子信息“投资于存款、存单合计占基金资产净值的比例超过20%”,以表示目标邮件句子信息“投资于存款、存单合计占基金资产净值的比例超过20%”对应的风险提示元素为投资监督事项细则中的投资比例异常。此外,可以采用I-Product_bond标注邮件句子信息中有关债券型的实体中间文本,并可采用I-Spc_abnormal分别标注邮件句子信息中有关债券投资比例异常的实体中间文本等,本示例对此不作具体限制。
步骤140,依据所述预测标签节点信息,确定邮件风险元素序列组合模式。
具体的,本申请实施例在得到预测标签节点信息后,可以根据该预测标签节点信息中所包含的主实体标签数据和与该主实体标签数据关联的目标实体标签数据,确定出预测标签节点信息中各个风险提示元素之间的对应关系,以基于各个风险提示元素之间的对应关系确定出一个或多个风险元素序列组合模式(Pattern),并可基于预设的序列标注规则确定每一个风险元素序列组合模式的可信度,以基于可信度从确定出风险元素序列组合模式中选取可信度最高的风险元素序列组合模式,作为邮件风险元素序列组合模式。
步骤150,依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱。
其中,实体对象信息可以用于表示邮件风险元素序列组合模式中各风险提示元素的实体对象,具体可以包含邮件风险元素序列组合模式中各风险提示元素的实例信息,该实例信息可以用于表示风险提示元素的实例。具体而言,本申请实施例在确定出邮件风险元素序列组合模式后,可以识别该邮件风险元素序列组合模式中各类风险提示元素的具体类别,以基于各类风险提示元素的具体类别确定该邮件风险元素序列组合模式中各风险提示元素之间的关系,并可获取该邮件风险元素序列组合模式中各风险提示元素的实例信息,以基于各风险提示元素的实例信息,结合各风险提示元素之间的关系,生成目标业务邮件对应的风险提示知识图谱。该风险提示知识图谱可以用于确定目标业务邮件中所包含的风险提示元素、各风险提示元素对应的风险类型、各风险类型的实例信息以及各实例信息之间对应的关联关系等,以便后续可以利用该风险提示知识图谱进行邮件风险知识抽取、风险监控,有利于风险提示长尾模式的发现。
可见,本申请实施例通过获取目标业务邮件,并依据目标业务邮件进行分句处理,得到目标邮件句子信息,随后依据所述目标邮件句子信息进行标签转录处理,得到预测标签节点信息,以依据所述预测标签节点信息确定邮件风险元素序列组合模式,实现风险模式的自动识别,以及,可以依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱,以便后续利用该风险提示知识图谱进行邮件风险知识抽取、风险监控,解决了现有技术中只能识别出邮件是否有风险而无法准确定位邮件中具有分风险的具体字词的问题,有利于风险长尾模式的发现,方便用户识别出长尾现象。
图2为本申请一个示例提供的一种风险提示知识图谱的结构示意图。具体的,本示例可以基于业务邮件的风险识别需求,预先定义了每个风险提示元素的属性关系信息,以对每个风险提示元素定义了属性和关系,形成结构化的类别,从而可以在此基础上,从获取到的目标业务邮件中标注关键词句,并可通过序列标注、识别各类风险提示元素的具体类别,以通过对各风险提示元素的识别,利用频繁项挖掘算法或规则,实现对风险模式的自动识别,从而确定出邮件风险元素序列组合模式,进而可以依据邮件风险元素序列组合模式对应的实体对象信息生成最终的知识图谱,如图2所示,风险提示知识图谱可以包含4个风险提示元素的集合、各个风险提示元素对应的实例信息等,本示例对此不作具体限制。其中,4个风险提示元素可以分别是邮件目的Intent、产品类型Financial Product、投资监督事项大项Supervision、投资监督事项细则Specific Supervision。
在一个可选实施方式中,本申请实施例中的实体对象信息可以包含所述邮件风险元素序列组合模式中各风险提示元素的实例信息,上述依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱,具体可以包括:获取所述邮件风险元素序列组合模式中各风险提示元素的边界属性信息;基于所述各风险提示元素的边界属性信息,获取各风险提示元素的所述实例信息;基于所述各风险提示元素的所述实例信息,结合邮件风险元素序列组合模式对应的属性关系信息,生成所述风险提示知识图谱。
参照图3,示出了本申请可选实施例提供的一种文本信息的处理方法的步骤流程图。具体而言,本申请实施例提供的文本信息的处理方法具体可以包括如下步骤:
步骤301,获取目标业务邮件;
步骤302,确定所述目标业务邮件中包含的分句标点符号;
步骤303,按照所述分句标点符号对所述目标业务邮件进行切分,得到至少两个邮件分句;
步骤304,将所述邮件分句确定为所述目标邮件句子信息;
步骤305,确定所述目标邮件句子信息对应的标注标签结果,所述标注标签结果包含风险提示元素对应的风险元素标签;
步骤306,依据所述风险元素标签进行转录处理,得到标签预测节点信息;
步骤307,依据所述预测标签节点信息,确定邮件风险元素序列组合模式;
步骤308,获取所述邮件风险元素序列组合模式中各风险提示元素的边界属性信息;
步骤309,基于所述各风险提示元素的边界属性信息,获取各风险提示元素的所述实例信息;
步骤310,基于所述各风险提示元素的所述实例信息,结合邮件风险元素序列组合模式对应的属性关系信息,生成所述风险提示知识图谱。
具体的,本申请实施例在获取到目标业务邮件后,可以按照预设的文本预处理方式对该目标业务邮件进行唯一编码,并可按照诸如换行符、句号、分号、叹号等分句标点符号对目标业务邮件进行分句,且段落标记可以以空行表示,以对目标业务邮件中的句子进行唯一编码,再去重,随后可基于去重后的句子对目标业务邮件分句后的文本进行分词、编号处理,确定出每个邮件分句中的各个分词和每个分词对应的分词编号,进而可以基于每个邮件分句中的各个分词和分词对应的分词编号,按照预设的风险提示元素的知识结构Schema的定义对目标邮件句子信息进行实体识别,以识别该目标邮件句子信息中所包含的风险提示元素对应的风险类别和各个风险类别对应的实体边界信息,进而可以基于目标邮件句子信息中所包含的风险提示元素对应的风险类别和各个风险类别对应的实体边界信息,生成目标邮件句子信息对应的标注标签结果,使得目标邮件句子信息对应的标注标签结果可以包含一个或多个风险提示元素对应的风险元素标签,且该风险元素标签可以用于确定风险提示元素对应的风险类别,以便后续可以依据标注标签结果包含的风险元素标签进行转录处理,得到标签预测节点信息。
可选的,本申请实施例确定所述目标邮件句子信息对应的标签标注结果,具体可以包括:依据所述目标邮件句子信息生成邮件词向量;将所述邮件词向量输入预先训练的实体识别模型,并基于所述实体识别模型输出的实体标签信息和所述实体标签信息对应的边界位属性息,确定所述标签标注结果。
具体而言,本申请实施例中的目标邮件句子信息可以包含用于组成句子的一系列字词。本申请实施例可以将每个目标邮件句子信息中的字词转换为向量,以将转换后得到词向量作为目标邮件句子信息对应的邮件词向量,并可将邮件词向量输入预先训练好的实体识别模型,以基于邮件词向量通过实体识别模型进行风险提示元素的实体识别,得到实体识别模型输出的实体标签信息和该实体标签信息对应的边界属性信息,以基于实体标签信息和实体标签信息对应的边界位属性息生成目标邮件句子信息对应的标签标注结果,以便后续可以基于标签标注结果所包含的风险提示元素对应的风险元素标签进行转录处理,得到标签预测节点信息。
作为本申请的一个示例,可以预先根据邮件的风险提示识别与分类的需要,定义邮件“风险提示”的知识结构Schema,如可基于风险提示相关知识定义风险提示邮件中所包含的4种风险提示元素,分别是邮件目的、产品类型、投资监督事项大项、投资监督事项细则,即将邮件中“风险提示”看作包含4个元素的集合,而非具体的模式,并可对每个元素定义了属性和关系,形成结构化的类别。具体而言,风险提示相关知识可以包括所关涉的金融投资产品类型、触发风险事项、发件人邮件寄发目的等;其中,产品类型可以为行业/用户根据自身产品生态所梳理的实体链;触发风险事项可以是指根据企业业务特征、监管要求、合同规定,而约定当某些事件发生、显现时,将这些事件抽象概括为为风险事项;发件人邮件寄发目的可以是指发件人在发出邮件时,根据合同约定、业务特征、监管要求,有不同的信息给予意图,需要收件人采取不同的措施、态度。因此,本示例可以将邮件“风险提示”的知识结构定义为包含3类知识的结构数据:邮件目的(Intent,Int)、产品类型(FinancialProduct,Product)、投资监督事项;其中,投资监督事项可以是本示例中主要识别对象,并可根据业务聚焦程度对该类型的风险提示元素进行粒度不等的细分,如可将该类型的风险提示元素分为投资监督事项大项及其可能存在的细粒度知识“投资监督事项细则”。
需要说明的是,邮件目的可以是指发件人发送邮件的目的、意图,包括:答复、监管报告与提示、建仓期监管报告与提示、卖出提示、潜在风险提示、邮件撤回通告、政策变更提示、要求汇报说明或备案、豁免申请提示等,本示施例对此不作具体限制;产品类型可以是指风险提示所涉及的投资理财产品,比如:混合型、股票型、货币型、债券型、指数型、ETF型、FOF类、QDII类、联接型、普通企业年金、社保基金、基本养老、养老金产品、职业年金、一对多、一对一等,本示例对此不作具体限制;投资监督事项大项可以是指发件人针对相关规定、合同所约定的内容,对存在潜在风险、已经触发风险的事项进行提示,比如:持有股票涨跌幅达到阈值、行情动态、信息披露规定、投资比例规定、投资范围规定、投资非公开发行资产规定、持有可转债潜在缺失、投资基准与目标规定、期限内买卖规定等,本示例对此不作具体限制;投资监督事项细可以用于确定监督事项中一些重要的风险提示规定中比较突出的事件,具体可以是高频的、客户关心的具体事项,如股市波动、投资比例异常、赎回卖出异常、单类配置异常、关联方信息、限投亏损股票、存在限投证券、限投非公开发行公司债、禁限投信息更新和其它细则规定等,本示例对此不作具体限制。其中,股市波动可以是指在行情动态中,托管行对股市波动可能造成损益的情况需要进行提示的事项;投资比例异常可以是指在投资比例规定中,对产品某类资产类型占比超过或低于阈值的监督事项;赎回卖出异常可以是指投资比例规定中,存在大额赎回卖出证券,或因大额赎回卖出导致投资比例被动异常;单类配置异常可以是指投资比例规定中,对产品某类行业占比超过或低于阈值的监督;关联方信息可以是指信息披露规定中,要求对关联关系、关联人和关联交易进行披露说明的监管要求;限投亏损股票可以是指投资范围规定中,对于禁投、限投范围的更新提示、说明;存在限投证券可以是指投资范围规定中,提示存在禁投、限投证券,但并未明确说明属于何种证券(主要出现在拆句后的句子中),或者明确指出是何种证券,但并未明确说明限投原因,比如未说明是因为亏损;限投非公开发行公司债可以是指投资范围规定中,限制继续投资非公开发现的公司债的提示;禁限投信息更新可以是指投资范围规定中,对于禁投、限投范围的更新提示、说明。
在具体实现中,投资监督事项可以是风险提示邮件中必有的知识项。邮件中的风险提示知识可以有上述4中风险提示元素随机组合而成,其中投资监督事项可以是必选项。具体的,本示例可以将4种知识项看作风险提示集合种的4个元素,风险提示知识可以看作一个集合{Int,Product,Sup,Spc-Sup},其中{Sup,Spc-Sup}至少有1个会出现在风险提示知识结构中。本示例可以通过定义风险提示知识结构,对获取到的邮件进行文本预处理,并对文本预处理后得到的字词进行标注,以根据风险提示元素的定义在邮件原文中标注出相应字串序列,达到标注元素的目的,并可标注关系,如除了“监督事项大项”外,可在其它标注的元素后加入所依赖的“监督事项大项”的“_id号_最后一个词词序号”,使得其它元素都可依赖于一项已识别的“监督事项大项”;如果该邮件中只有一个产品类型、意图类型,依次依赖于多个“监督事项大项”,则不必在其后加入“_id号_最后一个词词序号”,本示例对此不作具体限制。
例如,可以采用人工标注方式,直接在文本上标注标签,如下文所示:
ID1:一_1、_2贵司_3管理_4的_5产品_6<start:Product_id3_13债券型>A债券_7型_8证券_9投资_10基金_11<\end>合同_12约定_13:_14
ID2:
ID3:二_1、_2“_3<start:Sup投资比例规定>基金_4总_5资产_6不_7超过_8基金_9净资产_10的_11_12 140%_13<\end>,_14”_15 2020.5.19日_16<start:Spcid3_13投资比例异常>基金_17总_18资产_19超过_20基金_21净资产_22的_23 140%_24<\end>。_25
ID4:
ID5:三_1、_2根据_3中国证券投资基金业协会_4《_5 2019年督察长培训班暨公募基金产品业务培训班_6》_7(_8 2019年11月15日_9宁波_10召开_11)_12发布_13的_14最新_15监管_16要求_17:_18
ID6:“_1<start:Sup投资比例规定>非_2货币_3市场_4基金_5投资_6银行_7存款_8、_9存单_10的_11整体_12上限_13:_14除_15合同_16另_17有_18约定_19外_20,_21产品_22开户_23完成_24后_25投资_26存款_27、_28存单_29不_30超过_31基金_32资产_33净值_34的_35 20%_36<\end>。_37”_38
ID7:2020年5月19日_1,_2贵司_3管理_4的_5产品_6<start:Product_id6_36债券型>B债券_7型_8证券_9投资_10基金_11<\end><start:Spc_id6_36投资比例异常>投资_12于_13存款_14、_15存单_16合计_17占_18基金_19资产_20净值_21的_22比例_23超过_2420%_25<\end>。_26
ID8:
ID9:四_1、_2监控_3结果_4显示_5贵司管理_6的_7“_8<start:Product_id11_63债券型>B债券_9型_10证券_11投资_12基金_13<\end>”_14<start:Spc赎回卖出异常_id11_63>存在_15巨额_16赎回_17的_18问题_19<\end>。_20
ID10:
ID11:五_1、_2<start:Sup投资比例规定>组合_3投资_4流动性_5资产_6(_7含_8银行_9活期_10存款_11、_12中央银行_13票据_14、_15一年期_16以内_17(_18含_19一年_20)_21的_22银行_23定期_24存款_25、_26债券_27回购_28、_29货币_30市场_31基金_32、_33货币型_34养老金_35产品_36、_37清算_38备付金_39、_40证券_41清算款_42及_43一级_44市场_45证券_46申购_47资金_48)_49的_50比例_51,_52合计_53不得_54低于_55投资_56组合_57委托_58投资_59资产_60净值_61的_62 5%_63<\end>。_64
ID12:<start:Spc_id11_63赎回卖出异常>指标值_1_2 0.0489_3_4<_5_6阀值_7_8 0.05_9;_10(_11连续_12第6个_13交易日_14)_15<\end>。_16
ID13:
ID14:烦_1请_2贵司_3根据_4合同_5约定_6及_7有关_8监管_9要求_10予以_11关注_12,_13并_14<start:Int要求汇报说明或备案>请_15回复_16我_17部_18相关_19违规_20原因_21及_22纠正_23期限_24<\end>,_25并_26保证_27在_28规定_29期限_30内_31及时_32纠正_33。_34
ID15:非常_1感谢_2!_w3
其中,ID1-ID15可以作为邮件分句后的序列标记,其中有序列标记ID但无内容的行(即空白行)可以是标记原始段落边界,如ID2、ID4、ID8、ID10以及ID13可以用于标记邮件中原始段落边界;而其它有ID且有内容的序列标记,可以为原始邮件中被分句规则分割出来的句子,如ID1、ID3、ID5、ID6、ID7、ID9、ID11、ID12、ID14以及ID15可以用于标记原始邮件中被分句规则分割出来的句子。它们各自在原文中的顺序可以通过ID序号得以保存,原始段落信息可以通过留白得以保存,从而可以标记邮件中各个段落的段落信息,以便后续利用段落信息基于规则确定邮件风险元素序列组合模式;每个字词后面的“_数字”可以作为邮件分句中各字词的编号,具体可以用于标注邮件分句中各字词的位置;符号<>中的内容可以作为目标邮件句子信息对应的标注标签结果,具体可以风险提示元素对应的风险元素标签。
当然,除了可以采用人工标注方式除了直接在文本上标注标签,也可以采用其他方式进行标注,如可以标注工具进行视图标注,再将标注结果存储为JSON格式等,本申请实施例对此不作具体限制。
本申请实施例在标注数据后,可以基于该标注数据生成标注结果,并可对标注结果进行质检,以保证标注的一致性和准确性,随后可将标注数据转录为BOI形式,以采用B-X标记实体的起始,采用I-X标记实体的中间,采用O标记无关的字符,且X可以分别取预先定义的风险提示元素,以生成序列化后的结果,从而可以基于序列化后的结果生成预测标签节点信息,使得预测标签节点信息可以包含一个或多个主实体标签数据。其中,序列号后的数据格式可以每一行由一个字及其对应的标注组成,标注集可以采用BIO形式表示,句子之间可以用一个或多个空行隔开,本申请实施例对此不作具体限制。
在一个可选实施例中,本申请实施例可以将标注数据作为训练、测试数据,并采用预设的模型算法进行模型训练,以训练出实体识别模型,以便后续可以利用该实体识别模型进行风险提示元素的实体识别,输出实体标签信息和该实体标签信息对应的边界属性信息。可选的,在上述实施例的基础上,本申请实施例提供的文本信息的处理方法在将所述邮件词向量输入预先训练的实体识别模型之前,还可以包括:确定邮件的风险提示元素;依据所述风险提示元素进行邮件标注处理,得到至少一个邮件分句信息和每一所述邮件分句信息对应的风险元素标注数据;依据所述风险元素标注数据进行转录标记,得到转录标记结果,所述转录标记结果包含每一所述邮件分句信息对应的预测标签信息和所述预测标签信息对应的实体边界信息;依据所述邮件分句信息、所述邮件分句信息对应的预测标签信息以及所述预测标签信息对应的实体边界信息进行模型训练,得到所述实体识别模型。
具体而言,在定义好预设的各个风险提示元素的内容后,可以按照风险提示元素的定义内容确定邮件的风险提示元素,随后可基于确定出的风险提示元素对获取到的邮件进行标注处理,以标注出邮件中每一个邮件分句信息对应的风险提示元素,从而可以每一个邮件分句信息对应的风险提示元素确定每一个邮件分句信息对应的风险元素标注数据,如在邮件分句信息“A债券型证券投资基金”对应的风险提示元素为产品类型Product时,可以基于产品类型Product将“<start:Product_id3_13债券型>A债券_7型_8证券_9投资_10基金_11<\end>”确定邮件分句信息“A债券型证券投资基金”对应的风险元素标注数据,以便后续可以依据风险元素标注数据进行转录标记,使得转录标记结果可以包含邮件分句信息对应的预测标签信息和预测标签信息对应的实体边界信息,进而可以采用邮件分句信息、邮件分句信息对应的预测标签信息以及预测标签信息对应的实体边界信息进行模型训练,以训练出实体识别模型。
在一个可选实施方式中,本申请实施例中的风险提示元素可以包含投资监督事项元素和/或投资监督细则元素,上述依据所述风险提示元素进行邮件标注处理,得到至少一个邮件分句信息和每一所述邮件分句信息对应的风险元素标注数据,具体可以包括:获取样本邮件;对所述样本邮件进行分句去重,得到至少一个待标注的所述邮件分句信息;针对每一个待标注的所述邮件分句信息,基于所述投资监督事项元素和/或投资监督细则元素进行标注处理,得到每个所述邮件分句信息对应的风险元素标注数据。其中,样本邮件可以是指用于模型训练的邮件,具体可以包括从模型训练的样本数据集中获取一个或多个业务邮件,且该样本数据集可以通过收集历史数据形成,本申请实施例对此不作具体限制。
具体的,本申请实施例在确定邮件的风险提示元素后,可以从预设的样本数据集中提取出样本邮件,并可按照换行符、句号、分号、叹号等分句标点符号对该样本邮件进行分句,得到一个或多个邮件分句,并可基于样本邮件对应的唯一编码对得到的各个邮件分句进行唯一编码,得到各个邮件分句对应的唯一编码,随后可基于各个邮件分句对应的唯一编码进行邮件分句去重处理,得到去重后的邮件分句,进而可以将去重后的邮件分句作为待标注的邮件分句信息,随后可基于投资监督事项元素和/或投资监督细则元素,按照风险提示元素的定义对每一个待标注的邮件分句信息进行标注,以标注风险提示元素对应的实体,并可标注各个风险提示元素之间的实体关系,从而可以基于标注的风险提示元素对应的实体和实体关系生成邮件分句信息对应的风险元素标注数据,以便后续可以依据风险元素标注数据进行转录标记,得到邮件分句信息对应的预测标签信息和预测标签信息对应的实体边界信息,进而可以依据邮件分句信息对应的预测标签信息和预测标签信息对应的实体边界信息进行模型训练,得到实体识别模型。
可见,本申请实施例在模型训练阶段,可以根据预先定义的风险元素的内容确定邮件的风险提示元素,随后可基于风险提示元素对获取到的样本邮件进行分句去重,得到去重后的邮件分句,并可将去重后得到邮件确定为待标注的邮件分句信息,以便后续可以针对每一个待标注的邮件分句信息,基于投资监督事项元素和/或投资监督细则元素,按照风险提示元素的定义进行标注处理,得到每个邮件分句信息对应的风险元素标注数据,以依据风险元素标注数据进行转录标记,得到邮件分句信息对应的预测标签信息和预测标签信息对应的实体边界信息,进而可以依据邮件分句信息、邮件分句信息对应的预测标签信息以及预测标签信息对应的实体边界信息进行模型训练,得到实体识别模型,以便在模型应用推理阶段可以利用该实体识别模型进行风险提示元素的实体识别,得到实体识别模型输出的实体标签信息和该实体标签信息对应的边界属性信息。
例如,可以以标注数据作为训练、测试数据,采用BERT、BiLSTM以及CRF等算法训练实体识别模型。具体的,首先可以通过BERT预训练语言模型,在大规模文本上训练字符级别的词嵌入表示,得到句子中每个字符的向量表示,即利用BERT预训练语言模型,生成样本邮件中各个邮件分句中的每一字符对应的字符向量,以基于各个邮件分句中的每一字符对应的字符向量生成邮件分句对应的字符向量序列,然后将字符向量序列输入到BiLSTM中做进一步语义编码,以获得更多的字符间依赖,得到语义编码结果,随后可基于该语义编码结果通过CRF解码的方式进行标签预测,得到邮件分句中各字符对应的风险预测标签信息,以基于邮件分句中字符对应的风险预测标签信息输出实体标签信息及其边界属性信息。其中,实体标签信息可以用于表示输出的风险实体和风险实体所示的风险类别;边界属性信息可以用于表示风险实体对应的边界,如可以用于表示风险实体的起始位置和/或实体中间位置等,本示例对此不作限制。
本申请实施例在训练出实体识别模型后,可利用该实体识别模型进行风险提示元素的实体识别,以基于实体识别模型输出的实体标签信息和实体标签信息对应的边界属性信息生成目标邮件句子信息对应的标签标注结果。具体而言,在模型应用推理阶段,本申请实施例可以将待处理的业务邮件作为目标业务邮件,并可在获取到目标业务邮件后,按照该目标业务邮件中包含的分句标点符号对目标业务邮件进行切分,得到切分后的两个或两个以上的邮件分句,随后可将得到的各个邮件分句作为目标邮件句子信息,以依据目标邮件句子信息中所包含的一系列字词生成相应的字符向量序列,从而可将字符向量序列输入到实体识别模型,以通过实体识别模型基于该字符向量序列进行风险提示元素的实体识别,识别出目标邮件中的风险提示元素的实体和实体边界,进而可以基于该实体和实体边界输出相应的实体标签信息和实体标签信息对应的边界属性信息,生成目标邮件句子信息对应的标签标注结果,使得目标邮件句子信息对应的标注标签结果可以包含一个或多个风险提示元素对应的风险元素标签,以便后续可以依据标注标签结果包含的风险元素标签进行转录处理,得到标签预测节点信息。
在一个可选实施方式中,本申请实施例依据所述目标邮件句子信息进行标签转录处理,得到标签预测节点信息,具体可以包括:基于所述目标邮件句子信息进行语义编码,得到语义编码结果;基于所述语义编码结果进行标签预测,得到所述目标邮件句子信息中各字符对应的风险预测标签信息;基于所述各字符对应的风险预测标签,确定所述预测标签节点信息。其中,语义编码结果可以用于确定目标邮件句子信息中各个字符间的依赖关系,以便后续可以利于字符间的依赖关系,通过CRF解码的方式进行标签预测,得到目标邮件句子信息中各字符对应的风险预测标签信息。
本申请实施例在得到目标邮件句子信息中各字符对应的风险预测标签信息后,可以将各字符对应的风险预测标签信息作为目标邮件句子信息对应的标注标签结果,使得目标邮件句子信息对应的标注标签结果可以包含一个或多个风险提示元素对应的风险元素标签,随后可基于标注标签结果包含的的风险元素标签生成预测标签节点信息,以便后续可以依据预测标签节点信息确定邮件风险元素序列组合模式。
作为本申请的一个示例,可以利用预设的文本相似度计算工具对标注标签结果中所包含的风险元素标签进行相似度处理,以将实体识别模型所识别到的各类风险提示元素与已标注语料库中的同类型风险提示元素的语料对比,计算各识别到的风险提示元素与语料库中的风险提示元素相似度,得到每一个识别到的风险提示元素对应的相似度,进而可以基于相似度确出目标邮件句子信息最终对应的风险元素标签,以基于目标邮件句子信息最终对应的风险元素标签确定邮件风险元素序列组合模式。具体而言,通过将实体识别模型识别到的各类风险提示元素与已标注语料库中的同类型风险提示元素的语料进行比较,即将当前实体识别模型标注的邮件句子与已标注语料库中的句子进行比较,并将实体识别模型所识别到的风险提示元素与已标注语料库中的风险提示元素进行比较,从而可以在当前实体识别模型标注的句子与语料库中某个句子相似度高且标签标注一致时将识别到的风险提示元素对应的相似度设置为高于相似度阈值的相似度,并可作为预测标签节点信息,以便后续可以直接将识别到的风险提示元素所组合而成的模式确定为邮件风险元素序列组合模式;而在当前实体识别模型标注的句子与语料库中某个句子相似度高但标签标注一致时,可以将识别到的风险提示元素对应的相似度设置为低于相似度阈值的相似度,并可作为预测标签节点信息,随后可通过人工校订方式对识别到的的风险提示元素所组合而成的模式进行校订,以便后续利用校订后的数据确定邮件风险元素序列组合模式。
例如,在对识别准确度要求较高的情况下,可以将识别到的每一个风险提示元素对应的相似度与预设的相似度阈值进行比较,以将相似度低于相似度阈值对应的识别结果提交给用户进行校订,实现人工校订,随后可基于校订后的风识别结果确定出目标邮件句子信息最终对应的风险元素标签,以便后续可利用校订后的数据确定邮件风险元素序列组合模式。可选的,在对识别准确度无更高要求的情况下,可以不考虑风险提示元素对应的相似度,直接利用风险提示元素对应的识别结果确定本次的邮件风险元素序列组合模式,并且可以将相似度低于相似度阈值对应的识别结果提交给用户进行校订,以将校订后的风识别结果保留到下一次计算使用,本示例对此不作具体限制。
可选的,本申请实施例依据所述预测标签节点信息,确定邮件风险元素序列组合模式,具体可以包括:确定所述预测标签节点信息中的主实体标签数据;依据所述主实体标签数据的位置标识信息,确定与所述主实体标签数据关联的目标实体标签数据;针对每一个主实体标签数据,基于所述目标实体标签数据中的风险提示元素确定风险元素序列组合模式;基于预设的元素序列组合模式记录信息,确定所述风险元素序列组合模式对应的可信度;将所述可信度达到预设可信度阈值对应的所述风险元素序列组合模式确定为所述邮件风险元素序列组合模式;对所述可信度未达到预设可信度阈值对应的所述风险元素序列组合模式进行校正处理,得到所述邮件风险元素序列组合模式。
作为本申请的一个示例,在经过实体识别模型识别后,可以基于预设规则,通过预先定义的知识结构Schema模板,分析预测标签节点信息中各个风险提示元素之间的对应关系,如结合上述示例,分析4类风险提示元素之间的对应关系,以基于分析出的对应关系,采用主实体标签数据和与主实体标签数据关联的目标实体标签数据确定邮件风险元素序列组合模式。
具体的,可以预先利用已标注邮件风险提示的语料库,统计“邮件目的-产品类型-监督事项大项-监督事项细则”的Pattern,形成风险提示Pattern数据库,该风险提示Pattern数据库可以包含包含有预先标注的各种风险元素序列组合模式和每一个风险元素序列组合模式下的实例信息,如风险元素序列组合模式下的实例信息表示为:要求汇报说明或备案-债券型-投资比例规定-投资比例异常、要求汇报说明或备案-债券型-投资比例规定-赎回卖出异常等,本示例对此不作具体限制。
本示例在得到标签预测节点信息后,可以在标签预测节点信息中查找投资监督事项类标签,以将查找到的找到投资监督事项类标签确定为主实体标签数据。例如,考虑到析4类风险提示元素中的“监督事项细则”与“监督事项大项”往往是成对出现的,可以根据Schema中结构定义及就近原则,将“监督事项细则”与相关“监督事项大项”关联,以将处在同一句话中、同一段话中的“监督事项细则”与“监督事项大项”优先组合成一个“监督事项大项-监督事项细则”Pattern,以“监督事项大项”作为主实体标签数据;如果“监督事项细则”与相关“监督事项大项”不在同一行、同一段中,则可以以该“监督事项细则”为中心,分别向前、向后搜索最近出现实体“监督事项大项”的句ID,并可判断该“监督事项细则”与最近的“监督事项大项”组成的“监督事项大项-监督事项细则”是否符合Schema中结构定义,如果符合定义则将该Pattern保留;如果不符合则进一步判断距离次进的“监督事项大项-监督事项细则”是否符合Schema中结构定义,如果符合定义则将该Pattern保留,如果不符合则以该“监督事项细则”作为独立的主实体标签数据,从而可以根据共享原则与就近原则,将产品类型与意图类型,与监督事项中的主实体相关联,达到确定与主实体标签数据关联的目标实体标签数据的目的。
随后,可统计当前分析邮件中产品类型、意图类型的个数,以根据邮件中产品类型、意图类型的个数,确定风险元素序列组合模式和风险元素序列组合模式对应的可信度。例如,在产品类型或意图类型的个数小于等于1时,可以根据Schema中结构定义,依次给每一个已识别的监督事项Pattern中,加上0-1个产品类别,或意图类别,构成一个完整的“邮件目的-产品类型-监督事项大项-监督事项细则”的Pattern;而在产品类型或意图类型的个数大于1时,可以根据就近原则,与主实体处在同一句话中、同一段话中的“产品类型”与“意图类型”优先组合成一个“邮件目的-产品类型-监督事项大项-监督事项细则”的Pattern。可选的,在产品类型或意图类型的个数大于1,且在同一行、同一段中找不到主实体标签数据时,可以以该产品类型或意图类型为中心,分别向前、向后搜索最近出现的主实体的句ID,过程中如果读取到同类型元素,则终止查找过程,否则一直向前或向后搜索,直到遇到1个主实体标签数据,从而可以找到至少1个、最多2个主实体标签数据。在找到主实体标签数据后,可以将找到的1-2个主实体标签数据与该产品类型、意图类型组合成“邮件目的-产品类型-监督事项大项-监督事项细则”的Pattern,以作为风险元素序列组合模式,并可通过在风险提示Pattern数据库中查找是否有与当前统计Pattern一致的Pattern历史记录,以基于预设的元素序列组合模式记录信息确定当前统计Pattern对应的可信度。例如,如果只找到1个主实体标签数据,且该主实体标签数据与产品类型、意图类型所组合而成的Pattern在风险提示Pattern数据库中存在,则可以将该Pattern的可信度设置为1;如果只找到1个主实体标签数据,且该主实体标签数据与产品类型、意图类型所组合而成的Pattern在Pattern在数据库中不存在,则可以将该Pattern的可信度设置为0.5;如果只找到2个主实体标签数据,可以分别将这2个主实体标签数据与产品类型、意图类型组合而成的Pattern,并可对这2个主实体标签数据与产品类型、意图类型所组合而成的Pattern进行判断,以判断这2个主实体标签数据与产品类型、意图类型所组合而成的Pattern是否存在于风险提示Pattern在数据库中,如果只有1个主实体标签数据所组合而成的Pattern在风险提示Pattern数据库中存在,则可以将存在的那个Pattern的可信度设置为1,另一个不存在风险提示Pattern数据库中的Pattern的可信度设置为0.3;如果2个主实体标签数据所组合而成的Pattern都在风险提示Pattern数据库中存在,则将距离最近的那个主实体标签数据所组合而成的Pattern的可信度设置为0.9,较远的那个Pattern的可信度设置为0.5;如果2个主实体标签数据所组合而成的Pattern都不在数据库中存在,则将距离最近的那个主实体标签数据所组合而成的Pattern的可信度设置为0.6,另一个主实体标签数据所组合而成的Pattern的可信度设置为0.3。当然,除了可以基于预设的元素序列组合模式记录信息确定当前统计Pattern对应的可信度之外,还可以采用其他方式确定风险元素序列组合模式对应的可信度,本示例对此不作具体限制。
本申请实施例在确定出风险元素序列组合模式对应的可信度后,可以针对确定出的每一个风险元素序列组合模式,将该风险元素序列组合模式对应的可信度与预设可信度阈值进行比较,以在风险元素序列组合模式对应的可信度达到预设可信度阈值时将该风险元素序列组合模式确定为邮件风险元素序列组合模式;而在风险元素序列组合模式对应的可信度未达到预设可信度阈值时,对该风险元素序列组合模式进行校正处理,以将风险元素序列组合模式校正结果确定为邮件风险元素序列组合模式。例如,在对识别准确度要求较高的情况下,可以将标注了可信度的Pattern交由人工校订,以将校订后的结果作为最终的邮件风险元素序列组合模式,并可将经过校订的数据加入风险提示Pattern数据库,实现风险提示Pattern数据库的更新;而在对识别准确度无更高要求的情况下,可以根据情况取可信度为1、0.9、0.6对应的风险元素序列组合模式为最终的邮件风险元素序列组合模式,与此同时可以将标注了可信度的风险元素序列组合模式Pattern交由人工校订,以将校订后的结果加入风险提示Pattern数据库,作为下一次识别任务的参考语料。
综上,本申请实施例通过对风险提示元素的知识结构Schema进行定义,以基于风险提示元素的知识结构Schema的定义,对目标邮件句子信息进行实体识别,以基于识别出的实体和实体边界确定出目标邮件句子信息对应的标签标注结果,从而能够对各风险提示元素的类别与定位进行了有效表示,为后续风险信息抽取、框架与槽位填充都提供了数据基础,并可依据标签标注结果中所包含的风险提示元素对应的风险元素标签进行转录处理,得到标签预测节点信息,以便后续可以依据预测标签节点信息确定邮件风险元素序列组合模式,可以允许存在多个集合的方式,如可以针对一个主实体标签数据,基于目标实体标签数据中的风险提示元素确定一个多个风险元素序列组合模式,克服了一些BIO难以表示多模式的问题,对语言当中共享成分省略问题有更高的处理能力,进而可以依据邮件风险元素序列组合模式中各风险提示元素的边界属性信息获取目标邮件中的各风险提示元素的实例信息,以基于各风险提示元素的实例信息,结合邮件风险元素序列组合模式对应的属性关系信息,生成目标业务邮件对应的风险提示知识图谱,以便后续利用该风险提示知识图谱进行邮件风险知识抽取、风险监控,解决了现有技术中只能识别出邮件是否有风险而无法准确定位邮件中具有分风险的具体字词的问题,有利于风险长尾模式的发现,方便用户识别出长尾现象。
进一步而言,本申请实施例还提供了一种文本信息的处理系统,如图4所示,本申请实施例提供的文本信息的处理系统400可以包括以下模块:
邮件获取模块410,用于获取目标业务邮件;
分句处理模块420,用于依据所述目标业务邮件进行分句处理,得到目标邮件句子信息;
标签转录处理模块430,用于依据所述目标邮件句子信息进行标签转录处理,得到预测标签节点信息;
组合模式确定模块440,用于依据所述预测标签节点信息,确定邮件风险元素序列组合模式;
提示知识图谱模块450,用于依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱。
可选的,标签转录处理模块430可以包括如下子模块:
标注标签子模块,用于确定所述目标邮件句子信息对应的标注标签结果,所述标注标签结果包含风险提示元素对应的风险元素标签;
转录处理子模块,用于依据所述风险元素标签进行转录处理,得到所述标签预测节点信息。
可选的,标注标签子模块包括如下单元:
词向量单元,用于依据所述目标邮件句子信息生成邮件词向量;
词向量输入单元,用于将所述邮件词向量输入预先训练的实体识别模型;
标注结果确定单元,用于基于所述实体识别模型输出的实体标签信息和所述实体标签信息对应的边界位属性息,确定所述标签标注结果。
可选的,文本信息的处理系统400还包括如下模块:
风险提示元素确定模块,用于确定邮件的风险提示元素;
邮件标注处理模块,用于依据所述风险提示元素进行邮件标注处理,得到至少一个邮件分句信息和每一所述邮件分句信息对应的风险元素标注数据;
转录标记模块,用于依据所述风险元素标注数据进行转录标记,得到转录标记结果,所述转录标记结果包含每一所述邮件分句信息对应的预测标签信息和所述预测标签信息对应的实体边界信息;
模型训练模块,用于依据所述邮件分句信息、所述邮件分句信息对应的预测标签信息以及所述预测标签信息对应的实体边界信息进行模型训练,得到所述实体识别模型。
可选的,本申请实施例中的风险提示元素包含投资监督事项元素和/或投资监督细则元素,所述邮件标注处理模块包括如下子模块:
邮件获取子模块,用于获取样本邮件;
去重子模块,用于对所述样本邮件进行分句去重,得到至少一个待标注的所述邮件分句信息;
标注处理子模块,用于针对每一个待标注的所述邮件分句信息,基于所述投资监督事项元素和/或投资监督细则元素进行标注处理,得到每个所述邮件分句信息对应的风险元素标注数据。
可选的,标签转录处理模块包括如下子模块:
语义编码子模块,用于基于所述目标邮件句子信息进行语义编码,得到语义编码结果;
标签预测子模块,用于基于所述语义编码结果进行标签预测,得到所述目标邮件句子信息中各字符对应的风险预测标签信息;
预测标签节点子模块,用于基于所述各字符对应的风险预测标签,确定所述预测标签节点信息。
可选的,所述组合模式确定模块440可以包括如下子模块:
主实体标签确定子模块,用于确定所述预测标签节点信息中的主实体标签数据;
目标实体标签确定子模块,用于依据所述主实体标签数据的位置标识信息,确定与所述主实体标签数据关联的目标实体标签数据;
序列组合模式子模块,用于针对每一个主实体标签数据,基于所述目标实体标签数据中的风险提示元素确定风险元素序列组合模式;
可信度确定子模块,用于基于预设的元素序列组合模式记录信息,确定所述风险元素序列组合模式对应的可信度;
组合模式确定子模块,用于将所述可信度达到预设可信度阈值对应的所述风险元素序列组合模式确定为所述邮件风险元素序列组合模式;
组合模式校正子模块,用于对所述可信度未达到预设可信度阈值对应的所述风险元素序列组合模式进行校正处理,得到所述邮件风险元素序列组合模式。
可选的,所述实体对象信息包含所述邮件风险元素序列组合模式中各风险提示元素的实例信息,所述提示知识图谱模块450包括如下子模块:
边界属性获取子模块,用于获取所述邮件风险元素序列组合模式中各风险提示元素的边界属性信息;
实例信息获取子模块,用于基于所述各风险提示元素的边界属性信息,获取各风险提示元素的所述实例信息;
知识图谱生成子模块,用于基于所述各风险提示元素的所述实例信息,结合邮件风险元素序列组合模式对应的属性关系信息,生成所述风险提示知识图谱。
可选的,所述分句处理模块420可以包括如下子模块:
分句标点符号确定子模块,用于确定所述目标业务邮件中包含的分句标点符号;
邮件切分子模块,用于按照所述分句标点符号对所述目标业务邮件进行切分,得到至少两个邮件分句;
目标邮件句子确定子模块,用于将所述邮件分句确定为所述目标邮件句子信息。
需要说明的是,上述提供的文本信息的处理系统可执行本申请任意实施例所提供的文本信息的处理方法,具备执行方法相应的功能和有益效果。
进一步的,本申请实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任意一个方法实施例所述的文本信息的处理方法的步骤。
此外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一个方法实施例所述的文本信息的处理方法的步骤。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统、设备、存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种文本信息的处理方法,其特征在于,包括:
获取目标业务邮件;
依据所述目标业务邮件进行分句处理,得到目标邮件句子信息;
依据所述目标邮件句子信息进行标签转录处理,得到预测标签节点信息;
依据所述预测标签节点信息,确定邮件风险元素序列组合模式;
依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱。
2.根据权利要求1所述的文本信息的处理方法,其特征在于,所述依据所述目标邮件句子信息进行标签转录处理,得到标签预测节点信息,包括:
确定所述目标邮件句子信息对应的标注标签结果,所述标注标签结果包含风险提示元素对应的风险元素标签;
依据所述风险元素标签进行转录处理,得到所述标签预测节点信息。
3.根据权利要求2所述的文本信息的处理方法,其特征在于,确定所述目标邮件句子信息对应的标签标注结果,包括:
依据所述目标邮件句子信息生成邮件词向量;
将所述邮件词向量输入预先训练的实体识别模型;
基于所述实体识别模型输出的实体标签信息和所述实体标签信息对应的边界位属性息,确定所述标签标注结果。
4.根据权利要求3所述的文本信息的处理方法,其特征在于,所述将所述邮件词向量输入预先训练的实体识别模型之前,还包括:
确定邮件的风险提示元素;
依据所述风险提示元素进行邮件标注处理,得到至少一个邮件分句信息和每一所述邮件分句信息对应的风险元素标注数据;
依据所述风险元素标注数据进行转录标记,得到转录标记结果,所述转录标记结果包含每一所述邮件分句信息对应的预测标签信息和所述预测标签信息对应的实体边界信息;
依据所述邮件分句信息、所述邮件分句信息对应的预测标签信息以及所述预测标签信息对应的实体边界信息进行模型训练,得到所述实体识别模型。
5.根据权利要求4所述的文本信息的处理方法,其特征在于,所述风险提示元素包含投资监督事项元素和/或投资监督细则元素,所述依据所述风险提示元素进行邮件标注处理,得到至少一个邮件分句信息和每一所述邮件分句信息对应的风险元素标注数据,包括:
获取样本邮件;
对所述样本邮件进行分句去重,得到至少一个待标注的所述邮件分句信息;
针对每一个待标注的所述邮件分句信息,基于所述投资监督事项元素和/或投资监督细则元素进行标注处理,得到每个所述邮件分句信息对应的风险元素标注数据。
6.根据权利要求1所述的文本信息的处理方法,其特征在于,依据所述目标邮件句子信息进行标签转录处理,得到标签预测节点信息,包括:
基于所述目标邮件句子信息进行语义编码,得到语义编码结果;
基于所述语义编码结果进行标签预测,得到所述目标邮件句子信息中各字符对应的风险预测标签信息;
基于所述各字符对应的风险预测标签,确定所述预测标签节点信息。
7.根据权利要求1所述的文本信息的处理方法,其特征在于,所述依据所述预测标签节点信息,确定邮件风险元素序列组合模式,包括:
确定所述预测标签节点信息中的主实体标签数据;
依据所述主实体标签数据的位置标识信息,确定与所述主实体标签数据关联的目标实体标签数据;
针对每一个主实体标签数据,基于所述目标实体标签数据中的风险提示元素确定风险元素序列组合模式;
基于预设的元素序列组合模式记录信息,确定所述风险元素序列组合模式对应的可信度;
将所述可信度达到预设可信度阈值对应的所述风险元素序列组合模式确定为所述邮件风险元素序列组合模式;
对所述可信度未达到预设可信度阈值对应的所述风险元素序列组合模式进行校正处理,得到所述邮件风险元素序列组合模式。
8.根据权利要求1所述的文本信息的处理方法,其特征在于,所述实体对象信息包含所述邮件风险元素序列组合模式中各风险提示元素的实例信息,所述依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱,包括:
获取所述邮件风险元素序列组合模式中各风险提示元素的边界属性信息;
基于所述各风险提示元素的边界属性信息,获取各风险提示元素的所述实例信息;
基于所述各风险提示元素的所述实例信息,结合邮件风险元素序列组合模式对应的属性关系信息,生成所述风险提示知识图谱。
9.根据权利要求1至8任一所述的文本信息的处理方法,其特征在于,所述依据所述目标业务邮件进行分句处理,得到目标邮件句子信息,包括:
确定所述目标业务邮件中包含的分句标点符号;
按照所述分句标点符号对所述目标业务邮件进行切分,得到至少两个邮件分句;
将所述邮件分句确定为所述目标邮件句子信息。
10.一种文本信息的处理系统,其特征在于,包括:
邮件获取模块,用于获取目标业务邮件;
分句处理模块,用于依据所述目标业务邮件进行分句处理,得到目标邮件句子信息;
标签转录处理模块,用于依据所述目标邮件句子信息进行标签转录处理,得到预测标签节点信息;
组合模式确定模块,用于依据所述预测标签节点信息,确定邮件风险元素序列组合模式;
提示知识图谱模块,用于依据所述邮件风险元素序列组合模式对应的实体对象信息,确定所述目标业务邮件对应的风险提示知识图谱。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一项所述的文本信息的处理方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的文本信息的处理方法的步骤。
CN202211204275.8A 2022-09-29 2022-09-29 文本信息的处理方法、系统、设备及存储介质 Pending CN115759078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211204275.8A CN115759078A (zh) 2022-09-29 2022-09-29 文本信息的处理方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211204275.8A CN115759078A (zh) 2022-09-29 2022-09-29 文本信息的处理方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115759078A true CN115759078A (zh) 2023-03-07

Family

ID=85350674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211204275.8A Pending CN115759078A (zh) 2022-09-29 2022-09-29 文本信息的处理方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115759078A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611903A (zh) * 2023-07-18 2023-08-18 太仓市律点信息技术有限公司 基于数字金融服务的大数据处理方法、服务器及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611903A (zh) * 2023-07-18 2023-08-18 太仓市律点信息技术有限公司 基于数字金融服务的大数据处理方法、服务器及存储介质
CN116611903B (zh) * 2023-07-18 2023-09-22 太仓市律点信息技术有限公司 基于数字金融服务的大数据处理方法、服务器及存储介质

Similar Documents

Publication Publication Date Title
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
US10410136B2 (en) Model-based classification of content items
US20180211260A1 (en) Model-based routing and prioritization of customer support tickets
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110990525A (zh) 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN110276054B (zh) 一种保险文本结构化实现方法
US20170075978A1 (en) Model-based identification of relevant content
US20130006986A1 (en) Automatic Classification of Electronic Content Into Projects
CN112395539B (zh) 一种基于自然语言处理的舆情风险监测方法及系统
Li et al. A policy-based process mining framework: mining business policy texts for discovering process models
Curtotti et al. Corpus based classification of text in Australian contracts
CN111489105B (zh) 一种企业风险识别方法、装置及设备
CN109933783A (zh) 一种不良资产经营领域的合同要素化方法
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN110880142A (zh) 一种风险实体获取方法及装置
CN113220885B (zh) 一种文本处理方法和系统
CN115759078A (zh) 文本信息的处理方法、系统、设备及存储介质
Dwivedi et al. Sentiment analytics for crypto pre and post covid: Topic modeling
Senave et al. The application of text mining in accounting
CN115482075A (zh) 财务数据的异常分析方法、装置、电子设备及存储介质
Sisodia et al. Performance evaluation of learners for analyzing the hotel customer sentiments based on text reviews
CN115113919A (zh) 基于BERT模型和Web技术的软件规模度量智能信息化系统
CN114492446A (zh) 法律文书处理方法、装置、电子设备及存储介质
Lokhacheva et al. Designing of Information System for Semantic Analysis and Classification of Issues in Service Desk System
CN115375282A (zh) 邮件信息处理方法、系统、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination