CN115082174A - 债券质控相似识别方法、装置、计算机设备及存储介质 - Google Patents
债券质控相似识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115082174A CN115082174A CN202210733323.6A CN202210733323A CN115082174A CN 115082174 A CN115082174 A CN 115082174A CN 202210733323 A CN202210733323 A CN 202210733323A CN 115082174 A CN115082174 A CN 115082174A
- Authority
- CN
- China
- Prior art keywords
- historical
- information
- similar
- issued
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003908 quality control method Methods 0.000 title claims abstract description 54
- 239000000463 material Substances 0.000 claims abstract description 101
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 138
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000005065 mining Methods 0.000 abstract description 4
- 230000007115 recruitment Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 230000001105 regulatory effect Effects 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 238000007418 data mining Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了一种债券质控相似识别方法、装置、计算机设备及存储介质,包括:提取待发行材料中的待发行问询信息和待发行属性信息;获取内容与待发行问询信息相似的历史监管问题,将历史监管问题及其历史属性信息汇总成第一相似信息;获取标签与待发行问询信息相同的历史监管问题,将历史监管问题及其历史属性信息汇总成第二相似信息;获取与待发行属性信息关联的历史属性信息,将历史属性信息对应的历史案例信息及其历史监管问题设为第三相似信息;汇总第一相似信息、第二相似信息和第三相似信息得到相似集合,对相似条目进行排序得到相似序列。本发明提高了质控业务效率,保证了潜在问题挖掘的准确度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种债券质控相似识别方法、装置、计算机设备及存储介质。
背景技术
债券发行有着巨大的发展潜力和市场需求,当前债券发行大体需要经过前期准备、材料制作、申报、审核、发行五个阶段。而质控业务是提交审核材料前重要的内部审核环节,其完成一次指质核往往需要从业人员阅读厚达几十页至上百页的材料,发现其中潜在的可能被监管机构问询的问题。
然而,发明人发现无论是从业人员还是当前的智能平台,其挖掘债券待发行材料中的问题数量,以及深度和广度终究是有限的,无法获知历史上发行所述债券待发行材料相似的企业遇到了何种问题,并采用何种方法去解决,导致质控业务效率低下,准确度不足。
发明内容
本发明的目的是提供一种债券质控相似识别方法、装置、计算机设备及可读存储介质,用于解决现有技术存在的因无法获知历史上发行所述债券待发行材料相似的企业遇到了何种问题,并采用何种方法去解决,导致质控业务效率低下,准确度不足的问题。
为实现上述目的,本发明提供一种债券质控相似识别方法,包括:
接收客户端发送的待发行材料,提取所述待发行材料中的待发行问询信息和待发行属性信息;
从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,将所述相似的历史监管问题及其历史属性信息汇总成第一相似信息;及
从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,将所述相同的历史监管问题及其历史属性信息汇总成第二相似信息;
从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,将与所述历史属性信息对应的历史案例信息,及其中历史监管问题设为第三相似信息;
汇总所述第一相似信息、所述第二相似信息和所述第三相似信息,得到至少具有一个相似条目的相似集合,将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,其中,所述相似条目包括相互对应的历史监管问题和历史属性信息;
根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列,将所述相似序列发送至所述客户端。
上述方案中,所述接收客户端发送的待发行材料之前,所述方法还包括:
获取历史案例信息,并提取所述历史案例信息中的历史监管问题和历史属性信息;
识别所述历史监管问题中的历史关键字,根据所述历史关键字构建标签树;及
对所述历史监管问题进行向量化处理得到历史词向量,汇总多个所述历史词向量形成问询库;及
根据所述历史属性信息构建表征所述历史案例信息之间关联关系的知识图谱。
上述方案中,所述接收客户端发送的待发行材料之前,所述方法还包括:
在预置的时间区间内获取多个历史案例信息,提取所述多个历史案例信息中的历史监管问题并汇总形成历史问询集合,识别所述历史问询集合中的热点问询信息并汇总形成热点库。
上述方案中,所述提取所述待发行材料中的待发行问询信息和待发行属性信息,包括:
提取所述待发行材料中的问询函并提取所述问询函中的监管问题,及将所述问询函中的监管问题设为待发行问询信息;和/或
提取所述待发行材料中的潜在问题清单,提取所述潜在问题清单中的潜在问题并将其设为所述待发行问询信息;
通过预置的正则表达式从所述待发行材料中获取行业信息、地域信息和政策信息,汇总所述行业信息、所述地域信息和所述政策信息形成所述待发行属性信息。
上述方案中,所述从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,包括:
对所述待发行问询信息进行向量化处理得到待发行问询向量;
将所述待发行问询向量与所述问询库中的历史问询向量进行相似度比对,并得到表征所述待发行问询向量与所述历史问询向量之间相似程度的向量相似值;和/或
将所述待发行问询向量与所述热点库中的热点问询向量进行相似度比对,以得到表征所述待发行问询向量与所述热点问询向量之间相似程度的热点相似值;
将数值超过预置的向量相似阈值的向量相似值设为目标历史值,将相应于所述目标历史值的历史问询向量所对应的历史监管问题,设为内容与所述待发行问询信息相似的历史监管问题;和/或
将数值超过预置的热点相似阈值的热点相似值设为目标热点值,将相应于所述目标热点值的热点问询向量对应的热点问询信息,设为内容与所述待发行问询信息相似的历史监管问题;
所述从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,包括:
提取所述待发行问询信息中的待发行关键字;
获取所述标签树中相应于所述待发行关键字的分类标签,获取相应于所述分类标签的历史监管问题;
将通过所述标签树获取到的历史监管问题设为所述标签与所述待发行问询信息相同的历史监管问题。
上述方案中,所述从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,包括:
识别所述知识图谱中与所述待发行属性信息匹配的节点,并将所述节点设为目标节点;
将所述知识图谱中与所述目标节点之间具有关联关系的节点设为关联节点;
将分别与所述目标节点和所述关联节点对应的历史案例信息,作为与所述待发行属性信息关联的历史属性信息。
上述方案中,所述将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,包括:
提取待发行材料中的待发行属性信息和待发行问询信息,对所述待发行属性信息和所述待发行问询信息进行向量化处理得到待发行向量;
对所述相似条目中的历史属性信息和历史监管问题进行向量化处理得到相似向量;
通过预置的双塔模型对所述待发行向量和所述相似向量进行比对,以得到所述比对相似值。
所述根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列之后,所述方法还包括:
将所述相似序列上传至区块链中。
为实现上述目的,本发明还提供一种债券质控相似识别装置,包括:
输入提取模块,用于接收客户端发送的待发行材料,提取所述待发行材料中的待发行问询信息和待发行属性信息;
内容标签模块,用于从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,将所述相似的历史监管问题及其历史属性信息汇总成第一相似信息;及从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,将所述相同的历史监管问题及其历史属性信息汇总成第二相似信息;
关联相似模块,用于从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,将与所述历史属性信息对应的历史案例信息,及其中历史监管问题设为第三相似信息;
相似比对模块,用于汇总所述第一相似信息、所述第二相似信息和所述第三相似信息,得到至少具有一个相似条目的相似集合,将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,其中,所述相似条目包括相互对应的历史监管问题和历史属性信息;
序列输出模块,用于根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列,将所述相似序列发送至所述客户端。
为实现上述目的,本发明还提供一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机设备的处理器执行所述计算机程序时实现上述债券质控相似识别方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,所述可读存储介质存储的所述计算机程序被处理器执行时实现上述债券质控相似识别方法的步骤。
本发明提供的债券质控相似识别方法、装置、计算机设备及存储介质,通过问询库、热点库、知识图谱以及标签树,将待发行材料与历史上曾经发行的历史案例信息进行比对并获得所述相似序列,提高了挖掘待发行材料中潜在问题的深度和广度,提高了质控业务效率,保证了质控业务中潜在问题挖掘的准确度。
附图说明
图1为本发明债券质控相似识别方法实施例一的流程图;
图2为本发明债券质控相似识别方法实施例二中债券质控相似识别方法的环境应用示意图;
图3是本发明债券质控相似识别方法实施例二中债券质控相似识别方法的具体方法流程图;
图4为本发明债券质控相似识别装置实施例三的程序模块示意图;
图5为本发明计算机设备实施例四中计算机设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的债券质控相似识别方法、装置、计算机设备及存储介质,适用于人工智能技术领域,为提供一种基于输入提取模块、内容标签模块、关联相似模块、相似比对模块、序列输出模块的债券质控相似识别方法。本发明通过接收客户端发送的待发行材料,提取待发行材料中的待发行问询信息和待发行属性信息;从问询库和/或热点库中获取内容与待发行问询信息相似的历史监管问题,将相似的历史监管问题及其历史属性信息汇总成第一相似信息;及从标签树中获取标签与待发行问询信息相同的历史监管问题,将相同的历史监管问题及其历史属性信息汇总成第二相似信息;从知识图谱中获取与待发行属性信息关联的历史属性信息,将与历史属性信息对应的历史案例信息,及其中历史监管问题设为第三相似信息;汇总第一相似信息、第二相似信息和第三相似信息,得到至少具有一个相似条目的相似集合,将待发行材料与相似集合中的相似条目依次进行比对,得到表征待发行材料与相似条目之间的相似程度的比对相似值;根据比对相似值对相似集合中的相似条目进行排序得到相似序列,将相似序列发送至客户端。
实施例一:
请参阅图1,本实施例的一种债券质控相似识别方法,包括:
S103:接收客户端发送的待发行材料,提取所述待发行材料中的待发行问询信息和待发行属性信息;
S104:从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,将所述相似的历史监管问题及其历史属性信息汇总成第一相似信息;及
从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,将所述相同的历史监管问题及其历史属性信息汇总成第二相似信息;
S105:从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,将与所述历史属性信息对应的历史案例信息,及其中历史监管问题设为第三相似信息;
S106:汇总所述第一相似信息、所述第二相似信息和所述第三相似信息,得到至少具有一个相似条目的相似集合,将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,其中,所述相似条目包括相互对应的历史监管问题和历史属性信息;
S107:根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列,将所述相似序列发送至所述客户端。
在示例性的实施例中,所述待发行材料包括募集说明书、财务报表以及问题信息;所述问题信息是指债券监管机构依据待发行材料中的募集说明书和/或财务报表所制定的问询函;和/或专家组织和/或智能分析平台依据所述募集说明书和/或财务报表所制定的潜在问题清单,其中,所述潜在问题清单中至少具有一个用于描述募集说明书和/或财务报表可能会被所述债券监管机构询问的潜在问题。
通过从问询库中获取内容与所述待发行问询信息相似的历史监管问题,及从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,以从提出问询的问题相似度角度获取历史上与所述待发行问询信息相似的历史监管问题。
通过从热点库中获取内容与所述待发行问询信息相似的历史监管问题,及从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,以从提出问询的问题相似度角度,获取近期热度较高的问询问题中,与所述待发行问询信息相似的历史监管问题。
通过从知识图谱中获取与所述待发行属性信息关联的历史属性信息,并将与所述历史属性信息对应的历史案例信息中的历史监管问题设为相似信息的方式,实现以知识图谱为技术手段,识别与所述待发行材料对应企业相似的企业,并将所述相似的企业的历史属性信息,及其历史上发行债券所被问及的历史监管问题作为所述第三相似信息,以从提出待发行材料的企业主体的角度,识别与所述企业相似的企业并获取历史上所述相似的企业的历史属性信息,及所述企业所收到的历史监管问题。
通过汇总所述第一相似信息、所述第二相似信息和所述第三相似信息,得到至少具有一个相似条目的相似集合的方式,得到包含有相互对应的历史监管问题和历史属性信息的相似条目的清单,并将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值的方式,计算待发行材料与各所述相似条目之间的比对相似值,实现从属性和问题两个角度对所述相似程度进行评价,以实现更加客观真实的反应待发行材料与相似条目之间的相似性。
根据所述比对相似值对所述相似集合中的相似条目进行降序排列得到所述相似序列,以便于用户从所述相似序列顶部即可获得最相似的相似条目,用户还可根据相似条目的历史监管问题中的重点标签,识别某一债券企业主体在历史上曾经被重复问及的历史监管问题,进而便于用户对该问题进行重点关注。
综上,通过所述问询库、热点库、知识图谱以及标签树,将待发行材料与历史上曾经发行的历史案例信息进行比对并获得所述相似序列,提高了挖掘待发行材料中潜在问题的深度和广度,提高了质控业务效率,保证了质控业务中潜在问题挖掘的准确度。
实施例二:
本实施例为上述实施例一的一种具体应用场景,通过本实施例,能够更加清楚、具体地阐述本发明所提供的方法。
下面,以在运行有债券质控相似识别方法的服务器中,获取内容与待发行问询信息相似的历史监管问题、标签与待发行问询信息相同的历史监管问题、与待发行属性信息关联的历史属性信息的历史监管问题,并将所述历史监管问题与待发行材料比对得到相似序列为例,来对本实施例提供的方法进行具体说明。需要说明的是,本实施例只是示例性的,并不限制本发明实施例所保护的范围。
图2示意性示出了根据本申请实施例二的债券质控相似识别方法的环境应用示意图。
在示例性的实施例中,债券质控相似识别方法所在的服务器2通过网络3分别连接客户端4;所述服务器2可以通过一个或多个网络3提供服务,网络3可以包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或等等。网络3可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,它们的组合和/或类似物。网络3可以包括无线链路,例如蜂窝链路,卫星链路,Wi-Fi链路和/或类似物;所述客户端4可为智能手机、平板电脑、笔记本电脑、台式电脑等计算机设备。
图3是本发明一个实施例提供的一种债券质控相似识别方法的具体方法流程图,该方法具体包括步骤S201至S208。
S201:获取历史案例信息,并提取所述历史案例信息中的历史监管问题和历史属性信息;
识别所述历史监管问题中的历史关键字,根据所述历史关键字构建标签树;及
对所述历史监管问题进行向量化处理得到历史词向量,汇总多个所述历史词向量形成问询库;及
根据所述历史属性信息构建表征所述历史案例信息之间关联关系的知识图谱。
在一个优选的实施例中,所述获取历史案例信息并提取所述历史案例信息中的历史监管问题和历史属性信息,包括:
S11:提取所述历史案例信息中的历史问询文件和历史募集信息;识别所述历史文本信息中的问询信息,并将所述问询信息设为所述历史文本信息的历史监管问题。
本步骤中,通过预置的文件参数从所述历史案例信息中获取所述历史问询文件和历史募集信息。例如:历史文件参数是问询函,则以所述问询函为预置的检索函数的参数,从所述历史案例信息中获取标题和/或正文内容中具有“问询函”字样的文件,并将获得的文件设为所述历史问询文件。
又例如:历史文件参数是募集说明书,则以所述募集说明书为预置的检索函数的参数,从所述历史案例信息中获取标题和/或正文内容中具有“募集说明书”字样的文件,并将获得的文件设为所述历史募集信息。
S12:识别所述历史募集信息中的图片模态信息中的文本得到图像转文字信息;和/或
对所述历史募集信息中的语音模态信息进行语音识别得到语音转文字信息。
本步骤中,通过OCR模型识别所述历史案例信息中的图片模态信息中的文本得到图像转文字信息,通过语音识别工具对所述语音模态信息进行语音识别,并得到所述语音转文字信息。
需要说明的是,OCR模型是指光学字符识别或光学字符阅读器(OCR),是将打字、手写或打印文本的图像以电子或机械方式转换为机器编码文本,无论是来自扫描文档、文档照片还是场景照片(例如风景照片中标志和广告牌上的文字)或叠加在图像上的字幕文字。
语音识别也称为自动语音识别(ASR)、计算机语音识别或语音转文本,它是一种将人类语音处理为书面格式的功能。
S13:整合所述历史募集信息中的文本模态信息,以及所述语音转文字信息和/或图像转文字信息得到历史文本信息,识别所述历史文本信息中表征所述历史案例信息对应企业属性的属性信息,并将所述识别到的属性信息设为历史属性信息。
本步骤中,通过将语音和图像中的文字信息与文本模态信息整合成所述历史文本信息的方式,避免忽略语音或图像中本应在文本信息中体现的文字信息,导致分析对象残缺的问题发生,保证了历史案例信息分析的完整性。
进一步地,所述提取所述历史案例信息中的历史监管问题和历史属性信息之后,还包括:
S14:识别所述历史案例信息中重复出现的历史监管问题,并在所述历史监管问题上标注重点标签。
本步骤中,获取历史案例信息中的至少一个历史问询文件,将一个历史问询文件中的历史监管问题两两组合形成监管问题组合;获取所述历史案例信息的多个历史问询文件,并将所述多个历史问询文件中的监管问题组合汇总成监管集合;识别所述监管集合中重复出现的监管问题组合,并将所述重复出现的监管问题组合设为所述重复出现的历史监管问题,并在所述历史监管问题上标注重点标签,以便于用户根据所述重点标签重点关注重复出现的历史监管问题。
在一个优选的实施例中,所述识别所述历史监管问题中的历史关键字,根据所述历史关键字构建标签树,包括:
S15:调用预置的多模态模型分析所述历史监管问题中的历史文本信息,以及语音模态信息和/或图像模态信息,得到表征所述历史监管问题中关键语义的历史关键字;
本步骤中,通过采用多模态模型分析所述历史监管问题中的语音模态信息和图像模态信息,以及所述历史文本信息得到历史关键字,实现在图像、文本和语音三个维度对所述历史监管问题进行分析,以提高历史关键字表征所述历史监管问题的完整度和准确度。于本实施例中,通过所述多模态模型识别所述历史监管问题中表征历史监管问题语义和/或命名实体的关键字,并将该关键字设为所述历史关键字。
需要说明的是,多模态是在一种媒介中应用多种读写能力。例如,了解电视天气预报(媒体)涉及了解口语、书面语、特定天气语言(如温标)、地理和符号(云、太阳、雨等)。多种读写能力或“模式”有助于观众对作品的理解。从图像的放置到内容的组织再到交付的方法,一切都创造了意义。这是从孤立的文本作为主要交流来源转变为在数字时代更频繁地使用图像的结果。多模态从用于撰写信息的文本、听觉、语言、空间和视觉资源方面描述交流实践。
于本实施例中,采用基于多模态的机器学习模型(MultiModal Machine Learning(MMML))作为所述多模态模型,用于通过机器学习的方法实现处理和理解多源模态信息所传达的内容,并识别所述内容中能够表征所述内容语义和/或命名实体的关键字。
S16:获取多个所述历史监管问题的历史关键字,以所述历史关键字作为分类标签构建所述标签树,其中,所述标签树具有至少一个标签分支,一个所述标签分支对应至少一个历史监管问题。
本步骤中,以所述历史关键字为查询条件,并以相应于所述历史关键字的历史监管问题为查询结果,构建用于根据所述历史关键字查找所述历史监管问题的索引,并将该索引设为所述标签树,其中,所述历史关键字为表征所述历史监管问题的标签。
于本实施例中,所述标签树作为用户查找指定历史监管问题的正向索引和/或反向索引,其中,正向索引(正排索引)是以历史监管问题的ID为关键字,表中记录历史监管问题中每个字的位置信息,查找时扫描表中每个历史监管问题中字的信息直到找出所有包含查询关键字的历史监管问题。
反向索引(倒排索引)是以字或词为关键字进行索引,表中关键字所对应的记录表项记录了出现这个字或词的所有历史监管问题,一个表项就是一个字表段,它记录该历史监管问题的ID和字符在该历史监管问题中出现的位置情况。
在一个优选的实施例中,所述根据所述历史属性信息构建表征所述历史案例信息之间关联关系的知识图谱,包括:
S17:对所述历史属性信息进行向量化处理得到历史属性向量;
S18:将所述历史属性向量录入预置的图谱模型中,使所述图谱模型生成相应于所述历史属性向量的历史属性散点;
S19:运行所述图谱模型以挖掘各所述历史属性散点之间的关联关系,并根据所述关联关系构建各所述历史属性散点之间的关联连线,使各所述历史属性散点及所述关联连线形成表征各所述历史属性信息之间关联关系的知识图谱。
需要说明的是,采用更具有数据挖掘算法的计算机模型作为所述图谱模型,所述数据挖掘算法是(英语:data mining)是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用[1]。除了原始分析步骤,它还涉及到数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理[1]。数据挖掘是“数据库知识发现”(Knowledge-Discovery in Databases,KDD)的分析步骤,本质上属于机器学习的范畴。于本实施例中,通过所述图谱模型挖掘各历史属性散点之间的关联关系,进而构建以无向图和/或有向图形式展示的知识图谱。
进一步地,周期性地获取历史案例信息,并提取所述历史案例信息中的历史监管问题和历史属性信息;
提取所述历史监管问题中的历史关键字,根据所述历史关键字构建标签树,用以及时更新所述标签树;
对所述历史监管问题进行向量化处理得到历史词向量,汇总多个所述历史词向量形成问询库,用以及时更新所述问询库中的历史监管问题;
根据所述历史属性信息构建表征所述历史案例信息之间关联关系的知识图谱,用以及时更新所述知识图谱。
S202:在预置的时间区间内获取多个历史案例信息,提取所述多个历史案例信息中的历史监管问题并汇总形成历史问询集合,识别所述历史问询集合中的热点问询信息并汇总形成热点库。
为及时识别近期债券容易被问及的热点问题,本步骤通过在时间区间内获取多个历史案例信息,提取所述多个历史案例信息中的历史监管问题并汇总形成历史问询集合,识别所述历史问询集合中的热点问询信息并汇总形成热点库的方式,及时识别当前债券市场出现的热点问题,以便于用户能够及时注意到债券发行时很容易被问及的问题。
在一个优选的实施例中,所述识别所述历史问询集合中的热点问询信息并汇总形成热点库,包括:
S21:识别历史问询集合中相似的历史监管问题并汇总形成历史问询子集合;
本步骤中,通过预置的双塔模型对所述历史问询集合中的历史案例信息进行两两比对,并得到表征两个历史案例信息之间相似程度的历史相似值,将历史相似值超过预置的历史相似阈值的两个历史案例信息汇总到一个历史问询子集合中,使得所述历史问询子集合中具有至少一个历史案例信息,且所述历史问询子集合中任意两个历史案例信息之间的历史相似值均超过所述历史相似阈值。
需要说明的是,采用分别使用相对独立的两个复杂网络的DSSM模型作为所述双塔模型,其构建了用户相关特征的user embedding(一个历史监管问题的向量)和item相关特征的item embedding(另一个历史监管问题的向量),并通过DSSM模型的匹配层对两个历史案例信息进行比对,以得到所述历史相似值。
S22:将历史监管问题的数量超过预置的热点阈值的历史问询子集合设为热点集合,将所述热点集合中的历史监管问题设为热点问询信息;
本步骤中,通过将数量超过所述热点阈值的历史问询子集合设为热点集合的方式,使得所述热点集合表征了近期债券监管机构对于债券发行最容易提出的问题,有利于用户快速了解当前的监管热点。
S23:将至少一个所述热点问询信息录入预置的数据库,使所述数据库转为热点库。
S203:接收客户端发送的待发行材料,提取所述待发行材料中的待发行问询信息和待发行属性信息。
本步骤中,所述待发行材料包括募集说明书、财务报表以及问题信息;
所述问题信息是指债券监管机构依据待发行材料中的募集说明书和/或财务报表所制定的问询函;和/或
专家组织和/或智能分析平台依据所述募集说明书和/或财务报表所制定的潜在问题清单,其中,所述潜在问题清单中至少具有一个用于描述募集说明书和/或财务报表可能会被所述债券监管机构询问的潜在问题。
于本实施例中,采用KYZ智能平台作为所述智能分析平台,其中,所述KYZ智能平台是一种基于专家经验(HI)和人工智能算法(AI)的量化模型,用于对待发行材料中的内容进行分析的金融管理平台。
在一个优选的实施例中,所述提取所述待发行材料中的待发行问询信息和待发行属性信息,包括:
S31:提取所述待发行材料中的问询函并提取所述问询函中的监管问题,及将所述问询函中的监管问题设为待发行问询信息;和/或
提取所述待发行材料中的潜在问题清单,提取所述潜在问题清单中的潜在问题并将其设为所述待发行问询信息。
本步骤中,所述问询函是指债券监管机构依据待发行材料中的募集说明书和/或财务报表所提出的问询文件。
所述潜在问题清单是专家组织和/或智能分析平台依据所述募集说明书和/或财务报表所制定的潜在问题清单,其中,所述潜在问题清单中至少具有一个用于描述募集说明书和/或财务报表可能会被所述债券监管机构询问的潜在问题。
S32:通过预置的正则表达式从所述待发行材料中获取行业信息、地域信息和政策信息,汇总所述行业信息、所述地域信息和所述政策信息形成所述待发行属性信息。
其中,所述行业信息反映了所述待发行材料对应企业的所在行业;
所述地域信息反映了所述待发行材料对应企业的营业地、注册地、产品销售地信息;
所述政策信息是指所述待发行材料的发行所依据的法律法规及政府政策。
S204:从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,将所述相似的历史监管问题及其历史属性信息汇总成第一相似信息;及
从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,将所述相同的历史监管问题及其历史属性信息汇总成第二相似信息。
为从提出问询的问题相似度角度获取历史上与所述待发行问询信息相似的历史监管问题,本步骤通过从问询库中获取内容与所述待发行问询信息相似的历史监管问题,及从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题。
为从提出问询的问题相似度角度,获取近期热度较高的问询问题中,与所述待发行问询信息相似的历史监管问题,本步骤通过从热点库中获取内容与所述待发行问询信息相似的历史监管问题,及从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题。
在一个优选的实施例中,所述从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,包括:
S41:对所述待发行问询信息进行向量化处理得到待发行问询向量;
本步骤中,通过预置的自然语言处理模型对所述待发行问询信息进行向量化处理得到词嵌入向量,其中,词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
S42:将所述待发行问询向量与所述问询库中的历史问询向量进行相似度比对,并得到表征所述待发行问询向量与所述历史问询向量之间相似程度的向量相似值;和/或
S43:将所述待发行问询向量与所述热点库中的热点问询向量进行相似度比对,以得到表征所述待发行问询向量与所述热点问询向量之间相似程度的热点相似值;
S44:将数值超过预置的向量相似阈值的向量相似值设为目标历史值,将相应于所述目标历史值的历史问询向量所对应的历史监管问题,设为内容与所述待发行问询信息相似的历史监管问题;和/或
S45:将数值超过预置的热点相似阈值的热点相似值设为目标热点值,将相应于所述目标热点值的热点问询向量对应的热点问询信息,设为内容与所述待发行问询信息相似的历史监管问题。
具体地,调用预置的双塔模型,通过所述双塔模型的向量层对所述待发行问询信息进行向量化处理得到待发行问询向量,通过所述双塔模型的匹配层所述问询库中的历史问询向量进行一一比对,并得到表征所述待发行问询向量与所述历史问询向量之间相似程度的向量相似值,及通过所述匹配层中预置的向量相似阈值作为匹配条件,即,当所述向量相似值超过所述向量相似阈值,则判定待发行问询向量与所述历史问询向量之间匹配,进而判定所述匹配的历史问询向量所对应的历史监管问题为内容与所述待发行问询信息相似的历史监管问题。
同时,调用所述双塔模型,通过调用预置的双塔模型,通过所述双塔模型的向量层对所述待发行问询信息进行向量化处理得到待发行问询向量,通过所述双塔模型的匹配层所述问询库中的热点问询向量进行一一比对,并得到表征所述待发行问询向量与所述热点问询向量之间相似程度的向量相似值,及通过所述匹配层中预置的向量相似阈值作为匹配条件,即,当所述向量相似值超过所述向量相似阈值,则判定待发行问询向量与所述热点问询向量之间匹配,进而判定所述匹配的热点问询向量所对应的热点问询信息为,内容与所述待发行问询信息相似的历史监管问题。
需要说明的是,采用分别使用相对独立的两个复杂网络的DSSM模型作为所述双塔模型,其构建了用户相关特征的user embedding(待发行问询向量)和item相关特征的itemembedding(历史监管向量和/或热点问询向量),并通过DSSM模型的匹配层对待发行问询向量与历史监管向量和/或热点问询向量进行比对,以得到所述向量相似值和/或热点相似值。从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,
在一个优选的实施例中,所述从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,包括:
S46:提取所述待发行问询信息中的待发行关键字;
S47:获取所述标签树中相应于所述待发行关键字的分类标签,获取相应于所述分类标签的历史监管问题;
S48:将通过所述标签树获取到的历史监管问题设为所述标签与所述待发行问询信息相同的历史监管问题。
具体地,通过预置的OCR模型识别所述待发行问询信息中图像模态信息中的文本内容,并形成待发行图像文本
提取所述待发行问询信息中的待发行问询文本,并将其与所述待发行图像文本整合成待发行文本信息,
采用多模态模型分析所述待发行文本信息和所述待发行问询信息中的图像模态信息,实现从文本和图像两个维度对所述待发行问询信息进行分析,得到保证所述待发行问询信息传达的语义内容的待发行关键字;于本实施例中,通过所述多模态模型识别所述待发行问询信息中表征其语义和/或命名实体的关键字,并将该关键字设为所述待发行关键字。
获取标签树并将其作为正向索引或反向索引,根据所述待发行关键字并通过所述标签树,得到具有所有待发行关键字的历史监管问题,并将获得的历史监管问题设为所述标签与所述待发行问询信息相同的历史监管问题。
S205:从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,将与所述历史属性信息对应的历史案例信息,及其中历史监管问题设为第三相似信息。
为从提出待发行材料的企业主体的角度,识别与所述企业相似的企业的历史属性信息,及历史上所述相似的企业所收到的历史监管问题作为相似信息,本步骤通过从知识图谱中获取与所述待发行属性信息关联的历史属性信息,并将与所述历史属性信息对应的历史案例信息中的历史监管问题设为第三相似信息的方式,实现以知识图谱为技术手段,识别与所述待发行材料对应企业相似的企业,并将所述相似的企业的历史属性信息,及其历史上发行债券所被问及的历史监管问题作为所述第三相似信息。
在一个优选的实施例中,所述从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,包括:
S51:识别所述知识图谱中与所述待发行属性信息匹配的节点,并将所述节点设为目标节点;
S52:将所述知识图谱中与所述目标节点之间具有关联关系的节点设为关联节点;
S53:将分别与所述目标节点和所述关联节点对应的历史案例信息,作为与所述待发行属性信息关联的历史属性信息。
具体地,对所述待发行属性信息进行向量化处理得到待发行向量,将所述待发行向量录入所述知识图谱中,运行所述知识图谱以识别与所述待发行向量相似的历史属性散点,并将其设为目标节点,识别所述知识图谱中与所述目标节点之间具有关联关系的历史属性散点,并将所述具有关联关系的历史属性散点设为关联节点,将所述目标节点和所述关联节点对应的历史属性信息,并获得与所述历史属性信息对应的历史案例信息,将所述获得的历史案例信息中的历史属性信息和历史监管问题设为第三相似信息。
S206:汇总所述第一相似信息、所述第二相似信息和所述第三相似信息,得到至少具有一个相似条目的相似集合,将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,其中,所述相似条目包括相互对应的历史监管问题和历史属性信息。
为在属性角度和从问题角度,从大量的所述第一相似信息、所述第二相似信息和所述第三相似信息中,识别出待发行材料与相似条目之间的相似度,本步骤通过汇总所述第一相似信息、所述第二相似信息和所述第三相似信息,得到至少具有一个相似条目的相似集合的方式,得到包含有相互对应的历史监管问题和历史属性信息的相似条目的清单,并将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值的方式,计算待发行材料与各所述相似条目之间的比对相似值,实现从属性和问题两个角度对所述相似程度进行评价,以实现更加客观真实的反应待发行材料与相似条目之间的相似性。
在一个优选的实施例中,所述将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,包括:
S61:提取待发行材料中的待发行属性信息和待发行问询信息,对所述待发行属性信息和所述待发行问询信息进行向量化处理得到待发行向量;
S62:对所述相似条目中的历史属性信息和历史监管问题进行向量化处理得到相似向量;
S63:通过预置的双塔模型对所述待发行向量和所述相似向量进行比对,以得到所述比对相似值。
具体地,通过预置的自然语言模型对所述待发行属性信息和所述待发行问询信息进行向量化处理得到词嵌入向量,将所述词嵌入向量设为所述待发行向量;及
通过所述自然语言模型对相似条目的历史属性信息和所述历史监管问题进行向量化处理得到词嵌入向量,将所述词嵌入向量设为所述相似向量。
词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
需要说明的是,采用分别使用相对独立的两个复杂网络的DSSM模型作为所述双塔模型,其构建了用户相关特征的user embedding(待发行向量)和item相关特征的itemembedding(相似向量),并通过DSSM模型的匹配层对两个历史案例信息进行比对,以得到所述历史相似值。
S207:根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列,将所述相似序列发送至所述客户端。
本步骤中,根据所述比对相似值对所述相似集合中的相似条目进行降序排列得到所述相似序列,以便于用户从所述相似序列顶部即可获得最相似的相似条目,用户还可根据相似条目的历史监管问题中的重点标签,识别某一债券企业主体在历史上曾经被重复问及的历史监管问题,进而便于用户对该问题进行重点关注。
优选的,所述根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列之后,所述方法还包括:
将所述相似序列上传至区块链中。
需要说明的是,基于相似序列得到对应的摘要信息,具体来说,摘要信息由相似序列进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证相似序列是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
S208:将所述相似序列中前N位的相似条目设为目标条目,将相应于所述目标条目的历史案例信息设为目标案件信息,提取所述目标案件信息中的历史反馈信息,将所述历史反馈信息及所述目标条目发送至所述客户端,其中,N为大于或等于1的自然数。
为便于用户能够获取与待发行材料最为相似的N个相似条目对应企业是如何答复历史监管问题的,以便于用户对其面临的监管问询或潜在问题提供参考,本步骤通过将所述相似序列中前N位的相似条目设为目标条目,将相应于所述目标条目的历史案例信息设为目标案件信息的方式,获得与所述待发行材料最为相近的N个目标案件信息,再通过预置的反馈关键字作为预置的查询函数的参数,并调用所述查询函数提取所述目标案件信息中的历史反馈信息,将所述历史反馈信息及所述目标条目发送至所述客户端,以作为用户对其面临的监管问询或潜在问题的参考,极大的提高了用户发行债券的便利度。
实施例三:
请参阅图4,本实施例的一种债券质控相似识别装置1,包括:
输入提取模块13,用于接收客户端发送的待发行材料,提取所述待发行材料中的待发行问询信息和待发行属性信息;
内容标签模块14,用于从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,将所述相似的历史监管问题及其历史属性信息汇总成第一相似信息;及从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,将所述相同的历史监管问题及其历史属性信息汇总成第二相似信息;
关联相似模块15,用于从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,将与所述历史属性信息对应的历史案例信息,及其中历史监管问题设为第三相似信息;
相似比对模块16,用于汇总所述第一相似信息、所述第二相似信息和所述第三相似信息,得到至少具有一个相似条目的相似集合,将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,其中,所述相似条目包括相互对应的历史监管问题和历史属性信息;
序列输出模块17,用于根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列,将所述相似序列发送至所述客户端。
可选的,所述债券质控相似识别装置1还包括:
组件构建模块11,用于获取历史案例信息,并提取所述历史案例信息中的历史监管问题和历史属性信息;
识别所述历史监管问题中历史关键字,根据所述历史关键字构建标签树;及
对所述历史监管问题进行向量化处理得到历史词向量,汇总多个所述历史词向量形成问询库;及
根据所述历史属性信息构建表征所述历史案例信息之间关联关系的知识图谱。
可选的,所述组件构建模块11包括:
问题识别单元111,用于提取所述历史案例信息中的历史问询文件和历史募集信息;识别所述历史文本信息中的问询信息,并将所述问询信息设为所述历史文本信息的历史监管问题。
多模态单元112,用于识别所述历史募集信息中的图片模态信息中的文本得到图像转文字信息;和/或对所述历史募集信息中的语音模态信息进行语音识别得到语音转文字信息。
属性识别单元113,用于整合所述历史募集信息中的文本模态信息,以及所述语音转文字信息和/或图像转文字信息得到历史文本信息,识别所述历史文本信息中表征所述历史案例信息对应企业属性的属性信息,并将所述识别到的属性信息设为历史属性信息。
重点标注单元114,用于识别所述历史案例信息中重复出现的历史监管问题,并在所述历史监管问题上标注重点标签。
关键字单元115,用于调用预置的多模态模型分析所述历史监管问题中的历史文本信息,以及语音模态信息和/或图像模态信息,得到表征所述历史监管问题中关键语义的历史关键字;
标签树构建单元116,用于获取多个所述历史监管问题的历史关键字,以所述历史关键字作为分类标签构建所述标签树,其中,所述标签树具有至少一个标签分支,一个所述标签分支对应至少一个历史监管问题。
历史向量化单元117,用于对所述历史属性信息进行向量化处理得到历史属性向量;
散点构建单元118,用于将所述历史属性向量录入预置的图谱模型中,使所述图谱模型生成相应于所述历史属性向量的历史属性散点;
图谱构建单元119,用于运行所述图谱模型以挖掘各所述历史属性散点之间的关联关系,并根据所述关联关系构建各所述历史属性散点之间的关联连线,使各所述历史属性散点及所述关联连线形成表征各所述历史属性信息之间关联关系的知识图谱。
可选的,所述债券质控相似识别装置1还包括:
热点构建模块12,用于在预置的时间区间内获取多个历史案例信息,提取所述多个历史案例信息中的历史监管问题并汇总形成历史问询集合,识别所述历史问询集合中的热点问询信息并汇总形成热点库。
可选的,所述热点构建模块12包括:
相似识别单元121,用于识别历史问询集合中相似的历史监管问题并汇总形成历史问询子集合;
热点识别单元122,用于将历史监管问题的数量超过预置的热点阈值的历史问询子集合设为热点集合,将所述热点集合中的历史监管问题设为热点问询信息;
库构建单元123,用于将至少一个所述热点问询信息录入预置的数据库,使所述数据库转为热点库。
可选的,所述输入提取模块13包括:
问题获取单元131,用于提取所述待发行材料中的问询函并提取所述问询函中的监管问题,及将所述问询函中的监管问题设为待发行问询信息;和/或
提取所述待发行材料中的潜在问题清单,提取所述潜在问题清单中的潜在问题并将其设为所述待发行问询信息。
属性汇总单元132,用于通过预置的正则表达式从所述待发行材料中获取行业信息、地域信息和政策信息,汇总所述行业信息、所述地域信息和所述政策信息形成所述待发行属性信息。
可选的,所述内容标签模块14包括:
待发行向量单元141,用于对所述待发行问询信息进行向量化处理得到待发行问询向量;
问询相似计算单元142,用于将所述待发行问询向量与所述问询库中的历史问询向量进行相似度比对,并得到表征所述待发行问询向量与所述历史问询向量之间相似程度的向量相似值;
热点相似计算单元143,用于将所述待发行问询向量与所述热点库中的热点问询向量进行相似度比对,以得到表征所述待发行问询向量与所述热点问询向量之间相似程度的热点相似值;
问询相似识别单元144,用于将数值超过预置的向量相似阈值的向量相似值设为目标历史值,将相应于所述目标历史值的历史问询向量所对应的历史监管问题,设为内容与所述待发行问询信息相似的历史监管问题;
热点相似识别单元145,用于将数值超过预置的热点相似阈值的热点相似值设为目标热点值,将相应于所述目标热点值的热点问询向量对应的热点问询信息,设为内容与所述待发行问询信息相似的历史监管问题。
关键提取单元146,用于提取所述待发行问询信息中的待发行关键字;
标签识别单元147,用于获取所述标签树中相应于所述待发行关键字的分类标签,获取相应于所述分类标签的历史监管问题;
标签相同问题单元148,用于将通过所述标签树获取到的历史监管问题设为所述标签与所述待发行问询信息相同的历史监管问题。
可选的,所述关联相似模块15包括:
节点识别单元151,用于识别所述知识图谱中与所述待发行属性信息匹配的节点,并将所述节点设为目标节点;
关联识别单元152,用于将所述知识图谱中与所述目标节点之间具有关联关系的节点设为关联节点;
关联相似单元153,用于将分别与所述目标节点和所述关联节点对应的历史案例信息,作为与所述待发行属性信息关联的历史属性信息。
可选的,所述相似比对模块16包括:
材料向量化单元161,用于提取待发行材料中的待发行属性信息和待发行问询信息,对所述待发行属性信息和所述待发行问询信息进行向量化处理得到待发行向量;
相似向量化单元162,用于对所述相似条目中的历史属性信息和历史监管问题进行向量化处理得到相似向量;
相似度比对单元163,用于通过预置的双塔模型对所述待发行向量和所述相似向量进行比对,以得到所述比对相似值。
可选的,所述债券质控相似识别装置1还包括:
信息反馈模块18,用于将所述相似序列中前N位的相似条目设为目标条目,将相应于所述目标条目的历史案例信息设为目标案件信息,提取所述目标案件信息中的历史反馈信息,将所述历史反馈信息及所述目标条目发送至所述客户端,其中,N为大于或等于1的自然数。
本技术方案应用于大数据的数据处理领域,通过人工智能的智能决策模型,从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,将所述相似的历史监管问题及其历史属性信息汇总成第一相似信息;及从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,将所述相同的历史监管问题及其历史属性信息汇总成第二相似信息;从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,将与所述历史属性信息对应的历史案例信息,及其中历史监管问题设为第三相似信息;及将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列,实现对待发行材料进行相似度匹配的技术效果。
实施例四:
为实现上述目的,本发明还提供一种计算机设备5,实施例三的债券质控相似识别装置的组成部分可分散于不同的计算机设备中,计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52,如图5所示。需要指出的是,图5仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例三的债券质控相似识别装置的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行债券质控相似识别装置,以实现实施例一和实施例二的债券质控相似识别方法。
实施例五:
为实现上述目的,本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储实现所述债券质控相似识别方法的计算机程序,被处理器52执行时实现实施例一和实施例二的债券质控相似识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种债券质控相似识别方法,其特征在于,包括:
接收客户端发送的待发行材料,提取所述待发行材料中的待发行问询信息和待发行属性信息;
从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,将所述相似的历史监管问题及其历史属性信息汇总成第一相似信息;及
从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,将所述相同的历史监管问题及其历史属性信息汇总成第二相似信息;
从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,将与所述历史属性信息对应的历史案例信息,及其中历史监管问题设为第三相似信息;
汇总所述第一相似信息、所述第二相似信息和所述第三相似信息,得到至少具有一个相似条目的相似集合,将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,其中,所述相似条目包括相互对应的历史监管问题和历史属性信息;
根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列,将所述相似序列发送至所述客户端。
2.根据权利要求1所述的债券质控相似识别方法,其特征在于,所述接收客户端发送的待发行材料之前,所述方法还包括:
获取历史案例信息,并提取所述历史案例信息中的历史监管问题和历史属性信息;
识别所述历史监管问题中的历史关键字,根据所述历史关键字构建标签树;及
对所述历史监管问题进行向量化处理得到历史词向量,汇总多个所述历史词向量形成问询库;及
根据所述历史属性信息构建表征所述历史案例信息之间关联关系的知识图谱。
3.根据权利要求1所述的债券质控相似识别方法,其特征在于,所述接收客户端发送的待发行材料之前,所述方法还包括:
在预置的时间区间内获取多个历史案例信息,提取所述多个历史案例信息中的历史监管问题并汇总形成历史问询集合,识别所述历史问询集合中的热点问询信息并汇总形成热点库。
4.根据权利要求1所述的债券质控相似识别方法,其特征在于,所述提取所述待发行材料中的待发行问询信息和待发行属性信息,包括:
提取所述待发行材料中的问询函并提取所述问询函中的监管问题,及将所述问询函中的监管问题设为待发行问询信息;和/或
提取所述待发行材料中的潜在问题清单,提取所述潜在问题清单中的潜在问题并将其设为所述待发行问询信息;
通过预置的正则表达式从所述待发行材料中获取行业信息、地域信息和政策信息,汇总所述行业信息、所述地域信息和所述政策信息形成所述待发行属性信息。
5.根据权利要求1所述的债券质控相似识别方法,其特征在于,所述从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,包括:
对所述待发行问询信息进行向量化处理得到待发行问询向量;
将所述待发行问询向量与所述问询库中的历史问询向量进行相似度比对,并得到表征所述待发行问询向量与所述历史问询向量之间相似程度的向量相似值;和/或
将所述待发行问询向量与所述热点库中的热点问询向量进行相似度比对,以得到表征所述待发行问询向量与所述热点问询向量之间相似程度的热点相似值;
将数值超过预置的向量相似阈值的向量相似值设为目标历史值,将相应于所述目标历史值的历史问询向量所对应的历史监管问题,设为内容与所述待发行问询信息相似的历史监管问题;和/或
将数值超过预置的热点相似阈值的热点相似值设为目标热点值,将相应于所述目标热点值的热点问询向量对应的热点问询信息,设为内容与所述待发行问询信息相似的历史监管问题;
所述从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,包括:
提取所述待发行问询信息中的待发行关键字;
获取所述标签树中相应于所述待发行关键字的分类标签,获取相应于所述分类标签的历史监管问题;
将通过所述标签树获取到的历史监管问题设为所述标签与所述待发行问询信息相同的历史监管问题。
6.根据权利要求1所述的债券质控相似识别方法,其特征在于,所述从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,包括:
识别所述知识图谱中与所述待发行属性信息匹配的节点,并将所述节点设为目标节点;
将所述知识图谱中与所述目标节点之间具有关联关系的节点设为关联节点;
将分别与所述目标节点和所述关联节点对应的历史案例信息,作为与所述待发行属性信息关联的历史属性信息。
7.根据权利要求1所述的债券质控相似识别方法,其特征在于,所述将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,包括:
提取待发行材料中的待发行属性信息和待发行问询信息,对所述待发行属性信息和所述待发行问询信息进行向量化处理得到待发行向量;
对所述相似条目中的历史属性信息和历史监管问题进行向量化处理得到相似向量;
通过预置的双塔模型对所述待发行向量和所述相似向量进行比对,以得到所述比对相似值;
所述根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列之后,所述方法还包括:
将所述相似序列上传至区块链中。
8.一种债券质控相似识别装置,其特征在于,包括:
输入提取模块,用于接收客户端发送的待发行材料,提取所述待发行材料中的待发行问询信息和待发行属性信息;
内容标签模块,用于从预置的问询库和/或热点库中获取内容与所述待发行问询信息相似的历史监管问题,将所述相似的历史监管问题及其历史属性信息汇总成第一相似信息;及从预置的标签树中获取标签与所述待发行问询信息相同的历史监管问题,将所述相同的历史监管问题及其历史属性信息汇总成第二相似信息;
关联相似模块,用于从预置的知识图谱中获取与所述待发行属性信息关联的历史属性信息,将与所述历史属性信息对应的历史案例信息,及其中历史监管问题设为第三相似信息;
相似比对模块,用于汇总所述第一相似信息、所述第二相似信息和所述第三相似信息,得到至少具有一个相似条目的相似集合,将所述待发行材料与相似集合中的相似条目依次进行比对,得到表征所述待发行材料与所述相似条目之间的相似程度的比对相似值,其中,所述相似条目包括相互对应的历史监管问题和历史属性信息;
序列输出模块,用于根据所述比对相似值对所述相似集合中的相似条目进行排序得到相似序列,将所述相似序列发送至所述客户端。
9.一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机设备的处理器执行所述计算机程序时实现权利要求1至7任一项所述债券质控相似识别方法的步骤。
10.一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,其特征在于,所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7任一项所述债券质控相似识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210733323.6A CN115082174B (zh) | 2022-06-27 | 2022-06-27 | 债券质控相似识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210733323.6A CN115082174B (zh) | 2022-06-27 | 2022-06-27 | 债券质控相似识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115082174A true CN115082174A (zh) | 2022-09-20 |
CN115082174B CN115082174B (zh) | 2024-07-09 |
Family
ID=83255597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210733323.6A Active CN115082174B (zh) | 2022-06-27 | 2022-06-27 | 债券质控相似识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115082174B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8458065B1 (en) * | 2007-01-31 | 2013-06-04 | FinancialSharp Inc. | System and methods for content-based financial database indexing, searching, analysis, and processing |
CN112581006A (zh) * | 2020-12-25 | 2021-03-30 | 杭州衡泰软件有限公司 | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 |
CN112634057A (zh) * | 2020-12-18 | 2021-04-09 | 未鲲(上海)科技服务有限公司 | 基金相似度计算方法、平台、设备及可读存储介质 |
US20210279424A1 (en) * | 2020-03-05 | 2021-09-09 | Oracle International Corporation | Conversational explainability |
WO2022105119A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | 意图识别模型的训练语料生成方法及其相关设备 |
-
2022
- 2022-06-27 CN CN202210733323.6A patent/CN115082174B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8458065B1 (en) * | 2007-01-31 | 2013-06-04 | FinancialSharp Inc. | System and methods for content-based financial database indexing, searching, analysis, and processing |
US20210279424A1 (en) * | 2020-03-05 | 2021-09-09 | Oracle International Corporation | Conversational explainability |
WO2022105119A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | 意图识别模型的训练语料生成方法及其相关设备 |
CN112634057A (zh) * | 2020-12-18 | 2021-04-09 | 未鲲(上海)科技服务有限公司 | 基金相似度计算方法、平台、设备及可读存储介质 |
CN112581006A (zh) * | 2020-12-25 | 2021-03-30 | 杭州衡泰软件有限公司 | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115082174B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN111831636A (zh) | 一种数据处理方法、装置、计算机系统及可读存储介质 | |
CN113127633B (zh) | 智能会议管理方法、装置、计算机设备及存储介质 | |
CN115496638B (zh) | 基于智慧校园的学生课程成绩分析管理方法及系统 | |
CN111967437A (zh) | 文本识别方法、装置、设备及存储介质 | |
CN111581193A (zh) | 数据处理方法、设备、计算机系统及存储介质 | |
CN111639700A (zh) | 目标相似度识别方法、装置、计算机设备及可读存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN113868419A (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN114281984A (zh) | 一种风险检测方法、装置、设备及计算机可读存储介质 | |
CN112417996A (zh) | 工业图纸的信息处理方法、装置、电子设备和存储介质 | |
CN113221570A (zh) | 基于线上问诊信息的处理方法、装置、设备及存储介质 | |
CN115577701A (zh) | 针对大数据安全的风险行为识别方法、装置、设备及介质 | |
CN111625567A (zh) | 数据模型匹配方法、装置、计算机系统及可读存储介质 | |
CN111831817B (zh) | 问卷生成分析方法、装置、计算机设备及可读存储介质 | |
CN114064893A (zh) | 一种异常数据审核方法、装置、设备及存储介质 | |
CN117573876A (zh) | 一种业务数据分类分级方法及装置 | |
CN116739408A (zh) | 基于数据标签的电网调度安全监控方法、系统及电子设备 | |
CN115146653B (zh) | 对话剧本构建方法、装置、设备及存储介质 | |
CN112561538B (zh) | 风险模型创制方法、装置、计算机设备及可读存储介质 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN115082174B (zh) | 债券质控相似识别方法、装置、计算机设备及存储介质 | |
CN114298819A (zh) | 一种企业信用风险预测方法 | |
CN113706207A (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
CN117272201B (zh) | 一种基于4w1h语言模型的金融行为异常检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |