CN110377809A - 预设用户的资源获取资质生成方法及相关设备 - Google Patents

预设用户的资源获取资质生成方法及相关设备 Download PDF

Info

Publication number
CN110377809A
CN110377809A CN201910540026.8A CN201910540026A CN110377809A CN 110377809 A CN110377809 A CN 110377809A CN 201910540026 A CN201910540026 A CN 201910540026A CN 110377809 A CN110377809 A CN 110377809A
Authority
CN
China
Prior art keywords
word
referenced text
current type
text
target signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910540026.8A
Other languages
English (en)
Inventor
李锴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910540026.8A priority Critical patent/CN110377809A/zh
Publication of CN110377809A publication Critical patent/CN110377809A/zh
Priority to PCT/CN2020/085847 priority patent/WO2020253353A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Abstract

本发明公开了一种基于大数据分析的预设用户的资源获取资质生成方法及相关设备,本发明首先对预设用户的官方资源获取资质进行查询;在官方资质为正常状态时,从网络信息源中分别获取预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取当前类型参考文本集合对应的企业信息类型的舆情指数;在对不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成预设用户的当前资质,进而使得资源供应机构对于资源获取用户的资源获取资质的审核效率和审核准确率得到提高。

Description

预设用户的资源获取资质生成方法及相关设备
技术领域
本发明涉及大数据分析领域,尤其涉及一种预设用户的资源获取资质生成方法及相关设备。
背景技术
用户获取资源的时候,需要向资源供应机构提交相应的审核材料,以使资源供应机构根据审核材料,生成用户获取资源的资质,如放贷机构对贷款商家提供贷款材料进行审核,得到一份贷前调查报告来确定贷款商家的贷款资质是否合格;然而,传统的贷前调查报告,需要人工进行审核,费时费力,而且,贷款商家提供的材料过于主观,不易反映贷款商家整体实际经营状态,例如有些商家企业自身出了问题时,可能会使用一些非常规手段将自身当前的“官方”企业信息给“伪装”起来,导致放贷机构对于商家贷款资质的审核效率和审核正确率低下。
发明内容
本发明的主要目的在于提供了一种预设用户的资源获取资质生成方法、装置、设备及计算机存储介质,旨在解决目前资源供应机构对于资源获取用户的资源获取资质的审核效率和审核准确率低下的技术问题。
为实现上述目的,本发明提供了一种预设用户的资源获取资质生成方法,所述方法包括以下步骤:
对预设用户的官方资源获取资质进行查询;
在所述官方资质为正常状态时,从网络信息源中分别获取所述预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;
分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
优选地,所述分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词;
对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;
计算所述目标特征词在所述当前类型参考文本集合中的权重值;
根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数;
其中,所述对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词,包括:确定所述参考文本中的各个句子,将各个句子中的文字按照字频高低转为汉字数字序列;并按照字在词中的位置,将各个句子中的文字转化为对应的标签序列;将所述汉字数字序列按句输入到注意力模型的字向量转化层中,以输出字向量矩阵;
采用梯度下降法对所述字向量矩阵进行分块处理,将分块处理结果输入到所述注意力模型中,得到预测标签序列;将所述预测标签序列与所述注意力模型中的预设文本语料的标签序列进行比对,按每个标签的含义合成目标语句,其中,所述目标语句中的词语即为特征词,并对各个特征词进行词性标注操作,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词。
优选地,所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
计算所述目标特征词在对应的目标参考文本中的词频,所述目标参考文本为包含所述目标特征词的参考文本;
计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率;
根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在所述当前类型参考文本集合中的权重值。
优选地,所述计算所述目标特征词在对应的目标参考文本中的词频的步骤,包括:
通过以下公式(一)计算所述目标特征词在对应的目标参考文本中的词频,
其中,tfi表示目标特征词Ti在所述目标参考文本中的词频,ni表示词语Ti在所述目标参考文本中的频次,nk为所述目标参考文本中第k个特征词的频次;
所述计算所述目标特征词在所述参考文本集合中的逆文档频率的步骤,包括:
通过以下公式(二)计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率,
其中,|D|表示所述当前类型参考文本集合中的参考文本的总数量;|d:ti∈d|表示所述当前类型参考文本集合中包括所述目标特征词Ti的参考文本的总数量;idfi表示所述目标特征词Ti在所述当前类型参考文本集合中的逆文档频率;
所述根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在参考文本集合中的权重值,包括:
通话以下公式(三)计算所述目标特征词在所述当前类型参考文本集合中的权重值,
(tf/idf)i=tfi×idfi 公式(三)
其中,(tf/idf)i表示目标特征词Ti在所述当前类型参考文本集合中的权重值。
优选地,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征为反映正面信息的词汇,所述第二预设词类别表征为反映负面信息的词汇;
所述对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词的步骤,包括:
对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
计算所述第一目标特征词在所述当前类型参考文本集合中的第一权重值;
计算所述第二目标特征词在所述当前类型参考文本集合中的第二权重值;
所述根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数。
优选地,所述将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
获取所述企业信息类型的多个风险级别区间;
根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
基于目标风险级别区间获取所述目标企业的当前舆情指数。
优选地,所述对商家的官方资源获取资质进行查询的步骤,具体包括:
在检测到与目标数据库处于通讯状态时,从所述目标数据库中查询商家的官方资源获取资质。
此外,为实现上述目的,本发明还提出一种预设用户的资源获取资质生成装置,所述装置包括:
查询模块,用于对预设用户的官方资源获取资质进行查询;
获取模块,用于在所述官方资源获取资质为正常状态时,从网络信息源中分别获取所述预设用户与不同的企业信息类型相关的参考文本,得到不同类型的参考文本集合;
语义分析模块,用于分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
生成模块,用于在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述资源获取预设用户的当前资质。
此外,为实现上述目的,本发明还提出一种用于预设用户的资源获取资质生成的设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序配置为实现如上所述的预设用户的资源获取资质生成方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机存储介质,所述计算机存储介质存储有预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序配置为实现如上所述的预设用户的资源获取资质生成方法的步骤。
本发明首先对预设用户的官方资源获取资质进行查询;在官方资质为正常状态时,从网络信息源中分别获取预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取当前类型参考文本集合对应的企业信息类型的舆情指数;在对不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成预设用户的当前资质,进而使得资源供应机构对于资源获取用户的资源获取资质的审核效率和审核准确率得到提高。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的用于预设用户的资源获取资质生成的设备的结构示意图;
图2为本发明一种预设用户的资源获取资质生成方法一实施例的流程示意图;
图3为本发明一种预设用户的资源获取资质生成方法第二实施例的流程示意图;
图4为本发明一种预设用户的资源获取资质生成方法第三实施例流程示意图;
图5为本发明一种预设用户的资源获取资质生成装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
参照图1,图1为本发明实施例方案涉及的硬件运行环境的预设用户的资源获取资质生成的设备的结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对所述设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。所述预设用户的资源获取资质生成的设备可以是放贷机构工作人员使用的电脑主机或者智能手机。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接收模块以及预设用户的资源获取资质生成程序。
在图1所示的设备中,本发明的预设用户的资源获取资质生成装置通过处理器1001调用存储器1005中存储的预设用户的资源获取资质生成程序,并执行预设用户的资源获取资质生成方法的步骤。
参照图2,图2本发明一种预设用户的资源获取资质生成方法第一实施例的流程示意图。
本实施例中,所述预设用户的资源获取资质生成方法包括以下步骤:
步骤S10:对预设用户的官方资源获取资质进行查询;
需要说明的是,本实施例的执行主体是上述用于预设用户的资源获取资质的设备,所述设备装载有预设用户的资源获取资质生成程序。本实施例中,以贷款商家作为所述预设用户为例,以该商家的贷款资质作为所述资源获取资质。
所述预设用户的资源获取资质生成程序可理解为一种客户端,所述“对预设用户的官方资源获取资质进行查询”的第一种查询方式为:所述客户端对应的服务器可以与目标数据库连接,实现所有预设用户信息与国家工商总局的同步更新,当然所述客户端也可以直接与对应目标数据库连接。所述目标数据库可以是国家工商总局的系统下的数据库。所述“对预设用户的官方资源获取资质进行查询”的第二种查询方式为,所述设备会接收预设用户传输的资源获取资质资料,所述设备会将预设用户上传的资源获取资质存入所述目标数据库中。
具体地,本实施例以上述第一种查询方式为例进行说明,即所述设备在检测到与目标数据库处于通讯状态时,从所述目标数据库中查询商家的官方贷款资质。
放贷机构的工作人员通过客户端可以直接查询贷款商家的在国家工商总局登记的企业信息,以及官方显示的贷款资质状态(例如企业法人和企业本身是否存在违反法律的行为,例如是否存在刑事案件、行政案件、失信记录等)。
企业信息至少分为三种类型:包括企业基本信息(第一类型A)、企业司法信息(第二类型B)、企业经营信息(第三类型C)。
例如,企业基本信息包括企业工商信息、其中,企业工商信息包括企业成立时间、经营期限、经营状态、注册资本和主营业务等等。
企业司法信息包括企业营业执照信息、法人在企业任职信息、高管任职信息、重大变更事项信息、企业司法诉讼信息、企业经营信息、企业对外投资关系及投资企业所在行业中集中度信息。
企业经营信息包括企业营业执照信息、法人在企业任职信息、高管任职信息、重大变更事项信息、企业对外投资关系。
步骤S20:在所述官方资源获取资质为正常状态时,从网络信息源中分别获取所述预设用户与不同的企业信息类型相关的参考文本,得到不同类型的参考文本集合。
可理解的是,如果所述设备从所述目标数据库中查询到所述商家的官方贷款资质显示正常,并不意味着所述商家的贷款资质就一定没有问题,因此在查询到所述商家的官方贷款资质的结果为正常状态时,利用爬虫技术从网络信息源中分别获取所述商家与不同的企业信息类型相关的参考文本,得到不同类型的参考文本集合,以对所述商家的贷款资质作进一步核实。
本实施例的网络信息源可以是网页、论坛、微博、或微信等。可选地,这些网络爬虫工具可以属于不同的搜索引擎、专业论坛网站、微博网站、微信公众号等等;本实施例可通过Python脚本作为爬虫工具,能够更加方便快捷地从网络信息源中获取与相应企业信息类型的相关的参考文本。
例如,如果是针对企业经营信息(第三类型C)相关的参考文本,则可以从58同城、BOOS直聘等招聘网站、或者某些论坛贴吧中获取相关的文本信息,判断该企业的经营状态,如果购物网站或者论坛贴吧中经常有该企业的产品质量不好,或者招聘网站上经常会出现员工反映该企业经常拖欠员工拖欠工资的情况,则可以在一定程度上说明该企业经营方面有一定的问题,效益不景气。
又或者如果是针对企业司法信息(第三类型B)相关的参考文本,能够在网上搜索到多起该企业的老总触犯了某条法律,或者该企业涉嫌违规操作的相关新闻,则证明该企业存在一定的信用问题或者缺乏安全性保障。
步骤S30:分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数。
可理解的是,例如一共有三种类型的参考文本集合,即企业基本信息对应的第一类型文本集合A、企业司法信息对应的第二类型文本集合B、企业经营信息对应的第三类型文本集合C。
本实施例会分别对第一类型文本集合A、第二类型文本集合B和第三类型文本集合C进行遍历,对不同类型文本集合中的参考文本进行语义分析,例如,可以在遍历到某一类型的文本集合时,对每个参考文本中的关键词的进行提取分析,从文本中找到一些具有代表性的词语来表示文本所倾向的内容。这可以极大地压缩文本规模,同时不会明显地丢失文本所倾向的内容信息。最后根据类型文本集合中每个文本的语义分析结果来确定该类型文本集合的语义分析结果,最后根据该类型文本集合的语义分析结果来获取所述当前类型参考文本集合对应的企业信息类型的舆情指数。
步骤S40:在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
具体地,在分别对第一类型文本集合a、第二类型文本集合b和第三类型文本集合c遍历完毕之后,会总共得到至少三种企业信息类型的舆情指数,即企业基本信息(对应集合a)的舆情指数,企业司法信息(对应集合b)的舆情指数、企业经营信息(对应集合c)的舆情指数,本方案可以将这三种舆情指数累加,将累加后的值和一个预设种舆情指数进行比较,如果大于预设种舆情指数,则认定该贷款商家具有可信的贷款实力,否则不给该贷款商家放贷;其中,所述预设种舆情指数可以由放贷机构的工作人员根据专家建议自行设置。
本实施例首先对预设用户的官方资源获取资质进行查询;在官方资质为正常状态时,从网络信息源中分别获取预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取当前类型参考文本集合对应的企业信息类型的舆情指数;在对不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成预设用户的当前资质,进而使得资源供应机构对于资源获取用户的资源获取资质的审核效率和审核准确率得到提高。
进一步地,参照图3,图3本发明一种预设用户的资源获取资质生成方法第二实施例的流程示意图;基于上述预设用户的资源获取资质生成方法的第一实施例,提出本发明一种预设用户的资源获取资质生成方法第二实施例。
本实施例中,所述步骤S30具体包括:
步骤S301:分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词。
可理解的是,假设遍历到的当前类型参考文本集合为第一类型文本集合A,对于第一类型文本集合A(当前类型参考文本集合)中,总共获得的参考文本有m(k=1、2、3、4……m)个,本实施例首先分别对集合A中的每个参考文本进行分词处理;在对集合A中第m个参考文本进行分词处理时,获得当前处理的(第m个)新闻样本对应的具有词性标注的特征词集合{Tm}。…继续遍历集合B和集合C,执行步骤S301按照相同的方法对集合B和集合C进行处理。
其中,所述对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词的方法,进一步包括:确定所述参考文本中的各个句子,将各个句子中的文字按照字频高低转为汉字数字序列;并按照字在词中的位置,将各个句子中的文字转化为对应的标签序列;将所述汉字数字序列按句输入到注意力模型(Attention Model)的字向量转化层中,以输出字向量矩阵;
采用梯度下降法mini-batch方式对所述字向量矩阵进行分块处理,将分块处理结果输入到所述注意力模型中,得到预测标签序列,其中,所述注意力模型包括编码层和解码层;将所述预测标签序列与所述注意力模型中的预设文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子(即目标语句),按空格分隔开,最终分词后的句子中的词语即为特征词,并对各个特征词进行词性标注操作,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词;本实施例能够更加快速准确地对篇幅较长的新闻文本进行分词得到分词结果,相对于现有技术来说,本实施例的分词处理更加高效。
步骤S302:对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词。
可理解的是,所述目标预设词类别为能够反应预设用户正负面信息的词汇类别;本实施例的预设用户的资源获取资质生成程序的开发人员会预先将能够反应企业正负面信息的名词、动词和形容词归类到不同的目标预设词类别中,并将归类后的能够反应企业正负面信息的名词、动词以及形容词作为目标特征词、以及所述目标特征词与所述目标预设词类别的映射关系保存到词汇库中;同时,在执行步骤S302时,会对步骤S302中得到的特征词进行分析,确定步骤S301中得到的特征词的词性后,再将该特征词与词汇库中预先存储的特征词进行匹配,如果该特征词能够与词汇库中的预存词语成功匹配,则说明该特征词属于能够反映预设用户的正负面信息的词汇,确认匹配出的预存词语属于哪个目标预设词类别,那么该特征词即为确认出的目标预设词类别的目标特征词。
步骤S303:计算所述目标特征词在所述当前类型参考文本集合中的权重值。
可理解的是,步骤S303的权重值为该目标特征词相对于预设用户来说能够所反映该预设用户正负面信息的重要程度值,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。该目标特征词在所述当前类型参考文本集合中的权重值越高,说明该目标特征词越能反映该企业舆情。
在具体实现中,可通过计算所述目标特征词在所述当前类型参考文本集合(集合a)中的逆文档频率来确定该目标特征词在当前类型参考文本集合中(集合a)的权重值。逆文档频率是一种用于资讯检索与资讯探勘的常用加权术,如果某些指定词或短语在一篇文章中出现的频率高,但是这些指定词或短语在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。也就是说,本实施例中,如果某些指定目标特征词在其所属的当前参考文本文章中出现的频率高,但是在所述当前类型参考文本集合中的其他参考文本中很少出现,则说明该指定目标特征词的逆文档频率较高,该指定目标特征词具有很好的类别区分能力。基于逆文档频率可以更加准确地计算该目标特征词在所述当前类型参考文本集合中的权重值。…同理,在集合a的数据处理之后,然后执行步骤S50按照相同的方法对集合b和集合c进行处理。
步骤S304:根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数。
可理解的是,已知目标特征词肯定是一个能够反应预设用户的一企业信息类型的正负面信息的词汇,该目标特征词在所述当前类型参考文本集合中的权重值高,则该目标特征词表征该预设用户一企业信息类型的正面或者负面舆情指数越高,进而能够根据所述目标特征词的权重值测算所述预设用户的某一企业信息类型的舆情指数。
进一步地,参照图4,图4本发明一种预设用户的资源获取资质生成方法第三实施例的流程示意图;基于上述预设用户的资源获取资质生成方法的第二方法实施例,提出本发明一种预设用户的资源获取资质生成方法第三实施例。
本实施例中,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征为反映正面信息的词汇,所述第二预设词类别表征为反映负面信息的词汇;
所述步骤S302,具体包括:
步骤S032:对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
可理解的是,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征反映正面信息的词汇,所述第二预设词类别表征反映负面信息的词汇。
相应地,所述步骤S303,包括:
步骤S033:计算所述第一目标特征词在所述当前类型参考文本集合中的第一权重值;计算所述第二目标特征词在所述当前类型参考文本集合中的第二权重值;
在具体实现中,可通过上述第三实施例的公式(一)、公式(二)以及公式(三)计算第一目标特征词在所述当前类型参考文本集合中的第一权重值,以及所述第二目标特征词在所述当前类型参考文本集合中的第二权重值。
相应地,所述步骤S304,包括:
步骤S034:将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数。
在具体实现中,获取所述企业信息类型的多个风险级别区间;
根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
基于目标风险级别区间获取所述目标企业的当前舆情指数。
其中,所述步骤S304在具体实现中,可以首先获取所述企业信息类型的多个风险级别区间,其中所述风险级别区间可用是程序开发人员预先设置,程序开发人员可预先为所述目标企业的设置多个风险级别区间,每个风险级别区间表征一种负面舆情级别,可分为重大负面级别、一般负面级别、中性级别、一般正面级别、非常正面五类舆情风险级别;
然后根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
最后基于目标风险级别区间获取所述目标企业的当前舆情指数。
例如,本实施例的第一目标特征词在所述当前类型参考文本集合中的权重值越高,越能反映该企业正面舆情;而第二目标特征词在所述当前类型参考文本集合中的权重值越高,越能反映该企业负面舆情;可以设置第一目标特征词的权重值*50%减去所述第二目标特征词的权重值*30%,判断得到的差值在哪个风险级别区间,根据风险级别区间确定所述预设用户的一企业信息类型的当前舆情指数。通过将两个代表不同预设用户舆情的权重值进行比较,能够准确地测算出所资源获取预设用户对应的企业信息类型的舆情指数。
此外,参照图5,本发明还提出一种预设用户的资源获取资质生成装置,所述装置包括:
查询模块10,用于对预设用户的官方资源获取资质进行查询;
获取模块20,用于在所述官方资源获取资质为正常状态时,从网络信息源中分别获取所述预设用户与不同的企业信息类型相关的参考文本,得到不同类型的参考文本集合;
语义分析模块30,用于分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
生成模块40,用于在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述资源获取预设用户的当前资质。
可理解的是,本实施的预设用户的资源获取资质生成装置可以是一种计算机应用程序,该计算机应用程序装载在上述实施例的预设用户的资源获取资质生成设备中,所述用于预设用户的资源获取资质生成的设备可以是放贷机构工作人员使用的电脑主机或者智能手机。本发明预设用户的资源获取资质生成装置的具体实现方式可参照上述预设用户的资源获取资质生成方法实施例,此处不再赘述。
此外,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序被处理器执行时实现如上所述的预设用户的资源获取资质生成方法步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种预设用户的资源获取资质生成方法,其特征在于,所述方法包括:
对预设用户的官方资源获取资质进行查询;
在所述官方资质为正常状态时,从网络信息源中分别获取所述预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;
分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
2.如权利要求1所述的方法,其特征在于,所述分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词;
对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;
计算所述目标特征词在所述当前类型参考文本集合中的权重值;
根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数;
其中,所述对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词,包括:确定所述参考文本中的各个句子,将各个句子中的文字按照字频高低转为汉字数字序列;并按照字在词中的位置,将各个句子中的文字转化为对应的标签序列;将所述汉字数字序列按句输入到注意力模型的字向量转化层中,以输出字向量矩阵;
采用梯度下降法对所述字向量矩阵进行分块处理,将分块处理结果输入到所述注意力模型中,得到预测标签序列;将所述预测标签序列与所述注意力模型中的预设文本语料的标签序列进行比对,按每个标签的含义合成目标语句,其中,所述目标语句中的词语即为特征词,并对各个特征词进行词性标注操作,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词。
3.如权利要求2所述的方法,其特征在于,所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
计算所述目标特征词在对应的目标参考文本中的词频,所述目标参考文本为包含所述目标特征词的参考文本;
计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率;
根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在所述当前类型参考文本集合中的权重值。
4.如权利要求3所述的方法,其特征在于,所述计算所述目标特征词在对应的目标参考文本中的词频的步骤,包括:
通过以下公式(一)计算所述目标特征词在对应的目标参考文本中的词频,
其中,tfi表示目标特征词Ti在所述目标参考文本中的词频,ni表示词语Ti在所述目标参考文本中的频次,nk为所述目标参考文本中第k个特征词的频次;
所述计算所述目标特征词在所述参考文本集合中的逆文档频率的步骤,包括:
通过以下公式(二)计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率,
其中,|D|表示所述当前类型参考文本集合中的参考文本的总数量;|d:ti∈d|表示所述当前类型参考文本集合中包括所述目标特征词Ti的参考文本的总数量;idfi表示所述目标特征词Ti在所述当前类型参考文本集合中的逆文档频率;
所述根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在参考文本集合中的权重值,包括:
通话以下公式(三)计算所述目标特征词在所述当前类型参考文本集合中的权重值,
(tf/idf)i=tfi×idfi 公式(三)
其中,(tf/idf)i表示目标特征词Ti在所述当前类型参考文本集合中的权重值。
5.如权利要求4所述的方法,其特征在于,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征为反映正面信息的词汇,所述第二预设词类别表征为反映负面信息的词汇;
所述对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词的步骤,包括:
对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
计算所述第一目标特征词在所述当前类型参考文本集合中的第一权重值;
计算所述第二目标特征词在所述当前类型参考文本集合中的第二权重值;
所述根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数。
6.如权利要求5所述的方法,其特征在于,所述将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
获取所述企业信息类型的多个风险级别区间;
根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
基于目标风险级别区间获取所述目标企业的当前舆情指数。
7.如权利要求1所述的方法,其特征在于,所述对商家的官方资源获取资质进行查询的步骤,具体包括:
在检测到与目标数据库处于通讯状态时,从所述目标数据库中查询商家的官方资源获取资质。
8.一种预设用户的资源获取资质生成装置,其特征在于,所述装置包括:
查询模块,用于对预设用户的官方资源获取资质进行查询;
获取模块,用于在所述官方资源获取资质为正常状态时,从网络信息源中分别获取所述预设用户与不同的企业信息类型相关的参考文本,得到不同类型的参考文本集合;
语义分析模块,用于分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
生成模块,用于在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述资源获取预设用户的当前资质。
9.一种用于预设用户的资源获取资质生成的设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序配置为实现如权利要求1至7中任一项所述的预设用户的资源获取资质生成方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序配置为实现如权利要求1至7中任一项所述的预设用户的资源获取资质生成方法的步骤。
CN201910540026.8A 2019-06-19 2019-06-19 预设用户的资源获取资质生成方法及相关设备 Pending CN110377809A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910540026.8A CN110377809A (zh) 2019-06-19 2019-06-19 预设用户的资源获取资质生成方法及相关设备
PCT/CN2020/085847 WO2020253353A1 (zh) 2019-06-19 2020-04-21 预设用户的资源获取资质生成方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910540026.8A CN110377809A (zh) 2019-06-19 2019-06-19 预设用户的资源获取资质生成方法及相关设备

Publications (1)

Publication Number Publication Date
CN110377809A true CN110377809A (zh) 2019-10-25

Family

ID=68250598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910540026.8A Pending CN110377809A (zh) 2019-06-19 2019-06-19 预设用户的资源获取资质生成方法及相关设备

Country Status (2)

Country Link
CN (1) CN110377809A (zh)
WO (1) WO2020253353A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253353A1 (zh) * 2019-06-19 2020-12-24 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554411A (zh) * 2021-06-28 2021-10-26 北京来也网络科技有限公司 结合rpa和ai的企业资质申报的处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107463616A (zh) * 2017-07-03 2017-12-12 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN107688594A (zh) * 2017-05-05 2018-02-13 平安科技(深圳)有限公司 基于社交信息的风险事件的识别系统及方法
CN108427695A (zh) * 2017-08-04 2018-08-21 平安科技(深圳)有限公司 企业推荐方法及应用服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377809A (zh) * 2019-06-19 2019-10-25 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688594A (zh) * 2017-05-05 2018-02-13 平安科技(深圳)有限公司 基于社交信息的风险事件的识别系统及方法
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107463616A (zh) * 2017-07-03 2017-12-12 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN108427695A (zh) * 2017-08-04 2018-08-21 平安科技(深圳)有限公司 企业推荐方法及应用服务器
WO2019024496A1 (zh) * 2017-08-04 2019-02-07 平安科技(深圳)有限公司 企业推荐方法及应用服务器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253353A1 (zh) * 2019-06-19 2020-12-24 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备

Also Published As

Publication number Publication date
WO2020253353A1 (zh) 2020-12-24

Similar Documents

Publication Publication Date Title
US11620455B2 (en) Intelligently summarizing and presenting textual responses with machine learning
US20230325396A1 (en) Real-time content analysis and ranking
McMahon et al. The substantial interdependence of Wikipedia and Google: A case study on the relationship between peer production communities and information technologies
US9477750B2 (en) System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
CN103778548B (zh) 商品信息与关键词匹配方法、商品信息投放方法及装置
Solaymani et al. Adoption and use of e-commerce in SMEs: A case study
US9471643B2 (en) Generating ranked search results using linear and nonlinear ranking models
Groth et al. Requirements for provenance on the web
CN107256267A (zh) 查询方法和装置
CN109977300A (zh) 企业舆情获取方法、装置、终端及计算机存储介质
CN110069545B (zh) 一种行为数据评估方法及装置
CN113537796A (zh) 一种企业风险评估方法、装置及设备
Licorish et al. Attributes that predict which features to fix: Lessons for app store mining
CN111179051A (zh) 金融目标客户确定方法、装置及电子设备
CN115547466B (zh) 基于大数据的医疗机构登记评审系统及其方法
US11651039B1 (en) System, method, and user interface for a search engine based on multi-document summarization
CN110377809A (zh) 预设用户的资源获取资质生成方法及相关设备
CN116384815A (zh) 投标对象评审方法、电子设备及存储介质
Permana et al. Perception analysis of the Indonesian society on twitter social media on the increase in BPJS kesehatan contribution in the Covid 19 pandemic era
Mbithi et al. Corporate risk disclosure: A systematic literature review and future research agenda
CN114817683A (zh) 一种信息推荐方法、装置、计算机设备及存储介质
Gezici et al. Neural sentiment analysis of user reviews to predict user ratings
Xing et al. HMBI: a new hybrid deep model based on behavior information for fake news detection
CN110134866A (zh) 信息推荐方法及装置
Sumner et al. RipetaScore: Measuring the quality, transparency, and trustworthiness of a scientific work

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination