CN113657545A - 用户业务数据的处理方法、装置、设备及存储介质 - Google Patents
用户业务数据的处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113657545A CN113657545A CN202111005807.0A CN202111005807A CN113657545A CN 113657545 A CN113657545 A CN 113657545A CN 202111005807 A CN202111005807 A CN 202111005807A CN 113657545 A CN113657545 A CN 113657545A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- user
- preset
- service data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000008569 process Effects 0.000 claims abstract description 48
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000003672 processing method Methods 0.000 claims abstract description 5
- 238000011156 evaluation Methods 0.000 claims description 117
- 239000011159 matrix material Substances 0.000 claims description 90
- 230000011218 segmentation Effects 0.000 claims description 29
- 238000001914 filtration Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000007726 management method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000002567 autonomic effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了一种用户业务数据的处理方法、装置、设备及存储介质,用于提高对用户业务数据进行处理的准确度。用户业务数据的处理方法包括:对初始文本数据进行预处理,基于预置的文本标签集对预处理文本数据进行筛选,得到多个文本特征集;按照预设维度对多个文本特征集进行分析,得到多个分类文本集,对多个分类文本集进行相似度匹配,确定候选指标数据集;调用预置的层次分析法,对候选指标数据集进行指标权重的划分和权重系数的修正,得到目标评分指标体系;调用目标评分指标体系,对待评估用户数据进行处理,得到用户业务数据的处理结果。此外,本发明还涉及区块链技术,用户业务数据的处理结果可存储于区块链节点中。
Description
技术领域
本发明涉及相似度匹配领域,尤其涉及一种用户业务数据的处理方法、装置、设备及存储介质。
背景技术
随着我国全民医疗保障制度的不断推行,医保基金安全尤为重要,医保违规现象普遍存在,并且成为了威胁医保基金安全的首要问题,因此,建立科学、合理的医保信用评价指标体系是非常有必要的。
然而,在现有技术中,医保信用评估体系无法基于国家的医保政策和法规选取有效的评估指标,无法从不同维度分析和评价医保各信用主体的信用行为,导致对用户业务数据进行处理的准确度低下。
发明内容
本发明提供了一种用户业务数据的处理方法、装置、设备及存储介质,用于按照预设维度对多个文本特征集进行分析和相似度匹配,基于相似度匹配结果确定候选指标数据集,调用预置的层次分析法,对候选指标数据集进行指标权重的划分和权重系数的修正,得到目标评分指标体系,提高了对用户业务数据进行处理的准确度。
本发明第一方面提供了一种用户业务数据的处理方法,包括:获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集,所述初始文本数据用于指示信用评价所涉及的规范性文件;按照预设维度对所述多个文本特征集进行分析,得到多个分类文本集,对所述多个分类文本集进行相似度匹配,得到相似度匹配结果,基于所述相似度匹配结果确定候选指标数据集,其中,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标;调用预置的层次分析法,对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于所述用户历史业务数据对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系;获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行处理,得到用户业务数据的处理结果。
可选的,在本发明第一方面的第一种实现方式中,所述获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集包括:获取初始文本数据,对所述初始文本数据进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本数据;调用预置的分词工具,对所述预处理文本数据进行分词处理,得到多个文本单词,基于预置的文本标签集,对所述多个文本单词进行关键词提取,得到多个文本特征集。
可选的,在本发明第一方面的第二种实现方式中,所述按照预设维度对所述多个文本特征集进行分析,得到多个分类文本集,对所述多个分类文本集进行相似度匹配,得到相似度匹配结果,基于所述相似度匹配结果确定候选指标数据集,其中,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标包括:基于预设维度对所述多个文本特征集进行属性分类,得到多个分类文本集;获取标准分类集,调用预置的相似度算法,计算每一个分类文本集与所述标准分类集的文本相似度,得到多个相似度值,一个相似度值对应一个分类文本集;将所述多个相似度值中的每一个相似度值和预设相似度阈值进行对比,得到相似度匹配结果,从所述相似度匹配结果中获取大于预设相似度阈值的目标相似度值,将所述目标相似度值对应的分类文本集确定为候选指标数据集,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标。
可选的,在本发明第一方面的第三种实现方式中,所述调用预置的层次分析法,对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于所述用户历史业务数据对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系包括:调用预置的层次分析法,将所述候选指标数据集中的所述多个属性维度的重要性差异量化成预设数量的等级标度,根据所述等级标度对同一维度的属性指标进行两两比较,得到属性指标的相对重要性,基于所述属性指标的相对重要性构建判断矩阵;对所述判断矩阵进行一致性检验和修正,得到检验后的矩阵,将所述检验后的矩阵进行归一化处理,得到目标矩阵,基于所述目标矩阵对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系;获取用户历史业务数据和所述用户历史业务数据对应的历史评价结果,调用所述初始评分指标体系,对所述用户历史业务数据进行信用评估,得到试评估结果;将所述试评估结果和所述用户历史业务数据对应的历史评价结果进行对比,得到对比结果,基于所述对比结果对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系。
可选的,在本发明第一方面的第四种实现方式中,所述对所述判断矩阵进行一致性检验和修正,得到检验后的矩阵,将所述检验后的矩阵进行归一化处理,得到目标矩阵,基于所述目标矩阵对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系包括:计算所述判断矩阵的最大特征根和特征向量,根据所述最大特征根和所述特征向量评估所述判断矩阵是否满足预设的一致性条件,得到一致性评估结果;若所述一致性评估结果为所述判断矩阵满足预设的一致性条件,则将所述最大特征根对应的特征向量进行归一化处理,得到目标矩阵,基于所述目标矩阵对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系。
可选的,在本发明第一方面的第五种实现方式中,所述获取待评估用户数据,调用目标评分指标体系,对待评估用户数据进行处理,得到用户业务数据的处理结果包括:获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行多个维度的评估,得到多个用户评分;将所述多个用户评分导入预置的用户评价模板,得到用户业务数据的处理结果,所述用户业务数据的处理结果用于指示不同维度的用户信用分布情况。
可选的,在本发明第一方面的第六种实现方式中,在所述获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集之前,所述用户业务数据的处理方法还包括:获取历史文本数据,对所述历史文本数据依次进行分词和过滤,得到多个标签信息;基于所述多个标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到文本标签集。
本发明第二方面提供了一种用户业务数据的处理装置,包括:获取模块,用于获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集,所述初始文本数据用于指示信用评价所涉及的规范性文件;匹配模块,用于按照预设维度对所述多个文本特征集进行分析,得到多个分类文本集,对所述多个分类文本集进行相似度匹配,得到相似度匹配结果,基于所述相似度匹配结果确定候选指标数据集,其中,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标;分析模块,用于调用预置的层次分析法,对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于所述用户历史业务数据对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系;评估模块,用于获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行评估,得到信用评价报告。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块包括:获取单元,用于获取初始文本数据,对所述初始文本数据进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本数据;分词单元,用于调用预置的分词工具,对所述预处理文本数据进行分词处理,得到多个文本单词,基于预置的文本标签集,对所述多个文本单词进行关键词提取,得到多个文本特征集。
可选的,在本发明第二方面的第二种实现方式中,所述匹配模块包括:分类单元,用于基于预设维度对所述多个文本特征集进行属性分类,得到多个分类文本集;相似度计算单元,用于获取标准分类集,调用预置的相似度算法,计算每一个分类文本集与所述标准分类集的文本相似度,得到多个相似度值,一个相似度值对应一个分类文本集;对比单元,用于将所述多个相似度值中的每一个相似度值和预设相似度阈值进行对比,得到相似度匹配结果,从所述相似度匹配结果中获取大于预设相似度阈值的目标相似度值,将所述目标相似度值对应的分类文本集确定为候选指标数据集,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标。
可选的,在本发明第二方面的第三种实现方式中,所述分析模块包括:量化单元,用于调用预置的层次分析法,将所述候选指标数据集中的所述多个属性维度的重要性差异量化成预设数量的等级标度,根据所述等级标度对同一维度的属性指标进行两两比较,得到属性指标的相对重要性,基于所述属性指标的相对重要性构建判断矩阵;检验单元,用于对所述判断矩阵进行一致性检验和修正,得到检验后的矩阵,将所述检验后的矩阵进行归一化处理,得到目标矩阵,基于所述目标矩阵对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系;试评估单元,用于获取用户历史业务数据和所述用户历史业务数据对应的历史评价结果,调用所述初始评分指标体系,对所述用户历史业务数据进行信用评估,得到试评估结果;修正单元,用于将所述试评估结果和所述用户历史业务数据对应的历史评价结果进行对比,得到对比结果,基于所述对比结果对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系。
可选的,在本发明第二方面的第四种实现方式中,所述检验单元可以具体用于:计算所述判断矩阵的最大特征根和特征向量,根据所述最大特征根和所述特征向量评估所述判断矩阵是否满足预设的一致性条件,得到一致性评估结果;若所述一致性评估结果为所述判断矩阵满足预设的一致性条件,则将所述最大特征根对应的特征向量进行归一化处理,得到目标矩阵,基于所述目标矩阵对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系。
可选的,在本发明第二方面的第五种实现方式中,所述评估模块包括:评估单元,用于获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行多个维度的评估,得到多个用户评分;生成单元,用于将所述多个用户评分导入预置的用户评价模板,得到用户业务数据的处理结果,所述用户业务数据的处理结果用于指示不同维度的用户信用分布情况。
可选的,在本发明第二方面的第六种实现方式中,在所述获取模块之前,所述用户业务数据的处理装置还包括构建模块,所述构建模块包括:过滤单元,用于获取历史文本数据,对所述历史文本数据依次进行分词和过滤,得到多个标签信息;聚类单元,用于基于所述多个标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到文本标签集。
本发明第三方面提供了一种用户业务数据的处理设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述用户业务数据的处理设备执行上述的用户业务数据的处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的用户业务数据的处理方法。
本发明提供的技术方案中,获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集,所述初始文本数据用于指示信用评价所涉及的规范性文件;按照预设维度对所述多个文本特征集进行分析,得到多个分类文本集,对所述多个分类文本集进行相似度匹配,得到相似度匹配结果,基于所述相似度匹配结果确定候选指标数据集,其中,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标;调用预置的层次分析法,对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于所述用户历史业务数据对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系;获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行评估,得到信用评价报告。本发明实施例中,按照预设维度对多个文本特征集进行分析和相似度匹配,基于相似度匹配结果确定候选指标数据集,调用预置的层次分析法,对候选指标数据集进行指标权重的划分和权重系数的修正,得到目标评分指标体系,提高了对用户业务数据进行处理的准确度。
附图说明
图1为本发明实施例中用户业务数据的处理方法的一个实施例示意图;
图2为本发明实施例中用户业务数据的处理方法的另一个实施例示意图;
图3为本发明实施例中用户业务数据的处理装置的一个实施例示意图;
图4为本发明实施例中用户业务数据的处理装置的另一个实施例示意图;
图5为本发明实施例中用户业务数据的处理设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种用户业务数据的处理方法、装置、设备及存储介质,用于按照预设维度对多个文本特征集进行分析和相似度匹配,基于相似度匹配结果确定候选指标数据集,调用预置的层次分析法,对候选指标数据集进行指标权重的划分和权重系数的修正,得到目标评分指标体系,提高了对用户业务数据进行处理的准确度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中用户业务数据的处理方法的一个实施例包括:
101、获取初始文本数据,对初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对预处理文本数据进行筛选,得到多个文本特征集,初始文本数据用于指示信用评价所涉及的规范性文件。
可以理解的是,本发明的执行主体可以为用户业务数据的处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
服务器获取初始文本数据,对初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对预处理文本数据进行筛选,得到多个文本特征集,初始文本数据用于指示信用评价所涉及的规范性文件。服务器通过爬虫获取初始文本数据,初始文本数据可以为国家、省、各地市发布的信用政策制度、医保服务协议等规范性文件,获取到初始文本数据后,需要对初始文本数据进行预处理,预处理的过程主要包括缺失值补全、异常值过滤和重复值过滤,得到预处理文本数据,对预处理文本数据进行分词处理,并基于预置的文本标签集进行关键词提取,最终得到多个文本特征集,其中,每一个文本特征集对应一个预处理后的规范性文件,文本标签集为服务器预先设置的标签集,服务器获取到历史文本数据,历史文本数据涵盖了多个规范性文件以及客户的历史数据,服务器对历史文本数据进行分词和过滤,提取出多个标签信息,为了保证标签信息的准确度,分词处理后可以按照一定规则选取部分分词作为标签信息,例如,将分词中的名词、动词等作为标签信息,而将其余分词(例如:副词)滤除掉,在聚类得到文本标签集的过程中,相同关键字可以作为标签类,若两个标签信息仅包含一个相同关键字,则两个标签信息仅能进行一次聚类,该相同关键字作为一个文本标签;若两个标签信息包括两个或两个以上的相同关键字,则两个标签信息可以进行多次聚类,聚类次数与相同关键字的数目相关。
102、按照预设维度对多个文本特征集进行分析,得到多个分类文本集,对多个分类文本集进行相似度匹配,得到相似度匹配结果,基于相似度匹配结果确定候选指标数据集,其中,候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标。
服务器按照预设维度对多个文本特征集进行分析,得到多个分类文本集,对多个分类文本集进行相似度匹配,得到相似度匹配结果,基于相似度匹配结果确定候选指标数据集,其中,候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标。其中,对多个文本特征集进行分析的过程包括调用预置的聚类算法,按照预设维度对文本特征集进行属性分类,得到多个分类文本集,聚类算法可以为K均值聚类,例如:服务器调用K均值聚类算法,多个文本特征集中的文本特征集A进行聚类,得到分类文本集A’,分类文本集A’包含多个属性类别,再依次对剩余文本特征集进行聚类,最终得到多个分类文本集,预设维度可以为预设协议管理、基金绩效、基金监管、社会信用、自律管理和满意度评价,每一个分类文本集中包含多个属性类别以及每个属性类别对应的文本数据,服务器获取到标准分类集后,调用预置的相似度算法,依次计算每一个分类文本集与标准分类集的文本相似度,得到多个相似度值,标准分类集为对历史数据处理后存储在数据库中的分类集,相似度算法可以为皮尔逊相关系数算法,相似度值的取值范围为大于或者等于0,并且小于或者等于1,服务器依次将每一个计算得到的相似度值和相似度阈值进行对比,得到相似度匹配结果,将相似度匹配结果中,相似度值大于预设相似度阈值对应的分类文本集确定为候选指标数据集。本实施例中不对相似度阈值进行限定,相似度阈值越高则代表筛选出的候选指标数据集的精度越高。
103、调用预置的层次分析法,对候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于用户历史业务数据对初始评分指标体系进行权重系数的修正,得到目标评分指标体系。
服务器调用预置的层次分析法,对候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于用户历史业务数据对初始评分指标体系进行权重系数的修正,得到目标评分指标体系。层次分析法(analytic hierarchy process,AHP)主要是对于定性的决策问题进行定量化分析的方法,本实施例中通过调用层次分析法确定候选指标数据集中的指标权重,服务器将多个属性维度的重要性差异量化成预设数量的等级标度并构建判断矩阵,通过一致性检验和归一化处理后得到初始评分指标体系,同时获取用户历史业务数据和用户历史业务数据对应的历史评价结果,调用初始评分指标体系对用户历史业务数据进行信用评估,得到试评估结果,将试评估结果和用户历史业务数据对应的历史评价结果进行对比,得到对比结果,基于对比结果对初始评分指标体系进行权重系数的修正,得到目标评分指标体系,用户历史业务数据可如:用户的历史医保数据。
104、获取待评估用户数据,调用目标评分指标体系,对待评估用户数据进行处理,得到用户业务数据的处理结果。
服务器获取待评估用户数据,调用目标评分指标体系,对待评估用户数据进行处理,得到用户业务数据的处理结果。对待评估用户数据进行处理的过程可以为:通过目标评分指标体系对信用主体的信用分布(即待评估用户数据)进行多个维度的信用评估,将评估得到的多个信用评分导入预置的信用评价模板(即用户评价模板),最终得到信用评价报告(即用户业务数据的处理结果),可以查看用户各个维度的信用分布情况。
本发明实施例中,按照预设维度对多个文本特征集进行分析和相似度匹配,基于相似度匹配结果确定候选指标数据集,调用预置的层次分析法,对候选指标数据集进行指标权重的划分和权重系数的修正,得到目标评分指标体系,提高了对用户业务数据进行处理的准确度。
请参阅图2,本发明实施例中用户业务数据的处理方法的另一个实施例包括:
201、获取初始文本数据,对初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对预处理文本数据进行筛选,得到多个文本特征集,初始文本数据用于指示信用评价所涉及的规范性文件。
服务器获取初始文本数据,对初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对预处理文本数据进行筛选,得到多个文本特征集,初始文本数据用于指示信用评价所涉及的规范性文件。具体的,服务器获取初始文本数据,对初始文本数据进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本数据;服务器调用预置的分词工具,对预处理文本数据进行分词处理,得到多个文本单词,基于预置的文本标签集,对多个文本单词进行关键词提取,得到多个文本特征集。
服务器通过爬虫获取初始文本数据,本实施例中的初始文本数据都经过用户授权,初始文本数据可以为国家、省、各地市发布的信用政策制度、医保服务协议等规范性文件,获取到初始文本数据后,需要对初始文本数据进行预处理,预处理的过程主要包括缺失值补全、异常值过滤和重复值过滤,其中,缺失值的填充可以为多重插补,异常值过滤主要采用异常值检测算法z-score识别出异常值并删除,服务器同时调用预置的数据分析工具包pandas进行重复值的判断和过滤,通过调用查询指令df.duplicated(),查询初始文本数据中的重复值,并通过删除指令df.drop_duplicates()删除重复值,重复值的处理过程还可以是python语言的扩展程序库numpy中的unique()方法,该方法返回其参数数组中所有不同的值,并且按照从小到大的顺序排列,最终得到预处理文本数据。得到预处理文本数据后,通过调用预置的分词工具对预处理文本数据进行分词处理,得到多个文本单词,分词工具可以为结巴jieba分词工具、snownlp分词工具、语言技术平台(language technologyplantform,LTP)和汉语言处理包(han language processing,HanLP),例如:某医保信用评价规则中包括的文本数据为“市医疗保障行政部门每个自然年度对信用主体进行信用评价一次,评价结果自公布之日起至下一次评价结果公布之日内有效,对定点医疗机构、医保医师的信用评价实行积分制管理”,通过分词处理得到多个文本单词“市医疗保障行政部门/评价结果/定点医疗机构/医保医师/信用评价/积分制管理”,基于预置的文本标签集,对多个文本单词进行关键词提取,文本标签集为服务器预先设置的标签集,例如:上述例子中的文本数据服务器可预先将其抽象简化为“信用评价积分制管理”标签,服务器按照文本标签集进行关键词提取,上述多个文本单词经过关键词提取后即为“定点医疗机构/医保医师/信用评价/积分制管理”,对于初始文本数据中的其它信用政策制度或规范性文件也依次进行预处理、分词处理和关键词提取,得到多个文本特征集。
202、按照预设维度对多个文本特征集进行分析,得到多个分类文本集,对多个分类文本集进行相似度匹配,得到相似度匹配结果,基于相似度匹配结果确定候选指标数据集,其中,候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标。
服务器按照预设维度对多个文本特征集进行分析,得到多个分类文本集,对多个分类文本集进行相似度匹配,得到相似度匹配结果,基于相似度匹配结果确定候选指标数据集,其中,候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标。具体的,服务器基于预设维度对多个文本特征集进行属性分类,得到多个分类文本集;服务器获取标准分类集,调用预置的相似度算法,计算每一个分类文本集与标准分类集的文本相似度,得到多个相似度值,一个相似度值对应一个分类文本集;服务器将多个相似度值中的每一个相似度值和预设相似度阈值进行对比,得到相似度匹配结果,从相似度匹配结果中获取大于预设相似度阈值的目标相似度值,将目标相似度值对应的分类文本集确定为候选指标数据集,候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标。
预设维度可以为预设协议管理、基金绩效、基金监管、社会信用、自律管理和满意度评价,服务器按照不同维度对文本特征集进行分类,得到多个分类文本集,每一个分类文本集中包含多个属性类别以及每个属性类别对应的文本数据,服务器获取到标准分类集后,调用预置的相似度算法,依次计算每一个分类文本集与标准分类集的文本相似度,得到多个相似度值,标准分类集为对历史数据处理后存储在数据库中的分类集,相似度算法可以为皮尔逊相关系数算法,相似度值的取值范围为大于或者等于0,并且小于或者等于1,服务器依次将每一个计算得到的相似度值和相似度阈值进行对比,得到相似度匹配结果,提取相似度匹配结果中的目标相似度值,目标相似度值为大于预设相似度阈值的相似度值,将目标相似度值对应的分类文本集确定为候选指标数据集。本实施例中不对相似度阈值进行限定,相似度阈值越高则代表筛选出的候选指标数据集的精度越高。
203、调用预置的层次分析法,将候选指标数据集中的多个属性维度的重要性差异量化成预设数量的等级标度,根据等级标度对同一维度的属性指标进行两两比较,得到属性指标的相对重要性,基于属性指标的相对重要性构建判断矩阵。
服务器调用预置的层次分析法,将候选指标数据集中的多个属性维度的重要性差异量化成预设数量的等级标度,根据等级标度对同一维度的属性指标进行两两比较,得到属性指标的相对重要性,基于属性指标的相对重要性构建判断矩阵。层次分析法(analytichierarchy process,AHP)主要是对于定性的决策问题进行定量化分析的方法,本实施例中通过调用层次分析法确定候选指标数据集中的指标权重,服务器将多个属性维度的重要性进行差异量化,得到预设数量的等级标度,例如,以多个属性维度中的一个属性维度,且该属性维度为社会信用为例说明,将社会信用这一属性维度的重要性差异量化成1-5这5个等级标度,社会信用这一维度下面还包含多个属性指标,多个属性指标如:个人信用、资信评级、资产调查和评估等,每一个属性指标对应一个等级标度。服务器根据等级标度对同一维度的每一个属性指标与相同维度剩余的属性指标进行两两比较,得到属性指标的相对重要性,属性指标的相对重要性可以理解为:对各属性指标按照等级标度从大到小的顺序进行排序得到的排序结果,相对重要性用于指示同一维度中各属性指标的重要性,例如:个人信用对应的等级标度为5,资信等级对应的等级标度为3,资产调查和评估对应的等级标度为2,则按照从大到小的顺序排序得到属性指标的相对重要性,可以看出在社会信用这一维度中个人信用这一指标的重要程度最高。基于评价指标的相对重要性构建判断矩阵的执行过程为:服务器将同一维度的每一个属性指标对应的等级标度按顺序组合得到初始矩阵,然后将该初始矩阵和与其关联的历史指标权重构成的向量相乘,得到某一维度的指标的评价向量,接着按照上述方法计算得到多个维度的指标评价向量,组合起来得到判断矩阵。
204、对判断矩阵进行一致性检验和修正,得到检验后的矩阵,将检验后的矩阵进行归一化处理,得到目标矩阵,基于目标矩阵对候选指标数据集进行指标权重的划分,得到初始评分指标体系。
服务器对判断矩阵进行一致性检验和修正,得到检验后的矩阵,将检验后的矩阵进行归一化处理,得到目标矩阵,基于目标矩阵对候选指标数据集进行指标权重的划分,得到初始评分指标体系。具体的,服务器计算判断矩阵的最大特征根和特征向量,根据最大特征根和特征向量评估判断矩阵是否满足预设的一致性条件,得到一致性评估结果;若一致性评估结果为判断矩阵满足预设的一致性条件,服务器则将最大特征根对应的特征向量进行归一化处理,得到目标矩阵,基于目标矩阵对候选指标数据集进行指标权重的划分,得到初始评分指标体系。
服务器求出判断矩阵的最大特征根,对判断矩阵进行一致性检验,若通过一致性检验(即满足预设的一致性条件),预设的一致性条件指判断矩阵对应的最大特征根小于修正专家给出的标准矩阵对应的特征根,例如:由专家经过评估后给出标准矩阵对应的特征根为0.1,当判断矩阵的最大特征根小于0.1时,可以认为判断矩阵满足一致性条件,则将判断矩阵最大特征根对应的特征向量进行归一化处理后即可得到同一层次指标对上一层次指标的权重序列(即目标矩阵),基于目标矩阵对候选指标数据集进行指标权重的划分,得到初始评分指标体系,若没有通过一致性检验,则重新构造判断矩阵,最终基于重新构造的判断矩阵对候选指标数据集进行指标权重的划分,得到初始评分指标体系。
205、获取用户历史业务数据和用户历史业务数据对应的历史评价结果,调用初始评分指标体系,对用户历史业务数据进行信用评估,得到试评估结果。
服务器获取用户历史业务数据和用户历史业务数据对应的历史评价结果,调用初始评分指标体系,对用户历史业务数据进行信用评估,得到试评估结果。得到初始评分指标体系后,进行体系的试评价,服务器从医保结算系统、医保业务系统、智能监管系统等现有数据库中调取用户历史业务数据,选择不同等级(一级、二级、三级)、不同性质(公立、民营)、不同类型(专科、综合)的定点机构进行数据跑批,得到试评估结果。
206、将试评估结果和用户历史业务数据对应的历史评价结果进行对比,得到对比结果,基于对比结果对初始评分指标体系进行权重系数的修正,得到目标评分指标体系。
服务器将试评估结果和用户历史业务数据对应的历史评价结果进行对比,得到对比结果,基于对比结果对初始评分指标体系进行权重系数的修正,得到目标评分指标体系。将试评估结果和用户历史业务数据对应的历史评价结果进行对比后,对初始评分指标体系进行权重系数的修正,最终得到目标评分指标体系。权重系数修正的过程主要包括:对于试评估结果中,与用户历史业务数据对应的历史评价结果差别大于预设偏差阈值对应的属性指标的等级标度进行调整,直至试评估结果与历史评价结果的偏差小于等于偏差阈值,例如:将偏差阈值设定为20分,试评估结果中社会信用这一维度对应的分数为90分,然而用户历史业务数据对应的历史评价结果中社会信用维度的分数只有50分,则服务器按照预设的权重系数修正机制,自动对社会信用这一维度的权重系数进行调整,预设的权重系数修正机制可以为,每一次将权重系数进行±0.1范围的调整,将调整后得到的评估结果依次和历史评估结果进行对比,直至偏差小于或等于偏差阈值。
207、获取待评估用户数据,调用目标评分指标体系,对待评估用户数据进行处理,得到用户业务数据的处理结果。
服务器获取待评估用户数据,调用目标评分指标体系,对待评估用户数据进行处理,得到用户业务数据的处理结果。具体的,服务器获取待评估用户数据,调用目标评分指标体系,对待评估用户数据进行多个维度的评估,得到多个用户评分;服务器将多个用户评分导入预置的用户评价模板,得到用户业务数据的处理结果,用户业务数据的处理结果用于指示不同维度的用户信用分布情况。通过目标评分指标体系对信用主体的信用分布(即待评估用户数据),进行多个维度的信用评估,待评估用户数据可以为待评估的用户医保数据,将评估得到的多个用户评分写入预置的信用评价模板(即用户评价模板),最终得到信用评价报告(即用户业务数据的处理结果),可以通过信用评价报告查看客户各个维度的信用分布情况。
本发明实施例中,按照预设维度对多个文本特征集进行分析和相似度匹配,基于相似度匹配结果确定候选指标数据集,调用预置的层次分析法,对候选指标数据集进行指标权重的划分和权重系数的修正,得到目标评分指标体系,提高了对用户业务数据进行处理的准确度。
上面对本发明实施例中用户业务数据的处理方法进行了描述,下面对本发明实施例中用户业务数据的处理装置进行描述,请参阅图3,本发明实施例中用户业务数据的处理装置的一个实施例包括:
获取模块301,用于获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集,初始文本数据用于指示信用评价所涉及的规范性文件;
匹配模块302,用于按照预设维度对所述多个文本特征集进行分析,得到多个分类文本集,对所述多个分类文本集进行相似度匹配,得到相似度匹配结果,基于所述相似度匹配结果确定候选指标数据集,其中,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标;
分析模块303,用于调用预置的层次分析法,对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于所述用户历史业务数据对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系;
评估模块304,用于获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行处理,得到用户业务数据的处理结果。
本发明实施例中,按照预设维度对多个文本特征集进行分析和相似度匹配,基于相似度匹配结果确定候选指标数据集,调用预置的层次分析法,对候选指标数据集进行指标权重的划分和权重系数的修正,得到目标评分指标体系,提高了对用户业务数据进行处理的准确度。
请参阅图4,本发明实施例中用户业务数据的处理装置的另一个实施例包括:
获取模块301,用于获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集,初始文本数据用于指示信用评价所涉及的规范性文件;
匹配模块302,用于按照预设维度对所述多个文本特征集进行分析,得到多个分类文本集,对所述多个分类文本集进行相似度匹配,得到相似度匹配结果,基于所述相似度匹配结果确定候选指标数据集,其中,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标;
分析模块303,用于调用预置的层次分析法,对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于所述用户历史业务数据对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系;
其中,分析模块303还包括:
量化单元3031,用于调用预置的层次分析法,将候选指标数据集中的多个属性维度的重要性差异量化成预设数量的等级标度,根据等级标度对同一维度的属性指标进行两两比较,得到属性指标的相对重要性,基于属性指标的相对重要性构建判断矩阵;
检验单元3032,用于对判断矩阵进行一致性检验和修正,得到检验后的矩阵,将检验后的矩阵进行归一化处理,得到目标矩阵,基于目标矩阵对候选指标数据集进行指标权重的划分,得到初始评分指标体系;
试评估单元3033,用于获取用户历史业务数据和用户历史业务数据对应的历史评价结果,调用初始评分指标体系,对用户历史业务数据进行信用评估,得到试评估结果;
修正单元3034,用于将试评估结果和用户历史业务数据对应的历史评价结果进行对比,得到对比结果,基于对比结果对初始评分指标体系进行权重系数的修正,得到目标评分指标体系;
评估模块304,用于获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行处理,得到用户业务数据的处理结果。
可选的,获取模块301包括:
获取单元3011,用于获取初始文本数据,对初始文本数据进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本数据;
分词单元3012,用于调用预置的分词工具,对预处理文本数据进行分词处理,得到多个文本单词,基于预置的文本标签集,对多个文本单词进行关键词提取,得到多个文本特征集。
可选的,匹配模块302包括:
分类单元3021,用于基于预设维度对多个文本特征集进行属性分类,得到多个分类文本集;
相似度计算单元3022,用于获取标准分类集,调用预置的相似度算法,计算每一个分类文本集与标准分类集的文本相似度,得到多个相似度值,一个相似度值对应一个分类文本集;
对比单元3023,用于将多个相似度值中的每一个相似度值和预设相似度阈值进行对比,得到相似度匹配结果,从相似度匹配结果中获取大于预设相似度阈值的目标相似度值,将目标相似度值对应的分类文本集确定为候选指标数据集,候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标。
可选的,检验单元3032可以具体用于:
计算判断矩阵的最大特征根和特征向量,根据最大特征根和特征向量评估判断矩阵是否满足预设的一致性条件,得到一致性评估结果;若一致性评估结果为判断矩阵满足预设的一致性条件,则将最大特征根对应的特征向量进行归一化处理,得到目标矩阵,基于目标矩阵对候选指标数据集进行指标权重的划分,得到初始评分指标体系。
可选的,评估模块304包括:
评估单元3041,用于获取待评估用户数据,调用目标评分指标体系,对待评估用户数据进行多个维度的信用评估,得到多个用户评分;
生成单元3042,用于将多个用户评分导入预置的用户评价模板,得到用户业务数据的处理结果,用户业务数据的处理结果用于指示不同维度的用户信用分布情况。
可选的,在获取模块301之前,用户业务数据的处理装置还包括构建模块305,包括:
过滤单元3051,用于获取历史文本数据,对历史文本数据依次进行分词和过滤,得到多个标签信息;
聚类单元3052,用于基于多个标签信息之间包含的相同关键字以及相同关键字的数目,对标签信息进行不同层级的聚类,得到文本标签集。
本发明实施例中,按照预设维度对多个文本特征集进行分析和相似度匹配,基于相似度匹配结果确定候选指标数据集,调用预置的层次分析法,对候选指标数据集进行指标权重的划分和权重系数的修正,得到目标评分指标体系,提高了对用户业务数据进行处理的准确度。
上面图3和图4从模块化功能实体的角度对本发明实施例中的用户业务数据的处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中用户业务数据的处理设备进行详细描述。
图5是本发明实施例提供的一种用户业务数据的处理设备的结构示意图,该用户业务数据的处理设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对用户业务数据的处理设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在用户业务数据的处理设备500上执行存储介质530中的一系列计算机程序操作。
用户业务数据的处理设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的用户业务数据的处理设备结构并不构成对用户业务数据的处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本申请还提供一种用户业务数据的处理设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述用户业务数据的处理设备执行上述用户业务数据的处理方法中的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行所述用户业务数据的处理方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用户业务数据的处理方法,其特征在于,所述用户业务数据的处理方法包括:
获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集,所述初始文本数据用于指示信用评价所涉及的规范性文件;
按照预设维度对所述多个文本特征集进行分析,得到多个分类文本集,对所述多个分类文本集进行相似度匹配,得到相似度匹配结果,基于所述相似度匹配结果确定候选指标数据集,其中,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标;
调用预置的层次分析法,对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于所述用户历史业务数据对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系;
获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行处理,得到用户业务数据的处理结果。
2.根据权利要求1所述的用户业务数据的处理方法,其特征在于,所述获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集包括:
获取初始文本数据,对所述初始文本数据进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本数据;
调用预置的分词工具,对所述预处理文本数据进行分词处理,得到多个文本单词,基于预置的文本标签集,对所述多个文本单词进行关键词提取,得到多个文本特征集。
3.根据权利要求1所述的用户业务数据的处理方法,其特征在于,所述按照预设维度对所述多个文本特征集进行分析,得到多个分类文本集,对所述多个分类文本集进行相似度匹配,得到相似度匹配结果,基于所述相似度匹配结果确定候选指标数据集,其中,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标包括:
基于预设维度对所述多个文本特征集进行属性分类,得到多个分类文本集;
获取标准分类集,调用预置的相似度算法,计算每一个分类文本集与所述标准分类集的文本相似度,得到多个相似度值,一个相似度值对应一个分类文本集;
将所述多个相似度值中的每一个相似度值和预设相似度阈值进行对比,得到相似度匹配结果,从所述相似度匹配结果中获取大于预设相似度阈值的目标相似度值,将所述目标相似度值对应的分类文本集确定为候选指标数据集,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标。
4.根据权利要求1所述的用户业务数据的处理方法,其特征在于,所述调用预置的层次分析法,对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于所述用户历史业务数据对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系包括:
调用预置的层次分析法,将所述候选指标数据集中的所述多个属性维度的重要性差异量化成预设数量的等级标度,根据所述等级标度对同一维度的属性指标进行两两比较,得到属性指标的相对重要性,基于所述属性指标的相对重要性构建判断矩阵;
对所述判断矩阵进行一致性检验和修正,得到检验后的矩阵,将所述检验后的矩阵进行归一化处理,得到目标矩阵,基于所述目标矩阵对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系;
获取用户历史业务数据和所述用户历史业务数据对应的历史评价结果,调用所述初始评分指标体系,对所述用户历史业务数据进行信用评估,得到试评估结果;
将所述试评估结果和所述用户历史业务数据对应的历史评价结果进行对比,得到对比结果,基于所述对比结果对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系。
5.根据权利要求4所述的用户业务数据的处理方法,其特征在于,所述对所述判断矩阵进行一致性检验和修正,得到检验后的矩阵,将所述检验后的矩阵进行归一化处理,得到目标矩阵,基于所述目标矩阵对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系包括:
计算所述判断矩阵的最大特征根和特征向量,根据所述最大特征根和所述特征向量评估所述判断矩阵是否满足预设的一致性条件,得到一致性评估结果;
若所述一致性评估结果为所述判断矩阵满足预设的一致性条件,则将所述最大特征根对应的特征向量进行归一化处理,得到目标矩阵,基于所述目标矩阵对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系。
6.根据权利要求1所述的用户业务数据的处理方法,其特征在于,所述获取待评估用户数据,调用目标评分指标体系,对待评估用户数据进行处理,得到用户业务数据的处理结果包括:
获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行多个维度的评估,得到多个用户评分;
将所述多个用户评分导入预置的用户评价模板,得到用户业务数据的处理结果,所述用户业务数据的处理结果用于指示不同维度的用户信用分布情况。
7.根据权利要求1-6中任一项所述的用户业务数据的处理方法,其特征在于,在所述获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集之前,所述用户业务数据的处理方法还包括:
获取历史文本数据,对所述历史文本数据依次进行分词和过滤,得到多个标签信息;
基于所述多个标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到文本标签集。
8.一种用户业务数据的处理装置,其特征在于,所述用户业务数据的处理装置包括:
获取模块,用于获取初始文本数据,对所述初始文本数据进行预处理,得到预处理文本数据,基于预置的文本标签集对所述预处理文本数据进行筛选,得到多个文本特征集,所述初始文本数据用于指示信用评价所涉及的规范性文件;
匹配模块,用于按照预设维度对所述多个文本特征集进行分析,得到多个分类文本集,对所述多个分类文本集进行相似度匹配,得到相似度匹配结果,基于所述相似度匹配结果确定候选指标数据集,其中,所述候选指标数据集包括多个属性维度,每一个属性维度对应多个属性指标;
分析模块,用于调用预置的层次分析法,对所述候选指标数据集进行指标权重的划分,得到初始评分指标体系,获取用户历史业务数据,基于所述用户历史业务数据对所述初始评分指标体系进行权重系数的修正,得到目标评分指标体系;
评估模块,用于获取待评估用户数据,调用所述目标评分指标体系,对所述待评估用户数据进行处理,得到用户业务数据的处理结果。
9.一种用户业务数据的处理设备,其特征在于,所述用户业务数据的处理设备包括:
存储器和至少一个处理器,所述存储器中存储有计算机程序;
所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述用户业务数据的处理设备执行如权利要求1-7中任意一项所述的用户业务数据的处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述用户业务数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005807.0A CN113657545B (zh) | 2021-08-30 | 2021-08-30 | 用户业务数据的处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005807.0A CN113657545B (zh) | 2021-08-30 | 2021-08-30 | 用户业务数据的处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657545A true CN113657545A (zh) | 2021-11-16 |
CN113657545B CN113657545B (zh) | 2024-05-21 |
Family
ID=78493238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111005807.0A Active CN113657545B (zh) | 2021-08-30 | 2021-08-30 | 用户业务数据的处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657545B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065947A (zh) * | 2021-03-18 | 2021-07-02 | 平安普惠企业管理有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113962335A (zh) * | 2021-12-22 | 2022-01-21 | 北京恒信启华信息技术股份有限公司 | 一种可灵活配置的数据全过程处理方法 |
CN114548787A (zh) * | 2022-02-23 | 2022-05-27 | 中国平安人寿保险股份有限公司 | 用户生成内容管理方法、装置、电子设备及存储介质 |
CN114564588A (zh) * | 2022-04-29 | 2022-05-31 | 中科雨辰科技有限公司 | 一种关联事件确定方法 |
CN115409419A (zh) * | 2022-09-26 | 2022-11-29 | 河南星环众志信息科技有限公司 | 业务数据的价值评估方法、装置、电子设备及存储介质 |
CN115795517A (zh) * | 2023-01-28 | 2023-03-14 | 佰聆数据股份有限公司 | 资产数据存储方法及装置 |
CN115936184A (zh) * | 2022-11-10 | 2023-04-07 | 国网冀北电力有限公司计量中心 | 一种适应多用户类型的负荷预测匹配方法 |
CN116257788A (zh) * | 2022-11-23 | 2023-06-13 | 浙江大学 | 一种基于熵值分析的分类方法、系统及存储介质 |
CN116304111A (zh) * | 2023-04-10 | 2023-06-23 | 大连数通云网络科技有限公司 | 基于可视化业务数据的ai调用优化处理方法及服务器 |
CN116611793A (zh) * | 2023-06-14 | 2023-08-18 | 中国长江三峡集团有限公司 | 一种基于特征分析的业务数据归纳方法及系统 |
CN116821386A (zh) * | 2023-08-30 | 2023-09-29 | 深圳巨湾科技有限公司 | 一种基于多源异构数据结构化的单一特征评估控制方法 |
CN117113929A (zh) * | 2023-09-08 | 2023-11-24 | 中电金信数字科技集团有限公司 | 一种字段数据拆分方法、装置、电子设备及存储介质 |
CN117614845A (zh) * | 2023-11-13 | 2024-02-27 | 纬创软件(武汉)有限公司 | 基于大数据分析的通讯信息处理方法及装置 |
CN118152630A (zh) * | 2024-03-11 | 2024-06-07 | 广州城市规划技术开发服务部有限公司 | 自然资源数据库的监控方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557882A (zh) * | 2016-11-29 | 2017-04-05 | 国网山东省电力公司电力科学研究院 | 基于多维度风险评价指标的电力用户筛选方法及系统 |
CN109949063A (zh) * | 2017-12-20 | 2019-06-28 | 中移(苏州)软件技术有限公司 | 一种地址确定方法、装置、电子设备及可读存储介质 |
CN111985836A (zh) * | 2020-08-31 | 2020-11-24 | 平安医疗健康管理股份有限公司 | 医保评分指标体系构建方法、装置、设备及存储介质 |
WO2021121127A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
CN113111250A (zh) * | 2020-01-09 | 2021-07-13 | 中国移动通信有限公司研究院 | 业务推荐方法、装置、相关设备及存储介质 |
-
2021
- 2021-08-30 CN CN202111005807.0A patent/CN113657545B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557882A (zh) * | 2016-11-29 | 2017-04-05 | 国网山东省电力公司电力科学研究院 | 基于多维度风险评价指标的电力用户筛选方法及系统 |
CN109949063A (zh) * | 2017-12-20 | 2019-06-28 | 中移(苏州)软件技术有限公司 | 一种地址确定方法、装置、电子设备及可读存储介质 |
CN113111250A (zh) * | 2020-01-09 | 2021-07-13 | 中国移动通信有限公司研究院 | 业务推荐方法、装置、相关设备及存储介质 |
WO2021121127A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
CN111985836A (zh) * | 2020-08-31 | 2020-11-24 | 平安医疗健康管理股份有限公司 | 医保评分指标体系构建方法、装置、设备及存储介质 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065947A (zh) * | 2021-03-18 | 2021-07-02 | 平安普惠企业管理有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113962335A (zh) * | 2021-12-22 | 2022-01-21 | 北京恒信启华信息技术股份有限公司 | 一种可灵活配置的数据全过程处理方法 |
CN114548787A (zh) * | 2022-02-23 | 2022-05-27 | 中国平安人寿保险股份有限公司 | 用户生成内容管理方法、装置、电子设备及存储介质 |
CN114548787B (zh) * | 2022-02-23 | 2024-04-12 | 中国平安人寿保险股份有限公司 | 用户生成内容管理方法、装置、电子设备及存储介质 |
CN114564588A (zh) * | 2022-04-29 | 2022-05-31 | 中科雨辰科技有限公司 | 一种关联事件确定方法 |
CN114564588B (zh) * | 2022-04-29 | 2022-07-29 | 中科雨辰科技有限公司 | 一种关联事件确定方法 |
CN115409419B (zh) * | 2022-09-26 | 2023-12-05 | 河南星环众志信息科技有限公司 | 业务数据的价值评估方法、装置、电子设备及存储介质 |
CN115409419A (zh) * | 2022-09-26 | 2022-11-29 | 河南星环众志信息科技有限公司 | 业务数据的价值评估方法、装置、电子设备及存储介质 |
CN115936184A (zh) * | 2022-11-10 | 2023-04-07 | 国网冀北电力有限公司计量中心 | 一种适应多用户类型的负荷预测匹配方法 |
CN116257788A (zh) * | 2022-11-23 | 2023-06-13 | 浙江大学 | 一种基于熵值分析的分类方法、系统及存储介质 |
CN115795517A (zh) * | 2023-01-28 | 2023-03-14 | 佰聆数据股份有限公司 | 资产数据存储方法及装置 |
CN116304111B (zh) * | 2023-04-10 | 2024-02-20 | 深圳市兴海物联科技有限公司 | 基于可视化业务数据的ai调用优化处理方法及服务器 |
CN116304111A (zh) * | 2023-04-10 | 2023-06-23 | 大连数通云网络科技有限公司 | 基于可视化业务数据的ai调用优化处理方法及服务器 |
CN116611793A (zh) * | 2023-06-14 | 2023-08-18 | 中国长江三峡集团有限公司 | 一种基于特征分析的业务数据归纳方法及系统 |
CN116611793B (zh) * | 2023-06-14 | 2024-04-16 | 中国长江三峡集团有限公司 | 一种基于特征分析的业务数据归纳方法及系统 |
CN116821386B (zh) * | 2023-08-30 | 2023-11-21 | 深圳巨湾科技有限公司 | 一种基于多源异构数据结构化的单一特征评估控制方法 |
CN116821386A (zh) * | 2023-08-30 | 2023-09-29 | 深圳巨湾科技有限公司 | 一种基于多源异构数据结构化的单一特征评估控制方法 |
CN117113929A (zh) * | 2023-09-08 | 2023-11-24 | 中电金信数字科技集团有限公司 | 一种字段数据拆分方法、装置、电子设备及存储介质 |
CN117614845A (zh) * | 2023-11-13 | 2024-02-27 | 纬创软件(武汉)有限公司 | 基于大数据分析的通讯信息处理方法及装置 |
CN117614845B (zh) * | 2023-11-13 | 2024-05-10 | 纬创软件(武汉)有限公司 | 基于大数据分析的通讯信息处理方法及装置 |
CN118152630A (zh) * | 2024-03-11 | 2024-06-07 | 广州城市规划技术开发服务部有限公司 | 自然资源数据库的监控方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113657545B (zh) | 2024-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657545B (zh) | 用户业务数据的处理方法、装置、设备及存储介质 | |
CN107066616B (zh) | 用于账号处理的方法、装置及电子设备 | |
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
US8280915B2 (en) | Binning predictors using per-predictor trees and MDL pruning | |
CN111630518A (zh) | 基于esg的企业评价执行装置及其运转方法 | |
CN109657011B (zh) | 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统 | |
WO2014055238A1 (en) | System and method for building and validating a credit scoring function | |
CN110929525B (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
CN109190698B (zh) | 一种网络数字虚拟资产的分类识别系统及方法 | |
CN111986792A (zh) | 医疗机构评分方法、装置、设备及存储介质 | |
CN115081641A (zh) | 模型训练方法、评估结果的预测方法、设备及存储介质 | |
CN114817746A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
Bardin et al. | Increasing the number of discrete character states for continuous characters generates well‐resolved trees that do not reflect phylogeny | |
CN116823496A (zh) | 基于人工智能的智能保险风险评估和定价系统 | |
CN113487241A (zh) | 企业环保信用等级的分类方法、装置、设备及存储介质 | |
CN115082041A (zh) | 用户信息管理方法、装置、设备及存储介质 | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
CN113269179B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN116881687B (zh) | 一种基于特征提取的电网敏感数据识别方法及装置 | |
CN110619024A (zh) | 一种信用评价方法、系统及相关装置 | |
CN113656692B (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN111985836B (zh) | 医保评分指标体系构建方法、装置、设备及存储介质 | |
CN114971711A (zh) | 业务数据处理方法、装置、设备及存储介质 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
CN113298442A (zh) | 客户数据的聚类分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |