CN110222180B - 一种文本数据分类与信息挖掘方法 - Google Patents

一种文本数据分类与信息挖掘方法 Download PDF

Info

Publication number
CN110222180B
CN110222180B CN201910481105.6A CN201910481105A CN110222180B CN 110222180 B CN110222180 B CN 110222180B CN 201910481105 A CN201910481105 A CN 201910481105A CN 110222180 B CN110222180 B CN 110222180B
Authority
CN
China
Prior art keywords
text
text data
data
classification
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910481105.6A
Other languages
English (en)
Other versions
CN110222180A (zh
Inventor
鲁玥
王玉
曲皓
张逍玉
孔祥智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201910481105.6A priority Critical patent/CN110222180B/zh
Publication of CN110222180A publication Critical patent/CN110222180A/zh
Application granted granted Critical
Publication of CN110222180B publication Critical patent/CN110222180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本数据分类与信息挖掘方法,属于计算机技术领域。本发明通过利用根据实际数据建立的关键词库,使得文本特征向量的维数大大降低、信息集中,克服了文本大数据处理过程中高维‑稀疏的问题,便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体,以增强文本分类的准确性。进一步的,本发明在训练支持向量机之前,利用两层模糊分类初步得到其类别,无需提前获知训练数据的类别对于12345热线文本数据,本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案,能充分调动不同领域的专业人士给予解答。

Description

一种文本数据分类与信息挖掘方法
技术领域
本发明涉及一种文本数据分类与信息挖掘方法,属于计算机技术领域。
背景技术
文本分类是自然语言处理领域中一个很重要的问题,广泛应用于垃圾信息过滤、用户评论情感倾向识别、用户查询意图识别、新闻分类等。目的在于更好的提取文本中所含的共同信息,发掘规律特性,提高文本进一步处理的效率。
比如与人们日常生活密切相关的12345市长热线的文本数据分类,通过分类更好的将人民群众反映的大量问题进行总结,由专业人员给出准确而又统一的答案,形成知识库,避免了政府人员工作的重复,提高工作效率;通过分类还可以获取不同地区不同类别的信息数量,从而对地区的发展和各方面存在的问题有一个整体上的把握,针对突出和亟待解决的问题给出解决方案,提高地区的发展和人民的幸福指数。
现有的文本分类方法存在着高维-稀疏的问题,其训练样本可靠性较差必然导致其分类不准确,且通常需要获取一些已分类文本,比如申请号为CN201710356683.8的专利申请公开了一种文本数据分类方法及服务器,其分类方法就是利用已分类数据提取特征分词,计算各个特征分词的权重并以向量表示,而特征分词的权重根据每个特征词在所属的文本数据类别中出现的次数计算得到;将这些已分类文本一部分作为样本集训练支持向量机,一部分作为测试集测试,输出支持向量机的决策函数对为分类数据分类。
发明内容
为了解决目前文本分类方法中存在的高维-稀疏从而导致分类不准确、且需要获取已分类文本的问题,本发明提供了一种文本数据分类与信息挖掘方法,所述方法包括:
S1:建立不同层级不同类别的关键词库,并根据关键词库确定每条文本数据对应的文本特征向量;为描述方便,假设第i条文本数据所含总关键词数为ni、总类别个数为k、所含第j类关键词的数目为mij,则第i条文本数据的特征向量为[mi1,mi2···,mij···mik];
S2:根据S1建立好的关键词库,基于分层模糊分类的方法对各条文本数据进行分类,分类过程中,计算每条文本数据对各类的隶属度;第i条文本数据对第j类的隶属度
Figure GDA0002990458620000021
其中mij表示第i条文本数据所含第j类关键词的数目;根据隶属度将各条文本数据模糊分类至对应的类别;
S3:选取隶属度差异化大的文本数据作为可靠个体,通过支持向量机的训练得到训练函数;定义第i条文本数据的隶属度差异化系数为:
Figure GDA0002990458620000022
定义差异化系数的阈值λ;
当βi≥λ时,称该个体隶属度差异大,为可靠个体,作为支持向量机的训练数据,
当βi<λ时,称该个体隶属度差异小,为不可靠个体;
S4:采用训练好的支持向量机训练函数对待分类的文本数据进行分类。
可选的,所述S3中支持向量机如下:
Figure GDA0002990458620000023
选取高斯核函数
Figure GDA0002990458620000024
(xi,yi)表示训练数据,xi表示训练数据的输入,yi表示对应的输出,αi表示Lagrange乘子,n为训练数据个数;
取αj>0对应的样本
Figure GDA0002990458620000025
训练支持向量机,得到决策函数:
Figure GDA0002990458620000026
可选的,所述S1之前,还包括文本预处理,得到离散化后的数据文本。
可选的,所述文本预处理,得到离散化后的数据文本包括:根据NLPIR汉语分词系统对每条文本分词,利用已有停用词词典去停用词,得到离散化后的数据文本。
可选的,所述S1之前,还包括根据已有文本数据确定不同层级不同类别的关键词库所包含的关键词。
可选的,所述方法应用于12345市长热线文本数据的分类。
可选的,所述12345市长热线文本数据的分类中,设置至少两个层级。
可选的,当设置为两个层级时,第一层是性质类别,第二层是职能类别。
可选的,所述性质类别包括咨询和投诉两类,其中咨询一类包括经济违法和社会服务中的至少两项;投诉一类包括行政职能和民生投诉、法制投诉、消费维权中的至少两项。本发明的第二个目的在于提供上述方法在文本分类领域内的应用。
本发明有益效果是:
通过利用根据实际数据建立的关键词库,使得文本特征向量的维数大大降低、信息集中,克服了文本大数据处理过程中高维-稀疏的问题,便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体,以增强文本分类的准确性。进一步的,针对12345热线文本数据,通过利用两层模糊分类将文本分类获取最初分类信息,此过程不需要获取已分类的文本,节省了步骤;对于12345热线文本数据,本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案,能充分调动不同领域的专业人士给予解答。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实现流程图。
图2为本发明的具体实施步骤图。
图3为本发明的文本两层模糊分类类别图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
12345政府服务热线,即“非紧急救助服务系统”,用来帮助诉求人解决生活、生产中所遇困难和问题,是市委、市政府关注民生、倾听民意的平台,其通常会由话务员记录电话内容,进而对记录的内容进行文本分类,由对应的相关部分解决所反映的问题和困难。
本发明提供的文本数据分类与信息挖掘方法即可应用于12345热线文本分类中,下述以此为例进行说明。
实施例一:
本实施例提供一种文本数据分类与信息挖掘方法,参见图1-3,所述方法包括:
步骤一:文本预处理
在获取到12345市长热线的大量文本数据后,首先根据NLPIR汉语分词系统对每条文本分词,利用已有停用词词典去停用词,得到离散化后的数据文本,即初始文本向量。
步骤二:获取文本特征向量
建立不同层级不同类别的关键词库,并根据关键词库确定每条文本数据对应的文本特征向量;
根据文本关键词和类别的实际特征建立类别关键词库,将步骤一得到的初始文本向量与所建立的不同层级不同类别的关键词库进行匹配,得到文本在各类别关键词库上的词频,构成文本特征向量。
针对12345市长热线文本内容,建立不同层级不同类别的关键词库过程中,通常可将其划分为两个层级:
第一层是性质类别,包括咨询和投诉两类;比如,咨询一类对应的关键词库可能包含“了解、请问、询问、咨询、条例、标准、查询”等,而投诉一类对应的关键词库可能包含“反映、解决,亟待,举报、投诉、建议”等。
第二层是职能类别,其中咨询一类中包括经济违法和社会服务两类,投诉一类中包括行政职能和民生投诉,法制投诉、消费维权。
咨询大类下的两小类,比如经济违法类对应的关键词库可能包含“违法,贷款、案件、钱、资金、法律、诈骗、……”,社会服务类对应的关键词库可能包含“,油烟、扰民、协调、社保卡、公积金、身份证、办证、医保、……”。
投诉大类下的四小类:比如行政职能类对应的关键词库可能包含“职能、办公、拖延、领导、纪委、政府、官方、……”,民生投诉类对应的关键词库可能包含“纠纷、扰民、流动摊贩、小区、家具、……”,法制投诉类对应的关键词库可能包含“安全、法律、违反、监管、欺诈、……”,消费维权类对应的关键词库可能包含“买、卖、订购、退款、过期、销售、退货、无证、经营、服务态度、消费、……”。
行政职能:职能、办公、拖延、领导、纪委、政府、官方
民生投诉:纠纷、扰民、流动摊贩、小区、家具
法制投诉:安全、法律、违反、监管、欺诈
消费维权:买、卖、订购、退款、过期、销售、退货、无证、经营、服务态度、消费
上述关键词库可能包含的文本数据仅为示例,实际应用中可根据12345市长热线文本数据的特点总结提取类别关键词。
分类结构见附图3。
文本特征向量:每条文本数据由唯一的特征向量标识,特征向量的列数是类别个数。设第i条文本数据所含总关键词数为ni,总类别个数为k,所含第j类关键词的数目为mij,则第i条文本数据的特征向量为[mi1,mi2···,mij···mik]。
假设2017年10月4号10992行数据为:
市民反映:XX镇XX路XX家具店,2017年10月3日16:00左右在该店购买一套床上用品4件套和两个枕头,其称该店实体店枕头标价398元买一送一,可在该店的淘宝旗舰店(XX家具店)只需要199元一个,还有床上用品4件套实体店销售199元一套送一张被子,但在淘宝店销售119元一套,市民表示这是属于捆绑性销售,存在欺诈消费者,现要求商家退货退款,请相关部门介入处理,谢谢”。
上述数据对应的文本特征向量即为:
第一层模糊分类特征向量[0,1];
第二层模糊分类特征向量[0,2,1,8];
根据此步骤可知,本申请大大降低了文本特征向量的维度,传统文本分类方法需要统计预处理后的文本中所有出现的词语的词频,但并非所有词语对于文本分类都有帮助,所以本申请通过建库的过程,只获取库中出现关键词的词频,此部分词语可以对文本分类提供帮助。
步骤三:分层模糊分类确定初始类别
计算文本对于类别的隶属度,并基于分层模糊分类的方法对文本进行初始分类。
上述建立不同层级不同类别的关键词库过程已经针对12345市长热线文本内容,建立了图3所示两层的结构,在确定每条文本数据的初始类别时,需计算其隶属度:
隶属度:第i条文本数据对第j类的隶属度
Figure GDA0002990458620000051
其中mij表示第i条文本数据所含第j类关键词的数目。
分层模糊分类:根据该条文本数据中的关键词,首先确定文本对性质类别的隶属度,将文本数据分到值最大的隶属度对应的性质类别中,第一层模糊分类完成。
再次确定文本对每个性质类别包含的职能类别的隶属度,在每个性质类别下进行第二层模糊分类,同样将文本数据分到值最大的隶属度对应的职能类别中。比如,上述步骤二中给出的文本数据,通过分层模糊分类,其对应于投诉类中的消费维权类。
步骤四:利用可靠个体训练支持向量机
选取隶属度差异化大的文本数据作为可靠个体通过支持向量机的训练得到训练函数,根据训练函数预测其他不可靠文本数据的类别。
其中,可靠个体:选取隶属度差异化大的文本个体作为可靠个体,为此定义隶属度差异化系数,定义第i条文本数据个体的隶属度差异化系数为:
Figure GDA0002990458620000061
其中mij表示第i个文本所含第j类关键词的数目,k表示类别个数,定义差异化系数的阈值λ;
当βi≥λ时,称该个体隶属度差异大,为可靠个体,作为支持向量机的训练数据,
当βi<λ时,称该个体隶属度差异小,为不可靠个体。
其中λ的取值可根据实际情况设定,比如,可以根据比例确定,若要选取全部数据的20%作为训练数据,则取隶属度差异化系数大的前20%作为训练数据,
构造支持向量机如下:
Figure GDA0002990458620000062
选取高斯核函数
Figure GDA0002990458620000063
(xi,yi)表示训练数据,xi表示训练数据的输入,yi表示对应的输出,αi表示Lagrange乘子。一般只有一部分αi不为零,则αi对应的样本xi就是支持向量。取某个αj>0对应的样本:
Figure GDA0002990458620000071
决策函数:
Figure GDA0002990458620000072
选取可靠的文本个体作为上述支持向量机的输入,训练该支持向量机,得到决策函数;利用已训练的支持向量机,对不可靠个体进行重新分类,得到不可靠的所属的类别,完成整个分类过程。
步骤五:提供解决方案
根据数据分类结果,针对每一个类别的问题提供解决方案。
对于性质类别为投诉的文本个体所包含的问题,是属于性质比较严重的亟待解决的问题,根据文本的职能类别分配到各个对应的部门,由专职人员回复并给予处理;
对于性质类别为咨询的文本个体所包含的问题,可通过连接相关职能类别的知识库获取答案,知识库的建立可以运用群体智能,不同种类的问题由不同专业的人提供相关答案,并且有不同意见者可以修改问题的解决方案。
步骤六:关键词库的更新
关键词库的更新:关键词库的更新是对12345市长热线文本数据的实时反映,将每个时段出现的热词、新词加入到对应的类别中。
本申请通过利用根据实际数据建立的关键词库,使得文本特征向量的维数大大降低、信息集中,克服了文本大数据处理过程中高维-稀疏的问题,便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体,以增强文本分类的准确性。进一步的,本发明在训练支持向量机之前,利用两层模糊分类初步得到其类别,无需提前获知训练数据的类别对于12345热线文本数据,本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案,能充分调动不同领域的专业人士给予解答。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本数据分类与信息挖掘方法,其特征在于,所述方法包括:
S1:建立不同层级不同类别的关键词库,并根据关键词库确定每条文本数据对应的文本特征向量;为描述方便,假设第i条文本数据所含总关键词数为ni、总类别个数为k、所含第j类关键词的数目为mij,则第i条文本数据的特征向量为[mi1,mi2···,mij···mik];
S2:根据S1建立好的关键词库,基于分层模糊分类的方法对各条文本数据进行分类,分类过程中,计算每条文本数据对各类的隶属度;第i条文本数据对第j类的隶属度
Figure FDA0002083558220000011
其中mij表示第i条文本数据所含第j类关键词的数目;根据隶属度将各条文本数据模糊分类至对应的类别;
S3:选取隶属度差异化大的文本数据作为可靠个体,通过支持向量机的训练得到训练函数;定义第i条文本数据的隶属度差异化系数为:
Figure FDA0002083558220000012
定义差异化系数的阈值λ;
当βi≥λ时,称该个体隶属度差异大,为可靠个体,作为支持向量机的训练数据,
当βi<λ时,称该个体隶属度差异小,为不可靠个体;
S4:采用训练好的支持向量机训练函数对待分类的文本数据进行分类。
2.根据权利要求1所述的方法,其特征在于,所述S3中支持向量机如下:
Figure FDA0002083558220000013
选取高斯核函数
Figure FDA0002083558220000014
(xi,yi)表示训练数据,xi表示训练数据的输入,yi表示对应的输出,αi表示Lagrange乘子;n为训练数据个数;
取某个αj>0对应的样本:
Figure FDA0002083558220000021
训练支持向量机,得到决策函数:
Figure FDA0002083558220000022
3.根据权利要求2所述的方法,其特征在于,所述S1之前,还包括文本预处理,得到离散化后的数据文本。
4.根据权利要求3所述的方法,其特征在于,所述文本预处理,得到离散化后的数据文本包括:根据NLPIR汉语分词系统对每条文本分词,利用已有停用词词典去停用词,得到离散化后的数据文本。
5.根据权利要求4所述的方法,其特征在于,所述S1之前,还包括根据已有文本数据确定不同层级不同类别的关键词库所包含的关键词。
6.根据权利要求5所述的方法,其特征在于,所述方法应用于12345市长热线文本数据的分类。
7.根据权利要求6所述的方法,其特征在于,所述12345市长热线文本数据的分类中,设置至少两个层级。
8.根据权利要求7所述的方法,其特征在于,当设置为两个层级时,第一层是性质类别,第二层是职能类别。
9.根据权利要求8所述的方法,其特征在于,所述性质类别包括咨询和投诉两类,其中咨询一类包括经济违法和社会服务中的至少两项;投诉一类包括行政职能和民生投诉、法制投诉、消费维权中的至少两项。
10.权利要求1-5任一所述的方法在文本分类领域内的应用。
CN201910481105.6A 2019-06-04 2019-06-04 一种文本数据分类与信息挖掘方法 Active CN110222180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910481105.6A CN110222180B (zh) 2019-06-04 2019-06-04 一种文本数据分类与信息挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910481105.6A CN110222180B (zh) 2019-06-04 2019-06-04 一种文本数据分类与信息挖掘方法

Publications (2)

Publication Number Publication Date
CN110222180A CN110222180A (zh) 2019-09-10
CN110222180B true CN110222180B (zh) 2021-05-28

Family

ID=67819241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910481105.6A Active CN110222180B (zh) 2019-06-04 2019-06-04 一种文本数据分类与信息挖掘方法

Country Status (1)

Country Link
CN (1) CN110222180B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259057A (zh) * 2020-01-15 2020-06-09 浙江连信科技有限公司 用于民生诉求分析的数据处理方法及装置
CN112131379A (zh) * 2020-08-20 2020-12-25 彭涛 用于识别问题类别的方法、装置、电子设备及存储介质
CN112650850A (zh) * 2020-12-25 2021-04-13 胡友彬 风云卫星遥感测绘数据管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN106021578A (zh) * 2016-06-01 2016-10-12 南京邮电大学 一种基于聚类和隶属度融合的改进型文本分类算法
CN108304468A (zh) * 2017-12-27 2018-07-20 中国银联股份有限公司 一种文本分类方法以及文本分类装置
CN108959293A (zh) * 2017-05-19 2018-12-07 华为技术有限公司 一种文本数据分类方法及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763404B (zh) * 2009-12-10 2012-03-21 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法
US8311973B1 (en) * 2011-09-24 2012-11-13 Zadeh Lotfi A Methods and systems for applications for Z-numbers
CN104502103A (zh) * 2014-12-07 2015-04-08 北京工业大学 一种基于模糊支持向量机的轴承故障诊断方法
CN107943856A (zh) * 2017-11-07 2018-04-20 南京邮电大学 一种基于扩充标记样本的文本分类方法及系统
CN108563722B (zh) * 2018-04-03 2021-04-02 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN109829571A (zh) * 2019-01-11 2019-05-31 国网浙江省电力有限公司 一种基于多表融合数据的用户短期用电量预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN106021578A (zh) * 2016-06-01 2016-10-12 南京邮电大学 一种基于聚类和隶属度融合的改进型文本分类算法
CN108959293A (zh) * 2017-05-19 2018-12-07 华为技术有限公司 一种文本数据分类方法及服务器
CN108304468A (zh) * 2017-12-27 2018-07-20 中国银联股份有限公司 一种文本分类方法以及文本分类装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Fuzzy Approach to Text Classification With Two-Stage Training for Ambiguous Instances;Han Liu等;《IEEE Transactions on Computational Social Systems》;20190430;第6卷(第2期);全文 *
基于支持向量机的文本分类问题研究;代亮;《中国优秀硕士学位论文全文数据库信息科技辑》;20070715(第01期);全文 *

Also Published As

Publication number Publication date
CN110222180A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
US11954739B2 (en) Methods and systems for automatically detecting fraud and compliance issues in expense reports and invoices
Nti et al. Predicting stock market price movement using sentiment analysis: Evidence from Ghana
CN112182246B (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN110502638B (zh) 一种基于目标实体的企业新闻风险分类方法
CN110222180B (zh) 一种文本数据分类与信息挖掘方法
Du et al. Language and domain specificity: A Chinese financial sentiment dictionary
CN112419030B (zh) 财务舞弊风险评估的方法、系统及设备
Wu et al. Application analysis of credit scoring of financial institutions based on machine learning model
Rutskiy et al. Prospects for the Use of Artificial Intelligence to Combat Fraud in Bank Payments
CN115456745A (zh) 小微企业画像构建方法及装置
CN118153964A (zh) 基于大数据技术的供应商企业风险评估方法及系统
Gupta et al. Feature selection for dimension reduction of financial data for detection of financial statement frauds in context to Indian companies
Owda et al. Financial discussion boards irregularities detection system (fdbs-ids) using information extraction
Krysovatyy et al. Classification Method of Fictitious Enterprises Based on Gaussian Naive Bayes
CN116542696A (zh) 用户群体分类方法、装置、设备及存储介质
KR102710397B1 (ko) 금융 마이데이터 기반 기계학습을 위한 말뭉치를 이용한 거래 적요 데이터 분석 장치 및 방법과 이를 위한 컴퓨터 프로그램
Faccia et al. NLP And IR Applications For Financial Reporting And Non-Financial Disclosure. Framework Implementation And Roadmap For Feasible Integration With The Accounting Process
Silahtaroğlu et al. Data Science and Multiple Criteria Decision Making Approaches in Finance: Applications and Methods
CN113254775A (zh) 一种基于客户浏览行为序列的信用卡产品推荐方法
Li et al. Research on Efficiency in Credit Risk Prediction Using Logistic‐SBM Model
Moraes et al. Restaurant health inspections and crime statistics predict the real estate market in New York City
Zhu [Retracted] Analysis of the Influence of Multimedia Information Fusion on the Psychological Emotion of Financial Investment Customers under the Background of e‐Commerce
US20240086816A1 (en) Systems and methods for risk factor predictive modeling with document summarization
CN113065739B (zh) 被执行人的履行能力评估方法、装置及电子设备
US20240086815A1 (en) Systems and methods for risk factor predictive modeling with document summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant