CN114153968A - 基于词属性位置关系与贝叶斯的少样本金融文本分类系统 - Google Patents

基于词属性位置关系与贝叶斯的少样本金融文本分类系统 Download PDF

Info

Publication number
CN114153968A
CN114153968A CN202111320125.9A CN202111320125A CN114153968A CN 114153968 A CN114153968 A CN 114153968A CN 202111320125 A CN202111320125 A CN 202111320125A CN 114153968 A CN114153968 A CN 114153968A
Authority
CN
China
Prior art keywords
financial
word
text
company name
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111320125.9A
Other languages
English (en)
Inventor
刘兴高
李栓
刘静
王文海
张志猛
张泽银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111320125.9A priority Critical patent/CN114153968A/zh
Publication of CN114153968A publication Critical patent/CN114153968A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统。该系统基于词属性位置关系和改进的贝叶斯算法实现金融文本的分类任务,主要包括文本信息处理模块和基于贝叶斯的提升算法模块,文本信息处理模块引入了三种不同的外部词汇:公司名词库,动词词库,其它财经词库,并将不同词汇属性的位置关系作为贝叶斯的提升算法模块的一种新的输入数据,和文本词特征,字特征结合以提升算法模块对金融文本的预测精度。此外,本系统在少量样本金融文本分类的任务中,首次提出不同词汇类型的位置关系属性,用于增强金融文本的特征信息,提高了文本分类的准确率。

Description

基于词属性位置关系与贝叶斯的少样本金融文本分类系统
技术领域
本发明涉及机器学习、金融两个交叉领域,具体是一种机器学习及其优化提升学习的方法应用于金融领域内针对上市公司发布的重大公告及新闻信息的快速识别与分拣。
背景技术
现阶段人工智能正逐步涉足各个行业领域,并为其发展提供了新的可能。金融领域,作为实时数据产生最大的行业之一,同样步入“AI+金融”时代。作为金融领域的重要任务之一,快速、准确对金融公告/新闻进行识别与分拣是非常有意义与价值的。目前已知的基于传统规则、传统机器学习范式为技术基础的识别与分拣系统,存在以下不足:
(1)目前大部分的金融文本分类方法大多基于大量标注文本进行训练,无法处理只有少量样本的金融文本识别与分拣。
(2)在传统机器学习的方法中并没有考虑到金融文本中不同属性词之间的位置关系,而针对同一组金融词汇,将它们打乱后重新排列,通常会表达出不同的含义,因此,金融文本中不同属性词汇的位置关系,针对金融文本的识别于分拣任务而言,是必不可少的文本特征信息。
发明内容
针对以上不足,本发明提出一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统,用于对金融文本的快速、准确的识别与分拣,该系统包括数据库模块,文本信息处理模块,贝叶斯算法模块,贝叶斯参数优化模块以及显示模块;文本信息处理模块引入了三种不同的外部词汇:公司名词库,动词词库,其它财经词库,并将不同词汇属性的位置关系作为贝叶斯的提升算法模块的一种输入数据,和文本词特征,字特征结合以提升贝叶斯的提升算法模块对金融文本的预测精度。该系统在少量样本金融文本分类的任务中,首次提出不同词汇类型的位置关系属性,用于增强金融文本的特征信息,提高了文本分类的准确率,可广泛用于对研报,新闻等文本的快速分类。
本发明的目的是通过以下技术方案来实现的:一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统。包括数据库模块,文本信息处理模块,贝叶斯算法模块,贝叶斯参数优化模块,显示模块以及以下工作步骤:
步骤1:从数据库中获取公司名词库E,动词词库V,其它财经词库F,并分别为它们建立字典树。从数据库中获取初始金融数据文本,构成金融文本集。
步骤2:采用“正/逆向最大分词法”将金融文本集中每一条文本的公司名E={e1,e2,e3,……},触发词(动词)V={v1,v2,v3,……}和其他财经词汇F={f1,f2,f3,……}抽取出来;删除其他财经词汇中与公司名和触发词重叠的词。
步骤3:对从金融文本集中每一条文本的公司名E={e1,e2,e3,……},触发词(动词)V={v1,v2,v3,……}和其他财经词汇F={f1,f2,f3,……}构建九种不同类型的词位置关系:
·在金融文本中,若触发词紧挨在公司名后面出现,则将其标志为p(V|E)。
·在金融文本中,若公司名紧挨在公司名后面出现,则将其标志为p(E|E)。
·在金融文本中,若其它财经词汇紧挨在公司名后面出现,则将其标志为p(E|E)。
·在金融文本中,若其他财经词汇紧挨在触发词后面出现,则将其标志为:p(F|V)。
·在金融文本中,若触发词紧挨在触发词后面出现,则将其标志为:p(V|V)。
·在金融文本中,若公司名紧挨在触发词后面出现,则将其记为:p(E|V)。
·在金融文本中,若公司名紧挨在其它财经词汇后面出现,则将其记为:p(E|F)。
·在金融文本中,若触发词紧挨在其他财经词汇后面出现,则将其记为:p(V|F)
·在金融文本中,若其他财经词汇紧挨在其他财经词汇后面出现,则将其记为:p(F|F)
步骤4:分别计算金融文本d中的第j个词tj在类别ci中的概率
Figure BDA0003345292510000021
计算公式为:
Figure BDA0003345292510000022
式中Numc,tj表示类别c中词tj的个数,|Vo|表示不同词的个数。
步骤5:分别计算词tj+1的属性紧挨在词tj的属性后面出现在类别ci中的概率
Figure BDA0003345292510000023
Figure BDA0003345292510000024
计算公式为:
Figure BDA0003345292510000025
式中
Figure BDA0003345292510000026
表示词tj+1的属性紧挨在词tj的属性后面出现在类别c中的次数。
步骤6:由步骤3,4,5构建贝叶斯算法模块的文本分类模型的计算公式:
Figure BDA0003345292510000027
式中λi为类别ci的调整参数。式中
Figure BDA0003345292510000028
表示金融文本d中的第j个词tj在类别ci中的概率,由步骤3计算得到;
Figure BDA0003345292510000029
表示词tj+1的属性紧挨在词tj的属性后面出现在类别ci中的概率,由步骤4计算得到。
步骤7:查找适合的λ参数使得模型f的预测更为准确,采取的参数拟合方法为高斯模型。
λ*=argminf(λ) (3)
对贝叶斯算法模块中的{λ123,……}参数在(0,1)的范围内进行参数值搜索,当模型的预测精度无法继续提升时,停止λi的参数搜索。
步骤8:根据步骤7得到的贝叶斯模型对步骤1,2处理好的金融文本类型进行预测。
步骤9:将步骤8获得的分拣结果输入显示模块进行显示。
附图说明
图1一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统功能模块图。
具体实施方式
下面根据附图和实施例进一步说明本发明:
参考图1,数据库模块与1与文本信息处理模块2相连,贝叶斯算法模块3依次与文本信息处理模块2、参数优化模块5,显示模块4依次相连。
所述数据库模块1包含通过从互联网或实际需求获得的金融文本及相关词库信息。
文本信息处理模块2用于构建不同词的词属性位置关系,构建方式如下:
在引入了数据库中获取的公司名词库,动词词库,其它财经词库后,对各词库分别建立了字典树,采用“正/逆向最大分词法”将金融文本集中每一条文本的公司名E={e1,e2,e3,……},触发词(动词)V={v1,v2,v3,……}和其他财经词汇F={f1,f2,f3,……}抽取出来;并根据金融文本中不同属性的实体词,构建了九种不同类型的词位置关系:
·在金融文本中,若触发词紧挨在公司名后面出现,则将其标志为p(V|E)。
·在金融文本中,若公司名紧挨在公司名后面出现,则将其标志为p(E|E)。
·在金融文本中,若其它财经词汇紧挨在公司名后面出现,则将其标志为p(F|E)。
·在金融文本中,若其他财经词汇紧挨在触发词后面出现,则将其标志为:p(F|V)。
·在金融文本中,若触发词紧挨在触发词后面出现,则将其标志为:p(V|V)。
·在金融文本中,若公司名紧挨在触发词后面出现,则将其记为:p(E|V)。
·在金融文本中,若公司名紧挨在其它财经词汇后面出现,则将其记为:p(E|F)。
·在金融文本中,若触发词紧挨在其他财经词汇后面出现,则将其记为:p(V|F)
·在金融文本中,若其他财经词汇紧挨在其他财经词汇后面出现,则将其记为:p(F|F)
贝叶斯算法模块3用于对金融文本和词属性位置关系进行文本类别预测,主要采用以下步骤完成:
首先分别计算金融文本d中的第j个词tj在类别ci中的概率
Figure BDA0003345292510000031
计算公式为:
Figure BDA0003345292510000041
式中Numc,tj表示类别c中词tj的个数,|Vo|表示不同词的个数。
接着计算词tj+1的属性紧挨在词tj的属性后面出现在类别ci中的概率
Figure BDA0003345292510000042
Figure BDA0003345292510000043
计算公式为:
Figure BDA0003345292510000044
式中
Figure BDA0003345292510000045
表示词tj+1的属性紧挨在词tj的属性后面出现在类别c中的次数。
之后可得文本分类模型的主要计算公式为:
Figure BDA0003345292510000046
式中λi为类别ci的调整参数。式中
Figure BDA0003345292510000047
表示金融文本d中的第j个词tj在类别ci中的概率;
Figure BDA0003345292510000048
表示词tj+1的属性紧挨在词tj的属性后面出现在类别ci中的概率。
最后由参数优化模块5高斯模型对贝叶斯模型的参数进行寻优,得到最后的改进的贝叶斯提升算法模型模块,并由该模块预测金融文本的类型。
显示模块4将贝叶斯提升算法模块3得到的结果通过显示屏进行输出显示。

Claims (1)

1.一种基于词属性位置关系与贝叶斯的少样本金融文本分类系统,其特征在于:数据库模块,文本信息处理模块,贝叶斯算法模块,贝叶斯参数优化模块,显示模块。该系统的工作步骤如下:
步骤1:从数据库中获取公司名词库E,动词词库V,其它财经词库F,并分别为它们建立字典树。从数据库中获取初始金融数据文本,构成金融文本集。
步骤2:采用“正/逆向最大分词法”将金融文本集中每一条文本的公司名E={e1,e2,e3,......},触发词(动词)V={v1,v2,v3,......}和其他财经词汇F={f1,f2,f3,......}抽取出来;删除其他财经词汇中与公司名和触发词重叠的词。
步骤3:对从金融文本集中每一条文本的公司名E={e1,e2,e3,......},触发词(动词)V={v1,v2,v3,......}和其他财经词汇F={f1,f2,f3,.....}构建以下九种不同类型的词位置关系:
(a)在金融文本中,若触发词紧挨在公司名后面出现,则将其标志为p(V|E)。
(b)在金融文本中,若公司名紧挨在公司名后面出现,则将其标志为p(E|E)。
(c)在金融文本中,若其它财经词汇紧挨在公司名后面出现,则将其标志为p(F|E)。
(d)在金融文本中,若其他财经词汇紧挨在触发词后面出现,则将其标志为:p(F|V)。
(e)在金融文本中,若触发词紧挨在触发词后面出现,则将其标志为:p(V|V)。
(f)在金融文本中,若公司名紧挨在触发词后面出现,则将其记为:p(E|V)。
(g)在金融文本中,若公司名紧挨在其它财经词汇后面出现,则将其记为:p(E|F)。
(h)在金融文本中,若触发词紧挨在其他财经词汇后面出现,则将其记为:p(V|F)
(i)在金融文本中,若其他财经词汇紧挨在其他财经词汇后面出现,则将其记为:p(F|F)
步骤4:分别计算金融文本d中的第j个词tj在类别ci中的概率
Figure FDA0003345292500000011
计算公式为:
Figure FDA0003345292500000012
式中,Numc,tj表示类别c中词tj的个数,|Vo|表示不同词的个数。
步骤5:分别计算词tj+1的属性紧挨在词tj的属性后面出现在类别ci中的概砗
Figure FDA0003345292500000013
Figure FDA0003345292500000014
计算公式为:
Figure FDA0003345292500000015
式中,
Figure FDA0003345292500000016
表示词tj+1的属性紧挨在词tj的属性后面出现在类别c中的次数。
步骤6:由步骤3,4,5构建贝叶斯算法模块的文本分类模型的计算公式:
Figure FDA0003345292500000021
式中,λi为类别ci的调整参数。式中
Figure FDA0003345292500000022
表示金融文本d中的第j个词tj在类别ci中的概率,由步骤3计算得到;
Figure FDA0003345292500000023
表示词tj+1的属性紧挨在词tj的属性后面出现在类别ci中的概率,由步骤4计算得到。
步骤7:查找适合的λ参数使得模型f的预测更为准确,采取的参数拟合方法为高斯模型。
λ*=argmin f(λ) (3)
对贝叶斯算法模块中的{λ1,λ2,λ3,......}参数在(0,1)的范围内进行参数值搜索,当模型的预测精度无法继续提升时,停止λi的参数搜索。
步骤8:根据步骤7得到的贝叶斯模型对步骤1,2处理好的金融文本类型进行预测。
步骤9:将步骤8获得的分拣结果输入显示模块进行显示。
CN202111320125.9A 2021-11-09 2021-11-09 基于词属性位置关系与贝叶斯的少样本金融文本分类系统 Pending CN114153968A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111320125.9A CN114153968A (zh) 2021-11-09 2021-11-09 基于词属性位置关系与贝叶斯的少样本金融文本分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111320125.9A CN114153968A (zh) 2021-11-09 2021-11-09 基于词属性位置关系与贝叶斯的少样本金融文本分类系统

Publications (1)

Publication Number Publication Date
CN114153968A true CN114153968A (zh) 2022-03-08

Family

ID=80459730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111320125.9A Pending CN114153968A (zh) 2021-11-09 2021-11-09 基于词属性位置关系与贝叶斯的少样本金融文本分类系统

Country Status (1)

Country Link
CN (1) CN114153968A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048940A (zh) * 2022-06-23 2022-09-13 之江实验室 基于实体词属性特征和回译的中文金融文本数据增强方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048940A (zh) * 2022-06-23 2022-09-13 之江实验室 基于实体词属性特征和回译的中文金融文本数据增强方法
CN115048940B (zh) * 2022-06-23 2024-04-09 之江实验室 基于实体词属性特征和回译的中文金融文本数据增强方法

Similar Documents

Publication Publication Date Title
CN110309867B (zh) 一种基于卷积神经网络的混合气体识别方法
CN109492230B (zh) 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
CN112101040B (zh) 一种基于知识图谱的古代诗词语义检索方法
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN113254507B (zh) 一种数据资产目录智能构建盘点方法
CN113495900A (zh) 基于自然语言的结构化查询语言语句获取方法及装置
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN114495143A (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN114297987A (zh) 基于文本分类和阅读理解的文档信息抽取方法及系统
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN113553400A (zh) 一种企业知识图谱实体链接模型的构建方法及装置
CN114153968A (zh) 基于词属性位置关系与贝叶斯的少样本金融文本分类系统
CN112862569B (zh) 基于图像和文本多模态数据的产品外观风格评价方法和系统
CN116414872B (zh) 基于自然语言识别及知识图谱的数据搜索方法和系统
CN111832306A (zh) 基于多特征融合的影像诊断报告命名实体识别方法
Iori et al. The direction of technical change in AI and the trajectory effects of government funding
CN116340530A (zh) 基于机械知识图谱的智能设计方法
CN115455198A (zh) 模型训练方法、法律诉讼信息对齐融合方法及其终端设备
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
CN114936279A (zh) 一种面向协同制造企业的非结构化图表数据分析方法
Mirzoyan et al. The procedure for defining the best recognition module of the algorithms for calculating estimates
EP2565799A1 (en) Method and device for generating a fuzzy rule base for classifying logical structure features of printed documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination