CN116992035A - 一种提案智能分类的方法、装置、计算机设备和介质 - Google Patents
一种提案智能分类的方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN116992035A CN116992035A CN202311262504.6A CN202311262504A CN116992035A CN 116992035 A CN116992035 A CN 116992035A CN 202311262504 A CN202311262504 A CN 202311262504A CN 116992035 A CN116992035 A CN 116992035A
- Authority
- CN
- China
- Prior art keywords
- classification
- proposal
- word
- words
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013145 classification model Methods 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000013016 damping Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 230000002441 reversible effect Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004148 unit process Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于数据处理技术领域,涉及一种提案智能分类的方法、装置、计算机设备和介质。方法包括:获取多个历史提案以及每个历史提案的提案分类;根据所有历史提案的提案分类、提案分类的关键词以及关键词权重,构建每个提案分类的分类词典;获取目标提案,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分;根据匹配得分,得到目标提案的词典分类;构建神经网络模型,并采用历史提案以及提案分类进行训练,得到分类模型;将目标提案输入分类模型,得到目标提案的模型分类;根据词典分类与模型分类,得到目标提案的最终分类。本申请能够提高提案分类的效率与准确率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种提案智能分类的方法、装置、计算机设备和介质。
背景技术
提案是与会单位、团体和参会人员,向会议提出的书面意见和建议。
随着技术的发展,提案的数量越来越多,涉及到的分类也越来越广泛。
现有技术中,提案在提交时,需要人工选择分类,以便提交至正确的办理单位。
但是,当提案较多时,需要花费很多时间搜索对应的分类,费时费力,效率很低,而且,可能会由于主观原因,将提案提交至错误的分类,准确率也不高。
发明内容
基于此,有必要针对上述技术问题,提供一种提案智能分类的方法、装置、计算机设备和介质,能够对提交的提案进行智能分类,提高提案分类的效率与准确率。
一种提案智能分类的方法,包括:
获取多个历史提案以及每个历史提案的提案分类;根据所有历史提案的提案分类、提案分类的关键词以及关键词权重,构建每个提案分类的分类词典;
获取目标提案,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分;根据匹配得分,得到目标提案的词典分类;
构建神经网络模型,并采用历史提案以及提案分类进行训练,得到分类模型;将目标提案输入分类模型,得到目标提案的模型分类;
根据词典分类与模型分类,得到目标提案的最终分类。
在一个实施例中,提案分类的关键词以及关键词权重的计算过程为:
对每个历史提案进行分词,得到多个词,以形成每个提案分类的词汇表;
基于tf-idf算法,并结合词的位置间隔,计算词汇表中每个词的tf-idf值,并以tf-idf值作为词的初始权重;
根据词的初始权重,并采用TextRank算法进行迭代,得到词的最终权重;
将词的最终权重按照从大到小的顺序进行排列,以最终权重最大的多个词为对应提案分类的关键词,以最终权重最大的多个最终权重为对应提案分类的关键词权重。
在一个实施例中,基于tf-idf算法,并结合词的位置间隔,计算词汇表中每个词的tf-idf值,包括:
;
;
;
其中,tf为词的词频,position为词的位置间隔,a为词对应的词汇表所在提案分类中历史提案的数量,b为词所在历史提案的数量。
在一个实施例中,根据词的初始权重,并采用TextRank算法进行迭代,得到词的最终权重,包括:
根据词汇表中的每个词,以每个词与其他词之间的相似度为矩阵元素,建立相似度矩阵;
;
式中,为词i的最终权重,d为阻尼因子,/>为对/>求和,/>为相似度矩阵中词j与词i的相似度,/>为相似度矩阵中词j与所有其他词的相似度之和,为词j上一次迭代的权重,初始值为词j的tf-idf值,词j为词汇表中除i以外的任意其他词。
在一个实施例中,所述神经网络模型包括:依次相连的输入层、嵌入层、卷积层、双向GRU层、注意力机制层、池化层、全连接层以及输出层。
在一个实施例中,根据匹配得分,得到目标提案的词典分类,包括:
对匹配得分按照从大到小的顺序进行排列,并以匹配得分最大的多个匹配得分对应的提案分类作为目标提案的词典分类。
在一个实施例中,根据词典分类与模型分类,得到目标提案的最终分类,包括:
当词典分类包括模型分类时,则以模型分类为目标提案的最终分类;
否则,以词典分类的第一个分类和模型分类为目标提案的最终分类。
一种提案智能分类的装置,包括:
获取模块,用于获取多个历史提案以及每个历史提案的提案分类;根据所有历史提案的提案分类、提案分类的关键词以及关键词权重,构建每个提案分类的分类词典;
词典分类模块,用于获取目标提案,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分;根据匹配得分,得到目标提案的词典分类;
模型分类模块,用于构建神经网络模型,并采用历史提案以及提案分类进行训练,得到分类模型;将目标提案输入分类模型,得到目标提案的模型分类;
输出模块,用于根据词典分类与模型分类,得到目标提案的最终分类。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取多个历史提案以及每个历史提案的提案分类;根据所有历史提案的提案分类、提案分类的关键词以及关键词权重,构建每个提案分类的分类词典;
获取目标提案,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分;根据匹配得分,得到目标提案的词典分类;
构建神经网络模型,并采用历史提案以及提案分类进行训练,得到分类模型;将目标提案输入分类模型,得到目标提案的模型分类;
根据词典分类与模型分类,得到目标提案的最终分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取多个历史提案以及每个历史提案的提案分类;根据所有历史提案的提案分类、提案分类的关键词以及关键词权重,构建每个提案分类的分类词典;
获取目标提案,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分;根据匹配得分,得到目标提案的词典分类;
构建神经网络模型,并采用历史提案以及提案分类进行训练,得到分类模型;将目标提案输入分类模型,得到目标提案的模型分类;
根据词典分类与模型分类,得到目标提案的最终分类。
上述提案智能分类的方法、装置、计算机设备和介质,在进行词典分类时,考虑词的位置间隔计算tf-idf值,以加强词之间的关联关系,以tf-idf值作为词的初始权重,并进行循环迭代,得到词的最终权重,从而构建分类词典。在进行模型分类时,引入双向GRU层和注意力机制层,克服传统模型仅能考虑局部信息和固定长度的词向量,无法直接捕捉到全局上下文信息的缺点,双向GRU层能够接受变长的序列数据作为输入,对每个序列的长度进行建模,自适应地处理变长序列数据,能更好的适应实际应用;同时,双向GRU层引入了循环神经网络的机制,使得网络可以对序列数据中的时序信息进行建模和处理,从而捕捉上下文信息,提升模型对文本中上下文词语的相关性表现以及文本词特征的理解能力。在进行最终分类时,综合考虑词典分类和模型分类,避免过于依赖于词汇本身无法适应新词、无法反映词语之间关联性与语义、某类别对应的词样本数据较少很过于依赖于词汇本身无法适应新词、无法反映词语之间关联性与语义、某类别对应的词样本数据较少很可能分错甚至无法分类等问题,以实现准确分类。
附图说明
图1为一个实施例中提案智能分类的方法的应用场景图;
图2为一个实施例中提案智能分类的方法的流程示意图;
图3为一个实施例中提案智能分类的装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多组”的含义是至少两组,例如两组,三组等,除非另有明确具体的限定。
在本申请中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接,还可以是物理连接或无线通信连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请提供的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,终端102可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是各类门户网站、工作系统后台对应的服务器等。
本申请提供了一种提案智能分类的方法,如图2所示,在一个实施例中,以该方法应用于图1中的终端为例进行说明,包括:
步骤202,获取多个历史提案以及每个历史提案的提案分类;根据所有历史提案的提案分类、提案分类的关键词以及关键词权重,构建每个提案分类的分类词典。
具体地,提案分类的关键词以及关键词权重的计算过程为:对每个历史提案进行分词,得到多个词,以每个提案分类的所有词作为每个提案分类的词汇表;基于tf-idf算法,并结合词的位置间隔,计算词汇表中每个词的tf-idf值,并以tf-idf值作为词的初始权重;根据词的初始权重,并采用TextRank算法进行迭代,得到词的最终权重;将词的最终权重按照从大到小的顺序进行排列,以最终权重最大的多个词为对应提案分类的关键词,以最终权重最大的多个最终权重为对应提案分类的关键词权重。
更具体地,基于tf-idf算法,并结合词的位置间隔,计算词汇表中每个词的tf-idf值,并以tf-idf值作为词的初始权重;根据词的初始权重,并采用TextRank算法进行迭代,得到词的最终权重包括:
;
;
;
其中,tf为词的词频,position为词的位置间隔,a为词对应的词汇表所在提案分类中历史提案的数量,b为词所在历史提案的数量。
需要说明,词的位置间隔是指词在历史提案中第一次出现与最后一次出现之间间隔的词数量,如果词在历史提案中出现的次数为1,则其位置间隔为0。
根据词汇表中的每个词,定义邻近窗口大小为2(窗口大小为2表示每个词的前后两个词作为邻近窗口),以共现次数为矩阵元素,构建共现关系矩阵;根据共现关系矩阵,以每个词与其他词之间的相似度为矩阵元素,建立相似度矩阵;根据相似度矩阵,进行迭代,直至达到预设的迭代次数时,得到词的最终权重:
;
式中,为词i的最终权重,d为阻尼因子,表示每次迭代时,新的节点(即词)权重会保留当前节点权重的比例,剩余的权重比例部分根据节点之间的相似度进行调整,具体可以取0.85,/>为对/>求和,/>为相似度矩阵中词j与词i的相似度,/>为相似度矩阵中词j与所有其他词的相似度之和,/>为词j上一次迭代的权重,初始值为词j的tf-idf值,词j为词汇表中除i以外的任意其他词。
例如:词汇表=[自然,资源,需要,被,保护];
词“自然”的邻近窗口:[资源,需要];
词“资源”的邻近窗口:[自然,需要,被];
这里“自然”和“资源”共现了1次,“资源”也和“自然”共现了1次,所以矩阵中元素为2,“自然”和“自然”没有共现所以为0,“自然”和“需要”共现1次为1,依次类推,得到构建的共现矩阵为:
构建的相似度矩阵为:
假设初始权重(tf-idf值)为1,则各词的最终权重的迭代过程为:
;
以此类推,直至迭代完成,得到各词的最终权重。
在本步骤中,分词为现有技术,在此不再赘述。
步骤204,获取目标提案,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分;根据匹配得分,得到目标提案的词典分类。
具体地:
获取目标提案,对目标提案进行分词,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分:
;
式中,score为匹配得分,a为分类词典中的词在目标提案中出现的频次,b为分类词典中该词对应的权重,n为匹配到的词的数量;需要说明,匹配到是指分类词典中含有目标提案的词。
对匹配得分按照从大到小的顺序进行排列,并以匹配得分最大的多个匹配得分对应的提案分类作为目标提案的词典分类。
步骤206,构建神经网络模型,并采用历史提案以及提案分类进行训练,得到分类模型;将目标提案输入分类模型,得到目标提案的模型分类。
具体地,利用tensorflow框架搭建神经网络模型,神经网络模型包括:依次相连的输入层、嵌入层、卷积层、双向GRU层、注意力机制层、池化层、全连接层以及输出层。
更具体地,各层的具体功能如下,
输入层:对输入的提案进行预处理,得到数值化输入;
嵌入层:将数值化输入转换为词嵌入矩阵;
卷积层:以词嵌入矩阵为输入,通过3个大小分别为3、4、5的卷积核窗口进行卷积操作,提取数据的局部特征;
双向GRU层:以数据的局部特征作为输入,同时捕捉文本从上到下及从下到上的词信息;
注意力机制层:以上一层的输出为输入,生成隐藏状态矩阵,并基于隐藏状态矩阵,计算每个上下文词语的权重,以提升模型关注重要特征(重要词)的能力,从而提高模型对提案的理解能力;
池化层:以上一层的输出为输入,生成加权隐藏状态向量,对每个特征维度取最大值,从而捕获全局最重要的特征,得到全局最大池化特征向量;
全连接层:将上一层输出的全局最大池化特征向量,引入ReLU函数进行非线性变换,提取更复杂的特征表示和决策边界;
输出层:使用softmax激活函数将特征向量映射到对应的类别概率分布上,根据概率最大值得到分类。
在本步骤中,构建的神经网络模型,经过历史提案以及提案分类进行训练后,得到分类模型,分类模型能够对输入的目标提案,直接输出目标提案的模型分类。
例如:现有3个分好类的类别,每个类别1篇提案。
提案= [90后家长十分注重孩子的教育,网络正在飞速发展, 保护环境是每个人的责任]。
类别标签label=[0,1,2],表示教育标签为0,网络标签为1,环保标签为2。
对提案进行整数编码:对每篇提案采用tf-idf进行关键词提取,采用tokenizer构建词汇表,并为每个词分配一个整数编码,词汇表为:{家长:1,注重:2,孩子:3,教育:4,网络:5,飞速:6,发展:7,保护:8,环境:9,责任:10},进行整数编码后为:{ [1,2,3,4],[5,6,7],[8,9,10] }。需要说明,这里的词汇表只是举例,具体可以根据实际情况进行设置。
对提案的整数编码进行填充:将提案的整数编码序列填充到固定长度,长度设为4(这里只是举例,具体可以根据实际情况进行设置),缺少的位置补0,则提案整数编码填充后为:{ [1,2,3,4],[5,6,7,0],[8,9,10,0] }。
对类别标签label进行one-hot编码,得到:{ [1,0,0],[0,1,0],[0,0,1] },第一行对应类别0,第二行对应类别1,第三行对应类别2。
将填充后的提案整数编码、one-hot编码后的类别标签、设置的迭代轮数和每个批次的提案样本数,作为数值化输入,输入构建的神经网络模型,进行模型训练,得到能够对提案进行自动分类的分类模型。
步骤208,根据词典分类与模型分类,得到目标提案的最终分类。
具体地:当词典分类包括模型分类时,则以模型分类为目标提案的最终分类;否则,以词典分类的第一个分类和模型分类为目标提案的最终分类。
还需要说明,神经网络模型的嵌入层、卷积层、注意力机制层、池化层、全连接层以及输出层均为现有技术。
传统的RNN模型在处理序列数据时,每个时间步的隐藏状态仅依赖于前一个时间步的隐藏状态,这意味着信息只能在一个方向上流动,即从过去到未来。
而本申请中,双向GRU层通过引入两个独立的GRU单元,分别在正向和反向的时间顺序上处理输入序列。根据输入的词序列(将输入的序列划分为多个时间步,每个时间步对应序列中的一个元素),正向GRU单元和反向GRU单元分别处理并拼接输出。具体地:
正向GRU单元按照正常的时间顺序处理输入序列,每个时间步的隐藏状态依赖于前一个时间步的隐藏状态和当前时间步的输入;正向单元根据正向顺序从序列的起始位置开始,依次处理序列的每一个元素,正向单元的处理捕捉了正向上下文信息,用于理解序列数据的前向依赖关系。
反向GRU单元则按照相反的时间顺序处理输入序列,每个时间步的隐藏状态依赖于后一个时间步的隐藏状态和当前时间步的输入;反向单元根据逆向顺序从序列的末尾位置开始,依次处理序列的每一个元素,反向单元的处理捕捉了反向上下文信息,用于理解序列数据的后向依赖关系。
在每个时间步,正向GRU单元和反向GRU单元都会产生一个隐藏状态,然后将正向和反向单元的输出也就是这两个隐藏状态在时间维度上进行合并拼接,得到整体的双向上下文表示,形成双向GRU层的输出,最后输入至输出层进行相关的分类预测。
通过引入这种循环机制的方式,双向GRU层能够同时捕捉到并更好地理解序列数据中过去和未来的上下文信息,并且能够在一个方向上进行信息的传递,而在另一个方向上进行信息的传播。
上述提案智能分类的方法,在进行词典分类时,考虑词的位置间隔计算tf-idf值,以加强词之间的关联关系,以tf-idf值作为词的初始权重,并进行循环迭代,得到词的最终权重,从而构建分类词典。在进行模型分类时,引入双向GRU层和注意力机制层,克服传统模型仅能考虑局部信息和固定长度的词向量,无法直接捕捉到全局上下文信息的缺点,双向GRU层能够接受变长的序列数据作为输入,对每个序列的长度进行建模,自适应地处理变长序列数据,能更好的适应实际应用;同时,双向GRU层引入了循环神经网络的机制,使得网络可以对序列数据中的时序信息进行建模和处理,从而捕捉上下文信息,提升模型对文本中上下文词语的相关性表现以及文本词特征的理解能力。在进行最终分类时,综合考虑词典分类和模型分类,避免过于依赖于词汇本身无法适应新词、无法反映词语之间关联性与语义、某类别对应的词样本数据较少很可能分错甚至无法分类等问题,以实现准确分类。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请还提供了一种提案智能分类的装置,如图3所示,在一个实施例中,包括:获取模块302、词典分类模块304、模型分类模块306以及输出模块308,其中:
获取模块302,用于获取多个历史提案以及每个历史提案的提案分类;根据所有历史提案的提案分类、提案分类的关键词以及关键词权重,构建每个提案分类的分类词典;
词典分类模块304,用于获取目标提案,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分;根据匹配得分,得到目标提案的词典分类;
模型分类模块306,用于构建神经网络模型,并采用历史提案以及提案分类进行训练,得到分类模型;将目标提案输入分类模型,得到目标提案的模型分类;
输出模块308,用于根据词典分类与模型分类,得到目标提案的最终分类。
关于提案智能分类的装置的具体限定可以参见上文中对于提案智能分类的方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提案智能分类的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种提案智能分类的方法,其特征在于,包括:
获取多个历史提案以及每个历史提案的提案分类;根据所有历史提案的提案分类、提案分类的关键词以及关键词权重,构建每个提案分类的分类词典;
获取目标提案,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分;根据匹配得分,得到目标提案的词典分类;
构建神经网络模型,并采用历史提案以及提案分类进行训练,得到分类模型;将目标提案输入分类模型,得到目标提案的模型分类;
根据词典分类与模型分类,得到目标提案的最终分类。
2.根据权利要求1所述的提案智能分类的方法,其特征在于,提案分类的关键词以及关键词权重的计算过程为:
对每个历史提案进行分词,得到多个词,以形成每个提案分类的词汇表;
基于tf-idf算法,并结合词的位置间隔,计算词汇表中每个词的tf-idf值,并以tf-idf值作为词的初始权重;
根据词的初始权重,并采用TextRank算法进行迭代,得到词的最终权重;
将词的最终权重按照从大到小的顺序进行排列,以最终权重最大的多个词为对应提案分类的关键词,以最终权重最大的多个最终权重为对应提案分类的关键词权重。
3.根据权利要求2所述的提案智能分类的方法,其特征在于,基于tf-idf算法,并结合词的位置间隔,计算词汇表中每个词的tf-idf值,包括:
;
;
;
其中,tf为词的词频,position为词的位置间隔,a为词对应的词汇表所在提案分类中历史提案的数量,b为词所在历史提案的数量。
4.根据权利要求3所述的提案智能分类的方法,其特征在于,根据词的初始权重,并采用TextRank算法进行迭代,得到词的最终权重,包括:
根据词汇表中的每个词,以每个词与其他词之间的相似度为矩阵元素,建立相似度矩阵;
;
式中,为词i的最终权重,d为阻尼因子,/>为对/>求和,/>为相似度矩阵中词j与词i的相似度,/>为相似度矩阵中词j与所有其他词的相似度之和,为词j上一次迭代的权重,初始值为词j的tf-idf值,词j为词汇表中除i以外的任意其他词。
5.根据权利要求1至4任一项所述的提案智能分类的方法,其特征在于,所述神经网络模型包括:依次相连的输入层、嵌入层、卷积层、双向GRU层、注意力机制层、池化层、全连接层以及输出层。
6.根据权利要求1至4任一项所述的提案智能分类的方法,其特征在于,根据匹配得分,得到目标提案的词典分类,包括:
对匹配得分按照从大到小的顺序进行排列,并以匹配得分最大的多个匹配得分对应的提案分类作为目标提案的词典分类。
7.根据权利要求6所述的提案智能分类的方法,其特征在于,根据词典分类与模型分类,得到目标提案的最终分类,包括:
当词典分类包括模型分类时,则以模型分类为目标提案的最终分类;
否则,以词典分类的第一个分类和模型分类为目标提案的最终分类。
8.一种提案智能分类的装置,其特征在于,包括:
获取模块,用于获取多个历史提案以及每个历史提案的提案分类;根据所有历史提案的提案分类、提案分类的关键词以及关键词权重,构建每个提案分类的分类词典;
词典分类模块,用于获取目标提案,并分别与每个分类词典进行匹配;根据匹配到的词,计算目标提案与每个提案分类的匹配得分;根据匹配得分,得到目标提案的词典分类;
模型分类模块,用于构建神经网络模型,并采用历史提案以及提案分类进行训练,得到分类模型;将目标提案输入分类模型,得到目标提案的模型分类;
输出模块,用于根据词典分类与模型分类,得到目标提案的最终分类。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311262504.6A CN116992035B (zh) | 2023-09-27 | 2023-09-27 | 一种提案智能分类的方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311262504.6A CN116992035B (zh) | 2023-09-27 | 2023-09-27 | 一种提案智能分类的方法、装置、计算机设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992035A true CN116992035A (zh) | 2023-11-03 |
CN116992035B CN116992035B (zh) | 2023-12-08 |
Family
ID=88528682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311262504.6A Active CN116992035B (zh) | 2023-09-27 | 2023-09-27 | 一种提案智能分类的方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992035B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361059A (zh) * | 2014-11-03 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多示例学习的有害信息识别和网页分类方法 |
CN107066441A (zh) * | 2016-12-09 | 2017-08-18 | 北京锐安科技有限公司 | 一种计算词性相关性的方法及装置 |
KR101887629B1 (ko) * | 2018-02-14 | 2018-08-10 | 대신네트웍스 주식회사 | 자연어기반 정보공개분류시스템 |
CN110457696A (zh) * | 2019-07-31 | 2019-11-15 | 福州数据技术研究院有限公司 | 一种面向档案数据的人才与政策智能匹配系统和方法 |
CN111177386A (zh) * | 2019-12-27 | 2020-05-19 | 安徽商信政通信息技术股份有限公司 | 一种提案分类方法及系统 |
CN114840677A (zh) * | 2022-07-04 | 2022-08-02 | 南京华飞数据技术有限公司 | 面向多粒度需求的短文本分类与智能分析系统 |
US20230195773A1 (en) * | 2019-10-11 | 2023-06-22 | Ping An Technology (Shenzhen) Co., Ltd. | Text classification method, apparatus and computer-readable storage medium |
CN116561320A (zh) * | 2023-06-25 | 2023-08-08 | 中国第一汽车股份有限公司 | 一种汽车评论的分类方法、装置、设备及介质 |
-
2023
- 2023-09-27 CN CN202311262504.6A patent/CN116992035B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361059A (zh) * | 2014-11-03 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多示例学习的有害信息识别和网页分类方法 |
CN107066441A (zh) * | 2016-12-09 | 2017-08-18 | 北京锐安科技有限公司 | 一种计算词性相关性的方法及装置 |
KR101887629B1 (ko) * | 2018-02-14 | 2018-08-10 | 대신네트웍스 주식회사 | 자연어기반 정보공개분류시스템 |
CN110457696A (zh) * | 2019-07-31 | 2019-11-15 | 福州数据技术研究院有限公司 | 一种面向档案数据的人才与政策智能匹配系统和方法 |
US20230195773A1 (en) * | 2019-10-11 | 2023-06-22 | Ping An Technology (Shenzhen) Co., Ltd. | Text classification method, apparatus and computer-readable storage medium |
CN111177386A (zh) * | 2019-12-27 | 2020-05-19 | 安徽商信政通信息技术股份有限公司 | 一种提案分类方法及系统 |
CN114840677A (zh) * | 2022-07-04 | 2022-08-02 | 南京华飞数据技术有限公司 | 面向多粒度需求的短文本分类与智能分析系统 |
CN116561320A (zh) * | 2023-06-25 | 2023-08-08 | 中国第一汽车股份有限公司 | 一种汽车评论的分类方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
侯汉清;薛春香;: "用于中文信息自动分类的《中图法》知识库的构建", 中国图书馆学报, no. 05 * |
陈鑫;薛云;卢昕;李万理;赵洪雅;胡晓晖;: "基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法", 山东大学学报(理学版), no. 03 * |
Also Published As
Publication number | Publication date |
---|---|
CN116992035B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562147B2 (en) | Unified vision and dialogue transformer with BERT | |
US11562203B2 (en) | Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models | |
CN110362723B (zh) | 一种题目特征表示方法、装置及存储介质 | |
US20180204120A1 (en) | Improved artificial neural network for language modelling and prediction | |
JP2020520492A (ja) | 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体 | |
GB2571825A (en) | Semantic class localization digital environment | |
CN112308237B (zh) | 一种问答数据增强方法、装置、计算机设备及存储介质 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN112101042B (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
CN113779994B (zh) | 一种要素抽取方法、装置、计算机设备和存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Chatterjee et al. | Identification and classification of architecturally significant functional requirements | |
CN114841161A (zh) | 事件要素抽取方法、装置、设备、存储介质和程序产品 | |
CN115409111A (zh) | 命名实体识别模型的训练方法和命名实体识别方法 | |
CN113159013A (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
Zhong et al. | Recurrent attention unit | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
CA3066337A1 (en) | Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models | |
Yuan et al. | Deep learning from a statistical perspective | |
CN113011136B (zh) | 基于相关性判断的sql解析方法、装置和计算机设备 | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
CN116992035B (zh) | 一种提案智能分类的方法、装置、计算机设备和介质 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN115309862A (zh) | 基于图卷积网络和对比学习的因果关系识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |