CN117609503A - 一种银行事件单的分类方法、系统、设备及存储介质 - Google Patents
一种银行事件单的分类方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN117609503A CN117609503A CN202311649318.8A CN202311649318A CN117609503A CN 117609503 A CN117609503 A CN 117609503A CN 202311649318 A CN202311649318 A CN 202311649318A CN 117609503 A CN117609503 A CN 117609503A
- Authority
- CN
- China
- Prior art keywords
- term
- text
- event list
- special
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 134
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 235000005612 Grewia tenax Nutrition 0.000 description 3
- 244000041633 Grewia tenax Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007858 starting material Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Marketing (AREA)
- Economics (AREA)
- Human Computer Interaction (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种银行事件单的分类方法、系统、设备及存储介质,其中,方法包括:对目标事件单文本进行标记处理,获得携带有多个类型的特征提取标记的事件单句子对,将事件单句子对输入预设短文本识别模型中,以使预设短文本识别模型基于特征提取标记对事件单句子对进行特征编码,输出句向量和各专有术语向量,基于专有术语权重值对应关系表中的专有术语对应的权重值,对各专有术语向量进行权重赋值,并将经过权重赋值的各专有术语向量与句向量进行拼接,获得目标事件单文本的文本特征向量,基于文本特征向量确定目标事件单文本的所属系统类别。本发明提高了对银行事件单的分类精度。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及一种银行事件单的分类方法、系统、设备及存储介质。
背景技术
银行事件单是银行系统中用于存储客户诉求和问题的工单。为了实现对事件单的自动派发流转,在接收到事件单后,需要对事件单文本进行文本识别和分类,从而确定该事件单所属的业务系统类别。
为了实现对事件单文本的识别和分类,通常会利用文本识别算法(如Word2vec)对事件单文本进行文本特征提取,并利用加权算法(Termfrequency-–inverse documentfrequency,TF-IDF)对不同的文本特征赋予不同的权重,从而基于各文本特征权重对事件单进行分类。但是,由于事件单文本是短文本,字符量较少,导致描述文本中携带的信息量降低,从而使得现有的文本识别算法无法基于少量文本信息实现对文本特征的准确提取。同时,由于现有TF-IDF是基于词频进行权重赋值,对于银行事件单排单场景下的权重赋值精度低,导致最终对银行事件单的分类精度降低。
发明内容
本发明实施例的目的在于提供一种银行事件单的分类方法、系统、设备及存储介质,以实现提高银行事件单的分类精度。具体技术方案如下:
一种银行事件单的分类方法,所述方法包括:
对目标事件单文本进行标记处理,获得携带有多个类型的特征提取标记的事件单句子对,所述特征提取标记的所述类型至少包括专有术语标记和句起止标记;
将所述事件单句子对输入预设短文本识别模型中,以使所述预设短文本识别模型基于所述特征提取标记对所述事件单句子对进行特征编码,输出句向量和各专有术语向量;
基于专有术语权重值对应关系表中的专有术语对应的权重值,对各所述专有术语向量进行权重赋值,并将经过所述权重赋值的各所述专有术语向量与所述句向量进行拼接,获得目标事件单文本的文本特征向量,其中,所述专有术语权重值对应关系表中包括目标系统的各专有术语及其各自对应的权重值;
基于所述文本特征向量确定所述目标事件单文本的所属系统类别。
可选的,所述专有术语对应的权重值的生成过程,包括:
获得事件单样本组,所述事件单样本组包括所述目标系统的多个历史事件单文本;
从所述事件单样本组中提取各所述专有术语,构建专有术语组;
基于所述事件单样本组和所述专有术语组,构建文本×术语矩阵,并对所述文本×术语矩阵进行转置,获得术语×文本矩阵,求得所述术语×文本矩阵中各文本向量之间的余弦相似度,并基于所述术语×文本矩阵和各所述余弦相似度构建术语空间;
分别计算所述术语空间中各所述专有术语到所述术语空间的中心的相似度,并将所述相似度的均值确定为所述术语空间的密度;
以每次抽离一个所述专有术语的方式,从所述术语空间中多次抽离所述专有术语,在每次抽离一个所述专有术语后,确定本次抽离所述专有术语后的所述术语空间的密度变化率,并将所述密度变化率确定为本次抽离的目标术语对应的权重值。
可选的,所述对目标事件单文本进行标记处理,包括:
对所述目标事件单文本进行字符识别,并基于识别结果,对构成所述目标事件单文本的各句添加所述句起止标记,并根据所述专有术语权重值对应关系表中的所述专有术语名称,对所述目标事件单文本中的各所述专有术语添加所述专有术语标记。
可选的,所述预设短文本识别模型的训练过程,包括:
获得初始样本数据集,所述初始样本数据集包括:所述目标系统的历史样本事件单文本和各所述历史样本事件单文本各自对应的样本向量组,所述样本向量组中包括所述历史样本事件单文本对应的样本句向量和样本专有术语向量;
对各所述历史样本事件单文本进行所述标记处理,获得多个历史样本事件单句子对;
将各所述历史样本事件单句子对输入至初始短文本识别模型中,并基于各所述历史样本事件单文本各自对应的样本向量组对所述初始短文本识别模型进行调参操作,获得所述预设短文本识别模型,所述预设短文本识别模型的输入为事件单句子对,输出为与所述事件单句子对对应的句向量和各专有术语向量。
一种银行事件单的分类系统,所述系统包括:
标记处理模块,用于对目标事件单文本进行标记处理,获得携带有多个类型的特征提取标记的事件单句子对,所述特征提取标记的所述类型至少包括专有术语标记和句起止标记;
特征提取模块,用于将所述事件单句子对输入预设短文本识别模型中,以使所述预设短文本识别模型基于所述特征提取标记对所述事件单句子对进行特征编码,输出句向量和各专有术语向量;
权重赋值模块,用于基于专有术语权重值对应关系表中的专有术语对应的权重值,对各所述专有术语向量进行权重赋值,并将经过所述权重赋值的各所述专有术语向量与所述句向量进行拼接,获得目标事件单文本的文本特征向量,其中,所述专有术语权重值对应关系表中包括目标系统的各专有术语及其各自对应的权重值;
分类模块,用于基于所述文本特征向量确定所述目标事件单文本的所属系统类别。
可选的,所述权重赋值模块还包括权重生成单元,所述权重生成单元在所述专有术语对应的权重值的生成过程中被设置为:
获得事件单样本组,所述事件单样本组包括所述目标系统的多个历史事件单文本;
从所述事件单样本组中提取各所述专有术语,构建专有术语组;
基于所述事件单样本组和所述专有术语组,构建文本×术语矩阵,并对所述文本×术语矩阵进行转置,获得术语×文本矩阵,求得所述术语×文本矩阵中各文本向量之间的余弦相似度,并基于所述术语×文本矩阵和各所述余弦相似度构建术语空间;
分别计算所述术语空间中各所述专有术语到所述术语空间的中心的相似度,并将所述相似度的均值确定为所述术语空间的密度;
以每次抽离一个所述专有术语的方式,从所述术语空间中多次抽离所述专有术语,在每次抽离一个所述专有术语后,确定本次抽离所述专有术语后的所述术语空间的密度变化率,并将所述密度变化率确定为本次抽离的目标术语对应的权重值。
可选的,所述标记处理模块对所述目标事件单文本进行标记处理时被设置为:
对所述目标事件单文本进行字符识别,并基于识别结果,对构成所述目标事件单文本的各句添加所述句起止标记,并根据所述专有术语权重值对应关系表中的所述专有术语名称,对所述目标事件单文本中的各所述专有术语添加所述专有术语标记。
可选的,所述特征提取模块还包括模型训练单元,所述模型训练单元在所述预设短文本识别模型的训练过程中被设置为:
获得初始样本数据集,所述初始样本数据集包括:所述目标系统的历史样本事件单文本和各所述历史样本事件单文本各自对应的样本向量组,所述样本向量组中包括所述历史样本事件单文本对应的样本句向量和样本专有术语向量;
对各所述历史样本事件单文本进行所述标记处理,获得多个历史样本事件单句子对;
将各所述历史样本事件单句子对输入至初始短文本识别模型中,并基于各所述历史样本事件单文本各自对应的样本向量组对所述初始短文本识别模型进行调参操作,获得所述预设短文本识别模型,所述预设短文本识别模型的输入为事件单句子对,输出为与所述事件单句子对对应的句向量和各专有术语向量。
一种银行事件单的分类设备,所述设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述任一种所述的银行事件单的分类方法。
一种计算机可读存储介质,当所述计算机可读存储介质中的指令由银行事件单的分类设备的处理器执行时,使得所述银行事件单的分类设备能够执行如上述任一种所述的银行事件单的分类方法。
本发明实施例提供的一种银行事件单的分类方法、系统、设备及存储介质,可以通过配置预设短文本识别模型基于特征提取标记对事件单句子对进行特征编码,可以准确提取事件单句子中的句向量和各专有向量,避免了现有技术在文本信息量少的场景下对文本特征提取准确度低的问题。同时,通过配置专有术语权重值对应关系表中存储目标系统的各专有术语及其各自对应的权重值,并基于配置专有术语权重值对应关系表中的各权重值对应赋予权重值。避免了现有技术由于权重值赋予错误导致的银行事件单分类精度降低的风险。最后,通过将经过权重赋值的各专有术语向量与句向量进行拼接,使得本发明相较于现有技术,既考虑了句向量所携带的目标事件单文本的信息,也考虑了经过权重赋值的各专有术语向量携带的信息,提高了获得的目标事件单文本的文本特征向量中的信息量,从而提高了最终对银行事件单分类精度。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种银行事件单的分类方法的流程图;
图2为本发明实施例提供的一种银行事件单的分类系统的框图;
图3为本发明实施例提供的一种银行事件单的分类设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
经本申请发明人员研究发现,之所以TF-IDF在银行事件单分类场景下权重赋予不准确,是由于TF-IDF是基于单一文本中词频和逆文档频率进行权重赋予的,并未区分事件单中的非专有术语和专有术语。例如,我要投诉,我的手机银行页面中我的信息编辑困难。其中,假设专有术语为手机银行页面,其他字符为非专有术语。显然,非专有术语中“我的”出现频率高于专有术语“手机银行页面”。此时若采用TF-IDF进行权重赋予,容易出现“我的”权重值大于“手机银行页面”的权重值,进而使得本来要发送至页面管理系统的事件单被派送至操作流程管理系统。
本发明实施例提供了一种银行事件单的分类方法,如图1所示,该银行事件单的分类方法包括:
S101、对目标事件单文本进行标记处理,获得携带有多个类型的特征提取标记的事件单句子对,特征提取标记的类型至少包括专有术语标记和句起止标记。
需要说明的是,在实际应用场景下,上述特征提取标记可以是用于对目标事件单文本进行分割标记,以便后续预设短文本识别模型确定提取特征在事件单句子对中的位置。
可选的,在本发明的一个可选实施例中,上述特征提取标记的类型除了上述专有术语标记和句起止标记外,还可以包括:字符位置标记和节标记。其中,上述字符位置标记是用于标记目标事件单文本中各字符的位置。上述节标记是用于标记目标事件单文本中的词语与目标单文本中各独立句的从属关系。
需要说明的是,在实际应用场景下,上述如图1所示的步骤S101的实施方式有多种,在此示例性的提供一种:
假设目标事件单文本由两个句子组成,第一个句子为字符W1至字符W5,其中,字符W3和字符W4组成了专有术语甲。第二个句子为字符W6至W10,其中,字符W8至字符W9组成了专有术语乙。则经过上述标记处理后,获得的事件单句子对可以表示为“(CLS),W1,W2,*W3,W4*,(SEP),(CLS),W6,W7,#W8,W9#,W10”。其中,上述“(CLS)”为起始符,“(SEP)”为分隔符,上述起始符和分隔符均为上述句起止标记。上述“*”为专有术语甲的专有术语标记,上述“#”为专有术语乙的专有术语标记。
S102、将事件单句子对输入预设短文本识别模型中,以使预设短文本识别模型基于特征提取标记对事件单句子对进行特征编码,输出句向量和各专有术语向量。
需要说明的是,在实际应用场景下,上述预设短文本识别模型可以是基于Transformer的双向编码器标识(Bidirectional Encoder RepresentationsfromTransformer,BERT)模型。由于该模型是采用了掩蔽语言模型(masked languagemodel,MLM),使得BERT模型可以生成深度的双向语言表征。本发明通过配置上述预设短文本识别模型基于特征提取标记对事件单句子对进行特征编码,可以准确提取事件单句子中的句向量和各专有向量,避免了现有技术在文本信息量少的场景下对文本特征提取准确度低的问题。
需要说明的是,在实际应用场景下,由于BERT模型对文本的词法、语法结构、以及语义的学习能力较差,因此,为了提高BERT模型的特征提取精度,可以利用ERNIE预训练模型的MASK机制进行改进。本发明对具体改进过程不做过多限定和赘述。
需要说明的是,在实际应用场景下,上述如图1所示的步骤S102的实施方式有多重,在此示例性地提供一种:
预设短文本识别模型基于特征提取标记对事件单句子对进行特征向量编码的流程如下:
步骤S201,将事件单句子对输入至预设文本向量化公式,获得事件单句子对向量。并触发步骤S202。
可选的,在本发明的一个可选实施例中,上述预设文本向量化公式如下:
Sentence=(Vecchar1,Vecchar2,…,Vecchari,…,Veccharm),
其中,Sentence为上述事件单句子对向量,上述m表示事件单句子对的总序列长度,上述Vecchari表征事件单句子对中的第i个字符的向量,可以表示为:
Vecchari=(x1,x2,…,xn),
其中,xn是第i个字符的向量维度。
步骤S202,将事件单句子对向量输入至预设编码器架构,以使预设编码器架构基于事件单句子对向量中携带的特征提取标记,调用对应激活函数进行特征编码,生成句向量和各专有术语向量。
可选的,在本发明的另一个可选实施例中,上述如图2所示步骤S202的具体实施方式可以是:
根据事件单句子对向量中携带的句起止标记,对事件单句子对向量中携带有句起止标记的元素进行编码,以获得包含整个目标事件单文本信息的句向量。同理,根据事件单句子对向量中携带的各专有术语标记,获得多个专有术语向量。
S103、基于专有术语权重值对应关系表中的专有术语对应的权重值,对各专有术语向量进行权重赋值,并将经过权重赋值的各专有术语向量与句向量进行拼接,获得目标事件单文本的文本特征向量,其中,专有术语权重值对应关系表中包括目标系统的各专有术语及其各自对应的权重值。
需要说明的是,在实际应用场景下,本发明通过配置专有术语权重值对应关系表中存储目标系统的各专有术语及其各自对应的权重值,并基于配置专有术语权重值对应关系表中的各权重值对应赋予权重值。避免了现有技术由于权重值赋予错误导致的银行事件单分类精度降低的风险。同时,通过将经过权重赋值的各专有术语向量与句向量进行拼接,使得本发明相较于现有技术,既考虑了句向量所携带的目标事件单文本的信息,也考虑了经过权重赋值的各专有术语向量携带的信息,提高了获得的目标事件单文本的文本特征向量中的信息量,从而提高了最终对银行事件单分类精度。
S104、基于文本特征向量确定目标事件单文本的所属系统类别。
本领域技术人员可以理解的是,在实际应用场景下,上述如图1所示的步骤S104,可以通过对全连接层(fully connected layers,FC)进行配置,在其中加载门控循环单元(Gate Recurrent Unit,GRU)和回归层Softmax,以实现上述确定目标事件单文本的所属系统类别的分类任务。本发明对上述GRU和Softmax的具体配置过程不做过多限定和赘述。
本发明通过配置预设短文本识别模型基于特征提取标记对事件单句子对进行特征编码,可以准确提取事件单句子中的句向量和各专有向量,避免了现有技术在文本信息量少的场景下对文本特征提取准确度低的问题。同时,通过配置专有术语权重值对应关系表中存储目标系统的各专有术语及其各自对应的权重值,并基于配置专有术语权重值对应关系表中的各权重值对应赋予权重值。避免了现有技术由于权重值赋予错误导致的银行事件单分类精度降低的风险。最后,通过将经过权重赋值的各专有术语向量与句向量进行拼接,使得本发明相较于现有技术,既考虑了句向量所携带的目标事件单文本的信息,也考虑了经过权重赋值的各专有术语向量携带的信息,提高了获得的目标事件单文本的文本特征向量中的信息量,从而提高了最终对银行事件单分类精度。
可选的,专有术语对应的权重值的生成过程,包括:
获得事件单样本组,事件单样本组包括目标系统的多个历史事件单文本;
从事件单样本组中提取各专有术语,构建专有术语组;
基于事件单样本组和专有术语组,构建文本×术语矩阵,并对文本×术语矩阵进行转置,获得术语×文本矩阵,求得术语×文本矩阵中各文本向量之间的余弦相似度,并基于术语×文本矩阵和各余弦相似度构建术语空间;
分别计算术语空间中各专有术语到术语空间的中心的相似度,并将相似度的均值确定为术语空间的密度;
以每次抽离一个专有术语的方式,从术语空间中多次抽离专有术语,在每次抽离一个专有术语后,确定本次抽离专有术语后的术语空间的密度变化率,并将密度变化率确定为本次抽离的目标术语对应的权重值。
本领域技术人员可以理解的是,在实际应用场景下,上述术语空间的构建过程,可以是基于术语区分能力(TermDiscriminative Capacity,TDC)算法下的术语空间构建过程来实现。本发明对上述构建过程不作过多限定和赘述。
可选的,在本发明的一个可选实施例中,上述从事件单样本组中提取各专有术语的具体实施方式可以是:
利用预设的分词工具,和补充自定义字典,对上述事件单样本组进行分词处理,并基于停用词表对经过分词处理的事件单样本组进行去停用词处理,最后对非专有术语进行剔除,获得各专有术语。其中,上述分词工具可以是结巴(jieba)分词工具。
可选的,在本发明的另一个可选实施例中,上述确定术语空间的密度的具体实施方式可以是:
设定上述术语空间是维度为n的n×n矩阵,则上述各专有术语到术语空间的中心的相似度可以通过公式:
求得第i个专有术语Ti到术语空间中心Centroid的相似度,其中,上述术语空间中心Centroid的值为上述术语空间中文档向量各维度的均值,上述Dist(Ti,Centroid)是第i个专有术语Ti到术语空间中心Centroid的欧式距离,上述c是预设参数;
基于各DS(Ti),通过公式:
求得上述术语空间的密度TSD。
可选的,在本发明的另一个可选实施例中,上述密度变化率的求解过程可以是:
在抽离目标术语Ti后,原术语空间是由维度为n的n×n矩阵,变为(n-1)×(n-1)的矩阵,类比上一可选实施例中求取术语空间的密度TSD的计算公式,求得抽离目标术语Ti后的术语空间密度为TSDTi,则通过公式:
求得术语空间的平均密度差TSDAVG,再通过公式:
求得上述密度变化率TDCTi。
可选的,对目标事件单文本进行标记处理,包括:
对目标事件单文本进行字符识别,并基于识别结果,对构成目标事件单文本的各句添加句起止标记,并根据专有术语权重值对应关系表中的专有术语名称,对目标事件单文本中的各专有术语添加专有术语标记。
可选的,在本发明的一个可选实施例中,上述对目标事件单文本进行字符识别,并基于识别结果,对构成目标事件单文本的各句添加句起止标记的实现方式,可以是通过识别目标事件单文本中的“,”、“。”、“;”等符号进行字符识别,并在相应位置添加上述句起止标记。
可选的,在本发明的另一个可选实施例中,上述根据专有术语权重值对应关系表中的专有术语名称,对目标事件单文本中的各专有术语添加专有术语标记的具体实现方式,可以通过进行字符比对,从目标事件单文本中查找与专有术语名称对应的字符,并对其添加专有术语标记。可选的,预设短文本识别模型的训练过程,包括:
获得初始样本数据集,初始样本数据集包括:目标系统的历史样本事件单文本和各历史样本事件单文本各自对应的样本向量组,样本向量组中包括历史样本事件单文本对应的样本句向量和样本专有术语向量;
对各历史样本事件单文本进行标记处理,获得多个历史样本事件单句子对;
将各历史样本事件单句子对输入至初始短文本识别模型中,并基于各历史样本事件单文本各自对应的样本向量组对初始短文本识别模型进行调参操作,获得预设短文本识别模型,预设短文本识别模型的输入为事件单句子对,输出为与事件单句子对对应的句向量和各专有术语向量。
与上述方法实施例相对应地,本发明还提供了一种银行事件单的分类系统,如图2所示,该银行事件单的分类系统包括:
标记处理模块201,用于对目标事件单文本进行标记处理,获得携带有多个类型的特征提取标记的事件单句子对,特征提取标记的类型至少包括专有术语标记和句起止标记;
特征提取模块202,用于将事件单句子对输入预设短文本识别模型中,以使预设短文本识别模型基于特征提取标记对事件单句子对进行特征向量编码,输出句向量和各专有术语向量;
权重赋值模块203,用于基于专有术语权重值对应关系表中的专有术语对应的权重值,对各专有术语向量进行权重赋值,并将经过权重赋值的各专有术语向量与句向量进行拼接,获得目标事件单文本的文本特征向量,其中,专有术语权重值对应关系表中包括目标系统的各专有术语及其各自对应的权重值;
分类模块204,用于基于文本特征向量确定目标事件单文本的所属系统类别。
可选的,上述权重赋值模块203还包括权重生成单元,权重生成单元在专有术语对应的权重值的生成过程中被设置为:
获得事件单样本组,事件单样本组包括目标系统的多个历史事件单文本;
从事件单样本组中提取各专有术语,构建专有术语组;
基于事件单样本组和专有术语组,构建文本×术语矩阵,并对文本×术语矩阵进行转置,获得术语×文本矩阵,求得术语×文本矩阵中各文本向量之间的余弦相似度,并基于术语×文本矩阵和各余弦相似度构建术语空间;
分别计算术语空间中各专有术语到术语空间的中心的相似度,并将相似度的均值确定为术语空间的密度;
以每次抽离一个专有术语的方式,从术语空间中多次抽离专有术语,在每次抽离一个专有术语后,确定本次抽离专有术语后的术语空间的密度变化率,并将密度变化率确定为本次抽离的目标术语对应的权重值。
可选的,上述标记处理模块201对目标事件单文本进行标记处理时被设置为:
对目标事件单文本进行字符识别,并基于识别结果,对构成目标事件单文本的各句添加句起止标记,并根据专有术语权重值对应关系表中的专有术语名称,对目标事件单文本中的各专有术语添加专有术语标记。
可选的,上述特征提取模块202还包括模型训练单元,模型训练单元在预设短文本识别模型的训练过程中被设置为:
获得初始样本数据集,初始样本数据集包括:目标系统的历史样本事件单文本和各历史样本事件单文本各自对应的样本向量组,样本向量组中包括历史样本事件单文本对应的样本句向量和样本专有术语向量;
对各历史样本事件单文本进行标记处理,获得多个历史样本事件单句子对;
将各历史样本事件单句子对输入至初始短文本识别模型中,并基于各历史样本事件单文本各自对应的样本向量组对初始短文本识别模型进行调参操作,获得预设短文本识别模型,预设短文本识别模型的输入为事件单句子对,输出为与事件单句子对对应的句向量和各专有术语向量。
本发明实施例还提供了一种银行事件单的分类设备,如图3所示,该银行事件单的分类设备包括:
处理器301;
用于存储处理器301可执行指令的存储器302;
其中,处理器301被配置为执行指令,以实现如上述任一种的银行事件单的分类方法。
本发明实施例还提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由银行事件单的分类设备的处理器执行时,使得银行事件单的分类设备能够执行如上述任一种的银行事件单的分类方法。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种银行事件单的分类方法,其特征在于,所述方法包括:
对目标事件单文本进行标记处理,获得携带有多个类型的特征提取标记的事件单句子对,所述特征提取标记的所述类型至少包括专有术语标记和句起止标记;
将所述事件单句子对输入预设短文本识别模型中,以使所述预设短文本识别模型基于所述特征提取标记对所述事件单句子对进行特征编码,输出句向量和各专有术语向量;
基于专有术语权重值对应关系表中的专有术语对应的权重值,对各所述专有术语向量进行权重赋值,并将经过所述权重赋值的各所述专有术语向量与所述句向量进行拼接,获得目标事件单文本的文本特征向量,其中,所述专有术语权重值对应关系表中包括目标系统的各专有术语及其各自对应的权重值;
基于所述文本特征向量确定所述目标事件单文本的所属系统类别。
2.根据权利要求1所述的方法,其特征在于,所述专有术语对应的权重值的生成过程,包括:
获得事件单样本组,所述事件单样本组包括所述目标系统的多个历史事件单文本;
从所述事件单样本组中提取各所述专有术语,构建专有术语组;
基于所述事件单样本组和所述专有术语组,构建文本×术语矩阵,并对所述文本×术语矩阵进行转置,获得术语×文本矩阵,求得所述术语×文本矩阵中各文本向量之间的余弦相似度,并基于所述术语×文本矩阵和各所述余弦相似度构建术语空间;
分别计算所述术语空间中各所述专有术语到所述术语空间的中心的相似度,并将所述相似度的均值确定为所述术语空间的密度;
以每次抽离一个所述专有术语的方式,从所述术语空间中多次抽离所述专有术语,在每次抽离一个所述专有术语后,确定本次抽离所述专有术语后的所述术语空间的密度变化率,并将所述密度变化率确定为本次抽离的目标术语对应的权重值。
3.根据权利要求1所述的方法,其特征在于,所述对目标事件单文本进行标记处理,包括:
对所述目标事件单文本进行字符识别,并基于识别结果,对构成所述目标事件单文本的各句添加所述句起止标记,并根据所述专有术语权重值对应关系表中的所述专有术语名称,对所述目标事件单文本中的各所述专有术语添加所述专有术语标记。
4.根据权利要求1所述的方法,其特征在于,所述预设短文本识别模型的训练过程,包括:
获得初始样本数据集,所述初始样本数据集包括:所述目标系统的历史样本事件单文本和各所述历史样本事件单文本各自对应的样本向量组,所述样本向量组中包括所述历史样本事件单文本对应的样本句向量和样本专有术语向量;
对各所述历史样本事件单文本进行所述标记处理,获得多个历史样本事件单句子对;
将各所述历史样本事件单句子对输入至初始短文本识别模型中,并基于各所述历史样本事件单文本各自对应的样本向量组对所述初始短文本识别模型进行调参操作,获得所述预设短文本识别模型,所述预设短文本识别模型的输入为事件单句子对,输出为与所述事件单句子对对应的句向量和各专有术语向量。
5.一种银行事件单的分类系统,其特征在于,所述系统包括:
标记处理模块,用于对目标事件单文本进行标记处理,获得携带有多个类型的特征提取标记的事件单句子对,所述特征提取标记的所述类型至少包括专有术语标记和句起止标记;
特征提取模块,用于将所述事件单句子对输入预设短文本识别模型中,以使所述预设短文本识别模型基于所述特征提取标记对所述事件单句子对进行特征编码,输出句向量和各专有术语向量;
权重赋值模块,用于基于专有术语权重值对应关系表中的专有术语对应的权重值,对各所述专有术语向量进行权重赋值,并将经过所述权重赋值的各所述专有术语向量与所述句向量进行拼接,获得目标事件单文本的文本特征向量,其中,所述专有术语权重值对应关系表中包括目标系统的各专有术语及其各自对应的权重值;
分类模块,用于基于所述文本特征向量确定所述目标事件单文本的所属系统类别。
6.根据权利要求5所述的系统,其特征在于,所述权重赋值模块还包括权重生成单元,所述权重生成单元在所述专有术语对应的权重值的生成过程中被设置为:
获得事件单样本组,所述事件单样本组包括所述目标系统的多个历史事件单文本;
从所述事件单样本组中提取各所述专有术语,构建专有术语组;
基于所述事件单样本组和所述专有术语组,构建文本×术语矩阵,并对所述文本×术语矩阵进行转置,获得术语×文本矩阵,求得所述术语×文本矩阵中各文本向量之间的余弦相似度,并基于所述术语×文本矩阵和各所述余弦相似度构建术语空间;
分别计算所述术语空间中各所述专有术语到所述术语空间的中心的相似度,并将所述相似度的均值确定为所述术语空间的密度;
以每次抽离一个所述专有术语的方式,从所述术语空间中多次抽离所述专有术语,在每次抽离一个所述专有术语后,确定本次抽离所述专有术语后的所述术语空间的密度变化率,并将所述密度变化率确定为本次抽离的目标术语对应的权重值。
7.根据权利要求5所述的系统,其特征在于,所述标记处理模块对所述目标事件单文本进行标记处理时被设置为:
对所述目标事件单文本进行字符识别,并基于识别结果,对构成所述目标事件单文本的各句添加所述句起止标记,并根据所述专有术语权重值对应关系表中的所述专有术语名称,对所述目标事件单文本中的各所述专有术语添加所述专有术语标记。
8.根据权利要求5所述的系统,其特征在于,所述特征提取模块还包括模型训练单元,所述模型训练单元在所述预设短文本识别模型的训练过程中被设置为:
获得初始样本数据集,所述初始样本数据集包括:所述目标系统的历史样本事件单文本和各所述历史样本事件单文本各自对应的样本向量组,所述样本向量组中包括所述历史样本事件单文本对应的样本句向量和样本专有术语向量;
对各所述历史样本事件单文本进行所述标记处理,获得多个历史样本事件单句子对;
将各所述历史样本事件单句子对输入至初始短文本识别模型中,并基于各所述历史样本事件单文本各自对应的样本向量组对所述初始短文本识别模型进行调参操作,获得所述预设短文本识别模型,所述预设短文本识别模型的输入为事件单句子对,输出为与所述事件单句子对对应的句向量和各专有术语向量。
9.一种银行事件单的分类设备,其特征在于,所述设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的银行事件单的分类方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由银行事件单的分类设备的处理器执行时,使得所述银行事件单的分类设备能够执行如权利要求1至4中任一项所述的银行事件单的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311649318.8A CN117609503A (zh) | 2023-12-04 | 2023-12-04 | 一种银行事件单的分类方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311649318.8A CN117609503A (zh) | 2023-12-04 | 2023-12-04 | 一种银行事件单的分类方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117609503A true CN117609503A (zh) | 2024-02-27 |
Family
ID=89959526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311649318.8A Pending CN117609503A (zh) | 2023-12-04 | 2023-12-04 | 一种银行事件单的分类方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609503A (zh) |
-
2023
- 2023-12-04 CN CN202311649318.8A patent/CN117609503A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160017B (zh) | 关键词抽取方法、话术评分方法以及话术推荐方法 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN109145294B (zh) | 文本实体识别方法及装置、电子设备、存储介质 | |
CN109978060B (zh) | 一种自然语言要素抽取模型的训练方法及装置 | |
CN111738016A (zh) | 多意图识别方法及相关设备 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN112395412B (zh) | 文本分类的方法、装置以及计算机可读介质 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN112487827A (zh) | 问题回答方法及电子设备、存储装置 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN113255328A (zh) | 语言模型的训练方法及应用方法 | |
CN116306679A (zh) | 一种基于语义可配置的多模态智能客服对话的方法和系统 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113627194A (zh) | 信息抽取方法及装置、通信消息分类方法及装置 | |
CN116522905B (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
CN113342935A (zh) | 语义识别方法、装置、电子设备及可读存储介质 | |
CN116089586B (zh) | 基于文本的问题生成方法及问题生成模型的训练方法 | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN116127316A (zh) | 模型的训练方法、文本摘要生成方法及相关设备 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN116151236A (zh) | 文本处理模型的训练方法、文本处理方法及相关设备 | |
CN113723111B (zh) | 一种小样本意图识别方法、装置、设备及存储介质 | |
CN112528679B (zh) | 一种意图理解模型训练方法及装置、意图理解方法及装置 | |
CN115408523A (zh) | 基于摘要提取和关键字提取的中长文本分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |