CN115033699A - 基金用户分类方法及装置 - Google Patents

基金用户分类方法及装置 Download PDF

Info

Publication number
CN115033699A
CN115033699A CN202210794140.5A CN202210794140A CN115033699A CN 115033699 A CN115033699 A CN 115033699A CN 202210794140 A CN202210794140 A CN 202210794140A CN 115033699 A CN115033699 A CN 115033699A
Authority
CN
China
Prior art keywords
word
sequence
sequences
filled
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210794140.5A
Other languages
English (en)
Inventor
薛永刚
汪东野
许侠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ccb Fund Management Co ltd
Original Assignee
Ccb Fund Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ccb Fund Management Co ltd filed Critical Ccb Fund Management Co ltd
Priority to CN202210794140.5A priority Critical patent/CN115033699A/zh
Publication of CN115033699A publication Critical patent/CN115033699A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基金用户分类方法及装置,本申请在对待分类基金用户的文本信息进行分词处理得到的词序列的首和尾分别添加预设长度的填充序列,并抽取填充后序列的语义特征,再将得到的词嵌入矩阵输入到训练后的分类模型,由分类模型进行卷积运算得到的特征信息最终确定待分类基金用户的分类结果,其中,分类模型是以标注有类别标签的训练文本训练得到的。通过在词序列的首和尾添加填充序列,扩大了分类模型的卷积搜索空间,由于文本边界信息不再位于搜索空间的边缘,故而分类模型在进行特征信息提取时,可以提取到更多的边界特征信息,实现了对文本边界信息的针对性处理,获得了更强的文本边界特征,进而提高了分类结果的准确性。

Description

基金用户分类方法及装置
技术领域
本申请涉及基金用户分类处理技术领域,更具体的说,是涉及一种基金用户分类方法及装置。
背景技术
随着科技的进步,人们的工作、生活都已经进入数据化时代,各种各样的应用在运行时需要获取数据,同时也会产生数据。数据的种类繁多,有时候为了提高工作效率,需要将数据进行分类。以基金公司为例,基金用户新注册的机构用户,由于多个监管部门的合规要求,以及为了提高基金用户信息管理的效率,需要对每个基金用户标注多种类别的标签,示例如需要确定基金用户的客户类型、资金来源类型、公募来源投向类型等,也即需要根据基金用户的类型对基金用户进行分类。
现有的分类方法中,存在着由模型根据待分类基金用户的性质信息按照一定的分类标准进行分类的方法,该方法虽能实现高效率分类,但是分类结果的准确性较差。
发明内容
鉴于上述问题,本申请提供了一种基金用户分类方法及装置,以解决现有分类方法的分类结果准确性差的问题。具体方案如下:
第一方面,提供了一种基金用户分类方法,包括:
获取待分类基金用户的文本信息,所述文本信息包含有所述基金用户的属性信息;
对所述文本信息进行分词处理,得到词序列;
在所述词序列的首和尾分别添加预设长度的填充序列,得到填充后序列;
对所述填充后序列进行语义特征抽取,得到词嵌入矩阵;
将所述词嵌入矩阵输入到训练后的分类模型,以供所述分类模型对所述词嵌入矩阵进行卷积运算,得到特征信息,并根据所述特征信息预测所述待分类基金用户的分类结果,其中,所述分类模型是以标注有类别标签的训练文本训练得到的。
第二方面,提供了一种基金用户分类装置,包括:
文本信息获取单元,用于获取待分类基金用户的文本信息,所述文本信息包含有所述基金用户的属性信息;
词序列获取单元,用于对所述文本信息进行分词处理,得到词序列;
填充后序列获取单元,用于在所述词序列的首和尾分别添加预设长度的填充序列,得到填充后序列;
语义特征抽取单元,用于对所述填充后序列进行语义特征抽取,得到词嵌入矩阵;
分类结果确定单元,用于将所述词嵌入矩阵输入到训练后的分类模型,以供所述分类模型对所述词嵌入矩阵进行卷积运算,得到特征信息,并根据所述特征信息预测所述待分类基金用户的分类结果,其中,所述分类模型是以标注有类别标签的训练文本训练得到的。
借由上述技术方案,本申请对待分类基金用户的文本信息进行分词处理,得到词序列,并在词序列的首和尾分别添加预设长度的填充序列,得到填充后序列,对填充后序列进行语义特征抽取,得到词嵌入矩阵,将词嵌入矩阵输入到训练后的分类模型,由分类模型对词嵌入矩阵进行卷积运算,得到特征信息,并根据特征信息确定待分类基金用户的分类结果,其中,分类模型是以标注有类别标签的训练文本训练得到的。由于在文本信息的分词处理结果的首和尾添加了填充序列,扩大了分类模型进行卷积运算时的搜索空间,使得文本的边界信息不再位于搜索空间的边缘处,故而分类模型在通过卷积运算进行特征信息提取时,可以提取到更多的边界特征信息,实现了对文本边界信息的针对性处理,获得了更强的文本边界特征,进而提高了分类结果的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据一示例性实施例示出的一种基金用户分类方法流程示意图;
图2是根据一示例性实施例示出的一种获得词嵌入矩阵的过程示意图;
图3是根据一示例性实施例示出的一种进行卷积运算的过程示意图;
图4是根据一示例性实施例示出的一种确定分类结果的过程示意图;
图5是根据另一示例性实施例示出的一种基金用户分类方法流程示意图;
图6是根据另一示例性实施例示出的一种进行卷积运算的过程示意图;
图7是根据另一示例性实施例示出的一种基金用户分类方法流程示意图;
图8是根据一示例性实施例示出的一种基金用户分类装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种基金用户分类方案,能够完成基金用户分类任务,该任务可以是根据待分类的基金用户的属性信息确定该基极用户的分类结果的任务,其中,分类结果可以是一个或多个类型的类别标签,需要说明的是,各类型的标签之间没有直接关系,对应着不同的分类标准。示例如,可以依据基金用户的属性信息,确定基金用户的客户类型、内部交易类型、资金来源类型、公募来源投向类型、重要性类型等等。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
图1是根据一示例性实施例示出的一种基金用户分类方法的流程图,如图1所示,一种基金用户分类方法,可以包括如下步骤:
步骤S101、获取待分类基金用户的文本信息。
其中,待分类基金用户是需要进行分类的对象。待分类基金用户具备一定的属性信息,用于表征该基金用户的性质特征,这些属性信息可以用文本信息的形式表示出来,是对该基金用户进行分类的依据;文本信息,可以表示为一个句子或多个句子的组合,可以是由人工输入的可供获取的文本信息。
步骤S102、对所述文本信息进行分词处理,得到词序列。
具体的,分词可以是将文本信息按照一定的规则分割成一个个单元,其中,一个单元可以是一个词语,也可以是一个标点符号;各单元对应着组成词序列的各元素,将各单元按照其在文本信息中的先后顺序进行排列,即可得到所述词序列。以文本信息是“建信基金建行分行资产管理计划”为例,图2示出了一种可能的分词过程示意图。
可选的,在对所述文本信息进行分词处理后,还可以包括:对由分词处理得到的词序列进行去停用词处理,得到最终的词序列,其中,所述停用词可以是标点等对分类不具备实际意义的词。通过进行去停用词处理,可以过滤掉词序列中的无意义内容,减少了用于分类的信息量,降低了资源消耗。
步骤S103、在所述词序列的首和尾分别添加预设长度的填充序列,得到填充后序列。
其中,填充序列是预设的特定内容的序列,对填充序列进行语义特征抽取,可以得到对应的特定内容;填充后序列的组成,按照先后顺序可以包括,填充序列、词序列和填充序列。以词序列是由“建信基金建行分行资产管理计划”进行分词处理得到的为例,图2示出一种可能的填充后序列的组成示意图。
步骤S104、对所述填充后序列进行语义特征抽取,得到词嵌入矩阵。
具体的,对所述填充后序列进行语义特征抽取,得到词嵌入矩阵的过程,可以包括:逐一对组成填充后序列的各元素进行语义特征抽取,得到与该元素对应的语义特征抽取结果,该结果可以用词向量的形式来表示,将各词向量按照对应的元素在填充后序列中的先后顺序进行排列,得到词嵌入矩阵。
示例性的,以文本信息是“建信基金建行分行资产管理计划”为例,图2示出了一种可能的词嵌入矩阵的组成示意图,如图2所示,在填充后序列的长度为15,即填充后序列中包括15个元素,生成的词向量维度为5的情况下,得到的词嵌入矩阵为大小为15×5,其中,每一行对应着一个词向量。
其中,进行语义特征抽取的方式可以是利用神经网络模型word2vec进行语义特征抽取,word2vec能够把自然语言中一个词表示成一个统一维度的词向量,由word2vec生成的词向量可以较好的表达不同词之间的相似和类比关系。此外,还可以采用词袋模型(bagof words)、主题特征模型(topic model)、或词嵌入(word embedding)等方式中的任意一种进行语义特征抽取。
步骤S105、将所述词嵌入矩阵输入到训练后的分类模型,确定所述待分类基金用户的分类结果。
具体的,将词嵌入矩阵输入到训练后的分类模型后,由分类模型对词嵌入矩阵进行卷积运算,得到特征信息,并根据得到的特征信息预测待分类基金用户的分类结果。图3是根据一示例性实施例示出的一种可能的进行卷积运算的过程示意图,以待分类基金用户的文本信息为“建信基金建行分行资产管理计划”为例,对上述文本信息执行步骤S102-S103得到填充后序列,其中,所使用的填充序列的长度为4,由尺寸为5的卷积核(如图3中的方框所示)对与填充后序列对应的词嵌入矩阵,按照卷积步长为1,自填充后序列的首端向尾端进行卷积,结合图3所示,该卷积核可以提取到4个包含有部分填充序列和词序列首端“建信”的左边界特征信息、3个只包含有词序列的内部特征信息和4个包含有部分填充序列和词序列尾端“计划”的右边界特征信息,通过为词序列添加填充序列,扩大了卷积搜索空间,提取到了更多的边界特征信息,从而提高了分类结果的准确性。需要说明的是,分类模型进行卷积运算的对象是词嵌入矩阵,而词嵌入矩阵是由词序列进行语义特征抽取得到的,两者间存在着对应关系,故而可以使用词序列作为词嵌入矩阵的简化表示,也就是说,图3中的一个词实际上是一个词向量。
所述分类模型是以标注有类别标签的训练文本训练得到的。具体的,可以采用n-ford交叉验证模式对分类模型进行训练。示例性的,训练数据集包括训练文本和对应的类别标签,在训练该分类模型时候,可以将训练数据集随机分成n份,轮流将其中的1份作为验证集,而其余几份数据集作为训练集,来进行训练和优化模型参数,从而得到训练后的分类模型。
上述的方案,示例性的给出了一种基于卷积神经网络的分类模型,此外,分类模型还可以采用其他的机器学习模型,例如:支持向量机、决策树、最邻近节点算法、随机森林、梯度提升决策树、多层感知器、深度神经网络、循环神经网络等模型。
本申请实施例提供的基金用户分类方法,对待分类基金用户的文本信息进行分词处理,得到词序列,并在词序列的首和尾分别添加预设长度的填充序列,得到填充后序列,对填充后序列进行语义特征抽取,得到词嵌入矩阵,将词嵌入矩阵输入到训练后的分类模型,由分类模型对词嵌入矩阵进行卷积运算,得到特征信息,并根据特征信息确定待分类基金用户的分类结果,其中,分类模型是以标注有类别标签的训练文本训练得到的。由于在文本信息的分词处理结果的首和尾添加了填充序列,扩大了分类模型进行卷积运算时的搜索空间,使得文本的边界信息不再位于搜索空间的边缘处,故而分类模型在通过卷积运算进行特征信息提取时,可以提取到更多的边界特征信息,实现了对文本边界信息的针对性处理,获得了更强的文本边界特征,进而提高了分类结果的准确性。
在本申请提供的一些实施例中,所述填充序列可以是空序列,其中,空序列是不包含任何元素的序列,在此基础上,对组成该填充序列的一个元素进行语义特征抽取,可以得到预设维度的零向量,也就是说,对预设长度的填充序列进行语义特征抽取,可以得到一个行数为预设长度,列数为预设维度的零矩阵。
在本申请提供的一些实施例中,所述分类模型包含有卷积层,为了提取到丰富的各词语间多元关系的特征信息,所述卷积层可以包含有多个卷积核,其中,卷积核可以有多个不同的尺寸,并且每个尺寸的卷积核也可以有多个,比如可以设置卷积核的尺寸为2、3、4和5,以便可以提取到表征词语之间的二元、三元、四元和五元的多元关系的特征信息。
需要说明的是,下述的宽度与高度只是为了便于阐述进行的示例性定义。具体的,卷积核的宽度可以是词向量的维度,在此基础上,卷积核的尺寸差异是体现在卷积核的高度差异上的。原因在于,卷积核进行卷积的对象是由词向量组成的词嵌入矩阵,而词向量是表征一个词语的语义特征的最小单元,出于获取一个词语完整且有用的语义特征信息的考虑,可以设置卷积核的宽度为词向量的维度,较小则无法获取完整的语义特征信息,较大则获取了无用的信息,浪费了资源,故而卷积核的宽度是固定的,且等于词向量的维度。在上述的基础上,卷积核的高度是和卷积核的移动方向对应的,也就是说,卷积核的高度和词嵌入矩阵中的与各词语对应的词向量的排列方向对应的。示例性的,若词嵌入矩阵中的一行对应着一个词向量,即各词向量在词嵌入矩阵中是纵向排列的,则卷积核在纵向上移动,卷积核在纵向上的长度被看作是卷积核的高度。
在一种可能的实现方式中,所述预设长度可以是各所述卷积核中的最大尺寸减1,所述最大尺寸不小于2。示例性的,若卷积核的尺寸为2、3、4和5,则预设长度为4。
根据上述的规则设置预设长度,既扩大了卷积搜索空间,使得可以进行有效的特征信息提取,尤其是边界特征信息的提取,又降低了进行分类时占用的资源。若预设长度较长,则会提取到无用的特征信息,即只包含填充序列而不包含词序列中的元素的特征信息,占用了较多的存储和计算资源,造成了资源浪费;若预设长度较小,则对文本信息边界处的元素的利用不够充分,具体可能表现为,在利用文本信息的边界元素进行了少次卷积,而利用文本信息的中间元素进行了多次卷积,无法提取到充分的边界特征信息。
图4是根据一示例性实施例示出的一种确定分类结果的过程示意图,示出了一种可能的词嵌入矩阵的组成,和分类模型对该词嵌入矩阵进行处理确定分类结果的过程示意图。如图4所示,分类模型的卷积核尺寸可以是2,3,4和5,则填充序列可以是长度为4的空序列,分类模型对该词嵌入矩阵进行卷积运算,提取到特征信息,对特征信息进行处理,如分别对由相同尺寸的卷积核得到的特征信息使用池化函数,得到对应的池化结果,拼接各池化结果得到最终的特征向量表示,由全连接层得到属于各类别的概率,从而确定最终的类别标签。
在本申请提供的实施例中,所述分类模型包含有输入层,为了解决不同待分类基金用户的文本信息的长度存在差异的问题,对所述输入层的长度进行设置,所述输入层的长度可以是预设的固定长度。虽然输入到分类模型的输入层的是词嵌入矩阵,但是词嵌入矩阵的长度是和待分类基金用户的文本信息长度相关联的(假设是词嵌入矩阵的宽度和词向量的维度一致),具体表现为:文本信息越长,进行分词得到的词序列越长,相应的,填充后序列的长度和对应的词嵌入矩阵的长度也越大。
在上述的基础上,在步骤S104、对所述填充后序列进行语义特征抽取之前,还可以包括:
修正所述填充后序列的长度使其匹配所述输入层的长度,得到修正的填充后序列。
在一种可能的实现方式中,所述修正所述填充后序列的长度使其匹配所述输入层的长度的过程,可以包括:
若所述填充后序列的长度大于输入层的长度,则自所述填充后序列的首端开始,截取长度为所述输入层的长度的序列,将截取到的序列作为修正的填充系列;
若所述填充后序列的长度小于输入层的长度,则在所述填充后序列的尾端添加长度为所述输入层的长度和所述填充后序列的长度的差值的填充序列。
在上述的基础上,步骤S104、对所述填充后序列进行语义特征抽取,可以包括:
对所述修正的填充后序列进行语义特征抽取。
设置分类模型的输入层的长度为固定值的原因在于,分类模型需要用到全连接层,来确定待分类基金用户属于各个类别标签的概率,如果输入层的长度不固定,则全连接层的权值参数的数量也是不固定的,就会造成网络的动态变化,无法实现参数训练的目的。
在设置分类模型的输入层的长度时,可以主要考虑训练文本的长度,使得在训练模型时,可以利用到大部分的训练文本,获得较为准确的模型参数。因此,通过对分类模型的输入层的长度进行合理设置,可以减少不必要的资源消耗,训练获得更准确的分类模型,提高分类模型进行分类预测时的精度。
图5是根据一示例性实施例示出的另一种基金用户分类方法的流程图,如图5所示,一种基金用户分类方法,可以包括如下步骤:
步骤S201、获取待分类基金用户的文本信息。
其中,所述文本信息包括不同类型的多条文本信息,各条文本信息均是由人工输入的用于分类的文本信息,每条文本信息对应基金用户的一种属性信息。示例性的,所述文本信息,可以包括:抚州市某电力物资有限公司;数据来源于“市场营销”部门;公司类型是“非金融企业”类型;母公司类型是“国有企业”类型等。上述的文本信息指向了不同的类型,丰富了用于分类的文本信息。
步骤S202、分别对各条文本信息进行分词处理,得到对应的词序列。
其中,对每一条文本信息进行分词处理,得到对应的词序列的过程与上述的步骤S102一致,在此不再赘述。
步骤S203、拼接各词序列,在拼接后的词序列的首、尾和各相邻两个词序列之间分别添加预设长度的填充序列,得到填充后序列。
步骤S204-S205与上述的步骤S104-S105一致,在此不再赘述。
图6是根据另一示例性实施例示出的一种进行卷积运算的过程示意图,其中,待分类基金用户的文本信息有两条,分别为“建信基金建行分行资产管理计划”和“网络金融”,图6示出了对上述文本信息执行步骤S202-S203得到的填充后序列,该填充后序列由两个对应的词序列和三个长度为4的填充序列组成,填充序列分布在两个对应的词序列之间以及由两个词序列拼接得到的词序列的首和尾,并由尺寸为5的卷积核,按照图中箭头的指向,对与该填充后序列对应的词嵌入矩阵进行卷积运算,具体的卷积运算过程与前文所述一致,在此不再赘述。需要说明的是,分类模型进行卷积运算的对象是由该填充后序列进行语义特征抽取得到的词嵌入矩阵,图6只是根据填充后序列和词嵌入矩阵间的对应关系给出的该过程的简化示意图。
上述的实施例,为文本信息类型多样的情况,提供了一种可能的文本信息融合的方式,通过拼接与不同类型的文本信息对应的各词序列,并在拼接后的词序列的首、尾和各相邻两个词序列之间分别添加预设长度的填充序列,既实现了不同类型的文本信息的融合,又实现了不同类型的文本信息的分隔,将包含有各类型的文本信息的填充后序列作为分类模型做卷积运算的依据,充分利用了不同类型的文本信息,并且,在上述的填充序列的长度设置合理的情况下,可以实现对不同类型的文本信息的有效分隔。示例性的,若设置填充序列的长度至少是分类模型的最大卷积核的尺寸减一,则由卷积运算提取到的各特征信息均只与一条文本信息相对应,而不会提取到包含相邻文本信息中前一文本信息的尾端和后一文本信息的首端的特征信息,从而实现不同类型的文本信息的分隔。
图7是根据一示例性实施例示出的另一种基金用户分类方法的流程图,如图7所示,一种基金用户分类方法,可以包括如下步骤:
步骤S301-S302与上述的步骤S201-S202一致,在此不再赘述。
步骤S303、对每一词序列,在该词序列的首和尾分别添加预设长度的填充序列,得到该词序列对应的填充后序列。
步骤S304、融合各词序列对应的填充后序列,得到最终的填充后序列。
在一种可能的实现方式中,所述融合各词序列对应的填充后序列,可以包括:
拼接各词序列对应的填充后序列,并调整各相邻两个词序列之间的填充序列的长度为预设长度。
步骤S305-S306与上述的步骤S204-S205一致,在此不再赘述。
上述的实施例,为文本信息类型多样的情况,提供了另一种可能的文本信息融合的方式,通过在与不同类型的文本信息对应的各词序列的首和尾添加一定长度的填充序列,将与各词序列对应的各填充后序列进行融合,得到最终的填充后序列,并将其作为后续语义特征抽取的对象,实现了对不同类型的文本信息的利用。
本申请实施例提供的适用于文本信息类型多样的情况的基金用户分类方法,在保证对文本边界信息的充分利用的基础上,使用了不同类型的多条文本信息进行分类,相应的,分类模型在以标注有类别标签的训练文本进行训练时,所使用的训练文本中也包含有不同类型的多条文本信息,并且,分类模型的输入层的长度也随之增加,故而训练后的分类模型可以应对文本信息是不同类型的多条文本信息的情况,为新增用于分类的附加文本信息提供了可能,而无需新增网络节点,避免了网络结构复杂度的上升。
本申请实施例提供的基金用户分类方法,可以适用于解决基金用户分类任务,该任务可以是确定待分类基金用户的一个类别标签,也可以是确定待分类基金用户的多个不同类型的类别标签,且各类型的类别标签间没有直接关系,也就是说一个待分类基金用户的多个类别标签分别对应着不同的分类标准。为完成待分类基金用户的多类别标签分类任务,可以将由基金用户分类方法得到的词嵌入矩阵分别输入到多个分类模型中,每个分类模型分别输出一个分类结果,即类别标签。需要说明的是,分类模型是与分类标准一一对应的,且每个分类模型分别是用标注有与该分类标准对应的类别标签的训练文本训练得到的。
本申请实施例提供的基金用户分类方法,可以应用在基金公司,以完成根据基金用户的属性信息对基金用户进行分类,确定其类别标签的任务,其中,待分类基金用户的文本信息可以是基金用户的属性信息,比如基金用户的名称等。
下面对本申请实施例提供的基金用户分类装置进行描述,下文描述的基金用户分类装置与上文描述的基金用户分类方法可相互对应参照。
参见图8,图8为本申请实施例公开的一种基金用户分类装置结构示意图。
如图8所示,该装置可以包括:
文本信息获取单元11,用于获取待分类基金用户的文本信息,所述文本信息包含有所述基金用户的属性信息;
词序列获取单元12,用于对所述文本信息进行分词处理,得到词序列;
填充后序列获取单元13,用于在所述词序列的首和尾分别添加预设长度的填充序列,得到填充后序列;
语义特征抽取单元14,用于对所述填充后序列进行语义特征抽取,得到词嵌入矩阵;
分类结果确定单元15,用于将所述词嵌入矩阵输入到训练后的分类模型,以供所述分类模型对所述词嵌入矩阵进行卷积运算,得到特征信息,并根据所述特征信息预测所述待分类基金用户的分类结果,其中,所述分类模型是以标注有类别标签的训练文本训练得到的。
在一种可能的实现方式中,所述词序列获取单元12对所述文本信息进行分词处理,得到词序列的过程,可以包括:
对所述文本信息进行分词处理,对由所述分词处理得到的词序列进行去停用词处理,得到最终的词序列,其中,所述停用词包含有标点符号。
在一种可能的实现方式中,所述文本信息获取单元11获取待分类基金用户的文本信息的过程,可以包括:
获取待分类基金用户的不同类型的多条文本信息,每条文本信息对应基金用户的一种属性信息;
所述词序列获取单元12对所述文本信息进行分词处理,得到词序列的过程,可以包括:
分别对各条文本信息进行分词处理,得到对应的词序列;
所述填充后序列获取单元13在所述词序列的首和尾分别添加预设长度的填充序列,得到填充后序列的过程,可以包括:
对每一词序列,在该词序列的首和尾分别添加预设长度的填充序列,得到该词序列对应的填充后序列;
融合各词序列对应的填充后序列,得到最终的填充后序列;
或,
拼接各词序列,在拼接后的词序列的首、尾和各相邻两个词序列之间分别添加预设长度的填充序列,得到填充后序列。
在一种可能的实现方式中,所述填充后序列获取单元13融合各词序列对应的填充后序列的过程,可以包括:
拼接各词序列对应的填充后序列,并调整各相邻两个词序列之间的填充序列的长度为预设长度。
在一种可能的实现方式中,所述填充序列为空序列。
在一种可能的实现方式中,所述分类模型包含有卷积层,所述卷积层包含有多个卷积核;
所述预设长度是各所述卷积核中的最大尺寸减1,所述最大尺寸不小于2。
在一种可能的实现方式中,所述分类模型包含有输入层,所述输入层的长度是预设的固定长度;
所述基金用户分类装置,还可以包括:
序列长度修正单元,用于修正所述填充后序列的长度使其匹配所述输入层的长度,得到修正的填充后序列;
所述语义特征抽取单元14对所述填充后序列进行语义特征抽取的过程,可以包括:
对所述修正的填充后序列进行语义特征抽取。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基金用户分类方法,其特征在于,包括:
获取待分类基金用户的文本信息,所述文本信息包含有所述基金用户的属性信息;
对所述文本信息进行分词处理,得到词序列;
在所述词序列的首和尾分别添加预设长度的填充序列,得到填充后序列;
对所述填充后序列进行语义特征抽取,得到词嵌入矩阵;
将所述词嵌入矩阵输入到训练后的分类模型,以供所述分类模型对所述词嵌入矩阵进行卷积运算,得到特征信息,并根据所述特征信息预测所述待分类基金用户的分类结果,其中,所述分类模型是以标注有类别标签的训练文本训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述文本信息包括不同类型的多条文本信息,每条文本信息对应基金用户的一种属性信息;
所述对所述文本信息进行分词处理,得到词序列,包括:
分别对各条文本信息进行分词处理,得到对应的词序列;
所述在所述词序列的首和尾分别添加预设长度的填充序列,得到填充后序列,包括:
对每一词序列,在该词序列的首和尾分别添加预设长度的填充序列,得到该词序列对应的填充后序列;
融合各词序列对应的填充后序列,得到最终的填充后序列;
或,
拼接各词序列,在拼接后的词序列的首、尾和各相邻两个词序列之间分别添加预设长度的填充序列,得到填充后序列。
3.根据权利要求2所述的方法,其特征在于,所述融合各词序列对应的填充后序列,包括:
拼接各词序列对应的填充后序列,并调整各相邻两个词序列之间的填充序列的长度为预设长度。
4.根据权利要求1所述的方法,其特征在于,所述填充序列为空序列。
5.根据权利要求1所述的方法,其特征在于,所述分类模型包含有卷积层,所述卷积层包含有多个卷积核;
所述预设长度是各所述卷积核中的最大尺寸减1,所述最大尺寸不小于2。
6.根据权利要求1所述的方法,其特征在于,所述分类模型包含有输入层,所述输入层的长度是预设的固定长度;
在对所述填充后序列进行语义特征抽取之前,还包括:
修正所述填充后序列的长度使其匹配所述输入层的长度,得到修正的填充后序列;
所述对所述填充后序列进行语义特征抽取,包括:
对所述修正的填充后序列进行语义特征抽取。
7.一种基金用户分类装置,其特征在于,包括:
文本信息获取单元,用于获取待分类基金用户的文本信息,所述文本信息包含有所述基金用户的属性信息;
词序列获取单元,用于对所述文本信息进行分词处理,得到词序列;
填充后序列获取单元,用于在所述词序列的首和尾分别添加预设长度的填充序列,得到填充后序列;
语义特征抽取单元,用于对所述填充后序列进行语义特征抽取,得到词嵌入矩阵;
分类结果确定单元,用于将所述词嵌入矩阵输入到训练后的分类模型,以供所述分类模型对所述词嵌入矩阵进行卷积运算,得到特征信息,并根据所述特征信息预测所述待分类基金用户的分类结果,其中,所述分类模型是以标注有类别标签的训练文本训练得到的。
8.根据权利要求7所述的装置,其特征在于,所述文本信息获取单元获取待分类基金用户的文本信息的过程,包括:
获取待分类基金用户的不同类型的多条文本信息,每条文本信息对应基金用户的一种属性信息;
所述词序列获取单元对所述文本信息进行分词处理,得到词序列的过程,包括:
分别对各条文本信息进行分词处理,得到对应的词序列;
所述填充后序列获取单元在所述词序列的首和尾分别添加预设长度的填充序列,得到填充后序列的过程,包括:
对每一词序列,在该词序列的首和尾分别添加预设长度的填充序列,得到该词序列对应的填充后序列;
融合各词序列对应的填充后序列,得到最终的填充后序列;
或,
拼接各词序列,在拼接后的词序列的首、尾和各相邻两个词序列之间分别添加预设长度的填充序列,得到填充后序列。
9.根据权利要求8所述的装置,其特征在于,所述填充后序列获取单元融合各词序列对应的填充后序列的过程,包括:
拼接各词序列对应的填充后序列,并调整各相邻两个词序列之间的填充序列的长度为预设长度。
10.根据权利要求7所述的装置,其特征在于,所述填充序列为空序列。
CN202210794140.5A 2022-07-07 2022-07-07 基金用户分类方法及装置 Pending CN115033699A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210794140.5A CN115033699A (zh) 2022-07-07 2022-07-07 基金用户分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210794140.5A CN115033699A (zh) 2022-07-07 2022-07-07 基金用户分类方法及装置

Publications (1)

Publication Number Publication Date
CN115033699A true CN115033699A (zh) 2022-09-09

Family

ID=83128790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210794140.5A Pending CN115033699A (zh) 2022-07-07 2022-07-07 基金用户分类方法及装置

Country Status (1)

Country Link
CN (1) CN115033699A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562251A (zh) * 2023-05-19 2023-08-08 中国矿业大学(北京) 一种面向证券信息披露长文档的表格分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562251A (zh) * 2023-05-19 2023-08-08 中国矿业大学(北京) 一种面向证券信息披露长文档的表格分类方法

Similar Documents

Publication Publication Date Title
US20140156571A1 (en) Topic models
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN105095195A (zh) 基于知识图谱的人机问答方法和系统
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN111222305A (zh) 一种信息结构化方法和装置
CN109271514B (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
EP3685243A1 (en) Content pattern based automatic document classification
CN112732899A (zh) 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN113961685A (zh) 信息抽取方法及装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN114090776A (zh) 文档解析方法、系统及装置
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN115033699A (zh) 基金用户分类方法及装置
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN112632948B (zh) 案件文书排序方法及相关设备
JP2019133565A (ja) ニュース素材分類装置、プログラム及び学習モデル
CN116226747A (zh) 数据分类模型的训练方法、数据分类方法和电子设备
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN114969253A (zh) 市场主体与政策的匹配方法、装置、计算设备及介质
CN113626605A (zh) 信息分类方法、装置、电子设备及可读存储介质
CN114064269A (zh) 一种地址匹配方法、装置及终端设备
CN113705201A (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN113590781A (zh) 末端快递编码预测方法、系统、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination