CN112256765A - 一种数据挖掘方法、系统及计算机可读存储介质 - Google Patents
一种数据挖掘方法、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112256765A CN112256765A CN202011186441.7A CN202011186441A CN112256765A CN 112256765 A CN112256765 A CN 112256765A CN 202011186441 A CN202011186441 A CN 202011186441A CN 112256765 A CN112256765 A CN 112256765A
- Authority
- CN
- China
- Prior art keywords
- source data
- vector
- data
- network
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 108
- 239000011159 matrix material Substances 0.000 claims description 53
- 238000005070 sampling Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 11
- 238000005065 mining Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5033—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering data affinity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据挖掘方法、系统及计算机可读存储介质。该数据挖掘方法包括:获取源数据;将源数据输入多任务学习网络的共享层,利用共享层的语义理解网络提取源数据的共性特征;将共性特征输入多任务学习网络的任务层,提取源数据的任务个性特征。通过上述方式,本发明能够节省计算资源,提高处理效率和通用性。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及数据挖掘方法、系统及计算机可读存储介质。
背景技术
随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。对数据进行治理挖掘,可以提供一些隐藏的价值。利用数据挖掘算法对数据进行挖掘,可以得到数据挖掘结果,而根据数据挖掘结果,就能做到分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化、复杂数据类型挖掘等后续处理。
现有的一些解决方案大多是基于规则性的探查,但是实际业务中存在前端数据记录不规划的现象,由于源数据的杂乱,基于规则性的探查常常会失效,因此缺少通用性和容错能力。
发明内容
本发明主要解决的技术问题是提供一种数据挖掘方法、系统及计算机可读存储介质,能够节省计算资源,提高处理效率和通用性。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种数据挖掘方法,该数据挖掘方法包括:获取源数据;将源数据输入多任务学习网络的共享层,利用共享层的语义理解网络提取源数据的共性特征;将共性特征及输入多任务学习网络的任务层,提取源数据的任务个性特征。
其中,语义理解网络为Bert网络,将源数据输入多任务学习网络的共享层,利用共享层的语义理解网络提取源数据的共性特征包括:利用Bert网络提取源数据共性特征的特征向量,得到共性特征的特征矩阵。
其中,利用Bert网络提取源数据共性特征的特征向量,得到共性特征的特征矩阵包括:提取源数据中每个词的字向量、及每个词所在句子中的位置向量;将字向量、文本向量和位置向量相加,得到向量矩阵;将向量矩阵输入transformer编码器,对所向量矩阵进行运算,得到特征矩阵。
其中,将向量矩阵输入transformer编码器,对向量矩阵进行运算,得到特征矩阵包括:将向量矩阵分别输入多个不同的自注意力层,分别对向量矩阵进行运算,得到多个不同语义空间下的语义向量;将多个语义向量进行线性组合,得到增强语义向量;将向量矩阵和增强语义向量进行残差连接,得到中间矩阵;将中间矩阵进行标准化和线性转化处理,得到特征矩阵。
其中,语义理解网络为FastText网络,将源数据输入多任务学习网络的共享层,利用共享层的语义理解网络提取源数据的共性特征包括:利用FastText网络提取源数据共性特征的特征向量,得到共性特征的特征矩阵。
其中,利用FastText网络提取源数据共性特征的特征向量,得到共性特征的特征矩阵包括:获取源数据字符级别的n-gram向量;将n-gram向量进行求和平均,得到特征矩阵。
其中,将源数据输入多任务学习网络的共享层,利用共享层的语义理解网络提取源数据的共性特征包括:将源数据以单文本或双文本的方式输入多任务学习网络的共享层,利用共享层的语义理解网络提取源数据的共性特征。
其中,获取源数据包括:直接对数据库中的数据进行采样,得到源数据;将源数据处理成匹配共享层网络的格式。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种数据挖掘系统,该数据挖掘系统用于搭载运行上述数据挖掘方法,具体地,数据挖掘系统包括处理器,处理器用于执行指令以实现上述的数据挖掘方法。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储上述数据挖掘方法的程序文件/数据,计算机可读存储介质用于存储指令/程序数据,指令/程序数据能够被执行以实现上述的数据挖掘方法。
本发明的有益效果是:区别于现有技术的情况,本发明对源数据进行处理,最大程度保留完整信息,使用多任务学习网络依次对数据进行目标任务的共性特征和个性特征的挖掘,在多任务学习网络共享层中结合语义理解模型,基于自然语言理解,打破传统基于规则性探查的局限性,共享计算资源,提高处理效率和通用性。
附图说明
图1是本申请实施方式的一数据挖掘方法的流程示意图;
图2是本申请实施方式的第一数据挖掘方法的流程示意图;
图3是本申请实施方式的第一数据挖掘系统的模型架构图;
图4是本申请实施方式的Bert网络的流程示意图;
图5是本申请实施方式的第二数据挖掘方法的流程示意图;
图6是本申请实施方式的第二数据挖掘系统的模型架构图;
图7是本申请实施方式中数据挖掘装置的结构示意图;
图8是本申请实施方式中数据挖掘系统的结构示意图;
图9是本申请实施方式中计算机可读存储介质的结构示意图。
具体实施方式
为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。
本申请提供一种数据挖掘方法,该方法可直接对源数据进行处理,能够最大程度保留完整信息,避免信息丢失造成探查不准确,提高数据挖掘的准确性;同时使用多任务学习网络对多个相似任务并发处理,在多任务学习网络共享层中结合语义理解模型,基于自然语言理解,打破传统基于规则性探查的局限性,共享计算资源,提高处理效率。本申请所提供的数据挖掘方法可应用于安防、公安、消防等业务的数据挖掘系统,当然不限于此,还可以应用于其他业务系统中。
请参阅图1,图1是本申请实施方式中一数据挖掘方法的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施方式包括:
S120:获取源数据。
其中,源数据的来源很多,如可以涉及物联网、互联网或数据库等,其中,数据库可以是各行业数据库、政府部门数据库、省市级数据库、部本级数据库等。同时源数据的数据格式和存储系统可以不同,如源数据的数据格式可以是结构化(如数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的)、半结构化(如同一类实体可以有不同的属性,该类实体没有顺序之分)和非结构化(如文本、音频、视频、图片数据等)。源数据的存储系统可以是网络文件系统、分布式文件系统、关系数据库、消息总线等。
S140:将源数据输入多任务学习网络的共享层,利用共享层的语义理解网络提取源数据的共性特征。
本实施方式中,采用多任务学习网络,当给定多个学习任务,其中所有或一部分任务是相关但并不完全一样,多任务学习的目标是通过使用这多个任务中包含的知识来帮助提升各个任务的性能,以提高处理效率。多任务学习网络分为输入层、共享层、任务层和输出层。在共享层采用语义理解模型,对输入的源数据文本的语义信息进行学习,学习得到目标任务源数据的共性特征。
S160:将共性特征输入多任务学习网络的任务层,提取源数据的任务个性特征。
多任务学习的任务层的目标是学习源数据的任务个性特征,也就是基于不同的任务指令,学习各任务指令对应的个性特征。在学习到多个任务的共性特征之后,在此基础上,更容易从中提取不同任务指令所需的个性特征,再对个性特征进行分类,得到各个目标任务的分类结果。
该实施方式中,通过对源数据进行处理,最大程度保留完整信息,避免信息丢失造成探查不准确,使用多任务学习网络对数据进行挖掘,将多个相似任务结合在一起,并发处理,在多任务学习网络共享层中结合语义理解模型,基于自然语言理解,打破传统基于规则性探查的局限性,共享计算资源,提高处理效率。
对于多任务学习网络共享层中的语义理解模型,本申请对于不同场景给出两种选择。第一个是Bert网络,Bert网络准确率高,但是消耗的计算资源大,速度慢;第二个是FastText网络,FastText网络是轻量级的网络,速度快,消耗计算资源小,但准确率略低于Bert网络。前者适用于准确性要求高,计算机资源丰富的场景,后者适用于响应要求快,计算资源有限的场景。下面将分别以这两个模型为例对本申请的多任务学习网络模型进行描述,但不限于此,还可以结合使用其他类型的语义理解模型。
请参阅图2和图3,图2是本申请实施方式中第一数据挖掘方法的流程示意图,图3是本申请实施方式的第一数据挖掘系统的模型架构图。需注意的是,若有实质上相同的结果,本实施例并不以图2所示的流程顺序为限。如图2所示,本实施方式包括:
S221:直接对数据库中的数据进行采样,得到源数据。
使用的数据库可以是Oracle、Mysql、PostgerSQL等。进行不同的数据挖掘时,从数据库中获取的数据量是不同的,对于不同的数据可以采取不同的采样方法。当获取的数据量不大,共享层的网络系统可以承载全部数据时,可以不需要对数据进行采样,也就是全采样。当获取的数据量过大,共享层的网络系统无法承载全部数据时,需要对数据进行随机采样,分组采样等。可以从数据库中获取表名、字段名、表注释、字段注释,记录内容等数据信息。
S222:将源数据处理成匹配共享层网络的格式。
目标数据可能存在多种不同格式,共享层网络的输入也有要求的一定数据格式,此时,需要将目标数据处理成与共享层网络匹配的格式。对于某些任务可能会存在数据集正负样本不平衡的情况,可以在采样前或采样后采取不同策略,如上采样、下采样、数据合成、正负样本不同训练权重等。
本实施方式中,共享层采用的语义理解模型是Bert网络,Bert网络可以识别单文本数据或双文本数据,但只能识别带有标识符的文本数据。因此,先对源数据添加标识符,标识符有CLS标识符和SEP标识符,CLS标识符表示文本开始,SEP标识符表示文本结束或分割两个文本。例如,如果输入的单文本数据是文本1,需要处理成:[CLS]文本1[SEP];如果输入的双文本数据是文本2和文本3,需要处理成:[CLS]文本2[SEP]文本3[SEP]。如图3所示,第一层为多任务学习网络的输入层,输入与共享层网络匹配的源数据。
S240:将源数据输入多任务学习网络的共享层,利用共享层的Bert网络提取源数据共性特征的特征向量,得到共性特征的特征矩阵。
如图3所示,本实施方式中,多任务学习网络的共享层采用的语义理解模型是Bert网络。通过对Bert网络进行预训练,可以采用已有的预训练网络,也可以基于任务数据如安防数据、公安数据和消防数据等,重新做预训练,预训练使用Masked LM和NextSentencePrediction。同时,可以根据具体任务添加新数据对Bert网络进行微调。使用经过预训练的Bert网络,对源数据进行学习,提取源数据的共性特征。请参阅图4,图4是本申请实施方式的Bert网络的流程示意图。如图4所示,Bert网络包括:
S341:提取源数据中每个词的字向量、标识句子的段向量及每个词所在句子中的位置向量。
将输入的文本转成三种向量,分别是Token Embeddings,Segment Embeddings,Position Embeddings。在进行向量转化之前,使用WordPiece tokenization对文本进行分词处理,处理之后的词可以是一个字组成的词,也可以是多个字组成的词。TokenEmbeddings用于区分源数据文本中的不同词,通过查询词向量表将源数据文本中的每个词转换为固定维度的向量,作为每个词的字向量,在Bert中,每个词会被转换成768维的向量表示;Segment Embeddings用于区分源数据文本中的不同句子,将不同句子转换为不同的向量,作为标识句子的段向量;由于出现在源数据文本不同位置的词所携带的语义信息存在差异,Position Embeddings对不同位置的词分别附加一个不同的向量以作区分,作为每个词在句子中的位置向量。
S342:将字向量、段向量和位置向量相加,得到向量矩阵。
将与源数据文本中的每个词携带的语义信息相关的字向量、段向量和位置向量融合相加,分别得到每个词的综合语义向量,结合每个词的语义向量,得到表示源数据文本综合语义的向量矩阵。
S343:将向量矩阵分别输入多个不同的自注意力层,分别对向量矩阵进行运算,得到多个不同语义空间下的语义向量。
一个词在文本中表达的语义通常与它的上下文有关,因此需要将每个词的语义信息与上下文其他词的语义信息相结合,得到每个词更深层次的语义信息。
其中,将向量矩阵输入自注意力层进行线性转换,得到每个词的查询向量,键向量和值向量。计算目标词查询向量与各个词键向量的相似度作为权重,加权融合目标词的值向量和各个上下文词的值向量,得到目标词的语义向量。分别将全部词作为目标词,加权融合文本中所有词的语义信息,得到各个词的增强语义向量。
在不同的语义场景下,自注意力层所重点关注的词是不同的,因此,考虑多种语义场景下目标词与文本中其它词的语义向量有不同融合方式,采用多个不同语义空间下的自注意力层,得到每个词不同的语义向量。
S344:将多个语义向量进行线性组合,得到增强语义向量。
将每个词的多个语义向量进行线性组合,从而获得一个最终的与原始字向量长度相同的增强语义向量。
S345:将向量矩阵和增强语义向量进行残差连接,得到中间矩阵。
对输入的向量矩阵和输出的增强语义向量相加,得到中间矩阵。
S346:将中间矩阵进行标准化和线性转化处理,得到特征矩阵。
对中间矩阵进行均值为0,方差为1的标准化处理,对每个词的增强语义向量再做一次或多次线性变换,得到特征矩阵,以增强整个模型的表达能力。其中,变换后的向量与原向量保持长度相同。
如图3所示,本实施方式中,共享层可以进行多次transformer编码器处理,即可以重复多次步骤S343~S346,更深入地学习源数据文本的语义信息,可以学习到目标任务的共有特征,得到最终的特征矩阵。
S260:将共性特征输入多任务学习网络的任务层,提取源数据的任务个性特征。
基于任务不同,对多任务学习的任务层进行不同的训练,同时,在经过预训练的Bert网络基础上对任务层进行微调训练。任务可以是判断表是否码值表、判断表是否包含轨迹、判断表间是否存在关联、判断表的业务类别等。
多任务学习的任务层的目标是学习源数据的任务个性特征,也就是基于不同的任务指令,学习各任务指令对应的个性特征。,本实施方式中,如图3所示,在学习到多个任务的共性特征之后,在此基础上,更容易从中提取不同任务指令所需的个性特征,再对个性特征进行分类,在图3输出层所示,输出各个目标任务的分类结果。
结合图3所示,该实施方式的具体实例如下。假设现在存在3个任务,分别为判断是否码值表,判断表的业务类型,判断表内是否包含轨迹。这3个任务有相似部分,都可以基于表名,字段的信息来实现,因此,输入层可以采取双文本输入,即[CLS]表名[SEP]字段的集合[SEP],其中,不同字段可以用下划线分割。共享层可以采用已有的预训练网络,也可以基于任务数据重新做预训练。任务层根据任务做微调训练。输出层可以设计成3个独立任务。首先,判断是否码值表就是二分类问题,采用两个神经元,分别表示是和否。判断表的业务类型是多分类问题,可以设计成多个神经元,不同神经元分别对应于不同业务类型。具体的,可以将业务分为人员出入境表,网吧表,重点人员信息表,物品信息表,其他表等,分类不局限于此,可以根据实际需求调整。那么,入境表的标签值应该为[1,0,0,0,0],网吧表的标签值应该为[0,1,0,0,0]。判断表内是否包含轨迹与前者相似也是二分类问题,采用两个神经元,分别表示包含和不包含。
该实施方式中,通过对源数据进行处理,最大程度保留完整信息,避免信息丢失造成探查不准确,使用多任务学习网络对数据进行挖掘,将多个相似任务结合在一起,并发处理,在多任务学习网络共享层中结合Bert模型,能够提高数据挖掘的准确性,而为达到高精度,需要较多的计算资源。基于自然语言理解,打破传统基于规则性探查的局限性,共享计算资源,提高处理效率。
请参阅图5和图6,图5是本申请实施方式中第二数据挖掘方法的流程示意图,图6本申请实施方式的第二数据挖掘系统的模型架构图。需注意的是,若有实质上相同的结果,本实施例并不以图5所示的流程顺序为限。如图5所示,本实施方式包括:
S621:直接对数据库中的数据进行采样,得到源数据。
S622:将源数据处理成匹配共享层网络的格式。
本实施方式中,共享层采用的语义理解模型是FastText网络,FastText网络只可以识别单文本数据。将源数据文本里面的内容按照字符进行大小为n的滑动窗口操作,形成了长度是n的字符片段序列,根据词汇表中的索引将源数据文本中的每个字符映射成为一个n维列向量,得到源数据字符级别的n-gram向量。
S641:获取源数据字符级别的n-gram向量。
如图6所示,在输入层获取经过处理的源数据字符级别的n-gram向量。
S642:将n-gram向量进行求和平均,得到特征矩阵。
如图6所示,将n-gram向量送入多任务网络的共享层,对源数据文本中所有字符的n维列向量进行叠加平均,得到各个任务的共性特征。
S660:将共性特征输入多任务学习网络的任务层,提取源数据的任务个性特征。
基于任务不同,对多任务学习的任务层进行不同的训练,同时,在FastText网络基础上对任务层进行微调训练。
多任务学习的任务层的目标是学习源数据的任务个性特征,也就是基于不同的任务指令,学习各任务指令对应的个性特征。。本实施方式中,如图6所示,在学习到多个任务的共性特征之后,在此基础上,更容易从中提取不同任务指令所需的个性特征,再对个性特征进行分类,在图6输出层所示,输出各个目标任务的分类结果。
该实施方式中,通过对源数据进行处理,最大程度保留完整信息,避免信息丢失造成探查不准确,使用多任务学习网络对数据进行挖掘,将多个相似任务结合在一起,并发处理,在多任务学习网络共享层中结合FastText模型,能够在计算资源有限情况下,快速响应进行数据学习,基于自然语言理解,打破传统基于规则性探查的局限性,共享计算资源,提高处理效率。
因此,可以在具体实施过程中,依据不同场景选择不同的语义理解模型。在计算机资源丰富,计算精度要求高的场景中,可以选择Bert网络进行学习;在计算资源匮乏,计算实时性要求高的场景中,可以选择FastText网络进行学习。
本提案结合语义理解模型和多任务学习,设计了完整的数据挖掘框架,能够解决上述问题。
基于源数据实现端到端的信息挖掘,使用了先进的深层次语义理解模型,能够将不规范的文本输入转成机器可理解的向量输出,结合多任务学习,将多个相似任务结合在一起,并发处理,共享计算资源,解决了基于规则探查的传统方法的应用局限性,提高处理效率和通用性。
请参阅图7,图7是本申请实施方式中数据挖掘装置的结构示意图。该实施方式中,数据挖掘装置包括获取模块71、第一处理模块72和第二处理模块73。
其中获取模块71用于获取源数据;第一处理模块72用于将源数据输入多任务学习网络的共享层,利用共享层的语义理解网络提取源数据的共性特征;第二处理模块73用于将共性特征输入多任务学习网络的任务层,提取对应任务的个性特征,输出任务结果。该数据挖掘装置用于数据挖掘时,对源数据进行处理,最大程度保留完整信息,避免信息丢失造成探查不准确,使用多任务学习网络对数据进行挖掘,将多个相似任务结合在一起,并发处理,在多任务学习网络共享层中,在不同使用场景下选择不同的语义理解模型,基于自然语言理解,打破传统基于规则性探查的局限性,共享计算资源,提高处理效率。
请参阅图8,图8是本申请实施方式中数据挖掘系统的结构示意图。该实施方式中,数据挖掘系统81包括处理器82。
处理器82还可以称为CPU(Central Processing Unit,中央处理单元)。处理器82可能是一种集成电路芯片,具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器82也可以是任何常规的处理器等。
数据挖掘系统81可以进一步包括存储器(图中未示出),用于存储处理器82运行所需的指令和数据。
处理器82用于执行指令以实现上述本申请数据挖掘方法任一实施例及任意不冲突的组合所提供的方法。
请参阅图9,图9为本申请实施方式中计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质91存储有指令/程序数据92,该指令/程序数据92被执行时实现本申请数据挖掘方法任一实施例以及任意不冲突的组合所提供的方法。其中,该指令/程序数据92可以形成程序文件以软件产品的形式存储在上述存储介质91中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质91包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据挖掘方法,其特征在于,包括:
获取源数据;
将所述源数据输入多任务学习网络的共享层,利用所述共享层的语义理解网络提取所述源数据的共性特征;
将所述共性特征输入所述多任务学习网络的任务层,提取所述源数据的任务个性特征。
2.根据权利要求1所述的数据挖掘方法,其特征在于,
所述语义理解网络为Bert网络,所述将源数据输入多任务学习网络的共享层,利用所述共享层的语义理解网络提取所述源数据的共性特征包括:
利用所述Bert网络提取所述源数据共性特征的特征向量,得到所述共性特征的特征矩阵。
3.根据权利要求2所述的数据挖掘方法,其特征在于,
所述利用Bert网络提取所述源数据共性特征的特征向量,得到所述共性特征的特征矩阵包括:
提取所述源数据中每个词的字向量、标识句子的段向量及每个词所在句子中的位置向量;
将所述字向量、所述段向量和所述位置向量相加,得到向量矩阵;
将所述向量矩阵输入transformer编码器,对所述向量矩阵进行运算,得到所述特征矩阵。
4.根据权利要求3所述的数据挖掘方法,其特征在于,
所述将向量矩阵输入transformer编码器,对所述向量矩阵进行运算,得到所述特征矩阵包括:
将所述向量矩阵分别输入多个不同的自注意力层,分别对所述向量矩阵进行运算,得到多个不同语义空间下的语义向量;
将多个所述语义向量进行线性组合,得到增强语义向量;
将所述向量矩阵和所述增强语义向量进行残差连接,得到中间矩阵;
将所述中间矩阵进行标准化和线性转化处理,得到所述特征矩阵。
5.根据权利要求1所述的数据挖掘方法,其特征在于,
所述语义理解网络为FastText网络,所述将源数据输入多任务学习网络的共享层,利用所述共享层的语义理解网络提取所述源数据的共性特征包括:
利用FastText网络提取所述源数据共性特征的特征向量,得到所述共性特征的特征矩阵。
6.根据权利要求5所述的数据挖掘方法,其特征在于,
所述利用FastText网络提取所述源数据共性特征的特征向量,得到所述共性特征的特征矩阵包括:
获取所述源数据字符级别的n-gram向量;
将所述n-gram向量进行求和平均,得到所述特征矩阵。
7.根据权利要求1所述的数据挖掘方法,其特征在于,
所述将源数据输入多任务学习网络的共享层,利用所述共享层的语义理解网络提取所述源数据的共性特征包括:
将所述源数据以单文本或双文本的方式输入多任务学习网络的共享层,利用所述共享层的语义理解网络提取所述源数据的共性特征。
8.根据权利要求1所述的数据挖掘方法,其特征在于,
所述获取源数据包括:
直接对数据库中的数据进行采样,得到所述源数据;
将所述源数据处理成匹配所述共享层网络的格式。
9.一种数据挖掘系统,其特征在于,所述数据挖掘系统包括处理器,所述处理器用于执行指令以实现如权利要求1-8中任一项所述的数据挖掘方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储指令/程序数据,所述指令/程序数据能够被执行以实现如权利要求1-8中任一项所述的数据挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011186441.7A CN112256765A (zh) | 2020-10-29 | 2020-10-29 | 一种数据挖掘方法、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011186441.7A CN112256765A (zh) | 2020-10-29 | 2020-10-29 | 一种数据挖掘方法、系统及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256765A true CN112256765A (zh) | 2021-01-22 |
Family
ID=74267842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011186441.7A Pending CN112256765A (zh) | 2020-10-29 | 2020-10-29 | 一种数据挖掘方法、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256765A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988953A (zh) * | 2021-04-26 | 2021-06-18 | 成都索贝数码科技股份有限公司 | 自适应广播电视新闻关键词标准化方法 |
CN113656451A (zh) * | 2021-07-21 | 2021-11-16 | 浙江大华技术股份有限公司 | 数据挖掘方法、电子设备和计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222188A (zh) * | 2019-06-18 | 2019-09-10 | 深圳司南数据服务有限公司 | 一种多任务学习的公司公告处理方法及服务端 |
CN110807517A (zh) * | 2019-10-30 | 2020-02-18 | 智者四海(北京)技术有限公司 | 用于多任务识别的神经网络系统 |
CN111581350A (zh) * | 2020-04-30 | 2020-08-25 | 识因智能科技(北京)有限公司 | 一种基于预训练语言模型的多任务学习阅读理解方法 |
CN111753058A (zh) * | 2020-06-30 | 2020-10-09 | 北京信息科技大学 | 一种文本观点挖掘方法及系统 |
CN111813532A (zh) * | 2020-09-04 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种基于多任务机器学习模型的图像管理方法及装置 |
-
2020
- 2020-10-29 CN CN202011186441.7A patent/CN112256765A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222188A (zh) * | 2019-06-18 | 2019-09-10 | 深圳司南数据服务有限公司 | 一种多任务学习的公司公告处理方法及服务端 |
CN110807517A (zh) * | 2019-10-30 | 2020-02-18 | 智者四海(北京)技术有限公司 | 用于多任务识别的神经网络系统 |
CN111581350A (zh) * | 2020-04-30 | 2020-08-25 | 识因智能科技(北京)有限公司 | 一种基于预训练语言模型的多任务学习阅读理解方法 |
CN111753058A (zh) * | 2020-06-30 | 2020-10-09 | 北京信息科技大学 | 一种文本观点挖掘方法及系统 |
CN111813532A (zh) * | 2020-09-04 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种基于多任务机器学习模型的图像管理方法及装置 |
Non-Patent Citations (1)
Title |
---|
李舟军等: ""面向自然语言处理的预训练技术研究综述"", 《计算机科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988953A (zh) * | 2021-04-26 | 2021-06-18 | 成都索贝数码科技股份有限公司 | 自适应广播电视新闻关键词标准化方法 |
CN113656451A (zh) * | 2021-07-21 | 2021-11-16 | 浙江大华技术股份有限公司 | 数据挖掘方法、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jung | Semantic vector learning for natural language understanding | |
US20210173829A1 (en) | Natural Language Processing Engine For Translating Questions Into Executable Database Queries | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN113282729B (zh) | 基于知识图谱的问答方法及装置 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN116501898B (zh) | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN112256765A (zh) | 一种数据挖掘方法、系统及计算机可读存储介质 | |
CN112015915A (zh) | 基于问题生成的知识库问答系统及装置 | |
CN113947087B (zh) | 一种基于标签的关系构建方法、装置、电子设备及存储介质 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN115840808A (zh) | 科技项目咨询方法、装置、服务器及计算机可读存储介质 | |
WO2024169426A1 (zh) | 一种基于模板的中文隐私政策摘要生成方法和装置 | |
CN113761128A (zh) | 领域同义词典与模式匹配相结合的事件关键信息抽取方法 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
WO2023137903A1 (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN115048536A (zh) | 知识图谱生成方法、装置、计算机设备和存储介质 | |
Arafat et al. | Hydrating large-scale coronavirus pandemic tweets: A review of software for transportation research | |
Liu et al. | Practical skills of business english correspondence writing based on data mining algorithm | |
Ramos-Flores et al. | Probabilistic vs deep learning based approaches for narrow domain NER in Spanish |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210122 |
|
RJ01 | Rejection of invention patent application after publication |