CN114547308A - 文本处理的方法、装置、电子设备及存储介质 - Google Patents
文本处理的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114547308A CN114547308A CN202210191468.8A CN202210191468A CN114547308A CN 114547308 A CN114547308 A CN 114547308A CN 202210191468 A CN202210191468 A CN 202210191468A CN 114547308 A CN114547308 A CN 114547308A
- Authority
- CN
- China
- Prior art keywords
- neural network
- graph
- classification
- training
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 146
- 238000000034 method Methods 0.000 claims abstract description 91
- 238000003062 neural network model Methods 0.000 claims abstract description 81
- 238000013528 artificial neural network Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 20
- 230000006399 behavior Effects 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 238000003058 natural language processing Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 238000010801 machine learning Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本处理的方法、装置、设备以及存储介质,涉及人工智能的自然语言处理领域。该文本处理的方法,包括:获取待预测的文本数据;对该文本数据进行特征提取,得到该文本数据的特征向量;将该特征向量输入神经网络模型,得到该文本数据的标签,以便对该文本数据进行分类,其中,该神经网络模型是根据至少一种分类任务的训练数据进行训练得到的;其中,该神经网络模型包括图神经网络和分类层,该图神经网络是根据用户对文本数据的行为构建的图网络得到的。本申请通过图网络将用户对文本数据的行为的隐性知识引入神经网络模型,能够有助于提高神经网络模型进行文本分类的准确性。
Description
技术领域
本申请涉及人工智能领域,并且更具体地,涉及文本处理的方法、装置、设备以及存储介质。
背景技术
文本分类(Text Categorization),是指计算机将一篇文档归于预先给定的某一类或某几类的过程。例如,可以按照预先定义的主题类别,为文档集合中的每个文档确定一个或多个类别。通过文本分类,用于可以方便地浏览文档,并可以通过类别来查询所需的文档。文本分类是文本挖掘的一个重要内容。
在常规的文本分类方案中,一种方式可以针对每个分类任务分别训练一个模型,每个模型都单独使用各自任务的训练数据,并分别预测各自的任务。另一种方式可以针对多个分类任务训练一个多任务模型,例如可以多个分类任务共享模型底层,上层进行多分类分别学习的方式进行模型的训练。上述两种分类方式通常只采用了文本的静态属性得到模型,导致文本分类的准确性较低。
因此,如何提高文本分类的准确性是亟待解决的问题。
发明内容
本申请实施例提供了一种文本处理的方法、装置、设备以及存储介质,通过图网络将用户对文本数据的行为的隐性知识引入神经网络模型,能够有助于提高神经网络模型进行文本分类的准确性。
第一方面,提供了一种文本处理的方法,包括:
获取待预测的文本数据;
对所述文本数据进行特征提取,得到所述文本数据的特征向量;
将所述特征向量输入神经网络模型,得到所述文本数据的标签,以便对所述文本数据进行分类,其中,所述神经网络模型是根据至少一种分类任务的训练数据进行训练得到的;
其中,所述神经网络模型包括图神经网络和分类层,所述图神经网络是根据用户对文本数据的行为构建的图网络得到的。
第二方面,提供了一种训练模型的方法,包括:
根据用户对文本数据的行为,构建图网络,其中,所述图网络的节点包括用户和文本数据,所述图网络的节点的连接方式包括用户对文本数据的行为;
根据所述图网络,得到图神经网络;
获取至少一种分类任务的训练数据;
根据所述至少一种分类任务的训练数据,对所述图神经网络和分类层进行训练,以便得到已训练的神经网络模型,其中,所述神经网络模型包括所述图神经网络和所述分类层。
第三方面,提供了一种文本处理的装置,包括:
获取单元,用于获取待预测的文本数据;
特征提取单元,用于对所述文本数据进行特征提取,得到所述文本数据的特征向量;
神经网络模型,用于根据输入的所述特征向量,得到所述文本数据的标签,以便对所述文本数据进行分类,其中,所述神经网络模型是根据至少一种分类任务的训练数据进行训练得到的;
其中,所述神经网络模型包括图神经网络和分类层,所述图神经网络是根据用户对文本数据的行为构建的图网络得到的。
第四方面,提供了一种训练模型的装置,包括:
构建单元,用于根据用户对文本数据的行为,构建图网络,其中,所述图网络的节点包括用户和文本数据,所述图网络的节点的连接方式包括用户对文本数据的行为;
神经网络模型,包括图神经网络和分类层,其中,所述图神经网络是根据所述图网络获得的;
获取单元,用于获取至少一种分类任务的训练数据;
训练单元,用于根据所述至少一种分类任务的训练数据,对所述神经网络模型进行训练,以便得到已训练的所述神经网络模型,其中,所述神经网络模型包括所述图神经网络和所述分类层。
第五方面,本申请提供了一种电子设备,包括:
处理器,适于实现计算机指令;以及,
存储器,存储有计算机指令,计算机指令适于由处理器加载并执行上述第一方面的方法,或第二方面的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被计算机设备的处理器读取并执行时,使得计算机设备执行上述第一方面的方法,或第二方面的方法。
第七方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面的方法,或第二方面的方法。
基于以上技术方案,能够实现通过图网络将用户对文本数据的行为的隐性知识引入神经网络模型,由于用户对文本数据的行为为一种重要的隐性知识,对文本的识别效果具有隐性的提升作用,因此本申请实施例能够有助于提高神经网络模型对于文本分类的准确性。
附图说明
图1为本申请实施例涉及的一种系统架构的示意图;
图2为本申请实施例提供的一种训练模型的方法的示意流程图;
图3为根据本申请实施例的一种构建图结构的过程的示意图;
图4为本申请实施例提供的一种神经网络模型的示意图;
图5为本申请实施例提供的另一种训练模型的方法的示意流程图;
图6为本申请实施例提供的另一种训练模型的方法的示意流程图;
图7为本申请实施例提供的一种文本处理的方法的示意流程图;
图8是本申请实施例提供的一种文本处理的装置的示意性框图;
图9是本申请实施例提供的一种训练模型的装置的示意性框图;
图10是本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应理解,在本申请实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在本申请的描述中,除非另有说明,“至少一个”是指一个或多个,“多个”是指两个或多于两个。另外,“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
还应理解,本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
还应理解,说明书中与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例应用于人工智能技术领域。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例可涉及人工智能技术中的自然语言处理(Nature Languageprocessing,NLP)技术。NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例也可以涉及人工智能技术中的机器学习(Machine Learning,ML),ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
此外,本申请实施例提供的方案涉及自然语言处理中的文本处理的方法。
图1为本申请实施例涉及的一种系统架构示意图,如图1所示,系统架构可以包括用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。
其中,数据采集设备102用于从内容库106中读取训练数据,并将读取的训练数据存储至数据库105中。本申请实施例涉及的训练数据包括文本数据和标签组成的对。
训练设备103基于数据库105中维护的训练数据,对机器学习模型进行训练,使得训练后的机器学习模型可以有效地对文本进行分类,例如预测文本数据的标签,以便根据该标签确定该文本数据是否属于某一类分类任务。训练设备103得到的机器学习模型可以应用到不同的系统或设备中。
另外,参考图1,执行设备104配置有I/O接口107,与外部设备进行数据交互。比如通过I/O接口接收用户设备101发送的要预测的任务的文本数据。执行设备104中的计算模块109使用训练好的预测模型,对输入的文本数据进行预测,输出该文本数据的标签,并通过I/O接口将相应的结果发送至用户设备101。
其中,用户设备101可以包括手机、平板电脑、笔记本电脑、掌上电脑、车载终端、移动互联网设备(mobile internet device,MID)或其他具有安装浏览器功能的终端设备。
执行设备104可以为服务器。
示例性的,服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器,也可以是多个测试服务器所组成的测试服务器集群。
本实施例中,执行设备104通过网络与用户设备101连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
需要说明的是,图1仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中,上述数据采集设备102与用户设备101、训练设备103和执行设备104可以为同一个设备。上述数据库105可以分布在一个服务器上也可以分布在多个服务器上,上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。
示例性的,本申请实施例的应用场景包括但不限于微信生态内的文本分类。例如,对于微信生态内的文本,比如包括但不限于公众号文章、网页、小程序等,有着众多分类的需求,比如判断文本的所述类目,或者判断文本是否属于低俗内容、判断文本的情感偏向等。并且,这类需求还会不断增加。
在对文本进行分类时,有两种不同的解决方案:
1)针对每个分类任务分别训练一个模型;
2)针对多个分类任务训练一个多任务模型。
在方案1)中,每个模型都单独使用各自任务的训练数据,并分别预测各自的任务。在方案2)中,可以多个分类任务共享模型底层,上层进行多分类分别学习的方式进行模型的训练。并在,在方案1)和2)中,通常只采用文本的静态属性对模型进行训练,使得文本分类的准确性较低。
有鉴于此,本申请实施例提供了一种文本处理的方案,能够利用用户对文本数据的行为获取分类模型,从而有助于提高文本分类的准确性。
具体而言,在获取待预测的文本数据后,可以对该文本数据进行特征提取,得到该文本数据的特征向量,然后将该特征向量输入神经网络模型,得到该文本数据的标签,以便对该文本数据进行分类,其中,该神经网络模型是根据至少一种分类任务的训练数据进行训练得到的,该神经网络模型包括图神经网络和分类层,该图神经网络是根据用户对文本数据的行为构建的图网络得到的。用户对文本数据的行为作为一种重要的隐性知识,对文本的识别效果具有隐性的提升作用,因此通过图网络将用户对文本数据的行为的隐性知识引入神经网络模型,能够有助于提高神经网络模型对于文本分类的准确性。
在一些可选的实施例中,可以针对多个分类任务训练一个多任务模型,多个分类任务可以共享图神经网络,每个分类任务可以独享一个分类层,对每个分类层可以分别学习的方式进行模型的训练。这样,一方面可以利用多分类任务之间的知识共享,泛化应用性较高,另一方面不需要对每个分类任务单独训练一个模型,资源消耗较小。
在一些可选的实施例中,可以针对每个分类任务分别训练一个模型,每个模型都单独使用各自任务的训练数据,并分别预测各自的任务,本申请对此不做限定。
示例性的,本申请的文本处理方法可以应用于信息检索、网页(web)文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域。作为一个具体的例子,可以应用于微信生态内,例如微信搜一搜的朋友圈、公众号文章、小程序、音乐等的文本分类任务,不做限定。
本申请实施例的文本处理的方法,可以包括模型训练阶段和模型预测阶段。下面结合附图对本申请实施例涉及的文本处理的方法进行介绍。
首先,对模型训练阶段进行描述。
图2为本申请实施例提供的一种训练模型的方法200的示意流程图。方法200可以由任何具有数据处理能力的电子设备执行。例如,该电子设备可实施为服务器或终端设备,又例如,该电子设备可实施为图1中的训练设备103,本申请对此不做限定。示例性的,该模型可以用于微信生态内的文本分类。
如图2所示,该训练模型的方法200可以包括步骤210至240。
210,根据用户对文本数据的行为,构建图网络,其中,该图网络的节点包括用户和文本数据,该图网络的节点的连接方式包括用户对文本数据的行为。
图3示出了构建图结构的过程的一个示意图。以微信生态为例,文本数据可以包括文章,比如公众号、朋友圈的文章等,不做限定。示例性的,用户对文章的行为包括阅读、分享和评论中的至少一种。作为具体的例子,图3中的(a)图可以表示用户与文章之间的阅读行为。根据(a)图中的该阅读行为,可以构建一个将用户和文章作为网络的节点,将用户与文章之间的阅读行为作为网络的边,如图3中的(b)所示。可选的,网络中的节点,例如用户或文章可以具有标签(label),例如图3中的标签1和标签2。
作为一种可能的实现方式,可以获取用户在微信生态内阅读公众号文章的日志,整理为<用户userid,文章docid>的对(pair),表示该用户与该文章之间存在阅读行为。然后,可以将得到的所有对表示成一个图网络结构,通过该图网络结构可以获取到每个节点(例如用户或文章)的邻居。
220,根据该图网络,得到图神经网络。
示例性的,可以根据步骤210中的图网络结构对图神经网络模型(Graph NeuralNetworks,GNN)进行训练,得到已训练的图神经网络模型。具体而言,将包括每个节点的初始特征向量的图网络结构输入GNN,GNN可以通过对每个节点进行特征提取,迭代学习每个节点的特征向量和对应的标签。
示例性的,GNN可以为图卷积网络(Graph Convolutional Network,GCN),或者其他的GNN表示形式,本申请对此不做限定。
230,获取至少一种分类任务的训练数据。
示例性的,每一种分类任务的训练数据可以表示为<文章,标签>的对。例如当分类任务为类目时事时,训练数据具体可以为<文章1,类目时事>、<文章2,类目时事>等。又例如当分类任务为是否低俗时,训练数据具体可以为<文章3,低俗>、<文章4,不低俗>等。
作为一种可能的实现方式中,在获取训练数据后,可以对文本数据进行特征提取。示例性的,以训练数据为<文章,标签>为例,可以对文章的内容进行特征提取,例如通过BERT(Bidirectional Encoder Representations from Transformers),长短期记忆模型(long-short term memory,LSTM)、TextCNN或者其他的模型对文章内容进行文本的特征提取,从而可以将训练数据<文章,标签>转化为<文章embedding,标签>。这里,embedding即嵌入向量。
240,根据该至少一种分类任务的训练数据,对该图神经网络和分类层进行训练,以便得到已训练的神经网络模型,其中,所述神经网络模型包括所述图神经网络和所述分类层。
图4是本申请实施例提供的一种神经网络模型的示意图,其中包括输入层310、GNN层320和分类层330。示例性的,输入层310、GNN层320和分类层330可以连接组成该神将网络模型。作为示例,GNN可以为GCN,或者其他GNN的表示形式;分类层可以为全连接分类层,可以连接于GNN之上,不做限定。作为示例,分类层中可以包含隐藏层,该隐藏层的个数可以自定义,例如可以设置隐藏层节点数为128。
示例性的,该GNN层320可以为根据图3中的(b)图中图网络结构得到的GNN模型。示例性的,可以通过至少一种分类任务的训练数据,例如<文章,标签>,完成对GNN层320和分类层330的参数训练,得到GNN层320的参数和分类层330的参数。
本申请实施例中,由于用户对文本数据的行为作为一种重要的隐性知识,对文本的识别效果具有隐性的提升作用,因此通过图网络将用户对文本数据的行为的隐性知识引入神经网络模型,能够有助于提高神经网络模型对于文本分类的准确性。
应理解,本申请一些实施例中,可以针对多个分类任务训练一个多任务模型,多个分类任务可以共享图神经网络,每个分类任务可以独享一个分类层,对每个分类层可以分别学习的方式进行模型的训练。这样,一方面可以利用多分类任务之间的知识共享,泛化应用性较高,另一方面不需要对每个分类任务单独训练一个模型,资源消耗较小。
本申请另一些实施例中,可以针对每个分类任务分别训练一个模型,每个模型都单独使用各自任务的训练数据,并分别预测各自的任务,本申请对此不做限定。
当针对多个分类任务训练一个多任务模型时,训练模型的过程可以包括初始单一任务学习训练阶段和多任务持续学习训练阶段。
在一些可选的实施例中,在构建好图神经网络和神经网络模型后,可以开始第一个分类任务的训练。此时,可以进行上述初始单一任务学习训练阶段的模型训练。下面,结合图5对初始单一任务学习训练阶段进行描述。
参见图5,可以通过步骤510和520实现对初始单一任务进行学习训练。
510,获取第一分类任务的训练数据。
其中,上述至少一种分类任务包括该第一分类任务。示例性的,该第一分类任务可以表示为task1,即可以获取task1的训练数据。作为具体的例子,task1的训练数据可以表示为<文章i,类目时事>。
520,根据该第一分类任务的训练数据,对该图神经网络和分类层进行训练,得到该图神经网络的第一参数和该第一分类任务对应的分类层的第二参数。
示例性的,在图5的模型训练过程中,可以采用图4所示的神经网络模型。示例性的,可以通过min-batch的方式将task的训练数据(比如<文章embedding,标签>)输入神经网络模型进行训练。可选的,batchsize的大小可以自定义,例如设置batchsize为64。示例性的,通过task1的训练数据可以完成GNN层和分类层的参数训练,得到分类层的参数Wc1和GNN层的参数Wg1。
在一些实施例中,在完成了第一分类任务的训练之后,可以保存得到的神经网络模型。
在一些可选的实施例中,当完成初始单一任务学习训练之后,后续如果有新的分类任务需要学习,则可以进行多任务持续学习训练阶段的模型训练。下面,结合图6对多任务持续学习训练阶段进行描述。
参见图6,可以通过步骤610至630实现对初始多任务进行学习训练。
610,获取第二分类任务的训练数据。
其中,上述至少一种分类任务包括该第二分类任务。示例性的,该第二分类任务可以表示为task2,即可以获取task2的训练数据。作为具体的例子,task2的训练数据可以表示为<文章j,是否低俗>。
需要说明的是,在图6的模型训练过程中,可以复用图4所示的神经网络模型。其中,GNN层为所有分类任务的共享层,上层的分类层为每一个分类任务特有。也就是说,不同分类任务各自对应不同的分类层,在某一个分类任务的学习训练中,可以对GNN层的参数和该分类任务对应的分类层的参数进行训练。
620,根据对图神经网络的参数的约束,确定损失函数。
在进行新的分类任务的训练学习过程中,为了避免重新训练所有的历史任务,以降低训练成本,可以通过改变损失(Loss)函数的定义,即根据对图神经网络模型的参数的约束,重新确定损失函数,使得神经网络模型既能够不断的学习新的任务知识,同时又不或遗忘历史任务。
示例性的,可以在图5的训练过程中的原始的交叉熵的基础上增加一个对图神将网络模型的参数的约束,确定新的损失函数。作为具体的示例,新的损失函数可以表示为如下公式(1):
在一些可选的实施例中,上述增加的约束可以包括稀疏性约束和/或正交性约束。作为示例,可以根据以下公式(2)确定增加的约束Lc:
Lc=λsLb+λoLo (2)
其中,Lb=∑W‖W‖2,表示对GNN层的参数W进行稀疏性约束,即尽量使得GNN层的网络的有效激活集中在部分节点,如此以方便后续新任务的扩展;
其中,表示对GNN层的参数W进行正交化约束,以尽量减小当前分类任务学习到的关键参数对之前分类任务的参数的影响。其中,Wpre表示经过该第二分类任务的之前的至少一个分类任务后得到的图神经网络的参数,例如当该第二分类任务为训练的第n个分类任务时,Wpre表示经过前(n-1)个分类任务训练后得到的GNN的参数,n为大于1的正整数。
630,根据第二分类任务的训练数据和该损失函数,对该图神经网络和分类层进行训练,得到该图神经网络的第三参数和该第二分类任务对应的分类层的第四参数,其中,所述至少一种分类任务还包括所述第二分类任务。
在一些实施例中,在完成了第二分类任务的训练之后,可以保存得到的神经网络模型。可选的,在完成了第二分类任务的训练之后,当后续持续有新的分类任务需要学习时,可以根据图6所示的对多任务持续学习训练方法对后续的新的分类任务进行学习训练。具体的训练方式可以参考图6中的描述,这里不再赘述。
因此,本申请实施例在针对多个分类任务训练一个多任务模型时,在进行新的分类任务的训练学习过程中,通过重新确定损失函数,使得神经网络模型既能够不断的学习新的任务知识,同时又不或遗忘历史任务,从而能够避免重新训练所有的历史任务,降低训练成本。
以下,对模型预测阶段进行描述。
图7为本申请实施例提供的一种文本处理的方法700的示意流程图。方法700可以由任何具有数据处理能力的电子设备执行。例如,该电子设备可实施为服务器或终端设备,又例如,该电子设备可实施为图1中的执行设备104,本申请对此不做限定。示例性的,方法700可以用于微信生态内的文本分类预测。
一些实施例中,电子设备中可以包括(比如部署)机器学习模型,可以用于执行该文本处理的方法700,例如将待预测的文本数据输入机器学习模型中,由该机器模型预测该文本数据的标签,以对该文本数据进行分类。示例性的,该机器学习模型可以为深度学习模型,神经网络模型,或者其他模型,不作限定。具体的,该机器学习模型可以为图4中的神经网络模型,具体可以参见上文中的描述。
如图7所示,该文本处理的方法700可以包括步骤710至730。
710,获取待预测的文本数据。
示例性的,可以获取要预测的分类任务A的文本数据,该分类任务A例如可以为上述第一分类任务,第二分类任务或者其他,具体可以为类目时事,或是否低俗等。
示例性的,该文本数据例如可以为微信生态内的搜一搜的朋友圈、公众号文章、小程序、音乐等的文本数据,或者其他应用领域中的文本数据,不作限定。
720,对该文本数据进行特征提取,得到该文本数据的特征向量。
示例性的,可以采用与图2中步骤230中相同的特征提取方式对该文本数据进行特征提取,本申请对此不作限定。
730,将该特征向量输入神经网络模型,得到该文本数据的标签,以便对该文本数据进行分类,其中,该神经网络模型是根据至少一种分类任务的训练数据进行训练得到的。其中,该神经网络模型包括图神经网络和分类层,该图神经网络是根据用户对文本数据的行为构建的图网络得到的。
示例性的,该神经网络模型可以输出待预测的标签的概率分布,然后可以选择最大概率值对应的标签作为该文本数据的标签,以实现对该文本数据进行分类。作为具体的例子,当分类任务A为类目时事时,得到的标签可以为是类目时事,或不是类目时事;当分类任务A为是否低俗时,得到的标签可以为低俗,或者不低俗。
示例性的,该神经网络模型可以为图4所示的神经网络模型,对该神经网络模型的训练过程可以参见上文图2至图6中的描述,不再赘述。
在一些实施例中,当该神经网络模型为针对多个分类任务训练一个多任务模型,该待预测的文本数据为分类任务A的文本数据时,该神经网络模型中的分类层为该分类任务A独享的分类层。
因此,通过本申请实施例的方案,能够实现通过图网络将用户对文本数据的行为的隐性知识引入神经网络模型,由于用户对文本数据的行为为一种重要的隐性知识,对文本的识别效果具有隐性的提升作用,因此本申请实施例能够有助于提高神经网络模型对于文本分类的准确性。
以上结合附图详细描述了本申请的具体实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。应理解这些序号在适当情况下可以互换,以便描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。
上文详细描述了本申请的方法实施例,下文结合图8至图10,详细描述本申请的装置实施例。
图8是本申请实施例的文本处理的装置800的示意性框图。如图8所示,该文本处理的装置800可包括获取单元810、特征提取单元820和神经网络模型830。
获取单元810,用于获取待预测的文本数据;
特征提取单元820,用于对所述文本数据进行特征提取,得到所述文本数据的特征向量;
神经网络模型830,用于根据输入的所述特征向量,得到所述文本数据的标签,以便对所述文本数据进行分类,其中,所述神经网络模型是根据至少一种分类任务的训练数据进行训练得到的;
其中,所述神经网络模型包括图神经网络和分类层,所述图神经网络是根据用户对文本数据的行为构建的图网络得到的。
可选的,文本处理的装置800还包括训练单元,用于:
根据用户对文本数据的行为,构建图网络,其中,所述图网络的节点包括用户和文本数据,所述图网络的节点的连接方式包括用户对文本数据的行为;
根据所述图网络,得到所述图神经网络;
获取所述至少一种分类任务的训练数据;
根据所述至少一种分类任务的训练数据,对所述图神经网络和所述分类层进行训练,以便得到已训练的所述神经网络模型。
可选的,所述训练单元具体用于:
根据第一分类任务的训练数据,对所述图神经网络和所述分类层进行训练,得到所述图神经网络的第一参数和所述第一分类任务对应的分类层的第二参数,其中,所述至少一种分类任务包括所述第一分类任务。
可选的,所述训练单元具体用于:
根据对所述图神经网络的参数的约束,确定损失函数;
根据第二分类任务的训练数据和所述损失函数,对所述图神经网络和所述分类层进行训练,得到所述图神经网络的第三参数和所述第二分类任务对应的分类层的第四参数,其中,所述至少一种分类任务还包括所述第二分类任务。
可选的,所述约束包括稀疏性约束。
可选的,所述约束包括正交性约束,其中,所述正交性约束是根据所述图神经网络的参数和经过所述第二分类任务的之前的至少一个分类任务后得到的图神经网络的参数确定的。
可选的,所述分类层的数量为至少一个,每个所述分类层对应一个分类任务。
可选的,所述训练数据包括文本数据和标签组成的对。
可选的,所述用户对文本数据的行为包括阅读、分享和评论中的至少一种。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,在该实施例中文字处理的装置800可以对应于执行本申请实施例的方法700的相应主体,并且装置800中的各个模块的前述和其它操作和/或功能分别为了实现上文中的方法700中的相应流程,为了简洁,在此不再赘述。
图9是本申请实施例的训练模型的装置900的示意性框图。如图9所示,该训练模型的装置900可包括构建单元910、神经网络模型920、获取单元930和训练单元940。
构建单元910,用于根据用户对文本数据的行为,构建图网络,其中,所述图网络的节点包括用户和文本数据,所述图网络的节点的连接方式包括用户对文本数据的行为;
神经网络模型920,包括图神经网络和分类层,其中,所述图神经网络是根据所述图网络获得的;
获取单元930,用于获取至少一种分类任务的训练数据;
训练单元940,用于根据所述至少一种分类任务的训练数据,对所述神经网络模型进行训练,以便得到已训练的所述神经网络模型,其中,所述神经网络模型包括所述图神经网络和所述分类层。
可选的,所述训练单元940具体用于:
根据第一分类任务的训练数据,对所述图神经网络和所述分类层进行训练,得到所述图神经网络的第一参数和所述第一分类任务对应的分类层的第二参数,其中,所述至少一种分类任务包括所述第一分类任务。
可选的,所述训练单元940具体用于:
根据对所述图神经网络的参数的约束,确定损失函数;
根据第二分类任务的训练数据和所述损失函数,对所述图神经网络和所述分类层进行训练,得到所述图神经网络的第三参数和所述第二分类任务对应的分类层的第四参数,其中,所述至少一种分类任务还包括所述第二分类任务。
可选的,所述约束包括稀疏性约束。
可选的,所述约束包括正交性约束,其中,所述正交性约束是根据所述图神经网络的参数和经过所述第二分类任务的之前的至少一个分类任务后得到的图神经网络的参数确定的。
可选的,所述分类层的数量为至少一个,每个所述分类层对应一个分类任务。
可选的,所述训练数据包括文本数据和标签组成的对。
可选的,所述用户对文本数据的行为包括阅读、分享和评论中的至少一种。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,在该实施例中训练模型的装置900可以对应于执行本申请实施例的方法200的相应主体,并且装置900中的各个模块的前述和其它操作和/或功能分别为了实现上文中的方法200中的相应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置和系统。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
如图10是本申请实施例提供的电子设备1000的示意性框图。
如图10所示,该电子设备1000可包括:
存储器1010和处理器1020,该存储器1010用于存储计算机程序,并将该程序代码传输给该处理器1020。换言之,该处理器1020可以从存储器1010中调用并运行计算机程序,以实现本申请实施例中的方法。
例如,该处理器1020可用于根据该计算机程序中的指令执行上述方法200,或700中的步骤。
在本申请的一些实施例中,该处理器1020可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器1010包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器1010中,并由该处理器1020执行,以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备1000中的执行过程。
可选的,该电子设备1000还可包括:
收发器1030,该收发器1030可连接至该处理器1020或存储器1010。
其中,处理器1020可以控制该收发器1030与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器1030可以包括发射机和接收机。收发器1030还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备1000中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
根据本申请的一个方面,提供了一种通信装置,包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行所述存储器中存储的计算机程序,使得所述编码器执行上述方法实施例的方法。
根据本申请的一个方面,提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。
Claims (15)
1.一种文本处理的方法,其特征在于,包括:
获取待预测的文本数据;
对所述文本数据进行特征提取,得到所述文本数据的特征向量;
将所述特征向量输入神经网络模型,得到所述文本数据的标签,以便对所述文本数据进行分类,其中,所述神经网络模型是根据至少一种分类任务的训练数据进行训练得到的;
其中,所述神经网络模型包括图神经网络和分类层,所述图神经网络是根据用户对文本数据的行为构建的图网络得到的。
2.根据权利要求1所述的方法,其特征在于,所述将所述特征向量输入神经网络模型,以得到所述文本数据的标签之前,还包括:
根据用户对文本数据的行为,构建图网络,其中,所述图网络的节点包括用户和文本数据,所述图网络的节点的连接方式包括用户对文本数据的行为;
根据所述图网络,得到所述图神经网络;
获取所述至少一种分类任务的训练数据;
根据所述至少一种分类任务的训练数据,对所述图神经网络和所述分类层进行训练,以便得到已训练的所述神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一种分类任务的训练数据,对所述图神经网络和所述分类层进行训练,以便得到已训练的所述神经网络模型,包括:
根据第一分类任务的训练数据,对所述图神经网络和所述分类层进行训练,得到所述图神经网络的第一参数和所述第一分类任务对应的分类层的第二参数,其中,所述至少一种分类任务包括所述第一分类任务。
4.根据权利要求3所述的方法,其特征在于,还包括:
根据对所述图神经网络的参数的约束,确定损失函数;
根据第二分类任务的训练数据和所述损失函数,对所述图神经网络和所述分类层进行训练,得到所述图神经网络的第三参数和所述第二分类任务对应的分类层的第四参数,其中,所述至少一种分类任务还包括所述第二分类任务。
5.根据权利要求4所述的方法,其特征在于,所述约束包括稀疏性约束。
6.根据权利要求4所述的方法,其特征在于,所述约束包括正交性约束,其中,所述正交性约束是根据所述图神经网络的参数和经过所述第二分类任务的之前的至少一个分类任务后得到的图神经网络的参数确定的。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述分类层的数量为至少一个,每个所述分类层对应一个分类任务。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述训练数据包括文本数据和标签组成的对。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述用户对文本数据的行为包括阅读、分享和评论中的至少一种。
10.一种训练模型的方法,其特征在于,包括:
根据用户对文本数据的行为,构建图网络,其中,所述图网络的节点包括用户和文本数据,所述图网络的节点的连接方式包括用户对文本数据的行为;
根据所述图网络,得到图神经网络;
获取至少一种分类任务的训练数据;
根据所述至少一种分类任务的训练数据,对所述图神经网络和分类层进行训练,以便得到已训练的神经网络模型,其中,所述神经网络模型包括所述图神经网络和所述分类层。
11.一种文本处理的装置,其特征在于,包括:
获取单元,用于获取待预测的文本数据;
特征提取单元,用于对所述文本数据进行特征提取,得到所述文本数据的特征向量;
神经网络模型,用于根据输入的所述特征向量,得到所述文本数据的标签,以便对所述文本数据进行分类,其中,所述神经网络模型是根据至少一种分类任务的训练数据进行训练得到的;
其中,所述神经网络模型包括图神经网络和分类层,所述图神经网络是根据用户对文本数据的行为构建的图网络得到的。
12.一种训练模型的装置,其特征在于,包括:
构建单元,用于根据用户对文本数据的行为,构建图网络,其中,所述图网络的节点包括用户和文本数据,所述图网络的节点的连接方式包括用户对文本数据的行为;
神经网络模型,包括图神经网络和分类层,其中,所述图神经网络是根据所述图网络获得的;
获取单元,用于获取至少一种分类任务的训练数据;
训练单元,用于根据所述至少一种分类任务的训练数据,对所述神经网络模型进行训练,以便得到已训练的所述神经网络模型,其中,所述神经网络模型包括所述图神经网络和所述分类层。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有指令,所述处理器执行所述指令时,使得所述处理器执行权利要求1-10任一项所述的方法。
14.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序包括用于执行权利要求1-10中任一项所述的方法。
15.一种计算机程序产品,其特征在于,包括计算机程序代码,当所述计算机程序代码被电子设备运行时,使得所述电子设备执行权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210191468.8A CN114547308B (zh) | 2022-02-28 | 2022-02-28 | 文本处理的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210191468.8A CN114547308B (zh) | 2022-02-28 | 2022-02-28 | 文本处理的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547308A true CN114547308A (zh) | 2022-05-27 |
CN114547308B CN114547308B (zh) | 2024-08-23 |
Family
ID=81662105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210191468.8A Active CN114547308B (zh) | 2022-02-28 | 2022-02-28 | 文本处理的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547308B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116339899A (zh) * | 2023-05-29 | 2023-06-27 | 内江师范学院 | 一种基于人工智能的桌面图标的管理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860588A (zh) * | 2020-06-12 | 2020-10-30 | 华为技术有限公司 | 一种用于图神经网络的训练方法以及相关设备 |
CN112035683A (zh) * | 2020-09-30 | 2020-12-04 | 北京百度网讯科技有限公司 | 用户交互信息处理模型生成方法和用户交互信息处理方法 |
CN112818257A (zh) * | 2021-02-19 | 2021-05-18 | 北京邮电大学 | 基于图神经网络的账户检测方法、装置和设备 |
CN113407808A (zh) * | 2021-01-13 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 图神经网络模型适用性判定方法、装置和计算机设备 |
-
2022
- 2022-02-28 CN CN202210191468.8A patent/CN114547308B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860588A (zh) * | 2020-06-12 | 2020-10-30 | 华为技术有限公司 | 一种用于图神经网络的训练方法以及相关设备 |
CN112035683A (zh) * | 2020-09-30 | 2020-12-04 | 北京百度网讯科技有限公司 | 用户交互信息处理模型生成方法和用户交互信息处理方法 |
US20210209446A1 (en) * | 2020-09-30 | 2021-07-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for generating user interactive information processing model and method for processing user interactive information |
CN113407808A (zh) * | 2021-01-13 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 图神经网络模型适用性判定方法、装置和计算机设备 |
CN112818257A (zh) * | 2021-02-19 | 2021-05-18 | 北京邮电大学 | 基于图神经网络的账户检测方法、装置和设备 |
Non-Patent Citations (1)
Title |
---|
闫娟: "基于图神经网络和外部特征融合的短文本分类算法研究", 《CNKI优秀硕士学位论文数据库》, 15 January 2022 (2022-01-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116339899A (zh) * | 2023-05-29 | 2023-06-27 | 内江师范学院 | 一种基于人工智能的桌面图标的管理方法及装置 |
CN116339899B (zh) * | 2023-05-29 | 2023-08-01 | 内江师范学院 | 一种基于人工智能的桌面图标的管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114547308B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111066021B (zh) | 使用随机文档嵌入的文本数据表示学习 | |
US9830526B1 (en) | Generating image features based on robust feature-learning | |
Xie et al. | A Survey on Machine Learning‐Based Mobile Big Data Analysis: Challenges and Applications | |
CN112231569B (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN111985229B (zh) | 一种序列标注方法、装置及计算机设备 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN113688304A (zh) | 搜索推荐模型的训练方法、搜索结果排序的方法及装置 | |
CN111950596A (zh) | 一种用于神经网络的训练方法以及相关设备 | |
JP2021508866A (ja) | 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進 | |
EP3017379A1 (en) | Systems and methods for creating and implementing an artificially intelligent agent or system | |
CN115512005A (zh) | 一种数据处理方法及其装置 | |
CN118096924B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN114547308B (zh) | 文本处理的方法、装置、电子设备及存储介质 | |
Yang et al. | Attention mechanism and adaptive convolution actuated fusion network for next POI recommendation | |
CN117711001A (zh) | 图像处理方法、装置、设备和介质 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN111723186A (zh) | 用于对话系统的基于人工智能的知识图谱生成方法、电子设备 | |
CN116975221A (zh) | 文本阅读理解方法、装置、设备及存储介质 | |
CN113657092A (zh) | 识别标签的方法、装置、设备以及介质 | |
CN112818084B (zh) | 信息交互方法、相关装置、设备及计算机可读介质 | |
CN115131600A (zh) | 检测模型训练方法、检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |