CN111444340A - 文本分类和推荐方法、装置、设备及存储介质 - Google Patents

文本分类和推荐方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111444340A
CN111444340A CN202010162814.0A CN202010162814A CN111444340A CN 111444340 A CN111444340 A CN 111444340A CN 202010162814 A CN202010162814 A CN 202010162814A CN 111444340 A CN111444340 A CN 111444340A
Authority
CN
China
Prior art keywords
text
classified
model
models
bert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010162814.0A
Other languages
English (en)
Other versions
CN111444340B (zh
Inventor
王兴光
薛强
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010162814.0A priority Critical patent/CN111444340B/zh
Publication of CN111444340A publication Critical patent/CN111444340A/zh
Application granted granted Critical
Publication of CN111444340B publication Critical patent/CN111444340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分类方法和推荐方法、装置、设备及存储介质,该方法包括:获取待分类文本;将该待分类文本输入到分类模型进行分类处理,得到待分类文本的预测结果,该分类模型包括多个不同的向量提取模型和与每个向量提取模型一一对应的输出子模型,每个向量提取模型用于从待分类文本中提取不同的融合词向量,输出子模型用于对融合词向量进行分类得到预测结果,该预测结果包括多个标签种类。该技术方案由于使用了多个不同的向量提取模型,能够更全面地提取待分类文本地文本信息,并通过输出子模型对多个融合词向量进行分类以得到预测结果,使得能够对待分类文本的多标签的分类结果准确度更高。

Description

文本分类和推荐方法、装置、设备及存储介质
技术领域
本发明一般涉及自然语言处理技术领域,具体涉及一种文本分类和推荐方法、装置、设备及存储介质。
背景技术
随着网络信息技术的不断发展,互联网上在线文本信息数量急剧增加,为了从海量信息中分析用户感兴趣的内容,需要对文本信息进行处理,其中,文本分类是处理较大规模文本信息的关键技术,在信息处理中起着至关重要的作用,文本分类是对文本数据按照一定的分类体系或标准进行自动分类,得到一个或多个对应的标签。
目前,传统技术的文本分类方法可以是基于深度学习的CNN模型,通过使用不同长度卷积核的卷积神经网络提取文本信息,对提取的各个文本信息进行拼接,将拼接后的文本信息通过多个全连接层以得到对应的分类结果。
然而,相关技术中对文本数据的提取不够全面,且得到的分类结果准确度低。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种文本分类和推荐方法、装置、设备及存储介质,能够全面的提取文本数据,并提高了文本分类的准确性。
第一方面,本申请实施例提供了一种文本分类方法,该方法包括:
获取待分类文本;
将待分类文本输入到分类模型,得到待分类文本的预测结果进行分类处理,该分类模型包括多个不同的向量提取模型和每个向量提取模型一一对应的输出子模型,每个向量提取模型用于从待分类文本中提取不同的融合词向量,输出子模型用于对融合词向量进行分类得到预测结果,该预测结果包括多个标签种类。
第二方面,本申请实施例提供了一种文本推荐方法,该方法包括:
获取与待分类文本对应的预测结果,该预测结果是按照第一方面的方法处理得到的,该预测结果包括多个标签种类;
将预测结果转化为主题向量;
获取与待分类文本对应的线上向量;
将主题向量和线上向量拼接成与待分类文本对应的推荐向量;
计算推荐向量和与其他文本相对应的推荐向量之间的距离值;
在距离值满足推荐条件时,确定待分类文本为与其他文本关联的推荐内容。
第三方面,本申请提供了一种文本分类装置,该装置包括:
获取模块,用于获取待分类文本;
处理模块,用于将待分类文本输入到分类模型进行分类处理,得到待分类文本的预测结果,分类模型包括多个不同的向量提取模型和与每个向量提取模型一一对应的输出子模型,每个向量提取模型用于从待分类文本中提取不同的融合词向量,输出子模型用于对融合词向量进行分类得到预测结果,预测结果包括多个标签种类。
第四方面,本申请提供了一种文本分类装置,该装置包括:
第一获取模块,用于获取与待分类文本对应的预测结果,预测结果是按照第一方面的方法处理得到的,预测结果包括多个标签种类;
转化模块,用于将预测结果转化为主题向量;
第二获取模块,用于获取与待分类文本对应的线上向量;
拼接模块,用于将主题向量和线上向量拼接成与待分类文本对应的推荐向量;
计算模块,用于计算推荐向量和与其他文本相对应的推荐向量之间的距离值;
确定模块,用于在距离值满足推荐条件时,确定待分类文本为与其他文本关联的推荐内容。
第五方面,本申请实施例提供一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述第一方面的文本分类方法或第二方面的文本推荐方法。
第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上第一方面的文本分类方法或第二方面的文本推荐方法。
本申请实施例中提供的文本分类和推荐方法、装置、设备及存储介质,通过获取待分类文本,并将分类文本输入到分类模型进行分类处理,得到待分类文本的预测结果,该分类模型包括多个不同的向量提取模型和与每个向量提取模型一一对应的输出子模型,其中,每个向量提取模型用于从待分类文本中提取不同的融合词向量,输出子模型用于对融合词向量进行分类得到多个标签种类的预测结果。该技术方案由于使用了多个不同的向量提取模型,能够提取到多个不同的融合词向量,从而更全面地提取待分类文本的文本信息,并通过输出子模型对多个融合词向量进行分类以得到预测结果,使得能够对待分类文本的多标签的分类结果准确度更高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的文本分类的应用系统的系统架构图;
图2为本申请实施例提供的文本分类方法的流程示意图;
图3为本申请实施例提供的分类模型进行分类的结构示意图;
图4为本申请实施例提供的多个模型训练的结构示意图;
图5为本申请另一实施例提供的文本分类方法的流程示意图;
图6为本申请实施例提供的注意力机制模型的结构示意图;
图7为本申请实施例提供的分类模型的应用结构示意图;
图8为本申请实施例提供的BERT模型训练方法的流程示意图;
图9为本申请实施例提供的BERT模型训练方法的流程示意图;
图10为本申请实施例提供的文本推荐方法的流程示意图;
图11为本申请实施例提供的文本分类装置的结构示意图;
图12为本申请另一实施例提供的文本分类装置的结构示意图;
图13为本申请实施例提供的文本推荐装置的结构示意图;
图14为本申请实施例示出的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了便于理解,下面对本申请实施例涉及的一些技术术语进行解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件主要包括计算机视觉、语音处理技术、自然语言技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习使人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理以及机器学习等技术,具体通过下述实施例进行说明。
图1是本申请实施例提供的一种文本分类和推荐方法的实施环境架构图。如图1所示,该实施环境架构包括:终端100和服务器200。
终端100可以是各类AI应用场景中的终端设备。例如,终端100可以是智能电视、智能电视机顶盒等智能家居设备,或者终端100可以是智能手机、平板电脑以及电子书阅读器等移动式便携终端,或者,该终端100可以是智能眼镜、智能手表等智能可穿戴设备,本实施例对此不进行具体限定。
其中,终端100中可安装有基于自然语言处理的AI应用。比如,该AI应用可以是智能搜索、智能问答等应用。
服务器200可以是一台服务器,也可以是由若干台服务器构成的服务器集群,或者服务器200可以包含一个或多个虚拟化平台,或者服务器200可以是一个云计算服务中心。
其中,服务器200可以是为上述终端100中安装的AI应用提供后台服务的服务器设备。
终端100与服务器200之间通过有线或无线网络建立通信连接。可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan AreaNetwork,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
上述基于自然语言处理的AI应用系统在提供AI应用服务的过程中,可以通过多个BERT模型和对应的输出子模型对待分类文本进行分类,并根据多个文本分类结果提供AI应用服务。其中,上述多个BERT模型可以设置在服务器200中,由服务器训练以及应用;或者,上述多个BERT模型也可以设置在终端100中,并由服务器200训练及更新。
为了便于理解和说明,下面通过图2至图14详细阐述本申请实施例提供的文本分类和推荐方法、装置、设备及存储介质。
图2所示为本申请实施例的文本分类方法的流程示意图,该方法可以由计算机设备执行,该计算机设备可以是上述图1所示系统中的服务器200或者终端100,或者,该计算机设备也可以是终端100和服务器200的结合。如图2所示,该方法包括:
S101、获取待分类文本。
具体的,该待分类文本种类可以是多个,也可以是一个,例如该待分类文本可以是书籍的摘要,也可以是书籍的书名,还可以是书籍的作者,其中,摘要中可以包括多个字或者多个词,也可以是由一个或者多个词构成的句子、段落。
可选的,当待分类文本为多个时,可以对该多个待分类文本进行拼接得到长文本,可以按照多个待分类文本的获取顺序首尾拼接,获取长文本,并将该长文本输入至分类模型中;当待分类文本为一个时,直接将该待分类文本输入至分类模型中。
S102、将待分类文本输入到分类模型进行分类处理,得到待分类文本的预测结果,分类模型包括多个不同的向量提取模型和与每个向量提取模型一一对应的输出子模型,每个向量提取模型用于从待分类文本中提取不同的融合词向量,输出子模型用于对融合词向量进行分类得到预测结果,该预测结果包括多个标签种类。
本申请实施例中,上述向量提取模型包括BERT模型,其中,BERT(BidirectionalEncoder Representation from Transformers)模型是一个词向量模型,可以把抽象存在的文字转换为数学公式操作的向量,充分描述字符级、词级、句子级甚至句间关系特征,BERT模型能够提取待分类文本的文本信息。上述输出子模型可以包括全连接层和激活函数,能够对BERT模型输出的融合词向量进行分类,从而得到待分类文本的预测结果,该预测结果为待分类文本对应的标签种类。
上述分类模型包括多个BERT模型和与每个BERT模型对应的输出子模型,其中,每个BERT模型包括依次相连的多个注意力机制模型。多个BERT模型可以是至少两个,且不同的BERT模型对应的模型参数不同。需要说明的是,该多个BERT模型中的每个BERT模型是通过预先对已知标签种类的历史文本数据进行训练获得的模型,能够捕捉到文本中的上下文信息。
具体的,在获取到待分类文本后,可以将该待分类文本的字或词同步地输入到多个不同地BERT模型中的每一个,得到与每一个BERT模型相对应的融合词向量,并通过与每个BERT模型一一对应的输出子模型,对与每个BERT模型相对应的融合词向量进行分类处理,得到待分类文本的预测结果。其中,每个BERT模型和输出子模型对待分类样本进行处理后,可以得到对应的一种预测结果,得到的一种预测结果的数量与BERT模型的数量相同。
示例性地,当多个BERT模型为三个时,在获取到待分类文本后,可以将该待分类文本的字或词同步地输入至该三个BERT模型中,得到每个BERT模型对应的融合词向量。其中,在将该待分类文本输入三个BERT模型中的其中一个BERT模型中的过程中,可以先利用待分类文本的属性信息对待分类文本的字或词进行分隔处理,得到与属性信息相对应的初始词向量,该属性信息为文本固有的属性,例如不同的属性信息可以是书籍的摘要、书名、作者等。并将该初始词向量输入到多个注意力机制模型中,从而得到与每个BERT模型相对应的融合词向量。该融合词向量用于表征通过每个BERT模型提取的待分类文本的文本信息,为表示文本中各个字或词融合了全文语义信息后的向量。
在得到每个BERT模型对应的融合词向量之后,可以将每个BERT模型的融合词向量输入至与其对应的输出子模型中,以对每个BERT模型相对应的融合词向量进行分类处理,可以通过全连接层对融合词向量进行处理,得到全连接向量,并采用激活函数对全连接向量进行处理,得到待分类文本的预测结果集合,该预测结果结合包括多个标签种类。其中,待分类文本输入每个BERT模型和对应的输出子模型得到的预测结果对应的标签种类相同,每个标签种类对应的概率值不同。将待分类文本的字或词同步输入三个BERT模型和对应的输出子模型后,可以得到预测结果集合,该预测结果集合种可以包括三种预测结果。并对该三种预测结果进行分析,得到待分类文本的预测结果。
在得到多个预测结果集合后,可以将多个预测结果集合中相同标签种类对应的概率值的最大值作为待分类文本的预测结果,该预测结果为待分类文本的标签种类的概率。可选的,可以将该预测结果集合中的标签种类对应的概率值进行从大到小排序,取其最大值为该待分类文本的标签种类。
请参考图3,其示出了本申请实施例涉及的一种分类模型的结构示意图,如图3所示,该分类模型30包括多个BERT模型310和输出子模型320,多个BERT模型可以是第一BERT模型、第二BERT模型...第nBERT模型,每个BERT模型对应的输出子模型可以是第一输出子模型、第二输出子模型...第n输出子模型,在分类模型应用过程中,计算机设备可以获取一个或多个待分类文本,当获取多个待分类文本时,可以将该多个待分类文本进行拼接得到长文本,并将长文本同步地输入多个BERT模型中,得到各个词对应的融合词向量,并将对应的融合词向量输入至对应的输出子模型中进行处理,从而得到多个预测结果330,该预测结果可以第一预测结果、第二预测结果...第n预测结果,该预测结果为待分类文本的标签种类。并对多个预测结果进行分析处理,将多个预测结果集合中相同标签种类对应的概率值的最大值作为待分类文本的预测结果,从而得到待分类文本的预测结果340。
其中,请参见图4,其示出了本申请实施例涉及的对多个BERT模型中第一个BERT模型进行训练的结构示意图。如图4所示,本示例以三个BERT模型的训练过程进行示出,在对第一个BERT模型40进行训练的过程中,可以获取历史文本数据,将历史文本数据410分为训练集和验证集,利用训练集和验证集按照训练学习算法构建得到多个BERT模型中的第一BERT模型和与之对应的第一输出子模型420,并得到第一验证结果430,该第一验证结果中包括待分类文本的标签集合,并对验证集中预测正确的标签进行删除处理得到新的验证集,该新的验证集中包括未预测正确的标签集合,利用训练集和新的验证集按照训练学习算法构建得到多个BERT模型中的第二BERT模型和与之对应的第二输出子模型,并得到新的验证结果,继续将新的验证结果中预测正确的标签进行删除处理得到第三验证集,根据该第三验证集和训练集按照训练学习算法构建得到三个BERT模型和与每个BERT模型一一对应的输出子模型。
可选的,多个BERT模型的个数可以根据用户需求自定义设置,可以是三个BERT模型,也可以是四个BERT模型,BERT模型越多,则提取的待分类文本的数据更全面,得到的预测结果也更准确。
本申请实施例中通过获取待分类文本,并将待分类文本输入到包括多个不同的BERT模型和与每个BERT模型一一对应的输出子模型后,得到待分类文本的预测结果。该技术方案由于使用了多个不同对的BERT模型,能够提取到多个不同的融合词向量,从而更全面地提取到待分类文本的文本信息,并通过输出子模型对多个融合词向量进行分类以得到预测结果,使得能够对待分类文本的多标签的分类结果准确度更高。
进一步地,在上述实施例的基础上,图5为本申请实施例提供的文本分类方法的流程示意图,该文本分类方法可以应用于计算机设备,如图5所示,该文本分类方法可以包括以下步骤:
S501、获取待分类文本。
可选的,该待分类文本可以是计算机设备获取的任意文本类型的文本,其中,可以是从用户指定的位置获取的待分类文本,也可以是通过其他外部设备导入的待分类文本,还可以是用户向计算机设备提交的待分类文本,本实施例对此不做限定。该待分类文本可以是一个,也可以是多个,每个待分类文本中可以包括至少一个词。
示例性地,该待分类文本中可以是包括书籍的摘要、书名、作者等文本数据。
S502、对于每个BERT模型,利用待分类文本的属性信息对待分类文本的字或词进行分隔处理,得到与属性信息相对应的初始词向量。
具体的,在获取到待分类文本后,可以先确定该待分类文本的属性信息,该属性信息为待分类文本的固有文本属性,例如不同属性可以是书籍的摘要、书名、作者等,按照待分类文本的属性信息将待分类文本的字或词通过分隔符进行分隔处理,并对分隔处理后的文本和分隔符进行向量映射处理,得到与属性信息对应的初始词向量。其中,向量映射处理为将语义空间关系转化为向量空间关系,即将语义文本转化为计算机设备能够进行处理的向量。
可选的,当待分类文本为多个时,可以将该多个待分类文本中的每个待分类文本的属性信息进行拼接,得到长文本,并对长文本进行向量映射处理,得到长文本中不同属性信息中各个字或词对应的初始词向量;当待分类文本为一个时,可以直接利用属性信息对该待分类文本进行向量映射获得属性信息相对应的初始词向量。
S503、将该初始词向量输入多个注意力机制模型,得到与每个BERT模型相对应的融合词向量。
本申请实施例中,该分类模型中包括多个BERT模型和对应的输出子模型,其中,BERT模型的个数可以根据用户的不同需求进行自定义设置。
其中,每个BERT模型可以包括依次相连的多个注意力机制模型,每个注意力机制模型采用Attention机制,每个注意力机制模型对应一个attention机制,常用的BERT模型是12层的attention机制,即对应12层的注意力机制模型。
需要说明的是,该注意力机制模型可以是基于注意力机制的机器学习模型,也称Transformer编码器,能够并行处理文本中的所有单词或符号,同时利用自注意力机制将上下文与较远的单词结合起来,通过并行处理所有单词,并让每个单词在多个处理步骤中注意到句子中的其他单词。其中,attention机制包括输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成,所有键计算查询的点积,并应用softmax函数获得值的权重,可以通过如下公式表示:
Figure BDA0002406387460000111
其中,Q表示维度为d的查询,K表示维度为d的键,V表示维度为d的值,T为常数。
具体的,当使用三个BERT模型和对应的输出子模型对待分类文本进行文本分类时,在获取到待分类文本的属性信息相对应的初始词向量后,可以将各个词对应的初始词向量同步地输入至该三个BERT模型中的第一BERT模型、第二BERT模型和第三BERT模型中。
在对待分类文本处理得到与属性信息相对应的初始词向量后,将初始词向量输入第一BERT模型中的第一注意力机制模型中,得到第一注意力机制模型对应的输出结果,并将该输出结果作为下一注意力机制模型的输入,从而确定下一输出结果,依次类推,前一级注意力机制模型的输出作为后一级注意力机制模型的输入,通过各个注意力机制模型对各个词的初始词向量的依次融合编码,从而确定出最后一个注意力机制模型的输出结果,并将最后一个注意力机制模型的输出结果作为该第一BERT模型对应的融合词向量。
可选的,请参见图6所示,每个注意力机制模型60可以包括注意力层610和前馈网络层620,其中,前馈网络层为一个简单的全连接层,每个层均进行了残差连接和归一化处理。可以通过目标注意力机制模型中的注意力层对各个词的词向量进行融合,从而得到融合后的词向量,该目标注意力机制模型可以是多个注意力机制模型中的任意一个注意力机制模型;并将融合后的词向量和各个词的词向量经过前馈网络层进行处理,从而得到前馈处理后的向量。并将前馈处理后的向量输入下一个注意力机制模型的注意力层继续进行处理,直到通过最后一个注意力机制模型的前馈网络层处理后,得到融合词向量。
其中,通过注意力层对各个词的词向量进行融合时,例如可以是通过对各个词进行卷积、加权等方式,使得融合后的词向量融合了当前词与文本中其他词之间的关联关系。需要说明的是,该注意力机制模型除包含注意力层和前馈网络层外,还可以包括其他处理层。
S504、通过全连接层对该融合词向量进行处理,得到全连接向量。
S505、采用激活函数对该全连接向量进行处理,得到待分类文本地预测结果集合,该预测结果集合包括多个标签种类。
具体的,该分类模型的输出子模型包括但不限于全连接层和激活函数。全连接层可以包括一层,或者也可以包括多层。全连接层主要是用于对融合词向量进行分类的作用。
对于第一BERT模型,当得到第一BERT模型对应的融合词向量后,可以将融合词向量通过全连接层进行处理,得到全连接向量,并采用激活函数对该全连接向量进行处理,得到待分类文本的第一预测结果,该第一预测结果可以是待分类文本属于多个不同标签种类的概率。例如当待分类文本为书籍时,该标签种类可以是科幻、悬疑、推理等。其中,上述激活函数可以是softmax函数,激活函数的作用是用来加入非线性因素,因为线性模型的表达能力不够,能够把输入的连续实值变换为0和1之间的输出。
同样,将初始词向量输入多个BERT模型中的第二BERT模型中,先将初始词向量输入第二BERT模型中的第一注意力机制模型,确定输出结果,并逐步得到最后一个注意力机制模型的输出结果,将该最后一个注意力机制模型的输出结果作为第二BERT模型对应的融合词向量,并将融合词向量通过全连接层和激活函数进行处理,得到第二预测结果。与第一BERT模型、第二BERT模型的处理过程类似,将初始词向量输入多个BERT模型中的第三BERT模型进行处理,得到第三预测结果。其中,第一预测结果、第二预测结果和第三预测结果的标签种类对应的概率值不同。
示例性地,可以参见图7所示,当待分类文本中包括书本的摘要、书名和作者可以是{W1,W2,...,Wi},其中,i为每个每个数据集中字或词的个数,可以将文本中第一个字或词的第一个标记为特殊分类符CLS字符,不同属性的文本之间用分割符SEP进行标记。对其进行向量处理后,得到初始词向量,其中该初始词向量包括摘要数据集、书名数据集、作者数据集,每个数据集中包括多个字或词,可以是{ECLS,Ew1,Ew2,...,Ewi,ESEP,Ew1,Ew2,...,Ewi,ESEP,Ew1,Ew2,...,Ewi}。
将该初始词向量输入BERT模型中多个注意力机制模型中的第一注意力机制模型,得到输出结果,并将该输出结果输入至下一注意力机制模型中得到输出结果,直至通过最后一个注意力机制模型后,得到融合词向量{TCLS,Tw1,Tw2,...,Twi,TSEP,Tw1,Tw2,...,Twi,TSEP,Tw1,Tw2,...,Twi},并将该融合词向量通过全连接层进行分类和激活函数进行处理,得到对应的预测结果,该预测结果可以是不同标签种类的概率,其中,可以按照标签种类的不同概率值对进行排序,概率值大的对应的标签种类记为1,概率小的对应的标签种类记为0。
S506、将多个预测结果集合中相同标签种类对应地概率值的最大值作为待分类文本的预测结果。
当根据多个BERT模型和对应的输出子模型得到多个预测结果集合时,当有三个BERT模型时,该预测结果集合中包括第一预测结果、第二预测结果和第三预测结果。其中,每个预测结果均为待分类文本属于多个不同标签种类的概率,每个预测结果中具有相同的标签种类,对于每个标签种类,可以选择概率值的最大值作为待分类文本的预测结果。
例如,对于a书,经过两个BERT模型和对应的输出子模型对其进行分类处理,将a书同步输入至该两个BERT模型和对应的输出子模型中,得到多个预测结果,其中,第一BERT模型和对应的输出子模型输出的第一预测结果可以为悬疑0.7,推理0.6,科幻0.5,建筑0,第二BERT模型和对应的输出子模型输出的第二预测结果可以为科幻0.3,推理0.2,建筑0.2,悬疑0,则可以得到其预测结果为悬疑0.7,推理0.6,科幻0.3,建筑0.2,即可以推断出该a书偏悬疑和推理。
本申请实施例中利用待分类文本的属性信息对待分类文本的字或词进行分隔处理,得到与属性信息相对应初始词向量,并将初始词向量输入多个注意力机制模型,得到每个BERT模型对应的融合词向量,通过全连接层对该融合词向量进行处理,得到全连接向量,并采用激活函数对全连接向量进行处理,得到待分类文本的预测结果集合,并将多个预测结果集合中相同标签种类对应的概率值的最大值作为待分类文本的预测结果。该方法由于每个BERT模型中使用了多个注意力机制模型,使得提取文本信息的速度快,且通过使用多个BERT模型,从而能够更加全面的提取到待分类文本的文本信息,并采用全连接层和激活函数对其进行处理,进而提高了文本分类的准确性。
上述实施例中的分类模型包括预先训练好的多个BERT模型,以下为对多个BERT模型的训练过程的描述。请参考图8,其示出了本申请实施例涉及的多个BERT模型中的第一BERT模型和第二BERT模型的训练过程的流程示意图。如图8所示,该方法可以包括:
S801、获取历史文本数据,并将该历史文本数据分为训练集和验证集。
其中,上述该历史文本数据可以是多个,也可以是一个,其中,每个历史文本数据可以包括至少一个字或词,例如该历史文本数据可以是书籍的摘要,也可以是书籍的书名,还可以是书籍的作者,其中,摘要中可以包括多个字或词;该历史文本数据为已知多个标签种类的书籍。
具体的,在获取到历史文本数据后,可以将历史文本数据按照一定比例随机分为训练集和验证集,其中,训练集用于对初始BERT模型进行训练,以得到训练好的第一BERT模型,验证集用于对训练好的第一BERT模型进行验证,以验证第一BERT模型性能的好坏。
S802、利用训练集和验证集按照训练学习算法初步构建得到多个BERT模型中的第一个BERT模型和与之对应的第一输出子模型。
具体的,在得到多个BERT模型中的第一个BERT模型和与之对应的输出子模型时,可以根据训练集和验证集对初始BERT模型中的参数进行优化,得到第一个BERT模型和对应的第一输出子模型。
可选的,在上述实施例的基础上,请参考图9,图9为对构建第一个BERT模型方法的流程示意图。该方法包括:
S901、获取历史文本数据,将历史文本数据分为训练集和验证集。
S902、利用训练集对待构建的第一BERT模型和第一输出子模型进行训练,得到待验证的第一BERT模型和第一输出子模型。
S903、利用验证集中对待验证的第一个BERT模型和第一输出子模型,按照损失函数最小化对待验证的第一BERT模型和第一输出子模型进行优化处理,得到第一BERT模型和第一输出子模型。
具体的,在将历史文本数据分为训练集和验证集之后,将训练集输入待构建的第一BERT模型中,该待构建的第一BERT模型包括多个相连的注意力机制模型,可以先对训练集进行处理得到初始词向量,并将初始词向量输入至待构建的第一BERT模型中的第一注意力机制模型中,得到对应的结果,并将该结果输入至下一注意力机制模型中,依次类推,上一级注意力机制模型的输出作为下一级注意力机制模型的输入,从而得到最后一个注意力机制模型的输出结果,该输出结果为可以用向量表示,其中包括初始BERT模型提取的文本信息,该文本信息可以是训练集中的融合词向量。其中,该注意力机制模型中包括注意力层和前馈网络层,第一输出子模型包括全连接层和激活函数,将得到的的融合词向量输入至全连接层中,得到全连接向量,并使用激活函数对全连接向量进行处理,得到对应的训练结果。利用训练集对待构建的第一BERT模型和第一输出子模型进行训练,得到待验证的第一BERT模型和第一输出子模型。
计算机设备在训练BERT模型的过程中,利用验证集中对待验证的第一个BERT模型和第一输出子模型,按照损失函数最小化对待验证的第一BERT模型和第一输出子模型进行优化处理,得到第一BERT模型和第一输出子模型,根据该验证集输入待验证的第一BERT模型中得到的结果和标注结果之间的差异,对待构建的第一BERT模型中的参数进行更新,以实现对第一BERT模型进行训练的目的,其中,上述标注结果可以是人工对历史文本数据进行标注得到的结果。
可选的,上述对待验证的第一模型中的参数进行更新,可以是对待构建的第一BERT模型中的权重矩阵以及偏置矩阵等矩阵参数进行更新。其中,上述权重矩阵、偏置矩阵包括但不限于是待验证的第一BERT模型中的自注意力层、前馈网络层、全连接层中的矩阵参数。
本申请实施例中,可以使用损失函数计算验证集输入待验证的第一BERT模型中得到的结果和标签结果的损失值,从而对待验证的第一BERT模型中的参数进行更新。可选的,损失函数可以使用交叉熵损失函数,归一化交叉熵损失函数,或者可以使用Focalloss,其公式可以通过如下公式表示:
交叉熵:
Figure BDA0002406387460000161
Focalloss:
Figure BDA0002406387460000162
其中,通过损失函数对待验证的第一BERT模型中的参数进行更新时,可以是根据损失函数确定待验证的第一BERT模型未收敛时,通过调整模型中的参数,以使得待验证的第一BERT模型收敛,从而得到第一BERT模型。待验证的第一BERT模型收敛,可以是指待验证的第一BERT模型对验证集的输出结果与训练数据的标注结果之间的差值小于预设阈值,或者,输出结果与训练数据的标注结果之间的差值的变化率趋近于某一个较低值。当计算的损失函数较小,或者,与上一轮迭代输出的损失函数之间的插值趋近于0,则认为待验证的第一BERT模型收敛。
S803、对验证集进行删除处理得到新的验证集。
在得到第一BERT模型后,可以将验证集输入第一BERT模型中得到的验证结果,该验证结果包括对历史文本数据预测正确的标签对应的概率。在标签集合中删除预测正确的标签,去除验证集中预测正确的标签,得到新的验证集,该验证集中包括预测错误的标签。
其中,验证集中预测正确的标签组成“去除标签库”,可以去除验证集中在“去除标签库”中出现的标签,如果数据标签被全部去除,则也去掉该标签对应的数据。
S804、利用训练集和新的验证集按照训练学习算法构建得到多个BERT模型中的第二BERT模型和与之对应的第二输出子模型。并返回对验证集进行删除处理得到新的验证集步骤依次执行,直到构建得到多个BERT模型和每个BERT模型一一对应的输出子模型。
进一步地,根据训练集和新的验证集按照与第一BERT模型训练过程类似的训练学习算法构建得到第二BERT模型,并继续去除验证集中预测正确的标签,得到下一验证集,并根据训练和下一验证集继续训练,以得到下一BERT模型。其中,BERT模型的个数可以根据用户需求自定义设置。
另外,为了对本申请中模型的性能进行测试,通过分别计算出AnneXML、FastXML、BERT-1、BERT-2、BERT-3等不同模型的准确度指标,其中,AnneXML、FastXML表示现有技术中得到的模型,BERT-1表示多次模型训练中均使用交叉熵损失函数对模型参数进行优化后得到的模型,BERT-2表示多次模型训练中均使用归一化交叉熵损失函数对模型参数进行优化后得到的模型,BERT-3表示多次模型训练中均使用Focalloss函数对模型参数进行优化后得到的模型,该准确度指标包括P@1、P@2、P@3、P@4、P@5、nDCG@1、nDCG@2、nDCG@3、nDCG@4、nDCG@5得到如下数据:
Figure BDA0002406387460000171
Figure BDA0002406387460000181
其中,P@n为得到的预测结果中取向量中前n个数据的概率值,即P@1为取前1个数据的概率值,P@2为取前2个数据的概率值,nDCG(Normalized Discounted cumulativegain,归一化折损累计增益),为模型准确预测的性能指标,nDCG@n表示预测结果中取向量中的前n个数据的归一化折损累计增益,nDCG@1表示取前1个数据的归一化折损累计增益,nDCG@2表示取前2个数据的归一化折损累计增益。
通过以上数据表示:BERT-3模型的性能指标最好,即在对多个模型进行训练的过程中,使用Focalloss函数对模型参数进行更新,得到的模型效果更优。
本实施例中能够在对每轮模型进行训练的过程中,删除已经预测出的高频标签,只用未预测出的标签数据训练下一轮的模型,从而能够使得训练出的下一个模型在应用过程中能够对未预测出的低频标签有很好的预测效果。
图10为本申请实施例提供的文本推荐方法流程示意图。图10所示的方法由计算机设备执行,该计算机设备可以是上述图1所示系统中的服务器200或者终端100,或者,该计算机设备也可以是终端100和服务器200的结合。如图10所示,该方法包括:
S1001、获取与待分类文本对应的预测结果,该预测结果包括多个标签结果。
S1002、将预测结果转化为主题向量。
具体的,在获取到待分类文本的预测结果后,该预测结果包括多个标签结果,可以将待分类文本的标签结果中的标签词通过Word2Vec转化为主题向量,例如预测结果可以是A书属于悬疑、推理,其对应的标签词为悬疑、推理。
其中,Word2Vec为用来产生词向量的相关模型,可以用来映射每个标签词到一个词向量。不同的标签词对应有不同的词向量,一本书可以对应有多个词向量。
可选的,可以对该多个词向量进行向量求和取平均,从而得到该文本对应的主题向量。
S1003、获取与待分类文本对应的线上向量。
S1004、将主题向量和线上向量拼接成与待分类文本对应的推荐向量。
具体的,当待分类文本进行处理时,可以通过计算待分类文本的摘要和书名的匹配关系,从而得到对应的线上向量。并将主题向量与线上向量进行拼接处理,从而得到待分类文本对应的推荐向量。其中,该推荐向量不仅融合了线上向量的文本信息,而且融合了主题向量的文本信息。
S1005、计算推荐向量和与其他文本相对应的推荐向量之间的距离值。
S1006、在距离值满足推荐条件时,确定待分类文本为与其他文本关联的推荐内容。
在确定出待分类文本的推荐向量后,可以采用预设算法计算待分类文本的推荐向量与其他文本的推荐向量之间的距离,该预设算法可以是KNN算法,可以使用如下所示公式计算该文本与其余文本之间的距离:
Figure BDA0002406387460000191
其中,r为推荐向量,u为待分类文本的编号,v为其他文本中的任意一个文本的编号,i表示向量维度的编号,如果是100维向量,则i的值为1,2,...,100,ru,i表示待分类文本中推荐向量的维度i对应的数值。rv,i表示其余文本中的任意一个文本中推荐向量的维度i对应的数值。
在计算出该待分类文本和其他文本之间的距离值后,在距离值满足推荐条件时,确定待分类文本为与其他文本关联的推荐内容,该推荐条件可以是距离值小于预设阈值,推荐内容可以是符合推荐条件的书名及作者等文本信息。
例如,当用户阅读了该待分类文本时,可以根据对应的标签分类查找到与其相似标签类别的书籍,然后计算该待分类文本与其余书籍之间的距离值,取距离值小于预设阈值的文本为待推荐文本,如果用户阅读了该待分类文本,则将距离值小于预设阈值的待推荐文本推荐给用户。
本实施例中能够将主题向量和线上向量进行拼接,从而得到推荐向量,使得改进了文本内容的描述质量,进而保证了得到的推荐内容准确度更高,更加符合用户的需求。
另一方面,图11为本申请实施例提供的一种文本分类装置的结构示意图。该装置可以为终端或服务器内的装置,如图11所示,该装置700包括:
获取模块710,用于获取待分类文本;
处理模块720,用于将待分类文本输入到分类模型进行分类处理,得到待分类文本的预测结果,该分类模型包括多个不同的向量提取模型和与每个向量提取模型一一对应的输出子模型,每个向量提取模型用于从待分类文本中提取不同的融合词向量,输出子模型用于对融合词向量进行分类得到预测结果,该预测结果包括多个标签种类。
可选的,参见图12,向量提取模型包括BERT模型,处理模块720,包括:
第一处理单元721,用于将待分类文本的字或词同步地输入到多个不同地BERT模型中的每一个,得到与每一个BERT模型相对应的融合词向量;
第二处理单元722,用于通过与每个BERT模型一一对应的输出子模型,对与每个BERT模型相对应的融合词向量进行分类处理,得到待分类文本的预测结果。
可选的,第一处理单元721,还用于:
利用待分类文本的属性信息对待分类文本字或词进行分隔处理,得到与属性信息相对应的初始词向量;
将初始词向量输入到多个注意力机制模型,得到与每个BERT模型相对应的融合词向量。
可选的,第二处理单元722,还用于:
通过全连接层对融合词向量进行处理,得到全连接向量;
采用激活函数对全连接向量进行处理,得到待分类文本的预测结果集合,该预测结果结合包括多个标签种类;
将多个预测结果集合中相同标签种类对应的概率值的最大值作为待分类文本的预测结果。
可选的,处理模块720,还用于:
该分类模型包括多个BERT模型和与每个BERT模型一一对应的输出子模型,该分类模型按照如下方式构建:
获取历史文本数据,将历史文本数据分为训练集和验证集;
利用训练集和验证集按照训练学习算法初步构建得到多个BERT模型中的第一个BERT模型和与之对应的第一输出子模型;
对验证集进行删除处理得到新的验证集;
利用训练集和新的验证集按照训练学习算法构建得到多个BERT模型中的第二BERT模型和与之对应的第二输出子模型;
返回对验证集进行删除处理得到新的验证集步骤依次执行,直到构建得到多个BERT模型和每个BERT模型一一对应的输出子模型。
可选的,处理模块720,还用于:
获取历史文本数据,将历史文本数据分为训练集和验证集;
利用训练集对待构建的第一BERT模型和第一输出子模型进行训练,得到待验证的第一BERT模型和第一输出子模型;
利用验证集中对待验证的第一BERT模型和第一输出子模型,按照损失函数最小化对待验证的第一BERT模型和第一输出子模型进行优化处理,得到第一BERT模型和第一输出子模型。
可以理解的是,本实施例的文本分类装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,在此不再赘述。
综上所述,本申请实施例提供的文本分类装置,获取模块获取待分类文本,处理模块将待分类文本输入分类模型进行分类处理,得到待分类文本的预测结果,该分类模型包括多个不同的向量提取模型和与每个向量提取模型一一对应的输出子模型。由于使用了多个不同的向量提取模型,能够提取到多个不同的融合词向量,从而更全面地提取待分类文本的文本信息,并通过输出子模型对多个融合词向量进行分类以得到预测结果,使得能够对待分类文本的多标签的分类结果准确度更高。
另一方面,图13为本申请实施例提供的一种文本推荐装置的结构示意图。该装置可以为终端或服务器内的装置,如图13所示,该装置800包括:
第一获取模块810,用于获取与待分类文本对应的预测结果,所述预测结果包括多个标签种类;
转化模块820,用于将预测结果转化为主题向量;
第二获取模块830,用于获取与待分类文本对应的线上向量;
拼接模块840,用于将主题向量和线上向量拼接成与待分类文本对应的推荐向量;
计算模块850,用于计算推荐向量和与其他文本相对应的推荐向量之间的距离值;
确定模块860,用于在距离值满足推荐条件时,确定待分类文本为与其他文本关联的推荐内容。
本申请实施例提供的文本推荐装置,通过使用转化模块将第一获取模块获取的预测结果转化为主题向量,并通过拼接模块在将主题向量和线上向量进行拼接,从而得到推荐向量,使得改进了文本内容的描述质量,进而通过计算模块更加精确的计算出待分类文本和其他文本之间的距离值,从而保证了得到的推荐内容准确度更高,更加符合用户的需求。
另一方面,本申请实施例提供的设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述的文本分类方法或文本推荐方法。
下面参考图14,图14为本申请实施例的终端设备的计算机系统的结构示意图。
如图14所示,计算机系统300包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分303加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有系统300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分303从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括:获取模块、处理模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块还可以被描述为“用于获取待分类文本”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的文本分类方法:
获取待分类文本;
将待分类文本输入到分类模型进行分类处理,得到待分类文本的预测结果,分类模型包括多个不同的向量提取模型和与每个向量提取模型一一对应的输出子模型,每个向量提取模型用于从待分类文本中提取不同的融合词向量,输出子模型用于对融合词向量进行分类得到预测结果,预测结果包括多个标签种类。
综上所述,本申请实施例中提供的文本分类方法、装置、设备及存储介质,通过获取待分类文本,并将待分类文本输入到分类模型进行分类处理,得到待分类文本的预测结果,其中,该分类模型包括多个不同的向量提取模型和与每个向量提取模型一一对应的输出子模型,每个向量提取模型用于从待分类文本中提取不同的融合词向量,输出子模型用于对融合词向量进行分类得到预测结果。该技术方案由于使用了多个不同的向量提取模型,能够提取到多个不同的融合词向量,从而更全面地提取待分类文本的文本信息,并通过输出子模型对多个融合词向量进行分类以得到预测结果,使得能够对待分类文本的多标签的分类结果准确度更高。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种文本分类方法,其特征在于,包括:
获取待分类文本;
将所述待分类文本输入到分类模型进行分类处理,得到所述待分类文本的预测结果,所述分类模型包括多个不同的向量提取模型和与每个所述向量提取模型一一对应的输出子模型,每个所述向量提取模型用于从所述待分类文本中提取不同的融合词向量,所述输出子模型用于对所述融合词向量进行分类得到所述预测结果,所述预测结果包括多个标签种类。
2.根据权利要求1所述的文本分类方法,其特征在于,所述向量提取模型包括BERT模型,所述将所述待分类文本输入到分类模型,得到所述待分类文本的预测结果,包括:
将所述待分类文本的字或词同步地输入到所述多个不同的BERT模型中的每一个,得到与每一个BERT模型相对应的融合词向量;
通过与每个BERT模型一一对应的输出子模型,对与每个BERT模型相对应的融合词向量进行分类处理,得到所述待分类文本的预测结果。
3.根据权利要求2所述的文本分类方法,其特征在于,每个所述BERT模型包括依次相连的多个注意力机制模型,对于每个所述BERT模型,将所述待分类文本的字或词输入到每个BERT模型,得到与每个BERT模型相对应的融合词向量包括以下步骤:
利用所述待分类文本的属性信息对所述待分类文本的字或词进行分隔处理,得到与所述属性信息相对应的初始词向量;
将所述初始词向量输入到所述多个注意力机制模型,得到与每个所述BERT模型相对应的所述融合词向量。
4.根据权利要求2所述的文本分类方法,其特征在于,每个所述输出子模型包括全连接层和激活函数,通过与每个BERT模型一一对应的输出子模型,对与每个BERT模型相对应的融合词向量进行分类处理,得到所述待分类文本的预测结果,包括:
通过所述全连接层对所述融合词向量进行处理,得到全连接向量;
采用激活函数对所述全连接向量进行处理,得到所述待分类文本的预测结果集合,所述预测结果集合包括多个标签种类;
将多个所述预测结果集合中相同标签种类对应的概率值的最大值作为所述待分类文本的预测结果。
5.根据权利要求1所述的文本分类方法,其特征在于,所述分类模型包括多个向量提取模型和与每个所述向量提取模型一一对应的输出子模型,当所述向量提取模型包括BERT模型时,所述分类模型按照如下方式构建:
获取历史文本数据,将所述历史文本数据分为训练集和验证集;
利用所述训练集和验证集按照训练学习算法初步构建得到所述多个BERT模型中的第一个BERT模型和与之对应的第一输出子模型;
对所述验证集进行删除处理得到新的验证集;
利用所述训练集和所述新的验证集按照训练学习算法构建得到多个BERT模型中的第二BERT模型和与之对应的第二输出子模型;
返回对所述验证集进行删除处理得到新的验证集步骤依次执行,直到构建得到所述多个BERT模型和每个所述BERT模型一一对应的输出子模型。
6.根据权利要求5所述的文本分类方法,其特征在于,所述利用所述训练集和验证集按照训练学习算法初步构建得到第一BERT模型和与之对应的第一输出子模型包括:
获取历史文本数据,将所述历史文本数据分为训练集和验证集;
利用所述训练集对待构建的第一BERT模型和第一输出子模型进行训练,得到待验证的第一BERT模型和第一输出子模型;
利用所述验证集中对所述待验证的第一个BERT模型和第一输出子模型,按照损失函数最小化对所述待验证的第一BERT模型和第一输出子模型进行优化处理,得到第一BERT模型和第一输出子模型。
7.一种文本推荐方法,其特征在于,包括:
获取与待分类文本对应的预测结果,所述预测结果是按照权利要求1-6任意一项所述的方法处理得到的,所述预测结果包括多个标签种类;
将所述预测结果转化为主题向量;
获取与所述待分类文本对应的线上向量;
将所述主题向量和所述线上向量拼接成与所述待分类文本对应的推荐向量;
计算所述推荐向量和与其他文本相对应的推荐向量之间的距离值;
在所述距离值满足推荐条件时,确定所述待分类文本为与所述其他文本关联的推荐内容。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类文本;
处理模块,用于将所述待分类文本输入到分类模型进行分类处理,得到所述待分类文本的预测结果,所述分类模型包括多个不同的向量提取模型和与每个所述向量提取模型一一对应的输出子模型,每个所述向量提取模型用于从所述待分类文本中提取不同的融合词向量,所述输出子模型用于对所述融合词向量进行分类得到所述预测结果,所述预测结果包括多个标签种类。
9.一种文本推荐装置,其特征在于,所述装置包括:
第一获取模块,用于获取与待分类文本对应的预测结果,所述预测结果是按照权利要求1-6任意一项所述的方法处理得到的,所述预测结果包括多个标签种类;
转化模块,用于将所述预测结果转化为主题向量;
第二获取模块,用于获取与所述待分类文本对应的线上向量;
拼接模块,用于将所述主题向量和所述线上向量拼接成与所述待分类文本对应的推荐向量;
计算模块,用于计算所述推荐向量和与其他文本相对应的推荐向量之间的距离值;
确定模块,用于在所述距离值满足推荐条件时,确定所述待分类文本为与其他文本关联的推荐内容。
10.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在存储器熵并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现如权利要求1-6任一项所述的文本分类方法或权利要求7所述的文本推荐方法。
11.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现如权利要求1-6任一项所述的文本分类方法或权利要求7所述的文本推荐方法。
CN202010162814.0A 2020-03-10 2020-03-10 文本分类方法、装置、设备及存储介质 Active CN111444340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010162814.0A CN111444340B (zh) 2020-03-10 2020-03-10 文本分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010162814.0A CN111444340B (zh) 2020-03-10 2020-03-10 文本分类方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111444340A true CN111444340A (zh) 2020-07-24
CN111444340B CN111444340B (zh) 2023-08-11

Family

ID=71627278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010162814.0A Active CN111444340B (zh) 2020-03-10 2020-03-10 文本分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111444340B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931081A (zh) * 2020-08-10 2020-11-13 北京嘀嘀无限科技发展有限公司 一种上车点推荐方法及系统
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112231485A (zh) * 2020-12-14 2021-01-15 平安科技(深圳)有限公司 文本推荐方法、装置、计算机设备及存储介质
CN112329823A (zh) * 2020-10-23 2021-02-05 北京中科智加科技有限公司 文本分类方法及装置、设备及介质
CN112417111A (zh) * 2020-11-04 2021-02-26 厦门快商通科技股份有限公司 文本分类方法、问答系统及对话机器人
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112699938A (zh) * 2020-12-30 2021-04-23 北京邮电大学 一种基于图卷积网络模型的分类方法及装置
CN112734099A (zh) * 2020-12-31 2021-04-30 北京知因智慧科技有限公司 企业风险的预测方法、装置及服务器
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112861543A (zh) * 2021-02-04 2021-05-28 吴俊� 一种面向研发供需描述文本撮合的深层语义匹配方法和系统
CN112883729A (zh) * 2021-03-11 2021-06-01 网易(杭州)网络有限公司 文本创作的词汇推荐方法、装置及服务器
CN113065347A (zh) * 2021-04-26 2021-07-02 上海交通大学 基于多任务学习的刑事案件判决预测方法、系统及介质
CN113268597A (zh) * 2021-05-25 2021-08-17 平安科技(深圳)有限公司 文本分类方法、装置、设备及存储介质
CN113268599A (zh) * 2021-05-31 2021-08-17 平安国际智慧城市科技股份有限公司 文件分类模型的训练方法、装置、计算机设备及存储介质
CN113408285A (zh) * 2021-05-26 2021-09-17 杭州安恒信息技术股份有限公司 金融主体的识别方法、电子装置和存储介质
CN113590813A (zh) * 2021-01-20 2021-11-02 腾讯科技(深圳)有限公司 文本分类方法、推荐方法、装置及电子设备
CN113822074A (zh) * 2021-06-21 2021-12-21 腾讯科技(深圳)有限公司 内容分类方法、装置、电子设备及存储介质
CN114817526A (zh) * 2022-02-21 2022-07-29 华院计算技术(上海)股份有限公司 文本分类方法及装置、存储介质、终端
WO2022161202A1 (zh) * 2021-01-27 2022-08-04 腾讯科技(深圳)有限公司 多媒体资源分类模型训练方法和多媒体资源推荐方法
CN114969316A (zh) * 2021-02-24 2022-08-30 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及介质
CN116595168A (zh) * 2023-04-07 2023-08-15 北京数美时代科技有限公司 一种基于bert模型的快速分类方法、系统、介质及设备
CN116701303A (zh) * 2023-07-06 2023-09-05 浙江档科信息技术有限公司 基于深度学习的电子文件分类方法、系统及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008029154A1 (en) * 2006-09-07 2008-03-13 Xploite Plc Processing a database
US20150206069A1 (en) * 2014-01-17 2015-07-23 Matthew BEERS Machine learning-based patent quality metric
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
CN110245800A (zh) * 2019-06-19 2019-09-17 南京大学金陵学院 一种基于优化向量空间模型定制商品信息分类标识的方法
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN110781381A (zh) * 2019-09-11 2020-02-11 平安科技(深圳)有限公司 基于神经网络的数据验证方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008029154A1 (en) * 2006-09-07 2008-03-13 Xploite Plc Processing a database
US20150206069A1 (en) * 2014-01-17 2015-07-23 Matthew BEERS Machine learning-based patent quality metric
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
CN110245800A (zh) * 2019-06-19 2019-09-17 南京大学金陵学院 一种基于优化向量空间模型定制商品信息分类标识的方法
CN110781381A (zh) * 2019-09-11 2020-02-11 平安科技(深圳)有限公司 基于神经网络的数据验证方法、装置、设备及存储介质
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JACOB DEVLIN等: "Bert: Pre-training of deep bidirectional transformers for language understanding", pages 1 - 6 *
丁里: "基于机器学习的P2P网络流分类研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 03, pages 139 - 32 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931081A (zh) * 2020-08-10 2020-11-13 北京嘀嘀无限科技发展有限公司 一种上车点推荐方法及系统
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112214599B (zh) * 2020-10-20 2022-06-24 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112329823A (zh) * 2020-10-23 2021-02-05 北京中科智加科技有限公司 文本分类方法及装置、设备及介质
CN112329823B (zh) * 2020-10-23 2022-02-01 北京中科智加科技有限公司 文本分类方法及装置、设备及介质
CN112417111A (zh) * 2020-11-04 2021-02-26 厦门快商通科技股份有限公司 文本分类方法、问答系统及对话机器人
CN112417111B (zh) * 2020-11-04 2022-08-23 厦门快商通科技股份有限公司 文本分类方法、问答系统及对话机器人
CN112231485B (zh) * 2020-12-14 2021-03-26 平安科技(深圳)有限公司 文本推荐方法、装置、计算机设备及存储介质
CN112231485A (zh) * 2020-12-14 2021-01-15 平安科技(深圳)有限公司 文本推荐方法、装置、计算机设备及存储介质
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112699938A (zh) * 2020-12-30 2021-04-23 北京邮电大学 一种基于图卷积网络模型的分类方法及装置
CN112699938B (zh) * 2020-12-30 2024-01-05 北京邮电大学 一种基于图卷积网络模型的分类方法及装置
CN112734099A (zh) * 2020-12-31 2021-04-30 北京知因智慧科技有限公司 企业风险的预测方法、装置及服务器
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112732916B (zh) * 2021-01-11 2022-09-20 河北工业大学 一种基于bert的多特征融合模糊文本分类系统
CN113590813A (zh) * 2021-01-20 2021-11-02 腾讯科技(深圳)有限公司 文本分类方法、推荐方法、装置及电子设备
WO2022161202A1 (zh) * 2021-01-27 2022-08-04 腾讯科技(深圳)有限公司 多媒体资源分类模型训练方法和多媒体资源推荐方法
CN112861543A (zh) * 2021-02-04 2021-05-28 吴俊� 一种面向研发供需描述文本撮合的深层语义匹配方法和系统
CN114969316B (zh) * 2021-02-24 2024-04-26 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及介质
CN114969316A (zh) * 2021-02-24 2022-08-30 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及介质
CN112883729B (zh) * 2021-03-11 2023-08-11 网易(杭州)网络有限公司 文本创作的词汇推荐方法、装置及服务器
CN112883729A (zh) * 2021-03-11 2021-06-01 网易(杭州)网络有限公司 文本创作的词汇推荐方法、装置及服务器
CN113065347A (zh) * 2021-04-26 2021-07-02 上海交通大学 基于多任务学习的刑事案件判决预测方法、系统及介质
CN113065347B (zh) * 2021-04-26 2022-06-28 上海交通大学 基于多任务学习的刑事案件判决预测方法、系统及介质
CN113268597B (zh) * 2021-05-25 2023-06-27 平安科技(深圳)有限公司 文本分类方法、装置、设备及存储介质
CN113268597A (zh) * 2021-05-25 2021-08-17 平安科技(深圳)有限公司 文本分类方法、装置、设备及存储介质
CN113408285B (zh) * 2021-05-26 2024-03-22 杭州安恒信息技术股份有限公司 金融主体的识别方法、电子装置和存储介质
CN113408285A (zh) * 2021-05-26 2021-09-17 杭州安恒信息技术股份有限公司 金融主体的识别方法、电子装置和存储介质
CN113268599B (zh) * 2021-05-31 2024-03-19 平安国际智慧城市科技股份有限公司 文件分类模型的训练方法、装置、计算机设备及存储介质
CN113268599A (zh) * 2021-05-31 2021-08-17 平安国际智慧城市科技股份有限公司 文件分类模型的训练方法、装置、计算机设备及存储介质
CN113822074A (zh) * 2021-06-21 2021-12-21 腾讯科技(深圳)有限公司 内容分类方法、装置、电子设备及存储介质
CN113822074B (zh) * 2021-06-21 2024-05-10 腾讯科技(深圳)有限公司 内容分类方法、装置、电子设备及存储介质
CN114817526A (zh) * 2022-02-21 2022-07-29 华院计算技术(上海)股份有限公司 文本分类方法及装置、存储介质、终端
CN114817526B (zh) * 2022-02-21 2024-03-29 华院计算技术(上海)股份有限公司 文本分类方法及装置、存储介质、终端
CN116595168A (zh) * 2023-04-07 2023-08-15 北京数美时代科技有限公司 一种基于bert模型的快速分类方法、系统、介质及设备
CN116701303A (zh) * 2023-07-06 2023-09-05 浙江档科信息技术有限公司 基于深度学习的电子文件分类方法、系统及可读存储介质
CN116701303B (zh) * 2023-07-06 2024-03-12 浙江档科信息技术有限公司 基于深度学习的电子文件分类方法、系统及可读存储介质

Also Published As

Publication number Publication date
CN111444340B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN115422944A (zh) 语义识别方法、装置、设备及存储介质
CN111382231B (zh) 意图识别系统及方法
CN110795944A (zh) 推荐内容处理方法及装置、情感属性确定方法及装置
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
CN114841142A (zh) 文本生成方法、装置、电子设备和存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN115827865A (zh) 一种融合多特征图注意力机制的不良文本分类方法及系统
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN112199954B (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN114419514A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN113421551B (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
CN113537372B (zh) 一种地址识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant