CN113569001B - 文本处理方法、装置、计算机设备及计算机可读存储介质 - Google Patents

文本处理方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113569001B
CN113569001B CN202110128856.7A CN202110128856A CN113569001B CN 113569001 B CN113569001 B CN 113569001B CN 202110128856 A CN202110128856 A CN 202110128856A CN 113569001 B CN113569001 B CN 113569001B
Authority
CN
China
Prior art keywords
text
processed
data
vector
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110128856.7A
Other languages
English (en)
Other versions
CN113569001A (zh
Inventor
朱灵子
马连洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110128856.7A priority Critical patent/CN113569001B/zh
Publication of CN113569001A publication Critical patent/CN113569001A/zh
Application granted granted Critical
Publication of CN113569001B publication Critical patent/CN113569001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种文本处理方法、装置、计算机设备及计算机可读存储介质,该文本处理方法基于人工智能技术,包括:获取待处理文本,该待处理文本包括文本标题、文本关键词和文本正文;将该待处理文本输入长文本识别模型中进行处理,得到目标结果,该目标结果用于指示待处理文本的实用性类别;其中,长文本识别模型是利用第一文本数据对初始文本识别模型进行预训练后,利用第二文本数据对预训练后的文本识别模型进行微调训练得到的;该第一文本数据包括非完整文本正文,第二文本数据包括样本文本标题、样本文本关键词、样本文本正文以及相应的参考实用性类别标签。通过本申请实施例可以有效提高篇章级长文本实用性识别的准确度和鲁棒性。

Description

文本处理方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本处理方法、装置、计算机设备及计算机可读存储介质。
背景技术
目前,对图文是否具备实用性的识别主要分为两类,一类是基于文本角度的内容质量判定,属于有监督学习,另一类是基于评论和关键词进行原子能力(即细粒度特征)构建,属于无监督学习,但是以上方法都有一定的缺陷,前者对于图文内容所包括的字数存在限制,在长文本实用性场景中,对文本长度较长(如大于512个字符)的文章处理效率不高,且识别的准确率不理想,而后者由于未引入文章的语义信息,在一些特殊的语言场景中容易判定错误,鲁棒性不高。
发明内容
本申请实施例提供一种文本处理方法、装置、计算机设备及计算机可读存储介质,可以有效提高篇章级长文本实用性识别的准确度和鲁棒性。
本申请实施例一方面提供了一种文本处理方法,包括:
获取待处理文本,所述待处理文本包括文本标题、文本关键词和文本正文;
将所述待处理文本输入长文本识别模型中进行处理,得到目标结果,其中,所述目标结果用于指示所述待处理文本的实用性类别;
其中,所述长文本识别模型是利用第一文本数据对初始文本识别模型进行预训练后,利用第二文本数据对预训练后的文本识别模型进行微调训练得到的;所述第一文本数据包括非完整文本正文,所述第二文本数据包括样本文本标题、样本文本关键词、样本文本正文以及相应的参考实用性类别标签。
本申请实施例一方面提供了一种文本处理装置,包括:
获取模块,用于获取待处理文本,所述待处理文本包括文本标题、文本关键词和文本正文;
处理模块,用于将所述待处理文本输入长文本识别模型中进行处理,得到目标结果,其中,所述目标结果用于指示所述待处理文本的实用性类别;
其中,所述长文本识别模型是利用第一文本数据对初始文本识别模型进行预训练后,利用第二文本数据对预训练后的文本识别模型进行微调训练得到的;所述第一文本数据包括非完整文本正文,所述第二文本数据包括样本文本标题、样本文本关键词、样本文本正文以及相应的参考实用性类别标签。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例提供的文本处理方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例提供的文本处理方法。
相应的,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的文本处理方法。
本申请实施例利用预训练和微调后得到的长文本识别模型对待处理文本包括的标题、关键词和正文的这三路特征进行处理,可以提高指示实用性类别的目标结果的准确性。具体的,通过样本语料数据包括的非完整文本正文预训练,使得预训练后的文本识别模型对篇章级长文本的语义理解能力更强,以实现对长文本更精确的特征表达,再经过文本的标题、关键词、正文以及实用性标签的样本数据微调后,得到长文本识别模型来处理输入的待处理文本,使得预测到的文本实用性识别结果更可靠,从而可以有效提高篇章级长文本实用性识别的鲁棒性和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理系统的架构图;
图2是本申请实施例提供的一种文本处理方法的流程示意图;
图3是本申请实施例提供的一种数据选取滑窗处理文本序列对应的表征向量的示意图;
图4是本申请实施例提供的一种稀疏自注意力机制的效果示意图;
图5是本申请实施例提供的另一种文本处理方法的流程示意图;
图6是本申请实施例提供的又一种文本处理方法的流程示意图;
图7是本申请实施例提供的一种自注意力机制的结构示意图;
图8是本申请实施例提供的一种编码器的结构示意图;
图9是本申请实施例提供的一种图文实用性识别模型的结构示意图;
图10是本申请实施例提供的一种文本处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面先对本申请实施例所涉及的一些关键术语进行介绍:
图文实用性原子能力:图文原子能力建设主要是挖掘一些细粒度的优质原子特征,比如在图文侧建设正能量、实用性等原子能力,在视频侧建设趣味性等原子能力。图文实用性原子能力是对图文属性的一种细粒度特征描述,原子能力建设主要是为了细化与深入理解优质内容,同时拆分细粒度的优质原子特征能力,以便于推荐更好地使用内容理解侧细粒度的原子能力特征。
HAN模型:层次注意力神经网络(Hierarchical Attention Network,HAN)模型在长文本分类任务上有不错的分类精度,其模型整体结构如下:输入词向量序列w2x,通过词级别的双向门循环控制单元(Bi-directional Gated Recurrent Unit,Bi-GRU)后,每个词都会有一个对应的Bi-GRU输出的隐向量,再通过uw向量与每个向量点积得到注意力权重,然后把h序列做一个根据注意力权重的加权和,得到句子summary向量s2,每个句子在通过同样的Bi-GRU结构再加注意力得到最终输出的文档特征向量v向量,然后根据v向量通过后级全连接dense层再加分类器得到最终的文本分类结果。综上可以HAN模型结构非常符合人从词->句子->再到篇章的理解过程,它不仅解决了基于卷积神经网络的文本分类模型TextCNN丢失文本结构信息的问题,还有较强的可解释性。
Transformer模型:Transformer是由多个自注意力(self-attention)神经网络层组成的编码器-解码器(Encoder-Decoder)结构的神经网络模型。模型分为编码器(Encoder)和解码器(Decoder)两部分,编码器部分由6个相同编码器叠在一起,解码器部分由6个相同解码器叠在一起,编码器之间不共享参数。同时在词向量表示送入编码器、解码器之前先做位置编码(Positional Encoding)。Encoder由N=6个相同的层layer组成,每个Layer由两个子层sub-layer组成,分别是多头注意力机制Multi-head self-attentionmechanism和全连接前馈神经网络fully connected feed-forward network。其中每个sub-layer都加了残差连接residual connection和层标准化normalisation。两个sub-layer按顺序分别是多头注意力Multi-head self-attention和位置全连接前馈网络Position-wise feed-forward networks:其中,Multi-head self-attention则是通过h个不同的线性变换对Q、K、V进行投影,最后将不同的attention结果拼接起来。Position-wisefeed-forward networks主要是提供非线性变换,attention输出的维度是[bsz*seq_len,num_heads*head_size],第二个sub-layer是个全连接层,之所以是position-wise是因为过线性层时每个位置i的变换参数是一样的。Decoder和Encoder的结构差不多,但是多了一个attention的sub-layer,这里主要的不同就是Encoder中的attention多加了遮盖mask,因为训练时的输出都是真实标签ground truth,这样可以确保预测第i个位置时不会接触到未来的信息。
BERT模型:BERT是一种新的语言表征模型,意为来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)。当多个Transformer Encoder一层一层地堆叠起来,就组装成了BERT。BERT旨在基于所有层的左、右语境来预训练深度双向表征。因此,预训练的BERT表征可以仅用一个额外的输出层进行微调,进而为很多任务(如问答和语言推理)创建当前最优模型,无需对任务特定架构做出大量修改。BERT概念简单,但实验效果很强大,它刷新了11个自然语言处理(NatureLanguage processing,NLP)任务的当前最优结果,包括将通用语言理解评估GLUE基准提升至80.4%(7.6%的绝对改进)、将MultiNLI(一种多语型自然语言推理语料库)的准确率提高到86.7%(5.6%的绝对改进),以及将SQuADv1.1(一种机器阅读理解受众非常广的数据集)问答测试F1的得分提高至93.2分(1.5分绝对提高)——比人类性能还高出2.0分。
LongFormer模型:LongFormer全称为The Long-Document Transformer,即应用在长文本场景下的Transformer。该方案中attention包括窗口化的局部上下文的selfattention和由终端任务激活的全局attention,其中局部attention用来建立局部的上下文表示,全局attention用来建立完整的序列表示以进行预测。LongFormer采用局部自注意力和全局自注意力结合的方式(或简称为稀疏注意力),即使用该注意力机制“attentionpattern”来稀疏完整的自注意力矩阵,同时为其进行了CUDA(一种通用并行运算平台)优化,从而使得模型最大能够容纳长度上万的文本,同时还能实现更好的结果,也即使用稀疏自注意力拓展模型文本容纳量。
现有文本分类模型中,HAN模型中使用双向RNN从单词的两个方向汇总信息来获取单词的注释以及获取句子的上下句信息,并不能快速并行地训练模型,而Transformer模型改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行,并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率,基于Transformer模型设计的BERT模型在自然语言处理任务中效果也更显著。值得一提的是,Transformer架构很强,成功的部分原因在于自注意力机制使网络能够从整个序列中捕获上下文信息。可是自注意力机制虽然很有效,但它所需的内存和算力会随着序列长度呈平方增长,这使得当前硬件在处理长序列的情况下不可行,或者说非常昂贵、代价很大,现有的方法是将上下文缩短或者划分成为较小的序列,以限制这些序列在512的长度以内。虽然模型可以分段处理,但数据的预处理也是相当麻烦的,同时这种划分可能导致重要的信息丢失。
基于此,本申请实施例提供了一种新的文本实用性识别方案(即本申请实施例提供的文本处理方法),以在文本分类任务中,提升对实用性的文本判定的准确度。
本申请提供的文本实用性识别方案(文本处理方法)基于人工智能技术。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请提供的文本处理方法具体涉及人工智能技术中的自然语言处理技术和机器学习技术。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请提供的文本处理方法利用长文本识别模型对待处理文本进行处理,通过从文本的标题、关键词以及正文三个特征维度建立属于待处理文本的表征向量并对其处理,得到用于指示文本实用性类别的目标结果。具体的,长文本识别模型是采用不同的样本文本数据进行预训练和微调之后得到的,将该长文本识别模型应用到下游任务,即文本实用性类别的判定,可以有效提升长文本场景下的实用性识别的准确度。在一实施例中,长文本识别模型可以为LongFormer模型,该模型的结构基于BERT模型,保持原始结构和参数不变,对其预训练后利用样本文本的标题、关键词、正文以及样本文本相应的参考实用性标签进行微调训练得到,且LongFormer模型中用稀疏自注意力(即全局自注意力和局部自注意力的结合)替代传统的自注意力机制,针对目标任务有选择地关联文本全部或局部单词,使得文本容纳量得到较好地拓宽,在长文本实用性的识别场景中有较优异的识别效果。
本申请提供的文本处理方法应用于文本处理系统,该文本处理系统的架构可以如图1所示,是本申请实施例提供的一种文本处理系统的架构图。如图1所示,该架构可以包括:处理端100、用户终端101以及数据库102。
处理端100可以是服务器或其他形式的计算机设备,主要用于从数据库102中获取待处理文本的标题、关键词以及正文,得到对应的标题向量、关键词向量以及正文向量,在一实施例中,可以将前述三种向量进行融合,得到待处理文本对应的表征向量,再对该表征向量进行处理,具体可以根据LongFomer模型中的处理逻辑来对其处理,得到文本实用性识别的结果,然后将具备实用性的文本通过推荐处理,发送到用户终端101。可选的,LongFomer模型的训练过程也可以在处理端执行,相应的,数据库102还可以存储样本文本数据,包括预训练阶段所需的文本数据和微调阶段所需的文本数据,以实现LongFomer模型的优化调整。处理端100通过有线或无线方式分别与用户终端101以及数据库102进行通信连接,以便进行数据交互。
用户终端101可以是台式计算机、笔记本电脑或其他智能终端设备,例如可以是指智能手机、平板电脑、智能可穿戴设备能够上传或浏览图文内容的设备。该用户终端101可以安装有目标应用(例如涵盖娱乐、情感、健身等话题的社区平台),其中,目标应用具备显示文字、图片等数据信息的功能,用户可以通过该目标应用上传已经编辑好的图文内容,或浏览其他用户发布在平台的对应分区(例如日常生活记录、健身、新闻等分区)的图文内容。用户上传的图文内容可以被存储到数据库102中作为待处理文本,以便处理端100从中获取以对待处理文本进行实用性识别处理。
数据库102可以用于存储用户上传的图文内容,并给处理端100提供相应的待处理文本,以便处理端100处理待处理文本并根据处理后的实用性类别结果将实用性文本发送给用户终端101,这样能让具备实用性的图文内容展示到用户终端101,作为一种可选的示例,具备实用性的文本也可以存储到数据库102后进行推荐加权处理,再发送至用户终端101。在一实施例中,数据库102还可以将用户上传的文本内容作为样本数据集,在训练模型时,可以获取数据库102中存储的样本数据,对模型参数或者结构进行调整。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于用户终端或服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
进一步地,为便于理解,请参见图2,图2是本申请实施例基于图1的网络架构图提供的一种文本处理方法的流程示意图。该方法可以由用户终端(例如上述图1所示的用户终端101)执行,也可以由处理端和用户终端(如上述图1所对应实施例中的处理端100)共同执行,在此不做限制。为便于理解,本实施例以该方法由上述处理端100执行为例进行说明。其中,该文本处理方法至少可以包括以下步骤S201-步骤S202:
步骤S201,获取待处理文本,所述待处理文本包括文本标题、文本关键词和文本正文。
在一种可能的实施例中,待处理文本包括多种类型的文章,并且类型不限,这里的类型是说待处理文本可以是娱乐、社会、音乐、人文、科学、历史、体育、科技、教育等方面的图文内容。这些图文内容是由用户上传,且存储在相应数据库中的数据,通过后台对图文内容的处理,可以个性化或统一化地展示给用户,让不同的用户根据自身兴趣浏览查阅目标内容。在这些类型的文章中,通常文本长度高于512个字符的占比较高,这种文章可以视为长文本,是篇章级文章。相应地,待处理文本一般是长文本对应的图文内容,每篇文章有标题和正文,因此,待处理文本会包括文本标题、文本正文,对于文本关键词,则是从标题或者正文中提取出来的内容,一般形式为一个或多个指示文章的核心内容的词语,即关键词可以是个集合,包括多个关键词。示例的,一篇文章关于烹饪类的教程,标题是“鱼的家常做法”,正文中则详细介绍了两种做法分别是酱汁焖鱼、蒸鱼并配有图片,所以本文的关键词则可以有“家常做法”、“酱汁焖鱼”、“蒸鱼”等指示文章关键信息的词语。利用文本标题、文本关键词以及文本正文这三个维度的特征对文章的信息描述更加全面,可以保证最终识别结果的准确性。
步骤S202,将所述待处理文本输入长文本识别模型中进行处理,得到目标结果,所述目标结果用于指示所述待处理文本的实用性类别。
在一种可能的实施例中,长文本识别模型是利用第一文本数据对初始文本识别模型进行预训练后,再利用第二文本数据对预训练后的文本识别模型进行微调训练得到的。初始文本识别模型可以是运用稀疏自注意力机制(结合全局自注意力机制和局部自注意力机制)的语言表征模型,例如LongFomer模型,在第一文本数据中,包括非完整文本正文,第二文本数据包括样本文本标题、样本文本关键词、样本文本正文以及相应的参考实用性类别标签。
在一种可能的实施例中,指示待处理文本的实用性类别的目标结果可以是各类别预测值。即待处理文本具有实用性和不具备实用性的预测值,由于在具备实用性的情况下包括对用户日常生活产生帮助的知识类实用性或实操类实用性这两类,因此,将目标结果细分也可以是无实用性、知识类实用性、实操类实用性这三种类别对应的预测值,这个预测值的具体形式可以是0-1的概率,在此不做限制。对于实用性类别中知识类实用性以及实操类实用性的理解可以通过以下示例来说明:例如一篇汽车类的文章,内容介绍的是各种类型汽车的优缺点以及选车技巧,那么这样的内容对于用户来说可以作为一份科普类知识进行参考和了解,并不需要根据这些内容得到唯一确定的结果,相对地,如果是一篇介绍在汽车出现故障时如何维修的文章,内容涉及如何排查出故障以及解决问题的步骤,按照上述内容可以得到能否解决实际问题的确定结果,是偏向实际操作的知识,属于对用户日常生活有帮助的实操类内容,具有一定的实际意义,上述两种均是属于实用性的文章。在目标结果中出现任意一种的预测值最大,都可以视为待处理文本是具备实用性的,反之,如果识别得到的上述两种实用性类别相对于无实用性的概率很小,可以视为待处理文本不具备实用性。
在一种可能的实施例中,将待处理文本输入长文本识别模型中进行处理,得到目标结果的具体步骤还可以包括:首先确定本标题、文本关键词以及文本正文分别对应的标题向量、关键词向量以及正文向量。具体的,需要确定文本标题对应的标题向量、文本关键词对应的关键词向量以及文本正文对应的正文向量,以便对这些向量进行相应处理,实现所需的功能。由于长文本识别模型采用注意力机制,未考虑文本序列中词或者字符的顺序,会导致相同词构成的不同句子表达一致,在这种情况下,确定文本标题对应的标题向量的具体方式可以包括:在确定文本标题对应的词向量和位置向量后,将词向量和位置向量进行融合处理,得到文本标题对应的标题向量。具体的,文本标题对应的词向量和位置向量都可以通过训练学习得到,例如,词向量通过Word2Vec、Glove等算法预训练得到,也可以通过其他方式得到,例如,位置向量使用固定计算公式。相应的,词向量指示了标题的语义信息,可以是包含上下文信息的向量表示,位置向量指示了标题所包括的各个词之间的位置关系,利用位置向量可以保存词在文本序列中的相对或者绝对位置。由于标题对应的词向量和位置向量的维度均相同,所以可以将标题的词向量和位置向量相加得到对应的标题向量。对于确定文本关键词对应的关键词向量以及文本正文对应的正文向量的具体方式,与上述确定文本标题对应的标题向量的方式相同,都是先得到对应的词向量和位置向量,而后将这两者进行融合得到对应的向量,在此不再赘述。需要说明的是,标题向量、关键词向量以及正文向量表示的均是待处理文本底层的特征,对这些向量还需要进一步处理,才能实现待处理文本高层次的表达。此外,针对文本正文部分也可以采取分段处理的方式来提取正文向量,进而得到表征向量,但每次表征向量除正文向量外都需要包括标题和关键词分别对应的向量,或者该部分正文内容对应的关键词的向量。
然后,根据标题向量、关键词向量以及正文向量确定待处理文本的表征向量。具体的,对文本标题、文本关键词以及文本正文分别处理得到的对应的标题向量、关键词向量、正文向量的维度都是一致的,因此可以将这些向量融合为一个矩阵,这样针对一个批次中包括的多篇文章,可以并行处理标题向量、关键词向量、正文向量,提高集中处理效率。举例来说,如果标题中有3个词,关键词中有2个词,正文中有512个词,并且各自有对应的位置向量,若提取的向量维度都是512,得到对应的标题向量3×512,关键词向量2×512,正文向量512×512,将上述标题向量、关键词向量以及正文向量其拼接起来,就是517×512大小的矩阵,由于需要对待处理文本的实用性识别,可以采用[CLS]这一token(符号)对文章进行标识,具体就是将[CLS]对应的向量和标题向量、关键词向量、正文向量融合,构成待处理文本的表征向量。需要说明的是,从词粒度方面来看,标题或关键词或正文中每一个词都可以视为一个token,因此可以将[CLS]也作为待处理文本的一个词,将其添加到文章第一个词的最前面,即按照[CLS]、标题、关键词、正文对应的向量依次进行拼接。
针对一些语言场景,上述待处理文本的表征向量对图文内容语义信息的表达,也有较好的鲁棒性,这是因为相同的词语在不同文章中表达的语义可能千差万别,例如“门槛”一词,在一些文章中“门槛”可能代表的是房屋中的结构,也可能就代表进入某个领域的难易程度。如果简单的对关键词或者评论进行特征提取,并不能准确的表达文章内容,进而造成最终分类结果精确度不高,但表征向量是除开关键词外,还针对文章标题以及正文,从多方面提取表示向量,可以保证即使在不同语境下,文本语义也能根据当前语境进行准确表达,从而实现实用性文本识别的精确度。
最后对表征向量进行处理,得到目标结果。在一实施例中,待处理文本一般是包括图文内容的文本,对图文原子能力建设主要是挖掘一些细粒度的优质原子特征,从而细化与深入理解优质内容,以便于推荐更好地使用内容理解侧细粒度的原子能力特征。简单来说,原子能力即一些微小的能力,是对图文内容的属性或者特征的细粒度的描述。前述实施例中利用运用稀疏注意力的语言表征模型,即长文本识别模型对待处理文本进行处理,可以实现对实用性原子能力特征的构建,当然,其他文本识别模型也可以通过处理表征向量来构建实用性原子能力。对应地,此步骤中对表征向量的处理,得到目标结果,也可以理解为对实用性原子能力特征的构建过程。
在一实施例中,对表征向量进行处理,得到目标结果的具体步骤可以包括:先根据数据选取滑窗从表征向量中选取当前待处理数据,并对当前待处理数据进行处理,得到第一中间数据,然后根据数据选取滑窗以及数据选取滑窗对应的处理步长从表征向量中选取新的待处理数据,并对新的待处理数据进行处理,得到第二中间数据,最后根据第一中间数据和第二中间数据确定目标结果。
具体的,数据选取滑窗的处理机制类似于CNN滑窗,可以对相应的数据实现降维处理,从而减小相应的计算量。数据选取滑窗的大小对应的数据量可以为处理步长所对应数据量的M倍,M为正整数,即数据滑窗大小w=M×step,这里的step为处理步长,对于数据选取滑窗处理具体可参见图3。根据数据选取滑窗从表征向量中确定一部分向量作为当前待处理数据,对当前待处理数据进行注意力计算,可以得到注意力指示信息作为第一中间数据,然后再将数据选取滑窗按照处理步长的长度移动,选取下一组数据作为新的待处理数据,和前述当前待处理数据相同的处理方式得到第二中间数据,以此类推,通过数据选取滑动窗口可以得到多组待处理数据,都按照相同的方式处理得到对应的多组中间数据,最后根据这些中间数据就可以确定表征向量对应的待处理文本的实用性类别。
进一步地,在对待处理数据进行处理,得到中间数据的过程中,可以利用第一映射矩阵对待处理数据进行处理,得到待处理数据对应的全局自注意力指示信息,并且利用第二映射矩阵对待处理数据进行处理,得到待处理数据对应的局部自注意力指示信息,然后将所述全局自注意力指示信息和局部自注意力指示信息作为中间数据。其中,针对目标数据对象,通过第一映射矩阵可以确定目标数据对象和待处理数据中除目标数据对象之外的各数据对象之间的自注意力指示信息,通过第二映射矩阵确定目标数据对象和其相邻数据对象之间的自注意力指示信息,这里的目标数据对象为待处理数据中的任一数据对象。
具体的,目标数据对象是某字符或者某些字符对应的向量数据,即在文本序列中,表征向量是对文本全部字符或词的向量表示,待处理数据利用数据选取滑动窗口从表征向量选取的部分向量,再从这部分向量中可以确定目标数据对象。例如表征向量为[x1,x2,…,x1024]利用数据选取滑窗选取到待处理数据为[x1,x2,…,x512],根据待处理数据确定的目标数据对象则可以是[x1,x2,…,x512],中的任一个或者多个,如x1或x2,x3,x4,x5,针对目标数据对象,第一映射矩阵确定的自注意力指示信息是全局的,例如x1和除目标数据对象x1外的x2,…,x512之间的注意力分数,第二映射矩阵确定的自注意力指示信息是局部的,例如x1和相邻数据对象x2,x3,x4之间的注意力分数。通过数据选取滑窗,可以有效降低注意力计算量,示例的,当文本序列N=2048,数据选取滑窗大小w=512,加速约3.25,在LongFomer模型中注意力计算量为w2(N/w+1),而BERT模型的注意力计算量为N2。由此,也可以看出滑窗在减少计算量这一点的优势。可选的,数据选取滑窗选取的待处理数据是表征向量对应的所有文本序列,如上述示例的[x1,x2,…,x1024],针对目标数据对象x1和剩余的数据对象x2,…,x1024之间互相关注的全局自注意力指示信息。
还需要说明的是,第一映射矩阵是用于局部自注意力的Qs,Ks,Vs,第二映射矩阵是用于全局自注意力的Qg,Kg,Vg。在长文本识别模型底层(例如靠近输入端的编码器)使用较小的数据选取滑动窗口大小,以建模局部信息,在高层(例如靠近输出端的编码器)使用较大的数据选取滑动窗口大小,以扩大感受野。这里基于CNN的局部自注意力以窗口的形式移动,每个窗口内的字符可以互相关注,“全局”的意思是,让小部分字符既能关注其他所有字符,又能让其他所有字符关注它,如果这些字符的数量很小,那么整体也可以看成是O(n)复杂度的。如果将字符换成词,也是类似的原理。这小部分字符在本实施例中即可以是添加在每篇文章输入的最前面的[CLS]标志,可以理解为一篇文章对应一个[CLS]标志,其和标题、关键词以及正文构成了待处理文本对应的特征向量,例如[CLS,x1,x2,x3...,xn],其中,CLS是[CLS]标志对应的向量,x1,...,xn包括标题向量,关键词向量、正文向量,而第二映射矩阵主要作用在[CLS]标志上,第一映射矩阵作用于表征向量中包括的所有向量,例如[CLS,x1,x2,x3...,xn]上,对于稀疏自注意力的效果示意图可参见图4,可以看到,有大量的“白色方块”,表示不需要关注,而随着文本长度的增加,这种白色方块的数量会呈平方级增加,但是实际上需要的“灰色方块”数量是很少的。自注意力指示信息可以是任意两个向量之间的相关度构成的相关系数矩阵,即自注意力矩阵,全局自注意力指示信息是[CLS]标志对应的向量和待处理文本的其他向量之间的相关系数,局部自注意力指示信息是待处理文本的表征向量中的向量和固定位置的向量之间相关系数,通过全局自注意力指示信息和局部自注意力指示信息可以构成的稀疏自注意力指示信息,其中,只有[CLS]标志这个元素和序列内所有元素(也即文本的所有词)相关,其余的每个元素都只和序列内的一部分元素相关,这样对于长文本不需要关注两两元素之间的相关性,而是有选择的添加全局自注意力,将真正有意义的关系给予更多注意力,这样任务处理的所需的计算代价以及计算资源可以得到一定程度降低,处理效率可以得到大大地提高。
对于上述自注意力指示信息再进行下一步的处理,例如归一化和残差连接,然后将经过残差连接和归一化的稀疏自注意力指示信息输入前馈神经网络进行处理,得到输出结果,再将输出结果经过分类器就可以得到目标结果。这里的输出结果是一个矩阵,和待处理文本的表征向量维度相同,但是待处理文本更高层次的特征表达,将该输出结果输入分类器进行分类,就可以得到指示待处理文本的实用性的数值,即上述提及的目标结果。例如,经过softmax分类器,输出一个3维的向量[y1,y2,y3],其中包括的数值分别表示待处理文本属于知识类实用性、实操类实用性以及不具备实用性的概率,根据概率大小就可以判定待处理文本是否具备实用性以及属于哪一类别实用性的具体结果。
综上所述,本申请实施例至少包括以下优点:
通过待处理文本的标题、关键词以及正文三个维度对待处理文本的信息进行了较为全面的表达,在使用预训练和微调后得到的长文本识别模型对上述待处理文本进行处理,可以提高对文章的语义信息精确表达,以降低一些特殊的语言场景下的误判率,从而提高待处理文本实用性识别的准确率。同时利用数据选取滑窗对文本对应的表征向量进行处理,降低向量处理的维度,从而有效减少计算量,提高处理的效率。对篇章级的长文本来说,通过全局自注意力得到部分词(或字符)与其他所有词(或字符)之间的相关系数,以及局部自注意力得到每个词(或字符)和部分词(或字符)之间的相关系数,也有效节约了注意力计算的资源,降低了相应的计算代价,在有限的资源内提高对长文本实用性类别识别的精确度。
请参见图5,图5是本申请实施例基于图1的网络架构图提供的另一种文本处理方法的流程示意图,该方法至少包括步骤S501-502:
S501,利用第一文本数据对初始文本识别模型进行预训练,得到预训练后的文本识别模型,所述预训练后的文本识别模型具备语义语法识别能力。
在一种可能的实施例中,对于篇章级长文本的理解,其质量优劣特征偏语义理解,学习难度较大,而预训练通过开源的语料数据集训练模型,可以降低对长文本语义理解的学习难度。第一文本数据作为预训练阶段的样本数据,包括大量的文本数据,具体的,是大量文章比如新闻等不限的长文本,数量数量可以约150万~10亿,在此不作限定。可以将文章中的部分字去掉,构成非完整的文本正文数据喂给初始文本识别模型,预训练后的模型可以预测文章缺少哪些字、预测上下文关系或用于其他预测任务等。通过大量的语料数据预训练初始文本识别模型,文本识别模型的语义语法识别或理解能力更强,能更好地进行篇章理解,让特征向量有更好的语义表达能力。
示例的,预训练后的文本识别模型对于输入的文本中的词,能够快速提取其在上下文中的语义表征。这是因为预训练采用自监督学习从大规模数据中获得与具体任务无关的模型,属于迁移学习的应用,该模型把人类的语言知识学会之后,可以代入到具体的任务中去,即将开放领域中学习到的知识迁移到下游任务中,例如文本分类,以改善低资源任务,对于低资源语言处理的任务来说,是一种非常友好的方法。
在一实施例中,初始文本识别模型可以是基于BERT模型的改进,将BERT模型中的Transformer Encoder进行改进,得到的新的模型,即LongFomer模型,具体的改进即Transformer Encoder中的全局注意力full attention结构替换为稀疏注意力LongFomerattention。在预训练时,会复用BERT模型已有的权重,并且复制其512个位置嵌入向量来初始化LongFomer模型的位置嵌入向量。可选的,将数据集分为训练集和验证集,可以使用数据量大小为23万的训练集以及数据量大小为1万的验证集对LongFomer模型进行训练,得到预训练后的LongFomer模型,使用预训练后的LongFomer模型可以学习到更精确的篇章级文档表示,以提升文章文本质量优劣识别效果。
S502,利用第二文本数据对所述预训练后的文本识别模型进行微调训练,对所述预训练后的文本识别模型的模型参数进行微调,得到训练后的长文本识别模型,所述训练后的长文本识别模型用于识别长文本的实用性类别。
在一种可能的实施例中,和第一文本数据中包括的非完整文本正文不同,第二文本数据包括样本文本标题、样本文本关键词、样本文本正文以及相应的参考实用性类别标签,是针对具体下游任务的标注样本数据集。为了预训练后的文本识别模型应用于具体的下游任务得到更好的任务效果,需用使用第二文本数据包括的标注样本数据对其进行再次训练,以对预训练后的文本识别模型的模型参数进行稍微地调整,得到训练后的文本识别模型,这个过程也称为微调,可以使得微调后得到的文本识别模型适用于将要执行的下游任务,即对文本实用性类别的识别。示例的,预训练后的文本识别模型也可以是LongFormer模型,通过对对LongFormer模型的模型参数进行微调,使得LongFormer模型能够准确识别文本的实用性类别。
综上所述,本申请实施例至少包括以下优点:
利用第一文本数据包括的非完整文本正文预训练初始文本识别模型,增强了文本识别模型对篇章级文本的语义理解能力,第二文本数据包括的正文、标题、关键词以及实用性类别标签微调预训练后的文本识别模型,得到适用于具体任务的模型,这两个训练阶段结合可以有效节省模型的训练时间,以及在下游任务有限的数据资源下得到表现优异的长文本识别模型,在训练中,充分利用了预训练的先验知识对模型进行调整,节约了模型训练和计算的代价以及资源,通过预训练和微调得到的长文本识别模型能够保证长文本实用性识别的有效性,提升长文本实用性处理的性能,提高质量优劣判定的效果。
请参见图6,为本申请实施例中基于图1所示文本处理的网络架构图提供的又一种文本处理方法的流程示意图。该方法至少包括步骤S601-S605,应该理解的是,虽然图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。
S601,获取待处理文本,所述待处理文本包括文本标题、文本关键词和文本正文。
S602,将所述待处理文本输入长文本识别模型中进行处理,得到目标结果,所述目标结果用于指示所述待处理文本的实用性类别。
作为一种可选的示例,由于在深度自注意力网络Transformer中的自注意力机制使网络能够从整个序列中捕获上下文信息,应用在文本分类中非常广泛,可是自注意力机制虽然很有效,可实践中过长的文本会导致内存爆炸,原因是在于自注意力的时空复杂度都是平方级的,可参见图7,是Transformer中的自注意力机制,每个字符都能关注其他所有字符,因此当文本越长,空间消耗就显著增大,所以在实际使用的时候,通常把句子长度截短到512,然后分段送入模型。这种方法虽然可以在一定程度上解决内存不足的问题,但是它回避了自注意力Self-Attention的固有缺陷,只是一种暂缓之计,同时这种方法非常麻烦,需要预处理数据集,同时这种划分可能导致重要的信息丢失,而很多任务都包含大量长文本,实际需要要求能够一次性处理这些任务包括的长文本数据。而应用在长文本场景下的Transformer,简称LongFormer,通过采用局部自注意力和全局自注意力结合的方式,使得模型最大能够容纳长度上万的文本,并且充分利用了预训练得到的先验知识,在微调时高效调整最优的模型,使得模型的鲁棒性更高,同时还能实现更好的识别效果。,利用LongFormer模型对待处理文本进行处理的过程中,主要是其包括的稀疏自注意力对注意力分数的有效计算。可选的,上述长文本识别模型还可以是应用了稀疏自注意力的其他语言表征模型。
在一种可能的实施例中,和Transformer模型类似,LongFormer是由多个相同的编码器encoder构成,可以是3个encoder或者6个encoder,用于对长度级别不同的文章进行处理,以达到最佳的处理效果。编码器内部结构具体可以参见图8,在LongFormer模型中的多个编码器之间不共享参数,同时在向量表示送入编码器之前先做位置编码,即送入编码器的向量是前述待处理文本的表征向量(对应图8的输入嵌入向量+位置编码得到的位置向量),每一个编码器都包括自注意力(self attention)神经网络层以及全连接层,在这两层之间还包括残差连接以及层标准化,残差连接可以解决多层网络训练的问题,让网络只关注当前差异的部分,防止网络退化,提高训练的效果,层标准化则可以加快收敛速度,并且自注意力神经网络层是多头注意力机制,通过多个不同的线性变换对查询向量Q,键值向量K,值向量V进行投影,然后将结果拼接起来得到一个输出矩阵,这样可以捕获词之间多种维度上的相关系数,全连接层也是一个前馈神经网络,包括两层,第一层的激活函数是ReLU,第二层是一个线性激活函数。表征向量经过多个编码器的处理,可以得到编码后的表征向量,可以将其视为待处理文本的特征向量。对于自注意力神经网络层,LongFormer使用的注意力机制和Transformer区别就在于LongFormer使用的是稀疏自注意力机制,包括用来建立局部的上下文表示的局部attention以及用来建立完整的序列表示以进行预测全局attention。其中,自注意力机制的输出计算统一遵循下式(1):
其中,dk是向量维度,QKT表示词之间的注意力强度(或注意力分数),除以dk的平方根是为了防止计算矩阵Q和K得到的每一行向量的内积过大。
和之前的许多工作相比,Longformer首次将这种稀疏自注意力应用到了三种包含长文本的任务上:问答、共指消解和文档分类,并证明了其有效性,基于上述研究成果,使用Longformer模型应用到文本实用性类别判定中也取得了不错的效果,具体可参见下述表1,因此本申请实施例中的在长文本识别模型可以为LongFormer模型,图文实用性识别模型结构图可参见图9,将文章标题、文章关键词以及文章正文对应的嵌入向量,经过处理后输入长文本识别模型(LongFormer模型),这里的嵌入向量对应前述实施例提及的词向量,每一个词向量都要和位置向量进行融合,这是因为LongFormer使用文章的全局信息而未利用到词的顺序信息,但这部分信息对于自然语言处理来说非常重要,采用位置向量可以将词在序列中的相对或绝对位置保存下来,此外,还可以将标题嵌入向量、关键词嵌入向量以及正文嵌入向量按行拼接成大的矩阵,再输入LongFormer模型中,经过多个编码器中包括的网络进行处理,得到一个和输入矩阵维度相同的输出矩阵,然后将其输入分类器中,就可以得到分类结果,即前述的目标结果。可选的,长文本识别模型也可以是其他能够处理长文本的模型。通过使用不同模型对文本的实用性进行识别得到的实验结果如下表1所示:
表1不同模型下对文本实用性识别的实验效果
模型 总体分类精度 召回率 精确度 分类能力
TextCNN 0.8906 0.8706 0.8886 0.8912
LSTM长短期记忆网络 0.8924 0.8641 0.9034 0.8856
HAN 0.9217 0.9328 0.9372 0.9256
BERT 0.9300 0.9412 0.9443 0.9475
层次化Transformer编码网络 0.9302 0.9434 0.9456 0.9482
LongFormer长文本分类模型 0.9402 0.9465 0.9507 0.9515
可以发现,使用注意力机制的网络比常规的RNN模型处理数据所得到的结果,从各方面的评价指标都是优异的。纵向对比不同的模型的同一评价指标,LongFormer模型的评价指标对应的值都比其他任一模型要高出至少一个百分点,因此可以看出LongFormer模型在处理篇章级长文本方面卓越的能力,使用该模型,学习到更精确的篇章级文档表示,文章文本质量优劣识别的效果能得到有效提升。
在将图文实用性原子能力识别模型(即长文本识别模型)运用在对内容中心图文内容进行质量判定的任务中,表现优异,具体数据为模型评测一期垂类(美食、健康、生活、汽车、科技、情感等垂类)准确率达到90%,召回率达到95%。对实用性图文的识别相比于BERT模型的准确率提升了1.5%。
上述步骤S601-S602的其他具体内容可参见图2对应的步骤S201-S202,在此不再赘述。
S603,根据所述目标结果指示的所述待处理文本的实用性类别确定所述待处理文本的推荐权重。
在一种可能的实施例中,目标结果对应的是待处理文本在实用性类别,如知识类实用性文章或者实操类实用性文章,对于具备这类实用性的文章,可以得到的推荐权重的高或低,具体来说,对于实用性的文章和不具备实用性的文章,推荐权重存在较大的差异。根据不同的推荐权重,对应的文章内容被推荐的可能性以及推荐的频率或位置都会有所区别。这样可以更好地区分将实用性图文内容和其他图文内容,并有针对性地实现实用性图文内容的推荐。
S604,将所述实用性类别以及所述推荐权重与所述待处理文本进行关联。
在一种可能的实施例中,可以利用生成目标结果的服务器中执行此步骤,也可以将目标结果发送给其他服务器以执行此步骤。其中,目标结果可以是例如[0.6,0.3,0.1]这样的一组数据,从左至右依次代表了待处理文本属于知识类实用性、实操类实用性以及不具备实用性的概率,因此通过对应的数值可以确定出来待处理文本的实用性类别:在这3个预测值中,0.6是最大的一个值,表明待处理文本极有可能属于知识类实用性的文章,因此将其判定为知识类实用性的文本。其中,和知识类实用性对应的推荐权重会和待处理文本关联,表明待处理文本的推荐的可能性。作为一种可选的例子,当待处理文本既有关于科普类的的知识内容也有关于实际操作的内容,那么在最终识别时可能会同时包括知识类以及实操类实用性。另外,对于不具备实用性的待处理文本,也会有对应的实用性类别和推荐权重与其关联,从而获知文本的原子能力特征,对实用性文本进行推荐处理。
S605,根据所述待处理文本相关联的推荐权重对所述待处理文本进行推荐处理。
在一种可能的实施例中,实用性类别包括三种类型,分别是知识类实用性、实操类实用性以及不具备实用性,推荐处理可以是针对所有类别的文本进行推荐加权操作,例如实用性的文本配置更高的推荐权重,而不具备实用性的文本不改变其推荐权重,当然也可以是降低不具备实用性的文本的推荐权重,具体方式在此不做限制。具体的,可以在浏览器侧对应的服务器(例如图1的处理端100)对识别出来的图文实用性内容进行推荐加权操作,然后将其发送给用户终端,以实现将用户日常生活产生帮助的知识类实用性与实操类内容优先推荐给用户。可选的,上述内容的具体应用场景可以是:在内容中心的内容处理链路中,对所有图文内容进行图文实用性判定,然后出库并分发给端侧,如对识别出来的实用性内容进行推荐加权等。
在一实施例中,推荐加权的主要处理方式可以是根据实用性标识指示内容是否实用,对实用性内容配置更高的推荐权重,而降低无实用性的内容的推荐权重,如将具备实用性的文章的推荐优先级提升到一定的程度,不具备实用性的文章降低其推荐优先级,从而实现对实用性内容的优先推荐。在推荐到用户终端设备时,可以根据推荐权重设置给用户推荐的频率,或者对实用性内容的推荐显示位置进行优先设置,使得推荐的实用性内容展示到用户容易关注到的区域。作为一种可扩展的示例,推荐权重还可以结合与用户相关的数据进行配置。
在一可选的实施例中,若目标结果指示待处理文本的实用性类别为实操类实用性,基于第一推荐权重对待处理文本进行推荐,若目标结果指示所述待处理文本的实用性类别为知识类实用性,基于第二推荐权重对待处理文本的推荐权重进行推荐,其中,第一推荐权重大于第二推荐权重。具体的,实用性内容包括知识类实用性文章和实操类实用性文章,对于这两类实用性文章可以采取不同的推荐权重,由于对于大多数用户,实操类实用性文章由于教学式的教程,能给用户带来切实的操作体验和较为直接的实用感,可能会比知识类实用性文章更受欢迎,因此可以将此类实用性文章的推荐权重配置为最高级,将用户受众面可能更广的实用性文章推荐到相关页面,而知识类实用性文章的推荐权重配置稍低的等级,进而对用户优先展示实操类实用性的文章。但也可以针对一些特定功能的应用场景或者网页,将实操类实用性的文章和知识类实用性的文章区别开来,例如烹饪教学类的应用软件中,偏实操的内容会更多,因此其推荐权重相对来说会更大,但在一些技术论坛或科普类的应用或网页中,知识类实用性会比实操类实用性的文章更受欢迎,因此可以将识类实用性类别的内容推荐权重配置的更高。
经过实验证明,将实用性内容经过推荐加权推送给用户,可以给用户带来良好的阅读体验,并且在业务侧取得良好的业务效果,具体数据为:在浏览器侧整体大盘点击页面浏览量(Page View,PV)提升0.45%,大盘点击提升0.17%,图文点击提升0.5%;同时日活跃用户数(Daily Active User,DAU)次日留存提升0.064%,互动指标数据中分享访客(unique visitor,UV)提升0.337%,点赞PV提升3.090%,评论UV提升0.325%。
作为一种可选的示例,推荐处理也可以是在其他服务器(例如图1中的处理端100)上执行完成后,将结果发送到浏览器侧对应的服务器,以使得浏览器侧的服务器发送至浏览器页面,或直接发送给用户终端,向用户展示推荐的实用性图文内容。
上述在浏览器侧对识别出来的图文实用性内容进行推荐加权实验,实现了将用户日常生活产生帮助的知识类实用性与实操类内容优先推荐给用户,给用户带来良好的阅读体验同时在业务侧也取得了良好的业务效果。
综上所述,本申请实施例至少包括以下优点:
通过长文本识别模型LongFormer,使用全局自注意力和局部自注意力结合的稀疏注意力,将文本长度的容纳量扩展到万级别,对超过文本长度阈值的待处理文本进行处理,极大地降低了长文本识别的处理难度,提高了长文本实用性识别的效率和准确率。LongFormer模型中引入词之间的位置信息,在保持文本序列的基本信息的基础上,对待处理文本的特征表达信息更准确。另外,基于图文内容侧的推荐方法,针对不同的实用性类别,配置不同的推荐权重,在具体应用场景中,根据推荐权重将实用性类别文章推荐的重要程度划分等级,有目标的向用户推送实用性内容,可以有效提升推荐的精准度和业务效果,充分发挥长文本识别模型应用在文本实用性识别的功能,提升相应产品中的用户满意度以及用户粘性。
请参见图10,是本申请实施例提供的一种文本处理装置的结构示意图,该文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如文本处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该文本处理装置1000包括:获取模块1001、处理模块1002,其中:
获取模块1001,用于获取待处理文本,所述待处理文本包括文本标题、文本关键词和文本正文;
处理模块1002,用于将所述待处理文本输入长文本识别模型中进行处理,得到目标结果,所述目标结果用于指示所述待处理文本的实用性类别;其中,所述长文本识别模型是利用第一文本数据对初始文本识别模型进行预训练后,利用第二文本数据对预训练后的文本识别模型进行微调训练得到的;所述第一文本数据包括非完整文本正文,所述第二文本数据包括样本文本标题、样本文本关键词、样本文本正文以及相应的参考实用性类别标签。
在一实施例中,该装置1000还包括训练模块1003,其中:
训练模块1003,用于利用所述第一文本数据对所述初始文本识别模型进行预训练,得到预训练后的文本识别模型,所述预训练后的文本识别模型具备语义语法识别能力;
该训练模块1003,还用于利用所述第二文本数据对所述预训练后的文本识别模型进行微调训练,对所述预训练后的文本识别模型的模型参数进行微调,得到训练后的长文本识别模型,所述训练后的长文本识别模型用于识别长文本的实用性类别。
在一实施例中,处理模块1002,具体用于:确定所述文本标题、所述文本关键词以及所述文本正文分别对应的标题向量、关键词向量以及正文向量;根据所述标题向量、所述关键词向量以及所述正文向量确定所述待处理文本的表征向量;对所述表征向量进行处理,得到目标结果。
在一实施例中,处理模块1002,具体用于:根据数据选取滑窗从所述表征向量中选取当前待处理数据,并对所述当前待处理数据进行处理,得到第一中间数据;根据所述数据选取滑窗以及所述数据选取滑窗对应的处理步长从所述表征向量中选取新的待处理数据,并对所述新的待处理数据进行处理,得到第二中间数据;根据所述第一中间数据和所述第二中间数据确定目标结果。
在一实施例中,处理模块1002,具体还用于:利用第一映射矩阵对待处理数据进行处理,得到待处理数据对应的全局自注意力指示信息;利用第二映射矩阵对待处理数据进行处理,得到待处理数据对应的局部自注意力指示信息;将所述全局自注意力指示信息和局部自注意力指示信息作为中间数据;其中,针对目标数据对象,通过所述第一映射矩阵确定所述目标对象和所述待处理数据中除所述目标对象之外的各数据对象之间的自注意力指示信息;通过所述第二映射矩阵确定所述目标对象和其相邻对象之间的自注意力指示信息;所述目标数据对象为所述待处理数据中的任一数据对象。
在一实施例中,该装置1000还包括确定模块1004和关联模块1005,其中:
确定模块1004,用于根据所述目标结果指示的所述待处理文本的实用性类别确定所述待处理文本的推荐权重;
关联模块1005,用于将所述实用性类别以及所述推荐权重与所述待处理文本进行关联;
推荐模块1006,用于根据所述待处理文本相关联的推荐权重对所述待处理文本进行推荐处理。
在一实施例中,确定模块1004,具体用于:若所述待处理文本的实用性类别为实操类实用性,基于第一推荐权重对所述待处理文本进行推荐;若所述待处理文本的实用性类别为知识类实用性,基于第二推荐权重对所述待处理文本的推荐权重进行推荐,所述第一推荐权重大于所述第二推荐权重。
可以理解的是,本申请实施例所描述的文本处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述以及有益效果,此处不再赘述。
请参见图11,是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备110可以包括处理器1101、存储器1102、网络接口1103和至少一个通信总线1104。其中,处理器1101用于调度计算机程序,可以包括中央处理器、控制器、微处理器;存储器1102用于存储计算机程序,可以包括高速随机存取存储器,非易失性存储器,例如磁盘存储器件、闪存器件;网络接口1103提供数据通信功能,通信总线1104负责连接各个通信元件。
其中,处理器1101可以用于调用存储器中的计算机程序,以执行如下操作:
获取待处理文本,所述待处理文本包括文本标题、文本关键词和文本正文;
将所述待处理文本输入长文本识别模型中进行处理,得到目标结果,所述目标结果用于指示所述待处理文本的实用性类别;
其中,所述长文本识别模型是利用第一文本数据对初始文本识别模型进行预训练后,利用第二文本数据对预训练后的文本识别模型进行微调训练得到的;所述第一文本数据包括非完整文本正文,所述第二文本数据包括样本文本标题、样本文本关键词、样本文本正文以及相应的参考实用性类别标签。
在一实施例中,处理器1101还用于:利用所述第一文本数据对所述初始文本识别模型进行预训练,得到预训练后的文本识别模型,所述预训练后的文本识别模型具备语义语法识别能力;利用所述第二文本数据对所述预训练后的文本识别模型进行微调训练,对所述预训练后的文本识别模型的模型参数进行微调,得到训练后的长文本识别模型,所述训练后的长文本识别模型用于识别长文本的实用性类别。
在一实施例中,处理器1101具体用于:确定所述文本标题、所述文本关键词以及所述文本正文分别对应的标题向量、关键词向量以及正文向量;根据所述标题向量、所述关键词向量以及所述正文向量确定所述待处理文本的表征向量;对所述表征向量进行处理,得到目标结果。
在一实施例中,处理器1101具体用于:根据数据选取滑窗从所述表征向量中选取当前待处理数据,并对所述当前待处理数据进行处理,得到第一中间数据;根据所述数据选取滑窗以及所述数据选取滑窗对应的处理步长从所述表征向量中选取新的待处理数据,并对所述新的待处理数据进行处理,得到第二中间数据;根据所述第一中间数据和所述第二中间数据确定目标结果。
在一实施例中,处理器1101具体用于:利用第一映射矩阵对待处理数据进行处理,得到待处理数据对应的全局自注意力指示信息;利用第二映射矩阵对待处理数据进行处理,得到待处理数据对应的局部自注意力指示信息;将所述全局自注意力指示信息和局部自注意力指示信息作为中间数据;其中,针对目标数据对象,通过所述第一映射矩阵确定所述目标对象和所述待处理数据中除所述目标对象之外的各数据对象之间的自注意力指示信息;通过所述第二映射矩阵确定所述目标对象和其相邻对象之间的自注意力指示信息;所述目标数据对象为所述待处理数据中的任一数据对象。
在一实施例中,处理器1101具体用于:根据所述目标结果指示的所述待处理文本的实用性类别确定所述待处理文本的推荐权重;将所述实用性类别以及所述推荐权重与所述待处理文本进行关联;根据所述待处理文本相关联的推荐权重对所述待处理文本进行推荐处理。
在一实施例中,处理器1101具体用于:若所述待处理文本的实用性类别为实操类实用性,基于第一推荐权重对所述待处理文本进行推荐;若所述待处理文本的实用性类别为知识类实用性,基于第二推荐权重对所述待处理文本的推荐权重进行推荐,所述第一推荐权重大于所述第二推荐权重。
具体实现中,本申请实施例中所描述的处理器1101、存储器1102及网络接口1103可执行本申请实施例提供的一种文本处理方法中所描述的计算机设备的实现方式,也可执行本申请实施例提供的一种文本处理装置中所描述的实现方式以及有益效果,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如本申请实施例所述的文本处理方法。其具体实现方式可参考前文描述,此处不再赘述。
本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行如本申请实施例所述的文本处理方法。其具体实现方式可参考前文描述,此处不再赘述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本,所述待处理文本包括文本标题、文本关键词和文本正文;
将所述待处理文本输入长文本识别模型中进行处理,得到目标结果,所述目标结果用于指示所述待处理文本的实用性类别;其中,所述长文本识别模型是利用第一文本数据对初始文本识别模型进行预训练后,利用第二文本数据对预训练后的文本识别模型进行微调训练得到的;所述第一文本数据包括非完整文本正文,所述第二文本数据包括样本文本标题、样本文本关键词、样本文本正文以及相应的参考实用性类别标签;
根据所述目标结果指示的所述待处理文本的实用性类别确定所述待处理文本的推荐权重;
将所述实用性类别以及所述推荐权重与所述待处理文本进行关联;
根据所述待处理文本相关联的推荐权重对所述待处理文本进行推荐处理。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述第一文本数据对所述初始文本识别模型进行预训练,得到预训练后的文本识别模型,所述预训练后的文本识别模型具备语义语法识别能力;
利用所述第二文本数据对所述预训练后的文本识别模型进行微调训练,对所述预训练后的文本识别模型的模型参数进行微调,得到训练后的长文本识别模型,所述训练后的长文本识别模型用于识别长文本的实用性类别。
3.如权利要求1所述的方法,其特征在于,所述将所述待处理文本输入长文本识别模型中进行处理,得到目标结果,包括:
确定所述文本标题、所述文本关键词以及所述文本正文分别对应的标题向量、关键词向量以及正文向量;
根据所述标题向量、所述关键词向量以及所述正文向量确定所述待处理文本的表征向量;
对所述表征向量进行处理,得到目标结果。
4.如权利要求3所述的方法,其特征在于,所述对所述表征向量进行处理,得到目标结果,包括:
根据数据选取滑窗从所述表征向量中选取当前待处理数据,并对所述当前待处理数据进行处理,得到第一中间数据;
根据所述数据选取滑窗以及所述数据选取滑窗对应的处理步长从所述表征向量中选取新的待处理数据,并对所述新的待处理数据进行处理,得到第二中间数据;
根据所述第一中间数据和所述第二中间数据确定目标结果。
5.如权利要求4所述的方法,其特征在于,所述数据选取滑窗对应的数据量为所述处理步长所对应数据量的M倍,所述M为正整数。
6.如权利要求4所述的方法,其特征在于,所述初始文本识别模型是运用全局自注意力机制和局部自注意力机制的语言表征模型。
7.如权利要求6所述的方法,其特征在于,对待处理数据进行处理,得到中间数据,包括:
利用第一映射矩阵对待处理数据进行处理,得到待处理数据对应的全局自注意力指示信息;
利用第二映射矩阵对待处理数据进行处理,得到待处理数据对应的局部自注意力指示信息;
将所述全局自注意力指示信息和局部自注意力指示信息作为中间数据;
其中,针对目标数据对象,通过所述第一映射矩阵确定所述目标数据对象和所述待处理数据中除所述目标数据对象之外的各数据对象之间的自注意力指示信息;通过所述第二映射矩阵确定所述目标数据对象和其相邻数据对象之间的自注意力指示信息;所述目标数据对象为所述待处理数据中的任一数据对象。
8.如权利要求1所述的方法,其特征在于,所述实用性类别包括知识类实用性或者实操类实用性,所述根据所述待处理文本相关联的推荐权重对所述待处理文本进行推荐处理,包括:
若所述待处理文本的实用性类别为实操类实用性,基于第一推荐权重对所述待处理文本进行推荐;
若所述待处理文本的实用性类别为知识类实用性,基于第二推荐权重对所述待处理文本的推荐权重进行推荐,所述第一推荐权重大于所述第二推荐权重。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行权利要求1-8任一项所述的文本处理方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括程序指令,所述程序指令存储在计算机可读存储介质中,处理器从计算机可读存储介质读取所述程序指令,处理器执行所述程序指令以执行如权利要求1-8任一项所述的文本处理方法。
CN202110128856.7A 2021-01-29 2021-01-29 文本处理方法、装置、计算机设备及计算机可读存储介质 Active CN113569001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110128856.7A CN113569001B (zh) 2021-01-29 2021-01-29 文本处理方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110128856.7A CN113569001B (zh) 2021-01-29 2021-01-29 文本处理方法、装置、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113569001A CN113569001A (zh) 2021-10-29
CN113569001B true CN113569001B (zh) 2025-02-18

Family

ID=78161070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110128856.7A Active CN113569001B (zh) 2021-01-29 2021-01-29 文本处理方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113569001B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330312B (zh) * 2021-11-03 2024-06-14 腾讯科技(深圳)有限公司 标题文本处理方法、装置、存储介质和程序
CN114201953B (zh) * 2021-12-10 2025-05-16 北京百度网讯科技有限公司 一种关键词提取、模型训练方法、装置、设备及存储介质
CN114239500B (zh) * 2021-12-13 2025-02-11 黑盒科技(广州)有限公司 一种可控性生成式的作文润色方法
CN114548398B (zh) * 2021-12-31 2025-05-23 科大讯飞股份有限公司 训练试题评分模型的方法、试题评分方法及装置
CN114492404B (zh) * 2021-12-31 2025-02-11 北京金山数字娱乐科技有限公司 一种长文本的处理方法、装置、设备及存储介质
CN114219046B (zh) * 2022-01-26 2023-07-28 北京百度网讯科技有限公司 模型训练方法、匹配方法、装置、系统、电子设备和介质
CN114444489B (zh) * 2022-01-29 2024-07-02 北京金山数字娱乐科技有限公司 一种信息抽取方法、装置及电子设备
CN114676249A (zh) * 2022-03-01 2022-06-28 上海交通大学 用于阿尔兹海默症的数据样本检测方法及系统
CN114612759B (zh) * 2022-03-22 2023-04-07 北京百度网讯科技有限公司 视频处理方法、查询视频的方法和模型训练方法、装置
CN114743143B (zh) * 2022-04-11 2024-11-12 同济大学 一种基于多概念知识挖掘的视频描述生成方法及存储介质
CN114997395A (zh) * 2022-04-22 2022-09-02 阿里巴巴(中国)有限公司 文本生成模型的训练方法、生成文本的方法以及各自装置
CN114817500B (zh) * 2022-04-26 2024-05-31 山东浪潮科学研究院有限公司 一种基于量化的长文本问答推理方法、设备及介质
CN114911940B (zh) * 2022-05-27 2025-03-28 重庆长安汽车股份有限公司 文本情感识别方法及装置、电子设备、存储介质
CN115098629B (zh) * 2022-06-22 2024-09-17 马上消费金融股份有限公司 文件处理方法、装置、服务器及可读存储介质
CN114970504B (zh) * 2022-06-24 2025-02-14 北京有竹居网络技术有限公司 篇章纠错方法、装置、电子设备及存储介质
CN116738298B (zh) * 2023-08-16 2023-11-24 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN117349275B (zh) * 2023-12-04 2024-03-01 中电数创(北京)科技有限公司 一种基于大语言模型的文本结构化方法和系统
CN117789699B (zh) * 2023-12-13 2024-09-06 暗物质(北京)智能科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN117423423B (zh) * 2023-12-18 2024-02-13 四川互慧软件有限公司 一种基于卷积神经网络的健康档案整合方法、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930468B (zh) * 2016-04-22 2019-05-17 江苏金鸽网络科技有限公司 一种基于规则的信息相关性判定方法
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
CN109543022B (zh) * 2018-12-17 2020-10-13 北京百度网讯科技有限公司 文本纠错方法和装置
US11176330B2 (en) * 2019-07-22 2021-11-16 Advanced New Technologies Co., Ltd. Generating recommendation information
CN110795552B (zh) * 2019-10-22 2024-01-23 腾讯科技(深圳)有限公司 一种训练样本生成方法、装置、电子设备及存储介质
CN111966826B (zh) * 2020-07-22 2023-01-24 中国科学院计算技术研究所 一种构建文本分类系统的方法、系统、介质及电子设备

Also Published As

Publication number Publication date
CN113569001A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113569001B (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN108647233B (zh) 一种用于问答系统的答案排序方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN113254782B (zh) 问答社区专家推荐方法及系统
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN110472045A (zh) 一种基于文档嵌入的短文本虚假问题分类预测方法及装置
CN113836934B (zh) 基于标签信息增强的文本分类方法和系统
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
Zhang et al. A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews
CN110415071A (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN114298011B (zh) 神经网络、训练方法、方面级情感分析方法、装置及存储介质
CN118551004B (zh) 一种基于知识检索图中文对话知识检索方法及系统
CN112100375A (zh) 文本信息生成方法、装置、存储介质及设备
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN116205700A (zh) 目标产品的推荐方法、装置、计算机设备和存储介质
CN116303977A (zh) 一种基于特征分类的问答方法及系统
Shan Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment
Wang et al. Cognitive process-driven model design: a deep learning recommendation model with textual review and context
CN113704547B (zh) 一种基于单向监督注意力的多模态标签推荐方法
CN118245602B (zh) 情绪识别模型的训练方法、装置、设备及存储介质
CN114372454B (zh) 文本信息抽取方法、模型训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053598

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant