CN113011126A - 文本处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

文本处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113011126A
CN113011126A CN202110265746.5A CN202110265746A CN113011126A CN 113011126 A CN113011126 A CN 113011126A CN 202110265746 A CN202110265746 A CN 202110265746A CN 113011126 A CN113011126 A CN 113011126A
Authority
CN
China
Prior art keywords
text
feature extraction
extraction module
initial
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110265746.5A
Other languages
English (en)
Other versions
CN113011126B (zh
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110265746.5A priority Critical patent/CN113011126B/zh
Publication of CN113011126A publication Critical patent/CN113011126A/zh
Application granted granted Critical
Publication of CN113011126B publication Critical patent/CN113011126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,涉及人工智能、自然语言处理、文本处理及云技术领域。该方法包括:通过调用训练好的第一文本处理模型对第一待处理文本进行处理,该模型是通过以下方式训练得到的:获取多个第一文本,将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本;基于各第一文本和各第二文本,对初始特征提取模块进行训练,得到预训练后的特征提取模块,基于第二训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,得到第一文本处理模型。本方案中,由于将第一文本中的字符替换,以使模型主动学习字符间的上下文信息,从而提高了模型的精度。

Description

文本处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及人工智能、自然语言处理、文本处理及云技术领域,具体而言,本申请涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着计算机技术和移动通信技术的发展,各种新媒体平台应运而生,越来越多的用户通过各种新媒体平台发布各种多媒体数据(例如,短视频等)。多媒体数据上传量以指数级的速度增长,内容融合了技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制等主题,多媒体数据已成为内容创业和社交媒体平台的重要传播方式之一。
由于多媒体数据的重要性,现有技术中会基于人工智能的方式训练一些用于处理待处理多媒体数据的模型,对于多媒体数据中的文本,现有技术中,用于对文本进行处理的文本处理模型的具体训练过程为:对于训练数据,先基于MASK全词方式对训练数据中的文本进行处理,即将训练数据中需要被替换的词进行替换,得到替换后的训练数据,然后基于替换后的训练数据训练得到文本处理模型。通过上述模型训练方式,由于模型的训练仅基于替换后的训练数据,没有考虑到文本的语义信息,因此训练得到的模型精度较低。
发明内容
本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,基于该方案,能够提高模型的精度。
为实现上述目的,本申请实施例提供的具体技术方案如下:
根据本申请的一个方面,提供了一种文本处理方法,该方法包括:
获取第一待处理文本;
通过调用训练好的第一文本处理模型对第一待处理文本进行处理,得到第一待处理文本的文本处理结果,其中,第一文本处理模型包括级联的特征提取模块和文本处理模块,该模型是通过以下方式训练得到的:
获取第一训练数据,第一训练数据包括多个第一文本;
将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本;
基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块,其中,初始特征提取模块的输入包括各第二文本,输出包括各第二文本对应的文本特征,损失函数的值表征了各第一文本的文本特征和对应的第二文本的文本特征之间的差异;
获取第二训练数据,基于第二训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,得到第一文本处理模型。
根据本申请的另一个方面,提供了一种文本处理装置,该装置包括:
文本获取模块,用于获取第一待处理文本;
文本处理模块,用于通过调用训练好的第一文本处理模型对第一待处理文本进行处理,得到第一待处理文本的文本处理结果,其中,第一文本处理模型包括级联的特征提取模块和文本处理模块,该模型是通过以下方式训练得到的:
获取第一训练数据,第一训练数据包括多个第一文本;
将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本;
基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块,其中,初始特征提取模块的输入包括各第二文本,输出包括各第二文本对应的文本特征,损失函数的值表征了各第一文本的文本特征和对应的第二文本的文本特征之间的差异;
获取第二训练数据,基于第二训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,得到第一文本处理模型。
在一种可能的实现方式中,文本处理模块在通过调用训练好的第一文本处理模型对第一待处理文本进行处理,得到第一待处理文本的文本处理结果时,具体用于:
将第一待处理文本输入至第一文本处理模型的特征提取模块,得到第一待处理文本的文本特征;
将第一待处理文本的文本特征输入至第一文本处理模型的文本处理模块,得到第一待处理文本的文本处理结果;
其中,第一待处理文本的文本特征由特征提取模块通过执行以下操作得到的:
提取第一待处理文本包含的各字符的初始语义特征;
对于每一字符的初始语义特征,由至少一层第一特征提取层基于该字符的初始语义特征以及位于该字符设定范围内的各字符的初始语义特征,提取得到该字符的第一语义特征;
基于各字符对应的第一语义特征得到文本特征。
在一种可能的实现方式中,文本处理模块在基于各字符对应的第一语义特征得到文本特征时,具体用于:
对于每个字符的第一语义特征,由至少一层第二特征提取层基于该字符的第一语义特征和第一待处理文本包含的各字符的初始语义特征,提取得到该字符的第二语义特征;
基于各字符对应的第二语义特征得到文本特征。
在一种可能的实现方式中,对于任一第一文本,文本处理模块在将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本时,具体用于:
将第一文本中包含的至少一个字进行替换,得到第三文本;
将第一文本中包含的至少一个词进行替换,得到第四文本;
将第三文本和第四文本拼接,得到第一文本对应的第二文本。
在一种可能的实现方式中,文本处理模块在基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块时,具体用于:
重复执行以下训练步骤直至预训练损失值满足预训练结束条件,得到预训练后的特征提取模块:
对于任一第一文本和对应的第二文本,将第一文本和对应的第二文本输入至初始特征提取模块,以通过初始特征提取模块提取第一文本的文本特征,并基于第二文本中各字符之间的上下文信息,提取得到每个字符的字符特征,并基于各字符的字符特征得到第二文本的文本特征;
基于各第一文本的文本特征和对应的第二文本的文本特征,确定损失值,若损失值满足训练结束条件,结束训练,得到预训练后的特征提取模块;若不满足,调整初始特征提取模块的模型参数,并重复训练步骤。
在一种可能的实现方式中,第一待处理文本对应的应用场景为第一应用场景,第一训练数据包括至少两种应用场景的训练数据,至少两种应用场景包括第一应用场景和至少一种第二应用场景,第二训练数据为第一应用场景对应的训练数据。
在一种可能的实现方式中,该装置还包括:
第二待处理文本处理模块,用于获取第二待处理文本,第二待处理文本对应的应用场景为第二应用场景;通过调用训练好的第二文本处理模型对第二待处理文本进行处理,得到第二待处理文本的文本处理结果,其中,第二文本处理模型是通过以下方式训练得到的:
构建第二应用场景对应的初始文本处理模型,初始文本处理模型包括级联的预训练后的特征提取模块和初始文本处理模块;
获取第二应用场景对应的第三训练数据;
基于第三训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,得到第二文本处理模型。
在一种可能的实现方式中,文本处理模块在基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块时,具体用于:
重复执行以下训练步骤直至预训练损失值满足预训练结束条件,得到预训练后的特征提取模块:
将各第一文本和各第二文本输入至初始特征提取模块,在通过初始特征提取模块的输出层输出一个第二文本的文本特征之前,将另一个第二文本输入至初始特征提取模块中,以通过初始特征提取模块对至少两个第二文本进行并行处理,得到每个第二文本的文本特征;
基于各第一文本的文本特征和对应的第二文本的文本特征,确定损失值,若损失值满足训练结束条件,结束训练,得到预训练后的特征提取模块;若不满足,调整初始特征提取模块的模型参数,并重复训练步骤。
在一种可能的实现方式中,文本处理模块在通过初始特征提取模块的输出层输出一个第二文本的文本特征之前,将另一个第二文本输入至初始特征提取模块中时,具体用于:
在通过初始特征提取模块对一个第二文本的处理时长小于设定时长时,将另一个第二文本输入至初始特征提取模块中,设定时长为通过初始特征提取模块提取得到一个第二文本的文本特征所对应的时长;和/或
在通过初始特征提取模块的至少一个隐藏层得到一个第二文本对应于至少一个隐藏层的输出数据之后,将另一个第二文本输入至初始特征提取模块中。
在一种可能的实现方式中,获取第一训练数据之前,该装置还包括:
语料预处理模块,用于获取包括多个初始语料的初始语料集;按照语料处理策略,对初始语料集中的各初始语料进行处理,得到第一训练数据;
初始语料集中包括至少一种应用场景的初始语料,对于任一种应用场景的初始语料,初始语料包括文章文本或评论文本中的至少一项,语料处理策略包括以下至少一项:
删除同一应用场景中各初始语料中的重复语料;
删除同一个评论文本中的重复内容;
删除多个评论文本中字数少于第一设定字数的评论文本;
将大于第二设定字数的评论文本转换为满足设定字数条件的评论文本;
将每个初始语料中的表情符号替换为语义相同的文字;
将每个初始语料中的繁体字替换为简体字;
删除每个初始语料中的空白字符。
在一种可能的实现方式中,第二训练数据包括携带文本标签的已发布文本,对于一个已发布文本,文本标签表征了已发布文本的文本处理结果,文本处理模块在获取第二训练数据时,具体用于:
获取用户针对多个已发布文本的反馈信息;
基于各反馈信息,确定每个已发布文本的文本标签。
根据本申请的再一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时实现本申请的文本处理方法。
根据本申请的又一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请的文本处理方法。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本处理方法的各种可选实现方式中提供的方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,在训练用于对第一待处理文本进行处理的第一文本处理模型时,先通过预训练的方式训练得到第一文本处理模型中的特征提取模块,该模块在训练时,通过替换每个第一文本中的字符的方式,得到各第一文本对应的第二文本,将各第二文本作为初始特征提取模块的输入数据,由于第一文本中的字符被替换,以使得初始特征提取模块在训练时主动学习字符间的上下文信息,从而使基于第二文本中各字符间的上下文信息提取的第二文本的文本特征更加准确,从而使基于第二文本中各字符间的上下文信息训练得到的模型考虑到了文本的语义,进而提高了模型的精度。进一步地,由于特征提取模块是预训练的,在基于第二训练数据对预训练后的特征提取模块和初始处理模型进行训练时,加快了第一文本处理模型的训练速度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本处理方法的流程示意图;
图2为本申请实施例提供的各种处理任务的分类示意图;
图3为本申请实施例提供的一种初始特征提取模块的输入信息示意图;
图4为本申请实施例提供的一种并行处理第二文本的处理过程示意图;
图5为本申请实施例提供的一种文本处理方法中涉及的各服务模块的结构示意图;
图6为本申请实施例提供的一种文本处理装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请实施例提供的方案涉及计算机技术中的云技术、大数据、人工智能等领域。
本申请实施例中所涉及的文本处理方法可以通过云技术来实现,其中所涉及的数据计算可以通过云技术中的云计算实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
本申请实施例中所涉及的文本处理方法中的第一文本处理模型以及第二文本处理模型可以通过人工智能技术中的机器学习来实现,其中所涉及的对文本的相关处理可通过自然语言处理实现。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、多媒体数据的质量评估技术、操作/交互系统、机电一体化等技术。本申请实施例涉及的人工智能技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例中所涉及的训练数据可以为从互联网中获取到的大数据。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请技术方案的执行主体为计算机设备,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中,用户设备包括但不限于电脑、智能手机、PAD等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本申请实施例提供了一种文本处理方法,该方法的执行主体可以为任一电子设备,例如,该方法可以由服务器执行,如图1所示,该方法可以包括:
步骤S110,获取第一待处理文本。
其中,待处理文本是需要进行处理的文本,如果需要处理的待处理数据不是文本,比如,视频,图片和文本结合、图片等。则可以将待处理数据转化为文本,将转化后的数据作为待处理文本。
待处理文本可以包括用户原创内容(User Generated Content,UGC)、专业生产内容(Professional Generated Content,PGC)、多频道网络产品形态(Multi-ChannelNetwork,MCN)、专业用户生产内容(Professional User Generated Content,PUGC)。待处理文本可以是不同语言的文字构成的文本,比如,中文,英文等,本申请中不点限定待处理文本的语言类型。
待处理文本可以是需要进行文本处理的任意多媒体数据,在一些可选的实施例中,待处理文本可以是多媒体数据发布平台对应的服务器接收到的用户通过用户终端发送的多媒体数据,或者,也可以是多媒体发布平台对应的服务器从预设的存储空间中获取到的待处理多媒体数据。
可选的,获取到待处理文本之后,可以首先将待处理文本进行格式化处理,具体包括:统一字体、统一样式、去掉隐藏字符等。
步骤S120,通过调用训练好的第一文本处理模型对第一待处理文本进行处理,得到第一待处理文本的文本处理结果,其中,第一文本处理模型包括级联的特征提取模块和文本处理模块。
其中,特征提取模块用于提取文本的文本特征,文本处理模块用于基于文本的文本特征得到文本的文本处理结果。文本特征可以反应文本的特点,比如,文本内容质量,文本内容所属类型等。则基于文本的文本特征,可对文本进行不同处理,比如,文本分类,质量评估等,得到对应的文本处理结果,比如,文本分类结果,质量评估结果。
其中,第一文本处理模型是通过以下方式训练得到的:
步骤S1201,获取第一训练数据,第一训练数据包括多个第一文本。
其中,第一文本可以是一篇文章或一个标题,第一文本也可以是一句话,也可以是包含多句话的文章,本申请中不限定第一文本的具体表现形式。第一训练数据可以是来自不同应用场景的数据,比如,各社交平台所对应的数据,以使得基于第一训练数据训练得到的预训练后的特征提取模块可应用于不同的应用场景,对不同应用场景的待处理文本进行文本特征提取。
步骤S1202,将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本。
其中,字符指的是构成文本的元素,可以是字或词中的至少一项。具体的,可将第一文本中的至少一个字符替换成设定字符,得到第二文本。设定字符可基于实际需求配置,比如,可以是文字,可以是英文字母,本申请中不限定设定字符的具体表达方式。
作为一个示例,设定字符为a,第一文本为“我喜欢看足球比赛”,基于设定字符a,随机将第一文本中的至少一个字符进行替换,得到的第二文本为“我喜a看足球a赛”。
作为又一个示例,以下三个句子分别对应三个第二文本,在以下三个句子中,MASK为设定字符,CLS为开始标识,SEP为结束标识,通过开始标识和结束标识区分各句话,即一个开始标识和一个结束标识之间为对应的一个第二文本。
[CLS]反[MASK][MASK]逐梦之[SEP]星,啥都有了[SEP];
[CLS]借了的头,着急[MASK][MASK]了[SEP]好还[MASK][SEP];
[CLS]小明是[SEP][MASK]无敌的[SEP]。
步骤S1203,基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块。
其中,初始特征提取模块的输入包括各第二文本,输出包括各第二文本对应的文本特征,损失函数的值表征了各第一文本的文本特征和对应的第二文本的文本特征之间的差异。
其中,第一文本的文本特征可通过初始特征提取模块提取,则初始特征提取模块的输入还包括各第一文本,输出包括各第一文本的文本特征。第一文本的文本特征也可以不通过初始特征提取模块提取,通过其他特征提取模块提取,则初始特征提取模块的输入仅包括各第二文本。
可选的,损失函数的值是通过以下方式确定的:
对于每一个第一文本,将第一文本和第一文本对应的第二文本分别输入至初始特征提取模块,得到第一文本对应的文本特征和第二文本对应的文本特征;基于第一文本的文本特征和第二文本对应的文本特征,确定该第一文本对应的损失值;
基于各第一文本的文本特征和对应的第二文本的文本特征,得到损失函数的值。
初始特征提取模块的输出还可以包括第二文本对应的预测文本,即第二文本的文本特征对应的文本,则损失函数的值表征了各第一文本和对应的第二文本的预测文本之间的差异。
可选的,初始特征提取模块可以为BERT(Bidirectional EncoderRepresentation from Transformers,双向注意力神经网络模型)模型。
步骤S1204,获取第二训练数据,基于第二训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,得到第一文本处理模型。
其中,第二训练数据中的训练样本是带标签的样本,标签表征了训练样本的处理结果,基于第二训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,具体过程为:通过预训练后的特征提取模块提取第二训练数据中各训练样本的文本特征;基于各训练样本的文本特征,通过初始文本处理模块确定每个训练样本的预测处理结果;基于各训练样本的标签和对应的预测处理结果,得到训练损失值,若训练损失值满足训练结束条件,训练结束,得到第一文本处理模型,若不满足,基于训练损失值调整特征提取模块和初始文本处理模块的参数,重新重复步骤S1204中的训练步骤。
其中,基于第二训练数据对预训练的特征提取模块和初始文本处理模块在训练过程中,初始文本处理模块对应的是何种处理任务,训练得到的第一文本处理模型对第一待处理文本进行的文本处理与训练时所对应的处理任务一致,比如,如果处理任务是文本分类,则基于第一文本处理模型对第一待处理文本进行文本分类处理。如果处理任务是匹配属于同一事件的文本,则基于第一文本处理模型,匹配到与第一待处理文本属于同一事件的目标文本。可以理解的是,处理任务可基于实际业务需求配置,则基于本申请的方案,基于不同的业务需求,通过微调预训练后的特征提取模块和初始文本处理模块,以得到符合业务需求的文本处理模块。
在本申请方案中,采用预训练的方式训练特征提取模块,特征提取模块对应的第一训练数据是海量的无人工标注的数据,用于对预训练后的特征提取模块进行训练的第二训练数据相对与第一训练数据,是少量的标注数据,进而基于本方案可减少数据标注量。
另外,如果初始特征提取模块为BERT模型,BERT模型在训练时包括Next SentencePrediction任务(下一句预测任务),即在预训练过程中,从第一训练数据中随机抽取多个句子对,每个句子对中的两句话是相邻的两句话。通过NSP任务预测句子对中一句话的下一句话,即NSP任务的目的是让模型学习句子间的上下文信息。作为一个示例,一个句子对包括句子A和句子B,其中,50%的概率B是A的下一个句子,50%的概率B是第一训练数据中的一个随机句子,即不是A的下一个句子。
在本方案中,在预训练过程中,由于采用替换的方式得到第一文本对应的第二文本,强迫模型学习了第二文本中各字符之间的上下文信息,因此,可将NSP任务删除,删除后,也可以得到精度较高的预训练后的特征提取模块,进一步提升预训练速度。通过本申请方案,可得到一个样本量小,模型容量大,鲁棒性好的文本处理模型。
在一种可能的实现方式中,第一待处理文本可以包括评论文本、文章文本或标题文本中的至少一项。
在一种可能的实现方式中,基于第一文本处理模型可实现对第一待处理文本的处理,第一文本处理模型对应的处理任务是什么,基于该处理任务对第一待处理文本进行相应的处理。
如图2所示的各种处理任务的分类示意图,对于评论文本,评论文本对应的处理任务包括但不限于评论分类和评论匹配,作为一个示例,评论分类可以按照评论文本内容进行分类,比如,将包含低俗、谩骂、引起论战(比如,敏感事件)的评论文本划分为一类,即将图2中所示的低俗评论、谩骂评论和引战评论划分为一类,将情感分析的评论(图2中所示的评论情感分析)划分为一类。评论匹配具体可以为:从大量评论文本中匹配相似的评论文本,对相似的评论文本进行处理(对应图2中的相似评论打击)。
对于文章标题,文章标题对应的处理任务包括但不限于标题分类和标题匹配,作为一个示例,标题分类可以包括以下至少一项:将包含夸张内容的标题(图2中所示的标题夸张)划分为一类,夸张内容指的是不符合实际的内容,比如,一个苹果重100斤;将包含引战内容的标题(图2中所示的标题引战)划分为一类,可将包含低俗内容的标题(图2中所示的标题低俗)划分为一类。标题匹配可以包括以下至少一项:从各文章标题中匹配出相似标题(图2中所示的标题相似),也可从各文章标题中匹配出属于同一事件的标题(图2中所示的同一事件)。
对于文章文本(对应图2中所示的篇章),文章文本对应的处理任务包括但不限于文章分类、文章去重、文章标签提取、文章评论迁移(图2中所示的评论迁移)、无营养文章提取,正能量文章提取,优质文章提取。其中,分类可按照文章内容进行分类,比如,可将文章质量不满足设定条件的文章划分为一类,不满足设定条件的文章包括以下至少一项:包含色情、低俗内容的文章,文章中图片清晰度不高的文章。其中,无营养指定是文章内容没有实际意义。优质文章可以为文章质量满足设定条件的文章。
文章评论迁移指的是对于文章对应的评论文本,将其中不满足条件的评论文本在评论区的位置移动到评论区指定位置(比如,底部),以减少这类评论文本的曝光。文章去重具体指的是,将多个文章文本中相似的文章进行去重处理。各文章对应有文章标签,文章标签可以表征文章的属性信息,比如,文章类别,发布时间、作者等,则可提取各文章的文章标签,以基于各文章的文章标签进行后续处理,比如,文章分类等。
在一种可能的实现方式中,获取第一训练数据之前,该方法还包括:
获取包括多个初始语料的初始语料集;
按照语料处理策略,对初始语料集中的各初始语料进行处理,得到第一训练数据;
初始语料集中包括至少一种应用场景的初始语料,对于任一种应用场景的初始语料,初始语料集中包括评论文本或文章文本中的至少一项,语料处理策略包括以下至少一项:
删除同一应用场景中各初始语料中的重复语料;
删除同一个评论文本中的重复内容;
删除多个评论文本中字数少于第一设定字数的评论文本;
将大于第二设定字数的评论文本转换为满足设定字数条件的评论文本;
将每个初始语料中的表情符号替换为语义相同的文字;
将每个初始语料中的繁体字替换为简体字;
删除每个初始语料中的空白字符。
其中,初始语料集中的语料来源于不同的应用场景,种类复杂多样,质量参差不齐,由此,对初始语料集中的语料进行预处理,即按照语料处理策略,对初始语料集中的各初始语料进行处理,基于得到的第一训练数据进行文本处理模型的训练,可进一步提高模型的精度以及泛化能力。
可选的,初始语料集中包括评论文本或文章文本中的至少一项。
初始语料集中可包括长文本和短文本,长文本可以是大于第一设定字符数的文本,比如,大于1000字的文本,短文本可以是小于第二设定字符数的文本,比如,小于200字的文本。对于评论文本来说,通常评论文本的字数较少,可作为短文本。
评论文本可是基于预先配置任一已发布内容对应的评论区域,接收用户在该评论区域针对该已发布内容输入的文字评论内容。评论文本具有篇幅小,富含信息量少,覆盖领域广泛等特点,另一方面,用户发表评论文本的门槛较低,会导致评论文本中包括各种质量的内容,比如,低俗,涉黄,攻击谩骂等内容,为此,评论文本也是需要进行文本处理的文本,进而也可将评论文本作为初始语料。以使得基于评论文本训练得到的文本处理模型可以对评论文本进行相关的处理,比如,删除不符合条件的评论等。
评论文本的质量也参差不齐,比如,语义不明确,口语化等,因此也可按照语料处理策略,对初始语料集中的各评论文本进行处理,将处理后的评论文本作为第一训练数据。
在一可选方案中,语料处理策略包括以下至少一项:
第一种,删除同一应用场景中各初始语料中的重复语料。
重复语料通常指的是包含相同内容的语料,删除重复语料,只保留一个该内容的语料。若初始语料中包括评论文本,则重复语料可包括重复评论文本,如果初始语料中包括文章文本,则重复语料可包括重复文章文本。
可选的,从初始语料集中确定出重复语料,包括:
计算初始语料集中各语料对应的敏感哈希值,基于各语料对应的敏感哈希值,确定初始语料集中的重复语料。敏感哈希值越接近,两个语料越相似。
第二种,删除同一个评论文本中的重复内容。
重复的内容表达的语义相同,因此可删除同一个评论文本中的重复内容,从而可以减少数据处理量。重复内容包括重复文字,重复字符等。
作为一个示例,比如,一个评论文本为:“我喜欢AAAAA演的电视剧”,其中,一个A代表一个名字,则该评论文本中包括5个相同的名字,则可将其中4个A删除。
作为另一个示例,比如,评论内容中包含“--------------------”,则删除重复的“-”,将“--------------------”变为“-”。
第三种,删除多个评论文本中字数少于第一设定字数的评论文本。
对于字数过少的评论文本,可能表达不出完整的语义,这样的评论文本作为语料也适合,因此,可将字数过少的评论文本删除。比如,你,你是,180cm这样的评论文本。
第四种,将大于第二设定字数的评论文本转换为满足设定字数条件的评论文本。
对于过长的评论文本(大于第二设定字数的评论文本),不便于处理,则可将过长的评论文本转化为满足设定字数条件(比如,不大于设定字数)的评论文本。设定字数条件可基于实际需求配置,比如,模型输入字符的长度限制。可选的,设定字数条件为不大于1000字。
第五种,将每个初始语料中的表情符号替换为语义相同的文字。
对于包含表情符号的语料不便于处理,则可将表情符号替换为语义相同的文字。
作为一个示例,比如,动物园里的
Figure BDA0002971710620000171
好多,这里的
Figure BDA0002971710620000172
可替换为“马”。还有类似
Figure BDA0002971710620000181
=狗,
Figure BDA0002971710620000182
=屎等。
第六种,将每个初始语料中的繁体字替换为简体字。
作为一个示例,比如,小編你語文和數學都是哪个老師教的。将此句中的繁体字替换为对应的简体字,替换后的句子为:小编你语文和数学都是哪个老师教的。
可选的,可通过字典映射查找方式将句子中的繁体字替换为简体字。
第七种,删除每个初始语料中的空白字符。
在一种可能的实现方式中,第一待处理文本对应的应用场景为第一应用场景,第一训练数据包括至少两种应用场景的训练数据,至少两种应用场景包括第一应用场景和至少一种第二应用场景,第二训练数据为第一应用场景对应的训练数据。
其中,应用场景可以是不同多媒体平台,则训练数据可以是对应于不同多媒体平台获取的数据。在第一待处理文本对应的应用场景为第一应用场景时,用于预训练特征提取模块的第一训练数据包括第一应用场景对应的训练数据,训练预训练后的特征提取模块的第二训练数据也为第一应用场景对应的训练数据,这样训练得到的第一文本处理模型为第一应用场景对应的模型,基于该模型可以处理第一应用场景对应的待处理文本。
第一训练数据包括至少两种应用场景的训练数据,则基于第一训练数据训练得到的预训练后的特征提取模块适用于至少两种应用场景。增强了预训练后的特征提取模块的泛化能力。
在一种可能的实现方式中,该方法还包括:
获取第二待处理文本,第二待处理文本对应的应用场景为第二应用场景;
通过调用训练好的第二文本处理模型对第二待处理文本进行处理,得到第二待处理文本的文本处理结果,其中,第二文本处理模型是通过以下方式训练得到的:
构建第二应用场景对应的初始文本处理模型,初始文本处理模型包括级联的预训练后的特征提取模块和初始文本处理模块;
获取第二应用场景对应的第三训练数据;
基于第三训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,得到第二文本处理模型。
其中,在有第二应用场景的第二待处理文本需要处理时,可获取第二应用场景对应的第三训练数据,基于第三训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,以使得训练得到的第二文本处理模型可以处理第二应用场景对应的文本。通过本申请的方案,可复用预训练后的特征提取模块,在对应不同应用场景的待处理文本时,仅需要少量的标注样本(应用场景对应的训练数据)即可得到处理待处理文本的文本处理模型,这样可使样本量小,模型容量大,并且可有效地提升模型的性能。
在一种可能的实现方式中,对于任一第一文本,将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本,包括:
将第一文本中包含的至少一个字进行替换,得到第三文本;
将第一文本中包含的至少一个词进行替换,得到第四文本;
将第三文本和第四文本拼接,得到第一文本对应的第二文本。
其中,对于一个第一文本,该文本中的字符可以以字为粒度进行划分,也可以以词为粒度进行划分。第二文本中被替换的字符可以是第一文本中的字,也可以是第一文本中的词。
在将第一文本中包含的至少一个字进行替换,得到第三文本时,可先对第一文本进行分字处理,得到包含各字的第一文本,再对包含各字的第一文本中的至少一个字进行替换,得到第三文本。同理,在将第一文本中包含的至少一个词进行替换,得到第四文本时,可先对第一文本进行分词处理,得到包含各分词的第一文本,再对包含各分词的第一文本中的至少一个词进行替换,得到第四文本。
在本申请的方案中,初始特征提取模块的输入信息包括以字为粒度和以词为粒度的两个维度的信息,从而提升了模型的输入信息。进一步地,在提取第二文本的文本特征时,不但可以参考上述两个维度的信息,还可使第三文本和第四文本之间互相参考对应位置的字符的语义,使得提取的第二文本的文本特征更加准确。
在一种可能的实现方式中,第二文本也可以是第三文本或第四文本中的任一项。
在一种可能的实现方式中,对于任一第一文本,将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本,包括:
基于设定字符间隔,将第一文本中包含的至少两个字符进行替换,得到第一文本对应的第二文本。
其中,在对第一文本中包含的至少一个字符进行替换的一种可实现方案可以为,按照设定字符间隔将第一文本中包含的至少两个字符进行替换。设定字符间隔表征了两个被替换的字符之间相差的字符数量,第二文本中被替换的两个字符之间的间隔可以不小于设定字符间隔。设定字符间隔可基于实际需求配置,比如,基于被替换的词对文本语义的影响,由此,可使得替换后的文本(第二文本)从整体上语义上相较于第一文本的差距不大,从而可提升文本特征提取的准确性。
在一种可能的实现方式中,基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块,包括:
重复执行以下训练步骤直至预训练损失值满足预训练结束条件,得到预训练后的特征提取模块:
对于任一第一文本和对应的第二文本,将第一文本和对应的第二文本输入至初始特征提取模块,以通过初始特征提取模块提取第一文本的文本特征,并基于第二文本中各字符之间的上下文信息,提取得到每个字符的字符特征,并基于各字符的字符特征得到第二文本的文本特征;
基于各第一文本的文本特征和对应的第二文本的文本特征,确定损失值,若损失值满足训练结束条件,结束训练,得到预训练后的特征提取模块;若不满足,调整初始特征提取模块的模型参数,并重复训练步骤。
其中,由于第二文本是通过替换字符的方式得到的,对于一个第二文本,在基于各第一文本和各第二文本,对初始特征提取模块进行训练时,对于一个第二文本,可基于第二文本中各字符之间的上下文信息,得到第二文本的文本特征。各字符间的上下文信息可以反应出各字符之间的语义关联关系,基于上下文信息,可以更加准确的确定出被替换的字符的语义,从而使得得到的第二文本的文本特征更加准确。
损失值表征了各第一文本的文本特征和对应的第二文本的文本特征之间的差异,在损失值满足训练结束条件时,表示损失函数收敛。
可以理解的是,如果被替换的是第一文本中的字,则基于各字之间的上下文信息提取第二文本的文本特征,如果被替换的是第一文本中的词,则基于各分词之间的上下文信息提取第二文本的文本特征。
作为一个示例,如图3所示,比如,第一文本为“我喜欢热巴演出演的电视剧”,将第一文本中包含的至少一个字进行替换,得到第三文本(图中所示的Sentence A);将第一文本中包含的至少一个词进行替换,得到第四文本(图中所示的Sentence B),第一文本对应的第二文本包括第三文本和第四文本。将第三文本和第四文本作为初始特征提取模块的输入。
在该示例中,Position Embedding为第一文本中各个字符的位置信息,通过各个字符的位置关系可以表征各个字之间的上下文信息。在模型处理过程中,考虑到各个字符之间的上下文信息,可使得基于各个字符之间的上下文信息得到的第二文本的文本特征更加准确。
在一种可能的实现方式中,基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块,包括:
重复执行以下训练步骤直至预训练损失值满足预训练结束条件,得到预训练后的特征提取模块:
将各第一文本和各第二文本输入至初始特征提取模块,在通过初始特征提取模块的输出层输出一个第二文本的文本特征之前,将另一个第二文本输入至初始特征提取模块中,以通过初始特征提取模块对至少两个第二文本进行并行处理,得到每个第二文本的文本特征;
基于各第一文本的文本特征和对应的第二文本的文本特征,确定损失值,若损失值满足训练结束条件,结束训练,得到预训练后的特征提取模块;若不满足,调整初始特征提取模块的模型参数,并重复训练步骤。
其中,在基于各第一文本和各第二文本,对初始特征提取模块进行训练时,可基于并行的方式进行训练。即在通过初始特征提取模块的输出层输出一个第二文本的文本特征之前,就可将另一个第二文本输入至初始特征提取模块中,此时,初始特征提取模块当前处理的数据为至少两个第二文本对应的数据。通过并行的方式处理第二文本,相较于一个一个处理第二文本的方式,可提高预训练的训练速度。
在一种可能的实现方式中,在通过初始特征提取模块的输出层输出一个第二文本的文本特征之前,将另一个第二文本输入至初始特征提取模块中,包括以下至少一项:
在通过初始特征提取模块对一个第二文本的处理时长小于设定时长时,将另一个第二文本输入至初始特征提取模块中,设定时长为通过初始特征提取模块提取得到一个第二文本的文本特征所对应的时长;
在通过初始特征提取模块的至少一个隐藏层得到一个第二文本对应于至少一个隐藏层的输出数据之后,将另一个第二文本输入至初始特征提取模块中。
其中,上述并行处理的方式包括以下至少一种:
第一种,在通过初始特征提取模块对一个第二文本的处理时长小于设定时长时,将另一个第二文本输入至初始特征提取模块中,设定时长为通过初始特征提取模块提取得到一个第二文本的文本特征所对应的时长。
在通过初始特征提取模块对一个第二文本的处理时长小于设定时长时,即在初始特征提取模块尚未提取得到一个第二文本的文本特征时,将另一个第二文本输入至初始特征提取模块,以使初始特征提取模块同时对至少两个第二文本进行文本特征的提取,达到并行处理的目的。
第二种,在通过初始特征提取模块的至少一个隐藏层得到一个第二文本对应于至少一个隐藏层的输出数据之后,将另一个第二文本输入至初始特征提取模块中。
其中,通过初始特征提取模块提取一个第二文本的文本特征时,具体可通过初始特征提取模块中的至少一个隐藏层对第二文本进行处理,以得到第二文本的文本特征。在通过初始特征提取模块的至少一个隐藏层得到一个第二文本对应于至少一个隐藏层的输出数据之后指的是,对于至少一个隐藏层,通过至少一个隐藏层处理第二文本,得到第二文本在该至少一个隐藏层对应的输出数据后,该输出数据需要进入到至少一个隐藏层的下一个隐藏层进行后续处理,以得到第二文本的文本特征。则在得到第二文本在至少一个隐藏层对应的输出数据之后,可将另一个第二文本输入至初始特征提取模块中,以实现通过初始特征提取模块并行处理至少两个第二文本的目的。
其中,对于并行处理的方式,初始特征提取模块包括至少两个隐藏层。
作为一个示例,如图4所示的并行处理的示意图,如图中所示,在本示例中,图4中的数据指的是第二文本,训练指的是初始特征提取模块,在通过初始特征提取模块提取第二文本的文本特征时,如果采用串行处理的方式(图中所示的数据训练串行),则基于初始特征提取模块得到一个第二文本的文本特征之后,才将另一个第二文本输入至初始特征提取模块。具体参见数据训练串行对应的图,一个第二文本A(数据)输入至初始特征提取模块m后,得到该第二文本的文本特征后,将另一个第二文本B输入至初始特征提取模块m。
如果采用并行处理的方式(图中所示的数据训练并行),则基于初始特征提取模块得到一个第二文本的文本特征之前,就可以将另一个第二文本输入至初始特征提取模块,以使的初始特征提取模块可以对至少两个第二文本进行并行处理。具体参见数据训练并行对应的图,一个第二文本a输入至初始特征提取模块m后,通过初始特征提取模块m得到该第二文本a的文本特征之前,将第二文本b输入至初始特征提取模块m。
在一种可能的实现方式中,通过调用训练好的第一文本处理模型对第一待处理文本进行处理,得到第一待处理文本的文本处理结果,包括:
将第一待处理文本输入至第一文本处理模型的特征提取模块,得到第一待处理文本的文本特征;
将第一待处理文本的文本特征输入至第一文本处理模型的文本处理模块,得到第一待处理文本的文本处理结果;
其中,第一待处理文本的文本特征由特征提取模块通过执行以下操作得到的:
提取第一待处理文本包含的各字符的初始语义特征;
对于每一字符的初始语义特征,由至少一层第一特征提取层基于该字符的初始语义特征以及位于该字符设定范围内的各字符的初始语义特征,提取得到该字符的第一语义特征;
基于各字符对应的第一语义特征得到文本特征。
其中,第一待处理文本包含的各字符中的字符可以是字,也可以是词。对于每一字符的初始语义特征,在提取该字符的第一语义特征时,只需考虑该字符的初始语义特征和位于该字符设定范围内的各字符的初始语义特征,即只考虑该字符相关的局部字符的初始语义特征,无需考虑位于该字符设定范围之外的各字符的初始语义特征,从而减少数据处理量。
另一方面,由于通过上述方式提取文本特征可减少数据处理量,则在第一文本处理模型训练时,可通过上述方式提取第二文本的文本特征,从而可减少模型的数据处理量和空间复杂度,进而通过上述方式可以使模型支持对长文本的文本特征的提取。
在一种可能的实现方式中,基于各字符对应的第一语义特征得到文本特征,包括:
对于每个字符的第一语义特征,由至少一层第二特征提取层基于该字符的第一语义特征和第一待处理文本包含的各字符的初始语义特征,提取得到该字符的第二语义特征;
基于各字符对应的第二语义特征得到文本特征。
其中,由于第一语义特征只考虑到了各字符的局部特征,可能遗漏一些特征信息,使得基于各字符对应的第一语义特征得到的文本特征不够准确,因此,在得到一个字符对应的第一语义特征后,可基于该字符的第一语义特征和第一待处理文本包含的各字符的初始语义特征,提取得到该字符的第二语义特征,即考虑到该字符和第一待处理文本中包含的各字符间的语义关系,从而使得基于各字符对应的第二语义特征得到的文本特征更加准确。
可选的,特征提取模块包括至少一层基于全局注意力机制的特征提取层时,可将至少一层基于全局注意力机制的特征提取层优化为基于局部注意力机制的特征提取层。
可选的,特征提取模块为BERT模型时,BERT模型中包括两层基于全局注意力机制的特征提取层(Transformer层),在特征提取模块中引入LongFormer机制,将两层基于全局注意力机制的特征提取层中的一层优化为基于稀疏注意力机制的特征提取层,另一层保持不变,这样即保留了稀疏注意力的线性复杂度,同时保留了全局注意力的全局信息。
如果特征提取模块为BERT模型,对于BERT模型,一次最多只能处理512字节的数据,对于较长的文本,基于BERT模型的空间和时间复杂度考量,通常是将该文本进行分段处理,然后将各分段文本输入至BERT模型处理,因此,基于BERT模型无法处理大于512字节的长文本。通过引入LongFormer机制,减少运算量,降低BERT模型的空间和时间复杂度,从而可使优化后的BERT模型可处理长文本,支持长文本的建模。
在一种可能的实现方式中,第二训练数据包括携带文本标签的已发布文本,对于一个已发布文本,文本标签表征了已发布文本的文本处理结果,获取第二训练数据,包括:
获取用户针对多个已发布文本的反馈信息;
基于各反馈信息,确定每个已发布文本的文本标签。
其中,反馈信息可以反映已发布文本本身固有的属性特征,还可以反映出其他用户浏览过该已发布文本后,与该文本中内容之间的一些互动信息。为此,基于反馈信息,可以确定已发布文本的文本标签,通过文本标签表征已发布文本的特征信息,比如,分类信息,内容质量等。基于第二训练数据中携带文本标签的已发布文本,可得到对待处理文本进行不同文本处理的文本处理模型,比如,文本处理模型可以用于文本分类、质量评估、相似标题匹配、同一事件文本的匹配,文本去重、文本标签提取、评论文本迁移等。
反馈信息可以包括但不限于针对各已发布文本的点击次数、转发次数、评价信息、评论文本、浏览次数、举报信息中的至少一项。点击次数、转发次数和浏览次数可以反映出该已发布文本的热度。评价信息、评论文本和举报信息可以反映出文本的文本质量,以及文本所属类别。
其中,评价信息可以包括正面的评价信息,也就是好评信息,还包括负面的评价信息,也就是差评信息。在一些可选的实施例中,评价信息具体可以是预先配置多个评价等级,在用户界面进行展示,供用户进行选择,例如,星级评价:一星、二星、三星、四星、五星,根据用户针对各星级评价的选择操作,确定用户针对该已发布文本的评价信息。
评论文本中也包括正面的评论信息,也包括负面的评论信息。评论信息可是预先配置该已发布文本对应的评论区域,接收用户在该评论区域针对该已发布文本输入的文字评论内容,作为该已发布文本的评论信息。
举报信息具体指的是,针对已发布文本的内容中不符合设定要求的各文本,例如,内容不健康、虚假广告、诈骗信息等,其他用户可以对该文本进行举报,通过该文本对应的用户界面中设置的举报触发区域和举报理由输入区域,接收用户针对举报按钮的触发操作,以及在举报理由输入区域输入的文本形式的举报理由。
通过反馈信息,可以获取到用户对已发布文本的一些观点,比如,内容是否健康,还可以获取到已发布文本的特征信息,比如,标签信息,标签信息可以表征已发布文本的一些特征,比如,发布地点,发布时间,文本所属类别,作者,码率,文件格式,标题等。通过这些特征信息,可实现对文本的分类,标签提取等处理,不同的信息可通过不同的标签进行表征。
作为一个示例,已发布文本为讲解ABC手机的文章,其一级分类标签为科技,二级分类标签为智能手机,三级分类标签为国内手机,四级分类标签为ABC,型号V。
在一种可能的实现方式中,在本申请的方案中,第一文本处理模型训练时,可采用Lamb优化器,通过Lamb优化器可提升模型一次训练所选取的样本数batch size。比如,预训练过程中,原始的特征提取模块所对应的batch size为256,则通过Lamb优化器进行优化,可将batch size提升至2048。进而可提升模型的训练速度。
在一种可能的实现方式中,在训练时,可将多个任务融合到一个文本处理模块中,则训练得到的文本处理模型可同时处理多个任务。多个任务可以包括但不限于前文所描述的对文本的处理方式,比如,文章分类,文章标题分类,评论文本分类,关键词提取,构思concept识别等。具体的,可通过multi-task(多任务)的方式将多种任务融合在一起。
下面通过一个具体的实施例对本申请技术方案中的第一训练数据、第二训练数据的来源,处理,文本处理模型的训练,以及通过文本处理模型对待处理文本的处理过程进行详细说明。本实施例只是本申请技术方案的一个实施例,并不代表本申请技术方案的全部实现方式。
如图5所示,首先,对该图中的各模块的功能进行介绍:
一、内容生产端
内容生产端可以包括PGC、UGC、MCN或者PUGC等内容,内容生产端通过移动终端或者应用程序编程接口(Application Programming Interface,API),上传本地存储的或者拍摄的多媒体数据(对应图5中的上传发布内容),多媒体数据包括但不限于文本内容、视频、图文内容,或者图集内容;这些多媒体数据可作为分发内容的主要内容来源。其中,内容分发指的是基于数据获取请求,将该请求对应的多媒体数据发送给请求发送者。
内容生产端通过和上下行内容接口服务器的通讯,先获取上传服务器(也就是多媒体数据发布平台对应的服务器)接口地址,然后再上传本地多媒体数据,拍摄过程当中本地多媒体数据可以选择搭配的音乐,滤镜模板和美化功能等。
内容生产端所对应的多媒体数据可作为文本语料与样本数据库的数据来源,即第一训练数据和第二训练数据的来源。
二、内容消费端
内容消费端对应多媒体数据发布平台的消费用户,内容消费端和上下行内容接口服务通讯,获取访问已发布的多媒体数据的索引信息(获取索引信息),然后和多媒体数据发布平台对应的服务器通讯,通过Feeds流方式消费内容数据,下载对应的流媒体文件(多媒体数据)并且通过本地播放器来播放观看;
内容消费端同时将上传和下载过程中用户播放的行为数据:卡顿、加载时间、播放点击等上报给统计上报接口服务器,同时提供内容质量反馈和举报,包括质量问题类型,质量不合格内容的特征,质量不合格内容的标识等,将这些数据上传到线上巡检。
在内容消费端,用户消费内容后可以产生评论文本和反馈信息(互动信息),主要是对已发布文本的评论,点赞,转发,收藏等,包括与UGC短文本内容的互动信息,与UGC的互动信息通过UGC互动及统计上报接口上报给互动内容数据库(写入互动内容数据库)。将评论文本(评论数据)通过UGC互动业务服务传给文本内容处理服务,通过文本处理内容服务可以调用评论治理服务对评论文本进行处理,比如,删除不符合设定条件的评论等。
消费端用户对已发布文本的内容质量的投诉信息和举报信息上报给线上巡检服务,以通过线上巡检服务对投诉信息和举报信息进行处理,得到各已发布文本的文本标签,将带文本标签的已发布文本作为训练文本处理模型的第一训练数据。
三、上下行内容接口服务
上下行内容接口服务器和内容生产端直接通讯,将内容生产端提交的内容,包括:视频内容的标题、发布者、摘要、封面图、发布时间,或者拍摄的图文直接通过该服务存入内容数据库,对应图5中所示的通过上下行内容接口服务写入图文元信息,即将图文元信息写入内容数据库;
多媒体数据中可包括视频,上下行内容接口服务将视频内容的元信息,比如视频文件大小、封面图链接、码率、文件格式、标题、发布时间、作者等,写入内容数据库。
上下行内容接口服务将上传的文件提交给调度中心服务,进行后续的内容处理和流转。
四、内容数据库
内容数据库为存储内容生产者发布的内容的元信息的数据库,所有内容生产者发布的多媒体数据的元信息都保存在这个内容数据库中,包括多媒体数据本身的元信息,比如,文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,视频文件大小,视频格式,是否是原创的标记等。
通过线上巡检进行初步审核后的数据(投诉信息和举报信息),可以通过人工审核系统进行复核(推送人工复核),复核后的数据可存储至容数据库中,同时人工审核的结果和审核状态也会回传进入内容数据库。其中,审核状态表征的是多媒体数据是否通过审核,审核状态可以为已通过审核或未通过审核。
内容数据库中存储的数据可作为文本语料与样本数据库的数据来源,即可作为第一训练数据和第二训练数据的数据来源。
五、调度中心服务模块
调度中心服务模块负责多媒体数据流转的整个调度过程,通过上下行内容接口服务模块接收入库(内容数据库)的数据,然后启用内容调度中心,从内容数据库中获取数据的元信息。同步人工审核系统,即基于人工审核系统审核后的数据对内容数据库中的元信息进行更新(更新元信息),比如,将举报信息和投诉信息对应的元信息删除等;调用排重服务,读取原始内容,即通过内容排重服务读取内容数据库中的原始内容(初始语料),对原始内容进行排重处理。
启用内容出口分发服务(启用内容开始分发),通过内容出口分发服务将内容排重服务处理后的多媒体数据发送给内容消费端(对应图5中所示的内容分发消费端),具体的,发送给内容消费端的可以是多媒体数据对应的内容索引信息。其中,内容出口分发服务通常指的是推荐引擎,搜索引擎或者某多媒体平台的运营。
六、人工审核系统
人工审核系统读取内容数据库中的存储的内容的原始信息,并进行人工审核,过滤掉质量不合格的内容,并更新内容对应的元信息(更新元信息),对需要标注的内容进行标注。其中,不合格的内容可以是涉及色情,赌博,政治敏感的内容。
接受调度中心服务器的调度,对内容消费端用户的投诉和举报反馈的内容进行人工复核,复核满足条件的内容写入内容数据库,作为平台算法系统中的文本处理模型的训练数据。
人工审核系统还可以和线上巡检服务器进行通讯,接收线上巡检服务的输入,主要用于复核线上巡检服务处理后的各种举报和反馈的内容质量问题(对应图5中用户质量举报与反馈及抽检线上),比如,篇章级别的无营养,正能量,广告营销,旧闻,标题党等。
七、内容排重服务
通过内容排重服务,对内容数据库中存储的各初始语料进行排重,主要是对各初始语料进行向量化,然后建立向量索引,通过比较向量之间的距离来确定各初始语料之间的相似度,基于相似度进行排重处理。
具体的,通常可基于敏感度哈希值(SIMHASH)对各初始语料进行向量化。对包括正文和标题的初始语料,在对初始语料中的正文部分进行排重之前,可先对标题这样的短文本进行排重。
八、统计上报接口服务
统计上报接口服务与内容消费端进行通讯,接收上报上来的UGC互动信息(对应图5中所示的上报UGC互动信息),包括点赞,转发,收藏等互动信息;将该互动信息写入互动内容数据库作为后续训练数据的数据来源。
九、互动内容数据库
保存终端用户产生的评论文本的原始数据,包括评论文本所对应的标记,发表评论的时间,评论的用户身份信息(比如,用户ID(Identity document))以及评论的实际内容等。评论文本可以作为用于训练文本处理模型的训练数据,即文本语料与样本数据库的数据来源。
十、文本语料与样本数据库
读取内容数据库中的各初始语料(读取内容信息),对内容数据库中的各初始语料(各初始语料中包括文章文本和评论文本)进行预处理,包括前文所描述的语料处理策略(包括内容排重服务)。将处理后的数据保存在文本语料与样本数据库中,用于给预训练的特征提取模块提供训练数据,并为文本处理模型提供训练数据的支持。
经过线上巡检和人工审核系统复核后的数据也可以保存在文本语料与样本数据库中(对应图5中所示的写入样本),互动内容数据库中存储的文本数据也可以存储在文本语料与样本数据库中(对应图5中所示的获取文本数据),用于后续定期为模型进行更新。
十一、预训练Bert大模型
从文本语料与样本数据库中获取大量的语料信息作为第一训练数据(对应图5中所示的读取语料信息),即预训练的Bert大模型(预训练的特征提取模块)的数据基础,具体预训练的步骤和过程已在前文描述,在此不再赘述。
预训练Bert大模型可以与文本内容处理服务联动,以基于文本内容处理服务完成对待处理文本的文本处理。
十二、文本内容处理服务
通过调度中心服务调用文本内容处理,即获取待处理文本,通过文本内容处理服务调用预训练后的特征提取模块(BERT预训练模型)(对应图5中所示的调用预训练模型),读取样本构建模型和服务,即从文本语料与样本数据库中获取第二训练数据,基于第二训练数据(少量样本)对预训练后的特征提取模块和初始文本处理模块进行训练,得到文本处理模型,以通过文本处理模型对待处理文本进行相应的文本处理任务。其中,待处理文本可以是UGC评论文本。文本处理可以包括文本质量评估,文本识别等。具体的,可以对待处理文本(比如,UGC评论文本)进行质量识别,得到质量评估结果。可以识别待处理文本(比如,UGC评论文本)中的关键词,将识别结果返回UGC互动业务服务。
十三、UGC互动业务服务
UGC互动业务服务和内容消费端通讯,将UGC评论文本的识别结果比如低俗评论,谩骂评论,灌水,引战,无关等结果)返回给终端,终端依据预先确定的处理策略对评论内容进行删除或者对评论内容下沉,降低评论内容曝光的机会。
十四、线上巡检服务
线上巡检服务和内容消费端通讯,接收终端消费用户对文章文本和评论文本的投诉和举报,对投诉和举报对应的文本语料进行初步审核,调用人工审核服务对初步审核后的语料进行复核;样本复核的结果可写入文本语料与样本数据库和内容数据库,并且记录好初始语料的时间戳标记,便于后续模型定期更新。
在本示例中,基于上述各模块的功能,对本方案中的第一文本处理模型的训练和应用进行进一步的说明:
首先获取第一训练数据,第一训练数据包括内容生产端所发布的多媒体数据,内容消费端收集到的数据(包括评论文本,反馈信息等),将内容生产端所发布的多媒体数据,内容消费端收集到的数据存储至内容数据库,作为初始语料。
其中,反馈信息中包括针对已发布文本和评论文本的举报信息及投诉信息,对于举报信息及投诉信息,可通过线上巡检服务对举报信息对应的文本内容和投诉信息对应的文本内容进行初步审核,然后再通过人工审核服务对初步审核后的语料进行复核,最后将复核后的语料写入内容数据库。
按照语料处理策略,对内容数据库中存储的各初始语料进行相应的处理,得到第一训练数据,其中,语料处理策略包括内容排重服务。按照语料处理策略,对内容数据库中存储的各初始语料进行相应的处理的具体过程如前文描述,在此不再赘述。
第一训练数据存储在文本语料及样本数据库中,该数据库中还包括互动内容数据库中存储的与UGU的互动信息。
基于第一训练数据,对初始特征提取模块(BERT模型)进行训练,得到预训练后的特征提取模块(对应预训练BERT大模型)。
在获取到第一待处理文本时,第一待处理文本对应的应用场景为第一应用场景,通过文本内容处理服务构建第二应用场景对应的初始文本处理模型(读取样本构建模型和服务),该初始文本处理模型包括预训练后的特征提取模块(通过文本内容处理服务调用预训练模型)和初始文本处理模块;从文本语料与样本数据库中获取第一应用场景对应的第二训练数据,基于第二训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,得到第一文本处理模型,得到的第一文本处理模型可对第一待处理文本进行相应的处理。
与图1中所示方法相同的原理,本申请的实施例中还提供了一种文本处理装置20,如图6所示,该文本处理装置20包括文本获取模块210和文本处理模块220,其中:
文本获取模块210,用于获取第一待处理文本;
文本处理模块220,用于通过调用训练好的第一文本处理模型对第一待处理文本进行处理,得到第一待处理文本的文本处理结果,其中,第一文本处理模型包括级联的特征提取模块和文本处理模块,该模型是通过以下方式训练得到的:
获取第一训练数据,第一训练数据包括多个第一文本;
将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本;
基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块,其中,初始特征提取模块的输入包括各第二文本,输出包括各第二文本对应的文本特征,损失函数的值表征了各第一文本的文本特征和对应的第二文本的文本特征之间的差异;
获取第二训练数据,基于第二训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,得到第一文本处理模型。
本申请的方案,在训练用于对第一待处理文本进行处理的第一文本处理模型时,先通过预训练的方式训练得到第一文本处理模型中的特征提取模块,该模块在训练时,通过替换每个第一文本中的字符的方式,得到各第一文本对应的第二文本,将各第二文本作为初始特征提取模块的输入数据,由于第一文本中的字符被替换,以使得初始特征提取模块在训练时主动学习字符间的上下文信息,从而使基于第二文本中各字符间的上下文信息提取的第二文本的文本特征更加准确,从而使基于第二文本中各字符间的上下文信息训练得到的模型考虑到了文本的语义,进而提高了模型的精度。进一步地,由于特征提取模块是预训练的,在基于第二训练数据对预训练后的特征提取模块和初始处理模型进行训练时,加快了第一文本处理模型的训练速度。
在一种可能的实现方式中,文本处理模块在通过调用训练好的第一文本处理模型对第一待处理文本进行处理,得到第一待处理文本的文本处理结果时,具体用于:
将第一待处理文本输入至第一文本处理模型的特征提取模块,得到第一待处理文本的文本特征;
将第一待处理文本的文本特征输入至第一文本处理模型的文本处理模块,得到第一待处理文本的文本处理结果;
其中,第一待处理文本的文本特征由特征提取模块通过执行以下操作得到的:
提取第一待处理文本包含的各字符的初始语义特征;
对于每一字符的初始语义特征,由至少一层第一特征提取层基于该字符的初始语义特征以及位于该字符设定范围内的各字符的初始语义特征,提取得到该字符的第一语义特征;
基于各字符对应的第一语义特征得到文本特征。
在一种可能的实现方式中,文本处理模块在基于各字符对应的第一语义特征得到文本特征时,具体用于:
对于每个字符的第一语义特征,由至少一层第二特征提取层基于该字符的第一语义特征和第一待处理文本包含的各字符的初始语义特征,提取得到该字符的第二语义特征;
基于各字符对应的第二语义特征得到文本特征。
在一种可能的实现方式中,对于任一第一文本,文本处理模块在将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本时,具体用于:
将第一文本中包含的至少一个字进行替换,得到第三文本;
将第一文本中包含的至少一个词进行替换,得到第四文本;
将第三文本和第四文本拼接,得到第一文本对应的第二文本。
在一种可能的实现方式中,文本处理模块在基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块时,具体用于:
重复执行以下训练步骤直至预训练损失值满足预训练结束条件,得到预训练后的特征提取模块:
对于任一第一文本和对应的第二文本,将第一文本和对应的第二文本输入至初始特征提取模块,以通过初始特征提取模块提取第一文本的文本特征,并基于第二文本中各字符之间的上下文信息,提取得到每个字符的字符特征,并基于各字符的字符特征得到第二文本的文本特征;
基于各第一文本的文本特征和对应的第二文本的文本特征,确定损失值,若损失值满足训练结束条件,结束训练,得到预训练后的特征提取模块;若不满足,调整初始特征提取模块的模型参数,并重复训练步骤。
在一种可能的实现方式中,第一待处理文本对应的应用场景为第一应用场景,第一训练数据包括至少两种应用场景的训练数据,至少两种应用场景包括第一应用场景和至少一种第二应用场景,第二训练数据为第一应用场景对应的训练数据。
在一种可能的实现方式中,该装置还包括:
第二待处理文本处理模块,用于获取第二待处理文本,第二待处理文本对应的应用场景为第二应用场景;通过调用训练好的第二文本处理模型对第二待处理文本进行处理,得到第二待处理文本的文本处理结果,其中,第二文本处理模型是通过以下方式训练得到的:
构建第二应用场景对应的初始文本处理模型,初始文本处理模型包括级联的预训练后的特征提取模块和初始文本处理模块;
获取第二应用场景对应的第三训练数据;
基于第三训练数据对预训练后的特征提取模块和初始文本处理模块进行训练,得到第二文本处理模型。
在一种可能的实现方式中,对于任一第一文本,文本处理模块在将每个第一文本中包含的至少一个字符进行替换,得到各第一文本对应的第二文本时,具体用于:
基于设定字符间隔,将第一文本中包含的至少两个字符进行替换,得到第一文本对应的第二文本。
在一种可能的实现方式中,文本处理模块在基于各第一文本和各第二文本,对初始特征提取模块进行训练,直至初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块时,具体用于:
重复执行以下训练步骤直至预训练损失值满足预训练结束条件,得到预训练后的特征提取模块:
将各第一文本和各第二文本输入至初始特征提取模块,在通过初始特征提取模块的输出层输出一个第二文本的文本特征之前,将另一个第二文本输入至初始特征提取模块中,以通过初始特征提取模块对至少两个第二文本进行并行处理,得到每个第二文本的文本特征;
基于各第一文本的文本特征和对应的第二文本的文本特征,确定损失值,若损失值满足训练结束条件,结束训练,得到预训练后的特征提取模块;若不满足,调整初始特征提取模块的模型参数,并重复训练步骤。
在一种可能的实现方式中,文本处理模块在通过初始特征提取模块的输出层输出一个第二文本的文本特征之前,将另一个第二文本输入至初始特征提取模块中时,具体用于:
在通过初始特征提取模块对一个第二文本的处理时长小于设定时长时,将另一个第二文本输入至初始特征提取模块中,设定时长为通过初始特征提取模块提取得到一个第二文本的文本特征所对应的时长;和/或
在通过初始特征提取模块的至少一个隐藏层得到一个第二文本对应于至少一个隐藏层的输出数据之后,将另一个第二文本输入至初始特征提取模块中。
在一种可能的实现方式中,获取第一训练数据之前,该装置还包括:
语料预处理模块,用于获取包括多个初始语料的初始语料集;按照语料处理策略,对初始语料集中的各初始语料进行处理,得到第一训练数据;
初始语料集中包括至少一种应用场景的初始语料,对于任一种应用场景的初始语料,初始语料包括文章文本或评论文本中的至少一项,语料处理策略包括以下至少一项:
删除同一应用场景中各初始语料中的重复语料;
删除同一个评论文本中的重复内容;
删除多个评论文本中字数少于第一设定字数的评论文本;
将大于第二设定字数的评论文本转换为满足设定字数条件的评论文本;
将每个初始语料中的表情符号替换为语义相同的文字;
将每个初始语料中的繁体字替换为简体字;
删除每个初始语料中的空白字符。
在一种可能的实现方式中,第二训练数据包括携带文本标签的已发布文本,对于一个已发布文本,文本标签表征了已发布文本的文本处理结果,文本处理模块在获取第二训练数据时,具体用于:
获取用户针对多个已发布文本的反馈信息;
基于各反馈信息,确定每个已发布文本的文本标签。
本申请实施例的文本处理装置可执行本申请的实施例所提供的与图1对应的文本处理方法,其实现原理相类似,本申请实施例中的文本处理装置中的各模块所执行的动作是与本申请实施例中的文本处理方法中的步骤相对应的,对于文本处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的文本处理方法中的描述,此处不再赘述。
其中,文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
在一些实施例中,本申请实施例提供的文本处理装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的文本处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的文本处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本申请实施例提供的文本处理装置可以采用软件方式实现,图6示出了存储在存储器中的文本处理装置,其可以是程序和插件等形式的软件,并包括一系列的模块,包括文本获取模块210和文本处理模块220,用于实现本申请实施例提供的文本处理方法。
基于与本申请的实施例中所示的方法相同的原理,本申请的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本申请任一实施例所示的文本处理方法。
本申请实施例提供的文本处理装置,在训练用于对第一待处理文本进行处理的第一文本处理模型时,先通过预训练的方式训练得到第一文本处理模型中的特征提取模块,该模块在训练时,通过替换每个第一文本中的字符的方式,得到各第一文本对应的第二文本,将各第二文本作为初始特征提取模块的输入数据,由于第一文本中的字符被替换,以使得初始特征提取模块在训练时主动学习字符间的上下文信息,从而使基于第二文本中各字符间的上下文信息提取的第二文本的文本特征更加准确,从而使基于第二文本中各字符间的上下文信息训练得到的模型考虑到了文本的语义,进而提高了模型的精度。进一步地,由于特征提取模块是预训练的,在基于第二训练数据对预训练后的特征提取模块和初始处理模型进行训练时,加快了第一文本处理模型的训练速度。
上述实施例从虚拟模块的角度介绍了文本处理装置,下述从实体模块的角度介绍一种电子设备,具体如下所示:
在一个可选实施例中提供了一种电子设备,如图7所示,图7所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备也可以是终端设备,图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
其中,本申请提供的图像处理方法,还可以通过云计算的方式实现,云计算(cloudcomputing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(GridComputing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
本申请提供的图像处理方法,该方案还可以通过人工智能云服务实现,人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。本申请中,可以利用平台提供的AI框架和AI基础设施来实现本申请提供的文本处理方法。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
根据本申请的另一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施例实现方式中提供的图像处理方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种文本处理方法,其特征在于,包括:
获取第一待处理文本;
通过调用训练好的第一文本处理模型对所述第一待处理文本进行处理,得到所述第一待处理文本的文本处理结果,其中,所述第一文本处理模型包括级联的特征提取模块和文本处理模块,该模型是通过以下方式训练得到的:
获取第一训练数据,所述第一训练数据包括多个第一文本;
将每个所述第一文本中包含的至少一个字符进行替换,得到各所述第一文本对应的第二文本;
基于各所述第一文本和各所述第二文本,对初始特征提取模块进行训练,直至所述初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块,其中,所述初始特征提取模块的输入包括各所述第二文本,输出包括各所述第二文本对应的文本特征,所述损失函数的值表征了各所述第一文本的文本特征和对应的第二文本的文本特征之间的差异;
获取第二训练数据,基于所述第二训练数据对所述预训练后的特征提取模块和初始文本处理模块进行训练,得到所述第一文本处理模型。
2.根据权利要求1所述的方法,其特征在于,所述通过调用训练好的第一文本处理模型对所述第一待处理文本进行处理,得到所述第一待处理文本的文本处理结果,包括:
将所述第一待处理文本输入至所述第一文本处理模型的特征提取模块,得到所述第一待处理文本的文本特征;
将所述第一待处理文本的文本特征输入至所述第一文本处理模型的文本处理模块,得到所述第一待处理文本的文本处理结果;
其中,所述第一待处理文本的文本特征由所述特征提取模块通过执行以下操作得到的:
提取所述第一待处理文本包含的各字符的初始语义特征;
对于每一字符的初始语义特征,由至少一层第一特征提取层基于该字符的初始语义特征以及位于该字符设定范围内的各字符的初始语义特征,提取得到该字符的第一语义特征;
基于各所述字符对应的第一语义特征得到所述文本特征。
3.根据权利要求2所述的方法,其特征在于,所述基于各所述字符对应的第一语义特征得到所述文本特征,包括:
对于每个字符的第一语义特征,由至少一层第二特征提取层基于该字符的第一语义特征和所述第一待处理文本包含的各字符的初始语义特征,提取得到该字符的第二语义特征;
基于各所述字符对应的第二语义特征得到所述文本特征。
4.根据权利要求1至3中任一项所述的方法,其特征在于,对于任一所述第一文本,所述将每个所述第一文本中包含的至少一个字符进行替换,得到各所述第一文本对应的第二文本,包括:
将所述第一文本中包含的至少一个字进行替换,得到第三文本;
将所述第一文本中包含的至少一个词进行替换,得到第四文本;
将所述第三文本和所述第四文本拼接,得到所述第一文本对应的第二文本。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于各所述第一文本和各所述第二文本,对初始特征提取模块进行训练,直至所述初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块,包括:
重复执行以下训练步骤直至预训练损失值满足预训练结束条件,得到所述预训练后的特征提取模块:
对于任一所述第一文本和对应的第二文本,将所述第一文本和对应的所述第二文本输入至初始特征提取模块,以通过所述初始特征提取模块提取所述第一文本的文本特征,并基于所述第二文本中各字符之间的上下文信息,提取得到每个字符的字符特征,并基于各字符的字符特征得到所述第二文本的文本特征;
基于各所述第一文本的文本特征和对应的第二文本的文本特征,确定损失值,若所述损失值满足训练结束条件,结束训练,得到所述预训练后的特征提取模块;若不满足,调整所述初始特征提取模块的模型参数,并重复所述训练步骤。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一待处理文本对应的应用场景为第一应用场景,所述第一训练数据包括至少两种应用场景的训练数据,所述至少两种应用场景包括所述第一应用场景和至少一种第二应用场景,所述第二训练数据为所述第一应用场景对应的训练数据。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取第二待处理文本,所述第二待处理文本对应的应用场景为所述第二应用场景;
通过调用训练好的第二文本处理模型对所述第二待处理文本进行处理,得到所述第二待处理文本的文本处理结果,其中,所述第二文本处理模型是通过以下方式训练得到的:
构建所述第二应用场景对应的初始文本处理模型,所述初始文本处理模型包括级联的所述预训练后的特征提取模块和所述初始文本处理模块;
获取所述第二应用场景对应的第三训练数据;
基于所述第三训练数据对所述预训练后的特征提取模块和所述初始文本处理模块进行训练,得到所述第二文本处理模型。
8.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于各所述第一文本和各所述第二文本,对初始特征提取模块进行训练,直至所述初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块,包括:
重复执行以下训练步骤直至预训练损失值满足预训练结束条件,得到所述预训练后的特征提取模块:
将所述各第一文本和各所述第二文本输入至所述初始特征提取模块,在通过所述初始特征提取模块的输出层输出一个所述第二文本的文本特征之前,将另一个所述第二文本输入至所述初始特征提取模块中,以通过所述初始特征提取模块对至少两个所述第二文本进行并行处理,得到每个所述第二文本的文本特征;
基于各所述第一文本的文本特征和对应的第二文本的文本特征,确定损失值,若所述损失值满足训练结束条件,结束训练,得到所述预训练后的特征提取模块;若不满足,调整所述初始特征提取模块的模型参数,并重复所述训练步骤。
9.根据权利要求8所述的方法,其特征在于,所述在通过所述初始特征提取模块的输出层输出一个第二文本的文本特征之前,将另一个第二文本输入至所述初始特征提取模块中,包括以下至少一项:
在通过所述初始特征提取模块对一个所述第二文本的处理时长小于设定时长时,将另一个所述第二文本输入至所述初始特征提取模块中,所述设定时长为通过所述初始特征提取模块提取得到一个所述第二文本的文本特征所对应的时长;
在通过所述初始特征提取模块的至少一个隐藏层得到一个所述第二文本对应于所述至少一个隐藏层的输出数据之后,将另一个所述第二文本输入至所述初始特征提取模块中。
10.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取第一训练数据之前,还包括:
获取包括多个初始语料的初始语料集;
按照语料处理策略,对所述初始语料集中的各初始语料进行处理,得到所述第一训练数据;
所述初始语料集中包括至少一种应用场景的初始语料,对于任一种应用场景的初始语料,所述初始语料包括文章文本或评论文本中的至少一项,所述语料处理策略包括以下至少一项:
删除同一应用场景中各初始语料中的重复语料;
删除同一个评论文本中的重复内容;
删除多个评论文本中字数少于第一设定字数的评论文本;
将大于第二设定字数的评论文本转换为满足设定字数条件的评论文本;
将每个初始语料中的表情符号替换为语义相同的文字;
将每个初始语料中的繁体字替换为简体字;
删除每个初始语料中的空白字符。
11.根据权利要求1至3中任一项所述的方法,其特征在于,所述第二训练数据包括携带文本标签的已发布文本,对于一个所述已发布文本,所述文本标签表征了所述已发布文本的文本处理结果,所述获取第二训练数据,包括:
获取用户针对多个已发布文本的反馈信息;
基于各所述反馈信息,确定每个所述已发布文本的文本标签。
12.一种文本处理装置,其特征在于,包括:
文本获取模块,用于获取第一待处理文本;
文本处理模块,用于通过调用训练好的第一文本处理模型对所述第一待处理文本进行处理,得到所述第一待处理文本的文本处理结果,其中,所述第一文本处理模型包括级联的特征提取模块和文本处理模块,该模型是通过以下方式训练得到的:
获取第一训练数据,所述第一训练数据包括多个第一文本;
将每个所述第一文本中包含的至少一个字符进行替换,得到各所述第一文本对应的第二文本;
基于各所述第一文本和各所述第二文本,对初始特征提取模块进行训练,直至所述初始特征提取模块对应的损失函数收敛,得到预训练后的特征提取模块,其中,所述初始特征提取模块的输入包括各所述第二文本,输出包括各所述第二文本对应的文本特征,所述损失函数的值表征了各所述第一文本的文本特征和对应的第二文本的文本特征之间的差异;
获取第二训练数据,基于所述第二训练数据对所述预训练后的特征提取模块和初始文本处理模块进行训练,得到所述第一文本处理模型。
13.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-11中任一项所述的方法。
CN202110265746.5A 2021-03-11 2021-03-11 文本处理方法、装置、电子设备及计算机可读存储介质 Active CN113011126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110265746.5A CN113011126B (zh) 2021-03-11 2021-03-11 文本处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110265746.5A CN113011126B (zh) 2021-03-11 2021-03-11 文本处理方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113011126A true CN113011126A (zh) 2021-06-22
CN113011126B CN113011126B (zh) 2023-06-30

Family

ID=76405230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110265746.5A Active CN113011126B (zh) 2021-03-11 2021-03-11 文本处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113011126B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297693A (zh) * 2021-12-30 2022-04-08 北京海泰方圆科技股份有限公司 一种模型预训练方法、装置、电子设备及存储介质
CN116756579A (zh) * 2023-08-22 2023-09-15 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN117313892A (zh) * 2023-09-26 2023-12-29 上海悦普网络科技有限公司 文本处理模型的训练装置和方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110197149A1 (en) * 2010-02-11 2011-08-11 International Business Machines Coporation Xml post-processing hardware acceleration
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110941945A (zh) * 2019-12-02 2020-03-31 百度在线网络技术(北京)有限公司 语言模型预训练方法和装置
CN111079442A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
CN111444326A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111539227A (zh) * 2020-07-06 2020-08-14 北京百度网讯科技有限公司 训练语义表示模型的方法、装置、设备和计算机存储介质
CN111914551A (zh) * 2020-07-29 2020-11-10 北京字节跳动网络技术有限公司 语言表示模型系统、预训练方法、装置、设备及介质
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN112287670A (zh) * 2020-11-18 2021-01-29 北京明略软件系统有限公司 文本纠错方法、系统、计算机设备及可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110197149A1 (en) * 2010-02-11 2011-08-11 International Business Machines Coporation Xml post-processing hardware acceleration
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN110941945A (zh) * 2019-12-02 2020-03-31 百度在线网络技术(北京)有限公司 语言模型预训练方法和装置
CN111079442A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
CN111444326A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111539227A (zh) * 2020-07-06 2020-08-14 北京百度网讯科技有限公司 训练语义表示模型的方法、装置、设备和计算机存储介质
CN111914551A (zh) * 2020-07-29 2020-11-10 北京字节跳动网络技术有限公司 语言表示模型系统、预训练方法、装置、设备及介质
CN112287670A (zh) * 2020-11-18 2021-01-29 北京明略软件系统有限公司 文本纠错方法、系统、计算机设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
严佩敏;唐婉琪;: "基于改进BERT的中文文本分类", 工业控制计算机 *
任莹;: "基于预训练BERT模型的客服工单自动分类研究", 云南电力技术 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297693A (zh) * 2021-12-30 2022-04-08 北京海泰方圆科技股份有限公司 一种模型预训练方法、装置、电子设备及存储介质
CN114297693B (zh) * 2021-12-30 2022-11-18 北京海泰方圆科技股份有限公司 一种模型预训练方法、装置、电子设备及存储介质
CN116756579A (zh) * 2023-08-22 2023-09-15 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN116756579B (zh) * 2023-08-22 2023-12-12 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN117313892A (zh) * 2023-09-26 2023-12-29 上海悦普网络科技有限公司 文本处理模型的训练装置和方法

Also Published As

Publication number Publication date
CN113011126B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN112749608B (zh) 视频审核方法、装置、计算机设备和存储介质
CN105210064B (zh) 使用深度网络将资源分类
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN112231563B (zh) 一种内容推荐方法、装置及存储介质
CN111444357A (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN111507097A (zh) 一种标题文本处理方法、装置、电子设备及存储介质
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN112100401B (zh) 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN113704460A (zh) 一种文本分类方法、装置、电子设备和存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN113656560B (zh) 情感类别的预测方法和装置、存储介质及电子设备
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN115909390B (zh) 低俗内容识别方法、装置、计算机设备以及存储介质
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN115269828A (zh) 用于生成评论回复的方法、设备和介质
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
CN117725220A (zh) 文档表征和文档检索的方法、服务器及存储介质
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN114547435B (zh) 内容质量的识别方法、装置、设备及可读存储介质
CN116628232A (zh) 标签确定方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40047272

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant