CN113535946A - 基于深度学习的文本鉴别方法、装置、设备及存储介质 - Google Patents
基于深度学习的文本鉴别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113535946A CN113535946A CN202110037860.2A CN202110037860A CN113535946A CN 113535946 A CN113535946 A CN 113535946A CN 202110037860 A CN202110037860 A CN 202110037860A CN 113535946 A CN113535946 A CN 113535946A
- Authority
- CN
- China
- Prior art keywords
- text
- character
- target
- vector
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Abstract
本申请实施例提供一种基于深度学习的文本鉴别方法、装置、设备及存储介质,涉及人工智能及云技术领域。方法包括:获取待鉴别目标文本,待鉴别目标文本包括文本标题与文本内容;调用预训练好的文本分类模型对待鉴别目标文本进行类别属性鉴别处理,以得到待鉴别目标文本所归属的类别属性,包括:对待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到待鉴别目标文本的各字符;对待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量;对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。可以使模型更好的理解待鉴别目标文本,提高模型分类准确率。
Description
技术领域
本申请涉及人工智能及云技术领域,具体而言,本申请涉及一种基于深度学习的文本鉴别方法、装置、设备及存储介质。
背景技术
随着人工智能技术的研究和进步,人工智能技术已在信息处理技术领域发挥着越来越重要的作用。文本分类就属于人工智能技术应用比较广泛的一个场景,通过文本分类模型可以实现对文本进行快速分类。例如,在为用户推荐资讯的应用场景中,在将资讯推荐给用户之前,需要对资讯进行过滤后再推荐给用户,以提升用户的感知,如需要对待推荐资讯中的低俗资讯识别出来,以将高质量的资讯推荐给用户,低俗咨询的识别就属于文本分类的一种。
虽然现有技术中的文本分类方式已经存在多种,但是文本分类准确度的提升一直是有待改善的问题之一。
发明内容
本申请实施例提供了一种可以提高文本分类准确性的基于深度学习的文本鉴别方法、装置、设备及存储介质。
一方面,本申请实施例提供了一种基于深度学习的文本鉴别方法,该方法包括:
获取待鉴别目标文本,待鉴别目标文本包括文本标题与文本内容;
调用预训练好的文本分类模型对待鉴别目标文本进行类别属性鉴别处理,以得到待鉴别目标文本所归属的类别属性,包括:
对待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到待鉴别目标文本的各字符;
对待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量;
对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。
另一方面,本申请实施例提供了一种基于深度学习的文本鉴别装置,包括:
文本获取模块,用于获取待鉴别目标文本,待鉴别目标文本包括文本标题与文本内容;
文本鉴别模块,用于调用预训练好的文本分类模型对待鉴别目标文本进行类别属性鉴别处理,以得到待鉴别目标文本所归属的类别属性,其中,文本鉴别模块具体用于:
对待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到待鉴别目标文本的各字符;
对待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量;
对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。
在一种可能的实现方式中,该装置还包括:
位置向量确定模块,用于对每个字符在待鉴别目标文本中的位置进行向量转化处理,得到各字符的位置向量;
文本鉴别模块在对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量时,具体用于:
对于每个字符,通过拼接字符的位置向量和字符的字向量,得到第一目标向量;
对各字符的第一目标向量进行融合特征提取,得到待鉴别目标文本的文本向量。
在一种可能的实现方式中,还包括:
归属向量确定模块,用于根据每个字符在待鉴别目标文本中所属的文本标题或文本内容,得到每个字符的归属向量;
文本鉴别模块在对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量时,具体用于:
对于每个字符,通过拼接字符的字向量和字符的归属向量,得到第二目标向量;
对各字符的第二目标向量进行融合特征提取,得到待鉴别目标文本的文本向量。
在一种可能的实现方式中,还包括:
权重获取模块,用于获取文本标题的权重以及文本内容的权重;
文本鉴别模块在对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量时,具体用于:
根据每个字符所归属的文本标题或者文本内容,采用相应的权重对字符的字向量进行加权,得到加权后的字向量;
对各字符的加权后的字向量进行融合特征提取,得到待鉴别目标文本的文本向量。
在一种可能的实现方式中,文本鉴别模块在对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量时,具体用于:
对于每个字符,根据该字符的字向量和各字符中每一字符的字向量,确定该字符与各字符中每一字符的相关性;
对于每个字符,基于该字符所对应的各相关性,对各相关性对应的各字符的字向量进行加权融合,得到该字符的融合向量;
对各字符的融合向量进行融合特征提取,得到待鉴别目标文本的文本向量。
在一种可能的实现方式中,文本分类模型是由文本训练模块训练得到的,文本训练模块具体用于:
获取标注有真实文本类别属性标签的有标签数据集以及无标签数据集;
基于有标签数据集和无标签数据集,通过重复执行以下操作对初始文本分类模型进行模型参数调整,直至满足预设的结束条件,得到最终的文本分类模型:
将无标签数据集中的各无标签文本输入至基于上一次进行模型参数调整后的文本分类模型中,得到各无标签文本对应于各文本类别属性的预测概率;
对于每一无标签文本,若无标签文本的各预测概率之间的差值小于或等于第一设定阈值,则将无标签文本确定为第一目标文本;
获取标注有真实文本类别属性标签的各第一目标文本,并将标注后的各第一目标文本添加到有标签数据集中,并将各第一目标文本从无标签数据集中删除;
将有标签数据集中的各有标签文本输入至文本分类模型,得到各有标签文本对应于各文本类别属性的预测概率,基于各有标签文本的各预测概率以及真实文本类别属性标签确定损失函数的值,并基于损失函数的值进行模型参数的调整。
在一种可能的实现方式中,对于任一个第一目标文本,第一目标文本的真实文本类别属性标签是按照以下方式标注得到的:
调用预训练好的目标分类模型对第一目标文本进行类别属性鉴别处理,以得到第一目标文本所归属的类别属性;
根据第一目标文本所归属的类别属性,标注第一目标文本的真实文本类别属性标签。
在一种可能的实现方式中,对于任一次操作,文本训练模块还用于:
对于每一无标签文本,若无标签文本的任一预测概率大于或等于该预测概率对应的第二设定阈值,则将无标签文本确定为第二目标文本,并将各第二目标文本从无标签数据集中删除;
对于每一第二目标文本,将第二目标文本的大于或等于第二设定阈值的预测概率所对应的文本类别属性,确定为第二目标文本的真实文本类别属性标签;
文本训练模块在将有标签数据集中的各有标签文本输入至文本分类模型,得到各有标签文本对应于各文本类别属性的预测概率,基于各有标签文本的各预测概率以及真实文本类别属性标签确定损失函数的值时,具体用于:
将有标签数据集中的各有标签文本以及本次操作所确定的各第二目标文本输入至文本分类模型,得到各有标签文本以及各第二目标文本各自对应于各文本类别属性的预测概率;
基于各有标签文本以及各第二目标文本各自对应的各预测概率以及真实文本类别属性标签确定损失函数的值。
在一种可能的实现方式中,对于任一次操作,文本训练模块在基于各有标签文本以及各第二目标文本各自对应的各预测概率以及真实文本类别属性标签确定损失函数的值时,具体用于:
基于各有标签文本的真实文本类别属性标签和各预测概率,计算第一损失值;
基于本次操作所确定的各第二目标文本的真实文本类别属性标签和各预测概率,确定第二损失值;
基于第一损失值和所述第二损失值,确定损失函数的值。
在一种可能的实现方式中,文本分类模型为用于第一文本类别属性和第二文本类别属性分类的二分类模型,待鉴别目标文本为待推荐内容中的文本信息,该装置还包括:
待推荐内容处理模块,用于若文本信息的类别属性为第一文本类别属性,则将待推荐内容推荐给用户;若文本信息的类别属性为第二文本类别属性,则过滤掉待推荐内容。
另一方面,本申请实施例提供了一种电子设备,该电子设备包括存储器和处理器,其中,存储器中存储有计算机程序;处理器在运行该计算机程序时,执行本申请任一可选实施例中所提供的基于深度学习的文本鉴别方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时实现本申请任一可选实施例中所提供的基于深度学习的文本鉴别方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种基于深度学习的文本鉴别方法、装置、设备及存储介质,与现有技术相比,本申请中的待鉴别目标文本包括文本标题与文本内容,可以调用文本分类模型进行文本标题以及文本内容的字句解析处理,得到待鉴别目标文本的各字符,对每个字符进行字向量转化处理,得到各字符的字向量,并对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。由于文本分类模型在对文本进行文本分类时,根据标题中的各字符的字向量和正文中的各字符的字向量进行融合特征提取,使得提取得到的文本向量可以更好的表达待鉴别目标文本,从而使模型根据文本向量进行文本分类时,模型可以更好的理解待鉴别目标文本,能够有效提升模型识别文本类别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本特征提取模块的预训练示意图;
图2为本申请实施例提供的一种文本分类模型的训练流程示意图;
图3为本实施例提供的一种已推荐内容显示界面示意图;
图4A为本申请实施例提供的一种基于深度学习的文本鉴别方法的流程示意图;
图4B为本申请实施例提供的一种确定文本类别属性的流程示意图;
图5为本申请实施例提供的一种文本分类模型的训练方式的流程示意图;
图6为本申请实施例提供的一种文本向量确定方式的流程示意图;
图7为本申请实施例提供的一种基于深度学习的文本鉴别装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请提供了一种基于深度学习的文本鉴别方法,与现有技术相比,本申请中的待鉴别目标文本包括文本标题与文本内容,可以调用文本分类模型进行文本标题以及文本内容的字句解析处理,得到待鉴别目标文本的各字符,对每个字符进行字向量转化处理,得到各字符的字向量,并对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。由于文本分类模型在对文本进行文本分类时,根据标题中的各字符的字向量和正文中的各字符的字向量进行融合特征提取,使得提取得到的文本向量可以更好的表达待鉴别目标文本,从而使模型根据文本向量进行文本分类时,模型可以更好的理解待鉴别目标文本,能够有效提升模型识别文本类别的准确性。
本申请各可选实施例可以基于人工智能技术实现,如利用人工智能技术确定待鉴别目标文本的类别等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请所提供的各可选实施例所涉及到的数据,可以基于云技术实现,在方案实施时所涉及的数据处理/数据计算可以基于云计算实现。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS 和PaaS相对于IaaS是上层。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是 IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
本申请实施例提供了一种基于深度学习的文本鉴别方法,该方法可以由任一电子设备执行,该电子设备可以为终端设备,也可以为服务器或者服务器集群,其中,服务器集群包括至少一个服务器,此处的服务器可以为物理服务器,也可以为上述提及的云服务器。
为了更好的理解和说明本申请实施例,下面首先对本申请实施例所涉及的一些技术用语进行解释说明。
易分类文本:将一个文本输入至文本分类模型中,文本分类模型输出该文本属于各文本类别的概率,若该文本属于某一个文本类别的概率明显大于该文本属于除该文本类别之外的其他文本类别的概率,也就是说,该文本属于该文本类别的概率与该文本属于任一其他文本类别的概率之间差值大于或等于第一预设值,则表明该文本为易分类文本。
例如,将文本A输入至文本分类模型中,文本分类模型输出文本A 分别属于文本类别1-3的概率,若文本A属于文本类别1-3的概率分别为 0.85、0.05和0.1,且第一设定值为0.7。可以明显得出文本A属于文本类别1的概率0.85明显大于文本A属于文本类别2的概率0.05,且文本A 属于文本类别1的概率0.85明显大于文本A属于文本类别3的概率0.1。也就是说,文本A属于文本类别1的概率0.85与文本A属于文本类别2 的概率0.05之间的差值0.8大于第一设定值0.7,且文本A属于文本类别 1的概率0.85与文本A属于文本类别3的概率0.1之间的差值0.75也大于第一设定值0.7,则可以表明文本A为易分类文本。
不易分类文本:将一个文本输入至文本分类模型中,文本分类模型输出该文本属于各文本类别的概率,若该文本属于某一个文本类别的概率与该文本属于除该文本类别之外的另一个文本类别的概率相近,也就是说,该文本属于某一个文本类别的概率与该文本属于另一个文本类别的概率之间差值小于或等于第二预设值,则表明该文本为不易分类文本。
例如,将文本A输入至文本分类模型中,文本分类模型输出文本A 分别属于文本类别1-3的概率,若文本A属于文本类别1-3的概率分别为 0.47、0.5和0.03,且第二设定值为0.1。可以明显得出文本A属于文本类别1的概率0.47与文本A属于文本类别2的概率0.5相近。也就是说,文本A属于文本类别1的概率0.47与文本A属于文本类别2的概率0.5之间的差值0.03小于第二设定值0.1,则可以表明文本A为不易分类文本。
低俗文本:若一个文本中包含低级趣味、犯扯、庸俗,使人萎靡、流氓、颓废等内容时,该文本为低俗文本,例如,一个文本中包含低级趣味的内容,则该文本为低俗文本。
主动学习:通过一定的算法查询最有用的未标记样本,并交由专家进行标注,然后利用专家标注后的样本训练分类模型来提高模型的精度。
伪标签学习:用有标签数据训练一个分类模型,用这个分类模型对无标签数据进行分类,这样就会产生伪标签(Pseudo Label),挑选认为分类正确的无标签样本,利用挑选出来的无标签样本优化训练分类模型。
下面将结合一个具体的可选实施例对本申请的方案进行详细说明,为便于描述和说明,下面将分别从两个方面对本申请实施例的基于深度学习的文本鉴别方法进行详细说明,一个方面为文本分类模型的训练方式,另一个方面为文本分类方式。
在文本分类模型的训练方式中,初始文本分类模型包括级联的文本特征提取模块和文本类别预测模块,文本特征提取模块和文本类别预测模块的具体网络结构本申请实施例不做限定,可以根据实际需求配置。其中,文本特征提取模块用于提取输入至文本分类模型中的文本的语义特征,文本类别预测模型用于基于该语义特征预测文本的类别。
可选的,文本特征提取模块可以是基于变换器的双向编码器表征(Bidirectional Encoder Representations from Transformers,Bert)模型的特征提取模块,可以简称为Bert模型,也就是说,作为一可选方案,文本分类模型可以是由Bert模型为基础构建的。可选的,为了提升初始文本分类模型的训练效率和性能,初始文本分类模型中的文本特征提取模块可以是经过预训练(Pre-training)的文本特征提取模块。如,文本特征提取模块可以是预训练后的Bert模型,在预训练后的Bert模型后级联文本类别预测模块,可以得到初始文本分类模型。
可选的,文本类别预测模块可以为分类器,分类器的具体结构本申请实施例不做限定,如分类器可以包括级联的全连接层和Softmax层。
作为一种可选的实现方式,如图1所示,图1为本申请实施例提供的一种文本特征提取模块的预训练示意图。该文本特征提取模块的预训练阶段可以是基于训练掩码语言模型(Masked Language Model,MLM)任务的训练。通俗来讲,就是在句子中随机遮盖一部分字符,然后同时利用上下文的信息预测遮盖的字符。
如图1所示,句子A包括N个字符,分别记为字符A1、…、字符 An,句子B包括M个字符,分别记为字符B1、…、字符Bm,其中,M 和N均为正整数。在将句子A和句子B输入文本特征提取模块中时,需要在句子A前添加首位字符,例如,首位字符可以为[CLS]标志,在句子 A与句子B之间添加分隔字符,例如,分隔字符可以为[SEP]标志,也就是说,需要将句子A和句子B输入文本特征提取模块时,实际输入的是首位字符、字符A1、…、字符An、分隔字符、字符B1、…、字符Bm。
其中,首位字符和分隔字符是文本特征提取模块中有特殊作用的字符,首位字符放在第一个句子的前面,分隔字符放在两个输入句子之间,用于分开两个输入句子。
将首位字符、字符A1、…、字符An、分隔字符、字符B1、…、字符Bm输入至文本特征提取模块后,文本特征提取模块可以将每一个字符转化为该字符对应的初始特征向量,简称为初始向量,并基于每一个字符的初始向量,得到每一个字符的最终特征向量,也叫融合特征向量,简称为融合向量,文本特征提取模块可以输出每一个字符的融合向量。
如图1中,将首位字符、字符A1、…、字符An、分隔字符、字符 B1、…、字符Bm输入至文本特征提取模块,文本特征提取模块可以将首位字符、字符A1、…、字符An、分隔字符、字符B1、…、字符Bm一一转化为各字符各自对应的初始向量,分别为首位初始向量、A1初始向量、…、An初始向量、分隔初始向量、B1初始向量、…、Bm初始向量,文本特征提取模块可以基于各字符各自对应的初始向量,得到每一个字符对应的融合向量并输出每一个字符对应的融合向量,包括首位融合向量、 A1融合向量、…、An融合向量、分隔融合向量、B1融合向量、…、Bm 融合向量。
其中,首位融合向量为文本特征提取模块输出的分类符号位所对应的特征向量,可以用首位融合向量来表示输入文本特征提取模块的句子的句向量。
在对文本特征提取模块进行预训练时,可以是基于MLM任务的训练,可以在句子A和句子B中随机遮盖一部分字符,然后同时利用句子A和句子B中未遮盖的字符预测遮盖的字符,即随机遮盖字符A1、…、字符 An以及字符B1、…、字符Bm中的部分字符,将首位字符、字符A1、…、字符An、分隔字符、字符B1、…、字符Bm输入至文本特征提取模块中,由文本特征提取模块输出首位融合向量、A1融合向量、…、An融合向量、分隔融合向量、B1融合向量、…、Bm融合向量。其中,输入至文本特征提取模块的各字符中包括遮盖的字符和未遮盖的字符,文本特征提取模块输出的各融合向量中包括对遮盖的字符进行预测得到的特征向量。
如图2所示,图2为本申请实施例提供的一种文本分类模型的训练流程示意图。在对文本分类模型进行训练时,可以预先获取大量的文本语料 (即文本),组成文本语料库,任一文本语料包括文本标题和文本内容。从文本语料库中随机选取部分文本语料,将这部分文本语料进行专家标注,也就是人工标注后,组成第一数据集,文本语料库中剩余未标注的文本语料,组成第二数据集。为便于区分和说明,将第一数据集中人工标注后的文本语料称为第一文本,将第二数据集中未标注的文本语料称为第二文本。
其中,在对文本语料进行人工标注时,对于任一个文本语料,可以分别标注该文本语料的标签,标签可以为低俗标签或非低俗标签,也就是说,任一个标注后的文本语料包括原始的文本语料和其标签。若该文本语料为低俗文本,则为该文本语料打上低俗标签;若该文本语料为非低俗文本,则为该文本语料打上非低俗标签。其中,若文本语料的标签为低俗标签,表明该文本语料为低俗文本,即该文本语料为低俗文本的概率为1,为非低俗文本的概率为0;若文本语料的标签为非低俗标签,表明该文本语料为非低俗文本,即该文本语料为低俗文本的概率为0,为非低俗文本的概率为1。
例如,对于一个包含低级趣味内容的文本语料,该文本语料为低俗文本,可以打上低俗标签。
可以理解的,文本语料库中的文本语料是大量的,通常为几十万甚至几百万、几千万等,可以从文本语料库中选取较少量的文本语料进行人工标注,例如,选取几万的文本语料进行人工标注,可以减少人工标注文本语料的数量,节省人力消耗。
如图2所示,本实施例中,从文本语料库中随机挑选样本进行标注,即从文本语料库中随机挑选部分文本语料进行人工标注,组成第一数据集,利用第一数据集训练初始的文本分类模型,计算本次训练对应的损失函数的值,基于损失函数的值进行模型参数的调整。
具体的,可以将第一数据集输入至初始的文本分类模型(本次训练的文本分类模型为初始的文本分类模型)。对于第一数据集中的每一个第一文本,该第一文本以句子的形式输入至初始的文本分类模型中,即在初始的文本分类模型中输入句子,文本分类模型可以对句子进行字句解析处理,得到句子中的各个字符,如图2中采用字符1、…、字符n来表示句子中的各个字符。可以将首位字符和句子的各个字符输入至文本特征提取模块,由文本特征提取模块输出分类符号位所对应的特征向量,即首位融合向量,该特征向量可以作为该第一文本的句子向量,将该第一文本的句子向量输入至分类器中,由分类器输出第一文本的预测概率,即分类器可以输出该第一文本为低俗文本和非低俗文本的概率。
本实施例中,若文本为低俗文本,则该文本为负样本,若文本为非低俗文本,则该文本为正样本,因此,分类器可以预测该第一文本分别为正、负样本的概率。通过每一个第一文本的预测概率及其对应的标注结果,计算本次训练对应的损失函数的值,基于损失函数的值调整初始的文本分类模型的参数,得到本次训练进行模型参数调整后的文本分类模型。
在本实施例中,文本分类模型包括文本特征提取模块和分类器,其中,文本特征提取模块可以提供转化字段,从而可以便捷的将句子中的每一个字符转化为字向量,文本特征提取模块可以输出首位融合向量,首位融合向量输入至分类器中,由分类器输出正、负样本的概率,且分类器的输出可以作为文本分类模型的输出。
需要说明的是,图2中将句子中的各字符输入文本特征提取模块时,需要在各字符前添加首位字符,即将首位字符、字符1、…、字符n输入文本特征提取模块,文本特征提取模块可以将输入的各字符转化为各字符对应的初始向量,各字符对应的初始向量可以分别用首位初始向量、1初始向量、…、n初始向量来表示,其中,首位初始向量为首位字符所对应的特征向量,通常情况下,首位初始向量为一个预设的特征向量。文本特征提取模块可以对各字符对应的初始向量进行融合特征提取,得到各字符对应的融合向量,各字符对应的融合向量可以分别用首位融合向量、1融合向量、…、n融合向量来表示,其中,首位融合向量为文本特征提取模块输出的分类符号位所对应的特征向量,可以用来表示输入文本特征提取模块的句子的句子向量,n为正整数。
需要说明的是,文本特征提取模块可以对各字符对应的初始向量进行融合特征提取,得到各字符对应的融合向量,可以见后文有关实现方式 A1-实现方式A4的相关说明,在此不再赘述。
进一步地,在对当前的文本分类模型(对初始的文本分类模型进行训练时所进行的模型参数调整后的文本分类模型,即上一次训练进行模型参数调整后的文本分类模型)进行下一次训练时,可以先利用第二数据集对第一数据集进行更新,并利用第二数据集得到伪样本,然后,利用更新后的第一数据集以及伪样本对当前的文本分类模型进行一次训练,下面将详细进行说明。
具体的,在利用第二数据集对第一数据集进行更新,并利用第二数据集得到伪样本时,可以先将第二数据集输入至当前的文本分类模型中,由文本分类模型输出第二数据集中每个第二文本的预测概率,即预测每个第二文本分别为正、负样本的概率。
具体的,可以将第二样本集输入至当前的文本分类模型。对于第二样本集中的每一个第二文本,该第二文本以句子的形式输入至当前的文本分类模型中,即在当前的文本分类模型中输入句子,将句子按字符转化为字向量,即句子中的每一个字符转化为特征向量,将各个特征向量输入至文本特征提取模块中,得到文本特征提取模块的分类符号位所对应的特征向量,该特征向量可以作为该第二文本的句子向量,将该第二文本的句子向量输入至分类器中,由分类器输出第二文本的预测概率,即分类器可以输出该第二文本为低俗文本和非低俗文本的概率,也就是说,分类器可以预测该第二文本分别为正、负样本的概率。
进一步地,如图2所示,文本分类模型可以输出第二数据集中、每一个第二文本分别为正、负样本的概率。对于每一个第二文本,还可以计算该第二文本为正样本的概率与该第二文本为负样本的概率之间的差值,得到预测正负样本概率差值。从各第二文本中挑选预测概率差值(即预测正负样本概率差值)较高的第二文本,利用伪样本技术组成伪样本;从各第二文本中挑选预测概率差值较低的第二文本,利用主动学习技术组成主动学习样本。
在从各第二文本中挑选预测概率差值较高的第二文本,组成伪样本时,可以根据每一个第二文本分别为正、负样本的概率,从各第二文本中选取正样本的概率大于0.99的第二文本作为正样本,也就是说,从各第二文本中选取概率大于0.99的正样本,以及从各第二文本中选取负样本的概率大于0.8的第二文本作为负样本,也就是说,从各第二文本中选取概率大于0.8的负样本。利用选取的正样本和负样本,组成带预测标签的伪样本,其中,正样本的标签为非低俗标签,负样本的标签为低俗标签。
需要说明的是,0.99(即后文中所提及的第二设定阈值)和0.8(即后文中所提及的第三设定阈值)这两个阈值是根据人工经验得到的,这两个阈值是可以根据实际应用进行调整的。一般来说,第二设定阈值大于第三设定阈值,这是由于正样本和负样本存在较大的数量不平衡情况,导致文本分类模型对正样本的预测概率偏高,负样本的预测概率偏低,因此,可以设定第二设定阈值大于第三设定阈值。
可以理解的是,选取正样本或者负样本时,还可以选取正样本的概率等于0.99的第二文本作为正样本,或者选取负样本的概率等于0.8的第二文本作为负样本。
在从各第二文本中挑选预测概率差值较低的第二文本,组成主动学习样本时,对于每一个第二文本,可以根据该第二文本分别为正、负样本的概率,计算该第二文本为正样本的概率与该第二文本为负样本的概率之间的差值,若差值小于或者等于0.02,则选取该第二文本作为待标注的文本,并将待标注的文本进行人工标注,得到标注好的文本。利用每一个标注好的文本,组成主动学习样本。
例如,对于一个第二文本,这个第二文本为低俗文本,但是,当前的文本分类模型预测出该第二文本为正样本的概率是0.51,即该第二文本为非低俗文本的概率是0.51,且预测出该第二文本为负样本的概率是0.49,即该第二文本为低俗文本的概率是0.49,正样本的概率与负样本的概率之间的差值为0.02,说明当前的文本分类模型无法准确的预测该第二文本是否为低俗文本,即当前的文本分类模型对该第二文本为低俗文本的判断具有高度不确定性,可以将该第二文本挑选出来进行人工标注。
需要说明的是,0.02(即后文中所提及的第一设定阈值)这个阈值也是根据人工经验得到的,这个阈值是可以根据实际应用进行调整的,在本实施例中不做限定。对第二文本进行人工标注,即人工标注该第二文本的标签。
进一步地,可以将主动学习样本添加到第一数据集中以更新第一数据集,并将伪样本从第二数据集中删除以更新第二数据集。然后,如图2所示,利用更新后的第一数据集以及伪样本对当前的文本分类模型进行一次训练,即可以利用更新后的第一数据集和伪样本训练当前的文本分类模型 (即上一次训练进行模型参数调整后的文本分类模型),计算本次训练对应的损失函数的值,基于损失函数的值进行模型参数的调整,得到本次训练进行模型参数调整后的文本分类模型。具体的,可以见上述有关利用第一数据集训练初始的文本分类模型,二者训练方式相类似,在此不做赘述。
需要说明的是,接下来的每一次训练,均可以将更新后的第二数据集输入至上一次训练进行模型参数调整后的文本分类模型中,由文本分类模型预测每个第二文本分别为正、负样本的概率,然后,基于每个第二文本分别为正、负样本的概率,分别挑选得到伪样本和主动学习样本,然后,将主动学习样本添加到第一数据集中以更新第一数据集,并将伪样本从第二数据集中删除以更新第二数据集,然后,利用更新后的第一数据集和伪样本训练上一次训练进行模型参数调整后的文本分类模型。具体可见上述相关说明,在此不再赘述。
本实施例中,可以多次对初始的文本分类模型进行训练,得到最终的文本分类模型。按照本申请实施例所提供的文本分类模型的训练方式,可以提高模型的分类准确率。具体的,传统的文本分类模型是利用预先构建的训练数据集训练得到的,该训练数据集中包括标注有标签的多个文本,且该训练数据集在模型训练的过程中不会发生更新,传统的文本分类模型的F1值为50.9%,而采用本申请实施例所提供的方法所训练得到的文本分类模型,即本申请实施例采用主动学习样本、伪样本和预先构建的训练数据集训练得到文本分类模型,该文本分类模型的F1值可以达到64.1%。其中,F1值也叫F1-Score,是可以表征模型精确率和召回率的一个指标, F1值与模型精确率成正比,且与模型召回率成正比。也就是说,采用本申请实施例所训练得到的文本分类模型的精确率和召回率明显大于传统的文本分类模型。
进一步地,本申请实施例还提供了一种文本分类方式,该方法可以由任一电子设备执行,该电子设备可以为终端设备,也可以为服务器或者服务器集群,其中,服务器集群包括至少一个服务器,此处的服务器可以为物理服务器,也可以为上述提及的云服务器。
在本申请实施例中,可以利用最终的文本分类模型确定待处理文本的类别,实现对待处理文本进行分类。如待处理文本的类别可以分为低俗文本或者非低俗文本,其中,本申请实施例中的待处理文本即为后文所涉及的待鉴别目标文本。
需要说明的是,本申请实施例所提供的文本分类方式可以应用任何对文本进行分类的场景中,可以包括但不限于二分类的场景,可以利用上文中提及的文本分类模型的训练方式训练得到最终的文本分类模型,利用最终的文本分类模型对文本进行分类,根据实际需求,基于待处理文本的类别进行相应的处理。
作为一可选的应用场景,本申请实施例中的文本分类方式可以应用于具有信息推荐功能的应用程序中,基于该方法,可以识别待推荐内容中的文本内容的类别,并文本内容的类别作为待推荐内容的类别。
作为一示例,假设文本内容的类别为低俗文本或者非低俗文本,则对于任一待推荐内容,基于文本分类模型可以得到待推荐内容中的文本内容分别为低俗文本的概率和非低俗文本的概率,基于低俗文本的概率和非低俗文本的概率,可以确定文本内容的类别,从而确定待推荐内容的类别。
进一步地,可以根据待推荐内容的类别识别结果确定是否推荐该待推荐内容。如果待推荐内容的类别是低俗文本,则过滤掉待推荐内容,即不将待推荐内容推荐给用户;若待推荐内容的类别是非低俗文本,则将待推荐内容推荐给用户。
作为另一可选应用场景,可以对用户上传至应用程序中的所有待推荐内容进行分类,并可以根据待推荐内容的类别为待推荐内容打上对应的低俗标签或者非低俗标签。在为用户进行个性化推荐时,可以根据用户的喜好从非低俗标签的待推荐内容中选择与用户喜好关联的待推荐内容为用户推荐,或者根据用户的检索请求,从非低俗标签的待推荐内容中进行检索,并将检索结果提供给用户。
作为一可选的实现方式,对于任一个待推荐内容,可以将该待推荐内容的标题作为待处理文本,将标题输入至最终的文本分类模型中,由文本分类模型输出得到标题的类别为低俗文本还是非低俗文本。若标题的类别为低俗文本,则为该待推荐内容打上低俗标签;若标题的类别为非低俗文本,则为该待推荐内容打上非低俗标签。
在实际应用时,可以线下或者线上对每一个待推荐内容打上对应的低俗标签或者非低俗标签。线上为用户推荐内容时,对于每一个待推荐内容,若该待推荐内容带有低俗标签,则过滤掉该待推荐内容,若该待推荐内容带有非低俗标签,则将该待推荐内容推荐给用户。
如图3所示,图3为本实施例提供的一种已推荐内容显示界面示意图,视频1和标题1为已推荐内容1,视频2和标题2为已推荐内容2。其中,线下将标题1输入至最终的文本分类模型中,由文本分类模型输出得到标题1的类别为非低俗文本,并为由视频1和标题1组成的待推荐内容1打上非低俗标签;线下将标题2输入至最终的文本分类模型中,由文本分类模型输出得到标题2的类别为非低俗文本,并为由视频2和标题2组成的待推荐内容2打上非低俗标签。线上推荐时,可以将待推荐内容1和2推荐给用户并在显示界面上显示,得到如图3所示的显示界面,此时,待推荐内容1和2分别作为已推荐内容1和2。
上述从具体实施例的角度具体阐述了基于深度学习的文本鉴别方法,下面将从方法步骤的角度详细介绍本申请实施例的基于深度学习的文本鉴别方法,具体如图4A所示,该方法包括步骤S41和步骤S42。
步骤S41,获取待鉴别目标文本,待鉴别目标文本包括文本标题与文本内容。
本申请实施例中,待鉴别目标文本的获取方式不做限定,例如,待鉴别目标文本可以为从网络中抓取的文本,也可以为用户上传的文本,还可以为本地存储的文本,甚至可以为从其他多媒体中提取得到的文本。
待鉴别目标文本可以包括文本标题与文本内容,文本内容可以理解为与文本标题对应的正文内容。
步骤S42,调用预训练好的文本分类模型对待鉴别目标文本进行类别属性鉴别处理,以得到待鉴别目标文本所归属的类别属性。
本申请实施例中,可以将待鉴别目标文本输入至预训练好的文本分类模型中,由文本分类模型输出待鉴别目标文本所归属的类别属性,其中,在本申请实施例以及前文或者后文中,可以将类别属性称为文本类别,简称类别。
其中,步骤S42,调用预训练好的文本分类模型对待鉴别目标文本进行类别属性鉴别处理,以得到待鉴别目标文本所归属的类别属性,具体可以如图4B所示,包括步骤S421-步骤S423。
步骤S421,对待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到待鉴别目标文本的各字符。
本申请实施例中,文本分类模型可以分别对待鉴别目标文本的文本标题以及待鉴别目标文本的文本内容进行字句解析处理,得到待鉴别目标文本的各字符。其中,若待鉴别目标文本为中文文本,则待鉴别目标文本的任一字符可以是一个字;若待鉴别目标文本英文文本,则待鉴别目标文本的任一个字符可以是一个英语单词或者一个字母。
步骤S422,对待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量。其中,任一个字符的字向量即为图1或图2所示的该字符的初始向量。
步骤S423,对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。其中,待鉴别目标文本的文本向量即为图1或图2所示的首位融合向量。
本申请实施例中,对于待鉴别目标文本的每一个字符,文本分类模型可以将该字符进行字向量转化处理,得到该字符的字向量,字符的字向量可以表达该字符的语义。进一步地,文本分类模型可以将待鉴别目标文本的各字符的字向量进行融合特征提取,使融合特征提取后得到的待鉴别目标文本的文本向量,可以有效的表达待鉴别目标文本的文本内容,文本分类模型可以依据待鉴别目标文本的文本向量,确定待鉴别目标文本所归属的类别属性。由于文本分类模型在对文本进行文本分类时,根据标题中的各字符的字向量和正文中的各字符的字向量进行融合特征提取,使得提取得到的文本向量可以更好的表达待鉴别目标文本,从而使模型根据文本向量进行文本分类时,模型可以更好的理解待鉴别目标文本,能够有效提升模型识别文本类别的准确性。
其中,融合特征提取的具体方式不做限定,可以有多种实现形式,下面提供几种可能的实现方式,分别记为实现方式A1-A4。
实现方式A1,基于深度学习的文本鉴别方法还可以包括:对每个字符在待鉴别目标文本中的位置进行向量转化处理,得到各字符的位置向量。
步骤S423中,对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,具体可以包括:
对于每个字符,通过拼接字符的位置向量和字符的字向量,得到第一目标向量;对各字符的第一目标向量进行融合特征提取,得到待鉴别目标文本的文本向量。
需要说明的是,可以将待鉴别目标文本的文本标题拼接在文本内容之前或者之后,此时,对于待鉴别目标文本的任一个字符,该字符在待鉴别目标文本中的位置,可以是该字符在拼接后的文本中的位置;也可以不将文本标题与文本内容进行拼接,此时,对于待鉴别目标文本的任一个字符,该字符在待鉴别目标文本中的位置,可以是该字符在其所属的文本标题或者文本内容中的位置。
本申请实施例中,对于待鉴别目标文本的每一个字符,文本分类模型可以将该字符在待鉴别目标文本中的位置进行向量转化处理,得到该字符的位置向量,并拼接该字符的位置向量和字向量,得到该字符的第一目标向量。
其中,该字符的位置向量可以拼接在该字符的字向量之前或者之后,当然,在实际执行的过程中,也可以不拼接位置向量和字向量,而是将位置向量和字向量组成的集合,视作第一目标向量,在此不做限定。
可以对各字符的第一目标向量进行融合特征提取,得到待鉴别目标文本的文本向量,使得文本向量包含待鉴别目标文本中每个字符的位置和语义,从而使得文本向量可以更好的表达待鉴别目标文本的语义。
实现方式A2,基于深度学习的文本鉴别方法还可以包括:根据每个字符在待鉴别目标文本中所属的文本标题或文本内容,得到每个字符的归属向量。
步骤S423中,对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,具体可以包括:
对于每个字符,通过拼接字符的字向量和字符的归属向量,得到第二目标向量;对各字符的第二目标向量进行融合特征提取,得到待鉴别目标文本的文本向量。
本申请实施例中,对于待鉴别目标文本的每一个字符,文本分类模型可以根据该字符在待鉴别目标文本中所属的文本标题或者文本内容,得到该字符的归属向量,归属向量可以反映该字符是属于文本标题还是文本内容。进一步拼接该字符的归属向量和字向量,得到该字符的第二目标向量。
其中,该字符的归属向量可以拼接在该字符的字向量之前或者之后,当然,在实际执行的过程中,也可以不拼接归属向量和字向量,而是将归属向量和字向量组成的集合,视作第二目标向量,在此不做限定。
可以对各字符的第二目标向量进行融合特征提取,得到待鉴别目标文本的文本向量,使得文本向量包含待鉴别目标文本中的文本标题的每个字符的语义、以及待鉴别目标文本中的文本内容的每个字符的语义,即文本向量可以包含文本标题的语义以及文本内容的语义,从而使得文本向量可以更好的表达待鉴别目标文本的语义。
实现方式A3,基于深度学习的文本鉴别方法还可以包括:获取文本标题的权重以及文本内容的权重。
步骤S423中,对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,具体可以包括:
根据每个字符所归属的文本标题或者文本内容,采用相应的权重对字符的字向量进行加权,得到加权后的字向量;对各字符的加权后的字向量进行融合特征提取,得到待鉴别目标文本的文本向量。
本申请实施例中,可以预先设置文本标题的权重以及文本内容的权重,例如,可以预先设置文本标题的权重为0.7,文本内容的权重为0.3。
在实际执行时,可以对于各待鉴别目标文本设置相同的文本标题的权重以及文本内容的权重;也可以对于不同的待鉴别目标文本,设置不同的文本标题的权重以及文本内容的权重。
在一种可能的实现方式中,可以根据文本标题所包含的字符的数量以及文本内容所包含的字符的数量,分别确定文本标题的权重以及文本内容的权重。
例如,文本标题包含10个字符,文本内容包含90个字符,二者字符数比值为1:9,可以确定文本标题的权重为0.9,文本内容的权重为0.1。
对于待鉴别目标文本的每一个字符,文本分类模型可以根据该字符在待鉴别目标文本中所属的文本标题或者文本内容,采用相应的权重对该字符的字向量进行加权,得到加权后的字向量。也就是说,若该字符在待鉴别目标文本中属于文本标题,则采用文本标题的权重对该字符的字向量进行加权;若该字符在待鉴别目标文本中属于文本内容,则采用文本内容的权重对该字符的字向量进行加权。
进一步地,文本分类模型可以对各字符的加权后的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,使得文本向量包含待鉴别目标文本中的文本标题的每个字符的语义、以及待鉴别目标文本中的文本内容的每个字符的语义,即文本向量可以包含文本标题的语义以及文本内容的语义,从而使得文本向量可以更好的表达待鉴别目标文本的语义。
实现方式A4,步骤S423中,对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,具体可以包括:
对于每个字符,根据该字符的字向量和各字符中每一字符的字向量,确定该字符与各字符中每一字符的相关性;对于每个字符,基于该字符所对应的各相关性,对各相关性对应的各字符的字向量进行加权融合,得到该字符的融合向量;对各字符的融合向量进行融合特征提取,得到待鉴别目标文本的文本向量。
本申请实施例中,对于待鉴别目标文本的每一个字符,文本分类模型可以根据该字符的字向量和待鉴别目标文本的各字符中每一字符的字向量,分别确定该字符与各字符中每一字符的相关性,并基于该字符对应的各相关性,对各相关性对应的各字符的字向量进行加权融合,得到该字符的融合向量,使得融合向量可以表征该字符与待鉴别目标文本中各个字符之间的语义相关性。
例如,待鉴别目标文本共包含十个字符,则对于每一个字符,可以根据该字符的字向量与其他9个字符中每一个字符的字向量,分别确定该字符与其他9个字符中每一个字符的相关性,因此,其他9个字符中每一个字符的字向量对应一个相关性。将各相关性分别作为各权重,利用各权重对各相关性对应的字向量进行加权融合,得到该字符的融合向量。
进一步的,可以将待鉴别目标文本的各字符的融合向量进行融合特征提取,得到待鉴别目标文本的文本向量,使得文本向量可以表征待鉴别目标文本中字与字之间的语义相关性,从而使得文本向量可以更好的表达待鉴别目标文本的语义。
其中,文本分类模型为用于第一文本类别属性和第二文本类别属性分类的二分类模型,待鉴别目标文本为待推荐内容中的文本信息,该方法还可以包括:
若文本信息的类别属性为第一文本类别属性,则将待推荐内容推荐给用户;若文本信息的类别属性为第二文本类别属性,则过滤掉待推荐内容。
在一种可能的实现方式中,文本分类模型为用于低俗文本和非低俗文本分类的二分类模型,此时,将待鉴别目标文本输入至文本分类模型中,文本分类模型可以输出待鉴别目标文本的类别属性是低俗文本还是非低俗文本。其中,第一文本类别属性是非低俗文本,第二文本类别属性是低俗文本。
本申请实施例中,待鉴别目标文本为待推荐内容中的文本信息,例如,待推荐内容包括视频时,待鉴别目标文本可以为视频中的字幕;待推荐内容为图文资讯时,待鉴别目标文本可以为图文资讯中的文本部分等。
在实际应用时,可以线下或者线上将待推荐内容中的文本信息内容输入至文本分类模型中,由文本分类模型输出待推荐内容中的文本信息的类别属性,将待推荐内容中的文本信息的类别属性作为待推荐内容的类别属性,即可以线下或者线上利用文本分类模型确定待推荐内容的类别属性。
当确定待推荐内容的类别属性后,可以为待推荐内容打上对应的标签。当待推荐内容的类别属性为低俗文本时,可以为待推荐内容打上低俗标签;当待推荐内容的类别属性为非低俗文本时,可以为待推荐内容打上非低俗标签。
在线上推荐待推荐内容时,若待推荐内容带有低俗标签,可以过滤掉该待推荐内容;若待推荐内容带有非低俗标签,可以将待推荐内容推荐给用户。
本申请实施例提供了一种基于深度学习的文本鉴别方法,与现有技术相比,本申请实施例中的待鉴别目标文本包括文本标题与文本内容,可以调用文本分类模型进行文本标题以及文本内容的字句解析处理,得到待鉴别目标文本的各字符,对每个字符进行字向量转化处理,得到各字符的字向量,并对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。由于文本分类模型在对文本进行文本分类时,根据标题中的各字符的字向量和正文中的各字符的字向量进行融合特征提取,使得提取得到的文本向量可以更好的表达待鉴别目标文本,从而使模型根据文本向量进行文本分类时,模型可以更好的理解待鉴别目标文本,能够有效提升模型识别文本类别的准确性。
本申请实施例的另一种可能实现方式,文本分类模型是按照以下方式训练得到的,该方式包括步骤B1-步骤B2。
步骤B1,获取标注有真实文本类别属性标签的有标签数据集以及无标签数据集。
其中,有标签数据集即为前文提及的第一数据集,无标签数据集即为前文提及的第二数据集,有标签数据集中包括各有标签文本,也就是前文提及的标注有标签的各第一文本,标签表征了第一文本的真实类别属性,无标签数据集包括各无标签文本,也就是前文提及的未标注标签的各第二文本。
本申请实施例中,对于有标签数据集中的每一个有标签文本,可以通过人工标注得到标注有标签的第一文本,其中,标签可以为低俗标签、非低俗标签等。在实际应用时,可以获取大量的文本,将文本的一部分通过人工标注得到标注有标签的第一文本,以构建有标签数据集,剩余的文本构建为无标签数据集。其中,文本的获取方式不做限定,例如,可以获取从网络抓取的文本,也可以从本地存储中获取文本,还可以获取用户上传的文本等。
可以理解的是,对于有标签数据集和无标签数据集中的任一文本,该文本可以包含文本标题以及文本内容。任一文本中的文本标题和文本内容,可以按照实现方式A1-实现方式A4中的至少一项进行融合特征处理,详见前文的相关描述,在此不再赘述。
步骤B2,基于有标签数据集和无标签数据集,通过多次训练操作对初始文本分类模型进行模型参数调整,直至满足预设的结束条件,得到最终的文本分类模型。
其中,预设的结束条件可以为训练操作的次数达到预设的训练次数,也可以为当前次训练操作时,无标签数据集中不易分类文本,也就是第一目标文本的数量小于或者等于第一预设数量,还可以为当前次训练操作时,无标签数据集中的无标签文本的数量小于或者等于第二预设数量等。
具体的,对于每一次训练操作,包括步骤B21-步骤B24。
步骤B21,将无标签数据集中的各无标签文本输入至基于上一次进行模型参数调整后的文本分类模型中,得到各无标签文本对应于各文本类别属性的预测概率。
对于无标签数据集中的每一个无标签文本,可以将无标签文本输入至当前的文本分类模型中,当前的文本分类模型即为上一次训练进行模型参数调整后的文本分类模型,文本分类模型可以输出无标签文本对应于各文本类别属性的预测概率。其中,文本类别属性可以是两种文本类别属性,也可以是三种或者三种以上的文本类别属性,在此不做限定。
作为一种可能的实现方式,无标签文本对应于各文本类别属性的预测概率包括无标签文本为正样本的正样本概率以及无标签文本为负样本的负样本概率,其中,正样本概率也可以称为第一概率,负样本概率也可以称为第二概率。
在一种可能的实现方式中,当文本为非低俗文本时,文本为正样本,当文本为低俗文本时,文本为负样本。
在实际执行步骤B21时,对于每个无标签文本,该无标签文本可以包括文本标题与文本内容,可以对无标签文本进行文本标题以及文本内容的字句解析处理,以得到无标签文本的各字符,并对每个字符进行字向量转化处理,以得到各字符的字向量,对各字符的字向量进行融合特征提取,得到无标签文本的文本向量,以根据文本向量得到无标签文本对应于各文本类别属性的预测概率。可以理解的是,对于任一文本(包括但不限于前文或后文所提及的无标签文本、有标签文本、待鉴别目标文本、第一目标文本、第二目标文本、待推荐内容中的文本信息等),都可以采用上述方式得到文本的文本向量。
在实际应用时,对于无标签文本中的各字符,可以根据各字符的位置向量、归属向量等中的至少一项,结合各字符的字向量进行融合特征提取,得到无标签文本的文本向量,具体可以见前文有关实现方式A1和实现方式A2的相关说明。在实际执行时,也可以根据无标签文本的文本标题和文本内容的权重,对无标签文本中的各字符的字向量进行融合特征提取,得到无标签文本的文本向量,具体可以见前文有关实现方式A3的相关说明;还可以直接采用实现方式A4对无标签文本中的各字符的字向量进行融合特征提取,得到无标签文本的文本向量,具体可以见前文有关实现方式A4的相关说明。
可以理解的是,在对无标签文本中的各字符的字向量进行融合特征提取时,可以采用实现方式A1-实现方式A4中的至少一种方式,在本申请实施例中不做限定。
在一种可能的实现方式中,初始文本分类模型包括级联的文本特征提取模块和文本类别预测模块,文本特征提取模型为经过预训练后的文本特征提取模型。
本申请实施例中,可以先对文本特征提取模块进行预训练,在预训练后的文本特征提取模块后级联文本类别预测模块,得到初始文本分类模型。其中,文本特征提取模块用于提取文本的特征向量,例如,文本特征提取模块可以为Bert模型,文本特征提取模块的预训练方式可以见前文中的相关内容,在此不再赘述;文本类别预测模块可以为前文中提及的分类器,分类器可以由级联的全连接层和Softmax层组成。
在一种可能的实现方式中,文本分类模型包括级联的文本特征提取模块和文本类别预测模块,其中,文本特征提取模块为采用Bert模型的特征提取模块。
本申请实施例中,文本特征提取模块为采用Bert模型的特征提取模块,即文本特征提取模块可以为Bert模型,文本类别预测模块可以为一个分类器,由级联的全连接层和Softmax层组成。
步骤B21中,对于无标签数据集中的任一无标签文本,将无标签数据集中的各无标签文本输入至基于上一次进行模型参数调整后的文本分类模型中,得到各无标签文本对应于各文本类别属性的预测概率,具体可以包括:
将无标签文本输入到采用Bert模型的特征提取模块,得到Bert模型的分类符号位所对应的特征向量;将Bert模型的分类符号位所对应的特征向量作为无标签文本的语义特征,基于语义特征,通过文本类别预测模块得到无标签文本对应于各文本类别属性的预测概率。
其中,本申请实施例以及前文或者后文所提及的各实施例中,任一文本的语义特征指的是该文本的文本向量,也可以称为句子向量。
本申请实施例中,将无标签文本输入到采用Bert模型的特征提取模块中,采用Bert模型的特征提取模块可以先通过Bert模型提供的转化字段,将无标签文本中的每一个字符转化为字符向量,然后将各字符向量输入至 Bert模型中,由Bert模型输出分类符号为所对应的特征向量。其中,分类符号为所对应的特征向量可以作为无标签文本的语义特征,即无标签文本的句子向量/文本向量。
进一步的,将无标签文本的文本向量输入至文本类别预测模块,文本类别预测模块可以输出无标签文本的预测概率,无标签文本的预测概率可以包括无标签文本为各个文本类别属性的概率。当文本分类模型为二分类模型时,无标签文本的预测概率可以包括无标签文本为正样本的概率和/ 或无标签文本为负样本的概率。在实际应用时,文本分类模型不限于二分类模型。
由上述实施例的相关说明可知,第一次训练操作时,将无标签数据集中的各无标签文本输入至上一次训练进行模型参数调整后的文本分类模型中时,该上一次训练进行模型参数调整后的文本分类模型是基于有标签数据集对初始的文本分类模型进行参数调整后得到的,具体可见上述实施例的相关说明,在此不再赘述。
需要说明的是,上述是从无标签文本的角度说明了无标签文本输入至文本特征提取模块和文本类别预测模块的相关处理,有标签文本也可以输入至文本特征提取模块和文本类别预测模块中,且处理方式与无标签文本的处理方式类似,可以见上述说明,在此不再赘述。
步骤B22,对于每一无标签文本,若无标签文本的各预测概率之间的差值小于或等于第一设定阈值,则将无标签文本确定为第一目标文本。
本申请实施例中,第一目标文本也就是前文提及的不易分类文本。对于任一个无标签文本,若该无标签文本为不易分类文本,说明当前的文本分类模型输出的该无标签文本的预测概率中,若该文本属于某一个文本类别属性的概率与该文本属于除该文本类别属性之外的另一个文本类别属性的概率相近。当文本分类模型为二分类模型时,若该无标签文本为不易分类文本,说明当前的文本分类模型输出的该无标签文本的预测概率中,该第二文本为正样本的概率和该第二文本为负样本的概率是相近的,也就是说,该无标签文本为正样本的概率和该无标签文本为负样本的概率,二者之间的差值很小。
其中,对于任一个无标签文本,无标签文本对应于各文本类别的预测概率包括无标签文本为第一文本类别属性的第一概率以及无标签文本为第二文本类别属性的第二概率。其中,第一文本类别属性可以为非低俗文本类别,也就是正样本,第二文本类别属性可以为低俗文本类别,也就是负样本。
步骤B22中,若无标签文本的各预测概率之间的差值小于或等于第一设定阈值,则将无标签文本确定为第一目标文本,具体可以包括:
若无标签文本对应的第一概率和第二概率的差值小于或等于第一设定阈值,则将无标签文本确定为第一目标文本。其中,第一概率也就是前述提及的正样本概率,第二概率也就是前述提及的负样本概率。
本申请实施例中,第一设定阈值可以是根据人工经验确定的值,第一设定阈值的大小不做限定,例如,第一设定阈值的大小可以是0.1、0.05、 0.02等任一个。
例如,当第一设定阈值为0.05时,如果无标签文本的正样本概率为 0.51、无标签文本的负样本概率为0.49,由于正样本概率与负样本概率的差值0.02小于第一设定阈值0.05,可以确定这个无标签样本为不易分类文本,也就是第一目标文本。
步骤B23,获取标注有真实文本类别属性标签的各第一目标文本,并将标注后的各第一目标文本添加到有标签数据集中,并将各第一目标文本从无标签数据集中删除。
本申请实施例中,对于第一目标文本,也就是不易分类文本,由于当前的文本分类模型无法准确判断该文本为正样本还是负样本,因此,不易分类文本可以通过人工标注或者模型标注的方式,得到该文本的真实文本类别标签,从而确定该文本是正样本还是负样本。具体地,通过模型标注的方式得到该文本的真实文本类别标签的方式如下所示:
步骤B23中,对于任一个第一目标文本,第一目标文本的真实文本类别属性标签是按照以下方式标注得到的:
调用预训练好的目标分类模型对第一目标文本进行类别属性鉴别处理,以得到第一目标文本所归属的类别属性;根据第一目标文本所归属的类别属性,标注第一目标文本的真实文本类别属性标签。
本申请实施例中,可以预先训练一个目标分类模型,用以对不易分类文本进行文本分类,在实际应用时,可以将第一目标文本输入至目标分类模型中进行类别属性鉴别处理,由目标分类模型输出第一目标文本所属的类别属性。其中,目标分类模型可以直接输出第一目标文本所属的类别属性,或者目标分类模型直接输出第一目标文本属于各个类别属性的预测概率。
进一步的,若目标分类模型直接输出第一目标文本所属的类别属性,则将输出的类别属性标注为第一目标文本的真实文本类别属性标签;若目标分类模型直接输出第一目标文本属于各个类别属性的预测概率,可以根据实际场景需要,根据第一目标文本所归属的类别属性,标注第一目标文本的真实文本类别属性标签,例如,可以将各预测概率中最大预测概率对应的类别属性标注为第一目标文本的真实文本类别属性标签,也可以将各预测概率中大于预设阈值的预测概率所对应的类别属性标注为第一目标文本的真实文本类别属性标签等。
在实际应用的过程中,可以将标注后的各不易分类文本添加到有标签数据集中,以更新有标签数据集,便于利用更新后的有标签数据集对当前的文本分类模型进行一次训练,同时,将各不易分类文本从无标签数据集中删除,以更新无标签数据集,保证无标签数据集中的每一个文本均是无标签文本。
步骤B24,将有标签数据集中的各有标签文本输入至文本分类模型,得到各有标签文本对应于各文本类别属性的预测概率,基于各有标签文本的各预测概率以及真实文本类别属性标签确定损失函数的值,并基于损失函数的值进行模型参数的调整。
本申请实施例中,将有标签数据集中的每一个有标签文本输入至当前的文本分类模型中,由当前的文本分类模型输出各有标签文本的预测概率。然后基于各有标签文本的预测概率和各有标签文本的标签,计算本次训练对应的损失函数的值,利用损失函数的值进行模型参数的调整。
其中,本申请实施例所使用的损失函数不做限定,可以根据实际情况,选择合适的损失函数。
本申请实施例可以在每一次训练时,将各无标签文本输入至当前的文本分类模型中,输出各无标签文本对应于各文本类别的预测概率,对于每一无标签文本,若无标签文本的各预测概率之间的差值小于或等于第一设定阈值,则将无标签文本确定为第一目标文本,也就是不易分类文本,利用标注有标签的不易分类文本,结合原有的有标签文本训练模型,实现了采用主动学习技术,在模型训练过程中,不断增加人工标注的不易分类文本,利用标注后的不易分类文本,能够更加有效的提升模型的性能,提升模型的主动学习能力,在利用训练好的模型对文本进行分类时,能够有效提升模型识别文本类别的准确性。
本申请实施例的另一种可能实现方式,对于任一个操作,即对于任一次训练操作,还可以包括:
对于每一无标签文本,若无标签文本的任一预测概率大于或等于该预测概率对应的第二设定阈值,则将无标签文本确定为第二目标文本,并将各第二目标文本从无标签数据集中删除;对于每一第二目标文本,将第二目标文本的大于或等于第二设定阈值的预测概率所对应的文本类别属性,确定为第二目标文本的真实文本类别属性标签。
本申请实施例中,若无标签文本为第二目标文本,也就是易分类文本,说明当前的文本分类模型输出的该无标签文本的预测概率中,该文本属于某一个文本类别属性的概率明显大于该文本属于除该文本类别属性之外的其他文本类别属性的概率。当文本分类模型为二分类模型时,若无标签文本为易分类文本,说明当前的文本分类模型输出的该无标签文本的预测概率中,该无标签文本为正样本的概率和该无标签文本为负样本的概率,二者之间的差值很大,文本分类模型可以基本确定该无标签文本为正样本或者该无标签文本为负样本。
其中,对于每一易分类文本,若该易分类文本为正样本的概率大于为负样本的概率,则表明该易分类文本为正样本,可以为该易分类文本打上正样本标签;若该易分类文本为正样本的概率小于为负样本的概率,则表明该易分类文本为负样本,可以为该易分类文本打上负样本标签。
作为一种可选的实现方式,正样本标签可以为非低俗标签,负样本标签可以为低俗标签。
由前述实施例可知,文本分类模型可以为二分类模型,无标签文本对应于各文本类别属性的预测概率包括无标签文本为第一文本类别属性的第一概率以及无标签文本为第二文本类别属性的第二概率。
其中,若无标签文本的任一预测概率大于或等于该预测概率对应的第二设定阈值,则将无标签文本确定为第二目标文本,具体可以包括:
若无标签文本对应的第一概率大于或等于第一文本类别属性所对应的第二设定阈值,或者无标签文本对应的第二概率大于或等于第二文本类别属性对应的第二设定阈值,则将无标签文本确定为第二目标文本。
其中,第一文本类别属性所对应的第二设定阈值大于第二文本类别属性对应的第二设定阈值。
本申请实施例中,由于正样本和负样本存在较大的数量不平衡情况,导致文本分类模型对正样本的预测概率偏高,负样本的预测概率偏低,因此,可以设定第一文本类别属性所对应的第二设定阈值大于第二文本类别属性对应的第二设定阈值,也就是正样本对应的第二设定阈值大于负样本对应的第二设定阈值。
进一步地,从各无标签文本中挑选无标签文本对应的正样本概率大于或等于第一文本类别所对应的第二设定阈值的无标签文本,并从各无标签文本中挑选无标签文本对应的负样本概率大于或等于第二文本类别所对应的第二设定阈值的无标签文本,使得可以挑选得到足够数量的正样本以及足够数量的负样本,在利用有标签数据集以及本次挑选出的正样本、负样本对当前的文本分类模型进行训练时,减小人工需要标注的样本数量,减少人力。
本申请实施例中,对于每一个无标签文本,当无标签文本对应的正样本概率大于或等于第一文本类别所对应的第二设定阈值时,可以确定该无标签文本为本次操作对应的易分类文本,并可以确定该无标签文本为正样本,从而为该无标签文本打上正样本标签;当无标签文本对应的负样本概率大于或等于第二文本类别所对应的第二设定阈值时,可以确定该无标签文本为本次操作对应的易分类文本,并可以确定该无标签文本为负样本,从而为该无标签文本打上负样本标签。
需要说明的是,本申请各可选实施例中,第一概率也就是正样本概率,第二概率也就是负样本概率,非低俗文本也就是第一文本、正样本,低俗文本也就是第二文本、负样本。
步骤B24,将有标签数据集中的各有标签文本输入至文本分类模型,得到各有标签文本对应于各文本类别属性的预测概率,基于各有标签文本的各预测概率以及真实文本类别属性标签确定损失函数的值,具体可以包括:
将有标签数据集中的各有标签文本以及本次操作所确定的各第二目标文本输入至文本分类模型,得到各有标签文本以及各第二目标文本各自对应于各文本类别属性的预测概率;基于各有标签文本以及各第二目标文本各自对应的各预测概率以及真实文本类别属性标签确定损失函数的值。
本申请实施例中,可以由有标签数据集、以及本次操作所确定的各易分类文本,构成本次操作的训练数据集。其中,有标签数据集中的每一个有标签文本均为人工标注有真实文本类别属性标签的有标签文本,本次操作所确定的每一个易分类文本,可以根据该易分类文本的各预测概率,自动确定该易分类文本的真实文本类别属性标签。也就是说,本次操作的训练数据集中的每一个文本,均是带有真实文本类别属性标签的文本,本次操作的训练数据集中的每一个文本,可以称作第三文本。
在实际应用时,将本次操作的训练数据集中的每一个第三文本输入至当前的文本分类模型中,由当前的文本分类模型输出各第三文本对应于各文本类别属性的预测概率。然后基于各第三文本的各预测概率和各第三文本的真实文本类别属性标签,计算本次训练对应的损失函数的值,利用损失函数的值进行模型参数的调整。
具体地,对于任一次操作,基于各有标签文本以及各第二目标文本各自对应的各预测概率以及真实文本类别属性标签确定损失函数的值,具体可以包括:
基于各有标签文本的真实文本类别属性标签和各预测概率,计算第一损失值;基于本次操作所确定的各第二目标文本的真实文本类别属性标签和各预测概率,确定第二损失值;基于第一损失值和第二损失值,确定损失函数的值。
本申请实施例中,有标签数据集输入至当前的文本分类模型中,由当前的文本分类模型输出有标签数据集中各有标签文本的各预测概率,并基于预设的损失函数,利用各有标签文本的真实文本类别属性标签和各预测概率,计算第一损失值;基于本次操作所确定的各易分类文本(也就是各第二目标文本)输入至当前的文本分类模型中,由当前的文本分类模型输出各易分类文本的各预测概率,并基于预设的损失函数,利用各易分类文本的真实文本类别属性标签和各预测概率,计算第二损失值。然后,利用第一损失值和第二损失值,计算该次训练对应的损失函数的值。
本申请实施例还可以在每一次训练时,对于每一无标签文本,若无标签文本的任一预测概率大于或等于该预测概率对应的第二设定阈值,则将无标签文本确定为第二目标文本,也就是易分类文本,并基于每一易分类文本的预测概率,确定每一易分类文本的标签,以利用各易分类文本及各自的标签训练模型,实现了采用伪标签技术,在模型训练过程中,不断增加模型预测较准确的易分类文本,易分类文本的标签相当于人工标签,即伪标签,利用带有标签的易分类文本,可以大幅增加训练样本的数量,减少人工标注所需的人力资源,从而能够更加有效的提升模型的性能,在利用训练好的模型对文本进行分类时,能够有效提升模型识别文本类别的准确性。
为了便于理解对文本分类模型的训练方式,下面将结合图5进行详细说明,图5为本申请实施例提供的一种文本分类模型的训练方式的流程示意图。其中,图5可以包括步骤S51-步骤S58。
步骤S51,获取标注有真实文本类别标签的有标签数据集以及无标签数据集。
步骤S52,将无标签数据集中的各无标签文本输入至基于上一次进行模型参数调整后的文本分类模型中,得到各无标签文本对应于各文本类别的预测概率。
步骤S53,对于每一无标签文本,若无标签文本的各预测概率之间的差值小于或等于第一设定阈值,则将无标签文本确定为第一目标文本。
步骤S54,获取标注有真实文本类别标签的各第一目标文本,并将标注后的各第一目标文本添加到有标签数据集中,并将各第一目标文本从无标签数据集中删除。
步骤S55,对于每一无标签文本,若无标签文本的任一预测概率大于或等于该预测概率对应的第二设定阈值,则将无标签文本确定为第二目标文本,并将各第二目标文本从无标签数据集中删除。
步骤S56,对于每一第二目标文本,将第二目标文本的大于或等于第二设定阈值的预测概率所对应的文本类别,确定为第二目标文本的真实文本类别标签。
步骤S57,将有标签数据集中的各有标签文本以及本次操作所确定的各第二目标文本输入至文本分类模型,得到各有标签文本以及各第二目标文本各自对应于各文本类别的预测概率。
步骤S58,基于各有标签文本以及各第二目标文本各自对应的各预测概率以及真实文本类别标签确定损失函数的值,基于损失函数的值进行模型参数的调整。
若不满足预设的训练结束条件,则重新开始执行步骤S52及之后的步骤,也就是说,循环执行步骤S52-步骤S58,直至满足预设的训练结束条件;若满足预设的训练结束条件,则执行步骤S59,得到最终的文本分类模型。
其中,步骤S51-步骤S59中各步骤的相关说明,可以见上述实施例的相关说明,在此不再赘述。
需要说明的是,步骤S51-步骤S59中所涉及的任一文本类别,指的是前文所提及的文本类别属性。
前文提及了实现方式A1-实现方式A4所示的四种融合特征提取方式,在实际执行时,可以采用实现方式A1-实现方式A4中的任一种融合特征提取方式,也可以将实现方式A1-实现方式A4中的至少两种进行结合,作为最终的融合特征提取方式。
下面以将实现方式A1-实现方式A4这四种实现方式进行结合,作为最终的融合特征提取方式为例,结合图6进行详细说明。如图6所示,图 6为本申请实施例提供的一种文本向量确定方式的流程示意图。该方法包括步骤S61-步骤S69。
步骤S61,获取待鉴别目标文本,待鉴别目标文本包括文本标题与文本内容。
步骤S62,对待鉴别目标文本进行文本标题以及文本内容的字句解析处理,得到待鉴别目标文本的各字符,并对每个字符进行字向量转化处理,得到各字符的字向量。
步骤S63,对每个字符在待鉴别目标文本中的位置进行向量转化处理,得到各字符的位置向量。
步骤S64,根据每个字符在待鉴别目标文本中所属的文本标题或文本内容,得到每个字符的归属向量。
步骤S65,获取文本标题的权重以及文本内容的权重。
步骤S66,对于每个字符,拼接该字符的位置向量、归属向量和字向量,并根据该字符所属的文本标题或文本内容,采用相应的权重对拼接后的向量进行加权,得到加权后的向量。
步骤S67,对于每个字符,根据该字符的加权后的向量和各字符中每一字符的加权后的向量,确定该字符与各字符中每一字符的相关性。
步骤S68,对于每个字符,基于该字符所对应的各相关性,对各相关性对应的各字符的字向量进行加权融合,得到该字符的融合向量。
步骤S69,对各字符的融合向量进行融合特征提取,得到待鉴别目标文本的文本向量。
其中,步骤S61-步骤S69的相关内容可以详见上述有关实现方式 A1-A4的相关说明,在此不再赘述。
上述从方法步骤的角度具体阐述了基于深度学习的文本鉴别方法,下面从虚拟模块的角度介绍基于深度学习的文本鉴别装置,具体如下所示:
本申请实施例提供了一种基于深度学习的文本鉴别装置,如图7所示,该基于深度学习的文本鉴别装置70可以包括:文本获取模块701以及文本鉴别模块702,其中,
文本获取模块701,用于获取待鉴别目标文本,待鉴别目标文本包括文本标题与文本内容;
文本鉴别模块702,用于调用预训练好的文本分类模型对待鉴别目标文本进行类别属性鉴别处理,以得到待鉴别目标文本所归属的类别属性,其中,文本鉴别模块702具体用于:
对待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到待鉴别目标文本的各字符;
对待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量;
对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。
在一种可能的实现方式中,该装置还包括:
位置向量确定模块,用于对每个字符在待鉴别目标文本中的位置进行向量转化处理,得到各字符的位置向量;
文本鉴别模块702在对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量时,具体用于:
对于每个字符,通过拼接字符的位置向量和字符的字向量,得到第一目标向量;
对各字符的第一目标向量进行融合特征提取,得到待鉴别目标文本的文本向量。
在一种可能的实现方式中,还包括:
归属向量确定模块,用于根据每个字符在待鉴别目标文本中所属的文本标题或文本内容,得到每个字符的归属向量;
文本鉴别模块702在对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量时,具体用于:
对于每个字符,通过拼接字符的字向量和字符的归属向量,得到第二目标向量;
对各字符的第二目标向量进行融合特征提取,得到待鉴别目标文本的文本向量。
在一种可能的实现方式中,还包括:
权重获取模块,用于获取文本标题的权重以及文本内容的权重;
文本鉴别模块702在对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量时,具体用于:
根据每个字符所归属的文本标题或者文本内容,采用相应的权重对字符的字向量进行加权,得到加权后的字向量;
对各字符的加权后的字向量进行融合特征提取,得到待鉴别目标文本的文本向量。
在一种可能的实现方式中,文本鉴别模块702在对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量时,具体用于:
对于每个字符,根据该字符的字向量和各字符中每一字符的字向量,确定该字符与各字符中每一字符的相关性;
对于每个字符,基于该字符所对应的各相关性,对各相关性对应的各字符的字向量进行加权融合,得到该字符的融合向量;
对各字符的融合向量进行融合特征提取,得到待鉴别目标文本的文本向量。
在一种可能的实现方式中,文本分类模型是由文本训练模块训练得到的,文本训练模块具体用于:
获取标注有真实文本类别属性标签的有标签数据集以及无标签数据集;
基于有标签数据集和无标签数据集,通过重复执行以下操作对初始文本分类模型进行模型参数调整,直至满足预设的结束条件,得到最终的文本分类模型:
将无标签数据集中的各无标签文本输入至基于上一次进行模型参数调整后的文本分类模型中,得到各无标签文本对应于各文本类别属性的预测概率;
对于每一无标签文本,若无标签文本的各预测概率之间的差值小于或等于第一设定阈值,则将无标签文本确定为第一目标文本;
获取标注有真实文本类别属性标签的各第一目标文本,并将标注后的各第一目标文本添加到有标签数据集中,并将各第一目标文本从无标签数据集中删除;
将有标签数据集中的各有标签文本输入至文本分类模型,得到各有标签文本对应于各文本类别属性的预测概率,基于各有标签文本的各预测概率以及真实文本类别属性标签确定损失函数的值,并基于损失函数的值进行模型参数的调整。
在一种可能的实现方式中,对于任一个第一目标文本,第一目标文本的真实文本类别属性标签是按照以下方式标注得到的:
调用预训练好的目标分类模型对第一目标文本进行类别属性鉴别处理,以得到第一目标文本所归属的类别属性;
根据第一目标文本所归属的类别属性,标注第一目标文本的真实文本类别属性标签。
在一种可能的实现方式中,对于任一次操作,文本训练模块还用于:
对于每一无标签文本,若无标签文本的任一预测概率大于或等于该预测概率对应的第二设定阈值,则将无标签文本确定为第二目标文本,并将各第二目标文本从无标签数据集中删除;
对于每一第二目标文本,将第二目标文本的大于或等于第二设定阈值的预测概率所对应的文本类别属性,确定为第二目标文本的真实文本类别属性标签;
文本训练模块在将有标签数据集中的各有标签文本输入至文本分类模型,得到各有标签文本对应于各文本类别属性的预测概率,基于各有标签文本的各预测概率以及真实文本类别属性标签确定损失函数的值时,具体用于:
将有标签数据集中的各有标签文本以及本次操作所确定的各第二目标文本输入至文本分类模型,得到各有标签文本以及各第二目标文本各自对应于各文本类别属性的预测概率;
基于各有标签文本以及各第二目标文本各自对应的各预测概率以及真实文本类别属性标签确定损失函数的值。
在一种可能的实现方式中,对于任一次操作,文本训练模块在基于各有标签文本以及各第二目标文本各自对应的各预测概率以及真实文本类别属性标签确定损失函数的值时,具体用于:
基于各有标签文本的真实文本类别属性标签和各预测概率,计算第一损失值;
基于本次操作所确定的各第二目标文本的真实文本类别属性标签和各预测概率,确定第二损失值;
基于第一损失值和所述第二损失值,确定损失函数的值。
在一种可能的实现方式中,文本分类模型为用于第一文本类别属性和第二文本类别属性分类的二分类模型,待鉴别目标文本为待推荐内容中的文本信息,该装置还包括:
待推荐内容处理模块,用于若文本信息的类别属性为第一文本类别属性,则将待推荐内容推荐给用户;若文本信息的类别属性为第二文本类别属性,则过滤掉待推荐内容。
本实施例的基于深度学习的文本鉴别装置可执行本申请上述任一实施例所示的基于深度学习的文本鉴别方法,其实现原理相类似,此处不再赘述。
基于深度学习的文本鉴别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该基于深度学习的文本鉴别装置为一个应用软件;该装置可以用于执行本申请实施例提供的基于深度学习的文本鉴别方法中的相应步骤。
在一些实施例中,本申请实施例提供的基于深度学习的文本鉴别装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的基于深度学习的文本鉴别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的基于深度学习的文本鉴别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC, Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA, Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本申请实施例提供的基于深度学习的文本鉴别装置可以采用软件方式实现,图7示出了存储在存储器中的基于深度学习的文本鉴别装置70,其可以是程序和插件等形式的软件,并包括一系列的模块,包括文本获取模块701、文本鉴别模块702、位置向量确定模块、归属向量确定模块、权重获取模块、以及待推荐内容处理模块;其中,文本获取模块701、文本鉴别模块702、位置向量确定模块、归属向量确定模块、权重获取模块、以及待推荐内容处理模块用于实现本申请实施例提供的基于深度学习的文本鉴别方法。
本申请实施例提供了一种基于深度学习的文本鉴别装置,与现有技术相比,本申请实施例中的待鉴别目标文本包括文本标题与文本内容,可以调用文本分类模型进行文本标题以及文本内容的字句解析处理,得到待鉴别目标文本的各字符,对每个字符进行字向量转化处理,得到各字符的字向量,并对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。由于文本分类模型在对文本进行文本分类时,根据标题中的各字符的字向量和正文中的各字符的字向量进行融合特征提取,使得提取得到的文本向量可以更好的表达待鉴别目标文本,从而使模型根据文本向量进行文本分类时,模型可以更好的理解待鉴别目标文本,能够有效提升模型识别文本类别的准确性。
上述从虚拟模块的角度介绍本申请的基于深度学习的文本鉴别装置,下面从实体装置的角度介绍本申请的电子设备。
本申请实施例提供了一种电子设备,如图8所示,图8所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器 4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的计算机程序,并由处理器 4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序;处理器在运行计算机程序时,执行方法实施例中任一可选实施例所示的基于深度学习的文本鉴别方法。
上述从实体装置的角度介绍本申请的电子设备,下面从存储介质的角度介绍本申请的计算机可读存储介质。
本申请实施例提供了一种计算机可读存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时实现方法实施例中任一可选实施例所示的基于深度学习的文本鉴别方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例涉及的各种可选实现方式中提供的基于深度学习的文本鉴别方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (12)
1.一种基于深度学习的文本鉴别方法,其特征在于,包括:
获取待鉴别目标文本,所述待鉴别目标文本包括文本标题与文本内容;
调用预训练好的文本分类模型对所述待鉴别目标文本进行类别属性鉴别处理,以得到所述待鉴别目标文本所归属的类别属性,包括:
对所述待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到所述待鉴别目标文本的各字符;
对所述待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量;
对所述各字符的字向量进行融合特征提取,得到所述待鉴别目标文本的文本向量,以根据所述文本向量得到所述待鉴别目标文本所归属的类别属性。
2.根据权利要求1所述的方法,其特征在于,还包括:
对每个字符在所述待鉴别目标文本中的位置进行向量转化处理,得到各字符的位置向量;
所述对所述各字符的字向量进行融合特征提取,得到所述待鉴别目标文本的文本向量,包括:
对于每个字符,通过拼接所述字符的位置向量和所述字符的字向量,得到第一目标向量;
对所述各字符的第一目标向量进行融合特征提取,得到所述待鉴别目标文本的文本向量。
3.根据权利要求1所述的方法,其特征在于,还包括:
根据每个字符在所述待鉴别目标文本中所属的文本标题或文本内容,得到每个字符的归属向量;
所述对所述各字符的字向量进行融合特征提取,得到所述待鉴别目标文本的文本向量,包括:
对于每个字符,通过拼接所述字符的字向量和所述字符的归属向量,得到第二目标向量;
对所述各字符的第二目标向量进行融合特征提取,得到所述待鉴别目标文本的文本向量。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述文本标题的权重以及所述文本内容的权重;
所述对所述各字符的字向量进行融合特征提取,得到所述待鉴别目标文本的文本向量,包括:
根据每个字符所归属的文本标题或者文本内容,采用相应的权重对所述字符的字向量进行加权,得到加权后的字向量;
对所述各字符的加权后的字向量进行融合特征提取,得到所述待鉴别目标文本的文本向量。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述各字符的字向量进行融合特征提取,得到所述待鉴别目标文本的文本向量,包括:
对于每个字符,根据该字符的字向量和所述各字符中每一字符的字向量,确定该字符与所述各字符中每一字符的相关性;
对于每个字符,基于该字符所对应的各相关性,对各相关性对应的各字符的字向量进行加权融合,得到该字符的融合向量;
对各字符的融合向量进行融合特征提取,得到所述待鉴别目标文本的文本向量。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述文本分类模型是按照以下方式训练得到的:
获取标注有真实文本类别属性标签的有标签数据集以及无标签数据集;
基于所述有标签数据集和所述无标签数据集,通过重复执行以下操作对初始文本分类模型进行模型参数调整,直至满足预设的结束条件,得到最终的文本分类模型:
将所述无标签数据集中的各无标签文本输入至基于上一次进行模型参数调整后的文本分类模型中,得到各所述无标签文本对应于各文本类别属性的预测概率;
对于每一所述无标签文本,若所述无标签文本的各预测概率之间的差值小于或等于第一设定阈值,则将所述无标签文本确定为第一目标文本;
获取标注有真实文本类别属性标签的各所述第一目标文本,并将标注后的各所述第一目标文本添加到所述有标签数据集中,并将各所述第一目标文本从所述无标签数据集中删除;
将所述有标签数据集中的各所述有标签文本输入至所述文本分类模型,得到各所述有标签文本对应于各文本类别属性的预测概率,基于各所述有标签文本的各预测概率以及真实文本类别属性标签确定损失函数的值,并基于所述损失函数的值进行模型参数的调整。
7.根据权利要求6所述的方法,其特征在于,对于任一个所述第一目标文本,所述第一目标文本的真实文本类别属性标签是按照以下方式标注得到的:
调用预训练好的目标分类模型对所述第一目标文本进行类别属性鉴别处理,以得到所述第一目标文本所归属的类别属性;
根据所述第一目标文本所归属的类别属性,标注所述第一目标文本的真实文本类别属性标签。
8.根据权利要求6所述的方法,其特征在于,对于任一次所述操作,还包括:
对于每一所述无标签文本,若所述无标签文本的任一预测概率大于或等于该预测概率对应的第二设定阈值,则将所述无标签文本确定为第二目标文本,并将各所述第二目标文本从所述无标签数据集中删除;
对于每一所述第二目标文本,将所述第二目标文本的大于或等于第二设定阈值的预测概率所对应的文本类别属性,确定为所述第二目标文本的真实文本类别属性标签;
所述将所述有标签数据集中的各所述有标签文本输入至所述文本分类模型,得到各所述有标签文本对应于各文本类别属性的预测概率,基于各所述有标签文本的各预测概率以及真实文本类别属性标签确定损失函数的值,包括:
将所述有标签数据集中的各所述有标签文本以及本次所述操作所确定的各所述第二目标文本输入至所述文本分类模型,得到各所述有标签文本以及各所述第二目标文本各自对应于各文本类别属性的预测概率;
基于各所述有标签文本以及各所述第二目标文本各自对应的各预测概率以及真实文本类别属性标签确定损失函数的值。
9.根据权利要求8所述的方法,其特征在于,对于任一次所述操作,所述基于各所述有标签文本以及各所述第二目标文本各自对应的各预测概率以及真实文本类别属性标签确定损失函数的值,包括:
基于各所述有标签文本的真实文本类别属性标签和各预测概率,计算第一损失值;
基于本次所述操作所确定的各所述第二目标文本的真实文本类别属性标签和各预测概率,确定第二损失值;
基于所述第一损失值和所述第二损失值,确定损失函数的值。
10.一种基于深度学习的文本鉴别装置,其特征在于,包括:
文本获取模块,用于获取待鉴别目标文本,所述待鉴别目标文本包括文本标题与文本内容;
文本鉴别模块,用于调用预训练好的文本分类模型对所述待鉴别目标文本进行类别属性鉴别处理,以得到所述待鉴别目标文本所归属的类别属性,其中,所述文本鉴别模块具体用于:
对所述待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到所述待鉴别目标文本的各字符;
对所述待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量;
对所述各字符的字向量进行融合特征提取,得到所述待鉴别目标文本的文本向量,以根据所述文本向量得到所述待鉴别目标文本所归属的类别属性。
11.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,其中,所述存储器中存储有计算机程序;所述处理器在运行所述计算机程序时执行权利要求1~9中任一项所述的方法。
12.一种计算机可读存储介质,所述存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110037860.2A CN113535946A (zh) | 2021-01-12 | 2021-01-12 | 基于深度学习的文本鉴别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110037860.2A CN113535946A (zh) | 2021-01-12 | 2021-01-12 | 基于深度学习的文本鉴别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113535946A true CN113535946A (zh) | 2021-10-22 |
Family
ID=78124266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110037860.2A Pending CN113535946A (zh) | 2021-01-12 | 2021-01-12 | 基于深度学习的文本鉴别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535946A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416974A (zh) * | 2021-12-17 | 2022-04-29 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及存储介质 |
-
2021
- 2021-01-12 CN CN202110037860.2A patent/CN113535946A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416974A (zh) * | 2021-12-17 | 2022-04-29 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN113254711B (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN112348111B (zh) | 视频中的多模态特征融合方法、装置、电子设备及介质 | |
CN113392651A (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113535946A (zh) | 基于深度学习的文本鉴别方法、装置、设备及存储介质 | |
CN117313728A (zh) | 实体识别方法、模型训练方法、装置、设备和存储介质 | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN115757723A (zh) | 文本处理方法及装置 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN115269781A (zh) | 模态关联度预测方法、装置、设备、存储介质及程序产品 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN111615178B (zh) | 识别无线网络类型及模型训练的方法、装置及电子设备 | |
CN114254080A (zh) | 一种文本匹配方法、装置及设备 | |
CN113239215A (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
CN112712056A (zh) | 视频语义分析方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40052884 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |