CN110119786B - 文本话题分类方法及装置 - Google Patents

文本话题分类方法及装置 Download PDF

Info

Publication number
CN110119786B
CN110119786B CN201910418451.XA CN201910418451A CN110119786B CN 110119786 B CN110119786 B CN 110119786B CN 201910418451 A CN201910418451 A CN 201910418451A CN 110119786 B CN110119786 B CN 110119786B
Authority
CN
China
Prior art keywords
short text
text
vector
topic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910418451.XA
Other languages
English (en)
Other versions
CN110119786A (zh
Inventor
单斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910418451.XA priority Critical patent/CN110119786B/zh
Publication of CN110119786A publication Critical patent/CN110119786A/zh
Application granted granted Critical
Publication of CN110119786B publication Critical patent/CN110119786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了文本话题分类方法及装置,首先,获得待处理短文本,利用词向量将该待处理短文本转换为文本向量。然后,将该文本向量输入至预先训练得到的文本话题分类模型中,该模型中的特征提取网络从文本向量中提取得到语义特征向量,其中,该语义特征向量包括待处理短文本的词内语义特征、词间语义特征和整句语义特征。最后由分类网络对提取出的语义特征向量进行分析得到该待处理短文本所属的话题类别。该方法从短文本中提取出的语义特征向量更全面、更准确,因此,分析得到的短文本的话题类别也更准确,因此,提高了短文本话题分类的准确率。

Description

文本话题分类方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及文本话题分类方法及装置。
背景技术
文本话题是自然语言处理下的一个重要的应用领域,属于文本分类及话题分类这个分支。
目前的文本话题主要集中在新闻或类新闻等长文本的分类上,能够实现自动为文章或新闻标记分类标签。
短文本是通常指文本长度小于预设数量字符,由于短文本具有长度短、信息量少的固有缺陷,导致传统的在长文本上效果很好的话题分类方法并不适用于短文本,准确率较低。
发明内容
有鉴于此,本发明的目的在于提供文本话题分类方法及装置,以解决利用于已有的话题分类方法来对短文本进行话题分类时导致的准确率低问题。其具体技术方案如下:
第一方面,本发明提供了一种文本话题分类方法,包括:
获取待处理短文本;
利用词向量将所述待处理短文本转换为文本向量,其中,所述词向量基于与所述待处理短文本属于相同领域的语料训练得到;
利用预先训练得到的文本话题分类模型,从所述文本向量中提取得到语义特征向量,所述语义特征向量能够表征所述待处理短文本的语义内容;
利用所述文本话题分类模型,分析所述语义特征向量确定所述待处理短文本的话题类别。
在第一方面的一种可能的实现方式中,所述语义特征向量包括所述待处理短文本中词语的词内语义特征、词间语义特征及整句语义特征;
其中,所述词内语义特征表征词语本身的语义特征,所述词间语义特征表征词语与词语之间的语义关联关系,所述整句语义特征表征一个句子的整体语义特征。
在第一方面的另一种可能的实现方式中,训练所述文本话题分类模型的过程,包括:
获取标注有预设话题类别的短文本训练样本;
利用与所述短文本训练样本属于相同语料领域的词向量,将所述短文本训练样本转换为相应的短文本样本向量;
利用预先构建的文本话题分类模型中的基于注意力机制的双向GRU网络,提取该短文本训练样本的整句语义特征,以及利用二维卷积神经网络,提取该短文本训练样本的整句语义特征的词内语义特征及词间语义特征,得到所述短文本训练样本的语义特征向量,其中,所述短文本训练样本的语义特征向量包含所述短文本训练样本的词内语义特征、词间语义特征及整句语义特征;
利用利用预先构建的文本话题分类模型中的分类网络,对每一个短文本训练样本的语义特征向量进行预测得到每一个短文本训练样本的预测话题类别;
基于所述短文本训练样本的预测话题类别和标注的预设话题类别,优化所述文本话题分类模型中的模型参数,直到利用优化后的文本话题分类模型对所述短文本训练样本进行预测得到的预测话题类别满足预设收敛条件。
在第一方面的另一种可能的实现方式中,所述获取标注有预设话题类别的短文本训练样本,包括:
获取预标注网络数据,所述预标注网络数据中自带表征短文本话题的话题标签;
利用所述预标注网络数据对预先构建的文本话题分类模型进行训练得到基础分类模型;
利用所述基础分类模型对候选短文本训练样本所属话题类别进行预测;
依据所述候选短文本训练样本的预测结果,从所述候选短文本训练样本中筛选出所述短文本训练样本。
在第一方面的另一种可能的实现方式中,所述候选短文本训练样本的预测结果包括该候选短文本训练样本属于各个预设话题类别的概率值;
所述依据所述候选短文本训练样本的预测结果,从所述候选短文本训练样本中筛选出所述短文本训练样本,包括:
选取预测结果中的最大概率值大于或等于预设概率阈值的候选短文本训练样本,得到所述短文本训练样本。
在第一方面的另一种可能的实现方式中,所述利用所述文本话题分类模型,分析所述语义特征向量确定所述待处理短文本的话题类别,包括:
利用预先训练得到的文本话题分类模型中的分类网络对所述语义特征向量进行分析,得到所述待处理短文本属于各个预设话题类别的概率值;
确定概率值最大的预设话题类别为所述待处理短文本所属的话题类别。
在第一方面的另一种可能的实现方式中,所述利用词向量将所述待处理短文本转换为文本向量,包括:
利用分词算法将所述待处理短文本进行分词处理得到分词结果;
利用与所述待处理短文本相同领域的词向量,将所述分词结果中的每一个词语转换为向量;
将所述待处理短文本中每一个词语对应的向量拼接成一个文本向量作为所述文本向量。
在第一方面的另一种可能的实现方式中,所述待处理短文本包括视频文件所包含的字幕内容;
所述获取待处理短文本,包括:
利用光学字符识别技术,识别出视频文件包含的视频帧图像中预设字幕区域内的字符得到所述视频文件所包含的字幕内容,并将所述字幕内容确定为所述待处理短文本。
第二方面,本发明还提供了一种文本话题分类装置,包括:
获取模块,用于获取待处理短文本;
向量转换模块,用于利用词向量将所述待处理短文本转换为文本向量,其中,所述词向量基于与所述待处理短文本属于相同领域的语料训练得到;
特征提取模块,用于利用预先训练得到的文本话题分类模型,从所述文本向量中提取得到语义特征向量,该语义特征向量用于表征所述待处理短文本的语义内容;
预测模块,用于利用所述文本话题分类模型,分析所述语义特征向量确定所述待处理短文本的话题类别。
在第二方面的一种可能的实现方式中,所述装置还包括:
训练样本获取模块,用于获取标注有预设话题类别的短文本训练样本;
样本向量转换模块,用于利用与所述短文本训练样本属于相同语料领域的词向量,将所述短文本训练样本转换为相应的短文本样本向量;
样本特征提取模块,用于利用预先构建的文本话题分类模型中的基于注意力机制的双向GRU网络,提取该短文本训练样本的整句语义特征,以及利用二维卷积神经网络,提取该短文本训练样本的整句语义特征的词内语义特征及词间语义特征,得到所述短文本训练样本的语义特征向量,其中,所述短文本训练样本的语义特征向量包含所述短文本训练样本的词内语义特征、词间语义特征及整句语义特征;
样本类别预测模块,用于利用预先构建的文本话题分类模型中的分类网络,对每一个短文本训练样本的语义特征向量进行预测得到每一个短文本训练样本的预测话题类别;
优化模块,用于基于所述短文本训练样本的预测话题类别和标注的预设话题类别,优化所述文本话题分类模型中的模型参数,直到利用优化后的文本话题分类模型对所述短文本训练样本进行预测得到的预测话题类别满足预设收敛条件。
本发明提供的文本话题分类方法,获得待处理短文本后,利用词向量将该待处理短文本转换为文本向量。然后,将该文本向量输入至预先训练得到的文本话题分类模型中,首先从文本向量中提取得到用于表征该待处理短文本的语义特征向量。然后,分析该语义特征向量得到该待处理短文本所属的话题类别。该方法能够从短文本中提取出更全面、更准确地表征短文本语义内容的语义特征向量,因此,该方法适用于分析短文本的话题类别,提高了短文本话题分类的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本话题分类模型的结构示意图;
图2是本发明实施例提供的一种文本话题分类方法的流程图;
图3是本发明实施例提供的一种训练文本话题分类模型过程的流程图;
图4是本发明实施例提供的一种获取短文本训练样本过程的流程图;
图5是本发明实施例提供的一种文本话题分类装置的框图;
图6是本发明实施例提供的另一种文本话题分类装置的框图。
具体实施方式
传统的文本话题分类主要用于长文本中,但是由于短文本的长度短,包含的信息量少,所以长文本的话题分类方法不适用于短文本。本发明提供了适用于短文本的话题分类方法,该方法利用预先训练得到的话题分类模型从短文本中提取出更准确、更全面的语义特征向量,然后,再分析该语义特征向量得到该短文本所属的话题类别。可见该方法能够从短文本中提取更全面的语义特征向量,因此,适用于分析短文本的话题类别,同时,也提高了准确率。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1和图2对本发明提供的文本话题分类方法进行说明;图1是本发明实施例提供的一种文本话题分类模型的结构示意图;图2是本发明实施例提供的一种文本话题分类方法的流程图。
如图1所示,待处理短文本先经过词向量模型转换为向量,即文本向量;得到的文本向量输入至预先训练得到的文本话题分类模型中;先由特征提取网络从输入的文本向量中提取得到语义特征向量,该语义特征向量包括短文本的整句语义、词内语义、词间语义。然后,该语义特征向量输入至模型中的分类网络,由分类网络分析该语义特征向量得到该待处理短文本的话题类别。
如图2所示,该文本话题分类方法包括以下步骤:
S110,获取待处理短文本。
本文以视频相关文本为例进行说明,其中,视频相关文本包括但不限于视频字幕(如,人物对白)、弹幕、视频标题等。当然,在其它实施例中,短文本还可以是其它领域的短文本,例如,社交聊天工具的聊天信息、网页评价信息等。
视频字幕一般嵌入在视频图像中,因此,可以利用文字识别技术如光学字符识别(Optical Character Recognition,OCR)技术,识别视频图像中包含的字符,得到视频字幕内容。弹幕或评论中的文本内容可以直接从相应接口获得。视频标题直接从视频平台上就能获得。
S120,利用词向量将待处理短文本转换为文本向量。
词向量是用来表示词语的向量,其作用是将文本中的每个词语映射为一个向量,实现文本到向量的转换。但是,通用的词向量由通用的大型语料训练得到,这种词向量由于含义比较泛化,大部分的词向量所代表的意义不具备特定领域的词语意义。因此,为了得到更具某领域词语特点的词向量,需要利用该领域的词语语料对词向量模型进行训练,利用训练得到的词向量模型生成具有该领域的词语意义的词向量;训练得到的词向量能够该领域的词语转换得到更好地表达该领域词语含义的向量。
例如,网络流行语“*粉”表示某明星“*”的粉丝,其具有特定的含义,因此,需要利用网络流行语这个领域的语料训练词向量模型得到词向量。
对于本实施例的视频相关文本,可以预先将大量视频相关文本的语料输入至词向量模型中进行训练,得到能够更好地表征视频相关文本含义的词向量。利用该领域的词向量将视频相关文本映射得到的文本向量,能够更好地表征视频相关文本所表征的意义。
在本发明的一个实施例中,将待处理短文本转换为相应的向量的过程如下:
在一种可能的应用场景中,待处理短文本是中文文本,即一个汉字序列,所以首先利用中文分词算法将待处理短文本进行分词处理得到分词结果;其中,中文分词算法就是将一个汉字序列切分成一个个单独的词语。
然后,利用与待处理短文本相同领域的词向量将分词结果中的每一个词语转换为对应的向量。最后,再将待处理短文本中的每一个词语对应的向量拼接成一个向量,得到文本向量。
例如,待处理短文本是视频领域的相关文本,则与待处理短文本相同领域的词向量是指利用视频领域的语料训练得到的词向量。
向量拼接是将多个向量拼接成一个向量,例如,一个20维的向量和一个30维的向量拼接得到一个50维的向量。
S130,利用预先训练得到的文本话题分类模型中的特征提取网络,从文本向量中提取得到语义特征向量。
在一种可能的实现方式中,该语义特征向量包括待处理短文本中词语的词内语义特征、词间语义特征及整句语义特征。其中,词内语义特征表征词语本身的语义特征;词间语义特征表征词语与词语之间的语义关联关系;整句语义特征表征一个句子的整体语义特征。
如图1所示,该文本话题分类模型可以包括特征提取网络和分类网络,其中特征提取网络可以采用基于attention机制的双向GRU(Gated Recurrent Unit,门控循环单元),以及二维卷积神经网络(2 Dimensional Convolutional Neural Networks,2D CNN)构成的模型实现,即特征提取网络采用基于attention机制的双向GRU和2DCNN组合的网络构架实现。
其中,GRU网络是长短期记忆(long-short term memory,LSTM)网络的一种效果很好的变体,GRU网络的结构比LSTM网络的结构更简单,而且效果好,LSTM网络能够学习长的依赖关系,记住较长的历史信息,同样,LSTM网络的变体GRU网络也能够学习较长的依赖关系,例如,文本中各个词语之间的位置关系。
自然语言作为一种序列类型,词与词之间有位置关系(即,语序关系),GRU模型能够记录这种词与词之间的相互位置关系,用来分析文本向量效果更好。其中,双向GRU(Bi-GRU)模型既可以对文本向量进行正向和逆向双向分析得到正向语义和逆向语义,从而能够更准确地提取出文本向量中的语义特征。
attention机制,又叫做注意力机制,这种机制可以在训练模型的过程中,使模型更关注一些重要的信息,如在文本话题分类过程中,更加关注那些与话题有关的词,这样能够使模型学习能力更好,使得模型最终分类的准确率更高。例如,使用Bi-GRU模型提取得到的语义特征中每一个词维度的向量没有表示重要性的权重,增加attention机制后,使得该语义特征中的词维度向量具有重要性的权重,使得最终的分类结果更准确。
利用基于attention机制的双向GRU模型能够提取待处理短文本的整体特征,即整句语义特征;然后,利用2D CNN网络进一步从整句语义特征中提取词语之间的信息,以及词语本身内部的信息,得到词间语义特征和词内语义特征。因此,最终得到的语义特征向量包括待处理短文本中的词内语义特征、词间语义特征及整句语义特征。
S140,利用文本话题分类模型中的分类网络,分析语义特征向量得到待处理短文本的话题类别。
文本话题分类模型中的特征提取网络提取得到的语义特征向量传输至分类网络进行分析。
其中,分类网络可以采用全连接网络,全连接层的每一层的任意一个神经元都与上一层的所有神经元相连,相当于把以前的局部特征重新通过权值矩阵组装成一个完整的对象,全连接层通常被用于分类。全连接网络所有的参数就是各个层之间的连接权重及偏置,通过模型训练找到权重与偏置的最优组合使损失值降至最低,同时,准确率上升至最高。
将之前提取的语义特征向量输入至该全连接网络中,针对每一个待处理短文本输出一个多维向量作为预测结果。
在一种可能的实现方式中,预测结果中的每一维向量的数值范围为0~1,表示输入的短文本属于该维向量对应的话题类别的概率值(或,置信度分数)。其中,概率值最大的话题类别确定为输入的短文本的话题类别。
例如,预设话题类别为54类,则该全连接网络能够输出54维向量,每一维向量与一个预设话题类别一一对应。
本实施例提供的文本话题分类方法,获得待处理短文本后,利用词向量将该待处理短文本转换为文本向量。然后,将该文本向量输入至预先训练得到的文本话题分类模型中,该模型中的特征提取网络从文本向量中提取得到语义特征向量,其中,该语义特征向量包括待处理短文本的词内语义特征、词间语义特征和整句语义特征。最后由分类网络对提取出的语义特征向量进行分析得到该待处理短文本所属的话题类别。该方法从短文本中提取出的语义特征向量更全面、更准确,因此,分析得到的短文本的话题类别也更准确,因此,提高了短文本话题分类的准确率。
请参见图3,示出了本发明实施例提供的一种训练文本话题分类模型过程的流程图,如图3所示,训练文本话题分类模型的过程可以包括以下步骤:
S210,获取标注有预设话题类别的短文本训练样本。
短文本训练样本中的每一个样本都标注有该样本所属的预设话题类别。其中,标注样本可以由人工对文本进行标识得到。
为了提高文本标注效率,可以采用图4所示的方式获取短文本训练样本,如图4所示,该过程可以包括:
S211,获取预标注网络数据。
其中,该预标注网络数据是指自带表征短文本话题的话题标签的数据,在一种可能的实现方式中,可以从网络中收集自带话题标签的数据,例如,字数不多于预设值(如130)的问答数据,问答数据中的问题中通常会包含对应的问题类别标签。然后,将问答数据中的问题类别标签映射至预设话题类别标签,该映射过程即为预标注网络数据标注预设话题类别标签的过程。
其中,一个话题类别标签与至少一个问题类别标签对应。
S212,利用预标注网络数据对预先构建的文本话题分类模型进行训练得到基础分类模型。
该步骤的预先构建的文本话题分类模型与最终用于话题分类的文本话题分类模型的架构相同,不同之处在于模型内的模型参数的数值不同;预先构建的文本话题分类模型中的模型参数通常是初始参数值,而最终使用的文本话题分类模型中的模型参数是对初始参数值进行优化后的数值。
利用标注后的预标注网络数据对该预先构建的文本话题分类模型中的模型参数进行初步优化,得到基础分类模型。
S213,利用基础分类模型对候选短文本训练样本所属话题类别进行预测。
候选短文本训练样本是与待处理短文本属于相同领域的短文本数据。例如,对于视频领域的短文本,可以选取视频相关的台词、弹幕、标题等。
该基础分类模型对候选短文本训练样本所属的话题类别进行预测后得到相应的预测结果,其中,预测结果可以是候选短文本训练样本属于各个预设话题类别的概率值(或置信度分数)。
S214,依据候选短文本训练样本的预测结果,从候选短文本训练样本中筛选出短文本训练样本。
该步骤是从大量候选短文本中选取可以作为训练样本的短文本样本的过程。
在一种可能的实现方式中,可以设定一个概率阈值,即预设概率阈值,选取预测结果中的最大概率值大于或等于该预设概率阈值的候选短文本训练样本作为训练文本话题分类模型所要使用的短文本训练样本。如果某一候选短文本训练样本的预测结果中的最大概率值小于该预设概率阈值,则抛弃该候选短文本训练样本。
其中,该预设概率阈值可以根据候选短文本训练样本的数据量或实际需求设定,例如,0.45、0.5等。
在另一种可能的实现方式中,为了得到多样化的训练样本数据,进而使训练得到的文本话题分类模型的泛化能力更高,可以采用较低的预设概率阈值结合人工修正标注的方式。
通过设定较低的预设概率阈值保留较多的候选短文本训练样本,然后,再由人工对基础分类模型选取的样本数据进行清洗,即由人工筛选出标注不准确的样本数据,从而得到最终被用来训练文本话题分类模型的短文本训练样本。此种方式既能保证获取短文本训练样本的效率,同时,还能保证短文本训练样本的准确率。
S220,利用词向量将短文本训练样本转换为相应的短文本样本向量。
该步骤的词向量是利用与短文本训练样本属于相同领域的语料训练得到,具体的文本转换成向量的过程与上述的S120的实现过程相同,此处不再赘述。
S230,利用预先构建的文本话题分类模型中的基于attention机制的双向GRU网络,从短文本训练样本中提取该短文本训练样本的整句语义特征。
预先构建的文本话题分类模型包括特征提取网络和分类网络,其中,特征提取网络包括基于attention机制的双向GRU网络和2D CNN网络。
该步骤是利用基于attention机制的双向GRU网络从短文本训练样本中提取得到整个句子的语义信息,即整句语义特征。
S240,利用预先构建的文本话题分类模型中的2D CNN网络,从该短文本训练样本的整句语义特征中提取出该短文本训练样本的词内语义特征及词间语义特征,得到所述语义特征向量。
该步骤是利用2D CNN进一步从整句语义特征中提取词语之间的信息,以及词语内部的信息,得到词间语义特征和词内语义特征。因此,经过基于attention机制的双向GRU网络和2D CNN网络后提取得到包含短文本训练样本中的词间语义特征、词内语义特征及整句语义特征。
S250,利用预先构建的文本话题分类模型中的分类网络,对每一个短文本训练样本的语义特征向量进行分析,得到每一个短文本训练样本对应的话题类别。
该步骤是将特征提取网络提取得到的语义特征向量输入至分类网络,该分类网络输出该短文本训练样本所属话题类别的预测结果,该预测结果可以包括该短文本训练样本属于各个预设话题类别的概率值,并确定概率值最大的预设话题类别为该短文本训练样本的话题类别。
S260,基于短文本训练样本的预测结果和标注的预设话题类别,优化预先构建的文本话题分类模型中的模型参数,直到利用优化后的文本话题分类模型对短文本训练样本进行预测得到的预测结果满足预设收敛条件,得到文本话题分类模型。
初始的文本话题分类模型中的模型参数是初始化时的参数或自定义参数,模型训练过程就是不断地优化模型参数,直到利用优化后的文本话题分类模型对短文本训练样本进行预测得到的预测结果与训练样本的真实的标注结果之间的误差满足预设收敛条件,其中,该收敛条件可以包括损失函数降低最低,同时准确率升至最高。换言之,模型参数优化过程,就是通过学习短文本训练样本的语义特征向量与其标注的话题类别之间的内在关系,确定出能够准确识别出这种内在关系的模型参数组合。
具体的,利用当前文本话题分类模型预测得到所有短文本训练样本所属的预设话题类别的预测结果;由于短文本训练样本标注有其话题类别标签,根据短文本训练样本的预测结果及标注的真实话题类别可以计算得到当前文本话题分类模型的损失值及准确率。不断根据损失值和准确率对当前文本话题分类模型中的模型参数进行优化,直到利用优化后的文本话题分类模型预测短文本训练样本得到的预测结果与其标注的话题类别结果之间的损失值小于损失值阈值,且该预测结果的准确率高于准确率阈值,此时确定当前模型参数为最优模型参数组合,即得到最终的文本话题分类模型。
本实施例提供的文本话题分类模型的训练过程,获取标注有预设话题类别的短文本训练样本后,利用词向量将该短文本训练样本转换为文本向量。然后,将该文本向量输入至文本话题分类模型中进行训练得到模型参数的最优组合,即得到最终的文本话题分类模型。其中,该训练过程使用同领域的词向量将短文本训练样本转换得到的文本向量的准确率更高;而且,文本话题分类模型中采用了基于注意力的双向GRU模型加2DCNN的分类模型,能够更准确地从短本文训练样本中提取语义特征向量,因此,缩短了训练过程。
相应于上述的文本话题分类方法实施例,本发明还提供了文本话题分类装置实施例。
请参见图5,示出了本发明实施例一种文本话题分类装置的框图,该装置可以应用于服务器端或客户端,如图5所示,该装置可以包括:获取模块110、向量转换模块120、特征提取模块130和预测模块140。
获取模块110,用于获取待处理短文本。
向量转换模块120,用于利用词向量将待处理短文本转换为文本向量。
其中,词向量基于与待处理短文本属于相同领域的语料训练得到。这样,转换得到的向量能够更准确、全面地表征待处理短文本的语义内容。
特征提取模块130,用于利用预先训练得到的文本话题分类模型,从文本向量中提取得到语义特征向量。
该语义特征向量能够更准确、更全面地表征待处理短文本的语义内容。
该文本话题分类模型包括特征提取网络和分类网络,利用特征提取网络从待处理短文本对应的文本向量中提取得到对应的语义特征向量。
该特征提取网络采用基于attention机制的双向GRU,以及2D CNN组合的网络架构实现。利用基于attention机制的双向GRU模型能够提取待处理短文本的整体特征,即整句语义特征;然后,利用2D CNN网络进一步从整句语义特征中提取词语之间的信息,以及词语本身内部的信息,得到词间语义特征和词内语义特征。
预测模块140,用于利用文本话题分类模型分析语义特征向量确定待处理短文本的话题类别。
将提取得到的语义特征向量输入至分类网络中,该分类网络针对每一个待处理短文本输出一个多维向量作为预测结果。预测结果中的每一维向量的数值范围为0~1,表示输入的短文本属于该维向量对应的话题类别的概率值(或,置信度分数)。其中,概率值最大的话题类别确定为输入的短文本的话题类别。
本实施例提供的文本话题分类装置,由获取模块获取待处理短文本,然后,由向量转换模块将待处理短文本转换为文本向量。由特征提取模块从文本向量中提取得到语义特征向量并传输至预测模块,由该预测模块分析得到该待处理短文本所属的话题类别。该装置中的特征提取模块从短文本中提取出的语义特征向量更全面、更准确,因此,分析得到的短文本的话题类别也更准确,因此,提高了短文本话题分类的准确率。
请参见图6,示出了本发明实施例提供的另一种文本话题分类装置的框图,该装置在图5所示实施例的基础上还包括:训练样本获取模块210、样本向量转换模块220、样本特征提取模块230、样本类别预测模块240和优化模块250。
训练样本获取模块210,用于获取标注有预设话题类别的短文本训练样本。
短文本训练样本中的每一个样本都标注有该样本所属的预设话题类别。其中,标注样本可以由人工对文本进行标识得到。
在一种可能的实现方式中,为了提高文本标注效率,训练样本获取模块210具体用于:
获取预标注网络数据,其中,该预标注网络数据中自带表征短文本话题的话题标签;
利用预标注网络数据对预先构建的文本话题分类模型进行训练得到基础分类模型;
利用基础分类模型对候选短文本训练样本所属话题类别进行预测;
依据候选短文本训练样本的预测结果,从候选短文本训练样本中筛选出所述短文本训练样本。
样本向量转换模块220,用于利用与短文本训练样本属于相同语料领域的词向量,将所述短文本训练样本转换为相应的短文本样本向量。
样本特征提取模块230,用于利用基于attention机制的双向GRU网络,提取该短文本训练样本的整句语义特征,以及利用2DCNN提取该短文本训练样本的整句语义特征的词内语义特征及词间语义特征,得到短文本训练样本的语义特征向量。
其中,短文本训练样本的语义特征向量包含短文本训练样本的词内语义特征、词间语义特征及整句语义特征。
样本类别预测模块240,用于利用分类网络,对每一个短文本训练样本的语义特征向量进行预测得到每一个短文本训练样本的预测话题类别。
优化模块250,用于基于短文本训练样本的预测话题类别和标注的预设话题类别,优化文本话题分类模型中的模型参数,直到利用优化后的文本话题分类模型对短文本训练样本进行预测得到的预测话题类别满足预设收敛条件。
优化模块的对文本话题分类模型的优化过程不是一次就能达到最优结果,而是反复多次后的结果,具体的优化过程如下:
利用当前文本话题分类模型预测得到所有短文本训练样本所属的预设话题类别的预测结果;由于短文本训练样本标注有其话题类别标签,根据短文本训练样本的预测结果及标注的真实话题类别可以计算得到当前文本话题分类模型的损失值及准确率。不断根据损失值和准确率对当前文本话题分类模型中的模型参数进行优化,直到利用优化后的文本话题分类模型预测短文本训练样本得到的预测结果与其标注的话题类别结果之间的损失值小于损失值阈值,且该预测结果的准确率高于准确率阈值,此时确定当前模型参数为最优模型参数组合,即得到最终的文本话题分类模型。
本实施例提供的文本话题分类装置,在对文本话题分类模型进行训练的过程中,首先获取标注有预设话题类别的短文本训练样本,然后利用词向量将该短文本训练样本转换为文本向量。然后,将该文本向量输入至文本话题分类模型中进行训练得到模型参数的最优组合,即得到最终的文本话题分类模型。其中,该训练过程使用同领域的词向量将短文本训练样本转换得到的文本向量的准确率更高;而且,文本话题分类模型中采用了基于注意力的双向GRU模型加2DCNN的分类模型,能够更准确地从短本文训练样本中提取语义特征向量,因此,缩短了训练过程。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请各实施例中的装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种文本话题分类方法,其特征在于,包括:
获取待处理短文本;
利用词向量将所述待处理短文本转换为文本向量,其中,所述词向量基于与所述待处理短文本属于相同领域的语料训练得到;
利用预先训练得到的文本话题分类模型提取所述待处理短文本的整句语义特征,以及,从所述整句语义特征中提取词内语义特征及词间语义特征;
利用所述文本话题分类模型,分析所述语义特征向量确定所述待处理短文本的话题类别;
其中,所述词内语义特征表征词语本身的语义特征,所述词间语义特征表征词语与词语之间的语义关联关系,所述整句语义特征表征一个句子的整体语义特征且包含词维度向量重要性的权重。
2.根据权利要求1所述的方法,其特征在于,训练所述文本话题分类模型的过程,包括:
获取标注有预设话题类别的短文本训练样本;
利用与所述短文本训练样本属于相同语料领域的词向量,将所述短文本训练样本转换为相应的短文本样本向量;
利用预先构建的文本话题分类模型中的基于注意力机制的双向GRU网络,提取该短文本训练样本的整句语义特征,以及利用二维卷积神经网络,提取该短文本训练样本的整句语义特征的词内语义特征及词间语义特征,得到所述短文本训练样本的语义特征向量,其中,所述短文本训练样本的语义特征向量包含所述短文本训练样本的词内语义特征、词间语义特征及整句语义特征;
利用利用预先构建的文本话题分类模型中的分类网络,对每一个短文本训练样本的语义特征向量进行预测得到每一个短文本训练样本的预测话题类别;
基于所述短文本训练样本的预测话题类别和标注的预设话题类别,优化所述文本话题分类模型中的模型参数,直到利用优化后的文本话题分类模型对所述短文本训练样本进行预测得到的预测话题类别满足预设收敛条件。
3.根据权利要求2所述的方法,其特征在于,所述获取标注有预设话题类别的短文本训练样本,包括:
获取预标注网络数据,所述预标注网络数据中自带表征短文本话题的话题标签;
利用所述预标注网络数据对预先构建的文本话题分类模型进行训练得到基础分类模型;
利用所述基础分类模型对候选短文本训练样本所属话题类别进行预测;
依据所述候选短文本训练样本的预测结果,从所述候选短文本训练样本中筛选出所述短文本训练样本。
4.根据权利要求3所述的方法,其特征在于,所述候选短文本训练样本的预测结果包括该候选短文本训练样本属于各个预设话题类别的概率值;
所述依据所述候选短文本训练样本的预测结果,从所述候选短文本训练样本中筛选出所述短文本训练样本,包括:
选取预测结果中的最大概率值大于或等于预设概率阈值的候选短文本训练样本,得到所述短文本训练样本。
5.根据权利要求1所述的方法,其特征在于,所述利用所述文本话题分类模型,分析所述语义特征向量确定所述待处理短文本的话题类别,包括:
利用预先训练得到的文本话题分类模型中的分类网络对所述语义特征向量进行分析,得到所述待处理短文本属于各个预设话题类别的概率值;
确定概率值最大的预设话题类别为所述待处理短文本所属的话题类别。
6.根据权利要求1所述的方法,其特征在于,所述利用词向量将所述待处理短文本转换为文本向量,包括:
利用分词算法将所述待处理短文本进行分词处理得到分词结果;
利用与所述待处理短文本相同领域的词向量,将所述分词结果中的每一个词语转换为向量;
将所述待处理短文本中每一个词语对应的向量拼接成一个文本向量作为所述文本向量。
7.根据权利要求1所述的方法,其特征在于,所述待处理短文本包括视频文件所包含的字幕内容;
所述获取待处理短文本,包括:
利用光学字符识别技术,识别出视频文件包含的视频帧图像中预设字幕区域内的字符得到所述视频文件所包含的字幕内容,并将所述字幕内容确定为所述待处理短文本。
8.一种文本话题分类装置,其特征在于,包括:
获取模块,用于获取待处理短文本;
向量转换模块,用于利用词向量将所述待处理短文本转换为文本向量,其中,所述词向量基于与所述待处理短文本属于相同领域的语料训练得到;
特征提取模块,用于利用预先训练得到的文本话题分类模型提取所述待处理短文本的整句语义特征,以及,从所述整句语义特征中提取词内语义特征及词间语义特征;
预测模块,用于利用所述文本话题分类模型,分析所述语义特征向量确定所述待处理短文本的话题类别;
其中,所述词内语义特征表征词语本身的语义特征,所述词间语义特征表征词语与词语之间的语义关联关系,所述整句语义特征表征一个句子的整体语义特征且包含词维度向量重要性的权重。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
训练样本获取模块,用于获取标注有预设话题类别的短文本训练样本;
样本向量转换模块,用于利用与所述短文本训练样本属于相同语料领域的词向量,将所述短文本训练样本转换为相应的短文本样本向量;
样本特征提取模块,用于利用预先构建的文本话题分类模型中的基于注意力机制的双向GRU网络,提取该短文本训练样本的整句语义特征,以及利用二维卷积神经网络,提取该短文本训练样本的整句语义特征的词内语义特征及词间语义特征,得到所述短文本训练样本的语义特征向量,其中,所述短文本训练样本的语义特征向量包含所述短文本训练样本的词内语义特征、词间语义特征及整句语义特征;
样本类别预测模块,用于利用预先构建的文本话题分类模型中的分类网络,对每一个短文本训练样本的语义特征向量进行预测得到每一个短文本训练样本的预测话题类别;
优化模块,用于基于所述短文本训练样本的预测话题类别和标注的预设话题类别,优化所述文本话题分类模型中的模型参数,直到利用优化后的文本话题分类模型对所述短文本训练样本进行预测得到的预测话题类别满足预设收敛条件。
CN201910418451.XA 2019-05-20 2019-05-20 文本话题分类方法及装置 Active CN110119786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910418451.XA CN110119786B (zh) 2019-05-20 2019-05-20 文本话题分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910418451.XA CN110119786B (zh) 2019-05-20 2019-05-20 文本话题分类方法及装置

Publications (2)

Publication Number Publication Date
CN110119786A CN110119786A (zh) 2019-08-13
CN110119786B true CN110119786B (zh) 2021-11-16

Family

ID=67522766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910418451.XA Active CN110119786B (zh) 2019-05-20 2019-05-20 文本话题分类方法及装置

Country Status (1)

Country Link
CN (1) CN110119786B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395414A (zh) * 2019-08-16 2021-02-23 北京地平线机器人技术研发有限公司 文本分类方法和分类模型的训练方法、装置、介质和设备
CN112579730A (zh) * 2019-09-11 2021-03-30 慧科讯业有限公司 高扩展性、多标签的文本分类方法和装置
CN110705206B (zh) * 2019-09-23 2021-08-20 腾讯科技(深圳)有限公司 一种文本信息的处理方法及相关装置
CN110704626B (zh) * 2019-09-30 2022-07-22 北京邮电大学 一种用于短文本的分类方法及装置
CN110826315B (zh) * 2019-11-01 2023-11-24 智者四海(北京)技术有限公司 使用神经网络系统识别短文本时效性的方法
CN111180025A (zh) * 2019-12-18 2020-05-19 东北大学 表示病历文本向量的方法、装置及问诊系统
CN111275327A (zh) * 2020-01-19 2020-06-12 深圳前海微众银行股份有限公司 一种资源配置方法、装置、设备及存储介质
CN111460791B (zh) * 2020-03-30 2023-12-01 北京百度网讯科技有限公司 文本分类方法、装置、设备以及存储介质
CN111476028A (zh) * 2020-04-02 2020-07-31 言图科技有限公司 一种汉语短语识别方法、系统、存储介质及电子设备
CN111563163A (zh) * 2020-04-29 2020-08-21 厦门市美亚柏科信息股份有限公司 文本分类模型的生成方法和装置、数据标准化方法和装置
CN111831806B (zh) * 2020-07-02 2024-04-09 北京小米松果电子有限公司 语义完整性确定方法、装置、电子设备和存储介质
CN111930942B (zh) * 2020-08-07 2023-08-15 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN111930943B (zh) * 2020-08-12 2022-09-02 中国科学技术大学 一种剧透弹幕检测方法及装置
CN111966792B (zh) * 2020-09-03 2023-07-25 网易(杭州)网络有限公司 一种文本处理方法、装置、电子设备及可读存储介质
CN112307209B (zh) * 2020-11-05 2024-04-26 江西高创保安服务技术有限公司 一种基于字符向量的短文本分类方法及系统
CN112765989B (zh) * 2020-11-17 2023-05-12 中国信息通信研究院 基于表示分类网络的变长文本语义识别方法
CN112668329A (zh) * 2020-12-28 2021-04-16 广州博士信息技术研究院有限公司 一种基于机器学习的政策文本分类方法
CN112667815A (zh) * 2020-12-30 2021-04-16 北京捷通华声科技股份有限公司 文本处理方法、装置、计算机可读存储介质及处理器
CN112988964B (zh) * 2021-02-20 2024-03-08 平安科技(深圳)有限公司 文本韵律边界预测的方法、装置、设备及存储介质
CN113177138A (zh) * 2021-04-30 2021-07-27 南开大学 一种基于弹幕和标题分析的有监督视频分类方法
CN113420167A (zh) * 2021-05-14 2021-09-21 北京达佳互联信息技术有限公司 多媒体资源处理方法、装置、电子设备及存储介质
CN113468308B (zh) * 2021-06-30 2023-02-10 竹间智能科技(上海)有限公司 一种对话行为分类方法及装置、电子设备
CN115860010A (zh) * 2021-09-22 2023-03-28 华为云计算技术有限公司 一种话题挖掘方法及相关装置
CN114218381B (zh) * 2021-12-08 2022-08-30 北京中科闻歌科技股份有限公司 立场识别方法、装置、设备及介质
CN115687625B (zh) * 2022-11-14 2024-01-09 五邑大学 文本分类方法、装置、设备及介质
CN116049414B (zh) * 2023-04-03 2023-06-06 北京中科闻歌科技股份有限公司 基于话题描述的文本聚类方法、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334499A (zh) * 2018-02-08 2018-07-27 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049103B2 (en) * 2017-01-17 2018-08-14 Xerox Corporation Author personality trait recognition from short texts with a deep compositional learning approach
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334499A (zh) * 2018-02-08 2018-07-27 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的文本多标签预测及问答匹配方法研究;郑潮阳;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115;第34-59页 *

Also Published As

Publication number Publication date
CN110119786A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110119786B (zh) 文本话题分类方法及装置
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN108197109B (zh) 一种基于自然语言处理的多语言分析方法和装置
CN108960073B (zh) 面向生物医学文献的跨模态图像模式识别方法
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN111626362B (zh) 图像处理方法、装置、计算机设备和存储介质
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113806547A (zh) 一种基于图模型的深度学习多标签文本分类方法
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN116401373A (zh) 一种试题知识点的标注方法、存储介质及设备
Al-Jamal et al. Image captioning techniques: A review
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN114693949A (zh) 一种基于区域感知对齐网络的多模态评价对象抽取方法
CN114528373A (zh) 一种基于嵌入的新闻多标签分类方法及装置
Chen et al. Scene text recognition based on deep learning: a brief survey
CN113076741A (zh) 一种基于多语言文本数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant