CN110209821A - 文本类别确定方法和装置 - Google Patents

文本类别确定方法和装置 Download PDF

Info

Publication number
CN110209821A
CN110209821A CN201910492105.6A CN201910492105A CN110209821A CN 110209821 A CN110209821 A CN 110209821A CN 201910492105 A CN201910492105 A CN 201910492105A CN 110209821 A CN110209821 A CN 110209821A
Authority
CN
China
Prior art keywords
text
samples
vector
subjective
objective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910492105.6A
Other languages
English (en)
Inventor
单斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910492105.6A priority Critical patent/CN110209821A/zh
Publication of CN110209821A publication Critical patent/CN110209821A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本类别确定方法和装置,该方法包括:获取待识别的文本;将该文本转换为文本向量;将该文本向量输入到预置的主客观分类模型中,获得该主客观分类模型输出的第一类别评分和第二类别评分,其中,该第一类别评分用于表征该文本属于主观性文本的评分,该第二类别评分用于表征该文本属于客观性文本的评分,该主客观分类模型为利用标注有主观性的多个第一文本样本对应的文本向量以及标注有客观性的多个第二文本样本对应的文本向量训练得到;基于该第一类别评分和该第二类别评分,确定该文本具有的主客观类别,该主客观类别用于表征该文本具有主观性或者客观性。本申请的方案可以确定出文本所具有的主客观类型。

Description

文本类别确定方法和装置
技术领域
本申请涉及文本分析技术领域,尤其涉及一种文本类别确定方法和装置。
背景技术
文本可以划分为主观性文本和客观性文本两大类。其中,主观性文本是指对于非事实进行描述的文本,其是带有个人情感和观点的内容抒发。如,主观性文本可以为“银河系好美啊”、“这个电影真是太吸引人了”以及“早餐的豆浆真是太好喝了”等等。客观性文本是指对事实、事件以及事件关系的客观描述,其不带有个人情感和观点。如,客观性文本可以为“银河系有八大行星”、“今天下午看了场电影”以及“今天早晨吃了豆浆和油条”等等。
确定文本的主观性和客观性是很多自然语言处理的必要准备工作。如,文本情绪分析的对象就主观性文本,因此,在对文本进行情绪分析之前,需要识别出主观性文本。然而,目前对于文本的主观性以及客观性分类的研究较少,因此,如何能够确定出文本的主客观性是本领域技术人员迫切需要解决的技术问题。
发明内容
有鉴于此,本申请提供了一种文本类别确定方法和装置,以识别出文本所具有的主客观性。
为实现上述目的,一方面,本申请提供了一种文本类别确定方法,包括:
获取待识别的文本;
将所述文本转换为文本向量;
将所述文本向量输入到预置的主客观分类模型中,获得所述主客观分类模型输出的第一类别评分和第二类别评分,其中,所述第一类别评分用于表征所述文本属于主观性文本的评分,所述第二类别评分用于表征所述文本属于客观性文本的评分,所述主客观分类模型为利用标注有主观性的多个第一文本样本对应的文本向量以及标注有客观性的多个第二文本样本对应的文本向量训练得到;
基于所述第一类别评分和所述第二类别评分,确定所述文本具有的主客观类别,所述主客观类别用于表征所述文本具有主观性或者客观性。
优选的,所述将所述文本转换为文本向量,包括:
依据词与词向量的映射关系,分别将所述文本中各个词映射为词向量;
基于所述文本中各个词映射出的词向量,构建出用于表征所述文本的文本内容的文本向量。
优选的,所述主客观分类模型为基于注意力机制的双向门控循环单元GRU神经网络模型。
优选的,所述获取待识别的文本,包括:
获取待识别的属于视频类型文本的文本,视频类型文本为属于视频中输出的语言文本或者视频关联的弹幕对应的文本;
所述主客观分类模型为利用标注有主观性且属于视频类型文本的多个第一文本样本对应的文本向量以及标注有客观性且属于视频类的多个第二文本样本对应的文本向量训练得到。
优选的,所述主客观分类模型通过如下方式训练得到:
获取网络数据中具有情感类型标签的多个第一类文本以及从事实描述类型的信息中提取的多个第二类文本,所述情感类型标签包括:话题标签、情感符号以及情感表情中的一种或者多种;
在设定所述第一类文本为主观性文本且所述第二类文本为客观性文本的情况下,利用所述多个第一类文本和所述第二类文本训练分类器;
获取多个文本;
利用训练出的所述分类器分别对所述多个文本分类,得到多个具有主观性的第一文本和多个具有客观性的第二文本;
获取用户从所述多个第一文本中筛选出的具有主观性的多个第一文本样本,以及从所述多个第二文本中筛选出的具有客观性的第二文本样本;
确定所述第一文本样本的文本样本向量以及所述第二文本样本的文本样本向量;
利用多个所述第一文本样本的文本样本向量和多个所述第二文本样本的文本样本向量训练主客观分类模型,直至
所述主客观分类模型的分类结果符合要求。
又一方面,本申请还提供了一种文本类别确定装置,包括:
文本获取单元,用于获取待识别的文本;
向量转换单元,用于将所述文本转换为文本向量;
类别评分单元,用于将所述文本向量输入到预置的主客观分类模型中,获得所述主客观分类模型输出的第一类别评分和第二类别评分,其中,所述第一类别评分用于表征所述文本属于主观性文本的评分,所述第二类别评分用于表征所述文本属于客观性文本的评分,所述主客观分类模型为利用标注有主观性的多个第一文本样本对应的文本向量以及标注有客观性的多个第二文本样本对应的文本向量训练得到;
类别确定单元,用于基于所述第一类别评分和所述第二类别评分,确定所述文本具有的主客观类别,所述主客观类别用于表征所述文本具有主观性或者客观性。
优选的,所述向量转换单元,包括:
向量映射单元,用于依据词与词向量的映射关系,分别将所述文本中各个词映射为词向量;
向量构建单元,用于基于所述文本中各个词映射出的词向量,构建出用于表征所述文本的文本内容的文本向量。
优选的,所述类别评分单元所采用的主客观分类模型为基于注意力机制的双向门控循环单元GRU神经网络模型。
优选的,所述文本获取单元,包括:
文本获取子单元,用于获取待识别的属于视频类型文本的文本,视频类型文本为属于视频中输出的语言文本或者视频关联的弹幕对应的文本;
所述类别评分单元中采用的所述主客观分类模型为利用标注有主观性且属于视频类型文本的多个第一文本样本对应的文本向量以及标注有客观性且属于视频类的多个第二文本样本对应的文本向量训练得到。
优选的,还包括:
模型训练单元,用于通过如下方式训练得到所述主客观分类模型:
获取网络数据中具有情感类型标签的多个第一类文本以及从事实描述类型的信息中提取的多个第二类文本,所述情感类别标签包括:话题标签、情感符号以及情感表情中的一种或者多种;
在设定所述第一类文本为主观性文本且所述第二类文本为客观性文本的情况下,利用所述多个第一类文本和所述第二类文本训练分类器;
获取多个文本;
利用训练出的所述分类器分别对所述多个文本分类,得到多个具有主观性的第一文本和多个具有客观性的第二文本;
获取用户从所述多个第一文本中筛选出的具有主观性的多个第一文本样本,以及从所述多个第二文本中筛选出的具有客观性的第二文本样本;
确定所述第一文本样本的文本样本向量以及所述第二文本样本的文本样本向量;
利用多个所述第一文本样本的文本样本向量和多个所述第二文本样本的文本样本向量训练主客观分类模型,直至所述主客观分类模型的分类结果符合要求。
可见,在本申请实施例中,预先训练出主客观分类模型,这样,在将待识别的文本转换为文本向量之后,可以将该文本的文本向量输入到训练出的主客观分类模型中,并通过该主客观分类模型可以得到该文本向量属于主观性的第一类别评分以及属于客观性的第二类别评分,从而基于该第一类别评分和第二类别评分便可以确定该文本所具有的主观性或者客观性,进而为计算机设备识别文本的主客观性提供了可能,也避免了用户凭借经验分析文本的主客观性而导致的人力资源消耗。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请一种文本类别确定方法的一种流程示意图;
图2示出了本申请主客观分类模型的一种训练流程示意图;
图3示出了本申请主客观分类模型的又一种训练流程示意图;
图4示出了本申请一种文本类别确定方法的又一种流程示意图;
图5示出了本申请一种文本类别确定装置的一种组成结构示意图。
具体实施方式
本申请实施例的方案适用于计算机设备确定文本所具有的主客观性,主客观性表征文本属于主观性和客观性中的哪一种。
其中,该计算机设备可以为台式电脑、笔记本电脑、服务器等具有数据处理能力的电子设备。
下面结合附图对本申请实施例的文本类别确定方法进行详细介绍。
如,参见图1,其示出了本申请一种文本类别确定方法一个实施例的流程示意图,本实施例的方法可以应用于前面提到的计算机设备,本实施例的方法可以包括:
S101,获取待识别的文本。
其中,文本可以包括一个词组、一个句子或者一个段落等等。
待识别的文本为待分析该文本属于客观性还是主观性的文本。
在本申请实施例中,待识别的文本可以根据需要为任意类型的文本。如,从网络数据中获取到的文本,例如,一些论坛、公众号或者网络文章中提取到的文本。该文本还可以为是多媒体中提取出的与多媒体关联的多媒体类型文本,如,多媒体类型文本至少可以包括与视频相关的视频类型文本,以及与音频关联的音频类型文本,例如,音频类型文本可以为歌曲等音频中输出的歌词、文字或者歌曲播放界面中的弹幕对应的文本。相应的,视频类型文本为属于视频中输出的语言文本(如,台词等文字)或者视频关联的弹幕对应的文本。
S102,将该文本转换为文本向量。
其中,文本向量为由该文本转换出的向量。
其中,由文本转换为文本向量的具体实现方式可以有多种。如,可以按照特定的映射关系,将文本映射为文本向量。
在一种可能的实现方式中,可以依据词与词向量的映射关系,分别将该文本中各个词映射为词向量,然后,基于该文本中各个词映射出的词向量,构建出用于保证该文本的内容的文本向量。其中,该文本向量可以是该文本中各个词映射出的词向量所组成的向量矩阵。
可以理解的是,词与词向量的映射关系可以通过训练词向量模型得到。具体的,在训练词向量模型的过程中,会不断调整词与词向量的映射关系,相应的,在完成该词向量模型的训练时,可以获取当前所确定出的不同词与词向量的映射关系。
其中,任意对词向量模型的训练过程均适用于本实施例,本申请对此不加限制。
可以理解的是,在不同应用场景下,待识别的文本中文本内容所属于的领域也会有所不同,如前面所述,文本可以是网络数据相关的文本,也可以是音视频等多媒体相关的文本。为了能够使得文本向量能够更为准确的反映出文本中语义内容,本申请还可以针对待识别的文本所属的领域,采用该领域内相关的文本样本来训练该词向量模型,以得到与该领域相关的词与词向量的映射关系。
如,以需要对视频类型文本进行识别的场景为例,则可以预先获取属于视频类型文本的多个文本样本。然后,利用属于视频类型文本的多个文本样本分别训练词向量模型,并在词向量模型训练完成时,获取当前确定出的词与词向量的映射关系。
S103,将该文本向量输入到预置的主客观分类模型中,获得该主客观分类模型输出的第一类别评分和第二类别评分。
该主客观分类模型为利用标注有主观性的多个第一文本样本对应的文本向量,以及标注有客观性的多个第二文本样本对应的文本向量训练得到。
其中,主客观分类模型用于基于该文本向量,确定该文本向量对应的文本属于主观性以及客观性的可能性。相应的,该第一类别评分用于表征该文本属于主观性文本的评分,该第二类别评分用于表征该文本属于客观性文本的评分。
如,该主客观分类模型可以输出文本属于主观性以及客观性这两个类别的置信度分数,其中,属于主观性的置信度分数就是该第一类别评分;而属于客观性的置信度分数就属于第二类别评分。
可以理解的是,在本申请实施例中,该主客观分类模型可以为通过对神经网络模型或者其他类型的模型训练得到。
可选的,考虑到精准度的要求,本申请实施例中该主客观分类模型可以为基于注意力机制的双向门控循环单元(Gate Recurrent Unit,GRU)神经网络模型。相应的,该注意力机制的双向门控循环单元也是通过多个主观性的第一文本样本各自对应的文本向量以及多个客观性的第二文本样本对应的文本向量训练得到。
S104,基于该第一类别评分和第二类别评分,确定该文本具有的主客观类别。
其中,该主客观类别用于表征该文本具有主观性或者客观性。
如,如果第一类别评分大于第二类别评分,则确认文本具有的主客观类别为主观性;如果该第二类别评分不大于该第二类别评分,则确定该文本具有的主客观类型为客观性。
在本申请实施例中,预先训练出主客观分类模型,这样,在将待识别的文本转换为文本向量之后,可以将该文本的文本向量输入到训练出的主客观分类模型中,并通过该主客观分类模型可以得到该文本向量属于主观性的第一类别评分以及属于客观性的第二类别评分,从而基于该第一类别评分和第二类别评分便可以确定该文本所具有的主观性或者客观性,进而为计算机设备识别文本的主客观性提供了可能,也避免了用户凭借经验分析文本的主客观性而导致的人力资源消耗。
同时,本申请通过对神经网络模型等模型进行训练得到客观分类模型,从而可以保证基于该客观分类模型可以识别文本所具有的主观性或者客观性的准确性。
进一步的,在基于本申请准确识别出文本所具有的主客观类别之后,可以有利于准确分析出属于主观性的文本,从而可以基于主观性的文本进行文本情感识别,进而有利于提高文本情感识别的准确性。
为了便于理解本申请中主客观分类模型的训练过程,下面以主客观分类模型为基于注意力机制的双向GRU神经网络模型为例,对训练该主客观分类模型的过程进行简单介绍。
如图2,其示出了本申请一种训练基于注意力机制的双向GRU神经网络模型的一种流程示意图,该流程包括:
S201,获取属于主观性的多个第一文本样本以及属于客观性的多个第二文本样本。
如,可以预先筛选出主客观类型确定的文本,并将具有主观性的文本作为第一文本样本,将具有客观性的文本作为第二文本样本。
例如,可以从网络数据中选取出具有话题标签或者情感表情等情感标签的文本,由于该类文本都属于带有个人情感的文本,可以将该类文本作为主观性的文本样本。相应的,考虑到新闻类型或者科普类文章中的文本内容都属于基于事实的描述,因此,可以从新闻类型以及科普类文章中提取多个文本作为具有客观性的第二文本样本。当然,在实际应用中,还可以结合人工筛选以最终得到训练所需的第一文本样本和第二文本样本。
S202,确定该第一文本样本的文本样本向量以及该第二文本样本的文本样本向量。
为了便于区分,将第一文本样本和第二文本样本转换出的向量称为文本样本向量。
其中,将第一文本样本转换为文本样本向量的过程与前面将待识别的文本转换为向量的过程相似。如,可以基于训练词向量模型中确定出的词与词向量的对应关系,将第一文本样本中各个词映射为词向量,并基于第一文本样本中各个词所映射出的词向量组成表征该第一文本样本的文本样本向量。相应的,第二文本样本的文本样本向量的确定过程也相似,在此不再赘述。
S203,利用多个第一文本样本对应的文本样本向量和多个第二文本样本对应的文本样本向量训练基于注意力机制的双向GRU神经网络模型,直至该基于注意力机制的双向GRU神经网络模型的分类结果符合要求。
其中,该步骤S203会多次重复执行,每次重复执行一次,则会调整该基于注意力机制的双向GRU神经网络模型的内部参数,并重新训练,直至最终训练完成。
如,针对每个第一文本样本,可以将该第一文本样本输入到待训练的基于注意力机制的双向GRU神经网络模型中,得到该基于注意力机制的双向GRU神经网络模型输出的该第一文本样本属于主观性的置信分数以及该第一文本样本属于客观性的置信分数;如果该基于注意力机制的双向GRU神经网络模型预测该第一文本样本属于主观性的置信分数大于预测出的该第一文本样本属于客观性的置信分数,则确认该基于注意力机制的双向GRU神经网络模型对该第一文本样本的预测结果是准确的。
相应的,针对每个第二文本样本,将该第二文本样本输入到待训练的基于注意力机制的双向GRU神经网络模型中,得到该基于注意力机制的双向GRU神经网络模型输出的该第二文本样本属于主观性的置信分数以及该第二文本样本属于客观性的置信分数;如果该基于注意力机制的双向GRU神经网络模型预测该第二文本样本属于客观性的置信分数大于预测出的该第二文本样本属于主观性的置信分数,则确认该基于注意力机制的双向GRU神经网络模型对该第二文本样本的预测结果是准确的。
在以上基础上,针对各个第一文本样本和第二文本样本,可以统计该基于注意力机制的双向GRU神经网络模型对所有文本样本的预测结果的精准程度,如果精准程度超过设定阈值,则认为该基于注意力机制的双向GRU神经网络模型训练完成;否则,则需要调整该基于注意力机制的双向GRU神经网络模型的内部参数并重复以上操作进行训练。
其中,该基于注意力机制的双向GRU神经网络模型对所有文本样本的预测结果的精准程度可以结合预设的损失函数确定,具体可以根据需要设定,对此本申请不加限制。
需要说明的是,本实施例是以主客观分类模型为基于注意力机制的双向GRU神经网络模型为例对训练过程进行介绍,但是可以理解的是,在主客观分类模型为其他神经网络模型或者其他类型模型的情况下,其训练过程与以上过程相似,在此不再赘述。
可以理解的是,为了提高主客观分类模型对文本进行主客观分类的精准度,可以结合所需识别的文本的领域,采用相应领域的主观性文本样本以及客观性文本样本来训练该主客观分类模型。
如,以对视频类型文本的文本进行分类识别的场景为例,则该主客观分类模型为利用标注有主观性且属于视频类型文本的第一文本样本对应的文本向量以及多个标注有客观性且属于视频类的第二文本样本对应的文本向量训练得到。
可以理解的是,由于人工收集以及分类主观性文本样本和客观性文本样本的复杂度较高,为了提高样本收集的速度以及准确性,本申请还可以通过训练分类器,以结合该分类器准确、快速的出主观性文本样本和客观性样本。
如,参见图3,其示出了本申请主客观分类模型的又一种训练过程示意图,该训练流程可以包括:
S301,获取网络数据中具有情感类型标签的多个第一类文本以及从事实描述类型的信息中提取的多个第二类文本。
其中,情感类别标签包括:话题标签、情感符号以及情感表情中的一种或者多种。如,通过“#”携带有一些话题标志的文本,或者携带或者标有微笑、生气等表情的符号或者表情图片的文本等等。
为了便于区分,将具有情感类型标签的文本称为第一类文本,该类文本的特点就是携带有个人情感以及主观感受,因此,该类文本可以属于主观性的文本。
其中,事实描述类型的信息是指客观描述事情的文章、文档等等,如事实描述类型的信息可以为新闻类以及科普类的文本,该类文本可以被称为第二类文本,该类文本一般是对事件以及事件关系的陈述,并不涉及到个人情感,因此,该类文本属于客观性的文本。
S302,在设定该第一类文本为主观性文本且该第二类文本为客观性文本的情况下,利用该多个第一类文本和所述第二类文本训练分类器。
该分类器可以为现有的任意类型的分类器,如,贝叶斯分类器等。
利用主观性的文本样本和客观性的文本样本可以对分类器进行多次训练,直至训练出符合要求的分类器。
可以理解的是,由于该分类器仅仅是利用网络数据中获取到的文本训练得到,因此,通过该分类器可以对后续获取到的视频类型文本进行分类,以辅助得到具有主观性的视频类型文本以及具有客观性的视频类型文本。
S303,获取属于视频类型文本的多个视频文本。
其中,视频类型文本可以参见前面的介绍,即与视频中输出的台词、文字以及弹幕对应的文本。为了便于区分,将属于视频类型的文本称为视频文本。
S304,利用训练出的分类器分别对多个视频文本分类,得到多个具有主观性的第一视频文本和多个具有客观性的第二视频文本。
可以理解的是,在实际应用中,训练模型所需要的样本数量较多,因此,在步骤S303中获取到的视频文本的数量也会较大,在此基础上,如果由人工直接分析并标注视频文本属于客观性文本还是主观性文本,则需要耗费较长时间,消耗的时间以及人力资源都较多。
而本申请利用已经训练出的该分类器则可以对各个视频文本进行分类,得到每个视频文本属于客观性还是主观性。
可以理解的是,在实际应用中,当部分视频文本输入分类器之后,分类器可能会识别出该视频文本既不属于客观性文本,也不属于主观性文本,在该种情况下,则该类视频文本则不可能被用于作为训练样本。但是,考虑到该分类器的精准度可能会较低,为了保证较高的召回率,可以将该分类器的阈值设置的相对较低,这样,可以保证大部分视频文本都可以被分类为主观性文本或者客观性文本,后续再通过人工进一步剔除分析错误的视频文本。
S305,获取用户从该多个第一视频文本中筛选出的具有主观性的多个第一文本样本,以及从该多个第二视频文本中筛选出的具有客观性的第二文本样本。
可以理解的是,人工直接判断第一视频文本是否属于主观性所需耗费的时间,比人工分析该第一视频文本是主观性还是客观性文本所需的时间要高,这样,在通过步骤S304分类出具有主观性的多个第一视频文本之后,再由人工剔除分类错误的第一视频样本,就可以得到多个具有主观性的第一文本样本。相应的,获得第二文本样本的过程类似,在此不再赘述。
在以上步骤S301到S305为训练用于分析视频文本的主客观分类模型所需的训练样本的收集过程。
需要说明的是,本实施例是以训练适用于视频类文本的主客观分类模型为例说明,但是可以理解的是,如果不限定主客观分类模型所适用的文本,该步骤S303可以为获取多个文本,该多个文本可以为任意类型的文本。相应的,步骤S304和S305中可以是利用分类器对多个文本分类,得到具有主观性的第一文本和具有客观性的第二文本,并获取用户从多个第一文本中筛选出的多个第一文本样本,以及从多个第二文本中筛选出第二文本样本。
S306,确定该第一文本样本的文本样本向量以及该第二文本样本的文本样本向量。
S307,利用多个第一文本样本的文本样本向量和多个第二文本样本的文本样本向量训练主客观分类模型,直至该主客观分类模型的分类结果符合要求。
该步骤S306和S307可以参见前面实施例中的相关介绍,在此不再赘述。
为了便于完整本申请的方案,下面以待识别的文本为视频类型文本,且主客观分类模型为基于注意力机制的双向GRU神经网络模型为例对本申请的文本类别确定方法进行介绍。
如图4,其示出了本申请一种文本类别确定方法的又一个实施例的流程示意图,本实施例的方法可以包括:
S401,获取待识别的属于视频类型文本的文本。
其中,该视频类型文本为属于视频中输出的语言文本或者视频关联的弹幕对应的文本。
S402,依据词与词向量的映射关系,分别将该文本中各个词映射为词向量。
S403,基于该文本中各个词映射出的词向量,构建出用于表征该文本的文本内容的文本向量。
S404,将该文本向量输入到预先训练得到的基于注意力机制的双向GRU神经网络模型中,并获得基于注意力机制的双向GRU神经网络模型输出的该文本属于主观性的第一类别评分以及该文本属于客观性的第二类别评分。
其中,该主客观分类模型为利用标注有主观性且属于视频类型文本的第一文本样本对应的文本向量以及标注有客观性且属于视频类的多个第二文本样本对应的文本向量训练得到。
S405,如果该第一类别评分大于该第二类别评分,则确定该文本属于主观性文本。
S406,如果该第二类别评分不大于该第二类别评分,则确定该文本属于客观性文本。
对应本申请的一种文本类别确定方法,本申请还提供了一种文本类别确定装置。
如,参见图5,其示出了本申请一种文本类别确定装置的一种组成结构示意图,本实施例的装置可以包括:
文本获取单元501,用于获取待识别的文本;
向量转换单元502,用于将所述文本转换为文本向量;
类别评分单元503,用于将所述文本向量输入到预置的主客观分类模型中,获得所述主客观分类模型输出的第一类别评分和第二类别评分,其中,所述第一类别评分用于表征所述文本属于主观性文本的评分,所述第二类别评分用于表征所述文本属于客观性文本的评分,所述主客观分类模型为利用标注有主观性的多个第一文本样本对应的文本向量以及标注有客观性的多个第二文本样本对应的文本向量训练得到;
类别确定单元504,用于基于所述第一类别评分和所述第二类别评分,确定所述文本具有的主客观类别,所述主客观类别用于表征所述文本具有主观性或者客观性。
可选的,所述类别评分单元所采用的主客观分类模型为基于注意力机制的双向门控循环单元GRU神经网络模型。
在一种可能的实现方式中,所述向量转换单元可以包括:
向量映射单元,用于依据词与词向量的映射关系,分别将所述文本中各个词映射为词向量;
向量构建单元,用于基于所述文本中各个词映射出的词向量,构建出用于表征所述文本的文本内容的文本向量。
在一种可能的实现方式中,在以上装置的实施例中,所述文本获取单元可以包括:
文本获取子单元,用于获取待识别的属于视频类型文本的文本,视频类型文本为属于视频中输出的语言文本或者视频关联的弹幕对应的文本;
相应的,所述类别评分单元中采用的所述主客观分类模型为利用标注有主观性且属于视频类型文本的多个第一文本样本对应的文本向量以及标注有客观性且属于视频类的多个第二文本样本对应的文本向量训练得到。
可选的,该装置还可以包括:
模型训练单元,用于通过如下方式训练得到所述主客观分类模型:
获取网络数据中具有情感类型标签的多个第一类文本以及从事实描述类型的信息中提取的多个第二类文本,所述情感类别标签包括:话题标签、情感符号以及情感表情中的一种或者多种;
在设定所述第一类文本为主观性文本且所述第二类文本为客观性文本的情况下,利用所述多个第一类文本和所述第二类文本训练分类器;
获取多个文本;
利用训练出的所述分类器分别对所述多个文本分类,得到多个具有主观性的第一文本和多个具有客观性的第二文本;
获取用户从所述多个第一文本中筛选出的具有主观性的多个第一文本样本,以及从所述多个第二文本中筛选出的具有客观性的第二文本样本;
确定所述第一文本样本的文本样本向量以及所述第二文本样本的文本样本向量;
利用多个所述第一文本样本的文本样本向量和多个所述第二文本样本的文本样本向量训练主客观分类模型,直至所述主客观分类模型的分类结果符合要求。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本类别确定方法,其特征在于,包括:
获取待识别的文本;
将所述文本转换为文本向量;
将所述文本向量输入到预置的主客观分类模型中,获得所述主客观分类模型输出的第一类别评分和第二类别评分,其中,所述第一类别评分用于表征所述文本属于主观性文本的评分,所述第二类别评分用于表征所述文本属于客观性文本的评分,所述主客观分类模型为利用标注有主观性的多个第一文本样本对应的文本向量以及标注有客观性的多个第二文本样本对应的文本向量训练得到;
基于所述第一类别评分和所述第二类别评分,确定所述文本具有的主客观类别,所述主客观类别用于表征所述文本具有主观性或者客观性。
2.根据权利要求1所述的文本类别确定方法,其特征在于,所述将所述文本转换为文本向量,包括:
依据词与词向量的映射关系,分别将所述文本中各个词映射为词向量;
基于所述文本中各个词映射出的词向量,构建出用于表征所述文本的文本内容的文本向量。
3.根据权利要求1所述的文本类别确定方法,其特征在于,所述主客观分类模型为基于注意力机制的双向门控循环单元GRU神经网络模型。
4.根据权利要求1所述的文本类别确定方法,其特征在于,所述获取待识别的文本,包括:
获取待识别的属于视频类型文本的文本,视频类型文本为属于视频中输出的语言文本或者视频关联的弹幕对应的文本;
所述主客观分类模型为利用标注有主观性且属于视频类型文本的多个第一文本样本对应的文本向量以及标注有客观性且属于视频类的多个第二文本样本对应的文本向量训练得到。
5.根据权利要求1至4任一项所述的文本类别确定方法,其特征在于,所述主客观分类模型通过如下方式训练得到:
获取网络数据中具有情感类型标签的多个第一类文本以及从事实描述类型的信息中提取的多个第二类文本,所述情感类型标签包括:话题标签、情感符号以及情感表情中的一种或者多种;
在设定所述第一类文本为主观性文本且所述第二类文本为客观性文本的情况下,利用所述多个第一类文本和所述第二类文本训练分类器;
获取多个文本;
利用训练出的所述分类器分别对所述多个文本分类,得到多个具有主观性的第一文本和多个具有客观性的第二文本;
获取用户从所述多个第一文本中筛选出的具有主观性的多个第一文本样本,以及从所述多个第二文本中筛选出的具有客观性的第二文本样本;
确定所述第一文本样本的文本样本向量以及所述第二文本样本的文本样本向量;
利用多个所述第一文本样本的文本样本向量和多个所述第二文本样本的文本样本向量训练主客观分类模型,直至所述主客观分类模型的分类结果符合要求。
6.一种文本类别确定装置,其特征在于,包括:
文本获取单元,用于获取待识别的文本;
向量转换单元,用于将所述文本转换为文本向量;
类别评分单元,用于将所述文本向量输入到预置的主客观分类模型中,获得所述主客观分类模型输出的第一类别评分和第二类别评分,其中,所述第一类别评分用于表征所述文本属于主观性文本的评分,所述第二类别评分用于表征所述文本属于客观性文本的评分,所述主客观分类模型为利用标注有主观性的多个第一文本样本对应的文本向量以及标注有客观性的多个第二文本样本对应的文本向量训练得到;
类别确定单元,用于基于所述第一类别评分和所述第二类别评分,确定所述文本具有的主客观类别,所述主客观类别用于表征所述文本具有主观性或者客观性。
7.根据权利要求6所述的文本类别确定装置,其特征在于,所述向量转换单元,包括:
向量映射单元,用于依据词与词向量的映射关系,分别将所述文本中各个词映射为词向量;
向量构建单元,用于基于所述文本中各个词映射出的词向量,构建出用于表征所述文本的文本内容的文本向量。
8.根据权利要求6所述的文本类别确定装置,其特征在于,所述类别评分单元所采用的主客观分类模型为基于注意力机制的双向门控循环单元GRU神经网络模型。
9.根据权利要求1所述的文本类别确定装置,其特征在于,所述文本获取单元,包括:
文本获取子单元,用于获取待识别的属于视频类型文本的文本,视频类型文本为属于视频中输出的语言文本或者视频关联的弹幕对应的文本;
所述类别评分单元中采用的所述主客观分类模型为利用标注有主观性且属于视频类型文本的多个第一文本样本对应的文本向量以及标注有客观性且属于视频类的多个第二文本样本对应的文本向量训练得到。
10.根据权利要求6至9任一项所述的文本类别确定装置,其特征在于,还包括:
模型训练单元,用于通过如下方式训练得到所述主客观分类模型:
获取网络数据中具有情感类型标签的多个第一类文本以及从事实描述类型的信息中提取的多个第二类文本,所述情感类别标签包括:话题标签、情感符号以及情感表情中的一种或者多种;
在设定所述第一类文本为主观性文本且所述第二类文本为客观性文本的情况下,利用所述多个第一类文本和所述第二类文本训练分类器;
获取多个文本;
利用训练出的所述分类器分别对所述多个文本分类,得到多个具有主观性的第一文本和多个具有客观性的第二文本;
获取用户从所述多个第一文本中筛选出的具有主观性的多个第一文本样本,以及从所述多个第二文本中筛选出的具有客观性的第二文本样本;
确定所述第一文本样本的文本样本向量以及所述第二文本样本的文本样本向量;
利用多个所述第一文本样本的文本样本向量和多个所述第二文本样本的文本样本向量训练主客观分类模型,直至所述主客观分类模型的分类结果符合要求。
CN201910492105.6A 2019-06-06 2019-06-06 文本类别确定方法和装置 Pending CN110209821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910492105.6A CN110209821A (zh) 2019-06-06 2019-06-06 文本类别确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910492105.6A CN110209821A (zh) 2019-06-06 2019-06-06 文本类别确定方法和装置

Publications (1)

Publication Number Publication Date
CN110209821A true CN110209821A (zh) 2019-09-06

Family

ID=67791400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910492105.6A Pending CN110209821A (zh) 2019-06-06 2019-06-06 文本类别确定方法和装置

Country Status (1)

Country Link
CN (1) CN110209821A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126071A (zh) * 2019-12-02 2020-05-08 支付宝(杭州)信息技术有限公司 提问文本数据的确定方法、装置和客服群的数据处理方法
CN112347245A (zh) * 2020-09-29 2021-02-09 徐佳慧 面向投融资领域机构的观点挖掘方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
US20180225280A1 (en) * 2017-02-03 2018-08-09 Benedict R. Dugan Systems and methods for improved text classification
CN108595477A (zh) * 2018-03-12 2018-09-28 北京奇艺世纪科技有限公司 一种视频数据的处理方法和装置
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
US20180225280A1 (en) * 2017-02-03 2018-08-09 Benedict R. Dugan Systems and methods for improved text classification
CN108595477A (zh) * 2018-03-12 2018-09-28 北京奇艺世纪科技有限公司 一种视频数据的处理方法和装置
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126071A (zh) * 2019-12-02 2020-05-08 支付宝(杭州)信息技术有限公司 提问文本数据的确定方法、装置和客服群的数据处理方法
CN111126071B (zh) * 2019-12-02 2023-05-12 支付宝(杭州)信息技术有限公司 提问文本数据的确定方法、装置和客服群的数据处理方法
CN112347245A (zh) * 2020-09-29 2021-02-09 徐佳慧 面向投融资领域机构的观点挖掘方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN109785698B (zh) 用于口语水平评测的方法、装置、电子设备以及介质
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
US11380300B2 (en) Automatically generating speech markup language tags for text
CN110020424A (zh) 合同信息的提取方法、装置和文本信息的提取方法
CN110457432A (zh) 面试评分方法、装置、设备及存储介质
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN107133303A (zh) 用于输出信息的方法和装置
CN108090099B (zh) 一种文本处理方法及装置
Kaushik et al. Automatic sentiment detection in naturalistic audio
CN108763539A (zh) 一种基于词性分类的文本分类方法和系统
CN109800309A (zh) 课堂话语类型分类方法及装置
CN110851650B (zh) 一种评论输出方法、装置、以及计算机存储介质
CN107221344A (zh) 一种语音情感迁移方法
CN112732910B (zh) 跨任务文本情绪状态评估方法、系统、装置及介质
CN108090098B (zh) 一种文本处理方法及装置
CN103123636A (zh) 建立词条分类模型的方法、词条自动分类的方法和装置
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN110209821A (zh) 文本类别确定方法和装置
CN108280065A (zh) 一种外文文本评价方法及装置
CN115422947A (zh) 一种基于深度学习的古诗词配乐方法及系统
Hu [Retracted] Music Emotion Research Based on Reinforcement Learning and Multimodal Information
CN110019556A (zh) 一种话题新闻获取方法、装置及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190906