CN111460162B - 一种文本分类方法、装置、终端设备及计算机可读存储介质 - Google Patents

一种文本分类方法、装置、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111460162B
CN111460162B CN202010281976.6A CN202010281976A CN111460162B CN 111460162 B CN111460162 B CN 111460162B CN 202010281976 A CN202010281976 A CN 202010281976A CN 111460162 B CN111460162 B CN 111460162B
Authority
CN
China
Prior art keywords
text data
text
genre
classification
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010281976.6A
Other languages
English (en)
Other versions
CN111460162A (zh
Inventor
关培培
石聪
赵诗阳
赵喆
朱经南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Science And Technology Daily
Original Assignee
Science And Technology Daily
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Science And Technology Daily filed Critical Science And Technology Daily
Priority to CN202010281976.6A priority Critical patent/CN111460162B/zh
Publication of CN111460162A publication Critical patent/CN111460162A/zh
Application granted granted Critical
Publication of CN111460162B publication Critical patent/CN111460162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于自然语言处理技术领域,提供一种文本分类方法、装置、终端设备及计算机可读存储介质,方法包括:对原始文本数据进行预处理,获取待分类的文本数据;采用二分类模型获取文本数据的文体信息,并根据文体信息确定文本数据的文体类型;若文本数据属于第一文体类型,则采用BERT模型对文本数据进行处理,获取文本数据对应的字向量序列;采用文本分类模型对字向量序列进行处理,以获取文本数据的分类结果。本发明充分考虑了文体的不同,采用二分类模型对文本数据进行分类,对于不同文体类别的文本数据采用不同的方式进行文本分类,文本分类任务更加清晰,同时采用BERT模型对文本数据进行处理,有效提高了文本分类效率和准确性。

Description

一种文本分类方法、装置、终端设备及计算机可读存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本分类方法、装置、终端设备及计算机可读存储介质。
背景技术
随着网络信息技术的高速发展和传统纸媒行业逐渐向信息化媒体的转型,网络中的新闻信息越来越多,其中大部分新闻信息以文本形式存在。为了更好地对新闻文本进行审核,同时也为了使得用户在获取新闻文本时能够更加便捷,通常需要对新闻文本进行分类。
传统的新闻文本分类主要通过手工分类的方式进行,然而,采用手工进行新闻文本分类需要耗费大量的人力和物力,分类速度不高,且分类的结果往往存在偏差,准确率不高。尤其是在数据大爆炸的今天,新闻的生成速度远超过人类手工可以处理的速度。因此利用计算机进行文本自动分类,从而对海量新闻文本进行挖掘处理成为了当前的发展方向,且重要性越来越高。
文本自动分类是指在给定分类体系的前提下,利用机器学习的方式对文本的内容进行分析,从而自动确定文本类别的过程。然而,目前在对新闻文本进行分类时,通常是采用统一文本分类模型对所有的新闻文本进行分类,而没有考虑到不同类型的新闻文本之间的差别,导致新闻文本的内容识别准确度不高,进而导致新闻文本的分类效果不佳。
发明内容
有鉴于此,本发明实施例提供了一种文本分类方法、装置、终端设备及计算机可读存储介质,以解决现有技术中由于未考虑到不同类型的新闻文本之间的差别导致新闻文本的分类效果不佳的技术的问题。
本发明实施例的第一方面提供了一种文本分类方法,包括:
对采集的原始文本数据进行预处理,获取待分类的文本数据;
采用二分类模型获取所述文本数据的文体信息,并根据所述文体信息确定所述文本数据的文体类型,所述文体类型包括第一文体类型和第二文体类型;
若所述文本数据属于所述第一文体类型,则采用BERT模型对所述文本数据进行处理,获取所述文本数据对应的字向量序列;
采用文本分类模型对所述字向量序列进行处理,以获取所述文本数据的分类结果。
本发明实施例的第二方面提供了一种文本分类装置,包括:
文本数据获取模块,用于对采集原始文本数据进行预处理,获取待分类的文本数据;
文体类型确定模块,用于采用二分类模型获取所述文本数据的文体信息,并根据所述文体信息确定所述文本数据的文体类型,所述文体类型包括第一文体类型和第二文体类型;
BERT模型处理模块,用于若所述文本数据属于所述第一文体类型,则采用BERT模型对所述文本数据进行处理,获取所述文本数据对应的字向量序列;
第一分类模型处理模块,用于采用文本分类模型对所述字向量序列进行处理,以获取所述文本数据的分类结果。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的文本分类方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本分类方法的步骤。
本发明实施例与现有技术相比存在的有益效果至少在于:
(1)本发明实施例充分考虑了文本文体的不同,在获取了文本数据后,首先采用二分类模型根据文体信息对文本数据进行二分类,对于不同文体类别的文本数据采用不同的方式进行文本分类,使得文本分类任务更加清晰,不仅有效提高了文本分类效率,而且有助于提高文本内容的识别准确度,改善文本分类效果。
(2)对于属于第一文体类型文本数据,本发明实施例采用BERT模型对所述文本数据进行处理,获得的字向量序列中包含了文本数据的文本信息以及上下文信息,因此其融合了全文语义信息,包含的文本信息更全面,更有利于后续的文本分类,从而有助于提高文本分类的准确性,改善分类效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的文本分类方法的实现流程示意图;
图2是本发明实施例提供的文本分类方法中对采集原始文本数据进行预处理的实现流程示意图;
图3是本发明实施例提供的文本分类方法中采用二分类模型获取所述文本数据的文体信息,并根据所述文体信息确定所述文本数据的文体类型的实现流程示意图;
图4是本发明实施例提供的文本分类方法中采用BERT模型对所述文本数据进行处理的实现流程示意图;
图5是本发明实施例提供的文本分类装置的示意图;
图6是本发明实施例提供的文本分类装置中文本数据获取模块的示意图;
图7是本发明实施例提供的文本分类装置中文体类型确定模块的示意图;
图8是本发明实施例提供的文本分类装置中BERT模型处理模块的示意图;
图9是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1是本发明实施例提供的一种文本分类方法的实现流程示意图。可以理解的是,本发明实施例提供的文本分类方法可以应用于任何类型的文本,例如新闻文本等,此处不做限制。以下以新闻文本为例进行说明。
新闻是及时简明地报道新近发生的有社会意义并引起公众兴趣的重要事实的一种文体。新闻一般采用客观报道的形式,常用叙述手法,有时也适当进行一些描写,以增强具体性和现场感。广义的新闻文体通常包括消息、通讯、新闻评论、新闻特写、调查报告以及专访等。
消息指的是报道事情的概貌而不讲详细的经过和细节,以简要的语言文字迅速传播新近事实的新闻体裁,也是最广泛、最经常采用的新闻基本体裁。消息主要包括动态消息、典型消息、综合性消息、评述性消息、简明消息以及人物消息。动态消息是迅速而准确地报道就近发生的国际、国内重大事件、重要活动和各项建设中最新出现的新情况、新动态、新成就、新问题的一种文体。典型消息是对一些具体部门、单位、行业的典型经验、成功做法集中报道的一种文体。综合性消息是把发生在不同地点、不同单位、各具特色、消息性质相同的事实综合在一起,并体现一个主题进行报道的一种文体。评述性消息又称记者评述、新闻评述,是一种兼有消息和评论作用的新闻,其在陈述事实的基础上,穿插评论和抒发感慨,从而分析说明所报道事实的本质和意义。简明消息又称简讯,是篇幅特别短小的动态消息。人物消息是用消息的形式报道具有新闻价值的人物,一般篇幅小、及时、迅速。
通讯是运用叙述、描写、抒情、议论等多种手法,具体、生动、形象地反映新闻事件或典型人物的一种新闻报道形式,主要包括人物通讯、事件通讯、工作通讯、风貌通讯、社会观察通讯、小通讯等。人物通讯是以人物的思想、言行、事迹和命运为报道内容的通讯。事件通讯是以具有典型意义的事件为报道对象的通讯,其时效性较强,围绕中心事件选材,虽不着力刻画人物,但是往往通过典型事件表现一群人或一个群体。工作通讯通常传播典型经验和做法,例如介绍某单位的先进事迹,以指导一般的通讯。风貌通讯是以采访者旅行见闻的视角反映社会变化和风土人情的通讯。社会观察通讯是报道社会现象、剖析社会问题的通讯。小通讯是一种篇幅短小、内容单一、情节生动的小型通讯。
新闻评论是针对新闻评论现实生活中的重大问题、新闻事件直接发表意见、阐明观点、表明态度的一种以说理为主的论说文体。按评述内容来分,新闻评论主要包括政治评论、军事评论、经济评论、社会评论、文化评论、文艺评论以及国际评论等;按作者身份来分,新闻评论主要包括社论(包括本报编辑部文章)、评论、本报评论员文章(包括特约评论员文章)、短评、编后、编者按、思想评论、专栏评论、新闻述评、漫谈、随感、杂文等。
新闻特写是作者深入事件新闻现场采写的一种现场感较强、篇幅较短小精悍的新闻文体,主要包括人物特写、事件特写、场面特写、景物特写、工作特写、杂记性特写等。人物特写是以新闻人物为对象的特写,要求精彩地刻画人物形象,将人物的行为和精神境界表现出来。事件特写是新闻事件的形象化报道,其抓取事件的关键性场面、典型情节、富有特征的片段或事件发展的高潮,集中描绘,突出地加以再现。场面特写是对新闻事件中精彩场面的再现。景物特写是对于有特殊意义或有价值的罕见景物的描写。工作特写是对于某一工作场面的生动再现。杂记性特写是对各种具有特写价值的新闻现场的生动再现。
调查报告是对特定对象进行深入考察了解的基础上,经过准确的归纳整理,揭示事物的本质,得出符合实际的结论,主要包括介绍典型经验的调查报告、揭露问题的调查报告、反映新生事物的调查报告以及社会情况的调查报告等。介绍典型经验的调查报告与工作通讯中以反映工作成绩为主的类型近似,区别在于调查报告重在调查,特别注重对调查过程和调查所得数据的叙述和列举。揭露问题的调查报告是针对某一存在的问题展开调查,以揭示这一问题的种种现象和深层原因为主要目的调查报告。反映新生事物的调查报告是针对社会现实中某种新近产生或新近有了长足发展的事物而写的调查报告。社会情况的调查报告是针对一些社会情况所写的调查报告。
专访是记者同人物的谈话为主取得直接材料并穿插背景材料而成的一种特殊通讯,主要包括人物专访、事件专访、科学专访、问题专访等。人物专访是对一个特定人物的正式访问,是专门报道这个被采访对象的。事件专访是指记述某些新闻事件和特殊意义、内幕情况或者澄清事实真相的专题访问。科学专访是关于科学记述类的专题报道。问题专访是记者带着社会生活问题和实际工作中人们共同关心和迫切需要解决的问题作的专题采访。
新闻文体类型众多,而不同文体之间的差别较大,为了更好地对新闻文本进行审核,同时也为了使得用户在获取新闻文本时能够更加便捷,通常需要对新闻文本进行分类。而目前在对新闻文本进行分类时,常见的方式包括人工手动分类以及文本自动分类。其中,人工手动分类需要耗费大量的人力和物力,分类速度不高,且分类的结果往往存在偏差,准确率不高;文本自动分类又没有充分考虑不同新闻文体之间的差别,而是采用统一文本分类模型对所有的新闻文本进行处理,不利于对新闻文本的内容的识别,同时也无法根据不同的分类目的进行识别,导致新闻文本的内容识别准确度不高,分类效果不佳。
本实施例则提出了一种完全不同的文本分类方法,其充分考虑了新闻文体的不同,在获取了文本数据后,首先根据文体信息对文本数据进行二分类,对于不同文体类别的文本数据采用不同的方式进行文本分类,不仅有效提高了文本分类效率,而且有助于提高文本内容的识别准确度,改善文本分类效果。
请参阅图1,本发明实施例提供的文本分类方法包括如下步骤:
步骤S10:对采集的原始文本数据进行预处理,获取待分类的文本数据。
在进行文本分类前,需要先获取原始文本数据,并需要对原始文本数据进行处理,以使得获得的文本数据能够用于分类模型进行进一步的处理。请参阅图2,在本实施例中,步骤S10可以包括如下步骤:
步骤S101:采集原始文本数据。在本实施例中,原始文本数据可以包括不同文体类型的新闻文本,新闻文本可以根据不同的方式获得。例如,作为一家报纸社或者杂志社,可以是本社的记者根据新闻任务进行新闻采编后提供的新闻文本,也可以是根据个人自主进行新闻采编后提供的新闻文本,还可以是本社的兼职记者提供的新闻文本。作为一家新闻门户网站,可以是本网站的记者在完成采编任务后通过网站端口上传的新闻文本,也可以是网站用户根据网站要求上传的新闻文本。当然,这里所述的新闻文本可以是刚采编完还未经过内部审核的稿件,也可以是已经审核完毕、满足发布要求的稿件,此处不做限制。
步骤S102:对所述原始文本数据进行数据清洗操作,获取第二文本数据。
在本实施例中,数据清洗的目的在于提取原始文本数据中的有用数据,或者删除原始文本中的噪音数据,从而可以对原始文本数据中与提取目的无关的文本数据进行删除。数据清洗操作至少包括对所述原始文本数据进行去停用词以及去重的一种。
在删除噪音数据时,通过去重的方式去除原始文本数据中的重复数据;通过删除的方式去除原始文本数据中的噪音数据等,从而可以将原始文本数据中的噪音数据进行去除。
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言文本之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(Stop Words)。在本实施例中,去停用词可以去掉自然语言文本中对文本特征没有任何贡献作用的字词,例如标点符号、语气、人称、无意义的乱码和空格等。选取的去停用词的方法为停用词表过滤,停用词表过滤可以是通过已经构建好的停用词表和文本数据中的词语进行一一匹配,如果匹配成功,那么这个词语就是停用词,需要将该词删除。
步骤S103:对所述第二文本数据进行分词操作,获取第三文本数据。
为了获得词向量形式的待分类文本数据,需要首先对第二文本数据进行分词。分词是词法分析中的基本任务,分词算法根据其核心思想主要分为两类:一种是基于词典的分词,先把文本数据按照词典切分成词,再寻找词的最佳组合方式;另一种是基于字的分词,即由字构词,先把句子分成一个个字,再将字组合成词,寻找最优的切分策略,同时也可以转化成序列标注问题。本实施例在进行分词时采用的分词算法可以包括:基于规则的分词方法、基于理解的分词方法或者基于统计的分词方法。
其中,基于规则的分词方法(例如基于字符串匹配的分词方法)是按照一定的策略将待分析的汉字串与一个“充分大的”词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的基于规则的分词方法包括:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的词数最小)。正向最大匹配法是将一段字符串进行分隔,其中分隔的长度有限制,然后将分隔的子字符串与词典中的词进行匹配,如果匹配成功则进行下一轮匹配,直到所有字符串处理完毕,否则将子字符串从末尾去除一个字,再进行匹配,如此反复。逆向最大匹配法则与此正向最大匹配法类似。
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。基于理解的分词方法的基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
基于统计的分词方法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。从而字与字相邻共现的频率或概率能够较好的反映成词的可信度。通过对文本数据中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。在实际应用时,统计分词系统可以使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
步骤S104:对所述第三文本数据进行词向量形式转化,获取所述待分类的文本数据。
经过上述分词处理后,原始文本数据由一系列的特征词表示,但是这种文本形式的数据不能直接被后续的分类算法所处理,而应该转化为数值形式,因此需要对这些特征词进行词向量形式转化,以获取待分类的文本数据,其为文本向量的形式。
步骤S20:采用二分类模型获取所述文本数据的文体信息,并根据所述文体信息确定所述文本数据的文体类型,所述文体类型包括第一文体类型和第二文体类型。
第一文体类型和第二文体类型可以根据文本分类需要进行确定,例如当文本为新闻文本时,根据需要分类的新闻文本类型不同,第一文体类型和第二文体类型也可以不同。在本实施例中,考虑到报告类新闻的文体相对比较固定,且与其他类新闻的差异较大,因此选取所述第一文体类型为普通类新闻文本,所述第二文体类型为报告类新闻文本,在进行文本分类前先通过二分类模型将文本数据根据报告类新闻文本和非报告类新闻(即普通类新闻)文本进行分类。
请参阅图3,在本实施例中,步骤S20可以包括如下步骤:
步骤S201:采用二分类模型对所述文本数据进行处理,获取所述文本数据的行文结构信息。
步骤S202:根据所述行文结构信息,确定所述文本数据的文体信息。
步骤S203:将所述文本数据的文体信息与预设文体类型的文体信息进行匹配,以确定所述文本数据的文体类型。
具体地,二分类模型可以通过训练获得,即预先通过新闻文本对二分类模型进行训练,然后通过训练好的二分类模型对待分类的新闻文本进行处理,可以获取其行文结构信息。由于不同类型的新闻文体的行文结构信息不同,而同类型的新闻文体通常具有较统一的行文结构信息,因此,可以通过行文结构信息与文体信息进行对应,在通过二分类模型获取了新闻文体的行文结构信息后,则可以根据该行文结构信息确定文本数据对应的文体信息。例如,对于报告类新闻文本,则可以确认其文体信息为报告类新闻文体(即第二文体类型),对于非报告类新闻文体,则可以确定其文体信息为普通类新闻文体(即第一文体类型)。
根据文本数据的文体类型不同,进一步采用的文本分类方式也不同。
若所述文本数据属于所述第一文体类型,则:
步骤S30:采用BERT模型对所述文本数据进行处理,获取所述文本数据对应的字向量序列。
对于普通类新闻文本,通常数据量较大,且文本内容丰富,本实施例采用基于BERT模型的文本分类方式来对文本进行分类。BERT模型(Bidirectional EncoderRepresentations from Transformers,双向编码翻译器表示模型)在获取字向量序列时,由于采用了双向预训练,且整个过程中引入了自注意力机制,获得的字向量序列中包含了新闻文本的文本信息以及上下文信息,因此其融合了全文语义信息,包含的文本信息更全面,更有利于后续的文本分类。
请参阅图4,在本实施例中,步骤S30包括以下步骤:
步骤S301:根据所述文本数据的词性和位置信息,获取所述文本数据对应的词向量。在本实施例中,使用位置编码给文本数据加上位置信息,并使用初始词向量表示添加所述位置信息的文本数据;获取所述文本数据的词性,并将所述词性转换为词性向量;将所述初始词向量与所述词性向量相加,得到所述文本数据对应的词向量。
步骤S302:将所述词向量输入至BERT模型中进行数据处理,得到所述文本数据的词矩阵。
步骤S303:根据所述词矩阵,获取所述文本数据的字向量序列。在本实施例中,使用所述词矩阵,预测所述文本数据中两个语句是否为上下句、两个语句中掩盖词和所述掩盖词的词性特征,并对词性特征归一化处理,得到文本数据的字向量序列。
应当理解的是,本实施例中使用的BERT模型是经过预先训练得到的模型,因此在对文本数据进行处理时,只需要将文本数据输入至该预先训练的BERT模型中即可获得其对应的字向量序列。
步骤S40:采用文本分类模型对所述字向量序列进行处理,以获取所述文本数据的分类结果。
所述文本分类模型至少包括以下模型中的一种:卷积神经网络模型(Convolutional Neural Networks,CNN)、循环神经网络模型(Recurrent NeuralNetwork,RNN)、长短期记忆模型(Long Short-Term Memory,LSTM)。其可以是上述模型中的一个,也可以是两个的结合,此处不做限制。文本分类模型可以通过预先训练的方式获得,在使用时只需要将步骤S30获得的字向量序列输入文本分类模型即可。根据分类要求的不同,对文本分类模型的训练也不相同,从而分类结果也不相同。
例如,新闻文体包括消息、通讯、新闻评论、新闻特写、调查报告以及专访等,在步骤S20中进行文体分类时,将新闻文体分为了报告类新闻文体和普通类新闻文体,此时普通类新闻文体则可以包括消息类文体、通讯类文体、新闻评论类文体、新闻特写类文体以及专访类文体,当不需要再进一步进行划分时,则对普通类新闻文本进行文本分类的分类结果为消息类文本、通讯类文本、新闻评论类文本、新闻特写类文本以及专访类文本中的一种。
再如,普通类新闻文体中每一种具体的文体具有更加细分的文体类别,当需要再进一步进行划分时,则对普通类新闻文本进行文本分类的分类结果为:动态消息类文本、典型消息类文本、综合性消息类文本、评述性消息类文本、简明消息类文本、人物消息类文本;人物通讯类文本、事件通讯类文本、工作通讯类文本、风貌通讯类文本、社会观察通讯类文本、小通讯类文本;政治评论类文本、军事评论类文本、经济评论类文本、社会评论类文本、文化评论类文本、文艺评论类文本、国际评论类文本;人物特写类文本、事件特写类文本、场面特写类文本、景物特写类文本、工作特写类文本、杂记性特写类文本;人物专访类文本、事件专访类文本、科学专访类文本、问题专访类文本。
请参阅图1,进一步地,若所述文本数据属于所述第二文体类型,则:
步骤S50:根据预设分类规则对所述文本数据进行处理,以获取所述文本数据的分类结果。
对于报告类新闻文本,通常数据量相对较小,且不同类别的报告发文方式比较固定,使用的词汇也相对集中,因此本实施例采用预设分类规则对其进行处理即可快速获得其对应的分类结果。预设分类规则包括报告类新闻文体下不同子文体类型的关键词以及不同子文体类型的文体规则。例如,报告类新闻主要包括介绍典型经验的调查报告、揭露问题的调查报告、反映新生事物的调查报告以及社会情况的调查报告。对于不同调查报告类型的新闻文本,其对应的关键词以及文体规则均有差异,而对于同一调查报告类型的新闻文本,其对应的关键词以及文体规则相对同一,因此可以采用关键词加文体规则的方式来对其进行划分,则对报告类新闻文本进行文本分类的分类结果为:介绍典型经验的调查报告类文本、揭露问题的调查报告类文本、反映新生事物的调查报告类文本、社会情况的调查报告类文本。
本发明实施例提供的文本分类方法的有益效果至少在于:
(1)本实施例充分考虑了新闻文体的不同,在获取了文本数据后,首先采用二分类模型根据文体信息对文本数据进行二分类,对于不同文体类别的文本数据采用不同的方式进行文本分类,使得文本分类任务更加清晰,不仅有效提高了文本分类效率,而且有助于提高文本内容的识别准确度,改善文本分类效果。
(2)对于属于第一文体类型文本数据,本实施例采用BERT模型对所述文本数据进行处理,获得的字向量序列中包含了文本数据的文本信息以及上下文信息,因此其融合了全文语义信息,包含的文本信息更全面,更有利于后续的文本分类,从而有助于提高文本分类的准确性,改善分类效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
请参阅图5,基于相同的发明构思,本发明实施例还提供了一种文本分类装置,包括文本数据获取模块61、文体类型确定模块62、BERT模型处理模块63以及第一分类模型处理模块64。其中,文本数据获取模块61用于对采集原始文本数据进行预处理,获取待分类的文本数据;文体类型确定模块62用于采用二分类模型获取所述文本数据的文体信息,并根据所述文体信息确定所述文本数据的文体类型,所述文体类型包括第一文体类型和第二文体类型;BERT模型处理模块63用于若所述文本数据属于所述第一文体类型,则采用BERT模型对所述文本数据进行处理,获取所述文本数据对应的字向量序列;第一分类模型处理模块64用于采用文本分类模型对所述字向量序列进行处理,以获取所述文本数据的分类结果。
请参阅图6,进一步地,文本数据获取模块61包括原始文本获取单元611、数据清洗单元612、分词单元613以及文本数据获取单元614。其中,原始文本获取单元611用于采集原始文本数据;数据清洗单元612用于对所述原始文本数据进行数据清洗操作,获取第二文本数据;分词单元613用于对所述第二文本数据进行分词操作,获取第三文本数据;文本数据获取单元614用于对所述第三文本数据进行词向量形式转化,获取所述待分类的文本数据。
请参阅图7,进一步地,文体类型确定模块62包括行文结构获取单元621、文体信息确定单元622以及文体类型确定单元623。其中,行文结构获取单元621用于采用二分类模型对所述文本数据进行处理,获取所述文本数据的行文结构信息;文体信息确定单元622用于根据所述行文结构信息,确定所述文本数据的文体信息;文体类型确定单元623用于将所述文本数据的文体信息与预设文体类型的文体信息进行匹配,以确定所述文本数据的文体类型。
请参阅图8,进一步地,BERT模型处理模块63包括词向量获取单元631、词矩阵获取单元632以及字向量序列获取单元633。其中,词向量获取单元631用于根据所述文本数据的词性和位置信息,获取所述文本数据对应的词向量;词矩阵获取单元632用于将所述词向量输入至BERT模型中进行数据处理,得到所述文本数据的词矩阵;字向量序列获取单元633用于根据所述词矩阵,获取所述文本数据的字向量序列。
进一步地,本发明实施例提供的文本分类装置还包括第二分类模型处理模块65,用于根据预设分类规则对所述文本数据进行处理,以获取所述文本数据的分类结果。
图9是本发明一实施例提供的终端设备的示意图。如图9所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如文本分类程序。所述处理器70执行所述计算机程序72时实现上述各个文本分类方法实施例中的步骤,例如图1至图4所示的步骤S10至S50。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图5至图8所示模块61至65的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图9仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备7所需的其它程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (7)

1.一种文本分类方法,其特征在于,包括:
对采集的原始文本数据进行预处理,获取待分类的文本数据;
采用二分类模型获取所述文本数据的文体信息,并根据所述文体信息确定所述文本数据的文体类型,所述文体类型包括第一文体类型和第二文体类型;
若所述文本数据属于所述第一文体类型,则采用BERT模型对所述文本数据进行处理,获取所述文本数据对应的字向量序列;
采用文本分类模型对所述字向量序列进行处理,以获取所述文本数据的分类结果;
所述采用二分类模型获取所述文本数据的文体信息,并根据所述文体信息确定所述文本数据的文体类型,所述文体类型包括第一文体类型和第二文体类型,包括:
采用二分类模型对所述文本数据进行处理,获取所述文本数据的行文结构信息;
根据所述行文结构信息,确定所述文本数据的文体信息;
将所述文本数据的文体信息与预设文体类型的文体信息进行匹配,以确定所述文本数据的文体类型,其中,所述第一文体类型为普通类新闻文本,所述第二文体类型为报告类新闻文本;
所述采用二分类模型获取所述文本数据的文体信息,并根据所述文体信息确定所述文本数据的文体类型步骤后,还包括:
若所述文本数据属于第二文体类型,则根据预设分类规则对所述文本数据进行处理,以获取所述文本数据的分类结果,所述预设分类规则包括第二文体类型下不同子文体类型的关键词以及不同子文体类型的文体规则。
2.如权利要求1所述的文本分类方法,其特征在于,所述对采集原始文本数据进行预处理,获取待分类的文本数据,包括:
采集原始文本数据,所述原始文本数据包括新闻文本;
对所述原始文本数据进行数据清洗操作,获取第二文本数据,所述数据清洗操作至少包括对所述原始文本数据进行去停用词、去重中的一种;
对所述第二文本数据进行分词操作,获取第三文本数据;
对所述第三文本数据进行词向量形式转化,获取所述待分类的文本数据。
3.如权利要求1所述的文本分类方法,其特征在于,所述若所述文本数据属于所述第一文体类型,则采用BERT模型对所述文本数据进行处理,获取所述文本数据对应的字向量序列,包括:
根据所述文本数据的词性和位置信息,获取所述文本数据对应的词向量;
将所述词向量输入至BERT模型中进行数据处理,得到所述文本数据的词矩阵;
根据所述词矩阵,获取所述文本数据的字向量序列。
4.如权利要求1所述的文本分类方法,其特征在于,所述文本分类模型至少包括以下模型中的一种:卷积神经网络模型、循环神经网络模型、长短期记忆模型。
5.一种文本分类装置,其特征在于,包括:
文本数据获取模块,用于对采集原始文本数据进行预处理,获取待分类的文本数据;
文体类型确定模块,用于采用二分类模型获取所述文本数据的文体信息,并根据所述文体信息确定所述文本数据的文体类型,所述文体类型包括第一文体类型和第二文体类型;
BERT模型处理模块,用于若所述文本数据属于所述第一文体类型,则采用BERT模型对所述文本数据进行处理,获取所述文本数据对应的字向量序列;
第一分类模型处理模块,用于采用文本分类模型对所述字向量序列进行处理,以获取所述文本数据的分类结果;
所述文体类型确定模块包括:
行文结构获取单元,用于采用二分类模型对所述文本数据进行处理,获取所述文本数据的行文结构信息;
文体信息确定单元,用于根据所述行文结构信息,确定所述文本数据的文体信息;
文体类型确定单元,用于将所述文本数据的文体信息与预设文体类型的文体信息进行匹配,以确定所述文本数据的文体类型;
所述文本分类装置还包括:
第二分类模型处理模块,用于根据预设分类规则对所述文本数据进行处理,以获取所述文本数据的分类结果,所述预设分类规则包括第二文体类型下不同子文体类型的关键词以及不同子文体类型的文体规则。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~4任一项所述的文本分类方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~4任一项所述的文本分类方法的步骤。
CN202010281976.6A 2020-04-11 2020-04-11 一种文本分类方法、装置、终端设备及计算机可读存储介质 Active CN111460162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010281976.6A CN111460162B (zh) 2020-04-11 2020-04-11 一种文本分类方法、装置、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010281976.6A CN111460162B (zh) 2020-04-11 2020-04-11 一种文本分类方法、装置、终端设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111460162A CN111460162A (zh) 2020-07-28
CN111460162B true CN111460162B (zh) 2021-11-02

Family

ID=71680594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010281976.6A Active CN111460162B (zh) 2020-04-11 2020-04-11 一种文本分类方法、装置、终端设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111460162B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562809A (zh) * 2020-12-15 2021-03-26 贵州小宝健康科技有限公司 一种基于电子病历文本进行辅助诊断的方法及系统
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112883721B (zh) * 2021-01-14 2024-01-19 科技日报社 基于bert预训练模型的新词识别方法和装置
CN112765359B (zh) * 2021-04-07 2021-06-18 成都数联铭品科技有限公司 一种基于少样本的文本分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110851596A (zh) * 2019-10-11 2020-02-28 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908635B (zh) * 2017-09-26 2021-04-16 百度在线网络技术(北京)有限公司 建立文本分类模型以及文本分类的方法、装置
US11017180B2 (en) * 2018-04-18 2021-05-25 HelpShift, Inc. System and methods for processing and interpreting text messages
CN110377714A (zh) * 2019-07-18 2019-10-25 泰康保险集团股份有限公司 基于迁移学习的文本匹配方法、装置、介质及设备
CN110377691A (zh) * 2019-07-23 2019-10-25 上海应用技术大学 文本分类的方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110851596A (zh) * 2019-10-11 2020-02-28 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN111460162A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN109726274B (zh) 问题生成方法、装置及存储介质
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN106776574B (zh) 用户评论文本挖掘方法及装置
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN112417127B (zh) 对话模型的训练、对话生成方法、装置、设备及介质
CN110750635A (zh) 一种基于联合深度学习模型的法条推荐方法
CN113961685A (zh) 信息抽取方法及装置
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN111736804B (zh) 一种基于用户评论识别App关键功能的方法及装置
CN111782793A (zh) 智能客服处理方法和系统及设备
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN111046168B (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
CN112949299A (zh) 新闻稿件的生成方法及装置、存储介质、电子装置
CN112364131B (zh) 一种语料处理方法及其相关装置
CN115455975A (zh) 基于多模型融合决策提取主题关键词的方法及装置
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant