CN111611394A - 一种文本分类方法、装置、电子设备及可读存储介质 - Google Patents

一种文本分类方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111611394A
CN111611394A CN202010636759.4A CN202010636759A CN111611394A CN 111611394 A CN111611394 A CN 111611394A CN 202010636759 A CN202010636759 A CN 202010636759A CN 111611394 A CN111611394 A CN 111611394A
Authority
CN
China
Prior art keywords
text
text segment
segment
expanded
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010636759.4A
Other languages
English (en)
Other versions
CN111611394B (zh
Inventor
徐睿
唐球
关健
杨嘉佳
张雷
刘金
薛继东
张尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
6th Research Institute of China Electronics Corp
Original Assignee
6th Research Institute of China Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 6th Research Institute of China Electronics Corp filed Critical 6th Research Institute of China Electronics Corp
Priority to CN202010636759.4A priority Critical patent/CN111611394B/zh
Publication of CN111611394A publication Critical patent/CN111611394A/zh
Application granted granted Critical
Publication of CN111611394B publication Critical patent/CN111611394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文本分类方法、装置、电子设备及可读存储介质,其中,所述文本分类方法包括:获取待分类文本的至少一个文本段,以及待分类文本对应的关键词特征;基于文本段中每个字词与关键词特征的相似度,确定文本段对应的待扩展文本段;将待扩展文本段中的预设词性的字词进行同义词替换,得到文本段对应的扩展文本段;基于文本段以及扩展文本段,对待分类文本进行分类。这样,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,可以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得在文本分类过程中,能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。

Description

一种文本分类方法、装置、电子设备及可读存储介质
技术领域
本申请涉及文本挖掘技术领域,尤其是涉及一种文本分类方法、装置、电子设备及可读存储介质。
背景技术
文本分类,即是根据文本的特征将其分到预先设定的类别中,类别可以是两类,也可以是多于两类的更多类别,例如,文本可以根据内容分为“政治”、“经济”、“文化”等不同类别;在做情感分析时,可以根据文本的特点分为“积极情感文本”和“消极情感文本”。
现阶段,文本分类方法大多是建立在具有大量的标签数据下的有监督学习,即将文本输入到训练好的分类器中,得到文本的类别标签。其中,分类器需要基于大量的样本,且各类别的样本数量相当的情况下进行模型训练,但是实际应用中,由于文本数据实例有限,数据样本少,使得分类器很难得到有效训练,导致文本分类结果的准确率较低。
发明内容
有鉴于此,本申请的目的在于提供一种文本分类方法、装置、电子设备及可读存储介质,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得在文本分类过程中,能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供了一种文本分类方法,所述文本分类方法包括:
获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;
基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;
将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;
基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。
在一种可能的实施方式中,根据以下步骤确定所述待分类文本对应的关键词特征:
获取所述待分类文本对应的预设类别标签;
基于所述预设类别标签,确定所述待分类文本对应的关键词特征。
在一种可能的实施方式中,所述基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段,包括:
获取所述文本段中每个字词与所述关键词特征的相似度;
将多个相似度中的目标相似度对应的目标字词,以及在所述文本段中与所述目标字词位置相邻的预设数量的字词,确定为所述文本段对应的待扩展文本段,其中,所述目标相似度大于多个相似度中除所述目标相似度之外的其他相似度。
在一种可能的实施方式中,若所述目标字词在所述文本段中位置相邻字词的数量少于预设数量,则将所述文本段确定为待扩展文本段。
在一种可能的实施方式中,所述基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类,包括:
获取所述文本段的第一特征和所述扩展文本段的第二特征;
基于所述第一特征、所述第二特征和预设的特征权重,确定所述文本段对应的文本段特征;
基于所述文本段特征,确定所述待分类文本的文本特征;
基于所述文本特征,对所述待分类文本进行分类。
在一种可能的实施方式中,所述基于所述文本段特征,确定所述待分类文本的文本特征,包括:
将所述文本段中每个字词与所述关键词特征的相似度的平均值确定为所述文本段的权重;
基于每个文本段对应的文本段特征和权重,确定所述待分类文本的文本特征。
第二方面,本申请实施例提供了一种文本分类装置,所述文本分类装置包括:
第一获取模块,用于获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;
确定模块,用于基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;
第二获取模块,用于将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;
分类模块,用于基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。
在一种可能的实施方式中,所述第一获取模块根据以下步骤确定所述待分类文本对应的关键词特征:
获取所述待分类文本对应的预设类别标签;
基于所述预设类别标签,确定所述待分类文本对应的关键词特征。
在一种可能的实施方式中,所述确定模块包括:
相似度获取单元,用于获取所述文本段中每个字词与所述关键词特征的相似度;
确定单元,用于将多个相似度中的目标相似度对应的目标字词,以及在所述文本段中与所述目标字词位置相邻的预设数量的字词,确定为所述文本段对应的待扩展文本段,其中,所述目标相似度大于多个相似度中除所述目标相似度之外的其他相似度。
在一种可能的实施方式中,若所述目标字词在所述文本段中位置相邻字词的数量少于预设数量,则将所述文本段确定为待扩展文本段。
在一种可能的实施方式中,所述分类模块包括:
获取单元,用于获取所述文本段的第一特征和所述扩展文本段的第二特征;
文本段特征确定单元,用于基于所述第一特征、所述第二特征和预设的特征权重,确定所述文本段对应的文本段特征;
文本特征确定单元,用于基于所述文本段特征,确定所述待分类文本的文本特征;
分类单元,用于基于所述文本特征,对所述待分类文本进行分类。
在一种可能的实施方式中,文本特征确定单元在用于基于所述文本段特征,确定所述待分类文本的文本特征时,所述文本特征确定单元具体用于:
将所述文本段中每个字词与所述关键词特征的相似度的平均值确定为所述文本段的权重;
基于每个文本段对应的文本段特征和权重,确定所述待分类文本的文本特征。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的文本分类方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的文本分类方法的步骤。
本申请实施例提供的文本分类方法、装置、电子设备及可读存储介质,获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。这样,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,可以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得在文本分类过程中,能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了现有技术中的小样本文本分类示意图;
图2示出了本申请实施例所提供的一种文本分类方法的流程图;
图3示出了本申请另一实施例所提供的一种文本分类方法的流程图;
图4示出了本申请实施例所提供的一种文本分类方法的原理图;
图5示出了本申请实施例所提供的一种文本分类装置的结构示意图;
图6示出了图5中确定模块的结构示意图;
图7示出了图5中分类模块的结构示意图;
图8示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
本申请可应用于文本挖掘技术领域,文本挖掘即是利用自然语言处理技术,让计算机具备文字阅读能力,帮助用户处理海量文本数据,其中,文本分类技术是文本挖掘的主要研究内容之一。文本分类根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断,举例而言,在对文本做情感分析时,通常预设两个类别标签“积极情感文本”和“消极情感文本”,基于这两个类别标签对大量的文本数据进行标记,利用标记后的文本数据对分类器进行训练,训练好的分类器可以对新文本进行分类,输出新文本所属的类别标签。
经研究发现,通常情况下由于文本数据实例有限,用于训练的数据样本少,分类器很难得到有效的训练,导致分类效果不够理想。针对小样本分类问题,图1示出了现有技术中的小样本文本分类示意图,如图1中所示,首先,将文本分成若干个文本段,然后,通过类别标签注释器确定各文本段的权重,以及通过预训练模型得到文本段表示,以文本段表示的加权平均值作为文本表示放入训练好的分类器,进而得到类别标签。但是由于分类器未充分捕获关键词特征信息和语句信息,所以导致文本分类结果的准确率较低。
基于此,本申请实施例提供了文本分类方法,通过确定各文本段对应的扩展文本段,并基于文本段和扩展文本段对待分类文本进行分类,以提高文本分类结果的准确率。
请参阅图2,图2示出了本申请实施例所提供的一种文本分类方法的流程图。如图2中所示,本申请实施例提供的文本分类方法,包括:
S201,获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征。
在具体实施中,首先根据待分类文本的字符类型,将待分类文本划分成至少一个文本段,例如,对待分类文本进行识别,若识别出的字符为预设字符,则将该字符作为文本的分隔点。进一步的,获取待分类文本的至少一个文本段,以及待分类文本对应的关键词特征,其中的关键词特征可以是人为设定的一个或多个字词的特征,也可以是针对待分类文本对应的类别标签确定的用于对待分类文本进行分类的字词的特征。
S202,基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段。
在具体实施中,将文本段中的每个字词与关键词特征进行匹配,确定字词与关键词特征的相似度,所述相似度用于表征字词与关键词特征的匹配程度,例如,若字词与关键词特征完全匹配,则相似度为1,若字词与关键词特征部分匹配,则根据匹配程度确定相似度。基于文本段中每个字词与关键词特征的相似度,确定文本段对应的待扩展文本段,具体的,可以预设相似度阈值,将相似度高于相似度阈值的字词确定为待扩展文本段,也可以选取目标相似度对应的目标字词,基于目标字词在文本段中的位置,确定待扩展文本段。
S203,将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段。
在具体实施中,将S202中确定的待扩展文本段中的预设词性的字词进行同义词替换,其中预设词性可以是一个或多个,优选的,考虑到文本词性的特点,本申请实施例将待扩展文本段中的形容词和动词进行同义词替换。进一步的,将替换后的字词按照原有的句式结构放入文本段中,得到扩展文本段。
S204,基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。
在具体实施中,利用预训练模型,分别获取文本段的第一特征和扩展文本段的第二特征,所述预训练模型可以是基于已有文本和/或词典,在将文本和/或词典应用于文本向量生成模型所生成的。例如,预训练模型可以基于数学化的方法:word2vec,将作为自然语言的字词(即文本和/或词典分词处理后的结果)转化为向量形式的数字信息,以便于机器识别,即采用语义向量来表示一个文本段,这样,便可以获取便于机器识别的文本段的第一特征和扩展文本段的第二特征。基于第一特征和第二特征,对待分类文本进行分类,得到待分类文本的类别标签。
本申请实施例提供的文本分类方法,获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。基于上述方式,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,可以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得在文本分类过程中,能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。
请参阅图3,图3示出了本申请另一实施例所提供的一种文本分类方法的流程图。如图3中所示,本申请实施例提供的文本分类方法,包括:
S301,获取待分类文本的至少一个文本段,以及所述待分类文本对应的预设类别标签。
文本分类通常是根据文本的特征将文本分到预先设定的类别中,在具体实施中,待分类文本通常对应一个或多个类别标签,例如,在对文本进行情感分析时,待分类文本对应的类别标签可以为“积极情感文本”或“消极情感文本”;在对文本事件进行分析时,待分类文本对应的类别标签可以为“物理环境原因”或“个人能力原因”等。
S302,基于所述预设类别标签,确定所述待分类文本对应的关键词特征。
在具体实施中,基于S301中获取到的预设类别标签,确定待分类文本对应的关键词特征,具体地,可以基于预设类别标签对大量的文本数据样本进行标记,对标记后的文本数据进行特征提取,得到待分类文本对应的关键词特征。
S303,基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段。
S304,将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段。
S305,基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。
其中,S303至S305的描述可以参照S202至S204的描述,并且能达到相同的技术效果,对此不做赘述。
在本申请实施例中,作为一可选实施例,S303中基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段,包括以下步骤:
步骤a11,获取所述文本段中每个字词与所述关键词特征的相似度。
在具体实施中,基于文本段中的每个字词与关键词特征的匹配程度,确定每个字词与关键词特征的相似度。
步骤a12,将多个相似度中的目标相似度对应的目标字词,以及在所述文本段中与所述目标字词位置相邻的预设数量的字词,确定为所述文本段对应的待扩展文本段,其中,所述目标相似度大于多个相似度中除所述目标相似度之外的其他相似度。
在具体实施中,将步骤a11中获取到的相似度由大到小排列,将排名靠前的预定数量的字词确定为目标字词,将文本段中与目标字词位置相邻的预设数量的字词,确定为文本段对应的待扩展文本段,优选地,本申请实施例中,将相似度最高的字词确定为目标字词,并获取在文本段中与目标字词位置相邻的6个字词为该文本段对应的待扩展文本段,通常情况下,将目标字词,以及目标字词的左侧相邻的3个字词和右侧相邻3个字词确定为待扩展文本段,特殊情况下,若目标字词的左侧(右侧)相邻的字词的数量少于3个字词,则将左侧(右侧)相邻的全部字词和右侧(左侧)相邻的3个字词确定为待扩展文本段。
在本申请实施例中,作为一可选实施例,步骤a12中若所述目标字词在所述文本段中位置相邻字词的数量少于预设数量,则将所述文本段确定为待扩展文本段。
在具体实施中,在判定与目标字词相邻的字词的数量少于预设数量时,则将该文本段确定为待扩展文本段。
在本申请实施例中,作为一可选实施例,S305中基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类,包括以下步骤:
步骤b11,获取所述文本段的第一特征和所述扩展文本段的第二特征。
在具体实施中,利用预训练模型,分别获取文本段的第一特征和扩展文本段的第二特征,所述预训练模型可以是基于已有文本和/或词典,在将文本和/或词典应用于文本向量生成模型所生成的。
步骤b12,基于所述第一特征、所述第二特征和预设的特征权重,确定所述文本段对应的文本段特征。
在具体实施中,获取预设的第一特征对应的第一特征权重和第二特征对应的第二特征权重,计算第一特征和第二特征的加权平均值,将加权平均值确定为文本段对应的文本段特征,其中,所述特征可以是利用句子向量表示模型得到的文本段表示,常见的句子向量表示模型包括基于卷积神经网络(Convolutional Neural Networks,CNN)的模型、基于循环神经网络(Recurrent Neural Network,RNN)的模型、基于transformer的模型(如BERT)等。
这里,本申请实施例通常将第一特征权重设置为0.9,第二特征权重设置为0.1。
步骤b13,基于所述文本段特征,确定所述待分类文本的文本特征。
在具体实施中,基于待分类文本中各文本段对应的文本段特征,确定待分类文本的文本特征,具体地,可以将各文本段特征的平均值确定为待分类文本的文本特征,也可以获取每一个文本段对应的权重,将各文本段的加权平均值确定为待分类文本的文本特征,所述权重用于表征该文本段在文本中的重要程度。
步骤b14,基于所述文本特征,对所述待分类文本进行分类。
在具体实施中,将步骤b13中获取到的文本特征输入至分类器中,得到待分类文本所属的类别标签。
在本申请实施例中,作为一可选实施例,步骤b13中基于所述文本段特征,确定所述待分类文本的文本特征,包括以下步骤:
步骤b131,将所述文本段中每个字词与所述关键词特征的相似度的平均值确定为所述文本段的权重。
在具体实施中,相似度用于表征字词与关键词特征的匹配程度,可以将文本段中各字词与关键词特征的相似度的平均值确定为该文本段的权重。
步骤b132,基于每个文本段对应的文本段特征和权重,确定所述待分类文本的文本特征。
在具体实施中,计算待分类文本中各文本段特征的加权平均值,将计算出的加权平均值确定为待分类文本的文本特征。
本申请实施例,作为一可选实施例,图4示出了本申请实施例所提供的一种文本分类方法的原理图,如图4中所示,首先将文本划分为至少一个文本段,利用分类标签注释器确定各文本段中各字词与关键词特征的相似度,进一步,基于相似度确定各文本段对应的待扩展文本段,待扩展文本段经过语义扩展,得到扩展文本段,再进一步,利用预训练模型获取文本段的第一特征和扩展文本段的第二特征,基于相似度确定文本段权重,最后基于第一特征、第二特征和文本段权重,确定文本特征,将文本特征输入至分类器中,得到文本所属的类别标签。
本申请实施例提供的文本分类方法,获取待分类文本的至少一个文本段,以及所述待分类文本对应的预设类别标签;基于所述预设类别标签,确定所述待分类文本对应的关键词特征;基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。基于上述方式,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,可以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得在文本分类过程中,能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。
请参阅图5、图6和图7,图5示出了本申请实施例所提供的一种文本分类装置的结构示意图,图6示出了图5中确定模块的结构示意图,图7示出了图5中分类模块的结构示意图。如图5中所示,所述文本分类装置500包括:
第一获取模块510,用于获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;
确定模块520,用于基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;
第二获取模块530,用于将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;
分类模块540,用于基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。
在本申请实施例中,作为一可选实施例,所述第一获取模块510根据以下步骤确定所述待分类文本对应的关键词特征:
获取所述待分类文本对应的预设类别标签;
基于所述预设类别标签,确定所述待分类文本对应的关键词特征。
在本申请实施例中,作为一可选实施例,如图6所示,所述确定模块520包括:
相似度获取单元521,用于获取所述文本段中每个字词与所述关键词特征的相似度;
确定单元522,用于将多个相似度中的目标相似度对应的目标字词,以及在所述文本段中与所述目标字词位置相邻的预设数量的字词,确定为所述文本段对应的待扩展文本段,其中,所述目标相似度大于多个相似度中除所述目标相似度之外的其他相似度。
在本申请实施例中,作为一可选实施例,若所述目标字词在所述文本段中位置相邻字词的数量少于预设数量,则将所述文本段确定为待扩展文本段。
在本申请实施例中,作为一可选实施例,如图7所示,所述分类模块540包括:
获取单元541,用于获取所述文本段的第一特征和所述扩展文本段的第二特征;
文本段特征确定单元542,用于基于所述第一特征、所述第二特征和预设的特征权重,确定所述文本段对应的文本段特征;
文本特征确定单元543,用于基于所述文本段特征,确定所述待分类文本的文本特征;
分类单元544,用于基于所述文本特征,对所述待分类文本进行分类。
在本申请实施例中,作为一可选实施例,文本特征确定单元543在用于基于所述文本段特征,确定所述待分类文本的文本特征时,所述文本特征确定单元543具体用于:
将所述文本段中每个字词与所述关键词特征的相似度的平均值确定为所述文本段的权重;
基于每个文本段对应的文本段特征和权重,确定所述待分类文本的文本特征。
本申请实施例提供的文本分类装置,包括第一获取模块、确定模块、第二获取模块和分类模块,第一获取模块获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;基于所述文本段中每个字词与所述关键词特征的相似度,确定模块确定所述文本段对应的待扩展文本段;第二获取模块将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;进而,分类模块基于第一获取模块获取到的文本段以及第二获取模块获取到的扩展文本段,对所述待分类文本进行分类。基于上述方式,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,可以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得分类模块能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。
请参阅图8,图8示出了本申请实施例所提供的一种电子设备的结构示意图。如图8中所示,所述电子设备800包括处理器810、存储器820和总线830。
所述存储器820存储有所述处理器810可执行的机器可读指令,当电子设备800运行时,所述处理器810与所述存储器820之间通过总线830通信,所述机器可读指令被所述处理器810执行时,可以执行如上述图2以及图3所示方法实施例中的文本分类方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图2以及图3所示方法实施例中的文本分类方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本分类方法,其特征在于,所述文本分类方法包括:
获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;
基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;
将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;
基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。
2.根据权利要求1所述的文本分类方法,其特征在于,根据以下步骤确定所述待分类文本对应的关键词特征:
获取所述待分类文本对应的预设类别标签;
基于所述预设类别标签,确定所述待分类文本对应的关键词特征。
3.根据权利要求1所述的文本分类方法,其特征在于,所述基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段,包括:
获取所述文本段中每个字词与所述关键词特征的相似度;
将多个相似度中的目标相似度对应的目标字词,以及在所述文本段中与所述目标字词位置相邻的预设数量的字词,确定为所述文本段对应的待扩展文本段,其中,所述目标相似度大于多个相似度中除所述目标相似度之外的其他相似度。
4.根据权利要求3所述的文本分类方法,其特征在于,若所述目标字词在所述文本段中位置相邻字词的数量少于预设数量,则将所述文本段确定为待扩展文本段。
5.根据权利要求1所述的文本分类方法,其特征在于,所述基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类,包括:
获取所述文本段的第一特征和所述扩展文本段的第二特征;
基于所述第一特征、所述第二特征和预设的特征权重,确定所述文本段对应的文本段特征;
基于所述文本段特征,确定所述待分类文本的文本特征;
基于所述文本特征,对所述待分类文本进行分类。
6.根据权利要求5所述的文本分类方法,其特征在于,所述基于所述文本段特征,确定所述待分类文本的文本特征,包括:
将所述文本段中每个字词与所述关键词特征的相似度的平均值确定为所述文本段的权重;
基于每个文本段对应的文本段特征和权重,确定所述待分类文本的文本特征。
7.一种文本分类装置,其特征在于,所述文本分类装置包括:
第一获取模块,用于获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;
确定模块,用于基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;
第二获取模块,用于将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;
分类模块,用于基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。
8.根据权利要求7所述的文本分类装置,其特征在于,所述确定模块包括:
相似度获取单元,用于获取所述文本段中每个字词与所述关键词特征的相似度;
确定单元,用于将多个相似度中的目标相似度对应的目标字词,以及在所述文本段中与所述目标字词位置相邻的预设数量的字词,确定为所述文本段对应的待扩展文本段,其中,所述目标相似度大于多个相似度中除所述目标相似度之外的其他相似度。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6中任一项所述的文本分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6中任一项所述的文本分类方法的步骤。
CN202010636759.4A 2020-07-03 2020-07-03 一种文本分类方法、装置、电子设备及可读存储介质 Active CN111611394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010636759.4A CN111611394B (zh) 2020-07-03 2020-07-03 一种文本分类方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010636759.4A CN111611394B (zh) 2020-07-03 2020-07-03 一种文本分类方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111611394A true CN111611394A (zh) 2020-09-01
CN111611394B CN111611394B (zh) 2021-09-07

Family

ID=72197218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010636759.4A Active CN111611394B (zh) 2020-07-03 2020-07-03 一种文本分类方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111611394B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130027A1 (en) * 2017-11-02 2019-05-02 International Business Machines Corporation Data classification
CN110119443A (zh) * 2018-01-18 2019-08-13 中国科学院声学研究所 一种面向推荐服务的情感分析方法
CN110888968A (zh) * 2019-10-15 2020-03-17 浙江省北大信息技术高等研究院 客服对话意图分类方法及装置、电子设备及介质
CN111259158A (zh) * 2020-02-25 2020-06-09 北京松果电子有限公司 一种文本分类方法、装置及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130027A1 (en) * 2017-11-02 2019-05-02 International Business Machines Corporation Data classification
CN110119443A (zh) * 2018-01-18 2019-08-13 中国科学院声学研究所 一种面向推荐服务的情感分析方法
CN110888968A (zh) * 2019-10-15 2020-03-17 浙江省北大信息技术高等研究院 客服对话意图分类方法及装置、电子设备及介质
CN111259158A (zh) * 2020-02-25 2020-06-09 北京松果电子有限公司 一种文本分类方法、装置及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法

Also Published As

Publication number Publication date
CN111611394B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN108090099B (zh) 一种文本处理方法及装置
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN108090216A (zh) 一种标签预测方法、装置及存储介质
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
Otoom et al. Towards author identification of Arabic text articles
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN111475651B (zh) 文本分类方法、计算设备及计算机存储介质
CN112347240A (zh) 文本摘要的抽取方法、装置、可读存储介质及电子设备
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
Karo et al. Karonese sentiment analysis: a new dataset and preliminary result
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质
Kavitha et al. A review on machine learning techniques for text classification
CN112487795A (zh) 上下文讽刺检测方法、装置、电子设备及存储介质
Baniata et al. Sentence representation network for Arabic sentiment analysis
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN111488452A (zh) 一种网页篡改检测方法、检测系统及相关设备
CN115510269A (zh) 视频推荐的方法、装置、设备和存储介质
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114979620A (zh) 视频亮点片段检测方法、装置、电子设备及存储介质
CN112632229A (zh) 文本聚类方法及装置
CN111159410A (zh) 一种文本情感分类方法、系统、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant