CN112380350B - 一种文本分类方法和装置 - Google Patents

一种文本分类方法和装置 Download PDF

Info

Publication number
CN112380350B
CN112380350B CN202110046183.0A CN202110046183A CN112380350B CN 112380350 B CN112380350 B CN 112380350B CN 202110046183 A CN202110046183 A CN 202110046183A CN 112380350 B CN112380350 B CN 112380350B
Authority
CN
China
Prior art keywords
keywords
classification
text
keyword
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110046183.0A
Other languages
English (en)
Other versions
CN112380350A (zh
Inventor
于游
姜巍
张珊珊
赵永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuxueyuan Health Management Center Co ltd
Original Assignee
Beijing Yuxueyuan Health Management Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuxueyuan Health Management Center Co ltd filed Critical Beijing Yuxueyuan Health Management Center Co ltd
Priority to CN202110046183.0A priority Critical patent/CN112380350B/zh
Publication of CN112380350A publication Critical patent/CN112380350A/zh
Application granted granted Critical
Publication of CN112380350B publication Critical patent/CN112380350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种文本分类方法和装置,本发明通过确定待分类的文本中的多个基本关键词,并确定用于表示基本关键词的在所述文本中的重要程度;当在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,对所述标签关键词的基本权重加权,以增加该标签关键词的权重,与此同时,还基于预设的词向量模型确定与所述标签关键词关联的相关关键词,防止遗漏低频关键词;最终根据所述标签分类关键词表中关键词与分类结果的对应关系,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,综合确定出文本的分类结果,以提高分类结果的准确度。

Description

一种文本分类方法和装置
技术领域
本发明属于互联网技术领域,尤其涉及一种文本分类方法和装置。
背景技术
随着互联网技术的不断发展,越来越多的人通过网络获取有用的信息。伴随着多样化的应用的普及,以及各种母婴社交应用所具有的典型的4A特点,随之而来的是不断膨胀的母婴信息。信息量的极大增加,使得高效的从网络信息中提取有用信息成为了人们的迫切需要。然而文本关键词的抽取,以及文本的自动分类技术作为广泛应用的两个技术,在网络不断扩容的情况下,对于快速高效检索母婴问题,以及有效组织资源带来极大的帮助。
在实际应用中,文本的关键词是表达文档主题概念的词汇,一个好的关键词,既要有专指性又要准确的反应文本的主旨思想,也能够表示文本的类别,而现有技术多是依赖于人工的主观思维的提取关键词,然后对文本进行分类,不仅分类效率低下,且难以保障分类结果的准确性。
发明内容
为了解决上述现有技术中依赖于人工的主观思维的提取关键词,然后对文本进行分类,不仅分类效率低下,且难以保障分类结果的准确性的技术问题,本发明提供了一种文本分类方法和装置。
第一方面,本发明提供了一种文本分类方法,所述方法包括:
确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重,其中所述基本权重用于表示基本关键词在所述文本中的重要程度;
在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,并对所述标签关键词的基本权重加权;
基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值;
根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果,其中,所述标签分类关键词表中包括有关键词与分类结果的对应关系。
可选地,确定待分类的文本中的多个基本关键词以及各关键词对应的基本权重的步骤,包括:
对所述文本进行预处理得到多个参考词汇;
计算所述多个参考词汇中各参考词汇对应的词频;
将所述词频大于预设阈值的参考词汇设为基本关键词;
计算所述基本关键词的逆文本频率;
根据所述基本关键词的词频和逆文本频率计算所述关键词的基本权重。
可选地,还包括:
将不位于所述标签分类关键词表中的关键词的基本权重,确定为所述关键词对应的权重值,以保留不位于所述标签分类关键词表中的关键词的权重信息。
可选地,基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值的步骤,包括:
基于预设的词向量模型确定与所述标签关键词相关的多个参考词;
在所述多个参考词中确定位于所述文本中的参考词为相关关键词;
计算与所述相关关键词对应的权重值。
可选地,所述词向量模型的训练过程,包括:
获取多个训练词汇以及各训练词汇对应的词频;
依据词频从高到低的顺序选取前v个训练词汇构建训练样本;
利用所述训练样本训练所述词向量模型直至收敛,以使所述词向量模型中存在有v个向量维度,其中,输入所述词向量模型的词汇与v个向量维度中某个维度越接近,表示相关度越大。
可选地,根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果的步骤,包括:
创建包含有所述基本关键词、标签关键词以及相关关键词的关键词集合,并剔除所述关键词集合中权重值小于预设阈值的关键词;
根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果。
可选地,根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果的步骤,包括:
若所述关键词集合中的目标关键词位于所述标签分类关键词表中,则获取与所述目标关键词对应的分类等级以及参考分类结果;
针对于每个所述目标关键词,根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率;
将概率最高的参考分类结果确定为所述文本的分类结果。
可选地,根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率的计算公式如下:
P(classify)=Weight(x)*(10-level)/10
其中,p(classify)表示分类结果的概率,Weight(x)表示所述关键词的权重值,level表示所述分类等级。
可选地,将概率最高的参考分类结果确定为所述文本的分类结果的步骤之前,还包括:
若存在至少两个相同的参考分类结果,则针对相同的参考分类结果对应的概率进行合并,得到相同的参考分类结果的最终概率值。
第二方面,本发明提供了一种文本分类装置,采用文本分类方法实施处理文本分类,其中文本分类装置包括:
第一确定模块,用于确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重,其中所述基本权重用于表示基本关键词在所述文本中的重要程度;
第二确定模块,用于在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,并对所述标签关键词的基本权重加权;
第三确定模块,用于基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值;
第四确定模块,用于根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果,其中,所述标签分类关键词表中包括有关键词与分类结果的对应关系。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:本发明通过确定待分类的文本中的多个基本关键词,并确定用于表示基本关键词在所述文本中的重要程度;当在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,对所述标签关键词的基本权重加权,以增加该标签关键词的权重,与此同时,还基于预设的词向量模型确定与所述标签关键词关联的相关关键词,防止遗漏低频关键词;最终根据所述标签分类关键词表中关键词与分类结果的对应关系,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,综合确定出文本的分类结果,以提高分类结果的准确度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种文本分类方法步骤流程图;
图2是本发明实施例的图1中步骤S101的流程图;
图3是本发明实施例的词向量模型的训练过程的流程图;
图4是本发明实施例的图1中步骤S103的流程图;
图5是本发明实施例的图1中步骤S104的流程图;
图6是本发明实施例的图5中步骤S502的流程图;
图7是本发明实施例的一种文本分类装置模块示意图;
图8是本发明实施例的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
在实际应用中,文本的关键词是表达文档主题概念的词汇,一个好的关键词,既要有专指性又要准确的反应文本的主旨思想。
发明人在研究过程中发现,现有技术中的自动获取关键词的方法,大体可以概括为三类:现有技术1(基于统计信息的抽取方法),现有技术2(基于机器学习的抽取方法)以及现有技术3:(基于浅层语义分析的方法)。
具体而言,现有技术1中的基于统计信息的方法,是统计文本的各种特征,以实现关键词的获取,该方法具有通用性强的特点,但是往往有准确率低的缺点;现有技术2的基于机器学习的抽取方法,常见应用方法例如:SVM支持向量机的方法、最大熵模型等方法,但是这些方法往往需要大量的已经标注好关键词的语料作为训练文本,才能训练出机器学习的模型,然而标注训练语料恰恰是中文文本处理领域所匮乏的,需要投入大量的人力获取;现有技术3涉及一种基于浅层语义分析的方法,克服传统方法局限于字面匹配、缺乏语义理解的缺点,将词语语义特征融入关键词提取过程中,此种方法更符合人们的感知逻辑,具有较好的发展,但是涉及到词汇之间更复杂的逻辑关系时,无法准确的提取出能够代表文本的关键词,基于此,本发明提供了一种文本分类方法,如图1所示,所述方法包括:
步骤S101,确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重;
在该步骤中,初步确定待分类的文本中基本关键词的方式可以根据实际情况而定,例如基于预设的语料库使用TFIDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)方法获得文本中基本关键词,以及计算各基本关键词对应的基本权重,其中所述基本权重用于表示基本关键词在所述文本中的重要程度。
进一步地,如图2所示,步骤S101,确定待分类的文本中的多个基本关键词以及各关键词对应的基本权重的步骤,包括:
步骤S201,对所述文本进行预处理得到多个参考词汇;
在该步骤中,预处理的方式包括但不仅限于去停用词,添加用户词典进行分词等操作。
步骤S202,计算所述多个参考词汇中个参考词汇对应的词频;
在该步骤中,词频统计的方式就是对文本进行分词,然后对每个词在语料中出现的次数进行统计。
步骤S203,将所述词频大于预设阈值的参考词汇设为基本关键词;
在该步骤中,预设阈值可以根据实际情况而定,并将出现频率高的参考词汇设置为基本关键词,并进一步在其中筛选出能够表示文本主题的词。
步骤S204,计算所述基本关键词的逆文本频率;
在该步骤中,采用TFIDF方法获得各基本关键词的逆文本频率(IDF)。
步骤S205,根据所述基本关键词的词频和逆文本频率计算所述关键词的基本权重。
在该步骤中,如果用M代表语料库中的文本总数,L代表语料库中包含当前词的文本总数,当前词在待分类文本中的词频为N,待分类文本的总词数为T,则此关键词的IDF为:
Figure GDA0002968020420000071
则基本关键词的权重值Weight为:Weight=(N/T)*IDF;例如:针对于待分类文本“宝宝在洗澡时,是清理耳垢的最佳时间,所以宝妈们控制好水温,不要错过每次的洗澡时间哦”本发明的语料库的文本总数M=14万,包含“洗澡”词语的文本数为10000(即语料库中包含当前词的文本总数),且其在待分类文本中出现的词频为2(即N=2);待分类文本的总词数为:18(即T=18),则关键词“洗澡”的
Figure GDA0002968020420000072
对应的权重值Weight=(2/18)*2.14=0.23。
步骤S102,在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,并对所述标签关键词的基本权重加权;
在该步骤中,预设的标签分类关键词表中包含有多个标签关键词,在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词的目的在于,当在文本中发现有与该文本对应类别的标签分类关键词表中的标签关键词时,这个标签关键词有很大概率可以用于表示该文本的类别。
具体地,所述标签分类关键词表的类别可以根据实际情况而定,例如面向母婴领域的标签分类关键词表中的关键词进行加权,是因为此部分是由专业人员总结的特定领域的专业词汇,在一定程度上,可以避免专业领域的特殊词汇被忽略,较好的提高了抽取关键词的准确性。如待分类文本中的基本关键词“洗澡”在面向母婴领域的标签分类关键词表中,则“洗澡”被称作标签关键词,其基本权重值为0.23,在对其基本权重按照Weight=Weight(x)+1进行加权,则标签关键词“洗澡”的权重Weight=0.23+1=1.23。
另外,在本发明实施例中将不位于所述标签分类关键词表中的关键词的基本权重,确定为所述关键词对应的权重值,以保留不位于所述标签分类关键词表中的关键词的权重信息。
例如:“耳垢”不在标签分类关键词表中,假如其在步骤1中的待分类文本中对应的基本权重Weight=0.1;则经过此步骤,“耳垢”的权重仍然为0.1,且依然在基本关键词集合中。
步骤S103,基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值;
在该步骤中,为了获取到文本中频次较少,但却是文本的主旨所在的关键词,基于大规模语料,得到词向量的相关模型,具体地,所述词向量模型的训练过程,如图3所示,包括:
步骤S301,获取多个训练词汇以及各训练词汇对应的词频;
在该步骤中,获取训练词汇的步骤可以参照上述实施例中,从文本中确定基本关键词的步骤,例如将每条文本去停用词之后,添加用户词典分词等预处理操作之后的结果作为训练相关模型的训练样本。
步骤S302,依据词频从高到低的顺序选取前v个训练词汇构建训练样本;
在该步骤中,对输入的所有文本生成一个词汇表,每个词统计词频,按照词频从高到低排序,取最频繁的V个词,构成一个词汇表,即训练样本。
步骤S303,利用所述训练样本训练所述词向量模型直至收敛,以使所述词向量模型中存在有v个向量维度;
在该步骤中,输入所述词向量模型的词汇与v个向量维度中某个维度越接近,表示相关度越大。
在实际应用中,词向量模型可以结合word2vec,以及采用CBOW的方式实现词向量相关模型的训练,详细的步骤可以概括为:对输入的所有文本(14万条语料)生成一个词汇表,每个词统计词频,按照词频从高到低排序,取最频繁的V个词,构成一个词汇表。每个词都存在一个one-hot向量,向量的维度是V,如果该词在词汇表中出现过,则向量中词汇表中对应的位置为1,其他位置全为0。如果词汇表中不出现,则向量为全0;针对于每条训练文本,对训练文本中的每个词都生成一个one-hot向量,并且注意保留每个词的原始位置,以确保不丢失上下文相关信息。确定词向量的维数N,以及窗口大小window,对每个词生成2*window个训练样本,(i-window,i),(i-window+1,i),...,(i+window-1,i),(i+window,i),以使模型能学习到上下文相关信息。确定batch_size,注意batch_size的大小必须是2*window的整数倍,这确保每个batch包含了一个词汇对应的所有样本采用层次Softmax的训练算法,并通过神经网络迭代训练一定次数,得到输入层到隐藏层的参数矩阵,矩阵中每一行的转置即是对应词的词向量。将以上训练完成获得的矩阵进行保存,即完成词向量模型的训练。
进一步地,如图4所示,步骤S103,基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值的步骤,包括:
步骤S401,基于预设的词向量模型确定与所述标签关键词相关的多个参考词;
在本发明实施例中,如果文本的主旨关键词在文本中出现的频次较少,通过以上的TFIDF方法获取的关键词集合,大概率不包含此主旨关键词,但是一定与文本中的某个领域关键词具有较强的相关性;所以,本发明采用找文本中存在的标签关键词有联系的相关关键词;并且如果这些相关关键词在文本中出现,则对应增加权重,以使该相关关键词成为文本主旨关键词的可能性增加。
步骤S402,在所述多个参考词中确定位于所述文本中的参考词为相关关键词;
在实际应用中,面向母婴信息领域,主要是根据母婴领域语料,获得特定领域的词向量模型,模型可以通过输入关键词,在语料中,找到跟输入关键词最相关的相关关键词集合;由于标签关键词是专业领域人员整理的词表,但是不能保证全面性,所以采用大规模语料得到相关词挖掘模型,再加上权威的标签关键词,获取与标签关键词最近的相关词,得到相关关键词集合,能够有效防止遗漏关键词的情况出现,进而可以保证分析结果的精确度。
步骤S403,计算与所述相关关键词对应的权重值。
在该步骤中,通过词向量模型,基于向量之间的距离,实现标签关键词的相关关键词和对应权重,按照一定的规则和权重的加权计算得到相关关键词及其权重。
具体地:词向量相关模型实质为一个矩阵;结合相关模型的矩阵获取标签关键词的词向量;针对于矩阵中的向量,通过向量之间的距离,获取与该标签关键词向量比较相近的词向量,作为相关关键词的向量,之后若通过标签分类关键词表中的标签关键词找到对应的词语,则对应词语作为相关关键词;而标签关键词向量与相关关键词向量之间的距离,作为相关关键词的基本权重值。
较佳地,从待分类文本中抽取的关键词,一定是在文本中出现的词语;如果抽取的关键词不在句子中出现,在一定程度上是不符合常理的;所以,本发明将是否在待分类文本中出现作为相关关键词的筛选条件。而关于相关关键词的权重,因其为标签关键词的相近词汇,与特定领域的专业词汇相似度比较高,所以需要对相关关键词的权重进行加权计算,以保证抽取关键词的准确性。
遍历以上获取的相关关键词集合,如果当前相关关键词在待分类文本中出现,则将其作为相关关键词,并且对其基本权重值进行加权计算,具体可以参照上述实施例,此处便不再赘述。
例如:通过相关模型,标签关键词“洗澡”的TopN(前N个)相关关键词集合为:[宝宝洗澡,洗头,淋浴,洗脚,换衣服,耳垢,洗脸,抚触,洗头发,泡澡];对应的权重集合为[0.71,0.66,0.61,0.60,0.59,0.59,0.57,0.57,0.55,0.54];而根据以上筛选规则,通过“洗澡”得到的相关关键词为“耳垢”,对应的基本权重为:0.59,经过加权之后的权重值Weight=0.59+0.5=1.09。
步骤S104,根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果,其中,所述标签分类关键词表中包括有关键词与分类结果的对应关系。
在本发明实施例中,通过确定待分类的文本中的多个基本关键词,并确定用于表示基本关键词在所述文本中的重要程度;当在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,对所述标签关键词的基本权重加权,以增加标签关键词的权重,与此同时,还基于预设的词向量模型确定与所述标签关键词关联的相关关键词,防止遗漏低频关键词;最终根据所述标签分类关键词表中关键词与分类结果的对应关系,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,综合确定出文本的分类结果,以提高分类结果的准确度。
进一步地,在本发明的又一实施例中,还提供了一种具体确定文本分类结果的实施方式,如图5所示,步骤S104,根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果,包括:
步骤S501,创建包含有所述基本关键词、标签关键词以及相关关键词的关键词集合,并剔除所述关键词集合中权重值小于预设阈值的关键词;
在该步骤中,得的基本关键词集合,标签关键词集合,相关关键词集合以及各类关键词对应的权重,并将上述三个集合的并集作为所有关键词集合;依据关键词集合权重进行排序,获得TopN(前N个)作为待分类的文本的关键词,并且保留各关键词对应的权重信息,用于后续分类计算。
步骤S502,根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果。
在本发明实施例中,每个分类下有多个标签,一个标签也可能属于多个分类,分类本身是一个层次的关系。计算标签对分类的贡献度要考虑到标签命中在分类中的层级,并且要考虑标签本身针对分类句子本身的贡献度。
鉴于此种情况,本发明将通过计算待分类文本关键词映射到各个4级分类的概率值,以确定待分类文本所属的具体类别。如果当前所有关键词映射到某个分类的概率越大,则说明当前待分类文本属于此分类的可能性越大;反之,则属于此分类的可能性越小。
如图6所示,步骤S502,根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果,包括:
步骤S601,若所述关键词集合中的目标关键词位于所述标签分类关键词表中,则获取与所述目标关键词对应的分类等级以及参考分类结果;
步骤S602,针对于每个所述目标关键词,根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率;
具体地,步骤S602,根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率的计算公式如下:
P(classify)=Weight(x)*(10-level)/10
其中,p(classify)表示分类结果的概率,Weight(x)表示所述关键词的权重值,level表示所述分类等级。
步骤S603,将概率最高的参考分类结果确定为所述文本的分类结果。
在实际应用中,具体计算关键词映射到某个类别的概率,可以用如下步骤:
遍历所有关键词集合W中的关键词,判断当前关键词是否在面向母婴领域的标签分类关键词表中,如果是,获取当前关键词所属分类等级level,如果level>=4,获取当前关键词所属的4级分类为classify;如果level<4,则关键词所属的分类为对应级别的分类;如果否,则不参与待分类文本的类别确定。
在计算关键词映射到某个类别概率的过程中,发明人发现如果当前关键词的等级level越大,在标签分类关键词表中,其下的标签就会越少,则其属于当前类别的概率就会稍微降低;而关键词的权重值,体现了对于待分类文本的重要性,所以本发明的概率计算公式,充分考虑单个关键词的level和其权重值,具体的计算公式为:P(classify)=Weight(x)*(10-level)/10。
但是,在极端情况下,所有关键词集合W中可能存在所属4级分类classify相同;鉴于此种情况,本发明对同一分类的概率值进行累加操作,即:如果多个关键词(W1,W2,…,W(n))所属4级分类结果相同,基于此,如图7所示,步骤S603,将概率最高的参考分类结果确定为所述文本的分类结果的步骤之前,还包括:
若存在至少两个相同的参考分类结果,则针对相同的参考分类结果对应的概率进行合并,得到相同的参考分类结果的最终概率值;
在该步骤中,若存在多个关键词对应的参考分类结果相同,则需要获取多个关键词的权重值以及关键词对应的分类等级计算参考分类结果的最终概率具体地,本发明实施例对同一分类结果的概率值进行累加操作,即如果多个关键词(W1,W2,…,W(n))所属4级分类结果相同,则
Figure GDA0002968020420000131
Figure GDA0002968020420000132
其中level(x)为关键词W(x)对应的分类等级。
进一步地,在实际应用中,通过获取文本关键词集合对应的所有类别(Classify(1),Classify(2),…,Classify(n)),以及每个类别对应概率,根据概率大小进行排序,而其中最大概率值对应类别,即被认为当前待分类文本所属类别,确定分类结果,针对于实际应用,基于以上的待分类文本,假设获取的关键词集合为(洗澡,耳垢,水温,宝宝,清理),其对应的权重为(1.23,1.09,1.01,0.97,0.82),在标签分类关键词表中对应的分类等级为(4,5,5,0,0),其中参与待分类文本类别确定的关键词集合为(洗澡,耳垢,水温),同时(洗澡,水温)同属于“洗澡”的4级分类,(耳垢)属于“掏耳朵”的4级分类;则根据以上的计算规则,得出待分类文本属于“洗澡”类别的概率为:p(洗澡)=1.23*(10-4)/10+1.01*(10-5)/10=1.243;属于“掏耳朵”类别的概率为:P(掏耳朵)=1.09*(10-5)/10=0.54,最终实现文本的分类。
本发明实施例不仅通过预先创建的标签分类关键词表,协助筛选出与文本相关度最高的主旨关键词,还采用基于统计TFIDF和词向量模型相结合的方法抽取文本相关关键词,防止主旨关键词的遗漏,实现对文本中关键词确定方式精确度的提升,并结合自主研发的概率推算公式,进一步确定文本分类结果,不仅能够客观的分析文本,还能够提升自动化计算的精确度。
如图8所示,在本发明提供的又一实施例中,本发明实施例还提供了一种文本分类装置,采用上述文本分类方法实施处理文本分类,其中文本分类装置包括:
第一确定模块01,用于确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重,其中所述基本权重用于表示基本关键词在所述文本中的重要程度;
第二确定模块02,用于在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,并对所述标签关键词的基本权重加权;
第三确定模块03,用于基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值;
第四确定模块04,用于根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果,其中,所述标签分类关键词表中包括有关键词与分类结果的对应关系。
在本发明的又一实施例中,还提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现方法实施例所述的文本分类方法。
本发明实施例提供的电子设备,处理器通过确定待分类的文本中的多个基本关键词,并确定用于表示基本关键词在所述文本中的重要程度;当在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,对所述标签关键词的基本权重加权,以增加该标签关键词的权重,与此同时,还基于预设的词向量模型确定与所述标签关键词关联的相关关键词,防止遗漏低频关键词;最终根据所述标签分类关键词表中关键词与分类结果的对应关系,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,综合确定出文本的分类结果,以提高分类结果的准确度。上述电子设备提到的通信总线1140可以是串行外设接口总线(Serial Peripheral Interface,简称SPI)或者集成电路总线(Inter-IntegratedCircuit,简称ICC)等。该通信总线1140可以分为地址总线、数据总线、控制总线等。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种文本分类方法,其特征在于,所述方法包括:
确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重,其中所述基本权重用于表示基本关键词在所述文本中的重要程度;
在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,并对所述标签关键词的基本权重加权;
基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值;
根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果,其中,所述标签分类关键词表中包括有关键词与分类结果的对应关系;
基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值的步骤,包括:
基于预设的词向量模型确定与所述标签关键词相关的多个参考词;
在所述多个参考词中确定位于所述文本中的参考词为相关关键词;
计算与所述相关关键词对应的权重值。
2.根据权利要求1所述的文本分类方法,其特征在于,确定待分类的文本中的多个基本关键词以及各关键词对应的基本权重的步骤,包括:
对所述文本进行预处理得到多个参考词汇;
计算所述多个参考词汇中各参考词汇对应的词频;
将所述词频大于预设阈值的参考词汇设为基本关键词;
计算所述基本关键词的逆文本频率;
根据所述基本关键词的词频和逆文本频率计算所述关键词的基本权重。
3.根据权利要求1所述的文本分类方法,其特征在于,还包括:
将不位于所述标签分类关键词表中的关键词的基本权重,确定为所述关键词对应的权重值,以保留不位于所述标签分类关键词表中的关键词的权重信息。
4.根据权利要求1所述的文本分类方法,其特征在于,所述词向量模型的训练过程,包括:
获取多个训练词汇以及各训练词汇对应的词频;
依据词频从高到低的顺序选取前v个训练词汇构建训练样本;
利用所述训练样本训练所述词向量模型直至收敛,以使所述词向量模型中存在有v个向量维度,其中,输入所述词向量模型的词汇与v个向量维度中某个维度越接近,表示相关度越大。
5.根据权利要求1所述的文本分类方法,其特征在于,根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果的步骤,包括:
创建包含有所述基本关键词、标签关键词以及相关关键词的关键词集合,并剔除所述关键词集合中权重值小于预设阈值的关键词;
根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果。
6.根据权利要求5所述的文本分类方法,其特征在于,根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果的步骤,包括:
若所述关键词集合中的目标关键词位于所述标签分类关键词表中,则获取与所述目标关键词对应的分类等级以及参考分类结果;
针对于每个所述目标关键词,根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率;
将概率最高的参考分类结果确定为所述文本的分类结果。
7.根据权利要求6所述的文本分类方法,其特征在于,根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率的计算公式如下:
Figure 502494DEST_PATH_IMAGE001
其中,p(classify)表示分类结果的概率,Weight(x)表示所述关键词的权重值,level表示所述分类等级。
8.根据权利要求6所述的文本分类方法,其特征在于,将概率最高的参考分类结果确定为所述文本的分类结果的步骤之前,还包括:
若存在至少两个相同的参考分类结果,则针对相同的参考分类结果对应的概率进行合并,得到相同的参考分类结果的最终概率值。
9.一种文本分类装置,其特征在于,采用如权利要求1-8任一项所述的文本分类方法实施处理文本分类,其中文本分类装置包括:
第一确定模块,用于确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重,其中所述基本权重用于表示基本关键词在所述文本中的重要程度;
第二确定模块,用于在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词,并对所述标签关键词的基本权重加权;
第三确定模块,用于基于预设的词向量模型确定与所述标签关键词关联的相关关键词,并确定与所述相关关键词对应的权重值;
第四确定模块,用于根据所述标签分类关键词表,所述基本关键词、标签关键词、相关关键词以及各自对应的权重值,确定所述文本的分类结果,其中,所述标签分类关键词表中包括有关键词与分类结果的对应关系;
所述第三确定模块,具体用于基于预设的词向量模型确定与所述标签关键词相关的多个参考词;
在所述多个参考词中确定位于所述文本中的参考词为相关关键词;
计算与所述相关关键词对应的权重值。
CN202110046183.0A 2021-01-14 2021-01-14 一种文本分类方法和装置 Active CN112380350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110046183.0A CN112380350B (zh) 2021-01-14 2021-01-14 一种文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110046183.0A CN112380350B (zh) 2021-01-14 2021-01-14 一种文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN112380350A CN112380350A (zh) 2021-02-19
CN112380350B true CN112380350B (zh) 2021-05-07

Family

ID=74590082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110046183.0A Active CN112380350B (zh) 2021-01-14 2021-01-14 一种文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN112380350B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554053B (zh) * 2021-05-20 2023-06-20 重庆康洲大数据有限公司 一种比较中药处方相似性的方法
CN113434677A (zh) * 2021-06-28 2021-09-24 京东城市(北京)数字科技有限公司 用于提取文本关键词的方法、装置、电子设备和介质
CN113934848B (zh) * 2021-10-22 2023-04-07 马上消费金融股份有限公司 一种数据分类方法、装置和电子设备
CN115409130B (zh) * 2022-10-11 2023-08-15 北京睿企信息科技有限公司 一种更新分类标签的优化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN103885934A (zh) * 2014-02-19 2014-06-25 中国专利信息中心 一种专利文献关键短语自动提取方法
CN108573047A (zh) * 2018-04-18 2018-09-25 广东工业大学 一种中文文本分类模型的训练方法及装置
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101507521B1 (ko) * 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치
CN105956031A (zh) * 2016-04-25 2016-09-21 深圳市永兴元科技有限公司 文本分类方法和装置
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
CN111753079A (zh) * 2019-03-11 2020-10-09 阿里巴巴集团控股有限公司 文本分类方法、装置、电子设备以及计算机可读存储介质
CN111625647B (zh) * 2020-05-25 2023-05-02 王旭 一种无监督的新闻自动分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN103885934A (zh) * 2014-02-19 2014-06-25 中国专利信息中心 一种专利文献关键短语自动提取方法
CN108573047A (zh) * 2018-04-18 2018-09-25 广东工业大学 一种中文文本分类模型的训练方法及装置
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向领域的文本分类与挖掘关键技术研究;胡明涵;《中国博士学位论文全文数据库》;20111031;I138-95 *

Also Published As

Publication number Publication date
CN112380350A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN112380350B (zh) 一种文本分类方法和装置
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
TWI653542B (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
CN106156204B (zh) 文本标签的提取方法和装置
Yang et al. Region based image annotation through multiple-instance learning
WO2022126810A1 (zh) 文本聚类方法
CN112347778B (zh) 关键词抽取方法、装置、终端设备及存储介质
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
US20180046721A1 (en) Systems and Methods for Automatic Customization of Content Filtering
CN112131863A (zh) 一种评论观点主题抽取方法、电子设备及存储介质
WO2022141876A1 (zh) 基于词向量的搜索方法、装置、设备及存储介质
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN108228541A (zh) 生成文档摘要的方法和装置
CN112052356A (zh) 多媒体分类方法、装置和计算机可读存储介质
CN107832467A (zh) 一种基于改进的Single‑pass聚类算法的微博话题检测方法
KR101545050B1 (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN107908649B (zh) 一种文本分类的控制方法
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN115249012A (zh) 一种基于关键短语的知识图谱可视化方法及系统
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Unit 1, Room 202, Club 3, floor 2, building 2, No.1 xidawang Road, Chaoyang District, Beijing

Applicant after: Beijing yuxueyuan Health Management Center Co.,Ltd.

Address before: 408, floor 4, building 1, yard 16, Taiyanggong Middle Road, Chaoyang District, Beijing

Applicant before: BEIJING CUIYUTAO CHILDREN HEALTH MANAGEMENT CENTER Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant