CN114492420A - 文本分类方法、装置、设备及计算机可读存储介质 - Google Patents

文本分类方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114492420A
CN114492420A CN202210340732.XA CN202210340732A CN114492420A CN 114492420 A CN114492420 A CN 114492420A CN 202210340732 A CN202210340732 A CN 202210340732A CN 114492420 A CN114492420 A CN 114492420A
Authority
CN
China
Prior art keywords
text
vocabulary
feature vector
semantic
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210340732.XA
Other languages
English (en)
Other versions
CN114492420B (zh
Inventor
蒋永余
王俊艳
王璋盛
曹家
罗引
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Wenge Technology Co ltd filed Critical Beijing Zhongke Wenge Technology Co ltd
Priority to CN202210340732.XA priority Critical patent/CN114492420B/zh
Publication of CN114492420A publication Critical patent/CN114492420A/zh
Application granted granted Critical
Publication of CN114492420B publication Critical patent/CN114492420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种文本分类方法、装置、设备及计算机可读存储介质,该方法包括:对待分类的文本进行分词处理,得到文本中包含的词汇;从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量;响应于词汇对应的语义有多个,基于词汇在所述文本中的上下文,确定词汇对应的每个语义的权重;基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量;基于文本中包含的词汇的特征向量,确定文本的特征向量;基于文本的特征向量对文本进行分类。通过上述技术方案,将文本转化到量子领域进行处理,减少计算成本的同时,提升了文本的分类准确率,提升用户的使用体验。

Description

文本分类方法、装置、设备及计算机可读存储介质
技术领域
本公开涉及文本分类领域,尤其涉及一种文本分类方法、装置、设备及计算机可读存储介质。
背景技术
近年来,深度学习在文本分类领域取得了突破性进展,基于词向量的深度学习文本分类模型采用文本的词向量表示方法,把文本表示成连续、稠密的词向量,再输入神经网络进行分类计算。
通常情况下,深度学习在文本分类领域取得的进展,主要通过不断优化和提出新的神经网络去提高模型学习文本上下文依赖关系的能力,然而,文本中较长的上下文会导致更稀疏的数据结构和更大的内存损耗,因此上下文关系解析也会带来更高的计算成本,同时现有技术的方法对词与词之间的涌现意义的表现也存在一定困难,例如“象牙塔”这个短语很难被建模为“象牙”和“塔”的语义组合。因而针对文本的分类不仅存在计算成本高的问题,还会存在分类准确率低的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种文本方法、装置、设备及计算机可读存储介质,以实现对待分类文本的准确分类。
第一方面,本公开实施例提供一种文本分类方法,包括:
对待分类的文本进行分词处理,得到文本中包含的词汇;
从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量;
响应于词汇对应的语义有多个,基于词汇在文本中的上下文,确定词汇对应的每个语义的权重;
基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量;
基于文本中包含的词汇的特征向量,确定文本的特征向量;
基于文本的特征向量对文本进行分类。
第二方面,本公开实施例提供一种文本分类装置,包括:
词汇获取模块,用于对待分类的文本进行分词处理,得到文本中包含的词汇;
位置向量获取模块,用于从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量;
语义权重确定模块,用于响应于词汇对应的语义有多个,基于词汇在文本中的上下文,确定词汇对应的每个语义的权重;
词汇特征向量获取模块,用于基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量;
文本特征向量确定模块,用于基于文本中包含的词汇的特征向量,确定文本的特征向量;
文本分类模块,用于基于文本的特征向量对文本进行分类。
第三方面,本公开实施例提供一种计算机设备,包括:
存储器;
处理器;以及
计算机程序;
其中,计算机程序存储在所述存储器中,并被配置为由处理器执行以实现如第一方面的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现第一方面的方法。
本公开实施例提供的文本分类方法、装置、设备及计算机可读存储介质,通过对待分类的文本进行分词处理,得到文本中包含的词汇;从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量;响应于词汇对应的语义有多个,基于词汇在所述文本中的上下文,确定词汇对应的每个语义的权重;基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量;基于文本中包含的词汇的特征向量,确定文本的特征向量;基于文本的特征向量对文本进行分类。通过上述技术方案,可以将文本转化到量子领域进行分类处理,从而代替现有技术中利用多层神经网络进行文本分类的计算方法,降低了文本分类的计算成本,并有效地提升了文本的分类准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种文本分类方法的流程示意图;
图2为本公开实施例提供的另一种文本分类方法的流程示意图;
图3为本公开实施例提供的一种文本分类装置的结构示意图;
图4为本公开实施例提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
通常情况下,通过不断优化和提出新的神经网络去提高模型学习文本上下文依赖关系的能力,会导致更高的计算成本,并且无法提升文本分类的准确率。针对该问题,本公开实施例提供了一种文本分类方法,下面结合具体的实施例对该方法进行介绍。
图1为本公开实施例提供的文本分类方法的流程示意图。该方法可以由一种文本分类装置执行,该文本分类装置可以采用软件和/或硬件的方式实现,该文本分类装置可配置于诸如服务器、终端等计算机设备中,其中,终端例如可以包括电脑或平板电脑等。
下面对图1所示的文本分类方法进行介绍,该方法包括的步骤如下:
S110、对待分类的文本进行分词处理,得到文本中包含的词汇。
在本公开实施例中,待分类文本可以是从互联网中获取的新闻文本,该新闻文本通过线上多媒体平台发布,其中所述多媒体平台可以但不限于是微博、贴吧等;待分类文本也可以是用户人工输入的一篇文本内容,其中待分类文本的获取方式在此不做限定。待分类文本的文本类型可以包括但不限于例如体育、科技、文学等多个类型的文本。对待分类文本进行分词处理,可以使用例如“jieba”等分词工具的方法对待分类文本进行分词处理,也可以使用其他分词方法对待分类文本进行分词处理,在此不做限定。
示例的,在本公开的一些实施例中,对待分类的文本进行分词处理,得到文本中包含的词汇,可以包括如下步骤:
S1101、对待分类的文本进行语句划分处理,得到文本中包含的语句。
示例的,在一种语句划分方式中,可以根据待分类文本中标点符号的断句,对待分类文本进行划分,得到该待分类文本中包含的所有语句。
举例来说,假设待分类文本为从互联网媒体平台中获取到的新闻文本,在对该待分类文本进行分词处理时,可以根据其标点符号的断句,将文本分为K个语句的集合
Figure DEST_PATH_IMAGE001
,每个语句以一个句号结尾。
S1102、对语句进行分词处理,得到语句中包含的词汇。
对待分类文本的每个语句进行词汇的划分,示例地,在一种词汇发划分方式中,可以根据词典对待分类文本进行词汇划分,根据词典中包含的所有词汇对语句进行分词处理;示例地,在另一种词汇划分方式中,还可以依据分词模型等工具,通过分词模型的分词逻辑,以词汇为最小单位,对语句进行分词处理。另外,还可以包括其他分词方式,通过分词处理以得到待分类文本中包含的所有词汇。
举例来说,将待分类文本分为每个语句后,同时对每条语句进行分词处理,以词为最小单位,对每个语句进行分词处理,得到每条语句划分为m个词汇的集合
Figure DEST_PATH_IMAGE002
S120、从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量。
在本公开实施例中,词汇与其使用的上下文存在相关语义联系。其中语义库预先设定,存储有待分类文本中所有词汇的一个或多个语义。
具体地,在得到待分类文本的所有词汇后,可以从语义库中查找获得每个词汇对应的语义,以及每个语义在语义库中的位置,进而根据该语义的位置得到语义的位置向量。例如,语义库中包括词汇A的5个语义,语义库中共存储有N个语义,N为大于或等于5的整数;则如果词汇A对应的第一个语义在语义库的第一个存储位置上,则词汇A的第一个语义的位置向量可以表示为{Ψ1,0, 0,0, ...,0n};类似的,假设第五个语义的位置向量可以表示为{0,0, 0,0, Ψ5,...,0n}。
S130、响应于词汇对应的语义有多个,基于词汇在文本中的上下文,确定词汇对应的每个语义的权重。
在本公开实施例中,词汇对应语义的权重可以是该语义与该词汇之间的语义关联程度的强弱,根据权重表示的数值越大,则该语义与该词汇之间的语义关联程度越强;若权重表示的数值越小,则该语义与该词汇之间的语义关系程度越弱。
具体地,在本公开实施例中可以利用量子复数语言模型对词汇以及词汇的上下文进行处理,得到该词汇与每个语义之间的复数值权重。
S140、基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量。
在本公开实施例中,基于词汇对应的每个语义的权重和词汇对应的多个语义的位置向量,将该词汇建模为定义在N维希尔伯特空间Hn上的量子概念,即每个词汇可以使用希尔伯特空间Hn上的基础向量(即语义的位置向量)的叠加态来表示,即多个语义的位置向量与复数值权重的线性组合。也就是说,实际应用中,可以通过
Figure DEST_PATH_IMAGE003
表示词汇在希尔伯特空间Hn上的特征向量。
其中,
Figure DEST_PATH_IMAGE004
是第j个语义的权重,可以利用量子复数语言模型处理得到,该权重是一个复数,
Figure DEST_PATH_IMAGE005
是非负实数且满足
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
为实数
Figure DEST_PATH_IMAGE008
对应的复数相位且满
Figure DEST_PATH_IMAGE009
。复数值权重也可以依据欧拉公式重新定义为
Figure DEST_PATH_IMAGE010
,其中
Figure 250714DEST_PATH_IMAGE007
Figure 26909DEST_PATH_IMAGE008
为可训练参数,
Figure DEST_PATH_IMAGE011
为词汇的第j个语义基态。
S150、基于文本中包含的词汇的特征向量,确定文本的特征向量。
在本公开实施例中,在得到每个词汇的特征向量后,可以由待分类文中所有词汇的特征向量经过投影测量并叠加来表示待分类文本的特征向量。
示例的,在本公开的一些实施例中,基于文本中包含的词汇的特征向量,确定文本的特征向量,具体包括如下步骤:
S1501、基于语句中包含的词汇的特征向量,确定语句的特征向量。
其中,基于语句中包含的词汇的特征向量,确定语句的特征向量,还包括:
将语句中包含的词汇的特征向量投影到语句的最后一个词汇上,将最后一个词汇的特征向量作为语句的特征向量。
在本公开实施例中,假设可以用一个词汇的特征构成一个语句状态空间的基态,根据量子复数语言模型中的投影测量可以计算第一个词汇的特征F(t1):
Figure DEST_PATH_IMAGE012
其中,密度矩阵
Figure DEST_PATH_IMAGE013
为构成语句量子系统的一个可观测量,用于表示该语句上每个词汇的概率分布;
Figure DEST_PATH_IMAGE014
表示第一个词汇构成的观测算子,即该语句在塌缩到第一个词汇上的状态特征表示。在本实施例中,
Figure 993596DEST_PATH_IMAGE013
为可训练的复数参数,复数神经网络
Figure DEST_PATH_IMAGE015
也可以替换为CNN,LSTM和Transformer等神经网络及其变体的复数域拓展网络。
通过计算一个语句中第一个词汇的特征向量,经过第一个词汇的观测后,可以得到该语句构成的量子系统(即该语句上词汇的概率分布)变为第一个词汇的观测算子观测后的状态:
Figure DEST_PATH_IMAGE016
其中,分母
Figure DEST_PATH_IMAGE017
是对密度矩阵
Figure 982281DEST_PATH_IMAGE013
的归一化计算,
Figure DEST_PATH_IMAGE018
为求特征矩阵迹的操作。
进一步地,为保留在量子复数语言模型中可观测量
Figure 452445DEST_PATH_IMAGE013
的信息分布,进行酉演化运算,得到
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
其中,U为一个酉矩阵,U满足性质
Figure DEST_PATH_IMAGE021
,其中
Figure DEST_PATH_IMAGE022
是一个单位矩阵,UH是U的共轭转置矩阵,酉演化过后的
Figure 665121DEST_PATH_IMAGE019
可以称之为演化状态,表示为该语句在观测第一个词汇后该语句上每个词汇的概率分布状态。在本公开实施例中,U为满足酉矩阵性质的可训练的复数参数。
将第一次词汇的观测后的演化状态作为新的可观测量,通过量子复数语言模型投影测量可以计算第i个新闻词的特征表示:
Figure DEST_PATH_IMAGE023
同样地,经过第i个词汇观测后,演化状态
Figure DEST_PATH_IMAGE024
就会变换成词汇测量算子观测后的状态:
Figure DEST_PATH_IMAGE025
此时,酉演化后的观测状态为:
Figure DEST_PATH_IMAGE026
通过重复计算直到计算完该语句中所有词汇的特征向量,整个语句的特征表示
Figure DEST_PATH_IMAGE027
即为最后一个新闻词的特征表示。
在本公开实施例中,获取待分类文本中词汇之间的依赖关系的能力体现在每一步酉演化的计算上,根据酉演化后的观测状态,能够确定词与词之间的依赖关系。
S1502、基于文本中包含的语句的特征向量,确定文本的特征向量。
其中,基于文本中包含的语句的特征向量,确定文本的特征向量,还包括:
将文本中包含的语句的特征向量进行叠加,得到所有语句的叠加特征向量,将叠加特征向量作为文本的特征向量。
在本公开实施例中,每一个语句都最终形成一个特征表示
Figure DEST_PATH_IMAGE028
,假设可以用语句特征构成一个状态空间的基态,则整个待分类文本可以用状态空间的叠加态密度矩阵表示:
Figure DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE030
为第i个新闻语句Si在整个新闻文本中的重要性(可以是词频、逆文本频率指数(即idf或tf-idf等值)),并需要满足归一化条件
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
表示第i个新闻语句Si的测量算子。
S160、基于文本的特征向量对文本进行分类。
在本本公开实施例中,根据复数量子语言模型计算的待分类文本的特征向量表示,可以通过复数神经网络预测待分类文本l为第i类别的概率为:
Figure DEST_PATH_IMAGE033
其中复数神经网络
Figure DEST_PATH_IMAGE034
也可以替换为CNN,LSTM和Transformer等神经网络及其变体的复数域拓展网络。
本公开实施例通过对待分类的文本进行分词处理,得到文本中包含的词汇;从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量;响应于词汇对应的语义有多个,基于词汇在文本中的上下文,确定词汇对应的每个语义的权重;基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量;基于文本中包含的词汇的特征向量,确定文本的特征向量;基于文本的特征向量对文本进行分类。通过上述技术方案,可以将文本转化到量子领域,通过构造文本特征向量代替现有技术中利用多层神经网络进行文本分类的计算方法,降低文本分类的计算成本,并有效地提升了文本的分类准确率,进而提升用户获取新闻信息的体验。
在上述实施例的基础上,在对待分类文本进行类别预测分类之前,还可以使用语言模型及多分类任务中常用的损失函数去训练模型。
待分类文本语言模型任务的损失函数为计算语句的Perplexity(困惑度)的值:
Figure DEST_PATH_IMAGE035
其中,
Figure DEST_PATH_IMAGE036
为第i个语句Si的出现概率,C为待分类文本中词的个数,ti表示待分类文本第i个语句的特征向量。
其中,
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
Perplexity(L1)值用于度量语言模型预测样本的好坏程度,其中L1值越小,表示该模型越好。
新闻多分类任务的损失函数为计算新闻文本的交叉熵损失函数:
Figure DEST_PATH_IMAGE039
其中,Z为类别的数目,yi用于表示类别为第i类的人工标记文本,Q(yi)表示人工标记文本为第i类别的概率,li用于表示类别为第i类的待分类文本,P(li)为本发明计算的待分类文本为第i类别的概率,L2的值用于表示神经网络预测待分类文本的结果与人工标记文本实际标签的相近程度,L2的值越小,表示神经网络预测待分类文本的结果越准确。
最终的损失函数为:L=L1+L2,模型训练的目标使L尽可能减小。通过反向传播的训练方法,最后模型通过Adam优化器来更新模型的参数。
本公开实施例通过对构造词汇特征向量的量子复数语言模型,和对待分类文本进行预测的神经网络进行模型训练,能够提高将文本转化为量子领域进行分类处理的效率,并进一步提高了文本分类的准确性。
图2为本公开另一实施例提供的文本分类方法的流程示意图,如图2所示,该方法包括如下几个步骤:
S210、对待分类的文本进行分词处理,得到文本中包含的词汇。
具体的,S210和S110的实现过程和原理一致,此处不再赘述。
S220、基于词汇与身份标识之间的映射关系,确定文本中包含的词汇的身份标识。
具体地,在获得待分类文本的词汇后,根据预先设定好的词汇词表,词表中存有每个词汇对应的身份标识,根据词汇于其对应的身份标识之间的对应关系,基于词表可以确定待分类文本中每个词汇的身份标识。
示例地,例如待分类文本中存在一个“苹果”的词汇,对应的,在预设的此表中,“苹果”在词表中对应的身份标识为101,则可以确定“苹果”在待分类文中基于词表的身份标识。
S230、基于词汇的身份标识,从语义库中查找得到词汇对应的语义,以及语义在语义库中的位置。
具体的,得到待分类文本中每个词汇的身份标识后,基于得到的每个词汇的身份标识和潜在语义,从语义库中查找得到该词汇对应的语义,以及词汇对应的语义在语义库中的位置。
S240、基于语义在语义库中的位置,生成语义的位置向量。
具体地,S240与S120的实现过程和原理一致,在此不再赘述。
S250、响应于词汇对应的语义有多个,基于词汇在文本中的上下文,确定词汇对应的每个语义的权重。
具体地,S250和S130的实现过程和原理一致,在此不再赘述。
S260、基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量。
具体的,S260和S140的实现过程和原理一致,此处不再赘述。
S270、基于语句中包含的词汇的特征向量,确定语句的特征向量。
具体的,S270和S1501的实现过程和原理一致,此处不再赘述。
可选的,在确定语句的特征向量之前,对待分类文本语句所包含的词汇集合Si进行判断是否为空:当判断该词汇集合为空时,则表示该词汇集合中的所有词汇都已经过向量特征表示,此时该语句的最后一个词汇的特征向量即表示为该语句的特征向量;当判断该词汇集合不为空时,则表示该词汇集合中还有词汇没有经过向量特征表示,因此重复词汇构造复数词向量的步骤,直至词汇集合中所有词汇都构造为复数词向量。
S280、基于文本中包含的语句的特征向量,确定文本的特征向量。
具体的,S280和S1502的实现过程和原理一致,此处不再赘述。
可选地,在确定文本的特征向量之前,对待分类文本中包含的语句集合A进行判断是否为空:当判断该语句集合为空时,则表示待分类文本中的所有语句都已经经过向量特征表示,此时再进行所有语句特征向量的叠加态计算用于表示待分类文本的特征向量;当判断该语句集合不为空时,则表示该语句集合中仍有语句没有经过向量特征表示,此时继续重复构造语句特征向量的步骤,直至语句集合中所有语句都经过向量特征表示。
S290、基于文本的特征向量对文本进行分类。
具体的,S290和S160的实现过程和原理一致,此处不再赘述。
本公开实施例通过对每个词汇进行映射词表得到对应的身份标识,得到每个词汇对应的复数词向量;通过词汇特征向量转化为语句特征向量,将语句特征向量转化为文本特征向量,以实现将文本概念类比到量子领域,从而进一步的降低文本分类的计算成本,并提高文本分类的准确率。
图3为本公开实施例提供的文本分类装置的结构示意图。本公开实施例提供的文本分类装置可以执行文本分类方法实施例提供的处理流程,如图3所示,文本分类装置300包括:词汇获取模块310、位置向量获取模块320、语义权重确定模块330、词汇特征向量确定模块340、文本特征向量确定模块350、文本分类模块360。
词汇获取模块310,用于对待分类的文本进行分词处理,得到文本中包含的词汇。
位置向量获取模块320,用于从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量。
语义权重确定模块330,用于响应于词汇对应的语义有多个,基于词汇在文本中的上下文,确定词汇对应的每个语义的权重。
词汇特征向量确定模块340,用于基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量。
文本特征向量确定模块350,用于基于文本中包含的词汇的特征向量,确定文本的特征向量。
文本分类模块360,用于基于文本的特征向量对文本进行分类。
本公开实施例提供的文本分类装置,通过对待分类的文本进行分词处理,得到文本中包含的词汇;从预设的语义库中查找词汇对应的语义,以及语义在语义库中的位置,得到语义的位置向量;响应于词汇对应的语义有多个,基于词汇在文本中的上下文,确定词汇对应的每个语义的权重;基于词汇对应的每个语义的权重,对词汇对应的多个语义的位置向量进行加权叠加处理,得到词汇的特征向量;基于文本中包含的词汇的特征向量,确定文本的特征向量;基于文本的特征向量对文本进行分类。通过上述装置,可以将文本转化到量子领域,通过构造文本特征向量代替现有技术中利用多层神经网络进行文本分类的计算方法,降低文本分类的计算成本,并有效地提升了文本的分类准确率,进而提升用户获取新闻信息的体验。
在一些实施例中,词汇获取模块310还包括语句获取单元和词汇获取单元:
语句获取单元,用于对待分类的文本进行语句划分处理,得到文本中包含的语句。
词汇获取单元,用于对语句进行分词处理,得到语句中包含的词汇。
在一些实施例中,文本特征向量获取模块350还包括语句特征向量确定单元和文本特征向量确定单元。
语句特征向量确定单元,用于基于语句中包含的词汇的特征向量,确定语句的特征向量;
文本特征向量确定单元,用于基于文本中包含的语句的特征向量,确定文本的特征向量。
在一些实施例中,语句特征向量确定单元具体用于将语句中包含的词汇的特征向量投影到语句的最后一个词汇上,将最后一个词汇的特征向量作为语句的特征向量。
在一些实施例中,文本特征向量确定单元具体用于将文本中包含的语句的特征向量进行叠加,得到所有语句的叠加特征向量,将叠加特征向量作为文本的特征向量。
在一些实施例中,语义库中存储有多个语义以及关联每个语义的词汇的身份标识,位置向量获取模块320还包括身份标识确定单元、查找单元、位置向量生成单元。
身份标识确定单元,用于基于词汇与身份标识之间的映射关系,确定文本中包含的词汇的身份标识。
查找单元,用于基于词汇的身份标识,从语义库中查找得到词汇对应的语义,以及语义在语义库中的位置。
位置向量生成单元,用于语义在语义库中的位置,生成语义的位置向量。
图3所示实施例的文本分类装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图4为本公开实施例提供的计算机设备的结构示意图。该计算机设备可以是如上实施例所述的终端。本公开实施例提供的计算机设备可以执行文本分类方法实施例提供的处理流程,如图4所示,计算机设备400包括:存储器410、处理器420、计算机程序和通讯接口430;其中,计算机程序存储在存储器410中,并被配置为由处理器420执行如上所述的文本分类方法。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的文本分类方法。
此外,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的文本分类方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种文本分类方法,其特征在于,所述方法包括:
对待分类的文本进行分词处理,得到所述文本中包含的词汇;
从预设的语义库中查找所述词汇对应的语义,以及所述语义在所述语义库中的位置,得到所述语义的位置向量;
响应于所述词汇对应的语义有多个,基于所述词汇在所述文本中的上下文,确定所述词汇对应的每个语义的权重;
基于所述词汇对应的每个语义的权重,对所述词汇对应的多个语义的位置向量进行加权叠加处理,得到所述词汇的特征向量;
基于所述文本中包含的词汇的特征向量,确定所述文本的特征向量;
基于所述文本的特征向量对所述文本进行分类。
2.根据权利要求1所述的方法,其特征在于,所述对待分类的文本进行分词处理,得到所述文本中包含的词汇,包括:
对待分类的文本进行语句划分处理,得到所述文本中包含的语句;
对所述语句进行分词处理,得到所述语句中包含的词汇。
3.根据权利要求2所述的方法,其特征在于,所述基于所述文本中包含的词汇的特征向量,确定所述文本的特征向量,包括:
基于所述语句中包含的词汇的特征向量,确定所述语句的特征向量;
基于所述文本中包含的语句的特征向量,确定所述文本的特征向量。
4.根据权利要求3所述的方法,其特征在于,所述基于所述语句中包含的词汇的特征向量,确定所述语句的特征向量,包括:
将所述语句中包含的词汇的特征向量投影到所述语句的最后一个词汇上,将所述最后一个词汇的特征向量作为所述语句的特征向量。
5.根据权利要求3所述的方法,其特征在于,所述基于所述文本中包含的语句的特征向量,确定所述文本的特征向量,包括:
将所述文本中包含的语句的特征向量进行叠加,得到所有语句的叠加特征向量,将所述叠加特征向量作为所述文本的特征向量。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述语义库中存储有多个语义以及每个语义关联的词汇的身份标识;
所述从预设的语义库中查找所述词汇对应的语义,以及所述语义在所述语义库中的位置,得到所述语义的位置向量,包括:
基于词汇与身份标识之间的映射关系,确定所述文本中包含的词汇的身份标识;
基于所述词汇的身份标识,从所述语义库中查找得到所述词汇对应的语义,以及所述语义在所述语义库中的位置;
基于所述语义在所述语义库中的位置,生成所述语义的位置向量。
7.一种文本分类装置,其特征在于,包括:
词汇获取模块,用于对待分类的文本进行分词处理,得到所述文本中包含的词汇;
位置向量获取模块,用于从预设的语义库中查找所述词汇对应的语义,以及所述语义在所述语义库中的位置,得到所述语义的位置向量;
语义权重确定模块,用于响应于所述词汇对应的语义有多个,基于所述词汇在所述文本中的上下文,确定所述词汇对应的每个语义的权重;
词汇特征向量获取模块,用于基于所述词汇对应的每个语义的权重,对所述词汇对应的多个语义的位置向量进行加权叠加处理,得到所述词汇的特征向量;
文本特征向量确定模块,用于基于所述文本中包含的词汇的特征向量,确定所述文本的特征向量;
文本分类模块,用于基于所述文本的特征向量对所述文本进行分类。
8.根据权利要求7所述的装置,其特征在于,所述词汇获取模块,用于:
对待分类的文本进行语句划分处理,得到所述文本中包含的语句;
对所述语句进行分词处理,得到所述语句中包含的词汇。
9.根据权利要求8所述的装置,其特征在于,所述文本特征向量获取模块用于:
基于所述语句中包含的词汇的特征向量,确定所述语句的特征向量;
基于所述文本中包含的语句的特征向量,确定所述文本的特征向量。
10.根据权利要求9所述的装置,其特征在于,所述文本特征向量获取模块在基于所述语句中包含的词汇的特征向量,确定所述语句的特征向量时,用于:
将所述语句中包含的词汇的特征向量投影到所述语句的最后一个词汇上,将所述最后一个词汇的特征向量作为所述语句的特征向量。
11.根据权利要求9所述的装置,其特征在于,所述文本特征向量获取模块在基于所述文本中包含的语句的特征向量,确定所述文本的特征向量时,用于:
将所述文本中包含的语句的特征向量进行叠加,得到所有语句的叠加特征向量,将所述叠加特征向量作为所述文本的特征向量。
12.根据权利要求7-11中任一项所述的装置,其特征在于,所述语义库中存储有多个语义以及每个语义关联的词汇的身份标识;
所述位置向量获取模块用于:
基于词汇与身份标识之间的映射关系,确定所述文本中包含的词汇的身份标识;
基于所述词汇的身份标识,从所述语义库中查找得到所述词汇对应的语义,以及所述语义在所述语义库中的位置;
基于所述语义在所述语义库中的位置,生成所述语义的位置向量。
13.一种计算机设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN202210340732.XA 2022-04-02 2022-04-02 文本分类方法、装置、设备及计算机可读存储介质 Active CN114492420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210340732.XA CN114492420B (zh) 2022-04-02 2022-04-02 文本分类方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210340732.XA CN114492420B (zh) 2022-04-02 2022-04-02 文本分类方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114492420A true CN114492420A (zh) 2022-05-13
CN114492420B CN114492420B (zh) 2022-07-29

Family

ID=81487971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210340732.XA Active CN114492420B (zh) 2022-04-02 2022-04-02 文本分类方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114492420B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221873A (zh) * 2022-09-20 2022-10-21 深圳大道云科技有限公司 输入词汇的补全方法、装置、设备及存储介质
WO2023236977A1 (zh) * 2022-06-08 2023-12-14 华为技术有限公司 一种数据处理方法及相关设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108052924A (zh) * 2017-12-28 2018-05-18 武汉大学深圳研究院 空间运动行为语义模式的辨识方法
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN111104513A (zh) * 2019-12-13 2020-05-05 中山大学 一种游戏平台用户问答业务的短文本分类方法
CN111444700A (zh) * 2020-04-02 2020-07-24 山东山大鸥玛软件股份有限公司 一种基于语义文档表达的文本相似度量方法
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置
WO2021035921A1 (zh) * 2019-08-30 2021-03-04 山东科技大学 基于χ 2-C的文本相似度计算方法
CN112445813A (zh) * 2020-12-01 2021-03-05 深圳市中博科创信息技术有限公司 一种企业服务门户平台搜索语义分析方法
CN112613324A (zh) * 2020-12-29 2021-04-06 北京中科闻歌科技股份有限公司 语义情绪识别方法、装置、设备及存储介质
CN113239663A (zh) * 2021-03-23 2021-08-10 国家计算机网络与信息安全管理中心 一种基于知网的多义词中文实体关系识别方法
CN113314110A (zh) * 2021-04-25 2021-08-27 天津大学 一种基于量子测量与酉变换技术的语言模型及构建方法
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108052924A (zh) * 2017-12-28 2018-05-18 武汉大学深圳研究院 空间运动行为语义模式的辨识方法
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
WO2021035921A1 (zh) * 2019-08-30 2021-03-04 山东科技大学 基于χ 2-C的文本相似度计算方法
CN111104513A (zh) * 2019-12-13 2020-05-05 中山大学 一种游戏平台用户问答业务的短文本分类方法
CN111444700A (zh) * 2020-04-02 2020-07-24 山东山大鸥玛软件股份有限公司 一种基于语义文档表达的文本相似度量方法
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置
CN112445813A (zh) * 2020-12-01 2021-03-05 深圳市中博科创信息技术有限公司 一种企业服务门户平台搜索语义分析方法
CN112613324A (zh) * 2020-12-29 2021-04-06 北京中科闻歌科技股份有限公司 语义情绪识别方法、装置、设备及存储介质
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
CN113239663A (zh) * 2021-03-23 2021-08-10 国家计算机网络与信息安全管理中心 一种基于知网的多义词中文实体关系识别方法
CN113314110A (zh) * 2021-04-25 2021-08-27 天津大学 一种基于量子测量与酉变换技术的语言模型及构建方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LIN CHUAN-KAI 等: "Nonsingular terminal sliding mode control of robot manipulators using fuzzy wavelet networks", 《IEEE TRANSACTIONS ON FUZZY SYSTEMS》 *
WANG, B. 等: "Semantic Hilbert space for text representation learning", 《THE WORLD WIDE WEB CONFERENCE》 *
戴臻: "内容文本分类中的语义特征提取算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
曹中华 等: "多原型词向量与文本主题联合学习模型", 《中文信息学报》 *
王秀红 等: "综合位置和语义权重的专利文本向量表示方法", 《情报理论与实践》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236977A1 (zh) * 2022-06-08 2023-12-14 华为技术有限公司 一种数据处理方法及相关设备
CN115221873A (zh) * 2022-09-20 2022-10-21 深圳大道云科技有限公司 输入词汇的补全方法、装置、设备及存储介质
CN115221873B (zh) * 2022-09-20 2023-01-17 深圳大道云科技有限公司 输入词汇的补全方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114492420B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN106156204B (zh) 文本标签的提取方法和装置
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN101470732B (zh) 一种辅助词库的生成方法和装置
CN114492420B (zh) 文本分类方法、装置、设备及计算机可读存储介质
CN107180084B (zh) 词库更新方法及装置
CN109670050B (zh) 一种实体关系预测方法及装置
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN104572631B (zh) 一种语言模型的训练方法及系统
CN110717038B (zh) 对象分类方法及装置
CN111241410B (zh) 一种行业新闻推荐方法及终端
CN114595327A (zh) 数据增强方法和装置、电子设备、存储介质
CN110020032A (zh) 使用语法单元的文档搜索
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN114490949B (zh) 基于bm25算法的文档检索方法、装置、设备及介质
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
CN115062151A (zh) 一种文本特征提取方法、文本分类方法及可读存储介质
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
CN110991193A (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
WO2023083176A1 (zh) 样本处理方法、设备及计算机可读存储介质
CN111460177A (zh) 影视类表情搜索方法、装置、存储介质、计算机设备
CN110633363A (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN113420139B (zh) 一种文本匹配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant