CN107066560B - 文本分类的方法和装置 - Google Patents

文本分类的方法和装置 Download PDF

Info

Publication number
CN107066560B
CN107066560B CN201710203581.2A CN201710203581A CN107066560B CN 107066560 B CN107066560 B CN 107066560B CN 201710203581 A CN201710203581 A CN 201710203581A CN 107066560 B CN107066560 B CN 107066560B
Authority
CN
China
Prior art keywords
word
node
text
classification
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710203581.2A
Other languages
English (en)
Other versions
CN107066560A (zh
Inventor
赵影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201710203581.2A priority Critical patent/CN107066560B/zh
Publication of CN107066560A publication Critical patent/CN107066560A/zh
Application granted granted Critical
Publication of CN107066560B publication Critical patent/CN107066560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种文本分类的方法和装置,该方法包括:获取多个样本文本;对每个样本文本进行分词处理得到多个词语,并获取每个词语的词性信息;根据多个词语和每个词语对应的词性信息建立神经网络分类模型;将待分类的文本作为神经网络分类模型的输入,得到待分类的文本的类型。

Description

文本分类的方法和装置
技术领域
本公开涉及数据处理领域,具体地,涉及一种文本分类的方法和装置。
背景技术
随着互联网的发展,新闻聚合类网站能够对在互联网上传输的大量新闻信息进行分类,例如将信息分为社会类、体育类以及娱乐类等类型的信息,从而方便用户查看。
现有的新闻聚合类网站大多会从其他网站中抓取新闻信息,并根据新闻信息中记载的文本内容通过特定的分类算法对新闻信息进行分类,一种常见的分类方法是朴素贝叶斯分类,但是这种方法有一个假设,就是各个词之间彼此是相互独立的,但是在实际情况中一个句子中前后的词语可能并不独立,因此,现有的分类方法无法准确对文本进行分类。
发明内容
本公开的目的是提供一种文本分类的方法和装置,以至少解决现有技术中文本分类不准确的技术问题。
为了实现上述目的,本公开提供一种文本分类的方法,包括:获取多个样本文本;对每个样本文本进行分词处理得到多个词语,并获取每个所述词语的词性信息;根据所述多个词语和每个词语对应的词性信息建立神经网络分类模型;将待分类的文本作为所述神经网络分类模型的输入,得到所述待分类的文本的类型。
可选地,所述根据所述多个词语和每个词语对应的词性信息建立神经网络分类模型包括:按照预设处理方式对所述分类样本集中的每个样本文本进行处理得到所述每个样本文本的文本向量;根据每个样本文本的文本向量建立神经网络分类模型;其中,所述预设处理方式包括:根据目标样本文本的每个词语和对应的词性信息生成所述目标样本文本的每个词语对应的词语向量;其中,所述目标样本文本为所述分类样本集中的任一样本文本;根据所述每个词语对应的词语向量生成所述目标样本文本对应的二叉树;其中,所述二叉树的叶节点分别对应所述每个词语向量,所述二叉树的根节点对应所述目标文本的文本向量;根据所述词语向量通过所述二叉树获取所述目标样本文本的文本向量。
可选地,所述根据所述每个词语对应的词语向量生成所述目标样本文本对应的二叉树包括:获取每个词语在所述目标文本中的词语顺序;根据所述词语顺序确定所述目标文本中第一个词语对应的第一节点和第二个词语对应的第二节点,并建立所述第一节点和所述第二节点的第一父节点;确定第三个词语对应的第三节点,并建立所述第三节点与所述第一父节点的第二父节点,继续按照所述词语顺序确定第四个词语对应的第四节点,并建立所述第四节点与所述第二父节点的第三父节点,直至按照所述词语顺序确定出最后一个词语对应的节点的父节点,得到所述二叉树。
可选地,所述根据所述词语向量通过所述二叉树获取所述目标样本文本的文本向量包括:根据每个词语的词性确定所述二叉树中每个父节点对应的组合词性;获取每个组合词性对应的第一分类权重,并将所述第一分类权重中相同词性的组合词性对应的第一分类权重相加,得到第二分类权重;根据所述词语向量和所述每个父节点对应的组合词性以及所述第二分类权重,从所述二叉树的最底层依次向上计算所述二叉树每个父节点对应的组合向量,直至得到所述根节点对应的文本向量。
可选地,所述获取每个组合词性对应的第一分类权重包括:
获取每个父节点对应的误差值;
根据所述误差值按照以下公式计算得到所述每个父节点对应的第一分类权重:
其中,Wi为第i个父节点的第一分类权重,E(θ)为预设目标函数,M为第i个父节点对应的一个子节点和第i个父节点对应的另一个子节点的词语向量组合得到的词组向量,δi为第i个父节点对应的误差值,θ为该目标样本文本中每个组合词性对应的第一分类权重。
本公开还提供一种文本分类的装置,包括:获取模块,用于获取多个样本文本;处理模块,用于对每个样本文本进行分词处理得到多个词语,并获取每个所述词语的词性信息;模型建立模块,用于根据所述多个词语和每个词语对应的词性信息建立神经网络分类模型;分类模块,用于将待分类的文本作为所述神经网络分类模型的输入,得到所述待分类的文本的类型。
可选地,所述模型建立模块,包括:处理子模块,用于按照预设处理方式对所述分类样本集中的每个样本文本进行处理得到所述每个样本文本的文本向量;模型建立子模块,用于根据每个样本文本的文本向量建立神经网络分类模型;其中,所述预设处理方式包括:根据目标样本文本的每个词语和对应的词性信息生成所述目标样本文本的每个词语对应的词语向量;其中,所述目标样本文本为所述分类样本集中的任一样本文本;根据所述每个词语对应的词语向量生成所述目标样本文本对应的二叉树;其中,所述二叉树的叶节点分别对应所述每个词语向量,所述二叉树的根节点对应所述目标文本的文本向量;根据所述词语向量通过所述二叉树获取所述目标样本文本的文本向量。
可选地,所述处理子模块,用于所述处理子模块,用于获取每个词语在所述目标文本中的词语顺序;根据所述词语顺序确定所述目标文本中第一个词语对应的第一节点和第二个词语对应的第二节点,并建立所述第一节点和所述第二节点的第一父节点;确定第三个词语对应的第三节点,并建立所述第三节点与所述第一父节点的第二父节点,继续按照所述词语顺序确定第四个词语对应的第四节点,并建立所述第四节点与所述第二父节点的第三父节点,直至按照所述词语顺序确定出最后一个词语对应的节点的父节点,得到所述二叉树。
可选地,所述处理子模块,用于根据每个词语的词性确定所述二叉树中每个父节点对应的组合词性;获取每个组合词性对应的第一分类权重,并将所述第一分类权重中相同词性的组合词性对应的第一分类权重相加,得到第二分类权重;根据所述词语向量和所述每个父节点对应的组合词性以及所述第二分类权重,从所述二叉树的最底层依次向上计算所述二叉树每个父节点对应的组合向量,直至得到所述根节点对应的文本向量。
可选地,所述处理子模块,用于确定每个父节点对应的误差值,并根据所述误差值按照以下公式计算得到每个父节点对应的第一分类权重:
其中,Wi为第i个父节点的第一分类权重,E(θ)为预设目标函数,M为第i个父节点对应的一个子节点和第i个父节点对应的另一个子节点的词语向量组合得到的词组向量,δi为第i个父节点对应的误差值,θ为该目标样本文本中每个组合词性对应的第一分类权重。
通过上述技术方案,获取分类样本集,该分类样本集包括多个样本文本;对每个样本文本进行分词处理得到多个词语,并获取该每个词语的词性信息;根据该多个词语和每个词语对应的词性信息建立神经网络分类模型;将待分类的文本作为该神经网络分类模型的输入,得到该待分类的文本的类型。这样,在样本文本原有词语的基础上进一步考虑词语的词性信息,将词性信息融入神经网络的模型训练中得到神经网络分类模型,并通过得到的神经网络分类模型对待分类的文本进行分类,从而在后续对待分类的文本进行分类时,能够得到准确的分类结果。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本发明实施例提供的一种文本分类的方法的流程示意图;
图2是本发明实施例提供的一种二叉树的示意图;
图3是本发明实施例提供的一种文本分类的装置的结构示意图;
图4是本发明实施例提供的另一种文本分类的装置的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本发明公开了一种文本分类的方法和装置,该方法在样本文本原有词语的基础上进一步考虑词语的词性信息,将词性信息融入神经网络的模型训练中得到神经网络分类模型,并通过得到的神经网络分类模型对待分类的文本进行分类,从而在后续对待分类的文本进行分类时,能够得到准确的分类结果。
下面结合具体实施例对本发明进行详细说明。
图1为本发明实施例提供的一种文本分类的方法,如图1所示,包括:
S101、获取多个样本文本。
S102、对每个样本文本进行分词处理得到多个词语,并获取每个词语的词性信息。
其中,该词性信息可以包括名词、动词或者助词等词性信息。
在本步骤中,分词处理可以包括多种方法,如字符匹配的方法,这种方法又叫做机械分词方法,它是按照预设策略将待分析的文本与一个预设词典中的词条进行匹配,若在词典中找到某个词条,则匹配成功,从而识别出一个词语。
需要说明的是,由于一些词语如“啊”“噢”“嘛”“的”等停用词,并无实际的意义,只是表示语气,如果将这些词也加入到后续的模型训练中,会造成计算复杂度过大的问题,从而占用较多的数据处理资源。因此,为了解决该问题,在本发明另一实施例中,在对每个样本文本进行分词处理得到多个词语后,可以将停用词去除,在一种可能的实现方式中,在得到分词处理后的词语后,可以确定预设停用词词典中是否包括得到的词语,若包括该词语,则去掉该词语。这样,能够将没有实际意义的词语去掉,从而在保证分类结果准确性的情况下,减少后续模型训练过程中的计算复杂度。
在得到该多个词语后,即可根据预设的词性数据库确定该多个词语的词性信息,该词性数据库包括预先建立的词语与词性的对应关系。
S103、根据该多个词语和每个词语对应的词性信息建立神经网络分类模型。
在一种可能的实现方式中,本步骤可以按照预设处理方式对该分类样本集中的每个样本文本进行处理得到该每个样本文本的文本向量,并根据每个样本文本的文本向量建立神经网络分类模型。
示例地,该预设处理方式可以包括以下步骤:
S1、根据目标样本文本的每个词语和对应的词性信息生成该目标样本文本的每个词语对应的词语向量。
其中,该目标样本文本为该多个样本文本中的任一样本文本。
在本步骤中,可以将词语的词性向量追加在该词语的词向量的后面得到词语向量。
S2、根据该每个词语对应的词语向量生成该目标样本文本对应的二叉树。
其中,该二叉树的叶节点分别对应该每个词语向量,该二叉树的根节点对应该目标文本的文本向量。
在本步骤中,可以获取每个词语在该目标文本中的词语顺序,并根据该词语顺序确定该目标文本中第一个词语对应的第一节点和第二个词语对应的第二节点,并建立该第一节点和该第二节点的第一父节点;确定第三个词语对应的第三节点,并建立该第三节点与该第一父节点的第二父节点,继续按照该词语顺序确定第四个词语对应的第四节点,并建立该第四节点与该第二父节点的第三父节点,直至按照该词语顺序确定出最后一个词语对应的节点的父节点,得到该二叉树。
示例地,结合图2对该二叉树的建立进行说明,如图2所示,以目标样本文本“经典哲学有吗”为例进行说明,若该目标样本文本经过步骤S102中的分词处理后得到的分词结果为“经典”、“哲学”、“有”、“吗”四个词语,则将这四个词语依次作为二叉树的叶节点,如图2中的叶节点分别从左至右依次对应“经典”、“哲学”、“有”、“吗”,并建立词语“经典”对应的节点和词语“哲学”对应的节点的第一父节点,建立第一父节点和词语“有”对应的节点的第二父节点,并继续建立第二父节点和词语“吗”对应的节点的第三父节点,则该第三父节点即为该二叉树的根节点,从而得到该二叉树。
S3、根据该词语向量通过该二叉树获取该目标样本文本的文本向量。
在本步骤中,可以通过以下方式得到该目标样本文本的文本向量:
首先,根据每个词语的词性确定该二叉树中每个父节点对应的组合词性。
其中,每个父节点对应的词组的词性信息可以与该词组最后一个词语的词性信息相同,因此,根据词语的词性即可得到每个父节点的组合词性。
示例地,继续以图2为例进行说明,“经典”、“哲学”、“有”、“吗”四个词语的词性信息分别为:“经典”为名词(N),“哲学”为名词,“有”为动词(V),“吗”为助词(W),则第一父节点相当于对应词组“经典哲学”,且该词组的组合词性与词语“哲学”的词性信息相同,为名词;该第二父节点相当于对应词组“经典哲学有”,且该词组的组合词性与词语“有”的词性信息相同,为动词;该根节点相当于对应词组“经典哲学有吗”,且该词组的组合词性与词语“吗”的词性信息相同,为助词,从而得到每个父节点对应的组合词性。
其次,获取每个组合词性对应的第一分类权重,并将该第一分类权重中相同词性的组合词性对应的第一分类权重相加,得到第二分类权重。
在一种可能的实现方式中,可以通过以下方式获取该第一分类权重:
获取每个父节点对应的误差值,并根据该误差值按照以下公式计算得到该每个父节点对应的第一分类权重:
其中,Wi为第i个父节点的分类权重,E(θ)为预设目标函数,M为第i个父节点对应的一个子节点和第i个父节点对应的另一个子节点的词语向量组合得到的词组向量,δi为第i个父节点对应的误差值,θ为该目标样本文本中每个组合词性对应的第一分类权重。
这里,可以计算根节点的误差值,以及下传至该根节点的子节点的下传误差,并根据该下传误差得到该根节点的每个子节点对应的误差值,以此类推,从根节点开始,沿着生成的二叉树依次遍历各个节点,即可得到每个父节点对应的误差值,由于每个父节点对应的误差值的计算与现有技术中相同,因此,此处不再赘述。
下面,继续以图2所示的二叉树为例对第一分类权重的计算进行说明,为了方便说明,可以将“经典”对应的词语向量记为a,将“哲学”对应的词语向量记为b,将“有”对应的词语向量记为c,将“吗”对应的词语向量记为d,则第一父节点对应的词语向量为a和b组合后的词组向量M1,第二父节点对应的词语向量为M1和c组合后的词组向量M2,根节点对应的词语向量为M2和d组合后的词组向量Ms
其中,上述组合的词组向量可以采用多种方式进行组合,如将两个词组向量相加,或者按照词语在目标文本样本中的顺序,将顺序靠后的词语的词向量追加在前一词语或者词组的向量的后面,以M1为例,若a为(1 0 0 0 0),b为(01 0 0 0),则可以将a和b相加得到M1(1 1 0 0 0),也可以将b追加至a的后面得到M1(1 0 0 0 0 0 1 0 0 0),当然,还可以是其他组合方式,这里只是举例说明,本发明对此不作限定,M2和MS可以参照M1的组合方式,不再赘述,但是对于同一次计算,M1、M2和MS应采用相同的组合方式。
对于图2所示的二叉树,在得到组合的词组向量后,可以通过以下公式计算第一父节点对应的第一分类权重,
其中,为第一父节点对应的第一分类权重,E(θ)为预设目标函数,M1为a和b组合得到的词组向量,δ1为第一父节点对应的误差值。
通过以下公式计算第二父节点对应的第一分类权重,
其中,为第二父节点对应的第一分类权重,E(θ)为预设目标函数,M2为M1和c组合得到的词组向量,δ2为第二父节点对应的误差值。
通过以下公式计算根节点对应的第一分类权重,
其中,为根节点对应的第一分类权重,E(θ)为预设目标函数,Ms为M2和d组合得到的词组向量,δ3为根节点对应的误差值。
在一种可能的实现方式中,上述预设目标函数E(θ)可以是:
其中,j表示多个样本文本中的第j个样本文本(在本实施例中可以为目标样本文本),Num为多个样本文本的数量,tr表示该第j个样本文本的类型,yr表示该第j个样本文本的预测类型,该预测类型为根据每个父节点预设的初始权重得到的样本文本的类型,该初始权重可以是一个非0的随机数,γ为预设参数,θ表示第j个样本文本中每个组合词性对应的第一分类权重。
这里,该预设目标函数可以是通过样本文本对该预设目标函数训练后的函数,在训练过程中,使得该预测类型不断趋于样本文本的类型,预测类型越接近样本文本的类型,对应的第一分类权重越准确。
在得到第一分类权重后,可以将相同词性的组合词性对应的第一分类权重相加得到第二分类权重,从而得到不同组合词性对应的分类权重。
最后,根据该词语向量和该每个父节点对应的组合词性以及该第二分类权重,从该二叉树的最底层依次向上计算该二叉树每个父节点对应的组合向量,直至得到该根节点对应的文本向量。
其中,在获取到第二分类权重后,可以通过以下公式从该二叉树的最底层依次向上计算组合向量P:
P=f(W2M)
其中,W2为待计算的父节点对应的第二分类权重,M为待计算的父节点对应的词组向量,f表示的函数可以是非线性函数,例如,f表示的函数可以为tanh。
示例地,对于图2所示的二叉树来说,首先,通过以下公式得到第一父节点对应的组合向量P1:
这里,由于M1的词性为名词,则即为名词对应的第二分类权重。
其次,通过以下公式得到第二父节点对应的组合向量P2:
这里,由于M2的词性为动词,则即为动词对应的第二分类权重。
最后,通过以下公式得到根节点对应的组合向量S(即文本向量):
这里,由于Ms的词性为助词,则即为助词对应的第二分类权重。
这样,通过上述步骤S1至步骤S3即可得到获取的每个样本文本的文本向量,在得到每个样本文本的文本向量后,可以根据得到的文本向量通过神经网络进行训练,得到神经网络分类模型,在一种可能的实现方式中,可以获取预设分类权重矩阵,并根据该预设分类权重矩阵通过softmax函数得到该神经网络分类模型。
例如,通过以下函数得到该神经网络分类模型Y:
Y=softmax(WsS)
其中,S为文本样本对应的文本向量,Ws为该预设分类权重矩阵。该预设分类权重矩阵包括不同词组和词性属于每个类别的概率。
S104、将待分类的文本作为该神经网络分类模型的输入,得到该待分类的文本的类型。
在本步骤中,在得到该待分类的文本后,可以通过上述步骤S1至步骤S3获取该待分类文本的文本向量,并将该文本向量作为上述神经网络分类模型的输入,从而得到该待分类的文本的类型。
示例地,在对一则新闻进行分类时,可以通过上述步骤S1至步骤S3获取该新闻中的每句话(相当于待分类的文本)的文本向量,并将该文本向量作为该神经网络分类模型的输入,并确定每个文本对应的类型,并确定数量最多的类型为该新闻的类型,例如,若该新闻数量最多的文本的类型为社会类,则确定该新闻的类型为社会类,若该新闻数量最多的文本的类型为娱乐类,则确定该新闻的类型为娱乐类,若该新闻数量最多的文本的类型为体育类,则确定该新闻的类型为体育类。
采用上述方法,在样本文本原有词语的基础上进一步考虑词语的词性信息,将词性信息融入神经网络的模型训练中得到神经网络分类模型,并通过得到的神经网络分类模型对待分类的文本进行分类,从而在后续对待分类的文本进行分类时,能够得到准确的分类结果。
图3为本发明实施例提供的一种文本分类的装置,如图3所示,包括:
获取模块301,用于获取多个样本文本;
处理模块302,用于对每个样本文本进行分词处理得到多个词语,并获取每个该词语的词性信息;
模型建立模块303,用于根据该多个词语和每个词语对应的词性信息建立神经网络分类模型;
分类模块304,用于将待分类的文本作为该神经网络分类模型的输入,得到该待分类的文本的类型。
可选地,如图4所示,该模型建立模块303,包括:
处理子模块3031,用于按照预设处理方式对该分类样本集中的每个样本文本进行处理得到该每个样本文本的文本向量;
模型建立子模块3032,用于根据每个样本文本的文本向量建立神经网络分类模型;
其中,该预设处理方式包括:
根据目标样本文本的每个词语和对应的词性信息生成该目标样本文本的每个词语对应的词语向量;其中,该目标样本文本为该分类样本集中的任一样本文本;
根据该每个词语对应的词语向量生成该目标样本文本对应的二叉树;其中,该二叉树的叶节点分别对应该每个词语向量,该二叉树的根节点对应该目标文本的文本向量;
根据该词语向量通过该二叉树获取该目标样本文本的文本向量。
可选地,该处理子模块3031,用于获取每个词语在该目标文本中的词语顺序;根据该词语顺序确定该目标文本中第一个词语对应的第一节点和第二个词语对应的第二节点,并建立该第一节点和该第二节点的第一父节点;确定第三个词语对应的第三节点,并建立该第三节点与该第一父节点的第二父节点,继续按照该词语顺序确定第四个词语对应的第四节点,并建立该第四节点与该第二父节点的第三父节点,直至按照该词语顺序确定出最后一个词语对应的节点的父节点,得到该二叉树。
可选地,该处理子模块3031,用于根据每个词语的词性确定该二叉树中每个父节点对应的组合词性;获取每个组合词性对应的第一分类权重,并将该第一分类权重中相同词性的组合词性对应的第一分类权重相加,得到第二分类权重;根据该词语向量和该每个父节点对应的组合词性以及该第二分类权重,从该二叉树的最底层依次向上计算该二叉树每个父节点对应的组合向量,直至得到该根节点对应的文本向量。
可选地,该处理子模块3031,用于确定每个父节点对应的误差值,并根据该误差值按照以下公式计算得到每个父节点对应的第一分类权重:
其中,Wi为第i个父节点的第一分类权重,E(θ)为预设目标函数,M为第i个父节点对应的一个子节点和第i个父节点对应的另一个子节点的词语向量组合得到的词组向量,δi为第i个父节点对应的误差值,θ为该目标样本文本中每个组合词性对应的第一分类权重。
需要说明的是,所属本领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程和描述,可以参考前述方法实施例中的对应过程,在此不再赘述。
采用上述装置,在样本文本原有词语的基础上进一步考虑词语的词性信息,将词性信息融入神经网络的模型训练中得到神经网络分类模型,并通过得到的神经网络分类模型对待分类的文本进行分类,从而在后续对待分类的文本进行分类时,能够得到准确的分类结果。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (6)

1.一种文本分类的方法,其特征在于,包括:
获取多个样本文本;
对每个样本文本进行分词处理得到多个词语,并获取每个所述词语的词性信息;
根据所述多个词语和每个词语对应的词性信息建立神经网络分类模型;
将待分类的文本作为所述神经网络分类模型的输入,得到所述待分类的文本的类型;所述根据所述多个词语和每个词语对应的词性信息建立神经网络分类模型包括:按照预设处理方式对分类样本集中的每个样本文本进行处理得到所述每个样本文本的文本向量;根据每个样本文本的文本向量建立神经网络分类模型;
其中,所述预设处理方式包括:
根据目标样本文本的每个词语和对应的词性信息生成所述目标样本文本的每个词语对应的词语向量;其中,所述目标样本文本为所述分类样本集中的任一样本文本;
根据所述每个词语对应的词语向量生成所述目标样本文本对应的二叉树;其中,所述二叉树的叶节点分别对应所述每个词语向量,所述二叉树的根节点对应所述目标文本的文本向量;
根据每个词语的词性确定所述二叉树中每个父节点对应的组合词性;
获取每个组合词性对应的第一分类权重,并将所述第一分类权重中相同词性的组合词性对应的第一分类权重相加,得到第二分类权重;
根据所述词语向量和所述每个父节点对应的组合词性以及所述第二分类权重,从所述二叉树的最底层依次向上计算所述二叉树每个父节点对应的组合向量,直至得到所述根节点对应的文本向量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每个词语对应的词语向量生成所述目标样本文本对应的二叉树包括:
获取每个词语在所述目标文本中的词语顺序;
根据所述词语顺序确定所述目标文本中第一个词语对应的第一节点和第二个词语对应的第二节点,并建立所述第一节点和所述第二节点的第一父节点;
确定第三个词语对应的第三节点,并建立所述第三节点与所述第一父节点的第二父节点,
继续按照所述词语顺序确定第四个词语对应的第四节点,并建立所述第四节点与所述第二父节点的第三父节点,直至按照所述词语顺序确定出最后一个词语对应的节点的父节点,得到所述二叉树。
3.根据权利要求1或2所述的方法,其特征在于,所述获取每个组合词性对应的第一分类权重包括:
获取每个父节点对应的误差值;
根据所述误差值按照以下公式计算得到所述每个父节点对应的第一分类权重:
其中,Wi为第i个父节点的第一分类权重,E(θ)为预设目标函数,M为第i个父节点对应的一个子节点和第i个父节点对应的另一个子节点的词语向量组合得到的词组向量,δi为第i个父节点对应的误差值,θ表示所述目标样本文本中每个组合词性对应的第一分类权重。
4.一种文本分类的装置,其特征在于,包括:
获取模块,用于获取多个样本文本;
处理模块,用于对每个样本文本进行分词处理得到多个词语,并获取每个所述词语的词性信息;
模型建立模块,用于根据所述多个词语和每个词语对应的词性信息建立神经网络分类模型;
分类模块,用于将待分类的文本作为所述神经网络分类模型的输入,得到所述待分类的文本的类型;
所述模型建立模块,包括:
处理子模块,用于按照预设处理方式对分类样本集中的每个样本文本进行处理得到所述每个样本文本的文本向量;
模型建立子模块,用于根据每个样本文本的文本向量建立神经网络分类模型;
其中,所述预设处理方式包括:
根据目标样本文本的每个词语和对应的词性信息生成所述目标样本文本的每个词语对应的词语向量;其中,所述目标样本文本为所述分类样本集中的任一样本文本;
根据所述每个词语对应的词语向量生成所述目标样本文本对应的二叉树;其中,所述二叉树的叶节点分别对应所述每个词语向量,所述二叉树的根节点对应所述目标文本的文本向量;
根据每个词语的词性确定所述二叉树中每个父节点对应的组合词性;
获取每个组合词性对应的第一分类权重,并将所述第一分类权重中相同词性的组合词性对应的第一分类权重相加,得到第二分类权重;
根据所述词语向量和所述每个父节点对应的组合词性以及所述第二分类权重,从所述二叉树的最底层依次向上计算所述二叉树每个父节点对应的组合向量,直至得到所述根节点对应的文本向量。
5.根据权利要求4所述的装置,其特征在于,所述处理子模块,用于获取每个词语在所述目标文本中的词语顺序;根据所述词语顺序确定所述目标文本中第一个词语对应的第一节点和第二个词语对应的第二节点,并建立所述第一节点和所述第二节点的第一父节点;确定第三个词语对应的第三节点,并建立所述第三节点与所述第一父节点的第二父节点,继续按照所述词语顺序确定第四个词语对应的第四节点,并建立所述第四节点与所述第二父节点的第三父节点,直至按照所述词语顺序确定出最后一个词语对应的节点的父节点,得到所述二叉树。
6.根据权利要求4或5所述的装置,其特征在于,所述处理子模块,用于确定每个父节点对应的误差值,并根据所述误差值按照以下公式计算得到每个父节点对应的第一分类权重:
其中,Wi为第i个父节点的第一分类权重,E(θ)为预设目标函数,M为第i个父节点对应的一个子节点和第i个父节点对应的另一个子节点的词语向量组合得到的词组向量,δi为第i个父节点对应的误差值,θ表示所述目标样本文本中每个组合词性对应的第一分类权重。
CN201710203581.2A 2017-03-30 2017-03-30 文本分类的方法和装置 Active CN107066560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710203581.2A CN107066560B (zh) 2017-03-30 2017-03-30 文本分类的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710203581.2A CN107066560B (zh) 2017-03-30 2017-03-30 文本分类的方法和装置

Publications (2)

Publication Number Publication Date
CN107066560A CN107066560A (zh) 2017-08-18
CN107066560B true CN107066560B (zh) 2019-12-06

Family

ID=59602439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710203581.2A Active CN107066560B (zh) 2017-03-30 2017-03-30 文本分类的方法和装置

Country Status (1)

Country Link
CN (1) CN107066560B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628974B (zh) * 2018-04-25 2023-04-18 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
CN109710755A (zh) * 2018-11-22 2019-05-03 合肥联宝信息技术有限公司 训练bp神经网络模型方法和装置以及基于bp神经网络进行文本分类的方法和装置
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN102073704A (zh) * 2010-12-24 2011-05-25 华为终端有限公司 文本分类处理方法和系统以及设备
CN103246655A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置及系统
CN105930368A (zh) * 2016-04-13 2016-09-07 深圳大学 一种情感分类方法及系统
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置
CN106294466A (zh) * 2015-06-02 2017-01-04 富士通株式会社 分类模型构建方法、分类模型构建设备和分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN102073704A (zh) * 2010-12-24 2011-05-25 华为终端有限公司 文本分类处理方法和系统以及设备
CN103246655A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置及系统
CN106294466A (zh) * 2015-06-02 2017-01-04 富士通株式会社 分类模型构建方法、分类模型构建设备和分类方法
CN105930368A (zh) * 2016-04-13 2016-09-07 深圳大学 一种情感分类方法及系统
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置

Also Published As

Publication number Publication date
CN107066560A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
US10235624B2 (en) Information processing method and apparatus
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
Zhu et al. Retrieval-enhanced adversarial training for neural response generation
US20170169008A1 (en) Method and electronic device for sentiment classification
CN109710744B (zh) 一种数据匹配方法、装置、设备及存储介质
WO2019037258A1 (zh) 信息推荐的装置、方法、系统及计算机可读存储介质
CN107180084B (zh) 词库更新方法及装置
CN107066560B (zh) 文本分类的方法和装置
CN109582970B (zh) 一种语义度量方法、装置、设备及可读存储介质
CN111191450A (zh) 语料清洗方法、语料录入设备及计算机可读存储介质
CN113806482A (zh) 视频文本跨模态检索方法、装置、存储介质和设备
EP4174714A1 (en) Text sequence generation method, apparatus and device, and medium
Ali et al. Genetic approach for Arabic part of speech tagging
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
CN113779190B (zh) 事件因果关系识别方法、装置、电子设备与存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
US10964313B2 (en) Word score calculation device, word score calculation method, and computer program product
CN108304366B (zh) 一种上位词检测方法及设备
CN112016281B (zh) 错误医疗文本的生成方法、装置及存储介质
CN115249012A (zh) 一种基于关键短语的知识图谱可视化方法及系统
CN115019295A (zh) 模型训练方法、文本行确定方法及装置
CN112183117B (zh) 一种翻译评价的方法、装置、存储介质及电子设备
CN113722477A (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN112765357A (zh) 文本分类方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant