CN109614494B - 一种文本分类方法及相关装置 - Google Patents
一种文本分类方法及相关装置 Download PDFInfo
- Publication number
- CN109614494B CN109614494B CN201811645051.4A CN201811645051A CN109614494B CN 109614494 B CN109614494 B CN 109614494B CN 201811645051 A CN201811645051 A CN 201811645051A CN 109614494 B CN109614494 B CN 109614494B
- Authority
- CN
- China
- Prior art keywords
- text
- target text
- classification
- vector
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本申请提供了一种文本分类方法及相关装置,所述方法包括:对目标文本的相邻字符进行分割,获得多个分割词;获得所述多个分割词的词向量;根据所述多个分割词的词向量,获得所述目标文本的文本向量;根据所述目标文本的文本向量,获得所述目标文本的分类信息。本申请实施例中通过对目标文本中的相邻字符进行分割即可实现文本分类,例如对目标文本每两个或是三个相邻字符进行分割,因此不需要对目标文本进行基于语义的分词处理,解决了因分词准确性较差导致的文本分类准确性降低的问题。
Description
技术领域
本申请涉及自然语言处理领域,尤其是涉及一种文本分类方法及相关装置。
背景技术
文本分类是自然语言处理领域中一种常见的技术,用于根据目标文本的内容将目标文本归类到至少一个类别中。
目前,在对目标文本进行文本分类时,常用的一种方式是根据目标文本的语义对目标文本进行分词处理,并根据分词处理的结果将目标文本归类到至少一个类别中。其中分词处理通常基于分词模型实现。
显然,这种分类方式需要进行对目标文本进行基于语义的分词处理,因此文本分类的准确性依赖于分词准确性。然而,在一些情况下由于训练样本较少等原因,导致分词准确性较低。例如中文文本的分词模型通常采用的是有监督机器学习模型,因此训练样本是有限的;又例如对于特殊行业领域,很难找到适合的训练样本。因此,当训练样本较少时,或者其他一些原因导致分词的准确性较低时,会进一步影响文本分类的准确性。
发明内容
本申请解决的技术问题在于提供一种文本分类方法及相关装置,以实现不需要基于语义进行分词处理即可实现文本分类,解决了因分词准确性较差导致的文本分类准确性降低的问题。
为此,本申请解决技术问题的技术方案是:
本申请实施例提供了一种文本分类方法,包括:
对目标文本的相邻字符进行分割,获得多个分割词;
获得所述多个分割词的词向量;
根据所述多个分割词的词向量,获得所述目标文本的文本向量;
根据所述目标文本的文本向量,获得所述目标文本的分类信息。
可选的,所述根据所述多个分割词的词向量,获得所述目标文本的文本向量,包括:
对所述多个分割词的词向量进行加权求和计算,获得加权和;
将所述加权和作为所述目标文本的文本向量。
可选的,所述对所述目标文本中的相邻字符进行分割,获得多个分割词,包括:
对所述目标文本中每两个或者三个相邻字符进行分割,获得多个分割词。
可选的,所述目标文本包括中文文本;
对目标文本的相邻字符进行分割之前,所述方法还包括:
将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;
对目标文本的相邻字符进行分割,获得多个分割词,包括:对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。
可选的,根据所述目标文本的文本向量,获得所述目标文本的分类信息,包括:
获得训练样本和所述训练样本对应的初始分类标记;
对所述初始分类标记进行修正,获得修正分类标记;
根据所述训练样本和所述修正分类标记,获得训练好的分类模型;
将所述目标文本的文本向量输入至所述训练好的分类模型,获得所述训练好的分类模型输出的所述目标文本的分类信息。
可选的,对所述初始分类标记进行修正,包括:
根据所述训练样本和所述初始分类标记,训练得到当前分类模型;
循环执行修正过程;
其中,所述修正过程包括:将所述训练样本输入至当前分类模型中,获得当前分类模型输出的分类信息,若当前分类模型输出的分类信息与最新的分类标记相匹配,则结束循环,将最新的分类标记作为所述修正分类标记;若当前分类模型输出的分类信息与最新的分类标记不匹配,利用当前分类模型输出的分类信息对最新的分类标记进行修正,利用所述训练样本和最新的分类标记更新当前分类模型。
本申请实施例提供了一种文本分类装置,包括:
分割词获得单元,用于对目标文本的相邻字符进行分割,获得多个分割词;
词向量获得单元,用于获得所述多个分割词的词向量;
文本向量获得单元,用于根据所述多个分割词的词向量,获得所述目标文本的文本向量;
分类获得单元,用于根据所述目标文本的文本向量,获得所述目标文本的分类信息。
可选的,所述文本向量获得单元,具体用于对所述多个分割词的词向量进行加权求和计算,获得加权和,将所述加权和作为所述目标文本的文本向量。
可选的,所述分割词获得单元,具体用于对所述目标文本中每两个或者三个相邻字符进行分割,获得多个分割词。
可选的,所述目标文本包括中文文本;所述装置还包括:
拆分单元,用于将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;
所述分割词获得单元具体用于,对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。
可选的,分类获得单元,包括:
训练数据获得子单元,用于获得训练样本和所述训练样本对应的初始分类标记;
修正子单元,用于对所述初始分类标记进行修正,获得修正分类标记;
模型获得子单元,用于根据所述训练样本和所述修正分类标记,获得训练好的分类模型;
分类获得子单元,用于将所述目标文本的文本向量输入至所述训练好的分类模型,获得所述训练好的分类模型输出的所述目标文本的分类信息。
可选的,所述修正子单元,具体用于根据所述训练样本和所述初始分类标记,训练得到当前分类模型,以及循环执行修正过程;其中,所述修正过程包括:将所述训练样本输入至当前分类模型中,获得当前分类模型输出的分类信息,若当前分类模型输出的分类信息与最新的分类标记相匹配,则结束循环,将最新的分类标记作为所述修正分类标记;若当前分类模型输出的分类信息与最新的分类标记不匹配,利用当前分类模型输出的分类信息对最新的分类标记进行修正,利用所述训练样本和最新的分类标记更新当前分类模型。
本申请实施例提供了一种电子设备,包括有存储器和处理器,所述存储器中存储一个或者一个以上程序,所述处理器用于执行所述一个或者一个以上程序,其中,所述一个或者一个以上程序包含用于进行以下操作的指令:
对目标文本的相邻字符进行分割,获得多个分割词;
获得所述多个分割词的词向量;
根据所述多个分割词的词向量,获得所述目标文本的文本向量;
根据所述目标文本的文本向量,获得所述目标文本的分类信息。
本申请实施例提供了一种计算机存储介质,包括计算机程序代码,该计算机程序代码由计算机单元执行,使得该计算机单元:
对目标文本的相邻字符进行分割,获得多个分割词;
获得所述多个分割词的词向量;
根据所述多个分割词的词向量,获得所述目标文本的文本向量;
根据所述目标文本的文本向量,获得所述目标文本的分类信息。
通过上述技术方案可知,本申请实施例中,不需要对目标文本进行基于语义的分词处理,而是通过对目标文本中的相邻字符进行分割,获得多个分割词;并根据多个分割词的词向量,获得所述目标文本的文本向量,因此能够根据目标文本的文本向量,对目标文本进行分类。可见,本申请实施例中通过对目标文本中的相邻字符进行分割即可实现文本分类,例如对目标文本每两个或是三个相邻字符进行分割,因此不需要对目标文本进行基于语义的分词处理,解决了因分词准确性较差导致的文本分类准确性降低的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的文本分类方法的一种实施例的流程示意图;
图2为本申请实施例提供的修正分类标记的一种流程示意图;
图3为本申请实施例提供的文本分类装置的一种实施例的结构示意图。
具体实施方式
目前,一种对目标文本进行文本分类的方式中,根据目标文本的语义对目标文本进行分词处理,并根据分词处理的结果将目标文本归类到至少一个类别中。其中分词处理通常基于分词模型实现。例如将目标文本:“今天会下雨”的文本特征输入至分词模型,分词模型根据目标文本的语义得到分词结果:“今天”、“会”和“下雨”,将上述分词结果“今天”、“会”和“下雨”的文本特征输入至分类模型后,能够得到分类信息:“天气”。
显然,这种文本分类的方式需要进行基于语义的分词处理,因此文本分类的准确性依赖于分词准确性。然而,在一些情况下由于训练样本较少等原因,导致分词准确性较低。
例如中文文本不像英语等语言的文本通过空格进行分割,因此需要通过一些分词模型进行分词,虽然目前存在很多种采用不同算法的中文分词模型,但是这些分词模型通常采用的是有监督机器学习模型,因此训练样本是有限的;又例如,对于特殊行业领域,比如一些专业领域或者小众领域,很难找到适合的分词模型的训练样本。因此,当训练样本较少时,或者其他一些原因导致分词的准确性较低时,会进一步影响文本分类的准确性。
本申请实施例提供一种文本分类方法及相关装置,以实现不需要进行基于语义的分词处理即可实现文本分类,解决了因分词准确性较差导致的文本分类准确性降低的问题。通过本申请实施例的提高的方法及装置,在对专业领域或者小众领域的文本进行分类时,能够取得较好的分类效果。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
请参阅图1,本申请实施例提供了文本分类方法的一种方法实施例。本实施例的所述方法,包括:
S101:对目标文本中的相邻字符进行分割,获得多个分割词。
在本申请实施例中,目标文本指的是待分类的文本,具体可以通过多种方式获得。例如获得用户输入的文本信息并作为目标文本,其中用户可以通过语音方式输入文本信息,或者也可以通过物理按键或者触摸屏等输入设备输入文本信息;又例如,获得预先存储的文本信息并作为目标文本,其中文本信息可以预先存储在服务器等存储设备中。其中,本申请实施例对目标文本的长度以及所使用的语言等并不加以限定。例如,目标文本可以是一个或多个词语、句子、段落、文章等等。此外,目标文本可以是中文、英文、日文等任一种语言,或者也可以是多种语言的组合。
需要说明的是,本申请实施例中不需要对目标文本进行基于语义的分词处理,而是利用目标文本中的字符与字符之间的位置关系,对相邻的字符进行分割。具体地,可以利用N-gram算法进行分割,也就是对目标文本中每N个相邻字符进行分割,其中N通常等于2或者3。
举例说明,获得的目标文本为:“数字减影血管造影”,若利用bigram算法进行分割,即对该文本中每两个相邻字符进行分割,得到多个分割词:“数字”、“字减”、“减影”、“影血”、“血管”、“管造”以及“造影”。若利用trigram算法进行分割,即对该文本中每三个相邻字符进行分割,得到多个分割词:“数字减”、“字减影”、“减影血”、“影血管”、“血管造”以及“管造影”。
S102:获得所述多个分割词的词向量。
词向量(英文:word embedding)指的将自然语言中的字词所转换成的计算机可以理解的向量。通过将分割词在相同的语义空间内进行映射,使得每个分割词通过语义空间内的一个特定的坐标进行表示,也就是说每个分割词都被映射成一个特定的向量。因此每个分割词的词向量都能够反映它的语义,并且每个分割词的语义关联度也可以通过语义空间之间的距离值,即分割词的词向量之间的距离值进行表示。其中,词向量具体可以通过word2vec模型或者GloVe模型等方式获得。
以多个分割词包括:“数字”、“字减”、“减影”、“影血”、“血管”、“管造”以及“造影”为例,本步骤中可以基于word2vec模型获得每个分割词的词向量。
S103:根据所述多个分割词的词向量,获得所述目标文本的文本向量。
由于本申请实施例不需要对目标文本进行基于语义的分词处理,而是对每N个相邻的字符进行分割,因此分割词的数量通常较多,若直接对多个分割词的词向量进行分类处理,不仅计算量较大,而且由于数据维度较多导致计算精度也无法得到保障。因此,本申请实施例在进行分类处理之前需要进行数据降维处理,也就是说将多个分割词的词向量进行数据降维处理,获得目标文本的文本向量。
在本申请实施例中可以采用加权相加的方式进行数据降维处理。可选的,本申请实施例对获得的多个分割词的词向量进行加权相加计算,获得加权和,并将该加权和作为所述目标文本的文本向量,该文本向量能够反映整个目标文本的语义。例如,对“数字”、“字减”、“减影”、“影血”、“血管”、“管造”以及“造影”的词向量相加,获得“数字减影血管造影”的文本向量。其中,加权相加计算的权重值可以全部为1,也可以根据分割词的位置、重要度等因素进行设定。
S104:根据所述目标文本的文本向量,获得所述目标文本的分类信息。
一种可选的实施方式中,可以通过分类模型获得分类信息。具体地,将目标文本的文本向量输入至训练好的分类模型,该训练好的分类模型即可输出目标文本的分类信息,例如从预设的分类标签中选取出一个或多个匹配的分类标签。其中,分类模型可以为支持向量机、逻辑回归、随机森林等任一种或多种模型,本申请实施例对此并不加以限定。
可见,本申请实施例中不需要对目标文本进行基于语义的分词处理,而是通过对目标文本中的相邻字符进行分割即可实现文本分类,例如对目标文本中每两个或是三个相邻字符进行分割,避免了因分词准确性较差导致的文本分类准确性降低的问题。本申请实施例尤其适用于目标文本属于专业领域或者小众领域的场景中,因为在该场景中,若根据通用的分词模型对目标文本进行基于语义的分词处理,则会导致分词准确性较低,例如若采用通用的分词模型对“数字减影血管造影”进行分词处理,可能得到错误的分词结果,从而影响最终的分类准确性。但是采用本申请实施例的分类方法则不需要对目标文本进行基于语义的分词处理,因此提高了分类的准确性。
本申请实施例中,不仅可以对包括中文、日文等字符的文本进行分类,也可以对包括英文等字符的文本进行分类。例如,对于手写的英文文本,由于词语之间的空格可能不明显,因此也可以采用本申请实施例的方法对其进行文本分类。
其中,当目标文本包括中文文本时,可以直接以汉字为单位拆分成若干个字符,并对相邻字符进行分割获得分割词。由于汉字中的偏旁通常能够表示该汉字的分类信息,进一步地,还可以对中文文本进行深度拆分,例如对中文文本以汉字的偏旁为单位拆分成若干个字符。之后,对以汉字的偏旁为单位拆分的若干个字符进行相邻字符的分割,获得分割词。通过这种以偏旁为单位的深度拆分方式,能够在目标文本较短的情况下,例如目标文本为少量的词语时,提高分类的准确性。
举例说明,目标文本中包括中文文本:“疾病”,若以汉字为单位直接对该目标文本进行拆分,只能获得“疾”和“病”两个字符,但是若以汉字的偏旁为单位该目标文本进行拆分,能够获得“疒”、“矢”、“疒”、“丙”四个字符,对该四个字符中相邻三个字符进行分割,获得分割词“疒矢疒”和“矢疒丙”,之后可以对分割词“疒矢疒”和“矢疒丙”的词向量进行相加,获得目标文本的文本向量从而对目标文本进行分类。
其中,当目标文本除了中文文本还包括英文文本、标点符号等内容时,在进行上述分割之前还可以对目标文本中的中文文本进行提取。例如去除目标文本中的英文文本、标点符号等内容,将剩余内容作为提取的中文文本。
本申请实施例中可以通过训练好的分类模型获得分类信息,其中分类模型需要通过训练样本和训练样本对应的分类标记进行模型训练。下面具体说明。
分类标记指的是训练样本被标记的分类信息,可以采用人工标记的方式。例如,获取N个段落作为训练样本,对其中每个段落的分类信息进行人工标记,并将标记的分类信息作为N个段落分别对应的分类标记。在获得训练样本和分类标记之后,利用训练样本和分类标记进行模型训练,获得训练好的分类模型。
然而,在训练分类模型时所使用的分类标记往往存在不准确的问题,这部分数据在分类模型建立时通常会成为噪声点,影响分类模型的准确性。虽然通常会通过正则化或者惩罚系数来降低噪声点对分类模型的影响,但是这种方式在降低噪声点对分类模型的影响的同时,也会使得分类模型的准确性降低。因此,本申请实施例可以通过对分类标记进行修正,从而消除噪声点,进一步提高分类模型的准确性。
例如,本申请实施例中获得训练样本和训练样本对应的初始分类标记。其中,初始分类标记可能有部分是错误的。对所述初始分类标记进行修正,获得修正分类标记;根据所述训练样本和所述修正分类标记,获得训练好的分类模型。
请参阅图2,下面提供一种对初始分类标记进行修正的方式。
S201:根据训练样本和初始分类标记,训练得到当前分类模型。
例如,根据训练样本A和初始分类标记B1,训练得到当前分类模型C1。其中,当前分类模型C1可以为支持向量机、逻辑回归、随机森林等任一种或多种模型,本申请实施例对此并不加以限定。
S202:循环执行修正过程。
其中,S202中的修正过程包括:
S2021:将所述训练样本输入至当前分类模型中,获得当前分类模型输出的分类信息。例如,将训练样本A输入至当前分类模型C1中,获得当前分类模型C1输出的分类信息D1。
S2022:确定当前分类模型输出的分类信息与最新的分类标记是否匹配,若不匹配,则执行S2023,若匹配,则执行S2024。
其中,确定当前分类模型输出的分类信息与最新的分类标记是否匹配,可以是确定当前分类模型输出的分类信息与最新的分类标记是否完全一致;或者也可以设置预设占比阈值,确定当前分类模型输出的分类信息与最新的分类标记的一致性所占的比例是否达到预设占比阈值。例如,若当前分类模型输出的分类信息与最新的分类标记的一致性达到了80%以上,则认为两者匹配,否则,则认为两者不匹配。
最新的分类标记指的最后一次更新的分类标记,例如,当第一次执行S2022时,最新的分类标记指的是S201中的初始分类标记B1,因此确定当前分类模型C1输出的分类信息D1与初始分类标记B1是否匹配。
S2023:利用当前分类模型输出的分类信息对最新的分类标记进行修正,并且利用所述训练样本和最新的分类标记更新当前分类模型。
此时当前分类模型输出的分类信息与最新的分类标记不匹配,即分类标记的准确性还没有达到要求,因此对最新的分类标记进行修正,并且更新当前分类模型。当执行完S2023后,返回执行S2021。
例如,若当前分类模型C1输出的分类信息D1与初始分类标记B1不匹配,则利用分类信息D1对初始分类标记B1进行修正,获得最新的分类标签B2。并且利用训练样本A和最新的分类标记B2训练获得当前分类模型C2。返回至S2021,重复上述过程。
S2024:结束循环,将最新的分类标记作为所述修正分类标记。
本步骤说明通过多次循环过程,已经使得当前分类模型输出的分类信息与最新的分类标记匹配,即分类标记的准确性已经达到要求,因此将最新的分类标记作为修正分类标记,根据修正分类标记和训练样本可获得训练好的分类模型。
例如,根据训练样本A和初始分类标记B1,训练得到当前分类模型C1,将训练样本A输入至当前分类模型C1中,获得当前分类模型C1输出的分类信息D1,利用分类信息D1对初始分类标记B1进行修正,获得最新的分类标签B2。并且利用训练样本A和最新的分类标记B2再一次训练获得当前分类模型C2,将训练样本A输入至当前分类模型C2中,获得当前分类模型C2输出的分类信息D2,利用分类信息D2对最新的分类标记B2进行修正。不断重复上述过程,直至当前分类模型CN输出的分类信息DN与最新的分类标记BN匹配,则结束循环,将最新的分类标记BN作为修正后的分类标记。根据最新的分类标记BN和训练样本A可以获得训练好的分类模型,或者直接将最后一次获得的当前分类模型CN作为训练好的分类模型。其中,N大于1。
可见,本申请实施例中通过多次循环过程对分类标记进行修正,最终获得与分类模型输出的分类信息匹配度较高的分类标记,从而消除噪声点,进一步提高分类模型的准确性。
对应上述方法实施例,本申请提供了对应的装置实施例,下面具体说明。
请参阅图3,本申请实施例提供了文本分类装置的一种装置实施例。
本实施例的所述装置包括:分割词获得单元301、词向量获得单元302、文本向量获得单元303和分类获得单元304。
分割词获得单元301,用于对目标文本的相邻字符进行分割,获得多个分割词。
词向量获得单元302,用于获得所述多个分割词的词向量。
文本向量获得单元303,用于根据所述多个分割词的词向量,获得所述目标文本的文本向量。
分类获得单元304,用于根据所述目标文本的文本向量,获得所述目标文本的分类信息。
可选的,所述文本向量获得单元303,具体用于对所述多个分割词的词向量进行加权求和计算,获得加权和,将所述加权和作为所述目标文本的文本向量。
可选的,所述分割词获得单元301,具体用于对所述目标文本中每两个或者三个相邻字符进行分割,获得多个分割词。
可选的,所述目标文本包括中文文本;所述装置还包括:
拆分单元,用于将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;
所述分割词获得单元301具体用于,对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。
可选的,分类获得单元304,包括:
训练数据获得子单元,用于获得训练样本和所述训练样本对应的初始分类标记;
修正子单元,用于对所述初始分类标记进行修正,获得修正分类标记;
模型获得子单元,用于根据所述训练样本和所述修正分类标记,获得训练好的分类模型;
分类获得子单元,用于将所述目标文本的文本向量输入至所述训练好的分类模型,获得所述训练好的分类模型输出的所述目标文本的分类信息。
可选的,所述修正子单元,具体用于根据所述训练样本和所述初始分类标记,训练得到当前分类模型,以及循环执行修正过程;其中,所述修正过程包括:将所述训练样本输入至当前分类模型中,获得当前分类模型输出的分类信息,若当前分类模型输出的分类信息与最新的分类标记相匹配,则结束循环,将最新的分类标记作为所述修正分类标记;若当前分类模型输出的分类信息与最新的分类标记不匹配,利用当前分类模型输出的分类信息对最新的分类标记进行修正,利用所述训练样本和最新的分类标记更新当前分类模型。
在示例性实施例中,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储一个或者一个以上程序,所述处理器用于执行所述一个或者一个以上程序,其中,所述一个或者一个以上程序包含用于进行任一种上述方法实施例的指令。
在示例性实施例中,还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种文本分类方法,所述方法包括:
对目标文本的相邻字符进行分割,获得多个分割词;
获得所述多个分割词的词向量;
根据所述多个分割词的词向量,获得所述目标文本的文本向量;
根据所述目标文本的文本向量,获得所述目标文本的分类信息。
例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,物流管理服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种文本分类方法,其特征在于,包括:
利用目标文本中的字符与字符之间的位置关系,对所述目标文本的每N个相邻字符进行分割,获得多个分割词,其中,N为大于1的整数;
获得所述多个分割词的词向量;
根据所述多个分割词的词向量,获得所述目标文本的文本向量;
根据所述目标文本的文本向量,通过训练好的分类模型获得所述目标文本的分类信息;
当所述目标文本包括中文文本时,在对目标文本的相邻字符进行分割之前,所述方法还包括:
将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;
对目标文本的相邻字符进行分割,获得多个分割词,包括:对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个分割词的词向量,获得所述目标文本的文本向量,包括:
对所述多个分割词的词向量进行加权求和计算,获得加权和;
将所述加权和作为所述目标文本的文本向量。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标文本中的相邻字符进行分割,获得多个分割词,包括:
对所述目标文本中每两个或者三个相邻字符进行分割,获得多个分割词。
4.根据权利要求1所述的方法,其特征在于,根据所述目标文本的文本向量,获得所述目标文本的分类信息,包括:
获得训练样本和所述训练样本对应的初始分类标记;
对所述初始分类标记进行修正,获得修正分类标记;
根据所述训练样本和所述修正分类标记,获得训练好的分类模型;
将所述目标文本的文本向量输入至所述训练好的分类模型,获得所述训练好的分类模型输出的所述目标文本的分类信息。
5.根据权利要求4所述的方法,其特征在于,对所述初始分类标记进行修正,包括:
根据所述训练样本和所述初始分类标记,训练得到当前分类模型;
循环执行修正过程;
其中,所述修正过程包括:将所述训练样本输入至当前分类模型中,获得当前分类模型输出的分类信息,若当前分类模型输出的分类信息与最新的分类标记相匹配,则结束循环,将最新的分类标记作为所述修正分类标记;若当前分类模型输出的分类信息与最新的分类标记不匹配,利用当前分类模型输出的分类信息对最新的分类标记进行修正,利用所述训练样本和最新的分类标记更新当前分类模型。
6.一种文本分类装置,其特征在于,包括:
分割词获得单元,用于利用目标文本中的字符与字符之间的位置关系,对所述目标文本的每N个相邻字符进行分割,获得多个分割词,其中,N为大于1的整数;
词向量获得单元,用于获得所述多个分割词的词向量;
文本向量获得单元,用于根据所述多个分割词的词向量,获得所述目标文本的文本向量;
分类获得单元,用于根据所述目标文本的文本向量,通过训练好的分类模型获得所述目标文本的分类信息;
当所述目标文本包括中文文本时,所述装置还包括:
拆分单元,用于将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;
所述分割词获得单元具体用于,对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。
7.根据权利要求6所述的装置,其特征在于,所述文本向量获得单元,具体用于对所述多个分割词的词向量进行加权求和计算,获得加权和,将所述加权和作为所述目标文本的文本向量。
8.一种电子设备,其特征在于,包括有存储器和处理器,所述存储器中存储一个或者一个以上程序,所述处理器用于执行所述一个或者一个以上程序,其中,所述一个或者一个以上程序包含用于进行以下操作的指令:
利用目标文本中的字符与字符之间的位置关系,对所述目标文本的每N个相邻字符进行分割,获得多个分割词,其中,N为大于1的整数;
获得所述多个分割词的词向量;
根据所述多个分割词的词向量,获得所述目标文本的文本向量;
根据所述目标文本的文本向量,通过训练好的分类模型获得所述目标文本的分类信息;
当所述目标文本包括中文文本时,在对目标文本的相邻字符进行分割之前,还包括:
将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;
对目标文本的相邻字符进行分割,获得多个分割词,包括:对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。
9.一种计算机存储介质,其特征在于,包括计算机程序代码,该计算机程序代码由计算机单元执行,使得该计算机单元:
利用目标文本中的字符与字符之间的位置关系,对所述目标文本的每N个相邻字符进行分割,获得多个分割词,其中,N为大于1的整数;
获得所述多个分割词的词向量;
根据所述多个分割词的词向量,获得所述目标文本的文本向量;
根据所述目标文本的文本向量,通过训练好的分类模型获得所述目标文本的分类信息;
当所述目标文本包括中文文本时,在对目标文本的相邻字符进行分割之前,还包括:
将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;
对目标文本的相邻字符进行分割,获得多个分割词,包括:对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811645051.4A CN109614494B (zh) | 2018-12-29 | 2018-12-29 | 一种文本分类方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811645051.4A CN109614494B (zh) | 2018-12-29 | 2018-12-29 | 一种文本分类方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614494A CN109614494A (zh) | 2019-04-12 |
CN109614494B true CN109614494B (zh) | 2021-10-26 |
Family
ID=66016002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811645051.4A Active CN109614494B (zh) | 2018-12-29 | 2018-12-29 | 一种文本分类方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614494B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991182B (zh) * | 2019-12-03 | 2024-01-19 | 东软集团股份有限公司 | 用于专业领域的分词方法、装置、存储介质及电子设备 |
CN112307209B (zh) * | 2020-11-05 | 2024-04-26 | 江西高创保安服务技术有限公司 | 一种基于字符向量的短文本分类方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202199A (zh) * | 2016-06-29 | 2016-12-07 | 合肥民众亿兴软件开发有限公司 | 一种基于文本分类技术的信息处理方法 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
CN107918778A (zh) * | 2016-10-11 | 2018-04-17 | 阿里巴巴集团控股有限公司 | 一种信息匹配方法及相关装置 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4713870B2 (ja) * | 2004-10-13 | 2011-06-29 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 文書分類装置、方法、プログラム |
US8385652B2 (en) * | 2010-03-31 | 2013-02-26 | Microsoft Corporation | Segmentation of textual lines in an image that include western characters and hieroglyphic characters |
US9104940B2 (en) * | 2013-08-30 | 2015-08-11 | Konica Minolta Laboratory U.S.A., Inc. | Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines |
CN106570518A (zh) * | 2016-10-14 | 2017-04-19 | 上海新同惠自动化系统有限公司 | 一种中日文手写文本的识别方法 |
CN107301225B (zh) * | 2017-06-20 | 2021-01-26 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN108304376B (zh) * | 2017-12-15 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 文本向量的确定方法、装置、存储介质及电子装置 |
CN108170818A (zh) * | 2017-12-29 | 2018-06-15 | 深圳市金立通信设备有限公司 | 一种文本分类方法、服务器及计算机可读介质 |
CN108875072B (zh) * | 2018-07-05 | 2022-01-14 | 第四范式(北京)技术有限公司 | 文本分类方法、装置、设备以及存储介质 |
-
2018
- 2018-12-29 CN CN201811645051.4A patent/CN109614494B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202199A (zh) * | 2016-06-29 | 2016-12-07 | 合肥民众亿兴软件开发有限公司 | 一种基于文本分类技术的信息处理方法 |
CN107918778A (zh) * | 2016-10-11 | 2018-04-17 | 阿里巴巴集团控股有限公司 | 一种信息匹配方法及相关装置 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109614494A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909548B (zh) | 中文命名实体识别方法、装置及计算机可读存储介质 | |
CN109416705B (zh) | 利用语料库中可用的信息用于数据解析和预测 | |
CN108804423B (zh) | 医疗文本特征提取与自动匹配方法和系统 | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
EP3591539A1 (en) | Parsing unstructured information for conversion into structured data | |
CN108090043B (zh) | 基于人工智能的纠错举报处理方法、装置及可读介质 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN112765319B (zh) | 一种文本的处理方法、装置、电子设备及存储介质 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN110610180A (zh) | 错别字词识别集的生成方法、装置、设备及存储介质 | |
CN110543637A (zh) | 一种中文分词方法及装置 | |
CN112434520A (zh) | 命名实体识别方法、装置及可读存储介质 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN109614494B (zh) | 一种文本分类方法及相关装置 | |
EP2653981A1 (en) | Natural language processing device, method, and program | |
CN112464642A (zh) | 文本添加标点的方法、装置、介质及电子设备 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
Barrón-Cedeño et al. | Word length n-Grams for text re-use detection | |
Wong et al. | isentenizer-: Multilingual sentence boundary detection model | |
Kiperwasser et al. | Semi-supervised dependency parsing using bilexical contextual features from auto-parsed data | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
US10789410B1 (en) | Identification of source languages for terms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |