CN104915356A - 一种文本分类校正方法及装置 - Google Patents

一种文本分类校正方法及装置 Download PDF

Info

Publication number
CN104915356A
CN104915356A CN201410093054.7A CN201410093054A CN104915356A CN 104915356 A CN104915356 A CN 104915356A CN 201410093054 A CN201410093054 A CN 201410093054A CN 104915356 A CN104915356 A CN 104915356A
Authority
CN
China
Prior art keywords
text
word
collection
classification
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410093054.7A
Other languages
English (en)
Other versions
CN104915356B (zh
Inventor
夏文菁
王志卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Shanghai Co Ltd
Original Assignee
China Mobile Group Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Shanghai Co Ltd filed Critical China Mobile Group Shanghai Co Ltd
Priority to CN201410093054.7A priority Critical patent/CN104915356B/zh
Publication of CN104915356A publication Critical patent/CN104915356A/zh
Application granted granted Critical
Publication of CN104915356B publication Critical patent/CN104915356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类校正方法及装置,包括:获取各文本类别包括的文本,组成文本集合;对该文本集合中的文本进行特征词提取处理,得到特征词语;根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重;将该文本包括的各特征词语在该文本中的出现次数与在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;从该待校正文本在除其所属类别以外的其他类别中,将该待校正文本的分类校正值最大的类别,确定为该待校正文本的新的类别。

Description

一种文本分类校正方法及装置
技术领域
本发明涉及文本挖掘技术领域,尤其涉及一种文本分类校正方法及装置。
背景技术
文本分类是对文本按照一定的分类体系或标准进行分类,将文本划分到预先给定的类别中。目前,在进行文本分类时,需要确定各种类别的特点,选取一定数量的文本作为训练样本,通过对训练样本进行训练构建分类模型,采用训练好的分类模型对待分类文本进行分类。
在通过对训练样本进行训练并构建分类模型时,需要大量的训练样本集,并且要求训练样本集相对待分类文本具有较好的代表性,即训练样本集足够准确,然而,在文本分类的实际需求中,制作准确的样本集非常困难,造成很多情况下文本分类仍然依赖于人工进行分类,使得对待分类文本分类出现错误,因此,为了提高文本分类的准确性,需要对分类结果进行校正,到目前为止,还没有对文本分类结果进行校正的方案。
发明内容
本发明实施例提供一种文本分类校正方法及装置,用以解决现有技术中存在的文本分类不准确的问题。
本发明实施例提供一种文本分类校正方法,包括:
获取各文本类别包括的文本,组成文本集合;
对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语;
针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;
针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;
从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;
从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别。
采用上述实施例提供的方法,由于通过各类别的每个文本包括的特征词语与各特征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值,能够表征该文本与该文本所在类别的相关程度,因此可以通过分类校正值识别已经分类文本中的错误分类文本,对分类错误的文本进行校正,从而重新划分到相关程度最大的类别中,进而能够提高文本分类的准确性。
进一步的,对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语,具体包括:
对所述文本集合中的文本进行分词,将分词后得到的所有词语作为所述文本集合包括的特征词语。
进一步的,对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语,具体包括:
对所述文本集合中的文本进行分词;
从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,作为所述文本集合包括的特征词语。
在从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前,还包括:
将分词后得到的词语与预设停用词表中的停用词进行匹配;
在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的词语集;
从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,具体包括:
从剩余的词语集中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
进一步的,上述方法,还包括:
当有未分类的文本需要分类时,确定待分类文本在各类别中的分类校正值;
将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
这样,通过确定待分类文本在各类别中的分类校正值,还可以实现对未分类的文本进行分类。
本发明实施例还提供了一种文本分类校正装置,包括:
获取单元,用于获取各文本类别包括的文本,组成文本集合;
处理单元,用于对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语;
第一确定单元,用于针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;
第二确定单元,用于针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;
选择单元,用于从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;
第三确定单元,用于从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别。
采用上述实施例提供的装置,由于通过各类别的每个文本包括的特征词语与各特征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值,能够表征该文本与该文本所在类别的相关程度,因此可以通过分类校正值识别已经分类文本中的错误分类文本,对分类错误的文本进行校正,从而重新划分到相关程度最大的类别中,进而能够提高文本分类的准确性。
进一步的,所述处理单元,具体用于对所述文本集合中的文本进行分词,将分词后得到的所有词语作为所述文本集合包括的特征词语。
进一步的,所述处理单元,具体用于对所述文本集合中的文本进行分词;从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,作为所述文本集合包括的特征词语。
进一步的,所述处理单元,还用于在从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前,将分词后得到的词语与预设停用词表中的停用词进行匹配;在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的词语集;从剩余的词语集中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
进一步的,上述装置,还包括:
第四确定单元,用于当有未分类的文本需要分类时,确定待分类文本在各类别中的分类校正值;
划分单元,用于将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
这样,通过确定待分类文本在各类别中的分类校正值,还可以实现对未分类的文本进行分类。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的文本分类校正方法的流程图;
图2为本发明实施例1提供的文本分类校正方法的流程图;
图3为本发明实施例2提供的文本分类校正装置的结构示意图。
具体实施方式
为了给出提高文本分类的准确性的实现方案,本发明实施例提供了一种文本分类校正方法及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种文本分类校正方法,如图1所示,包括:
步骤101、获取各文本类别包括的文本,组成文本集合。
步骤102、对该文本集合中的文本进行特征词提取处理,得到该文本集合包括的特征词语。
步骤103、针对该文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关。
步骤104、针对该文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值。
步骤105、从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本。
步骤106、从该待校正文本在除其所属类别以外的其他类别中,将该待校正文本的分类校正值最大的类别,确定为该待校正文本的新的类别。
本发明实施例提供的上述方法中,获取的各文本类别包括的文本为已经预先进行过分类的各文本类别包括的文本,这些文本可以为投诉文本。在文本集合中确定出待校正文本,即在已预先分类的各文本类别包括的文本中,确定预先分类中的分类错误的文本。
下面结合附图,用具体实施例对本发明提供的方法及装置进行详细描述。
实施例1:
图2为本发明实施例提供的文本分类校正方法的流程图,具体包括如下处理步骤:
步骤201、获取各文本类别包括的文本,组成文本集合。
本步骤中,各文本类别为已经预先进行分类的各文本类别,每一类别中包括的文本可以为多个文本,且各文本类别包括的文本数量可以不同。
步骤202、对文本集合中的文本进行分词。
步骤203、将分词后得到的词语与预设停用词表中的停用词进行匹配。
其中,预设停用词表中保存的词语可以为预先设置的语气词、助词、副词等和已公布的停用词,例如:可以将助词“的”,语气词“呢”、“啊”等保存在预设停用词表中。
步骤204、在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的词语集。
步骤205、统计文本集合中每一个词语的出现次数。
上述步骤203-204与步骤205之间没有严格的先后顺序。
步骤206、从剩余的词语集中,选择词语在文本集合中的出现次数在预设次数范围内对应的词语,作为该文本集合包括的特征词语。
本步骤中,预设次数范围可以根据实际经验和需要进行灵活设置,例如,可以将词语在文本集合中的出现次数n最大的四分之三作为该预设次数范围的上限值a,如果文本集合中,词语“的”出现次数为1200次,为文本集合中出现次数最大的词语,那么,可以将900作为该预设次数范围的上限值a,出现次数不小于900的词语可以作为高频词删除;可以将该预设次数范围的下限值b设为3,出现次数不大于3的词语可以作为低频次删除;将满足a<n<b的词语作为该文本集合包括的特征词语。
上述步骤202-步骤206是对该文本集合中的文本进行特征词提取处理的过程,在对该文本集合中的文本进行特征词提取处理时,还可以采用如下方式:对文本集合中的文本进行分词,将分词后得到的所有词语作为该文本集合包括的特征词语。
步骤207、针对该文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关。
本步骤中,针对该文本集合包括的每一个特征词语Wj,可以根据该特征词语在类别Ci包括的文本中出现的次数ni(Wj)和该文本集合中包含该特征词语Wj的类别数量N(Wj)的比值ni(Wj)/N(Wj),确定该特征词语在该类别Ci中的权重aij,并且aij与ni(Wj)/N(Wj)正相关,例如,可以确定如果特征词语Wj不在类别Ci中。
步骤208、针对该文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值。
步骤209、从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本。
其中,预设校正阈值可以根据实际经验和需要进行灵活设置,例如,可以将类别Ci中的每一个文本的分类校正值按从小到大进行排序,可以取排在预设百分比位置对应的分类校正值作为类别Ci的预设校正阈值,例如,可以取2.5%位置对应的分类校正值为该类别Ci的预设校正阈值。
步骤210、针对每一个待校正文本,确定该待校正文本在除其所属类别以外的其他类别中的分类校正值。
本步骤中,可以采用上述步骤208相同的方式确定待校正文本在除其所属类别以外的其他类别中的分类校正值,在此不再进行详细描述。
步骤211、从该待校正文本在除其所属类别以外的其他类别中,将该待校正文本的分类校正值最大的类别,确定为该待校正文本的新的类别。
进一步的,针对预先进行过分类的文本之外的待分类文本,还可以采用如下步骤212-213对待分类文本进行分类:
步骤212、确定该待分类文本在各类别中的分类校正值。
本步骤中,可以采用上述步骤208相同的方式确定该待分类文本在各类别中的分类校正值,在此不再进行详细描述。
步骤213、将该待分类文本划分到该待分类文本的分类校正值最大的类别中。
通过本发明上述实施例1提供的方法,由于通过各类别的每个文本包括的特征词语与各特征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值,能够表征该文本与该文本所在类别的相关程度,因此可以通过分类校正值识别已经分类文本中的错误分类文本,对分类错误的文本进行校正,从而重新划分到相关程度最大的类别中,进而能够提高分类文本的准确性。
实施例2:
基于同一发明构思,根据本发明上述实施例提供的文本分类校正方法,相应地,本发明另一实施例还提供了一种文本分类校正装置,其结构示意图如图3所示,具体包括:
获取单元301,用于获取各文本类别包括的文本,组成文本集合;
处理单元302,用于对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语;
第一确定单元303,用于针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;
第二确定单元304,用于针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;
选择单元305,用于从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;
第三确定单元306,用于从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别。
进一步的,处理单元302,具体用于对所述文本集合中的文本进行分词,将分词后得到的所有词语作为所述文本集合包括的特征词语。
进一步的,处理单元302,具体用于对所述文本集合中的文本进行分词;从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,作为所述文本集合包括的特征词语。
进一步的,处理单元302,还用于在从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前,将分词后得到的词语与预设停用词表中的停用词进行匹配;在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的词语集;从剩余的词语集中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
进一步的,上述装置,还包括:
第四确定单元307,用于当有未分类的文本需要分类时,确定待分类文本在各类别中的分类校正值;
划分单元308,用于将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
上述各单元的功能可对应于图1或图2所示流程中的相应处理步骤,在此不再赘述。
综上所述,本发明实施例提供的方案,包括:获取各文本类别包括的文本,组成文本集合;对该文本集合中的文本进行特征词提取处理,得到该文本集合包括的特征词语;针对该文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;针对该文本集合中各类别包括的每一个文本,将该文本包括的各特征词语与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;从该待校正文本在除其所属类别以外的其他类别中,将该待校正文本的分类校正值最大的类别,确定为该待校正文本的新的类别。采用本发明实施例提供的方案,提高了文本分类的准确性。
本申请的实施例所提供的文本分类校正装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要文本分类校正装置具有上述功能,都应该在本申请的保护范围之内。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种文本分类校正方法,其特征在于,包括:
获取各文本类别包括的文本,组成文本集合;
对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语;
针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;
针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;
从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;
从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别。
2.如权利要求1所述的方法,其特征在于,对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语,具体包括:
对所述文本集合中的文本进行分词,将分词后得到的所有词语作为所述文本集合包括的特征词语。
3.如权利要求1所述的方法,其特征在于,对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语,具体包括:
对所述文本集合中的文本进行分词;
从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,作为所述文本集合包括的特征词语。
4.如权利要求3所述的方法,其特征在于,在从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前,还包括:
将分词后得到的词语与预设停用词表中的停用词进行匹配;
在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的词语集;
从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,具体包括:
从剩余的词语集中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
5.如权利要求1所述的方法,其特征在于,还包括:
当有未分类的文本需要分类时,确定待分类文本在各类别中的分类校正值;
将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
6.一种文本分类校正装置,其特征在于,包括:
获取单元,用于获取各文本类别包括的文本,组成文本集合;
处理单元,用于对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语;
第一确定单元,用于针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;
第二确定单元,用于针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;
选择单元,用于从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;
第三确定单元,用于从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别。
7.如权利要求6所述的装置,其特征在于,所述处理单元,具体用于对所述文本集合中的文本进行分词,将分词后得到的所有词语作为所述文本集合包括的特征词语。
8.如权利要求6所述的装置,其特征在于,所述处理单元,具体用于对所述文本集合中的文本进行分词;从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,作为所述文本集合包括的特征词语。
9.如权利要求8所述的装置,其特征在于,所述处理单元,还用于在从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前,将分词后得到的词语与预设停用词表中的停用词进行匹配;在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的词语集;从剩余的词语集中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
10.如权利要求6所述的装置,其特征在于,还包括:
第四确定单元,用于当有未分类的文本需要分类时,确定待分类文本在各类别中的分类校正值;
划分单元,用于将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
CN201410093054.7A 2014-03-13 2014-03-13 一种文本分类校正方法及装置 Active CN104915356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410093054.7A CN104915356B (zh) 2014-03-13 2014-03-13 一种文本分类校正方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410093054.7A CN104915356B (zh) 2014-03-13 2014-03-13 一种文本分类校正方法及装置

Publications (2)

Publication Number Publication Date
CN104915356A true CN104915356A (zh) 2015-09-16
CN104915356B CN104915356B (zh) 2018-12-07

Family

ID=54084424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410093054.7A Active CN104915356B (zh) 2014-03-13 2014-03-13 一种文本分类校正方法及装置

Country Status (1)

Country Link
CN (1) CN104915356B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040343A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN107797981A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 一种目标文本识别方法及装置
CN108415959A (zh) * 2018-02-06 2018-08-17 北京捷通华声科技股份有限公司 一种文本分类方法及装置
CN108959237A (zh) * 2017-05-23 2018-12-07 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN109684472A (zh) * 2018-12-20 2019-04-26 深圳价值在线信息科技股份有限公司 一种证券资讯的行业分类方法及系统
CN110245338A (zh) * 2018-03-09 2019-09-17 北京国双科技有限公司 事实识别的校正方法及装置
CN110321471A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于政策性资源汇聚的互联网科技金融智能匹配方法
CN110889309A (zh) * 2018-09-07 2020-03-17 上海怀若智能科技有限公司 金融单据分类管理系统及方法
WO2020107864A1 (zh) * 2018-11-30 2020-06-04 华为技术有限公司 信息处理方法、装置、服务设备及计算机可读存储介质
CN111414745A (zh) * 2020-04-03 2020-07-14 龙马智芯(珠海横琴)科技有限公司 文本标点确定方法与装置、存储介质、电子设备
CN112015864A (zh) * 2020-08-26 2020-12-01 深圳市金蝶天燕云计算股份有限公司 信息查询方法及相关设备
CN112800232A (zh) * 2021-04-01 2021-05-14 南京视察者智能科技有限公司 基于大数据的案件自动分类、优化方法及训练集修正方法
CN113128211A (zh) * 2020-01-14 2021-07-16 北京京东振世信息技术有限公司 一种物品分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
US8375036B1 (en) * 2009-01-09 2013-02-12 Google Inc. Book content item search
CN103154936A (zh) * 2010-09-24 2013-06-12 新加坡国立大学 用于自动化文本校正的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375036B1 (en) * 2009-01-09 2013-02-12 Google Inc. Book content item search
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN103154936A (zh) * 2010-09-24 2013-06-12 新加坡国立大学 用于自动化文本校正的方法和系统
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓擘等: "使用特征词的统计分布信息进行文本分类", 《计算机工程与应用》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797981A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 一种目标文本识别方法及装置
US11281860B2 (en) 2016-08-31 2022-03-22 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for recognizing text type
WO2018040343A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN108959237A (zh) * 2017-05-23 2018-12-07 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN108959237B (zh) * 2017-05-23 2022-11-22 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN108415959B (zh) * 2018-02-06 2021-06-25 北京捷通华声科技股份有限公司 一种文本分类方法及装置
CN108415959A (zh) * 2018-02-06 2018-08-17 北京捷通华声科技股份有限公司 一种文本分类方法及装置
CN110245338A (zh) * 2018-03-09 2019-09-17 北京国双科技有限公司 事实识别的校正方法及装置
CN110889309A (zh) * 2018-09-07 2020-03-17 上海怀若智能科技有限公司 金融单据分类管理系统及方法
WO2020107864A1 (zh) * 2018-11-30 2020-06-04 华为技术有限公司 信息处理方法、装置、服务设备及计算机可读存储介质
CN109684472A (zh) * 2018-12-20 2019-04-26 深圳价值在线信息科技股份有限公司 一种证券资讯的行业分类方法及系统
CN110321471A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于政策性资源汇聚的互联网科技金融智能匹配方法
CN113128211A (zh) * 2020-01-14 2021-07-16 北京京东振世信息技术有限公司 一种物品分类方法及装置
CN113128211B (zh) * 2020-01-14 2024-06-21 北京京东振世信息技术有限公司 一种物品分类方法及装置
CN111414745A (zh) * 2020-04-03 2020-07-14 龙马智芯(珠海横琴)科技有限公司 文本标点确定方法与装置、存储介质、电子设备
CN112015864A (zh) * 2020-08-26 2020-12-01 深圳市金蝶天燕云计算股份有限公司 信息查询方法及相关设备
CN112800232A (zh) * 2021-04-01 2021-05-14 南京视察者智能科技有限公司 基于大数据的案件自动分类、优化方法及训练集修正方法

Also Published As

Publication number Publication date
CN104915356B (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN104915356A (zh) 一种文本分类校正方法及装置
CN109561322B (zh) 一种视频审核的方法、装置、设备和存储介质
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN104391860A (zh) 内容类别检测方法及装置
MY189945A (en) Statistical analytic method for the determination of the risk posed by file based content
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
EP3021239A3 (en) Display apparatus and method for summarizing of document
EP2413259A3 (en) Methods and systems for test automation of forms in web applications
CN106503254A (zh) 语料分类方法、装置及终端
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN104732332B (zh) 基于电子商务的订单拆分方法和装置
CN109492217B (zh) 一种基于机器学习的分词方法及终端设备
CN106845220A (zh) 一种Android恶意软件检测系统及方法
CN112307860A (zh) 图像识别模型训练方法和装置、图像识别方法和装置
CN109213978A (zh) 一种合并单元格的方法、装置、电子设备及可读存储介质
CN109067708B (zh) 一种网页后门的检测方法、装置、设备及存储介质
CN107508727A (zh) 一种自动化网卡信息检查方法及装置
CN110689088A (zh) 基于cnn的libs矿石光谱数据分类方法及装置
US20230401249A1 (en) Document classification method and apparatus, and electronic device
CN103577547A (zh) 网页类型识别方法及装置
CN104933178A (zh) 官方网站确定方法及系统
CN106570003A (zh) 数据推送方法及装置
CN104699707A (zh) 一种聚类数据的方法和装置
CN103186672A (zh) 文件排序方法及其装置
CN105138513A (zh) 确定汉语词汇相似度的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant