CN106503254A - 语料分类方法、装置及终端 - Google Patents
语料分类方法、装置及终端 Download PDFInfo
- Publication number
- CN106503254A CN106503254A CN201610997266.7A CN201610997266A CN106503254A CN 106503254 A CN106503254 A CN 106503254A CN 201610997266 A CN201610997266 A CN 201610997266A CN 106503254 A CN106503254 A CN 106503254A
- Authority
- CN
- China
- Prior art keywords
- language material
- classification
- sorted
- probability
- grader
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种语料分类方法、装置及终端,语料分类方法包括:对训练语料和待分类语料进行分词;在所述训练语料分词后的结果中提取各个类别的特征词;根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。本发明技术方案提高了语料分类的准确性。
Description
技术领域
本发明涉及智能交互技术领域,尤其涉及一种语料分类方法、装置及终端。
背景技术
文本分类是指按照预先定义的类别,为文档集合中的每个文档确定一个类别。文本分类是文本挖掘的一个重要内容。文本分类作为一项基础的研究,在很多领域都有应用,例如信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域。
现有技术中,通常采用统计方法和机器学习方法进行自动文本分类。在文本分类中,训练样本数据的质量以及经过训练后的分类器模型直接决定着分类结果的准确性。
而现有技术中训练样本通常质量不高,导致分类结果不准确;且分类器模型在分类时,根据文本属于各个预先定义的类别的概率,将文本划分至最大概率对应的类别,在上述最大概率仍然较小时,将导致分类结果不准确。
发明内容
本发明解决的技术问题是如何提高文本分类的准确性。
为解决上述技术问题,本发明实施例提供一种语料分类方法,所述语料分类方法包括:对训练语料和待分类语料进行分词;在所述训练语料分词后的结果中提取各个类别的特征词;根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。
可选的,所述利用训练完成后的所述分类器对所述待分类语料进行分类包括:根据所述各个类别的特征词计算所述待分类语料被划分为所述各个类别的概率;根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别或所述各个类别之外的其他类别,以作为所述分类结果。
可选的,所述根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别以及所述各个类别之外的其他类别包括:如果所述待分类语料被划分为所述各个类别的概率的最大值达到所述概率阈值,则将所述待分类语料划分为所述概率的最大值对应的类别;或,如果所述待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值,则将所述待分类语料划分为所述其他类别。
可选的,所述在所述训练语料分词后的结果中提取各个类别的特征词之后且在训练分类器之前还包括:对所述特征词进行过滤,以使得所述各个类别之间的特征词不重复。
可选的,利用朴素贝叶斯分类算法构建所述分类器。
可选的,所述语料分类方法还包括:对所述分类结果进行审核,得到分类准确率;当所述分类准确率小于设定阈值时,重新训练所述分类器,得到新的分类器,直至采用所述新的分类器得到的所述分类准确率大于或等于设定阈值;后续采用所述新的分类器进行分类。
可选的,所述语料分类方法还包括:在进行所述分词之前,对所述待分类语料进行预处理。
可选的,所述对所述待分类语料进行预处理包括:将所述待分类语料转换为文本格式,得到文本数据;对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词。
可选的,所述对所述待分类语料进行预处理之后且在进行分词之前还包括:对所述待分类语料和所述训练语料进行新词发现处理,并将发现的新词加入分词词典;所述对待分类语料和所述训练语料进行分词包括采用所述分词词典进行分词。
可选的,所述在所述训练语料分词后的结果中提取各个类别的特征词之前还包括:基于预设同义词库对所述训练语料和所述待分类语料进行同义词的替换处理。
可选的,采用以下方式提取各个类别的特征词:信息增益、卡方检验或/和信息熵。
可选的,所述待分类语料为问答日志中的用户问题日志数据。
为解决上述问题,本发明实施例还公开了一种语料分类装置,语料分类装置包括:分词单元,适于对训练语料和待分类语料进行分词;特征词提取单元,适于在所述训练语料分词后的结果中提取各个类别的特征词;概率阈值确定单元,适于根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;分类单元,适于利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。
可选的,所述分类单元包括:概率计算子单元,适于根据所述各个类别的特征词计算所述待分类语料被划分为所述各个类别的概率;划分子单元,适于根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别或所述各个类别之外的其他类别,以作为所述分类结果。
可选的,所述划分子单元在所述待分类语料被划分为所述各个类别的概率的最大值达到所述概率阈值时,将所述待分类语料划分为所述概率的最大值对应的类别;或,在所述待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值时,将所述待分类语料划分为所述其他类别。
可选的,所述语料分类装置还包括:过滤单元,适于对所述特征词进行过滤,以使得所述各个类别之间的特征词不重复。
可选的,所述概率阈值确定单元利用朴素贝叶斯分类算法构建所述分类器。
可选的,所述语料分类装置还包括:审核单元,适于对所述分类结果进行审核,得到分类准确率;调整单元,适于在所述分类准确率小于设定阈值时,重新训练所述分类器,得到新的分类器,直至采用所述新的分类器得到的所述分类准确率大于或等于设定阈值;所述分类单元后续采用所述新的分类器进行分类。
可选的,所述语料分类装置还包括:预处理单元,适于对所述待分类语料进行预处理。
可选的,所述预处理单元包括:转换子单元,适于将所述待分类语料转换为文本格式,得到文本数据;过滤子单元,适于对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词。
可选的,所述语料分类装置还包括:新词发现单元,适于对所述待分类语料和所述训练语料进行新词发现处理,并将发现的新词加入分词词典;所述分词单元采用所述分词词典进行分词。
可选的,所述语料分类装置还包括:同义词替换单元,适于基于预设同义词库对所述训练语料和所述待分类语料进行同义词的替换处理。
可选的,所述特征词提取单元采用以下方式提取各个类别的特征词:信息增益、卡方检验或/和信息熵。
可选的,所述待分类语料为问答日志中的用户问题日志数据。
为解决上述问题,本发明实施例还公开了一种终端,所述终端包括所述语料分类装置。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明技术方案对训练语料和待分类语料进行分词;在所述训练语料分词后的结果中提取各个类别的特征词;根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。本发明技术方案通过各个类别的特征词和训练语料训练分类器后,得到了分类器中的概率阈值,从而在后续采用所述分类器对待分类语料进行分类时,只有在待分类语料被划分为各个类别的概率满足概率阈值的限制时,才能够被分到所述各个类别,避免了现有技术中在最大概率较小时仍然被划分至相应的类别的情况,提高了语料分类准确率。
进一步,如果所述待分类语料被划分为所述各个类别的概率的最大值达到所述概率阈值,则将所述待分类语料划分为所述概率的最大值对应的类别;或,如果所述待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值,则将所述待分类语料划分为所述其他类别。本发明技术方案在对待分类语料的分类结果中,可以将被划分为各个类别的概率的最大值不满足概率阈值的待分类语料划分至各个类别之外的其他类别,以避免其被不适当地划分至上述各个类别,进一步提高分类准确率。
进一步,对所述特征词进行过滤,以使得所述各个类别之间的特征词不重复。本发明技术方案通过对所述特征词进行过滤,使得训练语料的各个类别具有良好的类别特征,提高了训练语料的数据的质量,进一步提高了语料分类的准确率。
附图说明
图1是本发明实施例一种语料分类方法的流程图;
图2是本发明实施例另一种语料分类方法的流程图;
图3是本发明实施例一种语料分类装置的结构示意图。
具体实施方式
如背景技术中所述,现有技术中训练样本通常质量不高,导致分类结果不准确;且分类器模型在分类时,根据文本属于各个预先定义的类别的概率,将文本划分至最大概率对应的类别,在上述最大概率仍然较小时,导致分类结果不准确。
本发明实施例通过各个类别的特征词和训练语料训练分类器分类后,得到了分类器中的概率阈值,从而在后续采用所述分类器对待分类语料进行分类时,只有在待分类语料被划分为各个类别的概率满足概率阈值的限制时,才能够被分到所述各个类别,避免了现有技术中在最大概率较小时仍然被划分至相应的类别的情况,提高了语料分类准确率。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种语料分类方法的流程图。
图1所示的语料分类方法可以包括以下步骤:
步骤S101:对训练语料和待分类语料进行分词;
步骤S102:在所述训练语料分词后的结果中提取各个类别的特征词;
步骤S103:根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;
步骤S104:利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。
具体实施中,待分类语料和训练语料可以是同领域内语料。例如,所述待分类语料可以为问答日志中的用户问题日志数据;所述训练语料也可以为问答日志中的用户问题日志数据。
具体实施中,在步骤S101中,对训练语料和待分类语料进行分词。具体地,当训练语料和待分类语料为中文文本时,因为词与词之间没有明显的切分标志,所以首先需要对语料进行分词。进一步地,可以采用以下方式进行分词:一类是机械式分词法,一般以分词词典为依据,通过将语料中的词语和分词词典中的词语逐一匹配来完成词语的切分;另一类是理解式分词法,即利用汉语的语法知识和语义知识进行分词,需要建立分词数据库、知识库和推理库来完成词语的切分。
具体实施中,在步骤S102中,提取到的特征词可以用以表征所述各个类别。其中,各个类别的数量可以是预先设定的。具体地,高质量的特征词可以具备以下特性:数量少;冗余少;噪音少;与其所属类别语义相关;含义明确。进一步地,在提取各个类别的特征词时,可以采用以下方式:信息增益、卡方检验和信息熵中的一种或多种。
本领域技术人员应当理解,提取特征词可采用任意可实施的算法,本发明实施例对此不做限制。
具体实施中,在步骤S103中,基于步骤S102得到的各个类别的特征词以及训练语料对分类器进行训练,所述分类器的参数可以包括概率阈值,训练完成后,确定概率阈值的具体数值。具体而言,在训练之前,可以为分类器配置初始概率;经过训练,分类器稳定,此时分类器对训练语料的分类结果准确,从而可以得到优化后的概率阈值。进一步地,由于朴素贝叶斯分类算法是基于待分类语料的概率进行分类的,因此可以利用朴素贝叶斯分类算法构建所述分类器。
具体实施中,在步骤S104中,基于步骤S103训练完成的分类器对待分类语料进行分类。相比于现有技术中,将待分类语料划分至最大概率对应的类别,也就是每一待分类语料都会被划分至各个类别中的一种类别,由于各个类别的数量是预先设定的,在待分类语料明显不属于最大概率对应的类别时,分类结果的准确性大大降低。而本实施例由于训练得到了分类器中的概率阈值,从而在后续采用所述分类器对待分类语料进行分类时,只有在待分类语料被划分为各个类别的概率满足概率阈值的限制时,才能够被分到所述各个类别,避免了现有技术中在最大概率较小时仍然被划分至相应的类别的情况,提高了语料分类的准确率。
本发明实施例的语料分类方法可以根据实际应用环境实现对不同领域内语料的分类。
优选的,步骤S104可以包括以下步骤:根据所述各个类别的特征词计算所述待分类语料被划分为所述各个类别的概率;根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别或所述各个类别之外的其他类别,以作为所述分类结果。也就是说,在待分类语料的分类结果中,可以将不满足概率阈值的待分类语料划分至各个类别之外的其他类别,以避免其被不适当地划分至上述各个类别,进一步提高分类准确率。
具体地,如果所述待分类语料被划分为所述各个类别的概率的最大值达到所述概率阈值,则将所述待分类语料划分为所述概率的最大值对应的类别;或,如果所述待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值,则将所述待分类语料划分为所述其他类别。也就是说,通过将待分类语料被划分为所述各个类别的概率的最大值与概率阈值相比较,在该概率达到概率阈值时,表明待分类语料属于所述类别,否则,表明待分类语料不属于所述任一类别;进而在待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值时,将待分类语料划分至其他类别,避免其被划分至上述各个类别影响分类结果的准确性。
具体实施中,图1所示的语料分类方法还可以包括以下步骤:对所述特征词进行过滤,以使得所述各个类别之间的特征词不重复。通过对提取得到的所述特征词进行过滤,也就是使得各个类别之间的特征词不重复,从而使得训练语料的各个类别具有良好的类别特征,提高了训练语料的质量,进而可以训练得到较优的分类器,进一步提高了语料分类的准确率。
具体实施中,图1所示的语料分类方法还可以包括以下步骤:对所述分类结果进行审核,得到分类准确率;当所述分类准确率小于设定阈值时,重新训练所述分类器,得到新的分类器,直至采用所述新的分类器得到的所述分类准确率大于或等于设定阈值;后续采用所述新的分类器进行分类。本实施例中,对分类器的分类结果进行审核,以便进行进一步优化。也就是在分类准确率小于设定阈值时,重新训练所述分类器。具体而言,可以将分类结果中分错的待分类语料加入训练语料,以用于对分类器进行重新训练,直至分类器的分类准确率大于或等于设定阈值。至此,分类器稳定,采用该分类器对待分类语料进行分类的准确率将进一步提高。
具体实施中,在步骤S101之前还可以包括以下步骤:对所述待分类语料进行预处理。具体而言,将所述待分类语料转换为文本格式,得到文本数据;对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词。通过对待分类语料的预处理,可以将待分类语料转换为可识别处理的文本格式;同时,通过过滤预设词,可以减小后续步骤的计算量。
具体实施中,对所述待分类语料进行预处理之后且在进行分词之前还可以包括:对所述待分类语料和所述训练语料进行新词发现处理,并将发现的新词加入分词词典;所述对待分类语料和所述训练语料进行分词包括采用所述分词词典进行分词。也就是说,由于领域内的新词也有可能是特征词,因此通过新词发现处理可以发现待分类语料和训练语料内的新词,进而可以在步骤S102中提取特征词时,可以将所述新词作为特征词,从而在分类时进一步提高分类准确率。
具体实施中,在步骤S102之前还可以包括以下步骤:基于预设同义词库对所述训练语料和所述待分类语料进行同义词的替换处理。本发明实施例通过同义词替换处理,可以在训练语料中提取特征词时,可以包含同义词汇的语义特征,在确定特征词时计入同义词的贡献,避免忽略出现频率不高但对于各个类别具有表征意义的词语,提高了特征词提取的准确性;同理,通过同义词替换处理,在对待分类语料进行分类时,可以包含同义词汇的语义特征,提高了语料被划分至各个类别的准确性,进一步提高了语料分类的准确性。
图2是本发明实施例另一种语料分类方法的流程图。
图2所示的语料分类方法可以包括以下步骤:
步骤S201:对待分类语料进行预处理;
步骤S202:对所述待分类语料和所述训练语料进行新词发现处理;
步骤S203:对待分类语料和训练语料进行分词;
步骤S204:基于预设同义词库对所述训练语料和所述待分类语料进行同义词的替换处理;
步骤S205:在所述训练语料分此后的结果中提取各个类别的特征词;
步骤S206:对所述特征词进行过滤;
步骤S207:根据所述各个类别的特征词和所述训练语料训练分类器;
步骤S208:利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。
具体实施中,在步骤S201中,将所述待分类语料转换为文本格式,得到文本数据;对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词。也就是说,将将获取的语料格式统一为文本格式,并过滤无效的格式,并去除含有预设词的语料。可以将待分类语料转换为可识别处理的文本格式;同时,还可以减小后续步骤的计算量。
具体实施中,在步骤S202中,可以利用任意可实施的新词发现算法获取领域内的新词,来更新分词词典,可以提高步骤S203中分词的准确率;同时,由于领域内的新词也有可能是特征词,因此通过新词发现处理可以发现待分类语料和训练语料内的新词,进而可以在提取特征词时,可以将所述新词作为特征词,从而在分类时进一步提高分类准确率。
具体实施中,在步骤S204中,采用预设同义词库对训练语料和待分类语料分词后结果进行同义词的替换,例如,哈工大同义词词库,并保存为新的语料待用。
本实施例通过同义词替换处理,可以在训练语料中提取特征词时,可以包含同义词汇的语义特征,在确定特征词时计入同义词的贡献,避免忽略出现频率不高但对于各个类别具有表征意义的词语,提高了特征词提取的准确性;同理,通过同义词替换处理,在对待分类语料进行分类时,可以包含同义词汇的语义特征,提高了语料被划分至各个类别的准确性,进一步提高了语料分类的准确性。
步骤S205至步骤S208可参照图1所示步骤S101至步骤S104的描述,此处不再赘述。
本实施例的语料分类方法相对于图1所示的语料分类方法,增加了预处理、新词发现处理、同义词替换处理以及分类器优化处理,进一步优化了待分类语料的分类效果,提高了分类准确率。
如前所述,训练语料的质量将会影响分类结果的准确性。本发明实施例在训练分类器之前,采用特征词提取以及过滤的方式获得高质量的训练语料。在此基础上,利用朴素贝叶斯分类算法构建的分类器实现待分类语料的分类,提高了分类准确率。
进一步而言,在利用朴素贝叶斯分类算法构建分类器时,可以对朴素贝叶斯分类算法进行改进。具体而言,可以在分类器中增加概率阈值。也就是说,相对于现有技术中根据文本属于各个预先定义的类别的概率,将文本划分至最大概率对应的类别;本实施例训练得到分类器中的概率阈值,从而在后续采用所述分类器对待分类语料进行分类时,只有在待分类语料被划分为各个类别的概率满足概率阈值的限制时,才能够被分到所述各个类别,避免了现有技术中在最大概率较小时仍然被划分至相应的类别的情况,提高了语料分类准确率。
更进一步而言,在得到训练完成的分类器后,还可以对分类器进行优化。例如,可以迭代执行以下流程:利用分类器对新的语料自动分类;人工审核分类器的输出结果;利用审核结果和历史分类数据重新训练分类器;判断分类器的准确率是否大于设定阈值:如果大于设定阈值认为分类器稳定,不需要再次训练;如果小于阈值继续利用新的语料训练分类器。然后在分类器训练稳定后直接通过分类器对新的待分类语料进行分类。
本领域技术人员应当理解的是,步骤序号不构成对本发明实施例的限制。例如,对于步骤S202和步骤S203,实际执行顺序也可以是先执行步骤S203,再执行步骤S202。
本发明实施例的具体实施方式可参照图1所示语料分类方法的相应实施例,此处不再赘述。
图3是本发明实施例一种语料分类装置的结构示意图。
图3所示的语料分类装置30可以包括分词单元301、特征词提取单元302、概率阈值确定单元303和分类单元304。
其中,分词单元301适于对训练语料和待分类语料进行分词;
特征词提取单元302适于在所述训练语料分词后的结果中提取各个类别的特征词;
概率阈值确定单元303适于根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;
分类单元304适于利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。
具体实施中,所述概率阈值确定单元303可以利用朴素贝叶斯分类算法构建所述分类器。
具体实施中,特征词提取单元302可以采用以下方式提取各个类别的特征词:信息增益、卡方检验或/和信息熵。
相比于现有技术中将待分类语料划分至最大概率对应的类别,也就是每一待分类语料都会被划分至各个类别中的任一类别,由于各个类别的数量是预先设定的,在待分类语料明显不属于最大概率对应的类别时,分类结果的准确性大大降低。而本实施例由于训练得到了概率阈值分类器中的概率阈值,从而在后续采用所述分类器对待分类语料进行分类时,只有在待分类语料被划分为各个类别的概率满足概率阈值的限制时,才能够被分到所述各个类别,避免了现有技术中在最大概率较小时仍然被划分至相应的类别的情况,提高了语料分类的准确率。
具体实施中,分类单元304可以包括概率计算子单元(图未示)和划分子单元(图未示)。
其中,概率计算子单元适于根据所述各个类别的特征词计算所述待分类语料被划分为所述各个类别的概率的最大值;划分子单元适于根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别或所述各个类别之外的其他类别,以作为所述分类结果。也就是说,在待分类语料的分类结果中,可以将不满足概率阈值的待分类语料划分至各个类别之外的其他类别,以避免其被划分至各个类别,进一步提高分类准确率。
具体而言,所述划分子单元在所述待分类语料被划分为所述各个类别的概率的最大值达到所述概率阈值时,将所述待分类语料划分为所述概率的最大值对应的类别;或,在所述待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值时,将所述待分类语料划分为所述其他类别。
在本发明一优选实施例中,语料分类装置30还可以包括过滤单元(图未示),过滤单元适于对所述特征词进行过滤,以使得所述各个类别之间的特征词不重复。本实施例可以使得训练语料的各个类别具有良好的类别特征,提高了训练语料的质量,进而可以训练得到较优的分类器,进一步提高了语料分类的准确率。
在本发明另一优选实施例中,语料分类装置30还可以包括审核单元(图未示)和调整单元(图未示),审核单元适于对所述分类结果进行审核,得到分类准确率;调整单元适于在所述分类准确率小于设定阈值时,重新训练所述分类器,得到新的分类器,直至采用所述新的分类器得到的所述分类准确率大于或等于设定阈值,分类单元304后续采用所述新的分类器进行分类。具体而言,可以将分类结果中分错的待分类语料加入训练语料,以用于对分类器进行重新训练,直至分类器的分类准确率大于或等于设定阈值。至此,分类器稳定,采用该分类器对待分类语料进行分类的准确率将进一步提高。
在本发明一具体实施例中,语料分类装置30还可以包括预处理单元(图未示),预处理单元适于对所述待分类语料进行预处理。具体而言,预处理单元可以包括:转换子单元和过滤子单元,适于将所述待分类语料转换为文本格式,得到文本数据;过滤子单元,适于对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词。
在本发明另一具体实施例中,语料分类装置30还可以包括新词发现单元(图未示),新词发现单元适于对所述待分类语料和所述训练语料进行新词发现处理,并将发现的新词加入分词词典;所述分词单元采用所述分词词典进行分词。
也就是说,由于领域内的新词也有可能是特征词,因此通过新词发现处理可以发现待分类语料和训练语料内的新词,进而可以在提取特征词时,可以将所述新词作为特征词,从而在分类时进一步提高分类准确率。
具体实施中,语料分类装置30还可以包括同义词替换单元(图未示),同义词替换单元适于基于预设同义词库对所述训练语料和所述待分类语料进行同义词的替换处理。
本发明实施例通过同义词替换处理,可以在训练语料中提取特征词时,可以包含同义词汇的语义特征,在确定特征词时计入同义词的贡献,避免忽略出现频率不高但对于各个类别具有表征意义的词语,提高了特征词提取的准确性;同理,通过同义词替换处理,在对待分类语料进行分类时,可以包含同义词汇的语义特征,提高了语料被划分至各个类别的准确性,进一步提高了语料分类的准确性。
在本发明一具体应用场景中,所述待分类语料可以为问答日志中的用户问题日志数据,所述用户问题日志数据可以从来源设备获取,例如问答机器人、智能问答终端等。
本领域技术人员应当理解的是,待分类语料也可以是其他任意可进行分类的语料。
本发明实施例的具体实施方式可参照图1所示语料分类方法的实施例,此处不再赘述。
本发明实施例还公开了一种终端,所述终端可以包括图3所示的语料分类装置30。语料分类装置30可以内部集成于所述终端,也可以外部耦接于所述终端。所述终端可以是机器人、智能手机、平板设备等。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于以计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (25)
1.一种语料分类方法,其特征在于,包括:
对训练语料和待分类语料进行分词;
在所述训练语料分词后的结果中提取各个类别的特征词;
根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;
利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。
2.根据权利要求1所述的语料分类方法,其特征在于,所述利用训练完成后的所述分类器对所述待分类语料进行分类包括:
根据所述各个类别的特征词计算所述待分类语料被划分为所述各个类别的概率;
根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别或所述各个类别之外的其他类别,以作为所述分类结果。
3.根据权利要求2所述的语料分类方法,其特征在于,所述根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别以及所述各个类别之外的其他类别包括:
如果所述待分类语料被划分为所述各个类别的概率的最大值达到所述概率阈值,则将所述待分类语料划分为所述概率的最大值对应的类别;
如果所述待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值,则将所述待分类语料划分为所述其他类别。
4.根据权利要求1所述的语料分类方法,其特征在于,所述在所述训练语料分词后的结果中提取各个类别的特征词之后且在训练分类器之前还包括:
对所述特征词进行过滤,以使得所述各个类别之间的特征词不重复。
5.根据权利要求1所述的语料分类方法,其特征在于,利用朴素贝叶斯分类算法构建所述分类器。
6.根据权利要求1所述的语料分类方法,其特征在于,还包括:
对所述分类结果进行审核,得到分类准确率;
当所述分类准确率小于设定阈值时,重新训练所述分类器,得到新的分类器,直至采用所述新的分类器得到的所述分类准确率大于或等于设定阈值;
后续采用所述新的分类器进行分类。
7.根据权利要求1所述的语料分类方法,其特征在于,还包括:
在进行所述分词之前,对所述待分类语料进行预处理。
8.根据权利要求7所述的语料分类方法,其特征在于,所述对所述待分类语料进行预处理包括:
将所述待分类语料转换为文本格式,得到文本数据;
对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、
敏感词和停用词。
9.根据权利要求7所述的语料分类方法,其特征在于,所述对所述待分类语料进行预处理之后且在进行分词之前还包括:
对所述待分类语料和所述训练语料进行新词发现处理,并将发现的新词加入分词词典;所述对待分类语料和所述训练语料进行分词包括采用所述分词词典进行分词。
10.根据权利要求1所述的语料分类方法,其特征在于,所述在所述训练语料分词后的结果中提取各个类别的特征词之前还包括:
基于预设同义词库对所述训练语料和所述待分类语料进行同义词的替换处理。
11.根据权利要求1至10任一项所述的语料分类方法,其特征在于,采用以下方式提取各个类别的特征词:
信息增益、卡方检验或/和信息熵。
12.根据权利要求1至10任一项所述的语料分类方法,其特征在于,所述待分类语料为问答日志中的用户问题日志数据。
13.一种语料分类装置,其特征在于,包括:
分词单元,适于对训练语料和待分类语料进行分词;
特征词提取单元,适于在所述训练语料分词后的结果中提取各个类别的特征词;
概率阈值确定单元,适于根据所述各个类别的特征词和所述训练语料训练分类器,以确定所述分类器中的概率阈值;
分类单元,适于利用训练完成后的所述分类器对所述待分类语料进行分类,以得到分类结果。
14.根据权利要求13所述的语料分类装置,其特征在于,所述分类单元包括:
概率计算子单元,适于根据所述各个类别的特征词计算所述待分类语料被划分为所述各个类别的概率;
划分子单元,适于根据所述概率和所述概率阈值将所述待分类语料划分为所述各个类别或所述各个类别之外的其他类别,以作为所述分类结果。
15.根据权利要求14所述的语料分类装置,其特征在于,所述划分子单元在所述待分类语料被划分为所述各个类别的概率的最大值达到所述概率阈值时,将所述待分类语料划分为所述概率的最大值对应的类别;
或,在所述待分类语料被划分为所述各个类别的概率的最大值未达到所述概率阈值时,将所述待分类语料划分为所述其他类别。
16.根据权利要求13所述的语料分类装置,其特征在于,还包括:
过滤单元,适于对所述特征词进行过滤,以使得所述各个类别之间的特征词不重复。
17.根据权利要求13所述的语料分类装置,其特征在于,所述概率阈值确定单元利用朴素贝叶斯分类算法构建所述分类器。
18.根据权利要求13所述的语料分类装置,其特征在于,还包括:
审核单元,适于对所述分类结果进行审核,得到分类准确率;
调整单元,适于在所述分类准确率小于设定阈值时,重新训练所述分类器,得到新的分类器,直至采用所述新的分类器得到的所述分类准确率大于或等于设定阈值;所述分类单元后续采用所述新的分类器进行分类。
19.根据权利要求13所述的语料分类装置,其特征在于,还包括:
预处理单元,适于对所述待分类语料进行预处理。
20.根据权利要求19所述的语料分类装置,其特征在于,所述预处理单元包括:
转换子单元,适于将所述待分类语料转换为文本格式,得到文本数据;
过滤子单元,适于对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词。
21.根据权利要求19所述的语料分类装置,其特征在于,还包括:
新词发现单元,适于对所述待分类语料和所述训练语料进行新词发现处理,并将发现的新词加入分词词典;所述分词单元采用所述分词词典进行分词。
22.根据权利要求19所述的语料分类装置,其特征在于,还包括:
同义词替换单元,适于基于预设同义词库对所述训练语料和所述待分类语料进行同义词的替换处理。
23.根据权利要求13至22任一项所述的语料分类装置,其特征在于,所述特征词提取单元采用以下方式提取各个类别的特征词:
信息增益、卡方检验或/和信息熵。
24.根据权利要求13至22任一项所述的语料分类装置,其特征在于,所述待分类语料为问答日志中的用户问题日志数据。
25.一种终端,其特征在于,包括如权利要求13至24任一项所述的语料分类装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610997266.7A CN106503254A (zh) | 2016-11-11 | 2016-11-11 | 语料分类方法、装置及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610997266.7A CN106503254A (zh) | 2016-11-11 | 2016-11-11 | 语料分类方法、装置及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106503254A true CN106503254A (zh) | 2017-03-15 |
Family
ID=58324083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610997266.7A Pending CN106503254A (zh) | 2016-11-11 | 2016-11-11 | 语料分类方法、装置及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503254A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN107844553A (zh) * | 2017-10-31 | 2018-03-27 | 山东浪潮通软信息科技有限公司 | 一种文本分类方法及装置 |
CN107862051A (zh) * | 2017-11-08 | 2018-03-30 | 郑州云海信息技术有限公司 | 一种文件分类方法、系统及一种文件分类设备 |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN108959236A (zh) * | 2017-05-19 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 医学文献分类模型训练方法、医学文献分类方法及其装置 |
CN108985465A (zh) * | 2018-05-21 | 2018-12-11 | 许继电气股份有限公司 | 一种换流站故障分类方法及系统 |
CN109145108A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 文本层叠分类器训练方法、分类方法、装置及计算机设备 |
CN109241269A (zh) * | 2018-07-27 | 2019-01-18 | 深圳追科技有限公司 | 任务型机器人词槽填充方法 |
CN109508374A (zh) * | 2018-11-19 | 2019-03-22 | 云南电网有限责任公司信息中心 | 基于遗传算法的文本数据半监督聚类方法 |
CN109741190A (zh) * | 2018-12-27 | 2019-05-10 | 清华大学 | 一种个股公告分类的方法、系统及设备 |
CN109902285A (zh) * | 2019-01-08 | 2019-06-18 | 平安科技(深圳)有限公司 | 语料分类方法、装置、计算机设备及存储介质 |
CN110674263A (zh) * | 2019-12-04 | 2020-01-10 | 广联达科技股份有限公司 | 一种模型构件文件自动分类的方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309857A (zh) * | 2012-03-06 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种分类语料确定方法和设备 |
-
2016
- 2016-11-11 CN CN201610997266.7A patent/CN106503254A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309857A (zh) * | 2012-03-06 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种分类语料确定方法和设备 |
Non-Patent Citations (4)
Title |
---|
杨思春: ""中文问答系统中问题分类技术研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
熊忠阳等: ""一种改进的支持向量机邮件分类器"", 《计算机科学》 * |
裴英博: ""中文文本分类中特征选择方法的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
邹丽娜: ""网络信息采集及智能处理技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959236B (zh) * | 2017-05-19 | 2021-11-09 | 百度在线网络技术(北京)有限公司 | 医学文献分类模型训练方法、医学文献分类方法及其装置 |
CN108959236A (zh) * | 2017-05-19 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 医学文献分类模型训练方法、医学文献分类方法及其装置 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN109145108A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 文本层叠分类器训练方法、分类方法、装置及计算机设备 |
CN107844553A (zh) * | 2017-10-31 | 2018-03-27 | 山东浪潮通软信息科技有限公司 | 一种文本分类方法及装置 |
CN107862051A (zh) * | 2017-11-08 | 2018-03-30 | 郑州云海信息技术有限公司 | 一种文件分类方法、系统及一种文件分类设备 |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN108985465A (zh) * | 2018-05-21 | 2018-12-11 | 许继电气股份有限公司 | 一种换流站故障分类方法及系统 |
CN109241269A (zh) * | 2018-07-27 | 2019-01-18 | 深圳追科技有限公司 | 任务型机器人词槽填充方法 |
CN109508374A (zh) * | 2018-11-19 | 2019-03-22 | 云南电网有限责任公司信息中心 | 基于遗传算法的文本数据半监督聚类方法 |
CN109508374B (zh) * | 2018-11-19 | 2021-12-21 | 云南电网有限责任公司信息中心 | 基于遗传算法的文本数据半监督聚类方法 |
CN109741190A (zh) * | 2018-12-27 | 2019-05-10 | 清华大学 | 一种个股公告分类的方法、系统及设备 |
CN109902285A (zh) * | 2019-01-08 | 2019-06-18 | 平安科技(深圳)有限公司 | 语料分类方法、装置、计算机设备及存储介质 |
CN109902285B (zh) * | 2019-01-08 | 2023-09-22 | 平安科技(深圳)有限公司 | 语料分类方法、装置、计算机设备及存储介质 |
CN110674263A (zh) * | 2019-12-04 | 2020-01-10 | 广联达科技股份有限公司 | 一种模型构件文件自动分类的方法和装置 |
CN110674263B (zh) * | 2019-12-04 | 2022-02-08 | 广联达科技股份有限公司 | 一种模型构件文件自动分类的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503254A (zh) | 语料分类方法、装置及终端 | |
CN106528532B (zh) | 文本纠错方法、装置及终端 | |
CN105808526B (zh) | 商品短文本核心词提取方法和装置 | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
WO2021073116A1 (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
CN102207961B (zh) | 一种网页自动分类方法及装置 | |
CN102411563A (zh) | 一种识别目标词的方法、装置及系统 | |
CN104216876B (zh) | 信息文本过滤方法及系统 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
TW201737118A (zh) | 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置 | |
CN101996241A (zh) | 一种基于贝叶斯算法的内容过滤方法 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN106502984B (zh) | 一种领域新词发现的方法及装置 | |
CN106897290B (zh) | 一种建立关键词模型的方法及装置 | |
CN109145108A (zh) | 文本层叠分类器训练方法、分类方法、装置及计算机设备 | |
CN110134793A (zh) | 文本情感分类方法 | |
CN104820724A (zh) | 文本类教育资源知识点预测模型获得方法及模型应用方法 | |
CN106886512A (zh) | 文章分类方法和装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN110516937A (zh) | 一种基于主题模型的诉求智能转办方法和装置 | |
CN103246655A (zh) | 一种文本分类方法、装置及系统 | |
CN109271517A (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN107704869B (zh) | 一种语料数据抽样方法及模型训练方法 | |
CN109101487A (zh) | 对话角色区分方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |