CN106339418A - 一种分类纠错方法及装置 - Google Patents

一种分类纠错方法及装置 Download PDF

Info

Publication number
CN106339418A
CN106339418A CN201610669153.4A CN201610669153A CN106339418A CN 106339418 A CN106339418 A CN 106339418A CN 201610669153 A CN201610669153 A CN 201610669153A CN 106339418 A CN106339418 A CN 106339418A
Authority
CN
China
Prior art keywords
words
classification
information
word
classification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610669153.4A
Other languages
English (en)
Inventor
刘中亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Information Technology Beijing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610669153.4A priority Critical patent/CN106339418A/zh
Publication of CN106339418A publication Critical patent/CN106339418A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据搜索技术领域,特别是涉及一种分类纠错方法及装置。该方法包括:基于信息类别生成所述信息类别对应的关键词词表;根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合;对所述已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合;根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。该分类纠错方法及装置使分类结果更准确,用户获取到的信息更正确,从而更有效的帮助用户进行搜索。

Description

一种分类纠错方法及装置
技术领域
本发明涉及数据搜索技术领域,特别是涉及一种分类纠错方法及装置。
背景技术
随着互联网技术的发展,网络中的数据量越来越庞大,目前,大量的网络资源通常划分不同的类别,例如网站中的大量视频信息通常分为体育、电影、电视、音乐等多个类别,现有技术可以提供每个类别对应的关键词或热度词的榜单,用户通过浏览该榜单可快速了解当前类别下比较核心和流行的内容,从而帮助用户搜索自己感兴趣的内容。
提炼某个类别的关键词或热度词通常涉及到文本挖掘、机器学习等领域,比如通过支持向量机(Support Vector Machine,SVM)来对文本分类从而提炼出某文本的核心词,SVM可以解决小样本情况下的机器学习问题,可提高泛化性能,能够解决高维问题和非线性问题,但SVM也存在对缺失数据敏感,对非线性问题必须谨慎选择核函数且没有通用解决方案等缺点,因此,SVM会造成分类不准确的问题。
发明内容
本发明实施例主要解决的技术问题是提供一种分类纠错的方法及装置,解决SVM分类不准确的问题,并对分类错误的信息进行纠正。
在第一方面,本发明实施例提供一种分类纠错方法,包括:
基于信息类别生成所述信息类别对应的关键词词表;
根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合;
对所述已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合;
根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。
可选地,所述根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合包括:
获取所述已分类信息的榜单数据;
根据所述榜单数据生成所述榜单数据对应的核心词;
基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若所述核心词不在所述词表中,确定所述核心词被错误分类;
根据所述错误分类的核心词生成所述信息类别对应的已分类信息的错误词语集合。
可选地,所述对所述已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合包括:
基于分词处理技术对将所述已分类信息的榜单数据进行特征提取;
针对所述特征提取的数据生成所述榜单数据的特征向量;
基于所述榜单数据的特征向量划分训练集和测试集;
在所述训练集上进行训练得到SVM分类器;
将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应的正类词语集合和负类词语集合。
可选地,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错包括:
基于相同的信息类别,将所述正类词语集合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中查找到所述正类词语集合中的词语,则将所述词语确认为属于所述负类词语集合。
可选地,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错包括:
基于相同的信息类别,将所述负类词语集合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中没有查找到所述负类词语集合中的词语,则将所述词语确认为属于所述正类词语集合。
在第二方面,本发明实施例提供一种分类纠错装置,包括:
第一生成模块,用于基于信息类别生成所述信息类别对应的关键词词表;
第二生成模块,用于根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合;
分类模块,用于对所述已分类信息进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合;
纠错模块,用于根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。
可选地,所述第二生成模块包括:
获取单元,用于获取所述已分类信息的榜单数据;
第一生成单元,用于根据所述榜单数据生成所述榜单数据对应的核心词;
判断单元,用于基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若所述核心词不在所述词表中,确定所述核心词被错误分类;
第二生成单元,用于根据所述错误分类的核心词生成所述信息类别对应的已分类信息的错误词语集合。
可选地,所述分类模块包括:
提取单元,用于基于分词处理技术对所述已分类信息的榜单数据进行特征提取;
第三生成单元,用于针对所述特征提取的数据生成所述榜单数据的特征向量;
划分单元,用于基于所述榜单数据的特征向量划分训练集和测试集;
训练单元,用于在所述训练集上进行训练得到SVM分类器;
测试单元,用于将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应的正类词语集合和负类词语集合。
可选地,所述纠错模块包括:
正类纠错单元,用于基于相同的信息类别,将所述正类词语集合中的词语在所述错误词语集合中进行查找,若在所述错误词语集合中查找到,则将所述词语确认为属于所述负类词语集合。
可选地,所述纠错模块包括:
负类纠错单元,用于基于相同的信息类别,将所述负类词语集合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中没有查找到所述负类词语集合中的词语,则将所述词语确认为属于所述正类词语集合。
在本发明实施例中,根据关键词词表生成已分类信息的错误词语集合,并将该错误词语集合分别与已分类信息对应的正类词语集合和负类词语集合进行匹配,找出错误分类的词语并对错误分类的词语进行纠错,使得分类的结果更准确,用户获取到的信息更正确,能够有效的帮助用户进行搜索。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种分类纠错方法的流程图;
图2是本发明实施例提供的生成错误词语集合方法的流程图;
图3是本发明实施例提供的SVM分类器进行分类的方法的流程图;
图4是本发明实施例提供的一种分类纠错装置的结构框图;
图5是本发明实施例提供的第二生成模块42的结构框图;
图6是本发明实施例提供的分类模块43的结构框图;
图7是本发明实施例提供的一种电子设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
此外,下面所描述的本发明各个实施例中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明实施例的第一个方面提出了一种分类纠错方法,该方法应用于服务器,该服务器可以是一台服务器,或者是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。如图1所示,所述分类纠错方法包括:
步骤101:基于信息类别生成所述信息类别对应的关键词词表。
在本发明实施例中,所述信息包括视频信息、音频信息及图片信息等,所述信息类别为将所述视频信息、音频信息及图片信息各自进行分类后的得到的分类信息,例如,视频信息的类别包括电影、电视、综艺、新闻等,音频信息的类别包括华语、欧美、流行、古典等,图片信息的类别包括花草、萌宠、二次元、壁纸等。
所述生成所述信息类别对应的关键词词表,例如,某视频网站包含的所有视频信息被分类为奥运、电视剧、电影、综艺等几类,分别针对奥运、电视剧、电影、综艺等几类进行关键词提取,生成各类别对应的关键词词表,所述关键词包括热门词语或者一些具有概括意义的词语等,比如奥运类别生成的关键词词表包括:洪荒之力、跳水梦之队、菲尔普斯等。
步骤102:根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合。
需要说明的是,所述错误词语集合是所述信息类别分类后的每一分类信息分别对应的词语集合,其中,每个类别对应一个错误词语集合。例如,视频信息被分为奥运、电视剧、电影、综艺等几类,则,需要分别生成奥运的错误词语集合,电视剧的错误词语集合、电影的错误词语集合、以及综艺的错误词语集合等。
在本发明实施例中,可以通过人工总结的方式从所述信息类别对应的关键词词表中提取错误词语,提取的错误词语建立错误词语集合,该错误词语是指分类错误的词语,例如,电视剧信息类别对应的关键词词表中的“金牌榜”,显然该“金牌榜”应当属于奥运信息类别。
在本发明实施例中,还可以通过其他方式来生成错误词语集合,并不仅限定于上述方式。
步骤103:对所述已分类信息分别进行分类,生成所述已分类信息对应的的正类词语集合和负类词语集合。
可以理解的是,对所述已分类信息分别进行分类,可以采用机器学习的一些方法来进行分类,例如,决策树算法、贝叶斯方法、支持向量机方法等。
步骤104:根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。
在本发明实施例中,对所述已分类信息的所述正类词语集合进行纠错的过程即是,将所述正类词语集合与所述错误词语集合进行匹配,若匹配上则表示分类错误;对所述已分类信息的所述负类词语集合进行纠错的过程即是,将所述负类词语集合与所述错误词语集合进行匹配,若没有匹配上则表示分类错误。
本实施例根据关键词词表生成已分类信息的错误词语集合,并将该错误词语集合分别与已分类信息对应的正类词语集合和负类词语集合进行匹配,找出错误分类的词语并对错误分类的词语进行纠错,使得分类的结果更准确,用户获取到的信息更正确,能够有效的帮助用户进行搜索。
本发明实施例的第二个方面提出了另一种分类纠错方法,用于对上述实施例的分类纠错方法进行详细说明,该方法应用于服务器,该服务器可以是一台服务器,或者是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。如图1所示,所述分类纠错方法包括:
步骤101:基于信息类别分别生成所述信息类别对应的关键词词表。
在本发明实施例中,所述信息包括视频信息、音频信息及图片信息等,所述信息类别为将所述视频信息、音频信息及图片信息各自进行分类后的得到的分类信息,例如,视频信息的类别包括电影、电视、综艺、新闻等,音频信息的类别包括华语、欧美、流行、古典等,图片信息的类别包括花草、萌宠、二次元、壁纸等。
所述生成所述信息类别对应的关键词词表,例如,某视频网站包含的所有视频信息被分类为奥运、电视剧、电影、综艺等几类,分别针对奥运、电视剧、电影、综艺等几类进行关键词提取,生成各类别对应的关键词词表,所述关键词包括热门词语或者一些具有概括意义的词语等,比如奥运类别生成的关键词词表包括:洪荒之力、跳水梦之队、菲尔普斯等。其中,所述关键词提取的过程可以包括,将同一类别下的所有视频的文字标签通过分词处理或者人工总结等方式,提取出关键词,所提取的关键词用于生成该类别对应的词表。
步骤102:根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合。
在本发明实施例中,对搜索关键词进行纠错前,需要建立纠错文件,所述纠错文件即所述错误词语集合。生成所述信息类别对应的已分类信息的错误词语集合,可选地,如图2所示,包括以下步骤:
步骤1021:获取所述已分类信息的榜单数据;
在本发明实施例中,所述已分类信息是指所述信息类别分类后的类别信息,例如视频网站或视频APP中的体育、娱乐、游戏等分类。所述榜单数据是指每一类别内容对应的当前情况下比较热门、流行或者比较核心的数据,该数据可以是文本、词语、声音、视频或者图片等。每一类别生成所述榜单数据的准则根据其内容类别而定,例如音乐榜单数据,可以根据歌曲的下载量、播放量以及收藏量等来进行排名,根据排名次序生成音乐榜单数据;体育榜单数据,可以根据当前话题讨论数量、用户关注度等来生成体育榜单数据,比如某天某个时刻德国对阵意大利的欧洲杯比赛。
步骤1022:根据所述榜单数据生成所述榜单数据对应的核心词;
在本发明实施例中,所述核心词包括关键词、热度词等,所述核心词根据所述榜单数据(例如某个热门话题、热门电影或电视等)生成,可选地,例如某个热门话题,可以根据所述话题对应的文本进行关键词和热度词提取,某个热门电影,则可以根据电影介绍、电影内容、电影评论等文本描述进行关键词和热度词的提取。
步骤1023:基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若所述核心词不在所述词表中,确定所述核心词被错误分类;
在本发明实施例中,通过将所述核心词与所述核心词对应的信息类别生成的词表进行比较,从而确定所述核心词是否被分错类别。例如,某一电视的热度词在体育类别下找到,则该词语被确定为错误分类。
步骤1024:将所述错误分类的核心词生成所述信息类别对应的已分类信息的错误词语集合。
在本发明实施例中,通过上述步骤的比较,所述信息类别对应的已分类信息分别对应一个错误词语集合,所述错误词语集合即纠错文件,用于进行下文所述的分类纠错。
步骤103:对已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合。
在本发明实施例中,使用支持向量机(Support Vector Machine,SVM)算法对已分类信息分别进行分类,所述SVM分类器用于对已分类信息进行二分类,所述正类词语集合和负类词语集合为所述二分类的结果,其中,所述正类词语集合表示该词语本属于该类别下且被正确分类至正类别,所述负类词语集合表示该词语本不属于该类别且被正确分类至负类别。利用SVM进行所述二分类的过程,可选地,如图3所示,包括:
步骤1031:基于分词处理技术对所述已分类信息的榜单数据进行特征提取;
在本发明实施例中,所述将所述已分类信息的每一类别的榜单数据分别进行特征提取的过程实质是将所述榜单数据转化成计算机能够识别的格式,具体的是SVM分类器能够识别的格式。在中文信息处理方向上,一般文本的表示主要采用向量空间模型,向量空间模型的基本思想是以向量来表示文档,例如,Di=(W1,W2,W3,…,Wn),其中D表示文档,Wi为第i个特征项的权重。特征项的选取即特征提取过程,通常,特征项由文档的一些有代表性的字、词或词组充当,它们是组成文档,反映文档内容的基本元素,并且在文档中的出现频率有一定的规律性,适合作为文档的特征表示。
步骤1032:针对所述特征提取的数据生成所述榜单数据的特征向量;
在本发明实施例中,所述榜单数据被特征提取后,也即是表示所述榜单数据的文档被分词后,可获得大量表示所述文档的特征项,所述特征项包括字或词或者概念等,一般采用词作为特征项,词是构成中文文本的主体,最能够反映文本语义的基本单位,选择词作为特征项能够充分表示汉语的语义,分类系统的性能明显优于选择字或概念作为特征项的系统。获取所述特征项后,经过预处理(例如降维处理等)生成所述榜单数据的特征向量。
步骤1033:基于所述榜单数据的特征向量划分训练集和测试集;
在本发明实施例中,所述训练集用于训练分类器得到SVM分类模型,建立所述SVM分类模型的关键是求取最优分类函数。所述测试集用于根据所述SVM分类模型进行测试得到分类结果,一般采用分类准确率对分类模型的分类性进行评价。划分所述训练集和所述测试集的数据量大小直接影响到分类结果的准确率,常用的划分数据集的方法包括:随机划分数据集(一般是按照3:1的比例分配训练集和测试集,即3/4的数据集用于模型的建立,1/4的数据集用于测试所建立的模型的性能);交叉验证法(包括2折交叉、10折交叉以及留一法等)。
步骤1034:在所述训练集上进行训练得到SVM分类器;
在本发明实施例中,所述在所述训练集上进行训练得到SVM分类器的一般过程是在选取核函数后,将训练样本映射到高维特征空间,利用SVM在样本特征空间中找出各类别特征样本与其他特征样本的最优分类超平面,得到代表各样本特征的支持向量集及其相应的可信度,最终形成判断各特征类别的最优分类函数,该最优分类函数即是所述SVM分类器。
步骤1035:将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应的正类词语集合和负类词语集合。
在本发明实施例中,所述测试集作为待分类对象,通过核函数作用映射到特征空间中,作为最优分类函数的输入,最终输出二类可分的结果,该结果即所述正类词语集合和所述负类词语集合。
需要说明的是,利用SVM进行分类的过程中,所述SVM分类器的参数(比如惩罚系数C、核半径g)可以根据人的经验来确定,也可以通过智能寻优算法(比如粒子群算法等)来进行参数寻优,以确定参数的值。
步骤104:根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。
可以理解的是,所述正类词语集合和所述负类词语集合是基于同一已分类信息得到的词语集合,所以,该已分类信息对应的错误词语集合,即为需要分别与所述正类词语集合和所述负类词语集合进行比较的词语集合。
可选地,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错包括:基于相同的信息类别,将所述正类词语集合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中查找到所述正类词语集合中的词语,则将所述词语确认为属于所述负类词语集合。
可选地,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错包括:基于相同的信息类别,将所述负类词语集合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中没有查找到所述负类词语集合中的词语,则将所述词语确认为属于所述正类词语集合。
在本发明实施例中,通过将生成的错误分类词语集合分别与SVM分类器分类的正类词语集合和负类词语集合进行匹配,找出错误分类的词语并实现了错误分类词语的纠错,使分类结果更准确,用户获取到的信息更正确,从而更有效的帮助用户进行搜索。
本发明实施例的第三个方面提出了一种分类纠错装置,如图4所示,所述分类纠错装置4包括:第一生成模块41、第二生成模块42、分类模块43以及纠错模块44。
在本发明实施例中,所述第一生成模块,用于基于信息类别生成所述信息类别对应的关键词词表;所述第二生成模块,用于根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合;所述分类模块,用于对所述已分类信息进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合;所述纠错模块,用于根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。
需要说明的是,本发明实施例提出的分类纠错装置与本发明实施例的第一个方面提出的一种分类纠错方法基于相同的发明构思,方法实施例与装置实施例中的相应技术内容可相互适用,此处不再详述。
在本发明实施例中,根据关键词词表生成已分类信息的错误词语集合,并将该错误词语集合分别与已分类信息对应的正类词语集合和负类词语集合进行匹配,找出错误分类的词语并对错误分类的词语进行纠错,使得分类的结果更准确,用户获取到的信息更正确,能够有效的帮助用户进行搜索。
本发明实施例的第四个方面提出了另一种分类纠错装置,所述装置是对上述第三个方面提出的分类纠错装置的详细说明。如图4所示,所述分类纠错装置包括:第一生成模块41、第二生成模块42、分类模块43以及纠错模块44。
在本发明实施例中,所述第一生成模块41用于基于信息类别生成所述信息类别对应的关键词词表。
在本发明实施例中,所述第二生成模块42用于根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合。
可选地,如图5所示,所述第二生成模块42包括:获取单元421、第一生成单元422、判断单元423以及第二生成单元424。
其中,所述获取单元用于获取所述已分类信息的榜单数据;所述第一生成单元,用于根据所述榜单数据生成所述榜单数据对应的核心词;所述判断单元,用于基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若所述核心词不在所述词表中,确定所述核心词被错误分类;所述第二生成单元,用于根据所述错误分类的核心词生成所述信息类别对应的已分类信息的错误词语集合。
在本发明实施例中,所述分类模块43用于对所述已分类信息进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合。
可选地,如图6所示,所述分类模块43包括:提取单元431、第三生成单元432、划分单元433、训练单元434以及测试单元435。
其中,所述提取单元用于基于分词处理技术对所述已分类信息的榜单数据进行特征提取;所述第三生成单元用于针对所述特征提取的数据生成所述榜单数据的特征向量;所述划分单元用于基于所述榜单数据的特征向量划分训练集和测试集;所述训练单元用于在所述训练集上进行训练得到SVM分类器;所述测试单元用于将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应的正类词语集合和负类词语集合。
在本发明实施例中,所述纠错模块44用于根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。
可选地,所述纠错模块44包括正类纠错单元,所述正类纠错单元,用于基于相同的信息类别,将所述正类词语集合中的词语在所述错误词语集合中进行查找,若在所述错误词语集合中查找到,则将所述词语确认为属于所述负类词语集合。
可选地,所述所述纠错模块44包括负类纠错单元,所述负类纠错单元用于基于相同的信息类别,将所述负类词语集合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中没有查找到所述负类词语集合中的词语,则将所述词语确认为属于所述正类词语集合。
需要说明的是,本发明实施例提出的分类纠错装置与本发明实施例的第二个方面提出的一种分类纠错方法基于相同的发明构思,方法实施例与装置实施例中的相应技术内容可相互适用,此处不再详述。
在本发明实施例中,通过将生成的错误分类词语集合分别与SVM分类器分类的正类词语集合和负类词语集合进行匹配,找出错误分类的词语并实现了错误分类词语的纠错,使分类结果更准确,用户获取到的信息更正确,从而更有效的帮助用户进行搜索。
本发明实施例的第五个方面提出了一种电子设备5,如图7所示,该电子设备5包括:
一个或多个处理器51以及存储器52,图7中以一个处理器51为例。
处理器51、存储器52可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器52作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的分类纠错方法对应的程序指令/模块(例如,附图4所示的第一生成模块41、第二生成模块42、分类模块43以及纠错模块44)。处理器51通过运行存储在存储器52中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例分类纠错方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据分类纠错装置的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至分类纠错装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述一个或者多个处理器51执行时,执行上述任意方法实施例中的分类纠错方法,例如,执行以上描述的图1中的方法步骤101至步骤104,图2中的方法步骤1021至步骤1024,图3中的方法步骤1031至步骤1034,实现图4中的模块41-44,图5中的单元421-424的功能,和实现图6中的单元431-435的功能。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(2)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种分类纠错方法,其特征在于,包括:
基于信息类别生成所述信息类别对应的关键词词表;
根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合;
对所述已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合;
根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。
2.根据权利要求1所述的方法,其特征在于,所述根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合包括:
获取所述已分类信息的榜单数据;
根据所述榜单数据生成所述榜单数据对应的核心词;
基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若所述核心词不在所述词表中,确定所述核心词被错误分类;
根据所述错误分类的核心词生成所述信息类别对应的已分类信息的错误词语集合。
3.根据权利要求1所述的方法,其特征在于,所述对所述已分类信息分别进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合包括:
基于分词处理技术对将所述已分类信息的榜单数据进行特征提取;
针对所述特征提取的数据生成所述榜单数据的特征向量;
基于所述榜单数据的特征向量划分训练集和测试集;
在所述训练集上进行训练得到SVM分类器;
将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应的正类词语集合和负类词语集合。
4.根据权利要求1述的方法,其特征在于,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错包括:
基于相同的信息类别,将所述正类词语集合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中查找到所述正类词语集合中的词语,则将所述词语确认为属于所述负类词语集合。
5.根据权利要求1所述的方法,其特征在于,所述根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错包括:
基于相同的信息类别,将所述负类词语集合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中没有查找到所述负类词语集合中的词语,则将所述词语确认为属于所述正类词语集合。
6.一种分类纠错装置,其特征在于,包括:
第一生成模块,用于基于信息类别生成所述信息类别对应的关键词词表;
第二生成模块,用于根据所述信息类别对应的关键词词表,生成所述信息类别对应的已分类信息的错误词语集合;
分类模块,用于对所述已分类信息进行分类,生成所述已分类信息对应的正类词语集合和负类词语集合;
纠错模块,用于根据所述已分类信息的错误词语集合,对所述已分类信息的所述正类词语集合和所述负类词语集合进行纠错。
7.根据权利要求6所述的装置,其特征在于,所述第二生成模块包括:
获取单元,用于获取所述已分类信息的榜单数据;
第一生成单元,用于根据所述榜单数据生成所述榜单数据对应的核心词;
判断单元,用于基于相同的信息类别,将所述核心词在所述关键词词表中进行查找,若所述核心词不在所述词表中,确定所述核心词被错误分类;
第二生成单元,用于根据所述错误分类的核心词生成所述信息类别对应的已分类信息的错误词语集合。
8.根据权利要求6所述的装置,其特征在于,所述分类模块包括:
提取单元,用于基于分词处理技术对所述已分类信息的榜单数据进行特征提取;
第三生成单元,用于针对所述特征提取的数据生成所述榜单数据的特征向量;
划分单元,用于基于所述榜单数据的特征向量划分训练集和测试集;
训练单元,用于在所述训练集上进行训练得到SVM分类器;
测试单元,用于将所述测试集输入所述SVM分类器进行测试,得到所述已分类信息对应的正类词语集合和负类词语集合。
9.根据权利要求6述的装置,其特征在于,所述纠错模块包括:
正类纠错单元,用于基于相同的信息类别,将所述正类词语集合中的词语在所述错误词语集合中进行查找,若在所述错误词语集合中查找到,则将所述词语确认为属于所述负类词语集合。
10.根据权利要求6所述的装置,其特征在于,所述纠错模块包括:
负类纠错单元,用于基于相同的信息类别,将所述负类词语集合中的词语在所述错误分类词语集合中进行查找,若在所述错误词语集合中没有查找到所述负类词语集合中的词语,则将所述词语确认为属于所述正类词语集合。
CN201610669153.4A 2016-08-15 2016-08-15 一种分类纠错方法及装置 Pending CN106339418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610669153.4A CN106339418A (zh) 2016-08-15 2016-08-15 一种分类纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610669153.4A CN106339418A (zh) 2016-08-15 2016-08-15 一种分类纠错方法及装置

Publications (1)

Publication Number Publication Date
CN106339418A true CN106339418A (zh) 2017-01-18

Family

ID=57825671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610669153.4A Pending CN106339418A (zh) 2016-08-15 2016-08-15 一种分类纠错方法及装置

Country Status (1)

Country Link
CN (1) CN106339418A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897439A (zh) * 2017-02-28 2017-06-27 百度在线网络技术(北京)有限公司 文本的情感识别方法、装置、服务器以及存储介质
WO2018166499A1 (zh) * 2017-03-17 2018-09-20 腾讯科技(深圳)有限公司 文本分类方法、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678560A (zh) * 2013-12-06 2014-03-26 乐视网信息技术(北京)股份有限公司 多媒体资源纠错检索方法、多媒体资源服务器及系统
CN103914444A (zh) * 2012-12-29 2014-07-09 高德软件有限公司 一种纠错方法及其装置
US20140372875A1 (en) * 2013-06-17 2014-12-18 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
CN104268157A (zh) * 2014-09-03 2015-01-07 乐视网信息技术(北京)股份有限公司 一种数据搜索中的纠错装置及其方法
CN104361010A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种纠正新闻分类的自动分类方法
CN105159885A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914444A (zh) * 2012-12-29 2014-07-09 高德软件有限公司 一种纠错方法及其装置
US20140372875A1 (en) * 2013-06-17 2014-12-18 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
CN103678560A (zh) * 2013-12-06 2014-03-26 乐视网信息技术(北京)股份有限公司 多媒体资源纠错检索方法、多媒体资源服务器及系统
CN104268157A (zh) * 2014-09-03 2015-01-07 乐视网信息技术(北京)股份有限公司 一种数据搜索中的纠错装置及其方法
CN104361010A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种纠正新闻分类的自动分类方法
CN105159885A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897439A (zh) * 2017-02-28 2017-06-27 百度在线网络技术(北京)有限公司 文本的情感识别方法、装置、服务器以及存储介质
CN106897439B (zh) * 2017-02-28 2020-04-14 百度在线网络技术(北京)有限公司 文本的情感识别方法、装置、服务器以及存储介质
WO2018166499A1 (zh) * 2017-03-17 2018-09-20 腾讯科技(深圳)有限公司 文本分类方法、设备和存储介质
CN108628873A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本分类方法、装置和设备

Similar Documents

Publication Publication Date Title
US11157956B2 (en) Application recommendation method and server
US9460117B2 (en) Image searching
AU2011326430B2 (en) Learning tags for video annotation using latent subtags
CN105210064B (zh) 使用深度网络将资源分类
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US9672251B1 (en) Extracting facts from documents
US20180046721A1 (en) Systems and Methods for Automatic Customization of Content Filtering
CN111831826B (zh) 跨领域的文本分类模型的训练方法、分类方法以及装置
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
CN110717038B (zh) 对象分类方法及装置
US11436446B2 (en) Image analysis enhanced related item decision
CN109447273A (zh) 模型训练方法、广告推荐方法、相关装置、设备及介质
CN107368489A (zh) 一种资讯数据处理方法及装置
US20130151519A1 (en) Ranking Programs in a Marketplace System
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN106339418A (zh) 一种分类纠错方法及装置
US11526756B1 (en) Artificial intelligence system with composite models for multiple response-string queries
CN112883719A (zh) 一种品类词识别方法、模型训练方法、装置及系统
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN112131884A (zh) 用于实体分类的方法和装置、用于实体呈现的方法和装置
CN115080748B (zh) 一种基于带噪标签学习的弱监督文本分类方法和装置
US20180357569A1 (en) Multi-modal declarative classification based on uhrs, click signals and interpreted data in semantic conversational understanding
CN111125387B (zh) 多媒体列表生成、命名方法、装置、电子设备和存储介质
CN109145312A (zh) 一种基于二级缓存的机器翻译方法、装置、介质和电子设备
CN117575894B (zh) 图像生成方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170118

WD01 Invention patent application deemed withdrawn after publication