CN103123636A - 建立词条分类模型的方法、词条自动分类的方法和装置 - Google Patents

建立词条分类模型的方法、词条自动分类的方法和装置 Download PDF

Info

Publication number
CN103123636A
CN103123636A CN2011103719624A CN201110371962A CN103123636A CN 103123636 A CN103123636 A CN 103123636A CN 2011103719624 A CN2011103719624 A CN 2011103719624A CN 201110371962 A CN201110371962 A CN 201110371962A CN 103123636 A CN103123636 A CN 103123636A
Authority
CN
China
Prior art keywords
entry
word
classification
sorted
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103719624A
Other languages
English (en)
Other versions
CN103123636B (zh
Inventor
薛永刚
李连华
耿磊
刘晓东
田孟月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110371962.4A priority Critical patent/CN103123636B/zh
Publication of CN103123636A publication Critical patent/CN103123636A/zh
Application granted granted Critical
Publication of CN103123636B publication Critical patent/CN103123636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种建立词条分类模型的方法、词条自动分类的方法和装置,基于预设的层次类目结构,自动建立各级类目的词条分类模型,并利用建立的各级类目的词条分类模型,自动实现层次化类目的词条自动分类,相比较人工标注的方式,节约了人力资源,提高了分类效率,避免了不同分类人员的标注和素质不统一对分类准确性带来的影响,提高了分类准确性。

Description

建立词条分类模型的方法、词条自动分类的方法和装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种建立词条分类模型的方法、词条自动分类的方法和装置。
【背景技术】
词条是百科类产品的基本构成单元,是对各种事物、现象等概念的解释,可以是字、词,也可以由字、词等组成。百科类词条因其信息量大、关联性强等特点逐渐成为用户接受信息的重要渠道。为了方便百科类词条的展现和检索,需要对词条进行分类并给出类别标签。
类别可以有层次关系,每个类别都可以继续细分子类,比如“人物”具有子类“军事人物”、“教育家”、“娱乐人物”、“科学家”、“文学家”等,“娱乐人物”又具有子类“歌星”、“电影明星”、“电视明星”等。每个词条可以具有一个或者多个类别标签,例如词条“刘德华”既属于“歌星”类别,又属于“电影明星”类别。
现有对词条进行分类时通常采用人工标注的方式,显然耗费人力资源,当大量新词条涌现时,效率极低,不同分类人员的标准和素质不统一也会给分类准确性带来影响。
【发明内容】
有鉴于此,本发明提供了一种建立词条分类模型的方法、词条自动分类的方法和装置,以便于节约人力资源,提高分类效率和准确性。
具体技术方案如下:
一种建立词条分类模型的方法,该方法基于预设的层次类目结构,该方法包括:
S11、将具有所述层次类目结构中一级类目的类别标签的词条作为训练语料,执行模型训练操作训练出一级类目的词条分类模型;
S12、将具有子类目的一级类目作为当前类目,分别执行步骤S13;
S13、将具有当前类目下一级子类目的类别标签的词条作为训练语料,执行模型训练操作训练出当前类目对应的下一级子类目的词条分类模型;
S14、将具有子类目的所述下一级子类目作为当前类目,重复执行所述步骤S13,直至不存在下一级子类目为止;
所述模型训练操作包括:获取训练语料,确定训练语料中各词条的特征向量,利用各词条的特征向量以及各词条已具有的类别标签训练分类器,得到词条分类模型。
根据本发明一优选实施例,所述确定训练语料中各词条的特征向量包括分别对训练语料中的各词条执行以下步骤:
A1、对词条对应的百科页面的各数据域内容进行分词处理得到各词语;
A2、对各词语基于词频TF-逆向文档频率IDF赋予各词语在对应数据域中的权重;
A3、将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成该词条的特征向量。
所述分类器包括:支持向量机SVM分类器或者boost分类器。
根据本发明一优选实施例,将各词语在各数据域中的权重进行融合包括:
根据预设的各数据域的权重系数,将词语在各数据域中的权重进行加权求和得到词语在所述特征向量中的权重。
根据本发明一优选实施例,所述确定训练语料中各词条的特征向量还包括:
对于属于命名实体的词条,将该词条以及该词条的命名实体类型标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值;或者,
对于存在后缀的词条,将该词条的后缀以及后缀标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值。
一种词条自动分类的方法,该方法包括:
S21、获取待分类词条,确定所述待分类词条的特征向量;
S22、基于所述待分类词条的特征向量,利用一级类目的词条分类模型对所述待分类词条进行分类,得到所述待分类词条在一级类目中所属的类别,将得到的类别分别作为当前类别执行步骤S23;
S23、判断当前类别是否存在子类目,如果是,执行步骤S24;否则,结束当前类别下对所述待分类词条的分类;
S24、基于所述待分类词条的特征向量,利用当前类别对应的下一级类目的词条分类模型对所述待分类词条进行分类,得到所述待分类词条在当前类别的下一级类目中所属的类别,将得到的类别作为当前类别,分别转至步骤S23;
其中各级类目的词条分类模型是利用上述建立词条分类模型的方法建立的。
根据本发明一优选实施例,所述步骤S21中确定所述待分类词条的特征向量包括:
B1、对所述待分类词条对应的百科页面的各数据域内容进行分词处理得到各词语;
B2、对各词语基于词频TF-逆向文档频率IDF赋予各词语在对应数据域中的权重;
B3、将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成所述待分类词条的特征向量。
根据本发明一优选实施例,确定所述待分类词条的特征向量还包括:
如果所述待分类词条属于命名实体,则将该待分类词条以及该待分类词条的命名实体类型标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值;或者,
如果所述待分类词条存在后缀,将所述待分类词条的后缀以及后缀标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值。
根据本发明一优选实施例,利用词条分类模型对所述待分类词条进行分类为:
将所述待分类词条对应的特征向量输入分类器,所述分类器利用词条分类模型对所述待分类词条进行分类,得到所述待分类词条所属的类别以及在所属类别下的权重。
一种建立词条分类模型的装置,该装置基于预设的层次类目结构,该装置包括:
第一模型确定单元,用于将具有所述层次类目结构中一级类目的类别标签的词条作为训练语料,将训练语料发送给模型训练单元,并将模型训练单元基于该训练语料得到的词条分类模型确定为一级类目的词条分类模型,将具有子类目的一级类目提供给当前类目确定单元;
当前类目确定单元,用于将接收到的类目确定为当前类目;
第二模型确定单元,用于将具有当前类目下一级子类目的类别标签的词条作为训练语料,将训练语料发送给模型训练单元,并将模型训练单元基于该训练语料得到的词条分类模型确定为当前类目对应的下一级子类目的词条分类模型,将具有子类目的所述下一级子类目提供给所述当前类目确定单元;
模型训练单元,用于获取训练语料,确定训练语料中各词条的特征向量,利用各词条的特征向量以及各词条已具有的类别标签训练分类器,得到词条分类模型。
根据本发明一优选实施例,所述模型训练单元包含确定训练语料中各词条的特征向量的子单元,该子单元具体包括:
分词处理模块,用于对词条对应的百科页面的各数据域内容进行分词处理得到各词语;
第一权重赋值模块,用于对各词语基于词频TF-逆向文档频率IDF赋予各词语在对应数据域中的权重;
第二权重赋值模块,用于将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成该词条的特征向量。
根据本发明一优选实施例,所述分类器包括:支持向量机SVM分类器或者boost分类器。
根据本发明一优选实施例,所述第二权重赋值模块在将各词语在各数据域中的权重进行融合时,具体根据预设的各数据域的权重系数,将词语在各数据域中的权重进行加权求和得到词语在所述特征向量中的权重。
根据本发明一优选实施例,所述确定训练语料中各词条的特征向量的子单元还包括:
词条添加模块,用于对于属于命名实体的词条,将该词条以及该词条的命名实体类型标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值;或者,对于存在后缀的词条,将该词条的后缀以及后缀标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值。
一种词条自动分类的装置,该装置包括:
特征确定单元,用于获取待分类词条,确定所述待分类词条的特征向量;
第一分类单元,用于基于所述待分类词条的特征向量,利用一级类目的词条分类模型对所述待分类词条进行分类,得到所述待分类词条在一级类目中所属的类别,将得到的类别分别作为当前类别提供给判断单元;
判断单元,用于判断当前类别是否存在子类目,如果是,将当前类别提供给第二分类单元;否则,结束当前类别下对所述待分类词条的分类;
第二分类单元,用于基于所述待分类词条的特征向量,利用当前类别对应的下一级类目的词条分类模型对所述待分类词条进行分类,得到所述待分类词条在当前类别的下一级类目中所属的类别,将得到的类别作为当前类别提供给所述判断单元;
其中各级类目的词条分类模型是利用上述建立词条分类模型的装置建立的。
根据本发明一优选实施例,所述特征确定单元包括:
分词处理子单元,用于对所述待分类词条对应的百科页面的各数据域内容进行分词处理得到各词语;
第一赋值子单元,用于对各词语基于词频TF-逆向文档频率IDF赋予各词语在对应数据域中的权重;
第二赋值子单元,用于将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成所述待分类词条的特征向量。
根据本发明一优选实施例,所述特征确定单元还包括:
词条添加子单元,用于如果所述待分类词条属于命名实体,则将该待分类词条以及该待分类词条的命名实体类型标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值;或者,如果所述待分类词条存在后缀,将所述待分类词条的后缀以及后缀标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值。
根据本发明一优选实施例,所述第一分类单元和第二分类单元在利用词条分类模型对所述待分类词条进行分类时,具体将所述待分类词条对应的特征向量输入分类器,所述分类器利用词条分类模型对所述待分类词条进行分类,得到所述待分类词条所属的类别以及在所属类别下的权重。
由以上技术方案可以看出,本发明提供的方法和装置能够自动建立层次化类目的词条分类模型,并基于该词条分类模型自动实现层次化类目的词条分类,相比较人工标注的方式,节约了人力资源,提高了分类效率,避免了不同分类人员的标注和素质不统一对分类准确性带来的影响,提高了分类准确性。
【附图说明】
图1为本发明实施例一提供的训练词条分类模型的方法流程图;
图2为本发明实施例一提供的特征向量的确定方法流程图;
图3为本发明实施例二提供的针对层次类目结构训练词条分类模型的流程图;
图4为预先建立好的层次类目结构实例图;
图5为本发明实施例三提供的对待分类词条进行分类的流程图;
图6为本发明实施例四提供的建立词条分类模型的装置结构图;
图7为本发明实施例四提供的确定特征向量的子单元结构图;
图8为本发明实施例五提供的词条自动分类的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供的方法主要包括两部分内容:第一部分是训练词条分类模型,第二部分是利用词条分类模型对待分类词条进行分类。下面结合实施例分别对这两部分内容进行详细描述。
实施例一、
图1为本发明实施例一提供的训练词条分类模型的方法流程图,如图1所示,主要包括以下步骤:
步骤101:获取已具有类别标签的词条作为训练语料。
本步骤中获取的词条,可以是通过人工方式已经标注好的词条,也可以是已经采用本发明所提供方法完成词条分类的词条。本步骤中需要的词条数量较小,通过专业人员预先标注即可。
步骤102:从该词条对应的百科页面中获取特征词并确定特征词的权重,构成该词条对应的特征向量。
在本步骤中,特征词可以从百科页面的各数据域中进行提取,特征向量的具体确定过程可以如图2所示,首先执行步骤201对该词条对应的百科页面的各数据域内容进行分词处理得到各词语,其中在分词处理后会进行过滤处理,例如停用词过滤等。
然后执行步骤202对各词语基于词频(TF)-逆向文档频率(IDF)赋予各词语在对应数据域中的权重,TF-IDF的计算为现有技术,在此不再赘述。
再执行步骤203将各词语在各数据域中的权重进行融合得到各词语在特征向量中的权重。在步骤203中对各数据域中的权重进行融合可以是根据预设的各数据域的权重系数对词语在各数据域中的权重进行加权求和,得到词语的权重。
例如,词条“刘德华”对应的百科页面的各数据域进行分词和过滤处理后得到“刘”、“德华”、“歌曲”、“专辑”等词语。分别基于TF-IDF赋予各词语在对应数据域中的权重,再对词语在各数据域中的权重进行融合得到词语作为在特征向量中的权重,假设各数据域的权重系数如表1所示。
表1
  数据域名称   权重系数
  词条名称   2
  词条目录   2
  词条概述   2
  词条正文   1
  词条基本信息   2
  内链词条   1
  相关词条   1
  开放分类   5
  相关词条的开放分类   5
“刘”作为分类特征的权重=“刘”在“词条名称”中的权重*2+“刘”在“词条目录”中的权重*2+“刘”在“词条概述”中的权重*2+“刘”在“词条正文”中的权重*1+...+“刘”在“相关词条的开放分类”中的权重*2。
最终在构成词条的特征向量时,可以直接将上述词语以及词语的权重构成该词条的特征向量,也可以进一步对上述词语进行过滤处理,过滤掉权重值不满足预设权重要求的词语后,将得到的词语以及词语的权重构成该词条的特征向量。其中预设权重要求可以为:权重值大于或等于预设权重阈值,或者权重值排在前N个,N为预设正整数。
按照这样的方式,最终得到“刘德华”的特征向量为:“刘”及其对应权重值88.61,“德华”及其对应权重值100.02,“歌曲”及其对应权重值60.94,“专辑”及其对应权重值78.39......
优选地,对于某些本身具有显著特征的词条,为了突出该特征,可以在特征向量中增加一些表征该特征的词语。在本发明实施例中,可以包括但不限于以下两种方式:
其一、对词条进行命名实体识别,如果词条属于命名实体,则将该词条以及命名实体类型标记作为一个词语加入该词条的特征向量,并为该词语赋予一个预设的权重值。例如,词条“北京”属于命名实体中的地名类别,则可以在该词条的特征向量中加入一个词语“地名北京”,其中“地名”为命名实体类型标记,也可以采用其他标记形式,然后为该词语“地名北京”赋予一个预设的权重值,例如10,该权重值可以根据经验设置。
其二、对词条进行后缀识别,如果词条存在后缀,则将该词条的后缀以及后缀标记构成的词语加入该词条的特征向量中,并为该词语赋予一个预设的权重值。例如,词条“北京三中”中存在后缀“中”,许多带有该后缀的词条都可能具有学校的特征,因此,可以在该词条的特征向量中加入词语“后缀中”,其中“后缀”为后缀标记,也可以采用其他标记形式,然后为该词语“后缀中”赋予一个预设的权重值,例如1,该权重值可以根据经验设置。
对词条进行后缀识别的方式为现有技术,在此简单描述:对词条进行分词处理后,将最后一个词语与预设的后缀词典进行匹配,如果匹配上,则说明该词条存在后缀。
步骤103:利用各词条的特征向量以及各词条已具有的类别标签训练分类器,得到词条分类模型。
本步骤实际上就是将特征向量以及类别之间的对应关系输入分类器,从而对分类器进行训练。采用的分类器可以包括但不限于:支持向量机(SVM)分类器、boost分类器等。
例如,“刘德华”的类别标签包括“人物”,则将以下类别与特征向量之间的的对应关系输入SVM分类器进行训练(“<>”中的内容为特征向量)。
“人物”-<刘”及其对应权重值88.61,“德华”及其对应权重值100.02,“歌曲”及其对应权重值60.94,“专辑”及其对应权重值78.39......>
其中,如果采用的分类器为数值型分类器,例如SVM分类器,则需要将输入的特征向量以及类别标签中的文字转化为数字,对于已知输入的分类器的训练为现有技术,在此不再赘述。
需要说明的是,由于百科词条的类别具有层次关系,因此本发明可以实现词条层次分类,那么就需要依据预先建立好的层次类目结构,分别针对一级类目以及各级子类目分别按照实施例一所述的流程分别训练词条分类模型,最终得到一级类目的词条分类模型,以及各级子类目的词条分类模型。
具体参照实施例二。
实施例二、
图3为本发明实施例二提供的针对层次类目结构训练词条分类模型的流程图,如图3所示,执行以下步骤:
步骤301:将具有一级类目的类别标签的词条作为训练语料,然后按照实施例一的方式训练出一级类目的词条分类模型。
步骤302:将具有子类目的一级类目作为当前类目,分别执行步骤303。
步骤303:将具有当前类目的下一级子类目的类别标签的词条作为训练语料,按照实施例一的方式训练出当前类目对应的下一级子类目的词条分类模型。
步骤304:将具有子类目的上述下一级子类目作为当前类目,重复执行步骤303,直至不存在下一级子类目为止。
举个例子,假设预先建立好的层次类目结构如图4所示,首先利用已具有“机构”、“艺术”、“文学”、“地理”类别标签的词条按照实施例一的流程训练一级类目的词条分类模型。再将“艺术”作为当前类目,将具有“雕塑”、“音乐”、“舞蹈”、“电影”、“电视剧”、“绘画”、“曲艺”、“动漫”和“工艺品”类别标签的词条按照实施例一的流程训练“艺术”所对应二级类目的词条分类模型。再将“音乐”作为当前类目,将具有“乐队”、“歌曲”、“音乐剧”、“专辑”类别标签的词条按照实施例一的流程训练“音乐”所对应三级类目的词条分类模型。
实施例三、
图5为本发明实施例三提供的对待分类词条进行分类的流程图,如图5所示,包括以下步骤:
步骤501:获取待分类词条,并从该词条对应的百科页面中获取特征词并确定特征词的权重,构成该词条的特征向量。
词条对应的特征向量的确定过程与实施例一中步骤102所述的过程一致,在此不再赘述。
步骤502:基于该词条的特征向量利用一级类目的词条分类模型对该词条进行分类,得到该词条在一级类目中所属的类别,将得到的类别分别作为当前类别执行步骤503。
步骤503:判断当前类别是否存在子类目,如果是,执行步骤504;否则,结束当前类别下对该词条的分类。
步骤504:基于该词条的特征向量利用当前类别对应的下一级类目的词条分类模型对该词条进行分类,得到该词条在当前类别的下一级类目中所属的类别,将得到的类别作为当前类别,分别转至步骤503。
在基于词条对应的特征向量利用词条分类模型对词条进行分类时,实际上就是将词条对应的特征向量输入分类器,该分类器利用对应的词条分类模型对词条进行分类,以及该词条在所属类别下的权重。
仍以图4所示层次类目结构为例,假设当前待分类词条为“神雕侠侣”,在获取该词条的特征向量后,首先利用一级类目的词条分类模型对该词条进行分类后,确定其属于“艺术”类别。由于“艺术”类别存在下一级类目,因此继续利用“艺术”对应的下一级类目的词条分类器对该词条进行分类,确定其属于“电视剧”。“电视剧”类别不存在下一级类目,则结束对该词条的分类。
另外,一个词条可能被分类至多个类别,再举一个例子,假设当前待分类词条为“杜拉拉升职记”,在获取该词条的特征向量后,首先利用一级类目的词条分类模型对该词条进行分类后,确定其属于“文学”和“艺术”类别。由于“文学”类别不存在下一级类目,因此结束词条在该类别下的分类。由于“艺术”类别存在下一级类目,继续利用对应的下一级类目的词条分类器对该词条进行分类,确定其属于“电视剧”和“电影”类别。由于“电视剧”和“电影”类别下均不存在下一级类目,则结束对该词条的分类。
以上是对本发明所提供方法进行的详细描述,下面通过实施例四和五对本发明所提供的装置进行详细描述。
实施例四、
图6为本发明实施例四提供的建立词条分类模型的装置结构图,本发明提供的装置在建立词条分类模型时,基于已有的层次类目结构,如图6所示,该装置包括:第一模型确定单元600、当前类目确定单元610、第二模型确定单元620以及模型训练单元630。
第一模型确定单元600将具有层次类目结构中一级类目的类别标签的词条作为训练语料,将训练语料发送给模型训练单元630,并将模型训练单元630基于该训练语料得到的词条分类模型确定为一级类目的词条分类模型,将具有子类目的一级类目提供给当前类目确定单元610。
当前类目确定单元610将接收到的类目确定为当前类目。
第二模型确定单元620将具有当前类目下一级子类目的类别标签的词条作为训练语料,将训练语料发送给模型训练单元630,并将模型训练单元630基于该训练语料得到的词条分类模型确定为当前类目对应的下一级子类目的词条分类模型,将具有子类目的下一级子类目提供给当前类目确定单元610。
模型训练单元630获取训练语料,确定训练语料中各词条的特征向量,利用各词条的特征向量以及各词条已具有的类别标签训练分类器,得到词条分类模型。
其中模型训练单元630中使用的分类器可以包括但不限于:SVM分类器或者boost分类器。
通过上述装置就能够建立起基于已有层次类目结构的词条分类模型,具体地,在层次类目结构中每一级类目均建立有对应的词条分类模型。
其中,模型训练单元630中包含有确定训练语料中各词条的特征向量的子单元,该子单元的结构可以如图7所示,具体包括:分词处理模块701、第一权重赋值模块702以及第二权重赋值模块703。
分词处理模块701对词条对应的百科页面的各数据域内容进行分词处理得到各词语。其中在分词处理后会进行诸如停用词过滤等过滤处理。
第一权重赋值模块702对各词语基于TF-IDF赋予各词语在对应数据域中的权重。本发明实施例中涉及的百科页面的各数据域可以采用百科页面中的各栏目段落,当然也可以采用其他数据域形式,本发明并不加以限制。
第二权重赋值模块703将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成该词条的特征向量。具体可以根据预设的各数据域的权重系数,将词语在各数据域中的权重进行加权求和得到词语在特征向量中的权重。
最终在构成词条的特征向量时,可以直接将上述词语以及词语的权重构成该词条的特征向量,也可以进一步对上述词语进行过滤处理,过滤掉权重值不满足预设权重要求的词语后,将得到的词语以及词语的权重构成该词条的特征向量。其中预设权重要求可以为:权重值大于或等于预设权重阈值,或者权重值排在前N个,N为预设正整数。
另外,对于某些本身具有显著特征的词条,为了突出该特征,可以在特征向量中增加一些表征该特征的词语。此时,确定训练语料中各词条的特征向量的子单元还可以包括:
词条添加模块704,用于对于属于命名实体的词条,将该词条以及该词条的命名实体类型标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值。
例如,词条“北京”属于命名实体中的地名类别,则可以在该词条的特征向量中加入一个词语“地名北京”,其中“地名”为命名实体类型标记,也可以采用其他标记形式,然后为该词语“地名北京”赋予一个预设的权重值,例如10,该权重值可以根据经验设置。
词条添加模块704也可以对于存在后缀的词条,将该词条的后缀以及后缀标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值。
例如,词条“北京三中”中存在后缀“中”,许多带有该后缀的词条都可能具有学校的特征,因此,可以在该词条的特征向量中加入词语“后缀中”,其中“后缀”为后缀标记,也可以采用其他标记形式,然后为该词语“后缀中”赋予一个预设的权重值,例如1,该权重值可以根据经验设置。
实施例五、
图8为本发明实施例五提供的词条自动分类的装置结构图,如图8所示,该装置可以包括:特征确定单元810、第一分类单元820、判断单元830以及第二分类单元840。
特征确定单元810获取待分类词条,确定待分类词条的特征向量。
第一分类单元820基于待分类词条的特征向量,利用一级类目的词条分类模型对待分类词条进行分类,得到待分类词条在一级类目中所属的类别,将得到的类别分别作为当前类别提供给判断单元830。
判断单元830判断当前类别是否存在子类目,如果是,将当前类别提供给第二分类单元840;否则,结束当前类别下对待分类词条的分类。
第二分类单元840基于待分类词条的特征向量,利用当前类别对应的下一级类目的词条分类模型对待分类词条进行分类,得到待分类词条在当前类别的下一级类目中所属的类别,将得到的类别作为当前类别提供给判断单元830。
第一分类单元820和第二分类单元830在利用词条分类模型对待分类词条进行分类时,具体将待分类词条对应的特征向量输入分类器,分类器利用词条分类模型对待分类词条进行分类,得到待分类词条所属的类别以及在所属类别下的权重。其中使用的分类器可以包括但不限于:SVM分类器或者boost分类器。
其中各级类目的词条分类模型是利用实施例四所述的装置建立的。
下面对上述特征确定单元810的结构进行描述,特征确定单元810可以具体包括:分词处理子单元811、第一赋值子单元812以及第二赋值子单元813。
分词处理子单元811对待分类词条对应的百科页面的各数据域内容进行分词处理得到各词语。其中在分词处理后会进行诸如停用词过滤等过滤处理。
第一赋值子单元812对各词语基于TF-IDF赋予各词语在对应数据域中的权重。
第二赋值子单元813将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成待分类词条的特征向量。具体可以根据预设的各数据域的权重系数,将词语在各数据域中的权重进行加权求和得到词语在特征向量中的权重。
最终在构成词条的特征向量时,可以直接将上述词语以及词语的权重构成待分类词条的特征向量,也可以进一步对上述词语进行过滤处理,过滤掉权重值不满足预设权重要求的词语后,将得到的词语以及词语的权重构成待分类词条的特征向量。其中预设权重要求可以为:权重值大于或等于预设权重阈值,或者权重值排在前N个,N为预设正整数。
另外,对于某些本身具有显著特征的词条,为了突出该特征,可以在特征向量中增加一些表征该特征的词语。此时,特征确定单元810还包括:
词条添加子单元814,用于如果待分类词条属于命名实体,则将该待分类词条以及该待分类词条的命名实体类型标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值;或者,如果待分类词条存在后缀,将待分类词条的后缀以及后缀标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种建立词条分类模型的方法,该方法基于预设的层次类目结构,其特征在于,该方法包括:
S11、将具有所述层次类目结构中一级类目的类别标签的词条作为训练语料,执行模型训练操作训练出一级类目的词条分类模型;
S12、将具有子类目的一级类目作为当前类目,分别执行步骤S13;
S13、将具有当前类目下一级子类目的类别标签的词条作为训练语料,执行模型训练操作训练出当前类目对应的下一级子类目的词条分类模型;
S14、将具有子类目的所述下一级子类目作为当前类目,重复执行所述步骤S13,直至不存在下一级子类目为止;
所述模型训练操作包括:获取训练语料,确定训练语料中各词条的特征向量,利用各词条的特征向量以及各词条已具有的类别标签训练分类器,得到词条分类模型。
2.根据权利要求1所述的方法,其特征在于,所述确定训练语料中各词条的特征向量包括分别对训练语料中的各词条执行以下步骤:
A1、对词条对应的百科页面的各数据域内容进行分词处理得到各词语;
A2、对各词语基于词频TF-逆向文档频率IDF赋予各词语在对应数据域中的权重;
A3、将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成该词条的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述分类器包括:支持向量机SVM分类器或者boost分类器。
4.根据权利要求2所述的方法,其特征在于,将各词语在各数据域中的权重进行融合包括:
根据预设的各数据域的权重系数,将词语在各数据域中的权重进行加权求和得到词语在所述特征向量中的权重。
5.根据权利要求2所述的方法,其特征在于,所述确定训练语料中各词条的特征向量还包括:
对于属于命名实体的词条,将该词条以及该词条的命名实体类型标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值;或者,
对于存在后缀的词条,将该词条的后缀以及后缀标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值。
6.一种词条自动分类的方法,其特征在于,该方法包括:
S21、获取待分类词条,确定所述待分类词条的特征向量;
S22、基于所述待分类词条的特征向量,利用一级类目的词条分类模型对所述待分类词条进行分类,得到所述待分类词条在一级类目中所属的类别,将得到的类别分别作为当前类别执行步骤S23;
S23、判断当前类别是否存在子类目,如果是,执行步骤S24;否则,结束当前类别下对所述待分类词条的分类;
S24、基于所述待分类词条的特征向量,利用当前类别对应的下一级类目的词条分类模型对所述待分类词条进行分类,得到所述待分类词条在当前类别的下一级类目中所属的类别,将得到的类别作为当前类别,分别转至步骤S23;
其中各级类目的词条分类模型是利用权利要求1至5任一权项所述的方法建立的。
7.根据权利要求6所述的词条自动分类的方法,其特征在于,所述步骤S21中确定所述待分类词条的特征向量包括:
B1、对所述待分类词条对应的百科页面的各数据域内容进行分词处理得到各词语;
B2、对各词语基于词频TF-逆向文档频率IDF赋予各词语在对应数据域中的权重;
B3、将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成所述待分类词条的特征向量。
8.根据权利要求7所述的词条自动分类的方法,其特征在于,确定所述待分类词条的特征向量还包括:
如果所述待分类词条属于命名实体,则将该待分类词条以及该待分类词条的命名实体类型标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值;或者,
如果所述待分类词条存在后缀,将所述待分类词条的后缀以及后缀标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值。
9.根据权利要求6所述的词条自动分类的方法,其特征在于,利用词条分类模型对所述待分类词条进行分类为:
将所述待分类词条对应的特征向量输入分类器,所述分类器利用词条分类模型对所述待分类词条进行分类,得到所述待分类词条所属的类别以及在所属类别下的权重。
10.一种建立词条分类模型的装置,该装置基于预设的层次类目结构,其特征在于,该装置包括:
第一模型确定单元,用于将具有所述层次类目结构中一级类目的类别标签的词条作为训练语料,将训练语料发送给模型训练单元,并将模型训练单元基于该训练语料得到的词条分类模型确定为一级类目的词条分类模型,将具有子类目的一级类目提供给当前类目确定单元;
当前类目确定单元,用于将接收到的类目确定为当前类目;
第二模型确定单元,用于将具有当前类目下一级子类目的类别标签的词条作为训练语料,将训练语料发送给模型训练单元,并将模型训练单元基于该训练语料得到的词条分类模型确定为当前类目对应的下一级子类目的词条分类模型,将具有子类目的所述下一级子类目提供给所述当前类目确定单元;
模型训练单元,用于获取训练语料,确定训练语料中各词条的特征向量,利用各词条的特征向量以及各词条已具有的类别标签训练分类器,得到词条分类模型。
11.根据权利要求10所述的装置,其特征在于,所述模型训练单元包含确定训练语料中各词条的特征向量的子单元,该子单元具体包括:
分词处理模块,用于对词条对应的百科页面的各数据域内容进行分词处理得到各词语;
第一权重赋值模块,用于对各词语基于词频TF-逆向文档频率IDF赋予各词语在对应数据域中的权重;
第二权重赋值模块,用于将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成该词条的特征向量。
12.根据权利要求10所述的装置,其特征在于,所述分类器包括:支持向量机SVM分类器或者boost分类器。
13.根据权利要求11所述的装置,其特征在于,所述第二权重赋值模块在将各词语在各数据域中的权重进行融合时,具体根据预设的各数据域的权重系数,将词语在各数据域中的权重进行加权求和得到词语在所述特征向量中的权重。
14.根据权利要求11所述的装置,其特征在于,所述确定训练语料中各词条的特征向量的子单元还包括:
词条添加模块,用于对于属于命名实体的词条,将该词条以及该词条的命名实体类型标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值;或者,对于存在后缀的词条,将该词条的后缀以及后缀标记构成的词语加入该词条的特征向量,并为加入的词语赋予预设的权重值。
15.一种词条自动分类的装置,其特征在于,该装置包括:
特征确定单元,用于获取待分类词条,确定所述待分类词条的特征向量;
第一分类单元,用于基于所述待分类词条的特征向量,利用一级类目的词条分类模型对所述待分类词条进行分类,得到所述待分类词条在一级类目中所属的类别,将得到的类别分别作为当前类别提供给判断单元;
判断单元,用于判断当前类别是否存在子类目,如果是,将当前类别提供给第二分类单元;否则,结束当前类别下对所述待分类词条的分类;
第二分类单元,用于基于所述待分类词条的特征向量,利用当前类别对应的下一级类目的词条分类模型对所述待分类词条进行分类,得到所述待分类词条在当前类别的下一级类目中所属的类别,将得到的类别作为当前类别提供给所述判断单元;
其中各级类目的词条分类模型是利用权利要求10至14任一权项所述的装置建立的。
16.根据权利要求15所述的词条自动分类的装置,其特征在于,所述特征确定单元包括:
分词处理子单元,用于对所述待分类词条对应的百科页面的各数据域内容进行分词处理得到各词语;
第一赋值子单元,用于对各词语基于词频TF-逆向文档频率IDF赋予各词语在对应数据域中的权重;
第二赋值子单元,用于将各词语在各数据域中的权重进行融合分别得到各词语的权重,由各词语以及各词语的权重构成所述待分类词条的特征向量。
17.根据权利要求16所述的词条自动分类的装置,其特征在于,所述特征确定单元还包括:
词条添加子单元,用于如果所述待分类词条属于命名实体,则将该待分类词条以及该待分类词条的命名实体类型标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值;或者,如果所述待分类词条存在后缀,将所述待分类词条的后缀以及后缀标记构成的词语加入该待分类词条的特征向量,并为加入的词语赋予预设的权重值。
18.根据权利要求15所述的词条自动分类的装置,其特征在于,所述第一分类单元和第二分类单元在利用词条分类模型对所述待分类词条进行分类时,具体将所述待分类词条对应的特征向量输入分类器,所述分类器利用词条分类模型对所述待分类词条进行分类,得到所述待分类词条所属的类别以及在所属类别下的权重。
CN201110371962.4A 2011-11-21 2011-11-21 建立词条分类模型的方法、词条自动分类的方法和装置 Active CN103123636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110371962.4A CN103123636B (zh) 2011-11-21 2011-11-21 建立词条分类模型的方法、词条自动分类的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110371962.4A CN103123636B (zh) 2011-11-21 2011-11-21 建立词条分类模型的方法、词条自动分类的方法和装置

Publications (2)

Publication Number Publication Date
CN103123636A true CN103123636A (zh) 2013-05-29
CN103123636B CN103123636B (zh) 2016-04-27

Family

ID=48454615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110371962.4A Active CN103123636B (zh) 2011-11-21 2011-11-21 建立词条分类模型的方法、词条自动分类的方法和装置

Country Status (1)

Country Link
CN (1) CN103123636B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015180622A1 (zh) * 2014-05-26 2015-12-03 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN105893556A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
CN106777401A (zh) * 2017-03-10 2017-05-31 北京搜狐新媒体信息技术有限公司 信息分类方法及装置
CN106997340A (zh) * 2016-01-25 2017-08-01 阿里巴巴集团控股有限公司 词库的生成以及利用词库的文档分类方法及装置
CN107908704A (zh) * 2017-11-08 2018-04-13 北京赛时科技有限公司 专家匹配方法和装置以及存储介质
CN110580335A (zh) * 2018-06-07 2019-12-17 阿里巴巴集团控股有限公司 用户意图的确定方法及装置
CN111046170A (zh) * 2018-10-15 2020-04-21 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN111079425A (zh) * 2019-12-20 2020-04-28 中南大学 一种地质文档词项分级方法及装置
CN112488551A (zh) * 2020-12-11 2021-03-12 浪潮云信息技术股份公司 一种基于XGBoost算法的热线智能派单方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN102063497A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其词条处理方法
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
US20110258152A1 (en) * 2010-03-31 2011-10-20 Kindsight, Inc. Categorization automation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
US20110258152A1 (en) * 2010-03-31 2011-10-20 Kindsight, Inc. Categorization automation
CN102063497A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其词条处理方法
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015180622A1 (zh) * 2014-05-26 2015-12-03 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN106997340B (zh) * 2016-01-25 2020-07-31 阿里巴巴集团控股有限公司 词库的生成以及利用词库的文档分类方法及装置
CN106997340A (zh) * 2016-01-25 2017-08-01 阿里巴巴集团控股有限公司 词库的生成以及利用词库的文档分类方法及装置
CN105893556B (zh) * 2016-03-31 2020-04-14 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
CN105893556A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
CN106777401A (zh) * 2017-03-10 2017-05-31 北京搜狐新媒体信息技术有限公司 信息分类方法及装置
CN107908704A (zh) * 2017-11-08 2018-04-13 北京赛时科技有限公司 专家匹配方法和装置以及存储介质
CN107908704B (zh) * 2017-11-08 2024-04-23 北京赛时科技有限公司 专家匹配方法和装置以及存储介质
CN110580335A (zh) * 2018-06-07 2019-12-17 阿里巴巴集团控股有限公司 用户意图的确定方法及装置
CN110580335B (zh) * 2018-06-07 2023-05-26 阿里巴巴集团控股有限公司 用户意图的确定方法及装置
CN111046170A (zh) * 2018-10-15 2020-04-21 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN111079425A (zh) * 2019-12-20 2020-04-28 中南大学 一种地质文档词项分级方法及装置
CN112488551A (zh) * 2020-12-11 2021-03-12 浪潮云信息技术股份公司 一种基于XGBoost算法的热线智能派单方法
CN112488551B (zh) * 2020-12-11 2023-04-07 浪潮云信息技术股份公司 一种基于XGBoost算法的热线智能派单方法

Also Published As

Publication number Publication date
CN103123636B (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
CN103123636B (zh) 建立词条分类模型的方法、词条自动分类的方法和装置
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN103106262B (zh) 文档分类、支持向量机模型生成的方法和装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN109960800A (zh) 基于主动学习的弱监督文本分类方法及装置
CN106960040B (zh) 一种url的类别确定方法及装置
CN108629043A (zh) 网页目标信息的提取方法、装置及存储介质
CN103927309B (zh) 一种对业务对象标注信息标签的方法及装置
CN104978587B (zh) 一种基于文档类型的实体识别合作学习算法
CN107871144A (zh) 发票商品名分类方法、系统、设备及计算机可读存储介质
CN109885688A (zh) 文本分类方法、装置、计算机可读存储介质和电子设备
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN101853250A (zh) 对文档进行分类的方法及装置
CN104199965A (zh) 一种语义信息检索方法
CN102708164B (zh) 电影期望值的计算方法及系统
CN103927366B (zh) 一种根据图片自动播放歌曲的方法及系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN101404036A (zh) PowerPoint电子演示文稿的关键词抽取方法
CN103593431A (zh) 网络舆情分析方法和装置
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN107992550A (zh) 一种网络评论分析方法及系统
CN108717459B (zh) 一种面向用户评论信息的移动应用缺陷定位方法
CN103744838B (zh) 一种用于度量主流情感信息的中文情感文摘系统及方法
CN108009248A (zh) 一种数据分类方法和系统
CN103324758A (zh) 一种新闻分类方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant