CN115759072B - 一种特征词分类方法、装置、电子设备及存储介质 - Google Patents
一种特征词分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115759072B CN115759072B CN202211453523.2A CN202211453523A CN115759072B CN 115759072 B CN115759072 B CN 115759072B CN 202211453523 A CN202211453523 A CN 202211453523A CN 115759072 B CN115759072 B CN 115759072B
- Authority
- CN
- China
- Prior art keywords
- weights
- category
- feature words
- current
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 abstract description 6
- 238000011282 treatment Methods 0.000 abstract description 6
- 239000000203 mixture Substances 0.000 abstract description 5
- 230000035945 sensitivity Effects 0.000 abstract description 5
- 230000003020 moisturizing effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 239000006071 cream Substances 0.000 description 5
- 241001494479 Pecora Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000002087 whitening effect Effects 0.000 description 4
- 210000002268 wool Anatomy 0.000 description 4
- 241001261518 Balea Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003716 rejuvenation Effects 0.000 description 2
- 238000003045 statistical classification method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种特征词分类方法、装置、电子设备及存储介质,针对在实际业务场景中遇到的特征词分类的需求,通过分析特征词的组成结构和类别之间的统计关系,提出了基于统计分析的分类方法;并对部分计算逻辑进行针对性的优化,以适应行业特征词这种长度极短、字符差异敏感度又较高的分类应用场景。通过对历史标注积累的特征词和所属类别的统计建模,可以学习到各字符组合对各类别的分类重要度,并用于对特征词的类别判断。通过排查历史样本和统计权重数据,对分类结果也有更好的可解释性和可维护性等优势,方便对由于样本不足导致的分类错误进行人工逻辑干预等处理。
Description
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种特征词分类方法、装置、电子设备及存储介质。
背景技术
在对行业特征词进行分类的场景中,经常会有特征词之间相差一两个字符,但类别含义却有很大不同的情况。比如,在时下最热门的美妆行业中,“保湿”属于“功效”类别,而“保湿霜”则属于“品类”类别;同样,对于某些有字符包含关系的特征词,也有所属类别完全不同的情况。例如,“佰草集”属于“品牌”类别,而“佰草集新七白美白嫩肤面膜”则属于“单品”类别。
为了满足广告主对内容挖掘中所涉及到的特征词进行类别区分的需求,我们需要对类似上述的特征词,给以合理和准确的类别划分,以便更好的进行后续的业务分析。
目前常用的基于深度学习、语义向量的分类方法,针对像特征词这样的“极短”文本,效果并不理想,不能很好的判断由于个别字符上的差异导致特征词整体所属类别的不同;而传统的统计分类的方法,也缺少针对特征词这种“极短”文本的分类方案以及优化策略等。
因此,如何提供一种有效针对特征词的分类方法,是目前亟待解决的问题。
发明内容
为了改善上述问题,本发明提供了一种特征词分类方法、装置、电子设备及存储介质。
本发明实施例的第一方面,提供了一种特征词分类方法,所述方法包括:
获取待分类的特征词;
将所述特征词进行切分得到特征词字符组合;
根据预先保存的字符组合对应各类别的权重,获取所述特征词字符组合对各类别的重要度权重;
对各类别的重要度权进行累加,得到当前特征词对各个类别的判断权重;
根据所述判断权重对所述特征词进行分类。
可选地,所述字符组合对应各类别的权重的获取方法包括:
从历史样本库中获取特征词类别样本,即已经标注好类别的行业特征词;
采用n-gram策略对行业特征词进行切分,提取每个行业特征词的字符组合;
计算提取的行业特征词的字符组合对每个类别的重要度权重。
可选地,所述计算提取的行业特征词的字符组合对每个类别的重要度权重的步骤,具体包括:
采用以下公式计算字符组合对某类别的重要度权重
其中,N11为当前字符组合出现在当前类的多少个行业特征词中;N10为当前字符组合所出现在的行业特征词中有多少不在当前类别中;N01为当前类别中有多少行业特征词不含有当前的字符组合;N00为有多少行业特征词既不含当前的字符组合也不属于当前的类别。
可选地,所述字符组合对应各类别的权重的获取方法,还包括:
对计算得到的重要度权重的量级进行缩放处理,以改善基于字符组合的统计特征权重的分类效果。
可选地,所述对计算得到的重要度权重的量级进行缩放处理的步骤,具体包括:
获取每个字符组合对各个类别的原始权重;
遍历当前字符组合对应各类别的权重,提取其中的最大权重和最小权重;
根据最大和最小权重,将当前字符组合对应各类别的权重,按比例压缩到[-1,1]之间。
可选地,所述根据所述判断权重对所述特征词进行分类的步骤,具体包括:
对所述判断权重进行降序排列;
取最大值或最大的几个值所对应的类别,作为该待分类的特征词的分类结果。
可选地,所述特征词分类方法还包括:
在经过人工验证和业务应用后,将正确的特征词分类结果加入到所述历史样本库中;
定期计算更新各字符组合对各类别的重要度权重。
本发明实施例的第二方面,提供了一种特征词分类装置,所述装置包括:
特征词获取单元,用于获取待分类的特征词;
字符提取单元,用于将所述特征词进行切分得到特征词字符组合;
权重获取单元,用于根据预先保存的字符组合对应各类别的权重,获取所述特征词字符组合对各类别的重要度权重;
权重计算单元,用于对各类别的重要度权进行累加,得到当前特征词对各个类别的判断权重;
特征词分类单元,用于根据所述判断权重对所述特征词进行分类。
本发明实施例的第三方面,提供了一种电子设备,其特征在于,包括:
一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如第一方面所述的方法。
本发明实施例的第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如第一方面所述的方法。
综上所述,本发明提供了一种特征词分类方法、装置、电子设备及存储介质,针对在实际业务场景中遇到的特征词分类的需求,通过分析特征词的组成结构和类别之间的统计关系,提出了基于统计分析的分类方法;并对部分计算逻辑进行针对性的优化,以适应行业特征词这种长度极短、字符差异敏感度又较高的分类应用场景。通过对历史标注积累的特征词和所属类别的统计建模,可以学习到各字符组合对各类别的分类重要度,并用于对特征词的类别判断。通过排查历史样本和统计权重数据,对分类结果也有更好的可解释性和可维护性等优势,方便对由于样本不足导致的分类错误进行人工逻辑干预等处理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的特征词分类方法的方法流程图;
图2为本发明实施例的字符组合对应各类别的权重的获取方法的流程图;
图3为本发明实施例的根据判断权重对所述特征词进行分类的方法流程图;
图4为本发明实施例的特征词分类装置的功能模块框图;
图5为本发明实施例的用于执行根据本申请实施例的特征词分类方法的电子设备的结构框图;
图6是本发明实施例的用于保存或者携带实现根据本申请实施例的特征词分类方法的程序代码的计算机可读存储介质的结构框图。
图标:
特征词获取单元110;字符提取单元120;权重获取单元130;权重计算单元140;特征词分类单元150;电子设备300;处理器310;存储器320;计算机可读存储介质400;程序代码410。
具体实施方式
在对行业特征词进行分类的场景中,经常会有特征词之间相差一两个字符,但类别含义却有很大不同的情况。比如,在时下最热门的美妆行业中,“保湿”属于“功效”类别,而“保湿霜”则属于“品类”类别;同样,对于某些有字符包含关系的特征词,也有所属类别完全不同的情况。例如,“佰草集”属于“品牌”类别,而“佰草集新七白美白嫩肤面膜”则属于“单品”类别。
为了满足广告主对内容挖掘中所涉及到的特征词进行类别区分的需求,我们需要对类似上述的特征词,给以合理和准确的类别划分,以便更好的进行后续的业务分析。
目前常用的基于深度学习、语义向量的分类方法,针对像特征词这样的“极短”文本,效果并不理想,不能很好的判断由于个别字符上的差异导致特征词整体所属类别的不同;而传统的统计分类的方法,也缺少针对特征词这种“极短”文本的分类方案以及优化策略等。
因此,如何提供一种准确度更高的特征词分类方法,是目前亟待解决的问题。
根据在实际业务场景中的应用,本发明设计者发现在行业特征词的字符构造方面,通常有通过一个字符,以及两到三个、最多四个字符的组合,来表达某个“原子”含义,并进一步合成整个特征词的完整含义。
例如前述提及到的特征词,“保湿”可以认为由“保湿”(“保”和“湿”的组合)来表达一个完整的含义;“保湿霜”则可以认为是由“保湿”(“保”和“湿”的组合)和“霜”(单独一个“霜”)这两组原子含义的字符(组合)来构建一个完整含义的特征词。
同样,“佰草集”是由“佰草集”(三个字符的组合)来完整表示其含义;而“佰草集新七白美白嫩肤面膜”则是由“佰草集”、“新七白”(对这种不常见的字符组合,可进一步拆分为“新”、“七”、“白”等单个字符单独的组合)、“美白”、“嫩肤”和“面膜”这样的两到三个或单个字符的组合来构建起当前的特征词,并表达其组合后的完整含义。这一点应该也是汉语言自身所具有的特点。
鉴于此,本发明设计者设计了一种特征词分类方法、装置、电子设备及存储介质,针对在实际业务场景中遇到的特征词分类的需求,通过分析特征词的组成结构和类别之间的统计关系,提出了基于统计分析的分类方法;并对部分计算逻辑进行针对性的优化,以适应行业特征词这种长度极短、字符差异敏感度又较高的分类应用场景。通过对历史标注积累的特征词和所属类别的统计建模,可以学习到各字符组合对各类别的分类重要度,并用于对特征词的类别判断。通过排查历史样本和统计权重数据,对分类结果也有更好的可解释性和可维护性等优势,方便对由于样本不足导致的分类错误进行人工逻辑干预等处理。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例
如图1所示,为本发明一实施例提供的特征词分类方法,该方法包括:
步骤S101,获取待分类的特征词。
在线处理,对待分类的新增的行业特征词进行收集获取。
步骤S102,将所述特征词进行切分得到特征词字符组合。
本发明的实施例中,将所述特征词进行切分得到特征词字符组合的方式,与字符组合对应各类别的权重的获取时,提取历史样本库中获取的已经标注好类别的行业特征词的方式相同,即按照n-gram策略提取所述行业特征词的字符组合并进行切分,具体的方式在下面的步骤中将展开说明,在此不再赘述。
步骤S103,根据预先保存的字符组合对应各类别的权重,获取所述特征词字符组合对各类别的重要度权重。
作为优选的实施方式,如图2所示,预先保存的所述字符组合对应各类别的权重的获取方法包括:
步骤S201,从历史样本库中获取特征词类别样本;特征词类别样本即为已经标注好类别的行业特征词。
获取预先积累的特征词类别样本,其中包括了大量的标注好类别的行业特征词。
步骤S202,采用n-gram策略对行业特征词进行切分,提取每个行业特征词的字符组合。
本步骤中所使用的n-gram挖掘策略,在申请号为:202010664165的专利中已经公开,在此不再赘述。在本实施中,取n=3,即最多提取由3个字符组合构建的子串。其中,对于出现了英文单词的特征词文本数据,对英文单词按空格切分,不破坏英文单词的完整性。
下面通过一个具体的案例进行说明。例如,对于美妆行业的品牌类别特征词“BALEA芭乐雅”,可切分为:“BALEA”、“芭”、“乐”、“雅”、“芭乐”、“乐雅”、“芭乐雅”;
对于健身训练行业的材质类别特征词“美利奴羊毛”,可切分为:“美”、“利”、“奴”、“羊”、“毛”、“美利”、“利奴”、“奴羊”、“羊毛”、“美利奴”、“利奴羊”、“奴羊毛”。
因为基于统计的分类策略,计算量相对不高,暂不需要专门对上述有明显切分错误的字符组合(例如“芭乐”、“奴羊”等)进行筛选过滤,而是通过后续的特征挖掘流程进行自动的权重筛选处理。
步骤S203,计算提取的行业特征词的字符组合对每个类别的重要度权重。进行计算时,参考了传统的卡方分布的特征统计方法,并进行了微调,以便体现出各个字符组合对类别重要度的“正”和“负”的相关性。具体的操作方法为:
采用以下公式计算字符组合对某类别的重要度权重
其中,N11为当前字符组合出现在当前类的多少个行业特征词中;N10为当前字符组合所出现在的行业特征词中有多少不在当前类别中;N01为当前类别中有多少行业特征词不含有当前的字符组合;N00为有多少行业特征词既不含当前的字符组合也不属于当前的类别。
经过这一步骤,可以初步计算得到步骤S202中切分出的各个字符组合对每个类别的重要度权重,通过正负号表示正或负的相关性。
下面通过一个具体的例子进行说明,例如,计算得到的部分字符组合对部分行业类别的相关度权重如下表所示:
上述表格中,权重的正负号代表对当前类别的正负相关性;绝对值越高,对该方向(类别相关或不相关)的判断作用越大。
进一步地,从上述表格中可以看出,计算得到的每个字符组合对各个类别的权重,存在较大的数量级差别;若直接用于特征词的分类,会导致较大的判断误差。
因此,作为本发明实施例的优选实施方式,所述字符组合对应各类别的权重的获取方法,还包括:
对计算得到的重要度权重的量级进行缩放处理,以改善基于字符组合的统计特征权重的分类效果。
作为优选的实施方式,该步骤的具体执行方式如图3所示,包括:
步骤S301,获取每个字符组合对各个类别的原始权重;即步骤S203的计算结果。
步骤S302,遍历当前字符组合对应各类别的权重,提取其中的最大权重(maxW)和最小权重(minW);
步骤S303,根据最大和最小权重,将当前字符组合对应各类别的权重,按比例压缩到[-1,1]之间。即原来是正向的权重被压缩到[0,1]之间;原来是负向的权重被压缩到[-1,0]之间。
这样的处理方式,既保留了字符组合的特征权重对各类别的正负相关性;又通过压缩到相同的数量级,保证各字符组合在构建完整特征词的时候,对各类别的判断重要度的横向可比性。
需要注意的是,在步骤S303中,还需要根据最大值和最小值的正负号,以及绝对值的相对大小,来决定哪一侧达到压缩后区间的绝对值的最大值。以此来保证压缩到统一数量级的前后,各字符组合对各类别的最相关和最不相关权重绝对值的大小一致性。
实际操作时,执行的程序如下:
rr=0.0#权重缩放系数
ifabs(minW)>abs(maxW):#最小权重的绝对值更大
rr=1.0/abs(minW)
elifabs(maxW)>abs(minW):#最大权重的绝对值更大
rr=1.0/abs(maxW)
其中的abs()函数是取绝对值的操作。
权重缩放计算为:newW=oldW*rr
其中的newW为压缩后的新权重,oldW是原始权重,压缩后的权重取值区间为[-1,1]。
经过上述步骤的处理后,各个字符组合对各个类别的重要度权重被统一缩放到[-1,1]之内,在后续的根据各字符组合判断原特征词的所属类别时,也就具有更好的横向可比性。
步骤S104,对各类别的重要度权进行累加,得到当前特征词对各个类别的判断权重。
步骤S105,根据所述判断权重对所述特征词进行分类。
作为优选的实施方式,步骤S105具体包括。
对所述判断权重进行降序排列;
取最大值或最大的几个值所对应的类别,作为该待分类的特征词的分类结果。
在进行降序排列时,如果最大值只有一个,则取该最大值,如果最大值有多个,则同时取最大的几个值所对应的类别。
作为优选的实施方式,本发明实施例提供的特征词分类方法还包括:
在经过人工验证和业务应用后,将正确的特征词分类结果加入到所述历史样本库中;
定期计算更新各字符组合对各类别的重要度权重。
将已经分类完成的,所得到的各个字符组合对各个类别的重要度权重保存至历史样本库,供后续对新的待分类的特征词进行分类判断处理。
下面通过一个具体的例子,对本发明实施例提供的特征词分类方法的执行结果进行展示:
从上述结果中可以看到,本方法通过对历史标注积累的特征词和所属类别的统计建模,可以学习到各字符组合对各类别的分类重要度,并用于对特征词的类别判断。
综上所述,本实施例提供的特征词分类方法,针对在实际业务场景中遇到的特征词分类的需求,通过分析特征词的组成结构和类别之间的统计关系,提出了基于统计分析的分类方法;并对部分计算逻辑进行针对性的优化,以适应行业特征词这种长度极短、字符差异敏感度又较高的分类应用场景。通过对历史标注积累的特征词和所属类别的统计建模,可以学习到各字符组合对各类别的分类重要度,并用于对特征词的类别判断。通过排查历史样本和统计权重数据,对分类结果也有更好的可解释性和可维护性等优势,方便对由于样本不足导致的分类错误进行人工逻辑干预等处理。
如图4所示,本发明实施提供的特征词分类装置,所述装置包括:
特征词获取单元110,用于获取待分类的特征词;
字符提取单元120,用于将所述特征词进行切分得到特征词字符组合;
权重获取单元130,用于根据预先保存的字符组合对应各类别的权重,获取所述特征词字符组合对各类别的重要度权重;
权重计算单元140,用于对各类别的重要度权进行累加,得到当前特征词对各个类别的判断权重;
特征词分类单元150,用于根据所述判断权重对所述特征词进行分类。
本发明实施例提供的特征词分类装置,用于实现上述特征词分类方法,因此具体实施方式与上述方法相同,在此不再赘述。
如图5所示,本发明实施例提供的一种电子设备300的结构框图。该电子设备300可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备300。本申请中的电子设备300可以包括一个或多个如下部件:处理器310、存储器320、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器320中并被配置为由一个或多个处理器310执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器310可以包括一个或者多个处理核。处理器310利用各种接口和线路连接整个电子设备300内的各个部分,通过运行或执行存储在存储器320内的指令、程序、代码集或指令集,以及调用存储在存储器320内的数据,执行电子设备300的各种功能和处理数据。可选地,处理器310可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器310可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器310中,单独通过一块通信芯片进行实现。
存储器320可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器320可用于存储指令、程序、代码、代码集或指令集。存储器320可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
如图6所示,本发明实施例提供的一种计算机可读存储介质400的结构框图。该计算机可读介质中存储有程序代码410,所述程序代码410可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码410可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。
综上所述,本发明提供了一种特征词分类方法、装置、电子设备及存储介质,针对在实际业务场景中遇到的特征词分类的需求,通过分析特征词的组成结构和类别之间的统计关系,提出了基于统计分析的分类方法;并对部分计算逻辑进行针对性的优化,以适应行业特征词这种长度极短、字符差异敏感度又较高的分类应用场景。通过对历史标注积累的特征词和所属类别的统计建模,可以学习到各字符组合对各类别的分类重要度,并用于对特征词的类别判断。通过排查历史样本和统计权重数据,对分类结果也有更好的可解释性和可维护性等优势,方便对由于样本不足导致的分类错误进行人工逻辑干预等处理。
在本申请所公开的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (5)
1.一种特征词分类方法,其特征在于,所述方法包括:
获取待分类的特征词;
将所述特征词进行切分得到特征词字符组合;
根据预先保存的字符组合对应各类别的权重,获取所述特征词字符组合对各类别的重要度权重;
对各类别的重要度权重进行累加,得到当前特征词对各个类别的判断权重;
根据所述判断权重对所述特征词进行分类;
所述字符组合对应各类别的权重的获取方法包括:
从历史样本库中获取特征词类别样本,即已经标注好类别的行业特征词;
采用n-gram策略对行业特征词进行切分,提取每个行业特征词的字符组合;
计算提取的行业特征词的字符组合对每个类别的重要度权重;
所述计算提取的行业特征词的字符组合对每个类别的重要度权重的步骤,具体包括:
采用以下公式计算字符组合对某类别的重要度权重
其中,/>为当前字符组合出现在当前类的多少个行业特征词中;/>为当前字符组合所出现在的行业特征词中有多少不在当前类别中;/>为当前类别中有多少行业特征词不含有当前的字符组合;为有多少行业特征词既不含当前的字符组合也不属于当前的类别;
对计算得到的重要度权重的量级进行缩放处理,具体为:
获取每个字符组合对各个类别的原始权重;
遍历当前字符组合对应各类别的权重,提取其中的最大权重和最小权重;
根据最大和最小权重,将当前字符组合对应各类别的权重,按比例压缩到[-1,1]之间;
所述根据所述判断权重对所述特征词进行分类的步骤,具体包括:
对所述判断权重进行降序排列;
取最大值或为最大值的几个值所对应的类别,作为该待分类的特征词的分类结果。
2.根据权利要求1中所述的特征词分类方法,其特征在于,所述特征词分类方法还包括:
在经过人工验证和业务应用后,将正确的特征词分类结果加入到所述历史样本库中;
定期计算更新各字符组合对各类别的重要度权重。
3.一种特征词分类装置,其特征在于,所述装置包括:
特征词获取单元,用于获取待分类的特征词;
字符提取单元,用于将所述特征词进行切分得到特征词字符组合;
权重获取单元,用于根据预先保存的字符组合对应各类别的权重,获取所述特征词字符组合对各类别的重要度权重;
权重计算单元,用于对各类别的重要度权重进行累加,得到当前特征词对各个类别的判断权重;
特征词分类单元,用于根据所述判断权重对所述特征词进行分类;
所述权重获取单元,具体用于:
从历史样本库中获取特征词类别样本,即已经标注好类别的行业特征词;
采用n-gram策略对行业特征词进行切分,提取每个行业特征词的字符组合;
计算提取的行业特征词的字符组合对每个类别的重要度权重;
所述权重计算单元,具体用于:
采用以下公式计算字符组合对某类别的重要度权重
其中,/>为当前字符组合出现在当前类的多少个行业特征词中;/>为当前字符组合所出现在的行业特征词中有多少不在当前类别中;/>为当前类别中有多少行业特征词不含有当前的字符组合;/>为有多少行业特征词既不含当前的字符组合也不属于当前的类别;
对计算得到的重要度权重的量级进行缩放处理,具体为:
获取每个字符组合对各个类别的原始权重;
遍历当前字符组合对应各类别的权重,提取其中的最大权重和最小权重;
根据最大和最小权重,将当前字符组合对应各类别的权重,按比例压缩到[-1,1]之间;
所述特征词分类单元,具体用于:
对所述判断权重进行降序排列;
取最大值或为最大值的几个值所对应的类别,作为该待分类的特征词的分类结果。
4.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-2任一项所述的方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-2任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211453523.2A CN115759072B (zh) | 2022-11-21 | 2022-11-21 | 一种特征词分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211453523.2A CN115759072B (zh) | 2022-11-21 | 2022-11-21 | 一种特征词分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115759072A CN115759072A (zh) | 2023-03-07 |
CN115759072B true CN115759072B (zh) | 2024-03-12 |
Family
ID=85333208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211453523.2A Active CN115759072B (zh) | 2022-11-21 | 2022-11-21 | 一种特征词分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115759072B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN108959237A (zh) * | 2017-05-23 | 2018-12-07 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置、介质及设备 |
CN108959293A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN112528022A (zh) * | 2020-12-09 | 2021-03-19 | 广州摩翼信息科技有限公司 | 主题类别对应的特征词提取和文本主题类别识别方法 |
CN113254655A (zh) * | 2021-07-05 | 2021-08-13 | 北京邮电大学 | 文本分类方法、电子设备及计算机存储介质 |
WO2022156822A1 (zh) * | 2021-01-25 | 2022-07-28 | 北京紫光展锐通信技术有限公司 | 一种分类模型训练方法及系统 |
CN114896398A (zh) * | 2022-05-05 | 2022-08-12 | 南京邮电大学 | 一种基于特征选择的文本分类系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329836A (zh) * | 2020-11-02 | 2021-02-05 | 成都网安科技发展有限公司 | 基于深度学习的文本分类方法、装置、服务器及存储介质 |
-
2022
- 2022-11-21 CN CN202211453523.2A patent/CN115759072B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN108959293A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN108959237A (zh) * | 2017-05-23 | 2018-12-07 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置、介质及设备 |
CN112528022A (zh) * | 2020-12-09 | 2021-03-19 | 广州摩翼信息科技有限公司 | 主题类别对应的特征词提取和文本主题类别识别方法 |
WO2022156822A1 (zh) * | 2021-01-25 | 2022-07-28 | 北京紫光展锐通信技术有限公司 | 一种分类模型训练方法及系统 |
CN113254655A (zh) * | 2021-07-05 | 2021-08-13 | 北京邮电大学 | 文本分类方法、电子设备及计算机存储介质 |
CN114896398A (zh) * | 2022-05-05 | 2022-08-12 | 南京邮电大学 | 一种基于特征选择的文本分类系统及方法 |
Non-Patent Citations (2)
Title |
---|
Improved Feature Weight Algorithm and Its Application to Text Classification;Songtao Shang et.al;《Mathematical Problems in Engineering》;20161231;第1-12页 * |
基于特征词权重的文本分类;杨莉 等;计算机与现代化;20121015(第10期);第8-13页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115759072A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN106599940B (zh) | 图片文字的识别方法及装置 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
US11037356B2 (en) | System and method for executing non-graphical algorithms on a GPU (graphics processing unit) | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112861844A (zh) | 业务数据的处理方法、装置和服务器 | |
CN108733644A (zh) | 一种文本情感分析方法、计算机可读存储介质及终端设备 | |
CN113688232B (zh) | 招标文本分类方法、装置、存储介质及终端 | |
CN111695337A (zh) | 智能面试中专业术语的提取方法、装置、设备及介质 | |
CN112631436A (zh) | 输入法敏感词的过滤方法及装置 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 | |
CN115759072B (zh) | 一种特征词分类方法、装置、电子设备及存储介质 | |
CN112417101A (zh) | 一种关键词提取的方法及相关装置 | |
CN111368553A (zh) | 智能词云图数据处理方法、装置、设备及存储介质 | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及系统 | |
CN115034317A (zh) | 保单识别模型的训练方法和装置、保单识别方法和装置 | |
CN113449509A (zh) | 文本分析方法、装置及计算机设备 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN113361260A (zh) | 一种文本处理方法、装置、设备以及存储介质 | |
CN112069821A (zh) | 一种命名实体的提取方法、装置、电子设备及存储介质 | |
CN111611394A (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
CN115905950A (zh) | 一种特征词分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |