CN112445910B - 一种信息分类方法及系统 - Google Patents

一种信息分类方法及系统 Download PDF

Info

Publication number
CN112445910B
CN112445910B CN201910822016.3A CN201910822016A CN112445910B CN 112445910 B CN112445910 B CN 112445910B CN 201910822016 A CN201910822016 A CN 201910822016A CN 112445910 B CN112445910 B CN 112445910B
Authority
CN
China
Prior art keywords
classification
category
information
participle
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910822016.3A
Other languages
English (en)
Other versions
CN112445910A (zh
Inventor
吴超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN201910822016.3A priority Critical patent/CN112445910B/zh
Publication of CN112445910A publication Critical patent/CN112445910A/zh
Application granted granted Critical
Publication of CN112445910B publication Critical patent/CN112445910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息分类方法及系统。本申请中,对分类库中各分类类别进行分词,根据各分类类别的分词得到类别分词词典,确定类别分类词典中各分词的IDF;根据类别分词词典中各分词相对于该分类类别的分词集合的TF,以及类别分词词典中各分词的IDF,确定该分类类别的TF‑IDF向量;当接收到对待分类信息的分类请求时,将待分类信息进行分词,根据类别分词词典中各分词相对于待分类信息的分词集合的TF,以及类别分词词典中各分词的IDF,确定待分类信息的TF‑IDF向量,并根据待分类信息的TF‑IDF向量以及各分类类别的TF‑IDF向量,确定待分类信息所匹配的分类类别。

Description

一种信息分类方法及系统
技术领域
本申请涉及数据处理技术,尤其涉及一种信息分类方法及系统。
背景技术
在广告投放过程中,广告投放系统提供了“商业兴趣”标签给用户使用,从而达到精准触及营销客户的目的。“商业兴趣”是一套行业内通用的分类体系,用户可以很方便地从中选择适合自己行业和投放目的的类别标签对需要发布的广告进行类别标注,从而达到提高广告点击率和转化效果的目的。
目前,为待投放广告标注商业兴趣,是通过人工方式进行的,其过程为:对于待投放的广告,通过人工方式从广告投放系统提供的商业兴趣标签数据库中选择对应的商业兴趣标签,并为该待投放的广告打上对应的商业兴趣标签。
采用人工进行商业兴趣标签的标注,依赖操作人员的相关知识,无法保证标注的准确性。对于其他需要进行信息分类和标注的场景,也存在上述类似问题。
发明内容
本申请实施例提供一种信息分类方法及系统。
第一方面,提供一种信息分类方法,包括:对分类库中各分类类别进行分词,根据各分类类别的分词得到类别分词词典,确定所述类别分类词典中各分词的IDF;以及,针对各分类类别,根据所述类别分词词典中各分词相对于该分类类别的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定该分类类别的TF-IDF向量;
当接收到对待分类信息的分类请求时,响应于所述请求,将所述待分类信息进行分词,根据所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定所述待分类信息的TF-IDF向量,并根据所述待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定所述待分类信息所匹配的分类类别。
可选地,所述根据所述待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定所述待分类信息所匹配的分类类别,包括:根据所述待分类信息对应的TF-IDF向量以及各分类类别对应的TF-IDF向量,确定所述待分类信息与各分类类别之间的相似度;根据所述待分类信息与各分类类别之间的相似度,确定所述待分类信息所匹配的分类类别。
可选地,根据以下公式,确定所述待分类信息与各分类类别之间的相似度:
cos-SIM(A,B)=cosθ×0.5+0.5
Figure BDA0002187821470000021
其中,cos-SIM(A,B)表示待分类信息的TF-IDF向量与分类类别i之间的相似度,A表示待分类信息的TF-IDF向量,Ai表示该TF-IDF向量中的元素;B表示分类类别i的TF-IDF向量,Bi表示该向量中的元素(即TF-IDF值)。
可选地,所述根据各分类类别的分词集合得到类别分词词典,包括:将各分类类别的分词进行去重,去重后的各分类类别的分词构成所述类别分词词典。
可选地,所述类别分词词典中各分词相对于该分类类别的分词集合的词频TF,为所述类别分词词典中各分词在相应分类类别的分词集合中出现的次数;所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,为所述类别分词词典中各分词在所述待分类信息的分词集合中出现的次数。
第二方面,提供一种信息分类系统,包括:预处理模块、分类请求响应模块,所述分类请求响应模块包括分词子模块、向量化子模块、分类子模块;
预处理模块,用于对分类库中各分类类别进行分词,根据各分类类别的分词得到类别分词词典,确定所述类别分类词典中各分词的逆文档频率IDF;以及,针对各分类类别,根据所述类别分词词典中各分词相对于该分类类别的分词集合的词频TF,以及所述类别分词词典中各分词的IDF,确定该分类类别的TF-IDF向量;
所述分词子模块,用于接收到对待分类信息的分类请求时,响应于所述请求,将所述待分类信息进行分词;
所述向量化子模块,用于据所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定所述待分类信息的TF-IDF向量;
所述分类子模块,用于根据所述待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定所述待分类信息所匹配的分类类别。
可选地,所述分类子模块,具体用于:根据所述待分类信息对应的TF-IDF向量以及各分类类别对应的TF-IDF向量,确定所述待分类信息与各分类类别之间的相似度;根据所述待分类信息与各分类类别之间的相似度,确定所述待分类信息所匹配的分类类别。
可选地,所述分类子模块,具体用于:根据以下公式,确定所述待分类信息与各分类类别之间的相似度:
cos-SIM(A,B)=cosθ×0.5+0.5
Figure BDA0002187821470000031
其中,cos-SIM(A,B)表示待分类信息的TF-IDF向量与分类类别i之间的相似度,A表示待分类信息的TF-IDF向量,Ai表示该TF-IDF向量中的元素;B表示分类类别i的TF-IDF向量,Bi表示该向量中的元素。
可选地,所述预处理模块,具体用于:将各分类类别的分词进行去重,去重后的各分类类别的分词构成所述类别分词词典。
可选地,所述类别分词词典中各分词相对于该分类类别的分词集合的词频TF,为所述类别分词词典中各分词在相应分类类别的分词集合中出现的次数;所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,为所述类别分词词典中各分词在所述待分类信息的分词集合中出现的次数。
第三方面,提供一种数据处理装置,包括:处理器、存储器;所述处理器,用于读取所述存储器中的计算机指令,执行如上述第一方面中任一项所述的方法。
第四方面,提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如上述第一方面中任一项所述的方法。
本申请的上述实施例中,信息分类过程可包括预处理过程和对分类请求进行实时响应的过程。其中,在预处理过程中,对分类库中各分类类别进行分词,根据各分类类别的分词得到类别分词词典,确定所述类别分类词典中各分词的IDF;以及,针对各分类类别,根据所述类别分词词典中各分词相对于该分类类别的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定该分类类别的TF-IDF向量。在实时响应过程中,当接收到对待分类信息的分类请求时,响应于所述请求,将所述待分类信息进行分词,根据所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定所述待分类信息的TF-IDF向量,并根据所述待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定所述待分类信息所匹配的分类类别。可以看出,采用本申请实施例,实现了自动进行信息分类的目的,与采用手工方式进行信息分类相比,可以提高分类准确性。
附图说明
图1示例性示出了本申请实施例中的应用场景示意图;
图2示例性示出了本申请实施例中的分类类别架构图;
图3示例性示出了本申请实施例中的信息分类流程示意图;
图4示例性示出了本申请实施例中的信息分类系统的架构示意图;
图5示例性示出了本申请实施例中的数据处理装置的结构示意图。
具体实施方式
下面首先结合附图对本申请所涉及的概念进行说明。在此需要指出的是,以下对各个概念的说明,仅为了使本申请的内容更加容易理解,并不表示对本申请保护范围的限定。
应当理解,本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件和/或软件代码的组合,能够执行与该元件相关的功能。
目前,对于待分类的信息进行分类标注(比如对于待投放广告进行商业兴趣标注),是通过人工方式进行的,导致分类和标注的准确性无法保证。
针对以上问题,本申请实施例提供了一种信息分类方法,该方法对于待分类的信息实现了自动化分类标注,与通过人工方式进行分类标注相比,可以提高分类标注的准确性。
本申请实施例可应用于任何对信息进行分类的场景,比如可应用于对待投放的广告进行类别标注的场景。
下面结合附图对本申请实施例进行详细描述。
图1示例性示出了本申请实施例适用的一种应用场景示意图。
如图所示,用户101使用数据处理设备102对信息进行分类。数据处理设备102可以是计算机、服务器等能够实现用户交互以及信息处理的电子设备。
其中,数据处理设备102中安装有数据处理系统,该数据处理系统可以是单机应用,也可以是基于客户/服务器或类似架构的联网应用。该数据处理系统可提供用于选择待分类的信息以及提交分类请求或类别标注请求的用户界面103,还可以提供用于输出处理结果的用户界面104。
用户101通过用户界面103,选择需要分类的信息,并提交分类请求或类别标注请求,数据处理系统响应该分类请求或类别标注请求,进行分类处理并对该信息进行类别标注,分类和标注结果可以显示在用户界面104中。
以上仅出于方便理解的考虑,示例性地示出了一种信息分类应用场景,上述场景不构成对本申请保护范围的限制。
本申请实施例中,数据处理系统可根据分类库,对待分类信息进行分类。分类库用于描述分类类别的架构。
可选地,本申请实施例中,分类库所描述的分类类别至少包括第一级分类类别,所述第一级分类类别下包括至少一个第二级分类类别,所述第二级分类类别下至少包括一个分类标签,其中一个分类标签对应第二级分类类别下的一个下级类别。通过多级分类类别的架构,可以对类别进行细分,减小类别划分的颗粒度,使得分类结果更加合理。
以广告投放应用场景为例,图2示例性示出了本申请实施例中的分类类别架构。如图所示,一个第一级分类类别下可包括多个第二级分类类别,一个第二级分类类别下包括一个分类标签集合,该分类标签集合中包括一个或多个分类标签。
以广告投放应用场景为例,表1示出了一种分类库的内容。
表1
Figure BDA0002187821470000051
表1中,“一级商业兴趣”对应于第一级分类类别,“二级商业兴趣”对应于第二级分类类别,“基础标签”对应于分类标签集合。比如,第一级分类类别“科技数码”下包括一个第二级分类类别“电脑及周边”,“电脑及周边”下包括一个分类标签集合,该分类标签集合中包括多个分类标签,如“一体机”、“DIY一体机”、“平板电脑/MID”等。
可选地,该分类库可以是数据处理系统自有的分类库,也可以是在自有的分类库的基础上进一步结合其他数据处理系统的分类库的分类类别结构。从而获得更为丰富和完整的分类结构,进而使得基于该分类库进行分类标注可以提高精度,并可以使得分类结果更加合理。
可选地,该分类库可以是在分词的基础上进行语义扩展(比如近义词或同义词扩展)得到的。通过语义扩展,可以扩充分类库中的类别,进而可以提高分类的合理性。
本申请实施例中,采用TF-IDF(term frequency–inverse document frequency)算法并结合相似度算法进行信息分类。采用TF-IDF算法则需要对相关信息进行向量化处理。
向量化处理过程中,可针对一个分词集合执行以下操作:将该集合中的每个分词转换为词向量(Word embedding)值。词向量又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称。对于一个分词集合来说,其中的每个分词转换为与其对应的词向量值后,该分词集合就被转换为由词向量值构成的词向量。该分词集合中的每一个分词均被映射替换为词向量中的一个元素,且元素的排列次序与该分词集合中各个词语的排列次序一致。
图3示例性示出了本申请实施例中的一种信息分类流程的示意图。该流程可由信息分类系统实现。
如图所示,本申请实施例中,可包括预处理过程,以及在接收到对待分类信息进行分类时响应该请求的过程。在预处理过程中,可对分类库中的分类类别进行向量化处理,得到每个分类类别对应的TF-IDF(term frequency–inverse document frequency)向量。在对分类请求的响应过程中,当接收到对待分类信息进行分类的请求时,作为响应,对该待分类信息进行向量化处理,得到该待分类信息对应的TF-IDF向量,再根据该待分类信息对应的TF-IDF向量以及各分类类别对应的TF-IDF向量,采用相似度计算方法计算该待分类信息域各分类类别之间的相似度,从而根据相似度确定出该待分类信息所匹配的分类类别。
如图3所示,预处理的过程可包括如下步骤:
301:提取分类库中的各分类类别信息。
该步骤中,如果分类库中的类别信息为多级类别信息,比如表1所述的分类类别,则获取每一级分类类别,比如,获取如下分类类别:“科技数码,电脑及周边,一体机”,“科技数码,电脑及周边,有线鼠标显示器键盘”。
302:对分类库中各分类类别信息进行分词,得到各分类类别信息各自的分词集合,并根据各分类类别信息各自的分词集合,确定类别分词词典。
其中,分词处理指的是将一个汉字序列切分为一个或多个独立的词语,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词处理能够采用基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法。
可选地,可使用开源的分词工具进行分词处理,比如可使用Jieba分词工具进行分词处理。Jieba是一种可对中文进行分词处理的工具,具有较高的分词精度和处理效率。通过选择不同的分词模式,可以对分词粒度大小进行控制。
其中,类别分词词典是通过对各分类类别信息各自对应的分词集合进行去重后得到的,其中每个分词为一个维度。
303:确定类别分词词典中各分词的逆文档频率(inverse document frequency,IDF)。
在统计学语言表达范畴,在词频的基础上,可对每个词分配一个"重要性"权重,这个权重可称为逆文档频率(IDF),它的大小与一个词的常见程度成反比。
一个分词的IDF的计算公式可如下所示:
Figure BDA0002187821470000071
其中,在本申请实施例中,语料库即为类别库,语料库的文档即分类库中的分类类别。
计算得到类别分词词典中各分词的IDF后,这些分词的IDF值可构成类别分词词典的IDF向量,其中包括该词典中每个分词的IDF值。类别分词词典的IDF向量可以用于对各分类类别的向量化处理,以及对待分类信息的向量化处理。
304:针对各分类类别,根据类别分词词典中各分词相对于该分类类别的分词集合的词频TF,以及所述类别分词词典中各分词的IDF,确定该分类类别的TF-IDF向量。
其中,一个分词的词频(term Frequency,TF)表示该词在文档中出现的次数,即,类别分词词典中各分词相对于该分类类别的分词集合的词频TF,为所述类别分词词典中各分词在相应分类类别的分词集合中出现的次数。
一个分词在文档中的词频可按照以下公式计算:
Figure BDA0002187821470000072
其中,在本申请实施例中,文档即分类库中的分类类别。
一个分词的TF-IDF与该分词在文档中的出现次数成正比,与该分词在整个语言中的出现次数成反比。一个分词的TF-IDF的计算公式可如下所示:
分词i的TF-IDF=分词i的TF×分词i的IDF………………(3)
采用上述流程计算得到的各分类类别对应的TF-IDF向量,可以用于计算与待分类信息的向量的相似度,以便对待分类信息进行分类。
通过上述流程计算得到的类别分词词典的IDF向量以及分类类别对应的TF-IDF向量,可被存储,以便后续当接收到对待分类信息的分类请求时,根据所存储的类别分词词典的IDF向量以及分类类别对应的TF-IDF向量响应该分类请求。
进一步地,当分类库中的类别信息有更新时,可按照上述流程,针对更新后的分类库,计算得到类别分词词典的IDF向量以及分类类别对应的TF-IDF向量并进行存储。
如图3所示,响应分类请求的过程可包括如下步骤:
305:接收对待分类信息的分类请求,获取所请求分类的待分类信息。
该步骤中,该分类请求用于请求对待分类信息进行分类。
本申请实施例中,待分类信息可以来源于不同渠道,本申请实施例可对多种来源的分类信息进行分类处理。以广告投放应用场景为例,待分类的广告的来源包括直客广告、代理商广告、adx(ad exchange)广告等。直客广告是指广告主直接在数据处理系统投放广告,代理商广告是指广告主委托代理商在数据处理系统代理投放广告,adx广告是指来源于外部系统或平台的广播,比如来源于互联网广告交易平台的广告。
待分类的信息中通常包括信息标识和该信息标识所对应的内容部分,该步骤中,可对信息内容部分进行处理,以得到用于进行分类处理的待分类信息。以广告投放应用场景为例,待投放的广告通常包括标识、广告标题、广告描述,有些情况下(比如对于来源于其他系统的广告)还可能包括外部分类类别,这种情况下,本申请实施例中,可提取广告标题、广告描述信息以及外部分类类别,拼接为一个字符串或文本,作为待分类信息。
306:将待分类信息进行分词,得到该待分类信息的分词集合。
可选地,可使用开源的分词工具进行分词处理,比如可使用Jieba分词工具进行分词处理。Jieba是一种可对中文进行分词处理的工具,具有较高的分词精度和处理效率。通过选择不同的分词模式,可以对分词粒度大小进行控制。
针对待分类信息所采用的分词方法,与针对分类库所采用的分词方法,可以相同也可以不同。
307:根据类别分词词典中各分词相对于待分类信息的分词集合的TF,以及类别分词词典中各分词的IDF,确定待分类信息的TF-IDF向量。
其中,类别分词词典中各分词相对于所述待分类信息的分词集合的TF,为类别分词词典中各分词在该待分类信息的分词集合中出现的次数。
该步骤中,可根据上述公式(3),计算待分类信息的TF-IDF向量。
308:根据待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定待分类信息所匹配的分类类别。
该步骤中,可选地,可采用余弦相似度方法,根据待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,计算待分类信息与各分类类别之前各自的相似度,并根据相似度确定待分类信息所匹配的分类类别。
其中,余弦相似度计算公式如下所示:
cos-SIM(A,B)=cosθ×0.5+0.5………………………………(4)
Figure BDA0002187821470000091
以计算待分类信息的TF-IDF向量与分类类别i之间的相似度为例,上述公式(4)和公式(5)中,cos-SIM(A,B)表示待分类信息的TF-IDF向量与分类类别i之间的相似度,A表示待分类信息的TF-IDF向量,Ai表示该TF-IDF向量中的元素(即TF-IDF值);B表示分类类别i的TF-IDF向量,Bi表示该向量中的元素(即TF-IDF值)。
上述305~308可重复执行,即每当接收到分类请求时,均可按照上述流程实时响应该分类请求。
本申请的上述实施例中,信息分类过程可包括预处理过程和对分类请求进行实时响应的过程。其中,在预处理过程中,对分类库中各分类类别进行分词,根据各分类类别的分词得到类别分词词典,确定所述类别分类词典中各分词的IDF;以及,针对各分类类别,根据所述类别分词词典中各分词相对于该分类类别的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定该分类类别的TF-IDF向量。在实时响应过程中,当接收到对待分类信息的分类请求时,响应于所述请求,将所述待分类信息进行分词,根据所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定所述待分类信息的TF-IDF向量,并根据所述待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定所述待分类信息所匹配的分类类别。可以看出,采用本申请实施例,实现了自动进行信息分类的目的,与采用手工方式进行信息分类相比,可以提高分类准确性。
更具体地,由于可预先对分类类别进行向量化处理,因此在响应分类请求进行分类时,利用预先向量化处理后的分类类别进行分类处理,可以提高分类的效率。
为了更清楚地理解本申请的上述实施例,下面结合一具体示例对本申请实施例进行详细说明。
根据图3所示的流程,在预处理过程中,执行301~302可以得到分类库中3个分类类别的分词集合(本示例中以3个分类类别为例描述):
分类类别1的分词集合={w1,w2,w2,w3,w4,w4,w5};
分类类别2的分词集合={w2,w5,w5,w6};
分类类别3的分词集合={w1,w1,w2,w4,w5,w7}。
对这3个分类类别的分词集合进行去重后,得到类别分词词典的分词集合:
类别分词词典的分词集合={w1,w2,w3,w4,w5,w6,w7}。
其中,w1表示分词1,w2表示分词2,以此类推。
在303中,根据上述公式(1),计算得到类别分类词典中各分词的IDF值:
IDF(w1)=log(3/2)=0.176;
IDF(w2)=log(3/3)=0;
IDF(w3)=log(3/1)=0.477;
IDF(w4)=log(3/2)=0.176;
IDF(w5)=log(3/3)=0;
IDF(w6)=log(3/1)=0.477;
IDF(w7)=log(3/1)=0.477;
类别分类词典的IDF向量可表示为:
IDF(w1,w2,w3,w4,w5,w6,w7)=[0.176,0,0.477,0.176,0,0.477,0.477]
在304中,针对各分类类别,根据类别分词词典中各分词相对于该分类类别的分词集合的词频TF,以及类别分词词典中各分词的IDF,确定该分类类别的TF-IDF向量。其中,分类类别1的分词集合的词频TF表示为TF(类别1),分类类别1的TF-IDF向量表示为TF-IDF(类别1);分类类别2的分词集合的词频TF表示为TF(类别2),分类类别2的TF-IDF向量表示为TF-IDF(类别2);分类类别3的分词集合的词频TF表示为TF(类别3),分类类别3的TF-IDF向量表示为TF-IDF(类别3),则:
对于分类类别1:
TF(类别1)=[1,2,1,2,1,0,0]
TF-IDF(类别1)=[1*0.176,2*0,1*0.477,2*0.176,1*0,0*0.477,0*0.477]=[0.176,0,0.477,0.352,0,0,0]
对于分类类别2:
TF(类别2)=[0,1,0,0,2,1,0]
TF-IDF(类别2)=[0*0.176,1*0,0*0.477,0*0.176,2*0,1*0.477,0*0.477]=[0,0,0,0,0,0.477,0.477]
对于分类类别3:
TF(类别3)=[2,1,0,1,1,0,1]
TF-IDF(类别3)=[2*0.176,1*0,0*0.477,1*0.176,1*0,0*0.477,1*0.477}=[0.352,0,0,0.176,0,0,0.477]
当接收到对待分类信息进行分类的分类请求后,对该分类请求的响应过程可包括:
在306中,将待分类信息进行分词,得到该待分类信息的分词集合:
待分类信息的分词集合={w4,w4,w5,w5,w7,w7}
在307中,计算类别分词词典中各分词相对于待分类信息的分词集合的TF向量:
TF(待分类信息)=[0,0,0,2,2,0,2]
根据该TF向量以及类别分词词典中各分词的IDF,计算待分类信息的TF-IDF向量:
TF-IDF(待分类信息)=[0*0.176,0*0,0*0.477,2*0.176,2*0,0*0.477,2*0.477]=[0,0,0,0.352,0,0,0.954];
在308中,根据待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,计算待分类信息与各分类类别之间各自的相似度:
cos-sim(待分类信息的TF-IDF向量,分类类别1的TF-IDF向量)=0.20
cos-sim(待分类信息的TF-IDF向量,分类类别2的TF-IDF向量)=0.66
cos-sim(待分类信息的TF-IDF向量,分类类别3的TF-IDF向量)=0.82
由于待分类信息的TF-IDF向量与分类类别3的TF-IDF向量之间的相似度最大,则确定待分类信息的分类类别为分类类别3。
基于相同的技术构思,本申请实施例还提供了一种信息分类系统。
图4示例性示出了本申请实施例提供的信息分类系统的结构示意图,如图所示,该系统可包括:预处理模块41、分类请求响应模块42,分类请求响应模块42包括分词子模块421、向量化子模块422、分类子模块423。
预处理模块41,用于对分类库中各分类类别进行分词,根据各分类类别的分词得到类别分词词典,确定所述类别分类词典中各分词的IDF;以及,针对各分类类别,根据所述类别分词词典中各分词相对于该分类类别的分词集合的词频TF,以及所述类别分词词典中各分词的IDF,确定该分类类别的TF-IDF向量;
分词子模块421,用于接收到对待分类信息的分类请求时,响应于所述请求,将所述待分类信息进行分词;
向量化子模块422,用于据所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定所述待分类信息的TF-IDF向量;
分类子模块423,用于根据所述待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定所述待分类信息所匹配的分类类别。
可选地,分类子模块423可根据所述待分类信息对应的TF-IDF向量以及各分类类别对应的TF-IDF向量,确定所述待分类信息与各分类类别之间的相似度;根据所述待分类信息与各分类类别之间的相似度,确定所述待分类信息所匹配的分类类别。
可选地,分类子模块423可根据以下公式,确定所述待分类信息与各分类类别之间的相似度:
cos-SIM(A,B)=cosθ×0.5+0.5
Figure BDA0002187821470000121
其中,cos-SIM(A,B)表示待分类信息的TF-IDF向量与分类类别i之间的相似度,A表示待分类信息的TF-IDF向量,Ai表示该TF-IDF向量中的元素;B表示分类类别i的TF-IDF向量,Bi表示该向量中的元素。
可选地,预处理模块41可具体用于:将各分类类别的分词进行去重,去重后的各分类类别的分词构成所述类别分词词典。
可选地,所述类别分词词典中各分词相对于该分类类别的分词集合的词频TF,为所述类别分词词典中各分词在相应分类类别的分词集合中出现的次数;所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,为所述类别分词词典中各分词在所述待分类信息的分词集合中出现的次数。
基于相同的技术构思,本申请实施例还提供一种数据处理装置,该装置可实现前述实施中执行的流程。
图5示例性示出了本申请实施例中的数据处理装置500的结构示意图。参阅图5所示,该装置500包括处理器501、存储器502以及通信接口503。其中,处理器501也可以为控制器。所述处理器501被配置为支持该装置执行前述流程涉及的功能。存储器502用于与处理器501耦合,其保存终端必要的程序指令和数据。其中,处理器501、和存储器502相连,该存储器502用于存储指令,该处理器501用于执行该存储器502存储的指令,以完成上述方法中信息分类系统执行相应功能的步骤。
本申请实施例中,装置500和所涉及的与本申请实施例提供的技术方案相关的概念,解释和详细说明及其它步骤请参见前述方法或其它实施例中关于这些内容的描述,此处不做赘述。
需要说明的是,本申请实施例上述涉及的处理器可以是中央处理器(centralprocessing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。其中,所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行本申请中数据处理系统执行的流程。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种信息分类方法,其特征在于,包括:
对分类库中各分类类别进行分词,根据各分类类别的分词得到类别分词词典,确定所述类别分类词典中各分词的逆文档频率IDF;
针对各分类类别,根据所述类别分词词典中各分词相对于该分类类别的分词集合的词频TF,以及所述类别分词词典中各分词的IDF,确定该分类类别的TF-IDF向量;
当接收到对待分类信息的分类请求时,响应于所述请求,将所述待分类信息进行分词,根据所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定所述待分类信息的TF-IDF向量,并根据所述待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定所述待分类信息所匹配的分类类别。
2.如权利要求1所述的方法,其特征在于,所述根据所述待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定所述待分类信息所匹配的分类类别,包括:
根据所述待分类信息对应的TF-IDF向量以及各分类类别对应的TF-IDF向量,确定所述待分类信息与各分类类别之间的相似度;
根据所述待分类信息与各分类类别之间的相似度,确定所述待分类信息所匹配的分类类别。
3.如权利要求2所述的方法,其特征在于,根据以下公式,确定所述待分类信息与各分类类别之间的相似度:
cos-SIM(A,B)=cosθ×0.5+0.5
Figure FDA0002187821460000011
其中,cos-SIM(A,B)表示待分类信息的TF-IDF向量与分类类别i之间的相似度,A表示待分类信息的TF-IDF向量,Ai表示该TF-IDF向量中的元素;B表示分类类别i的TF-IDF向量,Bi表示该向量中的元素。
4.如权利要求1所述的方法,其特征在于,所述根据各分类类别的分词集合得到类别分词词典,包括:
将各分类类别的分词进行去重,去重后的各分类类别的分词构成所述类别分词词典。
5.如权利要求1所述的方法,其特征在于,所述类别分词词典中各分词相对于该分类类别的分词集合的词频TF,为所述类别分词词典中各分词在相应分类类别的分词集合中出现的次数;
所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,为所述类别分词词典中各分词在所述待分类信息的分词集合中出现的次数。
6.一种信息分类系统,其特征在于,包括:预处理模块、分类请求响应模块,所述分类请求响应模块包括分词子模块、向量化子模块、分类子模块;
预处理模块,用于对分类库中各分类类别进行分词,根据各分类类别的分词得到类别分词词典,确定所述类别分类词典中各分词的逆文档频率IDF;以及,针对各分类类别,根据所述类别分词词典中各分词相对于该分类类别的分词集合的词频TF,以及所述类别分词词典中各分词的IDF,确定该分类类别的TF-IDF向量;
所述分词子模块,用于接收到对待分类信息的分类请求时,响应于所述请求,将所述待分类信息进行分词;
所述向量化子模块,用于据所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,以及所述类别分词词典中各分词的IDF,确定所述待分类信息的TF-IDF向量;
所述分类子模块,用于根据所述待分类信息的TF-IDF向量以及各分类类别的TF-IDF向量,确定所述待分类信息所匹配的分类类别。
7.如权利要求6所述的系统,其特征在于,所述分类子模块,具体用于:
根据所述待分类信息对应的TF-IDF向量以及各分类类别对应的TF-IDF向量,确定所述待分类信息与各分类类别之间的相似度;
根据所述待分类信息与各分类类别之间的相似度,确定所述待分类信息所匹配的分类类别。
8.如权利要求7所述的系统,其特征在于,所述分类子模块,具体用于:
根据以下公式,确定所述待分类信息与各分类类别之间的相似度:
cos-SIM(A,B)=cosθ×0.5+0.5
Figure FDA0002187821460000021
其中,cos-SIM(A,B)表示待分类信息的TF-IDF向量与分类类别i之间的相似度,A表示待分类信息的TF-IDF向量,Ai表示该TF-IDF向量中的元素;B表示分类类别i的TF-IDF向量,Bi表示该向量中的元素。
9.如权利要求6所述的系统,其特征在于,所述预处理模块,具体用于:
将各分类类别的分词进行去重,去重后的各分类类别的分词构成所述类别分词词典。
10.如权利要求6所述的系统,其特征在于,所述类别分词词典中各分词相对于该分类类别的分词集合的词频TF,为所述类别分词词典中各分词在相应分类类别的分词集合中出现的次数;
所述类别分词词典中各分词相对于所述待分类信息的分词集合的TF,为所述类别分词词典中各分词在所述待分类信息的分词集合中出现的次数。
CN201910822016.3A 2019-09-02 2019-09-02 一种信息分类方法及系统 Active CN112445910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910822016.3A CN112445910B (zh) 2019-09-02 2019-09-02 一种信息分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910822016.3A CN112445910B (zh) 2019-09-02 2019-09-02 一种信息分类方法及系统

Publications (2)

Publication Number Publication Date
CN112445910A CN112445910A (zh) 2021-03-05
CN112445910B true CN112445910B (zh) 2022-12-27

Family

ID=74734660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910822016.3A Active CN112445910B (zh) 2019-09-02 2019-09-02 一种信息分类方法及系统

Country Status (1)

Country Link
CN (1) CN112445910B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955791A (zh) * 2011-08-23 2013-03-06 句容今太科技园有限公司 网络信息搜索与分类服务系统
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097570A (zh) * 2006-06-29 2008-01-02 上海唯客网广告传播有限公司 一种自动识别分类广告类型的广告分类方法
CN104142947A (zh) * 2013-05-09 2014-11-12 鸿富锦精密工业(深圳)有限公司 文件分类系统及方法
CN107016556B (zh) * 2016-01-27 2021-02-05 创新先进技术有限公司 数据处理方法及装置
CN106095996B (zh) * 2016-06-22 2020-02-21 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN108595418A (zh) * 2018-04-03 2018-09-28 上海透云物联网科技有限公司 一种商品分类方法及系统
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN109101479B (zh) * 2018-06-07 2023-12-05 苏宁易购集团股份有限公司 一种用于中文语句的聚类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955791A (zh) * 2011-08-23 2013-03-06 句容今太科技园有限公司 网络信息搜索与分类服务系统
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备

Also Published As

Publication number Publication date
CN112445910A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
US11093698B2 (en) Method and apparatus and computer device for automatic semantic annotation for an image
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN107832287A (zh) 一种标签识别方法及装置、存储介质、终端
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN109241297B (zh) 一种内容分类聚合方法、电子设备、存储介质及引擎
CN112380859A (zh) 舆情信息的推荐方法、装置、电子设备及计算机存储介质
CN112990973B (zh) 线上店铺画像构建方法及系统
CN111191012A (zh) 知识图谱产生装置、方法及其计算机程序产品
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN110210038A (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN108984777B (zh) 客户服务方法、装置和计算机可读存储介质
CN108875014B (zh) 基于大数据与人工智能的精准项目推荐方法和机器人系统
CN112445910B (zh) 一种信息分类方法及系统
CN116719997A (zh) 政策信息推送方法、装置及电子设备
CN115525761A (zh) 一种文章关键词筛选类别的方法、装置、设备及存储介质
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN113888265A (zh) 产品推荐方法、装置、设备及计算机可读存储介质
CN109255122B (zh) 一种对论文引用关系分类标记的方法
JP6642429B2 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN114708073A (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
Triki et al. Deep learning based approach for digitized herbarium specimen segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant