CN103984685A - 一种用于对待分类词条进行分类的方法、装置与设备 - Google Patents

一种用于对待分类词条进行分类的方法、装置与设备 Download PDF

Info

Publication number
CN103984685A
CN103984685A CN201310049244.4A CN201310049244A CN103984685A CN 103984685 A CN103984685 A CN 103984685A CN 201310049244 A CN201310049244 A CN 201310049244A CN 103984685 A CN103984685 A CN 103984685A
Authority
CN
China
Prior art keywords
entry
webpage
classified
sorted
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310049244.4A
Other languages
English (en)
Inventor
何明哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu International Technology Shenzhen Co Ltd
Original Assignee
Baidu International Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu International Technology Shenzhen Co Ltd filed Critical Baidu International Technology Shenzhen Co Ltd
Priority to CN201310049244.4A priority Critical patent/CN103984685A/zh
Publication of CN103984685A publication Critical patent/CN103984685A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于对待分类词条进行分类的方法、装置与设备。其中,本发明将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息;接着将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页;随后根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息。本方案实现了自动化地对待分类词条进行分类操作,从而降低人工分类成本,在保证分类质量的前提下极大地提升了分类效率,进而为扩充输入法词库中词条扩充与完善提供了保证。

Description

一种用于对待分类词条进行分类的方法、装置与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于对待分类词条进行分类的方法、装置与设备。
背景技术
在现有的输入法技术中,对输入法词库的词条扩充方式主要为抓取网页中的待分类词条,随后对待分类词条执行人工分类操作,而尚未存在较好的自动分类方式。当面对海量的待分类词条数据时,人工分类方式成本较高,且分类效率较低,严重影响输入法词库的词条扩充与完善。
因此,如何实现自动化地对待分类词条进行分类,成为目前亟待解决的问题之一。
发明内容
本发明的目的是提供一种用于对待分类词条进行分类的方法、装置与设备。
根据本发明的一个方面,提供了一种用于对待分类词条进行分类的方法,该方法包括以下步骤:
a将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息;
b将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页;
c根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息。
根据本发明的另一方面,还提供了一种用于对待分类词条进行分类的分类装置,该分类装置包括:
第一相似度获取装置,用于将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息;
第一网页确定装置,用于将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页;
分类选择装置,用于根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息。
与现有技术相比,本发明与现有技术的区别在于:1)基于待分类词条与多个网页的相似度信息来确定多个网页中的提取网页,根据提取网页包括的多个已分类词条分别所属的分类信息的出现频次,从多个已分类词条分别所属的分类信息中选择至少一个分类信息作为待分类词条的分类信息,实现了自动化地对待分类词条进行分类操作,从而降低人工分类成本,在保证分类质量的前提下极大地提升了分类效率,进而为扩充输入法词库中词条扩充与完善提供了保证;2)重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作,在满足预定的停止条件时结束重复执行操作,实现了自动提取待分类词条、并对待分类词条自动进行分类的分类循环操作,进一步提升分类效率,适于从海量网页中提取待分类词条并对其自动执行分类,进一步为快速准确地扩充输入法词库提供了有力保证。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于对待分类词条进行分类的分类装置的装置示意图;
图2示出根据本发明一个优选实施例的用于对待分类词条进行分类的分类装置的装置示意图;
图3示出根据本发明另一个方面的用于对待分类词条进行分类的方法流程图;
图4示出根据本发明一个优选实施例的用于对待分类词条进行分类的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于对待分类词条进行分类的分类装置的装置示意图。本实施例的分类装置包含于网络设备中;该分类装置包括第一相似度获取装置1、第一网页确定装置2和分类选择装置3。
其中,所述网络设备包括一种能够按照预先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述网络设备仅为举例,其他现有的或今后可能出现的网络设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
首先,第一相似度获取装置1将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息。
其中,所述多个网页包括通过网络爬虫等网页获取工具从互联网随机获取的多个网页;优选地,所述多个网页可包括对从互联网随机获取的海量网页进行扫描,并从中提取的包括待分类词条的多个网页。
具体地,第一相似度获取装置1获取相似度信息的方式包括但不限于:
1)确定待分类词条分别在多个网页中的出现频次信息,并将该出现频次作为该待分类词条分别与该等网页相似度信息;
其中,本发明所述频次包括但不限于频率和/或次数。
在一示例中,待分类词条为“桌球”,第一相似度获取装置1确定该待分类词条在网页A、B、C中的出现频次分别为5、7、1,则将该等出现频次作为待分类词条与网页A、B、C的相似度信息。
2)优选地(参照图1),所述第一相似度获取装置包括切词装置(图未示)、频次确定装置(图未示)和计算装置(图未示);其中,切词装置对所述多个网页分别进行切词处理,来获取各个网页分别包括的多个切词片段;频次确定装置确定所述多个切词片段分别在每个网页中的出现频次信息;计算装置根据所述出现频次信息,来计算所述待分类词条分别与所述多个网页中各个网页的相似度。
具体地,首先,切词装置对多个网页的每一个进行切词处理,来获取多个网页的每个网页分别包括的多个切词片段;接着,频次确定装置确定该多个切词片段分别在每个网页中的出现频次信息;随后,计算装置根据多个切词片段分别在每个网页中的出现频次信息,通过TF-IDF算法抽取每个网页的特征向量词,并通过向量空间模型技术使用特征向量矩阵来表示每一个网页,随后将待分类词条与该等特征向量矩阵通过例如余弦相关度或空间距离法等算法进行计算,来获取待分类词条与该等网页的相似度信息。
其中,所述TF-IDF算法是信息检索和数据挖掘中使用的一种加权统计算法,用以评估一词条对于一个文件集或一个语料库中的其中一份文件的重要程度;TF-IDF的计算方式如下式所示:
其中,所述向量空间模型(VSM)是一个用来表示文本文件的代数模型;在此,向量空间模型将网页映射为一个特征向量V(d)=(t1,ω1(d);...;tn,ωn(d)),其中ti(i=1,2,...,n)为一列互不相同的词条,ωi(d)为ti在d中的权值,被定义为ti在d中出现频率tfi(d)的函数:
dj=(w1,j,w2,j,...wt,j)
其中,Wi,j表示特征空间中第j个特征项(词条)在该网页向量中的权重值;Wi,j的计算方式如下式所示:
w i , j = tf i , j * log ( N df j ) Σ j = 1 k ( tf i , j * log ( N df j ) ) 2
其中,k表示全部的词条数目;
TFi,j表示特征词在网页中出现的频率,若不出现则为0;
N表示总网页总数;
DFj表示包含特征词的网页数。
其中,所述余弦相关度指网页之间的相似度、待分类词条与网页之间的相似度可以用其对应的向量之间的夹角余弦来表示,相似度计算方式如下式所示:
Sim ( d i , d j ) = cos θ = Σ k = 1 n ω k ( d i ) × ω k ( d j ) ( Σ k = 1 n ω k 2 ( d i ) ) ( Σ k = 1 n ω k 2 ( d j ) )
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述多个网页分别进行切词处理,来获取各个网页分别包括的多个切词片段,接着确定所述多个切词片段分别在每个网页中的出现频次信息;随后根据所述出现频次信息,来计算所述待分类词条分别与所述多个网页中各个网页的相似度的实现方式,均应包含在本发明的范围内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息的实现方式,均应包含在本发明的范围内。
接着,第一网页确定装置2将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页。
在一示例中,待分类词条“桌球”与网页A、B、C的相似度信息分别为5、7、1,第一网页确定装置2将相似度信息大于预定相似度阈值的4的网页A、B确定为提取网页。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页的实现方式,均应包含在本发明的范围内。
随后,分类选择装置3根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息。
具体地,分类选择装置3例如根据已分类词条列表,从提取网页中提取该(等)提取网页包括的多个已分类词条,接着根据提取网页包括的多个已分类词条分别所属的分类信息的出现频次,从多个已分类词条分别所属的分类信息中选择出现频次最高或次高的分类信息,来作为该待分类词条的分类信息。
在一示例中,当待分类词条为“桌球”,分类选择装置3根据已分类词条列表,从提取网页A和B提取其包含三个已分类词条“篮球”、“足球”和“计算机”,其中,“篮球”和“足球”均属于体育分类,“计算机”属于科技分类,则分类选择装置3确定体育分类的出现频次为2,科技分类的出现频次为1,则选择出现频次最高的体育分类作为该待分类词条“桌球”的分类信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息的实现方式,均应包含在本发明的范围内。
本方案基于待分类词条与多个网页的相似度信息来确定多个网页中的提取网页,根据提取网页包括的多个已分类词条分别所属的分类信息的出现频次,从多个已分类词条分别所属的分类信息中选择至少一个分类信息作为待分类词条的分类信息,实现了自动化地对待分类词条进行分类操作,从而降低人工分类成本,在保证分类质量的前提下极大地提升了分类效率,进而为扩充输入法词库中词条扩充与完善提供了保证。
图2示出根据本发明一个优选实施例的用于对待分类词条进行分类的分类装置的装置示意图。该分类装置还包括第一词条确定装置4和控制装置5。
其中,第一相似度获取装置1、第一网页确定装置2和分类选择装置3已在参照图1所示实施例中予以详述,在此不再赘述。
具体地,第一词条确定装置4根据第一网页确定装置2确定的提取网页中包括的未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条;例如,第一词条确定装置4可选择提取网页中包括的未分类词条的出现频次最高的任一未分类词条作为待分类词条。
随后,第一相似度获取装置1、第一网页确定装置2、分类选择装置3和第一词条确定装置4依次重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作;在满足预定的停止条件时,控制装置5结束第一词条确定装置4确定待分类词条的操作,循环操作停止。
其中,所述预定的停止条件包括但不限于当提取网页中包括的出现频次最高的未分类词条的出现频次小于预定出现频次阈值。
在一示例中,提取网页A、B中包括的三个未分类词条“羽毛球”、“蓝精灵”和“毛里求斯”,其出现频次分别为6、3和1,则第一词条确定装置4选择该等提取网页中包括的未分类词条的出现频次最高的“羽毛球”作为待分类词条;接着,第一相似度获取装置1、第一网页确定装置2、分类选择装置3和第一词条确定装置4依次重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作,当提取网页中包括的出现频次最高的未分类词条的出现频次小于预定出现频次阈值时,则控制装置5结束第一词条确定装置4确定待分类词条的操作,循环操作停止。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述提取网页中包括的未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条,重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作,在满足预定的停止条件时,结束确定所述待分类词条的实现方式,均应包含在本发明的范围内。
重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作,在满足预定的停止条件时结束重复执行操作,实现了自动提取待分类词条、并对待分类词条自动进行分类的分类循环操作,进一步提升分类效率,适于从海量网页中提取待分类词条并对其自动执行分类,进一步为快速准确地扩充输入法词库提供了有力保证。
优选地(参照图2),该分类装置还包括第二词条确定装置(图未示);在第一相似度获取装置1首次获取相似度信息前,第二词条确定装置确定待分类词条。
具体地,第二词条确定装置确定待分类词条的方式包括但不限于:
1)从本地或第三方设备的待分类词库中随机提取待分类词条;
2)优选地(参照图2),所述第二词条确定装置包括第二相似度获取装置(图未示)、第二网页确定装置(图未示)和第三词条确定装置(图未示)。
具体地,在第一相似度获取装置1首次获取相似度信息前,第二相似度获取装置将已分类词条与多个网页分别进行相似度计算,以获取该已分类词条分别与该多个网页的相似度信息;其方式与参照图1所示第一相似度获取装置1将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息的方式相同或相似,在此不再赘述。
接着,第二网页确定装置将该等相似度信息大于预定相似度阈值的至少一个网页确定为待分类词条提取网页;其方式与参照图1所示第一网页确定装置2将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页的方式相同或相似,在此不再赘述。
随后,第三词条确定装置根据第二网页确定装置确定的提取网页包括的多个未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条;例如,第三词条确定装置可选择提取网页中包括的未分类词条的出现频次最高的任一未分类词条作为待分类词条。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将已分类词条与所述多个网页分别进行相似度计算,以获取所述已分类词条分别与所述多个网页的相似度信息,接着将所述相似度信息大于预定相似度阈值的至少一个网页确定为待分类词条提取网页,随后根据所述提取网页包括的多个未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条的实现方式,均应包含在本发明的范围内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定待分类词条的实现方式,均应包含在本发明的范围内。
作为本实施例的优选方案之一(参照图1),该分类装置还包括更新装置(图未示)。更新装置根据已确定至少一个分类信息的词条,更新其所对应的至少一个分类词表。
具体地,更新装置将分类选择装置3选择确定的词条的至少一个分类信息,写入到该等分类信息所对应的至少一个分类词表中,以更新该至少一个分类分类信息。
在一示例中,更新装置根据分类选择装置3选择确定的词条“桌球”所属的两个分类信息,体育分类和娱乐分类,将分类词表和娱乐分类词表中分别插入一条包括该词条“桌球”的数据记录。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据已确定至少一个分类信息的词条,更新其所对应的至少一个分类词表的实现方式,均应包含在本发明的范围内。
图3示出根据本发明另一个方面的用于对待分类词条进行分类的方法流程图。根据本优选实施例的方法包括步骤S1、步骤S2和步骤S3。其中,本发明的方法主要通过网络设备来实现。
其中,所述网络设备包括一种能够按照预先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述网络设备仅为举例,其他现有的或今后可能出现的网络设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
首先,在步骤S1中,网络设备将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息。
其中,所述多个网页包括通过网络爬虫等网页获取工具从互联网随机获取的多个网页;优选地,所述多个网页可包括对从互联网随机获取的海量网页进行扫描,并从中提取的包括待分类词条的多个网页。
具体地,在步骤S1中,网络设备获取相似度信息的方式包括但不限于:
1)确定待分类词条分别在多个网页中的出现频次信息,并将该出现频次作为该待分类词条分别与该等网页相似度信息;
其中,本发明所述频次包括但不限于频率和/或次数。
在一示例中,待分类词条为“桌球”,在步骤S1中,网络设备确定该待分类词条在网页A、B、C中的出现频次分别为5、7、1,则将该等出现频次作为待分类词条与网页A、B、C的相似度信息。
2)优选地(参照图3),所述步骤S1包括步骤S11(图未示)、步骤S12(图未示)和步骤S13(图未示);其中,在步骤S11中,网络设备对所述多个网页分别进行切词处理,来获取各个网页分别包括的多个切词片段;在步骤S12中,网络设备确定所述多个切词片段分别在每个网页中的出现频次信息;在步骤S13中,网络设备根据所述出现频次信息,来计算所述待分类词条分别与所述多个网页中各个网页的相似度。
具体地,首先,在步骤S11中,网络设备对多个网页的每一个进行切词处理,来获取多个网页的每个网页分别包括的多个切词片段;接着,在步骤S12中,网络设备确定该多个切词片段分别在每个网页中的出现频次信息;随后,在步骤S13中,网络设备根据多个切词片段分别在每个网页中的出现频次信息,通过TF-IDF算法抽取每个网页的特征向量词,并通过向量空间模型技术使用特征向量矩阵来表示每一个网页,随后将待分类词条与该等特征向量矩阵通过例如余弦相关度或空间距离法等算法进行计算,来获取待分类词条与该等网页的相似度信息。
其中,所述TF-IDF算法是信息检索和数据挖掘中使用的一种加权统计算法,用以评估一词条对于一个文件集或一个语料库中的其中一份文件的重要程度;TF-IDF的计算方式如下式所示:
其中,所述向量空间模型(VSM)是一个用来表示文本文件的代数模型;在此,向量空间模型将网页映射为一个特征向量V(d)=(t1,ω1(d);...;tn,ωn(d)),其中ti(i=1,2,...,n)为一列互不相同的词条,ωi(d)为ti在d中的权值,被定义为ti在d中出现频率tfi(d)的函数:
dj=(w1,j,w2,j,…wt,j)
其中,Wi,j表示特征空间中第j个特征项(词条)在该网页向量中的权重值;Wi,j的计算方式如下式所示:
w i , j = tf i , j * log ( N df j ) Σ j = 1 k ( tf i , j * log ( N df j ) ) 2
其中,k表示全部的词条数目;
TFi,j表示特征词在网页中出现的频率,若不出现则为0;
N表示总网页总数;
DFj表示包含特征词的网页数。
其中,所述余弦相关度指网页之间的相似度、待分类词条与网页之间的相似度可以用其对应的向量之间的夹角余弦来表示,相似度计算方式如下式所示:
Sim ( d i , d j ) = cos θ = Σ k = 1 n ω k ( d i ) × ω k ( d j ) ( Σ k = 1 n ω k 2 ( d i ) ) ( Σ k = 1 n ω k 2 ( d j ) )
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述多个网页分别进行切词处理,来获取各个网页分别包括的多个切词片段,接着确定所述多个切词片段分别在每个网页中的出现频次信息;随后根据所述出现频次信息,来计算所述待分类词条分别与所述多个网页中各个网页的相似度的实现方式,均应包含在本发明的范围内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息的实现方式,均应包含在本发明的范围内。
接着,在步骤S2中,网络设备将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页。
在一示例中,待分类词条“桌球”与网页A、B、C的相似度信息分别为5、7、1,在步骤S2中,网络设备将相似度信息大于预定相似度阈值的4的网页A、B确定为提取网页。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页的实现方式,均应包含在本发明的范围内。
随后,在步骤S3中,网络设备根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息。
具体地,在步骤S3中,网络设备例如根据已分类词条列表,从提取网页中提取该(等)提取网页包括的多个已分类词条,接着根据提取网页包括的多个已分类词条分别所属的分类信息的出现频次,从多个已分类词条分别所属的分类信息中选择出现频次最高或次高的分类信息,来作为该待分类词条的分类信息。
在一示例中,当待分类词条为“桌球”,在步骤S3中,网络设备根据已分类词条列表,从提取网页A和B提取其包含三个已分类词条“篮球”、“足球”和“计算机”,其中,“篮球”和“足球”均属于体育分类,“计算机”属于科技分类,则网络设备确定体育分类的出现频次为2,科技分类的出现频次为1,则选择出现频次最高的体育分类作为该待分类词条“桌球”的分类信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息的实现方式,均应包含在本发明的范围内。
本方案基于待分类词条与多个网页的相似度信息来确定多个网页中的提取网页,根据提取网页包括的多个已分类词条分别所属的分类信息的出现频次,从多个已分类词条分别所属的分类信息中选择至少一个分类信息作为待分类词条的分类信息,实现了自动化地对待分类词条进行分类操作,从而降低人工分类成本,在保证分类质量的前提下极大地提升了分类效率,进而为扩充输入法词库中词条扩充与完善提供了保证。
图4示出根据本发明一个优选实施例的用于对待分类词条进行分类的方法流程图。根据本优选实施例的方法还包括步骤S4和步骤S5。
其中,网络设备在步骤S1、步骤S2和步骤S3中的方法方式已在参照图3所示实施例中予以详述,在此不再赘述。
具体地,在步骤S4中,网络设备根据其在步骤S2中确定的提取网页中包括的未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条;例如,在步骤S4中,网络设备可选择提取网页中包括的未分类词条的出现频次最高的任一未分类词条作为待分类词条。
随后,网络设备在步骤S1、步骤S2、步骤S3和步骤S4中依次重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作;在满足预定的停止条件时,在步骤S5中,网络设备结束其在步骤S4中确定待分类词条的操作,循环操作停止。
其中,所述预定的停止条件包括但不限于当提取网页中包括的出现频次最高的未分类词条的出现频次小于预定出现频次阈值。
在一示例中,提取网页A、B中包括的三个未分类词条“羽毛球”、“蓝精灵”和“毛里求斯”,其出现频次分别为6、3和1,则在步骤S4中,网络设备选择该等提取网页中包括的未分类词条的出现频次最高的“羽毛球”作为待分类词条;接着,网络设备在步骤S1、步骤S2、步骤S3和步骤S4中依次重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作,当提取网页中包括的出现频次最高的未分类词条的出现频次小于预定出现频次阈值时,则在步骤S5中,网络设备结束其在步骤S4中确定待分类词条的操作,循环操作停止。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述提取网页中包括的未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条,重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作,在满足预定的停止条件时,结束确定所述待分类词条的实现方式,均应包含在本发明的范围内。
重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作,在满足预定的停止条件时结束重复执行操作,实现了自动提取待分类词条、并对待分类词条自动进行分类的分类循环操作,进一步提升分类效率,适于从海量网页中提取待分类词条并对其自动执行分类,进一步为快速准确地扩充输入法词库提供了有力保证。
优选地(参照图4),本优选实施例的方法还包括步骤S6(图未示);在网络设备在步骤S1中首次获取相似度信息前,在步骤S6中,网络设备确定待分类词条。
具体地,在步骤S6中,网络设备确定待分类词条的方式包括但不限于:
1)从本地或第三方设备的待分类词库中随机提取待分类词条;
2)优选地(参照图4),所述步骤S6还包括步骤S61(图未示)、步骤S62(图未示)和步骤S63(图未示)。
具体地,在网络设备在步骤S1中首次获取相似度信息前,在步骤S61中,网络设备将已分类词条与多个网页分别进行相似度计算,以获取该已分类词条分别与该多个网页的相似度信息;其方式与参照图3所示网络设备在步骤S1中将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息的方式相同或相似,在此不再赘述。
接着,在步骤S62中,网络设备将该等相似度信息大于预定相似度阈值的至少一个网页确定为待分类词条提取网页;其方式与参照图3所示网络设备在步骤S2中将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页的方式相同或相似,在此不再赘述。
随后,在步骤S63中,网络设备根据其在步骤S62中确定的提取网页包括的多个未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条;例如,在步骤S63中,网络设备可选择提取网页中包括的未分类词条的出现频次最高的任一未分类词条作为待分类词条。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将已分类词条与所述多个网页分别进行相似度计算,以获取所述已分类词条分别与所述多个网页的相似度信息,接着将所述相似度信息大于预定相似度阈值的至少一个网页确定为待分类词条提取网页,随后根据所述提取网页包括的多个未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条的实现方式,均应包含在本发明的范围内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定待分类词条的实现方式,均应包含在本发明的范围内。
作为本实施例的优选方案之一(参照图3),该方法还包括步骤S7(图未示)。在步骤S7中,网络设备根据已确定至少一个分类信息的词条,更新其所对应的至少一个分类词表。
具体地,在步骤S7中,网络设备将其在步骤S3中选择确定的词条的至少一个分类信息,写入到该等分类信息所对应的至少一个分类词表中,以更新该至少一个分类分类信息。
在一示例中,在步骤S7中,网络设备根据其在步骤S3中选择确定的词条“桌球”所属的两个分类信息,体育分类和娱乐分类,将分类词表和娱乐分类词表中分别插入一条包括该词条“桌球”的数据记录。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据已确定至少一个分类信息的词条,更新其所对应的至少一个分类词表的实现方式,均应包含在本发明的范围内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,其中的硬件可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他步骤,单数不排除复数。装置权利要求中陈述的多个装置也可以由一个装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (13)

1.一种用于对待分类词条进行分类的方法,该方法包括以下步骤:
a将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息;
b将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页;
c根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息。
2.根据权利要求1所述的方法,其中,该方法还包括:
d根据所述提取网页中包括的未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条;
重复执行步骤a、b、c、d,直至满足预定的停止条件。
3.根据权利要求2所述的方法,其中,该方法还包括:
w在首次重复执行步骤a、b、c、d前,确定待分类词条。
4.根据权利要求3所述的方法,其中,所述步骤w包括:
-将已分类词条与所述多个网页分别进行相似度计算,以获取所述已分类词条分别与所述多个网页的相似度信息;
-将所述相似度信息大于预定相似度阈值的至少一个网页确定为待分类词条提取网页;
-根据所述提取网页包括的多个未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条。
5.根据权利要求1至4任一项所述的方法,其中,所述步骤a包括:
-对所述多个网页分别进行切词处理,来获取各个网页分别包括的多个切词片段;
-确定所述多个切词片段分别在每个网页中的出现频次信息;
-根据所述出现频次信息,来计算所述待分类词条分别与所述多个网页中各个网页的相似度。
6.根据权利要求1至5任一项所述的方法,其中,该方法还包括:
-根据已确定至少一个分类信息的词条,更新其所对应的至少一个分类词表。
7.一种用于对待分类词条进行分类的分类装置,该分类装置包括:
第一相似度获取装置,用于将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息;
第一网页确定装置,用于将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页;
分类选择装置,用于根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息。
8.根据权利要求7所述的分类装置,其中,该分类装置还包括:
第一词条确定装置,用于根据所述提取网页中包括的未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条;
控制装置,用于在满足预定的停止条件时,结束确定所述待分类词条。
9.根据权利要求8所述的分类装置,其中,该分类装置还包括:
第二词条确定装置,用于在第一相似度获取装置首次获取相似度信息前,确定待分类词条。
10.根据权利要求9所述的分类装置,其中,所述第二词条确定装置包括:
第二相似度获取装置,用于将已分类词条与所述多个网页分别进行相似度计算,以获取所述已分类词条分别与所述多个网页的相似度信息;
第二网页确定装置,用于将所述相似度信息大于预定相似度阈值的至少一个网页确定为待分类词条提取网页;
第三词条确定装置,用于根据所述提取网页包括的多个未分类词条的出现频次,来由所述未分类词条中确定一个未分类词条作为待分类词条。
11.根据权利要求7至10任一项所述的分类装置,其中,所述第一相似度获取装置包括:
切词装置,用于对所述多个网页分别进行切词处理,来获取各个网页分别包括的多个切词片段;
频次确定装置,用于确定所述多个切词片段分别在每个网页中的出现频次信息;
计算装置,用于根据所述出现频次信息,来计算所述待分类词条分别与所述多个网页中各个网页的相似度。
12.根据权利要求7至11任一项所述的分类装置,其中,该分类装置还包括:
更新装置,用于根据已确定至少一个分类信息的词条,更新其所对应的至少一个分类词表。
13.一种网络设备,包括如权利要求7至12中至少一项所述的分类装置。
CN201310049244.4A 2013-02-07 2013-02-07 一种用于对待分类词条进行分类的方法、装置与设备 Pending CN103984685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310049244.4A CN103984685A (zh) 2013-02-07 2013-02-07 一种用于对待分类词条进行分类的方法、装置与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310049244.4A CN103984685A (zh) 2013-02-07 2013-02-07 一种用于对待分类词条进行分类的方法、装置与设备

Publications (1)

Publication Number Publication Date
CN103984685A true CN103984685A (zh) 2014-08-13

Family

ID=51276661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310049244.4A Pending CN103984685A (zh) 2013-02-07 2013-02-07 一种用于对待分类词条进行分类的方法、装置与设备

Country Status (1)

Country Link
CN (1) CN103984685A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630975A (zh) * 2015-12-24 2016-06-01 联想(北京)有限公司 一种信息处理方法和电子设备
CN105893556A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
CN108960624A (zh) * 2018-07-03 2018-12-07 深圳市和讯华谷信息技术有限公司 基于用户到访信息的网格相似度判定方法、装置和系统
CN111626567A (zh) * 2020-04-30 2020-09-04 中国直升机设计研究所 一种保障资源相似性识别计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102609539A (zh) * 2012-02-16 2012-07-25 北京搜狗信息服务有限公司 一种搜索方法和系统
US20120254085A1 (en) * 2008-03-28 2012-10-04 International Business Machines Corporation Information classification system, information processing apparatus, information classification method and program
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254085A1 (en) * 2008-03-28 2012-10-04 International Business Machines Corporation Information classification system, information processing apparatus, information classification method and program
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102609539A (zh) * 2012-02-16 2012-07-25 北京搜狗信息服务有限公司 一种搜索方法和系统
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630975A (zh) * 2015-12-24 2016-06-01 联想(北京)有限公司 一种信息处理方法和电子设备
CN105630975B (zh) * 2015-12-24 2020-10-27 联想(北京)有限公司 一种信息处理方法和电子设备
CN105893556A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
CN105893556B (zh) * 2016-03-31 2020-04-14 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
CN108960624A (zh) * 2018-07-03 2018-12-07 深圳市和讯华谷信息技术有限公司 基于用户到访信息的网格相似度判定方法、装置和系统
CN111626567A (zh) * 2020-04-30 2020-09-04 中国直升机设计研究所 一种保障资源相似性识别计算方法

Similar Documents

Publication Publication Date Title
CN102799647B (zh) 网页去重方法和设备
CN102063469B (zh) 一种用于获取相关关键词信息的方法、装置和计算机设备
CN105653701B (zh) 模型生成方法及装置、词语赋权方法及装置
CN101826099B (zh) 一种相似文档识别、文档扩散度确定的方法及系统
CN104750754A (zh) 网站所属行业的分类方法和服务器
KR102018445B1 (ko) 캐스캐이딩 스타일 시트 파일들의 압축
CN106776559B (zh) 文本语义相似度计算的方法及装置
JP2010123000A (ja) Webページグループ抽出方法及び装置及びプログラム
CN103942189A (zh) 一种确定作品关键词的方法和设备
JP5724009B2 (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
CN103984685A (zh) 一种用于对待分类词条进行分类的方法、装置与设备
CN104239552A (zh) 生成关联关键词、提供关联关键词的方法及系统
CN104239285A (zh) 文章新章节的检测方法及装置
CN112364625A (zh) 文本筛选方法、装置、设备及存储介质
CN107085615B (zh) 文本消重系统、方法、服务器及计算机存储介质
CN106168968A (zh) 一种网站分类方法及装置
CN101576872B (zh) 一种中文文本处理方法及装置
CN104252487A (zh) 一种用于生成词条信息的方法和装置
CN102135961B (zh) 一种领域特征词确定方法和装置
CN104077320A (zh) 一种用于生成待发布信息的方法和装置
CN112287102A (zh) 数据挖掘方法和装置
CN103377187A (zh) 段落分割方法、装置以及程序
CN108415959B (zh) 一种文本分类方法及装置
KR20210082880A (ko) 주제 키워드 기반 투자 유니버스 구성 방법 및 시스템
CN113656576B (zh) 一种文章概述生成方法、装置、计算设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140813