CN103324633A - 一种信息发布方法及装置 - Google Patents
一种信息发布方法及装置 Download PDFInfo
- Publication number
- CN103324633A CN103324633A CN2012100784397A CN201210078439A CN103324633A CN 103324633 A CN103324633 A CN 103324633A CN 2012100784397 A CN2012100784397 A CN 2012100784397A CN 201210078439 A CN201210078439 A CN 201210078439A CN 103324633 A CN103324633 A CN 103324633A
- Authority
- CN
- China
- Prior art keywords
- feature word
- current page
- relevant information
- information
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 239000000284 extract Substances 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 abstract 2
- 230000008569 process Effects 0.000 description 27
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 102100037651 AP-2 complex subunit sigma Human genes 0.000 description 3
- 101000806914 Homo sapiens AP-2 complex subunit sigma Proteins 0.000 description 3
- 230000009467 reduction Effects 0.000 description 2
- 241000931705 Cicada Species 0.000 description 1
- 102000006479 Heterogeneous-Nuclear Ribonucleoproteins Human genes 0.000 description 1
- 108010019372 Heterogeneous-Nuclear Ribonucleoproteins Proteins 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009941 weaving Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本申请公开了一种信息发布方法及装置,用以解决现有技术中发布信息的效率和准确性较低的问题。该方法对当前页面的主信息进行分词处理,提取其中的特征词,确定提取的特征词在当前页面中出现的次数,根据确定的特征词在当前页面中出现的次数,并基于设定的分类模型确定当前页面所属的类目,将属于确定的类目的相关信息发布到当前页面上。由于本申请实施例中直接在当前页面中提取特征词,根据特征词在当前页面中出现的次数,并基于设定的分类模型确定当前页面所属的类目,无需对当前页面进行人工的标注,因此提高了发布信息的效率,而且不会人工引入误差,提高了信息发布的准确性。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种信息发布方法及装置。
背景技术
随着互联网技术的不断发展,人们可以通过网络更加方便的获取其需要的信息,以及发布信息。当用户浏览某个页面时,为了提高页面的利用率,除了在当前页面中展示该当前页面的主信息之外,还可以在该当前页面中向用户发布一些与主信息相关的相关信息,如图1所示。
图1为现有技术中在当前页面中展示的主信息以及发布的与主信息相关的相关信息的示意图,在图1中,当前页面的大部分区域用于展示主信息,在其他区域则可以发布与主信息相关的相关信息。例如,主信息为关于品牌A的手机的信息,则发布的与主信息相关的相关信息可以为该品牌A的其他电子产品信息,或者其他具有类似功能的手机信息等。
当要在某个页面中进行相关信息的发布时,由于页面的类型多种多样,因此需要预先划分页面的类目,并确定当前页面所属的类目,将属于该确定的类目下的相关信息发布到当前页面上。
例如,划分的类目包括:教育、军事、旅游、汽车、科技等类目,在当前页面中发布相关信息时,先确定当前页面所属的类目,假设确定当前页面所属的类目为汽车,则将属于该汽车类目的相关信息发布到当前页面上。
在现有技术中,确定当前页面所属的类目的方法具体为:对当前页面进行人工的标注,根据当前页面对应的标注,采用设置的分类模型确定当前页面所属的类目。其中,设置分类模型的方法具体为:对一定数量的已知所属类目的页面进行人工的标注,以该一定数量的页面所属的类目以及对应的标注作为训练样本,训练得到该分类模型。
然而,由于目前网络页面的数量是非常庞大的,采用人工对各页面进行标注的方法不仅会降低发布相关信息的效率,而且还需要花费大量的人力资源,并且由于每个人的主观认知也具有差异性,因此人工对页面进行标注的准确性也较低,导致人工引入误差,可能会在页面上发布错误的相关信息,降低了信息发布的准确性。
发明内容
本申请实施例提供一种信息发布方法及装置,用以解决现有技术中发布信息的效率较低,准确性较低的问题。
本申请实施例提供的一种信息发布方法,包括:
对当前页面的主信息进行分词处理,提取所述当前页面中的至少一个特征词;
确定提取的特征词在所述当前页面中出现的次数;
根据确定的特征词在所述当前页面中出现的次数,并基于设定的分类模型确定所述当前页面所属的类目;
将属于确定的类目的相关信息发布到所述当前页面上。
本申请实施例提供的一种信息发布装置,包括:
特征词提取模块,用于对当前页面的主信息进行分词处理,提取所述当前页面中的至少一个特征词;
频率确定模块,用于确定提取的特征词在所述当前页面中出现的次数;
类目确定模块,用于根据确定的特征词在所述当前页面中出现的次数,并基于设定的分类模型确定所述当前页面所属的类目;
发布模块,用于将属于确定的类目的相关信息发布到所述当前页面上。
本申请实施例提供一种信息发布方法及装置,该方法对当前页面的主信息进行分词处理,提取其中的特征词,确定提取的特征词在当前页面中出现的次数,根据确定的特征词在当前页面中出现的次数,并基于设定的分类模型确定当前页面所属的类目,将属于确定的类目的相关信息发布到当前页面上。由于本申请实施例中直接在当前页面中提取特征词,根据特征词在当前页面中出现的次数,并基于设定的分类模型确定当前页面所属的类目,无需对当前页面进行人工的标注,因此提高了发布信息的效率,而且不会人工引入误差,提高了信息发布的准确性。
附图说明
图1为现有技术中在当前页面中展示的主信息以及发布的与主信息相关的相关信息的示意图;
图2为本申请实施例提供的信息发布过程;
图3为本申请实施例提供的设定分类模型的过程;
图4为本申请实施例提供的确定当前页面所属的类目的详细过程;
图5为本申请实施例提供的信息发布装置结构示意图。
具体实施方式
由于目前网络页面的数量非常庞大,采用人工对各页面进行标准的方法显然会降低信息发布的效率,而且还会由于每个人的主观认知所具有的差异性而导致人工引入误差,降低信息发布的准确性,因此本申请实施例为了提高信息发布的效率和准确性,摒弃传统信息发布方法中需要人工进行标注的方法,直接将当前页面的主信息进行分词处理,提取其中的特征词,根据提取的每个特征词在当前页面中出现的次数,并基于设定的分类模型,确定当前页面所属的类目,并将属于该类目的相关信息发布到当前页面上。
下面结合说明书附图,对本申请实施例进行详细描述。
图2为本申请实施例提供的信息发布过程,具体包括以下步骤:
S201:对当前页面的主信息进行分词处理,提取当前页面中的至少一个特征词。
本申请实施例中对当前页面的主信息进行分词处理时,可以先将当前页面的主信息划分为不同的区域子信息,再分别对划分的区域子信息进行分词处理。
例如,该当前页面的主信息是一条关于品牌A的手机的商业资讯信息,由于一般商业资讯信息可以分为标题区域、属性内容区域、普通内容区域,对于该主信息而言,标题即为该主信息的标题信息,属性内容一般是该品牌A的手机的产品信息(如规格、型号等信息),普通内容区域一般是对该品牌A的手机的描述信息,因此可将该主信息划分为标题区域子信息、属性内容区域子信息以及普通内容区域子信息,并分别对划分的各区域子信息进行分词处理。
对该主信息进行分词处理后,可以对处理后得到的分词进行过滤操作,去除其中包括的设定分词,该设定分词可以设定为某些无意义的停用词(例如“的”、“地”等)和泛化词(例如“加工”、“代理”、“批发”等),将去除了设定分词之后的各分词作为提取的当前页面中的各特征词。
S202:确定提取的特征词在当前页面中出现的次数。
考虑到实际应用中对于一个特征词而言,其出现在页面中的不同区域,对该页面的重要性程度也不同。继续沿用上例,对于当前页面中一条关于品牌A的手机的主信息而言,如果某个特征词出现在标题区域中,则说明当前页面是关于该特征词的页面的可能性非常高,例如当前页面主信息的标题区域中出现的特征词“品牌A”;而如果某个特征词出现在普通内容区域中,则说明当前页面是关于该特征词的页面的可能性就相对较低,例如当前页面主信息的普通内容区域中出现的特征词“屏幕尺寸”。
因此,本申请实施例中为了进一步提高信息发布的准确性,确定提取的各特征词在当前页面中出现的次数的方法具体为,针对提取的至少一个特征词执行:分别针对划分的各区域子信息,确定该特征词在该区域子信息中出现的次数,确定该特征词在该区域子信息中出现的次数与为该区域子信息设置的权重值的乘积,将分别针对划分的各区域子信息确定的乘积的和值,确定为该特征次在当前页面中出现的次数。
继续沿用上例,假设提取的特征词“品牌A”在主信息的标题区域子信息中出现了1次,为标题区域子信息设置的权重值为2,在属性内容区域子信息中出现了5次,为属性内容区域子信息设置的权重值为1.5,在普通内容区域子信息中出现了12次,为普通内容区域子信息设置的权重值为1,则确定的该特征词“品牌A”在当前页面中出现的次数为:1×2+5×1.5+12×1=21.5。
S203:根据确定的特征词在当前页面中出现的次数,并基于设定的分类模型确定当前页面所属的类目。
其中,设定的分类模型是预先设定的,可以在离线状态设定该分类模型,并在在线状态基于该设定的分类模型,根据确定的各特征词在当前页面中出现的次数,确定当前页面所属的类目。
并且,考虑到实际应用中各相关信息实际所属的信息类目,与发布各相关信息的页面所属的页面类目可能并不匹配,例如相关信息的信息类目包括:农业信息、能源信息、纺织信息、冶金信息、汽摩信息、服装信息、鞋包信息、美容信息、玩具信息等,而发布相关信息的页面所属的页面类目包括:教育页面、军事页面、旅游页面、汽车页面、科技页面等,显然上述信息类目和页面类目并不匹配。因此本申请实施例中为了进一步提高信息发布的准确性,直接根据相关信息的信息类目,划分发布相关信息的页面的页面类目,也即这两个类目是相同的类目体系。
本申请实施例中所述的类目即是指,采用相同的类目体系划分的信息类目或页面类目。
S204:将属于确定的类目的相关信息发布到当前页面上。
在确定了当前页面所属的类目后,则可以将属于该类目的相关信息发布到当前页面上,完成相关信息的发布。
上述过程对当前页面的主信息进行分词处理,提取其中的各特征词,确定提取的各特征词在当前页面中出现的次数,根据确定的各特征词在当前页面中出现的次数,并基于设定的分类模型确定当前页面所属的类目,将属于该类目的相关信息发布到当前页面上。由于本申请实施例中直接在当前页面中提取特征词,根据特征词在当前页面中出现的次数,并基于设定的分类模型确定当前页面所属的类目,无需对页面进行人工的标注,因此提高了发布信息的效率,而且不会人工引入误差,提高了信息发布的准确性。
上述图2所示的过程是处于在线状态时,基于该设定的分类模型,根据确定的各特征词在当前页面中出现的次数,确定当前页面所属的类目,并将相应的相关信息发布到当前页面上的过程,下面说明本申请实施例中处于离线状态时设定分类模型的过程,如图3所示。
图3为本申请实施例提供的设定分类模型的过程,具体包括以下步骤:
S301:提取在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息。
在本申请实施例中,对于已经发布在某个页面上的已发布相关信息而言,如果该已发布相关信息在该页面上被点击的次数高于设定次数,则可以认为该已发布相关信息被发布在了正确的类目对应的页面上,因此,可以选择设定的时间段内被点击的次数高于设定次数的所有已发布相关信息,用以在后续的步骤中训练得到分类模型,其中,该设定的时间段以及设定次数可以根据需要进行设定。例如可以提取3个月内被点击的次数高于100次的所有已发布相关信息。
S302:分别针对提取的已发布相关信息,确定该已发布相关信息所属的类目。
也即,确定提取的每个已发布相关信息所属的类目。
S303:分别针对不同的类目,在提取的属于该类目的已发布相关信息中选择第一设定数量的已发布相关信息。
也即,在每个类目下的已发布相关信息中,均选择第一设定数量的已发布相关信息。这是因为提取的所有已发布相关信息中,属于不同类目的已发布相关信息的数量并不相同,例如提取了1000个已发布相关信息,属于类目A的有500个,属于类目B的有300个,属于类目C的有200个。因此需要在不同的类目下选择相同数量的已发布相关信息作为训练样本,用以在后续的步骤中训练得到分类模型,以提高得到的分类模型的准确性,例如在每个类目下均选择100个已发布相关信息,也即该第一设定数量为100。
S304:分别针对选择的第一数量的已发布相关信息,对选择的该已发布相关信息进行分词处理,提取选择的该已发布相关信息中的至少一个特征词。
在本申请实施例中,针对不同的类目,选择了属于该类目的第一设定数量的已发布相关信息后,分别针对选择的每个已发布相关信息,对该已发布相关信息进行分词处理,提取该已发布相关信息中的各特征词。其中,对已发布相关信息进行分词处理时,也可以与对当前页面的主信息进行分词处理采用相同的方法,也即先将已发布相关信息划分为不同的区域子信息,再对划分的区域子信息进行分词处理,这里就不再一一赘述。
其中,k表示该类目为第k个类目,j表示该特征词为提取到的所有特征词中的第j个特征词,Wkj为该特征词在该类目下的权重值,i表示选择的属于该类目的第一设定数量的已发布相关信息中的第i个已发布相关信息,m为所述第一设定数量,Dij为该特征词在选择的第i个已发布相关信息中出现的次数,l1为不小于1的任意实数,n为在选择的第一设定数量的已发布相关信息中提取到的所有特征词的数量。
例如,针对第k个类目选择了3个已发布相关信息(也即此时第一设定数量为3,上述公式中的m=3),从第1个已发布相关信息中提取到的特征词为特征词A、特征词B,从第2个已发布相关信息中提取到的特征词为特征词B、特征词C,从第3个已发布相关信息中提取到的特征词为特征词A、特征词D,则针对在该第k个类目下选择的3个已发布相关信息中提取到的所有特征词为特征词A、特征词B、特征词C、特征词D,即,在选择的第一数量的已发布相关信息中提取到的所有特征词的数量为4,也即上述公式中的n=4。
采用上述公式确定各特征词在该第k个类目下的权重值时,首先要确定每个特征词在选择的各已发布相关信息中出现的次数,也即确定第j个特征词在第i个已发布相关信息中出现的次数Dij继续沿用上例,则上述公式中i的取值范围为1~3,j的取值范围为1~4,确定Dij时,也可以与图2所示的过程中确定提取的特征词在当前页面中出现的次数采用相同的方法,也即分别针对划分的区域子信息,确定第j个特征词在第i个已发布相关信息中的该区域子信息中出现的次数,并确定该次数与为该区域子信息设置的权重值的乘积,将分别针对划分的每个区域子信息确定的乘积的和值,确定为第j个特征词在第i个已发布相关信息中出现的次数Dij。
S306:采用公式确定该类目的权重值。
其中,Sigma_k为该类目的权重值。也即,按照步骤S305的方法,确定在选择的属于第k个类目的第一设定数量的已发布相关信息中提取到的每个特征词在该第k个类目下的权重值Wkj后,将确定的每个特征词在第k个类目下的权重值的和值,作为该第k个类目的权重值。
S307:将分别针对不同的类目确定的该类目的权重值,以及,针对在属于该类目的第一设定数量的已发布相关信息中提取到的所有特征词分别确定的该特征词在该类目下的权重值,确定为设定的分类模型。
也即,假设划分的类目的数量为K,则将针对每个类目确定的Sigma_k,k∈[1,K],以及针对每个类目确定的每个Wkj,确定为设定的分类模型。
另外,考虑到对于同一个特征词而言,其可能出现在多个不同的已发布相关信息中,因此本申请实施例中为了进一步提高设定的分类模型的准确性,以提高信息发布的准确性,在按照上述步骤S305的方法确定了第j个特征词在第k个类目下的权重值Wkj之后,还可以分别针对每个类目,确定选择的属于该类目的第一设定数量的已发布相关信息中,包含该特征词的已发布相关信息的数量,并确定分别针对每个类目确定的数量的和值,将确定的该特征词在该类目下的权重值与该和值的倒数的乘积,重新确定为该特征词在该类目下的权重值。
也即,确定了Wkj之后,针对每个类目,确定IDFkj,IDFkj表示选择的属于第k个类目的第一设定数量的已发布相关信息中,包含该第j个特征词的已发布相关信息的数量,仍假设划分的类目的数量为K,则确定IDFj即为针对每个类目确定的数量的和值,最后确定W′kj即为重新确定的该第j个特征词在该第k个类目下的权重值。
进一步的,考虑到确定的Sigma_k是基于在每个类目下选择相同数量的已发布相关信息进行确定的,而实际上提取的在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息中,属于各个不同的类目下的已发布相关信息的数量是各不相同的,例如,提取的在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息的数量为1000个,其中,属于类目1的已发布相关信息的数量是500个,属于类目2的已发布相关信息的数量是300个,属于类目3的已发布相关信息的数量是200个,而确定Sigma_1、Sigma_2、Sigma_3时,是基于选择的属于各类目下的相同数量的已发布相关信息进行确定的,因此本申请实施例中还要调整Sigma_1、Sigma_2、Sigma_3,使得调整后的Sigma_1、Sigma_2、Sigma_3更加符合实际情况,进一步提高得到的分类模型的准确性,以进一步提高信息发布的准确性。
具体的,在确定该类目的权重值之后,还要确定提取的在设定的时间内被点击的次数高于设定次数的所有已发布相关信息的数量,作为第一参数值,确定在提取的所有已发布相关信息中,属于该类目的已发布相关信息的数量,作为第二参数值,确定第二参数值与第一参数值的比值,将确定的该类目的权重值与该比值的乘积,重新确定为该类目的权重值。
也即,在按照上述步骤S306的方法确定了第k个类目的权重值Sigma_k之后,确定在步骤S301中提取的在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息的数量,作为第一参数值Q,确定提取的所有已发布相关信息中属于该第k个类目的已发布相关信息的数量,作为第二参数值Qk,确定第二参数值与第一参数值的比值最后确定Sigma_k′即为确定重新的该第k个类目的权重值。
上述图3所示的设定分类模型的过程可以在处于离线状态时进行。采用上述方法获得了分类模型后,在处于在线状态时,利用该分类模型确定当前页面所属的类目的过程,也即执行图2所示的步骤S203的具体过程如图4所示。
图4为本申请实施例提供的确定当前页面所属的类目的详细过程,具体包括以下步骤:
S2031:针对不同的类目,采用公式 确定当前页面属于该类目的估计值。
其中,Prob为当前页面属于该类目的估计值,N为在当前页面中提取的特征词的数量,h表示在当前页面中提取的第h个特征词,Dh为该第h个特征词在当前页面中出现的次数,k表示该类目为第k个类目,Wkh为该第h个特征词在第k个类目下的权重值,l2为不小于1的任意实数。
也即,本申请实施例首先根据在当前页面的主信息中提取的每个特征词在当前页面中出现的次数,以及设定的分类模型,采用上述公式对当前页面可能属于每个类目的可能性进行估计,得到当前页面可能属于每个类目的估计值Prob。
在采用上述公式确定估计值时,由于Wkh为该第h个特征词在第k个类目下的权重值,而如果设定的分类模型中并不存在该第h个特征词在第k个类目下的权重值,则说明在设定分类模型时,属于该第k个类目下的各个已发布相关信息中均不包括该第h个特征词,此时将Wkh的值置为0,也即默认该第h个特征词在第k个类目下的权重值为0.
并且,上述公式中的Wkh可以采用设定该分类模型时重新确定的W′kh替代,Sigma_k也可以采用设定该分类模型时重新确定的Sigma_k′替代,以进一步提高信息发布的准确性。
S2032:根据分别针对不同的类目确定的估计值的大小关系,按照确定的估计值从大到小的顺序依次选择第二设定数量的类目,将选择的类目确定为当前页面所属的类目。
在本申请实施例中,一个页面可以发布多个类目的相关信息,因此在确定了当前页面可能属于每个类目的估计值之后,可以选择估计值较大的第二设定数量的类目,作为当前页面所属的类目,其中,该第二设定数量可以根据需要进行设定。
例如,假设该第二设定数量为5,则确定了当前页面可能属于每个类目的估计值之后,可以按照确定的估计值从大到小的顺序将每个类目进行排序,并选择排在前5的类目,也即选择确定的估计值较大的5个类目,作为当前页面所属的类目。
在后续的步骤中,则分别属于该5个类目的各相关信息发布到当前页面上,完成该相关信息的发布。
本申请实施例提供的信息发布方法可以应用于各种信息发布场景,包括B2B、B2C、C2C的商业资讯信息发布场景,以及其他信息发布场景。
图5为本申请实施例提供的信息发布装置结构示意图,具体包括:
特征词提取模块501,用于对当前页面的主信息进行分词处理,提取所述当前页面中的至少一个特征词;
频率确定模块502,用于确定提取的特征词在所述当前页面中出现的次数;
类目确定模块503,用于根据确定的特征词在所述当前页面中出现的次数,并基于设定的分类模型确定所述当前页面所属的类目;
发布模块504,用于将属于确定的类目的相关信息发布到所述当前页面上。
所述特征词提取模块501具体用于,将所述当前页面的主信息划分为不同的区域子信息,分别对划分的区域子信息进行分词处理。
所述频率确定模块502具体用于,分别针对划分的区域子信息,确定该特征词在该区域子信息中出现的次数,确定该特征词在该区域子信息中出现的次数,与为该区域子信息设置的权重值的乘积,将分别针对划分的区域子信息确定的乘积的和值,确定为该特征词在所述当前页面中出现的次数。
所述类目确定模块503具体包括:
模型设定单元5031,用于提取在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息,分别针对提取的已发布相关信息,确定该已发布相关信息所属的类目;分别针对不同的类目执行:在提取的属于该类目的已发布相关信息中选择第一设定数量的已发布相关信息,分别针对选择的第一设定数量的已发布相关信息,对选择的该已发布相关信息进行分词处理,提取选择的该已发布相关信息中的至少一个特征词,针对在选择的第一设定数量的已发布相关信息中提取到的所有特征词,采用公式确定该特征词在该类目下的权重值,其中,k表示该类目为第k个类目,j表示该特征词为提取到的所有特征词中的第j个特征词,Wkj为该特征词在该类目下的权重值,i表示选择的属于该类目的第一设定数量的已发布相关信息中的第i个已发布相关信息,m为所述第一设定数量,Dij为该特征词在选择的第i个已发布相关信息中出现的次数,l1为不小于1的任意实数,n为在选择的第一设定数量的已发布相关信息中提取到的所有特征词的数量,采用公式确定该类目的权重值,其中,Sigma_k为该类目的权重值;将分别针对不同的类目确定的该类目的权重值,以及针对在属于该类目的第一设定数量的已发布相关信息中提取到的所有特征词分别确定的该特征词在该类目下的权重值,确定为设定的分类模型。
所述模型设定单元5031具体用于,在确定该特征词在该类目下的权重值之后,分别针对每个类目,确定选择的属于该类目的第一设定数量的已发布相关信息中,包含该特征词的已发布相关信息的数量,确定分别针对每个类目确定的数量的和值,将确定的该特征词在该类目下的权重值与所述和值的倒数的乘积,重新确定为该特征词在该类目下的权重值。
所述模型设定单元5031具体用于,确定该类目的权重值之后,确定提取的在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息的数量,作为第一参数值,确定在提取的所有已发布相关信息中,属于该类目的已发布相关信息的数量,作为第二参数值,确定所述第二参数值与所述第一参数值的比值,将确定的该类目的权重值与所述比值的乘积,重新确定为该类目的权重值。
所述类目确定模块503具体包括:
类目确定单元5032,用于针对不同的类目,采用公式确定所述当前页面属于该类目的估计值,其中,Prob为所述当前页面属于该类目的估计值,N为在所述当前页面中提取的特征词的数量,h表示在所述当前页面中提取的第h个特征词,Dh为所述第h个特征词在所述当前页面中出现的次数,Wkh为所述第h个特征词在第k个类目下的权重值,l2为不小于1的任意实数;根据分别针对不同类目确定的估计值的大小关系,按照确定的估计值从大到小的顺序依次选择第二设定数量的类目,将选择的类目确定为所述当前页面所属的类目。
本申请实施例提供一种信息发布方法及装置,该方法对当前页面的主信息进行分词处理,提取其中的特征词,确定提取的特征词在当前页面中出现的次数,根据确定的特征词在当前页面中出现的次数,并基于设定的分类模型确定当前页面所属的类目,将属于确定的类目的相关信息发布到当前页面上。由于本申请实施例中直接在当前页面中提取特征词,根据特征词在当前页面中出现的次数,并基于设定的分类模型确定当前页面所属的类目,无需对当前页面进行人工的标注,因此提高了发布信息的效率,而且不会人工引入误差,提高了信息发布的准确性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种信息发布方法,其特征在于,包括:
对当前页面的主信息进行分词处理,提取所述当前页面中的至少一个特征词;
确定提取的特征词在所述当前页面中出现的次数;
根据确定的特征词在所述当前页面中出现的次数,并基于设定的分类模型确定所述当前页面所属的类目;
将属于确定的类目的相关信息发布到所述当前页面上。
2.如权利要求1所述的方法,其特征在于,对当前页面的主信息进行分词处理,具体包括:
将所述当前页面的主信息划分为不同的区域子信息,分别对划分的区域子信息进行分词处理。
3.如权利要求2所述的方法,其特征在于,确定提取的特征词在所述当前页面中出现的次数,具体包括:
针对提取的至少一个特征词执行下述步骤:
分别针对划分的区域子信息,确定该特征词在该区域子信息中出现的次数;
确定该特征词在该区域子信息中出现的次数,与为该区域子信息设置的权重值的乘积;
将分别针对划分的区域子信息确定的乘积的和值,确定为该特征词在所述当前页面中出现的次数。
4.如权利要求1所述的方法,其特征在于,设定分类模型,具体包括:
提取在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息;
分别针对提取的已发布相关信息,确定该已发布相关信息所属的类目;
分别针对不同的类目执行下述步骤:
在提取的属于该类目的已发布相关信息中选择第一设定数量的已发布相关信息;
分别针对选择的第一设定数量的已发布相关信息,对选择的该已发布相关信息进行分词处理,提取选择的该已发布相关信息中的至少一个特征词;
针对在选择的第一设定数量的已发布相关信息中提取到的所有特征词,采用公式确定该特征词在该类目下的权重值,其中,k表示该类目为第k个类目,j表示该特征词为提取到的所有特征词中的第j个特征词,Wkj为该特征词在该类目下的权重值,i表示选择的属于该类目的第一设定数量的已发布相关信息中的第i个已发布相关信息,m为所述第一设定数量,Dij为该特征词在选择的第i个已发布相关信息中出现的次数,l1为不小于1的任意实数,n为在选择的第一设定数量的已发布相关信息中提取到的所有特征词的数量;
将分别针对不同的类目确定的该类目的权重值,以及针对在属于该类目的第一设定数量的已发布相关信息中提取到的所有特征词分别确定的该特征词在该类目下的权重值,确定为设定的分类模型。
5.如权利要求4所述的方法,其特征在于,确定该特征词在该类目下的权重值之后,所述方法还包括:
分别针对每个类目,确定选择的属于该类目的第一设定数量的已发布相关信息中,包含该特征词的已发布相关信息的数量;
确定分别针对每个类目确定的数量的和值;
将确定的该特征词在该类目下的权重值与所述和值的倒数的乘积,重新确定为该特征词在该类目下的权重值。
6.如权利要求4所述的方法,其特征在于,确定该类目的权重值之后,所述方法还包括:
确定提取的在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息的数量,作为第一参数值;
确定在提取的所有已发布相关信息中,属于该类目的已发布相关信息的数量,作为第二参数值;
确定所述第二参数值与所述第一参数值的比值;
将确定的该类目的权重值与所述比值的乘积,重新确定为该类目的权重值。
7.如权利要求4、5或6所述的方法,其特征在于,根据确定的特征词在所述当前页面中出现的次数,基于设定的分类模型确定所述当前页面所属的类目,具体包括:
针对不同的类目,采用公式 确定所述当前页面属于该类目的估计值,其中,Prob为所述当前页面属于该类目的估计值,N为在所述当前页面中提取的特征词的数量,h表示在所述当前页面中提取的第h个特征词,Dh为所述第h个特征词在所述当前页面中出现的次数,Wkh为所述第h个特征词在第k个类目下的权重值,l2为不小于1的任意实数;
根据分别针对不同的类目确定的估计值的大小关系,按照确定的估计值从大到小的顺序依次选择第二设定数量的类目,将选择的类目确定为所述当前页面所属的类目。
8.一种信息发布装置,其特征在于,包括:
特征词提取模块,用于对当前页面的主信息进行分词处理,提取所述当前页面中的至少一个特征词;
频率确定模块,用于确定提取的特征词在所述当前页面中出现的次数;
类目确定模块,用于根据确定的特征词在所述当前页面中出现的次数,并基于设定的分类模型确定所述当前页面所属的类目;
发布模块,用于将属于确定的类目的相关信息发布到所述当前页面上。
9.如权利要求8所述的装置,其特征在于,所述特征词提取模块具体用于,将所述当前页面的主信息划分为不同的区域子信息,分别对划分的区域子信息进行分词处理。
10.如权利要求9所述的装置,其特征在于,所述频率确定模块具体用于,分别针对划分的区域子信息,确定该特征词在该区域子信息中出现的次数,确定该特征词在该区域子信息中出现的次数,与为该区域子信息设置的权重值的乘积,将分别针对划分的区域子信息确定的乘积的和值,确定为该特征词在所述当前页面中出现的次数。
11.如权利要求8所述的装置,其特征在于,所述类目确定模块具体包括:
模型设定单元,用于提取在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息,分别针对提取的已发布相关信息,确定该已发布相关信息所属的类目;分别针对不同的类目执行:在提取的属于该类目的已发布相关信息中选择第一设定数量的已发布相关信息,分别针对选择的第一设定数量的已发布相关信息,对选择的该已发布相关信息进行分词处理,提取选择的该已发布相关信息中的至少一个特征词,针对在选择的第一设定数量的已发布相关信息中提取到的所有特征词,采用公式确定该特征词在该类目下的权重值,其中,k表示该类目为第k个类目,j表示该特征词为提取到的所有特征词中的第j个特征词,Wkj为该特征词在该类目下的权重值,i表示选择的属于该类目的第一设定数量的已发布相关信息中的第i个已发布相关信息,m为所述第一设定数量,Dij为该特征词在选择的第i个已发布相关信息中出现的次数,l1为不小于1的任意实数,n为在选择的第一设定数量的已发布相关信息中提取到的所有特征词的数量,采用公式确定该类目的权重值,其中,Sigma_k为该类目的权重值;将分别针对不同的类目确定的该类目的权重值,以及针对在属于该类目的第一设定数量的已发布相关信息中提取到的所有特征词分别确定的该特征词在该类目下的权重值,确定为设定的分类模型。
12.如权利要求11所述的装置,其特征在于,所述模型设定单元具体用于,在确定该特征词在该类目下的权重值之后,分别针对每个类目,确定选择的属于该类目的第一设定数量的已发布相关信息中,包含该特征词的已发布相关信息的数量,确定分别针对每个类目确定的数量的和值,将确定的该特征词在该类目下的权重值与所述和值的倒数的乘积,重新确定为该特征词在该类目下的权重值。
13.如权利要求11所述的装置,其特征在于,所述模型设定单元具体用于,确定该类目的权重值之后,确定提取的在设定的时间段内被点击的次数高于设定次数的所有已发布相关信息的数量,作为第一参数值,确定在提取的所有已发布相关信息中,属于该类目的已发布相关信息的数量,作为第二参数值,确定所述第二参数值与所述第一参数值的比值,将确定的该类目的权重值与所述比值的乘积,重新确定为该类目的权重值。
14.如权利要求11、12或13所述的装置,其特征在于,所述类目确定模块具体包括:
类目确定单元,用于针对不同的类目,采用公式确定所述当前页面属于该类目的估计值,其中,Prob为所述当前页面属于该类目的估计值,N为在所述当前页面中提取的特征词的数量,h表示在所述当前页面中提取的第h个特征词,Dh为所述第h个特征词在所述当前页面中出现的次数,Wkh为所述第h个特征词在第k个类目下的权重值,l2为不小于1的任意实数;根据分别针对不同类目确定的估计值的大小关系,按照确定的估计值从大到小的顺序依次选择第二设定数量的类目,将选择的类目确定为所述当前页面所属的类目。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100784397A CN103324633A (zh) | 2012-03-22 | 2012-03-22 | 一种信息发布方法及装置 |
TW101117558A TW201339859A (zh) | 2012-03-22 | 2012-05-17 | 資訊發佈方法及裝置 |
US13/848,671 US20130254204A1 (en) | 2012-03-22 | 2013-03-21 | Method and Apparatus of Publishing Information |
JP2015501918A JP2015511051A (ja) | 2012-03-22 | 2013-03-21 | 情報を公開する方法および装置 |
PCT/US2013/033376 WO2013142732A2 (en) | 2012-03-22 | 2013-03-21 | Method and apparatus of publishing information |
EP13728014.5A EP2828771A4 (en) | 2012-03-22 | 2013-03-21 | METHOD AND DEVICE FOR PUBLISHING INFORMATION |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100784397A CN103324633A (zh) | 2012-03-22 | 2012-03-22 | 一种信息发布方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103324633A true CN103324633A (zh) | 2013-09-25 |
Family
ID=48579461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100784397A Pending CN103324633A (zh) | 2012-03-22 | 2012-03-22 | 一种信息发布方法及装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20130254204A1 (zh) |
EP (1) | EP2828771A4 (zh) |
JP (1) | JP2015511051A (zh) |
CN (1) | CN103324633A (zh) |
TW (1) | TW201339859A (zh) |
WO (1) | WO2013142732A2 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843617B (zh) * | 2016-03-23 | 2018-11-13 | 深圳市茁壮网络股份有限公司 | 一种2d特效绘制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266671A (zh) * | 2007-03-13 | 2008-09-17 | 李凤仙 | 一种网络广告竞价方法及系统 |
CN101291304A (zh) * | 2008-06-13 | 2008-10-22 | 清华大学 | 可移植的网络信息共享方法 |
US7725424B1 (en) * | 1999-03-31 | 2010-05-25 | Verizon Laboratories Inc. | Use of generalized term frequency scores in information retrieval systems |
CN102084388A (zh) * | 2008-06-23 | 2011-06-01 | 双重验证有限公司 | 基于因特网的广告的自动监控和验证 |
WO2011159408A1 (en) * | 2010-06-18 | 2011-12-22 | Track180, Inc. | Information display |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003736B2 (en) * | 2001-01-26 | 2006-02-21 | International Business Machines Corporation | Iconic representation of content |
US7577654B2 (en) * | 2003-07-25 | 2009-08-18 | Palo Alto Research Center Incorporated | Systems and methods for new event detection |
US7668889B2 (en) * | 2004-10-27 | 2010-02-23 | At&T Intellectual Property I, Lp | Method and system to combine keyword and natural language search results |
GB2442286A (en) * | 2006-09-07 | 2008-04-02 | Fujin Technology Plc | Categorisation of data e.g. web pages using a model |
WO2008126790A1 (ja) * | 2007-04-09 | 2008-10-23 | Nec Corporation | 物体認識システム、物体認識方法および物体認識用プログラム |
JP5056133B2 (ja) * | 2007-04-13 | 2012-10-24 | 日本電気株式会社 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
JP4962986B2 (ja) * | 2008-04-01 | 2012-06-27 | ヤフー株式会社 | コンテンツデータをカテゴリに分類する方法、サーバ、およびプログラム |
US8671112B2 (en) * | 2008-06-12 | 2014-03-11 | Athenahealth, Inc. | Methods and apparatus for automated image classification |
US8176069B2 (en) * | 2009-06-01 | 2012-05-08 | Aol Inc. | Systems and methods for improved web searching |
-
2012
- 2012-03-22 CN CN2012100784397A patent/CN103324633A/zh active Pending
- 2012-05-17 TW TW101117558A patent/TW201339859A/zh unknown
-
2013
- 2013-03-21 WO PCT/US2013/033376 patent/WO2013142732A2/en active Application Filing
- 2013-03-21 JP JP2015501918A patent/JP2015511051A/ja active Pending
- 2013-03-21 EP EP13728014.5A patent/EP2828771A4/en not_active Withdrawn
- 2013-03-21 US US13/848,671 patent/US20130254204A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725424B1 (en) * | 1999-03-31 | 2010-05-25 | Verizon Laboratories Inc. | Use of generalized term frequency scores in information retrieval systems |
CN101266671A (zh) * | 2007-03-13 | 2008-09-17 | 李凤仙 | 一种网络广告竞价方法及系统 |
CN101291304A (zh) * | 2008-06-13 | 2008-10-22 | 清华大学 | 可移植的网络信息共享方法 |
CN102084388A (zh) * | 2008-06-23 | 2011-06-01 | 双重验证有限公司 | 基于因特网的广告的自动监控和验证 |
WO2011159408A1 (en) * | 2010-06-18 | 2011-12-22 | Track180, Inc. | Information display |
Also Published As
Publication number | Publication date |
---|---|
EP2828771A4 (en) | 2015-12-02 |
WO2013142732A3 (en) | 2014-01-09 |
US20130254204A1 (en) | 2013-09-26 |
EP2828771A2 (en) | 2015-01-28 |
JP2015511051A (ja) | 2015-04-13 |
WO2013142732A2 (en) | 2013-09-26 |
TW201339859A (zh) | 2013-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241474B (zh) | 页面信息的提供、展示、发布方法、服务器及客户端 | |
CN106331778A (zh) | 视频推荐方法和装置 | |
CN104933084A (zh) | 一种用于获得答案信息的方法、装置和设备 | |
CN104281656B (zh) | 在应用程序中加入标签信息的方法和装置 | |
CN104951456A (zh) | 一种用于获得答案信息的方法、装置和设备 | |
CN114492831B (zh) | 联邦学习模型的生成方法及其装置 | |
CN104731873A (zh) | 一种评价信息生成方法和装置 | |
CN104731874A (zh) | 一种评价信息生成方法和装置 | |
EP4343583A1 (en) | Text input method and apparatus, and electronic device and storage medium | |
CN112784112A (zh) | 报文校验方法及装置 | |
CN103607668B (zh) | 一种视频播放方法及装置 | |
CN103136235A (zh) | 数据处理平台、数据处理系统及数据处理方法 | |
CN112287659A (zh) | 一种信息生成方法、装置、电子设备及存储介质 | |
CN108256078A (zh) | 信息获取方法和装置 | |
CN103324633A (zh) | 一种信息发布方法及装置 | |
CN105138576A (zh) | 一种用于在移动搜索中提供推荐输入序列的方法和装置 | |
CN109271254A (zh) | 应用间进程调起的方法、电子设备及介质 | |
CN105528247B (zh) | 一种信息处理方法及客户端 | |
CN105446971A (zh) | 一种信息显示方法和装置 | |
CN108363731B (zh) | 一种业务发布方法、装置以及电子设备 | |
CN111291174A (zh) | 基于区块链的线上阅读文章资讯排序方法及设备、介质 | |
CN104657882A (zh) | 推广效果数据的获取方法及装置 | |
CN109558523B (zh) | 搜索处理方法、装置及终端设备 | |
CN109116997A (zh) | 一种基于拼音的搜索方法及装置 | |
CN106648824A (zh) | 广播处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1185970 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130925 |
|
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1185970 Country of ref document: HK |