CN103577414B - 数据处理方法和设备 - Google Patents

数据处理方法和设备 Download PDF

Info

Publication number
CN103577414B
CN103577414B CN201210254434.5A CN201210254434A CN103577414B CN 103577414 B CN103577414 B CN 103577414B CN 201210254434 A CN201210254434 A CN 201210254434A CN 103577414 B CN103577414 B CN 103577414B
Authority
CN
China
Prior art keywords
webpage
term
candidate keywords
rank
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210254434.5A
Other languages
English (en)
Other versions
CN103577414A (zh
Inventor
孙健
夏迎炬
杨宇航
张明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210254434.5A priority Critical patent/CN103577414B/zh
Publication of CN103577414A publication Critical patent/CN103577414A/zh
Application granted granted Critical
Publication of CN103577414B publication Critical patent/CN103577414B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

公开了一种数据处理方法和设备,该方法包括:图片识别步骤,用于从图片识别关键词作为初始的检索词;网页和候选关键词获取步骤,用于在搜索引擎中利用检索词进行搜索来获取网页并从网页中挖掘候选关键词;评级步骤,用于基于检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级;以及检索词选择步骤,用于基于评级结果从候选关键词中选择网页和候选关键词获取步骤中下次所用的检索词,重复执行网页和候选关键词获取步骤、评级步骤和检索词选择步骤,直到满足预定条件。根据本发明实施例,可以提高数据处理效率,更准确地从图片挖掘主题关键词和主题网页,从而有利于向用户进行后续的扩展应用和服务推荐。

Description

数据处理方法和设备
技术领域
本发明涉及一种数据处理方法和设备,更具体地,涉及一种用于从图片挖掘主题关键词和主题网页的方法和设备。
背景技术
图片中的文字往往对了解该图片的内容非常重要。例如,广告图片中文本信息对客户了解广告内容具有重要作用。利用字符识别(例如,OCR(光学字符识别))的结果和网络信息可以更加全面地提取广告的文本内容,通过挖掘这些信息并提取广告的主题(包括主题词和主题网页),将向客户推荐其扩展应用或服务。
由于字符识别技术不能锁定代表图片(例如,广告图片)主题的关键词,所以借助互联网大量的文本信息,验证并提取广告图像中的文本。使用字符识别结果中的关键词进行检索,文本聚类和匹配等数据挖掘手段,可获取和广告相关的主题网页(检索的网页和广告本身都表达一个内容)。然而由于字符识别结果的具有一定不完整性或不正确性,导致部分关键词检索出的网页可能具有发散性,生成噪音数据,而且如果关键词搜索的网页发散,其输入的关键词的正确识别结果将被丢弃,不能召回。
因此,需要一种能够解决上述问题的技术。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
因此,鉴于上述情形,本发明的目的是提供一种数据处理方法和设备,其能够通过利用网络挖掘所获得的网页对图片的识别结果进行校验,将校验产生的候选词再次作为检索词进行网络检索和网络挖掘,并根据检索词与网页之间的链接关系来进一步挖掘与图片的主题关键词和主题网页。
根据本发明的实施例的一方面,提供了一种数据处理方法,其包括:图片识别步骤,用于从图片识别关键词作为初始的检索词;网页和候选关键词获取步骤,用于在搜索引擎中利用检索词进行搜索来获取网页,并从网页中挖掘候选关键词;评级步骤,用于基于检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级;以及检索词选择步骤,用于基于评级结果从候选关键词中选择网页和候选关键词获取中下次所用的检索词,其中,重复执行网页和候选关键词获取步骤、评级步骤和检索词选择步骤,直到满足预定条件为止。
根据本发明的优选实施例,在评级步骤中,还可以基于检索词和/或候选关键词以及网页与图片识别结果之间的相似度来对检索词和/或候选关键词以及所述网页进行评级。
根据本发明的另一优选实施例,在评级步骤中,基于检索词和/或候选关键词与网页之间的链接关系、以及检索词和/或候选关键词以及网页与图片识别结果之间的相似度,分别计算检索词和/或候选关键词以及网页的指向性级别和被指向性级别,并且基于指向性级别和被指向性级别中的至少一个对检索词和/或候选关键词以及网页进行评级。
根据本发明的另一优选实施例,该数据处理方法还可以包括:评分步骤,用于在达到预定条件的情况下,基于指向性级别、被指向性级别以及这两种级别的加权组合中的一种或多种,对检索词和/或候选关键词以及网页进行评分;以及输出步骤,基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。
根据本发明的另一优选实施例,在网页和候选关键词获取步骤中,还可以进一步将网页与图片识别结果进行比较来筛选网页。
根据本发明的实施例的另一方面,还公开了一种数据处理设备,其包括:图片识别单元,被配置成从图片识别关键词作为初始的检索词;网页和候选关键词获取单元,被配置成在搜索引擎中利用检索词进行搜索来获取网页,并从网页中挖掘候选关键词;评级单元,被配置成基于检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级;检索词选择单元,被配置成基于评级结果从候选关键词中选择网页和候选关键词获取单元下次所用的检索词;以及控制单元,被配置成控制网页和候选关键词获取单元、评级单元和检索词选择单元重复执行处理,直到满足预定条件为止。
另外,根据本发明的实施例的另一方面,还提供了一种终端设备,该终端设备包括上述数据处理设备。这种终端设备例如可以包括移动电话、掌上电脑、平板电脑、个人计算机,等等。
另外,根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本发明的数据处理方法。
此外,根据本发明的实施例的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本发明的数据处理方法。
因此,根据本发明的实施例,能够提高数据处理效率,更准确地从图片挖掘主题关键词和主题网页,从而有利于向用户进行后续的扩展应用和服务推荐。
在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
附图说明
本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。其中:
图1是示出根据本发明的一个实施例的数据处理方法的流程图;
图2是示出根据本发明的图片的示例;
图3是示出检索词和/或候选关键词与网页之间的链接关系的示意图;
图4是示出根据本发明的另一实施例的数据处理设备的功能配置的框图;以及
图5是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
以下将参照图1至5来详细描述根据本发明的实施例的数据处理方法和数据处理设备。
首先将参照图1来描述根据本发明的一个实施例的数据处理方法。如图1所示,该数据处理方法可以包括图片识别步骤S101、网页和候选关键词获取步骤S102、评级步骤S103、检索词选择步骤S104以及判断步骤S105。优选地,该数据处理方法还可以包括评分步骤S106以及输出步骤S107。接下来将详细描述各个步骤中的处理。
首先,在图片识别步骤S101中,可以从图片识别关键词作为初始的检索词。该图片例如可以为广告图片,并且例如可以采用OCR(光学字符识别)技术来从广告图片识别关键词作为初始的检索词。然而,应理解,字符识别方法不限于此,而可以采用任意适当的字符识别方法。图片可以是任意需要处理的图片,例如,广告图片、从视频中截取的图片或任意其他图片。
接下来,在网页和候选关键词获取步骤S102中,可以在搜索引擎中利用所获得的检索词进行搜索来获取网页,并且从网页挖掘候选关键词。从搜索到的网页挖掘候选关键词的方法是本领域公知的,在此不再赘述。
优选地,由于搜索引擎返回的网页的数量非常大并且其中可能存在许多与图片相关性较低的网页,因此在网页和候选关键词获取步骤S102中,还可以在挖掘候选关键词之前,将搜索到的网页与步骤S101中的图片识别结果进行比较,以初步对网页进行筛选,从而在一定程度上减少了数据处理量,提高了数据处理效率。
在评级步骤S103中,可以基于所获取的检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级。
优选地,在评级步骤S103中,还可以基于所获取的检索词和/或候选关键词以及网页与步骤S101中的图片识别结果之间的相似度进行评级。通过与图片识别结果进行匹配来进行评级,可以进一步提高处理的准确性。优选地,可以根据接下来描述的特定编辑距离公式并通过多项特征融合的方式来计算相似度。
相似度的计算涉及编辑距离以及多特征选择和融合。以下以从网页中挖掘的候选关键词为例来描述相似度的计算。
首先描述基于在图片中识别出的关键词的置信度的编辑距离计算方法。
因为字符识别算法可能不是完全准确,例如,字符识别出现错误、噪音等问题,所以可以采用编辑距离算法提取从图片中识别的关键词(即,初始的检索词或初始的检索词的一部分)。编辑距离的计算是以动态规划方式寻找当前最小编辑代价来实现的。编辑代价包括三种:增加一个字符所花费的代价,删除一个字符所花费的代价,以及替换一个字符所花费的代价。
在本发明的一个实施例中,对一般的编辑距离算法进行了改进。
由于字符识别的每个字符都具有置信度。置信度的值表示字符识别的准确率。置信度越高,说明字符识别越准确。因此,在本发明中,修改了编辑代价函数,即,将每个字符的替换函数变换成字符的置信度。
假设从图片中识别的关键词字符串为O=O1,O2,……,Om,候选关键词字符串为C=C1,C2,……,Cn,那么从字符串O到候选字符串C的编辑距离δ(O,C)如下:
δ(O,C)=min{γ(S)|S为O到C的编辑序列} (1)
上述公式可递归定义如下:
其中,γ(S)表示编辑序列S的代价函数,ε表示空串,γ(Oi→ε)表示删除字符Oi,修改的替换代价变为置信度值confidence(Oi)。
图2是示出根据本发明的图片的示例。
图2中的图片为广告图片。从该图片中识别的关键词之一“枷1的午后”的每个字符(“枷”,“1”,“的”,“午”,“后”,“,”)都具有置信度。具体如下:“枷1的午后,”整体的置信度为0.8827,“枷”的置信度为0.3346,“1”的置信度为“0.7777”,“的”的置信度为0.8571,“午”的置信度为“0.9577”,“后”的置信度为0.9417,“,”的置信度为“-1.0000”。
该关键词和候选关键词的编辑距离如下:
edit(i,j)表示O中[0....i]的子串Oi到C中[0....j]的子串Cj的编辑距离,f(i,j)表示O中第i个字符O(i)转换到C中第j个字符C(j)所需要的操作代价,如果O(i)=C(j),则不需要任何操作f(i,j)=0;否则,需要替换操作,f(i,j)=conf(i,j)。
如果i=0且j=0,则edit(0,0)=1
如果i=0且j>0,则edit(0,j)=edit(0,j-1)+1
如果i>0且j=0,edit(i,0)=edit(i-1,0)+1
如果i>0且j>0,则edit(i,j)=min(edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+conf(i,j))
可以采用特征融合的方式来计算从图片中识别出的关键词O与候选关键词C之间相似度Sim(O,C),如下:
sim(O,C)=α1f12f2+……+αnfn (3)
其中,α12,……,αn为特征的参数,f1,f2,……,fn为可以选择的特征,O为从图片中识别出的关键词,C为从候选关键词。
其中,特征f1,f2,……,fn可以包括以下各项中的至少一项:从图片中识别的关键词的大小、候选关键词在相应文本中的位置、候选关键词和从图片中识别的关键词的公共子串、从图片中识别的关键词在图片中的几何距离、候选关键词在相应文本中的互信息、以及从图片中识别的关键词和候选关键词之间的编辑距离。
从图片中识别的关键词的大小说明信息重要性。从图片中识别的关键词越大则越能说明图片本身想呈现给用户的信息,就越能表示该图片的意思。例如,可以通过下式(4)把从图片中识别的关键词的大小归一化作为上述特征之一。
其中,Normalizationi表示从图片中识别的第i个关键词的归一化的大小,Sizei表示未归一化的第i个关键词的大小,Max(Size)表示最大的关键词的大小。
本领域技术人员可以理解,不一定执行归一化,而可以直接使用关键词的大小。
候选关键词是来自网页内容文本,而其所在的位置具有不同的权重,如标题、摘要、内容具有不同的权重意义,所以候选关键词所在文中的位置是一个关键特征。
候选关键词C和从图片中识别的关键词O的公共子串表示从网页中提取的候选关键词C与从图片中识别的关键词O的相似程度。所以公共子串的多少也影响了选择所候选的关键词的可信度。
图片图像的文字排版其实说明了图片的重要信息的匹配依赖程度。从几何角度,图片图像的多个字符排列紧密说明它们是在表示同一个意义,或者在补充说明一个活动和产品的特性,因此文本中多个字符的共现程度更能详细解释图片的信息,使用字符识别的坐标信息来提取多个字符相互之间的欧式距离的特征如下:
X和Y分别是从图片中识别的关键词,下标left,right,on,down分别表示从图片中识别的关键词的左、右、上、下坐标。
候选关键词在主题网页的文本中彼此互信息说明其文本相互之间的依赖程度,其互信息越大,共现程度越大,图片信息越全面。互信息I(A,B)可以计算如下:
其中,P(A)表示词X在文本中的概率,P(A,B)表示A和B在文本中的联合概率。
可以根据公式(3),将上述多个特征中的一个或多个进行融合来计算候选关键词与图片识别结果之间的相似度。优选地,网页与图片识别结果之间的相似度可以为从该网页挖掘到的所有候选关键词与图片识别结果之间的相似度的平均值。
优选地,在评级步骤S103中,基于检索词和/或候选关键词与网页之间的链接关系、以及通过上述方法算出的检索词和/或候选关键词以及网页与图片识别结果之间的相似度来计算检索词和/或候选关键词以及网页的指向性级别和被指向性级别,并且基于指向性级别和被指向性级别中的至少一种来进行评级。
具体地,分别基于以下公式(7)和(8)来计算检索词和/或候选关键词的指向性级别和被指向性级别:
其中,sim(w)表示检索词和/或候选关键词w与图片识别结果之间的相似度,f(w→di)表示检索词和/或候选关键词w指向网页di的概率,Pointed(di)表示网页di的被指向性级别,f(di→w)表示网页di指向检索词和/或候选关键词w的概率,Pointing(di)表示网页di的指向性级别,并且αw和βi d为预设的权重值,其可以为经验值和/或通过有限次的实验来确定。
此外,分别基于以下公式(9)和(10)来计算网页的指向性级别和被指向性级别:
其中,sim(d)表示所述网页d与图片识别结果之间的相似度,f(d→wj)表示网页d指向检索词和/或候选关键词wj的概率,Pointed(wj)表示检索词和/或候选关键词wj的被指向性级别,f(wj→d)表示检索词和/或候选关键词wj指向网页d的概率,Pointing(wj)表示检索词和/或候选关键词wj的指向性级别,并且αd和βj w为预设的权重值,其可以为经验值和/或通过有限次的实验来确定。
图3是示出检索词和/或候选关键词与网页之间的链接关系的示意图。如图3所示,W1和W2表示检索词和/或候选关键词,D1、D2和D3表示搜索到的网页,Pji表示词Wj指向网页Di的概率,并且Qij表示网页Di指向词Wj的概率。下面以词W1和网页D2为例来具体说明使用上述的指向性级别和被指向性级别计算公式(7)至(10)来计算词W1和D2的指向性级别和被指向性级别。
词W1的指向性级别依赖于其与图片识别结果之间的相似度以及其指向的网页D1、D2和D3的被指向性级别,即,
词W1的被指向性级别依赖于其与图片识别之间的相似度以及指向它的网页D1和D2的指向性级别,即,
类似地,网页D2的指向性级别依赖于其与图片识别结果之间的相似度以及其指向的词W1和W3的被指向性级别,即,
网页D2的被指向性级别依赖于其与图片识别结果之间的相似度以及指向它的词W1和W2的指向性级别,即,
优选地,在初始状态下,可以将上述四种级别的初始值均设置为1,随着迭代操作的执行,这四种级别的值会趋于特定的稳定值。
优选地,对检索词和/或候选关键词以及网页的评级可以基于其指向性级别、被指向性级别和/或指向性级别与被指向级别的加权组合。
接下来,在检索词选择步骤S104中,基于在步骤S103中的评级结果从所获取的候选关键词中选择一部分候选关键词作为网页和候选关键词获取步骤S102中下次所使用的检索词。优选地,从候选关键词中选择检索词的规则例如可以包括但不限于:选择候选关键词中评级结果排序靠前的预定数量的候选关键词作为检索词;选择候选关键词中评级结果大于预定阈值的候选关键词作为检索词;以及前述两种规则的组合等等。
然后,在判断步骤S105中判断是否满足预定条件,如果不满足,则重复执行上述网页和候选关键词获取步骤S102、评级步骤S103以及检索词选择步骤S104中的处理;否则终止重复处理。
具体地,该迭代操作为:将所选择的候选关键词作为检索词,在搜索引擎中进行网页检索,从检索到的网页提取候选关键词,基于当前的网页与检索词和/或候选关键词之间的链接关系、以及它们与图片识别结果之间的相似度对词和网页进行评级,再次基于评级结果从候选关键词中选择符合预定规则的候选关键词作为检索词。如此重复迭代执行,直到达到预定条件。
优选地,预定条件例如可以包括但不限于:对检索词和/或候选关键词以及网页的评级结果收敛于稳定值;达到预定的迭代次数;以及前述两种条件的组合等等。
优选地,如图1所示,该数据处理方法还可以包括评分步骤S106和输出步骤S107。
在评分步骤S106中,当迭代处理结束时,即当达到上述预定条件时,可以基于此时得到的关于各个检索词和/或候选关键词以及网页的指向性级别、被指向性级别以及这两种级别的加权组合中的一种或多种,对检索词和/或候选关键词以及网页进行评分。优选地,这里的评分可以是关于各个检索词和/或候选关键词以及网页的主题性的评分,即与图片的主题的相关性的评分。
具体地,关于检索词和/或候选关键词的评分,可以由以下表达式(11)至(13)来表示:
Topic(w)=Pointed(w) (11)
Topic(w)=Pointing(w) (12)
其中,Topic(w)表示关于检索词和/或候选关键词w的主题性的评分值,Pointing(w)和Pointed(w)分别表示词w此时(即,达到上述预定条件时)的指向性级别和被指向级别,为预定的加权系数,其可以为经验值或者可以通过有限次的实验来确定。
类似地,关于网页的评分,可以由以下表达式(14)至(16)来表示:
Topic(d)=Pointed(d) (14)
Topic(d)=Pointing(d) (15)
其中,Topic(d)表示关于网页的主题性的评分值,Pointing(d)和Pointed(d)分别表示网页d此时(即,达到上述预定条件时)的指向性级别和被指向级别,为预定的加权系数,其可以为经验值或者可以通过有限次的实验来确定。
最后,在输出步骤S107中,可以基于步骤S106中的评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。优选地,该预定标准可以例如包括但不限于:评分值排名靠前的预定数量的词和网页;评分值大于预定阈值的词和网页;以及上述两种标准的组合等等。
通过执行上述步骤S101至S107中的处理,可以从图片中更加全面准确地提取图片本身的内容及其扩展信息,确定图片的主题,并且例如在用户终端的屏幕上显示所确定的主题关键词和主题网页,从而有利于向用户提供推荐应用及服务。
虽然上面结合图1至图3详细描述了根据本发明实施例的数据处理方法,但是本领域的技术人员应当明白,附图所示的流程图仅仅是示例性的,并且可以根据实际应用和具体要求的不同,对上述方法流程进行相应的修改。例如,根据需要,可以对上述方法中的某些步骤的执行顺序进行调整,或者可以省去或者添加某些处理步骤。此外,应理解,以上示例并不构成对本发明的限制,本领域技术人员可以基于所教导的原理,对上述过程进行适当的修改而应用于其它应用场合。
与根据本发明实施例的数据处理方法相对应,本发明的实施例还提供了一种数据处理设备。以下将参照图4详细描述根据本发明的数据处理设备的功能配置示例。
具体地,如图4所示,该数据处理设备400可以包括图片识别单元401、网页和候选关键词获取单元402、评级单元403、检索词选择单元404和控制单元405。优选地,该数据处理设备还可以包括评分单元406和输出单元407。接下来将详细描述各个单元的功能配置。
图片识别单元401可以被配置成从图片识别关键词作为初始的检索词。该识别方法例如可以为OCR技术,图片例如可以为广告图片,但是并不限于此。
网页和候选关键词获取单元402可以被配置成在搜索引擎中利用所获得的检索词进行搜索来获取网页,并且从网页挖掘候选关键词。从网页挖掘候选关键词可以利用本领域公知的任意方法来进行,这里不对此进行限制。
优选地,网页和候选关键词获取单元402还可以被配置成将搜索返回的网页与图片识别结果进行比较,以初步筛选出与图片相关性较高的网页,从而减少了数据处理量,提高了数据处理效率。
评级单元403可以被配置成基于所获取的关键词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级。
优选地,评级单元403还可以被配置成基于所获取的检索词和/或候选关键词以及网页与图片识别结果之间的相似度来进行评级。通过将检索词和/或候选关键词以及网页与图片识别结果进行匹配,可以进一步提高处理的准确性。相似度的计算可以根据以上关于根据本发明的实施例的数据处理方法所描述的特定编辑距离公式和多项特征融合方式来实现,在此不再重复描述。
优选地,评级单元403可以被配置成基于检索词和/或候选关键词与网页之间的链接关系、以及检索词和/或候选关键词以及网页与图片识别结果之间的相似度来计算检索词和/或候选关键词以及网页的指向性级别和被指向性级别,并且基于指向性级别和被指向性级别中的至少一种来对检索词和/或候选关键词以及网页进行评级。
检索词和/或候选关键词以及网页的指向性级别和被指向性级别的计算可以参照以上关于根据本发明的实施例所描述的方法来实现,在此不再重复描述。在初始状态下,这四种级别的初始值可以设置为1,并且随着迭代操作的执行,这四种级别的值会趋于稳定值。
优选地,评级单元403可以基于各自的指向性级别、被指向性级别和/或指向性级别与被指向级别的加权组合来对检索词和/或候选关键词以及网页进行评级。
检索词选择单元404可以被配置成基于评级单元403的评级结果,从所获取的候选关键词中选择一部分关键词作为网页和候选关键词获取单元402执行下次处理所使用的检索词。优选地,从候选关键词选择检索词的规则可以包括但不限于:选择候选关键词中评级结果排序靠前的预定数量的候选关键词作为检索词;选择候选关键词中评级结果大于预定阈值的候选关键词作为检索词;以及前述两种规则的组合等等。
控制单元405可以被配置成控制网页和候选关键词获取单元402、评级单元403以及检索词选择单元404重复执行各自的处理,直到满足预定条件为止。优选地,预定条件可以包括但不限于:对检索词和/或候选关键词以及网页的评级结果收敛于稳定值;达到预定的迭代次数;以及前述两种条件的组合等等。
评分单元406可以被配置成在达到上述预定条件的情况下,基于此时所确定的关于各个检索词和/或候选关键词以及网页的指向性级别、被指向性级别以及这两种级别的加权组合中的一种或多种,对检索词和/或候选关键词以及网页进行评分。这里的评分是关于各个检索词和/或候选关键词以及网页的主题性的评分,即与图片的主题的相关性的评分。
具体的评分过程可以参见以上关于根据本发明的实施例的数据处理方法所做的描述,在此不再重复。
输出单元407可以被配置成基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。优选地,该预定标准可以包括但不限于:评分值排名靠前的预定数量的词和网页;评分值大于预定阈值的词和网页;以及上述两种标准的组合等等。
需要说明的是,本发明实施例所述的设备是与前述方法实施例相对应的,因此,设备实施例中未详述的部分,请参见方法实施例中相应位置的介绍,这里不再赘述。
另外,还应该指出的是,上述系列处理和设备也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图5所示的通用个人计算机500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等等时所需的数据。
CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506,包括键盘、鼠标等等;输出部分507,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分508,包括硬盘等等;和通信部分509,包括网络接口卡比如LAN卡、调制解调器等等。通信部分509经由网络比如因特网执行通信处理。
根据需要,驱动器510也连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
根据本发明的实施例,还公开了以下附记:
附记1.一种数据处理方法,包括:
图片识别步骤,用于从图片识别关键词作为初始的检索词;
网页和候选关键词获取步骤,用于在搜索引擎中利用所述检索词进行搜索来获取网页,并从所述网页中挖掘候选关键词;
评级步骤,用于基于所述检索词和/或所述候选关键词与所述网页之间的链接关系,对所述检索词和/或所述候选关键词以及所述网页进行评级;以及
检索词选择步骤,用于基于所述评级结果从所述候选关键词中选择所述网页和候选关键词获取步骤中下次所用的检索词;
其中,重复执行所述网页和候选关键词获取步骤、所述评级步骤和所述检索词选择步骤,直到满足预定条件为止。
附记2.根据附记1所述的方法,其中,在所述评级步骤中,还基于所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度来对所述检索词和/或所述候选关键词以及所述网页进行评级。
附记3.根据附记2所述的方法,其中,在所述评级步骤中,基于所述检索词和/或所述候选关键词与所述网页之间的链接关系、以及所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级。
附记4.根据附记3所述的方法,其中,
根据以下公式计算所述检索词和/或所述候选关键词的指向性级别:
根据以下公式计算所述检索词和/或所述候选关键词的被指向性级别:
其中,sim(w)表示检索词和/或候选关键词w与图片识别结果之间的相似度,f(w→di)表示检索词和/或候选关键词w指向网页di的概率,Pointed(di)表示网页di的被指向性级别,f(di→w)表示网页di指向检索词和/或候选关键词w的概率,Pointing(di)表示网页di的指向性级别,并且αw和βi d为预设的权重值;以及
根据以下公式计算所述网页的指向性级别:
根据以下公式计算所述网页的被指向性级别:
其中,sim(d)表示所述网页d与图片识别结果之间的相似度,f(d→wj)表示网页d指向检索词和/或候选关键词wj的概率,Pointed(wj)表示检索词和/或候选关键词wj的被指向性级别,f(wj→d)表示检索词和/或候选关键词wj指向网页d的概率,Pointing(wj)表示检索词和/或候选关键词wj的指向性级别,并且αd和βj w为预设的权重值。
附记5.根据附记3所述的方法,还包括:
评分步骤,用于在达到所述预定条件的情况下,基于所述指向性级别、所述被指向性级别以及这两种级别的加权组合中的一种或多种,对所述检索词和/或所述候选关键词以及所述网页进行评分;以及
输出步骤,基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。
附记6.根据附记1所述的方法,其中,在所述网页和候选关键词获取步骤中,进一步将所述网页与图片识别结果进行比较来筛选所述网页。
附记7.根据附记1所述的方法,其中,所述预定条件包括:评级结果收敛于稳定值和/或达到预定的迭代次数。
附记8.根据附记1-7中任一项所述的方法,其中,在所述图片识别步骤中利用光学字符识别OCR技术来进行图片识别。
附记9.一种数据处理设备,包括:
图片识别单元,被配置成从图片识别关键词作为初始的检索词;
网页和候选关键词获取单元,被配置成在搜索引擎中利用所述检索词进行搜索来获取网页,并从所述网页中挖掘候选关键词;
评级单元,被配置成基于所述检索词和/或所述候选关键词与所述网页之间的链接关系,对所述检索词和/或所述候选关键词以及所述网页进行评级;
检索词选择单元,被配置成基于所述评级结果从所述候选关键词中选择所述网页和候选关键词获取单元下次所用的检索词;以及
控制单元,被配置成控制所述网页和候选关键词获取单元、所述评级单元和所述检索词选择单元重复执行处理,直到满足预定条件为止。
附记10.根据附记9所述的设备,其中,所述评级单元还被配置成基于所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度来对所述检索词和/或所述候选关键词以及所述网页进行评级。
附记11.根据附记10所述的设备,其中,所述评级单元被配置成基于所述检索词和/或所述候选关键词与所述网页之间的链接关系、以及所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级。
附记12.根据附记11所述的设备,其中,
根据以下公式计算所述检索词和/或所述候选关键词的指向性级别:
根据以下公式计算所述检索词和/或所述候选关键词的被指向性级别:
其中,sim(w)表示检索词和/或候选关键词w与图片识别结果之间的相似度,f(w→di)表示检索词和/或候选关键词w指向网页di的概率,Pointed(di)表示网页di的被指向性级别,f(di→w)表示网页di指向检索词和/或候选关键词w的概率,Pointing(di)表示网页di的指向性级别,并且αw和βi d为预设的权重值;以及
根据以下公式计算所述网页的指向性级别:
根据以下公式计算所述网页的被指向性级别:
其中,sim(d)表示所述网页d与图片识别结果之间的相似度,f(d→wj)表示网页d指向检索词和/或候选关键词wj的概率,Pointed(wj)表示检索词和/或候选关键词wj的被指向性级别,f(wj→d)表示检索词和/或候选关键词wj指向网页d的概率,Pointing(wj)表示检索词和/或候选关键词wj的指向性级别,并且αd和βj w为预设的权重值。
附记13.根据附记11所述的设备,还包括:
评分单元,被配置成在达到所述预定条件的情况下,基于所述指向性级别、所述被指向性级别以及这两种级别的加权组合中的一种或多种,对所述检索词和/或所述候选关键词以及所述网页进行评分;以及
输出单元,被配置成基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。
附记14.根据附记9所述的设备,其中,所述网页和候选关键词获取单元被配置成进一步将所述网页与图片识别结果进行比较来筛选所述网页。
附记15.根据附记9所述的设备,其中,所述预定条件包括:评级结果收敛于稳定值和/或达到预定的迭代次数。
附记16.根据附记9-15中任一项所述的设备,其中,所述图片识别单元被配置成利用光学字符识别OCR技术来进行图片识别。
附记17.一种终端设备,包括根据附记9-16中任一项所述的数据处理设备。
附记18.根据附记17所述的终端设备,其中,所述终端设备包括移动电话、掌上电脑、平板电脑、个人计算机,等等。

Claims (8)

1.一种数据处理方法,包括:
图片识别步骤,用于从图片识别关键词作为初始的检索词;
网页和候选关键词获取步骤,用于在搜索引擎中利用所述检索词进行搜索来获取网页,并从所述网页中挖掘候选关键词;
评级步骤,用于基于所述检索词和/或所述候选关键词与所述网页之间的链接关系,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级;以及
检索词选择步骤,用于基于评级结果从所述候选关键词中选择所述网页和候选关键词获取步骤中下次所用的检索词,
其中,重复执行所述网页和候选关键词获取步骤、所述评级步骤和所述检索词选择步骤,直到满足预定条件为止。
2.根据权利要求1所述的方法,其中,在所述评级步骤中,还基于所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级。
3.根据权利要求1所述的方法,还包括:
评分步骤,用于在达到所述预定条件的情况下,基于所述指向性级别、所述被指向性级别以及这两种级别的加权组合中的一种或多种,对所述检索词和/或所述候选关键词以及所述网页进行评分;以及
输出步骤,基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。
4.一种数据处理设备,包括:
图片识别单元,被配置成从图片识别关键词作为初始的检索词;
网页和候选关键词获取单元,被配置成在搜索引擎中利用所述检索词进行搜索来获取网页,并从所述网页中挖掘候选关键词;
评级单元,被配置成基于所述检索词和/或所述候选关键词与所述网页之间的链接关系,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级;
检索词选择单元,被配置成基于所述评级结果从所述候选关键词中选择所述网页和候选关键词获取单元下次所用的检索词;以及
控制单元,被配置成控制所述网页和候选关键词获取单元、所述评级单元和所述检索词选择单元重复执行处理,直到满足预定条件为止。
5.根据权利要求4所述的设备,其中,所述评级单元被配置成还基于所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级。
6.根据权利要求4所述的设备,还包括:
评分单元,被配置成在达到所述预定条件的情况下,基于所述指向性级别、所述被指向性级别以及这两种级别的加权组合中的一种或多种,对所述检索词和/或所述候选关键词以及所述网页进行评分;以及
输出单元,被配置成基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。
7.根据权利要求4所述的设备,其中,所述网页和候选关键词获取单元被配置成进一步将所述网页与图片识别结果进行比较来筛选所述网页。
8.一种终端设备,包括根据权利要求4-7中任一项所述的数据处理设备。
CN201210254434.5A 2012-07-20 2012-07-20 数据处理方法和设备 Expired - Fee Related CN103577414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210254434.5A CN103577414B (zh) 2012-07-20 2012-07-20 数据处理方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210254434.5A CN103577414B (zh) 2012-07-20 2012-07-20 数据处理方法和设备

Publications (2)

Publication Number Publication Date
CN103577414A CN103577414A (zh) 2014-02-12
CN103577414B true CN103577414B (zh) 2017-04-12

Family

ID=50049220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210254434.5A Expired - Fee Related CN103577414B (zh) 2012-07-20 2012-07-20 数据处理方法和设备

Country Status (1)

Country Link
CN (1) CN103577414B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462325B (zh) * 2014-12-02 2019-05-03 百度在线网络技术(北京)有限公司 搜索推荐方法及装置
CN105930406B (zh) * 2016-04-15 2019-03-22 清华大学 一种基于泊松分解的服务推荐方法
CN111488512A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种待收集目标获取方法、装置、设备及存储介质
CN109933691B (zh) * 2019-02-11 2023-06-09 北京百度网讯科技有限公司 用于内容检索的方法、装置、设备和存储介质
CN111859095B (zh) * 2019-04-02 2024-08-30 北京搜狗科技发展有限公司 一种图片识别方法及装置
CN113205046B (zh) * 2021-04-30 2023-06-27 北京百舸飞驰科技有限公司 题册识别方法、系统、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364225A (zh) * 2007-08-10 2009-02-11 富士通株式会社 关键字提取方法
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统
CN101520783A (zh) * 2008-02-29 2009-09-02 富士通株式会社 基于图像内容的关键词搜索方法和装置
CN101571921A (zh) * 2008-04-28 2009-11-04 富士通株式会社 关键字识别方法和装置
CN101571875A (zh) * 2009-05-05 2009-11-04 程治永 一种基于图像识别的图像搜索系统的实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364225A (zh) * 2007-08-10 2009-02-11 富士通株式会社 关键字提取方法
CN101520783A (zh) * 2008-02-29 2009-09-02 富士通株式会社 基于图像内容的关键词搜索方法和装置
CN101571921A (zh) * 2008-04-28 2009-11-04 富士通株式会社 关键字识别方法和装置
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统
CN101571875A (zh) * 2009-05-05 2009-11-04 程治永 一种基于图像识别的图像搜索系统的实现方法

Also Published As

Publication number Publication date
CN103577414A (zh) 2014-02-12

Similar Documents

Publication Publication Date Title
Culotta et al. Reducing labeling effort for structured prediction tasks
US9009134B2 (en) Named entity recognition in query
CN103577414B (zh) 数据处理方法和设备
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
RU2723293C1 (ru) Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа
US11461353B2 (en) Identifying and extracting addresses within content
CN106462626A (zh) 利用深度神经网络对兴趣度建模
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
US20060212288A1 (en) Topic specific language models built from large numbers of documents
CN103544186B (zh) 挖掘图片中的主题关键词的方法和设备
CN107958014B (zh) 搜索引擎
CN108334489B (zh) 文本核心词识别方法和装置
CN102024139A (zh) 字符串识别装置和方法
US20150242393A1 (en) System and Method for Classifying Text Sentiment Classes Based on Past Examples
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
US11663407B2 (en) Management of text-item recognition systems
GB2569858A (en) Constructing content based on multi-sentence compression of source content
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN110110218B (zh) 一种身份关联方法及终端
US20230139614A1 (en) Efficient computation of maximum probability label assignments for sequences of web elements
CN115062135A (zh) 一种专利筛选方法与电子设备
CN117891939A (zh) 粒子群算法结合cnn卷积神经网络的文本分类方法
US20190095525A1 (en) Extraction of expression for natural language processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170412

Termination date: 20180720

CF01 Termination of patent right due to non-payment of annual fee