CN102779140B - 一种关键词获取方法及装置 - Google Patents
一种关键词获取方法及装置 Download PDFInfo
- Publication number
- CN102779140B CN102779140B CN201110128161.5A CN201110128161A CN102779140B CN 102779140 B CN102779140 B CN 102779140B CN 201110128161 A CN201110128161 A CN 201110128161A CN 102779140 B CN102779140 B CN 102779140B
- Authority
- CN
- China
- Prior art keywords
- keyword
- undetermined
- webpage
- equations
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Electromagnetism (AREA)
- General Health & Medical Sciences (AREA)
- Toxicology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明实施例公开了一种关键词获取方法,包括:定位图像中的文字区域,并利用OCR技术识别出所述文字区域中的文字内容;从所识别出的文字内容中,选择第一类待定关键词进行网页搜索;在搜索到的网页中提取第二类待定关键词;以及至少根据所述第二类待定关键词确定所述图像对应的关键词。通过本发明实施例将OCR技术与网页搜索的技术相结合,基于根据OCR技术识别及选择出的第一类待定关键词进行网页搜索,保证了关键词的收敛性,然后基于搜索到的网页选择第二类待定关键词保证了关键词的正确性,从而提高了最终确定的图像对应的关键词的精确度。
Description
技术领域
本发明一般地涉及图像处理技术领域,尤其是一种关键词获取方法及装置。
背景技术
随着科技的日益进步,人们在日常生活中发布信息和获得信息的途径越来越多。例如,当需要发布一则广告时,除了采用现有的方式张贴户外广告宣传图像外,还可以在互联网上以文档等方式发布该广告的详细介绍与该宣传图像对应,当用户在看到该广告图像时,由于图像中包含的信息量非常有限,对该广告感兴趣的用户就可以记录该图像中的文字,然后通过电脑或者手机登陆互联网,在搜索引擎中输入记录的图像中的文字,对该广告的详细信息进行搜索。
然而,进行搜索时需要用户输入图像中的文字作为搜索的关键词,一方面,该输入过程需要人工操作容易产生错误,且操作繁琐,效率低,另一方面图像中包含的文字信息过少,仅基于图像确定出的关键词不够准确。因此,如何自动高效地获得该图像所对应的准确关键词对于后续操作非常重要,该关键词不仅可以用于提供数据(图像、网页)搜索,产品信息查询,还可以用于需求分布统计等多种服务。
现有技术中自动获得图像对应关键词的方法,可以通过字符识别和文字提取的方式实现,例如OCR(Optical Character Recognition,光学字符识别)技术,该方法虽然实现了图像对应的关键词的自动提取,但是由于字符识别准确度以及图像中文字信息量的限制,所提取的关键词仍然存在识别错误或其它不准确的问题。
发明内容
有鉴于此,本发明实施例提供了一种关键词获取方法及装置,能够基于图像获取更精确的该图像对应的关键词。
根据本发明实施例的一个方面,提供一种关键词获取方法,包括:
定位图像中的文字区域,并利用OCR技术识别出所述文字区域中的文字内容;
从所识别出的文字内容中,选择第一类待定关键词进行网页搜索;
在搜索到的网页中提取第二类待定关键词;以及
至少根据所述第二类待定关键词确定所述图像对应的关键词。
根据本发明实施例的另一个方面,提供一种关键词获取装置,包括:
识别单元,配置为定位图像中的文字区域,并利用OCR技术识别出所述文字区域中的文字内容;
搜索单元,配置为从所识别出的文字内容中,选择第一类待定关键词进行网页搜索;
提取单元,配置为在搜索到的网页中提取第二类待定关键词;以及
确定单元,配置为至少根据所述第二类待定关键词确定所述图像对应的关键词。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述关键词获取方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述关键词获取方法。
根据本发明实施例的上述方案,根据OCR技术提取的关键词收敛性高,但是识别率较差,准确度低的特点,以及网页搜索提取的关键词比较正确,但是内容冗余,无关词太多,也即对关键词的收敛性太差的特点,通过将OCR技术与网页搜索的技术相结合,基于根据OCR技术识别及选择出的第一类待定关键词进行网页搜索,保证了关键词的收敛性,然后基于搜索到的网页选择第二类待定关键词保证了关键词的正确性,从而提高了最终确定的图像对应的关键词的精确度。该关键词不仅可以用于提供数据(图像、网页)搜索,产品信息查询,还可以用于需求分布统计等多种服务。
在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
附图说明
下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。
图1是示出作为本发明实施例提供的方法的流程图;
图2是示出作为本发明实施例的图像的示意图;
图3是示出作为本发明实施例提供的方法中选择第一类待定关键词进行网页搜索的流程图;
图4是示出作为本发明实施例提供的方法中从搜索到的网页中提取第二类待定关键词的流程图;
图5是示出作为本发明实施例的网页搜索结果的示意图;
图6是示出作为本发明实施例的代表性网页的示意图;
图7是示出作为本发明实施例提供的一种装置的示意图;
图8是示出作为本发明实施例提供的装置中搜索单元的示意图;
图9是示出作为本发明实施例提供的装置中提取单元的示意图;
图10是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。
具体实施方式
下面参照附图来说明本发明的实施例。
本发明人在实现本发明的过程中发现,在利用现有技术的方法获得图像对应的关键词时,至少存在以下问题:
现有技术中在获取图像对应的关键词时,所采用的方法是直接对图像中的文字信息进行字符识别和文字提取,进而获取该图像对应的关键词,该方法由于图像中包含的文字信息非常有限,而且受图像识别准确度的影响,极易识别出错误的关键词,这些均直接导致获得的描述该图像对应信息的关键词不够准确。
因此,本发明实施例首先针对这个问题,提供了相应的解决方法。具体的,参见图1,本发明实施例提供的一种关键词获取方法包括:
S101:定位图像中的文字区域,并利用OCR技术识别出文字区域中的文字内容。
在用户通过手机拍摄等方式获得一图像后,首先可以利用现有的文本检测方法,例如基于区域的方法和基于连通部件的方法定位出该图像中的文字区域,如图2所示。然后可以利用现有的笔画提取方法,如颜色聚类方法和灰度二值方法等提取文字笔画部分。
在定位出文字区域及提取文字笔画后,通过文字识别技术对文字区域内的文字内容进行识别,并以词为单位进行组合。以上过程可通过OCR技术实现,OCR技术为电子设备(例如扫描仪或数码相机)检查纸等介质上打印的字符,例如通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
该定位文字区域以及文字内容识别的过程均可通过现有技术实现,其具体过程此处不再赘述。在本步骤中,识别出的文字内容如下表1所示:
其中,由于识别精度的限制,识别出的词中可包含多个候选词,例如“***特卖会”识别出的词中还包括其候选词“***恃卖会”。识别出的词还可以以一定的规则进行排序,例如识别置信度、词在图像中的位置、词的几何尺寸等,或者以上因素的组合规则。
S102:从所识别出的文字内容中,选择第一类待定关键词进行网页搜索。
在识别出上述文字内容后,可以直接以识别出的文字内容作为第一类待定关键词,执行网页搜索,也可以对该识别出的文字内容进行选择,以选择出的词作为第一类待定关键词进行后续的网页搜索。其中,对识别出的文字内容进行选择的具体过程请参照后续实施例的描述。
其中,网页搜索也即以确定出的第一类待定关键词作为网页搜索的关键词,调用搜索引擎进行搜索。该网页搜索过程可以采用现有技术方法执行,此处不再赘述。
S103:在搜索到的网页中提取第二类待定关键词。
在搜索到网页后,可以直接在搜索到的网页中基于一定的规则提取第二类待定关键词,例如在搜索到的网页中重复出现的次数满足条件,或者在网页中出现的位置符合一定条件等,还可以以上述规则的组合作为第二类待定关键词选择的依据。
在选择第二类待定关键词之前,还可以先对搜索到的网页进行筛选,然后在选择出的网页中再基于上述规则提取第二类待定关键词。其中,网页的筛选过程可以基于一定的预置规则,例如该网页中包含的词与第一类待定关键词的匹配程度,第一类待定关键词在该网页中出现的频率,或与该第一类待定关键词无关的其它规则等,具体过程请参见后续实施例的描述。
S104:至少根据第二类待定关键词确定图像对应的关键词。
在搜索到的网页中提取第二类待定关键词后,可进一步根据第二类待定关键词确定该图像所对应的关键词,具体的可以是直接在第二类待定关键词中按照一定规则选取,例如置信度大于一定阈值;或者,在网页的文档标题中出现的频率大于一定阈值;或者,在正文关键位置上出现的频率大于一定阈值;再或者,利用一些先验知识,确定较为重要的词性,如:时间、地点、对象等还可以以上述规则的组合作为图像对应的关键词的选择依据。
还可以是根据第一类待定关键词与第二类待定关键词的相互校验结果,在第一类待定关键词和/或第二类待定关键词中选择图像对应的关键词。具体的请参见后续实施例的描述。
本发明实施例根据OCR技术提取的关键词收敛性高,但是识别率较差,准确度低的特点,以及网页搜索提取的关键词比较正确,但是内容冗余,无关词太多,也即对关键词的收敛性太差的特点,通过将OCR技术与网页搜索的技术相结合,基于根据OCR技术识别及选择出的第一类待定关键词进行网页搜索,保证了关键词的收敛性,然后基于搜索到的网页选择第二类待定关键词保证了关键词的正确性,从而保证了最终确定的图像对应的关键词的精确度。该关键词不仅可以用于提供数据(图像、网页)搜索,产品信息查询,还可以用于需求分布统计等多种服务。
在本发明的一个示例性实施例中,仍然以获取图2所示的图像为例进行说明,该示例性实施例中,在定位图像中的文字区域,并利用OCR技术识别出文字区域中的文字内容之后,可以获得表1所示的识别出的文字内容,其中包含候选词组。表1中的顺序按照识别文字内容的置信度由高到低依次排列。
在进一步从识别出的文字内容中,选择第一类待定关键词进行网页搜索时,该步骤可以进一步包括如图3所示的两个子步骤:
S301:针对每个文字区域,从所识别出的文字内容中选择一个或多个置信度大于第一阈值的文字内容作为第一类待定关键词。
在本实施例中直接在表1中选择置信度大于第一阈值的文字内容作为第一类待定关键词,例如选取表1中1~3对应的文字内容作为第一类待定关键词,其中仍然包含候选词组。
当然在另一实施例中,该第一类待定关键词的选择还可以是首先确定出位于图片重点区域(如中间位置),并且文字尺寸大于一定阈值(或者与其中尺寸最小的文字的尺寸比例大于一定值)的文字内容作为备选词,然后在这些备选词中选择置信度大于第一阈值的作为第一类待定关键词。该规则还可以有另外的设置,此处不再赘述。
S302:在针对各文字区域选择出的第一类待定关键词中各自选择一个,进行组合,根据各组合结果分别进行网页搜索。
在上步骤中选择出的第一类待定关键词为表1中1~3对应的文字内容,各文字内容分别从不同的文字区域中识别获得,即好消息、***特(恃)卖会、盛大开(升)幕,其中,“***特卖会”与“***恃卖会”为源于同一文字区域的两组候选词,“盛大开幕”与“盛大升幕”源于同一文字区域的两组候选词,由于OCR识别对于存在多组候选词的情况无法确定哪个候选词是正确的,此时在进行后续网页搜索时,可以基于各文字区域识别出的文字内容各选择一个,然后进行组合,将组合的结果作为进行网页搜索的关键词进行搜索。
例如,可以将好消息、***特卖会、盛大开幕作为一组关键词进行网页搜索,将好消息、***恃卖会、盛大升幕作为另一组关键词进行网页搜索,当然还可以由其它组合方式,此处不一一赘述。
在本发明的一个示例性实施例中,在执行网页搜索后,从搜索到的网页中提取第二类待定关键词的步骤,还可以进一步包括如图4所示的两个子步骤:
S401:根据预定规则在搜索到的网页中选择代表性网页。
在按照上述组合的关键词进行网页搜索后,各组分别会对应搜索到多个结果,为了进一步精确后续确定的第二类待定关键词,在本步骤中,对搜索到的多个网页进行筛选,选择出代表性网页。
该代表性网页的选择可以有多种规则,例如可以首先选择各组关键词对应的网页中排列在前几位,如前三位的网页,然后对比各组网页中与对应的组合关键词的相似度,选择相似度最高的一组网页作为代表性网页,或者在选择出各组关键词对应的前三个网页后,比较各组内网页间的相似性,选择相似度最高的一组网页作为代表性网页。当然,还可以采用现有技术的方法来选择代表性网页,例如GerardSalton,A.Wong,C.S.Yang:A Vector Space Model for AutomaticIndexing.Commun.ACM 18(11):613-620(1975),Scott C.Deerwester,Susan T.Dumais,Thomas K.Landauer,George W.Furnas,Richard A.Harshman:Indexing by Latent SemanticAnalysis.JASIS 41(6):391-407(1990)中所记载的串匹配方法。
在本实施例中,对于如“好消息、***恃卖会、盛大升幕”组合关键词搜索到的网页可知,由于网页中的内容文字的准确率是较高的,其得到的网页与关键词“***恃卖会”和“盛大升幕”的相似度显然不如“好消息、***特卖会、盛大开幕”作为组合关键词搜索到的网页与关键词的相似度高。所以,最终选择的代表性网页,自然是由“好消息、***特卖会、盛大开幕”作为组合关键词搜索到的排列前三位的网页,如图5~6所示。
S402:在选择的代表性网页中提取第二类待定关键词。
该选择第二类待定关键词的过程可以与前述实施例中的步骤S103类似,此处不再赘述。其确定的第二类待定关键词为:***特卖会、盛大开幕、活动时间:5月1日-5月10日、北京天坛、更低折扣、礼品等。
在提取第二类待定关键词后,可根据第一类待定关键词与第二类待定关键词的校验结果,在第一类待定关键词和/或第二类待定关键词中选择图像对应的关键词。
在本实施例中,对于在代表性网页中提取的第二类待定关键词利用OCR识别结果提取的第一类待定关键词进行验证,具体的验证规则可以是验证第二类待定关键词在OCR识别结果中的置信度,还可以验证第二类待定关键词在图像中的尺寸和位置信息等。具体的,若第一类待定关键词是选择的置信度高的关键词,或者第一类待定关键词是选择的文字内容的尺寸或位置满足条件的关键词,则可以在第二类待定关键词中选择同时出现在第一类待定关键词中的词汇作为图像对应的关键词。
当然,在另一实施例中,还可以直接根据一定的规则在第二类待定关键词中选取图像对应的关键词,该规则可以是置信度大于第二阈值;或者,在网页的文档标题中出现的频率大于一定阈值;或者,在正文关键位置上出现的频率大于一定阈值;再或者,利用一些先验知识,确定较为重要的词性,如:时间、地点、对象等还可以以上述规则的组合作为图像对应的关键词的选择依据。
当然也可以结合上述两种方法,在采用第一类待定关键词校验后的结果中,再增加根据第二种方法选择出的词汇,最终作为图像对应的关键词。例如该图像对应的关键词为:***特卖会、北京天坛、活动时间:5月1日-5月10日。
通过将OCR技术与网页搜索的技术相结合,保证了最终确定的图像对应的关键词的精确度。而且,通过对第一类待定关键词的筛选和对代表性网页的筛选,不仅减少了数据处理的工作量,提高了关键词的选取效率,而且通过去除无关的内容,使得最终获得的关键词准确度更高。
与本发明实施例提供的第一种关键词获取方法相对应,本发明实施例还提供了一种关键词获取装置,参见图7,该装置可以包括:
识别单元701,配置为定位图像中的文字区域,并利用OCR技术识别出文字区域中的文字内容。
搜索单元702,配置为从所识别出的文字内容中,选择第一类待定关键词进行网页搜索。
提取单元703,配置为在搜索到的网页中提取第二类待定关键词。
确定单元704,配置为至少根据第二类待定关键词确定图像对应的关键词。
在用户通过手机拍摄等方式获得一图像后,识别单元701利用现有的文本检测方法定位出该图像中的文字区域,并利用现有的笔画提取方法提取文字笔画部分,然后通过文字识别技术对文字区域内的文字内容进行识别,并以词为单位进行组合。搜索单元702可以直接以识别出的文字内容作为第一类待定关键词,执行网页搜索,也可以对该识别出的文字内容进行选择,以选择出的词作为第一类待定关键词进行后续的网页搜索。提取单元703可以直接在搜索到的网页中基于一定的规则提取第二类待定关键词,还可以先对搜索到的网页进行筛选,然后在选择出的网页中再基于上述规则提取第二类待定关键词。确定单元704可进一步根据第二类待定关键词确定该图像所对应的关键词,具体的可以是直接在第二类待定关键词中按照一定规则选取,还可以是根据第一类待定关键词与第二类待定关键词的相互校验结果,在第一类待定关键词和/或第二类待定关键词中选择图像对应的关键词。
本发明实施例通过上述单元将OCR技术与网页搜索的技术相结合,基于根据OCR技术识别及选择出的第一类待定关键词进行网页搜索,保证了关键词的收敛性,然后基于搜索到的网页选择第二类待定关键词保证了关键词的正确性,从而保证了最终确定的图像对应的关键词的精确度。该关键词不仅可以用于提供数据(图像、网页)搜索,产品信息查询,还可以用于需求分布统计等多种服务。
根据本发明的一个示例性实施例,搜索单元可以进一步包括如图8所示的两个子单元:
第一选择子单元801,配置为针对每个文字区域,从所识别出的文字内容中选择一个或多个置信度大于第一阈值的文字内容作为第一类待定关键词。
搜索子单元802,配置为在针对各文字区域选择出的第一类待定关键词中各自选择一个,进行组合,根据各组合结果分别进行网页搜索。
根据本发明的一个示例性实施例,提取单元还可以进一步包括如图9所示的两个子单元:
第二选择子单元901,配置为根据预定规则在搜索到的网页中选择代表性网页。
提取子单元902,配置为在选择的代表性网页中提取第二类待定关键词。
根据本发明的一个示例性实施例,确定单元,具体可以配置为根据第一类待定关键词与第二类待定关键词的校验结果,在第一类待定关键词和/或第二类待定关键词中选择图像对应的关键词。在另一实施例中,该确定单元还可以具体配置为在第二类待定关键词中选择置信度大于第二阈值的关键词作为图像对应的关键词。
通过上述单元将OCR技术与网页搜索的技术相结合,保证了最终确定的图像对应的关键词的精确度。而且,通过上述单元对第一类待定关键词的筛选和对代表性网页的筛选,不仅减少了数据处理的工作量,提高了关键词的选取效率,而且通过去除无关的内容,使得最终获得的关键词准确度更高。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图10所示的通用个人计算机1000安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中,也根据需要存储当CPU 1001执行各种处理等等时所需的数据。
CPU1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
下述部件连接到输入/输出接口1005:输入部分1006,包括键盘、鼠标等等;输出部分1007,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分1008,包括硬盘等等;和通信部分1009,包括网络接口卡比如LAN卡、调制解调器等等。通信部分1009经由网络比如因特网执行通信处理。
根据需要,驱动器1010也连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (8)
1.一种关键词获取方法,包括:
定位图像中的文字区域,并利用光学字符识别OCR技术识别出所述文字区域中的文字内容;
从所识别出的文字内容中,选择第一类待定关键词进行网页搜索;
在搜索到的网页中提取第二类待定关键词;以及
至少根据所述第二类待定关键词确定所述图像对应的关键词,
其中,所述从所识别出的文字内容中,选择第一类待定关键词进行网页搜索包括:
针对每个文字区域,从所识别出的文字内容中选择多个置信度大于第一阈值的文字内容作为第一类待定关键词;以及
在针对各文字区域选择出的第一类待定关键词中各自选择一个,进行组合,根据各组合结果分别进行网页搜索。
2.根据权利要求1所述的方法,其中,所述在搜索到的网页中提取第二类待定关键词,包括:
根据预定规则在搜索到的网页中选择代表性网页;以及
在选择的代表性网页中提取第二类待定关键词。
3.根据权利要求1或2所述的方法,其中,至少根据所述第二类待定关键词确定所述图像对应的关键词,包括:
在所述第二类待定关键词中选择置信度大于第二阈值的关键词作为所述图像对应的关键词。
4.根据权利要求1或2所述的方法,其中,至少根据所述第二类待定关键词确定所述图像对应的关键词,包括:
根据所述第一类待定关键词与所述第二类待定关键词的校验结果,在所述第一类待定关键词和/或所述第二类待定关键词中选择所述图像对应的关键词。
5.一种关键词获取装置,包括:
识别单元,配置为定位图像中的文字区域,并利用OCR技术识别出所述文字区域中的文字内容;
搜索单元,配置为从所识别出的文字内容中,选择第一类待定关键词进行网页搜索;
提取单元,配置为在搜索到的网页中提取第二类待定关键词;以及
确定单元,配置为至少根据所述第二类待定关键词确定所述图像对应的关键词,
其中,所述搜索单元包括:
第一选择子单元,配置为针对每个文字区域,从所识别出的文字内容中选择多个置信度大于第一阈值的文字内容作为第一类待定关键词;以及
搜索子单元,配置为在针对各文字区域选择出的第一类待定关键词中各自选择一个,进行组合,根据各组合结果分别进行网页搜索。
6.根据权利要求5所述的装置,其中,所述提取单元包括:
第二选择子单元,配置为根据预定规则在搜索到的网页中选择代表性网页;以及
提取子单元,配置为在选择的代表性网页中提取第二类待定关键词。
7.根据权利要求5或6所述的装置,其中,
所述确定单元,具体配置为在所述第二类待定关键词中选择置信度大于第二阈值的关键词作为所述图像对应的关键词。
8.根据权利要求5或6所述的装置,其中,
所述确定单元,具体配置为根据所述第一类待定关键词与所述第二类待定关键词的校验结果,在所述第一类待定关键词和/或所述第二类待定关键词中选择所述图像对应的关键词。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110128161.5A CN102779140B (zh) | 2011-05-13 | 2011-05-13 | 一种关键词获取方法及装置 |
EP12159317A EP2523125A2 (en) | 2011-05-13 | 2012-03-13 | Method and device for acquiring keywords |
KR1020120038278A KR101273711B1 (ko) | 2011-05-13 | 2012-04-13 | 키워드 획득 방법 및 디바이스 |
JP2012105957A JP2012243309A (ja) | 2011-05-13 | 2012-05-07 | キーワードを取得する方法及び装置 |
US13/466,538 US20120288203A1 (en) | 2011-05-13 | 2012-05-08 | Method and device for acquiring keywords |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110128161.5A CN102779140B (zh) | 2011-05-13 | 2011-05-13 | 一种关键词获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102779140A CN102779140A (zh) | 2012-11-14 |
CN102779140B true CN102779140B (zh) | 2015-09-02 |
Family
ID=45928659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110128161.5A Expired - Fee Related CN102779140B (zh) | 2011-05-13 | 2011-05-13 | 一种关键词获取方法及装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20120288203A1 (zh) |
EP (1) | EP2523125A2 (zh) |
JP (1) | JP2012243309A (zh) |
KR (1) | KR101273711B1 (zh) |
CN (1) | CN102779140B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130046581A1 (en) * | 2011-08-18 | 2013-02-21 | AcademixDirect, Inc. | System and methods for strategically ranking and allocating results of web-based inquiries |
US9235643B2 (en) * | 2012-11-21 | 2016-01-12 | Diwan Software Limited | Method and system for generating search results from a user-selected area |
US9645985B2 (en) * | 2013-03-15 | 2017-05-09 | Cyberlink Corp. | Systems and methods for customizing text in media content |
JP5493139B1 (ja) * | 2013-05-29 | 2014-05-14 | 独立行政法人科学技術振興機構 | ナノクラスター生成装置 |
JP5913774B2 (ja) * | 2014-01-24 | 2016-04-27 | レノボ・シンガポール・プライベート・リミテッド | Webサイトを共有する方法、電子機器およびコンピュータ・プログラム |
CN104933068A (zh) * | 2014-03-19 | 2015-09-23 | 阿里巴巴集团控股有限公司 | 一种信息搜索的方法和装置 |
US20160171106A1 (en) * | 2014-12-11 | 2016-06-16 | Microsoft Corporation | Webpage content storage and review |
CN104768036A (zh) * | 2015-04-02 | 2015-07-08 | 小米科技有限责任公司 | 视频信息更新方法及装置 |
CN105653733A (zh) * | 2016-02-26 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 搜索方法和装置 |
US10078632B2 (en) * | 2016-03-12 | 2018-09-18 | International Business Machines Corporation | Collecting training data using anomaly detection |
CN108470296B (zh) * | 2017-02-23 | 2022-02-25 | 阿里巴巴集团控股有限公司 | 一种业务对象信息处理方法及装置 |
CN107291949B (zh) * | 2017-07-17 | 2020-11-13 | 绿湾网络科技有限公司 | 信息搜索方法及装置 |
CN108540629B (zh) * | 2018-04-20 | 2020-10-27 | 蚌埠翰邦知识产权服务有限公司 | 一种儿童用终端保护外壳 |
CN108664617A (zh) * | 2018-05-14 | 2018-10-16 | 广州供电局有限公司 | 基于图像识别与检索的快速营销服务方法 |
KR102122560B1 (ko) * | 2018-11-22 | 2020-06-12 | 삼성생명보험주식회사 | 글자 인식 모델의 업데이트 방법 |
CN109918624B (zh) * | 2019-03-18 | 2022-10-04 | 北京搜狗科技发展有限公司 | 一种网页文本相似度的计算方法和装置 |
CN113076441A (zh) * | 2020-01-06 | 2021-07-06 | 北京三星通信技术研究有限公司 | 关键词抽取方法、装置、电子设备及计算机可读存储介质 |
CN112052835B (zh) * | 2020-09-29 | 2022-10-11 | 北京百度网讯科技有限公司 | 信息处理方法、信息处理装置、电子设备和存储介质 |
CN112200185A (zh) * | 2020-10-10 | 2021-01-08 | 航天科工智慧产业发展有限公司 | 一种文字反向定位图片的方法及装置、计算机储存介质 |
US20230146998A1 (en) * | 2021-11-09 | 2023-05-11 | GSCORE Inc. | Systems, devices, and methods for search engine optimization |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916941A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 一种字符识别的后处理方法 |
CN101866339A (zh) * | 2009-04-16 | 2010-10-20 | 周矛锐 | 基于图像的多内容信息在互联网上的识别,及对已识别内容信息中的商品引导购买的应用 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EA003619B1 (ru) * | 1998-04-01 | 2003-08-28 | Уильям Петерман | Система и способ поиска электронных документов, созданных с помощью оптического распознавания знаков |
JP4102153B2 (ja) | 2002-10-09 | 2008-06-18 | 富士通株式会社 | インターネットを利用した文字認識の後処理装置 |
JP2004171316A (ja) * | 2002-11-21 | 2004-06-17 | Hitachi Ltd | Ocr装置及び文書検索システム及び文書検索プログラム |
US8489583B2 (en) * | 2004-10-01 | 2013-07-16 | Ricoh Company, Ltd. | Techniques for retrieving documents using an image capture device |
US8165972B1 (en) * | 2005-04-22 | 2012-04-24 | Hewlett-Packard Development Company, L.P. | Determining a feature related to an indication of a concept using a classifier |
EP2041678B1 (en) * | 2006-06-29 | 2018-10-17 | Google LLC | Recognizing text in images |
US7689613B2 (en) * | 2006-10-23 | 2010-03-30 | Sony Corporation | OCR input to search engine |
CN101542531B (zh) * | 2007-06-14 | 2012-12-19 | 松下电器产业株式会社 | 图像识别装置及图像识别方法 |
US8805079B2 (en) * | 2009-12-02 | 2014-08-12 | Google Inc. | Identifying matching canonical documents in response to a visual query and in accordance with geographic information |
US20110314010A1 (en) * | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Keyword to query predicate maps for query translation |
-
2011
- 2011-05-13 CN CN201110128161.5A patent/CN102779140B/zh not_active Expired - Fee Related
-
2012
- 2012-03-13 EP EP12159317A patent/EP2523125A2/en not_active Withdrawn
- 2012-04-13 KR KR1020120038278A patent/KR101273711B1/ko not_active IP Right Cessation
- 2012-05-07 JP JP2012105957A patent/JP2012243309A/ja not_active Withdrawn
- 2012-05-08 US US13/466,538 patent/US20120288203A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916941A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 一种字符识别的后处理方法 |
CN101866339A (zh) * | 2009-04-16 | 2010-10-20 | 周矛锐 | 基于图像的多内容信息在互联网上的识别,及对已识别内容信息中的商品引导购买的应用 |
Also Published As
Publication number | Publication date |
---|---|
KR20120127208A (ko) | 2012-11-21 |
US20120288203A1 (en) | 2012-11-15 |
CN102779140A (zh) | 2012-11-14 |
JP2012243309A (ja) | 2012-12-10 |
EP2523125A2 (en) | 2012-11-14 |
KR101273711B1 (ko) | 2013-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102779140B (zh) | 一种关键词获取方法及装置 | |
US10200336B2 (en) | Generating a conversation in a social network based on mixed media object context | |
CN109947909B (zh) | 智能客服应答方法、设备、存储介质及装置 | |
CN101297319B (zh) | 在电子文档中嵌入热点 | |
US7812986B2 (en) | System and methods for use of voice mail and email in a mixed media environment | |
US8195659B2 (en) | Integration and use of mixed media documents | |
US7769772B2 (en) | Mixed media reality brokerage network with layout-independent recognition | |
US8521737B2 (en) | Method and system for multi-tier image matching in a mixed media environment | |
US7917554B2 (en) | Visibly-perceptible hot spots in documents | |
US9405751B2 (en) | Database for mixed media document system | |
Unar et al. | Detected text‐based image retrieval approach for textual images | |
US20070050419A1 (en) | Mixed media reality brokerage network and methods of use | |
US20070050360A1 (en) | Triggering applications based on a captured text in a mixed media environment | |
US20070047816A1 (en) | User Interface for Mixed Media Reality | |
US20130212090A1 (en) | Similar document detection and electronic discovery | |
US20070046982A1 (en) | Triggering actions with captured input in a mixed media environment | |
US20060262962A1 (en) | Method And System For Position-Based Image Matching In A Mixed Media Environment | |
US20070052997A1 (en) | System and methods for portable device for mixed media system | |
US20060262352A1 (en) | Method and system for image matching in a mixed media environment | |
US20090016604A1 (en) | Invisible Junction Features for Patch Recognition | |
EP2015226A1 (en) | Information retrieval using invisible junctions and geometric constraints | |
CN101542486A (zh) | 排序图 | |
KR20080031456A (ko) | 혼합 미디어 환경을 생성 및 사용하는 시스템 및 방법 | |
CN102279872A (zh) | 搜索结果驱动的查询意图标识 | |
CN106095918A (zh) | 一种基于ocr技术的网络受保护指数数据的获取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150902 Termination date: 20180513 |
|
CF01 | Termination of patent right due to non-payment of annual fee |