CN106096609A - 一种基于ocr的商品查询关键字自动生成方法 - Google Patents
一种基于ocr的商品查询关键字自动生成方法 Download PDFInfo
- Publication number
- CN106096609A CN106096609A CN201610428913.2A CN201610428913A CN106096609A CN 106096609 A CN106096609 A CN 106096609A CN 201610428913 A CN201610428913 A CN 201610428913A CN 106096609 A CN106096609 A CN 106096609A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- merchandise
- brand
- product
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 claims abstract description 43
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000004806 packaging method and process Methods 0.000 claims abstract description 7
- 238000013138 pruning Methods 0.000 claims description 14
- 244000141353 Prunus domestica Species 0.000 claims description 7
- 230000005611 electricity Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000205 computational method Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 239000000047 product Substances 0.000 description 74
- 238000012015 optical character recognition Methods 0.000 description 20
- 238000013459 approach Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 235000014101 wine Nutrition 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000706 filtrate Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 235000020095 red wine Nutrition 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于OCR的商品查询关键字自动生成方法,首先建立商品信息数据库。然后利用OCR技术提取产品包装图中的文字信息,获得包含产品信息的单词组。接着通过计算单词组与数据库中单词的相似性,矫正错误字符,完成单词组标准化。接着通过打分规则将得分最高的商品类别作为单词组所代表产品的类别。随后选择该商品类别对应的单词共生表并计算单词组中各单词的共生性得分来过滤掉无用单词。最后,通过该商品类别的品牌打分表和打分规则选择得分最高的品牌作为单词组代表产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字供用户检索使用。本发明计算效率高,对数据库的更新方便,极大地提高用户查询商品信息时的正确性。
Description
技术领域
本发明属于信息检索技术领域,尤其涉及一种在OCR基础上的商品关键字自动生成方法。
背景技术
互联网以及手持智能终端在过去的10年间经历了爆炸式的发展,这极大地丰富了人们的信息获取途径并改变了人们的生活方式,越来越多的人选择通过电商完成购物。借助各种电商网站上详细的产品信息以及其它购买者对商品的评价,人们可以更好地进行购物选择。但是当购物者在商场、书店等地购物时,查询商品的具体信息就变得较为困难。通常人们的做法是阅读产品包装并人为提取组织其中可能的关键字,之后再输入到搜索引擎中进行查询。但手工提取产品关键字的过程费时费力,而且对于购物者来说精确选择关键字较为困难,更为糟糕的是一些无用单词可能会干扰查询结果。
OCR(Optical Character Recognition,光学字符识别)能对图像中的文本信息进行分析识别处理,通过检测暗、亮的模式确定其形状,用字符识别方法将形状翻译成计算机文字。随着带有拍照功能的手持智能终端的广泛普及,利用OCR技术对拍摄的商品包装照片中的文字信息进行提取显得水到渠成。但是,OCR识别出来的信息存在大量噪音,且存在一些无用信息。如果不对这些信息进行进一步的分析,其结果很可能影响用户的使用。因此需要对OCR识别的信息进一步分析整合。
发明内容
为了解决上述技术问题,本发明提供了一种基于OCR的商品查询关键字自动生成方法,在获取一张用手持智能终端拍摄的产品包装图后,OCR将会对该产品图片进行文字提取并返回一个包含大量噪音和无用信息的字符数据集,之后通过矫正错误字符(标准化)、选择商品类别、过滤无用信息、确定产品品牌四个过程最终生成合理的产品关键字。
本发明所采用的技术方案是:一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;其中所述商品查询关键字自动生成包括以下步骤:
步骤1:利用OCR技术提取产品包装图中的全部可识别文字信息,并对返回的字符数据集进行预处理,去掉单个字符长度的单词和无用符号(非数字、非字母的符号),形成包含产品信息的一个单词组;
步骤2:分别采用Levenshtein Distance和Damerau–Levenshtein Distance两种编辑距离方法,计算步骤1中获得的单词组中每个单词与数据库单词表中所有单词的相似性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值;将单词组中对数据库所有单词的相似性都低于给定阈值τs的单词丢弃;对于剩余的单词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的标准化工作;
步骤3:若标准化后的产品信息单词组中含有某一产品品牌,则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别;
否则就根据标准化后的产品信息单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中只在该商品类别中出现的单词的个数,将得分最高的商品类别作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的类别;否则无法判断;
步骤4:对确定了商品类别的单词组选择相应的单词共生表,对于单词组中的每一个单词,计算其与单词组中其它单词的共生性得分;若单词组中每个单词的共生性得分均一致,不丢弃任何单词,否则认为得分低于给定的阈值τa的单词代表的是无用信息,丢弃该单词,完成单词过滤;
步骤5:若过滤后的商品信息单词组中含有某一产品品牌,将该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束;否则通过过滤后的商品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。
作为优选,所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中。
作为优选,所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,其具体实现过程是:
步骤A.1:在电商网站上按照不同商品类别爬取产品的名称、品牌并建立产品信息表,所述产品信息表属性包括产品序号(pid)、产品品牌(brand)、产品名(name);
步骤A.2:在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将大写字母全部转为小写字母;(2)将“/”两边的单词分开,如cleanse/tone转为cleansetone;(3)去除无用字符(不是数字或英文字母表中的字母)(4)去除表示单位的单词;形成修剪后的产品名表;所述产品名表属性包括产品序号(pid)、修剪后的产品名(prunedname);
步骤A.3:基于修剪后的产品名表,对于每个商品类别下出现的单词,统计每个单词的出现次数以及产品名中含有该单词的产品的pid,形成单词表,所述产品名表属性包括产品序号(pid)、修剪后的产品名(prunedname);
步骤A.4:基于所有单词表,生成一个商品类别打分表,表中的每一项代表一个单词在对应的商品类别下的出现比例,计算公式如下:
其中N表示单词表包含的单词总数;Nc表示商品类别数目;P[i][j]表示单词i在商品类别j下的出现比例;numij表示单词i在商品类别j下出现的次数;total_numi表示单词i在所有商品类别中出现的总次数;
步骤A.5:对于每一个商品类别各生成一个单词共生表ACM,其中的每一项代表对应的两个单词的共生性得分,计算公式如下:
其中n为该商品类别包含的单词总数;ACM[i][j]表示单词i和单词j的共生性得分;word_numi则表示单词i在该商品类别中出现的次数;word_numij表示该商品类别中单词i和单词j在修剪后的产品名中同时出现的次数;pre_nextij表示单词i和单词j在修剪后的产品名中紧挨着出现次数;
步骤A.6:对于每一个商品类别各生成一个品牌打分表WordBrand,其中的每一项代表一个单词对一个品牌的贡献得分,计算公式如下:
其中n表示该商品类别包含的单词总数;Nb表示该商品类别包含的品牌数目;WordBrand[i][j]表示单词i对品牌j的贡献得分;Nij表示在某一商品类别中含有单词i且品牌为j的产品的个数,namelengthk表示含有单词i且品牌为j的产品k修剪后的产品名长度;
步骤A.7:将所有的表存入数据库中。
作为优选,步骤2中相似性的计算公式为:
其中s为OCR返回的单词组中的一个单词;W为数据库单词表中所有的单词;N为数据库单词表包含的单词总数;Ed为编辑距离的计算方法;Similarity(s,wi)表示单词组中的单词s与数据库中单词wi的相似性;Length(s)表示单词s的长度;Length(wi)表示单词wi的长度;
作为优选,步骤2中所述τs∈[0,1]。
作为优选,步骤3中所述根据标准化后的产品信息单词组对不同的商品类别进行打分,商品类别打分规则为:若某单词只在一个商品类别中出现,则根据表1进行打分;
表1 单词只在一个商品类别中出现时该商品类别得分规则
若单词在多个商品类别中出现,每个商品类别的加分值为该单词在商品类别打分表中对应项的值乘以给定的数值Cm;其中对应项是该单词在商品类别的出现比例。
作为优选,τsc∈[0,1],τL∈[1,15],grade∈[1,100],Cm∈[1,20]。
作为优选,步骤4中所述共生性得分计算公式为:
其中stdWordNum表示单词组中的单词个数;app_proportioni表示标准化后单词组中单词i的共生性得分;acm_numi代表单词组中与单词i在单词共生表中对应的值大于给定阈值τc的单词个数;outlierNum表示单词组中与其它单词均不共生的单词个数。
作为优选,所述τa∈[0,1],τc∈[0,1]。
作为优选,步骤5中所述对所有品牌的打分过程如下:
步骤5.1:根据步骤3确定的商品类别选择相应的品牌打分表WordBrand,根据该品牌打分表和过滤后的单词组对相应商品类型下的所有品牌进行打分;计算公式为:
其中Nb为该商品类别包含的品牌数目;score[k]为品牌k的得分;Nf为过滤后的单词组含有的单词总数;indexOf(wordi)表示单词wordi在该商品类别单词表中的wid;
步骤5.2:给定不同的数值k,将单词组中任意k个单词组合,若该单词组合只在一个品牌中的出现,该品牌增加分值grade1;若在多个品牌中出现,则对应的多个品牌增加分值grade2。
作为优选,所述k∈[1,10],grade1∈[1,30],grade2∈[1,30]。
本发明中提出的基于OCR的商品查询关键字自动生成技术,计算量很小,对于硬件要求很低,具有很高的效率;使用的数据库以及表格很小,更新方便;能够极大地提高用户查询商品信息时的正确性,改善用户的购物体验。
附图说明
图1:本发明实施例的流程图。
图2:本发明实施例的数据库示意图。
图3:本发明实施例中样例产品的包装图。
图4:本发明实施例中OCR返回的识别结果图。
图5:本发明实施例中经过预处理的OCR识别结果图。
图6:本发明实施例中商品类别得分与选择的商品类别结果图。
图7:本发明实施例中单词组过滤后的结果图。
图8:本发明实施例中选取的品牌以及最终生成的商品查询关键词结果图。
图9:本发明实施例中利用生成的商品查询关键词在搜索引擎中查询的结果图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;
构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中;其具体实现过程是:
步骤A.1,在亚马逊网站上按照不同商品类别(日用品,红酒,书籍)爬取产品的名称、品牌(其中书籍的品牌为作者名)并建立产品信息表(属性为:产品序号(pid)、产品品牌(brand)、产品名(name)),分别为commodity、wine、book。
步骤A.2,在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将大写字母全部转为小写字母;(2)将“/”两边的单词分开,如cleanse/tone转为cleansetone;(3)去除无用字符(不是数字或英文字母表中的字母)(4)去除表示单位的单词;形成修剪后的产品名表;所述产品名表属性包括产品序号(pid)、修剪后的产品名(prunedname);形成3个修剪后的产品名表(属性为:产品序号(pid)、修剪后的产品名(prunedname)),分别为commodity_pruned、wine_pruned、book_pruned。
步骤A.3,基于修剪后的产品名表,对于每个商品类别下出现的单词(即修剪后的产品名中含有的所有单词),统计每个单词的出现次数以及产品名中含有该单词的产品的pid,形成3个单词表(属性为单词序号(wid)、单词(word)、单词数目(num)、产品序号(pid)),分别为commodity_words、wine_words、book_words。数据库中的产品信息表,产品名表,单词表见图2。
步骤A.4,基于数据库中的所有单词表,生成一个商品类别打分表,请见表2,表中的每一项代表一个单词在对应的商品类别下的出现比例,计算公式如下:
其中N表示数据库单词表包含的单词总数;P[i][j]表示单词i在商品类别j下的出现比例;numij表示单词i在商品类别j下出现的次数;total_numi表示单词i在三个商品类别中出现的总次数。
表2 商品类别打分表的结构
单词 | commodity类别 | wine类别 | book类别 |
olay | 1 | 0 | 0 |
with | 0.8282208588957055 | 0.03680981595092025 | 0.13496932515337423 |
… | … | … | … |
步骤A.5,对于每一个商品类别各生成一个单词共生表ACM,其中的每一项代表对应的两个单词的共生性得分,计算公式如下:
其中n表示该商品类别包含的单词总数;ACM[i][j]表示单词i和单词j的共生性得分;word_numi则表示单词i在该商品类别中出现的次数;word_numij表示该商品类别中单词i和单词j在修剪后的产品名中同时出现的次数;pre_nextij表示单词i和单词j在修剪后的产品名中紧挨着出现的次数。
步骤A.6,对于每一个商品类别各生成一个品牌打分表WordBrand,其中的每一项代表一个单词对一个品牌的贡献得分,计算公式如下:
其中n表示该商品类别包含的单词总数;Nb表示该商品类别包含的品牌数目;WordBrand[i][j]表示单词i对品牌j的贡献得分;Nij表示在某一商品类别中含有单词i且品牌为j的产品的个数,namelengthk表示含有单词i且品牌为j的产品k修剪后的产品名长度。
然后进行商品查询关键字自动生成,具体包括以下步骤:
步骤1:利用OCR技术提取产品包装图(图3)的全部可识别文字信息,识别结果如图4,并对返回的识别结果进行简单预处理,去掉单个字符长度的单词和一些无用符号(例如:“.”,“|”等),形成包含产品信息的一个单词组,预处理后结果如图5。
步骤2:采用两种编辑距离方法Levenshtein Distance和Damerau–LevenshteinDistance,分别计算OCR返回的单词组中每个单词与数据库单词表中所有单词的相似性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值。将单词组中对数据库所有单词的相似性都低于阈值0.5的单词丢弃。对于剩余的单词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的标准化工作。相似性的计算公式如下:
其中s为OCR返回的单词组中的一个单词;W为数据库单词表中的所有单词;N为数据库单词表所包含的单词总数;Ed为编辑距离的计算方法;Similarity(s,wi)表示单词组中的单词s与数据库中单词wi的相似性。
步骤3:若标准化后的产品信息单词组中含有某一产品品牌(比如Olay、Nivea等),则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别,步骤3结束。否则就根据标准化后的单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中只在该商品类别中出现的单词的个数。将得分最高的商品类别作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的类别。对商品类别打分规则为:若某单词只在一个商品类别出现,根据表3打分;若单词在多个商品类别中出现,每个商品类别的加分值为该单词在商品类别打分表中对应项的值乘以常数5。三个商品类别得分及选择结果如图6所示。
表3 单词只在一个商品类别中出现时该商品类别得分规则
步骤4:对于确定了产品类别的单词组选择相应的单词共生表,对于单词组中的每一个单词,计算其与单词组中其它单词的共生性得分。若单词组中每个单词的共生性得分均一致,不丢弃任何单词。否则认为得分低于0.2的单词代表的是无用信息,丢弃该单词,完成单词过滤,单词组过滤后的结果如图7所示。共生性得分计算公式如下:
其中app_proportioni为标准化后单词组中第i个单词的共生性得分;acm_numi代表单词组中与第i个单词在单词共生表中对应的值大于0.05的单词个数;stdWordNum为单词组中的单词个数;outlierNum为单词组中与其它单词均不共生的单词个数。
步骤5:若过滤后的产品信息单词组中含有某一产品品牌(比如Olay、Nivea等),将该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束。否则通过过滤后的产品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。选取的品牌以及最终生成的商品查询关键词结果如图8所示。利用生成的商品查询关键词在搜索引擎中查询的结果如图9所示(红框标出的为目标商品)。
在步骤5中,对所有品牌的打分过程如下:
步骤5.1,否则根据步骤3确定的商品类别选择相应的品牌打分表WordBrand,根据该品牌打分表和过滤后的单词组对相应商品类型下的所有品牌进行打分。计算公式为:
其中score[k]代表品牌k的得分;Nf为过滤后的单词组中含有的单词总数;Nb为相应商品类型下品牌的个数;indexOf(wordi)为单词wordi在该商品类别单词表中的wid。
步骤5.2,令数值k分别等于1、2、3,根据表4对所有品牌打分。
表4 不同k取值时的品牌得分规则
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (11)
1.一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;其中所述商品查询关键字自动生成包括以下步骤:
步骤1:利用OCR技术提取产品包装图中的全部可识别文字信息,并对返回的字符数据集进行预处理,去掉单个字符长度的单词和非数字、非字母的符号,形成包含产品信息的一个单词组;
步骤2:分别采用Levenshtein Distance和Damerau–Levenshtein Distance两种编辑距离方法,计算步骤1中获得的单词组中每个单词与数据库单词表中所有单词的相似性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值;将单词组中对数据库所有单词的相似性都低于给定阈值τs的单词丢弃;对于剩余的单词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的标准化工作;
步骤3:若标准化后的产品信息单词组中含有某一产品品牌,则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别;
否则就根据标准化后的产品信息单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中只在该商品类别中出现的单词的个数,将得分最高的商品类别作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的类别;否则无法判断;
步骤4:对确定了商品类别的单词组选择相应的单词共生表,对于单词组中的每一个单词,计算其与单词组中其它单词的共生性得分;若单词组中每个单词的共生性得分均一致,不丢弃任何单词,否则认为得分低于给定的阈值τa的单词代表的是无用信息,丢弃该单词,完成单词过滤;
步骤5:若过滤后的商品信息单词组中含有某一产品品牌,将该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束;否则通过过滤后的商品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。
2.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中。
3.根据权利要求1或2所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,其具体实现过程是:
步骤A.1:在电商网站上按照不同商品类别爬取产品的名称、品牌并建立产品信息表,所述产品信息表属性包括产品序号pid、产品品牌brand、产品名name;
步骤A.2:在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将大写字母全部转为小写字母;(2)将“/”两边的单词分开;(3)去除无用字符,无用字符包括不是数字或英文字母表中的字母;(4)去除表示单位的单词;形成修剪后的产品名表;所述产品名表属性包括产品序号pid、修剪后的产品名prunedname;
步骤A.3:基于修剪后的产品名表,对于每个商品类别下出现的单词,统计每个单词的出现次数以及产品名中含有该单词的产品的pid,形成单词表,所述单词表属性为包括单词序号wid、单词word、单词数目num、产品序号pid;
步骤A.4:基于所有单词表,生成一个商品类别打分表,表中的每一项代表一个单词在对应的商品类别下的出现比例,计算公式如下:
其中N表示单词表包含的单词总数;Nc表示商品类别数目;P[i][j]表示单词i在商品类别j下的出现比例;numij表示单词i在商品类别j下出现的次数;total_numi表示单词i在所有商品类别中出现的总次数;
步骤A.5:对于每一个商品类别各生成一个单词共生表ACM,其中的每一项代表对应的两个单词的共生性得分,计算公式如下:
其中n为该商品类别包含的单词总数;ACM[i][j]表示单词i和单词j的共生性得分;word_numi则表示单词i在该商品类别中出现的次数;word_numij表示该商品类别中单词i和单词j在修剪后的产品名中同时出现的次数;pre_nextij表示单词i和单词j在修剪后的产品名中紧挨着出现次数;
步骤A.6:对于每一个商品类别各生成一个品牌打分表WordBrand,其中的每一项代表一个单词对一个品牌的贡献得分,计算公式如下:
其中n表示该商品类别包含的单词总数;Nb表示该商品类别包含的品牌数目;WordBrand[i][j]表示单词i对品牌j的贡献得分;Nij表示在某一商品类别中含有单词i且品牌为j的产品的个数,namelengthk表示含有单词i且品牌为j的产品k修剪后的产品名长度;
步骤A.7:将所有的表存入数据库中。
4.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤2中相似性的计算公式为:
其中s为OCR返回的单词组中的一个单词;W为数据库单词表中所有的单词;N为数据库单词表包含的单词总数;Ed为编辑距离的计算方法;Similarity(s,wi)表示单词组中的单词s与数据库中单词wi的相似性;Length(s)表示单词s的长度;Length(wi)表示单词wi的长度。
5.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤2中所述τs∈[0,1]。
6.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤3中所述根据标准化后的产品信息单词组对不同的商品类别进行打分,商品类别打分规则为:若某单词只在一个商品类别中出现,则根据表1进行打分;
表1 单词只在一个商品类别中出现时该商品类别得分规则
若单词在多个商品类别中出现,每个商品类别的加分值为该单词在商品类别打分表中对应项的值乘以给定的数值Cm;其中对应项是该单词在商品类别的出现比例。
7.根据权利要求6所述的基于OCR的商品查询关键字自动生成方法,其特征在于:τsc∈[0,1],τL∈[1,15],grade∈[1,100],Cm∈[1,20]。
8.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤4中所述共生性得分计算公式为:
其中stdWordNum表示单词组中的单词个数;app_proportioni表示标准化后单词组中单词i的共生性得分;acm_numi代表单词组中与单词i在单词共生表中对应的值大于给定阈值τc的单词个数;outlierNum表示单词组中与其它单词均不共生的单词个数。
9.根据权利要求8所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述τa∈[0,1],τc∈[0,1]。
10.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤5中所述对所有品牌的打分过程如下:
步骤5.1:根据步骤3确定的商品类别选择相应的品牌打分表WordBrand,根据该品牌打分表和过滤后的单词组对相应商品类型下的所有品牌进行打分;计算公式为:
其中Nb为该商品类别包含的品牌数目;score[k]为品牌k的得分;Nf为过滤后的单词组含有的单词总数;indexOf(wordi)表示单词wordi在该商品类别单词表中的wid;
步骤5.2:给定不同的数值k,将单词组中任意k个单词组合,若该单词组合只在一个品牌中的出现,该品牌增加分值grade1;若在多个品牌中出现,则对应的多个品牌增加分值grade2。
11.根据权利要求10所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述k∈[1,10],grade1∈[1,30],grade2∈[1,30]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610428913.2A CN106096609B (zh) | 2016-06-16 | 2016-06-16 | 一种基于ocr的商品查询关键字自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610428913.2A CN106096609B (zh) | 2016-06-16 | 2016-06-16 | 一种基于ocr的商品查询关键字自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106096609A true CN106096609A (zh) | 2016-11-09 |
CN106096609B CN106096609B (zh) | 2019-03-19 |
Family
ID=57235300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610428913.2A Expired - Fee Related CN106096609B (zh) | 2016-06-16 | 2016-06-16 | 一种基于ocr的商品查询关键字自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106096609B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107315770A (zh) * | 2017-05-22 | 2017-11-03 | 朗动信息咨询(上海)有限公司 | 一种基于搜索引擎技术的科技信息检索系统 |
CN107801282A (zh) * | 2017-10-12 | 2018-03-13 | 北京小米移动软件有限公司 | 台灯、台灯控制方法及装置 |
CN108319626A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种基于名称信息的对象分类方法与设备 |
CN109993619A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 数据处理方法 |
CN110020080A (zh) * | 2017-12-08 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 信息处理方法和系统 |
CN111126400A (zh) * | 2018-10-31 | 2020-05-08 | 上海迈弦网络科技有限公司 | 一种基于ocr识别结果的大小写金额相互演算推测方法 |
CN112966681A (zh) * | 2021-04-12 | 2021-06-15 | 深圳市秦丝科技有限公司 | 商品拍照智能识别建档检索的方法、设备及存储介质 |
CN113239054A (zh) * | 2021-05-11 | 2021-08-10 | 北京百度网讯科技有限公司 | 信息生成方法、相关装置及计算机程序产品 |
CN113592512A (zh) * | 2021-07-22 | 2021-11-02 | 上海普洛斯普新数字科技有限公司 | 一种线上商品身份唯一性识别确认系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076991A1 (en) * | 2008-09-09 | 2010-03-25 | Kabushiki Kaisha Toshiba | Apparatus and method product for presenting recommended information |
CN102332137A (zh) * | 2011-09-23 | 2012-01-25 | 纽海信息技术(上海)有限公司 | 商品匹配方法及系统 |
CN102541910A (zh) * | 2010-12-27 | 2012-07-04 | 上海杉达学院 | 提取关键字的方法 |
CN103714094A (zh) * | 2012-10-09 | 2014-04-09 | 富士通株式会社 | 识别视频中的对象的设备和方法 |
CN103778205A (zh) * | 2014-01-13 | 2014-05-07 | 北京奇虎科技有限公司 | 一种基于互信息的商品分类方法和系统 |
WO2015013954A1 (en) * | 2013-08-01 | 2015-02-05 | Google Inc. | Near-duplicate filtering in search engine result page of an online shopping system |
US9069768B1 (en) * | 2012-03-28 | 2015-06-30 | Emc Corporation | Method and system for creating subgroups of documents using optical character recognition data |
US20150286888A1 (en) * | 2014-04-02 | 2015-10-08 | Benoit Maison | Optical Character Recognition System Using Multiple Images and Method of Use |
-
2016
- 2016-06-16 CN CN201610428913.2A patent/CN106096609B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076991A1 (en) * | 2008-09-09 | 2010-03-25 | Kabushiki Kaisha Toshiba | Apparatus and method product for presenting recommended information |
CN102541910A (zh) * | 2010-12-27 | 2012-07-04 | 上海杉达学院 | 提取关键字的方法 |
CN102332137A (zh) * | 2011-09-23 | 2012-01-25 | 纽海信息技术(上海)有限公司 | 商品匹配方法及系统 |
US9069768B1 (en) * | 2012-03-28 | 2015-06-30 | Emc Corporation | Method and system for creating subgroups of documents using optical character recognition data |
CN103714094A (zh) * | 2012-10-09 | 2014-04-09 | 富士通株式会社 | 识别视频中的对象的设备和方法 |
WO2015013954A1 (en) * | 2013-08-01 | 2015-02-05 | Google Inc. | Near-duplicate filtering in search engine result page of an online shopping system |
CN103778205A (zh) * | 2014-01-13 | 2014-05-07 | 北京奇虎科技有限公司 | 一种基于互信息的商品分类方法和系统 |
US20150286888A1 (en) * | 2014-04-02 | 2015-10-08 | Benoit Maison | Optical Character Recognition System Using Multiple Images and Method of Use |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319626A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种基于名称信息的对象分类方法与设备 |
CN108319626B (zh) * | 2017-01-18 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 一种基于名称信息的对象分类方法与设备 |
CN107315770A (zh) * | 2017-05-22 | 2017-11-03 | 朗动信息咨询(上海)有限公司 | 一种基于搜索引擎技术的科技信息检索系统 |
CN107801282A (zh) * | 2017-10-12 | 2018-03-13 | 北京小米移动软件有限公司 | 台灯、台灯控制方法及装置 |
CN107801282B (zh) * | 2017-10-12 | 2020-03-17 | 北京小米移动软件有限公司 | 台灯、台灯控制方法及装置 |
CN110020080A (zh) * | 2017-12-08 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 信息处理方法和系统 |
CN109993619A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 数据处理方法 |
CN111126400A (zh) * | 2018-10-31 | 2020-05-08 | 上海迈弦网络科技有限公司 | 一种基于ocr识别结果的大小写金额相互演算推测方法 |
CN112966681A (zh) * | 2021-04-12 | 2021-06-15 | 深圳市秦丝科技有限公司 | 商品拍照智能识别建档检索的方法、设备及存储介质 |
CN113239054A (zh) * | 2021-05-11 | 2021-08-10 | 北京百度网讯科技有限公司 | 信息生成方法、相关装置及计算机程序产品 |
CN113239054B (zh) * | 2021-05-11 | 2024-05-07 | 北京百度网讯科技有限公司 | 信息生成方法及相关装置 |
CN113592512A (zh) * | 2021-07-22 | 2021-11-02 | 上海普洛斯普新数字科技有限公司 | 一种线上商品身份唯一性识别确认系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106096609B (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106096609A (zh) | 一种基于ocr的商品查询关键字自动生成方法 | |
US7444325B2 (en) | Method and system for information extraction | |
CN106339502A (zh) | 一种基于用户行为数据分片聚类的建模推荐方法 | |
Maharjan et al. | A multi-task approach to predict likability of books | |
CN106951498A (zh) | 文本聚类方法 | |
CN102637192A (zh) | 一种自然语言问答的方法 | |
CN109597990B (zh) | 一种社会热点与商品品类的匹配方法 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
CN107193832A (zh) | 相似度挖掘方法及装置 | |
US9652997B2 (en) | Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN113673252B (zh) | 一种基于字段语义的数据表自动join推荐方法 | |
Islam et al. | Review analysis of ride-sharing applications using machine learning approaches: Bangladesh perspective | |
CN107895303A (zh) | 一种基于ocean模型的个性化推荐的方法 | |
CN107423348A (zh) | 一种基于关键词的精确检索方法 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN110781300B (zh) | 基于百度百科知识图谱的旅游资源文化特色评分算法 | |
CN116628229A (zh) | 一种利用知识图谱生成文本语料的方法及装置 | |
CN112307314A (zh) | 搜索引擎精选摘要的生成方法和装置 | |
CN112685440B (zh) | 标记搜索语义角色的结构化查询信息表达方法 | |
CN106355455A (zh) | 一种从网购用户评论中抽取产品特征信息的方法 | |
Luo et al. | Product review information extraction based on adjective opinion words | |
Hoiriyah et al. | Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190319 |
|
CF01 | Termination of patent right due to non-payment of annual fee |