CN106096609B - 一种基于ocr的商品查询关键字自动生成方法 - Google Patents

一种基于ocr的商品查询关键字自动生成方法 Download PDF

Info

Publication number
CN106096609B
CN106096609B CN201610428913.2A CN201610428913A CN106096609B CN 106096609 B CN106096609 B CN 106096609B CN 201610428913 A CN201610428913 A CN 201610428913A CN 106096609 B CN106096609 B CN 106096609B
Authority
CN
China
Prior art keywords
word
words
merchandise
brand
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610428913.2A
Other languages
English (en)
Other versions
CN106096609A (zh
Inventor
黄浩
钟林杌
李宗鹏
颜钱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201610428913.2A priority Critical patent/CN106096609B/zh
Publication of CN106096609A publication Critical patent/CN106096609A/zh
Application granted granted Critical
Publication of CN106096609B publication Critical patent/CN106096609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于OCR的商品查询关键字自动生成方法,首先建立商品信息数据库。然后利用OCR技术提取产品包装图中的文字信息,获得包含产品信息的单词组。接着通过计算单词组与数据库中单词的相似性,矫正错误字符,完成单词组标准化。接着通过打分规则将得分最高的商品类别作为单词组所代表产品的类别。随后选择该商品类别对应的单词共生表并计算单词组中各单词的共生性得分来过滤掉无用单词。最后,通过该商品类别的品牌打分表和打分规则选择得分最高的品牌作为单词组代表产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字供用户检索使用。本发明计算效率高,对数据库的更新方便,极大地提高用户查询商品信息时的正确性。

Description

一种基于OCR的商品查询关键字自动生成方法
技术领域
本发明属于信息检索技术领域,尤其涉及一种在OCR基础上的商品关键字自动生成方法。
背景技术
互联网以及手持智能终端在过去的10年间经历了爆炸式的发展,这极大地丰富了人们的信息获取途径并改变了人们的生活方式,越来越多的人选择通过电商完成购物。借助各种电商网站上详细的产品信息以及其它购买者对商品的评价,人们可以更好地进行购物选择。但是当购物者在商场、书店等地购物时,查询商品的具体信息就变得较为困难。通常人们的做法是阅读产品包装并人为提取组织其中可能的关键字,之后再输入到搜索引擎中进行查询。但手工提取产品关键字的过程费时费力,而且对于购物者来说精确选择关键字较为困难,更为糟糕的是一些无用单词可能会干扰查询结果。
OCR(Optical Character Recognition,光学字符识别)能对图像中的文本信息进行分析识别处理,通过检测暗、亮的模式确定其形状,用字符识别方法将形状翻译成计算机文字。随着带有拍照功能的手持智能终端的广泛普及,利用OCR技术对拍摄的商品包装照片中的文字信息进行提取显得水到渠成。但是,OCR识别出来的信息存在大量噪音,且存在一些无用信息。如果不对这些信息进行进一步的分析,其结果很可能影响用户的使用。因此需要对OCR识别的信息进一步分析整合。
发明内容
为了解决上述技术问题,本发明提供了一种基于OCR的商品查询关键字自动生成方法,在获取一张用手持智能终端拍摄的产品包装图后,OCR将会对该产品图片进行文字提取并返回一个包含大量噪音和无用信息的字符数据集,之后通过矫正错误字符(标准化)、选择商品类别、过滤无用信息、确定产品品牌四个过程最终生成合理的产品关键字。
本发明所采用的技术方案是:一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;其中所述商品查询关键字自动生成包括以下步骤:
步骤1:利用OCR技术提取产品包装图中的全部可识别文字信息,并对返回的字符数据集进行预处理,去掉单个字符长度的单词和无用符号(非数字、非字母的符号),形成包含产品信息的一个单词组;
步骤2:分别采用Levenshtein Distance和Damerau–Levenshtein Distance两种编辑距离方法,计算步骤1中获得的单词组中每个单词与数据库单词表中所有单词的相似性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值;将单词组中对数据库所有单词的相似性都低于给定阈值τs的单词丢弃;对于剩余的单词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的标准化工作;
步骤3:若标准化后的产品信息单词组中含有某一产品品牌,则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别;
否则就根据标准化后的产品信息单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中只在该商品类别中出现的单词的个数,将得分最高的商品类别作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的类别;否则无法判断;
步骤4:对确定了商品类别的单词组选择相应的单词共生表,对于单词组中的每一个单词,计算其与单词组中其它单词的共生性得分;若单词组中每个单词的共生性得分均一致,不丢弃任何单词,否则认为得分低于给定的阈值τa的单词代表的是无用信息,丢弃该单词,完成单词过滤;
步骤5:若过滤后的商品信息单词组中含有某一产品品牌,将该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束;否则通过过滤后的商品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。
作为优选,所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中。
作为优选,所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,其具体实现过程是:
步骤A.1:在电商网站上按照不同商品类别爬取产品的名称、品牌并建立产品信息表,所述产品信息表属性包括产品序号(pid)、产品品牌(brand)、产品名(name);
步骤A.2:在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将大写字母全部转为小写字母;(2)将“/”两边的单词分开,如cleanse/tone转为cleansetone;(3)去除无用字符(不是数字或英文字母表中的字母)(4)去除表示单位的单词;形成修剪后的产品名表;所述产品名表属性包括产品序号(pid)、修剪后的产品名(prunedname);
步骤A.3:基于修剪后的产品名表,对于每个商品类别下出现的单词,统计每个单词的出现次数以及产品名中含有该单词的产品的pid,形成单词表,所述产品名表属性包括产品序号(pid)、修剪后的产品名(prunedname);
步骤A.4:基于所有单词表,生成一个商品类别打分表,表中的每一项代表一个单词在对应的商品类别下的出现比例,计算公式如下:
其中,i∈{1,2,…,N},j∈{1,2,3,…,Nc};
其中N表示单词表包含的单词总数;Nc表示商品类别数目;P[i][j]表示单词i在商品类别j下的出现比例;numij表示单词i在商品类别j下出现的次数;total_numi表示单词i在所有商品类别中出现的总次数;
步骤A.5:对于每一个商品类别各生成一个单词共生表ACM,其中的每一项代表对应的两个单词的共生性得分,计算公式如下:
其中n为该商品类别包含的单词总数;ACM[i][j]表示单词i和单词j的共生性得分;word_numi则表示单词i在该商品类别中出现的次数;word_numij表示该商品类别中单词i和单词j在修剪后的产品名中同时出现的次数;pre_nextij表示单词i和单词j在修剪后的产品名中紧挨着出现次数;
步骤A.6:对于每一个商品类别各生成一个品牌打分表WordBrand,其中的每一项代表一个单词对一个品牌的贡献得分,计算公式如下:
其中n表示该商品类别包含的单词总数;Nb表示该商品类别包含的品牌数目;WordBrand[i][j]表示单词i对品牌j的贡献得分;Nij表示在某一商品类别中含有单词i且品牌为j的产品的个数,namelengthk表示含有单词i且品牌为j的产品k修剪后的产品名长度;
步骤A.7:将所有的表存入数据库中。
作为优选,步骤2中相似性的计算公式为:
其中s为OCR返回的单词组中的一个单词;W为数据库单词表中所有的单词;N为数据库单词表包含的单词总数;Ed为编辑距离的计算方法;Similarity(s,wi)表示单词组中的单词s与数据库中单词wi的相似性;Length(s)表示单词s的长度;Length(wi)表示单词wi的长度;
作为优选,步骤2中所述τs∈[0,1]。
作为优选,步骤3中所述根据标准化后的产品信息单词组对不同的商品类别进行打分,商品类别打分规则为:若某单词只在一个商品类别中出现,则根据表1进行打分;
表1单词只在一个商品类别中出现时该商品类别得分规则
若单词在多个商品类别中出现,每个商品类别的加分值为该单词在商品类别打分表中对应项的值乘以给定的数值Cm;其中对应项是该单词在商品类别的出现比例。
作为优选,τsc∈[0,1],τL∈[1,15],grade∈[1,100],Cm∈[1,20]。
作为优选,步骤4中所述共生性得分计算公式为:
其中stdWordNum表示单词组中的单词个数;app_proportioni表示标准化后单词组中单词i的共生性得分;acm_numi代表单词组中与单词i在单词共生表中对应的值大于给定阈值τc的单词个数;outlierNum表示单词组中与其它单词均不共生的单词个数。
作为优选,所述τa∈[0,1],τc∈[0,1]。
作为优选,步骤5中所述对所有品牌的打分过程如下:
步骤5.1:根据步骤3确定的商品类别选择相应的品牌打分表WordBrand,根据该品牌打分表和过滤后的单词组对相应商品类型下的所有品牌进行打分;计算公式为:
其中Nb为该商品类别包含的品牌数目;score[k]为品牌k的得分;Nf为过滤后的单词组含有的单词总数;indexOf(wordi)表示单词wordi在该商品类别单词表中的wid;
步骤5.2:给定不同的数值k,将单词组中任意k个单词组合,若该单词组合只在一个品牌中的出现,该品牌增加分值grade1;若在多个品牌中出现,则对应的多个品牌增加分值grade2。
作为优选,所述k∈[1,10],grade1∈[1,30],grade2∈[1,30]。
本发明中提出的基于OCR的商品查询关键字自动生成技术,计算量很小,对于硬件要求很低,具有很高的效率;使用的数据库以及表格很小,更新方便;能够极大地提高用户查询商品信息时的正确性,改善用户的购物体验。
附图说明
图1:本发明实施例的流程图。
图2:本发明实施例的数据库示意图。
图3:本发明实施例中样例产品的包装图。
图4:本发明实施例中OCR返回的识别结果图。
图5:本发明实施例中经过预处理的OCR识别结果图。
图6:本发明实施例中商品类别得分与选择的商品类别结果图。
图7:本发明实施例中单词组过滤后的结果图。
图8:本发明实施例中选取的品牌以及最终生成的商品查询关键词结果图。
图9:本发明实施例中利用生成的商品查询关键词在搜索引擎中查询的结果图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;
构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中;其具体实现过程是:
步骤A.1,在亚马逊网站上按照不同商品类别(日用品,红酒,书籍)爬取产品的名称、品牌(其中书籍的品牌为作者名)并建立产品信息表(属性为:产品序号(pid)、产品品牌(brand)、产品名(name)),分别为commodity、wine、book。
步骤A.2,在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将大写字母全部转为小写字母;(2)将“/”两边的单词分开,如cleanse/tone转为cleansetone;(3)去除无用字符(不是数字或英文字母表中的字母)(4)去除表示单位的单词;形成修剪后的产品名表;所述产品名表属性包括产品序号(pid)、修剪后的产品名(prunedname);形成3个修剪后的产品名表(属性为:产品序号(pid)、修剪后的产品名(prunedname)),分别为commodity_pruned、wine_pruned、book_pruned。
步骤A.3,基于修剪后的产品名表,对于每个商品类别下出现的单词(即修剪后的产品名中含有的所有单词),统计每个单词的出现次数以及产品名中含有该单词的产品的pid,形成3个单词表(属性为单词序号(wid)、单词(word)、单词数目(num)、产品序号(pid)),分别为commodity_words、wine_words、book_words。数据库中的产品信息表,产品名表,单词表见图2。
步骤A.4,基于数据库中的所有单词表,生成一个商品类别打分表,请见表2,表中的每一项代表一个单词在对应的商品类别下的出现比例,计算公式如下:
其中,i∈{1,2,…,N},j∈{1,2,3,…,Nc};
其中N表示数据库单词表包含的单词总数;P[i][j]表示单词i在商品类别j下的出现比例;numij表示单词i在商品类别j下出现的次数;total_numi表示单词i在三个商品类别中出现的总次数。
表2商品类别打分表的结构
单词 commodity类别 wine类别 book类别
olay 1 0 0
with 0.8282208588957055 0.03680981595092025 0.13496932515337423
步骤A.5,对于每一个商品类别各生成一个单词共生表ACM,其中的每一项代表对应的两个单词的共生性得分,计算公式如下:
其中n表示该商品类别包含的单词总数;ACM[i][j]表示单词i和单词j的共生性得分;word_numi则表示单词i在该商品类别中出现的次数;word_numij表示该商品类别中单词i和单词j在修剪后的产品名中同时出现的次数;pre_nextij表示单词i和单词j在修剪后的产品名中紧挨着出现的次数。
步骤A.6,对于每一个商品类别各生成一个品牌打分表WordBrand,其中的每一项代表一个单词对一个品牌的贡献得分,计算公式如下:
其中n表示该商品类别包含的单词总数;Nb表示该商品类别包含的品牌数目;WordBrand[i][j]表示单词i对品牌j的贡献得分;Nij表示在某一商品类别中含有单词i且品牌为j的产品的个数,namelengthk表示含有单词i且品牌为j的产品k修剪后的产品名长度。
然后进行商品查询关键字自动生成,具体包括以下步骤:
步骤1:利用OCR技术提取产品包装图(图3)的全部可识别文字信息,识别结果如图4,并对返回的识别结果进行简单预处理,去掉单个字符长度的单词和一些无用符号(例如:“.”,“|”等),形成包含产品信息的一个单词组,预处理后结果如图5。
步骤2:采用两种编辑距离方法Levenshtein Distance和Damerau–LevenshteinDistance,分别计算OCR返回的单词组中每个单词与数据库单词表中所有单词的相似性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值。将单词组中对数据库所有单词的相似性都低于阈值0.5的单词丢弃。对于剩余的单词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的标准化工作。相似性的计算公式如下:
其中s为OCR返回的单词组中的一个单词;W为数据库单词表中的所有单词;N为数据库单词表所包含的单词总数;Ed为编辑距离的计算方法;Similarity(s,wi)表示单词组中的单词s与数据库中单词wi的相似性。
步骤3:若标准化后的产品信息单词组中含有某一产品品牌(比如Olay、Nivea等),则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别,步骤3结束。否则就根据标准化后的单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中只在该商品类别中出现的单词的个数。将得分最高的商品类别作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的类别。对商品类别打分规则为:若某单词只在一个商品类别出现,根据表3打分;若单词在多个商品类别中出现,每个商品类别的加分值为该单词在商品类别打分表中对应项的值乘以常数5。三个商品类别得分及选择结果如图6所示。
表3单词只在一个商品类别中出现时该商品类别得分规则
步骤4:对于确定了产品类别的单词组选择相应的单词共生表,对于单词组中的每一个单词,计算其与单词组中其它单词的共生性得分。若单词组中每个单词的共生性得分均一致,不丢弃任何单词。否则认为得分低于0.2的单词代表的是无用信息,丢弃该单词,完成单词过滤,单词组过滤后的结果如图7所示。共生性得分计算公式如下:
其中app_proportioni为标准化后单词组中第i个单词的共生性得分;acm_numi代表单词组中与第i个单词在单词共生表中对应的值大于0.05的单词个数;stdWordNum为单词组中的单词个数;outlierNum为单词组中与其它单词均不共生的单词个数。
步骤5:若过滤后的产品信息单词组中含有某一产品品牌(比如Olay、Nivea等),将该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束。否则通过过滤后的产品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。选取的品牌以及最终生成的商品查询关键词结果如图8所示。利用生成的商品查询关键词在搜索引擎中查询的结果如图9所示(红框标出的为目标商品)。
在步骤5中,对所有品牌的打分过程如下:
步骤5.1,否则根据步骤3确定的商品类别选择相应的品牌打分表WordBrand,根据该品牌打分表和过滤后的单词组对相应商品类型下的所有品牌进行打分。计算公式为:
其中score[k]代表品牌k的得分;Nf为过滤后的单词组中含有的单词总数;Nb为相应商品类型下品牌的个数;indexOf(wordi)为单词wordi在该商品类别单词表中的wid。
步骤5.2,令数值k分别等于1、2、3,根据表4对所有品牌打分。
表4不同k取值时的品牌得分规则
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (11)

1.一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;其中所述商品查询关键字自动生成包括以下步骤:
步骤1:利用OCR技术提取产品包装图中的全部可识别文字信息,并对返回的字符数据集进行预处理,去掉单个字符长度的单词和非数字、非字母的符号,形成包含产品信息的一个单词组;
步骤2:分别采用Levenshtein Distance和Damerau–Levenshtein Distance两种编辑距离方法,计算步骤1中获得的单词组中每个单词与数据库单词表中所有单词的相似性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值;将单词组中对数据库所有单词的相似性都低于给定阈值τs的单词丢弃;对于剩余的单词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的标准化工作;
步骤3:若标准化后的产品信息单词组中含有某一产品品牌,则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别;
否则就根据标准化后的产品信息单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中只在该商品类别中出现的单词的个数,将得分最高的商品类别作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的类别;否则无法判断;
步骤4:对确定了商品类别的单词组选择相应的单词共生表,对于单词组中的每一个单词,计算其与单词组中其它单词的共生性得分;若单词组中每个单词的共生性得分均一致,不丢弃任何单词,否则认为得分低于给定的阈值τa的单词代表的是无用信息,丢弃该单词,完成单词过滤;
步骤5:若过滤后的商品信息单词组中含有某一产品品牌,将该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束;否则通过过滤后的商品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。
2.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中。
3.根据权利要求1或2所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,其具体实现过程是:
步骤A.1:在电商网站上按照不同商品类别爬取产品的名称、品牌并建立产品信息表,所述产品信息表属性包括产品序号pid、产品品牌brand、产品名name;
步骤A.2:在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将大写字母全部转为小写字母;(2)将“/”两边的单词分开;(3)去除无用字符,无用字符包括不是数字或英文字母表中的字母;(4)去除表示单位的单词;形成修剪后的产品名表;所述产品名表属性包括产品序号pid、修剪后的产品名prunedname;
步骤A.3:基于修剪后的产品名表,对于每个商品类别下出现的单词,统计每个单词的出现次数以及产品名中含有该单词的产品的pid,形成单词表,所述单词表属性为包括单词序号wid、单词word、单词数目num、产品序号pid;
步骤A.4:基于所有单词表,生成一个商品类别打分表,表中的每一项代表一个单词在对应的商品类别下的出现比例,计算公式如下:
其中,i∈{1,2,…,N},j∈{1,2,3,…,Nc};
其中N表示单词表包含的单词总数;Nc表示商品类别数目;P[i][j]表示单词i在商品类别j下的出现比例;numij表示单词i在商品类别j下出现的次数;total_numi表示单词i在所有商品类别中出现的总次数;
步骤A.5:对于每一个商品类别各生成一个单词共生表ACM,其中的每一项代表对应的两个单词的共生性得分,计算公式如下:
其中n为该商品类别包含的单词总数;ACM[i][j]表示单词i和单词j的共生性得分;word_numi则表示单词i在该商品类别中出现的次数;word_numij表示该商品类别中单词i和单词j在修剪后的产品名中同时出现的次数;pre_nextij表示单词i和单词j在修剪后的产品名中紧挨着出现次数;
步骤A.6:对于每一个商品类别各生成一个品牌打分表WordBrand,其中的每一项代表一个单词对一个品牌的贡献得分,计算公式如下:
其中n表示该商品类别包含的单词总数;Nb表示该商品类别包含的品牌数目;WordBrand[i][j]表示单词i对品牌j的贡献得分;Nij表示在某一商品类别中含有单词i且品牌为j的产品的个数,namelengthk表示含有单词i且品牌为j的产品k修剪后的产品名长度;
步骤A.7:将所有的表存入数据库中。
4.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤2中相似性的计算公式为:
其中s为OCR返回的单词组中的一个单词;W为数据库单词表中所有的单词;N为数据库单词表包含的单词总数;Ed为编辑距离的计算方法;Similarity(s,wi)表示单词组中的单词s与数据库中单词wi的相似性;Length(s)表示单词s的长度;Length(wi)表示单词wi的长度。
5.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤2中所述τs∈[0,1]。
6.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤3中所述根据标准化后的产品信息单词组对不同的商品类别进行打分,商品类别打分规则为:若某单词只在一个商品类别中出现,则打分规则为:
(1)该词在步骤3中统计的最大相似性Smax大于阈值τsc,且单词长度L不超过阈值τL,则该库得分+grade;
(2)该词在步骤3中统计的最大相似性Smax大于阈值τsc,且单词长度L超过τL,则该库得分+grade;
(3)该词在步骤3中统计的最大相似性Smax小于阈值τsc,且单词长度L不超过τL,则该库得分+grade;
(4)该词在步骤3中统计的最大相似性Smax小于阈值τsc,且单词长度L超过τL,则该库得分+grade;
若单词在多个商品类别中出现,每个商品类别的加分值为该单词在商品类别打分表中对应项的值乘以给定的数值Cm;其中对应项是该单词在商品类别的出现比例。
7.根据权利要求6所述的基于OCR的商品查询关键字自动生成方法,其特征在于:τsc∈[0,1],τL∈[1,15],grade∈[1,100],Cm∈[1,20]。
8.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤4中所述共生性得分计算公式为:
其中stdWordNum表示单词组中的单词个数;app_proportioni表示标准化后单词组中单词i的共生性得分;acm_numi代表单词组中与单词i在单词共生表中对应的值大于给定阈值τc的单词个数;outlierNum表示单词组中与其它单词均不共生的单词个数。
9.根据权利要求8所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述τa∈[0,1],τc∈[0,1]。
10.根据权利要求3所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤5中所述对所有品牌的打分过程如下:
步骤5.1:根据步骤3确定的商品类别选择相应的品牌打分表WordBrand,根据该品牌打分表和过滤后的单词组对相应商品类型下的所有品牌进行打分;计算公式为:
其中Nb为该商品类别包含的品牌数目;score[k]为品牌k的得分;Nf为过滤后的单词组含有的单词总数;indexOf(wordi)表示单词wordi在该商品类别单词表中的wid;
步骤5.2:给定不同的数值k,将单词组中任意k个单词组合,若该单词组合只在一个品牌中的出现,该品牌增加分值grade1;若在多个品牌中出现,则对应的多个品牌增加分值grade2。
11.根据权利要求10所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述k∈[1,10],grade1∈[1,30],grade2∈[1,30]。
CN201610428913.2A 2016-06-16 2016-06-16 一种基于ocr的商品查询关键字自动生成方法 Active CN106096609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610428913.2A CN106096609B (zh) 2016-06-16 2016-06-16 一种基于ocr的商品查询关键字自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610428913.2A CN106096609B (zh) 2016-06-16 2016-06-16 一种基于ocr的商品查询关键字自动生成方法

Publications (2)

Publication Number Publication Date
CN106096609A CN106096609A (zh) 2016-11-09
CN106096609B true CN106096609B (zh) 2019-03-19

Family

ID=57235300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610428913.2A Active CN106096609B (zh) 2016-06-16 2016-06-16 一种基于ocr的商品查询关键字自动生成方法

Country Status (1)

Country Link
CN (1) CN106096609B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319626B (zh) * 2017-01-18 2022-06-03 阿里巴巴集团控股有限公司 一种基于名称信息的对象分类方法与设备
CN107315770A (zh) * 2017-05-22 2017-11-03 朗动信息咨询(上海)有限公司 一种基于搜索引擎技术的科技信息检索系统
CN107801282B (zh) * 2017-10-12 2020-03-17 北京小米移动软件有限公司 台灯、台灯控制方法及装置
CN110020080A (zh) * 2017-12-08 2019-07-16 北京京东尚科信息技术有限公司 信息处理方法和系统
CN109993619B (zh) * 2017-12-29 2022-09-30 北京京东尚科信息技术有限公司 数据处理方法
CN111126400A (zh) * 2018-10-31 2020-05-08 上海迈弦网络科技有限公司 一种基于ocr识别结果的大小写金额相互演算推测方法
CN112966681B (zh) * 2021-04-12 2022-05-10 深圳市秦丝科技有限公司 商品拍照智能识别建档检索的方法、设备及存储介质
CN113239054B (zh) * 2021-05-11 2024-05-07 北京百度网讯科技有限公司 信息生成方法及相关装置
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统
CN102541910A (zh) * 2010-12-27 2012-07-04 上海杉达学院 提取关键字的方法
CN103714094A (zh) * 2012-10-09 2014-04-09 富士通株式会社 识别视频中的对象的设备和方法
CN103778205A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 一种基于互信息的商品分类方法和系统
WO2015013954A1 (en) * 2013-08-01 2015-02-05 Google Inc. Near-duplicate filtering in search engine result page of an online shopping system
US9069768B1 (en) * 2012-03-28 2015-06-30 Emc Corporation Method and system for creating subgroups of documents using optical character recognition data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5238418B2 (ja) * 2008-09-09 2013-07-17 株式会社東芝 情報推薦装置および情報推薦方法
US9465774B2 (en) * 2014-04-02 2016-10-11 Benoit Maison Optical character recognition system using multiple images and method of use

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541910A (zh) * 2010-12-27 2012-07-04 上海杉达学院 提取关键字的方法
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统
US9069768B1 (en) * 2012-03-28 2015-06-30 Emc Corporation Method and system for creating subgroups of documents using optical character recognition data
CN103714094A (zh) * 2012-10-09 2014-04-09 富士通株式会社 识别视频中的对象的设备和方法
WO2015013954A1 (en) * 2013-08-01 2015-02-05 Google Inc. Near-duplicate filtering in search engine result page of an online shopping system
CN103778205A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 一种基于互信息的商品分类方法和系统

Also Published As

Publication number Publication date
CN106096609A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106096609B (zh) 一种基于ocr的商品查询关键字自动生成方法
CN105824959B (zh) 舆情监控方法及系统
WO2020253591A1 (zh) 运用标签知识网络的搜索方法及装置
CN106294425B (zh) 商品相关网络文章之自动图文摘要方法及系统
CN105302810B (zh) 一种信息搜索方法和装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN104281653B (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN106651696B (zh) 一种近似题推送方法及系统
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN103927309B (zh) 一种对业务对象标注信息标签的方法及装置
CN104268175B (zh) 一种数据搜索的装置及其方法
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN102054029A (zh) 一种基于社会网络和人名上下文的人物信息消歧处理方法
CN102495892A (zh) 一种网页信息抽取方法
US20150199567A1 (en) Document classification assisting apparatus, method and program
CA3217669A1 (en) Commodity short title generation method and apparatus
CN107506472B (zh) 一种学生浏览网页分类方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN110750995A (zh) 一种基于自定义图谱的文件管理方法
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN113673252B (zh) 一种基于字段语义的数据表自动join推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant