CN103235803B - 一种从文本中获取物品属性值的方法和装置 - Google Patents

一种从文本中获取物品属性值的方法和装置 Download PDF

Info

Publication number
CN103235803B
CN103235803B CN201310133719.8A CN201310133719A CN103235803B CN 103235803 B CN103235803 B CN 103235803B CN 201310133719 A CN201310133719 A CN 201310133719A CN 103235803 B CN103235803 B CN 103235803B
Authority
CN
China
Prior art keywords
property value
attribute
dictionary
article
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310133719.8A
Other languages
English (en)
Other versions
CN103235803A (zh
Inventor
陆强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Shangke Information Technology Co Ltd
Priority to CN201310133719.8A priority Critical patent/CN103235803B/zh
Publication of CN103235803A publication Critical patent/CN103235803A/zh
Application granted granted Critical
Publication of CN103235803B publication Critical patent/CN103235803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种从文本中获取物品属性值的方法和装置,能够使具有相同属性的商品有相同的属性值。该方法包括:根据预先针对物品的各种属性分别设置的属性值抽取规则,从所述文本中抽取物品的一个或多个属性的属性值;对于成功抽取到属性值的属性,以该属性值的预设标准形式将该属性值保存在所述物品的条目中;对于未能抽取出属性值的属性,在预先保存的该属性的属性值集合中查找该属性值,然后以预设的该属性值的标准形式将该属性值保存在所述物品的条目中。

Description

一种从文本中获取物品属性值的方法和装置
技术领域
本发明涉及一种从文本中获取物品属性值的方法和装置。
背景技术
当前电子商务空前繁荣,各种大大小小的电商网站已近千家,为满足用户从如此繁多的电商网站上方便、快捷地找到性价比高、价格便宜、服务质量好的心仪商品,目前已实现了全网B2C(Business toConsumer)网站(是指提供企业对客户间电子商务活动平台的网站)的商品比价系统。比价系统的关键是商品的归一化。即:同一款商品在不同网站有其各自不同的描述方式,在这五花八门的描述中,需要识别出属于同一款的商品。例如,某一网站中的手机“中兴U950”在另一网站中被描述成“ZTE U950”,虽然描述该商品采用的文本不相同,但实质上是同一型号的商品,但是现有技术中的比价系统通常采用文本匹配的方式识别商品,就会认为这是两种商品,将它们分列在两个商品的条目中,后续还需人工进行修改。在当前商品种类呈现海量状态的情况下,人工修改由于其效率较低,难以较好地做到同一型号商品都列在同一商品条目中。比价系统是按商品条目中的各个B2C网站的价格进行比较,如以下商品的条目:
表1
商品 网站1 网站2 网站3 网站4
中兴U950 949 955(带票)
ZTE U950 945 940
可以看出,由于对同一商品的描述不同,比价系统中的商品条目中,认为手机“中兴U950”只在网站1和网站3中销售,手机“ZTE U950”只在网站2和网站4中销售。这样,用户搜索“中兴U950”进行比价时,只是将网站1和网站3的价格比较;用户搜索“ZTE U950”进行比价时,只是将网站2和网站4的价格比较。这样比价的全面性显然受到影响。原因在于从“中兴U950”和“ZTE U950”中得到的信息不同。一般来说,每种商品包含一组属性,例如“品牌”、“型号”、“颜色”等。相同的商品,其属性应当相同,例如中兴品牌的U950型手机,它们的品牌与型号的属性应该相同。但是目前各种场合中,包括各个B2C网站以及其他的媒体中,对于商品的相同属性却有不同的描述,其中原因也比较复杂,例如8G的手机内存,其描述有“8G”、“8GB”等,又如一款手机的相同型号的描述有“HTC G13”、“HTCWildfire S”、“HTC野火S”“HTC A510e”等不同形式。
对于各网站对于商品的种种不同的描述,需要有一种从这些描述的文本中获取商品属性值的方法,使具有相同属性的商品有相同的属性值。
发明内容
有鉴于此,本发明提供一种从文本中获取物品属性值的方法和装置,能够使具有相同属性的商品有相同的属性值。
为实现上述目的,根据本发明的一个方面,提供了一种从文本中获取物品属性值的方法。
本发明的从文本中获取物品属性值的方法中,所述文本中包含物品的一个或多个属性和对应的属性值,该方法包括:根据预先针对物品的各种属性分别设置的属性值抽取规则,从所述文本中抽取物品的一个或多个属性的属性值;对于成功抽取到属性值的属性,以该属性值的预设标准形式将该属性值保存在所述物品的条目中;对于未能抽取出属性值的属性,在预先保存的该属性的属性值集合中查找该属性值,然后以预设的该属性值的标准形式将该属性值保存在所述物品的条目中;所述在预先保存的该属性的属性值集合中查找该属性值的步骤包括如下流程:步骤1、获取通过规则抽取后仍有未抽取出来的属性的未完全抽取商品记录列表,步骤2、遍历所述未完全抽取商品记录列表中的未完全抽取商品记录,步骤3、获取所述未完全抽取记录中通过规则抽取失败的属性列表,步骤4、按一定顺序取所述属性列表中的一条属性,如果全部属性已处理完成,进入步骤3;步骤5、根据商品类型及属性名找到特定类型的属性值字典位置,加载属性值字典,步骤6、遍历字典中的所有字典值,寻找商品记录的标题中是否包含字典值,如果包含,则匹配成功,将匹配结果以属性名、属性值键值对形式保存到商品记录中,否则匹配失败,进入步骤4;其中,生成所述属性值字典包括规则字典生成与第三方数据字典生成;所述规则字典生成是指在获得某一指定类型的商品列表后,根据类型获取对应的类型属性模板信息,通过模板信息,可以知道该类型的商品需要抽取哪些属性,以及每个属性用什么样的规则去抽取,如果属性值通过模板中配置的规则抽取成功,将抽取的属性值赋给对应的属性,同时将属性值保存到属性值字典中;所述第三方数据字典生成是指对包含产品信息的网页的网页数据进行结构化抽取,分析出需要创建属性值字典的数据。
可选地,所述属性值抽取规则是针对物品的每项属性分别设置的多条属性值抽取规则;在从所述文本中抽取物品的一个或多个属性的属性值的步骤中,针对物品的每项属性,依次按照所述属性值抽取规则进行属性值抽取,当抽取到一个属性值后,开始针对物品的下一项属性进行属性值抽取。
可选地,所述物品是电子商务中的商品。
可选地,所述文本中包含所述商品的品牌和型号。
根据本发明的另一方面,提供了一种从文本中获取物品属性值的装置。
对于本发明的从文本中获取物品属性值的装置,该文本中包含物品的一个或多个属性和对应的属性值,该装置包括:第一抽取模块,用于根据预先针对物品的各种属性分别设置的属性值抽取规则,从所述文本中抽取物品的一个或多个属性的属性值;保存模块,用于对于成功抽取到属性值的属性,以该属性值的预设标准形式将该属性值保存在所述物品的条目中;第二抽取模块,用于对于所述第一抽取模块未能抽取出属性值的属性,在预先保存的该属性的属性值集合中查找该属性值,然后以预设的该属性值的标准形式将该属性值保存在所述物品的条目中;所述第二抽取模块还用于按如下流程进行所述在预先保存的该属性的属性值集合中查找该属性值:步骤1、获取通过规则抽取后仍有未抽取出来的属性的未完全抽取商品记录列表,步骤2、遍历所述未完全抽取商品记录列表中的未完全抽取商品记录,步骤3、获取所述未完全抽取记录中通过规则抽取失败的属性列表,步骤4、按一定顺序取所述属性列表中的一条属性,如果全部属性已处理完成,进入步骤3;步骤5、根据商品类型及属性名找到特定类型的属性值字典位置,加载属性值字典,步骤6、遍历字典中的所有字典值,寻找商品记录的标题中是否包含字典值,如果包含,则匹配成功,将匹配结果以属性名、属性值键值对形式保存到商品记录中,否则匹配失败,进入步骤4;其中,生成所述属性值字典包括规则字典生成与第三方数据字典生成;所述规则字典生成是指在获得某一指定类型的商品列表后,根据类型获取对应的类型属性模板信息,通过模板信息,可以知道该类型的商品需要抽取哪些属性,以及每个属性用什么样的规则去抽取,如果属性值通过模板中配置的规则抽取成功,将抽取的属性值赋给对应的属性,同时将属性值保存到属性值字典中;所述第三方数据字典生成是指对包含产品信息的网页的网页数据进行结构化抽取,分析出需要创建属性值字典的数据。
可选地,所述属性值抽取规则是针对物品的每项属性分别设置的多条属性值抽取规则;所述第一抽取模块还用于在从所述文本中抽取物品的一个或多个属性的属性值时,针对物品的每项属性,依次按照所述属性值抽取规则进行属性值抽取,当抽取到一个属性值后,开始针对物品的下一项属性进行属性值抽取。
可选地,所述物品是电子商务中的商品。
可选地,所述文本中包含所述商品的品牌和型号。
根据本发明的技术方案,通过预设的属性值抽取规则或者属性值集合来获得物品的属性值,再将该属性值标准化,实现了向物品的条目中添加该物品的标准化的属性值,这样对于从各种来源获得的物品条目,只要它们具有相同的属性,条目内就具有相同的属性值,从而可以利用该属性值获取具有相同属性值的物品的各种来源的条目信息。在电子商务领域,根据上述步骤处理商品的信息,可以使多个电子商务网站的商品记录中包含的商品属性具有标准化的字段,使具有相同属性的商品具有相同的属性值,从而利用这一点可以实现全面的电子商务网站间的商品比价等横向信息处理。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的从文本中获取物品属性值的方法的基本步骤的示意图;
图2是根据本发明实施例的从文本中获取物品属性值的装置的基本结构的示意图;
图3是根据本发明实施例的商品属性抽取系统的优选结构的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的从文本中获取物品属性值的方法的基本步骤的示意图。如图1所示,本发明实施例的从文本中获取物品属性值的方法主要包括步骤S11至步骤S15。
步骤S11:读取一条文本。该文本中包含物品的一个或多个属性和对应的属性值。例如电子商务中的商品,物品即为商品,属性例如品牌、型号等,属性值是具体的品牌名、型号名等。例如某手机,品牌属性的一个属性值是HTC,型号属性的一个属性值是G13。本步骤中的文本可以是从各个网站获得。例如对于数码产品,从各种数码产品的专业网站中,采用网络数据抓取技术可以获取各种商品的属性以及相应的属性值。获取到的文本通常包含多个条目,每个条目有一种商品的品牌、型号,有时也包含该商品的外观信息例如颜色。例如“西门子3518i珠莹灰”。图1所示的流程是针对1条文本条目的处理,对于更多的文本可以逐条采用图1的流程处理。该文本也可以包含更多信息,以商品为例,该文本可以是一条商品记录,其中可以包含商品价格、促销信息等,而商品的属性值通常是商品记录的标题。
步骤S12:从步骤S11中读取的文本中抽取物品的一个或多个属性的属性值。本步骤中的属性值抽取是根据预先设定的属性值抽取规则。属性值抽取规则是根据各种已知的属性值的文本字段的特点归纳而得到,对此将在后文中作进一步说明。
采用属性值抽取规则进行属性值抽取,有时能够抽取到属性值,有时则不能。对于抽取到属性值的情况,本步骤之后转入步骤S13;对于没有抽取到属性值的情况,本步骤之后转入步骤S14。
步骤S13:以抽取到的属性值的预设标准形式将该属性值保存在物品的条目中。例如预先设定:品牌属性值“中兴”、“ZTE”、“ZTE(中兴)”的标准形式是“中兴”,从网站1抽取的品牌属性值为“中兴”,型号属性值为“U950”,从网站2抽取的品牌属性值为“ZTE”,型号属性值为“U950”,则在商品记录中都保存为“中兴”。并且将“中兴”、“ZTE”保存在品牌属性的属性值集合中。该集合包含各种品牌属性,例如该集合中包含“中兴”、“ZTE”、“ZTE(中兴)”、“西门子”、“SIEMENS”、“HTC”、“华为”、“HUAWEI”等。
物品的条目包含物品的详细信息,以商品为例,商品条目包含商品的品牌、型号(这两项通常在商品条目的标题中),还可以包含商品的颜色、价格、促销信息等。
步骤S14:在预先保存的该属性的属性值集合中查找该属性值。可以采用字段匹配的方式来查找。例如从文本条目“HTC野火S黑色”中,抽取到了品牌属性值“HTC”,但未抽取到型号属性值,即从型号属性值集合中查找“野火S”。例如该型号属性值集合中包含“G13”、“Wildfire S”、“野火S”、“A510e”、“3518”、“3518i”、“U950”等,即可查到“野火S”。如果对于某项属性的属性值仍未查到,可以采取人工的方式将该属性值添加到属性值集合中,这样属性值集合会不断扩充和完善。本步骤之后进入步骤S15。
步骤S15:以预设的该属性值的标准形式将步骤S14中查找到的属性值保存在物品的条目中。
图2是根据本发明实施例的从文本中获取物品属性值的装置的基本结构的示意图。这里所说的文本中,包含物品的一个或多个属性和对应的属性值。如图2所示,从文本中获取物品属性值的装置20主要包括第一抽取模块21、保存模块22、第二抽取模块23。
第一抽取模块21用于根据预先针对物品的各种属性分别设置的属性值抽取规则,从文本中抽取物品的一个或多个属性的属性值。保存模块22用于对于成功抽取到属性值的属性,以该属性值的预设标准形式将该属性值保存在物品的条目中。第二抽取模块23用于对于第一抽取模块未能抽取出属性值的属性,在预先保存的该属性的属性值集合中查找该属性值,然后以预设的该属性值的标准形式将该属性值保存在物品的条目中。
第一抽取模块21所根据的属性值抽取规则可以是针对物品的每项属性分别设置的多条属性值抽取规则。第一抽取模块21还用于在从文本中抽取物品的一个或多个属性的属性值时,针对物品的每项属性,依次按照属性值抽取规则进行属性值抽取,当抽取到一个属性值后,开始针对物品的下一项属性进行属性值抽取。
下面以电子商务中的商品的属性抽取为例对本发明实施例作进一步说明。参考图3,图3是根据本发明实施例的商品属性抽取系统的优选结构的示意图,该商品属性抽取系统具有从文本中获取物品属性值的功能。如图3所示,商品属性抽取系统30由数据模块31、数据遍历模块32、规则抽取模块33、字典生成模块34、以及字典抽取模块35组成。
数据模块31包含了类型属性模板集合和全网B2C商品记录。全网B2C商品记录是指通过网络数据抓取技术来获取(例如使用网络爬虫来爬取)全网B2C商品页面,通过页面抽取技术,将网页中的标题、产品层次结构、促销信息、价格、参数详情、产品描述等信息抽取出来,通过文本分类技术,自动将产品分到对应类型,同时保存商品记录到数据库或其他存储介质中。由于不同类型的商品具有不同的特征,在类型属性模板中,保存了特定类型所需要抽取的属性及属性抽取规则。如手机类型的商品记录配置如下:
数据遍历模块32主要用于通过商品类型查询对应的商品记录列表。每次获取的数据都属于同一类型的商品。
规则抽取模块33主要用于对具体商品记录通过对需要抽取的属性按其对应的特殊规则进行规则匹配,如果属性不存在任何规则,可跳过此步。此处所谓的规则,是指具体类型的商品记录的标题、层次关系、商品参数等属性具备的某些共同或特殊描述方式。如“ZTE(中兴)”这种以“英文字符串+左括号+中文字符串+右括号”形式开头的商品标题、层次关系、商品参数中对应的品牌属性值,我们可认为它是品牌属性的一个抽取规则。又如内存的描述一般为8G、8GB,抽象出来的具体规则即为:“非英文字符+一至两位数字+(G,GB)+非英文字符串”。另外,某一属性可以具有多个抽取规则,抽取时满足其中之一即可。
字典生成模块34具有规则字典生成与第三方数据字典生成两部分功能。此处所谓的字典,是指将商品需要抽取的某一属性对应的所有属性值保存到以属性名命名的文件中,称这个文件为属性值字典文件,即上文中的属性值集合。“规则字典生成”是指:数据遍历模块获得某一指定类型的商品列表后,根据类型获取对应的类型属性模板信息,通过模板信息,可以知道该类型的商品需要抽取哪些属性,以及每个属性用什么样的规则去抽取。如果属性值通过模板中配置的规则抽取成功,将抽取的属性值赋给对应的属性,同时将属性值保存到属性值字典中。例如抽取“ZTE(中兴)U950 3G手机(黑色)”,通过上述的品牌规则,可以得到该记录的品牌属性对应的属性值为“ZTE(中兴)”,根据对该品牌预设的标准形式,将抽取的属性值改为“中兴”并保存。并且可能由其他的品牌抽取规则,抽取到了“ZTE”、“中兴”这样的品牌属性值,此时将这些属性值和标准形式“中兴”一并保存到品牌属性值字典(例如文件名“品牌.dict”)中。
也存在另外一些类型的属性,可能它们的属性值根本不存在任何规则,或是当前规则无法抽取出它们的属性值,此时,可以通过第三方数据创建属性值字典,也就是下面要描述的“第三方数据字典生成”。比如需要构建笔记本的第三方属性值字典,可以通过网络爬虫去定点爬取太平洋电脑网、中关村在线等专业的第三方网站的笔记本模块中的产品信息,由于这些网站对产品的描述非常规范、全面,因此我们可以很容易对它们的网页数据进行结构化抽取,同时分析出如“品牌”、“型号”、“CPU”等我们需要创建属性值字典的数据。
对于那些无法通过属性规则抽取的商品记录,由字典抽取模块35以属性值字典匹配方式进行抽取。字典匹配的最简单方式就是判断商品记录的标题、层次关系、商品参数等属性是否包含对应属性值字典中的值。下面对图2所示系统的处理流程作详细说明。
第一步是通过第三方网站创建属性值字典,待字典达到一定规模后,此步可和第二步和第三步同时运行。通过第三方网站创建属性值字典主要是为了丰富字典内容。另外也可以直接从第二步开始执行。第三方字典生成流程如下:
1、配置类型属性模板。主要包括类型信息、需要抽取的属性、属性抽取规则、第三方专业网站对应的网站URL、第三方数据字典生成器等。
2、执行第三方字典生成任务执行器。任务执行器将加载类型属性模板集合,遍历模板集合中的类型(包含全网B2C商品记录中所对应的类型)。根据配置的第三方专业网站对应的网站URL、第三方数据字典生成器等信息,生成该类型对应属性的第三方属性值字典。
第二步是属性规则抽取,它是在第一步收集到的属性值字典达到一定规模后开始运行。属性规则抽取流程如下:
1、加载类型属性模板集合信息C。
2、按一定顺序获取C中各类型属性模板信息M。
3、根据类型属性模板M中的类型信息,查询“全网B2C商品记录”中该类型的商品列表L。
4、从L中获取一条未被属性抽取处理的商品记录P。如果L中的所有商品记录都已经完成了规则属性抽取处理,进入步骤2,获取下一个类型属性模板。
5、获取类型属性模板M中一条未处理的属性配置信息。
6、根据属性配置信息中的属性抽取规则对商品记录P进行属性抽取。如果抽取成功,进入步骤7,否则进入步骤8。
7、将被抽取出的属性及属性值以键值对的形式保存到商品记录P中。同时将属性值保存到以属性名命名的属性值字典MD中。
8、判断类型模板M中的所有属性是否全部处理完,如果是,进入步骤4,否则进入步骤5。
第三步是属性字典抽取,本步主要处理那些无法通过规则抽取的属性。属性字典抽取流程如下:
1、获取通过规则抽取后仍有未抽取出来的属性的未完全抽取商品记录列表PL。
2、按一定顺序遍历PL中的未完全抽取商品记录。
3、获取未完全抽取记录P通过规则抽取失败的属性列表。
4、按一定顺序取该属性列表中的一条属性。如果全部属性已处理完成,进入步骤3。
5、根据商品类型及属性名找到特定类型的属性值字典位置,加载属性值字典。
6、遍历字典中的所有字典值,寻找商品记录的标题(例如“ZTE(中兴)U950 3G手机(黑色)”)中是否包含字典值,如果包含,则匹配成功,将匹配结果以属性名、属性值键值对形式保存到商品记录中。否则匹配失败,进入步骤4。
根据上述步骤,实现了向物品的条目中添加该物品的标准化的属性值,这样对于从各种来源获得的物品条目,只要它们具有相同的属性,条目内就具有相同的属性值,从而可以利用该属性值获取具有相同属性值的物品的各种来源的条目信息。在电子商务领域,根据上述步骤处理商品的信息,可以使多个电子商务网站的商品记录中包含的商品属性具有标准化的字段,使具有相同属性的商品具有相同的属性值,从而利用这一点可以实现全面的电子商务网站间的商品比价等横向信息处理。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和设备的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来开发出的任何存储介质。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种从文本中获取物品属性值的方法,所述文本中包含物品的一个或多个属性和对应的属性值,其特征在于,该方法包括:
根据预先针对物品的各种属性分别设置的属性值抽取规则,从所述文本中抽取物品的一个或多个属性的属性值;
对于成功抽取到属性值的属性,以该属性值的预设标准形式将该属性值保存在所述物品的条目中;
对于未能抽取出属性值的属性,在预先保存的该属性的属性值集合中查找该属性值,然后以预设的该属性值的标准形式将该属性值保存在所述物品的条目中;
所述在预先保存的该属性的属性值集合中查找该属性值的步骤包括如下流程:
步骤1、获取通过规则抽取后仍有未抽取出来的属性的未完全抽取商品记录列表,
步骤2、遍历所述未完全抽取商品记录列表中的未完全抽取商品记录,
步骤3、获取所述未完全抽取记录中通过规则抽取失败的属性列表,
步骤4、按一定顺序取所述属性列表中的一条属性,如果全部属性已处理完成,进入步骤3;
步骤5、根据商品类型及属性名找到特定类型的属性值字典位置,加载属性值字典,
步骤6、遍历字典中的所有字典值,寻找商品记录的标题中是否包含字典值,如果包含,则匹配成功,将匹配结果以属性名、属性值键值对形式保存到商品记录中,否则匹配失败,进入步骤4;
其中,生成所述属性值字典包括规则字典生成与第三方数据字典生成;所述规则字典生成是指在获得某一指定类型的商品列表后,根据类型获取对应的类型属性模板信息,通过模板信息,可以知道该类型的商品需要抽取哪些属性,以及每个属性用什么样的规则去抽取,如果属性值通过模板中配置的规则抽取成功,将抽取的属性值赋给对应的属性,同时将属性值保存到属性值字典中;所述第三方数据字典生成是指对包含产品信息的网页的网页数据进行结构化抽取,分析出需要创建属性值字典的数据。
2.根据权利要求1所述的方法,其特征在于,
所述属性值抽取规则是针对物品的每项属性分别设置的多条属性值抽取规则;
在从所述文本中抽取物品的一个或多个属性的属性值的步骤中,针对物品的每项属性,依次按照所述属性值抽取规则进行属性值抽取,当抽取到一个属性值后,开始针对物品的下一项属性进行属性值抽取。
3.根据权利要求1或2所述的方法,其特征在于,所述物品是电子商务中的商品。
4.根据权利要求3所述的方法,其特征在于,所述文本中包含所述商品的品牌和型号。
5.一种从文本中获取物品属性值的装置,所述文本中包含物品的一个或多个属性和对应的属性值,其特征在于,该装置包括:
第一抽取模块,用于根据预先针对物品的各种属性分别设置的属性值抽取规则,从所述文本中抽取物品的一个或多个属性的属性值;
保存模块,用于对于成功抽取到属性值的属性,以该属性值的预设标准形式将该属性值保存在所述物品的条目中;
第二抽取模块,用于对于所述第一抽取模块未能抽取出属性值的属性,在预先保存的该属性的属性值集合中查找该属性值,然后以预设的该属性值的标准形式将该属性值保存在所述物品的条目中;
所述第二抽取模块还用于按如下流程进行所述在预先保存的该属性的属性值集合中查找该属性值:
步骤1、获取通过规则抽取后仍有未抽取出来的属性的未完全抽取商品记录列表,
步骤2、遍历所述未完全抽取商品记录列表中的未完全抽取商品记录,
步骤3、获取所述未完全抽取记录中通过规则抽取失败的属性列表,
步骤4、按一定顺序取所述属性列表中的一条属性,如果全部属性已处理完成,进入步骤3;
步骤5、根据商品类型及属性名找到特定类型的属性值字典位置,加载属性值字典,
步骤6、遍历字典中的所有字典值,寻找商品记录的标题中是否包含字典值,如果包含,则匹配成功,将匹配结果以属性名、属性值键值对形式保存到商品记录中,否则匹配失败,进入步骤4;
其中,生成所述属性值字典包括规则字典生成与第三方数据字典生成;所述规则字典生成是指在获得某一指定类型的商品列表后,根据类型获取对应的类型属性模板信息,通过模板信息,可以知道该类型的商品需要抽取哪些属性,以及每个属性用什么样的规则去抽取,如果属性值通过模板中配置的规则抽取成功,将抽取的属性值赋给对应的属性,同时将属性值保存到属性值字典中;所述第三方数据字典生成是指对包含产品信息的网页的网页数据进行结构化抽取,分析出需要创建属性值字典的数据。
6.根据权利要求5所述的装置,其特征在于,
所述属性值抽取规则是针对物品的每项属性分别设置的多条属性值抽取规则;
所述第一抽取模块还用于在从所述文本中抽取物品的一个或多个属性的属性值时,针对物品的每项属性,依次按照所述属性值抽取规则进行属性值抽取,当抽取到一个属性值后,开始针对物品的下一项属性进行属性值抽取。
7.根据权利要求5或6所述的装置,其特征在于,所述物品是电子商务中的商品。
8.根据权利要求7所述的装置,其特征在于,所述文本中包含所述商品的品牌和型号。
CN201310133719.8A 2013-04-17 2013-04-17 一种从文本中获取物品属性值的方法和装置 Active CN103235803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310133719.8A CN103235803B (zh) 2013-04-17 2013-04-17 一种从文本中获取物品属性值的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310133719.8A CN103235803B (zh) 2013-04-17 2013-04-17 一种从文本中获取物品属性值的方法和装置

Publications (2)

Publication Number Publication Date
CN103235803A CN103235803A (zh) 2013-08-07
CN103235803B true CN103235803B (zh) 2016-12-28

Family

ID=48883844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310133719.8A Active CN103235803B (zh) 2013-04-17 2013-04-17 一种从文本中获取物品属性值的方法和装置

Country Status (1)

Country Link
CN (1) CN103235803B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10579602B2 (en) * 2013-10-07 2020-03-03 Oracle International Corporation Attribute redundancy removal
CN103996055B (zh) * 2014-06-13 2017-06-09 上海珉智信息科技有限公司 基于影像档案电子资料识别系统中分类器的识别方法
CN107122394B (zh) * 2017-03-10 2020-02-14 博彦科技股份有限公司 异常数据检测方法和装置
CN108664535B (zh) * 2017-04-01 2022-08-12 北京京东尚科信息技术有限公司 信息输出方法和装置
CN110096643A (zh) * 2019-03-27 2019-08-06 青岛高校信息产业股份有限公司 产品潜客标签库生成方法和装置
CN112308674A (zh) * 2020-11-03 2021-02-02 博思数采科技发展有限公司 一种商品智能聚合比价的方法及终端
CN113793191A (zh) * 2021-02-09 2021-12-14 京东科技控股股份有限公司 商品的匹配方法、装置及电子设备
CN113407599A (zh) * 2021-06-30 2021-09-17 上海万物新生环保科技集团有限公司 一种基于文本数据的标准化处理方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
CN101650717A (zh) * 2008-08-13 2010-02-17 阿里巴巴集团控股有限公司 一种节约数据库存储空间的方法和系统
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
CN101650717A (zh) * 2008-08-13 2010-02-17 阿里巴巴集团控股有限公司 一种节约数据库存储空间的方法和系统
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统

Also Published As

Publication number Publication date
CN103235803A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN103235803B (zh) 一种从文本中获取物品属性值的方法和装置
CN106649455B (zh) 一种大数据开发的标准化系统归类、命令集系统
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
US8073865B2 (en) System and method for content extraction from unstructured sources
CN101694668B (zh) 网页结构相似性确定方法及装置
US9858326B2 (en) Distributed data warehouse
JP5721818B2 (ja) 検索におけるモデル情報群の使用
US20130166564A1 (en) Providing information recommendations based on determined user groups
CN109614550A (zh) 舆情监控方法、装置、计算机设备及存储介质
CN105488697A (zh) 一种基于客户行为特征的潜在客户挖掘方法
CN107632984A (zh) 一种聚类数据表的展现方法、装置和系统
CN103838798B (zh) 页面分类系统及页面分类方法
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN110352427B (zh) 用于收集与网络化环境中的欺诈性内容相关联的数据的系统和方法
CN103886067A (zh) 使用标签隐含主题进行图书推荐的方法
CN102385585A (zh) 网页数据库的建立方法、网页搜索方法以及相关装置
CN103377249A (zh) 关键词投放方法及系统
CN111899075A (zh) 一种基于用户行为的个性化商品推荐方法及装置
CN104268289B (zh) 链接url的失效检测方法和装置
CN103150667A (zh) 一种基于本体结构的个性化推荐方法
JP2019164706A (ja) 情報処理装置、情報処理方法、およびプログラム
CN102289514A (zh) 社会标签自动标注的方法以及社会标签自动标注器
TWI645348B (zh) 商品相關網路文章之自動圖文摘要方法及系統
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN105718457B (zh) 基于电子票据的信息推送方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant