CN109960797A - 一种提取在线商品重量信息的方法和系统 - Google Patents
一种提取在线商品重量信息的方法和系统 Download PDFInfo
- Publication number
- CN109960797A CN109960797A CN201910151771.3A CN201910151771A CN109960797A CN 109960797 A CN109960797 A CN 109960797A CN 201910151771 A CN201910151771 A CN 201910151771A CN 109960797 A CN109960797 A CN 109960797A
- Authority
- CN
- China
- Prior art keywords
- weight
- unit
- commodity
- data
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000013075 data extraction Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000000926 separation method Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000007405 data analysis Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 35
- 241000251468 Actinopterygii Species 0.000 description 7
- 235000014102 seafood Nutrition 0.000 description 6
- 230000008676 import Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000004806 packaging method and process Methods 0.000 description 5
- 241001596950 Larimichthys crocea Species 0.000 description 4
- 238000007710 freezing Methods 0.000 description 4
- 230000008014 freezing Effects 0.000 description 4
- 238000003672 processing method Methods 0.000 description 3
- 241000238557 Decapoda Species 0.000 description 2
- 244000269722 Thea sinensis Species 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 239000010437 gem Substances 0.000 description 2
- 229910001751 gemstone Inorganic materials 0.000 description 2
- 235000015067 sauces Nutrition 0.000 description 2
- 239000013535 sea water Substances 0.000 description 2
- 235000021419 vinegar Nutrition 0.000 description 2
- 239000000052 vinegar Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000155172 Cymbaria Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000013373 food additive Nutrition 0.000 description 1
- 239000002778 food additive Substances 0.000 description 1
- 235000011194 food seasoning agent Nutrition 0.000 description 1
- 239000013505 freshwater Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 235000015110 jellies Nutrition 0.000 description 1
- 239000008274 jelly Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000005554 pickling Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000010025 steaming Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种提取在线商品重量信息的方法和系统,属于大数据分析处理技术领域,该方法获取商品的基本信息,通过函数将商品基本信息分离并提取与商品重量相关的短句;提取短句中与重量相关的元素;统一重量单位,得到同一重量单位下的数值,既商品的重量信息。一种提取在线商品重量信息的系统,包括商品信息预处理模块、数据提取模块和数据处理模块。本发明能够根据网络零售平台商品基本信息的结构特点,提取商品的重量数据,计算单位价格,从而利于而政府部门、网络零售平台以及平台入驻商家评估商品市场价格、调整商品营销策略。
Description
技术领域
本发明涉及计算机技术领域,具体地说是一种提取在线商品重量信息的方法和系统。
背景技术
数据处理是对数据的采集、存储、检索、加工、变换和传输,是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节,贯穿于社会生产和社会生活的各个领域。
近年来由于淘宝、天猫、京东、苏宁易购、唯品会等网络零售平台的推动,面向消费者的网络零售行业蓬勃发展。在网络零售商品中,有很大一部分商品以重量为规格,比如“柴米油盐酱醋茶”等生活饮食商品、金银首饰商品等。这些在线商品的价格和重量数据,是政府部门、网络零售平台、平台入驻商家评估商品市场价格、进而调整商品营销策略所必需的信息以及决策依据。
利用数据采集技术大规模地采集在线商品的价格数据比较容易,而对于在线商品的重量数据则难以大规模直接采集。在线商品的重量数据由于夹杂在对商品进行介绍的大段文字信息和符号的商品基本信息里,现有的数据采集技术只能直接采集到包含大量文字的商品基本信息而往往难以大规模地从中提取重量数据。如何从采集的商品基本信息中进一步识别和提取商品的重量数据是得到在线商品的单位价格必须解决的问题,目前市场上尚未出现大规模提取在线商品重量数据的完善的技术系统。
发明内容
本发明的技术任务是针对以上不足之处,提供一种提取在线商品重量信息的方法和系统,能够根据网络零售平台商品基本信息的结构特点,提取商品的重量数据,适应市场需求。
本发明解决其技术问题所采用的技术方案是:
一种提取在线商品重量信息的方法,该方法获取商品的基本信息,通过函数将商品基本信息分离并提取与商品重量相关的短句;然后提取短句中与重量相关的元素;统一重量单位,得到同一重量单位下的数值,既商品的重量信息。
优选的,所述与重量相关的短句为包含重量关键词的短句,与重量相关的元素包含重量数据和重量单位,该方法的具体实现方式如下:
1)、预处理,根据商品信息特点分离商品基本信息,得到包含重量关键词的短句,并去除所述重量关键词与重量数据间的干扰符号;例如根据空格、逗号等将商品基本信息分隔,同时将重量单位与数字之间存在的干扰符号去掉,不同的平台之间此处的干扰符号可能不同,同一平台上此处的干扰符号基本相同;
2)、提取重量数据和重量单位,,由预处理得到的结果中可能包含表示范围的符号-或符号--,若所述短句中有表示重量数据范围的连接符号,则利用连接符号在短句中的位置得到重量数值的最小值和最大值;
3)、统一重量单位,提取步骤2)所得字符串中的数值部分并将之转换成在同一重量单位下的数值。
本发明方法并不局限于重量关键词及重量单位元素的数据处理,除“重量关键词”和“重量单位”之外,还可以根据不同的需要继续扩充新的元素,实现方式的原理不变,均属于本发明方法要求保护的范围。
进一步的,用SPLIT函数实现对商品基本信息的分隔,结果记为SplitResult,若以空格为分隔符,则:
SplitResult=SPLIT(ShortSentence,″″);
用FILTER函数提取分隔后包含重量关键词的短句,结果记为FilterResult,
例如:
FilterResult=FILTER(SplitResult,″重量″,TRUE);
进一步的,若重量关键字和重量单位件有干扰符号,可用REPLACE函数去除干扰符号,以引号”为例,将其替换为空值,即删除干扰符号”,结果记为 FilterResult:
FilterResult=REPLACE(FilterResult,″″″″,″″).
(根据VBA编程语言语法法则,符号和字符串需要用一对″包围起来,而当符号和字符串本身为引号″时,需要用两个″表示一个引号。其他主流编程语言均有类似的实现分离、替换功能的函数,为了叙述简洁,本文中提到的函数均以VBA语言具有的函数举例。)
优选的,所述预处理得到的短句包含两种模式:
[模式1:]*+重量关键词+数值[[+单位]+连接符+数值]+单位+*
[模式2:]*+重量关键词+(+单位+)+数值+*
其中,“*”代表0个或多个任意字符,“+”连接语句各组分,“[]”代表可能存在也可能不存在的语句组分。
进一步的,提取重量数据和重量单位时,在VBA中,用函数LEN获得字符串长度,例如:
LEN(″重量″)=2
LEN(″g″)=1;
用INSTR函数获取位置,得到重量关键词和重量单位的起始位置,记重量关键词和重量单位的起始位置为l1、l2:
l1=INSTR(FilterResult,″重量″),
l2=INSTR(FilterResult,″g″).
那么待提取出的重量数字和重量单位的起始位置为:
l1+LEN(″重量″)
待提取出的重量数字和重量单位的总长度为:
l2+LEN(″g″)-l1-LEN(″重量″).
用MID函数得到提取结果:
NumUnit=MID(FilterResult,l1+LEN(″重量″),l2+LEN(″g″)-l1-LEN(″重量″))。
对于模式1,通过重量关键词和重量单位的起始位置以及字符串长度,得到待提取的重量数字和重量单位的起始位置,进而得到待提取的重量数字和重量单位的总长度。
对于模式2,可根据模式1的思路处理:
l1=INSTR(FilterResult,″g″),
l2=LEN(FilterResult),
则提取结果为:
NumUnit=MID(FilterResult,l1+LEN(″g″)+1,l2-l1-LEN(″g″)).
进一步的,若记上述步骤2)所得字符串结果为NumUnit,提取NumUnit 的数字部分记为Num,
最终结果为w,则商品的实际重量为:
w=Val(Num)×Coefficient(uj)
Coefficient(uj)代表该数字对应的重量单位相对于设定重量单位的转换系数;Val函数将非数值格式的数字转换成数值格式的数字。
若以“g”为单位,ui代表不同的重量单位,如i=1,2....,7分别对应“kg”,“千克”,“公斤”,“两”,“g”,“克”,“斤”,
则各个重量单位相对于“g”的转换系数分别为:
Coefficient(u1)=c1=1000,
Coefficient(u2)=c2=1000,
Coefficient(u3)=c3=1000,
Coefficient(u4)=c4=50,
Coefficient(u5)=c5=1,
Coefficient(u6)=c6=1,
Coefficient(u7)=c7=500,
由第二步中模式2处理过程得到的字符串NumUnit已经只有数值部分,所以不必提取;由第二步中模式1处理过程得到的字符串NumUnit,有如下模式:
数值[+连接符+数值]+单位.
可用下面处理方法提取数值部分:依次取i=1,2....,7,找出存在NumUnit 中的第一个uj,即
记
l3=INSTR(NumUnit,″-″),
1、如果在NumUnit中没有连接符号,即l3=0,那么NumUnit中的数部分Num为:
Num=MID(NumUnit,1,LEN(NumUnit)-LEN(uj))
2、如果在NumUnit中有连接符号,即l3≠0,那么最大值Num为:
Num=MID(NumUnit,l3+LEN(″-″),INSTR(NumUnit,uj)-l3-LEN(″-″)), 最小值Num为:
Num=MID(NumUnit,1,l3-1).
以“g”为单位时,实际重量为:
w=Val(Num)×Coefficient(uj).
假设商品基本信息存放于n×1维字符串数组ItemParam,在第三步时采用最小值作为商品重量。
优选的,在进行上述数据处理过程中,先执行设计单位“kg”的处理,再执行余下的含单位“g”的处理过程。只有这样,在涉及到诸如诸如FilterResult =″重量500kg″的情况时,才能得到正确的“500kg”,而不是“500k”。
本发明还公开了一种提取在线商品重量信息的系统,包括商品信息预处理模块、数据提取模块和数据处理模块,
商品信息预处理模块用于根据商品信息特点分离商品基本信息,得到包含重量关键词的短句,并去除所述重量关键词与重量数据间的干扰符号;
在VBA语言中,可用用SPLIT函数实现对商品基本信息的分隔,用FILTER 函数提取分隔后包含重量关键词的短句,若重量关键字和重量单位件有干扰符号,可用REPLACE函数去除干扰符号。
数据提取模块用于提取所述短句中的重量数据和重量单位;
根据重量关键字和重量单位分别在短句中的位置,提取出其中的重量关键字和重量单位部分。若在短句中有表示重量数值范围的连接符号-或--,则还需要利用连接符号在短句中的位置得到重量数值的最小值和最大值;
在VBA中,用函数LEN获得字符串长度,用INSTR函数获取位置,得到重量关键词和重量单位的起始位置,用MID函数得到提取结果。
数据处理模块用于根据提取的重量数据和重量单位计算出统一单位的商品重量信息,根据数据提取模块得到的重量数据和重量单位字符串中的数值部分并将之转换成在同一重量单位下的数值;
若记上述重量数据和重量单位字符串提取结果为NumUnit,提取NumUnit 的数字部分记为Num,最终结果为w,则商品的实际重量为:
w=Val(Num)×Coefficient(uj)
Coefficient(uj)代表该数字对应的重量单位相对于设定重量单位的转换系数;Val函数将非数值格式的数字转换成数值格式的数字。
本发明的一种提取在线商品重量信息的方法和系统和现有技术相比,具有以下有益效果:
本发明方法通过分析网络零售平台商品基本信息的结构特点,从采集的商品基本信息中进一步识别和提取商品的重量数据得到在线商品的单位价格。本方法对于以重量为规格的产品在网络零售产品,比如“柴米油盐酱醋茶”这类生活饮食产品、金银首饰这类奢侈品等可以提取商品的重量数据,进而计算单位价格,从而利于而政府部门、网络零售平台以及平台入驻商家评估商品市场价格、调整商品营销策略。
具体实施方式
在本实施例中,以网络零售平台的水产品为例,从中选出具有代表性的4 个例子展示采集到的商品基本信息所具有的形式,每一个商品基本信息都是一大段文字,如下:
例1 品牌:海鲜颂 商品名称:海鲜颂 调味大黄鱼 大黄花鱼 福建宁德冷冻三去黄鱼 海鲜水产500g 商品编号:16752821418 店铺:海鲜颂官方旗舰店 商品毛重:500.00g保存状态:冷冻 原产地:中国大陆 重量:500g 以下 海水/淡水:海水 国产/进口:国产 包装:简装 分类:黄鱼/黄花鱼 烹饪建议:火锅,炒菜,煎炸,蒸菜,烧烤 更多参数》
例2 品牌:鱼仙道 商品名称:鱼仙道 智利进口熟冻帝王蟹1只装 海鲜大螃蟹 净含量1.4-1.6kg 商品编号:19411340320 店铺:鱼仙道旗舰店 商品毛重:2.0kg 商品产地:智利 产品形态:礼盒 分类:帝王蟹 国产/进口:进口 烹饪建议:蒸菜,加热即食 更多参数》
例3 品牌:鱼仙道 商品名称:鱼仙道 冷冻虾仁 海鲜水产净含量750g 商品编号:17139569937 店铺:鱼仙道旗舰店 商品毛重:1.0kg 商品产地:中国大陆 保存状态:冷冻重量:500g-1kg 烹饪建议:炒菜,煎炸,烧烤 国产/进口:国产 包装:简装 分类:虾仁 原产地:中国大陆 更多参数》
例4{”基本信息”:[{”生产日期”:“2016年08月19日至2016年08月19日”},{”包装方式”:”包装”},{”品牌”:”CENTURY/鲜得味”},{”重量(g)”:”180”},{”食品工艺”:”腌制水产”},{”商品条形码”:”748485900766”},{”产地”:”泰国”},{”套餐份量”:”5人份”},{”套餐周期”:”1周”},{”配送频次”:”1周2 次”},{”厂名”:”泰万发工业有限公司”},{”厂址”:”泰国”},{”厂家联系方式”:”59760411”},{”配料表”:”详见包装”},{”储藏方法”:”阴凉干燥,不受阳光直射处”},{”保质期”:”1095”},{”食品添加剂”:”详见包装”}]}
为叙述简洁,作如下规定。记重量关键词集合为:
Keywords={z1,z2,z3},
其中,
z1=“净含量″,
z2=“重量″,
z3=“商品毛重″,
记重量单位的集合为:
Unit=Unit1∪Unit2,
其中,
Unit1={u1,u2,u3,u4},
Unit2={u5,u6,u7},
u1=“kg″,u2=“千克″,
u3=“公斤″,u4=“两″,
u5=“g″,u6=“克″,
u7=“斤″,
记数字集合为:R,记表示重量数值范围的连接符号集合为Link={-,--}.
下面以“重量”这个重量关键词、“g”这个重量单位、“-”这个连接符号以及VBA编程语言为例,说明处理过程。
第一步预处理
根据商品基本信息特点分隔商品基本信息,得到包含重量关键词“净含量”、“重量”、“商品毛重”等重量关键词的短句(记为ShortSentence),并去除上述关键词与重量数据间的干扰符号。例如根据空格将例1–例3类型的商品基本信息分隔;根据逗号将例4类型的商品基本信息分隔,同时将“重量(g)”与数字间的干扰符号”去掉(不同的平台之间此处的干扰符号可能不同,同一个平台上此处的干扰符号基本相同)。
在VBA语言中,可用SPLIT函数实现对商品基本信息的分隔,结果记为SplitResult,若以空格为分隔符,则:
SplitResult=SPLIT(ShortSentence,″″);
用FILTER函数提取分隔后包含重量关键词的短句,结果记为FilterResult,
例如:
FilterResult=FILTER(SplitResult,″重量″,TRUE);
若重量关键字和重量单位件有干扰符号,可用REPLACE函数去除干扰符号,以引号”为例,将其替换为空值,即删除干扰符号”,结果记为FilterResult:
FilterResult=REPLACE(FilterResult,″″″″,″″).
(根据VBA编程语言语法法则,符号和字符串需要用一对″包围起来,而当符号和字符串本身为引号″时,需要用两个″表示一个引号。其他主流编程语言均有类似的实现分离、替换功能的函数,为了叙述简洁,本文中提到的函数均以VBA语言具有的函数举例。)
第二步提取数字和单位(结果中可能包含标识范围的符号-或符号--)
由预处理得到的短句包含两种模式:
[模式1:]*+重量关键词+数值[[+单位]+连接符+数值]+单位+*
[模式2:]*+重量关键词+(+单位+)+数值+*
其中,“*”代表0个或多个任意字符,而符号“+”和“[]”有特殊含义:“+”号连接了语句各组分,“[]”代表可能存在也可能不存在的语句组分。
对于模式1:根据重量关键字和重量单位分别在FilterResult中的位置,提取出其中的重量关键字和重量单位部分,记为NumUnit。若在FilterResult中有表示重量数值范围的连接符号-或--,则还需要利用连接符号在FilterResult中的位置得到重量数值的最小值和最大值。
在VBA中,用函数LEN获得字符串长度,例如:
LEN(″重量″)=2
LEN(″g″)=1;
用INSTR函数获取位置,记重量关键词、重量单位的起始位置为l1、l2:
l1=INSTR(FilterResult,″重量″),
l2=INSTR(FilterResult,″g″).
那么待提取出的重量数字和重量单位的起始位置为:
l1+LEN(″重量″)
待提取出的重量数字和重量单位的总长度为:
l2+LEN(″g″)-l1-LEN(″重量″).
用MID函数得到提取结果:
NumUnit=MID(FilterResult,l1+LEN(″重量″),l2+LEN(″g″)-l1-LEN(″重量″)).
对于模式2:可根据模式1的思路处理:
l1=INSTR(FilterResult,″g″),
l2=LEN(FilterResult),
则提取结果为:
NumUnit=MID(FilterResult,l1+LEN(″g″)+1,l2-l1-LEN(″g″)).
重量单位的集合Unit分为Unit1和Unit2两部分。以集合Unit1中的单位“kg”和Unit2中的单位“g”为例,在整个处理过程(包括第三步)(中总是先执行涉及到单位“kg”的处理,再执行余下的含单位“g”的处理过程。只有这样,在涉及到诸如FilterResult=″重量500kg″的情况时,才能得到正确的“500kg”, 而不是“500k”。
第三步统一重量单位
第三步处理是提取字符串NumUnit中的数值部分并将之转换成在同一个重量单位下的数值。以“g”为单位,记最终结果为w。记各个重量单位相对于“g”的转换系数分别为:
Coefficient(u1)=c1=1000,
Coefficient(u2)=c2=1000,
Coefficient(u3)=c3=1000,
Coefficient(u4)=c4=50,
Coefficient(u5)=c5=1,
Coefficient(u6)=c6=1,
Coefficient(u7)=c7=500,
由第二步中模式2处理过程得到的字符串NumUnit已经只有数值部分,所以不必提取;由第二步中模式1处理过程得到的字符串NumUnit,有如下模式:
数值[+连接符+数值]+单位.
可用下面处理方法提取数值部分:依次取i=1,2....,7,找出存在NumUnit 中的第一个uj,即
记
l3=INSTR(NumUnit,″-″),
1、如果在NumUnit中没有连接符号,即l3=0,那么NumUnit中的数部分Num为:
Num=MID(NumUnit,1,LEN(NumUnit)-LEN(uj))
2、如果在NumUnit中有连接符号,即l3≠0,那么最大值Num为:
Num=MID(NumUnit,l3+LEN(″-″),INSTR(NumUnit,uj)-l3-LEN(″-″)), 最小值Num为:
Num=MID(NumUnit,1,l3-1).
以“g”为单位时,实际重量为:
w=Val(Num)×Coefficient(uj).
其中,Val代表将非数值格式的数字转换成数值格式的数字的函数。
假设商品基本信息存放于n×1维字符串数组ItemParam,在第三步时采用最小值作为商品重量,以“FilterResult″具有模式2形式为例,对第二步和第三步的整体性介绍,可参见如下的“重量数据提取流程”:
对于本方法的表格说明如下:
表1:从商品基本信息提取商品重量数据基本流程的举例说明
在本发明的另外一个实施例中,一种提取在线商品重量信息的系统,包括商品信息预处理模块、数据提取模块和数据处理模块。
商品信息预处理模块用于根据商品信息特点分离商品基本信息,得到包含重量关键词的短句,并去除所述重量关键词与重量数据间的干扰符号;
在VBA语言中,可用用SPLIT函数实现对商品基本信息的分隔,用FILTER 函数提取分隔后包含重量关键词的短句,若重量关键字和重量单位件有干扰符号,可用REPLACE函数去除干扰符号。
用SPLIT函数实现对商品基本信息的分隔,结果记为SplitResult,若以空格为分隔符,则:
SplitResult=SPLIT(ShortSentence,″″);
用FILTER函数提取分隔后包含重量关键词的短句,结果记为FilterResult,
例如:
FilterResult=FILTER(SplitResult,″重量″,TRUE);
进一步的,若重量关键字和重量单位件有干扰符号,可用REPLACE函数去除干扰符号,以引号”为例,将其替换为空值,即删除干扰符号”,结果记为 FilterResult:
FilterResult=REPLACE(FilterResult,″″″″,″″).
预处理得到的短句包含两种模式:
[模式1:]*+重量关键词+数值[[+单位]+连接符+数值]+单位+*
[模式2:]*+重量关键词+(+单位+)+数值+*
其中,“*”代表0个或多个任意字符,“+”连接语句各组分,“[]”代表可能存在也可能不存在的语句组分。
数据提取模块用于提取所述短句中的重量数据和重量单位;
根据重量关键字和重量单位分别在短句中的位置,提取出其中的重量关键字和重量单位部分。若在短句中有表示重量数值范围的连接符号-或--,则还需要利用连接符号在短句中的位置得到重量数值的最小值和最大值;
在VBA中,用函数LEN获得字符串长度,用INSTR函数获取位置,得到重量关键词和重量单位的起始位置,用MID函数得到提取结果。
用函数LEN获得字符串长度,例如:
LEN(″重量″)=2
LEN(″g″)=1;
用INSTR函数获取位置,得到重量关键词和重量单位的起始位置,记重量关键词和重量单位的起始位置为l1、l2:
l1=INSTR(FilterResult,″重量″),
l2=INSTR(FilterResult,″g″).
那么待提取出的重量数字和重量单位的起始位置为:
l1+LEN(″重量″)
待提取出的重量数字和重量单位的总长度为:
l2+LEN(″g″)-l1-LEN(″重量″).
用MID函数得到提取结果:
NumUnit=MID(FilterResult,l1+LEN(″重量″),l2+LEN(″g″)-l1-LEN(″重量″))。
对于模式1,通过重量关键词和重量单位的起始位置以及字符串长度,得到待提取的重量数字和重量单位的起始位置,进而得到待提取的重量数字和重量单位的总长度。
对于模式2,可根据模式1的思路处理:
l1=INSTR(FilterResult,″g″),
l2=LEN(FilterResult),
则提取结果为:
NumUnit=MID(FilterResult,l1+LEN(″g″)+1,l2-l1-LEN(″g″)).
数据处理模块用于根据提取的重量数据和重量单位计算出统一单位的商品重量信息,根据数据提取模块得到的重量数据和重量单位字符串中的数值部分并将之转换成在同一重量单位下的数值;
若记上述重量数据和重量单位字符串提取结果为NumUnit,提取NumUnit 的数字部分记为Num,最终结果为w,则商品的实际重量为:
w=Val(Num)×Coefficient(uj)
Coefficient(uj)代表该数字对应的重量单位相对于设定重量单位的转换系数;Val函数将非数值格式的数字转换成数值格式的数字。
若以“g”为单位,ui代表不同的重量单位,如i=1,2....,7分别对应“kg”,“千克”,“公斤”,“两”,“g”,“克”,“斤”,
则各个重量单位相对于“g”的转换系数分别为:
Coefficient(u1)=c1=1000,
Coefficient(u2)=c2=1000,
Coefficient(u3)=c3=1000,
Coefficient(u4)=c4=50,
Coefficient(u5)=c5=1,
Coefficient(u6)=c6=1,
Coefficient(u7)=c7=500,
由第二步中模式2处理过程得到的字符串NumUnit已经只有数值部分,所以不必提取;由第二步中模式1处理过程得到的字符串NumUnit,有如下模式:
数值[+连接符+数值]+单位.
可用下面处理方法提取数值部分:依次取i=1,2....,7,找出存在NumUnit 中的第一个uj,即
记
l3=INSTR(NumUnit,″-″),
1、如果在NumUnit中没有连接符号,即l3=0,那么NumUnit中的数部分Num为:
Num=MID(NumUnit,1,LEN(NumUnit)-LEN(uj))
2、如果在NumUnit中有连接符号,即l3≠0,那么最大值Num为:
Num=MID(NumUnit,l3+LEN(″-″),INSTR(NumUnit,uj)-l3-LEN(″-″)), 最小值Num为:
Num=MID(NumUnit,1,l3-1).
以“g”为单位时,实际重量为:
w=Val(Num)×Coefficient(uj).
在进行上述数据处理过程中,先执行设计单位“kg”的处理,再执行余下的含单位“g”的处理过程。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (10)
1.一种提取在线商品重量信息的方法,其特征在于该方法获取商品的基本信息,通过函数将商品基本信息分离并提取与商品重量相关的短句;提取短句中与重量相关的元素;统一重量单位,得到同一重量单位下的数值,既商品的重量信息。
2.根据权利要求1所述的一种提取在线商品重量信息的方法,其特征在于所述与重量相关的短句为包含重量关键词的短句,与重量相关的元素包含重量数据和重量单位,该方法的具体实现方式如下:
1)、预处理,根据商品信息特点分离商品基本信息,得到包含重量关键词的短句,并去除所述重量关键词与重量数据间的干扰符号;
2)、提取重量数据和重量单位,若所述短句中有表示重量数据范围的连接符号,则利用连接符号在短句中的位置得到重量数值的最小值和最大值;
3)、统一重量单位,提取步骤2)所得字符串中的数值部分并将之转换成在同一重量单位下的数值。
3.根据权利要求2所述的一种提取在线商品重量信息的方法,其特征在于用SPLIT函数实现对商品基本信息的分隔,用FILTER函数提取分隔后包含重量关键词的短句。
4.根据权利要求3所述的一种提取在线商品重量信息的方法,其特征在于用REPLACE函数去除干扰符号。
5.根据权利要求2或3或4所述的一种提取在线商品重量信息的方法,其特征在于所述预处理得到的短句包含两种模式:
[模式1:]*+重量关键词+数值[[+单位]+连接符+数值]+单位+*
[模式2:]*+重量关键词+(+单位+)+数值+*
其中,*代表0个或多个任意字符,+连接语句各组分,[]代表可能存在也可能不存在的语句组分。
6.根据权利要求5所述的一种提取在线商品重量信息的方法,其特征在于,提取重量数据和重量单位时,用函数LEN获得字符串长度;用INSTR函数获取位置,得到重量关键词和重量单位的起始位置;用MID函数得到提取结果。
7.根据权利要求6所述的一种提取在线商品重量信息的方法,其特征在于对于模式1,通过重量关键词和重量单位的起始位置以及字符串长度,得到待提取的重量数字和重量单位的起始位置,进而得到待提取的重量数字和重量单位的总长度。
8.根据权利要求7所述的一种提取在线商品重量信息的方法,其特征在于若记上述步骤2)所得字符串结果为NumUnit,提取NumUnit的数字部分记为Num,最终结果为w,则商品的实际重量为:
w=Val(Num)×Coefficient(uj)
Coefficient(uj)代表该数字对应的重量单位相对于设定重量单位的转换系数;Val函数将非数值格式的数字转换成数值格式的数字。
9.根据权利要求8所述的一种提取在线商品重量信息的方法,其特征在于在进行上述数据处理过程中,先执行设计单位kg的处理,再执行余下的含单位g的处理。
10.一种提取在线商品重量信息的系统,其特征在于包括商品信息预处理模块、数据提取模块和数据处理模块,
商品信息预处理模块用于根据商品信息特点分离商品基本信息,得到包含重量关键词的短句,并去除所述重量关键词与重量数据间的干扰符号;
数据提取模块用于提取所述短句中的重量数据和重量单位;
数据处理模块用于根据提取的重量数据和重量单位计算出统一单位的商品重量信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910151771.3A CN109960797A (zh) | 2019-02-28 | 2019-02-28 | 一种提取在线商品重量信息的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910151771.3A CN109960797A (zh) | 2019-02-28 | 2019-02-28 | 一种提取在线商品重量信息的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109960797A true CN109960797A (zh) | 2019-07-02 |
Family
ID=67023905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910151771.3A Pending CN109960797A (zh) | 2019-02-28 | 2019-02-28 | 一种提取在线商品重量信息的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109960797A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255363A (zh) * | 2021-05-25 | 2021-08-13 | 浪潮卓数大数据产业发展有限公司 | 一种从大段文字信息中获取关键信息的方法和系统 |
WO2023125230A1 (zh) * | 2021-12-29 | 2023-07-06 | 深圳市世强元件网络有限公司 | 一种商品信息的规格参数提取方法、装置及计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335371A (zh) * | 2014-06-11 | 2016-02-17 | 富士通株式会社 | 信息处理方法、信息处理装置和信息推荐方法 |
CN107861972A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 一种用户录入商品信息后显示商品全结果的方法及设备 |
-
2019
- 2019-02-28 CN CN201910151771.3A patent/CN109960797A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335371A (zh) * | 2014-06-11 | 2016-02-17 | 富士通株式会社 | 信息处理方法、信息处理装置和信息推荐方法 |
CN107861972A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 一种用户录入商品信息后显示商品全结果的方法及设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255363A (zh) * | 2021-05-25 | 2021-08-13 | 浪潮卓数大数据产业发展有限公司 | 一种从大段文字信息中获取关键信息的方法和系统 |
WO2023125230A1 (zh) * | 2021-12-29 | 2023-07-06 | 深圳市世强元件网络有限公司 | 一种商品信息的规格参数提取方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Courtial et al. | The use of patent titles for identifying the topics of invention and forecasting trends | |
CN109960797A (zh) | 一种提取在线商品重量信息的方法和系统 | |
Ferguson et al. | What's cooking? | |
Dhillon et al. | Gourds: bitter, bottle, wax, snake, sponge and ridge | |
Kocourek | Structural changes in comparative advantages of the BRICS | |
European Food Safety Authority (EFSA) et al. | Dietary exposure to heavy metals and iodine intake via consumption of seaweeds and halophytes in the European population | |
Afonso et al. | The potential for using non-timber forest products to develop the Brazilian bioeconomy | |
Roebuck et al. | Canadians eating in the dark: A report card of international seafood labelling requirements | |
CN113255363A (zh) | 一种从大段文字信息中获取关键信息的方法和系统 | |
Tantrakonnsab et al. | Thai export of durian to China | |
Damanik et al. | Exploration of medicinal plants: tinuktuk concoction in Simalungunese, Indonesia | |
Honma | Growth in Japan's horticultural trade with developing countries: An economic analysis of the market | |
Prajapati et al. | Plant Disease Identification Using Deep Learning | |
Durand et al. | Status of and trends in the use of small pelagic fish species for reduction fisheries and for human consumption in Peru | |
Catarci | The world tuna industry—an analysis of imports and prices, and of their combined impact on catches and tuna fishing capacity | |
CN115329757A (zh) | 一种产品创新概念挖掘方法、装置、存储介质及终端设备 | |
Singhal et al. | Changing Consumption Patterns of Bamboo shoots: A Case Study of Traditional Food-Related Knowledge Systems | |
Wulandari | Pecel, a political communication semiotic analysis of Javanese traditional food as a dish for indonesian politicians | |
CN110888982A (zh) | 一种高精度的农产品分类方法及系统 | |
Alagoa | The Global Merchandise Trade of the Blue Economy (2012 to 2017) | |
Asadzadeh Manjili et al. | Designing a Model for Intelligent Management of Agri-Businesses Supply Chain | |
Souza et al. | Effect of the Harvest Date on the Chemical Composition of Patauá (Oenocarpus bataua Mart.) Fruits from a Forest Reserve in the Brazilian Amazon | |
Kim | A Study of Ginseng Culture within\Joseonwangjosilok\through Textual Frequency Analysis | |
Meneley | Life, Death, Salt: Salty Memories | |
Binti et al. | Dried fish-filled rice ball: A new ready-to-eat product, consumer preferences and nutritional aspects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190702 |
|
RJ01 | Rejection of invention patent application after publication |