CN112380347B - 一种关联品类词的确定方法、装置及系统 - Google Patents
一种关联品类词的确定方法、装置及系统 Download PDFInfo
- Publication number
- CN112380347B CN112380347B CN202011329448.XA CN202011329448A CN112380347B CN 112380347 B CN112380347 B CN 112380347B CN 202011329448 A CN202011329448 A CN 202011329448A CN 112380347 B CN112380347 B CN 112380347B
- Authority
- CN
- China
- Prior art keywords
- category
- phrase
- words
- determining
- structure type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种关联品类词的确定方法、装置及系统。方法包括:获取品类词,将品类词组成品类词组;对比同一品类词组中的品类词,获得品类词对比结果;将品类词对比结果与结构类型条件匹配,将匹配成功的品类词组作为关联词组,并确定关联词组所属的结构类型;将品类词作向量化处理,计算关联词组中品类词之间的空间距离;将关联词组对应的空间距离与其所属结构类型对应的关联条件对比,若空间距离满足所述关联条件,则根据空间距离对应的关联词组确定关联品类词。本发明根据结构类型条件确定关联词组,通过空间距离、关联条件确定关联词组中品类词是否存在关联关系,实现了关联品类词的自动确定,节省了关联品类词确定的人工成本。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种关联品类词对的确定方法、装置及系统。
背景技术
在电商场景中,为了满足消费者的购物需求、提高商品销量,运营商往往会根据商品品类的关联关系,确定关联商品,扩大商品的推荐范围。但是由于商品的品类词繁多,品类词的命名方式多样,确定关联品类词难度较大。
现有技术中,关联品类词的确定,通常使用人工整理、机器模型分类,或者通过消费者行为挖掘等方法。但是上述方法中,人工整理耗费人力且效率不高;机器模型分类方法需要采用大量的已经确定关联关系的品类词样本训练模型,而样本又是通过人工标注的,同样需要耗费人力;利用消费者行为数据挖掘关联品类词对,存在获得的关联品类较局限的问题,从而难以扩大商品推荐范围。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种关联品类词的确定方法、装置及系统。所述技术方案如下:
第一方面,提供了一种关联品类词的确定方法,所述方法包括:
获取品类词,将所述品类词组成品类词组;
对比同一所述品类词组中的所述品类词,获得品类词对比结果;
将所述品类词对比结果与结构类型条件匹配,将匹配成功的所述品类词组作为关联词组,并确定所述关联词组所属的结构类型;
将所述品类词作向量化处理,计算所述关联词组中所述品类词之间的空间距离;
将所述关联词组对应的空间距离与其所属结构类型对应的关联条件对比,若所述空间距离满足所述关联条件,则根据所述空间距离对应的所述关联词组确定关联品类词。
进一步地,所述对比同一所述品类词组中的所述品类词,获得品类词对比结果,包括:
按照预设顺序,对比同一所述品类词组中所述品类词对应位置上的字符,获得所述品类词对比结果。
进一步地,所述关联条件的确定包括:
统计属于相同所述结构类型的所述关联词组对应的空间距离;
确定包含所述关联词组数量最多的空间距离范围为准关联条件;
根据该所述结构类型的权值和所述准关联条件确定该所述结构类型对应的所述关联条件。
进一步地,所述若所述空间距离满足所述关联条件,则根据所述空间距离对应的所述关联词组确定关联品类词,包括:
判断所述关联词组是否为上下位词组或者同义词组,若是,则删除所述关联词组,若否,则判断所述品类词的在相应的位置中是否包含预设的特殊字符,若是,则删除所述关联词组,若否,则确定所述关联词组中的所述品类词关联。
进一步地,所述判断所述关联词组是否为上下位词组,包括:
将所述关联词组与上下位词组集合匹配,若匹配成功,则确定所述关联词组为所述上下位词组。
进一步地,所述判断所述关联词组是否为同义词组,包括:
判断同一所述关联词组的所述品类词之间不一致的字符中是否包含同义词字符,若是,则确定所述关联词组为所述同义词组。
第二方面,提供了一种关联品类词的确定装置,所述装置包括:
词组生成模块,用于获取品类词,将所述品类词组成品类词组;
品类词对比模块,用于对比同一所述品类词组中的所述品类词,获得品类词对比结果;
分类模块,用于将所述品类词对比结果与结构类型条件匹配,将匹配成功的所述品类词作为关联词组,并确定所述关联词组所属的结构类型;
空间距离计算模块,用于将所述品类词进行向量化处理,计算所述关联词组中所述品类词之间的空间距离;
关联模块,用于所述关联词组对应的空间距离与其所属结构类型对应的关联条件对比,若所述空间距离满足所述关联条件,则根据所述空间距离对应的所述关联词组确定关联品类词。
进一步地,所述品类词对比模块,具体用于按照预设顺序,对比同一所述品类词组中所述品类词对应位置上的字符,获得所述品类词对比结果。
进一步地,所述装置还包括:
关联条件确定模块,用于统计属于相同所述结构类型的所述关联词组对应的空间距离;
确定包含所述关联词组数量最多的空间距离范围为准关联条件;
根据该所述结构类型的权值和所述准关联条件确定该所述结构类型对应的所述关联条件。
进一步地,所述装置还包括:
筛选模块,用于判断所述关联词组是否为上下位词组或者同义词组,若是,则删除所述关联词组,若否,则判断所述品类词的在相应的位置中是否包含预设的特殊字符,若是,则删除所述关联词组,若否,则确定所述关联词组中的所述品类词关联。
进一步地,所述筛选模块,包括:
上下为词组判断模块,用于将关联词组与上下位词组集合匹配,若匹配成功,则确定关联词组为上下位词组。
进一步地,所述筛选模块,包括:
同义词组判断模块,用于判断同一关联词组的品类词之间不一致的字符中是否包含同义词字符,若是,则确定关联词组为同义词组。
第三方面,提供了一种计算机系统,所述系统包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面任一项所述的方法。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明通过根据结构类型条件确定关联词组,通过空间距离、关联条件确定关联词组中的品类词是否存在关联关系,实现了关联品类词的自动确定,无需人工参与,节省了关联品类词确定的人工成本;
2、本发明中不同的结构类型对应不同的关联条件,避免了品类词由于在字符上关联性较小而被忽略关联性的情况,全面地挖掘品类词之间的关联关系;
3、本发明中还排除了上下位词组、同义词组以及各种无效字符相同而造成品类词关联关系被错误认定的情况,提高了关联品类词挖掘的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的关联品类词的确定方法流程图;
图2是本发明实施例提供的关联品类词的确定装置结构示意图;
图3是本发明实施例提供的计算机系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
品类词是电商领域中用于描述商品类别的词汇,在商品检索的过程中,运营服务端根据消费者输入的关键词与品类词匹配,返回匹配成功的商品。但现如今,随着消费者的需求逐渐多元化,运营商为了提高服务质量,纷纷探索通过消费者输入的关键词扩大商品匹配范围,尽可能返回多品类商品的方法。解决上述场景问题,均需要建立品类词关联关系,从而根据某一品类的商品获得更多关联商品。现有品类词关联的技术中,人工标注关联效率较低,采用通用的词典分类体系,由于其仅仅是对品类词的分类会忽略不是一类但相互关联的商品,利用用户行为数据挖掘关联品类词,由于用户行为较为集中,获得的关联品类词覆盖的商品有限。
因此,为了解决上述技术问题,本发明实施例提供了一种关联品类词的确定方法、装置及系统,具体技术方案如下:
如图1所示,一种关联品类词的确定方法,包括:
S1、获取品类词,根据品类词组成品类词组。
上述,获取品类词可以进行多源数据采集,例如:商品标题、商品OCR图片描述、外部商品网站等等。品类词组一般由任意选择的品类词组成,采集到的所有的品类词都应至少包含在一个品类词组中,以确保品类词组的全面性。通常情况下品类词组包含两个品类词,例如:音箱、机柜,但为了提高关联效率,也可以采用两个以上品类词组成品类词组,例如:音箱、机柜、电视。需要说明的是,品类词组中可以包含两个或两个以上的品类词。
S2、对比同一品类词组中的品类词,获得品类词对比结果。
上述,对比品类词主要是为了确定不同的品类词在对应位置上的字符是否一致。
在一个实施例中,步骤S2包括:
S21、按照预设顺序,对比同一品类词组中品类词对应位置上的字符,获得品类词对比结果。
上述,预设顺序指各品类词从第一个字符位置开始逐个字符依次对比,或者各品类词从最后一个字符位置开始逐个字符依次对比。需要说明的是,第一个字符位置可人为设置。对比结果可以利用预设的符号表示,例如:对应位置的字符相同,则为“1”,对应位置的字符不同,则为“0”,对应位置中存在空字符,则为“2”。举例说明:
品类词组:音箱、音箱套
从第一个字符位置(为最左边的字符位置)开始逐个字符依次对比:
音vs音,箱vs箱,“空字符”vs套
最终获得的品类词对比结果为:112。
品类词组:风扇、手持风扇
从最后一个字符位置(为最右边的字符位置)开始逐个字符依次对比:
扇vs扇,风vs风,持vs“空字符”,手vs“空字符”
最终获得的品类词对比结果(从第一个字符位置开始)为:2211,或者获得的品类词对比结果(从最后一个字符位置开始)为:1122。
S3、将品类词对比结果与结构类型条件匹配,将匹配成功的品类词组作为关联词组,并确定关联词组所属的结构类型。
上述,结构类型条件为预设的与结构类型对应的条件,具体可以采用表示相同、不同、存在空字符这三种情况的符号表示。
结构类型包括:包含结构、共有结构两大类。其中,包含结构覆盖了字符数量不一致,且一个品类词的字符被另一个品类词字符完全共有的情况。共有结构覆盖了一个品类词和另一个品类词存在共有字符,但并没有完全共有字符的情况。更具体地,包含结构,又包括:
首部包含结构,指一个品类词的字符被另一个品类词首部连续位置上的字符完全共有。
尾部包含结构,指一个品类词的字符被另一个品类词尾部连续位置上的字符完全共有。
共有结构,又包括:
首部共有结构,指两个品类词的首部连续位置上的字符共有。
尾部共有结构,指两个品类词的尾部连续位置上的字符共有。
首尾共有结构,指两个品类词的首部以及尾部连续位置上的字符共有。
字符共有结构,指两个品类词存在共有字符。
下面对各种结构类型举例说明:
首部包含结构:
音箱、音箱套;芒果、芒果干;火腿、火腿肉;豆腐、豆腐脑。
尾部包含结构:
硅脂、散热硅脂;木炭、吸附木炭;风扇、手持风扇;钢琴、电钢琴。
首部共有结构:
烤灯、烤箱;泡茶器、泡茶杯;燕麦片、燕麦粉;黑米面、黑米饼。
尾部共有结构:
散热板、格子板;低压线、高压线;休闲裤、牛仔裤;烤肉机、绞肉机。
首尾共有结构:
不粘锅、不锈钢锅;便条纸、便签纸;牛皮包、牛肉包;储存罐、储藏罐。
字符共有结构:
削笔刀、圆珠笔;粉蒸肉、蒸菜;冰淇淋、碎冰机;方桌、桌椅。
基于上述结构类型,结构类型条件具体可以是:
首部包含结构:从第一个字符位置开始对比,品类词对比结果中首部连续位置上的字符为1,其他位置上的字符仅为2。
尾部包含结构:从第一个字符位置开始对比,品类词对比结果中尾部连续位置上的字符为1,其他位置上的字符仅为2。或者,从最后一个字符位置开始对比,品类词对比结果中首部连续位置上的字符为1,其他位置上的字符仅为2。
首部共有结构:从第一个字符位置开始对比,品类词对比结构中首部连续位置上的字符为1,其他位置上的字符存在0。
尾部共有结构:从第一个字符位置开始对比,品类词对比结果中尾部连续位置上的字符为1,其他位置上的字符仅存在0。或者,从最后一个字符位置开始对比,品类词对比结果中首部连续位置上的字符为1,其他位置上的字符存在0。
首尾共有结构:品类词对比结果首尾位置的字符为1。
字符共有结构:品类词对比结果中存在1。
以上,通过品类词对比结果与结构类型条件的匹配,将匹配成功的品类词组确定为关联词组,并将其匹配成功的结构类型条件对应的结构类型,作为关联词组的结构类型。
S4、将品类词进行向量化处理,计算关联词组中品类词之间的空间距离。
上述,品类词的向量化表示可以采用词集模型、TFIDF向量化文本、N-gram模型、word2vec模型等方法。计算品类词之间的空间距离,可以采用欧式距离余弦相似度(cosine)计算空间距离,然后通过Markov模型,得到关联词组中品类词之间的距离分数。通过上述品类词之间的距离分数能够衡量品类词之间的关联度。
S5、将关联词组对应的空间距离与其所属结构类型对应的关联条件对比,若空间距离满足关联条件,则根据空间距离对应的关联词组确定关联品类词。
上述,由于每种结构类型的特征不同,各结构类型对应的关联条件也应不同。例如:各结构类型中,属于尾部包含结构关联词组中品类词的关联程度相较于属于首部共有结构关联词组中品类词的关联程度要高。这是各结构类型本身的特征决定的,如果统一设置关联条件,则会忽略掉尾部包含结构中关联程度较高的关联词组,而把首部共有结构中关联程度较低的关联词组纳入到关联关系的确定中,进而影响关联品类词确定的准确性。
因此在一个实施例中,本发明实施例为每种结构类型分别动态设置不同的关联条件,具体的确定方法包括:
统计属于相同结构类型的关联词组对应的空间距离;
确定包含关联词组数量最多的空间距离范围为准关联条件;
根据该结构类型的权值和所述准关联条件确定该结构类型对应的关联条件。
上述,确定准关联条件可以采用肘部画图法直观获得。结构类型的权值根据结构类型本身的关联性特征,人为设定。上述关联条件是基于统计后计算获得的,可以定期统计,定期更新,实现了关联条件的动态确定。
关联的品类词应当属于不同的商品或者不同类的商品,因此上述方法得出的关联品类词还可能存在多个品类词表述为同一个商品,或同一种商品的情况。因此为了进一步排除同义词组、上下位词组等混淆品类词关联关系的词组的影响,在一个实施例中,本发明公开的关联品类词确定方法,还包括:
S6、判断关联词组是否为上下位词组或者同义词组,若是,则删除关联词组,若否,则判断品类词的在相应的位置中是否包含预设的特殊字符,若是,则删除关联词组,若否,则确定所述关联词组中的所述品类词关联。
上述,预设的特殊字符包括:数字和字母。通过对特殊字符的判断,步骤S6除了剔除了关联词组中的同义词组和上下位词组外,还剔除了由于品类词中包含相同的数字或者字母而将品类词组确定为关联词组的情况,从而保证关联词组中的品类词确实存在关联关系。
在一个实施例中,判断关联词组是否为上下位词组,包括:
将关联词组与上下位词组集合匹配,若匹配成功,则确定关联词组为上下位词组。
在一个实施例中,判断关联词组是否为同义词组,包括:
判断同一关联词组的品类词之间不一致的字符中是否包含同义词字符,若是,则确定关联词组为所述同义词组。
上述,判断品类词之间不一致的字符中是否包含同义词字符,包括:
将品类词之间不一致的字符与同义字符集合匹配,若匹配成功,则确定字符为同义字符。
基于上述关联品类词的确定方法,本发明还提供一种关联品类词的确定装置,包括:
词组生成模块201,用于获取品类词,将品类词组成品类词组。
上述,词组生成模块在获取品类词时可以进行多源数据采集。组成品类词组过程中,采集到的所有的品类词都应至少包含在一个品类词组中,以确保品类词组的全面性。
品类词对比模块202,用于对比同一品类词组中的品类词,获得品类词对比结果。
在一个实施例中,品类词对比模块,具体用于按照预设顺序,对比同一品类词组中品类词对应位置上的字符,获得品类词对比结果。
上述,预设顺序指各品类词从第一个字符位置开始逐个字符依次对比,或者各品类词从最后一个字符位置开始逐个字符依次对比。需要说明的是,第一个字符位置可人为设置。对比结果可以利用预设的符号表示。
分类模块203,用于将品类词对比结果与结构类型条件匹配,将匹配成功的品类词作为关联词组,并确定关联词组所属的结构类型。
上述,结构类型包括:包含结构、共有结构两大类。包含结构,又包括:首部包含结构、尾部包含结构。共有结构,又包括:首部共有结构、尾部共有结构、首尾共有结构、字符共有结构。结构类型条件与不同的结构类型对应。
空间距离计算模块204,用于将品类词进行向量化处理,计算关联词组中品类词之间的空间距离。
上述,品类词的向量化表示可以采用词集模型、TFIDF向量化文本、N-gram模型、word2vec模型等方法。计算品类词之间的空间距离,可以采用欧式距离余弦相似度(cosine)计算空间距离,然后通过Markov模型,得到关联词组中品类词之间的距离分数。
关联模块205,用于关联词组对应的空间距离与其所属结构类型对应的关联条件对比,若空间距离满足关联条件,则根据空间距离对应的关联词组确定关联品类词。
在一个实施例中,上述装置,还包括:
关联条件确定模块,用于统计属于相同结构类型的关联词组对应的空间距离;确定包含关联词组数量最多的空间距离范围为准关联条件;根据该结构类型的权值和准关联条件确定该结构类型对应的关联条件。
上述,确定准关联条件可以采用肘部画图法直观获得。结构类型的权值根据结构类型本身的关联性特征,人为设定。
在一个实施例中,上述装置,还包括:
筛选模块,用于判断所述关联词组是否为上下位词组或者同义词组,若是,则删除所述关联词组,若否,则判断所述品类词的在相应的位置中是否包含预设的特殊字符,若是,则删除所述关联词组,若否,则确定所述关联词组中的所述品类词关联。
上述,预设的特殊字符包括:数字和字母。删除存在数字或字母的关联词组,主要为了避免由于品类词中包含相同的数字或者字母而将品类词组确定为关联词组的情况。
在一个实施例中,筛选模块,包括:
上下为词组判断模块,用于将关联词组与上下位词组集合匹配,若匹配成功,则确定关联词组为上下位词组。
在一个实施例中,筛选模块,包括:
同义词组判断模块,用于判断同一关联词组的品类词之间不一致的字符中是否包含同义词字符,若是,则确定关联词组为同义词组。
上述,判断品类词之间不一致的字符中是否包含同义词字符,包括:
将品类词之间不一致的字符与同义字符集合匹配,若匹配成功,则确定字符为同义字符。
如图3所示,基于上述方法实施例,本发明实施例还提供一种计算机系统,包括:
一个或多个处理器;以及
与一个或多个处理器关联的存储器,存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时,执行上述关联品类词确定方法。
其中,图3示例性的展示出了计算机系统的架构,具体可以包括处理器310,视频显示适配器311,磁盘驱动器312,输入/输出接口313,网络接口314,以及存储器320。上述处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320之间可以通过通信总线330进行通信连接。
其中,处理器310可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器320可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器320可以存储用于控制电子设备300运行的操作系统321,用于控制电子设备300的低级别操作的基本输入输出系统322(BIOS)。另外,还可以存储网页浏览器323,数据存储管理系统324,以及设备标识信息处理系统325等等。上述设备标识信息处理系统325就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器320中,并由处理器310来调用执行。
输入/输出接口313用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口314用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线330包括一通路,在设备的各个组件(例如处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320)之间传输信息。
另外,该电子设备300还可以从虚拟资源对象领取条件信息数据库341中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,存储器320,总线330等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明通过根据结构类型条件确定关联词组,通过空间距离、关联条件确定关联词组中的品类词是否存在关联关系,实现了关联品类词的自动确定,无需人工参与,节省了关联品类词确定的人工成本;
2、本发明中不同的结构类型对应不同的关联条件,避免了品类词由于在字符上关联性较小而被忽略关联性的情况,全面地挖掘品类词之间的关联关系;
3、本发明中还排除了上下位词组、同义词组以及各种无效字符相同而造成品类词关联关系被错误认定的情况,提高了关联品类词挖掘的准确性。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种关联品类词的确定方法,其特征在于,包括:
获取品类词,将所述品类词组成品类词组;
对比同一所述品类词组中的所述品类词,获得品类词对比结果;
将所述品类词对比结果与结构类型条件匹配,将匹配成功的所述品类词组作为关联词组,并确定所述关联词组所属的结构类型,其中结构类型包括:包含结构、共有结构两大类,结构类型条件为预设的与结构类型对应的条件,采用符号表示相同、不同、存在空字符三种情况;
将所述品类词作向量化处理,计算所述关联词组中所述品类词之间的空间距离;
将所述关联词组对应的空间距离与其所属结构类型对应的关联条件对比,若所述空间距离满足所述关联条件,则根据所述空间距离对应的所述关联词组确定关联品类词;其中,所述对比同一所述品类词组中的所述品类词,获得品类词对比结果,包括:
按照预设顺序,对比同一所述品类词组中所述品类词对应位置上的字符,获得所述品类词对比结果。
2.如权利要求1所述的方法,其特征在于,所述关联条件的确定包括:
统计属于相同所述结构类型的所述关联词组对应的空间距离;
确定包含所述关联词组数量最多的空间距离范围为准关联条件;
根据该所述结构类型的权值和所述准关联条件确定该所述结构类型对应的所述关联条件。
3.如权利要求1~2任意一项所述的方法,其特征在于,所述若所述空间距离满足所述关联条件,则根据所述空间距离对应的所述关联词组确定关联品类词,包括:
判断所述关联词组是否为上下位词组或者同义词组,若是,则删除所述关联词组,若否,则判断所述品类词的在相应的位置中是否包含预设的特殊字符,若是,则删除所述关联词组,若否,则确定所述关联词组中的所述品类词关联,其中预设的特殊字符包括:数字和字母。
4.如权利要求3所述的方法,其特征在于,所述判断所述关联词组是否为上下位词组,包括:
将所述关联词组与上下位词组集合匹配,若匹配成功,则确定所述关联词组为所述上下位词组。
5.如权利要求3所述的方法,其特征在于,所述判断所述关联词组是否为同义词组,包括:
判断同一所述关联词组的所述品类词之间不一致的字符中是否包含同义词字符,若是,则确定所述关联词组为所述同义词组。
6.一种关联品类词的确定装置,其特征在于,包括:
词组生成模块,用于获取品类词,将所述品类词组成品类词组;
品类词对比模块,用于对比同一所述品类词组中的所述品类词,获得品类词对比结果;
分类模块,用于将所述品类词对比结果与结构类型条件匹配,将匹配成功的所述品类词作为关联词组,并确定所述关联词组所属的结构类型,其中结构类型包括:包含结构、共有结构两大类,结构类型条件为预设的与结构类型对应的条件,采用符号表示相同、不同、存在空字符三种情况;
空间距离计算模块,用于将所述品类词进行向量化处理,计算所述关联词组中所述品类词之间的空间距离;
关联模块,用于所述关联词组对应的空间距离与其所属结构类型对应的关联条件对比,若所述空间距离满足所述关联条件,则根据所述空间距离对应的所述关联词组确定关联品类词;
其中,所述品类词对比模块,具体用于按照预设顺序,对比同一所述品类词组中所述品类词对应位置上的字符,获得所述品类词对比结果。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
关联条件确定模块,用于统计属于相同所述结构类型的所述关联词组对应的空间距离;
确定包含所述关联词组数量最多的空间距离范围为准关联条件;
根据该所述结构类型的权值和所述准关联条件确定该所述结构类型对应的所述关联条件。
8.一种计算机系统,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述权利要求1~5任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329448.XA CN112380347B (zh) | 2020-11-24 | 2020-11-24 | 一种关联品类词的确定方法、装置及系统 |
CA3140314A CA3140314A1 (en) | 2020-11-24 | 2021-11-24 | Method, system and device for determining associated category words |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329448.XA CN112380347B (zh) | 2020-11-24 | 2020-11-24 | 一种关联品类词的确定方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380347A CN112380347A (zh) | 2021-02-19 |
CN112380347B true CN112380347B (zh) | 2022-11-18 |
Family
ID=74587667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011329448.XA Active CN112380347B (zh) | 2020-11-24 | 2020-11-24 | 一种关联品类词的确定方法、装置及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112380347B (zh) |
CA (1) | CA3140314A1 (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083678A (zh) * | 2019-03-12 | 2019-08-02 | 平安科技(深圳)有限公司 | 一种电商平台商品匹配方法、装置及可读存储介质 |
CN110727862A (zh) * | 2019-09-24 | 2020-01-24 | 苏宁云计算有限公司 | 一种商品搜索的查询策略的生成方法及装置 |
CN110807646A (zh) * | 2018-08-06 | 2020-02-18 | 北京京东尚科信息技术有限公司 | 数据分析方法、装置和计算机可读存储介质 |
CN111260428A (zh) * | 2018-12-03 | 2020-06-09 | 北京京东尚科信息技术有限公司 | 一种商品推荐方法和装置 |
-
2020
- 2020-11-24 CN CN202011329448.XA patent/CN112380347B/zh active Active
-
2021
- 2021-11-24 CA CA3140314A patent/CA3140314A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807646A (zh) * | 2018-08-06 | 2020-02-18 | 北京京东尚科信息技术有限公司 | 数据分析方法、装置和计算机可读存储介质 |
CN111260428A (zh) * | 2018-12-03 | 2020-06-09 | 北京京东尚科信息技术有限公司 | 一种商品推荐方法和装置 |
CN110083678A (zh) * | 2019-03-12 | 2019-08-02 | 平安科技(深圳)有限公司 | 一种电商平台商品匹配方法、装置及可读存储介质 |
CN110727862A (zh) * | 2019-09-24 | 2020-01-24 | 苏宁云计算有限公司 | 一种商品搜索的查询策略的生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CA3140314A1 (en) | 2022-05-24 |
CN112380347A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
CN108628833B (zh) | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 | |
CN102612691B (zh) | 给文本评分的方法和系统 | |
EP2829990B1 (en) | Image search device, image search method, program, and computer-readable storage medium | |
KR101491627B1 (ko) | 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN105574089B (zh) | 知识图谱的生成方法及装置、对象对比方法及装置 | |
JP6093200B2 (ja) | 情報検索装置及び情報検索プログラム | |
CN103377287A (zh) | 一种投放物品信息的方法和装置 | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
CN110347908B (zh) | 语音购物方法、装置、介质及电子设备 | |
CN107067293A (zh) | 商家分类方法、装置及电子设备 | |
EP2833275A1 (en) | Image search device, image search method, program, and computer-readable storage medium | |
CN110968789B (zh) | 电子书推送方法、电子设备及计算机存储介质 | |
CN113688310B (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN111475731B (zh) | 数据处理方法、装置、存储介质及设备 | |
CN112633000A (zh) | 一种文本中实体的关联方法、装置、电子设备及存储介质 | |
CN111428007A (zh) | 基于跨平台的同步推送反馈方法 | |
CN113392329A (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
CN111723293A (zh) | 一种文章内容的推荐方法、装置、电子设备及存储介质 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN110968670B (zh) | 一种流行商品的属性获取方法、装置、设备及存储介质 | |
CN112380347B (zh) | 一种关联品类词的确定方法、装置及系统 | |
CN112883719A (zh) | 一种品类词识别方法、模型训练方法、装置及系统 | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |