CN112883719A - 一种品类词识别方法、模型训练方法、装置及系统 - Google Patents

一种品类词识别方法、模型训练方法、装置及系统 Download PDF

Info

Publication number
CN112883719A
CN112883719A CN202110135149.0A CN202110135149A CN112883719A CN 112883719 A CN112883719 A CN 112883719A CN 202110135149 A CN202110135149 A CN 202110135149A CN 112883719 A CN112883719 A CN 112883719A
Authority
CN
China
Prior art keywords
commodity title
category
word
sample
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110135149.0A
Other languages
English (en)
Inventor
赵晖
齐康
沈艺
倪合强
梁诗雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Suning Software Technology Co ltd
Original Assignee
Nanjing Suning Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Suning Software Technology Co ltd filed Critical Nanjing Suning Software Technology Co ltd
Priority to CN202110135149.0A priority Critical patent/CN112883719A/zh
Publication of CN112883719A publication Critical patent/CN112883719A/zh
Priority to CA3147341A priority patent/CA3147341A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种品类词识别方法、模型训练方法、装置及系统,该识别方法包括如下步骤:对待识别商品标题进行预处理获得预处理后商品标题;在预先构建的至少包括两个标准品类词的领域字典中查找待识别商品标题包含的至少一个第一品类词得到商品标题品类词列表;将预处理后商品标题、商品标题品类词列表输入预先构建的品类词识别模型中,获得与待识别商品标题对应的目标品类词,该识别方法在进行品类词识别时,通过额外构建的一个领域字典检索标题中出现的所有品类词并作为模型输入特征之一,使得模型在学习标题和品类词的对应关系时更精准。

Description

一种品类词识别方法、模型训练方法、装置及系统
技术领域
本发明涉及计算机信息处理技术领域,特别涉及一种品类词识别方法、模型训练方法、装置及系统。
背景技术
商家在进行商品入库时需要对商品进行类目配置,以便进行商品管理及商品推荐。在具体的实现过程中,通常采用人工或基于序列标注算法模型的方式对商品进行类目识别。
传统方案使用标题作为输入,品类词作为输出对模型进行训练以获得适用模型。传统序列标注模型在出现新的品类词需要识别时,需要大量的对应商品标题数据才能有较好的效果。如,对于一个新的品类词而言,要想在新品类词上达到较好的识别效果所需的数据样本量级较大,通常为100条、1000条甚至更多。
因此,需要寻找一种品类词识别准确率较高的识别方法。
发明内容
为解决上述技术问题,本发明提供了一种品类词识别方法、模型训练方法、装置及系统,其能有效提高商品品类词的识别准确率。
本发明提供的技术方案如下:
第一方面,提供一种品类词识别方法,所述识别方法包括如下步骤:
对待识别商品标题进行预处理获得预处理后商品标题;
在预先构建的至少包括两个标准品类词的领域字典中查找所述待识别商品标题包含的至少一个第一品类词得到商品标题品类词列表;
将所述预处理后商品标题、所述商品标题品类词列表输入预先构建的品类词识别模型中,获得与所述待识别商品标题对应的目标品类词。
在一种实施方式中,所述预处理步骤包括如下子步骤:
将所述待识别商品标题中的数字用预设数字字符表示;
将所述待识别商品标题中的字母统一调整为大写或小写字母。
在一种实施方式中,所述识别方法还包括:品类词识别模型训练步骤,其包括:
获取至少一个商品标题样本;
对每一所述商品标题样本进行品类词标注以获得标注信息,所述标注信息包括所述商品标题样本包含的若干品类词样本;
对每一所述商品标题样本进行预处理获得预处理后商品标题样本;
在预先构建的至少包括两个标准品类词的领域字典中查找所述预处理后商品标题样本包含的至少一个第二品类词得到商品标题品类词样本列表;
将所述预处理后商品标题样本、所述商品标题品类词样本列表作为输入,所述标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
在一种实施方式中,所述识别方法还包括:领域字典构建步骤,其包括如下子步骤:
收集对每一所述商品标题样本进行品类词标注获得的若干品类词样本以构成所述领域字典。
第二方面,提供一种品类词识别模型训练方法,所述训练方法包括:
获取至少一个商品标题样本的标注信息,所述标注信息包括所述商品标题样本包含的若干品类词样本;
在预先构建的至少包括两个标准品类词的领域字典中查找所述商品标题样本包含的至少一个第二品类词得到商品标题样本品类词样本列表;
将所述商品标题样本、所述商品标题品类词样本列表作为输入,所述标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
在一种实施方式中,所述训练方法还包括:对获取的商品标题样本进行预处理获得预处理后商品标题样本,所述预处理步骤包括:
将所述商品标题样本中的数字用预设数字字符表示;
将所述商品标题样本中的字母统一调整为大写或小写字母;
所述训练方法包括:
在预先构建的至少包括两个标准品类词的领域字典中查找所述预处理后商品标题样本包含的至少一个第二品类词得到商品标题样本品类词样本列表;
将所述预处理后商品标题样本、商品标题品类词样本列表作为输入,所述标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
在一种实施方式中,所述训练方法还包括:领域字典构建步骤,其包括如下子步骤:
收集对每一所述商品标题样本进行品类词标注获得的若干品类词样本以构成所述领域字典。
第三方面,提供一种品类词识别装置,所述识别装置包括:
预处理模块,用于对待识别商品标题进行预处理获得预处理后商品标题;
查找模块,用于在预先构建的至少包括两个标准品类词的领域字典中查找所述待识别商品标题包含的至少一个第一品类词得到商品标题品类词列表;
识别模块,用于将所述预处理后商品标题、商品标题品类词列表输入预先构建的品类词识别模型中,获得与所述待识别商品标题对应的目标品类词。
第四方面,提供一种品类词识别模型训练装置,所述训练装置包括:
获取模块,用于获取至少一个商品标题样本的标注信息,所述标注信息包括所述商品标题样本包含的若干品类词样本;
查找模块,用于在预先构建的至少包括两个标准品类词的领域字典中查找所述商品标题样本包含的至少一个第二品类词得到商品标题样本品类词样本列表;
训练模块,用于将所述商品标题样本、所述商品标题品类词样本列表作为输入,所述标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
第五方面,提供一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
对待识别商品标题进行预处理获得预处理后商品标题;
在预先构建的至少包括两个标准品类词的领域字典中查找所述待识别商品标题包含的至少一个标准品类词得到商品标题品类词列表;
将所述预处理后商品标题、商品标题品类词列表输入预先构建的品类词识别模型中,获得与所述待识别商品标题对应的目标品类词。
本发明相比现有技术而言的有益效果在于:
本发明提供一种品类词识别方法,该识别方法包括如下步骤:对待识别商品标题进行预处理获得预处理后商品标题;在预先构建的至少包括两个标准品类词的领域字典中查找待识别商品标题包含的至少一个第一品类词得到商品标题品类词列表;将预处理后商品标题、商品标题品类词列表输入预先构建的品类词识别模型中,获得与待识别商品标题对应的目标品类词,该识别方法在进行品类词识别时,通过额外构建的一个领域字典检索标题中出现的所有品类词并作为模型输入特征之一,使得模型在学习标题和品类词的对应关系时更精准;
另外,本发明还提供一种品类词识别模型训练方法,其包括:获取至少一个商品标题样本的标注信息,标注信息包括商品标题样本包含的若干品类词样本;在预先构建的至少包括两个标准品类词的领域字典中查找商品标题样本包含的至少一个第二品类词得到商品标题样本品类词样本列表;将商品标题样本、商品标题品类词样本列表作为输入,标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型,可见在进行模型训练时,同样通过领域字典检索标题中出现的所有品类词并作为模型输入特征之一,如此,所训练的模型准确度更高,且仅需少量的样本数据就能完成模型训练过程,简化建模过程;
需要说明的是,本申请的方案只要实现其中任一技术效果即可。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种品类词识别模型训练方法的流程图;
图2是本发明实施例二提供的一种品类词识别方法的流程图;
图3是本发明实施例五提供的计算机系统架构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于传统的商品品类词识别过程中采用标题作为输入、品类词作为输出训练获得标注模型,并采用该模型对输入的待识别标题进行学习输出品类的方案,该方法仅以标题作为特征输入,特征较弱,在模型训练过程中所需的样本量较多,且在对标题进行品类词识别时准确性较低。基于上述原因,本实施例提供一种品类词识别方法、模型训练方法、装置及系统,能有效克服上述缺陷。
下面将结合具体实施例对品类词识别方法、模型训练方法、装置及系统作进一步说明。
实施例一
结合图1所示,本实施例提供一种品类词识别模型训练方法,该训练方法包括:
S10、获取至少一个商品标题样本,如:
商品标题样本1:统一阿萨姆奶茶原味奶茶500ml*15瓶整箱精选喜马拉雅山麓红茶客_5_9_1;
商品标题样本2:三只松鼠加油战妙脆角红零食膨化休闲什锦小吃麻辣小龙虾味108g(正品)_8。
S20、获取每一商品标题样本进行品类词标注的标注信息,标注信息包括商品标题样本包含的若干品类词样本及每一品类词样本的起始位置。
需要说明的是,该步骤S20中获得的标注信息可以是接收到的人工标注获得的标注信息,标注信息包括商品标题样本包含的若干品类词样本及每一所述品类词样本的起始位置,如对上述商品标题样本1、2进行标注后,获得的标注信息为:
商品标题样本1的标注信息:奶茶/[6,7];
商品标题样本2的标注信息:妙脆角/[8,10]。
S30、对每一商品标题样本进行预处理获得预处理后商品标题样本。
该预处理过程具体为:
S301、将商品标题样本中的数字用预设数字字符表示,在具体实施方式中,由于商品标题中的数字对品类词识别无价值,且会增加标题的复杂程度,故可采用相同的数字表示以降低数字对后续处理过程带来的干扰,本实施例优选采用0表示;
S302、将商品标题样本中的字母统一调整为大写或小写字母,同样的,由于商品标题中的数字对品类词识别无价值,且会增加标题的复杂程度,故作为一种优选,本实施例中将字母统一调整为小写字母。
需要说明的是,本实施例对上述步骤S301、S302的执行先后顺序并不限定。如:
预处理后商品标题样本1为:统一阿萨姆奶茶原味奶茶000ml*00瓶整箱精选喜马拉雅山麓红茶客_0_0_0;
预处理后商品标题样本2为:三只松鼠加油战妙脆角红零食膨化休闲什锦小吃麻辣小龙虾味000g(正品)_0。
S40、在预先构建的至少包括两个标准品类词的领域字典(如使用KMP等具有字符串匹配能力的算法)中查找预处理后商品标题样本包含的至少一个第二品类词得到商品标题品类词样本列表。
领域字典实际为预先构建的包括不同商品的标准品类词的词库,通过该步骤S40构建的领域字典在标题中进行检索,可获得在标题中出现的所有领域字典中的第二品类词,将这些第二品类词汇集作为商品标题品类词样本列表。
因此,该模型训练方法还包括:S100、领域字典构建步骤,其包括如下子步骤:
收集对每一所述商品标题样本进行品类词标注获得的若干品类词样本,并将若干品类词样本作为标准品类词构成所述领域字典。
如,通过商品标题样本1获得的标准品类词为:奶茶;通过商品标题样本2获得的标准品类词为:妙脆角、小龙虾,将妙脆角、小龙虾这两个词收集形成领域字典。
可见,该步骤S100中的商品标题样本集即步骤S10中的商品标题样本集,且可通过相同的标注方法进行标注获得若干品类词样本。当然,步骤S100中进行领域字典构建时,同样可以基于其他的商品标题样本集实现,本实施例对此并不加以限制。
另外,在后续使用中,可通过接收人工添加的新的标准品类词以丰富领域字典,提高对各种类型标题的对应性及敏感性。
该训练方法还包括:S50、将预处理后商品标题样本、商品标题品类词样本列表作为输入,标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
如:
样本1输入:统一阿萨姆奶茶原味奶茶000ml*00瓶整箱精选喜马拉雅山麓红茶客_0_0_0@[奶茶]
样本1输出:奶茶/[6,7]
样本2输入:三只松鼠加油战妙脆角红零食膨化休闲什锦小吃麻辣小龙虾味000g(正品)_0@[妙脆角、小龙虾]
样本2输出:妙脆角/[8,10]。
本实施例中对于预设品类识别网络并不作限制,可采用如LSTM+CRF等网络。
优选地,当构建领域字典与模型训练的商品标题样本集相同时,在执行完S20获得标注信息后,步骤S100与步骤S30-S50可分别同步执行。
经试验,与传统方法相比,本实施例中的品类词识别模型训练方法仅需10条左右的样本数据训练得到的模型,其准确度能与现有技术中通过100条样本数据训练的标注模型的准确度相当。
因此,本实施例提供的品类词模型训练方法在进行模型训练时,通过预先构建的领域字典检索标题中出现的所有品类词并作为模型输入特征之一,且为一个很强的特征输入,如此,所训练的模型准确度更高,且仅需少量的样本数据就能完成模型训练过程,简化建模过程;进一步,该领域字典可通过标准品类词的不断添加进行更新与维护,不断提高输入特征的对应性,提高识别准确度。
实施例二
结合图2所示,本实施例提供一种品类词识别方法,该识别方法是基于实施例一中所述的品类词识别模型及领域字典执行的,该识别方法至少包括如下步骤:
S1、对待识别商品标题进行预处理获得预处理后商品标题;该预处理步骤至少包括如下子步骤:
S11、将待识别商品标题中的数字用预设数字字符表示,优选地,统一用数字0表示;
S12、将待识别商品标题中的字母统一调整为大写或小写字母,优选地,统一调整为小写字母。
S2、在预先构建的至少包括两个标准品类词的领域字典中查找待识别商品标题包含的至少一个第一品类词得到商品标题品类词列表。
S3、将预处理后商品标题、商品标题品类词列表输入预先构建的品类词识别模型中,获得与待识别商品标题对应的目标品类词。
当然,该品类词识别方法还包括:品类词识别模型、领域字典的构建步骤,该构建步骤及相应的技术效果请参照实施例一中的描述,本实施例中不作描述。
经验证,采用本实施例中的品类词识别方法对待识别商品标题进行识别时,准确度较高。
示例性的,待识别商品标题为:魅果水滴屏全网通4G千元全面屏游戏智能5G大电池超长待机手机鸿运当头(贵族)128GB官方标配中国大陆送手机充电器。
采用本实施例中的识别方法进行识别时,商品标题品类词列表为:充电器、手机、电池,模型输出结果为:手机。
当采用现有技术中的标注算法模型获得的输出结果为:充电器。
由此可见,本实施例提供的品类词识别方法在进行品类词识别时,通过额外构建的领域字典检索标题中出现的所有品类词并作为模型输入特征之一,以及采用领域字典因素训练获得的模型进行商品标题进行识别时,品类词识别模型在学习商品标题和品类词的对应关系时精准度高,可靠性强。
实施例三
为执行上述实施例一中的品类词识别模型训练方法,本实施例提供一种与之对应的品类词识别模型训练装置,该训练装置至少包括:
获取模块,用于获取至少一个商品标题样本的标注信息,所述标注信息包括所述商品标题样本包含的若干品类词样本及每一所述品类词样本的起始位置;
预处理模块,用于对每一所述商品标题样本进行预处理获得预处理后商品标题样本;
查找模块,用于在预先构建的至少包括两个标准品类词的领域字典中查找所述预处理后商品标题样本包含的第二品类词得到商品标题品类词样本列表;
训练模块,用于将所述预处理后商品标题样本、商品标题品类词样本列表作为输入,所述标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
领域字典构建模块,用于收集对每一所述商品标题样本进行品类词标注获得的若干品类词样本以构成所述领域字典。
需要说明的是:上述实施例提供的品类词识别模型训练装置在触发品类词识别模型训练业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种品类词识别模型训练装置与实施例一提供的品类词识别模型训练方法的实施例属于同一构思,即该装置是基于该方法的,其具体实现过程详见方法实施例,这里不再赘述。
实施例四
为执行上述实施例二中的品类词识别方法,本实施例提供一种与之对应的品类词识别装置,且该品类词识别装置是基于实施例三中的品类词识别模型训练装置实现的,该装置至少包括:
预处理模块,用于对待识别商品标题进行预处理获得预处理后商品标题;
查找模块,用于在预先构建的至少包括两个标准品类词的领域字典中查找所述待识别商品标题包含的至少一个第一品类词得到商品标题品类词列表;
识别模块,用于将所述预处理后商品标题、商品标题品类词列表输入预先构建的品类词识别模型中,获得与所述待识别商品标题对应的目标品类词。
所述识别装置还包括:品类词识别模型训练模块,该品类词识别模型训练模块用于训练获得品类词识别模型以及构建领域字典,相应的结构描述请参照实施例三中的描述,此处不再赘述。
需要说明的是:上述实施例提供的品类词识别装置在触发品类词识别业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的品类词识别装置与实施例二提供的品类词识别方法的实施例属于同一构思,即该装置是基于该方法的,其具体实现过程详见方法实施例,这里不再赘述。
实施例五
对应上述方法和装置,本实施例提供一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
对待识别商品标题进行预处理获得预处理后商品标题;
在预先构建的领域字典中查找与所述待识别商品标题匹配的品类词得到商品标题品类词列表;
将所述预处理后商品标题、商品标题品类词列表输入预先构建的品类词识别模型中,获得与所述待识别商品标题对应的目标品类词。
其中,图3示例性的展示出了计算机系统的架构,具体可以包括处理器1510,视频显示适配器1511,磁盘驱动器1512,输入/输出接口1513,网络接口1514,以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520之间可以通过通信总线1530进行通信连接。
其中,处理器1510可以采用通用的CXU(Central Xrocessing Unit,中央处理器)、微处理器、应用专用集成电路(AXXlication SXecific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器1520可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521,用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器1523,数据存储管理系统1524,以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1520中,并由处理器1510来调用执行。
输入/输出接口1513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口1514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1530包括一通路,在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520)之间传输信息。
另外,该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,存储器1520,总线1530等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的数据下,即可以理解并实施。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种品类词识别方法,其特征在于,所述识别方法包括如下步骤:
对待识别商品标题进行预处理获得预处理后商品标题;
在预先构建的至少包括两个标准品类词的领域字典中查找所述待识别商品标题包含的至少一个第一品类词得到商品标题品类词列表;
将所述预处理后商品标题、所述商品标题品类词列表输入预先构建的品类词识别模型中,获得与所述待识别商品标题对应的目标品类词。
2.根据权利要求1所述的品类词识别方法,其特征在于,所述预处理步骤包括如下子步骤:
将所述待识别商品标题中的数字用预设数字字符表示;
将所述待识别商品标题中的字母统一调整为大写或小写字母。
3.根据权利要求1所述的品类词识别方法,其特征在于,所述识别方法还包括:品类词识别模型训练步骤,其包括:
获取至少一个商品标题样本;
对每一所述商品标题样本进行品类词标注以获得标注信息,所述标注信息包括所述商品标题样本包含的若干品类词样本;
对每一所述商品标题样本进行预处理获得预处理后商品标题样本;
在预先构建的至少包括两个标准品类词的领域字典中查找所述预处理后商品标题样本包含的至少一个第二品类词得到商品标题品类词样本列表;
将所述预处理后商品标题样本、所述商品标题品类词样本列表作为输入,所述标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
4.根据权利要求3述的品类词识别方法,其特征在于,所述识别方法还包括:领域字典构建步骤,其包括如下子步骤:
收集对每一所述商品标题样本进行品类词标注获得的若干品类词样本以构成所述领域字典。
5.一种品类词识别模型训练方法,其特征在于,所述训练方法包括:
获取至少一个商品标题样本的标注信息,所述标注信息包括所述商品标题样本包含的若干品类词样本;
在预先构建的至少包括两个标准品类词的领域字典中查找所述商品标题样本包含的至少一个第二品类词得到商品标题样本品类词样本列表;
将所述商品标题样本、所述商品标题品类词样本列表作为输入,所述标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
6.根据权利要求5所述的训练方法,其特征在于,所述训练方法还包括:对获取的商品标题样本进行预处理获得预处理后商品标题样本,所述预处理步骤包括:
将所述商品标题样本中的数字用预设数字字符表示;
将所述商品标题样本中的字母统一调整为大写或小写字母;
所述训练方法包括:
在预先构建的至少包括两个标准品类词的领域字典中查找所述预处理后商品标题样本包含的至少一个第二品类词得到商品标题样本品类词样本列表;
将所述预处理后商品标题样本、商品标题品类词样本列表作为输入,所述标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
7.根据权利要求5或6所述的训练方法,其特征在于,所述训练方法还包括:领域字典构建步骤,其包括如下子步骤:
收集对每一所述商品标题样本进行品类词标注获得的若干品类词样本以构成所述领域字典。
8.一种品类词识别装置,其特征在于,所述识别装置包括:
预处理模块,用于对待识别商品标题进行预处理获得预处理后商品标题;
查找模块,用于在预先构建的至少包括两个标准品类词的领域字典中查找所述待识别商品标题包含的至少一个第一品类词得到商品标题品类词列表;
识别模块,用于将所述预处理后商品标题、商品标题品类词列表输入预先构建的品类词识别模型中,获得与所述待识别商品标题对应的目标品类词。
9.一种品类词识别模型训练装置,其特征在于,所述训练装置包括:
获取模块,用于获取至少一个商品标题样本的标注信息,所述标注信息包括所述商品标题样本包含的若干品类词样本;
查找模块,用于在预先构建的至少包括两个标准品类词的领域字典中查找所述商品标题样本包含的至少一个第二品类词得到商品标题样本品类词样本列表;
训练模块,用于将所述商品标题样本、所述商品标题品类词样本列表作为输入,所述标注信息作为输出,基于预设品类识别网络训练获得品类词识别模型。
10.一种计算机系统,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
对待识别商品标题进行预处理获得预处理后商品标题;
在预先构建的至少包括两个标准品类词的领域字典中查找所述待识别商品标题包含的至少一个标准品类词得到商品标题品类词列表;
将所述预处理后商品标题、商品标题品类词列表输入预先构建的品类词识别模型中,获得与所述待识别商品标题对应的目标品类词。
CN202110135149.0A 2021-02-01 2021-02-01 一种品类词识别方法、模型训练方法、装置及系统 Pending CN112883719A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110135149.0A CN112883719A (zh) 2021-02-01 2021-02-01 一种品类词识别方法、模型训练方法、装置及系统
CA3147341A CA3147341A1 (en) 2021-02-01 2022-02-01 Category phrase recognition method, model training method, device and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110135149.0A CN112883719A (zh) 2021-02-01 2021-02-01 一种品类词识别方法、模型训练方法、装置及系统

Publications (1)

Publication Number Publication Date
CN112883719A true CN112883719A (zh) 2021-06-01

Family

ID=76052228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110135149.0A Pending CN112883719A (zh) 2021-02-01 2021-02-01 一种品类词识别方法、模型训练方法、装置及系统

Country Status (2)

Country Link
CN (1) CN112883719A (zh)
CA (1) CA3147341A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674054A (zh) * 2021-08-13 2021-11-19 青岛海信智慧生活科技股份有限公司 商品类别的配置方法、装置及系统
CN113836904A (zh) * 2021-09-18 2021-12-24 唯品会(广州)软件有限公司 商品信息校验方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674054A (zh) * 2021-08-13 2021-11-19 青岛海信智慧生活科技股份有限公司 商品类别的配置方法、装置及系统
CN113674054B (zh) * 2021-08-13 2023-12-05 青岛海信智慧生活科技股份有限公司 商品类别的配置方法、装置及系统
CN113836904A (zh) * 2021-09-18 2021-12-24 唯品会(广州)软件有限公司 商品信息校验方法
CN113836904B (zh) * 2021-09-18 2023-11-17 唯品会(广州)软件有限公司 商品信息校验方法

Also Published As

Publication number Publication date
CA3147341A1 (en) 2022-08-01

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN107766371B (zh) 一种文本信息分类方法及其装置
CN107193962B (zh) 一种互联网推广信息的智能配图方法及装置
CN113159095A (zh) 一种训练模型的方法、图像检索的方法以及装置
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN108388650B (zh) 基于需求的搜索处理方法、装置和智能设备
CN104537341B (zh) 人脸图片信息获取方法和装置
US11741094B2 (en) Method and system for identifying core product terms
US9906588B2 (en) Server and method for extracting content for commodity
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN110874534B (zh) 数据处理方法和数据处理装置
CN112883719A (zh) 一种品类词识别方法、模型训练方法、装置及系统
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
US20220292131A1 (en) Method, apparatus and system for retrieving image
CN111475731B (zh) 数据处理方法、装置、存储介质及设备
CN113704507A (zh) 数据处理方法、计算机设备以及可读存储介质
CN116881429A (zh) 一种基于多租户的对话模型交互方法、装置及存储介质
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN110413823A (zh) 服装图片推送方法及相关装置
CN111597296A (zh) 商品数据的处理方法、装置和系统
CN116029793A (zh) 商品推荐方法及其装置、设备、介质
CN111125387B (zh) 多媒体列表生成、命名方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination