CN116187342A - 一种提取商品标签的方法及系统 - Google Patents
一种提取商品标签的方法及系统 Download PDFInfo
- Publication number
- CN116187342A CN116187342A CN202310205765.8A CN202310205765A CN116187342A CN 116187342 A CN116187342 A CN 116187342A CN 202310205765 A CN202310205765 A CN 202310205765A CN 116187342 A CN116187342 A CN 116187342A
- Authority
- CN
- China
- Prior art keywords
- commodity
- model
- training
- attribute
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 131
- 238000000605 extraction Methods 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 230000006798 recombination Effects 0.000 claims description 8
- 238000005215 recombination Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 230000002779 inactivation Effects 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 description 15
- 238000003058 natural language processing Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 229920000742 Cotton Polymers 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000009940 knitting Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229920000728 polyester Polymers 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009941 weaving Methods 0.000 description 2
- 229920002972 Acrylic fiber Polymers 0.000 description 1
- NLHHRLWOUZZQLW-UHFFFAOYSA-N Acrylonitrile Chemical compound C=CC#N NLHHRLWOUZZQLW-UHFFFAOYSA-N 0.000 description 1
- 229920006052 Chinlon® Polymers 0.000 description 1
- 229920002334 Spandex Polymers 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- HGINCPLSRVDWNT-UHFFFAOYSA-N acrylaldehyde Natural products C=CC=O HGINCPLSRVDWNT-UHFFFAOYSA-N 0.000 description 1
- 238000009945 crocheting Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004759 spandex Substances 0.000 description 1
- 210000002268 wool Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种提取商品标签的方法及系统,该方法包括以下步骤:获取海关报关单中用于表示商品规格型号的文本数据,通过海关商品文本语义理解模型处理所述文本数据,得到向量形式的文本数据,所述海关商品文本语义理解模型是基于报关单商品规格型号文本语料库,对BERT预训练模型进行微调训练得到的;通过商品标签提取模型,对所述向量形式的文本数据进行特征处理和计算,输出标签预测结果,所述商品标签提取模型是通过设置双向LSTM网络和条件随机场的超参数,以及基于已有标签词库准备的训练数据进行模型训练得到的。本申请实施例能够显著提升商品属性标签提取的准确性,实现海关监管场景下大规模商品属性标签的提取和结构化处理。
Description
技术领域
本申请属于自然语言处理技术领域,具体涉及一种提取商品标签的方法及系统。
背景技术
基于标签体系进行商品的标准化管理,已经常见于电商零售等领域,其核心在于将商品通过标准化、定量化的方式进行描述,再与用户标签进行匹配从而实现搜索、推荐、指导经营等目的。海关借鉴这套方法所建立的商品标签体系,主要是面向海关的监管场景,基于商品申报、归类管理等相关法规和标准,将进出口报关单申报中的商品规格型号进行标准化和标签化。以服装为例,服装商品的申报要素包括性别、服装种类、织造方式、服装成分等维度,各个维度下设置了一系列具体的属性标签:例如,性别维度下的男装、女装等;织造方式维度下的针织、钩编等;服装成分维度下的棉、羊毛等。
然而,在实际的报关单数据中,商品属性信息往往都存在于非格式化的商品规格型号文本中。尽管在海关税则和规范申报要求下,商品规格型号的申报内容和格式都应遵循一定的要求,例如,某件服装的商品规格型号为“4|3|针织|袜子|男式|非女士统袜|45%腈纶30%棉18%锦纶4%聚酯纤维3%氨纶|单丝细度:316dtex|UNIQLO牌|货号371-416296(91-15)|||”,各维度属性之间用“|”分隔。但是,在实际数据中,不同申报企业对于商品属性的描述方式各异,不同类型标签在文本中体现的格式也有明显的差异性。因此,如何从非标准的商品规格型号文本中提取出具体的商品属性标签,成为了海关商品监管的重要问题之一。
传统的提取方式是基于标签词库和正则匹配的方法,提取商品规格型号文本中出现的已存在与词库中的商品标签。但是这种方法存在比较大的局限性,实际数据中对于同一属性标签的表述可能各有不同,例如同样表示服装性别为男式,实际文本中可能出现“男装”、“男士”、“非女装”等各种各样不同的表述,在标签词库中往往无法穷尽,也就导致了词库以外的标签无法有效提取。另外,基于正则匹配的方式对于非类别型的标签提取难度较大,例如,服装成分这样的比例型标签,不仅需要提取“腈纶”、“棉”这些成分标签,同时还需要提取其对应的比例,而对于比例型标签的申报方式更加复杂,进一步加大了提取的难度。
申请内容
本申请实施例的目的是提供一种提取商品标签的方法及系统,以解决现有的标签提取方式局限性和难度较大的缺陷。
为了解决上述技术问题,本申请是这样实现的:
第一方面,提供了一种提取商品标签的方法,包括以下步骤:
获取海关报关单中用于表示商品规格型号的文本数据,通过海关商品文本语义理解模型处理所述文本数据,得到向量形式的文本数据,所述海关商品文本语义理解模型是基于报关单商品规格型号文本语料库,对基于变换器的双向编码器表示BERT预训练模型进行微调训练得到的;
通过商品标签提取模型,对所述向量形式的文本数据进行特征处理和计算,输出标签预测结果,所述商品标签提取模型是通过设置双向长短期记忆LSTM网络和条件随机场的超参数,以及基于已有标签词库准备的训练数据进行模型训练得到的。
第二方面,提供了一种提取商品标签的系统,包括:
处理模块,用于获取海关报关单中用于表示商品规格型号的文本数据,通过海关商品文本语义理解模型处理所述文本数据,得到向量形式的文本数据,所述海关商品文本语义理解模型是基于报关单商品规格型号文本语料库,对基于变换器的双向编码器表示BERT预训练模型进行微调训练得到的;
提取模块,用于通过商品标签提取模型,对所述向量形式的文本数据进行特征处理和计算,输出标签预测结果,所述商品标签提取模型是通过设置双向长短期记忆LSTM网络和条件随机场的超参数,以及基于已有标签词库准备的训练数据进行模型训练得到的。
本申请实施例通过对BERT预训练模型进行微调训练得到海关商品文本语义理解模型,通过设置双向LSTM网络和条件随机场的超参数训练得到商品标签提取模型,并通过海关商品文本语义理解模型和商品标签提取模型处理海关报关单中用于表示商品规格型号的文本数据,能够显著提升商品属性标签提取的准确性,实现海关监管场景下大规模商品属性标签的提取和结构化处理。
附图说明
图1是本申请实施例提供的一种提取商品标签的方法流程图;
图2是本申请实施例提供的一种提取商品标签的系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
海关监管场景的商品属性标签提取,类似于自然语言处理领域的评价对象提取任务。评价对象提取任务主要用于细粒度的情感分析,在待处理文本中的情感并非单一的,而是具有多维度的评价属性及其各自对应的情感倾向时,便需要使用到评价对象提取方法,得到“评价对象:情感倾向”的提取结果。而海关商品标签的提取,也正是需要从报关单的商品规格型号文本中,提取出多个“属性维度:属性值”的成对结果,例如,“服装性别:男式”。近年来,关于评价对象提取方面的研究在国内外都受到了广泛关注,其实现方式从最初的词频模型、发展到依存句法模型、再到结合机器学习的主题模型、条件随机场、深度学习模型等,在常规文本的评价对象提取中已经能取得较好的效果。但是在海关监管场景中,报关单数据中所申报的文本语法语序,与我们常见的文本语法不同,往往不是完整的句子结构,因此通用的语义模型可能不适用,并且报关单中的商品规格型号文本有其自身的语法特点,需要进行针对性的处理。
为了解决现有技术中存在的问题,本申请实施例提供了一种面向海关监管场景的商品属性标签提取方法,从以下几个方面对现有的标签提取方法进行改进:
在海关场景的文本语义理解方面,引入BERT(Bidirectional EncoderRepresentations from Transformers,基于变换器的双向编码器表示)预训练模型,使用报关单申报的商品规格型号语料库进行微调训练,形成海关商品文本语义理解模型,从而更好地理解和处理海关场景的文本语义特征,解决通用语义模型在海关场景适用性差的问题;在商品属性标签的提取方面,借鉴自然语言处理领域的评价对象提取方法,提出了基于双向LSTM(Long Short-Term Memory,长短期记忆)和条件随机场的商品标签提取模型,在上述海关商品文本语义理解模型的基础上,通过构建词特征、词性特征、上下文特征、子句特征,从商品规格型号文本中提取出评价对象和评价词组合,从而解决标签词库和正则匹配方法提取效果差的问题。另外,基于模型提取的标签结果和已有的标签词库,引入模糊匹配算法,针对标签词库中未出现过的新词,找到与其相似的已有标签词以及相似性水平,结合一定的阈值设定或者人工研判,确定新词提取的有效性并加入标签词库,从而解决现有技术对于词库以外的新词无法提取的问题。
本申请的具体实施方式包括BERT模型微调训练、商品标签提取模型训练、标签提取和新词识别三个部分。
1.BERT模型微调训练
1.1.准备训练数据。收集整理报关单商品规格型号文本语料库,并进行必要的数据清洗,包括去除异常符号、去除重复数据、繁体字转简体等预处理;将清洗后的数据存储为txt格式,每条地址文本为一行,文件编码为UTF-8,作为模型的训练数据。
1.2.数据增强。在同一类商品的文本语料库中进行随机抽取,通过子句拆分和重组的方式获取更多的训练样本。例如:
1.3.设置超参数。BERT模型微调训练过程的超参数,除了输入和输出的文件路径之外,还包括最大序列长度max_seq_length、训练轮数epoch、学习率lr。在本例中,采用的超参数设置如下表所示,在其他情况下,可以根据实际数据情况进行超参数设置,本发明中对此不做限定。
超参数 | 值 |
max_seq_length | 128 |
epoch | 10 |
lr | 1×10-4 |
1.4.模型微调训练。读取BERT预训练模型以及商品规格型号文本语料库,对模型进行微调训练,得到海关商品文本语义理解模型。
2.商品标签提取模型训练
2.1.准备训练数据。基于历史积累的已有标签词库和关键词匹配方法,从原始数据中提取一部分标签作为样本,并结合必要的人工修正,剔除由于词库不完善、匹配准确度不足等原因造成的误判;通过同义词替换、子句拆分重组等方式进行数据增强,从而创建更多的训练数据。准备好的训练数据样例如下表所示。
2.2.设置超参数。设置商品标签提取模型中,双向LSTM网络和条件随机场的超参数,包括输入序列长度seq_length、双向LSTM维数lstm_units、随机失活比例dropout、学习率lr、条件随机场学习率倍数crf_lr、训练轮数epoch。在本例中,采用的超参数设置如下表所示,在其他情况下,可以根据实际数据情况进行超参数设置,本发明中对此不做限定。
超参数 | 值 |
seq_length | 128 |
lstm_units | 32 |
dropout | 0.25 |
lr | 2*10-5 |
crf_lr | 1000 |
epoch | 10 |
2.3.设置损失函数。在实际训练过程中,没有采用常规的多分类交叉熵作为损失函数,而是在此基础上做了修正,针对“O”分类结果(即非标签、非属性维度词)计算损失时乘上一个小于1的权重w(在本例中w设置为0.2),而其他分类结果仍按照交叉熵计算损失函数。这是由于训练样本制作的过程中,由于基础词库和提取方法的限制,文本中很多实际存在的标签无法被提取出来,即在样本中被错标为“O”,因此通过这样的损失函数设置,降低样本中错标、漏标的影响,并使得模型在训练过程中能够更积极地修正这些错误。
2.4.模型训练。基于上述设置的超参数和准备的训练数据,进行模型训练,得到商品标签提取模型结果。
3.标签提取和新词识别
3.1.准备预测数据。准备海关报关单中的商品规格型号文本数据,经过海关商品文本语义理解模型处理后,转化成向量形式,作为商品标签提取模型的输入数据。
3.2.模型提取标签。将输入文本数据通过已训练完成的商品标签提取模型,进行特征处理和计算后输出预测结果以及相应的预测概率值。
3.3.模糊匹配。以上表中的预测结果为例,根据模型打标结果提取出完整的属性维度和标签词,包括“男士”、“套头衫”、“聚酯纤维:100%”;将提取结果与已有标签词库中的词进行模糊匹配,计算编辑距离最小的相似标签词,例如预测词“男士”与已有词“男式”最小编辑距离为1,预测词“套头衫”与已有词“衬衫”最小编辑距离为2。
3.4.新词识别。根据模型预测的概率值、以及模糊匹配得到的最小编辑距离,判断模型提取标签是否正确以及是否加入词库。例如预测词“男士”的概率值>0.9且最小编辑距离≤1,模型自动将其加入词库,并作为已有词“男式”的同义词;预测词“套头衫”的概率值<0.9且最小编辑距离>1,不满足模型自动处理阈值,经过人工研判后,认定“套头衫”作为一个新标签词加入词库。
3.5.批量化处理。针对批量的报关单商品规格型号数据,通过上述的模型预测方法进行标签提取和新词识别,将满足条件的部分自动添加词库、不满足条件的部分提供人工审核,从而不断完善模型提取流程以及海关业务知识库的建设。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的提取商品标签的方法进行详细地说明。
如图1所示,为本申请实施例提供的一种提取商品标签的方法流程图,该方法包括以下步骤:
步骤101,获取海关报关单中用于表示商品规格型号的文本数据,通过海关商品文本语义理解模型处理所述文本数据,得到向量形式的文本数据,所述海关商品文本语义理解模型是基于报关单商品规格型号文本语料库,对BERT预训练模型进行微调训练得到的。
本实施例中,在获取海关报关单中用于表示商品规格型号的文本数据之前,还可以收集并整理报关单商品规格型号文本语料库,对所述文本语料库进行数据清洗,并在同一类商品的文本语料库中进行随机抽取,通过子句拆分和重组的方式获取增强后的训练样本;设置BERT模型微调训练过程的超参数,所述超参数包括输入的文件路径、输出的文件路径、最大序列长度、训练轮数和学习率;读取BERT预训练模型以及所述增强后的训练样本,对所述BERT预训练模型进行微调训练,得到所述海关商品文本语义理解模型。
步骤102,通过商品标签提取模型,对所述向量形式的文本数据进行特征处理和计算,输出标签预测结果,所述商品标签提取模型是通过设置双向LSTM网络和条件随机场的超参数,以及基于已有标签词库准备的训练数据进行模型训练得到的。
其中,标签预测结果包括商品属性维度、属性标签及其对应的概率值;相应地,在输出标签预测结果之后,还包括:将所述属性标签与已有标签词库中位于所述商品属性维度下的标签词进行模糊匹配,确定所述商品属性维度下与所述属性标签之间的编辑距离最小的已有标签词;判断所述属性标签与所述已有标签词之间的编辑距离是否小于等于第一预设值,且所述属性标签的概率值是否大于等于第二预设值;若所述属性标签与所述已有标签词之间的编辑距离小于等于第一预设值,且所述属性标签的概率值大于等于第二预设值,则确定所述属性标签有效,并将所述属性标签添加到所述已有标签词库;若所述属性标签与所述已有标签词之间的编辑距离大于第一预设值,或所述属性标签的概率值小于第二预设值,则通过后续的人工分析,判断所述属性标签是否有效以及是否将所述属性标签添加到所述已有标签词库。
本实施例中,在获取海关报关单中用于表示商品规格型号的文本数据之前,还可以基于历史积累的已有标签词库和关键词匹配方法,从原始数据中提取一部分标签作为样本,并通过同义词替换、子句拆分重组等方式进行数据增强,获取增强后的训练样本;设置损失函数以及双向LSTM网络和条件随机场的超参数,所述超参数包括输入序列长度、双向LSTM维数、随机失活比例、学习率、条件随机场学习率倍数和训练轮数;基于所述超参数和所述增强后的训练样本,进行模型训练,得到所述商品标签提取模型。
具体地,在获取海关报关单中用于表示商品规格型号的文本数据之前,还可以结合双向LSTM和条件随机场算法,构造词特征、词性特征、上下文特征和子句特征,并基于标注样本进行训练,输出商品属性维度和属性标签;构建商品标签提取样本库,分别对商品属性维度和属性标签进行标注,对所述商品标签提取模型进行训练。
本申请实施例通过对BERT预训练模型进行微调训练得到海关商品文本语义理解模型,通过设置双向LSTM网络和条件随机场的超参数训练得到商品标签提取模型,并通过海关商品文本语义理解模型和商品标签提取模型处理海关报关单中用于表示商品规格型号的文本数据,能够显著提升商品属性标签提取的准确性,实现海关监管场景下大规模商品属性标签的提取和结构化处理。
在本申请实施例中,面向海关监管场景的商品属性标签提取算法通过如下的技术方案实现:
步骤1:收集报关单商品规格型号文本语料库,对BERT预训练模型进行微调训练,得到海关商品文本语义理解模型,微调训练过程中采取以下处理,以提升模型对海关商品规格型号文本的语义理解效果:
a)原始数据的预处理方面,首先在文本的开头和结尾分别添加[CLS]和[SEP]标记,其次将文本中的“|”分隔符替换成[SEP]标记,表名文本中的分句,之后将文本中出现的数字串替换为[UNUSED1]标记,使模型能够对数字进行统一的理解和处理,最后根据文本长度以及事先定义的最大长度参数L,若文本长度大于L则截取文本至长度为L,否则在文本结尾添加[PAD]标记至文本长度为L;
b)数据增强方面,由于海关商品规格型号文本中,某一类属性标签通常会出现在“|”分隔后的某一个独立子句内,而不需要考虑子句与子句之间的关系,因此可以将语料库中的文本拆分子句之后进行重组,从而得到更多的训练语料库,例如原始语料库中包含“子句A1|子句A2|子句A3”和“子句B1|子句B2|子句B3”两条文本,可以通过拆分重组后形成“子句A1|子句B2|子句A3”等额外的文本数据;
c)训练得到的海关商品文本语义理解模型,接收长度为L的文本输入,将其逐字转化为向量表示,输出向量维度为d×L,其中d为人为定义的超参数,表示海关商品文本语义理解模型的维度数。
步骤2:搭建商品标签提取模型,输入上述模型处理后的文本向量表示,借鉴自然语言处理领域的评价对象提取思路,结合双向LSTM和条件随机场算法,构造词特征、词性特征、上下文特征、子句特征,并基于一定的标注样本进行训练,输出商品属性维度和属性值标签结果。具体的特征构造方法如下:
a)词特征:词作为自然语言中表达语义和构成评价对象的基本单位,属于CRF模型的基础特征,原始的文本数据通过上述海关商品文本语义理解模型处理之后,每个词都会被转化为相应的向量表示,作为基础的词特征输入;
b)词性特征:词性能够反映词在句子或词组中的作用,这里的评价对象是商品属性维度,通常是名词或名词短语,而评价词,即具体属性标签取值,根据标签类型的不同,可能是名词、形容词、数词等,因此应用jieba工具对原始文本进行分词并对标注词性,作为词性特征输入;
c)上下文特征:上下文特征主要考虑目标词前后的词及其词性特征,尤其对于数值型和比例型标签而言,要提取的数值与标签、单位等词之间可能存在不同的依存关系,因此前后的词以及上下文组合对于标签提取也起到重要的作用。
d)子句特征是海关商品场景中特有的,其原理是将报关单数据的商品规格型号文本视为一个整句,由于商品的各个属性维度申报内容以“|”分隔,可以将分隔后的每一个片段视为一个子句,而不同标签维度的子句具有不同的特征,例如性别维度的子句通常只有单个词,服装成分维度的子句较长且有名词和数词的组合,因此构造子句位置特征、长度特征、词性组成等特征,作为子句特征输入。
步骤3:模型训练过程,构建商品标签提取样本库,采用BIO标注法,分别对商品属性维度和属性标签进行标注,即文本中出现的商品属性维度词开头标注为“B_DIM”,后续标注为“I_DIM”;属性标签词开头标注为“B_TAG”,后续标注为“I_TAG”;其他无关文本均标注为“O”。基于前期的词典与规则建立,实现一部分数据的标签提取作为基础样本,再结合同义词替换、词序交换等数据增强处理,形成完整的训练样本集,对步骤2所述的商品标签提取模型进行训练。
步骤4:模型提取和识别标签过程,基于上述训练过程得到的模型结果,可以进行商品属性标签的提取,并结合已有词库和模糊匹配方法,实现新词的识别,具体包括以下步骤:
a)输入待提取的商品规格型号文本,经过步骤1所述的海关商品文本语义理解模型处理后得到对应的词向量表示,再经过步骤2所述的商品标签提取模型进行预测,输出商品属性维度提取结果dim、属性标签提取结果tag及其对应的概率值P_tag;
b)针对标签提取结果tag,计算其与维度dim下已有的标签词之间的编辑距离,从中选出最小编辑距离distmin及其对应的最相似标签tag_similar;
c)针对模型输出概率值P_tag和最小编辑距离distmin分别设置条件阈值threshold_p和threshold_dist,对于P_tag≥threshold_p并且distmin≤threshold_dist的结果,可以将标签提取结果tag直接作为新词添加到标签词库中;否则,对于未达到阈值的结果,通过后续的人工分析,判断是否有效并加入词库。
本申请实施例发明提供的面向海关监管场景的商品属性标签提取方法,能够显著提升商品属性标签提取的准确性,并很好地解决了现有方法中存在的海关场景文本语义理解不足、词库以外的新词识别困难等问题,实现了海关监管场景下大规模商品属性标签的提取和结构化处理。
具体地,相较于传统的商品标签提取方法主要依靠建立关键词库和正则匹配的方式,一方面缺少对文本语义的理解,另一方面对于词库以外的新词通常无法识别的缺陷。本申请实施例引入了自然语言理解的BERT预训练模型,并结合微调训练的方式,通过理解商品规格型号的语义特征来实现标签提取,从而很好地解决了传统方法中存在的问题。一方面BERT模型在众多自然语言处理任务中表现出了强大的语义理解能力,相比于传统的分词、正则匹配方法有显著的提升;另一方面由于海关场景中的商品规格型号文本与常见的文本语法结构之间有一定的差异,因此本发明算法中使用了海关商品规格型号语料库对BERT模型进行微调训练,使其能够更好地处理商品规格型号语义特征,从而进一步提高标签提取的精度。
在算法建模方面,本申请实施例在自然语言处理领域评价对象提取思路的基础上,针对性地融合了海关商品属性标签的特征与机器学习算法,创新性地构建词特征、词性特征、上下文特征、子句特征进行训练,并结合模糊匹配算法对新词进行识别,相比于传统的标签提取方法而言,对于标签的识别和提取能力有明显提升。
如图2所示,为本申请实施例提供的一种提取商品标签的系统的结构示意图,包括:
处理模块210,用于获取海关报关单中用于表示商品规格型号的文本数据,通过海关商品文本语义理解模型处理所述文本数据,得到向量形式的文本数据,所述海关商品文本语义理解模型是基于报关单商品规格型号文本语料库,对基于变换器的双向编码器表示BERT预训练模型进行微调训练得到的。
提取模块220,用于通过商品标签提取模型,对所述向量形式的文本数据进行特征处理和计算,输出标签预测结果,所述商品标签提取模型是通过设置双向长短期记忆LSTM网络和条件随机场的超参数,以及基于已有标签词库准备的训练数据进行模型训练得到的。
其中,标签预测结果包括商品属性维度、属性标签及其对应的概率值;
相应地,上述系统,还包括:
匹配模块,用于将所述属性标签与已有标签词库中位于所述商品属性维度下的标签词进行模糊匹配,确定所述商品属性维度下与所述属性标签之间的编辑距离最小的已有标签词;判断所述属性标签与所述已有标签词之间的编辑距离是否小于等于第一预设值,且所述属性标签的概率值是否大于等于第二预设值;若所述属性标签与所述已有标签词之间的编辑距离小于等于第一预设值,且所述属性标签的概率值大于等于第二预设值,则确定所述属性标签有效,并将所述属性标签添加到所述已有标签词库;若所述属性标签与所述已有标签词之间的编辑距离大于第一预设值,或所述属性标签的概率值小于第二预设值,则通过后续的人工分析,判断所述属性标签是否有效以及是否将所述属性标签添加到所述已有标签词库。
本实施例中,上述系统,还包括:
第一训练模块,用于收集并整理报关单商品规格型号文本语料库,对所述文本语料库进行数据清洗,并在同一类商品的文本语料库中进行随机抽取,通过子句拆分和重组的方式获取增强后的训练样本;设置BERT模型微调训练过程的超参数,所述超参数包括输入的文件路径、输出的文件路径、最大序列长度、训练轮数和学习率;读取BERT预训练模型以及所述增强后的训练样本,对所述BERT预训练模型进行微调训练,得到所述海关商品文本语义理解模型。
第二训练模块,用于基于历史积累的已有标签词库和关键词匹配方法,从原始数据中提取一部分标签作为样本,并通过同义词替换、子句拆分重组等方式进行数据增强,获取增强后的训练样本;设置损失函数以及双向LSTM网络和条件随机场的超参数,所述超参数包括输入序列长度、双向LSTM维数、随机失活比例、学习率、条件随机场学习率倍数和训练轮数;基于所述超参数和所述增强后的训练样本,进行模型训练,得到所述商品标签提取模型。
具体地,第二训练模块,具体用于结合双向LSTM和条件随机场算法,构造词特征、词性特征、上下文特征和子句特征,并基于标注样本进行训练,输出商品属性维度和属性标签;构建商品标签提取样本库,分别对商品属性维度和属性标签进行标注,对所述商品标签提取模型进行训练。
本申请实施例通过对BERT预训练模型进行微调训练得到海关商品文本语义理解模型,通过设置双向LSTM网络和条件随机场的超参数训练得到商品标签提取模型,并通过海关商品文本语义理解模型和商品标签提取模型处理海关报关单中用于表示商品规格型号的文本数据,能够显著提升商品属性标签提取的准确性,实现海关监管场景下大规模商品属性标签的提取和结构化处理。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述提取商品标签的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种提取商品标签的方法,其特征在于,包括以下步骤:
获取海关报关单中用于表示商品规格型号的文本数据,通过海关商品文本语义理解模型处理所述文本数据,得到向量形式的文本数据,所述海关商品文本语义理解模型是基于报关单商品规格型号文本语料库,对基于变换器的双向编码器表示BERT预训练模型进行微调训练得到的;
通过商品标签提取模型,对所述向量形式的文本数据进行特征处理和计算,输出标签预测结果,所述商品标签提取模型是通过设置双向长短期记忆LSTM网络和条件随机场的超参数,以及基于已有标签词库准备的训练数据进行模型训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述标签预测结果包括商品属性维度、属性标签及其对应的概率值;
所述输出标签预测结果之后,还包括:
将所述属性标签与已有标签词库中位于所述商品属性维度下的标签词进行模糊匹配,确定所述商品属性维度下与所述属性标签之间的编辑距离最小的已有标签词;
判断所述属性标签与所述已有标签词之间的编辑距离是否小于等于第一预设值,且所述属性标签的概率值是否大于等于第二预设值;
若所述属性标签与所述已有标签词之间的编辑距离小于等于第一预设值,且所述属性标签的概率值大于等于第二预设值,则确定所述属性标签有效,并将所述属性标签添加到所述已有标签词库;若所述属性标签与所述已有标签词之间的编辑距离大于第一预设值,或所述属性标签的概率值小于第二预设值,则通过后续的人工分析,判断所述属性标签是否有效以及是否将所述属性标签添加到所述已有标签词库。
3.根据权利要求1所述的方法,其特征在于,所述获取海关报关单中用于表示商品规格型号的文本数据之前,还包括:
收集并整理报关单商品规格型号文本语料库,对所述文本语料库进行数据清洗,并在同一类商品的文本语料库中进行随机抽取,通过子句拆分和重组的方式获取增强后的训练样本;
设置BERT模型微调训练过程的超参数,所述超参数包括输入的文件路径、输出的文件路径、最大序列长度、训练轮数和学习率;
读取BERT预训练模型以及所述增强后的训练样本,对所述BERT预训练模型进行微调训练,得到所述海关商品文本语义理解模型。
4.根据权利要求1所述的方法,其特征在于,所述获取海关报关单中用于表示商品规格型号的文本数据之前,还包括:
基于历史积累的已有标签词库和关键词匹配方法,从原始数据中提取一部分标签作为样本,并通过同义词替换、子句拆分重组等方式进行数据增强,获取增强后的训练样本;
设置损失函数以及双向LSTM网络和条件随机场的超参数,所述超参数包括输入序列长度、双向LSTM维数、随机失活比例、学习率、条件随机场学习率倍数和训练轮数;
基于所述超参数和所述增强后的训练样本,进行模型训练,得到所述商品标签提取模型。
5.根据权利要求4所述的方法,其特征在于,所述获取海关报关单中用于表示商品规格型号的文本数据之前,还包括:
结合双向LSTM和条件随机场算法,构造词特征、词性特征、上下文特征和子句特征,并基于标注样本进行训练,输出商品属性维度和属性标签;
构建商品标签提取样本库,分别对商品属性维度和属性标签进行标注,对所述商品标签提取模型进行训练。
6.一种提取商品标签的系统,其特征在于,包括:
处理模块,用于获取海关报关单中用于表示商品规格型号的文本数据,通过海关商品文本语义理解模型处理所述文本数据,得到向量形式的文本数据,所述海关商品文本语义理解模型是基于报关单商品规格型号文本语料库,对基于变换器的双向编码器表示BERT预训练模型进行微调训练得到的;
提取模块,用于通过商品标签提取模型,对所述向量形式的文本数据进行特征处理和计算,输出标签预测结果,所述商品标签提取模型是通过设置双向长短期记忆LSTM网络和条件随机场的超参数,以及基于已有标签词库准备的训练数据进行模型训练得到的。
7.根据权利要求6所述的系统,其特征在于,所述标签预测结果包括商品属性维度、属性标签及其对应的概率值;
所述系统,还包括:
匹配模块,用于将所述属性标签与已有标签词库中位于所述商品属性维度下的标签词进行模糊匹配,确定所述商品属性维度下与所述属性标签之间的编辑距离最小的已有标签词;判断所述属性标签与所述已有标签词之间的编辑距离是否小于等于第一预设值,且所述属性标签的概率值是否大于等于第二预设值;若所述属性标签与所述已有标签词之间的编辑距离小于等于第一预设值,且所述属性标签的概率值大于等于第二预设值,则确定所述属性标签有效,并将所述属性标签添加到所述已有标签词库;若所述属性标签与所述已有标签词之间的编辑距离大于第一预设值,或所述属性标签的概率值小于第二预设值,则通过后续的人工分析,判断所述属性标签是否有效以及是否将所述属性标签添加到所述已有标签词库。
8.根据权利要求6所述的系统,其特征在于,还包括:
第一训练模块,用于收集并整理报关单商品规格型号文本语料库,对所述文本语料库进行数据清洗,并在同一类商品的文本语料库中进行随机抽取,通过子句拆分和重组的方式获取增强后的训练样本;设置BERT模型微调训练过程的超参数,所述超参数包括输入的文件路径、输出的文件路径、最大序列长度、训练轮数和学习率;读取BERT预训练模型以及所述增强后的训练样本,对所述BERT预训练模型进行微调训练,得到所述海关商品文本语义理解模型。
9.根据权利要求6所述的系统,其特征在于,还包括:
第二训练模块,用于基于历史积累的已有标签词库和关键词匹配方法,从原始数据中提取一部分标签作为样本,并通过同义词替换、子句拆分重组等方式进行数据增强,获取增强后的训练样本;设置损失函数以及双向LSTM网络和条件随机场的超参数,所述超参数包括输入序列长度、双向LSTM维数、随机失活比例、学习率、条件随机场学习率倍数和训练轮数;基于所述超参数和所述增强后的训练样本,进行模型训练,得到所述商品标签提取模型。
10.根据权利要求9所述的系统,其特征在于,
所述第二训练模块,具体用于结合双向LSTM和条件随机场算法,构造词特征、词性特征、上下文特征和子句特征,并基于标注样本进行训练,输出商品属性维度和属性标签;构建商品标签提取样本库,分别对商品属性维度和属性标签进行标注,对所述商品标签提取模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205765.8A CN116187342A (zh) | 2023-03-03 | 2023-03-03 | 一种提取商品标签的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205765.8A CN116187342A (zh) | 2023-03-03 | 2023-03-03 | 一种提取商品标签的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116187342A true CN116187342A (zh) | 2023-05-30 |
Family
ID=86432616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310205765.8A Pending CN116187342A (zh) | 2023-03-03 | 2023-03-03 | 一种提取商品标签的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116187342A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738343A (zh) * | 2023-08-08 | 2023-09-12 | 云筑信息科技(成都)有限公司 | 建筑行业物料数据识别方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076718A (zh) * | 2021-04-09 | 2021-07-06 | 苏州爱语认知智能科技有限公司 | 一种商品属性抽取方法及其系统 |
CN113128227A (zh) * | 2020-01-14 | 2021-07-16 | 普天信息技术有限公司 | 实体抽取方法及装置 |
CN113705188A (zh) * | 2021-08-19 | 2021-11-26 | 大连大学 | 一种海关进出口商品规范申报智能评估的方法 |
CN114065751A (zh) * | 2020-08-07 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 申报要素抽取方法及装置和抽取模型生成方法及装置 |
CN114186013A (zh) * | 2021-12-15 | 2022-03-15 | 广州华多网络科技有限公司 | 实体识别模型热更新方法及其装置、设备、介质、产品 |
CN114997163A (zh) * | 2022-05-30 | 2022-09-02 | 北京沃东天骏信息技术有限公司 | 一种商品属性模型的确定方法和装置 |
-
2023
- 2023-03-03 CN CN202310205765.8A patent/CN116187342A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128227A (zh) * | 2020-01-14 | 2021-07-16 | 普天信息技术有限公司 | 实体抽取方法及装置 |
CN114065751A (zh) * | 2020-08-07 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 申报要素抽取方法及装置和抽取模型生成方法及装置 |
CN113076718A (zh) * | 2021-04-09 | 2021-07-06 | 苏州爱语认知智能科技有限公司 | 一种商品属性抽取方法及其系统 |
CN113705188A (zh) * | 2021-08-19 | 2021-11-26 | 大连大学 | 一种海关进出口商品规范申报智能评估的方法 |
CN114186013A (zh) * | 2021-12-15 | 2022-03-15 | 广州华多网络科技有限公司 | 实体识别模型热更新方法及其装置、设备、介质、产品 |
CN114997163A (zh) * | 2022-05-30 | 2022-09-02 | 北京沃东天骏信息技术有限公司 | 一种商品属性模型的确定方法和装置 |
Non-Patent Citations (3)
Title |
---|
XU, HUIMIN等: "Scaling up Open Tagging from Tens to Thousands: Comprehension Empowered Attribute Value Extraction from Product Title", PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, pages 5214 - 5223 * |
贺子康等: "基于BERT-BiLSTM-CRF 的农产品信息文本命名实体识别研究及应用展望", 农业展望, vol. 18, no. 5, pages 105 - 111 * |
陈竞翔等: "电商化采购系统中商品属性提取的智能化实践", 铁路采购与物流, vol. 18, no. 2, pages 29 - 33 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738343A (zh) * | 2023-08-08 | 2023-09-12 | 云筑信息科技(成都)有限公司 | 建筑行业物料数据识别方法、装置及电子设备 |
CN116738343B (zh) * | 2023-08-08 | 2023-10-20 | 云筑信息科技(成都)有限公司 | 建筑行业物料数据识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114610515B (zh) | 基于日志全语义的多特征日志异常检测方法及系统 | |
CN109635117B (zh) | 一种基于知识图谱识别用户意图方法及装置 | |
CN108733748B (zh) | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 | |
CN113535963B (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
CN109902179A (zh) | 基于自然语言处理的筛选电商垃圾评论的方法 | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN114495143B (zh) | 一种文本对象识别方法、装置、电子设备及存储介质 | |
CN116187342A (zh) | 一种提取商品标签的方法及系统 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN115344666A (zh) | 政策匹配方法、装置、设备与计算机可读存储介质 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN116028608A (zh) | 问答交互方法、装置、计算机设备及可读存储介质 | |
CN115878778A (zh) | 面向业务领域的自然语言理解方法 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
CN114490937A (zh) | 基于语义感知的评论分析方法及装置 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN114282875A (zh) | 流程审批确定性规则和语义自学习结合判定方法及装置 | |
CN114186565B (zh) | 一种it运维服务领域用户语义解析方法 | |
CN115952770A (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
US20220374708A1 (en) | System and method for content automated classification | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN115062615A (zh) | 一种金融领域事件抽取方法和装置 | |
CN111078947B (zh) | 基于xml的领域要素提取配置语言系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 717, Building D, Fudun Center, No. 58 East Third Ring South Road, Chaoyang District, Beijing, 100022 Applicant after: Beijing Qingmeng Shuhai Technology Co.,Ltd. Address before: 2517, block D, Futon center, No.58, South East Third Ring Road, Chaoyang District, Beijing 100022 Applicant before: Beijing Qingmeng Shuhai Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230530 |