CN113076718B - 一种商品属性抽取方法及其系统 - Google Patents

一种商品属性抽取方法及其系统 Download PDF

Info

Publication number
CN113076718B
CN113076718B CN202110384685.4A CN202110384685A CN113076718B CN 113076718 B CN113076718 B CN 113076718B CN 202110384685 A CN202110384685 A CN 202110384685A CN 113076718 B CN113076718 B CN 113076718B
Authority
CN
China
Prior art keywords
attribute
labeling
label
attention mechanism
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110384685.4A
Other languages
English (en)
Other versions
CN113076718A (zh
Inventor
马进
陈文亮
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Original Assignee
Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Aiyu Cognitive Intelligent Technology Co ltd filed Critical Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Priority to CN202110384685.4A priority Critical patent/CN113076718B/zh
Publication of CN113076718A publication Critical patent/CN113076718A/zh
Application granted granted Critical
Publication of CN113076718B publication Critical patent/CN113076718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种商品属性抽取方法及其系统,包括:采用远程监督的方法获得训练集;通过self‑training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料;建立属性抽取模型,使用BERT‑bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果;对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果;使用局部标注CRF方法对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型。其可以提取任意属性,实现大规模属性抽取,具有很好的扩展性。

Description

一种商品属性抽取方法及其系统
技术领域
本发明涉及自然语言处理技术领域,尤其是指一种商品属性抽取方法及其系统。
背景技术
属性抽取是指给定一个商品及其属性列表,从文本句子中抽取出该商品的各个属性值。属性抽取的应用非常广泛。一方面,属性抽取是构建知识图谱的关键子任务,可以用于知识图谱的补全和纠错。另一方面,可以用来挖掘人们感兴趣的商品相关属性,例如商品的厂家、制造日期、规格等等。
属性抽取任务由来已久,然而目前并没有一个标准的公开数据集供研究者进行实验研究。工作者一般都是立足于任务本身,从无到有构建数据集。朱臻等人从七个网站上获得总计2400条、涵盖4种属性关系的藏语语料进行藏语人物属性抽取。张巧等从美国十所大学页面上获取810张、包含9种属性的导师主页构建了英文语料库用于主页人物属性抽取。张丙奇等人从企业网页上获取企业的基本信息,构建了涵盖8个属性的小规模企业信息抽取技术中文数据集。Angeli基于众包构建了一些干净、高质量的标注数据。这些数据集都存在不足的地方,首先,这些数据不够统一,很难重复利用。其次,构建数据集的过程不仅繁琐耗时,而且往往会耗费大量人力物力成本。另外,这些数据并没有开源,研究者无法用这些数据进行更深一步的对比研究。
目前关于属性抽取的任务研究主要集中在算法方面,主要有基于规则和基于机器学习的方法。Hearst为了寻找下义词的关系,构造了一系列的模式。该方法虽然可以完成属性抽取的任务且能够保证准确率,但是模式难以构造,维护非常困难,而且构造的模式大多是与领域相关,移植难度大。由于这些缺陷,有人提出自举的方法,即半监督的方法。该方法在有一些实例和模式的情况下,迭代地生成新的实例和模式。Brin等人1998年用这种方法提出DIRPE系统用于抽取作家与出版书籍之间关系。
基于机器学习的方法分为有监督和无监督的方法。Kambhatla使用了词法和句法两类特征,这两种特征是分别从句法解析树和语法依赖树当中提取的。GuoDong等人在Kambhatla的基础上,深入细化使用单词和句法信息,加上词组、WordNet和名字列表等信息。Lodhi等人提出字符串核函数(String Kernels)的概念,这种思想也很快被应用到有监督的属性抽取任务上。Hasegawa等人首先提出无监督的方法,Chen等人针对Hasegawa的方法中存在的问题,提出了新的方法。该方法不需要手动标注关系实例及定义聚类个数,可以避免提取各个类别的标签,从而不会造成对类别信息的偏移。Huang提出一种不同的方法,该方法使用基于神经网络的独立图作为输入并伴以两种注意力机制,能够更好捕捉到指示性信息。Rajani也尝试组合来自多个系统的结果来确定属性类型。
现有的属性抽取方法主要有基于规则的方法和传统机器学习的方法。基于规则的方法首先要手工构造模式,然后利用这些模式去匹配大量文本,匹配到的结果即该人物的属性值。基于传统机器学习的方法一般使用有监督的学习策略,但是该方法需要大规模的标注语料。近几年来,深度学习的方法在自然语言处理的各个任务上已经证明有效,如机器翻译、情感分析、关系抽取等。循环神经网络(RecurrentNeuralNetwork,RNN)及长短期记忆网络(Long Short-TermMemory,LSTM)和门控网络(Gated RecurrentUnit,GRU)在序列标注建模上有突出表现。
现有的属性抽取方法,目前存在以下技术缺陷:目前的属性抽取方法,处理少部分属性比较合适,随着属性增多,效果急剧下降。如果随着时间推移,需要新增属性,那么必须重新训练模型,这会带来如下问题:其一、需要大量计算资源去训练;其二、需要时间去等待训练结束,一般数据量很大;其三、往往伴随多轮实验,因为新入新的属性可能会对已有属性结果有影响,需要再从头到尾去评估调整模型和数据。
发明内容
为此,本发明所要解决的技术问题在于提供一种商品属性抽取方法及其系统,其可以提取任意属性,实现大规模属性抽取,具有很好的扩展性。
为解决上述技术问题,本发明提供了一种商品属性抽取方法,包括以下步骤:
采用远程监督的方法获得训练集;
通过self-training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料;
建立属性抽取模型,使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果;
对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果;
使用局部标注CRF方法对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型;
使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果。
作为优选的,所述BERT-bilstm中BERT的网络架构为多层Transformer结构,所述多层Transformer结构通过Attention机制将任意位置的两个单词的距离转换成1。
作为优选的,所述BERT-bilstm包括预训练模式,所述预训练模式包括:
采用双层双向Transformer模型通过MLM和NSP两种策略进行预训练;
将Fine-Tuning的模式应用到下游任务。
作为优选的,所述使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果,包括:
获取BERT的输入的编码向量,所述BERT的输入的编码向量为WordPiece嵌入、位置嵌入和分割嵌入的单位和;
使用LSTM网络将所述BERT的输入的编码向量转化为隐层表示输出。
作为优选的,所述对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果,包括:
根据属性的编码结果Query和当前位置的字的编码结果Key_i,计算两者的相似性或者相关性,其中,i为当前位置的字的下标;
通过SoftMax的内在机制突出重要元素的权重以进行归一化操作,权重
Figure BDA0003014329120000041
其中,Lx为句子x的长度,simi代表属性与i位置的字向量的关联度;
进行加权求和获得Attention数值,其中,
Figure BDA0003014329120000042
Figure BDA0003014329120000043
其中,Vi为i位置的字向量的中间表示。
作为优选的,所述使用CRF对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型,包括:
定义预测标签序列Y=(Y1,Y2,…,Yn)的得分Score(x,y),
Figure BDA0003014329120000044
其中,A是转移得分矩阵,Ai,j代表从标签i转移到标签j的得分,y0和yn分别是标签序列中的起始和结束标签;
获取基于所有可能的标签集合Yx下的条件概率P(y|x):
Figure BDA0003014329120000051
其中,X=(X1,X2,…,Xn)为输入序列,其中,score(C,YL)的计算方式如下:
Figure BDA0003014329120000052
其中YL为所有正确序列的集合,对转移得分矩阵A进行训练,最大化正确标签序列的对数似然概率。
作为优选的,所述使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果,包括:
选取满足
Figure BDA0003014329120000053
作为最佳预测标签序列,获得只含有BIO标签的结果序列。
作为优选的,所述通过self-training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料,包括:
将远程监督方法中没有匹配到实体的标签设为不确定标签;
在不确定标签中选择一些词性的词,将其标注为O,其中O为非实体标签;
基于已经标注O的词,指导标注其它不确定标签;
不断迭代地对训练集重新标注,获得修正后的属性标注语料。
作为优选的,在不确定标签中选择一些词性的词,包括:
在不确定标签中选择标点、副词、代词、连词、介词、叹词、拟声词和助词中的一种或多种。
本发明还公开了一种基于无监督的商品属性抽取系统,包括:
数据预处理模块,所述数据预处理模块采用远程监督的方法获得训练集,通过self-training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料;
编码模块,所述编码模块使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果;
注意力机制变换模块,所述注意力机制变换模块对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果;
训练优化模块,所述训练优化模块使用CRF对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型;
测试模块,所述测试模块使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果。
本发明的上述技术方案相比现有技术具有以下优点:
1、本发明首先利用远程监督的方法,得到大规模多类别的有标注预料数据,免去了人工标注的繁琐流程;然后在该数据基础上使用局部标注结合self-training的方法,利用已标注的数据指导不确定标签的修正,得到质量更好的一份标注数据;然后利用bert强大的融合句法和语义的能力,对属性和对子分别编码,然后使用attention方法,在句子找出合适属性对应的句子的编码方式;再经过局部标注CRF方法解码得到只含有当前属性的BIO序列结果。通过这种方法解决大规模属性抽取问题,具有很好的扩展性。
2、本发明提供了属性抽取的一个新思路,对源文本与属性序列分别编码处理。基于attention捕捉不同属性与源文本的对应关系。通过这种设计,使模型对属性值与属性都不再具有限制,可以提取任意属性。
3、本发明将属性之间也视为序列进行序列化的encoding,这样可能可以捕捉属性之间的关系(比如,属性中包括颜色和风格),同时反映出待提取源文本的一些信息(比如,属性中包含口味,可能是食品类。属性中包含功率,是电器类)。
4、本发明适用多属性操作,效果好。
5、本发明为了缓解远程监督的漏标问题,使用局部标注结合self-training的方法,利用远程监督方法中已经标注的实体,对不确定实体结果进行修正,从已标注实体中学习实体体征,对漏标实体进行再次迭代标注,得到比远程监督数据质量更好的局部标注数据。
附图说明
图1为本发明中self-training结合局部标注的方法对训练集进行重新标注的示意图,其中,(a)是一轮迭代的过程,(b)是迭代过程中标签更新的一个例子;
图2为迭代示意图;
图3为本发明中属性抽取框架图,其中,图3(a)为第一阶段示意图;图3(b)为第二阶段示意图;
图4为本发明中为远程监督方法示例;
图5为BERT的两阶段示意图;
图6为BERT的输入表示。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1-图6所示,本发明公开了一种商品属性抽取方法,包括以下步骤:
步骤一、采用远程监督的方法获得多类别的属性标注语料,该属性标注语料为大规模、多类别的。
为了从文本中抽取出属性,通常需要大量的标注数据,然而这些数据资源却十分稀少。为了解决这个问题,本发明采用远程监督的方法得到大规模、多类别的属性标注语料,从而免去了人工标注的繁琐流程。具体例子如图4所示。
步骤二、通过self-training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料,包括:
S21、将远程监督方法中没有匹配到实体的标签设为不确定标签;
S22、在不确定标签中选择一些词性的词,将其标注为O,选择的词为标点、副词、代词、连词、介词、叹词、拟声词和助词中的一种或多种;其中,O为非实体标签;
S23、基于已经标注O的词,指导标注其它不确定标签;
S24、不断迭代地对训练集重新标注,获得修正后的属性标注语料。
具体的,使用self-training结合局部标注的方法,对步骤一中产生的数据进行修正。本发明在属性抽取任务上融入自学习的方法,并通过迭代的方式,不断从已知标签中进行学习,利用训练出的模型,从标签未知的token中寻找非实体token,将其标签标记为O,从而降低数据中未知标签的比例。迭代一轮过程的示意图如图1所示。图1(a)是一轮迭代的过程,图1(b)是迭代过程中标签更新的一个例子。
自学习方法的主要流程如下。首先,我们对训练集进行初始化标注,利用实体词典标注类别为属性值的token,利用常用词词典标注一部分类别为非属性值的token,其余token暂时标记为未知标签,即在训练中,计算loss时不考虑未知标签。经过初始化后,开始进行迭代,在迭代的过程中,每一轮利用当前的训练集训练出一个模型,再用这个模型对训练集中的未知标签进行预测,从中找出非实体的字,将其标记为“O”标签,另外,当原本是有标签实体,被预测成“O”标签时,我们会将其标为“UNK”。理想情况下,经过多轮迭代,模型可以在类别未知的token中准确发现很多类别为非属性值的token,并将它们的标签改为“O”,提高数据集中已知标签的比例。我们利用dev上的结果来监督整个迭代过程,从中选取最优模型。最终,得到一份包含较多确定标签的有标注数据。
步骤三、建立属性抽取模型,使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果。
所述BERT-bilstm中BERT的网络架构为多层Transformer结构,所述多层Transformer结构通过Attention机制将任意位置的两个单词的距离转换成1,有效的解决了NLP中棘手的长期依赖问题。
所述BERT-bilstm包括预训练模式,BERT采用跟GPT一样的“Fine-TuningApproaches”预训练模式,分两个阶段:采用双层双向Transformer模型通过MLM和NSP两种策略进行预训练;将Fine-Tuning的模式应用到下游任务。BERT吸收了Word2Vec、ELMo、GPT模型的优点:“完形填空”的学习模式迫使模型更多依赖上下文信息预测单词,赋予了模型一定的纠错能力;Transformer模型相比LSTM模型没有长度限制问题,具备更好的能力捕获上下文信息特征;相比单向训练模式,双向训练模型捕获上下文信息会更加全面。图5是它两阶段的模型架构。
获取BERT的输入的编码向量,所述BERT的输入的编码向量(长度是512)为WordPiece嵌入、位置嵌入和分割嵌入的单位和。
1)WordPiece嵌入:WordPiece是指将单词划分成一组有限的公共子词单元,能在单词的有效性和字符的灵活性之间取得一个折中的平衡。
2)位置嵌入(Position Embedding):位置嵌入是指将单词的位置信息编码成特征向量,位置嵌入是向模型中引入单词位置关系的至关重要的一环。
3)分割嵌入(Segment Embedding):用于区分两个句子,例如B是否是A的下文(对话场景,问答场景等)。
对于句子对,第一个句子的特征值是0,第二个句子的特征值是1。图6中的两个特殊符号[CLS]和[SEP],其中[CLS]表示该特征用于分类模型,对非分类模型,该符合可以省去。[SEP]表示分句符号,用于断开输入语料中的两个句子。
在得到bert的输入表示后,本发明使用LSTM网络将其转化为隐层表示输出。长短期记忆网络(LSTM)模型是一种特殊的递归神经网络,可以有效解决训练过程中梯度消失和梯度爆炸的问题,并且能够处理输入信息间的序列信息。模型的输入有三个:当前时刻的输入值Xt、上一时刻隐藏层输出值Ht-1、以及上一时刻的单元状态Ct-1。模型内部有三个控制开关,一个称为输入门It,在这个阶段决定保留多少Xt到Ct;一个称为遗忘门Ft,在这个阶段主要是对上一个节点传进来的输入进行选择性的遗忘。其主要结构如下:
It=σ(Xt·Wxi+Ht-1·Whi+bi)
Ft=σ(Xt·Wxf+Ht-1·Whf+bf)
Ot=σ(Xt·Wxo+Ht-1·Who+bo)
Figure BDA0003014329120000101
Figure BDA0003014329120000102
Ht=Ot⊙tanh(Ct)
隐层的最终表示
Figure BDA0003014329120000103
其中
Figure BDA0003014329120000104
由LSTM对于一段输入时间序列从左至右进行计算得到,
Figure BDA0003014329120000105
是从右至左进行计算得到。
步骤四、对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果,包括:
根据属性的编码结果Query和当前位置的字的编码结果Key_i,计算两者的相似性或者相关性,其中,i为当前位置的字的下标;
通过SoftMax的内在机制突出重要元素的权重以进行归一化操作,权重
Figure BDA0003014329120000111
其中,Lx为句子x的长度,simi代表属性与i位置的字向量的关联度;
进行加权求和获得Attention数值,其中,
Figure BDA0003014329120000112
Figure BDA0003014329120000113
其中,Vi为i位置的字向量的中间表示。
具体的,Attention机制的实质其实就是一个寻址(addressing)的过程,给定一个和任务相关的查询Query向量q,通过计算与Key的注意力分布并附加在Value上,从而计算AttentionValue,这个过程实际上是Attention机制缓解神经网络模型复杂度的体现:不需要将所有的N个输入信息都输入到神经网络进行计算,只需要从X中选择一些和任务相关的信息输入给神经网络。具体的数学形式如下:
Figure BDA0003014329120000114
注意力机制主要体现在simsilarity系数上,其反映对于一次查询当前资源中不同数据的重要程度,通过softmax等形式计算出该系数;实现聚焦重要数据,忽略不相关数据的注意力作用。计算过程分为三个阶段:
根据Query和某个Key_i,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量Cosine相似性或者通过再引入额外的神经网络来求值。
进行归一化操作,可以通过SoftMax的内在机制更加突出重要元素的权重。即一般采用如下公式计算:
Figure BDA0003014329120000121
进行加权求和即可得到Attention数值:如下
Figure BDA0003014329120000122
步骤五、使用CRF对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型,包括:
对于输入序列X=(X1,X2,…,Xn),经过这三层的计算后可以得到维数为n×m的分值矩阵P,矩阵中的某一个元素Pi,j代表第i个输入状态标注为第j个标签的得分;
定义预测标签序列Y=(Y1,Y2,…,Yn)的得分Score(x,y),
Figure BDA0003014329120000123
其中,A是转移得分矩阵,Ai,j代表从标签i转移到标签j的得分,y0和yn分别是标签序列中的起始和结束标签;
获取基于所有可能的标签集合Yx下的条件概率P(y|x):
Figure BDA0003014329120000124
其中,X=(X1,X2,…,Xn)为输入序列,score(C,YL)的计算方式如下:
Figure BDA0003014329120000125
其中YL为所有正确序列的集合,对转移得分矩阵A进行训练,最大化正确标签序列的对数似然概率。
步骤六、使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果,包括:
选取满足
Figure BDA0003014329120000131
作为最佳预测标签序列,获得只含有BIO标签的结果序列。
本发明使用两阶段的训练策略,第一阶段使用自训练结合局部标注的方法,到一份包含较多确定标签的有标签数据。这份数据相比于远程监督出来的数据要更加准确。
在第二阶段,利用第一阶段的修正数据,将其作为输入,放到融合了局部标注方法的阅读理解模型中进行训练,得到最终的实验结果。第二阶段具体做法是,对句子和属性分别进行encoding,encoder的基本组成均为BERT-BiLSTM。将属性集合中的各个属性对应的编码与句子的编码进行attention计算,之后经过局部标注CRF层输出标签,注意,这里输出的标签只有三种:{B,I,O},对每一个属性进行以上操作后,根据输出结果的标签,即可提取出对应的属性值,属性值没有数量限制,可能输出多个值,也可能没有对应值(即所有标签均为O)。
本发明还公开了一种基于无监督的商品属性抽取系统,其与上述基于无监督的商品属性抽取系统对应。本发明中的基于无监督的商品属性抽取系统包括数据预处理模块、编码模块、注意力机制变换模块、训练优化模块和测试模块。
所述数据预处理模块采用远程监督的方法获得训练集,通过self-training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料。
所述编码模块使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果。
所述注意力机制变换模块对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果。
所述训练优化模块使用局部标注CRF对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型。
所述测试模块使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种商品属性抽取方法,其特征在于,包括以下步骤:
采用远程监督的方法获得训练集;
通过self-training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料,包括:将远程监督方法中没有匹配到实体的标签设为不确定标签;在不确定标签中选择词性的词,将其标注为O,其中O为非实体标签;基于已经标注O的词,指导标注其它不确定标签;不断迭代地对训练集重新标注,获得修正后的属性标注语料;
建立属性抽取模型,使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果;
对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果;
使用局部标注CRF方法对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型;
使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果。
2.根据权利要求1所述的商品属性抽取方法,其特征在于,所述BERT-bilstm包括预训练模式,所述预训练模式包括:
采用双层双向Transformer模型通过MLM和NSP两种策略进行预训练;
将Fine-Tuning的模式应用到下游任务。
3.根据权利要求1所述的商品属性抽取方法,其特征在于,所述使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果,包括:
获取BERT的输入的编码向量,所述BERT的输入的编码向量为WordPiece嵌入、位置嵌入和分割嵌入的单位和;
使用LSTM网络将所述BERT的输入的编码向量转化为隐层表示输出。
4.根据权利要求1所述的商品属性抽取方法,其特征在于,所述对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果,包括:
根据属性的编码结果Query和当前位置的字的编码结果Key_i,计算两者的相似性或者相关性,其中,i为当前位置的字的下标;
通过SoftMax的内在机制突出重要元素的权重以进行归一化操作,权重
Figure FDA0003489285770000021
其中,Lx为句子x的长度,simi代表属性与i位置的字向量的关联度;
进行加权求和获得Attention数值,其中,
Figure FDA0003489285770000022
Figure FDA0003489285770000023
其中,Vi为i位置的字向量的中间表示。
5.根据权利要求1所述的商品属性抽取方法,其特征在于,所述使用局部标注CRF对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型,包括:
定义预测标签序列Y=(Y1,Y2,...,Yn)的得分Score(x,y),
Figure FDA0003489285770000024
其中,A是转移得分矩阵,Ai,j代表从标签i转移到标签j的得分,y0和yn分别是标签序列中的起始和结束标签;
获取基于所有可能的标签集合Yx下的条件概率P(y|x):
Figure FDA0003489285770000031
其中,X=(X1,X2,...,Xn)为输入序列,score(C,YL)的计算方式如下:
Figure FDA0003489285770000032
其中,YL为所有正确序列的集合,对转移得分矩阵A进行训练,最大化正确标签序列的对数似然概率。
6.根据权利要求1所述的商品属性抽取方法,其特征在于,所述使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果,包括:
选取满足
Figure FDA0003489285770000033
作为最佳预测标签序列,获得只含有BIO标签的结果序列。
7.根据权利要求1所述的商品属性抽取方法,其特征在于,在不确定标签中选择一些词性的词,包括:
在不确定标签中选择标点、副词、代词、连词、介词、叹词、拟声词和助词中的一种或多种。
8.一种商品属性抽取系统,其特征在于,包括:
数据预处理模块,所述数据预处理模块采用远程监督的方法获得训练集,通过self-training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料,包括:将远程监督方法中没有匹配到实体的标签设为不确定标签;在不确定标签中选择词性的词,将其标注为O,其中O为非实体标签;基于已经标注O的词,指导标注其它不确定标签;不断迭代地对训练集重新标注,获得修正后的属性标注语料;
编码模块,所述编码模块基于属性抽取模型,使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果;
注意力机制变换模块,所述注意力机制变换模块对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果;
训练优化模块,所述训练优化模块使用局部标注CRF方法对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型;
测试模块,所述测试模块使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果。
CN202110384685.4A 2021-04-09 2021-04-09 一种商品属性抽取方法及其系统 Active CN113076718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110384685.4A CN113076718B (zh) 2021-04-09 2021-04-09 一种商品属性抽取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110384685.4A CN113076718B (zh) 2021-04-09 2021-04-09 一种商品属性抽取方法及其系统

Publications (2)

Publication Number Publication Date
CN113076718A CN113076718A (zh) 2021-07-06
CN113076718B true CN113076718B (zh) 2022-03-11

Family

ID=76615784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110384685.4A Active CN113076718B (zh) 2021-04-09 2021-04-09 一种商品属性抽取方法及其系统

Country Status (1)

Country Link
CN (1) CN113076718B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114169966B (zh) * 2021-12-08 2022-08-05 海南港航控股有限公司 一种用张量提取货物订单元数据的方法及系统
CN116187342A (zh) * 2023-03-03 2023-05-30 北京青萌数海科技有限公司 一种提取商品标签的方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035975B (zh) * 2014-05-23 2017-07-25 华东师范大学 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN108416058B (zh) * 2018-03-22 2020-10-09 北京理工大学 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN109614614B (zh) * 2018-12-03 2021-04-02 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN110287334B (zh) * 2019-06-13 2023-12-01 淮阴工学院 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法
CN111414476A (zh) * 2020-03-06 2020-07-14 哈尔滨工业大学 一种基于多任务学习的属性级情感分析方法
CN111666762B (zh) * 2020-05-20 2023-06-20 东华大学 一种基于多任务学习的肠癌诊断电子病历属性值抽取方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Scaling Up Open Tagging from Tens to Thousands: Comprehension Empowered Attribute Value Extraction from Product Title;Huimin Xu;《The 57th Annual Meeting of the Association for Computational Linguistics》;20190802;第5214-5218页 *
基于远程监督的人物属性抽取研究;马进 等;《中文信息学报》;20200630;第34卷(第6期);全文 *
用半监督算法做文本分类(自训练);炼己者;《https://www.cnblogs.com/lookfor404/p/9692669.html》;20180923;第1-3页 *

Also Published As

Publication number Publication date
CN113076718A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN111611810B (zh) 一种多音字读音消歧装置及方法
Gasmi et al. LSTM recurrent neural networks for cybersecurity named entity recognition
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
Liu et al. A hybrid deep-learning approach for complex biochemical named entity recognition
CN111243699A (zh) 基于字词信息融合的中文电子病历实体抽取方法
CN111753058B (zh) 一种文本观点挖掘方法及系统
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN113076718B (zh) 一种商品属性抽取方法及其系统
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
Szarvas et al. A highly accurate Named Entity corpus for Hungarian
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
Han et al. A survey of unsupervised dependency parsing
Du et al. Named entity recognition method with word position
Tiwari et al. Next word prediction using deep learning
Che et al. Fast and effective biomedical named entity recognition using temporal convolutional network with conditional random field
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
Xin et al. Automatic annotation of text classification data set in specific field using named entity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant