CN115983270B - 一种电商商品属性智能抽取方法 - Google Patents

一种电商商品属性智能抽取方法 Download PDF

Info

Publication number
CN115983270B
CN115983270B CN202211535942.0A CN202211535942A CN115983270B CN 115983270 B CN115983270 B CN 115983270B CN 202211535942 A CN202211535942 A CN 202211535942A CN 115983270 B CN115983270 B CN 115983270B
Authority
CN
China
Prior art keywords
information
entity
tag
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211535942.0A
Other languages
English (en)
Other versions
CN115983270A (zh
Inventor
王进
靳从建
唐鑫
刘彬
孙开伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Yami Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yami Technology Guangzhou Co ltd filed Critical Yami Technology Guangzhou Co ltd
Priority to CN202211535942.0A priority Critical patent/CN115983270B/zh
Publication of CN115983270A publication Critical patent/CN115983270A/zh
Application granted granted Critical
Publication of CN115983270B publication Critical patent/CN115983270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理领域,特别是涉及一种电商商品属性智能抽取方法,所述方法包括:原始文本信息与标签Query信息分别编码;融合原始文本信息与标签Query信息编码结果;采用指针网络枚举实体片段;引入动态实体片段图整合全局信息,本发明通过增强机器阅读理解MRC方法引入先验信息增强模型类别识别能力,动态实体片段图提高模型实体片段识别能力,从而提高实体识别能力。

Description

一种电商商品属性智能抽取方法
技术领域
本发明涉及自然语言处理领域,特别是涉及基于一种电商商品属性智能抽取方法。
背景技术
电子商务的发展是互联网社会时代的产物,电子商务的发展成为社会新浪潮的一个助推器,为互联网的发展推动了巨大的一步。而电子商务中商品是重中之重,商品标题包含了商品的大量关键信息,商品标题实体识别是自然语言处理NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。
传统的机器阅读理解MRC方式,直接将原始文本信息和实体类别标签Query信息进行拼接,利用自我注意力机制隐式的将标签Query信息融合到文本表示中。传统中文实体识别方法范式是通过文本编码器对文本进行编码,然后通过标签解码器进行标签解码。
现有方法中,标签Query信息会被文本信息分散,而不是完全集中在标签Query信息部分,导致标签知识并没有被充分地利用来增强文本表征,且同一样本需要根据Query不同多次进行编码,从而导致训练效率低下,传统机器阅读理解MRC方式面临计算成本高和标签信息利用不充分的问题。
发明内容
为了解决上述问题,本发明提出一种电商商品属性智能抽取方法,利用实体类别信息帮助模型确定实体类型,利用动态实体片段图确定实体边界解决实体嵌套问题,从而提升模型性能,包括以下步骤:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
103、融合文本编码信息和标签编码信息,得到融合标签Query信息;
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
进一步的,所述步骤102对每一类实体类别标签构造一个Query,对原始文本信息使用BERT编码器进行独立编码,得到文本编码信息,对标签Query信息使用BERT编码器进行独立编码得到标签编码信息。
进一步的,所述步骤103包括:
a)将文本编码信息和标签编码信息映射到同一同特征空间;
b)使用注意力机制计算权重;
c)融合文本编码信息和标签编码信息。
进一步的,所述将文本编码信息和标签编码信息映射到同一同特征空间:
h'X=W1hX (1)
h'Y=W2hY (2)
其中W1,W2∈Rd×d是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息。
进一步的,所述使用注意力机制计算相关性权重:
其中分别表示经过特征映射后的原始文本信息第i个字符编码和标签Query信息第j个字符编码,c表示实体类别,/>表示文本编码信息和标签编码信息相关性权重。
进一步的,所述融合文本编码信息和标签编码信息:
其中表示融合标签Query信息,c表示实体类别,V,b是可训练参数,tanh()是激活函数。
进一步的,所述步骤105引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中:
采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为BC,定义第t次迭代中的共指可信矩阵其中K为考虑的父节点数量的最大值,则更新向量/> 表示更新向量,bc代表图节点,/>是实体片段的向量表示,其中/> 是通过/>拼接计算得到的标量分值。
进一步的,所述动态实体片段图:
得到更新向量之后,使用门机制更新实体片段的向量空间表示,定义了一个门向量来权衡对先前实体片段的向量空间表示/>的保留以及对共指关系的更新向量/>新信息的引入计算如下:
其中是可训练参数,其中d表示字向量维度,sigmod()是激活函数,表示更新向量,/>表示对先前实体片段的向量空间表示的权重。
本发明使用文本编码器和标签Query编码器对原始文本信息和标签Query信息分别编码,并融合原始文本信息与标签Query信息,解决了标签Query信息会被文本信息分散,同一样本需要根据Query不同多次进行编码的问题,改善了传统机器阅读理解MRC方式面临计算成本高和标签信息利用不充分的问题。引入了动态实体片段图,提高了模型实体片段识别能力,从而提高实体识别能力。
附图说明
图1是本发明实施例提供的流程图;
图2是本发明实施例提供的融合流程图;
图3是本发明实施例提供的算法整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明解决上述技术问题的技术方案是:
参考图1,图1为本发明实施例提供电商商品属性智能抽取方法的流程图,具体包括:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
参考图3本发明实施例提供的算法整体流程图,记输入原始文本信息X=(x1,x2,,...xn)∈Rn×d,标签Query信息Y∈RN×m×d,对每一类实体类别标签构造一个Query,对原始文本信息X使用BERT编码器进行独立编码,得到文本编码信息hX=f1(X),对标签Query信息Y使用BERT编码器进行独立编码得到标签编码信息hY=f1'(Y),其中d表示字向量维度,m表示实体类别数,n表示原始文本信息的字符数,N表示标签Query信息的字符数。
103、参考图2本发明实施例提供的融合流程图,融合文本编码信息和标签编码信息,得到融合标签Query信息;
a)将文本编码信息和标签编码信息映射到同一同特征空间:
h'X=W1hX (1)
h'Y=W2hY (2)
其中W1,W2∈Rd×d是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息;
b)使用注意力机制计算相关性权重:
其中分别表示经过特征映射后的原始文本信息第i个字符编码和标签Query信息第j个字符编码,c表示实体类别,/>表示文本编码信息和标签编码信息相关性权重;
c)融合文本编码信息和标签编码信息:
其中表示融合标签Query信息,c表示实体类别,V,b是可训练参数,tanh()是激活函数。
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;
步骤一:对于每一个实体类别分别设置头指针、尾指针用于确定当前字符是否为实体片段开始和结尾,并对所有头指针为1的匹配尾指针为1的实体片段,头指针和尾指针计算公式如下:
其中Ws,We∈RN×d,bs,be∈Rd是可训练参数,fs,fe表示对输入按行求和,d表示字向量维度,N表示标签Query信息的字符数。
步骤二:对于每个实体片段的局部向量表示通过显示加入标签Query信息的和/>丰富实体片段的类别信息,加入实体片段长度特征的嵌入,即对每个实体片段的初始表示/>其中elength()表示长度的向量映射表。
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
1)引入跨句实体软共指链接构造图:
采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为BC,定义第t次迭代中的共指可信矩阵其中K为考虑的父节点数量的最大值,则更新向量/> 表示更新向量,bc代表图节点,/>是实体片段的向量表示,其中/> 是通过/>拼接计算得到的标量分值。
2)使用门机制更新实体片段的向量空间表示
得到更新向量之后,使用门机制更新实体片段的向量空间表示,定义了一个门向量来权衡对先前实体片段的向量空间表示/>的保留以及对共指关系的更新向量/>新信息的引入计算如下:
其中是可训练参数,其中d表示字向量维度,sigmod()是激活函数,表示更新向量,/>表示对先前实体片段的向量空间表示的权重。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种电商商品属性智能抽取方法,其特征在于包括以下步骤:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
103、融合文本编码信息和标签编码信息,得到融合标签Query信息;
所述步骤103包括:
a)将文本编码信息和标签编码信息映射到同一同特征空间;
b)使用注意力机制计算权重;
c)融合文本编码信息和标签编码信息;
所述融合文本编码信息和标签编码信息:
其中表示融合标签Query信息,c表示实体类别,V,b是可训练参数,tanh()是激活函数;
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;包括:
步骤一:对于每一个实体类别分别设置头指针、尾指针,并对所有头指针为1的匹配尾指针为1的实体片段,
步骤二:对每个实体片段的向量空间表示加入标签Query信息和/>并根据头指针和尾指针嵌入实体片段的长度特征elength(end-start),则每个实体片段的初始向量表示/>其中/>表示融入了实体类别k的标签Query信息的实体片段的第1个字符编码;
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
2.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述步骤102对每一类实体类别标签构造一个Query,对原始文本信息使用BERT编码器进行独立编码,得到文本编码信息,对标签Query信息使用BERT编码器进行独立编码得到标签编码信息。
3.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述将文本编码信息和标签编码信息映射到同一同特征空间:
h'X=W1hX (4)
h'Y=W2hY (5)
其中W1,W2∈Rd×d是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息。
4.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述使用注意力机制计算相关性权重:
其中分别表示经过特征映射后的原始文本信息第i个字符编码和标签Query信息第j个字符编码,c表示实体类别,/>表示文本编码信息和标签编码信息相关性权重。
5.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述步骤105引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中:
采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为BC,定义第t次迭代中的共指可信矩阵其中K为考虑的父节点数量的最大值,则更新向量/> 表示更新向量,bc代表图节点,/>是实体片段的向量表示,其中/> 是通过/>拼接计算得到的标量分值。
6.根据权利要求5所述的一种电商商品属性智能抽取方法,其特征在于,所述动态实体片段图:
得到更新向量之后,使用门机制更新实体片段的向量空间表示,定义一个门向量来权衡对先前实体片段的向量空间表示/>的保留以及对共指关系的更新向量/>新信息的引入计算如下:
其中是可训练参数,其中d表示字向量维度,sigmod()是激活函数,/>表示更新向量,/>表示对先前实体片段的向量空间表示的权重。
CN202211535942.0A 2022-12-02 2022-12-02 一种电商商品属性智能抽取方法 Active CN115983270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211535942.0A CN115983270B (zh) 2022-12-02 2022-12-02 一种电商商品属性智能抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211535942.0A CN115983270B (zh) 2022-12-02 2022-12-02 一种电商商品属性智能抽取方法

Publications (2)

Publication Number Publication Date
CN115983270A CN115983270A (zh) 2023-04-18
CN115983270B true CN115983270B (zh) 2024-05-03

Family

ID=85972901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211535942.0A Active CN115983270B (zh) 2022-12-02 2022-12-02 一种电商商品属性智能抽取方法

Country Status (1)

Country Link
CN (1) CN115983270B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191125A (zh) * 2019-12-24 2020-05-22 长威信息科技发展股份有限公司 一种基于标签化的数据分析方法
CN113836934A (zh) * 2021-08-05 2021-12-24 合肥工业大学 基于标签信息增强的文本分类方法和系统
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114186056A (zh) * 2021-12-14 2022-03-15 广州华多网络科技有限公司 商品标签标注方法及其装置、设备、介质、产品
CN114398480A (zh) * 2021-11-26 2022-04-26 重庆邮电大学 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN114764913A (zh) * 2022-05-19 2022-07-19 昆明理工大学 融入标签信息的案情要素识别方法
CN114841122A (zh) * 2022-01-25 2022-08-02 电子科技大学 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端
CN114925693A (zh) * 2022-01-05 2022-08-19 华能贵诚信托有限公司 一种基于多模型融合的多元关系抽取方法和抽取系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284497B (zh) * 2017-07-20 2021-01-12 京东方科技集团股份有限公司 用于识别自然语言的医疗文本中的医疗实体的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191125A (zh) * 2019-12-24 2020-05-22 长威信息科技发展股份有限公司 一种基于标签化的数据分析方法
CN113836934A (zh) * 2021-08-05 2021-12-24 合肥工业大学 基于标签信息增强的文本分类方法和系统
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114398480A (zh) * 2021-11-26 2022-04-26 重庆邮电大学 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN114186056A (zh) * 2021-12-14 2022-03-15 广州华多网络科技有限公司 商品标签标注方法及其装置、设备、介质、产品
CN114925693A (zh) * 2022-01-05 2022-08-19 华能贵诚信托有限公司 一种基于多模型融合的多元关系抽取方法和抽取系统
CN114841122A (zh) * 2022-01-25 2022-08-02 电子科技大学 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端
CN114764913A (zh) * 2022-05-19 2022-07-19 昆明理工大学 融入标签信息的案情要素识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A General Framework for Information Extraction using Dynamic Span Graphs;Yi Luan et.al;《arXiv:1904.03296v1》;第1-11页 *

Also Published As

Publication number Publication date
CN115983270A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109062893B (zh) 一种基于全文注意力机制的商品名称识别方法
US8190556B2 (en) Intellegent data search engine
CN111538835B (zh) 一种基于知识图谱的社交媒体情感分类方法与装置
US20100223214A1 (en) Automatic extraction using machine learning based robust structural extractors
WO2023151314A1 (zh) 基于预训练语言模型的蛋白质构象感知表示学习方法
CN112711660A (zh) 文本分类样本的构建方法和文本分类模型的训练方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114254110A (zh) 用于确定文本数据的标签的方法和设备
CN116151132A (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN114742016B (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
CN112667940A (zh) 基于深度学习的网页正文抽取方法
CN116304120A (zh) 多媒体检索方法、装置、计算设备和存储介质
CN112732862B (zh) 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN117709866A (zh) 一种标书生成方法及系统、计算机可读存储介质
CN115859121B (zh) 文本处理模型训练方法及装置
CN115983270B (zh) 一种电商商品属性智能抽取方法
CN115408506B (zh) 联合语义解析和语义成分匹配的nl2sql的方法
CN113836950B (zh) 商品标题文本翻译方法及其装置、设备与介质
CN115906855A (zh) 一种字词信息融合的中文地址命名实体识别方法及装置
CN115953217A (zh) 商品评分推荐方法及其装置、设备、介质、产品
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN111310459B (zh) 机器学习组件的训练方法及装置、中文分词方法及装置
CN114022233A (zh) 一种新型的商品推荐方法
CN113806536A (zh) 文本分类方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240108

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant