CN115983270A - 一种电商商品属性智能抽取方法 - Google Patents

一种电商商品属性智能抽取方法 Download PDF

Info

Publication number
CN115983270A
CN115983270A CN202211535942.0A CN202211535942A CN115983270A CN 115983270 A CN115983270 A CN 115983270A CN 202211535942 A CN202211535942 A CN 202211535942A CN 115983270 A CN115983270 A CN 115983270A
Authority
CN
China
Prior art keywords
information
entity
label
text
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211535942.0A
Other languages
English (en)
Other versions
CN115983270B (zh
Inventor
王进
靳从建
唐鑫
刘彬
孙开伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211535942.0A priority Critical patent/CN115983270B/zh
Publication of CN115983270A publication Critical patent/CN115983270A/zh
Application granted granted Critical
Publication of CN115983270B publication Critical patent/CN115983270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理领域,特别是涉及一种电商商品属性智能抽取方法,所述方法包括:原始文本信息与标签Query信息分别编码;融合原始文本信息与标签Query信息编码结果;采用指针网络枚举实体片段;引入动态实体片段图整合全局信息,本发明通过增强机器阅读理解MRC方法引入先验信息增强模型类别识别能力,动态实体片段图提高模型实体片段识别能力,从而提高实体识别能力。

Description

一种电商商品属性智能抽取方法
技术领域
本发明涉及自然语言处理领域,特别是涉及基于一种电商商品属性智能抽取方法。
背景技术
电子商务的发展是互联网社会时代的产物,电子商务的发展成为社会新浪潮的一个助推器,为互联网的发展推动了巨大的一步。而电子商务中商品是重中之重,商品标题包含了商品的大量关键信息,商品标题实体识别是自然语言处理NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。
传统的机器阅读理解MRC方式,直接将原始文本信息和实体类别标签Query信息进行拼接,利用自我注意力机制隐式的将标签Query信息融合到文本表示中。传统中文实体识别方法范式是通过文本编码器对文本进行编码,然后通过标签解码器进行标签解码。
现有方法中,标签Query信息会被文本信息分散,而不是完全集中在标签Query信息部分,导致标签知识并没有被充分地利用来增强文本表征,且同一样本需要根据Query不同多次进行编码,从而导致训练效率低下,传统机器阅读理解MRC方式面临计算成本高和标签信息利用不充分的问题。
发明内容
为了解决上述问题,本发明提出一种电商商品属性智能抽取方法,利用实体类别信息帮助模型确定实体类型,利用动态实体片段图确定实体边界解决实体嵌套问题,从而提升模型性能,包括以下步骤:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
103、融合文本编码信息和标签编码信息,得到融合标签Query信息;
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
进一步的,所述步骤102对每一类实体类别标签构造一个Query,对原始文本信息使用BERT编码器进行独立编码,得到文本编码信息,对标签Query信息使用BERT编码器进行独立编码得到标签编码信息。
进一步的,所述步骤103包括:
a)将文本编码信息和标签编码信息映射到同一同特征空间;
b)使用注意力机制计算权重;
c)融合文本编码信息和标签编码信息。
进一步的,所述将文本编码信息和标签编码信息映射到同一同特征空间:
h'X=W1hX (1)
h'Y=W2hY (2)
其中W1,W2∈Rd×d是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息。
进一步的,所述使用注意力机制计算相关性权重:
Figure BDA0003977646800000031
其中
Figure BDA0003977646800000032
分别表示经过特征映射后的原始文本信息第i个字符编码和标签Query信息第j个字符编码,c表示实体类别,
Figure BDA0003977646800000033
表示文本编码信息和标签编码信息相关性权重。
进一步的,所述融合文本编码信息和标签编码信息:
Figure BDA0003977646800000034
Figure BDA0003977646800000035
Figure BDA0003977646800000036
其中
Figure BDA0003977646800000037
表示融合标签Query信息,c表示实体类别,V,b是可训练参数,tanh()是激活函数。
进一步的,所述步骤105引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中:
采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为BC,定义第t次迭代中的共指可信矩阵
Figure BDA0003977646800000038
其中K为考虑的父节点数量的最大值,则更新向量
Figure BDA0003977646800000039
Figure BDA00039776468000000310
表示更新向量,bc代表图节点,
Figure BDA00039776468000000311
是实体片段的向量表示,其中
Figure BDA00039776468000000312
Figure BDA00039776468000000313
是通过
Figure BDA00039776468000000314
拼接计算得到的标量分值。
进一步的,所述动态实体片段图:
得到更新向量
Figure BDA00039776468000000315
之后,使用门机制更新实体片段的向量空间表示,定义了一个门向量来权衡对先前实体片段的向量空间表示
Figure BDA0003977646800000041
的保留以及对共指关系的更新向量
Figure BDA0003977646800000042
新信息的引入计算如下:
Figure BDA0003977646800000043
Figure BDA0003977646800000044
其中
Figure BDA0003977646800000045
是可训练参数,其中d表示字向量维度,sigmod()是激活函数,
Figure BDA0003977646800000046
表示更新向量,
Figure BDA0003977646800000047
表示对先前实体片段的向量空间表示的权重。
本发明使用文本编码器和标签Query编码器对原始文本信息和标签Query信息分别编码,并融合原始文本信息与标签Query信息,解决了标签Query信息会被文本信息分散,同一样本需要根据Query不同多次进行编码的问题,改善了传统机器阅读理解MRC方式面临计算成本高和标签信息利用不充分的问题。引入了动态实体片段图,提高了模型实体片段识别能力,从而提高实体识别能力。
附图说明
图1是本发明实施例提供的流程图;
图2是本发明实施例提供的融合流程图;
图3是本发明实施例提供的算法整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明解决上述技术问题的技术方案是:
参考图1,图1为本发明实施例提供电商商品属性智能抽取方法的流程图,具体包括:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
参考图3本发明实施例提供的算法整体流程图,记输入原始文本信息X=(x1,x2,,...xn)∈Rn×d,标签Query信息Y∈RN×m×d,对每一类实体类别标签构造一个Query,对原始文本信息X使用BERT编码器进行独立编码,得到文本编码信息hX=f1(X),对标签Query信息Y使用BERT编码器进行独立编码得到标签编码信息hY=f1'(Y),其中d表示字向量维度,m表示实体类别数,n表示原始文本信息的字符数,N表示标签Query信息的字符数。
103、参考图2本发明实施例提供的融合流程图,融合文本编码信息和标签编码信息,得到融合标签Query信息;
a)将文本编码信息和标签编码信息映射到同一同特征空间:
h'X=W1hX (1)
h'Y=W2hY (2)
其中W1,W2∈Rd×d是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息;
b)使用注意力机制计算相关性权重:
Figure BDA0003977646800000051
其中
Figure BDA0003977646800000052
分别表示经过特征映射后的原始文本信息第i个字符编码和标签Query信息第j个字符编码,c表示实体类别,
Figure BDA0003977646800000053
表示文本编码信息和标签编码信息相关性权重;
c)融合文本编码信息和标签编码信息:
Figure BDA0003977646800000061
Figure BDA0003977646800000062
Figure BDA0003977646800000063
其中
Figure BDA0003977646800000064
表示融合标签Query信息,c表示实体类别,V,b是可训练参数,tanh()是激活函数。
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;
步骤一:对于每一个实体类别分别设置头指针、尾指针用于确定当前字符是否为实体片段开始和结尾,并对所有头指针为1的匹配尾指针为1的实体片段,头指针和尾指针计算公式如下:
Figure BDA0003977646800000065
Figure BDA0003977646800000066
其中Ws,We∈RN×d,bs,be∈Rd是可训练参数,fs,fe表示对输入按行求和,d表示字向量维度,N表示标签Query信息的字符数。
步骤二:对于每个实体片段的局部向量表示通过显示加入标签Query信息的
Figure BDA0003977646800000067
Figure BDA0003977646800000068
丰富实体片段的类别信息,加入实体片段长度特征的嵌入,即对每个实体片段的初始表示
Figure BDA0003977646800000069
其中elength()表示长度的向量映射表。
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
1)引入跨句实体软共指链接构造图:
采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为BC,定义第t次迭代中的共指可信矩阵
Figure BDA0003977646800000071
其中K为考虑的父节点数量的最大值,则更新向量
Figure BDA0003977646800000072
Figure BDA0003977646800000073
表示更新向量,bc代表图节点,
Figure BDA0003977646800000074
是实体片段的向量表示,其中
Figure BDA0003977646800000075
Figure BDA0003977646800000076
是通过
Figure BDA0003977646800000077
拼接计算得到的标量分值。
2)使用门机制更新实体片段的向量空间表示
得到更新向量
Figure BDA0003977646800000078
之后,使用门机制更新实体片段的向量空间表示,定义了一个门向量来权衡对先前实体片段的向量空间表示
Figure BDA0003977646800000079
的保留以及对共指关系的更新向量
Figure BDA00039776468000000710
新信息的引入计算如下:
Figure BDA00039776468000000711
Figure BDA00039776468000000712
其中
Figure BDA00039776468000000713
是可训练参数,其中d表示字向量维度,sigmod()是激活函数,
Figure BDA00039776468000000714
表示更新向量,
Figure BDA00039776468000000715
表示对先前实体片段的向量空间表示的权重。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种电商商品属性智能抽取方法,其特征在于包括以下步骤:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
103、融合文本编码信息和标签编码信息,得到融合标签Query信息;
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
2.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述步骤102对每一类实体类别标签构造一个Query,对原始文本信息使用BERT编码器进行独立编码,得到文本编码信息,对标签Query信息使用BERT编码器进行独立编码得到标签编码信息。
3.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述步骤103包括:
a)将文本编码信息和标签编码信息映射到同一同特征空间;
b)使用注意力机制计算权重;
c)融合文本编码信息和标签编码信息。
4.根据权利要求3所述的一种电商商品属性智能抽取方法,其特征在于,所述将文本编码信息和标签编码信息映射到同一同特征空间:
h'X=W1hX(1)
h'Y=W2hY(2)
其中W1,W2∈Rd×d是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息。
5.根据权利要求3所述的一种电商商品属性智能抽取方法,其特征在于,所述使用注意力机制计算相关性权重:
Figure FDA0003977646790000021
其中
Figure FDA0003977646790000022
分别表示经过特征映射后的原始文本信息第i个字符编码和标签Query信息第j个字符编码,c表示实体类别,
Figure FDA0003977646790000023
表示文本编码信息和标签编码信息相关性权重。
6.根据权利要求3所述的一种电商商品属性智能抽取方法,其特征在于,所述融合文本编码信息和标签编码信息:
Figure FDA0003977646790000024
Figure FDA0003977646790000025
Figure FDA0003977646790000026
其中
Figure FDA0003977646790000027
表示融合标签Query信息,c表示实体类别,V,b是可训练参数,tanh()是激活函数。
7.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述步骤105引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中:
采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为BC,定义第t次迭代中的共指可信矩阵
Figure FDA0003977646790000028
其中K为考虑的父节点数量的最大值,则更新向量
Figure FDA0003977646790000029
Figure FDA00039776467900000210
表示更新向量,bc代表图节点,
Figure FDA00039776467900000211
是实体片段的向量表示,其中
Figure FDA00039776467900000212
Figure FDA0003977646790000031
是通过
Figure FDA0003977646790000032
拼接计算得到的标量分值。
8.根据权利要求7所述的一种电商商品属性智能抽取方法,其特征在于,所述动态实体片段图:
得到更新向量
Figure FDA0003977646790000033
之后,使用门机制更新实体片段的向量空间表示,定义一个门向量来权衡对先前实体片段的向量空间表示
Figure FDA0003977646790000034
的保留以及对共指关系的更新向量
Figure FDA0003977646790000035
新信息的引入计算如下:
Figure FDA0003977646790000036
Figure FDA0003977646790000037
其中
Figure FDA0003977646790000038
是可训练参数,其中d表示字向量维度,sigmod()是激活函数,
Figure FDA0003977646790000039
表示更新向量,
Figure FDA00039776467900000310
表示对先前实体片段的向量空间表示的权重。
CN202211535942.0A 2022-12-02 2022-12-02 一种电商商品属性智能抽取方法 Active CN115983270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211535942.0A CN115983270B (zh) 2022-12-02 2022-12-02 一种电商商品属性智能抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211535942.0A CN115983270B (zh) 2022-12-02 2022-12-02 一种电商商品属性智能抽取方法

Publications (2)

Publication Number Publication Date
CN115983270A true CN115983270A (zh) 2023-04-18
CN115983270B CN115983270B (zh) 2024-05-03

Family

ID=85972901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211535942.0A Active CN115983270B (zh) 2022-12-02 2022-12-02 一种电商商品属性智能抽取方法

Country Status (1)

Country Link
CN (1) CN115983270B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191125A (zh) * 2019-12-24 2020-05-22 长威信息科技发展股份有限公司 一种基于标签化的数据分析方法
US20210342539A1 (en) * 2017-07-20 2021-11-04 Boe Technology Group Co., Ltd. Method and apparatus for recognizing medical entity in medical text
CN113836934A (zh) * 2021-08-05 2021-12-24 合肥工业大学 基于标签信息增强的文本分类方法和系统
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114186056A (zh) * 2021-12-14 2022-03-15 广州华多网络科技有限公司 商品标签标注方法及其装置、设备、介质、产品
CN114398480A (zh) * 2021-11-26 2022-04-26 重庆邮电大学 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN114764913A (zh) * 2022-05-19 2022-07-19 昆明理工大学 融入标签信息的案情要素识别方法
CN114841122A (zh) * 2022-01-25 2022-08-02 电子科技大学 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端
CN114925693A (zh) * 2022-01-05 2022-08-19 华能贵诚信托有限公司 一种基于多模型融合的多元关系抽取方法和抽取系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210342539A1 (en) * 2017-07-20 2021-11-04 Boe Technology Group Co., Ltd. Method and apparatus for recognizing medical entity in medical text
CN111191125A (zh) * 2019-12-24 2020-05-22 长威信息科技发展股份有限公司 一种基于标签化的数据分析方法
CN113836934A (zh) * 2021-08-05 2021-12-24 合肥工业大学 基于标签信息增强的文本分类方法和系统
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114398480A (zh) * 2021-11-26 2022-04-26 重庆邮电大学 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN114186056A (zh) * 2021-12-14 2022-03-15 广州华多网络科技有限公司 商品标签标注方法及其装置、设备、介质、产品
CN114925693A (zh) * 2022-01-05 2022-08-19 华能贵诚信托有限公司 一种基于多模型融合的多元关系抽取方法和抽取系统
CN114841122A (zh) * 2022-01-25 2022-08-02 电子科技大学 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端
CN114764913A (zh) * 2022-05-19 2022-07-19 昆明理工大学 融入标签信息的案情要素识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YI LUAN ET.AL: "A General Framework for Information Extraction using Dynamic Span Graphs", 《ARXIV:1904.03296V1》, pages 1 - 11 *

Also Published As

Publication number Publication date
CN115983270B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
US11501182B2 (en) Method and apparatus for generating model
CN109062893B (zh) 一种基于全文注意力机制的商品名称识别方法
WO2023151314A1 (zh) 基于预训练语言模型的蛋白质构象感知表示学习方法
CN111538835A (zh) 一种基于知识图谱的社交媒体情感分类方法与装置
CN114547298B (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN116151132B (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114648031B (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN117291265B (zh) 一种基于文本大数据的知识图谱构建方法
CN114742016B (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN111143534A (zh) 基于人工智能的品牌名的提取方法、装置及存储介质
CN113609857A (zh) 基于级联模型和数据增强的法律命名实体识别方法及系统
CN117807232A (zh) 商品分类方法、商品分类模型构建方法及装置
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN113836950B (zh) 商品标题文本翻译方法及其装置、设备与介质
CN118260464A (zh) 一种提取网页中感兴趣文本的方法和装置
CN113312498B (zh) 用无向图嵌入知识图谱的文本信息抽取方法
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN117407615A (zh) 一种基于强化学习的Web信息抽取方法及系统
CN115859121B (zh) 文本处理模型训练方法及装置
CN115408506B (zh) 联合语义解析和语义成分匹配的nl2sql的方法
CN114330350B (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN115983270B (zh) 一种电商商品属性智能抽取方法
CN115953217A (zh) 商品评分推荐方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240108

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant