CN115983270A - 一种电商商品属性智能抽取方法 - Google Patents
一种电商商品属性智能抽取方法 Download PDFInfo
- Publication number
- CN115983270A CN115983270A CN202211535942.0A CN202211535942A CN115983270A CN 115983270 A CN115983270 A CN 115983270A CN 202211535942 A CN202211535942 A CN 202211535942A CN 115983270 A CN115983270 A CN 115983270A
- Authority
- CN
- China
- Prior art keywords
- information
- entity
- label
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 17
- 239000012634 fragment Substances 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims description 48
- 230000004927 fusion Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000013138 pruning Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000007787 solid Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理领域,特别是涉及一种电商商品属性智能抽取方法,所述方法包括:原始文本信息与标签Query信息分别编码;融合原始文本信息与标签Query信息编码结果;采用指针网络枚举实体片段;引入动态实体片段图整合全局信息,本发明通过增强机器阅读理解MRC方法引入先验信息增强模型类别识别能力,动态实体片段图提高模型实体片段识别能力,从而提高实体识别能力。
Description
技术领域
本发明涉及自然语言处理领域,特别是涉及基于一种电商商品属性智能抽取方法。
背景技术
电子商务的发展是互联网社会时代的产物,电子商务的发展成为社会新浪潮的一个助推器,为互联网的发展推动了巨大的一步。而电子商务中商品是重中之重,商品标题包含了商品的大量关键信息,商品标题实体识别是自然语言处理NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。
传统的机器阅读理解MRC方式,直接将原始文本信息和实体类别标签Query信息进行拼接,利用自我注意力机制隐式的将标签Query信息融合到文本表示中。传统中文实体识别方法范式是通过文本编码器对文本进行编码,然后通过标签解码器进行标签解码。
现有方法中,标签Query信息会被文本信息分散,而不是完全集中在标签Query信息部分,导致标签知识并没有被充分地利用来增强文本表征,且同一样本需要根据Query不同多次进行编码,从而导致训练效率低下,传统机器阅读理解MRC方式面临计算成本高和标签信息利用不充分的问题。
发明内容
为了解决上述问题,本发明提出一种电商商品属性智能抽取方法,利用实体类别信息帮助模型确定实体类型,利用动态实体片段图确定实体边界解决实体嵌套问题,从而提升模型性能,包括以下步骤:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
103、融合文本编码信息和标签编码信息,得到融合标签Query信息;
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
进一步的,所述步骤102对每一类实体类别标签构造一个Query,对原始文本信息使用BERT编码器进行独立编码,得到文本编码信息,对标签Query信息使用BERT编码器进行独立编码得到标签编码信息。
进一步的,所述步骤103包括:
a)将文本编码信息和标签编码信息映射到同一同特征空间;
b)使用注意力机制计算权重;
c)融合文本编码信息和标签编码信息。
进一步的,所述将文本编码信息和标签编码信息映射到同一同特征空间:
h'X=W1hX (1)
h'Y=W2hY (2)
其中W1,W2∈Rd×d是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息。
进一步的,所述使用注意力机制计算相关性权重:
进一步的,所述融合文本编码信息和标签编码信息:
进一步的,所述步骤105引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中:
采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为BC,定义第t次迭代中的共指可信矩阵其中K为考虑的父节点数量的最大值,则更新向量 表示更新向量,bc代表图节点,是实体片段的向量表示,其中 是通过拼接计算得到的标量分值。
进一步的,所述动态实体片段图:
本发明使用文本编码器和标签Query编码器对原始文本信息和标签Query信息分别编码,并融合原始文本信息与标签Query信息,解决了标签Query信息会被文本信息分散,同一样本需要根据Query不同多次进行编码的问题,改善了传统机器阅读理解MRC方式面临计算成本高和标签信息利用不充分的问题。引入了动态实体片段图,提高了模型实体片段识别能力,从而提高实体识别能力。
附图说明
图1是本发明实施例提供的流程图;
图2是本发明实施例提供的融合流程图;
图3是本发明实施例提供的算法整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明解决上述技术问题的技术方案是:
参考图1,图1为本发明实施例提供电商商品属性智能抽取方法的流程图,具体包括:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
参考图3本发明实施例提供的算法整体流程图,记输入原始文本信息X=(x1,x2,,...xn)∈Rn×d,标签Query信息Y∈RN×m×d,对每一类实体类别标签构造一个Query,对原始文本信息X使用BERT编码器进行独立编码,得到文本编码信息hX=f1(X),对标签Query信息Y使用BERT编码器进行独立编码得到标签编码信息hY=f1'(Y),其中d表示字向量维度,m表示实体类别数,n表示原始文本信息的字符数,N表示标签Query信息的字符数。
103、参考图2本发明实施例提供的融合流程图,融合文本编码信息和标签编码信息,得到融合标签Query信息;
a)将文本编码信息和标签编码信息映射到同一同特征空间:
h'X=W1hX (1)
h'Y=W2hY (2)
其中W1,W2∈Rd×d是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息;
b)使用注意力机制计算相关性权重:
c)融合文本编码信息和标签编码信息:
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;
步骤一:对于每一个实体类别分别设置头指针、尾指针用于确定当前字符是否为实体片段开始和结尾,并对所有头指针为1的匹配尾指针为1的实体片段,头指针和尾指针计算公式如下:
其中Ws,We∈RN×d,bs,be∈Rd是可训练参数,fs,fe表示对输入按行求和,d表示字向量维度,N表示标签Query信息的字符数。
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
1)引入跨句实体软共指链接构造图:
采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为BC,定义第t次迭代中的共指可信矩阵其中K为考虑的父节点数量的最大值,则更新向量 表示更新向量,bc代表图节点,是实体片段的向量表示,其中 是通过拼接计算得到的标量分值。
2)使用门机制更新实体片段的向量空间表示
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (8)
1.一种电商商品属性智能抽取方法,其特征在于包括以下步骤:
101、获取原始文本信息,设置标签Query信息;
102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;
103、融合文本编码信息和标签编码信息,得到融合标签Query信息;
104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;
105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。
2.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述步骤102对每一类实体类别标签构造一个Query,对原始文本信息使用BERT编码器进行独立编码,得到文本编码信息,对标签Query信息使用BERT编码器进行独立编码得到标签编码信息。
3.根据权利要求1所述的一种电商商品属性智能抽取方法,其特征在于,所述步骤103包括:
a)将文本编码信息和标签编码信息映射到同一同特征空间;
b)使用注意力机制计算权重;
c)融合文本编码信息和标签编码信息。
4.根据权利要求3所述的一种电商商品属性智能抽取方法,其特征在于,所述将文本编码信息和标签编码信息映射到同一同特征空间:
h'X=W1hX(1)
h'Y=W2hY(2)
其中W1,W2∈Rd×d是可训练参数,其中d表示字向量维度,hX,hY分别表示文本编码信息和标签编码信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211535942.0A CN115983270B (zh) | 2022-12-02 | 2022-12-02 | 一种电商商品属性智能抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211535942.0A CN115983270B (zh) | 2022-12-02 | 2022-12-02 | 一种电商商品属性智能抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115983270A true CN115983270A (zh) | 2023-04-18 |
CN115983270B CN115983270B (zh) | 2024-05-03 |
Family
ID=85972901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211535942.0A Active CN115983270B (zh) | 2022-12-02 | 2022-12-02 | 一种电商商品属性智能抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115983270B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191125A (zh) * | 2019-12-24 | 2020-05-22 | 长威信息科技发展股份有限公司 | 一种基于标签化的数据分析方法 |
US20210342539A1 (en) * | 2017-07-20 | 2021-11-04 | Boe Technology Group Co., Ltd. | Method and apparatus for recognizing medical entity in medical text |
CN113836934A (zh) * | 2021-08-05 | 2021-12-24 | 合肥工业大学 | 基于标签信息增强的文本分类方法和系统 |
CN113987187A (zh) * | 2021-11-09 | 2022-01-28 | 重庆大学 | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 |
CN114186056A (zh) * | 2021-12-14 | 2022-03-15 | 广州华多网络科技有限公司 | 商品标签标注方法及其装置、设备、介质、产品 |
CN114398480A (zh) * | 2021-11-26 | 2022-04-26 | 重庆邮电大学 | 基于关键信息抽取的金融舆情细分方面检测方法和设备 |
CN114764913A (zh) * | 2022-05-19 | 2022-07-19 | 昆明理工大学 | 融入标签信息的案情要素识别方法 |
CN114841122A (zh) * | 2022-01-25 | 2022-08-02 | 电子科技大学 | 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端 |
CN114925693A (zh) * | 2022-01-05 | 2022-08-19 | 华能贵诚信托有限公司 | 一种基于多模型融合的多元关系抽取方法和抽取系统 |
-
2022
- 2022-12-02 CN CN202211535942.0A patent/CN115983270B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210342539A1 (en) * | 2017-07-20 | 2021-11-04 | Boe Technology Group Co., Ltd. | Method and apparatus for recognizing medical entity in medical text |
CN111191125A (zh) * | 2019-12-24 | 2020-05-22 | 长威信息科技发展股份有限公司 | 一种基于标签化的数据分析方法 |
CN113836934A (zh) * | 2021-08-05 | 2021-12-24 | 合肥工业大学 | 基于标签信息增强的文本分类方法和系统 |
CN113987187A (zh) * | 2021-11-09 | 2022-01-28 | 重庆大学 | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 |
CN114398480A (zh) * | 2021-11-26 | 2022-04-26 | 重庆邮电大学 | 基于关键信息抽取的金融舆情细分方面检测方法和设备 |
CN114186056A (zh) * | 2021-12-14 | 2022-03-15 | 广州华多网络科技有限公司 | 商品标签标注方法及其装置、设备、介质、产品 |
CN114925693A (zh) * | 2022-01-05 | 2022-08-19 | 华能贵诚信托有限公司 | 一种基于多模型融合的多元关系抽取方法和抽取系统 |
CN114841122A (zh) * | 2022-01-25 | 2022-08-02 | 电子科技大学 | 一种联合实体识别与关系抽取的文本抽取方法、存储介质及终端 |
CN114764913A (zh) * | 2022-05-19 | 2022-07-19 | 昆明理工大学 | 融入标签信息的案情要素识别方法 |
Non-Patent Citations (1)
Title |
---|
YI LUAN ET.AL: "A General Framework for Information Extraction using Dynamic Span Graphs", 《ARXIV:1904.03296V1》, pages 1 - 11 * |
Also Published As
Publication number | Publication date |
---|---|
CN115983270B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN109062893B (zh) | 一种基于全文注意力机制的商品名称识别方法 | |
WO2023151314A1 (zh) | 基于预训练语言模型的蛋白质构象感知表示学习方法 | |
CN111538835A (zh) | 一种基于知识图谱的社交媒体情感分类方法与装置 | |
CN114547298B (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN116151132B (zh) | 一种编程学习场景的智能代码补全方法、系统及储存介质 | |
CN115438674B (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN114648031B (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN117291265B (zh) | 一种基于文本大数据的知识图谱构建方法 | |
CN114742016B (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN111143534A (zh) | 基于人工智能的品牌名的提取方法、装置及存储介质 | |
CN113609857A (zh) | 基于级联模型和数据增强的法律命名实体识别方法及系统 | |
CN117807232A (zh) | 商品分类方法、商品分类模型构建方法及装置 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN113836950B (zh) | 商品标题文本翻译方法及其装置、设备与介质 | |
CN118260464A (zh) | 一种提取网页中感兴趣文本的方法和装置 | |
CN113312498B (zh) | 用无向图嵌入知识图谱的文本信息抽取方法 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN117407615A (zh) | 一种基于强化学习的Web信息抽取方法及系统 | |
CN115859121B (zh) | 文本处理模型训练方法及装置 | |
CN115408506B (zh) | 联合语义解析和语义成分匹配的nl2sql的方法 | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN115983270B (zh) | 一种电商商品属性智能抽取方法 | |
CN115953217A (zh) | 商品评分推荐方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240108 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Applicant after: Yami Technology (Guangzhou) Co.,Ltd. Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |