CN115935994B - 一种智能识别电商标题方法 - Google Patents
一种智能识别电商标题方法 Download PDFInfo
- Publication number
- CN115935994B CN115935994B CN202211589747.6A CN202211589747A CN115935994B CN 115935994 B CN115935994 B CN 115935994B CN 202211589747 A CN202211589747 A CN 202211589747A CN 115935994 B CN115935994 B CN 115935994B
- Authority
- CN
- China
- Prior art keywords
- word
- information
- matrix
- entity
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理的命名实体识别领域,特别涉及一种智能识别电商标题方法,所述方法包括:收集电商数据样本,对数据进行标注;送入自注意力模型,得到词向量;使用掩码自注意力机制分别提取正向信息和反向信息;头指针与尾指针匹配时融入相对位置向量信息,得到预测的实体片段,本发明引入辅助学习任务,让实体边界更加清晰;采用掩码自注意力机制表达正向和反向的信息,保证前后信息不会被泄露;头指针与尾指针匹配融入相对位置向量,提升相邻位置的语义表达。
Description
技术领域
本发明属于自然语言处理的命名实体识别领域,特别涉及一种智能识别电商标题方法。
背景技术
电商作为一种主流的购物手段,已经逐渐占领了生活中的方方面面。电商既是消费者的消费途径,也是商家的获利渠道。
如何将商品准确的推荐给消费者,让消费者在挑选商品上花费更少的时间,同时促进他们的购买欲望,这是电商领域一致在优化的问题。消费者搜索商品的场景可以转换为query与商品标签的匹配,如何将复杂冗余的电商标题转化为完整独立的标签,成为了一个重点。
如果对电商标题进行命名实体识别任务,很容易发现电商标题存在实体嵌套的问题,普通的命名实体识别任务通常是做平面实体的识别,但为了适应电商这种充满不规则自然语言的领域,应该提出可适应更强的方案来解决嵌套命名实体的识别。同时电商领域的数据丰富,模型应该具有更优秀的训练时长表现。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种智能识别电商标题方法,该方法包括:获取待识别的电商标题样本,将样本输入到电商实体提取模型,得到预测实体,对电商实体提取模型进行训练的过程包括:
S1:对收集到的电商数据样本进行处理,按照实体片段的头尾边界位置对数据进行标注;
S2:将样本映射为词嵌入形式,并送入引入辅助学习任务训练的自注意力模型,得到词向量;
S3:对词向量使用掩码自注意力机制提取正向信息作为头指针,提取反向信息作为尾指针;
S4:头指针与尾指针匹配时融入相对位置向量信息,得到预测的实体片段;
S5:迭代训练电商实体提取模型,保存模型参数。
进一步的,步骤S2所述的自注意力模型,引入辅助学习任务的训练过程包括:
步骤S21:将样本映射为词嵌入形式,并送入自注意力模型;
步骤S22:根据当前字符与附近字符的词向量相似度进行计算损失值;
步骤S23:根据损失值进行梯度反传,更新模型里的参数,进行模型训练。
进一步的,所述当前字符与附近字符的词向量相似度计算包括:
选任一字符作为模板词w,与模板词位置相近的字符作为参考词序列[w1,w2,...,wi,...],将模板词与参考词序列做计算,计算规则如下:
loss=∑lossi
其中y表示模板词是否为实体边界的预测值,Yi表示参考词是否为实体边界的实际值,lossi表示模板词w与参考词wi之间的损失值,loss表示模板词与参考词序列中所有词的损失lossi的总和,表示两个词做余弦相似度计算。
进一步的,所述步骤S3包括:
步骤S31:将词向量映射到原始数据样本上,由词向量得到特征矩阵F;
步骤S32:分别用上三角矩阵A和下三角矩阵B对提取出的特征矩阵F做掩膜,分别得到正向信息Fa和反向信息Fb。
进一步的,所述的正向信息Fa和反向信息Fb计算规则包括:
aij表示开头位置为i,结尾位置为j的实体片段表示的语义特征,n表示设定的最大序列长度,表示矩阵的点乘运算。
进一步的,所述步骤S4包括:
步骤S41:将正向信息和反向信息进行匹配,得到评分矩阵;
步骤S42:根据相对位置距离初始化位置信息加权对角矩阵;
步骤S43:将位置信息加权对角矩阵加权到评分矩阵上;
步骤S44:评分矩阵中分数较高的分值所处矩阵的行列位置,可映射回序列位置表示实体片段,该实体片段表示预测的实体
进一步的,所述评分矩阵的计算规则包括:
W表示评分矩阵,R为任意n*n的矩阵,为正反向匹配信息打分。
进一步的,所述位置信息加权对角矩阵M的构造包括:
α是放大系数,其值是任意大于1的实数,β是衰减系数,其值是0到1之间的任意小数,β指数表示当前元素所在的行列位置的差值的绝对值。
本发明采用自注意力模型捕获语义之间的信息,通过掩码自注意力机制表达正向和反向的信息,保证前后信息不会被泄露;同时引入辅助学习任务,让实体边界更加清晰;头尾指针匹配融入相对位置向量,提升相邻位置的语义表达;结合电商业务场景,提出位置权重,让相距更近的字符具有更强的表达;除此之外,整个训练流程都是采用矩阵计算,速度会比序列模型更快。
附图说明
图1是本发明电商实体提取模型训练过程流程图;
图2是本发明电商实体提取模型逻辑框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明提出了一种智能识别电商标题方法,该方法包括:获取待识别的电商标题样本,将样本输入到电商实体提取模型,得到预测实体,如图1所示,对电商实体识别模型进行训练的过程包括:
S1:对收集到的电商数据样本进行处理,按照实体片段的头尾边界位置对数据进行标注;
S2:将样本映射为词嵌入形式,并送入引入辅助学习任务训练的自注意力模型,得到词向量;
进一步的,如图2所示,对自注意力模型进行训练,引入辅助学习任务,此过程包括:
步骤S21:将样本映射为词嵌入形式,并送入自注意力模型;
步骤S22:根据当前字符与附近字符的词向量相似度进行计算损失值;
步骤S23:根据损失值进行梯度反传,更新模型里的参数,进行模型训练。
进一步的,当前字符与附近字符的词向量相似度计算的过程包括:
步骤S221:选任一字符作为模板词w,与模板词位置相近的字符作为参考词序列[w1,w2,...,wi,...];
步骤S222:将模板词与参考词序列做计算,计算规则如下:
loss=∑lossi
其中y表示模板词是否为实体边界的预测值,Yi表示参考词是否为实体边界的实际值,lossi表示模板词w与参考词wi之间的损失值,loss表示模板词与参考词序列中所有词的损失lossi的总和,用于梯度反传,表示两个词做余弦相似度计算。
进一步的,计算余弦相似度的过程包括:
模板词w与参考词wi的词向量分别表示为[x1,x2,…,xn]和[y1,y2,…,yn],模板词w与参考词wi余弦相似度的计算规则如下:
其中similarityi代表模板词w与参考词wi余弦相似度,n表示设定的词向量大小。
S3:对词向量使用掩码自注意力机制提取正向信息作为头指针,提取反向信息作为尾指针;
进一步的,使用掩码自注意力机制提取正反序列特征过程包括:
步骤S31:通过训练后的自注意力机制得到词向量;
步骤S32:将词向量映射到原始数据样本上,由词向量得到特征矩阵F;
步骤S33:分别用上三角矩阵A和下三角矩阵B对提取出的特征矩阵F做掩膜,分别得到正向信息Fa和反向信息Fb。计算规则如下:
aij表示开头位置为i、结尾位置为j的实体片段表示的语义特征,n表示设定的最大序列长度,表示矩阵的点乘运算。
S4:头指针与尾指针匹配时融入相对位置向量信息,得到预测的实体片段;
进一步的,头指针与尾指针匹配时融入相对位置向量信息的过程包括:
步骤S41:将正向信息和反向信息进行匹配,得到评分矩阵;
步骤S42:根据相对位置距离初始化位置信息加权对角矩阵;
步骤S43:将位置矩阵加权到评分矩阵上;
步骤S44:矩阵中分数较高的分值所处矩阵的行列位置,可映射回序列位置表示实体片段,该实体片段表示预测的实体。
进一步的,过程包括:
步骤1:将正向信息Fa与反向信息Fb做计算,得到正反信息矩阵W,计算规则如下:
W表示评分矩阵,R为任意n*n的矩阵,为正反向匹配信息打分;
步骤2:构建位置信息加权对角矩阵,使对角线上的值最大,其他位置依次递减,位置信息加权对角矩阵M构造如下:
α是放大系数,其值是任意大于1的实数,β是衰减系数,其值是0到1之间的任意小数,β指数表示当前元素所在的行列位置的差值的绝对值;
步骤3:将位置信息加权对角矩阵M与正反信息评分矩阵W按位相乘,得到最终评分结果。
S5:迭代训练电商实体提取模型,保存模型参数。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (3)
1.一种智能识别电商标题方法,获取待识别的电商标题样本,将样本输入到电商实体提取模型,得到预测实体,其特征在于,电商实体提取模型的训练包括:
S1:对收集到的电商数据样本进行处理,按照实体片段的头尾边界位置对数据进行标注;
S2:将样本映射为词嵌入形式,并送入引入辅助学习任务训练的自注意力模型,得到词向量;
S3:对词向量使用掩码自注意力机制提取正向信息作为头指针,提取反向信息作为尾指针;
所述步骤S3包括:
步骤S31:将词向量映射到原始数据样本上,由词向量得到特征矩阵F;
步骤S32:分别用上三角矩阵A和下三角矩阵B对提取出的特征矩阵F做掩膜,分别得到正向信息Fa和反向信息Fb;
正向信息Fa和反向信息Fb计算规则包括:
aij表示开头位置为i、结尾位置为j的实体片段表示的语义特征,n表示设定的最大序列长度,表示矩阵的点乘运算;
S4:头指针与尾指针匹配时融入相对位置向量信息,得到预测的实体片段;
所述步骤S4包括:
步骤S41:将正向信息和反向信息进行匹配,得到评分矩阵;
步骤S42:根据相对位置距离初始化位置信息加权对角矩阵;
步骤S43:将位置信息加权对角矩阵加权到评分矩阵上;
步骤S44:评分矩阵中分数较高的分值所处矩阵的行列位置,可映射回序列位置表示实体片段,该实体片段表示预测的实体;
所述评分矩阵的计算规则包括:
W表示评分矩阵,R为任意n*n的矩阵,为正反向匹配信息打分;
位置信息加权对角矩阵M的构造包括:
α是放大系数,其值是任意大于1的实数,β是衰减系数,其值是0到1之间的任意小数,β指数表示当前元素所在的行列位置的差值的绝对值;
S5:迭代训练电商实体提取模型,保存模型参数。
2.根据权利要求1所述的一种智能识别电商标题方法,其特征在于,步骤S2所述的自注意力模型,引入辅助学习任务的训练过程包括:
步骤S21:将样本映射为词嵌入形式,并送入自注意力模型;
步骤S22:根据当前字符与附近字符的词向量相似度进行计算损失值;
步骤S23:根据损失值进行梯度反传,更新模型里的参数,进行模型训练。
3.根据权利要求2所述的一种智能识别电商标题方法,其特征在于,所述当前字符与附近字符的词向量相似度计算包括:
选任一字符作为模板词w,与模板词位置相近的字符作为参考词序列[w1,w2,...,wi,...],将模板词与参考词序列做计算,计算规则如下:
loss=∑lossi
其中y表示模板词是否为实体边界的预测值,Yi表示参考词是否为实体边界的实际值,lossi表示模板词w与参考词wi之间的损失值,loss表示模板词与参考词序列中所有词的损失lossi的总和,表示两个词做余弦相似度计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211589747.6A CN115935994B (zh) | 2022-12-12 | 2022-12-12 | 一种智能识别电商标题方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211589747.6A CN115935994B (zh) | 2022-12-12 | 2022-12-12 | 一种智能识别电商标题方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115935994A CN115935994A (zh) | 2023-04-07 |
CN115935994B true CN115935994B (zh) | 2024-03-08 |
Family
ID=86555168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211589747.6A Active CN115935994B (zh) | 2022-12-12 | 2022-12-12 | 一种智能识别电商标题方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115935994B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505591A (zh) * | 2020-03-23 | 2021-10-15 | 华为技术有限公司 | 一种槽位识别方法及电子设备 |
WO2022001333A1 (zh) * | 2020-06-30 | 2022-01-06 | 首都师范大学 | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 |
CN113948217A (zh) * | 2021-11-23 | 2022-01-18 | 重庆邮电大学 | 一种基于局部特征整合的医学嵌套命名实体识别方法 |
CN114154505A (zh) * | 2021-12-07 | 2022-03-08 | 国网四川省电力公司经济技术研究院 | 一种面向电力规划评审领域的命名实体识别方法 |
CN114429132A (zh) * | 2022-02-24 | 2022-05-03 | 南京航空航天大学 | 一种基于混合格自注意力网络的命名实体识别方法和装置 |
CN115329766A (zh) * | 2022-08-23 | 2022-11-11 | 中国人民解放军国防科技大学 | 一种基于动态词信息融合的命名实体识别方法 |
CN115422939A (zh) * | 2022-10-14 | 2022-12-02 | 重庆邮电大学 | 一种基于大数据的细粒度商品命名实体识别方法 |
-
2022
- 2022-12-12 CN CN202211589747.6A patent/CN115935994B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505591A (zh) * | 2020-03-23 | 2021-10-15 | 华为技术有限公司 | 一种槽位识别方法及电子设备 |
WO2022001333A1 (zh) * | 2020-06-30 | 2022-01-06 | 首都师范大学 | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 |
CN113948217A (zh) * | 2021-11-23 | 2022-01-18 | 重庆邮电大学 | 一种基于局部特征整合的医学嵌套命名实体识别方法 |
CN114154505A (zh) * | 2021-12-07 | 2022-03-08 | 国网四川省电力公司经济技术研究院 | 一种面向电力规划评审领域的命名实体识别方法 |
CN114429132A (zh) * | 2022-02-24 | 2022-05-03 | 南京航空航天大学 | 一种基于混合格自注意力网络的命名实体识别方法和装置 |
CN115329766A (zh) * | 2022-08-23 | 2022-11-11 | 中国人民解放军国防科技大学 | 一种基于动态词信息融合的命名实体识别方法 |
CN115422939A (zh) * | 2022-10-14 | 2022-12-02 | 重庆邮电大学 | 一种基于大数据的细粒度商品命名实体识别方法 |
Non-Patent Citations (4)
Title |
---|
Neural Named Entity Recognition Using a Self-Attention Mechanism;Andrej Zukov-Gregoric等;2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI);全文 * |
基于BILSTM_CRF的知识图谱实体抽取方法;翟社平;段宏宇;李兆兆;;计算机应用与软件(第05期);全文 * |
基于BLSTM_attention_CRF模型的新能源汽车领域术语抽取;马建红;张亚梅;姚爽;张炳斐;郭昌宏;;计算机应用研究(第05期);全文 * |
问答系统命名实体识别改进方法研究;鲍静益;于佳卉;徐宁;姚潇;刘小峰;;数据采集与处理(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115935994A (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933801B (zh) | 基于预测位置注意力的双向lstm命名实体识别方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN110489553B (zh) | 一种基于多源信息融合的情感分类方法 | |
CN109460725B (zh) | 小票消费明细内容融合及提取方法、设备以及存储介质 | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN116150361A (zh) | 一种财务报表附注的事件抽取方法、系统及存储介质 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN114218940A (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN112818117A (zh) | 标签映射方法、系统、计算机可读存储介质 | |
CN115935994B (zh) | 一种智能识别电商标题方法 | |
CN109635289B (zh) | 词条分类方法及审计信息抽取方法 | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
Gao et al. | Handwritten text recognition with convolutional prototype network and most aligned frame based CTC training | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN115392251A (zh) | 一种互联网金融业务的实体实时识别方法 | |
CN111339303B (zh) | 一种基于聚类与自动摘要的文本意图归纳方法及装置 | |
CN114298047A (zh) | 基于笔画卷积和词向量的中文命名实体识别方法及系统 | |
CN110909546B (zh) | 一种文本数据的处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231110 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Applicant after: Yami Technology (Guangzhou) Co.,Ltd. Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS |
|
GR01 | Patent grant | ||
GR01 | Patent grant |