CN109614614A - 一种基于自注意力的bilstm-crf产品名称识别方法 - Google Patents
一种基于自注意力的bilstm-crf产品名称识别方法 Download PDFInfo
- Publication number
- CN109614614A CN109614614A CN201811463626.0A CN201811463626A CN109614614A CN 109614614 A CN109614614 A CN 109614614A CN 201811463626 A CN201811463626 A CN 201811463626A CN 109614614 A CN109614614 A CN 109614614A
- Authority
- CN
- China
- Prior art keywords
- product
- name
- word
- label
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自注意力的BiLSTM‑CRF产品名称识别方法,其特征在于,包括半自动标注产品标题数据,模型构建及训练,模型使用三个部分。半自动标注产品标题数据部分,建立初步标注‑学习‑预测标签‑人工修正‑学习‑预测标签的迭代过程,模型构建及训练部分,对每个字进行N维稠密向量编码,输进BiLSTM层得到文本序列特征,利用Softmax分类层得到每个字的标签概率;利用CRF层抽取文本局部特征,训练模型;模型使用部分,提取文本特征,利用分类层,得到所有标签概率;利用维特比算法,得到对应的标签,从而识别出产品名称。本发明大大减少人工成本,提高模型的准确率和鲁棒性。
Description
技术领域
本发明涉及电子商务领域,特别是涉及一种基于自注意力的BILSTM-CRF产品名称识别方法。
背景技术
就电商领域而言,商家填写的产品标题中夹杂大量的描述性词汇和冗余信息,如“杀螨剂厂家直销粤秀植保杀螨剂杀螨剂批发采购”其中产品名称应为杀螨剂,冗余信息为厂家直销、粤秀植保、批发采购等,这些修饰词和冗余信息给产品名称识别造成了较大的困难。目前产品名称的识别方法主要是建立产品名称词典,根据关键词匹配找出候选产品名称,根据商家提供的产品属性找出最为合适的产品。这种方法的不足之处在于难以构建一个完备的产品名称词典和对应的产品属性库,且构建过程费时费力,同时不能较好地解决产品名称嵌套的问题,例如“同城直送鲜花快递”,鲜花本身是一种产品名称,但在本例中,产品名称不是鲜花而是鲜花快递。
因此,需要一种能解决上述问题,达到有效的解决产品名称词典不够完备,属性库不全的情况,且避免费事费力的规则构建过程的产品名称识别方法。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于自注意力的BILSTM-CRF产品名称识别方法。
2.为解决上述技术问题,本发明提供一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于,包括半自动标注产品标题数据,模型构建及训练,模型使用三个部分,具体步骤如下:
步骤S1,半自动标注产品标题数据:
1)、根据现有产品名称词典,对产品标题进行关键词匹配,找出候选产品名称,构成产品名称候选集;
2)、根据对应的产品名称属性库,找出相似度最高的产品名称,作为产品名称的初步标注结果;
3)、根据S2的训练结果重新预测步骤S1-2)的产品标题标注数据,比较初步标注结果和预测结果的差异,人工修正错误标注;
步骤S2,模型构建及训练:
4)、将产品标题作为输入,随机初始化M*N维度的字向量表,M表示训练语料中的字数,N表示每个字被映射的维度,从而将产品标题中的每个字映射为N维稠密向量(DenseVctor);
5)、将产品标题中的每个字按照时序序列(Sequential sequence)输进循环神经网络,提取产品标题中的文本序列特征;
6)、利用自注意力层(Self-Attention Layer),对文本序列特征赋予不同的权重,提取出识别产品名称的关键信息;
7)、将经过自注意力层编码后的向量输入进分类层,得到产品标题每个字对应的标签,即判断其是否属于产品名称;
8)、将步骤S2-7)步的分类结果输入进CRF层,根据已有标注结果,训练整个模型,得到所有更新好的参数,包括步骤S2-4)中的字向量表;
9)、进行步骤S1-3),对初步标注结果进行修正;
10)、增量学习步骤S2-9)修正后的产品名称数据;
11)、重复步骤S2-9)和S2-10),直至标注没有错误;
S3、模型使用:
12)、将待识别文本输进步骤S2得到的模型,根据步骤S2-8)得到的字向量表将文本映射成N维稠密向量;
13)、输入步骤S3-12)的结果,根据步骤S2-8)更新好的参数,计算出每个字对应的标签概率;
14)、根据步骤S2-8)更新好的标签转移概率和S3-13)的结果,利用维特比算法(Viterbi Algorithm),得到每个字对应的标签;
15)、根据S3-14)得到的标签,取出是产品名称的部分;
16)、结束。
所述步骤S1-1)中建立部分产品名称的词典和对应的属性库,检索产品标题中出现的产品名称,将其作为候选集,
所述步骤S1-2)中利用候选集中的产品名称对应属性库和产品标题的属性库计算相似度,此处的属性库为产品其他信息的总和,包括商家填写的产品关键词,产品描述,产品材质,用途,相似度的计算方法为将候选集中产品名称对应的属性利用tf-idf表征,再计算属性余弦相似度,取相似度最大的作为初步标注结果。
所述步骤S1-3)中根据S2中模型的训练结果重新预测S1-2)的产品标题标注数据,比较初步标注结果和预测结果的差异,人工修正错误标注,形成“初步标注-学习-预测标签-人工修正-学习-预测标签”的操作循环,执行该操作循环直至标注没有错误的迭代过程。
所述步骤S2-4)中将每个字映射为N维稠密向量,方法是在tensorflow中初始化一个M*N维度的字向量表,M表示训练语料中的字数,N表示每个字被映射的维度,然后根据字向量表查找每个字对应的N维稠密向量,此字向量表会根据训练任务进行更新不需要预先训练。
所述步骤S2-5)中,循环神经网络采用的是Bi-LSTM(双向长短期记忆模型)。
所述步骤S2-6)中,自注意力层采用的是:
其中,Q,K,V都代表同一个产品标题,其维度是M*N,M表示产品标题中包含的字数,N表示每个字的维度,对产品标题中每个字赋予不同的权重,从而提取出识别产品名称的关键信息;
所述步骤S2-7)中,采用的分类层为softmax分类层,即由步骤S2-6)得到的向量经过一层线性变化后,输入进激活函数softmax,即可得到每个字对应的标签概率;
所述步骤S2-8)中,根据模型的表现对超参数进行调优,学习率取值为0.001,隐藏单元的数量取值为256维,dropout取值为0.5,CRF层的训练如下:
给定训练数据集X和对应的标签序列Y,优化目标为:在现有的文本序列X下,使得标签序列Y的概率最大,即条件概率P(Y|X)最大,因此优化函数为:
其中 代表标签yi到yi+1的转移概率,代表第i个位置对应标签yi的概率,根据步骤S2-7)可得到需要学习的参数为
本发明所达到的有益效果:
1.由于深度学习可以实现端到端的学习,因此可以有效的解决了产品名词词典不够完备,属性库不全的情况,避免了费事费力的规则构建的过程,大大减少人工成本,提高效率;
2.采用半自动数据标注的方法,循环迭代标注数据,通过初步标注-学习-预测标签-人工修正-学习-预测标签,直至标注没有错误的迭代过程,大大减少人工标注的工作量,提高模型的准确率和鲁棒性;
3.由于深度学习模型的模型层数较深,可以较为全面,多样性的学习文本特征;
4.随着语料库的不断增加,模型的准确率和召回率可以不断的得到提升,并到达和保持在一个高可用的水准上。
附图说明
图1为本发明的示例性实施例的方法流程图;
图2为本发明的示例性实施例中的模型训练与预测流程图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示,本实例提供的基于自注意力的BiLSTM-CRF产品名称识别方法包括以下步骤:
步骤101建立部分产品名称的词典和对应的属性库,根据已构建好的产品名称词典对产品标题进行关键词匹配,找出候选产品名称,构成产品名称候选集;
步骤102利用产品名称属性库找出与产品标题属性最相似的产品名称作为初步标注;利用候选集中的产品名称对应属性库和产品标题的属性库计算相似度,此处的属性库为产品其他信息的总和,例如商家填写的产品关键词,产品描述,产品材质,用途等,相似度的计算方法为将候选集中产品名称对应的属性利用tf-idf表征,再计算属性余弦相似度,取相似度最大的作为初步标注结;
步骤103搭建基于自注意力的BiLSTM-CRF模型;
步骤104输入初步标注产品标题数据,训练模型,根据模型的表现对超参数进行调优,例如本实例在学习率上尝试了0.1,0.01,0.001三种取值,学习率在0.001时模型表现最好,隐藏单元的数量尝试了128维,256维,512维,隐藏单元数量在256维模型表现最好,dropout尝试了0.5,0.7,0.9,dropout在0.5时模型表现最好;
步骤105根据104步调节好的模型对初步标注数据进行预测;
步骤106对比初步标注数据和预测结果之间的差异;
步骤107人工判断初步标注数据是否错误,人工修正错误标注,形成“初步标注-学习-预测标签-人工修正-学习-预测标签”的操作循环,执行该操作循环直至标注没有错误的迭代过程;
步骤108使用训练好的模型对新的产品标题进行产品名称的识别。
步骤109结束;
如图2所示,步骤103-104中基于注意力的BiLSTM-CRF模型的训练及预测如下:
步骤201初始化训练集中所有字的字向量,形成字向量表;
步骤202将产品标题中的每个字都映射为N维稠密向量(DenseVctor),方法是在tensorflow中初始化一个M*N维度的字向量表,M表示训练语料中的字数,N表示每个字被映射的维度,然后根据字向量表查找每个字对应的N维稠密向量,此字向量表会根据训练任务进行更新不需要预先训练;
步骤203将产品标题中的每个字按照时序序列输进Bi-LSTM层(双向长短期记忆模型)获得产品标题中的文本序列特征,Bi-LSTM层可以堆叠多层,本实例采用一层;
步骤204将序列特征输入进自注意力层,自注意力层采用的是:
其中,Q,K,V都代表同一个产品标题,其维度是M*N,M表示产品标题中包含的字数,N表示每个字的维度,对产品标题中每个字赋予不同的权重,从而提取出识别产品名称的关键信息;
自注意力层可以计算产品标题中每个字之间的关系以及对产品名称识别的重要性,从而可以对每个字的序列特征进行加权;
步骤205将加权后的序列特征经过一层线性变化后,输进激活函数softmax分类层,得到产品标题中每个字对应的标签概率,即是否属于产品名称,若属于在产品名称的哪个位置,此处采用的分类层是深度学习中常用的softmax层;
步骤206将分类结果输入进CRF层,利用CRF层得到步骤205标签之间的转移概率;CRF层的训练如下:
给定训练数据集X和对应的标签序列Y,优化目标为:在现有的文本序列X下,使得标签序列Y的概率最大,即条件概率P(Y|X)最大,因此优化函数为:
其中 代表标签yi到yi+1的转移概率,代表第i个位置对应标签yi的概率,根据步骤S2-4)可得到需要学习的参数为
步骤207判断输入的产品标题是否有标签,如果有标签则进入模型训练模式,得到所有更新好的参数,反之进入模型的预测模式,模型的训练模式是根据CRF层的优化函数去学习之前所有层的参数,包括CRF层、分类层、注意力层,Bi-LSTM层、字向量表;
步骤208模型的预测模式根据训练阶段学习好的参数,利用维特比算法预测产品名称中每个字应该属于的标签,取出其中属于产品名称的部分;
步骤209结束。
本发明提供一种基于自注意力的BiLSTM-CRF产品名称识别方法,应用了人工智能的深度学习模型,可以在以下几个方面获得显著的效果:
1.采用半自动标注方法,循环迭代标注结果,大大减少人工标注的工作量,提高工作效率和模型的准确率、鲁棒性;
2.由于深度学习可以实现端到端的学习,因此可以有效的解决了产品名词词典不够完备,属性库不全的情况,避免了费事费力的规则构建的过程,大大减少人工成本,提高效率;
3.由于深度学习模型的模型层数较深,可以较为全面,多样性的学习文本特征;
4.随着语料库的不断增加,模型的准确率和召回率可以不断的得到提升,并到达和保持在一个高可用的水准上。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (9)
1.一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于,包括半自动标注产品标题数据,模型构建及训练,模型使用三个部分,具体步骤如下:
步骤S1,半自动标注产品标题数据:
1)、根据现有产品名称词典,对产品标题进行关键词匹配,构成产品名称候选集;
2)、根据对应的产品名称属性库,找出相似度最高的产品名称,作为产品名称的初步标注结果;
3)、根据S2的训练结果重新预测步骤S1-2)的产品标题标注数据,比较初步标注结果和预测结果的差异,人工修正错误标注;
步骤S2,模型构建及训练:
4)、将产品标题作为输入,随机初始化M*N维度的字向量表,M表示训练语料中的字数,N表示每个字被映射的维度,从而将产品标题中的每个字映射为N维稠密向量(DenseVctor);
5)、将产品标题中的每个字按照时序序列(Sequential sequence)输进循环神经网络,提取产品标题中的文本序列特征;
6)、利用自注意力层(Self-Attention Mechanism),对文本序列特征赋予不同的权重,提取出识别产品名称的关键信息;
7)、将经过自注意力层编码后的向量输入进分类层,得到产品标题每个字对应的标签,即判断其是否属于产品名称;
8)、将步骤S2-7)步的分类结果输入进CRF层,根据已有标注结果,训练整个模型,得到所有更新好的参数,包括步骤S2-4)中的字向量表;
9)、进行步骤S1-3),对初步标注结果进行修正;
10)、增量学习步骤S2-9)修正后的产品名称数据;
11)、重复步骤S2-9)和S2-10),直至标注没有错误;
S3、模型使用:
12)、将待识别文本输进步骤S2得到的模型,根据步骤S2-8)得到的字向量表将文本映射成N维稠密向量;
13)、输入步骤S3-12)的结果,根据步骤S2-8)更新好的参数,计算出每个字对应的标签概率;
14)、根据步骤S2-8)更新好的标签之间的转移概率和S3-13)计算出的字的标签概率,利用维特比算法(Viterbi Algorithm),得到每个字对应的标签;
15)、根据S3-14)得到的标签,取出是产品名称的部分;
16)、结束。
2.如权利要求1所述的一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于:所述步骤S1-1)中建立部分产品名称的词典和对应的属性库,检索产品标题中出现的产品名称,将其作为候选集。
3.如权利要求2所述的一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于:所述步骤S1-2)中利用候选集中的产品名称对应属性库和产品标题的属性库计算相似度,此处的属性库为产品其他信息的总和,包括商家填写的产品关键词,产品描述,产品材质,用途;相似度的计算方法为将候选集中产品名称对应的属性利用tf-idf表征,再计算属性余弦相似度,取相似度最大的作为初步标注结果。
4.如权利要求3所述的一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于:所述步骤S1-3)中根据S2中模型的训练结果重新预测S1-2)的产品标题标注数据,比较初步标注结果和预测结果的差异,人工修正错误标注,形成“初步标注-学习-预测标签-人工修正-学习-预测标签”的操作循环,执行该操作循环直至标注没有错误的迭代过程。
5.如权利要求4所述的一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于:所述步骤S2-4)中将每个字映射为N维稠密向量,方法是在tensorflow中初始化一个M*N维度的字向量表,M表示训练语料中的字数,N表示每个字被映射的维度,然后根据字向量表查找每个字对应的N维稠密向量,此字向量表会根据训练任务进行更新不需要预先训练。
6.如权利要求5所述的一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于:所述步骤S2-5)中,循环神经网络采用的是Bi-LSTM(双向长短期记忆模型)。
7.如权利要求6所述的一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于:所述步骤S2-6)中,自注意力层采用的是:
其中,Q,K,V都代表同一个产品标题,其维度是M*N,M表示产品标题中包含的字数,N表示每个字的维度,对产品标题中每个字赋予不同的权重,从而提取出识别产品名称的关键信息。
8.如权利要求7所述的一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于:所述步骤S2-7)中,采用的分类层为softmax分类层,即由步骤S2-6)得到的向量经过一层线性变化后,输入进激活函数softmax,即可得到每个字对应的标签概率;。
9.如权利要求8所述的一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于:所述步骤S2-8)中,根据模型的表现对超参数进行调优,学习率取值为0.001,隐藏单元的数量取值为256维,dropout取值为0.5,CRF层的训练如下:
给定训练数据集X和对应的标签序列Y,优化目标为:在现有的文本序列X下,使得标签序列Y的概率最大,即条件概率P(Y|X)最大,因此优化函数为:
其中 代表标签yi到yi+1的转移概率,代表第i个位置对应标签yi的概率,根据步骤S2-7)可得到需要学习的参数为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811463626.0A CN109614614B (zh) | 2018-12-03 | 2018-12-03 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811463626.0A CN109614614B (zh) | 2018-12-03 | 2018-12-03 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614614A true CN109614614A (zh) | 2019-04-12 |
CN109614614B CN109614614B (zh) | 2021-04-02 |
Family
ID=66005821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811463626.0A Active CN109614614B (zh) | 2018-12-03 | 2018-12-03 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614614B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321566A (zh) * | 2019-07-10 | 2019-10-11 | 北京邮电大学 | 中文命名实体识别方法、装置、计算机设备和存储介质 |
CN110543891A (zh) * | 2019-07-23 | 2019-12-06 | 百度(中国)有限公司 | 数据标注方法、装置、系统及存储介质 |
CN110956018A (zh) * | 2019-11-22 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 文本处理模型的训练方法、文本处理方法、装置及存储介质 |
CN111046180A (zh) * | 2019-12-05 | 2020-04-21 | 竹间智能科技(上海)有限公司 | 一种基于文本数据的标签识别方法 |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111177326A (zh) * | 2020-04-10 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
CN111178074A (zh) * | 2019-12-12 | 2020-05-19 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111783436A (zh) * | 2020-06-03 | 2020-10-16 | 广州云趣信息科技有限公司 | 基于深度学习的自动提取商家信息的方法 |
CN112115714A (zh) * | 2020-09-25 | 2020-12-22 | 平安国际智慧城市科技股份有限公司 | 深度学习序列标注方法、装置及计算机可读存储介质 |
CN112541125A (zh) * | 2020-12-25 | 2021-03-23 | 北京百度网讯科技有限公司 | 序列标注模型训练方法、装置及电子设备 |
CN112818088A (zh) * | 2021-02-23 | 2021-05-18 | 平安科技(深圳)有限公司 | 商品搜索数据处理方法、装置、设备及存储介质 |
CN112861540A (zh) * | 2021-04-25 | 2021-05-28 | 成都索贝视频云计算有限公司 | 基于深度学习的广播电视新闻关键词自动抽取方法 |
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN113076718A (zh) * | 2021-04-09 | 2021-07-06 | 苏州爱语认知智能科技有限公司 | 一种商品属性抽取方法及其系统 |
CN113254596A (zh) * | 2021-06-22 | 2021-08-13 | 湖南大学 | 基于规则匹配和深度学习的用户质检需求分类方法及系统 |
CN113342964A (zh) * | 2021-06-03 | 2021-09-03 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
CN113468309A (zh) * | 2021-06-30 | 2021-10-01 | 竹间智能科技(上海)有限公司 | 文本中的答案抽取方法以及电子设备 |
CN114049528A (zh) * | 2022-01-12 | 2022-02-15 | 上海蜜度信息技术有限公司 | 一种品牌名称识别的方法及设备 |
CN116127977A (zh) * | 2023-02-08 | 2023-05-16 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的伤亡人数提取方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326923A1 (en) * | 2006-05-15 | 2009-12-31 | Panasonic Corporatioin | Method and apparatus for named entity recognition in natural language |
JP2013134752A (ja) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | トピックモデル学習方法、装置、及びプログラム |
CN104142912A (zh) * | 2013-05-07 | 2014-11-12 | 百度在线网络技术(北京)有限公司 | 一种精确的语料类别标注方法及装置 |
CN105205107A (zh) * | 2015-08-27 | 2015-12-30 | 湖南人文科技学院 | 一种物联网数据相似度处理方法 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN107797992A (zh) * | 2017-11-10 | 2018-03-13 | 北京百分点信息科技有限公司 | 命名实体识别方法及装置 |
CN108845988A (zh) * | 2018-06-07 | 2018-11-20 | 苏州大学 | 一种实体识别方法、装置、设备及计算机可读存储介质 |
CN108921151A (zh) * | 2018-05-31 | 2018-11-30 | 四川物联亿达科技有限公司 | 一种基于深度学习的普通摄像头全车牌识别系统 |
-
2018
- 2018-12-03 CN CN201811463626.0A patent/CN109614614B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326923A1 (en) * | 2006-05-15 | 2009-12-31 | Panasonic Corporatioin | Method and apparatus for named entity recognition in natural language |
JP2013134752A (ja) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | トピックモデル学習方法、装置、及びプログラム |
CN104142912A (zh) * | 2013-05-07 | 2014-11-12 | 百度在线网络技术(北京)有限公司 | 一种精确的语料类别标注方法及装置 |
CN105205107A (zh) * | 2015-08-27 | 2015-12-30 | 湖南人文科技学院 | 一种物联网数据相似度处理方法 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN107797992A (zh) * | 2017-11-10 | 2018-03-13 | 北京百分点信息科技有限公司 | 命名实体识别方法及装置 |
CN108921151A (zh) * | 2018-05-31 | 2018-11-30 | 四川物联亿达科技有限公司 | 一种基于深度学习的普通摄像头全车牌识别系统 |
CN108845988A (zh) * | 2018-06-07 | 2018-11-20 | 苏州大学 | 一种实体识别方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
BOBOBE: "BiLSTM+crf的一些理解", 《CSDN博客 链接HTTPS://BLOG.CSDN.NET/BOBOBE/ARTICLE/DETAILS/80489303 》 * |
陈伟 等: "基于BILSTM-CRF的关键词自动抽取", 《计算机科学》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321566A (zh) * | 2019-07-10 | 2019-10-11 | 北京邮电大学 | 中文命名实体识别方法、装置、计算机设备和存储介质 |
CN110321566B (zh) * | 2019-07-10 | 2020-11-13 | 北京邮电大学 | 中文命名实体识别方法、装置、计算机设备和存储介质 |
CN110543891A (zh) * | 2019-07-23 | 2019-12-06 | 百度(中国)有限公司 | 数据标注方法、装置、系统及存储介质 |
CN110543891B (zh) * | 2019-07-23 | 2022-07-26 | 百度(中国)有限公司 | 数据标注方法、装置、系统及存储介质 |
CN111079418B (zh) * | 2019-11-06 | 2023-12-05 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN111079418A (zh) * | 2019-11-06 | 2020-04-28 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN110956018A (zh) * | 2019-11-22 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 文本处理模型的训练方法、文本处理方法、装置及存储介质 |
CN110956018B (zh) * | 2019-11-22 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 文本处理模型的训练方法、文本处理方法、装置及存储介质 |
CN111046180A (zh) * | 2019-12-05 | 2020-04-21 | 竹间智能科技(上海)有限公司 | 一种基于文本数据的标签识别方法 |
CN111178074A (zh) * | 2019-12-12 | 2020-05-19 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111178074B (zh) * | 2019-12-12 | 2023-08-25 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111488739B (zh) * | 2020-03-17 | 2023-07-18 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111177326A (zh) * | 2020-04-10 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
CN111783436A (zh) * | 2020-06-03 | 2020-10-16 | 广州云趣信息科技有限公司 | 基于深度学习的自动提取商家信息的方法 |
CN112115714B (zh) * | 2020-09-25 | 2023-08-18 | 深圳平安智慧医健科技有限公司 | 深度学习序列标注方法、装置及计算机可读存储介质 |
CN112115714A (zh) * | 2020-09-25 | 2020-12-22 | 平安国际智慧城市科技股份有限公司 | 深度学习序列标注方法、装置及计算机可读存储介质 |
CN112541125B (zh) * | 2020-12-25 | 2024-01-12 | 北京百度网讯科技有限公司 | 序列标注模型训练方法、装置及电子设备 |
CN112541125A (zh) * | 2020-12-25 | 2021-03-23 | 北京百度网讯科技有限公司 | 序列标注模型训练方法、装置及电子设备 |
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN112966103B (zh) * | 2021-02-05 | 2022-04-19 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
WO2022178932A1 (zh) * | 2021-02-23 | 2022-09-01 | 平安科技(深圳)有限公司 | 商品搜索数据处理方法、装置、设备及存储介质 |
CN112818088B (zh) * | 2021-02-23 | 2023-09-29 | 平安科技(深圳)有限公司 | 商品搜索数据处理方法、装置、设备及存储介质 |
CN112818088A (zh) * | 2021-02-23 | 2021-05-18 | 平安科技(深圳)有限公司 | 商品搜索数据处理方法、装置、设备及存储介质 |
CN113076718A (zh) * | 2021-04-09 | 2021-07-06 | 苏州爱语认知智能科技有限公司 | 一种商品属性抽取方法及其系统 |
CN112861540A (zh) * | 2021-04-25 | 2021-05-28 | 成都索贝视频云计算有限公司 | 基于深度学习的广播电视新闻关键词自动抽取方法 |
CN113342964B (zh) * | 2021-06-03 | 2022-04-19 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
CN113342964A (zh) * | 2021-06-03 | 2021-09-03 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
CN113254596B (zh) * | 2021-06-22 | 2021-10-08 | 湖南大学 | 基于规则匹配和深度学习的用户质检需求分类方法及系统 |
CN113254596A (zh) * | 2021-06-22 | 2021-08-13 | 湖南大学 | 基于规则匹配和深度学习的用户质检需求分类方法及系统 |
CN113468309A (zh) * | 2021-06-30 | 2021-10-01 | 竹间智能科技(上海)有限公司 | 文本中的答案抽取方法以及电子设备 |
CN113468309B (zh) * | 2021-06-30 | 2023-12-22 | 竹间智能科技(上海)有限公司 | 文本中的答案抽取方法以及电子设备 |
CN114049528A (zh) * | 2022-01-12 | 2022-02-15 | 上海蜜度信息技术有限公司 | 一种品牌名称识别的方法及设备 |
CN116127977B (zh) * | 2023-02-08 | 2023-10-03 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的伤亡人数提取方法 |
CN116127977A (zh) * | 2023-02-08 | 2023-05-16 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的伤亡人数提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109614614B (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614614A (zh) | 一种基于自注意力的bilstm-crf产品名称识别方法 | |
Vateekul et al. | A study of sentiment analysis using deep learning techniques on Thai Twitter data | |
Shrestha et al. | Deep learning sentiment analysis of amazon. com reviews and ratings | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN110765240B (zh) | 多相关句子对的语义匹配评估方法 | |
CN105938485A (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN113407660B (zh) | 非结构化文本事件抽取方法 | |
CN113064959A (zh) | 一种基于深度自监督排序哈希的跨模态检索方法 | |
CN110390017A (zh) | 基于注意力门控卷积网络的目标情感分析方法及系统 | |
Shi et al. | GAEN: graph attention evolving networks | |
CN104008187A (zh) | 一种基于最小编辑距离的半结构化文本匹配方法 | |
CN112732932A (zh) | 一种基于知识图谱嵌入的用户实体群组推荐方法 | |
CN113535897A (zh) | 一种基于句法关系和意见词分布的细粒度情感分析方法 | |
CN115391553A (zh) | 一种自动搜索时序知识图谱补全模型的方法 | |
CN110688585B (zh) | 一种基于神经网络和协同过滤的个性化电影推荐方法 | |
CN114925205A (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN112905906B (zh) | 一种融合局部协同与特征交叉的推荐方法及系统 | |
CN110489616A (zh) | 一种基于Ranknet和Lambdamart算法的搜索排序方法 | |
CN111597428A (zh) | 一种具有q分离k稀疏的用户与物品拼接的推荐方法 | |
Ashangani et al. | Semantic video search by automatic video annotation using TensorFlow | |
CN112069825B (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN103699568B (zh) | 一种从维基中抽取领域术语间上下位关系的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |