CN107644014A - 一种基于双向lstm和crf的命名实体识别方法 - Google Patents
一种基于双向lstm和crf的命名实体识别方法 Download PDFInfo
- Publication number
- CN107644014A CN107644014A CN201710874154.7A CN201710874154A CN107644014A CN 107644014 A CN107644014 A CN 107644014A CN 201710874154 A CN201710874154 A CN 201710874154A CN 107644014 A CN107644014 A CN 107644014A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- information
- character
- way lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于双向LSTM和CRF的命名实体识别方法,该方法是基于现有的传统命名实体识别算法进行的改进优化,具体步骤如下:(1)对文本进行预处理,提取文本词组信息和字符信息。(2)利用双向LSTM神经网络对文本字符信息进行编码转换成字符向量。(3)利用glove模型对文本词组信息进行编码转换成词向量。(4)将字符向量和词向量组合成上下文信息向量,并放入双向LSTM神经网络中。(5)利用线性链条件随机场对双向LSTM的输出进行解码,得到文本标注实体。本发明利用深度神经网络提取文本特征,结合条件随机场进行解码,可以有效提取文本特征信息并且能够在不同语言的实体识别任务上取得很好的效果。
Description
技术领域
本发明涉及一种命名实体识别方法,尤其涉及一种基于双向LSTM和CRF的命名实体识别方法。
背景技术
命名实体识别(Named EntitiesRecognition,NER)是自然语言处理(NaturalLanguageProcessing,NLP)的一个基础任务,其目的是识别输入文本中人名、地名、组织机构名等命名实体。
在命名实体识别领域,现有的技术可以分为两类,一类是基于词典和规则的方法,根据词组出现的频率对高频词构建词组词典,对于可以在词典中检索到的词直接将其识别为命名实体;或者根据词组的组成规则,例如机构名称通常包含地点和职能信息等,将满足相应规则的词组直接进行标注。另一种是基于统计学习的方法,相关方法有,条件随机场(CRF),隐马尔可夫模型(HMM),最大熵模型(Maximum Entropy),其中条件随机场近年来广泛运用于命名实体识别领域。
上述基于词典和规则的方法依赖于词典和规则的构造,在处理新词和流行词方面有很大的局限性;上述基于统计模型的方法依赖于人工特征选取,对于特征选取需要大量专业知识和工程经验,同时还需要花费大量人力和时间,已经不能满足人们的要求。
发明内容
本发明的目的在于提供一种基于双向LSTM和CRF的命名实体识别方法,有效解决了实际应用中传统命名实体识别的低效率、低准确率问题。
本发明采用如下技术方案实现:
一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:
步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命名实体标签信息;
步骤(2):针对步骤(1)中字符特征信息利用双向LSTM神经网络进行编码,得到字符向量,所述字符向量是将单个字符初始化为向量形式,加入双向LSTM中进行训练;
步骤(3):针对步骤(1)中词组特征信息利用glove模型进行预训练,得到词向量,每一维代表了特定的词组特征,每个词组由特定的词向量表示;
步骤(4):将步骤(2)中得到的字符向量和步骤(3)中得到的词向量进行合并,得到上下文信息向量;
步骤(5):将步骤(4)中得到的上下文信息向量输入一个新的双向LSTM进行训练,得到输入文本的语义信息特征;
步骤(6):针对步骤(5)中得到的语义信息特征,利用条件随机场对词组进行标注,输出得到文本序列中的实体信息,所述条件随机场以步骤(5)中的输出作为输入,计算输入词对应的最优标签序列,以最大概率的序列作为词组最后的实体类别标签序列。
进一步的,步骤(1)中,所述对文本预处理指的是采用开源工具对输入文本进行分词并将词组分解成单个字符形式,对文本进行实体标注,得到带标签文本,对字符,单词和标签进行统计和编号,构造字符表,单词表和标签表。
进一步的,步骤(2)和步骤(5)中,所述双向LSTM神经网络包含两个隐含层,一个隐含层表示前向LSTM神经网络,另一个隐含层表示后向LSTM神经网络,利用前向LSTM神经网络提取当前文本信息,利用后向LSTM神经网络提取未来文本信息,通过双向遍历充分提取文本特征信息。
本发明的有益技术效果是:1、提供了一种基于深度学习的命名实体识别方法,首先采用双向LSTM神经网络对字符向量提取特征,将字符向量结合预训练过的词向量作为数据输入到另一个双向LSTM中进一步提取特征。将神经网络的输出作为CRF的输入计算最优标签序列完成识别过程。相比于传统命名实体识别方法,本发明减少了特征提取的工作量,简化了信息处理过程,明显提高识别效率并且减少大量人力成本。2、本发明将字符和词组转化为固定长度向量,相比于传统的one-hot向量,本发明中的字符向量和词向量能够更好挖掘语义关系并且明显降低词组维度,不仅能够减少存储空间而且提高了模型训练效率。3、本发明采用双向LSTM神经网络结合传统CRF,应用场景广泛,能够解决不同领域的命名实体识别问题,拥有很强的模型泛化能力。
附图说明
图1是本发明实施例采用的基于双向LSTM和CRF的命名实体识别的工作流程图。
图2是本发明实施例采用的字向量训练结构示意图。
图3是本发明实施例采用的双向LSTM的网络结构示意图。
图4是本发明实例采用的CRF模型结构示意图。
具体实施方式
通过下面对实施例的描述,将更加有助于公众理解本发明,但不能也不应当将申请人所给出的具体的实施例视为对本发明技术方案的限制,任何对部件或技术特征的定义进行改变和/或对整体结构作形式的而非实质的变换都应视为本发明的技术方案所限定的保护范围。
实施例:
本实施例提供了一种于双向LSTM和CRF的命名实体识别方法,所述方法的流程图如图1所示,包括以下步骤:
步骤一:利用开源工具对文本进行分词并将词组分解成单个字符形式。对字符,单词和标签进行统计和编号,构造字符表和词组表。对文本进行人工标注,统计文本标签构造标签表。
本步骤中,我们采用BIO标注集对文本语料进行标注,即标注集中包含{B,I,O},其中B表示命名实体的开头,I表示命名实体剩余部分,O表示不属于实体部分。对于命名实体我们使用PER表示人物,LOC表示地点,FAC表示设施。
步骤二:将步骤一中字符特征以向量表示,初始化字符表C,确定每个字符的维度d1,得到字符向量矩阵Q∈Rd1×|C|。将字符向量矩阵作为双向LSTM神经网路的输入对字符进行编码,得到一个固定大小的输出向量wc∈Rd1,所述字符向量训练如图2所示。
步骤三:将步骤一中提取出来的词语特征利用glove模型进行预训练得到词向量wp∈Rd2。
本步骤中,利用glove训练得到的词向量能够包含良好的语义特征,每个向量代表一个词组,每个词向量的维度可以自行调整,一般可选的维度为50,100,200等。
步骤四:将步骤二中得到的字符向量和步骤三中得到的词向量进行合并,得到上下文信息向量w=[wc,wp]。
步骤五:将步骤四中得到的上下文信息向量w传入双向LSTM进行训练,得到输入文本的语义信息特征。
本步骤中,双向LSTM神经网络结构示意图如图3所示,拥有两个隐含层,一个隐含层表示前向LSTM神经网络,另一个隐含层表示后向LSTM神经网络。每个隐含层拥有固定大小的LSTM内核。
本步骤中,双向LSTM神经网络中的LSTM内核是对传统RNN(Recurrent NeuralNetwork)的一种改进,通过增加遗忘机制、保存机制来选择性的遗忘和保留输入信息,能有效避免RNN在求导时梯度消失或者梯度爆炸的问题。LSTM网络包含一个输入层,两个隐含层和一个softmax层,通过反向传播算法进行学习,其具体公式描述如下:
其中it、ft、ot分别为上述的遗忘机制,保存机制和输出机制。bi、bf、bo分别表示相应机制的偏置向量。t表示当前时刻,t-1表示上一时刻。w和h表示相应的权重,ct和ht分别表示当前时刻激活函数的输出和当前时刻的输出。
其中遗忘机制能够读取ht-1和xt-1,输入到相应σ函数中,得到一个0到1之间的数值,0表示完全舍弃,1表示完全保留。遗忘机制可以控制文本上下文对当前词组的影响,避免词组距离当前词越远影响力越小使得神经网络无法提取文本信息。
其中保存机制包含两个部分,第一部分在sigmoid层决定什么信息我们需要更新,另一部分在tanh层创建新的候选值向量并加入当前状态。将保存机制的状态与遗忘机制ft相乘丢掉我们需要丢掉的信息。
步骤六:将步骤五中双向LSTM的输出输入条件随机场,计算输入词对应的最优标签序列,以最大概率的序列作为词组最后的类别标签。
本步骤中,所述条件随机场结构示意图如图4所示,包含输入向量X={x1,x2,...,xn},模型输出标签序列Y={y1,y2,...,yn}。对于给定的输入序列X取值为x的条件下,在标签序列Y上取值为y的条件概率为p(y|x),具体公式如下:
其中,tk和sl是特征函数,λk和μl是对应权值。Z(x)是规范化因子,为了将输出归一化为一个0到1的数值。
本步骤中计算最优标签序列我们使用最大似然估计,训练集的似然对数为通过训练选取最终能够得到最高条件概率的y来对序列进行标注:
将标注好的词组标识在原文本中,方便用户查看。针对句子“南京市民要求对中央门立交桥进行改造及整治”的标注结果如表1所示:
南京 | 市民 | 要求 | 对 | 中央门 | 立交桥 | 进行 | 改造 | 及 | 整治 |
B‐LOC | B‐PER | O | O | B‐FAC | I‐FAC | O | O | O | O |
表1
当然,本发明还可以有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可以根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (3)
1.一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:
步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命名实体标签信息;
步骤(2):针对步骤(1)中的字符特征信息,利用双向LSTM神经网络进行编码,得到字符向量,所述字符向量是将单个字符初始化为向量形式,加入双向LSTM中进行训练;
步骤(3):针对步骤(1)中词组特征信息利用glove模型进行预训练,得到词向量,每一维代表了特定的词组特征,每个词组由特定的词向量表示;
步骤(4):将步骤(2)中得到的字符向量和步骤(3)中得到的词向量进行合并,得到上下文信息向量;
步骤(5):将步骤(4)中得到的上下文信息向量输入一个新的双向LSTM进行训练,得到输入文本的语义信息特征;
步骤(6):针对步骤(5)中得到的语义信息特征,利用条件随机场对词组进行标注,输出得到文本序列中的实体信息,所述条件随机场以步骤(5)中的输出作为输入,计算输入词对应的最优标签序列,以最大概率的序列作为词组最后的实体类别标签序列。
2.根据权利要求1所述的基于双向LSTM和CRF的命名实体识别方法,其特征在于:步骤(1)中,所述对文本预处理指的是对输入文本进行分词并将词组分解成单个字符形式,对文本进行实体标注,得到带标签文本,对字符,单词和标签进行统计和编号,构造字符表,单词表和标签表。
3.根据权利要求1所述的一种基于双向LSTM和CRF的命名实体识别方法,其特征在于:步骤(2)和步骤(5)中,所述双向LSTM神经网络包含两个隐含层,一个隐含层表示前向LSTM神经网络,另一个隐含层表示后向LSTM神经网络,利用前向LSTM神经网络提取当前文本信息,利用后向LSTM神经网络提取未来文本信息,通过双向遍历充分提取文本特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710874154.7A CN107644014A (zh) | 2017-09-25 | 2017-09-25 | 一种基于双向lstm和crf的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710874154.7A CN107644014A (zh) | 2017-09-25 | 2017-09-25 | 一种基于双向lstm和crf的命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107644014A true CN107644014A (zh) | 2018-01-30 |
Family
ID=61113753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710874154.7A Pending CN107644014A (zh) | 2017-09-25 | 2017-09-25 | 一种基于双向lstm和crf的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107644014A (zh) |
Cited By (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415950A (zh) * | 2018-02-01 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 一种上位词聚合方法及装置 |
CN108460012A (zh) * | 2018-02-01 | 2018-08-28 | 哈尔滨理工大学 | 一种基于gru-crf的命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN108717409A (zh) * | 2018-05-16 | 2018-10-30 | 联动优势科技有限公司 | 一种序列标注方法及装置 |
CN108717410A (zh) * | 2018-05-17 | 2018-10-30 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN108830848A (zh) * | 2018-05-25 | 2018-11-16 | 深圳科亚医疗科技有限公司 | 利用计算机确定血管上的血管状况参数的序列的装置和系统 |
CN108829681A (zh) * | 2018-06-28 | 2018-11-16 | 北京神州泰岳软件股份有限公司 | 一种命名实体提取方法及装置 |
CN108920446A (zh) * | 2018-04-25 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种工程文本的处理方法 |
CN109002436A (zh) * | 2018-07-12 | 2018-12-14 | 上海金仕达卫宁软件科技有限公司 | 基于长短期记忆网络的医疗文本术语自动识别方法及系统 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN109190113A (zh) * | 2018-08-10 | 2019-01-11 | 北京科技大学 | 一种中医理论典籍的知识图谱构建方法 |
CN109190110A (zh) * | 2018-08-02 | 2019-01-11 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
CN109214642A (zh) * | 2018-07-10 | 2019-01-15 | 华中科技大学 | 一种建筑施工工序约束的自动抽取和分类方法及系统 |
CN109255119A (zh) * | 2018-07-18 | 2019-01-22 | 五邑大学 | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 |
CN109284400A (zh) * | 2018-11-28 | 2019-01-29 | 电子科技大学 | 一种基于Lattice LSTM和语言模型的命名实体识别方法 |
CN109344390A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 一种基于多特征神经网络的柬语实体识别的方法 |
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN109389982A (zh) * | 2018-12-26 | 2019-02-26 | 江苏满运软件科技有限公司 | 发货信息语音识别方法、系统、设备及存储介质 |
CN109408626A (zh) * | 2018-11-09 | 2019-03-01 | 苏州思必驰信息科技有限公司 | 对自然语言进行处理的方法及装置 |
CN109446530A (zh) * | 2018-11-03 | 2019-03-08 | 上海犀语科技有限公司 | 一种基于lstm模型由文本中抽取信息的方法及装置 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109558569A (zh) * | 2018-12-14 | 2019-04-02 | 昆明理工大学 | 一种基于BiLSTM+CRF模型的老挝语词性标注方法 |
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN109753653A (zh) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | 实体名称识别方法、装置、计算机设备和存储介质 |
CN109858037A (zh) * | 2019-02-27 | 2019-06-07 | 华侨大学 | 一种对ocr识别结果进行结构化输出的方法及系统 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN109902307A (zh) * | 2019-03-15 | 2019-06-18 | 北京金山数字娱乐科技有限公司 | 命名实体识别方法、命名实体识别模型的训练方法及装置 |
CN109918647A (zh) * | 2019-01-30 | 2019-06-21 | 中国科学院信息工程研究所 | 一种安全领域命名实体识别方法及神经网络模型 |
CN109977402A (zh) * | 2019-03-11 | 2019-07-05 | 北京明略软件系统有限公司 | 一种命名实体识别方法及系统 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110134956A (zh) * | 2019-05-14 | 2019-08-16 | 南京邮电大学 | 基于blstm-crf的地名组织名识别方法 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110188761A (zh) * | 2019-04-22 | 2019-08-30 | 平安科技(深圳)有限公司 | 验证码的识别方法、装置、计算机设备和存储介质 |
CN110210036A (zh) * | 2019-06-05 | 2019-09-06 | 上海云绅智能科技有限公司 | 一种意图识别方法及装置 |
CN110222337A (zh) * | 2019-05-28 | 2019-09-10 | 浙江邦盛科技有限公司 | 一种基于transformer和CRF的中文地址分词方法 |
CN110222343A (zh) * | 2019-06-13 | 2019-09-10 | 电子科技大学 | 一种中药种植资源命名实体识别方法 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN110321547A (zh) * | 2018-03-30 | 2019-10-11 | 北京四维图新科技股份有限公司 | 一种命名实体确定方法及装置 |
CN110634546A (zh) * | 2019-08-14 | 2019-12-31 | 中国科学院苏州生物医学工程技术研究所 | 电子病历文本规范化检测方法 |
CN110705294A (zh) * | 2019-09-11 | 2020-01-17 | 苏宁云计算有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110738051A (zh) * | 2019-09-17 | 2020-01-31 | 北京三快在线科技有限公司 | 菜名实体识别方法、装置、电子设备及存储介质 |
CN110866093A (zh) * | 2018-08-10 | 2020-03-06 | 珠海格力电器股份有限公司 | 机器问答方法及装置 |
CN110969681A (zh) * | 2019-11-29 | 2020-04-07 | 山东浪潮人工智能研究院有限公司 | 一种基于gan网络的手写体书法文字生成方法 |
CN111126040A (zh) * | 2019-12-26 | 2020-05-08 | 贵州大学 | 一种基于深度边界组合的生物医学命名实体识别方法 |
CN111160033A (zh) * | 2019-12-18 | 2020-05-15 | 车智互联(北京)科技有限公司 | 一种基于神经网络的命名实体识别方法、计算设备及存储介质 |
CN111191459A (zh) * | 2019-12-25 | 2020-05-22 | 医渡云(北京)技术有限公司 | 一种文本处理方法、装置、可读介质及电子设备 |
CN111274817A (zh) * | 2020-01-16 | 2020-06-12 | 北京航空航天大学 | 一种基于自然语言处理技术的智能化软件成本度量方法 |
CN111310472A (zh) * | 2020-01-19 | 2020-06-19 | 合肥讯飞数码科技有限公司 | 别名生成方法、装置和设备 |
CN111414757A (zh) * | 2019-01-04 | 2020-07-14 | 阿里巴巴集团控股有限公司 | 一种文本识别方法及装置 |
CN111428501A (zh) * | 2019-01-09 | 2020-07-17 | 北大方正集团有限公司 | 命名实体的识别方法、识别系统及计算机可读存储介质 |
CN111476022A (zh) * | 2020-05-15 | 2020-07-31 | 湖南工商大学 | 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质 |
CN111651995A (zh) * | 2020-06-07 | 2020-09-11 | 上海建科工程咨询有限公司 | 基于深度循环神经网络的事故信息自动提取方法及系统 |
CN111859933A (zh) * | 2020-05-11 | 2020-10-30 | 广东外语外贸大学 | 马来语识别模型的训练方法、识别方法、装置、设备 |
CN111950277A (zh) * | 2019-04-30 | 2020-11-17 | 中移(苏州)软件技术有限公司 | 商情实体确定方法、装置和存储介质 |
CN112016313A (zh) * | 2020-09-08 | 2020-12-01 | 迪爱斯信息技术股份有限公司 | 口语化要素识别方法及装置、警情分析系统 |
CN112036178A (zh) * | 2020-08-25 | 2020-12-04 | 国家电网有限公司 | 一种配网实体相关的语义搜索方法 |
CN112242200A (zh) * | 2020-09-30 | 2021-01-19 | 吾征智能技术(北京)有限公司 | 一种基于流行性感冒智能认知模型的系统及设备 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112733540A (zh) * | 2020-12-31 | 2021-04-30 | 三维通信股份有限公司 | 生物医学命名实体的检测方法、装置、计算机设备和介质 |
CN113128225A (zh) * | 2019-12-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 命名实体的识别方法、装置、电子设备及计算机存储介质 |
CN113190602A (zh) * | 2021-04-09 | 2021-07-30 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113239692A (zh) * | 2021-05-12 | 2021-08-10 | 同方知网数字出版技术股份有限公司 | 一种基于古代汉语的分词方法 |
CN113377953A (zh) * | 2021-05-31 | 2021-09-10 | 电子科技大学 | 一种基于palc-dca模型的实体融合及分类方法 |
CN113488035A (zh) * | 2020-04-28 | 2021-10-08 | 海信集团有限公司 | 一种语音信息的处理方法、装置、设备及介质 |
CN113515946A (zh) * | 2021-06-22 | 2021-10-19 | 湖北亿咖通科技有限公司 | 信息处理方法及装置 |
WO2022078102A1 (zh) * | 2020-10-14 | 2022-04-21 | 腾讯科技(深圳)有限公司 | 一种实体识别方法、装置、设备以及存储介质 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
-
2017
- 2017-09-25 CN CN201710874154.7A patent/CN107644014A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
GUILLAUME LAMPLE: "Neural Architectures for Named Entity Recognition", 《CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS:HUMAN LANGUAGE TECHNOLOGIES》 * |
朱佳晖: "基于深度学习的主题建模方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (105)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415950B (zh) * | 2018-02-01 | 2021-03-23 | 腾讯科技(深圳)有限公司 | 一种上位词聚合方法及装置 |
CN108460012A (zh) * | 2018-02-01 | 2018-08-28 | 哈尔滨理工大学 | 一种基于gru-crf的命名实体识别方法 |
CN108415950A (zh) * | 2018-02-01 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 一种上位词聚合方法及装置 |
CN110321547A (zh) * | 2018-03-30 | 2019-10-11 | 北京四维图新科技股份有限公司 | 一种命名实体确定方法及装置 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108536679B (zh) * | 2018-04-13 | 2022-05-20 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108920446A (zh) * | 2018-04-25 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种工程文本的处理方法 |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN108717409A (zh) * | 2018-05-16 | 2018-10-30 | 联动优势科技有限公司 | 一种序列标注方法及装置 |
CN108717410A (zh) * | 2018-05-17 | 2018-10-30 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN108830848A (zh) * | 2018-05-25 | 2018-11-16 | 深圳科亚医疗科技有限公司 | 利用计算机确定血管上的血管状况参数的序列的装置和系统 |
US11538161B2 (en) | 2018-05-25 | 2022-12-27 | Shenzhen Keya Medical Technology Corporation | Systems and methods for determining blood vessel conditions |
CN108829681A (zh) * | 2018-06-28 | 2018-11-16 | 北京神州泰岳软件股份有限公司 | 一种命名实体提取方法及装置 |
CN108829681B (zh) * | 2018-06-28 | 2022-11-11 | 鼎富智能科技有限公司 | 一种命名实体提取方法及装置 |
CN109214642B (zh) * | 2018-07-10 | 2020-09-18 | 华中科技大学 | 一种建筑施工工序约束的自动抽取和分类方法及系统 |
CN109214642A (zh) * | 2018-07-10 | 2019-01-15 | 华中科技大学 | 一种建筑施工工序约束的自动抽取和分类方法及系统 |
CN109002436A (zh) * | 2018-07-12 | 2018-12-14 | 上海金仕达卫宁软件科技有限公司 | 基于长短期记忆网络的医疗文本术语自动识别方法及系统 |
CN109255119A (zh) * | 2018-07-18 | 2019-01-22 | 五邑大学 | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 |
CN109190110B (zh) * | 2018-08-02 | 2023-08-22 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
CN109190110A (zh) * | 2018-08-02 | 2019-01-11 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
CN109190113B (zh) * | 2018-08-10 | 2021-08-31 | 北京科技大学 | 一种中医理论典籍的知识图谱构建方法 |
CN110866093A (zh) * | 2018-08-10 | 2020-03-06 | 珠海格力电器股份有限公司 | 机器问答方法及装置 |
CN109190113A (zh) * | 2018-08-10 | 2019-01-11 | 北京科技大学 | 一种中医理论典籍的知识图谱构建方法 |
CN109344390A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 一种基于多特征神经网络的柬语实体识别的方法 |
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN109446530A (zh) * | 2018-11-03 | 2019-03-08 | 上海犀语科技有限公司 | 一种基于lstm模型由文本中抽取信息的方法及装置 |
CN109408626A (zh) * | 2018-11-09 | 2019-03-01 | 苏州思必驰信息科技有限公司 | 对自然语言进行处理的方法及装置 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109408626B (zh) * | 2018-11-09 | 2021-09-21 | 思必驰科技股份有限公司 | 对自然语言进行处理的方法及装置 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN109635279B (zh) * | 2018-11-22 | 2022-07-26 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN109284400B (zh) * | 2018-11-28 | 2020-10-23 | 电子科技大学 | 一种基于Lattice LSTM和语言模型的命名实体识别方法 |
CN109284400A (zh) * | 2018-11-28 | 2019-01-29 | 电子科技大学 | 一种基于Lattice LSTM和语言模型的命名实体识别方法 |
CN109635288B (zh) * | 2018-11-29 | 2023-05-23 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN109558569A (zh) * | 2018-12-14 | 2019-04-02 | 昆明理工大学 | 一种基于BiLSTM+CRF模型的老挝语词性标注方法 |
CN109753653A (zh) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | 实体名称识别方法、装置、计算机设备和存储介质 |
CN109389982A (zh) * | 2018-12-26 | 2019-02-26 | 江苏满运软件科技有限公司 | 发货信息语音识别方法、系统、设备及存储介质 |
CN111414757B (zh) * | 2019-01-04 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 一种文本识别方法及装置 |
CN111414757A (zh) * | 2019-01-04 | 2020-07-14 | 阿里巴巴集团控股有限公司 | 一种文本识别方法及装置 |
CN111428501A (zh) * | 2019-01-09 | 2020-07-17 | 北大方正集团有限公司 | 命名实体的识别方法、识别系统及计算机可读存储介质 |
CN109918647A (zh) * | 2019-01-30 | 2019-06-21 | 中国科学院信息工程研究所 | 一种安全领域命名实体识别方法及神经网络模型 |
CN109858037A (zh) * | 2019-02-27 | 2019-06-07 | 华侨大学 | 一种对ocr识别结果进行结构化输出的方法及系统 |
CN109977402B (zh) * | 2019-03-11 | 2022-11-11 | 北京明略软件系统有限公司 | 一种命名实体识别方法及系统 |
CN109977402A (zh) * | 2019-03-11 | 2019-07-05 | 北京明略软件系统有限公司 | 一种命名实体识别方法及系统 |
CN109902307B (zh) * | 2019-03-15 | 2023-06-02 | 北京金山数字娱乐科技有限公司 | 命名实体识别方法、命名实体识别模型的训练方法及装置 |
CN109902307A (zh) * | 2019-03-15 | 2019-06-18 | 北京金山数字娱乐科技有限公司 | 命名实体识别方法、命名实体识别模型的训练方法及装置 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
WO2020215870A1 (zh) * | 2019-04-22 | 2020-10-29 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN109871545B (zh) * | 2019-04-22 | 2022-08-05 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
US11574124B2 (en) | 2019-04-22 | 2023-02-07 | Boe Technology Group Co., Ltd. | Method and apparatus of recognizing named entity |
CN110188761A (zh) * | 2019-04-22 | 2019-08-30 | 平安科技(深圳)有限公司 | 验证码的识别方法、装置、计算机设备和存储介质 |
CN111950277A (zh) * | 2019-04-30 | 2020-11-17 | 中移(苏州)软件技术有限公司 | 商情实体确定方法、装置和存储介质 |
CN110134954B (zh) * | 2019-05-06 | 2023-12-22 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110134956A (zh) * | 2019-05-14 | 2019-08-16 | 南京邮电大学 | 基于blstm-crf的地名组织名识别方法 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN110222337A (zh) * | 2019-05-28 | 2019-09-10 | 浙江邦盛科技有限公司 | 一种基于transformer和CRF的中文地址分词方法 |
CN110222337B (zh) * | 2019-05-28 | 2022-12-02 | 浙江邦盛科技股份有限公司 | 一种基于transformer和CRF的中文地址分词方法 |
CN110210036A (zh) * | 2019-06-05 | 2019-09-06 | 上海云绅智能科技有限公司 | 一种意图识别方法及装置 |
CN110222343A (zh) * | 2019-06-13 | 2019-09-10 | 电子科技大学 | 一种中药种植资源命名实体识别方法 |
CN110634546A (zh) * | 2019-08-14 | 2019-12-31 | 中国科学院苏州生物医学工程技术研究所 | 电子病历文本规范化检测方法 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110705294A (zh) * | 2019-09-11 | 2020-01-17 | 苏宁云计算有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN110705294B (zh) * | 2019-09-11 | 2023-06-23 | 苏宁云计算有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN110738051A (zh) * | 2019-09-17 | 2020-01-31 | 北京三快在线科技有限公司 | 菜名实体识别方法、装置、电子设备及存储介质 |
CN110969681B (zh) * | 2019-11-29 | 2023-08-29 | 山东浪潮科学研究院有限公司 | 一种基于gan网络的手写体书法文字生成方法 |
CN110969681A (zh) * | 2019-11-29 | 2020-04-07 | 山东浪潮人工智能研究院有限公司 | 一种基于gan网络的手写体书法文字生成方法 |
CN111160033B (zh) * | 2019-12-18 | 2024-02-27 | 车智互联(北京)科技有限公司 | 一种基于神经网络的命名实体识别方法、计算设备及存储介质 |
CN111160033A (zh) * | 2019-12-18 | 2020-05-15 | 车智互联(北京)科技有限公司 | 一种基于神经网络的命名实体识别方法、计算设备及存储介质 |
CN111191459B (zh) * | 2019-12-25 | 2023-12-12 | 医渡云(北京)技术有限公司 | 一种文本处理方法、装置、可读介质及电子设备 |
CN111191459A (zh) * | 2019-12-25 | 2020-05-22 | 医渡云(北京)技术有限公司 | 一种文本处理方法、装置、可读介质及电子设备 |
CN111126040B (zh) * | 2019-12-26 | 2023-06-20 | 贵州大学 | 一种基于深度边界组合的生物医学命名实体识别方法 |
CN111126040A (zh) * | 2019-12-26 | 2020-05-08 | 贵州大学 | 一种基于深度边界组合的生物医学命名实体识别方法 |
CN113128225A (zh) * | 2019-12-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 命名实体的识别方法、装置、电子设备及计算机存储介质 |
CN111274817A (zh) * | 2020-01-16 | 2020-06-12 | 北京航空航天大学 | 一种基于自然语言处理技术的智能化软件成本度量方法 |
CN111310472B (zh) * | 2020-01-19 | 2024-02-09 | 合肥讯飞数码科技有限公司 | 别名生成方法、装置和设备 |
CN111310472A (zh) * | 2020-01-19 | 2020-06-19 | 合肥讯飞数码科技有限公司 | 别名生成方法、装置和设备 |
CN113488035A (zh) * | 2020-04-28 | 2021-10-08 | 海信集团有限公司 | 一种语音信息的处理方法、装置、设备及介质 |
CN111859933B (zh) * | 2020-05-11 | 2023-08-22 | 广东外语外贸大学 | 马来语识别模型的训练方法、识别方法、装置、设备 |
CN111859933A (zh) * | 2020-05-11 | 2020-10-30 | 广东外语外贸大学 | 马来语识别模型的训练方法、识别方法、装置、设备 |
CN111476022A (zh) * | 2020-05-15 | 2020-07-31 | 湖南工商大学 | 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质 |
CN111651995A (zh) * | 2020-06-07 | 2020-09-11 | 上海建科工程咨询有限公司 | 基于深度循环神经网络的事故信息自动提取方法及系统 |
CN112036178A (zh) * | 2020-08-25 | 2020-12-04 | 国家电网有限公司 | 一种配网实体相关的语义搜索方法 |
CN112016313B (zh) * | 2020-09-08 | 2024-02-13 | 迪爱斯信息技术股份有限公司 | 口语化要素识别方法及装置、警情分析系统 |
CN112016313A (zh) * | 2020-09-08 | 2020-12-01 | 迪爱斯信息技术股份有限公司 | 口语化要素识别方法及装置、警情分析系统 |
CN112242200A (zh) * | 2020-09-30 | 2021-01-19 | 吾征智能技术(北京)有限公司 | 一种基于流行性感冒智能认知模型的系统及设备 |
WO2022078102A1 (zh) * | 2020-10-14 | 2022-04-21 | 腾讯科技(深圳)有限公司 | 一种实体识别方法、装置、设备以及存储介质 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112733540A (zh) * | 2020-12-31 | 2021-04-30 | 三维通信股份有限公司 | 生物医学命名实体的检测方法、装置、计算机设备和介质 |
CN113190602A (zh) * | 2021-04-09 | 2021-07-30 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113190602B (zh) * | 2021-04-09 | 2022-03-25 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113239692A (zh) * | 2021-05-12 | 2021-08-10 | 同方知网数字出版技术股份有限公司 | 一种基于古代汉语的分词方法 |
CN113377953B (zh) * | 2021-05-31 | 2022-06-21 | 电子科技大学 | 一种基于palc-dca模型的实体融合及分类方法 |
CN113377953A (zh) * | 2021-05-31 | 2021-09-10 | 电子科技大学 | 一种基于palc-dca模型的实体融合及分类方法 |
CN113515946B (zh) * | 2021-06-22 | 2024-01-05 | 亿咖通(湖北)技术有限公司 | 信息处理方法及装置 |
CN113515946A (zh) * | 2021-06-22 | 2021-10-19 | 湖北亿咖通科技有限公司 | 信息处理方法及装置 |
CN115470871B (zh) * | 2022-11-02 | 2023-02-17 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644014A (zh) | 一种基于双向lstm和crf的命名实体识别方法 | |
CN108763284B (zh) | 一种基于深度学习和主题模型的问答系统实现方法 | |
CN108268444B (zh) | 一种基于双向lstm、cnn和crf的中文分词方法 | |
JP7072585B2 (ja) | 文脈固有の単語ベクトルを用いた自然言語処理 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN107924680A (zh) | 口语理解系统 | |
WO2021155699A1 (zh) | 面向中文长文本自动摘要的全局编码方法 | |
CN106126507A (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
CN108415977A (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN110826338B (zh) | 一种单选择门与类间度量的细粒度语义相似识别的方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN112541063B (zh) | 一种基于自学习对话模型的人机对话方法及系统 | |
CN107341145A (zh) | 一种基于深度学习的用户情感分析方法 | |
CN108171198A (zh) | 基于非对称多层lstm的连续手语视频自动翻译方法 | |
CN108153864A (zh) | 基于神经网络生成文本摘要的方法 | |
CN108628935A (zh) | 一种基于端到端记忆网络的问答方法 | |
CN112115247A (zh) | 一种基于长短时记忆信息的个性化对话生成方法和系统 | |
CN107273426A (zh) | 一种基于深度语义路径搜索的短文本聚类方法 | |
CN110188175A (zh) | 一种基于BiLSTM-CRF模型的问答对抽取方法、系统及存储介质 | |
CN110069611B (zh) | 一种主题增强的聊天机器人回复生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180130 |