CN111008526A - 一种基于双通道神经网络的命名实体识别方法 - Google Patents
一种基于双通道神经网络的命名实体识别方法 Download PDFInfo
- Publication number
- CN111008526A CN111008526A CN201911243301.6A CN201911243301A CN111008526A CN 111008526 A CN111008526 A CN 111008526A CN 201911243301 A CN201911243301 A CN 201911243301A CN 111008526 A CN111008526 A CN 111008526A
- Authority
- CN
- China
- Prior art keywords
- word
- neural network
- named entity
- vector
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于双通道神经网络的命名实体识别方法,包括以下步骤:首先建立命名实体识别语料库并对语料库进行分词、标注,形成标注语料;然后使用已训练的不同词向量工具将标注语料映射成对应的词向量表示并加入利用卷积神经网络(CNN)得到的词语字级向量特征,再将两者进行拼接作为方法不同通道的输入;最后利用BLSTM+CRF将BLSTM输出的特征向量采用维特比算法解码为一个最优的标记序列从而完成命名实体识别。本发明相比传统方法,本方法的输入带有更丰富的语义信息且多通道输入在提高识别性能的情况下保持高的计算效率。
Description
技术领域
本发明涉及自然语言处理领域,具体是一种基于双通道神经网络的命名实体识别方法。
背景技术
命名实体识别(Named entity recognition,NER)是自然语言处理任务的一项基础工作,它的主要任务是自动识别出信息文本中具有特定意义的实体,从狭义上来说就是识别出文本中包含的人名、地名、组织机构名等专有名词。例如“王小强同学将参加达观数据主办的‘达观杯’数据挖掘大赛”,其中“王小强”、“达观数据”就是我们要识别的命名实体。命名实体识别主要包括两部分:实体边界识别和确定实体类别。其识别效果对后续的信息提取、问答系统、句法分析、机器翻译和知识库构建等研究和应用有重要意义。
研究者们早已对命名实体识别任务提出了不少方法:从早期的基于规则和字典的方法,到基于统计机器学习的方法然后到最近几年基于神经网络的方法。这些方法在诸多领域的命名实体识别中都取得了一定的成果,例如生物医学领域、新闻领域、渔业领域和军事领域等。基于规则和字典的方法需要人为制定一些规则模板和字典,这就需要大量的语言知识,而且不同语言的识别规则不尽相同,还需要谨慎处理规则之间的冲突问题;此外,构建的规则领域移植性不好。基于统计机器学习的方法中比较常用的是特征模板与条件随机场(CRF)的结合,此方法识别效果虽优于前一种方法,但是特征模板的构建也是一件费时费力的事。结合两种方法的不足加上深度学习的深入,神经网络成为可以有效处理NER任务的模型。这类方法将NER视为序列标注任务,将词或者字从离散的one-hot表示映射到低维空间中成为稠密的词向量,随后将句子的词向量序列输入到神经网络中,用神经网络自动提取特征,Softmax或者CRF来预测每个词的标签。这种方法使得模型的训练成为一个端到端的整体过程,不依赖特征工程。
发明内容
本发明的目的是解决命名实体识别方法中基于传统方法费时费力、基于传统机器学习方法依赖单一词向量表征能力的问题,提出一种基于双通道神经网络的命名实体识别方法。该方法通过使用不同的词向量工具为输入带来更丰富的语义信息,从而使网络学习出区分度更加明显的特征,最后CRF采用维特比算法将输出的特征向量解码为一个最优的标记序列。
本发明实现发明目的采用如下技术方案,其步骤包括如下:
①建立命名实体识别语料库并对语料库进行分词、标注,形成标注语料;
②使用已训练的不同词向量工具将标注语料映射成对应的词向量表示;
③对于语句中的每个词语,将词语中的每一个字转换为字向量,然后对字向量组成词语的字向量矩阵引入卷积神经网络(CNN)进行卷积、池化操作,获得每个词语的字级向量特征;
④将词向量和经过CNN提取的字级特征向量进行拼接作为模型不同通道的输入;
⑤使用双向长短时记忆网络(BLSTM)对上一步的输出自动提取上下文特征向量;
⑥通过条件随机场(CRF)将BLSTM输出的特征向量采用维特比算法解码为一个最优的标记序列来完成命名实体识别;
作为优选,本发明提供的一种基于双通道神经网络的命名实体识别方法,首先利用中科院的分词工具NLPIR对训练语料进行分词处理,按照BMEOS的方式对训练语料进行标注,其中B表示命名实体首部,M表示命名实体中间,E表示命名实体尾部,S表示本身就是一个命名实体,O表示不是命名实体。
作为优选,本发明提供的一种基于双通道神经网络的命名实体识别方法,使用的词向量工具采用Google提供的word2vec和由斯坦福大学提供的Glove,word2vec使用搜狗实验室提供的新闻语料库来训练,训练得到的词向量表记为V1,Glove使用中文维基百科来训练,训练得到的词向量表记为V2;
作为优选,本发明提供的一种基于双通道神经网络的命名实体识别方法,将分词后语料中的每个词语的每一个字转换为字向量,然后对字向量组成词语的字向量矩阵引入卷积神经网络(CNN)进行卷积、池化操作,获得每个词语的字级向量特征,最后将词向量和经过CNN提取的字级特征向量进行拼接作为模型不同通道的输入;
作为优选,本发明提供的一种基于双通道神经网络的命名实体识别方法,利用BLSTM来自动学习特征是因为在BLSTM中独特设计的门结构可以有选择地保存上下文信息,更适合于序列标记问题如命名实体识别。正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,从而得到BLSTM的输出矩阵A;
作为优选,本发明提供的一种基于双通道神经网络的命名实体识别方法,CRF通过考虑相邻标签之间的关系,可以获得全局最优标签序列,得到转移矩阵P;
作为优选,本发明提供的一种基于双通道神经网络的命名实体识别方法,给定一个句子序列,通过CRF输出标签序列的概率为:
其中,l为一个长度为n的标签序列;
本发明的有益效果是:与现有技术相比,其有益效果体现在:采用多通道可以并行计算,在提高抽取性能的情况下保持高的计算效率而且多通道的输入增加了输入的语义信息从而神经网络学习出的特征更加适合和准确。最后,在未来的研究中我们可以增加另一个通道进一步提高方法的效果。
附图说明
图1是本发明步骤流程图
图2是CNN训练词语的字级向量特征结构图
图3是LSTM单元图
具体实施方式
为了能够使本发明的上述目的、特征和优点能够更加明显易懂,通过结合具体实施案例和附图对本发明做进一步解释说明。
实施例1:如图1所示,一种基于双通道神经网络的命名实体识别方法,首先建立命名实体识别语料库并对语料库进行分词、标注,形成标注语料;然后使用已训练的不同词向量工具将标注语料映射成对应的词向量表示并加入词语的字级向量特征作为模型不同通道的输入;最后利用BLSTM+CRF将BLSTM输出的特征向量采用维特比算法解码为一个最优的标记序列来完成命名实体识别;
具体步骤为:
①建立命名实体识别语料库并对语料库进行分词、标注,形成标注语料;
②使用已训练的不同词向量工具将标注语料映射成对应的词向量表示;
③对于语句中的每个词语,将词语中的每一个字转换为字向量,然后对字向量组成词语的字向量矩阵引入卷积神经网络(CNN)进行卷积、池化操作,获得每个词语的字级向量特征;
④将词向量和经过CNN提取的字级特征向量进行拼接作为模型不同通道的输入;
⑤使用双向长短时记忆网络(BLSTM)对上一步的输出自动提取上下文特征向量;
⑥通过条件随机场(CRF)将BLSTM输出的特征向量采用维特比算法解码为一个最优的标记序列来完成命名实体识别;
步骤①所述的语料库采用1998年1月份的《人民日报》利用中科院的分词工具NLPIR进行分词,去除噪声;然后再利用BMES的方式对训练语料进行标注,其中B表示词的首部,M表示词中间,E表示词的尾部,S表示本身就是一个词语;
进一步,步骤②所述的词向量工具采用Google提供的word2vec和由斯坦福大学提供的Glove,word2vec使用搜狗实验室提供的新闻语料库来训练,训练得到的词向量表记为V1,Glove使用中文维基百科来训练,训练得到的词向量表记为V2。
进一步,步骤③将语句中词语的每一个字转换为字向量,然后将字向量组成字向量矩阵利用卷积神经网络(CNN)提取词的字级特征,如图2所示。
进一步,步骤④将词向量和经过CNN提取的字级特征向量进行拼接作为模型不同通道的输入。
进一步,步骤⑤引入BLSTM,将拼接后的字词向量输入BLSTM中,让其自动学习出特征向量。如图3所示LSTM中独特设计的门结构可以有选择地保存上下文信息,更适合于序列标记问题如命名实体识别。正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,从而得到双向LSTM的输出矩阵A。
进一步,步骤⑥对上一步输出的矩阵A利用CRF采用维特比算法解码为一个最优的标记序列来完成命名实体识别。CRF通过考虑相邻标签之间的关系,可以获得全局最优标签序列,得到转移矩阵P。,一个长度为n的标签序列通过模型计算后的总得分P(x,y)的计算公式为:
其中,l为一个长度为n的标签序列。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (7)
1.一种基于双通道神经网络的命名实体识别方法,其特征在于,包括以下步骤:
①建立命名实体识别语料库并对语料库进行分词、标注,形成标注语料;
②使用已训练的不同词向量工具将标注语料映射成对应的词向量表示;
③对于语句中的每个词语,将词语中的每一个字转换为字向量,然后对字向量组成词语的字向量矩阵引入卷积神经网络(CNN)进行卷积、池化操作,获得每个词语的字级向量特征;
④将词向量和经过CNN提取的字级特征向量进行拼接作为模型不同通道的输入;
⑤使用双向长短时记忆网络(BLSTM)对上一步的输出自动提取上下文特征向量;
⑥通过条件随机场(CRF)将BLSTM输出的特征向量采用维特比算法解码为一个最优的标记序列来完成命名实体识别。
2.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法,其特征在于:步骤①使用中科院的分词工具NLPIR对语料库进行分词处理,按照BMEOS的方式对训练语料进行标注,其中B表示词的首部,M表示词中间,E表示词的尾部,S表示本身就是一个词语。
3.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法,其特征在于:步骤②使用的词向量工具采用Google提供的word2vec和由斯坦福大学提供的Glove,word2vec使用搜狗实验室提供的新闻语料库来训练,训练得到的词向量表记为V1,Glove使用中文维基百科来训练,训练得到的词向量表记为V2。
4.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法,其特征在于:步骤③将分词后文本中的每个词语的每一个字转换为字向量,然后对字向量组成词语的字向量矩阵引入卷积神经网络(CNN)进行卷积、池化操作,获得每个词语的字级向量特征。
5.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法,其特征在于:步骤⑤LSTM中独特设计的门结构可以有选择地保存上下文信息,更适合于序列标记问题如命名实体识别,正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,从而得到双向LSTM的输出矩阵A。
6.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法,其特征在于:步骤⑥中的CRF通过考虑相邻标签之间的关系,可以获得全局最优标签序列,得到转移矩阵P。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911243301.6A CN111008526A (zh) | 2019-12-06 | 2019-12-06 | 一种基于双通道神经网络的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911243301.6A CN111008526A (zh) | 2019-12-06 | 2019-12-06 | 一种基于双通道神经网络的命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111008526A true CN111008526A (zh) | 2020-04-14 |
Family
ID=70113919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911243301.6A Withdrawn CN111008526A (zh) | 2019-12-06 | 2019-12-06 | 一种基于双通道神经网络的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008526A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737999A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种序列标注方法、装置、设备及可读存储介质 |
CN112101028A (zh) * | 2020-08-17 | 2020-12-18 | 淮阴工学院 | 一种多特征双向门控领域专家实体抽取方法及系统 |
CN112699684A (zh) * | 2020-12-30 | 2021-04-23 | 北京明朝万达科技股份有限公司 | 命名实体识别方法和装置、计算机可读存储介质及处理器 |
CN113035303A (zh) * | 2021-02-09 | 2021-06-25 | 北京工业大学 | 一种中文电子病历的命名实体类别标注方法与系统 |
CN113158643A (zh) * | 2021-04-27 | 2021-07-23 | 广东外语外贸大学 | 一种新型文本可读性评估方法及系统 |
CN114154505A (zh) * | 2021-12-07 | 2022-03-08 | 国网四川省电力公司经济技术研究院 | 一种面向电力规划评审领域的命名实体识别方法 |
CN114154505B (zh) * | 2021-12-07 | 2024-07-16 | 国网四川省电力公司经济技术研究院 | 一种面向电力规划评审领域的命名实体识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
-
2019
- 2019-12-06 CN CN201911243301.6A patent/CN111008526A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737999A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种序列标注方法、装置、设备及可读存储介质 |
CN112101028A (zh) * | 2020-08-17 | 2020-12-18 | 淮阴工学院 | 一种多特征双向门控领域专家实体抽取方法及系统 |
CN112101028B (zh) * | 2020-08-17 | 2022-08-26 | 淮阴工学院 | 一种多特征双向门控领域专家实体抽取方法及系统 |
CN112699684A (zh) * | 2020-12-30 | 2021-04-23 | 北京明朝万达科技股份有限公司 | 命名实体识别方法和装置、计算机可读存储介质及处理器 |
CN113035303A (zh) * | 2021-02-09 | 2021-06-25 | 北京工业大学 | 一种中文电子病历的命名实体类别标注方法与系统 |
CN113158643A (zh) * | 2021-04-27 | 2021-07-23 | 广东外语外贸大学 | 一种新型文本可读性评估方法及系统 |
CN113158643B (zh) * | 2021-04-27 | 2024-05-28 | 广东外语外贸大学 | 一种新型文本可读性评估方法及系统 |
CN114154505A (zh) * | 2021-12-07 | 2022-03-08 | 国网四川省电力公司经济技术研究院 | 一种面向电力规划评审领域的命名实体识别方法 |
CN114154505B (zh) * | 2021-12-07 | 2024-07-16 | 国网四川省电力公司经济技术研究院 | 一种面向电力规划评审领域的命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083831B (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN111008526A (zh) | 一种基于双通道神经网络的命名实体识别方法 | |
CN109635279B (zh) | 一种基于神经网络的中文命名实体识别方法 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN109284400B (zh) | 一种基于Lattice LSTM和语言模型的命名实体识别方法 | |
CN111563383A (zh) | 一种基于BERT与SemiCRF的中文命名实体识别方法 | |
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
CN110598203B (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN110717331B (zh) | 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质 | |
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN109359291A (zh) | 一种命名实体识别方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN109871535A (zh) | 一种基于深度神经网络的法语命名实体识别方法 | |
CN108932226A (zh) | 一种对无标点文本添加标点符号的方法 | |
CN110276052B (zh) | 一种古汉语自动分词及词性标注一体化方法及装置 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN111144119B (zh) | 一种改进知识迁移的实体识别方法 | |
CN110852040B (zh) | 一种标点预测模型训练方法及文本标点确定方法 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN110362820A (zh) | 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 | |
CN111159332A (zh) | 一种基于bert的文本多意图识别方法 | |
CN110046356A (zh) | 标签嵌入在微博文本情绪多标签分类中的应用研究 | |
CN109446523A (zh) | 基于BiLSTM和条件随机场的实体属性抽取模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200414 |