CN111476022A - 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质 - Google Patents

实体特征的字符嵌入及混合lstm实体识别方法、系统及介质 Download PDF

Info

Publication number
CN111476022A
CN111476022A CN202010413875.XA CN202010413875A CN111476022A CN 111476022 A CN111476022 A CN 111476022A CN 202010413875 A CN202010413875 A CN 202010413875A CN 111476022 A CN111476022 A CN 111476022A
Authority
CN
China
Prior art keywords
stm
character
word
entity recognition
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010413875.XA
Other languages
English (en)
Other versions
CN111476022B (zh
Inventor
赵强利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202010413875.XA priority Critical patent/CN111476022B/zh
Publication of CN111476022A publication Critical patent/CN111476022A/zh
Application granted granted Critical
Publication of CN111476022B publication Critical patent/CN111476022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质,本发明实体特征的字符嵌入方法通过字符嵌入表示实体命名特征,使得实体特征也能作为LSTM深度神经能网络的输入;本发明混合LSTM实体识别方法将文档中单词的拼写字符序列和特征字符序列分别作为两个字符级LSTM的输入,输出作为词级的实体识别LSTM的输入,利用字符级LSTM获取单词的构成特征,不仅能够准确获取生物医学领域实体的特征,且避免了生物医学领域实体出现次数少导致词向量难以获取的问题,基于字符嵌入的实体识别混合LSTM模型克服了传统LSTM实体识别方法在生物医学领域的应用缺陷,提高了生物医学领域实体识别的准确性。

Description

实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质
技术领域
本发明涉及生物医学领域的基因数据处理技术,具体涉及一种实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质。
背景技术
PubMed论文库中有约3000万篇的论文摘要,是生物医学领域进行文本挖掘的重要数据来源,从这些摘要数据中自动提取基因、变异、疾病等实体及实体间的关系,可为上层应用开发提供高质量的基础数据支撑。
生物医学领域的实体存在明显的特征,例如,基因的命名方式经常是大写字母和数字的组合,如:BRCA1,WDR35,UGT2A3等,基因的数目多达数十万个;变异的命名方式与变异在染色体中的位置密切相关,有用RS号表示的,rs开头,后面跟dbSNP数据库的编号,如rs13306072,也有用碱基变化描述的,通常用c.开头,后面跟碱基位置和变化信息,如c.1177C>G,也有用氨基酸变化描述的,用p.开头,后面跟氨基酸的位置和变化信息,如:p.Ser257Leu等。人类基因组约有30亿个DNA碱基对,不同的碱基对变化都会产生不同的变异描述,导致变异的数目十分庞大。因此生物医学领域的实体具有名称特征明显,实体数量庞大,单个实体在文献中出现的次数少等特点。
采用深度学习技术,如长短期记忆网络LSTM(Long Short-Term Memory)等深度神经网络,是进行实体识别的重要方法。利用LSTM进行实体识别的传统方式是采用词嵌入技术将单词的词向量作为LSTM网络的输入,来对已经标注了实体位置的训练文档进行训练,其模型结构如图1所示。这种传统的实体识别方法具有如下缺陷:一是生物医学领域实体的命名方式特征明显,但传统的LSTM实体识别学习方法尚未考虑实体命名的特征;二是由于生物医学领域实体的命名方式很特殊,每个实体名称在文献中出现的次数较少,难以准确获取每个实体的词向量。上述缺陷导致基于传统LSTM方法的生物医学实体识别技术预测精度较低。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质,本发明将生物医学领域实体的命名特征用于LSTM生物医学实体识别,能够提高LSTM模型的对生物医学领域的实体识别精度。
为了解决上述技术问题,本发明采用的技术方案为:
一种实体特征的字符嵌入方法,实施步骤包括:
1)利用分词工具对所有待处理文档进行分词,根据分词结果得到单词构成的拼写字符串列表SList,分词工具可采用NLTK(Natural Language Toolkit)自然语言处理工具包;
2)将拼写字符串列表SList中的每个单词转化为其对应的特征字符串,得到特征字符串列表FList;
3)获取拼写字符串列表SList中各个拼写字符的嵌入向量;
4)获取特征串列表FList中各个特征字符的嵌入向量。
可选地,步骤2)中将拼写字符串列表SList中的每个字符串转化为其对应的特征字符串得到特征字符串列表FList的详细步骤包括:针对拼写字符串列表SList中的每个单词,将该单词中每个大写字母用A代替、将该单词中的每个小写字母用a代替、将该单词中的每个数字用0代替、将该单词中的除字母和数字外的每个其他字符用X代替,从而得到该单词对应的特征字符串,最终得到由所有特征字符串构成的特征字符串列表FList。
可选地,步骤3)中获取拼写字符串列表SList中各个拼写字符的嵌入向量的详细步骤包括:将拼写字符串列表SList作为word2vec工具的输入获得拼写字符串列表SList中各个拼写字符的嵌入向量,且word2vec工具的参数为:采用skip-gram算法、窗口大小为10、分类模型为softmax。
可选地,步骤4)中获取特征字符串列表FList中各个特征字符的嵌入向量的详细步骤包括:将特征字符串列表FList作为word2vec工具的输入获得特征字符串列表FList中各个特征字符的嵌入向量,且word2vec工具的参数为:采用skip-gram算法、窗口大小为10、分类模型为softmax。
一种混合LSTM实体识别方法,实施步骤包括:
S1)初始化已识别的单词数目number的值为0;
S2)从待处理文档的起始位置开始,取出中第number个单词作为当前单词;
S3)利用已训练好的混合LSTM实体识别模型对当前单词进行实体识别:首先采用前述实体特征的字符嵌入方法,将当前单词的拼写字符串看作拼写字符序列,其各个拼写字符的嵌入向量作为实体识别混合LSTM模型中单词拼写的字符级LSTM的输入,输出Vec1;然后将当前单词的特征字符串看作特征字符序列,其各个特征字符的嵌入向量作为实体识别混合LSTM模型中单词特征的字符级LSTM的输入,得到输出Vec2;最后将向量Vec1和Vec2进行拼接,作为实体识别LSTM的输入,获得当前单词的实体识别IOB结果;
S4)如果已处理完待处理文档的所有单词,则实体识别过程结束;否则将已识别的单词数目number的值在原值的基础上加1,跳转执行步骤S2)。
可选地,所述实体识别混合LSTM模型包括两个字符级双向LSTM和一个词级实体识别双向LSTM,所述两个字符级双向LSTM包括单词拼写的字符级LSTM、单词特征的字符级LSTM,所述单词拼写的字符级LSTM用于捕获单词的拼写特征、单词特征的字符级LSTM用于捕获单词的结构特征,两个字符级双向LSTM的输出向量拼接在一起,作为实体识别LSTM的输入,实体识别LSTM的输出即为单词的实体识别IOB结果,所述IOB结果的I表示该单词是实体描述的一个内部单词;O表示该单词不是实体的一部分;B表示该单词是一个实体的起始单词。
可选地,步骤S3)之前还包括训练所述实体识别混合LSTM模型的步骤,详细步骤包括:
I)人工标定数据集作为训练集,训练集中包括一定数量的训练文档,人工标出每篇训练文档中每个实体的位置;
II)初始化实体识别混合LSTM模型;
III)利用训练集,对实体识别混合LSTM模型进行一轮训练;
IV)判断实体识别混合LSTM模型的误差结果是否已经满足模型收敛条件,如果模型的误差结果已经满足模型收敛条件,则训练过程结束并退出;否则跳转执行步骤III)继续下一轮的训练;
其中,步骤III)中对实体识别混合LSTM模型进行一轮训练时,对于训练集中的每个句子,执行如下步骤:
第一步,以空格作为分隔符,将当前的句子划分成若干单词;
第二步,针对划分得到的每个单词执行如下操作:获得单词拼写的字符级LSTM的输出:根据当前单词的拼写字符串,将对应的拼写字符嵌入向量作为单词拼写的字符级LSTM的输入,获得单词拼写的字符级LSTM的输出向量Vec1;获得单词特征的字符级LSTM的输出:根据当前单词的拼写字符串,生成其对应的特征字符串,将对应的特征字符的嵌入向量作为单词特征的字符级LSTM的输入,获得单词特征的字符级LSTM的输出向量Vec2;获得实体识别LSTM的输出:将输出向量Vec1和输出向量Vec2进行拼接,作为实体识别LSTM的输入,获取该单词对应的IOB输出结果;更新模型参数:利用实体识别LSTM的IOB输出结果与训练集对应的标定结果的差,利用梯度下降反向更新整个实体识别混合LSTM模型的所有参数。
此外,本发明还提供一种混合LSTM实体识别系统,包括计算机设备,该计算机设备被编程或配置以执行所述实体特征的字符嵌入方法的步骤,或该计算机设备被编程或配置以执行所述混合LSTM实体识别方法的步骤。
此外,本发明还提供一种混合LSTM实体识别系统,包括计算机设备,该计算机设备的存储器上存储有被编程或配置以执行所述实体特征的字符嵌入方法的计算机程序,或该计算机设备的存储器上存储有被编程或配置以执行所述混合LSTM实体识别方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述实体特征的字符嵌入方法的计算机程序,或计算机可读存储介质上存储有被编程或配置以执行所述混合LSTM实体识别方法的计算机程序。
和现有技术相比,本发明具有下述优点:
1、本发明实体特征的字符嵌入方法对所有待处理文档进行分词,根据分词结果获得文献中所有单词对应的拼写字符串列表SList及特征字符串列表FList;对SList和FList进行学习,获得单词的拼写字符嵌入向量和特征字符嵌入向量,从而可以通过字符嵌入的方式表示实体的命名特征,使得实体的特征也能作为LSTM深度神经网络的输入,为本发明混合LSTM实体识别方法、系统及介质奠定了基础。
2、本发明混合LSTM实体识别方法通过字符嵌入技术,将文档中单词的拼写字符序列和特征字符序列分别作为两个字符级LSTM的输入,它们的输出则作为词级的实体识别LSTM的输入,这种混合LSTM实体识别方法利用字符级LSTM获取单词的构成特征,不仅能够准确获取生物医学领域实体的特征,而且避免了生物医学领域实体出现次数少导致词向量难以获取的问题。基于字符嵌入的实体识别混合LSTM模型,克服了传统LSTM实体识别方法在生物医学领域的应用缺陷,提高了生物医学领域实体识别的准确性。
附图说明
图1为传统长短期记忆网络实体识别LSTM模型的结构示意图。
图2为本发明实施例实体特征的字符嵌入方法的流程图。
图3为本发明实施例混合LSTM实体识别方法的流程图。
图4为本发明实施例实体识别混合LSTM模型的结构示意图。
具体实施方式
下文将以PubMed论文摘要库为例,对本发明实体特征的字符嵌入及混合LSTM实体识别方法、系统及介质进行进一步的详细说明。
如图2所示,本实施例实体特征的字符嵌入方法的实施步骤包括:
1)利用分词工具对待处理文档进行分词,根据分词结果得到单词构成的拼写字符串列表SList,本实施例中分词工具采用NLTK(Natural Language Toolkit)自然语言处理工具包;
2)将拼写字符串列表SList中的每个单词转化为其对应的特征字符串,得到特征字符串列表FList;
3)获取拼写字符串列表SList中各个拼写字符的嵌入向量;
4)获取特征串列表FList中各个特征字符的嵌入向量。
本实施例中,步骤2)中将拼写字符串列表SList中的每个字符串转化为其对应的特征字符串得到特征字符串列表FList的详细步骤包括:针对字符串列表SList中的每个单词:
将该单词中每个大写字母用A代替;
将该单词中的每个小写字母用a代替;
将该单词中的每个数字用0代替;
将该单词中除字母和数字外的每个其他字符用X代替;
从而得到该单词对应的特征字符串,最终得到由所有特征字符串构成的特征字符串列表FList。
本实施例中,步骤3)中获取拼写字符串列表SList中各个拼写字符的嵌入向量的详细步骤包括:将拼写字符串列表SList作为word2vec工具的输入获得拼写字符串列表SList中各个拼写字符的嵌入向量,且word2vec工具的参数为:采用skip-gram算法、窗口大小为10、分类模型为softmax。
本实施例中,步骤4)中获取特征字符串列表FList中各个特征字符的嵌入向量的详细步骤包括:将特征字符串列表FList作为word2vec工具的输入获得特征字符串列表FList中各个特征字符的嵌入向量,且word2vec工具的参数为:采用skip-gram算法、窗口大小为10、分类模型为softmax。
如图3所示,本实施例混合LSTM实体识别方法的实施步骤包括:
S1)初始化已识别的单词数目number的值为0;
S2)从待处理文档的起始位置开始,取出中第number个单词作为当前单词;
S3)利用已训练好的混合LSTM实体识别模型对当前单词进行实体识别:首先采用前述实体特征的字符嵌入方法,将当前单词的拼写字符串看作拼写字符序列,其各个拼写字符的嵌入向量作为实体识别混合LSTM模型中单词拼写的字符级LSTM的输入,输出Vec1;然后将当前单词的特征字符串看作特征字符序列,其各个特征字符的嵌入向量作为实体识别混合LSTM模型中单词特征的字符级LSTM的输入,得到输出Vec2;最后将向量Vec1和Vec2进行拼接,作为实体识别LSTM的输入,获得当前单词的实体识别IOB结果;
S4)如果已处理完待处理文档的所有单词,则实体识别过程结束;否则将已识别的单词数目number的值在原值的基础上加1,跳转执行步骤S2)。
本实施例中实体识别混合LSTM模型的识别原理是:对于文档中的当前单词,将该单词的拼写字符串和特征字符串看作字符序列,将它们的字符嵌入向量分别作为两个字符级LSTM的输入,两个字符级LSTM的输出则作为实体识别LSTM的输入,最后输出单词的IOB结果。
如图4所示,本实施例中的实体识别混合LSTM模型包括两个字符级双向LSTM和一个词级实体识别双向LSTM,所述两个字符级双向LSTM包括单词拼写的字符级LSTM、单词特征的字符级LSTM,所述单词拼写的字符级LSTM用于捕获单词的拼写特征、单词特征的字符级LSTM用于捕获单词的结构特征,两个字符级双向LSTM的输出向量拼接在一起,作为实体识别LSTM的输入,实体识别LSTM的输出即为单词的实体识别IOB结果,所述IOB结果的I(Inside)表示该单词是实体描述的一个内部单词;O(Outside)表示该单词不是实体的一部分;B(Begin)表示该单词是一个实体的起始单词。
本实施例中,步骤S3)之前还包括训练所述实体识别混合LSTM模型的步骤,详细步骤包括:
I)人工标定数据集作为训练集,训练集中包括一定数量的训练文档,人工标出每篇训练文档中每个实体的位置;
II)初始化实体识别混合LSTM模型;
III)利用训练集,对实体识别混合LSTM模型进行一轮训练;
IV)判断实体识别混合LSTM模型的误差结果是否已经满足模型收敛条件,如果模型的误差结果已经满足模型收敛条件,则训练过程结束并退出;否则跳转执行步骤III)继续下一轮的训练;
其中,步骤III)中对实体识别混合LSTM模型进行一轮训练时,对于训练集中的每个句子,执行如下步骤:
第一步,以空格作为分隔符,将当前的句子划分成若干单词;
第二步,针对划分得到的每个单词执行如下操作:
获得单词拼写的字符级LSTM的输出:根据当前单词的拼写字符串,将对应的拼写字符嵌入向量作为单词拼写的字符级LSTM的输入,获得单词拼写的字符级LSTM的输出向量Vec1;
获得单词特征的字符级LSTM的输出:根据当前单词的拼写字符串,生成其对应的特征字符串,将对应的特征字符的嵌入向量作为单词特征的字符级LSTM的输入,获得单词特征的字符级LSTM的输出向量Vec2;
获得实体识别LSTM的输出:将输出向量Vec1和输出向量Vec2进行拼接,作为实体识别LSTM的输入,获取该单词对应的IOB输出结果;
更新模型参数:利用实体识别LSTM的IOB输出结果与训练集对应的标定结果的差,利用梯度下降反向更新整个实体识别混合LSTM模型的所有参数。
混合LSTM模型训练结束后,可用于对文档进行实体识别。在识别过程中,实体识别LSTM输出的I、O、B类别对应的浮点值经过softmax处理,最终得到单词对应的I、O、B类别输出。
综上所述,本实施例首先提出用字符嵌入的方法描述生物医学领域实体的命名特征,然后提出一种基于字符嵌入的混合LSTM模型,用于生物医学领域的实体识别。本实施例的具体实现包括两个主要组成部分:一是单词拼写字符与单词特征字符的字符嵌入向量获取;二是基于字符嵌入的混合LSTM实体识别方法。本实施例的创新点主要包括如下三点:(1)通过字符嵌入的方式表示实体的命名特征,从而使实体的特征也能作为LSTM深度神经网络的输入;(2)通过字符嵌入技术,将单词的拼写字符嵌入向量和特征字符嵌入向量作为实体识别混合LSTM模型的输入,避免了生物医学领域实体出现次数少导致词向量难以获取的问题;(3)提出基于字符嵌入的混合LSTM模型,提高了生物医学领域实体识别的准确性。本实施例克服了传统LSTM实体识别方法在生物医学领域的应用缺陷,提高了生物医学领域实体识别的精度。
此外,本实施例还提供一种混合LSTM实体识别系统,包括计算机设备,该计算机设备被编程或配置以执行前述实体特征的字符嵌入方法的步骤,或该计算机设备被编程或配置以执行前述混合LSTM实体识别方法的步骤。
此外,本实施例还提供一种混合LSTM实体识别系统,包括计算机设备,其特征在于,该计算机设备的存储器上存储有被编程或配置以执行前述实体特征的字符嵌入方法的计算机程序,或该计算机设备的存储器上存储有被编程或配置以执行前述混合LSTM实体识别方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行前述实体特征的字符嵌入方法的计算机程序,或计算机可读存储介质上存储有被编程或配置以执行前述混合LSTM实体识别方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种实体特征的字符嵌入方法,其特征在于实施步骤包括:
1)利用分词工具对所有待处理文档进行分词,根据分词结果得到单词构成的拼写字符串列表SList;
2)将拼写字符串列表SList中的每个单词转化为其对应的特征字符串,得到特征字符串列表FList;
3)获取拼写字符串列表SList中各个拼写字符的嵌入向量;
4)获取特征串列表FList中各个特征字符的嵌入向量。
2.根据权利要求1所述的实体特征的字符嵌入方法,其特征在于,步骤2)中将拼写字符串列表SList中的每个字符串转化为其对应的特征字符串得到特征字符串列表FList的详细步骤包括:针对拼写字符串列表SList中的每个单词,将该单词中每个大写字母用A代替、将该单词中的每个小写字母用a代替、将该单词中的每个数字用0代替、将该单词中的除字母和数字外的每个其他字符用X代替,从而得到该单词对应的特征字符串,最终得到由所有特征字符串构成的特征字符串列表FList。
3.根据权利要求1所述的实体特征的字符嵌入方法,其特征在于,步骤3)中获取拼写字符串列表SList中各个拼写字符的嵌入向量的详细步骤包括:将拼写字符串列表SList作为word2vec工具的输入获得拼写字符串列表SList中各个拼写字符的嵌入向量,且word2vec工具的参数为:采用skip-gram算法、窗口大小为10,分类模型为softmax。
4.根据权利要求1所述的实体特征的字符嵌入方法,其特征在于,步骤4)中获取特征字符串列表FList中各个特征字符的嵌入向量的详细步骤包括:将特征字符串列表FList作为word2vec工具的输入获得特征字符串列表FList中各个特征字符的嵌入向量,且word2vec工具的参数为:采用skip-gram算法、窗口大小为10、分类模型为softmax。
5.一种混合LSTM实体识别方法,其特征在于实施步骤包括:
S1)初始化已识别的单词数目number的值为0;
S2)从待识别文档的起始位置开始,取出中第number个单词作为当前单词;
S3)利用已训练好的混合LSTM实体识别模型对当前单词进行实体识别:首先采用权利要求1~4中任意一项所述的实体特征的字符嵌入方法,将当前单词的拼写字符串看作拼写字符序列,其各个拼写字符的嵌入向量作为实体识别混合LSTM模型中单词拼写的字符级LSTM的输入,输出Vec1;然后将当前单词的特征字符串看作特征字符序列,其各个特征字符的嵌入向量作为实体识别混合LSTM模型中单词特征的字符级LSTM的输入,得到输出Vec2;最后将向量Vec1和Vec2进行拼接,作为实体识别LSTM的输入,获得当前单词的实体识别IOB结果;
S4)如果已处理完待识别文档的所有单词,则实体识别过程结束;否则将已识别的单词数目number的值在原值的基础上加1,跳转执行步骤S2)。
6.根据权利要求5所述混合LSTM实体识别方法,其特征在于,所述实体识别混合LSTM模型包括两个字符级双向LSTM和一个词级实体识别双向LSTM,所述两个字符级双向LSTM包括单词拼写的字符级LSTM、单词特征的字符级LSTM,所述单词拼写的字符级LSTM用于捕获单词的拼写特征、单词特征的字符级LSTM用于捕获单词的结构特征,两个字符级双向LSTM的输出向量拼接在一起,作为实体识别LSTM的输入,实体识别LSTM的输出即为单词的实体识别IOB结果,所述IOB结果的I表示该单词是实体描述的一个内部单词;O表示该单词不是实体的一部分;B表示该单词是一个实体的起始单词。
7.根据权利要求6所述混合LSTM实体识别方法,其特征在于,步骤S3)之前还包括训练所述实体识别混合LSTM模型的步骤,详细步骤包括:
I)人工标定数据集作为训练集,训练集中包括一定数量的训练文档,人工标出每篇训练文档中每个实体的位置;
II)初始化实体识别混合LSTM模型;
III)利用训练集,对实体识别混合LSTM模型进行一轮训练;
IV)判断实体识别混合LSTM模型的误差结果是否已经满足模型收敛条件,如果模型的误差结果已经满足模型收敛条件,则训练过程结束并退出;否则跳转执行步骤III)继续下一轮的训练;
其中,步骤III)中对实体识别混合LSTM模型进行一轮训练时,对于训练集中的每个句子,执行如下步骤:
第一步,以空格作为分隔符,将当前的句子划分成若干单词;
第二步,针对划分得到的每个单词执行如下操作:获得单词拼写的字符级LSTM的输出:根据当前单词的拼写字符串,将对应的拼写字符嵌入向量作为单词拼写的字符级LSTM的输入,获得单词拼写的字符级LSTM的输出向量Vec1;获得单词特征的字符级LSTM的输出:根据当前单词的拼写字符串,生成其对应的特征字符串,将对应的特征字符的嵌入向量作为单词特征的字符级LSTM的输入,获得单词特征的字符级LSTM的输出向量Vec2;获得实体识别LSTM的输出:将输出向量Vec1和输出向量Vec2进行拼接,作为实体识别LSTM的输入,获取该单词对应的IOB输出结果;更新模型参数:利用实体识别LSTM的IOB输出结果与训练集对应的标定结果的差,利用梯度下降反向更新整个实体识别混合LSTM模型的所有参数。
8.一种混合LSTM实体识别系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~4中任意一项所述实体特征的字符嵌入方法的步骤,或该计算机设备被编程或配置以执行权利要求5~7中任意一项所述混合LSTM实体识别方法的步骤。
9.一种混合LSTM实体识别系统,包括计算机设备,其特征在于,该计算机设备的存储器上存储有被编程或配置以执行权利要求1~4中任意一项所述实体特征的字符嵌入方法的计算机程序,或该计算机设备的存储器上存储有被编程或配置以执行权利要求5~7中任意一项所述混合LSTM实体识别方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~4中任意一项所述实体特征的字符嵌入方法的计算机程序,或计算机可读存储介质上存储有被编程或配置以执行权利要求5~7中任意一项所述混合LSTM实体识别方法的计算机程序。
CN202010413875.XA 2020-05-15 2020-05-15 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质 Active CN111476022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010413875.XA CN111476022B (zh) 2020-05-15 2020-05-15 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010413875.XA CN111476022B (zh) 2020-05-15 2020-05-15 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质

Publications (2)

Publication Number Publication Date
CN111476022A true CN111476022A (zh) 2020-07-31
CN111476022B CN111476022B (zh) 2023-07-07

Family

ID=71762387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010413875.XA Active CN111476022B (zh) 2020-05-15 2020-05-15 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质

Country Status (1)

Country Link
CN (1) CN111476022B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN107992467A (zh) * 2017-10-12 2018-05-04 北京知道未来信息技术有限公司 一种基于lstm的混合语料分词方法
CN108182976A (zh) * 2017-12-28 2018-06-19 西安交通大学 一种基于神经网络的临床医学信息提取方法
US20180196599A1 (en) * 2017-01-12 2018-07-12 Samsung Electronics Co., Ltd. System and method for higher order long short-term memory (lstm) network
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
JP2018206261A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN109299458A (zh) * 2018-09-12 2019-02-01 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
US20190065460A1 (en) * 2017-08-31 2019-02-28 Ebay Inc. Deep hybrid neural network for named entity recognition
US20200073882A1 (en) * 2018-08-31 2020-03-05 Accenture Global Solutions Limited Artificial intelligence based corpus enrichment for knowledge population and query response

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
US20180196599A1 (en) * 2017-01-12 2018-07-12 Samsung Electronics Co., Ltd. System and method for higher order long short-term memory (lstm) network
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
JP2018206261A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
US20190065460A1 (en) * 2017-08-31 2019-02-28 Ebay Inc. Deep hybrid neural network for named entity recognition
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107992467A (zh) * 2017-10-12 2018-05-04 北京知道未来信息技术有限公司 一种基于lstm的混合语料分词方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108182976A (zh) * 2017-12-28 2018-06-19 西安交通大学 一种基于神经网络的临床医学信息提取方法
US20200073882A1 (en) * 2018-08-31 2020-03-05 Accenture Global Solutions Limited Artificial intelligence based corpus enrichment for knowledge population and query response
CN109299458A (zh) * 2018-09-12 2019-02-01 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YUSHI YAO等: "Bi-directional LSTM recurrent neural network for Chinese word segmen-tation", pages 345 - 353 *
严红;陈兴蜀;王文贤;王海舟;殷明勇;: "基于深度神经网络的法语命名实体识别模型", no. 05, pages 48 - 52 *
买买提阿依甫;吾守尔・斯拉木;帕丽旦・木合塔尔;杨文忠;: "基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别", no. 08, pages 236 - 242 *
冯艳红;于红;孙庚;孙娟娟;: "基于BLSTM的命名实体识别方法", no. 02, pages 268 - 275 *
黄丹丹;郭玉翠;: "融合attention机制的BI-LSTM-CRF中文分词模型", no. 10, pages 268 - 274 *

Also Published As

Publication number Publication date
CN111476022B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN107004140B (zh) 文本识别方法和计算机程序产品
JP2019087237A (ja) 敵対的ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
JP2019083002A (ja) トリプレット損失ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
CN111949802B (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
US10963717B1 (en) Auto-correction of pattern defined strings
CN113268612B (zh) 基于均值融合的异构信息网知识图谱补全方法和装置
JP5139701B2 (ja) 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN115761764A (zh) 一种基于视觉语言联合推理的中文手写文本行识别方法
CN113609857A (zh) 基于级联模型和数据增强的法律命名实体识别方法及系统
CN113312918A (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN111476022B (zh) 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
CN115017144A (zh) 一种基于图神经网络的司法文书案情要素实体识别方法
CN115687917A (zh) 样本处理方法以及装置、识别模型训练方法及装置
CN112651590B (zh) 一种指令处理流程推荐的方法
CN113139368B (zh) 一种文本编辑方法及系统
CN114579763A (zh) 一种针对中文文本分类任务的字符级对抗样本生成方法
CN110909546B (zh) 一种文本数据的处理方法、装置、设备及介质
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN114677689A (zh) 一种文字图像识别纠错方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant