CN109871545B - 命名实体识别方法及装置 - Google Patents
命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN109871545B CN109871545B CN201910325442.6A CN201910325442A CN109871545B CN 109871545 B CN109871545 B CN 109871545B CN 201910325442 A CN201910325442 A CN 201910325442A CN 109871545 B CN109871545 B CN 109871545B
- Authority
- CN
- China
- Prior art keywords
- word
- training
- vector
- vectors
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Abstract
本发明提供了一种命名实体识别方法及装置,属于信息技术领域。其中,命名实体识别方法,包括:获取训练数据,所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型;将所述训练文本中的词和字符分别转化为词向量和字向量,利用所述词向量和所述字向量训练预设的长短期记忆模型,输出特征向量;利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型;使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。本发明的技术方案能够提高命名实体识别的精度。
Description
技术领域
本发明涉及信息技术领域,特别是指一种命名实体识别方法及装置。
背景技术
命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在医疗领域,从电子病历中自动识别命名实体对于医学知识库的构建和临床决策支持起着重要作用。相比通用领域的命名实体识别,中文电子病历的命名实体识别由于电子病历中句子较短、缩略语多导致命名实体识别的精度不高。
发明内容
本发明要解决的技术问题是提供一种命名实体识别方法及装置,能够提高命名实体识别的精度。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种命名实体识别方法,包括:
获取训练数据,所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型;
将所述训练文本中的词和字符分别转化为词向量和字向量,利用所述词向量和所述字向量训练预设的长短期记忆模型,输出特征向量;
利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型;
使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。
可选地,所述将所述训练文本中的词和字符转化为向量包括:
利用结巴分词工具对所述训练文本进行分词;
将分词结果转化为词向量;
将所述训练文本中的每一字符转化为字向量。
可选地,所述训练文本为中文电子病历,所述结巴分词工具使用的数据库为国际疾病分类数据库。
可选地,所述利用转化后的词向量和字向量训练预设的长短期记忆模型,输出特征向量包括:
将所述词向量输入所述长短期记忆模型,输出表示词特征的词向量,将该词向量与字向量进行拼接,得到第一过渡特征向量;
将所述第一过渡特征向量输入所述长短期记忆模型,得到第二过渡特征向量;
将所述第二过渡特征向量与所述第一过渡特征向量进行拼接,输入所述长短期记忆模型,得到所述特征向量。
可选地,所述利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型包括:
用LBFGS算法作为优化算法,迭代多次优化所述条件随机场模型。
本发明实施例还提供了一种命名实体识别装置,包括:
获取模块,用于获取训练数据,所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型;
训练模块,用于将所述训练文本中的词和字符分别转化为词向量和字向量,利用所述词向量和所述字向量训练预设的长短期记忆模型,输出特征向量;
优化模块,用于利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型;
识别模块,用于使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。
可选地,所述训练模块包括:
分词单元,用于利用结巴分词工具对所述训练文本进行分词;
词向量转化单元,用于将分词结果转化为词向量;
字向量转化单元,用于将所述训练文本中的每一字符转化为字向量。
可选地,所述训练模块包括:
第一训练单元,用于将所述词向量输入所述长短期记忆模型,输出表示词特征的词向量,将该词向量与字向量进行拼接,得到第一过渡特征向量;
第二训练单元,用于将所述第一过渡特征向量输入所述长短期记忆模型,得到第二过渡特征向量;
第三训练单元,用于将所述第二过渡特征向量与所述第一过渡特征向量进行拼接,输入所述长短期记忆模型,得到所述特征向量。
可选地,所述优化模块具体用于用LBFGS算法作为优化算法,迭代多次优化所述条件随机场模型。
本发明实施例还提供了一种命名实体识别设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的命名实体识别方法中的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的命名实体识别方法中的步骤。
本发明的实施例具有以下有益效果:
上述方案中,根据词向量和字向量共同提取特征向量,能够同时获取字符和词的特征,同时还大大减少了分词的错误;另外采用长短期记忆模型和条件随机场模型相结合进行命名实体的识别,能够吸收更多的字符和词特征,从而能更进一步的提升实体识别的精度。
附图说明
图1为本发明实施例命名实体识别方法的流程示意图;
图2为本发明实施例命名实体识别装置的结构框图;
图3为本发明具体实施例实体识别方法的流程示意图。
具体实施方式
为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明的实施例针对现有技术中中文电子病历的命名实体识别精度不高的问题,提供一种命名实体识别方法及装置,能够提高命名实体识别的精度。
本发明的实施例提供一种命名实体识别方法,如图1所示,包括:
步骤101:获取训练数据,所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型;
事先可以人工对训练文本中的命名实体进行标注,同时标注命名实体对应的实体类型。比如“小明出生在云南,现在在中国四川省成都市工作”,标注的内容包括:小明-人名;云南-地名;中国-地名;四川-地名;成都-地名;其中,人名和地名为实体类型,小明、云南、中国、四川、成都为命名实体。
步骤102:将所述训练文本中的词和字符分别转化为词向量和字向量,利用所述词向量和所述字向量训练预设的长短期记忆模型,输出特征向量;
因计算机仅能对数值型的类型进行计算,而输入的词和字符是字符型,计算机不能直接计算,因此需要将词和字符转化为数值向量。利用词向量和字向量训练预设的长短期记忆模型,可以提取出基于字粒度的字向量特征以及融合语义信息的词向量特征。
步骤103:利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型;
采用条件随机场模型可以预测每个词和字符的实体类型。
步骤104:使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。
将待处理数据输入训练好的长短期记忆模型和条件随机场模型,即可输出待处理数据中的命名实体。
本实施例中,根据词向量和字向量共同提取特征向量,能够同时获取字符和词的特征,同时还大大减少了分词的错误;另外采用长短期记忆模型和条件随机场模型相结合进行命名实体的识别,能够吸收更多的字符和词特征,从而能更进一步的提升实体识别的精度。
一具体实施例中,所述将所述训练文本中的词和字符转化为向量包括:
利用结巴分词工具对所述训练文本进行分词;
其中,结巴分词工具可以很好地对中文文本进行分词,分词的正确性高。
将分词结果转化为词向量;
具体地,可以将分词结果采用公知的word2vec算法将词转化为一个词向量,词向量可以为一个300维的向量。
将所述训练文本中的每一字符转化为字向量,具体地,可以采用公知的word2vec算法将字符转化为一个128维的向量。
一具体实施例中,所述利用转化后的词向量和字向量训练预设的长短期记忆模型,输出特征向量包括:
将所述词向量输入所述长短期记忆模型,输出表示词特征的词向量,将词向量与字向量进行拼接,得到第一过渡特征向量;
将所述第一过渡特征向量输入所述长短期记忆模型,得到第二过渡特征向量;
将所述第二过渡特征向量与所述第一过渡特征向量进行拼接,输入所述长短期记忆模型,得到所述特征向量。
本实施例中采用了三次长短期记忆模型,这就是堆栈长短期记忆模型,采用堆栈长短期记忆模型能够解决特征在网络训练传递过程中关键信息丢失的问题,有利于关键特征的提取。当然,本发明的技术方案中,采用长短期记忆模型的次数并不局限为三次,还可以其他数量,仅以三次为例进行说明。
可选地,所述利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型包括:
用LBFGS算法作为优化算法,迭代多次优化所述条件随机场模型,LBFGS算法是神经网络的优化算法,它适合处理大规模数据,收敛速度快,能节省大量的存储空间和计算资源。
本发明实施例还提供了一种命名实体识别装置,如图2所示,包括:
获取模块21,用于获取训练数据,所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型;
事先可以人工对训练文本中的命名实体进行标注,同时标注命名实体对应的实体类型。比如“小明出生在云南,现在在中国四川省成都市工作”,标注的内容包括:小明-人名;云南-地名;中国-地名;四川-地名;成都-地名;其中,人名和地名为实体类型,小明、云南、中国、四川、成都为命名实体。
训练模块22,用于将所述训练文本中的词和字符分别转化为词向量和字向量,利用所述词向量和所述字向量训练预设的长短期记忆模型,输出特征向量;
因计算机仅能对数值型的类型进行计算,而输入的词和字符是字符型,计算机不能直接计算,因此需要将词和字符转化为数值向量。利用词向量和字向量训练预设的长短期记忆模型,可以提取出基于字粒度的字向量特征以及融合语义信息的词向量特征。
优化模块23,用于利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型;
采用条件随机场模型可以预测每个词和字符的实体类型。
识别模块24,用于使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。
将待处理数据输入训练好的长短期记忆模型和条件随机场模型,即可输出待处理数据中的命名实体。
本实施例中,根据词向量和字向量共同提取特征向量,能够同时获取字符和词的特征,同时还大大减少了分词的错误;另外采用长短期记忆模型和条件随机场模型相结合进行命名实体的识别,能够吸收更多的字符和词特征,从而能更进一步的提升实体识别的精度。
一具体实施例中,所述训练模块22包括:
分词单元,用于利用结巴分词工具对所述训练文本进行分词;
词向量转化单元,用于将分词结果转化为词向量;
其中,结巴分词工具可以很好地对中文文本进行分词,分词的正确性高。具体地,可以将分词结果采用公知的word2vec算法将词转化为一个词向量,词向量可以为一个300维的向量。
字向量转化单元,用于将所述训练文本中的每一字符转化为字向量,具体地,可以采用公知的word2vec算法将字符转化为一个128维的字嵌入向量。
进一步地,所述训练模块22包括:
第一训练单元,用于将所述词向量输入所述长短期记忆模型,输出表示词特征的词向量,将该词向量与所述字向量进行拼接,得到第一过渡特征向量;
第二训练单元,用于将所述第一过渡特征向量输入所述长短期记忆模型,得到第二过渡特征向量;
第三训练单元,用于将所述第二过渡特征向量与所述第一过渡特征向量进行拼接,输入所述长短期记忆模型,得到所述特征向量。
本实施例中采用了三次长短期记忆模型,这就是堆栈长短期记忆模型,采用堆栈长短期记忆模型能够解决特征在网络训练传递过程中关键信息丢失的问题,有利于关键特征的提取。当然,本发明的技术方案中,采用长短期记忆模型的次数并不局限为三次,还可以其他数量,仅以三次为例进行说明。
可选地,所述优化模块23具体用于用LBFGS算法作为优化算法,迭代多次优化所述条件随机场模型,LBFGS算法是神经网络的优化算法,它适合处理大规模数据,收敛速度快,能节省大量的存储空间和计算资源。
由于中文电子病历的命名实体识别中电子病历句子较短、缩略语多导致命名实体识别的精度不高,因此可以采用本发明的技术方案提高中文电子病历的命名实体识别的精度,如图3所示,本实施例包括以下步骤:
步骤301:数据预处理;
首先可以建立训练数据库,训练数据库中包括大量的中文电子病历,可以请专业人员详细标注中文电子病历中的命名实体及实体类型,实体类型一共可以分为5大类,包括:身体部位、疾病和诊断、症状和体征、检查与检验以及治疗,分别用{B,D,S,C,T}作为5大类实体的标签,非实体用{X}表示。
步骤302:提取并整合字向量和词向量的特征向量;
可以利用数据库为国际疾病分类数据库ICD10的结巴分词工具对训练数据库中的中文电子病历进行分词,如原中文电子病历上记载“给与右下肢持续皮牵引”,分词后的结果为“给与”、“右下肢”、“持续”、“皮”、“牵引”,并利用word2vec算法将分词结果转化为词向量。结巴分词工具是一个计算语言概率的算法模型,通过统计每一种分词结果的概率,即合理性,可以得到符合说话或行文习惯的分词结果。
导入的ICD10中包含很多临床实体名词,导入结巴分词工具中后,能够帮助识别医学专用名词,提高分词的正确性。之后采用BiLSTM(Bi-directional Long Short-TermMemory,双向长短时记忆网络)模型对词向量特征进行学习以获得表征词的词向量。
另外,获得训练数据库中的中文电子病历的基于字的字向量特征,将每个字或字符用字向量(比如字嵌入向量)表示,即不同的密集型向量表示不同的字或字符。学习后的词向量与字向量特征进行拼接得到第一过渡特征向量X,再采用BiLSTM模型学习结合的向量特征X,得到第二过渡特征向量H0。
将特征X与特征H0结合,作为BiLSTM模型的输入再学习其中的高级特征,得到最终的特征向量。
其中,将特征X与特征H0结合作为BiLSTM模型的输入,就是残差学习。在上述特征处理步骤中,一共采用了三次BiLSTM这就是堆栈BiLSTM。
步骤303:利用特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型;
在训练过程中使用LBFGS算法作为优化算法,迭代多次,得到最终的条件随机场模型(Conditional Random Fields,CRF),条件随机场模型可以预测每个词和字符的实体类型,条件随机场模型的输入是高级特征,输出是输入文本和文本对应的类型,即非实体(用X表示)和实体类型(B,D,S,C,T)。
步骤304:将待处理数据输入长短期记忆模型和条件随机场模型,得到待处理数据中的命名实体。
之后利用训练好的长短期记忆模型以及优化后的条件随机场模型即可对待处理数据进行命名实体的识别,将待处理数据输入训练好的长短期记忆模型和条件随机场模型,即可输出待处理数据中的命名实体。
在利用长短期记忆模型以及条件随机场模型进行命名实体的识别后,可以利用精度以及召回率来衡量长短期记忆模型结合条件随机场模型的命名实体识别性能。
本实施例的技术方案提供了一种结合字特征和词特征的堆栈残差BiLSTM中文电子病历命名实体识别方法,不仅增加了输入特征信息的丰富度,而且减少了训练过程中特征信息的损失,从而提高了中文电子病历中命名实体识别的准确率。
本发明实施例还提供了一种命名实体识别设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的命名实体识别方法中的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的命名实体识别方法中的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、用户设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理用户设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理用户设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理用户设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理用户设备上,使得在计算机或其他可编程用户设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程用户设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者用户设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者用户设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者用户设备中还存在另外的相同要素。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。
Claims (4)
1.一种命名实体识别方法,其特征在于,包括:
获取训练数据,所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型;
将所述训练文本中的词和字符分别转化为词向量和字向量,利用所述词向量和所述字向量训练预设的长短期记忆模型,输出特征向量;
利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型;
使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别;
所述利用转化后的词向量和字向量训练预设的长短期记忆模型,输出特征向量包括:
将所述词向量输入所述长短期记忆模型,输出表示词特征的词向量,将该词向量与字向量进行拼接,得到第一过渡特征向量;
将所述第一过渡特征向量输入所述长短期记忆模型,得到第二过渡特征向量;
将所述第二过渡特征向量与所述第一过渡特征向量进行拼接,输入所述长短期记忆模型,得到所述特征向量;
所述将所述训练文本中的词和字符转化为向量包括:利用国际疾病分类数据库ICD10辅助结巴分词工具对训练文本进行分词,其中,所述训练文本为中文电子病历;
将分词结果转化为词向量;
将所述训练文本中的每一字符转化为字向量;
所述利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型包括:
用LBFGS算法作为优化算法,迭代多次优化所述条件随机场模型。
2.一种命名实体识别装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型;
训练模块,用于将所述训练文本中的词和字符分别转化为词向量和字向量,利用所述词向量和所述字向量训练预设的长短期记忆模型,输出特征向量;
优化模块,用于利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型;
识别模块,用于使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别;
所述训练模块包括:
第一训练单元,用于将所述词向量输入所述长短期记忆模型,输出表示词特征的词向量,将该词向量与字向量进行拼接,得到第一过渡特征向量;
第二训练单元,用于将所述第一过渡特征向量输入所述长短期记忆模型,得到第二过渡特征向量;
第三训练单元,用于将所述第二过渡特征向量与所述第一过渡特征向量进行拼接,输入所述长短期记忆模型,得到所述特征向量;
所述训练模块还包括:
利用国际疾病分类数据库ICD10辅助结巴分词工具对训练文本进行分词,其中,所述训练文本为中文电子病历;
词向量转化单元,用于将分词结果转化为词向量;
字向量转化单元,用于将所述训练文本中的每一字符转化为字向量;
所述优化模块具体用于用LBFGS算法作为优化算法,迭代多次优化所述条件随机场模型。
3.一种命名实体识别设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1中所述的命名实体识别方法中的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1中所述的命名实体识别方法中的步骤。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910325442.6A CN109871545B (zh) | 2019-04-22 | 2019-04-22 | 命名实体识别方法及装置 |
EP20796429.7A EP3961475A4 (en) | 2019-04-22 | 2020-02-21 | NAMED ENTITY IDENTIFICATION METHOD AND APPARATUS |
PCT/CN2020/076196 WO2020215870A1 (zh) | 2019-04-22 | 2020-02-21 | 命名实体识别方法及装置 |
US16/959,381 US11574124B2 (en) | 2019-04-22 | 2020-02-21 | Method and apparatus of recognizing named entity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910325442.6A CN109871545B (zh) | 2019-04-22 | 2019-04-22 | 命名实体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871545A CN109871545A (zh) | 2019-06-11 |
CN109871545B true CN109871545B (zh) | 2022-08-05 |
Family
ID=66922955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910325442.6A Active CN109871545B (zh) | 2019-04-22 | 2019-04-22 | 命名实体识别方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11574124B2 (zh) |
EP (1) | EP3961475A4 (zh) |
CN (1) | CN109871545B (zh) |
WO (1) | WO2020215870A1 (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871545B (zh) | 2019-04-22 | 2022-08-05 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
CN110298044B (zh) * | 2019-07-09 | 2023-04-18 | 广东工业大学 | 一种实体关系识别方法 |
CN110334357A (zh) * | 2019-07-18 | 2019-10-15 | 北京香侬慧语科技有限责任公司 | 一种命名实体识别的方法、装置、存储介质及电子设备 |
CN110414395B (zh) * | 2019-07-18 | 2022-08-02 | 北京字节跳动网络技术有限公司 | 内容识别方法、装置、服务器及存储介质 |
CN110597970B (zh) * | 2019-08-19 | 2023-04-07 | 华东理工大学 | 一种多粒度医疗实体联合识别的方法及装置 |
CN110532570A (zh) * | 2019-09-10 | 2019-12-03 | 杭州橙鹰数据技术有限公司 | 一种命名实体识别的方法和装置及模型训练的方法和装置 |
CN110555102A (zh) * | 2019-09-16 | 2019-12-10 | 青岛聚看云科技有限公司 | 媒体标题识别方法、装置及存储介质 |
CN111339764A (zh) * | 2019-09-18 | 2020-06-26 | 华为技术有限公司 | 一种中文命名实体识别方法以及装置 |
CN110909548B (zh) * | 2019-10-10 | 2024-03-12 | 平安科技(深圳)有限公司 | 中文命名实体识别方法、装置及计算机可读存储介质 |
CN112906370B (zh) * | 2019-12-04 | 2022-12-20 | 马上消费金融股份有限公司 | 意图识别模型训练方法、意图识别方法及相关装置 |
CN111145914B (zh) * | 2019-12-30 | 2023-08-04 | 四川大学华西医院 | 一种确定肺癌临床病种库文本实体的方法及装置 |
CN111523316A (zh) * | 2020-03-04 | 2020-08-11 | 平安科技(深圳)有限公司 | 基于机器学习的药物识别方法及相关设备 |
CN111444718A (zh) * | 2020-03-12 | 2020-07-24 | 泰康保险集团股份有限公司 | 一种保险产品需求文档处理方法、装置及电子设备 |
CN111581972A (zh) * | 2020-03-27 | 2020-08-25 | 平安科技(深圳)有限公司 | 文本中症状和部位对应关系识别方法、装置、设备及介质 |
CN113742523B (zh) * | 2020-05-29 | 2023-06-27 | 北京百度网讯科技有限公司 | 文本核心实体的标注方法及装置 |
CN111783466A (zh) * | 2020-07-15 | 2020-10-16 | 电子科技大学 | 一种面向中文病历的命名实体识别方法 |
CN112151183A (zh) * | 2020-09-23 | 2020-12-29 | 上海海事大学 | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 |
CN112269911A (zh) * | 2020-11-11 | 2021-01-26 | 深圳视界信息技术有限公司 | 设备信息识别方法、模型训练方法、装置、设备及介质 |
CN112488194A (zh) * | 2020-11-30 | 2021-03-12 | 上海寻梦信息技术有限公司 | 地址缩略语生成方法、模型训练方法及相关设备 |
CN112836056B (zh) * | 2021-03-12 | 2023-04-18 | 南宁师范大学 | 一种基于网络特征融合的文本分类方法 |
CN112883730B (zh) * | 2021-03-25 | 2023-01-17 | 平安国际智慧城市科技股份有限公司 | 相似文本匹配方法、装置、电子设备及存储介质 |
CN113157727B (zh) * | 2021-05-24 | 2022-12-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 提供召回结果的方法、设备和存储介质 |
CN113255356B (zh) * | 2021-06-10 | 2021-09-28 | 杭州费尔斯通科技有限公司 | 一种基于实体词列表的实体识别方法和装置 |
CN113408273B (zh) * | 2021-06-30 | 2022-08-23 | 北京百度网讯科技有限公司 | 文本实体识别模型的训练与文本实体识别方法、装置 |
CN113343692B (zh) * | 2021-07-15 | 2023-09-12 | 杭州网易云音乐科技有限公司 | 搜索意图的识别方法、模型训练方法、装置、介质及设备 |
CN113656555B (zh) * | 2021-08-19 | 2024-03-12 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN113505599B (zh) * | 2021-09-10 | 2021-12-07 | 北京惠每云科技有限公司 | 病历文书中实体概念的提取方法、装置及可读存储介质 |
CN114330343B (zh) * | 2021-12-13 | 2023-07-25 | 广州大学 | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 |
CN117151222A (zh) * | 2023-09-15 | 2023-12-01 | 大连理工大学 | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108829681A (zh) * | 2018-06-28 | 2018-11-16 | 北京神州泰岳软件股份有限公司 | 一种命名实体提取方法及装置 |
CN109471895A (zh) * | 2018-10-29 | 2019-03-15 | 清华大学 | 电子病历表型抽取、表型名称规范化方法及系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2375355A1 (en) * | 2002-03-11 | 2003-09-11 | Neo Systems Inc. | Character recognition system and method |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
KR102240279B1 (ko) * | 2014-04-21 | 2021-04-14 | 삼성전자주식회사 | 컨텐트 처리 방법 및 그 전자 장치 |
US20180268015A1 (en) * | 2015-09-02 | 2018-09-20 | Sasha Sugaberry | Method and apparatus for locating errors in documents via database queries, similarity-based information retrieval and modeling the errors for error resolution |
US10509860B2 (en) * | 2016-02-10 | 2019-12-17 | Weber State University Research Foundation | Electronic message information retrieval system |
US11139081B2 (en) * | 2016-05-02 | 2021-10-05 | Bao Tran | Blockchain gene system |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
US10255269B2 (en) * | 2016-12-30 | 2019-04-09 | Microsoft Technology Licensing, Llc | Graph long short term memory for syntactic relationship discovery |
US11593558B2 (en) * | 2017-08-31 | 2023-02-28 | Ebay Inc. | Deep hybrid neural network for named entity recognition |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108628823B (zh) * | 2018-03-14 | 2022-07-01 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109522546B (zh) | 2018-10-12 | 2021-04-09 | 浙江大学 | 基于上下文相关的医学命名实体识别方法 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN109871545B (zh) * | 2019-04-22 | 2022-08-05 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
-
2019
- 2019-04-22 CN CN201910325442.6A patent/CN109871545B/zh active Active
-
2020
- 2020-02-21 US US16/959,381 patent/US11574124B2/en active Active
- 2020-02-21 EP EP20796429.7A patent/EP3961475A4/en active Pending
- 2020-02-21 WO PCT/CN2020/076196 patent/WO2020215870A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108829681A (zh) * | 2018-06-28 | 2018-11-16 | 北京神州泰岳软件股份有限公司 | 一种命名实体提取方法及装置 |
CN109471895A (zh) * | 2018-10-29 | 2019-03-15 | 清华大学 | 电子病历表型抽取、表型名称规范化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020215870A1 (zh) | 2020-10-29 |
EP3961475A4 (en) | 2023-05-03 |
CN109871545A (zh) | 2019-06-11 |
EP3961475A1 (en) | 2022-03-02 |
US20210103701A1 (en) | 2021-04-08 |
US11574124B2 (en) | 2023-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871545B (zh) | 命名实体识别方法及装置 | |
US11574122B2 (en) | Method and system for joint named entity recognition and relation extraction using convolutional neural network | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
CN107832299B (zh) | 基于人工智能的标题的改写处理方法、装置及可读介质 | |
WO2020119075A1 (zh) | 通用文本信息提取方法、装置、计算机设备和存储介质 | |
CN108460011B (zh) | 一种实体概念标注方法及系统 | |
CN111090987A (zh) | 用于输出信息的方法和装置 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
US20190042556A1 (en) | Dynamic Homophone/Synonym Identification and Replacement for Natural Language Processing | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN111128391A (zh) | 一种信息处理设备、方法和存储介质 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN110991175A (zh) | 多模态下的文本生成方法、系统、设备及存储介质 | |
CN114780703A (zh) | 问答模型的确定方法、问答方法、装置、介质、设备 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN110275953B (zh) | 人格分类方法及装置 | |
US11532387B2 (en) | Identifying information in plain text narratives EMRs | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112599211B (zh) | 一种医疗实体关系抽取方法及装置 | |
CN112183060B (zh) | 多轮对话系统的指代消解方法 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN111666405B (zh) | 用于识别文本蕴含关系的方法和装置 | |
CN112597299A (zh) | 文本的实体分类方法、装置、终端设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |