CN113836929A - 命名实体识别方法、装置、设备及存储介质 - Google Patents
命名实体识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113836929A CN113836929A CN202111139832.8A CN202111139832A CN113836929A CN 113836929 A CN113836929 A CN 113836929A CN 202111139832 A CN202111139832 A CN 202111139832A CN 113836929 A CN113836929 A CN 113836929A
- Authority
- CN
- China
- Prior art keywords
- target
- named entity
- information
- original text
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims abstract description 124
- 238000006243 chemical reaction Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 239000013598 vector Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000009182 swimming Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能领域,公开了一种命名实体识别方法、装置、设备及存储介质,用于提高命名实体识别的准确率。所述命名实体识别方法包括:获取待处理的原始文本;对原始文本进行序列转换,得到目标输入序列;对目标输入序列进行语义增强,得到目标语义信息;根据目标输入序列和目标语义信息确定特征矩阵,得到目标特征矩阵;根据目标特征矩阵对原始文本进行命名实体识别,得到目标命名实体。此外,本发明还涉及区块链技术,目标命名实体可存储于区块链节点中。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种命名实体识别方法、装置、设备及存储介质。
背景技术
命名实体识别(named entity recognition,NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,近年来,微博等网络媒体的日益流行,产生了大量的用户数据,其中的文本通常很短且表述方式不标准。
现有的命名实体识别方案在面对简短和非正式文本,尤其是用户生成的社交媒体内容进行识别时,会遇到数据稀疏问题,从而导致识别效果不好,即现有方案的准确率低。
发明内容
本发明提供了一种命名实体识别方法、装置、设备及存储介质,用于提高命名实体识别的准确率。
本发明第一方面提供了一种命名实体识别方法,所述命名实体识别方法包括:获取待处理的原始文本;对所述原始文本进行序列转换,得到目标输入序列;对所述目标输入序列进行语义增强,得到目标语义信息;根据所述目标输入序列和所述目标语义信息确定特征矩阵,得到目标特征矩阵;根据所述目标特征矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
可选的,在本发明第一方面的第一种实现方式中,所述对所述原始文本进行序列转换,得到目标输入序列,包括:对所述原始文本进行分词,得到多个目标词汇;对每个目标词汇进行序列值转换,得到每个目标词汇对应的目标序列值;对每个目标词汇对应的目标序列值进行序列格式转换,得到目标输入序列。
可选的,在本发明第一方面的第二种实现方式中,所述对所述目标输入序列进行语义增强,得到目标语义信息,包括:获取目标输入序列中的词嵌入信息、句子信息和位置信息;对所述词嵌入信息、所述句子信息和所述位置信息进行拼接,得到拼接信息;将所述拼接信息输入预置的上下文编码器进行语义增强,得到目标语义信息。
可选的,在本发明第一方面的第三种实现方式中,所述根据所述目标输入序列和所述目标语义信息确定特征矩阵,得到目标特征矩阵,包括:提取所述目标输入序列中的序列元素,并提取所述目标语义信息中的特征信息;计算所述序列元素和所述特征信息的余弦相似度;基于所述余弦相似度和预置的多头注意力机制生成目标特征矩阵。
可选的,在本发明第一方面的第四种实现方式中,所述根据所述目标特征矩阵对所述原始文本进行命名实体识别,得到目标命名实体,包括:基于所述目标特征矩阵确定所述原始文本对应的字级别矩阵;基于所述字级别矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
可选的,在本发明第一方面的第五种实现方式中,所述基于所述目标特征矩阵确定所述原始文本对应的字级别矩阵,包括:通过预置的全连接网络对所述目标特征矩阵的每个元素进行单标签分类,得到元素分类结果;对所述元素分类结果进行全局信息和局部信息计算,得到字级别矩阵。
可选的,在本发明第一方面的第六种实现方式中,所述基于所述字级别矩阵对所述原始文本进行命名实体识别,得到目标命名实体,包括:获取所述字级别矩阵对应的目标矩阵元素;对所述目标矩阵元素进行类别匹配,得到目标类别;基于所述目标类别和所述目标矩阵元素确定所述原始文本对应的命名实体,得到目标命名实体。
本发明第二方面提供了一种命名实体识别装置,所述命名实体识别装置包括:获取模块,用于获取待处理的原始文本;转换模块,用于对所述原始文本进行序列转换,得到目标输入序列;增强模块,用于对所述目标输入序列进行语义增强,得到目标语义信息;处理模块,用于根据所述目标输入序列和所述目标语义信息确定特征矩阵,得到目标特征矩阵;识别模块,用于根据所述目标特征矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
可选的,在本发明第二方面的第一种实现方式中,所述转换模块具体用于:对所述原始文本进行分词,得到多个目标词汇;对每个目标词汇进行序列值转换,得到每个目标词汇对应的目标序列值;对每个目标词汇对应的目标序列值进行序列格式转换,得到目标输入序列。
可选的,在本发明第二方面的第二种实现方式中,所述增强模块具体用于:获取目标输入序列中的词嵌入信息、句子信息和位置信息;对所述词嵌入信息、所述句子信息和所述位置信息进行拼接,得到拼接信息;将所述拼接信息输入预置的上下文编码器进行语义增强,得到目标语义信息。
可选的,在本发明第二方面的第三种实现方式中,所述处理模块具体用于:提取所述目标输入序列中的序列元素,并提取所述目标语义信息中的特征信息;计算所述序列元素和所述特征信息的余弦相似度;基于所述余弦相似度和预置的多头注意力机制生成目标特征矩阵。
可选的,在本发明第二方面的第四种实现方式中,所述识别模块还包括:配置单元,用于基于所述目标特征矩阵确定所述原始文本对应的字级别矩阵;生成单元,用于基于所述字级别矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
可选的,在本发明第二方面的第五种实现方式中,所述配置单元具体用于:通过预置的全连接网络对所述目标特征矩阵的每个元素进行单标签分类,得到元素分类结果;对所述元素分类结果进行全局信息和局部信息计算,得到字级别矩阵。
可选的,在本发明第二方面的第六种实现方式中,所述生成单元具体用于:获取所述字级别矩阵对应的目标矩阵元素;对所述目标矩阵元素进行类别匹配,得到目标类别;基于所述目标类别和所述目标矩阵元素确定所述原始文本对应的命名实体,得到目标命名实体。
本发明第三方面提供了一种命名实体识别设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述命名实体识别设备执行上述的命名实体识别方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的命名实体识别方法。
本发明提供的技术方案中,通过对原始文本进行序列转换,得到目标输入序列;对目标输入序列进行语义增强,得到目标语义信息,语义增强操作加强了原始文本中的语义之间的联系,进而提高文本识别的准确率;根据目标输入序列和目标语义信息确定特征矩阵,得到目标特征矩阵;根据目标特征矩阵对原始文本进行命名实体识别,得到目标命名实体。本发明通过对原始文本进行语义增强进而实现了命名实体识别准确率的提高。
附图说明
图1为本发明实施例中命名实体识别方法的一个实施例示意图;
图2为本发明实施例中命名实体识别方法的另一个实施例示意图;
图3为本发明实施例中命名实体识别装置的一个实施例示意图;
图4为本发明实施例中命名实体识别装置的另一个实施例示意图;
图5为本发明实施例中命名实体识别设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种命名实体识别方法、装置、设备及存储介质,用于提高命名实体识别的准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中命名实体识别方法的第一个实施例包括:
101、获取待处理的原始文本;
可以理解的是,本发明的执行主体可以为命名实体识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
具体的,服务器从预置的社交媒体中获取待处理的原始文本,其中,预置的社交媒体包括多个用户数据,用户数据中包括用户输入的文本数据(即原始文本)。服务器对用户输入的关键词进行检索,检索到关键词所在的文本,得到原始文本。其中,原始文本对应的数据格式无限制,可以输入任何结构化的数据或者非结构化的数据。
102、对原始文本进行序列转换,得到目标输入序列;
具体的,服务器进行序列转换的具体过程包括:服务器将原始文本中的多个词汇转换为序列值,服务器根据序列值生成目标输入序列。
例如:当原始文本为“张三去海边游泳”时,服务器进行分词,得到分词结果为“张三”,“海边”,“游泳”,服务器再将分词得到的多个词汇分别转换为每个词汇对应的序列值:“张三”对应的序列值为3,“海边”对应的序列值为5,“游泳”对应的序列值为4,最后服务器按照原始文本“张三去海边游泳”的文本顺序将序列值生成目标输入序列为[3,5,4]。
103、对目标输入序列进行语义增强,得到目标语义信息;
具体的,服务器从目标输入序列中提取关键信息,服务器再进行语义增强。语义增强可以更加准确地进行命名实体识别。其中,关键信息可以拼接生成字向量,拼接的步骤具体包括:服务器将关键信息中的1×1×a的向量,和1×1×b的向量,拼接为1×1×(a+b)的向量。
104、根据目标输入序列和目标语义信息确定特征矩阵,得到目标特征矩阵;
具体的,服务器确定特征矩阵的具体过程包括:服务器计算余弦相似度,服务器根据余弦相似度确定特征矩阵。其中,当目标语义信息为a×a×M,目标输入序列为[N]时,服务器确定特征矩阵为N×M,其中,N个字向量即可生成N×M的分词张量,当a=1时,即字向量为1×1×M的向量时,N×M的分词张量即为N×M的目标特征矩阵。
105、根据目标特征矩阵对原始文本进行命名实体识别,得到目标命名实体。
具体的,服务器进行命名实体识别时,对目标特征矩阵中的每个元素进行单标签分类,其中,每个元素的横纵坐标分别对应潜在实体在句子中的开始和结束位置,服务器通过预置的编码层和预置的分割层捕获目标特征矩阵中矩阵元素的局部和全局信息,当类别总数为c+1个类别时,比如实体类型为人名、地名、机构名和时间,则c=4,多的一类表示不是实体并相当于图像语义分割中的背景类。
进一步地,服务器将目标命名实体存储于区块链数据库中,具体此处不做限定。
本发明实施例中,通过对原始文本进行序列转换,得到目标输入序列;对目标输入序列进行语义增强,得到目标语义信息,语义增强操作加强了原始文本中的语义之间的联系,进而提高文本识别的准确率。本发明通过对原始文本进行语义增强进而实现了命名实体识别准确率的提高。
请参阅图2,本发明实施例中命名实体识别方法的第二个实施例包括:
201、获取待处理的原始文本;
本实施例中步骤201的具体实施方式与步骤101类似,此处不再赘述。
202、对原始文本进行序列转换,得到目标输入序列;
具体的,服务器对原始文本进行分词,得到多个目标词汇;服务服对每个目标词汇进行序列值转换,得到每个目标词汇对应的目标序列值;服务器对每个目标词汇对应的目标序列值进行序列格式转换,得到目标输入序列。
其中,服务器识别原始文本对应的文本顺序,并根据文本顺序对原始文本进行分词,得到原始文本中的多个目标词汇,当原始文本为“李四在山顶唱歌”时,服务器按照文本顺序将原始文本分词为“李四”,“山顶”,“唱歌”这三个目标词汇,其中,文本顺序是原始文本中的文字从左到右依次出现的顺序,服务器会根据原始文本中词汇的使用频率对词汇进行排序,也就是每一个词汇都对应一个顺序值,这个顺序值就是每个词汇对应的序列值,服务器再将多个目标词汇转换为序列值“李四”对应的目标序列值为4,“山顶”对应的目标序列值为3,“唱歌”对应的目标序列值为2,服务器按照文本顺序进行序列格式转换,其中,服务器进行序列格式转换就是将原始文本中每个词汇对应的序列值转换为二维空间中的序列表现形式,因此服务器生成的目标输入序列为[4,3,2]。
203、对目标输入序列进行语义增强,得到目标语义信息;
具体的,服务器提取目标输入序列中的词嵌入信息、句子信息和位置信息;服务器对词嵌入信息、句子信息和位置信息进行拼接,得到拼接信息;服务器将拼接信息输入预置的上下文编码器进行语义增强,得到目标语义信息。
其中,服务器提取词嵌入信息、句子信息和位置信息处理过程具体包括:服务器首先根据未经训练的分类器对位置信息进行分类,得到位置信息,其中,未经训练的分类器是指用于检测目标输入序列中的位置信息的上下文编码器,上下文编码器由三部分组成上下文编码器,多尺度解码器和判别器,上下文编码器建立在残差网络结构的基础上,通过注意力转移网络填补漏洞。服务器根据位置信息确定目标输入序列中的词嵌入信息,词嵌入信息是词汇中的单词或者短语被映射到相对于词汇量的连续空而言低维空间的实数向量,服务器确定目标输入序列中所有字词的词嵌入信息,服务器根据位置信息和字词向量,位置信息可以对不同位置的词进行独热编码,例如第一个词标记为1000,或者通过正弦余弦的周期进行表达,以及所有字词的句子信息,句子信息为上下文解码器将关键词和输入信息导入到长短时记忆网络进行编码,分别得到关键词和输入信息对应的编码信息序列,服务器通过注意力模型确定关键词和输入信息对应的编码信息序列生成目标关键词对应的信息序列时的权重;服务器根据确定的权重对上述关键词和上述输入信息对应的编码信息序列进行加权;服务器通过长短时记忆网络对加权得到的编码信息序列进行解码,从而生成目标关键词,根据目标关键词和输入信息对应的编码信息序列进行加权;服务器通过长短时记忆网络对加权得到的编码信息序列进行解码,得到句子信息。服务器进行拼接时按照词嵌入信息、句子信息及位置信息的顺序进行拼接。服务器进行增强的目标语义信息对命名实体识别任务的贡献在不同的上下文中可能不同,因此本发明使用重置门来控制信息流来进行语义增强,语义增强具体为:
g=σ(W1·hi+W2·vi+bg);
其中,σ是sigmoid函数,W1和W2是可训练矩阵,bg为对应的偏置项,并通过以下公式平衡来自上下文编码器和语义增强模块的信息,
204、根据目标输入序列和目标语义信息确定特征矩阵,得到目标特征矩阵;
具体的,服务器提取目标输入序列中的序列元素,并提取目标语义信息中的特征信息;计算序列元素和特征信息的余弦相似度;服务器基于余弦相似度和预置的多头注意力机制生成目标特征矩阵。
需要说明的是,预置的多头注意力机制是服务器将数据源中的构成元素处理为由一系列的<key,value>数据对组成,服务器给定目标中每一序列元素的query,服务器通过计算每一序列元素的query和每个key的相似性或者相关性,得到每个key对应value的权重系数,服务器根据权重系数进行加权求和运算从而生成目标特征矩阵。服务器计算余弦相似度,服务器根据余弦相似度确定特征矩阵。其中,当目标语义信息为a×a×M,目标输入序列为[N]时,服务器确定特征矩阵为N×M,其中,N个字向量即可生成N×M的分词张量,当a=1时,即字向量为1×1×M的向量时,N×M的分词张量即为N×M的目标特征矩阵。
205、基于目标特征矩阵确定原始文本对应的字级别矩阵;
具体的,服务器通过预置的全连接网络对目标特征矩阵的每个元素进行单标签分类,得到元素分类结果;服务器对元素分类结果进行全局信息和局部信息计算,得到字级别矩阵。
需要说明的是,预置的全连接网络起到“分类器”的作用,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间,全连接层可由卷积操作:对前层是全连接的全连接层可以转化为卷积核为1x1的卷积;而前层是卷积层的全连接层可以转化为卷积核为H×W的全局卷积,H和W分别为前层卷积结果的高和宽。对应n-1层和n层而言,n-1层的任意一个节点,都和第n层所有节点有连接。即第n层的每个节点在进行计算的时候,激活函数的输入是n-1层所有节点的加权。当原始文本包含五个目标分词词汇:“A国近年经济态势良好”,即n=5,服务器基于预置的全连接网络可以生成n×m的概率矩阵,然后服务器将概率矩阵作为条件随机场的输入,对目标特征矩阵的每个元素进行单标签分类,得到元素分类结果;对元素分类结果进行全局信息和局部信息计算,得到字级别矩阵。服务器通过全连接网络中的浅层网络中提取局部信息;服务器通过全连接网络中的深层网络中提取全局信息,具体包括:对角线表示每个类别的元素分类正确的元素个数;行和:即标签,每一行的和表示该类别在全部预测正确的情况下,该类别总的元素个数,也就是该类别在标签中的元素分类结果;列和:即预测,每一列的和表示,对于该类别来说,模型将多少个单标签分类预测为元素类别,通过全连接网络中的浅层网络中提取局部信息;服务器通过全连接网络中的深层网络中提取全局信息,得到字级别矩阵。例如,全局信息和局部信息中“A国”被识别为了一个机构名,而“近年”、“经济”、“态势”、“良好”均被识别为非命名体。
206、基于字级别矩阵对原始文本进行命名实体识别,得到目标命名实体。
具体的,服务器获取字级别矩阵对应的目标矩阵元素;服务器对目标矩阵元素进行类别匹配,得到目标类别;服务器基于目标类别和目标矩阵元素确定原始文本对应的命名实体,得到目标命名实体。
其中,服务器进行类别匹配时将目标矩阵元素按照预置的类别进行分类,得到目标类别,服务器在每个元素的横纵坐标分别对应潜在实体在句子中的开始和结束位置,服务器通过预置的编码层和预置的分割层捕获目标特征矩阵中矩阵元素的局部和全局信息,服务器确定目标命名实体。此外,服务器在多个数据集上使用了语义增强模块的模型始终优于未使用的模型,服务器通过语义增强的命名实体识别有效的解决了数据稀疏性的问题,从而提高了命名实体识别的准确率。
需要说明的是,服务器根据字级别矩阵中每个元素的类别和坐标值确定目标命名实体,当矩阵坐标(2,1)和坐标(2,3)分别地名和机构名,其中坐标(2,1)的横坐标2表示实体开始的位置,纵坐标表示实体结束的位置,根据实体开始和结束位置可以在句子中定位到目标命名实体“B市”是个地名,坐标(2,3)的解析方法同上。由于实体结束位置不可能在开始位置的前面,所以实体坐标不可能出现在矩阵的下三角区域,通过字级别矩阵确定目标命名实体可以减少误识别的情况,同时也可以减少损失函数的计算量。
进一步地,服务器将目标命名实体存储于区块链数据库中,具体此处不做限定。
本发明实施例中,通过预置的全连接网络对目标特征矩阵的每个元素进行单标签分类,得到元素分类结果;对元素分类结果进行全局信息和局部信息计算,得到字级别矩阵,通过对字级别矩阵进行命名实体识别提高了命名实体识别的准确率。本发明通过语义增强的命名实体识别有效解决了数据稀疏性的问题,节省了标注数据的成本。
上面对本发明实施例中命名实体识别方法进行了描述,下面对本发明实施例中命名实体识别装置进行描述,请参阅图3,本发明实施例中命名实体识别装置第一个实施例包括:
获取模块301,用于获取待处理的原始文本;
转换模块302,用于对所述原始文本进行序列转换,得到目标输入序列;
增强模块303,用于对所述目标输入序列进行语义增强,得到目标语义信息;
处理模块304,用于根据所述目标输入序列和所述目标语义信息确定特征矩阵,得到目标特征矩阵;
识别模块305,用于根据所述目标特征矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
本发明实施例中,通过对原始文本进行序列转换,得到目标输入序列;对目标输入序列进行语义增强,得到目标语义信息,语义增强操作加强了原始文本中的语义之间的联系,进而提高文本识别的准确率;根据目标输入序列和目标语义信息确定特征矩阵,得到目标特征矩阵;根据目标特征矩阵对原始文本进行命名实体识别,得到目标命名实体。本发明通过对原始文本进行语义增强进而实现了命名实体识别准确率的提高。
请参阅图4,本发明实施例中命名实体识别装置第二个实施例包括:
获取模块301,用于获取待处理的原始文本;
转换模块302,用于对所述原始文本进行序列转换,得到目标输入序列;
增强模块303,用于对所述目标输入序列进行语义增强,得到目标语义信息;
处理模块304,用于根据所述目标输入序列和所述目标语义信息确定特征矩阵,得到目标特征矩阵;
识别模块305,用于根据所述目标特征矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
可选的,转换模块302具体用于:
对所述原始文本进行分词,得到多个目标词汇;对每个目标词汇进行序列值转换,得到每个目标词汇对应的目标序列值;对每个目标词汇对应的目标序列值进行序列格式转换,得到目标输入序列。
可选的,增强模块303具体用于:
获取目标输入序列中的词嵌入信息、句子信息和位置信息;对所述词嵌入信息、所述句子信息和所述位置信息进行拼接,得到拼接信息;将所述拼接信息输入预置的上下文编码器进行语义增强,得到目标语义信息。
可选的,处理模块304具体用于:
提取所述目标输入序列中的序列元素,并提取所述目标语义信息中的特征信息;计算所述序列元素和所述特征信息的余弦相似度;基于所述余弦相似度和预置的多头注意力机制生成目标特征矩阵。
可选的,识别模块305还包括:
配置单元3051,用于基于所述目标特征矩阵确定所述原始文本对应的字级别矩阵;
生成单元3052,用于基于所述字级别矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
可选的,配置单元3051具体用于:
通过预置的全连接网络对所述目标特征矩阵的每个元素进行单标签分类,得到元素分类结果;对所述元素分类结果进行全局信息和局部信息计算,得到字级别矩阵。
可选的,生成单元3052具体用于:
获取所述字级别矩阵对应的目标矩阵元素;对所述目标矩阵元素进行类别匹配,得到目标类别;基于所述目标类别和所述目标矩阵元素确定所述原始文本对应的命名实体,得到目标命名实体。
本发明实施例中,通过对原始文本进行序列转换,得到目标输入序列;对目标输入序列进行语义增强,得到目标语义信息,语义增强操作加强了原始文本中的语义之间的联系,进而提高文本识别的准确率;根据目标输入序列和目标语义信息确定特征矩阵,得到目标特征矩阵;根据目标特征矩阵对原始文本进行命名实体识别,得到目标命名实体。本发明通过对原始文本进行语义增强进而实现了命名实体识别准确率的提高。
上面图3和图4从模块化功能实体的角度对本发明实施例中的命名实体识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中命名实体识别设备进行详细描述。
图5是本发明实施例提供的一种命名实体识别设备的结构示意图,该命名实体识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对命名实体识别设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在命名实体识别设备500上执行存储介质530中的一系列计算机程序操作。
命名实体识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的命名实体识别设备结构并不构成对命名实体识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种命名实体识别设备,所述命名实体识别设备包括存储器和处理器,存储器中存储有计算机可读计算机程序,计算机可读计算机程序被处理器执行时,使得处理器执行上述各实施例中的所述命名实体识别方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行所述命名实体识别方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种命名实体识别方法,其特征在于,所述命名实体识别方法包括:
获取待处理的原始文本;
对所述原始文本进行序列转换,得到目标输入序列;
对所述目标输入序列进行语义增强,得到目标语义信息;
根据所述目标输入序列和所述目标语义信息确定特征矩阵,得到目标特征矩阵;
根据所述目标特征矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述对所述原始文本进行序列转换,得到目标输入序列,包括:
对所述原始文本进行分词,得到多个目标词汇;
对每个目标词汇进行序列值转换,得到每个目标词汇对应的目标序列值;
对每个目标词汇对应的目标序列值进行序列格式转换,得到目标输入序列。
3.根据权利要求1所述的命名实体识别方法,其特征在于,所述对所述目标输入序列进行语义增强,得到目标语义信息,包括:
获取目标输入序列中的词嵌入信息、句子信息和位置信息;
对所述词嵌入信息、所述句子信息和所述位置信息进行拼接,得到拼接信息;
将所述拼接信息输入预置的上下文编码器进行语义增强,得到目标语义信息。
4.根据权利要求1所述的命名实体识别方法,其特征在于,所述根据所述目标输入序列和所述目标语义信息确定特征矩阵,得到目标特征矩阵,包括:
提取所述目标输入序列中的序列元素,并提取所述目标语义信息中的特征信息;
计算所述序列元素和所述特征信息的余弦相似度;
基于所述余弦相似度和预置的多头注意力机制生成目标特征矩阵。
5.根据权利要求1所述的命名实体识别方法,其特征在于,所述根据所述目标特征矩阵对所述原始文本进行命名实体识别,得到目标命名实体,包括:
基于所述目标特征矩阵确定所述原始文本对应的字级别矩阵;
基于所述字级别矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
6.根据权利要求5所述的命名实体识别方法,其特征在于,所述基于所述目标特征矩阵确定所述原始文本对应的字级别矩阵,包括:
通过预置的全连接网络对所述目标特征矩阵的每个元素进行单标签分类,得到元素分类结果;
对所述元素分类结果进行全局信息和局部信息计算,得到字级别矩阵。
7.根据权利要求1-6中任一项所述的命名实体识别方法,其特征在于,所述基于所述字级别矩阵对所述原始文本进行命名实体识别,得到目标命名实体,包括:
获取所述字级别矩阵对应的目标矩阵元素;
对所述目标矩阵元素进行类别匹配,得到目标类别;
基于所述目标类别和所述目标矩阵元素确定所述原始文本对应的命名实体,得到目标命名实体。
8.一种命名实体识别装置,其特征在于,所述命名实体识别装置包括:
获取模块,用于获取待处理的原始文本;
转换模块,用于对所述原始文本进行序列转换,得到目标输入序列;
增强模块,用于对所述目标输入序列进行语义增强,得到目标语义信息;
处理模块,用于根据所述目标输入序列和所述目标语义信息确定特征矩阵,得到目标特征矩阵;
识别模块,用于根据所述目标特征矩阵对所述原始文本进行命名实体识别,得到目标命名实体。
9.一种命名实体识别设备,其特征在于,所述命名实体识别设备包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;
所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述命名实体识别设备执行如权利要求1-7中任一项所述的命名实体识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111139832.8A CN113836929A (zh) | 2021-09-28 | 2021-09-28 | 命名实体识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111139832.8A CN113836929A (zh) | 2021-09-28 | 2021-09-28 | 命名实体识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836929A true CN113836929A (zh) | 2021-12-24 |
Family
ID=78970768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111139832.8A Pending CN113836929A (zh) | 2021-09-28 | 2021-09-28 | 命名实体识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836929A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115938365A (zh) * | 2023-03-09 | 2023-04-07 | 广州小鹏汽车科技有限公司 | 语音交互方法、车辆及计算机可读存储介质 |
CN116306657A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051574A1 (zh) * | 2019-09-16 | 2021-03-25 | 平安科技(深圳)有限公司 | 英文文本序列标注方法、系统及计算机设备 |
CN112861539A (zh) * | 2021-03-16 | 2021-05-28 | 云知声智能科技股份有限公司 | 嵌套命名实体识别方法、装置、电子设备和存储介质 |
WO2021151299A1 (zh) * | 2020-05-29 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于人工智能的数据增强方法、装置、电子设备及介质 |
-
2021
- 2021-09-28 CN CN202111139832.8A patent/CN113836929A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051574A1 (zh) * | 2019-09-16 | 2021-03-25 | 平安科技(深圳)有限公司 | 英文文本序列标注方法、系统及计算机设备 |
WO2021151299A1 (zh) * | 2020-05-29 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于人工智能的数据增强方法、装置、电子设备及介质 |
CN112861539A (zh) * | 2021-03-16 | 2021-05-28 | 云知声智能科技股份有限公司 | 嵌套命名实体识别方法、装置、电子设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115938365A (zh) * | 2023-03-09 | 2023-04-07 | 广州小鹏汽车科技有限公司 | 语音交互方法、车辆及计算机可读存储介质 |
CN116306657A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
CN116306657B (zh) * | 2023-05-19 | 2023-08-22 | 之江实验室 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
WO2020232861A1 (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN110737758A (zh) | 用于生成模型的方法和装置 | |
CN110192203A (zh) | 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型 | |
CN109165563B (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
CN113312500A (zh) | 一种面向大坝安全运行的事件图谱构建方法 | |
CN111368049A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN115115913A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111666766B (zh) | 数据处理方法、装置和设备 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN113836928B (zh) | 文本实体生成方法、装置、设备及存储介质 | |
CN113705313A (zh) | 文本识别方法、装置、设备及介质 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN113836929A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN114328934B (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN115130613B (zh) | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 | |
CN112000778A (zh) | 一种基于语义识别的自然语言处理方法、装置和系统 | |
CN114861601B (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
CN113961666A (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN113282714A (zh) | 一种基于区分性词向量表示的事件检测方法 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN112085120A (zh) | 多媒体数据的处理方法、装置、电子设备及存储介质 | |
CN115344699A (zh) | 文本分类模型的训练方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |