CN111753545A - 嵌套实体识别方法、装置、电子设备和存储介质 - Google Patents
嵌套实体识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111753545A CN111753545A CN202010566433.9A CN202010566433A CN111753545A CN 111753545 A CN111753545 A CN 111753545A CN 202010566433 A CN202010566433 A CN 202010566433A CN 111753545 A CN111753545 A CN 111753545A
- Authority
- CN
- China
- Prior art keywords
- entity recognition
- nested
- recognition result
- text
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000012937 correction Methods 0.000 claims description 72
- 230000015654 memory Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例提供一种嵌套实体识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别文本;将待识别文本输入至嵌套实体识别模型,得到嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果;其中,嵌套实体识别模型是基于样本文本,以及样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的;嵌套实体识别模型用于基于待识别文本,确定简单实体识别结果,并基于待识别文本以及简单实体识别结果,确定嵌套实体识别结果。本发明实施例提供的嵌套实体识别方法、装置、电子设备和存储介质,仅需一个模型即可实现嵌套实体及其内部简单实体的识别,且展现出了嵌套实体及其内部简单实体之间的嵌套关系。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种嵌套实体识别方法、装置、电子设备和存储介质。
背景技术
实体识别作为自然语言处理过程中的重要步骤,被广泛应用到信息抽取、信息检索、信息推荐等任务中。由于自然语言存在多样性,大量文本中存在着嵌套实体。此处,嵌套实体是指整体上构成一个实体,同时其内部还包含了若干个简单实体的情况。因此,为了正确识别出嵌套实体,需要识别出文本中的嵌套实体与其内部的简单实体之间的嵌套关系。
然而,现有技术通常采用序列标注模型进行实体识别,而现有的序列标注模型仅能输出一个序列标记结果,无法既识别出嵌套实体又识别出其内部的简单实体。
发明内容
本发明实施例提供一种嵌套实体识别方法、装置、电子设备和存储介质,用以解决现有序列标注方法无法既识别出嵌套实体又识别出其内部的简单实体的问题。
第一方面,本发明实施例提供一种嵌套实体识别方法,包括:
确定待识别文本;
将所述待识别文本输入至嵌套实体识别模型,得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果;
其中,所述嵌套实体识别模型是基于样本文本,以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的;
所述嵌套实体识别模型用于基于所述待识别文本,确定所述简单实体识别结果,并基于所述待识别文本以及所述简单实体识别结果,确定所述嵌套实体识别结果。
可选地,所述将所述待识别文本输入至嵌套实体识别模型,得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果,具体包括:
将所述待识别文本的第一文本向量输入至所述嵌套实体识别模型的简单实体识别层,得到所述简单实体识别层输出的所述简单实体识别结果;
将所述简单实体识别结果输入至所述嵌套实体识别模型的注意力层,得到所述注意力层输出的简单实体注意力向量;
将所述简单实体注意力向量以及所述待识别文本的第二文本向量输入至所述嵌套实体识别模型的嵌套实体识别层,得到所述嵌套实体识别层输出的所述嵌套实体识别结果。
可选地,所述第一文本向量包括所述待识别文本中每个字的字向量,以及所述待识别文本中每个字的词典特征向量和/或词性特征向量。
可选地,所述待识别文本中每个字的词典特征向量是将所述待识别文本与预先构建的领域词典匹配得到的;
其中,任一字的词典特征向量表示所述任一字在所述领域词典中匹配的实体的类型以及所述任一字在所述匹配的实体中的位置。
可选地,所述将所述简单实体注意力向量以及所述待识别文本的文本向量输入至所述嵌套实体识别模型的嵌套实体识别层,得到所述嵌套实体识别层输出的所述嵌套实体识别结果,之后还包括:
将所述简单实体识别结果和/或所述嵌套实体识别结果输入至所述嵌套实体识别模型的结果矫正层,得到所述结果矫正层输出的矫正后的简单实体识别结果和/或嵌套实体识别结果。
可选地,所述将所述简单实体识别结果或所述嵌套实体识别结果输入至所述嵌套实体识别模型的结果矫正层,得到所述结果矫正层输出的矫正后的简单实体识别结果或嵌套实体识别结果,具体包括:
将所述简单实体识别结果或所述嵌套实体识别结果输入至所述结果矫正层,由所述结果矫正层基于实体标签规则,对所述简单实体识别结果或所述嵌套实体识别结果进行结果矫正,得到所述结果矫正层输出的矫正后的简单实体识别结果或矫正后的嵌套实体识别结果。
可选地,所述将所述简单实体识别结果和所述嵌套实体识别结果输入至所述嵌套实体识别模型的结果矫正层,得到所述结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果,具体包括:
将所述简单实体识别结果和所述嵌套实体识别结果输入至所述结果矫正层,由所述结果矫正层在判断获知所述简单实体识别结果和所述嵌套实体识别结果存在冲突时,对所述简单实体识别结果或所述嵌套实体识别结果进行结果矫正,得到所述结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果;
所述简单实体识别结果和所述嵌套实体识别结果存在冲突的情况包括所述简单实体识别结果与所述嵌套实体识别结果之间存在重复实体、边界相同但实体类型不同的实体以及边界交叉的实体中的至少一种。
第二方面,本发明实施例提供一种嵌套实体识别装置,包括:
文本确定单元,用于确定待识别文本;
嵌套识别单元,用于将所述待识别文本输入至嵌套实体识别模型,得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果;
其中,所述嵌套实体识别模型是基于样本文本,以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的;
所述嵌套实体识别模型用于基于所述待识别文本,确定所述简单实体识别结果,并基于所述待识别文本以及所述简单实体识别结果,确定所述嵌套实体识别结果。
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑命令,以执行如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种嵌套实体识别方法、装置、电子设备和存储介质,基于待识别文本,确定简单实体识别结果,并基于待识别文本以及简单实体识别结果,确定嵌套实体识别结果,仅需一个模型即可实现嵌套实体及其内部简单实体的识别;并且,得到的简单实体识别结果和嵌套实体识别结果中的实体边界信息,展现出了嵌套实体及其内部简单实体之间的嵌套关系,为后续的文本解析任务提供了更好的支撑作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的嵌套实体识别方法的流程示意图;
图2为本发明实施例提供的嵌套实体识别模型运行方法的流程示意图;
图3为本发明实施例提供的嵌套实体识别模型的结构示意图;
图4为本发明实施例提供的嵌套实体识别装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实体识别作为自然语言处理过程中的重要步骤,被广泛应用到信息抽取、信息检索、信息推荐等任务中。由于自然语言存在多样性,待识别文本中可能存在着嵌套实体。此处,嵌套实体是指其中嵌套若干个简单实体的实体,简单实体即内部不包含其他实体的实体。例如,对于建筑领域的待识别文本“高度大于16m的住宅必须设置电梯”,其中“高度大于16m的住宅”是一个嵌套实体,其类型为“Object”,并且,该嵌套实体内部包含若干简单实体,即类型为“Attribute”的实体“高度”、类型为“AttributeValue”的实体“大于16m”以及类型为“Object”的实体“住宅”。因此,在进行实体识别时,需要识别出文本中的嵌套实体与其内部简单实体之间的嵌套关系。
目前,通常采用序列标注的方式进行实体识别,例如采用BIO或者BIOES等标记方式对待识别文本中每个字进行标记。其中,在BIOES标记方式中,B(Begin)表示实体的开始字符,I(Intermediate)表示实体的中间字符,E(End)表示实体的结束字符,S(Single)表示单个字符,O(Other)表示其他。然而,上述方法仅能输出一个序列标记结果,而无法识别出嵌套实体及其内部简单实体之间的嵌套关系,也无法得知待识别文本中是否存在嵌套实体。
对此,本发明实施例提供了一种嵌套实体识别方法。图1为本发明实施例提供的嵌套实体识别方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待识别文本。
此处,待识别文本即需要进行嵌套实体识别的文本,待识别文本可以是电子文本,也可以是应用OCR(Optical Character Recognition,光学字符识别)等文字识别技术对纸质文本的图像进行文字识别得到的,本发明实施例对此不作具体限定。
步骤120,将待识别文本输入至嵌套实体识别模型,得到嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果;
其中,嵌套实体识别模型是基于样本文本,以及样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的;
嵌套实体识别模型用于基于待识别文本,确定简单实体识别结果,并基于待识别文本以及简单实体识别结果,确定嵌套实体识别结果。
具体地,将待识别文本输入到嵌套实体识别模型后,嵌套实体识别模型对待识别文本进行语义信息提取,并基于待识别文本的语义信息进行细粒度的简单实体识别,得到简单实体识别结果。其中,简单实体识别结果包含了待识别文本中所有简单实体的实体边界,还可以包含所有简单实体的实体类型。可选地,简单实体识别结果可以为对应于待识别文本中包含的所有简单实体的实体标签序列。例如,对于待识别文本“高度大于16m的住宅必须设置电梯”,简单实体识别结果可以为[B-attr,E-attr,B-attrValue,I-attrValue,I-attrValue,I-attrValue,E-atrValue,O,B-object,E-object,O,O,B-operate,E-operate,B-object,E-object],其中attr、attrValue、object和operate为实体类型,而B、I、E、O代表实体的开始字符、中间字符、结尾字符和其他字符。
得到简单实体识别结果后,嵌套实体识别模型基于待识别文本以及简单实体识别结果,再进行粗粒度的嵌套实体识别,得到嵌套实体识别结果。其中,嵌套实体识别结果中包含了待识别文本中的嵌套实体的实体边界,还可以包含嵌套实体的实体类型,也可以包含待识别文本中剩余无法聚合的简单实体的实体边界和实体类型。可选地,嵌套实体识别结果可以为对应于待识别文本中包含的嵌套实体和简单实体的实体标签序列。例如,对于待识别文本“高度大于16m的住宅必须设置电梯”,嵌套实体识别结果可以为[B-object,I-object,I-object,I-object,I-object,I-object,I-object,I-object,I-object,E-object,O,O,B-operate,E-operate,B-object,E-object]。进行粗粒度的嵌套实体识别时,在待识别文本本身的语义信息基础上,简单实体识别结果可以带来更多的语义信息,例如简单实体识别结果中各简单实体的实体类型和实体边界,能够帮助确定嵌套实体以及简单实体的实体类型和实体边界,从而提高嵌套实体识别的准确性。需要说明的是,简单实体识别层和嵌套实体识别层在对待识别文本进行实体类型标注时,所采用的实体类型标签是相同的,因此,无需特意为嵌套实体识别层单独设计一套实体类型标签。
确定得到简单实体识别结果和嵌套实体识别结果后,简单实体识别结果和嵌套实体识别结果中的实体边界信息,可以展现出嵌套实体及其内部简单实体之间的嵌套关系。例如,待识别文本“高度大于16m的住宅必须设置电梯”,其对应的简单实体识别结果为[B-attr,E-attr,B-attrValue,I-attrValue,I-attrValue,I-attrValue,E-atrValue,O,B-object,E-object,O,O,B-operate,E-operate,B-object,E-object],嵌套实体识别结果为[B-object,I-object,I-object,I-object,I-object,I-object,I-object,I-object,I-object,E-object,O,O,B-operate,E-operate,B-object,E-object]。根据简单实体识别结果和嵌套实体识别结果中下划线部分的实体边界信息,可以看出嵌套实体“高度大于16m的住宅”与简单实体“高度”、“大于16m”和“住宅”存在嵌套关系。
在执行步骤120之前,还可以预先训练得到嵌套实体识别模型,具体可以通过如下方式训练得到嵌套实体识别模型:首先,收集大量样本文本,并通过人工标注的方式,确定样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果。随即基于样本文本,以及样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果对初始模型进行训练,从而得到嵌套实体识别模型。
本发明实施例提供的方法,嵌套实体识别模型基于待识别文本,确定简单实体识别结果,并基于待识别文本以及简单实体识别结果,确定嵌套实体识别结果,仅需一个模型即可实现嵌套实体及其内部简单实体的识别;并且,得到的简单实体识别结果和嵌套实体识别结果中的实体边界信息,展现出了嵌套实体及其内部简单实体之间的嵌套关系,为后续的文本解析任务提供了更好的支撑作用。
基于上述实施例,图2为本发明实施例提供的嵌套实体识别模型运行方法的流程示意图,如图2所示,步骤120具体包括:
步骤121,将待识别文本的第一文本向量输入至嵌套实体识别模型的简单实体识别层,得到简单实体识别层输出的简单实体识别结果。
具体地,待识别文本的第一文本向量用于表征待识别文本的语义特征。可选地,待识别文本的第一文本向量可以包含待识别文本中每个字的语义信息。简单实体识别层用于基于待识别文本的第一文本向量,识别出待识别文本中所有的简单实体,得到简单实体识别结果。
可选地,简单实体识别层可以是双向长短时记忆网络BiLSTM+条件随机场CRF的结构。其中,Bi-LSTM可以用于对待识别文本的第一文本向量进行编码,得到待识别文本的上下文语义向量。CRF可以基于待识别文本的上下文语义向量,确定待识别文本中每个字对应于每一实体标签的概率,并使用动态规划方法,例如维特比算法,计算得到概率和最大的实体标签序列,并将其作为简单实体识别结果输出。
步骤122,将简单实体识别结果输入至嵌套实体识别模型的注意力层,得到注意力层输出的简单实体注意力向量。
具体地,注意力层用于基于注意力权重矩阵,对简单实体识别结果进行自注意力变换,得到简单实体注意力向量。此处,自注意力变换可以挖掘出简单实体识别结果中关系密切、可能可以进一步聚合形成新实体的简单实体,从而凸显出简单实体识别结果中可能可以聚合形成嵌套实体的简单实体,并弱化简单实体识别结果中无法进一步聚合的简单实体,以提高嵌套实体识别结果的准确性。其中,注意力权重矩阵可以在嵌套实体识别模型的训练过程中学习得到。
步骤123,将简单实体注意力向量以及待识别文本的第二文本向量输入至嵌套实体识别模型的嵌套实体识别层,得到嵌套实体识别层输出的嵌套实体识别结果。
具体地,待识别文本的第二文本向量用于表征待识别文本的语义特征。需要说明的是,第二文本向量可以与第一文本向量相同,即简单实体识别层与嵌套实体识别层共用一个输入,第二文本向量也可以与第一文本向量不同。可选地,第二文本向量可以为待识别文本中每个字的字向量。
嵌套实体识别层用于基于简单实体注意力向量以及待识别文本的第二文本向量,进行粗粒度的嵌套实体识别。可选地,嵌套实体识别层的结构可以与简单实体识别层的结构相同,例如,嵌套实体识别层也可以是双向长短时记忆网络BiLSTM+条件随机场CRF的结构。
本发明实施例提供的方法,基于自注意力机制,将简单实体识别结果变换为简单实体注意力向量,并基于简单实体注意力向量以及待识别文本的第二文本向量,确定嵌套实体识别结果,提高了嵌套实体识别结果的准确性。
基于上述任一实施例,该方法中,第一文本向量包括待识别文本中每个字的字向量,以及待识别文本中每个字的词典特征向量和/或词性特征向量。
具体地,待识别文本的第一文本向量包括待识别文本中每个字的字向量,除此之外,还可以包括每个字的词典特征向量和/或词性特征向量。此处,任一字的字向量可以是基于预训练的词向量模型确定得到的,例如Word2vec模型、Bert模型等;任一字的词典特征向量用于表征该字在预设词典中对应的词条的语义特征,任一字的词性特征向量用于表征该字词性的语义特征。其中,词典特征向量和词性特征向量可以在随机初始化后,在嵌套实体识别模型的训练过程中学习得到。
由于第一文本向量中除了包含每个字的字向量以外,还包含了每个字的词典特征向量和/或词性特征向量,即在每个字本身的语义信息基础上,还额外引入了每个字对应的词条的语义信息,和/或每个字的词性信息,丰富了待识别文本的语义信息,有助于提高简单实体识别结果的准确性。例如,基于每个字的词典特征向量,可以获知待识别文本中哪些相邻字在预设词典中构成一个专有词汇,这些构成专有词汇的相邻字更有可能构成一个简单实体,而不会将其割裂到两个或以上的实体中。又例如,基于每个字的词性,由于名词更有可能是实体,因此更有可能将词性为名词的相邻字识别为一个简单实体。
本发明实施例提供的方法,第一文本向量包括待识别文本中每个字的字向量,以及待识别文本中每个字的词典特征向量和/或词性特征向量,有助于提高简单实体识别结果的准确性。
基于上述任一实施例,该方法中,待识别文本中每个字的词典特征向量是将待识别文本与预先构建的领域词典匹配得到的;其中,任一字的词典特征向量表示该字在领域词典中匹配的实体的类型以及该字在匹配的实体中的位置。
具体地,需要预先基于待识别文本相关领域的文本,收集其中的专业术语和该领域的核心词作为潜在实体,从而构建该领域对应的领域词典。其中,潜在实体为有可能被识别为实体的词条,领域词典中包含有各个潜在实体及其对应的实体类型。例如,对于建筑领域,可以构建如下表所示的领域词典:
潜在实体 | 实体类型 |
起居室(厅) | object |
住宅建筑 | object |
建筑面积 | attr |
耐火等级 | attr |
设置 | operate |
相连 | operate |
…… | …… |
将待识别文本与领域词典进行匹配,得到待识别文本匹配的潜在实体及其实体类型。例如,对于待识别文本“四级耐火等级的住宅建筑”,待识别文本匹配的潜在实体及其实体类型为:[(四级,attrValue),(耐火等级,attr),(住宅建筑,object)]。可选地,待识别文本与领域词典的匹配算法可以采用最大后向匹配算法或最大前向匹配算法,本发明实施例对此不作具体限定。基于待识别文本匹配的潜在实体及其实体类型,可以得到待识别文本中每个字的词典特征向量,其中,任一字的词典特征向量可以表示该字对应的潜在实体的实体类型,以及该字在该潜在实体中的位置。基于每个字的词典特征向量,在进行简单实体识别时,可以获知待识别文本中哪些相邻字在领域词典中对应同一个潜在实体,并优先考虑将这些对应同一潜在实体的相邻字识别为一个简单实体,从而提高简单实体识别结果的准确性。
本发明实施例提供的方法,将待识别文本与预先构建的领域词典匹配得到待识别文本中每个字的词典特征向量,有助于提高简单实体识别结果的准确性。
基于所述任一实施例,还可以基于分词技术,例如jieba分词,对待识别文本进行分词处理,然后结合领域词典进行分词矫正。例如,“起居室(厅)的使用面积不应小于10m2”,分词结果为[‘起居室’,‘(’,‘厅’,‘)’,‘的’,‘使用’,‘面积’,‘不’,‘应’,‘小于’,‘10m2’]。结合领域词典中的“起居室(厅)”、“使用面积”等潜在实体,可以将分词结果矫正为:[‘起居室(厅)’,‘的’,‘使用面积’,‘不’,‘应’,‘小于’,‘10m2’]。然后,对矫正后的分词结果进行词性分析,得到待识别文本中各分词的词性,从而确定待识别文本中每个字的词性特征向量。其中,任一字的词性特征向量可以表示该字所属分词的词性以及该字在所属分词中的位置。
基于上述任一实施例,步骤123之后,还包括:
将简单实体识别结果和/或嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层,得到结果矫正层输出的矫正后的简单实体识别结果和/或嵌套实体识别结果。
具体地,为了来进一步提高简单实体识别结果和/或嵌套实体识别结果的准确性,可以将简单实体识别结果和/或嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层,得到结果矫正层输出的矫正后的简单实体识别结果和/或嵌套实体识别结果。
进一步地,可以仅将简单实体识别结果或者嵌套实体识别结果输入到结果矫正层中,以供结果矫正层单独分析简单实体识别结果或者嵌套实体识别结果自身存在的逻辑问题,从而对简单实体识别结果或者嵌套实体识别结果进行结果矫正;还可以将简单实体识别结果和嵌套实体识别结果同时输入到结果矫正层中,以供结果矫正层对比分析简单实体识别结果和嵌套实体识别结果之间存在的冲突,从而对简单实体识别结果或嵌套实体识别结果进行结果矫正,得到矫正后的简单实体识别结果和嵌套实体识别结果。
本发明实施例提供的方法,基于简单实体识别结果和/或嵌套实体识别结果,对简单实体识别结果和/或嵌套实体识别结果进行结果矫正,提高了简单实体识别结果和/或嵌套实体识别结果的准确性。
基于上述任一实施例,将简单实体识别结果或嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层,得到结果矫正层输出的矫正后的简单实体识别结果或嵌套实体识别结果,具体包括:
将简单实体识别结果或嵌套实体识别结果输入至结果矫正层,由结果矫正层基于实体标签规则,对简单实体识别结果或嵌套实体识别结果进行结果矫正,得到结果矫正层输出的矫正后的简单实体识别结果或矫正后的嵌套实体识别结果。
具体地,实体标签规则为利用实体标签进行序列标注时应当遵循的规律,该实体标签规则可以是预先根据实际应用场景设定得到的。例如,对于BIOES标签,在进行序列标注时,不应当接连出现两个标签B或两个标签E,标签B和I不应当出现在一个实体的结尾,例如“B-object,I-object,B-object,B-attr,E-attr”、“B-object,I-object,B-attr,E-attr”是不允许的,而标签E和I则不应当出现在一个实体的开始,例如“B-attr,E-attr,E-object,I-object,E-object”、“B-attr,E-attr,I-object,E-object”也是不允许的。
因此,可以基于实体标签规则,判断简单实体识别结果或嵌套实体识别结果是否符合该实体标签规则。若简单实体识别结果或嵌套实体识别结果不满足该实体标签规则,则需要对其进行结果矫正。可选地,若简单实体识别结果或嵌套实体识别结果不满足实体标签规则,则基于待识别文本中每个字对应于每一实体标签的概率,利用N-best搜索算法获取得分最高且满足实体标签规则的实体标签序列,作为矫正后的简单实体识别结果或嵌套实体识别结果。
本发明实施例提供的方法,基于实体标签规则,对简单实体识别结果或嵌套实体识别结果进行结果矫正,提高了简单实体识别结果或嵌套实体识别结果的准确性。
基于上述任一实施例,将简单实体识别结果和嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层,得到结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果,具体包括:
将简单实体识别结果和嵌套实体识别结果输入至结果矫正层,由结果矫正层在判断获知简单实体识别结果和嵌套实体识别结果存在冲突时,对简单实体识别结果或嵌套实体识别结果进行结果矫正,得到结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果;
简单实体识别结果和嵌套实体识别结果存在冲突的情况包括简单实体识别结果与嵌套实体识别结果之间存在重复实体、边界相同但实体类型不同的实体以及边界交叉的实体中的至少一种。
具体地,将简单实体识别结果和嵌套实体识别结果输入到结果矫正层后,结果矫正层首先需要对简单实体识别结果和嵌套实体识别结果进行对比,判断二者之间是否存在冲突。此处,简单实体识别结果和嵌套实体识别结果存在冲突的情况包括二者之间存在重复实体、边界相同但实体类型不同的实体以及边界交叉的实体中的至少一种。例如,对于待识别文本“高度大于16m的住宅必须设置电梯,起居室的使用面积不应小于10m2”,若简单实体识别结果和嵌套实体识别结果中均包括实体“电梯”,则表明二者之间存在重复实体;若简单实体识别结果和嵌套实体识别结果中均包括实体“设置”,但简单实体识别结果中实体“设置”的类型为“object”,而嵌套实体识别结果中实体“设置”的类型为“operate”,则表明二者之间存在边界相同但实体类型不同的实体;若简单实体识别结果中包括实体“不应”,而嵌套实体识别结果中包括实体“应小于”,则表明二者存在边界交叉的实体。
若结果矫正层在判断获知简单实体识别结果和嵌套实体识别结果存在冲突时,需要进行结果矫正,从而得到矫正后的简单实体识别结果和嵌套实体识别结果。需要说明的是,在进行结果矫正时,可以选择矫正简单实体识别结果,也可以选择矫正嵌套实体识别结果,本发明实施例对此不作具体限定。可选地,若简单实体识别结果和嵌套实体识别结果之间存在冲突,则可以仅保留存在冲突的两个实体中的一个。
本发明实施例提供的方法,在判断获知简单实体识别结果和嵌套实体识别结果存在冲突时,对简单实体识别结果或嵌套实体识别结果进行结果矫正,提高了简单实体识别结果和嵌套实体识别结果的准确性。
基于上述任一实施例,嵌套实体识别模型的构建方法包括如下步骤:
首先,收集大量样本文本,并确定每一样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果。
然后,确定嵌套实体识别模型的结构。图3为本发明实施例提供的嵌套实体识别模型的结构示意图,如图3所示,嵌套实体识别模型包括简单实体识别层、注意力层和嵌套实体识别层。其中,简单实体识别层和嵌套实体识别层的结构相同,均为BiLSTM+CRF的结构。
简单实体识别层用于基于待识别文本的第一文本向量,确定简单实体识别结果;其中,待识别文本的第一文本向量由待识别文本中每个字的字向量、词典特征向量以及词性特征向量拼接而成。注意力层用于对简单实体识别结果进行自注意力变换,得到简单实体注意力向量。嵌套实体识别层用于基于简单实体注意力向量以及待识别文本的第二文本向量,确定嵌套实体识别结果;其中,待识别文本的第二文本向量为待识别文本中每个字的字向量。可选地,可以将简单实体注意力向量和待识别文本的第二文本向量拼接后输入到嵌套实体识别层,以供确定嵌套实体识别结果。
接着,基于样本文本,以及样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果对上述嵌套实体识别模型的参数进行训练。
其中,嵌套实体识别模型的损失函数可以表示为:
Loss=α·Loss1+(1-α)·Loss2
其中,Loss为嵌套实体识别模型的损失,α∈(0,1)为超参数,Loss1和Loss2分别为简单实体识别层和嵌套实体识别层的损失,和分别为样本简单实体识别结果和样本嵌套实体识别结果的得分,为简单实体识别层计算得到的每一可能的实体标签序列的得分,为嵌套实体识别层计算得到的每一可能的实体标签序列的得分。在此基础上,嵌套实体识别模型的训练目标为样本简单实体识别结果和样本嵌套实体识别结果的得分最高,且其与所有实体标签序列得分总和的比值越来越大。
基于上述任一实施例,图4为本发明实施例提供的嵌套实体识别装置的结构示意图,如图4所示,该装置包括文本确定单元410和嵌套识别单元420。
其中,文本确定单元410用于确定待识别文本;
嵌套识别单元420用于将待识别文本输入至嵌套实体识别模型,得到嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果;
其中,嵌套实体识别模型是基于样本文本,以及样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的;
嵌套实体识别模型用于基于待识别文本,确定简单实体识别结果,并基于待识别文本以及简单实体识别结果,确定嵌套实体识别结果。
本发明实施例提供的装置,基于待识别文本,确定简单实体识别结果,并基于待识别文本以及简单实体识别结果,确定嵌套实体识别结果,仅需一个模型即可实现嵌套实体及其内部简单实体的识别;并且,得到的简单实体识别结果和嵌套实体识别结果中的实体边界信息,展现出了嵌套实体及其内部简单实体之间的嵌套关系,为后续的文本解析任务提供了更好的支撑作用。
基于上述任一实施例,嵌套识别单元420具体包括:
简单实体识别单元,用于将待识别文本的第一文本向量输入至嵌套实体识别模型的简单实体识别层,得到简单实体识别层输出的简单实体识别结果;
注意力单元,用于将简单实体识别结果输入至嵌套实体识别模型的注意力层,得到注意力层输出的简单实体注意力向量;
嵌套实体识别单元,用于将简单实体注意力向量以及待识别文本的第二文本向量输入至嵌套实体识别模型的嵌套实体识别层,得到嵌套实体识别层输出的嵌套实体识别结果。
本发明实施例提供的装置,基于自注意力机制,将简单实体识别结果变换为简单实体注意力向量,并基于简单实体注意力向量以及待识别文本的第二文本向量,确定嵌套实体识别结果,提高了嵌套实体识别结果的准确性。
基于上述任一实施例,该装置中,第一文本向量包括待识别文本中每个字的字向量,以及待识别文本中每个字的词典特征向量和/或词性特征向量。
本发明实施例提供的装置,第一文本向量包括待识别文本中每个字的字向量,以及待识别文本中每个字的词典特征向量和/或词性特征向量,有助于提高简单实体识别结果的准确性。
基于上述任一实施例,该装置中,待识别文本中每个字的词典特征向量是将待识别文本与预先构建的领域词典匹配得到的;其中,任一字的词典特征向量表示该字在领域词典中匹配的实体的类型以及该字在匹配的实体中的位置。
本发明实施例提供的装置,将待识别文本与预先构建的领域词典匹配得到待识别文本中每个字的词典特征向量,有助于提高简单实体识别结果的准确性。
基于上述任一实施例,该装置还包括结果矫正单元。
其中,结果矫正单元用于将简单实体识别结果和/或嵌套实体识别结果输入至嵌套实体识别模型的结果矫正层,得到结果矫正层输出的矫正后的简单实体识别结果和/或嵌套实体识别结果。
本发明实施例提供的装置,基于简单实体识别结果和/或嵌套实体识别结果,对简单实体识别结果和/或嵌套实体识别结果进行结果矫正,提高了简单实体识别结果和/或嵌套实体识别结果的准确性。
基于上述任一实施例,结果矫正单元具体用于:
将简单实体识别结果或嵌套实体识别结果输入至结果矫正层,由结果矫正层基于实体标签规则,对简单实体识别结果或嵌套实体识别结果进行结果矫正,得到结果矫正层输出的矫正后的简单实体识别结果或矫正后的嵌套实体识别结果。
本发明实施例提供的装置,基于实体标签规则,对简单实体识别结果或嵌套实体识别结果进行结果矫正,提高了简单实体识别结果或嵌套实体识别结果的准确性。
基于上述任一实施例,结果矫正单元具体用于:
将简单实体识别结果和嵌套实体识别结果输入至结果矫正层,由结果矫正层在判断获知简单实体识别结果和嵌套实体识别结果存在冲突时,对简单实体识别结果或嵌套实体识别结果进行结果矫正,得到结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果;
简单实体识别结果和嵌套实体识别结果存在冲突的情况包括简单实体识别结果与嵌套实体识别结果之间存在重复实体、边界相同但实体类型不同的实体以及边界交叉的实体中的至少一种。
本发明实施例提供的装置,在判断获知简单实体识别结果和嵌套实体识别结果存在冲突时,对简单实体识别结果或嵌套实体识别结果进行结果矫正,提高了简单实体识别结果和嵌套实体识别结果的准确性。
图5为本发明实施例提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令,以执行如下方法:确定待识别文本;将所述待识别文本输入至嵌套实体识别模型,得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果;其中,所述嵌套实体识别模型是基于样本文本,以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的;所述嵌套实体识别模型用于基于所述待识别文本,确定所述简单实体识别结果,并基于所述待识别文本以及所述简单实体识别结果,确定所述嵌套实体识别结果。
此外,上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定待识别文本;将所述待识别文本输入至嵌套实体识别模型,得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果;其中,所述嵌套实体识别模型是基于样本文本,以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的;所述嵌套实体识别模型用于基于所述待识别文本,确定所述简单实体识别结果,并基于所述待识别文本以及所述简单实体识别结果,确定所述嵌套实体识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种嵌套实体识别方法,其特征在于,包括:
确定待识别文本;
将所述待识别文本输入至嵌套实体识别模型,得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果;
其中,所述嵌套实体识别模型是基于样本文本,以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的;
所述嵌套实体识别模型用于基于所述待识别文本,确定所述简单实体识别结果,并基于所述待识别文本以及所述简单实体识别结果,确定所述嵌套实体识别结果。
2.根据权利要求1所述的嵌套实体识别方法,其特征在于,所述将所述待识别文本输入至嵌套实体识别模型,得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果,具体包括:
将所述待识别文本的第一文本向量输入至所述嵌套实体识别模型的简单实体识别层,得到所述简单实体识别层输出的所述简单实体识别结果;
将所述简单实体识别结果输入至所述嵌套实体识别模型的注意力层,得到所述注意力层输出的简单实体注意力向量;
将所述简单实体注意力向量以及所述待识别文本的第二文本向量输入至所述嵌套实体识别模型的嵌套实体识别层,得到所述嵌套实体识别层输出的所述嵌套实体识别结果。
3.根据权利要求2所述的嵌套实体识别方法,其特征在于,所述第一文本向量包括所述待识别文本中每个字的字向量,以及所述待识别文本中每个字的词典特征向量和/或词性特征向量。
4.根据权利要求3所述的嵌套实体识别方法,其特征在于,所述待识别文本中每个字的词典特征向量是将所述待识别文本与预先构建的领域词典匹配得到的;
其中,任一字的词典特征向量表示所述任一字在所述领域词典中匹配的实体的类型以及所述任一字在所述匹配的实体中的位置。
5.根据权利要求2至4任一项所述的嵌套实体识别方法,其特征在于,所述将所述简单实体注意力向量以及所述待识别文本的文本向量输入至所述嵌套实体识别模型的嵌套实体识别层,得到所述嵌套实体识别层输出的所述嵌套实体识别结果,之后还包括:
将所述简单实体识别结果和/或所述嵌套实体识别结果输入至所述嵌套实体识别模型的结果矫正层,得到所述结果矫正层输出的矫正后的简单实体识别结果和/或嵌套实体识别结果。
6.根据权利要求5所述的嵌套实体识别方法,其特征在于,所述将所述简单实体识别结果或所述嵌套实体识别结果输入至所述嵌套实体识别模型的结果矫正层,得到所述结果矫正层输出的矫正后的简单实体识别结果或嵌套实体识别结果,具体包括:
将所述简单实体识别结果或所述嵌套实体识别结果输入至所述结果矫正层,由所述结果矫正层基于实体标签规则,对所述简单实体识别结果或所述嵌套实体识别结果进行结果矫正,得到所述结果矫正层输出的矫正后的简单实体识别结果或矫正后的嵌套实体识别结果。
7.根据权利要求5所述的嵌套实体识别方法,其特征在于,所述将所述简单实体识别结果和所述嵌套实体识别结果输入至所述嵌套实体识别模型的结果矫正层,得到所述结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果,具体包括:
将所述简单实体识别结果和所述嵌套实体识别结果输入至所述结果矫正层,由所述结果矫正层在判断获知所述简单实体识别结果和所述嵌套实体识别结果存在冲突时,对所述简单实体识别结果或所述嵌套实体识别结果进行结果矫正,得到所述结果矫正层输出的矫正后的简单实体识别结果和嵌套实体识别结果;
所述简单实体识别结果和所述嵌套实体识别结果存在冲突的情况包括所述简单实体识别结果与所述嵌套实体识别结果之间存在重复实体、边界相同但实体类型不同的实体以及边界交叉的实体中的至少一种。
8.一种嵌套实体识别装置,其特征在于,包括:
文本确定单元,用于确定待识别文本;
嵌套识别单元,用于将所述待识别文本输入至嵌套实体识别模型,得到所述嵌套实体识别模型输出的简单实体识别结果和嵌套实体识别结果;
其中,所述嵌套实体识别模型是基于样本文本,以及所述样本文本对应的样本简单实体识别结果和样本嵌套实体识别结果训练得到的;
所述嵌套实体识别模型用于基于所述待识别文本,确定所述简单实体识别结果,并基于所述待识别文本以及所述简单实体识别结果,确定所述嵌套实体识别结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的嵌套实体识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的嵌套实体识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566433.9A CN111753545A (zh) | 2020-06-19 | 2020-06-19 | 嵌套实体识别方法、装置、电子设备和存储介质 |
CN202110343229.5A CN112836514B (zh) | 2020-06-19 | 2021-03-30 | 嵌套实体识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566433.9A CN111753545A (zh) | 2020-06-19 | 2020-06-19 | 嵌套实体识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111753545A true CN111753545A (zh) | 2020-10-09 |
Family
ID=72675518
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010566433.9A Withdrawn CN111753545A (zh) | 2020-06-19 | 2020-06-19 | 嵌套实体识别方法、装置、电子设备和存储介质 |
CN202110343229.5A Active CN112836514B (zh) | 2020-06-19 | 2021-03-30 | 嵌套实体识别方法、装置、电子设备和存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110343229.5A Active CN112836514B (zh) | 2020-06-19 | 2021-03-30 | 嵌套实体识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN111753545A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
CN112966511A (zh) * | 2021-02-08 | 2021-06-15 | 广州探迹科技有限公司 | 一种实体词识别方法及装置 |
CN112988979A (zh) * | 2021-04-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读介质及电子设备 |
CN113239659A (zh) * | 2021-04-21 | 2021-08-10 | 上海快确信息科技有限公司 | 一种融合规则的文本数字抽取装置 |
CN113392649A (zh) * | 2021-07-08 | 2021-09-14 | 上海浦东发展银行股份有限公司 | 一种识别方法、装置、设备及存储介质 |
CN114282538A (zh) * | 2021-11-24 | 2022-04-05 | 重庆邮电大学 | 基于bie位置词列表的中文文本数据字向量表征方法 |
CN114462391A (zh) * | 2022-03-14 | 2022-05-10 | 和美(深圳)信息技术股份有限公司 | 基于对比学习的嵌套实体识别方法和系统 |
US20230015606A1 (en) * | 2020-10-14 | 2023-01-19 | Tencent Technology (Shenzhen) Company Limited | Named entity recognition method and apparatus, device, and storage medium |
CN116522943A (zh) * | 2023-05-11 | 2023-08-01 | 北京微聚智汇科技有限公司 | 一种地址要素提取方法、装置、存储介质及计算机设备 |
CN116843432A (zh) * | 2023-05-10 | 2023-10-03 | 北京微聚智汇科技有限公司 | 一种基于地址文本信息的反欺诈方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180260474A1 (en) * | 2017-03-13 | 2018-09-13 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Methods for extracting and assessing information from literature documents |
CN109388807B (zh) * | 2018-10-30 | 2021-09-21 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN110008469B (zh) * | 2019-03-19 | 2022-06-07 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN110597970B (zh) * | 2019-08-19 | 2023-04-07 | 华东理工大学 | 一种多粒度医疗实体联合识别的方法及装置 |
CN110705302B (zh) * | 2019-10-11 | 2023-12-12 | 掌阅科技股份有限公司 | 命名实体的识别方法、电子设备及计算机存储介质 |
CN110866402B (zh) * | 2019-11-18 | 2023-11-28 | 北京香侬慧语科技有限责任公司 | 一种命名实体识别的方法、装置、存储介质及电子设备 |
CN110956042A (zh) * | 2019-12-16 | 2020-04-03 | 中国电子科技集团公司信息科学研究院 | 嵌套命名实体识别方法及系统、电子设备及可读介质 |
CN111104800B (zh) * | 2019-12-24 | 2024-01-23 | 东软集团股份有限公司 | 一种实体识别方法、装置、设备、存储介质和程序产品 |
-
2020
- 2020-06-19 CN CN202010566433.9A patent/CN111753545A/zh not_active Withdrawn
-
2021
- 2021-03-30 CN CN202110343229.5A patent/CN112836514B/zh active Active
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230015606A1 (en) * | 2020-10-14 | 2023-01-19 | Tencent Technology (Shenzhen) Company Limited | Named entity recognition method and apparatus, device, and storage medium |
CN112257421B (zh) * | 2020-12-21 | 2021-04-23 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
CN112966511A (zh) * | 2021-02-08 | 2021-06-15 | 广州探迹科技有限公司 | 一种实体词识别方法及装置 |
CN112966511B (zh) * | 2021-02-08 | 2024-03-15 | 广州探迹科技有限公司 | 一种实体词识别方法及装置 |
CN113239659A (zh) * | 2021-04-21 | 2021-08-10 | 上海快确信息科技有限公司 | 一种融合规则的文本数字抽取装置 |
CN112988979A (zh) * | 2021-04-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读介质及电子设备 |
CN113392649A (zh) * | 2021-07-08 | 2021-09-14 | 上海浦东发展银行股份有限公司 | 一种识别方法、装置、设备及存储介质 |
CN114282538A (zh) * | 2021-11-24 | 2022-04-05 | 重庆邮电大学 | 基于bie位置词列表的中文文本数据字向量表征方法 |
CN114462391A (zh) * | 2022-03-14 | 2022-05-10 | 和美(深圳)信息技术股份有限公司 | 基于对比学习的嵌套实体识别方法和系统 |
CN114462391B (zh) * | 2022-03-14 | 2024-05-14 | 和美(深圳)信息技术股份有限公司 | 基于对比学习的嵌套实体识别方法和系统 |
CN116843432A (zh) * | 2023-05-10 | 2023-10-03 | 北京微聚智汇科技有限公司 | 一种基于地址文本信息的反欺诈方法和装置 |
CN116843432B (zh) * | 2023-05-10 | 2024-03-22 | 北京微聚智汇科技有限公司 | 一种基于地址文本信息的反欺诈方法和装置 |
CN116522943A (zh) * | 2023-05-11 | 2023-08-01 | 北京微聚智汇科技有限公司 | 一种地址要素提取方法、装置、存储介质及计算机设备 |
CN116522943B (zh) * | 2023-05-11 | 2024-06-07 | 北京微聚智汇科技有限公司 | 一种地址要素提取方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112836514B (zh) | 2024-07-02 |
CN112836514A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112836514B (zh) | 嵌套实体识别方法、装置、电子设备和存储介质 | |
CN110457675B (zh) | 预测模型训练方法、装置、存储介质及计算机设备 | |
CN108984529A (zh) | 实时庭审语音识别自动纠错方法、存储介质及计算装置 | |
CN110147451B (zh) | 一种基于知识图谱的对话命令理解方法 | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
CN111309915A (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112052324A (zh) | 智能问答的方法、装置和计算机设备 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN112487139A (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN110210035B (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN115599901A (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN112699686A (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111309893A (zh) | 基于源问题生成相似问题的方法和装置 | |
CN113408287A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113362815A (zh) | 语音交互方法、系统、电子设备及存储介质 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN116304023A (zh) | 一种基于nlp技术的招投标要素抽取方法、系统及存储介质 | |
CN115017890A (zh) | 基于字音字形相似的文本纠错方法和装置 | |
CN107797981B (zh) | 一种目标文本识别方法及装置 | |
CN112488111B (zh) | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201009 |
|
WW01 | Invention patent application withdrawn after publication |