CN115906851A - 一种实体识别方法、装置、电子设备及存储介质 - Google Patents
一种实体识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115906851A CN115906851A CN202211509137.0A CN202211509137A CN115906851A CN 115906851 A CN115906851 A CN 115906851A CN 202211509137 A CN202211509137 A CN 202211509137A CN 115906851 A CN115906851 A CN 115906851A
- Authority
- CN
- China
- Prior art keywords
- entity
- participle
- entities
- alternative
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开一种实体识别方法、装置、电子设备及存储介质,属于金融数据处理技术领域,该方法包括:对待识别条款的文本内容进行分词,得到分词序列,从各预设实体中分词的倒排索引表中,查询分词序列中每个分词的索引集合,基于各分词的索引集合确定候选实体,将与候选实体匹配的预设实体作为待识别条款的实体识别结果,其中,各预设实体是基于历史条款的文本内容包含的指定类型的实体确定的。这样,先对历史条款包含的指定类型的实体进行整理得到多个预设实体,并建立这些预设实体中分词的倒排索引表,后续,借助于倒排索引表从这些预设实体中确定待识别条款中指定类型实体的识别结果,即便实体长度较长,也可保证识别准确度。
Description
技术领域
本申请涉及金融数据处理技术领域,尤其涉及一种实体识别方法、装置、电子设备及存储介质。
背景技术
在国际贸易场景中,信用证条款表达了申请人/开证行对受益人所提供单据或其他贸易行为的要求,如提供什么单据及内容、提交单据的最晚时间要求等,也有对对手银行贸易行为的要求,如要求什么场景下拒付、单据寄给某个银行等。
在借助于自然语言处理(Natural Language Processing,NLP)技术辅助审单人员进行信用证审单时,需要充分理解信用证条款的上述要求,解析出具体要求的单据、单据要求展示的内容、贸易时间港口等约束,以及被通知行、收单行的信息等,以支撑后续单证审核、系统信息自动录入。然而如受益人名称、寄单行名称地址(即公司名称地址)实体往往包含较长的描述词、分公司或部门信息,实体往往比较长,很难保证识别准确度。
发明内容
本申请实施例提供一种实体识别方法、装置、电子设备及存储介质,用以解决相关技术中存在的实体识别准确度低的问题。
第一方面,本申请实施例提供一种实体识别方法,包括:
获取待识别条款的文本内容;
对所述待识别条款的文本内容进行分词,得到分词序列;
从各预设实体的分词与各预设实体的索引之间的倒排索引表中,查询所述分词序列中每个分词的索引集合,其中,各预设实体是基于历史条款的文本内容中包含的指定类型的实体确定的;
基于所述分词序列中各分词的索引集合,确定候选实体;
将各预设实体中与所述候选实体匹配的实体,作为所述待识别条款的实体识别结果。
在一些实施例中,对所述待识别条款的文本内容进行分词,得到分词序列,包括:
对所述待识别条款的文本内容进行n-gram分词,得到所述分词序列。
在一些实施例中,基于所述分词序列中各分词的索引集合,从所述待识别条款的文本内容中确定候选实体,包括:
基于所述分词序列中每个分词的索引集合与参考词的索引集合的交集是否为空,从所述待识别条款的文本内容中选择备选实体,所述参考词是位于所述分词后面的分词;
从各备选实体中选择候选实体。
在一些实施例中,基于所述分词序列中每个分词的索引集合与参考词的索引集合的交集是否为空,从所述待识别条款的文本内容中选择备选实体,包括:
针对所述分词序列中的每个分词,取所述分词的索引集合与参考词的索引集合的交集,初始时所述参考词与所述分词的间隔为1;
若所述交集为空,则记录一次无共同索引;
若所述交集不为空,则将所述分词的索引集合更新为所述交集,将所述参考词与所述分词的间隔增1,执行取所述分词的索引集合与参考词的索引集合的交集的步骤;
直至无共同索引的记录次数达到预设值时,将所述待识别条款的文本内容中从所述分词到所述参考词的字符确定为一个备选实体。
在一些实施例中,从各备选实体中选择候选实体,包括:
若任一备选实体不存在包含共同内容的其它备选实体,则将所述备选实体确定为一个候选实体;
若任一备选实体存在包含共同内容的其它备选实体,则将所述备选实体和所述其它备选实体中字符最多的确定为一个候选实体。
在一些实施例中,每个预设实体包含的字符长度超过指定值。
第二方面,本申请实施例提供一种实体识别装置,包括:
获取模块,用于获取待识别条款的文本内容;
分词模块,用于对所述待识别条款的文本内容进行分词,得到分词序列;
查询模块,用于从各预设实体的分词与各预设实体的索引之间的倒排索引表中,查询所述分词序列中每个分词的索引集合,其中,各预设实体是基于历史条款的文本内容中包含的指定类型的实体确定的;
确定模块,用于基于所述分词序列中各分词的索引集合,确定候选实体;
识别模块,用于将各预设实体中与所述候选实体匹配的实体,作为所述待识别条款的实体识别结果。
在一些实施例中,所述分词模块具体用于:
对所述待识别条款的文本内容进行n-gram分词,得到所述分词序列。
在一些实施例中,所述确定模块具体用于:
基于所述分词序列中每个分词的索引集合与参考词的索引集合的交集是否为空,从所述待识别条款的文本内容中选择备选实体,所述参考词是位于所述分词后面的分词;
从各备选实体中选择候选实体。
在一些实施例中,所述确定模块具体用于:
针对所述分词序列中的每个分词,取所述分词的索引集合与参考词的索引集合的交集,初始时所述参考词与所述分词的间隔为1;
若所述交集为空,则记录一次无共同索引;
若所述交集不为空,则将所述分词的索引集合更新为所述交集,将所述参考词与所述分词的间隔增1,执行取所述分词的索引集合与参考词的索引集合的交集的步骤;
直至无共同索引的记录次数达到预设值时,将所述待识别条款的文本内容中从所述分词到所述参考词的字符确定为一个备选实体。
在一些实施例中,所述确定模块具体用于:
若任一备选实体不存在包含共同内容的其它备选实体,则将所述备选实体确定为一个候选实体;
若任一备选实体存在包含共同内容的其它备选实体,则将所述备选实体和所述其它备选实体中字符最多的确定为一个候选实体。
在一些实施例中,每个预设实体包含的字符长度超过指定值。
第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
存储器存储有可被至少一个处理器执行的指令,该指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实体识别方法。
第四方面,本申请实施例提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,所述电子设备能够执行上述实体识别方法。
第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在被电子设备调用执行时,使得所述电子设备执行上述实体识别方法。
本申请实施例中,对获取的待识别条款的文本内容进行分词,得到分词序列,从各预设实体的分词与各预设实体的索引之间的倒排索引表中,查询分词序列中每个分词的索引集合,基于分词序列中各分词的索引集合,从待识别条款的文本内容中确定候选实体,将各预设实体中与候选实体匹配的实体,作为待识别条款的实体识别结果,其中,各预设实体是基于待识别条款的文本内容包含的指定类型的实体确定的。这样,先对历史条款包含的指定类型的实体进行整理,得到多个预设实体,并建立这些预设实体中分词的倒排索引表,后续,在识别任一待识别条款中指定类型的实体时,借助于倒排索引表确定候选实体,并将与候选实体匹配的预设实体,确定为指定类型实体的识别结果,即便指定类型实体的长度较长,也可保证识别准确度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种实体识别方法的流程图;
图2为本申请实施例提供的一种确定候选实体的方法流程图;
图3为本申请实施例提供的一种离线建立基于词库n-gram的倒排索引表的过程示意图;
图4为本申请实施例提供的一种在线检索识别信用证条款中的公司名称地址的过程示意图;
图5为本申请实施例提供的一种合并索引的示意图;
图6为本申请实施例提供的一种实体识别装置的结构示意图;
图7为本申请实施例提供的一种用于实现实体识别方法的电子设备的硬件结构示意图。
具体实施方式
为了解决相关技术中存在的实体识别准确度低的问题,本申请实施例提供了一种实体识别方法、装置、电子设备及存储介质。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。并且,本申请的实施例中,对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
为了便于理解本申请,本申请涉及的技术术语中:
实体,在NLP领域中所说的实体可以是人名、地名、机构名、国家、日期等。如某某银行为机构。
n-gram,对待识别条款的文本内容按照字节/词进行大小为N的滑动窗口操作,形成长度是N的字节/词片段序列。
倒排索引,倒排索引源于实际应用中需要根据具体分词来查找包含这个分词的实体,这种索引表中的每一项都包含一个分词和包含这个分词的各实体的索引。由于不是由实体来确定分词,而是由分词来确定实体的索引,因而称为倒排索引。
图1为本申请实施例提供的一种实体识别方法的流程图,包括以下步骤。
在步骤S101中,获取待识别条款的文本内容。
其中,待识别条款可以是信用证条款,并且,待识别条款的文本内容可以为中文内容也可以为英文内容。
在步骤S102中,对待识别条款的文本内容进行分词,得到待识别条款的分词序列。
比如,对待识别条款的文本内容进行n-gram分词,得到分词序列。这样,可保留待识别条款中每个分词的语义信息,利于提升后续实体识别的准确性。
在步骤S103中,从各预设实体的分词与各预设实体的索引之间的倒排索引表中,查询分词序列中每个分词的索引集合,其中,各预设实体是基于历史条款的文本内容中包含的指定类型的实体确定的。
其中,指定类型的实体如受益人名称、公司名称地址等,这类实体包含的字符长度一般都比较长如超过10个字符,所以可称为超长实体。历史条款是在实际业务中已经处理过的条款,这些条款中包含的指定类型的实体是已知的,所以可将这些已知的指定类型的实体直接作为预设实体,也可将这些已知的指定类型的实体和其泛化实体一起作为预设实体,由于其泛化实体一般也为超长实体,所以每个预设实体也是超长实体,即每个预设实体包含的字符长度超过指定值如10。
以待识别条款是信用证条款为例,可预先对过往处理过的信用证条款中包含的超长实体和这些超长实体可能的表达方式进行整理,得到多个预设实体,然后,对每个预设实体进行n-gram分词,得到这个预设实体的分词序列,进而基于各预设实体的分词序列,建立各预设实体的分词与各预设实体之间的倒排索引表。
后续,针对待识别条款的分词序列中的每个分词,从倒排索引表中查询到该分词对应的索引集合,即是查询到包含该分词的所有预设实体的索引。
在步骤S104中,基于分词序列中各分词的索引集合,从待识别条款的文本内容中确定候选实体。
具体实施时,可根据图2所示的流程确定候选实体,该流程包括以下步骤。
在步骤1041中,基于分词序列中每个分词的索引集合与参考词的索引集合的交集是否为空,从待识别条款的文本内容中选择备选实体,参考词是位于分词后面的分词。
比如,针对分词序列中的每个分词,取该分词的索引集合与参考词的索引集合的交集,初始时参考词与分词的间隔为1,若交集为空,则记录一次无共同索引,若交集不为空,则将分词的索引集合更新为交集,将参考词与分词的间隔增1,执行取分词的索引集合与参考词的索引集合的交集的步骤,直至无共同索引的记录次数达到预设值时,将待识别条款的文本内容中从分词到参考词的字符确定为一个备选实体,即将待识别条款的文本内容中分词中首个字符开始到参考词的末个字符为止的所有字符作为一个备选实体。
在步骤1042中,从各备选实体中选择候选实体。
比如,若任一备选实体不存在包含共同内容的其它备选实体,则将这个备选实体确定为一个候选实体;若任一备选实体存在包含共同内容的其它备选实体,则将这个备选实体和其它备选实体中字符最多的确定为一个候选实体。
这样,可从包含相同字符的备选实体中选择长度最长的作为候选实体,减少候选实体数量,从而提升实体识别速度。
需要说明的是,待识别条款的文本内容中可能既包含受益人名称又包含公司名称地址,所以候选实体的个数可能不止一个。
在步骤S105中,将各预设实体中与候选实体匹配的实体,作为待识别条款的实体识别结果。
比如,计算每个候选实体与各预设实体的相似度,若存在相似度大于预设值的至少一个预设实体,则将这至少一个预设实体中相似度最大的作为这个候选实体的识别结果。
下面以识别信用证条款中的公司名称地址为例,对本申请实施例的方案进行介绍。
本申请实施例的方案主要包含两个阶段:
第一阶段、离线建立基于词库n-gram的倒排索引表。
参见图3,在图3中,第一行的“18444”表示公司名称地址的索引,“SOCIAL ABCDBANK LTD.,ABCD ROAD BRANCH,610/11,ABCD ROAD”表示公司名称地址,其他行的含义类似,在此不再赘述。
由于公司名称地址中的单个词往往很难表达关键含义,又因为语言描述的任意性使得整个句子每次描述有差异。因此,针对已整理出的公司名称地址,经过特殊标点清洗、分词后,可以每个word向后的n个词(n一般取3,包含当前word)建立n-gram序列,以当前的n-gram所在的词典序号记录其索引值,最终建立基于公司名称地址词典库n-gram的倒排索引,如图3所示“SOCIAL ABCD BANK”包含在索引号为[18444,18445,…,18455…]的银行实体/记录中。
此外,针对每个公司名称地址,还可离线统计并记录其分词后的句长信息,用于后续步骤的候选集快速比对。
第二阶段、在线检索识别信用证条款中的公司名称地址。
下面结合图4对在线检索识别信用证条款中的公司名称地址的过程进行介绍。
第一步、建立待解析信用证条款的n-gram序列。
假设待解析识别公司名称地址的条款为:2.ORIGINAL SET OF DOCUMENTSINCLUDING 6COPIES OF INVOICE AND DUPLICATE SET OF DOCUMENTS ALONGWITH REST2COPIES OF INVOICE TO BE SENT TO SOCIAL ABCD BANK LTD.BBBB BRANCH,TEST,SUCCESSIVE REGISTERED,AIR MAIL IMMEDIATELY AFTER NEGOTIATION。
在对这一条款进行特殊标点清洗、分词处理后,以相同的n的滑动窗口建立该条款的n-gram序列,并以具体分词后的词序号记录其位置信息,如第25个位置开始的n-gram序列是“SOCIAL ABCD BANK”。
第二步、获取倒排索引表中n-gram序列的索引结果。
针对n-gram序列中的每个序列,从公司名称地址的倒排索引表中查询这个序列的索引集合。
值得注意的是,因为公司名称地址为非标准的、未清洗的词典,可能包含较多未清洗的无关词汇,如“SET OF DOCUMENTS”也会被索引到,该问题可在下一步骤中处理掉。
第三步、合并索引结果并获取局部最优的名称地址起始位置。
从第一个位置开始,往后合并可连续合并的索引结果,参见图5,合并过程如下:
(1)当第i个位置的词wi有索引时,从该位置往后逐个合并n-gram对应的索引,若其有共同索引,则保留共同索引继续往后合并,直到无共同索引,进入步骤(2);
(2)记录无共同索引的次数,当累计无共同索引的步长超过给定的阈值如3时,从i位置开始最长的有共同索引的步长,如第25个位置往后连续(可能存在最多3个被忽略无共同索引的n-gram序列)8个位置有共同索引,则“8”为该备选实体以word数统计的句长;而从第26个位置开始往后有7个位置有共同索引。
最终得到图4所示的索引合并结论,在图4中第一行[0,0,3,2,0,0,...8,7,6,5,4,…0,0]中的每个数字i表达第i个wrod“从该位置往后最长m个位置有共同索引”,第二行[2,10,12,20,25,32]中的每个数字表示第一行的最长共同索引距离所在的局部极值点位置,如条款中第25个n-gram所在的位置为一个局部极值,则第一行中第26个位置往后有7个连续位置有共同索引的场景就无需再判断,因为第26个位置往后的7个连续位置与第25个位置的word可构成一个候选实体,无需再重复判断。
第四步、构建候选集及词库索引id并获得识别结果。
基于第三步合并索引id获得的第二行中候选公司名称地址的起始位置及其句长,依次判断每个候选公司名称地址与索引id下的词库差异。在该步骤中,以word数量统计的句长作为评价指标,如图4中的(2,3,[19])表示条款中第2个位置往后3个词汇组成的序列“SET OF DOCUMENTS INCLUDING”句长为4,被包含在id为19的词库记录中且该记录句长为20,由此可见两者句长相差太大,则该序列不被认为是识别到的公司名称地址;而(25,8,[18452])表示第25个位置往后8个词汇组成的序列“SOCIAL ABCD BANK LTD.BBBB BRANCH,TEST,SUCCESSIVE REGISTERED”与记录id为18452的记录“SOCIAL ABCD BANK LTD.BBBBBRANCH,SUCCESSIVE REGISTERED”句长相当(词语表达已在n-gram检索与合并中确认),因为作为公司名称地址被识别。
第五步、输出识别结果。
1.原条款中识别到的寄单行名称地址[25:33]
SOCIAL ABCD BANK LTD.BBBB BRANCH,TEST,SUCCESSIVE REGISTERED。
2.最相似的记录[18452]
SOCIAL ABCD BANK LTD.BBBB BRANCH,SUCCESSIVE REGISTERED。
本申请实施例提供的方案具有以下优点:
(1)直接基于用户长期积累的条款中的长实体建立倒排索引表,无需额外获取海量语料,基于倒排检索及检索结果合并的规则策略,对计算机资源需求小,开发成本低。
(2)基于n-gram建立倒排索引表,关注名称地址中的组合情况,能避免单一word索引场景中通用词汇索引过多的干扰,如“BANK/LTD”几乎出现在所有公司实体中。而n-gram所呈现的“TEST ABC BANK”往往包含了公司名词地址中特定的词汇及顺序含义,表达了一定的语义特征,更利于精确匹配。
(3)采用n-gram拆分条款后,在对索引集合进行合并时可以允许自定义可忽略的最大步长,容许检索的结果具有一定的模糊性,召回率高。
(4)还可离线统计并记录每个分词后的句长信息,在匹配阶段基于句长信息进行预处理,使得结果匹配时可以优先通过长度剔除无关选项,加速结果匹配。
(5)基于求解有共同索引的局部极值点,可以较准确地定位候选实体的起始位置,而不用每个位置都去判断,提升了实体识别效率。
当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候,电子设备中可以包括多个功能模块,每个功能模块可以包括软件、硬件或其结合。
基于相同的技术构思,本申请实施例还提供一种实体识别装置,实体识别装置解决问题的原理与上述实体识别方法相似,因此实体识别装置的实施可参见实体识别方法的实施,重复之处不再赘述。图6为本申请实施例提供的一种实体识别装置的结构示意图,包括获取模块601、分词模块602、查询模块603、确定模块604和识别模块605。
获取模块601,用于获取待识别条款的文本内容;
分词模块602,用于对所述待识别条款的文本内容进行分词,得到分词序列;
查询模块603,用于从各预设实体的分词与各预设实体的索引之间的倒排索引表中,查询所述分词序列中每个分词的索引集合,其中,各预设实体是基于历史条款的文本内容中包含的指定类型的实体确定的;
确定模块604,用于基于所述分词序列中各分词的索引集合,从所述待识别条款的文本内容中确定候选实体;
识别模块605,用于将各预设实体中与所述候选实体匹配的实体,作为所述待识别条款的实体识别结果。
在一些实施例中,所述分词模块602具体用于:
对所述待识别条款的文本内容进行n-gram分词,得到所述分词序列。
在一些实施例中,所述确定模块604具体用于:
基于所述分词序列中每个分词的索引集合与参考词的索引集合的交集是否为空,从所述待识别条款的文本内容中选择备选实体,所述参考词是位于所述分词后面的分词;
从各备选实体中选择候选实体。
在一些实施例中,所述确定模块604具体用于:
针对所述分词序列中的每个分词,取所述分词的索引集合与参考词的索引集合的交集,初始时所述参考词与所述分词的间隔为1;
若所述交集为空,则记录一次无共同索引;
若所述交集不为空,则将所述分词的索引集合更新为所述交集,将所述参考词与所述分词的间隔增1,执行取所述分词的索引集合与参考词的索引集合的交集的步骤;
直至无共同索引的记录次数达到预设值时,将所述待识别条款的文本内容中从所述分词到所述参考词的字符确定为一个备选实体。
在一些实施例中,所述确定模块604具体用于:
若任一备选实体不存在包含共同内容的其它备选实体,则将所述备选实体确定为一个候选实体;
若任一备选实体存在包含共同内容的其它备选实体,则将所述备选实体和所述其它备选实体中字符最多的确定为一个候选实体。
在一些实施例中,每个预设实体包含的字符长度超过指定值。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,本申请各实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现,这些接口通常是电性通信接口,但是也不排除可能是机械接口或其它的形式接口。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
在介绍了本申请示例性实施方式的实体识别方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
在一些可能的实施方式中,本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的方法。
下面参照图7来描述根据本申请的这种实施方式实现的电子设备130。图7显示的电子设备130仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器132,上述指令可由处理器131执行以完成上述实体识别方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,当计算机程序产品在被电子设备调用执行时,使得所述电子设备执行本申请提供的任一示例性方法。
并且,计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、闪存、光纤、光盘只读存储器(Compact Disk Read Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例中用于实体识别的程序产品可以采用CD-ROM并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络如局域网(Local AreaNetwork,LAN)或广域网(Wide Area Network,WAN)连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也包含这些改动和变型在内。
Claims (15)
1.一种实体识别方法,其特征在于,包括:
获取待识别条款的文本内容;
对所述待识别条款的文本内容进行分词,得到分词序列;
从各预设实体的分词与各预设实体的索引之间的倒排索引表中,查询所述分词序列中每个分词的索引集合,其中,各预设实体是基于历史条款的文本内容中包含的指定类型的实体确定的;
基于所述分词序列中各分词的索引集合,从所述待识别条款的文本内容中确定候选实体;
将各预设实体中与所述候选实体匹配的实体,作为所述待识别条款的实体识别结果。
2.如权利要求1所述的方法,其特征在于,对所述待识别条款的文本内容进行分词,得到分词序列,包括:
对所述待识别条款的文本内容进行n-gram分词,得到所述分词序列。
3.如权利要求1所述的方法,其特征在于,基于所述分词序列中各分词的索引集合,从所述待识别条款的文本内容中确定候选实体,包括:
基于所述分词序列中每个分词的索引集合与参考词的索引集合的交集是否为空,从所述待识别条款的文本内容中选择备选实体,所述参考词是位于所述分词后面的分词;
从各备选实体中选择候选实体。
4.如权利要求3所述的方法,其特征在于,基于所述分词序列中每个分词的索引集合与参考词的索引集合的交集是否为空,从所述待识别条款的文本内容中选择备选实体,包括:
针对所述分词序列中的每个分词,取所述分词的索引集合与参考词的索引集合的交集,初始时所述参考词与所述分词的间隔为1;
若所述交集为空,则记录一次无共同索引;
若所述交集不为空,则将所述分词的索引集合更新为所述交集,将所述参考词与所述分词的间隔增1,执行取所述分词的索引集合与参考词的索引集合的交集的步骤;
直至无共同索引的记录次数达到预设值时,将所述待识别条款的文本内容中从所述分词到所述参考词的字符确定为一个备选实体。
5.如权利要求3所述的方法,其特征在于,从各备选实体中选择候选实体,包括:
若任一备选实体不存在包含共同内容的其它备选实体,则将所述备选实体确定为一个候选实体;
若任一备选实体存在包含共同内容的其它备选实体,则将所述备选实体和所述其它备选实体中字符最多的确定为一个候选实体。
6.如权利要求1所述的方法,其特征在于,每个预设实体包含的字符长度超过指定值。
7.一种实体识别装置,其特征在于,包括:
获取模块,用于获取待识别条款的文本内容;
分词模块,用于对所述待识别条款的文本内容进行分词,得到分词序列;
查询模块,用于从各预设实体的分词与各预设实体的索引之间的倒排索引表中,查询所述分词序列中每个分词的索引集合,其中,各预设实体是基于历史条款的文本内容中包含的指定类型的实体确定的;
确定模块,用于基于所述分词序列中各分词的索引集合,从所述待识别条款的文本内容中确定候选实体;
识别模块,用于将各预设实体中与所述候选实体匹配的实体,作为所述待识别条款的实体识别结果。
8.如权利要求7所述的装置,其特征在于,所述分词模块具体用于:
对所述待识别条款的文本内容进行n-gram分词,得到所述分词序列。
9.如权利要求7所述的装置,其特征在于,所述确定模块具体用于:
基于所述分词序列中每个分词的索引集合与参考词的索引集合的交集是否为空,从所述待识别条款的文本内容中选择备选实体,所述参考词是位于所述分词后面的分词;
从各备选实体中选择候选实体。
10.如权利要求9所述的装置,其特征在于,所述确定模块具体用于:
针对所述分词序列中的每个分词,取所述分词的索引集合与参考词的索引集合的交集,初始时所述参考词与所述分词的间隔为1;
若所述交集为空,则记录一次无共同索引;
若所述交集不为空,则将所述分词的索引集合更新为所述交集,将所述参考词与所述分词的间隔增1,执行取所述分词的索引集合与参考词的索引集合的交集的步骤;
直至无共同索引的记录次数达到预设值时,将所述待识别条款的文本内容中从所述分词到所述参考词的字符确定为一个备选实体。
11.如权利要求9所述的装置,其特征在于,所述确定模块具体用于:
若任一备选实体不存在包含共同内容的其它备选实体,则将所述备选实体确定为一个候选实体;
若任一备选实体存在包含共同内容的其它备选实体,则将所述备选实体和所述其它备选实体中字符最多的确定为一个候选实体。
12.如权利要求7所述的装置,其特征在于,每个预设实体包含的字符长度超过指定值。
13.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6任一所述的方法。
14.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,所述电子设备能够执行如权利要求1-6任一所述的方法。
15.一种计算机程序产品,其特征在于,当计算机程序产品在被电子设备调用执行时,使得所述电子设备执行如权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211509137.0A CN115906851A (zh) | 2022-11-29 | 2022-11-29 | 一种实体识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211509137.0A CN115906851A (zh) | 2022-11-29 | 2022-11-29 | 一种实体识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115906851A true CN115906851A (zh) | 2023-04-04 |
Family
ID=86485784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211509137.0A Pending CN115906851A (zh) | 2022-11-29 | 2022-11-29 | 一种实体识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115906851A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522911A (zh) * | 2023-06-29 | 2023-08-01 | 恒生电子股份有限公司 | 实体对齐方法及装置 |
-
2022
- 2022-11-29 CN CN202211509137.0A patent/CN115906851A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522911A (zh) * | 2023-06-29 | 2023-08-01 | 恒生电子股份有限公司 | 实体对齐方法及装置 |
CN116522911B (zh) * | 2023-06-29 | 2023-10-03 | 恒生电子股份有限公司 | 实体对齐方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581976B (zh) | 医学术语的标准化方法、装置、计算机设备及存储介质 | |
CN111460787B (zh) | 一种话题提取方法、装置、终端设备及存储介质 | |
US20100023318A1 (en) | Method and device for retrieving data and transforming same into qualitative data of a text-based document | |
CN108897869B (zh) | 语料标注方法、装置、设备和存储介质 | |
CN110765889B (zh) | 法律文书的特征提取方法、相关装置及存储介质 | |
CN109299227B (zh) | 基于语音识别的信息查询方法和装置 | |
US11663407B2 (en) | Management of text-item recognition systems | |
CN115983233B (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN101689198A (zh) | 使用规格化串的语音搜索 | |
CN111369980A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
US8041556B2 (en) | Chinese to english translation tool | |
CN115906851A (zh) | 一种实体识别方法、装置、电子设备及存储介质 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
CN112417875B (zh) | 配置信息的更新方法、装置、计算机设备及介质 | |
CN112330501A (zh) | 一种文书处理方法、装置、电子设备及存储介质 | |
CN113392189B (zh) | 基于自动分词的新闻文本处理方法 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN115017385A (zh) | 一种物品搜索方法、装置、设备和存储介质 | |
CN111552780B (zh) | 医用场景的搜索处理方法、装置、存储介质及电子设备 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN112905752A (zh) | 一种智能交互方法、装置、设备以及存储介质 | |
Biswas et al. | A two stage language independent named entity recognition for indian languages | |
CN115048906B (zh) | 一种文档结构化方法、装置、电子设备和存储介质 | |
CN115587599B (zh) | 一种机器翻译语料的质量检测方法及装置 | |
CN112686055B (zh) | 语义识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |