CN111222336A - 一种识别未知实体的方法及装置 - Google Patents
一种识别未知实体的方法及装置 Download PDFInfo
- Publication number
- CN111222336A CN111222336A CN201911360590.8A CN201911360590A CN111222336A CN 111222336 A CN111222336 A CN 111222336A CN 201911360590 A CN201911360590 A CN 201911360590A CN 111222336 A CN111222336 A CN 111222336A
- Authority
- CN
- China
- Prior art keywords
- target text
- entity
- text
- vector
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 73
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 230000000306 recurrent effect Effects 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 230000008859 change Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000007596 consolidation process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种识别未知实体的方法,包括对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。本申请能够比较准确的识别未知实体,提高信息获取效率,并且本申请能够及时更新知识库。
Description
技术领域
本文涉及计算机领域,尤指一种识别未知实体的方法及装置。
背景技术
随着互联网的飞速进步和全球金融的高速发展,金融信息呈现爆炸式增长,每天都有新的公司,组织以及机构产生。投资者和决策者在面对浩瀚的互联网金融信息时常常苦于如何高效的获取需要关注的内容。针对这一问题,本专利提出了一种基于神经网络和知识库的新词发现方法,建立金融实体识别方案,从而提高金融信息获取效率,更好的为金融领域相关机构和个人提供信息支撑。
现有一般采用:n-gram模型加词频、基于凝固度和自由度、人工方式等方法。
n-gram模型加词频方法,简单来说就是,从大量语料中抽取连续的字的组合片段,这些字组合片段最多包含n个字,同时统计每个字组合的频率,按照词频并设置一个阈值来判断一个字组合片段是否为词汇。该方法简单处理速度快,它的缺点也很明显,就是会把一些不是词汇但出现频率很高的字组合也当成词。
基于凝固度和自由度方法,凝固度用来衡量两个字之间的相关性,即在一个字组合片段里,自由度就是一个字组合片段能够独立自由运用的程度。但是会涉及到两个重要的参数:凝固度的阈值和自由度的阈值,这两个阈值对于最终的效果至关重要,但是对于不同的语料,两个阈值的选择也有较大的差异,很难准确把控。
人工方式,采用人工的方式虽然可以在精度上有所控制,但是面对如此庞大的语料,必然会耗费大量的人力,物力,财力和时间,而且整个工作比较繁琐。
发明内容
本申请提供了一种的识别未知实体的方法及装置能够达到提高信息获取效率的目的。
本申请提供了一种识别未知实体的方法包括:对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。
在一个示例性实施例中,上述对目标文本的每个文本单元进行映射,获取所述目标文本的向量,包括:获取所述目标文本的每个文本单元的文本单元ID,根据所获取的每个文本单元的文本单元ID和所述目标文本的每个文本单元的初始化向量,得到所述目标文本的文本单元向量;获取所述目标文本的每个文本单元的位置ID,根据所获取的每个文本单元的位置ID和预设的位置向量得到所述目标文本的位置向量;将所述得到的目标文本的文本单元向量和位置向量进行合并得到所述目标文本的向量。
在一个示例性实施例中,上述将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵,包括:将所获取的目标文本的向量输入双向LSTM网络,将得到两个方向的输出结果进行合并,得到所述目标文本的编码特征矩阵。
在一个示例性实施例中,上述根据所得到所述目标文本的编码特征矩阵和预选训练好的条件随机场模型,确定所述目标文本的标签序列,包括:根据预设标签的数量,对所得到的编码特征矩阵进行维度转换,得到转换后的编码特征;将所得到的转换后的编码特征输入预选训练好的条件随机场模型,得到所述目标文本的标签序列。
在一个示例性实施例中,上述根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体,包括:遍历所述目标文本的标签序列,每当所述目标文本的标签序列中,其中一个标签或者相邻标签组合满足预设条件,则确定所述标签或者所述相邻标签的组合对应的文本单元为一个实体。
在一个示例性实施例中,上述将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体,包括:对于所获取的所述目标文本中的每个实体分别进行如下操作:将该实体作为第一实体,采用字符串编辑距离算法,当第一实体对应到所述预设的知识库中的第二实体的改动次数满足2c/(s1+s2)≥0.3,则确定所述第一实体为未知实体;否则,确定所述第一实体为已知实体;其中,c为改动的次数,s1为所述第一实体的长度,s2为所述预设的知识库中第二实体的长度。
在一个示例性实施例中,上述将所述获取的所述目标文本的所有实体中的每个实体与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体之后,还包括:将所述确定的所述目标文本中的未知实体添加到所述预设的知识库中。
本申请提供了一种识别未知实体的装置包括以下模块:向量获取模块,用于对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;编码模块,用于将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;标签序列确定模块,用于将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;实体获取模块,用于根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;匹配模块,用于将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。
在一个示例性实施例中,上述实体获取模块,用于根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体,是指:遍历所述目标文本的标签序列,每当所述目标文本的标签序列中,其中一个标签或者相邻标签组合满足预设条件,则确定所述标签或者所述相邻标签的组合对应的文本单元为一个实体。
在一个示例性实施例中,上述匹配模块,用于将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体,是指:匹配模块,用于对于所获取的所述目标文本中的每个实体分别进行如下操作:匹配模块,用于将该实体作为第一实体,采用字符串编辑距离算法,当第一实体对应到所述预设的知识库中的第二实体的改动次数满足2c/(s1+s2)≥0.3,则确定所述第一实体为未知实体;否则,确定所述第一实体为已知实体;其中,c为改动的次数,s1为所述第一实体的长度,s2为所述预设的知识库中第二实体的长度。
与相关技术相比,本申请通过对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体,能够较准确的识别未知实体,提高信息获取效率。
在一个示例性实施例中,本申请实施例中将所述确定的所述目标文本中的未知实体添加到所述预设的知识库中,从而能够及时的更新知识库。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1本申请实施例识别未知实体的方法流程图;
图2本申请实施例识别未知实体的装置模块示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
如图1所示,本申请实施例一种识别未知实体的方法包括如下步骤:
S1、对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;
S2、将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;
S3、将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;
S4、根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;
S5、将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。
在一个示例性实施例中,目标文本可以为一句字,段落,文章等等。
在一个示例性实施例中,文本单元可以为一个字符串,单词,或者词语等等。
在一个示例性实施例中,步骤S1中,所述对目标文本的每个文本单元进行映射,获取所述目标文本的向量,包括如下步骤:
S11、获取所述目标文本的每个文本单元的文本单元ID,根据所获取的每个文本单元的文本单元ID和所述目标文本的每个文本单元的初始化向量,得到所述目标文本的文本单元向量;
S12、获取所述目标文本的每个文本单元的位置ID,根据所获取的每个文本单元的位置ID和预设的位置向量得到所述目标文本的位置向量;
S13、将所述得到的目标文本的文本单元向量和位置向量进行合并得到所述目标文本的向量。
示例性的,以目标文本为句子,文本单元为单个汉字为例,因计算机无直接处理汉字,因此需要将一句话转换为到数字的一系列表示。假设语料中一共有20000个不同的汉字(包括其他常用符号),每个汉字随机初始化为一个300维的向量,那么即可得到一个[20000,300]的向量D,其中对于索引ID从0至19999,每个ID对应一个不同的汉字。那么对于一句话(长度为S)中的每一个单词,都可以在D中找到对应的ID,从而获取对应的向量,因此可以得到了一个维度为[S,300]的向量。
同上,为了获取句子中不同字符的位置信息,采用了位置向量P(类似于向量D),设定P的维度为[200,100],其中M=200为样本句子的最大长度,50为对应位置的特征数。假设句子的实际长度为61,那么句子的位置ID即为1,2,3,4,..,61,剩下的S-61个为0。对于每一个位置ID,都可以在向量P中找到对应的向量。因此对于每一个句子都可以得到一个维度为[S,100]的向量。
将每个句子得到的以上两个向量进行合并(例如:横向拼接),因此可以得到一个维度为[S,400]的向量。
在一个示例性实施例中,步骤S2中,所述将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵,包括:
将所获取的目标文本的向量输入双向LSTM网络,将得到两个方向的输出结果进行合并,得到所述目标文本的编码特征矩阵。在其他实施方式中还可以采用编码模型如transformer,BERT等等,目的是为了进行特征提取。
示例性的,以句子为例,将上述得到的句子向量输入双向LSTM网络即得到句子的最终编码结果T1,维度为[S,E]。
在一个示例性实施例中,步骤S3中,所述根据所得到所述目标文本的编码特征矩阵和预选训练好的条件随机场模型,确定所述目标文本的标签序列,包括如下步骤:
S31、根据预设标签的数量,对所得到的编码特征矩阵进行维度转换,得到转换后的编码特征;
S32、将所得到的转换后的编码特征输入预选训练好的条件随机场模型,得到所述目标文本的标签序列。
示例性的,预设B、I、O三种标签,将句子的编码特征矩阵T1进行线性变换维度为Ex3的矩阵,得到变换后的矩阵[S,3]。然后,将变换后的矩阵送入条件随机场CRF(Conditional Random Fields)中,CRF会输出句子中每个字对应的标签(即B,I,O)。
在训练阶段,首先对给定语料中的实体行标注:其中实体的标注采用BIO的形式,如“趣赚是一种新的赚钱方式”则标记为(B I O O O O O O O O O)。其中以’B I’标记的“趣赚”则是一个实体。其他以“O”标记。在训练阶段,CRF会输出实体识别的损失误差loss。
在一个示例性实施例中,步骤S4中所述根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体,包括:
遍历所述目标文本的标签序列,每当所述目标文本的标签序列中,其中一个标签或者相邻的标签组合满足预设条件,则确定所述标签或者所述相邻标签的组合对应的文本单元为一个实体。
示例性的,当标签组合满足“BI”或者“BII”,则确定该组合为一个实体。
在一个示例性实施例中,步骤S5中,所述将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体,包括对于所获取的所述目标文本中的每个实体分别进行如下操作:
将该实体作为第一实体,采用字符串编辑距离算法,当第一实体对应到所述预设的知识库中的第二实体的改动次数满足2c/(s1+s2)≥0.3,则确定所述第一实体为未知实体;否则,确定所述第一实体为已知实体;其中,c为改动的次数,s1为所述第一实体的长度,s2为所述预设的知识库中第二实体的长度。
在整个筛选的过程中,如有必要,可以再进行人工判断,但是相比只是用人工的方式,本申请实施例在保证准确度的同时,能够大幅度节省人力,物力和时间。
在一个示例性实施例中,上述识别未知实体的方法中所述步骤S5将所述获取的所述目标文本的所有实体中的每个实体与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体之后,还包括:
步骤S6:将所述确定的所述目标文本中的未知实体添加到所述预设的知识库中。
上述预设的知识库为能够存储实体的存储库,可以为现有的各种数据库,例如百度百科等能够存储数据并需要及时进行实体更新的数据库。
本申请实施例通过将未知实体添加到知识库中,能够及时的更新知识库。
如图2所示,本申请实施例一种识别未知实体的装置,包括如下模块:
向量获取模块10,用于对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;
编码模块20,用于将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;
标签序列确定模块30,用于将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;
实体获取模块40,用于根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;
匹配模块50,用于将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。
在一个示例性实施例中,上述向量获取模块10,用于对目标文本的每个文本单元进行映射,获取所述目标文本的向量,是指:
获取模块10,用于获取所述目标文本的每个文本单元的文本单元ID,根据所获取的每个文本单元的文本单元ID和所述目标文本的每个文本单元的初始化向量,得到所述目标文本的文本单元向量;
获取模块10,用于获取所述目标文本的每个文本单元的位置ID,根据所获取的每个文本单元的位置ID和预设的位置向量得到所述目标文本的位置向量;
获取模块10,用于将所述得到的目标文本的文本单元向量和位置向量进行合并得到所述目标文本的向量。
在一个示例性实施例中,上述编码模块20,用于将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵,是指:
编码模块20,用于将所获取的目标文本的向量输入双向LSTM网络,将得到两个方向的输出结果进行合并,得到所述目标文本的编码特征矩阵。
在一个示例性实施例中,上述标签序列确定模块30,用于根据所得到所述目标文本的编码特征矩阵和预选训练好的条件随机场模型,确定所述目标文本的标签序列,是指:
标签序列确定模块30,用于根据预设标签的数量,对所得到的编码特征矩阵进行维度转换,得到转换后的编码特征;
标签序列确定模块30,用于将所得到的转换后的编码特征输入预选训练好的条件随机场模型,得到所述目标文本的标签序列。
在一个示例性实施例中,上述实体获取模块40,用于根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体,是指:
实体获取模块40,用于遍历所述目标文本的标签序列,每当所述目标文本的标签序列中,其中一个标签或者相邻的标签组合满足预设条件,则确定所述标签或者所述相邻标签的组合对应的文本单元为一个实体。
在一个示例性实施例中,上述匹配模块50,用于将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体,是指:
匹配模块50,用于对于所获取的所述目标文本中的每个实体分别进行如下操作:
匹配模块50,用于将该实体作为第一实体,采用字符串编辑距离算法,当第一实体对应到所述预设的知识库中的第二实体的改动次数满足2c/(s1+s2)≥0.3,则确定所述第一实体为未知实体;否则,确定所述第一实体为已知实体;其中,c为改动的次数,s1为所述第一实体的长度,s2为所述预设的知识库中第二实体的长度。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (10)
1.一种识别未知实体的方法,其特征在于,所述方法包括:
对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;
将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;
将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;
根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;
将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。
2.根据权利要求1所述的方法,其特征在于,所述对目标文本的每个文本单元进行映射,获取所述目标文本的向量,包括:
获取所述目标文本的每个文本单元的文本单元ID,根据所获取的每个文本单元的文本单元ID和所述目标文本的每个文本单元的初始化向量,得到所述目标文本的文本单元向量;
获取所述目标文本的每个文本单元的位置ID,根据所获取的每个文本单元的位置ID和预设的位置向量得到所述目标文本的位置向量;
将所述得到的目标文本的文本单元向量和位置向量进行合并得到所述目标文本的向量。
3.根据权利要求1所述的方法,其特征在于,所述将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵,包括:
将所获取的目标文本的向量输入双向LSTM网络,将得到两个方向的输出结果进行合并,得到所述目标文本的编码特征矩阵。
4.根据权利要求1所述的方法,其特征在于,所述根据所得到所述目标文本的编码特征矩阵和预选训练好的条件随机场模型,确定所述目标文本的标签序列,包括:
根据预设标签的数量,对所得到的编码特征矩阵进行维度转换,得到转换后的编码特征;
将所得到的转换后的编码特征输入预选训练好的条件随机场模型,得到所述目标文本的标签序列。
5.根据权利要求1所述的方法,其特征在于,所述根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体,包括:
遍历所述目标文本的标签序列,每当所述目标文本的标签序列中,其中一个标签或者相邻标签组合满足预设条件,则确定所述标签或者所述相邻标签的组合对应的文本单元为一个实体。
6.根据权利要求1所述的方法,其特征在于,所述将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体,包括:
对于所获取的所述目标文本中的每个实体分别进行如下操作:
将该实体作为第一实体,采用字符串编辑距离算法,当第一实体对应到所述预设的知识库中的第二实体的改动次数满足2c/(s1+s2)≥0.3,则确定所述第一实体为未知实体;否则,确定所述第一实体为已知实体;其中,c为改动的次数,s1为所述第一实体的长度,s2为所述预设的知识库中第二实体的长度。
7.根据权利要求1所述的方法,其特征在于,所述将所述获取的所述目标文本的所有实体中的每个实体与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体之后,还包括:
将所述确定的所述目标文本中的未知实体添加到所述预设的知识库中。
8.一种识别未知实体的装置,其特征在于,所述装置包括:
向量获取模块,用于对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;
编码模块,用于将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;
标签序列确定模块,用于将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;
实体获取模块,用于根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;
匹配模块,用于将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。
9.根据权利要求8所述的装置,其特征在于,所述实体获取模块,用于根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体,是指:
遍历所述目标文本的标签序列,每当所述目标文本的标签序列中,其中一个标签或者相邻标签组合满足预设条件,则确定所述标签或者所述相邻标签的组合对应的文本单元为一个实体。
10.根据权利要求8所述的装置,其特征在于,所述匹配模块,用于将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体,是指:
匹配模块,用于对于所获取的所述目标文本中的每个实体分别进行如下操作:
匹配模块,用于将该实体作为第一实体,采用字符串编辑距离算法,当第一实体对应到所述预设的知识库中的第二实体的改动次数满足2c/(s1+s2)≥0.3,则确定所述第一实体为未知实体;否则,确定所述第一实体为已知实体;其中,c为改动的次数,s1为所述第一实体的长度,s2为所述预设的知识库中第二实体的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911360590.8A CN111222336B (zh) | 2019-12-25 | 2019-12-25 | 一种识别未知实体的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911360590.8A CN111222336B (zh) | 2019-12-25 | 2019-12-25 | 一种识别未知实体的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111222336A true CN111222336A (zh) | 2020-06-02 |
CN111222336B CN111222336B (zh) | 2023-11-07 |
Family
ID=70830839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911360590.8A Active CN111222336B (zh) | 2019-12-25 | 2019-12-25 | 一种识别未知实体的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111222336B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
CN112597757A (zh) * | 2020-12-04 | 2021-04-02 | 光大科技有限公司 | 词的检测方法及装置、存储介质、电子装置 |
CN112632985A (zh) * | 2020-12-18 | 2021-04-09 | 国网北京市电力公司 | 语料的处理方法、装置、存储介质及处理器 |
CN112883161A (zh) * | 2021-03-05 | 2021-06-01 | 龙马智芯(珠海横琴)科技有限公司 | 音译名识别规则的生成方法、装置、生成设备及存储介质 |
CN114445129A (zh) * | 2022-01-13 | 2022-05-06 | 湖北国际物流机场有限公司 | Bim编码系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130173604A1 (en) * | 2011-12-30 | 2013-07-04 | Microsoft Corporation | Knowledge-based entity detection and disambiguation |
CN104484377A (zh) * | 2014-12-09 | 2015-04-01 | 百度在线网络技术(北京)有限公司 | 替换词典生成方法及装置 |
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
-
2019
- 2019-12-25 CN CN201911360590.8A patent/CN111222336B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130173604A1 (en) * | 2011-12-30 | 2013-07-04 | Microsoft Corporation | Knowledge-based entity detection and disambiguation |
CN104484377A (zh) * | 2014-12-09 | 2015-04-01 | 百度在线网络技术(北京)有限公司 | 替换词典生成方法及装置 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
Non-Patent Citations (1)
Title |
---|
杨志豪等: "基于编辑距离和多种后处理的生物实体名识别", 《计算机工程》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
CN112597757A (zh) * | 2020-12-04 | 2021-04-02 | 光大科技有限公司 | 词的检测方法及装置、存储介质、电子装置 |
CN112632985A (zh) * | 2020-12-18 | 2021-04-09 | 国网北京市电力公司 | 语料的处理方法、装置、存储介质及处理器 |
CN112883161A (zh) * | 2021-03-05 | 2021-06-01 | 龙马智芯(珠海横琴)科技有限公司 | 音译名识别规则的生成方法、装置、生成设备及存储介质 |
CN114445129A (zh) * | 2022-01-13 | 2022-05-06 | 湖北国际物流机场有限公司 | Bim编码系统 |
CN114445129B (zh) * | 2022-01-13 | 2024-03-19 | 湖北国际物流机场有限公司 | Bim编码系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111222336B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222336B (zh) | 一种识别未知实体的方法及装置 | |
CN108460014B (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
US8249336B2 (en) | Learning string transformations from examples | |
US10438133B2 (en) | Spend data enrichment and classification | |
CN111581345A (zh) | 一种文档级别的事件抽取方法和装置 | |
CN111160032A (zh) | 一种命名实体提取方法、装置、电子设备及存储介质 | |
CN110852107A (zh) | 一种关系提取方法、装置、及存储介质 | |
CN111274821B (zh) | 一种命名实体识别数据标注质量评估方法及装置 | |
CN111767738A (zh) | 一种标签校验方法、装置、设备和存储介质 | |
CN109753517A (zh) | 一种信息查询的方法、装置、计算机存储介质及终端 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN109308311A (zh) | 一种多源异构数据融合系统 | |
CN116541528A (zh) | 招聘领域知识图谱构建的打标签方法和系统 | |
CN115952800A (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 | |
CN116776879A (zh) | 一种挖掘招聘领域技能实体的方法、系统及设备 | |
CN117851605B (zh) | 一种行业知识图谱构建方法、计算机设备及存储介质 | |
CN113076758B (zh) | 一种面向任务型对话的多域请求式意图识别方法 | |
CN117743566A (zh) | 分析报告的生成方法、装置、电子设备及存储介质 | |
CN116414872B (zh) | 基于自然语言识别及知识图谱的数据搜索方法和系统 | |
CN116701623A (zh) | 基于机器阅读理解的商业合同风险内容识别方法及系统 | |
CN112416754B (zh) | 一种模型评测方法、终端、系统及存储介质 | |
CN114595329A (zh) | 一种原型网络的少样本事件抽取系统及方法 | |
CN111475641B (zh) | 一种数据抽取方法、装置、存储介质及设备 | |
CN111400413B (zh) | 一种确定知识库中知识点类目的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |