CN108363701B - 命名实体识别方法及系统 - Google Patents

命名实体识别方法及系统 Download PDF

Info

Publication number
CN108363701B
CN108363701B CN201810332013.7A CN201810332013A CN108363701B CN 108363701 B CN108363701 B CN 108363701B CN 201810332013 A CN201810332013 A CN 201810332013A CN 108363701 B CN108363701 B CN 108363701B
Authority
CN
China
Prior art keywords
named entity
regular
regular expression
entity recognition
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810332013.7A
Other languages
English (en)
Other versions
CN108363701A (zh
Inventor
杨慧宇
高翔
纪达麒
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Datagrand Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Information Technology Shanghai Co ltd filed Critical Datagrand Information Technology Shanghai Co ltd
Priority to CN201810332013.7A priority Critical patent/CN108363701B/zh
Publication of CN108363701A publication Critical patent/CN108363701A/zh
Application granted granted Critical
Publication of CN108363701B publication Critical patent/CN108363701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种命名实体识别方法及系统。该命名实体识别方法包括:获取少量标注数据;根据所述少量标注数据为每个目标命名实体生成一个或多个正则表达式;根据每个所述目标命名实体的正则表达式生成命名实体识别模型。该命名实体识别方法系统包括:正则生成模块、正则处理模块、正则评估模块、以及识别模型生成模块。本申请解决了现有的基于机器学习的命名实体识别方法需要大量的标注训练数据的问题,以及现有的基于机器学习的命名实体识别方法缺乏直观的解释,一旦出现识别错误后,无法快速的定位及纠错的问题。

Description

命名实体识别方法及系统
技术领域
本申请涉及文本识别领域,具体而言,涉及一种命名实体识别方法及系统。
背景技术
随着大数据技术的日益发展,企业越来越需要通过各种数据进行分析以挖掘其中的重要价值。而其中,各种非结构化的文本数据却无法直接进行分析从而不能得到充分的利用。因此文本的结构化技术对于文本挖掘来说就显得十分重要,而命名实体识别又是文本结构化技术的重要手段之一。随着人工智能技术的大力发展,机器学习和深度学习方法在命名实体识别上有广泛的应用。
在机器学习方法和深度学习方法在命名实体识别上应用时,发明人发现,该方法包括至少如下缺点:
1.传统的机器学习方法,如隐马尔科夫模型(HMM)、条件随机场(CRF)等,往往都需要大量的标注数据,而深度学习方法,例如LSTM网络等则更需要海量的标注数据。在命名实体识别领域,尤其是特定领域的命名实体识别,几乎没有任何高质量的公开数据。而手工标注实体数据,相比文本或者图片分类又是更加昂贵。同时,训练数据所需要的量往往也很难评估,不同的实体因为上下文语境的不同可能需要不同量级的训练样本。
2.对于机器学习,尤其是深度学习系统,训练出的模型往往被视为黑盒系统,对于系统为何能够识别出相关实体缺乏直观的解释。一旦出现识别错误后,也无法快速的定位及纠错。
针对上述在命名实体识别上的问题,发明人提出了一种解决方案。
发明内容
本申请的主要目的在于提供一种命名实体识别方法,以解决现有的基于机器学习的命名实体识别方法需要大量的标注训练数据的问题,以及现有的基于机器学习的命名实体识别方法缺乏直观的解释,一旦出现识别错误后,无法快速的定位及纠错的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种命名实体识别方法。
根据本申请的命名实体识别方法包括:获取带标注的训练数据;根据所述训练数据为每个目标命名实体生成一个或多个正则表达式;根据每个所述目标命名实体的正则表达式生成命名实体识别模型。
进一步的,在所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型前,包括:判断每个所述正则表达式是否满足预设的处理条件;根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理。
进一步的,所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型,包括:获取每个所述正则表达式的特征字符;根据每个所述正则表达式的特征字符生成正则表达式的特征字符排序索引。
进一步的,在所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型前,包括:根据预设的评估模型对每个所述正则表达式进行评分。
进一步的,所述的命名实体识别方法还包括:获取待识别的文本数据;根据所述命名实体识别模型对所述待识别的文本数据进行目标命名实体识别,并确定出识别结果。
进一步的,所述根据所述命名实体识别模型对待识别的文本数据进行目标命名实体识别,并确定出识别结果,包括:确定出所述待识别的文本数据在所述命名实体识别模型中所有对应的正则表达式;用每个所述对应的正则表达式对所述待识别的文本数据进行匹配,获得每个所述对应的正则表达式匹配出的命名实体;对所有所述对应的正则表达式匹配出的命名实体进行筛选,确定出识别结果。
进一步的,所述对所有所述对应的正则表达式匹配出的命名实体进行筛选,确定出识别结果,包括:根据预设的评估规则对所有所述对应的正则表达式匹配出的命名实体进行评估,并得到评估结果;根据所述评估结果对所有的所述命名实体进行筛选,确定出识别结果。
为了实现上述目的,根据本申请的另一方面,提供了一种命名实体识别系统。
根据本申请的命名实体识别系统包括:
正则生成模块,用于根据带标注的训练数据为每个目标命名实体生成一个或多个正则表达式;
正则处理模块,用于根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理;
正则评估模块,用于根据预设的评估模型对每个所述正则表达式进行评分;
识别模型生成模块,用于根据每个所述目标命名实体的正则表达式生成命名实体识别模型。
进一步的,所述命名实体识别系统还包括:
正则识别模块,用于根据所述命名实体识别模型对待识别的文本数据进行目标命名实体识别,并得到所有的识别结果;
识别内容评估模块,用于对所述正则识别模块得到的所有的识别结果进行筛选,确定出最终识别结果。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现所述命名实体识别方法。
在本申请实施例中,采用正则表达式来对命名实体进行识别,通过少量标注数据为目标命名实体训练出对应的一个或多个正则表达式,进一步通过标注数据不断的对正则表达式进行筛选评估,达到了只需少量的训练数据就能生成命名实体识别模型的目的,解决现有的基于机器学习的命名实体识别方法需要大量的标注训练数据的问题。并且由于正则表达式非常直观,可以对识别结果进行很好的解释,解决了现有的基于机器学习的命名实体识别方法缺乏直观的解释,一旦出现识别错误后,无法快速的定位及纠错的问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是第一实施例命名实体识别方法流程示意图;
图2是第二实施例命名实体识别方法流程示意图;
图3是第三实施例命名实体识别方法流程示意图;
图4是第四实施例命名实体识别方法流程示意图;以及
图5是第一实施例命名实体识别系统结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,基于本申请的一个方面提供了一种命名实体识别方法,该方法包括步骤S101至步骤S105。
步骤S101,获取带标注的训练数据。在本步骤中,所述带标注的训练数据为在文本中已经标注出命名实体的训练数据,由于正则表达式的优点,在训练阶段只需要数量相对较少的训练数据。
步骤S102,根据所述训练数据为每个目标命名实体生成一个或多个正则表达式。在本步骤中,根据训练样本,截取训练样本中所标注实体一定长度的上下文,长度可根据具体字段的情况进行配置。然后,对每个标注实体所对应的上下文的长度不断删减,直至上下文都只剩下一个字符。在删减的同时,根据不同长度的上下文生成一些基本的正则表达式,作为该命名实体的候选正则表达式。从而对每一种目标命名实体,会生成若干个正则表达式候选集。
步骤S103,根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理。本步骤为,对在所述步骤S102中生成的大量正则表达式进行清洗。首先,根据先验知识,命名实体的上文的信息通常是更重要的。如果这时正则表达式中的上文不包含汉字字符,则排除掉该条正则表达式。其次,如果正则表达式中含有空格、\t等空白字符,要对该正则表达式进行清洗。然后,正则表达式中所包含的转义字符要进行转义处理。此外,对正则表达式中的数字字符需要用\d进行替换处理,使正则表达式的泛化性能增强。
步骤S104,根据预设的评估模型对每个所述正则表达式进行评分。在本步骤中,对每个目标命名实体的所有正则表达式,从最大长度正则表达式开始,去所述训练数据中进行匹配。当某个长度的正则表达式匹配的结果超过最大长度正则表达式所匹配到的内容数目时,则停止。取匹配的内容和最大长度正则表达式相等的最短正则表达式,作为该候选集里的正则中的最佳长度。进一步对每个所述正则表达式进行评分,正则表达式的评估分数可以通过匹配数除以总文本数得到,若得分超过1,则取1。同时,若正则表达式的前文中出现表示is a关系的字符,可以对分数乘以一定系数。
步骤S105,根据每个所述目标命名实体的正则表达式生成命名实体识别模型。在本步骤中,根据经过上述步骤S103和步骤S104进行评估和筛选过后的正则表达式建立用于识别目标命名实体的命名实体识别模型。由于正则表达式具有的良好的可解释性,模型本身可以依据领域知识进行更改,例如对正则表达式中的中英文符号进行替换等。
如图2所示,所述步骤S105,根据每个所述目标命名实体的正则表达式生成命名实体识别模型,包括步骤S201至步骤S202。
步骤S201,获取每个所述正则表达式的特征字符。在本步骤中,提取所述命名实体识别模型中的所有正则表达式的首字符,进而通过首字符对所有的正则表达式进行排序。
步骤S202,根据每个所述正则表达式的特征字符生成正则表达式的特征字符排序索引。在本步骤中,考虑到后续命名实体识别阶段匹配时的效率,无法将所有正则表达式去全文中进行匹配,因此,根据正则表达式的首字符建立首字符与正则表达式之间的倒排索引,便于提高后续命名实体识别阶段匹配时的效率。
如图3所示,本申请的命名实体识别方法还包括步骤S301至步骤S302,其中:
步骤S301,获取待识别的文本数据;以及
步骤S302,根据所述命名实体识别模型对所述待识别的文本数据进行目标命名实体识别,并确定出识别结果。
如图4所示,所述步骤S302,根据所述命名实体识别模型对所述待识别的文本数据进行目标命名实体识别,并确定出识别结果,具体包括步骤S401至步骤S402。
步骤S401,确定出所述待识别的文本数据在所述命名实体识别模型中所有对应的正则表达式。在本步骤中,在用正则表达式对待识别的文本数据进行匹配识别时,为了提高识别效率,并不是直接将所有正则表达式去所述待识别的文本数据中进行匹配识别,而是对所述待识别的文本数据中的字符进行逐字符扫描,若字符和倒排中的索引字符相同则使用相应的正则表达式进行匹配识别,从而可以大大提升识别的效率。
步骤S402,用每个所述对应的正则表达式对所述待识别的文本数据进行匹配,获得每个所述对应的正则表达式匹配出的命名实体。
步骤S403,根据预设的评估规则对所有所述对应的正则表达式匹配出的命名实体进行评估,并得到评估结果。在本步骤中,对所有匹配出来的命名实体进行置信度评估,在本申请的一可选实施例中可以按照如下规则进行评估
1.匹配出的命名实体的长度超过或者不到特定阈值时,要进行过滤。
2.匹配出的命名实体(不)包含特定字符,例如中文,数字,字母,标点等。
3.匹配出的命名实体的位置是否与训练样本中大部分实体的位置是否一致,可以按照偏离度给出一定的置信度。如简历中提取的姓名大多在开头,若匹配到的人名在全文靠后的位置,则置信度较低。
4.匹配出的命名实体也要结合所对应的正则表达式的分数,正则表达式的分数越高对应的命名实体置信度也越高。
根据上述评估规则对所有匹配出来的命名实体进行置信度评估,并得出评估结果。
步骤S404,根据所述评估结果对所有的所述命名实体进行筛选,确定出识别结果。在本步骤中,根据所述评估结果对所有匹配出来的命名实体进行排序,选取置信度较高的命名实体作为最终的识别结果。
从以上的描述中,可以看出,本发明具有至少如下优点:
1.该方法结合了正则表达式和机器学习的思想,无须人工总结大量的正则表达式,同时对于识别结果有着较好的解释性,方便业务人员查找问题和及时纠错。通过评估模块,能够灵活的调整抽取的准确率和召回率。
2.使用倒排索引的方法解决了多正则表达式预测时的效率问题。同时训练阶段,较之于机器学习和深度学习方法有较大的性能优势。
3.提供了命名实体识别领域一种新的思路,可以作为专家系统和机器学习方法的补充,对结果进行交叉验证。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述命名实体识别方法的命名实体识别系统,如图5所示,该系统包括:正则生成模块1、正则处理模块2、正则评估模块3、以及识别模型生成模块4,其中:
所述正则生成模块1,用于根据带标注的训练数据为每个目标命名实体生成一个或多个正则表达式;
所述正则处理模块2,用于根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理;
所述正则评估模块3,用于根据预设的评估模型对每个所述正则表达式进行评分;
所述识别模型生成模块4,用于根据每个所述目标命名实体的正则表达式生成命名实体识别模型。
如图5所示,该命名实体识别系统还包括:正则识别模块5和识别内容评估模块6,其中:
所述正则识别模块5,用于根据所述命名实体识别模型对待识别的文本数据进行目标命名实体识别,并得到所有的识别结果;
所述识别内容评估模块6,用于对所述正则识别模块得到的所有的识别结果进行筛选,确定出最终识别结果。
基于本申请的另一方面,还提供了一种一种计算机设备,包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现所述命名实体识别方法。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种命名实体识别方法,其特征在于,包括:
获取带标注的训练数据;
根据所述训练数据为每个目标命名实体生成一个或多个正则表达式;
根据每个所述目标命名实体的正则表达式生成命名实体识别模型;
其中,所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型,包括:
获取每个所述正则表达式的特征字符;
根据每个所述正则表达式的特征字符生成正则表达式的特征字符排序索引;
根据预设的评估模型对每个所述正则表达式进行评分,包括:
对每个目标命名实体的所有正则表达式,从最大长度正则表达式开始,去所述训练数据中进行匹配;当某个长度的正则表达式匹配的结果超过最大长度正则表达式所匹配到的内容数目时,则停止;取匹配的内容和最大长度正则表达式相等的最短正则表达式,作为候选集里的正则表达式中的最佳长度;每个所述正则表达式进行评分,正则表达式的评估分数可以通过匹配数除以总文本数得到,若得分超过1,则取1。
2.根据权利要求1所述的命名实体识别方法,其特征在于,在所述根据每个所述目标命名实体的正则表达式生成命名实体识别模型前,包括:
判断每个所述正则表达式是否满足预设的处理条件;
根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理。
3.根据权利要求1所述的命名实体识别方法,其特征在于,所述的命名实体识别方法还包括:
获取待识别的文本数据;
根据所述命名实体识别模型对所述待识别的文本数据进行目标命名实体识别,并确定出识别结果。
4.根据权利要求3所述的命名实体识别方法,其特征在于,所述根据所述命名实体识别模型对待识别的文本数据进行目标命名实体识别,并确定出识别结果,包括:
确定出所述待识别的文本数据在所述命名实体识别模型中所有对应的正则表达式;
用每个所述对应的正则表达式对所述待识别的文本数据进行匹配,获得每个所述对应的正则表达式匹配出的命名实体;
对所有所述对应的正则表达式匹配出的命名实体进行筛选,确定出识别结果。
5.根据权利要求4所述的命名实体识别方法,其特征在于,所述对所有所述对应的正则表达式匹配出的命名实体进行筛选,确定出识别结果,包括:
根据预设的评估规则对所有所述对应的正则表达式匹配出的命名实体进行评估,并得到评估结果;
根据所述评估结果对所有的所述命名实体进行筛选,确定出识别结果。
6.一种命名实体识别系统,其特征在于,包括:
正则生成模块,用于根据带标注的训练数据为每个目标命名实体生成一个或多个正则表达式;
正则处理模块,用于根据预设的处理方法对所有满足预设处理条件的所述正则表达式进行处理;
正则评估模块,用于根据预设的评估模型对每个所述正则表达式进行评分;
识别模型生成模块,用于根据每个所述目标命名实体的正则表达式生成命名实体识别模型;
其中,识别模型生成模块,用于根据每个所述目标命名实体的正则表达式生成命名实体识别模型,包括:获取每个所述正则表达式的特征字符;
根据每个所述正则表达式的特征字符生成正则表达式的特征字符排序索引;
正则评估模块,用于根据预设的评估模型对每个所述正则表达式进行评分,包括:
对每个目标命名实体的所有正则表达式,从最大长度正则表达式开始,去所述训练数据中进行匹配;当某个长度的正则表达式匹配的结果超过最大长度正则表达式所匹配到的内容数目时,则停止;取匹配的内容和最大长度正则表达式相等的最短正则表达式,作为候选集里的正则表达式中的最佳长度;每个所述正则表达式进行评分,正则表达式的评估分数可以通过匹配数除以总文本数得到,若得分超过1,则取1。
7.根据权利要求6所述的命名实体识别系统,其特征在于,所述命名实体识别系统还包括:
正则识别模块,用于根据所述命名实体识别模型对待识别的文本数据进行目标命名实体识别,并得到所有的识别结果;
识别内容评估模块,用于对所述正则识别模块得到的所有的识别结果进行筛选,确定出最终识别结果。
8.一种计算机设备,包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
CN201810332013.7A 2018-04-13 2018-04-13 命名实体识别方法及系统 Active CN108363701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810332013.7A CN108363701B (zh) 2018-04-13 2018-04-13 命名实体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810332013.7A CN108363701B (zh) 2018-04-13 2018-04-13 命名实体识别方法及系统

Publications (2)

Publication Number Publication Date
CN108363701A CN108363701A (zh) 2018-08-03
CN108363701B true CN108363701B (zh) 2022-06-28

Family

ID=63008330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810332013.7A Active CN108363701B (zh) 2018-04-13 2018-04-13 命名实体识别方法及系统

Country Status (1)

Country Link
CN (1) CN108363701B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710930A (zh) * 2018-12-20 2019-05-03 重庆邮电大学 一种基于深度神经网络的中文简历解析方法
CN109858040B (zh) * 2019-03-05 2021-05-07 腾讯科技(深圳)有限公司 命名实体识别方法、装置和计算机设备
CN109951354B (zh) * 2019-03-12 2021-08-10 北京奇虎科技有限公司 一种终端设备识别方法、系统及存储介质
CN111209753B (zh) * 2020-01-03 2023-11-03 北京明略软件系统有限公司 一种实体命名识别方法及装置
CN111274821B (zh) * 2020-02-25 2024-04-26 北京明略软件系统有限公司 一种命名实体识别数据标注质量评估方法及装置
CN112329469B (zh) * 2020-11-05 2023-12-19 新华智云科技有限公司 一种行政地域实体识别方法及系统
CN112699683A (zh) * 2020-12-31 2021-04-23 大唐融合通信股份有限公司 一种融合神经网络和规则的命名实体识别方法及装置
CN112733911B (zh) * 2020-12-31 2023-05-30 平安科技(深圳)有限公司 实体识别模型的训练方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567456A (zh) * 2010-11-03 2012-07-11 微软公司 正则表达式的有条件的执行
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047691A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Creating a document index from a flex- and Yacc-generated named entity recognizer
US20060047500A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Named entity recognition using compiler methods
US8521511B2 (en) * 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
CN102110123B (zh) * 2009-12-29 2014-02-05 中国人民解放军国防科学技术大学 倒排索引建立方法
US8892580B2 (en) * 2010-11-03 2014-11-18 Microsoft Corporation Transformation of regular expressions
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN104239343B (zh) * 2013-06-20 2018-04-27 腾讯科技(深圳)有限公司 一种用户输入信息的处理方法和装置
CN104199972B (zh) * 2013-09-22 2018-08-03 中科嘉速(北京)信息技术有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN106326206B (zh) * 2015-06-24 2021-01-26 北京京东尚科信息技术有限公司 一种基于文法模板的实体抽取方法
CN105138515B (zh) * 2015-09-02 2018-10-19 百度在线网络技术(北京)有限公司 命名实体识别方法和装置
CN107004141A (zh) * 2017-03-03 2017-08-01 香港应用科技研究院有限公司 对大样本组的高效标注
CN107330011B (zh) * 2017-06-14 2019-03-26 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567456A (zh) * 2010-11-03 2012-07-11 微软公司 正则表达式的有条件的执行
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Vietnamese Named Entity Recognition using Token Regular Expressions and Bidirectional Inference;Phuong Le-Hong;《arXiv:1610.05652v2 [cs.CL]》;20161019;第1-5页 *

Also Published As

Publication number Publication date
CN108363701A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108363701B (zh) 命名实体识别方法及系统
CN110363194B (zh) 基于nlp的智能阅卷方法、装置、设备及存储介质
US10460029B2 (en) Reply information recommendation method and apparatus
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN107423278B (zh) 评价要素的识别方法、装置及系统
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及系统
CN110309297B (zh) 垃圾文本检测方法、可读存储介质和计算机设备
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
CN111783467A (zh) 一种企业名称识别方法及装置
CN114818643A (zh) 一种保留特定业务信息的日志模板提取方法
US20230134169A1 (en) Text-based document classification method and document classification device
CN111079410A (zh) 文本识别方法、装置、电子设备及存储介质
EP4273737A1 (en) Language labeling method and apparatus, and computer device and storage medium
CN111492364B (zh) 数据标注方法、装置及存储介质
CN113420766A (zh) 一种融合语言信息的低资源语种ocr方法
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN110941703A (zh) 一种基于机器学习和模糊规则的集成简历信息抽取方法
CN115909376A (zh) 文本识别方法、文本识别模型训练方法、装置及存储介质
CN116303951A (zh) 对话处理方法、装置、电子设备和存储介质
CN109993381B (zh) 基于知识图谱的需求管理应用方法、装置、设备及介质
CN109947932B (zh) 一种推送信息分类方法及系统
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115526173A (zh) 一种基于计算机信息技术的特征词提取方法及系统
JP2010257021A (ja) 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Address before: Room 515, building Y1, No. 112, liangxiu Road, Pudong New Area, Shanghai 201203

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.

CP03 Change of name, title or address