CN113065353B - 实体识别方法及装置 - Google Patents

实体识别方法及装置 Download PDF

Info

Publication number
CN113065353B
CN113065353B CN202110282485.8A CN202110282485A CN113065353B CN 113065353 B CN113065353 B CN 113065353B CN 202110282485 A CN202110282485 A CN 202110282485A CN 113065353 B CN113065353 B CN 113065353B
Authority
CN
China
Prior art keywords
entity
text corpus
dictionary
determined
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110282485.8A
Other languages
English (en)
Other versions
CN113065353A (zh
Inventor
刘文强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Credit Service Co ltd
Original Assignee
Beijing Jindi Credit Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Credit Service Co ltd filed Critical Beijing Jindi Credit Service Co ltd
Priority to CN202110282485.8A priority Critical patent/CN113065353B/zh
Publication of CN113065353A publication Critical patent/CN113065353A/zh
Application granted granted Critical
Publication of CN113065353B publication Critical patent/CN113065353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施例提供了实体识别方法及装置,该方法包括:基于预设文本语料,构建实体字典,实体字典包括第一实体字典和第二实体字典;根据第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对实体识别模型进行校正;在接收到新的文本语料时,基于校正后的实体识别模型对新的文本语料中的实体进行识别。本公开技术方案可以大幅提高实体识别的准确率。

Description

实体识别方法及装置
技术领域
本公开涉及计算机技术领域,特别涉及实体识别方法及装置、电子设备和计算机可读存储介质。
背景技术
随着互联网的发展,各个领域中每天都会产生大量不同形式的互联网数据,如何准确、高效地挖掘出互联网数据中的重要信息,以提升该领域中的服务效率是一个关键问题。进一步的,在信息挖掘中,实体关系提取是其中一项核心任务。目前,常用的实体关系抽取方法包括基于规则的实体关系抽取方法、基于机器学习的实体关系抽取方法。
其中,基于规则的实体关系抽取方法重点在于规则的制定,而规则的制定强依赖于人为经验,这就导致在人为经验不足时,无法制定出合理有效的规则,进而导致基于规则所抽取到的实体不够全面,不够准确;基于机器学习的实体关系抽取方法的准确性和召回率对标注语料的依赖性很高,且需要较强的人工干预,而语料标注耗时耗力,这就导致基于机器学习的实体关系抽取方法的整体开发周期很长,且需要耗费较高的人力物力,时效性和泛化能力差。
发明内容
本公开的目的在于提供实体识别方法及装置、电子设备和计算机可读存储介质,提高了实体识别的召回率和准确率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供实体识别方法,包括:
基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;
根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;
在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。
在本公开的示例性实施例中,所述根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料,通过预设算法对所述实体识别模型进行校正,包括:
查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;
对所述训练文本语料中待确定实体打实体内链;
若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;
若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内链,则基于语义窗口对所述待确定实体所在的文本语料进行分段;
判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除。
在本公开的示例性实施例中,在将所述待确定实体的实体内链删除后,所述方法还包括:
将删除实体内链后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;
提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;
若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;
若删除后的待确定实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料。
在本公开的示例性实施例中,所述方法还包括:更新所述第二实体字典中的正文本语料和/或负文本语料。
在本公开的示例性实施例中,
所述方法还包括:更新所述第一实体字典;
具体包括,
将所述第二实体字典中的正文本语料中的实体与所述第一实体字典中的实体进行对比,确定待添加的实体;
若存在待添加的实体,则将所述待添加实体添加至第一字典实体中,更新所述第一实体字典
根据本公开的第二方面,提供一种实体识别装置,包括:
实体字典构建模块,用于基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;
实体字典校正模块,用于根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;
实体识别模块,用于在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。
在本公开的示例性实施例中,所述实体字典校正模块,用于:
查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;
对所述训练文本语料中的待确定实体打实体内链;
若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;
若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内敛,则基于语义窗口对所述待确定实体所在的文本语料进行分段;
判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除。
在本公开的示例性实施例中,所述实体字典校正模块,还用于:
将删除实体内敛后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;
提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;
若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;
若删除后的待确定实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料。
根据本公开的第三方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述的实体识别方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的实体识别方法。
由上述技术方案可知,本公开示例性实施例中的实体识别方法及装置、计算机可读存储介质、电子设备至少具备以下优点和积极效果:
本公开实施例中的实体识别方法首先基于现有的大量文本语料,构建实体字典,得到初步准确的实体字典;根据第一实体字典和第二实体字典训练实体识别模型,并通过预设算法对实体识别模型进行校正,通过构建正负文本语料,在校正时将通过语义环境判断为非实体的实体以及实体所在的文本作为负文本语料,并通过正文本语料中的关键词再次对负样本语料实行回捞策略,提高了实体识别的准确率召回率。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的实体识别方法的示例性应用场景的示意图;
图2示出本公开示例性实施例中实体识别方法的流程示意图;
图3示出本公开另一示例性实施例中实体识别方法的流程示意图
图4示出本公开示例性实施例中实体识别装置的结构示意图;
图5示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
图1示出了可以应用本公开实施例的实体识别方法的示例性应用场景的示意图100的示意图。
根据具体运行环境撰写。举例:如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104 用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器 105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数子电影放映机等等。
服务器105可以是提供各种服务的服务器。例如用户利用终端设备 103(也可以是终端设备101或102)向服务器105发送请求。
参见图2,为本发明一示例性实施例提供的实体识别方法流程图,该方法包括以下步骤:
S201、基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;
本实施例中的预设文本语料可以理解为接受用户输入的舆情文本语料,也可以为主动获取用户曾经搜索过的文本语料,本实施例不对预设文本语料的来源进行限定。
其中实体字典中的实体可以为企业、机构、品牌、律所等。以企业实体为例,一般文本语料为企业舆情的新闻文本,该企业新闻舆情是非结构化信息,只能通过人阅读标题或者新闻内容理解提到了哪些企业实体。在构建实体字典时,可以通过结构化的数据信息,获取实体信息,构建实体字典。
本公开中的第一实体字典可以理解为实体字典;第二实体字典可以理解为歧义字典,如苹果既是水果名字,又是公司名字,歧义字典中包括实体,以及实体的正负语料,如苹果正预料为与苹果公司相关的语料,负语料为与水果相关的语料。
S202、根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;
由于语料是在不断更新阶段,尤其对于歧义字典中的正负语料,正负语料越多,则识别实体越准确,因此需要通过训练文本语料对实体识别模型进行不断的校正。
训练文本语料可以理解为在预设文本语料基础上不断更新的语料。
现有技术中的实体匹配较机械化,更新不及时,泛化能力差,本实施例中通过预设算法对所述实体识别模型进行校正。通过使用模型预测,可以学习实体及周边,由于模型的覆盖能力有限,过滤的时候也会对某些语境下的实体难以识别,导致最终过滤掉正确实体,为了将这批过滤掉的正确实体捞回,采用回捞策略。通过过滤和回捞提高了实体识别的召回率和准确率。
S203、在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。
本公开实施例中的实体识别方法首先基于现有的大量文本语料,构建实体字典,得到初步准确的实体字典;根据第一实体字典和第二实体字典训练实体识别模型,并通过预设算法对实体识别模型进行校正,通过构建正负文本语料,在校正时将通过语义环境判断为非实体的实体以及实体所在的文本作为负文本语料,提高了实体识别的准确率;通过正文本语料中的关键词再次对负样本语料实行回捞策略,提高了实体识别的召回率。
下面将对本公开示例实施例中的实体识别方法进行进一步的说明,如图 3所示。
其中,步骤S301-S302为步骤S201的详细说明;步骤S303-S304为步骤 S202的详细说明;步骤S305为步骤S203的详细说明。
S301、获取预设文本语料
本实施例中的预设文本语料可以理解为接受用户输入的舆情文本语料,也可以为主动获取用户曾经搜索过的文本语料,本实施例不对文本语料的来源进行限定。
当接受企业舆情的新闻文本,该企业新闻舆情是非结构化信息,部分通过对实体进行标记标识得到企业实体。
S302、构建实体字典
本公开中构建的实体字典包括实体字典的构建和歧义字典的构建。
其中,实体字典的构建,通过一些结构化的数据信息,构建企业、律所、企业简称等实体字典,可达亿级量级;
实体字典的构建如:
**集团
福中集团,福中集团有限公司
**公司
十万火急科技公司,昆山十万火急网络科技有限公司徐州分公司
歧义字典构建,由于容易构成歧义等词一般较短且语义不完备,容易二次成词或短语,所以可以将企业简称长度为2或3的添加进歧义字典,长度大于等于4的,首先对后缀进行分析,去除类似“集团、公司”等明显倾向性词,然后使用中文预训练语言模型即增强的语义表示模型ERNIE(Enhanced Representation from kNowledge IntEgration),通过加入实体类标注数据,进行微调神经网络,通过预训练的大规模学习的先验知识对企业简称进行实体识别,过滤掉一部分非歧义简称,通过分词工具 lac、jieba、pyhanlp、pyltp等识别实体功能,再过滤一部分非歧义简称,剩下的部分企业简称,加入歧义字典。
歧义字典的构建,包括实体词和实体词对应的正面例子和负面例子;其中实体词为歧义的词,正面例子为实体词语义为公司名字,负面例子为实体词语语义为非公司名字;如苹果既代表公司名字又代表水果名字;我爱我家既代表房地产的名字又代表影视剧的名字,根据正面例子和负面例子,在获取到与实体词相关的语料时,可以通过语料进行语义匹配,来进一步判断新的语料与正面例子的语义接近,还是与负面例子的语义接近:
苹果-苹果(中国)有限公司
正面例子:
不仅让mac“变砖”,还存在隐私安全问题?苹果的回应来了
负面例子:
酸,酒石酸与柠檬酸,苹果酸,除此之外还具有丰富…
上述构建实体字典和歧义字典策略举例如下:
1、带明显后缀的短语二次成词、成句难,不易构成歧义;
2、长度为2或3的短词,容易前后成词、成句,构成歧义;
3、预训练模型,通过大量无监督语料,学习了大量先验知识,通过少量实体识别语料微调网络,可以有效识别企业实体;
4、分词工具中也收集了大量的企业实体先验知识,可以识别明显实体,帮助过滤一部分实体企业。
歧义字典的构建方式,以结合模型与逻辑的方式,快速构建歧义字典,避免模型过滤正确的实体。
在上述歧义字典中,以“苹果-苹果(中国)有限公司”为例进行说明,苹果为歧义词,构建歧义字典时,会将公司等字样去掉,然后剩下关键词苹果,歧义字典中会存储有与苹果相关的正例语料和负例语料。因此在接收到带有苹果的语料时,要将该预料与歧义字典中的正例和负例去比较,其中正例代表苹果公司,负例代表苹果水果。
S303、实体识别模型校正
S3031、查询训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;
S3032、对所述训练文本语料中待确定实体打实体内链;
可理解的是,可以利用trie树算法,将出现在舆情文本中出现在实体字典中的实体打上内链;对实体打上内链的方法,下述示例仅用于说明,并不对其具体的实施方法进行限定。对待确定实体打内链主要是为了修正第二实体字典中的正文本语料和负文本语料。
例如:
在拿到训练文本的语料后,从训练文本的语料中确定候选关键词,如关键词预判为实体词,则给预判实体词的后面打上内链,内链可理解为实体词对应的概况,如评估对应的链接为:
“https://www.tianyancha.com/company/54879867\”
根据上述实例可以发现按照字典匹配,不会考虑语义环境,只要出现,就会匹配上,这样就会出现上述正负面情形,才有后续使用模型优化的必要性。
S3033、若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;
S3034、若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内链,则基于语义窗口对所述待确定实体所在的文本语料进行分段;
S3035、判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除。
通过舆情实体的标注数据训练的增强的语义表示模型ERNIE(EnhancedRepresentation from kNowledge IntEgration)模型,对出现在歧义字典且打上内链的实体,提取语义窗口的文本,预测语义内是否为实体,一个实体可能出现在文本的多处,通过选取两段文本,综合两段文本的结果,如果有一个预测为实体,则标志无歧义,确实是企业简称,若全部预测非实体,则过滤掉该实体的内链,纠正错误;
如:以“小米”公司为例进行说明,如文本语料为“小米通讯技术有限公司”,可以根据通讯、技术等词语判断小米为公司的实体。
如文本语料为“农人直供广西小米蕉苹果蕉新鲜10斤包邮”可以根据苹果、香蕉、农人直供等语义判断小米为农作物,可预测此处的小米为非实体。
通过使用模型预测,可以学习实体及周边语义,判断实体是否为一个企业、机构等,将模型没有识别出来的予以过滤。
由于模型的覆盖能力有限,过滤的时候也会对某些语境下的实体难以识别,导致最终过滤掉正确实体,为了将这批过滤掉的正确实体捞回,采用回捞策略,步骤如下:
S3036、将删除实体内链后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;
将过滤的语料当作负语料,上述小米属于负语料,将正确识别,预测为 1的语料,即不做过滤的语料作为正语料,构建正负语料;
S3037、提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;
提取同一个实体的相关正负语料文本,提取正负语料主题关键词;
正面语料:
“手机|iPhone|华为|三星|公司|谷歌|外媒|降速|发布|报道|iPad|亚马逊|专利|庆阳|用户|小米|富士康|智能|员工|推出|疫情|新品|iOS|商店|产品|直播|标题|高通|乔布斯|耳机",
负面语料:
“水果|一个|红富士|含有|香蕉|可以|维生素|减肥|丰富|远离|果农|果胶|营养|橘子|食材|我们|喜欢|常见|好吃|一种|种植|很多|葡萄|妈妈|山楂 |医生|一天|大家|草莓|非常"
S3038、若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;
若删除后的待确定实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料。
通过实体周边语义信息,发现苹果公司与食用水果的语义环境差异较大,可以将模型未识别出的正样例,通过上述语义环境召回,提升准度。
并且会对生成的实体正负面关键词描述做优化,分析实体正负面关键词的交集情况,关键词列表长度,生成关键词的语料数目等,选取生成语料文本至少3000,正负语料关键词至少30,交集要小于5等条件,从过滤的实体中回捞的正确实体占比较高,带回错误实体的数目也会较少;
S304、更新实体字典。
步骤S304包括以下步骤S3041和步骤S3042;
S3041、更新所述第二实体字典中的正文本语料和/或负文本语料。
S3042、更新所述第一实体字典;
将所述第二实体字典中的正文本语料中的实体与所述第一实体字典中的实体进行对比,确定待添加的实体;
若存在待添加的实体,则将所述待添加实体添加至第一字典实体中,更新所述第一实体字典。
通过收集一部分舆情语料,以当前字典实体前后窗口100字内的文本,通过训练的ernie模型,识别出实体,并与当前字典对比,若不在维护的实体字典,通过规则校正与判断,确实是实体,则添加进字典,利用模型的泛化能力,扩充更新维护的字典;
实体语义窗口大小的选取,以实体前后距离100的大小选取文本,可以较好的给予语义环境,但又不引入新的噪声.
通过一些结构化的信息补充字典;
通过模型及结构化信息补充的企业简称,可以通过上述歧义字典构建的方法,对一定时间段内的企业简称通过过滤筛选添加进歧义字典。
在另一个可实现的方式中,还可以通过标识方式收集实体正负语料数据集,针对歧义字典的实体的正负语料做做阅读理解模型,询问语料中实体是一个实体,答案则是yesor no的回答,针对性的解决歧义字典实体的识别问题。
S305、在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。
利用字典的无差别匹配,与模型的语义匹配,完美低解决各自召回、准确率不足的缺点,最终达到高召回、高准确率的效果。
上述方法一方面使企业、机构等实体识别召回大幅提升,比单独使用现有较好的大模型,能够识别召回更多的实体;另一方面,利用字典补充更新与歧义字典补充更新,能够加大召回,并能更准确低识别更多的实体,总之,在准确率与召回上达到新的高度。
图4示意性示出了根据本公开的一实施例的实体识别装置的框图。本公开实施例提供的实体识别装置可以设置在终端设备上,也可以设置在服务端上,或者部分设置在终端设备上,部分设置在服务端上,例如,可以设置在图1中的服务器105(根据实际替换),但本公开并不限定于此。
本公开实施例提供的实体识别装置400可以包括:
实体字典构建模块41,用于基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;
实体字典校正模块42,用于根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;
实体识别模块43,用于在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。
在本公开的示例性实施例中,所述实体字典校正模块,用于:
查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;
对所述训练文本语料中的待确定实体打实体内链;
若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;
若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内敛,则基于语义窗口对所述待确定实体所在的文本语料进行分段;
判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除。
在本公开的示例性实施例中,所述实体字典校正模块,还用于:
所述实体字典校正模块,还用于:
将删除实体内敛后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;
提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;
若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;
若删除后的待确定实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料。
本公开实施例提供的实体识别装置中的各个模块、单元和子单元的具体实现可以参照上述实体识别方法中的内容,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之,上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。
在本公开的示例性实施例中,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述的实体识别方法。
在本公开的示例性实施例中,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的实体识别方法。
如图5所示,示例电子设备50包括用于执行软件例程的处理器501尽管为了清楚起见示出了单个处理器,但是电子设备50也可以包括多处理器系统。处理器501连接到通信基础设施502,用于与电子设备50的其他组件进行通信。通信基础设施502可以包括例如通信总线、交叉开关或网络。
电子设备50还包括诸如随机存取存储器(Random Access Memory,RAM) 之类的存储器,所述存储器可包括主存储器503和辅助存储器510。辅助存储器510可以包括,例如硬盘驱动器511和/或可移动存储驱动器512,可移动存储驱动器512可以包括软盘驱动器,磁带驱动器,光盘驱动器等。可移动存储驱动器512以常规方式对可移动存储单元513进行读取和/或写入。可移动存储单元513可以包括由可移动存储驱动器512读取和写入的软盘、磁带、光盘等。相关领域技术人员可以理解,可移动存储单元513包括其上存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。
在一种可选实施方式中,辅助存储器510可以额外包括或选择性包括用于允许将计算机程序或其他指令加载到电子设备50中的其他类似装置。这样的装置可以包括例如可移动存储单元521和接口520。可移动存储单元521 和接口520的示例包括:程序卡带(cartridge)和卡带接口(例如可在视频游戏控制台设备中找到的程序卡带和卡带接口)、可移动存储芯片(例如EPROM 或PROM)和相关联的插槽、以及其他可移动存储单元521和允许软件和数据从可移动存储单元521传输到电子设备50的接口520。
电子设备50还包括至少一个通信接口540。通信接口540允许软件和数据经由通信路径541在电子设备50和外部设备之间传输。在本发明的各种实施例中,通信接口540允许数据在电子设备50和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输。通信接口540可用于在不同的电子设备50之间交换数据,这些电子设备50形成互连的计算机网络的一部分。通信接口540的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等等。通信接口540可以是有线的或者可以是无线的。经由通信接口540传输的软件和数据为信号形式,该信号可以是能够被通信接口540接收的电、磁、光或其他信号。这些信号经由通信路径541被提供给通信接口。
如图5所示,电子设备50还包括显示器接口531和音频接口532,显示器接口531执行用于将图像渲染到关联的显示器530的操作,音频接口532 用于执行通过关联的扬声器533播放音频内容的操作。
在本申请文件中,术语“计算机程序产品”部分程度上可以指代:可移动存储单元513、可移动存储单元521、安装在硬盘驱动器511中的硬盘、或承载着软件通过通信路径541(无线链路或电缆)到通信接口540的载波。计算机可读存储介质是指将记录的指令和/或数据提供给电子设备50以执行和/或处理的任何非暂时的有形的存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光TM光盘、硬盘驱动器、ROM或集成电路、 USB存储器、磁光盘、或诸如PCMCIA卡之类的计算机可读卡等等,这些部件无论是在电子设备50的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向电子设备50提供软件、应用程序、指令和/或数据,这种传输介质的示例包括无线电或红外传输信道、到另一台计算机或另一个联网设备的网络连接、以及包括电子邮件传输和记录在网站上的信息等的互联网或内联网。
计算机程序(也被称为计算机程序代码)存储在主存储器503和/或辅助存储器510中。也可以经由通信接口540来接收计算机程序。此类计算机程序在被执行时使电子设备50能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中,计算机程序在被执行时,使处理器501能够执行上述实施例的特征。因此,此类计算机程序代表计算机系统50的控制器。
软件可以存储在计算机程序产品中,并使用可移动存储驱动器512、硬盘驱动器511或接口520加载到电子设备50中。替代地,可以通过通信路径 541将计算机程序产品下载到计算机系统50。该软件在由处理器501执行时促使电子设备50执行本文描述的实施例的功能。
应该理解,图5的实施例仅以示例的方式给出。因此,在一些实施例中,可以省略电子设备50的一个或多个特征。而且,在一些实施例中,电子设备50的一个或多个特征可以被组合在一起。另外,在一些实施例中,电子设备50的一个或多个特征可以被分成一个或多个组成部分。
可以理解的是,图5所示的要素起到了提供执行以上实施例中所描述的服务器的各种功能和操作的途径的作用。
在一种实施方式中,服务器通常可以被描述为包括至少一个处理器和至少一个包括计算机程序代码的存储器的物理设备。所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起促使所述物理设备执行必要的操作。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图2-3所示方法的功能。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数子多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被电子设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (6)

1.一种实体识别方法,其特征在于,包括:
基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;
根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正,包括:
查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;
对所述训练文本语料中待确定实体打实体内链;
若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;
若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内链,则基于语义窗口对所述待确定实体所在的文本语料进行分段;
判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除;
将删除实体内链后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;
提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;
若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;
若删除后的待确实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料;
在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:更新所述第二实体字典中的正文本语料和/或负文本语料。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:更新所述第一实体字典;
具体包括,
将所述第二实体字典中的正文本语料中的实体与所述第一实体字典中的实体进行对比,确定待添加的实体;
若存在待添加的实体,则将所述待添加的实体添加至第一字典实体中,更新所述第一实体字典。
4.一种实体识别装置,其特征在于,包括:
实体字典构建模块,用于基于预设文本语料,构建实体字典,所述实体字典包括第一实体字典和第二实体字典;
实体字典校正模块,用于根据所述第一实体字典和第二实体字典训练实体识别模型,基于训练文本语料通过预设算法对所述实体识别模型进行校正;查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体;
对所述训练文本语料中的待确定实体打实体内链;
若所述待确定实体为出现在所述第一实体字典中的实体,则不对所述实体识别模型进行校正;
若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内链,则基于语义窗口对所述待确定实体所在的文本语料进行分段;
判断每一分段中的待确定实体是否预测为实体,若每一分段中的待确定实体均未预测为实体,则将所述待确定实体的实体内链删除;
将删除实体内链后的待确定实体所在的文本语料作为负文本语料,将预测为实体所在的语料作为正文本语料;
提取同一实体的正文本语料、负文本语料、正文本语料的关键词以及负文本语料关键词;
若删除后的待确定实体所在的文本语料中包含正文本语料的关键词,且不包含负文本预料的关键词,则将所述待确定实体所在的文本语料作为正文本语料;
若删除后的待确定实体所在的文本语料中包含负文本语料的关键词,则将所述待确定实体所在的文本语料作为负文本语料;
实体识别模块,用于在接收到新的文本语料时,基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。
5.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~3中任意一项所述的实体识别方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序
被处理器执行时实现权利要求1~3中任意一项所述的实体识别方法。
CN202110282485.8A 2021-03-16 2021-03-16 实体识别方法及装置 Active CN113065353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110282485.8A CN113065353B (zh) 2021-03-16 2021-03-16 实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110282485.8A CN113065353B (zh) 2021-03-16 2021-03-16 实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN113065353A CN113065353A (zh) 2021-07-02
CN113065353B true CN113065353B (zh) 2024-04-02

Family

ID=76560699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110282485.8A Active CN113065353B (zh) 2021-03-16 2021-03-16 实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN113065353B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780006B (zh) * 2021-09-27 2024-04-09 广州金域医学检验中心有限公司 医学语义匹配模型的训练方法、医学知识匹配方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7225199B1 (en) * 2000-06-26 2007-05-29 Silver Creek Systems, Inc. Normalizing and classifying locale-specific information
WO2009156773A1 (en) * 2008-06-27 2009-12-30 Monting-I D.O.O. Device and procedure for recognizing words or phrases and their meaning from digital free text content
CN108520065A (zh) * 2018-04-12 2018-09-11 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN109033160A (zh) * 2018-06-15 2018-12-18 东南大学 一种知识图谱动态更新方法
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN110826335A (zh) * 2019-11-14 2020-02-21 北京明略软件系统有限公司 一种命名实体识别的方法和装置
CN111062216A (zh) * 2019-12-18 2020-04-24 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
CN111291568A (zh) * 2020-03-06 2020-06-16 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN112115212A (zh) * 2020-09-29 2020-12-22 中国工商银行股份有限公司 参数识别方法、装置和电子设备
CN112257443A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740771B2 (en) * 2014-09-26 2017-08-22 International Business Machines Corporation Information handling system and computer program product for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7225199B1 (en) * 2000-06-26 2007-05-29 Silver Creek Systems, Inc. Normalizing and classifying locale-specific information
WO2009156773A1 (en) * 2008-06-27 2009-12-30 Monting-I D.O.O. Device and procedure for recognizing words or phrases and their meaning from digital free text content
CN108520065A (zh) * 2018-04-12 2018-09-11 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN109033160A (zh) * 2018-06-15 2018-12-18 东南大学 一种知识图谱动态更新方法
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN110826335A (zh) * 2019-11-14 2020-02-21 北京明略软件系统有限公司 一种命名实体识别的方法和装置
CN111062216A (zh) * 2019-12-18 2020-04-24 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
CN111291568A (zh) * 2020-03-06 2020-06-16 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN112115212A (zh) * 2020-09-29 2020-12-22 中国工商银行股份有限公司 参数识别方法、装置和电子设备
CN112257443A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Exploring deep knowledge resources in biomedical name recognition;ZHOU guodong等;《ResearchGate》;1-4 *
基于在线百科的弱监督命名实体识别技术研究与实现;李茂龙;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-2989 *
基于链接开放数据的实体连接;乌辰洋;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-402 *

Also Published As

Publication number Publication date
CN113065353A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
US11144726B2 (en) Method and system for identifying user intent from user statements
US10430405B2 (en) Apply corrections to an ingested corpus
US20160171373A1 (en) Training a Question/Answer System Using Answer Keys Based on Forum Content
US20210406601A1 (en) Cross-modal weak supervision for media classification
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
US10169466B2 (en) Persona-based conversation
US10360219B2 (en) Applying level of permanence to statements to influence confidence ranking
US9536444B2 (en) Evaluating expert opinions in a question and answer system
US10095736B2 (en) Using synthetic events to identify complex relation lookups
US20210263974A1 (en) Category tag mining method, electronic device and non-transitory computer-readable storage medium
US9811515B2 (en) Annotating posts in a forum thread with improved data
US20190155954A1 (en) Cognitive Chat Conversation Discovery
US20110235909A1 (en) Analyzing documents using stored templates
US11954097B2 (en) Intelligent knowledge-learning and question-answering
US20150169539A1 (en) Adjusting Time Dependent Terminology in a Question and Answer System
CN113065353B (zh) 实体识别方法及装置
CN111414735A (zh) 文本数据的生成方法和装置
US20160171900A1 (en) Determining the Correct Answer in a Forum Thread
CN114298007A (zh) 一种文本相似度确定方法、装置、设备及介质
US10229156B2 (en) Using priority scores for iterative precision reduction in structured lookups for questions
CN116881462A (zh) 文本数据处理、文本表示、文本聚类的方法及设备
US9720910B2 (en) Using business process model to create machine translation dictionaries
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
KR102560521B1 (ko) 지식 그래프 생성 방법 및 장치
US9910890B2 (en) Synthetic events to chain queries against structured data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant