CN113158675A - 基于人工智能的实体抽取方法、装置、设备及介质 - Google Patents

基于人工智能的实体抽取方法、装置、设备及介质 Download PDF

Info

Publication number
CN113158675A
CN113158675A CN202110440973.7A CN202110440973A CN113158675A CN 113158675 A CN113158675 A CN 113158675A CN 202110440973 A CN202110440973 A CN 202110440973A CN 113158675 A CN113158675 A CN 113158675A
Authority
CN
China
Prior art keywords
entity
named entity
initial named
target text
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110440973.7A
Other languages
English (en)
Other versions
CN113158675B (zh
Inventor
苏雪琦
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110440973.7A priority Critical patent/CN113158675B/zh
Publication of CN113158675A publication Critical patent/CN113158675A/zh
Application granted granted Critical
Publication of CN113158675B publication Critical patent/CN113158675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于人工智能的实体抽取的方法、装置、设备及介质,该方法包括:根据实体抽取请求获取目标文本并对目标文本进行预处理;将预处理后的目标文本输入至实体抽取模型中,得到初始命名实体集合以及每个初始命名实体的上下文信息;基于上下文信息分别根据正则匹配规则、关键词匹配规则、卷积神经网络模型对每个初始命名实体进行判别以得到第一判别结果、第二判别结果、第三判别结果并采用投票策略得到目标文本的目标实体。本发明基于自然语言处理技术,通过采用正则匹配、关键词匹配以及神经网络对抽取的初始命名实体进行判别以得到目标实体,进而提高了实体抽取的准确率和效率。

Description

基于人工智能的实体抽取方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的实体抽取的方法、装置、设备及介质。
背景技术
当前随着信息以爆炸的速度增长,丰富的数据需要计算机和网络提供更方便快捷高效的服务的同时,信息的提取和处理也成为必不可少的一个重要环节,任何网络用户都不希望因为信息量过大而使得抽取信息变得困难,在这种背景下一些基于网络挖掘的信息处理技术应用而生,信息抽取,信息检索,自动文摘,问题回答等技术都是当今自然语言处理技术的重要研究领域。现有技术中通常采用命名实体识别技术来完成对文本进行实体抽取,但是由于命名实体更新速度快,随着时间层出不穷,不可能通过词典完全收录,例如在招标领域,若文本中出现存在中标金额、中标、金额等命名实体时,无法对命名实体进行准确的抽取,使得在进行实体抽取时,仍然需要人工辅助来完成实体的抽取,导致人力成本居高不下,效率缓慢。
发明内容
本发明实施例提供了一种基于人工智能的实体抽取的方法、装置、设备及介质,旨在解决现有技术中在对文本进行实体抽取时,精确度不高,效率低下的问题。
第一方面,本发明实施例提供了一种基于人工智能的实体抽取的方法,其包括:
根据实体抽取请求获取目标文本并对所述目标文本进行预处理;
将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息;
根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果;
根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果;
基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果;
基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略从所述初始命名实体集合中获取所述目标文本的目标实体。
第二方面,本发明实施例提供了一种基于人工智能的实体抽取的装置,其包括:
预处理单元,用于根据实体抽取请求获取目标文本并对所述目标文本进行预处理;
第一输入单元,用于将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息;
第一判别单元,用于根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果;
第二判别单元,用于根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果;
第三判别单元,用于基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果;
获取单元,用于基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略从所述初始命名实体集合中获取所述目标文本的目标实体。
第三方面,本发明实施例又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于人工智能的实体抽取的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于人工智能的实体抽取的方法。
本发明实施例提供了一种基于人工智能的实体抽取的方法、装置、设备及介质,该方法包括:根据实体抽取请求获取目标文本并对目标文本进行预处理;将预处理后的目标文本输入至实体抽取模型中,得到初始命名实体集合以及每个初始命名实体的上下文信息;基于上下文信息分别根据正则匹配规则、关键词匹配规则、卷积神经网络模型对每个初始命名实体进行判别以得到第一判别结果、第二判别结果、第三判别结果并采用投票策略得到目标文本的目标实体。本发明通过采用通用实体抽取模型对目标文本进行实体抽取后,分别采用正则匹配、关键词匹配以及神经网络对抽取得到的初始命名实体进行判别,进而从初始命名集合中获取目标实体,极大的提高了实体抽取的准确率,节省了大量的人力成本,提高了实体抽取的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于人工智能的实体抽取的方法的流程示意图;
图2为本发明实施例提供的基于人工智能的实体抽取的方法的子流程示意图;
图3为本发明实施例提供的基于人工智能的实体抽取的方法的另一流程示意图;
图4为本发明实施例提供的基于人工智能的实体抽取的方法的另一子流程示意图;
图5为本发明实施例提供的基于人工智能的实体抽取的方法的另一流程示意图;
图6为本发明实施例提供的基于人工智能的实体抽取的方法的另一子流程示意图;
图7为本发明实施例提供的基于人工智能的实体抽取的装置的示意性框图;
图8为本发明实施例提供的基于人工智能的实体抽取的装置的子单元示意性框图;
图9为本发明实施例提供的基于人工智能的实体抽取的装置的另一子单元示意性框图;
图10为本发明实施例提供的基于人工智能的实体抽取的装置的另一子单元示意性框图;
图11为本发明实施例提供的基于人工智能的实体抽取的装置的另一子单元示意性框图;
图12为本发明实施例提供的基于人工智能的实体抽取的装置的另一子单元示意性框图;
图13为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的基于人工智能的实体抽取的方法的流程示意图。该基于人工智能的实体抽取的方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。下面对所述的基于人工智能的实体抽取的方法进行详细说明。
如图1所示,该方法包括以下步骤S110~S170。
S110、根据实体抽取请求获取目标文本并对所述目标文本进行预处理。
具体的,所述实体抽取请求为向服务器发送对所述目标文本进行实体抽取的指令信息,服务器在接收到请求对所述目标文本进行实体抽取的指令信息后,便可执行对所述目标文本进行实体抽取。实体抽取又称命名实体识别(Named Entities Recognition,NER),主要任务是识别命名实体的文本范围,用于抽取文本中的原子信息元素并将其分类为预定义的类别,包括人、地名、时间、组织、日期、货币、百分比,是问答系统、翻译系统、知识图谱等。通常服务器在对所述目标文本进行实体抽取前,需对所述目标文本进行预处理,以去除所述目标文本中的特殊字符、后缀等,进而提高在对目标文本进行实体抽取时的执行效率。在本实施例中,根据所述请求获取所述目标文本后,通过预设的正则表达式与所述目标文本的字符串进行逐一匹配,当该正则表达式检测到所述目标文本的字符串中含有特殊字符时,去除该正则表达式匹配到的特殊字符,进而便可完成对所述目标文本中的特殊字符的去除。
在另一实施例中,如图2所示,步骤S110包括子步骤S111和S112。
S111、去除所述目标文本中的特殊字符并将去除特殊字符后的目标文本进行分词处理,得到所述目标文本中的词语。
具体的,在进行中文分词的过程中,通常包括基于词典分词法和基于统计的分词法,其中,基于词典分词法又称字符串匹配分词法,该方法按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。基于统计的分词法对所述目标文本进行分词,所述基于统计的分词方法通过对语料中相邻共现的各个字符的组合的频度进行统计,计算字符之间相邻共现的概率,从而判断相邻字符是否可以成词,进而完成对文本的分词。在本实施例中,采用基于统计的分词法对去除特殊字符后的目标文本进行分词处理,通过统计分词后的词语在目标文本中出现的频率以及该词语的上下文对目标文本进行分词处理,进而减少了分词过程中出现的歧义词和未登陆词。
S112、将所述目标文本中的词语进行词性标注,得到词性标注后的词语。
具体的,所述词性标注是指为对所述目标文本中的词语标注一个正确的词性的程序,也即确定所述词语是名词、动词、形容词或者其他词性的过程。所述词性为所述词语的语法属性,是依据词在组合中的语法功能确定的。汉语中的词语的语法属性包括名词、动词、形容词、数词、量词、代词、区别词、副词、介词、连词、助词、叹词、语气词、拟声词共十四类词性。本实施例在对所述目标文本中的词语进行词性标注时,基于预设的语料库对所述目标文本中的词语进行标注,进而完成所述目标文本中的词语的标注。在本实施例中,通过预置的HMM隐马尔科夫模型对所述目标文本中的词语进行词性标注,便可得到词性标注后的词语。
S120、将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息。
具体的,所述实体抽取模型为预先训练的用于将预处理后的目标文本进行通用命名实体识别的模型。所述实体抽取模型在对预处理后的目标文本进行实体抽取的过程中,通常从预处理后的目标文本中找到命名实体,并进行通用分类处理,便可得到所述目标文本的初始命名实体,同时所述实体抽取模型在对预处理后的目标文本进行实体抽取时,输出所述目标文本的初始命名实体的上下文信息。
在另一实施例中,如图3所示,步骤S120包括子步骤S121、S122和S123。
S121、将所述预处理后的目标文本进行词嵌入处理,得到所述目标文本的词向量序列。
具体的,词嵌入是指将一个词语转换为一个向量表示,进而便于标准机器学习算法来对进行分析,词嵌入主要是将一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,进而生成所述目标文本的词向量序列。在本实施例中,通过采用单个字的嵌入和N-Gram模型中的二元的Bi-Gram对预处理后的目标文本进行词嵌入处理,进而有效的增加了所述目标文本的表达能力。
S122、将所述词向量序列输入至预置的BiLSTM网络模型中,得到所述目标文本的特征向量序列,其中,所述目标文本的特征向量序列包括所述每个初始命名实体的上下文信息。
具体的,所述BiLSTM网络模型为预先训练好且用于从所述词向量中获取所述目标文本的特征向量序列,所述特征向量序列中含有每个初始命名实体的上下文特征信息,BiLSTM网络(双向长短记忆循环神经网络,Bi-directional LSTM RNN)由两个反向的长短时记忆网络构成,所述词向量分别输入至所述BiLSTM网络模型中的两个反向的长短时记忆网络中后,分别输出含有上下文特征的两个特征向量序列,然后将含有上下文特征的两个特征向量序列进行拼接,便可得到含有完整的上下文特征信息的特征向量序列。
S123、将所述目标文本的特征向量序列输入至预置的条件随机场模型中,得到所述目标文本的初始命名实体集合。
具体的,所述条件随机场(Conditional Random Field Algorithm,CRF)模型是一个在给定输入节点条件下计算输出节点条件概率的无向图模型,即在给定需要标记的观察序列条件下,计算整个标记序列的联合概率分布,对于指定的节点输入值,所述条件随机场模型能计算指定节点输出值的条件概率,其训练目标是使得条件概率最大化。在本实施例中,所述条件随机场模型为预先训练好且用于对所述目标文本的特征向量序列进行解码,进而得到所述目标文本的特征向量序列的联合概率分布,然后从所述目标文本的特征向量序列的联合概率分布中获取所述目标文本中每个词的标签,进而根据每个词的标签从所述目标文本中获取所有的初始命名实体,进而得到所述目标文本的初始命名实体集合。
S130、根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果。
在本实施例中,所述正则匹配规则为用于对所述目标文本中所有的初始命名实体进行判别的规则信息,通过所述正则匹配规则对所述每一实体进行判别的过程中,通过与所述目标文本的每一语句相匹配的目标正则表达式对所述目标文本中所有的实体所在的语句进行分类,然后根据分类结果对该语句中的初始命名实体进行判别,进而得到所述第一判别结果。
在另一实施例中,如图4所示,步骤S130包括子步骤S131和S132。
S131、获取多个正则表达式并将所述多个正则表达式中每个正则表达式与所述每个初始命名实体所在的语句进行字符匹配并根据所述字符匹配结果从所述多个正则表达式中获取每个初始命名实体的目标正则表达式。
S132、根据所述目标正则表达式对所述每个初始命名实体进行实体判别,得到所述第一判别结果。
具体的,所述多个正则表达式为根据语法规律预先编写且用于对所述目标文本中所有初始命名实体进行判别的逻辑公式,所述多个正则表达式中含有能对所述目标文本所有初始命名实体进行判别的字符。实体抽取模型对预处理后的目标文本进行实体抽取后,从预设的数据库中获取所述多个正则表达式并将所述多个正则表达式中每个正则表达式分别与所述目标文本中每一语句进行字符匹配,进而得到每个正则表达式与每一语句的字符匹配结果,通过所述字符匹配结果确定与所述每个初始命名实体相匹配的目标正则表达式并采用该目标正则表达式对该初始命名实体所在的语句进行分类,根据分类结果对该语句中的每个初始命名实体进行判别,便可得到每个初始命名实体的第一判别结果。
在本实施例中,获取所述多个正则表达式后,统计每个正则表达式中的字符数并将每个正则表达式中的字符与每个初始命名实体所在的语句中的字符逐一进行匹配,统计每个正则表达式与每个初始命名实体所在的语句相同的字符数,然后计算相同的字符数在对应的正则表达式中字符数的百分比,该百分比即为所述字符匹配结果,将最高百分比的正则表达式作为该语句的目标正则表达式,即所对应的初始命名实体的目标正则表达式,根据该目标正则表达式的应用场景来对该初始命名实体所在的语句进行分类,最后根据分类结果该语句中每个初始命名实体进行实体判别,便可得到所述第一判别结果。
S140、根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果。
具体的,所述关键词匹配规则为用于对所述目标文本中所有实体进行判别的规则信息,所述实体抽取模型在完成对所述目标文本的实体抽取后,获取预设的关键词知识库,然后将关键词知识库中所有的关键词与所述目标文本中每个初始命名实体所在语句进行匹配,进而确定每个初始命名实体的所在语句的关键词,最后根据该关键词对该初始命名实体进行判别,便可得到所述第二判别结果。
在另一实施例中,如图5所示,步骤S140包括子步骤S141和S142。
S141、将所述每个初始命名实体所在的语句与预设的关键词知识库进行关键词匹配,得到关键词匹配结果。
S142、根据所述关键词匹配结果对所述每个初始命名实体进行实体判别,得到所述第二判别结果。
具体的,所述关键词知识库中预先存储有各种应用场景的关键词,通过所述关键词知识库中关键词便可得到每个初始命名实体所在语句的应用场景,进而便可对该初始命名实体进行实体判别。在本实施例中,将所述关键词知识库中每个关键词与所述每个初始命名实体所在的语句中的词语进行匹配,若所述每个初始命名实体所在的语句中的某个词语存在所述关键词知识库中,则该词语为该初始命名实体所在语句的关键词,然后根据该关键词的应用场景类型对该初始命名实体所在语句进行分类,然后根据分类结果对该语句中每个初始命名实体进行判别,便可得到所述第二判别结果。
S150、基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果。
具体的,所述卷积神经网络模型为预先训练好且用于根据所述每个初始命名实体的目标文本进行分类识别以完成对所述每个初始命名实体的判别模型。卷积神经网络(Convolutional Neural Networks,CNN)是深度学习领域中常用网络,善于处理具有局部相关性、含层次关系的数据。卷积神经网络通常包括卷积层、池化层和全连接层,其中卷积层是卷积神经网络结构中不可少且关键的部分,卷积层对目标文本进行卷积运算以从输入文本中提取特征,并且能减少噪音,当卷积层对目标文本进行卷积操作时,可以将该过程看作一个滑动窗口在输入矩阵上有规律的滑动,每当滑动到一个位置时,将卷积核与对应的输入数据做乘积然后求和,便可从目标文本中提取目标文本的特征信息;池化层通常跟随在卷积层后,用以进一步调整卷积层提取的特征,从而得到目标文本的低维的局部特征,然后将局部特征输入至全连接层中进行分类,进而完成对目标文本的分类识别。
在另一实施例中,如图6所示,步骤S150包括子步骤S151、S152和S153。
S151、将所述每个初始命名实体所在的语句输入至所述卷积神经网络模型的嵌入层中,得到所述每个初始命名实体所在的语句的词嵌入向量序列。
在本实施例中,所述嵌入层为用于将所述每个初始命名实体所在的语句进行向量表示,所述嵌入层在对所述每个初始命名实体所在的语句进行词嵌入时,需在每个初始命名实体的基础上对所述目标文本进行分句和分词处理,便可得到所述每个初始命名实体所在的语句,然后将该语句输入至所述嵌入层中,便可得到每个初始命名实体所在的语句的词嵌入向量序列。
S152、将所述词嵌入向量序列输入至所述卷积神经网络模型的卷积层中,得到所述每个初始命名实体所在的语句的特征向量序列。
在本实施例中,所述卷积层在对所述词嵌入向量序列进行卷积操作时,采用了不同大小的卷积窗口来捕捉不同距离的特征,同时卷积操作完成后采用Topk池化来替代最大池化以保证所述卷积神经网络模型的鲁棒性。所述词嵌入向量序列输入至所述卷积神经网络模型的卷积层中进行卷积操作后,通过Topk算法对卷积后的特征进行池化,便可得到所述每个初始命名实体所在的语句的特征向量序列。
S153、基于所述上下文信息将所述每个初始命名实体所在的语句的特征向量序列输入至预置的分类器中,得到所述第三判别结果。
在本实施例中,所述分类器为具有三层的BP神经网络作为分类器,所述卷积神经网络模型的卷积层输出所述每个初始命名实体所在的语句的特征向量序列后,通过注意力机制从实体抽取模型中获取该初始命名实体的上下文信息的特征向量序列并将该上下文的特征向量序列与该语句的特征向量序列进行拼接,然后将拼接后的特征向量输入至所述分类器中进行分类处理,最后根据分类结果对该语句中每个初始命名实体进行判别,便可得到所述第三判别结果。
S160、基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略从所述初始命名实体集合中获取所述目标文本的目标实体。
具体的,所述投票策略为用于根据所述第一判别结果、所述第二判别结果以及所述第三判别结果来确定所述每个初始命名实体在所在语句中的类型,进而根据该类型从所述初始命名实体集合中获取所述目标文本的目标实体。在本实施例中,采用投票策略中多数投票法从所述初始命名实体集合中获取所述目标文本的目标实体,其中,多数投票法为票数最多的成为最终的分类类别,进而从所述初始命名实体集合中获取所述目标文本的目标实体。例如,在招标领域,目标文本的某一语句中含有金额、中标金额两个初始命名实体时,所述第一判别结果、所述第二判别结果以及所述第三判别结果分别为中标金额,金额,中标金额,采用所述多数投票法便可确定该语句的分类结果为中标金额,通过该分类结果从金额、中标金额两个初始命名实体中获取中标金额作为目标文本的目标实体。
在本发明实施例所提供的基于人工智能的实体抽取的方法中,通过根据实体抽取请求获取所述目标文本并对所述目标文本进行预处理;将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息;根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果;根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果;基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果;基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略得到所述每个初始命名实体的目标实体。该方法通过采用通用实体抽取模型对目标文本进行实体抽取后,分别采用正则匹配、关键词匹配以及神经网络对抽取得到的初始命名实体进行判别,进而得到初始命名实体的目标实体,极大的提高了实体抽取的准确率,节省了大量的人力成本,提高了实体抽取的效率。
本发明实施例还提供了一种基于人工智能的实体抽取的装置100,该装置用于执行前述基于人工智能的实体抽取的方法的任一实施例。
具体地,请参阅图7,图7是本发明实施例提供的基于人工智能的实体抽取的装置100的示意性框图。
如图7所示,所述的基于人工智能的实体抽取的装置100,该装置包括预处理单元110、第一输入单元120、第一判别单元130、第二判别单元140、第三判别单元150和获取单元160。
预处理单元110,用于根据实体抽取请求获取目标文本并对所述目标文本进行预处理。
在其他发明实施例中,如图8所示,所述预处理单元110包括:分词单元111和标注单元112。
分词单元111,用于去除所述目标文本中的特殊字符并将去除特殊字符后的目标文本进行分词处理,得到所述目标文本中的词语;标注单元112,用于将所述目标文本中的词语进行词性标注,得到词性标注后的词语。
第一输入单元120,用于将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息。
在其他发明实施例中,如图9所示,所述第一输入单元120包括:词嵌入单元121、第二输入单元122和第三输入单元123。
词嵌入单元121,用于将所述预处理后的目标文本进行词嵌入处理,得到所述目标文本的词向量序列;第二输入单元122,用于将所述词向量序列输入至预置的BiLSTM网络模型中,得到所述目标文本的特征向量序列,其中,所述目标文本的特征向量序列包括所述每个初始命名实体的上下文信息;第三输入单元123,用于将所述目标文本的特征向量序列输入至预置的条件随机场模型中,得到所述目标文本的初始命名实体集合。
第一判别单元130,用于根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果。
在其他发明实施例中,如图10所示,所述第一判别单元130包括:字符匹配单元131和第四判别单元132。
字符匹配单元131,用于获取多个正则表达式并将所述多个正则表达式中每个正则表达式与所述每个初始命名实体所在的语句进行字符匹配并根据所述字符匹配结果从所述多个正则表达式中获取每个初始命名实体的目标正则表达式;第四判别单元132,用于根据所述目标正则表达式对所述每个初始命名实体进行实体判别,得到所述第一判别结果。
第二判别单元140,用于根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果。
在其他发明实施例中,如图11所示,所述第二判别单元140包括:关键词匹配单元141和第五判别单元142。
关键词匹配单元141,用于将所述每个初始命名实体所在的语句与预设的关键词知识库进行关键词匹配,得到关键词匹配结果;第五判别单元142,用于根据所述关键词匹配结果对所述每个初始命名实体进行实体判别,得到所述第二判别结果。
第三判别单元150,用于基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果。
在其他发明实施例中,如图12所示,所述第三判别单元150包括:第四输入单元151、第五输入单元152和第六输入单元153。
第四输入单元151,用于将所述每个初始命名实体所在的语句输入至所述卷积神经网络模型的嵌入层中,得到所述每个初始命名实体所在的语句的词嵌入向量序列;第五输入单元152,用于将所述词嵌入向量序列输入至所述卷积神经网络模型的卷积层中,得到所述每个初始命名实体所在的语句的特征向量序列;第六输入单元153,用于基于所述上下文信息将所述每个初始命名实体所在的语句的特征向量序列输入至预置的分类器中,得到所述第三判别结果。
获取单元160,用于基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略从所述初始命名实体集合中获取所述目标文本的目标实体。
本发明实施例所提供的基于人工智能的实体抽取的装置100用于执行上述根据实体抽取请求获取所述目标文本并对所述目标文本进行预处理;将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息;根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果;根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果;基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果;基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略得到所述每个初始命名实体的目标实体。
请参阅图13,图13是本发明实施例提供的计算机设备的示意性框图。
参阅图13,该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于人工智能的实体抽取的方法。
该处理器502用于提供计算和控制能力,支撑整个设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于人工智能的实体抽取的方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图13中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的设备500的限定,具体的设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:根据实体抽取请求获取所述目标文本并对所述目标文本进行预处理;将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息;根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果;根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果;基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果;基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略得到所述每个初始命名实体的目标实体。
本领域技术人员可以理解,图13中示出的设备500的实施例并不构成对设备500具体构成的限定,在其他实施例中,设备500可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,设备500可以仅包括存储器及处理器502,在这样的实施例中,存储器及处理器502的结构及功能与图13所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。
在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质,也可以是易失性的存储介质。该存储介质存储有计算机程序5032,其中计算机程序5032被处理器502执行时实现以下步骤:根据所述实体抽取请求获取所述目标文本并对所述目标文本进行预处理;将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息;根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果;根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果;基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果;基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略得到所述每个初始命名实体的目标实体。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备500(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于人工智能的实体抽取的方法,其特征在于,包括以下步骤:
根据实体抽取请求获取目标文本并对所述目标文本进行预处理;
将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息;
根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果;
根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果;
基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果;
基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略从所述初始命名实体集合中获取所述目标文本的目标实体。
2.根据权利要求1所述的基于人工智能的实体抽取的方法,其特征在于,所述对所述目标文本进行预处理,包括:
去除所述目标文本中的特殊字符并将去除特殊字符后的目标文本进行分词处理,得到所述目标文本中的词语;
将所述目标文本中的词语进行词性标注,得到词性标注后的词语。
3.根据权利要求2所述的基于人工智能的实体抽取的方法,其特征在于,所述将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息,包括:
将所述预处理后的目标文本进行词嵌入处理,得到所述目标文本的词向量序列;
将所述词向量序列输入至预置的BiLSTM网络模型中,得到所述目标文本的特征向量序列,其中,所述目标文本的特征向量序列包括所述每个初始命名实体的上下文信息;
将所述目标文本的特征向量序列输入至预置的条件随机场模型中,得到所述目标文本的初始命名实体集合。
4.根据权利要求1所述的基于人工智能的实体抽取的方法,其特征在于,所述根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果,包括:
获取多个正则表达式并将所述多个正则表达式中每个正则表达式与所述每个初始命名实体所在的语句进行字符匹配并根据所述字符匹配结果从所述多个正则表达式中获取每个初始命名实体的目标正则表达式;
根据所述目标正则表达式对所述每个初始命名实体进行实体判别,得到所述第一判别结果。
5.根据权利要求1所述的基于人工智能的实体抽取的方法,其特征在于,所述根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果,包括:
将所述每个初始命名实体所在的语句与预设的关键词知识库进行关键词匹配,得到关键词匹配结果;
根据所述关键词匹配结果对所述每个初始命名实体进行实体判别,得到所述第二判别结果。
6.根据权利要求1所述的基于人工智能的实体抽取的方法,其特征在于,所述基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果,包括:
将所述每个初始命名实体所在的语句输入至所述卷积神经网络模型的嵌入层中,得到所述每个初始命名实体所在的语句的词嵌入向量序列;
将所述词嵌入向量序列输入至所述卷积神经网络模型的卷积层中,得到所述每个初始命名实体所在的语句的特征向量序列;
基于所述上下文信息将所述每个初始命名实体所在的语句的特征向量序列输入至预置的分类器中,得到所述第三判别结果。
7.根据权利要求1所述的基于人工智能的实体抽取的方法,其特征在于,所述基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略从所述初始命名实体集合中获取所述目标文本的目标实体,包括:
基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用所述投票策略中的多数投票法从所述初始命名实体集合中获取所述目标文本的目标实体。
8.一种基于人工智能的实体抽取的装置,其特征在于,包括:
预处理单元,用于根据实体抽取请求获取目标文本并对所述目标文本进行预处理;
第一输入单元,用于将预处理后的目标文本输入至预置的实体抽取模型中,得到所述目标文本的初始命名实体集合以及所述初始命名实体集合中每个初始命名实体的上下文信息;
第一判别单元,用于根据预设的正则匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第一判别结果;
第二判别单元,用于根据预设的关键词匹配规则对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第二判别结果;
第三判别单元,用于基于所述上下文信息,根据预置的卷积神经网络模型对所述每个初始命名实体进行实体判别,得到所述每个初始命名实体的第三判别结果;
获取单元,用于基于所述第一判别结果、所述第二判别结果以及所述第三判别结果,采用投票策略从所述初始命名实体集合中获取所述目标文本的目标实体。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于人工智能的实体抽取的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于人工智能的实体抽取的方法。
CN202110440973.7A 2021-04-23 2021-04-23 基于人工智能的实体抽取方法、装置、设备及介质 Active CN113158675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110440973.7A CN113158675B (zh) 2021-04-23 2021-04-23 基于人工智能的实体抽取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110440973.7A CN113158675B (zh) 2021-04-23 2021-04-23 基于人工智能的实体抽取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113158675A true CN113158675A (zh) 2021-07-23
CN113158675B CN113158675B (zh) 2024-04-02

Family

ID=76870066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110440973.7A Active CN113158675B (zh) 2021-04-23 2021-04-23 基于人工智能的实体抽取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113158675B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852106A (zh) * 2019-11-06 2020-02-28 腾讯科技(深圳)有限公司 基于人工智能的命名实体处理方法、装置及电子设备
CN111553164A (zh) * 2020-04-29 2020-08-18 平安科技(深圳)有限公司 命名实体识别模型的训练方法、装置、计算机设备
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852106A (zh) * 2019-11-06 2020-02-28 腾讯科技(深圳)有限公司 基于人工智能的命名实体处理方法、装置及电子设备
CN111553164A (zh) * 2020-04-29 2020-08-18 平安科技(深圳)有限公司 命名实体识别模型的训练方法、装置、计算机设备
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIANGLU HU ET AL.: "HITSZ_CNER: A hybrid system for entity recognition from Chinese clinical text", 《COMPUTER SCIENCE(2017)》, pages 1 - 6 *

Also Published As

Publication number Publication date
CN113158675B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
US7295965B2 (en) Method and apparatus for determining a measure of similarity between natural language sentences
US11886814B2 (en) Systems and methods for deviation detection, information extraction and obligation deviation detection
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN111832282B (zh) 融合外部知识的bert模型的微调方法、装置及计算机设备
CN114580382A (zh) 文本纠错方法以及装置
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN113821605A (zh) 一种事件抽取方法
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN112925918A (zh) 一种基于疾病领域知识图谱的问答匹配系统
CN111475608A (zh) 一种基于功能语义关联计算的Mashup服务特征表示方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN112581297A (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN113158675B (zh) 基于人工智能的实体抽取方法、装置、设备及介质
CN117151089A (zh) 新词发现方法、装置、设备和介质
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN114548113A (zh) 基于事件的指代消解系统、方法、终端及存储介质
CN113688633A (zh) 一种提纲确定方法及装置
CN111368068A (zh) 一种基于词性特征和语义增强的短文本主题建模方法
CN115982389B (zh) 知识图谱生成方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant