CN116720520A - 一种面向文本数据的别名实体快速识别方法及系统 - Google Patents

一种面向文本数据的别名实体快速识别方法及系统 Download PDF

Info

Publication number
CN116720520A
CN116720520A CN202310983821.0A CN202310983821A CN116720520A CN 116720520 A CN116720520 A CN 116720520A CN 202310983821 A CN202310983821 A CN 202310983821A CN 116720520 A CN116720520 A CN 116720520A
Authority
CN
China
Prior art keywords
entity
text
word
text data
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310983821.0A
Other languages
English (en)
Other versions
CN116720520B (zh
Inventor
戴鹏飞
周春姐
张震
王庆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hulunbuir Cultural and Tourism Development Center
Yantai Cloud Software Co ltd
Original Assignee
Yantai Cloud Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Cloud Software Co ltd filed Critical Yantai Cloud Software Co ltd
Priority to CN202310983821.0A priority Critical patent/CN116720520B/zh
Publication of CN116720520A publication Critical patent/CN116720520A/zh
Application granted granted Critical
Publication of CN116720520B publication Critical patent/CN116720520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种面向文本数据的别名实体快速识别方法及系统,其获取待识别文本数据;对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示;基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。这样,可以对文本中的别名实体进行正确识别,有利于后续的处理任务的正确进行。

Description

一种面向文本数据的别名实体快速识别方法及系统
技术领域
本申请涉及智能化识别技术领域,并且更具体地,涉及一种面向文本数据的别名实体快速识别方法及系统。
背景技术
命名实体识别是文本智能处理中的重要一环,但是,在文本的表述中经常包含有大量约定俗成的隐式语义表达,其中最明显的就是别名实体。别名实体可以认为是对命名实体的另一种方式的表达,通常在文本中伴随着命名实体出现。别名实体在文本中出现的位置不固定,在上下文中也没有针对别名实体的明显语义提示,导致文本中的别名实体难以被正确识别,后续的处理任务无法正确进行。
因此,期待一种面向文本数据的别名实体快速识别方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种面向文本数据的别名实体快速识别方法及系统,其获取待识别文本数据;对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示;基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。这样,可以对文本中的别名实体进行正确识别,有利于后续的处理任务的正确进行。
第一方面,提供了一种面向文本数据的别名实体快速识别方法,其包括:
获取待识别文本数据;
对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示;
基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。
第二方面,提供了一种面向文本数据的别名实体快速识别系统,其包括:
数据获取模块,用于获取待识别文本数据;
实体识别模块,用于对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示;
识别结果生成模块,用于基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例的面向文本数据的别名实体快速识别方法的流程图。
图2为根据本申请实施例的面向文本数据的别名实体快速识别方法的架构示意图。
图3为根据本申请实施例的面向文本数据的别名实体快速识别方法中步骤130的子步骤的流程图。
图4为根据本申请实施例的面向文本数据的别名实体快速识别系统的框图。
图5为根据本申请实施例的面向文本数据的别名实体快速识别方法的场景示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有说明,本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本申请的范围。
在本申请实施例记载中,需要说明的是,除非另有说明和限定,术语“连接”应做广义理解,例如,可以是电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。
应可以理解,命名实体识别(Named Entity Recognition,简称NER)是自然语言处理中的一项重要任务,旨在从文本中识别和分类出命名实体,如人名、地名、组织机构名等。
NER的目标是标注文本中特定实体的边界,并将其分类为预定义的实体类别,这项任务对于许多自然语言处理任务都是必要的,例如信息抽取、问答系统、机器翻译等。NER通常可以分为两个子任务:实体边界识别和实体类别分类。实体边界识别是指确定实体在文本中的起始位置和结束位置,而实体类别分类是指将实体分为不同的预定义类别,如人名、地名、组织机构名等。
NER的常见方法包括基于规则的方法、基于统计的方法和基于深度学习的方法。基于规则的方法使用预定义的规则和模式来匹配和识别实体。基于统计的方法使用机器学习算法,如隐马尔可夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional RandomField,CRF),通过训练模型来预测实体的边界和类别。基于深度学习的方法使用神经网络模型,如循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(ConvolutionalNeural Network,CNN),通过学习文本的上下文信息来进行实体识别。
NER在许多实际应用中都非常重要,例如信息抽取中的实体关系抽取、问答系统中的问题解析和答案生成等,为自然语言处理领域的其他任务提供了重要的基础支持。
进一步地,在信息抽取任务中,识别别名实体可以更准确地提取和组织文本中的信息,通过将不同的别名实体归类为同一实体,可以更好地理解文本中的关系和上下文。在搜索引擎和推荐系统中,别名实体的识别可以提供更准确和相关的搜索结果和推荐内容,通过将不同的别名实体关联起来,可以更好地理解用户的意图和需求。
别名实体的识别对于构建知识图谱非常重要,通过将不同的别名实体链接到同一实体节点,可以更好地组织和表示知识,并为后续的知识推理和分析提供基础。而且,在自然语言理解任务中,别名实体的快速识别可以更好地理解文本的语义和上下文。通过将不同的别名实体关联起来,可以更准确地解析和理解文本中的实体指称。
换言之,别名实体的快速识别对于多个自然语言处理任务都具有重要的必要性,能够提高任务的准确性、效率和语义理解能力。
图1为根据本申请实施例的面向文本数据的别名实体快速识别方法的流程图。图2为根据本申请实施例的面向文本数据的别名实体快速识别方法的架构示意图。如图1和图2所示,所述面向文本数据的别名实体快速识别方法,包括:110,获取待识别文本数据;120,对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示;130,基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。
其中,在所述步骤110中,获取待识别的文本数据,可以是一段文章、一篇新闻报道、一段对话等。其确保文本数据的质量和准确性,避免包含大量噪音或错误信息,确定文本数据的语言和领域,以便选择合适的模型和工具进行后续处理。其中,获取准确的文本数据是进行别名实体识别的第一步,为后续的处理提供了基础。高质量的文本数据可以提高别名实体识别的准确性和效果。
在所述步骤120中,使用命名实体识别的方法,对待识别的文本数据进行处理,以得到第一命名实体及其上下文词语义特征表示。选择适合的命名实体识别方法,可以是基于规则的方法、基于统计的方法或者是深度学习方法,并确定命名实体的类型,例如人名、地名、组织机构名等。进一步地,提取第一命名实体的上下文词语义特征表示,可以使用词向量、上下文窗口等方法。其中,命名实体识别可以快速准确地找到文本中的实体,并为后续的别名实体识别提供基础。而且,上下文词语义特征表示可以捕捉实体在其上下文中的语义信息,有助于更好地理解实体的含义和上下文关系。
在所述步骤130中,基于第一命名实体的上下文词语义特征表示,对待识别的文本数据进行别名实体识别,以得到最终的识别结果。使用合适的方法和模型进行别名实体识别,可以是基于规则的方法、基于统计的方法或者是深度学习方法。考虑实体的多样性和复杂性,例如同一实体可能有不同的别名、缩写、简称等,结合上下文信息进行别名实体识别,以提高准确性和鲁棒性。应可以理解,别名实体识别可以快速准确地找到文本中的别名实体,并为后续的任务提供更准确的实体信息。识别结果可以用于信息抽取、问答系统、文本分析和挖掘、知识图谱构建等任务,提高系统的准确性和效果。
具体地,在所述步骤110中,获取待识别文本数据。针对上述技术问题,本申请的技术构思为首先对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示。然后,基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。具体地,基于所述第一命名实体的上下文词语义特征表示与待识别文本词语义特征向量之间的语义匹配来进行别名实体识别。
具体地,在本申请的技术方案中,首先获取待识别文本数据,别名实体识别可以准确地提取文本中的实体关系和属性,通过识别别名实体,可以更准确地将实体关联到正确的实体类型,并提取相关的信息,从而提高信息抽取的准确性。
在问答系统中,用户通常会提及某个实体,并希望系统能够理解他们的意图并给出准确的答案。通过别名实体识别,可以准确地理解用户提问中涉及的实体,并提供与实体相关的准确答案,从而改进问答系统的效果。
在文本中,实体可能会以不同的方式进行指代,例如使用不同的别名、缩写、简称等,通过别名实体识别,可以更好地理解文本中的实体指代和关联关系,从而提高对文本的理解和分析能力。
知识图谱是一种用于表示实体和实体之间关系的结构化知识库,通过别名实体识别,可以准确地识别实体及其别名,从而提高知识图谱的准确性和完整性。这对于知识图谱的构建、更新和应用都非常重要。
对待识别文本数据进行别名实体识别以得到识别结果的作用是提高信息抽取的准确性、改进问答系统的效果、加深对文本中实体指代和关联的理解,并提升知识图谱的准确性和完整性。这些作用对于实现更智能、准确和可靠的文本处理和分析任务都具有重要的意义。
具体地,在所述步骤120中,对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示。包括:将所述待识别文本数据输入基于BERT的命名实体识别模型以得到所述第一命名实体以及所述第一命名实体的上下文词语义特征表示。
紧接着,对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示。在本申请一个具体的示例中,使用现有的基于BERT的命名实体识别模型来对所述待识别文本数据进行命名实体识别以得到所述第一命名实体以及所述第一命名实体的上下文词语义特征表示。本领域普通技术人员应知晓,在使用现有的基于BERT的命名实体识别模型来对所述待识别文本数据进行命名实体识别,所述基于BERT的命名实体识别模型对所述待识别文本数据中的各个词命名实体识别以得到命名实体识别结果。因所述基于BERT的命名实体识别模型为现有模型,因此,在本申请的技术方案中,对“使用现有的基于BERT的命名实体识别模型来对所述待识别文本数据进行命名实体识别”不做过多赘述。
其中, BERT作为一种语言模型,在大规模语料上进行了训练,具有较强的语义理解和上下文理解能力。通过将待识别文本数据输入到基于BERT的命名实体识别模型中,可以获得更准确的命名实体识别结果,BERT模型能够考虑上下文信息,捕捉实体的语义特征,从而减少歧义和误识别。
通过基于BERT的命名实体识别模型,可以获得第一命名实体及其上下文词语义特征表示,这些特征表示包含了实体在上下文中的语义信息,能够更好地表达实体的含义和上下文关联。这对于后续的别名实体识别和相关任务非常有用,可以提供更全面和准确的实体信息。
第一命名实体及其上下文词语义特征表示可以用于实体关系和属性提取任务,通过结合实体的上下文信息,可以更准确地识别实体之间的关系和提取实体的属性,有助于提高实体关系和属性提取的准确性和效果。第一命名实体及其上下文词语义特征表示可以更好地理解文本中的实体指代和关联,通过识别实体并捕捉上下文信息,可以更准确地判断实体指代的含义和关联关系,从而增强对文本的理解和分析能力。
应可以理解,基于BERT的命名实体识别模型是一种使用BERT(BidirectionalEncoder Representations from Transformers)预训练语言模型的方法,用于在文本中识别命名实体(Named Entity Recognition,简称NER)。
BERT是一种基于Transformer架构的深度双向表示模型,通过在大规模无标注文本上进行预训练,学习到了丰富的语义和上下文信息,这使得BERT在各种自然语言处理任务中表现出色,包括命名实体识别。
基于BERT的命名实体识别模型通过利用BERT模型的上下文理解能力和丰富的语义信息,能够更准确地识别命名实体。同时,由于BERT模型的预训练过程覆盖了大量语言数据,使得模型具有较强的泛化能力,可以适应不同领域和语境的命名实体识别任务。具体地,在所述步骤130中,基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。图3为根据本申请实施例的面向文本数据的别名实体快速识别方法中步骤130的子步骤的流程图,如图3所示,基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果,包括:131,对所述待识别文本数据进行分词处理以得到待识别文本词的序列;132,将所述待识别文本词的序列通过包含词嵌入层的上下文编码器以得到待识别文本词语义特征向量的序列;133,从所述待识别文本词语义特征向量的序列提取第一待识别文本词语义特征向量;以及,134,对所述第一待识别文本词语义特征向量和所述第一命名实体的上下文词语义特征表示进行语义匹配分析以得到所述识别结果。
其中, BERT模型具有强大的语义理解和上下文理解能力,可以更准确地识别文本中的别名实体,通过提取第一命名实体及其上下文词的语义特征表示,可以更好地捕捉实体的上下文信息,提高别名实体识别的准确性。
通过识别别名实体,可以更好地理解文本中的实体关系和属性,基于BERT的命名实体识别模型提供的语义特征表示可以用于进一步提取实体关系和属性,从而提高其准确性。别名实体识别可以帮助识别文本中的实体指代和关联。通过提取第一命名实体及其上下文词的语义特征表示,可以更好地理解实体之间的指代关系和关联关系,提高对文本中实体指代和关联的理解。
其中,对于所述步骤131,接着,对所述待识别文本数据进行分词处理以得到待识别文本词的序列。其中,分词处理是将待识别的文本数据分割成一个个离散的词语或标记的过程。在自然语言处理中,分词是一个重要的预处理步骤,将连续的文本序列切分成离散的词语或标记,为后续的文本处理任务提供输入。
分词处理的方法有多种,包括:基于规则的分词,通过事先定义一系列的规则,例如根据空格、标点符号等进行切分,来将文本切分成词语或标记。这种方法适用于一些语言中词与词之间有明显分隔符的情况,例如英语。
基于统计的分词,通过统计语料库中的词频、词组频率等信息,来确定切分点,将文本切分成词语或标记。统计方法包括最大匹配法、最大概率法等,这种方法适用于一些语言中词与词之间没有明显分隔符的情况,例如中文。
基于机器学习的分词,通过训练机器学习模型,例如隐马尔可夫模型、条件随机场等,来学习词语的切分规律,并将文本切分成词语或标记,这种方法可以结合上下文信息进行更准确的分词。
对于待识别的文本数据,分词处理的目的是将文本切分成一个个离散的词语或标记,以便后续的处理和分析。
在本申请的一个实施例中,首先,对待识别文本数据进行预处理,包括去除特殊符号、标点符号、数字等非文本字符,以及进行大小写转换等操作,以便更好地进行分词处理。然后,选择适合的分词算法进行分词处理。常见的分词算法包括最大匹配法、正向最大匹配法、逆向最大匹配法、HMM模型、CRF模型等。选择合适的算法取决于具体任务和语言特点。接着,根据选择的分词算法,将待识别文本数据按照词语或标记的边界进行切分,得到待识别文本词的序列。每个词语或标记都代表了文本中的一个独立单位。
通过上述步骤,可以提供更准确的输入:分词处理将文本切分成离散的词语或标记,提供了更准确的输入数据,有助于后续的文本处理任务。可以提高语义理解能力:分词处理可以将长文本切分成独立的词语或标记,有助于模型更好地理解每个词语的语义,从而提高语义理解能力。还可以支持后续任务:分词处理为后续的文本处理任务提供了基础,例如命名实体识别、情感分析、机器翻译等,使得这些任务能够更好地进行。
对于所述步骤132,包括:对所述待识别文本词的序列进行上下文处理以将所述待识别文本词的序列转化为由多个词组成的词序列;使用所述包含词嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得所述待识别文本词语义特征向量的序列。
接着,将所述待识别文本词的序列通过包含词嵌入层的上下文编码器以得到待识别文本词语义特征向量的序列。本领域普通技术人员应知晓,所述词嵌入层的作用在于将非结构化的文本数据转化为计算机可处理的嵌入向量,例如,在本申请一个具体的示例中,所述词嵌入层可基于词袋模型来构建,在本申请另外的示例中,所述词嵌入层可以是word2vec模型或者glove模型,对此,并不为本申请所局限。在将所述待识别文本词的序列通过所述词嵌入层转化为待识别文本词嵌入向量的序列后,使用所述上下文编码器对所述待识别文本词嵌入向量的序列进行基于上下文的语义理解以得到所述待识别文本词语义特征向量的序列,其中,在所述待识别文本词语义特征向量的序列中各个待识别文本词语义特征向量对应于一个待识别文本词。
应可以理解,上下文编码器旨在挖掘得到词序列中上下文之间的隐藏模式,可选地,编码器包括:CNN(Convolutional Neural Network,卷积神经网络)、Recursive NN(RecursiveNeural Network,递归神经网络)、语言模型(Language Model)等。基于CNN的方法对于局部特征有比较好的提取效果,但其对于句子中的长程依赖(Long-termDependency)问题效果欠佳,因此基于Bi-LSTM(Long Short- Term Memory,长短期记忆网络)的编码器被广泛使用。Recursive NN把句子当作树状结构而非序列进行处理,从理论上而言具有更强的表示能力,但其存在样本标注难度大、深层易梯度消失、难以并行计算等弱点,因此在实际应用中使用 较少。Transformer是应用广泛的网络结构了,同时具有CNN和RNN的特性,对于全局特征有较好的提取效果,同时相较于RNN(RecurrentNeural Network,循环神经网络)在并行计算上具有一定优势。
对于所述步骤133,进而,从所述待识别文本词语义特征向量的序列提取第一待识别文本词语义特征向量。也就是,以第一待识别文本词的第一待识别文本词语义特征向量为示例来说明所述语义匹配过程。应可以理解,当所述第一待识别文本词的第一待识别文本词语义特征向量与所述第一命名实体的上下文词语义特征表示之间的语义匹配说明清楚后,其他待识别文本词与所述第一命名实体的上下文词语义特征表示之间的语义匹配也可以基于同理进行理解。
对于所述步骤134,包括:计算所述第一待识别文本词语义特征向量与所述第一命名实体的上下文词语义特征表达之间的转移矩阵;以及,将所述转移矩阵通过分类器以得到分类结果作为所述识别结果,所述分类结果用于表示第一待识别文本词语义特征向量对应的词是否为所述第一命名实体的别名实体。
相应地,对所述第一待识别文本词语义特征向量和所述第一命名实体的上下文词语义特征表示进行语义匹配分析以得到所述识别结果。在本申请一个具体的示例中,对所述第一待识别文本词语义特征向量和所述第一命名实体的上下文词语义特征表示进行语义匹配分析的过程,包括首先计算所述第一待识别文本词语义特征向量与所述第一命名实体的上下文词语义特征表达之间的转移矩阵;接着,将所述转移矩阵通过分类器以得到分类结果作为所述识别结果,所述分类结果用于表示第一待识别文本词语义特征向量对应的词是否为所述第一命名实体的别名实体。也就是,以所述第一待识别文本词语义特征向量与所述第一命名实体的上下文词语义特征表达之间的转移矩阵来表示所述第一待识别文本词语义特征向量与所述第一命名实体的上下文词语义特征表达之间的语义匹配特征表达。进而,使用所述分类器来确定所述语义匹配特征表达所属的类概率标签,所述类概率标签用于表示第一待识别文本词语义特征向量对应的词是否为所述第一命名实体的别名实体。
进一步地,通过考虑第一待识别文本词与第一命名实体的上下文词之间的语义关系,转移矩阵可以提供更准确的别名实体识别结果,有助于避免将与第一命名实体相关的词误认为别名实体。别名实体识别是实体关系和属性提取的重要预处理步骤,通过准确地识别别名实体,可以提高后续任务中实体关系和属性提取的准确性。别名实体识别可以帮助理解文本中实体的指代和关联关系,通过将第一待识别文本词与第一命名实体的上下文词进行语义匹配,可以更好地理解它们之间的关系,从而提高对实体指代和关联的理解。
通过分类器来判断第一待识别文本词是否为第一命名实体的别名实体,可以提高别名实体识别的准确性,并增强实体关系和属性提取的准确性,以及实体指代和关联的理解。
这样,实现对所述文本数据的别名实体快速识别。
进一步地,在本申请中,所述面向文本数据的别名实体快速识别方法,还包括训练步骤:对所述基于BERT的命名实体识别模型、所述词嵌入层的上下文编码器和所述分类器进行训练。所述训练步骤,包括:获取训练待识别文本数据;对所述待识别文本数据进行命名实体识别以得到训练第一命名实体以及所述训练第一命名实体的上下文词语义特征表示;对所述训练待识别文本数据进行分词处理以得到训练待识别文本词的序列;将所述训练待识别文本词的序列通过所述包含词嵌入层的上下文编码器以得到待识别文本词语义特征向量的序列;从所述训练待识别文本词语义特征向量的序列提取训练第一待识别文本词语义特征向量;计算所述训练待识别文本词语义特征向量第一待识别文本词语义特征向量与所述训练第一命名实体的上下文词语义特征表达之间的转移矩阵;将所述转移矩阵通过分类器以得到分类损失函数值;计算所述转移矩阵的流形凸分解一致性因数;以及,以所述流形凸分解一致性因数和所述分类损失函数值的加权和作为损失函数值对所述基于BERT的命名实体识别模型、所述词嵌入层的上下文编码器和所述分类器进行训练。
这里,在计算所述第一待识别文本词语义特征向量与所述第一命名实体的上下文词语义特征表达之间的转移矩阵时,考虑到以转移矩阵的每个行向量与转移源特征向量的内积得到转移目的特征向量的每个特征值,因此,为了提升所述转移矩阵对于待识别文本词语义特征与命名实体的上下文语义特征之间的域转移特征的整体表达效果,期望所述转移矩阵在高维特征空间内的流形表达在与行和列对应的不同关联维度上保持一致。
因此,本申请的申请人针对所述转移矩阵引入特征矩阵的流形凸分解一致性因数作为损失函数,具体表示为:以如下优化公式对所述转移矩阵引入特征矩阵的流形凸分解一致性因数作为损失函数;其中,所述优化公式为:
其中,和/>分别是所述转移矩阵对应行向量的均值向量和列向量的均值向量,表示向量的一范数,/>表示矩阵的Frobenius范数,/>和/>是所述转移矩阵的宽度和高度,且/>、/>和/>是权重超参数,/>是所述转移矩阵的第/>位置的特征,/>表示/>函数,/>表示损失函数值。
也就是,考虑到所述转移矩阵的行和列维度分别表达所述转移源特征向量向转移目的特征向量的特征值粒度和整体向量粒度的特征域转移,所述流形凸分解一致性因数针对所述转移矩阵/>在行和列所代表的子维度上的分布差异性,通过所述转移矩阵/>所表示的特征流形的几何凸分解,来对不同维度上的流形的有限凸多面体的集合进行平展化,并以子维度关联的形状权重的形式来约束几何凸分解,从而促进所述转移矩阵/>的特征流形在行和列所代表的可分解维度上的凸几何表示的一致性,以使得所述转移矩阵在高维特征空间内的流形表达在与行和列对应的不同关联维度上保持一致,从而提升所述转移矩阵的整体表达效果。
综上,基于本申请实施例的面向文本数据的别名实体快速识别方法100被阐明,首先对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示。然后,基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。具体地,基于所述第一命名实体的上下文词语义特征表示与待识别文本词语义特征向量之间的语义匹配来进行别名实体识别。
在本申请的一个实施例中,图4为根据本申请实施例的面向文本数据的别名实体快速识别系统的框图。如图4所示,根据本申请实施例的面向文本数据的别名实体快速识别系统200,包括:数据获取模块210,用于获取待识别文本数据;实体识别模块220,用于对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示;识别结果生成模块230,用于基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。
这里,本领域技术人员可以理解,上述面向文本数据的别名实体快速识别系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的面向文本数据的别名实体快速识别方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的面向文本数据的别名实体快速识别系统200可以实现在各种终端设备中,例如用于面向文本数据的别名实体快速识别的服务器等。在一个示例中,根据本申请实施例的面向文本数据的别名实体快速识别系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该面向文本数据的别名实体快速识别系统200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该面向文本数据的别名实体快速识别系统200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该面向文本数据的别名实体快速识别系统200与该终端设备也可以是分立的设备,并且面向文本数据的别名实体快速识别系统200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图5为根据本申请实施例的面向文本数据的别名实体快速识别方法的场景示意图。如图5所示,在该应用场景中,首先,获取待识别文本数据(例如,如图5中所示意的C);然后,将获取的待识别文本数据输入至部署有面向文本数据的别名实体快速识别算法的服务器(例如,如图5中所示意的S)中,其中所述服务器能够基于面向文本数据的别名实体快速识别算法对所述待识别文本数据进行处理,以对所述待识别文本数据进行别名实体识别以得到识别结果。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种面向文本数据的别名实体快速识别方法,其特征在于,包括:
获取待识别文本数据;
对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示;
基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。
2.根据权利要求1所述的面向文本数据的别名实体快速识别方法,其特征在于,对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示,包括:
将所述待识别文本数据输入基于BERT的命名实体识别模型以得到所述第一命名实体以及所述第一命名实体的上下文词语义特征表示。
3.根据权利要求2所述的面向文本数据的别名实体快速识别方法,其特征在于,基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果,包括:
对所述待识别文本数据进行分词处理以得到待识别文本词的序列;
将所述待识别文本词的序列通过包含词嵌入层的上下文编码器以得到待识别文本词语义特征向量的序列;
从所述待识别文本词语义特征向量的序列提取第一待识别文本词语义特征向量;以及对所述第一待识别文本词语义特征向量和所述第一命名实体的上下文词语义特征表示进行语义匹配分析以得到所述识别结果。
4.根据权利要求3所述的面向文本数据的别名实体快速识别方法,其特征在于,将所述待识别文本词的序列通过包含词嵌入层的上下文编码器以得到待识别文本词语义特征向量的序列,包括:
对所述待识别文本词的序列进行上下文处理以将所述待识别文本词的序列转化为由多个词组成的词序列;
使用所述包含词嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得所述待识别文本词语义特征向量的序列。
5.根据权利要求4所述的面向文本数据的别名实体快速识别方法,其特征在于,对所述第一待识别文本词语义特征向量和所述第一命名实体的上下文词语义特征表示进行语义匹配分析以得到所述识别结果,包括:
计算所述第一待识别文本词语义特征向量与所述第一命名实体的上下文词语义特征表达之间的转移矩阵;以及将所述转移矩阵通过分类器以得到分类结果作为所述识别结果,所述分类结果用于表示第一待识别文本词语义特征向量对应的词是否为所述第一命名实体的别名实体。
6.根据权利要求5所述的面向文本数据的别名实体快速识别方法,其特征在于,所述包含词嵌入层的上下文编码器为包含word2vec模型的Bert模型。
7.根据权利要求6所述的面向文本数据的别名实体快速识别方法,其特征在于,还包括训练步骤:对所述基于BERT的命名实体识别模型、所述词嵌入层的上下文编码器和所述分类器进行训练。
8.根据权利要求7所述的面向文本数据的别名实体快速识别方法,其特征在于,所述训练步骤,包括:
获取训练待识别文本数据;
对所述待识别文本数据进行命名实体识别以得到训练第一命名实体以及所述训练第一命名实体的上下文词语义特征表示;
对所述训练待识别文本数据进行分词处理以得到训练待识别文本词的序列;
将所述训练待识别文本词的序列通过所述包含词嵌入层的上下文编码器以得到待识别文本词语义特征向量的序列;
从所述训练待识别文本词语义特征向量的序列提取训练第一待识别文本词语义特征向量;
计算所述训练待识别文本词语义特征向量第一待识别文本词语义特征向量与所述训练第一命名实体的上下文词语义特征表达之间的转移矩阵;
将所述转移矩阵通过分类器以得到分类损失函数值;
计算所述转移矩阵的流形凸分解一致性因数;以及以所述流形凸分解一致性因数和所述分类损失函数值的加权和作为损失函数值对所述基于BERT的命名实体识别模型、所述词嵌入层的上下文编码器和所述分类器进行训练。
9.根据权利要求8所述的面向文本数据的别名实体快速识别方法,其特征在于,计算所述转移矩阵的流形凸分解一致性因数,包括:以如下优化公式对所述转移矩阵引入特征矩阵的流形凸分解一致性因数作为损失函数;
其中,所述优化公式为:
其中,和/>分别是所述转移矩阵对应行向量的均值向量和列向量的均值向量,/>表示向量的一范数,/>表示矩阵的Frobenius范数,/>和/>是所述转移矩阵的宽度和高度,且/>、/>和/>是权重超参数,/>是所述转移矩阵的第/>位置的特征,/>表示/>函数,/>表示损失函数值。
10.一种面向文本数据的别名实体快速识别系统,其特征在于,包括:
数据获取模块,用于获取待识别文本数据;
实体识别模块,用于对所述待识别文本数据进行命名实体识别以得到第一命名实体以及所述第一命名实体的上下文词语义特征表示;
识别结果生成模块,用于基于所述第一命名实体的上下文词语义特征表示,对所述待识别文本数据进行别名实体识别以得到识别结果。
CN202310983821.0A 2023-08-07 2023-08-07 一种面向文本数据的别名实体快速识别方法及系统 Active CN116720520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310983821.0A CN116720520B (zh) 2023-08-07 2023-08-07 一种面向文本数据的别名实体快速识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310983821.0A CN116720520B (zh) 2023-08-07 2023-08-07 一种面向文本数据的别名实体快速识别方法及系统

Publications (2)

Publication Number Publication Date
CN116720520A true CN116720520A (zh) 2023-09-08
CN116720520B CN116720520B (zh) 2023-11-03

Family

ID=87871938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310983821.0A Active CN116720520B (zh) 2023-08-07 2023-08-07 一种面向文本数据的别名实体快速识别方法及系统

Country Status (1)

Country Link
CN (1) CN116720520B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312578A (zh) * 2023-11-28 2023-12-29 烟台云朵软件有限公司 一种非遗传承图谱的构建方法与系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753653A (zh) * 2018-12-25 2019-05-14 金蝶软件(中国)有限公司 实体名称识别方法、装置、计算机设备和存储介质
CN110472248A (zh) * 2019-08-22 2019-11-19 广东工业大学 一种中文文本命名实体的识别方法
CN112257449A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
CN113051900A (zh) * 2021-04-30 2021-06-29 中国平安人寿保险股份有限公司 同义词识别方法、装置、计算机设备及存储介质
CN113065349A (zh) * 2021-03-15 2021-07-02 国网河北省电力有限公司 基于条件随机场的命名实体识别方法
CN114372466A (zh) * 2021-12-27 2022-04-19 军事科学院系统工程研究院系统总体研究所 别名实体识别方法、装置、计算机设备、介质及程序产品
US20230030086A1 (en) * 2021-07-28 2023-02-02 OntogenAI, Inc. System and method for generating ontologies and retrieving information using the same
CN116055472A (zh) * 2023-02-07 2023-05-02 烟台云朵软件有限公司 一种多终端统一服务接入系统与方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753653A (zh) * 2018-12-25 2019-05-14 金蝶软件(中国)有限公司 实体名称识别方法、装置、计算机设备和存储介质
CN110472248A (zh) * 2019-08-22 2019-11-19 广东工业大学 一种中文文本命名实体的识别方法
CN112257449A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
CN113065349A (zh) * 2021-03-15 2021-07-02 国网河北省电力有限公司 基于条件随机场的命名实体识别方法
CN113051900A (zh) * 2021-04-30 2021-06-29 中国平安人寿保险股份有限公司 同义词识别方法、装置、计算机设备及存储介质
US20230030086A1 (en) * 2021-07-28 2023-02-02 OntogenAI, Inc. System and method for generating ontologies and retrieving information using the same
CN114372466A (zh) * 2021-12-27 2022-04-19 军事科学院系统工程研究院系统总体研究所 别名实体识别方法、装置、计算机设备、介质及程序产品
CN116055472A (zh) * 2023-02-07 2023-05-02 烟台云朵软件有限公司 一种多终端统一服务接入系统与方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIANYUE CHEN,等: "RoBERT-Agr: An Entity Relationship Extraction Model of Massive Agricultural Text Based on the RoBERTa and CRF Algorithm", 《2023 IEEE 8TH INTERNATIONAL CONFERENCE ON BIG DATA ANALYTICS (ICBDA)》, pages 113 - 120 *
范涛,等: "基于深度迁移学习的地方志多模态命名实体识别研究", 《情报学报》, vol. 41, no. 4, pages 412 - 423 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312578A (zh) * 2023-11-28 2023-12-29 烟台云朵软件有限公司 一种非遗传承图谱的构建方法与系统
CN117312578B (zh) * 2023-11-28 2024-02-23 烟台云朵软件有限公司 一种非遗传承图谱的构建方法与系统

Also Published As

Publication number Publication date
CN116720520B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN110232192A (zh) 电力术语命名实体识别方法及装置
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN111639171A (zh) 一种知识图谱问答方法及装置
CN111931506A (zh) 一种基于图信息增强的实体关系抽取方法
CN109960728A (zh) 一种开放域会议信息命名实体识别方法及系统
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN116720520B (zh) 一种面向文本数据的别名实体快速识别方法及系统
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN112860898B (zh) 一种短文本框聚类方法、系统、设备及存储介质
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN116127090A (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置
CN112307756A (zh) 基于Bi-LSTM和字词融合的汉语分词方法
CN116186067A (zh) 一种工业数据表存储查询方法及设备
CN113868389B (zh) 基于自然语言文本的数据查询方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Huang Xin

Inventor after: Dai Pengfei

Inventor after: Zhou Chunjie

Inventor after: Zhang Zhen

Inventor after: Wang Qingwei

Inventor before: Dai Pengfei

Inventor before: Zhou Chunjie

Inventor before: Zhang Zhen

Inventor before: Wang Qingwei

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231121

Address after: 264000 Maker Space, Floor 1, Building 4, No. 1, Lanhai Road, High tech Zone, Yantai, Shandong

Patentee after: Yantai cloud Software Co.,Ltd.

Patentee after: Hulunbuir Cultural and Tourism Development Center

Address before: 264000 Maker Space, Floor 1, Building 4, No. 1, Lanhai Road, High tech Zone, Yantai, Shandong

Patentee before: Yantai cloud Software Co.,Ltd.