CN112989829B - 一种命名实体识别方法、装置、设备及存储介质 - Google Patents

一种命名实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112989829B
CN112989829B CN202110185023.4A CN202110185023A CN112989829B CN 112989829 B CN112989829 B CN 112989829B CN 202110185023 A CN202110185023 A CN 202110185023A CN 112989829 B CN112989829 B CN 112989829B
Authority
CN
China
Prior art keywords
vector
word
standard
coding
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110185023.4A
Other languages
English (en)
Other versions
CN112989829A (zh
Inventor
陈录城
王忠诚
盛国军
党政明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kaos Digital Technology Qingdao Co ltd
Karos Iot Technology Co ltd
Kaos Digital Technology Shanghai Co ltd
Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Original Assignee
Kaos Digital Technology Qingdao Co ltd
Karos Iot Technology Co ltd
Kaos Digital Technology Shanghai Co ltd
Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaos Digital Technology Qingdao Co ltd, Karos Iot Technology Co ltd, Kaos Digital Technology Shanghai Co ltd, Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd filed Critical Kaos Digital Technology Qingdao Co ltd
Priority to CN202110185023.4A priority Critical patent/CN112989829B/zh
Publication of CN112989829A publication Critical patent/CN112989829A/zh
Application granted granted Critical
Publication of CN112989829B publication Critical patent/CN112989829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种命名实体识别方法、装置、设备及存储介质,该方法包括:获取待识别的工业文本数据,对工业文本数据进行分词处理,得到原始字段集,并计算原始字段集中各原始字段的词向量;将各词向量输入至预设的编码模型中,计算与各词向量对应的编码向量;将各编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出工业文本数据中包括的目标实体。本发明实施例的技术方案可以实现对工业场景下的文本数据进行命名实体识别。

Description

一种命名实体识别方法、装置、设备及存储介质
技术领域
本发明实施例涉及深度学习领域,尤其涉及一种命名实体识别方法、装置、设备及存储介质。
背景技术
自然语言处理作为计算机领域与人工智能领域的一个交叉方向,随着人工智能领域的快速发展而不断发展,命名实体识别(Named Entity Recognition,NER)是自然语言处理的一个基本任务,它的目的是识别出文本中有特定意义的实体并对它们分类,这些实体的类型主要包括了人名、机构名、地点以及其他一些专有名词。伴随着互联网中海量大数据的产生,命名实体识别任务已经被广泛运用在机器翻译、智能问答、信息检索等其它自然语言处理任务中。
现有的命名实体识别技术通常只能识别粗粒度的实体信息,例如人名、时间、机构名以及地方名等实体信息,却很难对工业场景下的文本进行识别,即现有的命名实体识别技术无法在工业文档中识别出具体产品领域的技术参数、比例数值、以及产品介绍等实体信息。
发明内容
本发明实施例提供一种命名实体识别方法、装置、设备及存储介质,可以实现对工业场景下的文本数据进行命名实体识别。
本发明实施例提供了一种命名实体识别方法,所述方法包括:
获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量;
将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量;
将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体。
第二方面,本发明实施例还提供了一种命名实体识别装置,该装置包括:
分词模块,用于获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量;
编码向量计算模块,用于将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量;
目标实体识别模块,用于将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体。
第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的一种命名实体识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的一种命名实体识别方法。
本发明实施例的技术方案通过获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量,然后将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量,最后将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体的技术手段,可以实现对工业场景下的文本数据进行命名实体识别。
附图说明
图1是本发明实施例一中的一种命名实体识别方法的流程图;
图2是本发明实施例一中的一种命名实体识别方法的流程图;
图3是本发明实施例二中的一种命名实体识别方法的流程图;
图4是本发明实施例三中的一种命名实体识别装置的结构图;
图5是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种命名实体识别方法的流程图,本实施例可适用于对工业场景下的文本数据进行命名实体识别的情形,该方法可以由命名实体识别装置来执行,该装置可以由软件和/或硬件来实现,并一般可以集成在具有数据处理功能的计算机设备中,例如,终端设备或者服务器中,具体包括如下步骤:
步骤110、获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量。
在本实施例中,所述工业文本数据可以为工业领域中各产品的说明文档、产品使用手册,以及工业产品问答系统中,用户针对各产品发表的留言以及评论等。所述工业文本数据中可以包括各产品的型号以及产品参数等。
在获取到待识别的工业文本数据后,可以利用预设的分词工具以及预设的分词规则(例如bigram分词规则),对工业文本数据进行分词处理。在一个具体的实施例中,假设利用分词工具对工业文本数据分成原始字段A、原始字段B以及原始字段C等,则原始字段A、原始字段B与原始字段C等一起构成了原始字段集。在得到原始字段集后,可以利用预设的词向量计算模型计算各原始字段的词向量。
在一个具体的实施例中,可以将原始字段集输入预设的词向量计算模型(例如连续词袋模型CBOW)中,得到各原始字段的词向量。
步骤120、将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量。
在本实施例中,词向量是字段的一种表示,计算各原始字段的词向量的目的是为了让计算机能够处理与计算。但是,由于目前的计算机只能处理数值,无法理解英文与汉字等,针对这种情况,本实施例提供了一种为各词向量进行编码的方式,以使生成的各编码向量可以反映出各原始字段中的特征信息。
在此步骤中,可以将各所述词向量输入至预设的编码模型(典型的,例如Word2vec)中,利用编码模型计算与各词向量对应的编码向量(也即与各原始字段对应的编码向量)。
步骤130、将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体。
在本实施例中,在获取待识别的工业文本数据之前,预先获取到了工业领域中各产品的标准文本,然后利用上述方法计算得到与各标准文本对应的标准编码向量,并将各标准文本以及对应的标准编码向量存储在词典中。
其中,所述标准文本中包括了各产品涉及的关键业务的核心词汇。具体的,假设所述产品为空调,对应的标准文本中则可以包括空调具体的型号、参数(例如匹数、变频以及定频等)以及空调使用过程中的核心部件(例如电机)等。
在计算得到各原始字段对应的编码向量之后,可以计算各编码向量,与各标准编码向量之间的差异值,然后选取差异值较小时对应的编码向量为目标编码向量,并将目标编码向量对应的原始字段作为目标实体。
在一个具体的实施例中,假设待识别的工业文本数据经过分词处理后,得到的原始字段分别为“空调”、“型号XX”、“白色”以及“电机”,在计算得到各原始字段对应的编码向量之后,将各编码向量,与各标准编码向量进行对比,可以识别出所述工业文本数据中包括的目标实体为“空调”、“型号XX”以及“电机”。
由此,通过将工业文本数据对应的各编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,可以实现对工业场景下的文本进行命名实体识别,可以在工业文本数据中识别出细粒度的实体信息,例如具体产品领域的技术参数、比例数值、以及产品介绍等实体信息,为工业产品技术研究、数据资料查询以及产品技术改进等方面提供建议和参考价值。
本发明实施例的技术方案通过获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量,然后将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量,最后将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体的技术手段,可以实现对工业场景下的文本数据进行命名实体识别。
实施例二
本实施例是对上述实施例一的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。图2为本发明实施例二提供的一种命名实体识别方法的流程图,在本实施例中,本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合,在本实施例中,如图2所示,本发明实施例提供的方法还可以包括:
步骤210、获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量。
在本发明实施例的一个实施方式中,计算所述原始字段集中各原始字段的词向量,包括:获取所述原始字段集中的一个原始字段;在预设的语义向量库中,获取与所述原始字段对应的标准分词的词向量;返回执行获取所述原始字段集中的一个原始字段的操作,直至完成对所述原始字段集中全部原始字段的处理;其中,所述语义向量库中存储有多个标准分词,以及与各标准分词对应的词向量。
其中,语义向量库为预先建立的用于存储预设词汇字段(即标准分词)以及与标准分词匹配的词向量的向量查询库。本实施例以海量工业文本为训练依据,将使用频率较高的词汇作为标准分词,并且利用词向量技术确定与标准分词对应的词向量,其中,所述标准分词、词向量以及标准分词与词向量之间的映射关系均存储于所述语义向量库中。
在一个具体的实施例中,将获取的原始字段A在所述语义向量库中进行查询,确定与原始字段对应的标准分词,然后通过标准分词与词向量之间的映射关系确定与所述原始字段对应的词向量。具体的,假设原始字段集包括原始字段A、原始字段B和原始字段C,通过上述步骤已经确定出原始字段A对应的词向量a,然后以同样的方式确定剩余原始字段B和C对应的词向量b和c。
由此,通过预先建立语义向量库,可以快速计算出原始字段集中各原始字段的词向量,进而提高对工业文本数据进行实体识别的效率。
步骤220、将各所述词向量输入至编码模型BERT中,得到与各所述词向量对应的编码向量。
在本实施例中,所述BERT模型使用各预设类型的工业文本字段所对应的词向量作为训练样本训练得到。具体的,各预设类型的工业文本字段可以包括工业领域中各产品对应的型号字段、参数字段以及产品使用过程中,用于表示核心部件的字段等。
由此,通过将各词向量输入至编码模型BERT中,可以实现编码向量计算过程的自动化,提高对工业文本数据进行实体识别的效率。
在本实施例中,在将各所述词向量输入至编码模型BERT之前,还包括:获取多个标准词向量集合,所述标准词向量集合中包括多个预设类型的工业文本字段所对应的词向量;将所述多个标准词向量集合划分为训练数据集和测试数据集;使用所述训练数据集和测试数据集对神经网络模型进行迭代训练。
在此步骤中,可选的,可以将第一数量的标准词向量集合作为训练数据集,将第二数量的标准词向量集合作为测试数据集。典型的,第一数量大于第二数量。
其中,所述训练数据集用于输入至预先构建的神经网络模型,并根据输出结果调整神经网络模型的参数,从而完成对神经网络模型的训练;所述测试数据集用于测试训练后的神经网络模型的处理结果的准确率,根据所述准确率确定所述训练后的神经网络模型是否可以作为BERT模型。
步骤230、将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体。
本发明实施例的技术方案通过获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量,然后将各所述词向量输入至编码模型BERT中,得到与各所述词向量对应的编码向量,最后将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体的技术手段,可以实现编码向量计算过程的自动化,提高对工业文本数据进行实体识别的效率。
实施例三
本实施例是对上述实施例二的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。图3为本发明实施例三提供的一种命名实体识别方法的流程图,在本实施例中,本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合,在本实施例中,如图3所示,本发明实施例提供的方法还可以包括:
步骤310、获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量。
步骤320、将各所述词向量输入至编码模型BERT中,得到与各所述词向量对应的编码向量。
步骤330、将各所述编码向量输入至长短期记忆模型LSTM中,利用LSTM模型根据各编码向量与各标准编码向量的对比结果,计算与各编码向量对应的权重值。
在本实施例中,所述LSTM模型使用各预设类型的工业文本字段所对应的编码向量作为训练样本训练得到。具体的,各预设类型的工业文本字段可以包括工业领域中各产品对应的型号字段、参数字段以及产品使用过程中,用于表示核心部件的字段等。
在此步骤中,将各所述编码向量输入至LSTM模型后,可以利用LSTM模型计算各编码向量,与各标准编码向量之间的差异值,然后根据计算得到的与各编码向量对应的差异值,为各编码向量分配对应的权重值。其中,差异值较小时对应的编码向量所分配的权重值较大。
在本实施例中,在将各编码向量输入至LSTM模型之前,还包括:获取多个标准编码向量集合,所述标准编码向量集合中包括多个预设类型的工业文本字段所对应的编码向量;将所述多个标准编码向量集合划分为训练数据集和测试数据集;使用所述训练数据集和测试数据集对神经网络模型进行迭代训练。
在此步骤中,可选的,可以将第一数量的标准编码向量集合作为训练数据集,将第二数量的标准编码向量集合作为测试数据集。典型的,第一数量大于第二数量。
其中,所述训练数据集用于输入至预先构建的神经网络模型,并根据输出结果调整神经网络模型的参数,从而完成对神经网络模型的训练;所述测试数据集用于测试训练后的神经网络模型的处理结果的准确率,根据所述准确率确定所述训练后的神经网络模型是否可以作为LSTM模型。
步骤340、利用所述LSTM模型,根据各所述编码向量对应的权重值,在所述工业文本数据中识别目标实体。
在本发明实施例的一个实施方式中,根据各所述编码向量对应的权重值,在所述工业文本数据中识别目标实体,包括:对各所述编码向量对应的权重值进行加权求和,得到与所述工业文本数据对应的目标分值;将所述目标分值与词典中预存的各标准文本对应的分值进行对比;根据对比结果,在各标准文本中确定目标标准文本为所述目标实体。
其中,可以根据预设的加权比例,对各编码向量对应的权重值进行加权求和,具体的,编码向量对应的权重值越大,加权比重越高。在计算得到与工业文本数据对应的目标分值之后,可以计算目标分值与各标准文本对应的分值之间的差异值,然后选取差异值最小时对应的标准文本为目标标准文本,并将该目标标准文本确定为工业文本数据中包括的目标实体。
在一个具体的实施例中,假设所述工业文本数据为产品问答系统中,用户针对某产品发表的留言,例如“型号为XX的空调电机发热怎么办”,对该工业文本数据进行分词处理后,得到原始字段分别为“型号为XX”、“空调”、“电机”、“发热”以及“怎么办”,计算出各原始字段对应的编码向量后,将各编码向量输入至LSTM模型中,可以得到与所述工业文本数据对应的目标分值,然后计算目标分值与各标准文本对应的分值之间的差异值,选取差异值最小时对应的标准文本(也即目标标准文本)可以为“型号XX的空调电机发热应该怎么处理”,最后将该标准文本确定为工业文本数据中包括的目标实体,并将与该标准文本对应的回答内容反馈给所述用户。
在本实施例中,通过对产品问答系统中的工业文本数据进行命名实体识别,可以快速了解用户想要咨询的产品信息,并将合适的回答内容反馈给用户,由此可以提高用户的体验感。
在本实施例中,在对各编码向量对应的权重值进行加权求和之前,还包括:根据各所述编码向量对应的权重值,对各所述编码向量按照权重值由大到小的顺序进行排列;根据排列结果,在全部编码向量中剔除无效编码向量。
其中,可以根据排列结果,在全部编码向量中将排序靠后的编码向量作为无效编码向量,将除无效编码向量以外的剩余编码向量作为有效编码向量,并剔除该无效编码向量。这样设置的好处在于:可以避免对无效编码向量进行处理,由此可以节省后续对各编码向量的处理时间,提高处理效率。
在本实施例中,在全部编码向量中剔除无效编码向量之后,为了避免有效编码向量发生遗漏,还可以利用条件随机场算法(Conditional Random Field,CRF)重新计算各无效编码向量和有效编码向量对应的权重值,并将各无效编码向量和有效编码向量按照权重值由大到小的顺序进行排列,根据排列结果将排序靠后的编码向量作为无效编码向量。
本发明实施例的技术方案通过获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量,然后将各所述词向量输入至编码模型BERT中,得到与各所述词向量对应的编码向量,并将各所述编码向量输入至长短期记忆模型LSTM中,利用LSTM模型根据各编码向量与各标准编码向量的对比结果,计算与各编码向量对应的权重值,最后利用所述LSTM模型,根据各所述编码向量对应的权重值,在所述工业文本数据中识别目标实体的技术手段,可以实现对工业场景下的文本数据进行命名实体识别,减少对工业文本数据识别过程的耗时,提高实体识别结果的准确性。
实施例四
图4为本发明实施例四提供的一种命名实体识别装置的结构图,该装置包括:分词模块410、编码向量计算模块420和目标实体识别模块430。
其中,分词模块410,用于获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量;编码向量计算模块420,用于将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量;目标实体识别模块430,用于将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体。
本发明实施例的技术方案通过获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量,然后将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量,最后将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体的技术手段,可以实现对工业场景下的文本数据进行命名实体识别。
在上述各实施例的基础上,分词模块410,可以包括:
原始字段获取单元,用于获取所述原始字段集中的一个原始字段;
词向量获取单元,用于在预设的语义向量库中,获取与所述原始字段对应的标准分词的词向量;
全部字段处理单元,用于返回执行获取所述原始字段集中的一个原始字段的操作,直至完成对所述原始字段集中全部原始字段的处理;
其中,所述语义向量库中存储有多个标准分词,以及与各标准分词对应的词向量。
编码向量计算模块420,可以包括:
词向量输入单元,用于将各所述词向量输入至编码模型BERT中,得到与各所述词向量对应的编码向量;其中,所述BERT模型使用各预设类型的工业文本字段所对应的词向量作为训练样本训练得到;
标准词向量集合获取单元,用于获取多个标准词向量集合,所述标准词向量集合中包括多个预设类型的工业文本字段所对应的词向量;
标准词向量集合划分单元,用于将所述多个标准词向量集合划分为训练数据集和测试数据集;
训练单元,用于使用所述训练数据集和测试数据集对神经网络模型进行迭代训练。
目标实体识别模块430,可以包括:
编码向量输入单元,用于将各所述编码向量输入至长短期记忆模型LSTM中,利用LSTM模型根据各编码向量与各标准编码向量的对比结果,计算与各编码向量对应的权重值;
实体识别单元,用于利用所述LSTM模型,根据各所述编码向量对应的权重值,在所述工业文本数据中识别目标实体;
其中,所述LSTM模型使用各预设类型的工业文本字段所对应的编码向量作为训练样本训练得到;
目标分值计算单元,用于对各所述编码向量对应的权重值进行加权求和,得到与所述工业文本数据对应的目标分值;
分值对比单元,用于将所述目标分值与词典中预存的各标准文本对应的分值进行对比;
目标实体确定单元,用于根据对比结果,在各标准文本中确定目标标准文本为所述目标实体;
编码向量排列单元,用于根据各所述编码向量对应的权重值,对各所述编码向量按照权重值由大到小的顺序进行排列;
无效向量剔除单元,用于根据排列结果,在全部编码向量中剔除无效编码向量。
本发明实施例所提供的命名实体识别装置可执行本发明任意实施例所提供的命名实体识别方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510、存储器520、输入装置530和输出装置540;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例中的一种命名实体识别方法对应的程序指令/模块(例如,一种命名实体识别装置中的分词模块410、编码向量计算模块420和目标实体识别模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的一种命名实体识别方法。也即,该程序被处理器执行时实现:
获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量;
将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量;
将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。输入装置530可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,可以包括键盘和鼠标等。输出装置540可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述方法。当然,本发明实施例所提供的一种计算机可读存储介质,其可以执行本发明任意实施例所提供的一种命名实体识别方法中的相关操作。也即,该程序被处理器执行时实现:
获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量;
将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量;
将各所述编码向量,与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种命名实体识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种命名实体识别方法,其特征在于,包括:
获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量;
将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量;
将各所述编码向量与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体;
将各所述编码向量与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体,包括:
将各所述编码向量输入至LSTM模型,基于LSTM模型计算各所述编码向量与对应的标准编码向量之间的差异值,根据各所述编码向量与对应的标准编码向量之间的差异值为各所述编码向量分配对应的权重值,其中,所述差异值越小,对应的编码向量所分配的权重值越大;
利用所述LSTM模型,根据各所述编码向量对应的权重值,在所述工业文本数据中识别目标实体;
根据各所述编码向量对应的权重值,在所述工业文本数据中识别目标实体,包括:
对各所述编码向量对应的权重值进行加权求和,得到与所述工业文本数据对应的目标分值;
将所述目标分值与词典中预存的各标准文本对应的分值进行对比;
根据对比结果,在各标准文本中确定目标标准文本为所述目标实体。
2.根据权利要求1所述的方法,其特征在于,将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量,包括:
将各所述词向量输入至编码模型BERT中,得到与各所述词向量对应的编码向量;
其中,所述BERT模型使用各预设类型的工业文本字段所对应的词向量作为训练样本训练得到。
3.根据权利要求1所述的方法,其特征在于,所述LSTM模型使用各预设类型的工业文本字段所对应的编码向量作为训练样本训练得到。
4.根据权利要求1所述的方法,其特征在于,在对各所述编码向量对应的权重值进行加权求和之前,还包括:
根据各所述编码向量对应的权重值,对各所述编码向量按照权重值由大到小的顺序进行排列;
根据排列结果,在全部编码向量中剔除无效编码向量。
5.根据权利要求1所述的方法,其特征在于,计算所述原始字段集中各原始字段的词向量,包括:
获取所述原始字段集中的一个原始字段;
在预设的语义向量库中,获取与所述原始字段对应的标准分词的词向量;
返回执行获取所述原始字段集中的一个原始字段的操作,直至完成对所述原始字段集中全部原始字段的处理;
其中,所述语义向量库中存储有多个标准分词,以及与各标准分词对应的词向量。
6.根据权利要求2所述的方法,其特征在于,在将各所述词向量输入至编码模型BERT之前,还包括:
获取多个标准词向量集合,所述标准词向量集合中包括多个预设类型的工业文本字段所对应的词向量;
将所述多个标准词向量集合划分为训练数据集和测试数据集;
使用所述训练数据集和测试数据集对神经网络模型进行迭代训练。
7.一种命名实体识别装置,其特征在于,包括:
分词模块,用于获取待识别的工业文本数据,对所述工业文本数据进行分词处理,得到原始字段集,并计算所述原始字段集中各原始字段的词向量;
编码向量计算模块,用于将各所述词向量输入至预设的编码模型中,计算与各所述词向量对应的编码向量;
目标实体识别模块,用于将各所述编码向量与词典中预存的各标准文本对应的标准编码向量进行对比,根据对比结果识别出所述工业文本数据中包括的目标实体;
编码向量输入单元,用于将各所述编码向量输入至LSTM模型,基于LSTM模型计算各所述编码向量与对应的标准编码向量之间的差异值,根据各所述编码向量与对应的标准编码向量之间的差异值为各所述编码向量分配对应的权重值,其中,所述差异值越小,对应的编码向量所分配的权重值越大
实体识别单元,用于利用所述LSTM模型,根据各所述编码向量对应的权重值,在所述工业文本数据中识别目标实体;
目标分值计算单元,用于对各所述编码向量对应的权重值进行加权求和,得到与所述工业文本数据对应的目标分值;
分值对比单元,用于将所述目标分值与词典中预存的各标准文本对应的分值进行对比;
目标实体确定单元,用于根据对比结果,在各标准文本中确定目标标准文本为所述目标实体。
8.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的命名实体识别方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的命名实体识别方法。
CN202110185023.4A 2021-02-10 2021-02-10 一种命名实体识别方法、装置、设备及存储介质 Active CN112989829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110185023.4A CN112989829B (zh) 2021-02-10 2021-02-10 一种命名实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110185023.4A CN112989829B (zh) 2021-02-10 2021-02-10 一种命名实体识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112989829A CN112989829A (zh) 2021-06-18
CN112989829B true CN112989829B (zh) 2024-03-08

Family

ID=76393111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110185023.4A Active CN112989829B (zh) 2021-02-10 2021-02-10 一种命名实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112989829B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723480B (zh) * 2021-08-18 2024-03-05 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备和存储介质
CN114048748B (zh) * 2021-11-17 2024-04-05 上海勃池信息技术有限公司 命名实体识别系统、方法、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN110705302A (zh) * 2019-10-11 2020-01-17 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN111126068A (zh) * 2019-12-25 2020-05-08 中电云脑(天津)科技有限公司 一种中文命名实体识别方法和装置及电子设备
CN111241832A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 核心实体标注方法、装置及电子设备
CN111695354A (zh) * 2020-05-20 2020-09-22 平安科技(深圳)有限公司 基于命名实体的文本问答方法、装置及可读存储介质
CN112163149A (zh) * 2020-09-16 2021-01-01 北京明略昭辉科技有限公司 推荐消息的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN110705302A (zh) * 2019-10-11 2020-01-17 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN111126068A (zh) * 2019-12-25 2020-05-08 中电云脑(天津)科技有限公司 一种中文命名实体识别方法和装置及电子设备
CN111241832A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 核心实体标注方法、装置及电子设备
CN111695354A (zh) * 2020-05-20 2020-09-22 平安科技(深圳)有限公司 基于命名实体的文本问答方法、装置及可读存储介质
CN112163149A (zh) * 2020-09-16 2021-01-01 北京明略昭辉科技有限公司 推荐消息的方法及装置

Also Published As

Publication number Publication date
CN112989829A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN107291783B (zh) 一种语义匹配方法及智能设备
CN111027327A (zh) 机器阅读理解方法、设备、存储介质及装置
CN110737758A (zh) 用于生成模型的方法和装置
CN111310440B (zh) 文本的纠错方法、装置和系统
CN112100354A (zh) 人机对话方法、装置、设备及存储介质
CN111274267A (zh) 一种数据库查询方法、装置及计算机可读取存储介质
CN112989829B (zh) 一种命名实体识别方法、装置、设备及存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN109522397B (zh) 信息处理方法及装置
CN114676704A (zh) 句子情感分析方法、装置、设备以及存储介质
CN115310443A (zh) 模型训练方法、信息分类方法、装置、设备及存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN112860919A (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113064980A (zh) 一种智能问答方法、装置、计算机设备及存储介质
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN112464655A (zh) 中文字符和拼音相结合的词向量表示方法、装置、介质
CN115795038A (zh) 基于国产化深度学习框架的意图识别方法和装置
Yang et al. Improving word representations with document labels
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN111723583A (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN111221942A (zh) 智能化文本对话生成方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room 1201, No. 1, Lane 288, Qianfan Road, Xinqiao Town, Songjiang District, Shanghai, 201600

Applicant after: Kaos Digital Technology (Shanghai) Co.,Ltd.

Applicant after: Karos IoT Technology Co.,Ltd.

Applicant after: CAOS industrial Intelligence Research Institute (Qingdao) Co.,Ltd.

Applicant after: Kaos Digital Technology (Qingdao) Co.,Ltd.

Address before: Room 202-77, No. 668, Xinzhuan Road, Songjiang high tech park, Caohejing Development Zone, Xuhui District, Shanghai, 200233

Applicant before: HAIER DIGITAL TECHNOLOGY (SHANGHAI) Co.,Ltd.

Country or region before: China

Applicant before: Haier Kaos IOT Technology Co.,Ltd.

Applicant before: QINGDAO HAIER INDUSTRIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd.

Applicant before: Haier digital technology (Qingdao) Co.,Ltd.

Country or region after: China

Address after: Room 202-77, No. 668, Xinzhuan Road, Songjiang high tech park, Caohejing Development Zone, Xuhui District, Shanghai, 200233

Applicant after: HAIER DIGITAL TECHNOLOGY (SHANGHAI) Co.,Ltd.

Applicant after: Haier Kaos IOT Technology Co.,Ltd.

Applicant after: QINGDAO HAIER INDUSTRIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd.

Applicant after: Haier digital technology (Qingdao) Co.,Ltd.

Address before: Room 202-77, No. 668, Xinzhuan Road, Songjiang high tech park, Caohejing Development Zone, Xuhui District, Shanghai, 200233

Applicant before: HAIER DIGITAL TECHNOLOGY (SHANGHAI) Co.,Ltd.

Country or region before: China

Applicant before: Haier CAOS IOT Ecological Technology Co.,Ltd.

Applicant before: QINGDAO HAIER INDUSTRIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd.

Applicant before: Haier digital technology (Qingdao) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant