CN113761923A - 命名实体识别方法、装置、电子设备及存储介质 - Google Patents
命名实体识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113761923A CN113761923A CN202011159598.0A CN202011159598A CN113761923A CN 113761923 A CN113761923 A CN 113761923A CN 202011159598 A CN202011159598 A CN 202011159598A CN 113761923 A CN113761923 A CN 113761923A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- text
- entity
- recognized
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 299
- 238000000605 extraction Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims description 148
- 238000003062 neural network model Methods 0.000 claims description 66
- 230000015654 memory Effects 0.000 claims description 45
- 230000002457 bidirectional effect Effects 0.000 claims description 36
- 238000002372 labelling Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000007787 long-term memory Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000006403 short-term memory Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 239000003643 water by type Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例提供了一种命名实体识别方法、装置、电子设备及存储介质。该方法包括:获取待识别文本;对待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量;将目标全局特征向量和目标局部特征向量进行拼接,得到目标特征向量;以及,利用命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。
Description
技术领域
本公开实施例涉及计算机技术领域,更具体地,涉及一种命名实体识别方法、装置、电子设备及存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER)是指识别自然语言文本中具有特定意义的实体,实体主要包括人名、地名、组织名、时间、金钱和日期等。命名实体识别是信息抽取、信息检索和机器翻译等多种自然语言处理(Natural Language Processing,NLP)技术必不可少的组成部分。
在自然语言处理中,由于命名实体识别通常是自然语言理解的第一步,其识别结果会被用于多种后续的NLP任务,因此,命名实体识别的准确率高低至关重要。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:采用相关技术进行命名实体识别的准确率不高。
发明内容
有鉴于此,本公开实施例提供了一种命名实体识别方法、装置、电子设备及存储介质。
本公开实施例的一个方面提供了一种命名实体识别方法,该方法包括:获取待识别文本;对上述待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量;将上述目标全局特征向量和上述目标局部特征向量进行拼接,得到目标特征向量;以及,利用命名实体识别模型处理上述目标特征向量,得到用于表征上述待识别文本的实体类别识别结果。
本公开实施例的另一个方面提供了一种命名实体识别装置,该装置包括:获取模块,用于获取待识别文本;提取模块,用于对上述待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量;拼接模块,用于将上述目标全局特征向量和上述目标局部特征向量进行拼接,得到目标特征向量;以及,处理模块,用于利用命名实体识别模型处理上述目标特征向量,得到用于表征上述待识别文本的实体类别识别结果。
本公开实施例的另一个方面提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
本公开实施例的另一个方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的方法。
本公开实施例的另一个方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,通过获取待识别文本,对待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量,将目标全局特征向量和目标局部特征向量进行拼接,得到目标特征向量,并利用命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。由于目标全局特征向量和目标局部特征向量分别体现了待识别文本在全局和局部两个方面的特征,使得获取到的待识别文本的信息较为全面和丰富,因此,基于命名实体识别模型处理由目标全局特征向量和目标局部特征向量拼接后得到的目标特征向量,所得到的命名实体识别的准确率较高,因而,至少部分地克服了采用相关技术进行命名实体识别的准确率不高的技术问题。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用命名实体识别方法的示例性系统架构;
图2示意性示出了根据本公开实施例的一种命名实体识别方法的流程图;
图3示意性示出了根据本公开实施例的一种获取字符级特征向量的的示意图;
图4示意性示出了根据本公开实施例的一种单词级特征向量可视化的示意图;
图5示意性示出了根据本公开的实施例的一种命名实体识别方法的框架示意图;
图6示意性示出了根据本公开的实施例的一种命名实体识别方法的应用示意图;
图7示意性示出了根据本公开的实施例的一种命名实体识别装置的框图;以及
图8示意性示出了根据本公开实施例的适于实现命名实体识别方法的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在相关技术中,通常采用基于统计的方法进行命名实体识别。其中,基于统计的方法是将统计方法与概率知识相融合,通过对命名实体识别建立复杂的数学模型,再结合已有的标注语料训练模型,用训练好的模型实现命名实体识别。其中,采用的统计模型主要包括条件随机场(ConditionalRandom Fields,CRF)、隐马尔科夫模型(Hidden MarkovModel,HMM)、最大熵模型(Maximunm Entropy,ME)和支持向量机(Support VectorMachine,SVM)等。
在实现本公开构思的过程中,发明人发现相关技术中不能够很好地处理文本中相隔较远的词组元素。由于不能很好地处理文本中相隔较远的词组元素,因此,命名实体识别的准确率不高。
为了提高命名实体识别的准确率,发明人发现可以将文本信息分为全局信息和局部信息。其中,全局信息可以从全局获取文本的特征,该特征体现了文本的细节特征。局部信息可以从局部获取文本的特征,该特征体现文本的总体特征。总体特征体现在针对每个文本本身,对于其包括的每个词组元素具有语义关联,即每个词组元素在其所在的文本中具有对应的语义。例如,针对待识别文本“Apple was founded by Jobs.”中的“Apple”,从全局信息来说,可以确定其为苹果,但无法进一步确定是指水果中的苹果,还是手机品牌的苹果。从局部信息来说,由于结合了待识别文本本身,因此,可以确定是指手机品牌的苹果。
基于可以将文本信息分为全局信息和局部信息,发明人提出可以从全局角度和局部角度分别对待识别文本进行提取,得到对应的目标全局特征向量和目标局部特征向量,将目标全局特征向量和目标局部特征向量进行拼接得到目标特征向量。由于目标特征向量体现了待识别文本的全局特征和局部特征,因此,可以更加丰富和全面地体现待识别文本的特征。在此基础上,将目标特征向量作为输入向量,输入到命名实体识别模型,输出用于表征待识别文本的实体类别识别结果。由于作为输入向量的目标特征向量可以体现待识别文本的全面和丰富的特征,因此,可以提高命名实体识别的准确率。本公开实施例所述的命名实体识别可以应用于英文文本。下面将结合实施例进行具体说明。
本公开的实施例提供了一种命名实体识别方法、装置以及能够应用该方法的电子设备。该方法包括实体类别识别过程。在实体类别识别过程中,获取待识别文本,对待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量,将目标全局特征向量和目标局部特征向量进行拼接,得到目标特征向量,并利用命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。
图1示意性示出了根据本公开实施例的可以应用命名实体识别方法的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的命名实体识别方法一般可以由服务器105执行。相应地,本公开实施例所提供的命名实体识别装置一般可以设置于服务器105中。本公开实施例所提供的命名实体识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的命名实体识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的命名实体识别方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的命名实体识别装置也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。
例如,待识别文本可以原本存储在终端设备101、102、或103中的任意一个(例如,终端设备101,但不限于此)之中,或者存储在外部存储设备上并可以导入到终端设备101中。然后,终端设备101可以在本地执行本公开实施例所提供的命名实体识别方法,或者将待识别文本发送到其他终端设备、服务器、或服务器集群,并由接收该待识别文本的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的命名实体识别方法。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的一种命名实体识别方法的流程图。
如图2所示,该方法包括操作S210~S240。
在操作S210,获取待识别文本。
在本公开的实施例中,待识别文本可以指英文文本。待识别文本可以来自于网络文本中的CoNLL(Conference on Computational Natural Language Learning,计算自然语言学习会议)数据集。待识别文本可以包括多个词组元素(即token)。
在操作S220,对待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量。
在本公开的实施例中,为了获取待识别文本更加全面和丰富的信息,可以从全局和局部两个方面对待识别文本进行特征提取,以获得待识别文本的目标全局特征向量和目标局部特征向量。
根据本公开的实施例,目标全局特征向量可以包括单词级特征向量。目标局部特征向量可以包括字符级特征向量和/或句子级特征向量。其中,单词级特征向量可以表征待识别文本中每个词组元素在单词级别的特征。单词级特征向量可以采用基于神经网络模型训练生成的单词级特征提取模型处理待识别文本得到。字符级特征向量可以表征待识别文本中每个词组元素在字符级别的特征。字符级特征向量可以采用基于卷积神经网络模型训练生成的字符级特征提取模型处理待识别文本得到。相比于单词级特征向量,字符级特征向量可以体现更深层次的特征。
根据本公开的实施例,句子级特征向量可以包括第一句子级特征向量和第二句子级特征向量。其中,第一句子级特征向量可以表征待识别文本在语义方面的句子级别的特征。这是由于针对每个词组元素,可以根据其所在的待识别文本体现的语义关联识别该词组元素,因此,可以从语义方面提取待识文本在句子级别的特征,即第一句子级特征向量。第二句子级特征向量可以表征待识别文本在格式方面的句子级的特征。这种由于待识别文本中的标点和字母大小写对命名实体识别也起到较为重要的作用,因此,也可以对待识别文本中的标点和字母大小写进行处理,以从格式方面提取待识别文本在句子级别的特征。
在操作S230,将目标全局特征向量和目标局部特征向量进行拼接,得到目标特征向量。
在本公开的实施例中,在获得与待识别文本对应的目标全局特征向量和目标局部特征向量后,可以将目标全局特征向量和目标局部特征向量进行拼接,以得到与待识别文本对应的目标特征向量。
示例性的,如目标全局特征向量为A,目标局部特征向量为B,则目标特征向量C=[AB]。
在操作S240,利用命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。
在本公开的实施例中,命名实体识别模型可以基于深度神经网络模型训练生成。深度神经网络模型可以包括单向长短期记忆神经网络(Long Short-Term Memory,LSTM)模型或双向长短期记忆神经网络(Bi-direction Long Short-Term Memory,Bi-LSTM)模型。单向长短期记忆神经网络模型是单向循环神经网络模型的扩展。单向循环神经网络模型是一种针对序列数据进行处理的网络,这里的序列数据是指以时间发展线为获取数据所遵从的依据,在不同时间点上获取反应了某一事物或现象等随时间的变化状态或变化程度的数据,其最大特点是位于前后时间点上的数据存在一定的关系。文本也是序列数据中的一种,这是由于其上下文之间总是存在着一定的关系。单向神经网络模型用于记忆过去的上文信息,而无法处理将来的下文信息。为了更好地理解上下文,需要获取将来的下文信息,双向循环神经网络模型便可以解决该问题,实现获取上下文信息。双向长短期记忆神经网络模型可以理解为是双向循环神经网络模型和单向长短期记忆神经网络模型的结合。
根据本公开的实施例,以命名实体识别模型基于双向长短期记忆神经网络训练生成为例进行说明。可以先获取训练样本集,其中,训练样本集可以包括多个训练文本和与每个训练样本对应的真实标注信息,然后对每个训练文本进行特征提取得到样本全局特征向量和样本局部特征向量,并将与每个训练样本对应的样本全局特征向量和样本局部特征向量进行拼接,得到与每个训练样本对应的样本特征向量,并利用多个样本特征向量和多个真实标注信息对双向长短期记忆神经网络模型进行训练,得到命名实体识别模型。
示例性的,如待识别文本为“Apple was founded by Jobs”,实体类别包括人名、地名、组织名和其它。将通过特征提取和特征拼接后得到的目标特征向量输入命名实体识别模型,得到实体识别结果为Jobs对应的实体类别为人名。
根据本公开实施例的技术方案,通过获取待识别文本,对待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量,将目标全局特征向量和目标局部特征向量进行拼接,得到目标特征向量,并利用命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。由于目标全局特征向量和目标局部特征向量分别体现了待识别文本在全局和局部两个方面的特征,使得获取到的待识别文本的信息较为全面和丰富,因此,基于命名实体识别模型处理由目标全局特征向量和目标局部特征向量拼接后得到的目标特征向量,所得到的命名实体识别的准确率较高,因而,至少部分地克服了采用相关技术进行命名实体识别的准确率不高的技术问题。
可选地,在上述技术方案的基础上,目标局部特征向量可以包括第一句子级特征向量和第二句子级特征向量。对待识别文本进行特征提取,得到目标局部特征向量,可以包括如下操作。
获取字典,其中,字典包括多个实体和与每个实体对应的实体类别,实体类别包括多种。从字典中查找与待识别文本中的每个词组元素所匹配的实体。根据预设匹配规则,确定每个词组元素和与每个词组元素所匹配的实体之间的匹配程度。根据与每个词组元素所匹配的实体对应的实体类别,以及,每个词组元素和与每个词组元素所匹配的实体之间的匹配程度,得到第一句子级特征向量。利用预设转换规则处理待识别文本得到第二句子级特征向量,其中,预设转换规则用于将待识别文本中的大写字母、小写字母、数字和标点分别转换为对应的预设形式。
在本公开的实施例中,为了获得第一句子级特征向量,可以预先构建字典。字典中的数据来源可以为数据库。数据库可以包括Dbpedia数据库、Freebase数据库和WordNet数据库中的至少一种。其中,Dbpedia是基于维基百科、语义Web和关联数据技术形成的关联数据集。本公开实施例可以将实体类别划分为四种,即人名、地名、组织名和其它。
根据本公开的实施例,可以从Dbpedia数据库获取多个实体,并确定每个实体的实体类别,实体类别可以为人名、地名、组织名或其它。基于此,可以构建每个实体和与每个实体对应的实体类别之间的对应关系,并生成字典。相应的,字典可以包括每个实体和与每个实体对应的实体类别。每个实体可能属于一种或多种实体类别。
在获得字典后,可以针对待识别文本中的每个词组元素,从字典中查找与该词组元素所匹配的实体。根据预设匹配规则,确定该词组元素和与该词组元素所匹配的实体之间的匹配程度。其中,预设匹配规则可以用于作为设置匹配类型和与匹配类型对应的匹配值的规则。匹配类型可以包括与实体的开头字符匹配、与实体的中间字符匹配、与实体的结尾字符匹配和与实体匹配。与匹配类型对应的匹配值可以包括与实体的开头字符匹配对应的匹配值、与实体的中间字符匹配对应的匹配值、与实体的结尾字符匹配对应的匹配值、与实体匹配对应的匹配值和与实体不匹配对应的匹配值。其中,与匹配类型对应的匹配值可以根据实际情况设定,在此不作具体限定。需要说明的是,与每个词组元素匹配的实体的数量可能为一个或多个,即每个词组元素可能匹配到字典中的一个实体或多个实体。
根据本公开的实施例,可以采用N元语言模型(即N-Gram),从字典中查找与该词组元素所匹配的实体。
在确定出待识别文本中的每个词组元素所匹配的实体后,可以将匹配出的实体所对应的实体类别确定为与每个词组元素对应的实体类别,并结合每个词组元素和与每个词组元素所匹配的实体之间的匹配程度,得到与待识别文本对应的第一句子级特征向量。
示例性的,如匹配类型可以包括B、I、E和S。与B对应的匹配值为0.5,与I对应的匹配值为0.8,与E对应的匹配值为0.5,与S对应的匹配值为1,以及,与实体不匹配对应的匹配值为0。其中,B表征与实体的开头字符匹配,I表征与实体的中间字符匹配,E表征与实体的结尾字符匹配,以及,S表征与实体匹配。
待识别文本中的某个词组元素为China。从字典中查找与China匹配的实体,在实体类别中的人名、地名、组织名和其它中均查找到与其匹配的实体,分别为实体1、实体2、实体3和实体4,其中,China与实体1匹配,China与实体2匹配,China与实体3的中间字符匹配,China与实体4匹配。基于此,China可以表征为[1,1,0.5,1]。
根据本公开的实施例,为了获得第二句子级特征向量,可以根据预设转换规则将待识别文本中的大写字母、小写字母、数字和标点转换为对应的预设形式,以得到第二句子级特征向量。
示例性的,如预设转换规则可以为将大写字母、小写字母、数字和标点分别转换为“C”、“c”、“n”和“p”。待识别文本为“Apple was founded by Jobs in April 1976.”。与待识别文本对应的第二句子级特征向量为“Ccccc ccc ccccccc cc Cccc cc Ccccc nnnnp”。
根据本公开的实施例,通过对待识别文本分别从语义方面和格式方面进行句子级别的特征提取,得到第一句子级特征向量和第二句子级特征向量,实现了获取待识别文本更为深层次的特征,进而为提高命名实体识别的准确率提供了数据支持。
可选地,在上述技术方案的基础上,根据与每个词组元素所匹配的实体对应的实体类别,以及,每个词组元素和与每个词组元素所匹配的实体之间的匹配程度,得到第一句子级特征向量,可以包括如下操作。
根据与每个词组元素所匹配的实体对应的实体类别,以及,每个词组元素和与每个词组元素所匹配的实体之间的匹配程度,得到与每个词组元素对应的向量,其中,向量中的每个分量用于表征词组元素与对应的实体类别的匹配程度。根据待识别文本中的与每个词组元素对应的向量,得到第一句子级特征向量。
在本公开的实施例中,为了获得与待识别文本对应的第一句子级特征向量,可以根据待识别文本中的每个词组元素对应的向量得到。本公开的实施例中实体类别可以包括人名、地名、组织名和其它。
针对待识别文本中的每个词组元素,根据该词组元素所匹配的实体确定的实体类别,以及,根据该词组元素和与该词组元素所匹配的实体之间的匹配程度,得到与该词组元素对应的向量。与词组元素对应的向量中的每个分量可以表征词组元素和与词组元素对应的实体类别之间的匹配程度。每个分量对应一个实体类别。每个向量的维数与实体类别的种类相同。词组元素和与词组元素对应的实体类别之间的匹配程度可以用匹配类型的匹配值表征。针对匹配类型和匹配值可以参见上文对应部分。
示例性的,如与词组元素对应的向量可以表征为[x1,x2,x3,x4]。其中,x1表征词组元素与实体类别为人名的实体之间的匹配程度,x2表征词组元素与实体类别为地名的实体之间的匹配程度,x3表征词组元素与实体类别为组织名的实体之间的匹配程度,x4表征词组元素与实体类别为其它的实体之间的匹配程度。以x1表征词组元素与实体类别为人名的实体之间的匹配程度为例进行说明。
针对人名,如果词组元素匹配到了实体类别为人名的某个实体的开头字符,则可以确定该词组元素的匹配类型为B,将与B对应的匹配值确定为x1。如果词组元素匹配到了实体类别为人名的某个实体的中间字符,则可以确定该词组元素的匹配类型为I,将与I对应的匹配值确定为x1。如果词组元素匹配到了实体类别为人名的某个实体的结尾字符,则可以确定该词组元素的匹配类型为E,将与E对应的匹配值确定为x1。如果词组元素匹配到了实体类别为人名的某个实体,则可以确定该词组元素的匹配类型为S,将与S对应的匹配值确定为x1。如果词组元素未匹配到实体类别为人名的实体,则可以确定x1为0。
在获得待识别文本中与每个词组元素对应的向量后,针对向量的每个维度,计算各个词组元素在该维度上的分量的平均值,以得到该维度上的分量均值。根据各个维度的分量均值得到与待识别文本对应的第一句子级特征向量。其中,第一句子级特征向量的在每个维度上的分量即为各个词组元素在该维度上的分量的平均值。第一句子级特征向量中的每个分量对应一个实体类别。
示例性的,如待识别文本为“Hayao Tada,commander of the Japanese NorthChina Area Army.”。匹配类型可以包括B、I、E和S。与B对应的匹配值为0.5,与I对应的匹配值为0.8,与E对应的匹配值为0.5,与S对应的匹配值为1,以及,与实体不匹配对应的匹配值为0。其中,B表征与实体的开头字符匹配,I表征与实体的中间字符匹配,E表征与实体的结尾字符匹配,以及,S表征与实体匹配。待识别文本与词典中的实体的匹配结果如下表1所示。
表1
根据本公开的实施例,Hayao=[0.5,0,0,0],Tada=[0.5,0,0,0],commander=[0,0,0,1],of=[0,0,0,0.5],the=[0,0.5,0.5,0.5],Japanese=[0,0.8,0.8,0.8],North=[0,0,0.5,1],China=[1,1,0.8,1],Area=[0,0,0.8,1],Army=[0,0,0.5,1]。对待识别文本中每个向量的每个维度取平均得到第一句子级特征向量[0.19,0.21,0.35,0.62]。
可选地,在上述技术方案的基础上,目标局部特征向量还可以包括字符级特征向量。对待识别文本进行特征提取,得到目标局部特征向量,可以包括如下操作。
利用嵌入字符提取模型处理待识别文本,得到嵌入字符,其中,嵌入字符提取模型是基于第一神经网络模型训练生成的。利用字符级特征提取模型处理待识别文本,得到字符级特征向量,其中,字符级特征提取模型是基于卷积神经网络模型训练生成的。
在本公开的实施例中,为了提高命名实体识别的准确率,可以提取待识别文本在字符级别的特征,即字符级特征向量。这是由于对于形态有关联的词组元素,如果基于单词级别的特征,则较难以表示形态有关联的词组元素之间的联系,因此,可以采用提取更深层次的特征的方式,即采用提取字符级别的特征的方式,以实现确定形态有关联的词组元素之间的联系,进而提高命名实体识别的准确率。例如,词组元素dog和dogs,在单词级别,会被确定为两个不同的词组元素。但是在字符级别,这两个词组元素会被认为是不同的。
根据本公开的实施例,可以采用基于第一神经网络模型训练生成的嵌入字符提取模型处理待识别文本,得到嵌入字符,并采用基于卷积神经网络模型训练生成的字符级特征提取模型处理嵌入字符,以得到字符级特征向量。嵌入字符可以理解为一个向量。本公开实施例所述的嵌入字符的维数可以为25维。字符级别特征向量的维数可以为55维。
根据本公开的实施例,嵌入字符提取模型是基于第一神经网络模型训练生成的,可以包括如下操作。获取第一训练样本集,其中,第一训练样本集可以包括多个第一训练文本和与每个第一训练文本对应的真实标注信息。利用第一训练样本集训练第一神经网络模型,得到嵌入字符提取模型。其中,第一训练样本集可以来自维基百科语料库中的词组元素。嵌入字符提取模型可以为Word2Vec模型。
根据本公开的实施例,字符级特征提取模型是基于卷积神经网络模型训练生成的,可以包括如下操作。获取第二训练样本集,其中,第二训练样本集可以包括多个训练嵌入字符和与每个训练嵌入字符对应的真实标注信息,训练嵌入字符是基于嵌入字符提取模型处理第一训练样本集中的第一训练文本得到的。利用第二训练样本集训练卷积神经网络模型,得到字符级特征提取模型。卷积神经网络模型可以包括卷积层和最大池化层。
图3示意性示出了根据本公开实施例的一种获取字符级特征向量的的示意图。如图3所示,待识别文本为Picasso。基于嵌入字符提取模型处理待处理文本得到对应的嵌入字符。基于字符级特征提取模型处理嵌入字符得到字符级特征向量。
根据本公开的实施例,通过对待识别文本进行字符级别的特征提取,得到字符级特征向量,实现了获取待识别文本更为深层次的特征,进而为提高命名实体识别的准确率提供了数据支持。
可选地,在上述技术方案的基础上,目标全局特征向量可以包括单词级特征向量。对待识别文本进行特征提取,得到目标全局特征向量,可以包括如下操作。
利用单词级特征提取模型处理待识别文本,得到单词级特征向量,其中,单词级特征提取模型是基于第二神经网络模型训练生成的。
在本公开的实施例中,为了提高命名实体识别的准确率,可以提取待识别文本在单词级别的特征,即单词级特征向量。这是由于单词级别的特征包括了不同词组元素的语义相似度,因此,可以根据单词级别的特征确定语义相似的不同词组元素和不同上下文。
图4示意性示出了根据本公开实施例的一种单词级特征向量可视化的示意图。如图4所示,显示了字组元素“CAT”、“DOG”、“KirrEN”和“HOVERCAFT”。语义相似的词组元素,在被向量化表示后,在空间上的距离也相近。
根据本公开的实施例,可以采用基于第二神经网络模型训练生成的单词级特征提取模型处理待识别文本,以得到单词级特征向量。其中,第二神经网络模型可以为Word2Vec模型。
可选地,在上述技术方案的基础上,命名实体识别模型是基于双向长短期记忆神经网络模型训练生成的,可以包括如下操作。
获取训练样本集,其中,训练样本集包括多个训练文本和与每个训练文本对应的真实标注信息。对每个训练文本进行特征提取得到样本全局特征向量和样本局部特征向量。将与每个训练文本对应的样本全局特征向量和样本局部特征向量进行拼接,得到与每个训练文本对应的样本特征向量。利用多个样本特征向量和多个真实标注信息对双向长短期记忆神经网络模型进行训练,得到命名实体识别模型。
在本公开的实施例中,训练样本集可以指第三训练样本集。训练文本可以指第二训练文本。对每个训练样本进行特征提取得到与每个训练样本对应的样本全局特征向量和样本局部特征向量,可以包括如下操作。
获取字典,其中,字典包括多个实体和与每个实体对应的实体类别,实体类别包括多种。从字典中查找与每个训练文本中的每个词组元素所匹配的实体。根据预设匹配规则,确定每个训练文本中的每个词组元素和与每个词组元素所匹配的实体之间的匹配程度。根据与每个训练文本中的每个词组元素所匹配的实体对应的实体类别,以及,每个词组元素和与每个词组元素所匹配的实体之间的匹配程度,得到与每个训练文本中的每个词组元素对应的向量。根据每个训练文本中的与每个词组元素对应的向量,得到与每个训练文本对应的第一句子级特征向量。
利用预设转换规则处理每个训练文本得到与每个训练文本对应的第二句子级特征向量。
利用嵌入字符提取模型处理每个训练文本,得到与每个训练文本对应的嵌入字符,其中,嵌入字符提取模型是基于第一神经网络模型训练生成的。
利用字符级特征提取模型处理与每个训练文本对应的嵌入字符,得到与每个训练文本对应的字符级特征向量,其中,字符级特征提取模型是基于卷积神经网络模型训练生成的。
利用单词级特征提取模型处理每个训练文本,得到与每个训练文本对应的单词级特征向量,其中,单词级特征提取模型是基于第二神经网络模型训练生成的。
可选地,在上述技术方案的基础上,利用多个样本特征向量和多个真实标注信息对双向长短期记忆神经网络模型进行训练,得到命名实体识别模型,可以包括如下操作。
将与每个训练文本对应的样本特征向量输入双向长短期记忆神经网络模型的前向模块,得到第一预测标注信息。将与每个训练文本对应的样本特征向量输入双向长短期记忆神经网络模型的后向模块,得到第二预测标注信息。将与每个训练文本对应的第一预测标注信息、与每个训练文本对应的第二预测标注信息和与每个训练文本对应的真实标注信息输入双向长短期记忆神经网络模型的损失函数中,得到损失结果。根据损失结果调整双向长短期记忆神经网络模型的网络参数,直至损失函数收敛,则将训练后得到的双向长短期记忆神经网络模型作为命名实体识别模型。
在本公开的实施例中,双向长短期记忆神经网络模型可以包括前向模块、后向模块和输出层。其中,前向模块和后向模块的输出结果输入同一输出层。前向模块用于处理上文信息,后向模块用于处理下文信息。输出层用于对前向模块的输出结果和后向模块的输出结果进行联合处理,即将与每个训练文本对应的第一预测标注信息、与每个训练文本对应的第二预测标注信息和与每个训练文本对应的真实标注信息输入双向长短期记忆神经网络模型的损失函数。
根据本公开的实施例,双向长短期记忆神经网络模型可以理解为是双向循环神经网络模型和单向长短期记忆神经网络模型的结合。由于双向长短期记忆神经网络模型可以对输入数据进行正反两次的学习,因此,对于文本中的每个词组元素,不但可以学习到上文的信息,而且可以学习到下文的信息,进而有效地提高命名实体模型的预测精度,从而提高命名实体识别的准确率。
根据本公开实施例的另一种命名实体识别方法。该方法包括操作如下操作。
获取训练样本集,其中,训练样本集包括多个训练文本和与每个训练文本对应的真实标注信息。
获取字典,其中,字典包括多个实体和与每个实体对应的实体类别,实体类别包括多种。
从字典中查找与每个训练文本中的每个词组元素所匹配的实体。
根据预设匹配规则,确定每个训练文本中的每个词组元素和与每个词组元素所匹配的实体之间的匹配程度。
根据与每个训练文本中的每个词组元素所匹配的实体对应的实体类别,以及,每个词组元素和与每个词组元素所匹配的实体之间的匹配程度,得到与每个训练文本中的每个词组元素对应的向量,其中,向量中的每个分量用于表征词组元素与对应的实体类别的匹配程度。
根据每个训练文本中的与每个词组元素对应的向量,得到与每个训练文本对应的第一句子级特征向量。
利用预设转换规则处理每个训练文本得到与每个训练文本对应的第二句子级特征向量,其中,预设转换规则用于将训练文本中的大写字母、小写字母、数字和标点分别转换为对应的预设形式。
利用嵌入字符提取模型处理每个训练文本,得到与每个训练文本对应的嵌入字符,其中,嵌入字符提取模型是基于第一神经网络模型训练生成的。
利用字符级特征提取模型处理与每个训练文本对应的嵌入字符,得到与每个训练文本对应的字符级特征向量,其中,字符级特征提取模型是基于卷积神经网络模型训练生成的。
利用单词级特征提取模型处理每个训练文本,得到与每个训练文本对应的单词级特征向量,其中,单词级特征提取模型是基于第二神经网络模型训练生成的。
将与每个训练文本对应的第一句子级特征向量、第二句子级特征向量、字符级特征向量和单词级特征向量进行拼接,得到与每个训练文本对应的样本特征向量。
将与每个训练文本对应的样本特征向量输入双向长短期记忆神经网络模型的前向模块,得到第一预测标注信息。
将与每个训练文本对应的样本特征向量输入双向长短期记忆神经网络模型的后向模块,得到第二预测标注信息。
将与每个训练文本对应的第一预测标注信息、与每个训练文本对应的第二预测标注信息和与每个训练文本对应的真实标注信息输入双向长短期记忆神经网络模型的损失函数中,得到损失结果。
根据损失结果调整双向长短期记忆神经网络模型的网络参数,直至损失函数收敛,则将训练后得到的双向长短期记忆神经网络模型作为命名实体识别模型。
获取待识别文本。
从字典中查找与待识别文本中的每个词组元素所匹配的实体。
根据预设匹配规则,确定待识别文本中的每个词组元素和与每个词组元素所匹配的实体之间的匹配程度。
根据与每个词组元素所匹配的实体对应的实体类别,以及,每个词组元素和与每个词组元素所匹配的实体之间的匹配程度,得到与每个词组元素对应的向量,其中,向量中的每个分量用于表征词组元素与对应的实体类别的匹配程度。
根据待识别文本中的与每个词组元素对应的向量,得到与待识别文本对应的第一句子级特征向量。
利用预设转换规则处理待识别文本,得到与待识别文本对应的第二句子级特征向量。
利用嵌入字符提取模型处理待识别文本,得到与待识别文本对应的嵌入字符。
利用字符级特征提取模型处理与待识别文本对应的嵌入字符,得到与待识别文本对应的字符级特征向量。
利用单词级特征提取模型处理待识别文本,得到与待识别文本对应的单词级特征向量。
将与待识别样本对应的第一句子级特征向量、第二句子级特征向量、字符级特征向量和单词级特征向量进行拼接,得到与待识别样本对应的目标特征向量。
利用命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。
在本公开的实施例中,图5示意性示出了根据本公开的实施例的一种命名实体识别方法的框架示意图。图6示意性示出了根据本公开的实施例的一种命名实体识别方法的应用示意图。如图6所示,待识别文本为“Apple was founded by Jobs”。双向长短期记忆神经网络模型包括前向模块、后向模块和输出层。现设定实体类别包括人名、地名、组织名和其它。
对待识别文本分别进行单词级特征提取、字符级特征提取、第一句子级特征提取和第二句子级特征提取,得到单词级特征向量、字符级特征向量、第一句子级特征向量和第二句子级特征向量。将单词级特征向量、字符级特征向量、第一句子级特征向量和第二句子级特征向量进行拼接后分别输入前向模块和后向模块,输出前向模块的输出结果和后向模块的输出结果,将前向模块的输出结果和后向模块的输出结果输入输出层,得到待识别文本中的每个词组元素的每种实体类别的得分(即概率值),将得分最大对应的实体类别作为词组元素的实体类别。由此得到,待识别文件中每个词组元素对应的实体类别,其中,Jobs对应的实体类别为人名。
根据本公开实施例的技术方案,通过获取待识别文本,对待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量,其中,目标全局特征向量包括单词级特征向量,目标局部特征向量包括字符级特征向量、第一句子级特征向量和第二句子级特征向量,将目标全局特征向量和目标局部特征向量进行拼接,得到目标特征向量,并利用基于双向长短期记忆神经网络模型训练生成的命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。由于目标全局特征向量和目标局部特征向量分别体现了待识别文本在全局和局部两个方面的特征,使得获取到的待识别文本的信息较为全面和丰富,因此,基于命名实体识别模型处理由目标全局特征向量和目标局部特征向量拼接后得到的目标特征向量,所得到的命名实体识别的准确率较高,因而,至少部分地克服了采用相关技术进行命名实体识别的准确率不高的技术问题。此外,由于双向长短期记忆神经网络模型可以对输入数据进行正反两次的学习,因此,对于文本中的每个词组元素,不但可以学习到上文的信息,而且可以学习到下文的信息,进而有效地提高命名实体模型的预测精度,从而提高命名实体识别的准确率。
图7示意性示出了根据本公开的实施例的一种命名实体识别装置的框图。
如图7所示,命名实体识别装置700可以包括获取模块710、提取模块720、拼接模块730和处理模块740。
获取模块710、提取模块720、拼接模块730和处理模块740通信连接。
获取模块710,用于获取待识别文本。
提取模块720,用于对待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量。
拼接模块730,用于将目标全局特征向量和目标局部特征向量进行拼接,得到目标特征向量。
处理模块740,用于利用命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。
根据本公开实施例的技术方案,通过获取待识别文本,对待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量,将目标全局特征向量和目标局部特征向量进行拼接,得到目标特征向量,并利用命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。由于目标全局特征向量和目标局部特征向量分别体现了待识别文本在全局和局部两个方面的特征,使得获取到的待识别文本的信息较为全面和丰富,因此,基于命名实体识别模型处理由目标全局特征向量和目标局部特征向量拼接后得到的目标特征向量,所得到的命名实体识别的准确率较高,因而,至少部分地克服了采用相关技术进行命名实体识别的准确率不高的技术问题。
可选地,在上述技术方案的基础上,目标局部特征向量包括第一句子级特征向量和第二句子级特征向量。
对待识别文本进行特征提取,提取模块720可以包括获取子模块、查找子模块、确定子模块、第一处理子模块和第二处理子模块。
获取子模块,用于获取字典,其中,字典包括多个实体和与每个实体对应的实体类别,实体类别包括多种。
查找子模块,用于从字典中查找与待识别文本中的每个词组元素所匹配的实体。
确定子模块,用于根据预设匹配规则,确定每个词组元素和与每个词组元素所匹配的实体之间的匹配程度。
第一处理子模块,用于根据与每个词组元素所匹配的实体对应的实体类别,以及,每个词组元素和与每个词组元素所匹配的实体之间的匹配程度,得到第一句子级特征向量。
第二处理子模块,用于利用预设转换规则处理待识别文本得到第二句子级特征向量,其中,预设转换规则用于将待识别文本中的大写字母、小写字母、数字和标点分别转换为对应的预设形式。
可选地,在上述技术方案的基础上,第一处理子模块可以包括第一处理单元和第二处理单元。
第一处理单元,用于根据与每个词组元素所匹配的实体对应的实体类别,以及,每个词组元素和与每个词组元素所匹配的实体之间的匹配程度,得到与每个词组元素对应的向量,其中,向量中的每个分量用于表征词组元素与对应的实体类别的匹配程度。
第二处理单元,用于根据待识别文本中的与每个词组元素对应的向量,得到第一句子级特征向量。
可选地,在上述技术方案的基础上,目标局部特征向量还包括字符级特征向量。
提取模块720还可以包括第三处理子模块和第四处理子模块。
第三处理子模块,用于利用嵌入字符提取模型处理待识别文本,得到嵌入字符,其中,嵌入字符提取模型是基于第一神经网络模型训练生成的。
第四处理子模块,用于利用字符级特征提取模型处理嵌入字符,得到字符级特征向量,其中,字符级特征提取模型是基于卷积神经网络模型训练生成的。
可选地,在上述技术方案的基础上,目标全局特征向量包括单词级特征向量。
提取模块720还可以包括第五处理子模块。
第五处理子模块,用于利用单词级特征提取模型处理待识别文本,得到单词级特征向量,其中,单词级特征提取模型是基于第二神经网络模型训练生成的。
可选地,在上述技术方案的基础上,命名实体识别模型是基于双向长短期记忆神经网络模型训练生成的,可以包括如下操作。
获取训练样本集,其中,训练样本集包括多个训练文本和与每个训练文本对应的真实标注信息。对每个训练文本进行特征提取得到样本全局特征向量和样本局部特征向量。将与每个训练文本对应的样本全局特征向量和样本局部特征向量进行拼接,得到与每个训练文本对应的样本特征向量。利用多个样本特征向量和多个真实标注信息对双向长短期记忆神经网络模型进行训练,得到命名实体识别模型。
可选地,在上述技术方案的基础上,利用多个样本特征向量和多个真实标注信息对双向长短期记忆神经网络模型进行训练,得到命名实体识别模型,可以包括如下操作。
将与每个训练文本对应的样本特征向量输入双向长短期记忆神经网络模型的前向模块,得到第一预测标注信息。将与每个训练文本对应的样本特征向量输入双向长短期记忆神经网络模型的后向模块,得到第二预测标注信息。将与每个训练文本对应的第一预测标注信息、与每个训练文本对应的第二预测标注信息和与每个训练文本对应的真实标注信息输入双向长短期记忆神经网络模型的损失函数中,得到损失结果。根据损失结果调整双向长短期记忆神经网络模型的网络参数,直至损失函数收敛,则将训练后得到的双向长短期记忆神经网络模型作为命名实体识别模型。
根据本公开的实施例的模块、子模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑阵列(Programmable Logic Arrays,PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(Application Specific Integrated Circuit,ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取模块710、提取模块720、拼接模块730和处理模块740中的任意多个可以合并在一个模块/子模块/单元中实现,或者其中的任意一个模块/子模块/单元可以被拆分成多个模块/子模块/单元。或者,这些模块/子模块/单元中的一个或多个模块/子模块/单元的至少部分功能可以与其他模块/子模块/单元的至少部分功能相结合,并在一个模块/子模块/单元中实现。根据本公开的实施例,获取模块710、提取模块720、拼接模块730和处理模块740中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块710、提取模块720、拼接模块730和处理模块740中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中命名实体识别装置部分与本公开的实施例中命名实体识别方法部分是相对应的,命名实体识别装置部分的描述具体参考命名实体识别方法部分,在此不再赘述。
图8示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(Read-Only Memory,ROM)802中的程序或者从存储部分808加载到随机访问存储器(Random Access Memory,RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM(Erasable Programmable Read Only Memory)或闪存)、便携式紧凑磁盘只读存储器(Computer Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种命名实体识别方法,包括:
获取待识别文本;
对所述待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量;
将所述目标全局特征向量和所述目标局部特征向量进行拼接,得到目标特征向量;以及
利用命名实体识别模型处理所述目标特征向量,得到用于表征所述待识别文本的实体类别识别结果。
2.根据权利要求1所述的方法,其中,所述目标局部特征向量包括第一句子级特征向量和第二句子级特征向量;
所述对所述待识别文本进行特征提取,得到目标局部特征向量,包括:
获取字典,其中,所述字典包括多个实体和与每个所述实体对应的实体类别,所述实体类别包括多种;
从所述字典中查找与所述待识别文本中的每个词组元素所匹配的实体;
根据预设匹配规则,确定每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度;
根据与每个所述词组元素所匹配的实体对应的实体类别,以及,每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度,得到所述第一句子级特征向量;以及
利用预设转换规则处理所述待识别文本得到所述第二句子级特征向量,其中,所述预设转换规则用于将所述待识别文本中的大写字母、小写字母、数字和标点分别转换为对应的预设形式。
3.根据权利要求2所述的方法,其中,所述根据与每个所述词组元素所匹配的实体对应的实体类别,以及,每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度,得到所述第一句子级特征向量,包括:
根据与每个所述词组元素所匹配的实体对应的实体类别,以及,每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度,得到与每个所述词组元素对应的向量,其中,所述向量中的每个分量用于表征所述词组元素与对应的所述实体类别的匹配程度;以及
根据所述待识别文本中的与每个所述词组元素对应的向量,得到所述第一句子级特征向量。
4.根据权利要求2所述的方法,其中,所述目标局部特征向量还包括字符级特征向量;
所述对所述待识别文本进行特征提取,得到目标局部特征向量,包括:
利用嵌入字符提取模型处理所述待识别文本,得到嵌入字符,其中,所述嵌入字符提取模型是基于第一神经网络模型训练生成的;以及
利用字符级特征提取模型处理所述嵌入字符,得到所述字符级特征向量,其中,所述字符级特征提取模型是基于卷积神经网络模型训练生成的。
5.根据权利要求1所述的方法,其中,所述目标全局特征向量包括单词级特征向量;
所述对所述待识别文本进行特征提取,得到目标全局特征向量,包括:
利用单词级特征提取模型处理所述待识别文本,得到所述单词级特征向量,其中,所述单词级特征提取模型是基于第二神经网络模型训练生成的。
6.根据权利要求1所述的方法,其中,所述命名实体识别模型是基于双向长短期记忆神经网络模型训练生成的,包括:
获取训练样本集,其中,所述训练样本集包括多个训练文本和与每个所述训练文本对应的真实标注信息;
对每个所述训练文本进行特征提取得到样本全局特征向量和样本局部特征向量;
将与每个所述训练文本对应的样本全局特征向量和样本局部特征向量进行拼接,得到与每个所述训练文本对应的样本特征向量;以及
利用多个所述样本特征向量和多个所述真实标注信息对所述双向长短期记忆神经网络模型进行训练,得到所述命名实体识别模型。
7.根据权利要求6所述的方法,其中,所述利用多个所述样本特征向量和多个所述真实标注信息对所述双向长短期记忆神经网络模型进行训练,得到所述命名实体识别模型,包括:
将与每个所述训练文本对应的样本特征向量输入所述双向长短期记忆神经网络模型的前向模块,得到第一预测标注信息;
将与每个所述训练文本对应的样本特征向量输入所述双向长短期记忆神经网络模型的后向模块,得到第二预测标注信息;
将与每个所述训练文本对应的第一预测标注信息、与每个所述训练文本对应的第二预测标注信息和与每个所述训练文本对应的真实标注信息输入所述双向长短期记忆神经网络模型的损失函数中,得到损失结果;以及
根据所述损失结果调整所述双向长短期记忆神经网络模型的网络参数,直至所述损失函数收敛,则将训练后得到的双向长短期记忆神经网络模型作为所述命名实体识别模型。
8.一种命名实体识别装置,包括:
获取模块,用于获取待识别文本;
提取模块,用于对所述待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量;
拼接模块,用于将所述目标全局特征向量和所述目标局部特征向量进行拼接,得到目标特征向量;以及
处理模块,用于利用命名实体识别模型处理所述目标特征向量,得到用于表征所述待识别文本的实体类别识别结果。
9.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011159598.0A CN113761923A (zh) | 2020-10-26 | 2020-10-26 | 命名实体识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011159598.0A CN113761923A (zh) | 2020-10-26 | 2020-10-26 | 命名实体识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761923A true CN113761923A (zh) | 2021-12-07 |
Family
ID=78785867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011159598.0A Pending CN113761923A (zh) | 2020-10-26 | 2020-10-26 | 命名实体识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761923A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330345A (zh) * | 2021-12-24 | 2022-04-12 | 北京百度网讯科技有限公司 | 命名实体识别方法、训练方法、装置、电子设备及介质 |
CN114416974A (zh) * | 2021-12-17 | 2022-04-29 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326923A1 (en) * | 2006-05-15 | 2009-12-31 | Panasonic Corporatioin | Method and apparatus for named entity recognition in natural language |
CN106202255A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 融合实体特性的越南语命名实体识别方法 |
US20180137404A1 (en) * | 2016-11-15 | 2018-05-17 | International Business Machines Corporation | Joint learning of local and global features for entity linking via neural networks |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN110598212A (zh) * | 2019-09-05 | 2019-12-20 | 清华大学 | 一种快速命名体识别方法 |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
CN111651990A (zh) * | 2020-04-14 | 2020-09-11 | 车智互联(北京)科技有限公司 | 一种实体识别方法、计算设备及可读存储介质 |
-
2020
- 2020-10-26 CN CN202011159598.0A patent/CN113761923A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326923A1 (en) * | 2006-05-15 | 2009-12-31 | Panasonic Corporatioin | Method and apparatus for named entity recognition in natural language |
CN106202255A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 融合实体特性的越南语命名实体识别方法 |
US20180137404A1 (en) * | 2016-11-15 | 2018-05-17 | International Business Machines Corporation | Joint learning of local and global features for entity linking via neural networks |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN110598212A (zh) * | 2019-09-05 | 2019-12-20 | 清华大学 | 一种快速命名体识别方法 |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
CN111651990A (zh) * | 2020-04-14 | 2020-09-11 | 车智互联(北京)科技有限公司 | 一种实体识别方法、计算设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
GUL KHAN SAFI QAMAS;尹继泽;潘丽敏;罗森林;: "基于深度神经网络的命名实体识别方法研究", 信息网络安全, no. 10, 10 October 2017 (2017-10-10) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416974A (zh) * | 2021-12-17 | 2022-04-29 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN114330345A (zh) * | 2021-12-24 | 2022-04-12 | 北京百度网讯科技有限公司 | 命名实体识别方法、训练方法、装置、电子设备及介质 |
CN114330345B (zh) * | 2021-12-24 | 2023-01-17 | 北京百度网讯科技有限公司 | 命名实体识别方法、训练方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151177B2 (en) | Search method and apparatus based on artificial intelligence | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
US11775761B2 (en) | Method and apparatus for mining entity focus in text | |
US20200250379A1 (en) | Method and apparatus for textual semantic encoding | |
US20220198327A1 (en) | Method, apparatus, device and storage medium for training dialogue understanding model | |
CN109543058B (zh) | 用于检测图像的方法、电子设备和计算机可读介质 | |
US20220027569A1 (en) | Method for semantic retrieval, device and storage medium | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
US10417335B2 (en) | Automated quantitative assessment of text complexity | |
US11651015B2 (en) | Method and apparatus for presenting information | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
US11238050B2 (en) | Method and apparatus for determining response for user input data, and medium | |
CN114595686B (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
CN107766498B (zh) | 用于生成信息的方法和装置 | |
CN111831814A (zh) | 摘要生成模型的预训练方法、装置、电子设备和存储介质 | |
CN114021548A (zh) | 敏感信息检测方法、训练方法、装置、设备以及存储介质 | |
CN113761923A (zh) | 命名实体识别方法、装置、电子设备及存储介质 | |
CA3099201A1 (en) | Emoji recommendation system and method | |
CN110738056A (zh) | 用于生成信息的方法和装置 | |
KR102608867B1 (ko) | 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램 | |
WO2023016163A1 (zh) | 文字识别模型的训练方法、识别文字的方法和装置 | |
WO2023137903A1 (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN114691850A (zh) | 生成问答对的方法、神经网络模型的训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |