CN109145303B - 命名实体识别方法、装置、介质以及设备 - Google Patents
命名实体识别方法、装置、介质以及设备 Download PDFInfo
- Publication number
- CN109145303B CN109145303B CN201811038043.3A CN201811038043A CN109145303B CN 109145303 B CN109145303 B CN 109145303B CN 201811038043 A CN201811038043 A CN 201811038043A CN 109145303 B CN109145303 B CN 109145303B
- Authority
- CN
- China
- Prior art keywords
- named entity
- participle
- word
- word segmentation
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种命名实体识别方法、装置、设备以及介质,其中,该方法包括:获取待识别的文本;对该待识别的文本进行分词处理得到分词序列;将该分词序列输入至命名实体识别模型,获取该命名实体识别模型输出的各个分词对应的命名实体属性标识;进而,根据各个分词对应的命名实体属性标识,确定待识别的文本中的命名实体。该方法中采用的命名实体识别模型是基于网络结构简单、网络参数较少的前馈神经网络构建的,保证该模型便于维护和更新;另外,该模型基于能够充分全面地表达分词语义信息的多维分词特征,确定各分词对应的命名实体属性标识,保证了命名实体识别的准确率。此外,本申请还提供了一种命名实体识别模型的训练方法及装置。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种命名实体识别方法、 装置、设备以及计算机可读存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又作为“专名识别”, 是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、作品 名词、特定意义的网络词汇、其他专有名词等。命名实体识别在信息提取、 问答系统、句法分析、机器翻译等应用领域中发挥重要作用。
目前常用的命名实体识别的解决方案是,采用命名实体识别模型对文本 进行识别以识别出其中的命名实体,其中,该命名实体识别模型包括双向长 短时记忆网络和条件随机场,即该模型为BiLSTM+CRF模型。由于该命名实 体识别模型中各长短时记忆网络LSTM均包括三种门结构,门结构的网络结 构复杂,网络参数众多,若想要模型取得较好的识别结果,就需要依赖大规 模的训练样本,模型的训练也需要消耗太多的训练时间,难以进行快速试验以投入实际应用。
发明内容
本申请实施例提供了一种命名实体识别方法、装置、介质以及设备,能 够基于网络结构简单、网络参数较少的命名实体识别模型,准确地识别出文 本中的命名实体。
有鉴于此,本申请第一方面提供了一种命名实体识别方法,所述方法包 括:
获取待识别的文本;
对所述待识别的文本进行分词处理得到分词序列;
将所述分词序列输入命名实体识别模型,获取所述命名实体识别模型输 出的各个分词对应的命名实体属性标识;其中,所述命名实体识别模型用于 根据分词序列中各分词自身及其上下文各部分的多维分词特征,通过前馈神 经网络识别得到各分词对应的命名实体属性标识,所述多维分词特征包括一元组分词和多元组分词;
根据所述分词序列中各分词对应的命名实体属性标识,确定所述待识别 的文本中的命名实体。
本申请第二方面提供了一种命名实体识别模型的训练方法,所述方法包 括:
获取多个样本数据,每个所述样本数据包括样本文本及其多个分词标注 数据,所述分词标注数据包括从所述样本文本中分出的分词及其在所述样本 文本中的真实命名实体属性标识;
根据前馈神经网络结构构建命名实体识别初始模型;
利用所述多个样本数据对所述命名实体识别初始模型进行训练,以训练 得到满足训练结束条件的命名实体识别模型,所述命名实体识别初始模型用 于根据所述样本数据中各分词自身及其上下文各部分的多维分词特征,通过 前馈神经网络识别得到各分词对应的预测命名实体属性标识,所述多维分词 特征包括一元组分词和多元组分词。
本申请第三方面提供了一种命名实体识别装置,所述装置包括:
获取模块,用于获取待识别的文本;
分词模块,用于对所述待识别的文本进行分词处理得到分词序列;
处理模块,用于将所述分词序列输入命名实体识别模型,获取所述命名 实体识别模型输出的各个分词对应的命名实体属性标识;其中,所述命名实 体识别模型用于根据分词序列中各分词自身及其上下文各部分的多维分词特 征,通过前馈神经网络识别得到各分词对应的命名实体属性标识,所述多维 分词特征包括一元组分词和多元组分词;
确定模块,用于根据所述分词序列中各分词对应的命名实体属性标识, 确定所述待识别的文本中的命名实体。
本申请第四方面提供了一种命名实体识别模型的训练装置,所述装置包 括:
样本获取模块,用于获取多个样本数据,每个所述样本数据包括样本文 本及其多个分词标注数据,所述分词标注数据包括从所述样本文本中分出的 分词及其在所述样本文本中的真实命名实体属性标识;
构建模块,用于根据前馈神经网络结构构建命名实体识别初始模型;
训练模块,用于利用所述多个样本数据对所述命名实体识别初始模型进 行训练,以训练得到满足训练结束条件的命名实体识别模型,所述命名实体 识别初始模型用于根据所述样本数据中各分词自身及其上下文各部分的多维 分词特征,通过前馈神经网络识别得到各分词对应的预测命名实体属性标识, 所述多维分词特征包括一元组分词和多元组分词。
本申请第五方面提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行如上述第一方面所述 的命名实体识别方法的步骤或者如上述第二方面所述的命名实体识别模型的 训练方法的步骤。
本申请第六方面提供一种计算机可读存储介质,所述计算机可读存储介 质用于存储程序代码,所述程序代码用于执行上述第一方面所述的命名实体 识别方法的步骤或者上述第二方面所述的命名实体识别模型的训练方法的步 骤。
本申请第五方面提供一种包括指令的计算机程序产品,当其在计算机上 运行时,使得所述计算机执行上述第一方面所述的命名实体识别方法的步骤 或者上述第二方面所述的命名实体识别模型的训练方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种命名实体识别方法,在该方法中提供了一种新 型的命名实体识别模型,该模型能够根据分词序列中各分词自身及其上下文 各部分的多维分词特征,通过前馈神经网络识别得到各分词对应的命名实体 属性标识,相比现有技术BiLSTM+CRF模型,该命名实体识别模型采用前馈神经网络,其主要依赖于一个参数矩阵实现识别,其网络结构简单,网络参 数较少,便于训练和更新,能够快速试验以投入实际应用;另外,由于多维 分词特征包括一元组分词和多元组分词,因此,通过各个分词相关多维分词 特征能够更全面、更充分地表达分词的语义信息,为前馈神经网络提供更丰 富的基础数据,从而能够提高命名实体识别的准确率。具体的,在该方法中 先获取待识别的文本,对待识别的文本进行分词处理得到分词序列,进而利 用该命名实体识别模型针对分词序列中各个分词识别得到各个分词对应的命名实体属性标识;最后,根据分词序列中各分词对应的命名实体属性标识, 确定所述待识别的文本中的命名实体。可见,该方法基于新型的命名实体识 别模型进行命名实体识别,一方面能够提高识别的准确率,另一方面便于在产品中推广应用。
附图说明
图1为本申请实施例中一种命名实体识别方法的应用场景示意图;
图2为本申请实施例中一种命名实体识别方法的流程示意图;
图3为本申请实施例中一种命名实体识别模型的架构示意图;
图4为本申请实施例中一种属性标识概率转移矩阵的示意图;
图5为本申请实施例中一种命名实体识别模型的训练方法的流程示意图;
图6为本申请实施例中一种命名实体识别模型训练过程的架构示意图;
图7为本申请实施例中另一种命名实体识别方法的应用场景示意图;
图8为本申请实施例中一种命名实体识别装置的结构示意图;
图9为本申请实施例中一种命名实体识别模型的训练装置的结构示意图;
图10为本申请实施例中一种命名实体识别设备的结构示意图;
图11为本申请实施例中另一种命名实体识别设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实 施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申 请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的 所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第 三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这 里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺 序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排 他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设 备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有的命名实体识别技术通常基于BiLSTM+CRF模型实现命名实体识 别,而BiLSTM+CRF模型的网络结构复杂、网络参数众多,训练该BiLSTM+CRF模型时需要依赖大规模的训练样本,消耗大量的训练时间。为 了解决上述现有技术中存在的问题,本申请实施例提供了一种命名实体识别 方法。
下面对本申请实施例提供的命名实体识别方法的核心技术思路进行介 绍:
本申请实施例提供的命名实体识别方法中,提供了一种新型的命名实体 识别模型,该命名实体模型能够根据分词序列中各分词自身及其上下文各部 分的多维分词,通过前馈神经网络识别得到各分词对应的命名实体属性标识。 具体利用该命名实体模型进行命名实体识别时,需要先获取待识别的文本, 然后对该待识别的文本进行分词处理,得到对应的分词序列;进而,将所得到的分词序列输入至上述命名实体识别模型中,该命名实体识别模型根据输 入的分词序列中各分词自身及其上下文各部分的多维分词特征,通过前馈神 经网络识别得到各分词对应的命名实体属性标识,上述多维分词特征具体包 括一元组分词和多元组分词;最终根据分词序列中各分词对应的命名实体属 性标识,确定待识别的文本中的命名实体。
相比于现有技术中用于识别命名实体的BiLSTM+CRF模型,本申请实施 例中的命名实体识别模型采用了前馈神经网络,该前馈神经网络主要依赖于 参数变换矩阵实现命名实体识别,其网络结构简单,网络参数较少,便于训 练和更新,能够快速地经过试验投入实际应用;此外,采用本申请实施例中的命名实体识别模型进行命名实体识别时,是基于分词序列中各分词自身及 其上下文各部分的多维分词特征进行识别的,由于该多维分词特征中包括有 一元组分词和多元组分词,因此,该多维分词特征能够更全面、更充分地表 达各分词的语义信息,为前馈神经网络提供了更加丰富的基础数据,保证了 命名实体识别的准确率。
应理解,本申请实施例提供的命名实体识别方法可以应用于提供与命名 实体识别相关应用服务的设备,如终端设备、服务器等,而与命名实体识别 相关应用服务可以包括信息提取服务、问答服务、句法分析服务、机器翻译 服务等。其中,终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)、平板电脑等;服务器具体可以为应用服务器,也可以为Web服务器,在实际应用部署时,该服务器可以为独立服务器,也可以为 集群服务器,该服务器可以同时为多个终端设备提供命名实体识别服务。
为了便于理解本申请的技术方案,下面以服务器作为执行主体,结合实 际应用场景对本申请实施例提供的命名实体识别方法进行介绍。
参见图1,图1为本申请实施例提供的命名实体识别方法的应用场景示意 图。该应用场景中包括终端设备101和服务器102,其中,终端设备101用于 将自身获取的待识别的文本发送至服务器102,服务器102用于执行本申请实 施例提供的命名实体识别方法,以识别终端设备101发送的待识别的文本中 的命名实体。
当用户需要通过确定待识别的文本中包括的命名实体,来获取该待识别 的文本相关信息时,用户可以在终端设备101上提供的待识别文本输入栏中 输入待识别的文本,进而,在终端设备101获取到用户输入的待识别的文本 之后,将该待识别的文本发送至服务器102。
服务器102获取到终端设备101发送的待识别的文本后,对该待识别的 文本进行分词处理,得到与之对应的分词序列;然后,服务器102将该分词 序列输入至自身运行的命名实体识别模型中,该命名实体识别模型通过对输 入的分词序列进行相应的处理,输出各分词对应的命名实体属性标识,命名 实体识别模型具体对输入的分词序列进行处理时,根据输入的分词序列中各 分词自身及其上下文各部的的多维分词特征,通过前馈神经网络识别得到各 分词对应的命名实体属性标识,该多维分词特征具体包括一元组分词和多元组分词;进而,服务器102根据命名实体识别模型输出的各分词对应的命名 实体属性标识,确定待识别的文本中的命名实体。由此,服务器102可以进 一步根据所确定的命名实体搜索相关信息。
需要说明的是,上述运行于服务器102中的命名实体识别模型采用了前 馈神经网络,该前馈神经网络主要依赖于参数变换矩阵实现命名实体识别, 其网络结构简单,网络参数较少,便于训练和更新,能够快速地经过试验投 入实际应用;此外,采用上述命名实体识别模型进行命名实体识别时,是基 于分词序列中各分词自身及其上下文各部分的多维分词特征进行识别的,由 于该多维分词特征中包括有一元组分词和多元组分词,因此,该多维分词特征能够更全面、更充分地表达各分词的语义信息,为前馈神经网络提供了更 加丰富的基础数据,保证了命名实体识别的准确率。
需要说明的是,上述图1所示场景仅为一种示例,在实际应用中,本申 请实施例提供的命名实体识别方法还可以应用于终端设备,在此不对该命名 实体识别方法的应用场景做任何具体限定。
下面通过实施例对本申请提供的命名实体识别方法进行介绍。
参见图2,图2为本申请实施例提供的一种命名实体识别方法的流程示意 图。为了便于描述,下述实施例以终端设备作为执行主体进行描述,应理解, 该命名实体识别方法的执行主体并不仅限于终端设备,还可以应用于服务器 等具备自然语言处理功能的设备。如图2所示,该命名实体识别方法包括以下步骤:
步骤201:获取待识别的文本。
命名实体识别作为连接无结构化的自然语言和结构化的精准数据的重要 环节,在自动问答、信息抽取以及新闻推荐等多个自然语言处理领域中均起 着至关重要的作用,其处理效果直接影响后续的处理流程。进行命名实体识 别时,终端设备需要先获取无结构化的自然语言,即获取待识别的文本,通 过对该待识别的文本进行命名实体识别处理,确定其中所包括的命名实体,以便后续基于所确定的命名实体进行其他相关处理。
在一种可能的实现方式中,终端设备获取待识别的文本时,可以直接获 取待识别文本输入栏中的自然语句作为待识别的文本。具体的,终端设备可 以将设置于某些应用界面上的搜索栏作为待识别文本输入栏,用户在该待识 别文本输入栏中输入自然语句后,终端设备直接将用户输入的自然语句作为 待识别的文本;例如,终端设备可以将腾讯新闻界面上提供的新闻搜索栏作为待识别文本输入栏,用户在该新闻搜索栏中输入自然语句“周星驰的电影 《大话西游》将在今年4月重映”后,终端设备直接将该自然语句作为待识别 的文本。
在另一种可能的实现方式中,终端设备可以通过语音识别技术,将用户 输入的语音转换为自然语句,将该自然语句作为待识别的文本。具体的,终 端设备可以获取用户输入的语音,利用语音识别技术,识别获得该语音对应 的文本形式的自然语句,进而,将该自然语句作为待识别的文本;例如,用 户启动苹果手机的Siri功能,并相应地输入语音“周星驰的电影《大话西游》 将在今年4月重映”后,苹果手机可以利用语音识别技术将用户输入的语音转换为对应的文本形式的自然语句,进而将该自然语句作为待识别的文本。
当然,终端设备还可以采用其他方式获取待识别的文本,在此不对终端 设备获取待识别的文本的具体方式做任何限定。
需要说明的是,若以服务器作为本申请实施例提供的命名实体识别方法 的执行主体,服务器可以直接将终端设备发送的自然语句作为待识别的文本, 当然,服务器也可以采用其他方式获取待识别的文本,在此也不对服务器获 取待识别的文本的具体方式做任何限定。
步骤202:对所述待识别的文本进行分词处理得到分词序列。
终端设备获取到待识别的文本后,采用分词处理算法对该待识别的文本 进行分词处理,以得到该待识别的文本对应的分词序列。以所获取的待识别 的文本为“中华人民共和国的首都是北京”为例,对该待识别的文本进行分词处 理后,得到的分词序列为“中华/人民/共和国/的/首都/是/北京”。
常见的分词处理算法包括基于词典的分词算法和基于统计的分词算法; 采用基于词典的分词算法对待识别的文本进行分词处理时,终端设备可以按 照一定的策略将待识别的文本与词典中存储的词条进行匹配,若与词典中某 个词条匹配成功,则可确定该词条对应的分词为分词序列中的一个分词,如 此确定出待识别的文本对应的分词序列中的各个分词;采用基于统计的分词算法进行分词处理时,终端设备可以统计输入的待识别文本中相邻的字同时 出现的次数,应理解,相邻的字同时出现的次数越多,则相邻的字能够构成 分词的概率就越高,因此,终端设备可以通过统计的字与字相邻出现的概率 或频率,确定待识别的文本对应的分词序列中的各个分词。
需要说明的是,终端设备进行命名实体识别时,还可以采用其他分词处 理算法确定待识别文本对应的分词序列,在此不对所采用的分词处理算法做 任何限定。
步骤203:将所述分词序列输入命名实体识别模型,获取所述命名实体识 别模型输出的各个分词对应的命名实体属性标识。
终端设备获取到与待识别的文本对应的分词序列后,将该分词序列输入 至终端设备上运行的命名实体识别模型中,该命名实体识别模型通过对分词 序列中的各个分词进行处理,确定各个分词对应的命名实体属性标识,该命 名实体属性标识能够表征分词序列中的各分词是否属于命名实体。
上述命名实体识别模型用于根据分词序列中各分词自身及其上下文各部 分的多维分词特征,通过前馈神经网络识别得到各分词对应的命名实体属性 标识,该多维分词特征包括一元组分词和多元组分词。命名实体识别模型具 体进行命名实体识别时,会根据输入的分词序列中的各个分词,确定各个分 词的自身及其上下文各部分的多维分词特征,进而利用命名实体识别模型中的前馈神经网络,根据各个分词的自身及其上下文各部分的多维分词特征, 确定出各个分词各自对应的命名实体属性标识。
需要说明的是,各分词的上下文部分包括各分词的左上下文部分和右上 下文部分,某个分词的左上下文部分指的是分词序列中处于该分词左边的预 设数量的分词,某个分词的右上下文部分指的是分词序列中处于该分词右边 的预设数量的分词,在一些情况下,某个分词的左上下文部分和右上下文部 分中还可以包括该分词自身。
应理解,若命名实体识别模型当前所处理的分词为位于分词序列总最左 边的分词,则针对该分词不存在左上下文部分;同理,若命名实体识别模型 当前所处理的分词为位于分词序列中最右边的分词,则针对该分词不存在右 上下文部分。
可选的,上述分词自身及其上下文部分具体可以包括:单个分词、该单 个分词的局部左上下文词序列、该单个分词的局部右上下文词序列、该单个分词的全局左上下文词序列、该单个分词的全局右上下文词序列。
其中,局部左上下文词序列是指与单个分词左边相邻的第一预设长度的 分词序列;局部右上下文词序列是指与单个分词右边相邻的第二预设长度的 分词序列;全局左上下文词序列包括按照左右顺序连接的局部左上下文词序 列和单个分词;全局右上下文词序列包括按照左右顺序连接的单个分词和局 部右上下文词序列。
需要说明的是,上述第一预设长度能够表征左上下文词序列的长度,即 该左上下文词序列中所包括的分词的数量;同理,上述第二预设长度能够表 征右上下文词序列的长度,即该右上下文词序列中所包括的分词的数量。上 述第一预设长度和第二预设长度可以根据实际情况进行设定,在此不对第一 预设长度和第二预设长度做具体限定。
为了便于进一步理解上述局部左上下文词序列、局部右上下文词序列、 全局左上下文词序列以及全局右上下文词序列的概念,下面对其进行举例说 明:假设输入命名实体识别模型中的分词序列为“中华/人民/共和国/的/首都/ 是/北京”,第一预设长度和第二预设长度均为2,那么,针对分词“共和国”的 局部左上下文词序列指的是“中华/人民”,针对分词“共和国”的局部右上下文 词序列指的是“的/首都”,针对分词“共和国”的全局左上下文词序列指的是“中华/人民/共和国”,针对“共和国”的全局右上下文词序列指的是“共和国/的/首 都”。
命名实体识别模型进行命名实体识别时,需要基于各分词的自身及其上 下文各部分的分词特征进行处理;该多维分词特征包括一元组分词和多元组 分词;其中,一元组分词为分词自身以及上下文各部分包括的每个单独的分 词,多元组分词为由分词上下文各部分中相邻的多个分词组合而成的词序列, 应理解,分词自身对应的多维分词特征仅包括一元组分词,不包括多元组分词。
可选的,上述多维分词特征具体可以包括一元组分词和二元组分词,该 二元组分词是以相邻两个分词组合而成的。
为了便于理解该多维分词特征的概念,下面仍以输入的分词序列为“中华 /人民/共和国/的/首都/是/北京”,且针对分词“共和国”确定其自身及其上下 文各部分的多维分词特征为例进行说明:单个分词“共和国”的多维分词特征仅 包括一元组分词,即分词“共和国”本身;局部左上下文词序列“中华/人民”的 多维分词特征包括:一元组分词“中华”和“人民”,二元组分词包括“中华/人民”;局部右上下文词序列“的/首都”的多维分词特征包括:一元组分词“的”和 “首都”,二元组分词包括“的/首都”;全局左上下文词序列“中华/人民/共和国” 的多维分词特征包括:一元组分词“中华”、“人民”和“共和国”,二元组分词包括“中华/人民”和“人民/共和国”;全局右上下文词序列“共和国/的/首都”的多维 分词特征包括:一元组分词“共和国”、“的”和“首都”,二元组分词“共和国/的”和“的/首都”。
利用命名实体识别模型对各分词自身以及上下文各部分的多维分词特征 进行处理后,能够输出各分词各自对应的命名实体属性标识,该命名实体属 性标识能够表征各分词是否为命名实体,在一些情况下,命名实体属性标识 还能够表征各分词具体属于命名实体中的哪个部分。
在一种可能的实现方式中,可以采用三标注体系作为命名实体属性标识 的标注方式,该命名实体属性标识可以包括命名实体的起始标识、命名实体 的延续标识和非命名实体标识;其中,命名实体的起始标识表征该分词位于 命名实体的起始部分或者该分词本身即为命名实体,命名实体的延续标识表 征该分词位于命名实体的中间部分或结束部分,非命名实体标识表征该分词不属于命名实体。
例如,针对分词序列“中华/人民/共和国/的/首都/是/北京”,分词“中华”的 命名实体属性标识应该为命名实体的起始标识,分词“人民”的命名实体属性标 识应该为命名实体的延续标识,分词“共和国”的命名实体属性标识也应该为命 名实体的延续标识,分词“的”、“首都”和“是”的命名实体属性标识均应该为非 命名实体标识,分词“北京”的命名实体属性标识应该为命名实体的起始标识。
在另一种可能的实现方式中,可以采用四标注体系作为命名实体属性标 识的标注方式,该命名实体属性标识可以包括:属性标识B、属性标识I、属 性标识E、属性标识O、以及属性标识S;其中,属性标识B表示命名实体的 起始标识;属性标识I表示命名实体的延续标识;属性标识E表示命名实体的结束标识;属性标识O表示非命名实体;属性标识S表示单个命名实体。
例如,针对分词序列“中华/人民/共和国/的/首都/是/北京”,其正确的命名 属性标注结果应该为“BIEOOOS”,即,分词“中华”的命名实体属性标识为属 性标识B,分词“人民”的命名实体属性标识为属性标识I,分词“共和国”的命 名实体属性标识为属性标识E,分词“的”、“首都”和“是”的命名实体属性标识 均为属性标识O,分词“北京”的命名实体属性标识为属性标识S。
当然,命名实体识别模型还可以采用其他命名实体属性标注方式,标注 各分词序列中各分词对应的命名实体属性,在此不对所采用的命名实体属性 标注方式做任何限定。
步骤204:根据所述分词序列中各分词对应的命名实体属性标识,确定所 述待识别的文本中的命名实体。
终端设备利用命名实体识别模型获得分词序列中各分词各自对应的命名 实体属性标识后,即可相应地根据各分词各自对应的命名实体属性标识,确 定待识别文本中的命名实体。由于命名实体属性标识能够表征各分词是否属 于命名实体,以及各分词在命名实体中所处的位置,因此,终端设备根据分 词序列中各分词各自对应的命名实体属性标识,可以确定出待识别文本中的命名实体。
下面以命名实体识别模型采用四标注体系标注命名实体属性标识为例, 对确定待识别文本中的命名实体进行举例说明:
命名实体模型对输入的分词序列“中华/人民/共和国/的/首都/是/北京”进 行处理后,输出对应的命名实体属性标注结果“BIEOOOS”,由于属性标识B 表示命名实体的起始标识,属性标识I表示命名实体的延续标识,属性标识E 表示命名实体的结束标识,因此,可以确定与属性标识B对应的分词“中华”、 与属性标识I对应的人民以及与属性标识E对应的“共和国”,共同构成一个命 名实体“中华人民共和国”;由于属性标识S表示单个命名实体,因此,可以 确定属性标识S对应的分词“北京”为单个命名实体。
应理解,当采用其他标注体系标注命名实体属性标识时,终端设备会相 应地根据其他标注体系中各属性标识对应的含义,确定待识别的文本中的命名实体,在此不对确定待识别文本中的命名实体的具体方式做任何限定。
本申请实施例提供的命名实体识别方法中应用了一种新型的命名实体识 别模型,该模型能够根据分词序列中各分词自身及其上下文各部分的多维分 词特征,通过前馈神经网络识别得到各分词对应的命名实体属性标识,相比 现有技术BiLSTM+CRF模型,该命名实体识别模型采用前馈神经网络,其主要依赖于一个参数矩阵实现识别,其网络结构简单,网络参数较少,便于训 练和更新,能够快速试验以投入实际应用;另外,由于多维分词特征包括一 元组分词和多元组分词,因此,通过各个分词相关多维分词特征能够更全面、更充分地表达分词的语义信息,为前馈神经网络提供更丰富的基础数据,从 而能够提高命名实体识别的准确率。具体的,在该方法中先获取待识别的文 本,对待识别的文本进行分词处理得到分词序列,进而利用该命名实体识别模型针对分词序列中各个分词识别得到各个分词对应的命名实体属性标识; 最后,根据分词序列中各分词对应的命名实体属性标识,确定所述待识别的 文本中的命名实体。可见,该方法基于新型的命名实体识别模型进行命名实 体识别,一方面能够提高识别的准确率,另一方面便于在产品中推广应用。
如上文所述,本申请实施例提供的命名实体识别方法需要基于命名实体 识别模型,根据输入的分词序列中各分词自身及其上下文各部分的多维分词 特征,通过前馈神经网络识别得到各分词对应的命名实体属性标识。为了便 于进一步理解本申请实施例提供的命名实体识别方法,下面结合附图对上述 命名实体识别模型进行具体介绍。
参见图3,图3为本申请实施例提供的命名实体识别模型300的架构示意 图。如图3所示,该命名实体识别模型300包括:级联的特征提取模块301、 编码模块302以及分类模块303。
其中,特征提取模块301用于针对分词序列中的各分词,提取各分词自 身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分 词特征映射为词向量,根据各分词各个部分的词向量生成各分词各自对应的 语义向量。
特征提取模块301负责确定分词序列中各分词对应的语义向量。特征提 取模块301针对分词序列中某一分词确定其对应的语义向量时,先获取该分 词自身以及该分词的上下文部分,然后提取该分词自身以及该分词上下文各部分的多维分词特征,即从该分词自身以及该分词的上下文各部分中提取一 元组分词和多元组分词;接下来,将各部分多维分词特征中的各一元组分词 和各多元组分词分别映射为对应的词向量,线性组合每部分多维分词特征中 各一元组分词和各多元组分词对应的词向量,得到分词自身以及分词上下文 各部分对应的词向量;进而,将该分词自身以及分词上下文各部分对应的词向量首尾拼接,生成该分词对应的语义向量。由此,特征提取模块301按照 上述流程,确定出分词序列中各个分词对应的语义向量。
特征提取模块301具体确定分词对应的语义向量时,需要依赖其中包括 的级联的多维分词特征提取模型和词嵌入模型。
其中,多维分词特征提取模型用于按照上下文选取窗口从分词序列中, 针对各个分词提取得到分词本身及其上下文各个部分的多维分词特征。
利用多维分词特征提取模型提取多维分词特征时,多维分词特征提取模 型会按照上下文选取窗口从分词序列中,选取出该分词的上下文部分,其中, 上下文选取窗口指的是上下文词序列选取长度,即上下文选取窗口能够确定 所选取的上下文词序列中所包括的分词数量;进而,提取该分词自身以及该 分词的上下文部分的多维分词特征,即提取该分词自身以及该分词的上下文部分中的一元组分词和多元组分词。
其中,词嵌入模型用于根据多维分词特征提取模型针对各个分词提取的 多维分词特征,通过词嵌入表获取与各个分词特征得到对应的语义向量。
具体应用时,词嵌入模型先通过查询词嵌入表的方式,确定分词自身以 及上下文各部分的多维分词特征中各一元组分词对应的词向量,以及各多元 组分词对应的词向量;然后,将所确定的各部分的多维分词特征的词向量线 型组合起来,即将各部分的多维分词特征中一元组分词对应的词向量以及多 元组分词对应的词向量线型组合起来,由此构成分词自身以及上下文各部分各自对应的词向量;进而,按照分词序列中从左至右的顺序,将分词自身以 及分词上下文各部分对应的词向量首尾拼接起来,构成与该分词特征对应的语义向量。
需要说明的是,由于多个分词组合形成的多元组分词数量太大,导致在 实际应用时会占用过高的内存空间,为了减少多元组分词所占用的内存空间, 特征提取模块中还可以包括映射模型;该映射模型用于采用哈希函数将多元 组分词映射到固定长度的整数空间,得到与多元组分词对应的整数索引,所述固定长度为多元组词嵌入表的长度。
则词嵌入模型具体用于根据多维分词特征提取模型针对各个分词提取的 分词本身及其上下文各个部分的一元组分词,通过一元组词嵌入表获取得到 对应的词向量;以及,针对各个分词提取的分词本身及其上下文各个部分的 多元组分词,根据映射模型输出的多元组分词对应的整数索引,从多元组词 嵌入表中获取对应的词向量。
具体应用时,多维分词特征提取模型将所提取的多维分词特征的多元组 分词输入至映射模型,相应地,该映射模型采用哈希函数将多维分词特征中 的多元组分词映射至固定长度的整数空间,获得与各多元组分词分别对应的 整数索引,并将各整数索引输入至词嵌入模型;词嵌入模型根据多维特征提 取模型输出的多维分词特征中的一元组分词,通过查询一元组词嵌入表获得对应的词向量;根据映射模型输出的与各多元组分词对应的各整数索引,通 过查询对应的多元组词嵌入表获得各多元组分词对应的词向量;由此,词嵌入模型再根据所确定出的各部分的多维分词特征中一元组分词的词向量以及 多元组分词的词向量,确定分词自身以及上下文各部分对应的词向量,进而 确定该分词对应的语义向量。
为了便于理解上述特征提取模块中各个模型的工作原理,下面对该特征 提取模块的工作过程进行举例说明:
假设输入的分词序列为X=w1w2w3w4w5w6w7,现针对分词w4确定其对 应的语义向量。将该分词序列输入至多维分词特征提取模型后,多维分词特 征提取模型按照上下文选取窗口,选取分词w4的自身以及上下文部分,分词w4的自身及其上下文部分具体包括w4的局部左上下文词序列P1=w2w3、全局左 上下文词序列P2=w2w3w4、单个分词P3=w4、局部右上下文词序列 P4=w5w6以及全局右上下文词序列P5=w4w5w6;选取出分词w4的自身以及 其上下文部分后,多维分词特征提取模型进一步提取该分词本身及其上下文 各部分的多维分词特征,以提取局部左上下文词序列P1的多维分词特征为例, 多维分词特征提取模型提取其中的一元组分词包括w2和w3,提取其中的二元 组分词包括w2/w3。
多维分词特征提取模型提取得到分词本身及其上下文各部分的多维分词 特征后,将多维分词特征中的多元组分词输入至映射模型,映射模型将多元 组分词映射至固定长度的整数空间,得到对应的整数索引;以映射局部左上 下文词序列P1的多维分词特征中的二元组分词w2/w3为例,映射模型将二元组 分词w2/w3映射至固定长度为M的整数空间[0,1,2,…,M-1],得到对应的整数索引n(n∈[0,M-1]),需要说明的是二元组词嵌入表ET2的长度也为M。
进而,多维分词特征提取模型将提取到的分词本身以及上下文各部分的 多维分词特征输入至词嵌入模型,同时映射模型也将各多维分词特征中各多 元组分词对应的整数索引输入至词嵌入模型中,词嵌入模型通过查询词嵌入 表获取各多维分词特征对应的词向量。例如,针对分词w4的局部左上下文词 序列P1的多维分词特征,词嵌入模型通过查询一元组词嵌入表ET1,确定局部 左上下文词序列P1的多维分词特征中一元组分词w2对应的词向量为d维的 ET1(w2)、确定一元组分词w3对应的词向量为d维的ET1(w3);词嵌入模型通过查询二元组词嵌入表ET2,确定与整数索引n对应的二元组分词w2/w3对应 的词向量为d维的ET2(w2/w3)。
然后,词嵌入模型根据各部分的多维分词特征对应的词向量,确定分词 自身以及上下文各部分对应的语义向量,进而根据分词自身以及上下文各部 分对应的词向量确定该分词特征对应的语义向量。针对分词w4的局部左上下 文词序列P1确定与之对应的语义向量时,可以将其多维分词特征中一元组分 词对应的词向量ET1(W2)和ET1(w2),以及二元组分词对应的词向量 ET2(w2/w3)进行线性组合,得到一个d维的向量作为局部左上下文词序列P1对应的语义向量v1,并按照该方法得到全局左上下文词序列P2对应的语义向 量v2、单个分词P3对应的语义向量v3、局部右上下文词序列P4对应的语义向 量v4以及全局右上下文词序列P5对应的语义向量v5;进而将分词w4自身以及 上下文各部分对应的语义向量首尾拼接起来,形成分词w4对应的语义向量V。
具体计算w4对应的语义向量时涉及的公式如式(1)至式(12)所示:
X=w2w3w4w5w6 (1)
P1=w2w3 (2)
P2=w2w3w4 (3)
P3=w4 (4)
P4=w5w6 (5)
P5=w4w5w6 (6)
v1=L(ET1(w2),ET1(w3),ET2(w2/w3)) (7)
v2=L(ET1(w2),ET1(w3),ET1(w4),ET2(w2/w3),ET2(w3/w4)) (8)
v3=L(ET1(w4)) (9)
v4=L(ET1(w5),ET1(w6),ET2(w5/w6)) (10)
v5=L(ET1(w4),ET1(w5),ET1(w6),ET2(w4/w5),ET2(w5/w6)) (11)
V=(v1|v2|v3|v4|v5) (12)
其中,X为针对分词w4确定对应的语义向量时输入的分词序列, w2、w3、w4、w5和w6均为分词序列X中所包括的分词;P1为分词w4对应的 局部左上下文词序列,P2为分词w4对应的全局左上下文词序列,P3为分词w4对 应的单个分词,P4为分词w4对应的局部右上下文词序列,P5为分词w4对应的 全局右上下文词序列;v1为局部左上下文词序列P1对应的语义向量,v2为全局 左上下文词序列P2对应的语义向量,v3为单个分词w4对应的语义向量,v4为 局部右上下文词序列P4对应的语义向量,v5为全局右上下文词序列P5对应的语 义向量;V为分词w4对应的语义向量。
编码模块302用于根据所述特征提取模块输出的语义向量,通过前馈神 经网络学习得到各分词对应的命名实体属性特征向量,所述命名实体属性特 征向量用于表征分词在所有命名实体属性标识类别下表现的特征向量。
特征提取模块301生成各分词对应的语义向量后,将该语义向量输入至 编码模块302;相应地,编码模块302通过前馈神经网络学习各分词对应语义向量,获得各分词对应的命名实体属性特征向量,该命名实体属性特征向量 能够表征分词在所有命名实体属性标识类别下表现的特征向量。
编码模块302通过前馈神经网络学习各分词对应的语义向量时,所采用 的公式如式(13)所示:
ht=σ(WXt+b) (13)
其中,Xt为输入的分词对应的语义向量,ht为输出的该分词对应的命名实 体属性特征向量。该前馈神经网络的结构非常简单,仅需要通过简单的计算, 即可根据输入的分词对应的语义向量,确定其对应的命名实体属性特征向量。
以四标注体系为例,编码模块302能够根据输入的分词对应的语义向量, 通过前馈神经网络对其进行编码,输出一个维度为5的命名实体属性特征向 量,该命名实体属性特征向量具体表现为针对属性标识B、I、E、O和S各有 一个对应的标记值,该标记值能够对应地表征输入的语义向量在属性标识B、 I、E、O和S下表现的特征向量。
需要说明的是,编码模块302中所采用的前馈神经网络通常为全连接前 馈神经网络,该全连接前馈神经网络能够保证确定的命名实体属性特征向量 更加准确。
分类模块303用于根据所述编码模块302输出的各分词对应的命名实体 属性特征向量,分类得到各分词对应的命名实体属性标识。
编码模块302通过前馈神经网络编码获得各分词对应的命名实体属性特 征向量后,将各分词对应的命名实体属性特征向量输入至分类模块303;分类 模块303针对某个分词确定其对应的命名实体属性特征向量时,根据编码模块302输入的该分词对应的命名实体属性特征向量,确定该分词在各个命名 实体属性标识类别下的概率,通过比较该分词在各个命名实体属性标识类别 下的概率,确定概率最大的命名实体属性标识为该分词对应的命名实体属性 标识。
需要说明的是,上述分类模块303通常基于softmax分类器实现其功能, softmax分类器是以多项式分布为模型进行建模的,其输入为样本特性向量, 输出为样本属于各个类别的概率,基于该softmax分类器,分类模块303即可确定分词属于各个命名实体属性标识的概率。
为了便于理解上述分类模块303的工作原理,下面对分类模块303的工 作过程进行举例说明:
假设编码模块输出的命名实体属性特征向量为[F(X,t1),F(X,t2),F(X,t3), F(X,t4),F(X,t5)],其中,F(X,t1)为第1个命名实体属性标识对应的值,F(X,t2) 为第2个命名实体属性标识对应的值,F(X,t3)为第3个命名实体属性标识对 应的值,F(X,t4)为第4个命名实体属性标识对应的值,F(X,t5)为第5个命 名实体属性标识对应的值。
分类模块303根据输入的命名实体属性特征向量[F(X,t1),F(X,t2),F(X,t3), F(X,t4),F(X,t5)],确定各分词的对应的命名实体属性标识时,先根据输入的命名实体属性特征向量确定各命名实体属性标识对应的预测概率,以确定第1 个命名实体属性标识对应的概率为例,softmax分类器确定第一个命名实体属 性标识对应的概率时采用的公式如式(14)所示:
其中,p(t1|X)为第一个命名实体属性标识对应的预测概率。
如此确定出5个命名实体属性标识各自对应的预测概率,比较5个命名 实体属性标识各自对应的预测概率的大小,确定预测概率最大的命名实体属 性标识为该分词对应的命名实体属性标识。
需要说明的是,多维分词特征中各一元组分词和各多元组分词,与当前 所处理的分词之间的距离不同,根据各一元组分词和各多元组分词对应的词 向量确定该分词对应的语义向量时,各距离不同的一元组分词和各多元组分 词对应的词向量对该分词对应的语义向量产生的影响也不同。通常情况下, 多维分词特征中一元组分词和多元组分词与当前处理的分词之间的距离越近,则该一元组分词和多元组分词对应的词向量对该分词对应的语义向量的 影响越大;与当前处理的分词之间的距离越远,则该一元组分词和多元组分词对应的词向量对该分词对应的语义向量影响越小。
由于各分词对应的语义向量会对最终确定的命名实体属性标识结果产生 影响,因此,为了保证命名实体识别模型能够更加准确地确定出各分词对应 的预测命名实体属性标识,可以在确定各分词对应的语义向量时,将多维分 词特征中一元组分词和多元组分词与当前所处理的分词之间的距离作为参考 影响因素,并针对该参考影响因素在命名实体识别模型中增设上下文权重衰减模块,该上下文权重衰减模块与特征提取模块相连。
该上下文权重衰减模块用于根据分词上下文与分词之间的距离确定上下 文对分词的上下文衰减权重,根据上下文衰减权重对特征提取模块处理的各 分词各个部分的词向量进行加权处理得到优化词向量,并将该优化词向量输 出至特征提取模块。
则特征提取模块具体用于针对分词序列中的各分词,提取各分词自身以 及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词特 征映射为词向量,并根据所述优化词向量生成各分词各自对应的优化语义向 量。
具体应用时,上下文权重衰减模块先确定分词上下文的多维分词特征与 该分词之间距离,假设分词wi上下文的多维分词特征中某个一元组分词分词 wj与分词wi之间相隔a个单词,则定义一元组分词wj与分词wi之间的距离 s1=a+1;同样地,多元组分词wj-n/…/wj-1/wj与分词wi之间的距离s2=a+1;然 后,根据分词上下文多维分词特征中一元组分词以及多元组分词与当前所处 理的分词之间的距离,确定对应的上下文衰减权重,该上下文衰减权重能够 表征分词之间的距离对多维分词特征对应的词向量的影响;进而,根据多维分词特征中各一元组分词以及各多元组分词各自对应的上下文衰减权重,对 多维分词特征中各一元组分词以及各多元组分词各自对应的词向量进行加权处理,得到各一元组分词以及各多元组分词对应的优化词向量。
相应地,上下文权重衰减模块将分词上下文各部分的多维分词特征中各 一元组分词以及各多元组分词对应的优化词向量,输入至特征提取模块。特 征提取模块基于所获取的优化词向量,确定出分词上下文各部分对应的优化 词向量,进而确定该分词对应的优化语义向量。
为了便于理解上述上下文权重衰减模块的工作原理,下面对上述上下文 权重衰减模块的工作过程进行举例说明:
以确定分词w4的全局左上下文词序列P2对应的优化语义向量为例,上下 文权重衰减模块先确定全局左上下文词序列P2的多维分词特征中各一元组分 词与分词w4之间的距离,以及各二元组分词与分词w4之间的距离,即确定左 上下文词序列P2的多维分词特征中,一元组分词w2与分词w4之间的距离为s2, 一元组分词w3与分词w4之间的距离为s1,一元组分词w4与分词w4之间的距离 为s0,二元组分词w2/w3与分词w4之间的距离为s1,二元组分词w3/w4之间 的距离为s0。
然后,上下文权重衰减模块根据上述多维分词特征中各一元组分词以及 各二元组分词与分词w4之间的距离,确定各一元组分词以及各二元组分词对 应的上下文衰减权重;进而,在确定分词w4的全局左上下文词序列P2对应的 优化语义向量时,利用该对应的上下文衰减权重优化各一元组分词对应的词 向量以及各二元组分词对应的词向量,最终,根据优化后的多维分词特征对 应的词向量确定全局左上下文词序列P2对应的优化语义向量。
具体确定全局左上下文词序列P2对应的优化语义向量所采用的公式如式 (15)所示:
v′2=L(u1,u2,u3,u4,u5)
=Avg(ds2*ET1(w2),ds1*ET1(w3),ds0*ET1(w4),ds1*ET2(w2/w3),ds0* ET2(w3/w4))
(15)
其中,v′2为全局左上下文词序列P2对应的优化语义向量,u1为一元组分 词w2的优化词向量,u2为一元组分词w3的优化词向量,u3为一元组分词w4的 优化词向量,u4为二元组分词w2/w3对应的优化词向量,u5为二元组分词 w3/w4对应的优化词向量;ds2为一元组分词w2对应的上下文衰减权重,ds1为 一元组分词w3和二元组分词w2/w3对应的上下文衰减权重,ds0为一元组分词 w4和二元组分词w3/w4对应的上下文衰减权重。
按照上述方法得到分词w4自身以及上下文各部分对应的优化语义向量, 进而将各部分对应的优化语义向量首尾拼接起来,构成分词w4的优化语义向 量。
由此得到各分词的优化语义向量,考虑到了分词之间的距离对各分词对 应的命名实体属性标识的影响,因此,基于如此得到的分词的优化语义向量, 能够更准确地确定出各分词对应的命名实体属性标识。
需要说明的是,为了防止所确定的相邻的分词对应的命名实体属性标识 不符合实际构词规则,提高分类模块303确定命名实体属性标识的准确率, 在本申请实施例提供的命名实体识别模型中,还可以增设属性标识转移模块, 该属性标识转移模块与编码模块302和分类模块303相连。
属性标识转移模块用于根据属性标识概率转移矩阵对编码模块302输出 的命名实体属性特征向量进行修正得到修正的命名实体属性特征向量,将修 正的命名实体属性特征向量输出至分类模块303。
则分类模块303具体用于根据属性标识转移模块输出的各分词对应的修 正的命名实体属性特征向量,分类得到各分词对应的命名实体属性标识。
具体应用时,属性标识转移模块根据与当前分词相邻的前一个分词对应 的命名实体属性标识以及属性标识概率转移矩阵,对编码模块302输出的命 名实体属性特性向量进行修正,该属性标识概率转移矩阵中记录有各个命名 实体属性标识之间的转移概率,命名实体属性标识之间的转移概率能够表征 从一个属性标识转移至另一个属性标识的可能性大小,如此得到修正后的命 名实体属性特征向量,进而将该修正后的命名实体属性特征向量输出至分类 模块303;相应地,分类模块303即可根据属性标识转移模块输出的各分词对 应的修正的命名实体属性特征向量,分类得到各分词对应的命名实体属性标识。
需要说明的是,若当前分词为分词序列中最左边的分词,则其对应的转 移概率均为0,即无需利用属性标识转移模块根据属性标识转移概率矩阵,对 其对应的命名实体属性特征向量进行修正。
为了便于理解上述属性标识转移模块的工作原理,下面以四标注体系为 例,对上述属性标识转移模块的工作过程进行举例说明:
参见图4,图4为四标注体系对应的属性标识概率转移矩阵的示意图,该 概率转移矩阵的大小为5*5,每个小方块代表属性标识概率转移矩阵中的一个 元素,第i行第j列的元素aij表示从第i个属性标识转移至第j个属性标识的 概率;若方块的颜色为灰色,则表示该方块对应的元素值大于0,若方块的颜 色为白色,则表示该方块对应的元素值等于0;例如,从属性标识B转移至 属性标识B对应的方块的颜色为白色,则说明从属性标识B转移至属性标识 B不合理,其对应的转移概率为0;又例如,从属性标识B转移至属性标识I 对应的方块的颜色为灰色,则说明从属性标识B转移至属性标识I较为合理,其对应的转移概率大于0。
属性标识转移模块获取当前分词的前一个分词对应的命名实体属性标 识,进而根据前一个分词对应的命名实体属性标识以及图4所示的属性标识 概率转移矩阵,对编码模块输出的命名实体属性标识特性向量进行修正,得 到修正的命名实体属性特征向量,具体修正命名实体属性标识特性向量时采 用的公式如式(16)所示:
S(X,tk)=F(X,tk)+λ*TP(ti-1,tk) (16)
其中,S(X,tk)为修正的命名实体属性特征向量,F(X,tk)为第k个属性标 识对应的命名实体属性标识特性向量,ti-1为当前分词的前一个分词对应的属 性标识,Tp(ti-1,tk)为从属性标识ti-1至属性标识tk的转移概率,λ标识转移概 率对修正的命名实体属性特性向量的影响权重。
属性标识转移模块获得修正的命名实体属性特征向量后,将修正的命名 实体属性特征向量输出至分类模块,相应地,分类模块采用式(17)计算第k各 属性标识对应的预测概率:
其中,p(tk|X)表示第k个属性标识对应的预测概率。
如此,在确定命名实体属性标识的过程中,将当前分词与前一个分词之 间的属性标识转移概率作为考虑因素,防止所确定当前分词对应的命名实体 属性标识与前一个分词对应的命名实体属性标识不符合实际构词规则,能够 进一步增加所确定的命名实体属性标识的准确率。
上述命名实体识别模型能够根据分词序列中各分词自身及其上下文各部 分的多维分词特征,通过前馈神经网络识别得到各分词对应的命名实体属性 标识,相比现有技术BiLSTM+CRF模型,该命名实体识别模型采用前馈神经 网络,其主要依赖于一个参数矩阵实现识别,其网络结构简单,网络参数较少,便于训练和更新,能够快速试验以投入实际应用;另外,由于多维分词 特征包括一元组分词和多元组分词,因此,通过各个分词相关多维分词特征 能够更全面、更充分地表达分词的语义信息,为前馈神经网络提供更丰富的基础数据,从而能够提高命名实体识别的准确率。
应理解,上述命名实体识别模型能否准确地确定出各分词对应的命名实 体属性标识,依赖于该命名实体识别模型的模型性能,而命名实体识别模型 的模型性能的好坏取决于该命名识别模型的训练过程。
下面将对命名实体识别模型的训练方法进行介绍。参见图5,图5为本申 请实施例提供的命名实体识别模型的训练方法的流程示意图,该训练方法包 括以下步骤:
步骤501:获取多个样本数据。
训练命名实体识别模型时,需要获取多个样本数据,利用所获取的样本 数据对命名实体识别初始模型进行训练;所获取的每个样本数据中均包括样 本文本及其多个分词标注数据,该分词标注数据中包括从该样本文本中分词 的分词及其在该样本文本中的真实命名实体属性标识。
由于命名实体识别模型的输入为分词序列,输出为分词序列中各个分词 对应的命名实体属性标识,因此,利用样本数据对命名实体识别初始模型进 行训练时,需要获取与命名实体识别模型相同的输入和输出。即需要通过对 样本数据中的样本文本进行分词处理,得到与各样本文本对应的样本分词序 列,将所获得的样本分词序列作为用于训练命名实体识别初始模型的输入数据;利用命名实体识别初始模型对样本分词序列进行相应地处理后,获得样 本分词序列中各分词的预测命名实体属性标识,通过对比各分词的预测命名 实体属性标识和各分词在样本文本中的真实命名实体属性标识,优化训练命 名实体识别初始模型。
以训练基于四标注体系构建的命名实体识别初始模型为例,训练该命名 实体识别初始模型时,所获取的样本数据包括:样本文本“中华人民共和国的 首都是北京”,以及该样本文本中的多个分词标注数据,具体包括:分词“中华” 在样本文本中的真实命名实体属性标识B、分词“人民”在样本文本中的真实命名实体属性标识I、分词“共和国”在样本文本中的真实命名实体属性标识E、 分词“的”在样本文本中的真实命名实体属性标识O、分词“首都”在样本文本中 的真实命名实体属性标识O、分词“是”在样本文本中的真实命名实体属性标识 O以及分词“北京”在样本文本中的真实命名实体属性标识S。
应理解,训练命名实体识别模型时通常需要获取大量的样本数据,以保 证基于该样本数据能够训练得到性能较好的命名实体识别模型。
步骤502:根据前馈神经网络结构构建命名实体识别初始模型。
训练命名实体识别模型时,需要根据前馈神经网络结构构建命名实体识 别初始模型,该前馈神经网络结构主要依赖于一个参数矩阵实现命名实体属 性标识的确定,该前馈神经网络的网络结构较为简单,网络参数较少。基于 前馈神经网络构建的命名实体识别初始模型,能够通过对输入的分词序列进行相应地处理,输出与该分词序列中各个分词对应的预测命名实体属性标识。
步骤503:利用所述多个样本数据对所述命名实体识别初始模型进行训 练,以训练得到满足训练结束条件的命名实体识别模型。
根据前馈神经网络构建出命名实体识别初始模型后,即可利用在步骤501 中获取的多个样本数据对命名实体识别初始模型进行训练,待所训练的命名 实体识别初始模型满足训练结束条件后,即可根据满足训练结束条件时的命 名实体识别初始模型的模型结构和模型参数,构建可以投入实际应用的命名 实体识别模型。
需要说明的是,该命名实体识别初始模型能够实现的功能与命名实体识 别模型能够实现的功能相同,该命名实体识别初始模型能够根据样本数据中 各分词自身及其上下文各部分的多维分词特征,通过前馈神经网络识别得到 各分词对应的预测命名实体属性标识,该多维分词特征中包括一元组分词和 多元组分词。
训练命名实体识别初始模型时,可以先对样本数据中的样本文本进行分 词处理得到样本分词序列,将该样本分词序列输入至命名实体识别初始模型; 命名实体识别初始模型根据样本分词序列中各分词自身及其上下文各部分的 多维分词特征,通过前馈神经网络识别得到样本分词序列中各分词对应的预 测命名实体属性标识;进而,根据各分词对应的预测命名实体属性标识与样本数据中各分词的真实命名实体属性标识之间的误差,构建损失函数,进而 根据该损失函数对命名实体识别初始模型中的模型参数进行调整,从而实现 对命名实体识别初始模型的优化。当命名实体识别初始模型满足训练结束条 件时,即可根据当前命名实体识别模型的模型参数以及模型结构,确定命名 实体识别模型。
具体判断命名实体识别初始模型是否满足训练结束条件时,可以利用测 试样本对第一模型进行验证,其中,第一模型是利用样本数据对命名实体识 别初始模型进行第一轮训练优化得到的模型,具体的,将测试样本中的测试 样本文本对应的样本分词序列输入至第一模型,利用该第一模型识别测试样 本文本中的命名实体,得到测试样本文本中各分词对应的测试命名实体属性标识,进而,根据各分词对应的测试命名实体属性标识与各分词的真实命名 实体属性标识计算命名实体识别的准确率,当命名实体识别的准确率大于预 设阈值时,即可认为该第一模型的模型性能较好已能够满足需求,则可以根 据该第一模型的模型参数及网络结构,确定命名实体识别模型。
需要说明的是,上述预设阈值可以根据实际情况进行设定,在此不对该 预设阈值做具体限定。
此外,判断命名实体识别模型是否满足训练结束条件时,还可以根据经 多轮训练得到的多个模型,确定是否继续对模型进行训练,以获得模型性能 最优的命名实体识别模型。具体的,可以利用测试样本分别对经多轮训练得 到的多个模型进行验证,判断经各轮训练得到的模型的识别准确率之间差距 较小,则认为模型的性能已经没有提升空间,则可以选取识别准确率最高的模型,根据该模型的模型参数以及网络结构,确定命名实体识别模型;若经 各轮训练得到的命名实体识别模型的识别准确率之间具有较大的差距,则认为模型的性能还有提升的空间,可继续对模型进行训练,直到获得模型性能 较稳定的性能最优的命名实体识别模型。
采用上述模型训练方法对命名实体识别初始模型进行训练,基于各分词 的预测命名实体属性标识和各分词的真实命名实体属性标识之间的误差构建 损失函数,根据该损失函数对命名实体识别初始模型的模型参数进行调整, 进而在命名实体识别初始模型满足训练结束条件时,根据命名实体识别初始 模型的模型结构和模型参数,确定命名实体识别模型。该命名实体识别模型 采用前馈神经网络,其主要依赖于一个参数矩阵实现识别,其网络结构简单, 网络参数较少,便于训练和更新,能够快速试验以投入实际应用;另外,在 训练该命名实体识别初始模型时,需要基于各分词自身及其上下文各部分的多维分词特征进行训练,该多维分词特征中包括一元组分词和多元组分词, 能够更全面、更充分地表达分词的语义信息,为前馈神经网络提供更丰富的 基础数据。
如上文所述,采用本申请实施例提供的命名实体识别模型的训练方法, 能够通过训练优化所构建的命名实体识别初始模型,获得能够投入实际应用 的命名实体识别模型。为了便于进一步理解上述命名实体识别模型的训练方 法,下面结合附图对上述命名实体识别模型的训练架构进行介绍。
参见图6,图6为命名实体识别模型训练过程的架构示意图。如图6所示, 预先构建的命名实体识别初始模型610中包括:级联的初始特征提取模块611、 初始编码模块612以及初始分类模块613。
其中,初始特征提取模块611用于针对分词序列中的各分词,提取各分 词自身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多 维分词特征映射为词向量,根据各分词各个部分的词向量生成各分词各自对 应的语义向量。
初始特征提取模块611负责确定样本分词序列中各分词对应的语义向量。 初始特征提取模块611针对样本分词序列中某一分词确定其对应的语义向量 时,先获取该分词自身以及该分词的上下文部分,然后提取该分词自身以及该分词上下文各部分的多维分词特征,即从该分词自身以及该分词的上下文 各部分中提取一元组分词和多元组分词;然后,将各部分多维分词特征中的 各一元组分词和各多元组分词分别映射为对应的词向量,线性组合每部分多 维分词特征中各一元组分词和各多元组分词对应的词向量,得到分词自身以 及分词上下文各部分对应的词向量;进而,将该分词自身以及分词上下文各 部分对应的词向量首尾拼接,生成该分词对应的语义向量。由此,初始特征提取模块611按照上述流程,生成样本分词序列中各个分词对应的语义向量。
初始特征提取模块611具体生成样本分词序列中各分词对应的语义向量 时,需要依赖其中包括的级联的多维分词特征提取模型和词嵌入模型。
其中,多维分词特征提取模型用于按照上下文选取窗口从样本分词序列 中,针对各个分词提取得到分词本身及其上下文各个部分的多维分词特征。
利用多维分词特征提取模型提取多维分词特征时,多维分词特征提取模 型按照上下文选取窗口从分词序列中,选取出该分词的上下文部分,其中, 上下文选取窗口指的是上下文词序列选取长度;进而,提取该分词自身以及 该分词的上下文部分的多维分词特征,即提取该分词自身以及该分词的上下 文部分中的一元组分词和多元组分词。
其中,词嵌入模型用于根据多维分词特征提取模型针对各个分词提取的 多维分词特征,通过词嵌入表获取与各个分词特征得到对应的语义向量。
具体应用时,词嵌入模型先通过查询词嵌入表的方式,确定分词自身以 及上下文各部分的多维分词特征中各一元组分词对应的词向量,以及各多元 组分词对应的词向量;然后,将所确定的各部分的多维分词特征的词向量线 型组合起来,即将各部分的多维分词特征中一元组分词对应的词向量以及多 元组分词对应的词向量线型组合起来,由此构成分词自身以及上下文各部分各自对应的词向量;进而,按照分词序列中从左至右的顺序,将分词自身以 及分词上下文各部分对应的词向量首尾拼接起来,构成与该分词特征对应的语义向量。
需要说明的是,由于多个分词组合形成的多元组分词数量太大,导致在 实际应用时会占用过高的内存空间,为了减少多元组分词所占用的内存空间, 初始特征提取模块中还可以包括映射模型;该映射模型用于采用哈希函数将 多元组分词映射到固定长度的整数空间,得到与多元组分词对应的整数索引, 所述固定长度为多元组词嵌入表的长度。
则词嵌入模型具体用于根据多维分词特征提取模型针对各个分词提取的 分词本身及其上下文各个部分的一元组分词,通过一元组词嵌入表获取得到 对应的词向量;以及,针对各个分词提取的分词本身及其上下文各个部分的 多元组分词,根据映射模型输出的多元组分词对应的整数索引,从多元组词 嵌入表中获取对应的词向量。
具体应用时,多维分词特征提取模型将所提取的多维分词特征中的多元 组分词输入至映射模型,相应地,该映射模型采用哈希函数将多维分词特征 中的多元组分词映射至固定长度的整数空间,获得与各多元组分词分别对应 的整数索引,并将各整数索引输入至词嵌入模型。词嵌入模型根据多维分词 特征提取模型输出的多维分词特征中的一元组分词,通过查询一元组词嵌入表获得各一元组分词对应的词向量;词嵌入模型根据映射模型输出的与各多 元组分词对应的整数索引,通过查询多元组词嵌入表获得各多元组分词对应 的词向量;进而,词嵌入模型根据各部分的多维分词特征中一元组分词的词 向量以及多元组分词的词向量,确定分词自身以及上下文各部分对应的词向 量,进而确定该分词对应的语义向量。
初始编码模块612用于根据所述初始特征提取模块输出的语义向量,通 过前馈神经网络学习得到各分词对应的命名实体属性特征向量,所述命名实 体属性特征向量用于表征分词在所有命名实体属性标识类别下表现的特征向 量。
初始特征提取模块611生成各分词对应的语义向量后,将各分词对应的 语义向量输入至初始编码模块612;相应地,初始编码模块612通过前馈神经网络学习各分词对应语义向量,获得各分词对应的命名实体属性特征向量, 该命名实体属性特征向量能够表征分词在所有命名实体属性标识类别下表现 的特征向量。
以四标注体系为例,初始编码模块612能够根据输入的分词对应的语义 向量,通过前馈神经网络对其进行编码,输出一个维度为5的命名实体属性 特征向量,该命名实体属性特征向量具体表现为针对属性标识B、I、E、O和 S各有一个对应的标记值,该标记值能够对应地表征输入的语义向量在属性标识B、I、E、O和S下表现的特征向量。
需要说明的是,初始编码模块612中采用的前馈神经网络通常为全连接 前馈神经网络,该全连接前馈神经网络能够保证确定的命名实体属性特征向 量根据准确。
初始分类模块613用于根据初始编码模块612输出的各分词对应的命名 实体属性特征向量,分类得到各分词对应的预测命名实体属性标识。
初始编码模块612通过前馈神经网络编码获得各分词对应的命名实体属 性特征向量后,将各分词对应的命名实体属性特征向量输入至初始分类模块 613;初始分类模块613针对某个分词确定其对应的预测命名实体属性标识时, 根据初始编码模块612输入的该分词对应的命名实体属性特征向量,确定该分词在各个命名实体属性标识类别下的概率,通过比较该分词在各个命名实 体属性标识类别下的概率的大小,确定概率最大的命名实体属性标识为该分 词对应的预测命名实体属性标识。
需要说明的是,上述初始分类模块613通常基于softmax分类器实现其功 能,softmax分类器是以多项式分布为模型进行建模的,其输入为样本特性向 量,输出为样本属于各个类别的概率,基于该softmax分类器,初始分类模块613即可确定分词属于各个命名实体属性标识的概率。
如图6所示,采用上述图5所示的命名实体识别模型的训练方法对上述 命名实体识别初始模型610进行模型训练,当命名实体识别初始模型610满 足训练结束条件时,即可根据当前命名实体识别初始模型的模型结构以及模 型参数,构建可以投入实际应用的命名实体识别模块620,该命名实体识别模 型620中包括:通过优化训练初始特征提取模块611而获得的特征提取模块 621,通过优化训练初始编码模块612而获得的编码模块622,以及通过优化 训练初始分类模块613而获得的分类模块623。
需要说明的是,多维分词特征中各一元组分词和各多元组分词,与当前 所处理的分词之间的距离不同,根据各一元组分词和各多元组分词对应的词 向量确定该分词对应的语义向量时,距离不同的各一元组分词和各多元组分 词对应的词向量对该分词对应的语义向量产生的影响也不同。通常情况下, 多维分词特征中一元组分词和多元组分词与当前处理的分词之间的距离越近,则对该分词对应的语义向量的影响越大;与当前处理的分词之间的距离 越远,则对该分词对应的语义向量影响越小。
由于各分词对应的语义向量会对最终确定的命名实体属性标识结果产生 影响,因此,为了保证命名实体识别初始模型能够更加准确地确定出各分词 对应的预测命名实体属性标识,可以在确定各分词对应的语义向量时,将多 维分词特征中一元组分词和多元组分词与当前所处理的分词之间的距离作为 参考影响因素,并针对该参考影响因素在命名实体识别初始模型中增设初始上下文权重衰减模块,该初始上下文权重衰减模块与初始特征提取模块相连。
该初始上下文权重衰减模块用于根据分词上下文与分词之间的距离确定 上下文对分词的上下文衰减权重,根据上下文衰减权重对初始特征提取模块 处理的各分词各个部分的词向量进行加权处理得到优化词向量,并将该优化 词向量输出至初始特征提取模块。
则初始特征提取模块具体用于针对分词序列中的各分词,提取各分词自 身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分 词特征映射为词向量,并根据所述优化词向量生成各分词各自对应的优化语 义向量。
具体应用时,初始上下文权重衰减模块先确定分词上下文的多维分词特 征与该分词之间距离,假设分词wi上下文的多维分词特征中某个一元组分词 分词wj与分词wi之间相隔a个单词,则可以定义一元组分词wj与分词wi之 间的距离s1=a+1;同样地,多元组分词wj-n/…/wj-1/wj与分词wi之间的距离 s2=a+1;然后,根据分词上下文多维分词特征中一元组分词以及多元组分词与 当前所处理的分词之间的距离,确定对应的上下文衰减权重,该上下文衰减 权重能够表征分词之间的距离对多维分词特征对应的词向量的影响;进而,根据多维分词特征中各一元组分词以及各多元组分词各自对应的上下文衰减 权重,对多维分词特征中各一元组分词以及各多元组分词各自对应的词向量进行加权处理,得到各一元组分词以及各多元组分词对应的优化词向量。
相应地,初始上下文权重衰减模块将分词上下文各部分的多维分词特征 中各一元组分词以及各多元组分词对应的优化词向量,输入至初始特征提取 模块。初始特征提取模块基于所获取的优化词向量,确定出分词上下文各部 分对应的优化词向量,进而确定该分词对应的优化语义向量。
由此得到各分词的优化语义向量,考虑到了分词之间的距离对各分词对 应的预测命名实体属性标识的影响,因此,基于如此得到的分词的优化语义 向量,能够更准确地确定出各分词对应的预测命名实体属性标识。
采用图5所示的命名实体识别模型的训练方法训练命名实体识别初始模 型时,可以对该初始上下文权重衰减模块进行优化训练,当命名实体识别初 始模型满足训练结束条件时,可以根据该初始上下文权重衰减模块的结构和 模型参数,生成上下文权重衰减模块。
需要说明的是,为了防止所确定的相邻的分词对应的预测命名实体属性 标识不符合实际构词规则,提高初始分类模块613确定预测命名实体属性标 识的准确率,在命名实体识别初始模型610中还可以增设初始属性标识转移 模块,该初始属性标识转移模块与初始编码模块612和初始分类模块613相连。
初始属性标识转移模块用于根据属性标识概率转移矩阵对初始编码模块 612输出的命名实体属性特征向量进行修正,得到修正的命名实体属性特征向 量,将修正的命名实体属性特征向量输出至初始分类模块613。
则初始分类模块613具体用于根据初始属性标识转移模块输出的各分词 对应的修正的命名实体属性特征向量,分类得到各分词对应的预测命名实体 属性标识。
具体应用时,初始属性标识转移模块根据与当前分词相邻的前一个分词 对应的命名实体属性标识以及属性标识概率转移矩阵,对初始编码模块612 输出的命名实体属性特性向量进行修正,该属性标识概率转移矩阵中记录有 各个命名实体属性标识之间的转移概率,命名实体属性标识之间的转移概率 能够表征从一个命名实体属性标识转移至另一个命名实体属性标识的可能性 大小;如此得到修正后的命名实体属性特征向量,将该修正后的命名实体属 性特征向量输出至初始分类模块613;相应地,初始分类模块613可以根据初 始属性标识转移模块输出的各分词对应的修正的命名实体属性特征向量,分类得到各分词对应的预测命名实体属性标识。
需要说明的是,若当前分词为分词序列中最左边的分词,则其对应的转 移概率均为0,即无需利用初始属性标识转移模块根据属性标识转移概率矩 阵,对其对应的命名实体属性特征向量进行修正。
如此,在确定预测命名实体属性标识的过程中,将当前分词与前一个分 词之间的预测命名实体属性标识转移概率作为考虑因素,防止所确定当前分词对应的预测命名实体属性标识与前一个分词对应的预测命名实体属性标识 不符合实际构词规则,能够进一步增加所确定的预测命名实体属性标识的准 确率。
采用图5所示的命名实体识别模型的训练方法训练命名实体识别初始模 型时,可以对该初始属性标识转移模块进行优化训练,当命名实体识别初始 模型满足训练结束条件时,可以根据该初始属性标识转移模块的结构和模型 参数,生成属性标识转移模块。
为了进一步理解本申请实施例提供的命名实体识别方法,下面以基于四 标注体系标注命名实体属性标识为例,结合实际应用场景,对本申请实施例 提供的命名实体识别方法进行介绍。
参见图7,图7为本申请实施例提供的命名实体识别方法的应用场景示意 图。该应用场景中包括:终端设备710和命名实体识别服务器720。
假设终端设备710将某搜索引擎的搜索栏作为待识别文本输入栏,用户 在该搜索栏中输入待识别的文本“周星驰的电影大话西游将在今年4月重映”, 终端设备710相应地将该待识别的文本发送至命名实体识别服务器702。
命名实体识别服务器720获取到终端设备710发送的待识别的文本“周星 驰的电影大话西游将在今年4月重映”后,利用分词处理模块721对该待识别 的文本进行分词处理,得到待识别文本对应的分词序列“周星驰/的/电影/大话/ 西游/将/在/今年/4月/重映”。
命名实体识别服务器720获取到待识别文本对应的分词序列后,将该分 词序列输入至自身运行的基于四标注体系构建的命名实体识别模型(Decayed Fixed-Window andFive-vector Average Network,DFF-DAN)722中,命名实 体识别模型722通过对输入的分词序列进行处理,输出分词序列中各个分词 对应的命名实体属性标识。
命名实体识别模型722具体针对分词序列中的某个分词,确定其对应的 命名实体属性标识时,需要基于其中级联的特征提取模块7221、编码模块7222以及分类模块7223。
具体实现时,先利用特征提取模块7221确定该分词对应的语义向量。具 体确定该分词对应的语义向量时,特征提取模块7221中的多维分词特征模型 先按照上下文选取窗口从分词序列中选取该分词的上下文部分,进而,提取该分词自身以及上下文各部分的多维分词特征,即提取该分词自身以及该分 词的上下文部分中的一元组分词和二元组分词;进而,多维分词特征模型将 提取出的二元组分词输入至映射模型中,该映射模型可以采用哈希函数将二 元组分词映射至固定长度的整数空间,得到与二元组分词对应的整数索引。
多维分词特征模型将提取的一元组分词输入至词嵌入模型中,词嵌入模 型通过查询一元组词嵌入表获得各一元组分词对应的词向量;映射模型将各 二元组分词对应的整数索引输入至词嵌入模型中,词嵌入模型通过查询二元 组词嵌入表获得各二元组分词对应的词向量;然后,词嵌入模型将所确定的 各部分的多维分词特征中一元组分词以及二元组分词的词向量线性组合起来,确定分词自身以及分词上下文各部分对应的词向量;进而,词嵌入模型 对分词自身以及分词上下文各部分对应的词向量拼接起来,生成该分词对应 的语义向量。
需要说明的是,在命名实体识别模型722中还可以增设上下文权重衰减 模块,利用该上下文权重衰减模块能够根据各一元组分词与该分词之间的距 离,确定各一元组分词的词向量对应的上下文衰减权重,根据各多元组分词 与该分词之间的距离,确定各多元组分词的词向量对应的上下文衰减权重;进而,利用所确定的上下文衰减权重相应地对各一元组分词的词向量和各多 元组分词的词向量进行加权处理,得到各一元组分词的词向量和各多元组分 词的优化词向量,并将各一元组分词的词向量和各多元组分词的优化词向量 输入至特征提取模块中,以使该特征提取模块基于各优化词向量,确定该分 词的优化语义向量。
特征提取模块7221确定该分词对应的语义向量后,将该分词对应的语义 向量输入至编码模块7222,编码模块7222根据该语义向量,通过前馈神经网络学习得到该分词对应的命名实体属性特征向量,该命名实体属性特征向量 能够表征该分词在四标注体系中各命名实体属性标识下表现的特征向量。
进而,编码模块7222将该分词对应的命名实体属性特征向量输入至分类 模块7223,分类模块7223根据该分词对应的命名实体属性特征向量,确定该分词属于四标注体系中各个命名属性标识的概率,通过比较该分词属于各个 命名属性标识的概率,确定概率最大的命名实体属性标识为该分词对应的命 名实体属性标识,并将该命名实体属性标识作为命名实体识别模型722的输 出。
需要说明的是,为了防止所确定的相邻的分词对应的命名实体属性标识 不符合构词规则,在命名实体识别初始模型722中还可以增设属性标识转移 模块。利用该属性标识转移模块根据与该分词相邻的前一个分词对应的命名 实体属性标识以及属性标识概率转移矩阵,编码模块7222输出的命名实体属 性特征向量进行修正,得到修正后的命名实体属性特征向量,并将该命名实 体属性特征向量输入至分类模块7223,以便分类模块7223可以根据修正后的 命名实体属性特征向量,分类得到该分词对应的命名实体属性标识,将该命 名实体属性标识作为命名实体识别模型722的输出。
由此,命名实体识别模型722按照上述处理流程得到分词序列“周星驰/ 的/电影/大话/西游/将/在/今年/4月/重映”中各个分词对应的命名实体属性标识 分别为S、O、O、B、E、O、O、O、O和O。
进而,服务器720根据分词序列中各个分词对应的命名实体属性标识, 确定出待识别文本“周星驰的电影大话西游将在今年4月重映”中的命名实体 包括“周星驰”和“大话西游”。由此,服务器720可以根据所确定出的命名 实体进一步执行搜索等相关操作,为用户返回相关搜索结果。
针对上文描述的命名实体识别方法,本申请还提供了对应的命名实体识 别装置,以便于这些方法在实际中的应用以及实现。
参见图8,图8是与上文图2所示方法相对应的一种命名实体识别装置 800的结构示意图,该装置800包括:
获取模块801,用于获取待识别的文本;
分词模块802,用于对所述待识别的文本进行分词处理得到分词序列;
处理模块803,用于将所述分词序列输入命名实体识别模型,获取所述命 名实体识别模型输出的各个分词对应的命名实体属性标识;其中,所述命名 实体识别模型用于根据分词序列中各分词自身及其上下文各部分的多维分词 特征,通过前馈神经网络识别得到各分词对应的命名实体属性标识,所述多 维分词特征包括一元组分词和多元组分词;
确定模块803,用于根据所述分词序列中各分词对应的命名实体属性标 识,确定所述待识别的文本中的命名实体。
可选的,在图8所示的命名实体识别装置的基础上,所述命名实体识别 模型包括:级联的特征提取模块、编码模块以及分类模块;
所述特征提取模块用于针对分词序列中的各分词,提取各分词自身以及 各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词特征 映射为词向量,根据各分词各个部分的词向量生成各分词各自对应的语义向 量;
所述编码模块用于根据所述特征提取模块输出的语义向量,通过前馈神 经网络学习得到各分词对应的命名实体属性特征向量,所述命名实体属性特 征向量用于表征分词在所有命名实体属性标识类别下表现的特征向量;
所述分类模块用于根据所述编码模块输出的各分词对应的命名实体属性 特征向量,分类得到各分词对应的命名实体属性标识。
可选的,在图8所示的命名实体识别装置的基础上,所述特征提取模块 包括:级联的多维分词特征提取模型和词嵌入模型;
所述多维分词特征提取模型用于按照上下文选取窗口从分词序列中,针 对各个分词提取得到分词本身及其上下文各个部分的多维分词特征;
所述词嵌入模型用于根据所述多维分词特征提取模型针对各个分词提取 的多维分词特征,通过词嵌入表获取与各个分词特征对应的语义向量。
可选的,在图8所示的命名实体识别装置的基础上,所述特征提取模块 还包括:映射模型;
所述映射模型用于采用哈希函数将多元组分词映射到固定长度的整数空 间,得到与多元组分词对应的整数索引,所述固定长度为多元组词嵌入表的 长度;
则所述词嵌入模型具体用于根据所述多维分词特征提取模型针对各个分 词提取的分词本身及其上下文各个部分的一元组分词,通过一元组词嵌入表 获取得到对应的词向量;以及,针对各个分词提取的分词本身及其上下文各 个部分的多元组分词,根据所述映射模型输出的多元组分词对应的整数索引, 从多元组词嵌入表中获取对应的词向量。
可选的,在图8所示的命名实体识别装置的基础上,所述命名实体识别 模型还包括:上下文权重衰减模块,所述上下文权重衰减模块与所述特征提 取模块相连;
所述上下文权重衰减模块用于根据分词上下文与分词之间的距离确定上 下文对分词的上下文衰减权重,根据上下文衰减权重对所述特征提取模块处 理的各分词各个部分的词向量进行加权处理得到优化词向量,并将所述优化 词向量输出至所述特征提取模块;
所述特征提取模块具体用于针对分词序列中的各分词,提取各分词自身 以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词 特征映射为词向量,并根据所述优化词向量生成各分词各自对应的优化语义 向量。
可选的,在图8所示的命名实体识别装置的基础上,所述命名实体识别 模型还包括:属性标识转移模块,所述属性标识转移模块与所述编码模块和 分类模块相连;
所述属性标识转移模块用于根据属性标识概率转移矩阵对所述编码模块 输出的命名实体属性特征向量进行修正得到修正的命名实体属性特征向量, 将所述修正的命名实体属性特征向量输出至所述分类模块;
则所述分类模块具体用于根据所述属性标识转移模块输出的各分词对应 的所述修正的命名实体属性特征向量,分类得到各分词对应的命名实体属性 标识。
可选的,在图8所示的命名实体识别装置的基础上,所述编码模块包括 多层全连接前馈神经网络模型。
可选的,在图8所示的命名实体识别装置的基础上,所述分类模块包括 softmax分类器。
可选的,在图8所示的命名实体识别装置的基础上,所述多维分词特征 包括一元组分词和二元组分词,所述二元组分词是以相邻两个分词组合而成 的。
可选的,在图8所示的命名实体识别装置的基础上,所述各分词自身及 其上下文各部分包括:
单个分词、所述单个分词的局部左上下文词序列、所述单个分词的局部 右上下文词序列、所述单个分词的全局左上下文词序列、所述单个分词的全 局右上下文词序列;
其中,所述局部左上下文词序列是指与所述单个分词左边相邻的第一预 设长度的分词序列;所述局部右上下文词序列是指与所述单个分词右边相邻 的第二预设长度的分词序列;所述全局左上下文词序列包括按照左右顺序连 接的所述局部左上下文词序列和所述单个分词;所述全局右上下文词序列包 括按照左右顺序连接的所述单个分词和所述局部右上下文词序列。
可选的,在图8所示的命名实体识别装置的基础上,所述命名实体属性 标识包括:命名实体的起始标识、命名实体的延续标识、和非命名实体标识。
可选的,在图8所示的命名实体识别装置的基础上,所述命名实体属性 标识包括:属性标识B、属性标识I、属性标识E、属性标识O、以及属性标 识S;
其中,所述属性标识B表示命名实体的起始标识;所述属性标识I表示 命名实体的延续标识;所述属性标识E表示命名实体的结束标识;所述属性 标识O表示非命名实体;所述属性标识S表示单个命名实体。
本申请实施例提供的命名实体识别装置中应用了一种新型的命名实体识 别模型,该模型能够根据分词序列中各分词自身及其上下文各部分的多维分 词特征,通过前馈神经网络识别得到各分词对应的命名实体属性标识,相比 现有技术BiLSTM+CRF模型,该命名实体识别模型采用前馈神经网络,其主要依赖于一个参数矩阵实现识别,其网络结构简单,网络参数较少,便于训 练和更新,能够快速试验以投入实际应用;另外,由于多维分词特征包括一 元组分词和多元组分词,因此,通过各个分词相关多维分词特征能够更全面、更充分地表达分词的语义信息,为前馈神经网络提供更丰富的基础数据,从 而能够提高命名实体识别的准确率。该装置基于新型的命名实体识别模型进 行命名实体识别,一方面能够提高识别的准确率,另一方面便于在产品中推广应用。
针对上文描述的命名实体识别模型的训练方法,本申请还提供了对应的 命名实体识别模型的训练装置,以便于这些方法在实际中的应用以及实现。
参见图9,图9是与上文图5所示方法相对应的一种命名实体识别模型的 训练装置900的结构示意图,该装置900包括:
样本获取模块901,用于获取多个样本数据,每个所述样本数据包括样本 文本及其多个分词标注数据,所述分词标注数据包括从所述样本文本中分出 的分词及其在所述样本文本中的真实命名实体属性标识;
构建模块902,用于根据前馈神经网络结构构建命名实体识别初始模型;
训练模块902,用于利用所述多个样本数据对所述命名实体识别初始模型 进行训练,以训练得到满足训练结束条件的命名实体识别模型,所述命名实 体识别初始模型用于根据所述样本数据中各分词自身及其上下文各部分的多 维分词特征,通过前馈神经网络识别得到各分词对应的预测命名实体属性标 识,所述多维分词特征包括一元组分词和多元组分词。
可选的,在图9所示的命名实体识别模型的训练装置的基础上,所述命 名实体识别初始模型包括:级联的初始特征提取模块、初始编码模块以及初 始分类模块;
所述初始特征提取模块用于针对分词序列中的各分词,提取各分词自身 以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词 特征映射为词向量,根据各分词各个部分的词向量生成各分词各自对应的语 义向量;
所述初始编码模块用于根据所述初始特征提取模块输出的语义向量,通 过前馈神经网络学习得到各分词对应的命名实体属性特征向量,所述命名实 体属性特征向量用于表征分词在所有命名实体属性标识类别下表现的特征向 量;
所述初始分类模块用于根据所述初始编码模块输出的各分词对应的命名 实体属性特征向量,分类得到各分词对应的预测命名实体属性标识。
可选的,在图9所示的命名实体识别模型的训练装置的基础上,所述命 名实体识别初始模型还包括:初始上下文权重衰减模块,所述初始上下文权 重衰减模块与所述初始特征提取模块相连;
所述初始上下文权重衰减模块用于根据分词上下文与分词之间的距离确 定上下文对分词的上下文衰减权重,根据上下文衰减权重对所述初始特征提 取模块处理的各分词各个部分的词向量进行加权处理得到优化词向量,并将 所述优化词向量输出至所述初始特征提取模块;
所述初始特征提取模块具体用于针对分词序列中的各分词,提取各分词 自身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维 分词特征映射为词向量,并根据所述优化词向量生成各分词各自对应的优化 语义向量。
可选的,在图9所示的命名实体识别模型的训练装置的基础上,所述命 名实体识别初始模型还包括:初始属性标识转移模块,所述初始属性标识转 移模块与所述编码模块和初始分类模块相连;
所述初始属性标识转移模块用于根据属性标识概率转移矩阵对所述初始 编码模块输出的命名实体属性特征向量进行修正得到修正的命名实体属性特 征向量,将所述修正的命名实体属性特征向量输出至所述初始分类模块;
则所述初始分类模块具体用于根据所述初始编码模块输出的各分词对应 的所述修正的命名实体属性特征向量,分类得到各分词对应的预测命名实体 属性标识。
采用上述命名实体识别模型的训练装置对命名实体识别初始模型进行训 练,基于各分词的预测命名实体属性标识和各分词的真实命名实体属性标识 之间的误差构建损失函数,根据该损失函数对命名实体识别初始模型的模型 参数进行调整,进而在命名实体识别初始模型满足训练结束条件时,根据命 名实体识别初始模型的模型结构和模型参数,确定命名实体识别模型。该命名实体识别模型采用前馈神经网络,其主要依赖于一个参数矩阵实现识别, 其网络结构简单,网络参数较少,便于训练和更新,能够快速试验以投入实际应用;另外,在训练该命名实体识别初始模型时,需要基于各分词自身及 其上下文各部分的多维分词特征进行训练,该多维分词特征中包括一元组分 词和多元组分词,能够更全面、更充分地表达分词的语义信息,为前馈神经 网络提供更丰富的基础数据。
本申请还提供了一种命名实体识别设备,该设备具体可以为服务器,参 见图10,图10是本申请实施例提供的一种命名实体识别设备的结构示意图, 该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一 个以上中央处理器(centralprocessing units,CPU)1022(例如,一个或一个 以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044 的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032 和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序 可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中 的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030 通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线 或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一 个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结 构。
其中,CPU 1022用于执行如下步骤:
获取待识别的文本;
对所述待识别的文本进行分词处理得到分词序列;
将所述分词序列输入命名实体识别模型,获取所述命名实体识别模型输 出的各个分词对应的命名实体属性标识;其中,所述命名实体识别模型用于 根据分词序列中各分词自身及其上下文各部分的多维分词特征,通过前馈神 经网络识别得到各分词对应的命名实体属性标识,所述多维分词特征包括一 元组分词和多元组分词;
根据所述分词序列中各分词对应的命名实体属性标识,确定所述待识别 的文本中的命名实体。
可选的,CPU1022还可以执行本申请实施例中命名实体识别方法任一具 体实现方式的方法步骤。
此外,本申请还提供了一种命名实体识别模型的训练设备,该设备具体 可以为服务器,该服务器的结构与图10所示的命名实体识别设备的结构类似, 其中的CPU用于执行以下步骤:
获取多个样本数据,每个所述样本数据包括样本文本及其多个分词标注 数据,所述分词标注数据包括从所述样本文本中分出的分词及其在所述样本 文本中的真实命名实体属性标识;
根据前馈神经网络结构构建命名实体识别初始模型;
利用所述多个样本数据对所述命名实体识别初始模型进行训练,以训练 得到满足训练结束条件的命名实体识别模型,所述命名实体识别初始模型用 于根据所述样本数据中各分词自身及其上下文各部分的多维分词特征,通过 前馈神经网络识别得到各分词对应的预测命名实体属性标识,所述多维分词 特征包括一元组分词和多元组分词。
可选的,CPU还可以执行本申请实施例中命名实体识别模型的训练方法 任一具体实现方式的方法步骤。
本申请实施例还提供了另一种命名实体识别设备,该命名实体识别设备 可以为终端设备,如图11所示,为了便于说明,仅示出了与本申请实施例相 关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端 可以为包括手机、平板电脑、个人数字助理(英文全称:Personal Digital Assistant,英文缩写:PDA)、销售终端(英文全称:Point of Sales,英文缩写: POS)、车载电脑等任意终端设备,以终端为手机为例:
图11示出的是与本申请实施例提供的终端相关的手机的部分结构的框 图。参考图11,手机包括:射频(英文全称:Radio Frequency,英文缩写: RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、 音频电路1160、无线保真(英文全称:wirelessfidelity,英文缩写:WiFi)模 块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图 11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地, 将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发 送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信 机、耦合器、低噪声放大器(英文全称:Low Noise Amplifier,英文缩写:LNA)、 双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系 统(英文全称:Global System of Mobile communication,英文缩写:GSM)、通用分组无线服务(英文全称:General Packet Radio Service,GPRS)、码分 多址(英文全称:Code Division Multiple Access,英文缩写:CDMA)、宽带 码分多址(英文全称:Wideband Code Division Multiple Access,英文缩写: WCDMA)、长期演进(英文全称:Long Term Evolution,英文缩写:LTE)、 电子邮件、短消息服务(英文全称:ShortMessaging Service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储 在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据 处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区 可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像 播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音 频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器, 还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其 他易失性固态存储器件。
输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的用 户设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控 面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用 户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或 附件在触控面板1131上或在触控面板1131附近的操作),并根据预先设定的 程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触 摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸 操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理 器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以 及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130 还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限 于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手 机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(英文全称:Liquid Crystal Display,英文缩写:LCD)、有机发光二极 管(英文全称:Organic Light-Emitting Diode,英文缩写:OLED)等形式来配 置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面 板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸 事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供 相应的视觉输出。虽然在图11中,触控面板1131与显示面板1141是作为两 个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将 触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其 他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环 境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一 种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、 相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他 传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频 接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器 1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的 声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频 数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者 将音频数据输出至存储器1120以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助用户 收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互 联网访问。虽然图11示出了WiFi模块1170,但是可以理解的是,其并不属 于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各 个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调 用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手 机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;优选的, 处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。 可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
手机还包括给各个部件供电的电源1190(比如电池),优选的,电源可以 通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理 充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1180还具有以下功能:
获取待识别的文本;
对所述待识别的文本进行分词处理得到分词序列;
将所述分词序列输入命名实体识别模型,获取所述命名实体识别模型输 出的各个分词对应的命名实体属性标识;其中,所述命名实体识别模型用于 根据分词序列中各分词自身及其上下文各部分的多维分词特征,通过前馈神 经网络识别得到各分词对应的命名实体属性标识,所述多维分词特征包括一 元组分词和多元组分词;
根据所述分词序列中各分词对应的命名实体属性标识,确定所述待识别 的文本中的命名实体。
可选的,处理器1180还可以执行本申请实施例中命名实体识别方法任一 具体实现方式的方法步骤。
此外,本申请还提供了一种命名实体识别模型的训练设备,该设备具体 可以为终端设备,该终端设备的结构与图11所示的命名实体识别设备的结构 类似,其中的处理器用于执行以下步骤:
获取多个样本数据,每个所述样本数据包括样本文本及其多个分词标注 数据,所述分词标注数据包括从所述样本文本中分出的分词及其在所述样本 文本中的真实命名实体属性标识;
根据前馈神经网络结构构建命名实体识别初始模型;
利用所述多个样本数据对所述命名实体识别初始模型进行训练,以训练 得到满足训练结束条件的命名实体识别模型,所述命名实体识别初始模型用 于根据所述样本数据中各分词自身及其上下文各部分的多维分词特征,通过 前馈神经网络识别得到各分词对应的预测命名实体属性标识,所述多维分词 特征包括一元组分词和多元组分词。
可选的,处理器还可以执行本申请实施例中命名实体识别模型的训练方 法任一具体实现方式的方法步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该 程序代码用于执行前述各个实施例所述的一种命名实体识别方法中的任意一 种实施方式,或者一种命名实体识别模型的训练方法中的任意一种实施方式。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上 运行时,使得计算机执行前述各个实施例所述的一种命名实体识别方法中的 任意一种实施方式,或者一种命名实体识别模型的训练方法中的任意一种实 施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描 述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应 过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和 方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示 意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可 以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个 系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合 或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作 为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单 元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售 或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本 申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个 存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步 骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-Only Memory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制; 尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应 当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其 中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案 的本质脱离本申请各实施例技术方案的精神和范围。
Claims (13)
1.一种命名实体识别方法,其特征在于,包括:
获取待识别的文本;
对所述待识别的文本进行分词处理得到分词序列;
将所述分词序列输入命名实体识别模型,获取所述命名实体识别模型输出的各个分词对应的命名实体属性标识;其中,所述命名实体识别模型用于根据分词序列中各分词自身及其上下文各部分的多维分词特征,通过前馈神经网络识别得到各分词对应的命名实体属性标识,所述多维分词特征包括一元组分词和多元组分词;
根据所述分词序列中各分词对应的命名实体属性标识,确定所述待识别的文本中的命名实体;
所述命名实体识别模型包括:级联的特征提取模块、编码模块以及分类模块;
所述特征提取模块用于针对分词序列中的各分词,提取各分词自身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词特征映射为词向量,根据各分词各个部分的词向量生成各分词各自对应的语义向量;
所述编码模块用于根据所述特征提取模块输出的语义向量,通过前馈神经网络学习得到各分词对应的命名实体属性特征向量,所述命名实体属性特征向量用于表征分词在所有命名实体属性标识类别下表现的特征向量;
所述分类模块用于根据所述编码模块输出的各分词对应的命名实体属性特征向量,分类得到各分词对应的命名实体属性标识。
2.根据权利要求1所述的方法,其特征在于,所述特征提取模块包括:级联的多维分词特征提取模型和词嵌入模型;
所述多维分词特征提取模型用于按照上下文选取窗口从分词序列中,针对各个分词提取得到分词本身及其上下文各个部分的多维分词特征;
所述词嵌入模型用于根据所述多维分词特征提取模型针对各个分词提取的多维分词特征,通过词嵌入表获取与各个分词特征对应的语义向量。
3.根据权利要求2所述的方法,其特征在于,所述特征提取模块还包括:映射模型;
所述映射模型用于采用哈希函数将多元组分词映射到固定长度的整数空间,得到与多元组分词对应的整数索引,所述固定长度为多元组词嵌入表的长度;
则所述词嵌入模型具体用于根据所述多维分词特征提取模型针对各个分词提取的分词本身及其上下文各个部分的一元组分词,通过一元组词嵌入表获取得到对应的词向量;以及,针对各个分词提取的分词本身及其上下文各个部分的多元组分词,根据所述映射模型输出的多元组分词对应的整数索引,从多元组词嵌入表中获取对应的词向量。
4.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型还包括:上下文权重衰减模块,所述上下文权重衰减模块与所述特征提取模块相连;
所述上下文权重衰减模块用于根据上下文衰减权重对所述特征提取模块处理的各分词各个部分的词向量进行加权处理得到优化词向量,并将所述优化词向量输出至所述特征提取模块;
所述特征提取模块具体用于针对分词序列中的各分词,提取各分词自身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词特征映射为词向量,并根据所述优化词向量生成各分词各自对应的优化语义向量。
5.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型还包括:属性标识转移模块,所述属性标识转移模块与所述编码模块和分类模块相连;
所述属性标识转移模块用于根据属性标识概率转移矩阵对所述编码模块输出的命名实体属性特征向量进行修正得到修正的命名实体属性特征向量,将所述修正的命名实体属性特征向量输出至所述分类模块;
则所述分类模块具体用于根据所述属性标识转移模块输出的各分词对应的所述修正的命名实体属性特征向量,分类得到各分词对应的命名实体属性标识。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述命名实体属性标识包括:
命名实体的起始标识、命名实体的延续标识、和非命名实体标识。
7.根据权利要求6所述的方法,其特征在于,所述命名实体属性标识包括:属性标识B、属性标识I、属性标识E、属性标识O、以及属性标识S;
其中,所述属性标识B表示命名实体的起始标识;所述属性标识I表示命名实体的延续标识;所述属性标识E表示命名实体的结束标识;所述属性标识O表示非命名实体;所述属性标识S表示单个命名实体。
8.一种命名实体识别模型的训练方法,其特征在于,所述方法包括:
获取多个样本数据,每个所述样本数据包括样本文本及其多个分词标注数据,所述分词标注数据包括从所述样本文本中分出的分词及其在所述样本文本中的真实命名实体属性标识;
根据前馈神经网络结构构建命名实体识别初始模型;
利用所述多个样本数据对所述命名实体识别初始模型进行训练,以训练得到满足训练结束条件的命名实体识别模型,所述命名实体识别初始模型用于根据所述样本数据中各分词自身及其上下文各部分的多维分词特征,通过前馈神经网络识别得到各分词对应的预测命名实体属性标识,所述多维分词特征包括一元组分词和多元组分词;
所述命名实体识别初始模型包括:级联的初始特征提取模块、初始编码模块以及初始分类模块;
所述初始特征提取模块用于针对分词序列中的各分词,提取各分词自身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词特征映射为词向量,根据各分词各个部分的词向量生成各分词各自对应的语义向量;
所述初始编码模块用于根据所述初始特征提取模块输出的语义向量,通过前馈神经网络学习得到各分词对应的命名实体属性特征向量,所述命名实体属性特征向量用于表征分词在所有命名实体属性标识类别下表现的特征向量;
所述初始分类模块用于根据所述初始编码模块输出的各分词对应的命名实体属性特征向量,分类得到各分词对应的预测命名实体属性标识。
9.根据权利要求8所述的方法,其特征在于,所述命名实体识别初始模型还包括:初始上下文权重衰减模块,所述初始上下文权重衰减模块与所述初始特征提取模块相连;
所述初始上下文权重衰减模块用于根据上下文衰减权重对所述初始特征提取模块处理的各分词各个部分的词向量进行加权处理得到优化词向量,并将所述优化词向量输出至所述初始特征提取模块;
所述初始特征提取模块具体用于针对分词序列中的各分词,提取各分词自身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词特征映射为词向量,并根据所述优化词向量生成各分词各自对应的优化语义向量。
10.一种命名实体识别装置,其特征在于,包括:
获取模块,用于获取待识别的文本;
分词模块,用于对所述待识别的文本进行分词处理得到分词序列;
处理模块,用于将所述分词序列输入命名实体识别模型,获取所述命名实体识别模型输出的各个分词对应的命名实体属性标识;其中,所述命名实体识别模型用于根据分词序列中各分词自身及其上下文各部分的多维分词特征,通过前馈神经网络识别得到各分词对应的命名实体属性标识,所述多维分词特征包括一元组分词和多元组分词;
确定模块,用于根据所述分词序列中各分词对应的命名实体属性标识,确定所述待识别的文本中的命名实体;
所述命名实体识别模型包括:级联的特征提取模块、编码模块以及分类模块;
所述特征提取模块用于针对分词序列中的各分词,提取各分词自身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词特征映射为词向量,根据各分词各个部分的词向量生成各分词各自对应的语义向量;
所述编码模块用于根据所述特征提取模块输出的语义向量,通过前馈神经网络学习得到各分词对应的命名实体属性特征向量,所述命名实体属性特征向量用于表征分词在所有命名实体属性标识类别下表现的特征向量;
所述分类模块用于根据所述编码模块输出的各分词对应的命名实体属性特征向量,分类得到各分词对应的命名实体属性标识。
11.一种命名实体识别模型的训练装置,其特征在于,包括:
样本获取模块,用于获取多个样本数据,每个所述样本数据包括样本文本及其多个分词标注数据,所述分词标注数据包括从所述样本文本中分出的分词及其在所述样本文本中的真实命名实体属性标识;
构建模块,用于根据前馈神经网络结构构建命名实体识别初始模型;
训练模块,用于利用所述多个样本数据对所述命名实体识别初始模型进行训练,以训练得到满足训练结束条件的命名实体识别模型,所述命名实体识别初始模型用于根据所述样本数据中各分词自身及其上下文各部分的多维分词特征,通过前馈神经网络识别得到各分词对应的预测命名实体属性标识,所述多维分词特征包括一元组分词和多元组分词;
所述命名实体识别初始模型包括:级联的初始特征提取模块、初始编码模块以及初始分类模块;
所述初始特征提取模块用于针对分词序列中的各分词,提取各分词自身以及各分词上下文各个部分的多维分词特征,将各分词各个部分的多维分词特征映射为词向量,根据各分词各个部分的词向量生成各分词各自对应的语义向量;
所述初始编码模块用于根据所述初始特征提取模块输出的语义向量,通过前馈神经网络学习得到各分词对应的命名实体属性特征向量,所述命名实体属性特征向量用于表征分词在所有命名实体属性标识类别下表现的特征向量;
所述初始分类模块用于根据所述初始编码模块输出的各分词对应的命名实体属性特征向量,分类得到各分词对应的预测命名实体属性标识。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的命名实体识别方法,或权利要求8-9任一项所述的命名实体识别模型的训练方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于使计算机设备执行权利要求1-7任一项所述的命名实体识别方法,或权利要求8-9任一项所述的命名实体识别模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811038043.3A CN109145303B (zh) | 2018-09-06 | 2018-09-06 | 命名实体识别方法、装置、介质以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811038043.3A CN109145303B (zh) | 2018-09-06 | 2018-09-06 | 命名实体识别方法、装置、介质以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145303A CN109145303A (zh) | 2019-01-04 |
CN109145303B true CN109145303B (zh) | 2023-04-18 |
Family
ID=64827441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811038043.3A Active CN109145303B (zh) | 2018-09-06 | 2018-09-06 | 命名实体识别方法、装置、介质以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145303B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902286B (zh) * | 2019-01-09 | 2023-12-12 | 千城数智(北京)网络科技有限公司 | 一种实体识别的方法、装置及电子设备 |
CN109919175B (zh) * | 2019-01-16 | 2020-10-23 | 浙江大学 | 一种结合属性信息的实体多分类方法 |
CN109840327B (zh) * | 2019-01-31 | 2023-05-12 | 北京嘉和海森健康科技有限公司 | 一种词汇识别方法及装置 |
CN109977400B (zh) * | 2019-03-08 | 2022-11-11 | 北京明略软件系统有限公司 | 一种校验处理的方法、装置、计算机存储介质及终端 |
CN110069779B (zh) * | 2019-04-18 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 医疗文本的症状实体识别方法及相关装置 |
CN110163772A (zh) * | 2019-04-19 | 2019-08-23 | 杭州电子科技大学 | 一种基于BiLSTM-CRF的旅游行程路线生成方法 |
CN110110061B (zh) * | 2019-04-26 | 2023-04-18 | 同济大学 | 基于双语词向量的低资源语种实体抽取方法 |
CN111950279B (zh) * | 2019-05-17 | 2023-06-23 | 百度在线网络技术(北京)有限公司 | 实体关系的处理方法、装置、设备及计算机可读存储介质 |
CN110472063B (zh) * | 2019-07-12 | 2022-04-08 | 新华三大数据技术有限公司 | 社交媒体数据处理方法、模型训练方法及相关装置 |
CN110414395B (zh) * | 2019-07-18 | 2022-08-02 | 北京字节跳动网络技术有限公司 | 内容识别方法、装置、服务器及存储介质 |
CN110598210B (zh) * | 2019-08-29 | 2023-08-04 | 深圳市优必选科技股份有限公司 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
CN110704633B (zh) * | 2019-09-04 | 2023-07-21 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN110598212A (zh) * | 2019-09-05 | 2019-12-20 | 清华大学 | 一种快速命名体识别方法 |
CN110728150B (zh) * | 2019-10-08 | 2023-06-20 | 支付宝(杭州)信息技术有限公司 | 一种命名实体筛取方法、装置、设备和可读介质 |
CN110750992B (zh) * | 2019-10-09 | 2023-07-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
CN110750993A (zh) * | 2019-10-15 | 2020-02-04 | 成都数联铭品科技有限公司 | 分词方法及分词器、命名实体识别方法及系统 |
CN110795940B (zh) * | 2019-10-26 | 2024-01-12 | 创新工场(广州)人工智能研究有限公司 | 一种命名实体识别方法、系统及电子设备 |
CN110889287A (zh) * | 2019-11-08 | 2020-03-17 | 创新工场(广州)人工智能研究有限公司 | 一种用于命名实体识别的方法与装置 |
CN110827831A (zh) * | 2019-11-15 | 2020-02-21 | 广州洪荒智能科技有限公司 | 基于人机交互的语音信息处理方法、装置、设备及介质 |
CN111222335A (zh) * | 2019-11-27 | 2020-06-02 | 上海眼控科技股份有限公司 | 语料修正方法、装置、计算机设备和计算机可读存储介质 |
CN111046668B (zh) * | 2019-12-04 | 2023-09-22 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN111782278A (zh) * | 2019-12-26 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 一种功能程序唤醒方法和装置 |
CN113128226A (zh) * | 2019-12-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 命名实体识别方法、装置、电子设备及计算机存储介质 |
CN111274804A (zh) * | 2020-01-17 | 2020-06-12 | 珠海市新德汇信息技术有限公司 | 基于命名实体识别的案件信息提取方法 |
CN111310472B (zh) * | 2020-01-19 | 2024-02-09 | 合肥讯飞数码科技有限公司 | 别名生成方法、装置和设备 |
CN111145734A (zh) * | 2020-02-28 | 2020-05-12 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111325033B (zh) * | 2020-03-20 | 2023-07-11 | 中国建设银行股份有限公司 | 实体识别方法、装置、电子设备及计算机可读存储介质 |
CN113742523B (zh) * | 2020-05-29 | 2023-06-27 | 北京百度网讯科技有限公司 | 文本核心实体的标注方法及装置 |
CN111666768A (zh) * | 2020-06-10 | 2020-09-15 | 京东方科技集团股份有限公司 | 一种中文命名实体的识别方法、识别装置及电子设备 |
CN111859965A (zh) * | 2020-06-11 | 2020-10-30 | 北京三快在线科技有限公司 | 一种实体识别模型训练方法、实体识别方法及装置 |
CN111881681B (zh) * | 2020-06-16 | 2024-04-09 | 北京三快在线科技有限公司 | 实体样本获取方法、装置及电子设备 |
CN111768228A (zh) * | 2020-06-19 | 2020-10-13 | 京东数字科技控股有限公司 | 广告标志的识别准确性验证方法、装置、设备和存储介质 |
CN112632999A (zh) * | 2020-12-18 | 2021-04-09 | 北京百度网讯科技有限公司 | 命名实体识别模型获取及命名实体识别方法、装置及介质 |
CN112765985B (zh) * | 2021-01-13 | 2023-10-27 | 中国科学技术信息研究所 | 一种面向特定领域专利实施例的命名实体识别方法 |
CN112989803B (zh) * | 2021-02-25 | 2023-04-18 | 成都增强视图科技有限公司 | 一种基于主题向量学习的实体链接预测方法 |
CN113553851A (zh) * | 2021-07-15 | 2021-10-26 | 杭州网易云音乐科技有限公司 | 关键词的确定方法、装置、存储介质和计算设备 |
CN113591480B (zh) * | 2021-07-23 | 2023-07-25 | 深圳供电局有限公司 | 电力计量的命名实体识别方法、装置和计算机设备 |
CN117251685B (zh) * | 2023-11-20 | 2024-01-26 | 中电科大数据研究院有限公司 | 一种基于知识图谱的标准化政务数据构建方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN104965992A (zh) * | 2015-07-13 | 2015-10-07 | 南开大学 | 一种基于在线医疗问答信息的文本挖掘方法 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107391485A (zh) * | 2017-07-18 | 2017-11-24 | 中译语通科技(北京)有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
-
2018
- 2018-09-06 CN CN201811038043.3A patent/CN109145303B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN104965992A (zh) * | 2015-07-13 | 2015-10-07 | 南开大学 | 一种基于在线医疗问答信息的文本挖掘方法 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107391485A (zh) * | 2017-07-18 | 2017-11-24 | 中译语通科技(北京)有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
张帆,王敏.基于深度学习的医疗命名实体识别.计算技术与自动化.2017,第36卷(第1期),124-126. * |
Also Published As
Publication number | Publication date |
---|---|
CN109145303A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145303B (zh) | 命名实体识别方法、装置、介质以及设备 | |
CN110162770B (zh) | 一种词扩展方法、装置、设备及介质 | |
CN109241431B (zh) | 一种资源推荐方法和装置 | |
CN110598046B (zh) | 一种基于人工智能的标题党识别方法和相关装置 | |
CN108280458B (zh) | 群体关系类型识别方法及装置 | |
CN111177371B (zh) | 一种分类方法和相关装置 | |
CN111816159B (zh) | 一种语种识别方法以及相关装置 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN111931501B (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN110634474B (zh) | 一种基于人工智能的语音识别方法和装置 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN113821589B (zh) | 一种文本标签的确定方法及装置、计算机设备和存储介质 | |
CN110334334B (zh) | 一种摘要生成方法、装置及计算机设备 | |
CN112749252B (zh) | 一种基于人工智能的文本匹配方法和相关装置 | |
CN110276010A (zh) | 一种权重模型训练方法和相关装置 | |
CN113761122A (zh) | 一种事件抽取方法、相关装置、设备及存储介质 | |
CN112328783A (zh) | 一种摘要确定方法和相关装置 | |
CN116955610A (zh) | 一种文本数据的处理方法、装置以及存储介质 | |
CN110781274A (zh) | 一种问答对生成的方法与装置 | |
CN112307198B (zh) | 一种单文本的摘要确定方法和相关装置 | |
CN113505596B (zh) | 话题切换标记方法、装置及计算机设备 | |
CN115599903A (zh) | 对象标签获取方法、装置、电子设备及存储介质 | |
CN113821609A (zh) | 一种答案文本的获取方法及装置、计算机设备和存储介质 | |
CN113704447B (zh) | 一种文本信息的识别方法以及相关装置 | |
CN117057345B (zh) | 一种角色关系的获取方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |