CN110532570A - 一种命名实体识别的方法和装置及模型训练的方法和装置 - Google Patents

一种命名实体识别的方法和装置及模型训练的方法和装置 Download PDF

Info

Publication number
CN110532570A
CN110532570A CN201910854973.4A CN201910854973A CN110532570A CN 110532570 A CN110532570 A CN 110532570A CN 201910854973 A CN201910854973 A CN 201910854973A CN 110532570 A CN110532570 A CN 110532570A
Authority
CN
China
Prior art keywords
vector
urtext
sample text
character
service feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910854973.4A
Other languages
English (en)
Inventor
徐祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Orange Eagle Data Technology Co Ltd
Original Assignee
Hangzhou Orange Eagle Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Orange Eagle Data Technology Co Ltd filed Critical Hangzhou Orange Eagle Data Technology Co Ltd
Priority to CN201910854973.4A priority Critical patent/CN110532570A/zh
Publication of CN110532570A publication Critical patent/CN110532570A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种命名实体识别的方法和装置及模型训练的方法和装置,所述命名实体识别的方法包括:获取原始文本;根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量;根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列;将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体,通过结合业务领域规则,来确定所述原始文本的业务特征标记向量,提高命名实体识别的准确度。

Description

一种命名实体识别的方法和装置及模型训练的方法和装置
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种命名实体识别的方法和装置及模型训练的方法和装置、计算设备及计算机可读存储介质。
背景技术
命名实体识别是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体识别就是从非结构化的输入文本中抽取出上述实体。现有技术中原始文档中命名实体识别的准确度低。
发明内容
有鉴于此,本申请实施例提供了一种命名实体识别的方法和装置及模型训练的方法和装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种命名实体识别的方法,包括:
获取原始文本;
根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量;
根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列;
将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体。
本申请实施例还公开了一种命名实体识别的装置,包括:
第一获取模块,被配置为获取原始文本;
第一确定模块,被配置为根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量;
第一生成模块,被配置为根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列;
识别模块,被配置为将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体。
本申请实施例还公开了一种模型训练的方法,包括:
获取样本文本;
根据所述样本文本和业务领域规则,确定所述样本文本的业务特征标记向量;
根据所述样本文本中的字符和业务特征标记向量,生成所述样本文本的特征向量序列;
将所述样本文本的特征向量序列和样本文本中的标签输入命名实体识别模型对所述命名实体识别模型进行训练,以使所述样本文本中的标签和样本文本的特征向量序列相关联。
本申请实施例还公开了一种模型训练的装置,包括:
第二获取模块,被配置为获取样本文本;
第二确定模块,被配置为根据所述样本文本和业务领域规则,确定所述样本文本的业务特征标记向量;
第二生成模块,被配置为根据所述样本文本中的字符和业务特征标记向量,生成所述样本文本的特征向量序列;
训练模块,被配置为将所述样本文本的特征向量序列和样本文本中的标签输入命名实体识别模型对所述命名实体识别模型进行训练,以使所述样本文本中的标签和样本文本的特征向量序列相关联。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的命名实体识别的方法或模型训练的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的命名实体识别的方法或模型训练的方法的步骤。
本申请提供的一种命名实体识别的方法和装置及模型训练的方法和装置,通过根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量;根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列;将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体,结合所述业务领域规则对原始文本进行处理,来提高命名实体识别的准确度。
附图说明
图1是本申请实施例的计算设备的结构示意图;
图2是本申请一实施例的命名实体识别的方法的流程示意图;
图3是本申请命名实体识别方法中确定所述原始文本的业务特征标记向量的流程示意图;
图4是本申请命名实体识别方法中生成所述原始文本的特征向量序列的流程示意图;
图5是本申请命名实体识别方法中双向长短期记忆模型编码原始文本的示意图;
图6是本申请一实施例命名实体识别模型训练的方法的流程示意图;
图7是本申请实施例的命名实体识别的装置结构示意图;
图8是本申请实施例的模型训练的装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
命名实体(named entity,NE),所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还包括数字、日期、货币、地址等等。
在本申请中,提供了一种命名实体识别的方法和装置及模型训练的方法和装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的命名实体识别的方法的示意性流程图,包括步骤202至步骤208。
步骤202:获取原始文本。
本申请提供的命名实体识别方法是要在所述原始文本中识别出命名实体。
步骤204:根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量。
参见图3示出的命名实体识别方法中确定所述原始文本的业务特征标记向量的流程示意图,具体包括步骤302至步骤308。
步骤302:基于所述业务领域规则在所述原始文本中提取子字符串,向所述子字符串添加对应的业务关键词。
业务关键词是业务领域中常用的表达产品、服务和公司等具体名称的词汇。
下面对所述业务领域规则进行说明,在某个业务领域中,业务人员比如水果店的店员、大学老师或者保险代理人,保险代理人描述保险领域的特定事物的词汇与其他领域差异巨大,即不同业务领域有特定的词汇来描述该领域的特定事物,业务领域规则就可以理解为在某个业务领域中确定描述该领域事物的语句中命名实体的规则。
业务领域规则的提取主要考虑了各类命名实体的构成结构以及其局部上下文信息,构成结构主要指分析构成命名实体的词性序列(如:组织名“厦门/ns”大学/n的词性序列为“ns、n”),内部关键词(如:时间词“六时四十四分”中的“时、分”)、后缀特征词(如:地名后缀“半岛”、“区”)等。而命名实体局部上下文信息主要是分析命名实体前后的用词特点,通过前后若干个词的指示作用,以提高命名实体识别的可靠性。
首先从训练语料中自动提取出若干匹配规则,然后对这些规则进行筛选,并通过观察真实语料中的识别实例,补充一些训练语料中未出现但规律性较强的的规则,得到最终的匹配规则库。根据所述业务领域规则所起的作用,将业务领域规则划分为选择规则、边界修正规则、合并规则、补召规则、分裂规则等五大类。
步骤304:根据每个所述子字符串及其对应的所述业务关键词得到每个所述子字符串对应的业务特征。
原始文本作为一个字符串,比如原始文本为“abcde”,根据业务领域规则提取的子字符串可以为“ab”和“cde”。子字符串对应的业务关键词为kw,比如子字符串“ab”添加对应的业务关键词后得到所述子字符串对应的业务特征为“ab、kw”。
步骤306:将每个所述子字符串对应的业务特征向量化获取每个所述子字符串对应的业务特征向量。
将所述子字符串对应的业务特征嵌入以获取业务特征向量,通过所述子字符串对应的业务特征嵌入来对业务特征进行数值化表示,即所述子字符串对应的业务特征向量是将所述业务特征映射到一个高维的向量中来表示这个子字符串对应的业务特征。
比如上述子字符串“ab”对应的业务特征“ab、kw”向量化获取子字符串“ab”对应的业务特征向量为F。
步骤308:根据每个所述子字符串对应的业务特征向量确定所述原始文本的业务特征标记向量。
将每个所述子字符串对应的业务特征向量组合后作为所述原始文本的业务特征标记向量。
步骤206:根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列。
参见图4示出的命名实体识别方法中生成所述原始文本的特征向量序列的流程示意图,包括步骤402至步骤406。
步骤402:将所述原始文本中每个字符向量化获取字向量。
将所述原始文本中的字符嵌入以获取字向量,通过所述原始文本中的字符嵌入来对字符进行数值化表示,即所述字向量是将所述原始文本中的字符映射到一个高维的向量中来表示这个字符。
比如上述原始文本中“abcde”中的字符“a”对应的字向量为W1,原始文本中“abcd”中的字符“b”对应的字向量为L2
步骤404:根据所述字符对应的原始文本中子字符串的业务特征标记,联接所述字符的字向量和所述字符对应的子字符串的业务特征标记向量获得所述字符对应的字特征向量。
比如上述原始文本中“abcde”中的字符“a”对应的子字符串为“ab”,联接所述字符的字向量W和所述字符对应的所述子字符串的业务特征标记向量F获取字符“a”对应的字特征向量为W1[L1,F],原始文本中“abcd”中的字符“b”对应的子字符串为“ab”,以此类推,得到原始文本中“abcd”中的字符“b”对应的字特征向量为W2[L2,F]。
步骤406:组合所述原始文本中每个字符对应的字特征向量生成所述原始文本的特征向量序列。
将原始文本中每个字符的对应的字特征向量组合起来即使所述原始文本的特征向量序列。
步骤208:将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体。
所述命名实体识别模型包括双向长短期记忆模型和条件随机场模型。
所述步骤208包括步骤2081至步骤2082。
步骤2081:将原始文本的特征向量序列中每个字符对应的字向量和字特征向量输入至双向长短期记忆模型,所述双向长短期记忆模型输出的向量输入条件随机场模型,所述条件随机场模型输出每个所述字符对应的标签。
本申请利用双向长短期记忆模型建立原始文本中每个字符对应的字特征向量双向词级分布表征向量,得到所述原始文本的隐层表示向量。
采取了双向长短期记忆模型搭建神经网络,充分考虑了前向和后向的文本串对原始文本的影响,提高下述步骤中命名实体识别的精确度。
下面结合图5所示的双向长短期记忆模型编码原始文本的示意图,对双向长短期记忆模型进行详细说明,下述的BiLSTM为双向长短期记忆模型,BiLSTM为前向的长短期记忆模型(即LSTML)与后向的长短期记忆模型(即LSTMR)结合而成。
将所述原始文本“abcde”中的字符“a”“b”“c”“d”“e”对应的字特征向量分别为W1、W2、W3、W4和W5。
将“W1”,“W2”,“W3”,“W4”和“W5”依次输入LSTML,得到五个隐向量{hL0,hL1,hL2,hL3,hL4},LSTMR依次输入“W5”,“W4”,“W3”,“W2”和“W1”,得到五个隐向量{hR0,hR1,hR2,hR3,hR4}。最后将前向和后向的隐向量进行拼接得到{[hL0,hR4],[hL1,hR3],[hL2,hR2],[hL3,hR1],[hL4,hR0]},其中[hL0,hR4]为H0,[hL1,hR3]为H1,[hL2,hR2]为H2,[hL3,hR1]为H3,[hL4,hR0]为H4,即得到双向长短期记忆模型输出的向量HS为{H0,H1,H2,H3,H4}。
所述双向长短期记忆模型输出的向量输入条件随机场模型,所述条件随机场模型输出每个所述字符对应的标签
步骤2082:根据每个所述字符对应的标签确定所述原始文本中的命名实体。
比如,原始文本为“我想听张仨的六月的雨”,训练好的条件随机场模型将所述原始文本被标注为:我\O想\O听\O张\B-PER仨\I-PER的\O六\B-NAME月\I-NAME的\I-NAME雨\I-NAME。
其中,“O”表示other;“B”表示“begin”,即实体的开始;“I”表示内部,“PER”和“NAME”分别表示实体的类别为人名和领域名。
通过将所述文本单元对应的融合向量输入条件随机场模型,自动标注出文本单元的类别,从而得到原始文本“我想听张仨的六月的雨”中“张仨”是人名实体以及“六月的雨”是歌曲名实体。
本实施例的命名实体识别的方法,通过根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量;根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列;将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体,结合所述业务领域规则对原始文本进行处理,来提高命名实体识别的准确度。
图6示出了一种命名实体识别模型训练的方法,包括步骤602至608。
步骤602:获取样本文本。
步骤604:根据所述样本文本和业务领域规则,确定所述样本文本的业务特征标记向量。
所述步骤604包括步骤6041至步骤6044。
步骤6041:基于所述业务领域规则在所述样本文本中提取子字符串,向所述子字符串添加对应的业务关键词;
步骤6042:根据每个所述子字符串及其对应的所述业务关键词得到每个所述子字符串对应的业务特征;
步骤6043:将每个所述子字符串对应的业务特征向量化获取每个所述子字符串对应的业务特征向量;
步骤6044:根据每个所述子字符串对应业务特征向量确定所述样本文本的业务特征标记向量。
步骤606:根据所述样本文本中的字符和业务特征标记向量,生成所述样本文本的特征向量序列。
所述步骤606包括步骤6061至步骤6063。
步骤6061:将所述样本文本中每个字符向量化获取字向量;
步骤6062:根据所述字符对应的样本文本中子字符串的业务特征标记,联接所述字符的字向量和所述字符对应的子字符串的业务特征标记向量获得所述字符对应的字特征向量;
步骤6063:组合所述样本文本中每个字符对应的字特征向量生成所述样本文本的特征向量序列。
步骤608:将所述样本文本的特征向量序列和样本文本中的标签输入命名实体识别模型对所述命名实体识别模型进行训练,以使所述样本文本中的标签和样本文本的特征向量序列相关联。
所述命名实体识别模型包括双向长短期记忆模型和条件随机场模型。
所述步骤608包括步骤6081至步骤6082。
步骤6081:将所述样本文本的特征向量序列和样本文本中的标签输入命名实体识别模型对所述命名实体识别模型进行训练,以使所述样本文本中的标签和样本文本的特征向量序列相关联,包括:
步骤6082:将所述样本文本的特征向量序列和样本文本中的标签输入双向长短期记忆模型,将双向长短期记忆模型的输出的向量输入至条件随机场模型,以使样本文本标签和每个所述字符对应的融合向量相关联。
本申请通过根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量;根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列;将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体,结合所述业务领域规则对模型进行训练,来提高命名实体识别模型的训练效果。
本申请一实施例还公开一种命名实体识别的装置,参见图7所示,包括:
第一获取模块702,被配置为获取原始文本;
第一确定模块704,被配置为根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量;
第一生成模块706,被配置为根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列;
识别模块708,被配置为将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体。
所述第一确定模块704被进一步配置为基于所述业务领域规则在所述原始文本中提取子字符串,向所述子字符串添加对应的业务关键词;
根据每个所述子字符串及其对应的所述业务关键词得到每个所述子字符串对应的业务特征;
将每个所述子字符串对应的业务特征向量化获取每个所述子字符串对应的业务特征向量;
根据每个所述子字符串对应的业务特征向量确定所述原始文本的业务特征标记向量。
所述第一生成模块706被进一步配置为将所述原始文本中每个字符向量化获取字向量;
根据所述字符对应的原始文本中子字符串的业务特征标记,联接所述字符的字向量和所述字符对应的子字符串的业务特征标记向量获得所述字符对应的字特征向量;
组合所述原始文本中每个字符对应的字特征向量生成所述原始文本的特征向量序列。
所述命名实体识别模型包括双向长短期记忆模型和条件随机场模型。
所述识别模块708被进一步配置为将原始文本的特征向量序列中每个字符对应的字向量和字特征向量输入至双向长短期记忆模型,所述双向长短期记忆模型输出的向量输入条件随机场模型,所述条件随机场模型输出每个所述字符对应的标签;
根据每个所述字符对应的标签确定所述原始文本中的命名实体。
本申请一实施例还公开一种模型训练的装置,参见图8所示,包括:
第二获取模块802,被配置为获取样本文本;
第二确定模块804,被配置为根据所述样本文本和业务领域规则,确定所述样本文本的业务特征标记向量;
第二生成模块806,被配置为根据所述样本文本中的字符和业务特征标记向量,生成所述样本文本的特征向量序列;
训练模块808,被配置为将所述样本文本的特征向量序列和样本文本中的标签输入命名实体识别模型对所述命名实体识别模型进行训练,以使所述样本文本中的标签和样本文本的特征向量序列相关联。
所述第二确定模块804被进一步配置为基于所述业务领域规则在所述样本文本中提取子字符串,向所述子字符串添加对应的业务关键词;
根据每个所述子字符串及其对应的所述业务关键词得到每个所述子字符串对应的业务特征;
将每个所述子字符串对应的业务特征向量化获取每个所述子字符串对应的业务特征向量;
根据每个所述子字符串对应业务特征向量确定所述样本文本的业务特征标记向量。
所述第二生成模块806被进一步配置为将所述样本文本中每个字符向量化获取字向量;
根据所述字符对应的样本文本中子字符串的业务特征标记,联接所述字符的字向量和所述字符对应的子字符串的业务特征标记向量获得所述字符对应的字特征向量;
组合所述样本文本中每个字符对应的字特征向量生成所述样本文本的特征向量序列。
所述命名实体识别模型包括双向长短期记忆模型和条件随机场模型。
所述训练模块808被进一步配置为将所述样本文本的特征向量序列和样本文本中的标签输入双向长短期记忆模型,将双向长短期记忆模型的输出的向量输入至条件随机场模型,以使样本文本标签和每个所述字符对应的融合向量相关联。
上述为本实施例的一种模型训练的装置的示意性方案。需要说明的是,该存模型训练的装置与上述命名实体识别的方法或模型训练的方法的技术方案属于同一构思,模型训练的装置的技术方案未详细描述的细节内容,均可以参见上述命名实体识别的方法或模型训练的方法的技术方案的描述。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如前所述命名实体识别的方法或模型训练的方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述命名实体识别的方法或模型训练的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述命名实体识别的方法或模型训练的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述命名实体识别的方法或模型训练的方法的技术方案的描述。
本申请一实施例还提供一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述命名实体识别的方法或模型训练的方法的步骤。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (12)

1.一种命名实体识别的方法,其特征在于,包括:
获取原始文本;
根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量;
根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列;
将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体。
2.根据权利要求1所述的方法,其特征在于,根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量,包括:
基于所述业务领域规则在所述原始文本中提取子字符串,向所述子字符串添加对应的业务关键词;
根据每个所述子字符串及其对应的所述业务关键词得到每个所述子字符串对应的业务特征;
将每个所述子字符串对应的业务特征向量化获取每个所述子字符串对应的业务特征向量;
根据每个所述子字符串对应的业务特征向量确定所述原始文本的业务特征标记向量。
3.根据权利要求2所述的方法,其特征在于,根据所述原始文本中的字符和业务特征标记向量,生成所述原始文本的特征向量序列,包括:
将所述原始文本中每个字符向量化获取字向量;
根据所述字符对应的原始文本中子字符串的业务特征标记,联接所述字符的字向量和所述字符对应的子字符串的业务特征标记向量获得所述字符对应的字特征向量;
组合所述原始文本中每个字符对应的字特征向量生成所述原始文本的特征向量序列。
4.根据权利要求2或3所述的方法,其特征在于,所述命名实体识别模型包括双向长短期记忆模型和条件随机场模型;
将所述原始文本的特征向量序列中输入命名实体识别模型生成命名实体,包括:
将原始文本的特征向量序列中每个字符对应的字向量和字特征向量输入至双向长短期记忆模型,所述双向长短期记忆模型输出的向量输入条件随机场模型,所述条件随机场模型输出每个所述字符对应的标签;
根据每个所述字符对应的标签确定所述原始文本中的命名实体。
5.一种模型训练的方法,其特征在于,包括:
获取样本文本;
根据所述样本文本和业务领域规则,确定所述样本文本的业务特征标记向量;
根据所述样本文本中的字符和业务特征标记向量,生成所述样本文本的特征向量序列;
将所述样本文本的特征向量序列和样本文本中的标签输入命名实体识别模型对所述命名实体识别模型进行训练,以使所述样本文本中的标签和样本文本的特征向量序列相关联。
6.根据权利要求5所述的方法,其特征在于,根据所述样本文本和业务领域规则,确定所述样本文本的业务特征标记向量,包括:
基于所述业务领域规则在所述样本文本中提取子字符串,向所述子字符串添加对应的业务关键词;
根据每个所述子字符串及其对应的所述业务关键词得到每个所述子字符串对应的业务特征;
将每个所述子字符串对应的业务特征向量化获取每个所述子字符串对应的业务特征向量;
根据每个所述子字符串对应业务特征向量确定所述样本文本的业务特征标记向量。
7.根据权利要求6所述的方法,其特征在于,根据所述样本文本中的字符和业务特征标记向量,生成所述样本文本的特征向量序列,包括:
将所述样本文本中每个字符向量化获取字向量;
根据所述字符对应的样本文本中子字符串的业务特征标记,联接所述字符的字向量和所述字符对应的子字符串的业务特征标记向量获得所述字符对应的字特征向量;
组合所述样本文本中每个字符对应的字特征向量生成所述样本文本的特征向量序列。
8.根据权利要求6或7所述的方法,其特征在于,所述命名实体识别模型包括双向长短期记忆模型和条件随机场模型;
将所述样本文本的特征向量序列和样本文本中的标签输入命名实体识别模型对所述命名实体识别模型进行训练,以使所述样本文本中的标签和样本文本的特征向量序列相关联,包括:
将所述样本文本的特征向量序列和样本文本中的标签输入双向长短期记忆模型,将双向长短期记忆模型的输出的向量输入至条件随机场模型,以使样本文本标签和每个所述字符对应的融合向量相关联。
9.一种命名实体识别的装置,其特征在于,包括:
第一获取模块,被配置为获取原始文本;
第一确定模块,被配置为根据所述原始文本和业务领域规则,确定所述原始文本的业务特征标记向量;
第一生成模块,被配置为根据所述原始文本中的字符和所述业务特征标记向量,生成所述原始文本的特征向量序列;
识别模块,被配置为将所述原始文本的特征向量序列输入命名实体识别模型识别命名实体。
10.一种模型训练的装置,其特征在于,包括:
第二获取模块,被配置为获取样本文本;
第二确定模块,被配置为根据所述样本文本和业务领域规则,确定所述样本文本的业务特征标记向量;
第二生成模块,被配置为根据所述样本文本中的字符和业务特征标记向量,生成所述样本文本的特征向量序列;
训练模块,被配置为将所述样本文本的特征向量序列和样本文本中的标签输入命名实体识别模型对所述命名实体识别模型进行训练,以使所述样本文本中的标签和样本文本的特征向量序列相关联。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-4或5-8任意一项所述方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-4或5-8任意一项所述方法的步骤。
CN201910854973.4A 2019-09-10 2019-09-10 一种命名实体识别的方法和装置及模型训练的方法和装置 Pending CN110532570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854973.4A CN110532570A (zh) 2019-09-10 2019-09-10 一种命名实体识别的方法和装置及模型训练的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854973.4A CN110532570A (zh) 2019-09-10 2019-09-10 一种命名实体识别的方法和装置及模型训练的方法和装置

Publications (1)

Publication Number Publication Date
CN110532570A true CN110532570A (zh) 2019-12-03

Family

ID=68668080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854973.4A Pending CN110532570A (zh) 2019-09-10 2019-09-10 一种命名实体识别的方法和装置及模型训练的方法和装置

Country Status (1)

Country Link
CN (1) CN110532570A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209753A (zh) * 2020-01-03 2020-05-29 北京明略软件系统有限公司 一种实体命名识别方法及装置
CN111523313A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型训练、命名实体识别方法及装置
CN113051918A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457950B1 (en) * 2012-11-01 2013-06-04 Digital Reasoning Systems, Inc. System and method for coreference resolution
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109829156A (zh) * 2019-01-18 2019-05-31 北京惠每云科技有限公司 医学文本识别方法及装置
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457950B1 (en) * 2012-11-01 2013-06-04 Digital Reasoning Systems, Inc. System and method for coreference resolution
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109829156A (zh) * 2019-01-18 2019-05-31 北京惠每云科技有限公司 医学文本识别方法及装置
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051918A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN113051918B (zh) * 2019-12-26 2024-05-14 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN111209753A (zh) * 2020-01-03 2020-05-29 北京明略软件系统有限公司 一种实体命名识别方法及装置
CN111209753B (zh) * 2020-01-03 2023-11-03 北京明略软件系统有限公司 一种实体命名识别方法及装置
CN111523313A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型训练、命名实体识别方法及装置
CN111523313B (zh) * 2020-07-03 2020-09-29 支付宝(杭州)信息技术有限公司 模型训练、命名实体识别方法及装置

Similar Documents

Publication Publication Date Title
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN110795552B (zh) 一种训练样本生成方法、装置、电子设备及存储介质
CN109582949A (zh) 事件元素抽取方法、装置、计算设备及存储介质
CN110309514A (zh) 一种语义识别方法及装置
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
US20170351663A1 (en) Iterative alternating neural attention for machine reading
CN107832414A (zh) 用于推送信息的方法和装置
CN104573099B (zh) 题目的搜索方法及装置
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN109977428A (zh) 一种答案获取的方法及装置
CN104765729B (zh) 一种跨平台微博社区账户匹配方法
CN111753551B (zh) 基于词向量生成模型的信息生成方法和装置
CN110532570A (zh) 一种命名实体识别的方法和装置及模型训练的方法和装置
CN107657056A (zh) 基于人工智能展示评论信息的方法和装置
CN107301170A (zh) 基于人工智能的切分语句的方法和装置
CN105976056A (zh) 基于双向rnn的信息提取系统
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
CN110176237A (zh) 一种语音识别方法及装置
CN107861954A (zh) 基于人工智能的信息输出方法和装置
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN106569996B (zh) 一种面向中文微博的情感倾向分析方法
CN111986661A (zh) 复杂环境下基于语音增强的深度神经网络语音识别方法
CN109214407A (zh) 事件检测模型、方法、装置、计算设备及存储介质
CN110347802A (zh) 一种文本分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191203

WD01 Invention patent application deemed withdrawn after publication