CN111563380A - 一种命名实体识别方法及其装置 - Google Patents
一种命名实体识别方法及其装置 Download PDFInfo
- Publication number
- CN111563380A CN111563380A CN201910075530.5A CN201910075530A CN111563380A CN 111563380 A CN111563380 A CN 111563380A CN 201910075530 A CN201910075530 A CN 201910075530A CN 111563380 A CN111563380 A CN 111563380A
- Authority
- CN
- China
- Prior art keywords
- training
- vector
- model component
- text
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 163
- 238000012549 training Methods 0.000 claims abstract description 127
- 238000010801 machine learning Methods 0.000 claims abstract description 56
- 239000013604 expression vector Substances 0.000 claims abstract description 43
- 238000010586 diagram Methods 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- PXUQTDZNOHRWLI-OXUVVOBNSA-O malvidin 3-O-beta-D-glucoside Chemical compound COC1=C(O)C(OC)=CC(C=2C(=CC=3C(O)=CC(O)=CC=3[O+]=2)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)=C1 PXUQTDZNOHRWLI-OXUVVOBNSA-O 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种命名实体识别方法及其装置,所述方法包括:基于文本中的每个元素的结构信息,将所述文本的每个元素转换为包括第一向量的第一向量组,其中,第一向量包括每个元素的结构信息向量;将所述第一向量组中的第一向量分别输入到机器学习模型组件,获取与所述文本对应的表达向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量对应的多个表达向量之间的对应关系进行训练得到的;利用所述表达向量,识别与所述文本对应的命名实体标签,至少利用所述表达向量,识别与所述文本对应的命名实体标签。采用本申请,可利用文本的结构信息,获取所述文本对应的预测标签,从而能够利用独有的结构,提高命名实体识别的准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种命名实体识别方法及其装置。
背景技术
为了对文本数据进行分析,通常可将这些数据进行信息抽取,也就是说,将无结构的文本转化为结构化或半结构化的信息并以数据库的形式存储。在信息抽取过程中,命名实体识别是必不可少的,其中,命名实体是指识别文本中具有特定意义的实体,例如,可以指示医疗领域中的病症名称。在现有技术中,对于例如中文文本的象形文字使用与英文文本相同的命名实体识别方法,也就是利用单词映射对英文文本进行命名实体识别,但这显示没有考虑到汉字作为象形文字所独有的字形特征。因此,需要一种用于象形文本的命名实体识别方法及其装置。
发明内容
本申请的主要目的在于提供一种命名实体识别方法及其装置,旨在解决以上提到的针对象形文本的命名实体识别的技术问题。
本申请的示例性实施例提供一种用于命名实体识别方法,所述方法包括:基于文本中的每个元素的结构信息,将所述文本的每个元素转换为包括第一向量的第一向量组,其中,第一向量包括每个元素的结构信息向量;将所述第一向量组中的第一向量分别输入到机器学习模型组件,获取与所述文本对应的表达向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量对应的多个表达向量之间的对应关系进行训练得到的;至少利用所述表达向量,识别与所述文本对应的命名实体标签。
本申请的另一示例性实施例提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现上述方法。
本申请的另一示例性实施例提供一种命名实体识别装置,所述装置包括处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:基于文本中的每个元素的结构信息,将所述文本的每个元素转换为包括第一向量的第一向量组,其中,第一向量包括每个元素的结构信息向量;将所述第一向量组中的第一向量分别输入到机器学习模型组件,获取与所述文本对应的表达向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量对应的多个表达向量之间的对应关系进行训练得到的;利用所述表达向量,识别与所述文本对应的命名实体标签。
本申请示例性实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请的示例性实施例的命名实体识别方法可在利用到元素的结构信息的情况下,利用机器学习模型组件对文本执行命名实体识别,从而提高了命名实体识别的准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请的示例性实施例的命名实体识别系统的示图;
图2是根据本申请的示例性实施例的命名实体识别方法的流程图;
图3是根据本申请的示例性实施例的命名实体识别方法对中文文本进行命名实体提取的示意图;
图4是本申请的示例性实施例的命名实体识别装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是根据本申请的示例性实施例的命名实体识别系统的示图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。
本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于,个人计算机、服务器,多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。
在其最基本的配置中,图1中的命名实体识别系统100至少包括:一个或多个客户端104以及对所述一个或多个客户端104发送的文本执行命名实体识别的服务器102。服务器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置;客户端104可以包括:微处理器MCU、与服务器通信的传输装置、与用户交互的显示装置。在本说明书和权利要求书中,“系统”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合,所述命名实体识别系统100甚至可以是分布式的,以实现分布式功能。
如本申请所使用的,术语“模块”、“组件”或“单元”可以指在所述命名实体识别系统100上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在命名实体识别系统100上执行(例如,作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现,但是硬件或软件和硬件的组合的实现也是可能并被构想的。
以医疗领域为例,医生或病人可利用客户端104输入或查阅例如电子病历,所述电子病历中包括用于描述用户病情的文本,随后这些文本可被存储在服务器200上。此时,服务器102可从服务器200上获取这些文本并对这些文本进行命名实体识别。应注意,存在这样一种情况:由服务器200利用本申请的示例性实施例的命名实体识别方法对存储在其上的文本执行命名实体识别。这种方式虽然可行,但在实施中,执行电子病历等的自动看诊/存储装置与执行后续处理的装置由于供应商或运算量大等原因通常由不同主体执行。
如图1所示,客户端104可不直接与服务器102连接,也就是说,客户端104可将用户(例如,患者、医生、护士等)输入的文本发送到相应的服务器200(例如,电子病历管理装置),随后,服务器200可将所述文本数据发送到服务器102,最后,服务器102可根据本申请的示例性实施例的命名实体识别方法对所述文本数据执行命名实体识别。
以上仅以医疗领域为例对图1进行了描述,应注意,所述命名实体识别系统可应用于各种中文文本存在的领域。以下将结合图2至图3具体解释服务器102执行命名实体识别的操作。
在对图2示出的流程图进行详细描述之前,应注意,在本申请中执行文本是指由最小元素(元素)构成的输入序列,通常以单个分句作为文本执行命名实体提取。若文本包括多个分句,可逐句对所述文本执行命名实体提取,最后将提取的命名实体集合起来作为最终结果。
图2是根据本申请的示例性实施例的命名实体识别方法的流程图。应注意,所述方法适用于文字中具有特定含义的文本,也就是说,所述文字的形状具有某种规律,例如,所述文字可以是象形文字(例如,汉字、韩文和日文)。为了便于解释,以下可以以中文文本进行解释。
在步骤S210,基于中文文本中的每个元素的结构信息,将所述中文文本的每个元素转换为包括第一向量的第一向量组,其中,第一向量包括每个元素的结构信息向量。应注意,所述中文文本是指由中文构成的文本,例如,在医疗领域,所述中文文本可以指示用于描述用户病情的文本。在本申请中,所述中文文本可以是单个分句。当然,如上所述,可对由多个分句构成的分段执行所述方法,但这样可能运算量会比较大且效果不佳,因此,可将以元素构成的分句作为执行客体。
具体来说,所述中文文本是由多个元素(汉字)构成的,而每个元素具有不同的字形结构,在将元素转换为向量的过程中,可利用所述字形结构来识别元素。
因此,为了获取每个元素对应的结构信息向量,可获取与每个元素对应的点阵图。所述点阵图也可称作位图(bitmap),可作为Windows标准格式图形文件,它将图像定义为由点(像素)组成,每个点可以由多种色彩表示,包括2、4、8、16、24和32位色彩。也就是说,可通过对所述元素对应的图像信息提取出所述元素的结构信息。此外,在中文表达中,汉字中的字形结构具有某种规律,例如,内脏内的器官通常具有“月”字偏旁,而疾病通常具有病字头,因此,利用以上方式表示元素的过程中,可有效利用汉字在结构表达方面的特征信息。
随后,可将所述点阵图输入到卷积神经网络模型组件中,获取与每个元素对应的结构信息向量。具体来说,可利用训练集对所述卷积神经网络模型组件进行训练,也就是说,利用多个元素以及对应的结构向量对所述卷积神经网络模型组件进行训练,调整所述卷积神经网络模型组件的参数,使其达到设定的要求,比如,准确率达到80%以上。
此外,为了更精准地描述所述元素,还可利用所述元素的语义信息来描述所述元素,也就是说,第一向量可包括每个元素的结构信息向量和语音信息向量。在获取与每个元素对应的语义信息向量的过程中,可对每个元素执行词嵌入(Word Emdedding)处理,从而获取与每个元素对应的语义信息向量。词嵌入处理是指利用上下文内容,通过训练好的神经网络语义模型获取每个元素的稠密向量表示,因词嵌入是本领域惯用的技术,在此将不再赘述,但本领域技术人员应理解,所有可利用元素的语义信息获取的语义信息向量均可应用于本申请。在获取到第一向量组后,可对第一向量组执行步骤S220。
在步骤S220,将所述第一向量组中的第一向量分别输入到机器学习模型组件,获取与所述中文文本对应的表达向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量对应的多个表达向量之间的对应关系进行训练得到的。
具体来说,所述机器学习模型组件可以是神经网络模型组件。在这种情况下,可将第一向量组中的第一向量依次输入到神经网络模型组件,获取与所述中文文本对应的表达向量。所述表达向量包括与预测命名实体标签对应的标签向量。
此外,所述机器学习模型组件还可包括注意力网络模型组件,基于此,所述机器学习模型组件可通过将神经网络模型组件与注意力网络模型组件耦合而获取。随后,将所述表达向量输入到注意力模型组件,获取与所述多个命名实体标签对应的多个概率的概率组合。也就是说,所述中文文本在通过所述机器学习模型组件处理后,获取与所述中文文本对应的表达向量并由与各个标签对应的概率构成的概率组合。
此外,所述机器学习模型组件还可包括条件随机场模型(Conditional RandomField,CRF)组件。所述条件随机场是一种基于遵循马尔可夫性的概率图模型,也是本领域技术人员惯用的技术手段,在此将不再详述。也就是说,所述机器学习模型组件可通过神经网络模型组件、注意力网络模型组件和条件随机场模型组件耦合而成。在这种情况下,可将以上获取的概率组合输入到条件随机场模型组件,获取与所述概率序列对应的最终概率。
在步骤S230,至少利用所述表达向量,识别与所述中文文本对应的命名实体标签。
以下将具体对所述机器学习模型组件的训练过程进行描述。可利用训练数据对所述模型组件进行训练,具体包括:利用所述卷积神经网络模型组件,将获取的训练文本转换为包括多个训练元素向量的训练集文本向量,其中,每个训练元素向量包括结构信息向量和语义信息向量;构建机器学习模型组件,其中,所述机器学习模型组件中设置有训练参数;利用训练文本向量以及与训练文本向量对应的表达向量之间的对应关系对所述机器学习模型组件进行训练,调整所述训练参数,直至损失函数达到设定的要求。
将包括多个训练元素的多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练表达向量对应存储成多个样本数据,其中,每个样本数据包括由多个训练元素向量构成的单个训练文本向量以及与单个训练文本向量对应的训练表达向量;
每个样本数据中的训练文本向量中的多个训练元素向量输入到所述机器学习模型组件后,通过神经网络模型组件处理后获取到训练输出向量,利用所述训练输出向量与训练表达向量之间的差异,调整与所述机器学习模型组件对应的训练参数,使得将由训练输出向量获取的最终训练概率输入到损失函数后获取的损失值达到设定的条件,
其中,最终训练概率通过以下步骤获取:将所述训练输出向量输入到注意力网络模型组件,获取与多个训练标签对应的训练概率集合,将所述训练概率集合输出到条件随机场模型组件,获取与所述多个训练标签对应的最终训练概率。
可以看出,可利用训练数据集对所述机器学习模型组件进行训练,并且在训练过程中,通过注意力机制和/或条件随机场模型组件获取到最终概率值,从而可利用最终概率值生成的损失值对所述模型组件中的参数进行调整,使得所述模型组件可达到设定的要求,比如,损失值达到预定阈值等。
为了更好地说明本申请的示例性实施例,以下将结合图3对所述方法进行详细描述。
图3是根据本申请的示例性实施例的命名实体识别方法对中文文本进行命名实体提取的示意图,应注意,虽然在图3中以医疗文本为例的较优实施例,但本申请的示例性实施例可应用于各个领域。
假设某一医疗文本(句子s)包括n个汉字,可在如图3中的输入层中,将句子S转换为第一向量,具体如下,句子S可表示为s={w1,w2,...,wn},其中wi代表句子s中的第i个汉字。随后,可将每个汉字对应的点阵图输入卷积神经网络中,获取与句子s对应的结构信息向量{e1,e2,...,en},其中ei代表句子s中的第i个汉字的结构信息向量。此外,对于句子s,还可利用词映射方法获取句子s中各个汉字的语义信息向量{b1,b2,...,bn},其中bi代表句子s中的第i个汉字的语义信息向量,将每个汉字的结构信息向量与语义映射向量结合起来,获取与句子s对应的第一向量组{v1,v2,...,vn},其中vi代表句子s中的第i个汉字的综合表达向量,vi=(bi,ei)。
随后,所述方法可执行网络层,也就是说,可将获得的与每句话中各个汉字对应的第一向量,依次输入迭代扩张卷积神经网络模型(Iterated Dilated CNN,简称IDCNN)组件中获得每句话的表达向量t=IDCNN(v1,v2,...,vn)。此时,可根据表达向量获取到与句子s对应的命名实体标签。
最后,所述方法可执行编码/解码层,也就是说,将获得的每句话的表达向量输入到注意力模型组件,获得每句话针对于所有命名实体标签的概率组合合f=Attention(t),其中Attention(t)代表对于每句话的表达向量t进行注意力机制计算,最后获取句子s针对于所有命名实体标签的概率组合合f={l1,l2,...,ln}。
将所述概率组合合输入到条件随机场模型组件,按照如下公式1计算该概率组合合针对于所有标签的最终概率Score(f,l,A),
其中,A代表预先设置的条件随机场模型组件的标签概率转移矩阵,A[li-1,li]表示该概率转移矩阵的第li-1行第li列元素,即第i-1个标签变为第i号标签的概率,f[li]表示获得的针对于所有标签的概率组合合的第i个元素值。
最后可按照如下公式2获得模型的损失函数,
其中,k每句话中含有的所有命名实体标签的数目。这样,在训练阶段,可利用损失函数获取的损失值对该模型组件进行调整。
综上可述,根据本申请的示例性实施例的用于中文文本的命名实体识别方法可利用元素的字形特征来描述中文文本中的元素,从而能够准确地描述中文文本,此外,还可利用元素的语义信息,也就是说,不仅利用元素的结构信息还利用元素的语义信息来表示每个元素,使得可以更准确地描述每个元素。可选地,将文本向量输入到机器学习模型组件中,利用机器学习模型组件执行命名实体识别,从而增加了命名实体识别的准确率。可选地,在利用训练数据集对所述机器学习模型组件进行训练过程中,通过注意力机制和/或条件随机场模型组件获取到最终概率值,从而可利用最终概率值生成的损失值对所述模型组件中的参数进行调整,使得所述机器学习模型组件的性能有了大幅度提高。
为了更清楚地明白本申请的示例性实施例的发明构思,以下将参照图4描述本申请的示例性实施例的命名实体识别装置的框图。本领域普通技术人员将理解:图4中的装置仅示出了与本示例性实施例相关的组件,所述装置中还包括除了图4中示出的组件之外的通用组件。
图4示出本申请的示例性实施例的命名实体识别装置的框图。参考图4,在硬件层面,该装置包括处理器、内部总线和计算机可读存储介质,其中,所述计算机可读存储介质包括易失性存储器和非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
具体来说,所述处理器执行以下操作:基于文本中的每个元素的结构信息,将所述文本的每个元素转换为包括第一向量的第一向量组,其中,第一向量包括每个元素的结构信息向量;将所述第一向量组中的第一向量分别输入到机器学习模型组件,获取与所述文本对应的表达向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量对应的多个表达向量之间的对应关系进行训练得到的;至少利用所述表达向量,识别与所述文本对应的命名实体标签。
可选地,第一向量还包括每个元素的语义信息向量。
可选地,所述处理在实现步骤将所述文本的每个元素转换为包括第一向量的第一向量组包括:根据所述文本的每个元素的结构信息和语义信息,获取与每个元素对应的结构信息向量和语义信息向量;获取包括结构信息向量和语义信息向量的第一向量的第一向量组。
可选地,所述处理器在实现步骤根据所述文本的每个元素的结构信息获取与每个元素对应的结构信息向量包括:获取与每个元素对应的点阵图;将所述点阵图输入到卷积神经网络模型组件,获取与每个元素对应的结构信息向量。
可选地,所述机器学习模型组件至少包括神经网络模型组件。
可选地,所述神经网络模型组件包括迭代扩张卷积神经网络模型组件、长短期记忆网络模型组件以及双向长短期记忆网络模型组件。
可选地,将所述第一向量组中的第一向量分别输入到机器学习模型组件包括:将第一向量组中的第一向量依次输入到神经网络模型组件,获取与所述文本对应的表达向量。
可选地,所述机器学习模型组件还包括注意力模型组件。
可选地,所述处理器还执行以下步骤:将所述表达向量输入到注意力模型组件,获取与所述多个命名实体标签对应的多个概率的概率组合。
可选地,所述机器学习模型组件包括神经网络模型组件、注意力网络模型组件和条件随机场模型组件。
可选地,所述处理器还执行以下步骤:将所述概率组合输入到条件随机场模型组件,获取与所述概率序列对应的最终概率。
可选地,所述机器学习模型组件被设置为按照下述方式训练得到:利用所述卷积神经网络模型组件,将获取的训练文本转换为包括多个训练元素向量的训练集文本向量,其中,每个训练元素向量包括结构信息向量和语义信息向量;构建机器学习模型组件,其中,所述机器学习模型组件中设置有训练参数;利用训练文本向量以及与训练文本向量对应的表达向量之间的对应关系对所述机器学习模型组件进行训练,调整所述训练参数,直至损失函数达到设定的要求。
可选地,对所述机器学习模型组件进行训练包括:将包括多个训练元素的多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练表达向量对应存储成多个样本数据,其中,每个样本数据包括由多个训练元素向量构成的单个训练文本向量以及与单个训练文本向量对应的训练表达向量;每个样本数据中的训练文本向量中的多个训练元素向量输入到所述机器学习模型组件后,通过神经网络模型组件处理后获取到训练输出向量,利用所述训练输出向量与训练表达向量之间的差异,调整与所述机器学习模型组件对应的训练参数,使得将由训练输出向量获取的最终训练概率输入到损失函数后获取的损失值达到设定的条件,其中,最终训练概率通过以下步骤获取:将所述训练输出向量输入到注意力网络模型组件,获取与多个训练标签对应的训练概率集合,将所述训练概率集合输出到条件随机场模型组件,获取与所述多个训练标签对应的最终训练概率。
如上所述,根据本申请的示例性实施例的命名实体识别装置可利用元素的字形特征来描述文本中的元素,从而能够准确地描述文本,此外,还可利用元素的语义信息,也就是说,不仅利用元素的结构信息还利用元素的语义信息来表示每个元素,使得可以更准确地描述每个元素。可选地,将文本向量输入到机器学习模型组件中,利用机器学习模型组件执行命名实体识别,从而增加了命名实体识别的准确率。可选地,在利用训练数据集对所述机器学习模型组件进行训练过程中,通过注意力机制和/或条件随机场模型组件获取到最终概率值,从而可利用最终概率值生成的损失值对所述模型组件中的参数进行调整,使得所述机器学习模型组件的性能有了大幅度提高。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤21和步骤22的执行主体可以为设备1,步骤23的执行主体可以为设备2;又比如,步骤21的执行主体可以为设备1,步骤22和步骤23的执行主体可以为设备2;等等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程命名实体识别设备的处理器以产生一个机器,使得通过计算机或其他可编程命名实体识别设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程命名实体识别设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程命名实体识别设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (15)
1.一种命名实体识别方法,其特征在于,包括:
基于文本中的每个元素的结构信息,将所述文本的每个元素转换为包括第一向量的第一向量组,其中,第一向量包括每个元素的结构信息向量;
将所述第一向量组中的第一向量分别输入到机器学习模型组件,获取与所述文本对应的表达向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量对应的多个表达向量之间的对应关系进行训练得到的;
至少利用所述表达向量,识别与所述文本对应的命名实体标签。
2.如权利要求1所述的方法,其特征在于,第一向量还包括每个元素的语义信息向量。
3.如权利要求2所述的方法,其特征在于,将所述文本的每个元素转换为包括第一向量的第一向量组包括:
根据所述文本的每个元素的结构信息和语义信息,获取与每个元素对应的结构信息向量和语义信息向量;
获取包括结构信息向量和语义信息向量的第一向量的第一向量组。
4.如权利要求3所述的方法,其特征在于,根据所述文本的每个元素的结构信息获取与每个元素对应的结构信息向量包括:
获取与每个元素对应的点阵图;
将所述点阵图输入到卷积神经网络模型组件,获取与每个元素对应的结构信息向量。
5.如权利要求1所述的方法,其特征在于,所述机器学习模型组件至少包括神经网络模型组件。
6.如权利要求5所述的方法,其特征在于,所述神经网络模型组件包括迭代扩张卷积神经网络模型组件(IDCNN)、长短期记忆网络模型组件以及双向长短期记忆网络模型组件。
7.如权利要求5所述的方法,其特征在于,将所述第一向量组中的第一向量分别输入到机器学习模型组件包括:
将第一向量组中的第一向量依次输入到神经网络模型组件,获取与所述文本对应的表达向量。
8.如权利要求7所述的方法,其特征在于,所述机器学习模型组件还包括注意力模型组件。
9.如权利要求8所述的方法,其特征在于,还包括:
将所述表达向量输入到注意力模型组件,获取与所述多个命名实体标签对应的多个概率的概率组合。
10.如权利要求9所述的方法,其特征在于,所述机器学习模型组件包括神经网络模型组件、注意力网络模型组件和条件随机场模型组件。
11.如权利要求10所述的方法,其特征在于,还包括:
将所述概率组合输入到条件随机场模型组件,获取与所述概率序列对应的最终概率。
12.如权利要求11所述的方法,其特征在于,所述机器学习模型组件被设置为按照下述方式训练得到:
利用所述神经网络模型组件,将获取的训练文本转换为包括多个训练元素向量的训练集文本向量,其中,每个训练元素向量包括结构信息向量和语义信息向量;
构建机器学习模型组件,其中,所述机器学习模型组件中设置有训练参数;
利用训练文本向量以及与训练文本向量对应的表达向量之间的对应关系对所述机器学习模型组件进行训练,调整所述训练参数,直至损失函数达到设定的要求。
13.如权利要求12所述的方法,其特征在于,对所述机器学习模型组件进行训练包括:
将包括多个训练元素的多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练表达向量对应存储成多个样本数据,其中,每个样本数据包括由多个训练元素向量构成的单个训练文本向量以及与单个训练文本向量对应的训练表达向量;
每个样本数据中的训练文本向量中的多个训练元素向量输入到所述机器学习模型组件后,通过神经网络模型组件处理后获取到训练输出向量,利用所述训练输出向量与训练表达向量之间的差异,调整与所述机器学习模型组件对应的训练参数,使得将由训练输出向量获取的最终训练概率输入到损失函数后获取的损失值达到设定的条件,
其中,最终训练概率通过以下步骤获取:将所述训练输出向量输入到注意力网络模型组件,获取与多个训练标签对应的训练概率集合,将所述训练概率集合输出到条件随机场模型组件,获取与所述多个训练标签对应的最终训练概率。
14.如权利要求1所述的方法,其特征在于,所述文本包括中文文本、韩文文本和日文文本。
15.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至14中的任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910075530.5A CN111563380A (zh) | 2019-01-25 | 2019-01-25 | 一种命名实体识别方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910075530.5A CN111563380A (zh) | 2019-01-25 | 2019-01-25 | 一种命名实体识别方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111563380A true CN111563380A (zh) | 2020-08-21 |
Family
ID=72074135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910075530.5A Pending CN111563380A (zh) | 2019-01-25 | 2019-01-25 | 一种命名实体识别方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563380A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434535A (zh) * | 2020-11-24 | 2021-03-02 | 上海浦东发展银行股份有限公司 | 基于多模型的要素抽取方法、装置、设备及存储介质 |
CN112818701A (zh) * | 2021-02-01 | 2021-05-18 | 上海明略人工智能(集团)有限公司 | 用于确定对话实体识别模型的方法、装置及设备 |
CN112860885A (zh) * | 2021-01-13 | 2021-05-28 | 支付宝(杭州)信息技术有限公司 | 一种文本处理的方法和装置 |
CN113569575A (zh) * | 2021-08-10 | 2021-10-29 | 云南电网有限责任公司电力科学研究院 | 一种基于象形-语义双特征空间映射的评审专家推荐方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及系统 |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107391485A (zh) * | 2017-07-18 | 2017-11-24 | 中译语通科技(北京)有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN108595426A (zh) * | 2018-04-23 | 2018-09-28 | 北京交通大学 | 基于汉字字形结构性信息的词向量优化方法 |
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN109190110A (zh) * | 2018-08-02 | 2019-01-11 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
-
2019
- 2019-01-25 CN CN201910075530.5A patent/CN111563380A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及系统 |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107391485A (zh) * | 2017-07-18 | 2017-11-24 | 中译语通科技(北京)有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN108595426A (zh) * | 2018-04-23 | 2018-09-28 | 北京交通大学 | 基于汉字字形结构性信息的词向量优化方法 |
CN109190110A (zh) * | 2018-08-02 | 2019-01-11 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
Non-Patent Citations (1)
Title |
---|
YANRAN LI ET.AL: "Component-Enhanced Chinese Character Embeddings", 《PROCEEDINGS OF THE 2015 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434535A (zh) * | 2020-11-24 | 2021-03-02 | 上海浦东发展银行股份有限公司 | 基于多模型的要素抽取方法、装置、设备及存储介质 |
CN112860885A (zh) * | 2021-01-13 | 2021-05-28 | 支付宝(杭州)信息技术有限公司 | 一种文本处理的方法和装置 |
CN112860885B (zh) * | 2021-01-13 | 2022-08-09 | 支付宝(杭州)信息技术有限公司 | 一种文本处理的方法和装置 |
CN112818701A (zh) * | 2021-02-01 | 2021-05-18 | 上海明略人工智能(集团)有限公司 | 用于确定对话实体识别模型的方法、装置及设备 |
CN112818701B (zh) * | 2021-02-01 | 2023-07-04 | 上海明略人工智能(集团)有限公司 | 用于确定对话实体识别模型的方法、装置及设备 |
CN113569575A (zh) * | 2021-08-10 | 2021-10-29 | 云南电网有限责任公司电力科学研究院 | 一种基于象形-语义双特征空间映射的评审专家推荐方法 |
CN113569575B (zh) * | 2021-08-10 | 2024-02-09 | 云南电网有限责任公司电力科学研究院 | 一种基于象形-语义双特征空间映射的评审专家推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
CN111563380A (zh) | 一种命名实体识别方法及其装置 | |
JP2016513269A (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN111435410B (zh) | 用于医疗文本的关系抽取方法及其装置 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN113590784A (zh) | 三元组信息抽取方法、装置、电子设备、及存储介质 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN111597807B (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
CN114861635B (zh) | 一种中文拼写纠错方法、装置、设备及存储介质 | |
US20230205994A1 (en) | Performing machine learning tasks using instruction-tuned neural networks | |
CN115935914A (zh) | 一种入院记录缺失文本补充方法 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
US11494431B2 (en) | Generating accurate and natural captions for figures | |
CN112732863A (zh) | 电子病历标准化切分方法 | |
US20230153550A1 (en) | Machine Translation Method and Apparatus, Device and Storage Medium | |
CN109902162B (zh) | 基于数字指纹的文本相似性的识别方法、存储介质及装置 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN114387602B (zh) | 医疗ocr数据优化模型训练方法、优化方法及设备 | |
CN115270792A (zh) | 一种医疗实体识别方法及装置 | |
US11423228B2 (en) | Weakly supervised semantic entity recognition using general and target domain knowledge | |
CN113449094A (zh) | 语料获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200821 |
|
RJ01 | Rejection of invention patent application after publication |