CN110909548A

CN110909548A - 中文命名实体识别方法、装置及计算机可读存储介质

Info

Publication number: CN110909548A
Application number: CN201910965462.XA
Authority: CN
Inventors: 邓悦; 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-03-24
Anticipated expiration: 2039-10-10
Also published as: WO2021068329A1; CN110909548B

Abstract

本发明涉及一种人工智能技术，揭露了一种中文命名实体识别方法，包括：接收原始文本集并进行去噪、去停用词及标注处理后得到标准文本集，将所述标准文本集进行聚类操作得到类簇个数及聚类中心，基于所述类簇个数及所述聚类中心，将所述标准文本集建立后验概率模型，优化所述后验概率模型得到标准词向量集，将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型，接收用户输入的文本集，计算所述文本集得到词向量集，将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。本发明还提出一种中文命名实体识别装置以及一种计算机可读存储介质。本发明可以实现精准的中文命名实体识别功能。

Description

中文命名实体识别方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于中文命名实体识别方法、装置及计算机可读存储介质。

背景技术

命名实体识别是指识别语目中人名、地名、组织机构名等命名实体，中文命名实体是以中文为语言基础的命名实体，被广泛且成功地应用于信息抽取、信息检索、信息推荐和机器翻译等任务中。目前对于中文命名实体识别，现有技术方案有基于词和基于字两种方法，所述基于词的方法都需要先对中文语句进行分词，再在分词的结果上进行命名实体识别，这就使得命名实体的结果依赖于分词的准确性；此外，基于字的方法的不足在于缺失了中文词汇的语义信息，因为不同的字在不同的词汇中含义是有差异的，比如“今天”和“天气”，“上马”和“马上”，缺失了词汇信息必然会极大地降低模型的准确率。

发明内容

本发明提供一种中文命名实体识别方法、装置及计算机可读存储介质，其主要目的在于提供一种准确率高的中文命名实体识别方案。

为实现上述目的，本发明提供的一种中文命名实体识别方法，包括：

接收包含中文命名实体的原始文本集，将所述原始文本集进行去噪、去停用词及标注处理后得到标准文本集；

将所述标准文本集进行聚类操作得到类簇个数及聚类中心；

基于所述类簇个数及所述聚类中心，将所述标准文本集建立后验概率模型，优化所述后验概率模型得到标准词向量集；

将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型；

接收用户输入的文本集，计算所述文本集得到词向量集，将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。

可选地，所述标注处理包括：

将所述原始文本集进行分词处理得到分词文本集；

根据预先设定的标注规则对所述分词文本集内的词语进行标注；

根据标注之后的所述分词文本集重新组建成文本集得到标准文本集。

可选地，所述聚类操作包括：

随机初始化k个初始类簇和所述k个初始类簇的聚类中心Center_k；

根据聚类更新方法对所述聚类中心Center_k进行训练得到训练值；

基于平方误差计算所述训练值的误差，若所述误差大于预设误差阈值则继续训练，若所述误差小于预设误差阈值则退出训练得到训练后的类簇个数及聚类中心。

可选地，所述聚类更新方法为：

其中，x_i为所述标准文本集的数据，i为编号，C_k为所述标准文本集；

所述基于平方误差计算所述训练值的误差为：

其中，J为所述训练值的误差，K为所述标准文本集的文本数量，即所述初始类簇的取值在[1，K]之间，dist(x_i，Center_k)表示计算所述标准文本集的数据x_i与所述聚类中心Center_k的距离。

可选地，所述预先构建的命名实体识别模型包括句子组合层、连接层和分类层；及

所述将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型，包括：

将所述标准词向量集输入至所述句子组合层进行句子组合概率求解得到最大概率的句子组合；

将所述最大概率的句子组合输入至所述连接层进行连接操作；

基于分类层对所述连接操作完成的句子进行命名实体识别得到识别结果集；

将所述识别结果集与所述标准文本集进行比对，直至比对的准确率大于预设准确率，所述命名实体识别模型退出训练得到训练后的命名实体识别模型。

此外，为实现上述目的，本发明还提供一种中文命名实体识别装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的中文命名实体识别程序，所述中文命名实体识别程序被所述处理器执行时实现如下步骤：

将所述标准文本集进行聚类操作得到类簇个数及聚类中心；

可选地，所述标注处理包括：

将所述原始文本集进行分词处理得到分词文本集；

可选地，所述聚类操作包括：

可选地，所述聚类更新方法为：

所述基于平方误差计算所述训练值的误差为：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有中文命名实体识别程序，所述中文命名实体识别程序可被一个或者多个处理器执行，以实现如上所述的中文命名实体识别方法的步骤。

本发明通过对包含中文命名实体的原始文本集进行去噪、去停用词及标注处理可以保证数据的纯洁度，同时根据聚类操作初步确定了所述原始文本集的类别，并通过构建后验概率模型优化词向量后输入至命名实体识别模型中训练，总结来说通过前期数据处理、初步类别判断、词向量优化和模型识别可以精确的识别出命名实体。因此本发明提出的中文命名实体识别方法、装置及计算机可读存储介质，可以实现精准的命名实体功能。

附图说明

图1为本发明一实施例提供的中文命名实体识别方法的流程示意图；

图2为本发明一实施例提供的中文命名实体识别装置的内部结构示意图；

图3为本发明一实施例提供的中文命名实体识别装置中中文命名实体识别程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种中文命名实体识别方法。参照图1所示，为本发明一实施例提供的中文命名实体识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，中文命名实体识别方法包括：

S1、接收包含中文命名实体的原始文本集，将所述原始文本集进行去噪、去停用词及标注处理后得到标准文本集。

优选地，命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体，所述中文命名实体是以中文为语言基础的命名实体。如所述原始文本集中有文本数据A为：“今天我有幸去上海，印象最深的是南京路，它是亚洲最繁华的商业街之一，是上海商业的一扇门面，也是许多上海商业走向全国、走向世界的一个平台。听说此刻的南京路经商的多数是浙江人，由此在我心里十分佩服他们”，则所述文本数据A的中文命名实体包括：“上海，南京路，亚洲，浙江人”。

进一步，由于所述接收的原始文本集包括来自于网络的文本数据，因此所述原始文本集包含大量的噪声，例如超链接、网页标签等，所述噪声会对中文命名实体识别产生影响，因此需要对所述原始文本集进行去噪处理。所述去噪可采用基于编程语言为基础的正则表达式进行过滤，可去除如数字、表情符号以及特殊符号如URL、“@”、“#”噪声。

本发明较佳实施例中，停用词指没有什么实际意义且在中文文本内对中文命名实体识别没有什么影响的词，由于停用词出现频率高，包括常用的代词、介词等，因此若保留停用词，会对整个中文命名实体识别产生计算负担，甚至影响识别准确率。优选地，所述去停用词可采用停用词表过滤法，通过预先构建好的停用词表和所述原始文本集的词语进行一一匹配，如果匹配成功，那么这个词语就是停用词，需要将该词删除。

所述标注处理包括：将所述原始文本集进行分词处理得到分词文本集，根据预先设定的标注规则对所述分词文本集内的词语进行标注，当完成所述分词文本集内的词语标注后，根据所述分词文本集重新组建成文本集得到标准文本集。

所述预先设定的标注规则可采用组合标准规则。如所述原始文本集有文本数据X，X＝x_1，x_2，x_3，......，x_n，其中x_1直至x_n表示所述文本数据X中的分词。本发明较佳实施例中，所述标注规则由{B，I，E，S}与{PER，ORG，LOC}两个集合内容两两组合而成，若后续继续加上O符号，则表示不是任何命名实体。进一步地，所述{B，I，E，S}中B表示实体的首字，I表示实体的中字，E表示实体的尾字，S表示单独字符可表示成实体；所述{PER，ORG，LOC}中的PER表示人名，ORG表示机构名，LOC表示地名。

例如，所述原始文本集有文本数据B为：“上海计划到本世纪末实现人均国内生产总值五千美元。”，则经过所述标准处理后得到的标准文本数据为：“上/B-LOC海/E-LOC计/B-O划/E-O到/S-O本/S-O世/B-O纪/E-O末/S-O实/B-O现/E-O人/B-O均/E-O国/B-O内/E-O生/B-O产/E-O总/B-O值/E-O五/B-O千/I-O美/I-O元/E-O/。/S-O”。

S2、将所述标准文本集进行聚类操作得到类簇个数及聚类中心。

较佳地，所述聚类操作包括：随机初始化k个初始类簇和所述k个初始类簇的聚类中心Center_k，根据聚类更新方法对所述聚类中心进行训练得到训练值，基于平方误差计算所述训练值的误差，若所述误差大于预设误差阈值则继续训练，若所述误差小于预设误差阈值则退出训练得到类簇个数及聚类中心。

所述类簇个数是指所述标准文本集根据所述聚类操作后可得到多少个类别不同的个数，所述聚类中心是指每个类簇所在的中心位置。

进一步地，所述聚类更新方法为：

其中，x_i为所述标准文本集的文本数据，i为数据编号，C_k为所述标准文本集。

所述基于平方误差计算所述训练值的误差为：

其中，J为所述训练值的误差，K为所述标准文本集的文本数量，即所述初始类簇的取值在[1，K]之间，dist(x_i，Center_k)表示计算所述标准文本集的数据与所述聚类中心Center_k的距离。

优选地，所述dist(x_i，Center_k)的距离计算公式可采用多种方式，如欧式距离计算方法、曼哈顿距离、马氏距离等。

S3、基于所述类簇个数及所述聚类中心，将所述标准文本集建立后验概率模型，优化所述后验概率模型得到标准词向量集。

所述后验概率模型为：

其中，P(w_j|x)为所述后验概率模型，w_i为所述标准词向量集中的词向量，x为所述标准文本集的文本，x_t为在类簇中心编号为t的文本，j为所述词向量编号，n为所述类簇个数，p(x_t|w_j)为先验概率，所述先验概率p(x_t|w_j)为：

其中，c_t表示在类簇中心编号为t的标准文本数，D_i表示所述词向量w_i构成的样本，

表示在x_t情况下，所述词向量w_i构成的样本，所述

与所述聚类中心有关，α为调节系数。

S4、将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型。

优选地，所述预先构建的命名实体识别模型包括句子组合层、连接层和分类层。

较佳地，所述标准词向量集输入至所述句子组合层进行句子组合概率求解得到最大概率的句子组合，将所述最大概率的句子组合输入至所述连接层进行连接操作，基于分类层对所述连接操作完成的句子进行命名实体识别得到识别结果集，将所述识别结果集与所述标准文本集进行比对，直至比对的准确率大于预设准确率，所述命名实体识别模型退出训练得到训练后的命名实体识别模型。

优选地，所述句子组合概率求解方法为：

其中，w_i，w_i+1...w_n表示所述标准词向量集的词向量，f_LSTM表示基于长短期记忆网络(LSTM)模型下求解词向量最大化概率的模型公式，

表示最大化的词向量，s_j表示所述标准词向量集，R表示所述最大概率的句子组合。

较佳地，所述连接操作为：

其中，S表示所述连接操作后的句子，R_i表示不同的句子组合，

为所述不同的句子组合的概率，m为所述不同的句子组合的总数，较佳地，所述

为：

其中，p(R_i|R)表示R_i在所有句子组合中出现的概率值，w_i表示上述标准词向量集的词向量，

表示最大化的词向量。

进一步地，所述命名实体识别的方法为：

其中，softmax(y_j)表示基于softmax函数进行的命名实体识别，y_j表示词j的词性结果，n为上述类簇个数，S_k表示在第k个类簇中心下的句子总数。

S5、接收用户输入的文本集，计算所述文本集得到词向量集，将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。

优选地，计算所述文本集得到词向量集可根据S2～S3步骤顺序执行得到所述词向量集。

较佳地，如用户输入的文本集为：“我从小就爱旅行，旅行已成为我生活中的一部分。古往今来，有无数的名人大家都喜欢“游山玩水”，如中国的徐霞客、班超、张骞，外国的马可波罗等，他们的足迹遍及全世界，也为后人留下了宝贵的财富。我也想像他们那样让自己的足迹遍布世界各地的名山大川，如珠穆朗玛峰，自由女神像等”，经过所述训练后的命名实体识别模型后得到了命名实体集合为：“徐霞客、班超、张骞、马可波罗、珠穆朗玛峰、自由女神像”。

发明还提供一种中文命名实体识别装置。参照图2所示，为本发明一实施例提供的中文命名实体识别装置的内部结构示意图。

在本实施例中，所述中文命名实体识别装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该中文命名实体识别装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是中文命名实体识别装置1的内部存储单元，例如该中文命名实体识别装置1的硬盘。存储器11在另一些实施例中也可以是中文命名实体识别装置1的外部存储设备，例如中文命名实体识别装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括中文命名实体识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于中文命名实体识别装置1的应用软件及各类数据，例如中文命名实体识别程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行中文命名实体识别程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在中文命名实体识别装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及中文命名实体识别程序01的中文命名实体识别装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对中文命名实体识别装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有中文命名实体识别程序01；处理器12执行存储器11中存储的中文命名实体识别程序01时实现如下步骤：

步骤一、接收包含中文命名实体的原始文本集，将所述原始文本集进行去噪、去停用词及标注处理后得到标准文本集。

步骤二、将所述标准文本集进行聚类操作得到类簇个数及聚类中心。

进一步地，所述聚类更新方法为：

所述基于平方误差计算所述训练值的误差为：

步骤三、基于所述类簇个数及所述聚类中心，将所述标准文本集建立后验概率模型，优化所述后验概率模型得到标准词向量集。

所述后验概率模型为：

表示在x_t情况下，所述词向量w_i构成的样本，所述

与所述聚类中心有关，α为调节系数。

步骤四、将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型。

优选地，所述句子组合概率求解方法为：

较佳地，所述连接操作为：

为：

表示最大化的词向量。

进一步地，所述命名实体识别的方法为：

步骤五、接收用户输入的文本集，计算所述文本集得到词向量集，将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。

优选地，计算所述文本集得到词向量集可根据步骤二～步骤三顺序执行得到所述词向量集。

可选地，在其他实施例中，中文命名实体识别程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述中文命名实体识别程序在中文命名实体识别装置中的执行过程。

例如，参照图3所示，为本发明中文命名实体识别装置一实施例中的中文命名实体识别程序的程序模块示意图，该实施例中，所述中文命名实体识别程序可以被分割为数据接收及处理模块10、类簇个数、聚类中心和词向量计算模块20、命名实体识别模型训练模块30、命名识别结果输出模块40示例性地：

所述数据接收及处理模块10用于：接收包含中文命名实体的原始文本集，将所述原始文本集进行去噪、去停用词及标注处理后得到标准文本集。

所述类簇个数、聚类中心和词向量计算模块20用于：将所述标准文本集进行聚类操作得到类簇个数及聚类中心，基于所述类簇个数及所述聚类中心，将所述标准文本集建立后验概率模型，优化所述后验概率模型得到标准词向量集。

所述命名实体识别模型训练模块30用于：将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型。

所述命名识别结果输出模块40用于：接收用户输入的文本集，计算所述文本集得到词向量集，将所述词向量集输入至所述训练后的命名实体识别模型得到命名识别结果。

上述数据接收及处理模块10、类簇个数、聚类中心和词向量计算模块20、命名实体识别模型训练模块30、命名识别结果输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有中文命名实体识别程序，所述中文命名实体识别程序可被一个或多个处理器执行，以实现如下操作：

接收包含中文命名实体的原始文本集，将所述原始文本集进行去噪、去停用词及标注处理后得到标准文本集。

将所述标准文本集进行聚类操作得到类簇个数及聚类中心，基于所述类簇个数及所述聚类中心，将所述标准文本集建立后验概率模型，优化所述后验概率模型得到标准词向量集。

将所述标准词向量集输入至预先构建的命名实体识别模型中训练得到训练后的命名实体识别模型。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种中文命名实体识别方法，其特征在于，所述方法包括：

将所述标准文本集进行聚类操作得到类簇个数及聚类中心；

2.如权利要求1所述的中文命名实体识别方法，其特征在于，所述标注处理包括：

将所述原始文本集进行分词处理得到分词文本集；

3.如权利要求1或2所述的中文命名实体识别方法，其特征在于，所述聚类操作包括：

4.如权利要求3所述的中文命名实体识别方法，其特征在于，所述聚类更新方法为：

所述基于平方误差计算所述训练值的误差为：

其中，J为所述训练值的误差，K为所述标准文本集的文本数量，即所述初始类簇的取值在[1,K]之间，dist(x_i,Center_k)表示计算所述标准文本集的数据x_i与所述聚类中心Center_k的距离。

5.如权利要求1所述的中文命名实体识别方法，其特征在于，所述预先构建的命名实体识别模型包括句子组合层、连接层和分类层；及

6.一种中文命名实体识别装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的中文命名实体识别程序，所述中文命名实体识别程序被所述处理器执行时实现如下步骤：

将所述标准文本集进行聚类操作得到类簇个数及聚类中心；

7.如权利要求6所述的中文命名实体识别装置，其特征在于，所述标注处理包括：

将所述原始文本集进行分词处理得到分词文本集；

8.如权利要求6或7所述的中文命名实体识别装置，其特征在于，所述聚类操作包括：

9.如权利要求8中所述的中文命名实体识别装置，其特征在于，所述聚类更新方法为：

所述基于平方误差计算所述训练值的误差为：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有中文命名实体识别程序，所述中文命名实体识别程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的中文命名实体识别方法的步骤。