CN113722464A

CN113722464A - 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质

Info

Publication number: CN113722464A
Application number: CN202111073403.5A
Authority: CN
Inventors: 俞枫; 黄韦; 袁鹏程; 方优; 詹婷婷
Original assignee: Guotai Junan Securities Co Ltd
Current assignee: Guotai Junan Securities Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-11-30

Abstract

本发明涉及一种针对证券智能客服系统实现命名实体识别处理的系统，其中，所述的系统包括：实体识别处理模块，用于通过识别规则和神经网络模型识别出输入汉字串中的特定实体；以及实体匹配处理模块，与所述的实体识别处理模块相连接，用于对所述的输入汉字串中未标注为特定实体的汉字串在实体字典中进行匹配处理，以实现精准识别匹配处理。本发明还涉及一种相应的方法、装置、处理器及其计算机可读存储介质。采用了本发明的该系统、方法、装置、处理器及其计算机可读存储介质，在实际生产数据的测试中能够将特定实体的识别准确率相较于现有技术而言有了显著的提升，很大程度地提高了证券智能问答系统回答的精确度和准确率。

Description

针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及自然语言处理技术领域，具体是指一种针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其计算机可读存储介质。

背景技术

证券智能客服是基于大数据、数据挖掘、机器学习、自然语言处理等技术，为证券公司和客户的沟通问题提供的高效的解决方案。好的智能客服可以精准识别客户问题，并且在0.1秒内给出客户所关心问题的答案，包括选股、诊股、业务咨询、意见反馈等等服务场景。智能客服在技术实现上有多种方案，但大多数方案都需要用到命名实体识别。

命名实体识别从技术实现的角度看，大致可以分为三类，第一类就是基于词典和规则的方法，根据大量的词典和规则，按照需求把待识别的汉字串放到提前制定好的规则或者字典中匹配，匹配成功的就会被认为是实体，这种方法的查准率比较高，基本上被识别的都不会错，但是这种方法的泛化性能比较弱，只有依靠人工来制定规则和词典，很难进行更新换代或升级，并且人工维护字典和规则的成本特别高，时间周期久；第二类是基于统计机器学习的方法，例如基于隐马尔可夫模型、基于最大熵、基于支持向量机、基于条件随机场等方法；第三类是基于深度学习的方法，例如基于BILSTM-CRF模型、基于BILSTM-CNNS-CRF模型、还有BERT、Lattice等预训练模型等等的方法。这两类方法核心都是用算法来代替人脑的决策，和第一种方法都有着本质的区别，相对于第一种方法来说，第二三类方法有着共同的优势和劣势，优势是这两类方法无需人工维护，只需要有一定的训练数据，就可以训练出准确率比较高的模型，而且更新周期非常快，如果有新数据新实体类别过来，也可以在很短时间内让模型学习到相关信息并投入生产，而劣势是这两类方法准确率很依赖数据，如果数据不好就有可能导致训练出来的模型准确率比较低，此外，这两类模型识别速度大多数情况下会逊色于规则和字典的识别速度。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种问答系统精确度和准确率均高的针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其计算机可读存储介质。

为了实现上述目的，本发明的针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其计算机可读存储介质如下：

该针对证券智能客服系统实现命名实体识别处理的系统，其主要特点是，所述的系统包括：

实体识别处理模块，用于通过识别规则和神经网络模型识别出输入汉字串中的特定实体；以及

实体匹配处理模块，与所述的实体识别处理模块相连接，用于对所述的输入汉字串中未标注为特定实体的汉字串在实体字典中进行匹配处理，以实现精准识别匹配处理。

较佳地，所述的实体识别处理模块具体包括：

规则识别处理单元，用于对经过标注处理的实体汉字串进行分词以及哈希处理，并在实体字典中匹配相应的进行标注的特定实体。

更佳地，所述的实体识别处理模块还包括神经网络模型处理单元，所述的神经网络模型处理单元具体包括：

数据处理子单元，用于对智能客服系统以及网络平台中收集到的用户提问数据进行干扰项语料实体删除以及均衡待识别语料实体的数据处理；

模型训练子单元，与所述的数据处理子单元相连接，用于通过搭建双向长短期记忆人工神经网络，采用Adam优化方法对所述的待识别语料实体的数据进行迭代优化处理，以获取稳定的数据；以及

模型预测子单元，与所述的模型训练子单元相连接，用于对经过模型训练得到的稳定数据进行分词以及匹配识别处理，对在所述的实体字典中匹配识别到的实体进行标注，输出标注结果以作为模型预测结果。

该基于上述系统实现针对证券智能客服系统进行命名实体识别处理的方法，其主要特点是，所述的方法包括以下步骤：

(1)获取输入问题中的待识别汉字串；

(2)对所述的待识别汉字串进行分词处理，以获取特定实体；

(3)对所述的特定实体进行分词以及识别标注处理，并输出模型预测后的汉字串；

(4)对经过模型预测后的汉字串在所述的实体匹配处理模块中进行精准匹配处理，以获取实体匹配结果。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)对取得实体标注后字符长度大的实体汉字串进行分词处理；

(2.2)对分词处理后的实体汉字串进行中文哈希算法处理，得到实体字典；

(2.3)对所述的待识别汉字串进行分词处理，并通过哈希处理后在所述的实体字典中进行实体匹配；

(2.4)根据匹配结果标注特定实体。

较佳地，所述的步骤(3)具体为：

将所述的特定实体放入所述的神经网络模型处理单元中进行实体识别以及标注处理，并根据模型训练结果输出标注后的预测汉字串。

较佳地，所述的步骤(4)具体包括以下步骤：

(4.1)对所述的预测汉字串中未标注为指定实体的汉字串在所述的实体字典中进行模糊搜索；

(4.2)如果有搜索结果，则进入步骤(4.3)，否则，进入步骤(4.6)；

(4.3)根据所述的实体字典中的匹配度得到相应的匹配实体；

(4.4)将所述的特定实体按照所述的匹配实体进行错别字以及同音字的纠错处理，如果纠错成功，则进入步骤(4.5)，否则，进入步骤(4.6)；

(4.5)将所述的特定实体的汉字串按照匹配到的匹配实体进行实体匹配，以获取实体匹配结果；

(4.6)匹配失败，无法输出匹配结果。

该用于实现针对证券智能客服系统进行命名实体识别处理的装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，实现上述所述的实现针对证券智能客服系统进行命名实体识别处理的方法的各个步骤。

该用于实现针对证券智能客服系统进行命名实体识别处理的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述所述的实现针对证券智能客服系统进行命名实体识别处理的方法的各个步骤。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的实现针对证券智能客服系统进行命名实体识别处理的方法的各个步骤。

采用了本发明的该针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其计算机可读存储介质，依赖于底层的实体数据和历史的问答大数据，克服了现有命名实体识别技术中各个类别各自的问题，包括第一类的基于词典和规则的方法泛化性能弱的问题以及多数情况下第二类基于统计机器学习的方法，以及第三类基于深度学习的方法的查准率没有第一类那么高的问题，可以达到证券智能客服系统要求的命名实体识别应有的准确率、识别速度和泛化性能。此外，现有的命名实体识别技术只能识别某个汉字串是某个实体类别，而在本发明的该证券智能客服系统中，对命名实体识别的要求更严苛，如果可以识别某个汉字串是某个特定的实体就可以为后面的回答提供极大帮助，基于此，本技术方案针对提出的问题中只要有这个汉字串，基本都会被本系统识别并且确定为该汉字串对应的那个特定实体，由此很大程度地提高了证券智能问答系统回答的精确度和准确率。

附图说明

图1为实体识别标签示意图。

图2为本发明的规则命名实体识别流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

在详细说明根据本发明的实施例前，应该注意到的是，在下文中，术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

命名实体识别技术是信息提取、机器人翻译、智能客服系统等多种自然语言处理任务中一项重要技术。

例如对于“小明要去某某公司上班”这样一个汉字串，如果事先规定了“小明”是一个“人名”实体，用“PER”作为标签，“某某公司”是一个“组织”实体，用“ORG”作为标签，那对于命名实体识别系统来说，需要在接收到输入“小明要去某某公司上班”后，对这个汉字串进行识别，并最后返回如图1所示的对应的信息：

从图1中可以看到，每个实体都由开始标签(“B-***”)和内部标签(“I-***”)组成，如果没有实体就会被标记为“O”，当系统处理了某个汉字串后，就会对汉字串中逐个汉字打上对应的标签。

而在证券智能客服系统中，命名实体识别技术也是十分关键的一环，命名实体识别准确率的高低直接影响了智能客服对用户问题回答的准确率。

针对如此情形，本发明所提出的证券智能客服中的命名实体识别方法有效解决了现有方法在智能客服中准确率不够高的问题。

该针对证券智能客服系统实现命名实体识别处理的系统，其中，所述的系统包括：

作为本发明的优选实施方式，所述的实体识别处理模块具体包括：

作为本发明的优选实施方式，所述的实体识别处理模块还包括神经网络模型处理单元，所述的神经网络模型处理单元具体包括：

该基于上述系统实现针对证券智能客服系统进行命名实体识别处理的方法，其中，所述的方法包括以下步骤：

(1)获取输入问题中的待识别汉字串；

(2)对所述的待识别汉字串进行分词处理，以获取特定实体；

请参阅图2所示，作为本发明的优选实施方式，所述的步骤(2)具体包括以下步骤：

(2.4)根据匹配结果标注特定实体。

作为本发明的优选实施方式，所述的步骤(3)具体为：

作为本发明的优选实施方式，所述的步骤(4)具体包括以下步骤：

(4.3)根据所述的实体字典中的匹配度得到相应的匹配实体；

(4.6)匹配失败，无法输出匹配结果。

该用于实现针对证券智能客服系统进行命名实体识别处理的装置，其中，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

该用于实现针对证券智能客服系统进行命名实体识别处理的处理器，其中，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述所述的实现针对证券智能客服系统进行命名实体识别处理的方法的各个步骤。

该计算机可读存储介质，其中，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的实现针对证券智能客服系统进行命名实体识别处理的方法的各个步骤。

由于现有的三种命名实体识别方法各有优缺点，而基于深度学习的方法又普遍优于基于统计模型的方法，所以本系统把基于规则的方法和基于深度学习的方法结合起来，发明出独特的针对证券智能客服系统的命名实体识别系统——智识系统。

智识系统的语料由其余系统提供，如何标注语料此处不再赘述，智识系统的实体包括：股票、基金、营业部等。

本发明作为证券智能客服系统中的命名实体识别系统，在流程上可以分为两个步骤，识别和匹配。第一步为识别，用规则和模型的方法识别出输入汉字串里的目标实体，第二步为匹配，用现有实体库里的实体和识别出的实体进行匹配，若有匹配上且需替换的则进行替换，使得识别的实体变得更为明确。下面分别讲述两个步骤的技术方案。

一、识别

智识系统的识别分为两块内容，其一是规则识别，其二是模型识别，下面分别介绍。

1)基于规则的实体识别

规则识别流程图如图2所示，规则识别的流程十分简单，在取得标注好的实体后需要对长度大的实体进行分词，例如“南京东路营业部”这种组合词的实体，需要先分词后再进行一步中文哈希算法，并把每个实体对应的哈希值作为字典的键，实体作为字典的值，这样生成的实体字典会存在内存中。正式问题输入后也会先进行分词，其中分词算法会加入分词后的实体列表，使得分词后的问题中依然包含完整的实体字典内存储的键。分词后的汉字串都会被放入实体哈希字典内进行查询，如果有查到对应的实体，就去问题里找是否有完整的实体并进行标注，这种标注不仅仅标注实体是哪个类别，如果匹配的仅有一个实体是100％匹配度则直接标注该实体为特定实体。这样的规则识别由于使用了分词和字典的方法，整个流程会在一毫秒内完成，十分迅速且准确。

2)基于神经网络模型的实体识别

这个部分我们选用了效果比较好的BILSTM(双向长短期记忆人工神经网络)+CRF(条件随机场)作为我们的识别模型。BILSTM是基于RNN(循环神经网络)的一种神经网络，对于一个汉字串中的一个实体来说，循环神经网络可以通过在汉字串中其余的汉字来提取判断这个实体类型的特征，而且即便是别的不和这个汉字相连的汉字特征也会被用于判断，而BILSTM在RNN的基础上既解决了RNN的一些劣势(无法处理长期依赖，即无法提取远处汉字的特征来判断这个实体类型)，还增加了双向的特征(RNN只能提取实体前或者实体后汉字的特征，而BILSTM可以同时提取实体前后所有汉字的特征)。单独的BILSTM模型已经可以在命名实体识别任务上做到一个比较好的准确率了，但命名实体识别的打标签规则导致BILSTM很难比较完美地给汉字串内的实体打上实体标签，很多时候容易给实体都打上内部标签，而没有起始标签导致实体识别准确率的降低。而条件随机场的特性正好可以弥补BILSTM不容易学习到每个实体都必须以“B-***”开头的规则，并且条件随机场的加入也能从其余方面提升命名实体识别的准确率。

基于模型的实体识别工作主要分为数据处理、模型训练和模型预测三个部分。

①数据处理

数据来源是我们公司APP智能客服收到的用户提出的问题，以及直播间用户对直播老师提出的问题。这些问题都需要经过一定的预处理才能使用，例如有的问题里会带直播间自带的前缀“老师好，”，这种干扰项需要全都删去，不然十分影响训练效果。

除了简单的数据预处理，我们还做了一步数据生成的工作。由于拿到的语料中，包含多个实体，“股票”、“公司”、“基金”、“营业部”、“银行”等等，但各个实体的分布十分不均衡，其中“股票”实体出现了数万次，而其余实体最多的就几千次，最少的就几百次，这明显不符合模型对语料内所有实体出现次数需要均衡的要求。所以需要用数据生成的工作补充一些数据。我们对数据进行了实体替换、常用词替换、别名替换等工作，最后生成的语料中各个实体的分布都在三万个左右，达到了均衡的要求。

最后数据按照9:1:1的分割比例分为了训练数据、验证数据和测试数据。

②模型训练

我们搭建了一个一层的前向和后向都包含300个隐藏节点的双向长短期记忆人工神经网络，选用的激活函数是常见的“sigmoid函数”，因为是多分类问题，所以损失函数选用的是多分类问题常用的“categorical_crossentropy loss”(交叉熵损失函数)。本文选用的优化方法是Adam(Adaptive Moment Estimation自适应矩估计方法)，Adam的本质是带有动量项的RMSprop(均方根比例)，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，在经过偏置校正后，它可以使得每一次迭代学习率都有个确定范围，从而令参数比较平稳。Adam方法在各处LSTM应用中都有不错表现。

此处LSTM模型采用Dropout的方法来防止过拟合。在神经网络训练过程中，随着层数以及每一层神经元个数的增加，模型中的参数个数会以极快速度增长。当参数个数较多时就会遇到过拟合的问题。过拟合就是指模型在训练数据上拟合效果好，但在测试数据上效果不好，又称模型泛化能力比较差。神经网络模型很容易发生过拟合。Dropout是Hinton在2012年提出的一种用于防止神经网络模型过拟合的方法。在各种神经网络的应用中表现普遍十分优秀。

在BILSTM的输出后面增加了一个CRF模型，BILSTM的输出会输入到CRF模型中，训练时同时对两个模型一起训练。

③模型预测

模型预测比较简单，开头和规则识别类似，先分词，然后进行识别，并对识别出的实体进行标注，最后把标注后的汉字串输出。

二、匹配

匹配就是对已经标注了实体类别但没有标注特定哪一个实体的汉字串去现有该种类别的实体库中模糊搜索，如果有搜索到，则看其匹配度，实体库中匹配度最高的，就会根据匹配的实体对标注的实体进行错字和同音字纠错，如果可以纠错成功，则对汉字串进行标注被匹配的那个特定实体。

经过识别和匹配流程后，智识系统可以把几乎所有出现在问题里的实体类别准确标注出来，而且可以把大部分实体精确标注为特定某一个实体，这种智识系统可以很大程度地提高证券智能问答系统回答的精确度和准确率。

本系统的部署需要一台内存8GB，CPU为16核，硬盘为500GB，系统为CentOS7的服务器。

数据使用mongo数据库存储。

模型训练代码使用python语言开发。

智识系统代码使用java语言开发。

具体算法逻辑，代码流程已在上文中详述，此处不再赘述。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

采用了本发明的技术方案的该实体识别模型在测试数据上的准确率情况为如下：

基金：94.13％，营业部：88.40％，股票：94.48％。

用实际生产数据测试，准确率情况如下：

股票：97.46％，营业部：88.48％，基金：88.62％。

而在实际生产上被智识系统确定为特定实体且识别准确的准确率为83.27％。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种针对证券智能客服系统实现命名实体识别处理的系统，其特征在于，所述的系统包括：

2.根据权利要求1所述的针对证券智能客服系统实现命名实体识别处理的系统，其特征在于，所述的实体识别处理模块具体包括：

3.根据权利要求1所述的针对证券智能客服系统实现命名实体识别处理的系统，其特征在于，所述的实体识别处理模块还包括神经网络模型处理单元，所述的神经网络模型处理单元具体包括：

4.一种基于权利要求3所述的系统实现针对证券智能客服系统进行命名实体识别处理的方法，其特征在于，所述的方法包括以下步骤：

(1)获取输入问题中的待识别汉字串；

(2)对所述的待识别汉字串进行分词处理，以获取特定实体；

5.根据权利要求4所述的实现针对证券智能客服系统进行命名实体识别处理的方法，其特征在于，所述的步骤(2)具体包括以下步骤：

(2.4)根据匹配结果标注特定实体。

6.根据权利要求5所述的实现针对证券智能客服系统进行命名实体识别处理的方法，其特征在于，所述的步骤(3)具体为：

7.根据权利要求6所述的实现针对证券智能客服系统进行命名实体识别处理的方法，其特征在于，所述的步骤(4)具体包括以下步骤：

(4.3)根据所述的实体字典中的匹配度得到相应的匹配实体；

(4.6)匹配失败，无法输出匹配结果。

8.一种用于实现针对证券智能客服系统进行命名实体识别处理的装置，其特征在于，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，实现权利要求4至7中任一项所述的实现针对证券智能客服系统进行命名实体识别处理的方法的各个步骤。

9.一种用于实现针对证券智能客服系统进行命名实体识别处理的处理器，其特征在于，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求4至7中任一项所述的实现针对证券智能客服系统进行命名实体识别处理的方法的各个步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现权利要求4至7中任一项所述的实现针对证券智能客服系统进行命名实体识别处理的方法的各个步骤。