CN112464669B

CN112464669B - 股票实体词消歧方法、计算机设备及存储介质

Info

Publication number: CN112464669B
Application number: CN202011419982.XA
Authority: CN
Inventors: 李煜; 丑晓慧
Original assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Current assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2024-02-09
Anticipated expiration: 2040-12-07
Also published as: CN112464669A

Abstract

本发明提供一种股票实体词消歧方法、计算机设备及存储介质。获取包含歧义股票实体词的训练数据，从包含歧义股票实体词的训练数据中提取出所含歧义股票实体词的语义特征向量，构成训练数据集，利用该训练数据集对词判别模型进行训练。判断对待消歧金融财经资讯文本数据是否存在存在歧义词股票实体词，如存在歧义词股票实体词，将待消歧金融财经资讯文本数据及其所含的歧义股票实体词的语义特征向量输入到训练好的歧义词判别模型，判别其所含的歧义股票实体词是否是股票实体词。本发明相较于构建知识库的方式，减少了人力消耗，同时在没有使用外部知识库的情况下，依然能够对歧义实体有很强的表达能力。

Description

股票实体词消歧方法、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体地，涉及一种实体消歧方法,尤其是一种面向金融财经资讯的股票实体词消歧方法。

背景技术

命名实体的歧义指的是一个实体表述可对应到多个真实世界实体。命名实体消歧是确定一个实体表述所指向的真实世界实体的过程。命名实体消歧属于自然语言处理领域的一项基础性研究，已经成为知识库构建、信息检索、机器翻译，以及话题发现与追踪等研究领域的重要支撑技术。

实体的歧义现象可以概括为多样性和歧义性两类，即多名现象和重名现象。多名现象指一个实体可能会有多种命名，如全名、缩写、别名等。解决多名问题的主要途径是建立同义词词典，使其尽可能多地收录同义词条，通过目标文本与同义词词典匹配的方式实现多名间的映射。多名问题解决效果主要与词典和模糊匹配算法有关。重名现象指多个实体拥有相同的命名，即一词多义现象。也就是在不同的上下文中实体所表达的含义可能不太一样。例如“连云港”既有可能指地名，也可能A股的一家上市公司江苏连云港港口股份有限公司(股票代码:601008)的股票简称“连云港”，而大部分金融财经资讯都会以股票简称来表示当前上市公司。这会导致在进行相关财经资讯的检索和统计的过程中,非上市公司连云港相关的信息也会被统计进来,造成统计结果产生偏差。

典型实体消歧的主流方法有基于概率生成模型的方法、基于主题模型的方法、基于图的方法、基于深度学习的方法、无监督方法等等。根据模型的差异，大致可以划分为基于统计学习的实体消歧方法和基于深度学习的实体消歧的方法。基于统计学习的方法侧重于计算实体之间的相似度，但需要借助有标注的实体链接语料库来进行。为了解决标注的语料库缺乏的问题，半监督、弱监督的方法也相继涌现。基于深度学习的方法的核心是构建多类型，多模态的上下文和知识的统一表示，需要借助性能较好的消歧模型来进行。

公开日为2017年8月29日，公开号为CN107102989A的中国专利，公开了一种基于词向量、卷积神经网络的实体消歧方法。该方法使用知识库中的语料来生成歧义实体语义向量,知识库的数据量对语义向量的表示效果影响很大,而且知识库的准备需要消耗大量的人工成本。

发明内容

针对现有技术存在的缺陷，本发明提供一种股票实体词消歧方法、计算机设备及存储介质。

股票实体词消歧方法，包括：

从包含歧义个股实体的金融财经资讯文本数据获取训练语料，由行业专家对各训练语料中存在的实体词及实体词对应的实体类别进行标注，实体类别包括无歧义股票实体词的实体类别以及包含歧义股票实体词的实体类别，得到第一训练数据集；

从第一训练数据集提取包含歧义股票实体词的训练数据，从包含歧义股票实体词的训练数据中提取出所含歧义股票实体词的语义特征向量，构成第二训练数据集；

利用第一训练数据集对预先构建的实体词识别模型进行训练，得到训练好的实体词识别模型；

利用第二训练数据集对预先构建的歧义词判别模型进行训练，得到训练好的歧义词判别模型；

构建歧义股票实体词列表，歧义词列表中列举容易出现歧义情况的歧义股票实体词；

将待消歧金融财经资讯文本数据作为输入数据输入到训练好的实体词识别模型，得到输入数据中存在的所有实体词，构成实体词列表，将该实体词列表与歧义股票实体词列表求交集，如果交集为空，则该输入数据不包含歧义股票实体词；如果交集不为空，提取输入数据中所含的歧义股票实体词的语义特征向量，将输入数据以及输入数据中所含的歧义股票实体词的语义特征向量输入到训练好的歧义词判别模型，通过歧义词判别模型判断所含的歧义股票实体词和输入数据之间在语义上的关联度，以此来判别输入数据中所含的歧义股票实体词是否是股票实体词。

作为本发明的优选方案，所述实体词识别模型采用BiLSTM和CRF融合的网络模型。或者，所述实体词识别模型采用BERT和Dense融合的网络模型。或者所述实体词识别模型采用BERT、BiLSTM以及CRF融合的网络模型。

作为本发明的优选技术方案，本发明采用Word2Vec词向量表示方法、Glove词向量表示方法或者BERT词向量表示方法生成歧义股票实体词的语义特征向量。

作为本发明的优选技术方案，所述歧义词判别模型采用BERT和Dense融合的网络模型。或者，所述歧义词判别模型采用BERT和BiLSTM融合的网络模型。或者，所述歧义词判别模型采用BERT和CNN融合的网络模型。

本发明提供一种股票实体词消歧装置，该装置包括：

数据预处理模块：用于从包含歧义个股实体的金融财经资讯文本数据获取训练语料，由行业专家对各训练语料中存在的实体词及实体词对应的实体类别进行标注，实体类别包括无歧义股票实体词的实体类别以及包含歧义股票实体词的实体类别，得到第一训练数据集；从第一训练数据集提取包含歧义股票实体词的训练数据，从包含歧义股票实体词的训练数据中提取出所含歧义股票实体词的语义特征向量，构成第二训练数据集；

实体词识别模型训练模块，该模块利用第一训练数据集对预先构建的实体词识别模型进行训练，得到训练好的实体词识别模型；

歧义词判别模型训练模块，该模块利用第二训练数据集对预先构建的歧义词判别模型进行训练，得到训练好的歧义词判别模型；

歧义股票实体词列表模块，用于构建歧义股票实体词列表，歧义词列表中列举容易出现歧义情况的歧义股票实体词；

股票实体词消歧模块，用于将待消歧金融财经资讯文本数据作为输入数据输入到训练好的实体词识别模型，得到输入数据中存在的所有实体词，构成实体词列表，将该实体词列表与歧义股票实体词列表求交集，如果交集为空，则该输入数据不包含歧义股票实体词；如果交集不为空，提取输入数据中所含的歧义股票实体词的语义特征向量，将输入数据以及输入数据中所含的歧义股票实体词的语义特征向量输入到训练好的歧义词判别模型，通过歧义词判别模型判断所含的歧义股票实体词和输入数据之间在语义上的关联度，以此来判别输入数据中所含的歧义股票实体词是否是股票实体词。

本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

与现有技术相比，本发明克服了现有技术需要人工构建知识库或需要大量训练数据的缺陷，本发明具有以下优点：

本发明中对训练语料进行分词的时候，预先使用实体词识别模型，解决分词系统由于自定词的存在导致分词错误而产生的歧义情况。本发明从包含歧义股票实体词的训练数据中提取出的所含歧义股票实体词的语义特征向量，用于歧义词判别模型的训练。歧义股票实体词的语义特征向量作为歧义词判别模型的输入，这相较于构建知识库的方式，减少了人力消耗，同时在没有使用外部知识库的情况下，依然能够对歧义实体有很强的表达能力。

附图说明

图1是本发明一实施例的流程图；

图2是本发明一实施例中实体词识别模型的实体词标注示例图；

图3是本发明一实施例中实体词识别模型的结构示例图；

图4是本发明一实施例中歧义词判别模型结构示例图；

图5是本发明一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本发明所揭示内容的精神，任何所属技术领域技术人员在了解本发明内容的实施例后，当可由本发明内容所教示的技术，加以改变及修饰，其并不脱离本发明内容的精神与范围。本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

参照图1，本发明一实施例中提供的股票实体词消歧方法，包括以下步骤：

S1.从包含歧义个股实体的金融财经资讯文本数据获取训练语料，由行业专家对各训练语料中存在的实体词及实体词对应的实体类别进行标注，实体类别包括无歧义股票实体词的实体类别以及包含歧义股票实体词的实体类别，得到第一训练数据集。

其中,实体词包括公司名、组织机构名、地名等实体类型的统称。另外还需要标注出每个包含歧义股票实体词的实体类别，类别包含个股和通用概念两种。

具体的，实际生产过程中大部分金融财经资讯的股票名称会以股票简称的形式出现和这写股票简称与现实生活中的其他实体类型相同，比如上市公司“江苏连云港港口股份有限公司”(股票代码:601008)的股票简称“连云港”，与地名“连云港”相同；上市公司“中节能太阳能股份有限公司”(股票代码:000591)的股票简称“太阳能”与一种可再生能源“太阳能”相同。上市公司“老百姓大药房连锁股份有限公司”(股票代码:603833)的股票简称“老百姓”与一种称谓“老百姓”相同等等。

大量搜集这些具有歧义股票实体词存在的资讯文本存储在数据库中并且由行业专家人工进行标注。人工标注的过程中需要标注出训练数据中的所有的无歧义股票实体词的实体类别以及包含歧义股票实体词的实体类别，其中实体类别包括公司名、组织机构名、地名等实体类型的统称。另外还需标注出包含歧义股票实体词的类别，类别包含个股和通用概念两种。

S2.从第一训练数据集提取包含歧义股票实体词的训练数据，从包含歧义股票实体词的训练数据中提取出所含歧义股票实体词的语义特征向量，构成第二训练数据集。

S3.利用第一训练数据集对预先构建的实体词识别模型进行训练，得到训练好的实体词识别模型。

使用第一训练数据集进行实体词识别模型的训练，得到训练好的实体词识别模型，实体词识别模型的标注方式与业务场景中的歧义实体的类型保持一致。实体词识别模型用于识别输入文本中涉及的所有实体词，该步骤用来解决分词系统带来的命名实体错分的问题。

S4.利用第二训练数据集对预先构建的歧义词判别模型进行训练，得到训练好的歧义词判别模型。

S5.构建歧义股票实体词列表，歧义词列表中列举容易出现歧义情况的歧义股票实体词。

S6.判断对待消歧金融财经资讯文本数据是否存在存在歧义词股票实体词，如存在歧义词股票实体词，将待消歧金融财经资讯文本数据及其所含的歧义股票实体词的语义特征向量输入到训练好的歧义词判别模型，判别其所含的歧义股票实体词是否是股票实体词。

在本发明一实施例的S3中，实体词识别模型中采用BIO标注方法。为了提高新实体词的召回率，标注过程不做实体词其实体类别如公司名、地名、机构名等的判断，只需将输入文本中所有实体词标注出来即可。其中，标注示例图如图2所示，实体词识别模型标注输入文本中的所有实体。使用的是BIO的标注方式，对文本序列进行标注，实体单元的起始位置标注为B-entity，中间位置和结束为止标注为I-entity，非实体以外的字符标注为O。

在本发明一实施例的S3中，实体词识别模型采用BiLSTM和CRF融合的网络模型。

在本发明一实施例的S3中，所述实体词识别模型采用BERT和Dense融合的网络模型。

在本发明一实施例的S3中，所述实体词识别模型采用BERT、BiLSTM以及CRF融合的网络模型。

在本发明一实施例的S3中，实体词识别模型采用BERT和CRF融合的网络模型。参照图3，实体词识别模型输入层为待识别的文本数据，输入层后接BERT层，BERT层生成的文本向量后接CRF层，最后输出待识别文本每个位置的标签序列。通过BERT+CRF网络模型从金融财经资讯中抽取实体名称。BERT是一种预训练语言表示的方法，在大量文本语料上训练了一个通用的“语言理解”模型，然后用这个模型去执行想做的NLP任务。BERT比之前的方法表现更出色，因为它是第一个用在预训练NLP上的无监督的、深度双向系统。使用预训练的BERT模型来进行新实体词的发现具有更好的表现。具体地，首先将第一训练数据集的训练数据(句子)输入BERT+CRF模型的BERT层，得到句子中单词的编码向量；然后,将句子中单词的编码向量输入BERT+CRF模型的CRF层，得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵；其次，BERT+CRF模型的CRF层用维特比算法处理每个句子的概率矩阵，得到最优标注序列；最后从最优标注序列得到句子中每个单词的实体标签筛选出实体词作为实体词识别模型的结果。

在本发明一实施例中，歧义股票实体词的语义特征向量采用以下任一种或者任多种方法生成：

Word2Vec词向量表示方法；

Glove词向量表示方法；

BERT词向量表示方法。

优选实施例中，从第一训练数据集提取包含歧义股票实体词的训练数据通过Word2Vec词向量表示方法进行歧义股票实体词的语义特征向量的生成。训练Word2Vec模型所需要的语料是从第一训练数据集提取包含歧义股票实体词的训练数据,用分词工具jieba对包含歧义股票实体的训练数据进行分词化处理。然后使用gensim工具包的word2vec训练得到歧义股票实体词的语义特征向量，训练生成的歧义股票实体词的语义特征向量维度为100。

在一实施例的S5中，确定业务场景中的歧义股票实体词列表,列举容易出现歧义情况的歧义股票实体词。以下列举了实际生产环境中容易出现歧义情况的歧义股票实体词包括{大酒店、机器人、新城市、新媒体、农产品、老百姓、星期六、太平洋、新坐标、动力源、可视化、太阳能}等。

在一实施例的S6中，先对待消歧金融财经资讯文本数据进行数据清洗和切句处理，数据清洗的过程包括中英文标点统一、富文本数据剔除、去停用词等。进一步地，按照句号、问号和叹号这三种终止符号对待消歧金融财经资讯文本数据进行切句处理，得到待消歧金融财经资讯文本数据的待消歧句子列表。

对待消歧金融财经资讯文本数据的待消歧句子列表中的每一个待消歧句子，先输入到训练好的实体词识别模型，识别得到待消歧句子中包含的所有实体词，然后和S5中歧义股票实体词列表求交集,如果交集为空,则输出当前待消歧句子中不包含歧义股票实体词,如果交集不为空,，提取输入数据中所含的歧义股票实体词的语义特征向量，将输入数据以及输入数据中所含的歧义股票实体词的语义特征向量输入到训练好的歧义词判别模型，通过歧义词判别模型判断所含的歧义股票实体词和输入数据之间在语义上的关联度，以此来判别输入数据中所含的歧义股票实体词是否是股票实体词。

在本发明一实施例中，参照图4，所述歧义词判别模型采用BERT和Dense融合的网络模型。歧义词判别模型输入为包含的歧义股票实体词的文本以及歧义股票实体词，包含歧义股票实体词的句子文本经过BERT层后接Dense层，歧义股票实体词获取侧向量与经过Dense层的包含的歧义股票实体词的文本向量(歧义句向量)拼接后再接一层Dense层，最后经过softmax层输出歧义股票实体词的类别。具体地，对于待消歧金融财经资讯文本数据，对文本数据按照中文字符切分，将切分后的文本序列输入BERT层中，BERT层通过查询字向量表将文本数据中的每个字转换为一维字向量，作为BERT层的输入。优选的，BERT层输入还包含文本书数据的位置向量，

位置向量：由于出现在文本数据不同位置的字/词所携带的语义信息存在差异，因此，BERT层对不同位置的字/词分别附加一个不同的向量以作区分。

将字向量和位置向量的加和作为歧义词判别模型BERT层的输入，BERT层的输出由字/词向量转换而来的文本向量能够包含更为准确的语义信息。BERT层后接Dense层，Dense层由两层全连接层构成,每一层全连接层设置有dropout来避免过拟合，且每个全连接层使用relu激活函数，Dense层输出长度为200维的向量。

歧义词判别模型输入还包含待消歧金融财经资讯文本数据中所含的歧义股票实体词的语义特征向量。歧义股票实体词的语义特征向量的生成方法前面已经详细叙述，在此不再赘述。100维的歧义股票实体词的语义特征向量和上面Dense层输出的200维向量拼接成300维的向量输入到第二个Dense层；其中，Dense层由四层全连接层构成,每一层全连接层设置有dropout,且每个全连接层使用Leaky-relu激活函数,使神经网络具有稀疏性能，降低计算成本，同时也能避免梯度消失的问题。

Dense层输出的向量长度为128维，最后输出层使用的激活函数为softmax，歧义词判别模型最终输出为包含歧义词的歧义句中歧义词的类型。

使用BERT模型进行衡量两个字符串的相似性较之前的直接利用词向量表示的方法相比，BERT方法表现更加出色，所以使用预训练的BERT模型来进行文本相似匹配具有更好的表现，可以很大的提升匹配准确度，提高文本相似匹配的效率。

在本发明另一实施例中，所述歧义词判别模型采用BERT和BiLSTM融合的网络模型。

在本发明另一实施例中，所述歧义词判别模型采用BERT和CNN融合的网络模型。

本实施例提出了一种面向金融财经资讯的股票实体词消歧方法，融合了实体词识别模型以及歧义词判别模型,提供了一个完善实体消歧流程,且在歧义词判别模型，添加了利用领域语料的基础上生成歧义词语义向量,提高了歧义词的语义信息,并且有效利用BERT方法,使得消歧准确率显著提高。

本发明从包含歧义股票实体词的训练数据中提取出的所含歧义股票实体词的语义特征向量，用于歧义词判别模型的训练,降低了人工成本，同时在没有使用外部知识库的情况下,依然能够对歧义实体词有很强的表达能力。本发明结合BERT模型进行实体词消歧，其准确度更高，效果更好。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述股票实体词消歧方法方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中股票实体词消歧方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中股票实体词消歧方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.股票实体词消歧方法，其特征在于，包括：

利用第一训练数据集对预先构建的实体词识别模型进行训练，得到训练好的实体词识别模型，所述实体词识别模型采用BiLSTM和CRF融合的网络模型，或者所述实体词识别模型采用BERT和Dense融合的网络模型，或者所述实体词识别模型采用BERT、BiLSTM以及CRF融合的网络模型；

利用第二训练数据集对预先构建的歧义词判别模型进行训练，得到训练好的歧义词判别模型，所述歧义词判别模型采用BERT 和 Dense融合的网络模型，或者所述歧义词判别模型采用BERT和BiLSTM融合的网络模型，或者所述歧义词判别模型采用BERT和CNN 融合的网络模型；

2.根据权利要求1所述的股票实体词消歧方法，其特征在于，采用Word2Vec词向量表示方法、Glove词向量表示方法或者BERT词向量表示方法生成歧义股票实体词的语义特征向量。

3.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1所述股票实体词消歧方法的步骤。

4.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1所述股票实体词消歧方法的步骤。