CN111104526A - 一种基于关键词语义的金融标签提取方法及系统 - Google Patents
一种基于关键词语义的金融标签提取方法及系统 Download PDFInfo
- Publication number
- CN111104526A CN111104526A CN201911149502.XA CN201911149502A CN111104526A CN 111104526 A CN111104526 A CN 111104526A CN 201911149502 A CN201911149502 A CN 201911149502A CN 111104526 A CN111104526 A CN 111104526A
- Authority
- CN
- China
- Prior art keywords
- financial
- public opinion
- label
- keyword
- predefined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于关键词语义的金融标签提取方法及系统,其方法包括以下步骤:配置预定义标签和词向量表;抽取舆情文本的关键词,从所述词向量表中提取与所述关键词相对应的词向量,获得关键词向量,并提取与所述预定义标签相对应的词向量,获得标签词向量;基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出。本发明能够准确的提取舆情文本多个维度的金融标签。
Description
技术领域
本发明涉及标签提取领域,尤其涉及一种基于关键词语义的金融标签提取方法及系统。
背景技术
金融标签对于金融舆情有着重要的意义,金融标签不仅包括相关的机构、人物、地理位置等等实体标签,还需要提取有关金融行业、股票板块、金融概念、市场等用于体现金融行业的特有标签,标签丰富的金融舆情才能供金融舆情消费者快速分析处理相关数据。
现有提取金融标签的方法包括利用实体链接对金融舆情的文本进行实体识别,根据识别结果输出标签,以及利用多分类的方式提取标签。但关于金融舆情的行业、板块、概念、市场等维度的标签通常很难用常规实体识别或分类的方法获得,故需要对现有技术做进一步改进。
发明内容
本发明针对现有技术中的缺点,提供了一种基于关键词语义的金融标签提取方法及系统。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种基于关键词语义的金融标签提取方法,包括以下步骤:
配置预定义标签和词向量表;
抽取舆情文本的关键词,从所述词向量表中提取与所述关键词相对应的词向量,获得关键词向量,并提取与所述预定义标签相对应的词向量,获得标签词向量;
基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出。
作为一种可实施方式,配置词向量表的具体步骤为:
采集并处理非金融舆情文本样本,获得初始训练数据,利用所述初始训练数据训练获得初始语义关联模型;
采集并处理金融舆情文本样本,获得增量训练数据,利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表。
作为一种可实施方式:
采集金融舆情文本样本,基于预设的分词表对所述金融舆情文本样本进行分词,获得金融语料,对所述金融语料进行预处理后获得增量训练数据;
利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表,将所述语义关联模型作为下次进行增量训练的初始语义关联模型。
作为一种可实施方式:
采集非金融舆情文本样本,基于预设的分词表对所述非金融舆情文本样本进行分词,获得基础语料,对所述基础语料进行预处理后获得初始训练数据;
利用所述初始训练数据对词向量模型进行训练,获得初始语义关联模型。
作为一种可实施方式,所述分词表包含分词关键词和自定义金融词汇,所述分词关键词为抽取金融舆情文本样本所得的关键词,所述自定义金融词汇为用户输入的金融词汇。
作为一种可实施方式,所述词向量模型为FastText模型、word2vec模型或Glove模型。
作为一种可实施方式,基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出的具体步骤为:
当所述关键词的数量为1时,基于标签词向量与关键词向量计算预定义标签与所述关键词的夹角余弦值,以所述夹角余弦值作为相对应的预定义标签与舆情文本的相似度;
当所述关键词的数量大于1时,提取各关键词的权重,基于标签词向量、关键词向量和所述权重加权计算预定义标签与各关键词的夹角余弦值,求和后获得相对应的预定义标签与舆情文本的相似度;
根据所述相似度对各预定义标签进行排列,并将相似度大于预设的相似度阈值的预定义标签作为所述舆情文本的金融标签输出。
本发明还提出一种基于关键词语义的金融标签提取系统,包括:
信息配置模块,用于配置预定义标签和词向量表;
信息抽取模块,用于抽取舆情文本的关键词,从所述词向量表中提取与所述关键词相对应的词向量,获得关键词向量,并提取与所述预定义标签相对应的词向量,获得标签词向量;
标签输出模块,用于基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出。
作为一种可实施方式,所述信息配置模块包括预定义标签配置单元和词向量表配置单元,其中词向量表配置单元被配置为:
采集并处理非金融舆情文本样本,获得初始训练数据,利用所述初始训练数据训练获得初始语义关联模型;
采集并处理金融舆情文本样本,获得增量训练数据,利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表。
本发明还提出一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述任意一项所述方法的步骤。
本发明由于采用了以上技术方案,具有显著的技术效果:
1、本发明基于舆情文本的关键词,利用词向量表计算各预定义标签与舆情文本的相似度,从而根据计算所得相似度提取相应的预定义标签作为所述舆情文本的金融标签输出,能够准确的从多个维度对舆情文本的金融标签进行提取;本发明与现有实体识别提取金融标签的方法相比,可以提取舆情文本中未明确出现的标签,丰富舆情文本的金融标签,便于后续对各舆情文本进行分析处理;本发明与现有利用多分类模型提取金融标签的方法相比,前期无需根据类别分别建立多分类器,进行标签提取时,也不会强制提取舆情文本不涉及的金融标签,提高金融标签提取的准确率。
2、本发明对初始语义关联模型进行增量训练的设计,能够根据金融舆情的变化对初始语义关联模型进行微调,并对词向量表进行更新,令提取的金融标签能够满足金融舆情变化的需要。
3、本发明预先利用非金融舆情文本样本训练初始语义关联模型,再利用金融舆情文本样本对初始语义关联模型进行增量训练已获得词向量表,此时词向量表包含通用词汇和金融词汇,词汇覆盖率高,且由于利用金融舆情文本样本对初始语义关联模型进行增量训练,故能够在所得词向量表中凸显出金融领域的词汇之间的语义关联性特征。
4、本发明预先建立分词表,并在利用金融舆情文本样本进行增量训练前,根据金融舆情文本样本构建/更新分词表,能够有效避免金融领域的词汇分词错误所导致金融标签提取不准确的情况。
5、本发明基于舆情文本所抽取的关键词的权重,对加权计算各预定义标签与舆情文本的相似度,使该相似度更贴合舆情文本,提高金融标签提取和排序的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于关键词语义的金融标签提取方法的工作流程示意图;
图2是实施例1中构建语义关联模型的流程示意图;
图3是实施例1中基于语义关联模型提取金融标签的流程示意图;
图4是本发明一种基于关键词语义的金融标签提取系统的模块连接示意图。
具体实施方式
现有技术中利用实体识别提取金融标签的方法具体为:
首先,在金融舆情的文本中识别出不同类型的实体候选集合,再对识别出来的候选实体排名,最后选取排名最高的实体最终链接到实体库并获得标签。
上述方法存在以下缺点:
1.1、只能识别出舆情文本中出现明确实体词的实体,而在金融领域中,有关行业、概念、股票板块等标签往往不会在文章中直接体现,例如有关贵州茅台和五粮液的舆情文本,其中往往不会出现“白酒”一词,故现有实体识别方案利用实体链接无法识别出出白酒行业的标签。
1.2、候选实体排名时需要与正确实体相关的语料,而在金融领域中,这些语料出现频率不高,使实体排名的准确率不理想,导致实体链接的准确率低。
现有技术中利用多分类模型提取金融标签的方法具体为:
分别为对不同种类的标签构建相应的文本分类器模型,如采用决策树等基于机器学习或者深度学习的分类算法,从而把金融舆情分到不同类别。例如提取金融行业时,需要根据金融行业分类的类别数训练一个多分类器,最终根据该多分类器输出的分类结果,为相应的金融舆情添加行业标签。
上述方法存在以下缺点:
2.1、文本分类器模型的输出类别数要等于标签的总数量。对于行业标签来说,根据某权威金融机构的行业分类方法,最细粒度的行业多达两百多种,即使是最粗粒度的行业标签也有几十种;基于此情况,利用文本分类器模型进行标签提取的方案,需要对每一个类别准备足够的且人工标注过的精确的训练数据(金融舆情),不仅工作量大,还由于某些类别的新闻较少,难以收集,而一旦出现类别不平衡的问题,将导致训练的多分类器的准确率低,导致文本分类器模型预测的标签结果不准确。
2.2、对于每一种标签维度,多标签分类模型都需要单独训练一个分类器,工作量大,且很难随着实际金融情况的变化进行相应的调整。
2.3、不够灵活,多分类器的最终输出结果一定是某一种类别,不存在不输出的情况。假设,有的金融舆情本身就没有体现出行业信息,而采用多分类器对其进行标签提取时会强制输出一个行业类别,影响标签提取的准确率。
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例1、一种基于关键词语义的金融标签提取方法,如图1所示,包括以下步骤:
S100、配置预定义标签和词向量表;
上述预定义标签为用户预先设置的其希望提取的标签,包括但不限于机构、人物、地理位置、行业、板块、概念、市场等维度,用户可根据实际需要自由设置预定义标签的类别和数量。
S200、抽取舆情文本的关键词,从所述词向量表中提取与所述关键词相对应的词向量,获得关键词向量,并提取与所述预定义标签相对应的词向量,获得标签词向量;
本实施例中抽取舆情文本的关键词的方法为,利用现有的关键词抽取算法,对待提取标签的舆情文本进行关键词提取,抽取获得的关键词个数为正整数。
利用词向量表提取所述关键词和预定义标签相对应的词向量,即,关键词向量和标签词向量。
S300、基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出。
由上可知,本实施例与现有实体识别提取金融标签的方法相比,可以提取舆情文本中未明确出现的标签,丰富舆情文本的金融标签,便于后续对各舆情文本进行分析处理。本实施例与现有利用多分类模型提取金融标签的方法相比,前期无需根据类别分别建立多分类器,进行标签提取时,也不会强制提取舆情文本不涉及的金融标签,提高金融标签提取的准确率。
参考图2,所述步骤S100中,配置词向量表的具体步骤为:
S110、采集并处理非金融舆情文本样本,获得初始训练数据,利用所述初始训练数据训练获得初始语义关联模型;
S120、采集并处理金融舆情文本样本,获得增量训练数据,利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表。
上述步骤S120中采集并处理金融舆情文本样本,获得增量训练数据,利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表的具体步骤为:
S121、获取金融舆情文本样本,基于预设的分词表对所述金融舆情文本样本进行分词,获得金融语料,对所述金融语料进行预处理后获得增量训练数据;
所述金融舆情文本样本为根据用户设置的采集期限,按照所述采集期限所采集的金融舆情文本;相关领域的技术人员可以根据实际需要设置采集期限,如30天内,此时采集30天内发布的金融舆情文本作为金融舆情文本样本。
S122、利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表,将所述语义关联模型作为下次进行增量训练的初始语义关联模型。
由上可知,本实施例中利用金融舆情文本样本对初始语义关联模型进行增量训练,以获得语义关联模型和词向量表,本实施例以所述第二将作为下次进行增量训练的初始语义关联模型,使用户根据实际需要,周期性的获取金融舆情文本样本,并利用金融舆情文本样本对语义关联模型进行反复增量训练迭代,从而更新词向量表,拉近金融领域词汇向量之间的距离,还能反映出最近的金融舆情热点,提高提取金融标签的准确率。
例如用户每月获取一次本月内的金融舆情文本作为金融舆情文本样本,并按照上述步骤S121和S122利用金融舆情文本样本对初始语义关联模型进行微调,此过程中实现对词向量表的更新,例如最近金融领域出现新概念“5G”,用户可新增预定义标签“5G”,并获取本月内的金融舆情文本样本对初始语义关联模型进行增量训练,由于所述金融舆情文本样本中“华为”与“5G”出现频率高,故所得词向量表中“华为”与“5G”的词向量之间的相似度较高,故之后对舆情文本进行标签提取时,即可根据所抽取的关键词输出“5G”的金融标签。
本实施例对初始语义关联模型进行增量训练的设计,能够根据金融舆情的变化对初始语义关联模型进行微调,并对词向量表进行更新,令提取的金融标签能够满足金融舆情变化的需要。
如图2所示,上述S110中采集并处理非金融舆情文本样本,获得初始训练数据,利用所述初始训练数据训练获得初始语义关联模型的步骤为:
S111、获取非金融舆情文本样本,基于预设的分词表对所述非金融舆情文本样本进行分词,获得基础语料,对所述基础语料进行预处理后获得初始训练数据;
S112、利用所述初始训练数据对词向量模型进行训练,获得初始语义关联模型。
注,本实施例中对基础语料和金融语料进行预处理的具体内容为去停用词和去无意义词。
本实施例中非金融舆情文本样本采用普通新闻,包括但不限于体育类、娱乐类、生活类的新闻,利用非金融舆情文本样本训练获得初始语义关联模型,并得到通用词向量表,此时通用词向量表为与初始训练数据相对应的词向量表。
由于金融舆情文本的词覆盖率低,如仅利用金融舆情文本对词向量模型进行训练,获得词向量表往往会缺少很多词的普通语义,在后续用户提取舆情样本的金融标签时,会出现缺少舆情样本关键词导致无法正确提取金融标签的情况。
如直接利用金融舆情文本和非金融舆情文本样本(简称为舆情文本样本)一同对词向量模型进行训练,由于非金融舆情文本样本针对金融舆情变化的敏感度低于金融舆情文本,且同一时期非金融舆情文本样本的数量远远超出金融舆情文本,故训练获得的词向量表往往无法凸显该时期的金融舆情热点,从而无法紧跟金融舆情的变化输出相对应的金融标签。
例如“猪肉”这个词在普通新闻中往往仅作为烧菜的肉类,但是在某时期的金融舆情中,“猪肉”和“板块”“人造肉”“大涨”等金融词汇一起出现,作为新的金融舆情热点。
如不利用普通新闻预先训练初始语义关联模型,获得含猪肉的通用词向量表,则针对新出现的关键词包含“猪肉”的舆情文本,无法提取和“猪肉”相对应的金融标签;
如直接利用普通新闻和金融舆情文本训练获得词向量表,由于有关“猪肉”的金融舆情文本远少于普通新闻,故“猪肉”和对应预定义标签的词向量距离较远,在提取舆情文本的金融标签时,往往无法充分提取出与其相对应的金融标签。
本实施例中预先利用非金融舆情文本样本训练获得初始语义关联模型和通用词向量表,通用词向量表中词汇覆盖率高,所述通用词向量表中词汇缺少金融含义;之后利用金融舆情文本样本对初始语义关联模型进行微调,获得词向量表,此时词向量表中不仅包含金融相关的词汇,还能根据当前舆情热点,使金融领域的词汇之间的语义关联性特征更加凸显出来,如上述的例子,由于当前金融舆情热点“猪肉”和“板块”“人造肉”等金融词汇在金融舆情文本样本出现的频次高,故“猪肉”和该类金融词汇的词向量距离近,故在提取舆情文本的金融标签时,能够准确提取出该类金融标签,故本实施例所提出的技术方案能够适应金融舆情的多变,准确提取出与当前金融舆情热点相应的金融标签。
上述步骤S112中,词向量模型可采用现有已公开的FastText模型、word2vec模型或Glove模型,本实施例采用FastText模型。
注:FastText模型是Facebook开发的一款快速文本分类器,其提供简单而高效的文本分类和表征学习的方法,并提供了词嵌入(embedding)学习的接口,适用于大规模文本的词向量训练任务,其具有训练速度快的优点,且对词频出现次数较少的词也能得到很好词向量训练效果。FastText模型的网络结构为输入层、隐层和输出层,其中输入层是基于n-gram的字词,隐层为仅有一层的线性网络,输出层用于输出每个词在高维空间中的词向量,并且输出层在训练时利用了层次化的softmax回归,使FastText模型在保持高精度的情况下加快了训练速度。
所述分词表包含分词关键词和自定义金融词汇,所述分词关键词为抽取金融舆情文本样本所得的关键词,所述自定义金融词汇为用户输入的金融词汇。
本实施例中每次进行增量训练时,都抽取所采集金融舆情文本样本的关键词对所述分词表进行更新,即,当分词表中未含有抽取获得的分词关键词时,将所述分词关键词添加至分词表中。
所述第一金融舆情文本样本为相关领域的技术人员根据实际需要所采集的金融舆情文本,本说明书不对其进行限定。
本实施例中对分词表的设计,能够有效防止在分词过程中与金融舆情相关的重要词汇(分词关键词以及用户自行设定的自定义金融词汇)被分错从而影响词向量的表示。
上述步骤S300中,基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出的具体步骤为:
S310、当所述关键词的数量为1时,基于标签词向量与关键词向量计算预定义标签与所述关键词的夹角余弦值,以所述夹角余弦值作为相对应的预定义标签与舆情文本的相似度;
本实施例计算预定义标签与关键词的夹角余弦值的计算公式为:
其中,a表示关键词向量,b表示标签词向量,cos(θ)表示关键词向量与标签词向量的夹角余弦值,余弦值越大表示两个向量的夹角越小,两个词的语义越接近。
S320、当所述关键词的数量大于1时,提取各关键词的权重,基于标签词向量、关键词向量和所述权重加权计算预定义标签与各关键词的夹角余弦值,求和后获得相对应的预定义标签与舆情文本的相似度;
注,抽取舆情文本的关键词时,会自动生成对应关键词的权重,本实施例中设置关键词权重的阈值为0.1,即,当权重不足0.1时,丢弃该权重所对应的关键词,并对剩余关键词的权重进行归一化处理。
S330、根据所述相似度对各预定义标签进行排列(按照相似度从大到小依次排列),并将相似度大于预设的相似度阈值的预定义标签作为所述舆情文本的金融标签输出。
参照图3可知,关键词向量与各标签词向量进行余弦值计算,为了图面的整洁,图3中仅示出2个关键词向量与各标签词向量计算夹角余弦值,其中实线表示关键词向量1与标签词向量进行计算的关系,虚线表示关键词向量2与标签词向量进行计算的关系.
参照图3对相似度计算方法进行详细介绍:
配置n个预定义标签,从舆情文本中抽取N个关键词,如本案例中预定义标签数量为2,关键词数量为5。
本案例中抽取舆情文本所得的关键词及权重为(5G,0.3),(互联网,0.3),(华为,0.2),(云计算,0.1),(智能家居,0.1),预定义标签为标签A和标签B,此时,标签A的相似度为0.3*cos(5G,A)+0.3*cos(互联网,A)+0.2*cos(华为,A)+0.1*cos(云计算,A)+0.1*cos(智能家居,A)。
依照上述方法计算获得标签B的相似度,并按照相似度从大到小进行排列,最后分别判断标签A和标签B的相似度是否大于预设的相似度阈值,输出预设的相似度阈值所对应的标签作为该舆情文本的金融标签。
注,相关领域的技术人员能够根据实际情况自行设定相似度阈值,本实施例中不对其进行限定。
综上,本实施例中结合关键词的权重,计算各预定义标签与舆情文本的相似度,根据所述相似度提取预定义标签作为金融标签,不仅能够进一步提高金融标签提取的准确性,还能提高金融标签排序的准确性,便于后续基于各舆情文本的金融标签对金融舆情的处理分析。
实施例2、一种基于关键词语义的金融标签提取系统,如图4所示,包括信息配置模块100、信息抽取模块200和标签输出模块300;
所述信息配置模块100,用于配置预定义标签和词向量表;
所述信息抽取模块200,用于抽取舆情文本的关键词,从所述词向量表中提取与所述关键词相对应的词向量,获得关键词向量,并提取与所述预定义标签相对应的词向量,获得标签词向量;
本实施例中信息抽取模块200包括关键词抽取单元和词向量提取单元;
所述关键词抽取单元,用于抽取舆情文本的关键词;
所述词向量提取单元,用于从所述词向量表中提取与所述关键词相对应的词向量,获得关键词向量,还用于从所述词向量表中提取与所述预定义标签相对应的词向量,获得标签词向量;所述标签输出模块300,用于基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出。
所述信息配置模块100包括预定义标签配置单元110、词向量表配置单元20;
所述预定义标签配置单元110,用于根据用户的输入配置预定义标签。
所述词向量表配置单元120被配置为:
采集并处理非金融舆情文本样本,获得初始训练数据,利用所述初始训练数据训练获得初始语义关联模型;
采集并处理金融舆情文本样本,获得增量训练数据,利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
实施例3,一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现实施例1所述方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (10)
1.一种基于关键词语义的金融标签提取方法,其特征在于包括以下步骤:
配置预定义标签和词向量表;
抽取舆情文本的关键词,从所述词向量表中提取与所述关键词相对应的词向量,获得关键词向量,并提取与所述预定义标签相对应的词向量,获得标签词向量;
基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出。
2.根据权利要求1所述的基于关键词语义的金融标签提取方法,其特征在于,配置词向量表的具体步骤为:
采集并处理非金融舆情文本样本,获得初始训练数据,利用所述初始训练数据训练获得初始语义关联模型;
采集并处理金融舆情文本样本,获得增量训练数据,利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表。
3.根据权利要求2所述的基于关键词语义的金融标签提取方法,其特征在于:
采集金融舆情文本样本,基于预设的分词表对所述金融舆情文本样本进行分词,获得金融语料,对所述金融语料进行预处理后获得增量训练数据;
利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表,将所述语义关联模型作为下次进行增量训练的初始语义关联模型。
4.根据权利要求2所述的基于关键词语义的金融标签提取方法,其特征在于:
采集非金融舆情文本样本,基于预设的分词表对所述非金融舆情文本样本进行分词,获得基础语料,对所述基础语料进行预处理后获得初始训练数据;
利用所述初始训练数据对词向量模型进行训练,获得初始语义关联模型。
5.根据权利要求4所述的基于关键词语义的金融标签提取方法,其特征在于,所述词向量模型为FastText模型、word2vec模型或Glove模型。
6.根据权利要求3至5任一所述的基于关键词语义的金融标签提取方法,其特征在于,所述分词表包含分词关键词和自定义金融词汇,所述分词关键词为抽取金融舆情文本样本所得的关键词,所述自定义金融词汇为用户输入的金融词汇。
7.根据权利要求1所述的基于关键词语义的金融标签提取方法,其特征在于,基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出的具体步骤为:
当所述关键词的数量为1时,基于标签词向量与关键词向量计算预定义标签与所述关键词的夹角余弦值,以所述夹角余弦值作为相对应的预定义标签与舆情文本的相似度;
当所述关键词的数量大于1时,提取各关键词的权重,基于标签词向量、关键词向量和所述权重加权计算预定义标签与各关键词的夹角余弦值,求和后获得相对应的预定义标签与舆情文本的相似度;
根据所述相似度对各预定义标签进行排列,并将相似度大于预设的相似度阈值的预定义标签作为所述舆情文本的金融标签输出。
8.一种基于关键词语义的金融标签提取系统,其特征在于,包括:
信息配置模块,用于配置预定义标签和词向量表;
信息抽取模块,用于抽取舆情文本的关键词,从所述词向量表中提取与所述关键词相对应的词向量,获得关键词向量,并提取与所述预定义标签相对应的词向量,获得标签词向量;
标签输出模块,用于基于所述关键词向量和所述标签词向量计算各预定义标签与舆情文本的相似度,并根据相似度提取相应的预定义标签作为所述舆情文本的金融标签输出。
9.根据权利要求8所述的基于关键词语义的金融标签提取系统,其特征在于,所述信息配置模块包括预定义标签配置单元和词向量表配置单元,其中词向量表配置单元被配置为:
采集并处理非金融舆情文本样本,获得初始训练数据,利用所述初始训练数据训练获得初始语义关联模型;
采集并处理金融舆情文本样本,获得增量训练数据,利用所述增量训练数据对初始语义关联模型进行增量训练,获得语义关联模型和词向量表。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911149502.XA CN111104526A (zh) | 2019-11-21 | 2019-11-21 | 一种基于关键词语义的金融标签提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911149502.XA CN111104526A (zh) | 2019-11-21 | 2019-11-21 | 一种基于关键词语义的金融标签提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111104526A true CN111104526A (zh) | 2020-05-05 |
Family
ID=70420502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911149502.XA Pending CN111104526A (zh) | 2019-11-21 | 2019-11-21 | 一种基于关键词语义的金融标签提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104526A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640025A (zh) * | 2020-06-09 | 2020-09-08 | 国泰君安证券股份有限公司 | 基于标签体系实现资讯标签化处理的方法 |
CN111753174A (zh) * | 2020-06-23 | 2020-10-09 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置和电子设备 |
CN111797234A (zh) * | 2020-06-16 | 2020-10-20 | 北京北大软件工程股份有限公司 | 一种自然语言处理分类模型中多标签分布学习的方法和系统 |
CN112101020A (zh) * | 2020-08-27 | 2020-12-18 | 北京百度网讯科技有限公司 | 训练关键短语标识模型的方法、装置、设备和存储介质 |
CN112307761A (zh) * | 2020-11-19 | 2021-02-02 | 新华智云科技有限公司 | 基于注意力机制的事件抽取方法及系统 |
CN112380350A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本分类方法和装置 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、系统、计算机可读存储介质 |
CN112925902A (zh) * | 2021-02-22 | 2021-06-08 | 新智认知数据服务有限公司 | 案情文本中智能提取文本摘要的方法、系统及电子设备 |
CN113434695A (zh) * | 2021-06-25 | 2021-09-24 | 平安科技(深圳)有限公司 | 金融事件抽取方法、装置、电子设备及存储介质 |
CN113591476A (zh) * | 2021-08-10 | 2021-11-02 | 闪捷信息科技有限公司 | 一种基于机器学习的数据标签推荐方法 |
CN115409130A (zh) * | 2022-10-11 | 2022-11-29 | 北京睿企信息科技有限公司 | 一种更新分类标签的优化方法及系统 |
CN115599903A (zh) * | 2021-07-07 | 2023-01-13 | 腾讯科技(深圳)有限公司(Cn) | 对象标签获取方法、装置、电子设备及存储介质 |
CN117236338A (zh) * | 2023-08-29 | 2023-12-15 | 北京工商大学 | 一种稠密实体文本的命名实体识别模型及其训练方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010224622A (ja) * | 2009-03-19 | 2010-10-07 | Nomura Research Institute Ltd | タグ付与方法およびタグ付与プログラム |
CN108536801A (zh) * | 2018-04-03 | 2018-09-14 | 中国民航大学 | 一种基于深度学习的民航微博安保舆情情感分析方法 |
CN109508423A (zh) * | 2018-12-14 | 2019-03-22 | 平安科技(深圳)有限公司 | 基于语义识别的房源推荐方法、装置、设备及存储介质 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110232124A (zh) * | 2019-06-03 | 2019-09-13 | 安徽智侒信信息技术有限公司 | 一种情感分析系统 |
CN110263169A (zh) * | 2019-03-27 | 2019-09-20 | 青岛大学 | 一种基于卷积神经网络和关键词聚类的热点事件检测方法 |
-
2019
- 2019-11-21 CN CN201911149502.XA patent/CN111104526A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010224622A (ja) * | 2009-03-19 | 2010-10-07 | Nomura Research Institute Ltd | タグ付与方法およびタグ付与プログラム |
CN108536801A (zh) * | 2018-04-03 | 2018-09-14 | 中国民航大学 | 一种基于深度学习的民航微博安保舆情情感分析方法 |
CN109508423A (zh) * | 2018-12-14 | 2019-03-22 | 平安科技(深圳)有限公司 | 基于语义识别的房源推荐方法、装置、设备及存储介质 |
CN110263169A (zh) * | 2019-03-27 | 2019-09-20 | 青岛大学 | 一种基于卷积神经网络和关键词聚类的热点事件检测方法 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110232124A (zh) * | 2019-06-03 | 2019-09-13 | 安徽智侒信信息技术有限公司 | 一种情感分析系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640025A (zh) * | 2020-06-09 | 2020-09-08 | 国泰君安证券股份有限公司 | 基于标签体系实现资讯标签化处理的方法 |
CN111797234A (zh) * | 2020-06-16 | 2020-10-20 | 北京北大软件工程股份有限公司 | 一种自然语言处理分类模型中多标签分布学习的方法和系统 |
CN111797234B (zh) * | 2020-06-16 | 2024-04-30 | 北京北大软件工程股份有限公司 | 一种自然语言处理分类模型中多标签分布学习的方法和系统 |
CN111753174A (zh) * | 2020-06-23 | 2020-10-09 | 北京字节跳动网络技术有限公司 | 数据处理方法、装置和电子设备 |
CN112101020B (zh) * | 2020-08-27 | 2023-08-04 | 北京百度网讯科技有限公司 | 训练关键短语标识模型的方法、装置、设备和存储介质 |
CN112101020A (zh) * | 2020-08-27 | 2020-12-18 | 北京百度网讯科技有限公司 | 训练关键短语标识模型的方法、装置、设备和存储介质 |
CN112307761A (zh) * | 2020-11-19 | 2021-02-02 | 新华智云科技有限公司 | 基于注意力机制的事件抽取方法及系统 |
CN112380350A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本分类方法和装置 |
CN112380350B (zh) * | 2021-01-14 | 2021-05-07 | 北京育学园健康管理中心有限公司 | 一种文本分类方法和装置 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、系统、计算机可读存储介质 |
CN112925902A (zh) * | 2021-02-22 | 2021-06-08 | 新智认知数据服务有限公司 | 案情文本中智能提取文本摘要的方法、系统及电子设备 |
CN112925902B (zh) * | 2021-02-22 | 2024-01-30 | 新智认知数据服务有限公司 | 案情文本中智能提取文本摘要的方法、系统及电子设备 |
CN113434695A (zh) * | 2021-06-25 | 2021-09-24 | 平安科技(深圳)有限公司 | 金融事件抽取方法、装置、电子设备及存储介质 |
CN115599903A (zh) * | 2021-07-07 | 2023-01-13 | 腾讯科技(深圳)有限公司(Cn) | 对象标签获取方法、装置、电子设备及存储介质 |
CN113591476A (zh) * | 2021-08-10 | 2021-11-02 | 闪捷信息科技有限公司 | 一种基于机器学习的数据标签推荐方法 |
CN115409130A (zh) * | 2022-10-11 | 2022-11-29 | 北京睿企信息科技有限公司 | 一种更新分类标签的优化方法及系统 |
CN115409130B (zh) * | 2022-10-11 | 2023-08-15 | 北京睿企信息科技有限公司 | 一种更新分类标签的优化方法及系统 |
CN117236338A (zh) * | 2023-08-29 | 2023-12-15 | 北京工商大学 | 一种稠密实体文本的命名实体识别模型及其训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN106919619B (zh) | 一种商品聚类方法、装置及电子设备 | |
Zhao et al. | Topical keyphrase extraction from twitter | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN106407180B (zh) | 一种实体消歧方法及装置 | |
CN108269125B (zh) | 评论信息质量评估方法及系统、评论信息处理方法及系统 | |
WO2016000555A1 (zh) | 基于社交网络的内容、新闻推荐方法和系统 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN108846097B (zh) | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN112347778A (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN109558587B (zh) | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
US9652997B2 (en) | Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme | |
CN106294786A (zh) | 一种代码搜索方法和系统 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
CN116049379A (zh) | 知识推荐方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |