CN112711666B

CN112711666B - 期货标签抽取方法及装置

Info

Publication number: CN112711666B
Application number: CN202110323462.7A
Authority: CN
Inventors: 谢先招; 向修海
Original assignee: Wuhan Youpin Chuding Technology Co ltd
Current assignee: Wuhan Youpin Chuding Technology Co ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-08-06
Anticipated expiration: 2041-03-26
Also published as: CN112711666A

Abstract

本发明提供一种期货标签抽取方法及装置，该方法包括：预处理待抽取文本，获取分词结果；通过识别分词结果获取交易所名称，基于交易所名称得到期货标签前缀；基于期货标签前缀和分词结果生成预选期货标签；直接匹配预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的期货品种字符作为第一期货标签进行输出；若直接匹配失败，对预选期货标签和期货品种字符进行相似度匹配，并将相似度匹配成功的期货品种字符作为第二期货标签进行输出。本发明实施例提供的期货标签抽取方法及装置，通过对预选期货标签先后进行直接匹配和相似度匹配，实现了对期货标签抽取过程的分步优化处理，提高了期货标签的抽取效率和抽取准确率。

Description

期货标签抽取方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种期货标签抽取方法及装置。

背景技术

随着互联网和信息技术的发展各种财经网络信息呈现指数增长的趋势，尤其是微博等网络平台的兴起让财经信息再次爆炸式增长，人们如何从海量的财经信息中快速选取对应于自己需求的信息成为当下需要解决的重点。

对财经信息进行标签抽取是目前常用的方法，但是当前的标签抽取方式主要是通过人工打标，文本分类，所有这些技术都依赖海量的人工标注工作，其抽取方法效率较低，且标签抽取的错误率较高。

发明内容

本发明提供一种期货标签抽取方法及装置，用以解决现有技术中在标签抽取过程中存在的抽取效率低，抽取准确度差的缺陷，实现对于期货标签的快速准确抽取。

本发明提供一种期货标签抽取方法，包括：预处理待抽取文本，获取分词结果；通过识别所述分词结果获取交易所名称，基于所述交易所名称得到期货标签前缀；基于所述期货标签前缀和所述分词结果生成预选期货标签；直接匹配所述预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的所述期货品种字符作为第一期货标签进行输出；若直接匹配失败，对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述期货品种字符作为第二期货标签进行输出。

根据本发明提供一种的期货标签抽取方法，所述预处理待抽取文本，获取分词结果，具体包括：将所述待抽取文本依次进行切句及过滤，基于LTP算法对过滤后得到的句子进行分词处理，获取分词结果。

根据本发明提供一种的期货标签抽取方法，所述基于所述交易所名称得到期货标签前缀，具体包括：输出所述交易所名称的英文缩写名称作为所述期货标签前缀。

根据本发明提供一种的期货标签抽取方法，所述直接匹配所述预选期货标签和期货品种字符，具体包括：基于期货字典和自定义映射字典对所述预选期货标签和所述期货品种字符进行直接匹配；其中，所述期货字典为包含有各种所述期货品种字符的集合，所述自定义映射字典包括所述期货品种字符与细化分类后得到的期货子品种字符的映射关系。

根据本发明提供一种的期货标签抽取方法，所述对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述预选期货标签作为第二期货标签进行输出，具体包括：从所述期货字典中选取与所述预选期货标签存在字符交集的所述期货品种字符，计算所述预选期货标签和所述与所述预选期货标签存在字符交集的所述期货品种字符之间的编辑距离；构建编辑距离最小值对应的期货品种字符候选集；若所述期货品种字符候选集中的期货品种字符个数唯一，则将所述期货品种字符作为所述第二期货标签直接输出；若所述期货品种字符候选集中的期货品种字符个数不唯一，分别计算所述预选期货标签与所述期货品种字符候选集中的所述期货品种字符的词向量相似度值，选取最大词向量相似度值对应的所述期货品种字符作为所述第二期货标签，输出所述第二期货标签。

根据本发明提供一种的期货标签抽取方法，所述方法还包括：基于上下游关联期货字典获取所述第一期货标签或所述第二期货标签的上游期货标签。

根据本发明提供一种的期货标签抽取方法，所述方法还包括：获取所述待抽取文本中的段落关键词和标题关键词；基于所述段落关键词构建内容主题词向量，基于所述标题关键词构建标题主题词向量；基于所述第一期货标签和所述第二期货标签构建期货标签词向量；基于关联于所述第一期货标签或所述第二期货标签的所述上游期货标签构建上游期货标签词向量；基于所述内容主题词向量与所述期货标签词向量获取第一关联度评分，基于所述标题主题词向量与所述期货标签词向量获取第二关联度评分；基于所述内容主题词向量与所述上游期货标签词向量获取第三关联度评分，基于所述标题主题词向量与所述上游期货标签词向量获取第四关联度评分；基于所述第一关联度评分与所述第二关联度评分获取所述待抽取文本与所述期货标签的关联度评分，基于所述第三关联度评分与所述第四关联度评分获取所述待抽取文本与所述上游期货标签的关联度评分；基于所述待抽取文本与所述期货标签的关联度评分以及所述待抽取文本与所述上游期货标签的关联度评分对所述期货标签以及所述上游期货标签进行排序。

本发明还提供一种期货标签抽取装置，包括：获取模块，用于预处理待抽取文本，获取分词结果；生成模块，用于通过识别所述分词结果获取交易所名称，基于所述交易所名称得到期货标签前缀；基于所述期货标签前缀和所述分词结果生成预选期货标签；匹配模块，用于直接匹配所述预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的所述期货品种字符作为第一期货标签进行输出；若直接匹配失败，对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述期货品种字符作为第二期货标签进行输出。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述期货标签抽取方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述期货标签抽取方法的步骤。

本发明提供的期货标签抽取方法及装置，首先基于期货字典和自定义映射字典实现对于预选期货标签的直接匹配，然后将直接匹配失败的预选期货标签与期货字典中的期货品种字符进行相似度匹配，通过对预选期货标签先后进行直接匹配和相似度匹配，实现了对期货标签抽取过程的分步优化处理，提高了期货标签的抽取效率和抽取准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的期货标签抽取方法的流程示意图；

图2是本发明提供的期货标签抽取装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

1)人工智能(Artificial Intelligence，AI)是数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生成一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

3)机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学，逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

为文本内容确定标签是人工智能的一个应用方向。当下处于信息爆炸的时代，各种信息每天充斥着人们的生活，在给人们带来丰富阅读内容的同时也使得人们获取有效信息的效率逐渐下降。以财经新闻为例，财经新闻往往具有很强的时效性和丰富性，如何使人们快速获取所需要的财经新闻是当下的研究热点，比较有效的方式是对每个财经新闻打上标签，用户可以根据标签信息快速获取所需财经新闻，而对于标签的抽取过程往往是通过人工的方式进行抽取，该过程依赖大量人力，同时由于该工作过程单调枯燥，从业者易疲劳。由此可见，现有技术中，存在标签抽取效率低且标签抽取准确度差的问题。下面以财经新闻中常见的期货标签抽取过程为例，展开论述。

图1是本发明提供的期货标签抽取方法的流程示意图，如图1所示，所述方法包括：

步骤S110，预处理待抽取文本，获取分词结果；

步骤S120，通过识别所述分词结果获取交易所名称，基于所述交易所名称得到期货标签前缀；基于所述期货标签前缀和所述分词结果生成预选期货标签；

步骤S130，直接匹配所述预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的所述期货品种字符作为第一期货标签进行输出；若直接匹配失败，对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述期货品种字符作为第二期货标签进行输出。

期货标签本质上是一个期货品种字符，是一个词语，所以在对待抽取文本进行预处理时，需要将由多个段落组成的文本进行切句，得到一个个单一的句子，然后再将得到的每个句子进行分词处理，得到一个个单一的词语，即最终得到步骤S110中所述的分词结果。

在经过步骤S110处理过程，得到分词结果后，识别所述分词结果，得到交易所的名称，例如“CBOT”，将该交易所名称作为期货标签的前缀，将经由分词处理后得到的多个词语分别与期货标签的前缀进行组合，生成预选期货标签。

在经过步骤S120处理过程，得到预选期货标签后，对所述预选期货标签和期货品种字符进行匹配。首先，预选期货标签和期货品种字符进行直接匹配，若直接匹配成功，则将直接匹配成功的期货品种字符作为第一期货标签进行输出，此处直接匹配成功的含义是预选期货标签与期货品种字符在文字上完全一致；若直接匹配失败，对直接匹配失败的预选期货标签和期货品种字符进行相似度匹配，并将相似度匹配成功的期货品种字符作为第二期货标签进行输出。需要说明的是，以上所述第一期货标签表示对应于直接匹配的抽取结果，第二期货标签表示对应于相似度匹配的抽取结果，二者位阶平等，此处“第一”与“第二”不表示包含关系或者先后顺序。

本发明提供的期货标签抽取方法，首先基于期货品种字符实现对于预选期货标签的直接匹配，然后将直接匹配失败的预选期货标签与期货品种字符进行相似度匹配，通过对预选期货标签先后进行直接匹配和相似度匹配，实现了对期货标签抽取过程的分步优化处理，提高了期货标签的抽取效率和抽取准确率。

进一步地，在本发明中，所述预处理待抽取文本，获取分词结果，具体包括：将所述待抽取文本依次进行切句及过滤，基于LTP算法对过滤后得到的句子进行分词处理，获取分词结果。

在对待抽取文本进行切句时的主要依据就是标点符号，即按照顺序读取待进行切句的目标文本的字符，当读取到的字符为标点符号时，即进行切句。在完成切句过程后，得到一个个单一的短句，对得到的短句进行筛选，去掉不包含任何期货字符的短句，然后再基于LTP算法对筛选后得到的短句进行分词处理，最终得到分词结果。需要说明的是，在该过程中利用期货字典对LTP分词模型进行训练，该训练过程可以提高LTP模型对于待抽取文本的分词处理效率和分词处理准确率。

哈工大语言技术平台Language Technology Platform（LTP）是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示，并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术)，以及基于动态链接库(Dynamic LinkLibrary, DLL)的应用程序接口，可视化工具，并且能够以网络服务(Web Service)的形式进行使用。

利用LTP算法进行文本分词处理时，主要包括以下几个方面：①中文分词 (WordSegmentation, WS) 指的是将汉字序列切分成词序列。因为在汉语中，词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。②词性标注(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。其中，v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。③命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地名、机构名等实体的任务。④依存语法 (DependencyParsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲，依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。⑤语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术，标注句子中某些短语为给定谓词的论元 (语义角色) ，如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。

本发明提供的期货标签抽取方法，通过对待抽取文本进行切句处理，得到多个短句，对得到的短句进行筛选，过滤掉不包含任何期货字符的短句，该过程实现了对于待抽取文本的过滤过程，然后将筛选后得到的短句进行基于LTP算法的分词处理，最终得到分词结果，经由上述过程得到的分词结果，避免了无关数据的干扰，从而有利于高效准确的完成后续匹配过程。

进一步地，在本发明中，所述基于所述交易所名称得到期货标签前缀，具体包括：输出所述交易所名称的英文缩写名称作为所述期货标签前缀。

在步骤S120中，在对期货标签前缀进行获取时，如果在待抽取文本中出现了交易所名称的英文缩写，则直接将该交易所名称的英文缩写作为期货标签前缀并进行输出；如果在待抽取文本中出现的是交易所的中文名称，则需要首先将该交易所的中文名称转化为对应的英文缩写名称，然后将该英文缩写名称作为期货标签前缀并输出。例如，识别分词结果得到“芝加哥期货交易所”，则首先将“芝加哥期货交易所”转化为“CBOT”，然后将“CBOT”作为期货标签前缀并进行输出。

本发明提供的期货标签抽取方法，通过识别分词结果得到期货交易所名称并将其作为期货标签前缀，基于期货标签前缀和分词结果生成预选期货标签，期货标签前缀的加入提高了预选期货标签的准确度，进而提升最终得到的期货标签的可靠性。

进一步地，在本发明中，所述直接匹配所述预选期货标签和期货品种字符，具体包括：基于期货字典和自定义映射字典对所述预选期货标签和所述期货品种字符进行直接匹配；其中，所述期货字典为包含有各种所述期货品种字符的集合，所述自定义映射字典包括所述期货品种字符与细化分类后得到的期货子品种字符的映射关系。

在利用期货字典和自定义映射字典对预选期货标签和期货品种字符进行直接匹配时，要求预选期货标签与期货品种字符在字面上完全一致。例如，期货字典中有一期货品种字符为“CBOT玉米”，那么只有当预选期货标签也为“CBOT玉米”时才算是直接匹配成功。期货字典为包含有各种所述期货品种字符的集合，例如“CBOT玉米”、“NYMEX天然气”以及“LME铜”等。自定义映射字典包括所述期货品种字符与细化分类后得到的期货子品种字符的映射关系，例如期货品种字符“CBOT大豆”与期货子品种字符“CBOT黄大豆1号”构成映射关系，期货品种字符“CBOT小麦”与期货子品种字符“CBOT普通小麦”构成映射关系。

本发明提供的期货标签抽取方法，通过期货字典和自定义映射字典的组合使用，细化了对于预选期货标签的匹配过程，更好地实现了对于预选期货标签的直接匹配，提高了期货标签抽取的准确率。

进一步地，在本发明中，所述对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述预选期货标签作为第二期货标签进行输出，具体包括：从所述期货字典中选取与所述预选期货标签存在字符交集的所述期货品种字符，计算所述预选期货标签和所述与所述预选期货标签存在字符交集的所述期货品种字符之间的编辑距离；构建编辑距离最小值对应的期货品种字符候选集；若所述期货品种字符候选集中的期货品种字符个数唯一，则将所述期货品种字符作为所述第二期货标签直接输出；若所述期货品种字符候选集中的期货品种字符个数不唯一，分别计算所述预选期货标签与所述期货品种字符候选集中的所述期货品种字符的词向量相似度值，选取最大词向量相似度值对应的所述期货品种字符作为所述第二期货标签，输出所述第二期货标签。

从期货字典中选取与预选期货标签存在字符交集的期货品种字符，计算预选期货标签和与预选期货标签存在字符交集的期货品种字符之间的编辑距离。在该过程中，预选期货标签与期货品种字符存在字符交集表示的是预选期货标签与期货品种字符之间存在部分相同的字符，具体分为两种情况，第一种是与预选期货标签对应的期货品种字符是唯一的，例如预选期货标签为“CBOT特级玉米”，而期货品种字符为“CBOT玉米”，则二者之间存在字符交集，且其交集为“CBOT玉米”；另一种情况是与预选期货标签对应的期货品种字符不唯一，例如预选期货标签为“CBOT优质大豆油”，而对应期货品种字符有多个，分别是“CBOT豆油”、“CBOT菜籽油”以及“CBOT棕榈油”。编辑距离(LD，Levenshtein Distance)是指由原字符串变化到另外一个字符串所需的最少编辑次数或最小代价，编辑即是指对字符串指定位置的单个字符进行插入、删除和替换的操作。

编辑距离的大小代表了一种字符之间相似度的大小情况，具体为，编辑距离越小，表示预选期货标签与期货品种字符的相似度越大，而编辑距离越大，则表示预选期货标签与期货品种字符的相似度越小。构建编辑距离最小值对应的期货品种字符候选集，对于同一最小编辑距离可能有一个或多个期货品种字符与预选期货标签对应，若期货品种字符候选集中的期货品种字符个数唯一，将期货品种字符作为第二期货标签直接输出。若期货品种字符候选集中的期货品种字符个数不唯一，分别计算预选期货标签与期货品种字符候选集中的期货品种字符的词向量相似度值，选取最大词向量相似度值对应的期货品种字符作为第二期货标签，并输出该第二期货标签。

本发明提供的期货标签抽取方法，首先从期货字典中选取与预选期货标签存在字符交集的期货品种字符，该过程实现对于期货品种字符的第一次筛选；然后计算预选期货标签和与所述预选期货标签存在字符交集的期货品种字符之间的编辑距离，构建编辑距离最小值对应的期货品种字符候选集，该过程实现对于期货品种字符的第二次筛选；若期货品种字符候选集中的期货品种字符个数唯一，将所述期货品种字符作为第二候选期货标签直接输出；若所述期货品种字符的候选集中的期货品种字符个数不唯一，选取最大词向量相似度值对应的所述期货品种字符作为第二期货标签，并输出第二期货标签，该过程实现对于期货品种字符的第三次筛选。基于以上对于期货品种字符的三次筛选过程，最终得到与预选期货标签最为接近的期货品种字符，充分细化对于待抽取文本期货标签的抽取过程，有效提高了对于期货标签抽取结果的准确率。

进一步地，在本发明中，所述期货标签抽取方法还包括：基于上下游关联期货字典获取所述第一期货标签或所述第二期货标签的上游期货标签。

期货中的上下游是一个相对概念，可以简单理解为原材料经过加工可以得到下游的终端消费产品，而此处原材料可以对应于上游期货，得到的下游终端消费产品则可以理解为下游期货。基于该对应关系将常见期货品种字符和对应的上游期货品种字符进行整理匹配得到上下游关联期货字典。例如，“CBOT冶金焦炭”对应的上游期货为“CBOT焦煤”，“CBOT石油沥青”对应的上游期货为“CBOT原油”。

本发明提供的期货标签抽取方法，通过上下游关联期货字典将得到第一期货标签或第二期货标签与其对应的上游期货标签进行关联，进而得到与第一期货标签或第二期货标签对应的上游期货标签，该过程使最终得到的期货标签抽取结果更为丰富可靠，基于期货标签可以更为具体确切的描述待抽取文本的内容，提高期货标签对人们筛选财经新闻的参考价值。

进一步地，在本发明中，所述方法还包括：获取所述待抽取文本中的段落关键词和标题关键词；基于所述段落关键词构建内容主题词向量，基于所述标题关键词构建标题主题词向量；基于所述第一期货标签和所述第二期货标签构建期货标签词向量；基于关联于所述第一期货标签或所述第二期货标签的所述上游期货标签构建上游期货标签词向量；基于所述内容主题词向量与所述期货标签词向量获取第一关联度评分，基于所述标题主题词向量与所述期货标签词向量获取第二关联度评分；基于所述内容主题词向量与所述上游期货标签词向量获取第三关联度评分，基于所述标题主题词向量与所述上游期货标签词向量获取第四关联度评分；基于所述第一关联度评分与所述第二关联度评分获取所述待抽取文本与所述期货标签的关联度评分，基于所述第三关联度评分与所述第四关联度评分获取所述待抽取文本与所述上游期货标签的关联度评分；基于所述待抽取文本与所述期货标签的关联度评分以及所述待抽取文本与所述上游期货标签的关联度评分对所述期货标签以及所述上游期货标签进行排序。

一则财经新闻往往由新闻标题和新闻正文构成，而新闻正文通常包含多个段落，正常情况下，新闻标题与新闻正文中的多个段落所要表达的主题应该是一致的，因为本质上新闻标题是新闻正文内容的一种高度概括。

基于TextRank算法获取待抽取文本的段落关键词和标题关键词，TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。

关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系（共现窗口）对后续关键词进行排序，直接从文本本身抽取。其主要步骤如下：

（1）把给定的文本T按照完整句子进行分割。

（2）对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，称之为保留后的候选关键词。

（3）构建候选关键词图G = (V,E)，其中V为节点集，由（2）生成的候选关键词组成，然后采用共现关系（co-occurrence）构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。

（4）根据上面公式，迭代传播各节点的权重，直至收敛。

（5）对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。

（6）由（5）得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。例如，文本中有句子“Matlab code for plotting ambiguityfunction”，如果“Matlab”和“code”均属于候选关键词，则组合成“Matlab code”加入关键词序列。

在完成段落关键词的获取后，依次获取其对应的词向量，然后基于关键词在获取过程中所具有的加权值将上述多个关键词的词向量进行加权相加，最终得到一个新的词向量，称之为内容主题词向量。

在完成第一期货标签以及第二期货标签的抽取后，依次获取各个期货标签的词向量，同时获取关联于第一期货标签或第二期货标签的上游期货标签的词向量。

将得到的内容主题词向量与抽取的期货标签对应的每个词的词向量进行计算对应的余弦相似度值，该余弦相似度值作为第一关联度评分，记为S1，例如{螺纹钢：0.65，热轧卷板：0.35}。将得到的内容主题词向量与抽取的上游期货标签对应的每个词的词向量进行计算对应的余弦相似度值，该余弦相似度值作为第三关联度评分，记为S2，例如{焦煤：0.21，焦炭：0.08}。

利用LTP算法模型对新闻标题进行分词处理，得到对应分词结果，保留词性为名词的分词，依次获取多个词性为名词的分词对应词向量，计算上述多个词向量的平均值，将该平均词向量作为标题主题词向量。

将得到的标题主题词向量与抽取的期货标签对应的每个词的词向量进行计算对应的余弦相似度值，该余弦相似度值作为第二关联度评分，记为S-1，例如{螺纹钢：0.55，热轧卷板：0.55}。将得到的标题主题词向量与抽取的上游期货标签对应的每个词的词向量进行计算对应的余弦相似度值，该余弦相似度值作为第四关联度评分，记为S-2，例如{焦煤：0.11，焦炭：0.18}。

在得到第一关联度评分S1，第二关联度评分S2，第三关联度评分S-1，第四关联度评分S-2后，取S1和S-1中的较大值max{S1,S-1}作为评价期货标签与对应财经新闻的关联度评分，取S2和S-2中的较小值min{S2,S-2}作为评价上游期货标签与对应财经新闻的关联度评分。基于max{S1,S-1}和min{S2,S-2}对抽取的期货标签和上游期货标签按照关联度评分由大到小的顺序进行排序展示。

本发明提供的期货标签抽取方法，以段落关键词构建内容主题词向量，以标题关键词构建标题主题词向量，同时基于抽选出来的第一期货标签和第二期货标签构建期货标签词向量，然后分别求取内容主题词向量和期货标签词向量之间的第一关联度评分，标题主题词向量和期货标签词向量之间的第二关联度评分，同时获取第一关联度评分与第二关联度评分的目的在于防止新闻正文中的段落内容与新闻标题中的内容出现不一致的情况，进一步确保期货标签抽取结果的准确性。与此同时，基于关联于第一期货标签或第二期货标签的上游期货标签构建上游期货标签词向量，然后基于内容主题词向量与上游期货标签词向量获取第三关联度评分，基于标题主题词向量与上游期货标签词向量获取第四关联度评分，基于第一关联度评分与第二关联度评分获取待抽取文本与期货标签的关联度评分，基于第三关联度评分与第四关联度评分获取待抽取文本与上游期货标签的关联度评分；基于待抽取文本与期货标签的关联度评分以及待抽取文本与上游期货标签的关联度评分对期货标签以及上游期货标签进行排序。该过程充分考虑到对于期货标签抽取过程的完整性，将抽取出来的上游期货标签进行关联度评分，基于得到的第三关联度评分和第四关联度评分对上游期货标签与待抽取文本之间的关联度进行评价。

基于上述过程，使抽取出来的期货标签或上游期货标签因为关联度大小的不同而有了优先级的区别，即可以给用户呈现出更为细致具体的期货标签信息，方便用户更有针对性的选择需要阅读的新闻内容。

本发明提供的期货标签抽取方法的具体步骤如下，将待抽取文本进行切句，经由切句处理将待抽取文本中的多个段落分割为多个短句，将不包含任何期货字符的短句过滤掉，筛选出包含有期货字符的短句；利用期货字典对LTP算法模型进行训练，得到分词模型，基于该分词模型对筛选出来的包含有期货字符的短句进行分词处理，得到分词结果，即多个词语。

通过识别所述分词结果获取交易所的名称，并将所获取的交易所的英文缩写名称作为期货标签前缀，将得到的期货标签前缀与得到的分词结果进行组合，得到预选期货标签，其组成形式为“期货标签前缀+分词结果”，记为label-tmp；将得到的预选期货标签进行接下来与期货品种字符的匹配过程，匹配过程包括直接匹配和相似度匹配两种，二者之间具有先后顺序，即先进行直接匹配，直接匹配失败再进行相似度匹配，具体过程如下：

Step1，将预选期货标签与期货字典中的期货品种字符进行匹配，如果预选期货标签与期货字典中的期货品种字符在字面上完全一致，则直接匹配成功，将匹配成功的期货品种字符作为期货标签进行输出。

Step2，将预选期货标签与自定义映射字典中的期货品种字符进行匹配，如果预选期货标签与自定义映射字典中的期货品种字符在字面上完全一致，则直接匹配成功，将匹配成功的期货品种字符作为期货标签进行输出。需要说明的是Step1与Step2中所述过程是同时进行的，二者之间没有先后顺序，属于并行处理过程。

Step3，当在Step1与Step2中预选期货标签与期货品种字符的直接匹配过程失败时，将直接匹配失败的预选期货标签进行Step3中的相似度匹配过程，具体为：如果匹配失败的预选期货标签中包含的分词的词性为名词，并且与期货字典中的期货品种字符有字符交集时，计算预选期货标签与期货字典中各个期货品种字符的编辑距离，得到期货品种字符编辑距离dict-distance。构建编辑距离最小值Min（dict-distance）所对应的期货品种字符的候选集fut-list，然后判断fut-list中是否包含多个期货品种字符，当fut-list中只有一个期货品种字符时，将该单一期货品种字符作为与预选期货标签匹配的对应期货标签并输出；当fut-list中包含有多个期货品种字符时，计算预选期货标签label-tmp与期货品种字符候选集fut-list中各个期货品种字符的词向量相似度，保留相似度最大的期货品种字符作为最终的期货标签并进行输出。

本发明提供的期货标签抽取方法，首先基于期货字典和自定义映射字典实现对于预选期货标签的直接匹配，然后将不能进行直接匹配的预选期货标签与期货字典中的期货品种字符进行相似度匹配，通过对预选期货标签先后进行直接匹配和相似度匹配，实现了对期货标签抽取过程的分步优化处理，提高了期货标签的抽取效率和抽取准确率。

图2是本发明提供的一种期货标签抽取装置200的结构示意图。如图2所示，所述装置包括获取模块210、生成模块220及匹配模块230，其中：

获取模块210，用于预处理待抽取文本，获取分词结果；

生成模块220，用于通过识别所述分词结果获取交易所名称，基于所述交易所名称得到期货标签前缀；基于所述期货标签前缀和所述分词结果生成预选期货标签；

匹配模块230，用于直接匹配所述预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的所述期货品种字符作为第一期货标签进行输出；若直接匹配失败，对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述期货品种字符作为第二期货标签进行输出。

本发明提供期货标签抽取装置200，通过首先基于期货品种字符实现对于预选期货标签的直接匹配，然后将不能进行直接匹配的预选期货标签与期货品种字符进行相似度匹配，通过对预选期货标签先后进行直接匹配和相似度匹配，实现了对期货标签抽取过程的分步优化处理，提高了期货标签的抽取效率和抽取准确率。

根据本发明提供的一种期货标签抽取装置200，所述获取模块210具体用于，将所述待抽取文本依次进行切句及过滤，基于LTP算法对过滤后得到的句子进行分词处理，获取分词结果。

本发明提供期货标签抽取装置200，通过对待抽取文本进行切句处理，得到多个短句，对得到的短句进行筛选，过滤掉不包含任何期货词语的短句，该过程实现了对于待抽取文本的第一次筛选过程，然后将筛选后得到的短句进行基于LTP算法的分词处理，最终得到分词结果，经由上述过程得到的分词结果，避免了无关数据的干扰，从而有利于高效准确的完成后续匹配过程。

根据本发明提供的一种期货标签抽取装置200，所述生成模块220在用于基于所述交易所名称得到期货标签前缀时，具体用于：输出所述交易所名称的英文缩写名称作为所述期货标签前缀。

本发明提供期货标签抽取装置200，通过识别分词结果得到期货交易所名称并将其作为期货标签前缀，基于期货标签前缀和分词结果生成预选期货标签，期货标签前缀的加入提高了预选期货标签的准确度，进而提升最终得到的期货标签的准确率。

根据本发明提供的一种期货标签抽取装置200，所述匹配模块230在用于直接匹配所述预选期货标签和期货品种字符时，具体用于：基于期货字典和自定义映射字典对所述预选期货标签和所述期货品种字符进行直接匹配；其中，所述期货字典为包含有各种所述期货品种字符的集合，所述自定义映射字典包括所述期货品种字符与细化分类后得到的期货子品种字符的映射关系。

本发明提供期货标签抽取装置200，通过期货字典和自定义映射字典的组合使用，细化了对于预选期货标签的匹配过程，更好地实现了对于预选期货标签的直接匹配，提高了期货标签抽取的准确率。

根据本发明提供的一种期货标签抽取装置200，所述匹配模块230在用于对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述预选期货标签作为第二期货标签进行输出时，具体用于：从所述期货字典中选取与所述预选期货标签存在字符交集的所述期货品种字符，计算所述预选期货标签和所述与所述预选期货标签存在字符交集的所述期货品种字符之间的编辑距离；构建编辑距离最小值对应的期货品种字符候选集；若所述期货品种字符候选集中的期货品种字符个数唯一，则将所述期货品种字符作为所述第二期货标签直接输出；若所述期货品种字符候选集中的期货品种字符个数不唯一，分别计算所述预选期货标签与所述期货品种字符候选集中的所述期货品种字符的词向量相似度值，选取最大词向量相似度值对应的所述期货品种字符作为所述第二期货标签，输出所述第二期货标签。

本发明提供期货标签抽取装置200，首先从期货字典中选取与预选期货标签存在字符交集的期货品种字符，该过程实现对于期货品种字符的第一次筛选；然后计算预选期货标签和与所述预选期货标签存在字符交集的期货品种字符之间的编辑距离，构建编辑距离最小值对应的期货品种字符候选集，该过程实现对于期货品种字符的第二次筛选；若期货品种字符候选集中的期货品种字符个数唯一，将所述期货品种字符作为第二候选期货标签直接输出；若所述期货品种字符的候选集中的期货品种字符个数不唯一，选取最大词向量相似度值对应的所述期货品种字符作为第二期货标签，并输出第二期货标签，该过程实现对于期货品种字符的第三次筛选。基于以上对于期货品种字符的三次筛选过程，最终得到与预选期货标签最为接近的期货品种字符，充分细化对于待抽取文本期货标签的抽取过程，有效提高了对于期货标签抽取结果的准确率。

根据本发明提供的一种期货标签抽取装置200，所述装置还包括关联模块，所述关联模块用于：基于上下游关联期货字典获取所述第一期货标签或所述第二期货标签的上游期货标签。

本发明提供期货标签抽取装置200，通过上下游关联期货字典将得到第一期货标签或第二期货标签与其对应的上游期货标签进行关联，进而得到与第一期货标签或第二期货标签对应的上游期货标签，该过程使最终得到的期货标签抽取结果更为丰富可靠，基于期货标签可以更为具体确切的描述待抽取文本的内容，提高期货标签对人们筛选财经新闻的参考价值。

根据本发明提供的一种期货标签抽取装置200，所述装置还包括评价模块，所述评价模块用于：获取所述待抽取文本中的段落关键词和标题关键词；基于所述段落关键词构建内容主题词向量，基于所述标题关键词构建标题主题词向量；基于所述第一期货标签和所述第二期货标签构建期货标签词向量；基于关联于所述第一期货标签或所述第二期货标签的所述上游期货标签构建上游期货标签词向量；基于所述内容主题词向量与所述期货标签词向量获取第一关联度评分，基于所述标题主题词向量与所述期货标签词向量获取第二关联度评分；基于所述内容主题词向量与所述上游期货标签词向量获取第三关联度评分，基于所述标题主题词向量与所述上游期货标签词向量获取第四关联度评分；基于所述第一关联度评分与所述第二关联度评分获取所述待抽取文本与所述期货标签的关联度评分，基于所述第三关联度评分与所述第四关联度评分获取所述待抽取文本与所述上游期货标签的关联度评分；基于所述待抽取文本与所述期货标签的关联度评分以及所述待抽取文本与所述上游期货标签的关联度评分对所述期货标签以及所述上游期货标签进行排序。

本发明提供期货标签抽取装置200，通过计算抽选出来的期货标签和上游期货标签与待抽取文本的关联度评分，并基于该关联度评分使抽选出来的期货标签和上游期货标签可以按照与待抽取文本的关联度大小进行展示，即使抽取出来的期货标签和上游期货标签因为关联度大小的不同而有了优先级的区别，即可以给用户呈现出更为细致具体的期货标签信息，方便用户更有针对性的选择需要阅读的新闻内容。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行期货标签抽取方法，该方法包括：预处理待抽取文本，获取分词结果；通过识别所述分词结果获取交易所名称，基于所述交易所名称得到期货标签前缀；基于所述期货标签前缀和所述分词结果生成预选期货标签；直接匹配所述预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的所述期货品种字符作为第一期货标签进行输出；若直接匹配失败，对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述期货品种字符作为第二期货标签进行输出。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的期货标签抽取方法，该方法包括：预处理待抽取文本，获取分词结果；通过识别所述分词结果获取交易所名称，基于所述交易所名称得到期货标签前缀；基于所述期货标签前缀和所述分词结果生成预选期货标签；直接匹配所述预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的所述期货品种字符作为第一期货标签进行输出；若直接匹配失败，对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述期货品种字符作为第二期货标签进行输出。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的期货标签抽取方法，该方法包括：预处理待抽取文本，获取分词结果；通过识别所述分词结果获取交易所名称，基于所述交易所名称得到期货标签前缀；基于所述期货标签前缀和所述分词结果生成预选期货标签；直接匹配所述预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的所述期货品种字符作为第一期货标签进行输出；若直接匹配失败，对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述期货品种字符作为第二期货标签进行输出。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种期货标签抽取方法，其特征在于，包括：

预处理待抽取文本，获取分词结果；

通过识别所述分词结果获取交易所名称，基于所述交易所名称得到期货标签前缀；基于所述期货标签前缀和所述分词结果生成预选期货标签；

直接匹配所述预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的所述期货品种字符作为第一期货标签进行输出；若直接匹配失败，对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述期货品种字符作为第二期货标签进行输出；

基于上下游关联期货字典获取所述第一期货标签的上游期货标签或所述第二期货标签的上游期货标签；

所述方法还包括：

获取所述待抽取文本中的段落关键词和标题关键词；

基于所述段落关键词构建内容主题词向量，基于所述标题关键词构建标题主题词向量；基于所述第一期货标签或所述第二期货标签构建期货标签词向量；基于关联于所述第一期货标签或所述第二期货标签的所述上游期货标签构建上游期货标签词向量；

基于所述内容主题词向量与所述期货标签词向量获取第一关联度评分，基于所述标题主题词向量与所述期货标签词向量获取第二关联度评分；基于所述内容主题词向量与所述上游期货标签词向量获取第三关联度评分，基于所述标题主题词向量与所述上游期货标签词向量获取第四关联度评分；

基于所述第一关联度评分与所述第二关联度评分获取所述待抽取文本与所述期货标签的关联度评分，基于所述第三关联度评分与所述第四关联度评分获取所述待抽取文本与所述上游期货标签的关联度评分；

基于所述待抽取文本与所述期货标签的关联度评分以及所述待抽取文本与所述上游期货标签的关联度评分对所述期货标签以及所述上游期货标签进行排序。

2.根据权利要求1所述的期货标签抽取方法，其特征在于，

所述预处理待抽取文本，获取分词结果，具体包括：将所述待抽取文本依次进行切句及过滤，基于LTP算法对过滤后得到的句子进行分词处理，获取分词结果。

3.根据权利要求1所述的期货标签抽取方法，其特征在于，

所述基于所述交易所名称得到期货标签前缀，具体包括：输出所述交易所名称的英文缩写名称作为所述期货标签前缀。

4.根据权利要求1所述的期货标签抽取方法，其特征在于，

所述直接匹配所述预选期货标签和期货品种字符，具体包括：基于期货字典和自定义映射字典对所述预选期货标签和所述期货品种字符进行直接匹配；其中，所述期货字典为包含有各种所述期货品种字符的集合，所述自定义映射字典包括所述期货品种字符与细化分类后得到的期货子品种字符的映射关系。

5.根据权利要求1所述的期货标签抽取方法，其特征在于，

所述对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述预选期货标签作为第二期货标签进行输出，具体包括：

从所述期货字典中选取与所述预选期货标签存在字符交集的所述期货品种字符，计算所述预选期货标签和所述与所述预选期货标签存在字符交集的所述期货品种字符之间的编辑距离；

构建编辑距离最小值对应的期货品种字符候选集；若所述期货品种字符候选集中的期货品种字符个数唯一，则将所述期货品种字符作为所述第二期货标签直接输出；

若所述期货品种字符候选集中的期货品种字符个数不唯一，分别计算所述预选期货标签与所述期货品种字符候选集中的所述期货品种字符的词向量相似度值，选取最大词向量相似度值对应的所述期货品种字符作为所述第二期货标签，输出所述第二期货标签。

6.一种期货标签抽取装置，其特征在于，包括：

获取模块，用于预处理待抽取文本，获取分词结果；

生成模块，用于通过识别所述分词结果获取交易所名称，基于所述交易所名称得到期货标签前缀；基于所述期货标签前缀和所述分词结果生成预选期货标签；

匹配模块，用于直接匹配所述预选期货标签和期货品种字符，若直接匹配成功，将直接匹配成功的所述期货品种字符作为第一期货标签进行输出；若直接匹配失败，对所述预选期货标签和所述期货品种字符进行相似度匹配，并将相似度匹配成功的所述期货品种字符作为第二期货标签进行输出；

所述装置还包括：评价模块；

所述评价模块用于获取所述待抽取文本中的段落关键词和标题关键词；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述一种期货标签抽取方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种期货标签抽取方法的步骤。