CN111640025A

CN111640025A - 基于标签体系实现资讯标签化处理的方法

Info

Publication number: CN111640025A
Application number: CN202010519352.3A
Authority: CN
Inventors: 俞枫; 任志浩; 陈雨忱; 蒋强祖; 管敏; 李珣峰
Original assignee: Guotai Junan Securities Co Ltd
Current assignee: Guotai Junan Securities Co Ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-09-08
Anticipated expiration: 2040-06-09
Also published as: CN111640025B

Abstract

本发明涉及一种基于标签体系实现资讯标签化处理的方法，包括通过消息多线程实时获取资讯信息，并用于标签化处理；通过资讯标注优化，对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配；通过设定的个股权重阀值和选定市场获取个股的个数，并根据选择的标签进行图片匹配；根据资讯内容和标签化处理得到的相关个股，进行基金抽取；根据标签化处理结果，进行过滤。采用了本发明的基于标签体系实现资讯标签化处理的方法，基于历史数据和金融行业业务需求建立了资讯标签体系，所提出的资讯标签化技术框架不但可按实际业务需求进行标签化、抽取相关个股与基金，并根据标签化结果进行自动配图，将不合规资讯进行拦截，同时从整体架构上使用了微服务多线程架构，具有良好的高可用、扩展性。

Description

基于标签体系实现资讯标签化处理的方法

技术领域

本发明涉及资讯分类处理领域，尤其涉及计算机应用技术领域，具体是指一种基于标签体系实现资讯标签化处理的方法。

背景技术

金融资讯为用户交易投资掌握市场动态提供了数据辅助，但不同数据源的资讯格式不一，存在着资讯分类栏目过于宽泛无法满足个性化需求、无相关个股与基金、缺少配图用户体验差和无法拦截不合规内容等问题，而要解决上述问题通过人工运营会造成人力成本大大提高，同时对于运营人员专业能力也提出了更高的要求。

现有技术中，通常通过标签化可将资讯进行自定义标签统一处理，对于内容标签化的方式一般采用TF-IDF算法和TextRank算法。TF-IDF算法能简单快速统计出词频并计算出权重，但对于语料库严重依赖；TextRank算法考虑了词间关联性，却无法识别多义词、无法识别金融行业专业术语。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足操作简便、适用范围较为广泛的基于标签体系实现资讯标签化处理的方法。

为了实现上述目的，本发明的基于标签体系实现资讯标签化处理的方法如下：

该基于标签体系实现资讯标签化处理的方法，其主要特点是，所述的方法包括以下步骤：

(1)通过消息多线程实时获取资讯信息，并用于标签化处理；

(2)通过资讯标注优化，对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配；

(3)通过设定的个股权重阀值和选定市场获取个股的个数，并根据选择的标签进行图片匹配；

(4)根据资讯内容和标签化处理得到的相关个股，进行基金抽取；

(5)根据标签化处理结果，通过设定的敏感词、免审核名单和利空白名单进行过滤。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)对资讯进行html标签预处理，通过正则匹配将资讯内容转化为纯文本形式；

(2.2)通过ANSJ分词器对内容、标题和摘要进行分词；

(2.3)抽取文本中的关键词，并计算每个词的权重值；

(2.4)通过Word2vec模型得到每个词的向量，通过余弦距离计算相似度，将相似度高的划分至一个集合进行同义词匹配；

(2.5)通过贝叶斯平均算法进行实体消歧，并对关键词的权重进行优化；

(2.6)将最终得到的词与标签体系进行术语匹配，将非专业词汇进行剔除。

较佳地，所述的步骤(3)具体包括以下步骤：

(3.1)判断是否存在配图，如果是，则继续步骤(3.2)；否则，不进行处理；

(3.2)判断是否存在特定标签，如果是，则进行个股标签计算，继续步骤(3.2)；否则，继续步骤(3.5)；

(3.3)判断个股数量是否等于1，如果是，则获取个股随机配图，继续步骤(3.5)；否则，继续步骤(3.4)；

(3.4)按照行业、新闻、主题标签权重排序，根据相关算法自动匹配通用图库选择配图；

(3.5)根据标签获取配图。

较佳地，所述的步骤(4)具体包括以下步骤：

(4.1)判断基金全称和基金简称是否完全匹配，如果是，则抽取基金；否则，继续步骤(4.2)；

(4.2)根据标签化处理得到个股以及设定阀值和市场条件，匹配所有基金的重仓股信息得到相关基金；

(4.3)按照命中的基金的相关个股重仓比例总和进行排序；

(4.4)抽取得到基金。

较佳地，所述的步骤(5)具体包括以下步骤：

(5.1)判断是否有免审设置，如果是，则满足免审名单要求则直接发送消息；否则，继续步骤(5.2)；

(5.2)判断是否有敏感词设置，如果是，则通过敏感词过滤算法处理，继续步骤(5.4)；否则，继续步骤(5.3)；

(5.3)判断是否有白名单设置，如果是，则通过敏感词过滤算法处理，继续步骤(5.4)；否则，继续步骤(5.5)；

(5.4)等待运营审核，判断审核是否通过，如果是，则继续步骤(5.5)；否则，放入拦截资讯池中。

较佳地，所述的步骤(5)中免审名单包括来源、栏目和发布媒体。

较佳地，所述的步骤(5)中敏感词包括违禁、敏感和高敏感。

采用了本发明的基于标签体系实现资讯标签化处理的方法，旨在解决众多资讯分类栏目过于宽泛、无相关个股与基金、缺少配图用户体验差和无法拦截不合规内容的问题，本发明基于历史数据和金融行业业务需求建立了资讯标签体系，所提出的资讯标签化技术框架不但可按实际业务需求进行标签化、抽取相关个股与基金，并根据标签化结果进行自动配图，将不合规资讯进行拦截，同时从整体架构上使用了微服务多线程架构，具有良好的高可用、扩展性。

附图说明

图1为本发明的基于标签体系实现资讯标签化处理的方法的资讯标签化技术整体框架示意图。

图2为本发明的基于标签体系实现资讯标签化处理的方法的标签化处理示意图。

图3为本发明的基于标签体系实现资讯标签化处理的方法的自动配图示意图。

图4为本发明的基于标签体系实现资讯标签化处理的方法的基金抽取示意图。

图5为本发明的基于标签体系实现资讯标签化处理的方法的敏感词拦截审核示意图。

图6为本发明的基于标签体系实现资讯标签化处理的方法的资讯标签化技术框架时序示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该基于标签体系实现资讯标签化处理的方法，其中包括以下步骤：

(1)通过消息多线程实时获取资讯信息，并用于标签化处理；

(2.2)通过ANSJ分词器对内容、标题和摘要进行分词；

(2.3)抽取文本中的关键词，并计算每个词的权重值；

(2.6)将最终得到的词与标签体系进行术语匹配，将非专业词汇进行剔除；

(3.5)根据标签获取配图；

(4.3)按照命中的基金的相关个股重仓比例总和进行排序；

(4.4)抽取得到基金；

(5)根据标签化处理结果，通过设定的敏感词、免审核名单和利空白名单进行过滤；

作为本发明的优选实施方式，所述的步骤(5)中免审名单包括来源、栏目和发布媒体。

作为本发明的优选实施方式，所述的步骤(5)中敏感词包括违禁、敏感和高敏感。

本发明的具体实施方式中，本发明涉及的标签体系采用“人机结合”方式，通过自动新标签发现及特征词提取，进行人工审核的方式对“六大类三层”资讯标签体系的不断丰富进行运营。资讯标签化技术框架包括资讯采集模块、标签化处理模块、自动配图模块、基金抽取模块和敏感词拦截审核模块，具体整体架构详见图1。

1、资讯采集模块通过kafka消息多线程实时获取资讯信息，并存入rabbitmq中用于标签化处理。

2、标签化处理模块作为资讯标签化技术框架的核心，通过资讯标注优化，现阶段准确率达96％左右，整体采用微服务、多线程架构，具体流程详见图2。

首先，去除资讯中空格等，对资讯进行html标签预处理，通过正则匹配将资讯内容转化为纯文本形式。接着根据金融词库对内容进行分词，使用TextRank算法关键词抽取及权重计算。再使用Word2vec模型得到每个词的向量，词向量之间两两使用余弦距离计算相似度，相似度高的划分到一个集合进行同义词匹配。基于贝叶斯平均算法进行标签权重优化，将最终得到的词与标签体系进行术语匹配，将非专业词汇进行剔除，最终得到满足需求的标签。

自动配图模块首先判定源头是否有配图，在无配图的情况下基于标签化结果，筛选出个股、行业、新闻、主题类标签，通过设定的个股权重阀值和选定市场获取个股的个数，若个股标签个数只有1个则随机选择该标签下配图，若个股标签数量大于1个则选择行业、新闻、主题类标签下权重最高的标签进行随机配图。如若没有上述类别的标签，则自动根据相关算法自动匹配通用图库选择配图，更直观呈现资讯内容概要，提升用户体验。

基金抽取模块基于资讯内容和标签化处理得到的相关个股，进行基金抽取。当资讯内容中存在基金池中完全匹配的基金全称和基金简称，则将基金进行抽取。如果无法匹配基金名称，则根据标签化处理得到的个股以及设定阀值和市场条件，匹配所有基金的前N大重仓股的信息得到相关基金，再按照命中的基金的相关个股重仓比例总和进行排序，得到前M个基金。

敏感词拦截审核根据标签化处理结果，通过设定的敏感词、免审核名单、利空白名单进行过滤。免审名单包括来源、栏目和发布媒体三个维度，敏感词包括违禁、敏感和高敏感三个类别，利空白名单则是对白名单中的个股进行利空判定。资讯及标签化结果首先经过免审名单过滤，若满足免审名单要求则直接发送消息，否则就判定是否存在设定的敏感词。如果存在敏感词则直接拦截等待审核，否则就判定是否存在利空白名单设定。如果存在利空白名单设定，则拦截利空的个股消息待审核。所有待审核内容通过人工审核后方才发布，否则就留在拦截资讯池中，进一步保证资讯准确及合规性。

资讯标签化的标签体系浓缩了业务思想，通过“人机结合”方式将分层多维标签体系用户资讯标签化。资讯标签化框架的整体流程如下所述，时序图如入6所示。

2、标签化处理模块作为资讯标签化技术框架的核心，通过资讯标注优化现阶段准确率达96％左右，整体采用微服务、多线程架构，具体流程详见图2。

2.1首先，去除资讯中空格等，对资讯进行html标签预处理，通过正则匹配将资讯内容转化为纯文本形式。

2.2接着根据金融词库，使用ANSJ分词器对内容、标题和摘要进行分词。

2.3使用TextRank算法抽取文本中的关键词(即能代表文本内容主旨的具有重要意义的词汇)，并计算得到每个词的权重值。

2.4再使用Word2vec模型得到每个词的向量，词向量之间两两使用余弦距离计算相似度，相似度高的划分到一个集合进行同义词匹配。

2.5基于贝叶斯平均算法进行实体消歧，并对关键词的权重进行优化。

2.6将最终得到的词与标签体系进行术语匹配，将非专业词汇进行剔除，最终满足需求的相关标签。

3、自动配图模块首先判定源头是否有配图，在无配图的情况下基于标签化结果，筛选出满足条件的个股、行业、新闻、主题类标签。

3.1通过设定的个股权重阀值和选定市场获取个股的个数。

3.2若个股标签个数只有1个则随机选择该个股标签下，若个股标签数量大于1个则选择行业、新闻、主题类标签下权重最高的标签。

3.3根据选择的标签进行图片匹配，如若没有上述类别的标签，则自动根据相关算法自动匹配通用图库选择配图，更直观呈现资讯内容概要，提升用户体验。

4、基金抽取模块基于资讯内容和标签化处理得到的相关个股，进行基金抽取。

4.1当资讯内容中存在基金池中完全匹配的基金全称和基金简称，则将基金进行抽取。

4.2如果无法匹配基金名称，则根据标签化处理得到的个股以及设定阀值和市场条件，匹配所有基金的前N大重仓股的信息得到相关基金，再按照命中的基金的相关个股重仓比例总和进行排序，得到前M个基金。

5、敏感词拦截审核根据标签化处理结果，通过设定的敏感词、免审核名单、利空白名单进行过滤。免审名单包括来源、栏目和发布媒体三个维度，敏感词包括违禁、敏感和高敏感三个类别，利空白名单则是对白名单中的个股进行利空判定。

5.1资讯及标签化结果首先经过免审名单过滤，若满足免审名单要求则直接发送消息，否则就判定是否存在设定的敏感词。

5.2如果存在敏感词则直接拦截等待审核，否则就判定是否存在利空白名单设定。

5.3如果存在利空白名单设定，则拦截利空的个股消息待审核。

5.4所有待审核内容通过人工审核后方才发布，否则就留在拦截资讯池中，进一步保证资讯准确及合规性。

本发明在实际应用中日均处理资讯流水约8w条，日均标签化资讯约1.9w篇。每日约产出带有个股标签的资讯1.43w篇覆盖5300多只个股，带有主题标签的资讯约1.69w篇，带有行业标签的资讯1.46w篇，带有新闻标签的资讯1.23w篇，地域标签的资讯1.08w篇。根据标签化结果，用于资讯个性化推荐、消息推送和个股F10资讯呈现等应用。自动配图资讯1.8w篇，大大减少了人工手动配置工作，提高了工作效率。根据设定的敏感词拦截条件，拦截敏感、不合规等资讯3.3w条，确保了资讯的准确、合规性。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于标签体系实现资讯标签化处理的方法，其特征在于，所述的方法包括以下步骤：

(1)通过消息多线程实时获取资讯信息，并用于标签化处理；

2.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(2)具体包括以下步骤：

(2.2)通过ANSJ分词器对内容、标题和摘要进行分词；

(2.3)抽取文本中的关键词，并计算每个词的权重值；

3.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(3)具体包括以下步骤：

(3.5)根据标签获取配图。

4.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(4)具体包括以下步骤：

(4.3)按照命中的基金的相关个股重仓比例总和进行排序；

(4.4)抽取得到基金。

5.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(5)具体包括以下步骤：

6.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(5)中免审名单包括来源、栏目和发布媒体。

7.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(5)中敏感词包括违禁、敏感和高敏感。