CN111640025A - 基于标签体系实现资讯标签化处理的方法 - Google Patents

基于标签体系实现资讯标签化处理的方法 Download PDF

Info

Publication number
CN111640025A
CN111640025A CN202010519352.3A CN202010519352A CN111640025A CN 111640025 A CN111640025 A CN 111640025A CN 202010519352 A CN202010519352 A CN 202010519352A CN 111640025 A CN111640025 A CN 111640025A
Authority
CN
China
Prior art keywords
information
matching
label
continuing
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010519352.3A
Other languages
English (en)
Other versions
CN111640025B (zh
Inventor
俞枫
任志浩
陈雨忱
蒋强祖
管敏
李珣峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guotai Junan Securities Co Ltd
Original Assignee
Guotai Junan Securities Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guotai Junan Securities Co Ltd filed Critical Guotai Junan Securities Co Ltd
Priority to CN202010519352.3A priority Critical patent/CN111640025B/zh
Publication of CN111640025A publication Critical patent/CN111640025A/zh
Application granted granted Critical
Publication of CN111640025B publication Critical patent/CN111640025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于标签体系实现资讯标签化处理的方法,包括通过消息多线程实时获取资讯信息,并用于标签化处理;通过资讯标注优化,对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配;通过设定的个股权重阀值和选定市场获取个股的个数,并根据选择的标签进行图片匹配;根据资讯内容和标签化处理得到的相关个股,进行基金抽取;根据标签化处理结果,进行过滤。采用了本发明的基于标签体系实现资讯标签化处理的方法,基于历史数据和金融行业业务需求建立了资讯标签体系,所提出的资讯标签化技术框架不但可按实际业务需求进行标签化、抽取相关个股与基金,并根据标签化结果进行自动配图,将不合规资讯进行拦截,同时从整体架构上使用了微服务多线程架构,具有良好的高可用、扩展性。

Description

基于标签体系实现资讯标签化处理的方法
技术领域
本发明涉及资讯分类处理领域,尤其涉及计算机应用技术领域,具体是指一种基于标签体系实现资讯标签化处理的方法。
背景技术
金融资讯为用户交易投资掌握市场动态提供了数据辅助,但不同数据源的资讯格式不一,存在着资讯分类栏目过于宽泛无法满足个性化需求、无相关个股与基金、缺少配图用户体验差和无法拦截不合规内容等问题,而要解决上述问题通过人工运营会造成人力成本大大提高,同时对于运营人员专业能力也提出了更高的要求。
现有技术中,通常通过标签化可将资讯进行自定义标签统一处理,对于内容标签化的方式一般采用TF-IDF算法和TextRank算法。TF-IDF算法能简单快速统计出词频并计算出权重,但对于语料库严重依赖;TextRank算法考虑了词间关联性,却无法识别多义词、无法识别金融行业专业术语。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足操作简便、适用范围较为广泛的基于标签体系实现资讯标签化处理的方法。
为了实现上述目的,本发明的基于标签体系实现资讯标签化处理的方法如下:
该基于标签体系实现资讯标签化处理的方法,其主要特点是,所述的方法包括以下步骤:
(1)通过消息多线程实时获取资讯信息,并用于标签化处理;
(2)通过资讯标注优化,对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配;
(3)通过设定的个股权重阀值和选定市场获取个股的个数,并根据选择的标签进行图片匹配;
(4)根据资讯内容和标签化处理得到的相关个股,进行基金抽取;
(5)根据标签化处理结果,通过设定的敏感词、免审核名单和利空白名单进行过滤。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)对资讯进行html标签预处理,通过正则匹配将资讯内容转化为纯文本形式;
(2.2)通过ANSJ分词器对内容、标题和摘要进行分词;
(2.3)抽取文本中的关键词,并计算每个词的权重值;
(2.4)通过Word2vec模型得到每个词的向量,通过余弦距离计算相似度,将相似度高的划分至一个集合进行同义词匹配;
(2.5)通过贝叶斯平均算法进行实体消歧,并对关键词的权重进行优化;
(2.6)将最终得到的词与标签体系进行术语匹配,将非专业词汇进行剔除。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)判断是否存在配图,如果是,则继续步骤(3.2);否则,不进行处理;
(3.2)判断是否存在特定标签,如果是,则进行个股标签计算,继续步骤(3.2);否则,继续步骤(3.5);
(3.3)判断个股数量是否等于1,如果是,则获取个股随机配图,继续步骤(3.5);否则,继续步骤(3.4);
(3.4)按照行业、新闻、主题标签权重排序,根据相关算法自动匹配通用图库选择配图;
(3.5)根据标签获取配图。
较佳地,所述的步骤(4)具体包括以下步骤:
(4.1)判断基金全称和基金简称是否完全匹配,如果是,则抽取基金;否则,继续步骤(4.2);
(4.2)根据标签化处理得到个股以及设定阀值和市场条件,匹配所有基金的重仓股信息得到相关基金;
(4.3)按照命中的基金的相关个股重仓比例总和进行排序;
(4.4)抽取得到基金。
较佳地,所述的步骤(5)具体包括以下步骤:
(5.1)判断是否有免审设置,如果是,则满足免审名单要求则直接发送消息;否则,继续步骤(5.2);
(5.2)判断是否有敏感词设置,如果是,则通过敏感词过滤算法处理,继续步骤(5.4);否则,继续步骤(5.3);
(5.3)判断是否有白名单设置,如果是,则通过敏感词过滤算法处理,继续步骤(5.4);否则,继续步骤(5.5);
(5.4)等待运营审核,判断审核是否通过,如果是,则继续步骤(5.5);否则,放入拦截资讯池中。
较佳地,所述的步骤(5)中免审名单包括来源、栏目和发布媒体。
较佳地,所述的步骤(5)中敏感词包括违禁、敏感和高敏感。
采用了本发明的基于标签体系实现资讯标签化处理的方法,旨在解决众多资讯分类栏目过于宽泛、无相关个股与基金、缺少配图用户体验差和无法拦截不合规内容的问题,本发明基于历史数据和金融行业业务需求建立了资讯标签体系,所提出的资讯标签化技术框架不但可按实际业务需求进行标签化、抽取相关个股与基金,并根据标签化结果进行自动配图,将不合规资讯进行拦截,同时从整体架构上使用了微服务多线程架构,具有良好的高可用、扩展性。
附图说明
图1为本发明的基于标签体系实现资讯标签化处理的方法的资讯标签化技术整体框架示意图。
图2为本发明的基于标签体系实现资讯标签化处理的方法的标签化处理示意图。
图3为本发明的基于标签体系实现资讯标签化处理的方法的自动配图示意图。
图4为本发明的基于标签体系实现资讯标签化处理的方法的基金抽取示意图。
图5为本发明的基于标签体系实现资讯标签化处理的方法的敏感词拦截审核示意图。
图6为本发明的基于标签体系实现资讯标签化处理的方法的资讯标签化技术框架时序示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于标签体系实现资讯标签化处理的方法,其中包括以下步骤:
(1)通过消息多线程实时获取资讯信息,并用于标签化处理;
(2)通过资讯标注优化,对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配;
(2.1)对资讯进行html标签预处理,通过正则匹配将资讯内容转化为纯文本形式;
(2.2)通过ANSJ分词器对内容、标题和摘要进行分词;
(2.3)抽取文本中的关键词,并计算每个词的权重值;
(2.4)通过Word2vec模型得到每个词的向量,通过余弦距离计算相似度,将相似度高的划分至一个集合进行同义词匹配;
(2.5)通过贝叶斯平均算法进行实体消歧,并对关键词的权重进行优化;
(2.6)将最终得到的词与标签体系进行术语匹配,将非专业词汇进行剔除;
(3)通过设定的个股权重阀值和选定市场获取个股的个数,并根据选择的标签进行图片匹配;
(3.1)判断是否存在配图,如果是,则继续步骤(3.2);否则,不进行处理;
(3.2)判断是否存在特定标签,如果是,则进行个股标签计算,继续步骤(3.2);否则,继续步骤(3.5);
(3.3)判断个股数量是否等于1,如果是,则获取个股随机配图,继续步骤(3.5);否则,继续步骤(3.4);
(3.4)按照行业、新闻、主题标签权重排序,根据相关算法自动匹配通用图库选择配图;
(3.5)根据标签获取配图;
(4)根据资讯内容和标签化处理得到的相关个股,进行基金抽取;
(4.1)判断基金全称和基金简称是否完全匹配,如果是,则抽取基金;否则,继续步骤(4.2);
(4.2)根据标签化处理得到个股以及设定阀值和市场条件,匹配所有基金的重仓股信息得到相关基金;
(4.3)按照命中的基金的相关个股重仓比例总和进行排序;
(4.4)抽取得到基金;
(5)根据标签化处理结果,通过设定的敏感词、免审核名单和利空白名单进行过滤;
(5.1)判断是否有免审设置,如果是,则满足免审名单要求则直接发送消息;否则,继续步骤(5.2);
(5.2)判断是否有敏感词设置,如果是,则通过敏感词过滤算法处理,继续步骤(5.4);否则,继续步骤(5.3);
(5.3)判断是否有白名单设置,如果是,则通过敏感词过滤算法处理,继续步骤(5.4);否则,继续步骤(5.5);
(5.4)等待运营审核,判断审核是否通过,如果是,则继续步骤(5.5);否则,放入拦截资讯池中。
作为本发明的优选实施方式,所述的步骤(5)中免审名单包括来源、栏目和发布媒体。
作为本发明的优选实施方式,所述的步骤(5)中敏感词包括违禁、敏感和高敏感。
本发明的具体实施方式中,本发明涉及的标签体系采用“人机结合”方式,通过自动新标签发现及特征词提取,进行人工审核的方式对“六大类三层”资讯标签体系的不断丰富进行运营。资讯标签化技术框架包括资讯采集模块、标签化处理模块、自动配图模块、基金抽取模块和敏感词拦截审核模块,具体整体架构详见图1。
1、资讯采集模块通过kafka消息多线程实时获取资讯信息,并存入rabbitmq中用于标签化处理。
2、标签化处理模块作为资讯标签化技术框架的核心,通过资讯标注优化,现阶段准确率达96%左右,整体采用微服务、多线程架构,具体流程详见图2。
首先,去除资讯中空格等,对资讯进行html标签预处理,通过正则匹配将资讯内容转化为纯文本形式。接着根据金融词库对内容进行分词,使用TextRank算法关键词抽取及权重计算。再使用Word2vec模型得到每个词的向量,词向量之间两两使用余弦距离计算相似度,相似度高的划分到一个集合进行同义词匹配。基于贝叶斯平均算法进行标签权重优化,将最终得到的词与标签体系进行术语匹配,将非专业词汇进行剔除,最终得到满足需求的标签。
自动配图模块首先判定源头是否有配图,在无配图的情况下基于标签化结果,筛选出个股、行业、新闻、主题类标签,通过设定的个股权重阀值和选定市场获取个股的个数,若个股标签个数只有1个则随机选择该标签下配图,若个股标签数量大于1个则选择行业、新闻、主题类标签下权重最高的标签进行随机配图。如若没有上述类别的标签,则自动根据相关算法自动匹配通用图库选择配图,更直观呈现资讯内容概要,提升用户体验。
基金抽取模块基于资讯内容和标签化处理得到的相关个股,进行基金抽取。当资讯内容中存在基金池中完全匹配的基金全称和基金简称,则将基金进行抽取。如果无法匹配基金名称,则根据标签化处理得到的个股以及设定阀值和市场条件,匹配所有基金的前N大重仓股的信息得到相关基金,再按照命中的基金的相关个股重仓比例总和进行排序,得到前M个基金。
敏感词拦截审核根据标签化处理结果,通过设定的敏感词、免审核名单、利空白名单进行过滤。免审名单包括来源、栏目和发布媒体三个维度,敏感词包括违禁、敏感和高敏感三个类别,利空白名单则是对白名单中的个股进行利空判定。资讯及标签化结果首先经过免审名单过滤,若满足免审名单要求则直接发送消息,否则就判定是否存在设定的敏感词。如果存在敏感词则直接拦截等待审核,否则就判定是否存在利空白名单设定。如果存在利空白名单设定,则拦截利空的个股消息待审核。所有待审核内容通过人工审核后方才发布,否则就留在拦截资讯池中,进一步保证资讯准确及合规性。
资讯标签化的标签体系浓缩了业务思想,通过“人机结合”方式将分层多维标签体系用户资讯标签化。资讯标签化框架的整体流程如下所述,时序图如入6所示。
1、资讯采集模块通过kafka消息多线程实时获取资讯信息,并存入rabbitmq中用于标签化处理。
2、标签化处理模块作为资讯标签化技术框架的核心,通过资讯标注优化现阶段准确率达96%左右,整体采用微服务、多线程架构,具体流程详见图2。
2.1首先,去除资讯中空格等,对资讯进行html标签预处理,通过正则匹配将资讯内容转化为纯文本形式。
2.2接着根据金融词库,使用ANSJ分词器对内容、标题和摘要进行分词。
2.3使用TextRank算法抽取文本中的关键词(即能代表文本内容主旨的具有重要意义的词汇),并计算得到每个词的权重值。
2.4再使用Word2vec模型得到每个词的向量,词向量之间两两使用余弦距离计算相似度,相似度高的划分到一个集合进行同义词匹配。
2.5基于贝叶斯平均算法进行实体消歧,并对关键词的权重进行优化。
2.6将最终得到的词与标签体系进行术语匹配,将非专业词汇进行剔除,最终满足需求的相关标签。
3、自动配图模块首先判定源头是否有配图,在无配图的情况下基于标签化结果,筛选出满足条件的个股、行业、新闻、主题类标签。
3.1通过设定的个股权重阀值和选定市场获取个股的个数。
3.2若个股标签个数只有1个则随机选择该个股标签下,若个股标签数量大于1个则选择行业、新闻、主题类标签下权重最高的标签。
3.3根据选择的标签进行图片匹配,如若没有上述类别的标签,则自动根据相关算法自动匹配通用图库选择配图,更直观呈现资讯内容概要,提升用户体验。
4、基金抽取模块基于资讯内容和标签化处理得到的相关个股,进行基金抽取。
4.1当资讯内容中存在基金池中完全匹配的基金全称和基金简称,则将基金进行抽取。
4.2如果无法匹配基金名称,则根据标签化处理得到的个股以及设定阀值和市场条件,匹配所有基金的前N大重仓股的信息得到相关基金,再按照命中的基金的相关个股重仓比例总和进行排序,得到前M个基金。
5、敏感词拦截审核根据标签化处理结果,通过设定的敏感词、免审核名单、利空白名单进行过滤。免审名单包括来源、栏目和发布媒体三个维度,敏感词包括违禁、敏感和高敏感三个类别,利空白名单则是对白名单中的个股进行利空判定。
5.1资讯及标签化结果首先经过免审名单过滤,若满足免审名单要求则直接发送消息,否则就判定是否存在设定的敏感词。
5.2如果存在敏感词则直接拦截等待审核,否则就判定是否存在利空白名单设定。
5.3如果存在利空白名单设定,则拦截利空的个股消息待审核。
5.4所有待审核内容通过人工审核后方才发布,否则就留在拦截资讯池中,进一步保证资讯准确及合规性。
本发明在实际应用中日均处理资讯流水约8w条,日均标签化资讯约1.9w篇。每日约产出带有个股标签的资讯1.43w篇覆盖5300多只个股,带有主题标签的资讯约1.69w篇,带有行业标签的资讯1.46w篇,带有新闻标签的资讯1.23w篇,地域标签的资讯1.08w篇。根据标签化结果,用于资讯个性化推荐、消息推送和个股F10资讯呈现等应用。自动配图资讯1.8w篇,大大减少了人工手动配置工作,提高了工作效率。根据设定的敏感词拦截条件,拦截敏感、不合规等资讯3.3w条,确保了资讯的准确、合规性。
采用了本发明的基于标签体系实现资讯标签化处理的方法,旨在解决众多资讯分类栏目过于宽泛、无相关个股与基金、缺少配图用户体验差和无法拦截不合规内容的问题,本发明基于历史数据和金融行业业务需求建立了资讯标签体系,所提出的资讯标签化技术框架不但可按实际业务需求进行标签化、抽取相关个股与基金,并根据标签化结果进行自动配图,将不合规资讯进行拦截,同时从整体架构上使用了微服务多线程架构,具有良好的高可用、扩展性。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (7)

1.一种基于标签体系实现资讯标签化处理的方法,其特征在于,所述的方法包括以下步骤:
(1)通过消息多线程实时获取资讯信息,并用于标签化处理;
(2)通过资讯标注优化,对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配;
(3)通过设定的个股权重阀值和选定市场获取个股的个数,并根据选择的标签进行图片匹配;
(4)根据资讯内容和标签化处理得到的相关个股,进行基金抽取;
(5)根据标签化处理结果,通过设定的敏感词、免审核名单和利空白名单进行过滤。
2.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)对资讯进行html标签预处理,通过正则匹配将资讯内容转化为纯文本形式;
(2.2)通过ANSJ分词器对内容、标题和摘要进行分词;
(2.3)抽取文本中的关键词,并计算每个词的权重值;
(2.4)通过Word2vec模型得到每个词的向量,通过余弦距离计算相似度,将相似度高的划分至一个集合进行同义词匹配;
(2.5)通过贝叶斯平均算法进行实体消歧,并对关键词的权重进行优化;
(2.6)将最终得到的词与标签体系进行术语匹配,将非专业词汇进行剔除。
3.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)判断是否存在配图,如果是,则继续步骤(3.2);否则,不进行处理;
(3.2)判断是否存在特定标签,如果是,则进行个股标签计算,继续步骤(3.2);否则,继续步骤(3.5);
(3.3)判断个股数量是否等于1,如果是,则获取个股随机配图,继续步骤(3.5);否则,继续步骤(3.4);
(3.4)按照行业、新闻、主题标签权重排序,根据相关算法自动匹配通用图库选择配图;
(3.5)根据标签获取配图。
4.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(4)具体包括以下步骤:
(4.1)判断基金全称和基金简称是否完全匹配,如果是,则抽取基金;否则,继续步骤(4.2);
(4.2)根据标签化处理得到个股以及设定阀值和市场条件,匹配所有基金的重仓股信息得到相关基金;
(4.3)按照命中的基金的相关个股重仓比例总和进行排序;
(4.4)抽取得到基金。
5.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(5)具体包括以下步骤:
(5.1)判断是否有免审设置,如果是,则满足免审名单要求则直接发送消息;否则,继续步骤(5.2);
(5.2)判断是否有敏感词设置,如果是,则通过敏感词过滤算法处理,继续步骤(5.4);否则,继续步骤(5.3);
(5.3)判断是否有白名单设置,如果是,则通过敏感词过滤算法处理,继续步骤(5.4);否则,继续步骤(5.5);
(5.4)等待运营审核,判断审核是否通过,如果是,则继续步骤(5.5);否则,放入拦截资讯池中。
6.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(5)中免审名单包括来源、栏目和发布媒体。
7.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(5)中敏感词包括违禁、敏感和高敏感。
CN202010519352.3A 2020-06-09 2020-06-09 基于标签体系实现资讯标签化处理的方法 Active CN111640025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010519352.3A CN111640025B (zh) 2020-06-09 2020-06-09 基于标签体系实现资讯标签化处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010519352.3A CN111640025B (zh) 2020-06-09 2020-06-09 基于标签体系实现资讯标签化处理的方法

Publications (2)

Publication Number Publication Date
CN111640025A true CN111640025A (zh) 2020-09-08
CN111640025B CN111640025B (zh) 2023-08-01

Family

ID=72331421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010519352.3A Active CN111640025B (zh) 2020-06-09 2020-06-09 基于标签体系实现资讯标签化处理的方法

Country Status (1)

Country Link
CN (1) CN111640025B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580364A (zh) * 2020-12-25 2021-03-30 中国工商银行股份有限公司 金融市场资讯信息处理方法及装置
CN113220699A (zh) * 2021-06-10 2021-08-06 国泰君安证券股份有限公司 支持多模式敏捷型资讯数据接发的系统及其方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285558A (ja) * 2005-03-31 2006-10-19 Toppan Printing Co Ltd 証票発行システム、証票発行方法、およびプログラム
CN104239535A (zh) * 2014-09-22 2014-12-24 重庆邮电大学 一种为文字配图的方法、服务器、终端及系统
CN107273534A (zh) * 2017-06-29 2017-10-20 武汉楚鼎信息技术有限公司 一种基于资讯内容提取的数据加工方法、系统
CN109408826A (zh) * 2018-11-07 2019-03-01 北京锐安科技有限公司 一种文本信息提取方法、装置、服务器及存储介质
US20190073413A1 (en) * 2017-09-01 2019-03-07 Andrew Gun-Young Kim System and Method for Producing a Media Sentiment Based Index and Portfolio of Securities
CN109783798A (zh) * 2018-12-12 2019-05-21 平安科技(深圳)有限公司 文本信息添加图片的方法、装置、终端及存储介质
CN110889024A (zh) * 2019-10-25 2020-03-17 武汉灯塔之光科技有限公司 一种用于计算资讯关联股票的方法和装置
CN110990532A (zh) * 2019-11-28 2020-04-10 中国银行股份有限公司 一种处理文本的方法和装置
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285558A (ja) * 2005-03-31 2006-10-19 Toppan Printing Co Ltd 証票発行システム、証票発行方法、およびプログラム
CN104239535A (zh) * 2014-09-22 2014-12-24 重庆邮电大学 一种为文字配图的方法、服务器、终端及系统
CN107273534A (zh) * 2017-06-29 2017-10-20 武汉楚鼎信息技术有限公司 一种基于资讯内容提取的数据加工方法、系统
US20190073413A1 (en) * 2017-09-01 2019-03-07 Andrew Gun-Young Kim System and Method for Producing a Media Sentiment Based Index and Portfolio of Securities
CN109408826A (zh) * 2018-11-07 2019-03-01 北京锐安科技有限公司 一种文本信息提取方法、装置、服务器及存储介质
CN109783798A (zh) * 2018-12-12 2019-05-21 平安科技(深圳)有限公司 文本信息添加图片的方法、装置、终端及存储介质
CN110889024A (zh) * 2019-10-25 2020-03-17 武汉灯塔之光科技有限公司 一种用于计算资讯关联股票的方法和装置
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统
CN110990532A (zh) * 2019-11-28 2020-04-10 中国银行股份有限公司 一种处理文本的方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SHOUYOU SONG等: "A Novel Text Classification Approach Based on Word2vec and TextRank Keyword Extraction", 2019 IEEE FOURTH INTERNATIONAL CONFERENCE ON DATA SCIENCE IN CYBERSPACE (DSC) *
俞枫等: "基于DRPKP算法的文本去重研究与应用" *
夏天;: "词向量聚类加权TextRank的关键词抽取", 数据分析与知识发现, no. 02 *
朱钟元;杨莹;薛醒思;詹先银;王家华;范淑娟;刘艳萍;: "基于改进正向最大匹配算法的股票资讯新闻自动标注技术", no. 01 *
李鹏;王斌;石志伟;崔雅超;李恒训;: "Tag-TextRank:一种基于Tag的网页关键词抽取方法", no. 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580364A (zh) * 2020-12-25 2021-03-30 中国工商银行股份有限公司 金融市场资讯信息处理方法及装置
CN113220699A (zh) * 2021-06-10 2021-08-06 国泰君安证券股份有限公司 支持多模式敏捷型资讯数据接发的系统及其方法

Also Published As

Publication number Publication date
CN111640025B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN107633007B (zh) 一种基于层次化ap聚类的商品评论数据标签化系统和方法
US8644610B1 (en) Method and system for searching for information on a network in response to an image query sent by a user from a mobile communications device
CN112201228A (zh) 一种基于人工智能的多模态语义识别服务接入方法
CN111191614B (zh) 一种单据分类方法和装置
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN111640025A (zh) 基于标签体系实现资讯标签化处理的方法
US20170270098A1 (en) External resource identification
CN112395410A (zh) 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN111667337A (zh) 一种商品评价的排序方法和系统
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN112308059A (zh) 用于电子商务的商品信息翻译方法、系统和可读存储介质
CN114119136A (zh) 一种产品推荐方法、装置、电子设备和介质
CN113239681B (zh) 一种法院案件卷宗识别方法
CN110610003A (zh) 用于辅助文本标注的方法和系统
KR102004981B1 (ko) 선택된 단어에 대한 자동 설명 삽입이 가능한 전자 문서 편집 장치 및 그 동작 방법
CN115952282A (zh) 基于nlp技术的银行客户投诉智能分流处置方法和系统
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム
CN114780678A (zh) 文本检索方法、装置、设备及存储介质
Blomqvist et al. Reading the ransom: Methodological advancements in extracting the swedish wealth tax of 1571
CN114741501A (zh) 舆情预警方法、装置、可读存储介质及电子设备
CN113886538A (zh) 医保报销信息查询方法、装置、电子设备和存储介质
CN112699949A (zh) 一种基于社交平台数据的潜在用户识别方法及装置
CN113204610A (zh) 基于刑事案件电子卷宗的自动编目的方法、计算机可以读取的存储装置
CN112035500B (zh) 知识库的更新方法、装置、服务器和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant