CN115984004A - 信息关联方法、装置、设备及存储介质 - Google Patents

信息关联方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115984004A
CN115984004A CN202211660198.7A CN202211660198A CN115984004A CN 115984004 A CN115984004 A CN 115984004A CN 202211660198 A CN202211660198 A CN 202211660198A CN 115984004 A CN115984004 A CN 115984004A
Authority
CN
China
Prior art keywords
information
entity
piece
stock
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211660198.7A
Other languages
English (en)
Inventor
王嘉楠
潘康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Futu Network Technology Co Ltd
Original Assignee
Shenzhen Futu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Futu Network Technology Co Ltd filed Critical Shenzhen Futu Network Technology Co Ltd
Priority to CN202211660198.7A priority Critical patent/CN115984004A/zh
Publication of CN115984004A publication Critical patent/CN115984004A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种信息关联方法、装置、设备及存储介质,方法包括:提取资讯集中每篇资讯的实体信息,实体信息包括至少一个实体,然后根据个股集、资讯集以及资讯集中每篇资讯的实体信息,确定全局统计关系信息,然后根据全局统计关系信息,确定资讯集中每篇资讯对应的关联个股,关联个股表示与对应的资讯相关的个股,可以提升资讯与个股的关联准确度,提高资讯分发效率。

Description

信息关联方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种信息关联方法、装置、设备及存储介质。
背景技术
个股是一种无偿还期限的有价证券,按股票持有者可分为国家股、法人股、个人股三种。个人股(individual stock)投资资金来自个人,可以自由上市流通。
资讯关联个股服务至关重要。从运营分发角度的角度来看,一篇财经类资讯入库后,资讯分发时,需要考虑资讯与哪些个股最相关,并将该资讯投放到这些个股资讯列表下,为关注这些个股的用户提供最及时、最相关的资讯。从用户体验的角度来看,用户在阅读资讯过程中需要快速定位该资讯与哪些个股相关,可以从资讯页直接触达到个股交易行情页,从而帮助用户更准确地进行投资决策、更快速地交易下单。
目前资讯侧使用个股名称完全匹配的方式进行关联个股,该方式只能在个股名称完整出现时才能匹配到,分发效率不高,同时错误关联的情况较多。
发明内容
本申请实施例提供一种信息关联方法、装置、设备及存储介质,可以提升资讯与个股的关联准确度,提高资讯分发效率。
一方面,本申请实施例提供一种信息关联方法,所述方法包括:
提取资讯集中每篇资讯的实体信息,所述实体信息包括至少一个实体;
根据个股集、资讯集以及所述资讯集中每篇资讯的实体信息,确定全局统计关系信息;
根据所述全局统计关系信息,确定所述资讯集中每篇资讯对应的关联个股,所述关联个股表示与对应的资讯相关的个股。
另一方面,本申请实施例提供一种信息关联装置,所述装置包括:
提取单元,用于提取资讯集中每篇资讯的实体信息,所述实体信息包括至少一个实体;
第一确定单元,用于根据个股集、资讯集以及所述资讯集中每篇资讯的实体信息,确定全局统计关系信息;
第二确单元,用于根据所述全局统计关系信息,确定所述资讯集中每篇资讯对应的关联个股,所述关联个股表示与对应的资讯相关的个股。
另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上任一实施例所述的信息关联方法。
另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的信息关联方法。
本申请实施例通过提取资讯集中每篇资讯的实体信息,实体信息包括至少一个实体,然后根据个股集、资讯集以及资讯集中每篇资讯的实体信息,确定全局统计关系信息,然后根据全局统计关系信息,确定资讯集中每篇资讯对应的关联个股,关联个股表示与对应的资讯相关的个股,可以提升资讯与个股的关联准确度,提高资讯分发效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的信息关联方法的流程示意图。
图2为本申请实施例提供的应用场景示意图。
图3为本申请实施例提供的信息关联装置的结构示意图。
图4为本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种信息关联方法、装置、终端设备和存储介质。具体地,本申请实施例的信息关联方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能音箱、穿戴式智能设备、智能车载终端等设备,终端还可以包括客户端,该客户端可以是金融客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络服务、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
目前资讯侧使用个股名称完全匹配的方式进行关联个股,该方式只能在个股名称完整出现时才能匹配到,分发效率不高,同时错误关联的情况较多。目前使用的个股名称完全匹配的方式有以下缺点:
1.只能在个股名称完整出现时才能关联到个股,例如:资讯中出现“腾讯控股”时可以关联到个股00700.HK,但仅出现“腾讯”时,无法关联到个股00700.HK。
2.未直接出现个股名称,但大量提及公司产品、高管人名等代表性实体时,无法关联到个股,缺乏关联信息的推理能力。
3.缺乏上下文语义理解,在个股名称有歧义时会出现错误关联,例如:个股002291.SZ的个股名称为“星期六”,若资讯中出现了“将于星期六举行会谈”,则会错误关联到该个股。
因此,需要设计一种更加智能的信息关联方法,本申请实施例在资讯入库后,可以通过系统审核和智能关联股票,可实现资讯自动化分发至个股资讯列表下。关联个股能力可大幅提升,也可以提升资讯分发效率,也可满足用户及时浏览个股相关资讯的诉求。相对于个股名称完全匹配的情况,本申请实施例得到了更进一步的优化,例如,可以将资讯中的公司高管、公司产品、公司业务、公司所在行业等非公司名称的代表性实体同样关联到个股,还可以在后台运营系统人工配置新关联链路或激活已存在关联链路,以提升资讯与个股的关联准确度。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
请参阅图1至图2,图1为本申请实施例提供的信息关联方法的流程示意图,图2为本申请实施例提供的应用场景示意图。本申请实施例的信息关联方法可应用于服务器。该方法包括以下步骤:
步骤110,提取资讯集中每篇资讯的实体信息,所述实体信息包括至少一个实体。
在一些实施例中,在所述提取资讯集中每篇资讯的实体信息之前,还包括:
获取个股集中每只个股对应的个股资讯列表,每只个股对应的个股资讯列表中存储有至少一篇具有初始关联关系的资讯;
根据所述个股资讯列表,获取资讯集,所述资讯集包含所有个股资讯列表中的所有资讯。
例如,在该信息关联方法对应的系统构建前,每只个股已经积累了一定量的个股资讯新闻,且在相关客户端上将个股资讯新闻提供给用户浏览,对于一些热门的关键个股,还有专门的运营人员进行日常的资讯维护。可以理解的,每只个股对应的个股资讯列表下存储的所有资讯,都和该个股存在一定的相关性(比如强相关性或弱相关性,至少不是完全无关的)。因此,可以利用个股集中每只个股对应的个股资讯列表中已有的海量资讯数据作为先验知识,构建资讯集。经过对资讯集中的每篇资讯进行实体抽取后,得到的实体抽取结果包括资讯集中每篇资讯的实体信息,可以初步构建起资讯-实体网络。
例如,在实际线上使用时,在提取资讯集中每篇资讯的实体信息时,可以分为2种情形:
1)针对资讯集中的存量个股资讯,可以一次性开启多线程并发请求实体抽取接口,以实现在短时间内将存量的百万级别个股资讯的实体抽取结果存入数据库内。
2)针对资讯集中上线后不断流入的增量个股资讯,可以设置定时任务,分别在一天内的多个时间点,从Kafka消息队列中获取时间段内新增的个股资讯,并批量进行实体抽取,实体抽取结果同样存入数据库。
其中,Kafka是一个分布式消息队列,具有高性能、持久化、多副本备份、横向扩展能力。在架构中起到解偶、削峰、异步处理的作用。Kafka的最大的特性就是可以实时的处理大量数据以满足各种需求场景。获取资讯。
例如,一篇资讯的获取方式可以包括内容源爬取自动审核入库或者人工新建入库。例如,基于资讯源爬取资讯,并将资讯入库至数据库中。例如,在与资讯原网站达成版权合作的基础上,基于爬虫工具从资讯源爬取资讯。该爬虫工具是一种按照必定的规则,自动地抓取万维网信息的程序或者脚本。爬虫工具经过HTTP库向目标站点发起请求,即发送一个Request,请求能够包含额外的headers等信息,等待服务器响应;若是服务器能正常响应,会获得一个Response,Response的内容即是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型;获得的内容可以是HTML,能够用正则表达式、网页解析库进行解析;获取的内容也可以是Json,能够直接转为Json对象解析,一般为二进制数据,能够作保存或者进一步的处理;爬虫工具爬取的资讯能够存为文本,也能够保存至数据库,或者保存特定格式的文件。例如,也可以对资讯进行人工新建入库,响应于人工审核平台发送的针对资讯的入库请求,获取资讯,并将资讯入库至数据库中。
例如,在获取资讯之后,资讯入库之前,还可以基于预设审核规则对每篇资讯进行资讯审核,其中,预设审核规则至少包括敏感词匹配与过滤规则校验;若资讯未命中敏感词,且资讯未命中过滤规则,则将资讯入库至数据库中。若资讯命中敏感词,和/或资讯命中过滤规则,则可以生成审核不通过的第一提示信息,并将资讯与第一提示信息发送至人工审核平台,以使用户确定是否将该资讯入库。
其中,敏感词库和过滤规则词库,是预选搭建的词库,在资讯入库时通过对资讯的标题、资讯来源、正文等字段进行文本匹配,若命中敏感词或命中过滤词,则自动判断为审核不通过,需要运营人员再进行人工审核后才能确定是否将资讯入库。例如,可以响应于针对已入库的资讯的维护指令,将对应资讯存入对应个股的个股资讯列表下。
在一些实施例中,所述提取资讯集中每篇资讯的实体信息,包括:
获取所述资讯集中每篇资讯的资讯文本数据;
基于实体抽取模型对每篇资讯的资讯文本数据进行处理,得到每篇资讯的实体信息,其中,所述实体抽取模型用于抽取所述资讯文本数据中的预设实体。
例如,实体抽取模型具有可被调用的接口调用,可以直接通过对应接口调用实体抽取模型来提取资讯集中每篇资讯的实体信息。
例如,资讯的核心是报道新闻事件,新闻事件表述了一个或多个实体(比如公司、人、国家、组织机构等)发生的事件。为了准确关联到个股,实体抽取模型需准确提取资讯中出现的预设实体,预设实体包括但不限于:公司、人名、产品名称、业务、行业、国家、组织机构等。
例如,资讯a包括的内容为“A汽车公司创始人兼CEO李某官宣XX型汽车将于X月X日发布”,实体抽取模型提取的资讯a的实体信息可以包括以下实体:公司名为“A汽车公司”;人名为“李某”,产品名称为“XX型汽车”。
基于以上提取到的信息,系统再来确定此处出现的每个实体分别和所有个股的关联度,再由核心算法综合以上所有实体到个股的关联关系得出最终关联结果。因此,实体抽取模块是关联个股整体架构的第一步。
例如,实体抽取模型主要针对金融领域关心的公司、人名、产品名称、业务、行业、国家、组织机构等这些实体类型进行数据标注。
在收集到相应的标注数据后,可以利用自然语言处理预训练模型Bert和全局指针模块,搭建初始的实体抽取模型,利用已标注有实体类型的标注数据,初始的实体抽取模型进行微调,最终得到实体抽取模型。
其中,Bert模型由嵌入(Embedding)层、12个变换(Transformer)层搭建而成,共有1.1亿参数,模型参数非常庞大。在本申请实施例中,Bert模型作为text_encoder对输入的资讯文本数据进行特征提取。输入的资讯文本数据首先会经过Bert中的分词器(Tokenizer),得到长度为L的标记(tokens)序列,tokens序列进一步根据vocab中的映射关系将token文本转成word id,得到[1,L]的输入张量(tensor),接着输入到Bert模型中,Bert作为encoder,[1,L]的tensor经过Embedding层,得到[L,D]维度的tensor,该tensor记为R(由于是Bert模型,则D=768),接着,该tensor输入全指针层,输出一个[n_labels,L,L],n_labels是实体总类别数,例如:对于同时抽取公司、人名、产品名称、业务、行业、国家、组织机构的实体抽取模型,n_labels=7。
全指针层的作用是利用text_encoder提取出实体的丰富语义信息,一次性通过一个指针方阵来指示出实体的头和尾,从而能快速定位到该实体在原文中的位置,进行直接提取。本实施例中可以采用一个简化版的多头注意力(Multi-Head Attention)模块来实现该功能。Multi-Head Attention模块由三个矩阵Q(查询)、K(所有键)、V(值)进行矩阵计算后,再进行Scaled Dot-Product Attention计算。此处是直接利用Q和K矩阵(均为[D,d]的矩阵),以及上述得到的[L,D]维度的tensor(该tensor记为R),对输入的[L,D]降维到[L,d](d=64通常<<D)的特征空间中,记为q和k,相关公式如下:
q=R·Q;k=R·K;
其中,Sα(i,j)表示第α类实体的指针方阵,其形状为[L,L],当有n_labels类时,每个实体类别都将计算得到这样一个指针方阵,因此整个全指针层的输出为[n_labels,L,L]的tensor。需要注意的是,Sα的行表示实体头位置,列表示实体尾位置,因此Sα虽然是方阵,但只有上三角部分有实际意义,下三角的输出直接不考虑。
分类输出层的作用是将输出的指针方阵进行实体提取,[n_labels,L,L]中大于0的值认为是被激活的实体头尾,因此该层将模型输出的logits转化成0/1二值方阵,被激活的实体头尾被置为1,其余为0。
例如,在训练阶段,对获取的样本资讯的资讯文本数据进行人工标注,比如,通过针对样本资讯的资讯文本数据中的公司、人名、产品名称、业务、行业、国家、组织机构等实体类型进行数据标注,得到标注数据。将标注数据输入预设算法模型中进行模型训练,比如采用标注数据和Bert模型预训练多个transformers层、全局指针层和分类输出层,得到实体抽取模型。在应用阶段,将资讯集中每篇资讯的资讯文本数据输入实体抽取模型中,以抽取每篇资讯的实体信息。
步骤120,根据个股集、资讯集以及所述资讯集中每篇资讯的实体信息,确定全局统计关系信息。
例如,步骤120可以基于Spark计算任务系统来实现。Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算的特性,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量的廉价硬件之上形成集群,提高了并行计算能力。
该Spark计算任务系统可以负责将个股、海量的个股资讯、及其所提取到的千万级别的实体,基于MapReduce思想,进行一定的转换、聚合计算,得到不同类别对象之间的全局统计关系信息,该全局统计关系信息可以表征个股与实体之间的关系、实体与实体之间的关系等。
其中,MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
例如,全局统计关系信息可以包括:个股-实体的第一共现关系,实体-实体的第二共现关系,实体的全局IDF值(逆文档频率,Inverse Document Frequency,缩写为IDF),个股-实体的MF值(实体频率,Mention Frequency,缩写为MF),MFIDF值(实体频率-逆文档频率)等。
例如,在本实施例中所有的实体都用单词“mention”表示,而不是“entity”。
在一些实施例中,步骤120可以通过步骤121至步骤123实现(图中未示出),具体为:
步骤121,根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体与个股集中每只个股的第一共现关系。
在一些实施例中,所述根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体与个股集中每只个股的第一共现关系,包括:
根据所述个股集中每只个股对应的个股资讯列表和所述资讯集,确定所述资讯集中每篇资讯对应的具有初始关联关系的个股;
根据所述资讯集中每篇资讯对应的具有初始关联关系的个股,以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体与个股集中每只个股的第一共现关系。
例如,个股-实体的第一共现关系:针对资讯集中的资讯a,根据个股资讯列表和资讯集,确定出资讯a关联有n只个股,从资讯a中可以提取到m个实体,则对应于资讯a,会产生n×m个“个股-实体”对,个股和实体两两配对(比如两两配对表示二者共同出现)时认为是共现一次,因此将每一配对的“个股-实体”对的频次加1,最终可以得到某只个股和某个实体的全局共现总次数,遍历全部“个股-实体”对,得到每篇资讯中各个实体与个股集中每只个股的第一共现关系。该第一共现关系可以表征实体与个股之间的相关程度,该第一共现关系有利于用户了解与某只个股最相关的实体是哪些,例如,个股00700.HK经常与实体“王者荣耀”共现,说明两者之间的相关程度高。
步骤122,根据所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体间的第二共现关系。
例如,实体-实体的第二共现关系:类似的,针对资讯集中的资讯a,比如从资讯a中可以提取到m个实体,资讯a中的不同实体间两两配对,可以组成m×m个“实体-实体”对,实体和实体两两配对(比如两两配对表示二者共同出现)时认为是共现一次,最终可以得到某个实体与另一个实体的全局共现总次数,遍历全部“实体-实体”对,得到每篇资讯中各个实体间的第二共现关系。该第二共现关系可以表征实体之间的相关程度,该第二共现关系有利于我们了解实体之间的相关程度,例如,实体“微信”经常与实体“公众号”共现,说明两者之间的相关程度高。
步骤123,根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定所述个股集中每只个股与每篇资讯中各个实体的第一关联度。
在一些实施例中,所述根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定所述个股集中每只个股与每篇资讯中各个实体与的第一关联度,包括:
根据所述个股集中每只个股对应的个股资讯列表、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中第i个实体与所述个股集中第j只个股的共现资讯篇数,确定所述第j只个股对应的资讯总篇数,确定所述资讯集的资讯总篇数,以及确定所述资讯集中出现过所述第i个实体的资讯总篇数;
根据每篇资讯中第i个实体与所述个股集中第j只个股的共现资讯篇数,以及所述第j只个股对应的资讯总篇数,确定所述第j只个股相对于所述第i个实体的实体频率;
根据所述资讯集的资讯总篇数,以及所述资讯集中出现过所述第i个实体的资讯总篇数,确定所述第i个实体的逆文档频率;
根据所述实体频率与所述逆文档频率的积,确定所述第j只个股与所述第i个实体的第一关联度;
遍历所述资讯集中每篇资讯的各个实体,确定所述个股集中每只个股与每篇资讯中各个实体与的第一关联度。
例如,可以参考经典的TFIDF算法,提出MFIDF算法,以找出目标个股的“独特且相关”的所有实体mentions列表。
例如,根据每篇资讯中第i个实体与个股集中第j只个股的共现资讯篇数,以及第j只个股对应的资讯总篇数,确定第j只个股相对于第i个实体的实体频率MFij,可以表示为如下公式(1):
例如,根据资讯集的资讯总篇数,以及资讯集中出现过第i个实体的资讯总篇数,确定第i个实体的逆文档频率IDFi,可以表示为如下公式(2):
其中,分母中,出现过实体i的资讯总篇数加1,是为了避免分母为0(即所有资讯都不包含该实体的情况);log表示对得到的值取对数。
例如,根据实体频率MFij与逆文档频率IDFi的积,确定第j只个股与第i个实体的第一关联度MFIDFij,可以表示为如下公式(3):
MFIDFij=MFij×IDFi                       (3)。
例如,基于该Spark计算任务系统,以及基于对个股集、资讯集以及资讯集中每篇资讯的实体信息进行处理,得到Spark任务结果,该Spark任务结果可以包括全局统计关系信息,然后将得到的Spark任务结果直接写入到Hive表。例如,针对资讯集中的所有第一共现关系(包含每篇资讯对应的个股-实体的第一共现关系)生成1张Hive表;针对资讯集中的所有第二共现关系(包含每篇资讯对应的实体-实体的第二共现关系)生成1张Hive表;针对个股集中的所有第一关联度(包含每只个股与每篇资讯中各个实体的第一关联度)可以对应多张Hive表,其中一张Hive表用于存储MF值,另一张Hive表用于存储IDF值,又一张Hive表用于存储MFIDF值。由于Hive表的查询速度较慢,为了加速查询,可以将Hive表同步到MySQL表,以利用MySQL的索引快速的查询数据。该存储有Spark任务结果的Hive表或者对应的MySQL表可以记为stock_mention表。
步骤130,根据所述全局统计关系信息,确定所述资讯集中每篇资讯对应的关联个股,所述关联个股表示与对应的资讯相关的个股。
在一些实施例中,所述根据所述全局统计关系信息,确定所述资讯集中每篇资讯对应的关联个股,包括:
根据所述第一共现关系与所述第二共现关系,确定所述个股集中每只个股对应的共现实体列表,所述共现实体列表中的实体为与对应的个股共现过的实体;
根据所述第一关联度对所述共现实体列表中的实体进行排列,将排列后的共现实体列表位于前N位实体,确定为所述个股集中每只个股对应的候选实体;
获取每只个股与对应的各个候选实体之间的关联链路标识;
当目标个股与对应的各个候选实体之间的关联链路标识满足预设条件,且所述目标个股对应的各个候选实体均属于目标资讯时,将所述目标个股确定为所述目标资讯的关联个股;
其中,所述目标个股为所述个股集中的任一个股,所述目标资讯为所述资讯集中的任一资讯。
例如,可以利用stock_mention表中存储的结果确定资讯集中每篇资讯对应的关联个股。例如,可以根据stock_mention表中的第一共现关系与第二共现关系确定个股集中每只个股对应的共现实体列表,比如给定任意一只个股A,可以返回与个股A共现过的所有实体,得到个股A对应的共现实体列表,且可以根据表征第一关联度的MFIDF值的降序排列并取TopN,初步得到该个股A最相关的实体列表(该最相关的实体列表包含个股A对应的候选实体);遍历个股集中的各只个股,确定个股集中每只个股对应的候选实体。但是,由于海量资讯中存在一定的噪声,且MFIDF类似于TFIDF,其精度不会很高,无法直接将个股A的TopN实体不加审核的直接对外使用。因此,可以增加一个人工审核平台,对每只个股(比如超过2万只的个股)的最相关实体,进行逐一检查。具体的,将个股集中每只个股对应的候选实体发送至人工审核平台,响应于在人工审核平台输入的审核操作,生成每只个股与对应的各个候选实体之间的关联链路标识并返回至服务器,使得服务器获取每只个股与对应的各个候选实体之间的关联链路标识,当目标个股与对应的各个候选实体之间的关联链路标识满足预设条件,且目标个股对应的各个候选实体均属于目标资讯时,将目标个股确定为目标资讯的关联个股。例如,个股与实体的关联链路默认为关闭,即:关联链路标识active=0,若需要将该个股与实体关联,则对该关联链路进行人工激活,修改关联链路标识active为1。经过大数据统计后,已存储的个股-实体关系能覆盖绝大部分情形。但不可避免有一些关联链路的现存数据未覆盖到,运营人员可以手动新增一些个股与实体的关联链路。本申请实施例可以提供新增一条或多条个股与实体的关联链路的能力,可以在人工审核平台非常方便的进行新增、删除、激活、不激活等操作,修改后的关联链路可以及时反映到线上服务的关联结果中。在在人工审核平台操作生成的人工操作表是建立在stock_mention表的基础数据之上,增加个股-实体对的人工运营记录,记为ops_stock_mention表,该ops_stock_mention表包含每只个股与对应的各个候选实体之间的关联链路标识。
在本申请实施例中,将资讯关联到个股的核心在于如何确定某个实体和个股集中的各只个股的关联度,即需要设计一种机制或算法,让资讯中提取的多个实体与个股关联度最高,比如实体包“A汽车公司”、“李某”、“XX型汽车”,与个股b关联度最高,而与其他个股关联度都较低。这样,就实现了将资讯中提取到的实体与个股关联起来,进而实现了资讯关联到个股的目的。例如,可以利用步骤130中获取的人工激活的实体-个股链路做直接关联,例如,出现在某篇资讯中的所有实体,统一查询ops_stock_mention表,查询到某篇资讯中所有实体对应的关联链路标识active=1的关联链路,其对应的目标个股,作为关联个股直接返回。具体的,当目标个股与对应的所有候选实体之间的关联链路标识active=1时,确定目标个股与对应的各个候选实体之间的关联链路标识满足预设条件。当目标个股与对应的各个候选实体之间的关联链路标识满足预设条件,且目标个股对应的各个候选实体均属于目标资讯时,将目标个股确定为所述目标资讯的关联个股。
如图2所示,从资讯数据库获取资讯集;然后对资讯集进行实体抽取,以提取资讯集中每篇资讯的实体信息,并将实体信息存储到表1中;然后基于Spark计算任务系统的spark定时处理程序进行处理得到Spark任务结果,并将该Spark任务结果写入表2,该表2是Hive表。其中,表3是MySQL表,表2是Hive表,由于Hive不支持索引,查询缓慢,不适合线上查询,因此需要将表2的Spark任务结果同步到MySQL介质进行存储。因此,表2和表3的数据内容是相同的,只是存储介质不同,一个是存在Hive存储介质中,一个是存在MySQL存储介质中。原生的Spark任务结果可以很好地支持写入Hive,当不好写入MySQL,因此需要这个数据同步的操作,将表2的数据同步到表3中。其中,图2中的“目标个股落库”,表示初期上线时,只有热门个股(目标个股)对应的Spark任务结果存储到表3(MySQL表);在后续上线时,可以是将全量个股的全量数据同步到表3(MySQL表)。
其中,操作表中存储的是对表3的数据进行人工审核后保留的关联结果,由于表3涉及的数据行数很大,属于千万级别,不适合做实时同步,因此可以定时对表3的数据进行处理后,将处理结果更新合并至操作表中。
其中,操作表中的所有字段都来自表3,在操作表中相比于表3新增了一个active字段。比如在上一次同步后到下一次更新前的这一段时间内,可能会存在如下情况:1)运营人员有可能对操作表进行了修改,比如有些行的active置1或置0,或者新增了行,人工审核结果中确定某个实体(mention)需要和某只个股关联上;2)针对于表3,在这段时间内也可能新增了数据行、共现次数增加等。3)数据同步时,将表3的所有更新数据合并到操作表中。例如,在实体管理后台的显示界面上,还可以实时呈现不同个股的操作视图,基于运营人员通过实体管理后台对操作表进行修改或新增等操作,并将修改或新增等操作对应的数据更新至操作表中。
例如,还可以基于操作表中存储的结果,确定出资讯集中每篇资讯对应的关联个股后,并可以在客户端的用户界面上呈现不同资讯对应的关联个股。
在一些实施例中,所述方法还包括:展示所述关联个股。例如,若所述关联个股为多个关联个股,则可以按照预设排序的方式,在客户端的用户界面上展示多个关联股票。例如,该预设排序可以包括为多个关联股票的发布时间排序、多个关联股票对应的用户持仓数量排序、多个关联股票对应的用户点击率排序等。
例如,本申请实施例对应的信息关联方法对应的算法逻辑完成后,需要为业务侧的开发人员提供服务接口,以接受业务侧输入的资讯数据,并返回关联到的关联个股列表及其他辅助信息。例如,可以配合业务侧的开发人员制定服务的接口协议如下:
1)提供2种接口方法:a.根据文章ID号(doc_id)获取关联结果:需要传入文章ID、文章类型,再根据以上信息在中台查询到相对应的文章文本,支持线上的文章类型可以包括但不限于:资讯、金融专栏新闻、快讯等。b.根据文本(text)获取关联结果:只需要传入资讯文本字符串即可查询到对应的资讯数据。
2)增加doc_lang语言参数,以支持中文、英文两种不同语言的资讯。3)返回关联个股列表时,关联个股列表中的每只关联个股需要包含个股ID、个股代码、个股中文简称、个股相关的实体列表等,各个实体还需要包含个股-实体的相关度等结果。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
本申请实施例提供的信息关联方法,通过提取资讯集中每篇资讯的实体信息,实体信息包括至少一个实体,然后根据个股集、资讯集以及资讯集中每篇资讯的实体信息,确定全局统计关系信息,然后根据全局统计关系信息,确定资讯集中每篇资讯对应的关联个股,关联个股表示与对应的资讯相关的个股,可以提升资讯与个股的关联准确度,提高资讯分发效率。相比于个股名称完全匹配的个股关联方式,本申请实施例优化了个股名称完全匹配的个股关联方式所带来的误关联、漏关联等问题,可以更准确地确定个股和资讯的关联程度,以提高资讯与个股关联的准确率。
为便于更好的实施本申请实施例的信息关联方法,本申请实施例还提供一种客户端。请参阅图3,图3为本申请实施例提供的信息关联装置的结构示意图。其中,该信息关联装置200可以包括:
提取单元210,用于提取资讯集中每篇资讯的实体信息,所述实体信息包括至少一个实体;
第一确定单元220,用于根据个股集、资讯集以及所述资讯集中每篇资讯的实体信息,确定全局统计关系信息;
第二确单元230,用于根据所述全局统计关系信息,确定所述资讯集中每篇资讯对应的关联个股,所述关联个股表示与对应的资讯相关的个股。
在一些实施例中,所述第一确定单元220,用于:
根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体与个股集中每只个股的第一共现关系;
根据所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体间的第二共现关系;
根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定所述个股集中每只个股与每篇资讯中各个实体的第一关联度。
在一些实施例中,所述提取单元210,还用于:
获取个股集中每只个股对应的个股资讯列表,每只个股对应的个股资讯列表中存储有至少一篇具有初始关联关系的资讯;
根据所述个股资讯列表,获取资讯集,所述资讯集包含所有个股资讯列表中的所有资讯。
在一些实施例中,所述第一确定单元220在根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体与个股集中每只个股的第一共现关系时,用于:
根据所述个股集中每只个股对应的个股资讯列表和所述资讯集,确定所述资讯集中每篇资讯对应的具有初始关联关系的个股;
根据所述资讯集中每篇资讯对应的具有初始关联关系的个股,以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体与个股集中每只个股的第一共现关系。
在一些实施例中,所述第一确定单元220在根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定所述个股集中每只个股与每篇资讯中各个实体与的第一关联度时,用于:
根据所述个股集中每只个股对应的个股资讯列表、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中第i个实体与所述个股集中第j只个股的共现资讯篇数,确定所述第j只个股对应的资讯总篇数,确定所述资讯集的资讯总篇数,以及确定所述资讯集中出现过所述第i个实体的资讯总篇数;
根据每篇资讯中第i个实体与所述个股集中第j只个股的共现资讯篇数,以及所述第j只个股对应的资讯总篇数,确定所述第j只个股相对于所述第i个实体的实体频率;
根据所述资讯集的资讯总篇数,以及所述资讯集中出现过所述第i个实体的资讯总篇数,确定所述第i个实体的逆文档频率;
根据所述实体频率与所述逆文档频率的积,确定所述第j只个股与所述第i个实体的第一关联度;
遍历所述资讯集中每篇资讯的各个实体,确定所述个股集中每只个股与每篇资讯中各个实体与的第一关联度。
在一些实施例中,所述第二确单元230,用于:
根据所述第一共现关系与所述第二共现关系,确定所述个股集中每只个股对应的共现实体列表,所述共现实体列表中的实体为与对应的个股共现过的实体;
根据所述第一关联度对所述共现实体列表中的实体进行排列,将排列后的共现实体列表位于前N位实体,确定为所述个股集中每只个股对应的候选实体;
获取每只个股与对应的各个候选实体之间的关联链路标识;
当目标个股与对应的各个候选实体之间的关联链路标识满足预设条件,且所述目标个股对应的各个候选实体均属于目标资讯时,将所述目标个股确定为所述目标资讯的关联个股;
其中,所述目标个股为所述个股集中的任一个股,所述目标资讯为所述资讯集中的任一资讯。
在一些实施例中,所述提取单元210,用于:
获取所述资讯集中每篇资讯的资讯文本数据;
基于实体抽取模型对每篇资讯的资讯文本数据进行处理,得到每篇资讯的实体信息,其中,所述实体抽取模型用于抽取所述资讯文本数据中的预设实体。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
应理解的是,信息关联装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图中所示的信息关联装置可以执行上述信息关联方法实施例,并且信息关联装置中的各个单元的前述和其它操作和/或功能分别实现上述方法实施例的相应流程,为了简洁,在此不再赘述。
可选的,本申请还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
图4为本申请实施例提供的计算机设备的结构示意图,该计算机设备可以是终端或服务器。如图4所示,该计算机设备300可以包括:通信接口301,存储器302,处理器303和通信总线304。通信接口301,存储器302,处理器303通过通信总线304实现相互间的通信。通信接口301用于计算机设备300与外部设备进行数据通信。存储器302可用于存储软件程序以及模块,处理器303通过运行存储在存储器302的软件程序以及模块,例如前述方法实施例中的相应操作的软件程序。
可选的,该处理器303可以调用存储在存储器302的软件程序以及模块执行如下操作:
提取资讯集中每篇资讯的实体信息,所述实体信息包括至少一个实体;根据个股集、资讯集以及所述资讯集中每篇资讯的实体信息,确定全局统计关系信息;根据所述全局统计关系信息,确定所述资讯集中每篇资讯对应的关联个股,所述关联个股表示与对应的资讯相关的个股。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种信息关联方法中的步骤。以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种信息关联方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息关联方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得计算机设备执行本申请实施例中的任一种信息关联方法中的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种计算机程序,该计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得计算机设备执行本申请实施例中的任一种信息关联方法中的相应流程,为了简洁,在此不再赘述。
以上对本申请实施例所提供的一种信息关联方法、客户端、服务器、股权激励系统及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种信息关联方法,其特征在于,所述方法包括:
提取资讯集中每篇资讯的实体信息,所述实体信息包括至少一个实体;
根据个股集、资讯集以及所述资讯集中每篇资讯的实体信息,确定全局统计关系信息;
根据所述全局统计关系信息,确定所述资讯集中每篇资讯对应的关联个股,所述关联个股表示与对应的资讯相关的个股。
2.如权利要求1所述的信息关联方法,其特征在于,所述根据个股集、资讯集以及所述资讯集中每篇资讯的实体信息,确定全局统计关系信息,包括:
根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体与个股集中每只个股的第一共现关系;
根据所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体间的第二共现关系;
根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定所述个股集中每只个股与每篇资讯中各个实体的第一关联度。
3.如权利要求2所述的信息关联方法,其特征在于,在所述提取资讯集中每篇资讯的实体信息之前,还包括:
获取个股集中每只个股对应的个股资讯列表,每只个股对应的个股资讯列表中存储有至少一篇具有初始关联关系的资讯;
根据所述个股资讯列表,获取资讯集,所述资讯集包含所有个股资讯列表中的所有资讯。
4.如权利要求3所述的信息关联方法,其特征在于,所述根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体与个股集中每只个股的第一共现关系,包括:
根据所述个股集中每只个股对应的个股资讯列表和所述资讯集,确定所述资讯集中每篇资讯对应的具有初始关联关系的个股;
根据所述资讯集中每篇资讯对应的具有初始关联关系的个股,以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中各个实体与个股集中每只个股的第一共现关系。
5.如权利要求3所述的信息关联方法,其特征在于,所述根据所述个股集、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定所述个股集中每只个股与每篇资讯中各个实体与的第一关联度,包括:
根据所述个股集中每只个股对应的个股资讯列表、所述资讯集以及所述资讯集中每篇资讯的实体信息,确定每篇资讯中第i个实体与所述个股集中第j只个股的共现资讯篇数,确定所述第j只个股对应的资讯总篇数,确定所述资讯集的资讯总篇数,以及确定所述资讯集中出现过所述第i个实体的资讯总篇数;
根据每篇资讯中第i个实体与所述个股集中第j只个股的共现资讯篇数,以及所述第j只个股对应的资讯总篇数,确定所述第j只个股相对于所述第i个实体的实体频率;
根据所述资讯集的资讯总篇数,以及所述资讯集中出现过所述第i个实体的资讯总篇数,确定所述第i个实体的逆文档频率;
根据所述实体频率与所述逆文档频率的积,确定所述第j只个股与所述第i个实体的第一关联度;
遍历所述资讯集中每篇资讯的各个实体,确定所述个股集中每只个股与每篇资讯中各个实体与的第一关联度。
6.如权利要求2-5任一项所述的信息关联方法,其特征在于,所述根据所述全局统计关系信息,确定所述资讯集中每篇资讯对应的关联个股,包括:
根据所述第一共现关系与所述第二共现关系,确定所述个股集中每只个股对应的共现实体列表,所述共现实体列表中的实体为与对应的个股共现过的实体;
根据所述第一关联度对所述共现实体列表中的实体进行排列,将排列后的共现实体列表位于前N位实体,确定为所述个股集中每只个股对应的候选实体;
获取每只个股与对应的各个候选实体之间的关联链路标识;
当目标个股与对应的各个候选实体之间的关联链路标识满足预设条件,且所述目标个股对应的各个候选实体均属于目标资讯时,将所述目标个股确定为所述目标资讯的关联个股;
其中,所述目标个股为所述个股集中的任一个股,所述目标资讯为所述资讯集中的任一资讯。
7.如权利要求1所述的信息关联方法,其特征在于,所述提取资讯集中每篇资讯的实体信息,包括:
获取所述资讯集中每篇资讯的资讯文本数据;
基于实体抽取模型对每篇资讯的资讯文本数据进行处理,得到每篇资讯的实体信息,其中,所述实体抽取模型用于抽取所述资讯文本数据中的预设实体。
8.一种信息关联装置,其特征在于,所述装置包括:
提取单元,用于提取资讯集中每篇资讯的实体信息,所述实体信息包括至少一个实体;
第一确定单元,用于根据个股集、资讯集以及所述资讯集中每篇资讯的实体信息,确定全局统计关系信息;
第二确单元,用于根据所述全局统计关系信息,确定所述资讯集中每篇资讯对应的关联个股,所述关联个股表示与对应的资讯相关的个股。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行权利要求1-7任一项所述的信息关联方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如权利要求1-7任一项所述的信息关联方法。
CN202211660198.7A 2022-12-21 2022-12-21 信息关联方法、装置、设备及存储介质 Pending CN115984004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211660198.7A CN115984004A (zh) 2022-12-21 2022-12-21 信息关联方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211660198.7A CN115984004A (zh) 2022-12-21 2022-12-21 信息关联方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115984004A true CN115984004A (zh) 2023-04-18

Family

ID=85959170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211660198.7A Pending CN115984004A (zh) 2022-12-21 2022-12-21 信息关联方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115984004A (zh)

Similar Documents

Publication Publication Date Title
US20230136368A1 (en) Text keyword extraction method, electronic device, and computer readable storage medium
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US20240152558A1 (en) Search activity prediction
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN111666490A (zh) 基于kafka的信息推送方法、装置、设备及存储介质
JP2013054755A (ja) 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム
CN112131295A (zh) 基于Elasticsearch的数据处理方法及设备
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN111552788B (zh) 基于实体属性关系的数据库检索方法、系统与设备
WO2015023304A1 (en) Refining search query results
Das et al. A CV parser model using entity extraction process and big data tools
Vysotska et al. Methods and tools for web resources processing in e-commercial content systems
Nadee et al. Towards data extraction of dynamic content from JavaScript Web applications
CN106777048A (zh) 企业质量信用数据获取方法和系统
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN109726292A (zh) 面向大规模多语种数据的文本分析方法和装置
Fauzan et al. A systematic literature review on progressive web application practice and challenges
Beniwal et al. Data mining with linked data: past, present, and future
US20200110769A1 (en) Machine learning (ml) based expansion of a data set
CN113254623B (zh) 数据处理方法、装置、服务器、介质及产品
US20080162165A1 (en) Method and system for analyzing non-patent references in a set of patents
CN115984004A (zh) 信息关联方法、装置、设备及存储介质
Zhou et al. A distributed text mining system for online web textual data analysis
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
CN109923538A (zh) 文本检索装置、文本检索方法以及计算机程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination