CN110134842B - 基于信息图谱的信息匹配方法、装置、存储介质和服务器 - Google Patents
基于信息图谱的信息匹配方法、装置、存储介质和服务器 Download PDFInfo
- Publication number
- CN110134842B CN110134842B CN201910264904.8A CN201910264904A CN110134842B CN 110134842 B CN110134842 B CN 110134842B CN 201910264904 A CN201910264904 A CN 201910264904A CN 110134842 B CN110134842 B CN 110134842B
- Authority
- CN
- China
- Prior art keywords
- information
- user
- text information
- named entity
- named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于信息图谱的信息匹配方法、装置、存储介质和服务器,包括:监控并抓取用户指定的信息平台上发布的文本信息;将抓取的文本信息进行预处理,获取有效文本信息;对所述有效文本信息进行命名体识别,获取识别的命名实体;根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息。本发明可大大降低了用户获取需求信息的难度,有效节省用户的时间,增强用户体验。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于信息图谱的信息匹配方法、装置、存储介质和服务器。
背景技术
金融是现代经济的核心,金融的健康平稳发展是保证国民经济持续稳定发展的重要前提条件。随着互联网的迅猛发展,金融市场上每天都会产生大量的信息资讯,包括公告、问答、新闻、研究等内容,人们面临着信息爆炸,海量的金融信息分散在互联网上,信息具有碎片化,多语言和国际化的性质。大量非结构化的文本信息充斥着互联网,企业用户如何从海量信息源中挖掘出有价值的信息是一个巨大的挑战。
现有技术中,用户需要从各大网站一一搜寻需求信息,搜寻难度大,耗费时间较长,且用户获取的信息不全面。
发明内容
本发明实施例提供了一种基于信息图谱的信息匹配方法、装置、存储介质和服务器,以解决现有技术中,用户需要从各大网站一一搜寻需求信息,搜寻难度大,耗费时间较长,且用户获取的信息不全面的问题。
本发明实施例的第一方面提供了一种基于信息图谱的信息匹配方法,包括:
监控并抓取用户指定的信息平台上发布的文本信息;
将抓取的文本信息进行预处理,获取有效文本信息;
对所述有效文本信息进行命名体识别,获取识别的命名实体;
根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息。
本发明实施例的第二方面提供了一种基于信息图谱的信息匹配装置,包括:
文本信息获取单元,用于监控并抓取用户指定的信息平台上发布的文本信息;
文本信息处理单元,用于将抓取的文本信息进行预处理,获取有效文本信息;
命名实体获取单元,用于对所述有效文本信息进行命名体识别,获取识别的命名实体;
信息匹配单元,用于根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息。
本发明实施例的第三方面提供了一种服务器,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
监控并抓取用户指定的信息平台上发布的文本信息;
将抓取的文本信息进行预处理,获取有效文本信息;
对所述有效文本信息进行命名体识别,获取识别的命名实体;
根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
监控并抓取用户指定的信息平台上发布的文本信息;
将抓取的文本信息进行预处理,获取有效文本信息;
对所述有效文本信息进行命名体识别,获取识别的命名实体;
根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息。
本发明实施例中,通过监控并抓取用户指定的信息平台上发布的文本信息,将抓取的文本信息进行预处理,获取有效文本信息,然后对所述有效文本信息进行命名体识别,获取识别的命名实体,再根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息,用户无需从各大网站一一搜寻即可获取全面有效的信息,大大降低了用户获取需求信息的难度,有效节省用户的时间,增强用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于信息图谱的信息匹配方法的实现流程图;
图2是本发明实施例提供的基于信息图谱的信息匹配方法S102的具体实现流程图;
图3是本发明实施例提供的基于信息图谱的信息匹配方法S104的具体实现流程图;
图4是本发明实施例提供的基于信息图谱的信息匹配装置的结构框图;
图5是本发明实施例提供的服务器的示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了本发明实施例提供的基于信息图谱的信息匹配方法的实现流程,该方法流程包括步骤S101至S104。各步骤的具体实现原理如下:
S101:监控并抓取用户指定的信息平台上发布的文本信息。
在本发明实施例中,用户指定的信息平台可以是市场上的媒体信息平台,用户可以指定监控并抓取市场上所有或者部分媒体信息平台发布的文本信息。可选地,获取用户对应的行业,将所述用户对应的行业关联的信息平台作为所述用户指定的信息平台,监控并抓取用户指定的信息平台上发布的文本信息。所述用户包括企业用户。所述指定的信息平台包括但不限于网络平台(如公开的媒体信息网站、财经网站、金融信息论坛、财经微信公众号、股吧、个人网站、微博),具体地,对所述用户指定的信息平台进行监控,根据爬虫策略设置网络爬虫抓取监控的所述指定的信息平台的文本信息。例如,对于微博、指定的网站、论坛等网络平台,通过设置网络爬虫,自动抓取网络平台上的海量数据。
可选地,获取所述指定的信息平台的地址(URL)、平台编号,根据所述平台编号与爬行策略对照表,确定所述指定的信息平台对应的爬行策略。本发明实施例中,预先建立平台爬行策略对照表,所述平台爬行策略对照表中包括指定的信息平台的平台编号与爬行策略的对应关系。需说明的是,当指定的信息平台对应的爬行策略有多个时,多个爬行策略彼此不能冲突,以免网络爬虫无法有效抓取文本信息。其中,爬行策略是指网络爬虫抓取信息时采用的策略,常用的爬行策略包括深度优先策略、广度优先策略、反向链接数策略以及大站优先策略。深度优先策略是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。网络爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后,爬行任务结束。广度优先策略是按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后,网络爬虫再深入下一层继续爬行。反向链接数策略中的反向链接数是指一个网页被其他网页链接指向的数量,反向链接数表示的是一个网页的内容受到其他人的推荐的程度,通过这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。大站优先策略是对于待抓取URL队列中的所有网页根据所属的网站进行分类,对于待下载页面数多的网站,优先下载。获取所述待抓取的信息平台的抓取规则,并根据所述待抓取的信息平台的抓取规则,对所述信息平台上的网页数据进行解析,获取文本信息。
在本发明实施例中,可以通过设定不同的爬行策略满足用户不同的抓取需求,可针对不同类型的信息平台进行信息抓取,可提高文本信息的抓取效率。
S102:将抓取的文本信息进行预处理,获取有效文本信息。
在本发明实施例中,将抓取的文本信息进行预处理,获取有效文本信息,从而使得命名实体识别的效率更高。所述有效文本信息是指经过预处理得到的可用于进行命名实体识别的文本信息。
作为本发明的一个实施例,如图2所示,上述S102具体包括:
A1:对抓取的文本信息进行数据清洗。具体地,数据清洗的目的是将抓取的海量信息中的无用信息清除,例如清除无效信息、广告信息。具体地,将抓取的海量信息中不包含实体和预定义词库中词的信息清除。
A2:根据预定义的抽取类别名,从经过所述数据清洗的文本信息中抽取与所述预定义的实体类别名对应的文本信息。所述预定义的实体类别名用于标识待识别的命名实体对应的类别,例如,抽取标题、正文、作者、来源、评论量、阅读量、转载量、来源渠道等抽取类别名对应的文本信息。
A3:根据预设分类模型,将抽取的文本信息进行分类。具体地,所述预设分类模型是经过训练后的用于对文本信息进行分类的网络模型结合预定义分类规则生成的模型,预定义分类规则为指定人员如行业专家根据行业分析设立的规则,根据所述预设分类模型,将抽取的文本信息进行分类,例如,将抽取的文本信息分为政策信息、公告信息、研究信息、资讯信息、观点信息、行情信息、互动信息。
A4:根据分类后的文本信息生成有效文本信息。所述有效文本信息用于命名实体识别。
在本发明实施例中,通过抓取的文本信息进行数据清洗、抽取以及分类,得到有效文本信息,避免对无效文本信息进行命名实体识别,浪费时间,从而使得命名实体识别的效率更高。
S103:对所述有效文本信息进行命名体识别,获取识别的命名实体。
具体地,所述命名实体识别(Named Entity Recognition,NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在本实施例中,对所述有效文本信息进行命名体识别,利用数据分类器去提取机构、人物、主营产品、金融产品、业务、地区等NER实体。
S104:根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息。
在本发明实施例中,所述预定义信息图谱是根据所述用户的信息构建的信息图谱。具体地,获取所述用户的行业信息,根据所述用户的行业信息确定信息图谱的应用领域,获取与所述应用领域关联的关系信息,根据所述应用领域关联的关系信息确定所述信息图谱的图谱类型,所述图谱类型包括主营产品图谱、族谱、金融产品图谱、事件图谱。选定实体构建节点,包含机构、主营产品、人物、行业、事件、金融产品、地域可以作为节点。节点和边可以构建一些扩展属性,包括别名、正负面、生产方式、政策用词、同业公司等。确定构建节点的实体后找边的关系,形成大的关系网。边的关系就是每个实体与实体之间的关系,例如深圳市万科房地产有限公司是万科企业股份有限公司的控股子公司,那么这两个机构之间边的关系就是控股子公司。
可选地,通过搜集定期报告、企业官网、研究报告整理出各上市公司的主营产品以及主营产品上下游、上下位关系。对企业的主营产品设立产品标识,所述产品标识具有唯一性,用于标识产品。通过提取上市公司公告披露的股东、实际控制人、法人、任职、客户、供应商、法务机构、审计机构、所属城市,归属行业等关系,构建族谱关系。通过连接第三方服务器,采集整理市场上金融机构发行的相关股票、债券、基金等金融产品,构建金融产品关系。通过连接第三方服务,获取证券市场上所有公司发生的担保、债权债务重组、董监高人员变动、股权转让、要约收购、股权质押、股权激励、重大资产重组等信息,根据这些信息构建事件关系。
作为本发明的一个实施例,图3示出了本发明实施例提供的基于信息图谱的信息匹配方法S104的具体实现流程,详述如下:
B1:从所述用户对应的预定义信息图谱中,获取所述用户对应的用户命名实体的关键字与所述用户命名实体的属性。所述用户命名实体的属性包括实体关系、人物、事件等。
B2:根据所述用户命名实体的关键字,从所述有效文本信息中抽取与所述用户命名实体的关键字关联的命名实体。
B3:根据所述用户命名实体的属性,对所述命名实体进行关联性处理,得到各个命名实体之间的实体关系。
本发明实施例中,通过所述预定义信息图谱可推理和消歧,从而实现信息关联匹配推荐及更精准的信息推送。示例性地,利用NLP技术提取NER实体,NER实体包括机构、行业人物。
(1)机构:首先根据机构全称、机构简称、机构别名提取满足机构的条件的实体。
①对于存在信息图谱中同一类节点名称(包括别名)存在歧义(重名)的情况,寻找存在一条边的情况,如果能找到一条边则保留。比如万科A的别名叫万科,沈阳万科技术有限公司的别名也叫万科,当在文本信息中出现了万科这个词时,就没法判定到底讲的是万科A还是沈阳万科技术有限公司,而在所述预定义信息图谱中有万科A的法定代表人叫郁亮,正好文本信息中也出现了郁亮这个人,那么可以判定该文本信息中的是万科A。
②对于有歧义的实体名例如蒙娜丽莎、农产品、向日葵等,则需要采用特定的黑名单与召回规则进行消岐。黑名单就是将所有有歧义的词都加到一个名单中,当文本信息中出现这些词时,不会当做主体被提取出来,所述召回规则用于从所述黑名单中召回词,有些文本信息出现了黑名单这些词,也确实是公司实体,那么就需要特定的召回规则把文本信息找回来。例如将蒙娜丽莎加入到黑名单中,那么文本信息中出现任何关于蒙娜丽莎的词,都不会被当做实体提取出来,若预先写的召回规则中写了文本信息中出现蒙娜丽莎股份有限公司,就把其当做实体提取出来,那么当遇到这种情况的文本信息时,蒙娜丽莎这个实体就会被提取出来了。
(2)行业:
①把所有行业名称、行业(特征词的)别名,先提前出来(行业集合),然后消歧。根据提出的机构、主营产品找关系(关联)做消歧,有关系(关联)的保留。
②消歧之后,再根据机构和主营产品推理行业:若3个机构或者2个主营产品,同属于一个行业,提出行业;(如有超过多个机构,按1/3比例数量的机构提取行业;多主营也按1/3比例提取,即主营产品阈值:主营产品总数/3取整小于2取2;机构阈值:机构总数/3取整小于3取3)。如13个机构,则必须4个机构同行业,才会将这个行业提取出来。若上市公司与行业词在文本信息中同时出现,且这个行业词和上市公司有关系,就会提出该行业(该上市公司为非强相关主体)。标题里有出现行业(这个行业是经过前面系列消歧,保留之后的行业),属于行业强相关,就不会去提取强相关公司。
(3)人物:先提取人物库中的名称,姓名、英文姓名、主要姓名、别名/曾用名,然后再去信息图谱上去寻找关系,在同一文本信息中能存在相关关系的人物则提取出来。
可选地,作为本发明的一个实施例,上述步骤S104还包括:
C1:根据所述命名实体与自定义机器学习模型,获取所述命名实体对应的文本信息的关注值。所述自定义机器学习模型是经过训练的机器学习模型。文本信息的关注值包括信息热度值和信息影响力值,还包括文本信息的正负面情感值。
C2:根据所述命名实体与所述关注值,获取与所述用户匹配的文本信息。具体地,获取与所述用户匹配,并且关注值达到预设关注阈值的文本信息。
在本发明实施例中,通过获取与所述用户匹配,并且关注值达到预设关注阈值的文本信息,使得信息定位更为精准,进而提高信息匹配的准确性与有效性,增强用户体验。
可选地,作为本发明的一个实施例,所述关注值为正负面情感值,所述根据所述命名实体与自定义机器学习模型,获取所述命名实体对应的文本信息的关注值的步骤包括:将所述命名实体输入至已经过样本训练得到的情感判定学习模型中,获取所述命名实体对应的文本信息的正负面情感值。所述正负面情感值包括正面、负面以及中性。所述情感判定学习模型为经过训练后的自定义机器学习模型。通过选取了大量的正面、负面、中性样本,对自定义机器学习模型进行训练,然后通过训练好的自定义机器学习模型进行正负面情感判定。
可选地,作为本发明的一个实施例,所述关注值为信息热度值,所述根据所述命名实体与自定义机器学习模型,获取所述命名实体对应的文本信息的关注值的步骤,包括:
C11:从所述命名实体中获取与所述信息热度值关联的命名实体。例如新闻渠道。
C12:根据所述与所述信息热度值关联的命名实体和预设热度模型,获取所述命名实体对应的文本信息的信息热度值。所述信息热度值用于标识所述命名实体对应的文本信息在舆情下的热度。所述预设热度模型中包括所述信息热度值关联的命名实体及其对应的预设热度数值,还包括预设热度算法,将命名实体与所述命名实体对应的预设热度数值按所述预设热度算法计算,得到所述命名实体对应的文本信息的信息热度值。
示例性地,按舆情下所有文本信息的新闻渠道分数之和计算,根据新闻渠道分数对照表确定各个新闻渠道的初始分数,新闻(财经媒体):7;股吧:3;微信:5;论坛:3;博客:2;互动易:2。如舆情A有3篇相似文本信息,分别来自新闻,股吧,微信,则其分数为A=7+3+5=15。信息热度值s=math.log(A)*2,即对分数取自然数的对数(去幂)为信息热度值,信息热度值的取值范围为【0-10】,若s>10,则设定s=10,若s<0,则设定s=0。
可选地,在本发明实施例中,所述关注值为信息影响力值,所述根据所述命名实体与自定义机器学习模型,获取所述命名实体对应的文本信息的关注值的步骤,包括:
C11’:从所述命名实体中获取与所述信息影响力值关联的命名实体。例如媒体类型。
C12’:根据所述与所述信息影响力值关联的命名实体和预设影响力模型,获取所述命名实体对应的文本信息的信息影响力值。所述信息热度值用于标识所述命名实体对应的文本信息在舆情下的热度。所述预设影响力模型中包括所述信息影响力值关联的命名实体及其对应的预设影响力数值,还包括预设影响力算法,将命名实体与所述命名实体对应的预设影响力数值按所述预设影响力算法计算,得到所述命名实体对应的文本信息的信息影响力值。
示例性地,根据预设媒体类型权重对照表,获取各个媒体类型对应的权重,设官办媒体权重为a,民办媒体权重为b,自媒体权重为c,获取各个媒体类型的访问量y,则官办媒体的影响力为ay,民办媒体的影响力为by,自媒体的影响力为cy,影响力采用百分制,因此设一指定数值为z(暂定100000),0<ay/z<100,0<by/z<100,0<cy/z<100。a,b,c的值通过不断修正确定,暂定a=0.8,b=0.5,b=0.7。
可选地,若与所述用户匹配的文本信息存在重复,则根据规则模型进行排重合并,确定优先匹配的文章,所述规则模型为自定义的规则引擎。
可选地,在所述根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息的步骤之后,还包括将与所述用户匹配的信息推送至所述用户。
本发明实施例中,通过监控并抓取用户指定的信息平台上发布的文本信息,将抓取的文本信息进行预处理,获取有效文本信息,然后对所述有效文本信息进行命名体识别,获取识别的命名实体,再根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息,用户无需从各大网站一一搜寻即可获取全面有效的信息,大大降低了用户获取需求信息的难度,有效节省用户的时间,增强用户体验。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的信息匹配方法,图4示出了本申请实施例提供的基于信息图谱的信息匹配装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图4,该基于信息图谱的信息匹配装置包括:文本信息获取单元41,文本信息处理单元42,命名实体获取单元43,信息匹配单元44,其中:
文本信息获取单元41,用于监控并抓取用户指定的信息平台上发布的文本信息;
文本信息处理单元42,用于将抓取的文本信息进行预处理,获取有效文本信息;
命名实体获取单元43,用于对所述有效文本信息进行命名体识别,获取识别的命名实体;
信息匹配单元44,用于根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息。
可选地,所述文本信息处理单元42包括:
清洗模块,用于对抓取的文本信息进行数据清洗;
抽取模块,用于根据预定义的抽取类别名,从经过所述数据清洗的文本信息中抽取与所述预定义的实体类别名对应的文本信息;
分类模块,用于根据预设分类模型,将抽取的文本信息进行分类;
信息确定模块,用于根据分类后的文本信息生成有效文本信息。
可选地,所述信息匹配单元44包括:
实体信息获取模块,用于从所述用户对应的预定义信息图谱中,获取所述用户对应的用户命名实体的关键字与所述用户命名实体的属性;
命名实体抽取模块,用于根据所述用户命名实体的关键字,从所述有效文本信息中抽取与所述用户命名实体的关键字关联的命名实体;
实体关系确定模块,用于根据所述用户命名实体的属性,对所述命名实体进行关联性处理,得到各个命名实体之间的实体关系。
可选地,所述信息匹配单元44还包括:
关注值确定模块,用于根据所述命名实体与自定义机器学习模型,获取所述命名实体对应的文本信息的关注值;
信息匹配模块,用于根据所述命名实体与所述关注值,获取与所述用户匹配的文本信息。
可选地,所述关注值为正负面情感值,所述关注值确定模块包括:
情感值确定子模块,用于将所述命名实体输入至已经过样本训练得到的情感判定学习模型中,获取所述命名实体对应的文本信息的正负面情感值。
可选地,所述关注值为信息热度值,所述关注值确定模块包括:
第一关联实体确定子模块,用于从所述命名实体中获取与所述信息热度值关联的命名实体;
热度值确定子模块,用于根据所述与所述信息热度值关联的命名实体和预设热度模型,获取所述命名实体对应的文本信息的信息热度值。
可选地,所述关注值为信息影响力值,所述关注值确定模块包括:
第二关联实体确定子模块,用于从所述命名实体中获取与所述信息影响力值关联的命名实体;
影响力值确定子模块,用于根据所述与所述信息影响力值关联的命名实体和预设影响力模型,获取所述命名实体对应的文本信息的信息影响力值。
本发明实施例中,通过监控并抓取用户指定的信息平台上发布的文本信息,将抓取的文本信息进行预处理,获取有效文本信息,然后对所述有效文本信息进行命名体识别,获取识别的命名实体,再根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息,用户无需从各大网站一一搜寻即可获取全面有效的信息,大大降低了用户获取需求信息的难度,有效节省用户的时间,增强用户体验。
图5是本发明一实施例提供的智能设备的示意图。如图5所示,该实施例的智能设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如信息图谱的信息匹配程序。所述处理器50执行所述计算机程序52时实现上述各个投资者的认证方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示单元41至44的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述智能设备5中的执行过程。例如,所述计算机程序52可以被分割成文本信息获取单元、文本信息处理单元、命名实体获取单元以及信息匹配单元,各单元具体功能如下:
文本信息获取单元,用于监控并抓取用户指定的信息平台上发布的文本信息;
文本信息处理单元,用于将抓取的文本信息进行预处理,获取有效文本信息;
命名实体获取单元,用于对所述有效文本信息进行命名体识别,获取识别的命名实体;
信息匹配单元,用于根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息。
所述服务器5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是服务器5的示例,并不构成对服务器5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述服务器5的内部存储单元,例如服务器5的硬盘或内存。所述存储器51也可以是所述服务器5的外部存储设备,例如所述服务器5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述服务器5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于信息图谱的信息匹配方法,其特征在于,包括:
监控并抓取用户指定的信息平台上发布的文本信息;
将抓取的文本信息进行预处理,获取有效文本信息;
对所述有效文本信息进行命名体识别,获取识别的命名实体;
根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息,所述预定义信息图谱是根据所述用户的信息构建的信息图谱,图谱中包含机构、主营产品、人物、行业、事件、金融产品、地域作为实体节点;
所述根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息的步骤,包括:
从所述用户对应的预定义信息图谱中,获取所述用户对应的用户命名实体的关键字与所述用户命名实体的属性;
根据所述用户命名实体的关键字,从所述有效文本信息中抽取与所述用户命名实体的关键字关联的命名实体;
根据所述用户命名实体的属性,对所述命名实体进行关联性处理,得到各个命名实体之间的实体关系,
其中,对于存在信息图谱中同一类节点名称存在歧义的情况,寻找存在一条边的情况,如果能找到一条边则保留;
对于有歧义的实体名,则需要采用黑名单与召回规则进行消岐,所述黑名单是将所有有歧义的词都加到一个名单中,当文本信息中出现这些词时,不会当做主体被提取出来,所述召回规则用于从所述黑名单中召回词。
2.根据权利要求1所述的信息匹配方法,其特征在于,所述将抓取的文本信息进行预处理,获取有效文本信息的步骤,包括:
对抓取的文本信息进行数据清洗;
根据预定义的抽取类别名,从经过所述数据清洗的文本信息中抽取与所述预定义的实体类别名对应的文本信息;
根据预设分类模型,将抽取的文本信息进行分类;
根据分类后的文本信息生成有效文本信息。
3.根据权利要求1至2任一项所述的信息匹配方法,其特征在于,所述根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息的步骤,还包括:
根据所述命名实体与自定义机器学习模型,获取所述命名实体对应的文本信息的关注值;
根据所述命名实体与所述关注值,获取与所述用户匹配的文本信息。
4.根据权利要求3所述的信息匹配方法,其特征在于,所述关注值为正负面情感值,所述将所述命名实体输入至自定义机器学习模型中,得到所述命名实体对应的文本信息的关注值的步骤,包括:
将所述命名实体输入至已经过样本训练得到的情感判定学习模型中,获取所述命名实体对应的文本信息的正负面情感值。
5.根据权利要求3所述的信息匹配方法,其特征在于,所述关注值为信息热度值,所述根据所述命名实体与自定义机器学习模型,获取所述命名实体对应的文本信息的关注值的步骤,包括:
从所述命名实体中获取与所述信息热度值关联的命名实体;
根据所述与所述信息热度值关联的命名实体和预设热度模型,获取所述命名实体对应的文本信息的信息热度值。
6.根据权利要求3所述的信息匹配方法,其特征在于,所述关注值为信息所述信息影响力值,所述根据所述命名实体与自定义机器学习模型,获取所述命名实体对应的文本信息的关注值的步骤,包括:
从所述命名实体中获取与所述信息影响力值关联的命名实体;
根据所述与所述信息影响力值关联的命名实体和预设影响力模型,获取所述命名实体对应的文本信息的信息影响力值。
7.一种基于信息图谱的信息匹配装置,其特征在于,所述基于信息图谱的信息匹配装置包括:
文本信息获取单元,用于监控并抓取用户指定的信息平台上发布的文本信息;
文本信息处理单元,用于将抓取的文本信息进行预处理,获取有效文本信息;
命名实体获取单元,用于对所述有效文本信息进行命名体识别,获取识别的命名实体;
信息匹配单元,用于根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息,所述预定义信息图谱是根据所述用户的信息构建的信息图谱,图谱中包含机构、主营产品、人物、行业、事件、金融产品、地域作为实体节点;
所述根据所述命名实体与所述用户对应的预定义信息图谱,获取与所述用户匹配的文本信息的步骤,包括:
从所述用户对应的预定义信息图谱中,获取所述用户对应的用户命名实体的关键字与所述用户命名实体的属性;
根据所述用户命名实体的关键字,从所述有效文本信息中抽取与所述用户命名实体的关键字关联的命名实体;
根据所述用户命名实体的属性,对所述命名实体进行关联性处理,得到各个命名实体之间的实体关系;
其中,对于存在信息图谱中同一类节点名称存在歧义的情况,寻找存在一条边的情况,如果能找到一条边则保留;
对于有歧义的实体名,则需要采用黑名单与召回规则进行消岐,所述黑名单是将所有有歧义的词都加到一个名单中,当文本信息中出现这些词时,不会当做主体被提取出来,所述召回规则用于从所述黑名单中召回词。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述基于信息图谱的信息匹配方法的步骤。
9.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述基于信息图谱的信息匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910264904.8A CN110134842B (zh) | 2019-04-03 | 2019-04-03 | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910264904.8A CN110134842B (zh) | 2019-04-03 | 2019-04-03 | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134842A CN110134842A (zh) | 2019-08-16 |
CN110134842B true CN110134842B (zh) | 2021-08-31 |
Family
ID=67568892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910264904.8A Active CN110134842B (zh) | 2019-04-03 | 2019-04-03 | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134842B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125372A (zh) * | 2019-12-12 | 2020-05-08 | 中汇信息技术(上海)有限公司 | 文本信息发布方法、装置、可读存储介质和电子设备 |
CN111159566A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 金融市场产品的资讯推送方法及装置 |
CN111461727B (zh) * | 2020-03-27 | 2023-08-25 | 深圳价值在线信息科技股份有限公司 | 交易行为的监控预警方法、装置、存储介质和智能设备 |
CN112241458B (zh) * | 2020-10-13 | 2022-10-28 | 北京百分点科技集团股份有限公司 | 文本的知识结构化处理方法、装置、设备和可读存储介质 |
CN112784057B (zh) * | 2021-01-11 | 2022-05-13 | 武汉大学 | 一种基于区域产业企业的三网产业图谱构建方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918644A (zh) * | 2017-10-31 | 2018-04-17 | 北京锐思爱特咨询股份有限公司 | 声誉管理框架内的新闻议题分析方法和实施系统 |
CN108595609A (zh) * | 2018-04-20 | 2018-09-28 | 深圳狗尾草智能科技有限公司 | 基于人物ip的机器人回复生成方法、系统、介质及设备 |
CN108959376A (zh) * | 2018-05-25 | 2018-12-07 | 深圳市买买提信息科技有限公司 | 一种数据处理方法及装置 |
CN109002516A (zh) * | 2018-07-06 | 2018-12-14 | 国网电子商务有限公司 | 一种搜索方法及装置 |
CN109241341A (zh) * | 2018-05-09 | 2019-01-18 | 上海大学 | 一种基于知识图谱的影视择优推荐系统和方法 |
CN109522706A (zh) * | 2018-10-24 | 2019-03-26 | 维沃移动通信有限公司 | 一种信息提示方法及终端设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708096B (zh) * | 2012-05-29 | 2014-10-15 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN105468605B (zh) * | 2014-08-25 | 2019-04-12 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN106156365B (zh) * | 2016-08-03 | 2019-06-18 | 北京儒博科技有限公司 | 一种知识图谱的生成方法及装置 |
CN106484767B (zh) * | 2016-09-08 | 2019-06-21 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
US10423614B2 (en) * | 2016-11-08 | 2019-09-24 | International Business Machines Corporation | Determining the significance of an event in the context of a natural language query |
CN107665252B (zh) * | 2017-09-27 | 2020-08-25 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN108763333B (zh) * | 2018-05-11 | 2022-05-17 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108959368A (zh) * | 2018-05-22 | 2018-12-07 | 深圳壹账通智能科技有限公司 | 一种信息监控方法、存储介质和服务器 |
CN109376273B (zh) * | 2018-09-21 | 2024-02-27 | 平安科技(深圳)有限公司 | 企业信息图谱构建方法、装置、计算机设备及存储介质 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
-
2019
- 2019-04-03 CN CN201910264904.8A patent/CN110134842B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918644A (zh) * | 2017-10-31 | 2018-04-17 | 北京锐思爱特咨询股份有限公司 | 声誉管理框架内的新闻议题分析方法和实施系统 |
CN108595609A (zh) * | 2018-04-20 | 2018-09-28 | 深圳狗尾草智能科技有限公司 | 基于人物ip的机器人回复生成方法、系统、介质及设备 |
CN109241341A (zh) * | 2018-05-09 | 2019-01-18 | 上海大学 | 一种基于知识图谱的影视择优推荐系统和方法 |
CN108959376A (zh) * | 2018-05-25 | 2018-12-07 | 深圳市买买提信息科技有限公司 | 一种数据处理方法及装置 |
CN109002516A (zh) * | 2018-07-06 | 2018-12-14 | 国网电子商务有限公司 | 一种搜索方法及装置 |
CN109522706A (zh) * | 2018-10-24 | 2019-03-26 | 维沃移动通信有限公司 | 一种信息提示方法及终端设备 |
Non-Patent Citations (1)
Title |
---|
大数据环境下的智库情报分析研究;杨瑞仙 等;《情报理论与实践》;20170809;第40卷(第8期);30-36 * |
Also Published As
Publication number | Publication date |
---|---|
CN110134842A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134842B (zh) | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 | |
US11494648B2 (en) | Method and system for detecting fake news based on multi-task learning model | |
CA3138730C (en) | Public-opinion analysis method and system for providing early warning of enterprise risks | |
CN108885623B (zh) | 基于知识图谱的语意分析系统及方法 | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
El Alaoui et al. | Big data quality metrics for sentiment analysis approaches | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
CN110569350B (zh) | 法条推荐方法、设备和存储介质 | |
Kewsuwun et al. | A sentiment analysis model of agritech startup on Facebook comments using naive Bayes classifier. | |
CN110263233B (zh) | 企业舆情库构建方法、装置、计算机设备及存储介质 | |
Noll et al. | Authors vs. readers: A comparative study of document metadata and content in the www | |
Nizamani et al. | CEAI: CCM-based email authorship identification model | |
Chatterjee et al. | Classifying facts and opinions in Twitter messages: a deep learning-based approach | |
Ashraf | Scraping EDGAR with python | |
CN111966946A (zh) | 一种页面权威值的识别方法、装置、设备和存储介质 | |
Yang et al. | TAR on social media: A framework for online content moderation | |
Liang et al. | Detecting novel business blogs | |
CN111461727A (zh) | 交易行为的监控预警方法、装置、存储介质和智能设备 | |
CN116049243A (zh) | 企业知识产权大数据情报分析系统、方法及存储介质 | |
CN112434126A (zh) | 一种信息处理方法、装置、设备和存储介质 | |
Turdjai et al. | Simulation of marketplace customer satisfaction analysis based on machine learning algorithms | |
Sandim et al. | Journalistic relevance classification in social network messages: an exploratory approach | |
Uniyal et al. | Citizens' Emotion on GST: A Spatio-Temporal Analysis over Twitter Data | |
ELazab et al. | Fraud news detection for online social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |