CN117667956A - 业务主体关系信息更新方法、装置、设备及存储介质 - Google Patents
业务主体关系信息更新方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117667956A CN117667956A CN202311316672.9A CN202311316672A CN117667956A CN 117667956 A CN117667956 A CN 117667956A CN 202311316672 A CN202311316672 A CN 202311316672A CN 117667956 A CN117667956 A CN 117667956A
- Authority
- CN
- China
- Prior art keywords
- news
- service
- data
- information
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000010586 diagram Methods 0.000 claims abstract description 100
- 230000008094 contradictory effect Effects 0.000 claims description 28
- 230000001502 supplementing effect Effects 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 241000254158 Lampyridae Species 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种业务主体关系信息更新方法、装置、设备及存储介质,用于解决现有技术中无法从海量的新闻数据中查找准确且及时的内容并基于该内容获取最新的业务主体关系信息的技术问题。该方法包括:响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据;对增量新闻数据中包含的信息进行真实性判定,得到真实性指数;基于真实性指数,对判定为真实信息的增量新闻数据进行信息抽取,得到业务主体关系链,其中,业务主体关系链为一条或者多条;根据业务主体关系链对业务主体图数据库进行更新。该方法能够从海量真假混杂的新闻内容中判定准确且及时的数据,并精准地找出企业等业务主体之间的关系信息。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种业务主体关系信息更新方法、装置、设备及存储介质。
背景技术
随着互联网的蓬勃发展和自媒体的崛起,新闻信息不仅在数据规模上呈现几何级数式的爆发增长,其实时性也较以往得到了极大提升。在这个巨大的信息洪流中,借助人工智能技术对海量的实时数据进行深度挖掘,能够探索出企业等业务主体的多元关系等高价值信息,例如,通过运用情感分析等先进技术,能从新闻中发掘出与某个企业有关的从积极到消极的舆情倾向;或者,可以通过数据抓取技术对某个关注的企业进行全网舆情搜索、分析和挖掘。这些方案都可以获得更好地了解一家企业的现状必要的素材。
然而,如今互联网上的新闻虽然“多而新”,却也经常伴随着“乱而假”的问题,甚至充斥着大量无用或错误的信息。现有技术中,处理新闻数据的能力相对简单,所产生的价值也有限。同时,新闻数据的规模庞大且质量参差不齐,真实新闻与假新闻混杂在一起,很难进行准确辨别。因此,我们迫切需要一种智能识别新闻信息真实性并能够对于关系进行深入挖掘的技术方案,以便从海量真假混杂的新闻内容中判定准确且及时的数据,并精准地找出企业等业务主体之间的关系信息。
发明内容
本发明的主要目的在于解决现有技术中无法从海量的新闻数据中查找准确且及时的内容并基于该内容获取最新的业务主体关系信息的技术问题。
本发明第一方面提供了一种业务主体关系信息更新方法,其特征在于,包括:响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据;对增量新闻数据中包含的信息进行真实性判定,得到真实性指数;基于所述真实性指数,对判定为真实信息的所述增量新闻数据进行信息抽取,得到业务主体关系链,其中,所述业务主体关系链为一条或者多条;根据所述业务主体关系链对所述业务主体图数据库进行更新,其中,所述业务主体图数据库是根据历史公开的业务主体之间的关系信息生成的。
可选地,在本发明第一方面的第一种实现方式中,所述在所述响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据之前,还包括:获取初始新闻源站序列,根据所述初始新闻源站序列中包含的新闻源站的类型,分层采集历史新闻数据,根据所述历史新闻数据构建新闻信息图数据库;在所述对增量新闻数据中包含的信息进行真实性判定,得到真实性指数之后,还包括:对所述增量新闻数据进行及时性判定得到及时性指数;调用所述新闻源站图结构模型根据真实性指数和及时性指数计算各所述新闻源站的活跃度指数;根据所述活跃度指数对新闻源站序列进行更新。
可选地,在本发明第一方面的第二种实现方式中,所述对增量新闻数据中包含的信息进行真实性判定,得到真实性指数包括:通过孪生网络算法,对所述增量新闻内容进行两两计算,得到第一相似度值;通过图对象实体匹配算法对判定为相似的增量新闻内容进行实体关系信息抽取,并根据抽取到的实体关系信息与所述业务主体图数据库进行匹配,根据匹配结果得到第二相似度值;根据所述第一相似度值和所述第二相似度值计算所述增量新闻数据的真实性指数。
可选地,在本发明第一方面的第三种实现方式中,所述对所述增量新闻数据进行及时性判定得到及时性指数包括:将判定为真实信息的所述增量新闻数据按照原创内容发布时间进行排序,得到真实增量新闻数据的时间序列;根据所述真实增量新闻数据的时间序列确定所述增量新闻数据的及时性指数。
可选地,在本发明第一方面的第四种实现方式中,所述根据所述业务主体关系链对所述业务主体图数据库进行更新包括:判断所述增量新闻内容中抽取到的所述业务主体关系链中是否有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链;若抽取到的所述业务主体关系链中没有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链,则根据所述业务主体关系链中与所述业务主体图数据库中的确定信息相匹配的业务主体关系链的数量对所述业务主体图数据库中的信息进行更新;若抽取到的所述业务主体关系链中有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链,则将与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链标注为矛盾数据,并将抽取到的所述业务主体关系链中的其余数据标注为新增数据,并补充至所述业务主体图数据库中。
可选地,在本发明第一方面的第五种实现方式中,所述根据所述业务主体关系链中与所述业务主体图数据库中的确定信息相匹配的业务主体关系链的数量对所述业务主体图数据库中的信息进行更新包括:若在所述增量新闻内容中抽取到的所述业务主体关系链中仅有一条与所述业务主体图数据库中的确定信息匹配,则将抽取到的其余所述业务主体关系链标为待定数据,并补充至所述业务主体图数据库中;若在所述增量新闻内容中抽取到的所述业务主体关系链中有多条与所述业务主体图数据库中的确定信息匹配,则将抽取到的其余所述业务主体关系链标注为确定数据,并补充至所述业务主体图数据库中;若在所述增量新闻内容中抽取到的所述业务主体关系链均与所述业务主体图数据库中无匹配,则将抽取到的所述业务主体关系链标为待定数据,并补充至所述业务主体图数据库中。
可选地,在本发明第一方面的第六种实现方式中,还包括:在将抽取到的所述实体和关系链补充至业务主体图数据库中时,同时记录新闻数据的新闻时间;所述在所述将与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链标注为矛盾数据,并将抽取到的所述业务主体关系链中的其余数据标注为新增数据,并补充至所述业务主体图数据库中之后,还包括:若在所述增量新闻内容中抽取到的业务主体关系链与所述业务主体图数据库中的最新被标注为矛盾数据的信息匹配,则将对应的最新被标注为矛盾数据的信息标注为确定数据,将其他矛盾数据标注为历史数据。
本发明第二方面提供了一种业务主体关系信息更新装置,其特征在于,所述业务主体关系信息更新装置包括:获取模块,用于响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据;真实性判定模块,用于对增量新闻数据中包含的信息进行真实性判定,得到真实性指数;信息抽取模块,用于基于所述真实性指数,对判定为真实信息的所述增量新闻数据进行信息抽取,得到业务主体关系链,其中,所述业务主体关系链为一条或者多条;图数据库更新模块,用于根据所述业务主体关系链对所述业务主体图数据库进行更新,其中,所述业务主体图数据库是根据历史公开的业务主体之间的关系信息生成的。
本发明第三方面提供了一种业务主体关系信息更新设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务主体关系信息更新设备执行上述的业务主体关系信息更新方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的业务主体关系信息更新方法的步骤。
本发明提供的技术方案中,响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据;对增量新闻数据中包含的信息进行真实性判定,得到真实性指数;基于真实性指数,对判定为真实信息的增量新闻数据进行信息抽取,得到业务主体关系链,其中,业务主体关系链为一条或者多条;根据业务主体关系链对业务主体图数据库进行更新。该方法能够从海量真假混杂的新闻内容中判定准确且及时的数据,并精准地找出企业等业务主体之间的关系信息。
附图说明
图1为本发明实施例中业务主体关系信息更新方法的一个实施例的步骤示意图;
图2为本发明实施例中业务主体关系信息更新方法的另一个实施例的步骤示意图;
图3为本发明实施例中业务主体关系信息更新方法中新闻源站关系示意图;
图4为本发明实施例中业务主体关系信息更新方法中孪生网络结构示意图;
图5为本发明实施例中业务主体关系信息更新方法的一个流程示意图;
图6为本发明实施例中业务主体关系信息更新装置的一个实施例示意图;
图7为本发明实施例中业务主体关系信息更新设备的一个实施例示意图;
图8为本发明实施例中一种计算机可读介质的原理示意图。
具体实施方式
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。
请参阅图1,本发明实施例中业务主体关系信息更新方法的一个实施例包括:
S101、响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据;
可以理解的是,本发明的执行主体可以为业务主体关系信息更新装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
服务器在接收到针对于业务主体关系的信息更新请求后,首先获取当前最新的新闻源站序列,其中,新闻源站序列是根据新闻源站的类型进行排序的。具体的,新闻源站类型可以分为大媒体、自媒体和新媒体,其中,大媒体指类似新华网、人民网等大型媒体,其具有一定的权威性,发布的新闻真实性较高而及时性较弱;自媒体指各知名网络平台上具有一定规模的个人新闻源,其信息及时性较强但真实性有待考证;新媒体指如百度资源、腾讯新闻等依托于互联网公司的新兴媒体,其发布的新闻兼具大媒体和自媒体的优缺点。根据这些新闻源站的特点对新闻源站进行排序得到新闻源站序列。并且,所述新闻源站序列排序时是根据媒体类型分层进行排序的,后续在获得信息更新请求获取增量新闻数据时,也是根据分层信息,根据排序的新闻源站序列顺序,提取增量新闻数据。
进一步地,本实施例中所述的新闻源站序列还可以实时进行更新,具体地,本实施例中每层筛选多个源站点,每层中分别将源站点分为活跃站排名和候选站排名;这个新闻源站序列是根据计算其发布的增量新闻数据的活跃度指标进行更新的,其中,活跃度指标是根据增量新闻数据的真实真实性和及时性进行计算的,在一种可能的实施例中,可以通过基于GNN(Graph Neural Networks,意为图神经网络)的多层演化图结构模型对新闻源站的活跃度指标进行计算并获取新闻源站序列。
S102、对增量新闻数据中包含的信息进行真实性判定,得到真实性指数;
获得增量新闻数据后,调用二阶段文档相似度计算模型进行增量新闻数据的信息真实性进行判定,由于新闻数据的特殊性,一般情况下,多个新闻数据中报道同一事件的次数越多,可知其的可信度越强,热度越高,故基于文本的相似度,可以一定程度上对增量新闻数据进行真实性判断。
在一种具体的实施方式中,二阶段文档相似度计算模型可以基于由孪生网络结构和图对象匹配算法进行构建,通过孪生网络结构计算文本的相似性程度并结合图对象匹配算法提取文本中包含的实体及关系信息,将实体及关系信息与已有的业务主体图数据库中的信息进行匹配,进一步确定增量新闻数据的可信度,得到真实性指数。
S103、基于真实性指数,对判定为真实信息的增量新闻数据进行信息抽取,得到业务主体关系链;
得到各增量新闻数据的可信度指数之后,获取被判断为真实信息的增量新闻数据,对其进行文本识别,抽取其中包含的三元组信息,得到业务主体关系链,其中,针对于一篇增量新闻数据,业务主体关系链可以为一条或者多条。
S104、根据业务主体关系链对业务主体图数据库进行更新。
本实施例中,预先收集各商业主体的历史公开信息,如地址,公司之间的投资信息、归属信息等生成有向图数据库。在前述步骤中获取到业务主体关系链后,根据业务主体关系链中的信息对业务主体图数据库进行更新,具体的,可以根据抽取到的业务主体关系链对有向图数据库中不包含的数据信息进行补充、对有向图数据库包含的过期数据进行更改等方案。
通过上述方案,本发明实施例能够从海量真假混杂的新闻内容中判定准确且及时的数据,并精准地找出企业等业务主体之间的关系信息。
请参看图2-5,本发明实施例中业务主体关系信息更新方法的另一个实施例包括:
S201、获取初始新闻源站序列,根据初始新闻源站序列中包含的新闻源站的类型,分层采集历史新闻数据,根据历史新闻数据构建新闻信息图数据库;
新闻数据的获取首先要选好源头以保证新闻内容的质量,具体的,本实施例中通过真实性和及时性来评价新闻内容的质量,由于新闻报道产出的离散特性,这就要求这些源头在真实性和及时性两个维度上的排序应该是随着其不断产出的新闻内容而动态变化的。
本实施例中将新闻源站分为大媒体、自媒体和新媒体三层,首先构建初始的新闻源站序列,将各新闻源站序列中各源站的初始的真实性指数均置为0,各活跃度指数按照新闻源站序列的初始排序分为三个区间,从下到上分别置为1~20、31~50、61~90,其中,活跃度指数的数值越小表示其活跃度越高,它们之间的数值不连续,有一段中断的空白数字区段隔离是为了对这三层的活跃度优先级进行离散化以使不同层级之间的活跃度相差更明显,比如:处于最下层的排名末位的大媒体活跃度为20,倒数第二位的大媒体活跃度为19,中间层排名首位的新媒体活跃度为30;则可知最下层的排名末位的大媒体和倒数第二位的大媒体其间的活跃度之差远比中间层排名首位的新媒体小。
首先调用深度学习算法构建初始的新闻源站图结构模型,在一种具体的实施方式中,新闻源站图结构模型可以为GNN图结构模型。具体的,GNN全称为Graph NeuralNetworks,意为图神经网络,其属于一种深度学习方法,旨在对图描述的数据进行推理,是可以直接应用于图的神经网络,并提供一种简单的方法来执行节点级、边级和图级预测任务。
本实施例中,根据三层新闻源站的数量,构建新闻信息图数据库,初始的新闻信息图数据库为简单的三层共计60个节点,属性包含名称、前述的真实性指数及优先级,此外,在后续GNN图结构模型对新闻信息图数据库处理迭代后,新闻信息图数据库中节点的属性还包括迭代计算后更新的活跃度。
S202、响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据;
本实施例中的新闻源站图结构模型在执行过程中,对这三层的众多媒体产生的数据进行分析、动态对其真实性指数和活跃度排名、持续不断地进行演化、为后续环节源源不断地提供真实、快速的新闻数据供处理。
具体地,请继续参阅图3,响应于信息更新请求后,调用网络采集工具获取到海量新闻数据后,经过常规的数据清洗后,将每条新闻数据作为另一种类型的节点加入到新闻信息图数据库中,这类节点的属性有发表时间、地点、标签等,它通过边与前述某个媒体相连,也即是说有且仅有一条类型为“原创”的边,并可能拥有另外的类型为“转发”的边相连到其他媒体。其中,数据清洗包括错字纠正、机构名称的全称和简称统一、中英文词条映射等。
S203、对增量新闻数据中包含的信息进行真实性判定,得到真实性指数;
S204、基于真实性指数,对判定为真实信息的增量新闻数据进行信息抽取,得到业务主体关系链;
本实施例中,真实性判定的基本逻辑就是历史真实性数据积累量、其他源站报道类似新闻内容数量以及源站在三层模型中的层次及该层的活跃度排序等因素影响当前新闻内容的真实性权重值。在一种实施方式中,其他源站报道类似新闻内容数量不包含直接引用,在另一种实施方式中,其他源站报道类似新闻内容数量也可以包含直接引用的新闻内容,但其对真实性权重有贡献比较小。
请继续参阅图3,新闻节点间也可能根据二阶段文档相似度计算模型计算结果通过类型为“相似”的边相连与另一个或多个新闻节点,这样随着数据处理轮次的增加,这些数据以及基于这些数据在后面处理步骤中抽取并匹配出来的实体及关系就越来越丰富,刚开始时图元素增长比较快,到一定程度后主要是新闻节点及其相互之间以及与媒体之前的边的增加,其他元素主要是更新和强化;其中,越多的边证据可以强化某种关系及其连接节点的确定性,比如某两个公司之间的法律纠纷由传言到不断强化向证实方向发展。每轮新的数据(包括节点或边)加入新闻信息图数据库后,GNN图结构模型会进行处理,为相应节点、边更新相应属性值,如新闻源站节点的真实性指数、两上新闻内容节点间的“相似”边的相似度等。
请继续参阅图3,对于本实施例中的新闻信息图数据库,最终要实现每一个节点由它自身特征以及通过边与其相连的节点特征来定义该节点。具体而言,要预测某篇新闻内容的真实性并打上真实标签时,自身特征有上次预测的结果值(且其中带有时间戳属性),与其相连的节点特征:“相似”边相连的其他新闻节点的真实性及相似边的数量等,“原创”边相连的媒体节点的权威优先级、真实性权重等,这些都是在演化过程中相互影响产生的,也就是说对新闻节点的预测过程这个环节会将媒体节点的特征作为输入,产生的结果值会对后续媒体节点预测过程环节时作为其输入,每篇新闻的真实性会对所属媒体的真实性和权威优先级产生影响,即修改源站对应的活跃度值,而媒体的真实性和权威性优先级会对后续判断其发布的新闻内容产生影响。通过交替相互影响的演化机制实现新闻内容真实性的动态评判,既防止先入为主式的对权威媒体假新闻的“迷信”,又防止对小媒体或自媒体的真新闻的“抗拒”,实现新闻真实性判定的最优化。新闻内容的真实性判定后判定及时性,主要是基于“原创内容发布时间排序”原则的排名机制,即真实新闻里,原创内容越早发布则及时性越高。
在一种具体的实施方式中,所述对增量新闻数据中包含的信息进行真实性判定,得到真实性指数可以通过二阶段文本相似度计算模型进行具体的计算。本实施例中,二阶段文本相似模型包括两个阶段,第一阶段是基于孪生网络算法对所述增量新闻内容进行两两计算,得到第一相似度值;第二阶段是通过图对象实体匹配算法对判定为相似的增量新闻内容进行实体关系信息抽取,并根据抽取到的实体关系信息与所述业务主体图数据库进行匹配,根据匹配结果得到第二相似度值;根据所述第一相似度值和所述第二相似度值计算所述增量新闻数据的真实性指数。由于每天的新闻内容增量是巨大的,也是无法预测的,而且时效性也很强,采用以孪生网络为基础的神经网络结构,对每天产生的增量新闻内容进行两两计算,从而得到其相似度值是则很好地做到了无监督条件下的深度学习预测,新闻内容的历史存量数据本身不会因训练对网络参数产生影响而导致新的新闻对旧的新闻有依赖而不准;仅仅对一定时间段内的热点新闻作为本次计算的输入数据参与计算,这些热点数据也仅是上次计算产生的相似而条数较大的新闻内容,即相似的新闻被报导得越多说明越热。
请继续参阅图4,孪生网络(Siamese Network)是一类神经网络结构,它是由两个或更多完全相同的网络组成的且共享相同的权重和参数,新闻内容两两进行相似度比较时,将它们输入各自的神经网络得到两个表示向量,然后使用余弦相似度计算这两个向量之间的相似度得分。其中孪生网络主要实现将两个输入文本映射到新的高维空间的向量,两个网络具体有相同的网络参数,可以是物理上两个网络;出于节省资源考虑也可以是逻辑上两个而物理上一个,这样就需要两个输出新闻内容串行输入而非并行。每个网络结构主要包含前置的BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码器表示)层和紧接其后的池化层(pooling)。其中BERT是目前NLP(Natural Language Procession:自然语言处理)领域深度学习主流预训练模型技术,采用双向Transformer组件比以往单向语言模型(从左到右或者从右到左)更能全面地提取文本的特征或者说能更好地理解文档的语义,然后其后接入一个池化层抑制噪声以防止过拟合,最终生成高维向量并比较他们的欧氏距离即相似程度,通过损失函数和归一化处理将结果按神经网络普遍采用的反向传播机制调整网络参数,归一化处理是为了灵活应对多分类等不同场景,因为有些场景不是“非是即否”的二分类的,这里通过Softmax归一化函数用出现概率的形式既能满足二分类,又能满足在其后接入更多算法进一步分析处理等。在一种具体的实施方式中,为了简化模型,采用二分类方式,损失函数基于对比损失函数(Contrastive Loss Function)进行构建,其具体表达式为:
其中,L表示损失,N表示样本数量,即输入对数(Paired Data),d为高维向量(如图4中的向量u和向量v)之间的欧氏距离,y为样本标签值(即前述非是即否),margin表示不相似的距离阈值,是为了增加模型的鲁棒性、加大正负样本输出结果的离散效果而添加的可配置选项。这个损失函数能够很好地通过神经网络的反射传播机制不断迭代优化网络参数而很好地提取出数据特征,比如当y=1是样本相似时,上式右边只剩下左项,如两向量在特征空间的欧式距离过大则该轮计算出的损失函数值较大,说明模型当前效果不好,反射传播回去能够较大幅度的调整网络权重参数,从而能够通过多轮这样的优化使得模型逐渐逼近最优状态,即有较好的拟合效果。
对孪生网络模型生成的相似度结论结果,本实施例进一步通过图对象实体匹配算法,实现业务上的相似度预测,因为有些新闻内容通过语义被孪生模型判定为相似标签,但实际业务上是完全不同的,比如两篇新闻都是介绍公司融资的,公司名称语义上较为接近,例如一篇的对象公司叫“赢火虫”而另一家叫“萤火虫”,在具体的测试中,发现这样的情况下使用孪生模型会被判定为相似,但其实质不相同,这时需要对数据中抽取的实体对象及其关系进行匹配判断。从新闻内容等文本类数据中抽取实体及其关系采用较为成熟的NER(Named Entity Recognition:命名实体识别)技术;并加上ARE(Atribute&RelationEnhance,属性和关系增强)算法,主要原理是对抽取出来的实体及关系链与之前形成的包含实体及关系的业务关系图数据库进行匹配比对,同一类别匹配对数越多相应权重也越高、不同类别权威级别也不一样,比如:抽取出的“赢火虫公司”-(所在地)-“上海市松江区”、“赢火虫”-(所处行业)-“法律”等关联链与图数据库中匹配成功则会累积增加相应权重;而抽取出的“赢火虫”-(股东)-“上海法智特实业集团有限公司”关系链匹配成功后则认为完全确定性的结论,调整真实性指数;具体的,可以调整真实性的权重值为最高值。进一步地,真实性指数如权重高于阈值的结果除了返还给调用方(比如前述的GNN图结构模型)外,还会补充进新闻信息图数据库中以实现其自学习积累,比如图数据库中的“赢火虫信息科技(上海)有限公司”实体对象会在学习过程中不断补充“赢火虫”、“赢火虫公司”、“赢火虫有限公司”等简称属性以供后续的快速匹配。
S205、根据业务主体关系链对业务主体图数据库进行更新;
本实施例中,业务主体关系链为一条或者多条;业务主体图数据库是根据历史公开的业务主体之间的关系信息生成的。
前述模型等对新闻内容的处理结果,除了自学习不断提升预测能力,筛选出“真实并及时”的新闻内容外,还有一个更重要的目的就是将“真实并及时”的新闻内容挖掘出的关系链与现有数据进行交叉融合及补全。现有数据主要是基于工商等公开数据获取并处理后入库的结果,主要为图数据库,包含企业与企业、个人与企业、律师与企业等商事主体及其关系构成的图结构数据,它是商事主体多元关系的基础,本实施例中,根据每轮抽取的实体关系链及匹配情况具体处理分为多个场景进行不同的具体操作。
在一种具体的实施方式中,判断所述增量新闻内容中抽取到的所述业务主体关系链中是否有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链;
若抽取到的所述业务主体关系链中没有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链,则根据所述业务主体关系链中与所述业务主体图数据库中的确定信息相匹配的业务主体关系链的数量对所述业务主体图数据库中的信息进行更新;
若抽取到的所述业务主体关系链中有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链,则将与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链标注为矛盾数据,并将抽取到的所述业务主体关系链中的其余数据标注为新增数据,并补充至所述业务主体图数据库中。在一种具体的实施方式中,抽取出“单链”或“多链”与现有数据矛盾,比如抽取出的“赢火虫”-(所在地)-“上海市松江区”链与现有数据中“赢火虫”-(所在地)-“上海市浦东新区”相矛盾,就会也将该链入库,并将该链加上新闻内容发布时间的时间戳,同时将两条矛盾的链加入“矛盾”标签,这种矛盾链随时增量数据进入可能会出现3个或者更多,待后续匹配时若有新的链匹配上这些矛盾链的最新版本则将该链的“矛盾”标签去除,并将其他“矛盾”标签改为“历史”标签,表示一个最新、其他皆是历史。前述关系是唯一性关系,即两实体间只能有一种该关系,即前述例子中一家公司只能有一个所在地。此外,还可以配置为有非唯一性关系,将新闻数据直接入库补全,待后续业务主体图数据库中的信息定期覆盖刷新,以保证最新状态。
在一种具体的实施方式中,所述根据所述业务主体关系链中与所述业务主体图数据库中的确定信息相匹配的业务主体关系链的数量对所述业务主体图数据库中的信息进行更新包括:
若在所述增量新闻内容中抽取到的所述业务主体关系链中仅有一条与所述业务主体图数据库中的确定信息匹配,则将抽取到的其余所述业务主体关系链标为待定数据,并补充至所述业务主体图数据库中;也即是说,抽取出的“多链”里只有一条与现有数据匹配上了,这样“多链”中非匹配链的确定性相对弱一些,不过也会将“多链”入库补全,并加上“待定”标签,等后续匹配时确定,即后续匹配时发现一条链与库中“待定”标签的链匹配成功,则将“待定”标签移除,表示确定。这里的后续匹配既包含本轮采集的后续数据,又包含后续采集的轮次。
若在所述增量新闻内容中抽取到的所述业务主体关系链中有多条与所述业务主体图数据库中的确定信息匹配,则将抽取到的其余所述业务主体关系链标注为确定数据,并补充至所述业务主体图数据库中;也即是说,抽取出的实体关系链有多样,若这些里面有多条与现有数据库匹配上了,则这是最高确定性的场景,因为这样意味着多重验证确定,数据可靠性就很高,比如:从某篇新闻内容中抽取出“赢火虫”-(所在地)-“上海市松江区”、“赢火虫”-(股东)-“上海法智特实业集团有限公司”、“上海法智特实业集团有限公司”-(合作)-“华东政法大学”3条“链”中前2条“链”与已有数据匹配成功,则第三条作为确定性数据融合进入现有数据进行补全。
若在所述增量新闻内容中抽取到的所述业务主体关系链均与所述业务主体图数据库中无匹配,则将抽取到的所述业务主体关系链标为待定数据,并补充至所述业务主体图数据库中;也即是说,对现有数据来说是这些链是新增的,刚确定性也相对弱一些,和前述类似地先将这些链入库,并加上“待定”标签,等后续匹配时确定,即后续匹配时发现一条链与库中“待定”标签的链匹配成功,则将“待定”标签移除,表示确定。
进一步地,还包括在将抽取到的所述实体和关系链补充至业务主体图数据库中时,同时记录新闻数据的新闻时间;
所述在所述将与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链标注为矛盾数据,并将抽取到的所述业务主体关系链中的其余数据标注为新增数据,并补充至所述业务主体图数据库中之后,还包括:
若在所述增量新闻内容中抽取到的业务主体关系链与所述业务主体图数据库中的最新被标注为矛盾数据的信息匹配,则将对应的最新被标注为矛盾数据的信息标注为确定数据,将其他矛盾数据标注为历史数据。
在将抽取到的所述实体和关系链补充至业务主体图数据库中时,同时记录新闻数据的新闻时间;在所述将与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链标注为矛盾数据,并将抽取到的所述业务主体关系链中的其余数据标注为新增数据,并补充至所述业务主体图数据库中之后,还包括:若在所述增量新闻内容中抽取到的业务主体关系链与所述业务主体图数据库中的最新被标注为矛盾数据的信息匹配,则将对应的最新被标注为矛盾数据的信息标注为确定数据,将其他矛盾数据标注为历史数据。
本步骤中,匹配是指链中的实体、关系和实体这三元组的完全匹配,部分匹配被认定为新增,比如某个链中的两个实体匹配成功但关系没有匹配到,表示这两个实体间新增了一个关系。这样,随着数据采集及处理轮次的不断迭代,商事主体补全的数据越来越多,而且都是新鲜度很高的数据,为基于其上的应用提供更全面、更深入、更及时的商事主体的多元关系等信息。
在一种优选的实施方式中,前述的新闻信息图数据库和业务主体图数据库可以为同一数据库,也即是说同一数据库中包含有新闻相关信息和业务主体的相关联信息,以保证数据的同步性,使得识别、更新结果更加准确。
S206、对增量新闻数据进行及时性判定得到及时性指数;
S207、调用新闻源站图结构模型根据真实性指数和及时性指数计算各新闻源站的活跃度指数;
S208、根据活跃度指数对新闻源站序列进行更新。
本实施例中,对新闻真实性判定调用二阶段文本相似度模型,其中,本实施例中所述的二阶段文本相似度模型与前述的新闻源站图结构模型并非简单的单向调用传递关系,而是一种相互影响的进化伴生关系,且两者可以共用一个图数据库。
在一种具体的实施方式中,该模型每层分为都包含20个源站,又进一步分为活跃站和候选站两个排名前十的排序队列,每次需要采集增量数据时各活跃站点均会采集,而候选站点每过一定轮数和活跃站点一起采集且候选站点可人工添加或修改,以适当控制采集源站规模并提供引入新源站的机会;而且队列是动态维护和演化的,每轮都会在上次排序基础上根据实际情况自动重新排序,活跃站点队列和候选站点队列内容和两者之间都会动态调整,越靠前的说明活跃度越高。活跃度指标为将真实性和及时性按相应规则计算而来,首先要判定新闻的真实性,判定真实性后再引入及时性参数,随后根据真实性和及时性按相应规则计算得到活跃度指标,并根据活跃度指标对新闻源站序列进行更新,以使得基于多层深化图结构模型的数据分层采集,而采集后的真实性判定和及时性排序的结果又会优化模型指导下一轮最优采集;真实的新闻内容及抽取出的实体/关系数据按照匹配规则才会对数据库进行更新,并为下一轮从新闻内容中抽取的实体及关系提供匹配基库。
本发明实施例中的技术方案,能够从海量真假混杂的新闻内容中判定准确且及时的数据,并精准地找出企业等业务主体之间的关系信息,且可以通过新闻数据中包含的业务关系的真实性判断结果对新闻源站点进行更新,整个系统自学习能力极强,一方面会积累“经验”不断提高输出结果的准确率,另一方面也会根据每轮的实际数据进行动态调整以适应新形势、新环境。
上面对本发明实施例中业务主体关系信息更新方法进行了描述,下面对本发明实施例中业务主体关系信息更新装置进行描述,请参阅图6,本发明实施例中业务主体关系信息更新装置的一个实施例包括:
获取模块601,用于响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据;真实性判定模块602,用于对增量新闻数据中包含的信息进行真实性判定,得到真实性指数;信息抽取模块603,用于基于所述真实性指数,对判定为真实信息的所述增量新闻数据进行信息抽取,得到业务主体关系链,其中,所述业务主体关系链为一条或者多条;图数据库更新模块604,用于根据所述业务主体关系链对所述业务主体图数据库进行更新,其中,所述业务主体图数据库是根据历史公开的业务主体之间的关系信息生成的。
通过上述方案,本发明实施例能够从海量真假混杂的新闻内容中判定准确且及时的数据,并精准地找出企业等业务主体之间的关系信息。
在本申请的另一实施例中,所述业务主体关系信息更新装置还包括图结构模型构建模块,和新闻源站序列更新模块;所述图结构模型构建模块用于:获取初始新闻源站序列,根据所述初始新闻源站序列中包含的新闻源站的类型,分层采集历史新闻数据,根据所述历史新闻数据构建新闻信息图数据库;所述新闻源站序列更新模块包括:及时性计算单元,用于对所述增量新闻数据进行及时性判定得到及时性指数;活跃度计算单元,用于调用所述新闻源站图结构模型根据真实性指数和及时性指数计算各所述新闻源站的活跃度指数;序列更新单元,用于根据所述活跃度指数对新闻源站序列进行更新。
在本申请的另一实施例中,所述真实性判定模块602包括:第一相似度计算单元,用于通过孪生网络算法,对所述增量新闻内容进行两两计算,得到第一相似度值;第二相似度计算单元,用于通过图对象实体匹配算法对判定为相似的增量新闻内容进行实体关系信息抽取,并根据抽取到的实体关系信息与所述业务主体图数据库进行匹配,根据匹配结果得到第二相似度值;真实性计算单元,用于根据所述第一相似度值和所述第二相似度值计算所述增量新闻数据的真实性指数。
在本申请的另一实施例中,所述及时性计算单元具体用于:将判定为真实信息的所述增量新闻数据按照原创内容发布时间进行排序,得到真实增量新闻数据的时间序列;根据所述真实增量新闻数据的时间序列确定所述增量新闻数据的及时性指数。
在本申请的另一实施例中,所述图数据库更新模块604具体用于:判断所述增量新闻内容中抽取到的所述业务主体关系链中是否有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链;若抽取到的所述业务主体关系链中没有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链,则根据所述业务主体关系链中与所述业务主体图数据库中的确定信息相匹配的业务主体关系链的数量对所述业务主体图数据库中的信息进行更新;若抽取到的所述业务主体关系链中有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链,则将与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链标注为矛盾数据,并将抽取到的所述业务主体关系链中的其余数据标注为新增数据,并补充至所述业务主体图数据库中。
在本申请的另一实施例中,所述根据所述业务主体关系链中与所述业务主体图数据库中的确定信息相匹配的业务主体关系链的数量对所述业务主体图数据库中的信息进行更新包括:若在所述增量新闻内容中抽取到的所述业务主体关系链中仅有一条与所述业务主体图数据库中的确定信息匹配,则将抽取到的其余所述业务主体关系链标为待定数据,并补充至所述业务主体图数据库中;若在所述增量新闻内容中抽取到的所述业务主体关系链中有多条与所述业务主体图数据库中的确定信息匹配,则将抽取到的其余所述业务主体关系链标注为确定数据,并补充至所述业务主体图数据库中;若在所述增量新闻内容中抽取到的所述业务主体关系链均与所述业务主体图数据库中无匹配,则将抽取到的所述业务主体关系链标为待定数据,并补充至所述业务主体图数据库中。
在本申请的另一实施例中,所述图数据库更新模块还用于在将抽取到的所述实体和关系链补充至业务主体图数据库中时,同时记录新闻数据的新闻时间;所述在所述将与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链标注为矛盾数据,并将抽取到的所述业务主体关系链中的其余数据标注为新增数据,并补充至所述业务主体图数据库中之后,还包括:若在所述增量新闻内容中抽取到的业务主体关系链与所述业务主体图数据库中的最新被标注为矛盾数据的信息匹配,则将对应的最新被标注为矛盾数据的信息标注为确定数据,将其他矛盾数据标注为历史数据。
本发明实施例中的技术方案,能够从海量真假混杂的新闻内容中判定准确且及时的数据,并精准地找出企业等业务主体之间的关系信息,且可以通过新闻数据中包含的业务关系的真实性判断结果对新闻源站点进行更新,整个系统自学习能力极强,一方面会积累“经验”不断提高输出结果的准确率,另一方面也会根据每轮的实际数据进行动态调整以适应新形势、新环境。
上面图7从模块化功能实体的角度对本发明实施例中的业务主体关系信息更新装置进行详细描述,基于同一发明构思,本说明书实施例还提供一种业务主体关系信息更新设备,下面从硬件处理的角度对本发明实施例中业务主体关系信息更新设备进行详细描述。
图7为本说明书实施例提供的一种电子设备的结构示意图。下面参照图7来描述根据本发明该实施例的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元710可以执行如图1、2或5所示的步骤。
所述存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
所述存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备100(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器770与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器770可以通过总线730与电子设备700的其它模块通信。应当明白,尽管图7中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:如图1、2或5所示的方法。
图8为本说明书实施例提供的一种计算机可读介质的原理示意图。
实现图1、2或5所示方法的计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种业务主体关系信息更新方法,其特征在于,包括:
响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据;
对增量新闻数据中包含的信息进行真实性判定,得到真实性指数;
基于所述真实性指数,对判定为真实信息的所述增量新闻数据进行信息抽取,得到业务主体关系链,其中,所述业务主体关系链为一条或者多条;
根据所述业务主体关系链对所述业务主体图数据库进行更新,其中,所述业务主体图数据库是根据历史公开的业务主体之间的关系信息生成的。
2.根据权利要求1所述的业务主体关系信息更新方法,其特征在于,在所述响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据之前,还包括:
获取初始新闻源站序列,根据所述初始新闻源站序列中包含的新闻源站的类型,分层采集历史新闻数据,根据所述历史新闻数据构建新闻信息图数据库;
在所述对增量新闻数据中包含的信息进行真实性判定,得到真实性指数之后,还包括:
对所述增量新闻数据进行及时性判定得到及时性指数;
调用所述新闻源站图结构模型根据真实性指数和及时性指数计算各所述新闻源站的活跃度指数;
根据所述活跃度指数对新闻源站序列进行更新。
3.根据权利要求2所述的业务主体关系信息更新方法,其特征在于,所述对增量新闻数据中包含的信息进行真实性判定,得到真实性指数包括:
通过孪生网络算法,对所述增量新闻内容进行两两计算,得到第一相似度值;
通过图对象实体匹配算法对判定为相似的增量新闻内容进行实体关系信息抽取,并根据抽取到的实体关系信息与业务主体图数据库进行匹配,根据匹配结果得到第二相似度值;
根据所述第一相似度值和所述第二相似度值计算所述增量新闻数据的真实性指数。
4.根据权利要求3所述的业务主体关系信息更新方法,其特征在于,所述对所述增量新闻数据进行及时性判定得到及时性指数包括:
将判定为真实信息的所述增量新闻数据按照原创内容发布时间进行排序,得到真实增量新闻数据的时间序列;
根据所述真实增量新闻数据的时间序列确定所述增量新闻数据的及时性指数。
5.根据权利要求4所述的业务主体关系信息更新方法,其特征在于,所述根据所述业务主体关系链对所述业务主体图数据库进行更新包括:
判断所述增量新闻内容中抽取到的所述业务主体关系链中是否有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链;
若抽取到的所述业务主体关系链中没有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链,则根据所述业务主体关系链中与所述业务主体图数据库中的确定信息相匹配的业务主体关系链的数量对所述业务主体图数据库中的信息进行更新;
若抽取到的所述业务主体关系链中有与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链,则将与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链标注为矛盾数据,并将抽取到的所述业务主体关系链中的其余数据标注为新增数据,并补充至所述业务主体图数据库中。
6.根据权利要求5所述的业务主体关系信息更新方法,其特征在于,所述根据所述业务主体关系链中与所述业务主体图数据库中的确定信息相匹配的业务主体关系链的数量对所述业务主体图数据库中的信息进行更新包括:
若在所述增量新闻内容中抽取到的所述业务主体关系链中仅有一条与所述业务主体图数据库中的确定信息匹配,则将抽取到的其余所述业务主体关系链标为待定数据,并补充至所述业务主体图数据库中;
若在所述增量新闻内容中抽取到的所述业务主体关系链中有多条与所述业务主体图数据库中的确定信息匹配,则将抽取到的其余所述业务主体关系链标注为确定数据,并补充至所述业务主体图数据库中;
若在所述增量新闻内容中抽取到的所述业务主体关系链均与所述业务主体图数据库中无匹配,则将抽取到的所述业务主体关系链标为待定数据,并补充至所述业务主体图数据库中。
7.根据权利要求5所述的业务主体关系信息更新方法,其特征在于,还包括:
在将抽取到的所述实体和关系链补充至业务主体图数据库中时,同时记录新闻数据的新闻时间;
所述在所述将与所述业务主体图数据库中的确定信息相矛盾的业务主体关系链标注为矛盾数据,并将抽取到的所述业务主体关系链中的其余数据标注为新增数据,并补充至所述业务主体图数据库中之后,还包括:
若在所述增量新闻内容中抽取到的业务主体关系链与所述业务主体图数据库中的最新被标注为矛盾数据的信息匹配,则将对应的最新被标注为矛盾数据的信息标注为确定数据,将其他矛盾数据标注为历史数据。
8.一种业务主体关系信息更新装置,其特征在于,所述业务主体关系信息更新装置包括:
获取模块,用于响应于信息更新请求,从新闻源站序列中分层获取增量新闻数据;
真实性判定模块,用于对增量新闻数据中包含的信息进行真实性判定,得到真实性指数;
信息抽取模块,用于基于所述真实性指数,对判定为真实信息的所述增量新闻数据进行信息抽取,得到业务主体关系链,其中,所述业务主体关系链为一条或者多条;
更新模块,用于根据所述业务主体关系链对所述业务主体图数据库进行更新,其中,所述业务主体图数据库是根据历史公开的业务主体之间的关系信息生成的。
9.一种业务主体关系信息更新设备,其特征在于,所述业务主体关系信息更新设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务主体关系信息更新设备执行如权利要求1-7中任一项所述的业务主体关系信息更新方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述业务主体关系信息更新方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311316672.9A CN117667956A (zh) | 2023-10-11 | 2023-10-11 | 业务主体关系信息更新方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311316672.9A CN117667956A (zh) | 2023-10-11 | 2023-10-11 | 业务主体关系信息更新方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117667956A true CN117667956A (zh) | 2024-03-08 |
Family
ID=90081404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311316672.9A Pending CN117667956A (zh) | 2023-10-11 | 2023-10-11 | 业务主体关系信息更新方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117667956A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117950880A (zh) * | 2024-03-26 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 一种业务数据处理方法、装置、设备及存储介质 |
CN118113884A (zh) * | 2024-04-29 | 2024-05-31 | 数据空间研究院 | 一种基于矛盾纠纷数据的知识图谱构建方法 |
-
2023
- 2023-10-11 CN CN202311316672.9A patent/CN117667956A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117950880A (zh) * | 2024-03-26 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 一种业务数据处理方法、装置、设备及存储介质 |
CN118113884A (zh) * | 2024-04-29 | 2024-05-31 | 数据空间研究院 | 一种基于矛盾纠纷数据的知识图谱构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10817568B2 (en) | Domain-oriented predictive model feature recommendation system | |
CN111339313A (zh) | 一种基于多模态融合的知识库构建方法 | |
CN117667956A (zh) | 业务主体关系信息更新方法、装置、设备及存储介质 | |
WO2018151856A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
US20150052098A1 (en) | Contextually propagating semantic knowledge over large datasets | |
CN110633366B (zh) | 一种短文本分类方法、装置和存储介质 | |
US9251469B2 (en) | Dynamic load balancing based on question difficulty | |
CN109947902B (zh) | 一种数据查询方法、装置和可读介质 | |
CN108984775B (zh) | 一种基于商品评论的舆情监控方法及系统 | |
CN103544242A (zh) | 面向微博的情感实体搜索系统 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN113722493B (zh) | 文本分类的数据处理方法、设备、存储介质 | |
Yun et al. | Computationally analyzing social media text for topics: A primer for advertising researchers | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
Basha et al. | A roadmap towards implementing parallel aspect level sentiment analysis | |
US20220327492A1 (en) | Ontology-based technology platform for mapping skills, job titles and expertise topics | |
KR20230046491A (ko) | 딥러닝 언어모델과 자연어 처리기술을 이용한 프로젝트 스펙정보 분석 및 리스크 예측 방법과 시스템, 및 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체 | |
CN114138977A (zh) | 日志处理方法、装置、计算机设备和存储介质 | |
CN114707041A (zh) | 消息推荐方法、装置、计算机可读介质及电子设备 | |
CN114443842A (zh) | 战略性新兴产业分类方法及装置、存储介质和电子设备 | |
Andreev et al. | Approach to forecasting the development of situations based on event detection in heterogeneous data streams | |
US20230142351A1 (en) | Methods and systems for searching and retrieving information | |
CN116701752A (zh) | 基于人工智能的新闻推荐方法、装置、电子设备及介质 | |
CN114647739B (zh) | 实体链指方法、装置、电子设备及存储介质 | |
Li et al. | Automatic classification algorithm for multisearch data association rules in wireless networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |