CN117056392A - 一种基于动态超图技术的大数据检索服务系统及方法 - Google Patents

一种基于动态超图技术的大数据检索服务系统及方法 Download PDF

Info

Publication number
CN117056392A
CN117056392A CN202210491545.1A CN202210491545A CN117056392A CN 117056392 A CN117056392 A CN 117056392A CN 202210491545 A CN202210491545 A CN 202210491545A CN 117056392 A CN117056392 A CN 117056392A
Authority
CN
China
Prior art keywords
information
result
search
module
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210491545.1A
Other languages
English (en)
Inventor
耿德强
武伟
李杨
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hexaprism Hangzhou Technology Co ltd
Original Assignee
Hexaprism Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hexaprism Hangzhou Technology Co ltd filed Critical Hexaprism Hangzhou Technology Co ltd
Priority to CN202210491545.1A priority Critical patent/CN117056392A/zh
Publication of CN117056392A publication Critical patent/CN117056392A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于动态超图技术的大数据检索服务系统,包括:固态数据子系统、变动数据子系统,其特征在于:所述固态数据子系统包括:知识产权信息模块、金融信息模块、人员信息模块,所述变动数据子系统包括:知识产权变更/失效/诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块。本发明大大增加了检索结果的可信度,使得客户在检索过程中能够全面、在各个维度了解企业画像,本发明的检索系统较之传统的专利信息检索系统,具有更全面的数据标示信息和可信度。

Description

一种基于动态超图技术的大数据检索服务系统及方法
技术领域
本发明涉及一种大数据服务器信息检索系统,特别是涉及一种综合金融、知识产权、法律等企业或个人信息检索的大数据信息检索系统。
背景技术
在当前信息化的时代,每天产生巨量的信息数据,对于企业而言,拥有的数据维度极为丰富,工商数据、人员数据、经营数据、科技创新数据等等,如何从纷繁复杂的数据中梳理出有价值的信息,从而真实准确刻画企业画像,洞察企业的科技创新实力,识别企业的投资价值,需要耗费大量的人力物力。传统的投资人在筛选项目时,大部分靠人工,一年只能看200个项目,而经过复杂的评估计算后,最终确定的项目可能只有少数几个,效率极低。
在互联网得到普及应用的情况下,大数据时代已经正式到来。“大数据”也被称为巨量资料,它指网上图像、文本、音频和视频等数据所涉及的资料总体量规模巨大,无法用目前的常用普通软件等处理工具在合理时间内进行处理,也无法整理成为对客户有价值的资讯。也就是说,大数据具有四个特征,体量巨大、信息密度低、数据类型多、要求的处理速度快。大数据时代,信息呈爆炸式增长,目前,互联网上的数据每年都会增长50%。在这种时代背景下,传统的尽职调查方法已经远远不能满足投资机构或金融机构的需要,情报搜集和分析能力的不足将影响投资决策的方向和力度,尤其在全球信息化、网络化的时代,结合多学科的先进理论和最新技术来完善和优化竞争情报分析方法与策略,实时快速的从海量信息中挖掘出决策需要的高层次的知识,成为当前信息处理工作面临的瓶颈问题。在这样的背景下,迫切需要引进新理论、新思想、新技术,以改善现有的情报分析方法和工具设计,从而在多维海量的数据空间内挖掘出深层的、有价值的情报。
在实际应用中,通常小部分的数据带有标签,大部分数据则是没有标签的。在这样的情况下,半监督的学习方法可以同时利用有标签数据和无标签数据,体现出了优异的性能。
超图是一种半监督分类方法,其每个顶点代表一个样本数据,超边表示样本数据间的关联,与简单图不同的是,一条超边可以连接多个顶点,因此,超图可以表示数据的复杂高阶关联。
为此,现有技术中发明了各种类型的信息检索系统,如现有技术 1:CN109117430A公开了一种检索系统及其方法,包括:运行第一操作系统的第一服务器,和运行第二操作系统的第二服务器以及运行一浏览器的客户端;其中,所述第一服务器,用于根据所述检索请求在至少一数据集中执行针对所述检索请求的检索,并输出中间数据至所述第二服务器;其中,所述中间数据包括对检索结果进行分析处理的数据;所述第二服务器,用于将所述中间数据编辑为所述文件格式的文档以便通过所述浏览器向所述客户端输出。这就能够为各种具备浏览器的计算设备提供具备分析处理能力和文档输出能力的检索系统。但该现有技术主要集中处理专利信息的检索,对综合数据的处理研究甚少;
现有技术2:CN112905540A公开了一种检索文件的方法和装置,属于图像数据处理领域,用以解决基于图像的文件检索结果不准确的问题。该方法包括:基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;从第一检索结果中确定至少一个候选对象;基于所述候选对象的上下文信息,确定目标检索结果。但该现有技术主要集中处理专利信息的检索,对综合数据的处理研究甚少;
现有技术3:CN113256072A公开了一种企业数据分类展示方法和装置、以及存储介质和电子设备,其中方法包括:获取与多个目标对象相关联的初始数据,对初始数据进行特征提取以获取每个目标对象的维度数据;从维度数据中提取区域信息以基于区域信息确定每个目标对象的区域属性,根据维度数据构建分类规则并基于分类规则确定每个目标对象的分类属性,并且基于分类属性和维度数据计算每个目标对象的附加属性;以及根据区域属性和分类属性确定分类位置,根据维度数据和附加属性生成呈现内容,从而基于分类位置和呈现内容生成每个目标对象的分类呈现信息。本发明能够提供更加细致且更加生活化的信息呈现体验,使得客户能够方便地查看企业的运行状态。但该现有技术主要集中处理企业咨询信息的检索,对综合数据的处理研究甚少;
现有技术4:CN111597060A公开了一种数据调用方法、装置、计算机设备和存储介质。所述方法通过获取应用端的数据调用请求,该数据调用请求是通过嵌入到应用端的数据服务页面生成的,进而根据数据调用请求查询满足数据调用条件的数据,并通过数据传输接口向嵌入到应用端的数据服务页面调用查询到的数据,该数据用于指示嵌入到应用端的数据服务页面在应用端展示查询到的数据,从而实现通过企业自己的业务平台调用外部服务器中的数据,减少了在各种外部信息平台中查询、计算以及整合数据的时间,极大的提高数据获取效率。但该现有技术主要集中处理企业咨询信息的检索,对综合数据的处理研究甚少;
此外,在现有技术中,目前的语意检索多给予关键词的词频筛选和统计上,利用关键词构成的向量进行检索目标的匹配,而忽视了被检索对象本身作为一个有机整体的相似程度,这就导致目前的检索结果以词频的向量计算为入口,即便词频出现的程度很高,得到的检索结果与预期差别也较大。
由此可见,现有技术中对于大数据的处理,仍然主要集中在单个维度的数据处理本身,而对于多维度综合信息的大数据处理分析研究甚少,并且如何在最短的时间内最大限度的为信息检索客户提供高效、智能的多维度综合信息检索反馈体验,就是一个诚待解决的问题。
发明内容
针对上述情况,为克服现有技术之缺陷,本发明之目的就是提供一种基于动态超图技术的大数据检索服务系统,包括:固态数据子系统、变动数据子系统。
进一步地,所述固态数据子系统包括:知识产权信息模块、金融信息模块、人员信息模块,所述变动数据子系统包括:知识产权变更 /失效/诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块;
进一步地,所述知识产权信息模块采用整体相似度检索模型进行检索;
进一步地,所述整体相似度检索模型包括局部相似度检索模型和全局相似度检索模型;其中:假设在n维向量空间中的两个向量: X(x1,x2,…,xn)和Y(y1,y2,…,yn)间的差是每个变量值差的平方和再平方根,即:
假定S(s1,s2,…,sn)是n维特征空间,待检索专利采用上述向量X(x1,x2,…,xn)表示,所述知识产权信息模块中存储的专利采用所述向量Y(y1,y2,…,yn)表示,对于待检索专利X,xi(1≤i≤n) 是它的第i个特征属性值,Wi是第i个特征属性的权重值,对于已存储的专利Y,yi(1≤i≤n)是它的第i个特征属性值,Wi是第 i个特征属性的权重值,则X,Y在S上的距离采用如下公式计算:
式中dist(xi,yi)表示两个专利X,Y在第i个属性上的局部相似度,其中
由于上述距离表示两向量之间的距离大小,表示的是两向量之间的不相似性,所以dist的值越大待检索专利X和已存储专利Y之间的距离就越大,相似度就越小,因此可以规定待检索专利X和已存储专利Y之间全局相似度为:
δi=SIM(X,Y)=1-DIST(X,Y)
式中δi表示待检索专利X和已存储专利Y的相似度。通过δi的计算公式即可计算得出待检索专利X和已存储专利Y的相似度结果,从δi的计算结果中按照相似度大小依次排列检索结果并推送至客户端;
进一步地,所述待检索专利X和已存储专利Y的第i个特征属性值包括技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征;
进一步地,所述待检索专利X的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为原始信息向量,所述已存储专利Y的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为检索信息向量;其中所述原始信息向量采用如下公式计算:
其中,φpi为检索词集p中第i个术语的特征权重,φoi为第i个术语与原始关键词的关系权重。在本发明中默认原始语句中的关键词可以直接反映客户的检索需求或待检索专利的技术信息,所以将其赋予最高权重,而其它扩展术语则根据词频出现程度和语义检索模型的后期训练累计进行权重赋值。
而检索信息向量来自不同的专利文本,通常出现在不同的专利描述内容中(发明名称、分类号、技术领域、背景技术、技术方案、技术效果等),其反映了不同发明的技术信息。本发明通过检索信息向量来表征不同术语的重要程度。设φk为检索领域权重,用以表示检索信息的不同描述内容的权重,则每一个描述内容对应一个φk,φk的大小反映描述内容的重要程度。则检索信息可以转换为检索信息向量,采用如下公式计算:
其中,φλi为检索信息中第i个术语的特征权重;为第i个术语在检索信息中的mi个文本描述中的检索领域权重;φkj为检索信息第j个描述内容的权重。mi为第i个术语出现在检索信息中的次数。
由此,根据原始信息向量和检索信息向量/>的余弦值可以计算两者之间的相似度,采用如下公式计算:
其中,θ(p,q)为结果调节因子,本发明中用来计算,其中α为语义扩展后的术语数量。然后根据上述公式的计算结果对检索结果进行排序。
进一步地,所述金融信息模块和所述人员信息模块,可以采用通常的检索模式进行检索(例如,公司名称、人员名称直接检索,或者布尔逻辑运算检索,而这是本领域的公知常识,此处不再赘述),也可以采用与知识产权信息模块相同的检索模型进行检索;
进一步地,所述知识产权变更/失效/诉讼信息模块,包括专利变更/失效/诉讼信息子模块、商标变更/失效/诉讼信息子模块、著作权变更/失效/诉讼信息子模块;所述金融信息风险信息模块包括股权风险信息子模块、期权风险信息子模块;所述人员及企事业法律纠纷信息模块包括法律诉讼信息子模块、劳动仲裁信息子模块;
进一步地,所述知识产权变更/失效/诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块中,根据客户输入的知识产权信息、人员信息、企事业信息请求,对知识产权变更/失效/ 诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块(三者即变动数据子系统)中存储的数据进行检索,返回知识产权信息、金融信息、人员信息、企事业信息的最新状态,并按照记录数量降序排列展示;
进一步地,基于动态超图技术的大数据检索服务系统还包括反馈子系统;所述反馈子系统接受客户的信息反馈;所述反馈子系统采用检索结果评价模型进行检索结果的评价反馈;
其中检索结果评价模型包括,检索结果质量评价子模型和检索结果重要性评价子模型;所述检索结果质量评价子模型采用如下公式计算:
式中WKVi是检索结果质量,KVi,KRi,KLi,KZi分别表示第i个检索结果的有效性指标、相关性指标、创新性指标和可读性指标得分,分别表示有效性指标、相关性指标、创新性指标和可读性指标的权重;
在所述反馈子系统接受客户的信息反馈中,检索结果重要性评价子模型可以采用检索结果浏览、检索结果下载、检索结果点击、检索结果推荐或分享、检索结果收藏、检索结果订阅等行为可以通过统计计算进行量化,其中检索结果正面的评论和回答反映客户对该检索结果的肯定和关注,反之,则反映客户对该检索结果的否定。所以,检索结果重要性评价子模型需要考虑正反两方面的因素,正反两方面的行为可以通过对客户评论内容的语义分析来获取
所述检索结果重要度评价子模型采用如下公式计算:
式中,WKAi表示第i个检索结果的重要程度,对检索结果进行各种处理的行为的权重。KLi表示检索结果浏览行为计算,计算公式如下所示:
式中,T为浏览检索结果所需的最少时间。
KPi和KWi分别表示检索结果评论和检索结果问答的计算方法,其计算公式如下所示:
当评论和问卷的问答为正面内容时,结果为1,反之,当则评论和问卷的问答为负面内容时,结果为-1。
KXi,KDi,KTi,KSi,KYi分别表示检索结果下载、检索结果点击、检索结果推荐或分享、检索结果收藏、检索结果订阅行为,每完成一次上述行为计1分,反之则不计分,其计算公式如下所示:
这样当客户在本发明中的检索系统通过索结果浏览、检索结果下载、检索结果点击、检索结果推荐或分享、检索结果收藏、检索结果订阅等行为等行为对相关检索结果进行评价,计算检索结果质量和检索结果重要性两个评价指标,得到相关检索结果的反馈指标。
一种大数据检索方法,其基于所述基于动态超图技术的大数据检索服务系统,所述方法包括如下步骤:
(1)将待检索专利X的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为原始信息向量将已存储专利Y的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为检索信息向量/>计算原始信息向量/>和检索信息向量/>的相似度并进行检索结果的初步排序;
(2)在上述检索结果的初步排序的基础上,选取前n件检索结果(即第(1)步中检索得到的专利数),其中n=2000,然后计算待检索专利X和前n件已存储专利Y的局部相似度并进行第二次结果排序;
(3)在第二次结果排序的基础上,选取前n件检索结果(即第 (2)步中排序后的专利数),其中n=2000,然后计算待检索专利X 和前n件已存储专利Y的全局相似度并进行第三次结果排序;
(4)将第三次结果排序的专利在客户端输出;
进一步地,上述方法还包括如下步骤,对第三次结果排序的专利进行知识产权变更/失效/诉讼信息查询,并标示知识产权信息的最新状态;
进一步地,上述方法还包括如下步骤,根据标示知识产权信息的最新状态,对金融信息、人员信息、企事业信息的最新状态进行标示;
进一步地,上述方法还包括如下步骤,接受客户的信息反馈;所述客户的信息反馈包括检索结果质量评价信息和检索结果重要性评价信息;根据检索结果质量评价信息和检索结果重要性评价信息,动态对第三次结果排序的专利进行顺序调整;
采用本发明的检索方法,通过技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征的语义提取,先进行初步检索,然后在此基础上,再引入局部相似度和全局相似度的结果结算排序,最终得到了整体相似度的检索结果排序,这种检索模式较之现在检索系统的纯语义词频和单纯的向量余弦值计算比对,考虑了整个专利申请作为一个有机整体的检索结果排序,而且将检索要素针对专利文本的标准格式(即技术领域、背景技术、发明内容、具体实施例)划分为技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征,这就比单纯依靠词频等语义划分,大大提高了检索效率并获得了更准确的检索结果。另外,由于加入了知识产权变更/失效/诉讼信息的查询,能够对金融信息、人员信息、企事业信息的最新状态进行标示;而根据检索结果质量评价信息和检索结果重要性评价信息,动态对第三次结果排序的专利进行顺序调整;这就大大增加了检索结果的可信度,使得客户在检索过程中能够全面、在各个维度了解企业画像,本发明的检索系统较之传统的专利信息检索系统,具有更全面的数据标示信息和可信度。
附图说明
图1为本发明的系统总架构图;
图2为本发明的方法流程步骤图;
图3为本发明未导入专利信息的客户端界面图;
图4为导入专利信息的客户端界面图;
图5为采用本发明检索系统和方法后输出的相关技术特征信息提取客户端界面图;
图6为采用计算原始信息向量和检索信息向量/>的相似度并进行检索结果的初步排序的“文本相似”结果客户端界面图;
图7为经过第二次、第三次排序及动态调整后的“语义相似”结果客户端界面图;
图8为加入信息状态更新后的“语义相似”结果客户端界面图;
图9为加入变动数据子系统的信息状态更新和客户反馈后相关专利的检索结果客户端界面图;
图10为整合上述所有信息给出的检索结果客户端界面图。
具体实施方式
以下结合附图对本发明的具体实施方式作进一步详细说明。需要注意的是,本发明中各个公式中采用了部分相同的参数,如i,但并不是一定为具有相同意义或含义的参数,这是为了表征相关数量的通用做法,这是本领域技术人员所明了的,因而不再多做赘述。
实施例1:
如图1所示为本发明的一种基于动态超图技术的大数据检索服务系统(如本领域技术人员所明了的,该系统可以是硬件系统,如服务器),包括:固态数据子系统、变动数据子系统。
所述固态数据子系统包括:知识产权信息模块、金融信息模块、人员信息模块,所述变动数据子系统包括:知识产权变更/失效/诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块; (如本领域技术人员所明了的,各系统和模块可以是硬件系统,如服务器)
所述知识产权信息模块采用整体相似度检索模型进行检索;
所述整体相似度检索模型包括局部相似度检索模型和全局相似度检索模型;其中:假设在n维向量空间中的两个向量:X(x1, x2,…,xn)和Y(y1,y2,…,yn)间的差是每个变量值差的平方和再平方根,即:
假定S(s1,s2,…,sn)是n维特征空间,待检索专利采用上述向量X(x1,x2,…,xn)表示,所述知识产权信息模块中存储的专利采用所述向量Y(y1,y2,…,yn)表示,对于待检索专利X,xi(1≤i≤n) 是它的第i个特征属性值,Wi是第i个特征属性的权重值,对于已存储的专利Y,yi(1≤i≤n)是它的第i个特征属性值,Wi是第 i个特征属性的权重值,则X,Y在S上的距离采用如下公式计算:
式中dist(xi,yi)表示两个专利X,Y在第i个属性上的局部相似度,其中
由于上述距离表示两向量之间的距离大小,表示的是两向量之间的不相似性,所以dist的值越大待检索专利X和已存储专利Y之间的距离就越大,相似度就越小,因此可以规定待检索专利X和已存储专利Y之间全局相似度为:
δi=SIM(X,Y)=1-DIST(X,Y)
式中δi表示待检索专利X和已存储专利Y的相似度。通过δi的计算公式即可计算得出待检索专利X和已存储专利Y的相似度结果,从δi的计算结果中按照相似度大小依次排列检索结果并推送至客户端;
所述待检索专利X和已存储专利Y的第i个特征属性值包括技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征;
所述待检索专利X的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为原始信息向量,所述已存储专利Y的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为检索信息向量;其中所述原始信息向量采用如下公式计算:
其中,φpi为检索词集p中第i个术语的特征权重,φoi为第i个术语与原始关键词的关系权重。在本发明中默认原始语句中的关键词可以直接反映客户的检索需求或待检索专利的技术信息,所以将其赋予最高权重,而其它扩展术语则根据词频出现程度和语义检索模型的后期训练累计进行权重赋值。
而检索信息向量来自不同的专利文本,通常出现在不同的专利描述内容中(发明名称、分类号、技术领域、背景技术、技术方案、技术效果等),其反映了不同发明的技术信息。本发明通过检索信息向量来表征不同术语的重要程度。设φk为检索领域权重,用以表示检索信息的不同描述内容的权重,则每一个描述内容对应一个φk,φk的大小反映描述内容的重要程度。则检索信息可以转换为检索信息向量,采用如下公式计算:
其中,φλi为检索信息中第i个术语的特征权重;为第i个术语在检索信息中的mi个文本描述中的检索领域权重;φkj为检索信息第j个描述内容的权重。mi为第i个术语出现在检索信息中的次数。
由此,根据原始信息向量和检索信息向量/>的余弦值可以计算两者之间的相似度,采用如下公式计算:
其中,θ(p,q)为结果调节因子,本发明中用来计算,其中α为语义扩展后的术语数量。然后根据上述公式的计算结果对检索结果进行排序。
所述金融信息模块和所述人员信息模块,可以采用通常的检索模式进行检索(例如,公司名称、人员名称直接检索,或者布尔逻辑运算检索,而这是本领域的公知常识,此处不再赘述),也可以采用与知识产权信息模块相同的检索模型进行检索;
所述知识产权变更/失效/诉讼信息模块,包括专利变更/失效/ 诉讼信息子模块、商标变更/失效/诉讼信息子模块、著作权变更/失效/诉讼信息子模块;所述金融信息风险信息模块包括股权风险信息子模块、期权风险信息子模块;所述人员及企事业法律纠纷信息模块包括法律诉讼信息子模块、劳动仲裁信息子模块;
所述知识产权变更/失效/诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块中,根据客户输入的知识产权信息、人员信息、企事业信息请求,对知识产权变更/失效/诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块(三者即变动数据子系统)中存储的数据进行检索,返回知识产权信息、金融信息、人员信息、企事业信息的最新状态,并按照记录数量降序排列展示;
基于动态超图技术的大数据检索服务系统还包括反馈子系统;所述反馈子系统接受客户的信息反馈;所述反馈子系统采用检索结果评价模型进行检索结果的评价反馈;
其中检索结果评价模型包括,检索结果质量评价子模型和检索结果重要性评价子模型;所述检索结果质量评价子模型采用如下公式计算:
式中WKVi是检索结果质量,KVi,KRi,KLi,KZi分别表示第i个检索结果的有效性指标、相关性指标、创新性指标和可读性指标得分,分别表示有效性指标、相关性指标、创新性指标和可读性指标的权重;
在所述反馈子系统接受客户的信息反馈中,检索结果重要性评价子模型可以采用检索结果浏览、检索结果下载、检索结果点击、检索结果推荐或分享、检索结果收藏、检索结果订阅等行为可以通过统计计算进行量化,其中检索结果正面的评论和回答反映客户对该检索结果的肯定和关注,反之,则反映客户对该检索结果的否定。所以,检索结果重要性评价子模型需要考虑正反两方面的因素,正反两方面的行为可以通过对客户评论内容的语义分析来获取
所述检索结果重要度评价子模型采用如下公式计算:
式中,WKAi表示第i个检索结果的重要程度,对检索结果进行各种处理的行为的权重。KLi表示检索结果浏览行为计算,计算公式如下所示:
式中,T为浏览检索结果所需的最少时间。
KPi和KWi分别表示检索结果评论和检索结果问答的计算方法,其计算公式如下所示:
当评论和问卷的问答为正面内容时,结果为1,反之,当则评论和问卷的问答为负面内容时,结果为-1。
KXi,KDi,KTi,KSi,KYi分别表示检索结果下载、检索结果点击、检索结果推荐或分享、检索结果收藏、检索结果订阅行为,每完成一次上述行为计1分,反之则不计分,其计算公式如下所示:
这样当客户在本发明中的检索系统通过索结果浏览、检索结果下载、检索结果点击、检索结果推荐或分享、检索结果收藏、检索结果订阅等行为等行为对相关检索结果进行评价,计算检索结果质量和检索结果重要性两个评价指标,得到相关检索结果的反馈指标。
如图2所示是本发明的一种大数据检索方法的流程步骤图,其基于所述基于动态超图技术的大数据检索服务系统,所述方法包括如下步骤:
(1)将待检索专利X的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为原始信息向量将已存储专利Y的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为检索信息向量/>计算原始信息向量/>和检索信息向量/>的相似度并进行检索结果的初步排序;
(2)在上述检索结果的初步排序的基础上,选取前n件检索结果(即第(1)步中检索得到的专利数),其中n=2000,然后计算待检索专利X和前n件已存储专利Y的局部相似度并进行第二次结果排序;
(3)在第二次结果排序的基础上,选取前n件检索结果(即第 (2)步中排序后的专利数),其中n=2000,然后计算待检索专利X 和前n件已存储专利Y的全局相似度并进行第三次结果排序;
(4)将第三次结果排序的专利在客户端输出;
进一步地,上述方法还包括如下步骤,对第三次结果排序的专利进行知识产权变更/失效/诉讼信息查询,并标示知识产权信息的最新状态;
进一步地,上述方法还包括如下步骤,根据标示知识产权信息的最新状态,对金融信息、人员信息、企事业信息的最新状态进行标示;
进一步地,上述方法还包括如下步骤,接受客户的信息反馈;所述客户的信息反馈包括检索结果质量评价信息和检索结果重要性评价信息;根据检索结果质量评价信息和检索结果重要性评价信息,动态对第三次结果排序的专利进行顺序调整;
采用本发明的检索方法,通过技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征的语义提取,先进行初步检索,然后在此基础上,再引入局部相似度和全局相似度的结果结算排序,最终得到了整体相似度的检索结果排序,这种检索模式较之现在检索系统的纯语义词频和单纯的向量余弦值计算比对,考虑了整个专利申请作为一个有机整体的检索结果排序,而且将检索要素针对专利文本的标准格式(即技术领域、背景技术、发明内容、具体实施例)划分为技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征,这就比单纯依靠词频等语义划分,大大提高了检索效率并获得了更准确的检索结果。另外,由于加入了知识产权变更/失效/诉讼信息的查询,能够对金融信息、人员信息、企事业信息的最新状态进行标示;而根据检索结果质量评价信息和检索结果重要性评价信息,动态对第三次结果排序的专利进行顺序调整;这就大大增加了检索结果的可信度,使得客户在检索过程中能够全面、在各个维度了解企业画像,本发明的检索系统较之传统的专利信息检索系统,具有更全面的数据标示信息和可信度。
实施例2:
与上述实施例一类似,本发明的实施例二中采用数据库链接池管理技术对上述各个模块中的数据库进行管理,部分代码如下:
实施例3:
与上述实施例一、二类似,图3-7显示了本发明的实施例3中采用上述检索系统和方法所实现的客户端使用界面图。
其中图3为未导入专利信息的客户端界面图;
图4为导入专利信息的客户端界面图;
图5为采用本发明检索系统和方法后输出的相关技术特征信息提取客户端界面图;
图6为采用计算原始信息向量和检索信息向量/>的相似度并进行检索结果的初步排序的“文本相似”结果客户端界面图;
图7为经过第二次、第三次排序及动态调整后的“语义相似”结果客户端界面图;
从上述图示的变化中可以看出,采用本发明的检索系统和检索方法后,在“语义相似”结果中获得专利信息其技术相关程度较之初始排序结果即“文本相似”检索结果在技术内容上更加相关,这充分证明了本发明的精准性。
而图8为加入信息状态更新后的“语义相似”结果客户端界面图,虽然图中显示了“共10件相似专利”,但本领域技术人员可以明了的是,为了兼顾各用户的使用效率,系统中将推送的结果设置成了前 10项专利,可以根据需要将推送结构的数量调成2000;
图9为加入变动数据子系统的信息状态更新和客户反馈后相关专利的检索结果客户端界面图,从图中可以看出,采用本发明的检索系统,不但给出了专利的有效性(即变更、无效、诉讼),还给出了相关企业的科技评价指数、专利评分;
图10为整合上述所有信息给出的检索结果客户端界面图,从图中可以看出,在本发明的系统客户端中,给出了“企业全景”、“知识产权”、“技术主业”、“技术分析”、“专利人才”、“关系图谱”、“技术竞品”、“投融资”、“法律风险”等各个模块子链接,通过点击该子链接可以获得相关更详细的信息。此处不再赘述。
上述实施例并非对本发明的范围进行限定,在不脱离本发明设计构思的前提下,本领域所属技术人员对本发明的技术方案作出的各种变形和改进,均应纳入本发明的权利要求书确定的保护范围内。

Claims (15)

1.一种基于动态超图技术的大数据检索服务系统,包括:固态数据子系统、变动数据子系统,其特征在于:所述固态数据子系统包括:知识产权信息模块、金融信息模块、人员信息模块,所述变动数据子系统包括:知识产权变更/失效/诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块。
2.如权利要求1所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:所述知识产权信息模块采用整体相似度检索模型进行检索。
3.如权利要求2所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:所述整体相似度检索模型包括局部相似度检索模型和全局相似度检索模型;其中:
S(s1,s2,…,sn)是n维特征空间,待检索专利采用向量X(x1,x2,…,xn)表示,所述知识产权信息模块中存储的专利采用向量Y(y1,y2,…,yn)表示,对于待检索专利X,xi(1≤i≤n)是它的第i个特征属性值,Wi是其第i个特征属性的权重值;对于已存储的专利Y,yi(1≤i≤n)是它的第i个特征属性值,Wi是其第i个特征属性的权重值,则X,Y在S上的距离采用如下公式计算:
式中dist(xi,yi)表示两个专利X,Y在第i个属性上的局部相似度,其中
待检索专利X和已存储专利Y之间全局相似度采用如公式计算:
δi=SIM(X,Y)=1-DIST(X,Y)
式中δi表示待检索专利X和已存储专利Y的相似度。
4.如权利要求3所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:所述待检索专利X和已存储专利Y的第i个特征属性值包括技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征。
5.如权利要求4所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:所述待检索专利X的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为原始信息向量,所述已存储专利Y的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为检索信息向量;其中所述原始信息向量采用如下公式计算:
其中,φpi为检索词集p中第i个术语的特征权重,φoi为第i个术语与原始关键词的关系权重;
检索信息向量,采用如下公式计算:
其中,φλi为检索信息中第i个术语的特征权重;为第i个术语在检索信息中的mi个文本描述中的检索领域权重;φkj为检索信息第j个描述内容的权重;mi为第i个术语出现在检索信息中的次数。
6.如权利要求4所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:根据原始信息向量和检索信息向量/>的余弦值计算两者之间的相似度,采用如下公式计算:
其中,θ(p,q)为结果调节因子,用来计算,其中α为语义扩展后的术语数量或词频;根据上述公式的计算结果对检索结果进行排序。
7.如权利要求5所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:所述金融信息模块和所述人员信息模块,采用布尔运算检索模式进行检索或采用与知识产权信息模块相同的检索模型进行检索。
8.如权利要求1-5中任一项所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:所述知识产权变更/失效/诉讼信息模块,包括专利变更/失效/诉讼信息子模块、商标变更/失效/诉讼信息子模块、著作权变更/失效/诉讼信息子模块;所述金融信息风险信息模块包括股权风险信息子模块、期权风险信息子模块;所述人员及企事业法律纠纷信息模块包括法律诉讼信息子模块、劳动仲裁信息子模块。
9.如权利要求1-6中任一项所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:所述知识产权变更/失效/诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块中,根据客户输入的知识产权信息、人员信息、企事业信息请求,对知识产权变更/失效/诉讼信息模块,金融信息风险信息模块、人员及企事业法律纠纷信息模块中存储的数据进行检索,返回知识产权信息、金融信息、人员信息、企事业信息的最新状态,并按照记录数量降序排列展示。
10.如权利要求1-7中任一项所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:所述基于动态超图技术的大数据检索服务系统还包括反馈子系统;所述反馈子系统接受客户的信息反馈;所述反馈子系统采用检索结果评价模型进行检索结果的评价反馈。
11.如权利要求8所述的一种基于动态超图技术的大数据检索服务系统,其特征在于:其中检索结果评价模型包括,检索结果质量评价子模型和检索结果重要性评价子模型;所述检索结果质量评价子模型采用如下公式计算:
式中WKVi是检索结果质量,KVi,KRi,KLi,KZi分别表示第i个检索结果的有效性指标得分、相关性指标得分、创新性指标得分和可读性指标得分,分别表示有效性指标权重、相关性指标权重、创新性指标权重和可读性指标的权重;
所述检索结果重要度评价子模型采用如下公式计算:
式中,WKAi表示第i个检索结果的重要程度,为对检索结果进行各种处理行为的权重;KLi表示检索结果浏览行为计算,计算公式如下所示:
式中,T为浏览检索结果所需的最少时间;
KPi和KWi分别表示检索结果评论和检索结果问答的计算方法,其计算公式如下所示:
当评论和问答为正面内容时,结果为1,反之,当则评论和问答为负面内容时,结果为-1;
KXi,KDi,KTi,KSi,KYi分别表示检索结果下载行为、检索结果点击行为、检索结果推荐或分享行为、检索结果收藏行为、检索结果订阅行为,每完成一次上述行为计1分,反之则不计分,其计算公式如下所示:
当客户在检索系统通过索结果浏览、检索结果下载、检索结果点击、检索结果推荐或分享、检索结果收藏、检索结果订阅行为对相关检索结果进行评价,计算检索结果质量和检索结果重要性两个评价指标,得到相关检索结果的反馈指标。
12.一种大数据检索方法,其基于如权利要求1-9中任一项所述的基于动态超图技术的大数据检索服务系统,其特征在于,所述方法包括如下步骤:
(1)将待检索专利X的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为原始信息向量将已存储专利Y的技术领域信息特征、技术问题信息特征、技术方案信息特征、技术效果信息特征表征为检索信息向量/>计算原始信息向量/>和检索信息向量/>的相似度并进行检索结果的初步排序;
(2)在上述检索结果的初步排序的基础上,选取前n件检索结果,其中n=2000,然后计算待检索专利X和前n件已存储专利Y的局部相似度并进行第二次结果排序;
(3)在第二次结果排序的基础上,再次重新选取前n件检索结果,其中n=2000,然后计算待检索专利X和前n件已存储专利Y的全局相似度并进行第三次结果排序;
(4)将第三次结果排序的专利在客户端输出。
13.如权利要求10所述的一种大数据检索方法,其特征在于:所述方法还包括如下步骤,对第三次结果排序的专利进行知识产权变更/失效/诉讼信息查询,并标示知识产权信息的最新状态。
14.如权利要求11所述的一种大数据检索方法,其特征在于:所述方法还包括如下步骤,根据标示知识产权信息的最新状态,对金融信息、人员信息、企事业信息的最新状态进行标示。
15.如权利要求10-12中任一项所述的一种大数据检索方法,其特征在于:所述方法还包括如下步骤,接受客户的信息反馈;所述客户的信息反馈包括检索结果质量评价信息和检索结果重要性评价信息;根据检索结果质量评价信息和检索结果重要性评价信息,动态对第三次结果排序的专利进行顺序调整。
CN202210491545.1A 2022-05-07 2022-05-07 一种基于动态超图技术的大数据检索服务系统及方法 Pending CN117056392A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210491545.1A CN117056392A (zh) 2022-05-07 2022-05-07 一种基于动态超图技术的大数据检索服务系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210491545.1A CN117056392A (zh) 2022-05-07 2022-05-07 一种基于动态超图技术的大数据检索服务系统及方法

Publications (1)

Publication Number Publication Date
CN117056392A true CN117056392A (zh) 2023-11-14

Family

ID=88667952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210491545.1A Pending CN117056392A (zh) 2022-05-07 2022-05-07 一种基于动态超图技术的大数据检索服务系统及方法

Country Status (1)

Country Link
CN (1) CN117056392A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117314266A (zh) * 2023-11-30 2023-12-29 贵州大学 一种基于超图注意力机制的新型科技人才智能评价方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117314266A (zh) * 2023-11-30 2023-12-29 贵州大学 一种基于超图注意力机制的新型科技人才智能评价方法
CN117314266B (zh) * 2023-11-30 2024-02-06 贵州大学 一种基于超图注意力机制的新型科技人才智能评价方法

Similar Documents

Publication Publication Date Title
US11347963B2 (en) Systems and methods for identifying semantically and visually related content
US9589208B2 (en) Retrieval of similar images to a query image
AU2022201654A1 (en) System and engine for seeded clustering of news events
Soibelman et al. Management and analysis of unstructured construction data types
US9165254B2 (en) Method and system to predict the likelihood of topics
US8131684B2 (en) Adaptive archive data management
US9497277B2 (en) Interest graph-powered search
US20210042866A1 (en) Method and apparatus for the semi-autonomous management, analysis and distribution of intellectual property assets between various entities
US20100153371A1 (en) Method and apparatus for blending search results
US20160350294A1 (en) Method and system for peer detection
CN112035658B (zh) 基于深度学习的企业舆情监测方法
AU2009251198B2 (en) Entity assessment and ranking
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
CN107918644A (zh) 声誉管理框架内的新闻议题分析方法和实施系统
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CA2956627A1 (en) System and engine for seeded clustering of news events
Aruleba et al. A full text retrieval system in a digital library environment
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
CN117056392A (zh) 一种基于动态超图技术的大数据检索服务系统及方法
Sun et al. Research on question retrieval method for community question answering
Scholtes et al. Big data analytics for e-discovery
US20140280149A1 (en) Method and system for content aggregation utilizing contextual indexing
Sebastine et al. Semantic web for content based video retrieval
Ni An Intelligent Retrieval Algorithm for Digital Literature Promotion Information Based on TRS Information Retrieval
US20230409996A1 (en) Method and apparatus for retrieving relevant records from a database using prediction models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination