CN115858906A - 企业搜索方法、装置、设备、计算机存储介质及程序 - Google Patents
企业搜索方法、装置、设备、计算机存储介质及程序 Download PDFInfo
- Publication number
- CN115858906A CN115858906A CN202211675141.4A CN202211675141A CN115858906A CN 115858906 A CN115858906 A CN 115858906A CN 202211675141 A CN202211675141 A CN 202211675141A CN 115858906 A CN115858906 A CN 115858906A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- search
- knowledge graph
- index
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种企业搜索方法、装置、设备、计算机存储介质及程序。该方法包括:确定搜索任务对应的企业知识图谱;从企业知识图谱的索引表中确定包含关键词的目标检索索引,索引表中包含多条检索索引,每条检索索引均包含关键词和关键词索引的数据库位置;将目标检索索引输入预先训练好的事件搜索模型,以使事件搜索模型按照最短路径从关键词索引的数据库位置中检索与关键词相关的数据;将与关键词相关的数据作为搜索任务对应的搜索结果进行输出。根据本申请实施例,基于企业信息构建企业知识图谱从而实现了企业信息的整理分类,而基于企业知识图谱进行企业搜索可以提高企业搜索的时效性、准确性,从而提高企业搜索的效率。
Description
技术领域
本申请属于企业信息管理技术领域,尤其涉及一种企业搜索方法、装置、设备、计算机存储介质及程序。
背景技术
企业搜索是指通过搜索软件对企业内部的各种结构化信息与非结构化的信息进行索引,并提供检索方法。在企业中,高层决策者经常通过企业搜索系统来搜索企业的相关信息,以辅助其做出各种决策、应对各种突发事件等。
由于企业内部数据信息量较多且类型繁杂,需要对企业信息进行整理分类,以便于保障搜索信息时的时效性和准确性,在这样的要求下,需要企业搜索系统在信息整理方面和企业搜索速度方面进行较大的提高,否则易于导致企业搜索的整体效率降低,同时使得对于企业搜索系统的工作效率降低,因此,现在急需一种可以提升信息整理能力和搜索速度的企业搜索方法。
发明内容
本申请实施例提供一种企业搜索方法、装置、设备、计算机存储介质及程序,基于企业信息构建企业知识图谱从而实现了企业信息的整理分类,而基于企业知识图谱进行企业搜索可以提高企业搜索的时效性、准确性,从而提高企业搜索的效率。
第一方面,本申请实施例提供一种企业搜索方法,方法包括:
确定搜索任务对应的企业知识图谱,搜索任务中包含关键词,企业知识图谱基于企业信息预先构建;
从企业知识图谱的索引表中确定包含关键词的目标检索索引,索引表中包含多条检索索引,每条检索索引均包含关键词和关键词索引的数据库位置,数据库与企业知识图谱对应,数据库中存储有企业数据;
将目标检索索引输入预先训练好的事件搜索模型,以使事件搜索模型按照最短路径从关键词索引的数据库位置中检索与关键词相关的数据;
将检索到的与关键词相关的数据作为搜索任务对应的搜索结果进行输出。
第二方面,本申请实施例提供了一种企业搜索装置,装置包括:
图谱确定模块,用于确定搜索任务对应的企业知识图谱,搜索任务中包含关键词,企业知识图谱基于企业信息预先构建;
索引确定模块,用于从企业知识图谱的索引表中确定包含关键词的目标检索索引,索引表中包含多条检索索引,每条检索索引均包含关键词和关键词索引的数据库位置,数据库与企业知识图谱对应,数据库中存储有企业数据;
数据搜索模块,用于将目标检索索引输入预先训练好的事件搜索模型,以使事件搜索模型按照最短路径从关键词索引的数据库位置中获取与关键词相关的数据;
结果输出模块,用于将检索到的与关键词相关的数据作为搜索任务对应的搜索结果进行输出。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行所述计算机程序指令时实现如第一方面的任一项实施例中所述的企业搜索方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面的任一项实施例中所述的企业搜索方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面的任一项实施例中所述的企业搜索方法的步骤。
本申请实施例的企业搜索方法、装置、设备、计算机存储介质及程序,预先基于企业信息构建企业知识图谱,在进行企业搜索时,确定搜索任务对应的企业知识图谱,从企业知识图谱的搜索表中确定包含搜索任务中关键词的检索索引,将检索索引输入事件搜索模型,以使事件搜索模型按照最短路径从企业知识图谱对应的数据库中检索到关键词对应的数据,并将检索到的数据作为搜索结果进行输出。根据本申请实施例,基于企业信息构建企业知识图谱从而实现了企业信息的整理分类,而基于企业知识图谱进行企业搜索可以提高企业搜索的时效性、准确性,从而提高企业搜索的效率,而基于检索索引进行数据检索,可以减少检索范围,提高检索效率,通过事件搜索模型基于最短路径进行检索,可以进一步缩短检索所需的时间,从而进一步提高搜索效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种企业搜索方法的流程示意图;
图2是本申请实施例提供的一种企业搜索方法的确定推荐数据包的流程示意图;
图3是本申请实施例提供的另一种企业搜索方法的流程示意图;
图4是本申请实施例提供的一种企业搜索装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
现有的企业搜索系统,主要基于客户端和服务器端实现,客户端主要包括检索范围管理模块、数据通信模块和数据处理模块,服务器端主要包括数据通信模块、数据存取模块、数据解析模块和搜索模块。客户端的数据被收集并被赋予安全属性,根据安全属性生成保护型索引信息或取得数据本身,保护型索引信息或数据本身被上传至服务器端,检索范围管理模块跟踪客户端设备的数据状态,在数据状态发生变化时将变更的数据信息提示给用户,用户能够设定该数据的安全属性,服务器端接收上传来的数据信息并保存,对客户端的数据和服务器端的固有数据进行解析,生成普通型索引信息并保存,有搜索请求时,服务器端分析请求并进行检索,向用户返回检索结果。
由于企业内部数据信息量较多且类型繁杂,需要对企业信息进行整理分类,以便于保障搜索信息时的时效性和准确性,在这样的要求下,需要企业搜索系统在信息整理方面和企业搜索速度方面进行较大的提高,否则易于导致企业搜索的整体效率降低,同时使得对于企业搜索系统的工作效率降低,因此,现在急需一种可以提升信息整理能力和搜索速度的企业搜索方法。
为了解决现有技术问题,本申请实施例提供了一种企业搜索方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的企业搜索方法进行介绍。
图1示出了本申请一个实施例提供的企业搜索方法的流程示意图。如图1所示,该方法包括如下步骤:
S110、确定搜索任务对应的企业知识图谱,搜索任务中包含关键词,企业知识图谱基于企业信息预先构建;
S120、从企业知识图谱的索引表中确定包含搜索任务中的关键词的目标检索索引,索引表中包含多条检索索引,每条检索索引均包含关键词和关键词索引的数据库位置,数据库与企业知识图谱对应,数据库中存储有企业数据;
S130、将目标检索索引输入预先训练好的事件搜索模型,以使事件搜索模型按照最短路径从关键词索引的数据库位置中检索与关键词相关的数据;
其中,关键词索引的数据库位置指目标检索索引中包含的关键词索引的数据库位置。
S140、将检索到的与关键词相关的数据作为搜索任务对应的搜索结果进行输出。
由此,根据本申请实施例提供的中间件配置的优化方法,预先基于企业信息构建企业知识图谱,在进行企业搜索时,确定搜索任务对应的企业知识图谱,从企业知识图谱的搜索表中确定包含搜索任务中关键词的检索索引,将检索索引输入事件搜索模型,以使事件搜索模型按照最短路径从企业知识图谱对应的数据库中检索到关键词对应的数据,并将检索到的数据作为搜索结果进行输出。根据本申请实施例,基于企业信息构建企业知识图谱从而实现了企业信息的整理分类,而基于企业知识图谱进行企业搜索可以提高企业搜索的时效性、准确性,从而提高企业搜索的效率,而基于检索索引进行数据检索,可以减少检索范围,提高检索效率,通过事件搜索模型基于最短路径进行检索,可以进一步缩短检索所需的时间,从而进一步提高搜索效率。
在一些实施例中,企业知识图谱可以包括多个不同历史版本的企业知识图谱,不同历史版本的企业知识图谱可用于完成不同的搜索任务。企业信息可以包括常规数值信息、文本信息、图像信息、视频信息和语音信息等。
作为一种示例,基于企业信息预先构建企业知识图谱可以是,首先通过接口或爬虫获取企业相关的多模态的信息和数据,这里的企业相关的多模态的信息可以是常规数值信息、文本信息、图像信息、视频信息和语音信息等企业信息。获取到企业信息后,可以基于信息数据清理等预处理手段对企业信息进行预处理,并按企业信息的格式选择合理的分类存储方式。然后对企业信息进行特征提取,具体可以通过大规模数据,结合统计学习和逻辑规则方法,来进行企业信息的多模态数据特征提取的训练,根据与上述文本信息、图像信息、视频信息和语音信息对应的文本特征、图像特征、视频特征和语音特征,分别根据获取的文本特征提取神经网络模型、图像特征提取神经网络模型、视频特征提取神经网络模型、语音特征提取神经网络模型,获取文本数据特征、图像数据特征、视频数据特征和语音数据特征,并通过逻辑规则方法获取常规数值数据特征。
进一步地,为了获取到与各个数据特征对应的表征特征,基于获取的各个数据特征进行统一表示、关联分析、共性选择和粗分类,例如首先利用深度学习技术进行统一表示,再利用聚类算法、关联算法和距离算法对各个数据特征进行关联分析和分类。进行分类后可以获取到各个类别的多模态混合数据特征,如此,通过统计学习方法、逻辑规则和深度学习方法,可以获取粗糙表示的各个类别的共性特征,即表征特征。获取到各个数据特征对应的表征特征后,可以将表征特征存入预设的数据库中,再使用NoSQL(Not Only SQL)数据库,利用NoSQL基于对键值的存储方式,进行多模态数据的存储和管理。通过企业信息的多模态数据的各个特征提取模型,获取各个类别的表征特征作为索引,类别中的文本数据、图像数据、视频数据和语音数据作为对应的值,以此来存入数据库中,可以利用特征信息作为索引来有效的管理和使用数据。
为了获取知识图谱的基础,可以从多模态数据中抽取实体、属性和关联关系,并以各个类别为基准,获取构建知识图谱的基础。这里的实体抽取例如可以是抽取文本中的原子信息,例如可以包括人名、组织机构名、位置、时间和金钱等。关联关系抽取例如可以是基于抽取到的实体与实体之间的关系进行的抽取。可以通过统计学习方法、逻辑规则方法和深度学习方法,分别对各个类别中的图像数据、语音数据、文本数据、视频数据进行常规实体抽取、属性抽取和关系抽取分析,来获取实体、属性和关联关系信息,如此可以有效降低构建知识图谱的工作量。再进行企业信息之间的关联分析以及交叉验证,并对跨类别的企业信息进行交叉关联分析获取新的实体、属性和关联关系,来进行跨模态的关联分析和交叉验证以去除错误信息。如此,将获取的置信度高的实体、属性和关联关系信息,作为构建知识图谱的基础,可以提升知识图谱核心元素的可信度。
最后,基于获取的知识图谱基础,构建跨模态数据的统一表征的企业知识图谱,这里,可以采用常规的表示方法,对企业知识图谱进行统一表征,基于常规知识图谱构建技术,对构建的企业知识图谱进行知识推理研究,建立实体间隐藏的关系图,以此得到拓展后的企业知识图谱。
如此,基于预先构建的多个历史版本企业知识图谱,可以确定搜索任务对应的企业知识图谱。可以基于不同历史版本的知识图谱,完成不同的搜索任务,例如可以在搜索前在系统中通过预先构建的数学模型,安排好多个企业知识图谱对应的搜索任务,以此来提高效率。并且数据库中记录有利用各个历史版本企业知识图谱,对各类型企业信息进行企业搜索的处理历史信息,处理历史信息中包含各个历史版本企业知识图谱对于各类型企业信息完成相应的企业搜索的处理用时。
基于此,作为一种示例,在S110中,上述确定搜索任务对应的企业知识图谱,具体可以包括:
预先构建n个版本的企业知识图谱,在接收到n个搜索任务的情况下,按照预先构建的数学模型,确定n个搜索任务中各搜索任务对应的企业知识图谱版本;
针对每个搜索任务,将其对应的企业知识图谱版本的企业知识图谱作为该搜索任务对应的企业知识图谱;
其中,数学模型如下公式(1)、公式(2)和公式(3)所示:
其中,minz为目标函数,表示完成全部n个搜索任务所消耗的总资源数最小,xij表示第i个版本的企业知识图谱完成第j个搜索任务所消耗的资源数,cij为常数项,s·t表示约束条件,其中,表示第i个版本的企业知识图谱只负责一个搜索任务,表示第j个搜索任务只能由一个版本的企业知识图谱负责,xij=0或1表示xij只能取0或1。
另外,基于上述数学模型,例如可以采用矩阵覆盖法求解或直接利用matlab程序进行0-1规划求解法解决。其中,矩阵覆盖法步骤可以包括:
步骤1:求等价分配矩阵(每行每列减去最小的元素);
步骤2:求独立零元,并添加标记框(非同列同行的零);
步骤3:最优判别为达到n个独立零元时停止计算;
步骤4:求覆盖线:封锁没有添加标记框零元的行,封锁后打钩标记;在封锁行中未添加标记框零元的列也封锁,在封锁列中有标记框零元的行也封锁,未封锁行与封锁列画上覆盖线;
步骤5:调节分配矩阵:在未覆盖元中选取最小元k,未覆盖行减去k,覆盖列加上k,转至步骤2。
由此,在接收到多个搜索任务的情况下,可以通过预先构建的数学模型,在多个历史版本企业知识图谱中,确定出搜索任务对应的企业知识图谱,大大提高了搜索效率。
在一些实施例中,在构建企业知识图谱后,为了提高搜索效率可以为各企业知识图谱加入索引表,如此在S120中,可以先从索引表中确定搜索任务中包含的关键词对应的检索索引也即目标检索索引。
其中,索引表中包含的多条检索索引,每条检索索引均包含关键词和关键词索引的数据库位置,数据库与企业知识图谱对应的数据库,数据库中存储有企业数据。
索引表中的检索索引可以是倒排索引,倒排索引是一种数据结构,可以表示一种映射,例如以字、词或数字为关键字进行索引,映射到出现这个字或词的所有文档或者数据库文件。与企业知识图谱对应的数据库中存储的企业数据,例如可以是与企业信息对应的企业数据。
作为一种示例,企业知识图谱的索引表中采用倒排索引,其中,倒排索引由termindex(词项索引)、term dictionary(词典)和posting list(倒排表)三部分组成。如此,在企业知识图谱的索引表中确定包含关键词的目标检索索引后,可以基于term index在termdictionary也就是与企业知识图谱对应的数据库中,确定关键词索引的数据库位置。其中,term index有很多种词典结构,比如哈希表,B树、B+、FST。
在一些实施例中,在S130中,最短路径可以是企业知识图谱中各个节点之间的最短路径,例如可以根据识别企业知识图谱中节点之间的关系距离确定。其中,各个节点例如可以包括事件、地点、参与者等基本要素,可以由某个动作触发或者状态改变而发生的一个图结构知识片段。由此,事件搜索模型可以基于最短路径,从关键词索引的数据库位置中检索与关键词相关的数据。
作为一种示例,为了通过事件搜索模型基于最短路径检索到与关键词相关的数据,在上述S130之前,可以先构建事件搜索模型,构建事件搜索模型可以包括:
对企业知识图谱进行知识检索,确定其中各节点之间的最短路径;
基于各节点之间的最短路径和深度学习算法构建事件搜索模型。
其中,深度学习算法例如可以包括但不限于以下几种方式:
神经网络算法,神经网络是一个具有相互连接的节点的计算系统,其节点的工作方式更像是人脑中的神经元。这些神经元在它们之间进行处理并传递信息。每个神经网络都是一系列的算法,这些算法试图通过一个模拟人类大脑运作的过程来识别一组数据中的潜在关系。
反向传播算法,是一种非常流行的用于训练前馈神经网络的监督学习算法。
前馈神经网络算法,通常是全连接,这意味着层中的每个神经元都与下一层中的所有其他神经元相连。
卷积神经网络算法,除了为机器人和自动驾驶汽车的视觉提供帮助外,还成功的应用于人脸识别,对象监测和交通标志识别等领域。
循环神经网络算法,在许多NLP(Natural Language Processing,自然语言处理)任务中都非常成功。在传统的神经网络中,可以理解所有输入和输出都是独立的。
递归神经网络算法,是循环网络的另一种形式,不同之处在于它们是树形结构。因此,它们可以在训练数据集中建模层次结构。
自编码器可在输出处恢复输入信号。它们内部有一个隐藏层。自编码器设计为无法将输入准确复制到输出,但是为了使误差最小化,网络被迫学习选择最重要的特征。
受限玻尔兹曼机算法,是一个随机神经网络(神经网络,意味着我们有类似神经元的单元,其binary激活取决于它们所连接的相邻单元。
GAN(Generative Adversarial Networks,生成式对抗网络)算法,正在成为一种流行的在线零售机器学习模型,因为它们能够以越来越高的准确度理解和重建视觉内容。
图神经网络算法,其目的是对图数据进行建模,这意味着它们识别图中节点之间的关系,并对其进行数值表示。它们以后可以在任何其他机器学习模型中用于各种任务,例如聚类,分类等。
作为一种示例,以基于图神经算法构建事件搜索模型为例,对企业知识图谱进行知识检索,然后可以采用图神经网络算法来对事件检索最短路径基于对应的图数据进行建模,可以识别企业知识图谱中节点之间的关系,并将其用数值进行表示。这里的图神经网络通常由传播模块(PropagationModule)和输出模块(Output Module)两个模块组成。
其中,传播模块用于企业知识图谱中各节点之间传递信息并更新状态;聚合器(aggregator)用于对于一个节点v,通过聚合其周围节点的信息,基于如下公式(4)学习其潜在表示hv(state embedding)。Updater用于基于如下公式(5)更新节点的stateembedding。
hv=f(Xv,Xco[v],hne[v],Xne[v]) (4)
Ht+1=F(Ht,X) (5)
其中,Xv为节点v的特征信息(features),Xco[v]为其周围边的features,hne[v]表示节点v周围邻居节点的state embedding,Xne[v]表示周围节点的features。
输出模块可以基于节点和边的向量表示根据不同的任务定义目标函数,如下公式(6)所示。
在监督学习场景中,对于一个特定的节点,其监督信号表示为:tv,lossfunction定义为如下公式(7)所示。
由此,通过深度学习算法对企业知识图谱中各个节点之间的最短路径进行模型训练,基于得到的事件搜索模型,提高了从关键词索引的数据库位置中检索与关键词相关的数据的效率。
在一些实施例中,在输出搜索结果之前,为了提高企业搜索的智能化和搜索效率,可以将企业数据以企业数据包的形式进行分装,相应的,上述S140的具体实现方式可以包括:
将检索到的与关键词相关的数据以企业数据包的形式进行封装,获得与关键词相关的企业数据包;将与关键词相关的企业数据包作为搜索任务对应的搜索结果进行输出。
每个企业数据包的内容不同,但都包含有若干个数据特征值。企业数据包的表现形式为常规的表现形式,例如可以是表单类、流程类或统计类。如此,可以对企业数据包的特征内容进行提取,数据特征数值表示特征内容在总内容中的占比。
基于此,将与关键词相关的数据以企业数据包的形式进行输出,用户便可以获取到与搜索任务对应的企业数据包。
进一步的,如图2所示,在一些实施例中,该企业搜索方法还可以包括:
S210、获取用户对使用过的企业数据包的评分,评分指用户对企业数据包的喜爱度分值;
S220、基于评分,构建企业数据包的评分矩阵;
S230、根据评分矩阵和与关键词相关的企业数据包,确定推荐数据包,其中,与关键词相关的企业数据包即为在S140分装得到的企业数据包;
S240、将推荐数据包也作为搜索任务对应的搜索结果进行输出。
其中,评分是用户在在使用数据包后对企业数据包进行评分得到的,但用户也可以不进行评分,因此在基于评分构建的企业数据包的评分矩阵时,评分情况是稀疏的。
作为一种示例,由于存在评分矩阵稀疏的情况,因此需要在根据喜爱度确定推荐数据包之前,将稀疏的评分矩阵补全。评分矩阵R可以由两个矩阵的乘积近似得到,如下公式(8)所示:
R≈PTQ(8)
其中,评分矩阵R是m*n的,存在m个用户和n个企业数据包,每个用户不能同时使用所有企业数据包,仅对其中部分的企业数据包进行了评分;P是k*m维的,第i列向量当做用户i的特征pi,这个特征pi是k维的;Q是k*n维的,第j列向量当做企业数据包j的特征qj,这个特征qj也是k维的。
例如,现有100个用户和1000个企业数据包,用户对使用过的企业数据包进行评分,从而形成用户-企业数据包评分矩阵;为了区分不同的用户和企业数据包,给定3种特征内容,即k=3,分别为表单类、流程类和统计类;第1个用户的特征p1=[0.8,0.2,0.1]T,意思为用户更偏爱表单类的内容,第2个企业数据包的特征q2=[0.3,0.2,0.6]T,意思是这个企业数据包更偏向于统计类,所以第一个用户使用完第二个企业数据包之后的评分,预测为11 Tq2=0.34,得到一个综合的喜爱程度。
因此,要得到上述P和Q,并使PTQ接近R,存在如下公式(9)所示的损失函数minL。
进一步对上述损失函数minL进行求导可以得到如下公式(10)和公式(11)。
其中,其中λ为正则化系数,需要调参,I为单位矩阵。可以得到更新策略满足如下公式(12)和公式(13)。
其中,α表示学习率,最后通过上述迭代更新,得到P和Q,从而得到近似的评分矩阵PTQ,从而补全评分矩阵R。
由此,可以根据补全的评分矩阵R确定推荐数据包,基于直接搜索得到的与关键词相关的企业数据包的偏好类型,自动推荐同一偏爱类型的其他企业数据包作为推荐数据包,通过确定推荐数据包以便于实现高效智能的企业搜索能力。
作为一种示例,为了更加智能和高效的进行企业搜索,上述S230具体可以包括:
确定与关键词相关的企业数据包的偏好类型;
根据偏好类型,基于评分矩阵,选取偏好类型中评分满足预设条件的企业数据包作为推荐数据包。
作为一种示例,根据与关键词相关的企业数据包的偏好类型后,可以根据偏好类型,基于评分矩阵选择推荐数据包。其中,推荐数据包的确定方法可以是基于已补全的评分矩阵R,根据直接搜索得到的企业数据包的偏好类型,选择该偏爱类型中评分最高的前五名进行推荐;或是基于已补全的评分矩阵R,根据直接搜索得到的企业数据包的偏好类型,选择该偏好类型中评分最高的进行推荐,并选择当前用户喜爱程度最高,即用户评分最高的进行推荐。
由此,通过基于企业知识图谱的企业搜索,实现不同的业务人员快速高效地进行企业搜索、搜索内容增添、归类和智能搜索/推荐,使得企业搜索更加智能和高效。
通常企业的信息、数据经常会更新,为了保证企业信息和数据更新后,企业知识图谱仍可以继续使用,会将更新的数据作为增添内容添加到企业知识图谱中,以实现对企业知识图谱的更新。
为了在企业知识图谱中增添内容,本申请还提供了企业搜索方法的另一种实施例。如图3所示,该方法还可以包括:
S310、在需要向企业知识图谱中增添内容的情况下,对待增添内容进行归类,确定待增添内容所属的类别;
S320、将待增添内容添加到企业知识图谱中待增添内容所属的类别中。
在一些实施例中,待增添内容所属类别例如可以根据待增添内容与各个分类信息点之间的距离来确定。以此,可以将待增添内容添加到企业知识图谱中与待增添内容对应的所属类别中。
作为一种示例,上述企业知识图谱包含多个类别内容,为了确定待增添内容所属类别,上述S310具体可以包括:
确定待添加内容与企业知识图谱中各类别之间的距离;
选取多个类别中,与待添加内容之间距离最短的类别作为待添加内容所属的类别。
作为一种示例,在需要为企业知识图谱中不同类别内容进行增添内容时,可以根据如下公式(14)为待增添内容进行归类。
其中,di为待增添内容的点与各个类别的特征信息点之间的距离,上述点表示二维坐标系中的带有坐标的点,该二维坐标系由企业知识图谱内全部类别的两种特征信息数据值作为横纵坐标,待增添内容也包含这两种特征信息数据值,并且上述二维坐标系内预先显示有各个类别的象征型内容的坐标点。其中,x1表示待增添内容的点的横坐标,yi表示待增添内容的点的纵坐标,x2表示各个类别的象征型内容的坐标点的横坐标,yi表示各个类别的象征型内容的坐标点的纵坐标。
为了提高归类的准确性和比对距离之间的效率,可以引入如下公式(15)、公式(16)和公式(17)的调整函数s(di)。
ds=s(di)*di (15)
f(di)=[di]*(1+(di-[di])) (17)
其中,ds表示经由调整函数处理后的距离,dk表示抛弃数据的距离,可以由业务人员或管理者设定并调整,有利于预先去除距离较远的归类选择;f(di)表示距离变换函数,用于按照权重和距离本身基数实现适应性增大,有利于显现各个距离之间的差别;[di]表示对di进行取整。
由此,可以将上述各个ds中的最小值对应的分类作为归类目标,并将待增添内容归类至对应象征型内容的坐标点所属的分类中,实现快速增添内容并自动归类,提高系统的整理效率。
需要说明的是,上述本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于相同的发明构思,本申请还提供了一种企业搜索装置。具体结合图4进行详细说明。
图4是本申请实施例提供的一种企业搜索装置的结构示意图。
如图4所示,该企业搜索装置400可以包括:
图谱确定模块401,用于确定搜索任务对应的企业知识图谱,搜索任务中包含关键词,企业知识图谱基于企业信息预先构建;
索引确定模块402,用于从企业知识图谱的索引表中确定包含关键词的目标检索索引,索引表中包含多条检索索引,每条检索索引均包含关键词和关键词索引的数据库位置,数据库与企业知识图谱对应,数据库中存储有企业数据;
数据搜索模块403,用于将目标检索索引输入预先训练好的事件搜索模型,以使事件搜索模型按照最短路径从关键词索引的数据库位置中获取与关键词相关的数据;
结果输出模块404,用于将检索到的与关键词相关的数据作为搜索任务对应的搜索结果进行输出。
在一些实施例中,上述图谱确定模块401,具体可以用于:
预先构建n个版本的企业知识图谱,在接收到n个搜索任务的情况下,按照预先构建的数学模型,确定n个搜索任务中各搜索任务对应的企业知识图谱版本;
针对每个搜索任务,将其对应的企业知识图谱版本的企业知识图谱作为搜索任务对应的企业知识图谱;
其中,数学模型如下所示:
式中,minz为目标函数,表示完成全部n个搜索任务所消耗的总资源数最小,xij表示第i个版本的企业知识图谱完成第j个搜索任务所消耗的资源数,cij为常数项,s·t表示约束条件,其中,表示第i个版本的企业知识图谱只负责一个搜索任务,表示第j个搜索任务只能由一个版本的企业知识图谱负责,xij=0或1表示xij只能取0或1。
在一些实施例中,为了通过事件搜索模型基于最短路径检索到与关键词相关的数据,上述企业搜索装置400,具体还可以包括:
第一确定模块,用于对企业知识图谱进行知识检索,确定其中各节点之间的最短路径;
训练模块,用于基于各节点之间的最短路径和深度学习算法构建事件搜索模型。
在一些实施例中,上述结果输出模块404,具体用于:
将检索到的与所述关键词相关的数据以企业数据包的形式进行分装,获得与所述关键词相关的企业数据包;
将与所述关键词相关的企业数据包作为所述搜索任务对应的搜索结果进行输出。
在一些实施例中,上述企业搜索装置400,具体还可以包括:
获取模块,用于获取用户对使用过的企业数据包的评分,评分指用户对企业数据包的喜爱度分值;
构建模块,用于基于评分,构建企业数据包的评分矩阵;
第二确定模块,用于根据评分矩阵和与关键词相关的企业数据包,确定推荐数据包;
输出模块,用于将推荐数据包也作为搜索任务对应的搜索结果进行输出。
在一些实施例中,为了更加智能和高效的进行企业搜索,上述第二确定模块具体可以包括:
第一页确定子模块,用于确定与关键词相关的企业数据包的偏好类型;
第一选取子模块,用于根据偏好类型,基于评分矩阵,选取偏好类型中评分满足预设条件的企业数据包作为推荐数据包。
在一些实施例中,上述企业搜索装置400,具体还可以包括:
第三确定模块,用于在需要向企业知识图谱中增添内容的情况下,对待增添内容进行归类,确定待增添内容所属的类别;
添加模块,用于将待增添内容添加到企业知识图谱中待增添内容所属的类别中。
在一些实施例中,上述企业知识图谱包含多个类别内容,为了确定待增添内容所属类别,上述第三确定模块具体可以包括:
第二确定子模块,用于确定待添加内容与企业知识图谱中各类别之间的距离;
第二选取子模块,用于选取多个类别中,与待添加内容之间距离最短的类别作为待添加内容所属的类别。
由此,根据本申请实施例提供的中间件配置的优化方法,预先基于企业信息构建企业知识图谱,在进行企业搜索时,确定搜索任务对应的企业知识图谱,从企业知识图谱的搜索表中确定包含搜索任务中关键词的检索索引,将检索索引输入事件搜索模型,以使事件搜索模型基于最短路径,从企业知识图谱对应的数据库中检索到关键词对应的数据,并将检索到的数据作为搜索结果进行输出。根据本申请实施例,基于企业信息构建企业知识图谱从而实现了企业信息的整理分类,而基于企业知识图谱进行企业搜索可以提高企业搜索的时效性、准确性,从而提高企业搜索的效率,而基于检索索引进行数据检索,可以减少检索范围,提高检索效率,通过事件搜索模型基于最短路径进行检索,可以进一步缩短检索所需的时间,从而进一步提高搜索效率。
图5示出了本申请实施例提供一种的电子设备的硬件结构示意图。
在电子设备500可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。存储器502可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器502包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可执行上述实施例中的任意一种企业搜索方法所描述的操作。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种企业搜索方法。
在一个示例中,电子设备500还可包括通信接口505和总线510。其中,如图5所示,处理器501、存储器502、通信接口505通过总线510连接并完成相互间的通信。
通信接口505,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
示例性的,电子设备500可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等。
该电子设备500可以执行本申请实施例中的企业搜索方法,从而实现结合图1和图4描述的企业搜索方法和装置。
另外,结合上述实施例中的企业搜索方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种企业搜索方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (12)
1.一种企业搜索方法,其特征在于,包括:
确定搜索任务对应的企业知识图谱,所述搜索任务中包含关键词,所述企业知识图谱基于企业信息预先构建;
从所述企业知识图谱的索引表中确定包含所述关键词的目标检索索引,所述索引表中包含多条检索索引,每条检索索引均包含关键词和关键词索引的数据库位置,所述数据库与所述企业知识图谱对应,所述数据库中存储有企业数据;
将所述目标检索索引输入预先训练好的事件搜索模型,以使所述事件搜索模型按照最短路径从所述关键词索引的数据库位置中检索与所述关键词相关的数据;
将检索到的与所述关键词相关的数据作为所述搜索任务对应的搜索结果进行输出。
2.根据权利要求1所述的方法,其特征在于,所述确定搜索任务对应的企业知识图谱,包括:
预先构建n个版本的企业知识图谱,在接收到n个搜索任务的情况下,按照预先构建的数学模型,确定n个搜索任务中各搜索任务对应的企业知识图谱版本;
针对每个所述搜索任务,将其对应的企业知识图谱版本的企业知识图谱作为所述搜索任务对应的企业知识图谱;
其中,所述数学模型如下所示:
3.根据权利要求1所述的方法,其特征在于,所述将所述目标检索索引输入预先训练好的事件搜索模型之前,所述方法还包括:
对所述企业知识图谱进行知识检索,确定其中各节点之间的最短路径;
基于所述各节点之间的最短路径和深度学习算法构建事件搜索模型。
4.根据权利要求1所述的方法,其特征在于,所述将检索到的与所述关键词相关的数据作为所述搜索任务对应的搜索结果进行输出,包括:
将检索到的与所述关键词相关的数据以企业数据包的形式进行分装,获得与所述关键词相关的企业数据包;
将与所述关键词相关的企业数据包作为所述搜索任务对应的搜索结果进行输出。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取用户对使用过的企业数据包的评分,所述评分指用户对企业数据包的喜爱度分值;
基于所述评分,构建企业数据包的评分矩阵;
根据所述评分矩阵和与所述关键词相关的企业数据包,确定推荐数据包;
将所述推荐数据包也作为所述搜索任务对应的搜索结果进行输出。
6.根据权利要求5所述的方法,其特征在于,所述根据所述评分矩阵和与所述关键词相关的企业数据包,确定推荐数据包,包括:
确定与所述关键词相关的企业数据包的偏好类型;
根据所述偏好类型,基于所述评分矩阵,选取所述偏好类型中评分满足预设条件的企业数据包作为推荐数据包。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在需要向所述企业知识图谱中增添内容的情况下,对待增添内容进行归类,确定所述待增添内容所属的类别;
将所述待增添内容添加到所述企业知识图谱中所述待增添内容所属的类别中。
8.根据权利要求7所述的方法,其特征在于,所述企业知识图谱包含多个类别的内容,所述对待增添内容进行归类,确定所述待增添内容所属的类别,包括:
确定所述待添加内容与所述企业知识图谱中各类别之间的距离;
选取所述多个类别中,与所述待添加内容之间距离最短的类别作为所述待添加内容所属的类别。
9.一种企业搜索装置,其特征在于,包括:
图谱确定模块,用于确定搜索任务对应的企业知识图谱,所述搜索任务中包含关键词,所述企业知识图谱基于企业信息预先构建;
索引确定模块,用于从所述企业知识图谱的索引表中确定包含所述关键词的目标检索索引,所述索引表中包含多条检索索引,每条检索索引均包含关键词和关键词索引的数据库位置,所述数据库与所述企业知识图谱对应,其中存储有企业数据;
数据搜索模块,用于将所述目标检索索引输入预先训练好的事件搜索模型,以使所述事件搜索模型按照最短路径从所述关键词索引的数据库位置中获取与所述关键词相关的数据;
结果输出模块,用于将与所述关键词相关的数据作为所述搜索任务对应的搜索结果进行输出。
10.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-8任意一项所述的企业搜索方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的企业搜索方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-8任意一项所述的企业搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211675141.4A CN115858906A (zh) | 2022-12-26 | 2022-12-26 | 企业搜索方法、装置、设备、计算机存储介质及程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211675141.4A CN115858906A (zh) | 2022-12-26 | 2022-12-26 | 企业搜索方法、装置、设备、计算机存储介质及程序 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115858906A true CN115858906A (zh) | 2023-03-28 |
Family
ID=85654839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211675141.4A Pending CN115858906A (zh) | 2022-12-26 | 2022-12-26 | 企业搜索方法、装置、设备、计算机存储介质及程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115858906A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578677A (zh) * | 2023-07-14 | 2023-08-11 | 高密市中医院 | 一种针对医疗检验信息的检索系统和方法 |
CN117875413A (zh) * | 2024-03-13 | 2024-04-12 | 之江实验室 | 一种知识图谱本体中概念构建方法、装置、介质及设备 |
-
2022
- 2022-12-26 CN CN202211675141.4A patent/CN115858906A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578677A (zh) * | 2023-07-14 | 2023-08-11 | 高密市中医院 | 一种针对医疗检验信息的检索系统和方法 |
CN116578677B (zh) * | 2023-07-14 | 2023-09-15 | 高密市中医院 | 一种针对医疗检验信息的检索系统和方法 |
CN117875413A (zh) * | 2024-03-13 | 2024-04-12 | 之江实验室 | 一种知识图谱本体中概念构建方法、装置、介质及设备 |
CN117875413B (zh) * | 2024-03-13 | 2024-05-24 | 之江实验室 | 一种知识图谱本体中概念构建方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Batra et al. | Integrating StockTwits with sentiment analysis for better prediction of stock price movement | |
KR101999152B1 (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN110674840B (zh) | 一种多方证据关联模型构建方法和证据链提取方法及装置 | |
CN115858906A (zh) | 企业搜索方法、装置、设备、计算机存储介质及程序 | |
CN109255586B (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
Wisaeng | A comparison of different classification techniques for bank direct marketing | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
CN111260223A (zh) | 一种审判风险智能识别与预警方法、系统、介质及设备 | |
US11562373B2 (en) | Utilizing machine learning models, predictive analytics, and data mining to identify a vehicle insurance fraud ring | |
CN103838886A (zh) | 基于代表词知识库的文本内容分类方法 | |
CN113779429A (zh) | 交通拥堵态势预测方法、装置、设备及存储介质 | |
CN111723287B (zh) | 一种基于大规模机器学习的内容和服务推荐方法及其系统 | |
CN116756327B (zh) | 基于知识推断的威胁情报关系抽取方法、装置和电子设备 | |
CN112540973A (zh) | 一种基于关联规则的网络可视化方法 | |
CN113268370A (zh) | 一种根因告警分析方法、系统、设备及存储介质 | |
CN109783633A (zh) | 数据分析服务流程模型推荐方法 | |
CN117473431A (zh) | 一种基于知识图谱的机场数据分类分级方法及系统 | |
CN115588193A (zh) | 基于图注意力神经网络与视觉关系的视觉问答方法及装置 | |
CN110147482A (zh) | 用于获取突发热点主题的方法和装置 | |
CN113011788B (zh) | 一种海上交通事故应急决策方法、终端设备及存储介质 | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理系统 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN114064886B (zh) | 基于深度学习的矿山项目风险应对措施推荐方法及系统 | |
CN115618297A (zh) | 识别异常企业的方法及其装置 | |
CN113919544B (zh) | 犯罪预警方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |