CN115934802A - 数据检索方法、装置、电子设备及存储介质 - Google Patents

数据检索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115934802A
CN115934802A CN202211634558.6A CN202211634558A CN115934802A CN 115934802 A CN115934802 A CN 115934802A CN 202211634558 A CN202211634558 A CN 202211634558A CN 115934802 A CN115934802 A CN 115934802A
Authority
CN
China
Prior art keywords
retrieval
vocabulary
results
words
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211634558.6A
Other languages
English (en)
Inventor
赵恩来
崔颢
刘云鹏
李淑一
卢峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sgitg Accenture Information Technology Co ltd
Original Assignee
Beijing Sgitg Accenture Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sgitg Accenture Information Technology Co ltd filed Critical Beijing Sgitg Accenture Information Technology Co ltd
Priority to CN202211634558.6A priority Critical patent/CN115934802A/zh
Publication of CN115934802A publication Critical patent/CN115934802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据检索方法、装置、电子设备及存储介质。所述方法包括:获取用户的检索语句;对所述检索语句进行提取和转换,得到检索词汇;对所述检索词汇进行语义分析,得到至少一个检索结果;根据所有所述检索结果和预定的排序规则,得到排序后的检索结果;返回所述排序后的检索结果。通过本申请提出的方法,可以提高检索内容的关联性和准确度,并为用户提供更丰富更贴合用户偏好设置的检索内容展示,以此提高用户的工作效率。

Description

数据检索方法、装置、电子设备及存储介质
技术领域
本申请涉及数据检索技术领域,尤其涉及一种数据检索方法、装置、电子设备及存储介质。
背景技术
审计是对资料做出证据搜集及分析,以评估企业财务状况,然后就资料及一般公认准则之间的相关程度做出结论及报告。由于审计工作的特点和工作要求,审计部门需要对大量的数据资料进行挖掘、梳理并做出报告。上述数据资料一般包括历年的审计记录、底稿、审计报告、整改报告等。为减少审计工作量,提高审计效率,相关技术中通常选择利用智能商业(Business Intelligence,BI)分析工具进行数据检索。但现有BI分析工具并不能满足对关联数据的检索和对多数据的挖掘。由此,相关技术仍然存在检索效率低,数据检索困难等问题存在。
发明内容
有鉴于此,本申请的目的在于提出一种数据检索方法、装置、电子设备及存储介质。
基于上述目的,本申请提供了一种数据检索方法,包括:
获取用户的检索语句;
对所述检索语句进行提取和转换,得到检索词汇;
对所述检索词汇进行语义分析,得到至少一个检索结果;
根据所有所述检索结果和预定的排序规则,得到排序后的检索结果;
返回所述排序后的检索结果。
可选地,所述对所述检索语句进行提取和转换,得到检索词汇,包括:
根据所述检索语句,通过预定的分词工具和分词词典进行分词处理,得到分词;
根据所述分词,通过同义词典进行同义转换,得到检索词汇。
可选地,所述对所述检索词汇进行语义分析,得到至少一个检索结果,包括:
利用预定的知识图谱对所述检索词汇进行语义分析,得到至少一个检索结果。
可选地,所述利用预定的知识图谱对所述检索词汇进行语义分析,得到至少一个检索结果,包括:
响应于确定所述检索词汇在所述知识图谱中不存在映射,计算所述检索词汇与知识图谱中其他词汇的相似度,并选取至少一个知识图谱中相似度最高的词汇作为扩展词汇,所述相似度公式为:
Sim(s,t)=ρ*Sim1(s,t)+(1-ρ)*Sim2(s,t)ρ∈(0,1);
将所有所述扩展词汇作为检索结果。
可选地,所述利用预定的知识图谱对所述检索词汇进行语义分析,得到至少一个检索结果,包括:
响应于确定所述检索词汇在所述知识图谱中存在映射,将所述映射作为检索结果。
可选地,所述根据所有所述检索结果和预定的排序规则,得到排序后的检索结果,包括:
获取所有所述检索结果的热度H和感兴趣度M,并组成向量(H,M);
对所述向量(H,M)进行规范化处理并更新所述向量为(1-H,1-M);
对所有所述向量进行热度H和感兴趣度M两个维度的查询,得到至少一个目标向量;
确定所有所述目标向量对应的检索结果,并按照感兴趣度M进行排序,得到排序后的检索结果。
可选地,所述感兴趣度M的计算公式为:
Figure BDA0004006664750000021
其中,
Figure BDA0004006664750000022
表示所述用户在周期T内对浏览领域Ci内的检索词汇的平均值,x为周期T内浏览的词汇数目,n为词汇总数,DF(Ci)为所述浏览领域Ci内的实体总数。
基于同一发明构思,本申请还提供了一种数据检索装置,包括:
获取模块,被配置为获取用户的检索语句;
提取转换模块,被配置为对所述检索语句进行提取和转换,得到检索词汇;
语义分析模块,被配置为对所述检索词汇进行语义分析,得到至少一个检索结果;
排序模块,被配置为根据所有所述检索结果和预定的排序规则,得到排序后的检索结果;
返回模块,被配置为返回所述排序后的检索结果。
基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的数据检索方法。
基于同一发明构思,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一所述的数据检索方法。
从上面所述可以看出,本申请提供的数据检索方法,通过利用知识图谱技术,在进行数据检索时,检索内容进行语义分析和语义扩展,扩大了检索范围并为用户提供了更多的检索内容。当用户输入的检索内容模糊或有其他问题时,通过这种方法可以提高检索命中率。与此同时,本申请还通过对目标用户和全体用户的检索内容进行分析,对检索内容进行排序,为用户提供个性化体验的同时也提高了检索效率。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个或多个实施例的数据检索方法的流程示意图;
图2为本申请一个或多个实施例的知识图谱示意图;
图3为本申请一个或多个实施例的数据检索装置的结构示意图;
图4为本申请一个或多个实施例的电子设备硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
知识图谱(Knowledge Graph)是一种结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构,同时每个实体代表的实体还存在着一些属性。
面向关系数据库、知识图谱等各种数据结构的查询检索大多是基于关键词检索技术。使用关键词检索技术,由关键词确定用户的查询意图,返回每个含关键词的查询结果。基于关键词的信息检索技术具体实现方法可以分为预测与自动完成方法、完全检索方法和基于Gram的模糊检索方法。
如背景技术所述,相关技术中通常通过BI分析工具进行数据检索和分析工作。但是BI分析工具由于自身检索逻辑和技术的限制,其仍然具有检索内容准确度低,关联性差,以及无法按照同义词进行检索,无法根据用户兴趣偏好进行记录进行推荐,无法满足审计多数据挖掘及数据关联关系查验的需求等缺点。
由此,本申请提出一种基于知识图谱的数据检索方法,提高检索内容的准确度、关联性。同时本方法利用语义扩展等技术实现对同义词的检索,并按照预定的排序方式为用户提供个性化的检索内容展示。
以下,通过具体的实施例来详细说明本申请一个或多个实施例的技术方案。
参考图1,本申请一个或多个实施例的数据检索方法,包括以下步骤:
步骤S101:获取用户的检索语句。
步骤S102:对所述检索语句进行提取和转换,得到检索词汇。
在本步骤中,首先从步骤S101的检索语句中提取得到分词,然后再对所述分词进行同义转换,得到检索词汇。响应于用户的检索语句为中文内容,由于中文的特性,该检索语句中的各个词汇可能没有显性的界限。对检索语句进行分词操作有助于后续检索工作的进展。
在一些实施例中,可以通过IKAnaylyzer等分词工具对所述检索语句进行提取。IKAnaylyzer分词工具具有轻量便捷、支持中文分词等优点。在一些实施例中,可以利用审计领域的分词词典,结合所述分词工具对所述检索语句进行提取,从而提高提取效果。在一些实施例中,由于审计领域是一个特定的领域,所述分词词典需要单独建立。
在一些实施例中,可以通过预定的同义词典对所述分词进行同义转换,得到检索词汇。这一步骤的目的是,通过词义转换,为后续获取更多与知识图谱中实体相匹配的内容做基础。通过此词义转换可以有效避免因为用户操作失误或个人习惯原因而导致输入内容出现误差的情况。例如,审计人员出于检索“预算执行”的相关信息的目标进行检索,但出于个人习惯将检索语句设置为“预算实现”时,通过同义转换,可以方便后续的检索工作。
步骤S103:对所述检索词汇进行语义分析,得到至少一个检索结果。
在一些实施例中,可以利用预定的知识图谱对所述检索词汇进行语义分析,得到至少一个检索结果。
在实现本申请的过程中,申请人发现,通过传统检索方式进行检索,其检索结果通常是包含检索关键词的内容。而通过知识图谱对所述检索词汇进行语义分析,可以检索到与检索内容有关的所有事物内容,并且可以提供对事物的分类、属性和关系的描述。在实际审计工作的过程中,审计人员难免遇到需要翻阅过往审计案例为现有工作提供支持的情况。基于知识图谱技术的智能检索与案例推荐可以让审计人员更快的查找到需要的信息,提高审计人员的工作效率。
在一些实施例中,首先判断步骤S102中得到的检索词汇在所述知识图谱中是否存在映射。在一些实施例中,首先将检索词汇映射到预定的知识图谱中的本体或实体上,得到一个本体或实体的序列。由于在步骤S102中,己经应用了审计领域的分词字典进行同义转换,因此可以采用直接映射的方式,将检索词汇映射到本体上。例如,响应于经过提取和同义转换的检索词汇中包括“预算”这个词汇,可以将它直接映射到预设的知识图谱的“预算”概念上。在一些实施例中,响应于确定所述检索词汇在所述知识图谱中存在映射,将所述映射作为检索结果。
在一些实施例中,响应于确定所述检索词汇在所述知识图谱中不存在映射,首先对检索词汇进行语义扩展。语义扩展是对检索词汇的扩充,在预定知识图谱的本体概念中,概念之间存在着层次关系,这种层次关系也蕴含了概念之间的相似性。通过语义扩展,可以从语义角度理解用户的检索行为,而不是仅限于字符串匹配方式来进行检索,以此来提高检索的效率。在一些实施例中,可以通过对比语义相似度确定扩展词汇。在一些实施例中,语义相似度的计算公式如下:
Sim(s,t)=ρ*Sim1(s,t)+(1-ρ)*Sim2(s,t)ρ∈(0,1)
Sim(s,t)表示语义相似度,Sim1(s,t)表示词汇之间的编辑距离,Sim2(s,t)表示词汇之间的向量距离,ρ表示权重。编辑距离是指将一个字符串转化为另一个字符串的最少操作次数。
计算语义相似度后,选取至少一个语义相似度最高的词汇作为扩展词汇,并将所述扩展词汇作为检索结果。在一些实施例中,如果原检索词汇没有在上述同义词典中出现,可以将所述扩展词汇和所述原检索词汇一并加入所述同义词典中,对同义词典进行扩充。
在一些实施例中,还可以选择知识推理方法检索与检索词汇有潜在关系的内容。知识推理的对象不仅是实体之间的属性和关系,还包括实体的属性值和本体的概念层次。在一些实施例中,可以选择Jena推理机,对隐含知识进行推理,得到更丰富、更有效的检索内容。
步骤S104:根据所有所述检索结果和预定的排序规则,得到排序后的检索结果。
同一检索词的情况下,不同兴趣的用户往往期望的检索结果是不相同的,因此本申请提出的一种数据检索方法,可以将检索结果按照个性化推荐的方式进行排序,使得检索重点更加一目了然,提高工作人员工作效率。
在一些实施例中,可以根据检索结果的热度和感兴趣度对其进行排序。在一些实施例中,可以按照如下步骤进行排序:获取所有所述检索结果的热度H和感兴趣度M,并组成向量(H,M);对所述向量(H,M)进行规范化处理并更新所述向量为(1-H,1-M);对所有所述向量进行热度H和感兴趣度M两个维度的查询,得到至少一个目标向量;确定所有所述目标向量对应的检索结果,并按照感兴趣度M进行排序,得到排序后的检索结果。在一些实施例中,可以对所有所述向量在热度H和感兴趣度M两个维度上进行skyline查询。
在一些实施例中,感兴趣度M的计算公式为:
Figure BDA0004006664750000071
其中,
Figure BDA0004006664750000072
表示所述用户在周期T内对浏览领域Ci内的检索词汇的平均值,x为周期T内浏览的词汇数目,n为词汇总数,DF(Ci)为所述浏览领域Ci内的实体总数。
步骤S105:返回所述排序后的检索结果。
在上述内容的步骤S103中,所述预定的知识图谱可以通过如下方式建立。
以某个审计场景为例,在构建知识图谱时,首先进行本体构建,也即确定一个概念框架,框架内容中包括实体内容、各个实体的属性值、枚举值以及实体之间关系等内容。以图2为例,实体:包括审计单位、被审单位,关系包括:审计项目、审计对象、审计问题、实施年份、项目类型、一级分类、二级分类、三级分类、四级分类、问题标题、问题描述、涉及金额、制度依据、审计意见、问题性质、问题共性/个性、原因分类、问题原因;属性值包括:审计单位、审计项目、被审单位、审计实施时间、项目类型、一级问题分类、二级问题分类、三级问题分类、四级问题分类、问题标题、问题描述、涉及金额(万元)、制度依据、审计意见、问题性质、问题共性/个性、原因分类、问题原因;枚举值包括:项目类型:专项审计、工程审计、任期审计,问题性质:新风险、屡查屡犯、以前年度未发现,原因分类:主观因素、客观因素。
之后,按照上述构建的本体架构进行数据接入。例如对审计项目、被审单位、审计问题、问题分类等实体、属性、值、关系数据进行接入。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种数据检索装置。
参考图3,所述数据检索装置,包括:
获取模块11,被配置为获取用户的检索语句;
提取转换模块12,被配置为对所述检索语句进行提取和转换,得到检索词汇;
语义分析模块13,被配置为对所述检索词汇进行语义分析,得到至少一个检索结果;
排序模块14,被配置为根据所有所述检索结果和预定的排序规则,得到排序后的检索结果;
返回模块15,被配置为返回所述排序后的检索结果。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的数据检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的数据检索方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的数据检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的数据检索方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的数据检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据检索方法,其特征在于,包括:
获取用户的检索语句;
对所述检索语句进行提取和转换,得到检索词汇;
对所述检索词汇进行语义分析,得到至少一个检索结果;
根据所有所述检索结果和预定的排序规则,得到排序后的检索结果;
返回所述排序后的检索结果。
2.根据权利要求1所述的数据检索方法,其特征在于,所述对所述检索语句进行提取和转换,得到检索词汇,包括:
根据所述检索语句,通过预定的分词工具和分词词典进行分词处理,得到分词;
根据所述分词,通过同义词典进行同义转换,得到检索词汇。
3.根据权利要求1所述的数据检索方法,其特征在于,所述对所述检索词汇进行语义分析,得到至少一个检索结果,包括:
利用预定的知识图谱对所述检索词汇进行语义分析,得到至少一个检索结果。
4.根据权利要求3所述的数据检索方法,其特征在于,所述利用预定的知识图谱对所述检索词汇进行语义分析,得到至少一个检索结果,包括:
响应于确定所述检索词汇在所述知识图谱中不存在映射,计算所述检索词汇与知识图谱中其他词汇的相似度,并选取至少一个知识图谱中相似度最高的词汇作为扩展词汇,所述相似度公式为:
Sim(s,t)=ρ*Sim1(s,t)+(1-ρ)*Sim2(s,t)ρ∈(0,1);
Sim(s,t)表示相似度,Sim1(s,t)表示词汇之间的编辑距离,Sim2(s,t)表示词汇之间的向量距离,ρ表示权重;
将所有所述扩展词汇作为检索结果。
5.根据权利要求3所述的数据检索方法,其特征在于,所述利用预定的知识图谱对所述检索词汇进行语义分析,得到至少一个检索结果,包括:
响应于确定所述检索词汇在所述知识图谱中存在映射,将所述映射作为检索结果。
6.根据权利要求1所述的数据检索方法,其特征在于,所述根据所有所述检索结果和预定的排序规则,得到排序后的检索结果,包括:
获取所有所述检索结果的热度H和感兴趣度M,并组成向量(H,M);
对所述向量(H,M)进行规范化处理并更新所述向量为(1-H,1-M);
对所有所述向量进行热度H和感兴趣度M两个维度的查询,得到至少一个目标向量;
确定所有所述目标向量对应的检索结果,并按照感兴趣度M进行排序,得到排序后的检索结果。
7.根据权利要求6所述的数据检索方法,其特征在于,所述感兴趣度M的计算公式为:
Figure FDA0004006664740000021
其中,
Figure FDA0004006664740000022
表示所述用户在周期T内对浏览领域Ci内的检索词汇的平均值,x为周期T内浏览的词汇数目,n为词汇总数,DF(Ci)为所述浏览领域Ci内的实体总数。
8.一种数据检索装置,其特征在于,包括:
获取模块,被配置为获取用户的检索语句;
提取转换模块,被配置为对所述检索语句进行提取和转换,得到检索词汇;
语义分析模块,被配置为对所述检索词汇进行语义分析,得到至少一个检索结果;
排序模块,被配置为根据所有所述检索结果和预定的排序规则,得到排序后的检索结果;
返回模块,被配置为返回所述排序后的检索结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
CN202211634558.6A 2022-12-19 2022-12-19 数据检索方法、装置、电子设备及存储介质 Pending CN115934802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211634558.6A CN115934802A (zh) 2022-12-19 2022-12-19 数据检索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211634558.6A CN115934802A (zh) 2022-12-19 2022-12-19 数据检索方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115934802A true CN115934802A (zh) 2023-04-07

Family

ID=86652459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211634558.6A Pending CN115934802A (zh) 2022-12-19 2022-12-19 数据检索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115934802A (zh)

Similar Documents

Publication Publication Date Title
CN111008265B (zh) 企业信息搜索方法及装置
US7912849B2 (en) Method for determining contextual summary information across documents
US8805843B2 (en) Information mining using domain specific conceptual structures
US7844592B2 (en) Ontology-content-based filtering method for personalized newspapers
US20170371923A1 (en) Template-driven structured query generation
CN109829104A (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
US20120203584A1 (en) System and method for identifying potential customers
US20120179695A1 (en) Searching through content which is accessible through web-based forms
JP6124917B2 (ja) 情報検索のための方法および装置
US10747759B2 (en) System and method for conducting a textual data search
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
US20100131485A1 (en) Method and system for automatic construction of information organization structure for related information browsing
CN103577416A (zh) 扩展查询方法及系统
WO2021196541A1 (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
Makvana et al. A novel approach to personalize web search through user profiling and query reformulation
KR101059557B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
Jannach et al. Automated ontology instantiation from tabular web sources—the AllRight system
Chen A study of optimizing search engine results through user interaction
Spahiu et al. Topic profiling benchmarks in the linked open data cloud: Issues and lessons learned
Rajkumar et al. Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine
CN115934802A (zh) 数据检索方法、装置、电子设备及存储介质
TWM623755U (zh) 產生創意素材的系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination