CN117632866A - 文件检索方法、装置、电子设备及存储介质 - Google Patents

文件检索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117632866A
CN117632866A CN202311372991.1A CN202311372991A CN117632866A CN 117632866 A CN117632866 A CN 117632866A CN 202311372991 A CN202311372991 A CN 202311372991A CN 117632866 A CN117632866 A CN 117632866A
Authority
CN
China
Prior art keywords
file
search
retrieval
user
behavior data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311372991.1A
Other languages
English (en)
Inventor
尧坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Eliai Culture Technology Co ltd
Original Assignee
Shenzhen Eliai Culture Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Eliai Culture Technology Co ltd filed Critical Shenzhen Eliai Culture Technology Co ltd
Priority to CN202311372991.1A priority Critical patent/CN117632866A/zh
Publication of CN117632866A publication Critical patent/CN117632866A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及文件处理技术领域,尤其涉及一种文件检索方法、装置、电子设备及存储介质。本申请通过获取用户的用户行为数据和每个文件的文件使用模式,当接收到所述用户输入的关键词和选择的检索标签时,根据关键词及检索标签在文件库中进行检索,得到多个第一检索文件,通过计算每个第一检索文件与用户行为数据的第一关联度,及计算每个第一检索文件与文件使用模式的第二关联度,使用预设快速排序算法根据第一关联度和第二关联度对所述多个第一检索文件进行排序,将排序后的多个第一检索文件输出给用户。本申请结合多种检索条件在文件库中进行检索,提高文件检索的准确度,且输出的检索结果更符合用户需求。

Description

文件检索方法、装置、电子设备及存储介质
技术领域
本申请涉及文件处理技术领域,尤其是涉及一种文件检索方法、装置、系统及存储介质。
背景技术
目前,随着文件存储设备技术的不断发展,用户对文件存储设备的要求也越来越高,尤其是在大量的文件查询时,如何快速且准确的对需要查找的文件进行定位,成了用户对文件存储设备技术的要求之一。
现有技术中,多数文件管理系统虽然提供基本的检索功能,例如Dropbox、GoogleDrive或OneDrive等,但这些检索功能依赖于文件名、文件夹结构或简单标签(例如,拼音排序、阿拉伯数字排序等)进行检索,导致检索准确度较低,检索出的文件并不符合用户的需求。
发明内容
鉴于以上内容,本申请提供一种文件检索方法、装置、电子设备及存储介质,解决现有技术中存在的检索准确度较低的技术问题。
本申请的第一方面提供一种文件检索方法,所述方法包括:
获取用户的用户行为数据和每个文件的文件使用模式;
接收到所述用户输入的关键词和选择的检索标签时,根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件;
计算每个所述第一检索文件与所述用户行为数据的第一关联度,及计算每个所述第一检索文件与所述文件使用模式的第二关联度;
使用预设快速排序算法根据所述第一关联度和所述第二关联度对所述多个第一检索文件进行排序;
输出排序后的多个第一检索文件。
在一个可选的实施方式中,所述根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件包括:
计算所述检索标签对应的子文件库中每个文件中所述关键词的词频频率;
将所述词频频率与预设频率阈值进行比较;
将所述子文件库中大于所述预设频率阈值的词频频率对应的文件作为所述第一检索文件。
在一个可选的实施方式中,所述计算每个所述第一检索文件与所述用户行为数据的第一关联度包括:
提取所述用户行为数据中的目标特征,及提取每个所述第一检索文件的文本数据;
将所述目标特征转换为第一数值向量,及将每个所述文本数据转换为第二数值向量;
计算所述第一数值向量与每个所述第二数值向量之间的相似度;
根据所述相似度确定对应的所述第一检索文件与所述用户行为数据的第一关联度。
在一个可选的实施方式中,所述方法还包括:
根据所述关键词在所述文件库中进行检索,得到多个第二检索文件;
计算每个所述第二检索文件与所述用户行为数据的第三关联度,及计算每个所述第二检索文件与所述文件使用模式的第四关联度;
使用预设快速排序算法根据所述第三关联度和所述第四关联度对所述多个第二检索文件进行排序;
输出排序后的多个第二检索文件。
在一个可选的实施方式中,在所述获取用户的用户行为数据和每个文件的文件使用模式之前,所述方法还包括:
获取所述文件库中每个文件的文件数据及每个所述文件对应的营销活动的活动标签,其中,所述文件数据包括文件内容、元数据和使用频率;
对所述文件内容、所述元数据和所述使用频率进行分析,生成每个所述文件的文件标签;
将所述文件标签与对应的所述活动标签进行关联。
在一个可选的实施方式中,所述方法还包括:
接收所述用户对所述文件标签的修改;
将修改后的文件标签与对应的所述活动标签进行关联。
在一个可选的实施方式中,所述方法还包括:
利用预先训练完成的行为预测模型基于所述用户行为数据进行预测,得到预测行为数据;
根据所述预测行为数据及所述用户行为数据在所述文件库中进行检索,得到第三检索文件;
将所述第三检索文件自动推荐给所述用户。
本申请第二方面提供一种文件检索装置,所述装置包括:
获取模块,用于获取用户的用户行为数据和每个文件的文件使用模式;
检索模块,用于接收到所述用户输入的关键词和选择的检索标签时,根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件;
计算模块,用于计算每个所述第一检索文件与所述用户行为数据的第一关联度,及计算每个所述第一检索文件与所述文件使用模式的第二关联度;
排序模块,用于使用预设快速排序算法根据所述第一关联度和所述第二关联度对所述多个第一检索文件进行排序;
输出模块,用于输出排序后的多个第一检索文件。
本申请第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述文件检索方法的步骤。
本申请第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文件检索方法的步骤。
综上所述,本申请提供的文件检索方法、装置、电子设备及存储介质,通过获取用户的用户行为数据和每个文件的文件使用模式,当接收到所述用户输入的关键词和选择的检索标签时,根据关键词及检索标签在文件库中进行检索,得到多个第一检索文件,通过计算每个第一检索文件与用户行为数据的第一关联度,及计算每个第一检索文件与文件使用模式的第二关联度,使用预设快速排序算法根据第一关联度和第二关联度对所述多个第一检索文件进行排序,将排序后的多个第一检索文件输出给用户。本申请结合关键词和检索标签在文件库中进行检索,提高了文件检索的准确度,且根据用户行为数据和文件使用模式对检索得到的多个第一检索文件进行排序,使得输出的检索结果更符合用户需求。
附图说明
图1是本申请实施例示出的文件检索方法的流程图;
图2是本申请实施例示出的文件检索装置的功能模块图;
图3是本申请实施例示出的电子设备的结构示意图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“及/或”是指包含一个或多个所列出项目的任何或所有可能组合。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
现有技术中,在文件管理系统中进行文件检索以寻找与参照内容相关的目标文件时,由于文件以一定的数据格式存在,例如word、pdf等,不利于文件管理系统的快速且准确检索,且文件管理系统只能对文件的文件名、文件夹结构或简单的标签进行基本检索,意味着用户需要对文件进行精确的命名和标签化,以确保能够在文件管理系统中通过文件名和标签进行检索得到用户想要的目标文件。由于只能根据文件名或简单标签进行检索,而不能对文件的文件内容进行全文检索,这样影响了检索范围的全面性和的准确性,而且由于检索时检索词选择不当、不准或不全面,都会造成片面、偏差、不准确。
参照图1所示,为本申请实施例示出的文件检索方法的流程图,所述文件检索方法包括以下步骤。
S11,获取用户的用户行为数据和每个文件的文件使用模式。
电子设备可以通过跟踪并记录用户与文件管理系统的交互行为来获取用户的行为数据和文件管理系统的文件库中每个文件的文件使用模式。其中,所述用户行为数据是指用户在与文件管理系统进行交互时所产生的各种操作和行为的数据记录。所述用户行为数据可以包括,但不限于:用户检索习惯(例如,关键词偏好、查询频率、高级检索使用频率、查询修订频率、检索时间段等)、用户检索行为(例如,检索关键词、检索时间、检索结果等)、复制、剪切和粘贴行为(例如,源文件、文件位置、操作时间等)、标记和收藏行为(例如,标记类型、标记时间、收藏夹名称等)等。所述文件使用模式是指每个文件的具体使用情况和特征。所述文件使用模式可以包括,但不限于:文件打开和关闭模式(例如,打开时间、关闭时间、持续时间等)、文件访问频率(例如,范围次数、访问频率等)、文件访问时间、访问者身份等。
通过获取用户的行为数据和文件使用模式,可以在后续文件检索中提供针对性的个性化文件推荐,使用户能更快速且准确地找到所需文件。
在一个可选的实施方式中,在所述获取用户的用户行为数据和每个文件的文件使用模式之前,所述方法还包括:
获取所述文件库中每个文件的文件数据及每个所述文件对应的营销活动的活动标签;
对所述文件内容、所述元数据和所述使用频率进行分析,生成每个所述文件的文件标签;
将所述文件标签与对应的所述活动标签进行关联。
其中,所述文件数据可以包括文件内容、元数据和使用频率。所述文件内容是指文件的实际内容,可以是文本、图像、音频及视频中的内容;所述元数据可以是文件的文件格式、文件创建日期、文件修改日期、文件大小等。所述使用频率可以是文件被使用的频率,及同一文件或多个文件得到被同一用户或多个用户在同一时间段或相近时间段进行查看的频率等。所述文件对应的营销活动的活动标签可以是描述营销活动的活动内容或活动类型的关键词或短语等。
在一些实施例中,对于文本文件,电子设备可以直接使用自然语言处理(NaturalLanguage Processing,NLP)技术直接对文本文件进行文本分析;对于图像、音频及视频,电子设备可以使用文本识别(Optical Character Recognition,OCR)技术和音频/视频转录技术等将非文本数据转换为文本数据,再使用NLP技术对文本数据进行文本分析,生成每个文件对应的文件标签。所述文本分析可以是提取文件关键词、提取文件主题、文件主题建模、提取文件情感信息等,也可以是分析文件的元数据(例如,分析文件创建的时间范围、识别文件的作者或创建者等),还可以是根据文件的使用频率(例如,预设时间内文件打开的次数、预设时间内文件打开的时间、预设时间内文件修改频率等)。基于文件内容分析、元数据分析和使用频率分析得到的分析结果,电子设备可以自动为每个文件生成文件标签,所述文件标签可以是文件关键词、文件主题、文件情感或其他描述文件特征的信息。
当生成每个文件对应的文件标签时,电子设备可以根据标签命名关联、标签属性关联、标签结构关联等方法将文件标签对应的文件和活动标签对应的营销活动进行关联。
示例性的,假设存在一个文件库,包括四个文件,文件1的文件名为“产品推广计划.docx”,文件内容包括产品推广计划,元数据为创建日期为2022年5月15日,使用频率较高。文件2的文件名为“广告宣传海报.jpg”,文件内容为是饮料宣传,元数据为创建日期为2022年6月20日,使用频率适中。文件3的文件名为“市场调研报告.pdf”,文件内容为最新家电市场调研,元数据为创建日期为2022年4月10日,使用频率较低。根据每个文件的文件内容、元数据和使用频率进行分析,生成的文件标签可以是,文件1的文件标签可以包括“产品推广”、“高使用频率”,文件2的文件标签可以包括“广告宣传”、“中等使用频率”,文件3的文件标签可以包括“市场调研”、“低使用频率”。又假设电子设备根据标签命名将文件标签与对应的活动标签进行关联。例如,文件标签“产品推广”可以与活动标签“产品推广活动”相关联。文件标签“市场调研”可以与活动标签“市场研究项目”相关联。文件标签“广告”可以与活动标签“广告宣传活动”相关联。
需要说明的是,以上仅是举例说明,文件标签的生成和命名,及文件标签与活动标签的关联形式根据实际情况而定。
在一些实施例中,用户在将文件上传至文件管理系统前,可以对文件进行命名,但文件命名是可以发生修改的,电子设备可以自动对文件进行分析,根据分析结果自动对文件进行命名。示例性的,假设文件的文件内容是关于消费节的,但需要根据预设命名格式(例如,XX市XX公司XX消费节)进行命名,电子设备可以自动根据预设命名格式及文件内容对文件进行重命名,例如,深圳市艾力艾公司家电消费节。在其他实施例中,电子设备重命名的文件命名也是可以发生修改的,用户可以根据自身需求再次对文件进行重命名。
在一个可选的实施方式中,所述方法还包括:
接收所述用户对所述文件标签的修改;
将修改后的文件标签与对应的所述活动标签进行关联。
当电子设备根据每个文件的文件内容、元数据和使用频率进行分析,生成每个文件的文件标签时,用户可以根据实际情况对文件标签进行修改。当接收到用户对文件标签进行修改得到新的文件标签时,电子设备可以自动将修改后的文件标签与对应的活动标签进行关联。例如,假设文件标签为文件标签“广告”,与活动标签“广告宣传活动”关联。用户将文件标签“广告”修改为“广告宣传”,电子设备可以自动将文件标签“广告宣传”与活动标签“广告宣传活动”关联。
在一些实施例中,当文件的文件内容、元数据和使用频率发生变化时,电子设备可以自动对初始的文件标签进行修改,生成符合每个文件的新的文件标签。
S12,接收到所述用户输入的关键词和选择的检索标签时,根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件。
在本申请实施例中,除了依赖于现有技术中的通过文件命名或简单标签在文件库中进行检索,还能通过输入的关键词对每个文件的文件内容进行检索,以及根据检索标签对文件库中的文件进行检索,提高检索准确性。
在一个可选的实施方式中,所述根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件包括:
计算所述检索标签对应的子文件库中每个文件中所述关键词的词频频率;
将所述词频频率与预设频率阈值进行比较;
将所述子文件库中大于所述预设频率阈值的词频频率对应的文件作为所述第一检索文件。
子文件库与检索标签一一对应,即一个检索标签对应一个子文件库,例如,检索标签为球类,则子文件库包括多个文件标签属于球类的文件(如,文件标签“足球”、文件标签“篮球”、文件标签“排球”等)。其中,文件库中包括多个子文件库。
由于文件库中存在大量文件,如果直接根据关键词和检索标签在文件库中进行检索时会非常耗时。通过将文件库分成多个检索标签对应的子文件库,由于每个子文件库只包括与一个检索标签相关的文件,可以大大提高检索效率。其次将检索标签与子文件库相关联可以确保电子设备只在检索标签对应的子文件库中进行检索,这样只有在检索标签对应的子文件库中的文件才会被纳入检索结果中,可以提供更精确的检索结果,降低了不相关文件的干扰,提高文件检索的准确度。
其中,所述词频频率时指用户输入的关键词在文件的文件内容中出现的次数。在一些实施例中,电子设备可以预先设置一个频率阈值。当计算得到检索标签对应的子文件库中每个文件的文件内容中关键词的词频频率时,将所述词频频率与预设频率阈值进行比较,只有词频频率大于等于预设频率阈值对应的文件才会被选为第一检索文件。
示例性的,假设用户输入的关键词为“空调”,选择的检索标签为“家电”。假设预设频率阈值设置为20,“家电”对应的子文件库中包括五个文件。计算得到文件1中“空调”的词频频率为25,文件2中“空调”的词频频率为17,文件3中“空调”的词频频率为15,文件4中“空调”的词频频率为35,文件5中“空调”的词频频率为23。文件2和文件3的词频频率小于预设频率阈值,表明不符合检索要求,将文件2和文件3去除,即文件2和文件3不进入后续的检索中。文件1、文件4和文件5的词频频率大于预设频率阈值,表明符合检索要求,因此被选为第一检索文件。
通过上述可选的实施方式,通过筛选出词频频率大于预设频率阈值的文件,可以帮助排除包含了关键词但相关性不高的文件,从而减少了冗余的检索结果,提高了检索结果与关键词的相关性,提高检索结果的准确度。其次,还降低需要分析和比较的文件数量,从而提高了检索速度
在一些实施例中,电子设备优先根据用户选择的检索标签在对应的子文件库中进行检索,当在检索标签对应的子文件库中没有得到检索结果时,电子设备自动在与用户选择的检索标签相似的检索标签对应的子文件库中进行检索,将从相似检索标签对应的子文件库中符合检索要求的文件输出给用户。
S13,计算每个所述第一检索文件与所述用户行为数据的第一关联度,及计算每个所述第一检索文件与所述文件使用模式的第二关联度。
当获取到用户的用户行为数据和每个文件的文件使用模式时,电子设备可以自动计算根据关键词和检索标签进行检索得到的第一检索文件分别与用户行为数据及文件使用模式的关联度。其中将计算第一检索文件和每个用户的用户行为数据得到的关联度称为第一关联度,将计算第一检索文件和每个文件的文件使用模式的关联度称为第二关联度。
在一个可选的实施方式中,所述计算每个所述第一检索文件与所述用户行为数据的第一关联度包括:
提取所述用户行为数据中的目标特征,及提取每个所述第一检索文件的文本数据;
将所述目标特征转换为第一数值向量,及将每个所述文本数据转换为第二数值向量;
计算所述第一数值向量与每个所述第二数值向量之间的相似度;
根据所述相似度确定对应的所述第一检索文件与所述用户行为数据的第一关联度。
对于用户行为数据,电子设备可以提取用户行为数据中的任意一种数据或多种数据的结合作为目标特征。例如,提取用户行为数据中的关键词偏好作为目标特征,或提取用户行为数据中的关键词偏好、查询频率及查询时间作为目标特征。其中,每个第一检索文件都有对应的文本数据,所述文本数据可以是文件标签、文件标题、文件内容、文件关键词、文件目录等。对于文本文件,电子设备可以利用NLP技术提取文本文件对应的第一检索文件的文本数据。对于非文本文件的第一检索文件,例如,图像、音频、视频等。电子设备可以利用OCR技术和NLP技术提取非文本文件对应的第一检索文件的文本数据。
在一些实施例中,当提取到用户行为数据的目标特征时,电子设备可以利用独热编码(One-Hot Encoding)、词嵌入(例如,Word2Vec或FastText)等技术将目标特征转换为第一数值向量。在其他实施例中,当提取到文本数据时,电子设备可以利用词袋模型(Bagof Words)、词嵌入等技术将文本数据转换为第二数值向量。
一旦用户行为数据对应的目标特征和文本数据分别被转换为第一数值向量和第二数值向量时,电子设备可以使用相似度度量方法(例如,余弦相似度、欧氏距离、曼哈顿距离等)来计算第一数值向量和第二数值向量之间的相似度。由于第一检索文件包括多个检索文件,故第二数值向量包括多个第二数值向量,当计算第一数值向量和多个第二数值向量得到多个第一相似度后,将所述第一相似度确定为每个第一检索文件与用户行为数据的第一关联度。
在一个可选的实施方式中,电子设备可以提取文件使用模式的任意一种数据或多种数据的结合作为目标特征。例如,提取文件使用模式中的文件访问频率作为目标特征,或提取文件使用模式中的文件访问频率和文件访问时间作为目标特征。
在一些实施例中,当提取到文件使用模式的目标特征时,电子设备可以利用独热编码(One-Hot Encoding)、词嵌入(例如,Word2Vec或FastText)等技术将目标特征转换为第三数值向量。一旦文件使用模式对应的目标特征被转换为第三数值向量,且第一检索文件的文本数据被转换为多个第二数值向量时,电子设备可以使用相似度度量方法(例如,余弦相似度、欧氏距离、曼哈顿距离等)来计算第三数值向量和多个第二数值向量之间的多个第二相似度,将所述第二相似度确定为每个第一检索文件与文件使用模式的第二关联度。
在一些实施例中,电子设备还可以设置一个相似度阈值,当计算第一数值向量与多个第二数值向量得到用户行为数据与第一检索文件的多个第一相似度时,将大于预设相似度阈值对应的第一相似度确定为第一关联度。当计算第三数值向量与多个第二数值向量得到文件使用模式与第一检索文件的多个第二相似度时,将大于预设相似度阈值对应的第二相似度确定为第二关联度。
S14,使用预设快速排序算法根据所述第一关联度和所述第二关联度对所述多个第一检索文件进行排序。
当计算得到第一检索文件对应的第一关联度和第二关联度时,电子设备可以利用预设快速排序算法(例如,快速排序、快速选择等)对第一检索文件中每个检索文件的第一关联度和第二关联度进行排序。
在一些实施例中,当计算得到第一检索文件中每个检索文件的第一关联度和第二关联度时,电子设备可以将第一关联度和第二关联度组成一个关联度列表,首先选择选择一个基准元素(例如,关联度列表中的第一个元素),并将关联度列表分成两个子列表,一个子列表包含所有小于基准元素的元素,另一个子列表包含所有大于基准元素的元素,然后递归地对子列表进行排序,将排序后的子列表进行合并,得到第一关联度和第二关联度的排序结果。
S15,输出排序后的多个第一检索文件。
当电子设备对第一检索文件进行排序后,根据排序后的结果按顺序输出给用户。
示例性的,假设第一检索文件包括四个子文件,子文件1(第一关联度0.8,第二关联度0.6)、子文件2(第一关联度0.6,第二关联度)、子文件3(第一关联度0.9、第二关联度0.5)和子文件4(第一关联度0.7,第二关联度0.8),则关联度列表为[(子文件1,0.8,0.6),(子文件2,0.6,0.7),(子文件3,0.9,0.5),(子文件4,0.7,0.8)],使用快速排序算法对关联度列表进行排序,得到排序后的关联度列表为[(子文件3,0.9,0.5),(子文件1,0.8,0.6),(子文件4,0.7,0.8),(子文件2,0.6,0.7)]。则根据关联度列表的顺序,即按照子文件3、子文件1、子文件4、子文件2的顺序将第一检索文件中的四个子文件输出给用户。
在一个可选的实施方式中,所述方法还包括:
根据所述关键词在所述文件库中进行检索,得到多个第二检索文件;
计算每个所述第二检索文件与所述用户行为数据的第三关联度,及计算每个所述第二检索文件与所述文件使用模式的第四关联度;
使用预设快速排序算法根据所述第三关联度和所述第四关联度对所述多个第二检索文件进行排序;
输出排序后的多个第二检索文件。
当根据用户输入的关键词和选择的检索标签在检索标签对应的子文件库中,及在相似检索标签对应的子文件库中未得到检索结果,即未得到第一检索文件时,电子设备根据关键词在文件库中进行检索得到的检索结果称为第二检索文件。
在一些实施例中,电子设备可以自动计算第二检索文件分别与用户行为数据及文件使用模式的关联度。其中将计算第二检索文件和每个用户的用户行为数据得到的关联度称为第三关联度,将计算第二检索文件和每个文件的文件使用模式的关联度称为第四关联度。当计算得到第三关联度和第四关联度时,电子设备还可以利用预设快速排序算法对第二检索文件中每个检索文件的第三关联度和第四关联度进行排序,将排序后的结果按顺序输出给用户。
在一个可选的实施方式中,所述方法还包括:
利用预先训练完成的行为预测模型基于所述用户行为数据进行预测,得到预测行为数据;
根据所述预测行为数据及所述用户行为数据在所述文件库中进行检索,得到第三检索文件;
将所述第三检索文件自动推荐给所述用户。
电子设备可以预先根据大量的历史的用户行为数据和检索结果训练得到一个行为预测模型。当获取待用户的用户行为数据时,电子设备可以利用预先训练完成的行为预测模型基于用户行为数据预测用户的用户行为(例如,想要查看的文件、感兴趣的文件、不同时间段的文件查询等),将预测得到的用户行为称为预测行为数据。电子设备还可以利用预测行为数据和用户行为数据,通过检索引擎、文本分析技术和关键词匹配等方法在文件库中进行检索,以得到与用户的预测行为数据以及用户行为数据相关的第三检索文件。电子设备可以自动将第三检索文件列入用户的推荐列表或将第三检索文件显示在文件管理系统与电子设备的交互界面中,实现自动将第三检索文件推荐给用户。
参照图2所示,为本申请实施例示出的文件检索装置的功能模块图。在一些实施例中,所述文件检索装置20可以包括多个由计算机程序段所组成的功能模块。所述文件检索装置20的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行文件检索(详见图1描述)的功能。
本实施例中,所述文件检索装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、生成模块202、关联模块203、检索模块204、计算模块205、排序模块206、输出模块207及推荐模块208。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块201,用于获取用户的用户行为数据和每个文件的文件使用模式。
电子设备可以通过跟踪并记录用户与文件管理系统的交互行为来获取用户的行为数据和文件管理系统的文件库中每个文件的文件使用模式。其中,所述用户行为数据是指用户在与文件管理系统进行交互时所产生的各种操作和行为的数据记录。所述用户行为数据可以包括,但不限于:用户检索习惯(例如,关键词偏好、查询频率、高级检索使用频率、查询修订频率、检索时间段等)、用户检索行为(例如,检索关键词、检索时间、检索结果等)、复制、剪切和粘贴行为(例如,源文件、文件位置、操作时间等)、标记和收藏行为(例如,标记类型、标记时间、收藏夹名称等)等。所述文件使用模式是指每个文件的具体使用情况和特征。所述文件使用模式可以包括,但不限于:文件打开和关闭模式(例如,打开时间、关闭时间、持续时间等)、文件访问频率(例如,范围次数、访问频率等)、文件访问时间、访问者身份等。
通过获取用户的行为数据和文件使用模式,可以在后续文件检索中提供针对性的个性化文件推荐,使用户能更快速且准确地找到所需文件。
所述生成模块202,用于获取所述文件库中每个文件的文件数据及每个所述文件对应的营销活动的活动标签;对所述文件内容、所述元数据和所述使用频率进行分析,生成每个所述文件的文件标签。
所述关联模块203,用于将所述文件标签与对应的所述活动标签进行关联。
其中,所述文件数据可以包括文件内容、元数据和使用频率。所述文件内容是指文件的实际内容,可以是文本、图像、音频及视频中的内容;所述元数据可以是文件的文件格式、文件创建日期、文件修改日期、文件大小等。所述使用频率可以是文件被使用的频率,及同一文件或多个文件得到被同一用户或多个用户在同一时间段或相近时间段进行查看的频率等。所述文件对应的营销活动的活动标签可以是描述营销活动的活动内容或活动类型的关键词或短语等。
在一些实施例中,对于文本文件,电子设备可以直接使用自然语言处理(NaturalLanguage Processing,NLP)技术直接对文本文件进行文本分析;对于图像、音频及视频,电子设备可以使用文本识别(Optical Character Recognition,OCR)技术和音频/视频转录技术等将非文本数据转换为文本数据,再使用NLP技术对文本数据进行文本分析,生成每个文件对应的文件标签。所述文本分析可以是提取文件关键词、提取文件主题、文件主题建模、提取文件情感信息等,也可以是分析文件的元数据(例如,分析文件创建的时间范围、识别文件的作者或创建者等),还可以是根据文件的使用频率(例如,预设时间内文件打开的次数、预设时间内文件打开的时间、预设时间内文件修改频率等)。基于文件内容分析、元数据分析和使用频率分析得到的分析结果,电子设备可以自动为每个文件生成文件标签,所述文件标签可以是文件关键词、文件主题、文件情感或其他描述文件特征的信息。
当生成每个文件对应的文件标签时,电子设备可以根据标签命名关联、标签属性关联、标签结构关联等方法将文件标签对应的文件和活动标签对应的营销活动进行关联。
示例性的,假设存在一个文件库,包括四个文件,文件1的文件名为“产品推广计划.docx”,文件内容包括产品推广计划,元数据为创建日期为2022年5月15日,使用频率较高。文件2的文件名为“广告宣传海报.jpg”,文件内容为是饮料宣传,元数据为创建日期为2022年6月20日,使用频率适中。文件3的文件名为“市场调研报告.pdf”,文件内容为最新家电市场调研,元数据为创建日期为2022年4月10日,使用频率较低。根据每个文件的文件内容、元数据和使用频率进行分析,生成的文件标签可以是,文件1的文件标签可以包括“产品推广”、“高使用频率”,文件2的文件标签可以包括“广告宣传”、“中等使用频率”,文件3的文件标签可以包括“市场调研”、“低使用频率”。又假设电子设备根据标签命名将文件标签与对应的活动标签进行关联。例如,文件标签“产品推广”可以与活动标签“产品推广活动”相关联。文件标签“市场调研”可以与活动标签“市场研究项目”相关联。文件标签“广告”可以与活动标签“广告宣传活动”相关联。
需要说明的是,以上仅是举例说明,文件标签的生成和命名,及文件标签与活动标签的关联形式根据实际情况而定。
在一些实施例中,用户在将文件上传至文件管理系统前,可以对文件进行命名,但文件命名是可以发生修改的,电子设备可以自动对文件进行分析,根据分析结果自动对文件进行命名。示例性的,假设文件的文件内容是关于消费节的,但需要根据预设命名格式(例如,XX市XX公司XX消费节)进行命名,电子设备可以自动根据预设命名格式及文件内容对文件进行重命名,例如,深圳市艾力艾公司家电消费节。在其他实施例中,电子设备重命名的文件命名也是可以发生修改的,用户可以根据自身需求再次对文件进行重命名。
所述关联模块203,还用于接收所述用户对所述文件标签的修改;
将修改后的文件标签与对应的所述活动标签进行关联。
当电子设备根据每个文件的文件内容、元数据和使用频率进行分析,生成每个文件的文件标签时,用户可以根据实际情况对文件标签进行修改。当接收到用户对文件标签进行修改得到新的文件标签时,电子设备可以自动将修改后的文件标签与对应的活动标签进行关联。例如,假设文件标签为文件标签“广告”,与活动标签“广告宣传活动”关联。用户将文件标签“广告”修改为“广告宣传”,电子设备可以自动将文件标签“广告宣传”与活动标签“广告宣传活动”关联。
在一些实施例中,当文件的文件内容、元数据和使用频率发生变化时,电子设备可以自动对初始的文件标签进行修改,生成符合每个文件的新的文件标签。
所述检索模块204,用于接收到所述用户输入的关键词和选择的检索标签时,根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件。
在本申请实施例中,除了依赖于现有技术中的通过文件命名或简单标签在文件库中进行检索,还能通过输入的关键词对每个文件的文件内容进行检索,以及根据检索标签对文件库中的文件进行检索,提高检索准确性。
在一个可选的实施方式中,所述根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件包括:
计算所述检索标签对应的子文件库中每个文件中所述关键词的词频频率;
将所述词频频率与预设频率阈值进行比较;
将所述子文件库中大于所述预设频率阈值的词频频率对应的文件作为所述第一检索文件。
子文件库与检索标签一一对应,即一个检索标签对应一个子文件库,例如,检索标签为球类,则子文件库包括多个文件标签属于球类的文件(如,文件标签“足球”、文件标签“篮球”、文件标签“排球”等)。其中,文件库中包括多个子文件库。
由于文件库中存在大量文件,如果直接根据关键词和检索标签在文件库中进行检索时会非常耗时。通过将文件库分成多个检索标签对应的子文件库,由于每个子文件库只包括与一个检索标签相关的文件,可以大大提高检索效率。其次将检索标签与子文件库相关联可以确保电子设备只在检索标签对应的子文件库中进行检索,这样只有在检索标签对应的子文件库中的文件才会被纳入检索结果中,可以提供更精确的检索结果,降低了不相关文件的干扰,提高文件检索的准确度。
其中,所述词频频率时指用户输入的关键词在文件的文件内容中出现的次数。在一些实施例中,电子设备可以预先设置一个频率阈值。当计算得到检索标签对应的子文件库中每个文件的文件内容中关键词的词频频率时,将所述词频频率与预设频率阈值进行比较,只有词频频率大于等于预设频率阈值对应的文件才会被选为第一检索文件。
示例性的,假设用户输入的关键词为“空调”,选择的检索标签为“家电”。假设预设频率阈值设置为20,“家电”对应的子文件库中包括五个文件。计算得到文件1中“空调”的词频频率为25,文件2中“空调”的词频频率为17,文件3中“空调”的词频频率为15,文件4中“空调”的词频频率为35,文件5中“空调”的词频频率为23。文件2和文件3的词频频率小于预设频率阈值,表明不符合检索要求,将文件2和文件3去除,即文件2和文件3不进入后续的检索中。文件1、文件4和文件5的词频频率大于预设频率阈值,表明符合检索要求,因此被选为第一检索文件。
通过上述可选的实施方式,通过筛选出词频频率大于预设频率阈值的文件,可以帮助排除包含了关键词但相关性不高的文件,从而减少了冗余的检索结果,提高了检索结果与关键词的相关性,提高检索结果的准确度。其次,还降低需要分析和比较的文件数量,从而提高了检索速度
在一些实施例中,电子设备优先根据用户选择的检索标签在对应的子文件库中进行检索,当在检索标签对应的子文件库中没有得到检索结果时,电子设备自动在与用户选择的检索标签相似的检索标签对应的子文件库中进行检索,将从相似检索标签对应的子文件库中符合检索要求的文件输出给用户。
所述计算模块205,用于计算每个所述第一检索文件与所述用户行为数据的第一关联度,及计算每个所述第一检索文件与所述文件使用模式的第二关联度。
当获取到用户的用户行为数据和每个文件的文件使用模式时,电子设备可以自动计算根据关键词和检索标签进行检索得到的第一检索文件分别与用户行为数据及文件使用模式的关联度。其中将计算第一检索文件和每个用户的用户行为数据得到的关联度称为第一关联度,将计算第一检索文件和每个文件的文件使用模式的关联度称为第二关联度。
在一个可选的实施方式中,所述计算每个所述第一检索文件与所述用户行为数据的第一关联度包括:
提取所述用户行为数据中的目标特征,及提取每个所述第一检索文件的文本数据;
将所述目标特征转换为第一数值向量,及将每个所述文本数据转换为第二数值向量;
计算所述第一数值向量与每个所述第二数值向量之间的相似度;
根据所述相似度确定对应的所述第一检索文件与所述用户行为数据的第一关联度。
对于用户行为数据,电子设备可以提取用户行为数据中的任意一种数据或多种数据的结合作为目标特征。例如,提取用户行为数据中的关键词偏好作为目标特征,或提取用户行为数据中的关键词偏好、查询频率及查询时间作为目标特征。其中,每个第一检索文件都有对应的文本数据,所述文本数据可以是文件标签、文件标题、文件内容、文件关键词、文件目录等。对于文本文件,电子设备可以利用NLP技术提取文本文件对应的第一检索文件的文本数据。对于非文本文件的第一检索文件,例如,图像、音频、视频等。电子设备可以利用OCR技术和NLP技术提取非文本文件对应的第一检索文件的文本数据。
在一些实施例中,当提取到用户行为数据的目标特征时,电子设备可以利用独热编码(One-Hot Encoding)、词嵌入(例如,Word2Vec或FastText)等技术将目标特征转换为第一数值向量。在其他实施例中,当提取到文本数据时,电子设备可以利用词袋模型(Bagof Words)、词嵌入等技术将文本数据转换为第二数值向量。
一旦用户行为数据对应的目标特征和文本数据分别被转换为第一数值向量和第二数值向量时,电子设备可以使用相似度度量方法(例如,余弦相似度、欧氏距离、曼哈顿距离等)来计算第一数值向量和第二数值向量之间的相似度。由于第一检索文件包括多个检索文件,故第二数值向量包括多个第二数值向量,当计算第一数值向量和多个第二数值向量得到多个第一相似度后,将所述第一相似度确定为每个第一检索文件与用户行为数据的第一关联度。
在一个可选的实施方式中,电子设备可以提取文件使用模式的任意一种数据或多种数据的结合作为目标特征。例如,提取文件使用模式中的文件访问频率作为目标特征,或提取文件使用模式中的文件访问频率和文件访问时间作为目标特征。
在一些实施例中,当提取到文件使用模式的目标特征时,电子设备可以利用独热编码(One-Hot Encoding)、词嵌入(例如,Word2Vec或FastText)等技术将目标特征转换为第三数值向量。一旦文件使用模式对应的目标特征被转换为第三数值向量,且第一检索文件的文本数据被转换为多个第二数值向量时,电子设备可以使用相似度度量方法(例如,余弦相似度、欧氏距离、曼哈顿距离等)来计算第三数值向量和多个第二数值向量之间的多个第二相似度,将所述第二相似度确定为每个第一检索文件与文件使用模式的第二关联度。
在一些实施例中,电子设备还可以设置一个相似度阈值,当计算第一数值向量与多个第二数值向量得到用户行为数据与第一检索文件的多个第一相似度时,将大于预设相似度阈值对应的第一相似度确定为第一关联度。当计算第三数值向量与多个第二数值向量得到文件使用模式与第一检索文件的多个第二相似度时,将大于预设相似度阈值对应的第二相似度确定为第二关联度。
所述排序模块206,用于使用预设快速排序算法根据所述第一关联度和所述第二关联度对所述多个第一检索文件进行排序。
当计算得到第一检索文件对应的第一关联度和第二关联度时,电子设备可以利用预设快速排序算法(例如,快速排序、快速选择等)对第一检索文件中每个检索文件的第一关联度和第二关联度进行排序。
在一些实施例中,当计算得到第一检索文件中每个检索文件的第一关联度和第二关联度时,电子设备可以将第一关联度和第二关联度组成一个关联度列表,首先选择选择一个基准元素(例如,关联度列表中的第一个元素),并将关联度列表分成两个子列表,一个子列表包含所有小于基准元素的元素,另一个子列表包含所有大于基准元素的元素,然后递归地对子列表进行排序,将排序后的子列表进行合并,得到第一关联度和第二关联度的排序结果。
所述输出模块207,用于输出排序后的多个第一检索文件。
当电子设备对第一检索文件进行排序后,根据排序后的结果按顺序输出给用户。
示例性的,假设第一检索文件包括四个子文件,子文件1(第一关联度0.8,第二关联度0.6)、子文件2(第一关联度0.6,第二关联度)、子文件3(第一关联度0.9、第二关联度0.5)和子文件4(第一关联度0.7,第二关联度0.8),则关联度列表为[(子文件1,0.8,0.6),(子文件2,0.6,0.7),(子文件3,0.9,0.5),(子文件4,0.7,0.8)],使用快速排序算法对关联度列表进行排序,得到排序后的关联度列表为[(子文件3,0.9,0.5),(子文件1,0.8,0.6),(子文件4,0.7,0.8),(子文件2,0.6,0.7)]。则根据关联度列表的顺序,即按照子文件3、子文件1、子文件4、子文件2的顺序将第一检索文件中的四个子文件输出给用户。
所述检索模块204,还用于根据所述关键词在所述文件库中进行检索,得到多个第二检索文件。所述计算模块205,还用于计算每个所述第二检索文件与所述用户行为数据的第三关联度,及计算每个所述第二检索文件与所述文件使用模式的第四关联度。
所述排序模块206,还用于使用预设快速排序算法根据所述第三关联度和所述第四关联度对所述多个第二检索文件进行排序。
所述输出模块207,还用于输出排序后的多个第二检索文件。
当根据用户输入的关键词和选择的检索标签在检索标签对应的子文件库中,及在相似检索标签对应的子文件库中未得到检索结果,即未得到第一检索文件时,电子设备根据关键词在文件库中进行检索得到的检索结果称为第二检索文件。
在一些实施例中,电子设备可以自动计算第二检索文件分别与用户行为数据及文件使用模式的关联度。其中将计算第二检索文件和每个用户的用户行为数据得到的关联度称为第三关联度,将计算第二检索文件和每个文件的文件使用模式的关联度称为第四关联度。当计算得到第三关联度和第四关联度时,电子设备还可以利用预设快速排序算法对第二检索文件中每个检索文件的第三关联度和第四关联度进行排序,将排序后的结果按顺序输出给用户。
所述推荐模块208,用于利用预先训练完成的行为预测模型基于所述用户行为数据进行预测,得到预测行为数据;根据所述预测行为数据及所述用户行为数据在所述文件库中进行检索,得到第三检索文件;将所述第三检索文件自动推荐给所述用户。
电子设备可以预先根据大量的历史的用户行为数据和检索结果训练得到一个行为预测模型。当获取待用户的用户行为数据时,电子设备可以利用预先训练完成的行为预测模型基于用户行为数据预测用户的用户行为(例如,想要查看的文件、感兴趣的文件、不同时间段的文件查询等),将预测得到的用户行为称为预测行为数据。电子设备还可以利用预测行为数据和用户行为数据,通过检索引擎、文本分析技术和关键词匹配等方法在文件库中进行检索,以得到与用户的预测行为数据以及用户行为数据相关的第三检索文件。电子设备可以自动将第三检索文件列入用户的推荐列表或将第三检索文件显示在文件管理系统与电子设备的交互界面中,实现自动将第三检索文件推荐给用户。
参阅图3所示,为本申请实施例示出的电子设备的结构示意图。在本申请较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32及至少一条通信总线33。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括用户设备,所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如上述的文件检索方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的文件库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的文件检索方法的全部或者部分步骤;或者实现文件检索装置的全部或者部分功能。所述至一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能 或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (10)

1.一种文件检索方法,其特征在于,所述方法包括:
获取用户的用户行为数据和每个文件的文件使用模式;
接收到所述用户输入的关键词和选择的检索标签时,根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件;
计算每个所述第一检索文件与所述用户行为数据的第一关联度,及计算每个所述第一检索文件与所述文件使用模式的第二关联度;
使用预设快速排序算法根据所述第一关联度和所述第二关联度对所述多个第一检索文件进行排序;
输出排序后的多个第一检索文件。
2.根据权利要求1所述的文件检索方法,其特征在于,所述根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件包括:
计算所述检索标签对应的子文件库中每个文件中所述关键词的词频频率;
将所述词频频率与预设频率阈值进行比较;
将所述子文件库中大于所述预设频率阈值的词频频率对应的文件作为所述第一检索文件。
3.根据权利要求2所述的文件检索方法,其特征在于,所述计算每个所述第一检索文件与所述用户行为数据的第一关联度包括:
提取所述用户行为数据中的目标特征,及提取每个所述第一检索文件的文本数据;
将所述目标特征转换为第一数值向量,及将每个所述文本数据转换为第二数值向量;
计算所述第一数值向量与每个所述第二数值向量之间的相似度;
根据所述相似度确定对应的所述第一检索文件与所述用户行为数据的第一关联度。
4.根据权利要求3所述的文件检索方法,其特征在于,所述方法还包括:
根据所述关键词在所述文件库中进行检索,得到多个第二检索文件;
计算每个所述第二检索文件与所述用户行为数据的第三关联度,及计算每个所述第二检索文件与所述文件使用模式的第四关联度;
使用预设快速排序算法根据所述第三关联度和所述第四关联度对所述多个第二检索文件进行排序;
输出排序后的多个第二检索文件。
5.根据权利要求1至4中任意一项所述的文件检索方法,其特征在于,在所述获取用户的用户行为数据和每个文件的文件使用模式之前,所述方法还包括:
获取所述文件库中每个文件的文件数据及每个所述文件对应的营销活动的活动标签,其中,所述文件数据包括文件内容、元数据和使用频率;
对所述文件内容、所述元数据和所述使用频率进行分析,生成每个所述文件的文件标签;
将所述文件标签与对应的所述活动标签进行关联。
6.根据权利要求5所述的文件检索方法,其特征在于,所述方法还包括:
接收所述用户对所述文件标签的修改;
将修改后的文件标签与对应的所述活动标签进行关联。
7.根据权利要求6所述的文件检索方法,其特征在于,所述方法还包括:
利用预先训练完成的行为预测模型基于所述用户行为数据进行预测,得到预测行为数据;
根据所述预测行为数据及所述用户行为数据在所述文件库中进行检索,得到第三检索文件;
将所述第三检索文件自动推荐给所述用户。
8.一种文件检索装置,其特征在于,所述装置包括:
获取模块,用于获取用户的用户行为数据和每个文件的文件使用模式;
检索模块,用于接收到所述用户输入的关键词和选择的检索标签时,根据所述关键词及所述检索标签在文件库中进行检索,得到多个第一检索文件;
计算模块,用于计算每个所述第一检索文件与所述用户行为数据的第一关联度,及计算每个所述第一检索文件与所述文件使用模式的第二关联度;
排序模块,用于使用预设快速排序算法根据所述第一关联度和所述第二关联度对所述多个第一检索文件进行排序;
输出模块,用于输出排序后的多个第一检索文件。
9.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现根据权利要求1至7中任一项所述的文件检索方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的文件检索方法的步骤。
CN202311372991.1A 2023-10-20 2023-10-20 文件检索方法、装置、电子设备及存储介质 Pending CN117632866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311372991.1A CN117632866A (zh) 2023-10-20 2023-10-20 文件检索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311372991.1A CN117632866A (zh) 2023-10-20 2023-10-20 文件检索方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117632866A true CN117632866A (zh) 2024-03-01

Family

ID=90027753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311372991.1A Pending CN117632866A (zh) 2023-10-20 2023-10-20 文件检索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117632866A (zh)

Similar Documents

Publication Publication Date Title
US11593438B2 (en) Generating theme-based folders by clustering digital images in a semantic space
Beebe et al. Digital forensic text string searching: Improving information retrieval effectiveness by thematically clustering search results
US20130311487A1 (en) Semantic search using a single-source semantic model
Saravanan et al. Identification of rhetorical roles for segmentation and summarization of a legal judgment
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
US10747759B2 (en) System and method for conducting a textual data search
CN109145110B (zh) 标签查询方法和装置
JP2013541793A (ja) マルチモード検索クエリー入力手法
Tuarob et al. A generalized topic modeling approach for automatic document annotation
CN101093504A (zh) 用于提取新复合词的系统和方法
US20220253719A1 (en) Schema augmentation system for exploratory research
Gasparetti et al. Exploiting web browsing activities for user needs identification
US20130346385A1 (en) System and method for a purposeful sharing environment
US8533150B2 (en) Search index generation apparatus
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
Jiang et al. Hierarchical visualization of video search results for topic-based browsing
US11275777B2 (en) Methods and systems for generating timelines for entities
Lu et al. Browse-to-search: Interactive exploratory search with visual entities
US20220050884A1 (en) Utilizing machine learning models to automatically generate a summary or visualization of data
WO2021055868A1 (en) Associating user-provided content items to interest nodes
Tsukuda et al. Estimating intent types for search result diversification
Hsu et al. Designing a graph-based framework to support a multi-modal approach for music information retrieval
CN117632866A (zh) 文件检索方法、装置、电子设备及存储介质
CN112182069A (zh) 代理人留存预测方法、装置、计算机设备及存储介质
Barai et al. Image Annotation System Using Visual and Textual Features.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination