CN116881406B

CN116881406B - 一种多模态智能文件检索方法及系统

Info

Publication number: CN116881406B
Application number: CN202311154002.1A
Authority: CN
Inventors: 李强; 赵峰; 庄莉; 王秋琳; 宋立华; 张晓东; 吴佩颖; 王燕蓉; 吕志超; 林钊
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2024-01-09
Anticipated expiration: 2043-09-08
Also published as: CN116881406A

Abstract

本发明公开了一种多模态智能文件检索方法及系统，涉及资源检索技术领域；包括以下步骤：通过采集文本模态数据的多项数据信息，文本模态检索后用户产生的资源反馈信息，将多项数据信息中文本涵盖信息以及检索热度信息生成文本达标指数，根据生成的文本达标指数与设置的文本达标阈值进行对比，对文本模态数据的状态进行评估，从而确定了文本模态数据的状态情况，再根据资源反馈信息中检索浏览信息与点击波动信息进行分析，生成检索调控指数，根据检索调控指数，对检索结果进行分析，根据分析结果重新调整检索方式，从而减少了多模态数据检索开始时过多的资源供给浪费情况，实现了智能检索。

Description

一种多模态智能文件检索方法及系统

技术领域

本发明涉及资源检索技术领域，具体涉及一种多模态智能文件检索方法及系统。

背景技术

多模态是指涉及多个感官模式或多种信息来源的技术或系统，这些感官模式通常包括视觉、听觉、触觉、嗅觉、味觉等，而多模态系统则能够同时处理和融合来自这些感官模式的信息，在计算机科学和人工智能领域，多模态通常指的是同时处理和整合不同类型的数据或信息，例如文本、图像、音频、视频等，以更全面地理解和处理信息。

多模态智能文件检索是一种高级文件检索技术，它允许用户在检索文件或数据时使用多种模态（不仅限于文本）的信息来提高检索的准确性和相关性，这种方法利用了多模态数据，例如文本、图像、音频、视频等，以更全面地满足用户的信息需求。

现有技术存在以下不足：用户在上传多模态数据进行相关检索时，检索系统将多模态数据进行联合分析，增强了对检索结果的准确性，但同时也相应增加了检索系统的检索资源分配量，而部分情况下，检索系统往往只需要根据用户上传多模态信息中部分模态信息或者单模态信息就能筛选出符合用户需求的检索结果，所以在此情况下，对用户上传的所有模态进行汇总分析不仅增加检索系统的负担，还增加用户等待检索的响应时间，而对不符合用户检索需求的文本模态数据分析，不能及时进行多模态数据分析的转变，使得用户的需求不能进行快速检索响应。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的是提供一种多模态智能文件检索方法及系统，以解决背景技术中的不足。

为了实现上述目的，本发明提供如下技术方案：一种多模态智能文件检索方法，包括以下步骤：

采集文本模态数据的多项数据信息，多项数据信息包括文本涵盖信息以及检索热度信息，将文本涵盖信息以及检索热度信息生成文本达标指数；

将生成的文本达标指数与文本达标阈值进行比对，根据比对结果对文本模态数据的状态进行分析；

采集文本模态检索后用户产生的资源反馈信息，资源反馈信息包括检索浏览信息与点击波动信息，对检索浏览信息与点击波动信息进行分析，生成检索调控指数；

根据检索调控指数，对检索结果进行分析，根据分析结果重新调整检索方式。

优选的，文本涵盖信息包括逆检索词频频率系数并标定为、检索热度信息包括关键热词检索波动值并标定为/>，检索浏览信息包括滚动浏览浮值并标定为/>，点击波动信息包括点击停留时长系数并标定为/>。

优选的，逆检索词频频率系数、关键热词检索波动值的获取逻辑如下：

获取词语在检索文本模态出现的次数CI，获取检索文本模态中的总词数CS，计算得到词语出现的词频，获取总检索文本模态ZS，获取包含词语的总检索文本模态中检索文本模态数JC，得到逆检索频率/>，将检索文本模态数与逆检索频率进行计算得到逆检索词频频率/>，将检索文本模态各词语逆检索词频频率进行汇总求和得到逆检索词频频率系数/>；

获取时间段内划分的各时间窗口，在各时间窗口内计算所选择关键词的总检索量GJ，获取所选择关键词在所有时间窗口内的最大检索次数，获取所选择关键词在所有时间窗口内的最小检索次数/>，获取所选择关键词在所有时间窗口内的平均检索次数/>，计算得到所选择关键词的波动值， />，将检索文本中所有关键词进行汇总得到文本的关键热词检索波动值，计算表达式为：，i=1，2，3，…，n，n为关键词数量。

优选的，将逆检索词频频率系数、关键热词检索波动值做无量纲处理，去除单位后生成文本达标指数，并标定为，依据的公式为：

，式中，/>、/>分别为逆检索词频频率系数/>、关键热词检索波动值/>的预设比例系数，且/>、/>均大于0。

优选的，将生成的文本达标指数与文本达标阈值进行比对，根据比对结果对文本模态数据的状态进行分析，具体步骤如下：

将生成的文本达标指数与文本达标阈值进行比对；

若文本达标指数大于文本达标阈值，则生成文本达标信号；

若文本达标指数小于等于文本达标阈值，则生成文本缺失信号。

优选的，滚动浏览浮值、点击停留时长系数的获取逻辑如下：

获取设置时间段内用户滚动页面的次数GCS，用户浏览检索页面总次数LCS，计算得到用户的滚动频率为，获取用户检索页面的滚动距离GDJ与显示检索结果页面的总高度YMG，计算得到滚动深度/>，滚动浏览浮值计算的表达式为：/>；

获取用户点击检索结果的时长戳，获取离开页面的时间戳，计算得到用户浏览页面的停留的时长TS，获取各用户点击相同检索结果页面停留的平均时长，获取满足用户预期的相同检索结果页面停留时长，计算满足用户预期的相同检索结果页面停留平均时长 />，计算得到点击停留时长系数，计算公式为：。

优选的，将获取到的滚动浏览浮值、点击停留时长系数做无量纲处理，去除单位后生成检索调控指数，并标定为，依据的公式为：

，式中，/>、/>分别为滚动浏览浮值/>、点击停留时长系数/>的预设比例系数，且/>、/>均大于0。

优选的，根据检索调控指数，对检索结果进行分析，根据分析结果重新调整检索方式，具体过程如下：

将检索调控指数与检索调控阈值进行对比；

若检索调控指数小于检索调控阈值，生成单模态检索信号，不进行模态策略调整；

若检索调控指数大于等于检索调控阈值，生成多模态检索信号，采用多模态数据进行结果检索。

本发明还提供一种多模态智能文件检索系统，包括数据采集模块、数据处理模块、数据分析模块、检索控制模块；

数据采集模块采集文本模态数据的多项数据信息，用户产生的资源反馈信息，多项数据信息包括文本涵盖信息以及检索热度信息，资源反馈信息包括检索浏览信息与点击波动信息，将采集的数据发送到数据处理模块；

数据处理模块接收到数据采集模块发送的数据，将文本涵盖信息以及检索热度信息生成文本达标指数，将检索浏览信息与点击波动信息生成检索调控指数，并发送到数据分析模块；

数据分析模块接收数据处理模块发送的数据，将文本达标指数与文本达标阈值进行对比，得到第一对比结果，将检索调控指数与检索调控阈值进行对比，得到第二对比结果，将数据发送到检索控制模块；

检索控制模块接收数据分析模块发送的数据，根据第一对比结果分析生成不同文本信号，根据第二对比结果分析生成不同控制信号，根据生成的控制信号对检索方式进行调整。

在上述技术方案中，本发明提供的技术效果和优点：

本申请对单文本模态预检索情况进行分析，将文本模态数据的文本涵盖信息与检索热度信息联立生成文本达标指数，根据生成的文本达标指数与文本达标阈值进行对比，对检索文本的达标状态进行评估，从而确定了用户提供的检索文本情况，根据检索文本情况确定进行单文本模态检索或者多模态联合检索，实现了资源的精细利用，再对进行单文本模态检索的结果进行分析，根据采集的检索浏览信息与点击波动信息进行联立，生成检索调控指数，将检索调控指数与检索调控阈值进行对比，根据对比结果生成不同控制信号，根据不同控制信号，从而使用多模态进行检索，提高了分配资源的准确性以及资源的利用率，减少了检索开始时过多模态联合分析的资源供给浪费情况，实现了智能检索。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明一种多模态智能文件检索方法及系统的流程示意图。

图2为本发明一种多模态智能文件检索方法及系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本公开的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

实施例1：本发明提供了如图1所示的一种多模态智能文件检索方法，所述方法包括以下步骤：

在多模态信息检索过程中，文本通常是一个普遍存在的模态，因为文本是最常用的检索方式之一，文本具有广泛的应用，不仅可以用于搜索引擎查询，还可以在各种应用中用于描述、解释和标记信息。

在信息检索多样性和准确性方面，通常会将文本模态与其他模态进行有机组合，形成多模态检索系统，这种组合可以包括文本-语音、文本-图像等多种形式，通过这种多模态的方式，用户可以选择最适合他们需求的检索方式，例如，用户可以输入文本查询，或者上传一张图片，或者使用语音命令，以便更方便地获取所需信息，多模态组合的方法不仅增加了检索的多样性，还可以提高检索的精确性，因为不同模态的信息可以相互补充，这种多模态检索方式旨在更好地满足用户多样化的信息需求，对文本模态进行优先分析不仅能快速了解到用户的初始检索意图，还能节省分析其他模态得到相同信息所需资源。

多模态对文件检索，即通过多模态的数据对信息进行检索，多模态中文本数据通常比其他多模态数据更容易处理，因为文本是结构化的、离散的信息，如果文本查询已经足够明确并返回了满意的结果，那么可以避免对其他多模态数据进行分析，从而减少潜在的错误和误导，通过多模态数据进行信息检索时，采集文本数据的多项数据信息，多项数据信息包括文本涵盖信息以及检索热度信息，通过采集的信息分析文本数据是否符合进行单模态筛选的要求。

文本涵盖信息包括逆检索词频频率系数，检索热度信息包括关键热词检索波动值，采集后，将逆检索词频频率系数、关键热词检索波动值分别标定为、/>。

文本涵盖信息中的逆检索词频频率系数对分析文本模态数据有重要影响，逆检索词频频率系数表示文本模态数据在整个文本检索过程中的重要情况，逆检索词频频率系数具有以下作用：

词语权重分析：为文本中每个词语进行权重分析，将高频词语（在文本检索中频繁出现但在整个文本检索集合中也常见）和稀有词语（在检索中少见但在整个检索集合中罕见）进行区分，从而确定词语在文档中重要程度；

信息检索分析：常用于文本信息检索任务中，可以帮助确定用户查询与检索结果集合中哪些检索结果相关，并对相关性进行排序，高逆检索词频频率系数的词语通常与文档的主题或内容密切相关。

逆检索词频频率系数的获取逻辑如下：

获取词语在检索文本模态出现的次数CI，获取检索文本模态中的总词数CS，计算得到词语出现的词频，获取总检索文本模态ZS，获取包含词语的总检索文本模态中检索文本模态数JC，得到逆检索频率/>，将检索文本模态数与逆检索频率进行计算得到逆检索词频频率/>，将检索文本模态各词语逆检索词频频率进行汇总求和得到逆检索词频频率系数/>。

需要说明的是，在对文本模态数据进行词语出现频率分析时，通过词性过滤和停用词处理对文本进行分词，从而得到不同文本中的词语，对词语进行频率分析从而得到不同词语在文本中出现的频率。

检索热度信息中的关键热词检索波动值对评估分析文本模态数据有重要影响，关键热词检索波动值表示时间段内检索关键词的检索波动情况，关键热词检索波动值反映以下情况：

兴趣趋势变化：通过检查关键热词的波动，可以了解特定主题或关键词在一段时间内的受欢迎程度趋势，如果某个关键词的检索量在某段时间内显著增加，表示人们对该主题或关键词的兴趣上升，进行检索的数据发送模型变化。

关键热词检索波动值获取的逻辑如下：

需要说明的是，收集时间段内的检索数据，这是从用户进行检索的搜索引擎、网站分析工具、社交媒体平台或其他数据源中获取的检索查询数据，数据应该包括查询文本以及与每个查询相关的时间戳，使用自然语言处理工具来从查询文本中自动提取关键词，识别出文本中频繁出现的词语或短语，并作为关键词提取出来。

根据文本涵盖信息以及检索热度信息对文本模态数据进行综合分析，根据分析结果得到预期的文本检索情况；

将获取到的逆检索词频频率系数、关键热词检索波动值做无量纲处理，去除单位后生成文本达标指数，并标定为，依据的公式为：

由公式可知，逆检索词频频率系数越大、关键热词检索波动值越大，即文本达标指数的表现值越大，表明用户用于检索的文本模态数据与近期其他用户检索的文本相似性高，检索出用户所预期结果的概率大，逆检索词频频率系数越小、关键热词检索波动值越小，即文本达标指数/>的表现值越小，表明用户用于检索的文本模态数据与近期其他用户检索的文本相似性低，检索出用户所预期结果的概率小。

在用户进行多模态数据检索前，相应的检索系统中资源存在上限值，保存着充足的资源能进一步维持检索系统的稳定性，通过设置相应的阈值标准对预期的文本检索进行分析，以对应的阈值标准为分界线，确定用户检索文本达标状态；

将生成的文本达标指数与文本达标阈值进行比对，根据比对结果判断检索文本的达标状态；

获取到生成的文本达标指数后，将生成的文本达标指数与文本达标阈值进行对比，若文本达标指数大于文本达标阈值，则生成文本达标信号，表明检索文本与历史检索文本相似，用户进行单文本模态检索时，出现用户预期相符的检索结果概率大，检索文本能够用于单文本模态检索；

若文本达标指数小于等于文本达标阈值，则生成文本缺失信号，表明检索文本与历史检索文本不相似，用户进行单文本模态检索时，出现用户预期相符的检索结果概率小，检索文本不能够用于单文本模态检索。

本申请通过对单文本模态预检索情况进行分析，将文本模态数据的文本涵盖信息与检索热度信息联立生成文本达标指数，根据生成的文本达标指数与文本达标阈值进行对比，对检索文本的达标状态进行评估，从而确定了用户提供的检索文本情况，根据检索文本情况确定进行单文本模态检索或者多模态联合检索，实现了资源的精细利用。

实施例2：在接收到文本达标信号后，进行单文本模态检索，在收集、存储和处理文本数据通常比多模态数据更经济，这降低了系统运营和维护的成本，文本数据相对容易进行自然语言处理和语义分析，有助于更好地理解用户的意图和需求；在能够提供符合用户预期的检索结果下，单文本模态检索可以降低系统的计算和存储负担，因为文本数据通常更紧凑且易于处理，文本数据通常更容易处理和分析，因此单文本模态检索通常能够提供更快的搜索结果反馈，减少了用户等待时间。

当单文本模态检索所提供的检索结果无法完全满足用户的期望时，为了提高检索结果的质量和准确性，在一些情况下，需要通过一些关键参数来判断是否切换到多模态数据进行联合分析。

采集用户产生的资源反馈信息，资源反馈信息包括检索浏览信息与点击波动信息，检索浏览信息包括滚动浏览浮值，点击波动信息包括点击停留时长系数，采集后，将滚动浏览浮值、点击停留时长系数分别标定为、/>。

滚动浏览浮值表示用户历史检索结果与本次检索结果的浏览浮动情况，衡量用户对检索结果的浏览情况，具有以下方面影响：

相关性与期望差距：搜索结果与用户的期望和需求高度相关，用户会更倾向于停留在页面上，而不需要频繁滚动浏览，相反，如果结果与期望差距较大，用户会更频繁地滚动以寻找更合适的信息；

结果排序质量：搜索引擎的排序算法能够准确地将最相关的结果排在前面，用户在初始浏览时能够找到满足需求的信息，从而减少滚动浏览的需求，当不符合需求时，用户会进行更多的滚动。

滚动浏览浮值的获取逻辑如下：

获取设置时间段内用户滚动页面的次数GCS，用户浏览检索页面总次数LCS，计算得到用户的滚动频率为，获取用户检索页面的滚动距离GDJ与显示检索结果页面的总高度YMG，计算得到滚动深度/>，滚动浏览浮值计算的表达式为：/>。

需要说明的是，用户滚动页面的次数、页面浏览总次数、页面的滚动距离通过监测用户在搜索结果界面上的滚动行为来获取，通过使用前端技术设置的监听器进行获取并对数据结果进行存储。

点击停留时长系数表示用户点击检索结果的停留时长值，用来评估用户对检索结果的浏览时长情况，点击停留时长系数会产生以下方面影响：

高反弹率：如果用户点击后很快离开，这会导致页面的高反弹率，反弹率是指用户点击一个结果然后离开页面的比例，高反弹率表明用户对结果不满意或没有找到所需的信息，反应了检索结果的不准确；

用户不满意：短暂的停留时长表示用户并不满意点击的结果，页面内容不相关或不符合用户需求，较短的点击停留时长说明对检索的结果不感兴趣，检索结果不符合用户预期。

点击停留时长系数的获取逻辑如下：

需要说明的是，满足用户预期的相同检索结果停留时长表示用户在检索到结果后，此结果满足用户预期，用户浏览预期检索结果的时长，例如，A用户和B用户检索出相同的结果，点击相同结果时，此检索结果符合A用户预期，此检索结果不符合B用户预期，即将A用户的浏览时长作为满足用户预期的相同检索结果停留时长。

将获取到的滚动浏览浮值、点击停留时长系数做无量纲处理，去除单位后生成检索调控指数，并标定为，依据的公式为：

由公式可知，滚动浏览浮值越大、点击停留时长系数越小，即检索调控指数的表现值越大，表明检索结果符合用户预期检索需求的概率小，检索结果不准确，滚动浏览浮值越小、点击停留时长系数越大，即检索调控指数/>的表现值越小，表明检索结果符合用户预期检索需求的概率大，检索结果准确。

将检索调控指数与检索调控阈值进行对比，具体过程如下：

若检索调控指数小于检索调控阈值，生成单模态检索信号，表明检索结果符合用户预期的概率大，不进行模态策略调整；

若检索调控指数大于等于检索调控阈值，生成多模态检索信号，表明检索结果不符合用户预期结果的概率大，采用多模态数据进行结果检索，提高检索的准确性。

需要说明的是，检索结果在界面显示时，通常为部分显示，当用户选择进行浏览更多信息时，采用渐进加载和动态结果生成更多检索结果，这种渐进加载和动态结果生成的方法有助于提高搜索体验，因为允许系统根据用户的交互和需求动态调整搜索策略，如果用户对初始的单文本模态检索结果不满意，系统可以在滚动时引入多模态数据，以提供更准确和丰富的信息，这种策略更好地满足了用户的多样化需求，特别是在需要跨模态信息的情况下，在此实施例中有关的阈值信息是专业人员预先进行设置的，设置方式不在此进行过多解释。

本申请通过对单模态文本进行结果检索分析，根据采集的检索浏览信息与点击波动信息进行联立，生成检索调控指数，将检索调控指数与检索调控阈值进行对比，根据对比结果生成不同控制信号，根据不同控制信号，从而使用多模态进行检索，提高了分配资源的准确性以及资源的利用率，减少了多模态数据检索开始时过多的资源供给浪费，实现了智能检索。

实施例3：本发明提供了如图2所示的一种多模态智能文件检索系统，包括数据采集模块、数据处理模块、数据分析模块、检索控制模块；

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

需要说明的是，在本文中，如若存在第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多模态智能文件检索方法，其特征在于，包括以下步骤：

根据检索调控指数，对检索结果进行分析，根据分析结果重新调整检索方式；

文本涵盖信息包括逆检索词频频率系数并标定为、检索热度信息包括关键热词检索波动值并标定为/>，检索浏览信息包括滚动浏览浮值并标定为/>，点击波动信息包括点击停留时长系数并标定为/>；

获取时间段内划分的各时间窗口，在各时间窗口内计算所选择关键词的总检索量GJ，获取所选择关键词在所有时间窗口内的最大检索次数，获取所选择关键词在所有时间窗口内的最小检索次数/>，获取所选择关键词在所有时间窗口内的平均检索次数，计算得到所选择关键词的波动值， />，将检索文本中所有关键词进行汇总得到文本的关键热词检索波动值，计算表达式为：，i=1，2，3，…，n，n为关键词数量；

将逆检索词频频率系数、关键热词检索波动值做无量纲处理，去除单位后生成文本达标指数，并标定为，依据的公式为：

，式中，/>、/>分别为逆检索词频频率系数/>、关键热词检索波动值/>的预设比例系数，且/>、/>均大于0；

获取用户点击检索结果的时长戳，获取离开页面的时间戳，计算得到用户浏览页面的停留的时长TS，获取各用户点击相同检索结果页面停留的平均时长，获取满足用户预期的相同检索结果页面停留时长，计算满足用户预期的相同检索结果页面停留平均时长，计算得到点击停留时长系数，计算公式为：；

2.根据权利要求1所述的一种多模态智能文件检索方法，其特征在于，将生成的文本达标指数与文本达标阈值进行比对，根据比对结果对文本模态数据的状态进行分析，具体步骤如下：

将生成的文本达标指数与文本达标阈值进行比对；

若文本达标指数大于文本达标阈值，则生成文本达标信号；

3.根据权利要求2所述的一种多模态智能文件检索方法，其特征在于，根据检索调控指数，对检索结果进行分析，根据分析结果重新调整检索方式，具体过程如下：

将检索调控指数与检索调控阈值进行对比；

4.一种多模态智能文件检索系统，用于实现权利要求1-3任一项所述的方法，其特征在于，包括数据采集模块、数据处理模块、数据分析模块、检索控制模块；