CN110888993A

CN110888993A - 一种复合文档检索方法、装置及电子设备

Info

Publication number: CN110888993A
Application number: CN201810950144.1A
Authority: CN
Inventors: 冷志峰; 宁廷泽
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2020-03-17

Abstract

本发明实施例提供了一种复合文档检索方法、装置及电子设备。其中，方法包括：获取目标复合文档的文档特征，所述文档特征包括：特征文本、特征图片和特征语音中的至少一个；分别确定多个待检测复合文档是否与所述文档特征相匹配；将所述多个待检测复合文档中与所述文档特征相匹配的复合文档，作为所述目标复合文档的相似文档。可以通过将大量待检测复合文档与文档特征进行比对，以实现自动地从大量待检测复合文档中确定出具有特定内容的复合文档，降低所需要的操作量，节省用户的时间。

Description

一种复合文档检索方法、装置及电子设备

技术领域

本发明涉及文件搜索技术领域，特别是涉及一种复合文档检索方法、装置及电子设备。

背景技术

随着电子设备存储能力的上升，电子设备中可能存储有大量复合文档，用户难以准确记住每个复合文档中包括的内容。出于实际需求，用户可能需要查找包含有特定内容的复合文档，例如，用户需要寻找关于某一特定事件的复合文档。

现有的方法，可以是由用户推断出可能包含有特定内容的复合文档，逐个打开并浏览这些复合文档，以确定这些复合文档中是否确实包含有特定内容，将包含有特定内容的复合文档挑选出来。

但是，当可能包含有特定内容的复合文档数量较多时，用户需要多次重复打开复合文档、以及浏览复合文档的步骤，操作繁琐并且可能花费大量时间。

发明内容

本发明实施例的目的在于提供一种文档检索方法，以实现自动地从大量待检测复合文档中确定出具有特定内容的复合文档。具体技术方案如下：

在本发明实施例的第一方面，提供了一种复合文档检索方法，所述方法包括：

获取目标复合文档的文档特征，所述文档特征包括：特征文本、特征图片和特征语音中的至少一个；

分别确定多个待检测复合文档是否与所述文档特征相匹配；

将所述多个待检测复合文档中与所述文档特征相匹配的复合文档，作为所述目标复合文档的相似文档。

结合第一方面，在第一种可能的实现方式中，所述分别确定多个待检测复合文档是否与所述文档特征相匹配，包括：

如果所述文档特征包括特征文本，针对多个待检测复合文档中的每个复合文档执行以下步骤：

提取该待检索复合文档的文本内容；

确定该待检索复合文档的文本内容中是否包括有所述特征文本；

如果该待检索复合文档的文本内容中包括有所述特征文本，确定该待检索复合文档与所述特征文本相匹配。

结合第一方面，在第二种可能的实现方式中，所述分别确定多个待检测复合文档是否与所述文档特征相匹配，包括：

如果所述文档特征包括特征语音，针对多个待检测复合文档中的每个复合文档执行以下步骤：

提取该待检索复合文档的语音内容；

确定该待检索复合文档的语音内容中，是否存在与所述特征语音发音相似度高于预设发音相似度阈值的语音片段；

如果该待检索文档的语音内容中，存在与所述特征语音发音相似度高于预设发音相似度阈值的语音片段，确定该待检索复合文档与所述特征语音相匹配。

结合第一方面，在第三种可能的实现方式中，所述分别确定多个待检测复合文档是否与所述文档特征相匹配，包括：

如果所述文档特征中包括特征图片，针对多个待检测复合文档中的每个复合文档执行以下步骤：

将该待检测复合文档所包括的页面转换为图片，得到该待检测复合文档对应的图片集合；

将该待检测复合文档中的页面转换为图片，得到该待检测复合文档对应的图片集合；

确定所述图片集合中，是否存在与所述特征图片相匹配的图片；

如果所述图片集合中存在与所述特征图片相匹配的图片，确定该待检测复合文档与所述图片特征相匹配。

结合第一方面，在第四种可能的实现方式中，所述方法应用于云端，所述云端保存有客户端的多个复合文档，作为待检测复合文档；

所述获取目标复合文档的特征文件，包括：

获取客户端发送的特征文件，所述特征文件包括：特征文本文件、特征图片文件和特征语音文件中的至少一个；

从所述特征文件中提取所述目标复合文档的文档特征。

在本发明实施例的第二方面，提供了一种复合文档检索装置，所述装置包括：

特征获取模块，用于获取目标复合文档的文档特征，所述文档特征包括：特征文本、特征图片和特征语音中的至少一个；

特征匹配模块，用于分别确定多个待检测复合文档是否与所述文档特征相匹配；并将所述多个待检测复合文档中与所述文档特征相匹配的复合文档，作为所述目标复合文档的相似文档。

结合第二方面，在第一种可能的实现方式中，所述特征匹配模块具体用于如果所述文档特征包括特征文本，针对多个待检测复合文档中的每个复合文档执行以下步骤：

提取该待检索复合文档的文本内容；

结合第二方面，在第二种可能的实现方式中，所述特征匹配模块具体用于如果所述文档特征包括特征语音，针对多个待检测复合文档中的每个复合文档执行以下步骤：

提取该待检索复合文档的语音内容；

结合第二方面，在第三种可能的实现方式中，所述特征匹配模块具体用于如果所述文档特征中包括特征图片，针对多个待检测复合文档中的每个复合文档执行以下步骤：

结合第二方面，在第四种可能的实现方式中，所述装置应用于云端，所述云端保存有客户端的多个复合文档，作为待检测复合文档；

所述特征获取模块具体用于获取客户端发送的特征文件，所述特征文件包括：特征文本文件、特征图片文件和特征语音文件中的至少一个；

从所述特征文件中提取所述目标复合文档的文档特征。

在本发明实施例的第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的复合文档检索方法。

在本发明实施例的第四方面，提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的复合文档检索方法。

本发明实施例提供的文档检索方法、装置及电子设备，可以通过将大量待检测复合文档与文档特征进行比对，以实现自动地从大量待检测复合文档中确定出具有特定内容的复合文档，降低所需要的操作量，节省用户的时间。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的复合文档检索方法的一种流程示意图；

图2为本发明实施例提供的特征文本匹配方法的一种流程示意图；

图3为本发明实施例提供的特征图片匹配方法的一种流程示意图；

图4为本发明实施例提供的特征语音匹配方法的一种流程示意图；

图5为本发明实施例提供的复合文档检索装置的一种结构示意图；

图6为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1所示为本发明实施例提供的复合文档检测方法，可以包括：

S101，获取目标复合文档的文档特征。

其中，文档特征包括特征文本、特征图片和特种语音中的至少一个。目标复合文档为用户想要找到的复合文档，不同于纯文本文档，复合文档中除了文本内容外，还可能包括有图片、语音、电子表格等，复合文档的种类繁多，为讨论方便接下来以PDF(PortableDocument Format，便携式文件格式)文档为例对本方案进行描述，可以理解的是，对于其他种类的复合文档原理是相同的。

在一种可选的实施例中，可以是获取用户输入或选择的文档特征，作为复合文档特征。示例性的，当用户想从电子设备本地所存储的众多的PDF文档中找到某一个特定的PDF文档时，可以是输入一个或多个字符串作为特征文本，这一个或多个字符串可以是用户想要查找的PDF文档中所包含的字符串，用户还可以选择一个图片作为特征图片，该图片可以是用户用户想要查找的PDF文档中所包括的图片，也可以是该PDF文档中某一个或某几个页面的截图，用户还可以选择或者通过录音设备输入一段或多段音频作为特征语音，例如用户想要查找的PDF中包括一首歌曲，用户可以通过录音设备将自己唱的这首歌曲输入至电子设备中，作为特征语音。

在一种可选的实施例中，该方法可以应用于云端，云端预先保存有客户端的多个复合文档，作为待检测复合文档。该步骤可以是获取客户端发送的特征文件，特征文件包括：特征文本文件、特征图片文件和特征语音文件中的至少一个，云端在接收到特征文件后，从特征文件中提取目标复合文档的文档特征，进一步的，云端是从特征文本文件中提取特征文本，从特征图片文件中提取特征图片，从特征语音文件中提取特征语音。相比于客户端，云端往往具备有更强大的运算能力，能够缩短特征匹配所花费的时间，提高检索效率。

S102，分别确定多个待检测复合文档是否与文档特征相匹配。

其中，待检测复合文档可以是用户指定路径内所包括的复合文档，示例性的，如果用户确定目标复合文档被存储于本地的D盘符中，可以将D盘符中所包括的所有的复合文档作为待检测复合文档。

S103，将多个待检测复合文档中与文档特征相匹配的复合文档，作为目标复合文档的相似文档。

其中，待检测复合文档与文档特征相匹配可以是指该待检测复合文档与文档特征所包括的所有内容均匹配，例如当文档特征同时包括特征文本、特征图片以及特征语音时，一个待检测复合文档与文档特征相匹配是指该待检测复合文档同时与特征文本、特征图片以及特征语音相匹配。在该匹配机制下，可以提高检索的准确性。

进一步的，待检测复合文档与文档特征相匹配也可以是指该待检测复合文档与文档特征所包括的内容中至少一个内容相匹配，例如当文档特征同时包括特征文本、特征图片以及特征语音时，一个待检测复合文档与文档特征相匹配是指该待检测复合与特征文本、特征图片以及特征语音中至少一个相匹配。在该匹配机制下，可以扩大检索结果的范围，降低目标复合文档被遗漏的概率。

为清楚地描述本实施例的步骤，下面将分别对特征文本、特征图片和特征语音的匹配方法进行描述：

对于特征文本的匹配，可以是针对多个待检测复合文档中每个文档按照图2所示的方法进行处理，包括：

S201，提取该待检测复合文档的文本内容。

可以是利用预设的PDF文本内容提取工具从该待检测复合文档中提取文本内容，提取到的文本内容为纯文本。

S202，确定该待检索复合文档的文本内容中是否包括有特征文本。

示例性的，可以是将提取到的文本内容作为一个字符串，确定该字符串是否存在与特征文本一致的子串或者子序列。根据实际需求，包括可以是指完全包括，也可以是指部分包括。完全包括是指特征文本所包括的所有字符均属于提取到的文本内容，部分包括是指特征文本中大于预设比例阈值的字符属于提取到的文本内容，预设比例阈值越高则匹配机制越严格，预设比例阈值越低则匹配机制越不严格，当预设比例阈值为100％时，部分包括等价于完全包括。

S203，如果待检索复合文档的文本内容中包括有特征文本，确定该待检索复合文档与特征文本相匹配。

对于特征图片的匹配，可以是针对多个待检测复合文档中每个文档按照图3所示的方法进行处理，包括：

S301，将该待检测复合文档所包括的页面转换为图片，得到该待检测复合文档对应的图片集合。

可以通过预设的图片转化工具，将PDF文档中的每个页面转化为一个JPEG(JointPhotographic Experts Group，联合图像专家小组)格式图片，以得到一个图片结合，该图片集合中的每个图片对应于该PDF文档中的一个页面。

S302，确定图片集合中，是否存在与特征图片相匹配的图片。

其中，与特征图片相匹配的图像可以是与特征图片相似度高于预设相似度阈值的图片。进一步的，可以是遍历图片集合以确定图片集合中每个图片与特征图片的相似度，该相似度可以是通过预设的图像匹配算法计算得到的，例如SIFT(Scale-invariant featuretransform，尺度不变特征转换)算法，确定得到的相似度中是否存在高于预设相似度阈值的相似度，如果存在高于预设相似度阈值的相似度，则确定图片集合中存在与特征图片相匹配的图片。

S303，如果图片集合中存在与特征图片相匹配的图片，确定该待检测复合文档与图片特征相匹配。

可以理解的是，目标复合文档中可能不包括有图片，并且即使目标复合文档中包括有图片，用户在查找目标文档时可能没法找到或者回忆起目标复合文档中所包括的图片，而用户有更大概率可能找到针对目标复合文档的截图，或者回忆起目标复合文档某一个页面的布局，选用该实施例，可以在用户能够找到针对目标复合文档的截图或者回忆起目标复合文档某一个页面的布局时，能够为目标复合文旦的检索提供更多的特征，提高检索结果的准确性。

对于特征语音的匹配，可以是针对多个待检测复合文档中每个文档按照图4所示的方法进行处理，包括：

S401，提取该待检索复合文档的语音内容。

可以是提取插入至PDF文档中的语音文件，作为该PDF文档的语音内容。

S402，确定该待检索复合文档的语音内容中，是否存在与特征语音发音相似度高于预设发音相似度阈值的语音片段。

其中，计算特征语音和语音片段的相似度可以是提取特征语音和语音片段的特征参数，例如基因频率、梅尔倒频谱系数和声音强度等，基于特征语音和语音片段的特征参数，计算特征语音和语音片段之间的欧式距离作为衡量特征语音和语音片段之间相似程度的发音相似度。

S403，如果该待检索文档的语音内容中，存在与特征语音发音相似度高于预设发音相似度阈值的语音片段，确定该待检索复合文档与特征语音相匹配。

参见图5，图5所示为本发明实施例提供的复合文档检索装置，可以包括：

特征获取模块501，用于获取目标复合文档的文档特征，所述文档特征包括：特征文本、特征图片和特征语音中的至少一个；

特征匹配模块502，用于分别确定多个待检测复合文档是否与所述文档特征相匹配；并将所述多个待检测复合文档中与所述文档特征相匹配的复合文档，作为所述目标复合文档的相似文档。

进一步的，所述特征匹配模块502具体用于如果所述文档特征包括特征文本，针对多个待检测复合文档中的每个复合文档执行以下步骤：

提取该待检索复合文档的文本内容；

进一步的，所述特征匹配模块502具体用于如果所述文档特征包括特征语音，针对多个待检测复合文档中的每个复合文档执行以下步骤：

提取该待检索复合文档的语音内容；

进一步的，所述特征匹配模块502具体用于如果所述文档特征中包括特征图片，针对多个待检测复合文档中的每个复合文档执行以下步骤：

进一步的，该装置应用于云端，所述云端保存有客户端的多个复合文档，作为待检测复合文档；

所述特征获取模块501具体用于获取客户端发送的特征文件，所述特征文件包括：特征文本文件、特征图片文件和特征语音文件中的至少一个；

从所述特征文件中提取所述目标复合文档的文档特征。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

分别确定多个待检测复合文档是否与所述文档特征相匹配；

进一步的，所述分别确定多个待检测复合文档是否与所述文档特征相匹配，包括：

提取该待检索复合文档的文本内容；

提取该待检索复合文档的语音内容；

进一步的，

所述云端保存有客户端的多个复合文档，作为待检测复合文档；

所述获取目标复合文档的特征文件，包括：

从所述特征文件中提取所述目标复合文档的文档特征。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一的复合文档检索方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一的复合文档检索方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和电子设备的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种复合文档检索方法，其特征在于，包括：

分别确定多个待检测复合文档是否与所述文档特征相匹配；

2.根据权利要求1所述的方法，其特征在于，所述分别确定多个待检测复合文档是否与所述文档特征相匹配，包括：

提取该待检索复合文档的文本内容；

3.根据权利要求1所述的方法，其特征在于，所述分别确定多个待检测复合文档是否与所述文档特征相匹配，包括：

提取该待检索复合文档的语音内容；

4.根据权利要求1所述的方法，其特征在于，所述分别确定多个待检测复合文档是否与所述文档特征相匹配，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法应用于云端，所述云端保存有客户端的多个复合文档，作为待检测复合文档；

所述获取目标复合文档的特征文件，包括：

从所述特征文件中提取所述目标复合文档的文档特征。

6.一种复合文档检索装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述特征匹配模块具体用于如果所述文档特征包括特征文本，针对多个待检测复合文档中的每个复合文档执行以下步骤：

提取该待检索复合文档的文本内容；

8.根据权利要求6所述的装置，其特征在于，所述特征匹配模块具体用于如果所述文档特征包括特征语音，针对多个待检测复合文档中的每个复合文档执行以下步骤：

提取该待检索复合文档的语音内容；

9.根据权利要求6所述的装置，其特征在于，所述特征匹配模块具体用于如果所述文档特征中包括特征图片，针对多个待检测复合文档中的每个复合文档执行以下步骤：

10.根据权利要求6所述的装置，其特征在于，所述装置应用于云端，所述云端保存有客户端的多个复合文档，作为待检测复合文档；

从所述特征文件中提取所述目标复合文档的文档特征。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。