CN111625621B

CN111625621B - 一种文档检索方法、装置、电子设备及存储介质

Info

Publication number: CN111625621B
Application number: CN202010346071.2A
Authority: CN
Inventors: 赵正阳; 吴艳华; 程智博; 徐温雅; 李忠华
Original assignee: China Academy of Railway Sciences Corp Ltd CARS; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Current assignee: China Academy of Railway Sciences Corp Ltd CARS; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2023-05-09
Anticipated expiration: 2040-04-27
Also published as: CN111625621A

Abstract

本发明实施例公开了一种文档检索方法、装置、电子设备及存储介质，所述文档检索方法包括：当接收到检索关键词时，通过预设词向量检索模型基于所述检索关键词得出目标相关词，其中，所述目标相关词为与所述检索关键词的相似度达到预设相似度的词，所述目标相关词为一个、两个或多个；检索与所述目标相关词对应的目标检索文档，并输出所述目标检索文档。采用本发明可以有效减少文档查找耗时，提高文档检索效率，进而有效提高工作效率，提高目标检索文档的准确性。

Description

一种文档检索方法、装置、电子设备及存储介质

技术领域

本发明涉及文档检索技术领域，具体涉及一种文档检索方法、装置、电子设备及存储介质。

背景技术

随着铁路信息化建设的逐步深入，铁路系统的数据库积累的数据量也越来越大。铁路系统的数据库中积累的文档通常至少包括基础设备设施更新改造、历史维修记录、立项标准规章等数据。

现阶段，通常可以在上述数据库中查找所需文档，以辅助工作。具体的，用户可以浏览铁路系统的数据库中积累的所有文档，以在前述数据库中找到目标文档，基于目标文档辅助工作。这样，由于数据库中数据量较大，通过浏览数据库中的数据进行目标文档的查找，会导致文档查找耗时较长，文档检索效率较低，从而降低工作效率。

发明内容

由于存在以上技术问题，本发明实施例提出一种文档检索方法、装置、电子设备及存储介质。

第一方面，本发明实施例提出一种文档检索方法，包括：

当接收到检索关键词时，通过预设词向量检索模型基于所述检索关键词得出目标相关词，其中，所述目标相关词为与所述检索关键词的相似度达到预设相似度的词，所述目标相关词为一个、两个或多个；

检索与所述目标相关词对应的目标检索文档，并输出所述目标检索文档。

可选的，所述文档检索方法，还包括：

通过与当前非结构化文档对应的文本提取方法，基于所述当前非结构化文档中的信息生成所述当前非结构化文档对应的文本字符；

将所述当前非结构化文档的文档信息存储至预设数据库中，基于所有非结构化文档对应的文本字符构建预设词向量检索模型，其中，所述文档信息包括文档名称、文档内容、文档存放路径。

可选的，所述当前非结构化文档为PDF文档、Word文档、文本文档中的一种；

所述与当前非结构化文档对应的文本提取方法，包括：

若所述当前非结构化文档为PDF文档，则与当前非结构化文档对应的文本提取方法为光学字符识别ORC；

若所述当前非结构化文档为Word文档，则与当前非结构化文档对应的文本提取方法为Word解析；

若所述当前非结构化文档为文本文档，则与当前非结构化文档对应的文本提取方法为文本读取。

可选的，所述基于所有非结构化文档对应的文本字符构建预设词向量检索模型，包括：

对所述所有非结构化文档对应的文本字符进行文本整合及分词处理，得到检索语料库；

统计所述语料库中的所有词汇生成所述语料库中的每个词汇对应的词向量，通过Skip-Gram模型确定任意两个词向量之间的相似度，并为所述Skip-Gram模型设定目标函数，得到预设词向量检索模型。

可选的，所述目标函数的计算公式如下：

其中，w_c为目标词所对应的词向量，目标函数则是将目标词前后m个相邻单词出现概率取负对数并最小化。

可选的，所述检索与所述检索关键词及所述目标相关词对应的目标检索文档，并输出所述目标检索文档，包括：

通过ElasticSearch检索所述目标相关词相关的所有目标检索文档；

按照检索关键词及所述目标相关词的相似度升序/降序，对所述所有目标检索文档进行排序得到目标检索文档序列并输出。

可选的，所述将所述当前非结构化文档的文档信息存储至预设数据库中，包括：

为所述当前非结构化文档建立检索索引，并根据所述检索索引将所述当前非结构化文档的文档信息存储至预设数据库中，以使ElasticSearch根据所述当前非结构化文档对应的检索索引从所述预设数据库中获取所述当前非结构化文档。

第二方面，本发明实施例还提出一种文档检索装置，包括相关词检索模块和文档检索模块，其中：

所述相关词检索模块，用于当接收到检索关键词时，通过预设词向量检索模型基于所述检索关键词得出目标相关词，其中，所述目标相关词为与所述检索关键词的相似度达到预设相似度的词，所述目标相关词为一个、两个或多个；

所述文档检索模块，用于检索与所述目标相关词对应的目标检索文档，并输出所述目标检索文档。

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过调用预设词向量检索模型得出目标相关词，再检索与目标相关词对应的目标检索文档并输出。这样，无需用户浏览铁道系统数据库中的所有文档数据，仅通过输入检索关键词，即可得到想要的目标检索文档，从而可以有效减少文档查找耗时，提高文档检索效率，进而有效提高工作效率。同时，将与检索关键词的相似度达到预设相似度的词确定为目标相关词，还可以提高目标检索文档的准确性，使得输出的目标检索文档更符合用户需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种文档检索方法的流程示意图；

图2为本发明一实施例提供的一种文本信息提取的流程示意图；

图3为本发明一实施例提供的一种信息存储和训练预设词向量检索模型的流程示意图；

图4为本发明一实施例提供的一种文档检索方法的流程示意图；

图5为本发明一实施例提供的一种文档检索装置的结构示意图；

图6为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种文档检索方法的流程示意图，包括：

S101，当接收到检索关键词时，通过预设词向量检索模型基于检索关键词得出目标相关词。

其中，所述目标相关词为与所述检索关键词的相似度达到预设相似度的词，所述目标相关词可以为一个、两个或多个。

所述检索关键词为用户输入的用于检索目标检索文档的关键词，该关键词可以是一个、两个或多个。

所述预设词向量检索模型指预先基于铁路系统数据库中所有非结构化文档训练得到的用于进行文档检索的模型。

所述预设相似度指预先设定一个相似度的值，当词向量检索模型中的某个词汇与检索关键词的相似度达到预设相似度，则认为改词汇为检索关键词的一个目标相关词。

在实施中，可以通过预设词向量检索模型确定出一个或多个目标相关词，再检索与目标相关词对应的一个、两个或多个目标检索文档，并输出所有目标检索文档。具体的，首先，当用户使用文档检索功能时，用户可以向预设词向量检索模型输入检索关键词。然后，可以调用预设词向量检索模型查询与检索关键词对应的目标相关词，即为与检索关键词的相似度达到预设相似度的词。可以理解，每个检索关键词可以对应有一个、两个或多个目标相关词。

S102，检索与目标相关词对应的目标检索文档，并输出所述目标检索文档。

其中，所述目标检索文档指检索出的包含目标相关词文档，目标检索文档的数量也可以是一个、两个或多个。

在实施中，在调用预设词向量检索模型查询到与检索关键词对应的目标相关词之后，可以检索与前述目标相关词对应的目标检索文档，可以理解的是，目标相关词可以有多个，在检索目标检索文档时，若检索关键词为一个，则可以分别检索包含任一目标相关词的目标检索文档，且包含任一目标相关词的目标检索文档可能是一篇、两篇或多篇。若检索关键词为两个或多个(可称为一组检索关键词，该组检索关键词中包括两个或多个检索关键词)，则可以分别检索包含该组检索关键词中每个检索关键词的至少一个目标相关词的目标检索文档，且包含该组检索关键词中每个检索关键词的至少一个目标相关词的目标检索文档也可能是一篇、两篇或多篇。以检索关键词A对应的目标相关词为A1、A2、A3为例，可以分别检索A1对应的所有目标检索文档(如B11、B12)，A2对应的所有目标检索文档(如B21、B22、B23)、A3对应的所有目标检索文档(如B31、B32)，并输出前述A1、A2和A3对应的所有的目标检索文档(如B11、B12、B21、B22、B23、B31、B32)。或者，以检索关键词为A和B，目标关键词A的目标相关词为A1、A2，目标关键词B的目标相关词为B1、B2为例，则可以分别检索包含A1和B1，A1和B2，A2和B1，A2和B2，A1、A2和B1，A1、A2和B2，A1、B1和B2，A2、B1和B2，或A1、A2、B1和B2的目标检索文档，若包含前述各组目标相关词的检索文档为分别为C1、C2，C3，C4、C5，C6，C7，C8，C9、C10，C11，C12。则可以确定与目标相关词对应的目标检索文档为C1、C2、C3、C4、C5、C6、C7、C8、C9、C10、C11、C12。

由上述技术方案可知，本发明实施例通过调用预设词向量检索模型得出目标相关词，再检索与目标相关词对应的目标检索文档并输出。这样，无需用户浏览铁道系统数据库中的所有文档数据，仅通过输入检索关键词，即可得到想要的目标检索文档，实现了目标检索文档d高效智能的检索，从而可以有效减少文档查找耗时，提高文档检索效率，进而有效提高工作效率。同时，将与检索关键词的相似度达到预设相似度的词确定为目标相关词，还可以提高目标检索文档的准确性，使得输出的目标检索文档更符合用户需求。

进一步地，在上述方法实施例的基础上，在允许用户进行文档检索之前，还可以提取文档信息的文本字符，并存储文档信息，相应的处理可以如下：通过与当前非结构化文档对应的文本提取方法，基于当前非结构化文档中的信息生成当前非结构化文档对应的文本字符；将当前非结构化文档的文档信息存储至预设数据库中，基于所有非结构化文档对应的文本字符构建预设词向量检索模型。

其中，所述文档信息至少包括文档名称、文档内容、文档存放路径。

所述当前非结构化文档指铁路系统数据库中的任一非结构化文档。

所述预设数据库为预先设定的用于存储非结构化文档的文档信息的数据库，该预设数据库可以是ElasticSearch数据库，ElasticSearch数据库是一种分布式非结构化数据库。

在实施中，在允许用户进行文档检索之前，可以先对铁路系统数据库中的所有非结构化文档进行文本提取和文档信息存储。具体的，首先，可以先通过与当前非结构化文档对应的文本提取方法，对当前非结构化文档进行文本提取，以将当前非结构化文档中的信息提取为文本字符。然后，参见图2，可以将当前非结构化文档的文档名称、文档内容、文档存放路径等文档信息存储在预设数据库中，如可以是ElasticSearch数据库，ElasticSearch是一种可以提供分布式多用户能力的全文搜索引擎。之后，可以基于前述提取到的所有非结构化文档对应的文本字符构建预设词向量检索模型。这样，进行文本字符的提取可以为预设词向量检索模型的训练提供统一的数据基础，文档信息的存储可以为目标检索文档的检索、获取及输出提供数据支撑。同时，采用ElasticSearch分布式非结构化数据库还可以解决在不同来源文档中，对于铁路设备、设备病害等内容称呼不一致而导致的精确检索无法检索到相关文件的问题。

进一步地，上述当前非结构化文档为PDF文档、Word文档、文本文档中的一种，相应的，与不同非结构化文档对应的文本提取方法可以如下：若当前非结构化文档为PDF文档，则与当前非结构化文档对应的文本提取方法为ORC(Optical Character Recognition，光学字符识别)；若当前非结构化文档为Word文档，则与当前非结构化文档对应的文本提取方法为Word解析；若当前非结构化文档为文本文档，则与当前非结构化文档对应的文本提取方法为文本读取。

在实施中，参见图2(图2中1表示文档信息存储完成)，上述文本字符的提取和存储的具体处理可以为：首先，可以利用不同的文本提取技术，将当前非结构化文档中的信息提取为文本字符，即若当前非结构化文档为PDF文档，则通过ORC将当前非结构化文档中的信息提取为文本字符；若当前非结构化文档为Word文档，则通过Word解析将当前非结构化文档中的信息提取为文本字符；若当前非结构化文档为文本文档，则通过文本读取将当前非结构化文档中的信息提取为文本字符。然后，可以将当前非结构化文档的文档名、文档内容、文档存放路径存储于ElasticSearch数据库中。这样，运用Word文本提取、OCR文件识别等技术可以解决海量非结构化文档的内容提取问题。

进一步地，上述构建预设词向量检索模型的具体处理可以如下：对所有非结构化文档对应的文本字符进行文本整合及分词处理，得到检索语料库；统计语料库中的所有词汇生成语料库中的每个词汇对应的词向量，通过Skip-Gram模型确定任意两个词向量之间的相似度，并为Skip-Gram模型设定目标函数，得到预设词向量检索模型。

在实施中，参见图3(图3中1表示文档信息存储完成)，首先，可以对从非结构化文档中提取的文本字符进行整合，形成高铁工务设备更改大修常用的语料库，之后通过去除停用词、结合铁路专业词典进行中文分词(即通过自然语言处理分词)后，得到可用于词向量相似度训练的语料库。然后，通过如下Word2vec算法进行预设词向量检索模型的训练，得到预设词向量检索模型(即图3中的词向量模型)：

统计出语料库中的所有词汇，然后对每个词汇编号，针对每个词汇建立V维的向量，向量的每个维度表示一个词汇，所以，对应编号位置上的维度数值为1，其他维度全为0；

其中，w^aardvark表示单词aardvark在词表中所对应的向量，同理w^a、w^at、w^zebra表示a、at、zebra等单词在词表中所对应的向量。

但由于one-hot(即有效编码)方法无法衡量词间的相关性，即：

(w^hotel)^Tw^motel＝(w^hotel)^Tw^cat＝0

故而，需要利用word2vec(word to vector)进一步生成词向量相关关系，为计算单词的相关度关系，采用了Skip-Gram Model(即Skip-Gram模型)，即利用上下文关系来计算词汇间相似度关系：

v^c-m＝VX^(c-m)

v′＝v^(c-m)+v^(c-m+1)+…+v^(c+m)/2m

u＝Uv′

y_j＝softmax(u)

其中，v^c-m为长为m的窗口中位于c处单词对应的向量；v^(c-m)至v^(c+m)为窗口范围内对应单词的向量；v′为隐藏层概率向量，由v^(c-m)至v^(c+m)共同得出；u为输出层激活概率向量，y_j为v′一轮迭代后的word2vec结果向量。

同理，对于Skip-Gram模型也需要设定一个目标函数，随后采用优化方法找到该Skip-Gram模型的最佳参数解得到预设词向量检索模型，目标函数为最小化负对数的预测单词前后相关单词概率的累乘，具体计算公式如下：

通过利用训练后的Skip-Gram模型(即预设词向量检索模型)，得到词向量相似度关系，并依据词向量相似度关系得出与检索关键词相似度最高的目标相关词。这样，利用Word2vec模型、中文分词算法等解决了预设词向量中的相似度构建问题。

进一步地，在上述方法实施例的基础上，可以通过ElasticSearch检索目标检索文档，相应的处理可以如下：通过ElasticSearch检索与目标相关词相关的所有目标检索文档；按照检索关键词及目标相关词的相似度升序/降序，对所有目标检索文档进行排序得到目标检索文档序列并输出。

在实施中，可以通过ElasticSearch在预设数据库中检索目标相关词相关的所有目标检索文档，即检索包含目标相关词的所有目标检索文档。然后，由于预设词向量检索模型在确定目标相关词时是根据相似度确定的，故而，在此，可以根据检索关键词和目标相关词的相似度，对所有目标检索文档进行排序，如可以是相似度升序或降序排序，得到目标检索文档序列，并输出该目标检索文档序列。这样，按照相似度对目标检索文档进行排序后输出给用户，可以使得用户可以更准确的获取到与自身需求最相近的目标检索文档，从而可以进一步提高检索效率，提高用户的工作效率。

进一步地，在上述方法实施例的基础上，可以通过建立索引的形式存储文档信息，相应的处理可以如下：为当前非结构化文档建立检索索引，并根据检索索引将当前非结构化文档的文档信息存储至预设数据库中，以使ElasticSearch根据当前非结构化文档对应的检索索引从预设数据库中获取当前非结构化文档。

其中，所述检索索引指当前非结构化文档的文档信息在预设数据库中的索引。

在实施中，在获取到当前非结构化文档的文档信息之后，可以为该当前非结构化文档的文档信息建立检索索引。然后，可以基于该检索索引将当前非结构化文档的文档信息存储在预设数据库中，以使得ElasticSearch可以根据当前非结构化文档的文档信息对应的检索索引从预设数据库中获取对应的当前非结构化文档。可以理解的是，不同非结构化文档的文档信息对应的检索索引不同。这样，ElasticSearch通过检索索引进行目标检索文档的检索和获取，可以进一步提高文档检索效率。

为使本发明实施例提供的方法更清楚，现参见图4对本发明实施例提供的方法进行整体说明：首先，用户可以向预设词向量检索模型键入查询的关键词，即检索关键词。然后，可以调用预设词向量检索模型再预设数据库中查询检索关键词，并确定出与检索关键词对应的目标相关词(即图4中的相似词)。之后，可以通过预设词向量检索模型将所有目标相关词以词列表的形式输入至ElasticSearch(即图4中的ES)。然后，ES可以在预设数据库中查询包含目标相关词的所有模板检索文档，确定每个目标检索文档的内容及存储路径，并将每个目标检索文档的内容及存储路径输出给用户，以使用户可以在界面上点击在线预览即可查看对应的目标检索文档。

图5示出了本实施例提供的一种文档检索装置，相关词检索模块501和文档检索模块502，其中：

所述相关词检索模块501，用于当接收到检索关键词时，通过预设词向量检索模型基于所述检索关键词得出目标相关词，其中，所述目标相关词为与所述检索关键词的相似度达到预设相似度的词，所述目标相关词为一个、两个或多个；

所述文档检索模块502，用于检索与所述目标相关词对应的目标检索文档，并输出所述目标检索文档。

进一步地，所述文档检索装置还包括提取模块，用于：

信息存储模块，用于：

将所述当前非结构化文档的文档信息存储至预设数据库中，

模型训练模块，用于：

基于所有非结构化文档对应的文本字符构建预设词向量检索模型，其中，所述文档信息包括文档名称、文档内容、文档存放路径。

进一步地，所述当前非结构化文档为PDF文档、Word文档、文本文档中的一种；

所述提取模块，用于：

进一步地，所述模型训练模块，用于：

进一步地，所述目标函数的计算公式如下：

进一步地，所述文档检索模块，用于：

进一步地所述，信息存储模块，用于：

本实施例所述的文档检索装置可以用于执行上述各方法实施例所提供的方法，其原理和技术效果类似，此处不再赘述。

参照图6，所述电子设备，包括：处理器(processor)601、存储器(memory)602和总线603；

其中，

所述处理器601和存储器602通过所述总线603完成相互间的通信；

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种文档检索方法，其特征在于，包括：

检索与所述目标相关词对应的目标检索文档，并输出所述目标检索文档；

所述文档检索方法，还包括：

将所述当前非结构化文档的文档信息存储至预设数据库中，基于所有非结构化文档对应的文本字符构建预设词向量检索模型，其中，所述文档信息包括文档名称、文档内容、文档存放路径；

所述基于所有非结构化文档对应的文本字符构建预设词向量检索模型，包括：

统计所述语料库中的所有词汇生成所述语料库中的每个词汇对应的词向量，通过Skip-Gram模型确定任意两个词向量之间的相似度，并为所述Skip-Gram模型设定目标函数，得到预设词向量检索模型；

所述目标函数的计算公式如下：

2.根据权利要求1所述的文档检索方法，其特征在于，所述当前非结构化文档为PDF文档、Word文档、文本文档中的一种；

所述与当前非结构化文档对应的文本提取方法，包括：

3.根据权利要求1所述的文档检索方法，其特征在于，所述检索与所述检索关键词及所述目标相关词对应的目标检索文档，并输出所述目标检索文档，包括：

4.根据权利要求1所述的文档检索方法，其特征在于，所述将所述当前非结构化文档的文档信息存储至预设数据库中，包括：

5.一种文档检索装置，其特征在于，包括相关词检索模块和文档检索模块，其中：

所述文档检索模块，用于检索与所述目标相关词对应的目标检索文档，并输出所述目标检索文档；

所述文档检索装置还包括提取模块，用于：

信息存储模块，用于：

将所述当前非结构化文档的文档信息存储至预设数据库中，

模型训练模块，用于：

基于所有非结构化文档对应的文本字符构建预设词向量检索模型，其中，所述文档信息包括文档名称、文档内容、文档存放路径；

进一步地，所述模型训练模块，用于：

进一步地，所述目标函数的计算公式如下：

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一所述的文档检索方法。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一所述的文档检索方法。