CN107844493A

CN107844493A - 一种文件关联方法及系统

Info

Publication number: CN107844493A
Application number: CN201610832684.0A
Authority: CN
Inventors: 米维聪; 席强辉; 徐超
Original assignee: Shanghai Wisdom Mdt Infotech Ltd
Current assignee: Shanghai Wisdom Mdt Infotech Ltd
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2018-03-27
Anticipated expiration: 2036-09-19
Also published as: CN107844493B

Abstract

本发明提供一种文件关联方法及系统，该方法包括：接收一原文件；提取原文件的标题，将标题相似度达到标题相似度阈值的各标题存储条目所对应的文件作为原文件的标题近似文件；提取原文件的大纲，将大纲综合相似度达到大纲相似度阈值的各文件大纲所对应的文件作为原文件的大纲近似文件；提取原文件的正文，将正文综合相似度达到正文相似度阈值的各文件正文所对应的文件作为原文件的正文近似文件；将标题近似文件、大纲近似文件、或/和正文近似文件的标题相似度、大纲综合相似度和正文综合相似度根据预设权值进行加权处理，获得各近似文件的综合近似度。本发明运算复杂度低，节约了比对时间和成本；对比运算逻辑紧密，提高了对比结果的准确度。

Description

一种文件关联方法及系统

技术领域

本发明属于数据分析技术领域，涉及一种文件搜索方法，特别是涉及一种文件关联方法及系统。

背景技术

随着互联网信息量的持续指数增长，如何在海量信息中准确、高效地找到用户所需要的数据，是信息工作者面临的一个巨大挑战。现有的搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织处理后，为用户提供检索服务，将用户检索的相关信息展示给用户的系统。

当前的检索方式大多还停留在关键词检索的层面上，由于同一个词在不同语句和不同的文章环境中会有不同的含义，这无疑给信息检索系统的理解查询带来了难题。因此，一些基于语义层面的检索方式应运而生。信息检索逐渐向智能化发展。

然而，即使结合了语义检索，现有的检索系统的检索功能仍存在很大的局限性。例如：如百度、soogle等网页搜索引擎，其最多也仅是依据输入的关键词去爬取相关网页场景上的文字近似内容，有时爬取到的结果与用户想找的内容还是南辕北辙的。可见，网页搜索引擎展现给用户的检索结果很多时候并不准确。

若想结合语义分析，提高检索的准确度，势必增加检索算法的复杂度、检索时间以及检索系统的运维成本。当用户想检索的信息需要用几分钟，甚至几小时才能获得的情况下，不论检索结果的准确度有多高，用户也很难有时间或耐心等待结果展示。

那么，如何既能保证检索的较高准确度，又能将检索时间压缩在用户可接受范围内，还要保证检索系统的低运维成本，无疑是目前的一大挑战。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种文件关联方法及系统，用于解决现有技术中检索准确度与检索时间及检索资源三者无法同时提高的问题。

为实现上述目的及其他相关目的，本发明提供一种文件关联方法，所述文件关联方法包括：接收一原文件；提取所述原文件的标题，将所述原文件的标题与文件存储空间中保存的各文件标题进行对比，获取与所述原文件的标题相似度达到标题相似度阈值的标题存储条目，并将标题相似度达到标题相似度阈值的各标题存储条目所对应的文件作为所述原文件的标题近似文件；提取所述原文件的大纲，将所述原文件的大纲与文件存储空间中保存的各文件大纲进行对比，获取与所述原文件的大纲综合相似度达到大纲相似度阈值的文件大纲，并将大纲综合相似度达到大纲相似度阈值的各文件大纲所对应的文件作为所述原文件的大纲近似文件；提取所述原文件的正文，将所述原文件的正文与文件存储空间中保存的各文件正文进行对比，获取与所述原文件的正文综合相似度达到正文相似度阈值的文件正文，并将正文综合相似度达到正文相似度阈值的各文件正文所对应的文件作为所述原文件的正文近似文件；将所述标题近似文件、大纲近似文件、或/和正文近似文件的标题相似度、大纲综合相似度和正文综合相似度根据预设权值进行加权处理，获得各近似文件的综合近似度，根据所述综合近似度对各近似文件进行排序。

于本发明的一实施例中，所述标题相似度的一种获取过程包括：比较两个文件标题的语义相似度是否达到第一预设门限；若达到第一预设门限，则判定两个文件标题相近，并记录两个文件标题的相似度值作为对应文件的标题相似度；若未达到预设门限，则判定两个文件标题不相近。

于本发明的一实施例中，所述文件存储空间中每个所述文件大纲均包括至少1条大纲条目；所述大纲综合相似度的一种获取过程包括：将两个文件大纲的大纲条目进行匹配，获得两个文件大纲的匹配大纲条目和非匹配大纲条目；比较两个文件大纲中对应的两个匹配大纲条目的语义相似度是否达到第二预设门限；若达到第二预设门限，则判定对应的两个匹配大纲条目相近，并记录对应的两个匹配大纲条目的相似度值；若未达到第二预设门限，则判定对应的两个匹配大纲条目不相近；将两个文件大纲的匹配大纲条目的相似度值相加，作为被除数；将原文件的大纲条目数作为除数，除法计算的结果作为两个文件大纲的大纲综合相似度。

于本发明的一实施例中，将两个文件大纲的大纲条目进行匹配，获得两个文件大纲的匹配大纲条目和非匹配大纲条目的一种实现过程包括：计算两个文件大纲中任意两个对应大纲条目的语义相似度；所述两个对应大纲条目是指属于不同文件大纲的两个大纲条目；根据语义相似度从高到低的原则，对两个文件大纲的大纲条目进行一对一匹配；匹配成功的大纲条目称为匹配大纲条目；未匹配成功的大纲条目称为非匹配大纲条目。

于本发明的一实施例中，所述正文综合相似度的一种获取过程包括：比较两个文件正文的全文纯文本相似度是否达到第三预设门限；若达到第三预设门限，则判定两个文件正文相近，并记录两个文件正文的全文纯文本相似度作为对应文件的正文综合相似度；若未达到第三预设门限，则继续比较两个文件正文的语义综合相似度是否达到第四预设门限；若达到第四预设门限，则判定两个文件正文相近，并记录两个文件正文的语义综合相似度作为对应文件的正文综合相似度；若未达到第四预设门限，则判定两个文件正文不相近。

于本发明的一实施例中，每个所述文件正文均包括至少1个语义片段；所述文件正文的语义综合相似度的一种获取过程包括：将两个文件正文的语义片段进行匹配，获得两个文件正文的匹配语义片段和非匹配语义片段；比较两个文件正文中对应的匹配语义片段的语义相似度是否达到第五预设门限；若达到第五预设门限，则判定对应的两个匹配语义片段相近，并记录对应的两个匹配语义片段的相似度值；若未达到第五预设门限，则判定对应的两个匹配语义片段不相近；将两个文件正文的匹配语义片段的相似度值相加，作为被除数；将原文件的语义片段数作为除数，除法计算的结果作为两个文件正文的语义综合相似度。

于本发明的一实施例中，每个所述文件正文均包括至少1个自然段落；获取文件正文的各语义片段的一种实现过程包括：按顺序依次对所述文件正文的自然段落进行语义分析，并判断当前自然段落与相邻下一自然段落的语义相似度是否达到第六预设门限；若达到第六预设门限，则所述当前自然段落与相邻下一自然段落表达语义相近，将所述相邻下一自然段落归于所述当前自然段落所属语义片段；若未达到第六预设门限，则所述当前自然段落与相邻下一自然段落表达语义不相近，将所述相邻下一自然段落作为新的语义片段的起始段落；若所述当前自然段落为文件正文的第一个自然段落，则所述当前自然段落作为所述文件正文的第一个语义片段的起始段落。

于本发明的一实施例中，将两个文件正文的语义片段进行匹配，获得两个文件正文的匹配语义片段和非匹配语义片段的一种实现过程包括：计算两个文件正文中任意两个对应语义片段的语义相似度；所述两个对应语义片段是指属于不同文件正文的两个语义片段；根据语义相似度从高到低的原则，对两个文件正文的语义片段进行一对一匹配；匹配成功的语义片段称为匹配语义片段；未匹配成功的语义片段称为非匹配语义片段。

于本发明的一实施例中，所述文件关联方法还包括：提取出所述原文件中的表格，并将所述表格中的文本内容存储至所述文件存储空间中的正文存储块；将所述表格的各单元格中的文本内容存储至所述正文存储块中的自然段落存储条目，并在自然段落存储条目中标记有对应的表格位置标号；或/和提取出所述原文件中的图片，识别出所述图片中的文本内容存储至所述文件存储空间中的正文存储模块中的自然段落存储条目。

于本发明的一实施例中，所述文件标题或所述大纲条目的语义相似度的一种获取方法包括：利用最大长度匹配的分词算法，参照词典，分别对原文件和对比文件的文件标题或大纲条目进行全切词处理，生成全切分词图；所述全切分词图包括复数条句子切分路径；利用隐马尔可夫模型算法，参照词语概率表和词性标注语料库，从所述复数条句子切分路径中选取最优句子切分路径；利用近义词词典，分别对原文件和对比文件的文件标题或大纲条目的分词进行近义词替换处理，形成多个文件标题或大纲条目的表达版本；将原文件和对比文件的多个文件标题或大纲条目的表达版本两两进行纯文本相似度计算，将最优相似度值作为原文件和对比文件的文件标题或大纲条目的语义相似度。

于本发明的一实施例中，所述最大长度匹配的分词算法包括以下任一种或几种算法的逻辑综合：正向最大长度分词算法；逆向最大长度分词算法。

于本发明的一实施例中，所述纯文本相似度的获取方法包括以下任一种或几种算法的逻辑综合：关键词词频及逆向文本频率算法；基于空间向量的余弦算法；基于最长公共子串的文本相似度算法；基于最长公共子序列的文本相似度算法；基于最少编辑距离的文本相似度算法。

于本发明的一实施例中，所述自然段落或语义片段的语义相似度的一种获取方法包括：参照关键词词典，查找两个对比的自然段落或语义片段中所有与所述关键词词典匹配的关键词；参照近义词词典，对所述两个对比的自然段落或语义片段中的关键词进行近义词替换处理，在语义不变的情况下形成多个自然段落或语义片段的表达版本；根据所述多个自然段落或语义片段的表达版本，计算所述两个对比的自然段落或语义片段的关键词重合度，将所述关键词重合度作为所述两个对比的自然段落或语义片段的语义相似度。

于本发明的一实施例中，所述两个对比的自然段落或语义片段的关键词重合度的一种获取方法包括：在两个对比的自然段落或语义片段之间进行关键词两两比较；若关键词本身及其近义词的文本相同，则视为形成一个重合词；将两个对比的自然段落或语义片段的重合词的总数量作为被除数；将原文件的自然段落或语义片段的关键词总数作为除数，除法计算的结果作为两个对比的自然段落或语义片段的关键词重合度。

一种实现所述的文件关联方法的文件关联系统，所述文件关联系统包括：输入模块，用于输入一原文件；存储模块，用于存储文件，包括标题存储子空间，大纲存储子空间，正文存储子空间；所述标题存储子空间包括复数个标题存储条目，每一个标题存储条目用于存储一个文件的标题；所述大纲存储子空间包括复数个大纲存储模块，每一个大纲存储模块用于存储一个文件的大纲，每个大纲存储模块存储有至少1条大纲条目；所述正文存储子空间包括复数个正文存储块，每一个正文存储块用于存储一个文件的正文；每个正文存储块存储有至少1个语义片段；关联处理模块，与所述输入模块和所述存储模块分别相连，用于提取所述原文件的标题、大纲或/和正文，并与所述存储模块中存储的对比文件的标题、大纲或/和正文进行对应比较，获得与原文件的综合近似度满足预设条件的对比文件；显示模块，与所述关联处理模块相连，根据所述综合近似度对各近似文件进行排序显示；关联设置模块，与所述关联处理模块相连，用于设置标题相似度阈值，大纲相似度阈值，或/和正文相似度阈值。

如上所述，本发明的文件关联方法及系统，具有以下有益效果：

本发明的运算复杂度低，作为被对比的海量文件的标题、大纲和正文等内容会预先存储在文件存储空间中，大大节约了比对时间和比对成本；此外，本发明的对比运算逻辑紧密，大大提高了以文搜文的准确度。

附图说明

图1显示为本发明实施例所述的文件关联方法的一种实现流程示意图。

图2显示为本发明实施例所述的标题相似度的一种获取流程示意图。

图3显示为本发明实施例所述的大纲综合相似度的一种获取流程示意图。

图4显示为本发明实施例所述的正文综合相似度的一种获取流程示意图。

图5显示为本发明实施例所述的文件正文的语义综合相似度的一种获取流程示意图。

图6显示为本发明实施例所述的文件正文的各语义片段的一种获取流程示意图。

图7显示为本发明实施例所述的文件关联系统的一种实现结构示意图。

元件标号说明

700 文件关联系统

710 输入模块

720 存储模块

730 关联处理模块

740 显示模块

750 关联设置模块

S101～S105 步骤

S201～S203 步骤

S301～S305 步骤

S401～S405 步骤

S101～S505，S5021～S5023 步骤

S601～S604，S6011～S6013 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

检索准确度、检索时间、检索成本(即硬件资源消耗)三者之间互相影响；在检索时间一定的情况下，若想提高检索准确度，必然会增加检索成本；在检索成本一定的情况下，若想提高检索准确度，必然会增加检索时间。可以说，检索准确度的提高，是要以检索时间或/和检索成本为代价的。而本发明所述的文件关联方法的运算复杂度低，不会增加检索时间和检索成本，而其运算逻辑又能够保证检索结果的高准确度，具有非常突出的实质性特点和应用价值。

本发明适用于一切数据检索环境，尤其适用于大数据环境。本发明在大数据环境下的检索准确度和检索高效性尤为显著。

本发明提供一种文件关联方法及系统，其目的是实现如下功能：当用户的输入信息为一个文件时，本发明可以从数据库的海量文件中为用户检索出与该输入文件具备某个特定相同特征的全部文件。具体实现方案如下。

请参阅图1，本发明提供一种文件关联方法，包括如下步骤：

S101，接收一原文件。所述原文件包括word、pdf、ppt、excel、jpeg、txt等任意类型的内含文本内容的文件。

S102，提取所述原文件的标题，将所述原文件的标题与文件存储空间中保存的各文件标题进行对比，获取与所述原文件的标题相似度达到标题相似度阈值的标题存储条目，并将标题相似度达到标题相似度阈值的各标题存储条目所对应的文件作为所述原文件的标题近似文件。

进一步，所述原文件的标题可以选自原文件的命名，也可以选自原文件的内容主题，或者选自原文件中的内容，更或者是选自上述任意几种文本内容的组合。所述原文件的标题的提取方式可以有多种形式，本发明的保护范围不限于任何一种标题提取方式。

所述文件存储空间是专用于存储文件的空间，其包括标题存储子空间，所述标题存储子空间包括复数个标题存储条目，每一个标题存储条目用于存储一个文件的标题，即所述标题存储子空间用于存储海量文件的标题。所述海量文件的标题分别在预设指令的触发下存储至所述标题存储子空间中各对应标题存储条目中，即一文件可以是在输入数据库时即被提取标题存储至标题存储条目中，也可以是在需要启动该文件的某些特定处理命令时才被提取标题存储至标题存储条目中。

参见图2所示，所述标题相似度的一种获取过程包括：

S201，比较两个文件标题的语义相似度是否达到第一预设门限。

进一步，所述文件标题的语义相似度的一种获取方法包括：1)利用最大长度匹配的分词算法，参照词典，分别对原文件和对比文件的文件标题进行全切词处理，生成全切分词图；所述全切分词图包括复数条句子切分路径。其中，所述最大长度匹配的分词算法包括以下任一种或几种算法的逻辑综合：正向最大长度分词算法；逆向最大长度分词算法。2)利用隐马尔可夫模型算法，参照词语概率表和词性标注语料库，从所述复数条句子切分路径中选取最优句子切分路径；3)利用近义词词典，分别对原文件和对比文件的文件标题的分词进行近义词替换处理，形成多个文件标题或大纲条目的表达版本；4)将原文件和对比文件的多个文件标题或大纲条目的表达版本两两进行纯文本相似度计算，将最优相似度值作为原文件和对比文件的文件标题的语义相似度。

S202，若达到第一预设门限，则判定两个文件标题相近，并记录两个文件标题的相似度值作为对应文件的标题相似度。

S203，若未达到预设门限，则判定两个文件标题不相近。对于文件标题不相近的文件，可以不记录标题相似度值，也可以记录标题相似度值，供后续对比使用。

所述标题相似度阈值可以由系统自动设置，也可以由用户调节设置。当用户设定了标题相似度阈值时，本发明提供给用户的检索结果即是与用户输入的原文件的标题相似度达到所设定的标题相似度阈值的标题近似文件。

例如：用户设置的标题相似度阈值为80％，那么，在数据库中经过第一轮筛选的视为原文件的标题近似文件中，与原文件的标题相似度低于80％的标题近似文件即被过滤掉，仅留下与原文件的标题相似度大于或等于80％的标题近似文件。

S103，提取所述原文件的大纲，将所述原文件的大纲与文件存储空间中保存的各文件大纲进行对比，获取与所述原文件的大纲综合相似度达到大纲相似度阈值的文件大纲，并将大纲综合相似度达到大纲相似度阈值的各文件大纲所对应的文件作为所述原文件的大纲近似文件。

进一步，所述原文件的大纲选自原文件的正文。所述原文件的大纲的提取方式可以有多种形式，本发明的保护范围不限于任何一种大纲提取方式。

所述文件存储空间是专用于存储文件的空间，其包括大纲存储子空间，所述大纲存储子空间包括复数个大纲存储模块，每一个大纲存储模块用于存储一个文件的大纲，每个大纲存储模块存储有至少1条大纲条目。即所述大纲存储子空间用于存储海量文件的大纲。所述海量文件的大纲分别在预设指令的触发下存储至所述大纲存储子空间中各对应大纲存储模块中，即一文件可以是在输入数据库时即被提取大纲存储至大纲存储模块中，也可以是在需要启动该文件的某些特定处理命令时才被提取大纲存储至大纲存储条目中。

所述文件存储空间中每个所述文件大纲均包括至少1条大纲条目；即，每个文件提取的大纲可能只有一条大纲条目，也可能有多条大纲条目，提取的大纲条目的数量主要依据于文件正文所表达的含义区别。

参见图3所示，所述大纲综合相似度的一种获取过程包括：

S301，将两个文件大纲的大纲条目进行匹配，获得两个文件大纲的匹配大纲条目和非匹配大纲条目。

进一步，所述步骤S301的一种实现过程包括：计算两个文件大纲中任意两个对应大纲条目的语义相似度；所述两个对应大纲条目是指属于不同文件大纲的两个大纲条目；根据语义相似度从高到低的原则，对两个文件大纲的大纲条目进行一对一匹配；匹配成功的大纲条目称为匹配大纲条目；未匹配成功的大纲条目称为非匹配大纲条目。

例如：文件A的大纲条目有A1，A2，A3，A4四条；文件B的大纲条目有B1，B2两条。其中，A1与B1的语义相似度为50％，A2与B1的语义相似度为85％，A3与B1的语义相似度为55％，A4与B1的语义相似度为67％，A1与B2的语义相似度为38％，A2与B2的语义相似度为60％，A3与B2的语义相似度为95％，A4与B2的语义相似度为62％，那么，匹配成功的大纲条目为A2和B1，A3和B2，即A2，B1，A3，B2均称为匹配大纲条目；A1和A4称为非匹配大纲条目。

S302，比较两个文件大纲中对应的两个匹配大纲条目的语义相似度是否达到第二预设门限。具体实施过程中，对于达到第二预设门限的匹配大纲条目记录有相似度值，对于未达到第二预设门限的匹配大纲条目可以不记录相似度值，也可以记录相似度值。

进一步，所述所述大纲条目的语义相似度的一种获取方法包括：1)利用最大长度匹配的分词算法，参照词典，分别对原文件和对比文件的大纲条目进行全切词处理，生成全切分词图；所述全切分词图包括复数条句子切分路径。其中，所述最大长度匹配的分词算法包括以下任一种或几种算法的逻辑综合：正向最大长度分词算法；逆向最大长度分词算法。2)利用隐马尔可夫模型算法，参照词语概率表和词性标注语料库，从所述复数条句子切分路径中选取最优句子切分路径；3)利用近义词词典，分别对原文件和对比文件的大纲条目的分词进行近义词替换处理，形成多个大纲条目的表达版本；4)将原文件和对比文件的多个大纲条目的表达版本两两进行纯文本相似度计算，将最优相似度值作为原文件和对比文件的大纲条目的语义相似度。

S303，若达到第二预设门限，则判定对应的两个匹配大纲条目相近，并记录对应的两个匹配大纲条目的相似度值。

S304，若未达到第二预设门限，则判定对应的两个匹配大纲条目不相近。

S305，将两个文件大纲的匹配大纲条目的相似度值相加，作为被除数；将原文件的大纲条目数作为除数，除法计算的结果作为两个文件大纲的大纲综合相似度。

例如：文件A的大纲条目有A1，A2，A3，A4四条；文件B的大纲条目有B1，B2两条。其中，匹配成功的大纲条目为A2和B1，A3和B2，即A2，B1，A3，B2均称为匹配大纲条目；A1和A4称为非匹配大纲条目。且A2和B1语义相似度为85％，A3与B2的语义相似度为95％。若第二预设门限为70％，则匹配大纲条目A2，B1，A3，B2均满足条件，记录对应的两个匹配大纲条目A2和B1的相似度值为85％，A3与B2的相似度值为95％，那么两个文件A和B的文件大纲的大纲综合相似度为：(85％+95％)/4＝0.45。

所述大纲相似度阈值可以由系统自动设置，也可以由用户调节设置。当用户设定了大纲相似度阈值时，本发明提供给用户的检索结果即是与用户输入的原文件的大纲相似度达到所设定的大纲相似度阈值的大纲近似文件。

例如：用户设置的大纲相似度阈值为80％，那么，在数据库中经过第一轮筛选的视为原文件的大纲近似文件中，与原文件的大纲综合相似度低于80％的大纲近似文件即被过滤掉，仅留下与原文件的大纲综合相似度大于或等于80％的大纲近似文件。

S104，提取所述原文件的正文，将所述原文件的正文与文件存储空间中保存的各文件正文进行对比，获取与所述原文件的正文综合相似度达到正文相似度阈值的文件正文，并将正文综合相似度达到正文相似度阈值的各文件正文所对应的文件作为所述原文件的正文近似文件。

进一步，所述原文件的正文选自原文件中的内容。所述原文件的正文的提取方式可以有多种形式，本发明的保护范围不限于任何一种标题提取方式。当原文件(或其他对比文件)中仅含有纯文本内容时，直接提取纯文本内容即可作为原文件的正文。当原文件(或其他对比文件)中包含表格时，提取出所述原文件中的表格，并将所述表格中的文本内容存储至所述文件存储空间中的正文存储块；将所述表格的各单元格中的文本内容存储至所述正文存储块中的自然段落存储条目，并在自然段落存储条目中标记有对应的表格位置标号。当原文件(或其他对比文件)中包含图片时，提取出所述原文件中的图片，识别出所述图片中的文本内容存储至所述文件存储空间中的正文存储模块中的自然段落存储条目。

所述文件存储空间是专用于存储文件的空间，其包括正文存储子空间，所述正文存储子空间包括复数个正文存储块，每一个正文存储块用于存储一个文件的提取正文，即所述正文存储子空间用于存储海量文件的正文。所述海量文件的正文分别在预设指令的触发下存储至所述正文存储子空间中各对应正文存储块中，即一文件可以是在输入数据库时即被提取正文存储至正文存储块中，也可以是在需要启动该文件的某些特定处理命令时才被提取正文存储至正文存储块中。

参见图4所示，所述正文综合相似度的一种获取过程包括：

S401，比较两个文件正文的全文纯文本相似度是否达到第三预设门限。

进一步，所述纯文本相似度的获取方法包括以下任一种或几种算法的逻辑综合：1)关键词词频及逆向文本频率算法；2)基于空间向量的余弦算法；3)基于最长公共子串的文本相似度算法；4)基于最长公共子序列的文本相似度算法；5)基于最少编辑距离的文本相似度算法。

S402，若达到第三预设门限，则判定两个文件正文相近，并记录两个文件正文的全文纯文本相似度作为对应文件的正文综合相似度；

S403，若未达到第三预设门限，则继续比较两个文件正文的语义综合相似度是否达到第四预设门限。

进一步，参见图5所示，每个所述文件正文均包括至少1个语义片段；所述文件正文的语义综合相似度的一种获取过程包括：

S501，将两个文件正文的语义片段进行匹配，获得两个文件正文的匹配语义片段和非匹配语义片段。进一步，所述步骤S501的一种实现过程包括：计算两个文件正文中任意两个对应语义片段的语义相似度；所述两个对应语义片段是指属于不同文件正文的两个语义片段；根据语义相似度从高到低的原则，对两个文件正文的语义片段进行一对一匹配；匹配成功的语义片段称为匹配语义片段；未匹配成功的语义片段称为非匹配语义片段。

S502，比较两个文件正文中对应的匹配语义片段的语义相似度是否达到第五预设门限。更进一步，所述语义片段的语义相似度的一种获取方法包括：

S5021，参照关键词词典，查找两个对比的语义片段中所有与所述关键词词典匹配的关键词；

S5022，参照近义词词典，对所述两个对比的语义片段中的关键词进行近义词替换处理，在语义不变的情况下形成多个语义片段的表达版本；

S5023，根据所述多个语义片段的表达版本，计算所述两个对比的语义片段的关键词重合度，将所述关键词重合度作为所述两个对比的语义片段的语义相似度。其中，所述两个对比的语义片段的关键词重合度的一种获取方法包括：1)在两个对比的语义片段之间进行关键词两两比较；2)若关键词本身及其近义词的文本相同，则视为形成一个重合词；3)将两个对比的语义片段的重合词的总数量作为被除数；将原文件的语义片段的关键词总数作为除数，除法计算的结果作为两个对比的语义片段的关键词重合度。

S503，若达到第五预设门限，则判定对应的两个匹配语义片段相近，并记录对应的两个匹配语义片段的相似度值。

S504，若未达到第五预设门限，则判定对应的两个匹配语义片段不相近。

S505，将两个文件正文的匹配语义片段的相似度值相加，作为被除数；将原文件的语义片段数作为除数，除法计算的结果作为两个文件正文的语义综合相似度。

例如：文件A的语义片段有A1，A2，A3，A4四个；文件B的语义片段有B1，B2两个。其中，A1与B1的语义相似度为45％，A2与B1的语义相似度为75％，A3与B1的语义相似度为65％，A4与B1的语义相似度为60％，A1与B2的语义相似度为50％，A2与B2的语义相似度为65％，A3与B2的语义相似度为85％，A4与B2的语义相似度为70％，那么，匹配成功的语义片段为A2和B1，A3和B2，即A2，B1，A3，B2均称为匹配语义片段；A1和A4称为非匹配语义片段。若第五预设门限为70％，则A2和B1，A3和B2均达到第五预设门限，记录A2和B1的相似度值为75％，A3和B2的相似度值为85％。那么，两个文件A和B的文件正文的语义综合相似度为：(75％+85％)/4＝0.4。

更进一步，参见图6所示，每个所述文件正文均包括至少1个自然段落；获取文件正文的各语义片段的一种实现过程包括：

S601，按顺序依次对所述文件正文的自然段落进行语义分析，并判断当前自然段落与相邻下一自然段落的语义相似度是否达到第六预设门限。

进一步，所述自然段落的语义相似度的一种获取方法包括：

S6011，参照关键词词典，查找两个对比的自然段落中所有与所述关键词词典匹配的关键词；

S6012，参照近义词词典，对所述两个对比的自然段落中的关键词进行近义词替换处理，在语义不变的情况下形成多个自然段落的表达版本；

S6013，根据所述多个自然段落的表达版本，计算所述两个对比的自然段落的关键词重合度，将所述关键词重合度作为所述两个对比的自然段落的语义相似度。其中，所述两个对比的自然段落的关键词重合度的一种获取方法包括：1)在两个对比的自然段落之间进行关键词两两比较；2)若关键词本身及其近义词的文本相同，则视为形成一个重合词；3)将两个对比的自然段落的重合词的总数量作为被除数；将原文件的自然段落的关键词总数作为除数，除法计算的结果作为两个对比的自然段落的关键词重合度。

S602，若达到第六预设门限，则所述当前自然段落与相邻下一自然段落表达语义相近，将所述相邻下一自然段落归于所述当前自然段落所属语义片段。

S603，若未达到第六预设门限，则所述当前自然段落与相邻下一自然段落表达语义不相近，将所述相邻下一自然段落作为新的语义片段的起始段落。其中，若所述当前自然段落为文件正文的第一个自然段落，则所述当前自然段落作为所述文件正文的第一个语义片段的起始段落。

S404，若达到第四预设门限，则判定两个文件正文相近，并记录两个文件正文的语义综合相似度作为对应文件的正文综合相似度；

S405，若未达到第四预设门限，则判定两个文件正文不相近。

S105，将所述标题近似文件、大纲近似文件、或/和正文近似文件的标题相似度、大纲综合相似度和正文综合相似度根据预设权值进行加权处理，获得各近似文件的综合近似度，根据所述综合近似度对各近似文件进行排序。

例如：设经过筛选后，所述原文件的标题近似文件有文件1，文件2和文件3，对应地标题相似度分别为85％，90％，95％；所述原文件的大纲近似文件有文件2，文件3和文件4，对应地大纲综合相似度分别为84％，87％，88％；所述原文件的正文近似文件有文件1，文件2和文件4，对应地正文综合相似度分别为85％，90％，92％；用户希望查询到与原文件的标题相似度权重为20％，大纲相似度权重40％，正文相似度权重为60％的近似文件；那么，文件1与原文件的综合近似度为：85％×20％+0×30％+85％×50％＝0.595；文件2与原文件的综合近似度为：90％×20％+84％×30％+90％×50％＝0.882；文件3与原文件的综合近似度为：95％×20％+87％×30％+0×50％＝0.451；文件4与原文件的综合近似度为：0×20％+88％×30％+92％×50％＝0.724；对比之下，与原文件的综合近似度由高到低的文件顺序是：文件2，文件4，文件1，文件3。

本发明所述的文件关联方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本发明还提供一种文件关联系统，所述文件关联系统可以实现本发明所述的文件关联方法，但本发明所述的文件关联方法的实现装置包括但不限于本实施例列举的文件关联系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

参见图7所示，本发明实施例还提供一种文件关联系统700，所述文件关联系统700包括：输入模块710，存储模块720，关联处理模块730，显示模块740，或/和关联设置模块750。

所述输入模块710用于输入一原文件。所述输入模块710的实现形式可以有多种，可以是本地用户终端的文件导入系统，可以是web网站页面的文件输入对话框，也可以是其他任何本地或远程系统的文件输入端。所述输入模块710可以用于实现文件关联方法的步骤S101。

所述存储模块720用于存储各类型的对比文件(简称文件)。所述文件存储空间是专用于存储文件的空间，其包括标题存储子空间，大纲存储子空间，正文存储子空间。所述标题存储子空间包括复数个标题存储条目，每一个标题存储条目用于存储一个文件的标题，即所述标题存储子空间用于存储海量文件的标题。所述大纲存储子空间包括复数个大纲存储模块，每一个大纲存储模块用于存储一个文件的大纲，每个大纲存储模块存储有至少1条大纲条目；即所述大纲存储子空间用于存储海量文件的大纲。所述正文存储子空间包括复数个正文存储块，每一个正文存储块用于存储一个文件的提取正文，每个正文存储块存储有至少1个语义片段；即所述正文存储子空间用于存储海量文件的正文。

所述关联处理模块730，与所述输入模块710和所述存储模块720分别相连，用于提取所述原文件的标题、大纲或/和正文等内容，并与存储模块720中存储的对比文件的标题、大纲或/和正文等内容进行对应比较，获得与原文件的综合近似度满足预设条件的对比文件(即为原文件的近似文件)。所述关联处理模块730可以是本地处理器或服务器，也可以是远端处理平台或服务平台。所述关联处理模块730可以用于实现文件关联方法的步骤S102至步骤S105的大部分内容。

所述显示模块740与所述关联处理模块730相连，用于显示关联处理模块730的处理结果，即根据所述综合近似度对各近似文件进行排序显示。所述显示模块740可以包括本地显示器或显示面板，远端显示器等一台或多台显示器。

所述关联设置模块750与所述关联处理模块730相连，用于设置标题相似度阈值，大纲相似度阈值，或/和正文相似度阈值。所述标题相似度阈值，大纲相似度阈值，或/和正文相似度阈值可以是系统默认的，也可以由用户根据自身需要灵活修改设置。所述关联设置模块750可以嵌入于所述输入模块710内，也可以是与所述输入模块710并行设置的另一输入模块，或是输入方式与所述输入模块710完全不同的另一输入模块。

本发明的运算复杂度低，作为被对比的海量文件的标题、大纲和正文等内容会预先存储在文件存储空间中，大大节约了比对时间和比对成本；此外，本发明的对比运算逻辑紧密，大大提高了以文搜文的准确度。其中，本发明的对比准确度以合同文件的检验结果最为显著。

本发明的显著特点是：

1)输入的对比内容为一个文件，而不是关键词或具体文本信息。

2)对比动作覆盖了全文件的文本范围，相对于现有的检索系统仅能覆盖摘要的比较范围更大，使对比结果更准确。

3)对对比文件的内容有详细的语义总结和规划，使得对比动作更具智能化。

综上所述，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种文件关联方法，其特征在于，所述文件关联方法包括：

接收一原文件；

提取所述原文件的标题，将所述原文件的标题与文件存储空间中保存的各文件标题进行对比，获取与所述原文件的标题相似度达到标题相似度阈值的标题存储条目，并将标题相似度达到标题相似度阈值的各标题存储条目所对应的文件作为所述原文件的标题近似文件；

提取所述原文件的大纲，将所述原文件的大纲与文件存储空间中保存的各文件大纲进行对比，获取与所述原文件的大纲综合相似度达到大纲相似度阈值的文件大纲，并将大纲综合相似度达到大纲相似度阈值的各文件大纲所对应的文件作为所述原文件的大纲近似文件；

提取所述原文件的正文，将所述原文件的正文与文件存储空间中保存的各文件正文进行对比，获取与所述原文件的正文综合相似度达到正文相似度阈值的文件正文，并将正文综合相似度达到正文相似度阈值的各文件正文所对应的文件作为所述原文件的正文近似文件；

将所述标题近似文件、大纲近似文件、或/和正文近似文件的标题相似度、大纲综合相似度和正文综合相似度根据预设权值进行加权处理，获得各近似文件的综合近似度，根据所述综合近似度对各近似文件进行排序。

2.根据权利要求1所述的文件关联方法，其特征在于，所述标题相似度的一种获取过程包括：

比较两个文件标题的语义相似度是否达到第一预设门限；

若达到第一预设门限，则判定两个文件标题相近，并记录两个文件标题的相似度值作为对应文件的标题相似度；

若未达到预设门限，则判定两个文件标题不相近。

3.根据权利要求1所述的文件关联方法，其特征在于：所述文件存储空间中每个所述文件大纲均包括至少1条大纲条目；所述大纲综合相似度的一种获取过程包括：

将两个文件大纲的大纲条目进行匹配，获得两个文件大纲的匹配大纲条目和非匹配大纲条目；

比较两个文件大纲中对应的两个匹配大纲条目的语义相似度是否达到第二预设门限；

若达到第二预设门限，则判定对应的两个匹配大纲条目相近，并记录对应的两个匹配大纲条目的相似度值；

若未达到第二预设门限，则判定对应的两个匹配大纲条目不相近；

将两个文件大纲的匹配大纲条目的相似度值相加，作为被除数；将原文件的大纲条目数作为除数，除法计算的结果作为两个文件大纲的大纲综合相似度。

4.根据权利要求3所述的文件关联方法，其特征在于，将两个文件大纲的大纲条目进行匹配，获得两个文件大纲的匹配大纲条目和非匹配大纲条目的一种实现过程包括：

计算两个文件大纲中任意两个对应大纲条目的语义相似度；所述两个对应大纲条目是指属于不同文件大纲的两个大纲条目；

根据语义相似度从高到低的原则，对两个文件大纲的大纲条目进行一对一匹配；匹配成功的大纲条目称为匹配大纲条目；未匹配成功的大纲条目称为非匹配大纲条目。

5.根据权利要求1所述的文件关联方法，其特征在于：所述正文综合相似度的一种获取过程包括：

比较两个文件正文的全文纯文本相似度是否达到第三预设门限；

若达到第三预设门限，则判定两个文件正文相近，并记录两个文件正文的全文纯文本相似度作为对应文件的正文综合相似度；

若未达到第三预设门限，则继续比较两个文件正文的语义综合相似度是否达到第四预设门限；

若达到第四预设门限，则判定两个文件正文相近，并记录两个文件正文的语义综合相似度作为对应文件的正文综合相似度；

若未达到第四预设门限，则判定两个文件正文不相近。

6.根据权利要求5所述的文件关联方法，其特征在于：每个所述文件正文均包括至少1个语义片段；所述文件正文的语义综合相似度的一种获取过程包括：

将两个文件正文的语义片段进行匹配，获得两个文件正文的匹配语义片段和非匹配语义片段；

比较两个文件正文中对应的匹配语义片段的语义相似度是否达到第五预设门限；

若达到第五预设门限，则判定对应的两个匹配语义片段相近，并记录对应的两个匹配语义片段的相似度值；

若未达到第五预设门限，则判定对应的两个匹配语义片段不相近；

将两个文件正文的匹配语义片段的相似度值相加，作为被除数；将原文件的语义片段数作为除数，除法计算的结果作为两个文件正文的语义综合相似度。

7.根据权利要求6所述的文件关联方法，其特征在于，每个所述文件正文均包括至少1个自然段落；获取文件正文的各语义片段的一种实现过程包括：

按顺序依次对所述文件正文的自然段落进行语义分析，并判断当前自然段落与相邻下一自然段落的语义相似度是否达到第六预设门限；

若达到第六预设门限，则所述当前自然段落与相邻下一自然段落表达语义相近，将所述相邻下一自然段落归于所述当前自然段落所属语义片段；

若未达到第六预设门限，则所述当前自然段落与相邻下一自然段落表达语义不相近，将所述相邻下一自然段落作为新的语义片段的起始段落；

若所述当前自然段落为文件正文的第一个自然段落，则所述当前自然段落作为所述文件正文的第一个语义片段的起始段落。

8.根据权利要求6所述的文件关联方法，其特征在于，将两个文件正文的语义片段进行匹配，获得两个文件正文的匹配语义片段和非匹配语义片段的一种实现过程包括：

计算两个文件正文中任意两个对应语义片段的语义相似度；所述两个对应语义片段是指属于不同文件正文的两个语义片段；

根据语义相似度从高到低的原则，对两个文件正文的语义片段进行一对一匹配；匹配成功的语义片段称为匹配语义片段；未匹配成功的语义片段称为非匹配语义片段。

9.根据权利要求1所述的文件关联方法，其特征在于，所述文件关联方法还包括：

提取出所述原文件中的表格，并将所述表格中的文本内容存储至所述文件存储空间中的正文存储块；将所述表格的各单元格中的文本内容存储至所述正文存储块中的自然段落存储条目，并在自然段落存储条目中标记有对应的表格位置标号；或/和

提取出所述原文件中的图片，识别出所述图片中的文本内容存储至所述文件存储空间中的正文存储模块中的自然段落存储条目。

10.根据权利要求2或3任意一项所述的文件关联方法，其特征在于：所述文件标题或所述大纲条目的语义相似度的一种获取方法包括：

利用最大长度匹配的分词算法，参照词典，分别对原文件和对比文件的文件标题或大纲条目进行全切词处理，生成全切分词图；所述全切分词图包括复数条句子切分路径；

利用隐马尔可夫模型算法，参照词语概率表和词性标注语料库，从所述复数条句子切分路径中选取最优句子切分路径；

利用近义词词典，分别对原文件和对比文件的文件标题或大纲条目的分词进行近义词替换处理，形成多个文件标题或大纲条目的表达版本；

将原文件和对比文件的多个文件标题或大纲条目的表达版本两两进行纯文本相似度计算，将最优相似度值作为原文件和对比文件的文件标题或大纲条目的语义相似度。

11.根据权利要求10所述的文件关联方法，其特征在于：所述最大长度匹配的分词算法包括以下任一种或几种算法的逻辑综合：

正向最大长度分词算法；

逆向最大长度分词算法。

12.根据权利要求5或10所述的文件关联方法，其特征在于：所述纯文本相似度的获取方法包括以下任一种或几种算法的逻辑综合：

关键词词频及逆向文本频率算法；

基于空间向量的余弦算法；

基于最长公共子串的文本相似度算法；

基于最长公共子序列的文本相似度算法；

基于最少编辑距离的文本相似度算法。

13.根据权利要求7或8任意一项所述的文件关联方法，其特征在于：所述自然段落或语义片段的语义相似度的一种获取方法包括：

参照关键词词典，查找两个对比的自然段落或语义片段中所有与所述关键词词典匹配的关键词；

参照近义词词典，对所述两个对比的自然段落或语义片段中的关键词进行近义词替换处理，在语义不变的情况下形成多个自然段落或语义片段的表达版本；

根据所述多个自然段落或语义片段的表达版本，计算所述两个对比的自然段落或语义片段的关键词重合度，将所述关键词重合度作为所述两个对比的自然段落或语义片段的语义相似度。

14.根据权利要求13所述的文件关联方法，其特征在于：所述两个对比的自然段落或语义片段的关键词重合度的一种获取方法包括：

在两个对比的自然段落或语义片段之间进行关键词两两比较；

若关键词本身及其近义词的文本相同，则视为形成一个重合词；

将两个对比的自然段落或语义片段的重合词的总数量作为被除数；将原文件的自然段落或语义片段的关键词总数作为除数，除法计算的结果作为两个对比的自然段落或语义片段的关键词重合度。

15.一种实现权利要求1至14任意一项所述的文件关联方法的文件关联系统，其特征在于，所述文件关联系统包括：

输入模块，用于输入一原文件；

存储模块，用于存储文件，包括标题存储子空间，大纲存储子空间，正文存储子空间；所述标题存储子空间包括复数个标题存储条目，每一个标题存储条目用于存储一个文件的标题；所述大纲存储子空间包括复数个大纲存储模块，每一个大纲存储模块用于存储一个文件的大纲，每个大纲存储模块存储有至少1条大纲条目；所述正文存储子空间包括复数个正文存储块，每一个正文存储块用于存储一个文件的正文；每个正文存储块存储有至少1个语义片段；

关联处理模块，与所述输入模块和所述存储模块分别相连，用于提取所述原文件的标题、大纲或/和正文，并与所述存储模块中存储的对比文件的标题、大纲或/和正文进行对应比较，获得与原文件的综合近似度满足预设条件的对比文件；

显示模块，与所述关联处理模块相连，根据所述综合近似度对各近似文件进行排序显示；

关联设置模块，与所述关联处理模块相连，用于设置标题相似度阈值，大纲相似度阈值，或/和正文相似度阈值。