CN104731828A - 一种跨领域文档相似度计算方法及装置 - Google Patents
一种跨领域文档相似度计算方法及装置 Download PDFInfo
- Publication number
- CN104731828A CN104731828A CN201310722866.9A CN201310722866A CN104731828A CN 104731828 A CN104731828 A CN 104731828A CN 201310722866 A CN201310722866 A CN 201310722866A CN 104731828 A CN104731828 A CN 104731828A
- Authority
- CN
- China
- Prior art keywords
- document
- similarity
- topic
- documents
- different field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种跨领域文档相似度计算方法及装置,该方法包括:存储不同领域文档和不同领域任意两个文档间的关系;将不同领域文档进行分词和去停用词处理,得到不同领域文档的词汇数据集;根据不同领域任意两个文档间的关系构建不同领域文档间的关联矩阵;根据词汇数据集,获得不同领域文档的话题聚类;根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率和任意一个话题针对任意两个不同领域匹配的权重;根据话题聚类中任意一个话题在不同领域任意两个文档中出现的概率和任意一个话题针对任意两个文档所在领域匹配的权重,计算任意两个文档间的相似度。本发明实施例,可以提高跨领域文档间相似度的准确度。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种跨领域文档相似度计算方法及装置。
背景技术
用户在检索文档时,有时需要检索与其匹配的其它领域的文档。目前,主要有两种跨领域文档匹配的方式,方式一是:根据不同领域文档中语句的文本字符串的相似度进行不同领域文档匹配;方式二是:统计不同领域文档中词汇的相似度,并根据不同领域文档中用词的相似性进行不同领域文档匹配。
在方式一中,由于不同文档中对同一事情的描述在语句上不一定相同,而在不同领域文档中对同一事情的描述在语句上的差距更大,因此,用字符串的相似度无法正确进行跨领域文档匹配。上述方式二是根据统计的不同领域文档的词汇相似度进行不同领域文档匹配,但是由于不同领域文档中对同一事情的描述在用词上差距很大,因此,仅仅根据词汇的相似度不能准确的进行文档的匹配。
发明内容
本发明实施例公开了一种跨领域文档相似度计算方法及装置,用于提高跨领域文档间相似度的准确度,以便根据相似度提高跨领域文档间匹配的准确度。
本发明实施例第一方面提供一种跨领域文档相似度计算方法,包括:
存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系,所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系;
将所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档的词汇数据集;
根据所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵;
根据所述词汇数据集,获得所述不同领域的文档的话题聚类;
根据所述关联矩阵和所述话题聚类,获得所述话题聚类中任意一个话题在任意一个文档中出现的概率,以及所述任意一个话题针对任意两个不同领域匹配的权重;
根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度。
在本发明实施例第一方面的第一种可能的实现方式中,所述将所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档的词汇数据集,包括:
将所述不同领域的文档分别进行分词和去停用词处理,分别得到所述不同领域文档对应的词汇数据包;
将所述词汇数据包存储在一起得到所述不同领域的文档的词汇数据集。
在本发明实施例第一方面的第二种可能的实现方式中,所述根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度,包括:
将所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘,获得概率积;
将所述概率积乘以所述任意一个话题针对所述任意两个文档所在领域匹配的权重,得到所述任意两个文档针对所述任意一个话题的相似度;
将所述任意两个文档针对所述话题聚类中每一个话题的相似度进行累加,得到所述任意两个文档间的初始相似度;
将所述任意两个文档间的所述初始相似度进行归一化处理,得到所述任意两个文档间的相似度。
结合本发明实施例第一方面或本发明实施例第一方面的第一种可能的实现方式,在本发明实施例第一方面的第三种可能的实现方式中,所述根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度之后,所述方法还包括:
将任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序,所述相应文档与所述任意一个文档所在领域不同;
在所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所述任意一个文档匹配的相应文档间的相似度;
将所述选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表。
结合本发明实施例第一方面的第三种可能的实现方式,在本发明实施例第一方面的第四种可能的实现方式中,所述将所述选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表之后,所述方法还包括:
检测用户输入的检索文档;
判断所述检索文档是否在所述不同领域的文档内;
若是,则从所述存储的相似度列表中查询与所述检索文档匹配的相应文档间的相似度列表;
根据所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
结合本发明实施例第一方面的第四种可能的实现方式,在本发明实施例第一方面的第五种可能的实现方式中,所述方法还包括:
若所述检索文档不在所述不同领域的文档内,则统计所述检索文档中与所述话题聚类中任意一个话题相关的词语出现的概率;
根据所述任意一个话题相关的词语出现的概率,计算所述任意一个话题在所述检索文档中出现的概率;
根据所述任意一个话题在所述检索文档中出现的概率、所述任意一个话题在任意一个相应文档中出现的概率,以及所述任意一个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档间的相似度。
结合本发明实施例第一方面的第五种可能的实现方式,在本发明实施例第一方面的第六种可能的实现方式中,所述根据所述任意一个话题在所述检索文档中出现的概率、所述任意一个话题在任意一个相应文档中出现的概率,以及所述任意一个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档间的相似度之后,所述方法还包括:
将所述检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序;
在所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所述检索文档匹配的相应文档间的相似度;
将所述选取的相似度存储为与所述检索文档匹配的相应文档间的相似度列表;
根据所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
本发明实施例第二方面提供一种跨领域文档相似度计算装置,包括:
第一存储单元,用于存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系,所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系;
处理单元,用于将所述第一存储单元存储的所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档的词汇数据集;
构建单元,用于根据所述第一存储单元存储的所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵;
第一获得单元,用于根据所述处理单元得到的所述词汇数据集,获得所述不同领域的文档的话题聚类;
第二获得单元,用于根据所述构建单元构建的所述关联矩阵和所述第一获得单元获得的所述话题聚类,获得所述话题聚类中任意一个话题在任意一个文档中出现的概率,以及所述任意一个话题针对任意两个不同领域匹配的权重;
第一计算单元,用于根据所述第二获得单元获得的所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度。
在本发明实施例第二方面的第一种可能的实现方式中,所述处理单元包括:
处理子单元,用于将所述第一存储单元存储的所述不同领域的文档分别进行分词和去停用词处理,分别得到所述不同领域文档对应的词汇数据包;
存储子单元,用于将所述处理子单元得到的所述词汇数据包存储在一起得到所述不同领域的文档的词汇数据集。
在本发明实施例第二方面的第二种可能的实现方式中,所述第一计算单元包括:
第一乘积子单元,用于将所述第二获得单元获得的所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘,获得概率积;
第二乘积子单元,用于将所述第一乘积子单元获得的所述概率积乘以所述第二获得单元获得的所述任意一个话题针对所述任意两个文档所在领域匹配的权重,得到所述任意两个文档针对所述任意一个话题的相似度;
累加子单元,用于将所述第二乘积子单元得到的所述任意两个文档针对所述话题聚类中每一个话题的相似度进行累加,得到所述任意两个文档间的初始相似度;
归一子单元,用于将所述累加子单元得到的所述任意两个文档间的所述初始相似度进行归一化处理,得到所述任意两个文档间的相似度。
结合本发明实施例第二方面或本发明实施例第二方面的第一种可能的实现方式,在本发明实施例第二方面的第三种可能的实现方式中,所述装置还包括:
第一排序单元,用于将所述第一计算单元计算的任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序,所述相应文档与所述任意一个文档所在领域不同;
第一选取单元,用于在所述第一排序单元排序的所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所述任意一个文档匹配的相应文档间的相似度;
第二存储单元,用于将所述第一选取单元选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表。
结合本发明实施例第二方面的第三种可能的实现方式,在本发明实施例第二方面的第四种可能的实现方式中,所述装置还包括:
检测单元,用于检测用户输入的检索文档;
判断单元,用于判断所述检测单元检测到的所述检索文档是否在所述第一存储单元存储的所述不同领域的文档内;
查询单元,用于当所述判断单元的判断结果为是时,从所述第二存储单元存储的相似度列表中查询与所述检索文档匹配的相应文档间的相似度列表;
第一输出单元,用于根据所述查询单元查询的所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
结合本发明实施例第二方面的第四种可能的实现方式,在本发明实施例第二方面的第五种可能的实现方式中,所述装置还包括:
统计单元,用于当所述判断单元的判断结果为否时,统计所述检索文档中与所述第一获得单元获得的所述话题聚类中任意一个话题相关的词语出现的概率;
第二计算单元,用于根据所述统计单元统计的所述任意一个话题相关的词语出现的概率,计算所述任意一个话题在所述检索文档中出现的概率;
第三计算单元,用于根据所述第二计算单元计算的所述任意一个话题在所述检索文档中出现的概率、所述第二获得单元获得的所述任意一个话题在任意一个相应文档中出现的概率,以及所述第二获得单元获得的所述任意一个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档间的相似度。
结合本发明实施例第二方面的第五种可能的实现方式,在本发明实施例第二方面的第六种可能的实现方式中,所述装置还包括:
第二排序单元,用于将所述第三计算单元计算的所述检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序;
第二选取单元,用于在所述第二排序单元排列的所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所述检索文档匹配的相应文档间的相似度;
第三存储单元,用于将所述第二选取单元选取的相似度存储为与所述检索文档匹配的相应文档间的相似度列表;
第二输出单元,用于根据所述第三存储单元存储的所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
本发明实施例中,存储不同领域的文档和存储不同领域的任意两个文档间的关系之后,将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集,并根据不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵,之后根据词汇数据集,获得不同领域的文档的话题聚类,并根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率,以及任意一个话题针对任意两个不同领域匹配的权重,然后根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度。与现有技术相比,本发明实施例中是根据不同领域两个文档针对相关话题的相关性计算两个文档间的相似度,因此,可以提高跨领域文档间相似度的准确度,以便根据相似度提高跨领域文档间匹配的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种跨领域文档相似度计算方法的流程图;
图2是本发明实施例公开的另一种跨领域文档相似度计算方法的流程图;
图3是本发明实施例公开的一种跨领域文档相似度计算装置的结构图;
图4是本发明实施例公开的另一种跨领域文档相似度计算装置的结构图;
图5用Variational EM算法获得话题聚类、概率和匹配权重的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中提供了一种跨领域文档相似度计算方法及装置,可以提高跨领域文档间相似度的准确度,以便根据相似度提高跨领域文档间匹配的准确度。以下分别进行详细说明。
请参阅图1,图1是本发明实施例公开的一种跨领域文档相似度计算方法的流程图。图1所示的跨领域文档相似度计算方法适用于具有显示屏的手机、平板电脑等终端设备,本发明实施例不作限定。如图1所示,该跨领域文档相似度计算方法可以包括以下步骤。
S101、存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,该不同领域的任意两个文档间的关系用于描述任意两个文档间的确定的匹配关系或未确定的匹配关系,该确定的匹配关系包括已知的匹配关系或已知的非匹配关系。
本发明实施例中,终端设备存储不同领域的文档,以及存储不同领域的任意两个文档间的关系,其中,该不同领域的任意两个文档间的关系用于描述任意两个文档间的确定的匹配关系或未确定的匹配关系,该确定的匹配关系包括已知的匹配关系或已知的非匹配关系。
本发明实施例中,用户可以定期存储当前不同领域的文档以及不同领域的任意两个文档间的关系。两个文档间的确定的匹配关系表明在用户存储文档时,已经明确知道这两个文档间的关系;其中,两个文档间的已知的匹配关系表明这两个文档有相同或相关的话题,两个文档间的已知的非匹配关系表明这两个文档没有相同或相关的话题。两个文档间的未确定匹配关系表明在用户存储文档时,还不知道这两个文档间有没有相同或相关的话题。
S102、将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集。
本发明实施例中,终端设备将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集。
本发明实施例中,终端设备将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集,可以包括以下步骤。
步骤A、终端设备将不同领域的文档分别进行分词和去停用词处理,分别得到不同领域文档对应的词汇数据包。
本发明实施例中,终端设备将每个文档分别切分为一个个单独的词,然后去掉每个文档中匹配价值不大的词,得到每个文档的词汇数据包。
步骤B、终端设备将词汇数据包存储在一起得到不同领域的文档的词汇数据集。
举例来说,假设不同领域的文档总共为n个,则有n个文档的词汇数据包,词汇数据集可以如表1所示,每个文档的词汇数据包可以在词汇数据集中占据一行,第一列可以是每个文档的名称、也可以是每个文档对应的编号,只要能够与相应的文档对应起来即可,本发明不作限定,第二列为第一列文档对应的词汇数据包。其中,词汇数据包不仅包括文档中出现的词语,还包含文档中词语出现的次数,如:“根据5”,即根据这个词在文档中出现了5次。
表1词汇数据包
文档名称/编号 | 词汇数据包 |
文档1 | 词汇数据包1 |
文档2 | 词汇数据包2 |
文档3 | 词汇数据包3 |
… | … |
S103、根据不同领域的任意两个文档间的关系构建不同领域的文档间的关联矩阵。
本发明实施例中,终端设备根据不同领域的任意两个文档间的关系构建不同领域的文档间的关联矩阵。
本发明实施例中,关联矩阵内的元素Lij用于描述属于不同领域的文档i和文档j之间的关系,当文档i和文档j之间存在已知的匹配关系时,关联矩阵内的元素Lij=1;当文档i和文档j之间存在已知的非匹配关系,关联矩阵内的元素Lij=-1;当文档i和文档j之间为未确定的匹配关系时,关联矩阵内的元素Lij=?,根据上述方法构建的两个不同领域文档间的关联矩阵可以如表2所示,
表2关联矩阵
1 | -1 | ? | … |
-1 | ? | 1 | … |
? | 1 | ? | … |
… | … | … | … |
S104、根据词汇数据集,获得不同领域的文档的话题聚类。
本发明实施例中,终端设备根据词汇数据集,获得不同领域的文档的话题聚类。
本发明实施例中,可以根据词汇集中每个文档的词汇数据包,得到每个文档包含的话题,之后将所有文档包含的所有话题聚集在一起,得到不同领域的文档的话题聚类。
举例说明,假设总共有三个文档,其中,文档A包含话题1、话题2、话题3,文档B包含话题1、话题4、话题6,文档C包含话题2、话题6、话题7、话题8,则这三个文档的话题聚类包括话题1、话题2、话题3、话题4、话题5、话题6、话题7、话题8八个话题。
S105、根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率,以及该任意一个话题针对任意两个不同领域匹配的权重。
本发明实施例中,终端设备根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率,以及该任意一个话题针对任意两个不同领域匹配的权重。
本发明实施例中,步骤S104中的话题聚类,以及步骤S105中的话题聚类中任意一个话题在任意一个文档中出现的概率和该任意一个话题针对任意两个不同领域匹配的权重,可以根据词汇数据集和关联矩阵,利用机器学习算法同时获得。机器学习算法可以为最大期望(expectation-maximization,EM)算法,如变分最大期望(variational EM)算法,也可以为马氏链蒙特卡罗(markov chain monte carlo,MCMC)算法,如吉布森采样(gibbs sampling)算法,本发明在此不作限定。
举例说明,假设总共有两个领域的文档,将这两个领域的文档的词汇数据集和由这两个领域的文档构建的关联矩阵作为Variational EM算法的输入,将会输出这两个领域所有文档的话题聚类、话题聚类中任意一个话题在任意一个文档中出现的概率以及任意一个话题匹配针对这两个领域匹配的权重,可以如图5所示。其中,在Variational EM算法中,首先得到文档中属于任意一个话题的词语的概率,再根据文档中属于任意一个话题的词语的概率得到任意一个话题在任意一个文档中出现的概率。
S106、根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度。
本发明实施例中,终端设备根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度。
本发明实施例中,终端设备根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度,可以包括以下步骤。
步骤A、将话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘,获得概率积。
步骤B、将概率积乘以该任意一个话题针对该任意两个文档所在领域匹配的权重,得到该任意两个文档针对该任意一个话题的相似度。
步骤C、将该任意两个文档针对话题聚类中每一个话题的相似度进行累加,得到该任意两个文档间的初始相似度。
步骤D、将该任意两个文档间的初始相似度进行归一化处理,得到该任意两个文档间的相似度。
举例来说,给定两个关系为未知的不同领域的文档a和文档b,假设话题聚类中任意一个话题在文档a中出现的概率为Za、话题聚类中任意一个话题在文档b中出现的概率为Zb、话题聚类中任意一个话题针对文档a和文档b所在领域匹配的权重为γ,可以根据话题聚类中任意一个话题k在文档a和文档b中出现的概率,得到它们的概率积Zk,a,b为
Zk,a,b=Zk,a*Zk,b
其中,Zk,a、Zk,b分别为话题聚类中话题k在文档a与文档b中出现的概率,文档a和文档b针对话题k的相似度βk为
βk=Zk,a,b*γk
其中,γk为话题k针对文档a和文档b所在领域匹配的权重为,文档a和文档b的初始相似度β为
得到的文档a和文档b的初始相似度β的值一般不在0与1之间,为了保证相似度值在0和1之间,需要对文档a和文档b的初始相似度β进行归一化处理。
本发明实施例中,存储不同领域的文档和存储不同领域的任意两个文档间的关系之后,将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集,并根据不同领域的任意两个文档间的关系构建不同领域的文档间的关联矩阵,之后根据词汇数据集,获得不同领域的文档的话题聚类,并根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率,以及任意一个话题针对任意两个不同领域匹配的权重,然后根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度。与现有技术相比,本发明实施例中是根据不同领域两个文档针对相关话题的相关性计算两个文档间的相似度,因此,可以提高跨领域文档间相似度的准确度,以便根据相似度提高跨领域文档间匹配的准确度。
请参阅图2,图2是本发明实施例公开的另一种跨领域文档相似度计算方法的流程图。图2所示的跨领域文档相似度计算方法适用于具有显示屏的手机、平板电脑等终端设备,本发明实施例不作限定。如图2所示,该跨领域文档相似度计算方法可以包括以下步骤。
S201、终端设备存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,该不同领域的任意两个文档间的关系用于描述任意两个文档间的确定的匹配关系或未确定的匹配关系,该确定的匹配关系包括已知的匹配关系或已知的非匹配关系。
本发明实施例中,用户可以定期存储当前不同领域的文档以及不同领域的任意两个文档间的关系。两个文档间的确定的匹配关系表明在用户存储文档时,已经明确知道这两个文档间的关系;其中,两个文档间的已知的匹配关系表明这两个文档有相同或相关的话题,两个文档间的已知的非匹配关系表明这两个文档没有相同或相关的话题。两个文档间的未确定匹配关系表明在用户存储文档时,还不知道这两个文档间有没有相同或相关的话题。
S202、终端设备将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集。
本发明实施例中,终端设备将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集,可以包括以下步骤。
步骤A、终端设备将不同领域的文档分别进行分词和去停用词处理,分别得到不同领域文档对应的词汇数据包。
本发明实施例中,终端设备将每个文档分别切分为一个个单独的词,然后去掉每个文档中匹配价值不大的词,得到每个文档的词汇数据包。
步骤B、终端设备将词汇数据包存储在一起得到不同领域的文档的词汇数据集。
举例来说,假设不同领域的文档总共为n个,则有n个文档的词汇数据包,词汇数据集可以如表1所示,每个文档的词汇数据包可以在词汇数据集中占据一行,第一列可以是每个文档的名称、也可以是每个文档对应的编号,只要能够与相应的文档对应起来即可,本发明不作限定,第二列为第一列文档对应的词汇数据包。其中,词汇数据包不仅包括文档中出现的词语,还包含文档中词语出现的次数,如:“根据5”,即根据这个词在文档中出现了5次。
表1词汇数据包
文档名称/编号 | 词汇数据包 |
文档1 | 词汇数据包1 |
文档2 | 词汇数据包2 |
文档2 | 词汇数据包3 |
… | … |
S203、终端设备根据不同领域的任意两个文档间的关系构建不同领域的文档间的关联矩阵。
本发明实施例中,关联矩阵内的元素Lij用于描述属于不同领域的文档i和文档j之间的关系,当文档i和文档j之间存在已知的匹配关系时,关联矩阵内的元素Lij=1;当文档i和文档j之间存在已知的非匹配关系,关联矩阵内的元素Lij=-1;当文档i和文档j之间为未确定的匹配关系时,关联矩阵内的元素Lij=?,根据上述方法构建的两个不同领域文档间的关联矩阵可以如表2所示,
表2关联矩阵
1 | -1 | ? | … |
-1 | ? | 1 | … |
? | 1 | ? | … |
… | … | … | … |
S204、终端设备根据词汇数据集,获得不同领域的文档的话题聚类。
本发明实施例中,可以根据词汇集中每个文档的词汇数据包,得到每个文档包含的话题,之后将所有文档包含的所有话题聚集在一起,得到不同领域的文档的话题聚类。
举例说明,假设总共有三个文档,其中,文档A包含话题1、话题2、话题3,文档B包含话题1、话题4、话题6,文档C包含话题2、话题6、话题7、话题8,则这三个文档的话题聚类包括话题1、话题2、话题3、话题4、话题5、话题6、话题7、话题8八个话题。
S205、终端设根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率,以及该任意一个话题针对任意两个不同领域匹配的权重。
本发明实施例中,步骤S104中的话题聚类,以及步骤S105中的话题聚类中任意一个话题在任意一个文档中出现的概率和该任意一个话题针对任意两个不同领域匹配的权重,可以根据词汇数据集和关联矩阵,利用机器学习算法同时获得。机器学习算法可以为最大期望(expectation-maximization,EM)算法,如变分最大期望(variational EM)算法,也可以为马氏链蒙特卡罗(markov chain monte carlo,MCMC)算法,如吉布森采样(gibbs sampling)算法,本发明在此不作限定。
举例说明,假设总共有两个领域的文档,将这两个领域的文档的词汇数据集和由这两个领域的文档构建的关联矩阵作为Variational EM算法的输入,将会输出这两个领域所有文档的话题聚类、话题聚类中任意一个话题在任意一个文档中出现的概率以及任意一个话题针对这两个领域匹配的权重,可以如图5所示。其中,在Variational EM算法中,首先得到文档中属于任意一个话题的词语的概率,再根据文档中属于任意一个话题的词语的概率得到任意一个话题在任意一个文档中出现的概率。
S206、终端设备根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度。
本发明实施例中,终端设备根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度,可以包括以下步骤。
步骤A、将话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘,获得概率积。
步骤B、将概率积乘以该任意一个话题针对该任意两个文档所在领域匹配的权重,得到该任意两个文档针对该任意一个话题的相似度。
步骤C、将该任意两个文档针对话题聚类中每一个话题的相似度进行累加,得到该任意两个文档间的初始相似度。
步骤D、将该任意两个文档间的初始相似度进行归一化处理,得到该任意两个文档间的相似度。
举例来说,给定两个关系为未知的不同领域的文档a和文档b,假设话题聚类中任意一个话题在文档a中出现的概率为Za、话题聚类中任意一个话题在文档b中出现的概率为Zb、话题聚类中任意一个话题针对文档a和文档b所在领域匹配的权重为γ,可以根据话题聚类中任意一个话题k在文档a和文档b中出现的概率,得到它们的概率积Zk,a,b为
Zk,a,b=Zk,a*Zk,b
其中,Zk,a、Zk,b分别为话题聚类中话题k在文档a与文档b中出现的概率,文档a和文档b针对话题k的相似度βk为
βk=Zk,a,b*γk
其中,γk为话题k针对文档a和文档b所在领域匹配的权重为,文档a和文档b的初始相似度β为
得到的文档a和文档b的初始相似度β的值一般不在0与1之间,为了保证相似度值在0和1之间,需要对文档a和文档b的初始相似度β进行归一化处理。
S207、终端设备将任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序,该相应文档与该任意一个文档所在领域不同。
本发明实施例中,一个文档与其它领域的任何一个文档之间都有一个相似度,只不过与有的文档间的相似度为零,因此,可以将这个文档与所有相应文档间的相似度按照相似度从高到低的顺序进行相似度排序,以便较高的相似度排列在前。
S208、终端设备在相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与该任意一个文档匹配的相应文档间的相似度。
本发明实施例中,将任意一个文档与所有相应文档间的相似度按照相似度从高到低的顺序进行相似度排序后,可以将大于等于预设阈值的相似度选取出来,认为与该文档间的相似度大于等于预设阈值的其它领域文档与该文档匹配,其中,两个文档间的相似度越大,两个文档间匹配的机会越大。
S209、终端设备将选取的相似度存储为与该任意一个文档匹配的相应文档间的相似度列表。
本发明实施例中,将选取的大于等于预设阈值的相似度存储为与该文档匹配的文档的相似度列表,以便用户检索。
S210、终端设备检测用户输入的检索文档。
本发明实施例中,当用户输入检索文档时,终端设备会检测用户输入的检索文档,以便根据检索文档检索与其匹配的跨领域文档。
S211、终端设备判断检索文档是否在不同领域的文档内。
本发明实施例中,终端设备检测到用户输入的检索文档之后,首先将判断检索文档是否在存储的不同领域的文档内,以便选择不同的方法输出检索文档相应的匹配文档列表。
S212、若是,则终端设备从存储的相似度列表中查询与检索文档匹配的相应文档间的相似度列表,并根据与检索文档匹配的相应文档间的相似度列表,输出与检索文档匹配的相应文档的文档列表。
本发明实施例中,当判断出检索文档在存储的不同领域的文档内时,将从存储的相似度列表中查询与检索文档匹配的其它领域文档的相似度列表,并根据查询的与检索文档匹配的其它领域文档的相似度列表,输出与检索文档匹配的匹配文档列表,其中,与检索文档间相似度越高的其它领域文档在匹配文档列表越靠前。
相应地,当判断出检索文档不在存储的不同领域的文档内时,可以根据以下步骤得到检索文档的匹配文档列表。
步骤A、统计检索文档中与话题聚类中任意一个话题相关的词语出现的概率。
步骤B、根据该任意一个话题相关的词语出现的概率,计算该任意一个话题在检索文档中出现的概率。
步骤C、根据该任意一个话题在检索文档中出现的概率、该任意一个话题在任意一个相应文档中出现的概率,以及该任意一个话题针对检索文档所在领域与任意一个相应文档所在领域匹配的权重,计算检索文档与该任意一个相应文档间的相似度。
步骤D、将检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序。
步骤E、在相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与检索文档匹配的相应文档间的相似度。
步骤F、将选取的相似度存储为与检索文档匹配的相应文档间的相似度列表。
步骤G、根据与检索文档匹配的相应文档间的相似度列表,输出与检索文档匹配的相应文档的文档列表。
本发明实施例中,存储不同领域的文档和存储不同领域的任意两个文档间的关系之后,将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集,并根据不同领域的任意两个文档间的关系构建不同领域的文档间的关联矩阵,之后根据词汇数据集,获得不同领域的文档的话题聚类,并根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率,以及任意一个话题针对任意两个不同领域匹配的权重,然后根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度。与现有技术相比,本发明实施例中是根据不同领域两个文档针对相关话题的相关性计算两个文档间的相似度,因此,可以提高跨领域文档间相似度的准确度,以便根据相似度提高跨领域文档间匹配的准确度。此外,将与任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序,并选取大于等于预设阈值的相似度作为与该任意一个文档匹配的相应文档间的相似度,存储为相似度列表,而且可以判断检索文档是否在存储的不同领域文档内,若是,则根据存储的相应的相似度列表输出与其对应的匹配文档列表,若否,则计算与其它领域文档间的相似度并输出匹配的匹配文档列表。因此,当检索文档在存储文档中时,用户可以检索到与检索文档匹配的跨领域文档,当检索文档不在存储文档中时,用户也可以检索到与检索文档匹配的跨领域文档,适应性强。
请参阅图3,图3是本发明实施例公开的一种跨领域文档相似度计算装置的结构图。图3所示的跨领域文档相似度计算装置适用于具有显示屏的手机、平板电脑等终端设备,本发明实施例不作限定。如图3所示,该跨领域文档相似度计算装置300可以包括:
第一存储单元301,用于存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,该不同领域的任意两个文档间的关系用于描述任意两个文档间的确定的匹配关系或未确定的匹配关系,该确定的匹配关系包括已知的匹配关系或已知的非匹配关系;
处理单元302,用于将第一存储单元301存储的不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集;
构建单元303,用于根据第一存储单元301存储的不同领域的任意两个文档间的关系构建不同领域的文档间的关联矩阵;
第一获得单元304,用于根据处理单元302得到的词汇数据集,获得不同领域的文档的话题聚类;
第二获得单元305,用于根据构建单元构建303的关联矩阵和第一获得单元304获得的话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率,以及该任意一个话题针对任意两个不同领域匹配的权重;
第一计算单元306,用于根据第二获得单元305获得的话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度。
本发明实施例中,处理单元302可以包括:
处理子单元3021,用于将第一存储单元301存储的不同领域的文档分别进行分词和去停用词处理,分别得到不同领域文档对应的词汇数据包;
存储子单元3022,用于将处理子单元3022得到的词汇数据包存储在一起得到不同领域的文档的词汇数据集。
本发明实施例中,第一计算单元306可以包括:
第一乘积子单元3061,用于将第二获得单元305获得的话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘,获得概率积;
第二乘积子单元3062,用于将第一乘积子单元3061获得的概率积乘以第二获得单元305获得的该任意一个话题针对该任意两个文档所在领域匹配的权重,得到该任意两个文档针对该任意一个话题的相似度;
累加子单元3063,用于将第二乘积子单元3062得到的该任意两个文档针对话题聚类中每一个话题的相似度进行累加,得到该任意两个文档间的初始相似度;
归一子单元3064,用于将累加子单元3063得到的该任意两个文档间的初始相似度进行归一化处理,得到该任意两个文档间的相似度。
作为一种可能的实施方式,跨领域文档相似度计算装置300还可以包括:
第一排序单元307,用于将第一计算单元306计算的任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序,该相应文档与该任意一个文档所在领域不同;
第一选取单元308,用于在第一排序单元307排序的相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与该任意一个文档匹配的相应文档间的相似度;
第二存储单元309,用于将第一选取单元308选取的相似度存储为与该任意一个文档匹配的相应文档间的相似度列表。
作为一种可能的实施方式,跨领域文档相似度计算装置300还可以包括:
检测单元310,用于检测用户输入的检索文档;
判断单元311,用于判断检测单元310检测到的检索文档是否在第一存储单元301存储的不同领域的文档内;
查询单元312,用于当判断单元311的判断结果为是时,从第二存储单元309存储的相似度列表中查询与检索文档匹配的相应文档间的相似度列表;
第一输出单元313,用于根据查询单元312查询的与检索文档匹配的相应文档间的相似度列表,输出与检索文档匹配的相应文档的文档列表。
作为一种可能的实施方式,跨领域文档相似度计算装置300还可以包括:
统计单元314,用于当判断单元311的判断结果为否时,统计检索文档中与第一获得单元304获得的话题聚类中任意一个话题相关的词语出现的概率;
第二计算单元315,用于根据统计单元314统计的该任意一个话题相关的词语出现的概率,计算该任意一个话题在检索文档中出现的概率;
第三计算单元316,用于根据第二计算单元315计算的该任意一个话题在检索文档中出现的概率、第二获得单元305获得的该任意一个话题在任意一个相应文档中出现的概率,以及第二获得单元305获得的该任意一个话题针对检索文档所在领域与任意一个相应文档所在领域匹配的权重,计算检索文档与该任意一个相应文档间的相似度。
作为一种可能的实施方式,跨领域文档相似度计算装置300还可以包括:
第二排序单元317,用于将第三计算单元316计算的检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序;
第二选取单元318,用于在第二排序单元317排列的相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与检索文档匹配的相应文档间的相似度;
第三存储单元319,用于将第二选取单元318选取的相似度存储为与检索文档匹配的相应文档间的相似度列表;
第二输出单元320,用于根据第三存储单元319存储的与检索文档匹配的相应文档间的相似度列表,输出与检索文档匹配的相应文档的文档列表。
图3所示的跨领域文档相似度计算装置是根据不同领域两个文档针对相关话题的相关性计算两个文档间的相似度,因此,可以提高跨领域文档间相似度的准确度,以便根据相似度提高跨领域文档间匹配的准确度。此外,当检索文档在存储文档中时,用户可以检索到与检索文档匹配的跨领域文档,当检索文档不在存储文档中时,用户也可以检索到与检索文档匹配的跨领域文档,适应性强。
请参阅图4,图4是本发明实施例公开的另一种跨领域文档相似度计算装置的结构图,用于执行本发明实施例公开的跨领域文档相似度计算方法。如图4所示,该跨领域文档相似度计算装置400可以包括输入模块401、输出模块402和处理器403。在本申请的一些实施例中,输入装置401和处理器403之间、输出装置402和处理器403之间可以通过总线或其他方式连接,其中,图4中以通过总线连接为例。
其中,处理器403执行如下步骤:
存储不同领域的文档,以及存储不同领域的任意两个文档间的关系,其中,该不同领域的任意两个文档间的关系用于描述任意两个文档间的确定的匹配关系或未确定的匹配关系,该确定的匹配关系包括已知的匹配关系或已知的非匹配关系;
将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集;
根据不同领域的任意两个文档间的关系构建不同领域的文档间的关联矩阵;
根据词汇数据集,获得不同领域的文档的话题聚类;
根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率,以及该任意一个话题针对任意两个不同领域匹配的权重;
根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度。
作为一种可能的实施方式,处理器403执行的将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据集的步骤包括:
将不同领域的文档分别进行分词和去停用词处理,分别得到不同领域文档对应的词汇数据包;
将词汇数据包存储在一起得到不同领域的文档的词汇数据集。
作为一种可能的实施方式,处理器403执行的根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个文档间的相似度的步骤包括:
将话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘,获得概率积;
将概率积乘以该任意一个话题针对该任意两个文档所在领域匹配的权重,得到该任意两个文档针对该任意一个话题的相似度;
将该任意两个文档针对话题聚类中每一个话题的相似度进行累加,得到该任意两个文档间的初始相似度;
将该任意两个文档间的初始相似度进行归一化处理,得到该任意两个文档间的相似度。
作为一种可能的实施方式,处理器403还执行如下步骤:
将任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序,该相应文档与该任意一个文档所在领域不同;
在相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与该任意一个文档匹配的相应文档间的相似度;
将选取的相似度存储为与该任意一个文档匹配的相应文档间的相似度列表。
作为一种可能的实施方式,处理器403还执行如下步骤:
检测用户输入的检索文档;
判断检索文档是否在不同领域的文档内;
若是,则从存储的相似度列表中查询与检索文档匹配的相应文档间的相似度列表;
根据与检索文档匹配的相应文档间的相似度列表,输出与检索文档匹配的相应文档的文档列表。
作为一种可能的实施方式,处理器403还执行如下步骤:
若检索文档不在不同领域的文档内,则统计检索文档中与话题聚类中任意一个话题相关的词语出现的概率;
根据该任意一个话题相关的词语出现的概率,计算该任意一个话题在检索文档中出现的概率;
根据该任意一个话题在检索文档中出现的概率、该任意一个话题在任意一个相应文档中出现的概率,以及该任意一个话题针对检索文档所在领域与该任意一个相应文档所在领域匹配的权重,计算检索文档与该任意一个相应文档间的相似度。
作为一种可能的实施方式,处理器403还执行如下步骤:
将检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序;
在相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与检索文档匹配的相应文档间的相似度;
将选取的相似度存储为与检索文档匹配的相应文档间的相似度列表;
根据与检索文档匹配的相应文档间的相似度列表,输出与检索文档匹配的相应文档的文档列表。
图4所示的跨领域文档相似度计算装置是根据不同领域两个文档针对相关话题的相关性计算两个文档间的相似度,因此,可以提高跨领域文档间相似度的准确度,以便根据相似度提高跨领域文档间匹配的准确度。此外,当检索文档在存储文档中时,用户可以检索到与检索文档匹配的跨领域文档,当检索文档不在存储文档中时,用户也可以检索到与检索文档匹配的跨领域文档,适应性强。
一个实施例中,本发明实施例进一步公开一种计算机存储介质,该计算机存储介质存储有计算机程序,当计算机存储介质中的计算机程序被读取到计算机时,能够使得计算机完成本发明实施例公开的跨领域文档相似度计算方法的全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
以上对本发明实施例所提供的跨领域文档相似度计算方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种跨领域文档相似度计算方法,其特征在于,包括:
存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系,所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系;
将所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档的词汇数据集;
根据所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵;
根据所述词汇数据集,获得所述不同领域的文档的话题聚类;
根据所述关联矩阵和所述话题聚类,获得所述话题聚类中任意一个话题在任意一个文档中出现的概率,以及所述任意一个话题针对任意两个不同领域匹配的权重;
根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度。
2.如权利要求1所述的方法,其特征在于,所述将所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档的词汇数据集,包括:
将所述不同领域的文档分别进行分词和去停用词处理,分别得到所述不同领域文档对应的词汇数据包;
将所述词汇数据包存储在一起得到所述不同领域的文档的词汇数据集。
3.如权利要求1或2所述的方法,其特征在于,所述根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度,包括:
将所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘,获得概率积;
将所述概率积乘以所述任意一个话题针对所述任意两个文档所在领域匹配的权重,得到所述任意两个文档针对所述任意一个话题的相似度;
将所述任意两个文档针对所述话题聚类中每一个话题的相似度进行累加,得到所述任意两个文档间的初始相似度;
将所述任意两个文档间的所述初始相似度进行归一化处理,得到所述任意两个文档间的相似度。
4.如权利要求1或2所述的方法,其特征在于,所述根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度之后,所述方法还包括:
将任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序,所述相应文档与所述任意一个文档所在领域不同;
在所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所述任意一个文档匹配的相应文档间的相似度;
将所述选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表。
5.如权利要求4所述的方法,其特征在于,所述将所述选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表之后,所述方法还包括:
检测用户输入的检索文档;
判断所述检索文档是否在所述不同领域的文档内;
若是,则从所述存储的相似度列表中查询与所述检索文档匹配的相应文档间的相似度列表;
根据所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
若所述检索文档不在所述不同领域的文档内,则统计所述检索文档中与所述话题聚类中任意一个话题相关的词语出现的概率;
根据所述任意一个话题相关的词语出现的概率,计算所述任意一个话题在所述检索文档中出现的概率;
根据所述任意一个话题在所述检索文档中出现的概率、所述任意一个话题在任意一个相应文档中出现的概率,以及所述任意一个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档间的相似度。
7.如权利要求6所述的所述,其特征在于,所述根据所述任意一个话题在所述检索文档中出现的概率、所述任意一个话题在任意一个相应文档中出现的概率,以及所述任意一个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档间的相似度之后,所述方法还包括:
将所述检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序;
在所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所述检索文档匹配的相应文档间的相似度;
将所述选取的相似度存储为与所述检索文档匹配的相应文档间的相似度列表;
根据所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
8.一种跨领域文档相似度计算装置,其特征在于,包括:
第一存储单元,用于存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系,所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系;
处理单元,用于将所述第一存储单元存储的所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档的词汇数据集;
构建单元,用于根据所述第一存储单元存储的所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵;
第一获得单元,用于根据所述处理单元得到的所述词汇数据集,获得所述不同领域的文档的话题聚类;
第二获得单元,用于根据所述构建单元构建的所述关联矩阵和所述第一获得单元获得的所述话题聚类,获得所述话题聚类中任意一个话题在任意一个文档中出现的概率,以及所述任意一个话题针对任意两个不同领域匹配的权重;
第一计算单元,用于根据所述第二获得单元获得的所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度。
9.如权利要求8所述的装置,其特征在于,所述处理单元包括:
处理子单元,用于将所述第一存储单元存储的所述不同领域的文档分别进行分词和去停用词处理,分别得到所述不同领域文档对应的词汇数据包;
存储子单元,用于将所述处理子单元得到的所述词汇数据包存储在一起得到所述不同领域的文档的词汇数据集。
10.如权利要求8或9所述的装置,其特征在于,所述第一计算单元包括:
第一乘积子单元,用于将所述第二获得单元获得的所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘,获得概率积;
第二乘积子单元,用于将所述第一乘积子单元获得的所述概率积乘以所述第二获得单元获得的所述任意一个话题针对所述任意两个文档所在领域匹配的权重,得到所述任意两个文档针对所述任意一个话题的相似度;
累加子单元,用于将所述第二乘积子单元得到的所述任意两个文档针对所述话题聚类中每一个话题的相似度进行累加,得到所述任意两个文档间的初始相似度;
归一子单元,用于将所述累加子单元得到的所述任意两个文档间的所述初始相似度进行归一化处理,得到所述任意两个文档间的相似度。
11.如权利要求8或9所述的装置,其特征在于,所述装置还包括:
第一排序单元,用于将所述第一计算单元计算的任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序,所述相应文档与所述任意一个文档所在领域不同;
第一选取单元,用于在所述第一排序单元排序的所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所述任意一个文档匹配的相应文档间的相似度;
第二存储单元,用于将所述第一选取单元选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表。
12.如权利要求11所述的装置,其特征在于,所述装置还包括:
检测单元,用于检测用户输入的检索文档;
判断单元,用于判断所述检测单元检测到的所述检索文档是否在所述第一存储单元存储的所述不同领域的文档内;
查询单元,用于当所述判断单元的判断结果为是时,从所述第二存储单元存储的相似度列表中查询与所述检索文档匹配的相应文档间的相似度列表;
第一输出单元,用于根据所述查询单元查询的所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
13.如权利要求12所述的装置,其特征在于,所述装置还包括:
统计单元,用于当所述判断单元的判断结果为否时,统计所述检索文档中与所述第一获得单元获得的所述话题聚类中任意一个话题相关的词语出现的概率;
第二计算单元,用于根据所述统计单元统计的所述任意一个话题相关的词语出现的概率,计算所述任意一个话题在所述检索文档中出现的概率;
第三计算单元,用于根据所述第二计算单元计算的所述任意一个话题在所述检索文档中出现的概率、所述第二获得单元获得的所述任意一个话题在任意一个相应文档中出现的概率,以及所述第二获得单元获得的所述任意一个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档间的相似度。
14.如权利要求13所述的装置,其特征在于,所述装置还包括:
第二排序单元,用于将所述第三计算单元计算的所述检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序;
第二选取单元,用于在所述第二排序单元排列的所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所述检索文档匹配的相应文档间的相似度;
第三存储单元,用于将所述第二选取单元选取的相似度存储为与所述检索文档匹配的相应文档间的相似度列表;
第二输出单元,用于根据所述第三存储单元存储的所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310722866.9A CN104731828B (zh) | 2013-12-24 | 2013-12-24 | 一种跨领域文档相似度计算方法及装置 |
EP14874314.9A EP3065066A4 (en) | 2013-12-24 | 2014-07-18 | METHOD AND DEVICE FOR CALCULATING THE SIMILARITY BETWEEN FILES WITH REGARD TO DIFFERENT AREAS |
PCT/CN2014/082526 WO2015096468A1 (zh) | 2013-12-24 | 2014-07-18 | 一种跨领域文档相似度计算方法及装置 |
US15/190,985 US10452696B2 (en) | 2013-12-24 | 2016-06-23 | Method and apparatus for computing similarity between cross-field documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310722866.9A CN104731828B (zh) | 2013-12-24 | 2013-12-24 | 一种跨领域文档相似度计算方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104731828A true CN104731828A (zh) | 2015-06-24 |
CN104731828B CN104731828B (zh) | 2017-12-05 |
Family
ID=53455725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310722866.9A Active CN104731828B (zh) | 2013-12-24 | 2013-12-24 | 一种跨领域文档相似度计算方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10452696B2 (zh) |
EP (1) | EP3065066A4 (zh) |
CN (1) | CN104731828B (zh) |
WO (1) | WO2015096468A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255121A (zh) * | 2018-07-27 | 2019-01-22 | 中山大学 | 一种基于主题类的跨语言生物医学类学术论文信息推荐方法 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10831772B2 (en) * | 2017-12-20 | 2020-11-10 | International Business Machines Corporation | Facilitation of domain and client-specific application program interface recommendations |
US11645686B2 (en) | 2018-12-05 | 2023-05-09 | Sap Se | Graphical approach to multi-matching |
CN109919427A (zh) * | 2019-01-24 | 2019-06-21 | 平安科技(深圳)有限公司 | 模型议题去重评估方法、服务器及计算机可读存储介质 |
CN110070114B (zh) * | 2019-04-03 | 2020-11-10 | 奇安信科技集团股份有限公司 | 多规范融合的处理方法、装置、计算机设备和存储介质 |
CN111444428B (zh) * | 2020-03-27 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 |
CN111930898B (zh) * | 2020-09-18 | 2021-01-05 | 北京合享智慧科技有限公司 | 文本评价方法、装置、电子设备及存储介质 |
US11449516B2 (en) | 2020-11-04 | 2022-09-20 | International Business Machines Corporation | Ranking of documents belonging to different domains based on comparison of descriptors thereof |
CN113032575B (zh) * | 2021-05-28 | 2022-05-17 | 北京明略昭辉科技有限公司 | 一种基于主题模型的文档血缘关系挖掘的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6542889B1 (en) * | 2000-01-28 | 2003-04-01 | International Business Machines Corporation | Methods and apparatus for similarity text search based on conceptual indexing |
US20080114750A1 (en) * | 2006-11-14 | 2008-05-15 | Microsoft Corporation | Retrieval and ranking of items utilizing similarity |
CN103207899A (zh) * | 2013-03-19 | 2013-07-17 | 新浪网技术(中国)有限公司 | 文本文件推荐方法及系统 |
CN103324640A (zh) * | 2012-03-23 | 2013-09-25 | 日电(中国)有限公司 | 一种确定搜索结果文档的方法、装置和设备 |
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7260570B2 (en) | 2002-02-01 | 2007-08-21 | International Business Machines Corporation | Retrieving matching documents by queries in any national language |
US7320000B2 (en) * | 2002-12-04 | 2008-01-15 | International Business Machines Corporation | Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy |
US8346620B2 (en) * | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
CN101441620B (zh) | 2008-11-27 | 2010-04-14 | 温州大学 | 基于近似串匹配距离的电子文本文档抄袭识别方法 |
EP2354975B1 (en) * | 2010-02-09 | 2013-04-10 | ExB Asset Management GmbH | Automatic association of informational entities |
US20120296637A1 (en) * | 2011-05-20 | 2012-11-22 | Smiley Edwin Lee | Method and apparatus for calculating topical categorization of electronic documents in a collection |
US8869208B2 (en) * | 2011-10-30 | 2014-10-21 | Google Inc. | Computing similarity between media programs |
JP5758349B2 (ja) * | 2012-02-15 | 2015-08-05 | 日本電信電話株式会社 | 文書カテゴライズ装置とその方法とプログラム |
US20140207786A1 (en) * | 2013-01-22 | 2014-07-24 | Equivio Ltd. | System and methods for computerized information governance of electronic documents |
-
2013
- 2013-12-24 CN CN201310722866.9A patent/CN104731828B/zh active Active
-
2014
- 2014-07-18 EP EP14874314.9A patent/EP3065066A4/en not_active Withdrawn
- 2014-07-18 WO PCT/CN2014/082526 patent/WO2015096468A1/zh active Application Filing
-
2016
- 2016-06-23 US US15/190,985 patent/US10452696B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6542889B1 (en) * | 2000-01-28 | 2003-04-01 | International Business Machines Corporation | Methods and apparatus for similarity text search based on conceptual indexing |
US20080114750A1 (en) * | 2006-11-14 | 2008-05-15 | Microsoft Corporation | Retrieval and ranking of items utilizing similarity |
CN103324640A (zh) * | 2012-03-23 | 2013-09-25 | 日电(中国)有限公司 | 一种确定搜索结果文档的方法、装置和设备 |
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
CN103207899A (zh) * | 2013-03-19 | 2013-07-17 | 新浪网技术(中国)有限公司 | 文本文件推荐方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255121A (zh) * | 2018-07-27 | 2019-01-22 | 中山大学 | 一种基于主题类的跨语言生物医学类学术论文信息推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2015096468A1 (zh) | 2015-07-02 |
EP3065066A4 (en) | 2016-10-12 |
US10452696B2 (en) | 2019-10-22 |
CN104731828B (zh) | 2017-12-05 |
US20160306873A1 (en) | 2016-10-20 |
EP3065066A1 (en) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104731828A (zh) | 一种跨领域文档相似度计算方法及装置 | |
CN107341183B (zh) | 一种基于暗网网站综合特征的网站分类方法 | |
CN105224648A (zh) | 一种实体链接方法与系统 | |
CN106156154A (zh) | 相似文本的检索方法及其装置 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
US20200272674A1 (en) | Method and apparatus for recommending entity, electronic device and computer readable medium | |
CN106156041A (zh) | 热点信息发现方法及系统 | |
CN105095391A (zh) | 利用分词程序识别机构名称的装置及方法 | |
CN106776559A (zh) | 文本语义相似度计算的方法及装置 | |
Lu et al. | Loose Laplacian spectra of random hypergraphs | |
CN105718951A (zh) | 用户相似度的估算方法及估算系统 | |
CN103577547A (zh) | 网页类型识别方法及装置 | |
CN103164415B (zh) | 基于微博平台的扩展关键词获取方法和设备 | |
CN104794130A (zh) | 一种表间关联查询方法和装置 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN102708104B (zh) | 对文档排序的方法和设备 | |
CN104281710A (zh) | 一种网络数据挖掘方法 | |
US10902036B2 (en) | Intersection algorithm-based search method and system, and storage medium | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 | |
CN106649315A (zh) | 处理路径导航的方法和装置 | |
CN110175331B (zh) | 专业术语的识别方法、装置、电子设备及可读存储介质 | |
CN103324608B (zh) | 一种词形还原方法及装置 | |
CN110059272B (zh) | 一种页面特征识别方法和装置 | |
CN103106283B (zh) | 去重处理方法及装置 | |
Wang et al. | A rough set approach to online customer’s review mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |