CN113626554B

CN113626554B - 一种计算汉语文档哈希值的方法

Info

Publication number: CN113626554B
Application number: CN202110941713.8A
Authority: CN
Inventors: 蒋遂平; 袁晓光; 李智文; 郑箘; 姜志祥
Original assignee: Beijing Aerospace Aiwei Electronic Technology Ltd; Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Aerospace Aiwei Electronic Technology Ltd; Beijing Institute of Computer Technology and Applications
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-08-25
Anticipated expiration: 2041-08-17
Also published as: CN113626554A

Abstract

本发明涉及一种计算汉语文档哈希值的方法，属于文档处理领域。本发明从汉语文档中分离出组成文档的主要汉字，计算分离出的不同汉字在汉语文档中的权重，计算文档中不同汉字的哈希值，根据汉字在文档中的权重和汉字哈希值，计算文档的混合权重，根据文档的混合权重，计算文档的哈希值。本发明提出的计算汉语文档哈希值的方法，计算简单，并考虑了语义信息，相似汉语文档的哈希值差异较小，不同汉语文档的哈希值差异较大，能够有效地区分不同文档，在文档大数据管理中具有重要的应用价值。

Description

一种计算汉语文档哈希值的方法

技术领域

本发明属于文档处理领域，具体涉及一种计算汉语文档哈希值的方法，确切说，涉及一种利用汉语文档中汉字信息计算汉语文档的特征，以便快速判断文档间相似性的方法。

背景技术

随着信息技术的发展，人们在互联网上累计了大量的网页和文档，形成了大数据。其中，相当大一部分网页和文档是用汉语创作的，而且这些网页和文档中大部分是相同或相似的，不仅浪费了大量文档传输时间和存储空间，也浪费了人们的阅读时间，给人类造成了信息过载。如果能快速判断两份汉语文档的相似性，人们就可以减少阅读时间，不上传或存储相似的汉语文档。

常见的计算文档相似性方法可以分离考虑语义信息和不考虑语义两种。如果不考虑语义信息，如谷歌的simHash，理应文档中的某些字符串作为计算文档哈希值的基础，对不同的文档容易计算出相似的哈希值；如果考虑语义信息，例如采用先对文档分词，再计算分离出的词的词向量表示或分布式表示，这需要大量的深度神经网络计算，此外，由于词向量维度很高，还需要大量的计算来降低维度，不适合在计算能力较弱的普通计算机上进行。

如果能够有一种考虑语义信息、计算简单的文档哈希值计算方法，就可能在普通计算机上进行，提高文档相似性计算的应用范围，降低云计算的处理压力。本发明正是基于这种现实需求而产生的。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种计算汉语文档哈希值的方法，以解决现有的快速判断两份汉语文档的相似性的方法不适合在计算能力较弱的普通计算机上进行的问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种计算汉语文档哈希值的方法，该方法包括如下步骤：

S1、分离文档汉字步骤；从汉语文档或网页中分离出组成文档的主要汉字；

S2、计算汉字权重步骤；计算分离出的不同汉字在汉语文档中的权重；

S3、计算汉字哈希值步骤；计算文档中不同汉字的哈希值；

S4、计算混合权重步骤；根据汉字在文档中的权重和汉字哈希值，计算文档的混合权重；

S5、计算文档哈希值步骤；根据文档的混合权重，计算文档的哈希值。

进一步地，所述步骤S1具体包括：将汉语文档或网页的正文转换为文本文件，利用分词工具，将文本文件切分成汉语词，只保留名词，去掉其它类型的词，将保留的名词转换为等价的名词，最后将保留下来的等价名词切分成单个的汉字；如果从文档中分离出了N个汉字，取出现次数最高的M个汉字作为主要汉字。

进一步地，所述将保留的名词转换为等价的名词具体包括：利用《同义词词林》工具，将保留的名词转换为等价的名词。

进一步地，M＝20。

进一步地，所述步骤S2具体包括：如果M个主要汉字中每个汉字C_i出现的次数为f_i，i＝1,2,…,M,则汉字C_i的权重w_i的计算方法为：

进一步地，所述步骤S3具体包括：对于M个主要汉字C_i，采用其16×16点阵或24×24点阵表示作为其哈希值。

进一步地，对于C_i，采用其16×16点阵时，将16×16点阵各行串接排列成256个点组成的点序列，则C_i的哈希值H_i＝(h_i1,h_i2,…,h_i256)，如果点序列中第j个点是白点，则h_ij＝+1，否则，h_ij＝-1。

进一步地，对于Ci，采用其24×24点阵时，将24×24点阵各行串接排列成576个点组成的点序列，则C_i的哈希值H_i＝(h_i1,h_i2,…,h_i576)，如果点序列中第j个点是白点，则h_ij＝+1，否则，h_ij＝-1。

进一步地，所述步骤S4具体包括：对于M个主要汉字C_i、C_i的哈希值H_i、C_i的权重w_i，文档的混合权重W＝(W₁,W₂,…,W_L)的计算方法如下：

其中，L＝16×16＝256或L＝24×24＝576。

进一步地，所述步骤S5具体包括：将文档的混合权重W＝(W₁,W₂,…,W_L)，作为一幅16×16或24×24大小的图像，进行图像的离散余弦变换，得到W’＝(W’₁,W’₂,…,W’_L)；计算将W’离散化为文档的哈希值H＝(h₁,h₂,…,h_L)：如果/>则h_l＝1，否则h_l＝0。

(三)有益效果

本发明提出一种计算汉语文档哈希值的方法，计算简单，利用了组成文档的汉字，即加入了一些语义信息，使得相似汉语文档的哈希值差异较小，不同汉语文档的哈希值差异较大，能够有效地区分不同文档，在文档大数据管理中具有重要的应用价值。

附图说明

图1为本发明计算汉语文档哈希值的方法的流程图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明公开了一种计算汉语文档哈希值的方法，该方法包括：(1)分离文档汉字步骤。从汉语文档中分离出组成文档的主要汉字。(2)计算汉字权重步骤。计算分离出的不同汉字在汉语文档中的权重。(3)计算汉字哈希值步骤。计算文档中不同汉字的哈希值。(4)计算混合权重步骤。根据汉字在文档中的权重和汉字哈希值，计算文档的混合权重。(5)计算文档哈希值步骤。根据文档的混合权重，计算文档的哈希值。本发明提出的计算汉语文档哈希值的方法，计算简单，并考虑了语义信息，相似汉语文档的哈希值差异较小，不同汉语文档的哈希值差异较大，能够有效地区分不同文档，在文档大数据管理中具有重要的应用价值。

本发明的目的是：提供一种计算汉语文档哈希值的方法，满足文档大数据管理中快速计算汉语文档相似性的需求。

为实现上述目的，本发明提出了一种计算汉语文档哈希值的方法，该方法包括：

S1、分离文档汉字步骤。从汉语文档档或网页中分离出组成文档的主要汉字。

S2、计算汉字权重步骤。计算分离出的不同汉字在汉语文档中的权重。

S3、计算汉字哈希值步骤。计算文档中不同汉字的哈希值。

S4、计算混合权重步骤。根据汉字在文档中的权重和汉字哈希值，计算文档的混合权重。

S5、计算文档哈希值步骤。根据文档的混合权重，计算文档的哈希值。

图1是本发明的一种计算汉语文档哈希值的方法的流程图。如图1所示，该方法包括：

S1、分离文档汉字步骤。从汉语文档档或网页中分离出组成文档主要的汉字。

具体实施时，可以将汉语文档或网页的正文转换为文本文件，利用分词工具，将文本文件切分成汉语词，只保留名词，去掉其它类型的词，然后利用，《同义词词林》等工具，将保留的名词转换为等价的名词，最后将保留下来的等价名词切分成单个的汉字。如果从文档中分离出了N个汉字，取出现次数最高的M个汉字作为主要汉字，M≤N，例如，M＝20。

具体实施时，如果M个主要汉字中每个汉字C_i(i＝1,2,…,M)出现的次数为f_i，则汉字C_i的权重w_i的计算方法为：

S3、计算汉字哈希值步骤。计算文档中不同汉字的哈希值。

11、具体实施时，对于M个主要汉字C_i，采用其16×16点阵或24×24点阵表示作为其哈希值。例如，对于C_i，将16×16点阵各行串接排列成256个点组成的点序列，则C_i的哈希值H_i＝(h_i1,h_i2,…,h_i256)，如果点序列中第j个点是白点，则h_ij＝+1，否则，h_ij＝-1。对于Ci，采用其24×24点阵时，将24×24点阵各行串接排列成576个点组成的点序列，则C_i的哈希值H_i＝(h_i1,h_i2,…,h_i576)，如果点序列中第j个点是白点，则h_ij＝+1，否则，h_ij＝-1。

具体实施时，对于M个主要汉字C_i、C_i的哈希值H_i、C_i的权重w_i，文档的混合权重W＝(W₁,W₂,…,W_L)(L＝16×16＝256或L＝24×24＝576)的计算方法如下：

具体实施时，将文档的混合权重W＝(W₁,W₂,…,W_L)，作为一幅16×16或24×24大小的图像，进行图像的离散余弦变换，得到W’＝(W’₁,W’₂,…,W’_L)。计算将W’离散化为文档的哈希值H＝(h₁,h₂,…,h_L)：如果/>则h_l＝1，否则h_l＝0。

本发明的一种计算汉语文档哈希值的方法，包括：

(1)分离文档汉字步骤。从汉语文档中分离出组成文档主要的汉字。

(2)计算汉字权重步骤。计算分离出的不同汉字在汉语文档中的权重。

(3)计算汉字哈希值步骤。计算文档中不同汉字的哈希值。

(4)计算混合权重步骤。根据汉字在文档中的权重和汉字哈希值，计算文档的混合权重。

(5)计算文档哈希值步骤。根据文档的混合权重，计算文档的哈希值。

进一步地，所述步骤(1)中，将汉语文档或网页正文转换为文本文件，利用分词工具，将文本文件切分成汉语词，只保留名词，去掉其它类型的词，然后利用，《同义词词林》等工具，将保留的名词转换为等价的名词，最后将保留下来的等价名词切分成单个的汉字。如果从文档中分离出了N个汉字，取出现次数最高的M个汉字作为主要汉字，M≤N。

进一步地，所述步骤(2)中，如果M个主要汉字中每个汉字C_i(i＝1,2,…,M)出现的次数为f_i，则汉字C_i的权重w_i的计算方法为：

进一步地，所述步骤(3)中，对于M个主要汉字C_i，采用其16×16点阵或24×24点阵表示作为其哈希值。对于汉字C_i，将16×16点阵各行串接排列成256个点组成的点序列，则C_i的哈希值H_i＝(h_i1,h_i2,…,h_i256)，或将24×24点阵各行串接排列成576个点组成的点序列，则C_i的哈希值H_i＝(h_i1,h_i2,…,h_i576)，如果点序列中第j个点是白点，则h_ij＝+1，否则，h_ij＝-1。

进一步地，所述步骤(4)中，具体实施时，对于M个主要汉字C_i、C_i的哈希值H_i、C_i的权重w_i，文档的混合权重W＝(W₁,W₂,…,W_L)(L＝16×16＝256或L＝24×24＝576)的计算方法如下：

进一步地，所述步骤(5)中，将文档的混合权重W＝(W₁,W₂,…,W_L)，作为一幅16×16或24×24大小的图像，进行图像的离散余弦变换，得到W’＝(W’₁,W’₂,…,W’_L)。计算将W’离散化为文档的哈希值H＝(h₁,h₂,…,h_L)：如果/>则h_l＝1，否则h_l＝0。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种计算汉语文档哈希值的方法，其特征在于，该方法包括如下步骤：

S3、计算汉字哈希值步骤；计算文档中不同汉字的哈希值；

S5、计算文档哈希值步骤；根据文档的混合权重，计算文档的哈希值；

其中，

所述步骤S3具体包括：对于M个主要汉字C_i，采用其16×16点阵或24×24点阵表示作为其哈希值；

对于C_i，采用其16×16点阵时，将16×16点阵各行串接排列成256个点组成的点序列，则C_i的哈希值H_i＝(h_i1,h_i2,…,h_i256)，如果点序列中第j个点是白点，则h_ij＝+1，否则，h_ij＝-1；

对于Ci，采用其24×24点阵时，将24×24点阵各行串接排列成576个点组成的点序列，则C_i的哈希值H_i＝(h_i1,h_i2,…,h_i576)，如果点序列中第j个点是白点，则h_ij＝+1，否则，h_ij＝-1；

所述步骤S5具体包括：将文档的混合权重W＝(W₁,W₂,…,W_L)，作为一幅16×16或24×24大小的图像，进行图像的离散余弦变换，得到W’＝(W’₁,W’₂,…,W’_L)；计算将W’离散化为文档的哈希值H＝(h₁,h₂,…,h_L)：如果/> 则h_l＝1，否则h_l＝0。

2.如权利要求1所述的计算汉语文档哈希值的方法，其特征在于，所述步骤S1具体包括：将汉语文档或网页的正文转换为文本文件，利用分词工具，将文本文件切分成汉语词，只保留名词，去掉其它类型的词，将保留的名词转换为等价的名词，最后将保留下来的等价名词切分成单个的汉字；如果从文档中分离出了N个汉字，取出现次数最高的M个汉字作为主要汉字。

3.如权利要求2所述的计算汉语文档哈希值的方法，其特征在于，所述将保留的名词转换为等价的名词具体包括：利用《同义词词林》工具，将保留的名词转换为等价的名词。

4.如权利要求2所述的计算汉语文档哈希值的方法，其特征在于，M＝20。

5.如权利要求2-4任一项所述的计算汉语文档哈希值的方法，其特征在于，所述步骤S2具体包括：如果M个主要汉字中每个汉字C_i出现的次数为f_i，i＝1,2,…,M,则汉字C_i的权重w_i的计算方法为：

6.如权利要求5所述的计算汉语文档哈希值的方法，其特征在于，所述步骤S4具体包括：对于M个主要汉字C_i、C_i的哈希值H_i、C_i的权重w_i，文档的混合权重W＝(W₁,W₂,…,W_L)的计算方法如下：

其中，L＝16×16＝256或L＝24×24＝576。