CN113626554B - 一种计算汉语文档哈希值的方法 - Google Patents
一种计算汉语文档哈希值的方法 Download PDFInfo
- Publication number
- CN113626554B CN113626554B CN202110941713.8A CN202110941713A CN113626554B CN 113626554 B CN113626554 B CN 113626554B CN 202110941713 A CN202110941713 A CN 202110941713A CN 113626554 B CN113626554 B CN 113626554B
- Authority
- CN
- China
- Prior art keywords
- document
- chinese
- hash value
- calculating
- chinese characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000013523 data management Methods 0.000 abstract description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种计算汉语文档哈希值的方法,属于文档处理领域。本发明从汉语文档中分离出组成文档的主要汉字,计算分离出的不同汉字在汉语文档中的权重,计算文档中不同汉字的哈希值,根据汉字在文档中的权重和汉字哈希值,计算文档的混合权重,根据文档的混合权重,计算文档的哈希值。本发明提出的计算汉语文档哈希值的方法,计算简单,并考虑了语义信息,相似汉语文档的哈希值差异较小,不同汉语文档的哈希值差异较大,能够有效地区分不同文档,在文档大数据管理中具有重要的应用价值。
Description
技术领域
本发明属于文档处理领域,具体涉及一种计算汉语文档哈希值的方法,确切说,涉及一种利用汉语文档中汉字信息计算汉语文档的特征,以便快速判断文档间相似性的方法。
背景技术
随着信息技术的发展,人们在互联网上累计了大量的网页和文档,形成了大数据。其中,相当大一部分网页和文档是用汉语创作的,而且这些网页和文档中大部分是相同或相似的,不仅浪费了大量文档传输时间和存储空间,也浪费了人们的阅读时间,给人类造成了信息过载。如果能快速判断两份汉语文档的相似性,人们就可以减少阅读时间,不上传或存储相似的汉语文档。
常见的计算文档相似性方法可以分离考虑语义信息和不考虑语义两种。如果不考虑语义信息,如谷歌的simHash,理应文档中的某些字符串作为计算文档哈希值的基础,对不同的文档容易计算出相似的哈希值;如果考虑语义信息,例如采用先对文档分词,再计算分离出的词的词向量表示或分布式表示,这需要大量的深度神经网络计算,此外,由于词向量维度很高,还需要大量的计算来降低维度,不适合在计算能力较弱的普通计算机上进行。
如果能够有一种考虑语义信息、计算简单的文档哈希值计算方法,就可能在普通计算机上进行,提高文档相似性计算的应用范围,降低云计算的处理压力。本发明正是基于这种现实需求而产生的。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种计算汉语文档哈希值的方法,以解决现有的快速判断两份汉语文档的相似性的方法不适合在计算能力较弱的普通计算机上进行的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种计算汉语文档哈希值的方法,该方法包括如下步骤:
S1、分离文档汉字步骤;从汉语文档或网页中分离出组成文档的主要汉字;
S2、计算汉字权重步骤;计算分离出的不同汉字在汉语文档中的权重;
S3、计算汉字哈希值步骤;计算文档中不同汉字的哈希值;
S4、计算混合权重步骤;根据汉字在文档中的权重和汉字哈希值,计算文档的混合权重;
S5、计算文档哈希值步骤;根据文档的混合权重,计算文档的哈希值。
进一步地,所述步骤S1具体包括:将汉语文档或网页的正文转换为文本文件,利用分词工具,将文本文件切分成汉语词,只保留名词,去掉其它类型的词,将保留的名词转换为等价的名词,最后将保留下来的等价名词切分成单个的汉字;如果从文档中分离出了N个汉字,取出现次数最高的M个汉字作为主要汉字。
进一步地,所述将保留的名词转换为等价的名词具体包括:利用《同义词词林》工具,将保留的名词转换为等价的名词。
进一步地,M=20。
进一步地,所述步骤S2具体包括:如果M个主要汉字中每个汉字Ci出现的次数为fi,i=1,2,…,M,则汉字Ci的权重wi的计算方法为:
进一步地,所述步骤S3具体包括:对于M个主要汉字Ci,采用其16×16点阵或24×24点阵表示作为其哈希值。
进一步地,对于Ci,采用其16×16点阵时,将16×16点阵各行串接排列成256个点组成的点序列,则Ci的哈希值Hi=(hi1,hi2,…,hi256),如果点序列中第j个点是白点,则hij=+1,否则,hij=-1。
进一步地,对于Ci,采用其24×24点阵时,将24×24点阵各行串接排列成576个点组成的点序列,则Ci的哈希值Hi=(hi1,hi2,…,hi576),如果点序列中第j个点是白点,则hij=+1,否则,hij=-1。
进一步地,所述步骤S4具体包括:对于M个主要汉字Ci、Ci的哈希值Hi、Ci的权重wi,文档的混合权重W=(W1,W2,…,WL)的计算方法如下:
其中,L=16×16=256或L=24×24=576。
进一步地,所述步骤S5具体包括:将文档的混合权重W=(W1,W2,…,WL),作为一幅16×16或24×24大小的图像,进行图像的离散余弦变换,得到W’=(W’1,W’2,…,W’L);计算将W’离散化为文档的哈希值H=(h1,h2,…,hL):如果/>则hl=1,否则hl=0。
(三)有益效果
本发明提出一种计算汉语文档哈希值的方法,计算简单,利用了组成文档的汉字,即加入了一些语义信息,使得相似汉语文档的哈希值差异较小,不同汉语文档的哈希值差异较大,能够有效地区分不同文档,在文档大数据管理中具有重要的应用价值。
附图说明
图1为本发明计算汉语文档哈希值的方法的流程图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明公开了一种计算汉语文档哈希值的方法,该方法包括:(1)分离文档汉字步骤。从汉语文档中分离出组成文档的主要汉字。(2)计算汉字权重步骤。计算分离出的不同汉字在汉语文档中的权重。(3)计算汉字哈希值步骤。计算文档中不同汉字的哈希值。(4)计算混合权重步骤。根据汉字在文档中的权重和汉字哈希值,计算文档的混合权重。(5)计算文档哈希值步骤。根据文档的混合权重,计算文档的哈希值。本发明提出的计算汉语文档哈希值的方法,计算简单,并考虑了语义信息,相似汉语文档的哈希值差异较小,不同汉语文档的哈希值差异较大,能够有效地区分不同文档,在文档大数据管理中具有重要的应用价值。
本发明的目的是:提供一种计算汉语文档哈希值的方法,满足文档大数据管理中快速计算汉语文档相似性的需求。
为实现上述目的,本发明提出了一种计算汉语文档哈希值的方法,该方法包括:
S1、分离文档汉字步骤。从汉语文档档或网页中分离出组成文档的主要汉字。
S2、计算汉字权重步骤。计算分离出的不同汉字在汉语文档中的权重。
S3、计算汉字哈希值步骤。计算文档中不同汉字的哈希值。
S4、计算混合权重步骤。根据汉字在文档中的权重和汉字哈希值,计算文档的混合权重。
S5、计算文档哈希值步骤。根据文档的混合权重,计算文档的哈希值。
图1是本发明的一种计算汉语文档哈希值的方法的流程图。如图1所示,该方法包括:
S1、分离文档汉字步骤。从汉语文档档或网页中分离出组成文档主要的汉字。
具体实施时,可以将汉语文档或网页的正文转换为文本文件,利用分词工具,将文本文件切分成汉语词,只保留名词,去掉其它类型的词,然后利用,《同义词词林》等工具,将保留的名词转换为等价的名词,最后将保留下来的等价名词切分成单个的汉字。如果从文档中分离出了N个汉字,取出现次数最高的M个汉字作为主要汉字,M≤N,例如,M=20。
S2、计算汉字权重步骤。计算分离出的不同汉字在汉语文档中的权重。
具体实施时,如果M个主要汉字中每个汉字Ci(i=1,2,…,M)出现的次数为fi,则汉字Ci的权重wi的计算方法为:
S3、计算汉字哈希值步骤。计算文档中不同汉字的哈希值。
11、具体实施时,对于M个主要汉字Ci,采用其16×16点阵或24×24点阵表示作为其哈希值。例如,对于Ci,将16×16点阵各行串接排列成256个点组成的点序列,则Ci的哈希值Hi=(hi1,hi2,…,hi256),如果点序列中第j个点是白点,则hij=+1,否则,hij=-1。对于Ci,采用其24×24点阵时,将24×24点阵各行串接排列成576个点组成的点序列,则Ci的哈希值Hi=(hi1,hi2,…,hi576),如果点序列中第j个点是白点,则hij=+1,否则,hij=-1。
S4、计算混合权重步骤。根据汉字在文档中的权重和汉字哈希值,计算文档的混合权重。
具体实施时,对于M个主要汉字Ci、Ci的哈希值Hi、Ci的权重wi,文档的混合权重W=(W1,W2,…,WL)(L=16×16=256或L=24×24=576)的计算方法如下:
S5、计算文档哈希值步骤。根据文档的混合权重,计算文档的哈希值。
具体实施时,将文档的混合权重W=(W1,W2,…,WL),作为一幅16×16或24×24大小的图像,进行图像的离散余弦变换,得到W’=(W’1,W’2,…,W’L)。计算将W’离散化为文档的哈希值H=(h1,h2,…,hL):如果/>则hl=1,否则hl=0。
本发明的一种计算汉语文档哈希值的方法,包括:
(1)分离文档汉字步骤。从汉语文档中分离出组成文档主要的汉字。
(2)计算汉字权重步骤。计算分离出的不同汉字在汉语文档中的权重。
(3)计算汉字哈希值步骤。计算文档中不同汉字的哈希值。
(4)计算混合权重步骤。根据汉字在文档中的权重和汉字哈希值,计算文档的混合权重。
(5)计算文档哈希值步骤。根据文档的混合权重,计算文档的哈希值。
进一步地,所述步骤(1)中,将汉语文档或网页正文转换为文本文件,利用分词工具,将文本文件切分成汉语词,只保留名词,去掉其它类型的词,然后利用,《同义词词林》等工具,将保留的名词转换为等价的名词,最后将保留下来的等价名词切分成单个的汉字。如果从文档中分离出了N个汉字,取出现次数最高的M个汉字作为主要汉字,M≤N。
进一步地,所述步骤(2)中,如果M个主要汉字中每个汉字Ci(i=1,2,…,M)出现的次数为fi,则汉字Ci的权重wi的计算方法为:
进一步地,所述步骤(3)中,对于M个主要汉字Ci,采用其16×16点阵或24×24点阵表示作为其哈希值。对于汉字Ci,将16×16点阵各行串接排列成256个点组成的点序列,则Ci的哈希值Hi=(hi1,hi2,…,hi256),或将24×24点阵各行串接排列成576个点组成的点序列,则Ci的哈希值Hi=(hi1,hi2,…,hi576),如果点序列中第j个点是白点,则hij=+1,否则,hij=-1。
进一步地,所述步骤(4)中,具体实施时,对于M个主要汉字Ci、Ci的哈希值Hi、Ci的权重wi,文档的混合权重W=(W1,W2,…,WL)(L=16×16=256或L=24×24=576)的计算方法如下:
进一步地,所述步骤(5)中,将文档的混合权重W=(W1,W2,…,WL),作为一幅16×16或24×24大小的图像,进行图像的离散余弦变换,得到W’=(W’1,W’2,…,W’L)。计算将W’离散化为文档的哈希值H=(h1,h2,…,hL):如果/>则hl=1,否则hl=0。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种计算汉语文档哈希值的方法,其特征在于,该方法包括如下步骤:
S1、分离文档汉字步骤;从汉语文档或网页中分离出组成文档的主要汉字;
S2、计算汉字权重步骤;计算分离出的不同汉字在汉语文档中的权重;
S3、计算汉字哈希值步骤;计算文档中不同汉字的哈希值;
S4、计算混合权重步骤;根据汉字在文档中的权重和汉字哈希值,计算文档的混合权重;
S5、计算文档哈希值步骤;根据文档的混合权重,计算文档的哈希值;
其中,
所述步骤S3具体包括:对于M个主要汉字Ci,采用其16×16点阵或24×24点阵表示作为其哈希值;
对于Ci,采用其16×16点阵时,将16×16点阵各行串接排列成256个点组成的点序列,则Ci的哈希值Hi=(hi1,hi2,…,hi256),如果点序列中第j个点是白点,则hij=+1,否则,hij=-1;
对于Ci,采用其24×24点阵时,将24×24点阵各行串接排列成576个点组成的点序列,则Ci的哈希值Hi=(hi1,hi2,…,hi576),如果点序列中第j个点是白点,则hij=+1,否则,hij=-1;
所述步骤S5具体包括:将文档的混合权重W=(W1,W2,…,WL),作为一幅16×16或24×24大小的图像,进行图像的离散余弦变换,得到W’=(W’1,W’2,…,W’L);计算将W’离散化为文档的哈希值H=(h1,h2,…,hL):如果/> 则hl=1,否则hl=0。
2.如权利要求1所述的计算汉语文档哈希值的方法,其特征在于,所述步骤S1具体包括:将汉语文档或网页的正文转换为文本文件,利用分词工具,将文本文件切分成汉语词,只保留名词,去掉其它类型的词,将保留的名词转换为等价的名词,最后将保留下来的等价名词切分成单个的汉字;如果从文档中分离出了N个汉字,取出现次数最高的M个汉字作为主要汉字。
3.如权利要求2所述的计算汉语文档哈希值的方法,其特征在于,所述将保留的名词转换为等价的名词具体包括:利用《同义词词林》工具,将保留的名词转换为等价的名词。
4.如权利要求2所述的计算汉语文档哈希值的方法,其特征在于,M=20。
5.如权利要求2-4任一项所述的计算汉语文档哈希值的方法,其特征在于,所述步骤S2具体包括:如果M个主要汉字中每个汉字Ci出现的次数为fi,i=1,2,…,M,则汉字Ci的权重wi的计算方法为:
6.如权利要求5所述的计算汉语文档哈希值的方法,其特征在于,所述步骤S4具体包括:对于M个主要汉字Ci、Ci的哈希值Hi、Ci的权重wi,文档的混合权重W=(W1,W2,…,WL)的计算方法如下:
其中,L=16×16=256或L=24×24=576。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110941713.8A CN113626554B (zh) | 2021-08-17 | 2021-08-17 | 一种计算汉语文档哈希值的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110941713.8A CN113626554B (zh) | 2021-08-17 | 2021-08-17 | 一种计算汉语文档哈希值的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626554A CN113626554A (zh) | 2021-11-09 |
CN113626554B true CN113626554B (zh) | 2023-08-25 |
Family
ID=78385950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110941713.8A Active CN113626554B (zh) | 2021-08-17 | 2021-08-17 | 一种计算汉语文档哈希值的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626554B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915295A (zh) * | 2011-03-31 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 文档检测方法及装置 |
CN105847849A (zh) * | 2016-03-31 | 2016-08-10 | 乐视控股(北京)有限公司 | 视频帧检测方法、装置、视频帧处理系统及计算机设备 |
CN106598920A (zh) * | 2016-11-28 | 2017-04-26 | 昆明理工大学 | 一种笔画编码结合汉字点阵的形近字分类方法 |
CN107273467A (zh) * | 2017-06-06 | 2017-10-20 | 南京搜文信息技术有限公司 | 一种支持可搜索加密的安全索引结构及其构造方法 |
CN108009253A (zh) * | 2017-12-05 | 2018-05-08 | 昆明理工大学 | 一种改进的字符串相似对比方法 |
CN108154167A (zh) * | 2017-12-04 | 2018-06-12 | 昆明理工大学 | 一种汉字字形相似度计算方法 |
CN110781185A (zh) * | 2019-10-14 | 2020-02-11 | 上海辰锐信息科技公司 | 一种文本文件内容像素化转换及还原方法 |
CN111523622A (zh) * | 2020-04-26 | 2020-08-11 | 重庆邮电大学 | 基于特征图像自学习的机械臂模拟手写笔迹方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8509537B2 (en) * | 2010-08-05 | 2013-08-13 | Xerox Corporation | Learning weights of fonts for typed samples in handwritten keyword spotting |
US8488894B2 (en) * | 2010-11-12 | 2013-07-16 | Dynacomware Taiwan Inc. | Method and system for dot-matrix font data compression and decompression |
-
2021
- 2021-08-17 CN CN202110941713.8A patent/CN113626554B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915295A (zh) * | 2011-03-31 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 文档检测方法及装置 |
CN105847849A (zh) * | 2016-03-31 | 2016-08-10 | 乐视控股(北京)有限公司 | 视频帧检测方法、装置、视频帧处理系统及计算机设备 |
CN106598920A (zh) * | 2016-11-28 | 2017-04-26 | 昆明理工大学 | 一种笔画编码结合汉字点阵的形近字分类方法 |
CN107273467A (zh) * | 2017-06-06 | 2017-10-20 | 南京搜文信息技术有限公司 | 一种支持可搜索加密的安全索引结构及其构造方法 |
CN108154167A (zh) * | 2017-12-04 | 2018-06-12 | 昆明理工大学 | 一种汉字字形相似度计算方法 |
CN108009253A (zh) * | 2017-12-05 | 2018-05-08 | 昆明理工大学 | 一种改进的字符串相似对比方法 |
CN110781185A (zh) * | 2019-10-14 | 2020-02-11 | 上海辰锐信息科技公司 | 一种文本文件内容像素化转换及还原方法 |
CN111523622A (zh) * | 2020-04-26 | 2020-08-11 | 重庆邮电大学 | 基于特征图像自学习的机械臂模拟手写笔迹方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113626554A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200250538A1 (en) | Training image and text embedding models | |
US11586927B2 (en) | Training image and text embedding models | |
US9916309B2 (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN103699525A (zh) | 一种基于文本多维度特征自动生成摘要的方法和装置 | |
CN110889282B (zh) | 一种基于深度学习的文本情感分析方法 | |
WO2021051934A1 (zh) | 基于人工智能的合同关键条款提取方法、装置及存储介质 | |
US20170228654A1 (en) | Methods and systems for base map and inference mapping | |
CN107908698A (zh) | 一种主题网络爬虫方法、电子设备、存储介质、系统 | |
CN107329954B (zh) | 一种基于文档内容和相互关系的主题检测方法 | |
WO2019106965A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN109918507B (zh) | 一种基于TextCNN改进的文本分类方法 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN114064948A (zh) | 基于广义平均池化策略的哈希图像检索方法及装置 | |
US10095677B1 (en) | Detection of layouts in electronic documents | |
CN113626554B (zh) | 一种计算汉语文档哈希值的方法 | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
Xiao et al. | Complementary relevance feedback-based content-based image retrieval | |
CN114399782B (zh) | 文本图像处理方法、装置、设备、存储介质及程序产品 | |
CN112650870B (zh) | 一种训练图片排序模型的方法、图片排序的方法以及装置 | |
CN114168770A (zh) | 一种基于深度学习的以图搜图方法及装置 | |
Camastra et al. | Machine learning-based web documents categorization by semantic graphs | |
CN114328885A (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
Smith et al. | Classification of text to subject using LDA | |
CN115017254A (zh) | 一种利用本征值和正交变换计算文档哈希值的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |