CN112836008A - 基于去中心化存储数据的索引建立方法 - Google Patents

基于去中心化存储数据的索引建立方法 Download PDF

Info

Publication number
CN112836008A
CN112836008A CN202110167802.1A CN202110167802A CN112836008A CN 112836008 A CN112836008 A CN 112836008A CN 202110167802 A CN202110167802 A CN 202110167802A CN 112836008 A CN112836008 A CN 112836008A
Authority
CN
China
Prior art keywords
index
data
word
hash
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110167802.1A
Other languages
English (en)
Other versions
CN112836008B (zh
Inventor
周喜
石秋娥
王轶
马博
王磊
马玉鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN202110167802.1A priority Critical patent/CN112836008B/zh
Publication of CN112836008A publication Critical patent/CN112836008A/zh
Application granted granted Critical
Publication of CN112836008B publication Critical patent/CN112836008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于去中心化存储数据的索引建立方法,该去中心化存储数据的索引建立方法包括:选取对数据区分度高的词作为关键词;使用训练好的词向量模型将选取的关键词转为词向量表示;将词向量降维,得到关键词的哈希表示;将词哈希与数据标识组合,得到索引项,索引文件中包含词哈希与对应的数据的映射关系;使用分布式哈希表存储索引文件。数据请求者发起以关键词作为查询条件的查询请求时,通过匹配相应的索引文件,得到数据相关信息,若无法精确匹配,因为语义相似的关键词索引相邻存储,则在索引存储节点附近查询,从而实现索引查询。本发明能够实现去中心化存储数据的索引构造,通过关键词语义查询相关数据,满足去中心化数据获取的需求。

Description

基于去中心化存储数据的索引建立方法
技术领域
本发明涉及信息技术领域中的信息处理技术、信息检索领域,尤其一种去中心化存储数据的索引建立方法。
背景技术
数据的去中心化存储是一种适合数据的规模量级不断提高、去中心化的优良解决方案,它在满足海量数据存储需求的同时,还可以有效的进行数据的共享。
非结构化的文本数据检索,其核心思想是建立全文检索的倒排索引。目前多数搜索引擎主要使用的就是倒排索引技术,需要精确匹配关键词。然而,不同用户对同一对象的描述往往都不完全一致。因此,词项含义相同或相近,而词项本身不同,检索结果差强人意,即在词级别语义概念上的检索并不理想。
目前还有一些做法是将文本映射到向量空间后,在向量空间执行搜索,但这一类技术只适合做文本的相似性匹配,在长文本和短查询之间存在较差的相识性,不适合用来做查询。
在现有的技术中存在以下问题:
1)索引建立未考虑词项之间的语义相似性;
2)索引使用的是中心化的存储方式;
为解决上述索引建立方法中存在的问题,本发明提供了一种去中心化存储数据的索引建立方法。该方法可以通过将关键词的语义相似性转为哈希相似性,建立索引项,将索引去中心化存储,使得语义相似的词的索引存储节点也相邻,实现去中心化数据的有效查询。
发明内容
本发明目的在于,提供一种基于去中心化存储数据的索引建立方法,用以解决现有去中心化存储数据中无法根据关键词语义有效查询相关数据的问题。该方法包括:选取对数据区分度高的词作为关键词;使用训练好的词向量模型将选取的关键词转为词向量表示;将词向量进行降维,得到关键词的词哈希;将词哈希与数据标识组合,得到索引项,索引文件中包含词哈希与对应的数据的映射关系;使用分布式哈希表存储索引文件。数据请求者发起以关键词作为查询条件的查询请求时,通过匹配相应的索引文件,得到数据相关信息,若无法精确匹配,因为语义相似的关键词索引相邻存储,则在索引存储节点附近查询,实现索引查询。本发明能够实现去中心化存储数据的索引构造,通过关键词语义查询相关数据,满足去中心化数据获取的需求。
本发明所述的一种基于去中心化存储数据的索引建立方法,该方法对去中心化存储的数据生成关键词语义相似性转为哈希相似性的关键词索引文件,具体操作按下列步骤进行:
a、将需要存储的文本存入数据存储节点后,得到一个唯一标识文本的数据标识;
b、对待建立索引文本进行预处理,包括分词,去停用词,去标点符号;
c、使用词频-逆文件频率的方法,获取文本的关键词,首先计算词在该文件中出现次数,记为词频,然后计算词在所有文本中出现的频率,记为逆文件频率,最后计算两者的乘积,乘积越大表示该词对这个文本的重要性越大,选取对文本区分度高的词作为关键词;
d、训练词向量模型,使用深度学习方法进行多次迭代训练,将训练数据集合内的每个词汇表示成为128维的特征向量;
e、获取关键词的语义特征,使用步骤d训练好的词向量模型将步骤c中所述关键词表示为128维的特征向量,得到关键词的词向量表示,语义相似的词在词向量空间位置相近,具有词向量相似性;
f、获取关键词的哈希表示,使用局部敏感哈希算法对步骤e所述词向量进行降维,得到关键词160bit的词哈希;
g、将步骤f所述词哈希与步骤a所述数据标识组合,得到索引项,通过将索引项存储在分布式哈希表中实现索引文件的存储。
步骤d中所述词向量是使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,将训练数据集合内的每个词汇表示成为128维的特征向量,使得词汇间的语义相似性转为空间相似性。
步骤f中所述的通过使用局部敏感哈希算法,将数据从原高维空间经过哈希映射到一个新的低维空间,使得在原空间相似的数据,在新空间中也相似的概率很大,而在原空间不相似的数据,在新空间中相似的概率很小,因此空间位置相邻的词向量,在哈希以后也保持一定的相似性,实现词汇间的空间相似性转为哈希相似性。
步骤g中所述的索引存储方法:分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址,因此节点地址与索引项的键值具有相同值域,索引项采用去中心化的存储方式,使用分布哈希表存储,将索引项存储在索引存储节点的节点地址与其相同或相近的节点,同时,相似的词哈希在分布式哈希表上相邻,索引存储节点使用倒排表结构对索引项进行整合。
本发明所述的一种基于去中心化存储数据的索引建立方法,该方法对去中心化存储的数据生成关键词语义相似性转哈希相似性的关键词索引文件,具体操作按下列步骤进行:
a、将需要存储的文本存入数据存储节点后,得到一个唯一标识所述文本的数据标识;
b、对待建立索引文本进行预处理,包括分词,去停用词,去标点符号操作;
c、使用词频-逆文件频率的方法,获取文本的关键词:首先计算词在该文件中出现次数,记为词频:
Figure BDA0002938057750000021
其中,ni,j表示词ti在文本dj中出现的次数,然后计算词在所有文本中出现的频率,记为逆文件频率:
Figure BDA0002938057750000031
其中,分子|D|是文本总数,分母是包含该关键字的文本数目,如果包含该关键字的文本数为0,则分母为0,为解决此问题,分母计算时常常加1进行平滑操作;
最后计算两者的乘积,乘积越大表示该词对这个文本的重要性越大,选取对文本区分度高的词作为关键词;
TF-IDFi,j=TFi,j×IDFi (3)
计算词频-逆文件频率的目的是发现对文本很重要、区分度高的词。
d、训练词向量模型,使用深度学习方法进行多次迭代训练,通过逻辑回归的方法对文本进行训练,将训练数据集合内的每个词汇表示成为128维的特征向量,使得词汇间的语义相似性转为空间相似性;
e、获取关键词的语义特征,使用步骤4训练好的词向量模型将步骤3中所述关键词表示为128维的特征向量,得到关键词的词向量表示,语义相似的词在词向量空间位置相近,具有词向量相似性;
f、获取关键词的哈希表示,使用局部敏感哈希算法对步骤5所述词向量进行降维,得到关键词160bit的词哈希,使用minhash进行降维的合理性,是基于对两个集合随机求最小哈希值相等的概率等于两个集合的Jaccard系数,公式表示如下;
P(minhash(A)=minhash(B))=Jac(A,B) (4)
其中,Jac(A,B)是集合A与B的Jaccard相似度,minhash在压缩原始向量的情况下,保证了向量的相似度尽可能少被破坏,不失去相似性。Jaccard相似度计算用如下公式表示:
Figure BDA0002938057750000032
局部敏感哈希算法将数据从原高维空间经过哈希映射到一个新的低维空间,使得在原空间相似的数据,在新空间中也相似的概率很大,而在原空间不相似的数据,在新空间中相似的概率很小,因此空间位置相邻的词向量,在哈希以后也保持一定的相似性,实现词汇间的空间相似性转为哈希相似性;
g、分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址,因此节点地址与索引项的键值具有相同值域,索引项采用去中心化的存储方式,使用分布哈希表存储,将索引项存储在索引存储节点的节点地址与其相同或相近的节点,同时相似的词哈希在分布哈希表上相邻,索引存储节点使用倒排表结构对索引项进行整合。
本发明所述的一种基于去中心化存储数据的索引建立方法,该方法所提供的技术方案的积极效果是:通过对文本进行关键词的提取,将所述关键词转为词向量表示,并进一步将词向量转为哈希表示,实现将文本表示成若干基于词汇间语义关系的哈希形式,以建立包含词哈希及其所属文本的索引项,将各索引项存储到分布式哈希表,实现了相似的词哈希在分布哈希表上逻辑相邻,索引存储节点使用倒排表结构对索引项进行整合。解决了在数据去中心化存储情况下,通过关键词语义获取数据的问题。
附图说明
图1为本发明基于去中心化存储数据的索引建立方法流程图;
图2为本发明索引项存储示意图;
图3为本发明文本建立索引项的过程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图对本发明做进一步的详细说明。
实施例
本发明所述的一种基于去中心化存储数据的索引建立方法,该方法对去中心化存储的数据生成关键词语义相似性转为哈希相似性的关键词索引文件,具体操作按下列步骤进行:
a、将需要存储的文本存入数据存储节点后,得到一个唯一标识文本的数据标识;
b、对待建立索引文本进行预处理,包括分词,去停用词,去标点符号;
c、使用词频-逆文件频率的方法,获取文本的关键词,首先计算词在该文件中出现次数,记为词频,然后计算词在所有文本中出现的频率,记为逆文件频率,最后计算两者的乘积,乘积越大表示该词对这个文本的重要性越大,选取对文本区分度高的词作为关键词;
d、训练词向量模型,使用深度学习方法进行多次迭代训练,将训练数据集合内的每个词汇表示成为128维的特征向量;其中所述词向量是使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,将训练数据集合内的每个词汇表示成为128维的特征向量,使得词汇间的语义相似性转为空间相似性;
e、获取关键词的语义特征,使用步骤d训练好的词向量模型将步骤c中所述关键词表示为128维的特征向量,得到关键词的词向量表示,语义相似的词在词向量空间位置相近,具有词向量相似性;
f、获取关键词的哈希表示,使用局部敏感哈希算法对步骤e所述词向量进行降维,得到关键词160bit的词哈希;其中所述的通过使用局部敏感哈希算法,将数据从原高维空间经过哈希映射到一个新的低维空间,使得在原空间相似的数据,在新空间中也相似的概率很大,而在原空间不相似的数据,在新空间中相似的概率很小,因此空间位置相邻的词向量,在哈希以后也保持一定的相似性,实现词汇间的空间相似性转为哈希相似性;
g、将步骤f所述词哈希与步骤a所述数据标识组合,得到索引项,通过将索引项存储在分布式哈希表中实现索引文件的存储;其中所述的索引存储方法:分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址,因此节点地址与索引项的键值具有相同值域,索引项采用去中心化的存储方式,使用分布哈希表存储,将索引项存储在索引存储节点的节点地址与其相同或相近的节点,同时,相似的词哈希在分布式哈希表上相邻,索引存储节点使用倒排表结构对索引项进行整合;
如附图1所示:
步骤1、获取数据标识,将需要存储的文本存入去中心化数据存储系统的数据存储节点后,得到一个唯一标识所述文本的数据标识;
步骤2、将待建立索引数据进行预处理,分词,去停用词,去标点符号;例如,对于句子A:老板今天批评了职员。经过分词,去停用词,去标点符号的处理后,表示为A:[老板,今天,批评,职员];
步骤3、使用词频-逆文件频率的方法,获取数据的关键词:首先计算词在该文件中出现次数,记为词频,然后计算词在所有文本中出现的频率,记为逆文件频率,最后计算两者的乘积,乘积越大表示该词对这个文本的重要性越大,选取对数据区分度高的词作为关键词;例如,对于句子A:[老板,今天,批评,职员],计算词频-逆文件频率值较低的词,不选为关键词,处理后得到句子A:[老板,批评,职员];
步骤4、词向量模型训练,使用深度学习方法进行多次迭代,将训练数据集合内的每个词汇表示成为128维的特征向量;
词向量模型训练的目的是为了得到一个词的向量表达;
步骤5、关键词转词向量,获取关键词的语义特征,使用训练好的词向量模型将步骤3中所述关键词表示为128维的特征向量,得到关键词的词向量表示
步骤6、获取关键词的哈希表示,使用局部敏感哈希算法得到词向量降维后的哈希表示;
步骤7、分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址,因此节点地址与索引项的键值具有相同值域,索引项采用去中心化的存储方式,使用分布哈希表存储,将索引项存储在索引存储节点的节点地址与其相同或相近的节点,同时相似的词哈希在分布哈希表上相邻,索引存储节点使用倒排表结构对索引项进行整合,如附图2所示;
附图3展示了由文本建立索引项的过程,从附图可以看出文件先转为了词向量,然后转为词哈希,最后与数据标识组合,得到索引项。
本发明未详细阐述的部分属于本领域公知技术。显然,本领域的技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,如改变数据格式和内容、调整接口调用次序、使用不同编程语言(如Python、C、C++、Java等)实现等。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种基于去中心化存储数据的索引建立方法,其特征在于该方法对去中心化存储的数据生成关键词语义相似性转为哈希相似性的关键词索引文件,具体操作按下列步骤进行:
a、将需要存储的文本存入数据存储节点后,得到一个唯一标识文本的数据标识;
b、对待建立索引文本进行预处理,包括分词,去停用词,去标点符号;
c、使用词频-逆文件频率的方法,获取文本的关键词,首先计算词在该文件中出现次数,记为词频,然后计算词在所有文本中出现的频率,记为逆文件频率,最后计算两者的乘积,乘积越大表示该词对这个文本的重要性越大,选取对文本区分度高的词作为关键词;
d、训练词向量模型,使用深度学习方法进行多次迭代训练,将训练数据集合内的每个词汇表示成为 128 维的特征向量;
e、获取关键词的语义特征,使用步骤d训练好的词向量模型将步骤c中所述关键词表示为 128 维的特征向量,得到关键词的词向量表示,语义相似的词在词向量空间位置相近,具有词向量相似性;
f、获取关键词的哈希表示,使用局部敏感哈希算法对步骤e所述词向量进行降维,得到关键词160bit的词哈希;
g、将步骤f所述词哈希与步骤a所述数据标识组合,得到索引项,通过将索引项存储在分布式哈希表中实现索引文件的存储。
2.根据权利要求1所述的基于去中心化存储数据的索引建立方法,其特征在于,步骤d中所述词向量是使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,将训练数据集合内的每个词汇表示成为128维的特征向量,使得词汇间的语义相似性转为空间相似性。
3.根据权利要求1所述的基于去中心化存储数据的索引建立方法,其特征在于,步骤f中所述的通过使用局部敏感哈希算法,将数据从原高维空间经过哈希映射到一个新的低维空间,使得在原空间相似的数据,在新空间中也相似的概率很大,而在原空间不相似的数据,在新空间中相似的概率很小,因此空间位置相邻的词向量,在哈希以后也保持一定的相似性,实现词汇间的空间相似性转为哈希相似性。
4.根据权利要求1所述的基于去中心化存储数据的索引建立方法,其特征在于,步骤g中所述的索引存储方法:分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址,因此节点地址与索引项的键值具有相同值域,索引项采用去中心化的存储方式,使用分布哈希表存储,将索引项存储在索引存储节点的节点地址与其相同或相近的节点,同时,相似的词哈希在分布式哈希表上相邻,索引存储节点使用倒排表结构对索引项进行整合。
CN202110167802.1A 2021-02-07 2021-02-07 基于去中心化存储数据的索引建立方法 Active CN112836008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110167802.1A CN112836008B (zh) 2021-02-07 2021-02-07 基于去中心化存储数据的索引建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110167802.1A CN112836008B (zh) 2021-02-07 2021-02-07 基于去中心化存储数据的索引建立方法

Publications (2)

Publication Number Publication Date
CN112836008A true CN112836008A (zh) 2021-05-25
CN112836008B CN112836008B (zh) 2023-03-21

Family

ID=75932633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110167802.1A Active CN112836008B (zh) 2021-02-07 2021-02-07 基于去中心化存储数据的索引建立方法

Country Status (1)

Country Link
CN (1) CN112836008B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708990A (zh) * 2022-06-07 2022-07-05 肺诊网(苏州)网络科技有限公司 一种基于5g互联网的远程数字媒体共享方法和系统
CN115203378A (zh) * 2022-09-09 2022-10-18 北京澜舟科技有限公司 基于预训练语言模型的检索增强方法、系统及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030221A (zh) * 2007-04-13 2007-09-05 清华大学 一种用于文本或网络内容分析的大规模多关键词匹配方法
CN101043695A (zh) * 2006-03-23 2007-09-26 上海宇梦通信科技有限公司 一种在移动通信系统内存储和维护用户设备信息的方法
CN101071442A (zh) * 2007-06-26 2007-11-14 腾讯科技(深圳)有限公司 分布式索引文件的检索方法、检索系统及检索服务器
CN101150489A (zh) * 2007-10-19 2008-03-26 四川长虹电器股份有限公司 基于分布式哈希表的资源共享方法
CN101211365A (zh) * 2006-12-28 2008-07-02 国际商业机器公司 用于建立搜索索引的方法和系统
CN101364237A (zh) * 2008-09-05 2009-02-11 成都市华为赛门铁克科技有限公司 一种多关键词匹配方法和装置
US20120221646A1 (en) * 2009-11-03 2012-08-30 Telecom Italia S.P.A. Caching of digital contents in p2p networks
CN102739622A (zh) * 2011-04-15 2012-10-17 北京兴宇中科科技开发股份有限公司 一种可扩展的数据存储系统
US20150312155A1 (en) * 2014-04-25 2015-10-29 Telefonaktiebolaget L M Ericsson (Publ) System and method for efectuating packet distribution among servers in a network
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN108268539A (zh) * 2016-12-31 2018-07-10 上海交通大学 基于文本分析的视频匹配系统
CN108491462A (zh) * 2018-03-05 2018-09-04 昆明理工大学 一种基于word2vec的语义查询扩展方法及装置
CN108959478A (zh) * 2018-06-21 2018-12-07 中南林业科技大学 一种云环境下的密文图像检索方法及系统
CN109815475A (zh) * 2017-11-22 2019-05-28 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算设备及系统
CN110674243A (zh) * 2019-07-02 2020-01-10 厦门耐特源码信息科技有限公司 一种基于动态k-均值算法的语料库索引构建方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043695A (zh) * 2006-03-23 2007-09-26 上海宇梦通信科技有限公司 一种在移动通信系统内存储和维护用户设备信息的方法
CN101211365A (zh) * 2006-12-28 2008-07-02 国际商业机器公司 用于建立搜索索引的方法和系统
CN101030221A (zh) * 2007-04-13 2007-09-05 清华大学 一种用于文本或网络内容分析的大规模多关键词匹配方法
CN101071442A (zh) * 2007-06-26 2007-11-14 腾讯科技(深圳)有限公司 分布式索引文件的检索方法、检索系统及检索服务器
CN101150489A (zh) * 2007-10-19 2008-03-26 四川长虹电器股份有限公司 基于分布式哈希表的资源共享方法
CN101364237A (zh) * 2008-09-05 2009-02-11 成都市华为赛门铁克科技有限公司 一种多关键词匹配方法和装置
US20120221646A1 (en) * 2009-11-03 2012-08-30 Telecom Italia S.P.A. Caching of digital contents in p2p networks
CN102739622A (zh) * 2011-04-15 2012-10-17 北京兴宇中科科技开发股份有限公司 一种可扩展的数据存储系统
US20150312155A1 (en) * 2014-04-25 2015-10-29 Telefonaktiebolaget L M Ericsson (Publ) System and method for efectuating packet distribution among servers in a network
CN108268539A (zh) * 2016-12-31 2018-07-10 上海交通大学 基于文本分析的视频匹配系统
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN109815475A (zh) * 2017-11-22 2019-05-28 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算设备及系统
CN108491462A (zh) * 2018-03-05 2018-09-04 昆明理工大学 一种基于word2vec的语义查询扩展方法及装置
CN108959478A (zh) * 2018-06-21 2018-12-07 中南林业科技大学 一种云环境下的密文图像检索方法及系统
CN110674243A (zh) * 2019-07-02 2020-01-10 厦门耐特源码信息科技有限公司 一种基于动态k-均值算法的语料库索引构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王俊生等: "基于Hadoop的分布式搜索引擎关键技术", 《北京信息科技大学学报(自然科学版)》 *
王硕等: "一种适用于专业搜索引擎的中文分词系统研究", 《计算机工程与应用》 *
董祥千等: "一种高效安全的去中心化数据共享模型", 《计算机学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708990A (zh) * 2022-06-07 2022-07-05 肺诊网(苏州)网络科技有限公司 一种基于5g互联网的远程数字媒体共享方法和系统
CN114708990B (zh) * 2022-06-07 2022-09-06 肺诊网(苏州)网络科技有限公司 一种基于5g互联网的远程数字媒体共享方法和系统
CN115203378A (zh) * 2022-09-09 2022-10-18 北京澜舟科技有限公司 基于预训练语言模型的检索增强方法、系统及存储介质

Also Published As

Publication number Publication date
CN112836008B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
CN111581354A (zh) 一种faq问句相似度计算方法及其系统
CN104239513B (zh) 一种面向领域数据的语义检索方法
AU2011210535B2 (en) Joint embedding for item association
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN107480200B (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN115270738B (zh) 一种研报生成方法、系统及计算机存储介质
CN110569328A (zh) 实体链接方法、电子装置及计算机设备
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
Tajbakhsh et al. Semantic knowledge LDA with topic vector for recommending hashtags: Twitter use case
CN107145519B (zh) 一种基于超图的图像检索与标注方法
Martín et al. Using semi-structured data for assessing research paper similarity
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN116362221A (zh) 融合多模态语义关联图谱的航空文献关键词相似度判定方法
CN112817916B (zh) 基于ipfs的数据获取方法及系统
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant