CN107368525A - 搜索相关词的方法及装置、存储介质和终端设备 - Google Patents

搜索相关词的方法及装置、存储介质和终端设备 Download PDF

Info

Publication number
CN107368525A
CN107368525A CN201710425702.8A CN201710425702A CN107368525A CN 107368525 A CN107368525 A CN 107368525A CN 201710425702 A CN201710425702 A CN 201710425702A CN 107368525 A CN107368525 A CN 107368525A
Authority
CN
China
Prior art keywords
related word
word
keyword
word set
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710425702.8A
Other languages
English (en)
Other versions
CN107368525B (zh
Inventor
李贤�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201710425702.8A priority Critical patent/CN107368525B/zh
Publication of CN107368525A publication Critical patent/CN107368525A/zh
Application granted granted Critical
Publication of CN107368525B publication Critical patent/CN107368525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索相关词的方法、装置、存储介质及终端设备,所述方法包括:接收键入的关键词,从词条数据库中获取所述关键词的第一相关词集;所述第一相关词集中的相关词包括所述关键词;将所述第一相关词集中的每一个相关词的第二相关词集的并集作为第三相关词集;对所述第一相关词集中的每一个相关词,根据所述第三相关词集中的每一个词在所述相关词的第二相关词集中记载的词频,构建所述相关词的向量;根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的每一个相关词的相似度,并选取所述关键词的相关词。采用本发明实施例,能够同时提高搜索相关词的准确度和搜索效率。

Description

搜索相关词的方法及装置、存储介质和终端设备
技术领域
本发明涉及计算机搜索技术领域,尤其涉及一种搜索相关词的方法及装置、存储介质和终端设备。
背景技术
目前,购物网站以及搜索引擎服务网站都提供的关键词搜索的功能,即用户输入想要搜索的商品或技术的关键词,服务器则根据该关键词搜索出相应的结果并返回给用户。服务器为了提供准确的搜索结果,服务器一般会对关键词进行扩展,即根据用户输入的关键词,查找出关键词对应的相关词,并提供查找到的相关词给用户,在用户通过关键词搜索而未能得到满意的搜索结果时,就根据相关词进行搜索。但现有的相关词扩展是通过已有词典进行扩展,例如WordNet、《同义词林》,而这种方式所获得的相关词在数量上相当有限,而且所获得的相关词有可能跟不上语言的发展变化,不能满足相关词对时效性的要求。以及,即使通过扩展使得获取到的相关词更多,但是获取的过程效率低下。
发明内容
本发明实施例的目的是提出的一种搜索相关词的方法及装置、存储介质和终端设备,能够同时提高搜索相关词的准确度和搜索效率。
为实现上述目的,本发明实施例提供一种搜索相关词的方法,包括:
接收键入的关键词,从词条数据库中获取所述关键词的第一相关词集;所述第一相关词集中的相关词包括所述关键词;
将所述第一相关词集中的每一个相关词的第二相关词集的并集作为第三相关词集;其中,所述每一个相关词的第二相关词集是从所述词条数据库中获取的;
对所述第一相关词集中的每一个相关词,根据所述第三相关词集中的每一个词在所述相关词的第二相关词集中记载的词频,构建所述相关词的向量;
根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并根据所获取到的相似度选取所述关键词的相关词。
进一步地,所述第一相关词集中的第i个相关词为bi,则所述第i个相关词bi的向量为其中,m为所述第三相关词集的词的个数,cx为所述第三相关词集中的第x个词;为所述第三相关词集中的第x个词cx在所述第i个相关词bi的第二相关词集中记载的词频。
作为本发明技术方案改进的一个方面,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频。
作为本发明技术方案改进的另一个方面,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频
作为本发明技术方案改进的又一个方面,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述关键词a的向量。
进一步地,所述根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并选取所述关键词的相关词,具体为:
根据所述第一相关词集中的每一个相关词的向量,计算所述第一相关词集中任意两个相关词之间的相似度;
根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词作为所述关键词的相关词;
或者,具体为:
根据所述第一相关词集中的每一相关词的向量,计算所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度;
根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词。
进一步地,以所述关键词或所述第一相关词集中的每一个相关词作为输入词,从所述词条数据库中获取相关词集的过程,具体为:
根据所述输入词,从词条数据库中获取包含所述输入词且排序在第M位前的词条;
根据标准词条格式,对获取的词条进行格式调整;
调用分词工具;
利用所述分词工具对格式调整后的词条进行分词,获得词语集;
从所述词语集中提取属于用户词典中的核心词的词语作为所述输入词的相关词集的元素;其中,所述用户词典是由所述分词工具提供的,所述相关词集记载有每一个元素出现在所述第M位前的词条的词频。
相应地,本发明实施例还提供一种搜索相关词的装置,包括:
第一相关词集模块,用于接收键入的关键词,从词条数据库中获取所述关键词的第一相关词集;所述第一相关词集中的相关词包括所述关键词;
第三相关词集模块,用于将所述第一相关词集中的每一个相关词的第二相关词集的并集作为第三相关词集;其中,所述每一个相关词的第二相关词集是从所述词条数据库中获取的;
向量构建模块,用于对所述第一相关词集中的每一个相关词,根据所述第三相关词集中的每一个词在所述相关词的第二相关词集中记载的词频,构建所述相关词的向量;
相关词选取模块,用于根据所述第一相关词集中的每一个相关词的向量,计算所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并根据所获取到的相似度选取所述关键词的相关词。
以及,本发明实施例提供一种存储介质,其中存储有多条指令,其特征在于,所述指令被处理器执行时实现如前所述实施例提供的搜索相关词的方法。
另外,本发明实施例提供一种终端设备,包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的多条指令,其中,所述处理器执行所述指令时实现如前所述实施例提供的搜索相关词的方法。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的一种搜索相关词的方法及装置、存储介质及终端设备,通过获取关键词的相关词集,进而再以该相关词集继续获取该相关词集中的每一个相关词的相关词集,进而将每个相关词的相关词集进行并集获得第三相关词集,然后根据第三相关词集中每一个词在相应的相关词的相关词集内记载的词频构建该相关词的向量,进而完成关键词的相关词集中的每一个相关词的向量,该向量记载了该相关词与第三相关词集的每一个词的相关程度,方便后续计算关键词与其他相关词的相似程度,在保证搜索准确度的前提下,大大减少计算的复杂度,提高搜索相关词的效率。
附图说明
图1是本发明提供的搜索相关词的方法的一个实施例的流程示意图;
图2是本发明提供的搜索相关词的装置的一个实施例的结构示意图;
图3是本发明提供的搜索相关词的装置的相关词选取模块的一个实施例的结构示意图;
图4是本发明提供的搜索相关词的装置的相关词选取模块的另一个实施例的结构示意图;
图5是本发明提供的搜索相关词的装置的第一相关词模块的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的搜索相关词的方法的一个实施例的流程示意图;该搜索相关词的方法,包括步骤S1至S4,具体如下:
S1,接收键入的关键词,从词条数据库中获取所述关键词的第一相关词集;所述第一相关词集中的相关词包括所述关键词。
需要说明的是,以所键入的关键词为Java为例,其作为输入词从词条数据库中获取该关键词的第一相关词集的具体过程为:
利用搜索引擎根据所述输入词Java,从词条数据库(例如,论文数据库)中获取包含所述输入词Java且排序在第M位前的词条;例如,前50页论文摘要作为词条,或者,在维基中搜索关键词Java的前500条摘要;
根据标准词条格式,对获取的词条进行格式调整;例如,将词条中的小写统一成大写、对词条中多余的空格删除、统一词条中的标点符号、将词条的全角格式或半角格式统一为一种等。
调用分词工具;优选地,所述分词工具为jieba分词工具,但不限于为此分词工具。
利用所述分词工具对格式调整后的词条进行分词,获得词语集;
从所述词语集中提取属于用户词典中的核心词的词语作为所述输入词的相关词集的元素,即上述第一相关词集的相关词;其中,所述用户词典是由所述分词工具提供的,所述相关词集记载有该词集中的每一个元素出现在所述第M位前的词条的词频。需要说明的是,可通过分词工具或通过本提供相关词的装置添加词典,利用词典提供的核心词,从所述词语集中提取核心词作为所述输入词的相关词集的元素。
S2,将所述第一相关词集中的每一个相关词的第二相关词集的并集作为第三相关词集;其中,所述每一个相关词的第二相关词集是从所述词条数据库中获取的。
需要说明的是,对于上述第一相关词集中的每一个相关词,以该相关词作为输入词从词条数据库中获取该相关词的第二相关词集与上述以关键词作为输入词从词条数据库中获取该关键词的第一相关词集的过程一致,在此不再赘述。从而,所述第一相关词集中的一个相关词对应于一个第二相关词集,将上述获得的所有第二相关词集进行并集,进而去除重复的词得到第三相关词集,便于后续步骤S3对第一相关词集中的相关词进行统一向量化。
S3,对所述第一相关词集中的每一个相关词,根据所述第三相关词集中的每一个词在所述相关词的第二相关词集中记载的词频,构建所述相关词的向量。
需要说明的是,假设第一相关词集为B={b1,…bi…,bk},包含有k个相关词,则所述第一相关词集中的第i个相关词为bi,i∈[1,k],进而第i个相关词bi的第二相关词集假设为包含有n个词,j∈[1,n],第i个相关词bi的第二相关词集中的第j个词aij的词频可记载为rij,第三相关词集假设为C={c1,…cx…,cm},包含有m个词,x∈[1,m],所述第三相关词集中的第x个词为cx。以上述假设为例,构建相关词bi的向量的过程,具体为:
对于第三相关词集C中的每一个词,以第x个词cx为例,判断该词cx在第二相关词集是否存在;若不存在,则设置该词cx在第二相关词集中记载的词频为0;若存在,将第二相关词集中与词cx相同的词所记载的词频作为词cx在第二相关词集中记载的词频依此,获得第三相关词集C的每一个词在相关词bi的第二相关词集中记载的词频,则依次将第三相关词集C的第x个词在相关词bi的第二相关词集中记载的词频设置为相关词bi的向量的第x列分量的数值,从而完成相关词bi的向量的构建。另外,对于第一相关词集中的每一个相关词都可依据上例构建出相应相关词的向量。由于此处对相关词的向量化过程,包含有相关词在其下位的搜索出来的第二相关词集中记载的词频,可以评估相关词与其下位搜索出的第二相关词集中的词之间的相关程度,能够提高搜索相关词的准确性。另外向量化相关词,能够简化后续步骤S4的计算过程,使得搜索相关词的效率大大提高。
S4,根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并根据所获取到的相似度选取所述关键词的相关词。
其中,在步骤S4中由于关键词包含在第一相关词集内,那么此关键词也被向量化了,进而依据步骤S3计算出的第一相关词集内的每一个相关词的向量,即可计算出第一相关词集内任意两个相关词之间的相似度,从中获取关键词与其他相关词之间的相似度来输出关键词的相关词,但在此为了提高计算效率,也可以只需要计算出关键词与所述第一相关词集内的其他相关词之间的相似度即可,进而只需要依据该计算结果,根据预设的相似度阈值或阈值区间即可提供关键词的相关词。
具体地,步骤S4的两种实施方式如下:
第一实施方式为:根据所述第一相关词集中的每一个相关词的向量,计算所述第一相关词集中任意两个相关词之间的相似度;
根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词作为所述关键词的相关词;
第二种实施方式为:
根据所述第一相关词集中的每一相关词的向量,计算所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度;
根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词。
以及,本发明实施例在步骤S4中提供的计算关键词与所述第一相关词集中的其他相关词的相似度的实施方式有以下三种:
其一,以所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频。
其二,以所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频
其三,以所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述关键词a的向量。
需要说明的是,上述三种实施方式,均是通过衡量关键词的向量与相关词的向量两者的相似度程度,作为关键词与相关词的相似度。
本发明实施例提供的搜索相关词的方法,通过获取关键词的相关词集,进而再以该相关词集继续获取该相关词集中的每一个相关词的相关词集,进而将每个相关词的相关词集进行并集获得第三相关词集,然后根据第三相关词集中每一个词在相应的相关词的相关词集内记载的词频构建该相关词的向量,进而完成关键词的相关词集中的每一个相关词的向量,该向量记载了该相关词与第三相关词集的每一个词的相关程度,方便后续计算关键词与其他相关词的相似程度,在保证搜索准确度的前提下,大大减少计算的复杂度,提高搜索相关词的效率。
参见图2,是本发明提供的搜索相关词的装置的一个实施例的结构示意图;该一种搜索相关词的装置能够实施上述提供的搜索相关词的方法的全部流程,该装置为虚拟模块,具体包括:
第一相关词集模块10,用于接收键入的关键词,从词条数据库中获取所述关键词的第一相关词集;所述第一相关词集中的相关词包括所述关键词;
第三相关词集模块20,用于将所述第一相关词集中的每一个相关词的第二相关词集的并集作为第三相关词集;其中,所述每一个相关词的第二相关词集是从所述词条数据库中获取的;
向量构建模块30,用于对所述第一相关词集中的每一个相关词,根据所述第三相关词集中的每一个词在所述相关词的第二相关词集中记载的词频,构建所述相关词的向量;
相关词选取模块40,用于根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并根据所获取到的相似度选取所述关键词的相关词。
进一步地,所述第一相关词集中的第i个相关词为bi,则所述第i个相关词bi的向量为其中,m为所述第三相关词集的词的个数,cx为所述第三相关词集中的第x个词;为所述第三相关词集中的第x个词cx在所述第i个相关词bi的第二相关词集中记载的词频。
作为本发明技术方案改进的一个方面,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频。
作为本发明技术方案改进的另一个方面,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频
作为本发明技术方案改进的又一个方面,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述关键词a的向量。
进一步地,如图3所示,图3是本发明提供的搜索相关词的装置的相关词选取模块的一个实施例的结构示意图,该相关词选取模块40,具体包括:
第一相似度计算单元41,用于根据所述第一相关词集中的每一个相关词的向量,计算所述第一相关词集中任意两个相关词之间的相似度;
第一相关词选取单元42,用于根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词作为所述关键词的相关词;
进一步地,如图4所示,图4是发明提供的搜索相关词的装置的相关词选取模块的另一个实施例的结构示意图,该相关词选取模块40,具体包括:
第二相似度计算单元43,用于根据所述第一相关词集中的每一相关词的向量,计算所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度;
第二相关词选取单元44,用于根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词。
更进一步地,如图5所示,图5是本发明提供的搜索相关词的装置的第一相关词模块的一个实施例的结构示意图,所述第一相关词集模块10包括用于以所述关键词或所述第一相关词集中的每一个相关词作为输入词,从所述词条数据库中获取相关词集的单元,具体为:
词条获取单元11,用于根据所述输入词,从词条数据库中获取包含所述输入词且排序在第M位前的词条;
格式调整单元12,用于根据标准词条格式,对获取的词条进行格式调整;
工具调用单元13,用于调用分词工具;
分词单元14,用于利用所述分词工具对格式调整后的词条进行分词,获得词语集;
核心词提取单元15,用于从所述词语集中提取属于用户词典中的核心词的词语作为所述输入词的相关词集的元素;其中,所述用户词典是由所述分词工具提供的,所述相关词集记载有每一个元素出现在所述第M位前的词条的词频。
以及,本发明实施例提供一种存储介质,其中存储有多条指令,其特征在于,所述指令被处理器执行时实现如前所述实施例提供的搜索相关词的方法。
另外,本发明实施例提供一种终端设备,包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的多条指令,其中,所述处理器执行所述指令时实现如前所述实施例提供的搜索相关词的方法。
本发明实施例提供的搜索相关词的装置,通过获取关键词的相关词集,进而再以该相关词集继续获取该相关词集中的每一个相关词的相关词集,进而将每个相关词的相关词集进行并集获得第三相关词集,然后根据第三相关词集中每一个词在相应的相关词的相关词集内记载的词频构建该相关词的向量,进而完成关键词的相关词集中的每一个相关词的向量,该向量记载了该相关词与第三相关词集的每一个词的相关程度,方便后续计算关键词与其他相关词的相似程度,在保证搜索准确度的前提下,大大减少计算的复杂度,提高搜索相关词的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种搜索相关词的方法,其特征在于,包括:
接收键入的关键词,从词条数据库中获取所述关键词的第一相关词集;所述第一相关词集中的相关词包括所述关键词;
将所述第一相关词集中的每一个相关词的第二相关词集的并集作为第三相关词集;其中,所述每一个相关词的第二相关词集是从所述词条数据库中获取的;
对所述第一相关词集中的每一个相关词,根据所述第三相关词集中的每一个词在所述相关词的第二相关词集中记载的词频,构建所述相关词的向量;
根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并根据所获取到的相似度选取所述关键词的相关词。
2.如权利要求1所述的搜索相关词的方法,其特征在于,所述第一相关词集中的第i个相关词为bi,则所述第i个相关词bi的向量为 其中,m为所述第三相关词集的词的个数,cx为所述第三相关词集中的第x个词;为所述第三相关词集中的第x个词cx在所述第i个相关词bi的第二相关词集中记载的词频。
3.如权利要求2所述的搜索相关词的方法,其特征在于,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频。
4.如权利要求2所述的搜索相关词的方法,其特征在于,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频。
5.如权利要求2所述的搜索相关词的方法,其特征在于,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述关键词a的向量。
6.如权利要求1至5任一项所述的搜索相关词的方法,其特征在于,所述根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并选取所述关键词的相关词,具体为:
根据所述第一相关词集中的每一个相关词的向量,计算所述第一相关词集中任意两个相关词之间的相似度;
根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词作为所述关键词的相关词;
或者,具体为:
根据所述第一相关词集中的每一相关词的向量,计算所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度;
根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词。
7.如权利要求1至5任一项所述的搜索相关词的方法,其特征在于,以所述关键词或所述第一相关词集中的每一个相关词作为输入词,从所述词条数据库中获取相关词集的过程,具体为:
根据所述输入词,从词条数据库中获取包含所述输入词且排序在第M位前的词条;
根据标准词条格式,对获取的词条进行格式调整;
调用分词工具;
利用所述分词工具对格式调整后的词条进行分词,获得词语集;
从所述词语集中提取属于用户词典中的核心词的词语作为所述输入词的相关词集的元素;其中,所述用户词典是由所述分词工具提供的,所述相关词集记载有每一个元素出现在所述第M位前的词条的词频。
8.一种搜索相关词的装置,其特征在于,包括:
第一相关词集模块,用于接收键入的关键词,从词条数据库中获取所述关键词的第一相关词集;所述第一相关词集中的相关词包括所述关键词;
第三相关词集模块,用于将所述第一相关词集中的每一个相关词的第二相关词集的并集作为第三相关词集;其中,所述每一个相关词的第二相关词集是从所述词条数据库中获取的;
向量构建模块,用于对所述第一相关词集中的每一个相关词,根据所述第三相关词集中的每一个词在所述相关词的第二相关词集中记载的词频,构建所述相关词的向量;
相关词选取模块,用于根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并根据所获取到的相似度选取所述关键词的相关词。
9.一种存储介质,其中存储有多条指令,其特征在于,所述指令被处理器执行时实现如权利要求1至7任一项所述的搜索相关词的方法。
10.一种终端设备,其特征在于,包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的多条指令,其中,所述处理器执行所述指令时实现如权利要求1至7任一项所述的搜索相关词的方法。
CN201710425702.8A 2017-06-07 2017-06-07 搜索相关词的方法及装置、存储介质和终端设备 Active CN107368525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710425702.8A CN107368525B (zh) 2017-06-07 2017-06-07 搜索相关词的方法及装置、存储介质和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710425702.8A CN107368525B (zh) 2017-06-07 2017-06-07 搜索相关词的方法及装置、存储介质和终端设备

Publications (2)

Publication Number Publication Date
CN107368525A true CN107368525A (zh) 2017-11-21
CN107368525B CN107368525B (zh) 2020-03-03

Family

ID=60305376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710425702.8A Active CN107368525B (zh) 2017-06-07 2017-06-07 搜索相关词的方法及装置、存储介质和终端设备

Country Status (1)

Country Link
CN (1) CN107368525B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222271A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于生成网页的方法和装置
CN116340470A (zh) * 2023-05-30 2023-06-27 环球数科集团有限公司 一种基于aigc的关键词关联检索系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622341A (zh) * 2012-04-20 2012-08-01 北京邮电大学 基于Bootstrapping技术的领域本体概念自动获取方法
CN102945228B (zh) * 2012-10-29 2016-07-06 广西科技大学 一种基于文本分割技术的多文档文摘方法
CN103838833B (zh) * 2014-02-24 2017-03-15 华中师范大学 基于相关词语语义分析的全文检索系统
CN104636466B (zh) * 2015-02-11 2020-07-31 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222271A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于生成网页的方法和装置
CN116340470A (zh) * 2023-05-30 2023-06-27 环球数科集团有限公司 一种基于aigc的关键词关联检索系统
CN116340470B (zh) * 2023-05-30 2023-09-15 环球数科集团有限公司 一种基于aigc的关键词关联检索系统

Also Published As

Publication number Publication date
CN107368525B (zh) 2020-03-03

Similar Documents

Publication Publication Date Title
CN108170859B (zh) 语音查询的方法、装置、存储介质及终端设备
CN109933785B (zh) 用于实体关联的方法、装置、设备和介质
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
CN107402954B (zh) 建立排序模型的方法、基于该模型的应用方法和装置
CN110457431A (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN106708929B (zh) 视频节目的搜索方法和装置
JP2022073981A (ja) ソースコード取得
CN110390106B (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
CN107861753B (zh) App生成索引、检索方法和系统及可读存储介质
CN106126589B (zh) 简历搜索方法及装置
CN110929498B (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN108536807B (zh) 一种信息处理方法及装置
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN109815390B (zh) 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN112632395A (zh) 搜索推荐方法和装置、服务器、计算机可读存储介质
CN107368525B (zh) 搜索相关词的方法及装置、存储介质和终端设备
CN106570196B (zh) 视频节目的搜索方法和装置
CN105243053A (zh) 提取文档关键句的方法及装置
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
CN116595149A (zh) 一种人机对话生成方法、装置、设备及存储介质
CN110647537A (zh) 数据搜索方法、装置及存储介质
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
CN113343684B (zh) 核心产品词识别方法、装置、计算机设备及存储介质
CN112650869B (zh) 图像检索重排序方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant