CN105653660A - 一种检索关键字的联想方法及装置 - Google Patents
一种检索关键字的联想方法及装置 Download PDFInfo
- Publication number
- CN105653660A CN105653660A CN201511007491.3A CN201511007491A CN105653660A CN 105653660 A CN105653660 A CN 105653660A CN 201511007491 A CN201511007491 A CN 201511007491A CN 105653660 A CN105653660 A CN 105653660A
- Authority
- CN
- China
- Prior art keywords
- keyword
- word
- initial
- association
- query contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种检索关键字的联想方法及装置,通过获取用户查询内容,并根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词,从所述初始词中筛选出初始关键字;然后利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字;最后将所述初始关键字、所述查询内容以及上述学术关键字合并得到联想关键字。在上述过程中,所述初始词与技术库中的技术方案和解决方案紧密相关,根据初始词确定的学术关键字进一步在技术领域内扩展了关键字的范围,最终获得的联想关键字能够与技术领域紧密相关,精确表征用户的检索意图,进而获得准确且广泛的检索结果,有效拓展用户的创新思路,满足技术创新需求。
Description
技术领域
本发明涉及信息搜索技术领域,特别是涉及一种检索关键字的联想方法及装置。
背景技术
电网企业在进行技术创新时,需要进行新技术、新方法等技术信息的收集,并以收集到的技术信息作为基础进行创造性的革新和拓展。基于搜索引擎,用户在输入查询内容后,搜索引擎可以根据查询内容提供联想关键字给用户,以方便进一步查询。
目前关键字的联想方法主要通过统计的方法实现,根据用户的搜索记录统计关键字的出现频度,将与查询内容相关的、频度较高的关键字作为联想关键字提供给用户参考使用。但在实际使用中,例如如果电网企业的技术人员输入的查询内容为“高压”,以获得高压输电技术领域的技术信息,搜索引擎提供的联想关键字往往是与日常生活关联性较高的关键字,例如“高压锅”、“高压水泵”等,准确度较差,进而导致检索效率降低,难以适应技术创新的需求。
发明内容
本发明实施例中提供了一种检索关键字的联想方法及装置,以解决现有技术中的检索关键字的联想方法准确度差的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明实施例公开了一种检索关键字的联想方法,该方法包括以下步骤:
获取用户查询内容;
根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词;
从所述初始词中筛选出初始关键字;
利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字;
将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字。
优选地,所述根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词,包括:
根据查询内容,从所述技术库中查询获得与所述查询内容相关的技术问题字段和解决方案字段;
将所述技术问题字段和所述解决方案字段分词,获得初始词。
优选地,所述从所述初始词中筛选出初始关键字,包括:
判断所述初始词中是否包括重复词;
如果所述初始词中包括重复词,删除重复词;
判断所述初始词是否与无意义词库中的词相匹配;
如果所述初始词与无意义词库中的词相匹配,将初始词中与无意义词库相匹配的词删除,获得初始关键字。
优选地,所述将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字,包括:
将所述初始关键字、所述查询内容以及所述学术关键字合并;
比对合并后的关键字与同义词词库,判断合并后的关键字是否存在同义词或简写词;
如果合并后的关键字存在同义词或简写词,根据同义词词库,将合并后的关键字中的同义词或简写词转义。
优选地,所述将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字,还包括:
将所述初始关键字、所述查询内容以及所述学术关键字合并后,判断合并后的关键字中是否存在重复关键字;
如果存在重复关键字,统计关键字的重复次数,并将重复的关键字删除;
根据所述重复次数将关键字排序,得到联想关键字。
本发明实施例还公开了一种检索关键字的联想装置,该装置包括:
用户查询内容获取模块,用于获取用户查询内容;
初始词获取模块,用于根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词;
初始关键字获取模块,用于从所述初始词中筛选出初始关键字;
学术关键字获取模块,用于利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字;
联想关键字组合模块,用于将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字。
优选地,所述初始词获取模块包括:
字段获取模块,用于根据查询内容,从所述技术库中查询获得与所述查询内容相关的技术问题字段和解决方案字段;
分词模块,用于将所述技术问题字段和所述解决方案字段分词,获得初始词。
优选地,所述初始关键字获取模块包括:
第一重复判断模块,用于判断所述初始词中是否包括重复词;
重复删除模块,用于如果所述初始词中包括重复词,删除重复词;
意义判断模块,用于判断所述初始词是否与无意义词库中的词相匹配;
意义删除模块,用于如果所述初始词与无意义词库中的词相匹配,将初始词中与无意义词库相匹配的词删除,获得初始关键字。
优选地,所述联想关键字组合模块包括:
关键字合并模块,用于将所述初始关键字、所述查询内容以及所述学术关键字合并;
同义判断模块,用于比对合并后的关键字与同义词词库,判断合并后的关键字是否存在同义词或简写词;
转义模块,用于如果合并后的关键字存在同义词或简写词,根据同义词词库,将合并后的关键字中的同义词或简写词转义。
优选地,所述联想关键字组合模块还包括:
第二重复判断模块,用于将所述初始关键字、所述查询内容以及所述学术关键字合并后,判断合并后的关键字中是否存在重复关键字;
重复管理模块,用于如果存在重复关键字,统计关键字的重复次数,并将重复的关键字删除;
排序生成模块,用于根据所述重复次数将关键字排序,得到联想关键字。
由以上技术方案可见,本发明实施例提供的一种检索关键字的联想方法及装置,通过获取用户查询内容,并根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词,从所述初始词中筛选出初始关键字;然后利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字;最后将所述初始关键字、所述查询内容以及上述学术关键字合并得到联想关键字。在上述过程中,所述初始词与技术库中的技术方案和解决方案紧密相关,根据初始词确定的学术关键字进一步在技术领域内扩展了关键字的范围,最终获得的联想关键字能够与技术领域紧密相关,精确表征用户的检索意图,进而获得准确且广泛的检索结果,有效拓展用户的创新思路,满足技术创新需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种检索关键字的联想方法的流程示意图;
图2为本发明实施例提供的一种初始词获得方法的流程示意图;
图3为本发明实施例提供的一种初始关键字筛选方法的流程示意图;
图4为本发明实施例提供的一种关键字合并方法的流程示意图;
图5为本发明实施例提供的另一种关键字合并方法的流程示意图;
图6为本发明实施例提供的一种检索关键字的联想装置的结构示意图;
图7为本发明实施例提供的一种初始词获取模块的结构示意图;
图8为本发明实施例提供的一种初始关键字获取模块的结构示意图;
图9为本发明实施例提供的一种联想关键字组合模块的结构示意图;
图10为本发明实施例提供的另一种联想关键字组合模块的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
技术创新主要分为三种模式:自主创新、模仿创新和合作创新。目前,电网企业技术创新以模仿创新为主将新技术、新方法与当前电网生产实践相结合。模仿创新是指在率先创新的示范影响和利益诱导之下,创新主体通过合法方式引进创新成果,并在此基础上进行改进的一种创新形式。模仿创新过程中前沿新技术、新方法收集及其电网生产实践的结合可抽象为固有模式;在新技术、新方法的收集过程中,用户一般借助搜索引擎,在搜索引擎中输入查询内容以获得相应的检索结果,而检索的关键字是决定信息检索和收集效率的关键。
参见图1,为本发明实施例提供的一种检索关键字的联想方法的流程示意图,所述检索关键字的联想方法包括以下步骤:
步骤S101:获取用户查询内容。
所述查询内容为用户从需要查询的技术信息中提炼出的关键字,例如用户如果需要检索高压设备驱鸟相关的技术信息,可以输入查询内容“驱鸟”;同样,所述查询内容可以包括一个或多个关键字,例如可以确定所述查询内容为“高压”+“驱鸟”,以进一步限定检索范围,提高检索效率。在具体实施时,本发明实施例对查询内容的具体形式不做限制,例如所述查询内容可以为用户在浏览器检索框内输入的查询内容,或者以命令行或文本的形式输入的查询内容。
步骤S102:根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词。
在本发明实施例中,所述技术库为包括技术问题和解决方案的技术库,例如在具体实施时,所述技术问题和所述解决方案均以一段文字进行描述,以数据库的形式建立包括所述技术问题和所述解决方案的技术库;或者,以Excel表的形式建立上述技术库。当然,为了丰富所述技术库的内容,提高检索效率所述技术库还可以包括作者、单位等信息,从而获得更多的初始词,精确限定检索范围。
而且,为了满足不同行业的用户获取所述初始词,本发明实施例中的技术库可以为包括不同行业类别的技术问题和解决方案的技术库,例如所述技术库可以包括电力行业的技术问题和解决方案、航天行业的技术问题和解决方案、能源行业的技术问题和解决方案以及医学行业的技术问题和解决方案等,并且不同行业的技术问题和解决方案根据相应的行业类别信息进行区分,方便不同行业的用户选择相应的行业的技术问题和解决方案;当然,在具体实施时,所述技术库可以包含电力行业技术库、航天行业技术库、能源行业技术库以及医学行业技术库等。
在具体应用过程中,考虑以下应用场景:电力行业的用户需要获得电力行业的初始词,输入的查询内容为“发电”,则可以预设行业类别信息为电力,从而选择电力行业技术库,进而通过检索电力行业技术库中的技术问题和解决方案获得电力行业的初始词;当航天行业的用户需要检索航天行业的技术信息时,则可以预设所述行业类别信息为航天,从而选择航天行业技术库,进而通过检索航天行业技术库中的技术问题和解决方案获得航天行业的初始词。当然,如果两个行业有交集或者难以精确细分时,在交叉行业中例如用户可能希望同时获得电力和能源行业的初始词,则可以预设所述行业类别信息为电力+能源,从而选择电力行业技术库和能源行业技术库,进而通过同时检索电力行业技术库中的技术问题和解决方案,以及能源行业技术库中的技术问题和解决方案,确定初始词。
参见图2,为本发明实施例提供的一种初始词获得方法的流程示意图,所述初始词获取方法包括以下步骤:
步骤S1021:根据查询内容,从所述技术库中查询获得与所述查询内容相关的技术问题字段和解决方案字段。
如表一所示,为本发明实施例提供的技术库的查询结果,当用户输入查询内容“驱鸟”,从上述技术库中查询获得技术问题字段“如何防止鸟害”以及解决方案字段“研制一种激光驱鸟装置”。当然在实际过程中,通过所述查询内容可以获得任意多个技术问题字段和解决方案字段,而且所述技术方案字段和是解决方案字段不限于中文字段,同样可以为任意语言例如英文或德文字段等。
表一:
查询内容 | 技术问题 | 解决方案 |
驱鸟 | 如何防止鸟害 | 研制一种激光驱鸟装置 |
步骤S1022:将所述技术问题字段和所述解决方案字段分词,获得初始词。
将所述技术问题字段和所述解决方案字段分词,所述分词的过程为本领域技术人员常规方式,在此不再赘述。具体地,所述技术问题字段“如何防止鸟害”分词为“如何”、“防止”和“鸟害”;所述解决方案字段“研制一种激光驱鸟装置”分词为“研制”、“一种”、“激光”和“驱鸟装置”,根据分词后的技术问题字段和解决方案字段,可以获得如表二所示,为本发明实施例提供的初始词结果,所述初始词为“如何”、“防止”、“鸟害”、“研制”、“一种”、“激光”和“驱鸟装置”。当然,如果上述字段为英文字段,可以直接使用空格符号进行分词,以获取英文初始词。
表二:
查询内容 | 初始词 |
驱鸟 | 如何、防止、鸟害、研制、一种、激光、驱鸟装置 |
步骤S103:从所述初始词中筛选出初始关键字。
通过上述步骤S102获得的初始词往往包含大量重复或无意义的词,因此需要对所述初始词进行筛选以确定初始关键字,如图3所示,为本发明实施例提供的一种初始关键字获取方法的流程示意图,所述初始关键字获取方法包括以下步骤:
步骤S1031:判断所述初始词中是否包括重复词。
在本发明实施例中,通过步骤S102中确定的初始词“如何”、“防止”、“鸟害”、“研制”、“一种”、“激光”和“驱鸟装置”不包括重复词,因此可以判定初始词中不包括重复词。当然在具体实施时,所述初始词可能包括2个“鸟害”或4个“激光”等,则判定所述初始词中包括重复词。
步骤S1032:如果所述初始词中包括重复词,删除重复词。
如果初始词中包括2个“鸟害”和4个“激光”,则从所述初始词汇总删除1个“鸟害”和3个“激光”,保证所述初始词中的词只出现一次。如果初始词中不包括重复词,则无需删除重复词,继续进入后续步骤。
步骤S1033:判断所述初始词中是否与无意义词库中的词相匹配。
由于初始词中包括一些量词、“的”等无意义的词,这些无意义的词对检索的结果不会产生有益影响反而可能增大检索负担和降低检索准确度,因此需要将上述无意义的词从初始词中去除。在具体应用中,技术人员可以预先设置无意义词库,所述无意义词库中包括量词、“我们”、“的”、“相关”、“例如”等无意义的词,对于英文,所述无意义词库中包括“of”、“an”等无意义的词,而且所述无意义词库可以。通过遍历的方式,查询初始词中是否与所述无意义词库中的词相匹配,在本发明实施例中,所述初始词中包括“如何”、“防止”、“研制”以及“一种”4个无意义的词。
步骤S1034:如果所述初始词与无意义词库中的词相匹配,将初始词中与无意义词库相匹配的词删除,获得初始关键字。
根据步骤S1033中确定的与无意义词库相匹配的词,从初始词中删除获得初始关键字,如表三所示为本发明实施例提供的初始关键字的结果,从初始词“如何”、“防止”、“鸟害”、“研制”、“一种”、“激光”和“驱鸟装置”中删除“如何”、“防止”、“研制”以及“一种”,从而得到初始关键字“鸟害”、“激光”和“驱鸟装置”。
表三
查询内容 | 初始关键字 |
驱鸟 | 鸟害、激光、驱鸟装置 |
需要说明的是,在上述初始关键字获取过程中,步骤S1031和步骤S1032,与步骤S1033和步骤S1034的实施顺序仅为示例性过程,例如可以先实施步骤S1033和步骤S1034,继而完成步骤S1031和步骤S1032,得到初始关键字。
步骤S104:利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字。
所述学术数据库可以理解为包括万方、知网、百度学术和谷歌学术等综合性的学术数据库,用于存储期刊、论文等文献,供技术人员进行技术检索的数据库。
而且,所述学术数据库也可以为专业性的学术数据库,例如化学学术数据库、电力学术数据库等。根据用户预先设定的行业类别信息,所述行业类别信息包括电力、航天、能源和医学中一个或多个的类别信息,进而优先检索与所述行业类别信息相匹配的学术数据库,以提高学术关键字的获取效率。在具体实施时,例如用户设定所述行业类别信息为电力,则优先检索电力行业的学术数据库;如果用户设定所述行业类别信息为电力+航天,则优先检索电力行业和航天行业的学术数据库。
在具体实施时,在所述学术数据库的检索框中分别检索所述查询内容“驱鸟”,以及所述初始关键字“鸟害”、“激光”和“驱鸟装置”;所述学术数据库返回相应的检索结果,所述检索结果一般为HTML文本格式,且包括论文标题、摘要、关键词、作者等信息,从所述检索结果中提取关键词作为学术关键字,如表四所示,为本发明实施例提供的学术关键字的结果,通过查询内容“驱鸟”获得学术关键字“鸟撞”和“机场”,通过初始关键字“鸟害”获得学术关键字“鸟害”和“跳闸”,根据初始关键字“激光”获得学术关键字“激光干扰”和“击穿特性”,根据初始关键字“驱鸟装置”获得学术关键字“超声波”和“强闪光”。
表四:
查询内容和初始关键字 | 学术关键字 |
驱鸟 | 鸟撞、机场 |
鸟害 | 鸟害、跳闸 |
激光 | 激光干扰、击穿特性 |
驱鸟装置 | 超声波、强闪光 |
步骤S105:将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字。
参见图4为本发明实施例提供的一种关键字合并方法的流程示意图,所述关键字合并方法包括以下步骤:
步骤S1051:将所述初始关键字、所述查询内容以及所述学术关键字合并。
在具体实施时,通过上述步骤可以确定所述初始关键字为“鸟害”、“激光”和“驱鸟装置”,所述查询内容为“驱鸟”,所述学术关键字为“鸟撞”、“机场”、“鸟害”、“跳闸”、“激光干扰”、“击穿特性”、“超声波”和“强闪光”,如表五所示,为本发明实施例提供的合并后关键字结果。
表五:
步骤S1052:判断合并后的关键字是否存在同义词或简写词。
合并后的关键字中一般会包括一些简写词和同义词,例如“风力发电”简写成“风电”,“镭射”是台湾地区常用词汇,其同义词为“激光”,在具体实施时需要判断合并后的关键字中是否出现所述同义词或简写词。具体的判断过程,包括建立简写词和同义词词库,通过判断关键字是否与上述词库中的词相匹配,判断合并后的关键字是否存在同义词或简写词。在本发明实施例中,根据步骤S1053确定的合并后的关键字不存在同义词或简写词。
步骤S1053:根据同义词词库,将合并后的关键字中存在的同义词或简写词转义。
在具体实施时,如果合并后的关键字存在同义词“镭射”,则根据“镭射”与同义词词库中“镭射”和“激光”的匹配关系,同义词“镭射”转义为“激光”;如果合并后的关键字存在简写词“风电”,则根据简写词“风电”与“风力发电”的匹配关系,转义为“风力发电”。当然,如果合并后的关键字中不存在同义词或简写词,则无需进行转义,直接进入后续步骤。
经过上述步骤后,由于本发明实施例提供的合并后的关键字不存在同义词或简写词,因此可以确定合并后的关键字“驱鸟”、“鸟撞”、“机场”、“鸟害”、“鸟害”、“跳闸”、“激光干扰”、“击穿特性”、“超声波”和“强闪光”为联想关键字。而且,在具体实施时,所述同义词库也可以设置包括电力、航天、能源和医学等领域的同义词或简写词的词库。根据所述行业类别信息,确定选取与所述行业类别信息相对应的同义词库。例如电力行业用户,检索电力行业相关信息,则在上述步骤中预设所述行业类别信息为电力,从而选用电力行业同义词库,进而判断是否存在电力行业的同义词或简写词,进行相应的转义操作。
在实际应用过程中,合并后的关键字一般存在重复关键字,为了去除重复关键字,参见图5,本发明实施例在图4所示步骤的基础上,提供了另一种关键字合并方法流程示意图,所述关键字合并方法还包括以下步骤:
步骤S1054:判断合并后的关键字是否存在重复关键字。
对比合并后的关键字中每个关键字,判定是否存在重复关键字,在本发行实施例中,可以确定合并后的关键字中,存在重复关键字“鸟害”。
步骤S1055:统计重复关键字的重复次数,并将重复关键字删除。
在对比关键字的过程中,对重复关键字进行计数,所述重复关键字“鸟害”的重复次数为1次;将所述重复关键字“鸟害”删除,只保留1个“鸟害”。
步骤S1056:根据所述重复次数将关键字排序,得到联想关键字。
根据步骤S1055的结果,关键字“鸟害”的重复次数为1次,其他关键字均不存在重复关键字,因此按照重复次数排序,所述关键字“鸟害”排在第一为,其他关键字的顺序可以依次后排一位,如表六所示,为本发明实施例提供的联想关键字的结果,最终确定联想关键字为“鸟害”、“驱鸟”、“鸟撞”、“机场”、“跳闸”、“激光干扰”、“击穿特性”、“超声波”和“强闪光”。通过统计所述重复次数,可以确定与技术人员需要检索的内容最相关的关键字,并将所述重复次数最高的关键字放置于第一位,进行优先检索,有利于提高检索的准确性和检索效率。
表六:
本发明实施例提供的检索关键字的联想方法,通过获取用户查询内容,并根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词,从所述初始词中筛选出初始关键字;然后利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字;最后将所述初始关键字、所述查询内容以及上述学术关键字合并得到联想关键字。在上述过程中,所述初始词与技术库中的技术方案和解决方案紧密相关,根据初始词确定的学术关键字进一步在技术领域内扩展了关键字的范围,最终获得的联想关键字能够与技术领域紧密相关,精确表征用户的检索意图,进而获得准确且广泛的检索结果,有效拓展用户的创新思路,满足技术创新需求。
通过以上的方法实施例的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
与本发明提供的检索关键字的联想方法实施例相对应,本发明还提供了一种检索关键字的联想装置。
参见图6,为本发明实施例提供的一种检索关键字的联想装置的结构示意图,所述装置包括:
用户查询内容获取模块11,用于获取用户查询内容;
初始词获取模块12,用于根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词;
初始关键字获取模块13,用于从所述初始词中筛选出初始关键字;
学术关键字获取模块14,用于利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字;
联想关键字组合模块15,用于将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字。
优选地,如图7所示,为本发明实施例提供的一种初始词获取模块的结构示意图,所述初始词获取模块12包括:
字段获取模块121,用于根据查询内容,从所述技术库中查询获得与所述查询内容相关的技术问题字段和解决方案字段;
分词模块122,用于将所述技术问题字段和所述解决方案字段分词,获得初始词。
参见图8,为本发明实施例提供的一种初始关键字获取模块的结构示意图,所述关键字获取模块13还包括:
第一重复判断模块131,用于判断所述初始词中是否包括重复词;
重复删除模块132,用于如果所述初始词中包括重复词,删除重复词;
无意义判断模块133,用于判断所述初始词是否与无意义词库中的词相匹配;
无意义删除模块134,用于如果所述初始词与无意义词库中的词相匹配,将初始词中与无意义词库相匹配的词删除,获得初始关键字。
参见图9,为本发明实施例提供的一种联想关键字组合模块的结构示意图,所述联想关键字组合模块15包括:
关键字合并模块151,用于将所述初始关键字、所述查询内容以及所述学术关键字合并;
同义判断模块152,用于比对合并后的关键字与同义词词库,判断合并后的关键字是否存在同义词或简写词;
转义模块153,用于如果合并后的关键字存在同义词或简写词,根据同义词词库,将合并后的关键字中存在的同义词或简写词转义。
为了去除重复关键字以及确定关键字优先级,进一步优化检索效率,如图10所示,为本发明实施例提供的另一种联想关键字组合模块的结构示意图,在图9所示联想关键字组合模块的基础上,还包括:
第二重复判断模块154,用于将所述初始关键字、所述查询内容以及所述学术关键字合并后,判断合并后的关键字中是否存在重复关键字;
重复管理模块155,用于如果存在重复关键字,统计关键字的重复次数,并将重复的关键字删除;
排序生成模块156,用于根据所述重复次数将关键字排序,得到联想关键字。
由上述实施例可见,本发明实施例提供的关键字联想装置通过获取用户查询内容,并根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词,从所述初始词中筛选出初始关键字;然后利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字;最后将所述初始关键字、所述查询内容以及上述学术关键字合并得到联想关键字。在上述过程中,所述初始词与技术库中的技术方案和解决方案紧密相关,根据初始词确定的学术关键字进一步在技术领域内扩展了关键字的范围,最终获得的联想关键字能够与技术领域紧密相关,精确表征用户的检索意图,进而获得准确且广泛的检索结果,有效拓展用户的创新思路,满足技术创新需求。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种检索关键字的联想方法,其特征在于,包括以下步骤:
获取用户查询内容;
根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词;
从所述初始词中筛选出初始关键字;
利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字;
将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字。
2.根据权利要求1所述的检索关键字的联想方法,其特征在于,所述根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词,包括:
根据查询内容,从所述技术库中查询获得与所述查询内容相关的技术问题字段和解决方案字段;
将所述技术问题字段和所述解决方案字段分词,获得初始词。
3.根据权利要求1所述的检索关键字的联想方法,其特征在于,所述从所述初始词中筛选出初始关键字,包括:
判断所述初始词中是否包括重复词;
如果所述初始词中包括重复词,删除重复词;
判断所述初始词是否与无意义词库中的词相匹配;
如果所述初始词与无意义词库中的词相匹配,将初始词中与无意义词库相匹配的词删除,获得初始关键字。
4.根据权利要求1所述的检索关键字的联想方法,其特征在于,所述将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字,包括:
将所述初始关键字、所述查询内容以及所述学术关键字合并;
比对合并后的关键字与同义词词库,判断合并后的关键字是否存在同义词或简写词;
如果合并后的关键字存在同义词或简写词,根据同义词词库,将合并后的关键字中的同义词或简写词转义。
5.根据权利要求1或4所述的检索关键字的联想方法,其特征在于,所述将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字,还包括:
将所述初始关键字、所述查询内容以及所述学术关键字合并后,判断合并后的关键字中是否存在重复关键字;
如果存在重复关键字,统计关键字的重复次数,并将重复的关键字删除;
根据所述重复次数将关键字排序,得到联想关键字。
6.一种检索关键字的联想装置,其特征在于,包括:
用户查询内容获取模块,用于获取用户查询内容;
初始词获取模块,用于根据所述查询内容,查询包括技术问题和解决方案的技术库,获得初始词;
初始关键字获取模块,用于从所述初始词中筛选出初始关键字;
学术关键字获取模块,用于利用所述初始关键字以及所述查询内容,分别查询学术数据库,获得学术关键字;
联想关键字组合模块,用于将所述初始关键字、所述查询内容以及所述学术关键字合并为联想关键字。
7.根据权利要求6所述的检索关键字的联想装置,其特征在于,所述初始词获取模块包括:
字段获取模块,用于根据查询内容,从所述技术库中查询获得与所述查询内容相关的技术问题字段和解决方案字段;
分词模块,用于将所述技术问题字段和所述解决方案字段分词,获得初始词。
8.根据权利要求6所述的检索关键字的联想装置,其特征在于,所述初始关键字获取模块包括:
第一重复判断模块,用于判断所述初始词中是否包括重复词;
重复删除模块,用于如果所述初始词中包括重复词,删除重复词;
无意义判断模块,用于判断所述初始词是否与无意义词库中的词相匹配;
无意义删除模块,用于如果所述初始词与无意义词库中的词相匹配,将初始词中与无意义词库相匹配的词删除,获得初始关键字。
9.根据权利要求6所述的检索关键字的联想装置,其特征在于,所述联想关键字组合模块包括:
关键字合并模块,用于将所述初始关键字、所述查询内容以及所述学术关键字合并;
同义判断模块,用于比对合并后的关键字与同义词词库,判断合并后的关键字是否存在同义词或简写词;
转义模块,用于如果合并后的关键字存在同义词或简写词,根据同义词词库,将合并后的关键字中的同义词或简写词转义。
10.根据权利要求6或9所述的检索关键字的联想装置,其特征在于,所述联想关键字组合模块还包括:
第二重复判断模块,用于将所述初始关键字、所述查询内容以及所述学术关键字合并后,判断合并后的关键字中是否存在重复关键字;
重复管理模块,用于如果存在重复关键字,统计关键字的重复次数,并将重复的关键字删除;
排序生成模块,用于根据所述重复次数将关键字排序,得到联想关键字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511007491.3A CN105653660A (zh) | 2015-12-29 | 2015-12-29 | 一种检索关键字的联想方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511007491.3A CN105653660A (zh) | 2015-12-29 | 2015-12-29 | 一种检索关键字的联想方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105653660A true CN105653660A (zh) | 2016-06-08 |
Family
ID=56477058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511007491.3A Pending CN105653660A (zh) | 2015-12-29 | 2015-12-29 | 一种检索关键字的联想方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105653660A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489526A (zh) * | 2019-08-13 | 2019-11-22 | 上海市儿童医院 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
CN113128209A (zh) * | 2021-04-22 | 2021-07-16 | 百度在线网络技术(北京)有限公司 | 用于生成词库的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1752966A (zh) * | 2004-09-24 | 2006-03-29 | 北京亿维讯科技有限公司 | 使用本体论和用户查询处理技术解决问题的方法 |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
CN102402619A (zh) * | 2011-12-23 | 2012-04-04 | 广东威创视讯科技股份有限公司 | 一种搜索方法和装置 |
CN103324688A (zh) * | 2013-06-04 | 2013-09-25 | 北京大学 | 本体知识库的检索方法和装置 |
-
2015
- 2015-12-29 CN CN201511007491.3A patent/CN105653660A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1752966A (zh) * | 2004-09-24 | 2006-03-29 | 北京亿维讯科技有限公司 | 使用本体论和用户查询处理技术解决问题的方法 |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
CN102402619A (zh) * | 2011-12-23 | 2012-04-04 | 广东威创视讯科技股份有限公司 | 一种搜索方法和装置 |
CN103324688A (zh) * | 2013-06-04 | 2013-09-25 | 北京大学 | 本体知识库的检索方法和装置 |
Non-Patent Citations (1)
Title |
---|
毛琪等: "基于网络知识库与通用搜索引擎的查询词扩展方法", 《计算机应用》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489526A (zh) * | 2019-08-13 | 2019-11-22 | 上海市儿童医院 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
CN113128209A (zh) * | 2021-04-22 | 2021-07-16 | 百度在线网络技术(北京)有限公司 | 用于生成词库的方法及装置 |
CN113128209B (zh) * | 2021-04-22 | 2023-11-24 | 百度在线网络技术(北京)有限公司 | 用于生成词库的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
US10719560B2 (en) | System for identifying, associating, searching and presenting documents based on relation combination | |
CN106503175B (zh) | 相似文本的查询、问题扩展方法、装置及机器人 | |
US10719559B2 (en) | System for identifying, associating, searching and presenting documents based on time sequentialization | |
CN104636478A (zh) | 信息查询方法和设备 | |
CN104915447A (zh) | 一种热点话题追踪及关键词确定方法及装置 | |
CN102999625A (zh) | 一种检索请求语义扩展方法 | |
CN104317834A (zh) | 一种基于深度神经网络的跨媒体排序方法 | |
CN103886063A (zh) | 一种文本检索方法和装置 | |
CN105868177A (zh) | 一种通用公式搜索方法 | |
CN105631007A (zh) | 一种行业技术信息搜集方法及系统 | |
CN104657376A (zh) | 基于节目关系的视频节目的搜索方法和装置 | |
CN106844640A (zh) | 一种网页数据分析处理方法 | |
CN111190920B (zh) | 一种基于自然语言的数据交互查询方法及其系统 | |
CN102819592A (zh) | 一种基于Lucene的桌面搜索系统及方法 | |
CN103914488B (zh) | 文档的采集、标识、关联、搜索及展现的系统 | |
CN107844271A (zh) | 一种分级存储的方法、装置及计算机可读存储介质 | |
CN105373546A (zh) | 一种用于知识服务的信息处理方法及系统 | |
CN103914486B (zh) | 文档的搜索及展现的系统 | |
CN115757689A (zh) | 一种信息查询系统、方法及设备 | |
Cao et al. | Searching for truth in a database of statistics | |
CN103678302B (zh) | 一种文档结构化组织方法及装置 | |
CN104850559A (zh) | 基于演示文档的幻灯片独立存储、检索与重组方法及设备 | |
CN105653660A (zh) | 一种检索关键字的联想方法及装置 | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160608 |