CN105893626A - 一种用于核电工程的索引库创建方法及其采用其方法的索引系统 - Google Patents

一种用于核电工程的索引库创建方法及其采用其方法的索引系统 Download PDF

Info

Publication number
CN105893626A
CN105893626A CN201610305335.3A CN201610305335A CN105893626A CN 105893626 A CN105893626 A CN 105893626A CN 201610305335 A CN201610305335 A CN 201610305335A CN 105893626 A CN105893626 A CN 105893626A
Authority
CN
China
Prior art keywords
term
user
frequency
index database
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610305335.3A
Other languages
English (en)
Inventor
侯斌
涂红兵
王云福
刘东海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China General Nuclear Power Corp
China Nuclear Power Engineering Co Ltd
Original Assignee
China General Nuclear Power Corp
China Nuclear Power Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China General Nuclear Power Corp, China Nuclear Power Engineering Co Ltd filed Critical China General Nuclear Power Corp
Priority to CN201610305335.3A priority Critical patent/CN105893626A/zh
Publication of CN105893626A publication Critical patent/CN105893626A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种用于核电站工程文件词库的索引库创建方法及其采用其创建方法的索引库,所述索引库创建方法包括步骤:S1、获取核电站的工程文件,在所述工程文件中采用串频统计和串匹配结合方式以查询字符串,判断所述字符串是否为核电站的有效用词,若判断为是,将所述字符串收录并创建索引库;S2、获取用户输入的检索词,记录用户输入的相同的所述检索词的频率,当记录的所述检索词的频率达到预设阈值时,将所述检索词收录以更新所述索引库。

Description

一种用于核电工程的索引库创建方法及其采用其方法的索引 系统
技术领域
本发明涉及互联网领域,尤其涉及一种用于核电工程的索引库创建方法。
背景技术
随着信息文本资源不断地积累和被制造,采用文本搜索进行信息的获取一种高效的信息获取手段。
现有的,查找文本常通过搜索引擎来完成,其中,作为搜索引擎的核心,索引库的建立往往决定着搜索引擎的搜索效率。对企业级搜索引擎而言,搜索的准确性往往能够为用户带来更为高效的搜索体验。企业级搜索引擎系统主要包括核心索引库,在建立索引库时,通过对抓取的数据信息如中文文本信息进行分词,以得到索引。在分词时,其是以默认词库作为分词规则对中文文本进行分词,即是说,以默认词库中的字、词作为对中文文本中的段或句进行切分,以形成一定的相互独立词组。
现有的机械分词方法是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。然而,其存在分词精度低,导致检索命中率低且容易产生歧义,同时还存在词库固化,难以动态更新词库。
发明内容
本发明针对现有的企业级存在分词精度低,导致检索命中率低且容易产生歧义,同时还存在词库固化,难以动态更新词库的问题,提供了一种用于核电站工程文件的索引库创建方法及其应用其方法的索引系统。
本发明就上述技术问题而提出的技术方案如下:
一方面,提供一种用于核电站工程文件词库的索引库创建方法,包括步骤:
S1、获取核电站的工程文件,在所述工程文件中采用串频统计和串匹配结合方式以查询字符串,判断所述字符串是否为核电站的有效用词,若判断为是,将所述字符串收录并创建索引库;
S2、获取用户输入的检索词,记录用户输入的相同的所述检索词的频率,当记录的所述检索词的频率达到预设阈值时,将所述检索词收录以更新所述索引库。
根据上述的用于核电工程的索引库创建方法,所述步骤S1具体包括:
获取所述工程文件后,采用所述串频统计方式以查询所述字符串,判断所述字符串是否为所述有效用词;
获取所述工程文件后,采用所述串匹配方式以查询所述字符串,判断所述字符串是否为所述有效用词;
当采用所述串频统计方式和所述串匹配方式查询的所述字符串均判定为所述有效词时,所述字符串收录并创建所述索引库。
根据上述的用于核电工程的索引库创建方法,所述步骤S2具体包括:
记录并统计在预设时间内用户输入的相同的检索词的频率,当记录的所述检索词的频率达到所述预设阈值时,将所述检索词收录至所述索引库。
根据上述的用于核电工程的索引库创建方法,所述步骤S2具体包括:对达到所述预设阈值的所述检索词依照频次的高低进行排序并生成顺序表,并将所述顺序表划分为多个顺序段,选定指定所述顺序段中的所述字符串收录至所述索引库中。
根据上述的用于核电工程的索引库创建方法,所述步骤S2进一步包括:对所述用户输入的检索词进行语法判断,若判断出所述用户输入的所述检索词存在语法错误,对所述用户输入的检索词按语法进行再次构造并生成纠正检索词。
另一方面,提供一种上述的用于核电站工程文件词库的索引库创建方法的索引系统,包括:
工程文件获取模块,用于获取核电站的工程文件;
第一处理模块,与所述工程文件获取模块连接,用于采用串频统计和串匹配方式对所述工程文件进行字符串的查询,判断所述字符串是否为有效用词,若判断为是,将所述字符串收录并创建索引库;
用户输入模块,提供用户输入检索词的操作界面;
用户数据统计模块,与所述用户输入模块连接,记录并统计用户输入的相同的所述检索词的频率;
第二处理模块,与所述用户数据统计模块连接,当判断记录的所述检索词的频率达到预设阈值时,将所述检索词收录以更新所述索引库;
搜索模块,分别与所述用户输入模块、所述索引库连接,用于根据用户输入的内容在所述索引库中查找对应的所述检索词;
结果反馈模块,与所述搜索模块连接,用于根据查找到对应的所述检索词将对应的所述工程文件提供至用户。
根据上述的索引系统,所述用户数据统计模块对达到所述预设阈值的所述检索词依照频次的高低进行排序并生成顺序表,并将所述顺序表划分为多个顺序段,选定指定所述顺序段中的所述字符串收录至所述索引库中。
根据上述的索引系统,进一步包括语法纠正模块,所述语法纠正模块用于对所述用户输入的检索词进行语法判断,若判断出所述用户输入的所述检索词存在语法错误,对所述用户输入的检索词按语法规则进行再次构造并生成纠正检索词,并将所述纠正检索词送至第二处理模块进行判断。
根据上述的索引系统,进一步包括用户行为记录模块,用于与所述用户输入模块、所述用户数据统计模块及所述第二处理模块连接,用于记录所述用户的输入行为。
根据上述的索引系统,进一步包括反馈处理模块,与所述结果反馈模块连接,并根据预设条件对提供至用户的工程文件进行排序。
本发明实施例提供的技术方案带来的有益效果是:
本发明索引库的创建有由两步骤共同决定,其一为获取核电站的工程文件,在工程文件中采用串频统计和串匹配结合方式以查询字符串,判断字符串是否为核电站的有效用词,若判断为是,将字符串收录并创建索引库;其二为获取用户输入的检索词,记录用户输入的相同的检索词的频率,当记录的检索词的频率达到预设阈值时,将检索词收录以更新索引库;
其中,当串频统计和串匹配所得的字符串均被判定为核电站的有效用词时,将该字符串收录以创建索引库,判定为核电站的有效词,更加符合核电站用户的操作习惯,自动消除歧义,提高搜索的准确度;出于同样的创建索引库的目的,还通过获取用户的检索词,记录并统计用户输入相同的检索词的频率,当至一定的预设阈值时,将该检索词收录以更新索引库中的索引,实现索引的不断刷新,更加符合核电站用户的搜索习惯,提高搜索的速度和精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明用于核电站工程文件词库的索引库创建方法的流程示意图;
图2是本发明用于核电站工程文件词库的索引库创建方法的索引系统结构示意图;
图3是图2中的索引系统结构一更具体结构的示意图;
图4是本发明用于核电站工程文件词库的索引库创建方法的索引系统结构的一具体应用结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在核电站的运行过程中,核电站工作人员常需调用大量工程文件以查看相关技术信息或当前、近期的记录信息及备忘等,然而,对企业级搜索而言,专业性较强,在进行搜索时往往并不会过多涉及与企业涉及的领域不相关的信息,因此利用企业级搜索特点并结合传统搜索的特点,本发明公开一种用于核电站工程文件词库的索引库创建方法和采用该种创建方法的索引系统,以降低搜索歧义,提高搜索的速度和精度,且用户体验好。
本发明的串频统计方式为在一篇或多篇工程文件中,相互相邻的字词出现的频率;本发明中的串匹配为从海量的词库中查询以判断字符串是否满足词的条件;本发明的有效用词为核电站的术语词、用户默认词及称号等。
参见图1,本发明的用于核电站工程文件词库的索引库创建方法,包括步骤:
S1、获取核电站的工程文件,在工程文件中采用串频统计和串匹配结合方式以查询字符串,判断字符串是否为核电站的有效用词,若判断为是,将字符串收录并创建索引库;
S2、获取用户输入的检索词,记录用户输入的相同的检索词的频率,当记录的检索词的频率达到预设阈值时,将检索词收录以更新索引库。
本发明通过结合串频统计和串匹配的方式对字符串进行查询,当串频统计和串匹配所得的字符串均被判定为核电站的有效用词时,将该字符串收录以创建索引库,判定为核电站的有效词,更加符合核电站用户的操作习惯,很大程度上消除歧义,提高搜索的准确度;出于同样的创建索引库的目的,还通过获取用户的检索词,记录并统计用户输入相同的检索词的频率,当至一定的预设阈值时,将该检索词收录以更新索引库中的索引,实现索引的不断刷新,更加符合用户的搜索习惯,提高搜索的速度和精度,从而解决现有采用的索引库创建的字符串的收录方式单一且不能满足用户搜索需求的问题。
当然,尽管现在的索引库可能具有输入频次统计功能,但现有其功能的实现都是通过云计算获得的高频词,对于企业级有针对性的查询显然不能适用。此处关于采用串频匹配和串匹配方式生成的索引与通过核电用户人员输入检索词所收录的索引的优先度而言,默认情况下,通过核电用户人员输入检索词所收录的索引的优先度更高,更加符合核电站用户的操作需求,明显提高搜索精度和提高查询效率。
进一步地,上述的步骤S1具体包括:
获取工程文件后,采用串频统计方式以查询字符串,判断字符串是否为有效用词;
获取工程文件后,采用串匹配方式以查询字符串,判断字符串是否为有效用词;
当采用串频统计方式和串匹配方式查询的字符串均判定为有效词时,字符串收录并创建索引库。
字符串的可收录性取决其是否为有效词,而有效词的判定则通过串频匹配和串匹配的方式进行判定,且仅当串频匹配和串匹配判定的结果同为有效词时,该字符串才能被收录,从而进行索引库的创建。充分利用串频匹配和串匹配各自的优点,使得分词更快、消除歧义且效率高。
进一步地,上述的步骤S2具体包括:
通过记录并统计在预设时间内用户输入的相同的检索词的频率,当记录的检索词的频率达到预设阈值时,将检索词收录至索引库。此处的预设时间,可根据用户的输入频率或者操作频率确定,如当用户每周输入检索词的频次不高,那么可将预设时间调至以月或季度为单位,根据记录和统计而收录的词更符合用户的搜索需求。
为了提供更佳的搜索体验,步骤S2具体包括:对达到预设阈值的检索词依照频次的高低进行排序并生成顺序表,并将顺序表划分为多个顺序段,选定指定顺序段中的字符串收录至索引库中。
在一个实施例中,对达到预设阈值的检索词依照频次的高低进行排序并生成顺序表,并将顺序表划分为多个顺序段,再将顺序段中的检索词纳入至索引库中。即是说,用户可根据自身需要,选择特定的顺序段,如设定:选定顺序为1至30位的检索词纳入至索引库中,当记录的用户输入的相同的检索词达到300次时,将达到300次的文本按频次的高低进行顺序排序并生成1-100位顺序表,将1-100的顺序表分为三个顺序段,如1-30、31-60以及61-100位,此处将1-30位顺序段的文本收录至索引库中,当然用户可根据自身需要选取特定顺序段的检索词收录至索引库中。这样做的好处在于,可为用户提供更加人性化且精确的搜索。如用户在某段时间内输入过多次数的相同检索词或文本导致该文本被置顶,而用户认为可指定特定顺序段的检索词纳入至索引库中,以提高搜索效率。与此同时,通过顺序表的建立还使得本发明的索引库中的文本实现动态更新,从而符合用户需求。
此外,针对用户输入的检索词存在语法错误的,步骤S2进一步包括:对用户输入的检索词进行语法判断,若判断出用户输入的检索词存在语法错误,对用户输入的检索词按语法进行再次构造并生成纠正检索词,以保证用户输入的检索词与其本身所要表达的意思在一定程度上相接近。
参见图2,采用上述的用于核电站工程文件词库的索引库创建方法的索引系统,包括:
工程文件获取模块11,用于获取核电站的工程文件;
第一处理模块12,与工程文件获取模块11连接,用于采用串频统计和串匹配方式对工程文件进行字符串的查询,判断字符串是否为有效用词,若判断为是,将字符串收录并创建索引库13;
用户输入模块14,提供用户输入检索词的操作界面;
用户数据统计模块15,与用户输入模块14连接,记录并统计用户输入的相同的检索词的频率;
第二处理模块16,与用户数据统计模块15连接,当判断记录的检索词的频率达到预设阈值时,将检索词收录以更新索引库;
搜索模块17,分别与用户输入模块14、索引库13连接,用于根据用户输入的内容在索引库中查找对应的检索词;
结果反馈模块18,与搜索模块17连接,用于根据查找到对应的检索词将对应的工程文件提供至用户。
工程文件获取模块11获取工程文件,第一处理模块12对工程文件进行处理,即先对工程文件的内容文本采用串频匹配和串匹配的方式进行切分并判断是否为有效词,判断确定后将判定的有效词收录并创建索引库13。在上述索引库13的基础上,用户通过用户输入模块14进行检索词(文本)输入,此时,用户数据统计模块15记录用户输入的检索词,且对出现相同的检索词进行频次统计,进行统计后的检索词由第二处理模块16进行处理,即进行频次的判断,当相同的检索词出现的频次超过预设阈值时,第二处理模块16将超过预设阈值频次的检索词收录至索引库13中,以实现索引库的更新。当然,此处可对超过预设阈值频次的检索词的数量进行限定,即采用串频匹配和串频方式收录的词的数量与检索词超过预设阈值频次收录的词的数量具有一定的配比关系,提供用户的搜索体验。
进一步地,用户数据统计模块15对达到预设阈值的检索词依照频次的高低进行排序并生成顺序表,并将顺序表划分为多个顺序段,选定指定顺序段中的字符串收录至索引库中。用户可选定某个特定段的顺序段进行收录(如在某段时间内输入过多的一检索词,以致该检索词被置顶,而在某次搜索时,用户想刻意避开该检索词的情况),顺序表的建立使得本发明的索引库中的索引实现实时更新,从而符合用户需求,同时也为用户提供更为人性化且精确的搜索。
参见图3,与图2展示的结构的不同之处在于:
进一步包括语法纠正模块141,与用户输入模块14、用户数据统计模块15以及搜索模块17连接,语法纠正模块141用于对用户输入的检索词进行语法判断,若判断出用户输入的检索词存在语法错误,对用户输入的检索词按语法规则进行再次构造并生成纠正检索词,并将纠正检索词送至第二处理模块16进行判断。通过语法纠正模块141的设置,能有效提高搜索的精度。
进一步包括用户行为记录模块142,与用户输入模块14连接,用于记录用户的输入行为。通过记录用户的输入行为,如用户有在输入的检索词后加特殊符号习惯的,根据用户最终选定的搜索目标文件,如搜索目标文件具有与输入的文本严格匹配的语句,以确定下次是否在用户再次在输入的文本后加特殊符号时,只进行严格匹配的匹配查询,提高用户搜索效率,并可进行大数据挖掘,提供拓展空间,为研究人员提供素材。
进一步包括反馈处理模块181,与结果反馈模块18连接,并根据预设条件对提供至用户的工程文件进行排序,使查找到的工程文件以客户想要的方式呈现给用户,如根据内容关联度、搜索热度等进行排列。
参见图4,为本发明的更具体的一个实施例,且对应图1至图3中内容。
内容提取器25对文件及进行内容提取处理,第一处理器26采用串频匹配和串匹配的方式对提取的内容进行查询字符串处理,并判断字符串是否为核电站的有效用词,若判断为是,将字符串收录并创建索引库27。对用户输入的,用户通过第一输入设备30在搜索用户界面中输入检索词,此处的第一输入设备30为前述的用户输入模块14更具体的装置,输入检索词后,语法纠正器29对其进行语法判断,若不存在语法错误则直接将检索词输送至第二处理器28;若存在语法错误,则进行纠正处理以生成纠正检索词。第二处理器28对检索词或纠正检索词进行处理,记录用户输入的相同的检索词的频率,且当记录的检索词的频率达到预设阈值时,将检索词收录并更新索引库。第二处理器28处理的检索词同样被送至搜索器31中,当然,用户通过第一输入设备30输入的检索词亦可同样直接送至搜索器31。搜索器31根据用户输入的内容在索引库中查找对应的检索词,并通过反馈处理器32根据查找到对应的检索词将对应的工程文件提供至用户。用户行为收集/审计器34根据用户从第一输入设备30输入的检索词进行行为收集,通过用户行为收集/审计器34对用户的输入行为进行判断、分析并将所得信息收集与用户行为信息库36中。而对于权限较高的用户而言,可通过第二输入设备33对用户行为收集/审计器34的判断条件、分析等进行修改后,以满足控制需求。与此同时,权限较高的用户还可以通过系统管理接口35对服务器37和控制器38进行相应的操作,以使控制符合企业的需要。
其中,内容提取其25可通过数据连接器24获取本地的核电站工程文件,更具体而言是通过本地文件连接器从本地文件21中提取信息,也可直接取用数据库22中的数据信息。当然,还可增设网络爬虫连接器并利用爬虫软件23在互联网/内部网/局域网等渠道获取信息,以实现更为强大的搜索功能。
此处的内容提取器25功能为前述的工程文件获取模块;第一处理器26的功能为前述的第一处理模块;第二处理器28为前述的第二处理模块和用户数据统计模块的功能集成;语法纠正器29为前述的语法纠正模块;第一输入设备30和第二输入设备33为前述的用户输入模块;搜索器31为前述的搜索模块;反馈处理器32为前述的结果反馈模块和反馈处理模块的功能集成;用户行为收集/审计器34为前述的用户行为记录模块。当然,在实际应用过程中,模块对应的装置可能具有更多的功能或是存在差异,此处不再赘述。
综上所述,本发明的核心思想是创建一个索引库,且该索引库的创建有由两步骤共同决定,其一为获取核电站的工程文件,在工程文件中采用串频统计和串匹配结合方式以查询字符串,判断字符串是否为核电站的有效用词,若判断为是,将字符串收录并创建索引库;其二为获取用户输入的检索词,记录用户输入的相同的检索词的频率,当记录的检索词的频率达到预设阈值时,将检索词收录以更新索引库。其中,当串频统计和串匹配所得的字符串均被判定为核电站的有效用词时,将该字符串收录以创建索引库,判定为核电站的有效词,更加符合核电站用户的操作习惯,自动消除歧义,提高搜索的准确度;出于同样的创建索引库的目的,还通过获取用户的检索词,记录并统计用户输入相同的检索词的频率,当至一定的预设阈值时,将该检索词收录以更新索引库中的索引,实现索引的不断刷新,更加符合核电站用户的搜索习惯,提高搜索的速度和精度。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于核电站工程文件词库的索引库创建方法,其特征在于,包括步骤:
S1、获取核电站的工程文件,在所述工程文件中采用串频统计和串匹配结合方式以查询字符串,判断所述字符串是否为核电站的有效用词,若判断为是,将所述字符串收录并创建索引库;
S2、获取用户输入的检索词,记录用户输入的相同的所述检索词的频率,当记录的所述检索词的频率达到预设阈值时,将所述检索词收录以更新所述索引库。
2.根据权利要求1所述的用于核电站工程文件词库的索引库创建方法,其特征在于,所述步骤S1具体包括:
获取所述工程文件后,采用所述串频统计方式以查询所述字符串,判断所述字符串是否为所述有效用词;
获取所述工程文件后,采用所述串匹配方式以查询所述字符串,判断所述字符串是否为所述有效用词;
当采用所述串频统计方式和所述串匹配方式查询的所述字符串均判定为所述有效词时,所述字符串收录并创建所述索引库。
3.根据权利要求1所述的用于核电站工程文件词库的索引库创建方法,其特征在于,所述步骤S2具体包括:
记录并统计在预设时间内用户输入的相同的检索词的频率,当记录的所述检索词的频率达到所述预设阈值时,将所述检索词收录至所述索引库。
4.根据权利要求3所述的用于核电站工程文件词库的索引库创建方法,其特征在于,所述步骤S2具体包括:对达到所述预设阈值的所述检索词依照频次的高低进行排序并生成顺序表,并将所述顺序表划分为多个顺序段,选定指定所述顺序段中的所述字符串收录至所述索引库中。
5.根据权利要求3所述的用于核电工程的索引库创建方法,其特征在于,所述步骤S2进一步包括:对所述用户输入的检索词进行语法判断,若判断出所述用户输入的所述检索词存在语法错误,对所述用户输入的检索词按语法进行再次构造并生成纠正检索词。
6.一种采用如权利要求1所述的用于核电站工程文件词库的索引库创建方法的索引系统,其特征在于,包括:
工程文件获取模块,用于获取核电站的工程文件;
第一处理模块,与所述工程文件获取模块连接,用于采用串频统计和串匹配方式对所述工程文件进行字符串的查询,判断所述字符串是否为有效用词,若判断为是,将所述字符串收录并创建索引库;
用户输入模块,提供用户输入检索词的操作界面;
用户数据统计模块,与所述用户输入模块连接,记录并统计用户输入的相同的所述检索词的频率;
第二处理模块,与所述用户数据统计模块连接,当判断记录的所述检索词的频率达到预设阈值时,将所述检索词收录以更新所述索引库;
搜索模块,分别与所述用户输入模块、所述索引库连接,用于根据用户输入的内容在所述索引库中查找对应的所述检索词;
结果反馈模块,与所述搜索模块连接,用于根据查找到对应的所述检索词将对应的所述工程文件提供至用户。
7.根据权利要求6所述的索引系统,其特征在于,所述用户数据统计模块对达到所述预设阈值的所述检索词依照频次的高低进行排序并生成顺序表,并将所述顺序表划分为多个顺序段,选定指定所述顺序段中的所述字符串收录至所述索引库中。
8.根据权利要求6所述的索引系统,其特征在于,进一步包括语法纠正模块,所述语法纠正模块用于对所述用户输入的检索词进行语法判断,若判断出所述用户输入的所述检索词存在语法错误,对所述用户输入的检索词按语法规则进行再次构造并生成纠正检索词,并将所述纠正检索词送至第二处理模块进行判断。
9.根据权利要求6所述的索引系统,其特征在于,进一步包括用户行为记录模块,用于与所述用户输入模块、所述用户数据统计模块及所述第二处理模块连接,用于记录所述用户的输入行为。
10.根据权利要求6所述的索引系统,其特征在于,进一步包括反馈处理模块,与所述结果反馈模块连接,并根据预设条件对提供至用户的工程文件进行排序。
CN201610305335.3A 2016-05-10 2016-05-10 一种用于核电工程的索引库创建方法及其采用其方法的索引系统 Pending CN105893626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610305335.3A CN105893626A (zh) 2016-05-10 2016-05-10 一种用于核电工程的索引库创建方法及其采用其方法的索引系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610305335.3A CN105893626A (zh) 2016-05-10 2016-05-10 一种用于核电工程的索引库创建方法及其采用其方法的索引系统

Publications (1)

Publication Number Publication Date
CN105893626A true CN105893626A (zh) 2016-08-24

Family

ID=56702588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610305335.3A Pending CN105893626A (zh) 2016-05-10 2016-05-10 一种用于核电工程的索引库创建方法及其采用其方法的索引系统

Country Status (1)

Country Link
CN (1) CN105893626A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147660A (zh) * 2017-06-01 2017-09-08 上海斐讯数据通信技术有限公司 一种海量用户高效登录认证方法及系统
CN107169092A (zh) * 2017-05-12 2017-09-15 暴风体育(北京)有限责任公司 交互过程中智能识别并处理敏感内容的方法及系统
CN107247798A (zh) * 2017-06-27 2017-10-13 北京京东尚科信息技术有限公司 构建搜索词库的方法和装置
CN111444716A (zh) * 2020-03-30 2020-07-24 深圳市微购科技有限公司 标题分词方法、终端及计算机可读存储介质
CN112835919A (zh) * 2021-02-24 2021-05-25 武汉联影医疗科技有限公司 医学数据库更新方法、装置、计算机设备和存储介质
CN113590736A (zh) * 2021-08-12 2021-11-02 成都数之联科技有限公司 索引管理方法、装置、电子设备和可读存储介质
CN114661766A (zh) * 2022-03-29 2022-06-24 广东东软学院 基于云计算的大数据信息技术开发咨询服务系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101887417A (zh) * 2009-05-13 2010-11-17 上海即略网络信息科技有限公司 一种搜索方法
CN102165435A (zh) * 2007-08-01 2011-08-24 金格软件有限公司 使用因特网语料库的自动上下文相关语言产生、校正和增强
CN103559313A (zh) * 2013-11-20 2014-02-05 北京奇虎科技有限公司 搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102165435A (zh) * 2007-08-01 2011-08-24 金格软件有限公司 使用因特网语料库的自动上下文相关语言产生、校正和增强
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101887417A (zh) * 2009-05-13 2010-11-17 上海即略网络信息科技有限公司 一种搜索方法
CN103559313A (zh) * 2013-11-20 2014-02-05 北京奇虎科技有限公司 搜索方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169092A (zh) * 2017-05-12 2017-09-15 暴风体育(北京)有限责任公司 交互过程中智能识别并处理敏感内容的方法及系统
CN107147660A (zh) * 2017-06-01 2017-09-08 上海斐讯数据通信技术有限公司 一种海量用户高效登录认证方法及系统
CN107247798A (zh) * 2017-06-27 2017-10-13 北京京东尚科信息技术有限公司 构建搜索词库的方法和装置
CN111444716A (zh) * 2020-03-30 2020-07-24 深圳市微购科技有限公司 标题分词方法、终端及计算机可读存储介质
CN112835919A (zh) * 2021-02-24 2021-05-25 武汉联影医疗科技有限公司 医学数据库更新方法、装置、计算机设备和存储介质
CN113590736A (zh) * 2021-08-12 2021-11-02 成都数之联科技有限公司 索引管理方法、装置、电子设备和可读存储介质
CN113590736B (zh) * 2021-08-12 2024-05-07 成都数之联科技股份有限公司 索引管理方法、装置、电子设备和可读存储介质
CN114661766A (zh) * 2022-03-29 2022-06-24 广东东软学院 基于云计算的大数据信息技术开发咨询服务系统

Similar Documents

Publication Publication Date Title
CN105893626A (zh) 一种用于核电工程的索引库创建方法及其采用其方法的索引系统
CN104679850B (zh) 地址结构化方法及装置
CN105159938B (zh) 检索方法和装置
CN102591475B (zh) 一种在线编辑器的内容输入方法及系统
CN102708100A (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN105843850B (zh) 搜索优化方法和装置
CN104679867B (zh) 基于图的地址知识处理方法及装置
US9075870B2 (en) System, method and apparatus for detecting related topics and competition topics based on topic templates and association words
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
CN110069763B (zh) 合同文本定制方法、装置、设备及可读存储介质
CN110909170A (zh) 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN107102993A (zh) 一种用户诉求分析方法和装置
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
AU2016201273A1 (en) Recommending form fragments
CN112182148A (zh) 一种基于全文检索的标准辅助编写方法
CN103678513B (zh) 一种交互式的检索式生成方法及系统
CN105488113B (zh) 论文的搜索方法、装置及搜索引擎
KR101929649B1 (ko) 채팅로그 키워드 추출을 통한 관심사 관련 오픈 채팅방 추천 시스템 및 방법
CN102662953B (zh) 与输入法集成的语义标注系统和方法
CN117093686A (zh) 智能问答匹配方法、装置、终端及存储介质
CN116467286A (zh) 一种建筑工程造价咨询数据库的建立方法及系统
CN117171296A (zh) 信息获取方法、装置和电子设备
CN106168947A (zh) 一种相关实体挖掘方法和系统
US20160196563A1 (en) Method to expand seed keywords into a relevant social query

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160824

RJ01 Rejection of invention patent application after publication