CN104778268B - 一种知识查询方法 - Google Patents
一种知识查询方法 Download PDFInfo
- Publication number
- CN104778268B CN104778268B CN201510197434.XA CN201510197434A CN104778268B CN 104778268 B CN104778268 B CN 104778268B CN 201510197434 A CN201510197434 A CN 201510197434A CN 104778268 B CN104778268 B CN 104778268B
- Authority
- CN
- China
- Prior art keywords
- keyword
- label
- vocabulary
- knowledge base
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及知识查询领域,尤其涉及一种知识查询方法,包括:构建知识库,并将知识库中的每个词汇按照预定的标号规则标号,且按照预定的编码规则编码;从数据源中调取待查询的数据包,读取数据包中每个文件中的详细信息,并查找出出现频率大于预定个数的关键词,将该关键词以预定的标号规则标号,且同时以预定的编码规则将该关键词编码,按照预定的编码规则查询该关键词与知识库中预先存储的词汇是否相同,若相同,则将查找到的知识库中的词汇及其关联的信息复制存储到读取区,若不相同,则将该关键词移动到知识库中,同时将该关键词复制存储到读取区。本发明提高了知识查询的效率和准确度,同时及时释放内存空间,减小了系统压力。
Description
技术领域
本发明涉及知识查询领域,尤其涉及一种知识查询方法。
背景技术
互联网上的数据量大、分布存储、异构和非结构化使得发现知识的盲目性变高。数据庞大的知识信息查询速度较慢,且准确率较差,由于每次查询时都要将待查询的知识信息进行存储,造成系统内存的负担较大,影响了查询速度。且查询时需要通过多级检索才能查询到符合要求的知识信息,整个过程复杂,流程较多。
发明内容
针对上述技术问题,本发明设计开发了一种知识查询方法,目的在于提高知识查询的效率和准确度,同时及时释放内存空间,减小系统压力。
本发明提供的技术方案为:
一种知识查询方法,包括以下步骤:
步骤一、构建知识库,并将所述知识库中的每个词汇按照预定的标号规则标号,且按照预定的编码规则编码存储所述词汇及其关联的信息;
步骤二、从数据源中调取待查询的数据包,并缓存到解压缩单元进行解压缩,读取从所述数据包中解压出来的每个文件中的详细信息,并查找出每个文件中出现频率大于预定个数的关键词,将该关键词以预定的标号规则标号,且同时以预定的编码规则将该关键词编码,并存储到所述步骤一的知识库的临时存储区中,按照预定的编码规则查询所述临时存储区中的关键词与所述知识库中预先存储的词汇是否相同,若相同,则将所述临时存储区中的关键词清空,并将查找到的所述知识库中的词汇及其关联的信息复制存储到读取区,若不相同,则将所述临时存储区中的关键词移动到所述知识库中,同时将该关键词复制存储到读取区;
其中,按照预定的编码规则查询所述临时存储区中的关键词与所述知识库中预先存储的词汇是否相同的方法为:依次比较每一个关键词的编码与所述知识库中预先存储的词汇的编码的重复率,若重复率大于90%,则判定二者相同,若重复率为80~90%,则将所述知识库中预先存储的该词汇关联的信息与所述临时存储区中的关键词建立关联,作为该关键词的最接近的关联信息,与该关键词同时复制存储到读取区,若重复率小于80%,则判定二者不相同。
优选的是,所述的知识查询方法中,所述步骤二中还包括:
在按照预定的编码规则查询之前,按照所述临时存储区中的关键词的标号依次查询所述知识库中预先存储的词汇的标号,若存在标号相同的词汇,则判定二者相同,查询结束,将所述临时存储区中的关键词清空,并将查找到的所述知识库中的词汇及其关联的信息复制存储到读取区;若不存在标号相同的词汇,则按照预定的编码规则继续查询。
优选的是,所述的知识查询方法中,所述步骤一中利用可视化建模工具构建知识库。
优选的是,所述的知识查询方法中,所述步骤二中的数据包经压缩后存储在所述数据源中。
优选的是,所述的知识查询方法中,所述关键词的预定个数为10~15个。
优选的是,所述的知识查询方法中,所述预定的标号规则为:标号首位按照词汇首字母的排序标号,标号次位按照该词汇的第二个字母的排序标号,依次类推完成标号。
本发明所述的知识查询方法中,首先在解压缩后的数据包中查找关键词,然后按照关键词的标号在所述知识库中进行查询,相比于直接查询关键词,提高了查询效率。若不存在标号相同的词汇,则按照预定的编码规则继续查询,通过依次比较每一个关键词的编码与所述知识库中预先存储的词汇的编码的重复率进行查询,简化了查询步骤,同时提高了查询的准确度,且在查询到相应的信息后,及时释放临时存储区的空间,减小了整个系统的压力。
附图说明
图1是本发明所述的知识查询方法的流程示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供一种知识查询方法,包括以下步骤:
步骤一、构建知识库,并将所述知识库中的每个词汇按照预定的标号规则标号,以方便通过标号快速查询,且按照预定的编码规则编码存储所述词汇及其关联的信息,以减小占用空间。知识库中包含各个领域的所有词汇及其关联的信息,每个领域的词汇构成其特有的知识库。
步骤二、从数据源中调取待查询的数据包,并缓存到解压缩单元进行解压缩,读取从所述数据包中解压出来的每个文件中的详细信息,并查找出每个文件中出现频率大于预定个数的关键词,该关键词因在该文件中出现的频率较高,因此作为该文件的重要词频,即查询时的目标对象。将该关键词以预定的标号规则标号,该预定的标号规则与知识库中的词汇的预定的标号规则相同,使用同一标号规则,便于在知识库中进行快速查询。且同时以预定的编码规则将该关键词编码,该预定的编码规则与知识库中词汇的编码规则相同,使用同一编码规则,使得查询时不需解码即可快速判定两个词汇是否相同,节省占用空间的同时,简化了查询程序。将编码后的关键词存储到所述步骤一的知识库的临时存储区中,按照预定的编码规则查询所述临时存储区中的关键词与所述知识库中预先存储的词汇是否相同,即编码是否相同,若相同,则表明已在现有知识库中查询到该关键词,将所述临时存储区中的关键词清空,并将查找到的所述知识库中的词汇及其关联的信息复制存储到读取区,供查询者阅读参考;若不相同,则表明在现有知识库中没有存储该关键词,将所述临时存储区中的关键词移动到所述知识库中,以更新知识库,同时将该关键词复制存储到读取区,供查询者阅读参考。
其中,按照预定的编码规则查询所述临时存储区中的关键词与所述知识库中预先存储的词汇是否相同的方法为:依次比较每一个关键词的编码与所述知识库中预先存储的词汇的编码的重复率,若重复率大于90%,则判定二者相同,表明在现有知识库中查询到该关键词;若重复率为80~90%,则将所述知识库中预先存储的该词汇关联的信息与所述临时存储区中的关键词建立关联,作为该关键词的最接近的关联信息,与该关键词同时复制存储到读取区,表明在现有知识库中只查询到相近的词汇,并没有完全相同的词汇,通过该相近的词汇的关联信息作为扩展,可供查询者了解该关键词的相关信息;若重复率小于80%,则判定二者不相同,表明在现有知识库中并没有存储该关键词的任何信息。
所述的知识查询方法中,所述步骤二中还包括:
在按照预定的编码规则查询之前,按照所述临时存储区中的关键词的标号依次查询所述知识库中预先存储的词汇的标号,若存在标号相同的词汇,则判定二者相同,查询结束,将所述临时存储区中的关键词清空,以释放内存空间,并将查找到的所述知识库中的词汇及其关联的信息复制存储到读取区;若不存在标号相同的词汇,则按照预定的编码规则继续查询。
所述的知识查询方法中,所述步骤一中利用可视化建模工具构建知识库,并按领域划分为多个特有的知识库。
所述的知识查询方法中,所述步骤二中的数据包经压缩后存储在所述数据源中,以减小占用空间。
所述的知识查询方法中,所述关键词的预定个数为10~15个。
所述的知识查询方法中,所述预定的标号规则为:标号首位按照词汇首字母的排序标号,标号次位按照该词汇的第二个字母的排序标号,依次类推完成标号,每一个词汇对应一个相应的标号,作为唯一的识别码。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (5)
1.一种知识查询方法,其特征在于,包括以下步骤:
步骤一、构建知识库,并将所述知识库中的每个词汇按照预定的标号规则标号,且按照预定的编码规则编码存储所述词汇及其关联的信息;
步骤二、从数据源中调取待查询的数据包,并缓存到解压缩单元进行解压缩,读取从所述数据包中解压出来的每个文件中的详细信息,并查找出每个文件中出现频率大于预定个数的关键词,将该关键词以预定的标号规则标号,且同时以预定的编码规则将该关键词编码,并存储到所述步骤一的知识库的临时存储区中,按照所述临时存储区中的关键词的标号依次查询所述知识库中预先存储的词汇的标号,若存在标号相同的词汇,则判定二者相同,查询结束,将所述临时存储区中的关键词清空,并将查找到的所述知识库中的词汇及其关联的信息复制存储到读取区;若不存在标号相同的词汇,则按照预定的编码规则继续查询,按照预定的编码规则查询所述临时存储区中的关键词与所述知识库中预先存储的词汇是否相同,若相同,则将所述临时存储区中的关键词清空,并将查找到的所述知识库中的词汇及其关联的信息复制存储到读取区,若不相同,则将所述临时存储区中的关键词移动到所述知识库中,同时将该关键词复制存储到读取区;
其中,按照预定的编码规则查询所述临时存储区中的关键词与所述知识库中预先存储的词汇是否相同的方法为:依次比较每一个关键词的编码与所述知识库中预先存储的词汇的编码的重复率,若重复率大于90%,则判定二者相同,若重复率为80~90%,则将所述知识库中预先存储的该词汇关联的信息与所述临时存储区中的关键词建立关联,作为该关键词的最接近的关联信息,与该关键词同时复制存储到读取区,若重复率小于80%,则判定二者不相同。
2.如权利要求1所述的知识查询方法,其特征在于,所述步骤一中利用可视化建模工具构建知识库。
3.如权利要求1所述的知识查询方法,其特征在于,所述步骤二中的数据包经压缩后存储在所述数据源中。
4.如权利要求1所述的知识查询方法,其特征在于,所述关键词的预定个数为10~15个。
5.如权利要求1所述的知识查询方法,其特征在于,所述预定的标号规则为:标号首位按照词汇首字母的排序标号,标号次位按照该词汇的第二个字母的排序标号,依次类推完成标号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510197434.XA CN104778268B (zh) | 2015-04-23 | 2015-04-23 | 一种知识查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510197434.XA CN104778268B (zh) | 2015-04-23 | 2015-04-23 | 一种知识查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104778268A CN104778268A (zh) | 2015-07-15 |
CN104778268B true CN104778268B (zh) | 2018-01-30 |
Family
ID=53619732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510197434.XA Expired - Fee Related CN104778268B (zh) | 2015-04-23 | 2015-04-23 | 一种知识查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104778268B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034938B (zh) * | 2018-06-11 | 2022-07-05 | 广东因特利信息科技股份有限公司 | 信息快速筛选匹配方法、装置、电子设备及存储介质 |
CN109299143B (zh) * | 2018-11-28 | 2022-03-22 | 重庆邮电大学 | 基于Redis缓存的数据互操作测试知识库的知识快速索引方法 |
CN110727786A (zh) * | 2019-09-12 | 2020-01-24 | 武汉儒松科技有限公司 | 自学习的知识库管理方法、装置、终端设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007032483A1 (ja) * | 2005-09-16 | 2007-03-22 | Jam Corporation | 情報検索支援装置、コンピュータプログラム、プログラム格納媒体、情報検索方法 |
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
CN102200983A (zh) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | 属性提取装置和方法 |
CN103020453A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 基于本体技术的结构化电子病历生成方法 |
-
2015
- 2015-04-23 CN CN201510197434.XA patent/CN104778268B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007032483A1 (ja) * | 2005-09-16 | 2007-03-22 | Jam Corporation | 情報検索支援装置、コンピュータプログラム、プログラム格納媒体、情報検索方法 |
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
CN102200983A (zh) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | 属性提取装置和方法 |
CN103020453A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 基于本体技术的结构化电子病历生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104778268A (zh) | 2015-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766571B (zh) | 一种多媒体资源的检索方法和装置 | |
TWI480746B (zh) | 使用經結構化之資料儲存器達到較快速全文檢索 | |
CN101388012B (zh) | 带有易混淆音识别的拼音检查系统和方法 | |
US8838551B2 (en) | Multi-level database compression | |
CN106326303B (zh) | 一种口语语义解析系统及方法 | |
CN107357843B (zh) | 基于数据流结构的海量网络数据查找方法 | |
KR20070049664A (ko) | 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법 | |
CN104778268B (zh) | 一种知识查询方法 | |
US20030074183A1 (en) | Method and system for encoding and accessing linguistic frequency data | |
US20120303622A1 (en) | Efficient Indexing of Documents with Similar Content | |
KR20130062889A (ko) | 데이터 압축 방법 및 시스템 | |
CN100472536C (zh) | 一种中文输入法简拼实现方法和系统 | |
ITTO981049A1 (it) | Procedimento a tassonomia dinamica per il reperimento di informazioni su grandi banche dati eterogenee. | |
WO2003100662A3 (en) | Associative database searching using fpga devices | |
CN102867511A (zh) | 自然语音识别方法和装置 | |
DE602006016846D1 (de) | System und verfahren zum durchsuchen und vergleichen von daten mit ideogrammatischem inhalt | |
WO2011034502A8 (en) | Textual query based multimedia retrieval system | |
CN106708814B (zh) | 一种基于关系型数据库的检索方法及装置 | |
CN101751475B (zh) | 号段记录压缩方法及其装置 | |
CN102508901A (zh) | 基于内容的海量图像检索方法和系统 | |
CA2364886A1 (en) | Pattern retrieving method, pattern retrieval apparatus, computer-readable storage medium storing pattern retrieval program, pattern retrieval system, and pattern retrieval program | |
CN114328951A (zh) | 一种融合信息获取和三元组抽取的知识图谱构建方法 | |
CN105630822A (zh) | 一种专利检索相似内容标红法 | |
CN102609455B (zh) | 一种实现汉语同音字检索的方法 | |
CN104778200A (zh) | 一种结合历史数据的异构处理大数据检索的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180130 Termination date: 20210423 |