CN109684376B - 启发式精准知识数据搜索引擎及数据自学习自诊断方法 - Google Patents
启发式精准知识数据搜索引擎及数据自学习自诊断方法 Download PDFInfo
- Publication number
- CN109684376B CN109684376B CN201811510921.7A CN201811510921A CN109684376B CN 109684376 B CN109684376 B CN 109684376B CN 201811510921 A CN201811510921 A CN 201811510921A CN 109684376 B CN109684376 B CN 109684376B
- Authority
- CN
- China
- Prior art keywords
- data
- logic
- logical
- search engine
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了启发式精准知识数据搜索引擎,包括数据提取、核心数据库、关键字和问题转换、逻辑推理器、逻辑表达式转换器和数据标准化,本发明的搜索引擎通过在搜索过程中检查数据和搜索过程的逻辑错误,启发搜索起点提供更多正确的关键词或引导搜索起点回答逻辑关系问题,逐步逼近一个或几个最终搜索结果,该方法可以解决背景技术中,搜索结果精准性问题和搜索结果范围过大的问题,将搜索的到的链接数据转化为逻辑表达式,通过逻辑表达式求解判断链接数据是否为准确搜索结果,以此来进一步解决背景技术中的精准搜索问题。
Description
技术领域:
本发明属于计算机技术领域,特别涉及启发式精准知识数据搜索引擎及数据自学习自诊断方法。
背景技术:
现存的搜索技术中,一类是给定一组关键字,然后以数据和关键字之间的关联度、数据重要性、结果排序、关键字间或数据间的规则(例如满足一定正则表达式)等指标一次性获得搜索结果。提交给搜索起点的是以某种方式排序的搜索结果。此类常见于、数据库、网页、或知识库的搜索引擎中,不支持交互式启发式搜索,并且搜索结果会很多;一类是以机器学习和深度学习为技术手段,从训练数据中总结学习判断模型,然后以该模型做搜索引擎核心。此类常见于知识库和知识图谱的搜索解决方案,通常现在技术手段还不能提供精准搜索结果;另一类是针对知识图谱或语义网按照关联路径推断,其中路径分支可以要求搜索起点做判断,直到搜索结果。此类亦常见于知识图谱或语义网的搜索技术中,要求图谱或语义网有相当高的正确性、准确性、完备性。然而,知识数据通常是通过计算机自动整理得到,其中错误难免,造成对搜索起点启发提问和搜索结果往往是错误的,因而此类方法无法发现错误,无法反复在搜索中做到自学习自诊断数据。
现存的数据搜索和知识搜索无法积累正确的链接数据包含数据间的关系,对搜索过程和数据知识中的错误无法修补,同时缺少启发互动式地与搜索起点沟通。本发明旨在解决这些问题,提供可靠的可信赖的积累知识数据和搜索结果。
发明内容:
本发明解决了上述问题而提供启发式精准知识数据搜索引擎及数据自学习自诊断方法,解决了现有的技术和方法所存在的缺点。
为了解决上述问题,本发明提供了一种技术方案:
启发式精准知识数据搜索引擎,包括数据提取、核心数据库、关键字和问题转换、逻辑推理器、逻辑表达式转换器和数据标准化。
作为优选,所述数据提取是从核心数据中检索提取和所有初始关键字及其逻辑关系相关的数据及其关系。
作为优选,所述核心数据库的表现形式是任意组织存储形式,所述核心数据库生成积累方式包括在线积累和离线积累,所述在线积累为在搜索引擎在线服务过程中,通过验证认证的新数据可以被加入核心数据库,所述离线积累为独立于搜索引擎,不需要在搜索引擎服务过程中,核心数据在后台依旧按照离线积累的过程被积累修正,所述离线积累由依次为高质量文本、数据挖掘工具、核心数据、数据提取、逻辑表达式转换器、逻辑验证、有逻辑问题存在和结束组成,所述核心数据连接有常识数据和数据修复修补,所述数据修复修补与专家知识连接。
作为优选,所述关键字和问题转换的转换过程和逻辑表达式转换器的转换过程互为逆过程,即从逻辑表达式依照标准对照词库向核心数据中的标准词语转换,同时,将词语间的逻辑关系从逻辑关系符号向自然语言转换。
作为优选,所述逻辑推理器在于发现从逻辑表达式转换器得到的一系列逻辑表达式本身和表达式间是否有逻辑冲突、缺失和冗余错误。
作为优选,所述逻辑表达式转换器是逻辑表达式转换的基本功能是从提取到的链接数据和关系转换到逻辑推理器和逻辑验证能接受的逻辑表达式。
作为优选,所述数据标准化是能否进行数理逻辑推理和验证的重要部件,所述数据标准化能够提供词汇数据转换,保证所述逻辑表达式转换器能够形成逻辑范式进行后续逻辑推理和验证。
启发式精准知识数据搜索引擎的数据自学习自诊断方法,所述方法为:
1).搜索起点提供初始关键字和关键字之间的逻辑关系给数据提取器和常规数据搜索器,所述常规数据搜索器可以是现有的知识图、知识库搜索工具,或现有的能挖掘数据和关系的文本挖掘和数据挖掘技术,所述数据提取器从核心数据库中提取满足的关键字和关系交与逻辑表达式转换器,所述常规数据搜索器从知识图或知识库以及其他数据中提取满足的关键字和关系,经过所述数据标准化部件转化为标准词库中包含的标准文字;
2).然后将上步获得的结果转交所述逻辑表达式转换器,因为以上得到多组数据和关系,转换器将数据和关系转换为一组逻辑表达式,所述逻辑推理器对这组逻辑表达式进行逻辑运算,这种运算可以是可满足性问题,即SAT或satisfiablity的求解器SATsolver,也可以是更复杂的问题用其他数理逻辑证明工具theoremprover,取决于应用场景的不同,所述逻辑推理器在进行满足性问题求解后,如果结果是不满足,则可以找出逻辑冲突点、最小冲突逻辑子句、数据或逻辑关系冗余、或尚欠缺的逻辑条件,以此来进行后续的数据和关系的修正修补,但在有逻辑问题存在的判断框中判定有数据和关系修正修补需要后,由所述关键字和问题转换完成从逻辑表达式向数据和关系的转换,亦即产生新的关键字和问题,经由交互逻辑问题判断向搜索起点查问;
3).同时,新的关键字和问题会被发往对应专家证实,一旦专家证实答案,新的数据和关系会被追加或修改核心数据,交互逻辑问题判断或启发新关键字每次询问搜索起点,都会得到新的关键字和关系,然后重复上述过程并在所述逻辑推理器中替换被修改过的逻辑变量和逻辑关系,或补充新的逻辑变量和逻辑关系,直到有逻辑问题存在的判断框中判定全部数据和关系无进一步问题,在搜索结果中,首先得到的是一组逻辑表达式,在将逻辑符号和表达式通过标准词库翻译后,即为搜索结果。
本发明的有益效果:本发明的搜索引擎通过在搜索过程中检查数据和搜索过程的逻辑错误,启发搜索起点提供更多正确的关键词或引导搜索起点回答逻辑关系问题,逐步逼近一个或几个最终搜索结果,该方法可以解决背景技术中,搜索结果精准性问题和搜索结果范围过大的问题,将搜索的到的链接数据转化为逻辑表达式,通过逻辑表达式求解判断链接数据是否为准确搜索结果,以此来进一步解决背景技术中的精准搜索问题,在逻辑表达式求解过程中,如果求解失败,即当前所得搜索结果存在逻辑问题或逻辑关系缺失,这样本发明的搜索引擎可以知道当前搜索过程和结果中的关键逻辑问题,通过数理逻辑证明或专家验证的方式,判断该问题的正确解,以此来修补核心数据的错误和缺失,达到对核心数据和搜索过程的自学习自诊断的效果,这样,本发明可以解决背景技术中按路径搜索时,数据和启发问题的错误。
附图说明:
为了易于说明,本发明由下述的具体实施及附图作以详细描述。
图1为本发明在线搜索引擎总体构成及流程图;
图2为本发明的离线数据积累方法流程图。
图中:101-搜索起点、102-初始关键字及其逻辑关系、103-交互逻辑问题判断或启发新关键字、104-数据提取、105-核心数据库、106-追加或修改核心数据、107-专家证实、108-关键字和问题转换、109-有逻辑问题存、110-逻辑推理器、111-逻辑表达式转换器、112-数据标准化、113-常规数据搜索器、114-知识图、知识库、115-其他数据高、201-质量文本、202-常识数据、203-专家知识、204-数据挖掘工具、205-核心数据、206-数据提取、207-逻辑表达式转换器、208-逻辑验证、209-有逻辑问题存在、210-数据修复修补、211-结束。
具体实施方式:
如图1-2所示,本具体实施方式采用以下技术方案:启发式精准知识数据搜索引擎,包括数据提取104、核心数据库105、关键字和问题转换108、逻辑推理器110、逻辑表达式转换器111和数据标准化112。
其中,所述数据提取104是从核心数据105中检索提取和所有初始关键字及其逻辑关系102相关的数据及其关系。
其中,所述核心数据库105的表现形式是任意组织存储形式,所述核心数据库105生成积累方式包括在线积累和离线积累,所述在线积累为在搜索引擎在线服务过程中,通过验证认证的新数据可以被加入核心数据库105,所述离线积累为独立于搜索引擎,不需要在搜索引擎服务过程中,核心数据在后台依旧按照离线积累的过程被积累修正,所述离线积累由依次为高质量文本201、数据挖掘工具204、核心数据205、数据提取206、逻辑表达式转换器207、逻辑验证208、有逻辑问题存在209和结束211组成,所述核心数据205连接有常识数据202和数据修复修补210,所述数据修复修补210与专家知识203连接。
其中,所述关键字和问题转换108的转换过程和逻辑表达式转换器111的转换过程互为逆过程,即从逻辑表达式依照标准对照词库向核心数据105中的标准词语转换,同时,将词语间的逻辑关系从逻辑关系符号向自然语言转换。
其中,所述逻辑推理器110在于发现从逻辑表达式转换器111得到的一系列逻辑表达式本身和表达式间是否有逻辑冲突、缺失和冗余错误。
其中,所述逻辑表达式转换器111是逻辑表达式转换的基本功能是从提取到的链接数据和关系转换到逻辑推理器110和逻辑验证207能接受的逻辑表达式。
其中,所述数据标准化112是能否进行数理逻辑推理和验证的重要部件,所述数据标准化112能够提供词汇数据转换,保证所述逻辑表达式转换器111能够形成逻辑范式进行后续逻辑推理和验证。
启发式精准知识数据搜索引擎的数据自学习自诊断方法,所述方法为:
1).搜索起点101提供初始关键字和关键字之间的逻辑关系给数据提取器104和常规数据搜索器113,所述常规数据搜索器113可以是现有的知识图、知识库114搜索工具,或现有的能挖掘数据和关系的文本挖掘和数据挖掘技术,所述数据提取器104从核心数据库105中提取满足的关键字和关系交与逻辑表达式转换器111,所述常规数据搜索器113从知识图或知识库114以及其他数据115中提取满足的关键字和关系,经过所述数据标准化112部件转化为标准词库中包含的标准文字;
2).然后将上步获得的结果转交所述逻辑表达式转换器111,因为以上得到多组数据和关系,转换器将数据和关系转换为一组逻辑表达式,所述逻辑推理器110对这组逻辑表达式进行逻辑运算,这种运算可以是可满足性问题,即SAT或satisfiablity的求解器SATsolver,也可以是更复杂的问题用其他数理逻辑证明工具theoremprover,取决于应用场景的不同,所述逻辑推理器110在进行满足性问题求解后,如果结果是不满足,则可以找出逻辑冲突点、最小冲突逻辑子句、数据或逻辑关系冗余、或尚欠缺的逻辑条件,以此来进行后续的数据和关系的修正修补,但在有逻辑问题存109在的判断框中判定有数据和关系修正修补需要后,由所述关键字和问题转换108完成从逻辑表达式向数据和关系的转换,亦即产生新的关键字和问题,经由交互逻辑问题判断103向搜索起点101查问;
3).同时,新的关键字和问题会被发往对应专家证实107,一旦专家证实答案,新的数据和关系会被追加或修改核心数据106,交互逻辑问题判断或启发新关键字103每次询问搜索起点101,都会得到新的关键字和关系,然后重复上述过程并在所述逻辑推理器110中替换被修改过的逻辑变量和逻辑关系,或补充新的逻辑变量和逻辑关系,直到有逻辑问题存109在的判断框中判定全部数据和关系无进一步问题,在搜索结果116中,首先得到的是一组逻辑表达式,在将逻辑符号和表达式通过标准词库翻译后,即为搜索结果116。
本发明的有益效果:本发明的搜索引擎通过在搜索过程中检查数据和搜索过程的逻辑错误,启发搜索起点101提供更多正确的关键词或引导搜索起点101回答逻辑关系问题,逐步逼近一个或几个最终搜索结果,该方法可以解决背景技术中,搜索结果精准性问题和搜索结果范围过大的问题,将搜索的到的链接数据转化为逻辑表达式,通过逻辑表达式求解判断链接数据是否为准确搜索结果,以此来进一步解决背景技术中的精准搜索问题,在逻辑表达式求解过程中,如果求解失败,即当前所得搜索结果存在逻辑问题或逻辑关系缺失,这样本发明的搜索引擎可以知道当前搜索过程和结果中的关键逻辑问题,通过数理逻辑证明或专家验证的方式,判断该问题的正确解,以此来修补核心数据的错误和缺失,达到对核心数据和搜索过程的自学习自诊断的效果,这样,本发明可以解决背景技术中按路径搜索时,数据和启发问题的错误。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.启发式精准知识数据搜索引擎,其特征在于:包括数据提取(104)、核心数据(105)、关键字和问题转换(108)、逻辑推理器(110)、逻辑表达式转换器(111)和数据标准化(112);
所述引擎用于进行数据自学习自诊断方法,步骤如下:
1).搜索起点(101)提供初始关键字和关键字之间的逻辑关系给数据提取(104)和常规数据搜索器(113),所述常规数据搜索器(113)是现有的知识图、知识库(114)搜索工具,或现有的能挖掘数据和关系的文本挖掘和数据挖掘技术,所述数据提取(104)从核心数据(105)中提取满足的关键字和关系交与逻辑表达式转换器(111),所述常规数据搜索器(113)从知识图或知识库(114)以及其他数据(115)中提取满足的关键字和关系,经过所述数据标准化(112)部件转化为标准词库中包含的标准文字;
2).然后将上步获得的结果转交所述逻辑表达式转换器(111),因为以上得到多组数据和关系,转换器将数据和关系转换为一组逻辑表达式,所述逻辑推理器(110)对这组逻辑表达式进行逻辑运算,这种运算是可满足性问题,即SAT或satisfiablity的求解器SATsolver,或更复杂的问题用其他数理逻辑证明工具theoremprover,取决于应用场景的不同,所述逻辑推理器(110)在进行满足性问题求解后,如果结果是不满足,则找出逻辑冲突点、最小冲突逻辑子句、数据或逻辑关系冗余、或尚欠缺的逻辑条件,以此来进行后续的数据和关系的修正修补,但在有逻辑问题存在(109)的判断框中判定有数据和关系修正修补需要后,由所述关键字和问题转换(108)完成从逻辑表达式向数据和关系的转换,亦即产生新的关键字和问题,经由交互逻辑问题判断或启发新关键字(103)向搜索起点(101)查问;
3).同时,新的关键字和问题会被发往对应专家证实(107),一旦专家证实答案,新的数据和关系会被追加或修改核心数据(106),交互逻辑问题判断或启发新关键字(103)每次询问搜索起点(101),都会得到新的关键字和关系,然后重复上述过程并在所述逻辑推理器(110)中替换被修改过的逻辑变量和逻辑关系,或补充新的逻辑变量和逻辑关系,直到有逻辑问题存在(109)的判断框中判定全部数据和关系无进一步问题,在搜索结果(116)中,首先得到的是一组逻辑表达式,在将逻辑符号和表达式通过标准词库翻译后,即为搜索结果(116)。
2.根据权利要求1所述的启发式精准知识数据搜索引擎,其特征在于:所述数据提取(104)是从核心数据(105)中检索提取和所有初始关键字及其逻辑关系(102)相关的数据及其关系。
3.根据权利要求1所述的启发式精准知识数据搜索引擎,其特征在于:所述核心数据(105)的表现形式是任意组织存储形式,所述核心数据(105)生成积累方式包括在线积累和离线积累,所述在线积累为在搜索引擎在线服务过程中,通过验证认证的新数据被加入核心数据(105),所述离线积累为独立于搜索引擎,不需要在搜索引擎服务过程中,核心数据(105) 在后台依旧按照离线积累的过程被积累修正,所述离线积累由依次为高质量文本(201)、数据挖掘工具(204)、核心数据(205)、数据提取(206)、逻辑表达式转换器(207)、逻辑验证(208)、有逻辑问题存在(209)和结束(211)组成,所述核心数据(205)连接有常识数据(202)和数据修复修补(210),所述数据修复修补(210)与专家知识(203)连接。
4.根据权利要求1所述的启发式精准知识数据搜索引擎,其特征在于:所述关键字和问题转换(108)的转换过程和逻辑表达式转换器(111)的转换过程互为逆过程,即从逻辑表达式依照标准对照词库向核心数据(105)中的标准词语转换,同时,将词语间的逻辑关系从逻辑关系符号向自然语言转换。
5.根据权利要求1所述的启发式精准知识数据搜索引擎,其特征在于:所述逻辑推理器(110)在于发现从逻辑表达式转换器(111)得到的一系列逻辑表达式本身和表达式间是否有逻辑冲突、缺失和冗余错误。
6.根据权利要求1所述的启发式精准知识数据搜索引擎,其特征在于:所述逻辑表达式转换器(111)是逻辑表达式转换的基本功能是从提取到的链接数据和关系转换到逻辑推理器(110)和逻辑验证(208)能接受的逻辑表达式。
7.根据权利要求1所述的启发式精准知识数据搜索引擎,其特征在于:所述数据标准化(112)是能否进行数理逻辑推理和验证的重要部件,所述数据标准化(112)能够提供词汇数据转换,保证所述逻辑表达式转换器(111)能够形成逻辑范式进行后续逻辑推理和验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811510921.7A CN109684376B (zh) | 2018-12-11 | 2018-12-11 | 启发式精准知识数据搜索引擎及数据自学习自诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811510921.7A CN109684376B (zh) | 2018-12-11 | 2018-12-11 | 启发式精准知识数据搜索引擎及数据自学习自诊断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109684376A CN109684376A (zh) | 2019-04-26 |
CN109684376B true CN109684376B (zh) | 2021-07-30 |
Family
ID=66186648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811510921.7A Active CN109684376B (zh) | 2018-12-11 | 2018-12-11 | 启发式精准知识数据搜索引擎及数据自学习自诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684376B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894166A (zh) * | 2010-07-28 | 2010-11-24 | 郑茂 | 网络智能搜索引擎系统 |
CN103116574B (zh) * | 2013-02-22 | 2015-08-26 | 电子科技大学 | 从自然语言文本挖掘领域过程本体的方法 |
CN106776888A (zh) * | 2016-11-30 | 2017-05-31 | 北京赛迈特锐医疗科技有限公司 | 智能结构化搜索系统及其搜索方法 |
KR20180093157A (ko) * | 2017-02-09 | 2018-08-21 | 서울대학교산학협력단 | 의존구문 분석 기술 및 의미 표현 기술을 활용한 질문 번역 시스템 및 방법 |
CN107609325A (zh) * | 2017-10-18 | 2018-01-19 | 中国航空无线电电子研究所 | 基于sat的故障树求解最小割集的方法 |
-
2018
- 2018-12-11 CN CN201811510921.7A patent/CN109684376B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109684376A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Survey on factuality in large language models: Knowledge, retrieval and domain-specificity | |
Huo et al. | Deep transfer bug localization | |
CN104408173B (zh) | 一种基于b2b平台的核心关键词自动提取方法 | |
US7295965B2 (en) | Method and apparatus for determining a measure of similarity between natural language sentences | |
US8489601B2 (en) | Knowledge extraction methodology for unstructured data using ontology-based text mining | |
Farfeleder et al. | DODT: Increasing requirements formalism using domain ontologies for improved embedded systems development | |
Aha et al. | Supporting dialogue inferencing in conversational case-based reasoning | |
CN109686443B (zh) | 一种临床诊断辅助决策系统和医学知识图谱积累方式 | |
KR20040111715A (ko) | 검색 시스템에 사용하기 위해 텍스트 문서로부터 정보를검색하기 위한 자기 학습 시스템의 합성 방법 | |
Sampson et al. | A test of the leaf-ancestor metric for parse accuracy | |
CN116805001A (zh) | 适用于垂直领域的智能问答系统、方法及其应用 | |
CN113010632A (zh) | 智能问答方法、装置、计算机设备和计算机可读介质 | |
Lev et al. | Solving logic puzzles: From robust processing to precise semantics | |
Reymonet et al. | Ontology Based Information Retrieval: an application to automotive diagnosis | |
Moiseeva et al. | Multipurpose intelligent process automation via conversational assistant | |
Krithika et al. | Learning to grade short answers using machine learning techniques | |
CN109684376B (zh) | 启发式精准知识数据搜索引擎及数据自学习自诊断方法 | |
Bais et al. | An Arabic natural language interface for querying relational databases based on natural language processing and graph theory methods | |
Aditi et al. | Hybrid rule-based and machine learning system for assertion generation from natural language specifications | |
Christophe et al. | A methodology supporting syntactic, lexical and semantic clarification of requirements in systems engineering | |
Hendriks et al. | Recognizing and Linking Entities in Old Dutch Text: A Case Study on VOC Notary Records. | |
Basak et al. | Short-answer grading using textual entailment | |
CN115114417A (zh) | 中文填空题自动评分方法及装置 | |
Deshmukh et al. | Automatic text-to-SQL machine translation for scholarly publication database search | |
Grimalt et al. | BERTicsson: A Recommender System For Troubleshooting. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |