CN112528102A - 一种基于布尔逻辑判断的规范词条匹配方法 - Google Patents
一种基于布尔逻辑判断的规范词条匹配方法 Download PDFInfo
- Publication number
- CN112528102A CN112528102A CN202011470414.2A CN202011470414A CN112528102A CN 112528102 A CN112528102 A CN 112528102A CN 202011470414 A CN202011470414 A CN 202011470414A CN 112528102 A CN112528102 A CN 112528102A
- Authority
- CN
- China
- Prior art keywords
- matching
- boolean logic
- search
- algorithm
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 3
- 239000000969 carrier Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000029664 specification of symmetry Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于布尔逻辑判断的规范词条匹配方法,包括以下步骤:步骤S10,计算机信息检索文献;步骤S11,布尔逻辑匹配运算;步骤S12,完成规范词条匹配;其中,在上述步骤S10中,用户通过计算机输入需要匹配的检索规范语言以及词条,对数据库内的文献信息进行检索,构建检索式根据分析的结果,将检索词用布尔逻辑、及数据库系统使用的检索算符组成检索表达式;改进后的算法只需要计算某个变量不能匹配成为哪些变量即可,也就是说,算法只需要进行不多的运算,而不像基于字符表达式的算法那样需要进行无数次运算,算法的计算效率可以大大提高。
Description
技术领域
本发明涉及逻辑检索技术领域,具体为一种基于布尔逻辑判断的规范词条匹配方法。
背景技术
检索提问标识与存储标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索系统输出,输出的信息就是检索命中的信息,布尔逻辑检索也称作布尔逻辑搜索,严格意义上的布尔检索法是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。它使用面最广、使用频率最高,布尔逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式。
近年来,研究人员提出了许多关于布尔匹配的算法,但是总的来说,这些算法的效率都不是很高,而且它们有一个共同的问题,即它们往往利用布尔函数中布尔变量的对称性或者单边性来缩小搜索空间,实际上,在检索期间,当布尔变量较多时,对称性或者单边性的确定需要耗费较多的计算资源。
发明内容
本发明的目的在于提供一种基于布尔逻辑判断的规范词条匹配方法,可以减少计算量,提高检索效率。
为实现上述目的,本发明提供如下技术方案:提供一种基于布尔逻辑判断的规范词条匹配方法,包括以下步骤:
步骤S10,用户通过计算机输入需要匹配的检索规范语言以及词条;通过计算机对数据库内的文献信息进行检索,对数据库内检索的文献级别与类别划分,并对划分的文献特征进行对比;
步骤S11,根据分析的结果,将检索词用布尔逻辑、及数据库系统使用的检索算符组成检索表达式;通过计算机的布尔逻辑匹配运算检索表达式法对特征文件中的词语进行检索;
其中,以布尔逻辑匹配运算检索表达式通过AND运算符进行一次匹配,通过OR运算符进行二次匹配,通过NOT运算符进行三次匹配,通过基于完美的匹配算法进行最后运算匹配;
步骤S12,通过布尔逻辑匹配运算法匹配并关联到检索词条的内容文献,完成规范词条匹配。
优选地,所述步骤S10中,所述文献特征通过外表特征与内容特征组成,内容特征通过分类语言与主题语言组成,并且主题主演语言分为标题词语言、关键词语言与叙词语言。
优选地,所述步骤S10中,所述文献的级别与分类分别按照出版类型、加工层次以及载体形式进行划分。
优选地,所述步骤S10中,所述文献是以文字、图形、符号、声频、视频等手段记录和传播知识或信息的载体。
优选地,所述步骤S11中的基于完美的匹配算法为基于二分图的完美匹配算法。
实施本发明实施例,具有如下的有益效果:
本发明提供一种基于布尔逻辑判断的规范词条匹配方法,利用布尔变量的强匹配原理,它主要可以用于基于布尔匹配的逻辑验证问题中,如果两个布尔函数之间存在某个布尔变量的强匹配,则它们之间是等价的,而不必去寻找所有布尔变量之间的匹配,从而节省了计算时间,改进后的算法只需要计算某个变量不能匹配成为哪些变量即可,也就是说,算法只需要进行nn次运算,而不像基于字符表达式的算法那样需要进行无数次运算,算法的计算效率可以大大提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1是本发明提供的一种基于布尔逻辑判断的规范词条匹配方法的主流程示意图;
图2是本发明涉及的基于二分图的布尔逻辑匹配方法观察表。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
为使本领域的普通技术人员更加清楚地理解发明的目的、技术方案和优点,以下结合附图和实施例对发明做进一步的阐述。
实施例1
请参阅图1,本发明提供一种技术方案:一种基于布尔逻辑判断的规范词条匹配方法,包括以下步骤:步骤S10,计算机信息检索文献;步骤S11,布尔逻辑匹配运算;步骤S12,完成规范词条匹配;其中:
上述步骤S10中,用户通过计算机输入需要匹配的检索规范语言以及词条;
例如:用户通过计算机输入“手机”、“文科”等关键字词条。
在上述步骤S10中,通过计算机对数据库内的文献信息进行检索,文献是以文字、图形、符号、声频、视频等手段记录和传播知识或信息的载体;
在上述步骤S10中,通过计算机对数据库内检索的文献级别与类别划分,文献的级别与分类分别按照出版类型、加工层次以及载体形式进行划分;
其中,文献级别可以分为一次文献、二次文献、三次文献、四次文献和零次文献;
在上述步骤S10中,通过计算机对划分的文献特征进行对比,文献特征通过外表特征与内容特征组成,内容特征通过分类语言与主题语言组成,并且主题主演语言分为标题词语言、关键词语言与叙词语言,文献特征是每个文献特有的部分,并根据现有文献库对文献的划分方式进行逐级匹配;
在上述步骤S11中,通过计算机构建检索式根据分析的结果,将检索词用布尔逻辑、及数据库系统使用的检索算符组成检索表达式;
在上述步骤S11中,通过计算机的布尔逻辑匹配运算检索表达式法对特征文件中的词语进行检索;
在上述步骤S11中,布尔逻辑匹配运算检索表达式通过AND运算符进行一次匹配,AND运算符也可用“*”代替,组配用来表示不同检索主题概念之间的相交,其含义是检出的记录必须同时含有所有的检索词,AND算符的基本作用是缩小检索范围,提高检索结果的查准率,在实际检索中,不同概念组面之间以及同一组面内的不同含义的词之间通常使用AND算符;
在上述步骤S11中,布尔逻辑匹配运算检索表达式通过OR运算符进行二次匹配,OR运算符也可用“+”代替,表示主题概念之间的同义、近义、相关或多个并列的检索概念,其含义是,检出的记录中,至少含有两个检索词中的一个,OR算符的基本作用是扩大检索范围,OR运算符还有一个去重的功能;
在上述步骤S11中,布尔逻辑匹配运算检索表达式通过NOT运算符进行三次匹配,也可用“一”代替,但在检索时建议使用NOT,以避免与词间的分隔符“-”混淆,NOT算符是排除含有某些词的记录的,ANOTB检索出的文献中包含A的主题概念,而不含B主题概念,NOT算符的基本作用是缩小检索范围,提高检索结果的查准率;
在上述步骤S11中,布尔逻辑匹配运算检索表达式通过基于二分图的完美匹配算法进行最后运算匹配;
在上述步骤S12中,计算机通过布尔逻辑匹配运算法匹配到关系到检索词条的内容文献,完成规范词条匹配,通过逻辑根据最频繁的检索词,把检索词连接起来,构成一个逻辑检索式,从而匹配词条。
优选地,所述步骤S11中的基于完美的匹配算法为基于二分图的完美匹配算法。
实施例2
请参阅图2,示出了本发明中涉及的基于二分图的完美匹配算法。
定义1:设无向图G=(V,E)的结点集V可以分成两个子集V1和V2,满足V1∪V2=V,且对于任意一条边e等于(v1,v2)∈E,均有v2∈V1和v1∈V2,则称G为二分图,并称V1和V2为G的互补结点集。
定义3:G中属于M的边称为匹配边,匹配边的两个端点互为匹配点,匹配边的所有结点称为关于M饱和点v否则称为非饱和点。
定义4:M为图G的一个匹配,若G的每个结点都是M饱和点,则称M是G的完美匹配。
可以理解的是,在本发明的实施例中,所述基于二分图的完美匹配方法的基本原理如下:
任意找出二分图G的一个匹配M,若V1中所有结点都是M饱和点,则M即是所求的完美匹配;否则,在V1中任找一个M非饱和点Vo,以Vo为起点求图G中M的交替路,若所有这些交替路的终点都是M饱和点﹐说明以Vo为起点的交替路都不是可增广路,则图不存在完美匹配;若有一条交替路的终点是M非饱和点,这条交替路就是可增广路,因而可得到边的数目多一条的新匹配M1;然后再找V1中一个M1非饱和点,重复上述过程,直到V的所有结点都成为饱和点得到的匹配即为完美匹配﹔否则,图不存在完美匹配;
从以上可以看到,布尔匹配问题可以转换为二分图的完美匹配问题,但是,这里需要解决的一个问题是:对于V1(即X)中的任意一个结点,它究竟可以匹配为V2(即Y)中的哪些结点;或者说对于X中的任意一个变量,需要确定它不能匹配为Y中的哪些变量;
以定义1为例,考虑其中的x1变量,根据式(2),x1的匹配关系可以用下述表格形式来表示,其中,横排表示y1变量,竖排表示z1变量,z1与y1相交处为“0”表示x1不可以匹配成为y1,“1”表示x1,可以匹配成为y1,“2”表示相应的x1变量没有出现;
以定义2中第一个括号中的x1;可以表示为100,而图2中倒数第二个括号中没有出现x1;可以表示为222;
仔细图2,可以清楚地看到,如果x1出现在最后的匹配关系式中,则在y1所属的列中,至少含有两个“1”或者含有一个“1”,而其它元素均为“2”。
基于以上的分析,我们可以得到以下的性质。
在基于字符表达式求解布尔匹配过程中,对于某个布尔变量x1的匹配,如果在y1,所属的列中,只含有一个“1”而其它元素不全为“2”,则最后得到的匹配关系中必然不含有x1,不可以匹配成为y1。
根据定义2:
从表1(图2中第一列)可以看到x1不可以匹配成为y2;
从表2(图2中第二列)可以看到x2不可以匹配成为y2;
从表3(图2中第三列)可以看到,x3不可以匹配成为y1和y3,这与通过公式计算出来结果是一致的。
因此,改进后的算法只需要计算某个变量不能匹配成为哪些变量即可,也就是说,算法只需要进行nn次运算,其中n是指V1子集中的元素的数量,而不像基于字符表达式的算法那样需要进行无数次运算,算法的计算效率可以大大提高。
可以理解的是,在本发明的实施例中,通过基于二分图的完美匹配算法可以快速实现布尔变量的匹配过程。
实施本发明实施例,具有如下的有益效果:
本发明提供一种基于布尔逻辑判断的规范词条匹配方法,利用布尔变量的强匹配原理,它主要可以用于基于布尔匹配的逻辑验证问题中,如果两个布尔函数之间存在某个布尔变量的强匹配,则它们之间是等价的,而不必去寻找所有布尔变量之间的匹配,从而节省了计算时间,改进后的算法只需要计算某个变量不能匹配成为哪些变量即可,也就是说,算法只需要进行nn次运算,而不像基于字符表达式的算法那样需要进行无数次运算,算法的计算效率可以大大提高。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (5)
1.一种基于布尔逻辑判断的规范词条匹配方法,其特征在于,包括以下步骤:
步骤S10,用户通过计算机输入需要匹配的检索规范语言以及词条;通过计算机对数据库内的文献信息进行检索,对数据库内检索的文献级别与类别划分,并对划分的文献特征进行对比;
步骤S11,根据分析的结果,将检索词用布尔逻辑、及数据库系统使用的检索算符组成检索表达式;通过计算机的布尔逻辑匹配运算检索表达式法对特征文件中的词语进行检索;
其中,以布尔逻辑匹配运算检索表达式通过AND运算符进行一次匹配,通过OR运算符进行二次匹配,通过NOT运算符进行三次匹配,通过基于完美的匹配算法进行最后运算匹配;
步骤S12,通过布尔逻辑匹配运算法匹配并关联到检索词条的内容文献,完成规范词条匹配。
2.根据权利要求1所述的一种基于布尔逻辑判断的规范词条匹配方法,其特征在于,所述步骤S10中,所述文献特征通过外表特征与内容特征组成,内容特征通过分类语言与主题语言组成,并且主题主演语言分为标题词语言、关键词语言与叙词语言。
3.根据权利要求2所述的一种基于布尔逻辑判断的规范词条匹配方法,其特征在于,所述步骤S10中,所述文献的级别与分类分别按照出版类型、加工层次以及载体形式进行划分。
4.根据权利要求3所述的一种基于布尔逻辑判断的规范词条匹配方法,其特征在于,所述步骤S10中,所述文献是以文字、图形、符号、声频、视频等手段记录和传播知识或信息的载体。
5.根据权利要求4所述的一种基于布尔逻辑判断的规范词条匹配方法,其特征在于,所述步骤S11中的基于完美的匹配算法为基于二分图的完美匹配算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011470414.2A CN112528102A (zh) | 2020-12-15 | 2020-12-15 | 一种基于布尔逻辑判断的规范词条匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011470414.2A CN112528102A (zh) | 2020-12-15 | 2020-12-15 | 一种基于布尔逻辑判断的规范词条匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112528102A true CN112528102A (zh) | 2021-03-19 |
Family
ID=74999716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011470414.2A Pending CN112528102A (zh) | 2020-12-15 | 2020-12-15 | 一种基于布尔逻辑判断的规范词条匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528102A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661469A (zh) * | 2008-09-09 | 2010-03-03 | 山东科技大学 | 学术文献关键词标引和检索系统及方法 |
CN104581772A (zh) * | 2013-10-09 | 2015-04-29 | 电信科学技术研究院 | 一种网络节点的报文传输的容错方法及网络节点 |
CN109858015A (zh) * | 2018-12-12 | 2019-06-07 | 湖北工业大学 | 一种基于ctw和km算法的语义相似度计算方法及装置 |
CN110637291A (zh) * | 2017-03-15 | 2019-12-31 | 森塞尔公司 | 在数据库中对trie数据结构的有效使用 |
CN111949855A (zh) * | 2020-07-31 | 2020-11-17 | 国网上海市电力公司 | 一种基于知识图谱的工程技经知识检索平台及其方法 |
-
2020
- 2020-12-15 CN CN202011470414.2A patent/CN112528102A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661469A (zh) * | 2008-09-09 | 2010-03-03 | 山东科技大学 | 学术文献关键词标引和检索系统及方法 |
CN104581772A (zh) * | 2013-10-09 | 2015-04-29 | 电信科学技术研究院 | 一种网络节点的报文传输的容错方法及网络节点 |
CN110637291A (zh) * | 2017-03-15 | 2019-12-31 | 森塞尔公司 | 在数据库中对trie数据结构的有效使用 |
CN109858015A (zh) * | 2018-12-12 | 2019-06-07 | 湖北工业大学 | 一种基于ctw和km算法的语义相似度计算方法及装置 |
CN111949855A (zh) * | 2020-07-31 | 2020-11-17 | 国网上海市电力公司 | 一种基于知识图谱的工程技经知识检索平台及其方法 |
Non-Patent Citations (1)
Title |
---|
朱小平: ""关键词检索技术与应用技巧"", 《咸宁学院学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284363B (zh) | 一种问答方法、装置、电子设备及存储介质 | |
Pei et al. | Catching the best views of skyline: A semantic approach based on decisive subspaces | |
WO2010061537A1 (ja) | 検索装置、検索方法、及びプログラムが格納された記録媒体 | |
CN111026710A (zh) | 一种数据集的检索方法及系统 | |
Saha et al. | Schema covering: a step towards enabling reuse in information integration | |
Amanda et al. | Analysis and implementation machine learning for youtube data classification by comparing the performance of classification algorithms | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN104657376A (zh) | 基于节目关系的视频节目的搜索方法和装置 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
Devi et al. | Generating best features for web page classification | |
CN111753067A (zh) | 一种技术交底文本创新性评估方法、装置和设备 | |
Rabatel et al. | Contextual sequential pattern mining | |
KR102411778B1 (ko) | 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램 | |
Bollegala et al. | Extracting key phrases to disambiguate personal name queries in web search | |
Nguyen et al. | A method for mining top-rank-k frequent closed itemsets | |
CN112528102A (zh) | 一种基于布尔逻辑判断的规范词条匹配方法 | |
CN114298020A (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
Butka et al. | A proposal of the information retrieval system based on the generalized one-sided concept lattices | |
Akhgari et al. | Sem-TED: semantic twitter event detection and adapting with news stories | |
Saad et al. | Efficient content based image retrieval using SVM and color histogram | |
JP2002183194A (ja) | 検索式生成装置およびその方法 | |
Hormozi | Disambiguation and result expansion in keyword search over relational databases | |
Gharib et al. | Fuzzy document clustering approach using WordNet lexical categories | |
Do Van et al. | Classify high dimensional datasets using discriminant positive negative association rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |