CN116578666B - 段句位的倒排索引结构设计及其限定运算全文检索的方法 - Google Patents
段句位的倒排索引结构设计及其限定运算全文检索的方法 Download PDFInfo
- Publication number
- CN116578666B CN116578666B CN202310847909.XA CN202310847909A CN116578666B CN 116578666 B CN116578666 B CN 116578666B CN 202310847909 A CN202310847909 A CN 202310847909A CN 116578666 B CN116578666 B CN 116578666B
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- inverted index
- paragraph
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013461 design Methods 0.000 title abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000007847 structural defect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种段句位的倒排索引结构设计及其限定运算全文检索的方法,具体的,设计了一种支持段句位的倒排索引结构包括:词典和与所述词典中的词对应的倒排索引列表;所述倒排索引列表包括:待索引文件ID为DocID、词频TF、位置POS、句子SEN、段落SEG。同时,本发明提出了一种段句位限定运算全文检索的方法,在倒排索引列表中存储索引词的位置(POS)、句子(SEN)、段落(SEG)等信息,通过对关键词的位置关系进行设定,在所述倒排索引列表中对位置属性校验,实现文档过滤,返回给用户满足段句位要求的文档。实现用户对段、句、字距离等高级查询需求,同时对查询语句进行相关度评分,使全文检索过程更加完善。
Description
技术领域
本发明涉及数据索引技术领域,特别涉及一种段句位的倒排索引结构设计及其限定运算全文检索的方法。
背景技术
全文检索是一种通过分词、倒排索引以及相关度排序等技术,快速实现文档内容查询的技术。在现有技术中,全文检索一般包含数据索引和数据检索两个过程。数据索引过程是指计算机索引程序利用分词技术扫描文档中的每一个词,对文档中的每个词建立一个由词到文档的索引,我们称之为倒排索引;当用户查询时,计算机程序利用分词技术对用户输入的文本进行分词处理,并且根据数据索引过程中建立好的倒排索引进行查找,获取跟用户输入相关文档,排序以后找到最优文档反馈给用户的过程。
倒排索引,也常被称为反向索引,用来存储在文档集合中某个关键词在相应文档中出现时的位置的映射。倒排索引主要由两个部分组成:词典和倒排列表,可以用一个Map简单地来描述这个结构。这个Map的Key是索引词(TERM),一系列的索引词(TERMS)组成了倒排索引的第一个部分——索引词表;倒排索引的另外一个部分是倒排列表,对应上述Map结构的Value部分集合,一般的倒排列表主要包括以下信息:文档ID(DOCID)、词频(TF)、位置(POS),所有索引词的倒排列表存储在磁盘的某个文件里,这个文件就是索引文件。现有技术中,常见的倒排索引结构如图1所示。因为每个索引词对应的文档数量是动态变化的,所以倒排表的建立和维护较为复杂,但是在查询时,可以一次得到查询关键词所对应的所有文档,因此数据查询效率很高。在全文检索中,检索的快速响应是最关键的性能之一,而索引的建立是在后台进行的,虽然效率相对较低,但不会影响整个搜索引擎的效率。因此在全文检索中,大多数采用倒排索引结构。其索引过程如下:
1) 设有如下三篇文章1、2和3。
文章1的内容为“中国北京是首都。”
文章2的内容为“中国。北京是首都。”
文章3的内容为“中国。
北京是首都。”
2) 对文档进行分词。
3) 对关键词建立倒排索引。
文档检索流程:
输入搜索词“中国北京”,计算机程序通过自动分词将用户输入切分成“中国”和“北京”两个词。通过查询如图3所示的倒排索引,发现“中国”和“北京”在文档1、2、3中都出现过,那么以上三篇文章都会命中。
在实际应用中,由于文本属性不同,面对不同的语言和需求,分词的方式往往也不一样,因而在目前现有的倒排索引结构中存在着一些缺陷,无法满足用户某些特定的检索需求,比如:
1)对于一篇文档,字、段和句是最基础的分界符。在现有的倒排索引结构中,一般采用按字或者按词的方式构建索引表,却忽略了段和句这两种分界符,例如希望只检索“中国”和“北京”在同一句中出现或者在同一段中出现的文档时,段和句这两种文本属性是有必要参与检索的,当前这种索引模式是无法满足这个需求的。
在现有的倒排索引表中,位置的计算是以“词”为基本单位,在进行距离检索时,需要检索者熟知分词的结果,而实际是检索者并不知道系统如何分词,这样就会导致检索结果不准确。
发明内容
为了解决现有技术中,倒排索引存在结构缺陷导致的用户在检索过程中不能精准查询的问题,提出了一种段句位的倒排索引结构设计及其限定运算全文检索的方法,设计了一种支持段句位检索的倒排索引结构,在倒排列表中存储索引词的位置(POS)、句子(SEN)、段落(SEG)等信息,检索过程中通过位置属性校验,实现用户段、句、字距离等高级查询需求。
具体方案如下所述:
一种支持段句位的倒排索引结构的设计方法,
S1:自动分词:对待索引文件进行自动分词并记录该词在文档中出现的位置作为位置索引属性,所述位置包括词首字在所述索引文件中的字位置POS、词在所述索引文件中的句位置SEN、词在所述索引文件中的段位置SEG;
S2:创建包含S1所述位置索引属性的倒排索引结构并储存:所述倒排索引结构包括:词典和与所述词典中的词对应的倒排索引列表;所述词典包括该待索引文件中的所有词;所述倒排索引列表包括:待索引文件ID为DocID、词频TF、位置POS、句子SEN、段落SEG。
优选地,S1中确定词首字在所述索引文件中的字位置POS的方法为:规定文档中一个表意字符占一个位置;一个字母单词占一个位置;一个数字串占一个位置;所有的空白符被忽略,其它符号占一个位置。
优选地,S1中确定词在所述索引文件中的句位置SEN的方法为:利用句符确认该词所在句的位置为句位置,当遇到句号、分号、问号或叹号的句符时,认为是一个句子的结束。
优选地,S1中确定词在所述索引文件中的段位置SEG的方法为:利用换行符确认该词所在段落数为段位置,换行符后面如果还是换行符,或者是空白符,则认为是一个段落的结束。
优选地,S2中所述词典与所述倒排索引列表的对应关系为:每个词项对应一个文档列表;每个文档又包含一个文档ID,这个词在文档中出现的频率TF以及位置索引属性;所述位置索引属性包含字位置、句位置、段位置。
基于一种支持段句位限定的倒排索引结构的设计方法实现的一种段句位限定运算全文检索的方法,利用S2中所述的倒排索引结构对文档集进行段句位限定检索:
B1:查询:用户输入查询语句,所述查询语句包括:关键词和对该关键词进行位置关系限定的位置限定运算符;
B2:分析:对B1所述查询语句进行语法分析和自动分词;通过语法分析得到运算符以及位置限定运算符;根据自动分词得到所述查询语句中关键词的词表;
B3:检索索引:利用B2所述关键词在倒排索引列表中进行查询,获取符合关键词条件的相关文档;
B4:位置属性校验:根据B2所述的位置限定运算符对B3中符合关键词条件的相关文档进行校验,符合所述位置限定运算符的位置关系限定的文档作为命中文档;
B5:相关度排序:根据所述命中文档与查询关键词的相关度对B4所述的命中文档进行相关度排序并评分;
B6:将结果返回给用户。
优选地,在对文档进行全文检索时,可添加至少一个位置关系限定的运算符。
优选地,所述位置关系限定运算符之间可设定不同关系,包括:AND、OR、XOR和NOT。
优选地,所述位置关系限定运算符包括:对关键词之间的相距位置大小限定运算符、至少两个关键词在同一句或同一段出现;至少两个关键词在指定句或指定段出现。
优选地,所述语法分析方法为:
C1:定义用于检索表达式的运算符;
C2:对C1定义的运算符规划优先级顺序形成优先级顺序栈;
C3:按照优先级顺序栈采用下降递归算法对用户输入的查询语句即检索表达式进行处理生成一个运算树;
C4:在C3的运算树中提取运算符以及位置限定运算符。
本发明的有益效果如下:
本发明提出了一种段句位的倒排索引结构设计及其限定运算全文检索的方法,具体的,设计了一种支持段句位的倒排索引结构,所述倒排索引结构包括:词典和与所述词典中的词对应的倒排索引列表;所述词典包括该待索引文件中的所有词;所述倒排索引列表包括:待索引文件ID为DocID、词频TF、位置POS、句子SEN、段落SEG。根据此倒排索引结构,为下述的句段位限定运算的全文检索奠定了基础。
同时,本发明提出了一种段句位限定运算全文检索的方法,在倒排索引列表中存储索引词的位置(POS)、句子(SEN)、段落(SEG)等信息,在索引创建过程中计算机索引程序不仅仅需要对文档进行分词,还需要记录下这个词在文档中出现的位置,包括词首字的位置、这个词在文档的第几句、第几段中出现过。在检索过程中,用户在提交检索关键词的基础上,还需要添加同段、同句或者相隔多少词等位置限定。计算机程序通过用户输入表达式中的关键词来获取相关文档,再查询语句中设置了关系限定运算符及支持其进行检索的语法,通过对关键词的位置关系进行设定,在所述倒排索引列表中对位置属性校验,实现文档过滤,返回给用户满足段句位要求的文档。本发明在自动分词、倒排索引结构以及检索语法中,提出一种包含段句位信息的索引结构、包含段句位信息的自动分词切分算法以及支持段句位等位置属性限定检索语法,实现用户对段、句、字距离等高级查询需求,同时对查询语句进行相关度评分,使全文检索过程更加完善。
附图说明
图1是现有技术中一种倒排索引结构图。
图2是一种支持段句位的倒排索引结构的设计方法流程图。
图3是实施例中一种倒排索引结构图。
图4是一种段句位限定运算全文检索的方法流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
如图2所示,一种支持段句位的倒排索引结构的设计方法,
S1:自动分词:对待索引文件进行自动分词并记录该词在文档中出现的位置作为位置索引属性,所述位置包括词首字在所述索引文件中的字位置POS、词在所述索引文件中的句位置SEN、词在所述索引文件中的段位置SEG;
自动分词(又叫自动切词)是指通过计算机程序自动将一篇文档切分成一个个有一定语言含义的词的过程。自动分词的基本方法有多种,包括基于词典的分词方法和基于统计的分词方法等,本文不限定分词方法的选择。但是在分词的过程中,不仅仅需要切分出具体的词,还需要记录这个词所在的位置信息。本方案支持三种位置索引属性,即:SEG(段落)、SEN(句子)和POS(位置)。“段落”的提取规则是:换行符后面如果还是换行符,或者是空白符,则认为是一个段落的结束;“句子” 的提取规则是:当遇到“句号”、“分号”、“问号”或者“叹号”时,认为是一个句子的结束。“位置”的提取规则是:一个表意字符占一个位置;一个字母单词占一个位置;一个数字串占一个位置;所有的空白符被忽略,其它符号占一个位置。
S2:创建包含S1所述位置索引属性的倒排索引结构并储存:所述倒排索引结构包括:词典和与所述词典中的词对应的倒排索引列表;所述词典包括该待索引文件中的所有词;所述倒排索引列表包括:待索引文件ID为DocID、词频TF、位置POS、句子SEN、段落SEG。
优选地,S1中确定词首字在所述索引文件中的字位置POS的方法为:规定文档中一个表意字符占一个位置;一个字母单词占一个位置;一个数字串占一个位置;所有的空白符被忽略,其它符号占一个位置。
优选地,S1中确定词在所述索引文件中的句位置SEN的方法为:利用句符确认该词所在句的位置为句位置,当遇到句号、分号、问号或叹号的句符时,认为是一个句子的结束。
优选地,S1中确定词在所述索引文件中的段位置SEG的方法为:利用换行符确认该词所在段落数为段位置,换行符后面如果还是换行符,或者是空白符,则认为是一个段落的结束。
优选地,S2中所述词典与所述倒排索引列表的对应关系为:每个词项对应一个文档列表;每个文档又包含一个文档ID,这个词在文档中出现的频率TF以及位置索引属性;所述位置索引属性包含字位置、句位置、段位置。
如图4所示,基于一种支持段句位限定的倒排索引结构的设计方法实现的一种段句位限定运算全文检索的方法,利用S2中所述的倒排索引结构对文档集进行段句位限定检索:
B1:查询:用户输入查询语句,所述查询语句包括:关键词和对该关键词进行位置关系限定的位置限定运算符;
B2:分析:对B1所述查询语句进行语法分析和自动分词;通过语法分析得到运算符以及位置限定运算符;根据自动分词得到所述查询语句中关键词的词表;
B3:检索索引:利用B2所述关键词在倒排索引列表中进行查询,获取符合关键词条件的相关文档;
B4:位置属性校验:根据B2所述的位置限定运算符对B3中符合关键词条件的相关文档进行校验,符合所述位置限定运算符的位置关系限定的文档作为命中文档;
B5:相关度排序:根据所述命中文档与查询关键词的相关度对B4所述的命中文档进行相关度排序并评分;
B6:将结果返回给用户。
优选地,在对文档进行全文检索时,可添加至少一个位置关系限定的运算符。
优选地,所述位置关系限定运算符之间可设定不同关系,包括:AND、OR、XOR和NOT。
优选地,所述位置关系限定运算符包括:对关键词之间的相距位置大小限定运算符、至少两个关键词在同一句或同一段出现;至少两个关键词在指定句或指定段出现。
优选地,所述语法分析方法为:
C1:定义用于检索表达式的运算符;
C2:对C1定义的运算符规划优先级顺序形成优先级顺序栈;
C3:按照优先级顺序栈采用下降递归算法对用户输入的查询语句即检索表达式进行处理生成一个运算树;
C4:在C3的运算树中提取运算符以及位置限定运算符。
由于倒排索引在信息检索系统中的核心作用,人们在倒排索引技术上做了大量研究。本文根据文档多段多句的特性,提出了一个新的倒排索引结构:包含位句段等位置信息的倒排索引结构,在一定程度上,通过检索表达式的位置限定,提高全文检索的查准率。此倒排索引结构的简单结构如图3所示。
此倒排索引主要由两个部分组成:词典和倒排文件。词典(又称词表)中记录了文档中出现过的所有词;倒排索引的另外一个部分是倒排列表,记录了每个词在哪些文档中出现过。具体倒排列表主要包括以下信息:文档ID(DOCID)、词频(TF)、位置(POS)、句子(SEN)、段落(SEG)等。每个词项对应一个文档列表;每个文档又包含一个文档ID,这个词在文档中出现的频率(TF)以及多个位置信息;每个位置信息都包含位置、句子和段落属性。
以下示例是建立包含位句段位置信息的倒排索引过程:
设有如下三篇文章1、2和3。
文章1的内容为“中国北京是首都。”
文章2的内容为“中国。北京是首都”
文章3的内容为“中国。
北京是首都。”
经过分词器预处理后对关键词索引分词结如表1所示,
对关键词创建索引结果如表2所示。
本发明支持段句位等位置属性限定的检索语法,添加位置运算检索语法:通过添加限定运算符,设置检索方式,可添加多个限定运算符,多个限定运算符是“与”关系。通过表3列举常用运算符。
注意:上述表格中只列举出部分常用支持限定运算的运算符,在实际应用中,AND、OR、XOR和NOT都支持限定运算,其限定运算语法格式与上述示例相同。
根据本发明所述方法得到的索引分词结果和索引查询结果如下:
对比例:
以现有技术中按照字符串匹配的分词方法为例,得到的分词结果如下:
表4是现有技术中一种文档的分词结果。
表5是现有技术中一种倒排索引的结果。
通过上述对比可知,本发明提出了一种段句位的倒排索引结构设计及其限定运算全文检索的方法,设计了一种支持段句位检索的倒排索引结构,与对比例相比,本发明在倒排列表中存储索引词的位置(POS)、句子(SEN)、段落(SEG)等信息,检索过程中通过位置属性校验,实现用户段、句、字距离等高级查询需求。
应当指出,以上所述具体实施方式可以使本领域的技术人员更全面地理解本发明创造,但不以任何方式限制本发明创造。因此,尽管本说明书参照附图和实施例对本发明创造已进行了详细的说明,但是,本领域技术人员应当理解,仍然可以对本发明创造进行修改或者等同替换,总之,一切不脱离本发明创造的精神和范围的技术方案及其改进,其均应涵盖在本发明创造专利的保护范围当中。
Claims (9)
1.一种段句位限定运算全文检索的方法,其特征在于,
S1:自动分词:对待索引文件进行自动分词并记录该词在文档中出现的位置作为位置索引属性,所述位置包括词首字在所述索引文件中的字位置POS、词在所述索引文件中的句位置SEN、词在所述索引文件中的段位置SEG;
S2:创建包含S1所述位置索引属性的倒排索引结构并储存:所述倒排索引结构包括:词典和与所述词典中的词对应的倒排索引列表;所述词典包括该待索引文件中的所有词;所述倒排索引列表包括:待索引文件ID为DocID、词频TF、位置POS、句子SEN、段落SEG;
S3:利用S2中所述的倒排索引结构对文档集进行段句位限定检索:
B1:查询:用户输入查询语句,所述查询语句包括:关键词和对该关键词进行位置关系限定的位置限定运算符;
B2:分析:对B1所述查询语句进行语法分析和自动分词;通过语法分析得到运算符以及位置限定运算符;根据自动分词得到所述查询语句中关键词的词表;
B3:检索索引:利用B2所述关键词在倒排索引列表中进行查询,获取符合关键词条件的相关文档;
B4:位置属性校验:根据B2所述的位置限定运算符对B3中符合关键词条件的相关文档进行校验,符合所述位置限定运算符的位置关系限定的文档作为命中文档;
B5:相关度排序:根据所述命中文档与查询关键词的相关度对B4所述的命中文档进行相关度排序并评分;
B6:将结果返回给用户。
2.由权利要求1所述的一种段句位限定运算全文检索的方法,其特征在于,S1中确定词首字在所述索引文件中的字位置POS的方法为:规定文档中一个表意字符占一个位置;一个字母单词占一个位置;一个数字串占一个位置;所有的空白符被忽略,其它符号占一个位置。
3.由权利要求1所述的一种段句位限定运算全文检索的方法,其特征在于,S1中确定词在所述索引文件中的句位置SEN的方法为:利用句符确认该词所在句的位置为句位置,当遇到句号、分号、问号或叹号的句符时,认为是一个句子的结束。
4.由权利要求1所述的一种段句位限定运算全文检索的方法,其特征在于,S1中确定词在所述索引文件中的段位置SEG的方法为:利用换行符确认该词所在段落数为段位置,换行符后面如果还是换行符,或者是空白符,则认为是一个段落的结束。
5.由权利要求1所述的一种段句位限定运算全文检索的方法,其特征在于,S2中所述词典与所述倒排索引列表的对应关系为:每个词项对应一个文档列表;每个文档又包含一个文档ID,这个词在文档中出现的频率TF以及位置索引属性;所述位置索引属性包含字位置、句位置、段位置。
6.根据权利要求1所述的一种段句位限定运算全文检索的方法,其特征在于,在对文档进行全文检索时,可添加至少一个位置关系限定的运算符。
7.根据权利要求1所述的一种段句位限定运算全文检索的方法,其特征在于,所述位置关系限定运算符之间可设定不同关系,包括:AND、OR、XOR和NOT。
8.根据权利要求1所述的一种段句位限定运算全文检索的方法,其特征在于,所述位置关系限定运算符包括:对关键词之间的相距位置大小限定运算符、至少两个关键词在同一句或同一段出现;至少两个关键词在指定句或指定段出现。
9.根据权利要求1所述的一种段句位限定运算全文检索的方法,其特征在于,所述语法分析方法为:
C1:定义用于检索表达式的运算符;
C2:对C1定义的运算符规划优先级顺序形成优先级顺序栈;
C3:按照优先级顺序栈采用下降递归算法对用户输入的查询语句即检索表达式进行处理生成一个运算树;
C4:在C3的运算树中提取运算符以及位置限定运算符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310847909.XA CN116578666B (zh) | 2023-07-12 | 2023-07-12 | 段句位的倒排索引结构设计及其限定运算全文检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310847909.XA CN116578666B (zh) | 2023-07-12 | 2023-07-12 | 段句位的倒排索引结构设计及其限定运算全文检索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116578666A CN116578666A (zh) | 2023-08-11 |
CN116578666B true CN116578666B (zh) | 2023-09-22 |
Family
ID=87541652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310847909.XA Active CN116578666B (zh) | 2023-07-12 | 2023-07-12 | 段句位的倒排索引结构设计及其限定运算全文检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116578666B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007051372A1 (fr) * | 2005-11-07 | 2007-05-10 | Wenxin Xu | Méthode d’analyse de langage à motif de phrase de référence d’inversion |
CN109284352A (zh) * | 2018-09-30 | 2019-01-29 | 哈尔滨工业大学 | 一种基于倒排索引的评估类文档不定长词句的查询方法 |
CN109800284A (zh) * | 2018-12-19 | 2019-05-24 | 中国电子科技集团公司第二十八研究所 | 一种面向任务的非结构化信息智能问答系统构建方法 |
CN111324689A (zh) * | 2020-03-03 | 2020-06-23 | 中国平安人寿保险股份有限公司 | 问答系统的索引更新方法、装置、设备及存储介质 |
CN115203445A (zh) * | 2022-07-20 | 2022-10-18 | 平安科技(深圳)有限公司 | 多媒体资源搜索方法、装置、设备及介质 |
CN115292469A (zh) * | 2022-09-28 | 2022-11-04 | 之江实验室 | 一种结合段落搜索和机器阅读理解的问答方法 |
CN115563515A (zh) * | 2022-12-07 | 2023-01-03 | 粤港澳大湾区数字经济研究院(福田) | 文本相似性检测方法、装置、设备及存储介质 |
CN116414395A (zh) * | 2021-12-30 | 2023-07-11 | 广东优特云科技有限公司 | 一种基于递归下降算法的语法树构建方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5116775B2 (ja) * | 2007-11-19 | 2013-01-09 | 日本電信電話株式会社 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
US8498972B2 (en) * | 2010-12-16 | 2013-07-30 | Sap Ag | String and sub-string searching using inverted indexes |
DE102019212421A1 (de) * | 2019-08-20 | 2021-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zur Ermittlung ähnlicher Dokumente |
-
2023
- 2023-07-12 CN CN202310847909.XA patent/CN116578666B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007051372A1 (fr) * | 2005-11-07 | 2007-05-10 | Wenxin Xu | Méthode d’analyse de langage à motif de phrase de référence d’inversion |
CN109284352A (zh) * | 2018-09-30 | 2019-01-29 | 哈尔滨工业大学 | 一种基于倒排索引的评估类文档不定长词句的查询方法 |
CN109800284A (zh) * | 2018-12-19 | 2019-05-24 | 中国电子科技集团公司第二十八研究所 | 一种面向任务的非结构化信息智能问答系统构建方法 |
CN111324689A (zh) * | 2020-03-03 | 2020-06-23 | 中国平安人寿保险股份有限公司 | 问答系统的索引更新方法、装置、设备及存储介质 |
CN116414395A (zh) * | 2021-12-30 | 2023-07-11 | 广东优特云科技有限公司 | 一种基于递归下降算法的语法树构建方法及装置 |
CN115203445A (zh) * | 2022-07-20 | 2022-10-18 | 平安科技(深圳)有限公司 | 多媒体资源搜索方法、装置、设备及介质 |
CN115292469A (zh) * | 2022-09-28 | 2022-11-04 | 之江实验室 | 一种结合段落搜索和机器阅读理解的问答方法 |
CN115563515A (zh) * | 2022-12-07 | 2023-01-03 | 粤港澳大湾区数字经济研究院(福田) | 文本相似性检测方法、装置、设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
Question Answering and Information Retrieval;Daniel Jurafsky etc.;Speech and Processing;全文 * |
Using Artificial Intelligence Assisted Learning Technology on Augmented Realitybased Manufacture Workflow;Mingchao Li etc.;Front Psychol;全文 * |
中文文本检索系统的设计与实现;左伟明等;湖南城市学院学报(自然科学版)(第01期);全文 * |
基于RSS的分布式行为博客搜索引擎社交;王弘蔚等;现代图书情报技术;全文 * |
搜索引擎分块索引技术研究;田海龙等;电脑编程技巧与维护(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116578666A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491462B (zh) | 一种基于word2vec的语义查询扩展方法及装置 | |
CN109101479B (zh) | 一种用于中文语句的聚类方法及装置 | |
JP3636941B2 (ja) | 情報検索方法と情報検索装置 | |
CN104462085B (zh) | 检索关键词纠错方法及装置 | |
US9798776B2 (en) | Systems and methods for parsing search queries | |
Chen et al. | Template detection for large scale search engines | |
CN102110123A (zh) | 倒排索引建立方法 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN106708814B (zh) | 一种基于关系型数据库的检索方法及装置 | |
WO2012159558A1 (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
CN106503195A (zh) | 一种基于搜索引擎的翻译词库检索方法及系统 | |
US11151317B1 (en) | Contextual spelling correction system | |
CN106649286B (zh) | 一种基于双数组字典树进行术语匹配的方法 | |
US8131720B2 (en) | Using an ID domain to improve searching | |
WO2020037794A1 (zh) | 一种英文地名的索引建立方法及其查询方法和装置 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
CN101021851B (zh) | 文本检索装置和文本检索方法 | |
KR20150083961A (ko) | 다국어 통합 자음 패턴 검색 방법, 자음 문자 입력을 위한 문자 입력부를 생성하는 방법 및 그 장치 | |
US8682900B2 (en) | System, method and computer program product for documents retrieval | |
CN103064847A (zh) | 索引装置、索引方法、检索装置、检索方法和检索系统 | |
CN110019637B (zh) | 一种标准文献检索的排序算法 | |
CN116578666B (zh) | 段句位的倒排索引结构设计及其限定运算全文检索的方法 | |
JP2960936B2 (ja) | 係り受け解析装置 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |