CN113641782A - 基于检索语句的信息检索方法、装置、设备和介质 - Google Patents
基于检索语句的信息检索方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN113641782A CN113641782A CN202010345052.8A CN202010345052A CN113641782A CN 113641782 A CN113641782 A CN 113641782A CN 202010345052 A CN202010345052 A CN 202010345052A CN 113641782 A CN113641782 A CN 113641782A
- Authority
- CN
- China
- Prior art keywords
- content block
- target
- content
- sentence
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000004931 aggregating effect Effects 0.000 claims abstract description 29
- 239000012634 fragment Substances 0.000 claims abstract description 18
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于检索语句的信息检索方法、装置、设备和介质。该方法包括:获取待检索语句;从目标文档的内容块中确定与待检索语句相关的目标内容块,内容块包括文本内容段落、标题、表格、图表、图片中的至少一个;将具备逻辑层级关系的目标内容块聚合为片段,其中,具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题;将片段作为待检索语句在目标文档中的信息检索结果。根据本发明实施例提供的基于检索语句的信息检索方法、装置、设备和介质,可以提高信息检索结果的质量。
Description
技术领域
本发明涉及数据处理领域,尤其涉及基于检索语句的信息检索方法、装置、设备和介质。
背景技术
为了能够在目标文档中获取用户需要的内容,可以在文档工具中输入关键词,从而在目标文档中查找到关键词相关的位置。以WORD文档为例,可以利用WORD文档自带的“查找”功能,在文档中确定关键词的查找结果。例如关键词所在语句等。
然而,WORD文档只会逐个罗列出关键词的查找结果。例如,若关键词在WORD文档中出现11次,则会罗列出11个查找结果。
发明内容
本发明实施例提供基于检索语句的信息检索方法、装置、设备和介质,可以提高信息检索结果的质量。
第一方面,提供一种基于检索语句的信息检索方法,包括:获取待检索语句;从目标文档的内容块中确定与待检索语句相关的目标内容块,内容块包括文本内容段落、标题、表格、图表、图片中的至少一个;将具备逻辑层级关系的目标内容块聚合为片段,其中,具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题;将片段作为待检索语句在目标文档中的信息检索结果。
根据本发明实施例中的基于检索语句的信息检索方法,在获取待检索语句之后,可以确定与待检索语句相关的目标内容块。并按照目标内容块之间的逻辑层级关系,将其聚合成片段,并将聚合后的片段作为目标文档的信息检索结果。相较于现有的、罗列出所有信息检索结果的方法,能够将具有逻辑层级关系的目标内容块聚合成一个片段,使不具有逻辑层级关系的目标内容块尽量分离,提高了信息检索结果的质量。
在一种可选的实施方式中,目标内容块的逻辑层级关系是基于内容块逻辑树确定的,其中,内容块逻辑树是基于目标文档的内容块确定的,每一标题的下一级标题和每一标题对应的除标题外的其他目标内容块为每一标题的子节点。
在本发明实施例中,通过构建内容块逻辑树,能够准确的确定目标文档中各内容块之间的逻辑层级关系,从而能够提高信息检索结果的准确性。
在一种可选的实施方式中,将具备逻辑层级关系的目标内容块聚合为片段,包括:将内容块逻辑树中每一子树中的所有目标内容块聚合为一个片段。
在本发明实施例中,在不考虑子树与根节点的连接关系的前提下,由于不同子树之间没有连接关系,不同子树间不具有逻辑层级关系。而每一子树的节点之间直接连接或间接连接,所以子树内部的节点间具备逻辑层级关系。因此,通过本实施例对目标内容块聚类,能够准确地使不具有逻辑层级关系的目标内容块尽量分离,具备逻辑层级关系的目标内容块进行聚合,提高了聚合的准确度。
在一种可选的实施方式中,将具备逻辑层级关系的目标内容块聚合为片段,包括:获取第一集合、第二集合和第三集合,第二集合的初始值包括全体目标内容块;若在内容块逻辑树中,第二集合中至少两个元素的父节点相同,且父节点不属于第二集合,则将父节点作为元素加入第三集合;若第一集合中至少一个元素的父节点与第二集合中至少一个元素的父节点相同,且父节点不属于第一集合和第二集合,则将父节点作为元素加入第三集合;将第一集合的全体元素加入第二集合,并将第三集合作为新的第一集合,直到第三集合为空集,将第二集合中的元素作为新的目标内容块,并将新的目标内容块聚合为片段。
在实施例中,由于文档中各段落之间具有一定的上下文连接,若某一段落与待检索语句相关,则其对应的标题也与待检索语句相关。通过构建三个集合的方式,能够将全面的将与待检索语句相关的内容块划分为目标内容块,从而保证了检索的准确度。
在一种可选的实施方式中,将第二集合中的元素作为新的目标内容块,并将新的目标内容块聚合为片段,包括:将第二集合中的新的目标内容块依次作为第一目标内容块;针对每一第一目标内容块,执行以下操作:若内容块逻辑树中,第一目标内容块为第二集合中的第二目标内容块的父节点或者子节点,则将第一目标内容块和第二目标内容块进行聚合;若第一目标内容块的父节点与第二集合中的第三目标内容块的父节点相同,则将第一目标内容块、第三目标内容块、第一目标内容块的父节点进行聚合;若第一目标内容块的父节点的父节点是第二集合中的第四目标内容块,则将第一目标内容块、第四目标内容块、第一目标内容块的父节点进行聚合;若第一目标内容块的子节点的子节点是第二集合中的第五目标内容块,则将第一目标内容块、第五目标内容块、第五目标内容块的父节点进行聚合。
在本实施例中,通过遍历的方式,能够准确的对目标内容块进行聚类。
在一种可选的实施方式中,从目标文档的内容块中确定与待检索语句相关的目标内容块,包括:计算每一内容块与待检索语句的相关度评分;将相关度评分最高的前N个内容块确定为目标内容块。
在本实施例中,由于相关度评分能够准确地表征内容块与待检索语句的相关程度,因此,通过计算相关度评分,能够提高检索准确度。此外,通过筛选掉与待检索语句相关度较低的目标内容块,能够提高检索效率,以及检索出用户较为期望的信息检索结果。
在一种可选的实施方式中,计算每一内容块与待检索语句的相关度评分,包括:针对每一内容块,提取该内容块与待检索语句的相关度特征,将相关度特征输入预先训练的评分计算模型,得到该内容块与待检索语句的相关度评分;其中,相关度特征包括以下至少一种:该内容块与待检索语句的第一相关度评分,该内容块在目标文档中的相邻前J个内容块与待检索语句的第二相关度评分,该内容块在目标文档中的相邻后K个内容块与待检索语句的第三相关度评分,内容块基于该内容块的所有上级标题与待检索语句的相关度评分确定的第四相关度评分,该内容块的上一级标题与待检索语句的相关度评分,该内容块与待检索语句的文字重合度,该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置特征,该内容块与待检索语句的第一相关度评分在该内容块对应的标题的所有下一级标题的相关度评分和该内容块对应的标题对应的所有内容块的相关度评分中的排序结果,该内容块与该内容块对应的上一级标题的文本重合度,该内容块与该内容块对应的标题的文本重合度以及该内容块对应的标题的所有上级标题的文本重合度中的最高重合度。
通过利用内容块的上下文的相关度评分,能够根据目标内容块的周围环境特征,来提高相关度评分的计算精度。
在一种可选的实施方式中,方法还包括:针对每一片段,将该片段中的目标内容块中相关度评分的最高评分作为片段与待检索语句的相关度评分。
通过计算片段的相关度评分,能够表征各片段与待检索语句的相关程度。便于后续信息检索结果的显示以及使用。
第二方面,提供一种基于检索语句的信息检索装置,包括:获取模块,用于获取待检索语句;确定模块,用于从目标文档的内容块中确定与待检索语句相关的目标内容块,内容块包括文本内容段落、标题、表格、图表、图片中的至少一个;聚合模块,用于将具备逻辑层级关系的目标内容块聚合为片段,其中,具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题;结果处理模块,用于将片段作为待检索语句在目标文档中的信息检索结果。
第三方面,提供一种基于检索语句的信息检索设备,包括:存储器,用于存储程序;处理器,用于运行存储器中存储的程序,以执行第一方面或第一方面的任一可选的实施方式提供的基于检索语句的信息检索方法。
第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或第一方面的任一可选的实施方式提供的基于检索语句的信息检索方法。
根据本发明实施例中的基于检索语句的信息检索方法、装置、设备和介质,在获取待检索语句之后,可以确定与待检索语句相关的目标内容块。并按照目标内容块之间的逻辑层级关系,将其聚合成片段,并将聚合后的片段作为待检索语句在目标文档中的信息检索结果。相较于现有的、罗列出所有信息检索结果的方法,能够将具有逻辑层级关系的目标内容块聚合成一个片段,使不具有逻辑层级关系的目标内容块尽量分离,提高了信息检索结果的质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种示例性的目标文档的内容块的逻辑关系示意图;
图2是本发明实施例提供的一种基于检索语句的信息检索方法的示意流程图;
图3是本发明实施例提供的一种示例性的内容块逻辑树的结构示意图;
图4A是本发明实施例提供的一种示例性的聚合过程的逻辑示意图;
图4B是本发明实施例提供的又一种示例性的聚合过程的逻辑示意图;
图4C是本发明实施例提供的又一种示例性的聚合过程的逻辑示意图;
图5是本发明实施例提供的一种基于检索语句的信息检索装置的结构示意图;
图6是本发明实施例中基于检索语句的信息检索设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种基于检索语句的信息检索方案,适用于在文档中输入待检索语句进行文档内容关键信息检索的具体场景中。例如招股说明书、债券募集说明书、年报、财务报告、并购重组报告、评级报告、研究报告、法律合同文书、舆情新闻等复杂的金融信息文本的检索工作。本发明实施例在获取待检索语句后,可以初步检索出文档中与待检索语句相关的目标内容块,再根据各目标内容块间的逻辑层级关系聚合成片段。
在本发明实施例中,目标文档指能够获取其文字以及图表信息的电子文档。具体地,可以是WORD格式、PDF格式、TXT等格式的电子文档。此外,目标文档可视为由多个段落组成,其中,表格、图片、图表、标题等均可各自视为一个段落。因此,以段落为单位,可以将目标文档划分为多个彼此间相独立的内容块。也就是说,目标文档的内容块包括文本内容段落、标题、表格、图表、图片中的至少一种。
通常目标文档内往往设置有多级标题。按照层级由高到低的次序,依次为一级标题、二级标题、三级标题等等。高层级标题下往往有多个低层级标题,多个低层级标题隶属于高层级标题。针对第L层标题,其隶属于前L-1级标题。则该前L-1级标题均为该第L层标题的上级标题。示例性的,若目标文档的第二章中存在五级标题“(1).固定资产情况”,其上级标题按照层级由低到高的次序依次为:四级标题“19、固定资产”、三级标题“七、合并财务报表项目注释”、二级标题“第十一节、财务报告”、一级标题“第二章、固定资产”。则二级标题“第十一节、财务报告”、三级标题“七、合并财务报表项目注释”、四级标题“19、固定资产”、五级标题“(1).固定资产情况”均隶属于一级标题“第二章、固定资产”。为了便于理解,本发明下述实施例将继续利用上述五级标题进行示例性的说明。
由于标题往往是对一个或多个连续文本内容段落、图片、图表、表格等非标题内容块的内容的高度概括,每个标题后往往紧紧跟随着一个或多个连续的内容块,例如文本内容段落、图片、图表、表格等。在本发明实施例中,可以认为某一标题后紧跟着的内容块与该标题具有对应关系。也就是说,该某一标题后至下一个标题前的内容块与该标题具有对应关系。与某一标题对应的内容块和该某一标题的下一级标题均可以视为该某一标题的下一层级。示例性的,图1是本发明实施例提供的一种示例性的目标文档的内容块的逻辑关系示意图。如图1所示,图1左侧示出了目标文档的具体内容。若按照内容块在目标文档中出现的次序,依次是三级标题A31,四级标题A41、图表B1、文本内容段落C1、四级标题A42、文本内容段落C2、五级标题A51、表格D1、文本内容段落C3。图1的右侧示出了目标文档的内容块的逻辑关系。其中,三级标题A31的下一层级是两个四级标题A41和A42。四级标题A41后面的下一个标题为四级标题A41,则四级标题A41与四级标题A42之间的图表B1、文本内容段落C1对应于四级标题A42,其中,图表B1、文本内容段落C1可视为四级标题A41的下一层级。四级标题A42后面的下一个标题为五级标题A51,四级标题A42与五级标题A51之间的文本内容段落C2对应于四级标题A42。此外,由于五级标题A51是四级标题A42的下一级标题,五级标题A51和文本内容段落C2可视为四级标题A42的下一层级。五级标题A51后面紧跟着表格D1和文本内容段落C3,表格D1和文本内容段落C3可可视为五级标题A51的下一层级。。
为了更好的理解本发明,下面将结合附图,详细描述根据本发明实施例的基于检索语句的信息检索方法、装置、设备和介质,应注意,这些实施例并不用来限制本发明公开的范围。
图2是本发明实施例提供的一种基于检索语句的信息检索方法的示意流程图。如图2所示,本实施例中的基于检索语句的信息检索方法200可以包括下述S210至S240。
S210,获取待检索语句。
其中,待检索语句可以是至少一个完整的句子,或者至少一个词语。可以根据用户可以根据实际需求自定义输入,对此不作限定。
S220,从目标文档的内容块中确定与待检索语句相关的目标内容块。
其中,目标文档的内容块可分为与待检索语句相关的目标内容块,以及与待检索语句无关的内容块。
在一些实施例中,可以根据内容块与待检索语句的相关度评分来确定目标内容块。具体地,若目标文档总共包括M个内容块,则确定目标内容块的方式可以包括下述两个步骤。
步骤一、计算M个内容块中每一内容块与待检索语句的相关度评分Y。
在一些实施例中,针对M个内容块中的每一内容块,例如第i个内容块ei,可以先提取内容块ei与待检索语句的相关度特征Xi,再将该相关度特征Xi输入预先训练的评分计算模型,得到该内容块与待检索语句的相关度评分。
首先,针对内容块ei与待检索语句的相关度特征Xi,相关度特征Xi包括以下子特征的至少一种:
第一子特征、内容块ei与待检索语句的第一相关度评分Ai。其中,可以将利用最佳匹配25(Best Matching 25,BM25)算法计算得到的该内容块与待检索语句的BM25分数作为第一相关度评分Ai。此外,还可以利用其它能够表示内容块与待检索语句的相关程度的分数作为第一相关度评分Ai,对此不作限定。
第二子特征、内容块ei在目标文档中的相邻前J个内容块与待检索语句的第二相关度评分Bi。具体地,第二相关度评分Bi可以是前J个内容块与待检索语句的第一相关度评分计算得到的。示例性的,第二相关度评分Bi可以是前J个内容块与待检索语句的第一相关度评分中的最大值。例如,若前J个内容块与待检索语句的第一相关度评分分别为Ai-J、……、Ai-1,则Bi=max(Ai-J、……、Ai-1)。可选的,为了保证计算速度,J等于2。需要说明的是,第二相关度评分还可以通过其他方法计算得到,例如前J个内容块与待检索语句的第一相关度评分的平均值等,对此不做限定。
考虑到目标文档中各相邻内容块之间具备一定的关联性。如果某一段落与待检索语句具备相关性,则往往其相邻段落也与待检索语句具备相关性。由于第二相关度评分Bi表征内容块的上下文相关性评分特征,将第二相关度评分Bi作为内容块ei与待检索语句的相关度特征,能够反映内容块ei与待检索语句的相关程度。
第三子特征、内容块ei在目标文档中的相邻后K个内容块与待检索语句的第三相关度评分Ci。具体地,第三相关度评分Ci可以是后K个内容块与待检索语句的第一相关度评分计算得到的。示例性的,第三相关度评分Ci可以是后K个内容块与待检索语句的第一相关度评分中的最大值。例如,若后K个内容块与待检索语句的第一相关度评分分别为Ai+1、……、Ai+K,则Ci=max(Ai+1、……、Ai+K)。可选的,为了保证计算速度,K等于J,例如,K等于2。需要说明的是,第三相关度评分还可以通过其他方法计算得到,例如后K个内容块与待检索语句的第一相关度评分的平均值等,对此不做限定。此外,第三相关度评分Ci的有益效果与第二相关评分Bi的有益效果类似,在此不再赘述。
第四子特征、基于该内容块的所有上级标题与待检索语句的相关度评分确定的第四相关度评分Di。其中,若该内容块是非标题内容块,则该内容块的紧跟的标题也属于其上级标题。在一个实施例中,第四相关度评分Di可以是内容块ei的上级标题与待检索语句的第一相关度评分中的最高评分BM25AncestorMax。示例性的,可以是内容块ei的所有上级标题中的最高评分BM25AncestorMax。若内容块ei为三级标题“七、合并财务报表项目注释”,其上级标题中的二级标题“第十一节、财务报告”ej的第一相关度得分分别为Aj,其上级标题中的一级标题“第二章、固定资产”e的第一相关度得分分别为Ak,则Di=max(Aj、Ak)。具体地,若对应于三级标题的文本内容段落C1,其对应的三级标题与待检索语句的BM25评分为10,该三级标题的上级标题即二级标题、一级标题的BM25评分分别是12、6,则Di的取值为12。在另一个实施例中,第四相关度评分Di可以是内容块ei对应的标题的上级标题与待检索语句的第一相关度评分的平均值。需要说明的是,第四相关度评分Di还可以对内容块ei对应的标题的上级标题与待检索语句的第一相关度评分进行其他运算得到的分数值,对此不作限定。
第五子特征、该内容块的上一级标题与待检索语句的相关度评分Ei。在一种实施方式中,若该内容块是非标题内容块,则该内容块的上一级标题为与该内容块对应的标题。示例性的,若该内容块是三级标题下的文本内容段落,则该内容块的上一级标题为该三级标题。在另一种实施方式中,若该内容块为标题,例如三级标题,则该内容块的上一级标题为该三级标题所隶属的二级标题。继续参照第四子特征部分的示例,该内容块对应的三级标题与待检索语句的BM25评分为10,Ei=10。
第六子特征、内容块ei与待检索语句的文字重合度Ei。若待检索语句包括a个字符,内容块ei和待检索语句重合的字符数目为b,则文字重合度Fi=b/a。
第七子特征、该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置特征Gi。位置特征Gi能够反映内容块的局部位置信息。具体地,位置特征Gi可以是该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置次序SiblingPosition,和/或,该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置次序与该内容块对应的标题对应的所有内容块的个数的比值SiblingPositionRatio。需要说明的是,若将任一标题对应的内容块和该任一标题的下一级标题均视为其子节点,也就是说,该任一标题对应的内容块之间互为兄弟节点。则位置特征Gi可以是该内容块在其父节点的所有子节点中的位置排序,又或者,可以是该内容块在其父节点的所有子节点中的位置排序与其父节点的子节点个数的比值。示例性的,若目标文档包括如下内容:
“[A]6.盈利能力分析(BM25:0)
[B]6.4营业收入分析(BM25:10)
[C]2012年营业收入为100万元。(BM25:8)
[D]XXXXX(未命中关键词)(BM25:0)
[E]XXXXX(未命中关键词)(BM25:0)
[F]2013年营业收入为100万元。2014年营业收入为100万元。
(BM25:9)”
其中,以内容块C为例,内容块C对应标题B,标题B对应的内容块C-F。其中,内容块C在内容块C-F中排第一位,则内容块C的位置序列SiblingPosition=1。由于标题B对应4个内容块,则内容块C对应的比值SiblingPositionRatio=1/4。
需要说明的是,位置特征Gi还能反映内容块的重要程度。具体地,由于某一级标题对应的多个段落中,首段(SiblingPosition=1的内容块,例如上述内容块C)和末段(SiblingPositionRatio=1的内容块,例如上述内容块F)可能包含总结性信息,首尾两段相较于其他段落,例如内容块D和内容块E等更加重要。
第八子特征、该内容块与待检索语句的第一相关度评分Ai在该内容块对应的标题的所有下一级标题的相关度评分和该内容块对应的标题对应的所有内容块的相关度评分中的排序结果Hi。也就是说,若将某一级标题对应的多个内容块和该某一级标题的下一级标题均作为该某一级标题的子节点。则可以是该内容块与待检索语句的第一相关度评分Ai在该某一级标题的所有子节点的相关度评分中的排序结果。其中,若该内容块的相关度评分为0(比如第七子特征的相关内容中的内容块D,BM25=0),则可以认为该内容块的大小排序结果为0。若该内容块的相关度评分大于0,则该某一级标题的所有子节点的相关度评分的排序可以是对相关度评分大于0的子节点的相关度评分的由小到大的排序。示例性的,第七子特征的相关内容中的内容块C-F,标题B的内容块的相关度排序为内容块C、内容块F。具体地,内容块的排序结果可以是该内容块的次序SiblingRank。比如,内容块C的次序SiblingRank=1,内容块F的次序SiblingRank=2。又或者,内容块的排序结果可以是一个分数,示例性的,可以是该内容块的次序与该内容块的父节点(即上一级标题)的相关度评分大于0的子节点的数目的比值SiblingRankRatio。比如,内容块C的次序为1,内容块的父节点(标题B)的2个子节点元素C和内容块F的相关度评分大于0,元素C的比值SiblingRankRatio=1/2。相应地,元素F的比值SiblingRankRatio=2/2。
需要说明的是,SiblingRank的值越大,表示该内容块的有很多兄弟节点都命中了关键词,该内容块的父节点与待检索语句也越相关。
第九子特征、该内容块与该内容块对应的上一级标题的文本重合度Ji。具体地,文本重合度Ji可以是重合的词语个数SameWordParent,也可以是重合的字的个数SameCharacterParent。示例性的,以第七子特征的相关内容中的内容块C和其上一级标题B为例,两者重合的词语为“营业”、“收入”共2个词,此时,内容块C的SameWordParent=2。两者重合的字为“营”、“业”、“收”、“入”共4个字,内容块C的SameCharacterParent=4。
第十子特征、该内容块与该内容块对应的标题的文本重合度以及该内容块对应的标题的所有上级标题的文本重合度中的最高重合度Ki。其中,若内容块C对应第三级标题,内容块C与第三级标题“6.4营业收入分析”的文本重合度为K1,内容块C与该第三级标题的上一级标题(即第二级标题“6.盈利能力分析”)的文本重合度为K2,内容块C与该第二级标题的上一级标题(即第一级标题“六、公司盈利情况”)的文本重合度为K3,则内容块C对应的最高重合度Ki=max(K1、K2、K3)。
其次,针对评分计算模型,评分计算模型可以是梯度提升决策树(GradientBoosting Decision Tree,GBDT)回归模型,或者二分类模型。此外,还可以选用其他模型,对此不做限制。
在训练评分计算模型的过程中,首先,可以提前选取P条检索语句样本,Q个内容块样本。并提前标注每一内容块样本与每一条检索语句样本的相关度标签。其中,若二者相关,则相关度标签为1,若不相关,相关度标签为0。然后将其输入评分计算模型进行训练。其中,若内容块样本ei与待检索语句Wj的相关度标签为1,则内容块样本ei与待检索语句Wj的相关度评分Yij的期望预测值为1。同理地,若内容块样本ei与待检索语句Wj的相关度标签为0,则相关度评分Yij的期望预测值为0。可选的,若相关度特征包括R个子特征,则训练评分计算模型的训练数据可以具体实现为二维数据矩阵,该二维数据特征包括P×Q行,R列。可选的,R小于等于5。
步骤二、将相关度评分最高的前N个内容块确定为目标内容块。其中,M、N均为正整数,且M大于等于N。示例性的,N可以根据具体工作场景和工作需求设置,例如N等于100,对此不做具体的限定。
通过本步骤,可以从目标文档中检索出与待检索语句最相关的内容块。从而筛选掉了相关度较低的内容块,优化了信息检索结果。
进一步地,还可以按照相关度评分从高到低的顺序,对目标内容块进行排序,以便检索用户能够快速获取最期望的信息检索结果。
S230,将具备逻辑层级关系的目标内容块聚合为片段。
其中,具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题。也就是说,若标题A的某一上级标题和标题B的某一上级标题相同,或者标题A是标题B的上一级标题,则标题A和标题B具有逻辑层级关系。其中,每一片段包括所聚合的目标内容块的所有内容。
在一些实施例中,目标内容块的逻辑层级关系是基于内容块逻辑树确定的。
首先,针对内容块逻辑树,目标文档中每一标题、该标题的下一级标题和该标题对应的除标题外的其他目标内容块为该标题的子节点。如果某一二级标题下隶属有3个三级标题A31、A32、A33,该二级标题对应文本内容段落B2、表格C1、图表D1,则在内容块逻辑树中,三级标题A31、三级标题A32、三级标题A33、文本内容段落B2、表格C1、图表D1均为该二级标题的子节点。
示例性的,图3是本发明实施例提供的一种示例性的内容块逻辑树的结构示意图。如图3所示,内容块逻辑树由根节点R0和子节点N1-N7组成的第一子树、子节点N8-N13组成的第二子树、子节点N14-N19第三子树组成。其中,N1、N8、N14为直接与相连的R0的三个子节点。示例性的,根节点R0可以是文档的主题名称或者文档的题目。又或者,根节点R0也可以空置。与根节点R0直接连接的节点N1、节点N8、节点N14分别是三个一级标题。节点N8的下一级节点分别是二级标题N9、与节点N8对应的文本内容段落N12、与节点N8对应的表格N13。
由于每颗子树中所有节点的标题均具有同一上级标题。例如,第一子树中节点A2-A7的标题均隶属于A1的一级标题。每颗子树中所有子节点间彼此具备逻辑层级关系。
相应地,S230具体包括:将内容块逻辑树中每一子树中的目标内容块聚合为一个片段。
在一些实施例中,将内容块逻辑树中每一子树中的目标内容块聚合为一个片段的具体实施方式可以多次循环执行下述四个步骤。
步骤一、获取第一集合S2、第二集合S2和第三集合S3。其中,第一集合中用于放置新添加的目标内容块,若当前循环为第k次循环,则第一集合S2包括第k-1次循环过程新添加至第三集合的节点所对应的目标内容块。第一集合的初始值为空集。第二集合用于放置旧的目标内容块。若当前循环为第k次循环,则第二集合放置有S220确定的目标内容块,以及前k-2次循环过程中添加至第三集合的节点所对应的目标内容块。第二集合的初始值包括S220中确定的全体目标内容块。例如,若通过S220获得目标内容块为e1,……,en,则S2的初始值为{e1,……,en}。第三集合用于辅助运算,第三集合的初始值为空集。
步骤二、若在内容块逻辑树中,第二集合中至少两个元素的父节点相同,且该父节点不属于第二集合,则将该父节点加入第三集合。也就是说,pi表示ei的父节点,pj表示ej的父节点, 若满足pi=pj,则将pi加入第三集合S3。可选的,在步骤二中,可以对第二集合中的目标内容块进行遍历,确定第二集合中是否存在父节点相同的目标内容块。
步骤三、若第一集合中至少一个元素的父节点与第二集合中至少一个元素的父节点相同,且该父节点不属于第二集合,则将第一集合中至少一个元素的父节点加入第三集合。也就是说, 若满足pi=pj,则将pi加入第三集合S3。可选的,在步骤三中,可以对第一集合中的目标内容块进行遍历,确定第二集合中是否存在父节点相同的目标内容块。
步骤四、将第一集合的全体元素加入第二集合,并将第三集合作为新的第一集合,若第三集合不为空集,则返回步骤一。若第三集合为空集,将第二集合中的元素作为新的目标内容块,并将新的目标内容块聚合为片段。
在一些实施例中,将第二集合中新的目标内容块聚合为片段可以包括:将第二集合中的新的目标内容块依次作为第一目标内容块。
针对每一第一目标内容块,执行下述三个步骤。
步骤一、若内容块逻辑树中第一目标内容块ei为第二集合中的第二目标内容块ej的父节点或者子节点,则将第一目标内容块和第二目标内容块进行聚合。也就是说,若满足pi=ej,或者ei=pj,则将ei和ej聚合在一起。示例性的,图4A是本发明实施例提供的一种示例性的聚合过程的逻辑示意图。如图4A所示,若第一目标内容块为N5,若节点N4属于第二集合,由于节点N5是节点N4的子节点,则可以将第一目标内容块N5和第二目标内容块N4进行聚合。
步骤二、若第一目标内容块的父节点pi与第二集合中的第三目标内容块的父节点pj相同,则将第一目标内容块ei、第三目标内容块ej、第一目标内容块的父节点pi进行聚类。也就是说, 若满足pi=pj,则将ei、ej和pi进行聚合。示例性的,图4B是本发明实施例提供的又一种示例性的聚合过程的逻辑示意图。如图4B所示,若第一目标内容块为N5,其兄弟节点N6属于第二集合,则可以将N5、N6以及两者共同的父节点N4聚合在一起。通过步骤二,可以将兄弟节点和兄弟节点的父节点进行聚合。
步骤三、若第一目标内容块ei的父节点的父节点是第二集合中的第四目标内容块ej,则将第一目标内容块ei、第四目标内容块ej、第一目标内容块的父节点pi进行聚类。也就是说,若满足则将ei、ej和pi进行聚类。示例性的,图4C是本发明实施例提供的又一种示例性的聚合过程的逻辑示意图。如图4C所示,若第一目标内容块为N18,其祖父节点N16为第四目标内容块两者之间为节点N18的父节点N17。可以将N16、N17和N18聚合在一起。
步骤四、若第一目标内容块ei的子节点的子节点是第二集合中的第五目标内容块ej,则将第一目标内容块ei、第五目标内容块ej、第五目标内容块的父节点pj进行聚类。也就是说,若满足则将ei、ej和pj进行聚类。示例性的,继续参见图4C,若第一目标内容块为N16,第五目标内容块为N18。由于N16的子节点为N17,N17为N6的父节点,也就是说N18是N16的孙子节点,可以将N16、N17和N18聚合在一起。
S240,将片段作为待检索语句在目标文档中的信息检索结果。可选的,在显示信息检索结果时,可以按照目标内容块的层级设置不同的显示方式。例如,只显示某一片段中最高层级的标题,对该片段中的其他目标内容块进行隐藏。在触发点选操作之后,可以按照层级次序对该片段中所有目标内容块进行显示。不同层级的目标内容块采用不同的显示效果,比如缩进的长度不同,对此不作限定。
根据本发明实施例中的基于检索语句的信息检索方法,在获取待检索语句之后,可以确定与待检索语句相关的目标内容块。并按照目标内容块之间的逻辑层级关系,将其聚合成片段,并将聚合后的片段作为信息检索结果。相较于现有的、罗列出所有信息检索结果的方法,能够将具有逻辑层级关系的目标内容块聚合成一个片段,使不具有逻辑层级关系的目标内容块尽量分离,提高了信息检索结果的质量。
在本发明的一些实施例中,一个待检索语句的信息检索结果可能包括多个片段,S240之后,还可以基于片段中目标内容块的相关度评分,计算该片段的相关度评分。具体地,针对每一片段,将该片段中的目标内容块中相关度评分的最高评分作为片段与待检索语句的相关度评分。
此外,在显示界面上显示信息检索结果时,为了使信息检索结果优先获取最期望的信息检索结果,可以按照相关度从高到低的次序显示各片段。
下面结合附图,详细介绍根据本发明实施例的装置。
基于相同的发明构思,本发明实施例提供了一种基于检索语句的信息检索装置。图5是本发明实施例提供的一种基于检索语句的信息检索装置的结构示意图。如图5所示,基于检索语句的信息检索装置500包括获取模块510、确定模块520、聚合模块530和结果处理模块540。
其中,获取模块510,用于获取待检索语句。
确定模块520,用于从目标文档的内容块中确定与待检索语句相关的目标内容块,内容块包括文本内容段落、标题、表格、图表、图片中的至少一个。
聚合模块530,用于将具备逻辑层级关系的目标内容块聚合为片段,其中,具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题;
结果处理模块540,用于将片段作为待检索语句在目标文档中的信息检索结果。
在本发明的一些实施例中,目标内容块的逻辑层级关系是基于内容块逻辑树确定的。
其中,内容块逻辑树是基于目标文档的内容块确定的。每一标题的下一级标题和每一标题对应的除标题外的其他目标内容块为每一标题的子节点。
在本发明的一些实施例中,聚合模块530,具体用于:将内容块逻辑树中每一子树中的所有目标内容块聚合为一个片段。
在本发明的一些实施例中,聚合模块530,具体包括:
集合获取单元,用于获取第一集合、第二集合和第三集合,第二集合的初始值包括全体目标内容块。
第一处理单元,用于若在内容块逻辑树中,第二集合中至少两个元素的父节点相同,且父节点不属于第二集合,则将父节点作为元素加入第三集合。
第二处理单元,用于若第一集合中至少一个元素的父节点与第二集合中至少一个元素的父节点相同,且父节点不属于第一集合和第二集合,则将父节点作为元素加入第三集合。
第三处理单元,用于将第一集合的全体元素加入第二集合,并将第三集合作为新的第一集合,直到第三集合为空集,将第二集合中的元素作为新的目标内容块,并将新的目标内容块聚合为片段。
在一些实施例中,第三处理单元,具体用于:将第二集合中的新的目标内容块依次作为第一目标内容块。
以及,针对每一第一目标内容块,执行以下操作:若内容块逻辑树中,第一目标内容块为第二集合中的第二目标内容块的父节点或者子节点,则将第一目标内容块和第二目标内容块进行聚合;若第一目标内容块的父节点与第二集合中的第三目标内容块的父节点相同,则将第一目标内容块、第三目标内容块、第一目标内容块的父节点进行聚合;若第一目标内容块的父节点的父节点是第二集合中的第四目标内容块,则将第一目标内容块、第四目标内容块、第一目标内容块的父节点进行聚合;若第一目标内容块的子节点的子节点是第二集合中的第五目标内容块,则将第一目标内容块、第五目标内容块、第五目标内容块的父节点进行聚合。
在本发明的一些实施例中,确定模块520,具体用于:计算每一内容块与待检索语句的相关度评分;将相关度评分最高的前N个内容块确定为目标内容块。
在本发明的一些实施例中,确定模块520,具体用于:针对每一内容块,提取该内容块与待检索语句的相关度特征,将相关度特征输入预先训练的评分计算模型,得到该内容块与待检索语句的相关度评分。
其中,相关度特征包括以下至少一种:
该内容块与待检索语句的第一相关度评分,该内容块在目标文档中的相邻前J个内容块与待检索语句的第二相关度评分,该内容块在目标文档中的相邻后K个内容块与待检索语句的第三相关度评分,内容块基于该内容块的所有上级标题与待检索语句的相关度评分确定的第四相关度评分,该内容块的上一级标题与待检索语句的相关度评分,该内容块与待检索语句的文字重合度,该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置特征,该内容块与待检索语句的第一相关度评分在该内容块对应的标题的所有下一级标题的相关度评分和该内容块对应的标题对应的所有内容块的相关度评分中的排序结果,该内容块与该内容块对应的上一级标题的文本重合度,该内容块与该内容块对应的标题的文本重合度以及该内容块对应的标题的所有上级标题的文本重合度中的最高重合度。
在本发明的一些实施例中,基于检索语句的信息检索装置还包括计算模块。
计算模块用于针对每一片段,将该片段中的目标内容块中相关度评分的最高评分作为片段与待检索语句的相关度评分。
图6是本发明实施例中基于检索语句的信息检索设备的示例性硬件架构的结构图。
如图6所示,基于检索语句的信息检索设备600包括输入设备601、输入接口602、中央处理器603、存储器604、输出接口605、以及输出设备606。其中,输入接口602、中央处理器603、存储器604、以及输出接口605通过总线610相互连接,输入设备601和输出设备606分别通过输入接口602和输出接口605与总线610连接,进而与基于检索语句的信息检索设备600的其他组件连接。
具体地,输入设备601接收来自外部的输入信息,并通过输入接口602将输入信息传送到中央处理器603;中央处理器603基于存储器604中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器604中,然后通过输出接口605将输出信息传送到输出设备606;输出设备606将输出信息输出到基于检索语句的信息检索设备600的外部供用户使用。
也就是说,图6所示的基于检索语句的信息检索设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图5描述的基于检索语句的信息检索设备的方法和装置。
在一个实施例中,图6所示的基于检索语句的信息检索设备600可以被实现为一种设备,该设备可以包括:存储器,用于存储程序;处理器,用于运行所述存储器中存储的所述程序,以执行本发明实施例的基于检索语句的信息检索方法。
本发明实施例还提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现本发明实施例的基于检索语句的信息检索方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
Claims (11)
1.一种基于检索语句的信息检索方法,其特征在于,所述方法包括:
获取待检索语句;
从目标文档的内容块中确定与所述待检索语句相关的目标内容块,所述内容块包括文本内容段落、标题、表格、图表、图片中的至少一个;
将具备逻辑层级关系的所述目标内容块聚合为片段,其中,所述具备逻辑层级关系的所述目标内容块所对应的标题具有同一上级标题;
将所述片段作为所述待检索语句在所述目标文档中的信息检索结果。
2.根据权利要求1所述的方法,其特征在于,
所述目标内容块的逻辑层级关系是基于内容块逻辑树确定的,
其中,所述内容块逻辑树是基于所述目标文档的内容块确定的,每一标题的下一级标题和所述每一标题对应的除标题外的其他目标内容块为所述每一标题的子节点。
3.根据权利要求2所述的方法,其特征在于,所述将具备逻辑层级关系的所述目标内容块聚合为片段,包括:
将所述内容块逻辑树中每一子树中的所有目标内容块聚合为一个片段。
4.根据权利要求2所述的方法,其特征在于,所述将具备逻辑层级关系的所述目标内容块聚合为片段,包括:
获取第一集合、第二集合和第三集合,所述第二集合的初始值包括全体所述目标内容块;
若在所述内容块逻辑树中,所述第二集合中至少两个元素的父节点相同,且所述父节点不属于所述第二集合,则将所述父节点作为元素加入所述第三集合;
若所述第一集合中至少一个元素的父节点与所述第二集合中至少一个元素的父节点相同,且所述父节点不属于所述第一集合和所述第二集合,则将所述父节点作为元素加入所述第三集合;
将所述第一集合的全体元素加入所述第二集合,并将第三集合作为新的第一集合,直到所述第三集合为空集,将所述第二集合中的元素作为新的目标内容块,并将所述新的目标内容块聚合为片段。
5.根据权利要求4所述的方法,其特征在于,所述将所述第二集合中的元素作为新的目标内容块,并将所述新的目标内容块聚合为片段,包括:
将所述第二集合中的新的目标内容块依次作为第一目标内容块;
针对每一第一目标内容块,执行以下操作:
若所述内容块逻辑树中,所述第一目标内容块为第二集合中的第二目标内容块的父节点或者子节点,则将所述第一目标内容块和第二目标内容块进行聚合;
若所述第一目标内容块的父节点与第二集合中的第三目标内容块的父节点相同,则将所述第一目标内容块、所述第三目标内容块、所述第一目标内容块的父节点进行聚合;
若所述第一目标内容块的父节点的父节点是第二集合中的第四目标内容块,则将所述第一目标内容块、所述第四目标内容块、所述第一目标内容块的父节点进行聚合;
若所述第一目标内容块的子节点的子节点是第二集合中的第五目标内容块,则将所述第一目标内容块、所述第五目标内容块、所述第五目标内容块的父节点进行聚合。
6.根据权利要求1所述的方法,其特征在于,所述从目标文档的内容块中确定与所述待检索语句相关的目标内容块,包括:
计算每一所述内容块与所述待检索语句的相关度评分;
将所述相关度评分最高的前N个所述内容块确定为所述目标内容块。
7.根据权利要求6所述的方法,其特征在于,所述计算每一所述内容块与所述待检索语句的相关度评分,包括:
针对每一所述内容块,提取该内容块与所述待检索语句的相关度特征,将所述相关度特征输入预先训练的评分计算模型,得到该内容块与所述待检索语句的相关度评分;
其中,所述相关度特征包括以下至少一种:
该内容块与所述待检索语句的第一相关度评分,该内容块在所述目标文档中的相邻前J个内容块与所述待检索语句的第二相关度评分,该内容块在所述目标文档中的相邻后K个内容块与所述待检索语句的第三相关度评分,内容块基于该内容块的所有上级标题与所述待检索语句的相关度评分确定的第四相关度评分,该内容块的上一级标题与所述待检索语句的相关度评分,该内容块与所述待检索语句的文字重合度,该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置特征,该内容块与所述待检索语句的第一相关度评分在该内容块对应的标题的所有下一级标题的相关度评分和该内容块对应的标题对应的所有内容块的相关度评分中的排序结果,该内容块与该内容块对应的上一级标题的文本重合度,该内容块与该内容块对应的标题的文本重合度以及该内容块对应的标题的所有上级标题的文本重合度中的最高重合度。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
针对每一片段,将该片段中的目标内容块中所述相关度评分的最高评分作为所述片段与所述待检索语句的相关度评分。
9.一种基于检索语句的信息检索装置,其特征在于,所述装置包括:
获取模块,用于获取待检索语句;
确定模块,用于从目标文档的内容块中确定与所述待检索语句相关的目标内容块,所述内容块包括文本内容段落、标题、表格、图表、图片中的至少一个;
聚合模块,用于将具备逻辑层级关系的所述目标内容块聚合为片段,其中,所述具备逻辑层级关系的所述目标内容块所对应的标题具有同一上级标题;
结果处理模块,用于将所述片段作为所述待检索语句在所述目标文档中的信息检索结果。
10.一种基于检索语句的信息检索设备,其特征在于,所述设备包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行权利要求1-8任一权利要求所述的基于检索语句的信息检索方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1-8任一权利要求所述的基于检索语句的信息检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010345052.8A CN113641782A (zh) | 2020-04-27 | 2020-04-27 | 基于检索语句的信息检索方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010345052.8A CN113641782A (zh) | 2020-04-27 | 2020-04-27 | 基于检索语句的信息检索方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113641782A true CN113641782A (zh) | 2021-11-12 |
Family
ID=78415133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010345052.8A Pending CN113641782A (zh) | 2020-04-27 | 2020-04-27 | 基于检索语句的信息检索方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641782A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001079957A2 (en) * | 2000-04-19 | 2001-10-25 | E-Base Ltd. | A method for creating content oriented databases and content files |
US6505191B1 (en) * | 1998-07-24 | 2003-01-07 | Jarg Corporation | Distributed computer database system and method employing hypertext linkage analysis |
JP2007193693A (ja) * | 2006-01-20 | 2007-08-02 | Ntt Data Corp | 関連概念抽出装置、関連概念抽出方法、プログラムおよび記録媒体 |
CN102081660A (zh) * | 2011-01-13 | 2011-06-01 | 西北工业大学 | 基于语义相关的xml文档关键字检索排序方法 |
US20110314024A1 (en) * | 2010-06-18 | 2011-12-22 | Microsoft Corporation | Semantic content searching |
CN102402605A (zh) * | 2010-11-22 | 2012-04-04 | 微软公司 | 用于搜索引擎索引的混合分布模型 |
US20150205772A1 (en) * | 2014-01-22 | 2015-07-23 | Al Squared | Emphasizing a portion of the visible content elements of a markup language document |
CN105786951A (zh) * | 2015-12-31 | 2016-07-20 | 北京金山安全软件有限公司 | 一种网页中内容块的提取方法、装置及服务器 |
CN107491534A (zh) * | 2017-08-22 | 2017-12-19 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN107679035A (zh) * | 2017-10-11 | 2018-02-09 | 石河子大学 | 一种信息意图检测方法、装置、设备和存储介质 |
CN109089133A (zh) * | 2018-08-07 | 2018-12-25 | 北京市商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN110569364A (zh) * | 2019-08-21 | 2019-12-13 | 北京大米科技有限公司 | 在线教学方法、装置、服务器及存储介质 |
-
2020
- 2020-04-27 CN CN202010345052.8A patent/CN113641782A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6505191B1 (en) * | 1998-07-24 | 2003-01-07 | Jarg Corporation | Distributed computer database system and method employing hypertext linkage analysis |
WO2001079957A2 (en) * | 2000-04-19 | 2001-10-25 | E-Base Ltd. | A method for creating content oriented databases and content files |
JP2007193693A (ja) * | 2006-01-20 | 2007-08-02 | Ntt Data Corp | 関連概念抽出装置、関連概念抽出方法、プログラムおよび記録媒体 |
US20110314024A1 (en) * | 2010-06-18 | 2011-12-22 | Microsoft Corporation | Semantic content searching |
CN102402605A (zh) * | 2010-11-22 | 2012-04-04 | 微软公司 | 用于搜索引擎索引的混合分布模型 |
CN102081660A (zh) * | 2011-01-13 | 2011-06-01 | 西北工业大学 | 基于语义相关的xml文档关键字检索排序方法 |
US20150205772A1 (en) * | 2014-01-22 | 2015-07-23 | Al Squared | Emphasizing a portion of the visible content elements of a markup language document |
CN105786951A (zh) * | 2015-12-31 | 2016-07-20 | 北京金山安全软件有限公司 | 一种网页中内容块的提取方法、装置及服务器 |
CN107491534A (zh) * | 2017-08-22 | 2017-12-19 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN107679035A (zh) * | 2017-10-11 | 2018-02-09 | 石河子大学 | 一种信息意图检测方法、装置、设备和存储介质 |
CN109089133A (zh) * | 2018-08-07 | 2018-12-25 | 北京市商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN110569364A (zh) * | 2019-08-21 | 2019-12-13 | 北京大米科技有限公司 | 在线教学方法、装置、服务器及存储介质 |
Non-Patent Citations (4)
Title |
---|
于永波: "Web信息抽取中的若干关键问题研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 9, pages 138 - 1694 * |
初砚硕: "基于肿瘤测序数据的亚克隆重构方法研究", 中国博士学位论文全文数据库医药卫生科技辑, no. 1, pages 072 - 21 * |
陈鑫: "NDN中基于汇聚点的缓存与转发研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 1, pages 139 - 56 * |
魏佳欣;叶飞跃;: "基于HTML特征与层次聚类的Web查询接口发现", 计算机工程, no. 02, pages 62 - 67 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及系统 | |
US11341419B2 (en) | Method of and system for generating a prediction model and determining an accuracy of a prediction model | |
CN108460014B (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN108038183B (zh) | 结构化实体收录方法、装置、服务器和存储介质 | |
US7788265B2 (en) | Taxonomy-based object classification | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
JP2022535792A (ja) | データフィールドのプロファイルデータからのデータフィールドの意味論的意味の発見 | |
CN101404015B (zh) | 自动生成词条层次 | |
JP5423030B2 (ja) | ワードセットに関係するワードの決定 | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
Burrows et al. | Comparing techniques for authorship attribution of source code | |
US20100094854A1 (en) | System for automatically categorizing queries | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
Oliveira et al. | Towards holistic entity linking: Survey and directions | |
US9569525B2 (en) | Techniques for entity-level technology recommendation | |
Färber et al. | The Microsoft Academic Knowledge Graph enhanced: Author name disambiguation, publication classification, and embeddings | |
CN106649557A (zh) | 一种缺陷报告与邮件列表语义关联挖掘方法 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN115422372A (zh) | 一种基于软件测试的知识图谱构建方法和系统 | |
CN115982390B (zh) | 一种产业链构建和迭代扩充开发方法 | |
CN113641782A (zh) | 基于检索语句的信息检索方法、装置、设备和介质 | |
Nghiem et al. | Which one is better: presentation-based or content-based math search? | |
CN112860940B (zh) | 基于描述逻辑知识库上有序概念空间的音乐资源检索方法 | |
CN113641783A (zh) | 基于关键语句的内容块检索方法、装置、设备和介质 | |
Deforche et al. | An Orthographic Similarity Measure for Graph-Based Text Representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |