CN117633197B - 应用于释义文档的检索信息生成方法、装置和电子设备 - Google Patents
应用于释义文档的检索信息生成方法、装置和电子设备 Download PDFInfo
- Publication number
- CN117633197B CN117633197B CN202410108126.4A CN202410108126A CN117633197B CN 117633197 B CN117633197 B CN 117633197B CN 202410108126 A CN202410108126 A CN 202410108126A CN 117633197 B CN117633197 B CN 117633197B
- Authority
- CN
- China
- Prior art keywords
- document
- paraphrasing
- information
- index
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000004044 response Effects 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000004913 activation Effects 0.000 claims abstract description 13
- 230000001502 supplementing effect Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 25
- 238000007906 compression Methods 0.000 claims description 20
- 230000006835 compression Effects 0.000 claims description 20
- 230000000153 supplemental effect Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims 2
- 238000000605 extraction Methods 0.000 description 42
- 238000010586 diagram Methods 0.000 description 12
- 238000000354 decomposition reaction Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开的实施例公开了应用于释义文档的检索信息生成方法、装置和电子设备。该方法的一具体实施方式包括:对信息查询用户输入的查询语句进行意图识别;响应于确定意图状态信息表征文档检索意图,执行以下第一处理步骤:对预先构建的文档检索索引进行索引激活;通过激活后文档索引进行释义文档内容定位;响应于确定意图状态信息表征知识问答意图,执行以下第二处理步骤:确定是否存在目标问答信息对序列;响应于存在目标问答信息对序列,对目标问答信息对序列中的每个目标问答信息对进行问答信息补充;将目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与查询语句匹配的检索信息。该实施方式提高了检索效率。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及应用于释义文档的检索信息生成方法、装置和电子设备。
背景技术
随着业务项目的数量以及复杂度增加,相对应的释义文档的数量也在随之增加,如何有效地提高基于释义文档的检索效率成为亟需解决的问题。目前,在进行释义文档的检索中,通常采用的方式为:将单个释义文档整体作为数据库记录,并采用数据库的原生索引策略以优化检索效率。
然而,当采用上述方式时,经常会存在如下技术问题:
第一,不同的释义文档之前往往存在关联关系,而由于原生索引策略往往无法有效适配检索场景,导致无法在索引中引入不同释义文档之间的关联性,从而导致检索效率较差;
第二,针对单个检索需求,往往需要依赖部分索引进行检索,缺乏有效地索引剪枝方式,导致检索速度难以进一步优化;
第三,随着项目复杂度的增加,对应的释义文档的内容量也在增加,将单个释义文档整体作为数据库记录的方式,随着释义文档数量的增多,会增加数据的物理存储压力,以及降低物理存储的存储效率。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了应用于释义文档的检索信息生成方法、装置和电子设备,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种应用于释义文档的检索信息生成方法,该方法包括:对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息,其中,上述意图状态信息表征上述信息查询用户的查询意图;响应于确定上述意图状态信息表征文档检索意图,执行以下第一处理步骤:根据上述查询语句和上述信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引,其中,上述文档检索索引是用于进行释义文档检索的检索索引,上述激活后文档索引为上述文档检索索引的子索引;以上述查询语句为查询源,通过上述激活后文档索引进行释义文档内容定位,得到与上述查询语句匹配的检索信息;响应于确定上述意图状态信息表征知识问答意图,执行以下第二处理步骤:确定是否存在目标问答信息对序列,其中,上述目标问答信息对序列中的目标问答信息对根据与上述查询语句的问答关联度有序排列;响应于存在上述目标问答信息对序列,对上述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与上述目标问答信息对对应的问答补充信息;将上述目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与上述查询语句匹配的检索信息。
第二方面,本公开的一些实施例提供了一种应用于释义文档的检索信息生成装置,装置包括:意图识别单元,被配置成对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息,其中,上述意图状态信息表征上述信息查询用户的查询意图;第一执行单元,被配置成响应于确定上述意图状态信息表征文档检索意图,执行以下第一处理步骤:根据上述查询语句和上述信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引,其中,上述文档检索索引是用于进行释义文档检索的检索索引,上述激活后文档索引为上述文档检索索引的子索引;以上述查询语句为查询源,通过上述激活后文档索引进行释义文档内容定位,得到与上述查询语句匹配的检索信息;第二执行单元,被配置成响应于确定上述意图状态信息表征知识问答意图,执行以下第二处理步骤:确定是否存在目标问答信息对序列,其中,上述目标问答信息对序列中的目标问答信息对根据与上述查询语句的问答关联度有序排列;响应于存在上述目标问答信息对序列,对上述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与上述目标问答信息对对应的问答补充信息;将上述目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与上述查询语句匹配的检索信息。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的应用于释义文档的检索信息生成方法提高了检索效率。具体来说,造成检索效率较差的原因在于:不同的释义文档之前往往存在关联关系,而由于原生索引策略往往无法有效适配检索场景,导致无法在索引中引入不同释义文档之间的关联性,从而导致检索效率较差。基于此,本公开的一些实施例的应用于释义文档的检索信息生成方法,首先,对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息,其中,上述意图状态信息表征上述信息查询用户的查询意图。以此精细化用户的查询意图。其次,响应于确定上述意图状态信息表征文档检索意图,执行以下第一处理步骤:第一步,根据上述查询语句和上述信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引,其中,上述文档检索索引是用于进行释义文档检索的检索索引,上述激活后文档索引为上述文档检索索引的子索引上述。实践中,释义文档之间可能存在文档内容之间的直接关联性,以及基于文档使用者之间的间接关联性,同时,在基于索引的检索过程中可能仅涉及部分索引的使用,因此,本公开通过结合用户信息以及查询语句,通过索引激活的方式,减少索引加载量。第二步,以上述查询语句为查询源,通过上述激活后文档索引进行释义文档内容定位,得到与上述查询语句匹配的检索信息。接着,响应于确定上述意图状态信息表征知识问答意图,执行以下第二处理步骤:第一步,确定是否存在目标问答信息对序列,其中,上述目标问答信息对序列中的目标问答信息对根据与上述查询语句的问答关联度有序排列。第二步,响应于存在上述目标问答信息对序列,对上述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与上述目标问答信息对对应的问答补充信息。以此针对目标问答信息对进行信息补充。第三步,将上述目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与上述查询语句匹配的检索信息。以此结合历史问答信息以及相应的问答补充信息实现针对用户知识问答需求的响应。通过此种方式提高了检索效率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的应用于释义文档的检索信息生成方法的一些实施例的流程图;
图2是文档检索索引的索引结构示意图;
图3是文本特征压缩模型的模型结构示意图;
图4是根据本公开的应用于释义文档的检索信息生成装置的一些实施例的结构示意图;
图5是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
参考图1,示出了根据本公开的应用于释义文档的检索信息生成方法的一些实施例的流程100。该应用于释义文档的检索信息生成方法,包括以下步骤:
步骤101,对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息。
在一些实施例中,应用于释义文档的检索信息生成方法的执行主体(例如,计算设备)可以对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息。其中,意图状态信息表征上述信息查询用户的查询意图。查询语句可以是用户输入的用于进行释义文档检索的语句。实践中,上述执行主体可以采用意图识别分类器对查询语句进行意图识别,以生成意图状态信息。其中,意图识别分类器采用语义预训练模型。意图识别分类器包括:查询语句特征提取层和二分类层。其中,查询语句特征提取层采用Transformer结构。查询语句特征提取层用于对查询语句进行向量化。具体的,在训练阶段,意图识别分类器采用历史询问语句为训练样本、人工标注的意图状态信息为训练样本标签进行有监督训练得到。意图状态信息可以表征以下任意一项:文档检索意图和知识问答意图。其中,文档检索意图表征对释义文档的检索意图。知识问答意图表征基于释义文档的问答意图。
需要说明的是,上述计算设备可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。应该理解,计算设备的数目仅仅是示意性的。根据实现需要可以具有任意数目。
步骤102,响应于确定意图状态信息表征文档检索意图,执行以下第一处理步骤:
步骤1021,根据查询语句和信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引。
在一些实施例中,上述执行主体可以根据查询语句和信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引。其中,文档检索索引是用于进行释义文档检索的检索索引。激活后文档索引为上述文档检索索引的子索引。具体的,激活后文档索引为上述文档检索索引的部分索引。可选的,上述用户信息包括:用户身份信息和用户行为信息。实践中,用户身份信息可以包括但不限于以下至少一项:所属部门,所属组别,用户职位,用户工作年限。用户行为信息表征用的历史检索行为。具体的,用户行为信息可以包括但不限于以下至少一项:历史检索记录,历史点击率,历史浏览时间。实践中,上述执行主体可以从文档检索索引中,激活与查询语句和信息查询用户的用户信息为匹配的索引,作为激活后文档索引。
在一些实施例的一些可选的实现方式中,上述执行主体根据上述查询语句和上述信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引,可以包括以下步骤:
第一步,激活上述文档检索索引包括的一级检索索引中与上述查询语句和上述信息查询用户的用户信息匹配的索引节点,得到至少一个根索引节点。
实践中,上述执行主体可以采用部门相似度匹配的方式,判断文档检索索引包括的一级检索索引中需要激活的、与查询语句和上述信息查询用户的用户信息匹配的索引节点。例如,上述执行主体可以通过将查询语句与一级检索索引包括的索引节点对应的部门进行部门相似度匹配,以确定上述至少一个根索引节点。又如,上述执行主体还可以通过将查询语句和信息查询用户对应的所属部门与一级检索索引包括的索引节点对应的部门进行部门相似度匹配,以确定上述至少一个根索引节点。
第二步,对于上述至少一个根索引节点中的每个根索引节点,以上述根索引节点为起始节点进行深度索引遍历,得到局部检索索引。
作为示例,如图2所示的文档检索索引的索引结构示意图,根索引节点可以是索引节点A,对应的局部检索索引可以是以索引节点A、索引节点D、索引节点E、索引节点H和索引节点I构成的局部检索索引。
第三步,将得到的局部检索索引集合中存在直接索引关联关系的局部检索索引,作为第一局部检索索引。
其中,直接索引关联关系表征局部检索索引之间存在共用的索引节点。
作为示例,局部检索索引A可以由索引节点A、索引节点D、索引节点E、索引节点H和索引节点I构成。局部检索索引B可以由索引节点E、索引节点I、索引节点F和索引节点J。局部检索索引A和局部检索索引B之间存在共用的索引节点E和索引节点I,因此,局部检索索引A和局部检索索引B可以构成第一局部检索索引。
第四步,将上述局部检索索引集合中不存在直接索引关联关系的局部检索索引,作为第二局部检索索引,得到第二局部检索索引集合。
作为示例,局部检索索引A可以由索引节点A、索引节点D、索引节点E、索引节点H和索引节点I构成。局部检索索引C可以由索引节点G和索引节点K。局部检索索引A和局部检索索引C之间没有共用的索引节点。
第五步,确定上述第二局部检索索引集合中的第二局部检索索引对应的中间索引节点,得到中间索引节点集合。
作为示例,针对局部检索索引A和局部检索索引C,中间索引节点可以是索引节点F。
第六步,根据上述第一局部检索索引集合、上述第二局部检索索引集合和上述中间索引节点集合进行索引合并,以生成上述激活后文档索引。
作为示例,激活后文档索引可以是由图2中除索引节点J以外的索引节点构成的索引。
上述第一步至第六步作为本公开的一个发明点,解决了背景技术提及的技术问题二,即“第二,针对单个检索需求,往往需要依赖部分索引进行检索,缺乏有效地索引剪枝方式,导致检索速度难以进一步优化”。基于此,本公开通过激活上述文档检索索引包括的一级检索索引中与上述查询语句和上述信息查询用户的用户信息匹配的索引节点,并以此从文档检索索引中确定第一局部检索索引和第二局部检索索引。实践中,针对第一局部检索索引对应的局部检索索引可以直接进行索引的整合。但针对第一局部检索索引对应的局部检索索引,由于缺乏直接的索引关联关系,基于此,由于本申请中的二级索引包括的索引节点中存在拥有双向边连接的索引节点,因此,本公开以此为基础通过确定中间索引节点实现对第二局部检索索引对应的局部检索索引的整合。通过此种方式降低了需要加载的索引的数量,实现了索引剪枝的目的,优化了索引检索速度。
可选的,文本特征压缩模型包括:文本释义块分解模型、分解文本特征提取模型集合和特征融合层,上述分解文本特征提取模型集合中的分解文本特征提取模型并行设置。其中,文本释义块分解模型用于结合语义进行文本段分割。分解文本特征提取模型集合中的分解文本特征提取模型用于实现不同粒度的特征压缩。特征融合层用于将分解文本特征提取模型集合输出的特征进行融合,以生成文本释义块向量。例如,文本释义块分解模型采用BERT模型。其中,文本释义块分解模型会对块级释义文档信息包括的文档释义块进行不定长分割以及语义标签打标。语义标签打标的打标结果用于确定不定长分割的文本内容输入分解文本特征提取模型集合中具体的分解文本特征提取模型。分解文本特征提取模型集合中均为采用卷积神经网络的、用于文本特征下采样的模型。特征融合层可以采用多个串行连接的池化层实现。
如图3上述的图3是文本特征压缩模型的模型结构示意图,其中,分解文本特征提取模型集合可以包括:分解文本特征提取模型A、分解文本特征提取模型B和分解文本特征提取模型C。其中,分解文本特征提取模型C的下采样程度高于分解文本特征提取模型B。分解文本特征提取模型C的下采样程度高于分解文本特征提取模型A。分解文本特征提取模型A可以用于对打标标签为“标题标签”的文本内容进行特征提取。分解文本特征提取模型B可以用于对打标标签为“摘要标签”的文本内容进行特征提取。分解文本特征提取模型C可以用于对打标标签为“非摘要以及非标题标签”的文本内容进行特征提取。实践中,文本特征压缩模型还可以引入特征质量评价模型,用于评价分解文本特征提取模型的特征提取质量,以控制分解文本特征提取模型之间是否采用参数共享的模式进行特征提取。如,当特征提取质量较高时,可以采用参数不共享的模式进行特征提取。当特征提取质量较低时,可以采用参数共享的模式进行特征提取。特征质量评价模型可以采用多分类器实现,多分类器的分类数量与分解文本特征提取模型集合中的分解文本特征提取模型数量一致。多分类器可以以分解文本特征提取模型的输出为输入、以文档释义块的整体语义标签为标签进行训练。
在一些实施例的一些可选的实现方式中,上述根据上述块级释义文档信息包括的文档释义块结构信息,通过预先构建的文本特征压缩模型,对上述块级释义文档信息包括的文档释义块进行文本特征压缩,以生成文本释义块向量,可以包括以下步骤:
第一步,通过上述文本释义块分解模型对上述块级释义文档信息包括的文档释义块进行文本释义块分解,以生成文本段集合。
第二步,对于上述文本段集合中的每个文本段,通过上述分解文本特征提取模型集合中与上述文本段对应的分解文本特征提取模型,对上述文本段进行文本段特征提取,得到文本段特征向量。
第三步,根据得到的文本段特征向量集合,通过上述特征融合层生成上述块级释义文档信息对应的文本释义块向量。
可选的,文档检索索包括:一级检索索引、二级检索索引和三级检索索引,上述一级检索索引的索引检索顺序先于上述二级检索索引的检索顺序,上述二级检索索引的索引检索顺序先于上述三级检索索引的检索顺序。
上述第一步至第三步,以及文本特征压缩模型作为本公开的一个发明点,解决了背景技术提及的技术问题三,即“随着项目复杂度的增加,对应的释义文档的内容量也在增加,将单个释义文档整体作为数据库记录的方式,随着释义文档数量的增多,会增加数据的物理存储压力,以及降低物理存储的存储效率”,实践中文档数量和单个文档大小会对物理存储(如,外存)等产生较大的存储压力,基于此本公开从特征压缩的角度实现释义文档的压缩。具体的,本公开首先通过文本释义块分解模型,通过打标的方式实现不定长分解。其次,由于释义文档中不同内容的重要度不同,因此,本公开结合打标结果,通过相对应的分解文本特征提取模型实现不同程度的特征压缩。最后并采用特征融合模型进行融合。与此同时,在实践中,发现部分文档可能特征欠佳,如由于对应文本内容较少导致提取得到的特征较少的情况,因此,本公开引入特征质量评价模型,用于评价分解文本特征提取模型的特征提取质量,以控制分解文本特征提取模型之间是否采用参数共享的模式进行特征提取。通过此种方式实现了有效的数据压缩,缓解了物品存储的存储压力。
在一些实施例的一些可选的实现方式中,文档检索索引通过以下步骤生成:
第一步,确定候选释义文档集合。
其中,候选释义文档集合中的候选释义文档是待进行检索索引建立的文档。实践中,释义文档可以是对业务流程、项目设计相关的文档。具体的,上述执行主体可以将未加入文档检索索引的释义文档,作为候选释义文档,得到上述候选释义文档集合。
第二步,根据候选释义文档对应的文档所属信息,对上述候选释义文档集合中的候选释义文档进行粗粒度聚类,以生成候选释义文档组集合。
其中,候选释义文档组中的各个候选释义文档对应相同的簇中心。文档上述信息表征候选释义文档所属的部门以及所属组别。例如,文档所属信息可以是“科技部门数据治理组别”。实践中,上述执行主体可以对文档所属信息进行向量化,并采用聚类算法,对上述候选释义文档集合中的候选释义文档进行粗粒度聚类,以生成候选释义文档组集合。
作为示例,候选释义文档集合可以包括:候选释义文档A、候选释义文档B、候选释义文档C和候选释义文档D。其中,候选释义文档A和候选释义文档B对应相同的所属部门和所属组别。候选释义文档C和候选释义文档D对应相同的所属部门和所属组别。因此,候选释义文档组集合可以包括:候选释义文档组A和候选释义文档组B。其中,候选释义文档组A包括:候选释义文档A和候选释义文档B。候选释义文档组B包括:候选释义文档C和候选释义文档D。
第三步,对于上述候选释义文档组集合中的每个候选释义文档,执行以下一级索引生成步骤:
第一子步骤,确定上述候选释义文档对应的历史查阅信息集合。
其中,上述历史查阅信息集合中的历史查询信息包括:历史查询语句、浏览时长、查阅用户信息、历史检索信息和文档点击量。历史查阅语句可以是历史的、检索到上述候选释义文档的查阅语句。浏览时长可以是查阅用户信息对应用户查阅上述候选释义文档的时长。查阅用户信息可以是查阅上述候选释义文档的用户信息。查阅用户信息可以包括但不限于以下至少一项:所属部门,所属组别,用户职位,用户工作年限。历史检索信息表征历史的、针对上述历史查询语句和上述候选释义文档的检索信息。文档点击量表征查阅用户信息对应用户针对上述候选释义文档的文档点击量。实践中,上述执行主体可以查询历史查阅记录,得到上述候选释义文档对应的历史查阅信息集合。
第二子步骤,根据候选释义文档对应的历史查阅信息集合,对上述候选释义文档组集合中的候选释义文档进行细粒度聚类,得到聚类后释义文档组集合。
作为示例,首先,上述执行主体可以对历史查阅信息集合中的每个历史查阅信息进行向量化,以生成历史查阅信息向量,得到历史查阅信息向量集合。然后,通过聚类算法,对候选释义文档组集合中的每个候选释义文档组包括的各个候选释义文档进行聚类,以生成聚类后释义文档组,得到聚类后释义文档组集合。
作为又一示例,上述执行主体可以按照所属部门和所属组别为统计单位,统计候选释义文档对应的总点击量和总浏览时长,以实现对上述候选释义文档组集合中的候选释义文档进行细粒度聚类,得到聚类后释义文档组集合。
第三子步骤,根据上述聚类后释义文档组集合,生成上述一级检索索引。
其中,一级检索索引中的索引节点对应聚类后释义文档组。实践中,一级检索索引可以包括多个索引节点,每个索引节点对应一个聚类后释义文档组。例如,一级检索索引中的索引节点可以对应所属部门。例如,如图2所示的文档检索索引的索引结构示意图,其中,一级索引包括:索引节点A、索引节点B和索引节点C。其中,索引节点A可以对应所属部门A。索引节点B可以对应所属部门B。索引节点C可以对应所属部门C。
第四步,对于上述候选释义文档集合中的每个候选释义文档执行以下二级索引生成步骤:
第一子步骤,确定上述候选释义文档对应的文档描述信息。
其中,文档描述信息可以包括:文档标题,文档作者,文档摘要等。
第二子步骤,确定上述候选释义文档对应的业务流程信息。
其中,上述业务流程信息包括:至少一个业务节点。至少一个业务节点可以是业务流程信息对应业务流程所涉及的业务节点。实践中,上述执行主体可以将目标业务节点所在的业务流对应的业务流程,作为上述业务流程信息。目标业务节点可以是涉及候选释义文档使用的业务节点。
第三子步骤,对于上述至少一个业务节点中的每个业务节点,确定上述业务节点涉及的、与上述候选释义文档释义近义匹配的释义文档,作为上述候选释义文档对应的关联释义文档。
实践中,上述执行主体可以通过语义匹配的方式,从业务节点执行所涉及的释义文档中筛选出候选释义文档对应的关联释义文档。
第五步,根据得到的关联释义文档组集合和得到的文档描述信息集合,生成二级检索索引。
其中,二级检索索引中的索引节点对应候选释义文档。二级检索索引中存在关联关系的候选释义文档对应的索引节点之间存在双向边。例如,进一步参见图2所示的文档检索索引的索引结构示意图,其中,二级索引包括:索引节点D、索引节点E、索引节点F、索引节点G。其中,索引节点D对应释义文档D、索引节点E对应释义文档E、索引节点F对应释义文档F、索引节点G对应释义文档G。释义文档E是释义文档D的关联释义文档,因此,索引节点E和索引节点D之间存在双向边。释义文档F释义文档D的关联释义文档,因此,索引节点F和索引节点D之间存在双向边。释义文档G释义文档D的关联释义文档,因此,索引节点G和索引节点D之间存在双向边。
第六步,对于上述候选释义文档集合中的每个候选释义文档执行以下三级索引生成步骤:
第一子步骤,对上述候选释义文档进行文档解构,以生成文档结构信息。
其中,文档结构信息包括:块级释义文档信息集合,块级释义文档信息包括:文档释义块和文档释义块结构信息。文档释义块对应块级结构内的文档内容。文档释义块结构信息用于对文档释义块对应的块级结构进行结构描述。实践中,上述执行主体可以以目录标题为分割位置,对候选释义文档进行分割,得到块级释义文档信息集合。
第二子步骤,对于块级释义文档信息集合中的每个块级释义文档信息,根据上述块级释义文档信息包括的文档释义块结构信息,通过预先构建的文本特征压缩模型,对上述块级释义文档信息包括的文档释义块进行文本特征压缩,以生成文本释义块向量。
其中,文本特征压缩模型可以是卷积神经网络模型。具体的,文本特征压缩模型可以采用文本特征下采样的方式对块级释义文档信息包括的文档释义块进行文本特征压缩,以生成文本释义块向量。
第七步,根据得到的文本释义块向量组集合,构建上述三级检索索引。
其中,文本释义块向量组为候选释义文档对应的至少一个文本释义块向量。三级检索索引中的索引节点与上述二级索引中对应的索引节点之间垂直关联。实践中,文本释义块向量组对应的索引节点中可以采用列表的形式进行存储,也可以根据访问频率通过哈夫曼树的形式存储。例如,参见图2所示的文档检索索引的索引结构示意图,其中,三级索引包括:索引节点H、索引节点I、索引节点J和索引节点K。其中,索引节点H包含了针对释义文档D的文本释义块向量组。索引节点I包含了针对释义文档E的文本释义块向量组。索引节点J包含了针对释义文档F的文本释义块向量组。索引节点K包含了针对释义文档G的文本释义块向量组。步骤1022,以查询语句为查询源,通过激活后文档索引进行释义文档内容定位,得到与查询语句匹配的检索信息。
在一些实施例中,上述执行主体可以以查询语句为查询源,通过激活后文档索引进行释义文档内容定位,得到与查询语句匹配的检索信息。具体的,上述执行主体可以以查询语句为匹配对象,通过深度遍历的方式对激活后文档索引进行释义文档内容定位,得到与查询语句匹配的检索信息。
步骤103,响应于确定意图状态信息表征知识问答意图,执行以下第二处理步骤:
步骤1031,确定是否存在目标问答信息对序列。
在一些实施例中,上述执行主体可以确定是否存在目标问答信息对序列。其中,上述目标问答信息对序列中的目标问答信息对根据与上述查询语句的问答关联度有序排列。实践中,上述执行主体可以通过问答对相似度计算的方式,确定问答对知识库中是否存在目标问答信息对序列。
在一些实施例的一些可选的实现方式中,在上述确定是否存在目标问答信息对序列之后,上述方法还包括:
第一步,响应于不存在上述目标问答信息对序列,确定与上述查询语句匹配的释义文档,作为目标释义文档。
实践中,上述执行主体可以通过文档检索索引,确定与上述查询语句匹配的释义文档,作为目标释义文档。
第二步,通过预先训练的答复信息生成模型、上述查询语句和上述目标释义文档,生成与上述查询语句匹配的检索信息。
其中,答复信息生成模型可以是预训练式大模型。例如,GPT(Generative Pre-trained Transformer)模型。
步骤1032,响应于存在目标问答信息对序列,对目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与目标问答信息对对应的问答补充信息。
在一些实施例中,响应于存在目标问答信息对序列,上述执行主体可以对目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与目标问答信息对对应的问答补充信息。例如,问答补充信息可以是检索信息相关的所属部门,上述组别等信息。
在一些实施例的一些可选的实现方式中,上述对上述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与上述目标问答信息对对应的问答补充信息,可以包括以下步骤:
生成上述目标问答信息对对应的全局补充信息和局部补充信息,作为上述目标问答信息对对应的问答补充信息。
其中,全局补充信息可以是针对检索信息的、由答复信息生成模型生成的、具有概括性质的答复信息。局部补充信息可以是针对检索信息的、由答复信息生成模型生成的、针对段落的问答对。全局补充信息的生成场景可以如下示例:例如,针对较短的释义文档,可以生成针对释义文档的概述性内容,如,“释义文档的主要内容”。又如,针对较长的释义文档,可以以章节为单位分层次总结,以生成释义文档对应的概述性内容,如,“释义文档对应的摘要性描述内容”。再如,针对释义文档的文档结构,生成相应问答对,如“文章作者是谁-作者:XXX”。又如,“文章属于那个部门-所属部门:XXX部门”。局部补充信息的生成场景可以如下示例:针对按段落拆分的情景,可以生成每个段落对应的问答信息对。通过依场景生成全局补充信息和/或局部补充信息作为问答补充信息,能够有效地丰富和完善检索信息的内容,提高检索过程中生成的检索信息的有效度。
步骤1033,将目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与查询语句匹配的检索信息。
在一些实施例中,上述执行主体可以将目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与查询语句匹配的检索信息。具体的,上述执行主体可以将目标问答信息对序列中的目标问答信息对和目标问答信息对对应的问答补充信息进行信息组合,得到上述查询语句匹配的检索信息。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的应用于释义文档的检索信息生成方法提高了检索效率。具体来说,造成检索效率较差的原因在于:不同的释义文档之前往往存在关联关系,而由于原生索引策略往往无法有效适配检索场景,导致无法在索引中引入不同释义文档之间的关联性,从而导致检索效率较差。基于此,本公开的一些实施例的应用于释义文档的检索信息生成方法,首先,对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息,其中,上述意图状态信息表征上述信息查询用户的查询意图。以此精细化用户的查询意图。其次,响应于确定上述意图状态信息表征文档检索意图,执行以下第一处理步骤:第一步,根据上述查询语句和上述信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引,其中,上述文档检索索引是用于进行释义文档检索的检索索引,上述激活后文档索引为上述文档检索索引的子索引。实践中,释义文档之间可能存在文档内容之间的直接关联性,以及基于文档使用者之间的间接关联性,同时,在基于索引的检索过程中可能仅涉及部分索引的使用,因此,本公开通过结合用户信息以及查询语句,通过索引激活的方式,减少索引加载量。第二步,以上述查询语句为查询源,通过上述激活后文档索引进行释义文档内容定位,得到与上述查询语句匹配的检索信息。接着,响应于确定上述意图状态信息表征知识问答意图,执行以下第二处理步骤:第一步,确定是否存在目标问答信息对序列,其中,上述目标问答信息对序列中的目标问答信息对根据与上述查询语句的问答关联度有序排列。第二步,响应于存在上述目标问答信息对序列,对上述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与上述目标问答信息对对应的问答补充信息。以此针对目标问答信息对进行信息补充。第三步,将上述目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与上述查询语句匹配的检索信息。以此结合历史问答信息以及相应的问答补充信息实现针对用户知识问答需求的响应。通过此种方式提高了检索效率。
进一步参考图4,作为对上述各图所示方法的实现,本公开提供了一种应用于释义文档的检索信息生成装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该应用于释义文档的检索信息生成装置具体可以应用于各种电子设备中。
如图4所示,一些实施例的应用于释义文档的检索信息生成装置400包括:意图识别单元401、第一执行单元402和第二执行单元403。其中,意图识别单元401,被配置成对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息,其中,上述意图状态信息表征上述信息查询用户的查询意图;第一执行单元402,被配置成响应于确定上述意图状态信息表征文档检索意图,执行以下第一处理步骤:根据上述查询语句和上述信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引,其中,上述文档检索索引是用于进行释义文档检索的检索索引,上述激活后文档索引为上述文档检索索引的子索引;以上述查询语句为查询源,通过上述激活后文档索引进行释义文档内容定位,得到与上述查询语句匹配的检索信息;第二执行单元403,被配置成响应于确定上述意图状态信息表征知识问答意图,执行以下第二处理步骤:确定是否存在目标问答信息对序列,其中,上述目标问答信息对序列中的目标问答信息对根据与上述查询语句的问答关联度有序排列;响应于存在上述目标问答信息对序列,对上述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与上述目标问答信息对对应的问答补充信息;将上述目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与上述查询语句匹配的检索信息。
可以理解的是,该应用于释义文档的检索信息生成装置400中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于应用于释义文档的检索信息生成装置400及其中包含的单元,在此不再赘述。
下面参考图5,其示出了适于用来实现本公开的一些实施例的电子设备(例如,计算设备)500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器502中的程序或者从存储装置508加载到随机访问存储器503中的程序而执行各种适当的动作和处理。在随机访问存储器503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、只读存储器502以及随机访问存储器503通过总线504彼此相连。输入/输出接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从只读存储器502被安装。在该计算机程序被处理装置501执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息,其中,上述意图状态信息表征上述信息查询用户的查询意图;响应于确定上述意图状态信息表征文档检索意图,执行以下第一处理步骤:根据上述查询语句和上述信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引,其中,上述文档检索索引是用于进行释义文档检索的检索索引,上述激活后文档索引为上述文档检索索引的子索引;以上述查询语句为查询源,通过上述激活后文档索引进行释义文档内容定位,得到与上述查询语句匹配的检索信息;响应于确定上述意图状态信息表征知识问答意图,执行以下第二处理步骤:确定是否存在目标问答信息对序列,其中,上述目标问答信息对序列中的目标问答信息对根据与上述查询语句的问答关联度有序排列;响应于存在上述目标问答信息对序列,对上述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与上述目标问答信息对对应的问答补充信息;将上述目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与上述查询语句匹配的检索信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括意图识别单元、第一执行单元和第二执行单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,意图识别单元还可以被描述为“对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息,其中,上述意图状态信息表征上述信息查询用户的查询意图的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (6)
1.一种应用于释义文档的检索信息生成方法,包括:
对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息,其中,所述意图状态信息表征所述信息查询用户的查询意图;
响应于确定所述意图状态信息表征文档检索意图,执行以下第一处理步骤:
根据所述查询语句和所述信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引,其中,所述文档检索索引是用于进行释义文档检索的检索索引,所述激活后文档索引为所述文档检索索引的子索引,所述文档检索索引包括:一级检索索引、二级检索索引和三级检索索引,所述一级检索索引的索引检索顺序先于所述二级检索索引的检索顺序,所述二级检索索引的索引检索顺序先于所述三级检索索引的检索顺序;
以所述查询语句为查询源,通过所述激活后文档索引进行释义文档内容定位,得到与所述查询语句匹配的检索信息;
响应于确定所述意图状态信息表征知识问答意图,执行以下第二处理步骤:
确定是否存在目标问答信息对序列,其中,所述目标问答信息对序列中的目标问答信息对根据与所述查询语句的问答关联度有序排列;
响应于存在所述目标问答信息对序列,对所述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与所述目标问答信息对对应的问答补充信息;
将所述目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与所述查询语句匹配的检索信息,其中,
文档检索索引通过以下步骤生成:
确定候选释义文档集合,其中,所述候选释义文档集合中的候选释义文档是待进行检索索引建立的文档;
根据候选释义文档对应的文档所属信息,对所述候选释义文档集合中的候选释义文档进行粗粒度聚类,以生成候选释义文档组集合,其中,候选释义文档组中的各个候选释义文档对应相同的簇中心;
对于所述候选释义文档组集合中的每个候选释义文档,执行以下一级索引生成步骤:
确定所述候选释义文档对应的历史查阅信息集合,其中,所述历史查阅信息集合中的历史查询信息包括:历史查询语句、浏览时长、查阅用户信息、历史检索信息和文档点击量;
根据候选释义文档对应的历史查阅信息集合,对所述候选释义文档组集合中的候选释义文档进行细粒度聚类,得到聚类后释义文档组集合;
根据所述聚类后释义文档组集合,生成所述一级检索索引,其中,所述一级检索索引中的索引节点对应聚类后释义文档组,其中,
在所述根据所述聚类后释义文档组集合,生成所述一级检索索引之后,所述方法还包括:
对于所述候选释义文档集合中的每个候选释义文档执行以下二级索引生成步骤:
确定所述候选释义文档对应的文档描述信息;
确定所述候选释义文档对应的业务流程信息,其中,所述业务流程信息包括:至少一个业务节点;
对于所述至少一个业务节点中的每个业务节点,确定所述业务节点涉及的、与所述候选释义文档释义近义匹配的释义文档,作为所述候选释义文档对应的关联释义文档;
根据得到的关联释义文档组集合和得到的文档描述信息集合,生成二级检索索引,其中,所述二级检索索引中的索引节点对应候选释义文档,所述二级检索索引中存在关联关系的候选释义文档对应的索引节点之间存在双向边;
对于所述候选释义文档集合中的每个候选释义文档执行以下三级索引生成步骤:
对所述候选释义文档进行文档解构,以生成文档结构信息,其中,所述文档结构信息包括:块级释义文档信息集合,块级释义文档信息包括:文档释义块和文档释义块结构信息;
对于块级释义文档信息集合中的每个块级释义文档信息,根据所述块级释义文档信息包括的文档释义块结构信息,通过预先构建的文本特征压缩模型,对所述块级释义文档信息包括的文档释义块进行文本特征压缩,以生成文本释义块向量;
根据得到的文本释义块向量组集合,构建所述三级检索索引,其中,文本释义块向量组为候选释义文档对应的至少一个文本释义块向量,所述三级检索索引中的索引节点与所述二级索引中对应的索引节点之间垂直关联。
2.根据权利要求1所述的方法,其中,在所述确定是否存在目标问答信息对序列之后,所述方法还包括:
响应于不存在所述目标问答信息对序列,确定与所述查询语句匹配的释义文档,作为目标释义文档;
通过预先训练的答复信息生成模型、所述查询语句和所述目标释义文档,生成与所述查询语句匹配的检索信息。
3.根据权利要求2所述的方法,其中,所述对所述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与所述目标问答信息对对应的问答补充信息,包括:
生成所述目标问答信息对对应的全局补充信息和局部补充信息,作为所述目标问答信息对对应的问答补充信息。
4.一种应用于释义文档的检索信息生成装置,包括:
意图识别单元,被配置成对信息查询用户输入的查询语句进行意图识别,以生成意图状态信息,其中,所述意图状态信息表征所述信息查询用户的查询意图;
第一执行单元,被配置成响应于确定所述意图状态信息表征文档检索意图,执行以下第一处理步骤:根据所述查询语句和所述信息查询用户的用户信息,对预先构建的文档检索索引进行索引激活,以生成激活后文档索引,其中,所述文档检索索引是用于进行释义文档检索的检索索引,所述激活后文档索引为所述文档检索索引的子索引,所述文档检索索引包括:一级检索索引、二级检索索引和三级检索索引,所述一级检索索引的索引检索顺序先于所述二级检索索引的检索顺序,所述二级检索索引的索引检索顺序先于所述三级检索索引的检索顺序;以所述查询语句为查询源,通过所述激活后文档索引进行释义文档内容定位,得到与所述查询语句匹配的检索信息;
第二执行单元,被配置成响应于确定所述意图状态信息表征知识问答意图,执行以下第二处理步骤:确定是否存在目标问答信息对序列,其中,所述目标问答信息对序列中的目标问答信息对根据与所述查询语句的问答关联度有序排列;响应于存在所述目标问答信息对序列,对所述目标问答信息对序列中的每个目标问答信息对进行问答信息补充,以生成与所述目标问答信息对对应的问答补充信息;将所述目标问答信息对序列和目标问答信息对对应的问答补充信息,确定为与所述查询语句匹配的检索信息,其中,
文档检索索引通过以下步骤生成:
确定候选释义文档集合,其中,所述候选释义文档集合中的候选释义文档是待进行检索索引建立的文档;
根据候选释义文档对应的文档所属信息,对所述候选释义文档集合中的候选释义文档进行粗粒度聚类,以生成候选释义文档组集合,其中,候选释义文档组中的各个候选释义文档对应相同的簇中心;
对于所述候选释义文档组集合中的每个候选释义文档,执行以下一级索引生成步骤:
确定所述候选释义文档对应的历史查阅信息集合,其中,所述历史查阅信息集合中的历史查询信息包括:历史查询语句、浏览时长、查阅用户信息、历史检索信息和文档点击量;
根据候选释义文档对应的历史查阅信息集合,对所述候选释义文档组集合中的候选释义文档进行细粒度聚类,得到聚类后释义文档组集合;
根据所述聚类后释义文档组集合,生成所述一级检索索引,其中,所述一级检索索引中的索引节点对应聚类后释义文档组,其中,
在所述根据所述聚类后释义文档组集合,生成所述一级检索索引之后,所述方法还包括:
对于所述候选释义文档集合中的每个候选释义文档执行以下二级索引生成步骤:
确定所述候选释义文档对应的文档描述信息;
确定所述候选释义文档对应的业务流程信息,其中,所述业务流程信息包括:至少一个业务节点;
对于所述至少一个业务节点中的每个业务节点,确定所述业务节点涉及的、与所述候选释义文档释义近义匹配的释义文档,作为所述候选释义文档对应的关联释义文档;
根据得到的关联释义文档组集合和得到的文档描述信息集合,生成二级检索索引,其中,所述二级检索索引中的索引节点对应候选释义文档,所述二级检索索引中存在关联关系的候选释义文档对应的索引节点之间存在双向边;
对于所述候选释义文档集合中的每个候选释义文档执行以下三级索引生成步骤:
对所述候选释义文档进行文档解构,以生成文档结构信息,其中,所述文档结构信息包括:块级释义文档信息集合,块级释义文档信息包括:文档释义块和文档释义块结构信息;
对于块级释义文档信息集合中的每个块级释义文档信息,根据所述块级释义文档信息包括的文档释义块结构信息,通过预先构建的文本特征压缩模型,对所述块级释义文档信息包括的文档释义块进行文本特征压缩,以生成文本释义块向量;
根据得到的文本释义块向量组集合,构建所述三级检索索引,其中,文本释义块向量组为候选释义文档对应的至少一个文本释义块向量,所述三级检索索引中的索引节点与所述二级索引中对应的索引节点之间垂直关联。
5.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至3中任一所述的方法。
6.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至3中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410108126.4A CN117633197B (zh) | 2024-01-26 | 2024-01-26 | 应用于释义文档的检索信息生成方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410108126.4A CN117633197B (zh) | 2024-01-26 | 2024-01-26 | 应用于释义文档的检索信息生成方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117633197A CN117633197A (zh) | 2024-03-01 |
CN117633197B true CN117633197B (zh) | 2024-04-12 |
Family
ID=90021961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410108126.4A Active CN117633197B (zh) | 2024-01-26 | 2024-01-26 | 应用于释义文档的检索信息生成方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117633197B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756663A (zh) * | 2022-03-29 | 2022-07-15 | 税友信息技术有限公司 | 一种智能问答方法、系统、设备及计算机可读存储介质 |
CN117251541A (zh) * | 2023-08-31 | 2023-12-19 | 南京一盏神灯网络信息科技股份有限公司 | 一种辅助提问式内容生成系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11374882B2 (en) * | 2020-10-21 | 2022-06-28 | International Business Machines Corporation | Intelligent chat channel processor |
-
2024
- 2024-01-26 CN CN202410108126.4A patent/CN117633197B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756663A (zh) * | 2022-03-29 | 2022-07-15 | 税友信息技术有限公司 | 一种智能问答方法、系统、设备及计算机可读存储介质 |
CN117251541A (zh) * | 2023-08-31 | 2023-12-19 | 南京一盏神灯网络信息科技股份有限公司 | 一种辅助提问式内容生成系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117633197A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
Zhao et al. | Dense text retrieval based on pretrained language models: A survey | |
CN107133345B (zh) | 基于人工智能的交互方法和装置 | |
US10740678B2 (en) | Concept hierarchies | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
US9311823B2 (en) | Caching natural language questions and results in a question and answer system | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
US20150324350A1 (en) | Identifying Content Relationship for Content Copied by a Content Identification Mechanism | |
US11030402B2 (en) | Dictionary expansion using neural language models | |
CN111552766B (zh) | 使用机器学习来表征在引用图形上应用的参考关系 | |
CN112182255A (zh) | 用于存储媒体文件和用于检索媒体文件的方法和装置 | |
CN111078849B (zh) | 用于输出信息的方法和装置 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN116975349A (zh) | 图像检索方法、装置、电子设备及存储介质 | |
US11361031B2 (en) | Dynamic linguistic assessment and measurement | |
CN111444335B (zh) | 中心词的提取方法及装置 | |
Raghavendra Nayaka et al. | An efficient framework for algorithmic metadata extraction over scholarly documents using deep neural networks | |
CN117093604B (zh) | 检索信息生成方法、装置、电子设备和计算机可读介质 | |
CN117633197B (zh) | 应用于释义文档的检索信息生成方法、装置和电子设备 | |
Al-Barhamtoshy et al. | A data analytic framework for unstructured text | |
US20210295036A1 (en) | Systematic language to enable natural language processing on technical diagrams | |
US11436262B2 (en) | System and method of creating entity records | |
Shin et al. | Deep-learning-based image tagging for semantic image annotation | |
CN117131152B (zh) | 信息存储方法、装置、电子设备和计算机可读介质 | |
CN118503454B (zh) | 一种数据查询方法、设备、存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |