CN117708271A - 搜索数据的方法、装置、设备和可读存储介质 - Google Patents
搜索数据的方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN117708271A CN117708271A CN202311744534.0A CN202311744534A CN117708271A CN 117708271 A CN117708271 A CN 117708271A CN 202311744534 A CN202311744534 A CN 202311744534A CN 117708271 A CN117708271 A CN 117708271A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- tree
- answer
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012216 screening Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 81
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种搜索数据的方法、装置、设备和可读存储介质,该方法包括:筛选数据库中与用户输入的查询数据相似的多个文本段落;获取原始文本结构树中所述多个文本段落所在节点对应的多个父节点;构建所述多个父节点对应的答案树;从所述答案树的根节点开始,整合所述答案树的节点数据,得到所述查询数据对应的搜索数据。通过该方法可以达到实现高效、精准的搜索数据的效果。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种搜索数据的方法、装置、设备和可读存储介质。
背景技术
随着大数据和人工智能技术的发展,智能客服系统在各行业中得到了广泛应用。当前主要以关键词作为检索依据的信息检索技术和语义向量检索技术通常基于词嵌入和句子嵌入的概念实现数据的搜索功能。
然而,传统的智能客服系统面临着几个主要的挑战:第一,对于大量的行业资料的处理和利用不够高效,不能充分利用这些资料中包含的行业知识;第二,对用户查询的理解和应答能力有限,往往无法提供精准和高质量的服务。
因此,如何实现高效、精准的搜索数据,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种搜索数据的方法、装置、设备和可读存储介质,通过本申请的实施例的技术方案可以达到实现高效、精准的搜索数据的效果。
第一方面,本申请实施例提供了一种搜索数据的方法,包括,筛选数据库中与用户输入的查询数据相似的多个文本段落;获取原始文本结构树中所述多个文本段落所在节点对应的多个父节点;构建所述多个父节点对应的答案树;从所述答案树的根节点开始,整合所述答案树的节点数据,得到所述查询数据对应的搜索数据。
本申请在上述实施例中,通过构建的文本结构树并在合并信息时利用该结构,能够更好地保留原文本的结构信息,使得每个段落的语义得以在一定程度上得以保留和表达,进而通过整合答案树上的数据,得到最终的搜索数据,可以达到实现高效、精准的搜索数据的效果。
在一些实施例中,在筛选数据库中与用户输入的查询数据相似的多个文本段落之前,还包括:对目标领域内的文本资料数据进行自然段切分,得到多个文本自然段,其中,一个文本自然段包括一个或多个文本段落;获取多个文本自然段之间的关联关系;根据多个文本自然段之间的关联关系,构建原始文本结构树,其中,原始文本结构树包含的多个节点中,叶子节点表示文本段落,非叶子节点表示文本段落的摘要数据。
本申请在上述实施例中,通过对目标领域内的文本资料进行自然段切分,然后进行向量化,可以构建自然段关联关系的结构树,可以在整合答案时保留原始文本的结构信息,达到准确搜索数据的效果。
在一些实施例中,获取多个文本自然段之间的关联关系,包括:对多个文本自然段分别进行向量化处理,得到多个向量;获取多个向量之间的相似度;根据多个向量之间的相似度,构建相似度矩阵;根据相似度矩阵,确定多个文本自然段之间的关联关系。
本申请在上述实施例中,通过自然段向量之间的相似度和向量距离可以准确的表示自然段之间的关联关系,进而确定自然段之间的关联关系,达到最终搜索数据时可以根据关联关系确定搜索内容。
在一些实施例中,根据多个文本自然段之间的关联关系,构建原始文本结构树,包括:根据文本资料数据的层次结构信息,对文本资料数据中的文本段落进行逐级摘要,得到多个摘要数据;将多个文本段落中的每一个文本段落设置为原始文本结构树的叶子节点,并将每一个文本段落的摘要数据设置为叶子节点所连接的非叶子节点,得到原始文本结构树。
本申请在上述实施例中,通过摘要和自然段的结合,共同构建文本结构树,可以在合并信息时利用该结构,能够更好地保留原文本的结构信息,从而在给出答案时保证信息的连贯性和完整性。
在一些实施例中,筛选数据库中与用户输入的查询数据相似的多个文本段落,包括:对查询数据进行向量化,得到查询数据向量;获取查询数据向量和数据库中存储的各段落向量的多个相似度;根据多个相似度由高到低的排序,从数据库中筛选与查询数据相似的多个文本段落。
本申请在上述实施例中,可以针对最为相似的多个文本段落进行筛选,可以在后续生成搜索内容时可以得到更为准确的答案。
在一些实施例中,从答案树的根节点开始,整合答案树的节点数据,得到查询数据对应的搜索数据,包括:从数据库中筛选节点数据对应向量的相似向量;整合答案树的节点数据和相似向量的文本段落,得到查询数据对应的搜索数据。
本申请在上述实施例中,结合答案树和相似的文本段落,可以整合出一个综合的搜索数据,提高搜索数据的精度。
在一些实施例中,构建多个父节点对应的答案树,包括:获取多个父节点对应原始文本的结构信息;根据结构信息中的结构,构建多个父节点对应的答案树。
本申请在上述实施例中,可以通过相似段落所在节点的父节点构建答案树,可以通过父节点的相关段落内容生成最终准确的搜索数据。
第二方面,本申请实施例提供了一种搜索数据的装置,包括:
筛选模块,用于筛选数据库中与用户输入的查询数据相似的多个文本段落;
获取模块,用于获取原始文本结构树中多个文本段落所在节点对应的多个父节点;
构建模块,用于构建多个父节点对应的答案树;
搜索模块,用于从答案树的根节点开始,整合答案树的节点数据,得到查询数据对应的搜索数据。
在一些实施例中,所述装置还包括:
第二构建模块,用于所述筛选模块在筛选数据库中与用户输入的查询数据相似的多个文本段落之前,对目标领域内的文本资料数据进行自然段切分,得到多个文本自然段,其中,一个文本自然段包括一个或多个文本段落;获取多个文本自然段之间的关联关系;根据多个文本自然段之间的关联关系,构建原始文本结构树,其中,原始文本结构树包含的多个节点中,叶子节点表示文本段落,非叶子节点表示文本段落的摘要数据。
在一些实施例中,获取模块具体用于:
对多个文本自然段分别进行向量化处理,得到多个向量;获取多个向量之间的相似度;根据多个向量之间的相似度,构建相似度矩阵;根据相似度矩阵,确定多个文本自然段之间的关联关系。
在一些实施例中,第二构建模块具体用于:
根据文本资料数据的层次结构信息,对文本资料数据中的文本段落进行逐级摘要,得到多个摘要数据;将多个文本段落中的每一个文本段落设置为原始文本结构树的叶子节点,并将每一个文本段落的摘要数据设置为叶子节点所连接的非叶子节点,得到原始文本结构树。
在一些实施例中,筛选模块具体用于:
筛选数据库中与用户输入的查询数据相似的多个文本段落,包括:对查询数据进行向量化,得到查询数据向量;获取查询数据向量和数据库中存储的各段落向量的多个相似度;根据多个相似度由高到低的排序,从数据库中筛选与查询数据相似的多个文本段落。
在一些实施例中,搜索模块具体用于:
从数据库中筛选节点数据对应向量的相似向量;整合答案树的节点数据和相似向量的文本段落,得到查询数据对应的搜索数据。
在一些实施例中,构建模块具体用于:
构建多个父节点对应的答案树,包括:获取多个父节点对应原始文本的结构信息;根据结构信息中的结构,构建多个父节点对应的答案树。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种搜索数据的方法的流程图;
图2为本申请实施例提供的一种搜索数据的方法的流程图;
图3为本申请实施例提供的一种搜索数据的装置的示意框图;
图4为本申请实施例提供的一种搜索数据的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
BERT(Bidirectional Encoder Representations from Transformers,基于变换器的双向编码器表示)是一种基于变换器的机器学习技术,用于自然语言处理(NaturalLanguage Processing,NLP)预训练。
GPT(Generative Pre-Trained Transformer,生成式预训练变换器)是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。
本申请应用于搜索数据的场景,具体场景为通过用户输入数据和相似文本段落的匹配,构建相似段落对应的答案树,整合答案树节点内容,得到最终的搜索数据。
但是在目前的随着大数据和人工智能技术的发展,智能客服系统在各行业中得到了广泛应用。当前主要以关键词作为检索依据的信息检索技术和语义向量检索技术通常基于词嵌入和句子嵌入的概念实现数据的搜索功能。然而,传统的智能客服系统面临着几个主要的挑战:第一,对于大量的行业资料的处理和利用不够高效,不能充分利用这些资料中包含的行业知识;第二,对用户查询的理解和应答能力有限,往往无法提供精准和高质量的服务。
为此本申请通过筛选数据库中与用户输入的查询数据相似的多个文本段落;获取原始文本结构树中所述多个文本段落所在节点对应的多个父节点;构建所述多个父节点对应的答案树;从所述答案树的根节点开始,整合所述答案树的节点数据,得到所述查询数据对应的搜索数据。通过构建的文本结构树并在合并信息时利用该结构,能够更好地保留原文本的结构信息,使得每个段落的语义得以在一定程度上得以保留和表达,进而通过整合答案树上的数据,得到最终的搜索数据,可以达到实现高效、精准的搜索数据的效果。
本申请实施例中,执行主体可以为搜索数据系统中的搜索数据设备,实际应用中,搜索数据设备可以为终端设备和服务器等电子设备,在此不做限制。
下面结合图1对本申请实施例的搜索数据的方法进行详细描述。
请参看图1,图1为本申请实施例提供的一种搜索数据的方法的流程图,如图1所示的搜索数据的方法包括:
步骤110:筛选数据库中与用户输入的查询数据相似的多个文本段落。
其中,数据库中存储的是文本段落和文本段落对应的向量。用户输入的查询数据可以是字词和句子等内容。
在本申请的一些实施例中,在筛选数据库中与用户输入的查询数据相似的多个文本段落之前,图1所示的方法还包括:
对目标领域内的文本资料数据进行自然段切分,得到多个文本自然段,其中,多个文本自然段包括多个文本段落;获取多个文本自然段之间的关联关系;根据多个文本自然段之间的关联关系,构建原始文本结构树,其中,原始文本结构树包含的多个节点中,叶子节点表示文本段落,非叶子节点表示文本段落的摘要数据。
本申请在上述过程中,通过对目标领域内的文本资料进行自然段切分,然后进行向量化,可以构建自然段关联关系的结构树,可以在整合答案时保留原始文本的结构信息,达到准确搜索数据的效果。
其中,目标领域可以是任一行业领域,包括但不限于市场报告、产品使用手册、售后常见问题解答等,例如,保险行业和服务行业等。关联关系包括相同、相似、属于和/或包含等关系。
在切分自然段的过程中,对于过长的自然段(例如,某一自然段的文字数量超过预设值),可以考虑将对该自然段使用截断方式进行切分,比如按照预设字数长度(例如,1k长度或者2k长度)对该自然段进行切分,如此便于后续处理的同时,也能够充分表达自然段中的语意。
对于切分得到的每个自然段,本申请使用预训练的语言模型(例如BERT或GPT)进行向量化处理,将每个自然段转化为具有定长的向量表示。这些向量表示能够包含该自然段的语义信息,得到多个向量。
在一些实施例中,使用预训练的语言模型(例如BERT或GPT)进行向量化处理,可以包括以下过程:
(1)文本预处理:将待向量化的段落进行预处理,包括分词、添加特殊标记等。示例性地,可以使用BERT模型自带的分词器或其他分词工具对段落进行分词处理。
(2)输入格式转换:将预处理后的段落转换为适合BERT模型输入的格式。通常情况下,BERT模型需要输入包含单词的索引序列、对应单词的位置信息和句子分割信息。示例性地,可以利用预设的编码函数将预处理后的段落转换为适合输入格式的张量。
(3)获取BERT模型输出的向量表示:将格式转换后的段落输入BERT模型,获取模型的输出。
BERT模型的输出一般是一个矩阵,包含了段落每个位置的隐藏状态。可以使用BERT模型提供的特征提取函数来获得段落的表示。
(4)段落向量化:对BERT模型输出进行处理,获得段落的向量表示。处理方式包括取模型输出的特定位置的隐藏状态,并进行平均或加权求和,得到一个固定长度的段落向量表示。
在本申请的一些实施例中,获取多个文本自然段之间的关联关系,包括:对多个文本自然段分别进行向量化处理,得到多个向量;获取多个向量之间的相似度;根据多个向量之间的相似度,构建相似度矩阵;根据相似度矩阵,确定多个文本自然段之间的关联关系。
本申请在上述过程中,通过自然段向量之间的相似度和向量距离可以准确的表示自然段之间的关联关系,进而确定自然段之间的关联关系,达到最终搜索数据时可以根据关联关系确定搜索内容。
在一些实施例中,根据相似度矩阵,确定多个文本自然段之间的关联关系可以使用余弦相似度或欧几里得距离等方式来计算不同段落向量之间的相似度。
例如,有N个自然段,每个自然段都表示为一个向量,其中第i个自然段的向量表示为Pi。那么相关度矩阵M的元素Mi,j,表示第i个自然段和第j个自然段之间的相似度,可以计算如下:
Mi,j=(Pi·Pj)/(||Pi||||Pj||);
其中,·表示向量的点积,||Pi||和||Pj||分别表示向量Pi和Pj的范数。通过计算相关度矩阵,可以得到自然段之间的相似度。
在本申请的一些实施例中,根据多个文本自然段之间的关联关系,构建原始文本结构树,包括:
根据文本资料数据的层次结构信息,对文本资料数据中的文本段落进行逐级摘要,得到多个摘要数据,其中,一个文本自然段包括一个或多个文本段落;将多个文本段落中的每一个文本段落设置为原始文本结构树的叶子节点,并将每一个文本段落的摘要数据设置为叶子节点所连接的非叶子节点,得到原始文本结构树。
本申请在上述过程中,通过摘要和自然段的结合,共同构建文本结构树,可以在合并信息时利用该结构,本申请能够更好地保留原文本的结构信息,从而在给出答案时保证信息的连贯性和完整性。
在一些实施例中,多个文本自然段是对文本资料数据进行自然段切分得到的,多个文本段落是通过筛选多个文本自然段中与用户输入的查询数据相似的文本段落得到的,即一个文本自然段包括一个或多个文本段落,当自然段超过预设长度,可以通过文本切分模型对自然段进行切分,得到多个文本段落。
摘要数据可以表示文本段落的总结性内容,也可以作为当前章节或者小结的摘要,属于一个自然段内容。此外每个切分的段落都可以是叶子节点,原文本的章节和小节等结构信息被保留为非叶子节点。
对于非叶子节点,本申请使用预训练的大语言模型对其下属的自然段进行逐级摘要,生成每个非叶子节点的向量表示,即得到多个摘要数据对应向量。
在本申请的一些实施例中,筛选数据库中与用户输入的查询数据相似的多个文本段落,包括:对查询数据进行向量化,得到查询数据向量;获取查询数据向量和数据库中存储的各段落向量的多个相似度;根据多个相似度由高到低的排序,从数据库中筛选与查询数据相似的多个文本段落。
本申请在上述过程中,可以针对最为相似的多个文本段落进行筛选,可以在后续生成搜索内容时可以得到更为准确的答案。
其中,预设顺序可以是相似度由高到低的顺序,也可以是由低到高的顺序,预设数据可以根据需求设定。例如,可以将用户查询数据与数据库中存储的每个段落的向量进行比较,计算二者之间的相关度。可以采取多种方式来完成这个步骤,如余弦相似度或欧几里得距离。
余弦相似度公式示例:有两个向量A和B分别表示查询数据向量和数据库存储的段落向量,它们的维度均为n。余弦相似度可以通过以下公式计算:
cosine_similarity=(A·B)/(||A||||B||);
其中,·表示向量的点积,||A||和||B||分别表示向量A和B的范数,cosine_similarity表示余弦相似度。
欧几里得距离公式的应用示例:有两个向量A和B分别表示查询数据向量和数据库存储的段落向量,它们的维度均为n,n为自然数。欧几里得距离可以通过以下公式计算:
euclidean_distance=sqrt((A-B)·(A-B));
其中,·表示向量的点积,sqrt表示开平方运算,euclidean_distance表示欧几里得距离。这两个公式分别用于计算向量之间的相似度和距离。在信息检索和文本相似度计算中,余弦相似度常用于衡量向量之间的相似度,而欧几里得距离常用于衡量向量之间的距离。
步骤120:获取原始文本结构树中所述多个文本段落所在节点对应的多个父节点。
其中,原始文本结构树包括多个节点以及节点之间的边,边表示节点之间的层级关系。例如,多个节点包括子节点和父节点。这里,子节点是有父节点的节点,当一个节点不存在子节点时,该节点称为“叶子节点”。叶子节点是一种特殊的子节点。
这里,文本段落所在节点对应的父节点表示节点的上级节点。
本申请中,各段落所在的节点可以作为叶子节点,各段落所在节点对应的父节点可用于搜索答案。
步骤130:构建所述多个父节点对应的答案树。
其中,答案树包括多个文本段落所在节点对应的多个父节点。
在本申请的一些实施例中,步骤130的实现过程可以包括:
获取多个父节点对应原始文本的结构信息;根据结构信息中的结构,构建多个父节点对应的答案树。
本申请在上述过程中,可以通过相似段落所在节点的父节点构建答案树,可以通过父节点的相关段落内容生成最终准确的搜索数据。
其中,结构信息包括原始文本结构树中多个父节点之间的关联关系,结构树中的位置信息等。根据结构信息中的结构,构建多个父节点对应的答案树包括:将原始文本结构树的叶子节点、非叶子节点以及多个父节点按照位置信息和上述关联关系进行连接,得到答案树。
步骤140:从所述答案树的根节点开始,整合所述答案树的节点数据,得到所述查询数据对应的搜索数据。
在本申请的一些实施例中,步骤140的实现过程可以包括:
从数据库中筛选节点数据对应向量的相似向量;整合答案树的节点数据和相似向量的文本段落,得到查询数据对应的搜索数据。
本申请在上述过程中,结合答案树和相似的文本段落,可以整合出一个综合的搜索数据,提高搜索数据的精度。
例如:从答案树的根节点开始,逐级遍历并收集叶子节点(也就是筛选出的段落)的信息,组合成最终的回答。在这个过程中,还可以用预训练的大语言模型生成连接各部分的桥接文本,进一步提升输出结果的连贯性。
其中,搜索数据可以表示答案树中查询数据对应的答案,还可以表示与答案相关的其它搜索信息,例如,参考答案。
在上述图1所示的过程中,本申请通过筛选数据库中与用户输入的查询数据相似的多个文本段落;获取原始文本结构树中所述多个文本段落所在节点对应的多个父节点;构建所述多个父节点对应的答案树;从所述答案树的根节点开始,整合所述答案树的节点数据,得到所述查询数据对应的搜索数据。通过构建的文本结构树并在合并信息时利用该结构,能够更好地保留原文本的结构信息,使得每个段落的语义得以在一定程度上得以保留和表达,进而通过整合答案树上的数据,得到最终的搜索数据,可以达到实现高效、精准的搜索数据的效果。
下面结合图2对本申请实施例的搜索数据的实施方法进行详细描述。
请参看图2,图2为本申请实施例提供的一种搜索数据的实施方法的流程图,如图2所示的搜索数据的方法包括:
步骤210:向量化用户查询数据。
具体的:考虑一个电子产品的使用手册,用户提交了一项查询时,使用预训练语言模型对该查询进行向量化处理。这样,用户的查询就被转化为了一个定长的数字向量。
步骤220:计算用户查询数据和数据库中段落的相似度。
具体的:将用户查询数据的向量与数据库中存储的每个段落的向量进行比较,计算他们之间的相关度。可以采取多种方式来完成这个步骤,如余弦相似度或欧几里得距离。
步骤230:选择相关度最高的段落。
具体的:找出与用户查询数据最为相关的几个段落。这里,可以根据实际需要设置一个阈值,例如选择相关度排名前10的段落。
步骤240:构建答案树。
具体的:筛选出的段落,在原始文本结构树中找到这些段落所对应的父节点,并以此构建一个答案树。这个答案树保留了原始文本的结构信息,可以确保生成的回答在内容上的连贯性。
步骤250:生成输出。
具体的:从答案树的根节点开始,逐级遍历并收集叶子节点(也就是筛选出的段落)的信息,组合成最终的回答。在这个过程中,本申请还可以用预训练的大语言模型生成连接各部分的桥接文本,进一步提升输出结果的连贯性。
例如,当一个用户问了一个问题:"如何连接手机到Wi-Fi?",首先会将这个问题向量化,并在数据库中寻找最相关的段落。比如找到了"如何打开手机的Wi-Fi"和"如何在手机上选择Wi-Fi网络"这两个段落。然后,在文本结构树中找到这两个段落对应的父节点,比如"Wi-Fi设置",并剪枝掉与这个问题不相关的其他节点。在这个过程中,还会找到如"Wi-Fi连接问题解决"等其他相关节点,最后,根据相关度和文本结构树生成一个全面、连贯的回答。
此外,图2所示的具体方法和步骤可以参看图1所示的方法,此处不在过多赘述。
前文通过图1描述了搜索数据的方法,下面结合图3-图4描述搜索数据的装置。
请参照图3,为本申请实施例中提供的一种搜索数据的装置300的示意框图,该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置300具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
在一些实施例中,所述装置300包括:
筛选模块310,用于筛选数据库中与用户输入的查询数据相似的多个文本段落;
获取模块320,用于获取原始文本结构树中多个文本段落所在节点对应的多个父节点;
构建模块330,用于构建多个父节点对应的答案树;
搜索模块340,用于从答案树的根节点开始,整合答案树的节点数据,得到查询数据对应的搜索数据。
在一些实施例中,所述装置还包括:
第二构建模块,用于所述筛选模块在筛选数据库中与用户输入的查询数据相似的多个文本段落之前,对目标领域内的文本资料数据进行自然段切分,得到多个文本自然段,其中,一个文本自然段包括一个或多个文本段落;获取多个文本自然段之间的关联关系;根据多个文本自然段之间的关联关系,构建原始文本结构树,其中,原始文本结构树包含的多个节点中,叶子节点表示文本段落,非叶子节点表示文本段落的摘要数据。
在一些实施例中,获取模块具体用于:
对多个文本自然段分别进行向量化处理,得到多个向量;获取多个向量之间的相似度;根据多个向量之间的相似度,构建相似度矩阵;根据相似度矩阵,确定多个文本自然段之间的关联关系。
在一些实施例中,第二构建模块具体用于:
根据文本资料数据的层次结构信息,对文本资料数据中的文本段落进行逐级摘要,得到多个摘要数据;将多个文本段落中的每一个文本段落设置为原始文本结构树的叶子节点,并将每一个文本段落的摘要数据设置为叶子节点所连接的非叶子节点,得到原始文本结构树。
在一些实施例中,筛选模块具体用于:
筛选数据库中与用户输入的查询数据相似的多个文本段落,包括:对查询数据进行向量化,得到查询数据向量;获取查询数据向量和数据库中存储的各段落向量的多个相似度;根据多个相似度由高到低的排序,从数据库中筛选与查询数据相似的多个文本段落。
在一些实施例中,搜索模块具体用于:
从数据库中筛选节点数据对应向量的相似向量;整合答案树的节点数据和相似向量的文本段落,得到查询数据对应的搜索数据。
在一些实施例中,构建模块具体用于:
构建多个父节点对应的答案树,包括:获取多个父节点对应原始文本的结构信息;根据结构信息中的结构,构建多个父节点对应的答案树。
在一些实施例中在一些实施例中在一些实施例中在一些实施例中在一些实施例中在一些实施例中请参照图4为本申请实施例中提供的一种搜索数据的装置的结构示意框图,该装置可以包括存储器410和处理器420。在一些实施例中,该装置还可以包括:通信接口430和通信总线440。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
具体的,存储器410,用于存储计算机可读指令。
处理器420,用于处理存储器存储的可读指令,能够执行图1方法中的各个步骤。
通信接口430,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本申请实施例并不限于此。
通信总线440,用于实现上述组件直接的连接通信。
其中,本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器410可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器410在一些实施例中还可以是至少一个位于远离前述处理器的存储装置。存储器410中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器420执行时,电子设备执行上述图1所示方法过程。处理器420可以用于装置300上,并且用于执行本申请中的功能。示例性地,上述的处理器420可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本申请实施例并不局限于此。
本申请实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供一种搜索数据的方法、装置、电子设备和可读存储介质,该方法包括,筛选数据库中与用户输入的查询数据相似的多个文本段落;获取原始文本结构树中所述多个文本段落所在节点对应的多个父节点;构建所述多个父节点对应的答案树;从所述答案树的根节点开始,整合所述答案树的节点数据,得到所述查询数据对应的搜索数据。通过该方法可以达到实现高效、精准的搜索数据的效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种搜索数据的方法,其特征在于,包括:
筛选数据库中与用户输入的查询数据相似的多个文本段落;
获取原始文本结构树中所述多个文本段落所在节点对应的多个父节点;
构建所述多个父节点对应的答案树;
从所述答案树的根节点开始,整合所述答案树的节点数据,得到所述查询数据对应的搜索数据。
2.根据权利要求1所述的方法,其特征在于,在所述筛选数据库中与用户输入的查询数据相似的多个文本段落之前,所述方法还包括:
对目标领域内的文本资料数据进行自然段切分,得到多个文本自然段,其中,一个文本自然段包括一个或多个文本段落;
获取所述多个文本自然段之间的关联关系;
根据所述多个文本自然段之间的关联关系,构建所述原始文本结构树,其中,所述原始文本结构树包含的多个节点中,叶子节点表示文本段落,非叶子节点表示文本段落的摘要数据。
3.根据权利要求2所述的方法,其特征在于,所述获取所述多个文本自然段之间的关联关系,包括:
对所述多个文本自然段分别进行向量化处理,得到多个向量;
获取所述多个向量之间的相似度;
根据所述多个向量之间的相似度,构建相似度矩阵;
根据所述相似度矩阵,确定所述多个文本自然段之间的关联关系。
4.根据权利要求2所述的方法,其特征在于,所述根据所述多个文本自然段之间的关联关系,构建所述原始文本结构树,包括:
根据所述文本资料数据的层次结构信息,对所述文本资料数据中的文本段落进行逐级摘要,得到多个摘要数据;
将所述多个文本段落中的每一个文本段落设置为所述原始文本结构树的叶子节点,并将所述每一个文本段落的摘要数据设置为所述叶子节点所连接的非叶子节点,得到所述原始文本结构树。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述筛选数据库中与用户输入的查询数据相似的多个文本段落,包括:
对所述查询数据进行向量化,得到查询数据向量;
获取所述查询数据向量和所述数据库中存储的各段落向量的多个相似度;
根据所述多个相似度由高到低的排序,从所述数据库中筛选与所述查询数据相似的所述多个文本段落。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述答案树的根节点开始,整合所述答案树的节点数据,得到所述查询数据对应的搜索数据,包括:
从所述数据库中筛选所述节点数据对应向量的相似向量;
整合所述答案树的节点数据和所述相似向量的文本段落,得到所述查询数据对应的搜索数据。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述构建所述多个父节点对应的答案树,包括:
获取所述多个父节点对应原始文本的结构信息;
根据所述结构信息中的结构,构建所述多个父节点对应的所述答案树。
8.一种搜索数据的装置,其特征在于,包括:
筛选模块,用于筛选数据库中与用户输入的查询数据相似的多个文本段落;
获取模块,用于获取原始文本结构树中所述多个文本段落所在节点对应的多个父节点;
构建模块,用于构建所述多个父节点对应的答案树;
搜索模块,用于从所述答案树的根节点开始,整合所述答案树的节点数据,得到所述查询数据对应的搜索数据。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7中任一项所述搜索数据的方法中的步骤。
10.一种计算机可读存储介质,其特征在于,包括:
计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的搜索数据的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744534.0A CN117708271A (zh) | 2023-12-18 | 2023-12-18 | 搜索数据的方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744534.0A CN117708271A (zh) | 2023-12-18 | 2023-12-18 | 搜索数据的方法、装置、设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117708271A true CN117708271A (zh) | 2024-03-15 |
Family
ID=90143990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311744534.0A Pending CN117708271A (zh) | 2023-12-18 | 2023-12-18 | 搜索数据的方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708271A (zh) |
-
2023
- 2023-12-18 CN CN202311744534.0A patent/CN117708271A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111581354A (zh) | 一种faq问句相似度计算方法及其系统 | |
CN111967242B (zh) | 一种文本信息的抽取方法、装置及设备 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
CN111263238B (zh) | 基于人工智能的生成视频评论的方法及设备 | |
CN111651474B (zh) | 一种自然语言至结构化查询语言的转换方法及系统 | |
CN112182180A (zh) | 问答处理的方法、电子设备、计算机可读介质 | |
CN112966117A (zh) | 实体链接方法 | |
CN111143507A (zh) | 一种基于复合式问题的阅读理解方法 | |
CN113806554A (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
CN117349423A (zh) | 一种模板匹配式水利领域知识问答模型 | |
CN114528418A (zh) | 一种文本处理方法、系统和存储介质 | |
CN112632406B (zh) | 查询方法、装置、电子设备及存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN112084338A (zh) | 一种文档自动归类方法、系统、计算机设备及存储介质 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
CN113722452B (zh) | 一种问答系统中基于语义的快速知识命中方法及装置 | |
CN115730058A (zh) | 一种基于知识融合的推理问答方法 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN117708271A (zh) | 搜索数据的方法、装置、设备和可读存储介质 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN112800745A (zh) | 用于文本生成质量评估的方法、装置和设备 | |
CN113128231A (zh) | 一种数据质检方法、装置、存储介质和电子设备 | |
CN116992874B (zh) | 一种文本引用审核溯源方法、系统、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |