CN117493585B

CN117493585B - 一种基于大语言模型的数据检索系统

Info

Publication number: CN117493585B
Application number: CN202311843754.9A
Authority: CN
Inventors: 张玉齐; 褚诗伟; 鲍文霞
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-22
Anticipated expiration: 2043-12-29
Also published as: CN117493585A

Abstract

本发明公开了一种基于大语言模型的数据检索系统，包括：转换模型，对输入语言进行跨语言的转换，将输入语言转换为输出语言，基于输出语言进行大语言模型的数据检索，对输入语言进行扩展检索，生成扩展语言集，根据扩展语言集与输入语言之间的关联度进行计算，获取扩展语言集中输入语言的语义，根据输入语言语义的限定，进行输入语言与输出语言的转换。本发明通过对关键词的扩展来增加对关键词语义的限定，并根据所生成的限定来缩小跨语言的语义，从而增加跨语言进行关键词的检索时，输入语言与输出语言之间的相通性，进而来确保在进行跨语言检索时，反馈结果与预期值的匹配程度。

Description

一种基于大语言模型的数据检索系统

技术领域

本发明涉及数据检索技术领域，具体为一种基于大语言模型的数据检索系统。

背景技术

跨语言数据检索 (Cross-Language Data Retrieval, CLDR) 是一种从不同语言的数据集中查找相关信息的过程，通常需要使用自然语言处理和机器翻译等技术实现。

而跨语言进行数据检索存在以下问题：

语言资源的缺乏和质量、由于跨语言数据检索需要依赖一定的语言资源，如双语词典、机器可读词典、机器翻译、语料库等，来实现不同语言之间的翻译和匹配，因此语言资源的缺乏和质量会直接影响跨语言数据检索的效果；

词的歧义和多义性、由于不同语言之间的词汇可能存在歧义和多义性，即一个词在不同的语境中可能有不同的含义或对应不同的词，因此在跨语言数据检索中需要解决词的歧义和多义性问题，以提高翻译和匹配的准确性；

词的切分和索引、由于一些语言（如中文、日文、韩文等）由于词与词之间没有明显的分隔符号，因此在跨语言数据检索中需要解决词的切分和索引问题，以提高检索系统的速度和质量；

输出结果的排序和展示、由于跨语言数据检索的结果可能包含多种语言的信息，因此需要解决输出结果的排序和展示问题，如何对不同语言的信息进行相关度计算、如何对用户进行友好和可解释的展示。

中国专利公告号CN106372187B公开了一种面向大数据的跨语言检索方法，面向大数据的跨语言检索方法采用中英维基百科词条及词条间的跨语言关系，构建双语词向量模型，再利用这个双语词向量模型对查询做翻译，最后根据候选译文构建新的查询执行检索。跨语言检索模型以源语言查询向量为输入，输出和查询向量语义相近的目标语言文档的相似度；查询翻译过程中，采用典型关联分析的结果。该申请利用不同语种之间文档的语义相似性特点，找到两种语言的共享语义空间，在此共享空间上对查询做语义转述，从而实现查询的自动翻译功能。

对于跨语言数据检索而言，检索内容是否符合预期和跨语言翻译精确度有关，跨语言翻译越精确，经过检索所获得的内容越符合预期，而大语言模型对于检索关键内容的翻译往往依靠翻译系统来完成，将检索所生成的语言翻译为所跨语言，再对该语言进行检索，由于语言的多义性，导致了检索内容的偏差，使用者只能够更换含义或进行检索关键内容的修改来完成跨语言检索，导致跨语言检索的难度增加。

发明内容

本发明的目的之一在于提供一种基于大语言模型的数据检索系统，进行跨语言检索时，针对输入语言进行扩展延伸，之后再进行语言的转换，从而形成特定的输出语言词汇以及关键词，降低输入语言与输出语言之间所出现的偏差，减少跨语言检索难度。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于大语言模型的数据检索系统，包括：

转换模型，对输入语言进行跨语言的转换，将输入语言/>转换为输出语言，基于输出语言/>进行大语言模型的数据检索，对输入语言/>进行扩展检索，生成扩展语言集，根据扩展语言集与输入语言/>之间的关联度进行计算，获取扩展语言集中输入语言/>的语义，根据输入语言/>语义的限定，进行输入语言/>与输出语言/>的转换；

语义限定模型，对输入语言进行关键词的检索，将关键词筛选为核心关键词和限定关键词/>，通过限定关键词/>增加对核心关键词/>的语义限定，对语义限定对核心关键词/>以及限定关键词/>的语言转换；

校对模块，在输入语言转换为输出语言/>后，对核心关键词/>以及限定关键词/>的语义限定转换来修改输出语言/>，改变大语言模型的反馈结果。

在本发明一或多个实施方式中，关键词的检索包括对组成词的筛选，首先将输入语言拆分为不同的词语，即对输入语言/>中所出现的词语语义进行检索，前后形成完整语义的词语即为一个组成词/>，在出现歧义词语/>与前后词语均能够形成完整语义时，对歧义词语与前后词语的语义匹配度/>进行计算，计算式如下：

；

其中，为歧义词语/>与前词语组合结果，/>为歧义词语/>与后词语组合结果，在歧义词语/>与前词语或后词语组合时，能够组合为完整语义则/>或/>为1不能组合完整语义则/>或/>为0，/>分别为/>或/>前后四个组成词/>与或/>组合检索出现的数量。

在本发明一或多个实施方式中，歧义词语与前后词语的语义匹配度/>时，则/>进行/>组合后检索数量大于/>进行/>组合检索量；歧义词语/>与前后词语的语义匹配度/>时，则/>进行/>组合后检索数量小于/>进行/>组合检索量，歧义词语/>与前后词语的语义匹配度/>时，则进行组成词/>的扩展计算。

在本发明一或多个实施方式中，对组成词的核心关键词/>和限定关键词/>的筛选，计算每两个组成词/>进行检索出现的组合检索数量/>，即：

；

其中，为第x个组成词/>出现数量，/>为第n个组成词/>出现的数量，为第x个组成词/>与第n个组成词/>的重复出现数量。

在本发明一或多个实施方式中，分别计算每两个组成词出现的数量，并筛选组合检索数量/>最大的组成词/>，两个组成词/>中出现数量进行对比，组成词/>出现次数多的标记为核心关键词/>，其余组成词/>为限定关键词/>。

在本发明一或多个实施方式中，输入语言进行扩展检索时，根据核心关键词以及限定关键词/>进行检索扩展，检索核心关键词/>以及限定关键词/>，对核心关键词/>以及限定关键词/>的检索结果进行记录，生成延伸词语集/>，延伸词语集/>包括核心关键词/>以及限定关键词/>的名词延伸。

在本发明一或多个实施方式中，对延伸词语集中核心关键词/>以及限定关键词/>的语义进行采集，并采集核心关键词/>以及限定关键词/>的翻译，检索核心关键词以及限定关键词/>的语义是否为多种，并记录核心关键词/>以及限定关键词/>与延伸词语集/>中语义所对应的一种或多种翻译。

在本发明一或多个实施方式中，核心关键词在进行检索扩展出现多种语义时，通过限定关键词/>对核心关键词/>加以限定，即限定关键词/>与延伸词语集/>中核心关键词/>的延伸分别组合进行检索，获取限定关键词/>与每个延伸词语集/>内核心关键词的名词或相关组合语言关联性。

在本发明一或多个实施方式中，在获取限定关键词与每个延伸词语集/>内核心关键词/>的名词或相关组合语言关联性后对依然存在多语义的核心关键词/>进行语义扩展，生成扩展语义，采集扩展语义中的名词，获取扩展语义中的名词与限定关键词/>的关联性。

在本发明一或多个实施方式中，进行多次检索时检索输入语言，提取输入语言中的限定关键词/>再次对核心关键词/>进行限定，根据限定关键词/>对核心关键词进行修改，并对已经经过大语言模型检索的反馈结果进行修改。

本发明提供了一种基于大语言模型的数据检索系统。与现有技术相比具备以下有益效果：

1、本发明通过对关键词的扩展来增加对关键词语义的限定，并根据所生成的限定来缩小跨语言的语义，从而增加跨语言进行关键词的检索时，输入语言与输出语言/>之间的相通性，进而来确保在进行跨语言检索时，反馈结果与预期值的匹配程度。

2、根据输入语言中的关键词来进行扩展，通过检索其中核心关键词/>在扩展后与限定关键词/>是否存在关联，来进行核心关键词/>语义的分析，根据核心关键词/>语义扩展后的语义来进行跨语言的转换，从而能够更好的对跨语言转换进行限定，以减少跨语言检索产生的偏差。

3、在进行输入语言分析时，提取输入语言/>中的关键词，并对关键词之间的关联来进行关键词的分析，筛分核心关键词/>和限定关键词/>，在进行检索适配时进行相关检索内容的适配，根据核心关键词/>与限定关键词/>之间的相关联进行跨语言内容的检索适配。

4、本发明在完成跨语言转换输出时，为了保证跨语言转换的准确性，经过转换后的输出语言在进行反馈时，对反馈结果进行校准，确保跨语言检索的精准反馈，而在进行跨语言的检索时，能够确保在进行跨语言检索时的检索关联度，进行相关检索时，能够根据多次检索时所生成的关键词进一步的进行核心关键词/>的进一步限定。

附图说明

图1为本发明的流程示意图；

图2为本发明的数据检索系统跨语言检索逻辑示意图。

具体实施方式

以下将以附图揭露本发明的多个实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明部分实施方式中，这些实务上的细节是非必要的。此外，为简化附图起见，一些现有惯用的结构与元件在附图中将以简单示意的方式绘示之，而在所有附图中，相同的标号将用于表示相同或相似的元件。且若实施上为可能，不同实施例的特征是可以交互应用。

除非另有定义，本文所使用的所有词汇（包括技术和科学术语）具有其通常的意涵，其意涵能够被熟悉此领域者所理解。更进一步的说，上述的词汇在普遍常用的字典中的定义，在本说明书的内容中应被解读为与本发明相关领域一致的意涵。除非有特别明确定义，这些词汇将不被解释为理想化的或过于正式的意涵。

请参阅图1-2，本发明提供一种基于大语言模型的数据检索系统，实现跨语言的检索，在进行相关检索的过程中提高反馈结果与检索预期的匹配度，降低跨语言检索的难度。包括：

在本实施例中，转换模型以及语义限定模型的设置能够对跨语言检索多义关键词进行进一步的限定，在进行大语言模型的数据检索时，能够保证语言转换的准确性，减少在进行跨语言数据检索出现的偏差，而由于在进行跨语言数据检索的过程中能够不断的对核心关键词语义进行修正，确保跨语言数据检索的精准性。

对多义语言进行进一步的限定后，能够缩小语言的含义，从而提高翻译和匹配结果的准确性，从而利用对语言语义的进一步限定来筛选符合输入语言语义的输出语言，利用输出语言/>进行跨语言的检索，进而能够保证在语言不同的情况下能够筛选相同语义的词语进行检索。

在一种实施例中，关键词的检索包括对组成词的筛选，首先将输入语言拆分为不同的词语，即对输入语言/>中所出现的词语语义进行检索，前后形成完整语义的词语即为一个组成词/>，在出现歧义词语/>与前后词语均能够形成完整语义时，对歧义词语与前后词语的语义匹配度/>进行计算，计算式如下：

；

在本实施例中，针对歧义词语进行处理，在跨语言进行转换的过程中，语言之间的翻译差导致了最终数据检索结果的差距，因此，通过解决歧义词语/>与前后词语组合成为不同的词语能够呈现为不同的语义，根据语义与其他组成词/>是否存在关联来进行检索，能够使歧义词语/>在与前词语或后词语组合后更加符合该数据检索句式内的组成词/>的关联程度来进行歧义词语/>的判断。

为了能够更进一步的保证歧义词语在与前词语或后词语组合后，与组成词/>之间的关联性，在进行检索时，将歧义词语/>的组合结果以及其前后四个组成词/>分别组合后，基于维基百科进行检索，并记录歧义词语/>组合结果所出现的次数，依据出现次数进行匹配度的计算。

在一种实施例中，歧义词语与前后词语的语义匹配度/>时，则/>进行组合后检索数量大于/>进行/>组合检索量；歧义词语/>与前后词语的语义匹配度/>时，则/>进行/>组合后检索数量小于/>进行/>组合检索量，歧义词语/>与前后词语的语义匹配度时，则进行组成词/>的扩展计算。

在本实施例中，根据语义匹配度的计算，能够获取到歧义词语/>在与前词语或后词语比值数据，获取到歧义词语/>在分别与前词语和后词语组合之后的检索数量，以此来进行歧义词语/>语义的判断，保证了能够稳定的判断语义的信息。

而在出现歧义词语与前后词语的语义匹配度/>为1时，则进行组成词/>的扩展计算，即为/>，若匹配度依据为1则记录歧义词语/>与前后词语的语义进行记录，并分别根据歧义词语/>的语义进行分别输出检索，歧义词语/>经过语义匹配后成为组成词。

在一种实施例中，对组成词的核心关键词/>和限定关键词/>的筛选，计算每两个组成词/>进行检索出现的组合检索数量/>，即：

；

在本实施例中，计算组成词的出现数量能够统计组成词/>的频率，针对组成词/>的出现频率来进行核心关键词/>以及限定关键词/>的筛选，根据核心关键词/>与限定关键词/>来进行语义的分析限定，核心关键词/>作为主要检索语义，限定关键词/>作为对核心关键词/>的语义限定，进一步的保证输入语言/>与输出语言/>的匹配度。

计算组成词重复出现的数量为组成词/>之间互相计算，即每一个组成词/>均与其他组成词/>组合并进行计算，获取每个组成词/>之间的词语数量来进行核心关键词/>的筛选，而限定关键词/>作为对核心关键词/>的语义限定，来进一步的对核心关键词/>的语义进行进一步的限定。

在一种实施例中，分别计算每两个组成词出现的数量，并筛选组合检索数量/>最大的组成词/>，两个组成词/>中出现数量进行对比，组成词/>出现次数多的标记为核心关键词/>，其余组成词/>为限定关键词/>。

在本实施例中，将出现次数多的组成词标记为核心关键词/>，在进行数据检索时，限定关键词/>往往围绕这核心关键词/>出现，对主要所需检索的数据进行进一步的限定，因此，核心关键词/>在与每个限定关键词/>组合后，所出现的次数最多的。

在判断核心关键词后，能够在进行跨语言检索时，进行相应的检索重点规划，而基于限定关键词/>对核心关键词/>的语义限定，能够缩小核心关键词/>的语义，在翻译后能够更加精准，以确保能够稳定的进行跨语言检索。

在一种实施例中，输入语言进行扩展检索时，根据核心关键词/>以及限定关键词/>进行检索扩展，检索核心关键词/>以及限定关键词/>，对核心关键词/>以及限定关键词/>的检索结果进行记录，生成延伸词语集/>，延伸词语集/>包括核心关键词/>以及限定关键词/>的名词延伸。

在本实施例中，针对核心关键词以及限定关键词/>进行检索扩展，能够获取包含核心关键词/>以及限定关键词/>的专业名词或相关组合语言，即核心关键词/>+其余限定词或限定关键词/>+其余限定词，而出现的专业名词以及相关组合语言进行翻译能够更加精确。

为了保证进行跨语言翻译的精准，核心关键词以及限定关键词/>的扩展检索基于维基百科来完成，维基百科中所出现包含核心关键词/>以及限定关键词/>的专业名词或相关组合语言进行语言翻译，以筛选该核心关键词/>或限定关键词/>的语义。

在一种实施例中，对延伸词语集中核心关键词/>以及限定关键词/>的语义进行采集，并采集核心关键词/>以及限定关键词/>的翻译，检索核心关键词/>以及限定关键词/>的语义是否为多种，并记录核心关键词/>以及限定关键词/>与延伸词语集/>中语义所对应的一种或多种翻译。

在本实施例中，识别核心关键词以及限定关键词/>的语义及其翻译，能够便于对核心关键词/>以及限定关键词/>的语义进行分析，而进行语义限定后，由于记录了核心关键词/>以及限定关键词/>的相关翻译，能够在限定语义后就能够得到核心关键词/>以及限定关键词/>的翻译。

在一种实施例中，核心关键词在进行检索扩展出现多种语义时，通过限定关键词/>对核心关键词/>加以限定，即限定关键词/>与延伸词语集/>中核心关键词/>的延伸分别组合进行检索，获取限定关键词/>与每个延伸词语集/>内核心关键词/>的名词或相关组合语言关联性。

在本实施例中，利用限定关键词进行核心关键词/>的限定，来减少核心关键词的语义，从而对延伸词语集/>中核心关键词/>的名词或相关组合语言进行删减，降低核心关键词/>的语义歧义，从而提高翻译后跨语言检索的准确性，保证输入语言/>与输出语言/>的匹配度。

而限定关键词与每个延伸词语集/>内核心关键词/>的名词或相关组合语言关联性进行以下计算：

；

其中，为限定关键词/>与每个延伸词语集/>内核心关键词/>的名词或相关组合语言组合后检索出现数量，/>为第n个延伸词语集/>内的核心关键词/>的名词或相关组合语言，/>为第n个限定词语。

在一种实施例中，在获取限定关键词与每个延伸词语集/>内核心关键词/>的名词或相关组合语言关联性后对依然存在多语义的核心关键词/>进行语义扩展，生成扩展语义，采集扩展语义中的名词，获取扩展语义中的名词与限定关键词/>的关联性。

在本实施例中，将核心关键词进行语义扩展后生成对于该核心关键词/>的多种解释，分别采集多种解释中的名词，利用限定关键词/>以及多种解释中的名词来进一步的进行关联性的计算，能够分析每种解释与限定关键词/>的匹配程度，从而来分析核心关键词/>的语义。

在一种实施例中，进行多次检索时检索输入语言，提取输入语言/>中的限定关键词/>再次对核心关键词/>进行限定，根据限定关键词/>对核心关键词/>进行修改，并对已经经过大语言模型检索的反馈结果进行修改。

在本实施例中，根据后续输入的限定关键词来进行核心关键词/>的进一步限定，从而根据后续的限定关键词/>来进行之前反馈结果的修改，从而进一步的保证跨语言检索的精确。

综上所述，本发明上述实施方式所揭露的技术方案至少具有以下优点：

虽然结合以上实施方式公开了本发明，然而其并非用以限定本发明，任何熟悉此技艺者，在不脱离本发明的精神和范围内，可作各种的更动与润饰，因此本发明的保护范围应当以所附的权利要求所界定的为准。

Claims

1.一种基于大语言模型的数据检索系统，其特征在于，包括：

转换模型，对输入语言进行跨语言的转换，将输入语言/>转换为输出语言/>，基于输出语言/>进行大语言模型的数据检索，对输入语言/>进行扩展检索，生成扩展语言集，根据扩展语言集与输入语言/>之间的关联度进行计算，获取扩展语言集中输入语言的语义，根据输入语言/>语义的限定，进行输入语言/>与输出语言/>的转换；

语义限定模型，对输入语言进行关键词的检索，将关键词筛选为核心关键词/>和限定关键词/>，通过限定关键词/>增加对核心关键词/>的语义限定，对语义限定对核心关键词/>以及限定关键词/>的语言转换；

关键词的检索包括对副助词的筛选，首先将输入语言拆分为不同的词语，即对输入语言/>中所出现的词语语义进行检索，前后形成完整语义的词语即为一个组成词/>，在出现歧义词语/>与前后词语均能够形成完整语义时，对歧义词语与前后词语的语义匹配度/>进行计算；

对组成词的核心关键词/>和限定关键词/>的筛选，计算每两个组成词/>进行检索出现的组合检索数量/>，即：

；

其中，为第x个组成词/>出现数量，/>为第n个组成词/>出现的数量，/>为第x个组成词/>与第n个组成词/>的重复出现数量；

分别计算每两个组成词出现的数量，并筛选组合检索数量/>最大的组成词/>，两个组成词/>中出现数量进行对比，组成词/>出现次数多的标记为核心关键词/>，其余组成词/>为限定关键词/>；

2.根据权利要求1所述的一种基于大语言模型的数据检索系统，其特征在于，语义匹配度计算式如下：

；

其中，为歧义词语/>与前词语组合结果，/>为歧义词语/>与后词语组合结果，在歧义词语/>与前词语或后词语组合时，能够组合为完整语义则/>或/>为1不能组合完整语义则/>或/>为0，/>分别为/>或/>前后四个组成词/>与/>或组合检索出现的数量。

3.根据权利要求2所述的一种基于大语言模型的数据检索系统，其特征在于，歧义词语与前后词语的语义匹配度/>时，则/>进行/>组合后检索数量大于/>进行/>组合检索量；歧义词语/>与前后词语的语义匹配度/>时，则/>进行/>组合后检索数量小于/>进行/>组合检索量，歧义词语/>与前后词语的语义匹配度/>时，则进行组成词/>的扩展计算。

4.根据权利要求1所述的一种基于大语言模型的数据检索系统，其特征在于，输入语言进行扩展检索时，根据核心关键词/>以及限定关键词/>进行检索扩展，检索核心关键词/>以及限定关键词/>，对核心关键词/>以及限定关键词/>的检索结果进行记录，生成延伸词语集/>，延伸词语集/>包括核心关键词/>以及限定关键词/>的名词延伸。

5.根据权利要求4所述的一种基于大语言模型的数据检索系统，其特征在于，对延伸词语集中核心关键词/>以及限定关键词/>的语义进行采集，并采集核心关键词/>以及限定关键词/>的翻译，检索核心关键词/>以及限定关键词/>的语义是否为多种，并记录核心关键词/>以及限定关键词/>与延伸词语集/>中语义所对应的一种或多种翻译。

6.根据权利要求5所述的一种基于大语言模型的数据检索系统，其特征在于，核心关键词在进行检索扩展出现多种语义时，通过限定关键词/>对核心关键词/>加以限定，即限定关键词/>与延伸词语集/>中核心关键词/>的延伸分别组合进行检索，获取限定关键词/>与每个延伸词语集/>内核心关键词/>的名词或相关组合语言关联性。

7.根据权利要求6所述的一种基于大语言模型的数据检索系统，其特征在于，在获取限定关键词与每个延伸词语集/>内核心关键词/>的名词或相关组合语言关联性后对依然存在多语义的核心关键词/>进行语义扩展，生成扩展语义，采集扩展语义中的名词，获取扩展语义中的名词与限定关键词/>的关联性。

8.根据权利要求7所述的一种基于大语言模型的数据检索系统，其特征在于，进行多次检索时检索输入语言，提取输入语言/>中的限定关键词/>再次对核心关键词/>进行限定，根据限定关键词/>对核心关键词/>进行修改，并对已经经过大语言模型检索的反馈结果进行修改。