CN116821307A - 内容交互方法、装置、电子设备和存储介质 - Google Patents

内容交互方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116821307A
CN116821307A CN202311054038.2A CN202311054038A CN116821307A CN 116821307 A CN116821307 A CN 116821307A CN 202311054038 A CN202311054038 A CN 202311054038A CN 116821307 A CN116821307 A CN 116821307A
Authority
CN
China
Prior art keywords
content
interacted
search
interaction
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311054038.2A
Other languages
English (en)
Other versions
CN116821307B (zh
Inventor
朱秀红
易磊
黄泽谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311054038.2A priority Critical patent/CN116821307B/zh
Publication of CN116821307A publication Critical patent/CN116821307A/zh
Application granted granted Critical
Publication of CN116821307B publication Critical patent/CN116821307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种内容交互方法、装置、电子设备和存储介质,涉及大模型领域,该内容交互方法可以包括接收针对交互模型的交互请求,所述交互请求携带待交互内容;基于所述交互请求,确定所述待交互内容的内容类型;根据所述内容类型对所述交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容;通过所述预设搜索引擎搜索出所述待搜索内容对应的至少一个搜索内容;基于所述搜索内容,采用所述交互模型生成所述待交互内容对应的目标交互内容。本方案可以提升内容交互的质量。

Description

内容交互方法、装置、电子设备和存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种内容交互方法、装置、电子设备和存储介质。
背景技术
近年来,随着人工智能技术的快速发展,其在各个领域中的应用越来越广泛,其中,最为常见的就是通过人工智能技术实现人机交互,在人机交互过程中,大语言模型发挥了至关重要的作用。
大语言模型是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
然而,对大语言模型而言,由于模型更新迭代速度相对较慢,而现实中的发生的事件、资讯等信息是实时更新的,因此,在大语言模型的预训练阶段所采用的语料与现阶段发生的事件之间,会存在时间滞后的问题,从而无法保证大语言模型在内容交互过程中的回答准确性,降低了用户的交互体验。
发明内容
本申请实施例提供一种内容交互方法、装置、电子设备和存储介质,可以提升内容交互的体验。
本申请实施例提供一种内容交互方法,包括:
接收针对交互模型的交互请求,所述交互请求携带待交互内容;
基于所述交互请求,确定所述待交互内容的内容类型;
根据所述内容类型对所述交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容;
通过所述预设搜索引擎搜索出所述待搜索内容对应的至少一个搜索内容;
基于所述搜索内容,采用所述交互模型生成所述待交互内容对应的目标交互内容。
本申请实施例还提供一种内容交互装置,包括:
接收单元,用于接收针对交互模型的交互请求,所述交互请求携带待交互内容;
类型确定单元,用于基于所述交互请求,确定所述待交互内容的内容类型;
改写单元,用于根据所述内容类型对所述交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容;
搜索单元,用于通过所述预设搜索引擎搜索出所述待搜索内容对应的至少一个搜索内容;
交互单元,用于基于所述搜索内容,采用所述交互模型生成所述待交互内容对应的目标交互内容。
在一些实施例中,所述内容类型包括单意图内容和多意图内容,所述改写单元,包括:
第一改写子单元,用于当所述内容类型为所述单意图内容时,对所述待交互内容的表述形式进行改写,得到至少一种改写后的待交互内容,并将所述改写后的待交互内容作为所述待搜索内容;
第二改写子单元,用于当所述内容类型为所述多意图内容时,识别出所述待交互内容中每个意图对应的子内容,并将所述子内容确定为所述待搜索内容。
在一些实施例中,第一改写子单元,具体用于识别所述待交互内容对应的目标意图;从所述待交互内容中筛选出与所述目标意图对应的至少一个关键内容;将所述关键内容进行融合,得到至少一种改写后的待交互内容。
在一些实施例中,第一改写子单元,还具体用于从预设内容库中筛选出与目标内容对应的替换内容,所述目标内容为所述待交互内容中除所述关键内容以外的内容;将所述待交互内容中的目标内容替换为所述替换内容,得到所述改写后的待交互内容。
在一些实施例中,第一改写子单元,还具体用于在所述待交互内容中筛选出限定所述关键内容的内容,得到条件内容;将所述关键内容与所述条件内容进行组合,得到所述改写后的交互内容。
在一些实施例中,所述内容类型包括对比内容,改写单元还包括:
第三改写子单元,用于当所述待交互内容为对比内容时,识别出所述待交互内容中的多个对比对象对应的对象内容;将所述对象内容填充至预设比对模板中,得到对比子内容;将所述对比子内容和所述对象内容分别作为所述待搜索内容。
第三改写子单元,所述内容交互装置还包括:
执行单元,用于当所述待交互内容中包括时新内容时,执行所述基于所述交互请求,确定所述待交互内容的内容类型的步骤,其中,所述时新内容的出现时间在所述交互模型对应的训练语料的出现时间之后。
在一些实施例中,执行单元,具体用于获取所述预设搜索引擎对应的搜索榜单,所述搜索榜单包括多个热门搜索内容,其中,所述热门搜索内容为所述预设搜索引擎中搜索频率满足预设频率要求的内容;将所述待交互内容与所述热门搜索内容进行匹配;当所述待交互内容与所述热门搜索内容匹配成功时,确定所述待交互内容中包括时新内容。
在一些实施例中,交互单元,包括:
相似度获取子单元,用于获取每个搜索内容对应的相似度,所述相似度为所述搜索内容与其对应的待搜索内容之间的相似度;
筛选子单元,用于根据所述相似度,从所述至少一个搜索内容中筛选出目标搜索内容;
提取子单元,用于从所述目标搜索内容中提取出与所述待交互内容对应的知识信息;
交互子单元,用于基于所述知识信息,采用所述交互模型生成所述待交互内容对应的目标交互内容。
在一些实施例中,筛选子单元,具体用于针对每个待搜索内容,按照相似度从大到小的次序,对所述待搜索内容对应的至少一个搜索内容进行排列,得到排列后的搜索内容;从所述排列后的搜索内容筛选出前N个搜索内容作为初始搜索内容,其中,N为正整数;从所述初始搜索内容中筛选出所述目标搜索内容。
在一些实施例中,筛选子单元,具体还用于针对每个待搜索内容对应的至少一个初始搜索内容,筛选出所述至少一个初始搜索内容中相似度最大的初始搜索内容,作为所述目标搜索内容。
在一些实施例中,交互子单元,具体用于将所述知识信息与所述待交互内容进行融合,得到融合内容;基于所述融合内容,采用所述交互模型生成所述目标交互内容。
本申请实施例还提供一种电子设备,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本申请实施例所提供的任一种内容交互方法中的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种内容交互方法中的步骤。
本申请实施例可以在接收针对交互模型的携带待交互内容的交互请求后,基于交互请求,确定待交互内容的内容类型;再根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容;然后,通过预设搜索引擎搜索出待搜索内容对应的至少一个搜索内容;最后,基于搜索内容,采用交互模型生成待交互内容对应的目标交互内容。
在本申请中,通过接收针对交互模型的交互请求,交互请求携带待交互内容;再基于交互请求,确定待交互内容的内容类型;并根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容,由于不同类型的交互内容采用的改写方式不同,所以根据内容类型对交互内容进行改写,能够准确地将适用于交互模型的格式的交互内容改写为适用于预设搜索引擎的格式的至少一个待搜索内容,且改写出的待搜索内容更为丰富、多样,再通过预设搜索引擎搜索出待搜索内容对应的至少一个搜索内容,由于预设搜索引擎中的内容往往是实时更新的,所以采用预设搜索引擎对待搜索内容进行搜索而得到的搜索内容是没有时间滞后的,最后基于搜索内容,采用交互模型生成待交互内容对应的目标交互内容,从而能够将时新的搜索内容补充到交互模型,丰富交互模型的知识,以便于交互模型能够针对待交互内容输出更为准确的目标交互内容,可以有效提升内容交互的体验感。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1是本申请实施例提供的内容交互方法的场景示意图;
图2是本申请实施例提供的一种内容交互方法的流程示意图;
图3是本申请实施例提供的对待交互内容在搜索界面中的改写示意图;
图4是本申请实施例提供的另一种内容交互方法的流程示意图;
图5是本申请实施例提供的从待搜索内容提取出知识信息的流程示意图;
图6是本申请实施例提供的内容交互方法的一种实施流程示意图;
图7是本申请实施例提供的内容交互装置的结构示意图;
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
对大语言模型而言,由于模型更新迭代速度相对较慢,往往在预训练阶段所采用的语料跟现阶段发生的事件存在时间滞后的问题。例如,一个大语言模型的训练语料数据截止到2021年9月,对于之后发生的事件模型不具备较优的感知能力。而搜索引擎往往可以保持事件时新需求,因此通过搜索引擎补充时新知识等对大语言模型回答精准答案具有至关重要的作用。然而,搜索引擎面向的对象是短文本,由于现在面向大语言模型的对象(如Prompt)的形式多样并且长短不一,无法利用大语言模型的输入来从搜索引擎中有效获取到时新内容。
另外,针对短文本(Query),相关技术中的文本召回方式包括:原串召回、非必留召回、同义词召回。比如:
Query=肚子很疼了怎么办。
原串召回=肚子很疼了怎么办。
非必留召回=
同义词召回=肚子很疼了怎么处理。
仅仅采用上述三种方式召回结果存在问题包括:语义相似但表述不相似的无法召回;召回结果同质,缺乏多样性。
针对上述问题,本申请实施例提供一种内容交互方法、装置、电子设备和存储介质。
其中,该内容交互装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、车载终端、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该内容交互装置还可以集成在多个电子设备中,比如,内容交互装置可以集成在多个服务器中,由多个服务器来实现本申请的内容交互方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1,该电子设备100可以为服务器,该服务器可以执行以下步骤:
接收针对交互模型的交互请求,交互请求携带待交互内容。
基于交互请求,确定待交互内容的内容类型。
根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容。
通过预设搜索引擎搜索出待搜索内容对应的至少一个搜索内容。
基于搜索内容,采用交互模型生成待交互内容对应的目标交互内容。
在一些实施方式中,该服务器还可以与用户的移动终端通信连接,用于接收移动终端发送的交互请求,并基于交互请求生成目标交互内容,再将目标交互内容发送给用户的移动终端,从而实现与用户之间的内容交互。可选地,该移动终端的数量可以为一个或多个,在此不做限定。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
实施例一
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术,自动驾驶技术有着广泛的应用前景。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
预训练模型(Pre-training model),也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT, CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
分布式训练,指将训练模型的工作负载拆分、共享给多个微型处理器。大模型的参数大,训练数据大,超过单个机器容纳能力,因此需要分布式并行提速。并行机制包括数据并行(Data Parallel,DP)、模型并行(Model Parallel,MP)、流水线并行(PipelineParallel,PP)、混合并行(Hybrid parallel,HP)。结构设计包括基于参数服务器(Parameter Server)、基于规约(Reduce)基于MPI等构造。
模型压缩与量化:指通过压缩与量化的技术帮助减小模型大小和加速模型推理,从而降低模型在存储和计算方面的成本。模型压缩通常包括剪枝、低秩分解、知识蒸馏等,模型量化指将模型中的浮点数参数转换为定点数或整数参数,从而减小模型大小和加速模型推理。
自适应计算:指根据不同的输入数据,自动调整模型的计算量和精度,以达到在保持模型精度的同时提高模型计算效率的目的。自适应计算能够在不同的输入数据上灵活地调整模型的计算量和精度,从而更好地平衡模型的计算效率和精度。
模型并行计算:指将模型的计算任务分配给多个计算设备(例如CPU、GPU、TPU等)同时进行计算,从而加速模型的训练和推理。模型并行计算能够有效地利用计算资源,提高模型的计算效率和训练速度。
大语言模型(Large Language Model,LLM):指使用大量文本数据训练的深度学习生成模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。常见的大语言模型有Llama,Bloom等。
其中,Query:短文本,用于指示搜索引擎进行相关内容的搜索。
Prompt:提示文本,表示命令或者指令,用于指示大语言模型需要执行动作或者生成输出;
SFT(Supervised Fine-Tuning):有监督微调训练,是一种利用少量标注数据来优化预训练模型的机器学习方法。在这种方法中,通常使用预先经过大规模无监督预训练的模型作为初始参数,并在任务特定的标注数据集上进行有监督的微调。
GSB(General Language Understanding Evaluation Benchmark)评测:是一项用于对语言模型进行评估的基准测试。它旨在测试模型在广泛的语言理解任务上的性能。GSB评测包含了一系列不同类型的任务,涵盖了信息检索、问答、阅读理解、文本分类等多个领域。这些任务的设计旨在考察语言模型在理解和处理自然语言时的能力。
其中,可以理解的是,在本申请的具体实施方式中,涉及到交互请求、待交互内容等相关数据,当本申请以下实施例运用到具体产品或技术中时,需要获得许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在本实施例中,提供了一种涉及人工智能的内容交互方法,如图2所示,该内容交互方法的具体流程可以如下:
101、接收针对交互模型的交互请求,交互请求携带待交互内容。
其中,交互模型是用于实现用户与机器之间实现内容交互的模型,具体地,该交互模型可以是使用大量文本数据训练的深度学习生成模型,例如大语言模型,可以处理多种自然语言任务,如文本分类、问答、对话等,举例来说,该交互模型能够根据输入的用于提问的文本,输出相应的答案文本,从而实现内容交互。其中,该交互模型可以设置在上述电子设备中。其中,内容交互可以是指通过不同形式的内容实现的交互,例如通过文本内容进行问答、对话等交互。可选地,不同形式的内容可以包括但不限于文本内容、语音内容、视频内容等。
其中,交互请求为基于交互模型进行内容交互的请求,具体地,交互请求可以是用户通过其对应的终端向电子设备发出的,且该交互请求用于请求电子设备采用交互模型进行内容交互。
其中,待交互内容为需要通过交互模型进行交互的内容。其中,待交互内容可以是适用于交互模型,能够被交互模型识别的内容,例如,以交互模型为大语言模型为例,待交互内容可以是提示文本。利用交互模型能够理解待交互内容的语言文本的含义,从而得到与待交互内容对应目标交互内容。其中,目标交互内容为针对待交互内容的反馈内容,例如,待交互内容为问题内容,那么针对该提问内容的目标交互内容为答案内容。
在一些实施方式中,交互模型可以预先被配置在电子设备中,该电子设备可以接收用户的移动终端发送来的交互请求,然后依据交互请求的指示,采用交互模型来执行用户与电子设备之间的内容交互操作。可以理解的是,当交互模型为大语言模型时,如果待交互内容为文本内容,则可以直接输入至大语言模型,如果待交互内容为语音内容或视频内容,可以将语音内容或视频内容转换成相应的文本内容后再输入至大语言模型。
102、基于交互请求,确定待交互内容的内容类型。
其中,内容类型可以是预先根据待交互内容的不同特征划分出来的类型,其中,该特征包括但不限于问题的数量、问题的形式等等。例如,可以根据待交互内容中包含一个或多个问题,每个问题可以对应一个需求(也可称意图),那么可以根据待交互内容中包含的意图数量,将待交互内容划分为单意图内容和多意图内容两种内容类型,举例来说,如待交互内容为“洞察的意思是什么”,其中只包括一个意图,因此可以被划分为单意图内容。如待交互内容为“什么是数字证书?简述数字签名的产生步骤”,其中包括两个意图,因此可以被划分为多意图内容。又例如,如果待交互内容中包含对比分析形式的问题,那么可以将该待交互内容的内容类型划分为对比内容,举例来说,如“学籍号和身份证号码是一样的吗?”其中,将学籍号和身份证号码进行对比分析,因此可以被划分为对比内容。可以理解的是,除了上述类型划分方式,还可以有其它的类型划分方式,具体可以根据实际需求来划分,在此不做限定。
在一些实施方式中,交互请求中还携带有待交互内容的类型标签,该类型标签用于标识待交互内容的内容类型,电子设备可以根据该类型标签识别出待交互内容的内容类型。其中,该类型标签可以是用户在发送交互请求时,从预设的多个内容类型标签中选取的。
在另一些实施方式中,可以将交互请求中的待交互内容输入至预先训练好的内容类型识别模型,通过内容类型识别模型确定待交互内容对应的内容类型。其中,内容类型识别模型可以是预先通过标注好内容类型的多个交互内容样本训练得到。
其中,该内容交互方法还包括:
当待交互内容中包括时新内容时,执行基于交互请求,确定待交互内容的内容类型的步骤,其中,时新内容的出现时间在交互模型对应的训练语料的出现时间之后。
其中,时新内容是指当前时期最新的内容,例如时新内容可以是最近一个月内发生的内容。在本实施例中,时新内容的出现时间在交互模型对应的训练语料的出现时间之后。
在一些实施例中,在电子设备接收到交互请求以后,可以判定该交互请求中携带的待交互内容是否包含时新内容。
当待交互内容中包括时新内容时,执行基于交互请求,确定待交互内容的内容类型的步骤。
当待交互内容中不包括时新内容时,表明待交互内容与交互模型对应的训练语料之间不存在时间滞后的问题,因此可以将待交互内容直接输入至交互模型,并将交互模型输出的结果作为目标交互内容。
在本实施方式中,通过确定待交互内容中包括时新内容之后,才执行基于交互请求,确定待交互内容的内容类型的步骤,从而可以避免后续对不包含时新内容的待交互内容进行改写,提升了内容交互效率。
在一些实施方式中,该内容交互方法还可以包括:
获取预设搜索引擎对应的搜索榜单,搜索榜单包括多个热门搜索内容,其中,热门搜索内容为预设搜索引擎中搜索频率满足预设频率要求的内容。
其中,预设搜索引擎可以是内容实时更新的搜索引擎,具体地,该预设搜索引擎可以是网络上被大众广泛使用的搜索引擎,例如百度、谷歌等。
其中,由于网络上的搜索引擎通常会公布其搜索榜单,因此电子设备可以直接从网络上获取预设搜索引擎对应的搜索榜单,并获得搜索榜单中包含的多个热门搜索内容。
可选地,若预设搜索引擎没有公布其搜索榜单,则可以查询预设搜索引擎在最近的指定时间段内所记录的多个搜索内容以及每个搜索内容对应的搜索频率,并将搜索频率满足预设频率要求的内容,确定为热门搜索内容。其中,搜索内容为至少一个用户通过预设搜索引擎搜索的内容。作为一种示例,当一个内容的搜索频率大于或等于预设频率时,可以确定该搜索频率满足预设频率要求。作为另一种示例,对于多个搜索内容,可以按照搜索频率从大到小的次序,将该多个搜索内容进行排序,得到排序后的搜索内容,然后,将排序后的搜索内容中排序在前k个搜索内容的搜索频率确定为满足预设频率要求。其中,k为正整数。
将待交互内容与热门搜索内容进行匹配。
其中,将待交互内容与热门搜索内容进行匹配的方式可以是比较待交互内容与热门搜索内容之间的相似度,当相似度大于或等于相似度阈值时,可以确定待交互内容与热门搜索内容匹配成功。
当待交互内容与热门搜索内容匹配成功时,确定待交互内容中包括时新内容。
在另一些实施方式中,可以预先设置针对时新内容的索引集群,并判断待交互内容是否命中该索引集群,若待交互内容命中该索引集群,则可以确定待交互内容中包括时新内容。
在又一些实施方式中,可以通过预先训练的时新内容识别模型来判断待交互内容中是否包括时新内容,具体地,针对时新内容识别模型的训练集,可以将训练集中交互模型对应的训练语料标注为训练负样本,将除训练负样本以外的样本作为训练正样本,然后基于训练正样本和训练负样本训练得到时新内容识别模型,此后,通过将待交互内容输入至时新内容识别模型,通过时新内容识别模型来判断待交互内容中是否包括时新内容。
103、根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容。
其中,待搜索内容为适用于预设搜索引擎的识别格式的内容,也就是说,预设搜索引擎能够快速、准确地识别待搜索内容,并基于待搜索内容进行搜索。其中,适用于预设搜索引擎的识别格式的内容可以为短文本(Query),例如,用户通常在搜索引擎的搜索框中输入的一个或多个关键词就为短文本,譬如用户在搜索框中输入的“天气 北京”。
其中,在步骤103中,内容类型包括单意图内容和多意图内容,根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容的具体实施方式可以包括步骤A1至步骤A2:
A1、当内容类型为单意图内容时,对待交互内容的表述形式进行改写,得到至少一种改写后的待交互内容,并将改写后的待交互内容作为待搜索内容。
其中,表述形式可以是指针对内容的表述方式,表达方式可以包括疑问、陈述等等,其中,针对一个内容,可以通过不同的表述形式进行表述。作为一种示例,例如“肚子疼怎么办”与“肚子疼预防”可以看作是一种内容的不同表述形式。
其中,在步骤A1中,对待交互内容的表述形式进行改写,得到至少一种改写后的待交互内容的具体实施方式可以包括步骤A11至步骤A13:
A11、识别待交互内容对应的目标意图。
示例性地,可以通过预先训练好的意图识别模型来识别待交互内容对应的目标意图,该意图识别模型可以是基于预先标注了意图的交互内容样本训练得到,通过将待交互内容输入意图识别模型,可以得到意图识别模型输出的与待交互内容对应的目标意图。
例如,待交互内容为“pn6230是什么飞机”,其对应的目标意图实际上为:查询pn6230。
A12、从待交互内容中筛选出与目标意图对应的至少一个关键内容。
沿用上述示例,由于目标意图为:查询pn6230,因此pn6230可以作为目标意图对应的关键内容。
A13、将关键内容进行融合,得到至少一种改写后的待交互内容。
其中,当关键内容只有一个时,可以直接将该关键内容作为改写后的待交互内容,沿用上述示例,可以直接将“pn6230”作为改写后的待交互内容,即将“pn6230是什么飞机”进行改写后得到改写后的待交互内容为“pn6230”。
其中,当关键内容为多个时,可以多个关键内容进行融合,得到改写后的待交互内容,例如,多个关键内容包括关键内容A和关键内容B,可以将关键内容A和关键内容B进行融合后得到改写后得到改写后的待交互内容“关键内容A 关键内容B”。
考虑到预设搜索引擎适用于短文本进行搜索,在本实施方式中,通过从待交互内容中筛选出与目标意图对应的至少一个关键内容,并将关键内容进行融合,得到至少一种改写后的待交互内容,从而能够将原本为字符较长的适用于交互模型的待交互内容,改写为适用于预设搜索引擎的短文本,以便于预设搜索引擎进行搜索,提高了搜索效率,进而提高了内容交互的效率。
在一些实施方式中,在步骤A12之后,该内容交互方法还可以包括:
从预设内容库中筛选出与目标内容对应的替换内容,其中,目标内容为待交互内容中除关键内容以外的内容。
示例性地,以待交互内容为“明天天气会如何”为例,其中,通过上述关键内容的识别方式可以识别出该待交互内容中的关键内容为“明天天气”,那么“会如何”则可以作为对应该待交互内容的目标内容。然后,可以从预设内容库中筛选出与目标内容对应的替换内容,例如“预测”、“推测”等。其中,预设内容库中预先存储了多个预设内容以及多个预设内容之间的关联关系,当两个预设内容之间存在关联关系,表明这两个预设内容可以相互替换,即这两个预设内容中的一个预设内容可以作为另一个预设内容的替换内容。
将待交互内容中的目标内容替换为替换内容,得到改写后的待交互内容。
沿用上述示例,可以将待交互内容为“明天天气会如何”中的“会如何”替换为“预测”,从而得到改写后的待交互内容“明天天气预测”,或者,将“会如何”替换为“推测”,从而得到改写后的待交互内容“明天天气推测”。
考虑到同一种语义的待交互内容可能具有不同的表述方式,若是只针对一种表述方式的待交互内容进行搜索,将导致搜索结果单一,无法在后续为交互内容提供丰富的知识,在本实施方式中,通过从预设内容库中筛选出与目标内容对应的替换内容,目标内容为待交互内容中除关键内容以外的内容,并将待交互内容中的目标内容替换为替换内容,得到改写后的待交互内容,从而可以改写得到多种语义相同但表述不同的待交互内容,便于搜索引擎获得更丰富的搜索结果,也提升了后续交互模型的输出质量。
作为一种示例,如图3所示,以微信搜索为例,当在搜索框输入待交互内容“肚子疼怎么办”得到的搜索结果会比较单一,而经过本实施例的改写后,可以将“肚子疼怎么办”改写为“腹部不适怎么办”以及“肚子疼预防”,从而得到语义相似而表述不同的多种待搜索信息,因此借助改写来提高了召回结果的多样性。
在另一些实施方式中,在步骤A12之后,该内容交互方法还可以包括:
在待交互内容中筛选出限定关键内容的内容,得到条件内容。
示例性地,以待交互内容“有哪些胎生动物,是人气高、但大家以为是卵生动物的?”为例,其中,通过上述关键内容的识别方式可以识别出该待交互内容中的关键内容为“胎生动物”,其中,“人气高”、和“以为是卵生动物”是对“胎生动物”的限定,因此可以将“人气高”、和“以为是卵生动物”作为条件内容。
将关键内容与条件内容进行组合,得到改写后的交互内容。
沿用上述示例,将关键内容“胎生动物”与条件内容“人气高”、和“以为是卵生动物”进行组合,得到改写后的交互内容“胎生动物 被误认为是卵生动物 人气高”。
考虑到用于限定关键内容的条件内容,可以有效缩小搜索范围,在本实施方式中,通过在待交互内容中筛选出限定关键内容的内容,得到条件内容,并将关键内容与条件内容进行组合,得到改写后的交互内容,从而可以提升预设搜索引擎对改写后的交互内容的搜索效率和搜索准确性。
A2、当内容类型为多意图内容时,识别出待交互内容中每个意图对应的子内容,并将子内容确定为待搜索内容。
示例性地,以待交互内容“什么是数字证书?简述数字签名的产生步骤”为例,其中,通过上述意图识别模型可以识别出“什么是数字证书?”对应一个意图,“简述数字签名的产生步骤”对应另一个意图,因此,可以将“什么是数字证书?”和“简述数字签名的产生步骤”分别作为两个子内容,并将这两个子内容分别确定为待搜索内容,例如根据该待交互内容改写得到的待搜索内容为“什么是数字证书&&简述数字签名的产生步骤”,以便于预设搜索引擎能够识别并进行搜索。可以理解的是,将“什么是数字证书&&简述数字签名的产生步骤”输入至预设搜索引擎中,预设搜索引擎可以分别对“什么是数字证书”和“简述数字签名的产生步骤”进行搜索。
在一些实施例中,内容类型包括对比内容,在步骤103中,根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容的具体实施方式还可以包括:
当待交互内容为对比内容时,识别出待交互内容中的多个对比对象对应的对象内容。
示例性地,以待交互内容为文本“薰衣草纯露和薰衣草花水哪个好?”为例,当待交互内容为对比内容时,可以识别出待交互内容“薰衣草纯露和薰衣草花水哪个好?”中的对比对象:薰衣草纯露,以及对比对象:薰衣草花水。其中,薰衣草纯露对应的对象内容为文本“薰衣草纯露”。薰衣草花水对应的对象内容为文本“薰衣草花水”。
将对象内容填充至预设比对模板中,得到对比子内容。
其中,预设比对模板为预先设置的文本模板,在该文本模板中包括未填充部分,该未填充部分用于填入对象内容。预设对比模板的数量可以为多个,不同的预设对比模板中需要填充的对象内容的数量可以不同。沿用上述示例,例如预设比对模板为文本“XXA和XXB比较”其中,XXA和XXB为预设比对模板中待填充的部分,用于填充对象内容。将对象内容“薰衣草纯露”和“薰衣草花水”分别填入XXA和XXB,可以得到对比子内容“薰衣草纯露和薰衣草花水比较”。
将对比子内容和对象内容分别作为待搜索内容。
沿用上述示例,可以将对比子内容(如“薰衣草纯露和薰衣草花水比较”)和对象内容(如“薰衣草纯露”和“薰衣草花水”)分别作为待搜索内容。例如根据该待交互内容改写得到的待搜索内容为“薰衣草纯露和薰衣草花水比较&&薰衣草纯露&&薰衣草花水”。可以理解的是,将“薰衣草纯露和薰衣草花水比较&&薰衣草纯露&&薰衣草花水”输入至预设搜索引擎中,预设搜索引擎可以分别对“薰衣草花水”、“薰衣草纯露”和“薰衣草纯露和薰衣草花水比较”进行搜索,从而能够提升预设搜索引擎的搜索效率和搜索准确性。
104、通过预设搜索引擎搜索出待搜索内容对应的至少一个搜索内容。
其中,搜索内容为预设搜索引擎针对待搜索内容搜索出的内容,例如,搜索内容可以是关于待搜索内容的文章、百科知识等。
105、基于搜索内容,采用交互模型生成待交互内容对应的目标交互内容。
其中,在步骤105中,基于搜索内容,采用交互模型生成待交互内容对应的目标交互内容的具体实施方式可以包括步骤B1至步骤B4:
B1、获取每个搜索内容对应的相似度,相似度为搜索内容与其对应的待搜索内容之间的相似度。
其中,针对每个待搜索内容,可以将通过预设搜索引擎对该待搜索内容搜索出的至少一个搜索内容,作为该待搜索内容对应的搜索内容。然后,针对每个搜索内容,将该搜索内容与其对应的待搜索内容进行相似度计算,得到该搜索内容对应的相似度。其中,上述相似度计算方式具体可以采用常用几种的相似度计算方式(例如采用欧氏距离计算方式),在此不做限定。此后,可以建立多个待搜索内容与多个搜索内容、以及多个相似度之间的映射关系,以便快速查询每个搜索内容对应的相似度,示例性地,例如,该映射关系可以如表1所示:
表1
其中,表1示出了多个待搜索内容、多个搜索内容、以及多个相似度之间的映射关系。
B2、根据相似度,从至少一个搜索内容中筛选出目标搜索内容。
其中,在步骤B2中,根据相似度,从至少一个搜索内容中筛选出目标搜索内容的具体实施方式可以包括:
B21、针对每个待搜索内容,按照相似度从大到小的次序,对待搜索内容对应的至少一个搜索内容进行排列,得到排列后的搜索内容。
沿用上述示例,以表1为例,如果d1>d3>d2,那么针对短文本a,可以得到排列后的搜索内容:文章a1、文章a3、文章a2。又例如,如果d4>d5,那么针对短文本b,可以得到排列后的搜索内容:文章b1、文章b2。再例如,如果d6>d7,那么针对短文本c,可以得到排列后的搜索内容:文章c1、文章c2。
B22、从排列后的搜索内容筛选出前N个搜索内容作为初始搜索内容,其中,N为正整数。
沿用上述示例,例如,N为2,那么针对短文本a,可以筛选出文章a1、文章a3作为初始搜索内容。针对短文本b,可以筛选出文章b1、文章b2作为初始搜索内容。针对短文本c,可以筛选出文章c1、文章c2作为初始搜索内容。
B23、从初始搜索内容中筛选出目标搜索内容。
在一些实施方式中,在步骤B23中,从初始搜索内容中筛选出目标搜索内容的具体实施方式可以包括:
针对每个待搜索内容对应的至少一个初始搜索内容,筛选出至少一个初始搜索内容中相似度最大的初始搜索内容,作为目标搜索内容。
沿用上述示例,可以针对短文本a,可以将文章a1作为目标搜索内容。针对短文本b,可以将文章b1作为目标搜索内容。针对短文本c,可以将文章c1作为目标搜索内容。
在另一些实施方式中,在步骤B23中,从初始搜索内容中筛选出目标搜索内容的具体实施方式可以包括:
基于初始搜索内容对应的相似度和待搜索内容,对筛选出来的所有初始搜索内容进行重排序,得到重排序后的初始搜索内容。然后再从重排序后的初始搜索内容中筛选出排序在前M的初始搜索内容,作为目标搜索内容。其中,M为正整数。
作为一种方式,重排序的具体实施方式可以包括:将每个待搜索内容对应的至少一个初始搜索内容作为初始搜索内容集合,再将初始搜索内容集合中当前相似度最大的一个初始搜索内容筛选出来进行排列,在当前筛选出来的初始搜索内容排列完成后,得到第一排列结果,并当前筛选出来的初始搜索内容从初始搜索内容集合中删除,得到新的初始搜索内容集合。然后,将新的初始搜索内容集合中当前相似度最大的一个初始搜索内容筛选出来进行排列,在当前筛选出来的初始搜索内容排列完成后,得到第二排列结果,将第二排列结果排列在第一排列结果之后,并当前筛选出来的初始搜索内容从初始搜索内容集合中删除,以此类推,直到所有的初始搜索内容都排列完成。
沿用上述示例,在第一次排列时,可以将文章a1、文章b1、文章c1筛选出来,并排列得到第一排列结果(如文章a1、文章b1、文章c1),在第二次排列时,可以将文章a2、文章b2、文章c2筛选出来,并排列得到第二排列结果(如文章a2、文章b2、文章c2),然后,将第二排列结果排列在第一排列结果之后,可以得到重排序后的初始搜索内容:文章a1、文章b1、文章c1、文章a2、文章b2、文章c2。如果M为5,那么可以将文章a1、文章b1、文章c1、文章a2、文章b2,作为目标搜索内容。
在又一些实施方式中,在步骤B23中,从初始搜索内容中筛选出目标搜索内容的具体实施方式可以包括:
可以将每个待搜索内容对应的初始搜索内容进行比对,以确定是否有重复的初始搜索内容,若有,则可以将重复的初始搜索内容作为目标搜索内容。沿用上述示例,例如,将短文本a对应的文章与短文本B对应的文章进行比对时,确定文章a1和文章b1重复,二者为相同的文章,此时可以将文章a1或文章b1,确定为目标搜索内容。可选地,还可以将不同的待搜索内容对应的初始搜索内容分别进行相似度比对,将相似度大于或等于指定相似度的两个初始搜索内容都作为目标搜索内容。例如,文章a1和文章b1之间的相似度大于指定相似度,则可以将文章a1和文章b1均作为目标搜索内容。
B3、从目标搜索内容中提取出与待交互内容对应的知识信息。
其中,知识信息可以是对目标搜索内容进行总结而得到的信息。其中,提取知识信息的方法可以包括但不限于摘要提取方法等。
其中,摘要提取是指从一篇文档中提取出关键信息,并将其以简洁、准确的方式呈现出来。以下是几种常见的摘要提取方法:
基于统计特征的方法:这种方法基于统计学原理,通过计算词频、句子长度等特征来确定哪些句子或词语最具代表性,然后将其组合形成摘要。
基于图模型的方法:这种方法将文档表示为图结构,将句子作为节点,使用图算法(如PageRank)来确定最重要的节点,然后将相关节点的句子作为摘要。
基于机器学习的方法:这种方法使用机器学习算法,如分类器或回归模型,通过训练数据学习如何从文档中提取关键信息,并生成摘要。
基于深度学习的方法:这种方法使用深度神经网络模型,如循环神经网络(RNN)或变换器(Transformer),通过学习输入文本的上下文信息来生成准确的摘要。
其中,对于简单的任务,可以尝试基于统计特征的方法;对于更复杂的任务,可以考虑使用机器学习或深度学习方法。此外,还可以结合多种方法,利用它们各自的优点来提高摘要质量。
B4、基于知识信息,采用交互模型生成待交互内容对应的目标交互内容。
在一些实施方式中,基于知识信息,采用交互模型生成待交互内容对应的目标交互内容,包括:
将知识信息与待交互内容进行融合,得到融合内容;并基于融合内容,采用交互模型生成目标交互内容。
其中,融合内容可以是将知识信息与待交互内容进行拼接得到的内容,例如,融合内容可以为“知识信息+待交互内容”。
在得到融合内容之后,可以将融合内容输入至交互模型中,便可以获得交互模型输出的目标交互内容。
可见,在本实施例中,通过接收针对交互模型的交互请求,交互请求携带待交互内容;再基于交互请求,确定待交互内容的内容类型;并根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容,由于不同类型的交互内容采用的改写方式不同,所以根据内容类型对交互内容进行改写,能够准确地将适用于交互模型的格式的交互内容改写为适用于预设搜索引擎的格式的至少一个待搜索内容,且改写出的待搜索内容更为丰富、多样,再通过预设搜索引擎搜索出待搜索内容对应的至少一个搜索内容,由于预设搜索引擎中的内容往往是实时更新的,所以采用预设搜索引擎对待搜索内容进行搜索而得到的搜索内容是没有时间滞后的,最后基于搜索内容,采用交互模型生成待交互内容对应的目标交互内容,从而能够将时新的搜索内容补充到交互模型,丰富交互模型的知识,以便于交互模型能够针对待交互内容输出更为准确的目标交互内容,可以有效提升内容交互的体验感。
实施例二
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以服务器为例,对本申请实施例的方法进行详细说明。
如图4所示,一种内容交互方法具体流程如下:
201、服务器接收针对交互模型的交互请求,交互请求携带待交互内容。
其中,在本实施例中,以待交互内容为提示文本(Prompt),交互模型为大语言模型进行说明。
202、服务器在待交互内容中包括时新内容的情况下,基于交互请求,确定待交互内容的内容类型。
其中,时新内容的出现时间在交互模型对应的训练语料的出现时间之后。
其中,该方法还包括:
获取预设搜索引擎对应的搜索榜单,搜索榜单包括多个热门搜索内容,其中,热门搜索内容为预设搜索引擎中搜索频率满足预设频率要求的内容。
将待交互内容与热门搜索内容进行匹配。
当待交互内容与热门搜索内容匹配成功时,确定待交互内容中包括时新内容。
203、服务器根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容。
其中,在本实施例中,以待搜索内容为短文本(Query)进行说明。
其中,内容类型包括单意图内容和多意图内容,根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容,包括:
当内容类型为单意图内容时,对待交互内容的表述形式进行改写,得到至少一种改写后的待交互内容,并将改写后的待交互内容作为待搜索内容。
当内容类型为多意图内容时,识别出待交互内容中每个意图对应的子内容,并将子内容确定为待搜索内容。
其中,对待交互内容的表述形式进行改写,得到至少一种改写后的待交互内容,包括:
识别待交互内容对应的目标意图。
从待交互内容中筛选出与目标意图对应的至少一个关键内容。
将关键内容进行融合,得到至少一种改写后的待交互内容。
其中,从待交互内容中筛选出与目标意图对应的至少一个关键内容之后,还包括:
从预设内容库中筛选出与目标内容对应的替换内容,目标内容为待交互内容中除关键内容以外的内容。
将待交互内容中的目标内容替换为替换内容,得到改写后的待交互内容。
其中,从待交互内容中筛选出与目标意图对应的至少一个关键内容之后,还包括:
在待交互内容中筛选出限定关键内容的内容,得到条件内容。
将关键内容与条件内容进行组合,得到改写后的交互内容。
其中,内容类型包括对比内容,根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容,包括:
当待交互内容为对比内容时,识别出待交互内容中的多个对比对象对应的对象内容。
将对象内容填充至预设比对模板中,得到对比子内容。
将对比子内容和对象内容分别作为待搜索内容。
示例性地,在对于Prompt进行改写时,可以先将Prompt归纳为三种问题关系类型,分别是普通、并列、递进,针对不同关系类型采用不同的Prompt改写方法。其中,问题关系类型的定义可以如下:
普通问题:单一需求类的问题描述,比如:
例1:pn6230是什么飞机
例2:附近最近的充电桩多少公里
例3:洞察的意思是什么
递进问题:多种需求类的问题描述,后面的问题一般基于前面的问题进行补充提问,比如:
例1:什么是数字证书?简述数字签名的产生步骤
例2:雪化得快的那边是南方还是北方?这是为什么?
例3:想知道:平南 官成街民政局在哪呀 从三中去要怎么走
并列问题:问题属于分析对比类,比如:
例1:薰衣草纯露和薰衣草花水哪个好?
例2:去A国留学 是X大学好呢,还是Y大学好呢?
例3:学籍号和身份证号码是一样的吗?
其中,按问题关系分类进行改写规则定义如下:
普通问题:改写Query组一般是独立Query,部分情况是组合Query。
递进问题:改写Query组一般是组合Query,即由多个子Query组成。
并列问题:改写Query组一般是组合Query,即由多个子Query组成。
作为一种示例,对于不同问题关系类型的改写示例可以如表2所示:
表2
在一些实施方式中,服务器可以通过预先训练Prompt改写模型来实现对待交互内容的改写。
示例性地,在训练Prompt改写模型时,采用的模型结构可以是基于预训练的GPT进行SFT,GPT使用Transformer解码器模块构建,其中,Transformer解码器只能看到当前字符前面的内容,其后面的内容在计算时被Mask掉。GPT采用自回归语言模型训练,目标是通过当前token(标志)及其之前token来预测下一个token。
其中,Transformer相比于RNN和LSTM能够更高效地捕捉序列数据的长距离依赖关系;Transformer解码器可以由多个自注意力(Masked Self-attention)层和位置前馈神经网络(Position-wise Feed-forward Neural Networks)组成,并通过残差连接(ResidualConnections)和层归一化(Layer Normalization)堆叠在一起。
其中,自注意力机制(Self-Attention)的作用是通过自注意力机制来捕捉序列中的上下文相关信息,自注意力的计算涉及到三个权重矩阵(查询矩阵Q、键矩阵K和值矩阵V),并通过点积、缩放、Softmax(归一化指数函数)激活和加权求和计算最后的注意力权重。其中,Masked Self-attention的作用是在自注意力机制中使用Mask来遮蔽当前token之后的信息,保证预测仅基于之前的token信息。其中,Layer Normalization的作用是为了加速模型收敛,在每一层输出之后采用层归一化对其进行规范化,减轻网络中的梯度消失/爆炸问题。
可选地,在本实施例中Transformer解码器的参数设置如下:
MODEL_SIZE=7B
NUM_LAYERS=32
HIDDEN_SIZE=4096
NUM_ATTN_HEADS=32
FFN_HIDDEN_SIZE=16384
ATTN_HEAD_SIZE=128
示例性地,对于Prompt改写模型的训练数据,可以采用人工精标注得到的数据样本,具体地,每个数据样本可以通过预设改写模板改写得到,例如,将(Prompt, Prompt改写)通过预设改写模板拼接得到训练数据中的每一条数据样本。数据样本包括Prompt和该Prompt对应的Prompt改写,且二者都具有相应的标志。其中,当Prompt改写(改写Query组)包含多个子Query时,多个子Query之间可以用&&拼接。其中,预设改写模板以及通过改写模板得到的改写示例可以如表3所示:
表3
可见,通过对预设改写模板中的{Prompt}和{Prompt改写}进行数据更变,每更变一次即可得到一个新的数据样本,从而可以得到丰富的数据样本。
示例性地,对于Prompt改写模型的损失函数,可以使SFT阶段的损失函数跟预训练阶段保持一致,使用语言模型最小化极大似然函数,形式如下:
其中,u表示无监督语料(对应上述训练数据),P表示使用前k个token去预测第i个token的概率,k表示窗口大小,L 1 (u)表示损失函数的损失值,表示Prompt改写模型的模型参数。
其中,训练好的Prompt改写模型能够根据输入的{Prompt},输出改写结果:{Prompt改写},其中,{Prompt改写}可以包括一个或多个Query,Query对应上述待搜索内容,适用于预设搜索引擎进行搜索。
204、服务器通过预设搜索引擎搜索出待搜索内容对应的至少一个搜索内容。
205、服务器获取每个搜索内容对应的相似度,相似度为搜索内容与其对应的待搜索内容之间的相似度。
206、服务器根据相似度,从至少一个搜索内容中筛选出目标搜索内容。
其中,根据相似度,从至少一个搜索内容中筛选出候选搜索内容,包括:
针对每个待搜索内容,按照相似度从大到小的次序,对待搜索内容对应的至少一个搜索内容进行排列,得到排列后的搜索内容。
从排列后的搜索内容筛选出前N个搜索内容作为初始搜索内容,其中,N为正整数。
从初始搜索内容中筛选出目标搜索内容。
其中,从初始搜索内容中筛选出目标搜索内容,包括:
针对每个待搜索内容对应的至少一个初始搜索内容,筛选出至少一个初始搜索内容中相似度最大的初始搜索内容,作为目标搜索内容。
其中,基于知识信息,采用交互模型生成待交互内容对应的目标交互内容,包括:
将知识信息与待交互内容进行融合,得到融合内容。
基于融合内容,采用交互模型生成目标交互内容。
207、服务器从目标搜索内容中提取出与待交互内容对应的知识信息。
示例性地,请出参阅图5,图5示出了从待搜索内容(如图5中的Prompt改写)提取出知识信息的流程示意图。首先,如果Prompt改写包括多个Query的话,可以将每个Query输入到预设搜索引擎中,得到每个Query对应的TopN文章(对应上述实施例中排序后的搜索内容),然后将每个Query对应的TopN文章进行重排序,可以得到重排序结果(对应上述实施例中重排序后的初始搜索内容),最后,可以从重排序结果中提取出知识信息。
208、服务器基于知识信息,采用交互模型生成待交互内容对应的目标交互内容。
示例性地,在本实施例中,关于内容交互方法的具体实施流程可以如图6所示,用户输入一个Prompt,正常情况下是直接走大语言模型路径,输出答案,即不经过搜索增强路径直接将Prompt输入至大语言模型。当Prompt属包含时新内容时,即属于时新相关类型(或者其他垂直领域相关的,这里不做限制)时,此时走搜索增强路径,即对Prompt进行改写,并通过预设搜索引擎对改写后的Prompt进行搜索得到搜索结果,并从搜索结果中提取出知识信息的过程。通过搜索引擎获取该Prompt相关的资讯或者知识,再将“Prompt+搜索增强获取的资讯或者知识”输入大语言模型路径,丰富大语言模型的输入知识,由此提高大语言模型回答的精准度和满意度。其中,可以理解得是,搜索增强路径对应上述实施例中步骤202至步骤207。
示例性地,在实际应用中,利用本实施例的内容交互方法来使用大语言模型后,经过GSB评测,可以得到如下评测结果:
大语言模型端到端回答质量GSB评测:1:0:-1=14:32:4。其中,“1:0:-1”中的1表示采用本实施例的方法得到的模型回答质量胜过现有模型回答质量,0表示打平,-1表示落败。可见,采用本实施例的方法得到的模型回答质量胜过现有模型回答质量的次数(14),远大于采用本实施例的方法得到的模型回答质量落败现有模型回答质量的次数(4)。
召回文章质量GSB评测:1:0:-1=13:33:4。可见,采用本实施例的方法得到的召回文章质量胜过现有召回文章质量的次数(13),远大于采用本实施例的方法得到的召回文章质量落败现有召回文章质量的次数(4)。
综上,本实施例提供的内容交互方法,能够有效提升内容交互的质量。
实施例三
为了更好地实施以上方法,本申请实施例还提供一种内容交互装置,该内容交互装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以内容交互装置具体集成在内容交互为例,对本申请实施例的方法进行详细说明。
例如,如图7所示,该内容交互装置可以包括:
接收单元301,用于接收针对交互模型的交互请求,交互请求携带待交互内容。
类型确定单元302,用于基于交互请求,确定待交互内容的内容类型。
改写单元303,用于根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容。
搜索单元304,用于通过预设搜索引擎搜索出待搜索内容对应的至少一个搜索内容。
交互单元305,用于基于搜索内容,采用交互模型生成待交互内容对应的目标交互内容。
在一些实施例中,内容类型包括单意图内容和多意图内容,改写单元303,包括:
第一改写子单元,用于当内容类型为单意图内容时,对待交互内容的表述形式进行改写,得到至少一种改写后的待交互内容,并将改写后的待交互内容作为待搜索内容。
第二改写子单元,用于当内容类型为多意图内容时,识别出待交互内容中每个意图对应的子内容,并将子内容确定为待搜索内容。
在一些实施例中,第一改写子单元,具体用于识别待交互内容对应的目标意图;从待交互内容中筛选出与目标意图对应的至少一个关键内容;将关键内容进行融合,得到至少一种改写后的待交互内容。
在一些实施例中,第一改写子单元,还具体用于从预设内容库中筛选出与目标内容对应的替换内容,目标内容为待交互内容中除关键内容以外的内容;将待交互内容中的目标内容替换为替换内容,得到改写后的待交互内容。
在一些实施例中,第一改写子单元,还具体用于在待交互内容中筛选出限定关键内容的内容,得到条件内容;将关键内容与条件内容进行组合,得到改写后的交互内容。
在一些实施例中,内容类型包括对比内容,改写单元303还包括:
第三改写子单元,用于当待交互内容为对比内容时,识别出待交互内容中的多个对比对象对应的对象内容;将对象内容填充至预设比对模板中,得到对比子内容;将对比子内容和对象内容分别作为待搜索内容。
第三改写子单元,内容交互装置还包括:
执行单元,用于当待交互内容中包括时新内容时,执行基于交互请求,确定待交互内容的内容类型的步骤,其中,时新内容的出现时间在交互模型对应的训练语料的出现时间之后。
在一些实施例中,执行单元,具体用于获取预设搜索引擎对应的搜索榜单,搜索榜单包括多个热门搜索内容,其中,热门搜索内容为预设搜索引擎中搜索频率满足预设频率要求的内容;将待交互内容与热门搜索内容进行匹配;当待交互内容与热门搜索内容匹配成功时,确定待交互内容中包括时新内容。
在一些实施例中,交互单元305,包括:
相似度获取子单元,用于获取每个搜索内容对应的相似度,相似度为搜索内容与其对应的待搜索内容之间的相似度。
筛选子单元,用于根据相似度,从至少一个搜索内容中筛选出目标搜索内容。
提取子单元,用于从目标搜索内容中提取出与待交互内容对应的知识信息。
交互子单元,用于基于知识信息,采用交互模型生成待交互内容对应的目标交互内容。
在一些实施例中,筛选子单元,具体用于针对每个待搜索内容,按照相似度从大到小的次序,对待搜索内容对应的至少一个搜索内容进行排列,得到排列后的搜索内容;从排列后的搜索内容筛选出前N个搜索内容作为初始搜索内容,其中,N为正整数;从初始搜索内容中筛选出目标搜索内容。
在一些实施例中,筛选子单元,具体还用于针对每个待搜索内容对应的至少一个初始搜索内容,筛选出至少一个初始搜索内容中相似度最大的初始搜索内容,作为目标搜索内容。
在一些实施例中,交互子单元,具体用于将知识信息与待交互内容进行融合,得到融合内容;基于融合内容,采用交互模型生成目标交互内容。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
实施例四
本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该内容交互装置还可以集成在多个电子设备中,比如,内容交互装置可以集成在多个服务器中,由多个服务器来实现本申请的内容交互方法。
在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图8所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图8中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体检测。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该电子设备还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,电子设备可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
接收针对交互模型的交互请求,交互请求携带待交互内容。
基于交互请求,确定待交互内容的内容类型。
根据内容类型对交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容。
通过预设搜索引擎搜索出待搜索内容对应的至少一个搜索内容。
基于搜索内容,采用交互模型生成待交互内容对应的目标交互内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种内容交互方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中提供的内容交互方面。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种内容交互方法中的步骤,因此,可以实现本申请实施例所提供的任一种内容交互方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种内容交互方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种内容交互方法,其特征在于,包括:
接收针对交互模型的交互请求,所述交互请求携带待交互内容;
基于所述交互请求,确定所述待交互内容的内容类型;
根据所述内容类型对所述交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容;
通过所述预设搜索引擎搜索出所述待搜索内容对应的至少一个搜索内容;
基于所述搜索内容,采用所述交互模型生成所述待交互内容对应的目标交互内容。
2.根据权利要求1所述的内容交互方法,其特征在于,所述内容类型包括单意图内容和多意图内容,所述根据所述内容类型对所述交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容,包括:
当所述内容类型为所述单意图内容时,对所述待交互内容的表述形式进行改写,得到至少一种改写后的待交互内容,并将所述改写后的待交互内容作为所述待搜索内容;
当所述内容类型为所述多意图内容时,识别出所述待交互内容中每个意图对应的子内容,并将所述子内容确定为所述待搜索内容。
3.根据权利要求2所述的内容交互方法,其特征在于,所述对所述待交互内容的表述形式进行改写,得到至少一种改写后的待交互内容,包括:
识别所述待交互内容对应的目标意图;
从所述待交互内容中筛选出与所述目标意图对应的至少一个关键内容;
将所述关键内容进行融合,得到至少一种改写后的待交互内容。
4.根据权利要求3所述的内容交互方法,其特征在于,所述从所述待交互内容中筛选出与所述目标意图对应的至少一个关键内容之后,还包括:
从预设内容库中筛选出与目标内容对应的替换内容,所述目标内容为所述待交互内容中除所述关键内容以外的内容;
将所述待交互内容中的目标内容替换为所述替换内容,得到所述改写后的待交互内容。
5.根据权利要求3所述的内容交互方法,其特征在于,所述从所述待交互内容中筛选出与所述目标意图对应的至少一个关键内容之后,还包括:
在所述待交互内容中筛选出限定所述关键内容的内容,得到条件内容;
将所述关键内容与所述条件内容进行组合,得到所述改写后的交互内容。
6.根据权利要求1所述的内容交互方法,其特征在于,所述内容类型包括对比内容,所述根据所述内容类型对所述交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容,包括:
当所述待交互内容为对比内容时,识别出所述待交互内容中的多个对比对象对应的对象内容;
将所述对象内容填充至预设比对模板中,得到对比子内容;
将所述对比子内容和所述对象内容分别作为所述待搜索内容。
7.根据权利要求1所述的内容交互方法,其特征在于,所述方法还包括:
当所述待交互内容中包括时新内容时,执行所述基于所述交互请求,确定所述待交互内容的内容类型的步骤,其中,所述时新内容的出现时间在所述交互模型对应的训练语料的出现时间之后。
8.根据权利要求7所述的内容交互方法,其特征在于,所述方法还包括:
获取所述预设搜索引擎对应的搜索榜单,所述搜索榜单包括多个热门搜索内容,其中,所述热门搜索内容为所述预设搜索引擎中搜索频率满足预设频率要求的内容;
将所述待交互内容与所述热门搜索内容进行匹配;
当所述待交互内容与所述热门搜索内容匹配成功时,确定所述待交互内容中包括时新内容。
9.根据权利要求1至8中任一项所述的内容交互方法,其特征在于,所述基于所述搜索内容,采用所述交互模型生成所述待交互内容对应的目标交互内容,包括:
获取每个搜索内容对应的相似度,所述相似度为所述搜索内容与其对应的待搜索内容之间的相似度;
根据所述相似度,从所述至少一个搜索内容中筛选出目标搜索内容;
从所述目标搜索内容中提取出与所述待交互内容对应的知识信息;
基于所述知识信息,采用所述交互模型生成所述待交互内容对应的目标交互内容。
10.根据权利要求9所述的内容交互方法,其特征在于,所述根据所述相似度,从所述至少一个搜索内容中筛选出候选搜索内容,包括:
针对每个待搜索内容,按照相似度从大到小的次序,对所述待搜索内容对应的至少一个搜索内容进行排列,得到排列后的搜索内容;
从所述排列后的搜索内容筛选出前N个搜索内容作为初始搜索内容,其中,N为正整数;
从所述初始搜索内容中筛选出所述目标搜索内容。
11.根据权利要求10所述的内容交互方法,其特征在于,所述从所述初始搜索内容中筛选出所述目标搜索内容,包括:
针对每个待搜索内容对应的至少一个初始搜索内容,筛选出所述至少一个初始搜索内容中相似度最大的初始搜索内容,作为所述目标搜索内容。
12.根据权利要求9所述的内容交互方法,其特征在于,所述基于所述知识信息,采用所述交互模型生成所述待交互内容对应的目标交互内容,包括:
将所述知识信息与所述待交互内容进行融合,得到融合内容;
基于所述融合内容,采用所述交互模型生成所述目标交互内容。
13.一种内容交互装置,其特征在于,包括:
接收单元,用于接收针对交互模型的交互请求,所述交互请求携带待交互内容;
类型确定单元,用于基于所述交互请求,确定所述待交互内容的内容类型;
改写单元,用于根据所述内容类型对所述交互内容进行改写,得到预设搜索引擎对应的至少一个待搜索内容;
搜索单元,用于通过所述预设搜索引擎搜索出所述待搜索内容对应的至少一个搜索内容;
交互单元,用于基于所述搜索内容,采用所述交互模型生成所述待交互内容对应的目标交互内容。
14.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~12任一项所述的内容交互方法中的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~12任一项所述的内容交互方法中的步骤。
CN202311054038.2A 2023-08-21 2023-08-21 内容交互方法、装置、电子设备和存储介质 Active CN116821307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311054038.2A CN116821307B (zh) 2023-08-21 2023-08-21 内容交互方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311054038.2A CN116821307B (zh) 2023-08-21 2023-08-21 内容交互方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN116821307A true CN116821307A (zh) 2023-09-29
CN116821307B CN116821307B (zh) 2023-11-28

Family

ID=88127720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311054038.2A Active CN116821307B (zh) 2023-08-21 2023-08-21 内容交互方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116821307B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114112A (zh) * 2023-10-16 2023-11-24 北京英视睿达科技股份有限公司 基于大模型的垂直领域数据整合方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311036A1 (en) * 2018-04-10 2019-10-10 Verizon Patent And Licensing Inc. System and method for chatbot conversation construction and management
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与系统
CN112015852A (zh) * 2019-05-31 2020-12-01 微软技术许可有限责任公司 在关于事件的会话中提供响应
US11283691B1 (en) * 2020-10-21 2022-03-22 Juniper Networks, Inc. Model driven intent policy conflict detection and resolution through graph analysis
CN114969326A (zh) * 2022-04-22 2022-08-30 北京百度网讯科技有限公司 分类模型训练、语义分类方法、装置、设备和介质
CN116521841A (zh) * 2023-04-18 2023-08-01 百度在线网络技术(北京)有限公司 用于生成回复信息的方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311036A1 (en) * 2018-04-10 2019-10-10 Verizon Patent And Licensing Inc. System and method for chatbot conversation construction and management
CN112015852A (zh) * 2019-05-31 2020-12-01 微软技术许可有限责任公司 在关于事件的会话中提供响应
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与系统
US11283691B1 (en) * 2020-10-21 2022-03-22 Juniper Networks, Inc. Model driven intent policy conflict detection and resolution through graph analysis
CN114969326A (zh) * 2022-04-22 2022-08-30 北京百度网讯科技有限公司 分类模型训练、语义分类方法、装置、设备和介质
CN116521841A (zh) * 2023-04-18 2023-08-01 百度在线网络技术(北京)有限公司 用于生成回复信息的方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114112A (zh) * 2023-10-16 2023-11-24 北京英视睿达科技股份有限公司 基于大模型的垂直领域数据整合方法、装置、设备及介质
CN117114112B (zh) * 2023-10-16 2024-03-19 北京英视睿达科技股份有限公司 基于大模型的垂直领域数据整合方法、装置、设备及介质

Also Published As

Publication number Publication date
CN116821307B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
WO2021047286A1 (zh) 文本处理模型的训练方法、文本处理方法及装置
WO2020228376A1 (zh) 文本处理方法、模型训练方法和装置
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
WO2022253074A1 (zh) 一种数据处理方法及相关设备
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN116821307B (zh) 内容交互方法、装置、电子设备和存储介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN111563158A (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
WO2020192523A1 (zh) 译文质量检测方法、装置、机器翻译系统和存储介质
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
Zhen et al. The research of convolutional neural network based on integrated classification in question classification
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN116578729B (zh) 内容搜索方法、装置、电子设备、存储介质和程序产品
WO2021129411A1 (zh) 文本处理方法及装置
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113761887A (zh) 基于文本处理的匹配方法、装置、计算机设备和存储介质
Andriyanov Combining Text and Image Analysis Methods for Solving Multimodal Classification Problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40091951

Country of ref document: HK