CN116340467B - 文本处理方法、装置、电子设备、及计算机可读存储介质 - Google Patents
文本处理方法、装置、电子设备、及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116340467B CN116340467B CN202310525850.2A CN202310525850A CN116340467B CN 116340467 B CN116340467 B CN 116340467B CN 202310525850 A CN202310525850 A CN 202310525850A CN 116340467 B CN116340467 B CN 116340467B
- Authority
- CN
- China
- Prior art keywords
- text
- answer
- segment
- query
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 53
- 238000003672 processing method Methods 0.000 title claims abstract description 35
- 239000012634 fragment Substances 0.000 claims abstract description 206
- 238000000034 method Methods 0.000 claims abstract description 70
- 239000013598 vector Substances 0.000 claims description 202
- 230000008569 process Effects 0.000 claims description 29
- 239000003550 marker Substances 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 239000000758 substrate Substances 0.000 claims 2
- 230000000875 corresponding effect Effects 0.000 description 111
- 230000006870 function Effects 0.000 description 23
- 239000012925 reference material Substances 0.000 description 17
- 238000012216 screening Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000001914 filtration Methods 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 11
- 230000004913 activation Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本处理方法、装置、电子设备及计算机可读存储介质;方法包括:获取查询文本;基于查询文本调用搜索引擎接口,以获取与查询文本对应的多个文本搜索结果;从多个文本搜索结果中获取与查询文本匹配的多个答案文本片段;确定查询文本分别与多个答案文本片段的相关度,将最大值的相关度对应的答案文本片段,作为查询文本的参考文本;基于查询文本和参考文本调用第一语言模型,以获取查询文本的回答文本。通过本申请,能够提高语言模型所生成文本的时效性。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。
背景技术
相关技术中,大语言模型通常用于学习和理解自然语言,然后在下游任务中基于给定的上下文自动生成对应的文本。一般而言,大语言模型通常基于变换器(Transformer)架构之上,模型参数量巨大且部署和训练都较为困难。而大语言模型没有信息获取和自我更新能力,在模型更新频率较低的情况下,只能在固定已有的自然语言范畴上进行文本生成,生成内容具有局限性且可控性较低。由于大语言模型无法及时地融入并学习新的自然语言,会使得生成文本与给定文本之间可能产生信息脱节,导致所述生成的文本内容时效性差。
发明内容
本申请实施例提供一种文本处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高语言模型所生成文本的时效性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文本处理方法,所述方法包括:
获取查询文本;
基于所述查询文本调用搜索引擎接口,以获取与所述查询文本对应的多个文本搜索结果;
从所述多个文本搜索结果中获取与所述查询文本匹配的多个答案文本片段;
确定所述查询文本分别与所述多个答案文本片段的相关度,将最大值的所述相关度对应的所述答案文本片段,作为所述查询文本的参考文本;
基于所述查询文本和所述参考文本调用第一语言模型,以获取所述查询文本的回答文本。
本申请实施例提供一种文本处理装置,包括:
获取模块,用于获取查询文本;
所述获取模块,还用于基于所述查询文本调用搜索引擎接口,以获取与所述查询文本对应的多个文本搜索结果;
所述获取模块,还用于从所述多个文本搜索结果中获取与所述查询文本匹配的多个答案文本片段;
确定模块,用于确定所述查询文本分别与所述多个答案文本片段的相关度,将最大值的所述相关度对应的所述答案文本片段,作为所述查询文本的参考文本;
调用模块,用于基于所述查询文本和所述参考文本调用第一语言模型,以获取所述查询文本的回答文本。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令或计算机程序;
处理器,用于执行所述存储器中存储的计算机可执行指令或计算机程序时,实现本申请实施例提供的文本处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令或计算机程序,用于被处理器执行时实现本申请实施例提供的文本处理方法。
本申请实施例提供一种计算机程序产品,包括计算机可执行指令或计算机程序,所述计算机可执行指令或计算机程序被处理器执行时,实现本申请实施例提供的文本处理方法。
本申请实施例具有以下有益效果:
通过获取查询文本并调用搜索引擎接口,来获取多个文本搜索结果。接下来再从文本搜索结果中筛选出与查询文本匹配的答案文本片段,并根据与查询文本的相关度从答案文本片段中进一步筛选出参考文本;查询文本与参考文本是相关的,语言模型通过查询文本在匹配的参考文本中获取与查询文本对应的回答文本,使得查询文本和回答文本之间不会存在信息脱节,增加了语言模型生成内容的可控性;通过查询文本调用搜索引擎接口进行搜索,再将搜索得到的与查询文本相关的答案文本,作为语言模型的参考文本,使得语言模型可以通过搜索引擎接口及时获取到富有时效性的信息,克服进行文本生成时在时效上的局限性,提高了语言模型所生成内容的时效性。
附图说明
图1是本申请实施例提供的文本处理系统架构的结构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A是本申请实施例提供的文本处理方法的流程示意图一;
图3B是本申请实施例提供的文本处理方法的流程示意图二;
图3C是本申请实施例提供的文本处理方法的流程示意图三;
图3D是本申请实施例提供的文本处理方法的流程示意图四;
图3E是本申请实施例提供的文本处理方法的流程示意图五;
图3F是本申请实施例提供的文本处理方法的流程示意图六;
图3G是本申请实施例提供的文本处理方法的流程示意图七;
图3H是本申请实施例提供的文本处理方法的流程示意图八;
图3I是本申请实施例提供的文本处理方法的流程示意图九;
图3J是本申请实施例提供的文本处理方法的流程示意图十;
图3K是本申请实施例提供的文本处理方法的流程示意图十一;
图3L是本申请实施例提供的文本处理方法的流程示意图十二;
图4是本申请实施例提供的文本处理方法的处理流程图;
图5是本申请实施例提供的提取答案文本片段的处理过程图;
图6是本申请实施例提供的确定查询文本与答案文本片段相关度得分的过程图;
图7是本申请实施例提供的对生成文本进行引用对齐的处理流程图;
图8是本申请实施例提供的语义相似度匹配模型的预测过程图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
可以理解的是,在本申请实施例中,涉及到用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
除非另有定义,本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)大语言模型(Large Language Models,LLM),简称为语言模型,能够处理和生成自然语言的机器学习模型,例如基于变换器的双向编码器(Bidirectional EncoderRepresentation from Transformers,BERT)模型,生成预训练模型(Generate Pre-Training Model,GPT)模型。语言模型的预测任务可以包括文本分类、完型填空和问答等。
2)时效性,是指同一件事物在不同的时间具有很大的性质上的差异,这个差异叫时效性。在大语言模型生成文本内容时,时效性差是指大语言模型无法实时地融入新的语言知识,从而更新所掌握的语言知识范畴,生成文本的内容范围不够宽泛,具有局限性。
3)基于变换器的双向编码器(Bidirectional Encoder Representation fromTransformers,BERT)模型,一种预训练的文本处理模型,可以对文本进行编码处理,可用于文本生成、确定文本相似度、文本识别等各种应用场景。
本申请实施例提供一种文本处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品,能够提高语言模型所生成文本的时效性。
参见图1,图1是本申请实施例提供的文本处理系统100的架构示意图,包括终端500、网络300,服务器200,终端500通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在第一个应用场景中,终端500中运行着各种文本编辑或文本处理应用场景的应用程序(Application,APP),当用户在APP的文本编辑界面中输入需要进行回答的待回答咨询文本后,接收咨询文本并通过网络300发送到服务器200。服务器200接收到终端发送的咨询文本后,将咨询文本作为查询文本,调用搜索引擎接口获取到和查询文本对应的多个文本搜索结果。然后从多个文本搜索结果中获取与查询文本匹配的多个答案文本片段,再根据相关性对答案文本片段中进一步筛选,得到参考文本。最后基于查询文本调用语言模型从参考文本中获取与查询文本对应的回答文本,并将获取到的回答文本通过网络300返回到终端500,显示在终端500中对应APP的文本编辑界面上。
在第二个应用场景中,用户在终端的应用程序的文本编辑界面中输入需要进行回答的待回答咨询文本后,终端可以直接对咨询文本进行处理。具体为,将咨询文本作为查询文本,调用搜索引擎接口获取到和查询文本对应的多个文本搜索结果。然后从多个文本搜索结果中获取与查询文本匹配的多个答案文本片段,再根据相关性对答案文本片段中进一步筛选,得到参考文本。最后基于查询文本调用语言模型从参考文本中获取与查询文本对应的回答文本,再将回答文本直接显示在文本编辑界面中。
在一些实施例中,图1所示的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。图1所示的终端500可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
本申请实施例可以借助人工智能(Artificial Intelligence,AI)技术实现,是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
以本申请实施例提供的服务器为例,例如可以部署在云端的服务器集群,从而向用户或开发者开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城,所有的用户或开发者都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
例如,云端的服务器封装有本申请实施例提供的文本处理的程序。用户通过终端设备(终端设备运行有文本编辑的应用程序)调用云服务中的文本处理服务,以使部署在云端的服务器调用封装的文本处理的程序,通过接收用户输入的待回答的咨询文本,将咨询文本作为查询文本,调用搜索引擎接口获取到和查询文本对应的多个文本搜索结果。然后从多个文本搜索结果中获取与查询文本匹配的多个答案文本片段,再根据相关性对答案文本片段中进一步筛选,得到参考文本。最后基于查询文本调用语言模型从参考文本中获取与查询文本对应的回答文本,从而将回答文本直接显示在终端设备中。
参见图2,图2是本申请实施例提供的电子设备400的结构示意图,电子设备400既可以实施为上述第一个应用场景中的服务器,也可以实施为上述第一个应用场景中的终端,图2所示的电子设备400包括:至少一个处理器410、存储器450、至少一个网络接口420。电子设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(Digital Signal Processor,DSP),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(Random Access Memory,RAM)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus,USB)等。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的文本处理装置453,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4531、确定模块4532、调用模块4533,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,终端或服务器可以通过运行各种计算机可执行指令或计算机程序来实现本申请实施例提供的文本处理方法。举例来说,计算机可执行指令可以是微程序级的命令、机器指令或软件指令。计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APPlication,APP),即需要在操作系统中安装才能运行的程序,也可以是可以嵌入至任意APP中的小程序,即只需要下载到浏览器环境中就可以运行的程序。总而言之,上述的计算机可执行指令可以是任意形式的指令,上述计算机程序可以是任意形式的应用程序、模块或插件。
将结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的文本处理方法。
参见图3A,图3A是本申请实施例提供的文本处理方法的流程示意图,执行主体可以是图1中所示的服务器200和终端500等电子设备,将结合图3A示出的步骤进行说明。
在步骤101中,获取查询文本。
在一些实施例中,查询文本一般与对应的应用场景相关,例如可以应用场景中给定的上下文和提示词,或者是需要进行回答的咨询文本,还可以是对应搜索系统场景的搜索关键词或是多个搜索关键词组成的搜索项。查询文本主要用于获取最新的搜索信息以提取出与查询文本匹配的答案文本片段,为第一语言模型提供对应的参考文本。
在步骤102中,基于查询文本调用搜索引擎接口,以获取与查询文本对应的多个文本搜索结果。
在一些实施例中,参见图3B,图3A示出的步骤102可以通过以下步骤1021至步骤1022实现,下面具体说明。
在步骤1021中,基于查询文本调用搜索引擎接口,以使搜索引擎接口按照生成时间排序的方式搜索与查询文本相关的多个文本搜索结果。
获取查询文本后,再调用相关的搜索引擎接口根据查询文本来获取多个文本搜索结果。其中,搜索引擎接口可以是搜索服务器的接口、从相关的终端浏览器调用的搜索接口或其他具有搜索功能的引擎、功能接口。而搜索引擎接口的搜索方式是按照生成时间进行排序的方式,也即生成时间最新的搜索信息排序显示在头部。文本搜索结果可以是一般是纯文本的形式,也可以是富媒体形式,对于后者,可以提取其中的文本,一般包括一段正文文本以及对应的文本标题。
在步骤1022中,从搜索引擎接口获取与查询文本相关的多个文本搜索结果。
调用搜索引擎接口对查询文本进行搜索后,得到多个文本搜索结果,然后按照文本搜索结果的生成时间的排序方式,从搜索引擎接口中依次获取与查询文本相关的多个文本搜索结果,也即获取与查询文本相关且生成时间最新的多个文本搜索结果。
本申请实施例,利用查询文本,按照时效性优先的原则,从搜索引擎接口中获取与查询文本相关的最新搜索信息,以用于后续从中筛选得出参考文本,从而保证了参考文本信息的时效性。
继续参见图3A,在步骤103中,从多个文本搜索结果中获取与查询文本匹配的多个答案文本片段。
在文本搜索结果所包括的正文文本中,其中只有部分文本才可作为查询文本的答案,其他部分都是与查询文本无关的文本信息,所以需要将这些可以作为答案的文本片段从文本搜索结果所包括的正文文本中提取出来。
在一些实施例中,参见图3C,图3A示出的步骤103可以通过以下步骤1021至步骤1035实现,下面具体说明。
在步骤1031中,将文本搜索结果分割为固定长度的多个候选引用文本片段。
由于文本搜索结果所包括的正文文本只有部分文本才可作为与查询文本匹配的答案,所以针对每个文本搜索结果中的正文文本,按照固定长度进行分割,以得到多个候选引用文本片段。其中候选引用文本片段的固定长度可以根据实际文本搜索结果的文本规模或片段的数量来设定,例如可以是500。
在步骤1032中,获取查询文本分别与多个候选引用文本片段之间的匹配得分、以及候选引用文本片段中的每个元素作为答案文本片段的起始位置的起始概率和结束位置的结束概率。
对正文文本进行切分后,为了确定与查询文本匹配的候选引用文本片段,可以将查询文本分别与每个候选引用文本片段进行组合,输入到相关模型中进行处理,以预测查询文本分别与多个候选引用文本片段之间的匹配得分。考虑到查询文本的答案文本片段是候选引用文本片段中的筛选出来的,所以还需要判断候选引用文本片段中每个元素是否可以作为答案文本片段的起始元素、结束元素,以确定答案文本片段在候选引用文本片段中的起始位置和结束位置。
在一些实施例中,参见图3D,图3C示出的步骤1032可以通过以下步骤10321至步骤10322实现,下面具体说明。
在步骤10321中,将多个候选引用文本片段分别与查询文本组合为文本对。
在一些实施例中,要预测查询文本分别与多个候选引用文本片段之间的匹配得分,需要确定查询文本与候选引用文本片段的相似度。本申请实施例将多个候选引用文本片段分别与查询文本组合为文本对,以用于通过后续第二语言模型来预测文本对中查询文本与候选引用文本片段之间的相似度。
在步骤10322中,基于每个文本对调用第二语言模型,以获取查询文本分别与多个候选引用文本片段之间的匹配得分、以及候选引用文本片段中的每个元素作为答案文本片段起始位置的起始概率和结束位置的结束概率。
承接上述实施例,将查询文本分别与候选引用文本片段组合为文本对后,再通过调用第二语言模型对文本对进行处理,以获取查询文本分别与多个候选引用文本片段之间的匹配得分,匹配得分表征了文本的语义之间的相似度,匹配得分越高,则语义越接近。此外,还需要获取文本对中候选引用文本片段中的每个元素是否适合作为答案文本片段的起始元素以及结束元素,具体为确定候选引用文本片段中的每个元素作为答案文本片段起始位置的起始概率和结束位置的结束概率。
在一些实施例中,参见图3E,图3D示出的步骤10322可以通过以下步骤103221至步骤103225实现,下面具体说明。
在步骤103221中,将查询文本以及候选引用文本片段中每个元素作为一个常规标记,将常规标记拼接为第一标记序列。
在调用第二语言模型对文本对进行处理前,需要获取得到文本对的嵌入特征向量,故将查询文本以及候选文本片段中每个元素(Token)作为一个常规标记,其中常规标记是相对于开始标记和分割标记而言的,用于表示文本元素的文本标记,再将所有的常规标记进行拼接作为第一标记序列,其中,元素可以是文本中的一个字、词、或是短句,这是因为有些文本如果强制按照字词进行区分,可能会无法表达出具体的语义信息。最后在第一标记序列的头部插入开始标记(CLS)。
在步骤103222中,对第一标记序列进行嵌入处理,得到第一标记序列的嵌入特征向量。
承接上述实施例,获取到插入了开始标记的第一标记序列后,再对第一标记序列进行嵌入处理(Embedding),将第一标记序列映射为嵌入特征向量,以用于输入到第二语言模型进行处理。其中,对第一标记序列进行嵌入处理可以通过调用一层神经网络或是文本嵌入模型来实现,嵌入处理是为了将离散化的文本转化为稠密的连续向量,也即将文本映射到向量空间中的一个点。最终将文本在语义空间中的语义信息转化成向量,以用于后续第二语言模型对向量进行编码处理。
在步骤103223中,基于第一标记序列的嵌入特征向量调用第二语言模型进行编码处理,得到第一标记序列的语义特征向量。
承接上述实施例,通过嵌入处理得到第一标记序列的嵌入特征向量后,再调用第二语言模型对嵌入特征向量进行编码处理,从而得到第一标记序列中每个标记(包括开始标记以及常规标记)的语义特征向量。其中,第二语言模型可以是具有12层结构的BERT模型(BERT-12-Layer),也可以是其他具有多层结构的文本编码器或者文本编码模型。
在步骤103224中,对第一标记序列的语义特征向量中开始标记的语义特征向量进行映射处理,得到查询文本与候选引用文本片段的匹配得分。
考虑到开始标记的语义特征向量与文本对中的其他元素相比,这个无明显语义信息的语义特征向量会更公平地融合文本对中各个元素的语义信息。所以可以认为开始标记的语义特征向量包括了整个文本对的语义信息。本申请实施例将开始标记对应的语义特征向量输入到一个全连接层中进行映射处理,即可得到查询文本与候选引用文本片段的匹配得分。其中,映射处理可以看作一个预测分类过程,全连接层的激活函数可以是Softmax函数,用于将对应的语义特征向量映射为一个预测分类概率,这个分类概率即匹配得分。
在步骤103225中,对第一标记序列的语义特征向量中每个常规标记对应的语义特征向量进行映射处理,得到候选引用文本片段中的每个元素作为答案文本片段起始位置的起始概率和结束位置的结束概率。
在确定查询文本与候选引用文本片段的匹配得分的同时,还会额外确定文本对中候选引用文本片段中哪些文本片段可以作为答案文本片段,也即预测候选引用文本片段中每个元素是否适合作为答案文本片段起始位置的起始概率和结束位置的结束概率。具体为对候选引用文本片段中每个常规标记对应的语义特征向量,输入到一个全连接层中进行映射处理。其中,全连接层中预设了两个位置向量,分别为起始位置向量和结束位置向量,通过将输入的每个常规标记对应的语义特征向量分别与起始位置向量和结束位置向量求内积,然后将两个内积结果通过全连接层的激活函数分别映射为两个分类概率,其中全连接层的激活函数可以是Softmax函数,这两个分类概率即为对应的起始概率和结束概率。
继续参见图3C,在步骤1033中,确定最优匹配片段。
确定查询文本分别与每个候选引用文本片段的匹配得分,即可根据匹配得分确定出最大值的匹配得分对应的候选引用文本片段,作为最优匹配片段。
在步骤1034中,确定最优匹配片段中的起始元素和结束元素。
当确定最优匹配片段后,接下来就需要从最优匹配片段中确定出哪一部分文本片段属于答案文本片段。具体为,确定最优匹配片段中每个元素作为答案文本片段起始位置的起始概率,将最优匹配片段中最大值的起始概率对应的元素作为答案文本片段的起始元素。同理,再确定最优匹配片段中每个元素作为答案文本片段结束位置的结束概率,将最优匹配片段中最大值的结束概率对应的元素作为答案文本片段的结束元素。
在步骤1035中,将最优匹配片段中位于起始元素和结束元素之间的部分,作为与查询文本匹配的答案文本片段。
从最优匹配片段中确定出答案文本片段的起始元素和结束元素之后,将最优匹配片段对应的起始元素和结束元素之间的文本部分确定为与查询文本匹配的答案文本片段。
示例的,查询文本为“今天气温多少度”,而从候选引用文本片段中确定的匹配得分最高的最优匹配片段为“天气很好,气温二十度,多云”。此时则需要从最优匹配片段中确定哪一部分文本片段可以作为答案文本片段,由于在预测匹配得分时,同时也预测了候选引用文本片段中的每个元素是否适合作为答案文本片段起始位置的起始概率和结束位置的结束概率,所以根据最优匹配片段中每个元素对应预测得到的起始概率,确定出其中的元素“气”对应预测得到的起始概率最高,则将元素“气”作为答案文本片段的起始元素。同理根据最优匹配片段中每个元素对应预测得到的结束概率,确定出其中的元素“度”对应预测得到的结束概率最高,则将元素“度”作为答案文本片段的结束元素。由此便从最优匹配片段中确定出了答案文本片段的起始元素和结束元素,则将最优匹配片段中起始元素“气”与结束元素“度”之间的文本部分作为答案文本片段,由此确定了答案文本片段为“气温二十度”。通过这个过程,每个文本搜索结果最终都会筛选得到一个答案文本片段。
继续参见图3A,在步骤104中,确定查询文本分别与多个答案文本片段的相关度,将最大值的相关度对应的答案文本片段,作为查询文本的参考文本。
每个文本搜索结果最终都会筛选得到一个答案文本片段,接下来仍然需要从多个答案文本片段进行进一步筛选。具体筛选过程为:确定查询文本分别与多个答案文本片段的相关度,将最大值的相关度对应的答案文本片段,确定为查询文本的参考文本。
在一些实施例中,参见图3F,图3A示出的步骤104中的“确定查询文本分别与多个答案文本片段的相关度”可以通过以下步骤1041至步骤1044实现,下面具体说明。
在步骤1041中,将查询文本、答案文本片段、以及标题文本中每个元素作为一个常规标记,将每个元素的常规标记拼接为第二标记序列。
针对每个答案文本片段,将查询文本以及答案文本片段中的每个元素作为一个常规标记,然后将每个元素的常规标记拼接为第二标记序列,其中,查询文本与答案文本片段之间的常规标记以分割标记连接,第二标记序列的头部插入有开始标记。
在一些实施例中,还可以将答案文本片段的标题文本提取出来作为第二标记序列的一部分。故可以将查询文本、答案文本片段、以及标题文本中每个元素作为一个常规标记,再将每个元素的常规标记拼接为第二标记序列。因为标题文本一般表达的语义特征较强,有助于后续确定相关度,提高相关度计算的准确率。
在步骤1042中,对第二标记序列进行嵌入处理,得到第二标记序列的嵌入特征向量。
承接上述实施例,当得到第二标记序列后,需要对第二标记序列进行嵌入处理,以得到第二标记序列的嵌入特征向量,以用于后续第二语言模型进行编码。其中,对第二标记序列进行嵌入处理可以调用一层神经网络(全连接层),也可以是多层感知机(Multi-LayerPerceptron,MLP),或是利用其他文本嵌入模型来实现。
在步骤1043中,调用第三语言模型对第二标记序列的嵌入特征向量进行编码处理,得到第二标记序列的语义特征向量。
承接上述实施例,调用第三语言模型对第二标记序列的嵌入特征向量进行编码处理,从而得到第二标记序列的语义特征向量,第二标记序列的语义特征向量也即第二标记序列的开始标记所对应的语义特征向量,因为开始标记位置对应的语义编码结果可代表整个第二标记序列的语义编码结果。这里的第三语言模型可以是交叉编码器(Cross-Encoder),也可以是BERT模型,还可以是其他具有不限定网络层数和网络结构的非交叉编码器、文本编码器。
在步骤1044中,对第二标记序列的语义特征向量进行映射处理,得到查询文本与答案文本片段的相关度。
承接上述实施例,将第二标记序列的开始标记对应的语义特征向量作为整个第二标记序列的语义特征向量后,调用多层感知机对语义特征向量进行映射处理,具体为将开始标记位置对应的语义特征向量通过多层感知机映射为一个预测分类的概率,这个预测分类的概率即为查询文本与答案文本片段的相关度,记作。
通过上述实施例,由此确定出查询文本分别与每个答案文本片段的相关度(),将最大值的对应的答案文本片段确定与查询文本对应的参考文本。
继续参见图3A,在步骤105中,基于查询文本和参考文本调用第一语言模型,以获取查询文本的回答文本。
通过上述实施例,最终获取到与查询文本对应的参考文本,此时可以调用第一语言模型对查询文本以及参考文本进行处理,以从参考文本中预测得到与查询文本对应的回答文本。
在一些实施例中,参见图3G,图3A示出的步骤105可以通过以下步骤1051至步骤1052实现,下面具体说明。
在步骤1051中,基于查询文本以及参考文本调用第一语言模型对查询文本进行预测处理,以确定回答文本在参考文本中的起始元素和结束元素。
从答案文本片段确定出参考文本后,参考文本即可作为参考资料引导第一语言模型对输入的回答文本进行预测,以生成对应的回答文本,具体为将查询文本和参考文本输入到第一语言模型中进行预测处理,以确定回答文本在参考文本中的起始元素和结束元素,从而得到回答文本在参考文本的起始位置和结束位置。
在一些实施例中,参见图3H,图3G示出的步骤1051可以通过以下步骤10511至步骤10515实现,下面具体说明。
在步骤10511中,将查询文本、参考文本中每个元素作为一个常规标记,将常规标记拼接为第三标记序列。
在一些实施例中,由于语言模型不能直接基于原始文本进行预测,所以仍然需要确定文本的语义特征向量。首先获取文本的嵌入特征向量,将查询文本以及参考文本中的每个元素作为一个常规标记,然后将每个元素的常规标记拼接为第三标记序列,其中,查询文本与参考文本之间的常规标记以分割标记连接,然后在第三标记序列的头部插入的开始标记(CLS)。
在步骤10512中,对第三标记序列进行嵌入处理,得到第三标记序列的嵌入特征向量。
承接上述实施例,对拼接得到的第三标记序列进行嵌入处理,得到第三标记序列的嵌入特征向量,以用于后续第一语言模型进行编码。同样的,对第三标记序列进行嵌入处理可以通过调用一层神经网络(全连接层)、多层感知机,或是利用其他文本嵌入模型来实现。
在步骤10513中,基于第三标记序列的嵌入特征向量调用第一语言模型进行编码处理,得到第三标记序列中每个常规标记的语义特征向量。
承接上述实施例,调用第一语言模型的编码器对第三标记序列的嵌入特征向量进行编码处理,从而得到第三标记序列每个常规标记对应的语义特征向量。其中,第一语言模型可以是各种大语言模型,能够充分学习和理解给定文本的语义特征,并根据给定文本上下文的语义特征生成与给定文本匹配的文本。
在步骤10514中,对每个常规标记对应的语义特征向量进行映射处理,得到参考文本的每个元素分别作为回答文本起始元素的起始概率和结束元素的结束概率。
承接上述实施例,获取到第三标记序列每个常规标记的语义特征向量之后,考虑到,本申请实施例是将已有参考文本作为查询文本的参考资料,所以只需要利用第一语言模型从参考文本中预测出与查询语句匹配的回答文本。具体为,将第三标记序列中每个常规标记的语义特征向量映射为两个预测分类概率,通过第一语言模型的全连接层中预设的起始位置向量和结束位置向量,将每个常规标记对应的语义特征向量分别与起始位置向量以及结束位置向量求内积,再将两个内积结果通过全连接层的激活函数分别映射为两个分类概率,这两个分类概率即为参考文本的常规标记对应元素分别作为回答文本起始元素的起始概率,以及结束元素的结束概率,其中,全连接层的激活函数可以是Softmax函数。
在步骤10515中,将最大值的起始概率对应的元素作为回答文本的起始元素,将最大值的结束概率对应的元素作为回答文本的结束元素。
当确定第三标记序列每个常规标记的对应元素的两个分类概率后,将第三标记序列中最大值的起始概率对应的元素作为回答文本的起始元素,将最大值的结束概率对应的元素作为回答文本的结束元素,由此便确定了回答文本在参考文本中的具体位置。
继续参见图3G,在步骤1052中,将参考文本的起始元素和结束元素之间的文本作为查询文本的回答文本。
在确定了回答文本在参考文本中的具体位置之后,然后将参考文本中起始元素与结束元素之间的文本片段确定为回答文本,作为第一语言模型的最终预测文本,也即第一语言模型的生成文本。
示例的,查询文本为“今天气温多少度”,而对应的参考文本为“今天晴天,气温二十度”。将查询文本与参考文本每个字作为一个常规标记,用分割标记进行拼接,得到第三标记序列,并在序列头部插入开始标记,得到“[CLS]今天气温多少度[SEP]今天晴天,气温二十度”,然后将第三标记序列进行嵌入处理得到相应的嵌入特征向量,输入到第一语言模型中进行编码处理,得到每个常规标记对应的语义特征向量,然后将每个常规标记的语义特征向量映射为两个分类概率,即作为回答文本的起始位置的起始概率,结束位置的结束概率。由此确定出参考文本中的元素“气”对应的语义特征向量映射得到的起始概率最大,可以作为回答文本的起始位置。相应的,参考文本中的元素“度”对应的语义特征向量映射得到的结束概率最大,可以作为回答文本的结束位置。于是将参考文本中元素“气”与元素“度”之间的文本作为回答文本,也即将“气温二十度”作为查询文本“今天气温多少度”的回答文本。
通过本申请实施例,获取查询文本调用搜索引擎接口生成时效性优先的多个最新文本搜索结果,然后从文本搜索结果中提取出与查询文本匹配相关的答案文本片段,并执行进一步筛选,从多个答案文本片段中确定与查询文本相关度最高的文本片段为参考文本,作为第一语言模型预测生成文本的参考资料。然后调用第一语言模型从参考文本中预测出与查询文本匹配对应的回答文本,使得第一语言模型可以基于最新的参考资料来对查询文本进行回答,从而生成对应的回答文本,且第一语言模型是从固定生成的参考文本中预测出回答文本的,增加了第一语言模型生成内容的可控性,提高了生成内容的时效性。
在一些实施例中,参见图3I,在图3A示出的步骤105之后,还可以执行步骤106至步骤108,下面具体说明。
在步骤106中,获取多个候选引用文本。
相关技术的语言模型基于查询文本生成回答文本后,考虑到回答文本可能会出现真实性不高、存在杜撰的问题,因此,在对应回答文本后添加相关的引用文本,作为回答文本的文本来源,提高第一语言模型生成回答文本的真实性,解决可能存在杜撰的问题。通过回答文本来获取对应的候选引用文本,其中候选引用文本包括用于在回答文本中引用的素材,获取候选引用文本的方法可以基于回答文本调用搜索引擎接口搜索与回答文本相关的文本搜索内容,还可以调用文本生成模型基于回答文本的语义随机生成多个文本。
在步骤107中,将回答文本切分为多个回答文本片段,并将每个候选引用文本切分为多个引用文本片段。
承接上述实施例,获取到候选引用文本后,需要确定候选引用文本是否与回答文本进行匹配,才可以作为引用素材。确定候选引用文本与回答文本匹配的方法即确定两者之间的文本相似度。
本申请实施例中,考虑到回答文本和候选引用文本的文本规模可能较大,直接确定文本相似度计算量太大,故将回答文本切分为大于固定长度的多个回答文本片段,并将每个候选引用文本切分为大于固定长度的多个引用文本片段,由此通过确定文本片段相似度的方式来实现,也可以为回答文本的每个回答文本片段添加引用素材,作为引用文本。
在步骤108中,确定至少一个回答文本片段匹配的引用文本片段,并将至少一个回答文本片段匹配的引用文本片段插入回答文本中。
在一些实施例中,参见图3J,图3I示出的步骤108中的“确定至少一个回答文本片段匹配的引用文本片段”可以通过以下步骤1081A至步骤1082A实现,下面具体说明。
在步骤1081A中,将多个回答文本片段和多个引用文本片段进行两两组合,以形成多个候选文本对。
分别对回答文本和候选引用文本进行切分后,分别得到多个文本片段,考虑到需要对回答文本中每个回答文本片段添加引用内容。所以针对每个回答文本片段,分别与每个引用文本片段进行组合,形成多个候选文本对,也即将多个回答文本片段和多个引用文本片段进行两两组合,从而后续可以确定候选文本对中回答文本片段和引用文本片段的相似度。
示例的,针对某回答文本切分了20个回答文本片段,针对10个候选引用文本,每个候选引用文本切分为5个引用文本片段,则将每个回答文本片段与引用文本片段进行两两组合之后,最终得到的候选文本对的数量为1000(20x10x5)个。
在步骤1082A中,从多个候选文本对中识别出至少一个匹配文本对,确定匹配文本对中的引用文本片段与匹配文本对中的回答文本片段匹配。
将回答文本片段和引用文本片段组合为多个候选文本对后,通过确定候选文本对中两个文本片段的相似度,就可以识别出回答文本片段是否与引用文本片段匹配,以从多个候选文本对中识别出至少一个匹配文本对,由此即可确定匹配文本对中的引用文本片段与匹配文本对中的回答文本片段匹配。
在一些实施例中,考虑到回答文本片段和引用文本片段的数量较多,所形成的候选文本对数量规模太大,为了提高文本处理效率以及减少后续步骤的计算量,在从多个候选文本对中识别出匹配文本对之前,可以对多个候选文本对进行初步过滤,从而过滤掉明显不匹配或不重要的候选文本对。
在一些实施例中,对候选文本对进行初步过滤的方法可以是文本关键词识别。因为回答文本片段中,一般针对存在关键词的文本才会添加引用内容,因为关键词所表达的语义信息最多,而其他非关键词的文本则是文本中不重要的文本,这些不重要的文本无需为其添加引用内容,所以初步过滤可以将这些不存在关键词的候选文本对过滤掉。
基于文本关键词识别的具体过滤过程为,针对每个候选文本对,调用关键词识别模型对候选文本对中的回答文本片段和引用文本片段分别进行关键词识别,当候选文本对中回答文本片段和引用文本片段至少一个未识别出关键词,说明回答文本片段与引用文本片段都是不存在关键语义信息的不重要文本,或是回答文本片段与引用文本片段其中之一未识别出关键词,其说明两者之间明显语义不匹配,则直接过滤掉这些不重要文本、以及明显语义不匹配的候选文本对。其中,其中关键词识别模型可以是文本排序算法(TextRank),也可以是词频-逆向文本指数频率方法(Term Frequency-Inverse DocumentFrequency,TF-IDF),还可以是快速自动关键词提取算法(Rapid Automatic KeywordExtraction,RAKE),又或者是三种方法组合使用。
在一些实施例中,对候选文本对进行初步过滤的方法基于文本片段嵌入(sentence embedding)的相似度匹配方法。具体过滤过程为,针对每个候选文本对,调用文本编码模型分别对候选文本对中的回答文本片段和引用文本片段进行编码处理,得到回答文本片段以及引用文本片段的嵌入特征向量,其中,回答文本片段的嵌入特征向量可以是片段整体的嵌入特征向量,也可以是子片段(对回答文本片段进行进一步划分)的嵌入特征向量,引用文本片段的嵌入特征向量可以是片段整体的嵌入特征向量,也可以是子片段(对引用文本片段进行进一步划分)的嵌入特征向量。然后确定回答文本片段的嵌入特征向量与引用文本片段的嵌入特征向量之间的相似度,其中,嵌入特征向量之间的相似度可以是片段整体的嵌入特征向量之间的相似度,也可以是子片段的嵌入特征向量之间的相似度。由此即可确定出每个候选文本对的相似度,本申请实施例通过设置一个相似度阈值,如候选文本对的相似度小于相似度阈值,删除对应的候选文本对。
示例的,在候选文本对中,回答文本片段的嵌入特征向量可以是片段整体的嵌入特征向量,例如为嵌入特征向量A,而对应的候选文本对中的引用文本片段的嵌入特征向量可以是片段整体的嵌入特征向量,例如可以嵌入特征向量B,然后可以确定嵌入特征向量A与嵌入特征向量B的相似度,当相似度小于相似度阈值时,删除对应的候选文本对。
在另一些示例中,还可以先对候选文本对中的回答文本片段进行进一步划分,得到多个回答文本子片段,再调用文本编码模型对多个回答文本子片段进行编码处理,从而得到各个回答文本子片段的嵌入特征向量,表示为A1,A2,…,An。对应地,对候选文本对中的引用文本片段进行进一步划分,得到多个引用文本子片段,再调用文本编码模型对多个引用文本子片段进行编码处理,从而得到各个引用文本子片段的嵌入特征向量,表示为B1,B2,…,Bn,然后再分别确定A1与B1的相似度、A2与B2的相似度、以及An与Bn的相似度。当其中有一个相似度小于相似度阈值,则说明回答文本片段与引用文本片段不匹配,则删除对应的候选文本对。
通过本申请实施例,在从多个候选文本对中识别出匹配文本对之前,可以对多个候选文本对进行初步过滤,从而可以先过滤掉明显不匹配或不重要的候选文本对,减少后续步骤的计算量,提高文本处理效率。
在一些实施例中,参见图3K,图3J示出的步骤1082A中的“从多个候选文本对中识别出至少一个匹配文本对”可以通过以下步骤10821A至步骤10825A实现,下面具体说明。
在步骤10821A中,调用第四语言模型分别对候选文本对中回答文本片段、以及引用文本片段进行编码处理,得到回答文本片段的嵌入特征向量、以及引用文本片段的嵌入特征向量。
在一些实施例中,确定候选文本对中两个文本片段的相似度可以通过调用语言模型来实现。针对每个候选文本对,通过调用第四语言模型分别对候选文本对中回答文本片段、以及引用文本片段进行编码处理,得到回答文本片段的嵌入特征向量、以及引用文本片段的嵌入特征向量,其中,第四语言模型可以是基于文本的BERT模型(Sentence-BERT),还可以是其他文本编码模型。
在步骤10822A中,分别对回答文本片段的嵌入特征向量、以及引用文本片段的嵌入特征向量进行池化处理,得到回答文本片段的语义特征向量以及引用文本片段的语义特征向量。
由于回答文本片段与引用文本片段的文本长度或者文本规模可能差异较大,所以针对回答文本片段与引用文本片段的嵌入特征向量,还可以通过一个池化层分别对嵌入特征向量进行池化(Pooling)处理,以使回答文本片段的嵌入特征向量的维度与引用文本片段的嵌入特征向量维度相同,更利于后续确定向量的相似度,减少计算量,池化层进行池化处理后得到回答文本片段的语义特征向量以及引用文本片段的语义特征向量。
在步骤10823A中,将引用文本片段的语义特征向量与回答文本片段的语义特征向量进行拼接处理,得到候选文本对的融合特征向量。
承接上述实施例,确定回答文本片段的语义特征向量以及引用文本片段的语义特征向量后,考虑到两个语义特征向量的维度相同,所以可以直接将两个语义特征向量进行拼接处理,得到文本对的融合特征向量。
在步骤10824A中,对融合特征向量进行映射处理,得到候选文本对中的回答文本片段以及引用文本片段的语义相似度。
承接上述实施例,获取到每个候选文本对的融合特征向量后,可以调用一层神经网络(全连接层)或者多层感知机对融合特征向量进行映射处理,以将融合特征向量映射为一个分类概率,此分类概率即可作为候选文本对中回答文本片段以及引用文本片段的语义相似度,其中,全连接层的激活函数可以是Softmax函数。
在一些实施例中,可以不对回答文本片段的语义特征向量以及引用文本片段的语义特征向量进行拼接,也即无需构建融合特征向量,而是直接对两个语义特征向量进行处理,例如计算余弦相似度(cosine-similarity)或者是编辑距离,作为语义相似度。
在步骤10825A中,将语义相似度大于语义相似度阈值的候选文本对确定为匹配文本对。
针对每个候选文本对,分别确定候选文本对中回答文本片段以及引用文本片段的语义相似度之后,通过预设的语义相似度阈值来对候选文本对进行筛选,将语义相似度大于语义相似度阈值的文本对确定为匹配文本对,其中,语义相似度阈值可根据候选文本对的数量进行设定,且设定的语义相似度阈值与候选文本对的数量呈正相关,也即当候选文本对数量越大时,则语义相似度阈值可设定越大,而当候选文本对数量越小时,则语义相似度阈值可设定越小。例如当候选文本对数量过大,有1000个候选文本对,则可将语义相似度阈值设定偏高,如设定为0.9,而当文本对数量较小,只有500个候选文本对时,可将语义相似度阈值设定偏低,如设定为0.7。
在一些实施例中,参见图3L,图3I示出的步骤108中的“将至少一个回答文本片段匹配的引用文本片段插入回答文本中”可以通过以下步骤1081B至步骤1082B实现,下面具体说明。
在步骤1081B中,响应于至少一个回答文本片段的数量小于或等于第一数量阈值,将至少一个回答文本片段匹配的引用文本片段,分别插入到至少一个回答文本片段匹配之后的位置。
在一些实施例中,通过确定的匹配文本对,即可将匹配文本对中的引用文本片段作为对应回答文本片段的引用素材。具体为根据匹配文本对从回答文本中确定出与引用文本片段匹配的回答文本片段,如此就可以确定每个引用文本片段在回答文本中的引用位置。
考虑到回答文本中的回答文本片段可能数量较多,如此为每一个回答文本片段都添加引用素材,计算成本太大。本申请实施例通过设置一个回答文本片段的第一数量阈值,当回答文本中的回答文本片段的数量小于或等于第一数量阈值时,则在回答文本中,根据匹配文本对将引用文本片段拼接在对应回答文本片段之后作为引用素材,其中,引用素材的表现形式可以是特定的符号标识,例如文本上标或者文本下标,还可以使用一些引用符号,例如可以是“[ ]”或“| |”,通过这些引用符号可以快速定位查找到对应的引用素材。
在步骤1082B中,响应于至少一个回答文本片段匹配的引用文本片段的数量大于第一数量阈值,将至少一个回答文本片段分别匹配的引用文本片段,统一插入到回答文本的末端。
承接上述实施例,当回答文本中的回答文本片段的数量大于第一数量阈值时,则将至少一个回答文本片段分别匹配的引用文本片段依次插入到整个回答文本的末端,作为回答文本的引用素材,其中,引用文本片段插入的方式可以不存在前后顺序。
在一些实施例中,考虑到每个回答文本片段与引用文本片段是两两进行组合的,所以一个回答文本片段可能会出现有多个可以组合的引用文本片段,也即回答文本片段可能会有多个引用素材。但是如果引用素材的数量可能会很多,可能会不利于回答文本的体现,增加文本规模和阅读量。故本申请实施例在将回答文本片段匹配的引用文本片段进行插入之前,通过设置一个第二数量阈值来限制回答文本片段的引用素材数量。当至少一个回答文本片段所匹配的引用文本片段的数量大于第二数量阈值时,按照至少一个回答文本片段与所匹配的引用文本片段之间的相似度进行降序排序,从降序排序结果中的头部开始,将设定数量或设定比例的回答文本片段匹配的引用文本片段,作为待插入的文本片段。最后将这些待插入的文本片段插入到对应回答文本片段之后的位置。
示例的,一个回答文本片段所匹配有6个引用文本片段,可以按照引用文本片段与回答文本片段的语义相似度从大到小的顺序,将6个引用文本片段依次插入到回答文本片段之后,所以回答文本片段的引用文本数量为6,此时通过设置第二数量阈值为2,则引用文本片段的数量大于第二数量阈值,将设定数量(例如可以是2)或者预设比例(例如可以是一半,50%)的引用文本片段作为待插入的文本片段,最后再插入到回答文本片段之后的位置。
在一些实施例中,图3L示出的步骤1081B和步骤1082B可以是并行执行的,不存在执行顺序的先后之分。
通过本申请实施例,从提供的候选引用文本中筛选出与第一语言模型的生成文本(即回答文本)相似度高的文本作为引用素材,以与生成文本中的相关回答文本片段都添加引用内容,一方面可以解决第一语言模型生成内容无引用信息,难以判断真假和进一步深入了解的问题,另一方面将引用内容作为第一语言模型生成文本的参考资料,也提高了第一语言模型生成文本的真实性和可信度,解决原有生成文本事实性以及可信度低,可能存在杜撰的问题。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
在一些搜索系统、对话系统等应用场景中,相关技术通常使用大语言模型来学习和理解自然语言,并基于给定的上下文或问话自动生成高质量的文本,比如在应用场景下可实现代码编写、作文生成、角色扮演等多种功能,可显著提升搜索的信息获取效率和对话质量。但一般而言,大语言模型通常基于变换器编码器(Transformer)架构之上,其中的多头注意力层堆叠在非常深的神经网络中,参数可达到数亿,且模型部署和训练较为困难。而大语言模型没有信息获取和自我更新能力,在模型更新频率较低的情况下,只能在固定已有的自然语言范畴上进行文本生成,可控性差。由于模型无法及时地融入并学习新的自然语言知识,很容易造成生成文本与给定文本的信息脱节,如此最终生成的文本内容会存在时效性差的问题。而在时效性差的基础上,也存在生成文本事实性不足,可信度较低,存在杜撰等问题,由此会对大语言模型的性能效果造成影响。
基于此场景,本申请实施例提供一种文本处理方法,通过收集具有时效性的搜索信息来筛选出对应的答案文本作为模型的参考文本,然后在给定的文本的基础上引导大语言模型生成可控的文本内容,从而及时让模型通过参考文本学习到新的搜索知识,提升生成文本的时效性。在此基础上,还通过从提供的候选文本中筛选出与生成文本相似度高的文本作为引用文本,以与生成的文本内容添加引用内容,从而提高生成文本的真实性和可信度,解决原有的生成文本事实性以及可信度低,可能存在杜撰的问题。
参见图4,图4是本申请实施例提供的文本处理方法的处理流程图,具体包括获取查询文本、获取查询结果、提取答案文本片段、确定查询文本和答案文本片段的相关度得分、调用大语言模型生成文本、对生成文本进行引用对齐等六个步骤流程,下面将结合图4来详细描述每个步骤流程的具体实现。
参见图4,在步骤401中,获取查询文本。
查询文本(query)一般与对应的应用场景相关,如对话场景则可以是与对话场景话题相关的搜索关键词或是多个搜索关键词组成的搜索项。用于获取最新的搜索信息提取出相应的答案文本片段,为大语言模型提供对应的参考文本。其中,根据查询文本获取最新搜索信息提取出答案文本片段的处理框架图可参见图5,图5是本申请实施例提供的提取答案文本片段的处理过程图。
继续参见图4,在步骤402中,获取调用搜索引擎接口获取搜索结果。
如图5所示,获取查询文本后可调用相关搜索引擎接口来获取搜索结果,其中,搜索引擎接口可以是相关的终端浏览器、搜索服务器或其他具有搜索功能的引擎和功能接口。搜索结果一般为一段纯文本,包括一段正文文本以及对应的文本标题。
在一些实施例中,搜索引擎接口的搜索结果排序方式是按照生成时间进行排序的,也即生成时间最新的搜索信息排序在最前端,然后按照生成时间的倒序,从搜索引擎接口中获取生成时间最新的10个相关的文本搜索结果,也即图5所示的“top-10正文文本”。
继续参见图4,在步骤403中,提取答案文本片段。
在文本搜索结果所包括的正文中,其中只有部分文本才是查询文本的答案,其他部分的都是与查询文本无关的无价值文本信息,首先需要将从文本搜索结果将答案文本片段(Passage)提取出来。
如图5所示,将10个相关的文本搜索结果(top-10正文文本)作为正文文本。针对每个输入的正文文本,先切成每段长度为500的文本片段(segment),如图5所示的文本片段1、文本片段2、直到文本片段n,然后将每个文本片段分别与查询文本一起输入到12层的BERT模型(即BERT-12-layer,相当于上文的第二语言模型),通过BERT模型分别计算出每个文本片段与查询文本的匹配得分(QS Score)。由于文本不能之间输入到BERT模型进行处理,所以先将查询文本和文本片段中的每个文本元素(Token)作为以常规标记,通过开始标记(CLS)以及分割标记(SEP)将所有的常规标记进行拼接,然后进行嵌入处理,得到拼接文本的嵌入特征向量。接下来将嵌入特征向量输入到12层的BERT模型中进行编码处理得到语义特征向量,将开始标记(CLS)对应的语义特征向量输入到全连接层中映射为文本片段与查询文本的匹配得分(QS Score),其中,全连接层的激活函数可以是Softmax函数。而在调用BERT-12-layer对拼接文本的嵌入特征向量进行编码时,还需要预测拼接文本中文本片段的每个文本元素(Token)适合作为答案文本片段的起始元素的起始概率(Start Score)以及作为答案文本片段的结束元素的结束概率(End Score)。具体为将文本片段中的每个文本元素的嵌入特征向量(Token Represent,Token Rep)进行编码后,通过全连接层将编码得到的语义特征向量,分别映射为对应的作为答案文本片段的起始元素的概率以及结束元素的概率。
如图5所示,每个文本片段和查询文本拼接后经过上述操作之后,再从中确定出文本片段与查询文本中最高匹配得分(Max QS Score)的文本片段。在这个文本片段中,筛选出适合作为答案文本片段的起始元素的最高起始概率(Max Start Score)的元素,确定为答案文本片段的起始元素,同时筛选出适合作为答案文本片段的结束元素的最高结束概率(Max End Score)的元素,确定为答案文本的结束元素,最后将文本片段中起始元素与结束元素之间的文本,作为最终的答案文本片段。由此,10个文本搜索结果(top-10正文文本)也就是10个正文文本可以提取得到对应的10个答案文本片段。
继续参见图4,在步骤404中,确定查询文本与答案文本片段的相关度得分。
获取到10个答案文本片段后,需要进一步筛选与查询文本相关的答案文本片段作为大语言模型的参考文本,具体为分别确定出查询文本与答案文本片段的相关度得分。
确定查询文本与答案文本片段的相关度得分的过程可参见图6,图6是本申请实施例提供的确定查询文本与答案文本片段相关度得分的过程图,首先针对每个答案文本片段,将查询文本(图6所示的Query)、答案文本片段的标题(图6所示的Title)以及答案文本片段(图6所示的Passage)中每个元素作为常规标记,三者之间的常规标记用分割标记(SEP)进行拼接,得到拼接文本标记序列,并在拼接文本标记序列的头部插入开始标记(CLS),接下来对拼接文本标记序列进行嵌入处理,得到拼接文本嵌入特征向量后输入到交叉编码器(Cross-Encoder)进行编码处理,以得到对应的语义特征向量,这里的交叉编码器即相当于上文的第三语言模型。最后将开始标记(CLS)对应的语义特征向量输入到多层感知机中,映射为查询文本与答案文本片段的相关度得分,记作,其中相关度得分为多层感知机拟合的相关度得分。
在一些实施例中,交叉编码器不具体限定深度神经网络的模型类型和拓扑结构,可以替换为各种其它的模型结构,比如也可使用非交叉编码器,或者根据模型的实际需求,增加、减少网络模型的层数,调整深度网络模型的结构等。交叉编码器的训练采用5000万个查询文本与答案文本片段组合成的文本对进行训练,训练数据可以通过数据挖掘或是人工精确标注来进行获取。
在分别对10个答案文本片段确定出与查询文本的相关度得分后,可以通过相关度得分阈值来对答案文本片段进行筛选,将相关度得分小于相关度得分阈值的答案文本片段筛选掉,并将剩下的答案文本片段作为大语言模型的参考文本。
继续参见图4,在步骤405中,调用大语言模型生成文本。
确定出参考文本后,将参考文本与查询文本一起输入到大语言模型中进行预测,这里的大语言模型相当于上文的第一语言模型。具体预测过程为:首先将参考文本和查询文本中每个元素作为常规标记,参考文本与查询文本之间的常规标记以分割标记(SEP)进行拼接组合成拼接序列,并在拼接序列的头部插入开始标记(CLS),之后在对拼接序列进行嵌入处理,得到拼接序列的嵌入特征向量。然后将嵌入特征向量输入到大语言模型中进行编码处理,最终得到拼接序列的语义特征向量,接下来将每个元素语义特征向量映射为作为查询文本的回答文本的起始元素的起始概率,以及结束元素的结束概率,并将最大起始概率对应的元素确定为回答文本的起始元素,最大结束概率对应的元素确定为回答文本的结束元素,由此即可预测到查询文本的回答文本在参考文本的起始位置和结束位置,将参考文本的起始位置和结束位置之间的文本确定为回答文本,即作为大语言模型针对查询文本的生成文本并输出。
通过本申请实施例,获取查询文本调用搜索引擎接口生成时效性优先的多个最新文本搜索结果,然后从文本搜索结果中提取出与查询文本匹配相关的答案文本片段,并执行进一步筛选,从多个答案文本片段中确定出与查询文本相关度最高的文本片段,作为大语言模型的参考文本。然后调用大语言模型从参考文本中预测出查询文本对应的回答文本,生成对应的文本,从而增加了大语言模型生成内容的可控性,提高了生成内容的时效性。
继续参见图4,在步骤406中,对生成文本进行引用对齐。
考虑到相关技术的大语言模型的生成文本可能存在事实性不足,可信度较低,存在杜撰等问题,会对大语言模型的性能效果造成影响。本申请实施例从提供的候选文本中筛选出与生成文本相似度高的文本作为引用文本,以与生成的文本内容添加引用内容,从而实现引用对齐,提高生成文本的真实性和可信度,解决原有的生成文本事实性以及可信度低,可能存在杜撰的问题。
参见图7,图7是本申请实施例提供的对生成文本进行引用对齐的处理流程图,将结合图7来介绍引用对齐的具体过程。
在步骤701中,获取回答文本和候选文本。
大语言模型根据查询文本预测出对应的回答文本后,可以通过搜索获取到与查询文本相关的搜索文本,或者基于查询文本调用文本挖掘模型来挖掘获取搜索文本,并将这些搜索文本作为候选文本,其中,候选文本用于作为回答文本的引用文本。
在步骤702中,切分子句片段并进行两两组合。
获取到回答文本以及候选文本后,将回答文本和候选文本分别切分成多个子句,也即把文本切分成多个待匹配片段,待匹配片段中需包括文本的基本语义信息,片段长度不可过短,例如长度不可小于10,因为片段太短时供后续模块使用的参考信息过少,导致后续模块失效,无法保证语义提取效果。具体过程为:对文本使用标点符号进行切分,如果切分后片段的长度小于10,则与相邻片段合并成更长的片段,并重复以上过程直至所有的待匹配片段长度均超过10或待匹配片段已经包括全部的输入文本时结束切分。
切分过程完成之后,得到回答文本、候选文本对应的两组待匹配片段。接下来将两组切分子句(待匹配片段)两两组合,得到多个候选子句对。具体为将回答文本的每个切分子句分别与候选文本中的每个切分子句一一进行组合,得到多个候选子句对。
示例的,对回答文本切分了20个子句,共有10个候选文本,每个候选文本切分为5个子句,则两组切分子句一一配对之后,得到的总候选子句对数为1000(20x10x5)个。
在步骤703中,对候选子句对进行过滤。
对匹配的子句对进行过滤主要是对得到的多个候选子句对进行初步筛选,以过滤掉明显不匹配或不重要的句子,以减少后续处理过程的计算量。
在一些实施例中,过滤的方法可以是基于关键词的关键片段识别。具体为调用一些无监督的识别算法来分别识别出候选子句对中回答文本与候选文本对应子句的关键词,识别出包括关键词的子句即确定为关键文本片段。在所有候选子句对中,如果其中之一不是关键文本片段则过滤,则说明候选子句对中两个子句的关键词不同,则将候选子句对过滤。其中,无监督的识别算法可以是基于图形的文本处理排序算法,如文本排序算法(TextRank),词频-逆向文本指数频率方法(Term Frequency-Inverse Document Frequency,TF-IDF)或是快速自动关键词提取算法(Rapid Automatic Keyword Extraction,RAKE)三种方法之一,还可以将三种方法进行组合使用,以更准确地提取出文本中关键词。
在一些实施例中,过滤的方法可以是基于文本片段嵌入(sentence embedding)的相似度匹配方法,具体可以是确定子句对中两个子句的编辑距离,或是确定两个子句的最长公共子序列,也可以同时使用以上方法。当编辑距离小于距离阈值或是最长公共子序列大于某个序列数时,则确定存在子句相似。考虑到确定长句的文本片段嵌入的相似度效果较差,且长句的长短标准不容易指定,所以可以对候选子句对中的两个子句进行进一步分割得到多个短句,然后确定是否存在某个短句相似,若存在一个短句相似则保留对应的候选子句对,不存在则将候选子句对进行过滤。
在步骤704中,确定候选子句对的相似度。
判断候选文本的子句是否可以构成回答文本子句的引用,更具体为判断候选子句对中候选文本子句的语义是否与回答文本的子句相似或前者的语义包括后者,如果相似或者前者的语义包括后者,则可确定候选子句对为匹配子句对。具体的,从多个候选子句对中确定出匹配子句对,可以使用语义相似度匹配模型对两个子句计算语义相似度,当将计算得到的语义相似度超过相似度阈值,则说明回答文本子句的语义与候选文本的子句语义相似,即候选子句对中的候选文本的子句可以作为对应回答文本子句的引用,则可确定候选子句对为匹配子句对,而相似度阈值可以根据实际需求进行设定,例如可以是0.8。
在一些实施例中,语义相似度匹配模型(相当于上文的第四语言模型)具体可以是Sentence-BERT模型,模型预测过程可参见图8,图8是本申请实施例提供的语义相似度匹配模型的预测过程图。如图8所示,首先将两个待检测的句子A和句子B输入到模型中,经过BERT模型的隐藏层进行编码处理后,再输入到池化层进行池化(Pooling),以将句子A映射为嵌入向量u,同时将句子B映射为嵌入向量v,其中u,v的向量维度相同。然后将嵌入向量u和嵌入向量v进行向量拼接得到隐藏层输出的融合向量,表示为“|u-v|” 。其中,拼接的具体方法可以是将嵌入向量u中的元素分别对嵌入向量v对应位置的元素进行加和。接下来再将嵌入向量u、嵌入向量v以及融合向量直接进行拼接,并将拼接得到的特征输入到一个全连接层进行预测分类(Softmax classifier),从而预测得到句子A和句子B的语义相似度,其中,全连接层的激活函数为Softmax函数,语义相似度可以是向量之间的最小编辑距离相似度、或是欧式距离相似度,还可以是相似度余弦相似度(cosine-similarity)。
继续参见图7,在步骤706中,对匹配子句对进行后处理。
在从候选子句对中确定出所有满足相似度阈值的匹配子句对后,即可将匹配子句对中的候选文本的子句作为对应回答文本的子句的引用文本,同时根据回答文本调整引用文本的序号的位置以及数量。
考虑到候选文本的子句与回答文本的子句是通过两两进行组合后,从而得到匹配子句对的,故可能出现一个回答文本的子句存在多个候选文本的子句作为引用文本,也即一个回答文本的子句存在多个引用文本,则根据对应匹配子句对的语义相似度进行排序,将与回答文本的子句语义相似度最高的候选文本的子句,直接添加到回答文本的子句的末端,其余的引用文本(候选文本的子句)按照语义相似度大小依次排序,由此便完成了匹配子句对的后处理。
示例的,回答文本的子句A存在多个候选文本的子句(如子句B,子句C)作为引用文本,而子句A与子句C语义相似度为0.9,子句A与子句B语义相似度为0.8,则将子句C作为引用文本直接添加到子句A的末端,而子句B也作为引用文本排到子句C的后面。与此同时,可以调整候选文本的子句C为引用1、以及候选文本的子句B为引用2,再将回答文本的子句A的引用数量设置为2。
参见图7,在步骤705中,基于回答文本中的引用标志进行匹配。
当确定匹配子句对中的候选文本的子句可以作为对应回答文本的子句的引用文本后,可基于回答文本中每个子句的引用标志,利用匹配子句对,将候选文本的子句作为引用文本插入到对应回答文本的子句末端。
在一些实施例中,步骤706和步骤705可以是并行执行的,不存在执行顺序的先后之分,也可以在执行步骤705之后,再执行步骤706,本申请实施例在此不作限定。
在步骤707中,生成有引用文本的回答文本。
当为所有的回答文本的子句添加引用文本后,大语言模型根据查询文本生成回答文本后,回答文本中每个子句都会存在对应的引用文本,根据引用文本的序号即可快速查询得到对应的引用文本内容。
通过本申请实施例,从提供的候选文本中筛选出与大语言模型的生成文本(即回答文本)相似度高的文本作为引用文本,以与生成文本中每个子句都添加引用内容,也提高了大语言模型生成文本的真实性和可信度。
综上,本申请实施例通过获取查询文本调用搜索引擎接口生成时效性优先的多个最新文本搜索结果,然后从文本搜索结果中提取出与查询文本匹配相关的答案文本片段,并执行进一步筛选,从多个答案文本片段中确定出与查询文本相关度最高的文本片段,作为大语言模型的参考文本。然后调用大语言模型从参考文本中预测出查询文本对应的回答文本,生成对应的文本,从而增加了大语言模型生成内容的可控性,提高了生成内容的时效性。随后从提供的候选文本中筛选出与大语言模型的生成文本(即回答文本)相似度高的文本作为引用文本,以与生成文本中每个子句都添加引用内容,一方面可以解决大语言模型生成内容无引用信息,难以判断真假和进一步深入了解的问题,另一方面将引用内容作为大语言模型生成文本的参考资料,也提高了大语言模型生成文本的真实性和可信度,解决原有生成文本事实性以及可信度低,可能存在杜撰的问题。另外,本申请实施例提供的文本处理方法应用到搜索系统中,通过查询文本从搜索结果中快速筛选到参考资料,能够显著提升搜索信息的获取效率,改善搜索系统的体验。
下面继续说明本申请实施例提供的文本处理装置453的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的文本处理装置453中的软件模块可以包括:
获取模块4531,用于获取查询文本;基于查询文本调用搜索引擎接口,以获取与查询文本对应的多个文本搜索结果;从多个文本搜索结果中获取与查询文本匹配的多个答案文本片段;确定模块4532,用于确定查询文本分别与多个答案文本片段的相关度,将最大值的相关度对应的答案文本片段,作为查询文本的参考文本;调用模块4533,用于基于查询文本和参考文本调用第一语言模型,以获取查询文本的回答文本。
在一些实施例中,获取模块4531,还用于基于查询文本调用搜索引擎接口,以使搜索引擎接口按照生成时间排序的方式搜索与查询文本相关的多个文本搜索结果;从搜索引擎接口获取与查询文本相关的多个文本搜索结果。
在一些实施例中,获取模块4531,还用于将文本搜索结果分割为固定长度的多个候选引用文本片段;获取查询文本分别与多个候选引用文本片段之间的匹配得分、以及候选引用文本片段中的每个元素作为答案文本片段的起始位置的起始概率和结束位置的结束概率;确定最优匹配片段,其中,最优匹配片段是最大值的匹配得分对应的候选引用文本片段;确定最优匹配片段中的起始元素和结束元素,其中,起始元素是最大值的起始概率对应的元素,结束元素是最大值的结束概率对应的元素;将最优匹配片段中位于起始元素和结束元素之间的部分,作为与查询文本匹配的答案文本片段。
在一些实施例中,获取模块4531,还用于将多个候选引用文本片段分别与查询文本组合为文本对;基于每个文本对调用第二语言模型,以获取查询文本分别与多个候选引用文本片段之间的匹配得分、以及候选引用文本片段中的每个元素作为答案文本片段起始位置的起始概率和结束位置的结束概率。
在一些实施例中,获取模块4531,还用于将查询文本以及候选引用文本片段中每个元素作为一个常规标记,将每个元素的常规标记拼接为第一标记序列,其中,第一标记序列的头部插入有开始标记;对第一标记序列进行嵌入处理,得到第一标记序列的嵌入特征向量;基于第一标记序列的嵌入特征向量调用第二语言模型进行编码处理,得到第一标记序列的语义特征向量;对第一标记序列的语义特征向量中开始标记的语义特征向量进行映射处理,得到查询文本与候选引用文本片段的匹配得分;对第一标记序列的语义特征向量中每个常规标记对应的语义特征向量进行映射处理,得到候选引用文本片段中的每个元素作为答案文本片段起始位置的起始概率和结束位置的结束概率。
在一些实施例中,确定模块4532,用于将查询文本、答案文本片段、以及标题文本中每个元素作为一个常规标记,将每个元素的常规标记拼接为第二标记序列,其中,第二标记序列的头部插入有开始标记,查询文本与答案文本片段、答案文本片段与标题文本之间的常规标记以分隔标记连接;对第二标记序列进行嵌入处理,得到第二标记序列的嵌入特征向量;调用第三语言模型对第二标记序列的嵌入特征向量进行编码处理,得到第二标记序列的语义特征向量;对第二标记序列的语义特征向量进行映射处理,得到查询文本与答案文本片段的相关度。
在一些实施例中,调用模块4533,用于基于查询文本以及参考文本调用第一语言模型对查询文本进行预测处理,以确定回答文本在参考文本中的起始元素和结束元素;将参考文本的起始元素和结束元素之间的文本作为查询文本的回答文本。
在一些实施例中,调用模块4533,还用于将查询文本、参考文本中每个元素作为一个常规标记,将常规标记拼接为第三标记序列,其中,第三标记序列的头部插入有开始标记,查询文本与参考文本之间的常规标记以分隔标记连接;
对第三标记序列进行嵌入处理,得到第三标记序列的嵌入特征向量;基于第三标记序列的嵌入特征向量调用第一语言模型进行编码处理,得到第三标记序列中每个常规标记的语义特征向量;对每个常规标记对应的语义特征向量进行映射处理,得到参考文本的每个元素分别作为回答文本起始元素的起始概率和结束元素的结束概率;将最大值的起始概率对应的元素作为回答文本的起始元素,将最大值的结束概率对应的元素作为回答文本的结束元素。
在一些实施例中,确定模块4532,还用于获取多个候选引用文本,其中,候选引用文本包括用于在回答文本中引用的素材;将回答文本切分为多个回答文本片段,并将每个候选引用文本切分为多个引用文本片段;确定至少一个回答文本片段匹配的引用文本片段,并将至少一个回答文本片段匹配的引用文本片段插入回答文本中。
在一些实施例中,确定模块4532,还用于将多个回答文本片段和多个引用文本片段进行两两组合,以形成多个候选文本对;从多个候选文本对中识别出至少一个匹配文本对,确定匹配文本对中的引用文本片段与匹配文本对中的回答文本片段匹配。
在一些实施例中,确定模块4532,还用于对候选文本对中的回答文本片段和引用文本片段分别进行关键词识别;响应于从回答文本片段和引用文本片段至少之一未识别出关键词,删除候选文本对。
在一些实施例中,确定模块4532,还用于分别对候选文本对中的回答文本片段和引用文本片段进行编码处理,得到回答文本片段的嵌入特征向量和引用文本片段的嵌入特征向量;确定回答文本片段的嵌入特征向量与引用文本片段的嵌入特征向量之间的相似度;响应于相似度小于相似度阈值,删除候选文本对。
在一些实施例中,确定模块4532,还用于调用第四语言模型分别对候选文本对中回答文本片段、以及候选引用文本片段进行编码处理,得到回答文本片段的嵌入特征向量、以及引用文本片段的嵌入特征向量;分别对回答文本片段的嵌入特征向量以及引用文本片段的嵌入特征向量进行池化处理,得到回答文本片段的语义特征向量以及引用文本片段的语义特征向量;将引用文本片段的语义特征向量与回答文本片段的语义特征向量进行拼接处理,得到候选文本对的融合特征向量;对融合特征向量进行映射处理,得到候选文本对中的回答文本片段以及引用文本片段的语义相似度;将语义相似度大于语义相似度阈值的候选文本对确定为匹配文本对。
在一些实施例中,确定模块4532,还用于响应于至少一个回答文本片段的数量小于或等于第一数量阈值,将至少一个回答文本片段匹配的引用文本片段,分别插入到至少一个回答文本片段匹配之后的位置;响应于至少一个回答文本片段匹配的引用文本片段的数量大于第一数量阈值,将至少一个回答文本片段分别匹配的引用文本片段,统一插入到回答文本的末端。
在一些实施例中,确定模块4532,还用于响应于至少一个回答文本片段的数量大于第二数量阈值,按照至少一个回答文本片段与所匹配的引用文本片段之间的相似度进行降序排序,从降序排序结果中的头部开始,将设定数量或设定比例的回答文本片段匹配的引用文本片段,作为待插入的文本片段。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的文本处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令或者计算机程序,当计算机可执行指令或者计算机程序被处理器执行时,将引起处理器执行本申请实施例提供的文本处理方法,例如,如图3A-图3L示出的文本处理方法。
在一些实施例中,计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(Hyper TextMarkup Language,HTML)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例,获取查询文本调用搜索引擎接口生成富有时效性的多个文本搜索结果,然后从文本搜索结果中提取出与查询文本匹配相关的答案文本片段,并执行进一步筛选,从多个答案文本片段中确定出与查询文本相关度最高的文本片段,作为大语言模型的参考文本。然后调用大语言模型从参考文本中预测出查询文本对应的回答文本,生成对应的文本,从而增加了大语言模型生成内容的可控性,提高了生成内容的时效性。接下来从提供的候选引用文本中筛选出与大语言模型的生成文本(即回答文本)相似度高的文本作为引用文本,以与生成文本中每个子句都添加引用内容,一方面可以解决大语言模型生成内容无引用信息,难以判断真假和进一步深入了解的问题,另一方面将引用内容作为大语言模型生成文本的引用资料,也提高了大语言模型生成文本的真实性和可信度,解决原有生成文本事实性以及可信度低,可能存在杜撰的问题。另外,本申请实施例提供的文本处理方法应用到搜索系统中,通过查询文本从搜索结果中快速筛选到参考资料,能够显著提升搜索信息的获取效率,改善搜索系统的体验。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包括在本申请的保护范围之内。
Claims (17)
1.一种文本处理方法,其特征在于,所述方法包括:
获取查询文本;
基于所述查询文本调用搜索引擎接口,以获取与所述查询文本对应的多个文本搜索结果;
针对每个所述文本搜索结果执行以下处理:
将所述文本搜索结果分割为固定长度的多个候选引用文本片段;
获取所述查询文本分别与所述多个候选引用文本片段之间的匹配得分、以及所述候选引用文本片段中的每个元素作为答案文本片段的起始位置的起始概率和结束位置的结束概率;
确定最优匹配片段,其中,所述最优匹配片段是最大值的所述匹配得分对应的所述候选引用文本片段;
确定所述最优匹配片段中的起始元素和结束元素,其中,所述起始元素是最大值的所述起始概率对应的所述元素,所述结束元素是最大值的所述结束概率对应的所述元素;
将所述最优匹配片段中位于所述起始元素和所述结束元素之间的部分,作为与所述查询文本匹配的答案文本片段;
确定所述查询文本分别与所述多个答案文本片段的相关度,将最大值的所述相关度对应的所述答案文本片段,作为所述查询文本的参考文本;
基于所述查询文本和所述参考文本调用第一语言模型,以获取所述查询文本的回答文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述查询文本调用搜索引擎接口,以获取与所述查询文本对应的多个文本搜索结果,包括:
基于所述查询文本调用搜索引擎接口,以使所述搜索引擎接口按照生成时间排序的方式搜索与所述查询文本相关的多个文本搜索结果;
从所述搜索引擎接口获取与所述查询文本相关的多个文本搜索结果。
3.根据权利要求1所述的方法,其特征在于,所述获取所述查询文本分别与所述多个候选引用文本片段之间的匹配得分、以及所述候选引用文本片段中的每个元素作为答案文本片段起始位置的起始概率和结束位置的结束概率,包括:
将所述多个候选引用文本片段分别与所述查询文本组合为文本对;
基于每个所述文本对调用第二语言模型,以获取所述查询文本分别与所述多个候选引用文本片段之间的匹配得分、以及所述候选引用文本片段中的每个元素作为答案文本片段起始位置的起始概率和结束位置的结束概率。
4.根据权利要求3所述的方法,其特征在于,所述基于每个所述文本对调用第二语言模型,以获取所述查询文本分别与所述多个候选引用文本片段之间的匹配得分以及所述文本片段中的每个元素作为答案文本片段起始位置的起始概率和结束位置的结束概率,包括:
针对每个所述候选引用文本片段,执行以下处理:
将所述查询文本以及所述候选引用文本片段中每个元素作为一个常规标记,将所述每个元素的常规标记拼接为第一标记序列,其中,所述第一标记序列的头部插入有开始标记;
对所述第一标记序列进行嵌入处理,得到所述第一标记序列的嵌入特征向量;
基于所述第一标记序列的嵌入特征向量调用所述第二语言模型进行编码处理,得到所述第一标记序列的语义特征向量;
对所述第一标记序列的语义特征向量中所述开始标记的语义特征向量进行映射处理,得到所述查询文本与所述候选引用文本片段的匹配得分;
对所述第一标记序列的语义特征向量中每个所述常规标记对应的语义特征向量进行映射处理,得到所述候选引用文本片段中的每个元素作为答案文本片段起始位置的起始概率和结束位置的结束概率。
5.根据权利要求1所述的方法,其特征在于,所述答案文本片段包括标题文本,所述确定所述查询文本分别与所述多个答案文本片段的相关度,包括:
针对每个答案文本片段,执行以下处理:
将所述查询文本、所述答案文本片段、以及所述标题文本中每个元素作为一个常规标记,将所述每个元素的常规标记拼接为第二标记序列,其中,所述第二标记序列的头部插入有开始标记,所述查询文本与所述答案文本片段、所述答案文本片段与所述标题文本之间的常规标记以分隔标记连接;
对所述第二标记序列进行嵌入处理,得到所述第二标记序列的嵌入特征向量;
调用第三语言模型对所述第二标记序列的嵌入特征向量进行编码处理,得到所述第二标记序列的语义特征向量;
对所述第二标记序列的语义特征向量进行映射处理,得到所述查询文本与所述答案文本片段的相关度。
6.根据权利要求1所述的方法,其特征在于,
所述基于所述查询文本和所述参考文本调用第一语言模型,以获取所述查询文本的回答文本,包括:
基于所述查询文本以及所述参考文本调用第一语言模型对查询文本进行预测处理,以确定回答文本在所述参考文本中的起始元素和结束元素;
将所述参考文本的起始元素和结束元素之间的文本作为所述查询文本的所述回答文本。
7.根据权利要求6所述的方法,其特征在于,
所述调用第一语言模型对所述查询文本以及所述参考文本进行预测处理,以确定回答文本在所述参考文本中的起始元素和结束元素,包括:
将所述查询文本、所述参考文本中每个元素作为一个常规标记,将所述常规标记拼接为第三标记序列,其中,所述第三标记序列的头部插入有开始标记,所述查询文本与所述参考文本之间的常规标记以分隔标记连接;
对所述第三标记序列进行嵌入处理,得到所述第三标记序列的嵌入特征向量;
基于所述第三标记序列的嵌入特征向量调用所述第一语言模型进行编码处理,得到所述第三标记序列中每个常规标记的语义特征向量;
对每个所述常规标记对应的语义特征向量进行映射处理,得到所述参考文本的每个元素分别作为所述回答文本起始元素的起始概率和所述结束元素的结束概率;
将最大值的所述起始概率对应的元素作为回答文本的起始元素,将最大值的结束概率对应的元素作为所述回答文本的结束元素。
8.根据权利要求1所述的方法,其特征在于,在所述基于所述查询文本和所述参考文本调用第一语言模型,以获取所述查询文本的回答文本之后,所述方法还包括:
获取多个候选引用文本,其中,所述候选引用文本包括用于在所述回答文本中引用的素材;
将所述回答文本切分为多个回答文本片段,并将每个所述候选引用文本切分为多个引用文本片段;
确定至少一个回答文本片段匹配的引用文本片段,并将所述至少一个回答文本片段匹配的引用文本片段插入所述回答文本中。
9.根据权利要求8所述的方法,其特征在于,所述确定至少一个所述回答文本片段匹配的引用文本片段,包括:
将所述多个回答文本片段和所述多个引用文本片段进行两两组合,以形成多个候选文本对;
从所述多个候选文本对中识别出至少一个匹配文本对,确定所述匹配文本对中的所述引用文本片段与所述匹配文本对中的所述回答文本片段匹配。
10.根据权利要求9所述的方法,其特征在于,
所述从所述多个候选文本对中识别出至少一个匹配文本对,包括:
调用第四语言模型分别对所述候选文本对中回答文本片段、以及候选引用文本片段进行编码处理,得到所述回答文本片段的嵌入特征向量、以及所述引用文本片段的嵌入特征向量;
分别对所述回答文本片段的嵌入特征向量以及所述引用文本片段的嵌入特征向量进行池化处理,得到所述回答文本片段的语义特征向量以及所述引用文本片段的语义特征向量;
将所述引用文本片段的语义特征向量与所述回答文本片段的语义特征向量进行拼接处理,得到所述候选文本对的融合特征向量;
对所述融合特征向量进行映射处理,得到所述候选文本对中的回答文本片段以及引用文本片段的语义相似度;
将所述语义相似度大于语义相似度阈值的所述候选文本对确定为匹配文本对。
11.根据权利要求9所述的方法,其特征在于,在所述从所述多个候选文本对中识别出匹配文本对之前,所述方法还包括:
针对每个所述候选文本对,执行以下处理:
对所述候选文本对中的回答文本片段和引用文本片段分别进行关键词识别;
响应于从所述回答文本片段和所述引用文本片段至少之一未识别出关键词,
删除所述候选文本对。
12.根据权利要求9所述的方法,其特征在于,在所述从所述多个候选文本对中识别出匹配文本对之前,所述方法还包括:
针对每个所述候选文本对,执行以下处理:
分别对所述候选文本对中的所述回答文本片段和所述引用文本片段进行编码处理,得到所述回答文本片段的嵌入特征向量和所述引用文本片段的嵌入特征向量;
确定所述回答文本片段的嵌入特征向量与所述引用文本片段的嵌入特征向量之间的相似度;
响应于所述相似度小于相似度阈值,删除所述候选文本对。
13.根据权利要求8至12任一项所述的方法,其特征在于,
所述将所述至少一个回答文本片段匹配的引用文本片段插入所述回答文本中,包括:
响应于所述至少一个回答文本片段的数量小于或等于第一数量阈值,将所述至少一个回答文本片段匹配的引用文本片段,分别插入到所述至少一个回答文本片段之后的位置;
响应于所述至少一个回答文本片段的数量大于所述第一数量阈值,将所述至少一个回答文本片段分别匹配的引用文本片段,统一插入到所述回答文本的末端。
14.根据权利要求8至12任一项所述的方法,其特征在于,
在所述将所述至少一个回答文本片段匹配的引用文本片段插入所述回答文本中之前,所述方法还包括:
响应于所述至少一个回答文本片段匹配的引用文本片段的数量大于第二数量阈值,按照至少一个回答文本片段与所匹配的引用文本片段之间的相似度进行降序排序,从所述降序排序结果中的头部开始,将设定数量或设定比例的回答文本片段匹配的引用文本片段,作为待插入的文本片段。
15.一种文本处理装置,其特征在于,所述装置包括:
获取模块,用于获取查询文本;
所述获取模块,还用于基于所述查询文本调用搜索引擎接口,以获取与所述查询文本对应的多个文本搜索结果;
所述获取模块,还用于针对每个所述文本搜索结果执行以下处理:将所述文本搜索结果分割为固定长度的多个候选引用文本片段;获取所述查询文本分别与所述多个候选引用文本片段之间的匹配得分、以及所述候选引用文本片段中的每个元素作为答案文本片段的起始位置的起始概率和结束位置的结束概率;确定最优匹配片段,其中,所述最优匹配片段是最大值的所述匹配得分对应的所述候选引用文本片段;确定所述最优匹配片段中的起始元素和结束元素,其中,所述起始元素是最大值的所述起始概率对应的所述元素,所述结束元素是最大值的所述结束概率对应的所述元素;将所述最优匹配片段中位于所述起始元素和所述结束元素之间的部分,作为与所述查询文本匹配的答案文本片段;
确定模块,用于确定所述查询文本分别与所述多个答案文本片段的相关度,将最大值的所述相关度对应的所述答案文本片段,作为所述查询文本的参考文本;
调用模块,用于基于所述查询文本和所述参考文本调用第一语言模型,以获取所述查询文本的回答文本。
16.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令或计算机程序;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现权利要求1至14任一项所述的文本处理方法。
17.一种计算机可读存储介质,存储有计算机可执行指令或者计算机程序,其特征在于,所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至14任一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310525850.2A CN116340467B (zh) | 2023-05-11 | 2023-05-11 | 文本处理方法、装置、电子设备、及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310525850.2A CN116340467B (zh) | 2023-05-11 | 2023-05-11 | 文本处理方法、装置、电子设备、及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116340467A CN116340467A (zh) | 2023-06-27 |
CN116340467B true CN116340467B (zh) | 2023-11-17 |
Family
ID=86882568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310525850.2A Active CN116340467B (zh) | 2023-05-11 | 2023-05-11 | 文本处理方法、装置、电子设备、及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340467B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271611B (zh) * | 2023-11-21 | 2024-02-13 | 中国电子科技集团公司第十五研究所 | 一种基于大模型的信息检索方法、装置及设备 |
CN117312534B (zh) * | 2023-11-28 | 2024-02-23 | 南京中孚信息技术有限公司 | 一种基于保密知识库的智能问答实现方法、装置及介质 |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436199A (zh) * | 2008-09-27 | 2009-05-20 | 复旦大学 | 一种xml压缩数据的多查询处理方法 |
CN101535945A (zh) * | 2006-04-25 | 2009-09-16 | 英孚威尔公司 | 全文查询和搜索系统及其使用方法 |
CN101650958A (zh) * | 2009-07-23 | 2010-02-17 | 中国科学院声学研究所 | 对电影类视频进行场景片段抽取方法及其建立索引的方法 |
CN102200967A (zh) * | 2011-03-30 | 2011-09-28 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种基于dna序列的文本处理方法和系统 |
CN102314418A (zh) * | 2011-10-09 | 2012-01-11 | 北京航空航天大学 | 一种基于上下文关联的中文相似性比较方法 |
CN102591851A (zh) * | 2011-12-31 | 2012-07-18 | 上海聚力传媒技术有限公司 | 一种用于基于键盘按键对目标文本进行编辑的方法与设备 |
CN103246857A (zh) * | 2013-04-28 | 2013-08-14 | 复旦大学 | 一种使用形式化解码规则解析异构编码获得物品信息的方法 |
CN103399862A (zh) * | 2013-07-04 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 确定目标查询序列所对应的搜索引导信息的方法与设备 |
CN103440253A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 语音检索方法及系统 |
CN103530430A (zh) * | 2013-11-06 | 2014-01-22 | 焦点科技股份有限公司 | 一种含格式的html富文本数据的跨标签处理方法及系统 |
CN106708799A (zh) * | 2016-11-09 | 2017-05-24 | 上海智臻智能网络科技股份有限公司 | 一种文本纠错方法、装置及终端 |
CN106710588A (zh) * | 2016-12-20 | 2017-05-24 | 科大讯飞股份有限公司 | 语音数据句类识别方法和装置及系统 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
CN110955761A (zh) * | 2019-10-12 | 2020-04-03 | 深圳壹账通智能科技有限公司 | 文书中问答数据获取方法、装置、计算机设备和存储介质 |
CN111159343A (zh) * | 2019-12-26 | 2020-05-15 | 上海科技发展有限公司 | 基于文本嵌入的文本相似性搜索方法、装置、设备和介质 |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN112100326A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种抗干扰的融合检索和机器阅读理解的知识库问答方法及系统 |
CN112347229A (zh) * | 2020-11-12 | 2021-02-09 | 润联软件系统(深圳)有限公司 | 一种答案抽取方法、装置、计算机设备及存储介质 |
CN112417885A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 基于人工智能的答案生成方法、装置、计算机设备及介质 |
CN113434636A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于语义的近似文本搜索方法、装置、计算机设备及介质 |
CN114328796A (zh) * | 2021-08-19 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 问答索引生成方法、问答模型处理方法、装置和存储介质 |
CN114722069A (zh) * | 2022-04-07 | 2022-07-08 | 平安科技(深圳)有限公司 | 语言转换方法和装置、电子设备及存储介质 |
CN115794995A (zh) * | 2022-11-29 | 2023-03-14 | 科大讯飞股份有限公司 | 目标答案获取方法及相关装置、电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327877A1 (en) * | 2008-06-28 | 2009-12-31 | Yahoo! Inc. | System and method for disambiguating text labeling content objects |
US8135581B2 (en) * | 2008-08-12 | 2012-03-13 | Abbyy Software Ltd | Method and system for downloading additional search results into electronic dictionaries |
-
2023
- 2023-05-11 CN CN202310525850.2A patent/CN116340467B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101535945A (zh) * | 2006-04-25 | 2009-09-16 | 英孚威尔公司 | 全文查询和搜索系统及其使用方法 |
CN101436199A (zh) * | 2008-09-27 | 2009-05-20 | 复旦大学 | 一种xml压缩数据的多查询处理方法 |
CN101650958A (zh) * | 2009-07-23 | 2010-02-17 | 中国科学院声学研究所 | 对电影类视频进行场景片段抽取方法及其建立索引的方法 |
CN102200967A (zh) * | 2011-03-30 | 2011-09-28 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种基于dna序列的文本处理方法和系统 |
CN102314418A (zh) * | 2011-10-09 | 2012-01-11 | 北京航空航天大学 | 一种基于上下文关联的中文相似性比较方法 |
CN102591851A (zh) * | 2011-12-31 | 2012-07-18 | 上海聚力传媒技术有限公司 | 一种用于基于键盘按键对目标文本进行编辑的方法与设备 |
CN103246857A (zh) * | 2013-04-28 | 2013-08-14 | 复旦大学 | 一种使用形式化解码规则解析异构编码获得物品信息的方法 |
CN103399862A (zh) * | 2013-07-04 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 确定目标查询序列所对应的搜索引导信息的方法与设备 |
CN103440253A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 语音检索方法及系统 |
CN103530430A (zh) * | 2013-11-06 | 2014-01-22 | 焦点科技股份有限公司 | 一种含格式的html富文本数据的跨标签处理方法及系统 |
CN106708799A (zh) * | 2016-11-09 | 2017-05-24 | 上海智臻智能网络科技股份有限公司 | 一种文本纠错方法、装置及终端 |
CN106710588A (zh) * | 2016-12-20 | 2017-05-24 | 科大讯飞股份有限公司 | 语音数据句类识别方法和装置及系统 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
CN110955761A (zh) * | 2019-10-12 | 2020-04-03 | 深圳壹账通智能科技有限公司 | 文书中问答数据获取方法、装置、计算机设备和存储介质 |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN111159343A (zh) * | 2019-12-26 | 2020-05-15 | 上海科技发展有限公司 | 基于文本嵌入的文本相似性搜索方法、装置、设备和介质 |
CN112100326A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种抗干扰的融合检索和机器阅读理解的知识库问答方法及系统 |
CN112347229A (zh) * | 2020-11-12 | 2021-02-09 | 润联软件系统(深圳)有限公司 | 一种答案抽取方法、装置、计算机设备及存储介质 |
CN112417885A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 基于人工智能的答案生成方法、装置、计算机设备及介质 |
CN113434636A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于语义的近似文本搜索方法、装置、计算机设备及介质 |
CN114328796A (zh) * | 2021-08-19 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 问答索引生成方法、问答模型处理方法、装置和存储介质 |
CN114722069A (zh) * | 2022-04-07 | 2022-07-08 | 平安科技(深圳)有限公司 | 语言转换方法和装置、电子设备及存储介质 |
CN115794995A (zh) * | 2022-11-29 | 2023-03-14 | 科大讯飞股份有限公司 | 目标答案获取方法及相关装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
搜索引擎技术研究与发展;印鉴, 陈忆群, 张钢;计算机工程(14);第63-65+113页 * |
海量数据并行压缩算法研究;伍东;李建;税敏;;山西电子技术(02);第87-89页 * |
聚焦查询的自动文摘研究与实现;索红光;安迪;;计算机工程与应用(14);第133-135页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116340467A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116340467B (zh) | 文本处理方法、装置、电子设备、及计算机可读存储介质 | |
CN108197098B (zh) | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 | |
CN111967242A (zh) | 一种文本信息的抽取方法、装置及设备 | |
CN111814482B (zh) | 文本关键数据的提取方法、系统和计算机设备 | |
CN112101041A (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN112256861A (zh) | 一种基于搜索引擎返回结果的谣言检测方法及电子装置 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
US20220101060A1 (en) | Text partitioning method, text classifying method, apparatus, device and storage medium | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN111143507A (zh) | 一种基于复合式问题的阅读理解方法 | |
CN116975340A (zh) | 信息检索方法、装置、设备、程序产品及存储介质 | |
CN113282711A (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN112988982B (zh) | 一种计算机比较空间的自主学习方法及系统 | |
CN112395407B (zh) | 企业实体关系的抽取方法、装置及存储介质 | |
CN113673225A (zh) | 中文句子相似性判别方法、装置、计算机设备和存储介质 | |
CN112487154A (zh) | 一种基于自然语言的智能搜索方法 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN113420119B (zh) | 基于知识卡片的智能问答方法、装置、设备及存储介质 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN114510561A (zh) | 答案选择方法、装置、设备及存储介质 | |
CN117891900B (zh) | 基于人工智能的文本处理方法及文本处理模型训练方法 | |
CN115269851B (zh) | 文章分类方法、装置、电子设备、存储介质及程序产品 | |
CN114218923B (zh) | 文本摘要抽取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |