CN117194610A - 文本处理方法、装置、计算设备、以及计算机程序产品 - Google Patents
文本处理方法、装置、计算设备、以及计算机程序产品 Download PDFInfo
- Publication number
- CN117194610A CN117194610A CN202311201679.6A CN202311201679A CN117194610A CN 117194610 A CN117194610 A CN 117194610A CN 202311201679 A CN202311201679 A CN 202311201679A CN 117194610 A CN117194610 A CN 117194610A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- query
- vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000004590 computer program Methods 0.000 title claims description 9
- 239000013598 vector Substances 0.000 claims abstract description 176
- 239000012634 fragment Substances 0.000 claims abstract description 39
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 36
- 238000003860 storage Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 241000590419 Polygonia interrogationis Species 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 235000002198 Annona diversifolia Nutrition 0.000 description 3
- 244000303258 Annona diversifolia Species 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000157593 Milvus Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种文本处理方法,其包括:利用经训练的第一模型,将用户提供的目标查询文本转换为查询向量;筛选出第一数据源中与查询向量的相似度符合第一预设条件的目标向量,第一数据源中的各个向量利用经训练的第一模型对第一文本集合中各个文本的文本片段进行转换而获得;利用经训练的第二模型,将目标查询文本转换为查询关键词集合;筛选出第二数据源中与查询关键词集合符合第二预设条件的目标关键词集合,第二数据源中的各个关键词集合利用经训练的第二模型对第二文本集合中各个文本的文本片段进行转换而获得;以及基于目标向量和目标关键词集合,确定与目标查询文本对应的第一目标匹配文本。
Description
技术领域
本公开涉及计算机技术领域,具体地,涉及一种文本处理方法、装置、计算设备、计算机可读存储介质以及计算机程序产品。
背景技术
随着计算机技术和互联网的不断发展,各行各业的从业人员越来越多地转向数字化办公,与此同时,海量数据的产生使得相应从业人员越来越难以获取其感兴趣或对其有价值的信息。例如,在投研领域(即,投资银行、证券公司等金融机构的业务相关领域),随着相关机构的工作范围不断扩大,为了帮助做出合理的投资决策,相关投资人员需要阅读和分析大量相关文档(例如,关于公司、行业的研究调查报告),在此过程中,投资人员往往需要对某个行业(例如,新能源行业)的关键数据进行统计分析,由于相关行业可能存在来自不同机构(例如,证券公司、智库、行业公司等)的大量文档,投资人员需要通过阅读和整理每个相关文档进行分析、总结,这会耗费投资人员的大量时间。
在相关技术中,经常使用一种分布式的数据分析引擎ElasticSearch,用户需要将相关文档提交到ElasticSearch数据库中,然后由ElasticSearch通过分词控制器将文档中相应的语句分词,进而将其权重和分词结果一并存入ElasticSearch数据库,当用户查询数据的时候,由ElasticSearch根据权重将结果进行排名和打分,最后将结果返回并呈现给用户。然而,由于该技术采用传统的字词查询方法,其准确性受到用户输入的查询语句的较大影响,例如,在查询语句不包含关键词语的场景下,可能得到较多的无关内容,从而影响查询结果的准确性。
发明内容
有鉴于此,本公开提供了一种文本处理方法、装置、计算设备、计算机可读存储介质以及计算机程序产品,以缓解、减轻、甚至消除上述问题。
根据本公开的一个方面,提供了一种文本处理方法,其包括:利用经训练的第一模型,将用户提供的目标查询文本转换为查询向量;基于所述查询向量和第一数据源中的各个特征向量,筛选出目标向量,其中所述第一数据源中的各个特征向量利用所述经训练的第一模型对第一文本集合中各个文本的文本片段进行转换而获得,所述目标向量是所述第一数据源中与所述查询向量的相似度符合第一预设条件的特征向量;利用经训练的第二模型,将所述目标查询文本转换为查询关键词集合;基于所述查询关键词集合和第二数据源中的各个特征关键词集合,筛选出目标关键词集合,其中所述第二数据源中的各个特征关键词集合利用所述经训练的第二模型对第二文本集合中各个文本的文本片段进行转换而获得,所述目标关键词集合是所述第二数据源中与所述查询关键词集合符合第二预设条件的特征关键词集合;以及基于所述目标向量和所述目标关键词集合,确定与所述目标查询文本对应的第一目标匹配文本。
根据本公开的一些实施例,所述经训练的第一模型通过以下步骤训练得到:将多个样本文本对输入待训练的第一模型,以获取与所述多个样本文本对一一对应的多个样本向量对,其中各个样本文本对均包括样本文本片段和样本查询文本,各个样本向量对均包括第一向量和第二向量,所述第一向量与相应样本文本对中的样本文本片段对应,所述第二向量与相应样本文本对中的样本查询文本对应;基于各个样本向量对中的第一向量和第二向量,确定相应样本文本对的预测结果;基于各个样本文本对的预测结果和相应的样本结果,确定第一损失函数;以及调整所述待训练的第一模型的参数,使得所述第一损失函数最小化。
根据本公开的一些实施例,所述经训练的第二模型通过以下步骤训练得到:将多个样本文本片段输入待训练的第二模型,以获取与所述多个样本文本片段一一对应的多个预测关键词集合,其中各个预测关键词集合均包括与所述多个样本文本片段中的相应样本文本片段对应的多个预测关键词;基于各个样本文本片段的预测关键词集合和相应的样本关键词集合,确定第二损失函数;以及调整所述待训练的第二模型的参数,使得所述第二损失函数最小化。
根据本公开的一些实施例,所述第一预设条件包括:所述目标向量和所述查询向量的相似度大于第二阈值。
根据本公开的一些实施例,所述第二预设条件包括:所述目标关键词集合中属于所述查询关键词集合中的元素的目标关键词的数量大于第三阈值。
根据本公开的一些实施例,所述第一文本集合和所述第二文本集合相同,并且所述第一文本集合由所述用户从预设文本集合中选取或者由所述用户提供。
根据本公开的一些实施例,所述第一文本集合和所述第二文本集合中各个文本的文本片段通过以下策略中的至少一种而获取:根据标点符号,对所述第一文本集合和所述第二文本集合中的各个文本进行切分,以获取相应文本的文本片段,所述标点符号包括句号、封号、问号、感叹号中的任一种;根据段落标记,对所述第一文本集合和所述第二文本集合中的各个文本进行切分,以获取相应文本的文本片段;以及按照预设文本长度,对所述第一文本集合和所述第二文本集合中的各个文本进行切分,以获取相应文本的文本片段。
根据本公开的一些实施例,所述基于所述目标向量和所述目标关键词集合,确定与所述目标查询文本对应的第一目标匹配文本,包括:将与所述目标向量对应的文本片段以及与所述目标关键词集合对应的文本片段作为所述第一目标匹配文本。
根据本公开的一些实施例,所述方法还包括:利用数据查询系统,获取与所述目标查询文本对应的第二目标匹配文本,其中所述数据查询系统包括以下中的任一种:ElasticSearch、MongoDB;以及将所述第一目标匹配文本和所述第二目标匹配文本作为所述目标查询文本的查询结果而提供给所述用户。
根据本公开的一些实施例,所述方法还包括:将所述第一目标匹配文本输入经训练的第三模型,以获取与所述第一目标匹配文本对应的目标总结文本,所述经训练的第三模型是基于Transformer构建的生成模型;以及将所述目标总结文本作为所述目标查询文本的查询结果而提供给所述用户。
根据本公开的另一个方面,提供了一种文本处理装置,其包括:第一转换模块,被配置为利用经训练的第一模型,将用户提供的目标查询文本转换为查询向量;第一筛选模块,被配置为基于所述查询向量和第一数据源中的各个特征向量,筛选出目标向量,其中所述第一数据源中的各个特征向量利用所述经训练的第一模型对第一文本集合中各个文本的文本片段进行转换而获得,所述目标向量是所述第一数据源中与所述查询向量的相似度符合第一预设条件的特征向量;第二转换模块,被配置为利用经训练的第二模型,将所述目标查询文本转换为查询关键词集合;第二筛选模块,被配置为基于所述查询关键词集合和第二数据源中的各个特征关键词集合,筛选出目标关键词集合,其中所述第二数据源中的各个特征关键词集合利用所述经训练的第二模型对第二文本集合中各个文本的文本片段进行转换而获得,所述目标关键词集合是所述第二数据源中与所述查询关键词集合符合第二预设条件的特征关键词集合;以及文本匹配模块,被配置为基于所述目标向量和所述目标关键词集合,确定与所述目标查询文本对应的第一目标匹配文本。
根据本公开的又一个方面,提供了一种计算设备,包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当所述计算机可执行指令被处理器执行时执行根据本公开的前述方面提供的任一方法。
根据本公开的又一个方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行根据本公开的前述方面提供的任一方法。
根据本公开的又一个方面,提供了一种计算机程序产品,包括计算机可执行指令,其中所述计算机可执行指令被处理器执行时执行根据本公开的前述方面提供的任一方法。
根据本公开提供的文本处理方法,可以利用经训练的第一模型,将用户提供的目标查询文本转换为查询向量,然后筛选出第一数据源中与查询向量的相似度符合第一预设条件的目标向量,其中第一数据源中的各个向量利用经训练的第一模型对第一文本集合中各个文本的文本片段进行转换而获得;然后,利用经训练的第二模型,将目标查询文本转换为查询关键词集合,并且筛选出第二数据源中与查询关键词集合符合第二预设条件的目标关键词集合,其中第二数据源中的各个关键词集合利用经训练的第二模型对第二文本集合中各个文本的文本片段进行转换而获得;最后,基于目标向量和目标关键词集合,确定与目标查询文本对应的第一目标匹配文本。分别利用经训练的第一模型和第二模型将目标查询文本转换为查询向量和查询关键词集合,能够在文本匹配过程中充分利用查询向量的语义特征和查询关键词集合的多个查询关键词,从而覆盖更多的查询场景。此外,由于可以将目标向量和目标关键词集合对应的文本片段作为与目标查询文本对应的第一目标匹配文本,可以进一步提高查询结果的准确性。
根据在下文中所描述的实施例,本公开的这些和其他方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的技术方案的更多细节、特征和优点被公开,在附图中:
图1示意性示出了可以应用根据本公开的一些实施例提供的技术方案的示例场景;
图2示意性示出了根据本公开的一些实施例的文本处理方法的示例流程图;
图3示意性示出了图2中的文本处理方法的示例原理图;
图4示意性示出了根据本公开的另一些实施例的文本处理方法的示例原理图;
图5示意性示出了根据本公开的又一些实施例的文本处理方法的示例原理图;
图6示意性示出了根据本公开的一些实施例的文本处理装置的示例框图;以及
图7图示了示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。
具体实施方式
下面将参照附图更详细地描述本公开的若干个实施例以便使得本领域技术人员能够实现本公开的技术方案。本公开的技术方案可以体现为许多不同的形式和目的,并且不应局限于本文所阐述的实施例。提供这些实施例是为了使得本公开的技术方案清楚完整,但所描述的实施例并不限定本公开的保护范围。
除非另有定义,本文中使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员所通常理解的相同含义。将进一步理解的是,诸如那些在通常使用的字典中定义的之类的术语应当被解释为具有与其在相关领域和/或本说明书上下文中的含义相一致的含义,并且将不在理想化或过于正式的意义上进行解释,除非本文中明确地如此定义。
在详细介绍本公开的实施例之前,首先对一些相关的概念进行解释。
1、投资银行:是与商业银行相对应的一类金融机构。主要从事证券发行、承销、交易、企业重组、兼并与收购、投资分析、风险投资、项目融资等业务的非银行金融机构,是资本市场上的主要金融中介。
2、机器学习(MachineLearning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
3、生成式大模型:其是通过大量的、多领域、多场景的训练数据训练得到的模型(例如,语言模型),可以用于生成高质量的文本、图片、语音甚至是视频。其典型示例包括OpenAI公司开发的基于Transformer架构的GPT系列模型。随着生成式大模型的不断发展,它在越来越多的应用场景中得到了广泛的应用。例如,在金融行业中,生成式大模型可以用于生成文本摘要甚至进行风险预测。在本公开中,经常使用其替代表述“生成模型”。
图1示意性示出了可以应用根据本公开的一些实施例提供的技术方案的示例场景100。如图1所示,场景100可以包括用户110、终端设备120(例如,计算机)、终端设备130(例如,平板电脑)、网络140、以及远端设施150。作为示例,远端设施150包括服务器151以及可选地还包括用于存放相关数据的数据库设备152,这些服务器或设备可以经由网络140实现通信。
在终端设备(例如,终端设备120)一侧,可以利用经训练的第一模型,将用户110提供的目标查询文本转换为查询向量。示例性地,用户110可以通过相应的用户界面(例如,应用程序、门户网站等提供的用户界面)输入目标查询文本,或者用户可以提供语音输入,进而由相应的程序将其转换为目标查询文本。替代地,相应的用户界面上可以显示一些现有的文本供用户110选择,在这种情况下,目标查询文本为用户110在终端设备一侧所选择的文本。另外,经训练的第一模型可以部署在终端设备一侧。当然这不是限制性地,根据实际需求(例如,在经训练的第一模型占用内存或算力较大时),可以将经训练的第一模型部署在远端设施150一侧(例如,部署在服务器151上),在这种情况下,用户110与终端设备交互,终端设备经由网络140与远端设施150通信以调用经训练的第一模型,进而经由网络140从远端设施150获取相应的模型运算结果(在该示例中为查询向量)。
接下来,可以基于所述查询向量和第一数据源中的各个特征向量,筛选出目标向量,其中所述第一数据源中的各个特征向量利用所述经训练的第一模型对第一文本集合中各个文本的文本片段进行转换而获得,所述目标向量是所述第一数据源中与所述查询向量的相似度符合第一预设条件的特征向量。第一文本集合可以是用户110上传至终端设备(例如,终端设备120)的文本的集合,也可以是预先存储在终端设备中的文本的集合。替代地,第一文本集合可以存储在远端设施150中(例如,存储在数据库设备152中)。利用所述经训练的第一模型,对第一文本集合中各个文本的文本片段进行转换而获得的各个特征向量存储在所述第一数据源中,所述第一数据源可以是普通的数据库(例如,其可以部署在终端设备120或远端设施150上),也可以是专门存储向量的向量数据库(例如,Milvus)。类似于第一文本集合,第一文本集合中各个文本的文本片段可以存储在终端设备上,也可以存储在远端设施150上。
在将用户110提供的目标查询文本转换为查询向量之前、之后或者同时,可以利用经训练的第二模型,将所述目标查询文本转换为查询关键词集合。类似于经训练的第一模型,经训练的第二模型可以部署在终端设备一侧,也可以部署在远端设施150一侧(例如,部署在服务器151上),在后一种情况下,用户110与终端设备交互,终端设备经由网络140与远端设施150通信以调用经训练的第二模型,进而经由网络140从远端设施150获取相应的模型运算结果(在该示例中为查询关键词集合)。查询关键词集合可以包括多个(例如,两个、三个、四个或更多)查询关键词。
接下来,可以基于所述查询关键词集合和第二数据源中的各个特征关键词集合,筛选出目标关键词集合,其中所述第二数据源中的各个特征关键词集合利用所述经训练的第二模型对第二文本集合中各个文本的文本片段进行转换而获得,所述目标关键词集合是所述第二数据源中与所述查询关键词集合符合第二预设条件的特征关键词集合。类似于第一文本集合,第二文本集合可以是用户110上传至终端设备的文本的集合,也可以是预先存储在终端设备中的文本的集合,甚至可以与第一文本集合完全相同,即可以将第一文本集合作为第二文本集合以节省相应存储空间。替代地,第二文本集合可以存储在远端设施150中(例如,存储在数据库设备152中)。利用所述经训练的第二模型,对第二文本集合中各个文本的文本片段进行转换而获得的各个特征关键词集合存储在所述第二数据源中,所述第二数据源可以是相关技术中的任意数据库(例如,其可以部署在终端设备120或远端设施150上)。类似于第一文本集合,第二文本集合中各个文本的文本片段可以存储在终端设备上,也可以存储在远端设施150上。
在获取所述目标向量和所述目标关键词集合之后,可以基于这二者来确定与所述目标查询文本对应的第一目标匹配文本。示例性地,可以将所述目标向量对应的文本片段和所述目标关键词集合对应的文本片段作为所述第一目标匹配文本。
在本公开中,远端设施150中的服务器151可以是单个服务器或服务器集群,远端设施150中的数据库设备152可以存储以上文本处理过程中所需要的各种数据。示例性地,用户110可以通过终端设备120或者终端设备130,以网页的方式访问远端设施150。替代地,用户可以通过终端设备120或者终端设备130上安装的客户端与远端设施150通信以进行相应的查询操作。可选地,服务器151还可以运行其他应用程序以及存储其他数据。例如,服务器151可以包括多个虚拟主机,用以运行不同的应用程序并提供不同服务。
在本公开中,终端设备120和130可以是各种类型的设备,例如移动电话、平板电脑、笔记本电脑、车载设备等。终端设备120和130上可以部署有客户端,该客户端可以用于进行任务相关操作(例如,发起任务、指定任务)以及可选地提供其他服务,并且可以采取如下形式中的任一种:本地安装的应用程序、经由其他应用程序访问的小程序、经由浏览器访问的Web程序等。用户110可以通过终端设备120和130的输入/输出接口来查看客户端所呈现的信息以及进行相应交互操作。可选地,终端设备120和130可以与服务器151集成在一起。
在本公开中,数据库设备152可视为电子化的文件柜,即存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个对象共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
此外,在本公开中,网络140可以是经由诸如电缆、光纤等连接的有线网络,也可以是诸如2G、3G、4G、5G、Wi-Fi、蓝牙、ZigBee、Li-Fi等的无线网络。
需要说明的是,本文所使用的术语“用户”指代任何可与终端设备120、终端设备130或者远端设施150进行数据交互的一方,包括但不限于人、程序软件、网络平台、甚至机器。
图2示意性示出了根据本公开的一些实施例的文本处理方法200的示例流程图。示例性地,文本处理方法200可以由图1所示的终端设备120或130来实施,当然这不是限制性的。
具体地,在步骤210,可以利用经训练的第一模型,将用户提供的目标查询文本转换为查询向量。其中,第一模型可以采用常用的机器学习或深度学习模型架构,例如,第一模型可以是简单的全连接神经网络,或者可以采用更复杂的网络模型中的编码器(Encoder)。特别地,第一模型可以是开源的Sentence-BERT(SBERT)模型,BERT模型在许多应用领域中都有着优异的表现,然而其参数量较大(例如,其base版本包含约1.1亿参数量),使得对相应的机器资源要求较高,并且在预测、推理速度等方面比传统网络如卷积神经网络(ConvolutionalNeural Networks,CNN)慢不止一个量级,在一些特定任务方面可能存在较大的优化空间。SBERT模型能够很好地解决上述问题,其沿用了孪生网络的结构,文本的编码器部分用同一个BERT模型来处理,在包括例如语义相似性、推理等文本处理任务中均取得优异的结果,并且具有较高的推理速度。以SBERT模型为例,在其基础上,可以结合领域数据(例如,投研领域的文本匹配数据)进行训练以得到所述经训练的第一模型。替代地,在领域数据难以获取或者相关机器资源不足时,可以直接使用预训练模型(例如,BERT模型或SBERT模型)作为所述经训练的第一模型以将用户提供的目标查询文本转换为查询向量。
在步骤220,可以基于所述查询向量和第一数据源中的各个特征向量,筛选出目标向量,其中所述第一数据源中的各个特征向量利用所述经训练的第一模型对第一文本集合中各个文本的文本片段进行转换而获得,所述目标向量是所述第一数据源中与所述查询向量的相似度符合第一预设条件的特征向量。示例性地,所述第一文本集合中的各个文本可以是投研领域中相关投资人员感兴趣的文本。例如,以多个研究机构(例如,证券公司)提供的新能源行业的研究报告为例,这些不同的研究报告可以采用各种文档形式(例如,Word文档、PDF文件甚至是演示文稿),可以从这些不同形式的文档中提取相应的文本数据形成所述第一文本集合。进一步地,利用所述经训练的第一模型将各个文本的文本片段转换为相应的特征向量之后,可以将这些特征向量存储在所述第一数据源中。
示例性地,可以将所述第一数据源中与所述查询向量的相似度大于某个阈值(例如,0.6、0.7、0.8、0.9或其他介于0和1之间的值)的特征向量作为所述目标向量。应当理解,当所述第一数据源中包括多个满足以上条件的特征向量时,可能存在多个所述目标向量。例如,当所述第一数据源中与所述查询向量的相似度大于0.88的特征向量有三个时,可以将这三个特征向量均作为所述目标向量。当然,在该示例中,取决于具体文本数据,应当理解,这三个特征向量可能对应于同一文本的三个文本片段,也可能对应于不同文本的相应文本片段。
需要说明的是,在本公开中,可以根据相关机器资源的实际情况,使用相关技术中的各种算法(包括但不限于余弦相似度算法、欧式距离算法、曼哈顿距离算法等)来确定不同向量的相似度,本公开对此不做限制。还需要说明的是,在本公开中,查询向量和特征向量的维度可以根据需求灵活设置,例如,可以将它们的维度均设置为512或1024,当然,也可以根据相关的机器资源的多少或匹配结果的准确性(其可以通过用户给出的反馈来衡量)而采用更小或更大的向量维度。另外,查询向量和特征向量的维度可以是相同的也可以是不同的,相同维度的查询向量和特征向量在计算二者的相似度方面可能提供更多的便捷。
在步骤230,可以利用经训练的第二模型,将所述目标查询文本转换为查询关键词集合。其中,第二模型可以是相关技术中各种生成式大模型,例如,第二模型可以是生成模型,例如各种基于Transformer构建的生成模型(包括但不限于Llama2、ChatGPT、LLaMA等模型)。本领域技术人员应理解,使用这些生成式大模型将所述目标查询文本转换为查询关键词集合的过程可能需要向这些生成式大模型提供相应的指令,例如,“提供以下文本的多个关键词”,当然,这仅仅是一个示例,可以使用各种各样的指令获取所述目标查询文本对应的查询关键词集合。替代地,第二模型也可以采用相关技术中的关键词抽取模型/算法等来实现,例如XGBoost、TextRank和TF-IDF等。需要说明的是,相较于后者,第二模型采用生成式大模型的一个优势可能在于,其获得的关键词在原文中不一定存在,这种特性在一定程度上扩大了关键词的范围,进而有助于提高文本匹配结果的全面性和准确性。
在步骤240,可以基于所述查询关键词集合和第二数据源中的各个特征关键词集合,筛选出目标关键词集合,其中所述第二数据源中的各个特征关键词集合利用所述经训练的第二模型对第二文本集合中各个文本的文本片段进行转换而获得,所述目标关键词集合是所述第二数据源中与所述查询关键词集合符合第二预设条件的特征关键词集合。示例性地,所述第二文本集合中的各个文本可以是投研领域中相关投资人员感兴趣的文本,其可以与所述第一文本集合相同,也可以不同于所述第一文本集合,后者能够使得用户在查询相关文档中获取更多范围内的结果,相当于扩大了文本查询范围,而前者有助于减少相关的数据处理量,从而节省相应的机器资源。利用所述经训练的第二模型将各个文本的文本片段转换为相应的特征关键词集合之后,可以将这些特征关键词集合存储在所述第二数据源中。本领域技术人员应理解,利用所述经训练的第二模型将各个文本的文本片段转换为相应的特征关键词集合的过程可以参照上文关于步骤230的描述来执行,这里不再赘述。
示例性地,无论是针对所述第一文本集合中的各个文本,还是针对所述第二文本集合中的各个文本,在本公开中,可以按照预设文本长度对相应文本进行切分以得到文本片段,可以根据需要对预设文本长度进行合理设置,例如,可以将其设置为256个字符、512个字符、1024个字符等。除了这种方式之外,还可以根据标点符号对相应文本进行切分以得到文本片段,例如,可以按照句号对相应文本进行切分以得到文本片段,这样得到的文本片段即为相应文本中的各个完整句子。此外,还可以根据段落标记对相应文本进行切分以得到文本片段,这样得到的文本片段即为相应文本中的各个自然段落,其在语义信息上往往更加完整。当然,这些切分方式可以结合使用,例如,可以综合考虑预设文本长度和标点符号对相应文本进行切分以得到文本片段,这种方式可以得到不超过预设文本长度并且包括各个完整句子的文本片段,这种方式在包含更加完整的语义信息的情况下能够保证各个文本片段的长度不超过预设文本长度,从而有助于节省相应的机器资源。
示例性地,可以将所述第二数据源中与所述查询关键词集合的相似度大于某个阈值(例如,0.75、0.82、0.93或其他介于0和1之间的值)的特征关键词集合作为所述目标关键词集合。应当理解,当所述第二数据源中包括多个满足以上条件的特征关键词集合时,可能存在多个所述目标关键词集合。例如,当所述第二数据源中与所述查询关键词集合的相似度大于0.79的特征关键词集合有四个时,可以将这四个特征关键词集合均作为所述目标关键词集合。当然,在该示例中,取决于具体文本数据,应当理解,这四个特征关键词集合可能对应于同一文本的四个文本片段,也可能对应于不同文本的相应文本片段。
需要说明的是,在本公开中,可以根据相关机器资源的实际情况,使用相关技术中的各种算法(包括但不限于余弦相似度算法、编辑距离算法、Damerau-Levenshtein算法等)来确定不同关键词集合的相似度,本公开对此不做限制。还需要说明的是,在本公开中,查询关键词集合和特征关键词集合的元素数量可以根据需求灵活设置,例如,可以将它们的元素数量均设置为6或8或10,当然,也可以根据相关的机器资源的多少或匹配结果的准确性(其可以通过用户给出的反馈来衡量)而采用更少或更多的元素数量。另外,查询关键词集合和特征关键词集合的元素数量可以是相同的也可以是不同的。
出于说明的目的,这里以编辑距离算法为例具体说明如何确定第二数据源中的各个特征关键词集合与查询关键词集合的相似度。示例性地,可以将第二数据源中的某个特征关键词集合(其他特征关键词集合参照此步骤进行处理)中的各个关键词组成第一数组,类似地,可以将查询关键词集合中的各个关键词组成第二数组。然后,对所述第一数组和所述第二数组进行相似性比对,根据比对结果确定该特征关键词集合和查询关键词集合的相似度。
示例性地,该特征关键词集合包括以下关键词:Key_1、Key_2、Key_3以及Key_4。而查询关键词集合包括以下关键词:Key_5、Key_6、Key_7以及Key_8。相应地,所述第一数组和所述第二数组可以分别定义如下:
array_1={”Key_1","Key_2","Key_3","Key_4"},
array_2={”Key_5","Key_6","Key_7","Key_8"}。
需要说明的是,尽管以上示例中数组array_1和array_2的各元素均具有字符串的形式,但本领域技术人员应理解,数组array_1和array_2的各元素可以是字符的形式,即各个关键词对应的字符串均可以被拆分成单个字符,并且这些字符按照原来的位次排序。可以将相似性比对的结果(例如,编辑距离算法得到的编辑距离)直接作为该特征关键词集合和查询关键词集合的相似度。替代地,也可以对相似性比对的结果进行处理(例如,归一化处理)并将相应的处理结果作为该特征关键词集合和查询关键词集合的相似度。示例性地,可以利用下式计算该特征关键词集合和查询关键词集合的相似度:
s=1-(DL/max(len(array_1),len(array_2)))。
其中,s表示该特征关键词集合和查询关键词集合的相似度,DL表示所述第一数组和所述第二数组之间的Damerau-Levenshtein距离,max(len(array_1),len(array_2))表示所述第一数组和所述第二数组的长度中的最大值。
此外,还需要说明的是,以上通过建立该特征关键词集合和查询关键词集合对应的数组进而确定二者相似度的方式仅仅是示例性地,替代地,也可以通过字符串的方式来确定二者的相似度。例如,可以获取与该特征关键词集合对应的第一字符串、以及与查询关键词集合对应的第二字符串,如下:
string_1=”Key_1Key_2Key_3Key_4",
string_2=”Key_5Key_6Key_7Key_8"。
在以上两个式子中,string_1表示所述第一字符串,string_2表示所述第二字符串。可以使用上文所述的相关技术中的确定两个序列之间的相似度的各种算法对该特征关键词集合和查询关键词集合进行相似性比对,进而根据比对结果确定该特征关键词集合和查询关键词集合的相似度。
除了上述将所述第二数据源中与所述查询关键词集合的相似度大于某个阈值的特征关键词集合作为所述目标关键词集合条件之外,替代地或附加地,可以将所述第二数据源中与所述查询关键词集合符合以下条件的特征关键词集合作为所述目标关键词集合:将所述第二数据源中至少包含所述查询关键词集合中的某个数量的元素的特征关键词集合作为所述目标关键词集合。换言之,所述目标关键词集合需要满足:该集合中与所述查询关键词集合中的相同元素的数量要大于某个阈值(例如,1、2、3、4或其他正整数)。示例性地,当所述第二数据源中与所述查询关键词集合的相同元素的数量超过三个的特征关键词集合有五个时,可以将这五个特征关键词集合均作为所述目标关键词集合。当然,在该示例中,取决于具体文本数据,应当理解,这五个特征关键词集合可能对应于同一文本的五个文本片段,也可能对应于不同文本的相应文本片段。
最后,在步骤250,可以基于所述目标向量和所述目标关键词集合,确定与所述目标查询文本对应的第一目标匹配文本。示例性地,可以将与所述目标向量对应的文本片段以及与所述目标关键词集合对应的文本片段作为所述第一目标匹配文本。作为另一示例,可以将与所述目标向量对应的文本片段所属的文本以及与所述目标关键词集合对应的文本片段所属的文本作为所述第一目标匹配文本。作为又一示例,可以将与所述目标向量对应的文本片段以及与所述目标关键词集合对应的文本片段所属的文本作为所述第一目标匹配文本。作为又一示例,可以将与所述目标向量对应的文本片段所属的文本以及与所述目标关键词集合对应的文本片段作为所述第一目标匹配文本。在第一个示例中,由于将与所述目标向量对应的文本片段以及与所述目标关键词集合对应的文本片段作为所述第一目标匹配文本,相较于其他示例,其可以减少向用户呈现的第一目标匹配文本的数据量大小进而有助于用户提高工作效率,而且这种情况下所述第一目标匹配文本也包含了与用户提供的目标查询文本对应的丰富的文本匹配信息(这是因为,如上文关于步骤220和步骤240的描述,所述目标向量和所述目标关键词集合都是基于相应文本的文本片段得到的)。
通过图2所示的文本处理方法200,可以分别利用经训练的第一模型和第二模型将目标查询文本转换为查询向量和查询关键词集合,从而能够在文本匹配过程中充分利用查询向量的语义特征和查询关键词集合的多个查询关键词,在覆盖更多的查询场景的情况下保证查询结果的准确性。
下面参照图3来进一步说明图2所示的文本处理方法200的原理。如图3所示,利用经训练的第一模型310,将用户提供的目标查询文本330转换为查询向量;然后,基于所述查询向量和第一数据源340中的各个特征向量,筛选出目标向量,其中第一数据源340中的各个特征向量利用经训练的第一模型310对第一文本集合中各个文本的文本片段进行转换而获得,所述目标向量是第一数据源340中与所述查询向量的相似度符合第一预设条件的特征向量;另外,利用经训练的第二模型320,将目标查询文本330转换为查询关键词集合;基于所述查询关键词集合和第二数据源350中的各个特征关键词集合,筛选出目标关键词集合,其中第二数据源350中的各个特征关键词集合利用经训练的第二模型320对第二文本集合中各个文本的文本片段进行转换而获得,所述目标关键词集合是第二数据源350中与所述查询关键词集合符合第二预设条件的特征关键词集合;最后,基于所述目标向量和所述目标关键词集合,确定与目标查询文本330对应的第一目标匹配文本360,如图3所示,第一目标匹配文本360可以包括多个文本片段。
需要说明的是,参照图3描述的上述步骤可以在用户侧设备(例如,图1所示的终端设备120)上执行,在这种情况下,经训练的第一模型310和经训练的第二模型320可以部署在终端设备120上,当然,当这些模型在终端设备120上无法运行或者需要较多的运算时间时,它们也可以部署在服务侧(例如,部署在图1所示的远端设施150上),在后一种情况下,用户侧设备可以经由有线或无线网络与远端设施150通信以获取相应的模型运算结果。
如上文所述,所述经训练的第一模型可以是在预训练的模型基础上结合领域数据训练得到的模型,这种训练方式可以充分利用模型已有的“知识”并且加速模型训练过程。具体地,以SBERT模型为例,可以将SBERT模型作为待训练的第一模型,进而将多个样本文本对输入该模型,以获取与所述多个样本文本对一一对应的多个样本向量对,其中各个样本文本对均包括样本文本片段和样本查询文本,各个样本向量对均包括第一向量和第二向量,所述第一向量与相应样本文本对中的样本文本片段对应,所述第二向量与相应样本文本对中的样本查询文本对应。其中,每一个样本文本对中的样本文本片段和样本查询文本可以通过领域数据获得,示例性地,用户利用相关技术中的搜索引擎所得的对应于用户查询文本的文本片段可以作为样本文本片段,相应的用户查询文本可以作为样本查询文本,至于指示二者是否匹配(即标签)的值,可以根据搜索引擎给出的相应文本片段在搜索结果中的排序来确定,也可以根据用户的反馈(即相应文本片段是否是其期望的结果)来确定。
接下来,可以基于各个样本向量对中的第一向量和第二向量,确定相应样本文本对的预测结果,进而基于各个样本文本对的预测结果和相应的样本结果,确定第一损失函数。示例性地,可以使用标签“1”作为对应于某个多个样本文本对的样本结果,其指示该样本文本对中的样本文本片段与样本查询文本匹配。与此相反,可以使用标签“0”作为对应于另一个样本文本对的样本结果,其指示该样本文本对中的样本文本片段与样本查询文本不匹配。样本文本对的预测结果可以根据相应样本向量对中的第一向量和第二向量的相似度来确定。
通过所述第一损失函数,能够在模型训练的过程中利用标签提供的监督信息。本公开实施例对获取所述第一损失函数的方式不加以限定,示例性地,可以获取所述待训练的第一模型输出的预测结果与相应标签的交叉熵损失函数,将该交叉熵损失函数作为所述第一损失函数。进而调整所述待训练的第一模型的参数,使得所述第一损失函数最小化。
参照上文关于文本处理方法200的描述,所述经训练的第二模型可以是上文所述的相关技术中的各种生成式大模型或者是结合领域数据对这些模型进行微调的结果。替代地,可以使用相关技术中的各种深度学习模型作为待训练的第二模型,具体地,以全连接神经网络模型(其包含Softmax层)为例,可以将该模型作为待训练的第二模型,进而将多个样本文本片段输入该模型,以获取与所述多个样本文本片段一一对应的多个预测关键词集合,其中各个预测关键词集合均包括与所述多个样本文本片段中的相应样本文本片段对应的多个预测关键词。其中,每一个样本文本片段对应的一个预测关键词集合中包括多个预测关键词,这些预测关键词由该模型输出结果中概率较高的若干关键词(例如,概率值较高的前3个、前4个关键词等)组成。进而基于各个样本文本片段的预测关键词集合和相应的样本关键词集合,确定第二损失函数。示例性地,可以利用相关技术中的生成式大模型来获取各个样本文本片段对应的关键词集合作为相应的样本关键词集合。可以基于各个样本文本片段的预测关键词集合和相应的样本关键词集合之间的差异(例如,该差异可以通过二者对应的序列的相似度来衡量)确定所述第二损失函数(例如,交叉熵损失函数),进而调整所述待训练的第二模型的参数,使得所述第二损失函数最小化。
需要说明的是,在本公开中,表述“使得所述第一损失函数最小化”和表述“使得所述第二损失函数最小化”在本文中可以指模型的训练次数达到次数阈值而使得相应损失函数取值最小化,也可以指相应损失函数取值小于损失函数阈值而触发训练终止导致的损失函数取值最小化,还可以指获得理想或非常接近理想的损失函数的全局最小值。另外,“使得所述第一损失函数最小化”和“使得所述第二损失函数最小化”的替代性表述可以是“使得所述第一损失函数收敛”和“使得所述第二损失函数收敛”,也可以是“使得所述第一损失函数达到最值”和“使得所述第二损失函数达到最值”等。次数阈值以及损失函数阈值可以根据经验设置,或者根据应用场景灵活调整,本公开对此不做限制。
在一些实施例中,所述第一文本集合和所述第二文本集合相同,并且所述第一文本集合由所述用户从预设文本集合中选取或者由所述用户提供。参照图3,在这种情况下,终端设备(例如,图1所示的终端设备120)为用户提供的交互界面(例如,Web页面)上显示有预设文本集合,用户可以从该集合中选取至少一部分文本作为所述第一文本集合,进而终端设备120可以基于所述第一文本集合和用户提供的目标查询文本来确定相应的第一目标匹配文本,即所述第一目标匹配文本是从所述第一文本集合中选取的,例如,所述第一目标匹配文本可以是该文本集合中相应文本的若干文本片段。这种方式为文本匹配过程提供了更多的灵活性,用户可以根据需要(例如,特定行业、特定公司)选取相应的文本进行查询。示例性地,可以将预设文本集合中各个文本打上行业、公司、时间等类型的标签,从而用户在进行查询时,可以按照文本类型选择从指定文本中进行搜索、分析。
另外,需要说明的是,如上文所述,向用户提供的所述第一目标匹配文本可能包含多个文本片段,在显示优先级上可以有更加灵活的设置。示例性地,在一个层级下显示这些文本片段时,可以将与目标向量对应的文本片段更加靠前地显示,而将与目标关键词集合对应的文本片段相对靠后地显示(当然,也可以相反)。另外,与目标向量对应的文本片段可能有多个,它们在显示顺序上可以随机排列,也可以根据相应的目标向量与查询向量的相似度,将那些相似度更高的目标向量对应的文本片段更加靠前地显示。与目标关键词集合对应的文本片段也可能有多个,它们在显示顺序上可以随机排列,也可以根据相应的目标关键词集合与查询关键词集合的相似度,将那些相似度更高的目标关键词集合对应的文本片段更加靠前地显示。
作为另一示例,在不同层级下显示这些文本片段时,可以将与目标向量对应的文本片段在第一层级显示,而将与目标关键词集合对应的文本片段在第一层级下的第二层级显示(当然,也可以相反)。至于同一层级中各个文本片段的显示顺序,可以参照上一示例进行处理,这里不再赘述。这些不同的显示方式有助于进一步提高查询效率、改善用户的查询体验。
图4示意性示出了根据本公开的另一些实施例的文本处理方法的示例原理图。如图4所示,利用数据查询系统470(例如,ElasticSearch或MongoDB),获取与用户提供的目标查询文本430对应的第二目标匹配文本462,其中第二目标匹配文本462可以包括多个文本片段。另外,利用经训练的第一模型410,将目标查询文本430转换为查询向量;然后,基于所述查询向量和第一数据源440中的各个特征向量,筛选出目标向量,其中第一数据源440中的各个特征向量利用经训练的第一模型410对第一文本集合中各个文本的文本片段进行转换而获得,所述目标向量是第一数据源440中与所述查询向量的相似度符合第一预设条件的特征向量;另外,利用经训练的第二模型420,将目标查询文本430转换为查询关键词集合;基于所述查询关键词集合和第二数据源450中的各个特征关键词集合,筛选出目标关键词集合,其中第二数据源450中的各个特征关键词集合利用经训练的第二模型420对第二文本集合中各个文本的文本片段进行转换而获得,所述目标关键词集合是第二数据源450中与所述查询关键词集合符合第二预设条件的特征关键词集合;最后,基于所述目标向量和所述目标关键词集合,确定与目标查询文本430对应的第一目标匹配文本461,第一目标匹配文本461也可以包括多个文本片段。进而将第一目标匹配文本461和第二目标匹配文本462作为目标查询文本430的查询结果(即图4所示的匹配文本460)提供给所述用户。这种文本处理方法能够很好地弥补相关技术中的数据查询系统的缺点。
图5示意性示出了根据本公开的又一些实施例的文本处理方法的示例原理图。如图5所示,在采用类似于图3和图4描述的部分步骤获取第一目标匹配文本560之后(其中,目标查询文本530对应于目标查询文本330和430,经训练的第一模型510对应于经训练的第一模型310和410,经训练的第二模型520对应于经训练的第二模型320和420,第一数据源540对应于第一数据源340和440,第一数据源540对应于第一数据源340和440,第二数据源550对应于第二数据源350和450),可以将第一目标匹配文本560输入经训练的第三模型570,以获取与第一目标匹配文本560对应的目标总结文本580,经训练的第三模型570可以是基于Transformer构建的生成模型,例如,LLama2、LLaMA或ChatGPT模型。最后,将目标总结文本580作为目标查询文本530的查询结果而提供给所述用户。图5所示的文本处理方法能够利用相关技术中的生成式大模型对获取的匹配文本进行总结输出,有助于提高相关用户的文本处理效率。本领域技术人员应理解,使用这些生成式大模型将第一目标匹配文本560转换为目标总结文本580的过程可能需要向这些生成式大模型提供相应的指令,例如,“对第一目标匹配文本560进行概括总结”,当然,这仅仅是一个示例,可以使用各种表达方式的相关指令获取第一目标匹配文本560对应的目标总结文本580。
本领域技术人员应理解,在不产生矛盾的情况下,所公开的某个实施例中的一个或多个特征可以与其他实施例中的一个或多个特征相组合。示例性地,可以结合参照图4描述的实施例中的部分特征对参照图5描述的实施例进行修改,例如,可以将图4所示的匹配文本460(其包括第一目标匹配文本461和第二目标匹配文本462)输入图5所示的经训练的第三模型570,以获取与匹配文本460对应的目标总结文本580。最后,将目标总结文本580作为目标查询文本430(或者目标查询文本530,二者可以相同)的查询结果而提供给所述用户。
图6示意性示出了根据本公开的一些实施例的文本处理装置600的示例框图。示例性地,文本处理装置600可以部署在图1所示的终端设备120或130上。如图6所示,文本处理装置600包括第一转换模块610、第一筛选模块620、第二转换模块630、第二筛选模块640以及文本匹配模块650。
具体地,第一转换模块610可以被配置为利用经训练的第一模型,将用户提供的目标查询文本转换为查询向量;第一筛选模块620可以被配置为基于所述查询向量和第一数据源中的各个特征向量,筛选出目标向量,其中所述第一数据源中的各个特征向量利用所述经训练的第一模型对第一文本集合中各个文本的文本片段进行转换而获得,所述目标向量是所述第一数据源中与所述查询向量的相似度符合第一预设条件的特征向量;第二转换模块630可以被配置为利用经训练的第二模型,将所述目标查询文本转换为查询关键词集合;第二筛选模块640可以被配置为基于所述查询关键词集合和第二数据源中的各个特征关键词集合,筛选出目标关键词集合,其中所述第二数据源中的各个特征关键词集合利用所述经训练的第二模型对第二文本集合中各个文本的文本片段进行转换而获得,所述目标关键词集合是所述第二数据源中与所述查询关键词集合符合第二预设条件的特征关键词集合;以及文本匹配模块650可以被配置为基于所述目标向量和所述目标关键词集合,确定与所述目标查询文本对应的第一目标匹配文本。
应理解,文本处理装置600可以以软件、硬件或软硬件相结合的方式实现.该装置中的多个不同模块可以在同一软件或硬件结构中实现,或者一个模块可以由多个不同的软件或硬件结构实现。
此外,文本处理装置600可以用于实施前文所描述的文本处理方法200,其相关细节已经在前文中详细描述,为简洁起见,这里不再赘述。另外,这些装置可以具有与对应方法描述的相同的特征和优势。
图7图示了示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备700。计算设备700可以是例如区块链中的节点所使用的服务器、与服务器相关联的设备、片上系统、和/或任何其他合适的计算设备或计算系统。上面参照图6描述的文本处理装置600可以采取计算设备700的形式。替换地,文本处理装置600可以以应用716的形式被实现为计算机程序。
如图7所示的示例计算设备700包括彼此通信耦合的处理系统711、一个或多个计算机可读介质712以及一个或多个I/O接口713。尽管未示出,但是计算设备700还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统711代表使用硬件执行一个或多个操作的功能。因此,处理系统711被图示为包括可被配置为处理器、功能块等的硬件元件714。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其他逻辑器件。硬件元件714不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质712被图示为包括存储器/存储装置715。存储器/存储装置715表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置715可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置715可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质712可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口713代表允许用户使用各种输入设备向计算设备700输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备700可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备700还包括应用716。应用716可以例如是文本处理装置600的软件实例,并且与计算设备700中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备700访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备700的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其他传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其他无线介质的无线介质。
如前所述,硬件元件714和计算机可读介质712代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其他实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其他程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件714体现的一个或多个指令和/或逻辑。计算设备700可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件714,可以至少部分地以硬件来实现将模块实现为可由计算设备700作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备700和/或处理系统711)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备700可以采用各种不同的配置。例如,计算设备700可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备700还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备700还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备700的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台722而在“云”720上全部或部分地实现。
云720包括和/或代表用于资源724的平台722。平台722抽象云720的硬件(例如,服务器)和软件资源的底层功能。资源724可以包括在远离计算设备700的服务器上执行计算机处理时可以使用的应用和/或数据。资源724还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台722可以抽象资源和功能以将计算设备700与其他计算设备连接。平台722还可以用于抽象资源的分级以提供遇到的对于经由平台722实现的资源724的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统700内。例如,功能可以部分地在计算设备700上以及通过抽象云720的功能的平台722来实现。
应当理解,为清楚起见,参考不同的功能单元对本公开的实施例进行了描述。然而,将明显的是,在不偏离本公开的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其他功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本公开可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
将理解的是,尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分,但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。
尽管已经结合一些实施例描述了本公开,但是其不旨在被限于在本文中所阐述的特定形式。相反,本公开的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其他元件,并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供,不应该被解释为以任何方式限制权利要求的范围。
应当理解,为清楚起见,参考不同的功能单元对本公开的实施例进行了描述。然而,将明显的是,在不偏离本公开的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其他功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本公开可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
本公开提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令在被执行时实现上述的文本处理方法。
本公开提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述各种可选实现方式中提供的文本处理方法。
通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除其他元件或步骤,并且“一”或“一个”不排除多个。在相互不同的从属权利要求中记载某些措施的纯粹事实并不指示这些措施的组合不能被有利地使用。
可以理解的是,在本公开的具体实施方式中,涉及到不同领域的文本数据。当本公开以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
Claims (14)
1.一种文本处理方法,包括:
利用经训练的第一模型,将用户提供的目标查询文本转换为查询向量;
基于所述查询向量和第一数据源中的各个特征向量,筛选出目标向量,其中所述第一数据源中的各个特征向量利用所述经训练的第一模型对第一文本集合中各个文本的文本片段进行转换而获得,所述目标向量是所述第一数据源中与所述查询向量的相似度符合第一预设条件的特征向量;
利用经训练的第二模型,将所述目标查询文本转换为查询关键词集合;
基于所述查询关键词集合和第二数据源中的各个特征关键词集合,筛选出目标关键词集合,其中所述第二数据源中的各个特征关键词集合利用所述经训练的第二模型对第二文本集合中各个文本的文本片段进行转换而获得,所述目标关键词集合是所述第二数据源中与所述查询关键词集合符合第二预设条件的特征关键词集合;以及
基于所述目标向量和所述目标关键词集合,确定与所述目标查询文本对应的第一目标匹配文本。
2.根据权利要求1所述的方法,其中所述经训练的第一模型通过以下步骤训练得到:
将多个样本文本对输入待训练的第一模型,以获取与所述多个样本文本对一一对应的多个样本向量对,其中各个样本文本对均包括样本文本片段和样本查询文本,各个样本向量对均包括第一向量和第二向量,所述第一向量与相应样本文本对中的样本文本片段对应,所述第二向量与相应样本文本对中的样本查询文本对应;
基于各个样本向量对中的第一向量和第二向量,确定相应样本文本对的预测结果;
基于各个样本文本对的预测结果和相应的样本结果,确定第一损失函数;以及
调整所述待训练的第一模型的参数,使得所述第一损失函数最小化。
3.根据权利要求1所述的方法,其中所述经训练的第二模型通过以下步骤训练得到:
将多个样本文本片段输入待训练的第二模型,以获取与所述多个样本文本片段一一对应的多个预测关键词集合,其中各个预测关键词集合均包括与所述多个样本文本片段中的相应样本文本片段对应的多个预测关键词;
基于各个样本文本片段的预测关键词集合和相应的样本关键词集合,确定第二损失函数;以及
调整所述待训练的第二模型的参数,使得所述第二损失函数最小化。
4.根据权利要求1所述的方法,其中所述第一预设条件包括:
所述目标向量和所述查询向量的相似度大于第二阈值。
5.根据权利要求1所述的方法,其中所述第二预设条件包括:
所述目标关键词集合中属于所述查询关键词集合中的元素的目标关键词的数量大于第三阈值。
6.根据权利要求1所述的方法,其中所述第一文本集合和所述第二文本集合相同,并且所述第一文本集合由所述用户从预设文本集合中选取或者由所述用户提供。
7.根据权利要求1所述的方法,其中所述第一文本集合和所述第二文本集合中各个文本的文本片段通过以下策略中的至少一种而获取:
根据标点符号,对所述第一文本集合和所述第二文本集合中的各个文本进行切分,以获取相应文本的文本片段,所述标点符号包括句号、封号、问号、感叹号中的任一种;
根据段落标记,对所述第一文本集合和所述第二文本集合中的各个文本进行切分,以获取相应文本的文本片段;以及
按照预设文本长度,对所述第一文本集合和所述第二文本集合中的各个文本进行切分,以获取相应文本的文本片段。
8.根据权利要求1所述的方法,其中所述基于所述目标向量和所述目标关键词集合,确定与所述目标查询文本对应的第一目标匹配文本,包括:
将与所述目标向量对应的文本片段以及与所述目标关键词集合对应的文本片段作为所述第一目标匹配文本。
9.根据权利要求1所述的方法,还包括:
利用数据查询系统,获取与所述目标查询文本对应的第二目标匹配文本,其中所述数据查询系统包括以下中的任一种:ElasticSearch、MongoDB;以及
将所述第一目标匹配文本和所述第二目标匹配文本作为所述目标查询文本的查询结果而提供给所述用户。
10.根据权利要求1所述的方法,还包括:
将所述第一目标匹配文本输入经训练的第三模型,以获取与所述第一目标匹配文本对应的目标总结文本,所述经训练的第三模型是基于Transformer构建的生成模型;以及
将所述目标总结文本作为所述目标查询文本的查询结果而提供给所述用户。
11.一种文本处理装置,包括:
第一转换模块,被配置为利用经训练的第一模型,将用户提供的目标查询文本转换为查询向量;
第一筛选模块,被配置为基于所述查询向量和第一数据源中的各个特征向量,筛选出目标向量,其中所述第一数据源中的各个特征向量利用所述经训练的第一模型对第一文本集合中各个文本的文本片段进行转换而获得,所述目标向量是所述第一数据源中与所述查询向量的相似度符合第一预设条件的特征向量;
第二转换模块,被配置为利用经训练的第二模型,将所述目标查询文本转换为查询关键词集合;
第二筛选模块,被配置为基于所述查询关键词集合和第二数据源中的各个特征关键词集合,筛选出目标关键词集合,其中所述第二数据源中的各个特征关键词集合利用所述经训练的第二模型对第二文本集合中各个文本的文本片段进行转换而获得,所述目标关键词集合是所述第二数据源中与所述查询关键词集合符合第二预设条件的特征关键词集合;以及
文本匹配模块,被配置为基于所述目标向量和所述目标关键词集合,确定与所述目标查询文本对应的第一目标匹配文本。
12.一种计算设备,包括:
存储器,其被配置成存储计算机可执行指令;
处理器,其被配置成当所述计算机可执行指令被处理器执行时执行根据权利要求1至10中的任一项所述的方法。
13.一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行根据权利要求1至10中的任一项所述的方法。
14.一种计算机程序产品,包括计算机可执行指令,其中所述计算机可执行指令被处理器执行时执行根据权利要求1至10中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311201679.6A CN117194610A (zh) | 2023-09-18 | 2023-09-18 | 文本处理方法、装置、计算设备、以及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311201679.6A CN117194610A (zh) | 2023-09-18 | 2023-09-18 | 文本处理方法、装置、计算设备、以及计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117194610A true CN117194610A (zh) | 2023-12-08 |
Family
ID=89003137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311201679.6A Pending CN117194610A (zh) | 2023-09-18 | 2023-09-18 | 文本处理方法、装置、计算设备、以及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194610A (zh) |
-
2023
- 2023-09-18 CN CN202311201679.6A patent/CN117194610A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657231B2 (en) | Capturing rich response relationships with small-data neural networks | |
US11599714B2 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
CN112507715B (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US11455542B2 (en) | Text processing method and device based on ambiguous entity words | |
US10146874B2 (en) | Refining topic representations | |
CN106776673B (zh) | 多媒体文档概括 | |
US9449271B2 (en) | Classifying resources using a deep network | |
US11860675B2 (en) | Latent network summarization | |
US9846836B2 (en) | Modeling interestingness with deep neural networks | |
US11720761B2 (en) | Systems and methods for intelligent routing of source content for translation services | |
CN111190997B (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
AU2016256753A1 (en) | Image captioning using weak supervision and semantic natural language vector space | |
AU2016256764A1 (en) | Semantic natural language vector space for image captioning | |
AU2014201827A1 (en) | Scoring concept terms using a deep network | |
CN116097250A (zh) | 用于多模式文档理解的布局感知多模式预训练 | |
US11822590B2 (en) | Method and system for detection of misinformation | |
US11308146B2 (en) | Content fragments aligned to content criteria | |
US20230368003A1 (en) | Adaptive sparse attention pattern | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
US11361031B2 (en) | Dynamic linguistic assessment and measurement | |
Wu et al. | Deep semantic hashing with dual attention for cross-modal retrieval | |
US20230162518A1 (en) | Systems for Generating Indications of Relationships between Electronic Documents | |
CN115455152A (zh) | 写作素材的推荐方法、装置、电子设备及存储介质 | |
US20220366133A1 (en) | Training a Model in a Data-Scarce Environment Using Added Parameter Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |