CN116561253A - 用于训练语义特征向量生成模型和语义搜索的方法和装置 - Google Patents
用于训练语义特征向量生成模型和语义搜索的方法和装置 Download PDFInfo
- Publication number
- CN116561253A CN116561253A CN202310476189.0A CN202310476189A CN116561253A CN 116561253 A CN116561253 A CN 116561253A CN 202310476189 A CN202310476189 A CN 202310476189A CN 116561253 A CN116561253 A CN 116561253A
- Authority
- CN
- China
- Prior art keywords
- text
- semantic
- training
- vector generation
- semantic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 189
- 238000012549 training Methods 0.000 title claims abstract description 160
- 238000000034 method Methods 0.000 title claims abstract description 128
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 59
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 8
- 238000012512 characterization method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 241000579895 Chlorostilbon Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书的实施例提供了一种用于训练语义特征向量生成模型和语义搜索的方法和装置。在该用于训练语义特征向量生成模型的方法中,对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;根据第一部分文本集和所述第二部分文本集确定训练样本集,其中,训练样本集包括正样本对和负样本对,正样本对由来自于原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于原始语料中不同文本的第一部分文本和第二部分文本组成;以及根据训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
Description
技术领域
本说明书实施例通常涉及自然语言处理(Natural Language Processing,NLP)技术领域,尤其涉及用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法和装置。
背景技术
随着人工智能技术的飞速发展,自然语言处理技术逐渐取得越来越广泛的应用。例如在语义搜索领域,为了实现在大量文本中找到与输入的文本语义相近的文本,通常需要借助于各种文本向量化方法,将整个文本转化为语义特征向量的形式,再通过向量之间的相似度计算来确定文本之间的相似度。现有的文本向量化方法中,通常采用诸如优化预训练或微调(fine-tuning)方式以期望提高语义表征的准确性。但由于现有方式主要针对通用文本表征方法,因而在针对特定需求的文本语义模糊匹配场景下的匹配效果不理想。虽然对比学习(Contrastive Learning)为提高文本语义特征向量的表征效果提供了可能,但如何选取对比学习所需要的正负样本则会直接影响整个方法的效果。
发明内容
鉴于上述,本说明书实施例提供了一种用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法和装置。利用该方法、装置,可以实现提高文本的语义特征向量的表征能力,进而有助于更准确地确定语义相似度,尤其有助于针对特定需求的文本语义模糊匹配场景的语义搜索方法的召回率的有效提升。
根据本说明书的实施例的一个方面,提供一种用于训练语义特征向量生成模型的方法,包括:对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;根据所述第一部分文本集和所述第二部分文本集确定训练样本集,其中,所述训练样本集包括正样本对和负样本对,正样本对由来自于所述原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于所述原始语料中不同文本的第一部分文本和第二部分文本组成;以及根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
根据本说明书的实施例的另一个方面,提供一种语义相似度确定方法,包括:将待查询文本和参考文本分别提供给如前述的用于训练语义特征向量生成模型的方法训练得到的语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量;以及根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。
根据本说明书的实施例的又一个方面,提供一种语义搜索方法,包括:接收用户提供的查询文本;根据如前述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度;基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及将所述语义搜索结果提供给所述用户。
根据本说明书的实施例的又一个方面,提供一种用于训练语义搜索的语义特征向量生成模型的装置,包括:文本提取单元,被配置为对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;样本确定单元,被配置为根据所述第一部分文本集和所述第二部分文本集确定训练样本集,其中,所述训练样本集包括正样本对和负样本对,正样本对由来自于所述原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于所述原始语料中不同文本的第一部分文本和第二部分文本组成;以及训练单元,被配置为根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
根据本说明书的实施例的再一个方面,提供一种语义相似度确定装置,包括:向量生成单元,被配置为将待查询文本和参考文本分别提供给如前述的用于训练语义特征向量生成模型的方法训练得到的语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量;以及相似度确定单元,被配置为根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。
根据本说明书的实施例的再一个方面,提供一种语义搜索装置,包括:接收单元,被配置为接收用户提供的查询文本;各相似度确定单元,被配置为根据如前述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度;语义搜索单元,被配置为基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及结果提供单元,被配置为将所述语义搜索结果提供给所述用户。
根据本说明书的实施例的另一方面,提供一种用于训练语义特征向量生成模型的装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的用于训练语义特征向量生成模型的方法。
根据本说明书的实施例的另一方面,提供一种语义相似度确定装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的语义相似度确定方法。
根据本说明书的实施例的另一方面,提供一种语义搜索装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的语义搜索方法。
根据本说明书的实施例的另一方面,提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法。
根据本说明书的实施例的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如上所述的用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了根据本说明书的实施例的用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法和装置的示例性架构。
图2示出了根据本说明书的实施例的用于训练语义特征向量生成模型的方法的一个示例的流程图。
图3示出了根据本说明书的实施例的用于训练语义特征向量生成模型的方法的一个示例的示意图。
图4示出了根据本说明书的实施例的基于对比学习方法训练语义特征向量生成模型的过程的一个示例的流程图。
图5示出了根据本说明书的实施例的语义相似度确定方法的一个示例的流程图。
图6示出了根据本说明书的实施例的语义搜索方法的一个示例的流程图。
图7示出了根据本说明书的实施例的用于训练语义特征向量生成模型的装置的一个示例的方框图。
图8示出了根据本说明书的实施例的用于训练语义特征向量生成模型的装置中训练单元的一个示例的方框图。
图9示出了根据本说明书的实施例的语义相似度确定装置的一个示例的方框图。
图10示出了根据本说明书的实施例的语义搜索装置的一个示例的方框图。
图11示出了根据本说明书的实施例的用于训练语义特征向量生成模型的装置的一个示例的方框图。
图12示出了根据本说明书的实施例的语义相似度确定装置的一个示例的方框图。
图13示出了本说明书的实施例的语义搜索装置的一个示例的方框图。
具体实施方式
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书实施例内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在本说明书中,术语“语义特征向量”可以指各种能够用于表征语义信息的向量。例如,可以是通过各种方式得到的词嵌入(embedding)。
在本说明书中,术语“对比学习”是一种自监督学习方法。这类方法可以通过将锚点样本(anchor example)与正例样本(positive example)和/或负例样本(negativeexample)在特征空间进行对比,来学习样本的特征表示,以拉进锚点样本与正例样本的特征表示之间的距离和/或拉远锚点样本与负例样本的特征表示之间的距离。
下面将结合附图来详细描述根据本说明书实施例的用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法和装置。
图1示出了根据本说明书实施例的用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法和装置的示例性架构100。
在图1中,网络110被应用于在终端设备120和应用服务器130之间进行互连。
网络110可以是能够对网络实体进行互连的任何类型的网络。网络110可以是单个网络或各种网络的组合。在覆盖范围方面,网络110可以是局域网(LAN)、广域网(WAN)等。在承载介质方面,网络110可以是有线网络、无线网络等。在数据交换技术方面,网络110可以是电路交换网络、分组交换网络等。
终端设备120可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如,终端设备120可以是台式计算机、笔记本电脑、平板电脑、智能电话等。尽管在图1中仅示出了一个终端设备,但是应当理解,可以有不同数量的终端设备连接到网络110。
在一种实施方式中,终端设备120可以由用户使用。终端设备120可以包括可为用户提供各种服务的应用客户端(例如应用客户端121)。在一些情况下,应用客户端121可以与应用服务器130进行交互。例如,应用客户端121可以将用户输入的消息传送到应用服务器130,并且从应用服务器130接收与上述消息相关联的响应。然而,应当理解,在其它情况下,应用客户端121也可以在本地生成对用户输入的消息的响应,而不是与应用服务器130进行交互。在本文中,“消息”可以指任何输入信息,例如来自用户输入的查询文本1211等。
应用服务器130可以与参考文本数据库133连接。其中,参考文本数据库133中可以包括多个参考文本。可选地,上述参考文本数据库133中也可以包括多个参考文本的各个参考文本对应的语义特征向量。在一个示例中,各个参考文本对应的语义特征向量可以通过将各个参考文本分别提供给语义特征向量生成模型132而得到。可选地,上述应用服务器130也可以通过各种方式获取通过训练样本集131训练得到的语义特征向量生成模型132。例如,应用服务器130可以在本地训练语义特征向量生成模型132,也可以从通信连接的其他电子设备获取训练好的语义特征向量生成模型132。
应当理解,图1中所示的所有网络实体都是示例性的,根据具体的应用需求,架构100中可以涉及任何其它网络实体。
图2示出了根据本说明书的实施例的用于训练语义特征向量生成模型的方法200的流程图。
如图2所示,在210,对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集。
在本实施例中,可以通过各种方式对原始语料进行文本提取。通常,上述原始语料可以包括各种文本。上述文本的内容和形式可以根据实际应用场景而灵活设定,此处不作限定。上述第一部分文本和第二部分文本可以是从上述原始语料中提取得到的文本片段。作为示例,上述原始语料可以是资讯文本集。可以根据文本所处的位置(例如标题处)或特定词(例如“摘要”、“关键词”)等对上述原始语料进行文本提取,得到与各资讯对应的第一部分文本(例如标题文本)和第二部分文本(例如摘要文本、关键词等)。也可以对上述原始语料进行处理,例如利用文本摘要自动生成技术为各资讯的文本片段(例如每个文本段落、每10行文本、每页文本等)生成段落摘要。将上述段落摘要作为上述第一部分文本或第二部分文本。可以理解,上述原始语料也可以是论文集、中文百科、商品介绍等等,此处不作限定。
在本实施例的一些可选的实现方式中,上述第一部分文本可以包括上述原始语料中的文本的标题。上述第二部分文本可以包括上述原始语料中的文本的关键词。可以理解,上述文本的标题和文本的关键词可以是直接从原始语料的文本中提取得到的,也可以是利用标题自动生成技术或关键词提取技术来根据原始语料的文本而生成的。
在本实施例的一些可选的实现方式中,上述用于训练语义特征向量生成模型的方法所训练得到的语义特征向量生成模型可以应用于服务搜索。上述服务搜索可以包括对于点餐、购物、快递、天气、政务等服务类关键词进行搜索。上述第一部分文本可以包括服务的名称。例如,“XX外卖”、“XX美食”、“XX购物”、“XX快递”、“XX天气”、“XX政务服务平台”等。上述第二部分文本可以包括服务所涉及的功能的关键词。例如“点餐”、“评价”、“商品分类”、“查快递”、“寄快递”、“取快递”、“15天预报”、“留言建议”、“一卡通”、“公租房”、“社保”、“公积金”等。可以理解,在服务搜索领域,上述原始语料例如可以是各个服务(例如小程序、订阅号等)的页面所包含的文本内容。
在220,根据第一部分文本集和第二部分文本集确定训练样本集。
在本实施例中,可以通过各种方法确定训练样本集。在一个示例中,上述训练样本集可以包括正样本对和负样本对。上述正样本对由来自于上述原始语料中同一文本的第一部分文本和第二部分文本组成。上述负样本对由来自于上述原始语料中不同文本的第一部分文本和第二部分文本组成。例如,上述原始语料中包括文本A、文本B、文本C、文本D。上述第一部分文本集可以包括文本A、文本B、文本C、文本D各自的第一部分文本。上述第二部分文本集可以包括文本A、文本B、文本C、文本D各自的第二部分文本。一方面,例如可以将文本A的第一部分文本和文本A的第二部分文本组成正样本对。同理,可以将文本B的第一部分文本和文本B的第二部分文本组成正样本对。另一方面,例如可以将文本A的第一部分文本和文本B的第二部分文本组成负样本对。同理,可以将文本B的第一部分文本和文本C的第二部分文本组成负样本对。以此类推,可以将得到的多个正样本对和多个负样本对组成训练样本集。
在230,根据训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
在本实施例中,可以根据训练样本集的正样本对和负样本对,通过各种方式基于对比学习方法的思想训练语义特征向量生成模型。在一个示例中,上述语义特征向量生成模型可以包括各种用于生成文本的语义特征向量的模型。例如,上述语义特征向量生成模型可以是基于Transformers的双向编码器。上述基于Transformers的双向编码器例如可以是BERT(Bidirectional Encoder Representation from Transformers)模型、XLNet模型、ALBERT模型等预训练模型。
在一个示例中,训练步骤可以包括:将正样本对的第一部分文本和第二部分文本提供给当前语义特征向量生成模型,得到与上述正样本对的第一部分文本和第二部分文本分别对应的语义特征向量;可以确定该正样本对的第一部分文本和第二部分文本分别对应的语义特征向量之间的语义相似度;可以根据所确定的语义相似度确定损失值。其中,上述语义相似度的表现形式可以包括但不限于以下至少一项:欧式距离(EuclideanDistance),余弦相似度(Cosine similarity),余弦距离(Cosine distance)。上述损失值通常与上述正样本对所对应的语义相似度负相关。即,最小化该损失值对应的损失函数相当于最大化正样本对的第一部分文本和第二部分文本的匹配概率。当满足训练结束条件(例如迭代次数达到预设次数、训练时长达到预设时长、损失值收敛等)时,可以将当前语义特征向量生成模型确定为训练完成的语义特征向量生成模型。当不满足上述训练结束条件时,可以根据所确定的损失值调整当前语义特征向量生成模型的参数并且继续执行上述训练步骤。可见,通过上述方法得到的训练完成的语义特征向量生成模型可以学习到文本中第一部分文本和第二部分文本之间的相关性,从而有助于针对内容相关的第一部分文本和第二部分文本生成语义较为相似的语义特性向量。
在一个示例中,训练步骤可以包括:将负样本对的第一部分文本和第二部分文本提供给当前语义特征向量生成模型,得到与上述负样本对的第一部分文本和第二部分文本分别对应的语义特征向量;可以确定该负样本对的第一部分文本和第二部分文本分别对应的语义特征向量之间的语义相似度;可以根据所确定的语义相似度确定损失值。其中,上述语义相似度的表现形式可以与前述一致。上述损失值通常与上述负样本对所对应的语义相似度正相关。即,最小化该损失值对应的损失函数相当于最小化负样本对的第一部分文本和第二部分文本的匹配概率。当满足训练结束条件(例如迭代次数达到预设次数、训练时长达到预设时长、损失值收敛等)时,可以将当前语义特征向量生成模型确定为训练完成的语义特征向量生成模型。当不满足上述训练结束条件时,可以根据所确定的损失值调整当前语义特征向量生成模型的参数并且继续执行上述训练步骤。可见,通过上述方法得到的训练完成的语义特征向量生成模型可以学习到文本中第一部分文本和第二部分文本之间的相关性,从而有助于针对内容不相关的第一部分文本和第二部分文本生成语义较为不相似的语义特性向量。
在本实施例的一些可选的实现方式中,用于训练语义特征向量生成模型的方法200还可以包括:240,根据预先获取的标注文本集对语义特征向量生成模型进行有监督训练,得到二次训练后的语义特征向量生成模型。
在240,根据预先获取的标注文本集对基于对比学习方法训练得到的语义特征向量生成模型进行有监督训练,得到二次训练后的语义特征向量生成模型。从而可以将对比学习阶段作为预训练,学习文本中第一部分文本与第二部分文本之间的相关性,提升模型对文本全局信息和局部信息的理解;再通过有监督训练对经过对比学习得到的模型进行二次训练,优化模型所生成的语义特征向量对语义信息的表征能力。从而通过利用经过对原始语料进行处理后所得到的对比学习训练样本集和预先获取的标注文本集将对比学习与监督学习进行结合,提升训练得到的语义特征向量生成模型所生成的语义特征向量的表征效果。
在本实施例的一些可选的实现方式中,上述标注文本集可以包括样本文本对和与上述样本文本对对应的相似度标签。上述相似度标签例如可以是用“0”表示不相似、用“1”表示相似。上述语义特征向量生成模型在有监督训练过程中采用的损失函数的损失值可以基于输入的样本文本对中各样本文本所得到的语义特征向量之间的语义相似度与上述样本文本对对应的相似度标签之间的差异得到。
在一个示例中,可以将上述标注文本集的样本文本对提供给基于对比学习方法训练得到的语义特征向量生成模型,分别得到上述样本文本对中各样本文本对应的语义特征向量。接下来,可以确定样本文本对中各样本文本对应的语义特征向量之间的语义相似度。再利用预设的损失函数确定输入的样本文本对所对应的语义相似度与该样本文本对对应的相似度标签之间的差异。上述损失函数例如可以包括交叉熵损失(Cross Entropy Loss)函数、均方误差(Mean Square Error)损失函数等。而后可以基于反向传播调整上述语义特征向量生成模型的网络参数。循环执行上述步骤,在满足训练结束条件的情况下停止训练,从而可以得到二次训练后的语义特征向量生成模型。
可选地,在一个示例中,上述标注文本集可以包括从大规模历史检索记录中随机选取的历史查询文本和历史参考文本组成的样本文本对和对应的用于表征语义不相似的相似度标签。基于此,可以利用较小的成本获取较为准确的监督数据。
图3示出了根据本说明书的实施例的用于训练语义特征向量生成模型的方法300的一个示例的示意图。在图3的示例中,可以首先对原始语料(例如可以包括文本A、文本B、文本K等)进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集。其中,上述第一部分文本集可以包括分别与文本A、文本B、文本K等对应的第一部分文本(例如可以用A1、B1、K1等表示)。上述第二部分文本集可以包括分别与文本A、文本B、文本K等对应的第二部分文本(例如可以用A2、B2、K2等表示)。接下来,可以将来自于上述原始语料中同一文本的第一部分文本和第二部分文本组成正样本对(例如A1-A2、B1-B2、K1-K2等),将来自于上述原始语料中不同文本的第一部分文本和第二部分文本组成负样本对(例如A1-B2、A1-K2、B1-K2、K1-B2等)。将上述所得到的正样本对和负样本对组成训练样本集。之后,可以基于对比学习方法,采用上述训练样本集中的正样本对和负样本对训练语义特征向量生成模型。
图4示出了根据本说明书的实施例的基于对比学习方法训练语义特征向量生成模型的过程400的一个示例的流程图。
如图4所示,在410,将训练样本集的正样本对和负样本对提供给当前语义特征向量生成模型,得到与正样本对和负样本对的第一部分文本和第二部分文本分别对应的语义特征向量。在一个示例中,上述当前语义特征向量生成模型可以是根据所在的训练阶段的不同而不同。例如,当前语义特征向量生成模型可以是参数经过初始化的语义特征向量生成模型,也可以是经过预训练的语义特征向量生成模型,还可以是经过前面若干次参数调整后的语义特征向量生成模型。上述语义特征向量生成模型的具体描述可以参考前述图2实施例中步骤230的相应描述,此处不再赘述。
在420,根据正样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第一相似度。在一个示例中,可以将本次迭代所使用的各个正样本对的第一部分文本和第二部分文本分别对应的语义特征向量之间的语义相似度确定为该正样本对所对应的第一相似度。上述语义相似度的具体描述可以参考前述图2实施例中步骤230的相应描述,此处不再赘述。可以理解,上述第一相似度可以与正样本对相对应,即第一相似度的数目可以与正样本对的数目一致。可选地,还可以将各个正样本对所对应的语义相似度的代表值确定为上述第一相似度。上述代表值例如可以是平均值、中位数、最大值、最小值等等。
在430,根据负样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第二相似度。在一个示例中,可以将本次迭代所使用的各个负样本对的第一部分文本和第二部分文本分别对应的语义特征向量之间的语义相似度确定为该负样本对所对应的第二相似度。上述语义相似度的具体描述可以参考前述图2实施例中步骤230的相应描述,此处不再赘述。可以理解,上述第二相似度可以与负样本对相对应,即第二相似度的数目可以与负样本对的数目一致。可选地,还可以将各个负样本对所对应的语义相似度的代表值确定为上述第二相似度。上述代表值例如可以是平均值、中位数、最大值、最小值等等。
在440,根据第一相似度和第二相似度确定对比学习损失值。在一个示例中,上述对比学习损失值通常与第一相似度负相关和/或与第二相似度正相关。即,最小化该对比学习损失值对应的损失函数相当于最大化正样本对的第一部分文本和第二部分文本的匹配概率和/或最小化负样本对的第一部分文本和第二部分文本的匹配概率。在一个示例中,上述用于确定对比学习损失值的损失函数例如可以是三元组损失(triplet loss)、Info NCE损失、NT-Xent(the normalized temperature-scaled cross entropy)损失等。
在450,判断是否满足训练结束条件。在一个示例中,训练结束条件例如可以包括迭代次数达到预设次数、训练时长达到预设时长、损失值收敛等。
在460,在不满足训练结束条件时根据对比学习损失值调整当前语义特征向量生成模型的参数以及继续执行上述训练步骤。当不满足训练结束条件时,可以根据对比学习损失值计算梯度,通过反向传播算法调整当前语义特征向量生成模型的参数;并且返回410继续执行上述训练步骤。
可选地,在470,在满足训练结束条件时将当前语义特征向量生成模型确定为训练完成的语义特征向量生成模型。
利用图1-图4中公开的用于训练语义特征向量生成模型的方法,可以利用经过对原始语料进行处理后所得到的训练样本集,采用对比学习方式使得语义特征向量生成模型可以学习到文本中第一部分文本和第二部分文本之间的相关性,从而能够提升训练得到的语义特征向量生成模型所生成的语义特征向量的表征效果。
图5示出了根据本说明书的实施例的语义相似度确定方法500的一个示例的流程图。
如图5所示,在510,将待查询文本和参考文本分别提供给如前述的用于训练语义特征向量生成模型的方法训练得到的语义特征向量生成模型,得到待查询文本和参考文本分别对应的语义特征向量。在一个示例中,待查询文本可以是用户通过输入端输入的文本,参考文本可以是服务器本地用于与待查询文本进行匹配的文本。在另一个示例中,待查询文本和参考文本可以均由用户通过输入端进行输入或选取,此时的待查询文本和参考文本可以是待确定语义相似度的任意两个文本。
在520,根据待查询文本和参考文本分别对应的语义特征向量,确定待查询文本和参考文本之间的语义相似度。在一个示例中,可以将待查询文本和参考文本分别对应的语义特征向量之间的向量相似度确定为待查询文本和参考文本之间的语义相似度。上述向量相似度的表现形式可以包括但不限于以下至少一项:欧式距离,余弦相似度,余弦距离。
利用图5中公开的语义相似度确定方法,可以应用训练好的语义特征向量生成模型进行文本向量化,以用于进行文本语义相似度的确定。由于上述语义特征向量生成模型在训练时采用对比学习方式针对第一部分文本和第二部分文本之间的相关性进行学习,因而在确定文本语义相似度时会考虑到与部分文本的匹配情况。
图6示出了根据本说明书的实施例的语义搜索方法600的一个示例的流程图。
如图6所示,在610,接收用户提供的查询文本。在一个示例中,可以通过各种方式接收用户提供的查询文本。例如,上述查询文本可以是通过用户端直接输入的文字,也可以通过对用户使用用户端输入的图像、视频、语音等进行光学字符识别(Optical CharacterRecognition,OCR)或自动语音识别(Automatic Speech Recognition,ASR)等转换而成的文字,此处不做限定。
在620,根据如前述的语义相似度确定方法,确定查询文本和参考文本集中的各个参考文本之间的语义相似度。在一个示例中,可以根据如图5中所描述的语义相似度确定方法来确定查询文本和参考文本集中的各个参考文本之间的语义相似度。其中,上述参考文本集中可以包括多个参考文本。上述参考文本集所包括的参考文本可以根据实际需要而设定。例如,可以是全部的备选文本,也可以是根据各种粗筛方式而召回的部分的备选文本。
在630,基于查询文本和各个参考文本之间的语义相似度,从参考文本集中确定出语义搜索结果。在一个示例中,基于查询文本和各个参考文本之间的语义相似度,可以通过各种方式从参考文本集中确定出语义搜索结果。例如,可以将语义相似度最大的若干个参考文本确定为语义搜索结果。再例如,可以将语义相似度大于预设阈值的参考文本作为备选结果,再通过诸如随机选取、依用户偏好选取等方式从上述备选结果中确定若干参考文本作为语义搜索结果。
在640,将语义搜索结果提供给用户。在一个示例中,可以通过各种形式将上述语义搜索结果提供给用户。例如可以通过列表形式按照语义相似度由大至小的顺序排列上述语义搜索结果。可选地,还可以在各个语义搜索结果附近显示相应的语义相似度。
需要说明的是,将语义搜索结果提供给的用户,可以是与上述步骤610中描述的用户相同的用户,也可以是与上述步骤610中描述的用户使用同一用户端的用户,此处不做限定。
在本实施例的一些可选的实现方式中,上述语义搜索方法可以应用于服务搜索。上述语义搜索结果可以包括与上述查询文本相匹配的服务页面。对服务搜索的相关描述可以参考前述图2实施例中可选的实现方式的相应描述,此处不再赘述。
基于上述,提供了可以应用于服务搜索等领域的语义搜索方法。与现有的服务搜索所采用的搜索文本与服务的标题或关键字完全匹配相比,可以借助文本向量化方式提高模糊匹配的召回率。而与现有的通用文本表征方法相比,采用基于对原始语料进行处理后所得到的训练样本集进行对比学习后的语义特征向量生成模型,提高文本向量化模型对标题或关键字等的理解,从而有助于提升语义搜索的准确率。
利用图6中公开的语义搜索方法,可以应用训练好的语义特征向量生成模型进行文本向量化,从而为语义搜索方法提供匹配基础。由于上述语义特征向量生成模型在训练时采用对比学习方式针对第一部分文本和第二部分文本之间的相关性进行学习,因而其所生成的语义特征向量可以更好地融合部分文本的信息,从而有助于提高文本模糊匹配的召回效果。
图7示出了根据本说明书的实施例的用于训练语义特征向量生成模型的装置700的一个示例的方框图。该装置实施例可以与图2-图4所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,用于训练语义特征向量生成模型的装置700包括文本提取单元710、样本确定单元720和训练单元730。
文本提取单元710,被配置为对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集。文本提取单元710的操作可以参考上面参照图2描述的210的操作。
在一个示例中,上述第一部分文本可以包括上述原始语料中的文本的标题。上述第二部分文本可以包括上述原始语料中的文本的关键词。
在一个示例中,上述用于训练语义特征向量生成模型的方法所训练得到的语义特征向量生成模型可以应用于服务搜索。上述第一部分文本可以包括服务的名称。上述第二部分文本可以包括服务所涉及的功能的关键词。
上述内容的具体描述可以参考上面参照图2描述的210的可选的实现方式中的相应描述。
样本确定单元720,被配置为根据所述第一部分文本集和所述第二部分文本集确定训练样本集,其中,所述训练样本集包括正样本对和负样本对,正样本对由来自于所述原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于所述原始语料中不同文本的第一部分文本和第二部分文本组成。样本确定单元720的操作可以参考上面参照图2描述的220的操作。
训练单元730,被配置为根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。训练单元730的操作可以参考上面参照图2描述的230的操作。
在一个示例中,上述用于训练语义特征向量生成模型的装置还可以包括:二次训练单元(图7中未示出),被配置为根据预先获取的标注文本集对语义特征向量生成模型进行有监督训练,得到二次训练后的语义特征向量生成模型。
在一个示例中,上述标注文本集可以包括样本文本对和与上述样本文本对对应的相似度标签。上述语义特征向量生成模型在有监督训练过程中采用的损失函数的损失值可以基于输入的样本文本对中各样本文本所得到的语义特征向量之间的语义相似度与上述样本文本对对应的相似度标签之间的差异得到。
在一个示例中,上述标注文本集可以包括从大规模历史检索记录中随机选取的历史查询文本和历史参考文本组成的样本文本对和对应的用于表征语义不相似的相似度标签。
上述内容的具体描述可以参考上面参照图2描述的240的相应描述。
图8示出了根据本说明书的实施例的用于训练语义特征向量生成模型的装置中训练单元800的一个示例的方框图。
如图8所示,训练单元800可以包括:向量生成模块810,被配置为将所述训练样本集的正样本对和负样本对提供给当前语义特征向量生成模型,得到与所述正样本对和所述负样本对的第一部分文本和第二部分文本分别对应的语义特征向量;第一相似度确定模块820,被配置为根据所述正样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第一相似度;第二相似度确定模块830,被配置为根据所述负样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第二相似度;损失值确定模块840,被配置为根据所述第一相似度和所述第二相似度确定对比学习损失值;以及训练模块850,被配置为在不满足训练结束条件时根据所述对比学习损失值调整所述当前语义特征向量生成模型的参数。训练单元800的操作可以参考上面参照图3描述的基于对比学习方法训练语义特征向量生成模型的过程400的操作。
图9示出了根据本说明书的实施例的语义相似度确定装置900的一个示例的方框图。该装置实施例可以与图5所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图9所示,语义相似度确定装置900包括向量生成单元910和相似度确定单元920。
向量生成单元910,被配置为将待查询文本和参考文本分别提供给如前述的用于训练语义特征向量生成模型的方法训练得到的语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量。向量生成单元910的操作可以参考上面参照图5描述的510的操作。
相似度确定单元920,被配置为根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。相似度确定单元920的操作可以参考上面参照图5描述的520的操作。
图10示出了根据本说明书的实施例的语义搜索装置1000的一个示例的方框图。该装置实施例可以与图6所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图10所示,语义搜索装置1000包括接收单元1010、各相似度确定单元1020、语义搜索单元1030和结果提供单元1040。
接收单元1010,被配置为接收用户提供的查询文本。接收单元1010的操作可以参考上面参照图6描述的610的操作。
各相似度确定单元1020,被配置为根据如前述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度。各相似度确定单元1020的操作可以参考上面参照图6描述的620的操作。
语义搜索单元1030,被配置为基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果。语义搜索单元1030的操作可以参考上面参照图6描述的630的操作。
结果提供单元1040,被配置为将所述语义搜索结果提供给所述用户。结果提供单元1040的操作可以参考上面参照图6描述的640的操作。
以上参照图1到图10,对根据本说明书实施例的用于训练语义特征向量生成模型的方法、语义相似度确定方法、以及语义搜索方法和装置的实施例进行了描述。
本说明书实施例的用于训练语义特征向量生成模型的装置、语义相似度确定装置、语义搜索装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中,用于训练语义特征向量生成模型的装置、语义相似度确定装置、语义搜索装置例如可以利用电子设备实现。
图11示出了本说明书的实施例的用于训练语义特征向量生成模型的装置1100的示意图。
如图11所示,用于训练语义特征向量生成模型的装置1100可以包括至少一个处理器1110、存储器(例如,非易失性存储器)1120、内存1130和通信接口1140,并且至少一个处理器1110、存储器1120、内存1130和通信接口1140经由总线1150连接在一起。至少一个处理器1110执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1110:对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;根据所述第一部分文本集和所述第二部分文本集确定训练样本集,其中,所述训练样本集包括正样本对和负样本对,正样本对由来自于所述原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于所述原始语料中不同文本的第一部分文本和第二部分文本组成;以及根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1110进行本说明书的各个实施例中以上结合图1-4描述的各种操作和功能。
图12示出了本说明书的实施例的语义相似度确定装置1200的示意图。
如图12所示,语义相似度确定装置1200可以包括至少一个处理器1210、存储器(例如,非易失性存储器)1220、内存1230和通信接口1240,并且至少一个处理器1210、存储器1220、内存1230和通信接口1240经由总线1250连接在一起。至少一个处理器1210执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1210:将待查询文本和参考文本分别提供给如前述的用于训练语义特征向量生成模型的方法训练得到的语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量;以及根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1210进行本说明书的各个实施例中以上结合图5描述的各种操作和功能。
图13示出了本说明书的实施例的语义搜索装置1300的示意图。
如图13所示,语义搜索装置1300可以包括至少一个处理器1310、存储器(例如,非易失性存储器)1320、内存1330和通信接口1340,并且至少一个处理器1310、存储器1320、内存1330和通信接口1340经由总线1350连接在一起。至少一个处理器1310执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1310:接收用户提供的查询文本;根据如前述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度;基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及将所述语义搜索结果提供给所述用户。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1310进行本说明书的各个实施例中以上结合图6描述的各种操作和功能。
根据一个实施例,提供了一种例如计算机可读介质的程序产品。计算机可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被计算机执行时,使得计算机执行本说明书的各个实施例中以上结合图1-6描述的各种操作和功能。
具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写,包括面向对象编程语言,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等,常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL 2002、PHP以及ABAP,动态编程语言如Python、Ruby和Groovy,或者其他编程语言等。该程序编码可以在用户计算机上运行,或者作为独立的软件包在用户计算机上运行,或者部分在用户计算机上运行另一部分在远程计算机运行,或者全部在远程计算机或服务器上运行。在后一种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或者在云计算环境中,或者作为服务使用,比如软件即服务(SaaS)。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本说明书的实施例的可选实施方式,但是,本说明书的实施例并不限于上述实施方式中的具体细节,在本说明书的实施例的技术构思范围内,可以对本说明书的实施例的技术方案进行多种简单变型,这些简单变型均属于本说明书的实施例的保护范围。
本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说,对本说明书内容进行的各种修改是显而易见的,并且,也可以在不脱离本说明书内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本说明书内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。
Claims (21)
1.一种用于训练语义特征向量生成模型的方法,包括:
对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;
根据所述第一部分文本集和所述第二部分文本集确定训练样本集,其中,所述训练样本集包括正样本对和负样本对,正样本对由来自于所述原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于所述原始语料中不同文本的第一部分文本和第二部分文本组成;以及
根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
2.如权利要求1所述的方法,其中,所述第一部分文本包括所述原始语料中的文本的标题,所述第二部分文本包括所述原始语料中的文本的关键词。
3.如权利要求2所述的方法,其中,所述语义特征向量生成模型应用于服务搜索,所述原始语料中的文本的标题包括历史服务搜索记录中的服务的名称,所述原始语料中的文本的关键词包括历史服务搜索记录中的服务所涉及的功能的关键词。
4.如权利要求1所述的方法,其中,所述根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型包括:
执行以下训练步骤:
将所述训练样本集的正样本对和负样本对提供给当前语义特征向量生成模型,得到与所述正样本对和所述负样本对的第一部分文本和第二部分文本分别对应的语义特征向量;
根据所述正样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第一相似度;
根据所述负样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第二相似度;
根据所述第一相似度和所述第二相似度确定对比学习损失值;以及
在不满足训练结束条件时根据所述对比学习损失值调整所述当前语义特征向量生成模型的参数以及继续执行所述训练步骤。
5.如权利要求1到4中任一所述的方法,其中,所述方法还包括:
根据预先获取的标注文本集对所述语义特征向量生成模型进行有监督训练,得到二次训练后的语义特征向量生成模型。
6.如权利要求5所述的方法,其中,所述语义特征向量生成模型在有监督训练过程中采用的损失函数的损失值基于输入的样本文本对中各样本文本所得到的语义特征向量之间的语义相似度与所述样本文本对对应的相似度标签之间的差异得到。
7.一种语义相似度确定方法,包括:
将待查询文本和参考文本分别提供给如权利要求1到6中任一所述的用于训练语义特征向量生成模型的方法训练得到的语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量;以及
根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。
8.一种语义搜索方法,包括:
接收用户提供的查询文本;
根据如权利要求7所述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度;
基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及
将所述语义搜索结果提供给所述用户。
9.如权利要求8所述的语义搜索方法,其中,所述语义搜索方法应用于服务搜索,所述语义搜索结果包括与所述查询文本相匹配的服务页面。
10.一种用于训练语义搜索的语义特征向量生成模型的装置,包括:
文本提取单元,被配置为对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;
样本确定单元,被配置为根据所述第一部分文本集和所述第二部分文本集确定训练样本集,其中,所述训练样本集包括正样本对和负样本对,正样本对由来自于所述原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于所述原始语料中不同文本的第一部分文本和第二部分文本组成;以及
训练单元,被配置为根据所述训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
11.如权利要求10所述的装置,其中,所述语义特征向量生成模型应用于服务搜索,所述原始语料中的文本的标题包括历史服务搜索记录中的服务的名称,所述原始语料中的文本的关键词包括历史服务搜索记录中的服务所涉及的功能的关键词。
12.如权利要求10所述的装置,其中,所述训练单元包括:
向量生成模块,被配置为将所述训练样本集的正样本对和负样本对提供给当前语义特征向量生成模型,得到与所述正样本对和所述负样本对的第一部分文本和第二部分文本分别对应的语义特征向量;
第一相似度确定模块,被配置为根据所述正样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第一相似度;
第二相似度确定模块,被配置为根据所述负样本对的第一部分文本和第二部分文本分别对应的语义特征向量确定第二相似度;
损失值确定模块,被配置为根据所述第一相似度和所述第二相似度确定对比学习损失值;以及
训练模块,被配置为在不满足训练结束条件时根据所述对比学习损失值调整所述当前语义特征向量生成模型的参数。
13.如权利要求10到12中任一所述的装置,其中,所述装置还包括:
二次训练单元,被配置为根据预先获取的标注文本集对所述语义特征向量生成模型进行有监督训练,得到二次训练后的语义特征向量生成模型。
14.一种语义相似度确定装置,包括:
向量生成单元,被配置为将待查询文本和参考文本分别提供给如权利要求1到6中任一所述的用于训练语义特征向量生成模型的方法训练得到的语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量;以及
相似度确定单元,被配置为根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。
15.一种语义搜索装置,包括:
接收单元,被配置为接收用户提供的查询文本;
各相似度确定单元,被配置为根据如权利要求7所述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度;
语义搜索单元,被配置为基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及
结果提供单元,被配置为将所述语义搜索结果提供给所述用户。
16.如权利要求15所述的语义搜索装置,其中,所述语义搜索方法应用于服务搜索,所述语义搜索结果包括与所述查询文本相匹配的服务页面。
17.一种用于训练语义特征向量生成模型的装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求1至6中任一所述的方法。
18.一种语义相似度确定装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求7所述的语义相似度确定方法。
19.一种语义搜索装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求8或9所述的语义搜索方法。
20.一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的方法、执行如权利要求7所述的语义相似度确定方法或者执行如权利要求8至9中任一所述的语义搜索方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如权利要求1至6中任一所述的方法、执行如权利要求7所述的语义相似度确定方法或者执行如权利要求8至9中任一所述的语义搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310476189.0A CN116561253A (zh) | 2023-04-27 | 2023-04-27 | 用于训练语义特征向量生成模型和语义搜索的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310476189.0A CN116561253A (zh) | 2023-04-27 | 2023-04-27 | 用于训练语义特征向量生成模型和语义搜索的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116561253A true CN116561253A (zh) | 2023-08-08 |
Family
ID=87485454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310476189.0A Pending CN116561253A (zh) | 2023-04-27 | 2023-04-27 | 用于训练语义特征向量生成模型和语义搜索的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561253A (zh) |
-
2023
- 2023-04-27 CN CN202310476189.0A patent/CN116561253A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108694225B (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
CN112164391B (zh) | 语句处理方法、装置、电子设备及存储介质 | |
US10664504B2 (en) | Interaction method and apparatus based on artificial intelligence | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
US20200302340A1 (en) | Systems and methods for learning user representations for open vocabulary data sets | |
CN111259215A (zh) | 基于多模态的主题分类方法、装置、设备、以及存储介质 | |
CN113157863B (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
CN112732871B (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
US20200081973A1 (en) | Methods, apparatuses, devices, and computer-readable storage media for determining category of entity | |
CN114663798B (zh) | 一种基于强化学习的单步视频内容识别方法 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN115293348A (zh) | 一种多模态特征提取网络的预训练方法及装置 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN114463552A (zh) | 迁移学习、行人重识别方法及相关设备 | |
CN116955579B (zh) | 一种基于关键词知识检索的聊天回复生成方法和装置 | |
CN117556276A (zh) | 用于确定文本和视频之间的相似度的方法和装置 | |
CN116881520A (zh) | 基于偏序的内容检索模型训练方法、内容检索方法及装置 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN116128998A (zh) | 一种多路并行的文本到图像生成方法和系统 | |
CN116384405A (zh) | 文本处理方法,文本分类方法及情感识别方法 | |
CN115599953A (zh) | 视频文本检索模型的训练方法、检索方法及相关设备 | |
CN116561253A (zh) | 用于训练语义特征向量生成模型和语义搜索的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |