CN115329749B - 一种语义检索的召回和排序联合训练方法及系统 - Google Patents
一种语义检索的召回和排序联合训练方法及系统 Download PDFInfo
- Publication number
- CN115329749B CN115329749B CN202211257869.5A CN202211257869A CN115329749B CN 115329749 B CN115329749 B CN 115329749B CN 202211257869 A CN202211257869 A CN 202211257869A CN 115329749 B CN115329749 B CN 115329749B
- Authority
- CN
- China
- Prior art keywords
- model
- text
- recall
- tower
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种语义检索的召回和排序联合训练方法及系统,涉及信息检索技术领域,所述方法包括:基于查询文本和检索文本建立召回和排序联合模型,使双塔模型和单塔模型输出分布拟合;基于查询文本对召回和排序联合模型进行无监督训练;基于查询文本和检索文本对召回和排序联合模型进行有监督训练;通过召回和排序联合模型的双塔模型生成负样本;迭代训练召回和排序联合模型。本发明通过双塔模型和单塔模型的联合训练,拟合双塔模型和单塔模型的数据输出分布,提升语义检索中双塔模型的查全率;通过提升查全率,在查全率相同的情况下,减少单塔模型的计算量,提升语义检索性能。
Description
技术领域
本发明涉及信息检索技术领域,具体而言,涉及一种语义检索的召回和排序联合训练方法及系统。
背景技术
传统的信息检索主要基于关键词,从字面意义上进行搜索。语义检索是指检索引擎的工作不再局限于用户所输入请求语句的字面本身,而是准确捕捉用户输入的真正意图,并以此进行检索,从而更准确地向用户返回最符合其需求的检索结果。
目前语义检索主要采用神经网络模型,包含交互型模型(单塔模型)和表示型模型(双塔模型)。交互型模型需要将两个待匹配的文本拼接作为神经网络的输入,因此每次检索时需要将检索文本与库内海量查询文本依次组合进行计算;表示型模型则可以离线计算库内所有文本的特征向量,并构建索引,每次检索时仅需要将检索文本进行神经网络的计算,从而节约大量时间。交互式模型因为在训练的过程中有信息交互,所以效果表现不错,缺点是计算时间长;表示型模型因为可以提前离线计算,计算时间短,也因模型底层无信息交互,因此效果较差。根据两种模型的优缺点,语义检索通常采用双塔模型在海量数据中召回一批数据,再对召回数据通过单塔模型进行排序。如果召回数据太多,也会影响检索性能。
发明内容
本发明实施例提供了一种语义检索的召回和排序联合训练方法及系统,由于双塔模型查全率比排序模型低,通过双塔模型和单塔模型的联合训练,拟合双塔模型和单塔模型的数据输出分布,提升语义检索中双塔模型的查全率;并且通过提升查全率,在查全率相同的情况下,减少单塔模型的计算量,提升语义检索性能。
在第一方面,本发明实施例中提供一种语义检索的召回和排序联合训练方法,所述方法包括以下步骤:
(1)获取查询文本和检索文本;
(2)基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
(3)基于查询文本对召回和排序联合模型进行无监督训练;
(4)基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
(5)将查询文本输入有监督训练之后的召回和排序联合模型,通过召回和排序联合模型的双塔模型生成正样本和负样本;
(6)基于正样本和负样本迭代训练召回和排序联合模型。
作为本申请一些可选实施方式,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下:
作为本申请一些可选实施方式,基于查询文本对召回和排序联合模型进行无监督训练的流程如下:
(3.2)计算查询文本Text1、Text2的双塔模型相似度,如果两个查询文本Text1、Text2相同,则对应的两个查询文本Text1、Text2为正样本,反之,则对应的两个查询Text1、Text2文本为负样本;
作为本申请一些可选实施方式,基于查询文本和检索文本对召回和排序联合模型进行有监督训练的流程如下:
作为本申请一些可选实施方式,通过召回和排序联合模型的双塔模型生成正样本和负样本的流程如下:
作为本申请一些可选实施方式,基于正样本和负样本迭代训练召回和排序联合模型的流程如下:
(6.3)重复进行步骤(6.1)和步骤(6.2),迭代训练召回和排序联合模型。
在第二方面,本发明提供一种语义检索的召回和排序联合训练系统,所述系统包括:
数据获取单元,所述数据获取单元用于获取查询文本和检索文本;
输出分布拟合单元,所述输出分布拟合单元基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
有监督训练单元,所述有监督训练单元基于查询文本对召回和排序联合模型进行无监督训练;
无监督训练单元,所述无监督训练单元基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
负样本生成单元,所述负样本生成单元训练通过召回和排序联合模型的双塔模型生成正样本和负样本;
联合训练单元,所述联合训练单元基于正样本和负样本迭代训练召回和排序联合模型。
在第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述一种语义检索的召回和排序联合训练方法。
在第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述一种语义检索的召回和排序联合训练方法。
本发明的有益效果如下:
(1)由于召双塔模型查全率比单塔模型低,通过双塔模型和单塔模型的联合训练,拟合双塔模型和双塔模型的数据输出分布,提升语义检索中双塔模型的查全率。
(2)由于双塔模型的查全率得到提升,在查全率相同的情况下,减少单塔模型的计算量,提升语义检索性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是根据本发明的一些实施例所述语义检索的召回和排序联合训练方法的步骤图。
图2是根据本发明的一些实施例所述召回和排序联合模型的结构框图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
同样应当理解的是,为了简化本发明揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本发明实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本发明对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
实施例1
本发明提供一种语义检索的召回和排序联合训练方法,请参阅图1,所述方法包括以下步骤:
(1)获取查询文本和检索文本;
即获取大量的查询文本,例如:文档的关键词、标题、部分段落、问题等无标注数据作为查询文本q,检索文本p一般为若干关键词,其中,查询文本q与对应的若干检索文本p相关;
(2)基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;其中,所述召回和排序联合模型包括双塔模型(召回模型)和单塔模型(排序模型);
于本发明实施例中,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下:
①对于双塔模型:
其中,双塔模型由预训练模型(如BERT、ERNIE等)、dropout层、线性层组成,预训练模型主要提取文本特征,dropout层随机丢弃部分特征,线性层把预训练模型提取的高维特征进行降维;
②对于单塔模型:
其中,单塔模型由预训练模型(如BERT、ERNIE等)、dropout层、线性层组成,预训练模型主要提取文本特征,dropout层随机丢弃部分特征,线性层输出Text1+Text2的1维特征;
其中,N表示训练样本的数量,表示与查询文本q相关的检索文本,表示与查询文本q不相关的检索文本;(0,1)表示边界,Q表示查询样本q的数量,即为N,表示对应检索文本的数量;当查询文本q和检索文本、的相似度大于相似度,并且()大于时,模型损失为0,优化目标是使得正样本的相似度大于负样本及负样本的相似度,同理计算;为双塔模型与单塔模型数据分布的欧式距离,优化目标是使双塔模型输出分布动态拟合单塔模型输出分布。
(3)基于查询文本对召回和排序联合模型进行无监督训练;
于本发明实施例中,无监督训练的流程如下:
①对于双塔模型:
(3.2)计算查询文本Text1、Text2的双塔模型相似度,如果两个查询文本Text1、Text2相同,则对应的两个查询文本Text1、Text2为正样本,反之,则对应的两个查询Text1、Text2文本为负样本;
②对于单塔模型:
(4)基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
于本发明实施例中,有监督训练的流程如下:
(5)将查询文本输入有监督训练之后的召回和排序联合模型,通过召回和排序联合模型的双塔模型生成正样本和负样本;
于本发明实施例中,生成负样本的流程如下:
(6)基于正样本和负样本迭代训练召回和排序联合模型。
于本发明实施例中,迭代训练召回和排序联合模型的流程如下:
(6.3)重复进行步骤(6.1)和步骤(6.2),直到得到较好的召回和排序联合模型。
实施例2
本发明提供一种语义检索的召回和排序联合训练系统,所述系统包括:
数据获取单元,所述数据获取单元用于获取查询文本和检索文本;
输出分布拟合单元,所述输出分布拟合单元基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
有监督训练单元,所述有监督训练单元基于查询文本对召回和排序联合模型进行无监督训练;
无监督训练单元,所述无监督训练单元基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
负样本生成单元,所述负样本生成单元训练通过召回和排序联合模型的双塔模型生成正样本和负样本;
联合训练单元,所述联合训练单元基于正样本和负样本迭代训练召回和排序联合模型。
实施例3
本发明提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行实施例1所述的语义检索的召回和排序联合训练方法。
本实施例提供的计算机设备可以实现执行实施例1所述的方法,为避免重复,在此不再赘述。
实施例4
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述的语义检索的召回和排序联合训练方法。
本实施例提供的计算机可读存储介质可以实现执行实施例1所述的方法,为避免重复,在此不再赘述。
其中,所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Field programmablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中语义检索的召回和排序联合训练系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
语义检索的召回和排序联合训练系统如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
本发明已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
Claims (10)
1.一种语义检索的召回和排序联合训练方法,其特征在于,所述方法包括以下步骤:
基于查询文本和检索文本建立召回和排序联合模型,其中,召回和排序联合模型包括双塔模型和单塔模型,并且使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
基于查询文本对召回和排序联合模型进行无监督训练;
基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
将查询文本输入有监督训练之后的召回和排序联合模型,通过召回和排序联合模型的双塔模型生成正样本和负样本;
基于正样本和负样本迭代训练召回和排序联合模型。
2.根据权利要求1所述的一种语义检索的召回和排序联合训练方法,其特征在于,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下:
4.根据权利要求1所述的一种语义检索的召回和排序联合训练方法,其特征在于,基于查询文本对召回和排序联合模型进行无监督训练的流程如下:
计算查询文本Text1、Text2的双塔模型相似度,如果两个查询文本Text1、Text2相同,则对应的两个查询文本Text1、Text2为正样本,反之,则对应的两个查询Text1、Text2文本为负样本;
8.一种语义检索的召回和排序联合训练系统,其特征在于,所述系统包括:
数据获取单元,所述数据获取单元用于获取查询文本和检索文本;
输出分布拟合单元,所述输出分布拟合单元基于查询文本和检索文本建立召回和排序联合模型,其中,召回和排序联合模型包括双塔模型和单塔模型,并且使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
有监督训练单元,所述有监督训练单元基于查询文本对召回和排序联合模型进行无监督训练;
无监督训练单元,所述无监督训练单元基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
负样本生成单元,所述负样本生成单元训练通过召回和排序联合模型的双塔模型生成正样本和负样本;
联合训练单元,所述联合训练单元基于正样本和负样本迭代训练召回和排序联合模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述一种语义检索的召回和排序联合训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述一种语义检索的召回和排序联合训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211257869.5A CN115329749B (zh) | 2022-10-14 | 2022-10-14 | 一种语义检索的召回和排序联合训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211257869.5A CN115329749B (zh) | 2022-10-14 | 2022-10-14 | 一种语义检索的召回和排序联合训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115329749A CN115329749A (zh) | 2022-11-11 |
CN115329749B true CN115329749B (zh) | 2023-01-10 |
Family
ID=83915153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211257869.5A Active CN115329749B (zh) | 2022-10-14 | 2022-10-14 | 一种语义检索的召回和排序联合训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329749B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662512A (zh) * | 2023-06-12 | 2023-08-29 | 北京百度网讯科技有限公司 | 检索模型的训练方法、信息检索方法、装置、设备和介质 |
CN116610795B (zh) * | 2023-07-14 | 2024-03-15 | 深圳须弥云图空间科技有限公司 | 文本检索方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491518A (zh) * | 2017-08-15 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
CN111538908A (zh) * | 2020-06-22 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN112256860A (zh) * | 2020-11-25 | 2021-01-22 | 携程计算机技术(上海)有限公司 | 客服对话内容的语义检索方法、系统、设备及存储介质 |
WO2021082786A1 (zh) * | 2019-10-30 | 2021-05-06 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、装置、电子设备及存储介质 |
EP3835996A1 (en) * | 2019-12-12 | 2021-06-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, electronic device and storage medium for processing a semantic representation model |
CN113869060A (zh) * | 2021-09-23 | 2021-12-31 | 北京百度网讯科技有限公司 | 语义数据的处理方法及搜索方法、装置 |
CN115114395A (zh) * | 2022-04-15 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 内容检索及模型训练方法、装置、电子设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581510B (zh) * | 2020-05-07 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 分享内容处理方法、装置、计算机设备和存储介质 |
CN114419387A (zh) * | 2021-10-21 | 2022-04-29 | 北京邮电大学 | 基于预训练模型和召回排序的跨模态检索系统及方法 |
CN114064898A (zh) * | 2021-11-22 | 2022-02-18 | 鼎富新动力(北京)智能科技有限公司 | 一种基于文本分类和匹配融合模型的意图识别方法及装置 |
CN114416927B (zh) * | 2022-01-24 | 2024-04-02 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN114780709B (zh) * | 2022-03-22 | 2023-04-07 | 北京三快在线科技有限公司 | 文本匹配方法、装置及电子设备 |
-
2022
- 2022-10-14 CN CN202211257869.5A patent/CN115329749B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491518A (zh) * | 2017-08-15 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
WO2021082786A1 (zh) * | 2019-10-30 | 2021-05-06 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、装置、电子设备及存储介质 |
EP3835996A1 (en) * | 2019-12-12 | 2021-06-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, electronic device and storage medium for processing a semantic representation model |
CN111538908A (zh) * | 2020-06-22 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN112256860A (zh) * | 2020-11-25 | 2021-01-22 | 携程计算机技术(上海)有限公司 | 客服对话内容的语义检索方法、系统、设备及存储介质 |
CN113869060A (zh) * | 2021-09-23 | 2021-12-31 | 北京百度网讯科技有限公司 | 语义数据的处理方法及搜索方法、装置 |
CN115114395A (zh) * | 2022-04-15 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 内容检索及模型训练方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115329749A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115329749B (zh) | 一种语义检索的召回和排序联合训练方法及系统 | |
CN108319668B (zh) | 生成文本摘要的方法及设备 | |
CN108280206B (zh) | 一种基于语义增强的短文本分类方法 | |
CN111581354A (zh) | 一种faq问句相似度计算方法及其系统 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
CN111767796B (zh) | 一种视频关联方法、装置、服务器和可读存储介质 | |
CN115630640B (zh) | 一种智能写作方法、装置、设备及介质 | |
CN107239564B (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
CN116701431A (zh) | 一种基于大语言模型的数据检索方法及系统 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN113742446A (zh) | 一种基于路径排序的知识图谱问答方法及系统 | |
CN110795544B (zh) | 内容搜索方法、装置、设备和存储介质 | |
Decorte et al. | Design of negative sampling strategies for distantly supervised skill extraction | |
CN113806510A (zh) | 一种法律条文检索方法、终端设备及计算机存储介质 | |
CN113111178A (zh) | 无监督的基于表示学习的同名作者消歧方法及装置 | |
CN117112743A (zh) | 文本自动生成问题的可回答性评估方法、系统及存储介质 | |
Tian et al. | Automatic image annotation with real-world community contributed data set | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN116401344A (zh) | 根据问句检索表格的方法和装置 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
Li et al. | [Retracted] Music Classification Method Using Big Data Feature Extraction and Neural Networks | |
CN114579606A (zh) | 预训练模型数据处理方法、电子设备及计算机存储介质 | |
CN110457455B (zh) | 一种三值逻辑问答咨询优化方法、系统、介质和设备 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |