CN116127334A - 一种半结构化文本匹配方法及系统 - Google Patents
一种半结构化文本匹配方法及系统 Download PDFInfo
- Publication number
- CN116127334A CN116127334A CN202310160692.5A CN202310160692A CN116127334A CN 116127334 A CN116127334 A CN 116127334A CN 202310160692 A CN202310160692 A CN 202310160692A CN 116127334 A CN116127334 A CN 116127334A
- Authority
- CN
- China
- Prior art keywords
- model
- matched
- semi
- cosine similarity
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 12
- 238000009966 trimming Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 229910001335 Galvanized steel Inorganic materials 0.000 description 8
- 239000008397 galvanized steel Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 229910000831 Steel Inorganic materials 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 101150035983 str1 gene Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理领域,提供了一种半结构化文本匹配方法及系统,通过构建半结构化文本;从半结构化文本中获取第一待匹配对象和第二待匹配对象;将第一待匹配对象和第二待匹配对象分别形式化;通过多元模型获取匹配结果。根据业务场景将半结构文本匹配问题形式化为分类问题,将一个待匹配的文本及其附属文本都经过多元模型的处理,典型方法是使用独立的、不共享参数的BERT处理待匹配文本及其附属文本,形成对应的向量,在此基础上,进行分类,本发明同时阐述了如何微调BERT模型以适配多元模型提高召回率。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种半结构化文本匹配方法及系统。
背景技术
由于自然语言的歧义性,半结构文本的匹配很容易造成相同含义的文本存在不同的表述。例如,政务系统的系统名称的匹配,这一步是政务数据资源整合的基础性环节。除了匹配对象系统名称外,还有其它可用信息,如系统所属部门。再如,预算系统中项目名称与定额库的定额名称匹配,这个匹配是轨道交通自动计价开发系统的必要环节,除了匹配对象项目名称、定额名称外,还有其他可用信息,如具体参数。
例如,政务系统中政务软件名称的匹配,这一步是政务系统数据资源整合的基础性环节。在某地政务系统中,同一个系统在不同部门登记了不同的名称,例如在A部门的短信平台中有“政务大数据平台”,而该系统在B部门登记为“大数据平台共享交换系统”。再如,在预算系统中有项目名称与定额库的定额名称匹配的问题:项目名称为“镀锌钢板(天圆地方)”对应的定额名称为“装配式镀锌薄钢板矩形风管”,“镀锌钢板(天圆地方)”的参项目规格型号为“δ=0.8mm;长边长=450,制作风管”,“装配式镀锌薄钢板矩形风管”的定额规格型号为“320mm”。
发明内容
本发明的目的在于提出一种半结构化文本匹配方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
本发明针对这种情况,融合使用场景中的有效信息(例如,对于政务系统政务的软件名称的匹配融入了所属部门),从而构建出半结构化文本。在此基础上,将问题形式化为分类问题,提出了多元模型融合了多种信息,从而高效解决问题。本发明同时阐述了多元模型的微调过程,并给出了系统中项目名称与定额库的定额名称匹配的详细实施案例。
为了实现上述目的,根据本发明的一方面,提供一种半结构化文本匹配方法,所述方法包括以下步骤:
构建半结构化文本;
从半结构化文本中获取第一待匹配对象和第二待匹配对象;
将第一待匹配对象和第二待匹配对象分别形式化为Xu、Xv;
构建多元模型,将Xu、Xv输入多元模型获取匹配结果。
进一步地,所述半结构化文本包括至少两个的表头或者主题名称。
优选地,所述半结构化文本为发票、证件、简历、保险单、采购单据、行业报告或者商务邮件的电子数据中任意一种此外,所述半结构化文本也可以为Excel的表格。
进一步地,从半结构化文本中获取第一待匹配对象和第二待匹配对象的意义为:从半结构化文本中获取不同的表头或者主题名称分别作为第一待匹配对象和第二待匹配对象。
进一步地,将第一待匹配对象和第二待匹配对象分别形式化为Xu、Xv的方法具体为:
设第一待匹配对象和第二待匹配对象分别为Xu、Xv:
其中,Xu={Xu_1,Xu_11,Xu_12,...,Xu_1m};Xv={Xv_1,Xv_11,Xv_12,...,Xv_1n};
其中Xu_1、Xv_1为待匹配Xu和Xv的核心元素;(Xu_1、Xv_1为第一待匹配对象和第二待匹配对象对应的表头或者主题名称的中的待匹配数据);
而Xu_1i、Xv_1j分别为Xu和Xv的第i个和第j个相关信息,记为第i个和第j个辅助元素(Xu_1i、Xv_1j为除了第一待匹配对象和第二待匹配对象之外的表头或者主题名称分别与Xu_1、Xv_1对应的数据),这些信息用于辅助Xu和Xv的匹配,其中,i和j分别为Xu和Xv中相关信息的序号;1<=i<=m,1<=j<=n;m和n分别为Xu和Xv中相关信息的数量;
令f(Xu,Xv)∈{-1,1};f(Xu,Xv)的值为1表示Xu_1和Xv_1能够匹配上,f(Xu,Xv)的值为-1表示Xu_1和Xv_1不匹配,f(Xu,Xv)是Xu_1和Xv_1的匹配结果。
进一步地,所述多元模型为双元模型、三元模型和四元模型中任意一种。
第一待匹配对象和第二待匹配对象Xu、Xv的核心元素分别是Xu_1、Xv_1,以核心元素为中心,辅助核心元素的辅助元素Xu_1i、Xv_1j分别为Xu和Xv的m个和n个辅助信息,1<=i<=m,1<=j<=n;
将Xu、Xv中的每个元素都经由大模型(即多元模型中每一个“元”)处理,得到其对应的嵌入向量;其中,所述本大模型可以为BERT模型或者GPT3模型;在获得各元素对应的嵌入向量后,通过余弦及其组合的方法计算对象Xu、Xv的匹配情况,从而完成核心元素Xu_1、Xv_1的匹配。
其中,核心元素Xu_1、Xv_1共享一个大模型,处理辅助元素Xu_1i、Xv_1j大模型的参数独立、不共享;在多元模型中,处理核心元素Xu_1、Xv_1的大模型共享相同的参数。
优选地,所述双元模型为:把一对待匹配的名称作为核心元素Xu_1、Xv_1输入到共享参数的大模型(如BERT模型);Xu_1、Xv_1经过大模型的处理得到嵌入向量U_1、V_1,其中cosine-sim(U_1,V_1)是计算U_1,V_1的余弦相似度,余弦相似度大于等于0输出1,小于0输出-1;-1表示不匹配、1表示匹配。
优选地,所述三元模型为:
将待匹配的两个核心元素Xu_1、Xv_1、以及其中一个的附属属性描述文本作为辅助元素(即相关信息),分别输入到对应的大模型中,形成各自向量,然后计算各自向量的相似度;
例如:将待匹配的两个名称分别定义为核心元素Xu_1、Xv_1,其中核心元素Xu_1包括辅助元素Xu_11;以核心元素Xu_1为项目名称,以核心元素Xv_1为定额名称;为进一步提升性能,使用了项目名称的规格参数Xu_11;将核心元素Xu_1(项目名称)、Xv_1(定额名称)分别输入到共享参数的大模型(如BERT_UV,BERT_UV是得到向量U_1和V_1的具有相同参数的BERT模型)得到嵌入向量U_1、V_1,将Xu_1的规格参数Xu_11输入到另一个大模型(如BERT_U11,BERT_U11也是一个BERT模型,仅为得到向量U_11)得到U_11。其中,BERT_UV和BERT_U11均为BERT模型,只是输入和输出不同,应用时参数不同。
获得嵌入向量U_1、U_11、V_1后,分别计算U_1和V_1、U_11和V_1向量的余弦相似度,以cosine-sim(U_1,V_1)表示计算U_1,V_1的余弦相似度,cosine-sim(U_11,V_1)计算U_11和V_1的余弦相似度,最后取它们余弦相似度的平均值;平均值大于等于0输出1,小于0输出-1。
优选地,所述四元模型为:
将待匹配的两个名称即核心元素Xu_1、Xv_1、及其附属属性(Xu_11、Xv_11),输入到对应的大模型中,形成各自的嵌入向量,然后计算它们的相似度。
进一步说明,将待匹配的两个名称分别定义为核心元素为Xu_1、Xv_1,令核心元素Xu_1、Xv_1的辅助元素为Xu_11、Xv_11;以Xu_1为项目名称,以Xv_1为定额名称,以项目名称规格参数为Xu_11,以定额名称的规格参数为Xv_11;(在三元模型的基础上,进一步使用了定额名称的规格参数为Xv_11)。
将核心元素Xu_1(项目名称)、Xv_1(定额名称)分别输入到共享参数的大模型(如BERT_UV)得到嵌入向量U_1、V_1,Xu_1的辅助元素Xu_11被送到了另一个大模型(如BERT_U11)得到嵌入向量U_11,Xv_1的辅助元素Xv_11被送到了另一个大模型(如BERT_V11)得到嵌入向量V_11。
四元模型是双元模型和三元模型的一个扩展,四元模型可以接收输入多个半结构文本,形成它们的向量。
把项目名称,项目名称规格参数,定额名称及其定额参数分别看成Xu_1、Xu_11、Xv_1、Xv_11四个半结构文本分别送进四个BERT模型,模型输出的这些文本对应的向量U_1、U_11、V_1、V_11。
获得嵌入向量U_1、U_11、V_1、V_11后,在计算U_1和V_1向量的余弦相似度、U_11和V_1向量的余弦相似度基础上在计算U_11和V_1、U_11和V_11,V_11和U_1的余弦相似度,取他们余弦相似度的平均值,其中平均值大于等于0输出1,小于0输出-1。
本发明中,核心元素Xu_1、Xv_1共享一个大模型,处理辅助元素Xu_1i、Xv_1j大模型的参数独立、不共享。
核心元素Xu_1、Xv_1为待匹配的具有相同或相近语义的两个名称,借鉴信息检索、信息推荐研究成果,采用共享参数的大模型处理。
参数的完全独立不共享的做法尽管能互不干扰,但是,由于BERT、GPT3等都是大模型,作为初代大模型的BERT只有12.7亿个参数,相对现在的大模型参数较少,能够运行在消费级显卡上,即高档PC而非专用服务器,GTP3参数量为1750亿,GLaM达到了1.2万亿参数,所以,本领域技术人员一般认为:如果让参数完全独立会使参数量大幅的增加,因此尽管模型依然可以运行,但是本领域技术人员并不会使参数完全独立且不共享。
现在讨论辅助元素Xu_1i、Xv_1j是否共享参数。首先考察辅助元素Xu_1i。继续以背景技术中所提及的“镀锌钢板”的规格参数“δ=0.8mm;长边长=450,制作风管”为例,这个参数与作为名称的核心元素存在显著不同,如果继续共享参数,容易造成模型微调的时候发生混淆,因此采用独立模型、非共享参数方式。同样,辅助元素“定额规格型号”“320mm”也不能与核心元素Xu_1、Xv_1共享一个大模型,需要采用独立模型、非共享参数方式。更进一步,探讨处理Xu_1、Xv_1的辅助参数的大模型是否能共享参数。例如,“镀锌钢板”的规格型号为“δ=0.8mm;长边长=450,制作风管”,与其对应的“定额规格型号”是“320mm”,二者文字、语义差异极大,难以通过相同参数的大模型获取嵌入向量。因此,辅助元素Xu_1i、Xv_1j通过独立的大模型获取嵌入向量。
为进一步避免模型微调的时候发生混淆的问题,本申请需要根据核心元素和辅助元素选择恰当的BERT模型进行微调。具体微调过程如下:
优选地,对于所述多元模型中的各个核心元素和辅助元素均进行微调算法;
对于核心元素的微调算法如下:
首先从已经半结构化的对象中获取关于核心元素的多条句子(或短语,以下简称为句子)此处多条指大量指上百万千万,把核心元素Xu_1和Xv_1嵌入到每条句子中,并把Xu_1和Xv_1分别mask(遮蔽)掉,送入BERT模型,分别得到Xu_1的mask的第i个词嵌入向量embeddingi记为U_i和Xv_1的mask的第i个词嵌入向量embeddingi记为V_i.最后取U_i和V_i的余弦相似度(1<=i<=batch,batch是一次迭代有多少条句子的意思)。
如果余弦相似度大于等于0就输出1,小于0就输出-1,损失函数用指数损失函数。用这样的方式训练一个共享参数的BERT模型。
其数学公式表达如下:
f1(x)=g(cosine-sim(U_i,V_i)) (1);
L(f(x),y)=e-yf(x) (2);
式(1)的g(cosine-sim(U_i,V_i))表示对于U_i和V_i的余弦相似度,余弦相似度大于等于0输出1,小于0输出-1,f1(x)是核心元素的微调算法调整后的BERT模型的匹配结果。
式(2)是指数损失函数,y是目标值,y为-1或1。
对于辅助元素的微调算法如下:
首先从已经半结构化的对象中获取关于辅助元素的多条句子(或短语,以下简称为句子)多条,把同一辅助元素嵌入到每条句子中两个不同的位置处(可以为随机两处),并把每条句子中的辅助元素mask(遮蔽)掉,把带mask的句子送入到BERT模型,获取句子中第一个mask的embeddingi为ai,第二个mask的embeddigi为bi(1<=i<=batch),取ai和bi的余弦相似度,其中余弦相似度大于等于0就输出1,小于0就输出-1,损失函数用指数损失函数。用这样的方式训练一个辅助元素的BERT模型。其数学公式表达如下:
f2(x)=g(cosine-sim(ai,bi)) (3);
函数(3)中的g(cosine-sim(ai,bi))表示对于ai和bi的余弦相似度,余弦相似度大于等于0输出1,小于0输出-1,f2(x)是辅助元素的微调算法调整后的BERT模型的匹配结果。
本发明还提供了一种半结构化文本匹配系统,所述一种半结构化文本匹配系统包括:处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种半结构化文本匹配方法中的步骤,所述一种半结构化文本匹配系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群,所述处理器执行所述计算机程序运行在以下系统的单元中:
半结构化文本获取单元,用于构建半结构化文本;
匹配对象获取单元,用于从半结构化文本中获取第一待匹配对象和第二待匹配对象;
匹配对象形式化单元,用于将第一待匹配对象和第二待匹配对象分别形式化为Xu、Xv;
多元模型匹配单元,用于构建多元模型,将Xu、Xv输入多元模型获取匹配结果。
本发明的有益效果为:
本发明提出一种半结构化文本匹配方法以多元模型解决半结构文本匹配问题。(1)根据业务场景(例如对于政务系统政务软件名称的匹配融入所属部门)构建出半结构化文本。(2)将半结构文本匹配问题形式化为分类问题。(3)每一个待匹配的文本及其附属文本都经过“元”的处理,根据待匹配的文本及其附属文本的特定选择共享或不共享参数的大模型(如BERT)处理待匹配文本及其附属文本,形成对应的嵌入向量。(4)在此基础上,进行分类。本发明同时阐述了如何微调大模型(如BERT)以提高多元模型的召回率。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为一种半结构化文本匹配方法的流程图;
图2所示为双元模型示意图;
图3所示为三元模型示意图;
图4所示为四元模型示意图;
图5所示为一种半结构化文本匹配系统的系统结构图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
如图1所示为根据本发明的一种半结构化文本匹配方法的流程图,下面结合图1来阐述根据本发明的实施方式的一种半结构化文本匹配方法及系统。
本发明提出一种半结构化文本匹配方法,所述方法具体包括以下步骤:
构建半结构化文本;
从半结构化文本中获取第一待匹配对象和第二待匹配对象;
将第一待匹配对象和第二待匹配对象分别形式化为Xu、Xv;
构建多元模型,将Xu、Xv输入多元模型获取匹配结果。
进一步地,所述半结构化文本包括至少两个的表头或者主题名称。
优选地,所述半结构化文本为发票、证件、简历、保险单、采购单据、行业报告或者商务邮件的电子数据中任意一种此外,所述半结构化文本也可以为Excel的表格。
进一步地,从半结构化文本中获取第一待匹配对象和第二待匹配对象的意义为:从半结构化文本中获取不同的表头或者主题名称分别作为第一待匹配对象和第二待匹配对象。
半结构化文本的构造:
传统上,我们直接针对目标进行匹配,例如对于预算系统,进行项目名称(如“镀锌钢板(天圆地方)”和定额名称(如“装配式镀锌薄钢板矩形风管”)的匹配。但是这种匹配,并没有充分利用其他有用信息。对于轨道交通系统,有(标准的)定额库和(非标准的)提资清单,其中定额库包括定额名称、定额规格型号等数据,提资清单包括项目名称、规格型号等信息。在匹配过程中规格型号等信息能给提供非常重要的信息,如规格型号带有“直径”类描述意味着“圆”、“圆柱”等形物体。
对于更复杂的行政事项,如“海关行政复议”政务服务事项办事指南,见以下参考文献:(http://www.customs.gov.cn/guangdong_sub/zwgk62/xzfy90/3048970/index.html)需要采用信息抽取(Information Extraction)技术形成本发明所需的半结构化文本。
对于预算系统的项目名称和定额名称的匹配,本发明构造的半结构化的信息如下表1所示:
表1
采用相同的方法,对于政务系统的系统名称匹配,构造的半结构化的信息如下表2所示:
表2
将上述情况形式化,具体为:
进一步地,将第一待匹配对象和第二待匹配对象分别形式化为Xu、Xv的方法具体为:
设第一待匹配对象和第二待匹配对象分别为Xu、Xv:
其中,Xu={Xu_1,Xu_11,Xu_12,...,Xu_1m};Xv={Xv_1,Xv_11,Xv_12,...,Xv_1n};
其中Xu_1、Xv_1为待匹配Xu和Xv的核心元素;(Xu_1、Xv_1为第一待匹配对象和第二待匹配对象对应的表头或者主题名称的中的待匹配数据);
而Xu_1i、Xv_1j分别为Xu和Xv的第i个和第j个相关信息,记为第i个和第j个辅助元素(Xu_1i、Xv_1j为除了第一待匹配对象和第二待匹配对象之外的表头或者主题名称分别与Xu_1、Xv_1对应的数据),这些信息用于辅助Xu和Xv的匹配,其中,i和j分别为Xu和Xv中相关信息的序号;1<=i<=m,1<=j<=n;m和n分别为Xu和Xv中相关信息的数量;
令f(Xu,Xv)∈{-1,1};f(Xu,Xv)的值为1表示Xu_1和Xv_1能够匹配上,f(Xu,Xv)的值为-1表示Xu_1和Xv_1不匹配,f(Xu,Xv)是Xu_1和Xv_1的匹配结果。
进一步地,所述多元模型为双元模型、三元模型和四元模型中任意一种。
第一待匹配对象和第二待匹配对象Xu、Xv的核心元素分别是Xu1、Xv1,以核心元素为中心,辅助核心元素的辅助元素Xu_1i、Xv_1j分别为Xu和Xv的m个和n个辅助信息,1<=i<=m,1<=j<=n;
将Xu、Xv中的每个元素都经由大模型(即多元模型中每一个“元”)处理,得到其对应的嵌入向量;其中,所述本大模型可以为BERT模型或者GPT3模型;在获得各元素对应的嵌入向量后,通过余弦及其组合的方法计算对象Xu、Xv的匹配情况,从而完成核心元素Xu_1i、Xv_1j的匹配。
其中,核心元素Xu_1、Xv_1共享一个大模型,处理辅助元素Xu_1i、Xv_1j大模型的参数独立、不共享;在多元模型中,处理核心元素Xu_1、Xv_1的大模型共享相同的参数。
优选地,如图2所示,所述双元模型为:把一对待匹配的名称作为核心元素Xu_1、Xv_1输入到共享参数的大模型(如BERT模型);Xu_1、Xv_1经过大模型的处理得到嵌入向量U_1、V_1,其中cosine-sim(U_1,V_1)是计算U_1,V_1的余弦相似度,余弦相似度大于等于0输出1,小于0输出-1;-1表示不匹配、1表示匹配。
优选地,如图3所示,所述三元模型为:
将待匹配的两个核心元素Xu_1、Xv_1、以及其中一个的附属属性描述文本作为辅助元素(即相关信息),分别输入到对应的大模型中,形成各自向量,然后计算各自向量的相似度;
例如:将待匹配的两个名称分别定义为核心元素Xu_1、Xv_1,其中核心元素Xu_1包括辅助元素Xu_11;以核心元素Xu_1为项目名称,以核心元素Xv_1为定额名称;为进一步提升性能,使用了项目名称的规格参数Xu_11;将核心元素Xu_1(项目名称)、Xv_1(定额名称)分别输入到共享参数的大模型(如BERT_UV,BERT_UV是得到向量U_1和V_1的具有相同参数的BERT模型)得到嵌入向量U_1、V_1,将Xu_1的规格参数Xu_11输入到另一个大模型(如BERT_U11,BERT_U11也是一个BERT模型,仅为得到向量U_11)得到U_11。其中,BERT_UV和BERT_U11均为BERT模型,只是输入和输出不同,应用时参数不同。
获得嵌入向量U_1、U_11、V_1后,分别计算U_1和V_1、U_11和V_1向量的余弦相似度,以cosine-sim(U_1,V_1)表示计算U_1,V_1的余弦相似度,cosine-sim(U_11,V_1)计算U_11和V_1的余弦相似度,最后取它们余弦相似度的平均值;平均值大于等于0输出1,小于0输出-1。
优选地,如图4所示,所述四元模型为:
将待匹配的两个名称即核心元素Xu_1、Xv_1、及其附属属性(Xu_11、Xv_11),输入到对应的大模型中,形成各自向量,然后计算它们的相似度。
进一步说明,将待匹配的两个名称分别定义为核心元素为Xu_1、Xv_1,令核心元素Xu_1、Xv_1的辅助元素为Xu_11、Xv_11;以Xu_1为项目名称,以Xv_1为定额名称,以项目名称规格参数为Xu_11,以定额名称的规格参数为Xv_11;(在三元模型的基础上,进一步使用了定额名称的规格参数为Xv_11)。
将核心元素Xu_1(项目名称)、Xv_1(定额名称)分别输入到共享参数的大模型(如BERT_UV)得到嵌入向量U_1、V_1,Xu_1的辅助元素Xu_11被送到了另一个大模型(如BERT_U11)得到嵌入向量U_11,Xv_1的辅助元素Xv_11被送到了另一个大模型(如BERT_V11)得到嵌入向量V_11。
四元模型是双元模型和三元模型的一个扩展,四元模型可以接收输入多个半结构文本,形成它们的向量。
把项目名称,项目名称规格参数,定额名称及其定额参数分别看成Xu_1、Xu_11、Xv_1、Xv_11四个半结构文本送进多个BERT模型,模型输出的这些文本对应的向量U_1、U_11、V_1、V_11。
获得嵌入向量U_1、U_11、V_1、V_11后,在计算U_1和V_1向量的余弦相似度、U_11和V_1向量的余弦相似度基础上在计算U_11和V_1、U_11和V_11,V_11和U_1的余弦相似度,取他们余弦相似度的平均值,其中平均值大于等于0输出1,小于0输出-1。
其中,所述的各个大模型为需要经过共享、参数独立化;
本发明中,核心元素Xu_1、Xv_1共享一个大模型,处理辅助元素Xu_1i、Xv_1j大模型的参数独立、不共享。
核心元素Xu_1、Xv_1为待匹配的具有相同或相近语义的两个名称,借鉴信息检索、信息推荐研究成果,采用共享参数的大模型处理。
参数的完全独立不共享的做法尽管能互不干扰,但是,由于BERT、GPT3等都是大模型,作为初代大模型的BERT只有12.7亿个参数,相对现在的大模型参数较少,能够运行在消费级显卡上,即高档PC而非专用服务器,GTP3参数量为1750亿,GLaM达到了1.2万亿参数,所以,本领域技术人员一般认为:如果让参数完全独立会使参数量大幅的增加,因此尽管模型依然可以运行,但是本领域技术人员并不会使参数完全独立且不共享。
现在讨论辅助元素Xu_1i、Xv_1j是否共享参数。首先考察辅助元素Xu_1i。继续以背景技术中所提及的“镀锌钢板”的规格参数“δ=0.8mm;长边长=450,制作风管”为例,这个参数与作为名称的核心元素存在显著不同,如果继续共享参数,容易造成模型微调的时候发生混淆,因此采用独立模型、非共享参数方式。同样,辅助元素“定额规格型号”“320mm”也不能与核心元素Xu_1、Xv_1共享一个大模型,需要采用独立模型、非共享参数方式。更进一步,探讨处理Xu_1、Xv_1的辅助参数的大模型是否能共享参数。例如,“镀锌钢板”的规格型号为“δ=0.8mm;长边长=450,制作风管”,与其对应的“定额规格型号”是“320mm”,二者文字、语义差异极大,难以通过相同参数的大模型获取嵌入向量。因此,辅助元素Xu_1i、Xv_1j通过独立的大模型获取嵌入向量。
为进一步避免模型微调的时候发生混淆的问题,本申请需要根据核心元素和辅助元素选择恰当的BERT模型进行微调。具体微调过程如下:
优选地,对于所述多元模型中的各个核心元素和辅助元素均进行微调算法;
对于核心元素的微调算法如下:
首先(在语料库中)获取多条句子,把核心元素Xu_1和Xv_1嵌入到每条句子中,并把Xu_1和Xv_1分别mask(遮蔽)掉,送入BERT模型,分别得到Xu_1的mask的第i个词嵌入向量embeddingi记为U_i和Xv_1的mask的第i个词嵌入向量embeddingi记为V_i.最后取U_i和V_i的余弦相似度(1<=i<=batch,batch是一次迭代有多少条句子的意思)。
如果余弦相似度大于等于0就输出1,小于0就输出-1,损失函数用指数损失函数。用这样的方式训练一个共享参数的BERT模型。
其数学公式表达如下:
f1(x)=g(cosine-sim(U_i,V_i)) (1);
L(f(x),y)=e-yf(x) (2);
式(1)的g(cosine-sim(U_i,V_i))表示对于U_i和V_i的余弦相似度,余弦相似度大于等于0输出1,小于0输出-1,f1(x)是核心元素的微调算法调整后的BERT模型的匹配结果。
式(2)是指数损失函数,y是目标值,y为-1或1。
对于辅助元素的微调算法如下:
首先(在语料库中)获取多条句子,把同一辅助元素嵌入到每条句子中两个不同的位置处(可以为随机两处),并把句子中的辅助元素mask(遮蔽)掉,把带mask的句子送入到BERT模型,获取句子中第一个mask的embeddingi为ai,第二个mask的embeddigi为bi(1<=i<=batch),取ai和bi的余弦相似度,其中余弦相似度大于等于0就输出1,小于0就输出-1,损失函数用指数损失函数。用这样的方式训练一个辅助元素的BERT模型。其数学公式表达如下:
f2(x)=g(cosine-sim(ai,bi)) (3);
函数(3)中的g(cosine-sim(ai,bi))表示对于ai和bi的余弦相似度,余弦相似度大于等于0输出1,小于0输出-1,f2(x)是辅助元素的微调算法调整后的BERT模型的匹配结果。
优选地,以下方法就是找到项目名称匹配的定额名称核心算法(pytorch和transformers框架的核心代码)实现如下:
设多元模型为model,设待匹配短文本特征向量集合为X_u;
设与之匹配的短文本集的特征向量集合为X_v;
def find(model);
embed01=model.getembed(str1)获取str1字符的空间向量;
ans=[];
for embed01 in X_u:
maxv=-1;
value=None;
for embed02 in X_v:
cosi=cosine-sim(embed01,embed02)得到两个向量的余弦相似度;
if cosi>maxv:
maxv=cosi;
upadata(value)//更新答案;
ans.append(value);
return ans;
微调部分基于pytorch和transformers框架的核心代码如下:
def train():
bertmodel,berttoken//bertmodel表示transformers的bert模型,berttoken表示transformers框架的berttoken;
loss_sc//表示损失函数;
bert_op//表示优化器;
data//表示数据集;
//下面是开始训练的代码;
for index,data in enumerate(data):
strs,tager=data;
l=len(strs);
inputs=berttoken(strs,return_tensors='pt',padding=True,truncation=True);
ouput=bertmodel(**inputs.to(device)).last_hidden_state;
prdict=None;
for i in range(l):
mask_token_index=(inputs.input_ids==berttoken.mask_token_id)[i].nonzero(as_tuple=True)[0];
newouput=ouput[i][0,mask_token_index];
score=torch.unsqueeze((torch.cosine_similarity(newouput[0],newouput[1],0)+1.0),0);
if prdict==None:
prdict=score;
else:
prdict=torch.cat((prdict,score),0);
tager=tager.cuda();
loss=loss_cr(prdict.float(),tager.float()).cuda();
bert_op.zero_grad();
loss.backward();
bert_op.step()。
应用效果如下:
在实验中采集了310条不同的项目名称数据,划分出其中265条作为封闭集用于训练,46条作为开放集用于测试。其中轨道交通预算系统在四元模型、三元模型、双元模型下的测试结果如表3所示:
双元模型:在轨道交通预算系统双元模型是把定额名称,项目名称送入两个共享参数的微调BERT模型进行微调。
三元模型:在轨道交通预算系统中三元模型是把项目名称,项目名称加规格参数,定额名称送进三个共享参数的微调BERT模型进行微调。
四元模型:在轨道交通预算系统中多元模型是把项目名称,项目名称加规格参数,定额名称,定额名称加定额参数送进四个共享参数的微调BERT模型进行微调。
评估函数:项目名称加规格参数组成字符串的特征向量与整个定额库中定额名称加定额参数字符串的特征向量集合算余弦相似度,取相似度高的作为匹配结果。(其中Recall@1,Recall@3...Recall@n表示与整个定额库中的定额名称匹配后余弦相似度最高的前n个包含正确定额名称的结果)。实验结果表明:本发明提出的多元模型性能显著优于双元模型。
表3
所述一种半结构化文本匹配系统包括:处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种半结构化文本匹配方法实施例中的步骤,所述一种半结构化文本匹配系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群。
本发明的实施例提供的一种半结构化文本匹配系统,如图5所示,该实施例的一种半结构化文本匹配系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种半结构化文本匹配方法实施例中的步骤,所述处理器执行所述计算机程序运行在以下系统的单元中:
半结构化文本获取单元,用于构建半结构化文本;
匹配对象获取单元,用于从半结构化文本中获取第一待匹配对象和第二待匹配对象;
匹配对象形式化单元,用于将第一待匹配对象和第二待匹配对象分别形式化为Xu、Xv;
多元模型匹配单元,用于构建多元模型,将Xu、Xv输入多元模型获取匹配结果。
所述一种半结构化文本匹配系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中。所述一种半结构化文本匹配系统包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种半结构化文本匹配方法及系统的示例,并不构成对一种半结构化文本匹配方法及系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种半结构化文本匹配系统还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种半结构化文本匹配系统的控制中心,利用各种接口和线路连接整个一种半结构化文本匹配系统的各个分区域。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种半结构化文本匹配方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
Claims (10)
1.一种半结构化文本匹配方法,其特征在于,所述方法包括以下步骤:
构建半结构化文本;
从半结构化文本中获取第一待匹配对象和第二待匹配对象;
将第一待匹配对象和第二待匹配对象分别形式化为Xu、Xv;
构建多元模型,将Xu、Xv输入多元模型获取匹配结果。
2.根据权利要求1所述的一种半结构化文本匹配方法,其特征在于,所述半结构化文本包括至少两个的表头或者主题名称;从半结构化文本中获取第一待匹配对象和第二待匹配对象的意义为:从半结构化文本中获取不同的表头或者主题名称分别作为第一待匹配对象和第二待匹配对象。
3.根据权利要求1所述的一种半结构化文本匹配方法,其特征在于,将第一待匹配对象和第二待匹配对象分别形式化为Xu、Xv的方法具体为:
设第一待匹配对象和第二待匹配对象分别为Xu、Xv:
其中,Xu={Xu_1,Xu_11,Xu_12,...,Xu_1m};Xv={Xv_1,Xv_11,Xv_12,...,Xv_1n};
其中Xu_1、Xv_1为待匹配Xu和Xv的核心元素;
而Xu_1i、Xv_1j分别为Xu和Xv的第i个和第j个相关信息,记为第i个和第j个辅助元素,这些信息用于辅助Xu和Xv的匹配,其中,i和j分别为Xu和Xv中相关信息的序号;1<=i<=m,1<=j<=n;m和n分别为Xu和Xv中相关信息的数量;
令f(Xu,Xv)∈{-1,1};f(Xu,Xv)的值为1表示Xu_1和Xv_1能够匹配上,f(Xu,Xv)的值为-1表示Xu_1和Xv_1不匹配,f(Xu,Xv)是Xu_1和Xv_1的匹配结果。
4.根据权利要求1所述的一种半结构化文本匹配方法,其特征在于,所述多元模型为双元模型、三元模型和四元模型中任意一种。
5.根据权利要求4所述的一种半结构化文本匹配方法,其特征在于,所述双元模型为:把一对待匹配的名称作为核心元素Xu_1、Xv_1输入到共享参数的大模型;Xu_1、Xv_1经过大模型的处理得到嵌入向量U_1、V_1,其中cosine-sim(U_1,V_1)是计算U_1,V_1的余弦相似度,余弦相似度大于等于0输出1,小于0输出-1;-1表示不匹配、1表示匹配。
6.根据权利要求4所述的一种半结构化文本匹配方法,其特征在于,所述三元模型为:
将待匹配的两个名称分别定义为核心元素Xu_1、Xv_1,其中核心元素Xu_1包括辅助元素Xu_11;以核心元素Xu_1为项目名称,以核心元素Xv_1为定额名称;将核心元素Xu_1、Xv_1分别输入到共享参数的大模型得到嵌入向量U_1、V_1,将Xu_1的规格参数Xu_11输入到另一个大模型得到U_11;
获得嵌入向量U_1、U_11、V_1后,分别计算U_1和V_1、U_11和V_1向量的余弦相似度,以cosine-sim(U_1,V_1)表示计算U_1,V_1的余弦相似度,cosine-sim(U_11,V_1)计算U_11和V_1的余弦相似度,最后取它们余弦相似度的平均值;平均值大于等于0输出1,小于0输出-1。
7.根据权利要求4所述的一种半结构化文本匹配方法,其特征在于,所述四元模型为:
将待匹配的两个名称分别定义为核心元素为Xu_1、Xv_1,令核心元素Xu_1、Xv_1的辅助元素为Xu_11、Xv_11;以Xu_1为项目名称,以Xv_1为定额名称,以项目名称规格参数为Xu_11,以定额名称的规格参数为Xv_11;将核心元素Xu_1、Xv_1分别输入到共享参数的大模型得到嵌入向量U_1、V_1,把Xu_1的辅助元素Xu_11送到另一个大模型得到嵌入向量U_11,Xv_1的辅助元素Xv_11被送到了另一个大模型得到嵌入向量V_11;即,把项目名称,项目名称规格参数,定额名称及其定额参数分别看成Xu_1、Xu_11、Xv_1、Xv_11四个半结构文本分别送进四个BERT模型,模型输出的这些文本对应的向量U_1、U_11、V_1、V_11;
获得嵌入向量U_1、U_11、V_1、V_11后,在计算U_1和V_1向量的余弦相似度、U_11和V_1向量的余弦相似度基础上在计算U_11和V_1、U_11和V_11,V_11和U_1的余弦相似度,取他们余弦相似度的平均值,其中平均值大于等于0输出1,小于0输出-1。
8.根据权利要求5到7中任意一种所述的一种半结构化文本匹配方法,其特征在于,核心元素Xu_1、Xv_1共享一个大模型,处理辅助元素Xu_1i、Xv_1j大模型的参数独立、不共享。
9.根据权利要求4所述的一种半结构化文本匹配方法,其特征在于,对于核心元素的微调算法如下:
首先获取多条句子,把核心元素Xu_1和Xv_1嵌入到每条句子中,并把Xu_1和Xv_1分别mask掉,送入BERT模型,分别得到Xu_1的mask的第i个词嵌入向量embeddingi记为U_i和Xv_1的mask的第i个词嵌入向量embeddingi记为V_i.最后取U_i和V_i的余弦相似度;
如果余弦相似度大于等于0就输出1,小于0就输出-1,损失函数用指数损失函数,用这样的方式训练一个共享参数的BERT模型;
其数学公式表达如下:
f1(x)=g(cosine-sim(U_i,V_i)) (1);
L(f(x),y)=e-yf(x) (2);
式(1)的g(cosine-sim(U_i,V_i))表示对于U_i和V_i的余弦相似度,余弦相似度大于等于0输出1,小于0输出-1;
式(2)是指数损失函数,y是目标值,y为-1或1;
对于辅助元素的微调算法如下:
首先获取多条句子,把同一辅助元素嵌入到句子中的2处,并把句子中的辅助元素mask掉,把带mask的句子送入到BERT模型,获取句子中第一个mask的embeddingi为ai,第二个mask的embeddigi为bi,取ai和bi的余弦相似度,其中余弦相似度大于等于0就输出1,小于0就输出-1,损失函数用指数损失函数,用这样的方式训练一个辅助元素的BERT模型,其数学公式表达如下:
f2(x)=g(cosine-sim(ai,bi)) (3);
函数(3)中的g(cosine-sim(ai,bi))表示对于ai和bi的余弦相似度,余弦相似度大于等于0输出1,小于0输出-1。
10.一种半结构化文本匹配系统,其特征在于,所述一种半结构化文本匹配系统包括:处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的一种半结构化文本匹配方法中的步骤,所述一种半结构化文本匹配系统运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的计算设备中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310160692.5A CN116127334B (zh) | 2023-02-22 | 2023-02-22 | 一种半结构化文本匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310160692.5A CN116127334B (zh) | 2023-02-22 | 2023-02-22 | 一种半结构化文本匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116127334A true CN116127334A (zh) | 2023-05-16 |
CN116127334B CN116127334B (zh) | 2024-07-05 |
Family
ID=86308134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310160692.5A Active CN116127334B (zh) | 2023-02-22 | 2023-02-22 | 一种半结构化文本匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127334B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN112000805A (zh) * | 2020-08-24 | 2020-11-27 | 平安国际智慧城市科技股份有限公司 | 基于预训练模型的文本匹配方法、装置、终端及存储介质 |
CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
US20210216716A1 (en) * | 2020-04-23 | 2021-07-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, electronic device, and storage medium for entity linking |
CN113569554A (zh) * | 2021-09-24 | 2021-10-29 | 北京明略软件系统有限公司 | 一种数据库中实体对匹配方法、装置、电子设备及存储介质 |
CN113569011A (zh) * | 2021-07-27 | 2021-10-29 | 马上消费金融股份有限公司 | 文本匹配模型的训练方法、装置、设备及存储介质 |
CN114186978A (zh) * | 2021-12-17 | 2022-03-15 | 中国人民解放军国防科技大学 | 简历与岗位匹配度预测方法及相关设备 |
CN115587595A (zh) * | 2022-11-03 | 2023-01-10 | 重庆邮电大学 | 一种用于病理文本命名的多粒度实体识别方法 |
-
2023
- 2023-02-22 CN CN202310160692.5A patent/CN116127334B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
US20210216716A1 (en) * | 2020-04-23 | 2021-07-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, electronic device, and storage medium for entity linking |
CN112000805A (zh) * | 2020-08-24 | 2020-11-27 | 平安国际智慧城市科技股份有限公司 | 基于预训练模型的文本匹配方法、装置、终端及存储介质 |
CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
CN113569011A (zh) * | 2021-07-27 | 2021-10-29 | 马上消费金融股份有限公司 | 文本匹配模型的训练方法、装置、设备及存储介质 |
CN113569554A (zh) * | 2021-09-24 | 2021-10-29 | 北京明略软件系统有限公司 | 一种数据库中实体对匹配方法、装置、电子设备及存储介质 |
CN114186978A (zh) * | 2021-12-17 | 2022-03-15 | 中国人民解放军国防科技大学 | 简历与岗位匹配度预测方法及相关设备 |
CN115587595A (zh) * | 2022-11-03 | 2023-01-10 | 重庆邮电大学 | 一种用于病理文本命名的多粒度实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116127334B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Casm: A deep-learning approach for identifying collective action events with text and image data from social media | |
WO2020224219A1 (zh) | 中文分词方法、装置、电子设备及可读存储介质 | |
US8972408B1 (en) | Methods, systems, and articles of manufacture for addressing popular topics in a social sphere | |
CN110781299A (zh) | 资产信息识别方法、装置、计算机设备及存储介质 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN112215008B (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
US12073176B2 (en) | System and method for a thing machine to perform models | |
CN112131881B (zh) | 信息抽取方法及装置、电子设备、存储介质 | |
TWI745777B (zh) | 資料歸檔方法、裝置、電腦裝置及存儲媒體 | |
CN112597300A (zh) | 文本聚类方法、装置、终端设备及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
Qian et al. | Detecting new Chinese words from massive domain texts with word embedding | |
WO2019041528A1 (zh) | 新闻情感方向判断方法、电子设备及计算机可读存储介质 | |
CN110209772B (zh) | 一种文本处理方法、装置、设备及可读存储介质 | |
CN116152840A (zh) | 文件分类方法、装置、设备和计算机存储介质 | |
CN116719997A (zh) | 政策信息推送方法、装置及电子设备 | |
CN111444712A (zh) | 一种关键词提取方法、终端、计算机可读存储介质 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
Andriyanov | Combining Text and Image Analysis Methods for Solving Multimodal Classification Problems | |
CN112529743A (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
CN116127334B (zh) | 一种半结构化文本匹配方法及系统 | |
Hambley et al. | Web structure derived clustering for optimised web accessibility evaluation | |
CN110888940A (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
CN112685574B (zh) | 领域术语层次关系的确定方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 528200 No. 33, Guangyun Road, Shishan town, Nanhai District, Foshan City, Guangdong Province Patentee after: Foshan University Country or region after: China Address before: 528200 No. 33, Guangyun Road, Shishan town, Nanhai District, Foshan City, Guangdong Province Patentee before: FOSHAN University Country or region before: China |
|
CP03 | Change of name, title or address |